JPWO2015063873A1 - 情報検索システムおよび情報検索方法 - Google Patents

情報検索システムおよび情報検索方法 Download PDF

Info

Publication number
JPWO2015063873A1
JPWO2015063873A1 JP2015544681A JP2015544681A JPWO2015063873A1 JP WO2015063873 A1 JPWO2015063873 A1 JP WO2015063873A1 JP 2015544681 A JP2015544681 A JP 2015544681A JP 2015544681 A JP2015544681 A JP 2015544681A JP WO2015063873 A1 JPWO2015063873 A1 JP WO2015063873A1
Authority
JP
Japan
Prior art keywords
search
document
information
information processing
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015544681A
Other languages
English (en)
Other versions
JP6140835B2 (ja
Inventor
直人 秋良
直人 秋良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPWO2015063873A1 publication Critical patent/JPWO2015063873A1/ja
Application granted granted Critical
Publication of JP6140835B2 publication Critical patent/JP6140835B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

データベースを構築することなく、情報を知りたいトピックの文書の所有者を高精度に検索する。入力されたクエリを、ネットワークに接続されている他のPCに送信し、他の複数のPCでクエリに適合する文書を、文書中のテキストと画像の両方を用いて検索し、クエリの送信元のPCで受信した、複数の検索結果を、人物情報と関連文書の情報と共に表示する。

Description

本発明は、ユーザが入力したクエリを用いて、ネットワークに接続されている他のPCの文書情報を検索することが可能な情報検索システムに関する。
企業内の情報共有が進まない理由のひとつとして、情報が欲しくても誰が情報を保有しているか分からないという問題が挙げられる。この問題を解決するために、欲しい情報の所有者を探すKnowWhoシステムが登場し、誰にコンタクトをとれば欲しい情報が得られるかをキーワードなどで容易に検索できるようになった。
しかし、KnowWhoシステムで人物を検索するために用いられるデータは、キーワードが含まれているデータの所有者が、必ずしも最適な情報の保有者とは限らない。例えば、掲示板やメールのデータを検索対象とした場合、情報を保有していないユーザが問い合わせなどで記載したデータが検索されてしまい、所望のユーザが得られない場合がある。
そこで、特許文献1では、記事を検索対象としたKnowWhoシステムにおいて、記事間のリンク情報を活用し、情報の保有者をスコア付けすることで、欲しい保有者を取得する方法が述べられている。
特開2007−241889号公報
特許文献1や従来のKnowWhoシステムでは、メール、掲示板、共有文書などを検索対象としていたが、情報の網羅性やプライバシーの点でデータの構築が困難であるという問題があった。具体的には、検索対象とされた文書の作成者が、自分のPCのみに保存されている文書の公開は控えたいという課題があった。KnowWhoシステムでは、情報の保有者を探すための情報源が、活用可否を判定する要となるため、従来のKnowWhoシステムでは、共有文書など、情報保有者が公開しても構わない文書や、公開可能な情報が用いられていた。
また、テキストのみを用いた検索では、キーワードが示すトピックの記事が多い場合に、人物の特定に用いる検索結果に文書を絞り込むことが困難であるという問題があった。
そこで、本発明にかかるKnowWhoシステムでは、プライバシーに配慮しつつ、高精度に情報の保有者を検索することを目的とする。
上記課題を解決するための手段としては、本明細書中に記載したさまざまな形態があるが、その一例として請求の範囲に記載の構成を採用することができる。すなわち、ネットワークを介して接続された管理装置と第1および第2の情報処理装置とを有する情報検索システムであって、それぞれの情報処理装置は、ユーザーからの検索要求を受け付ける入力部と、ユーザの作成した文書を蓄積する記憶部と、記憶部内の文書を検索する検索部と、検索結果である文書の数を出力する出力部と、他の情報処理装置からの検索結果をまとめた最終検索結果を表示する表示部と、を有し、第1の情報処理装置の入力部が検索要求を受け付けると、第1の処理装置は管理装置へ検索要求と検索対象となる第2の情報処理装置を指定するポリシー情報を送信し、管理装置は、ポリシー情報において指定された第2の情報処理装置に検索要求を送信し、第2の情報処理装置の検索部は、第2の処理装置の記憶部を検索し、検索要求に合致する文書の数、または検索要求に適合する情報の多さを示すスコアを検索結果として管理装置へ出力し、第1の情報処理装置は、管理装置から送信された第2の情報処理装置からの結果を元に、検索要求に合致する文書を保存している第2の情報処理装置のユーザを、最終検索結果として表示することを特徴とする。
または、ネットワークを介して接続された管理装置と第1および第2の情報処理装置とを用いた情報検索方法であって、第1の情報処理装置がユーザからの検索要求を受け付けるステップと、第1の情報処理装置が管理装置へ、検索要求と検索対象となる第2の情報処理装置を指定するポリシー情報とを送信するステップと、管理装置が、ポリシー情報において指定された第2の情報処理装置に検索要求を送信するステップと、第2の情報処理装置が、第2の情報処理装置の記憶部に記憶されている文書を検索するステップと、第2の情報処理装置が、検索要求に合致する文書の数を検索結果として管理装置へ送信するステップと、管理装置が、検索結果を元に検索要求に合致する文書を保存している第2の情報処理装置のユーザを、第1の情報処理装置へ送信するステップと、第1の情報処理装置が、第2の情報処理装置のユーザを最終検索結果として表示するステップと、を有することを特徴とする。
本発明によれば、PCに保存されている文書を活用することで、KnowWho用のデータベースを構築することがなくKnowWhoシステムが実現できる効果がある。また、文書中の画像を活用することで高精度に情報の保有者を検索できる効果がある。
本発明の実施の形態の文書検索システムの構成を示す図である。 本発明の実施の形態のPCの構成の一例を示すブロック図である。 検索用DBの一例を示す図である。 検索用DB(画像)の一例を示す図である。 検索用DB(レイアウト)の一例を示す図である。 文書情報DBの一例を示す図である。 画像からエッジパターンのヒストグラムを生成する一例を示す図である。 本発明の実施の形態の管理サーバの構成の一例を示すブロック図である。 PC情報の一例を示す図である。 本発明の実施の形態の文書を検索する手順を示すフローチャートである。 クエリの入力画面の一例を示す図である。 検索結果の表示画面の一例を示す図である。 検索処理の流れの例を示したシーケンス図である。
次に、本発明の第一の実施の形態について、図面を参照して説明する。
図1は、本発明の実施の文書検索システムの一例を示す構成図である。図1において、文書検索システムは、ユーザが文書作成業務等に使用する複数のPC101と、複数のPC101の情報を管理する管理サーバ102と、PC101と管理サーバ102を接続するネットワーク103を主体に構成される。
次に、PC101の構成要素について、図2乃至図7を参照しながら以下に説明する。本実施例の検索システムは、検索を行うユーザによってPC端末101に入力されたクエリに適合する文書を、ネットワークを介して接続された他のPC101の記憶部内から検索するシステムである。具体的には、各PC101は図2に示すように、CPU201、メモリ202、入力部203、表示部204、通信部205および記憶部210を含む計算機で構成される。記憶部210には、OS211と、文書データ212と、検索用DB213と、文書情報DB214と、文書解析プログラム215と、文書検索プログラム216と、画像検索プログラム217と、人物検索プログラム218と、共有管理プログラム219と、画面表示プログラム220とが格納される。
ユーザPC101から文書の検索要求を受け付けた管理サーバは、検索要求とともに受信した、他のPC101を検索対象として指定するポリシー情報に従い、検索要求を他のPC101へと送信する。他のPC101は、管理サーバ102から受信した検索要求にしたがって、自ら記憶部に蓄積された文書データを検索し、検索結果をユーザPCへと送信する。尚、詳細は後述する処理の手順に記載するが、多量の検索要求が生じた場合に、各々のPC101の負荷が高くなることを防止するために、過去の検索履歴を管理サーバに蓄積し、一定期間内に検索された同じ検索要求があった場合には、その検索履歴の結果を参照するなど、代替処理で取得した検索結果をユーザPCへと送信する構成にすることも可能である。
なお、代替処理における負荷を低減する方法についての詳細は後述する。原則としては、負荷に応じて、検索方法を変更(キーワード検索のみ、レイアウトの類似のみ)する。また、負荷が高い場合は、検索できない旨を返信するか、負荷が低くなるまで処理をペンディングして、検索要求者に、ペンディング中であることを通知してもよい。また、負荷に応じて、管理サーバで代理処理を行う構成としても良い。
文書データ212には、たとえば、マイクロソフト社のMicrosoft Office(登録商標)などの文書作成ソフトにより作成された文書が保存されており、ファイルシステム上に、ファイルの形式で保存されている。尚、文書検索システムは、文書データ212の参照のみ行い、更新は行わない。記憶部210に蓄積された文書データは、原則として、そのPC101の所有者が作成した文書である。ここで、本明細書でいう文書とは、テキストと、画像と、その構造情報を蓄積したファイルのことを示し、たとえば、メール、webページ、会議資料、報告書などのコンピュータに保存されるコンテンツを総称して、文書と記載する。文書中に複数のページがある場合には、ページ毎にトピックが異なることがあるため、1ページを1文書として扱っても構わない。また、テキストおよび図面で構成されるMicrosoft Office(登録商標)などの文書ソフトにより作成された文書については、ページの見た目を画像にしたものをレイアウトと呼び、図形や写真などのように色または形状などで構成される文書に含まれる画像を図面と呼ぶ。
検索用DB213には、複数の文書の検索用の情報が登録されており、文書検索プログラム216で検索可能な形式で格納されている。検索用の情報は、図3に例を示すように、文書IDと、テキストと、キーワードリストと、画像リストと、ファイルタイプと、属性情報とが登録される。また、図4および図5に例を示すように、文書に含まれる図形や写真などの画像から取得した画像の見た目の特徴を数値化した画像特徴量と、文書のレイアウトの見た目の特徴を数値化した画像特徴量などが登録される。尚、文書からの画像およびレイアウトの取得は、文書解析プログラム215を用いて取得する。この画像特徴量に関しては、画像検索プログラム217の説明で詳細を述べる。
文書情報DB214には、図6に例を示すように、文書IDと、ファイルパスと、検索可否および閲覧可否を示す情報と、文書作成者の情報とが登録される。検索可否と閲覧可否の初期値は、各PCのユーザ、すなわち文書の作成者が指定した値が登録されており、作成者からの要求に応じて、検索可否と閲覧可否との検索許可情報および公開許可情報を更新する。
実際に検索を行う検索部(CPU201)は検索可とされた文書のみを検索し、検索否となっている文書については検索対象から除外する。また、閲覧可否についてのフラグである公開許可情報については、後述する共有管理プログラム219が行い、検索を行うユーザ端末の識別情報等を用いて、検索を行ったユーザを示すユーザ端末101が当該文書を閲覧可能と設定されているか否かを判定する。
ファイルパスは、文書データ212から文書IDを取得する場合などに用いる。また、文書作成者の情報は、文書作成者が別の手段で取得できる場合などに格納し、他のPC101から検索要求を受信した場合に、PC101の所有者が作成した文書以外を除外するためなどに用いる。
文書解析プログラム215は、文書作成ソフトの提供元が提供しているライブラリ、またはオープンソースのライブラリなどを用いて、文書構造から文書中のテキストや画像を抽出する。例えば、Microsoft Office(登録商標)の文書ファイルや、マイクロソフト社が提供しているSDK、PDFファイルであれば公知のオープンソースプログラムを利用して解析することができる。文書のファイルから、テキストと画像が取得できれば、どのようなプログラムを用いても構わない。尚、スキャナで読み込んだPDFなどの文書を解析する場合は、文書構造情報がないため、レイアウトおよび抽出可能な文書属性情報のみを抽出する。尚、レイアウトから文書構造を推定する文書構造解析ソフトウェアを使用し、図面領域とテキスト領域を推定し、テキスト領域からOCRを使用してテキストを取得した結果を、文書構造がある文書と同様に扱ってもよい。また、文書構造がない場合に、文書構造がある文書から、レイアウトが類似している文書を検索し、レイアウトが類似している文書がある場合は、その文書がオリジナルのファイルだと仮定し、その文書から文書構造を取得しても構わない。
次に、文書検索プログラム216は、記憶部210に蓄積された文書データ212を定期的に確認し、新規ファイルや更新ファイルを検出すると、文書解析プログラム215で、テキストおよび画像を取得し、取得したテキストを形態素解析し、形態素解析結果の単語を検索用のインデックス情報として検索用DB213に登録する。また、プログラムを実行しているPC101や、他のPC101から検索要求があった場合には、検索要求に適合する文書を検索する。また、検索要求がテキストの場合は、単語の分布が類似している文書を検索する方式である概念検索で、検索要求に適合する文書を検索する。なお、文書が検索できれば、文書検索の方式は、どのような方式を用いても構わない。
文書検索は、検索クエリの種類および検索要求者が指定した検索方法に応じて、第一乃至第五の検索方法で検索する。
第一の検索方法は、全文検索による検索で、検索要求として入力されたキーワードを含む文書を、検索用DBに登録されているキーワードの情報と照合することで検索し、キーワードを含む文書またはページの数と、キーワードの数を検索結果として出力する。ここで、レイアウトが酷似する文書は、バックアップ目的での複製や、編集過程での異なるバージョンの文書である可能性が高いため、その場合は、レイアウトが酷似する文書の中で、更新日時が最新の文書のみ採用し、それ以外の文書は検索対象から除外する。尚、レイアウトが酷似する文書は、画像検索プログラム217で、検索用DB213に登録されているレイアウトの画像特徴量間の距離が閾値よりも小さいかどうかで判定する。
第二の検索方法は、検索要求として入力された画像の類似画像を含む文書またはページの数を検索結果として出力する。尚、レイアウトが酷似する文書は、第一の検索方法と同様に、検索結果から除外する。尚、文書中の図面の大きさは、文書中の図面の重要性を示すと仮定し、類似画像を含む領域の割合を併せて検索結果として出力してもよい。
第三の検索方法は、検索要求として入力されたレイアウトの画像と類似するレイアウト、すなわち入力されたレイアウトに対応する文書の数を検索結果として出力する。尚、入力されたレイアウトの画像と、検索用DBに登録されている画像特徴量は、ページ番号の相違や画像の取得方法の違いなどで完全一致しないことが多いため、画像検索プログラム217で、距離が閾値よりも小さい画像特徴量を検索することで、レイアウトが類似しているかどうかを判定する。
第四の検索方法は、検索要求として入力された文書のファイルと内容が類似している領域の総和を検索結果として出力する。まず、検索要求として入力されたファイルから、文書解析プログラム215で、各々のページから、テキストと図面を取得する。次に、検索用DBに登録されているテキストを対象として、文書検索プログラムで概念検索を行い、取得したテキストと類似度が閾値よりも大きい段落またはページを特定する。次に、検索用DB213に登録されている画像を対象として、画像検索プログラム217で、取得した図面と類似する図面を検索し、取得した図面と距離が閾値よりも小さい図面を特定する。次に、特定したテキストの領域および図面の領域が、検索要求の内容を示す領域であると仮定し、その領域の総和を、検索結果として出力する。
第五の検索方法は、検索要求として入力された文書のファイルと内容が類似している文書の数を検索結果として出力する。まず、第四の検索方法と同様に、検索要求として入力した文書と内容が類似している段落などのテキスト領域と、図面を特定する。次に、検索要求から取得したテキストと、特定した領域のテキストとの類似度を取得し、その類似度に、検索要求から取得した図面と、特定した図面との類似度を加算する。類似度でなく距離の場合は、距離dをexp(−d)などで類似度に変換する。尚、同じ文書内に図面が複数ある場合は、その数だけ類似度を加算する。尚、テキスト間の類似度と図面間の類似度の両方が反映された方式であれば、どのような方式を用いても構わない。 画像検索プログラム217は、検索要求されたクエリ画像の画像特徴量と、検索対象となる文書中の各画像の画像特徴量とのベクトル間の距離を計算し、クエリ画像と特徴量空間における距離が小さい画像を、見た目の類似度が高い画像として取得する。本実施例において、画像特徴量は、画像から生成した画像の見た目の特徴を表す多次元ベクトルを利用している。例えば、画像の画素値情報を用いて、画像中のエッジパターンの分布を示す多次元ベクトルを生成し、主成分分析法などを用いて多次元ベクトルを次元圧縮して数十〜数百次元程度のベクトルを生成し、画像の検索用データとすることができる。ここで、エッジパターンの分布は、図6に例を示す図のように、特徴的なエッジパターンを予め複数設定し、格子状に領域分割を行い、各領域内に含まれるエッジパターン数を計数することによって多次元ベクトルを生成し、主成分分析法を用いて次元圧縮することにより生成される。尚、画像の見た目の特徴を示す特徴量であれば、MPEG−7で規定されているエッジヒストグラム特徴やSIFT特徴など他の特徴量を用いても構わない。また、ベクトル間の距離の計算は、自乗距離など、ベクトル間の類似度を計算できれば、どのような方式を用いても構わない。
ここで、画像検索結果は、類似度が高い順に出力されるため、検索結果の上位N個または類似度がX以上の画像というように、目的に合わせて検索結果を抽出して利用する。また、画像検索プログラム217は、類似画像が同一グループとなるように、画像を分類する機能を有する。グループ分けは、グループ分けの対象となる画像特徴量を、k-meansアルゴリズムで指定した個数に分類することで実現する。尚、画像特徴量が少数の場合は、画像特徴量間の距離をすべて求め、事前に定めた閾値以下の組合せを同じグループとするようなグループ分けの方法を用いても構わない。例えば、100個の画像特徴量がある場合、100C2=21通りの組合せで画像特徴量間の距離を算出し、距離が閾値よりも小さい画像特徴量間をまとめることで、グループ分けを行う。尚、AとBが近い場合で、AまたはBと近いCがある場合は、AとBとCは同一グループとする。 人物検索プログラム218は、他のPC101に管理サーバ102経由またはダイレクトに検索要求を送信し、検索要求に適合する情報すなわち文書を所有している人物を検索する。また、他のPC101から検索要求を受信した場合は、検索要求に適合する文書の有無を、文書検索プログラム216で検索し、検索結果を検索要求の送信元に送信する。また、他のPC101から検索要求を受信した場合は、文書検索プログラム216で、検索要求を受信したPC101の記憶部に保存されている検索用DBから検索要求に適合する文書を検索し、文書数など送信可能な範囲に情報を絞り込んだ検索結果を検索要求を送信したPC101に、管理サーバ経由またはダイレクトに送信する。即ち、人物検索プログラム000は、実行しているPC101の検索要求から、他のPC101に検索要求を送信する処理と、他のPC101から受信した検索要求の処理の両方を行う。
共有管理プログラム219は、ファイルの閲覧要求を受信すると、文書情報DB214を参照し、他のPC101に公開可能なファイルかどうか判定し、公開可能な場合は、閲覧要求元のPC101にファイルを送信する。また、プログラムを実行しているPC101から他のPC101のファイルの閲覧要求があった場合は、他のPC101にファイルの閲覧要求を送信し、ファイルを取得する。尚、共有管理プログラム219は、他のPC101からファイルの閲覧要求があった場合のみ実行されるため、人物の検索のみを行う場合や、他のPC101に公開可能なファイルがない場合には、省略しても構わない。
尚、人物検索プログラム218および共有管理プログラム219は、事前に設定した認証方法などで、事前に設定したポリシーに適合しない他のPC101からの検索要求や閲覧要求を拒否する手段を有する。
画面表示プログラム220は、表示部204に、クエリ入力画面および検索結果画面などを表示させる。尚、PC101に有線または無線のネットワークで接続されているタブレットPCなど、別の装置の画面に結果を表示しても構わない。
次に、管理サーバ102の構成要素について、図8乃至図9を参照しながら以下に説明する。
PC101の情報を管理し、PC101から閲覧要求を受信すると、ネットワーク103に接続されている複数のPC101の情報を送信する管理サーバ102は、図8に例を示す構成図のように、CPU801、メモリ802、入力部803、表示部804、通信部805および記憶部810を含む計算機で構成される。記憶部810には、OS811と、PC情報812と、PC管理プログラム813とが格納される。管理サーバ102は、検索要求元のPC101と検索要求を受信するPC101の間を仲介する役割を持ち、ネットワーク103に接続されているPC101の情報を管理する役割を持つ。また、PC101がシャットダウンされている場合は、検索要求の送信先のPC101に代行して、管理サーバ102に保存されている検索履歴または、検索用データを利用して検索を行う機能を有する。
PC情報812には、イントラネットなどのネットワーク103に接続されているPC101の情報が登録され、図9に例を示すように、PC101を識別するIDと、PC101のIPアドレスと、PC101を利用しているユーザと、ユーザが所属しているグループと、ユーザが情報を保有している分野のトピックを示すキーワードと、接続を拒否するPC101の情報とが登録される。ユーザと、グループと、キーワードは、検索対象のPC101を絞り込みする場合に参照情報として利用する。また、接続を拒否するPC101の情報は、特定のPCからの検索を拒否したい場合に、必要に応じてPC101毎に設定する。
PC管理プログラム813は、PC101からネットワークに接続されているPC101の一覧情報の取得要求を受信すると、PC情報812を参照し、接続可能なPC101の一覧を、IPアドレスなど接続に必要な情報と共に、取得要求元のPC101に送信する。また、PC管理プログラム813は、定期的にPC情報812に登録されているPC101が起動しているかどうかを確認し、起動していないPCは、送信するデータから除外する。
尚、管理サーバ103は、同様の処理をPC101で実現することで、省略しても構わない。
次に、本発明の文書を検索する手順を、図10に示すフローチャートを用いて説明する。
まず、人物または文書を検索しようとしているユーザのPC101で、画面表示プログラム202が、表示部204に、図11に例を示すクエリ入力画面を表示させ、検索要求であるクエリを取得する(S1001)。尚、クエリは、キーワード、テキスト、画像、ファイル、キーワードと画像、テキストと画像の組合せの何れでも構わない。
次に、人物検索プログラム218が、管理サーバ102に、ネットワーク103に接続されているPC101の情報の取得要求を送信し、管理サーバ102から受信したネットワークに接続されているPC101の各々に、検索要求をクエリの情報と共に送信し、検索要求の送信先のPC101の人物検索プログラム218が検索要求を受信する(S1002)。ここで、検索要求の送信は、管理サーバ102経由で送信しても、検索要求の送信先のPC101にダイレクトに送信しても構わない。また、PC情報812に登録されている図9に登録されている接続拒否のユーザの情報に、該当するPC101である場合は、管理サー102または検索要求の送信先のPC101が、該検索要求を拒否する。
次に、検索要求先のPC101が受信した検索要求に適合する文書を、文書検索プログラム216で検索する(S1003)。ここで、検索方法は、構成の説明で記載したように、検索要求の種類に応じて、第一乃至第五の方法を選択して検索する。図6に例を示す検索用DB213の情報を参照し、検索が許可されていない場合は、その文書を検索対象から除外する。
次に、ステップS1003で取得した文書検索の結果から、検索要求との類似度が閾値以上の文書の数、検索要求に含まれる画像の類似画像が含まれている領域の割合、検索要求で指定されたキーワードが含まれる文書数など、検索要求との適合した文書の量を表す結果を、重要度として取得し(S1004)、検索要求の送信元のPC101に、重要度を含む検索結果の情報、および、文書のレイアウトの画像特徴量と日付情報等を、管理サーバ102経由またはダイレクトに送信する(S1005)。ここで、レイアウトの画像特徴量は、他の文書との類似性の判断に用いるが、文書の内容は復元できない情報のため、情報が漏れる心配はない。また、文書ファイル自体は送信しないので、ネットワーク103に負荷をかけることはなく、検索される側の他のPC101から文書に関する情報が漏洩することもない。
次に、検索要求101を送信したPC101の人物検索プログラム218が、人物の重要度を取得するステップ1004で取得した重要度を受信する(S1006)。尚、検索要求の送信先のPC101がN台である場合は、N台から重要度を受信するまで、処理を待つが、事前に定めた時間を経過しても重要度が受信できない場合は、そのPC101の結果は無視することで、検索要求を送信したPC101の待ち時間を一定時間に抑止する。尚、検索要求を受信したPC101の負荷を防止するため、管理サーバやPC101に検索履歴を蓄積し、一定時間内に同じ検索要求が送信された場合には、その履歴から重要度を受信しても構わない。また、画像を用いる検索の場合は、内容の推定が困難な画像特徴量の性質を利用し、レイアウトまたは図面の画像特徴量を管理サーバ102に登録し、PC101と同様の構成を管理サーバ102に追加することで、管理サーバで検索を代行してもよい。
次に、重要度の高い検索結果について、共有管理プログラム219で、人物と併せて表示するページのサムネイル、キーワード、画像などを取得し、画面表示プログラム220で、ディスプレイなどの表示部204に、図12に例を示すように、検索結果を表示させる(S1007)。尚、サムネイル、キーワード、画像の取得は、文書の所有者のPC101に取得要求を送信し、文書の所有者のPC101の共有管理プログラム219が、文書情報DB214を参照し、公開可能である場合は取得要求元のPC101に、サムネイル、キーワード、画像を送信する。ここで、公開可能なレベルを、サムネイル、キーワード、画像で個別に設定しても構わない。また、公開不可となっている場合は、解像度を下げるなど不鮮明化したサムネイル画像や、事前に定めた表示可能な単語集合を表示しても構わない。また、文書検索プログラム216または画像検索プログラム217で、公開不可の文書と類似した画像またはテキストを含む、ユーザがユーザPC101の中に所有している類似文書を、関連情報として表示しても構わない。なお、ユーザから、関連情報として提示している文書の詳細を表示する要求を受けた場合は、共有管理プログラム219が、関連情報の所有者のPC101にファイルの取得要求を送信し、送信先のPC101の共有管理プログラム219が、取得要求を受信し、取得要求を受けたファイルを、取得要求元のPC101に送信し、取得要求元のPC101がファイルを受信することで、表示部204に表示させる。
尚、クエリが複数ある場合は、上記ステップS1001乃至ステップS1007の処理を、終了の指示があるまで繰り返す(S1008)。
上記処理の流れの例を、図13に示す。検索例1では、複数のPC101に検索要求を送信し、その結果を表示すると同時に、管理サーバへ検索履歴を登録し、同じ検索要求が生じた場合には、管理サーバ102が検索を代行する。検索例2では、検索例2に加えて、人物を検索した根拠を確認したい場合に、公開可能な範囲で重要度の算出の根拠となった文書の情報を検索要求元のPC101に表示する。
以上を踏まえ、本実施例に記載の文書検索システムは、ネットワークを介して接続された管理装置と第1および第2の処理装置とを有する情報検索システムであって、それぞれの前記情報処理装置は、ユーザーからの検索要求を受け付ける入力部と、ユーザの作成した文書を蓄積する記憶部と、記憶部内の文書を検索する検索部と、検索結果である文書の数を出力する出力部と、他の情報処理装置からの検索結果をまとめた最終検索結果を表示する表示部と、を有し、第1の処理装置の入力部が検索要求を受け付けると、第1の処理装置は管理装置へ検索要求と検索対象となる第2の情報処理装置を指定するポリシー情報を送信し、管理装置は、ポリシー情報において指定された第2の情報処理装置に前記検索要求を送信し、第2の処理装置の前記検索部は、第2の処理装置の記憶部を検索し、検索要求に合致する文書の数を検索結果として管理装置へ出力し、第1の情報処理装置は、管理装置から送信された第2の情報処理装置からの結果を元に、検索要求に合致する文書を保存している第2の情報処理装置のユーザを、最終検索結果として表示することを特徴とする。
または、ネットワークを介して接続された管理装置と第1および第2の情報処理装置とを用いた情報検索方法であって、第1の情報処理装置がユーザからの検索要求を受け付けるステップと、第1の情報処理装置が管理装置へ、検索要求と検索対象となる第2の情報処理装置を指定するポリシー情報とを送信するステップと、管理装置が、ポリシー情報において指定された第2の情報処理装置に検索要求を送信するステップと、第2の情報処理装置が、第2の情報処理装置の記憶部に記憶されている文書を検索するステップと、第2の情報処理装置が、検索要求に合致する文書の数を検索結果として管理装置へ送信するステップと、管理装置が、検索結果を元に検索要求に合致する文書を保存している第2の情報処理装置のユーザを、第1の情報処理装置へ送信するステップと、第1の情報処理装置が、第2の情報処理装置のユーザを最終検索結果として表示するステップと、を有することを特徴とする。
本実施例の文書検索システムまたは文書検索方法を用いることで、PC101のユーザが、ユーザが所持している文書を検索できるだけでなく、欲しい情報が含まれる文書を保有している他のPC101のユーザを検索できるという効果がある。また、公開許可情報等のフラグがない場合は原則として、検索を行うユーザのPC101には文書情報を送信しないため、情報漏えいの可能性を低下させることができる。さらに、編集されても類似することが多い画像を用いることで、高精度に関連する文書即ち人物が検索できるという効果がある。
201 CPU
202 主メモリ
203 入力部
204 表示部
205 通信部
210 記憶部
211 OS
212 文書データ
213 検索用DB
214 文書情報DB
215 文書解析プログラム
216 文書検索プログラム
217 画像検索プログラム
218 人物検索プログラム
219 共有管理プログラム
220 画面表示プログラム
801 CPU
802 主メモリ
803 入力部
804 表示部
805 通信部
810 記憶部
811 OS
812 PC情報
813 PC管理プログラム。

Claims (8)

  1. ネットワークを介して接続された管理装置と第1および第2の情報処理装置とを有する情報検索システムであって、
    それぞれの前記情報処理装置は、ユーザーからの検索要求を受け付ける入力部と、ユーザの作成した文書を蓄積する記憶部と、前記記憶部内の文書を検索する検索部と、検索結果である文書の数を出力する出力部と、他の情報処理装置からの検索結果をまとめた最終検索結果を表示する表示部と、を有し、
    前記第1の情報処理装置の前記入力部が検索要求を受け付けると、前記第1の処理装置は前記管理装置へ検索要求と検索対象となる前記第2の情報処理装置を指定するポリシー情報を送信し、
    前記管理装置は、前記ポリシー情報において指定された前記第2の情報処理装置に前記検索要求を送信し、
    前記第2の情報処理装置の前記検索部は、前記第2の処理装置の前記記憶部を検索し、前記検索要求に合致する文書の数を検索結果として前記管理装置へ出力し、
    前記第1の情報処理装置は、前記管理装置から送信された前記第2の情報処理装置からの結果を元に、前記検索要求に合致する文書を保存している前記第2の情報処理装置のユーザを、最終検索結果として表示する、情報検索システム。
  2. 請求項1に記載の情報検索システムであって、
    前記文書に対し、前記第1の情報処理装置のユーザへの公開を許可する情報が付されている場合には、前記第2の情報処理装置は、前記検索結果とともに前記文書を前記管理装置へ出力し、前記第1の情報処理装置のユーザへの公開を許可する情報が付されていない場合には、前記第2の情報処理装置は前記文書に用いられている画像の画像特徴量を抽出し、前記検索結果とともに前記画像特徴量を前記管理装置へ出力し、
    前記第1の情報処理装置は、前記管理装置から送信された前記検索結果に基づき、前記画像特徴量を用いて前記第1の情報処理装置の前記記憶部内から前記文書に類似する文書を検索し、最終結果として前記第2の情報処理装置のユーザと、前記文書または前記文書に類似する文書とを表示する
    ことを特徴とする情報検索システム。
  3. 請求項2に記載の情報検索システムであって、
    前記文書に対し、前記第1の情報処理装置のユーザへの公開を許可する情報が付されていない場合には、前記第2の情報処理装置は、前記文書の解像度を半分に下げたものを検索結果とともに前記管理装置へ出力することを特徴とする情報検索システム。
  4. 請求項3に記載の情報検索システムであって、
    前記第1の情報処理装置は、複数の前記第2の情報処理装置からの結果の重複を判定し、重複している場合には、文書作成日時を用いて、文書作成日時が古い順に表示させること
    を特徴とする情報検索システム。
  5. ネットワークを介して接続された管理装置と第1および第2の情報処理装置とを用いた情報検索方法であって、
    前記第1の情報処理装置がユーザからの検索要求を受け付けるステップと、
    前記第1の情報処理装置が前記管理装置へ、前記検索要求と検索対象となる前記第2の情報処理装置を指定するポリシー情報とを送信するステップと、
    前記管理装置が、前記ポリシー情報において指定された前記第2の情報処理装置に前記検索要求を送信するステップと、
    前記第2の情報処理装置が、前記第2の情報処理装置の記憶部に記憶されている文書を検索するステップと、
    前記第2の情報処理装置が、前記検索要求に合致する前記文書の数を検索結果として前記管理装置へ送信するステップと、
    前記管理装置が、前記検索結果を元に前記検索要求に合致する文書を保存している前記第2の情報処理装置のユーザを、前記第1の情報処理装置へ送信するステップと、
    前記第1の情報処理装置が、前記第2の情報処理装置のユーザを最終検索結果として表示するステップと、を有することを特徴とする情報検索方法。
  6. 請求項5に記載の情報検索方法であって、
    前記第2の情報処理装置は、前記文書に対し、前記第1の情報処理装置のユーザへの公開を許可する公開許可情報が付されているかを判定するステップと、
    前記公開許可情報に基づき、前記文書または前記文書に用いられている画像の画像特徴量を前記検索結果とともに前記管理装置へ送信するステップと、をさらに有し、
    前記第1の情報処理装置は、前記最終検索結果に加え、前記文書または前記第1の情報処理装置の記憶部から検索された前記文書に類似する類似文書を表示することを特徴とする情報検索方法。
  7. 請求項6に記載の情報検索方法であって、
    前記文書に対し、前記公開情報が付されていない場合には、前記第2の情報処理装置が、前記文書の解像度を半分に下げたものを前記検索結果とともに前記管理装置へ出力するステップを有することを特徴とする情報検索方法
  8. 請求項7に記載の情報検索方法であって、
    前記第1の情報処理装置が前記最終結果を表示する際は、服すの前記第2の情報処理装置からの結果の重複を判定し、重複している場合には、文書作成日時を用いて前記日時が古い順に表示させることを特徴とする情報検索方法。
JP2015544681A 2013-10-30 2013-10-30 情報検索システムおよび情報検索方法 Expired - Fee Related JP6140835B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/079337 WO2015063873A1 (ja) 2013-10-30 2013-10-30 情報検索システムおよび情報検索方法

Publications (2)

Publication Number Publication Date
JPWO2015063873A1 true JPWO2015063873A1 (ja) 2017-03-09
JP6140835B2 JP6140835B2 (ja) 2017-05-31

Family

ID=53003523

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015544681A Expired - Fee Related JP6140835B2 (ja) 2013-10-30 2013-10-30 情報検索システムおよび情報検索方法

Country Status (2)

Country Link
JP (1) JP6140835B2 (ja)
WO (1) WO2015063873A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170147652A1 (en) * 2015-11-19 2017-05-25 Institute For Information Industry Search servers, end devices, and search methods for use in a distributed network
US20170308550A1 (en) * 2016-04-25 2017-10-26 Fuji Xerox Co., Ltd. Visualizing relevant documents and people while viewing a document on a camera-projector tabletop system
JP7145550B1 (ja) * 2022-04-26 2022-10-03 アックスタイムズ株式会社 ビジネスレポート販売システム、ビジネスレポート販売方法及びそのプログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014971A (ja) * 2000-06-30 2002-01-18 Sharp Corp 指定単語関係者情報抽出装置,及び指定単語関係者情報抽出プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003271638A (ja) * 2002-03-14 2003-09-26 Toshiba Corp プロファイル検索装置およびプロファイル検索方法
JP2006023961A (ja) * 2004-07-07 2006-01-26 Fuji Xerox Co Ltd 文書登録者提示用コンピュータプログラムならびに文書登録者提示装置および方法
JP2007241889A (ja) * 2006-03-10 2007-09-20 Toshiba Corp 情報検索システム、情報検索方法及び情報検索プログラム
JP2008003809A (ja) * 2006-06-21 2008-01-10 Hitachi Ltd 情報共有制御システム
US20080195586A1 (en) * 2007-02-09 2008-08-14 Sap Ag Ranking search results based on human resources data
JP2008234550A (ja) * 2007-03-23 2008-10-02 Nec Corp 専門家情報検索装置、専門家情報検索方法およびプログラム。

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014971A (ja) * 2000-06-30 2002-01-18 Sharp Corp 指定単語関係者情報抽出装置,及び指定単語関係者情報抽出プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003271638A (ja) * 2002-03-14 2003-09-26 Toshiba Corp プロファイル検索装置およびプロファイル検索方法
JP2006023961A (ja) * 2004-07-07 2006-01-26 Fuji Xerox Co Ltd 文書登録者提示用コンピュータプログラムならびに文書登録者提示装置および方法
JP2007241889A (ja) * 2006-03-10 2007-09-20 Toshiba Corp 情報検索システム、情報検索方法及び情報検索プログラム
JP2008003809A (ja) * 2006-06-21 2008-01-10 Hitachi Ltd 情報共有制御システム
US20080195586A1 (en) * 2007-02-09 2008-08-14 Sap Ag Ranking search results based on human resources data
JP2008234550A (ja) * 2007-03-23 2008-10-02 Nec Corp 専門家情報検索装置、専門家情報検索方法およびプログラム。

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
富士ゼロックス株式会社, 「ARCSUITE 使ってみようARCSUITE」, vol. 第1版, JPN6013057976, 31 March 2003 (2003-03-31), pages 59 - 62, ISSN: 0003541957 *

Also Published As

Publication number Publication date
WO2015063873A1 (ja) 2015-05-07
JP6140835B2 (ja) 2017-05-31

Similar Documents

Publication Publication Date Title
US9229992B2 (en) Automatic identification of digital content related to a block of text, such as a blog entry
US6883001B2 (en) Document information search apparatus and method and recording medium storing document information search program therein
JP5353148B2 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
US9361320B1 (en) Modeling big data
US8385660B2 (en) Mixed media reality indexing and retrieval for repeated content
US9031992B1 (en) Analyzing big data
KR101501462B1 (ko) 통합 데이터 객체 관리 시스템 및 그 방법
US20100011282A1 (en) Annotation system and method
JP2010073114A6 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
US20080027985A1 (en) Generating spatial multimedia indices for multimedia corpuses
US20180253439A1 (en) Characterizing files for similarity searching
JP2008117010A (ja) 文書作成支援装置、文書作成支援システム
WO2011001584A1 (ja) 情報分類装置、情報分類方法及び情報分類プログラム
JP6140835B2 (ja) 情報検索システムおよび情報検索方法
JP2009075678A (ja) 画像処理装置、画像処理方法、画像処理プログラム及び記憶媒体
JP2009211603A (ja) 文書検索システム
US9542457B1 (en) Methods for displaying object history information
EP4002152A1 (en) Data tagging and synchronisation system
JP2004164331A (ja) 画像検索方法、画像検索装置、および画像検索プログラム
US9348978B2 (en) Universal content traceability
US11941136B2 (en) Information processing apparatus and non-transitory computer readable medium
JPWO2014185004A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP2018072873A (ja) 情報処理装置、情報処理方法、およびプログラム
US20150120681A1 (en) System and method for aggregating media content metadata
CN112883249B (zh) 版式文档处理方法、装置以及装置的应用方法

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170501

R150 Certificate of patent or registration of utility model

Ref document number: 6140835

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees