WO2013150633A1

WO2013150633A1 - 文書処理システム、及び、文書処理方法

Info

Publication number: WO2013150633A1
Application number: PCT/JP2012/059345
Authority: WO
Inventors: 浦野　明裕; 児玉　昇司; 春名　高明; 陽介石井
Original assignee: 株式会社日立製作所
Priority date: 2012-04-05
Filing date: 2012-04-05
Publication date: 2013-10-10

Abstract

　文書処理システムは、入力された複数の文書と、各文書を閲覧可能なユーザを示すアクセスリストとを保持し、複数の文書から、所定の基準に従った複数の文字列を抽出し、メモリに保持される複数の文書の各々の中に、抽出された各文字列が示す情報が出現する頻度を算出し、各ユーザが閲覧できる各文書から抽出された各文字列と、抽出された各文字列が示す情報が出現する頻度と、が含まれる各ユーザの学習データセットを生成し、生成された各ユーザの学習データセットに基づいて、各ユーザの類義語辞書を生成する。

Description

文書処理システム、及び、文書処理方法

　本発明は、文書処理システム、特に、類義語辞書を生成する文書処理システムに関する。

　現在、ユーザは、膨大な量の電子化文書を閲覧可能である。そこで、計算機が電子化文書を処理するための技術、例えば、文書検索及び文書分類などの技術に対するニーズが高まっている。

　文書検索及び文書分類などの技術には、同義語又は類義語を持つ単語の検索漏れを回避するため、同義語辞書又は類義語辞書が必要である。このため、従来、同義語辞書又は類義語辞書を生成するための技術が提案されている。

　従来の技術として、"似た文脈を持つ単語は似ている"という概念から、"ｓｉｍｉｌａｒ　ｗｏｒｄｓ"、すなわち、同義語を抽出する方法が提案されている（例えば、非特許文献１参照）。

　また、各単語が出現した文脈において同じ意味を示す類義語を、同義語として抽出する同義語展開システムが提案されている（例えば、特許文献１参照）。

　非特許文献１及び特許文献１に記載された技術は、多数の文書に基づいて同義語辞書を生成するための技術である。そして、多数の文書に基づいて同義語辞書を生成することによって、精度よく文書検索及び文書分類を行うことができる。

　なお、以下では"類義語"と"同義語"とは同じ意味として扱う。定義によっては"類義語"は近い意味を持つ言葉、"同義語"は同じ意味を持つ（異なる）言葉を指し、"類義語"の例としては"家"と"住宅"とがあり、また、"言う"と"話す"となどがあり、さらに、"同義語"の例としては"山登り"と"登山"となどがあるとする定義もある。しかし、そのような定義においても以下において、同義語辞書を作る方法と類義語辞書を作る方法とは同じ方法として扱うことができるため、以下の"類義語"という言葉が"同義語"の意味を含むこととする。

特開２０１０－２８７０２０号公報

Dekang Lin, "Automatic Retrieval and Clustering of Similar Words", COLING '98 Proceedings of the 17th international conference on Computational linguistics - Volume 2

　非特許文献１に記載された技術、又は、特許文献１に記載された技術を用いて生成された同義語（本実施形態における類義語）辞書を用いた文書検索技術が、例えば、企業内システム等に適用される場合がある。

　企業内には一般的に複数の従業員（雇用者を含む、以下、ユーザと記載することがある）が含まれる。そして、企業に含まれる従業員によって多くの文書が生成される。このため、企業内システムは、生成された多くの文章と特許文献１等の技術とを用いることによって、類義語辞書を精度よく生成することができる。

　これは、企業の中には、ユーザ間で文書を共有する文書共有システムを備えている企業があり、このような企業の企業内システムは、すべてのユーザが生成した文書によって類義語辞書を生成することができるためである。なお、文書共有システムとは、例えば、ＮＡＳ（Ｎｅｔｗｏｒｋ　Ａｔｔａｃｈｅｄ　Ｓｔｏｒａｇｅ）による文書共有システムであり、多数の社員が文書ファイルを共有することができるシステムである。

　しかし、企業内システムにおいて生成される類義語辞書は、企業内のユーザごとに生成されるべきである。これは、企業内の各ユーザによって閲覧できる文書が異なるためである。具体的には、ユーザ１が生成した文書をユーザ２が閲覧できない場合、ユーザ１が生成した文書を用いて生成された類義語辞書には、ユーザ２が類義語であると推測できない単語が類義語として含まれる可能性があるためである。

　前述のＮＡＳを用いる企業内システムを含め、文書ごとにＡｃｃｅｓｓ　Ｃｏｎｔｒｏｌ　Ｌｉｓｔ（以下、ＡＣＬと記載する）を割当て、ＡＣＬに従って各ユーザに文書を閲覧する許可を与えるシステムがある。

　非特許文献１及び特許文献１に記載された技術は、このような、文書を閲覧するための権限がユーザによって異なるシステムに関して考慮されていない。すなわち、特許文献１及び非特許文献１に記載された技術は、入力された文書に基づいて類義語辞書を出力するものであり、ユーザごとに類義語辞書を生成するものではない。このため、非特許文献１及び特許文献１に記載された技術をそのまま企業等のシステムに用いた場合、文書からの情報漏えいが発生する可能性がある。

　そこで、本発明では複数のユーザが使用する文書共有システムにおいて、ユーザごとの類義語辞書を生成し、かつ、類義語辞書による情報漏えいを未然に防止するシステム及び方法を提供することを目的とする。

　本発明の代表的な一形態によると、複数のユーザによって生成された複数の文書が入力される文書処理システムであって、前記文書処理システムは、プロセッサ及びメモリを備え、前記メモリは、前記入力された複数の文書と、前記各文書を閲覧可能なユーザを示すアクセスリストとを、保持し、前記文書処理システムは、前記複数の文書から、所定の基準に従った複数の文字列を抽出し、前記メモリに保持される複数の文書の各々の中に、前記抽出された各文字列が示す情報が出現する頻度を算出し、前記各ユーザが閲覧できる各文書から抽出された各文字列と、前記抽出された各文字列が示す情報が出現する頻度と、が含まれる前記各ユーザの学習データセットを生成し、前記生成された各ユーザの学習データセットに基づいて、前記各ユーザの類義語辞書を生成する。

　本発明の一実施形態によると、精度が高い類義語辞書を生成し、かつ、情報漏えいを未然に防ぐことができる。

本発明の第１の実施形態の類義語辞書システムの構成を示すブロック図である。本発明の第１の実施形態の処理対象文書に格納される文書を示す説明図である。本発明の第１の実施形態のＡＣＬ情報を示す説明図である。本発明の第１の実施形態の全文ＤＢを示す説明図である。本発明の第１の実施形態の学習データセットを示す説明図である。本発明の第１の実施形態の類義語辞書を示す説明図である。本発明の第１の実施形態の全文ＤＢ生成プログラムによる全文ＤＢを生成する処理を示すフローチャートである。本発明の第１の実施形態の辞書生成プログラムによる類義語辞書を生成する処理を示すフローチャートである。本発明の第１の実施形態のコンテンツ活用システムの構成を示すブロック図である。本発明の第１の実施形態のコンテンツ活用システムにおける検索処理を示すシーケンス図である。本発明の第１の実施形態のインデックスを示す説明図である。本発明の第２の実施形態の類義語辞書システムを示す説明図である。本発明の第２の実施形態の関係ＤＢを示す説明図である。本発明の第２の実施形態の関係学習データセットを示す説明図である。本発明の第２の実施形態の関係ＤＢを生成する処理を示すフローチャートである。本発明の第２の実施形態の類義語辞書を生成する処理を示すフローチャートである。本発明の第３の実施形態の共通類義語辞書を生成する処理を示すフローチャートである。本発明の第４の実施形態の処理対象文書１１４に格納される文書を示す説明図である。

　以下において、本発明を実施するための形態を説明する。説明の明確化のため、以下の記載及び図面は、適宜、省略及び簡略化がなされている。又、各図面において、同一要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略されている。

　複数のユーザが使用する文書共有システムが、ユーザごとの類義語辞書を生成するには次のようにすれば良い。類義語辞書を生成する一つの方法として、文書共有システムが、ＡＣＬに基づいて、ユーザが閲覧できる文書のみから類義語辞書を生成する方法である。例えば、文書共有システムは、ユーザＡの類義語辞書をユーザＡが閲覧できる文書から生成する。

　ただし、この方法を用いた場合、ユーザＡが閲覧できる文書は数が限られているため、文書共有システムは、十分な精度の類義語辞書を生成できるとは限らない。これは、精度が高い類義語辞書を生成するためには多くの文書からの学習によって、類義語辞書を生成する必要があるためである。

　また、類義語辞書を生成する他の方法として、文書共有システムが、システム管理者の権限によって類義語辞書を生成する方法を取ることもできる。システム管理者の権限は、すべてのユーザの文書を閲覧することができる権限である。このため、文書共有システムは、ＡＣＬ情報を用いることなく、対象となるすべての文書を、類義語辞書を生成するための学習データとして用いることができる。

　しかし、この場合、文書共有システムによって生成された類義語辞書は、どのユーザに対しても同じ類義語を含む類義語辞書である。例えば、ユーザ１が類義語辞書を使用した場合、別のユーザ２にしか閲覧が許可されていない文書中に含まれる単語が検索されることとなり、ユーザ１はユーザ２の文書の内容を推測することができてしまう可能性がある。

　前述の問題を解決する方法を以下に記載する。

　（第１の実施形態）

　第１の実施形態における類義語辞書システム１００は、ユーザによって生成されたすべての文書において、同じ文章が出現する頻度を算出する。そして、第１の実施形態における類義語辞書システム１００は、各ユーザが閲覧できる文章と、その文章に関して算出された頻度とを用いて、類義語辞書を生成する。

　図１は、本発明の第１の実施形態の類義語辞書システム１００の構成を示すブロック図である。

　類義語辞書システム１００は、複数のユーザが用いる文書共有システムに接続されるシステム、又は、複数のユーザが用いる文書共有システムに備わるシステムである。類義語辞書システム１００は、プロセッサ１０１、主記憶装置１０２、入出力装置１０３、ネットワーク装置１０７、及び、補助記憶装置１１０を有する。

　プロセッサ１０１は、補助記憶装置１１０に格納されたデータ又はプログラム等を主記憶装置１０２に読み出し、読み出されたプログラムを主記憶装置１０２において実行する。

　プロセッサ１０１は、ＣＰＵ等の演算装置である。プロセッサ１０１は、主記憶装置１０２からプログラム及びデータを読み出し、実行する。

　プロセッサ１０１は、プログラムの実行において、必要に応じて、補助記憶装置１１０からプログラム及びデータを読み出し、また、補助記憶装置１１０にデータを入力する。また、プロセッサ１０１は、必要に応じて、ネットワーク装置１０７を介して接続された記憶装置等からプログラム及びデータを読み出し、また、ネットワーク装置１０７を介して接続された記憶装置等にデータを入力する。

　さらに、プロセッサ１０１は、主記憶装置１０２、補助記憶装置１１０、入出力装置１０３、及び、ネットワーク装置１０７と接続される。

　主記憶装置１０２は、データ及びプログラム等を一時的に格納するための記憶装置である。主記憶装置１０２は、ＯＳ（Ｏｐｅｒａｔｉｎｇ　Ｓｙｓｔｅｍ）１１１及びデータ管理プログラム１１２を保持する。主記憶装置１０２は、プロセッサ１０１と接続される。

　入出力装置１０３は、ユーザ又は管理者等が、類義語辞書システムにデータを入力するための入力装置と、ユーザ又は管理者等に文書の検索結果等を表示するための出力装置である。入出力装置１０３は、ディスプレイ１０４、キーボード１０５、及び、マウス１０６を有する。入出力装置１０３は、プロセッサ１０１と接続される。

　ネットワーク装置１０７は、類義語辞書システムの外部に文書共有システムの記憶装置が配置された場合、文書共有システムの記憶装置と類義語辞書システムとを接続するためのネットワークインタフェースである。ネットワーク装置１０７は、プロセッサ１０１と接続される。

　補助記憶装置１１０は、ディスク装置等の、データ又はプログラムを保持するための記憶装置である。補助記憶装置１１０は、テキストデータベース１１３、全文ＤＢ１１６、学習データセット１１７、及び、類義語辞書１１８を有する。補助記憶装置１１０は、プロセッサ１０１と接続される。

　テキストデータベース１１３は、処理対象文書１１４、及び、ＡＣＬ情報１１５を有する。

　ＯＳ１１１は、類義語辞書システム１００を動作させるための基本ソフトウェアである。

　データ管理プログラム１１２は、ユーザごとに類義語辞書１１８を生成する機能を有する。また、データ管理プログラム１１２は、ユーザ又はプログラムから要求された検索文字列に従って、要求された検索文字列の類義語を、ユーザ又はプログラムに返答するプログラムである。

　データ管理プログラム１１２は、全文ＤＢ生成プログラム６０１、辞書生成プログラム１２２、及び、辞書検索プログラム１２５を有する。

　全文ＤＢ生成プログラム６０１は、全文ＤＢ１１６を生成するための機能を有する。辞書生成プログラム１２２は、類義語辞書１１８を生成するための機能を有する。辞書検索プログラム１２５は、プログラム又はユーザからの検索要求に従って、類義語を類義語辞書１１８から検索し、プログラム又はユーザに検索要求に対する返信として検索された類義語を送信するための機能を有する。

　テキストデータベース１１３は、処理対象文書１１４とＡＣＬ情報１１５とを保持する。処理対象文書１１４は、類義語辞書１１８を生成するために、類義語を抽出するための複数の文書を含む。すなわち、処理対象文書１１４は、各ユーザが生成した文書である。ＡＣＬ情報１１５は、各ユーザが閲覧できる文書を示す情報である。

　テキストデータベース１１３は、文書共有システムにおける共有文書の記憶装置と同一でもよい。文書共有システムにおける共有文書の記憶装置には、各ユーザが生成した文書が格納される。

　また、データ管理プログラム１１２は、文書共有システムにおける共有文書の記憶装置から文書を取得し、処理対象文書１１４としてテキストデータベース１１３に格納してもよい。また、データ管理プログラム１１２は、文書共有システムにおける共有文書の記憶装置における、文書のポインタをテキストデータベース１１３に格納することによって、処理対象文書１１４をテキストデータベース１１３に仮想的に格納してもよい。

　また、データ管理プログラム１１２は、ネットワーク装置１０７を介して、ユーザが個人的に所有する文書を取得し、処理対象文書１１４として、テキストデータベース１１３に格納してもよい。また、データ管理プログラム１１２は、ユーザが個人的に所有する文書の格納場所を示すポインタを、テキストデータベース１１３に格納することによって、処理対象文書１１４をテキストデータベース１１３に仮想的に格納してもよい。

　全文ＤＢ１１６は、処理対象文書１１４に含まれるすべての文章と、ＡＣＬとが対応付けられて格納されるＤＢである。学習データセット１１７は、全文ＤＢ１１６が、ＡＣＬに従って、ユーザが閲覧できる文章ごとに分割された情報である。

　類義語辞書１１８は、学習データセット１１７に基づいて生成されたユーザごとの情報である。学習データセット１１７及び類義語辞書１１８は、ユーザごとに生成される。

　なお、図１に示す補助記憶装置１１０は類義語辞書システム１００が有する。しかし、補助記憶装置１１０内の一部又はすべてのデータが別筐体に格納され、データ管理プログラム１１２が、ネットワーク装置１０７を介して別筐体に格納されたデータを取得してもよい。

　さらに、類義語辞書システム１００は、入出力装置１０３又はネットワーク装置１０７を有さなくてもよい。類義語辞書システム１００が入出力装置１０３を有さない場合、データ管理プログラム１１２は、ネットワーク装置１０７を介して取得されるデータのみを、テキストデータベース１１３に格納してもよい。また、類義語辞書システム１００がネットワーク装置１０７を有さない場合、データ管理プログラム１１２は、入出力装置１０３から入力されたデータのみを、テキストデータベース１１３に格納してもよい。

　本実施形態において、類義語辞書システム１００は、プログラム又はユーザから類義語を要求されるが、類義語を要求するプログラムは、類義語辞書システム１００が有する図示しないプログラムでもよいし、他の装置が有するプログラムでもよい。類義語を要求するプログラムが、他の装置が有するプログラムである場合、類義語を要求するプログラムは、ネットワーク装置１０７を介して類義語辞書システム１００に要求を送信する。

　類義語を要求するユーザは、入出力装置１０３を介して要求を類義語辞書システム１００に入力してもよいし、ネットワーク装置１０７を介して要求を類義語辞書システム１００に入力してもよい。

　なお、類義語辞書システム１００が有する各プログラムの一部又は全部の機能は、例えば、集積回路等のハードウェアによって実装されてもよい。また、前述の各プログラムの機能は、プロセッサによってそれぞれの機能を実現するプログラムが解釈され、実行されてもよい。

　さらに、本実施形態の各機能を実現するためのプログラム、テーブル、及び、ファイル等は、フラッシュメモリ、ハードディスク、若しくは、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等の記録装置、又は、ＩＣカード、ＳＤカード、若しくは、ＤＶＤ等の記録媒体を用いて、類義語辞書システム１００にインストールされてもよい。

　また、類義語辞書システム１００が有する各プログラムは、一つのプログラムによって実装されてもよいし、各プログラムにおいて実行される処理の単位ごとに複数のプログラムに分割されて実装されてもよい。

　図２は、本発明の第１の実施形態の処理対象文書１１４に格納される文書を示す説明図である。

　処理対象文書１１４には、複数のユーザによって生成された複数の文書が含まれる。

　図２に示す処理対象文書１１４には、社員Ａによって生成された文書群２０２と社長によって生成された文書群２０３とが含まれる。処理対象文書１１４は、文書群２０２に、社員Ａ（ユーザＩＤ"２００１"）によって生成された複数の文書２０４、文書２０６、および、文書２０７を含み、文書群２０３に、社長（ユーザＩＤ"１００１"）によって生成された文書２０５を含む。

　なお、図２に示す文書群２０３は、文書２０５のみを含むが、複数の文書を含んでもよい。また、処理対象文書１１４は、社員Ａに対応する文書群２０２、及び、社長に対応する文書群２０３以外に、複数のユーザが生成した文書を含んでもよい。

　文書２０４は、点検報告書を示す複数の文章を含む。文書２０５は、合併計画書を示す四つの文章を含む。文書２０６は、検討書を示す一つの文書を含む。文書２０７は、社内ブログに掲載される記事を示す一つの文章を含む。文書２０４、文書２０５、文書２０６、及び、文書２０７は、図２に示す文章よりも多くの文章を、含んでもよい。

　なお、本実施形態における文章とは、日本語においては句点（"。"）によって区切られる文字列であり、英語においてはピリオド（"."）によって区切られる文字列である。また、文書２０４～文書２０７には、文書を一意に識別するための識別子があらかじめ割当てられている。

　文書２０４に含まれる文章と文書２０５に含まれる文章とは、一部の文章の意味が共通するが、一部の文章の意味が異なる。また、本実施形態において、社長によって生成された文書群２０３は、社員Ａによる閲覧を許可されていない。

　このため、辞書生成プログラム１２２は、社員Ａの類義語辞書１１８を生成するための学習データとして文書２０５を用いることができない。

　例えば、文書２０５中の四文目である、"これらの点検結果はＸ社のＹ工場よりも優れており、Ｘ社の買収に有利に働く。"という文章には、社員Ａが知ることを許されていない情報が含まれる。このような文章を用いて社員Ａの類義語辞書１１８を生成した場合、社員Ａが社員Ａの類義語辞書１１８の内容から、社長によって生成された文書群２０３の内容を推測できる可能性が発生する。

　このため、データ管理プログラム１１２は、他のユーザが作成した文章も含め、社員Ａが読み取ることを許されている全文章中から社員Ａの文章と同一の文章が出現した頻度を算出し、算出された頻度に従って、類義語辞書１１８を生成する。これによって、データ管理プログラム１１２は、社員Ａの類義語辞書１１８を生成するための学習データの量を増やすことができる。そして、データ管理プログラム１１２は、社員Ａの類義語辞書１１８を精度よく生成することができる。

　図３は、本発明の第１の実施形態のＡＣＬ情報１１５を示す説明図である。

　ＡＣＬ情報１１５は、ファイルの作成時にシステムによって生成されたり、管理者等によってあらかじめ生成された情報である。ＡＣＬ情報１１５は、文書名１５０１、及び、ＡＣＬ情報１５０２を含む。また、図３に示すＡＣＬ情報１１５は、行１５０３～行１５０６を含む。

　文書名１５０１は、処理対象文書１１４に含まれる各文書の識別子を示す。ＡＣＬ情報１５０２には、文書名１５０１が示す文書を閲覧できるユーザのユーザＩＤが含まれる。

　例えば、行１５０３の文書名１５０１が示す文書が、図２に示す文書２０４である場合、文書２０４は、ユーザＩＤが"１００１"のユーザ（すなわち、社長）と、ユーザＩＤが"２００１"のユーザ（すなわち、社員Ａ）とによって閲覧されることが許可される。

　また、行１５０６の文書名１５０１が示す文書が、図２に示す文書２０５である場合、文書２０５は、ユーザＩＤが"１００１"のユーザ（すなわち、社長）のみによって閲覧されることが許可される。

　図４は、本発明の第１の実施形態の全文ＤＢ１１６を示す説明図である。

　全文ＤＢ１１６は、後述する全文ＤＢ生成プログラム６０１の処理によって生成される。全文ＤＢ１１６は、管理者による指示があったタイミングにおいて、定期的なタイミングにおいて、又は、ファイルが作成若しくは更新されたりシステムがアイドル状態になったことをきっかけとする等のシステムイベントが発生したタイミングにおいて、生成される。

　全文ＤＢ１１６は、文章３０１、ＡＣＬ３０２、及び、頻度３０３を含む。また、図４に示す全文ＤＢ１１６は、行３０４～行３０９を含む。

　文章３０１は、処理対象文書１１４に含まれる文章の文字列が含まれる。

　ＡＣＬ３０２は、文章３０１に格納された文章を閲覧できるユーザのユーザＩＤを含む。

　例えば、行３０４の文章３０１は、ユーザＩＤが"１００１"、及び"２００１"であるユーザが閲覧できる文章を示す。また、例えば、行３０７の文章３０１は、ユーザＩＤが"２００１"であるユーザが閲覧できる文章を示す。

　頻度３０３は、文章３０１に示される文章が、処理対象文書１１４に含まれるすべての文書において出現した回数を示す。

　例えば、行３０４の頻度３０３は、行３０４の文章３０１が示す文章と同じ二つの文章が、処理対象文書１１４に出現したことを示す。また、例えば、行３０７の頻度３０３は、行３０７の文章３０１が示す文章と同じ一つの文章が、処理対象文書１１４に出現したことを示す。

　図５は、本発明の第１の実施形態の学習データセット１１７を示す説明図である。

　学習データセット１１７は、全文ＤＢ１１６から抽出された各ユーザが閲覧可能な文章を、ユーザごとに保持するテーブルである。図５に示す学習データセット１１７は、社員Ａ（ユーザＩＤ"２００１"）の学習データセット１１７であり、社員Ａが閲覧可能な文章を含む。辞書生成プログラム１２２は、図５に示す学習データセット１１７をユーザごとに生成する。

　学習データセット１１７は、文章１１０１、及び、頻度１１０２を含む。また、図５に示す学習データセット１１７は、行１１０３～行１１０７を含む。

　文章１１０１は、ユーザが閲覧可能な文章を示す。文章１１０１に格納される文字列は、全文ＤＢ１１６の各ユーザの文章３０１に格納される文字列に対応する。図５に示す文章１１０１は、図４に示す文章３０１に対応する。

　頻度１１０２は、文章１１０１が示す文章と同一の文章が、処理対象文書１１４に含まれるすべての文書において出現した回数を示す。頻度１１０２は、全文ＤＢ１１６の頻度３０３の値と同じ値を含む。図５に示す頻度１１０２は、図４に示す頻度３０３に対応する。

　例えば、行１１０３は、図４に示す行３０４に対応する。また、行１１０６は、図４に示す行３０７に対応する。

　図６は、本発明の第１の実施形態の類義語辞書１１８を示す説明図である。

　類義語辞書１１８は、学習データセット１１７に基づいて生成されるユーザごとの類義語辞書である。辞書生成プログラム１２２は、類義語辞書１１８をユーザごとに生成する。図６に示す類義語辞書１１８は、社員Ａ（ユーザＩＤ"２００１"）の類義語辞書１１８である。

　類義語辞書１１８は、見出し語１３０１及び類義語１３０２を含む。また、図６に示す類義語辞書１１８は、行１３０３～行１３０７を含む。

　辞書生成プログラム１２２は、非特許文献１又は特許文献１に提案された技術を用いて、学習データセット１１７から類義語辞書１１８を生成する。

　見出し語１３０１は、見出し語である。類義語１３０２は、見出し語と類似する単語のリストを示す。

　図７は、本発明の第１の実施形態の全文ＤＢ生成プログラム６０１による全文ＤＢ１１６を生成する処理６００を示すフローチャートである。

　図７に示す処理６００は、後述する処理において、辞書生成プログラム１２２が全文ＤＢ生成プログラム６０１を起動することによって開始される。

　全文ＤＢ生成プログラム６０１は、辞書生成プログラム１２２によって起動された場合、処理対象文書１１４に格納されたすべての文書に、ステップ５０２以降の処理が行われたか否かを判定する（５０１）。処理対象文書１１４に格納されたすべての文書に、ステップ５０２以降の処理が行われた場合、全文ＤＢ生成プログラム６０１は、図７に示す処理６００を終了する。

　処理対象文書１１４に格納された文書に、ステップ５０２以降の処理が行われていない文書がある場合、全文ＤＢ生成プログラム６０１は、処理対象文書１１４から、まだステップ５０２以降の処理が行われていない文書を一つ取得する。なお、ここで取得された文書を、以下において文書Ａと記載する。

　全文ＤＢ生成プログラム６０１は、文書Ａの識別子を文書名１５０１に含むＡＣＬ情報１１５の行を抽出し、抽出された行のＡＣＬ情報１５０２から、文書Ａの閲覧を許可されたユーザのユーザＩＤを特定する。そして、全文ＤＢ生成プログラム６０１は、特定されたユーザのユーザＩＤを、第１のユーザリスト変数に格納する（５０２）。

　第１のユーザリスト変数は、第１の実施形態において、主記憶装置１０２に一時的に保持される変数であり、図７に示す処理を行うための変数である。第１のユーザリスト変数には、複数のユーザＩＤが格納されてもよい。

　ステップ５０２の後、全文ＤＢ生成プログラム６０１は、文書Ａに含まれるすべての文章に、ステップ５０４以降の処理を実行したか否かを判定する（５０３）。文書Ａに含まれるすべての文章に、ステップ５０４以降の処理を実行した場合、全文ＤＢ生成プログラム６０１は、ステップ５０２以降の処理がまだ行われていない文書にステップ５０２以降の処理を行うため、ステップ５０１へ戻る。

　文書Ａに含まれる文章に、ステップ５０４以降の処理が実行されていない文章がある場合、全文ＤＢ生成プログラム６０１は、文書Ａからステップ５０４以降の処理が実行されていない文章を取得する。ここで、取得された文章を文章Ｂと記載する。

　そして、全文ＤＢ生成プログラム６０１は、文章Ｂが全文ＤＢ１１６の文章３０１に格納されているか否かを判定する（５０４）。ステップ５０４において全文ＤＢ生成プログラム６０１は、文章Ｂの文字列と完全に一致する文字列を含む文章（すなわち、文章Ｂと同一の文章）が文章３０１に含まれる場合、文章Ｂが文章３０１に格納されていると判定する。

　文章Ｂが全文ＤＢ１１６の文章３０１に格納されていると、ステップ５０４において判定した場合、全文ＤＢ生成プログラム６０１は、ステップ５０７を実行する。

　文章Ｂが全文ＤＢ１１６の文章３０１に格納されていないと、ステップ５０４において判定した場合、全文ＤＢ生成プログラム６０１は、全文ＤＢ１１６に新しい行を追加する（５０５）。また、ステップ５０５において、全文ＤＢ生成プログラム６０１は、追加された行の頻度３０３に"０"を格納する。

　文章Ｂが全文ＤＢ１１６の文章３０１に格納されているとステップ５０４において判定した場合、全文ＤＢ生成プログラム６０１は、文章Ｂを文章３０１に格納する（５０６）。ステップ５０６において全文ＤＢ生成プログラム６０１は、文章Ｂが含まれる文書Ａを生成したユーザのユーザＩＤと、文章Ｂとを対応付けて文章３０１に格納する。

　また、ステップ５０５の後に実行されたステップ５０６において、全文ＤＢ生成プログラム６０１は、追加された行の文章３０１に文章Ｂを格納する。

　ステップ５０６の後、全文ＤＢ生成プログラム６０１は、ステップ５０６において文章Ｂが格納された行の頻度３０３に"１"を加算する（５０７）。

　ステップ５０７の後、全文ＤＢ生成プログラム６０１は、文章Ｂが格納された行のＡＣＬ３０２を、第１のユーザリスト変数に格納された値に基づいて、更新する（５０８）。具体的には、全文ＤＢ生成プログラム６０１は、文章Ｂが格納された全文ＤＢ１１６の行のＡＣＬ３０２の値を抽出し、抽出された値と、第１のユーザリスト変数に格納された値との和演算（ＯＲ演算）の結果を取得する。そして、全文ＤＢ生成プログラム６０１は、取得された和演算の結果を、文章Ｂに対応する全文ＤＢ１１６の行のＡＣＬ３０２に格納する。なお、第1のユーザリスト変数に格納された値の中にすでにＡＣＬ３０２から抽出した値が格納されていた場合は、和演算の結果をＡＣＬ３０２に格納する手順は省略することが可能であることは言うまでもない。

　ステップ５０８の後、全文ＤＢ生成プログラム６０１は、ステップ５０３を実行し、文書Ａのすべての文章にステップ５０４以降の処理が実行されるまで、ステップ５０４～ステップ５０８を繰り返す。

　全文ＤＢ生成プログラム６０１は、処理対象文書１１４に格納されたすべての文書に、ステップ５０２以降の処理が行われたとステップ５０１において判定した場合、図７に示す処理６００を終了し、辞書生成プログラム１２２に処理６００の終了を通知する。

　図７に示す処理において全文ＤＢ１１６が生成されることによって、全文ＤＢ生成プログラム６０１は、処理対象文書１１４において同一の文章が出現する頻度を算出することができる。

　図８は、本発明の第１の実施形態の辞書生成プログラム１２２による類義語辞書１１８を生成する処理を示すフローチャートである。

　辞書生成プログラム１２２は、管理者によって指示されたタイミングにおいて、又は、定期的に、図８に示す処理を開始する。また、辞書生成プログラム１２２は、処理対象文書１１４に新たな文書が追加されたり、文書が更新されたり、システムがアイドル状態になったりすることをきっかけとする等のシステムイベントが発生したタイミングで、図８に示す処理を開始してもよい。

　図８に示す処理において、辞書生成プログラム１２２は、まず、全文ＤＢ生成プログラム６０１を起動し、全文ＤＢ生成プログラム６０１に図７に示す処理６００を実行させる。

　全文ＤＢ生成プログラム６０１から処理６００の終了を通知されたあと、辞書生成プログラム１２２は、すべてのユーザにステップ６０３以降の処理が行われたか否かを判定する（６０２）。なお、類義語辞書システム１００は、文書共有システムを用いるすべてのユーザのユーザＩＤをあらかじめ保持する。そして、全文ＤＢ生成プログラム６０１は、類義語辞書システム１００にあらかじめ保持されたユーザＩＤを用いて、ステップ６０２における処理を行う。

　すべてのユーザにステップ６０３以降の処理が行われたと、ステップ６０２において判定した場合、辞書生成プログラム１２２は、図８に示す処理を終了する。

　ユーザにステップ６０３以降の処理が行われていないユーザがある場合、辞書生成プログラム１２２は、ステップ６０３以降の処理が行われていないユーザＩＤを一つ特定する。ここで、特定されたユーザＩＤを、ユーザＣとする。そして、辞書生成プログラム１２２は、全文ＤＢ１１６のすべての行に、ユーザＣのためのステップ６０４が実行されたか否かを判定する（６０３）。全文ＤＢ１１６のすべての行に、ユーザＣのためのステップ６０４が実行された場合、辞書生成プログラム１２２は、ステップ６０５を実行する。

　全文ＤＢ１１６の行に、ユーザＣのためのステップ６０４を実行していない行がある場合、辞書生成プログラム１２２は、ステップ６０４を実行する。ステップ６０４において、辞書生成プログラム１２２は、ユーザＣのためのステップ６０４を実行していない行を全文ＤＢ１１６から一つ抽出する。そして、抽出された行のＡＣＬ３０２にユーザＣのユーザＩＤが格納されている場合、辞書生成プログラム１２２は、抽出された行の文章３０１の文章を、ユーザＣの学習データセット１１７の文章１１０１に格納する。

　さらに、辞書生成プログラム１２２は、ステップ６０４において、抽出された行の頻度３０３の値と同じ値を、抽出された行の文章を格納した学習データセット１１７の行の頻度１１０２に格納する。

　ステップ６０３及びステップ６０４を繰り返し実行することによって、辞書生成プログラム１２２は、ユーザＣの学習データセット１１７を生成する。例として、ステップ６０２において、ユーザＩＤ"２００１"が特定された後のステップ６０４の処理を以下に示す。

　辞書生成プログラム１２２は、ステップ６０４において、行３０４のＡＣＬ３０２に、ユーザＩＤ"２００１"が格納されていると判定したときは以下の処理を実行する。ユーザＩＤ"２００１"の学習データセット１１７の行１１０３の文章１１０１に、行３０４の文章３０１に格納される文字列を格納する。また、辞書生成プログラム１２２は、ユーザＩＤ"２００１"の学習データセット１１７の行１１０３の頻度１１０２に、行３０４の頻度３０３の値を格納する。

　また、辞書生成プログラム１２２は、ステップ６０４において、行３０９のＡＣＬ３０２に、ユーザＩＤ"２００１"が格納されていないと判定した場合、行３０９の文章３０１に格納された文字列を、ユーザＩＤ"２００１"に対応する学習データセット１１７に格納する処理を行わない。

　ステップ６０３及びステップ６０４を繰り返すことによって、辞書生成プログラム１２２は、学習データセット１１７を生成する。辞書生成プログラム１２２は、各ユーザに対応する類義語辞書１１８を生成するための学習データセット１１７を生成する過程において、学習データセット１１７に、処理対象文書１１４において文章が出現した頻度を付加することができる。そして、これによって、辞書生成プログラム１２２は、すべてのユーザが生成したすべての文書に基づいて、各ユーザに対応する類義語辞書１１８を生成することができる。

　全文ＤＢ１１６のすべての行にステップ６０４が実行されたと、ステップ６０３において判定した場合、辞書生成プログラム１２２は、生成された学習データセット１１７を用いて、ユーザＣの類義語辞書１１８を生成する（６０５）。

　辞書生成プログラム１２２は、ステップ６０５において、学習データセット１１７のすべての行に含まれる文章１１０１の文字列を読み出し、読み出された文字列に含まれる単語間の類似度を、頻度１１０２の値を用いて算出する。そして、辞書生成プログラム１２２は、算出された類似度が所定の閾値以上である単語の組みを類義語辞書１１８の各行に格納することによって、類義語辞書１１８を生成する。

　辞書生成プログラム１２２は、類似度を判定するための所定の閾値を、ステップ６０５において、入出力装置１０３又はネットワーク装置１０７を介して管理者又はユーザから入力されてもよい。

　また、辞書生成プログラム１２２は、類似度を判定するための所定の閾値を、ステップ６０５において、補助記憶装置１１０から読み出してもよい。補助記憶装置１１０には、類似度を判定するための所定の閾値があらかじめ格納されていてもよい。

　ステップ６０５において辞書生成プログラム１２２は、非特許文献１又は特許文献１に記載される技術、若しくは、形態素解析を用いて単語間の類似度を算出する等の一般的な技術を用いて、単語間の類似度を算出する。

　ステップ６０５の後、辞書生成プログラム１２２は、ステップ６０２を実行し、すべてのユーザについてステップ６０３の処理を行う。

　ステップ６０５に示す処理によって、類義語辞書１１８が生成される。図８に示す処理によって生成される類義語辞書１１８の単語（見出し語１３０１及び類義語１３０２に格納される単語）は、各ユーザが閲覧可能な文書から抽出された単語である。このため、他のユーザによって生成された文書に含まれる単語が類義語辞書１１８から検索されることによって、情報漏えいが発生することを防ぐことができる。

　一方で、各単語の類似度を算出するために用いられる頻度には、処理対象文書１１４において文章が出現した頻度が用いられる。このため、ステップ６０５において算出される類似度は精度が高い。すなわち、ステップ６０５において生成される類義語辞書１１８は精度が高い。

　辞書検索プログラム１２５は、ユーザ又はプログラムから検索要求を受信した場合、検索要求に含まれるユーザＩＤに対応する類義語辞書１１８を特定する。そして、特定された類義語辞書１１８から、検索要求に含まれる単語を検索することによって、ユーザ又はプログラムに類義語を提供する。

　第１の実施形態によれば、ユーザごとの類義語辞書１１８が、処理対象文書１１４において出現した単語の頻度に基づいて生成されるため、精度が高い類義語辞書１１８が生成される。

　一方で、ユーザごとの類義語辞書１１８には、各ユーザが閲覧できる文書に含まれる単語が格納されるため、ユーザ１によって文字列が検索された場合、ユーザ１は、ユーザ１が閲覧できない文書に含まれる単語を取得することがない。このため、類義語辞書１１８による情報漏えいを未然に防ぐことができる。

　さらに、第１の実施形態によれば、辞書生成プログラム１２２は、同一の文章が出現した頻度を用いて、類義語辞書１１８を生成する。このため、辞書生成プログラム１２２は、同じ文章が出現した頻度を正確に算出することができ、その結果、より精度の高い類義語辞書１１８を生成することができる。

　以下に、類義語辞書１１８を用いたシステムの例としてコンテンツ活用システムを示す。このコンテンツ活用システムは、ユーザが入力する検索文字列に対応するコンテンツをファイルストレージから検索するシステムであり、ユーザごとの類義語辞書１１８に従って、ユーザが閲覧可能な類義語を適切に検索するシステムである。

　図９は、本発明の第１の実施形態のコンテンツ活用システムの構成を示すブロック図である。

　図９に示すコンテンツ活用システムは、図１に示す類義語辞書システム１００をユーザが利用するためのシステムの一例である。コンテンツ活用システムは、ユーザ端末１００１、検索システム１００２、ファイルストレージ１００３、ネットワーク９１０、及び、データ辞書管理システム１００４を有する。

　ユーザ端末１００１、検索システム１００２、ファイルストレージ１００３、及び、データ辞書管理システム１００４は、プロセッサ、及び、メモリを備える計算機である。ネットワーク９１０は、ＬＡＮ、インターネット、又は、ＷＡＮなどのネットワークである。

　ユーザ端末１００１は、ユーザが検索文字列を入力するための端末である。ユーザ端末１００１は、検索システム１００２と接続される。

　検索システム１００２は、ユーザ端末１００１から検索文字列を受信した場合、ユーザが閲覧したい文書等のコンテンツを、ユーザ端末１００１に送信する。検索システム１００２は、インデックス９０９を有し、ユーザ端末１００１及びネットワーク９１０と接続される。

　ここで、コンテンツとは、テキストのみが含まれる文書でもよいし、タグの文字列が不可された画像又は映像等でもよい。コンテンツが画像等である場合、インデックス９０９は、画像等に付加されたタグに含まれる単語を示す。このため、以下において、画像等に付加されたタグも、文書と同じく処理対象文書１１４に含まれる。

　ファイルストレージ１００３は、ユーザによって生成された文書を格納するためのテキストデータベース１１３を有する。ファイルストレージ１００３は、ネットワーク９１０と接続される。

　データ辞書管理システム１００４は、図１に示す類義語辞書システム１００のデータ管理プログラム１１２を有し、類義語辞書１１８、全文ＤＢ１１６、学習データセット１１７を保持する。データ辞書管理システム１００４は、ネットワーク９１０と接続される。

　ネットワーク９１０は、検索システム１００２、ファイルストレージ１００３、及び、データ辞書管理システム１００４と接続されている。

　このため、データ辞書管理システム１００４及びファイルストレージ１００３は、データ辞書管理システム１００４とファイルストレージ１００３との間で通信することによって、類義語辞書システム１００の機能をユーザに提供することができる。

　検索システム１００２は、テキストデータベース１１３の処理対象文書１１４とＡＣＬ情報１１５とに基づいて、インデックス９０９をあらかじめ生成する。

　図１０は、本発明の第１の実施形態のコンテンツ活用システムにおける検索処理を示すシーケンス図である。

　ユーザが、特定のコンテンツを取得するため、コンテンツを示す検索文字列をユーザ端末１００１に入力した場合、ユーザ端末１００１は、検索文字列を入力したユーザのユーザＩＤと入力された検索文字列とを含む検索要求を生成する。そして、生成された検索要求を検索システム１００２へ送信する（１００５）。

　シーケンス１００５の後、検索システム１００２は、受信した検索要求をデータ辞書管理システム１００４へ送信する（１００６）。

　シーケンス１００６の後、データ辞書管理システム１００４は、辞書検索プログラム１２５を起動させる。辞書検索プログラム１２５は、受信した検索要求に含まれるユーザＩＤを用いて、検索すべき類義語辞書１１８を特定する。そして、特定された類義語辞書１１８の見出し語１３０１及び類義語１３０２から検索文字列に対応する類義語を検索する（１００７）。

　処理１００７によって、類義語が検索された場合、データ辞書管理システム１００４は、検索された類義語を検索システム１００２へ送信する（１００８）。

　シーケンス１００８の後、検索システム１００２は、シーケンス１００５において送信されたユーザＩＤと、シーケンス１００８において送信された類義語とに基づいて、図１１に示すインデックス９０９から、文書名１４０３を取得する（１００９）。

　図１０に示す処理１００９によって文書名１４０３が取得されたあと、検索システム１００２は、検索された文書名１４０３を含むファイル取得要求を生成する。そして、生成されたファイル取得要求をファイルストレージ１００３へ送信する（１０１０）。

　シーケンス１０１０の後、ファイルストレージ１００３は、受信したファイル取得要求が含む文書名１４０３に基づいて、コンテンツを検索システム１００２へ送信する（１０１１）。

　シーケンス１０１１の後、検索システム１００２は、受信したコンテンツをユーザ端末１００１へ送信する。

　図１１は、本発明の第１の実施形態のインデックス９０９を示す説明図である。

　インデックス９０９は、コンテンツが含む文字列（キーワード）が、コンテンツのいずれに格納されるかを示す情報である。インデックス９０９は、検索システム１００２によって生成される。検索システム１００２は、定期的又は管理者等の指示を受けた際、ファイルストレージ１００３からテキストデータベース１１３を取得し、インデックス９０９を生成する。

　インデックス９０９は、キーワード１４０１、ＡＣＬ１４０２、文書名１４０３、及び、オフセット１４０４を含む。

　キーワード１４０１は、コンテンツに含まれる単語を示す。キーワード１４０１は、コンテンツが画像等である場合、コンテンツに付加されたタグに含まれる単語を示す。ＡＣＬ１４０２は、文書等、すなわち、コンテンツを閲覧可能なユーザのユーザＩＤを示す。

　文書名１４０３は、ファイルストレージ１００３のテキストデータベース１１３に格納されるコンテンツの識別子を示す。オフセット１４０４は、コンテンツが文書である場合、文書に含まれる単語の位置を示す。また、オフセット１４０４は、コンテンツが画像である場合、画像に付加されたタグにおける単語の位置を示す。

　検索システム１００２は、処理１００９において、シーケンス１００８において送信された類義語をキーワード１４０１に含み、シーケンス１００５において送信されたユーザＩＤをＡＣＬ１４０２に含むインデックス９０９の行を特定し、特定された行の文書名１４０３を取得する。

　前述の処理によれば、データ辞書管理システム１００４が、ユーザごとの類義語辞書１１８を保持する。また、ユーザごとの類義語辞書１１８は、ファイルストレージ１００３に格納されたすべての文書を用いて生成されているため、精度が高い。このため、前述のコンテンツ活用システムは、ユーザが入力する検索文字列に対応するコンテンツをファイルストレージ１００３から検索する際、適切な文字列を用いてコンテンツをユーザに提供できる。

　一方で、検索結果を提供する類義語辞書１１８は、検索文字列を入力したユーザ以外のユーザが入力した単語を含まないため、検索文字列を入力したユーザは、ユーザが閲覧できないコンテンツを取得することができない。このため、前述の処理によれば、ユーザへの情報漏えいを未然に防ぐことができる。

　（第２の実施形態）

　第１の実施形態において、類義語辞書システム１００は、文書に含まれる文章が出現する頻度を算出することによって類義語辞書１１８を生成した。第２の実施形態において、類義語辞書システム１００は、文書に含まれる二つの単語と、二つの単語の関係性との組合せが出現する頻度を算出することによって、類義語辞書１１８を生成する。

　図１２は、本発明の第２の実施形態の類義語辞書システム１０００を示す説明図である。

　第２の実施形態の類義語辞書システム１０００は、ユーザが用いる文書共有システムに接続されるシステム、又は、ユーザが用いる文書共有システムに備わるシステムである。

　第２の実施形態の類義語辞書システム１０００は、第１の実施形態の類義語辞書システム１００と同様である。すなわち、類義語辞書システム１０００は、類義語辞書システム１００と同じく、プロセッサ１０１、主記憶装置１０２、入出力装置１０３、ネットワーク装置１０７、及び、補助記憶装置１１０を有する。

　ただし、類義語辞書システム１０００の主記憶装置１０２が有するデータ管理プログラム１１２には、関係ＤＢ生成プログラム８０１が含まれる。関係ＤＢ生成プログラム８０１は、関係ＤＢ１１９を生成する機能を有するプログラムである。

　また、類義語辞書システム１０００の補助記憶装置１１０は、関係ＤＢ１１９、及び、関係学習データセット１２０を有する。関係ＤＢ１１９は、文書内の二つの単語間の関係を示すテーブルである。関係学習データセット１２０は、関係ＤＢ１１９に基づいてユーザごとに生成される学習データセットである。

　第２の実施形態の類義語辞書システム１０００が有する各プログラムの機能は、第１の実施形態の類義語辞書システム１００が有する各プログラムの機能と同じく、集積回路等のハードウェアによって実装されてもよい。また、類義語辞書システム１０００が有する各プログラム、及び、各テーブル等は、フラッシュメモリ等によって類義語辞書システム１０００にインストールされてもよい。

　図１３は、本発明の第２の実施形態の関係ＤＢ１１９を示す説明図である。

　関係ＤＢ１１９は、処理対象文書１１４及びＡＣＬ情報１１５に基づいて、関係ＤＢ生成プログラム８０１によって生成される。関係ＤＢ１１９は、処理対象文書１１４の各文章に含まれる二つの単語と、二つの単語の係り受けとを示す。二つの単語の係り受けとは、すなわち、二つの単語の関係を示す。

　関係ＤＢ１１９は、単語１（４０１）、関係４０２、単語２（４０３）、ＡＣＬ４０４、及び、頻度４０５を含む。また、図１３に示す関係ＤＢ１１９は、行４０６～行４１１を含む。

　単語１（４０１）及び単語２（４０３）には、一つの文章から抽出された二つの単語が格納される。関係４０２は、単語１（４０１）が示す単語と単語２（４０３）が示す単語とが抽出された文章における、単語１（４０１）が示す単語と単語２（４０３）が示す単語との関係を示す。

　図１３に示す関係４０２に格納される値は、単語１（４０１）に対する単語２（４０３）の役割を示す。これによって、図１３に示す関係４０２に格納される値は、単語１（４０１）が示す単語と単語２（４０３）が示す単語との関係を示す。

　ＡＣＬ４０４は、単語１（４０１）及び単語２（４０３）が示す二つの単語が抽出された文章が含まれる文書を、閲覧できるユーザのユーザＩＤを示す。頻度４０５は、処理対象文書１１４において、単語１（４０１）、関係４０２、及び、単語２（４０３）が示す組合せが出現した回数を示す。

　例えば、図２に示す文書２０７から関係ＤＢ１１９が生成される場合、関係ＤＢ生成プログラム８０１は、"私は茶色い犬を飼っている。"という文書から、"私"、"茶色い"、"犬"、及び、"飼っている"を、単語として抽出する。そして、抽出された単語の組合せ（例えば、"飼っている"と"私"）を、単語１（４０１）及び単語２（４０３）に格納し、それぞれの単語の組合せの関係（例えば、"主語"）を関係４０２に格納する。

　図１４は、本発明の第２の実施形態の関係学習データセット１２０を示す説明図である。

　関係学習データセット１２０は、関係ＤＢ１１９から各ユーザが閲覧可能な文書に含まれる係り受けの関係のみを抽出して生成されたテーブルである。図１４に示す関係学習データセット１２０は、ユーザＩＤが"２００１"であるユーザに関する係り受けの関係を、図１３に示す関係ＤＢ１１９から抽出した結果を示す。辞書生成プログラム１２２は、図１４に示す関係学習データセット１２０と同様のテーブルを、ユーザごとに生成する。

　関係学習データセット１２０は、単語１（１２０１）、関係（１２０２）、単語２（１２０３）、及び、頻度１２０４を含む。図１４に示す関係学習データセット１２０は、行１２０５～行１２１０を含む。

　単語１（１２０１）は一つ目の単語であり、図１３に示す単語１（４０１）に対応する。関係１２０２は単語１（１２０１）と単語２（１２０３）との関係が記載されており、図１３に示す関係４０２に対応する。

　単語２（１２０３）は二つ目の単語であり、図１３に示す単語２（４０３）に対応する。頻度１２０４は、図１３に示す頻度４０５に対応する。

　例えば、図１４に示す行１２０５は、図１３に示す行４０６に対応し、行１２０５の頻度１２０４の値は、行４０６の頻度４０５の値と同じである。

　図１５は、本発明の第２の実施形態の関係ＤＢ１１９を生成する処理８００を示すフローチャートである。

　図１５に示す処理８００は、後述する図１６に示す処理において、辞書生成プログラム１２２が関係ＤＢ生成プログラム８０１を起動することによって開始される。

　関係ＤＢ生成プログラム８０１は、辞書生成プログラム１２２によって起動された場合、処理対象文書１１４に格納されたすべての文書に、ステップ７０２以降の処理が行われたか否かを判定する（７０１）。処理対象文書１１４に格納されたすべての文書に、ステップ７０２以降の処理が行われた場合、関係ＤＢ生成プログラム８０１は、図１５に示す処理８００を終了する。

　処理対象文書１１４に格納された文書に、ステップ７０２以降の処理が行われていない文書がある場合、関係ＤＢ生成プログラム８０１は、処理対象文書１１４から、まだステップ８０２以降の処理が行われていない文書を一つ取得する。なお、ここで取得された文書を、以下において文書Ｄと記載する。

　関係ＤＢ生成プログラム８０１は、文書Ｄの識別子を文書名１５０１に含むＡＣＬ情報１１５の行を抽出し、抽出された行のＡＣＬ情報１５０２から、文書Ｄの閲覧を許可されたユーザのユーザＩＤを特定する。そして、関係ＤＢ生成プログラム８０１は、特定されたユーザのユーザＩＤを、第２のユーザリスト変数に格納する（７０２）。

　第２のユーザリスト変数は、第２の実施形態において、主記憶装置１０２に一時的に保持される変数であり、図１５に示す処理を行うための変数である。第２のユーザリスト変数には、ＡＣＬ情報１１５に従って、複数のユーザＩＤが格納されてもよい。

　ステップ７０２の後、関係ＤＢ生成プログラム８０１は、文書Ｄに含まれるすべての文章に、ステップ７０４以降の処理が行われたか否かを判定する（７０３）。文書Ｄに含まれるすべての文章に、ステップ７０４以降の処理を実行した場合、関係ＤＢ生成プログラム８０１は、新たな文書に図１５に示す処理を実行するため、ステップ７０１へ戻る。

　文書Ｄに含まれる文章に、ステップ７０４以降の処理が実行されていない文章がある場合、関係ＤＢ生成プログラム８０１は、文書Ｄからステップ７０４以降の処理が実行されていない文章を取得する。ここで、取得された文章を文章Ｅと記載する。

　そして、関係ＤＢ生成プログラム８０１は、文章Ｅに含まれる二つの単語の組合せを抽出し、抽出されたすべての組合せに、ステップ７０５以降の処理が実行されたか否かを判定する（７０４）。抽出されたすべての組合せに、ステップ７０５以降の処理が実行された場合、関係ＤＢ生成プログラム８０１は、新たな文章にステップ７０４以降の処理を実行するため、ステップ７０３に戻る。

　抽出された組合せに、ステップ７０５以降の処理が実行されていない組合せがある場合、関係ＤＢ生成プログラム８０１は、抽出された二つの単語の係り受けの関係を特定する。そして、関係ＤＢ生成プログラム８０１は、抽出された二つの単語と二つの単語の関係とを示す行が、関係ＤＢ１１９に既に含まれているか否かを判定する（７０５）。

　例えば、文書Ｄが図２に示す文書２０５であり、文章Ｅが"以下の結果を参照すること。"であり、ステップ７０４において"結果"と"参照"とが抽出され、関係として"被目的語"が特定され、ステップ７０５において既に図１３に示す関係ＤＢ１１９が生成されている場合、関係ＤＢ生成プログラム８０１は、ステップ７０５において、図１３の関係ＤＢ１１９の行４１１に、抽出された二つの単語と二つの単語の関係とが既に含まれる判定する。

　抽出された二つの単語と二つの単語の関係とを示す行が、関係ＤＢ１１９に既に含まれると、ステップ７０５において判定した場合、関係ＤＢ生成プログラム８０１は、ステップ７０７を実行する。

　抽出された二つの単語と二つの単語の関係とを示す行が、関係ＤＢ１１９に含まれないと、ステップ７０５において判定した場合、関係ＤＢ生成プログラム８０１は、関係ＤＢ１１９に新しい行を追加する。そして、関係ＤＢ生成プログラム８０１は、追加された行の単語１（４０１）、単語２（４０３）、及び、関係４０２に、抽出された二つの単語と二つの単語の関係とを格納する（７０６）。

　なお、ステップ７０６において関係ＤＢ生成プログラム８０１は、追加された行の頻度４０５に"０"を格納する。

　抽出された二つの単語と二つの単語の関係とを示す行が関係ＤＢ１１９に含まれていると、ステップ７０５において判定した場合、又は、ステップ７０６の後、関係ＤＢ生成プログラム８０１は、関係ＤＢ１１９の頻度４０５に"１"を加算する（７０７）。

　具体的には、ステップ７０６の後実行されるステップ７０７において、関係ＤＢ生成プログラム８０１は、ステップ７０６において追加された行の頻度４０５に"１"を加算する。また、ステップ７０５において、抽出された二つの単語と二つの単語の関係とを示す行が関係ＤＢ１１９に含まれると判定した後のステップ７０７において、関係ＤＢ生成プログラム８０１は、抽出された二つの単語と二つの単語の関係とを示す行の頻度４０５に"１"を加算する。

　ステップ７０７の後、関係ＤＢ生成プログラム８０１は、ステップ７０７において頻度４０５を更新された行のＡＣＬ４０４を、第２のユーザリスト変数に格納された値に基づいて、更新する（７０８）。

　具体的には、ステップ７０８において関係ＤＢ生成プログラム８０１は、ステップ７０７において頻度４０５を更新された行のＡＣＬ４０４の値を抽出し、抽出された値と、第２のユーザリスト変数に格納された値との和演算（ＯＲ演算）の結果を取得する。そして、関係ＤＢ生成プログラム８０１は、取得された和演算の結果を、ステップ７０７において頻度４０５を更新された行のＡＣＬ４０４に格納する。この時、第２のユーザリスト変数にすでにＡＣＬ４０４から抽出された値が含まれていた場合、更新された行のＡＣＬ４０４に書き戻す処理は省略する処理手順としても良い。

　ステップ７０８の後、関係ＤＢ生成プログラム８０１は、ステップ７０４を実行する。

　関係ＤＢ生成プログラム８０１は、処理対象文書１１４に格納されたすべての文書に、ステップ７０２以降の処理が行われたとステップ７０１において判定した場合、図１５に示す処理８００を終了する。そして、辞書生成プログラム１２２に処理８００の終了を通知する。

　図１６は、本発明の第２の実施形態の類義語辞書１１８を生成する処理を示すフローチャートである。

　辞書生成プログラム１２２は、管理者によって指示されたタイミングにおいて、又は、定期的に、図１６に示す処理を開始する。また、辞書生成プログラム１２２は、処理対象文書１１４に新たな文書が追加されたり、文書が更新されたり、システムがアイドル状態になったりすることをきっかけとする等のシステムイベントが発生したタイミングで、図１６に示す処理を開始してもよい。

　図１６に示す処理において、辞書生成プログラム１２２は、まず、関係ＤＢ生成プログラム８０１を起動し、関係ＤＢ生成プログラム８０１に図１５に示す処理８００を実行させる。

　関係ＤＢ生成プログラム８０１から処理８００の終了を通知された場合、辞書生成プログラム１２２は、すべてのユーザにステップ８０３以降の処理が行われたか否かを判定する（８０２）。なお、類義語辞書システム１０００は、文書共有システムを用いるすべてのユーザのユーザＩＤをあらかじめ保持する。そして、関係ＤＢ生成プログラム８０１は、類義語辞書システム１０００にあらかじめ保持されたユーザＩＤを用いて、ステップ８０２における処理を行う。

　すべてのユーザにステップ８０３以降の処理が行われたと、ステップ８０２において判定した場合、辞書生成プログラム１２２は、図１６に示す処理を終了する。

　ユーザにステップ８０３以降の処理が行われていないユーザがいる場合、辞書生成プログラム１２２は、ステップ８０３以降の処理が行われていないユーザのユーザＩＤを一つ特定する。ここで、特定されたユーザＩＤを、ユーザＦとする。そして、辞書生成プログラム１２２は、関係ＤＢ１１９のすべての行に、ユーザＦのためのステップ８０４が実行されたか否かを判定する（８０３）。関係ＤＢ１１９のすべての行に、ユーザＦのためのステップ８０４が実行された場合、辞書生成プログラム１２２は、ステップ８０５を実行する。

　全文ＤＢ１１６の行に、ユーザＦのためのステップ８０４を実行していない行がある場合、辞書生成プログラム１２２は、ステップ８０４を実行する。ステップ８０４において、辞書生成プログラム１２２は、ユーザＦのためのステップ８０４を実行していない関係ＤＢ１１９の行から一つの行を抽出する。

　そして、抽出された行のＡＣＬ４０４にユーザＦのユーザＩＤが格納されている場合、辞書生成プログラム１２２は、抽出された行の単語１（４０１）、関係４０２、及び、単語２（４０３）を、ユーザＦの関係学習データセット１２０の単語１（１２０１）、関係１２０２、及び、単語２（１２０３）に格納する。さらに、辞書生成プログラム１２２は、ステップ８０４において、抽出された行の頻度４０５の値と同じ値を、ユーザＦの関係学習データセット１２０の頻度１２０４に格納する。

　ステップ８０３及びステップ８０４を繰り返し実行することによって、辞書生成プログラム１２２は、ユーザＦの関係学習データセット１２０を生成する。

　関係ＤＢ１１９のすべての行にユーザＦのためのステップ８０４が実行されたとステップ８０３において判定した場合、辞書生成プログラム１２２は、生成されたユーザＦの関係学習データセット１２０を用いて、ユーザＦの類義語辞書１１８を生成する（８０５）。

　辞書生成プログラム１２２は、ステップ８０５において、関係学習データセット１２０の頻度１２０４を用いて単語間の類似度を算出し、類似度の高い単語の組みを集め、ユーザＦの類義語辞書１１８を生成する。生成される類義語辞書１１８は、図６に示す類義語辞書１１８と同じである。

　ステップ８０５において辞書生成プログラム１２２は、非特許文献１又は特許文献１に記載される技術、若しくは、形態素解析を用いて単語間の類似度を算出する等の一般的な技術を用いて、単語間の類似度を算出する。

　図１６に示す処理において、辞書生成プログラム１２２は、関係ＤＢ１１９から抽出された各行の内容を関係学習データセット１２０に格納し、生成された関係学習データセット１２０に基づいて単語間の類似度を算出する。しかし、第２の実施形態の辞書生成プログラム１２２は、ステップ８０４において随時類似度を算出し、算出された類似度に基づいて類似度の高い単語の組みを集め、ステップ８０５において、ユーザＦの類義語辞書１１８を生成してもよい。

　辞書生成プログラム１２２は、ステップ８０５において、単語間で算出された類似度が所定の閾値以上である場合、その単語間の類似度が高いと判定する。ここで、辞書生成プログラム１２２は、類似度を判定するための所定の閾値を、入出力装置１０３又はネットワーク装置１０７を介して管理者又はユーザから入力されてもよい。

　また、辞書生成プログラム１２２は、類似度を判定するための所定の閾値を、ステップ８０５において、補助記憶装置１１０から読み出してもよい。補助記憶装置１１０には、類似度を判定するための所定の閾値があらかじめ格納されていてもよい。

　前述の図１６に示す処理によって、第２の実施形態の辞書生成プログラム１２２は、第２の実施形態の類義語辞書１１８を生成できる。第２の実施形態の辞書検索プログラム１２５は、第２の実施形態において生成された類義語辞書１１８を用いて類義語を検索する。

　なお、本実施形態は前述の第１の実施形態又は第２の実施形態に限定されるものではなく、様々な実施形態が含まれる。例えば、第１の実施形態の類義語辞書システム１００は、第２の実施形態の類義語辞書システム１０００の機能を有してもよい。

　すなわち、第１の実施形態において生成された類義語辞書１１８と第２の実施形態において生成された類義語辞書１１８とを用いて、新たな類義語辞書を生成することによって、本実施形態の類義語辞書システムは、精度が高い類義語辞書を生成することが可能である。

　具体的には、本実施形態の類義語辞書システムは、辞書生成プログラム１２２、全文ＤＢ生成プログラム６０１及び関係ＤＢ生成プログラム８０１を有してもよい。そして、辞書生成プログラム１２２は、図８に示す処理及び図１６に示す処理を行ってもよい。

　この場合、辞書生成プログラム１２２は、ステップ６０５において、類義語１３０２に格納される類義語に算出された類似度を、各類義語に対応させて、第１の実施形態の類義語辞書１１８に格納する。また、辞書生成プログラム１２２は、ステップ８０５において、類義語１３０２に格納される類義語に算出された類似度を、各類義語に対応させて、第２の実施形態の類義語辞書１１８に格納する。

　そして、第１の実施形態の類義語辞書１１８の各類義語の類似度と、第２の実施形態の類義語辞書１１８の各類義語の類似度とを、乗算することによって、各類義語の新たな類似度を算出する。そして、算出された新たな類似度の大きい順に、新たな類義語辞書に類義語を格納する。

　例として、見出し語１３０１が"犬"を示し、類義語１３０２が"飼い犬"を示す行が、第１の実施形態の類義語辞書１１８に含まれ、第２の実施形態の類義語辞書１１８に含まれる場合を以下に示す。また、この場合において、第１の実施形態の類義語辞書１１８における"飼い犬"の類似度として、０．８が算出され、第２の実施形態の類義語辞書１１８において生成された類義語辞書１１８における"飼い犬"の類似度として、０．９が算出されているものとする。

　辞書生成プログラム１２２は、前述の例において、第１の実施形態の類義語辞書１１８における"飼い犬"の類似度（０．８）と、第２の実施形態の類義語辞書１１８における"飼い犬"の類似度（０．９）とを乗算し、乗算結果（０．７２）を新たな類似度として取得する。そして、類義語辞書１１８と同じ見出し語１３０１及び類義語１３０２を含む類義語辞書を新たに生成し、取得された新たな類似度に従って、類義語１３０２に格納された単語の順番を変更する。

　前述の例において、辞書生成プログラム１２２は、単純な乗算方法によって新たな類義語辞書の類似度を算出したが、足し算など他の演算子を用いてもよい。また、辞書生成プログラム１２２は、第１の実施形態の類義語辞書１１８の類似度（変数ｘ）及び第２の実施形態の類義語辞書１１８の類似度（変数ｙ）に、所定の重み（定数ａ及び定数ｂ）を各々乗算して生成した２変数関数を用いることによって、類似度（ａｘ＋ｂｙ）を算出してもよい。

　第２の実施形態によれば、ユーザごとの類義語辞書１１８が、処理対象文書１１４において出現した単語の頻度に基づいて生成されるため、精度が高い類義語辞書１１８が生成される。

　さらに、第２の実施形態によれば、辞書生成プログラム１２２は、一つの文章に含まれる二つの単語と、二つの単語間の関係との組合せが、処理対象文書１１４において出現した頻度を用いて、類義語辞書１１８を生成する。このため、辞書生成プログラム１２２は、単語間の類似度を正確に算出することができ、その結果、より精度の高い類義語辞書１１８を生成することができる。

　（第３の実施形態）

　第１の実施形態及び第２の実施形態において生成される類義語辞書１１８は、ユーザごとに生成されるため、類義語辞書システム１００又は類義語辞書システム１０００を用いるユーザが多数である場合、類義語辞書１１８は膨大な量となることがある。そして、生成された類義語辞書１１８が、補助記憶装置１１０等のリソースを圧迫することとなることがある。

　このため、第３の実施形態における辞書生成プログラム１２２は、ユーザごとの類義語辞書１１８から共通の類義語を抽出し、共通類義語辞書を生成することによって、共通類義語辞書の量と類義語辞書１１８の量との合計の量を低減することができる。

　図１７は、本発明の第３の実施形態の共通類義語辞書を生成する処理を示すフローチャートである。

　図８に示す処理又は図１６に示す処理によって、辞書生成プログラム１２２は、すべてのユーザの類義語辞書１１８を生成する（１７０１）。

　ステップ１７０１の後、辞書生成プログラム１２２は、すべてのユーザの類義語辞書１１８から一人のユーザの類義語辞書１１８を抽出し、抽出された類義語辞書１１８の内容を共通類義語辞書に複写する（１７０２）。

　ステップ１７０２における共通類義語辞書は、主記憶装置１０２に格納されるテーブルである。また、以降において、ステップ１７０２において抽出される類義語辞書１１８に対応するユーザを、ユーザＸと記載する。

　ステップ１７０２の後、辞書生成プログラム１２２は、ユーザＸ以外のすべてのユーザに、ステップ１７０４以降の処理を行ったか否かを判定する（ステップ１７０３）。ユーザＸ以外のすべてのユーザに、ステップ１７０４以降の処理を行った場合、辞書生成プログラム１２２は、ステップ１７０７を実行する。

　ユーザＸ以外のユーザに、ステップ１７０４以降の処理を行っていないユーザがいる場合、辞書生成プログラム１２２は、共通類義語辞書の類義語１３０２に含まれるすべての類義語にステップ１７０５以降の処理を行ったか否かを判定する（１７０５）。なお、辞書生成プログラム１２２は、ステップ１７０５において、ユーザＸ以外のユーザのうち、ステップ１７０５以降の処理を行っていないユーザを、ユーザＹとして抽出する。

　共通類義語辞書に含まれるすべての類義語にステップ１７０５以降の処理を行った場合、辞書生成プログラム１２２は、ステップ１７０３に戻る。

　共通類義語辞書に含まれる類義語にステップ１７０５以降の処理を行っていない類義語がある場合、辞書生成プログラム１２２は、ステップ１７０５以降の処理を行っていない類義語とその見出し語（共通類義語辞書の見出し語１３０１に格納される値）との組を共通類義語辞書から抽出する。そして、辞書生成プログラム１２２は、抽出された類義語とその見出し語との組が、ユーザＹの類義語辞書１１８に含まれるか否かを判定する（１７０５）。

　抽出された類義語とその見出し語との組が、ユーザＹの類義語辞書１１８に含まれる場合、辞書生成プログラム１２２は、ステップ１７０４に戻る。

　抽出された類義語とその見出し語との組が、ユーザＹの類義語辞書１１８に含まれない場合、辞書生成プログラム１２２は、ステップ１７０５において抽出された類義語を共通類義語辞書から削除する（１７０６）。これは、抽出された類義語がすべての類義語辞書１１８において共通の類義語ではないためである。

　ステップ１７０６の後、辞書生成プログラム１２２は、ステップ１７０４に戻る。ステップ１７０２～ステップ１７０６の処理によって、共通類義語辞書が生成される。なお、ステップ１７０３において、すべてのユーザにステップ１７０４以降の処理が実行されたと判定した場合、辞書生成プログラム１２２は、生成された共通類義語辞書を、補助記憶装置１１０に格納する。

　ユーザＸ以外のすべてのユーザに、ステップ１７０４以降の処理を行ったと、ステップ１７０３において判定した場合、辞書生成プログラム１２２は、すべてのユーザにステップ１７０８の処理を実行したか否かを判定する（１７０７）。すべてのユーザにステップ１７０８の処理を実行したと判定した場合、辞書生成プログラム１２２は、図１７に示す処理を終了する。

　ユーザにステップ１７０８の処理が実行されていないユーザがいると、ステップ１７０７において判定した場合、辞書生成プログラム１２２は、ステップ１７０８の処理を実行していないユーザから一人のユーザを、ユーザＺとして抽出する。そして、辞書生成プログラム１２２は、共通類義語辞書のすべての類義語に、ステップ１７０９の処理を実行したか否かを判定する（１７０８）。

　共通類義語辞書のすべての類義語にステップ１７０９の処理を実行したと、ステップ１７０８において判定した場合、辞書生成プログラム１２２は、ステップ１７０７に戻る。

　共通類義語辞書の類義語にステップ１７０９の処理を実行していない類義語があると、ステップ１７０８において判定した場合、辞書生成プログラム１２２は、ステップ１７０９の処理を実行していない類義語を共通類義語辞書から選択する。そして、辞書生成プログラム１２２は、選択された類義語と同じ類義語を、ユーザＺの類義語辞書１１８から削除する（１７０９）。これによって、ユーザＺの類義語辞書１１８から共通類義語が削除される。

　ステップ１７０９の後、辞書生成プログラム１２２は、ステップ１７０８に戻る。ステップ１７０８及びステップ１７０９を繰り返すことによって、ユーザＺの類義語辞書１１８からすべての共通類義語が削除される。

　ステップ１７０７～ステップ１７０９の処理を繰り返すことによって、すべてのユーザの類義語辞書１１８から、共通類義語が削除される。

　共通類義語辞書が生成された後、辞書検索プログラム１２５がユーザ又はプログラムから検索要求を受信した場合、辞書検索プログラム１２５は、共通類義語辞書を検索する。

　具体的には、検索要求にはユーザＩＤ及び検索文字列が含まれるため、辞書検索プログラム１２５は、検索要求に含まれる検索文字列に基づいて、共通類義語辞書に格納される共通類義語を抽出する。また、辞書検索プログラム１２５は、検索要求に含まれるユーザＩＤのユーザの類義語辞書１１８から、検索要求に含まれる検索文字列に基づいて、類義語を抽出する。

　そして、辞書検索プログラム１２５は、共通類義語辞書から抽出された共通類義語と、類義語辞書１１８から抽出された類義語とを、検索要求を送信したユーザ又はプログラムに、類義語として送信する。

　第３の実施形態によれば、類義語辞書システム１００又は類義語辞書システム１０００は、すべてのユーザの類義語辞書１１８を保持する必要がなく、共通類義語辞書と、各ユーザ固有の類義語を含む類義語辞書１１８とを保持すればよい。これによって、類義語辞書システム１００又は類義語辞書システム１０００が有する共通類義語辞書及び類義語辞書１１８の量を低減することができ、補助記憶装置１１０等のリソースを圧迫しない。

　（第４の実施形態）

　第１の実施形態における類義語辞書システム１００は、ユーザによって生成されたすべての文書において、同じ文章が出現する頻度を算出した。第４の実施形態における類義語辞書システム１００は、同じ文章が出現する頻度に加え、類似する文章が出現する頻度を算出する。

　第４の実施形態における類義語辞書システム１００は、図１に示す第１の実施形態における類義語辞書システム１００と同じ構成を有する。

　図１８は、本発明の第４の実施形態の処理対象文書１１４に格納される文書を示す説明図である。

　第４の実施形態の処理対象文書１１４には、第１の実施形態の処理対象文書１１４と同じく、社員Ａによって生成された文書群２０２と社長によって生成された文書群２０３とが含まれる。また、文書２０４に含まれる文章と文書２０５に含まれる文章とは、一部の文章の意味が共通するが、一部の文章の意味が異なる。

　しかし、第４の実施形態の処理対象文書１１４において、文書２０５には、文書２０４に含まれる文章と、同じ意味であっても異なる文字列によって構成される文章が含まれる。本実施形態において、同じ意味であっても異なる文字列によって構成される文章を、類似する文章と記載する。

　文書２０５には文書２０４の文章と類似する文章が含まれる。具体的には、文書２０４の一文目である"以下の結果を参照してください。"と、文書２０５の一文目である"以下の結果を参照すること。"とは、類似する文章である。

　また、文書２０４の二文目である"４月の発電設備の定期検査では、異常は発見されませんでした。"と、文書２０５の二文目である"４月の発電設備の定期検査では、異常は発見されなかった。"とは、類似する文章である。

　また、文書２０４の三文目である"また、１０月の臨時検査においても異常は発見されませんでした。"と、文書２０５の三文目である"また、１０月の臨時検査でも異常は発見されなかった。"とは、類似する文章である。

　このように社長の文書２０５の中の文章が、社員Ａの文書２０４の中の文章と類似する場合、社員Ａの文章と類似する社長の文章は、社員Ａも閲覧できる内容を示すため、社員Ａの類義語辞書１１８を生成するための学習データとして用いられてもよい。

　このため、データ管理プログラム１１２は、社員Ａの文章と同一の又は類似する他のユーザの文章が出現した頻度を算出し、算出された頻度に従って、類義語辞書１１８を生成する。これによって、データ管理プログラム１１２は、社員Ａの類義語辞書１１８を生成するための学習データの量を増やすことができる。そして、データ管理プログラム１１２は、社員Ａの類義語辞書１１８を精度よく生成することができる。

　以下において、第４の実施形態の全文ＤＢ１１６を生成する処理と、図７に示す第１の実施形態の全文ＤＢ１１６を生成する処理と、の相違点を示す。

　第４の実施形態の全文ＤＢ生成プログラム６０１は、図７に示すステップ５０１～ステップ５０３と同じ処理を実行する。なお、第４の実施形態における全文ＤＢ生成プログラム６０１は、第１の実施形態と同じく、ステップ５０１において処理対象文書１１４から文書Ａを取得し、ステップ５０２において文書Ａから文章Ｂを取得する。

　第４の実施形態のステップ５０４において、全文ＤＢ生成プログラム６０１は、文章Ｂと類似する文章が、全文ＤＢ１１６の各行の文章３０１に含まれる場合、文章Ｂが文章３０１に格納されていると判定する。文章Ｂと類似する文章が文章３０１に含まれるか否かを判定する方法の例を以下に示す。

　具体的には、全文ＤＢ生成プログラム６０１は、文法に基づく規則等をあらかじめ保持することによって、文章Ｂを正規化する。そして、全文ＤＢ生成プログラム６０１は、全文ＤＢ１１６の各行のうち、正規化された文章Ｂの文字列と、文章３０１の文字列と一致する行がある場合、文章Ｂと類似する文章が文章３０１に含まれると判定する。

　なお、第４の実施形態の全文ＤＢ１１６の文章３０１には、既に正規化された文章が格納される。

　例えば、全文ＤＢ生成プログラム６０１は、敬体の文章（"です。"、又は、"ます。"などを含む文章）と常体の文章（"である。"などを含む文章）との規則を保持する。そして、図２に示す文書２０４の二文目の"４月の発電設備の定期検査では、異常は発見されませんでした。"の文章が文章Ｂである場合、全文ＤＢ生成プログラム６０１は、保持された規則に従って、文章Ｂを"４月の発電設備の定期検査では、異常は発見されなかった。"と正規化する。

　そして、ステップ５０４において、全文ＤＢ１１６の文章３０１に図２に示す文書２０５の二文目である"４月の発電設備の定期検査では、異常は発見されなかった。"が格納されている場合、全文ＤＢ生成プログラム６０１は、正規化された文章Ｂが文章３０１に格納されていると判定する。

　また、例えば、全文ＤＢ生成プログラム６０１は、丁寧な依頼の文章（"してください。"などを含む文章）と、命令文（"すること。"などを含む文章）との規則を保持してもよい。そして、図２に示す文書２０４の一文目の"以下の結果を参照してください。"の文章が文章Ｂである場合、全文ＤＢ生成プログラム６０１は、文章Ｂを"以下の結果を参照すること。"と正規化してもよい。

　そして、ステップ５０４において、文章３０１に図２に示す文書２０５の一文目である"以下の結果を参照すること。"が格納されている場合、全文ＤＢ生成プログラム６０１は、正規化された文章Ｂが文章３０１に格納されていると判定してもよい。

　また、全文ＤＢ生成プログラム６０１は、ステップ５０４において、文章Ｂ及び文章３０１に格納された文章を、句読点、中点（"・"）、長音符（"－"）、アンダーバー、括弧、及び、かぎ括弧等の記号を省略した文章に正規化してもよい。そして、正規化された文章Ｂと文章３０１に格納された文章とが一致する場合、文章Ｂが文章３０１に格納されていると判定してもよい。

　このように、文章Ｂを正規化した後、一致する文章が文章３０１に含まれるか否かを判定することによって、全文ＤＢ生成プログラム６０１は、同一の文章または類似する文章が処理対象文書１１４に出現する頻度を正確に算出することができる。そして、これによって、辞書生成プログラム１２２が、後述する処理によって精度の高い類義語辞書１１８を生成できる。

　正規化された文章Ｂが全文ＤＢ１１６の文章３０１に格納されていないと、ステップ５０４において判定した場合、全文ＤＢ生成プログラム６０１は、図７に示すステップ５０５と同じ処理を実行する。

　ステップ５０５の後、第４の実施形態の全文ＤＢ生成プログラム６０１は、正規化された文章Ｂを、新しい行の文章３０１に格納する（５０６）。

　そして、ステップ５０６、または、正規化された文章Ｂが全文ＤＢ１１６の文章３０１に格納されているとステップ５０４において判定された場合、第４の実施形態における全文ＤＢ生成プログラム６０１は、図７に示すステップ５０７、および、ステップ５０８と同じ処理を行う。

　前述の処理によって、第４の実施形態における全文ＤＢ１１６が生成される。第４の実施形態の全文ＤＢ生成プログラム６０１は、前述の方法を用いることによって、同一の文章または類似の文章が文書において出現した頻度を算出することができる。

　そして、辞書生成プログラム１２２は、第４の実施形態の全文ＤＢ１１６に、図８に示す処理を行うことによって、第１の実施形態と同じく各ユーザの類義語辞書１１８を生成できる。

　第４の実施形態によれば、辞書生成プログラム１２２は、意味が同じであり、かつ、文法の形式のみが異なるような類似の文章、又は、同一の文章が出現した頻度を用いて、類義語辞書１１８を生成する。このため、辞書生成プログラム１２２は、意味が同じである文章が出現した頻度を正確に算出することができ、その結果、より精度の高い類義語辞書１１８を生成することができる。

　本実施形態によれば、ユーザごとの類義語辞書１１８が、処理対象文書１１４において出現した単語の頻度に基づいて生成されるため、精度が高い類義語辞書１１８が生成される。

　一方で、ユーザごとの類義語辞書１１８には、各ユーザが閲覧できる文書に含まれる単語が格納されるため、ユーザが自らの類義語辞書１１８を用いて文字列を検索しても、ユーザは、ユーザが閲覧できない文書に含まれる単語を取得することができない。このため、類義語辞書１１８による情報漏えいを未然に防ぐことができる。

　以上、本発明を添付の図面を参照して詳細に説明したが、本発明はこのような具体的構成に限定されるものではなく、添付した請求の範囲の趣旨内における様々な変更及び同等の構成を含むものである。

　検索文字列を入力することによって、コンテンツを取得する計算機システムに利用可能である。

Claims

　複数のユーザによって生成された複数の文書が入力される文書処理システムであって、
　前記文書処理システムは、プロセッサ及びメモリを備え、
　前記メモリは、
　前記入力された複数の文書と、
　前記各文書を閲覧可能なユーザを示すアクセスリストとを、保持し、
　前記文書処理システムは、
　前記複数の文書から、所定の基準に従った複数の文字列を抽出し、
　前記メモリに保持される複数の文書の各々の中に、前記抽出された各文字列が示す情報が出現する頻度を算出し、
　前記各ユーザが閲覧できる各文書から抽出された各文字列と、前記抽出された各文字列が示す情報が出現する頻度と、が含まれる前記各ユーザの学習データセットを生成し、
　前記生成された各ユーザの学習データセットに基づいて、前記各ユーザの類義語辞書を生成することを特徴とする文書処理システム。
　前記各文書は、句点によって区切られた複数の文章を含み、
　前記文書処理システムは、
　前記各文書から、前記所定の基準に従った前記複数の文字列として、前記複数の文章を抽出することを特徴とする請求項１に記載の文書処理システム。
　前記文書処理システムは、前記複数の文書の各々の中に、同じ前記文字列によって構成される前記文章が出現する頻度を求めることによって、前記抽出された各文字列が示す情報が出現する頻度を算出することを特徴とする請求項２に記載の文書処理システム。
　前記メモリは、文法に関する所定の規則を保持し、
　前記文書処理システムは、
　前記抽出された複数の文章を、前記所定の規則を用いて正規化し、
　前記メモリに保持される複数の文書の各々の中に、前記正規化された各文章が出現する頻度を算出することによって、前記メモリに保持される複数の文書の各々の中に、前記抽出された各文字列が示す情報が出現する頻度を算出することを特徴とする請求項２に記載の文書処理システム。
　前記文書処理システムは、
　前記抽出された各文字列と、前記各文字列が抽出された文書を閲覧可能な少なくとも一人のユーザと、前記抽出された各文字列が示す情報が出現する頻度と、が含まれる全文情報を、前記アクセスリストに基づいて生成し、
　前記生成された全文情報に基づいて、前記各学習データセットを生成することを特徴とする請求項１に記載の文書処理システム。
　前記複数の文書は、句点によって区切られた複数の文章と、前記文章に含まれる複数の単語とを含み、
　前記文書処理システムは、
　前記複数の文書から、前記所定の基準に従った複数の文字列として、前記各文章に含まれる二つの前記単語の複数の組を抽出し、
　前記抽出された複数の組に含まれる二つの単語の各文章における関係を特定し、
　前記抽出された二つの単語の各組と、前記抽出された複数の組に含まれる二つの単語の各文章における関係とが、前記メモリに保持される複数の文書において出現する頻度を算出することによって、前記メモリに保持される複数の文書において、前記抽出された各文字列が示す情報が出現する頻度を算出することを特徴とする請求項１に記載の文書処理システム。
　前記生成された各ユーザの類義語辞書は、複数の単語を含み、
　前記文書処理システムは、
　すべての前記ユーザの類義語辞書に含まれる前記単語を、共通単語として抽出し、
　前記共通単語を含む、共通辞書を生成し、
　前記各ユーザの類義語辞書から、前記共通単語を削除し、
　前記第１のユーザによって検索文字列が入力された場合、前記文書処理システムは、前記共通辞書、及び、前記第１のユーザの類義語辞書から、前記入力された検索文字列に類似する文字列を検索することを特徴とする請求項１に記載の文書処理システム。
　複数のユーザによって生成された複数の文書が入力される文書処理システムによる文書処理方法であって、
　前記文書処理システムは、プロセッサ及びメモリを備え、
　前記メモリは、
　前記入力された複数の文書と、
　前記各文書を閲覧可能なユーザを示すアクセスリストとを、保持し、
　前記方法は、
　前記プロセッサが、前記複数の文書から、所定の基準に従った複数の文字列を抽出し、
　前記プロセッサが、前記メモリに保持される複数の文書の各々の中に、前記抽出された各文字列が示す情報が出現する頻度を算出し、
　前記プロセッサが、前記各ユーザが閲覧できる各文書から抽出された各文字列と、前記抽出された各文字列が示す情報が出現する頻度と、が含まれる前記各ユーザの学習データセットを生成し、
　前記プロセッサが、前記生成された各ユーザの学習データセットに基づいて、前記各ユーザの類義語辞書を生成することを特徴とする文書処理方法。
　前記各文書は、句点によって区切られた複数の文章を含み、
　前記方法は、
　前記プロセッサが、前記各文書から、前記所定の基準に従った前記複数の文字列として、前記複数の文章を抽出することを特徴とする請求項８に記載の文書処理方法。
　前記方法は、前記プロセッサが、前記複数の文書の各々の中に、同じ前記文字列によって構成される前記文章が出現する頻度を求めることによって、前記抽出された各文字列が示す情報が出現する頻度を算出することを特徴とする請求項９に記載の文書処理方法。
　前記メモリは、文法に関する所定の規則を保持し、
　前記方法は、
　前記プロセッサが、前記抽出された複数の文章を、前記所定の規則を用いて正規化し、
　前記プロセッサが、前記メモリに保持される複数の文書の各々の中に、前記正規化された各文章が出現する頻度を算出することによって、前記メモリに保持される複数の文書の各々の中に、前記抽出された各文字列が示す情報が出現する頻度を算出することを特徴とする請求項９に記載の文書処理方法。
　前記方法は、
　前記プロセッサが、前記抽出された各文字列と、前記各文字列が抽出された文書を閲覧可能な少なくとも一人のユーザと、前記抽出された各文字列が示す情報が出現する頻度と、が含まれる全文情報を、前記アクセスリストに基づいて生成し、
　前記プロセッサが、前記生成された全文情報に基づいて、前記各学習データセットを生成することを特徴とする請求項８に記載の文書処理方法。
　前記複数の文書は、句点によって区切られた複数の文章と、前記文章に含まれる複数の単語とを含み、
　前記方法は、
　前記プロセッサが、前記複数の文書から、前記所定の基準に従った複数の文字列として、前記各文章に含まれる二つの前記単語の複数の組を抽出し、
　前記プロセッサが、前記抽出された複数の組に含まれる二つの単語の各文章における関係を特定し、
　前記プロセッサが、前記抽出された二つの単語の各組と、前記抽出された複数の組に含まれる二つの単語の各文章における関係とが、前記メモリに保持される複数の文書において出現する頻度を算出することによって、前記メモリに保持される複数の文書において、前記抽出された各文字列が示す情報が出現する頻度を算出することを特徴とする請求項８に記載の文書処理方法。
　前記生成された各ユーザの類義語辞書は、複数の単語を含み、
　前記方法は、
　前記プロセッサが、前記複数のユーザの類義語辞書に含まれる前記単語を、共通単語として抽出し、
　前記プロセッサが、前記共通単語を含む、共通辞書を生成し、
　前記プロセッサが、前記各ユーザの類義語辞書から、前記共通単語を削除し、
　前記第１のユーザによって検索文字列が入力された場合、前記プロセッサが、前記共通辞書、及び、前記第１のユーザの類義語辞書から、前記入力された検索文字列に類似する文字列を検索することを特徴とする請求項８に記載の文書処理方法。