WO2010106660A1

WO2010106660A1 - 特徴語提示装置及び特徴語提示プログラム

Info

Publication number: WO2010106660A1
Application number: PCT/JP2009/055430
Authority: WO
Inventors: 真弓竹田
Original assignee: コニカミノルタホールディングス株式会社
Priority date: 2009-03-19
Filing date: 2009-03-19
Publication date: 2010-09-23

Abstract

　文書の内容を適切に表現できる特徴語群を抽出し、それらの特徴語に対して、所定の条件で選択された比較文書における各特徴語の出現頻度に基づき、それらの特徴語に適切な優先度を付与する。その優先度に従った特徴語の提示を行うことで、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができる、文書の特徴語提示装置及び特徴語提示プログラム。

Description

特徴語提示装置及び特徴語提示プログラム

　本発明は、文書の内容を表す特徴語を抽出し提示する文書の特徴語提示装置及び特徴語提示プログラムに関する。特に、抽出された特徴語に優先度を付与し、該優先度に従って特徴語の提示を行う文書の特徴語提示装置、及び特徴語提示プログラムに関する。

　近年、文書をデジタル化し、コンピュータ等で、様々な処理を行うことが一般的になっている。大量の文書ファイルを蓄積し、迅速に検索し、必要な文書を取得し、処理を行うことが行われている。

　これらの文書ファイル処理を行うに際して、それぞれの文書の内容に関する概要を迅速に取得することが必要な局面が多々ある。

　文書の内容に関する概要を知るための情報として、ファイル名や保存場所（フォルダーパス等）、保存時刻などの情報が容易に取得できるが、しかしこれらの情報だけでは、文書の内容は判断が困難な場合も多い。

　各文書の内容の一部分をサマリーとして提示するとか、要約文を生成して提示するといった方法も行われている（例えば、特許文献１参照）。

　特許文献１には、文書の検索結果を原文で表示するのではなく、利用者の所望する視点での要約文を作成し、提示することにより、利用者が検索した文書の内容をたやすく理解し、要不要を素早く判定できる文書情報検索装置が記載されている。

　また、文書の内容をキーワードで表現し、メタデータとして保持しておくという方法もある（例えば、特許文献２参照）。

　特許文献２には、文書の検索結果を出力するに際し、特徴的な重要語群を取得し、検索結果と合わせて重要語（特徴語）群を表示することにより、絞り込み検索が簡易、かつ適切に行える技術が提示されている。
特開平７－１８２３７３号公報特開２００６－１７８５９９号公報

　上述したように、従来、文書の概略的内容を簡便にかつ迅速に把握できるような提示が行える方法や装置が求められてきた。そのため要約文を作成して表示（特許文献１参照）したり、キーワード群を抽出して表示（特許文献２参照）したりして、利用者に迅速にかつ的確に文書内容を理解させるための技術が提案されてきた。

　しかしながら、特許文献１に記載の技術では、多数の文書を一覧形式で表示するなど、文形式の概要表示は読みにくく、適切でない場合もある。

　また特許文献２に記載の技術では、キーワードとしたい語が人や用途により異なる場合が多く、それらに対処しようとすると保持するキーワード数が多くなり、管理や検索に不便が生じてくる場合もある。また記録領域に制約がある場合には、絞り込む必要が生じたりする。

　本発明は、上記の技術的課題を鑑みてなされたものである。本発明の目的は、文書の内容を適切に表現できる特徴語群を抽出し、提示するに際し、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような文書の特徴語提示装置及び特徴語提示プログラムを提供することである。

　上記の課題を解決するために、本発明は以下の特徴を有するものである。

　１．　内容を提示する対象となる文書から該文書の内容を特徴づける特徴語を抽出する特徴語抽出手段と、
前記文書の閲覧ユーザ、または該ユーザの指定したユーザがアクセスした文書から、前記特徴語の優先度を判断するための比較文書を選択する比較文書選択手段と、
前記比較文書選択手段により選択された前記比較文書から語句を抽出する比較文書語句抽出手段と、
前記特徴語抽出手段により抽出された前記特徴語に対して、前記比較文書語句抽出手段により抽出された対応する語句の出現頻度に基づいて、前記特徴語の提示の優先度を付与する特徴語優先度付与手段と、
前記優先度を付与された前記特徴語、前記比較文書より抽出された前記語句、及びそれらを抽出するための情報を記憶する記憶手段と、
前記特徴語優先度付与手段により付与された前記優先度に従って、前記特徴語を選択的に提示する特徴語提示手段と、を備える
ことを特徴とする文書の特徴語提示装置。

　２．　前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、文書ファイルが所定時間以上オープンされた、あるいは文書ファイルを開いたウィンドウが所定時間以上アクティブであった文書を、前記比較文書として選択する
ことを特徴とする前記１に記載の文書の特徴語提示装置。

　３．　前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、文書ファイルがプリント出力された文書を、前記比較文書として選択する
ことを特徴とする前記１に記載の文書の特徴語提示装置。

　４．　前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、文書ファイルが可搬記録媒体に出力された文書を、前記比較文書として選択する
ことを特徴とする前記１に記載の文書の特徴語提示装置。

　５．　前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、前記対象となる文書が記録されているのと同一の可搬記録媒体に文書ファイルが出力された文書を、前記比較文書として選択する
ことを特徴とする前記４に記載の文書の特徴語提示装置。

　６．　前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、文書ファイルが更新保存処理された文書を、前記比較文書として選択する
ことを特徴とする前記１に記載の文書の特徴語提示装置。

　７．　前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、前記ユーザのスキャン処理で入力された文書を、前記比較文書として選択する
ことを特徴とする前記１に記載の文書の特徴語提示装置。

　８．　前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、前記ユーザにより対象となる文書と同一条件で抽出された文書を、前記比較文書として選択する
ことを特徴とする前記１に記載の文書の特徴語提示装置。

　９．　前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、前記対象となる文書がアクセスされた時刻の前後、所定の時間以内にアクセスされた文書を、前記比較文書として選択する
ことを特徴とする前記１に記載の文書の特徴語提示装置。

　１０．　前記比較文書選択手段は、複数の比較文書を選択し、
前記比較文書語句抽出手段は、
前記比較文書選択手段により選択された前記複数の比較文書間での重複出現頻度の大きい語句を抽出する
ことを特徴とする前記１から９の何れか１項に記載の文書の特徴語提示装置。

　１１．　コンピュータを、
内容を提示する対象となる文書から該文書の内容を特徴づける特徴語を抽出する特徴語抽出手段、
前記文書の閲覧ユーザ、または該ユーザの指定したユーザがアクセスした文書から、前記特徴語の優先度を判断するための比較文書を選択する比較文書選択手段、
前記比較文書選択手段により選択された前記比較文書から語句を抽出する比較文書語句抽出手段、
前記特徴語抽出手段により抽出された前記特徴語に対して、前記比較文書語句抽出手段により抽出された対応する語句の出現頻度に基づいて、提示の優先度を付与する特徴語優先度付与手段、
前記対象となる文書の内容を提示するため、前記特徴語優先度付与手段により付与された前記優先度に従って、前記特徴語を選択的に表示する特徴語提示手段、
として機能させることを特徴とする文書の特徴語提示プログラム。

　１２．　前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、文書ファイルが所定時間以上オープンされた、あるいは文書ファイルを開いたウィンドウが所定時間以上アクティブであった文書を、前記比較文書として選択する
ことを特徴とする前記１１に記載の文書の特徴語提示プログラム。

　１３．　前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、文書ファイルがプリント出力された文書を、前記比較文書として選択する
ことを特徴とする前記１１に記載の文書の特徴語提示プログラム。

　１４．　前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、文書ファイルが可搬記録媒体に出力された文書を、前記比較文書として選択する
ことを特徴とする前記１１に記載の文書の特徴語提示プログラム。

　１５．　前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、前記対象となる文書が記録されているのと同一の可搬記録媒体に文書ファイルが出力された文書を、前記比較文書として選択する
ことを特徴とする前記１４に記載の文書の特徴語提示プログラム。

　１６．　前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、文書ファイルが更新保存処理された文書を、前記比較文書として選択する
ことを特徴とする前記１１に記載の文書の特徴語提示プログラム。

　１７．　前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、前記ユーザのスキャン処理で入力された文書を、前記比較文書として選択する
ことを特徴とする前記１１に記載の文書の特徴語提示プログラム。

　１８．　前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、前記ユーザにより対象となる文書と同一条件で抽出された文書を、前記比較文書として選択する
ことを特徴とする前記１１に記載の文書の特徴語提示プログラム。

　１９．　前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、前記対象となる文書がアクセスされた時刻の前後、所定の時間以内にアクセスされた文書を、前記比較文書として選択する
ことを特徴とする前記１１に記載の文書の特徴語提示プログラム。

　２０．　前記比較文書選択手段は、複数の比較文書を選択し、
前記比較文書語句抽出手段は、
前記比較文書選択手段により選択された前記複数の比較文書間での重複出現頻度の大きい語句を抽出する
ことを特徴とする前記１１から１９の何れか１項に記載の文書の特徴語提示プログラム。

　本発明に係る文書の特徴語提示装置及び特徴語提示プログラムによれば、文書の内容を適切に表現できる特徴語群を抽出し、それらの特徴語に対して、所定の条件で選択された比較文書における各特徴語の出現頻度に基づき、それらの特徴語に適切な優先度を付与することができる。

　その優先度に従った特徴語の提示を行うことにより、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような特徴語の提示が可能となる。

本発明に係る文書の特徴語提示装置の概略構成例を示すブロック図である。本発明に係る文書の特徴語提示装置における特徴語提示方法の、全体としての処理の流れを示すフローチャートである。図２における特徴語処理の工程、すなわち特徴語抽出と優先度付与処理の流れをより詳細に示すフローチャートである。対象となる文書の語句抽出処理の手順例のフローチャートを示す。抽出語句のリスト例（一部分）を示す図である。（ａ）特徴語抽出処理の手順例、及び（ｂ）上記手順で用いる「特徴語抽出のためのモデル」を生成する処理例の各フローチャートを示す。抽出した特徴語のリスト例を示す図である。（ａ）第１の比較文書選択処理の手順例、及び（ｂ）第２の比較文書選択処理の手順例の各フローチャートを示す。選択条件１及び選択条件２で絞り込み、選択した比較文書のリスト２の例（一部分）を示す。比較文書の語句抽出処理の手順例のフローチャートを示す。（ａ）、（ｂ）、（ｃ）図９に示した各比較文書について、それぞれ抽出した語句リスト（出現頻度付き）の例、及び（ｄ）それらを総合した語句リスト（出現頻度の総和付き）の例を示す図である。（ａ）特徴語との語句比較処理の手順例、及び（ｂ）優先度付与処理の手順例の各フローチャートを示す。図７に示した特徴語リスト記載の特徴語に対して、図１１（ｄ）の語句リスト（出現頻度付き）と比較して、出現頻度に応じて優先度付与した優先度付き特徴語リストの例を示す図である。（ａ）文書の種類を表す語を抽出するため文書を分類する方法の手順例、及び（ｂ）その手順に用いるモデル生成の手順例の各フローチャートを示す。

符号の説明

　１　文書の特徴語提示装置
　２　特徴語処理部
　３　制御部
　４　記憶手段
　５　表示部
　６　操作部
　７　通信部
　８　外部媒体
　１０　特徴語抽出手段
　２０　比較文書選択手段
　３０　比較文書語句抽出手段
　４０　特徴語優先度付与手段

　本発明の実施形態を、以下に図面を参照して説明する。

　（文書の特徴語提示装置の構成と機能）
　図１は、本発明に係る文書の特徴語提示装置の概略構成例を示すブロック図である。図１を用いて、本発明の実施形態としての文書の特徴語提示装置について概略構成と各構成要素の機能を説明する。

　＜全体構成＞
　図１において、１は本実施形態に係る文書の特徴語提示装置であり、パーソナルコンピュータ（ＰＣ）などで代表される一般的な情報処理装置に、本発明に係る文書の特徴語提示プログラムを適用して機能させることにより実現される。文書の特徴語提示装置１は、情報処理装置として、以下に示すような構成要素を有する。

　２は特徴語処理部であり、文書の特徴語提示装置１が対象となる文書に対して、特徴語を用いてその概要を提示する動作機能のうち、特に、文書内容を表す特徴語を抽出し、提示するための優先度を付与する部分の機能を有する。

　それらの機能は、コンピュータのＣＰＵが、それぞれに対応するプログラムに従って、特徴語抽出手段１０、比較文書選択手段２０、比較文書語句抽出手段３０、及び特徴語優先度付与手段４０として機能することで実現される。それらの各手段の機能の詳細については後述する。

　３はＣＰＵからなる制御部であり、情報処理装置である文書の特徴語提示装置１の処理機能全般を制御する。特に、ユーザがアクセスする文書の処理、すなわち対象となる文書の取得や比較文書の選択、特徴語処理部２の特徴語抽出と優先度付与、そして特徴語による文書の概要の提示等が制御される。

　４はハードディスク等の記憶手段であり、特徴語処理部２の特徴語抽出と優先度付与に関する処理やその他の処理について、制御部３が行う制御に伴い必要なデータや情報を記憶し、保持する。

　５はディスプレイ等の表示部であり、制御部３の制御により、提示の優先度に従い特徴語による文書の概要の提示を行う特徴語提示手段として機能する。その他ユーザに知らせるためのデータや情報を、制御部３の制御で表示する。

　６はキーボード等の操作部であり、表示部５の表示内容等に従ってユーザが操作入力したデータや情報を受け付ける。取得したデータや情報は、制御部３により記憶手段４に保持させる等の必要な処理が行われる。

　７は通信部であり、入出力のインタフェイス装置である。制御部３の制御により、文書の特徴語提示装置１の外部にある他の記憶装置あるいは他の情報処理装置との間で、必要なデータや情報を送信または受信する。

　８は外部媒体であり、メモリーやディスク等の可搬記録媒体である。ユーザが直接的に文書の特徴語提示装置１に装着などすることで、制御部３は文書ファイルその他のデータを外部媒体に入出力処理する。

　＜特徴語処理部２の構成＞
　上述したように、特徴語処理部２は、下記各手段により、文書内容を表す特徴語を抽出し、提示するための優先度を付与する。

　特徴語抽出手段１０は、文書内容を特徴語で提示する対象となる文書から語句を抽出し、語句リストを作成する。また、語句リストの中から所定の選択条件に適合する語を特徴語として抽出し、特徴語リストを作成する。

　比較文書選択手段２０は、アクセスされた文書から所定の選択条件１に適合する文書を選択し、比較文書リスト１を作成する。また比較文書リスト１から所定の選択条件２に適合する文書を比較文書として選択し、比較文書リスト２を作成する。

　比較文書語句抽出手段３０は、比較文書リスト２の各文書から語句を抽出し、出現頻度を求め、出現頻度付きの比較文書語句リストを作成する。

　特徴語優先度付与手段４０は、特徴語リストの各特徴語について、出現頻度付きの比較文書語句リストの対応する語句と比較し、その語句の比較文書における出現頻度に基づき優先度を決定する。また優先度付きの特徴語リストを作成する。

　これらの手段による機能動作の詳細については、図２、図３を用いて以下に各処理の流れを手順として説明する。

　（文書の特徴語提示方法の手順）
　　＜全体の処理の流れ＞
　図２は、本発明に係る文書の特徴語提示装置において、特徴語提示方法の全体としての処理の流れを示すフローチャートである。図２を用いて、本発明の特徴語提示装置における文書の特徴語提示方法について、全体としての処理の手順を説明する。

　図２において、まずステップＳ１の、文書の特徴提示装置に対して、文書にアクセスする操作が行われたかどうかの判定で処理が開始する。

　ステップＳ１で文書に対するアクセス操作が行われた場合（ステップＳ１；ＹＥＳ）は、ステップＳ２へ進む。文書に対するアクセス操作ではない場合（ステップＳ１；ＮＯ）は、戻って文書へのアクセス操作が行われるまでステップＳ１を反復し、待ち続ける。

　ステップＳ２では、アクセスした文書について特徴語による内容の提示を行うかどうか、すなわち対象となる文書であるかどうかを判定する。

　ステップＳ２において、文書の内容を表す特徴語提示を行う場合（ステップＳ２；ＹＥＳ）は、ステップＳ３の特徴語処理の工程へ進む。この工程は、ステップＳ１０の特徴語抽出工程、ステップＳ２０の比較文書選択工程、ステップＳ３０の比較文書語句抽出工程、及びステップＳ４０の特徴語優先度付与工程を含んでいる。

　ステップＳ２において、文書の内容を表す特徴語提示を行わない場合（ステップＳ２；ＮＯ）は、アクセス文書としてステップＳ２０の比較文書選択工程へ進み、後述するように選択条件１に適合する文書を比較文書リスト１に記載して、ステップＳ１に戻り、最初から処理動作を繰り返す。

　ステップＳ３の特徴語処理の工程では、まずステップＳ１０の特徴語抽出工程が実行される。この工程では、取得した特徴語提示の対象となる文書から語句を抽出し、語句リストを作成する。また、語句リストの中から所定の選択条件に適合する特徴語を抽出し、特徴語リストを作成する。

　次にステップＳ２０の比較文書選択工程では、特徴語提示の対象となる文書に基づいて選択条件２を設定し、作成されている比較文書リスト１から選択条件２に適合する文書を比較文書として選択し、比較文書リスト２を作成する。

　ステップＳ３０の比較文書語句抽出工程では、比較文書リスト２の各文書から語句を抽出し、出現頻度を求め、出現頻度付きの比較文書語句リストを作成する。

　ステップＳ４０の特徴語優先度付与工程では、特徴語リストの各特徴語について、出現頻度付きの比較文書語句リストの対応する語句と比較し、その語句の比較文書における出現頻度に基づき優先度を決定する。また優先度付きの特徴語リストを作成する。

　ステップＳ３の特徴語処理の工程に含まれる上記各工程の詳細な手順例は、図３を用いて後述する。

　次のステップＳ４では、ステップＳ３での各特徴語の優先度に従って、対象となる文書の内容を表すべく、特徴語の提示を行う。優先度に従った特徴語の提示は、例えば定められた特徴語数を優先順に表示するなど、制御部３の制御により表示部５等に対象となる文書名称とともに定められた形式で表示する。

　これで全体の処理は終了する。必要であれば最初に戻って、処理を繰り返す、すなわち次の対象となる文書を待つような手順でもよい。

　上記の処理において、特徴語提示の対象となる文書の形態は問わない。特徴語を抽出できればどのような形態でもよい。例えば音声データを音声認識処理によりテキストに変換したものであってもよい。また、１つのファイルであってもよいし、複数のファイルから構成されていてもよい。

　　＜特徴語抽出と優先度付与処理の流れ＞
　図３は、図２におけるステップＳ３（特徴語処理の工程）、すなわち特徴語抽出と優先度付与処理の流れをより詳細に示すフローチャートである。

　本発明の第１の実施形態に係る文書の特徴語提示装置における特徴語提示方法について、特徴語抽出と優先度付与処理の手順例を、図３を用いて（適宜、図４から図１３を参照して）、この後より詳しく説明する。

　　（各処理手順の詳細）
　（第１の実施形態）
　図２で説明した全体の処理の流れに従い、ステップＳ３の特徴語処理の工程を、ステップＳ１０の特徴語抽出工程、ステップＳ２０の比較文書選択工程、ステップＳ３０の比較文書語句抽出工程、そしてステップＳ４０の特徴語優先度付与工程の順に説明する。

　＜特徴語抽出工程＞
　　＜語句抽出＞
　特徴語抽出工程においては、まずステップＳ１１で語句抽出処理が行われる。図４に、語句抽出処理の手順例のフローチャートを示す。

　図４のステップＳ１１１で、まず特徴語提示の対象となる文書ファイルを取得する。

　次にステップＳ１１２で対象となる文書ファイルを開き、テキスト（文字データ）を取り出す。

　ステップＳ１１３では、取り出したテキストに対して、語句抽出のために形態素解析を行う。形態素解析は、公知の方法、例えばＣｈａｓｅｎ（ｈｔｔｐ：／／ｃｈａｓｅｎ－ｌｅｇａｃｙ．ｓｏｕｒｃｅｆｏｒｇｅ．ｊｐ／）などを用いることができる。

　ステップＳ１１４で、形態素解析に基づき、テキストのすべての語句を抽出し、語句リストを作成し、対象となる文書及びその付属情報（例えばユーザＩＤなど）と関連付けて保持する。図５に抽出語句のリスト例（一部分）を示す。

　以上で語句抽出処理を終了する。

　なお上記では、語句抽出に形態素解析を用いたが、それに限るものではない。

　他の方法としては、例えば日本語であれば漢字か平仮名かで語句抽出する方法等を用いてもよいし、英語であれば空白を区切りとして語句抽出する手法等を用いてもよい。

　また複数の連続した語からなる特定のフレーズは、最後まで分解せずにフレーズのままで形態素とするように形態解析してもよい。

　特徴語を抽出するための語句リストであるから、すべての語句を抽出するのではなく、特徴を表しているとは言い難い語句は予め抽出しないような工夫をしておいてもよい。

　例えば品詞解析手法を用いて語の品詞を求め、特徴を表しているとは言い難い特定の品詞（例えば助詞など）の語句は形態素として抽出しないようにしてもよい。

　また特徴を表しているとは言い難い一般的な単語を予め辞書として保持しておき、該当する場合は語句として抽出しないようにしてもよい。

　　＜特徴語抽出＞
　次に図３のステップＳ１２で特徴語抽出処理が行われる。図６（ａ）に、語句抽出処理の手順例のフローチャートを示す。

　まず図６（ａ）のステップＳ１２１では、単語に分解されたテキスト（もしくは語句リスト）に対して、所定のモデル（特徴語抽出のためのモデル）を適用し、自動的に語句を選別しタグを付与する。

　次にステップＳ１２２で、所定のタグが付与された語句を抽出し、特徴語リストを作成し、対象となる文書及びその付属情報（例えばユーザＩＤなど）と関連付けて保持する。

　以上で特徴語抽出処理を終了する。

　図６（ｂ）には、上記ステップＳ１２１で用いる「特徴語抽出のためのモデル」を生成する処理例のフローチャートを示す。

　モデル生成は学習用コーパス（言語データ）を用いて手作業で属性を付与して、特徴語足るべき語句を学習させ、ベクトル変換した状態で近似する語句を特徴語として自動タグ付けするように機能するモデルを生成する。

　まずステップＳ５０１では、学習用コーパスを入力する。

　次にステップＳ５０２で、学習用コーパスを単語（形態素）に分解する。

　ステップＳ５０３では、手作業で、特徴語として抽出したい語句にタグ付け（属性の付与）を行う。

　ステップＳ５０４で、タグ情報を含めた単語の情報を所定のルールでベクトル変換し、ステップＳ５０５で、ベクトル変換した情報を基に、モデル、すなわち自動でタグ付けを行うルールを生成する。

　以上で特徴語抽出のためのモデルを生成する処理は終了である。

　図７に抽出した特徴語のリスト例を示す。これは図５の語句を抽出した文書ファイルに対して、次に示すモデルを適用して図６（ａ）のステップＳ１２１の処理を行い、ステップＳ１２２で抽出した特徴語である。

　　（特徴語の抽出基準）
　上記図７の例は、特徴語として、文書の内容を表しやすく、また複数の文書を区別しやすい固有名詞を含む複合語（複数の単語の組み合わせ）を抽出するモデルを、図６（ｂ）に示した手順で生成し、適用したものである。特徴語の抽出基準（固有名詞を含む複合語）について、以下に詳しく述べる。

　　＜固有名詞＞
　固有名詞などの特定の種類の語を抽出する手法として、ＭＵＣ（Ｍｅｓｓａｇｅ　Ｕｎｄｅｒｓｔａｎｄｉｎｇ　Ｃｏｎｆｅｒｅｎｃｅ）で提唱された「固有表現抽出」という概念がある。「固有表現抽出」とは、人名・組織名などの固有名詞や、日付表現などの「特定の種類の用語」を抽出する手法全般を指す語である。固有名詞抽出の流れを図６（ｂ）に手順例で示した。

　　＜複合語＞
　抽出した固有名詞を含む複数の単語が組み合わさった語を抽出する。

　抽出には、例えば、ＦＬＲ法を用いる。ＦＬＲ法は、連接頻度ＬＲ法または連接種類ＬＲ法に、用語Ｗが文書データ中に出現した頻度Ｆを加味する方法である。詳細は（「出現頻度と連接頻度に基づく専門用語抽出」、湯本他、自然言語処理、１０（１）２７－４５，２００３年１月）を参照。

　連接頻度ＬＲ法は、語彙を走査し、用語Ｗを構成する単語について、該単語の左右それぞれに単語が出現する回数を計算する。また連接種類ＬＲ法は、単語の左右それぞれに何種類の単語が出現するかをカウントする。

　ここで、例えば、カタカナ語彙中の用語「サーバシステム、コンピュータシステム、オープンシステム」があり、構成する単語を分けると（サーバ｜システム）、（コンピュータ｜システム）、（オープン｜システム）となり、単語「システム」の左に単語が３回出現したので、単語「システム」の連接頻度ＬＲ法での左方スコアはＬ（システム）＝３となる。また単語「システム」の左に単語が３種類出現したので、連接種類ＬＲ法での左方スコアはＬ（システム）＝３となる。

　一般に、単語ｗ１、ｗ２、・・・ｗｎが連なって構成する用語Ｗ＝ｗ１、ｗ２、・・・ｗｎについて、連接頻度ＬＲ法または連接種類ＬＲ法の用語ＷのスコアＬＲ（Ｗ）は、以下のように定義される。

　＜比較文書選択工程＞
　　＜第１の比較文書選択＞
　次の比較文書選択工程においては、まず図３のステップＳ２１で第１の比較文書選択処理が行われる。これは図にも示したように、対象となる文書がアクセスされる以前から、アクセスされた文書すべてに対して処理が行われる。

　この工程の意図は、アクセス文書から比較文書を選択することにあり、所定の選択条件１に従って選択を行う。選択条件１は対象となる文書に依存しない選択条件であり、対象となる文書を決定する前から選択判定の可能な条件である。後述する所定の選択条件２は対象となる文書に依存する選択条件であり、対象となる文書を決定した後で選択判定の可能な条件である。このことからアクセス文書に対して、選択条件１と選択条件２の２段階で比較文書を選択する手順となっている。

　図８（ａ）に、第１の比較文書選択処理の手順例のフローチャートを示す。

　まずステップＳ２１１で、アクセスした文書が所定の選択条件１に適合するかどうかを判定する。本実施形態における選択条件１は、文書が閲覧されたこととし、判定条件は文書ファイルが所定時間以上オープンされたこととする。あるいは文書の開かれたウィンドウが所定時間以上アクティブであったこととしてもよい。

　ステップＳ２１１で選択条件１に適合した文書については、次のステップＳ２１２で比較文書リスト１に記載し、該リストを、選択した文書及びその付属情報（例えばユーザＩＤなど）が参照可能な形で保持する。ステップＳ２１１で選択条件１に適合しなかった文書については、ステップＳ２１２で比較文書リスト１に記載しない。

　以上で第１の比較文書選択処理を終了する。

　比較文書は、対象となる文書の特徴語に対して、優先度を付与するための基準に用いられる。すなわち各特徴語に一致する語句が比較文書に出現する頻度が多いほどその特徴語は、比較文書との違いを十分表現していないことになる。

　従って対象となる文書との差を特徴語として示したい文書を比較文書として選択する必要がある。ここではユーザによって既にある程度内容が把握された文書という観点で比較文書の選択条件１が設定されている。

　　＜第２の比較文書選択＞
　図８（ｂ）に、第２の比較文書選択処理の手順例のフローチャートを示す。

　これは図３にも示したように、対象となる文書がアクセスされ、特徴語処理が始まる時点で、比較文書リスト１に記載された文書すべてに対して処理が行われる。

　すなわち、上述したように、所定の選択条件２は対象となる文書に依存する選択条件であり、対象となる文書を決定した後で選択判定の可能な条件である。従ってこの工程では、選択条件１により選択された比較文書リスト１の文書に対して、選択条件２でさらに絞り込んだ比較文書を選択する手順となっている。

　まず図８（ｂ）のステップＳ２２１では、比較文書リスト１に記載された各文書が所定の選択条件２に適合するかどうかを判定する。本実施形態における比較文書の選択条件２は、対象となる文書にアクセスした閲覧ユーザが過去に閲覧した文書であることとし、判定条件は各文書ファイルの付属情報として保持するユーザＩＤに、対象となる文書のユーザＩＤが含まれていることとする。ユーザＩＤは、ＰＣ（コンピュータ）のログインＩＤを用いるようにしてもよい。

　また、選択条件２は、上記閲覧ユーザが指定したユーザが閲覧した文書であることとしてもよい。その場合、判定条件は各文書ファイルの付属情報として保持するユーザＩＤに、指定されたユーザのＩＤが含まれることとする。

　さらに、選択条件２として、上記対象となる文書の閲覧ユーザと上記ユーザが指定したユーザの何れかが閲覧した文書であることとしてもよいし、両者が閲覧した文書であることとしてもよい。判定条件は、前者の場合、各文書ファイルの付属情報として保持するユーザＩＤに、上記対象となる文書の閲覧ユーザ、または上記ユーザが指定したユーザの少なくとも何れかのユーザＩＤが含まれることであり、後者の場合、両者のユーザＩＤが含まれることとなる。

　ステップＳ２２１で選択条件２に適合した文書については、次のステップＳ２２２で比較文書リスト２に記載し、該リストを、選択した文書及びその付属情報が参照可能な形で保持する。ステップＳ２２１で選択条件１に適合しなかった文書については、ステップＳ２２２で比較文書リスト２に記載しない。

　以上で第２の比較文書選択処理を終了する。

　図９に、選択条件１及び選択条件２で絞り込み、選択した比較文書のリスト２の例（一部分）を示す。選択された文書の名称がリストアップされている。

　既に述べたように、比較文書は、対象となる文書の特徴語に対して、優先度を付与するための基準に用いられる。従って対象となる文書との差を特徴語として示したい文書を比較文書として選択する必要がある。

　本実施形態ではユーザによって既にある程度内容が把握された文書という観点で比較文書の選択条件１及び選択条件２が設定されており、そのユーザがよく閲覧し、目にしている頻度が多い語句は特徴語としての優先度を下げることを意図している。

　＜比較文書語句抽出工程＞
　　＜語句抽出＞
　次の比較文書語句抽出工程においては、まず図３のステップＳ３１で比較文書の語句抽出処理が行われる。これは同じく図３のステップＳ１１で行った対象となる文書に対する語句抽出と同様の方法で行えばよい。

　図１０に、比較文書の語句抽出処理の手順例のフローチャートを示す。比較文書リスト２に記載されたすべての文書について以下の処理を行う。

　まずステップＳ３１１で、比較文書リスト２に記載された未処理（語句抽出を行っていない）の文書ファイルを取得する。

　次にステップＳ３１２で、取得した文書ファイルを開き、テキスト（文字データ）を取り出す。

　ステップＳ３１３では、取り出したテキストに対して、語句抽出のために形態素解析を行う。形態素解析は、ステップＳ１１で行った対象となる文書に対する語句抽出と同様の方法を用いることができる。

　ステップＳ３１４で、形態素解析に基づき、テキストのすべての語句を抽出し、語句リストを作成し、対象となる文書及びその付属情報と関連付けて保持する。

　次のステップＳ４１は、図３の語句比較処理（ステップＳ４１）であり、特徴度優先度付与工程（ステップＳ４０）の一部を先行して行う。

　ここでの語句比較処理を省略し、比較文書の語句抽出処理を終え、比較文書の語句リストを完成してから語句比較処理に入ってもよいが、語句を抽出する段階で特徴語との語句比較処理を導入しておくことで、特徴語と対応しない語句は抽出の都度省略して、語句リストを簡単化し、出現頻度のカウント等の手間を省くことができる。

　ステップＳ４１での処理は、後述するが、完成した語句リストはテキストのすべての語句のリストではなく、特徴語リストの特徴語と対応する語句のみについての出現頻度付きの語句リストとなる。

　ステップＳ３１５では、比較文書リスト２に記載されたすべての文書について上記処理を終えたかどうかを判定する。すべての文書の処理を終えた場合（ステップＳ３１５；ＹＥＳ）は、本処理は終了する。未処理の文書が残っている場合（ステップＳ３１５；ＮＯ）は、ステップＳ３１１へ戻り、比較文書リスト２に記載されたすべての文書について処理を終えるまで、上記のステップを繰り返す。

　図１１（ａ）、（ｂ）及び（ｃ）には、図９に示した各比較文書について、それぞれ抽出した語句リスト（出現頻度付き）の例を示す。図１１（ｄ）には、それらを総合した語句リスト（出現頻度の総和付き）の例を示す。

　なお、上記の語句抽出処理については、比較文書間で重複して出現している語句を優先的に抽出するようにしてもよい。例えば、所定以上の重複出現頻度の語句だけを抽出することにすれば、その分手間を省きながら、ユーザが比較文書間でよく閲覧し、目にしている頻度が多い語句は、語句抽出され、後述するように特徴語としての優先度を下げることができる。すなわち、ユーザがよく閲覧し、目にしている比較文書との違いを顕著に表す特徴語の優先度を相対的に上げている。

　以上で比較文書の語句抽出処理（語句比較処理含む）を終了する。

　＜特徴語優先度付与工程＞
　　＜語句比較＞
　特徴語優先度付与工程においては、まず図３のステップＳ４１で語句比較処理が行われる。本実施形態では、上記の比較文書語句抽出工程で既に実行されているが、その処理手順例を改めて以下に説明する。

　図１２（ａ）は、特徴語との語句比較処理の手順例のフローチャートを示す。

　まずステップＳ４１１では、抽出した各語句について、対応する特徴語が対象となる文書の特徴語リストに記載されているかどうかを判定する。

　ステップＳ４１１で対応する特徴語が記載されている語句については、次のステップＳ４１２で、その出現頻度情報とともに比較文書語句リスト（出現頻度付き）に記載し、保持する。ステップＳ４１１で対応する特徴語が記載されていない語句については、ステップＳ４１２で比較文書語句リスト（出現頻度付き）に記載しない。

　比較文書語句リスト（出現頻度付き）は、既に図１１（ａ）、（ｂ）及び（ｃ）に示したように文書ごとにリストアップされるが、次の優先度付与処理のために、一気に図１１（ｄ）に示したような、それらを総合した語句リスト（出現頻度の総和付き）として作成してもよい。

　以上で、特徴語との語句比較処理を終了する。

　　＜優先度付与＞
　図１２（ｂ）に、優先度付与処理の手順例のフローチャートを示す。

　これは特徴語リストに記載のすべての特徴語に対して、比較文書の語句リストの対応する語句の出現頻度に基づいて提示の優先度を付与する処理である。

　まずステップＳ４２１では、特徴語リストに記載の各特徴語について、初期設定として所定の優先度を付与する。本実施形態では、初期設定の優先度を数値で０とし、出現頻度に応じて優先度を下げていく。

　ステップＳ４２２では、各特徴語について、比較文書の語句リスト（出現頻度付き）から対応する語句の出現頻度を取得し、それに応じて優先度を下げる。例えば、出現頻度がｎであれば、優先度＝０（初期設定）－ｎとする。比較文書の語句リスト（出現頻度付き）に対応する語句がなければ、優先度はそのまま（初期設定）である。

　以上で優先度付与処理は終了する。

　処理が終了すると、特徴語リストに記載のすべての特徴語に対して提示の優先度が付与され、特徴語リストは優先度付き特徴語リストとして作成されなおすことになる。

　図１３（ａ）、（ｂ）には、図７に示した特徴語リスト記載の特徴語に対して、図１１（ｄ）の語句リスト（出現頻度付き）と比較して、出現頻度に応じて優先度付与した優先度付き特徴語リストの例を示す。図１３（ａ）は優先度が初期設定の状態の特徴語リストであり、図１３（ｂ）は出現頻度に基づき優先度付与した特徴語リストの例である。

　本実施形態では、出現頻度に基づく優先度付与方法として、優先度の初期設定値から一律に出現頻度をマイナスしていく方法を採用したが、これに限定するものではない。

　例えば、特徴語の種類、もしくは比較文書の属性などに応じて、マイナスする値を修正してもよい。また次のような優先度決定方法もある。

　対象となる文書とすべての比較文書からなる文書集合について、それぞれの特徴語ごとにＩＤＦ値を求め、その特徴語の優先度とする。ＩＤＦ値は次のようにして求める。

　全文書数をＮ、そのうちｔという特徴語が出現する文書数がｆ（ｔ）であるとき、
ｉｄｆ（ｔ）＝Ｎ／ｆ（ｔ）
　このｉｄｆ（ｔ）がＩＤＦ値である。

　また、Ｎの変化量に対するｉｄｆ（ｔ）の変化を小さくするために、ｉｄｆ（ｔ）は次のように定めてもよい。
ｉｄｆ（ｔ）＝ｌｏｇ（Ｎ／ｆ（ｔ））＋１
　このｉｄｆ（ｔ）がＩＤＦ値である。

　このような優先度付与方法を用いると、文書間での重複出現頻度の大きい語句をＩＤＦ値が大きくなるようにする、すなわち優先度を下げることができる。

　また、本実施形態では特徴語の優先度を変更しているが、特徴語の中に類義語がある場合は、その類義語の優先度も同様な変更を行うようにしてもよい。類義語は次のようなデータベースを参照して構築し、そこから選択するようにしてもよい。
類語．ｊｐ（ｈｔｔｐ：／／ｒｕｉｇｏ．ｊｐ／）
ＥＤＲ電子化辞書（ｈｔｔｐ：／／ｗｗｗ２．ｎｉｃｔ．ｇｏ．ｊｐ／ｒ／ｒ３１２／ＥＤＲ／Ｊ＿ｉｎｄｅｘ．ｈｔｍｌ）
分類語彙表（ｈｔｔｐ：／／ｗｗｗ．ｋｏｋｋｅｎ．ｇｏ．ｊｐ／ｋａｎｋｏ／ｇｏｉｈｙｏ／）。

　上述の本実施形態に係る特徴語の抽出処理と優先度付与処理を行うことによって、文書の内容を適切に表現できる特徴語群を抽出し、それらの特徴語に対して、所定の条件で選択された比較文書における各特徴語の出現頻度に基づき、それらの特徴語に適切な優先度を付与することができる。

　すなわち、本実施形態ではユーザによって既にある程度内容が把握された文書という観点で比較文書の選択条件１及び選択条件２が設定されており、そのユーザがよく閲覧し、目にしている頻度が多い語句は特徴語としての優先度を下げることを意図している。すなわちそのユーザがよく閲覧し、目にしている文書との違いを顕著に表す特徴語の優先度を上げている。

　（第２の実施形態）
　上述の第１の実施形態とは異なる第２の実施形態について述べる。

　第２の実施形態は、図８（ａ）に示した第１の比較文書選択処理において比較文書の選択条件１のみが第１の実施形態と異なる。選択条件１の違いについてのみ説明する。

　本実施形態における選択条件１は、文書が紙出力されたこととし、判定条件は文書ファイルについてのプリント指示がＭＦＰ等の紙出力装置に送信されたこととする。

　すなわち、本実施形態も第１の実施形態と同様に、ユーザによって既にある程度内容が把握された文書という観点で比較文書の選択条件１が設定されている。しかしながら、本実施形態ではユーザにより紙出力された文書を比較文書とするものであり、そのユーザが紙出力された状態でよく閲覧し、目にしている頻度が多い語句を特徴語としての優先度を下げるべく意図している。すなわちユーザにより紙出力された文書との違いを顕著に表す特徴語の優先度を上げている。

　（第３の実施形態）
　上述の第１及び第２の実施形態とは異なる第３の実施形態について述べる。

　第３の実施形態も、図８（ａ）に示した第１の比較文書選択処理において比較文書の選択条件１のみが第１の実施形態と異なる。選択条件１の違いについてのみ説明する。

　本実施形態における選択条件１は、文書が可搬記録媒体に出力されたこととし、判定条件は可搬記録媒体への文書ファイルのコピーまたは移動の指示が行われたこととする。

　すなわち、本実施形態も第１の実施形態と同様に、ユーザによって既にある程度内容が把握された文書という観点で比較文書の選択条件１が設定されている。しかしながら、本実施形態ではユーザにより可搬記録媒体に出力された文書を比較文書とするものであり、そのユーザが可搬記録媒体に出力し、何らかの形で閲覧あるいは目にしている確率が大きい語句を特徴語としての優先度を下げるべく意図している。すなわちユーザにより可搬記録媒体に出力された文書との違いを顕著に表す特徴語の優先度を上げている。

　（第４の実施形態）
　上述の第１から第３の実施形態とは異なる第４の実施形態について述べる。

　第４の実施形態は、図８（ａ）に示した第１の比較文書選択処理及び図８（ｂ）に示した第２の比較文書選択処理において、比較文書の選択条件１及び選択条件２のみが第１の実施形態と異なる。選択条件１及び選択条件２の違いについてのみ説明する。

　本実施形態における選択条件１は、文書が可搬記録媒体に出力されたこととし、判定条件は可搬記録媒体への文書ファイルのコピーまたは移動の指示が行われたこととする。但し、上記第１の比較文書選択処理においては、選択された各比較文書の出力先の可搬記録媒体のＩＤを比較文書リスト１に併せて記録しておくものとする。

　また選択条件２は、第１の実施形態と同様にユーザＩＤが一致することに加えて、対象となる文書の記録媒体と同一の可搬記録媒体に文書が出力されたこととし、判定条件は対象となる文書の記録媒体のＩＤと、文書ファイルのコピーまたは移動の指示が行われた可搬記録媒体のＩＤが一致することとする。

　すなわち、本実施形態も第１の実施形態と同様に、ユーザによって既にある程度内容が把握された文書という観点で比較文書の選択条件１及び選択条件２が設定されている。しかしながら、本実施形態ではユーザにより同じ可搬記録媒体に出力された文書を比較文書とするものであり、そのユーザが同じ可搬記録媒体に出力することで、何らかの形で関連して閲覧あるいは目にしている確率が大きい語句を特徴語としての優先度を下げるべく意図している。すなわち同じ可搬記録媒体に出力された文書との違いを顕著に表す特徴語の優先度を上げている。

　（第５の実施形態）
　上述の第１から第４の実施形態とは異なる第５の実施形態について述べる。

　第５の実施形態は、図８（ａ）に示した第１の比較文書選択処理において比較文書の選択条件１のみが第１の実施形態と異なる。選択条件１の違いについてのみ説明する。

　第５の実施形態における選択条件１は、文書に対して編集などの処理が行われたこととし、判定条件は文書ファイルについての更新保存指示が行われたこととする。

　すなわち、本実施形態も第１の実施形態と同様に、ユーザによって既にある程度内容が把握された文書という観点で比較文書の選択条件１が設定されている。しかしながら、本実施形態ではユーザにより編集などの処理が行われた文書を比較文書とするものであり、そのユーザが編集などの処理を行うに際し、閲覧あるいは目にしている確率が大きい語句を特徴語としての優先度を下げるべく意図している。すなわちユーザにより編集などの処理が行われた文書との違いを顕著に表す特徴語の優先度を上げている。

　（第６の実施形態）
　上述の第１から第５の実施形態とは異なる第６の実施形態について述べる。

　第６の実施形態は、図８（ａ）に示した第１の比較文書選択処理において比較文書の選択条件１のみが第１の実施形態と異なる。選択条件１の違いについて説明する。

　本実施形態における選択条件１は、文書に対してスキャン処理が行われたこととし、判定条件は文書についてのスキャン指示が行われたこととする。

　具体的には、第１の比較文書選択処理においてスキャン処理が行われるたびに、スキャン文書にＯＣＲ処理を掛け、スキャン処理されたアクセス文書として比較文書リスト１に記載する。

　またＯＣＲ処理と併せて、語句抽出処理や出現頻度の計数を行ってしまうのも効率的である。その場合、後の比較文書語句抽出工程の処理手順をそれに応じて修正する必要がある。すなわち、比較文書語句抽出工程では、比較文書リスト２に記載の各比較文書に関連付けられた出現頻度付きの語句リストを取得し、後の処理を行うことになる。

　本実施形態も第１の実施形態と同様に、ユーザによって既にある程度内容が把握された文書という観点で比較文書の選択条件１が設定されている。しかしながら、本実施形態では紙文書に対するスキャン処理が行われた文書を比較文書とするものであり、そのユーザがスキャン処理を行うことで、紙文書の形態あるいは電子化された形態で閲覧あるいは目にしている確率が大きい語句を特徴語としての優先度を下げるべく意図している。言い換えれば、それらの文書間での違いを顕著に表す特徴語の優先度を上げている。

　（第７の実施形態）
　上述の第１から第６の実施形態とは異なる第７の実施形態について述べる。

　第７の実施形態は、図８（ａ）及び（ｂ）に示した第１の比較文書選択処理及び第２の比較文書選択処理における比較文書の選択条件１及び選択条件２が第１の実施形態と異なる。またそれだけでなく対象となる文書と比較文書の考え方自体が異なるため、手順の変わってくる部分が生ずる。

　すなわち、本実施形態では文書を検索して一覧したり、同フォルダ内の文書を一覧するなど、同一条件で抽出された複数の文書それぞれを対象文書として特徴語提示を行う場合を想定している。同一条件で抽出された複数の文書のうち任意の文書Ａを対象となる文書とした場合、比較文書は同一条件で抽出された複数の文書のうち文書Ａ以外のすべての文書である。

　従って一覧された複数の文書すべてに対して、それぞれ対象となる文書を順に入れ替えながら、図３に示したフローを繰り返すことになる。そこでは対象となる文書以外の文書はすべて比較文書であるから、対象となる文書かそれ以外（すなわち比較文書）かを選別判定された時点で、選択条件１及び選択条件２は既に満たされており、第１の比較文書選択処理（ステップＳ２１）及び第２の比較文書選択処理（ステップＳ２２）は省略してもよい。

　また対象となる文書の語句抽出処理（ステップＳ１１）及び比較文書の語句抽出処理（ステップＳ３１）についても、一度行った語句抽出は対象となる文書を入れ替えてもそのまま利用できる。従って各文書の語句リストを（望ましくは出現頻度付きで）保持しておいて、図３のフローの繰り返しに際しては、その都度、保持している語句リストを取得して処理を進めるようなフローに修正すれば効率的でよい。

　本実施形態は、例えば検索による抽出を例にすると、ユーザによって同一の検索条件で検索された文書という観点で比較文書を選択している（同じフォルダ内の文書一覧を例にすれば、同一のフォルダ内文書という観点で比較文書を選択している）。文書の内容を示す特徴語については、同一の検索条件で検索された文書を比較文書とすることで、それらの間で共通に閲覧、あるいは目にする頻度が多い語句の優先度を下げるべく意図している。すなわち検索された文書間での違いを顕著に表す特徴語の優先度を上げている。

　（第８の実施形態）
　上述の第１から第７の実施形態とは異なる第８の実施形態について述べる。

　第８の実施形態は、図８（ａ）に示した第１の比較文書選択処理及び図８（ｂ）に示した第２の比較文書選択処理において、比較文書の選択条件１及び選択条件２のみが第１の実施形態と異なる。選択条件１及び選択条件２の違いについて説明する。

　比較文書選択の考え方は、対象となる文書がアクセスされた時刻の前後、所定の時間内にアクセス（可搬記録媒体に出力）された文書である。

　本実施形態における選択条件１は、文書が可搬記録媒体に出力されたこととし、判定条件は可搬記録媒体への文書ファイルのコピーまたは移動の指示が行われたこととする。但し、上記第１の比較文書選択処理においては、選択された各比較文書の出力された時刻を比較文書リスト１に併せて記録しておくものとする。

　また選択条件２は、第１の実施形態と同様にユーザＩＤが一致することに加えて、対象となる文書とほぼ同時期にアクセスされた文書であることとし、判定条件は対象となる文書のアクセス時刻の前後、所定の時間内に文書ファイルのコピーまたは移動の指示が行われていることとする。

　すなわち、本実施形態は、ユーザによって対象となる文書と近い時期に内容が把握された文書という観点で比較文書の選択条件１及び選択条件２が設定されている。しかしながら、本実施形態ではユーザによりほぼ同時期にアクセスされた文書を比較文書とすることで、それらの文書間で共通して閲覧あるいは目にしている確率が大きい語句を特徴語としての優先度を下げるべく意図している。すなわち近い時期にアクセスされた文書間での違いを顕著に表す特徴語の優先度を上げている。

　　（特徴語の種類について）
　既述してきた各実施形態においては、抽出する特徴語として「固有名詞」としてきたが、これに限るものではない。例えば、次のような語を特徴語とすることも想定できる。
・時間を表す語：キーワード検索のキーとしては正確に入力しにくいが、一方で、結果として同時に目にする複数の文書を区別しやすい。
・専門語：文書の内容（分野）を推測しやすい。
・文書の種類を表す語：文書の内容（種類）を推測しやすい。

　以下に、上記のような語を特徴語として抽出する方法の例を述べる。

　　＜時間を表す語＞
　特徴語抽出において、例えば次の方法で時間を表す語を抽出することができる。
岩瀬元秀、渡部広一、河岡司「文の意味理解に基づく常識的時間判断システムの構築」情報処理学会研究報告　Ｖｏｌ．２００７，Ｎｏ．２６（２００７）
金田泰「百科事典から動的に年表を生成するテキスト検索法のための年代情報の抽出法と表現法」情報処理学会研究報告　Ｖｏｌ．１９９９，Ｎｏ．５７（１９９９）。

　　＜専門語＞
　特徴語抽出において、例えば次のような手段を用いて、専門語（専門用語）を抽出することができる。
横浜国立大学　専門用語自動抽出システム（ｈｔｔｐ：／／ｗｗｗ．ｆｏｒｅｓｔ．ｅｉｓ．ｙｎｕ．ａｃ．ｊｐ／Ｆｏｒｅｓｔ／ｊａ／ｔｅｒｍ－ｅｘｔｒａｃｔｉｏｎ．ｈｔｍｌ）
立石健二、久寿居大「企業内情報共有のための専門用語抽出方式の提案」日本データベース学会ｌｅｔｔｅｒｓ　Ｖｏｌ．４，Ｎｏ．４（２００６）
立石健二、久寿居大「複数の作成者情報付き文書からの専門用語抽出（＜特集＞情報融合）」情報処理学会論文誌．データベース　Ｖｏｌ．４７，Ｎｏ．ＳＩＧ＿８（２００６）。

　　＜文書の種類を表す語＞
　特徴語抽出において、例えば文書の種類を表す語を抽出する。文書を分類する手段として、次のような方法が提案されている。これらの分類方法によって分類し、分類先の分類名を特徴語とすることができる。

　分類方法には、例えば図１４（ａ）にフローを示すような方法がある。手順の例を以下に述べる。
ステップＳ６０１で、各単語にモデルを適用し、単語（あるいは複数の単語の組）が各カテゴリに属する確率を求める。
ステップＳ６０２で、各単語が各カテゴリに属する確率をもとに、文書（単語の集合）が各カテゴリに属する確率を求める。
ステップＳ６０３で、最も属する確率の高いカテゴリを、その文書が属するカテゴリと推定する。

　上記のモデルは学習用コーパスを手作業で分類することにより、分類のモデルを生成することができる。図１４（ｂ）にそのフローの例を示す。

　以下のような分類方法を参考にして、モデル生成を行ってもよい。
高村大也、松本裕治「ＳＶＭを用いた文書分類と構成機能学習法」情報処理学会論文誌トランザクション：データベース　Ｖｏｌ．４４，Ｎｏ．ＳＩＧ０３（２００３）
高村大也、松本裕治「独立成分分析を用いた文書分類：ＳＶＭのための素性空間再構成」情報処理学会研究報告．自然言語処理研究会報告　Ｖｏｌ．２００１，Ｎｏ．５４（２００１）。

　なお、特徴語として「固有名詞」を用いる場合と同様に、これらの語の複合語（複数の単語を組み合わせた語）を用いて特徴語とすることで、文書の内容を表しやすく、また複数の文書を区別しやすくするようにしてもよい。

　また、特徴語の抽出以外の手順は、既述した実施形態に準ずればよい。

　上述してきたように、本実施形態に係る文書の特徴語提示装置及び特徴語提示プログラムによれば、文書の内容を適切に表現できる特徴語群を抽出し、それらの特徴語に対して、所定の条件で選択された比較文書における各特徴語の出現頻度に基づき、それらの特徴語に適切な優先度を付与することができる。

　なお、上述の実施形態は、すべての点で例示であって制限的なものではない。本発明の範囲は上記した説明ではなく特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

Claims

内容を提示する対象となる文書から該文書の内容を特徴づける特徴語を抽出する特徴語抽出手段と、
前記文書の閲覧ユーザ、または該ユーザの指定したユーザがアクセスした文書から、前記特徴語の優先度を判断するための比較文書を選択する比較文書選択手段と、
前記比較文書選択手段により選択された前記比較文書から語句を抽出する比較文書語句抽出手段と、
前記特徴語抽出手段により抽出された前記特徴語に対して、前記比較文書語句抽出手段により抽出された対応する語句の出現頻度に基づいて、前記特徴語の提示の優先度を付与する特徴語優先度付与手段と、
前記優先度を付与された前記特徴語、前記比較文書より抽出された前記語句、及びそれらを抽出するための情報を記憶する記憶手段と、
前記特徴語優先度付与手段により付与された前記優先度に従って、前記特徴語を選択的に提示する特徴語提示手段と、を備える
ことを特徴とする文書の特徴語提示装置。
前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、文書ファイルが所定時間以上オープンされた、あるいは文書ファイルを開いたウィンドウが所定時間以上アクティブであった文書を、前記比較文書として選択する
ことを特徴とする請求の範囲第１項に記載の文書の特徴語提示装置。
前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、文書ファイルがプリント出力された文書を、前記比較文書として選択する
ことを特徴とする請求の範囲第１項に記載の文書の特徴語提示装置。
前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、文書ファイルが可搬記録媒体に出力された文書を、前記比較文書として選択する
ことを特徴とする請求の範囲第１項に記載の文書の特徴語提示装置。
前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、前記対象となる文書が記録されているのと同一の可搬記録媒体に文書ファイルが出力された文書を、前記比較文書として選択する
ことを特徴とする請求の範囲第４項に記載の文書の特徴語提示装置。
前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、文書ファイルが更新保存処理された文書を、前記比較文書として選択する
ことを特徴とする請求の範囲第１項に記載の文書の特徴語提示装置。
前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、前記ユーザのスキャン処理で入力された文書を、前記比較文書として選択する
ことを特徴とする請求の範囲第１項に記載の文書の特徴語提示装置。
前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、前記ユーザにより対象となる文書と同一条件で抽出された文書を、前記比較文書として選択する
ことを特徴とする請求の範囲第１項に記載の文書の特徴語提示装置。
前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、前記対象となる文書がアクセスされた時刻の前後、所定の時間以内にアクセスされた文書を、前記比較文書として選択する
ことを特徴とする請求の範囲第１項に記載の文書の特徴語提示装置。
前記比較文書選択手段は、複数の比較文書を選択し、
前記比較文書語句抽出手段は、
前記比較文書選択手段により選択された前記複数の比較文書間での重複出現頻度の大きい語句を抽出する
ことを特徴とする請求の範囲第１項から第９項の何れか１項に記載の文書の特徴語提示装置。
コンピュータを、
内容を提示する対象となる文書から該文書の内容を特徴づける特徴語を抽出する特徴語抽出手段、
前記文書の閲覧ユーザ、または該ユーザの指定したユーザがアクセスした文書から、前記特徴語の優先度を判断するための比較文書を選択する比較文書選択手段、
前記比較文書選択手段により選択された前記比較文書から語句を抽出する比較文書語句抽出手段、
前記特徴語抽出手段により抽出された前記特徴語に対して、前記比較文書語句抽出手段により抽出された対応する語句の出現頻度に基づいて、提示の優先度を付与する特徴語優先度付与手段、
前記対象となる文書の内容を提示するため、前記特徴語優先度付与手段により付与された前記優先度に従って、前記特徴語を選択的に表示する特徴語提示手段、
として機能させることを特徴とする文書の特徴語提示プログラム。
前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、文書ファイルが所定時間以上オープンされた、あるいは文書ファイルを開いたウィンドウが所定時間以上アクティブであった文書を、前記比較文書として選択する
ことを特徴とする請求の範囲第１１項に記載の文書の特徴語提示プログラム。
前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、文書ファイルがプリント出力された文書を、前記比較文書として選択する
ことを特徴とする請求の範囲第１１項に記載の文書の特徴語提示プログラム。
前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、文書ファイルが可搬記録媒体に出力された文書を、前記比較文書として選択する
ことを特徴とする請求の範囲第１１項に記載の文書の特徴語提示プログラム。
前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、前記対象となる文書が記録されているのと同一の可搬記録媒体に文書ファイルが出力された文書を、前記比較文書として選択する
ことを特徴とする請求の範囲第１４項に記載の文書の特徴語提示プログラム。
前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、文書ファイルが更新保存処理された文書を、前記比較文書として選択する
ことを特徴とする請求の範囲第１１項に記載の文書の特徴語提示プログラム。
前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、前記ユーザのスキャン処理で入力された文書を、前記比較文書として選択する
ことを特徴とする請求の範囲第１１項に記載の文書の特徴語提示プログラム。
前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、前記ユーザにより対象となる文書と同一条件で抽出された文書を、前記比較文書として選択する
ことを特徴とする請求の範囲第１１項に記載の文書の特徴語提示プログラム。
前記比較文書選択手段は、
前記ユーザが過去にアクセスした文書から、前記対象となる文書がアクセスされた時刻の前後、所定の時間以内にアクセスされた文書を、前記比較文書として選択する
ことを特徴とする請求の範囲第１１項に記載の文書の特徴語提示プログラム。
前記比較文書選択手段は、複数の比較文書を選択し、
前記比較文書語句抽出手段は、
前記比較文書選択手段により選択された前記複数の比較文書間での重複出現頻度の大きい語句を抽出する
ことを特徴とする請求の範囲第１１項から第１９項の何れか１項に記載の文書の特徴語提示プログラム。