WO2010103916A1

WO2010103916A1 - 文書の特徴語提示装置及び特徴語の優先度付与プログラム

Info

Publication number: WO2010103916A1
Application number: PCT/JP2010/052710
Authority: WO
Inventors: 真弓竹田
Original assignee: コニカミノルタホールディングス株式会社
Priority date: 2009-03-13
Filing date: 2010-02-23
Publication date: 2010-09-16

Abstract

　文書の内容を適切に表現できる特徴語群を抽出し、それらの特徴語の文書における出現位置に対して、所定の条件で選択された特定位置との距離に基づき、それらの特徴語に適切な優先度を付与する。これにより、文書の内容を適切に表現できる特徴語群を抽出し、提示するに際し、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような文書の特徴語提示装置及び特徴語の優先度付与プログラムが提供できる。

Description

文書の特徴語提示装置及び特徴語の優先度付与プログラム

　本発明は、文書の内容を表す特徴語を抽出し提示する文書の特徴語提示装置、及び該特徴語に提示のための優先度を付与する特徴語の優先度付与プログラムに関する。

　近年、文書をデジタル化し、コンピュータ等で、様々な処理を行うことが一般的になっている。大量の文書ファイルを蓄積し、迅速に検索し、必要な文書を取得し、処理を行うことが行われている。

　これらの文書ファイル処理を行うに際して、それぞれの文書の内容に関する概要を迅速に取得することが必要な局面が多々ある。

　文書の内容に関する概要を知るための情報として、ファイル名や保存場所（フォルダーパス等）、保存時刻などの情報が容易に取得できるが、しかしこれらの情報だけでは、文書の内容は判断が困難な場合も多い。

　各文書の内容の一部分をサマリーとして提示するとか、要約文を生成して提示するといった方法も行われている（例えば、特許文献１参照）。

　特許文献１には、文書の検索結果を原文で表示するのではなく、利用者の所望する視点での要約文を作成し、提示することにより、利用者が検索した文書の内容をたやすく理解し、要不要を素早く判定できる文書情報検索装置が記載されている。

　また、文書の内容をキーワードで表現し、メタデータとして保持しておくという方法もある（例えば、特許文献２参照）。

　特許文献２には、文書の検索結果を出力するに際し、特徴的な重要語群を取得し、検索結果と合わせて重要語（特徴語）群を表示することにより、絞り込み検索が簡易、かつ適切に行える技術が提示されている。

特開平７－１８２３７３号公報特開２００６－１７８５９９号公報

　上述したように、従来、文書の概略的内容を簡便にかつ迅速に把握できるような提示が行える方法や装置が求められてきた。そのため要約文を作成して表示（特許文献１参照）したり、キーワード群を抽出して表示（特許文献２参照）したりして、利用者に迅速にかつ的確に文書内容を理解させるための技術が提案されてきた。

　しかしながら、特許文献１に記載の技術では、多数の文書を一覧形式で表示するなど、文形式の概要表示は読みにくく、適切でない場合もある。

　また特許文献２に記載の技術では、キーワードとしたい語が人や用途により異なる場合が多く、それらに対処しようとすると保持するキーワード数が多くなり、管理や検索に不便が生じてくる場合もある。また記録領域に制約がある場合には、絞り込む必要が生じたりする。

　本発明は、上記の技術的課題を鑑みてなされたものである。本発明の目的は、文書の内容を適切に表現できる特徴語群を抽出し、提示するに際し、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような文書の特徴語提示装置及び特徴語の優先度付与プログラムを提供することである。

　上記の課題を解決するために、本発明は以下の特徴を有するものである。

　１．内容を提示する対象となる文書から該文書の内容を特徴づける特徴語を抽出する特徴語抽出手段と、
　前記文書から、所定の特定位置取得条件に適合する前記文書内での特定位置を取得する特定位置取得手段と、
　前記特徴語抽出手段により抽出された前記特徴語の前記文書内の出現位置と、前記特定位置取得手段により取得された前記特定位置との距離を算出する距離算出手段と、
　前記特徴語抽出手段により抽出された前記特徴語に対して、前記距離算出手段により算出された前記距離に基づいて、提示の優先度を付与する特徴語優先度付与手段と、
　前記優先度を付与された前記特徴語、前記特定位置取得手段により取得された前記特定位置、前記距離算出手段により算出された前記距離、及びそれらを抽出するための情報を記憶する記憶手段と、
　前記特徴語優先度付与手段により付与された前記優先度に従って、前記特徴語を選択的に提示する特徴語提示手段と、を備える
　ことを特徴とする文書の特徴語提示装置。

　２．前記特定位置取得手段は、前記文書において前記特定位置取得条件に従う特定語を取得し、該特定語が前記文書中に出現する位置を前記特定位置として取得する
　ことを特徴とする前記１に記載の文書の特徴語提示装置。

　３．前記特定位置取得条件は、前記文書の名称に含まれる語を前記特定語とするものである
　ことを特徴とする前記２に記載の文書の特徴語提示装置。

　４．前記特定位置取得条件は、前記文書を検索したときの検索キーワードを前記特定語とするものである
　ことを特徴とする前記２に記載の文書の特徴語提示装置。

　５．前記特定位置取得条件は、前記文書の閲覧ユーザが過去に閲覧した文書を母集団とした場合の出現頻度が高い語を前記特定語とするものである
　ことを特徴とする前記２に記載の文書の特徴語提示装置。

　６．前記特定位置取得条件は、前記文書から抽出した所定の種類の特徴語を前記特定語とするものである
　ことを特徴とする前記２に記載の文書の特徴語提示装置。

　７．前記特定位置取得条件は、前記文書中の図もしくは表の出現位置を前記特定位置とするものである
　ことを特徴とする前記１に記載の文書の特徴語提示装置。

　８．前記特定位置取得条件は、前記文書の先頭位置を前記特定位置とするものである
　ことを特徴とする前記１に記載の文書の特徴語提示装置。

　９．前記特定位置取得条件は、前記文書の末尾位置を前記特定位置とするものである
　ことを特徴とする前記１に記載の文書の特徴語提示装置。

　１０．前記特定位置取得条件は、前記文書における頁の中央位置を前記特定位置とするものである
　ことを特徴とする前記１に記載の文書の特徴語提示装置。

　１１．前記特定位置取得条件は、前記文書における頁の先頭位置を前記特定位置とするものである
　ことを特徴とする前記１に記載の文書の特徴語提示装置。

　１２．前記特定位置取得条件は、前記文書中の特定の記号の出現位置を前記特定位置とするものである
　ことを特徴とする前記１に記載の文書の特徴語提示装置。

　１３．前記距離算出手段は、前記文書における区分を設定し、前記特定位置及び前記特徴語の出現位置がそれぞれ属する区分間の距離を、前記距離として算出する
　ことを特徴とする前記１に記載の文書の特徴語提示装置。

　１４．前記距離算出手段は、前記文書を構造化文書として設定し、前記構造化文書における前記特定位置及び前記特徴語の出現位置の木構造上の距離を、前記距離として算出する
　ことを特徴とする前記１に記載の文書の特徴語提示装置。

　１５．コンピュータを、
　内容を提示する対象となる文書から該文書の内容を特徴づける特徴語を抽出する特徴語抽出手段、
　前記文書から、所定の特定位置取得条件に適合する前記文書内での特定位置を取得する特定位置取得手段、
　前記特徴語抽出手段により抽出された前記特徴語の前記文書内の出現位置と、前記特定位置取得手段により取得された前記特定位置との距離を算出する距離算出手段、
　前記特徴語抽出手段により抽出された前記特徴語に対して、前記距離算出手段により算出された前記距離に基づいて、提示の優先度を付与する特徴語優先度付与手段、
　として機能させることを特徴とする文書の特徴語の優先度付与プログラム。

　１６．前記特定位置取得手段は、前記文書において前記特定位置取得条件に従う特定語を取得し、該特定語が前記文書中に出現する位置を前記特定位置として取得する
　ことを特徴とする前記１５に記載の文書の特徴語の優先度付与プログラム。

　１７．前記特定位置取得条件は、前記文書の名称に含まれる語を前記特定語とするものである
　ことを特徴とする前記１６に記載の文書の特徴語の優先度付与プログラム。

　１８．前記特定位置取得条件は、前記文書を検索したときの検索キーワードを前記特定語とするものである
　ことを特徴とする前記１６に記載の文書の特徴語の優先度付与プログラム。

　１９．前記特定位置取得条件は、前記文書の閲覧ユーザが過去に閲覧した文書を母集団とした場合の出現頻度が高い語を前記特定語とするものである
　ことを特徴とする前記１６に記載の文書の特徴語の優先度付与プログラム。

　２０．前記特定位置取得条件は、前記文書から抽出した所定の種類の特徴語を前記特定語とするものである
　ことを特徴とする前記１６に記載の文書の特徴語の優先度付与プログラム。

　２１．前記特定位置取得条件は、前記文書中の図もしくは表の出現位置を前記特定位置とするものである
　ことを特徴とする前記１５に記載の文書の特徴語の優先度付与プログラム。

　２２．前記特定位置取得条件は、前記文書の先頭位置を前記特定位置とするものである
　ことを特徴とする前記１５に記載の文書の特徴語の優先度付与プログラム。

　２３．前記特定位置取得条件は、前記文書の末尾位置を前記特定位置とするものである
　ことを特徴とする前記１５に記載の文書の特徴語の優先度付与プログラム。

　２４．前記特定位置取得条件は、前記文書における頁の中央位置を前記特定位置とするものである
　ことを特徴とする前記１５に記載の文書の特徴語の優先度付与プログラム。

　２５．前記特定位置取得条件は、前記文書における頁の先頭位置を前記特定位置とするものである
　ことを特徴とする前記１５に記載の文書の特徴語の優先度付与プログラム。

　２６．前記特定位置取得条件は、前記文書中の特定の記号の出現位置を前記特定位置とするものである
　ことを特徴とする前記１５に記載の文書の特徴語の優先度付与プログラム。

　２７．前記距離算出手段は、前記文書における区分を設定し、前記特定位置及び前記特徴語の出現位置がそれぞれ属する区分間の距離を、前記距離として算出する
　ことを特徴とする前記１５に記載の文書の特徴語の優先度付与プログラム。

　２８．前記距離算出手段は、前記文書を構造化文書として設定し、前記構造化文書における前記特定位置及び前記特徴語の出現位置の木構造上の距離を、前記距離として算出する
　ことを特徴とする前記１５に記載の文書の特徴語の優先度付与プログラム。

　本発明に係る文書の特徴語提示装置及び特徴語の優先度付与プログラムによれば、文書の内容を適切に表現できる特徴語群を抽出し、それらの特徴語の文書における出現位置に対して、所定の条件で選択された特定位置との距離に基づき、それらの特徴語に適切な優先度を付与することができる。

　その優先度に従った特徴語の提示を行うことにより、多数の文書の一覧形式でも各文書の内容とその差異が分かりやすく、また提示する特徴語の数に制約があったとしても、文書の内容を適切に伝えることができるような特徴語の提示が可能となる。

本発明に係る文書の特徴語提示装置の概略構成例を示すブロック図である。本発明に係る文書の特徴語提示装置における特徴語提示方法の、全体としての処理の流れを示すフローチャートである。図２における特徴語処理の工程、すなわち特徴語抽出と優先度付与処理の流れをより詳細に示すフローチャートである。対象となる文書の語句抽出処理の手順例のフローチャートを示す。抽出語句のリスト例（一部分）を示す図である。（ａ）特徴語抽出処理の手順例、及び（ｂ）上記手順で用いる「特徴語抽出のためのモデル」を生成する処理例の各フローチャートを示す。抽出した特徴語のリスト例を示す図である。特定位置取得処理の手順例のフローチャートを示す。特定位置取得処理で取得した特定位置リストの例（一部分）を示す。距離算出処理の手順例のフローチャートを示す。距離算出処理で算出した特徴語距離リストの例を示す図である。優先度付与処理の手順例のフローチャートを示す。図７に示した特徴語リスト記載の特徴語に対して、図１１の特徴語距離リストを参照して、距離に応じて優先度付与した優先度付き特徴語リストの例を示す図である。（ａ）文書の種類を表す語を抽出するため文書を分類する方法の手順例、及び（ｂ）その手順に用いるモデル生成の手順例の各フローチャートを示す。

　本発明の実施形態を、以下に図面を参照して説明する。

　（文書の特徴語提示装置の構成と機能）
　図１は、本発明に係る文書の特徴語提示装置の概略構成例を示すブロック図である。図１を用いて、本発明の実施形態としての文書の特徴語提示装置について概略構成と各構成要素の機能を説明する。

　＜全体構成＞
　図１において、１は本実施形態に係る文書の特徴語提示装置であり、パーソナルコンピュータ（ＰＣ）などで代表される一般的な情報処理装置に、本発明に係る文書の特徴語の優先度付与プログラムを適用して機能させることにより実現される。文書の特徴語提示装置１は、情報処理装置として、以下に示すような構成要素を有する。

　２は特徴語処理部であり、文書の特徴語提示装置１が対象となる文書に対して、特徴語を用いてその概要を提示する動作機能のうち、特に、文書内容を表す特徴語を抽出し、提示するための優先度を付与する部分の機能を有する。

　それらの機能は、コンピュータのＣＰＵが、それぞれに対応するプログラムに従って、特徴語抽出手段１０、特定位置取得手段２０、距離算出手段３０、及び特徴語優先度付与手段４０として機能することで実現される。それらの各手段の機能の詳細については後述する。

　３はＣＰＵからなる制御部であり、情報処理装置である文書の特徴語提示装置１の処理機能全般を制御する。特に、ユーザがアクセスする文書の処理、すなわち対象となる文書の取得や特徴語処理部２の特徴語抽出、特定位置取得、距離算出と優先度付与、そして優先度に従った特徴語による文書の概要の提示等が制御される。

　４はハードディスク等の記憶手段であり、特徴語処理部２の特徴語抽出から優先度付与に関する処理やその他の処理について、制御部３が行う制御に伴い必要なデータや情報を記憶し、保持する。

　５はディスプレイ等の表示部であり、制御部３の制御により、提示の優先度に従い特徴語による文書の概要の提示を行う特徴語提示手段として機能する。その他ユーザに知らせるためのデータや情報を、制御部３の制御で表示する。

　６はキーボード等の操作部であり、表示部５の表示内容等に従ってユーザが操作入力したデータや情報を受け付ける。取得したデータや情報は、制御部３により記憶手段４に保持させる等の必要な処理が行われる。

　７は通信部であり、入出力のインタフェイス装置である。制御部３の制御により、文書の特徴語提示装置１の外部にある他の記憶装置あるいは他の情報処理装置との間で、必要なデータや情報を送信または受信する。

　８は外部媒体であり、メモリーやディスク等の可搬記録媒体である。ユーザが直接的に文書の特徴語提示装置１に装着などすることで、制御部３は文書ファイルその他のデータを外部媒体に入出力処理する。

　＜特徴語処理部２の構成＞
　上述したように、特徴語処理部２は、下記各手段により、文書内容を表す特徴語を抽出し、提示するための優先度を付与する。

　特徴語抽出手段１０は、文書内容を特徴語で提示する対象となる文書から語句を抽出し、語句リストを作成する。また、語句リストの中から所定の選択条件に適合する語を特徴語として抽出し、特徴語リストを作成する。

　特定位置取得手段２０は、対象となる文書から所定の特定位置取得条件に適合する特定語の出現位置、または所定の特定位置取得条件に適合する文書中の位置を特定位置として取得し、その文書の特定位置リストを作成する。

　距離算出手段３０は、対象となる文書における、特定位置リストの各特定位置と各特徴語の出現位置との距離を算出し、特徴語ごとに特定位置との最短距離を求め、距離情報付きの特徴語距離リストを作成する。

　特徴語優先度付与手段４０は、特徴語リストの各特徴語について、対象となる文書の特徴語距離リストにおける特定位置との距離に基づいて優先度を決定する。また優先度付きの特徴語リストを作成する。

　これらの手段による機能動作の詳細については、図２、図３を用いて以下に各処理の流れを手順として説明する。

　（文書の特徴語提示方法の手順）
　　＜全体の処理の流れ＞
　図２は、本発明に係る文書の特徴語提示装置において、特徴語提示方法の全体としての処理の流れを示すフローチャートである。図２を用いて、本発明の特徴語提示装置における文書の特徴語提示方法について、全体としての処理の手順を説明する。

　図２において、まず文書の特徴語提示装置に対して、対象となる文書が定まり、特徴語提示装置によって取得された状態で処理が開始する。

　まずステップＳ１０の特徴語抽出工程が実行される。この工程では、取得した特徴語提示の対象となる文書から語句を抽出し、語句リストを作成する。また、語句リストの中から所定の選択条件に適合する特徴語を抽出し、特徴語リストを作成する。

　次にステップＳ２０の特定位置取得工程では、特定位置取得条件に従い、文書中の特定位置を取得する。特定位置取得条件は、特定語の選択条件を指定する、もしくは直接的に特定位置の条件を指定する。特定語の選択条件が指定された場合は、その特定語の出現位置が特定位置となる。取得された特定位置を記載する特定位置リストを作成する。

　ステップＳ３０の距離算出工程では、特定位置リストの各特定位置と各特徴語の出現位置との距離を算出し、特徴語ごとに特定位置との最短距離を求め、距離情報付きの特徴語距離リストを作成する。

　ステップＳ４０の特徴語優先度付与工程では、特徴語リストの各特徴語について、対象となる文書の特徴語距離リストにおける特定位置との距離に基づいて優先度を決定する。また優先度付きの特徴語リストを作成する。

　上記特徴語処理の工程に含まれる各工程は、既述したように、本発明に係る特徴語の優先度付与プログラムに従ってコンピュータ（ＣＰＵ）が機能することにより実現される。各工程の詳細な手順例は後述する。

　次のステップＳ５０では、ステップＳ４０までの各特徴語の優先度に従って、対象となる文書の内容を表すべく、特徴語の提示を行う。優先度に従った特徴語の提示は、例えば定められた特徴語数を優先順に表示するなど、制御部３の制御により表示部５等に対象となる文書名称とともに定められた形式で表示する。

　これで全体の処理は終了する。必要であれば最初に戻って、処理を繰り返す、すなわち次の対象となる文書を待つような手順でもよい。

　上記の処理において、特徴語提示の対象となる文書の形態は問わない。特徴語を抽出できればどのような形態でもよい。例えば音声データを音声認識処理によりテキストに変換したものであってもよい。また、１つのファイルであってもよいし、複数のファイルから構成されていてもよい。

　　＜各処理手順の詳細＞
　本発明の第１の実施形態に係る文書の特徴語提示装置における特徴語提示方法について、特徴語抽出から優先度付与に至る各処理の手順例を、適宜、図３から図１３を参照して、以下に詳しく説明する。

　（第１の実施形態）
　図２で説明した全体の処理の流れに従い、上記特徴語処理の工程を、ステップＳ１０の特徴語抽出工程、ステップＳ２０の特定位置取得工程、ステップＳ３０の距離算出工程、そしてステップＳ４０の特徴語優先度付与工程の順に説明する。

　＜特徴語抽出工程＞
　図３は、図２におけるステップＳ１０（特徴語抽出工程）、すなわち語句抽出処理と特徴語抽出処理とからなる流れを示すフローチャートである。語句抽出処理と特徴語抽出処理との詳細な手順例について説明する。

　　＜語句抽出処理＞
　特徴語抽出工程においては、まずステップＳ１１で語句抽出処理が行われる。図４に、語句抽出処理の手順例のフローチャートを示す。

　図４のステップＳ１１１で、まず特徴語提示の対象となる文書ファイルを取得する。

　次にステップＳ１１２で対象となる文書ファイルを開き、テキスト（文字データ）を取り出す。

　ステップＳ１１３では、取り出したテキストに対して、語句抽出のために形態素解析を行う。形態素解析は、公知の方法、例えばＣｈａｓｅｎ（ｈｔｔｐ：／／ｃｈａｓｅｎ－ｌｅｇａｃｙ．ｓｏｕｒｃｅｆｏｒｇｅ．ｊｐ／）などを用いることができる。

　ステップＳ１１４で、形態素解析に基づき、テキストのすべての語句を抽出し、語句リストを作成し、対象となる文書及びその付属情報（例えばユーザＩＤなど）と関連付けて保持する。図５に抽出語句のリスト例（一部分）を示す。

　以上で語句抽出処理を終了する。

　なお上記では、語句抽出に形態素解析を用いたが、それに限るものではない。

　他の方法としては、例えば日本語であれば漢字か平仮名かで語句抽出する方法等を用いてもよいし、英語であれば空白を区切りとして語句抽出する手法等を用いてもよい。

　また複数の連続した語からなる特定のフレーズは、最後まで分解せずにフレーズのままで形態素とするように形態解析してもよい。

　特徴語を抽出するための語句リストであるから、すべての語句を抽出するのではなく、特徴を表しているとは言い難い語句は予め抽出しないような工夫をしておいてもよい。

　例えば品詞解析手法を用いて語の品詞を求め、特徴を表しているとは言い難い特定の品詞（例えば助詞など）の語句は形態素として抽出しないようにしてもよい。

　また特徴を表しているとは言い難い一般的な単語を予め辞書として保持しておき、該当する場合は語句として抽出しないようにしてもよい。

　　＜特徴語抽出処理＞
　次に図３のステップＳ１２で特徴語抽出処理が行われる。図６（ａ）に、語句抽出処理の手順例のフローチャートを示す。

　まず図６（ａ）のステップＳ１２１では、単語に分解されたテキスト（もしくは語句リスト）に対して、所定のモデル（特徴語抽出のためのモデル）を適用し、自動的に語句を選別しタグを付与する。

　次にステップＳ１２２で、所定のタグが付与された語句を抽出し、特徴語リストを作成し、対象となる文書及びその付属情報（例えばユーザＩＤなど）と関連付けて保持する。

　以上で特徴語抽出処理を終了する。

　図６（ｂ）には、上記ステップＳ１２１で用いる「特徴語抽出のためのモデル」を生成する処理例のフローチャートを示す。

　モデル生成は学習用コーパス（言語データ）を用いて手作業で属性を付与して、特徴語足るべき語句を学習させ、ベクトル変換した状態で近似する語句を特徴語として自動タグ付けするように機能するモデルを生成する。

　まずステップＳ５０１では、学習用コーパスを入力する。

　次にステップＳ５０２で、学習用コーパスを単語（形態素）に分解する。

　ステップＳ５０３では、手作業で、特徴語として抽出したい語句にタグ付け（属性の付与）を行う。

　ステップＳ５０４で、タグ情報を含めた単語の情報を所定のルールでベクトル変換し、ステップＳ５０５で、ベクトル変換した情報を基に、モデル、すなわち自動でタグ付けを行うルールを生成する。

　以上で特徴語抽出のためのモデルを生成する処理は終了である。

　図７に抽出した特徴語のリスト例を示す。これは図５の語句を抽出した文書ファイルに対して、次に示すモデルを適用して図６（ａ）のステップＳ１２１の処理を行い、ステップＳ１２２で抽出した特徴語である。

　　（特徴語の抽出基準）
　上記図７の例は、特徴語として、文書の内容を表しやすく、また複数の文書を区別しやすい固有名詞を含む複合語（複数の単語の組み合わせ）を抽出するモデルを、図６（ｂ）に示した手順で生成し、適用したものである。特徴語の抽出基準（固有名詞を含む複合語）について、以下に詳しく述べる。

　　＜固有名詞＞
　固有名詞などの特定の種類の語を抽出する手法として、ＭＵＣ（Ｍｅｓｓａｇｅ　Ｕｎｄｅｒｓｔａｎｄｉｎｇ　Ｃｏｎｆｅｒｅｎｃｅ）で提唱された「固有表現抽出」という概念がある。「固有表現抽出」とは、人名・組織名などの固有名詞や、日付表現などの「特定の種類の用語」を抽出する手法全般を指す語である。固有名詞抽出の流れを図６（ｂ）に手順例で示した。

　　＜複合語＞
　抽出した固有名詞を含む複数の単語が組み合わさった語を抽出する。

　抽出には、例えば、ＦＬＲ法を用いる。ＦＬＲ法は、連接頻度ＬＲ法または連接種類ＬＲ法に、用語Ｗが文書データ中に出現した頻度Ｆを加味する方法である。詳細は（「出現頻度と連接頻度に基づく専門用語抽出」、湯本他、自然言語処理、１０（１）２７－４５，２００３年１月）を参照。

　連接頻度ＬＲ法は、語彙を走査し、用語Ｗを構成する単語について、該単語の左右それぞれに単語が出現する回数を計算する。また連接種類ＬＲ法は、単語の左右それぞれに何種類の単語が出現するかをカウントする。

　ここで、例えば、カタカナ語彙中の用語「サーバシステム、コンピュータシステム、オープンシステム」があり、構成する単語を分けると（サーバ｜システム）、（コンピュータ｜システム）、（オープン｜システム）となり、単語「システム」の左に単語が３回出現したので、単語「システム」の連接頻度ＬＲ法での左方スコアはＬ（システム）＝３となる。また単語「システム」の左に単語が３種類出現したので、連接種類ＬＲ法での左方スコアはＬ（システム）＝３となる。

　一般に、単語ｗ１、ｗ２、・・・ｗｎが連なって構成する用語Ｗ＝ｗ１、ｗ２、・・・ｗｎについて、連接頻度ＬＲ法または連接種類ＬＲ法の用語ＷのスコアＬＲ（Ｗ）は、以下のように定義される。

　＜特定位置取得工程＞
　図２のステップＳ２０（特定位置取得工程）の詳細な手順例を以下に説明する。

　　＜特定位置取得条件＞
　この工程の意図は、文書中に位置を設定し、特定位置として取得することにあり、所定の特定位置取得条件に従って特定位置の取得を行う。

　特定位置取得条件は、例えば、（ａ）その文書についての特定語を取得し、その特定語の文書中での出現位置を特定位置として取得する場合、（ｂ）直接的に文書における特定位置を指定する場合、が考えられる。

　特定位置は、後述するように特徴語との距離を算出し、特徴語の優先度を付与するためのものである。従って、ユーザにとってその文書の内容を象徴するような語が特定語として取得されれば、その特定語の出現位置の近傍に出現する特徴語は、その文書の内容をより特徴づけるものとして提示の優先度を高くなるようにするものである。

　あるいは、文書における重要なポイントとなる文が置かれるような位置が直接的に特定位置として取得される場合も、その特定位置の近傍に出現する特徴語は、その文書の内容をより特徴づけるものとして提示の優先度を高くなるようにするものである。

　従ってこの特定語、あるいは特定位置を選択する条件によって、特徴語の優先度を付与する基準が変わってくる。どういう観点から特徴語を絞り込みたいかによって、特定位置取得条件の設定はなされるべきである。

　本実施形態では、以下に述べるように文書のタイトルに含まれる語を特定語として取得する特定位置取得条件とした。文書のタイトルには、その文書を象徴するような語句が含まれており、そういう文書の内容把握の観点から、その語句の出現する近傍で出現する特徴語は、同様に内容を特徴づけている可能性が高いと見なせる。

　　＜特定位置取得処理＞
　図８に、特定位置取得処理の手順例のフローチャートを示す。

　まずステップＳ２１で、特定位置取得条件に従い、特定語を取得するのか、それとも直接的に特定位置を取得するのかを判定する。本実施形態における特定位置取得条件は、特定語を取得してその出現位置を特定位置とするものであり、特定語は当該文書のタイトルに含まれる語であるという条件とする。

　ステップＳ２１で特定位置取得条件に基づき特定語を取得する場合（ステップＳ２１：ＹＥＳ）は、次のステップＳ２２を実行する。あるいは特定位置取得条件に従い直接的に特定位置を取得する場合（ステップＳ２１：ＮＯ）は、ステップＳ２４を実行する。

　ステップＳ２２では、特定位置取得条件に基づき特定語を取得する。本実施形態では、文書のタイトルに含まれる語を特定語とする条件である。タイトル以外に、ファイル名や、文書の先頭に記述されている文を抽出して特定語を取得するようにしてもよい。

　具体的に、例えば文書のタイトルから特定語を抽出する場合、タイトルが「ＡＢＣ研究所訪問：ＫＭスペシャル１異常原因解析」であるとすると、「ＡＢＣ」「研究所訪問」「ＫＭ」「スペシャル」「１」「異常」「原因」「解析」という語句が特定語として取得されうる。

　ステップＳ２３では、取得した各特定語について、それぞれ文書中での出現位置を特定位置として取得する。各特定語に対して複数の出現位置があれば、各特定語に対して複数の特定位置が取得される。

　一方ステップＳ２４では、特定位置取得条件に従い直接的に文書中の特定位置が取得される。文書中で特定位置取得条件に従う位置が複数あれば、複数の特定位置が取得される。

　ステップＳ２３、もしくはステップＳ２４で特定位置が取得されると、ステップＳ２５で特定位置リストに取得した特定位置を記載し、該リストを、選択した文書が参照可能な形で保持する。

　以上で特定位置取得処理を終了する。

　図９（ａ）に、特定位置取得条件に従ってタイトルに含まれる語を特定語として取得し、特定語の出現位置を特定位置として取得したときの特定位置リストの例を示す。選択された特定語に対して、その出現位置、すなわち特定位置がリストアップされる。

　本実施形態では、「ＡＢＣ研究所訪問：ＫＭスペシャル１異常原因解析」のタイトルからの、「ＡＢＣ」「研究所訪問」「ＫＭ」「スペシャル」「１」・・・という特定語に対して、特定位置（位置１、２・・・）がリストアップされている。

　既に述べたように、特定位置は、対象となる文書の特徴語に対して、優先度を付与するための基準に用いられる。従って、より文書の特徴を表す特徴語がその特定位置の近傍に位置するように、特定位置取得の条件を選択する必要がある。

　本実施形態では、文書の内容を最も特徴的に示すであろうタイトルに含まれる語の出現する位置を特定位置として取得し、その近傍に位置する特徴語の優先度を上げることによって、より文書を特徴付ける特徴語を選択することができるという観点で特定位置取得条件が設定されている。

　なお、図９（ｂ）に、特定位置取得条件が直接的に特定位置を指定するような条件の場合の特定位置リストの例を示す。ここでは図や表の記載されている位置を特定位置としている（後述する第５の実施形態参照）。

　＜距離算出工程＞
　　＜距離算出処理＞
　次の距離算出工程（図２のステップＳ３０）の処理手順例を、図１０を用いて説明する。図１０に、特徴語と特定位置との距離算出処理の手順例のフローチャートを示す。

　特定位置リストに記載されたすべての特定位置について以下の処理を行う。

　まずステップＳ３１で、特定位置リストに記載された未処理（距離算出を行っていない）の特定位置を取得する。

　次にステップＳ３２で、文書中の取得した特定位置に置かれている文（テキストデータ）を取り出す。

　ステップＳ３３では、取り出した文（テキスト）に対して、特徴語抽出処理により抽出された特徴語リストに記載されている特徴語を含むかどうかを判定処理する。

　ステップＳ３４で判定と判定による手順の分岐処理を行う。取り出した文に特徴語が含まれている場合（ステップＳ３４：ＹＥＳ）は、その特徴語（複数の場合もあり）を取得し、ステップＳ３５を実行する。特徴語が含まれていない場合（ステップＳ３４：ＮＯ）は、そのままステップＳ３１へ戻り、次の未処理の特定位置に対して上記処理を繰り返す。

　次のステップＳ３５では、特定位置から、含まれていた各特徴語への距離を算出する。

　距離の算出方法は、例えば本実施形態のように、テキストデータ上の距離として、特定位置からその特徴語に至るまでの文字数（Ｎｃ）をカウントする等の方法を定義しておく。このように、文中での距離が近いほど関連が強いと推測されるので、後述するように特定位置との距離が近い特徴語の優先度を上げることが妥当となる。

　ステップＳ３６では、ステップＳ３５で算出した距離を特徴語、特定位置と関連付けて記載した特徴語距離リストを、未作成の場合は作成する、あるいは既作成の場合は追加してリストアップして、保持する。

　同じ文中の同じ特徴語に対して複数の同じ特定語（もしくは特定位置）が存在する場合は、算出された各距離の最短の距離で代表して取得するのが効率的でよい。もちろん後述するように、異なる特定語（もしくは特定位置）に対しても、異なる文中に対しても、最短の距離で代表させるように特徴語距離リストに記載する距離を定義してもよい。

　ステップＳ３７では、特定位置リストに記載されたすべての特定位置について上記処理を終えたかどうかを判定する。すべての特定位置の処理を終えた場合（ステップＳ３７：ＹＥＳ）は、ステップＳ３８を実行する。未処理の特定位置が残っている場合（ステップＳ３７：ＮＯ）は、ステップＳ３１へ戻り、特定位置リストに記載されたすべての特定位置について処理を終えるまで、上記のステップを繰り返す。

　ステップＳ３８では、上記作成した特徴語距離リストに記載の距離を、同じ特徴語に対して複数の距離が記載されている場合は、最短の距離で代表させる。これはすなわち、ステップＳ３６で述べた、異なる特定語（もしくは特定位置）に対しても、異なる文中に対しても、最短の距離で代表させる、ということであり、ステップＳ３６で実施しておいてもよい。

　また後述の特徴語優先度付与処理の中で最短の距離を選択して処理を行ってもよいし、目的によっては、最短の距離でなく別の方法で代表距離を定義してもよい。

　以上で距離算出処理は終了する。

　図１１には、図９（ａ）に示した特定位置リストに基づいて算出した特定位置と特徴語の距離を各特徴語についてリストアップした特徴語距離リストの例（一部）を示す。

　ここでは、図７の特徴語リストと同順序に整理し、特徴語ごとに最短距離（Ｎｃ：文字数で表される）を代表して記載している。距離が算出されなかった（特定位置の近傍に見つからなかった）特徴語は距離が空欄となっている。

　なお上記手順例では、特徴語が特定位置により定まる文中に含まれている場合だけ距離を算出したが、それに限るものではない。

　例えば別の文中にある特徴語に対しても、文字単位ではなく文単位で距離をカウントするような方法も可能である。その場合、優先度付与に対して、文単位の距離を文字単位の距離より重み付けを大きくするようにすれば適切である。

　同様に文書の区分に応じて、区分単位で距離を算出してもよい。例えば、文単位以外に、段落単位、節単位、章単位、頁単位などの距離算出が想定できる。

　こういった距離の算出方法により、文書の長短や文書形式に関わらず適用でき、またプレゼン資料のような頁ごとにセクションが分かれるような文書にも対応できる。

　また文書が構造体文書の場合、構造木を作成し、木構造間の距離を算出するようにしてもよい。木構造間の距離の算出については、千葉大学　川島らによる、次のような文献がある。
・「木構造間の距離の近似計算」電子情報通信学会技術研究報告。

　構造化することによって、意味的な距離を算出することができる。

　また図の位置によって特定位置が定まる場合は、その位置の直後（横書きならば下方向）の距離の重み付けを大きくし、表の位置によって特定位置が決まる場合は、その位置の直前（横書きならば上方向）の距離の重み付けを大きくしてもよい。

　＜特徴語優先度付与工程＞
　　＜優先度付与処理＞
　特徴語優先度付与工程（図２のステップＳ４０）の処理手順例を、図１２を用いて説明する。図１２は、特徴語に距離に応じた優先度を付与する優先度付与処理の手順例のフローチャートを示す。

　これは特徴語リストに記載のすべての特徴語に対して、特徴語距離リストに記載の距離に基づいて提示の優先度を付与する処理である。

　まずステップＳ４１では、特徴語リストに記載の各特徴語について、初期設定として所定の優先度を付与する。本実施形態では、初期設定の優先度を数値で０とし、距離の近さに応じて優先度を上げていく。

　ステップＳ４２では、各特徴語について、特徴語距離リストから対応する特徴語の距離を取得し、それに応じて優先度を上げる。

　例えば、距離がＮｃ（文字数）であれば、優先度＝０（初期設定）＋１／Ｎｃとする。またここでは、Ｎｃ＝０の場合（特定位置または特定語と特徴語の位置が一致する場合）、優先度＝０（初期設定）とする。但し、それに限るものではない。

　また、特徴語距離リストに対応する特徴語距離の記載がなければ、優先度はそのまま（初期設定）である。

　以上の優先度付与の手順が終了すると、特徴語リストに記載のすべての特徴語に対して提示の優先度が付与され、特徴語リストは優先度付き特徴語リスト（特徴語優先度リスト）として作成されなおすことになる。

　以上で優先度付与処理は終了する。

　図１３（ａ）、（ｂ）には、図７に示した特徴語リスト記載の特徴語に対して、図１１の特徴語距離リストを参照し、記載の各特徴語距離に応じて優先度付与した優先度付き特徴語リストの例を示す。図１３（ａ）は優先度が初期設定の状態の特徴語優先度リストであり、図１３（ｂ）は距離に基づき優先度付与した特徴語優先度リストの例である。

　なお本実施形態では、特徴語の距離に基づく優先度付与方法として、優先度の初期設定値から一律に特徴語距離の逆数を加えていく方法を採用したが、これに限定するものではない。例えば、特徴語の種類、もしくは特定位置取得条件などに応じて、特徴語距離を修正してもよい。また全特徴語の距離を最大距離が１になるよう正規化して、１（最大距離）からの差分を用いてもよい。

　上述の本実施形態に係る特徴語の抽出から優先度付与に至る処理を行うことによって、文書の内容を適切に表現できる特徴語群を抽出し、それらの特徴語の文書における出現位置に対して、所定の条件で選択された特定位置との距離に基づき、それらの特徴語に適切な優先度を付与することができる。

　すなわち、本実施形態では、文書の内容を最も特徴的に示すであろうタイトルに含まれる語の出現する位置を特定位置として取得するという観点で特定位置取得条件が設定されており、その特定位置の近傍に位置する特徴語の優先度を上げることによって、文書をより特徴付ける特徴語を優先的に選択することを意図している。すなわちタイトルに含まれる語との距離が近いほど、文書を特徴付ける特徴語の優先度を上げている。

　（第２の実施形態）
　上述の第１の実施形態とは異なる第２の実施形態について述べる。

　第２の実施形態は、図８に示した特定位置取得処理において特定位置取得条件のみが第１の実施形態と異なる。特定位置取得条件の違いについてのみ説明する。

　本実施形態における特定位置取得条件は、文書がキーワード検索された検索結果として文書概要の提示を行おうとする場合の条件であり、検索したユーザによって入力されたキーワードを特定語とし、その特定語の出現位置として特定位置を取得するものである。

　すなわち、本実施形態も第１の実施形態と同様に、より文書の特徴を表す特徴語がその特定位置の近傍に位置するように、特定位置取得条件が設定されている。しかしながら、本実施形態ではユーザの興味の度合いが高い、文書の内容を表す語として検索キーワードの出現する位置を特定位置として取得するものであり、そのユーザが関心を持つ検索キーワードの近傍に位置する特徴語の優先度を上げることによって、文書をより特徴付ける特徴語を優先的に選択することを意図している。すなわち検索キーワードとの距離が近いほど、文書を特徴付ける特徴語の優先度を上げている。

　（第３の実施形態）
　上述の第１及び第２の実施形態とは異なる第３の実施形態について述べる。

　第３の実施形態も、図８に示した特定位置取得処理において特定位置取得条件のみが第１の実施形態と異なる。特定位置取得条件の違いについて説明する。

　本実施形態における特定位置取得条件は、その文書の閲覧ユーザが過去に閲覧した文書を母集団とした場合の出現頻度が高い語を特定語とし、その特定語の出現位置として特定位置を取得するものである。

　文書の閲覧ユーザが過去に閲覧した文書を母集団とした場合の出現頻度が高い語を特定語として求めるための概略手順例を以下に示す。

　手順１：その文書の閲覧ユーザを特定する。例えば本装置にログインするときにユーザＩＤを取得するように設定し、取得したユーザＩＤを用いて文書の閲覧ユーザが特定できるようにしておく。

　手順２：特定されたユーザと同一ユーザＩＤで閲覧された他の文書群について、語句抽出を行う。語句抽出は、第１の実施の形態で説明した図４の語句抽出手順と同様にして行うことができる。

　手順３：上で抽出した各語句の出現頻度をカウントする。また、閲覧された文書群（母集団）すべてに対して各語句の出現頻度を求め、語句ごとに総和する。

　手順４：各語句の出現頻度の高い方から順に、所定数（例えば５個等）の語句を特定語とする。

　以上のように出現頻度が高い語を特定語として求める。

　すなわち、本実施形態も第１の実施形態と同様に、より文書の特徴を表す特徴語がその特定位置の近傍に位置するように、特定位置取得条件が設定されている。しかしながら、本実施形態ではユーザの過去に閲覧した文書で出現頻度が高く、知識や興味の度合いが高い語の出現する位置を特定位置として取得するものであり、そのユーザが閲覧あるいは目にしている確率が大きい語句の近傍に位置する特徴語の優先度を上げることによって、文書をより特徴付ける特徴語を優先的に選択することを意図している。すなわち出現頻度が高い語との距離が近いほど、文書を特徴付ける特徴語の優先度を上げている。

　（第４の実施形態）
　上述の第１から第３の実施形態とは異なる第４の実施形態について述べる。

　第４の実施形態は、図８に示した特定位置取得処理において、特定位置取得条件のみが第１の実施形態と異なる。特定位置取得条件の違いについて説明する。

　本実施形態における特定位置取得条件は、その文書において抽出された特定の種類の特徴語を特定語とし、その特定語の出現位置として特定位置を取得するものである。

　特定の種類の特徴語としては、以下のような種類の特徴語が上げられる。
・固有名詞
・時間を表す語
・専門語
・文書の特徴を表す語
・複合語
　これらの詳細については後述する。

　これらの種類の特徴語の中から、特徴語抽出処理（図３のステップＳ１２の説明参照）で採用した種類（本実施形態では固有名詞、及び複合語）以外の種類の特徴語を選択して特定語とすればよい。

　すなわち、本実施形態も第１の実施形態と同様に、より文書の特徴を表す特徴語がその特定位置の近傍に位置するように、特定位置取得条件が設定されている。しかしながら、本実施形態では、例えば時間を表す特徴語など、その文書を特徴付ける特徴語とは別の特定の種類の特徴語の出現する位置を特定位置として取得するものであり、例えば時間を表す特徴語の近傍に位置しやすい人名を含む特徴語の優先度を上げるなどによって、文書をより特徴付ける特徴語を優先的に選択することを意図している。すなわち異なる観点から選択された特定の種類の特徴語との距離が近いほど、文書を特徴付ける特徴語の優先度を上げている。

　（第５の実施形態）
　上述の第１から第４の実施形態とは異なる第５の実施形態について述べる。

　第５の実施形態は、図８に示した特定位置取得処理において特定位置取得条件のみが第１の実施形態と異なる。特定位置取得条件の違いについて説明する。

　本実施形態における特定位置取得条件は、その文書における図表の出現位置として特定位置を取得するものである。図や表についてはさらに、面積が最大の、あるいは最初に出現する等の条件を付加してもよい。

　すなわち、本実施形態も第１の実施形態と同様に、より文書の特徴を表す特徴語がその特定位置の近傍に位置するように、特定位置取得条件が設定されている。しかしながら、本実施形態では文書の内容を特徴付ける記載として、図や表に着目し、それら、もしくはその何れかの出現する位置を特定位置として取得するものであり、文書の内容を特徴付ける図や表の近傍に位置する特徴語の優先度を上げることによって、文書をより特徴付ける特徴語を優先的に選択することを意図している。すなわち文書における図や表との距離が近いほど、文書を特徴付ける特徴語の優先度を上げている。

　（第６の実施形態）
　上述の第１から第５の実施形態とは異なる第６の実施形態について述べる。

　第６の実施形態は、図８に示した特定位置取得処理において特定位置取得条件のみが第１の実施形態と異なる。特定位置取得条件の違いについて説明する。

　本実施形態における特定位置取得条件は、文書の先頭位置を特定位置として取得するものである。文書の冒頭部分には、その文書の概要が記載されている確率が高く、文書の内容をより特徴付ける特徴語が含まれる可能性が高い。

　すなわち、本実施形態も第１の実施形態と同様に、より文書の特徴を表す特徴語がその特定位置の近傍に位置するように、特定位置取得条件が設定されている。しかしながら、本実施形態ではその文書の概要が記載されている確率が高い文書の先頭位置を特定位置として取得するものであり、その近傍に位置するだろう概要の記載に含まれる特徴語の優先度を上げることによって、文書をより特徴付ける特徴語を優先的に選択することを意図している。すなわち文書の先頭位置との距離が近いほど、文書を特徴付ける特徴語の優先度を上げている。

　（第７の実施形態）
　上述の第１から第６の実施形態とは異なる第７の実施形態について述べる。

　第７の実施形態は、図８に示した特定位置取得処理において特定位置取得条件のみが第１の実施形態と異なる。特定位置取得条件の違いについて説明する。

　本実施形態における特定位置取得条件は、文書の末尾位置を特定位置として取得するものである。文書の末尾部分には、その文書の結論が記載されている確率が高く、文書の内容をより特徴付ける特徴語が含まれる可能性が高い。

　すなわち、本実施形態も第１の実施形態と同様に、より文書の特徴を表す特徴語がその特定位置の近傍に位置するように、特定位置取得条件が設定されている。しかしながら、本実施形態ではその文書の結論が記載されている確率が高い文書の末尾位置を特定位置として取得するものであり、その近傍に位置するだろう結論の記載に含まれる特徴語の優先度を上げることによって、文書をより特徴付ける特徴語を優先的に選択することを意図している。すなわち文書の末尾位置との距離が近いほど、文書を特徴付ける特徴語の優先度を上げている。

　（第８の実施形態）
　上述の第１から第７の実施形態とは異なる第８の実施形態について述べる。

　第８の実施形態は、図８に示した特定位置取得処理において特定位置取得条件のみが第１の実施形態と異なる。特定位置取得条件の違いについて説明する。

　本実施形態における特定位置取得条件は、文書を頁からなるものとして区分し、その頁の中央位置を特定位置として取得するものである。プレゼン資料としての文書などは、頁の中央部分に内容を適切に示す重要な語句がレイアウトされる確率が高く、文書の内容をより特徴付ける特徴語が含まれる可能性が高い。

　すなわち、本実施形態も第１の実施形態と同様に、より文書の特徴を表す特徴語がその特定位置の近傍に位置するように、特定位置取得条件が設定されている。しかしながら、本実施形態ではプレゼン資料などで重要な語句が記載されている確率が高い頁の中央位置を特定位置として取得するものであり、その近傍に位置するだろう重要な語句、すなわち特徴語の優先度を上げることによって、文書をより特徴付ける特徴語を優先的に選択することを意図している。すなわち文書の頁の中央位置との距離が近いほど、文書を特徴付ける特徴語の優先度を上げている。

　（第９の実施形態）
　上述の第１から第８の実施形態とは異なる第９の実施形態について述べる。

　第９の実施形態は、図８に示した特定位置取得処理において特定位置取得条件のみが第１の実施形態と異なる。特定位置取得条件の違いについて説明する。

　本実施形態における特定位置取得条件は、文書を頁からなるものとして区分し、その頁の先頭位置を特定位置として取得するものである。プレゼン資料としての文書などは、頁の先頭部分に頁のタイトルがレイアウトされる確率が高く、文書の内容をより特徴付ける特徴語が含まれる可能性が高い。

　すなわち、本実施形態も第１の実施形態と同様に、より文書の特徴を表す特徴語がその特定位置の近傍に位置するように、特定位置取得条件が設定されている。しかしながら、本実施形態ではプレゼン資料などで頁のタイトルが記載されている確率が高い頁の先頭位置を特定位置として取得するものであり、その近傍に位置するだろう頁のタイトルに含まれる特徴語の優先度を上げることによって、文書をより特徴付ける特徴語を優先的に選択することを意図している。すなわち文書の頁の先頭位置との距離が近いほど、文書を特徴付ける特徴語の優先度を上げている。

　（第１０の実施形態）
　上述の第１から第９の実施形態とは異なる第１０の実施形態について述べる。

　第１０の実施形態は、図８に示した特定位置取得処理における特定位置取得条件、及び図１０に示した距離算出方法が第１の実施形態と異なる。特定位置取得条件及び距離算出方法の違いについて説明する。

　本実施形態における特定位置取得条件は、文書における記号の出現位置を特定位置として取得するものである。プレゼン資料としての文書などは、例えば矢印などの記号の出現した後に結果の記載がレイアウトされる確率が高く、文書の内容をより特徴付ける特徴語が含まれる可能性が高い。

　テキストではなく、例えば矢印などの記号の出現位置を求めるには、画像として抽出し、パターンマッチングなどの手法で、矢印の形状にマッチする位置（特定位置）と矢印の方向を抽出すればよい。これらを特定位置リストに記載する。

　さらに矢印の位置近傍の特徴語を見つけ、その距離を算出するには、第１の実施形態で説明した処理に対して、以下のような考え方で修正を加えればよい。
・特定位置の記号（矢印）が指す方向に出現している文を抽出し、抽出された文中に含まれる（特徴語リスト記載の）特徴語を求める。
・距離については、求めた特徴語と特定位置（矢印位置）との間の文字数（Ｎｃ）をカウントし、距離とすればよい。

　すなわち、本実施形態も第１の実施形態と同様に、より文書の特徴を表す特徴語がその特定位置の近傍に位置するように、特定位置取得条件が設定されている。しかしながら、本実施形態ではプレゼン資料などで、近傍に種々の結果が記載されている確率が高い矢印などの記号の位置を特定位置として取得するものであり、その近傍に位置するだろう結果に含まれる特徴語の優先度を上げることによって、文書をより特徴付ける特徴語を優先的に選択することを意図している。すなわち文書中の特定の記号（矢印など）の位置との距離が近いほど、文書を特徴付ける特徴語の優先度を上げている。

　　（特徴語の種類について）
　既述してきた各実施形態においては、抽出する特徴語として「固有名詞」としてきたが、これに限るものではない。例えば、次のような語を特徴語とすることも想定できる。
・時間を表す語：キーワード検索のキーとしては正確に入力しにくいが、一方で、結果として同時に目にする複数の文書を区別しやすい。
・専門語：文書の内容（分野）を推測しやすい。
・文書の種類を表す語：文書の内容（種類）を推測しやすい。

　以下に、上記のような語を特徴語として抽出する方法の例を述べる。

　　＜時間を表す語＞
　特徴語抽出において、例えば次の方法で時間を表す語を抽出することができる。
岩瀬元秀、渡部広一、河岡司「文の意味理解に基づく常識的時間判断システムの構築」情報処理学会研究報告　Ｖｏｌ．２００７，Ｎｏ．２６（２００７）
金田泰「百科事典から動的に年表を生成するテキスト検索法のための年代情報の抽出法と表現法」情報処理学会研究報告　Ｖｏｌ．１９９９，Ｎｏ．５７（１９９９）。

　　＜専門語＞
　特徴語抽出において、例えば次のような手段を用いて、専門語（専門用語）を抽出することができる。
横浜国立大学　専門用語自動抽出システム（ｈｔｔｐ：／／ｗｗｗ．ｆｏｒｅｓｔ．ｅｉｓ．ｙｎｕ．ａｃ．ｊｐ／Ｆｏｒｅｓｔ／ｊａ／ｔｅｒｍ－ｅｘｔｒａｃｔｉｏｎ．ｈｔｍｌ）
立石健二、久寿居大「企業内情報共有のための専門用語抽出方式の提案」日本データベース学会ｌｅｔｔｅｒｓ　Ｖｏｌ．４，Ｎｏ．４（２００６）
立石健二、久寿居大「複数の作成者情報付き文書からの専門用語抽出（＜特集＞情報融合）」情報処理学会論文誌．データベース　Ｖｏｌ．４７，Ｎｏ．ＳＩＧ＿８（２００６）。

　　＜文書の種類を表す語＞
　特徴語抽出において、例えば文書の種類を表す語を抽出する。文書を分類する手段として、次のような方法が提案されている。これらの分類方法によって分類し、分類先の分類名を特徴語とすることができる。

　分類方法には、例えば図１４（ａ）にフローを示すような方法がある。手順の例を以下に述べる。
ステップＳ６０１で、各単語にモデルを適用し、単語（あるいは複数の単語の組）が各カテゴリに属する確率を求める。
ステップＳ６０２で、各単語が各カテゴリに属する確率をもとに、文書（単語の集合）が各カテゴリに属する確率を求める。
ステップＳ６０３で、最も属する確率の高いカテゴリを、その文書が属するカテゴリと推定する。

　上記のモデルは学習用コーパスを手作業で分類することにより、分類のモデルを生成することができる。図１４（ｂ）にそのフローの例を示す。

　以下のような分類方法を参考にして、モデル生成を行ってもよい。
高村大也、松本裕治「ＳＶＭを用いた文書分類と構成機能学習法」情報処理学会論文誌トランザクション：データベース　Ｖｏｌ．４４，Ｎｏ．ＳＩＧ０３（２００３）
高村大也、松本裕治「独立成分分析を用いた文書分類：ＳＶＭのための素性空間再構成」情報処理学会研究報告．自然言語処理研究会報告　Ｖｏｌ．２００１，Ｎｏ．５４（２００１）。

　なお、特徴語として「固有名詞」を用いる場合と同様に、これらの語の複合語（複数の単語を組み合わせた語）を用いて特徴語とすることで、文書の内容を表しやすく、また複数の文書を区別しやすくするようにしてもよい。

　また、特徴語の抽出以外の手順は、既述した実施形態に準ずればよい。

　上述してきたように、本実施形態に係る文書の特徴語提示装置及び特徴語の優先度付与プログラムによれば、文書の内容を適切に表現できる特徴語群を抽出し、それらの特徴語の文書における出現位置に対して、所定の条件で選択された特定位置との距離に基づき、それらの特徴語に適切な優先度を付与することができる。

　なお、上述の実施形態は、すべての点で例示であって制限的なものではない。本発明の範囲は上記した説明ではなく特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

　１　文書の特徴語提示装置
　２　特徴語処理部
　３　制御部
　４　記憶手段
　５　表示部
　６　操作部
　７　通信部
　８　外部媒体
　１０　特徴語抽出手段
　２０　特定位置取得手段
　３０　距離算出手段
　４０　特徴語優先度付与手段

Claims

　内容を提示する対象となる文書から該文書の内容を特徴づける特徴語を抽出する特徴語抽出手段と、
　前記文書から、所定の特定位置取得条件に適合する前記文書内での特定位置を取得する特定位置取得手段と、
　前記特徴語抽出手段により抽出された前記特徴語の前記文書内の出現位置と、前記特定位置取得手段により取得された前記特定位置との距離を算出する距離算出手段と、
　前記特徴語抽出手段により抽出された前記特徴語に対して、前記距離算出手段により算出された前記距離に基づいて、提示の優先度を付与する特徴語優先度付与手段と、
　前記優先度を付与された前記特徴語、前記特定位置取得手段により取得された前記特定位置、前記距離算出手段により算出された前記距離、及びそれらを抽出するための情報を記憶する記憶手段と、
　前記特徴語優先度付与手段により付与された前記優先度に従って、前記特徴語を選択的に提示する特徴語提示手段と、を備える
　ことを特徴とする文書の特徴語提示装置。
　前記特定位置取得手段は、前記文書において前記特定位置取得条件に従う特定語を取得し、該特定語が前記文書中に出現する位置を前記特定位置として取得する
　ことを特徴とする請求項１に記載の文書の特徴語提示装置。
　前記特定位置取得条件は、前記文書の名称に含まれる語を前記特定語とするものである
　ことを特徴とする請求項２に記載の文書の特徴語提示装置。
　前記特定位置取得条件は、前記文書を検索したときの検索キーワードを前記特定語とするものである
　ことを特徴とする請求項２に記載の文書の特徴語提示装置。
　前記特定位置取得条件は、前記文書の閲覧ユーザが過去に閲覧した文書を母集団とした場合の出現頻度が高い語を前記特定語とするものである
　ことを特徴とする請求項２に記載の文書の特徴語提示装置。
　前記特定位置取得条件は、前記文書から抽出した所定の種類の特徴語を前記特定語とするものである
　ことを特徴とする請求項２に記載の文書の特徴語提示装置。
　前記特定位置取得条件は、前記文書中の図もしくは表の出現位置を前記特定位置とするものである
　ことを特徴とする請求項１に記載の文書の特徴語提示装置。
　前記特定位置取得条件は、前記文書の先頭位置を前記特定位置とするものである
　ことを特徴とする請求項１に記載の文書の特徴語提示装置。
　前記特定位置取得条件は、前記文書の末尾位置を前記特定位置とするものである
　ことを特徴とする請求項１に記載の文書の特徴語提示装置。
　前記特定位置取得条件は、前記文書における頁の中央位置を前記特定位置とするものである
　ことを特徴とする請求項１に記載の文書の特徴語提示装置。
　前記特定位置取得条件は、前記文書における頁の先頭位置を前記特定位置とするものである
　ことを特徴とする請求項１に記載の文書の特徴語提示装置。
　前記特定位置取得条件は、前記文書中の特定の記号の出現位置を前記特定位置とするものである
　ことを特徴とする請求項１に記載の文書の特徴語提示装置。
　前記距離算出手段は、前記文書における区分を設定し、前記特定位置及び前記特徴語の出現位置がそれぞれ属する区分間の距離を、前記距離として算出する
　ことを特徴とする請求項１に記載の文書の特徴語提示装置。
　前記距離算出手段は、前記文書を構造化文書として設定し、前記構造化文書における前記特定位置及び前記特徴語の出現位置の木構造上の距離を、前記距離として算出する
　ことを特徴とする請求項１に記載の文書の特徴語提示装置。
　コンピュータを、
　内容を提示する対象となる文書から該文書の内容を特徴づける特徴語を抽出する特徴語抽出手段、
　前記文書から、所定の特定位置取得条件に適合する前記文書内での特定位置を取得する特定位置取得手段、
　前記特徴語抽出手段により抽出された前記特徴語の前記文書内の出現位置と、前記特定位置取得手段により取得された前記特定位置との距離を算出する距離算出手段、
　前記特徴語抽出手段により抽出された前記特徴語に対して、前記距離算出手段により算出された前記距離に基づいて、提示の優先度を付与する特徴語優先度付与手段、
　として機能させることを特徴とする文書の特徴語の優先度付与プログラム。
　前記特定位置取得手段は、前記文書において前記特定位置取得条件に従う特定語を取得し、該特定語が前記文書中に出現する位置を前記特定位置として取得する
　ことを特徴とする請求項１５に記載の文書の特徴語の優先度付与プログラム。
　前記特定位置取得条件は、前記文書の名称に含まれる語を前記特定語とするものである
　ことを特徴とする請求項１６に記載の文書の特徴語の優先度付与プログラム。
　前記特定位置取得条件は、前記文書を検索したときの検索キーワードを前記特定語とするものである
　ことを特徴とする請求項１６に記載の文書の特徴語の優先度付与プログラム。
　前記特定位置取得条件は、前記文書の閲覧ユーザが過去に閲覧した文書を母集団とした場合の出現頻度が高い語を前記特定語とするものである
　ことを特徴とする請求項１６に記載の文書の特徴語の優先度付与プログラム。
　前記特定位置取得条件は、前記文書から抽出した所定の種類の特徴語を前記特定語とするものである
　ことを特徴とする請求項１６に記載の文書の特徴語の優先度付与プログラム。
　前記特定位置取得条件は、前記文書中の図もしくは表の出現位置を前記特定位置とするものである
　ことを特徴とする請求項１５に記載の文書の特徴語の優先度付与プログラム。
　前記特定位置取得条件は、前記文書の先頭位置を前記特定位置とするものである
　ことを特徴とする請求項１５に記載の文書の特徴語の優先度付与プログラム。
　前記特定位置取得条件は、前記文書の末尾位置を前記特定位置とするものである
　ことを特徴とする請求項１５に記載の文書の特徴語の優先度付与プログラム。
　前記特定位置取得条件は、前記文書における頁の中央位置を前記特定位置とするものである
　ことを特徴とする請求項１５に記載の文書の特徴語の優先度付与プログラム。
　前記特定位置取得条件は、前記文書における頁の先頭位置を前記特定位置とするものである
　ことを特徴とする請求項１５に記載の文書の特徴語の優先度付与プログラム。
　前記特定位置取得条件は、前記文書中の特定の記号の出現位置を前記特定位置とするものである
　ことを特徴とする請求項１５に記載の文書の特徴語の優先度付与プログラム。
　前記距離算出手段は、前記文書における区分を設定し、前記特定位置及び前記特徴語の出現位置がそれぞれ属する区分間の距離を、前記距離として算出する
　ことを特徴とする請求項１５に記載の文書の特徴語の優先度付与プログラム。
　前記距離算出手段は、前記文書を構造化文書として設定し、前記構造化文書における前記特定位置及び前記特徴語の出現位置の木構造上の距離を、前記距離として算出する
　ことを特徴とする請求項１５に記載の文書の特徴語の優先度付与プログラム。