JPWO2010055663A1

JPWO2010055663A1 - 文書解析装置および方法

Info

Publication number: JPWO2010055663A1
Application number: JP2010537697A
Authority: JP
Inventors: 春男林
Original assignee: トレンドリーダーコンサルティング株式会社
Priority date: 2008-11-12
Filing date: 2009-11-12
Publication date: 2012-04-12
Also published as: WO2010055663A1

Abstract

文書解析装置では、コンピュータが、抽出した特異語の累積特異値を計算することによって、その特異語のふるまいグラフや特異語の特異値チャートのように、特異語の変化の状態を可視化して表示できる。つまり、順序基準に従った順序が後のものが先のものに比べて多い数の単位ドキュメントを含むテキストコーパスを作成し、順序基準が前のコーパスにおいて推定しておいた該当の形態素の増加型ＴＦＩＤＦの累計値の推定値と、対象のコーパスにおいて計算した増加型ＴＦＩＤＦの累計値の実測値との間で残差分析を行ない、その残差分析の結果、正の特異値が得られた形態素を当該コーパスにおける特異語として選定し、その特異語の変化の状態、たとえば移動平均線などを可視的に出力する。

Description

この発明は文書解析装置および方法に関し、特にたとえばニュース，ウェブニュース，ブログ，新聞，雑誌，インタビュー記録，供述調書，アンケート，小説などのように、時系列的に増量する言語資料から時系列順序に応じた特異語（キーワード）を抽出または検出できる、新規な文書解析装置および方法に関する。

本件出願人は、上記のような文書解析装置を特許文献１で提案した。
WO 2008/062910 A1 [G06F 17/30]

特許文献１で提案した文書解析装置によれば、たとえばニュースなどのように、時系列的に順序を有し、あるいは時系列的に情報量が増加する性質を持つテキストデータ群から効果的に特異語を検出ないし抽出することができるが、さらに優れた機能を有する文書解析装置および方法が望まれる。

それゆえに、この発明の主たる目的は、新規な、文書解析装置および方法を提供することである。

この発明の他の目的は、時間のような順序基準に従って増量する言語資料から抽出した特異語のふるまいを提示することができる、文書解析装置および方法を提供することである。

この発明のさらに他の目的は、特異語の変化の様子を提示できる、文書解析装置および方法を提供することである。

この発明は、上記の課題を解決するために、以下の構成を採用した。なお、括弧内の参照符号および補足説明等は、この発明の理解を助けるために後述する実施形態との対応関係を示したものであって、この発明を何ら限定するものではない。

第１の発明は、順序基準に従って増量する言語資料を解析する文書解析装置であって、順序基準に従った順序を有し、かつその順序が後のものが先のものに比べて多い数の単位ドキュメントのテキストデータを含むテキストコーパスを作成するテキストコーパス作成手段、コーパステキストに含まれるテキストデータを構成する形態素に品詞情報を付加する形態素解析手段、品詞情報に基づいてテキストデータから不要な形態素を取り除く不要形態素除去手段、不要形態素除去手段によって除去されなかった形態素について、形態素毎に、増加型ＴＦＩＤＦを計算して増加型ＴＦＩＤＦの実測値を得る計算手段、計算手段で計算した実測値と前のコーパスにおいて推定した増加型ＴＦＩＤＦの累計値の推定値との間で残差分析をして形態素毎の特異値を求める残差分析手段、残差分析手段による残差分析の結果、正の特異値が得られた形態素を当該コーパスにおける特異語として選定する特異語選定手段、および特異語選定手段によって選定された特異語の変化の状態を可視的に出力する変化状態出力手段を備える、文書解析装置である。

第１の発明では、文書解析装置は、典型的には、コンピュータで構成される。実施例のように順序基準が時間である言語資料の場合、コーパステキスト作成手段（Ｓ３：実施例で対応する部分を例示的に示す参照符号。以下同様。）は、たとえば予め設定した時間が経過すると、時系列順序が先のコーパスに比べて、含まれる単位ドキュメントの数が多い現在時間のコーパスを作成する。時間経過とともに逐次増量するたとえばウェブニュースのような場合には、設定時間（設定時間は任意である。）の経過に伴ってそのウェブニュースのテキストデータを用いてコーパステキストを作成するが、言語資料には逐次増量する文書だけでなく、単に時系列順序だけを有する文書もある。後者の場合には、コーパス作成手段は時間経過に応じてコーパステキストを順次作成するのではなく、時系列順序に先後のある複数のコーパステキストを一度に準備または作成するようにしてもよい。

形態素解析手段（Ｓ５）は、たとえば日本語のように形態素が分割されていない言語体系のテキストデータである場合、たとえば茶筌（http://chasen.naist.jp/hiki/ChaSen/）のような形態素解析ツールを用いて、そのコーパスに含まれる単位ドキュメントのテキストデータを形態素に分解して、各形態素に品詞情報を付加する。しかしながら、テキスト内の形態素が既に分割している、たとえば英語のような言語体系の場合には、形態素を分割する作業（分かち書き、tokenization）は必要ではなく、この形態素解析手段では、ステミング処理（stemming）によって、活用形を原形に直したのちに、たとえばタギング処理（tagging）によって、テキストを構成する各形態素に品位情報を付加する。

不要形態素除去手段（Ｓ７）は、各形態素に付加された上述の品詞情報に基づいて、不要形態素として設定しておいた品詞の種類の形態素を取り除く。つまり、形態素解析の際に、各形態素に付与される品詞情報に基づいて、当該形態素を特異語および／または共通語の候補として採用するか否かを選定する。ただし、不要とする形態素の品詞の種類は、任意に設定できる。英文の場合には、ストップワード（stopword）と呼ばれる冠詞や前置詞からなる、極めて頻繁に使われるキーワードとして不適切な単語のリストを参照することによって、不要な形態素を取り除く。一般公開されているストップワードのリストとしては、ＳＭＡＲＴシステム（http://jmlr.csail.mit.edu/papers/volume5/lewis04a/a11-smart-stop-list/english.stop）が挙げられる。

計算手段（Ｓ９）は、そのコーパスに残った形態素の各々について、ＴＦ（Term Frequency）つまり単位ドキュメント中にそのキーワード候補が出現する頻度(延べ数)を計算し、さらに時間のパラメータを考慮したＩＤＦ（InversedDocument Frequency）つまり他には出現していないという独自性値を計算することによって、当該コーパスにおける当該形態素の増加型ＴＦＩＤＦ（TermFrequency Inversed Document Frequency）を「ＴＦ」×「ＩＤＦ」として計算する。

残差分析手段（Ｓ１５）は、たとえば、順序基準たとえば時間的順序が前のコーパスにおいて推定しておいた該当の形態素の増加型ＴＦＩＤＦの累計値の推定値と、上記計算手段が計算した増加型ＴＦＩＤＦの累計値の実測値との間で残差分析を行ない、その形態素の残差値（特異値）（正，負）を求める。

特異語選定手段（１４,Ｓ１７，２６，４４，Ｓ３９，Ｓ５９）は、残差分析手段による残差分析の結果、正の特異値が得られた形態素を当該コーパスにおける特異語として選定する。変化状態出力手段（１４，Ｓ４３，Ｓ４５，Ｓ６５，Ｓ６７，Ｓ６９，Ｓ７３）は、選定された対象特異語の変化の状態を可視的に出力する。

第１の発明によれば、言語資料体が時系列的に（順序基準に従って）増量するものであっても、コーパス作成手段が、順序基準に従った順序たとえば時系列順序が後のものが先のものに比べて多い数の単位ドキュメントを含むテキストコーパスを作成し、それらコーパスに基づいて増加型ＴＦＩＤＦの累計値を目的変数とし、ＴＦの累計値を説明変数とする回帰曲線を作成していているため、現在のコーパスの増加型ＴＦＩＤＦの累計値を、その前のコーパスで作成された回帰曲線上に当該指標が分布するものと仮定して、現在のコーパスのＴＦの累計値を入力値とする現在のコーパスの増加型ＴＦＩＤＦの累計値の推定値を得るという処理の流れによって、その言語資料体を確実に解析し、１つ以上の特異語を選定することができる。そして、１つ以上特異語についての変化状態を目視によって確認できるので、その変化状態に基づいて、その特異語ひいてはそのコーパスを形成する災害等の将来的な動向が予測できる。

第２の発明は、第１の発明に従属し、順序基準において任意のコーパスから求められる形態素毎の増加型ＴＦＩＤＦの累計値とＴＦの累計値とで回帰曲線を作成する回帰曲線作成手段をさらに備え、残差分析手段は、回帰曲線作成手段が前の時点のコーパスで作成した回帰曲線と、現在のコーパスにおいて計算手段が計算した各形態素の増加型ＴＦＩＤＦの実測値との間で残差分析を行なう文書解析装置である。

第２の発明では、回帰曲線作成手段は、説明変数であるＴＦの累計値（ΣＴＦ）をＸとし、従属変数である増加型ＴＦＩＤＦの累計値（Σ増加型ＴＦＩＤＦ）をＹとして、定数を計算して回帰曲線を作成する。ただし、このような回帰曲線の計算は、順序基準たとえば時系列順序が前のコーパスで予め計算しておくものである。第２の発明によれば、順序基準たとえば時系列順序が前のコーパスにおいて順序基準たとえば時系列順序が後のコーパスにおける増加型ＴＦＩＤＦの累計値の推定または予測のための回帰曲線を準備しておくので、当該後のコーパスにおける残差分析が迅速に行なえる。

第３の発明は、第１または第２の発明に従属し、残差分析手段によって特異語として選定された１つ以上の特異語の累積特異値を計算する累積特異値計算手段、および１つ以上の特異語の累積特異値を、特異語毎に可視的に出力する累積特異値出力手段をさらに備える、文書解析装置である。

第３の発明では、累積特異値計算手段（１４，Ｓ３５，Ｓ５５）が、残差分析によって特異語と判定された各特異語について、累積特異値（ΣＤ）を計算する。各形態素は、上述のように、特異値（残差値）という指標で任意の時間断面における特異性を評価する。この特異値を累積することにより、累積した時点までの各特異語の重要性を評価できるので、累積特異値を計算し、それをユーザに見せることによって、ユーザによる、将来展開の予測すべき対象であると考えられる特異語の選定を容易にする。

ただし、特異値が正を示した形態素は各時間断面を特徴づける特異語であるが、負の値を示した形態素はコーパスに遍在する共通語である。したがって、単純に特異値を足し合わせれば、任意の形態素が特異語から共通語になった場合などにおいて、負の値が足し合わされていく。このような形態素は、ある一定の期間に重要な事象に関連する特異語であったにもかかわらず、累積特異値としては小さくなってしまい、重要な特異語として求めることができない可能性がある。そこで、好ましくは、正の特異値だけを累算するようにしている。

第４の発明は、第１ないし第３の発明に従属し、累積特異値出力手段は、累積特異値の大きさに従った順序で各特異語を配列する、文書解析装置である。

第４の発明では、累積特異値の大きい順番に各特異値がたとえばランキング形式で出力されるので、ユーザによる特異値の選択が一層容易になる。

第５の発明は、第１ないし第４のいずれかの発明に従属し、変化状態出力手段は、残差分析手段によって特異語として選定された１つ以上の特異語の特異値の移動平均を計算する移動平均計算手段、および移動平均に従って移動平均線を可視的に出力する移動平均線出力手段を含む、文書解析装置である。

第５の発明では、移動平均計算手段（１４，Ｓ４３，Ｓ６７）によって計算した結果得られた移動平均線を出力する（Ｓ４５，Ｓ７３）。ユーザは移動平均線を視認することによって、対象特異語すなわちコーパスの元となった事象の将来の変動を容易に、直感的に予測することができる。

第６の発明は、第１ないし第５の発明のいずれかに従属し、変化状態出力手段は、残差分析手段によって特異語として選定された１つ以上の特異語のローソク足を可視的に出力するローソク足出力手段を含む、文書解析装置である。

第６の発明では、ローソク足を求めるために、たとえば、対象特異語の時系列データセットを抽出する。このデータセットは、たとえば、一方軸に各特異語が配列され、他方軸が特異語毎に各時点の特異値を示すマトリクス（スプレッドシート，配列，データベーステーブル）形式で表現でき、特異語解析をした時点でこれらのデータは分析データベースかあるいはコンピュータの内部メモリに格納されている。したがって、コンピュータはそのような格納データから必要なデータセットを抽出する。

ローソク足は、１日（日足）や１週間（週足）や１ヶ月（月足）における特異値データの中から、始まりの特異値（始値）、終わりの特異値（終値）、最高の特異値（高値）、最低の特異値（安値）を取り出し、前２つの特異値を四角形（胴体）で、後２つの特異値を線（ヒゲ）で表す図である。四角形の上端と下端が、始値か終値のいずれかを表し、終値と始値を比較し、終値が高ければ白い四角形、低ければ黒い四角形で表される。胴体の上下端から高値と安値の値を結んだものがヒゲとなる。

ローソク足は主として株取引の分野において売買のタイミングを計る指標として利用されていて、それぞれ固有の解釈が可能である。たとえば、大陽線（長い陽線）の場合、買い圧力が強く、強い上昇エネルギがあるので、買いのサインであると判断できる。窓あけ急騰（連続してローソク足が並ばず、間をあけて動くもの）の場合にも強い上昇エネルギがある。高値圏で大陽線が出現した場合には、下降トレンドに転じることが多ので、この場合には、売りのサインが出ていると考えられる。買いのサインはある銘柄の株価が上昇する予兆であり、売りのサインは株価が下落する予兆であるため、この発明の文書解析の考え方に問題を置き換えれば、前者は重要な事象になる恐れ、後者は以降、その逆の傾向になることを意味する。

ローソク足を可視的に提示することによって、株取引の考え方を応用して、特異語ひいては事象の将来展開が予測できる。

第７の発明は、第６の発明に従属し、前記ローソク足は、各日、週足および月足の少なくとも１つを含み、ローソク足は、各足について、特異値の始まりの値、終わりの値、最大値および最低値を含む、文書解析装置である。

第８の発明は、第６または第７の発明に従属し、変化状態出力手段は、特異語の出現頻度をローソク足とともに出力する出現頻度出力手段を含む、文書解析装置である。

出現頻度は株取引の場面で相場のエネルギを表す出来高に通じるもので、相場のエネルギが株価を左右するのと同様に、特異語の出現頻度が特異的に高まることによって特異値が増加する。株の世界では安値圏で高い出来高が出た場合は上昇トレンドになる傾向があると言われているので、出現頻度を見て、重要な事象になるかどうか判断（予測）することができる。

第９の発明は、順序基準に従って増量する言語資料を解析する文書解析方法であって、順序基準に従った順序を有し、かつその順序が後のものが先のものに比べて多い数の単位ドキュメントのテキストデータを含むテキストコーパスを作成するコーパステキスト作成ステップ、コーパステキストに含まれるテキストデータを構成する形態素に品詞情報を付加する形態素解析ステップ、品詞情報に基づいてテキストデータから不要な形態素を取り除く不要形態素除去ステップ、不要形態素除去ステップによって除去されなかった形態素について、形態素毎に、増加型ＴＦＩＤＦを計算して増加型ＴＦＩＤＦの実測値を得る計算ステップ、計算ステップで計算した実測値の累計値と前のコーパスにおいて推定した増加型ＴＦＩＤＦの累計値の推定値との間で残差分析をして形態素毎の特異値を求める残差分析ステップ、残差分析ステップによる残差分析の結果、正の特異値が得られた形態素を当該コーパスにおける特異語として選定する特異語選定ステップ、および特異語選定ステップによって選定された特異語の変化の状態を可視的に出力する変化状態出力ステップを含む、文書解析方法である。

第９の発明でも第１の発明と同様の効果が期待できる。

第１０の発明は、順序基準に従って増量する言語資料を解析する文書解析装置のコンピュータによって実行される文書解析プログラムであって、プログラムはコンピュータを、順序基準に従った順序を有し、かつその順序が後のものが先のものに比べて多い数の単位ドキュメントのテキストデータを含むテキストコーパスを作成するコーパステキスト作成手段、コーパステキストに含まれるテキストデータを構成する形態素に品詞情報を付加する形態素解析手段、品詞情報に基づいてテキストデータから不要な形態素を取り除く不要形態素除去手段、不要形態素除去手段によって除去されなかった形態素について、形態素毎に、増加型ＴＦＩＤＦを計算して増加型ＴＦＩＤＦの実測値を得る計算手段、計算手段で計算した実測値の累計値と前のコーパスにおいて推定した増加型ＴＦＩＤＦの累計値の推定値との間で残差分析をして形態素毎の特異値を求める残差分析手段、残差分析手段による残差分析の結果、正の特異値が得られた形態素を当該コーパスにおける特異語として選定する特異語選定手段、および特異語選定手段によって選定された特異語の変化の状態を可視的に出力する変化状態出力手段として機能させる、文書解析プログラムである。

第１０の発明でも第１の発明と同様の効果が期待できる。

この発明によれば、言語資料の増量に応じて、順序基準に従った順序たとえば時系列順序が先後のコーパスにおいて単位ドキュメントの数を増加させたコーパスを作成するようにしているので、言語資料がたとえば時系列的に増量するものであっても、確実に分析または解析して、たとえば特異語や共通語を抽出することができる。しかも、特定の特異語の変化の状態を目視可能に出力するので、当該特異語ひいてはそのコーパスを形成する事象の将来の変化を予測することかできる。

この発明の上述の目的，その他の目的，特徴，および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。

図１はこの発明の一実施例であるキーワード検出システムを示すブロック図である。図２はこの実施例で用いられるテキストデータテーブルの一例を示す図解図である。図３は図１実施例のコンピュータの動作を示すフロー図である。図４はこの実施例で作成する時間とともに増加するコーパスの一例を示す図解図である。図５は各記事および形態素の出現頻度の解析結果の一例を示す表である。図６は各記事および形態素に対する単位ドキュメント数Ｎを示す表である。図６（Ａ）は言語資料体が一定量である一般的な場合（時間の経過とともに増加しない場合）を示し、図６（Ｂ）は時系列的に増量する言語資料体を解析する実施例の場合を示す。図６（Ａ）は、他の図（図５〜８）との表記を統一させるために、表示例の形態素（t1，t2，t3,…）毎に単位ドキュメント数Ｎを示してある。図７は各記事および形態素に対するＤＦを示す表である。図７（Ａ）は言語資料体が一定量である一般的な場合（時間の経過とともに増加しない場合）を示し、図７（Ｂ）は時系列的に増量する言語資料体を解析する実施例の場合を示す。図８は各記事および形態素に対するＴＦＩＤＦ（Ａ）および時間増加型ＴＦＩＤＦ（Ｂ）を示す表である。図８（Ａ）は言語資料体が一定量である一般的な場合（時間の経過とともに増加しない場合）を示し、図８（Ｂ）は時系列的に増量する言語資料体を解析する実施例の場合を示す。図９は回帰曲線の一例を示す図解図である。図１０は回帰曲線とそれに対する残差（正負）を示すグラフであり、横軸にＴＦの総和を、縦軸に時間増加型ＴＦＩＤＦの総和をとる。図１１は図１実施例のコンピュータで表示される１つの表示例を示す図解図である。図１２は図１実施例のコンピュータで表示される別の表示例を示す図解図である。図１３はコーパス毎の図９と同様の回帰曲線を示すグラフであり、図１３(Ａ)が発災から１０時間後のコーパスにおける回帰曲線を示し、図１３(Ｂ)が発災から１００時間後のコーパスにおける回帰曲線を示し、図１３(Ｃ)が発災から１０００時間後のコーパスにおける回帰曲線を示し、図１３(Ｄ)が発災から４５００時間後のコーパスにおける回帰曲線を示す。図１４はコーパスと回帰曲線との関係を示す図解図である。図１５はこの発明の一実施例の動作を示すフロー図である。図１６は図１５実施例におけるＧＵＩの一例を示す図解図である。図１７は図１５実施例において１つのコーパスを選択した場合の各特異語の累積特異値を表示するグラフの一例を示す図解図である。図１８は図１５実施例においてコーパスとして中越沖地震を選択した場合の特異語「観光」のふるまいをグラフ表示した例を示す図解図である。図１９は図１５実施例においてコーパスとして中越沖地震を選択した場合の特異語「入居」のふるまいをグラフ表示した例を示す図解図である。図２０はこの発明の他の実施例の動作を示すフロー図である。図２１は図２０実施例におけるＧＵＩの一例を示す図解図である。図２２は中越沖地震における累積特異値の分布特性を示すヒストグラムの一例をグラフ表示した図解図である。図２３は中越沖地震のウェブニュースのコーパスにおけるカットオフ値、すなわち上位１％や５％、上位１０位、２０位、３０位、４０位、５０位、１００位となる累積特異値の時間変化をグラフ表示した図解図である。図２４は中越沖地震における特異語「観光」の日足および出現頻度のグラフ表示を示す図解図である。図２５は中越沖地震における特異語「観光」の週足および出現頻度のグラフ表示を示す図解図である。

以下の説明では、本件発明が利用できる、かつ本件発明の実施例となり得る文書解析装置を、本件発明の理解に必要な範囲で、まず説明し、その後、本件発明の実施例を説明する。

図１に示すこの発明の背景となるかつこの発明の一実施例ともなる文書解析装置１０は、たとえばインターネットのような通信網（ネットワーク）１２に有線または無線で結合されるコンピュータ１４を含む。コンピュータ１４には、基本的に、キーボードやマウスのような操作手段１５Ａおよび液晶表示器のようなモニタ１５Ｂが設けられていて、この
コンピュータ１４には、さらに、テキストデータベース１６および分析データベース１８が付設される。コンピュータ１４は当然、内部メモリを有し、その内部メモリ（図示せず）はワーキングメモリなどとして利用され、計算して得られた結果データや、解析結果データ、さらにはその解析途中の各種データなどを一時的に記憶する。

テキストデータベース１６には、たとえば、このコンピュータ１４がネットワーク１２を通して取得した時間順次のウェブニュースのテキストデータが逐次記憶され、コンピュータ１４はこのウェブニュースのテキストデータを順次分析または解析することによって、時系列的に変遷する特異語および共通語（キーワード）を抽出する。

テキストデータベース１６に蓄積されるテキストデータテーブル２０の一例が図２に示される。テキストデータテーブル２０は、具体的には、テキストデータで構成される言語資料から、任意の一定の大きさをもつ「単位ドキュメント」のテキストデータを１つのレコードに持つテーブルである。

単位ドキュメントの例としては、ウェブニュースの場合であれば、所定期間内の記事、１日の記事、１つの記事、１つの段落、１つの文などがある。新聞を例にとれば、１紙、１つの記事、１つの段落、１つの文などがある。文学作品（小説）などの場合には、１つの作品、１つの章、１つの段落、１つの文などがある。その他、ウェブ上のブログを解析対象とした場合には，１つの日記を単位ドキュメントとしたり、コールセンターへの１つの問い合わせや苦情などを単位ドキュメントにしたりするなど、言語資料に対して任意の単位を「単位ドキュメント」として定めて、データベース２０を作成する。

図２に示すように、1つのレコードに対しては、数度やアルファベットなどで形成される識別子（ＩＤ番号）２２およびテキストデータ２４のほか、時間情報（時刻スタンプ）２６をメタデータとして付与する。時間情報２６には、ウェブニュース記事であれば発信日時、コールセンターへの問い合わせであれば問い合わせ時間などが該当する。この実施例の文書解析装置１０は、ニュースやブログなど時間とともに文字数が増加していく言語情報を対象としている。しかしながら、文学作品等のように常には更新されないような言語資料であっても、言語資料は線状性を有しているため、言語資料を読む人は、時間の経過ともに言語情報を理解することになる。したがって、小説や文学作品のように一見静的で時間情報を持たない言語資料については、図２に示す時間情報２６のフィールドに、時間情報の代わりに順序情報（１章，２章，…、１段落目，２段落目，…、１文目，２文目，…など）をメタデータとして付与すればよい。その他、必要に応じて任意のフィールド、たとえばタイトル２６を設けて、データベーステーブル２０を作成する。

もし、このテキストデータテーブル２０をコンピュータ１４が作成するときには、たとえばコンピュータ１４の中にインストールされている、ＤＢＭＳ（Data BaseManagement System：データベース管理システム）のようなアプリケーションを用いて、たとえばネットワーク１２を通して取得したウェブニュースなどからテキストデータテーブルを作成することができる。

なお、図２に示す１つの識別記号（ＩＤ）２２で区別されるかつ時系列情報２６が付された１つの単位ドキュメントのテキストデータ２４（図２）を含むものを、１レコードと呼ぶ。そして、言語資料体（コーパス）とは、このようなレコードの集合を意味する。

後述の実施例では、キーワード（特異語、共通語）を検出すべき時系列的に増量する言語資料体として、ウェブニュースを試用しているが、この種の言語資料としては、他に、新聞，雑誌，インタビュー記録，供述調書，アンケート，小説など任意の時間要素を含むデータが想定できる。

分析データベース１８には、後述の形態素分析のための品詞辞書など、この実施例においてキーワード検出に必要な全ての辞書や文法ルールなどを予め記憶しているとともに、分析結果も蓄積する。ただし、この分析データベース１８は、上述のテキストデータベース１６も同様であるが、コンピュータ１４の内部メモリで構成されていてもよい。

コンピュータ１４は、図３に示すキーワード抽出プログラムに従ってキーワードを抽出ないし検出する。

図３を参照して、最初のステップＳ１で、コンピュータ１４は、設定時間が経過したかどうか判断する。「設定時間」とは、実施例のように時系列的に増量する言語資料から、時系列順序を有する各コーパスを画定するための、区切りの時間（Δｔ）である。この「設定時間」はユーザが自由に設定できる。たとえば、状況変化が短時間で生じるような言語資料を分析する際には、短い設定時間（Δｔ）を設定すればよく、逆の言語資料の場合には、設定時間Δｔを長くすればよい。Δｔの例としては、１時間、１０時間、１００時間、１日、１週間、１ヶ月など挙げられる。また、このΔｔを時間の経過とともに変更することも考えられる。一例として、災害発生から２４時間経過するまではたとえばΔｔを「１時間」に設定し、それ以降災害から３日目まではたとえばΔｔを「１０時間」に設定し、さらに１ヶ月以上経過したときにはたとえばΔｔを「１日」として設定する。

そして、ユーザによって任意の設定時間が設定されると、その設定時間はコンピュータ１４の適宜のメモリ領域（レジスタ）に記憶されるので、コンピュータ１４は、内部の時計データをレジスタに設定された設定時間と比較することによって、ステップＳ１で設定時間が経過したかどうか、判断することができる。

ステップＳ１で“ＹＥＳ”が判断されると、続いてコンピュータ１４はステップＳ３においてコーパス作成処理を実行し、設定時間（Δｔ）の間に増量した単位ドキュメントのテキストデータを、たとえば図２に示すテキストデータテーブル２０から読み込み、今回のテキストコーパスＣ(t)を作成する。

図４に示すコーパスＣ(t)は現在時間のコーパスを示すが、このコーパスＣ(t)は、それより時系列順序が先のコーパスＣ(t-Δt)より、設定時間Δｔ後に形成したコーパスである。つまり、コーパスＣ(t)は、直前のコーパスＣ(t-Δt)と増量分のコーパスＣ(Δt)とを合計したものである。

なお、「コーパス（corpus）」とは、言語分析のための文字言語、あるいは音声言語資料の集合体として定義されるもので、特に電子テキストで構築されたものを指し、一般には、電子的なオリジナルのテキスト群を収集したものを指すが、この実施例では、上記の定義を広義にとらえ、オリジナルテキストに対して時間増加型ＴＦＩＤＦやＴＦ（いずれも後述）の情報をもつ形態素群を便宜的にコーパスと呼ぶことにする。したがって、ここでいうテキストコーパスは、少なくとも１つのレコードつまり少なくとも１つの単位ドキュメントのテキストデータを含む言語資料体を意味するものと理解されたい。

続いて、ステップＳ５において、そのコーパスに含まれるテキストデータ２４（図２）を形態素に分割し、品詞情報を付加する。ここで、形態素解析とは、自然言語で書かれた文を形態素(Morpheme、おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、品詞を見分ける言語処理のことである。参照する情報源として、対象言語の文法の知識（ここでは文法のルールの集まり）と辞書（品詞等の情報付きの単語リスト）を用いるが、これらの文法ルールや辞書は、上述のように、上記分析データベース１８に予め準備されている。

なお、実施例では、一例として「茶筌」（http://chasen.naist.jp/hiki/ChaSen/）というフリーの形態素解析ソフトをコンピュータ１４に導入して利用した。

なお、文書が日本語の場合、実施例では、まず形態素を分割して抽出しその抽出した形態素に付いて品詞を付与するように、上記「茶筌」のようなツールを利用した。しかしながら、たとえば英語のような言語体系では最小単位である単語は既に分割されているので、分かち書き処理（tokenization）は不要であるが、このステップＳ５では、活用形を原形に直す必要があるので、ステミング処理（stemming：活用形を原形に直すこと）を行い、さらに品詞を同定する必要があるので、タギング処理（tagging：語の品詞を見分けること）処理をすることになる。

また、このステップＳ５で解析した形態素（群）および品詞情報は、テキストデータベース１６に蓄積される。

続くステップＳ７において、コンピュータ１４は、上述の品詞情報に基づいて、不要語として設定しておいた品詞の種類の形態素を取り除くための不要形態素除去処理を実行する。

つまり、形態素解析の際に、各形態素に付与される「品詞情報」に基づいて、当該形態素をキーワードの候補として採用するか否かを選定する。不要語とする形態素（特異語（キーワード）／共通語の候補）の品詞の種類は、形態素解析システムが出力する品詞体系と、ユーザの解析の意図によって異なる。不要形態素と認定する品詞の種類はユーザが任意で定められるものとする。発明者等が実際に解析を行なった実験では、「茶筅」を用いて分析した結果の、非自立や接尾の形を取らない名詞、動詞、副詞、形容詞以外を不要形態素とした。ただし、どのような品詞の形態素を不要語とするかという不要語除去規則もまた、分析データベース１８に予め設定しておけばよい。なお、英文の場合には、先に説明したように、ストップワード（stopword）と呼ばれる、極めて頻繁に使われるキーワードとして不適切な単語のリストを参照することによって、不要な形態素を取り除く。

ステップＳ７を実行した後には、たとえばテキストデータベース１６に蓄積されている当該コーパスの中に必要な１つ以上形態素が残っている。したがって、ステップＳ９の処理は、そのコーパスに除去されずに残っているすべての形態素ついて実行される。つまり、コンピュータ１４は、ステップＳ９において、残っているすべての形態素の各々について時間増加型ＴＦＩＤＦを求める。

ここで、「ＴＦ」はTerm Frequency、つまり単位ドキュメント中にそのキーワード候補が出現する頻度(延べ数)（出現頻度）であり、時間のパラメータを考慮した「ＩＤＦ」は、InversedDocument Frequency（逆出現文書数）、つまり、他には出現していないという独自性を示す。したがって、「時間増加型ＴＦＩＤＦ」とは、「ＴＦ」×「ＩＤＦ」のことであり、TermFrequency Inversed Document Frequencyといい、ＴＦ＊ＩＤＦと表すこともあるが、ここでは、時間増加型ＴＦＩＤＦと表現する。時間増加型ＴＦＩＤＦは、一種の重み付け指標となる。

仮に、図５に示すように記事数が逐次変化する場合であっても、一般的な解析の場合には、最終的に一定数Ｎの単位ドキュメントが蓄積された後に行なうので、単位ドキュメントの総数Ｎは、図６（Ａ）に示すとおり一定数である。そのため、そのような一般のテキストデータを解析する際のＴＦＩＤＦのＤＦ（DocumentFrequency）、その形態素が出現する文書の数は、図７（Ａ）に示すように一定数となる。したがって、一般的な解析手法の場合のＴＦＩＤＦは図８（Ａ）のようになる。

これに対して、実施例のシステムで取り扱う１レコードは時間情報または順序情報２６（図２）を持っているため、各レコード（テキストデータ）は、時系列順または順序情報順に並べることができる。したがって、その際の時間増加型ＴＦＩＤＦのＤＦには、ｊの添え字（時間や順序の情報にもとづく添え字）が存在することになる。ここにいう「ｊ」は、時系列順または順序情報順にレコードを並べた際の順番を表すことになる。

したがって、実施例の文書解析装置１０では、たとえば、ある記事ｄjに対するＴＦＩＤＦを求める場合、最終的に収集された全件の記事に基づく単位ドキュメントの総数Ｎやそれに基づくＤＦを用いるのではなく、記事ｄjが発行されるまでの時間に発信されていた記事の数に基づく時間を考慮したＮj（記事ｄjが発信された時点までの記事の総数）や、ＤＦ(ti,dj)（記事ｄjが発信された時点までの形態素ｔiの出現文書数）を用いて、記事ｄjが発信された時点で逐次ＴＦＩＤＦを計算する。この実施例の文書解析装置１０では、図４に示すようにそれが含む単位ドキュメント数が時系列順序にしたがって増加するコーパスを設定し、そのコーパスにおける各形態素のＴＦＩＤＦを計算することによって、時間的順序（順番）を有するテキストデータからその順序に従った特異語（キーワード）や共通語を抽出または検出する。

具体的には、通常のＴＦＩＤＦは次式（１）で、ここに定義する時間増加型ＴＦＩＤＦは次式（２）で計算される。
［数１］
TFIDF(ti,dj)=TF(ti,dj)*IDF(ti)
IDF(ti)= log₁₀(Ｎ／ＤＦ(ti)）(1)
［数２］
時間増加型TFIDF(ti,dj)=TF(ti,dj)*IDF(ti,dj)
IDF(ti, dj)= log₁₀(Ｎj／ＤＦ(ti,dj)） (2)
ここで、ｔiはｉを識別子(ＩＤ)にもつ形態素である。つまり、ＴＦＩＤＦ(ti,dj)を算出する対象となるキーワード候補のことである。

ｄjはｊ番目の単位ドキュメントを表わす。つまり、ＴＦＩＤＦ(ti,dj)および時間増加型ＴＦＩＤＦ(ti,dj)を算出する対象となるキーワード候補が含まれている文書のことである。ただし、文書の単位は、文章、記事、文など任意に設定可能であるが、実施例では、ウェブニュースの記事を文書単位とした。

ＴＦＩＤＦ(ti,dj)および時間増加型ＴＦＩＤＦ(ti,dj)は、ｊ番目の単位ドキュメントの形態素ｔi毎に算出される値である。

ＴＦ(ti,dj)は、ｊ番目の単位ドキュメントの形態素ｔiごとに算出される値で、単位ドキュメントｄj中に形態素ｔiが出現した回数（延べ数）である。

ＤＦ(ti,dj)は、１‐ｊ番目の単位ドキュメント中に形態素ｔiが出現した単位ドキュメント数である。

なお、上記Ｎjは、単位ドキュメントｄjが発生している際に出現している単位ドキュメント数であり、数度のＩＤが１から順序だって単位ドキュメントに付与されていれば実際には、Ｎの値はｊと同値になる。

たとえば図５に示すように、各記事（単位ドキュメント）ｄ1，ｄ2，ｄ3，…に出現する形態素ｔ1，ｔ2，ｔ3，…が変化する場合を想定する。この場合、単位ドキュメントの数Ｎjをフィールドに持つテーブルが図６（Ｂ）に示すように表される。また、各単位ドキュメントのＤＦ(ti,dj)をフィールドに持つテーブルが図７（Ｂ）のように表され、Ｎjの値によって形態素ｔiを識別子にもった各単位ドキュメントの時間増加型ＴＦＩＤＦ(ti,dj)値をフィールドに持つテーブルが図８（Ｂ）のようになる。これらのテーブルは、いずれも、テキストデータベース１６に逐次蓄積される。

このようにして、ステップＳ９ですべての形態素の時間増加型ＴＦＩＤＦが計算された後、続くステップＳ１１において、コンピュータ１４は、時間増加型ＴＦＩＤＦの累計値Σ時間増加型ＴＦＩＤＦと、ＴＦの累計値ΣＴＦとをそのコーパスＣ(t)までの実測値として計算する。なお、時間増加型ＴＦＩＤＦ(ti,dj)が図８（Ｂ）のようになり、ＤＦ(ti,dj)が図７（Ｂ）で表されることから、ＴＦ(ti,dj)も計算することができ、ΣＴＦについては、ＴＦ(ti,dj)を計算した後それの累計値として計算すればよい。ただし、時間増加型ＴＦＩＤＦについては、図８（Ｂ）のテーブルから累計値を計算すればよい。

続くステップＳ１３で、コンピュータ１４は、そのコーパスＣ(t)について求めたＴＦ(ti,dj)の累積値ΣＴＦをＸとし、時間増加型ＴＦＩＤＦ(ti,dj)の累積値Σ時間増加型ＴＦＩＤＦをＹとして次式（３）への当て嵌めを行い、定数ａと定数ｂを求め、図９に示す回帰曲線を作成する。この回帰曲線は、次のコーパスＣ(t+Δt)での残差分析のために、そのコーパスＣ(t+Δt)における時間増加型ＴＦＩＤＦを推定または予測するものとなる。つまり、そのコーパスＣ(t)までのΣＴＦが横軸のようになるとき、もし、次のコーパスＣ(t+Δt)においても時間増加型ＴＦＩＤＦが同じ傾向を示すなら、次のコーパスＣ(t+Δt)での時間増加型ＴＦＩＤＦは、この回帰曲線上にプロットされることになる。
［数３］
Ｙ＝ａＸ^ｂ (3)
そして、コンピュータ１４は、ステップＳ１５において、先のステップＳ１１で計算した時間ｊでのコーパスＣ(t)における時間増加型ＴＦＩＤＦ(ti,dj)の累計値Σ時間増加型ＴＦＩＤＦと、前のコーパスＣ(t-Δt)についてステップＳ１３で求めた回帰曲線Ｙ＝ａＸ^ｂによる推定値Ｙとの差（残差値）を求める（図１０）。残差値が大きいほど、正負のいずれに拘わらず、直前のコーパスＣ(t-Δt)で予測した同じ形態素ｔiのΣ時間増加型ＴＦＩＤＦより離れている（乖離している）ことを、すなわち、直前のコーパスまでの常識から予測できなかったことを意味する。そこで、この残差値を、当該形態素の特異性を表す値、つまり、特異値（DiscriminatingValue）ということとする。他方、Σ時間増加型ＴＦＩＤＦが正の残差値（特異値）を示す形態素は、回帰曲線より上方にプロットされ、特異的または特徴的であることを意味する。Σ時間増加型ＴＦＩＤＦが負の残差値（特異値）を示す形態素は、特異性は全くなく、逆の性質をもつありふれた形態素であるといえる。

図１０を参照して、Ｙ＝ａＸ^ｂで示される回帰曲線に対して、形態素ｔiのΣ時間増加型ＴＦＩＤＦがこの曲線の上方にプロットできた場合、この形態素ｔiは正の残差値を持つことになる。正の残差値を持つということは、その形態素ｔiがＣ(t-Δt)までにあまり出現しておらず、経過したΔｔの中で急激に出現したといえる。Ｃ(t)の形態素ｔiのΣ時間増加型ＴＦＩＤＦが回帰曲線より下方にある場合には，Ｃ(t-Δt)までも数多く出現した形態素であることを示している。

ステップＳ１５ではこのようにして各形態素毎にΣ時間増加型ＴＦＩＤＦの推定値または予測値と実測値との間で残差分析を行ない、各形態素の特異値すなわち残差値を、たとえばデータベース１６のテキストデータテーブル２０（図２）にメタデータとして付加するなどして、逐次記憶する。

コンピュータ１４は、次のステップＳ１７で、上述のようにデータベース１６に記憶した特異値（残差値）に従って、特異語（キーワード）および共通語（キーワード）を選定する。たとえば、正の残差値（特異値）が任意の上位数以上だった形態素を、そのコーパスを代表する特異語として選定する。逆に、負の残差値（特異値）が任意の下位数以下だった形態素は、共通語として選定する。共通語は構成したテキストデータベース（言語資料）全体を代表するキーワードに該当する。これらの特異語や共通語を利用すれば、同じテーマのテキストデータ（言語資料）を効率よく探し出せる。

続いて、コンピュータ１４は、最後のステップＳ１９で、ステップＳ１７で選定した特異語や共通語を図示しないディスプレイ上に表示する。

図１１に２００４年新潟県中越地震について発行されたウェブニュースを用いて解析したときの表示例を示す。図１１では、表示画面の上側に正の残差値を持つ特異語が時間経過（横軸）とともにプロットされ、下側に負の残差値を持つ共通語がプロットされる。ただし、図１１では細部を描けないので、特異語として２つ「死亡」、「派遣」だけが明示されていて、共通語として「地震」、「中越」という２つだけが明示されているが、各グラフ部分にそのグラフを構成する形態素（単語）が表示される、ということに留意されたい。この図１１のような表示例によれば、特異語と共通語が上下に別々に表示されているので、それらを一覧できるという利点がある。

表示例としては、図１２に示す表形式の表示も考えられる。図１２の表では、横軸に時間経過を示し、縦軸に時間区分ごとの特異語を上位適宜数表示するようにしている。

ただし、他の任意の表示形態が考えられることは勿論であり、図１１および図１２の表示例に限定されるものではない。

以下に、発明者等が２００４年新潟県中越地震（平成１６年１０月２３日１７：５６発生、Ｍ６．８）について発行されたウェブニュースを用いて解析した結果を示す。新潟県中越地震災害を対象としたのは、インターネットの普及以降、我が国で発生した災害の中でも比較的規模の大きな災害であり、多くのニュース記事を収集、分析できると考えたためである。

平成１６年（２００４年）１０月２３日以降に代表的なポータルサイトのニュースコンテンツ上に発信された新潟県中越地震災害に関連するニュースを収集し、発信日時、発信新聞社、タイトル（見出し）、記事本文、をフィールドにしてデータベースを作成した。すべての記事に対して、ポータルサイト上に更新されてから２４時間以内に収集する作業を行なった。収集した期間は、発災から翌年４月３０日までのおよそ６ヶ月間である。収集したウェブニュースは２６２３件である。地震が発生した当日は、１８時５９分に最初のニュース記事がアップデイトされ、当日中には４２件発信された。記事件数が最も多かったのは地震が発生した翌日の２４日で１７９件だった。

６ヶ月間に収集した上記新潟県中越地震災害に関するウェブニュースのテキストデータを図２に示すテキストデータテーブル２０としてテキストデータベース１６(図１)に登録した。

その後、キーワード候補（形態素）を同定するために、ステップＳ５に従って形態素解析を実行してキーワードとして採用すべき言葉の単位を検討し、ステップＳ７に従って、ステップＳ５で決定した言葉の単位の中でも、キーワードとして適切ではないものを取り除いた。

実施例では、形態素の単位をキーワードの単位として採用することにする。形態素の単位では、「新潟県中越地震」のような複合語を捉えることはできない。形態素の単位であれば、高い精度での解析が可能であることから、この実施例では形態素の単位をキーワードの候補とする。

形態素解析の結果の一例を示す：「新潟／県／中越／地震／は／住民／の／ライフライン／に／も／甚大／な／被害／を／及ぼし（及ぼす）／た／。」。上述した例の(1)のような解析結果が出力されるほか、「及ぼし（及ぼす）」のように、活用形をとった形態素に対しては基本形をも出力する。この形態素解析は、現在の技術水準でおおよそ９６‐９８％以上の精度を達成している。

続いて不要語の除去を行なう。形態素解析によって得られる形態素群の中には、キーワードとして適さないものが存在する。ここにいうキーワードとして適さない語とは、助詞の「が」や「を」のように、主にそれ自体に意味を持たないもの形態素のことを指す。一般に、このような言葉を不要語（不要形態素）と呼ぶ。不要語のような言葉自体からは、意味や内容を捉えることはできない。

このような不要語のもつ問題点から形態素解析によって得られる各形態素の品詞に着目して、キーワードとして適さない形態素を除去することを検討する。以下、この実施例で用いた形態素解析システムのもつ品詞体系が採用している品詞情報に基づいて、不要語とする品詞を決定する。

助詞（「が」、「を」）、助動詞（「れる」、「られる」）、接続詞（「しかし」）、記号（「句読点」）は、文法的な役割をもつ品詞で、内容的な意味をもたない品詞であり、キーワードとしては適さない。また、他の形態素と結びつくことで意味をなす品詞は、１つの形態素では意味を捉えることはできないためキーワードとして適さない。これには、名詞、動詞、形容詞のうち、非自立や接尾の形をとるもの（「こと」、「しまう」、「らしい」）、接続詞的な名詞（「対」、「兼」）、接頭詞（「お」、「約」）、連体詞（「この」、「その」）が該当する。そのほか、他の語を指すためにそれ自身では意味を捉えることができない代名詞（「それ」、「わたし」）、話の間をとるためだけ用いられるフィラー（「ええと」、「うんと」）もキーワードとして適さない。また、あいさつやあいづちなどの感動詞（「おはよう」、「いいえ」）は主に会話の中で用いられることから、災害事象との関係は薄いものと考えられる。

以上の品詞を取り除けば、名詞、動詞、形容詞のうち、非自立や接尾のかたちをとらないものと副詞がキーワードの候補として採用されることになる。

品詞情報をもとに不要語を除去した結果、形態素解析（ステップＳ５）で求められた１５２１１種類の形態素は、１４１０９種類にまで減少した（延べ５２１２４０の形態素）。１４１０９種類のうち、地震の発生から１‐１０時間で１１２２種類の形態素（７２記事）、１０‐１００時間で３５８１種類の形態素（４８１記事）、１００‐１、０００時間で５６９１種類の形態素（１２３０記事）、１０００‐４５２９時間で２７１６種類の形態素（８４０記事）が出現した。

次に、先に説明した式（２）に従って、ニュース記事から抽出したキーワード候補に重みを与えることよって、キーワードがどれだけ特異的であるのか、ある時間の変化を代表するキーワードとしてどれだけ重要なのかを評価した。

ある時点でのキーワードに、特徴の度合いを表す指標の情報が付加されていれば、指標の評価結果にもとづき、より特異的なキーワードを同定することができる。そこで、この実施例では、ステップＳ９を実行して、キーワードに特徴の度合いを表す指標を与えることを検討する。

ある時点で、ある事柄がウェブニュース上で中心的に発信されている場合、ある事柄の意味を表す言葉は多く出現する可能性がある。しかし、頻出するキーワードの中には、どのようなニュース記事であっても、文書を構成する上で多用されるキーワード、一部のニュース記事の中で頻出しているキーワードの２種類があることが想像される。ニュース記事を特徴的に表すキーワードとは後者を指す。

後者のようなキーワードに対して高い重みを与える指標として先に説明したＴＦＩＤＦがある。ここで、上述のように、ＴＦ(ti,dj)がキーワードｔｉがの記事ｄjに出現した回数を示し、ＤＦ(ti）がキーワードｔiがの出現する文書数を示すとき、ＩＤＦ(ti)は、全文書数に対するキーワードｔiが出現した文書数の比の逆数である。つまり、この実施例では、どの記事にも現れるような形態素については低い重みを、他の記事にあまり現れないような形態素には高い重みを与えることになる。これとＴＦとの積をとった時間増加型ＴＦＩＤＦは、記事の中にいかに多く出現し、いかに他の記事に出現していないかを表す指標であり、キーワードの特徴の度合いを評価している指標と言える。

そして、実施例では、ある記事ｄjに対する時間増加型ＴＦＩＤＦを求める場合、最終的に収集された全２６２３件の記事に基づくＮやＤＦを用いることはせず、記事ｄjが発行されるまでの時間に発信されていた記事の数にもとづく時間を考慮したＮj（記事ｄjが発信された時点までの記事の総数）や、ＤＦ(ti,dj)（記事ｄjが発信された時点までの形態素ｔiの出現文書数）を用いて、記事ｄjが発信された時点で逐次ＴＦＩＤＦを計算することにする。これを時間増加型ＴＦＩＤＦと呼ぶ。

時間の経過にともなって増加するような言語資料体の例としては、危機、災害に関するものが挙げられる。危機管理分野における言語資料は、危機や災害の発生から時間の経過に伴って、言語資料の数が増大していく。通常のＴＦＩＤＦはＮとＤＦが一定であり、時系列的に増加する言語資料から抽出された形態素に対する重み付けには対応していない。実施例では、全文書数と任意の形態素が出現する文書数を時間情報に基づいて変化するパラメータとし、ＴＦＩＤＦを修正して用いることにした。なお、このようにしてＴＦＩＤＦを求めた場合、記事ｄjが発行された時点で、はじめて出現した形態素のＴＦＩＤＦを評価すれば、ＤＦは１となり、ＩＤＦは高く評価されることとなり、初出の形態素に高い重みを与えることになる。前述のように、この時間の概念を考慮した指標を、時間増加型ＴＦＩＤＦと呼ぶ。

ただし、単に時間増加型ＴＦＩＤＦの値だけではキーワードが特徴的であるか否かを評価することは難しい。ある時点までの時間増加型ＴＦＩＤＦの値が高く評価されるパターンには、ＴＦの値が低くともＩＤＦが高い（ＤＦが低い）ために時間増加型ＴＦＩＤＦが高い値で求められる場合と、ＩＤＦが低くとも（ＤＦが高くとも）ＴＦが著しく大きいために時間増加型ＴＦＩＤＦが高く算出される場合とがある。ＴＦが著しく大きいということは、その言葉の一般性が高いために記事を記述する上で何度も用いなければならないような言葉である可能性が高い。単純に時間増加型ＴＦＩＤＦの値によってキーワードが特徴的であるかどうかを単純に評価することはできない。

ある時点における情報が特徴的であるということは、前の時点までに語られているキーワード群と、ある時点で語られているキーワード群とを比較することから把握できると考えられる。両者に差が生じていれば、任意時点の前後に大きな質の違いがあったことを意味していると思われる。つまり、ある時点のコーパスと、ある時点から任意の時間が経過した分のコーパスを比較することにより、情報の質の変化を捉え、その変化をもたらしたキーワードを同定できる可能性があるものと考えられる。

そこで、この実施例では、先に説明したように、残差分析(ステップＳ１５)を行なうことによって、ある時点と次の時点のコーパスの特性を比較するようにした。

図１３に発災からそれぞれ１０時間（図１３（Ａ））、１００時間（図１３（Ｂ））、１０００時間（図１３（Ｃ））、４５００時間（図１３（Ｄ））までの形態素ごとのＴＦの累積値と時間増加型ＴＦＩＤＦの累積値の関係をプロットした。ＴＦの累積値と時間増加型ＴＦＩＤＦの累積値の間には、先の（３）式で表される強い関係があった。サンプル数（キーワード数）が少ない１０時間までのＴＦの累積値と時間増加型ＴＦＩＤＦ(の累計値の関係以外については、累乗関数でＲ^２が０．９０‐０．９９であり、ＴＦと時間増加型ＴＦＩＤＦの累積値の間には、累乗関数の関係が系統的に存在することが明らかになった。

図１３のような関数関係は、近似曲線の近傍にあるキーワードはＴＦの累積値と時間増加型ＴＦＩＤＦの累積値の関係が、コーパスの平均的な関係と同じような傾向にあることを意味している。このような傾向をもつキーワードは、平均的な出現パターンを呈しているものと考えられる。したがって、実際の時間増加型ＴＦＩＤＦの累積値が、近似曲線にもとづく推定値を下回る場合、コーパスの平均像からみて時間増加型ＴＦＩＤＦの累積値が低い、つまりあまり特徴の度合いが高くないことを表す。逆に、実測値が推定値を上回る場合は、その逆で時間増加型ＴＦＩＤＦが高く、特徴的なキーワードであることと言える。以上のような評価は、実際の時間増加型ＴＦＩＤＦの累積値と、近似曲線に基づく推定値との差（残差）を求めることによって可能になる。以上の関係を応用し、図１４のようなモデルで任意時点のキーワードの特徴的度合いを評価する。

図１４の左側には、あるｔ‐Δｔから単位時間幅Δｔ経過する際のコーパスの変化を模式的に表した。このような関係は次式(４)で表すことができる。

図１４（Ａ）に示すように、Ｃ(Δt)にそれまでに出現したキーワードが多く含まれていたり、出現頻度もあまり高くないような形態素のみが存在したりしているような場合には、図１４の右上側に示したようにＴＦの累積値と時間増加型ＴＦＩＤＦの累積値の関係は、ｔ‐Δｔの時点のコーパスＣ(t-Δt)で構成された場合とｔの時点のコーパスＣ(t)で構成された場合では大きな差は生じない。それに対して、図１４（Ｂ）に示すように、Ｃ(t-Δt)までに出現しなかったようなキーワードがＣ(Δt)の中で出現したり、高い頻度で現れるような形態素が存在する場合には、ｔの時点でのコーパスＣ(t)が大きく変化し、図１４の右下側に示したようにＴＦの累積値と時間増加型ＴＦＩＤＦの累積値の関係を表す曲線の形状も大きく変化する。

つまり、ある時点ｔでの時間増加型ＴＦＩＤＦの累積値と、ｔ‐Δｔの時点でのコーパスで構成された関係式にもとづく推定値との残差が、このΔｔの間のコーパスの変化そのものを表し、残差が大きい形態素こそがΔｔ間に発生した言語資料の内容を代表するキーワード（特異語、共通語）であると考えられる。

このように、実施例では、ｔでの情報内容の質的な変化を表すキーワードの特徴量を評価する指標として、任意時間ｔ‐Δｔのコーパスで構成されるＴＦと時間増加型ＴＦＩＤＦの累積値にもとづく関係式による時間増加型ＴＦＩＤＦの累積値の推定値とｔの時点での時間増加型ＴＦＩＤＦの累積値の実測値との差分（残差）を採用することにする。ここに残差が著しく高かったキーワードを特徴語または特異語（残差値または特異値：正）、著しく低かったキーワードを一般語または共通語と呼ぶことにする（残差値または特異値：負）。

図１に示す実施例の文書解析装置１０によれば、図３に示すフロー図に示す次の手順に従って、コンピュータ１４によって、人の主観的な判断を用いず、時間増加型ＴＦＩＤＦ指標や残差値による定量的な指標を用いて構成されており、連続したプロセスから成り立っているため、ツールと参照すべきものが適切に準備されていれば、過去の事象の記録をインプットとし、一連の過程を通して自動的客観的に最終成果物であるキーワードを検出することができる。

このようにして、図１に示す実施例の文書解析装置１０において、コンピュータ１４は、要するに、次のステップを実行する。

1）時系列的に増加するテキストデータ（この場合では、ウェブニュース）のデータベースを構築する。

2）テキストを形態素に分割し、品詞情報を付加する。

3）品詞情報にもとづき、非自立と接尾以外の名詞、動詞、副詞、形容詞を抽出する。

4）形態素について、文書（ここではウェブニュース記事）ごとにＴＦと時間情報に基づく時間増加型ＴＦＩＤＦを求める。

5）ある時点ｔ‐Δｔからｔの間における特徴的なテキストを代表するキーワードを抽出するため、ｔ‐ΔｔまでのコーパスにおけるＴＦの累積値と時間増加型ＴＦＩＤＦの累積値の関係式を求め、それにもとづくｔの時点での時間増加型ＴＦＩＤＦの累積値の推定値と実測値との差を求める。この残差値をあるΔｔに出現したキーワードの特徴量すなわち特異値とする。

6）最も大きい残差値（特異値）から任意の上位数までのキーワード（特異語）を選定し、当該特異語が検出された記事に特異語を言語資料のメタデータとする。

以上説明したように、提案済みの文書解析手法は、時系列的に増加するコーパス中の言葉について、任意の時間断面における特異性を数値的に評価し、時系列のデータセットを生成するものである。この時系列データの傾向変動を的確に捉えることができれば、任意の事象の展開を予測できる可能性がある。

ここでは、例として、プロアクティブな危機対応を支援できるようにするために、災害や危機が発生しているさなかに、今後の災害および危機事象がどのように展開するのかを予測する手法を開発することを目的として検討した。特に、先に説明した文書解析の手法に従って、災害および危機に関する言語データ群から、時間断面ごとに言葉の特異性を評価し、トレンド（傾向）として可視化する手法を応用した。

文書解析の先行手法を応用して上記の目的を実現するアプローチには、次の２つのパターンが考えられる。１つは、対応に当たっている当該の災害および危機と、それに類似する地域性や同一のハザード種に起因したイベントについて、同一のキーワード（特異語）の時系列的なふるまいを比較する方法であり、他の１つは、時系列データの変動傾向に基づき、動向予測を行う既存の手法を援用する方法である。前者は、災害と災害のもつ共通性または普遍性に着目し、同一の事象は時間的量的にほぼ同じような展開を見せるという仮定にたったアプローチである。後者は、すでに研究が進んでいる株取引分野に見られる株価動向予測の手法や考え方を活用しようとするものである。

このような災害および危機事象の将来展開予測手法の検討や構築、適用を試みるためのコーパスとして、以下の実施例では、２００４年新潟県中越地震（以下、単に「中越地震」という。）と２００７年新潟県中越沖地震（以下、単に「中越沖地震」という。）について報道されたウェブニュース記事を用いることにする。災害および危機についてのウェブ報道は発災から継続的に配信されることと、ディジタル媒体であることから、応急対応や復旧または復興までを包括する内容の言語データを比較的容易に蓄積し、加工できるという特徴がある。

実施例において上記の２つの災害を対象にしたのは、ハザードが同じであることと、同じ県域内で起こった災害であるためである。先に述べたように、災害事象の将来展開を予測するアプローチには２種類が考えられ、そのうち１種類は、ハザード種や地域性の類似する当該の災害と過去の災害の特異語のふるまいを比較しようとするものである。このようなアプローチを用いた手法を開発し、その有用性を検証するためには、同じ新潟県で発生した２つの地震災害の例を取り上げることが最も妥当であると考えた。

両地震について代表的なポータルサイト上の「新潟県中越地震」「平成１９年新潟県中越沖地震」というトピックス中にアップデイトされたウェブニュースを自動収集した記事について、時間経過に伴う累積記事件数を調べてみると、発災から４０００時間（約半年）収集したニュース記事は、中越地震で２５８８件、中越沖地震で３０４２件であった。ニュース記事件数について、中越沖地震が中越地震を上回るものの、記事件数の積み上がり方はほぼ同じような傾向を示していた。このことから、２つの地震災害はハザードや地域性のみならず、社会の関心の度合いもほぼ同じ程度であったことが分かる。
第１実施例
第１の実施例では、類似する２つの災害に関するコーパスから抽出した同一の特異語のふるまいに基づいて将来展開を予測する手法を提供する。

上で説明した手法では、特異語抽出結果から単一の特異語を取り出すことで、任意の特異語の特異値の変動（ふるまい）をグラフ化することができる。異なる２つの災害の同一特異語を同時に図示すれば、特異語のふるまい、ひいては特異語に関連する災害事象のトレンドを比較することが可能になる。

ここでは、中越地震と中越沖地震のウェブニュースから、1)上記の手法に基づいて重要な特異語を同定し、2)２つの地震について１）で求められた特異語の内容と、3)同一特異語の特異値のふるまいを比較する。これらの分析を経ることにより、両地震において重要な災害事象の同一性、普遍性の有無を確認し、同一特異語のふるまいを比較することによる将来展開の予測の可能性を確認する。

以下、図１５に示すフロー図を参照して、詳細に説明する。この図１５は特異語のふるまいを可視化する実施例を示すものであるが、前提として、少なくとも１つのコーパスについて図３のフロー図で示す文書解析が終了していて、図１に示すコンピュータ１４の内部メモリ（図示せず）かあるいは分析データベース１８内に、図１２に示すような、各コーパス毎に抽出または検出した各時点毎の特異語の特異値のリストに蓄積されている。

図１５の最初のステップＳ３１において、コンピュータ１４は、図１６に例示するようなＧＵＩ２６を表示手段（図示せず）に表示する。

ＧＵＩ２６には、コーパス選択ボタン２８、対象特異語選択ボタン３０および移動平均項数入力ボタン３２が設定される。コーパス選択ボタン２８は、ふるまい分析を実施しようとするコーパス（言語資料体）を選択するときに操作（クリック）するもので、このボタン２８が操作されたとき、実施例では、表示ボックス３４に選択可能なコーパスをプルダウンメニューとして表示する。したがって、ユーザないしオペレータは、表示された１つまたは複数のコーパス名のメニューをクリックして、１つまたは複数のコーパス名を選択する。なお、それぞれのコーパス中に出現する同一の特異語のふるまいを比較する必要がある場合には、複数のコーパスを選択することになる。

ステップＳ３３においてコーパスがこのようにして選択されたと判断したとき、コンピュータ１４は次のステップＳ３５において、累積特異値（ΣＤ）を計算する。

任意の特異語を闇雲に選び、将来動向を予測しようとしても、選んだ特異語に関連する災害事象が当該の災害において重要でなければ、予測の効果は低い。そこで、この実施例では、重要な特異語を同定するために、累積特異値（ΣＤ）という指標を用いることを着想した。

累積特異値は、具体的には、特異値（Discriminating Value）を発災から任意の時間断面まで足し合わせた数値である。特異値が正を示した言葉は各時間断面を特徴づける言葉で（特異語）あり、負の値を示した言葉はコーパスに遍在する言葉である（共通語）。単純に特異値を足し合わせれば、任意の言葉が特異語から共通語になった場合、負の値が足し合わされていく。このような言葉は、ある一定の期間に重要な事象に関連する特異語であったにもかかわらず、積み上げられた特異値が減じられることになってしまい、重要な特異語として求めることができない可能性がある。ここでは、正の特異値だけを足し併せたものを累積特異値（ΣＤ）とする。

よく知られているように、１９９５年の阪神・淡路大震災の被災者の発災直後からの行動についてミクロな視点からエスノグラフィーが丹念に採取され、災害過程がモデル化されている。これによれば、災害過程において時間は、１０時間、１００時間、１０００時間と１０のべき乗の時間によって状況が質的に変化すると言われている。

したがって、本実施例では、各コーパスについて、１０時間までの１時間刻み、１０‐１００時間を１時間刻み、１００‐１０００時間を２４時間刻み、１０００‐４０００時間を２４時間刻みでΔｔを設定し、提案した文書解析の手法を適用し、発災から１０時間後、１００時間後、１０００時間後、４０００時間後の累積特異値（ΣＤ）を求め、それに基づいて判断して、重要特異語を同定または選択できるようにした。

ステップＳ３５では、先に図３に従って抽出したすべての特異語について累積特異値（ΣＤ）を計算する。なぜなら、実施例では、対象特異語の選択に当たって、ユーザは任意の特異語を選択できるようにしているからである。

そして、ステップＳ３７において、ユーザの選択の便宜のために、計算した累積特異値（ΣＤ）に従って、たとえば図１７に示すように、横軸が特異語を表し、縦軸が累積特異値（ΣＤ）を表す特異語ランキングを表示する。ただし、特異語ランキングは、図１７のようなグラフに限らず任意の形式のグラフで表示されてもよく、さらにはグラフではなく、表形式で表示されるようにしてもよい。

このような特異語ランキングを参照して、ユーザまたはオペレータは、ふるまいを確認したい特異語、つまり対象特異語を図１６に示すＧＵＩ２６の対象特異語選択ボタン３０を操作することによって、ボックス３６内で選択する。

ただし、累積特異値に基づいて対象特異語を決定するための前述した判断を補助するために、累積特異値にカットオフ値を設けることも考えられる。設定したカットオフ値が統計的に有意な値であれば、重要な特異語が否かを客観的に判断することができる。ここでは、重要な特異語を判別するカットオフ値として、累積特異値分布の上位５％の累積特異値を採用することにした。５％という値は、統計学において有意水準として用いられている値であり、異常に大きな数値と、そうでない数値を判別する基準として用いることができる。ただし、それとは別にたとえば累積特異値分布の上位１％を基準として用いることもできる。また、累積特異値の大きい順に上位ｎ語を選択することもできる。さらには、これらのカットオフ値とは無関係にユーザの独自の視点で任意の特異語を選択することもできる。

上位１％あるいは５％の特異語を選択する場合には、たとえばラジオボタン３８を操作することによって選択できる。上位ｎ語を選択する場合、隣接するテキストボックス４０に任意の整数を入力することによって選択する。また、ラジオボタン３８で特定語を選択した場合には、各隣接するテキストボックス４０に任意のキーワード（特異語）を入力することによって選択する。

続いて、ユーザは移動平均を計算すべき項数を、移動平均項数設定ボタン３２を操作することによって、ボックス４２内で設定する。この実施例では、項数は「３」，「５」または「７」を同時に選択できるように設定されていて、各数値の前のラジオボタン３８を操作することによって移動平均項数を設定することができる。また、項数は上記を基本設定とするが、任意の奇数の整数を設定できるようになっている。

ステップＳ３９で対象特異語のユーザによる選択が行なわれたことを判断しかつステップＳ４１で移動平均項数の設定が完了したことを判断したとき、コンピュータ１４は次のステップＳ４３で、その対象特異語の特異値の移動平均を計算する。

移動平均（線）とは、よく知られているように、時系列データを平滑化する手法である。特に、単純移動平均は、直近のｎ個のデータ（項数）の重み付けのない単純な平均であり、ｍ番目の特異値についての項数ｎの特異値移動平均は（５）式で計算できる。

次のステップＳ４５において、コンピュータ１４は、ステップＳ４３で計算した移動平均線に従って、ふるまいグラフを表示画面ないし表示手段（図示せず）上に描画して表示する。

図１８および図１９が、中越沖地震の際の特異語「観光」と「入居」のふるまいを示すグラフの例示である。このグラフでは、横軸に時間を示し、縦軸に特異値を示している。ただし、「観光」は風評被害による観光産業への影響を判断する特異語であり、「入居」は応急仮説住宅への入居のことを示している。黒丸印が実測値を示し、実線が３項移動平均、点線が５項移動平均、１点鎖線が７項移動平均を示す。これらのことは、図２４および図２５の以下のグラフでも同様であることを予め指摘しておく。

このようにして、重要な特異語さらには関心のある特異語など、任意のコーパスから取り出した任意の特異語について、たとえば移動平均線でのような変化の状態を可視的に表示（出力）することによって、その特異語の将来の展開を或る程度予測することができる。たとえば、その特異語の特異値が既にピークを越えたのか、未だピークに達していないのかなどによって、前者であれば今後は重要度が低くなると予測でき、後者であれば今後の展開がより重要であるなどと、判断できる。

これに対して、図１９の特異語「入居」の特異値移動平均線を見ると、この特異後「入居」の変化の状態もまた、特異後「観光」のそれとほぼ同様の傾向を示していることがわかる。ただし、「入居」の場合も、移動平均項数の違いによって有意な違いは見られない。
第２実施例
上で説明した第１実施例では、対象特異語の特異値の移動平均線を表示（出力）することによって、その対象特異語の変化の状態を視認でき、それによってその特異語ひいてはその災害等の将来の動向を予測可能ならしめるものである。

これに対して、連続した時系列データの中で、１日、１週間、１月などある一定周期ごとにデータ集計し、(1) その期間内での始値、終値、高値（最高値）、安値（最低値）を抽出し、(2)その期間内でのイベント数を計測し、(3)移動平均を求める手法がある。たとえば、株価チャートがその一例である。

時系列データの動向を予測するというオペレーションは、株取引において実際に行われている。この分野では損失をいかに減らし、利益をいかに伸ばすという理念のもと、着目する株券の価値が増加するか、減少するかを予測しながら、株取引が行われている。一般にトレーダは、株価の変動（時系列データ）を日単位や週単位で集約し、集約結果と蓄積された傾向パターンを突き合わせ、増加、減少を予測している。１日間などのオペレーションの周期を定め、それまでの状況を分析し、予測につなげ、次の対応策を検討するという流れは、責任担当期間（OperationalPeriod：OP）を設け、状況認識の統一（Common Operational Picture：COP）を図り、業務計画（IncidentActionPlan：IAP）を策定するという危機対応の標準的な流れと酷似している。そこで、発明者らは、以上のような特徴に着目し、危機対応の実務への取り込みやすさを踏まえ、株取引における株価チャート手法を災害事象の展開予測に援用することを考えた。

図２０に示すこの発明の他の実施例では、この株価チャート手法を援用して単一の災害および危機に関するコーパスのデータから、その特異語の特異値の変動傾向を分析し、災害の将来展開を予測できるようにするものである。実施例では、この任意の特異語の特異値で作成されたチャートを特異値チャートと呼ぶことにする。

図２０の実施例において、ステップＳ５１で表示するＧＵＩ４４では、先のＧＵＩ２６（図１６）と同様に、コーパス選択ボタン４６および対象特異語選択ボタン４８が設定されている。コーパス選択ボタン４６を操作し、ボックス５４においてコーパスを選択することは先のＧＵＩ２６と同じであり、対象特異語選択ボタン４８を操作し、ボックス５６において対象特異語を設定することもＧＵＩ２６と同様である。

ＧＵＩ４４にはさらに、特異語の変化の状態を可視的に表示するものとして、日足（１日）、週足（１週間）および／または月足（１月）のいずれか１つまたは２つ以上を選択するための日足（１日）／週足（１週）／月足（１月）設定ボタン５０および移動平均日数を設定するための移動平均日数設定ボタン５２が形成される。

株価チャートは、1）移動平均線、2）ローソク足、3）出来高の３つの要素から構成されている。1）移動平均線は、たとえば過去５日間の株価を平均した値を折れ線で結んだものであり、株価の動きを平均にならして、株価のトレンドを表す。2）ローソク足は、１日（日足）や１週間（週足）における株価データの中から、始値、終値、高値（最高値）、安値（最低値）を取り出し、前２つの値を四角形（胴体）で、後２つの値を線（ヒゲ）で表す図である。四角形の上端と下端が、始値か終値のいずれかを表し、終値と始値を比較し、終値が高ければ白い四角形、低ければ黒い四角形で表される。胴体の上下端から高値と安値の値を結んだものがヒゲとなる。3）出来高は、証券取引所で売買が成立した株数のことで、株価チャート中の下部に棒グラフで表されるものである。これらの株価チャートの３つの要素が示す傾向には、いくつかのパターンがあり、このパターンにもとづいて株価動向の予測がなされている。

図２０の実施例では、文書解析の手法で算出される特異値のふるまいを、株価チャートに倣い特異値チャートをグラフ化するようにした。移動平均線は、当該ポイントの前後の値を用いて移動平均値を求めるという一般的な移動平均法とは異なるものの、特異値を用いて過去数日間の平均値を計算することによって求めることとした。この平均化する日数が移動平均日数であり、図２１のＧＵＩ４４のボタン５２を操作することによって、設定できる。移動平均日数設定ボタン５２を操作するとボックス５８が開き、その中に形成されているテキストボックス４０に任意の整数を入力することによって、移動平均を計算するための日数つまり、移動平均日数を設定することができる。

ローソク足は、１日（日足）や１週間（週足）を周期として、その中で特異値の最初の値（始値）、最終の値（終値）、および最大値（高値）と最小値（安値）を取り出すようにした。そのためには、特異値の算出（特異語抽出）を１時間刻みで行なう必要がある。つまり、日単位のローソク足を描画するために、日よりも短い時間間隔の時系列データを必要としたためである。図２１のＧＵＩ４４において、日足／週足／月足設定ボタン５０を押すと、ボックス６０が開き、ユーザはそのボックス６０内のラジオボタン３８を操作することによって、日足、週足、月足のいずれか1つまたは２つ以上を設定することができる。

出来高の部分は、出来高が取引イベント数を表すことから類推し、本特異値チャートにおいては、分析対象の特異語の単純な出現イベント数（出現頻度＝１日間や１週間におけるＴＦの合計）で表すこととした。これは、出来高は、取引された株数であり、ある銘柄の人気の度合いを表してことから、相場のエネルギを表すものだと言われていること、及び文書解析の計算過程の中では、特異値や時間増加型ＴＦＩＤＦを計算する元になっている言葉の出現頻度が出来高に相当するものと考えられるためである。

図２０において、コーパス選択、ΣＤ計算、特異語ランキングの表示および対象特異語の設定のための各ステップＳ５３，Ｓ５５，Ｓ５７およびＳ５９は、先の図１５のステップＳ３３，Ｓ３５，Ｓ３７およびＳ３９とほぼ同様であるので、ここでは簡単に説明する。

ステップＳ５３においてコーパスが選択されたと判断したとき、コンピュータ１４は次のステップＳ５５において、累積特異値（ΣＤ）を計算する。

そして、ステップＳ５７において、ユーザの選択の便宜のために、計算した累積特異値（ΣＤ）に従って、たとえば図１７に示すように、横軸が特異語を表し、縦軸が累積特異値（ΣＤ）を表す特異語ランキングを表示する。

このような特異語ランキングを参照して、ユーザまたはオペレータは、将来予測をしたい特異語、つまり対象特異語を図２１に示すＧＵＩ４４の対象特異語選択ボタン４８を操作することによって、ボックス６０内で選択する。

続いて、ユーザは、ボタン４８を操作し、ボックス６０内で日足／週足／月足のいずれか１つまたは複数を設定するとともに、移動平均を計算すべき日数を、移動平均日数設定ボタン５０を操作することによって、ボックス５８内で設定する。

発明者等は、実験では、中越沖地震のウェブニュースコーパスについて、１時間刻み（Δｔ＝１時間）で文書解析の手法を適用した結果から求められた特異値のデータセットを用いた。

上で述べたように、災害事象の将来展開を予測しようとする場合に、当該の災害にとって重要になる可能性の高い事象を選択しなければ、予測とそれを受けた対応策の効果はおろか、予測の意味そのものが薄れてしまう。そのため、将来展開を予測するに値する事象に関連する特異語を同定する方法について検討する。

将来展開を予測すべき重要な特異語を評価する指標として、累積特異値とそのカットオフ値を与えることを考える。

カットオフ値を与える方法には、(1)上位から語数がある割合（１％、５％など）になる累積特異値をカットオフ値にする方法、(2) 上位から任意の語数（１０位、２０位など）になる累積特異値をカットオフ値にする方法、あるいは(3)経験値から定数として与えられた累積特異値をカットオフ値にする方法などがある。このようなカットオフ値は、累積特異値の分布特性に基づいて適宜設定することができる。

図２２において、実験で用いた中越沖地震から抽出された特異語の特異値のデータセットから累積特異値を求め、１００時間（約４日）、３００時間、１０００時間（約６週）、３０００時間（４ヶ月）、４０００時間毎の分布をみた（ヒストグラム）。累積特異値の分布は、低い値で度数が大きく、高い値の度数が少ないロングテール型の分布であったため、図２２の横軸においては、累積特異値を常用対数で対数化した数値でグラフ化している。平均値は真数で６．０‐１７．３（常用対数：０．７８‐１．２４）で、中央値は一貫して真数で１．３（常用対数：０．１１）を示し、累積特異値は値の低い側（左側）に歪み、累積特異値が高まるほど度数が減少するという分布を示した。このような分布は、累積特異値の高い付近に、ある基準値を設けることで重要な特異語の絞り込みが行えることを意味している。

次に、カットオフ値を与える方法（前述（2））にもとづき、上位から任意の語数になる累積特異値を順位（ランク）を用いて、将来展開を予測すべき重要な特異語を絞り込むことを考える。任意の順位を設定することで、絞り込まれる特異語の数はこれに制約され、分析すべき特異語を適度に減らすことができる。

累積特異値の上位１％や５％、上位１０位、２０位、３０位、４０位、５０位、１００位となる累積特異値（カットオフ値）の時間変化をプロットしてみると、発災からの経過時間とカットオフ値の間には、強い指数曲線（Y=aLN(X)+b）の関係があることが分かった。

図２３はその指数曲線で近似した上位１％や５％、上位１０位、２０位、３０位、４０位、５０位、１００位となる累積特異値を図示する。時間経過にともなって、上位１％や５％および順位にもとづくカットオフ値が系統的な傾向を示したことから、ある言葉について累積特異値を求めたときに、この曲線のどこに位置し、どれだけ重要な言葉かの目安を与える検量曲線となり得る。複数のイベントについて同様の分析を行い、曲線の係数を再計算しつづけることで、累積特異値にもとづくカットオフ値を定数として求めることができる。

将来展開を予測すべき特異語を判別する際のオプションとして、(1）累積特異値の分布から上位１％、５％の値をカットオフ値とする方法、(2）順位にもとづきカットオフ値を与える方法、および(3）経験にもとづく定数をカットオフ値とする３つの方法を整備することにした。上位１％や５％をカットオフ値として採用すれば、上述したように選択される特異語の数が多くなる。一方で、定量尺度の分布における上位１％や５％は、統計学で経験的に用いられてきた実績のある基準である。２つの順位を基準とする方法は、適当な数の特異語を選定することができるが、上位１％や５％に含まれる特異語を取りこぼすことになる。また、過去のデータの蓄積にもとづいて設定された定数のカットオフ値は、他の災害および危機の事例の一般像と比較することが可能になる。それぞれのカットオフ値を定める方法のメリットを勘案し、実施例では、３つのオプションとして将来展開を予測すべき特異語を同定する手法に取り込むことにした。

図２０のステップＳ６３でユーザが上述のようにして移動平均日数を設定したことを確認した後、コンピュータ１４は、次のステップＳ６５で、対象特異語の時系列データセットを抽出する。このデータセットは、図示しないが、一方軸に各特異語が配列され、他方軸が各特異語毎に各時点の特異値を示すマトリクス（スプレッドシート，配列，データベーステーブル）形式で表現できる。図３に従って特異語解析をした後であれば、これらのデータは分析データベース１８かあるいはコンピュータ１４の内部メモリに格納されているので、このステップＳ６５では、コンピュータ１４はそのような格納データから必要なデータセットを抽出すればよい。

続いて、コンピュータ１４はステップＳ６７において、移動平均を計算する（移動平均線）。具体的には、ユーザによって設定されて移動平均日数で当該特異語の特異値の移動平均を計算する。ｍｍ月ｄｄ日の特異値のｐ日間の移動平均は次式（6）で計算できる。

続いて、ステップＳ６９において、日足なら各日の、週足なら各週の、月足なら各月の特異値の始まりの値、終わりの値、最大値、最低値をそれぞれ、始値、終値、高値、安値としてマトリクス（スプレッドシート，配列またはデータベーステーブル）に抽出する。これらの値も先の時系列データセットと同様に、図３に従って特異語解析をした後であれば、これらのデータは分析データベース１８かあるいはコンピュータ１４の内部メモリに格納されているので、コンピュータ１４はそのような格納データから必要な値を抽出すればよい。

続いて、ステップＳ７１において、語の出現頻度を抽出する（出来高）。つまり、日足なら各日の、週足なら各週の、月足なら各月の語の出現頻度を求めて，マトリクス（スプレッドシート，配列またはデータベーステーブル）に抽出する。出現頻度のデータも既に分析データベース１８かあるいはコンピュータ１４の内部メモリに格納されているので、コンピュータ１４はそのような格納データから出現頻度値を抽出すればよい。

最後に、ステップＳ７３で、特異値チャートを描画する。グラフ上部に横軸を時間とし、縦軸を特異値として、ローソク足と移動平均値を描画する。グラフ下部に横軸を時間とし、縦軸に出現頻度を棒グラフで描画する。

文書解析の手法によって得られる特異値の変動傾向を株価チャートで可視化することによって、関連する災害事象の将来展開予測ができる可能性を検討するために、中越沖地震の際の重要特異語である「観光」に着目し、株価チャートの適用を試みる。

図２４および図２５に「観光」の特異値のデータセットを株価チャートに表したものを示す。株価チャートはローソク足と出来高を求める単位を１日とする日足、１週間とする週足の２種類のグラフを作成した。移動平均値を計算する際に考慮する期間には、特に定まった値はない。ここでは、日足のグラフに、移動平均値を求める期間のうち、一般的に最も短い３日間を採用し、週足の移動平均値は、これに対応して３週間の平均値を求めた。なお、重要特異語の選定基準として、累積特異値を用いることの妥当性を検証するために、株価チャートの下部に、累積特異値にもとづく特異語の順位の変化も併記した。特異値がピークを迎える前に、株価チャート上に特異値の上昇を予兆する傾向が見られ、さらに、これと同時もしくはそれ以前にその特異語が高い累積特異値を示していれば、将来展開予測を適切に行えることになる。

「観光」は７／１７に出現し、特異値がおよそ１ヶ月間上昇していき、８／１１頃にピークを迎えた、８／１１以前には、ローソク足が白い胴体を示しており、特異値の上昇傾向が読みとれる。７／２５には、出現頻度が著しく高まり、その後、特異値が上昇していったのが分かる。

ここで、株取引分野における買いのサイン、売りのサインを移動平均、ローソク足、出来高についてまとめる。買いのサインはある銘柄の株価が上昇する予兆であり、売りのサインは株価が下落する予兆であるため、この実施例の文書解析の考え方に問題を置き換えれば、前者は重要な事象になる恐れ、後者は以降、その逆の傾向になることを意味する。株価と文書解析の手法における特異値は異なる指標ではあるが、相場のエネルギを表す出来高が要因となって株価を左右するという関係は、言葉の出現頻度が特異的に高まることによって特異値が増加する関係に似ている。３つの要素に関する主要な買い（売り）のサインを以下にまとめた。

移動平均線：実際の株価と移動平均値が離れた場合、株価は移動平均線に近づこうとする（株価は移動平均線に収束する）。移動平均線が株価を下回っていれば、上昇する可能性がある。

ローソク足：大陽線（長い陽線）の場合、買い圧力が強く、強い上昇エネルギがある。窓あけ急騰（連続してローソク足が並ばず、間をあけて動くもの）の場合にも強い上昇エネルギがある。高値圏で大陽線が出現した場合には、下降トレンドに転じることが多い。出来高：安値圏で高い出来高が出た場合は。上昇トレンドになる傾向がある。

図２４および図２５に特異値チャートの日足および週足を示す「観光」の特異値は、上記３つのパターンに合致した傾向を示した。７／１７に「観光」が出現してからは、移動平均線は、特異値の実測値の一部をプロットしているローソク足よりも下方に表れている。株の場合、株価は移動平均線に近づこうとするが、「観光」の特異値も変化の傾きが徐々にゆるやかになっている。７／２５には大陽線、７／２６には窓あけ急騰が見られたほか、７／２５には出現頻度（出来高に相当）が著しく高い値を示し、その後は特異値の上昇が続いた。週足のチャートについても同様の傾向が読みとれる。

７／２５の記事は「新潟県を放射能の風評被害直撃、宿泊取り消し４万８千件(１２：０４毎日新聞)」「闘牛２頭が“海水浴”新潟の海の安全のＰＲ（１９：２６毎日新聞）」という見出しであり、風評被害が顕在化しはじめ、対応の動きが見られた時期であることが分かる。特異値がピークを迎える頃は「風評被害500億円原発不信、観光にも深刻な打撃（８／８１２：０１毎日新聞)」「新潟市、風評被害2億２６００万円観光シーズン大打撃(８／９１２：０１毎日新聞)」という記事が表れ、被害が拡大していった様子が分かる。「観光」の特異値のふるまいには、株取引における買いのサインと同じような傾向が見られたことから、株価チャートの指標や考え方を援用することによって、文書解析の手法で抽出された特異語のふるまいを予測できる可能性が確認された。

この実施例のように、株価動向予測手法を用いた実験を踏まえれば、事象の将来展開予測手法の流れは、以下のようにまとめられる。

(1) 災害および危機などの事象に関するコーパスを構築する。

実施例で用いた報道資料のほか、災害対策本部の会議録や住民からの要望などの言語データからなる電子コーパスを作成する。

(2) 既定案の文書解析方法を用いて特異語を自動抽出する。

特異語を抽出するために時間刻みを１時間（Δｔ=１時間）とし、災害および危機などの事象の将来展開予測の元になる特異値の時系列データセットを準備する。

(3) 重要特異語を同定する。

対応に当たっている今現在までの累積特異値を求め、順位の基準や１％、５％の基準などを目安に今後重要になると思われる事象に関連する特異語を選択する。

(4) 特異値チャートを描画する。

日足または週足（必要なら月足も）の特異値チャートを作成し、特異値が上昇または下降するパターンと照らし合わせ、今後のふるまいを予測する。

そして、このような実施例によれば、以下のことが判明した。

(1) ハザードや地域性が類似する２つの災害および危機に関するコーパスから抽出された同一の特異語の特異値は、必ずしも同じようなふるまいを示すとは限らないこと。

(2) 上記のようなキーワードのふるまいに基づく将来展開予測手法は、災害ごとの特徴的な問題や教訓そのもの、および時系列的な展開の速さの差異などを客観的に可視化する有効な方法であることが示された。

(3) 株取引分野で投資家やトレーダが株価動向を予測する際に用いる株価チャートを援用し、特異語の特異値のデータセットを適用したところ、移動平均線、ローソク足、出現頻度（出来高）の示すパターンから、特異値が上昇するトレンドを捉えることができる例があることを確認した。

(4) 株価チャートの指標の描画方法を援用した特異値チャートで災害および危機に関する事象の将来展開を予測するできる可能性を示した。

なお、上述の実施例では、ウェブ報道をコーパスとして利用するようにしたが、たとえば災害対策本部などにおける危機対応時に情報作戦を担う部門には、本部会議における議事録や住民からの声（クレーム情報）などが寄せられるので、これらのような加工されていない生の言語資料をコーパスとして用いることによって、社会現象としての災害および危機事象について、より確実で効用の高い将来展開の予測が行える可能性がある。

また、コーパスは災害や危機に関するものだけではなく、時間的に増量する、ニュース，ウェブニュース，ブログ，新聞，雑誌，インタビュー記録，供述調書，アンケート，小説などのような任意の言語資料についてこの発明を適用できることは勿論である。

なお、選択した特異語や一般語さらには特異語の変化の状態を可視的に出力するために実施例ではそれらをモニタ上で表示するようにしたが、当然この表示に代えて、もしくはその表示に加えて、たとえばプリンタによって印刷出力することも可能である。

なお、上述の実施例では、時間増加型ＴＦＩＤＦを用いて、時系列的に増量する言語資料から時系列順序に応じた特異語（キーワード）を抽出または検出してそれらの振舞いを可視的に表示するようにしたが、自由回答記述，インタビュー記録，供述調書，アンケート，小説などのように時系列的に増量しない言語資料も、任意の順序基準を用い、その順序基準に従って増量する言語資料とみなせば、その順序基準に従う増加型ＴＦＩＤＦを用いることによって、同様の手法で、その順序基準に応じた特異語（キーワード）を抽出または検出することができる。たとえば、自由回答記述の場合には、順序基準として、たとえば、災害の社会調査における、回答者の年齢、家屋の被害程度、被害額、世帯年収などの順序基準を用い、その順序基準に従って各自由回答記述（単位ドキュメント）を並べるようにすれば、この背景技術の文書解析装置と同じ手法を適用することができる。また、通勤事情に関する自由回答形式の調査票を解析する場合には、たとえば、通勤時間や通勤に係る交通費を「順序基準」として採用することも可能である。

したがって、上述の説明では従来の単純なＴＦＩＤＦに代えて「時間増加型ＴＦＩＤＦ」を用いたが、この発明の場合、順序基準が「時間」に限定されないので、以下の請求の範囲および発明の概要における関連の説明では、単に「増加型ＴＦＩＤＦ」と呼ぶことにする。

この発明が詳細に説明され図示されたが、それは単なる図解および一例として用いたものであり、限定であると解されるべきではないことは明らかであり、この発明の精神および範囲は添付されたクレームの文言によってのみ限定される。

１０ …文書解析装置
１２ …ネットワーク
１４ …コンピュータ
１６ …テキストデータベース
１８ …分析データベース
２６，４４…ＧＵＩ

Claims

順序基準に従って増量する言語資料を解析する文書解析装置であって、
順序基準に従った順序を有し、かつその順序が後のものが先のものに比べて多い数の単位ドキュメントのテキストデータを含むテキストコーパスを作成するコーパステキスト作成手段、
前記コーパステキストに含まれるテキストデータを構成する形態素に品詞情報を付加する形態素解析手段、
前記品詞情報に基づいて前記テキストデータから不要な形態素を取り除く不要形態素除去手段、
前記不要形態素除去手段によって除去されなかった形態素について、形態素毎に、増加型ＴＦＩＤＦを計算して増加型ＴＦＩＤＦの実測値を得る計算手段、
前記計算手段で計算した前記実測値の累計値と前のコーパスにおいて推定した前記増加型ＴＦＩＤＦの累計値の推定値との間で残差分析をして形態素毎の特異値を求める残差分析手段、
前記残差分析手段による残差分析の結果、正の特異値が得られた形態素を当該コーパスにおける特異語として選定する特異語選定手段、および
前記特異語選定手段によって選定された特異語の変化の状態を可視的に出力する変化状態出力手段を備える、文書解析装置。
順序基準において任意のコーパスから求められる形態素毎の増加型ＴＦＩＤＦの累計値とＴＦの累計値とで回帰曲線を作成する回帰曲線作成手段をさらに備え、
前記残差分析手段は、前記回帰曲線作成手段が順序基準において前のコーパスで作成した回帰曲線と、順序基準において現在のコーパスにおいて前記計算手段が計算した各形態素の前記増加型ＴＦＩＤＦの前記実測値との間で残差分析を行なう、請求項１記載の文書解析装置。
前記残差分析手段によって前記特異語として選定された１つ以上の特異語の累積特異値を計算する累積特異値計算手段、および
前記１つ以上の特異語の累積特異値を、特異語毎に可視的に出力する累積特異値出力手段をさらに備える、請求項１または２記載の文書解析装置。
前記累積特異値出力手段は、累積特異値の大きさに従った順序で各特異語を配列する、請求項３記載の文書解析装置。
前記変化状態出力手段は、前記残差分析手段によって前記特異語として選定された１つ以上の特異語の特異値の移動平均を計算する移動平均計算手段、および前記移動平均に従って移動平均線を可視的に出力する移動平均線出力手段を含む、請求項１ないし４のいずれかに記載の文書解析装置。
前記変化状態出力手段は、前記残差分析手段によって前記特異語として選定された１つ以上の特異語のローソク足を可視的に出力するローソク足出力手段を含む、請求項１ないし５のいずれかに記載の文書解析装置。
前記ローソク足は、各日、週足および月足の少なくとも１つを含み、ローソク足は、各足について、特異値の始まりの値、終わりの値、最大値および最低値を含む、請求項６記載の文書解析装置。
前記変化状態出力手段は、前記特異語の出現頻度を前記ローソク足とともに出力する出現頻度出力手段を含む、請求項６または７記載の文書解析装置。
順序基準に従って増量する言語資料を解析する文書解析方法であって、
順序基準に従った順序を有し、かつその順序が後のものが先のものに比べて多い数の単位ドキュメントのテキストデータを含むテキストコーパスを作成するコーパステキスト作成ステップ、
前記コーパステキストに含まれるテキストデータを構成する形態素に品詞情報を付加する形態素解析ステップ、
前記品詞情報に基づいて前記テキストデータから不要な形態素を取り除く不要形態素除去ステップ、
前記不要形態素除去ステップによって除去されなかった形態素について、形態素毎に、増加型ＴＦＩＤＦを計算して増加型ＴＦＩＤＦの実測値を得る計算ステップ、
前記計算ステップで計算した前記実測値の累計値と前のコーパスにおいて推定した前記増加型ＴＦＩＤＦの累計値の推定値との間で残差分析をして形態素毎の特異値を求める残差分析ステップ、
前記残差分析ステップによる残差分析の結果、正の特異値が得られた形態素を当該コーパスにおける特異語として選定する特異語選定ステップ、および
前記特異語選定ステップによって選定された特異語の変化の状態を可視的に出力する変化状態出力ステップを含む、文書解析方法。
順序基準に従って増量する言語資料を解析する文書解析装置のコンピュータによって実行される文書解析プログラムであって、前記プログラムは前記コンピュータを、
順序基準に従った順序を有し、かつその順序が後のものが先のものに比べて多い数の単位ドキュメントのテキストデータを含むテキストコーパスを作成するコーパステキスト作成手段、
前記コーパステキストに含まれるテキストデータを構成する形態素に品詞情報を付加する形態素解析手段、
前記品詞情報に基づいて前記テキストデータから不要な形態素を取り除く不要形態素除去手段、
前記不要形態素除去手段によって除去されなかった形態素について、形態素毎に、増加型ＴＦＩＤＦを計算して増加型ＴＦＩＤＦの実測値を得る計算手段、
前記計算手段で計算した前記実測値の累計値と前のコーパスにおいて推定した前記増加型ＴＦＩＤＦの累計値の推定値との間で残差分析をして形態素毎の特異値を求める残差分析手段、
前記残差分析手段による残差分析の結果、正の特異値が得られた形態素を当該コーパスにおける特異語として選定する特異語選定手段、および
前記特異語選定手段によって選定された特異語の変化の状態を可視的に出力する変化状態出力手段として機能させる、文書解析プログラム。