JPWO2010055663A1 - 文書解析装置および方法 - Google Patents

文書解析装置および方法 Download PDF

Info

Publication number
JPWO2010055663A1
JPWO2010055663A1 JP2010537697A JP2010537697A JPWO2010055663A1 JP WO2010055663 A1 JPWO2010055663 A1 JP WO2010055663A1 JP 2010537697 A JP2010537697 A JP 2010537697A JP 2010537697 A JP2010537697 A JP 2010537697A JP WO2010055663 A1 JPWO2010055663 A1 JP WO2010055663A1
Authority
JP
Japan
Prior art keywords
singular
value
corpus
morpheme
tfidf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2010537697A
Other languages
English (en)
Inventor
春男 林
春男 林
Original Assignee
トレンドリーダーコンサルティング株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by トレンドリーダーコンサルティング株式会社 filed Critical トレンドリーダーコンサルティング株式会社
Publication of JPWO2010055663A1 publication Critical patent/JPWO2010055663A1/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Abstract

文書解析装置では、コンピュータが、抽出した特異語の累積特異値を計算することによって、その特異語のふるまいグラフや特異語の特異値チャートのように、特異語の変化の状態を可視化して表示できる。つまり、順序基準に従った順序が後のものが先のものに比べて多い数の単位ドキュメントを含むテキストコーパスを作成し、順序基準が前のコーパスにおいて推定しておいた該当の形態素の増加型TFIDFの累計値の推定値と、対象のコーパスにおいて計算した増加型TFIDFの累計値の実測値との間で残差分析を行ない、その残差分析の結果、正の特異値が得られた形態素を当該コーパスにおける特異語として選定し、その特異語の変化の状態、たとえば移動平均線などを可視的に出力する。

Description

この発明は文書解析装置および方法に関し、特にたとえばニュース,ウェブニュース,ブログ,新聞,雑誌,インタビュー記録,供述調書,アンケート,小説などのように、時系列的に増量する言語資料から時系列順序に応じた特異語(キーワード)を抽出または検出できる、新規な文書解析装置および方法に関する。
本件出願人は、上記のような文書解析装置を特許文献1で提案した。
WO 2008/062910 A1 [G06F 17/30]
特許文献1で提案した文書解析装置によれば、たとえばニュースなどのように、時系列的に順序を有し、あるいは時系列的に情報量が増加する性質を持つテキストデータ群から効果的に特異語を検出ないし抽出することができるが、さらに優れた機能を有する文書解析装置および方法が望まれる。
それゆえに、この発明の主たる目的は、新規な、文書解析装置および方法を提供することである。
この発明の他の目的は、時間のような順序基準に従って増量する言語資料から抽出した特異語のふるまいを提示することができる、文書解析装置および方法を提供することである。
この発明のさらに他の目的は、特異語の変化の様子を提示できる、文書解析装置および方法を提供することである。
この発明は、上記の課題を解決するために、以下の構成を採用した。なお、括弧内の参照符号および補足説明等は、この発明の理解を助けるために後述する実施形態との対応関係を示したものであって、この発明を何ら限定するものではない。
第1の発明は、順序基準に従って増量する言語資料を解析する文書解析装置であって、順序基準に従った順序を有し、かつその順序が後のものが先のものに比べて多い数の単位ドキュメントのテキストデータを含むテキストコーパスを作成するテキストコーパス作成手段、コーパステキストに含まれるテキストデータを構成する形態素に品詞情報を付加する形態素解析手段、品詞情報に基づいてテキストデータから不要な形態素を取り除く不要形態素除去手段、不要形態素除去手段によって除去されなかった形態素について、形態素毎に、増加型TFIDFを計算して増加型TFIDFの実測値を得る計算手段、計算手段で計算した実測値と前のコーパスにおいて推定した増加型TFIDFの累計値の推定値との間で残差分析をして形態素毎の特異値を求める残差分析手段、残差分析手段による残差分析の結果、正の特異値が得られた形態素を当該コーパスにおける特異語として選定する特異語選定手段、および特異語選定手段によって選定された特異語の変化の状態を可視的に出力する変化状態出力手段を備える、文書解析装置である。
第1の発明では、文書解析装置は、典型的には、コンピュータで構成される。実施例のように順序基準が時間である言語資料の場合、コーパステキスト作成手段(S3:実施例で対応する部分を例示的に示す参照符号。以下同様。)は、たとえば予め設定した時間が経過すると、時系列順序が先のコーパスに比べて、含まれる単位ドキュメントの数が多い現在時間のコーパスを作成する。時間経過とともに逐次増量するたとえばウェブニュースのような場合には、設定時間(設定時間は任意である。)の経過に伴ってそのウェブニュースのテキストデータを用いてコーパステキストを作成するが、言語資料には逐次増量する文書だけでなく、単に時系列順序だけを有する文書もある。後者の場合には、コーパス作成手段は時間経過に応じてコーパステキストを順次作成するのではなく、時系列順序に先後のある複数のコーパステキストを一度に準備または作成するようにしてもよい。
形態素解析手段(S5)は、たとえば日本語のように形態素が分割されていない言語体系のテキストデータである場合、たとえば茶筌(http://chasen.naist.jp/hiki/ChaSen/)のような形態素解析ツールを用いて、そのコーパスに含まれる単位ドキュメントのテキストデータを形態素に分解して、各形態素に品詞情報を付加する。しかしながら、テキスト内の形態素が既に分割している、たとえば英語のような言語体系の場合には、形態素を分割する作業(分かち書き、tokenization)は必要ではなく、この形態素解析手段では、ステミング処理(stemming)によって、活用形を原形に直したのちに、たとえばタギング処理(tagging)によって、テキストを構成する各形態素に品位情報を付加する。
不要形態素除去手段(S7)は、各形態素に付加された上述の品詞情報に基づいて、不要形態素として設定しておいた品詞の種類の形態素を取り除く。つまり、形態素解析の際に、各形態素に付与される品詞情報に基づいて、当該形態素を特異語および/または共通語の候補として採用するか否かを選定する。ただし、不要とする形態素の品詞の種類は、任意に設定できる。英文の場合には、ストップワード(stopword)と呼ばれる冠詞や前置詞からなる、極めて頻繁に使われるキーワードとして不適切な単語のリストを参照することによって、不要な形態素を取り除く。一般公開されているストップワードのリストとしては、SMARTシステム(http://jmlr.csail.mit.edu/papers/volume5/lewis04a/a11-smart-stop-list/english.stop)が挙げられる。
計算手段(S9)は、そのコーパスに残った形態素の各々について、TF(Term Frequency)つまり単位ドキュメント中にそのキーワード候補が出現する頻度(延べ数)を計算し、さらに時間のパラメータを考慮したIDF(InversedDocument Frequency)つまり他には出現していないという独自性値を計算することによって、当該コーパスにおける当該形態素の増加型TFIDF(TermFrequency Inversed Document Frequency)を「TF」×「IDF」として計算する。
残差分析手段(S15)は、たとえば、順序基準たとえば時間的順序が前のコーパスにおいて推定しておいた該当の形態素の増加型TFIDFの累計値の推定値と、上記計算手段が計算した増加型TFIDFの累計値の実測値との間で残差分析を行ない、その形態素の残差値(特異値)(正,負)を求める。
特異語選定手段(14,S17,26,44,S39,S59)は、残差分析手段による残差分析の結果、正の特異値が得られた形態素を当該コーパスにおける特異語として選定する。変化状態出力手段(14,S43,S45,S65,S67,S69,S73)は、選定された対象特異語の変化の状態を可視的に出力する。
第1の発明によれば、言語資料体が時系列的に(順序基準に従って)増量するものであっても、コーパス作成手段が、順序基準に従った順序たとえば時系列順序が後のものが先のものに比べて多い数の単位ドキュメントを含むテキストコーパスを作成し、それらコーパスに基づいて増加型TFIDFの累計値を目的変数とし、TFの累計値を説明変数とする回帰曲線を作成していているため、現在のコーパスの増加型TFIDFの累計値を、その前のコーパスで作成された回帰曲線上に当該指標が分布するものと仮定して、現在のコーパスのTFの累計値を入力値とする現在のコーパスの増加型TFIDFの累計値の推定値を得るという処理の流れによって、その言語資料体を確実に解析し、1つ以上の特異語を選定することができる。そして、1つ以上特異語についての変化状態を目視によって確認できるので、その変化状態に基づいて、その特異語ひいてはそのコーパスを形成する災害等の将来的な動向が予測できる。
第2の発明は、第1の発明に従属し、順序基準において任意のコーパスから求められる形態素毎の増加型TFIDFの累計値とTFの累計値とで回帰曲線を作成する回帰曲線作成手段をさらに備え、残差分析手段は、回帰曲線作成手段が前の時点のコーパスで作成した回帰曲線と、現在のコーパスにおいて計算手段が計算した各形態素の増加型TFIDFの実測値との間で残差分析を行なう文書解析装置である。
第2の発明では、回帰曲線作成手段は、説明変数であるTFの累計値(ΣTF)をXとし、従属変数である増加型TFIDFの累計値(Σ増加型TFIDF)をYとして、定数を計算して回帰曲線を作成する。ただし、このような回帰曲線の計算は、順序基準たとえば時系列順序が前のコーパスで予め計算しておくものである。第2の発明によれば、順序基準たとえば時系列順序が前のコーパスにおいて順序基準たとえば時系列順序が後のコーパスにおける増加型TFIDFの累計値の推定または予測のための回帰曲線を準備しておくので、当該後のコーパスにおける残差分析が迅速に行なえる。
第3の発明は、第1または第2の発明に従属し、残差分析手段によって特異語として選定された1つ以上の特異語の累積特異値を計算する累積特異値計算手段、および1つ以上の特異語の累積特異値を、特異語毎に可視的に出力する累積特異値出力手段をさらに備える、文書解析装置である。
第3の発明では、累積特異値計算手段(14,S35,S55)が、残差分析によって特異語と判定された各特異語について、累積特異値(ΣD)を計算する。各形態素は、上述のように、特異値(残差値)という指標で任意の時間断面における特異性を評価する。この特異値を累積することにより、累積した時点までの各特異語の重要性を評価できるので、累積特異値を計算し、それをユーザに見せることによって、ユーザによる、将来展開の予測すべき対象であると考えられる特異語の選定を容易にする。
ただし、特異値が正を示した形態素は各時間断面を特徴づける特異語であるが、負の値を示した形態素はコーパスに遍在する共通語である。したがって、単純に特異値を足し合わせれば、任意の形態素が特異語から共通語になった場合などにおいて、負の値が足し合わされていく。このような形態素は、ある一定の期間に重要な事象に関連する特異語であったにもかかわらず、累積特異値としては小さくなってしまい、重要な特異語として求めることができない可能性がある。そこで、好ましくは、正の特異値だけを累算するようにしている。
第4の発明は、第1ないし第3の発明に従属し、累積特異値出力手段は、累積特異値の大きさに従った順序で各特異語を配列する、文書解析装置である。
第4の発明では、累積特異値の大きい順番に各特異値がたとえばランキング形式で出力されるので、ユーザによる特異値の選択が一層容易になる。
第5の発明は、第1ないし第4のいずれかの発明に従属し、変化状態出力手段は、残差分析手段によって特異語として選定された1つ以上の特異語の特異値の移動平均を計算する移動平均計算手段、および移動平均に従って移動平均線を可視的に出力する移動平均線出力手段を含む、文書解析装置である。
第5の発明では、移動平均計算手段(14,S43,S67)によって計算した結果得られた移動平均線を出力する(S45,S73)。ユーザは移動平均線を視認することによって、対象特異語すなわちコーパスの元となった事象の将来の変動を容易に、直感的に予測することができる。
第6の発明は、第1ないし第5の発明のいずれかに従属し、変化状態出力手段は、残差分析手段によって特異語として選定された1つ以上の特異語のローソク足を可視的に出力するローソク足出力手段を含む、文書解析装置である。
第6の発明では、ローソク足を求めるために、たとえば、対象特異語の時系列データセットを抽出する。このデータセットは、たとえば、一方軸に各特異語が配列され、他方軸が特異語毎に各時点の特異値を示すマトリクス(スプレッドシート,配列,データベーステーブル)形式で表現でき、特異語解析をした時点でこれらのデータは分析データベースかあるいはコンピュータの内部メモリに格納されている。したがって、コンピュータはそのような格納データから必要なデータセットを抽出する。
ローソク足は、1日(日足)や1週間(週足)や1ヶ月(月足)における特異値データの中から、始まりの特異値(始値)、終わりの特異値(終値)、最高の特異値(高値)、最低の特異値(安値)を取り出し、前2つの特異値を四角形(胴体)で、後2つの特異値を線(ヒゲ)で表す図である。四角形の上端と下端が、始値か終値のいずれかを表し、終値と始値を比較し、終値が高ければ白い四角形、低ければ黒い四角形で表される。胴体の上下端から高値と安値の値を結んだものがヒゲとなる。
ローソク足は主として株取引の分野において売買のタイミングを計る指標として利用されていて、それぞれ固有の解釈が可能である。たとえば、大陽線(長い陽線)の場合、買い圧力が強く、強い上昇エネルギがあるので、買いのサインであると判断できる。窓あけ急騰(連続してローソク足が並ばず、間をあけて動くもの)の場合にも強い上昇エネルギがある。高値圏で大陽線が出現した場合には、下降トレンドに転じることが多ので、この場合には、売りのサインが出ていると考えられる。買いのサインはある銘柄の株価が上昇する予兆であり、売りのサインは株価が下落する予兆であるため、この発明の文書解析の考え方に問題を置き換えれば、前者は重要な事象になる恐れ、後者は以降、その逆の傾向になることを意味する。
ローソク足を可視的に提示することによって、株取引の考え方を応用して、特異語ひいては事象の将来展開が予測できる。
第7の発明は、第6の発明に従属し、前記ローソク足は、各日、週足および月足の少なくとも1つを含み、ローソク足は、各足について、特異値の始まりの値、終わりの値、最大値および最低値を含む、文書解析装置である。
第8の発明は、第6または第7の発明に従属し、変化状態出力手段は、特異語の出現頻度をローソク足とともに出力する出現頻度出力手段を含む、文書解析装置である。
出現頻度は株取引の場面で相場のエネルギを表す出来高に通じるもので、相場のエネルギが株価を左右するのと同様に、特異語の出現頻度が特異的に高まることによって特異値が増加する。株の世界では安値圏で高い出来高が出た場合は上昇トレンドになる傾向があると言われているので、出現頻度を見て、重要な事象になるかどうか判断(予測)することができる。
第9の発明は、順序基準に従って増量する言語資料を解析する文書解析方法であって、順序基準に従った順序を有し、かつその順序が後のものが先のものに比べて多い数の単位ドキュメントのテキストデータを含むテキストコーパスを作成するコーパステキスト作成ステップ、コーパステキストに含まれるテキストデータを構成する形態素に品詞情報を付加する形態素解析ステップ、品詞情報に基づいてテキストデータから不要な形態素を取り除く不要形態素除去ステップ、不要形態素除去ステップによって除去されなかった形態素について、形態素毎に、増加型TFIDFを計算して増加型TFIDFの実測値を得る計算ステップ、計算ステップで計算した実測値の累計値と前のコーパスにおいて推定した増加型TFIDFの累計値の推定値との間で残差分析をして形態素毎の特異値を求める残差分析ステップ、残差分析ステップによる残差分析の結果、正の特異値が得られた形態素を当該コーパスにおける特異語として選定する特異語選定ステップ、および特異語選定ステップによって選定された特異語の変化の状態を可視的に出力する変化状態出力ステップを含む、文書解析方法である。
第9の発明でも第1の発明と同様の効果が期待できる。
第10の発明は、順序基準に従って増量する言語資料を解析する文書解析装置のコンピュータによって実行される文書解析プログラムであって、プログラムはコンピュータを、順序基準に従った順序を有し、かつその順序が後のものが先のものに比べて多い数の単位ドキュメントのテキストデータを含むテキストコーパスを作成するコーパステキスト作成手段、コーパステキストに含まれるテキストデータを構成する形態素に品詞情報を付加する形態素解析手段、品詞情報に基づいてテキストデータから不要な形態素を取り除く不要形態素除去手段、不要形態素除去手段によって除去されなかった形態素について、形態素毎に、増加型TFIDFを計算して増加型TFIDFの実測値を得る計算手段、計算手段で計算した実測値の累計値と前のコーパスにおいて推定した増加型TFIDFの累計値の推定値との間で残差分析をして形態素毎の特異値を求める残差分析手段、残差分析手段による残差分析の結果、正の特異値が得られた形態素を当該コーパスにおける特異語として選定する特異語選定手段、および特異語選定手段によって選定された特異語の変化の状態を可視的に出力する変化状態出力手段として機能させる、文書解析プログラムである。
第10の発明でも第1の発明と同様の効果が期待できる。
この発明によれば、言語資料の増量に応じて、順序基準に従った順序たとえば時系列順序が先後のコーパスにおいて単位ドキュメントの数を増加させたコーパスを作成するようにしているので、言語資料がたとえば時系列的に増量するものであっても、確実に分析または解析して、たとえば特異語や共通語を抽出することができる。しかも、特定の特異語の変化の状態を目視可能に出力するので、当該特異語ひいてはそのコーパスを形成する事象の将来の変化を予測することかできる。
この発明の上述の目的,その他の目的,特徴,および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。
図1はこの発明の一実施例であるキーワード検出システムを示すブロック図である。 図2はこの実施例で用いられるテキストデータテーブルの一例を示す図解図である。 図3は図1実施例のコンピュータの動作を示すフロー図である。 図4はこの実施例で作成する時間とともに増加するコーパスの一例を示す図解図である。 図5は各記事および形態素の出現頻度の解析結果の一例を示す表である。 図6は各記事および形態素に対する単位ドキュメント数Nを示す表である。図6(A)は言語資料体が一定量である一般的な場合(時間の経過とともに増加しない場合)を示し、図6(B)は時系列的に増量する言語資料体を解析する実施例の場合を示す。図6(A)は、他の図(図5〜8)との表記を統一させるために、表示例の形態素(t1,t2,t3,…)毎に単位ドキュメント数Nを示してある。 図7は各記事および形態素に対するDFを示す表である。図7(A)は言語資料体が一定量である一般的な場合(時間の経過とともに増加しない場合)を示し、図7(B)は時系列的に増量する言語資料体を解析する実施例の場合を示す。 図8は各記事および形態素に対するTFIDF(A)および時間増加型TFIDF(B)を示す表である。図8(A)は言語資料体が一定量である一般的な場合(時間の経過とともに増加しない場合)を示し、図8(B)は時系列的に増量する言語資料体を解析する実施例の場合を示す。 図9は回帰曲線の一例を示す図解図である。 図10は回帰曲線とそれに対する残差(正負)を示すグラフであり、横軸にTFの総和を、縦軸に時間増加型TFIDFの総和をとる。 図11は図1実施例のコンピュータで表示される1つの表示例を示す図解図である。 図12は図1実施例のコンピュータで表示される別の表示例を示す図解図である。 図13はコーパス毎の図9と同様の回帰曲線を示すグラフであり、図13(A)が発災から10時間後のコーパスにおける回帰曲線を示し、図13(B)が発災から100時間後のコーパスにおける回帰曲線を示し、図13(C)が発災から1000時間後のコーパスにおける回帰曲線を示し、図13(D)が発災から4500時間後のコーパスにおける回帰曲線を示す。 図14はコーパスと回帰曲線との関係を示す図解図である。 図15はこの発明の一実施例の動作を示すフロー図である。 図16は図15実施例におけるGUIの一例を示す図解図である。 図17は図15実施例において1つのコーパスを選択した場合の各特異語の累積特異値を表示するグラフの一例を示す図解図である。 図18は図15実施例においてコーパスとして中越沖地震を選択した場合の特異語「観光」のふるまいをグラフ表示した例を示す図解図である。 図19は図15実施例においてコーパスとして中越沖地震を選択した場合の特異語「入居」のふるまいをグラフ表示した例を示す図解図である。 図20はこの発明の他の実施例の動作を示すフロー図である。 図21は図20実施例におけるGUIの一例を示す図解図である。 図22は中越沖地震における累積特異値の分布特性を示すヒストグラムの一例をグラフ表示した図解図である。 図23は中越沖地震のウェブニュースのコーパスにおけるカットオフ値、すなわち上位1%や5%、上位10位、20位、30位、40位、50位、100位となる累積特異値の時間変化をグラフ表示した図解図である。 図24は中越沖地震における特異語「観光」の日足および出現頻度のグラフ表示を示す図解図である。 図25は中越沖地震における特異語「観光」の週足および出現頻度のグラフ表示を示す図解図である。
以下の説明では、本件発明が利用できる、かつ本件発明の実施例となり得る文書解析装置を、本件発明の理解に必要な範囲で、まず説明し、その後、本件発明の実施例を説明する。
図1に示すこの発明の背景となるかつこの発明の一実施例ともなる文書解析装置10は、たとえばインターネットのような通信網(ネットワーク)12に有線または無線で結合されるコンピュータ14を含む。コンピュータ14には、基本的に、キーボードやマウスのような操作手段15Aおよび液晶表示器のようなモニタ15Bが設けられていて、この
コンピュータ14には、さらに、テキストデータベース16および分析データベース18が付設される。コンピュータ14は当然、内部メモリを有し、その内部メモリ(図示せず)はワーキングメモリなどとして利用され、計算して得られた結果データや、解析結果データ、さらにはその解析途中の各種データなどを一時的に記憶する。
テキストデータベース16には、たとえば、このコンピュータ14がネットワーク12を通して取得した時間順次のウェブニュースのテキストデータが逐次記憶され、コンピュータ14はこのウェブニュースのテキストデータを順次分析または解析することによって、時系列的に変遷する特異語および共通語(キーワード)を抽出する。
テキストデータベース16に蓄積されるテキストデータテーブル20の一例が図2に示される。テキストデータテーブル20は、具体的には、テキストデータで構成される言語資料から、任意の一定の大きさをもつ「単位ドキュメント」のテキストデータを1つのレコードに持つテーブルである。
単位ドキュメントの例としては、ウェブニュースの場合であれば、所定期間内の記事、1日の記事、1つの記事、1つの段落、1つの文などがある。新聞を例にとれば、1紙、1つの記事、1つの段落、1つの文などがある。文学作品(小説)などの場合には、1つの作品、1つの章、1つの段落、1つの文などがある。その他、ウェブ上のブログを解析対象とした場合には,1つの日記を単位ドキュメントとしたり、コールセンターへの1つの問い合わせや苦情などを単位ドキュメントにしたりするなど、言語資料に対して任意の単位を「単位ドキュメント」として定めて、データベース20を作成する。
図2に示すように、1つのレコードに対しては、数度やアルファベットなどで形成される識別子(ID番号)22およびテキストデータ24のほか、時間情報(時刻スタンプ)26をメタデータとして付与する。時間情報26には、ウェブニュース記事であれば発信日時、コールセンターへの問い合わせであれば問い合わせ時間などが該当する。この実施例の文書解析装置10は、ニュースやブログなど時間とともに文字数が増加していく言語情報を対象としている。しかしながら、文学作品等のように常には更新されないような言語資料であっても、言語資料は線状性を有しているため、言語資料を読む人は、時間の経過ともに言語情報を理解することになる。したがって、小説や文学作品のように一見静的で時間情報を持たない言語資料については、図2に示す時間情報26のフィールドに、時間情報の代わりに順序情報(1章,2章,…、1段落目,2段落目,…、1文目,2文目,…など)をメタデータとして付与すればよい。その他、必要に応じて任意のフィールド、たとえばタイトル26を設けて、データベーステーブル20を作成する。
もし、このテキストデータテーブル20をコンピュータ14が作成するときには、たとえばコンピュータ14の中にインストールされている、DBMS(Data BaseManagement System:データベース管理システム)のようなアプリケーションを用いて、たとえばネットワーク12を通して取得したウェブニュースなどからテキストデータテーブルを作成することができる。
なお、図2に示す1つの識別記号(ID)22で区別されるかつ時系列情報26が付された1つの単位ドキュメントのテキストデータ24(図2)を含むものを、1レコードと呼ぶ。そして、言語資料体(コーパス)とは、このようなレコードの集合を意味する。
後述の実施例では、キーワード(特異語、共通語)を検出すべき時系列的に増量する言語資料体として、ウェブニュースを試用しているが、この種の言語資料としては、他に、新聞,雑誌,インタビュー記録,供述調書,アンケート,小説など任意の時間要素を含むデータが想定できる。
分析データベース18には、後述の形態素分析のための品詞辞書など、この実施例においてキーワード検出に必要な全ての辞書や文法ルールなどを予め記憶しているとともに、分析結果も蓄積する。ただし、この分析データベース18は、上述のテキストデータベース16も同様であるが、コンピュータ14の内部メモリで構成されていてもよい。
コンピュータ14は、図3に示すキーワード抽出プログラムに従ってキーワードを抽出ないし検出する。
図3を参照して、最初のステップS1で、コンピュータ14は、設定時間が経過したかどうか判断する。「設定時間」とは、実施例のように時系列的に増量する言語資料から、時系列順序を有する各コーパスを画定するための、区切りの時間(Δt)である。この「設定時間」はユーザが自由に設定できる。たとえば、状況変化が短時間で生じるような言語資料を分析する際には、短い設定時間(Δt)を設定すればよく、逆の言語資料の場合には、設定時間Δtを長くすればよい。Δtの例としては、1時間、10時間、100時間、1日、1週間、1ヶ月など挙げられる。また、このΔtを時間の経過とともに変更することも考えられる。一例として、災害発生から24時間経過するまではたとえばΔtを「1時間」に設定し、それ以降災害から3日目まではたとえばΔtを「10時間」に設定し、さらに1ヶ月以上経過したときにはたとえばΔtを「1日」として設定する。
そして、ユーザによって任意の設定時間が設定されると、その設定時間はコンピュータ14の適宜のメモリ領域(レジスタ)に記憶されるので、コンピュータ14は、内部の時計データをレジスタに設定された設定時間と比較することによって、ステップS1で設定時間が経過したかどうか、判断することができる。
ステップS1で“YES”が判断されると、続いてコンピュータ14はステップS3においてコーパス作成処理を実行し、設定時間(Δt)の間に増量した単位ドキュメントのテキストデータを、たとえば図2に示すテキストデータテーブル20から読み込み、今回のテキストコーパスC(t)を作成する。
図4に示すコーパスC(t)は現在時間のコーパスを示すが、このコーパスC(t)は、それより時系列順序が先のコーパスC(t-Δt)より、設定時間Δt後に形成したコーパスである。つまり、コーパスC(t)は、直前のコーパスC(t-Δt)と増量分のコーパスC(Δt)とを合計したものである。
なお、「コーパス(corpus)」とは、言語分析のための文字言語、あるいは音声言語資料の集合体として定義されるもので、特に電子テキストで構築されたものを指し、一般には、電子的なオリジナルのテキスト群を収集したものを指すが、この実施例では、上記の定義を広義にとらえ、オリジナルテキストに対して時間増加型TFIDFやTF(いずれも後述)の情報をもつ形態素群を便宜的にコーパスと呼ぶことにする。したがって、ここでいうテキストコーパスは、少なくとも1つのレコードつまり少なくとも1つの単位ドキュメントのテキストデータを含む言語資料体を意味するものと理解されたい。
続いて、ステップS5において、そのコーパスに含まれるテキストデータ24(図2)を形態素に分割し、品詞情報を付加する。ここで、形態素解析とは、自然言語で書かれた文を形態素(Morpheme、おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、品詞を見分ける言語処理のことである。参照する情報源として、対象言語の文法の知識(ここでは文法のルールの集まり)と辞書(品詞等の情報付きの単語リスト)を用いるが、これらの文法ルールや辞書は、上述のように、上記分析データベース18に予め準備されている。
なお、実施例では、一例として「茶筌」(http://chasen.naist.jp/hiki/ChaSen/)というフリーの形態素解析ソフトをコンピュータ14に導入して利用した。
なお、文書が日本語の場合、実施例では、まず形態素を分割して抽出しその抽出した形態素に付いて品詞を付与するように、上記「茶筌」のようなツールを利用した。しかしながら、たとえば英語のような言語体系では最小単位である単語は既に分割されているので、分かち書き処理(tokenization)は不要であるが、このステップS5では、活用形を原形に直す必要があるので、ステミング処理(stemming:活用形を原形に直すこと)を行い、さらに品詞を同定する必要があるので、タギング処理(tagging:語の品詞を見分けること)処理をすることになる。
また、このステップS5で解析した形態素(群)および品詞情報は、テキストデータベース16に蓄積される。
続くステップS7において、コンピュータ14は、上述の品詞情報に基づいて、不要語として設定しておいた品詞の種類の形態素を取り除くための不要形態素除去処理を実行する。
つまり、形態素解析の際に、各形態素に付与される「品詞情報」に基づいて、当該形態素をキーワードの候補として採用するか否かを選定する。不要語とする形態素(特異語(キーワード)/共通語の候補)の品詞の種類は、形態素解析システムが出力する品詞体系と、ユーザの解析の意図によって異なる。不要形態素と認定する品詞の種類はユーザが任意で定められるものとする。発明者等が実際に解析を行なった実験では、「茶筅」を用いて分析した結果の、非自立や接尾の形を取らない名詞、動詞、副詞、形容詞以外を不要形態素とした。ただし、どのような品詞の形態素を不要語とするかという不要語除去規則もまた、分析データベース18に予め設定しておけばよい。なお、英文の場合には、先に説明したように、ストップワード(stopword)と呼ばれる、極めて頻繁に使われるキーワードとして不適切な単語のリストを参照することによって、不要な形態素を取り除く。
ステップS7を実行した後には、たとえばテキストデータベース16に蓄積されている当該コーパスの中に必要な1つ以上形態素が残っている。したがって、ステップS9の処理は、そのコーパスに除去されずに残っているすべての形態素ついて実行される。つまり、コンピュータ14は、ステップS9において、残っているすべての形態素の各々について時間増加型TFIDFを求める。
ここで、「TF」はTerm Frequency、つまり単位ドキュメント中にそのキーワード候補が出現する頻度(延べ数)(出現頻度)であり、時間のパラメータを考慮した「IDF」は、InversedDocument Frequency(逆出現文書数)、つまり、他には出現していないという独自性を示す。したがって、「時間増加型TFIDF」とは、「TF」×「IDF」のことであり、TermFrequency Inversed Document Frequencyといい、TF*IDFと表すこともあるが、ここでは、時間増加型TFIDFと表現する。時間増加型TFIDFは、一種の重み付け指標となる。
仮に、図5に示すように記事数が逐次変化する場合であっても、一般的な解析の場合には、最終的に一定数Nの単位ドキュメントが蓄積された後に行なうので、単位ドキュメントの総数Nは、図6(A)に示すとおり一定数である。そのため、そのような一般のテキストデータを解析する際のTFIDFのDF(DocumentFrequency)、その形態素が出現する文書の数は、図7(A)に示すように一定数となる。したがって、一般的な解析手法の場合のTFIDFは図8(A)のようになる。
これに対して、実施例のシステムで取り扱う1レコードは時間情報または順序情報26(図2)を持っているため、各レコード(テキストデータ)は、時系列順または順序情報順に並べることができる。したがって、その際の時間増加型TFIDFのDFには、jの添え字(時間や順序の情報にもとづく添え字)が存在することになる。ここにいう「j」は、時系列順または順序情報順にレコードを並べた際の順番を表すことになる。
したがって、実施例の文書解析装置10では、たとえば、ある記事djに対するTFIDFを求める場合、最終的に収集された全件の記事に基づく単位ドキュメントの総数Nやそれに基づくDFを用いるのではなく、記事djが発行されるまでの時間に発信されていた記事の数に基づく時間を考慮したNj(記事djが発信された時点までの記事の総数)や、DF(ti,dj)(記事djが発信された時点までの形態素tiの出現文書数)を用いて、記事djが発信された時点で逐次TFIDFを計算する。この実施例の文書解析装置10では、図4に示すようにそれが含む単位ドキュメント数が時系列順序にしたがって増加するコーパスを設定し、そのコーパスにおける各形態素のTFIDFを計算することによって、時間的順序(順番)を有するテキストデータからその順序に従った特異語(キーワード)や共通語を抽出または検出する。
具体的には、通常のTFIDFは次式(1)で、ここに定義する時間増加型TFIDFは次式(2)で計算される。
[数1]
TFIDF(ti,dj)=TF(ti,dj)*IDF(ti)
IDF(ti)= log10(N/DF(ti))(1)
[数2]
時間増加型TFIDF(ti,dj)=TF(ti,dj)*IDF(ti,dj)
IDF(ti, dj)= log10(Nj/DF(ti,dj)) (2)
ここで、tiはiを識別子(ID)にもつ形態素である。つまり、TFIDF(ti,dj)を算出する対象となるキーワード候補のことである。
djはj番目の単位ドキュメントを表わす。つまり、TFIDF(ti,dj)および時間増加型TFIDF(ti,dj)を算出する対象となるキーワード候補が含まれている文書のことである。ただし、文書の単位は、文章、記事、文など任意に設定可能であるが、実施例では、ウェブニュースの記事を文書単位とした。
TFIDF(ti,dj)および時間増加型TFIDF(ti,dj)は、j番目の単位ドキュメントの形態素ti毎に算出される値である。
TF(ti,dj)は、j番目の単位ドキュメントの形態素tiごとに算出される値で、単位ドキュメントdj中に形態素tiが出現した回数(延べ数)である。
DF(ti,dj)は、1‐j番目の単位ドキュメント中に形態素tiが出現した単位ドキュメント数である。
なお、上記Njは、単位ドキュメントdjが発生している際に出現している単位ドキュメント数であり、数度のIDが1から順序だって単位ドキュメントに付与されていれば実際には、Nの値はjと同値になる。
たとえば図5に示すように、各記事(単位ドキュメント)d1,d2,d3,…に出現する形態素t1,t2,t3,…が変化する場合を想定する。この場合、単位ドキュメントの数Njをフィールドに持つテーブルが図6(B)に示すように表される。また、各単位ドキュメントのDF(ti,dj)をフィールドに持つテーブルが図7(B)のように表され、Njの値によって形態素tiを識別子にもった各単位ドキュメントの時間増加型TFIDF(ti,dj)値をフィールドに持つテーブルが図8(B)のようになる。これらのテーブルは、いずれも、テキストデータベース16に逐次蓄積される。
このようにして、ステップS9ですべての形態素の時間増加型TFIDFが計算された後、続くステップS11において、コンピュータ14は、時間増加型TFIDFの累計値Σ時間増加型TFIDFと、TFの累計値ΣTFとをそのコーパスC(t)までの実測値として計算する。なお、時間増加型TFIDF(ti,dj)が図8(B)のようになり、DF(ti,dj)が図7(B)で表されることから、TF(ti,dj)も計算することができ、ΣTFについては、TF(ti,dj)を計算した後それの累計値として計算すればよい。ただし、時間増加型TFIDFについては、図8(B)のテーブルから累計値を計算すればよい。
続くステップS13で、コンピュータ14は、そのコーパスC(t)について求めたTF(ti,dj)の累積値ΣTFをXとし、時間増加型TFIDF(ti,dj)の累積値Σ時間増加型TFIDFをYとして次式(3)への当て嵌めを行い、定数aと定数bを求め、図9に示す回帰曲線を作成する。この回帰曲線は、次のコーパスC(t+Δt)での残差分析のために、そのコーパスC(t+Δt)における時間増加型TFIDFを推定または予測するものとなる。つまり、そのコーパスC(t)までのΣTFが横軸のようになるとき、もし、次のコーパスC(t+Δt)においても時間増加型TFIDFが同じ傾向を示すなら、次のコーパスC(t+Δt)での時間増加型TFIDFは、この回帰曲線上にプロットされることになる。
[数3]
Y=aX (3)
そして、コンピュータ14は、ステップS15において、先のステップS11で計算した時間jでのコーパスC(t)における時間増加型TFIDF(ti,dj)の累計値Σ時間増加型TFIDFと、前のコーパスC(t-Δt)についてステップS13で求めた回帰曲線Y=aXによる推定値Yとの差(残差値)を求める(図10)。残差値が大きいほど、正負のいずれに拘わらず、直前のコーパスC(t-Δt)で予測した同じ形態素tiのΣ時間増加型TFIDFより離れている(乖離している)ことを、すなわち、直前のコーパスまでの常識から予測できなかったことを意味する。そこで、この残差値を、当該形態素の特異性を表す値、つまり、特異値(DiscriminatingValue)ということとする。他方、Σ時間増加型TFIDFが正の残差値(特異値)を示す形態素は、回帰曲線より上方にプロットされ、特異的または特徴的であることを意味する。Σ時間増加型TFIDFが負の残差値(特異値)を示す形態素は、特異性は全くなく、逆の性質をもつありふれた形態素であるといえる。
図10を参照して、Y=aXで示される回帰曲線に対して、形態素tiのΣ時間増加型TFIDFがこの曲線の上方にプロットできた場合、この形態素tiは正の残差値を持つことになる。正の残差値を持つということは、その形態素tiがC(t-Δt)までにあまり出現しておらず、経過したΔtの中で急激に出現したといえる。C(t)の形態素tiのΣ時間増加型TFIDFが回帰曲線より下方にある場合には,C(t-Δt)までも数多く出現した形態素であることを示している。
ステップS15ではこのようにして各形態素毎にΣ時間増加型TFIDFの推定値または予測値と実測値との間で残差分析を行ない、各形態素の特異値すなわち残差値を、たとえばデータベース16のテキストデータテーブル20(図2)にメタデータとして付加するなどして、逐次記憶する。
コンピュータ14は、次のステップS17で、上述のようにデータベース16に記憶した特異値(残差値)に従って、特異語(キーワード)および共通語(キーワード)を選定する。たとえば、正の残差値(特異値)が任意の上位数以上だった形態素を、そのコーパスを代表する特異語として選定する。逆に、負の残差値(特異値)が任意の下位数以下だった形態素は、共通語として選定する。共通語は構成したテキストデータベース(言語資料)全体を代表するキーワードに該当する。これらの特異語や共通語を利用すれば、同じテーマのテキストデータ(言語資料)を効率よく探し出せる。
続いて、コンピュータ14は、最後のステップS19で、ステップS17で選定した特異語や共通語を図示しないディスプレイ上に表示する。
図11に2004年新潟県中越地震について発行されたウェブニュースを用いて解析したときの表示例を示す。図11では、表示画面の上側に正の残差値を持つ特異語が時間経過(横軸)とともにプロットされ、下側に負の残差値を持つ共通語がプロットされる。ただし、図11では細部を描けないので、特異語として2つ「死亡」、「派遣」だけが明示されていて、共通語として「地震」、「中越」という2つだけが明示されているが、各グラフ部分にそのグラフを構成する形態素(単語)が表示される、ということに留意されたい。この図11のような表示例によれば、特異語と共通語が上下に別々に表示されているので、それらを一覧できるという利点がある。
表示例としては、図12に示す表形式の表示も考えられる。図12の表では、横軸に時間経過を示し、縦軸に時間区分ごとの特異語を上位適宜数表示するようにしている。
ただし、他の任意の表示形態が考えられることは勿論であり、図11および図12の表示例に限定されるものではない。
以下に、発明者等が2004年新潟県中越地震(平成16年10月23日17:56発生、M6.8)について発行されたウェブニュースを用いて解析した結果を示す。新潟県中越地震災害を対象としたのは、インターネットの普及以降、我が国で発生した災害の中でも比較的規模の大きな災害であり、多くのニュース記事を収集、分析できると考えたためである。
平成16年(2004年)10月23日以降に代表的なポータルサイトのニュースコンテンツ上に発信された新潟県中越地震災害に関連するニュースを収集し、発信日時、発信新聞社、タイトル(見出し)、記事本文、をフィールドにしてデータベースを作成した。すべての記事に対して、ポータルサイト上に更新されてから24時間以内に収集する作業を行なった。収集した期間は、発災から翌年4月30日までのおよそ6ヶ月間である。収集したウェブニュースは2623件である。地震が発生した当日は、18時59分に最初のニュース記事がアップデイトされ、当日中には42件発信された。記事件数が最も多かったのは地震が発生した翌日の24日で179件だった。
6ヶ月間に収集した上記新潟県中越地震災害に関するウェブニュースのテキストデータを図2に示すテキストデータテーブル20としてテキストデータベース16(図1)に登録した。
その後、キーワード候補(形態素)を同定するために、ステップS5に従って形態素解析を実行してキーワードとして採用すべき言葉の単位を検討し、ステップS7に従って、ステップS5で決定した言葉の単位の中でも、キーワードとして適切ではないものを取り除いた。
実施例では、形態素の単位をキーワードの単位として採用することにする。形態素の単位では、「新潟県中越地震」のような複合語を捉えることはできない。形態素の単位であれば、高い精度での解析が可能であることから、この実施例では形態素の単位をキーワードの候補とする。
形態素解析の結果の一例を示す:「新潟/県/中越/地震/は/住民/の/ライフライン/に/も/甚大/な/被害/を/及ぼし(及ぼす)/た/。」。上述した例の(1)のような解析結果が出力されるほか、「及ぼし(及ぼす)」のように、活用形をとった形態素に対しては基本形をも出力する。この形態素解析は、現在の技術水準でおおよそ96‐98%以上の精度を達成している。
続いて不要語の除去を行なう。形態素解析によって得られる形態素群の中には、キーワードとして適さないものが存在する。ここにいうキーワードとして適さない語とは、助詞の「が」や「を」のように、主にそれ自体に意味を持たないもの形態素のことを指す。一般に、このような言葉を不要語(不要形態素)と呼ぶ。不要語のような言葉自体からは、意味や内容を捉えることはできない。
このような不要語のもつ問題点から形態素解析によって得られる各形態素の品詞に着目して、キーワードとして適さない形態素を除去することを検討する。以下、この実施例で用いた形態素解析システムのもつ品詞体系が採用している品詞情報に基づいて、不要語とする品詞を決定する。
助詞(「が」、「を」)、助動詞(「れる」、「られる」)、接続詞(「しかし」)、記号(「句読点」)は、文法的な役割をもつ品詞で、内容的な意味をもたない品詞であり、キーワードとしては適さない。また、他の形態素と結びつくことで意味をなす品詞は、1つの形態素では意味を捉えることはできないためキーワードとして適さない。これには、名詞、動詞、形容詞のうち、非自立や接尾の形をとるもの(「こと」、「しまう」、「らしい」)、接続詞的な名詞(「対」、「兼」)、接頭詞(「お」、「約」)、連体詞(「この」、「その」)が該当する。そのほか、他の語を指すためにそれ自身では意味を捉えることができない代名詞(「それ」、「わたし」)、話の間をとるためだけ用いられるフィラー(「ええと」、「うんと」)もキーワードとして適さない。また、あいさつやあいづちなどの感動詞(「おはよう」、「いいえ」)は主に会話の中で用いられることから、災害事象との関係は薄いものと考えられる。
以上の品詞を取り除けば、名詞、動詞、形容詞のうち、非自立や接尾のかたちをとらないものと副詞がキーワードの候補として採用されることになる。
品詞情報をもとに不要語を除去した結果、形態素解析(ステップS5)で求められた15211種類の形態素は、14109種類にまで減少した(延べ521240の形態素)。14109種類のうち、地震の発生から1‐10時間で1122種類の形態素(72記事)、10‐100時間で3581種類の形態素(481記事)、100‐1、000時間で5691種類の形態素(1230記事)、1000‐4529時間で2716種類の形態素(840記事)が出現した。
次に、先に説明した式(2)に従って、ニュース記事から抽出したキーワード候補に重みを与えることよって、キーワードがどれだけ特異的であるのか、ある時間の変化を代表するキーワードとしてどれだけ重要なのかを評価した。
ある時点でのキーワードに、特徴の度合いを表す指標の情報が付加されていれば、指標の評価結果にもとづき、より特異的なキーワードを同定することができる。そこで、この実施例では、ステップS9を実行して、キーワードに特徴の度合いを表す指標を与えることを検討する。
ある時点で、ある事柄がウェブニュース上で中心的に発信されている場合、ある事柄の意味を表す言葉は多く出現する可能性がある。しかし、頻出するキーワードの中には、どのようなニュース記事であっても、文書を構成する上で多用されるキーワード、一部のニュース記事の中で頻出しているキーワードの2種類があることが想像される。ニュース記事を特徴的に表すキーワードとは後者を指す。
後者のようなキーワードに対して高い重みを与える指標として先に説明したTFIDFがある。ここで、上述のように、TF(ti,dj)がキーワードtiがの記事djに出現した回数を示し、DF(ti)がキーワードtiがの出現する文書数を示すとき、IDF(ti)は、全文書数に対するキーワードtiが出現した文書数の比の逆数である。つまり、この実施例では、どの記事にも現れるような形態素については低い重みを、他の記事にあまり現れないような形態素には高い重みを与えることになる。これとTFとの積をとった時間増加型TFIDFは、記事の中にいかに多く出現し、いかに他の記事に出現していないかを表す指標であり、キーワードの特徴の度合いを評価している指標と言える。
そして、実施例では、ある記事djに対する時間増加型TFIDFを求める場合、最終的に収集された全2623件の記事に基づくNやDFを用いることはせず、記事djが発行されるまでの時間に発信されていた記事の数にもとづく時間を考慮したNj(記事djが発信された時点までの記事の総数)や、DF(ti,dj)(記事djが発信された時点までの形態素tiの出現文書数)を用いて、記事djが発信された時点で逐次TFIDFを計算することにする。これを時間増加型TFIDFと呼ぶ。
時間の経過にともなって増加するような言語資料体の例としては、危機、災害に関するものが挙げられる。危機管理分野における言語資料は、危機や災害の発生から時間の経過に伴って、言語資料の数が増大していく。通常のTFIDFはNとDFが一定であり、時系列的に増加する言語資料から抽出された形態素に対する重み付けには対応していない。実施例では、全文書数と任意の形態素が出現する文書数を時間情報に基づいて変化するパラメータとし、TFIDFを修正して用いることにした。なお、このようにしてTFIDFを求めた場合、記事djが発行された時点で、はじめて出現した形態素のTFIDFを評価すれば、DFは1となり、IDFは高く評価されることとなり、初出の形態素に高い重みを与えることになる。前述のように、この時間の概念を考慮した指標を、時間増加型TFIDFと呼ぶ。
ただし、単に時間増加型TFIDFの値だけではキーワードが特徴的であるか否かを評価することは難しい。ある時点までの時間増加型TFIDFの値が高く評価されるパターンには、TFの値が低くともIDFが高い(DFが低い)ために時間増加型TFIDFが高い値で求められる場合と、IDFが低くとも(DFが高くとも)TFが著しく大きいために時間増加型TFIDFが高く算出される場合とがある。TFが著しく大きいということは、その言葉の一般性が高いために記事を記述する上で何度も用いなければならないような言葉である可能性が高い。単純に時間増加型TFIDFの値によってキーワードが特徴的であるかどうかを単純に評価することはできない。
ある時点における情報が特徴的であるということは、前の時点までに語られているキーワード群と、ある時点で語られているキーワード群とを比較することから把握できると考えられる。両者に差が生じていれば、任意時点の前後に大きな質の違いがあったことを意味していると思われる。つまり、ある時点のコーパスと、ある時点から任意の時間が経過した分のコーパスを比較することにより、情報の質の変化を捉え、その変化をもたらしたキーワードを同定できる可能性があるものと考えられる。
そこで、この実施例では、先に説明したように、残差分析(ステップS15)を行なうことによって、ある時点と次の時点のコーパスの特性を比較するようにした。
図13に発災からそれぞれ10時間(図13(A))、100時間(図13(B))、1000時間(図13(C))、4500時間(図13(D))までの形態素ごとのTFの累積値と時間増加型TFIDFの累積値の関係をプロットした。TFの累積値と時間増加型TFIDFの累積値の間には、先の(3)式で表される強い関係があった。サンプル数(キーワード数)が少ない10時間までのTFの累積値と時間増加型TFIDF(の累計値の関係以外については、累乗関数でRが0.90‐0.99であり、TFと時間増加型TFIDFの累積値の間には、累乗関数の関係が系統的に存在することが明らかになった。
図13のような関数関係は、近似曲線の近傍にあるキーワードはTFの累積値と時間増加型TFIDFの累積値の関係が、コーパスの平均的な関係と同じような傾向にあることを意味している。このような傾向をもつキーワードは、平均的な出現パターンを呈しているものと考えられる。したがって、実際の時間増加型TFIDFの累積値が、近似曲線にもとづく推定値を下回る場合、コーパスの平均像からみて時間増加型TFIDFの累積値が低い、つまりあまり特徴の度合いが高くないことを表す。逆に、実測値が推定値を上回る場合は、その逆で時間増加型TFIDFが高く、特徴的なキーワードであることと言える。以上のような評価は、実際の時間増加型TFIDFの累積値と、近似曲線に基づく推定値との差(残差)を求めることによって可能になる。以上の関係を応用し、図14のようなモデルで任意時点のキーワードの特徴的度合いを評価する。
図14の左側には、あるt‐Δtから単位時間幅Δt経過する際のコーパスの変化を模式的に表した。このような関係は次式(4)で表すことができる。
図14(A)に示すように、C(Δt)にそれまでに出現したキーワードが多く含まれていたり、出現頻度もあまり高くないような形態素のみが存在したりしているような場合には、図14の右上側に示したようにTFの累積値と時間増加型TFIDFの累積値の関係は、t‐Δtの時点のコーパスC(t-Δt)で構成された場合とtの時点のコーパスC(t)で構成された場合では大きな差は生じない。それに対して、図14(B)に示すように、C(t-Δt)までに出現しなかったようなキーワードがC(Δt)の中で出現したり、高い頻度で現れるような形態素が存在する場合には、tの時点でのコーパスC(t)が大きく変化し、図14の右下側に示したようにTFの累積値と時間増加型TFIDFの累積値の関係を表す曲線の形状も大きく変化する。
つまり、ある時点tでの時間増加型TFIDFの累積値と、t‐Δtの時点でのコーパスで構成された関係式にもとづく推定値との残差が、このΔtの間のコーパスの変化そのものを表し、残差が大きい形態素こそがΔt間に発生した言語資料の内容を代表するキーワード(特異語、共通語)であると考えられる。
このように、実施例では、tでの情報内容の質的な変化を表すキーワードの特徴量を評価する指標として、任意時間t‐Δtのコーパスで構成されるTFと時間増加型TFIDFの累積値にもとづく関係式による時間増加型TFIDFの累積値の推定値とtの時点での時間増加型TFIDFの累積値の実測値との差分(残差)を採用することにする。ここに残差が著しく高かったキーワードを特徴語または特異語(残差値または特異値:正)、著しく低かったキーワードを一般語または共通語と呼ぶことにする(残差値または特異値:負)。
図1に示す実施例の文書解析装置10によれば、図3に示すフロー図に示す次の手順に従って、コンピュータ14によって、人の主観的な判断を用いず、時間増加型TFIDF指標や残差値による定量的な指標を用いて構成されており、連続したプロセスから成り立っているため、ツールと参照すべきものが適切に準備されていれば、過去の事象の記録をインプットとし、一連の過程を通して自動的客観的に最終成果物であるキーワードを検出することができる。
このようにして、図1に示す実施例の文書解析装置10において、コンピュータ14は、要するに、次のステップを実行する。
1)時系列的に増加するテキストデータ(この場合では、ウェブニュース)のデータベースを構築する。
2)テキストを形態素に分割し、品詞情報を付加する。
3)品詞情報にもとづき、非自立と接尾以外の名詞、動詞、副詞、形容詞を抽出する。
4)形態素について、文書(ここではウェブニュース記事)ごとにTFと時間情報に基づく時間増加型TFIDFを求める。
5)ある時点t‐Δtからtの間における特徴的なテキストを代表するキーワードを抽出するため、t‐ΔtまでのコーパスにおけるTFの累積値と時間増加型TFIDFの累積値の関係式を求め、それにもとづくtの時点での時間増加型TFIDFの累積値の推定値と実測値との差を求める。この残差値をあるΔtに出現したキーワードの特徴量すなわち特異値とする。
6)最も大きい残差値(特異値)から任意の上位数までのキーワード(特異語)を選定し、当該特異語が検出された記事に特異語を言語資料のメタデータとする。
以上説明したように、提案済みの文書解析手法は、時系列的に増加するコーパス中の言葉について、任意の時間断面における特異性を数値的に評価し、時系列のデータセットを生成するものである。この時系列データの傾向変動を的確に捉えることができれば、任意の事象の展開を予測できる可能性がある。
ここでは、例として、プロアクティブな危機対応を支援できるようにするために、災害や危機が発生しているさなかに、今後の災害および危機事象がどのように展開するのかを予測する手法を開発することを目的として検討した。特に、先に説明した文書解析の手法に従って、災害および危機に関する言語データ群から、時間断面ごとに言葉の特異性を評価し、トレンド(傾向)として可視化する手法を応用した。
文書解析の先行手法を応用して上記の目的を実現するアプローチには、次の2つのパターンが考えられる。1つは、対応に当たっている当該の災害および危機と、それに類似する地域性や同一のハザード種に起因したイベントについて、同一のキーワード(特異語)の時系列的なふるまいを比較する方法であり、他の1つは、時系列データの変動傾向に基づき、動向予測を行う既存の手法を援用する方法である。前者は、災害と災害のもつ共通性または普遍性に着目し、同一の事象は時間的量的にほぼ同じような展開を見せるという仮定にたったアプローチである。後者は、すでに研究が進んでいる株取引分野に見られる株価動向予測の手法や考え方を活用しようとするものである。
このような災害および危機事象の将来展開予測手法の検討や構築、適用を試みるためのコーパスとして、以下の実施例では、2004年新潟県中越地震(以下、単に「中越地震」という。)と2007年新潟県中越沖地震(以下、単に「中越沖地震」という。)について報道されたウェブニュース記事を用いることにする。災害および危機についてのウェブ報道は発災から継続的に配信されることと、ディジタル媒体であることから、応急対応や復旧または復興までを包括する内容の言語データを比較的容易に蓄積し、加工できるという特徴がある。
実施例において上記の2つの災害を対象にしたのは、ハザードが同じであることと、同じ県域内で起こった災害であるためである。先に述べたように、災害事象の将来展開を予測するアプローチには2種類が考えられ、そのうち1種類は、ハザード種や地域性の類似する当該の災害と過去の災害の特異語のふるまいを比較しようとするものである。このようなアプローチを用いた手法を開発し、その有用性を検証するためには、同じ新潟県で発生した2つの地震災害の例を取り上げることが最も妥当であると考えた。
両地震について代表的なポータルサイト上の「新潟県中越地震」「平成19年新潟県中越沖地震」というトピックス中にアップデイトされたウェブニュースを自動収集した記事について、時間経過に伴う累積記事件数を調べてみると、発災から4000時間(約半年)収集したニュース記事は、中越地震で2588件、中越沖地震で3042件であった。ニュース記事件数について、中越沖地震が中越地震を上回るものの、記事件数の積み上がり方はほぼ同じような傾向を示していた。このことから、2つの地震災害はハザードや地域性のみならず、社会の関心の度合いもほぼ同じ程度であったことが分かる。
第1実施例
第1の実施例では、類似する2つの災害に関するコーパスから抽出した同一の特異語のふるまいに基づいて将来展開を予測する手法を提供する。
上で説明した手法では、特異語抽出結果から単一の特異語を取り出すことで、任意の特異語の特異値の変動(ふるまい)をグラフ化することができる。異なる2つの災害の同一特異語を同時に図示すれば、特異語のふるまい、ひいては特異語に関連する災害事象のトレンドを比較することが可能になる。
ここでは、中越地震と中越沖地震のウェブニュースから、1)上記の手法に基づいて重要な特異語を同定し、2)2つの地震について1)で求められた特異語の内容と、3)同一特異語の特異値のふるまいを比較する。これらの分析を経ることにより、両地震において重要な災害事象の同一性、普遍性の有無を確認し、同一特異語のふるまいを比較することによる将来展開の予測の可能性を確認する。
以下、図15に示すフロー図を参照して、詳細に説明する。この図15は特異語のふるまいを可視化する実施例を示すものであるが、前提として、少なくとも1つのコーパスについて図3のフロー図で示す文書解析が終了していて、図1に示すコンピュータ14の内部メモリ(図示せず)かあるいは分析データベース18内に、図12に示すような、各コーパス毎に抽出または検出した各時点毎の特異語の特異値のリストに蓄積されている。
図15の最初のステップS31において、コンピュータ14は、図16に例示するようなGUI26を表示手段(図示せず)に表示する。
GUI26には、コーパス選択ボタン28、対象特異語選択ボタン30および移動平均項数入力ボタン32が設定される。コーパス選択ボタン28は、ふるまい分析を実施しようとするコーパス(言語資料体)を選択するときに操作(クリック)するもので、このボタン28が操作されたとき、実施例では、表示ボックス34に選択可能なコーパスをプルダウンメニューとして表示する。したがって、ユーザないしオペレータは、表示された1つまたは複数のコーパス名のメニューをクリックして、1つまたは複数のコーパス名を選択する。なお、それぞれのコーパス中に出現する同一の特異語のふるまいを比較する必要がある場合には、複数のコーパスを選択することになる。
ステップS33においてコーパスがこのようにして選択されたと判断したとき、コンピュータ14は次のステップS35において、累積特異値(ΣD)を計算する。
任意の特異語を闇雲に選び、将来動向を予測しようとしても、選んだ特異語に関連する災害事象が当該の災害において重要でなければ、予測の効果は低い。そこで、この実施例では、重要な特異語を同定するために、累積特異値(ΣD)という指標を用いることを着想した。
累積特異値は、具体的には、特異値(Discriminating Value)を発災から任意の時間断面まで足し合わせた数値である。特異値が正を示した言葉は各時間断面を特徴づける言葉で(特異語)あり、負の値を示した言葉はコーパスに遍在する言葉である(共通語)。単純に特異値を足し合わせれば、任意の言葉が特異語から共通語になった場合、負の値が足し合わされていく。このような言葉は、ある一定の期間に重要な事象に関連する特異語であったにもかかわらず、積み上げられた特異値が減じられることになってしまい、重要な特異語として求めることができない可能性がある。ここでは、正の特異値だけを足し併せたものを累積特異値(ΣD)とする。
よく知られているように、1995年の阪神・淡路大震災の被災者の発災直後からの行動についてミクロな視点からエスノグラフィーが丹念に採取され、災害過程がモデル化されている。これによれば、災害過程において時間は、10時間、100時間、1000時間と10のべき乗の時間によって状況が質的に変化すると言われている。
したがって、本実施例では、各コーパスについて、10時間までの1時間刻み、10‐100時間を1時間刻み、100‐1000時間を24時間刻み、1000‐4000時間を24時間刻みでΔtを設定し、提案した文書解析の手法を適用し、発災から10時間後、100時間後、1000時間後、4000時間後の累積特異値(ΣD)を求め、それに基づいて判断して、重要特異語を同定または選択できるようにした。
ステップS35では、先に図3に従って抽出したすべての特異語について累積特異値(ΣD)を計算する。なぜなら、実施例では、対象特異語の選択に当たって、ユーザは任意の特異語を選択できるようにしているからである。
そして、ステップS37において、ユーザの選択の便宜のために、計算した累積特異値(ΣD)に従って、たとえば図17に示すように、横軸が特異語を表し、縦軸が累積特異値(ΣD)を表す特異語ランキングを表示する。ただし、特異語ランキングは、図17のようなグラフに限らず任意の形式のグラフで表示されてもよく、さらにはグラフではなく、表形式で表示されるようにしてもよい。
このような特異語ランキングを参照して、ユーザまたはオペレータは、ふるまいを確認したい特異語、つまり対象特異語を図16に示すGUI26の対象特異語選択ボタン30を操作することによって、ボックス36内で選択する。
ただし、累積特異値に基づいて対象特異語を決定するための前述した判断を補助するために、累積特異値にカットオフ値を設けることも考えられる。設定したカットオフ値が統計的に有意な値であれば、重要な特異語が否かを客観的に判断することができる。ここでは、重要な特異語を判別するカットオフ値として、累積特異値分布の上位5%の累積特異値を採用することにした。5%という値は、統計学において有意水準として用いられている値であり、異常に大きな数値と、そうでない数値を判別する基準として用いることができる。ただし、それとは別にたとえば累積特異値分布の上位1%を基準として用いることもできる。また、累積特異値の大きい順に上位n語を選択することもできる。さらには、これらのカットオフ値とは無関係にユーザの独自の視点で任意の特異語を選択することもできる。
上位1%あるいは5%の特異語を選択する場合には、たとえばラジオボタン38を操作することによって選択できる。上位n語を選択する場合、隣接するテキストボックス40に任意の整数を入力することによって選択する。また、ラジオボタン38で特定語を選択した場合には、各隣接するテキストボックス40に任意のキーワード(特異語)を入力することによって選択する。
続いて、ユーザは移動平均を計算すべき項数を、移動平均項数設定ボタン32を操作することによって、ボックス42内で設定する。この実施例では、項数は「3」,「5」または「7」を同時に選択できるように設定されていて、各数値の前のラジオボタン38を操作することによって移動平均項数を設定することができる。また、項数は上記を基本設定とするが、任意の奇数の整数を設定できるようになっている。
ステップS39で対象特異語のユーザによる選択が行なわれたことを判断しかつステップS41で移動平均項数の設定が完了したことを判断したとき、コンピュータ14は次のステップS43で、その対象特異語の特異値の移動平均を計算する。
移動平均(線)とは、よく知られているように、時系列データを平滑化する手法である。特に、単純移動平均は、直近のn個のデータ(項数)の重み付けのない単純な平均であり、m番目の特異値についての項数nの特異値移動平均は(5)式で計算できる。
次のステップS45において、コンピュータ14は、ステップS43で計算した移動平均線に従って、ふるまいグラフを表示画面ないし表示手段(図示せず)上に描画して表示する。
図18および図19が、中越沖地震の際の特異語「観光」と「入居」のふるまいを示すグラフの例示である。このグラフでは、横軸に時間を示し、縦軸に特異値を示している。ただし、「観光」は風評被害による観光産業への影響を判断する特異語であり、「入居」は応急仮説住宅への入居のことを示している。黒丸印が実測値を示し、実線が3項移動平均、点線が5項移動平均、1点鎖線が7項移動平均を示す。これらのことは、図24および図25の以下のグラフでも同様であることを予め指摘しておく。
このようにして、重要な特異語さらには関心のある特異語など、任意のコーパスから取り出した任意の特異語について、たとえば移動平均線でのような変化の状態を可視的に表示(出力)することによって、その特異語の将来の展開を或る程度予測することができる。たとえば、その特異語の特異値が既にピークを越えたのか、未だピークに達していないのかなどによって、前者であれば今後は重要度が低くなると予測でき、後者であれば今後の展開がより重要であるなどと、判断できる。
これに対して、図19の特異語「入居」の特異値移動平均線を見ると、この特異後「入居」の変化の状態もまた、特異後「観光」のそれとほぼ同様の傾向を示していることがわかる。ただし、「入居」の場合も、移動平均項数の違いによって有意な違いは見られない。
第2実施例
上で説明した第1実施例では、対象特異語の特異値の移動平均線を表示(出力)することによって、その対象特異語の変化の状態を視認でき、それによってその特異語ひいてはその災害等の将来の動向を予測可能ならしめるものである。
これに対して、連続した時系列データの中で、1日、1週間、1月などある一定周期ごとにデータ集計し、(1) その期間内での始値、終値、高値(最高値)、安値(最低値)を抽出し、(2)その期間内でのイベント数を計測し、(3)移動平均を求める手法がある。たとえば、株価チャートがその一例である。
時系列データの動向を予測するというオペレーションは、株取引において実際に行われている。この分野では損失をいかに減らし、利益をいかに伸ばすという理念のもと、着目する株券の価値が増加するか、減少するかを予測しながら、株取引が行われている。一般にトレーダは、株価の変動(時系列データ)を日単位や週単位で集約し、集約結果と蓄積された傾向パターンを突き合わせ、増加、減少を予測している。1日間などのオペレーションの周期を定め、それまでの状況を分析し、予測につなげ、次の対応策を検討するという流れは、責任担当期間(OperationalPeriod:OP)を設け、状況認識の統一(Common Operational Picture:COP)を図り、業務計画(IncidentActionPlan:IAP)を策定するという危機対応の標準的な流れと酷似している。そこで、発明者らは、以上のような特徴に着目し、危機対応の実務への取り込みやすさを踏まえ、株取引における株価チャート手法を災害事象の展開予測に援用することを考えた。
図20に示すこの発明の他の実施例では、この株価チャート手法を援用して単一の災害および危機に関するコーパスのデータから、その特異語の特異値の変動傾向を分析し、災害の将来展開を予測できるようにするものである。実施例では、この任意の特異語の特異値で作成されたチャートを特異値チャートと呼ぶことにする。
図20の実施例において、ステップS51で表示するGUI44では、先のGUI26(図16)と同様に、コーパス選択ボタン46および対象特異語選択ボタン48が設定されている。コーパス選択ボタン46を操作し、ボックス54においてコーパスを選択することは先のGUI26と同じであり、対象特異語選択ボタン48を操作し、ボックス56において対象特異語を設定することもGUI26と同様である。
GUI44にはさらに、特異語の変化の状態を可視的に表示するものとして、日足(1日)、週足(1週間)および/または月足(1月)のいずれか1つまたは2つ以上を選択するための日足(1日)/週足(1週)/月足(1月)設定ボタン50および移動平均日数を設定するための移動平均日数設定ボタン52が形成される。
株価チャートは、1)移動平均線、2)ローソク足、3)出来高の3つの要素から構成されている。1)移動平均線は、たとえば過去5日間の株価を平均した値を折れ線で結んだものであり、株価の動きを平均にならして、株価のトレンドを表す。2)ローソク足は、1日(日足)や1週間(週足)における株価データの中から、始値、終値、高値(最高値)、安値(最低値)を取り出し、前2つの値を四角形(胴体)で、後2つの値を線(ヒゲ)で表す図である。四角形の上端と下端が、始値か終値のいずれかを表し、終値と始値を比較し、終値が高ければ白い四角形、低ければ黒い四角形で表される。胴体の上下端から高値と安値の値を結んだものがヒゲとなる。3)出来高は、証券取引所で売買が成立した株数のことで、株価チャート中の下部に棒グラフで表されるものである。これらの株価チャートの3つの要素が示す傾向には、いくつかのパターンがあり、このパターンにもとづいて株価動向の予測がなされている。
図20の実施例では、文書解析の手法で算出される特異値のふるまいを、株価チャートに倣い特異値チャートをグラフ化するようにした。移動平均線は、当該ポイントの前後の値を用いて移動平均値を求めるという一般的な移動平均法とは異なるものの、特異値を用いて過去数日間の平均値を計算することによって求めることとした。この平均化する日数が移動平均日数であり、図21のGUI44のボタン52を操作することによって、設定できる。移動平均日数設定ボタン52を操作するとボックス58が開き、その中に形成されているテキストボックス40に任意の整数を入力することによって、移動平均を計算するための日数つまり、移動平均日数を設定することができる。
ローソク足は、1日(日足)や1週間(週足)を周期として、その中で特異値の最初の値(始値)、最終の値(終値)、および最大値(高値)と最小値(安値)を取り出すようにした。そのためには、特異値の算出(特異語抽出)を1時間刻みで行なう必要がある。つまり、日単位のローソク足を描画するために、日よりも短い時間間隔の時系列データを必要としたためである。図21のGUI44において、日足/週足/月足設定ボタン50を押すと、ボックス60が開き、ユーザはそのボックス60内のラジオボタン38を操作することによって、日足、週足、月足のいずれか1つまたは2つ以上を設定することができる。
出来高の部分は、出来高が取引イベント数を表すことから類推し、本特異値チャートにおいては、分析対象の特異語の単純な出現イベント数(出現頻度=1日間や1週間におけるTFの合計)で表すこととした。これは、出来高は、取引された株数であり、ある銘柄の人気の度合いを表してことから、相場のエネルギを表すものだと言われていること、及び文書解析の計算過程の中では、特異値や時間増加型TFIDFを計算する元になっている言葉の出現頻度が出来高に相当するものと考えられるためである。
図20において、コーパス選択、ΣD計算、特異語ランキングの表示および対象特異語の設定のための各ステップS53,S55,S57およびS59は、先の図15のステップS33,S35,S37およびS39とほぼ同様であるので、ここでは簡単に説明する。
ステップS53においてコーパスが選択されたと判断したとき、コンピュータ14は次のステップS55において、累積特異値(ΣD)を計算する。
そして、ステップS57において、ユーザの選択の便宜のために、計算した累積特異値(ΣD)に従って、たとえば図17に示すように、横軸が特異語を表し、縦軸が累積特異値(ΣD)を表す特異語ランキングを表示する。
このような特異語ランキングを参照して、ユーザまたはオペレータは、将来予測をしたい特異語、つまり対象特異語を図21に示すGUI44の対象特異語選択ボタン48を操作することによって、ボックス60内で選択する。
続いて、ユーザは、ボタン48を操作し、ボックス60内で日足/週足/月足のいずれか1つまたは複数を設定するとともに、移動平均を計算すべき日数を、移動平均日数設定ボタン50を操作することによって、ボックス58内で設定する。
発明者等は、実験では、中越沖地震のウェブニュースコーパスについて、1時間刻み(Δt=1時間)で文書解析の手法を適用した結果から求められた特異値のデータセットを用いた。
上で述べたように、災害事象の将来展開を予測しようとする場合に、当該の災害にとって重要になる可能性の高い事象を選択しなければ、予測とそれを受けた対応策の効果はおろか、予測の意味そのものが薄れてしまう。そのため、将来展開を予測するに値する事象に関連する特異語を同定する方法について検討する。
将来展開を予測すべき重要な特異語を評価する指標として、累積特異値とそのカットオフ値を与えることを考える。
カットオフ値を与える方法には、(1)上位から語数がある割合(1%、5%など)になる累積特異値をカットオフ値にする方法、(2) 上位から任意の語数(10位、20位など)になる累積特異値をカットオフ値にする方法、あるいは(3)経験値から定数として与えられた累積特異値をカットオフ値にする方法などがある。このようなカットオフ値は、累積特異値の分布特性に基づいて適宜設定することができる。
図22において、実験で用いた中越沖地震から抽出された特異語の特異値のデータセットから累積特異値を求め、100時間(約4日)、300時間、1000時間(約6週)、3000時間(4ヶ月)、4000時間毎の分布をみた(ヒストグラム)。累積特異値の分布は、低い値で度数が大きく、高い値の度数が少ないロングテール型の分布であったため、図22の横軸においては、累積特異値を常用対数で対数化した数値でグラフ化している。平均値は真数で6.0‐17.3(常用対数:0.78‐1.24)で、中央値は一貫して真数で1.3(常用対数:0.11)を示し、累積特異値は値の低い側(左側)に歪み、累積特異値が高まるほど度数が減少するという分布を示した。このような分布は、累積特異値の高い付近に、ある基準値を設けることで重要な特異語の絞り込みが行えることを意味している。
次に、カットオフ値を与える方法(前述(2))にもとづき、上位から任意の語数になる累積特異値を順位(ランク)を用いて、将来展開を予測すべき重要な特異語を絞り込むことを考える。任意の順位を設定することで、絞り込まれる特異語の数はこれに制約され、分析すべき特異語を適度に減らすことができる。
累積特異値の上位1%や5%、上位10位、20位、30位、40位、50位、100位となる累積特異値(カットオフ値)の時間変化をプロットしてみると、発災からの経過時間とカットオフ値の間には、強い指数曲線(Y=aLN(X)+b)の関係があることが分かった。
図23はその指数曲線で近似した上位1%や5%、上位10位、20位、30位、40位、50位、100位となる累積特異値を図示する。時間経過にともなって、上位1%や5%および順位にもとづくカットオフ値が系統的な傾向を示したことから、ある言葉について累積特異値を求めたときに、この曲線のどこに位置し、どれだけ重要な言葉かの目安を与える検量曲線となり得る。複数のイベントについて同様の分析を行い、曲線の係数を再計算しつづけることで、累積特異値にもとづくカットオフ値を定数として求めることができる。
将来展開を予測すべき特異語を判別する際のオプションとして、(1)累積特異値の分布から上位1%、5%の値をカットオフ値とする方法、(2)順位にもとづきカットオフ値を与える方法、および(3)経験にもとづく定数をカットオフ値とする3つの方法を整備することにした。上位1%や5%をカットオフ値として採用すれば、上述したように選択される特異語の数が多くなる。一方で、定量尺度の分布における上位1%や5%は、統計学で経験的に用いられてきた実績のある基準である。2つの順位を基準とする方法は、適当な数の特異語を選定することができるが、上位1%や5%に含まれる特異語を取りこぼすことになる。また、過去のデータの蓄積にもとづいて設定された定数のカットオフ値は、他の災害および危機の事例の一般像と比較することが可能になる。それぞれのカットオフ値を定める方法のメリットを勘案し、実施例では、3つのオプションとして将来展開を予測すべき特異語を同定する手法に取り込むことにした。
図20のステップS63でユーザが上述のようにして移動平均日数を設定したことを確認した後、コンピュータ14は、次のステップS65で、対象特異語の時系列データセットを抽出する。このデータセットは、図示しないが、一方軸に各特異語が配列され、他方軸が各特異語毎に各時点の特異値を示すマトリクス(スプレッドシート,配列,データベーステーブル)形式で表現できる。図3に従って特異語解析をした後であれば、これらのデータは分析データベース18かあるいはコンピュータ14の内部メモリに格納されているので、このステップS65では、コンピュータ14はそのような格納データから必要なデータセットを抽出すればよい。
続いて、コンピュータ14はステップS67において、移動平均を計算する(移動平均線)。具体的には、ユーザによって設定されて移動平均日数で当該特異語の特異値の移動平均を計算する。mm月dd日の特異値のp日間の移動平均は次式(6)で計算できる。
続いて、ステップS69において、日足なら各日の、週足なら各週の、月足なら各月の特異値の始まりの値、終わりの値、最大値、最低値をそれぞれ、始値、終値、高値、安値としてマトリクス(スプレッドシート,配列またはデータベーステーブル)に抽出する。これらの値も先の時系列データセットと同様に、図3に従って特異語解析をした後であれば、これらのデータは分析データベース18かあるいはコンピュータ14の内部メモリに格納されているので、コンピュータ14はそのような格納データから必要な値を抽出すればよい。
続いて、ステップS71において、語の出現頻度を抽出する(出来高)。つまり、日足なら各日の、週足なら各週の、月足なら各月の語の出現頻度を求めて,マトリクス(スプレッドシート,配列またはデータベーステーブル)に抽出する。出現頻度のデータも既に分析データベース18かあるいはコンピュータ14の内部メモリに格納されているので、コンピュータ14はそのような格納データから出現頻度値を抽出すればよい。
最後に、ステップS73で、特異値チャートを描画する。グラフ上部に横軸を時間とし、縦軸を特異値として、ローソク足と移動平均値を描画する。グラフ下部に横軸を時間とし、縦軸に出現頻度を棒グラフで描画する。
文書解析の手法によって得られる特異値の変動傾向を株価チャートで可視化することによって、関連する災害事象の将来展開予測ができる可能性を検討するために、中越沖地震の際の重要特異語である「観光」に着目し、株価チャートの適用を試みる。
図24および図25に「観光」の特異値のデータセットを株価チャートに表したものを示す。株価チャートはローソク足と出来高を求める単位を1日とする日足、1週間とする週足の2種類のグラフを作成した。移動平均値を計算する際に考慮する期間には、特に定まった値はない。ここでは、日足のグラフに、移動平均値を求める期間のうち、一般的に最も短い3日間を採用し、週足の移動平均値は、これに対応して3週間の平均値を求めた。なお、重要特異語の選定基準として、累積特異値を用いることの妥当性を検証するために、株価チャートの下部に、累積特異値にもとづく特異語の順位の変化も併記した。特異値がピークを迎える前に、株価チャート上に特異値の上昇を予兆する傾向が見られ、さらに、これと同時もしくはそれ以前にその特異語が高い累積特異値を示していれば、将来展開予測を適切に行えることになる。
「観光」は7/17に出現し、特異値がおよそ1ヶ月間上昇していき、8/11頃にピークを迎えた、8/11以前には、ローソク足が白い胴体を示しており、特異値の上昇傾向が読みとれる。7/25には、出現頻度が著しく高まり、その後、特異値が上昇していったのが分かる。
ここで、株取引分野における買いのサイン、売りのサインを移動平均、ローソク足、出来高についてまとめる。買いのサインはある銘柄の株価が上昇する予兆であり、売りのサインは株価が下落する予兆であるため、この実施例の文書解析の考え方に問題を置き換えれば、前者は重要な事象になる恐れ、後者は以降、その逆の傾向になることを意味する。株価と文書解析の手法における特異値は異なる指標ではあるが、相場のエネルギを表す出来高が要因となって株価を左右するという関係は、言葉の出現頻度が特異的に高まることによって特異値が増加する関係に似ている。3つの要素に関する主要な買い(売り)のサインを以下にまとめた。
移動平均線:実際の株価と移動平均値が離れた場合、株価は移動平均線に近づこうとする(株価は移動平均線に収束する)。移動平均線が株価を下回っていれば、上昇する可能性がある。
ローソク足:大陽線(長い陽線)の場合、買い圧力が強く、強い上昇エネルギがある。窓あけ急騰(連続してローソク足が並ばず、間をあけて動くもの)の場合にも強い上昇エネルギがある。高値圏で大陽線が出現した場合には、下降トレンドに転じることが多い。出来高:安値圏で高い出来高が出た場合は。上昇トレンドになる傾向がある。
図24および図25に特異値チャートの日足および週足を示す「観光」の特異値は、上記3つのパターンに合致した傾向を示した。7/17に「観光」が出現してからは、移動平均線は、特異値の実測値の一部をプロットしているローソク足よりも下方に表れている。株の場合、株価は移動平均線に近づこうとするが、「観光」の特異値も変化の傾きが徐々にゆるやかになっている。7/25には大陽線、7/26には窓あけ急騰が見られたほか、7/25には出現頻度(出来高に相当)が著しく高い値を示し、その後は特異値の上昇が続いた。週足のチャートについても同様の傾向が読みとれる。
7/25の記事は「新潟県を放射能の風評被害直撃、宿泊取り消し4万8千件(12:04毎日新聞)」「闘牛2頭が“海水浴”新潟の海の安全のPR(19:26毎日新聞)」という見出しであり、風評被害が顕在化しはじめ、対応の動きが見られた時期であることが分かる。特異値がピークを迎える頃は「風評被害500億円原発不信、観光にも深刻な打撃(8/8 12:01毎日新聞)」「新潟市、風評被害2億2600万円観光シーズン大打撃(8/9 12:01毎日新聞)」という記事が表れ、被害が拡大していった様子が分かる。「観光」の特異値のふるまいには、株取引における買いのサインと同じような傾向が見られたことから、株価チャートの指標や考え方を援用することによって、文書解析の手法で抽出された特異語のふるまいを予測できる可能性が確認された。
この実施例のように、株価動向予測手法を用いた実験を踏まえれば、事象の将来展開予測手法の流れは、以下のようにまとめられる。
(1) 災害および危機などの事象に関するコーパスを構築する。
実施例で用いた報道資料のほか、災害対策本部の会議録や住民からの要望などの言語データからなる電子コーパスを作成する。
(2) 既定案の文書解析方法を用いて特異語を自動抽出する。
特異語を抽出するために時間刻みを1時間(Δt=1時間)とし、災害および危機などの事象の将来展開予測の元になる特異値の時系列データセットを準備する。
(3) 重要特異語を同定する。
対応に当たっている今現在までの累積特異値を求め、順位の基準や1%、5%の基準などを目安に今後重要になると思われる事象に関連する特異語を選択する。
(4) 特異値チャートを描画する。
日足または週足(必要なら月足も)の特異値チャートを作成し、特異値が上昇または下降するパターンと照らし合わせ、今後のふるまいを予測する。
そして、このような実施例によれば、以下のことが判明した。
(1) ハザードや地域性が類似する2つの災害および危機に関するコーパスから抽出された同一の特異語の特異値は、必ずしも同じようなふるまいを示すとは限らないこと。
(2) 上記のようなキーワードのふるまいに基づく将来展開予測手法は、災害ごとの特徴的な問題や教訓そのもの、および時系列的な展開の速さの差異などを客観的に可視化する有効な方法であることが示された。
(3) 株取引分野で投資家やトレーダが株価動向を予測する際に用いる株価チャートを援用し、特異語の特異値のデータセットを適用したところ、移動平均線、ローソク足、出現頻度(出来高)の示すパターンから、特異値が上昇するトレンドを捉えることができる例があることを確認した。
(4) 株価チャートの指標の描画方法を援用した特異値チャートで災害および危機に関する事象の将来展開を予測するできる可能性を示した。
なお、上述の実施例では、ウェブ報道をコーパスとして利用するようにしたが、たとえば災害対策本部などにおける危機対応時に情報作戦を担う部門には、本部会議における議事録や住民からの声(クレーム情報)などが寄せられるので、これらのような加工されていない生の言語資料をコーパスとして用いることによって、社会現象としての災害および危機事象について、より確実で効用の高い将来展開の予測が行える可能性がある。
また、コーパスは災害や危機に関するものだけではなく、時間的に増量する、ニュース,ウェブニュース,ブログ,新聞,雑誌,インタビュー記録,供述調書,アンケート,小説などのような任意の言語資料についてこの発明を適用できることは勿論である。
なお、選択した特異語や一般語さらには特異語の変化の状態を可視的に出力するために実施例ではそれらをモニタ上で表示するようにしたが、当然この表示に代えて、もしくはその表示に加えて、たとえばプリンタによって印刷出力することも可能である。
なお、上述の実施例では、時間増加型TFIDFを用いて、時系列的に増量する言語資料から時系列順序に応じた特異語(キーワード)を抽出または検出してそれらの振舞いを可視的に表示するようにしたが、自由回答記述,インタビュー記録,供述調書,アンケート,小説などのように時系列的に増量しない言語資料も、任意の順序基準を用い、その順序基準に従って増量する言語資料とみなせば、その順序基準に従う増加型TFIDFを用いることによって、同様の手法で、その順序基準に応じた特異語(キーワード)を抽出または検出することができる。たとえば、自由回答記述の場合には、順序基準として、たとえば、災害の社会調査における、回答者の年齢、家屋の被害程度、被害額、世帯年収などの順序基準を用い、その順序基準に従って各自由回答記述(単位ドキュメント)を並べるようにすれば、この背景技術の文書解析装置と同じ手法を適用することができる。また、通勤事情に関する自由回答形式の調査票を解析する場合には、たとえば、通勤時間や通勤に係る交通費を「順序基準」として採用することも可能である。
したがって、上述の説明では従来の単純なTFIDFに代えて「時間増加型TFIDF」を用いたが、この発明の場合、順序基準が「時間」に限定されないので、以下の請求の範囲および発明の概要における関連の説明では、単に「増加型TFIDF」と呼ぶことにする。
この発明が詳細に説明され図示されたが、それは単なる図解および一例として用いたものであり、限定であると解されるべきではないことは明らかであり、この発明の精神および範囲は添付されたクレームの文言によってのみ限定される。
10 …文書解析装置
12 …ネットワーク
14 …コンピュータ
16 …テキストデータベース
18 …分析データベース
26,44…GUI

Claims (10)

  1. 順序基準に従って増量する言語資料を解析する文書解析装置であって、
    順序基準に従った順序を有し、かつその順序が後のものが先のものに比べて多い数の単位ドキュメントのテキストデータを含むテキストコーパスを作成するコーパステキスト作成手段、
    前記コーパステキストに含まれるテキストデータを構成する形態素に品詞情報を付加する形態素解析手段、
    前記品詞情報に基づいて前記テキストデータから不要な形態素を取り除く不要形態素除去手段、
    前記不要形態素除去手段によって除去されなかった形態素について、形態素毎に、増加型TFIDFを計算して増加型TFIDFの実測値を得る計算手段、
    前記計算手段で計算した前記実測値の累計値と前のコーパスにおいて推定した前記増加型TFIDFの累計値の推定値との間で残差分析をして形態素毎の特異値を求める残差分析手段、
    前記残差分析手段による残差分析の結果、正の特異値が得られた形態素を当該コーパスにおける特異語として選定する特異語選定手段、および
    前記特異語選定手段によって選定された特異語の変化の状態を可視的に出力する変化状態出力手段を備える、文書解析装置。
  2. 順序基準において任意のコーパスから求められる形態素毎の増加型TFIDFの累計値とTFの累計値とで回帰曲線を作成する回帰曲線作成手段をさらに備え、
    前記残差分析手段は、前記回帰曲線作成手段が順序基準において前のコーパスで作成した回帰曲線と、順序基準において現在のコーパスにおいて前記計算手段が計算した各形態素の前記増加型TFIDFの前記実測値との間で残差分析を行なう、請求項1記載の文書解析装置。
  3. 前記残差分析手段によって前記特異語として選定された1つ以上の特異語の累積特異値を計算する累積特異値計算手段、および
    前記1つ以上の特異語の累積特異値を、特異語毎に可視的に出力する累積特異値出力手段をさらに備える、請求項1または2記載の文書解析装置。
  4. 前記累積特異値出力手段は、累積特異値の大きさに従った順序で各特異語を配列する、請求項3記載の文書解析装置。
  5. 前記変化状態出力手段は、前記残差分析手段によって前記特異語として選定された1つ以上の特異語の特異値の移動平均を計算する移動平均計算手段、および前記移動平均に従って移動平均線を可視的に出力する移動平均線出力手段を含む、請求項1ないし4のいずれかに記載の文書解析装置。
  6. 前記変化状態出力手段は、前記残差分析手段によって前記特異語として選定された1つ以上の特異語のローソク足を可視的に出力するローソク足出力手段を含む、請求項1ないし5のいずれかに記載の文書解析装置。
  7. 前記ローソク足は、各日、週足および月足の少なくとも1つを含み、ローソク足は、各足について、特異値の始まりの値、終わりの値、最大値および最低値を含む、請求項6記載の文書解析装置。
  8. 前記変化状態出力手段は、前記特異語の出現頻度を前記ローソク足とともに出力する出現頻度出力手段を含む、請求項6または7記載の文書解析装置。
  9. 順序基準に従って増量する言語資料を解析する文書解析方法であって、
    順序基準に従った順序を有し、かつその順序が後のものが先のものに比べて多い数の単位ドキュメントのテキストデータを含むテキストコーパスを作成するコーパステキスト作成ステップ、
    前記コーパステキストに含まれるテキストデータを構成する形態素に品詞情報を付加する形態素解析ステップ、
    前記品詞情報に基づいて前記テキストデータから不要な形態素を取り除く不要形態素除去ステップ、
    前記不要形態素除去ステップによって除去されなかった形態素について、形態素毎に、増加型TFIDFを計算して増加型TFIDFの実測値を得る計算ステップ、
    前記計算ステップで計算した前記実測値の累計値と前のコーパスにおいて推定した前記増加型TFIDFの累計値の推定値との間で残差分析をして形態素毎の特異値を求める残差分析ステップ、
    前記残差分析ステップによる残差分析の結果、正の特異値が得られた形態素を当該コーパスにおける特異語として選定する特異語選定ステップ、および
    前記特異語選定ステップによって選定された特異語の変化の状態を可視的に出力する変化状態出力ステップを含む、文書解析方法。
  10. 順序基準に従って増量する言語資料を解析する文書解析装置のコンピュータによって実行される文書解析プログラムであって、前記プログラムは前記コンピュータを、
    順序基準に従った順序を有し、かつその順序が後のものが先のものに比べて多い数の単位ドキュメントのテキストデータを含むテキストコーパスを作成するコーパステキスト作成手段、
    前記コーパステキストに含まれるテキストデータを構成する形態素に品詞情報を付加する形態素解析手段、
    前記品詞情報に基づいて前記テキストデータから不要な形態素を取り除く不要形態素除去手段、
    前記不要形態素除去手段によって除去されなかった形態素について、形態素毎に、増加型TFIDFを計算して増加型TFIDFの実測値を得る計算手段、
    前記計算手段で計算した前記実測値の累計値と前のコーパスにおいて推定した前記増加型TFIDFの累計値の推定値との間で残差分析をして形態素毎の特異値を求める残差分析手段、
    前記残差分析手段による残差分析の結果、正の特異値が得られた形態素を当該コーパスにおける特異語として選定する特異語選定手段、および
    前記特異語選定手段によって選定された特異語の変化の状態を可視的に出力する変化状態出力手段として機能させる、文書解析プログラム。
JP2010537697A 2008-11-12 2009-11-12 文書解析装置および方法 Withdrawn JPWO2010055663A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2008289835 2008-11-12
JP2008289835 2008-11-12
PCT/JP2009/006040 WO2010055663A1 (ja) 2008-11-12 2009-11-12 文書解析装置および方法

Publications (1)

Publication Number Publication Date
JPWO2010055663A1 true JPWO2010055663A1 (ja) 2012-04-12

Family

ID=42169808

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010537697A Withdrawn JPWO2010055663A1 (ja) 2008-11-12 2009-11-12 文書解析装置および方法

Country Status (2)

Country Link
JP (1) JPWO2010055663A1 (ja)
WO (1) WO2010055663A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9886486B2 (en) * 2014-09-24 2018-02-06 Oracle International Corporation Enriching events with dynamically typed big data for event processing
CN111488514B (zh) * 2019-01-25 2024-03-01 北京京东尚科信息技术有限公司 飙升词挖掘方法、装置、设备及存储介质
CN110377690B (zh) * 2019-06-27 2021-03-16 北京信息科技大学 一种基于远程关系抽取的信息获取方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4236057B2 (ja) * 2006-03-24 2009-03-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 新たな複合語を抽出するシステム
JP4913154B2 (ja) * 2006-11-22 2012-04-11 春男 林 文書解析装置および方法
JP2008250975A (ja) * 2007-03-08 2008-10-16 Just Syst Corp 時系列情報処理装置、方法、及びプログラム

Also Published As

Publication number Publication date
WO2010055663A1 (ja) 2010-05-20

Similar Documents

Publication Publication Date Title
Nardo et al. Walking down wall street with a tablet: A survey of stock market predictions using the web
Cresci et al. A linguistically-driven approach to cross-event damage assessment of natural disasters from social media messages
Smailović et al. Predictive sentiment analysis of tweets: A stock market application
US9990356B2 (en) Device and method for analyzing reputation for objects by data mining
Xie et al. Semantic frames to predict stock price movement
US8356025B2 (en) Systems and methods for detecting sentiment-based topics
Guo et al. How does market concern derived from the Internet affect oil prices?
US20190095419A1 (en) Apparatus, systems and methods for scoring and distributing the reliablity of online information
Okuyama Disaster and economic structural change: case study on the 1995 Kobe earthquake
CN101706794B (zh) 基于语义实体关系模型和可视化推荐的信息浏览检索方法
US20080033587A1 (en) A system and method for mining data from high-volume text streams and an associated system and method for analyzing mined data
KR101531970B1 (ko) 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 주가 예측 방법 및 이를 적용한 주가 예측 시스템
JP4913154B2 (ja) 文書解析装置および方法
Chowdhury et al. News analytics and sentiment analysis to predict stock price trends
CN103606097A (zh) 一种基于可信度评价的产品信息推荐方法及系统
CN101645066B (zh) 一种互联网新颖词监测方法
US20150142780A1 (en) Apparatus and method for analyzing event time-space correlation in social web media
Zhang et al. Joint monitoring of post-sales online review processes based on a distribution-free EWMA scheme
JP2011204199A (ja) 株価変動イベント情報提供システム及びプログラム
WO2010055663A1 (ja) 文書解析装置および方法
US20180357227A1 (en) System and method for analyzing popularity of one or more user defined topics among the big data
JP2015194955A (ja) 入札情報検索システム
Ott et al. Information dissemination on intellectual capital in mergers and acquisitions: purchase price allocations, press releases and business press
JP2008040847A (ja) ルール評価システム
WO2016187504A1 (en) Crowd-based sentiment indices

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20130205