WO2014109388A1

WO2014109388A1 - テキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及び記録媒体

Info

Publication number: WO2014109388A1
Application number: PCT/JP2014/050333
Authority: WO
Inventors: 正明土田; 石川　開; 貴士大西
Original assignee: 日本電気株式会社
Priority date: 2013-01-11
Filing date: 2014-01-10
Publication date: 2014-07-17
Also published as: JP6229665B2; JPWO2014109388A1; US20150356152A1; CN104919458B; CN104919458A

Abstract

　テキストマイニング装置（１００）は、テキストと、属性名及び属性値を有する、前記テキストに対応付けられた一つ以上の属性と、を含むデータから前記属性を分析観点として取得し、前記各分析観点を用いて前記データを分析することで各分析観点からの分析の結果を取得する分析部（１２０）と、前記各分析観点の結果ベクトルを生成するベクトル生成部（１３０）と、複数の前記各分析観点の結果ベクトル間のベクトル類似度を取得する類似度取得部（１４０）と、前記分析観点の組合せを、前記ベクトル類似度に基づいて推薦候補として抽出し提示する推薦部（１５０）と、を備える。

Description

テキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及び記録媒体

　本発明は、テキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及び記録媒体に関する。

　テキストマイニングは、テキストを対象としたデータマイニングである。テキストマイニングの手法の一つとして、複数の分析観点からの分析の結果を比較することにより、各分析観点からの分析の結果に固有な特徴を把握する技術が従来知られている。このような技術は、例えば、特許文献１に開示されている。

　特許文献１のテキスト分類装置は、テキストと属性とを含むデータを分析する。ユーザが任意の属性を選択すると、テキスト分類装置は、この属性が有する属性値を分析観点として取得し、各分析観点からの分析の結果を表示する。

特開２００４－１６４１３７号公報

　特許文献１のテキスト分類装置を用いてデータを分析した際に、ユーザが選択した属性が有する任意の属性値を分析観点として採用した場合の分析結果と、ユーザが選択しなかった属性が有する別の属性値を分析観点として採用した場合の分析結果と、が類似している場合がある。このような場合、ユーザが各分析観点からの分析の結果に固有な特徴を把握するためには、これらの分析結果を比較する必要がある。しかし、特許文献１のテキスト分類装置は、これらの分析結果を比較するようユーザに推薦することができない。

　本発明は、上述の事情に鑑みてなされたものであり、分析結果を比較すべき分析観点の組合せをユーザに推薦できるテキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及び記録媒体を提供することを目的とする。

　上記の目的を達成するため、本発明の第１の観点に係るテキストマイニング装置は、
　テキストと、属性名及び属性値を有する、前記テキストに対応付けられた一つ以上の属性と、を含むデータから前記属性を分析観点として取得し、前記各分析観点を用いて前記データを分析することで各分析観点からの分析の結果を取得し、前記各分析観点の結果ベクトルを生成する分析部と、
　複数の前記各分析観点の結果ベクトル間のベクトル類似度を取得する類似度取得部と、
　前記分析観点の組合せを、前記ベクトル類似度に基づいて推薦候補として抽出し提示する推薦部と、
　を備える、
　ことを特徴とする。

　本発明の第２の観点に係るテキストマイニングシステムは、
　第１の観点に係るテキストマイニング装置と、
　前記データをあらかじめ記憶しているデータ記憶装置と、
　を備える、
　ことを特徴とする。

　本発明の第３の観点に係るテキストマイニング方法は、
　テキストと、属性名及び属性値を有する、前記テキストに対応付けられた一つ以上の属性と、を含むデータから前記属性を分析観点として取得し、前記各分析観点を用いて前記データを分析することで各分析観点からの分析の結果を取得し、前記各分析観点の結果ベクトルを生成する分析ステップと、
　複数の前記各分析観点の結果ベクトル間のベクトル類似度を取得する類似度取得ステップと、
　前記分析観点の組合せを、前記ベクトル類似度に基づいて推薦候補として抽出し提示する推薦ステップと、
　を備える、
　ことを特徴とする。

　本発明の第４の観点に係るコンピュータ読み取り可能な記録媒体は、
　コンピュータを、
　テキストと、属性名及び属性値を有する、前記テキストに対応付けられた一つ以上の属性と、を含むデータから前記属性を分析観点として取得し、前記各分析観点を用いて前記データを分析することで各分析観点からの分析の結果を取得し、前記各分析観点の結果ベクトルを生成する分析部、
　複数の前記各分析観点の結果ベクトル間のベクトル類似度を取得する類似度取得部、
　前記分析観点の組合せを、前記ベクトル類似度に基づいて推薦候補として抽出し提示する推薦部、
　として機能させるプログラムを記録したことを特徴とする。

　本発明によれば、分析結果を比較すべき分析観点の組合せをユーザに推薦できるテキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及び記録媒体を提供することができる。

本発明の実施形態１に係るテキストマイニング装置の機能構成の一例を示すブロック図である。データの一例を示す図である。本発明の実施形態１に係るテキストマイニング装置が実行する推薦処理の一例を示すフローチャートである。結果データの一例を示す図である。本発明の実施形態２に係るテキストマイニングシステムの構成例を示すブロック図である。本発明の実施形態２に係るテキストマイニングシステムが実行する推薦処理の一例を示すフローチャートである。テキストマイニング装置及びデータ記憶装置のハードウェア構成の一例を示すブロック図である。

（実施形態１）
　以下、テキストマイニング装置１００の機能及び動作を、図を参照しながら詳細に説明する。図中、同一又は相当部分に同一の符号を付す。

　テキストマイニング装置１００は、分析結果を比較すべき分析観点の組合せ（推薦候補）をユーザに推薦する。ユーザは、推薦候補に含まれる分析観点からの分析の結果（以下、分析観点からの分析結果と称する）どうしを比較することにより、各分析観点からの分析結果に固有な特徴を把握することができる。

　テキストマイニング装置１００は、機能的には、図１に示すように、記憶部１１０と、分析部１２０と、ベクトル生成部１３０と、類似度取得部１４０と、推薦部１５０と、を備える。

　記憶部１１０は、図２に例示するデータＤＴをあらかじめ記憶している。データＤＴは、テキストマイニング装置１００による分析の対象となる任意のデータである。記憶部１１０は、外部の入力装置（例えば、記憶媒体やネットワーク）からデータＤＴをあらかじめ取りこみ、記憶している。

　データＤＴは、図２に示すように、複数のレコードで構成されている。各レコードは、レコードＩＤと、属性と、テキストと、を含む。一つのレコードに含まれるレコードＩＤと、属性と、テキストと、は互いに対応付けられている。

　レコードＩＤは、各レコードを識別するための識別子である。

　属性は、属性名と属性値とを有する。例えば、図２に示すデータＤＴの属性は、属性名として「性別」、「年代」、「婚姻状態」、「利用目的」、「メーカー」、「製品名」、「満足度」を有する。属性名として「性別」を有する属性は、属性値として「男」及び「女」を有する。

　分析部１２０は、データＤＴに含まれる各属性が有する属性値を分析観点として取得する。分析部１２０は、取得した各分析観点からデータＤＴを分析し、各分析観点からの分析結果を取得する。分析部１２０は、取得した各分析観点からの分析結果に基づいて結果データを生成する。

　ベクトル生成部１３０は、分析部１２０が生成した結果データに基づいて各分析観点の結果ベクトルを生成する。また、ベクトル生成部１３０は、分析部１２０が取得した分析観点を複数含む分析観点の組合せを生成する。なお、分析部１２０とベクトル生成部１３０とが協働して本願請求項１の分析部を実現する。

　類似度取得部１４０は、ベクトル生成部１３０が生成した各分析観点の組合せに含まれる分析観点の結果ベクトル間のベクトル類似度を取得する。

　推薦部１５０は、ベクトル生成部１３０が生成した分析観点の組合せのうち、その組合せに含まれる分析観点の結果ベクトル間のベクトル類似度が最も高い所定数の組合せを推薦候補として抽出し表示する。推薦候補は、ユーザが分析結果を比較するべき分析観点の組合せである。

　以下、テキストマイニング装置１００の動作について、図３のフローチャートを用いて説明する。

　テキストマイニング装置１００が備える記憶部１１０は、ユーザがテキストマイニングを行いたいと所望するデータＤＴを、外部の入力装置からあらかじめ取りこみ、記憶している。

　ユーザは、データＤＴに対してテキストマイニングを行いたいと所望する場合、テキストマイニング装置１００が備える複数の動作モードの一つである推薦処理モードを選択する。

　ユーザが推薦処理モードを選択すると、テキストマイニング装置１００は、図３のフローチャートに示す推薦処理を開始する。

　分析部１２０は、データＤＴが含む各属性が有する属性値を分析観点として取得する（ステップＳ１０１）。

　分析部１２０は、各分析観点からの分析結果を取得する（ステップＳ１０２）。

　具体的には、分析部１２０は、データＤＴ中で分析観点として採用された属性値と対応付けられたテキストから特徴語を抽出し、各分析観点からの分析結果として取得する。特徴語は、分析観点として採用された属性値とデータＤＴ中で対応付けられているテキストに含まれる単語であって、分析観点として採用された属性値と対応付けられているテキスト中の当該単語の出現頻度の、データＤＴが含む全テキスト中の当該単語の出現頻度に対する比率（重み値）が最も大きい、事前に設定した所定の数（本実施形態では５０個）の単語である。

　分析部１２０は、ステップＳ１０２で取得した各分析観点からの分析結果を含む結果データを生成する（ステップＳ１０３）。

　結果データは、図４に例示するように、分析観点（属性値）と、レコードＩＤ情報と、分析結果と、を含む。レコードＩＤ情報は、分析観点として採用された属性値とデータＤＴ中で対応付けられた全てのレコードＩＤを示す。図２に示すように、レコードＩＤと、属性と、テキストと、はデータＤＴ中で互いに対応付けられている。このため、分析観点として採用された属性値とデータ中で対応付けられた全てのレコードＩＤを示すレコードＩＤ情報は、分析観点として採用された属性値とデータ中で対応付けられた全てのテキストを示すことができる。

　例えば、図２に例示するデータＤＴにおいて、属性値「男」と対応付けられたテキストは、「省電力」、「バッテリー」、「容量」、「大きい」、「処理」、「スピード」等の単語を含んでいる。分析部１２０は、図４に示すように、これらの単語のうち最も重み値が大きい５０個の単語（特徴語）である「バッテリー」、「質感」、「スピード」、「省電力」等の単語を、属性値「男」を分析観点として採用した場合の分析結果として取得する。また、図２に例示するデータＤＴにおいて、レコードＩＤ「１」「３」等が属性値「男」と対応付けられている。このため、図４に示す結果データで、属性値「男」を分析観点として採用した場合のレコードＩＤ情報は、レコードＩＤ「１」、「３」等を含んでいる。

　分析部１２０は生成した結果データをベクトル生成部１３０へ送る。

　ベクトル生成部１３０は、分析部１２０から受け取った結果データに基づいて、各分析観点の結果ベクトルを生成する（ステップＳ１０４）。

　具体的には、ベクトル生成部１３０は、データＤＴに含まれる全テキストに含まれる全ての単語を要素（元）とするベクトルの、ある分析観点からの分析結果として取得された単語（特徴語）の要素に「１」の値を付与し、それ以外の要素に「０」の値を付与することにより、当該分析観点の結果ベクトルを生成する。

　例えば、データＤＴに含まれるテキストは、図２に示すように、「デザイン」、「色」、「バッテリー」、「質感」、「スピード」、「省電力」等の単語を含んでいる。分析観点として属性値「男」を採用した場合の分析結果は、図４に例示するように、「バッテリー」、「質感」、「スピード」、「省電力」等の特徴語を含んでいる一方で、「デザイン」及び「色」を含んでいないものとする。この場合、ベクトル生成部１３０は、（デザイン＝０、色＝０、バッテリー＝１、質感＝１、スピード＝１、省電力＝０、……）というベクトルを属性値「男」を分析観点として採用した場合の結果ベクトルとして生成する。

　次に、ベクトル生成部１３０は、ステップＳ１０１で分析部１２０が取得した分析観点を複数含む、分析観点の組合せを生成する（ステップＳ１０５）。

　類似度取得部１４０は、各組合せに含まれる各分析観点の結果ベクトル間のベクトル類似度を算出する（ステップＳ１０６）。

　具体的には、類似度取得部１４０は、互いに異なる２つの分析観点の結果ベクトルを集合とみなし、２つの集合のジャッカード（jaccard）係数をこの２つのベクトル間のベクトル類似度として算出する。

　互いに異なる２つの分析観点の結果ベクトルをそれぞれ集合Ａ、Ｂとみなした場合、ジャッカード係数Ｊ（Ａ，Ｂ）は、次の式（１）により求められる。

　ここで、Ａ∩Ｂは集合Ａ、Ｂの積集合、Ａ∪Ｂは集合Ａ、Ｂの和集合を表す。｜Ａ｜は集合Ａの要素数（元の数、濃度）を表す。同様に、｜Ｂ｜、｜Ａ∩Ｂ｜、｜Ａ∪Ｂ｜は、それぞれ、集合Ｂ、Ａ∩Ｂ、Ａ∪Ｂの要素数を表す。

推薦部１５０は、その組合せに含まれる各分析観点の結果ベクトル間のベクトル類似度が最も高い、事前に設定した所定数の組合せを推薦候補として抽出する（ステップＳ１０７）。

推薦部１５０は推薦候補を表示して（ステップＳ１０８）、推薦処理を終了する。

　以上説明したように、本実施形態に係るテキストマイニング装置１００は、各分析観点の結果ベクトル間のベクトル類似度が高い分析観点の組合せを推薦候補として提示する。ユーザは、推薦候補に含まれる複数の分析観点からの分析結果どうしを比較し、それらの分析結果の間の相違点、すなわち各分析観点からの分析結果に固有な特徴を把握することができる。

　本発明によれば、推薦候補がテキストマイニング装置１００によって提示されるため、ユーザは、比較する分析観点の組合せを自ら選択する必要がない。

　また、本発明によれば、類似度が最も高い分析結果どうしを優先的に比較することができるため、分析結果間の相違点、すなわち固有の特徴をユーザが効率よく把握できる。

　また、本発明によれば、互いに異なる複数の属性値をそれぞれ分析観点として採用すると類似した分析結果が得られる場合、これらの属性値が互いに異なる属性の有する属性値であったとしても、これらの分析観点の組合せが、推薦候補としてユーザに提示される。互いに異なる属性の有する複数の属性値をそれぞれ分析観点として採用した場合の分析結果どうしを比較できるため、ユーザは、各分析観点からの分析結果に固有な特徴を正確に把握できる。

　本実施形態において、テキストマイニング装置１００は、図２に示す構造を有するデータＤＴに対して分析を行った。テキストマイニング装置１００は、属性とテキストとを含むデータでありさえすれば、任意の構造を有するデータに対して分析を行うことができる。

　本実施形態では、分析結果が類似している任意の分析観点の組合せを推薦候補としてユーザに提示した。ユーザが、ある属性値を分析対象として選択した際に、テキストマイニング装置１００が、分析対象として選択された属性値を分析観点として採用した場合の分析結果と分析結果が類似する分析観点を推薦候補として提示することもできる。ユーザは、分析対象として選択した属性値を分析観点として採用した場合の分析結果と、テキストマイニング装置１００によって推薦候補として提示された分析観点からの分析結果と、を比較することにより、分析対象の属性値の固有な特徴を把握することができる。

　なお、複数の属性値の組合せを分析対象として指定してもよい。この場合、互いに異なる複数の属性が有する属性値の組合せを分析対象として指定することができる。

　分析部１２０は、データＤＴが含む各属性値を個別に分析観点として取得することもできるし、複数の属性値の組合せや、属性名と属性値とを含む属性そのものを分析観点として取得することもできる。

　類似度取得部１４０は、本実施形態のように自らベクトル類似度を算出してもよいし、あらかじめ外部の装置が算出し記憶しているベクトル類似度を取得してもよい。

　本実施形態では、５０個の特徴語を分析結果として取得した。分析結果として取得する特徴語の数は任意に設定できる。また、特徴語以外の情報を分析結果として取得してもよい。

　例えば、各分析観点と対応付けられたテキスト内での各単語の出現頻度や出現回数を、各分析観点からの分析結果として取得してもよい。

　あるいは、各分析観点と対応付けられたテキスト内での各フレーズの出現頻度や出現回数を、各分析観点からの分析結果として取得してもよい。ここで、フレーズとは、複数の単語の連なりを指す。

　あるいは、各分析観点と対応付けられたテキスト内に出現するフレーズのうち、最も重み値が大きい所定数のフレーズ（特徴フレーズ）を、各分析観点からの分析結果として取得してもよい。

　あるいは、各分析観点と対応付けられたテキスト内に出現する係り受けや、各分析観点と対応付けられたテキスト内での各係り受けの出現頻度又は出現回数を、各分析観点からの分析結果として取得してもよい。ここで、係り受けとは、単語又はフレーズと、別の単語又はフレーズと、の間に存在する文法関係を指す。例えば、ある分析観点と対応付けられたテキスト内に、「コストパフォーマンスが高い」又は「高いコストパフォーマンス」と同等の内容の記載が７回出現したと仮定する。この場合、係り受けである「コストパフォーマンス＆高い」と、その出現回数である「７」と、がこの分析観点からの分析結果の一つとして取得される。

　本実施形態では、データＤＴが含むテキストに含まれる全ての単語を要素（元）とするベクトルの、各分析観点からの分析結果に含まれる特徴語を示す要素に「１」の値を付与することで結果ベクトルを生成した。本実施形態で示した方法とは異なる方法によって結果ベクトルを生成することもできる。

　例えば、分析結果として取得した特徴語の全部ではなく、一部のみを用いて結果ベクトルを生成してもよい。

　あるいは、分析結果として取得したフレーズや係り受けを用いて結果ベクトルを生成してもよい。

　あるいは、各分析観点からの分析結果として、単語の出現頻度や出現回数、フレーズの出現頻度や出現回数、係り受けの出現頻度や出現回数、の何れかを取得する場合、これらの出現頻度又は出現頻度を要素とする結果ベクトルを生成してもよい。

　あるいは、分析結果以外の情報を含む結果ベクトルを生成してもよい。例えば、分析観点として属性値「男」を採用した場合の結果ベクトルが、その要素として、分析観点である属性値「男」と、属性値「男」を有する属性の有する属性名である「性別」と、を含むことができる。また、レコードＩＤ情報を用いて結果ベクトルを生成してもよい。例えば、レコードＩＤ情報で示されるレコードＩＤを要素として含む結果ベクトルを生成することができる。

　本実施形態では、ジャッカード係数をベクトル類似度として採用した。ジャッカード係数以外の集合間類似度をベクトル類似度として採用してもよい。

　例えば、共起頻度をベクトル類似度として採用することができる。互いに異なる２つの分析観点の結果ベクトルをそれぞれ集合Ａ、Ｂと見なした場合、共起頻度Ｋ（Ａ，Ｂ）は次の式（２）によって求めることができる。

　あるいは、コサイン（cosine）係数（コサイン距離、コサイン類似度）をベクトル類似度として採用してもよい。コサイン係数Ｃ（Ａ，Ｂ）は次の式（３）によって求めることができる。

　あるいは、ダイス（dice）係数をベクトル類似度として採用してもよい。ダイス係数Ｄ（Ａ，Ｂ）は次の式（４）によって求めることができる。

　あるいは、オーバーラップ（overlap）係数（シンプソン（simpson）係数）をベクトル類似度として採用してもよい。オーバーラップ係数Ｓ（Ａ，Ｂ）は次の式（５）によって求めることができる。

　ここで、ｍｉｎ（｜Ａ｜,｜Ｂ｜）は、｜Ａ｜又は｜Ｂ｜のうち、値がより小さい方を表す。

　本実施形態では、各組合せが含む分析観点の結果ベクトル間の類似度が最も高い所定数の組合せを推薦候補として抽出した。所定数の組合せを抽出するかわりに、生成された全ての組合せを、各組合せが含む分析観点の結果ベクトル間の類似度が高い順に並べたリストを作成し、このリストを表示してもよい。

　推薦候補として抽出した組合せを表示する際に、それぞれの組合せに含まれる各分析観点からの分析結果をあわせて表示してもよい。あるいは、推薦候補として表示された組合せに含まれる分析観点の何れかをユーザが選択した際に、選択された分析観点からの分析結果を表示してもよい。

　推薦候補として抽出した組合せを表示する際に、各組合せの推薦スコアをあわせて表示してもよい。ここで、推薦スコアとは、各組合せに含まれる分析観点の結果ベクトル間のベクトル類似度に応じて付与されるスコアである。

　推薦候補をグラフ等の図によって表示してもよい。また、推薦候補を、ディスプレイ等に表示するかわりに、音声等の非視覚的な方法によってユーザに提示してもよい。

（実施形態２）
　実施形態１ではテキストマイニング装置１００が実行した推薦処理の一部を、テキストマイニング装置１００以外の装置が行ってもよい。以下、テキストマイニング装置１００とデータ記憶装置２００とが協働して推薦処理を実行する、テキストマイニングシステム１０００について説明する。

　テキストマイニングシステム１０００は、図５に示すように、テキストマイニング装置１００と、データ記憶装置２００と、を含む。テキストマイニング装置１００とデータ記憶装置２００とは、有線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｏｗｏｒｋ）３００によって互いに接続されている。

　テキストマイニング装置１００は、機能的には、図５に示すように、ベクトル生成部１３０と、類似度取得部１４０と、推薦部１５０と、結果データ受信部１６０と、選択部１７０と、推薦データ送信部１８０と、を備えている。

　ベクトル生成部１３０、類似度取得部１４０、推薦部１５０の機能及び動作は、第１実施形態とほぼ同様である。

　結果データ受信部１６０は、後述するデータ記憶装置２００が備える結果データ送信部２３０から結果データを受信する。

　選択部１７０は、ベクトル生成部１３０が生成した、複数の分析観点（属性値）を含む分析観点の組合せのうち、事前に設定した抽出条件を満たす組合せを抽出する。

　推薦データ送信部１８０は、推薦部１５０が抽出した推薦候補を示す推薦データを生成し、後述するデータ記憶装置２００が備える推薦データ受信部２４０へ送信する。

　一方、データ記憶装置２００は、機能的には、図５に示すように、記憶部２１０と、分析部２２０と、結果データ送信部２３０と、推薦データ受信部２４０と、表示部２５０と、を備える。

　記憶部２１０は、実施形態１のテキストマイニング装置１００が備える記憶部１１０と同様に、テキストマイニングの対象となるデータＤＴをあらかじめ外部の入力装置から取りこみ記憶している。

　分析部２２０は、第１実施形態に係るテキストマイニング装置１００が備える分析部１２０と同様の機能を備える。

　結果データ送信部２３０は、結果データを、テキストマイニング装置１００が備える結果データ受信部１６０へ送信する。

　推薦データ受信部２４０は、テキストマイニング装置１００が備える推薦データ送信部１８０から推薦データを受信する。

　表示部２５０は、推薦データで示される推薦候補を表示する。

　以下、テキストマイニングシステム１０００の動作について、図６のフローチャートを用いて説明する。

　データ記憶装置２００が備える記憶部２１０は、ユーザがテキストマイニングを行いたいと所望するデータＤＴを、外部の入力装置からあらかじめ取りこみ、記憶している。

　ユーザは、データＤＴに対してテキストマイニングを行いたいと所望する場合、データ記憶装置２００が備える複数の動作モードの一つである推薦処理モードを選択する。

　ユーザが推薦処理モードを選択すると、データ記憶装置２００は、図６のフローチャートに示す推薦処理を開始する。

　データ記憶装置の分析部２２０は、データＤＴが含む各属性が有する属性値を分析観点として取得する（ステップＳ２０１）。

　分析部２２０は、各分析観点からの分析結果を取得する（ステップＳ２０２）。具体的には、分析部２２０は、データＤＴ中で分析観点として採用された属性値と対応付けられたテキストから特徴語を抽出し、各分析観点からの分析結果として取得する。

　分析部２２０は、ステップＳ２０２で取得した各分析観点からの分析結果を含む結果データを生成し（ステップＳ２０３）、結果データ送信部２３０へ送る。

　結果データ送信部２３０は、受け取った結果データを、テキストマイニング装置１００の結果データ受信部１６０へ送信する（ステップＳ２０４）。

　結果データ受信部１６０は、結果データを受信し（ステップＳ２０５）、ベクトル生成部１３０へ送る。

　ベクトル生成部１３０は、受け取った結果データに基づいて、各分析観点の結果ベクトルを生成する（ステップＳ２０６）。具体的には、ベクトル生成部１３０は、データＤＴに含まれる全テキストに含まれる全ての単語を要素（元）とするベクトルの、ある分析観点からの分析結果として取得された単語（特徴語）の要素に「１」の値を付与し、それ以外の要素に「０」の値を付与することにより、当該分析観点の結果ベクトルを生成する。

　次に、ベクトル生成部１３０は、分析観点（属性値）を複数含む、分析観点の組合せを生成し（ステップＳ２０７）、選択部１７０へ送る。

　選択部１７０は、受け取った分析観点の組合せのうち、事前に設定した抽出条件を満たす組合せを抽出する（ステップＳ２０８）。

　具体的には、選択部１７０は、ステップＳ２０７で生成された組合せのうち、その組合せに含まれる各分析観点の結果ベクトルが共通して有する要素であって、「１」の値を有する要素の数が所定数以上であるような組合せを抽出する。これにより、選択部１７０は、結果ベクトルどうしが一定レベル以上に類似している分析観点の組合せのみを抽出することができる。

　類似度取得部１４０は、ステップＳ２０８で抽出された組合せに含まれる各分析観点の結果ベクトル間のベクトル類似度（ジャッカード係数）を算出する（ステップＳ２０９）。

　推薦部１５０は、その組合せに含まれる各分析観点の結果ベクトル間のベクトル類似度が最も高い、事前に設定した所定数の組合せを推薦候補として抽出する（ステップＳ２１０）。

　推薦データ送信部１８０は、ステップＳ２１０で抽出された推薦候補を示す推薦データを生成し、データ記憶装置２００の推薦データ受信部２４０へ送信する（ステップＳ２１１）。

　推薦データ受信部２４０は、推薦データを受信し（ステップＳ２１２）、表示部２５０へ送る。表示部２５０は、受け取った推薦データによって示される推薦候補を表示し（ステップＳ２１３）、推薦処理を終了する。

　ユーザは、本実施形態に係るテキストマイニングシステム１０００が推薦候補として提示した分析観点の組合せに含まれる各分析観点からの分析結果どうしを比較することにより、各分析観点からの分析結果に固有の特徴を把握することができる。

　本実施形態においては、実施形態１においてテキストマイニング装置１００によって実行された推薦処理の一部（データＤＴの記憶、分析観点の取得、分析結果の取得、結果データの生成、推薦候補の表示）が、データ記憶装置２００によって実行されている。このため、本実施形態に係るテキストマイニング装置１００に係る処理負荷は、実施形態１に係るテキストマイニング装置１００にかかる処理負荷と比べて小さい。

　本実施形態に係るテキストマイニング装置１００は、生成した分析観点の組合せのうち事前に設定した抽出条件を満たす組合せを抽出し、抽出した組合せに含まれる分析観点についてのみ、各分析観点の結果ベクトル間のベクトル類似度を算出する。このため、本実施形態に係るテキストマイニング装置１００にかかる処理負荷は、生成した全ての組合せに含まれる各分析観点の結果ベクトル間のベクトル類似度を算出する、実施形態１に係るテキストマイニング装置１００にかかる処理負荷と比べて小さい。

　本実施形態に係るテキストマイニングシステム１０００は、その組合せに含まれる各分析観点の結果ベクトルが共通して有する要素であって、「１」の値を有する要素の数が所定数以上であるような分析観点の組合せを抽出し、抽出した組合せの一部を推薦候補としてユーザに提示する。すなわち、その組合せが含む分析観点からの分析結果どうしが一定レベル以上に類似している組合せが推薦候補としてユーザに提示される。ユーザは、一定レベル以上に類似している分析結果どうしを比較できるため、各分析観点の固有な特徴を把握しやすい。

　本実施形態では、実施形態１においてテキストマイニング装置１００が実行した処理のうち、データＤＴの記憶、分析観点の取得、分析結果の取得、結果データの生成、及び推薦候補の表示がデータ記憶装置２００によって実行され、その他の処理はテキストマイニング装置１００によって実行された。本実施形態で示した機能分担とは異なる、様々な機能分担が可能である。

　例えば、推薦データに基づく推薦候補の表示を、テキストマイニング装置１００が行ってもよい。

　あるいは、結果ベクトルの生成、及び抽出条件を満たす分析観点の組合せの抽出をデータ記憶装置２００が行うことにより、テキストマイニング装置１００にかかる処理負荷を軽減してもよい。この場合、データ記憶装置２００は、抽出した分析観点の組合せとこれらの組合せに含まれる各分析観点の結果ベクトルとをテキストマイニング装置１００に送信する。抽出した分析観点に関する情報のみが送信されるため、本実施形態のように全ての分析観点について結果データを送信する場合に比べて、テキストマイニングシステム１０００全体の動作の効率が改善される。

　本実施形態で、テキストマイニング装置１００は、分析観点の組合せを抽出するために用いる抽出条件として、「その組合せに含まれる各分析観点の結果ベクトルが共通して有する要素であって、「１」の値を有する要素の数が所定数以上であること」を採用した。本実施形態で示した条件とは異なる、任意の条件を用いて分析観点の組合せを抽出してもよい。

　例えば、「その組合せに含まれる各分析観点からの分析結果間の簡易類似度が所定の閾値以上であること」を抽出条件として採用してもよい。ここで、簡易類似度とは、ベクトル類似度よりも簡易に得られる任意の類似度である。簡易類似度は、例えば、各分析観点の結果ベクトル間の内積や距離である。

　あるいは、「その組合せに含まれる各分析観点の結果ベクトルが共通して有する要素であって、所定の閾値より大きな値を有する要素の数が所定の数以上であること」を抽出条件として採用してもよい。例えば、結果ベクトルが単語の出現頻度を要素として含む場合、所定の閾値より出現頻度の高い単語を所定数以上共有している分析観点の組合せが抽出条件を満たす組合せとして抽出される。分析結果に頻繁に出現する単語は、その分析結果の特徴を示す単語だと推定できる。ユーザは、特徴を示す単語が共通している分析結果どうしを比較することで、各分析観点の固有な特徴を効率的に把握できる。

　あるいは、「その組合せに含まれる各分析観点どうしのレコード類似度が所定の閾値以下であること」を抽出条件として採用してもよい。ここで、レコード類似度とは、レコードＩＤ情報間の類似度である。具体的には、互いに異なる分析観点のレコードＩＤ情報に共通して含まれるレコードＩＤの数や、互いに異なる分析観点のレコードＩＤ情報に共通して含まれるレコードＩＤの数の、各分析観点のレコードＩＤ情報に含まれるレコードＩＤの総数に対する比率（共有率）をレコード類似度として採用することができる。例えば、本実施形態で、アンケートに回答した男性が全員３０代だったと仮定する。この場合、属性値「男」を分析観点として採用した場合の分析結果と、属性値「３０代」を分析観点とした場合の分析結果と、の間に高い類似性があると推定できる。しかし、この類似性は、サンプルの偏りによって生じた偽の類似性に過ぎない。偽の類似性を有する２つの分析結果を比較することにより、ユーザが各分析観点の特徴を誤って認識してしまう可能性がある。レコード類似度が極端に高い分析観点の組合せを排除することにより、サンプルの偏りが原因で生じた、分析結果間の偽の類似性を排除できる。

　本実施形態では単一の条件を抽出条件として採用した。複数の条件の組合せを抽出条件として採用してもよい。複数の条件を抽出条件として採用する場合、各絞り込みに要する時間や各絞り込みによる選択率の高さ等を考慮して各条件による絞り込みの順番（フィルタリングの順番）を設定することにより、全体の処理時間を短縮できる。

　抽出条件を満たす分析観点の組合せは、非特許文献１（立石健二、他１名、「Multi-level prefix-filterを用いた高速重複文書照合」、[online]、日本データベース学会、[平成２４年１２月１２日検索]、インターネット（URL: www.dbsj.org/journal/vol5/no4/tateishi.pdf））及び非特許文献２（岡崎直観、他１名、「集合間類似度に対する簡潔かつ高速な類似文字列検索アルゴリズム」、[online]、 [平成２４年１２月１２日検索]、インターネット（URL: www.chokkan.org/publication/okazaki_jnlp2011.pdf））に開示された方法によって抽出することもできる。非特許文献１及び２に開示された方法によれば、高速で、結果ベクトル間の類似度を実際に計算することなく、抽出条件を満たす組合せを抽出することができる。

　上述の機能構成を備え、上述の推薦処理を行うテキストマイニング装置１００及びデータ記憶装置２００は、図７に示すように、制御部１１、主記憶部１２、外部記憶部１３、操作部１４、表示部１５、送受信部１６、及びこれらを相互に接続する内部バス１８をハードウェア構成として備える。

　制御部１１は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）を備える。制御部１１は、外部記憶部１３が記憶している制御プログラム１７を実行することによりテキストマイニング装置１００及びデータ記憶装置２００全体を制御し、テキストマイニング装置１００及びデータ記憶装置２００が備える上述の各種機能を実現する。テキストマイニング装置１００の分析部１２０、ベクトル生成部１３０、類似度取得部１４０、推薦部１５０、選択部１７０は、制御部１１によって実現される。また、データ記憶装置２００の分析部２２０も、制御部１１によって実現される。

　主記憶部１２は、ＲＡＭ（Ｒａｎｄｏｍ－Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）を備える。主記憶部１２は制御部１１のワークエリアとして機能し、制御プログラム１７やテキストマイニングプログラムを含む各種プログラムが主記憶部１２に一時的に展開される。

　外部記憶部１３は、不揮発性メモリ（例えば、フラッシュメモリ、ハードディスク、ＤＶＤ－ＲＡＭ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ　Ｒａｎｄｏｍ－Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＤＶＤ－ＲＷ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ　ＲｅＷｒｉｔａｂｌｅ等）を備える。外部記憶部１３は、制御部１１が実行する制御プログラム１７やテキストマイニングプログラムを含む各種プログラムや、種々の固定データを固定的に記憶している。外部記憶部１３は、記憶しているデータを制御部１１に供給したり、制御部１１から供給されたデータを記憶したりする。テキストマイニング装置１００の記憶部１１０と、データ記憶装置２００の記憶部２１０と、は外部記憶部１３によって実現される。

　操作部１４は、キーボードやマウスを備え、ユーザによる操作を受け付ける。

　表示部１５は、推薦候補を含む各種情報を表示する。表示部１５は、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）やＬＣＤ（Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）を備える。データ記憶装置２００の表示部２５０は、表示部１５によって実現される。

　送受信部１６は、ネットワークに接続する網終端装置又は有線通信装置と、これらと接続するシリアルインターフェース又はＬＡＮインターフェースと、を備える。テキストマイニング装置１００の結果データ受信部１６０及び推薦データ送信部１８０と、データ記憶装置２００の結果データ送信部２３０及び推薦データ受信部２４０と、は送受信部１６によって実現される。

　内部バス１８は、制御部１１～送受信部１６を相互に接続している。

　テキストマイニング装置１００及びデータ記憶装置２００は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。例えば、テキストマイニング装置１００及びデータ記憶装置２００の動作を実行するためのコンピュータプログラムを、コンピュータが読み取り可能な記録媒体（フレキシブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭなど）に格納して配布し、該コンピュータプログラムをコンピュータにインストールすることにより、上述の処理を実行するテキストマイニング装置１００及びデータ記憶装置２００を構成してもよい。また、インターネットなどの通信ネットワーク上のサーバ装置が有する記憶装置に該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロードなどすることでテキストマイニング装置１００及びデータ記憶装置２００を構成してもよい。
　なお、テキストマイニング装置１００及びデータ記憶装置２００の各種機能を、ＯＳ（オペレーティングシステム）とアプリケーションプログラムとの分担、又はＯＳとアプリケーションプログラムとの協働により実現する場合には、アプリケーション部分のみを外部記憶部１３や記録媒体、記憶装置等に格納してもよい。

　また、搬送波にアプリケーションプログラムを重畳し、通信ネットワークを介して配信することも可能である。例えば、通信ネットワーク上の掲示板（ＢＢＳ：Ｂｕｌｌｅｔｉｎ　Ｂｏａｒｄ　Ｓｙｓｔｅｍ）にアプリケーションプログラムを掲示し、ネットワークを介してアプリケーションプログラムを配信してもよい。そして、このアプリケーションプログラムをコンピュータにインストールして起動し、ＯＳの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。

　その他、上記のハードウェア構成やフローチャート、閾値、パラメタ等は一例に過ぎず、任意に変更及び修正が可能である。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。

（付記１）
　テキストと、属性名及び属性値を有する、前記テキストに対応付けられた一つ以上の属性と、を含むデータから前記属性を分析観点として取得し、前記各分析観点を用いて前記データを分析することで各分析観点からの分析の結果を取得し、前記各分析観点の結果ベクトルを生成する分析部と、
　複数の前記各分析観点の結果ベクトル間のベクトル類似度を取得する類似度取得部と、
　前記分析観点の組合せを、前記ベクトル類似度に基づいて推薦候補として抽出し提示する推薦部と、
　を備える、
　ことを特徴とするテキストマイニング装置。

（付記２）
　前記結果ベクトルは、前記各分析観点からの分析の結果に含まれる一つ以上のデータに基づいて生成される、
　ことを特徴とする付記１に記載のテキストマイニング装置。

（付記３）
　前記各分析観点からの分析の結果は、前記テキストに含まれる単語、前記テキストに含まれる単語の出現頻度、前記テキストに含まれる単語の出現回数、前記テキストに含まれる係り受け、前記テキストに含まれるフレーズ、の少なくとも何れか一つを含む、
　ことを特徴とする付記１又は２に記載のテキストマイニング装置。

（付記４）
　前記分析観点の組合せのうち、抽出条件を満たす分析観点の組合せを抽出する選択部を更に備え、
　前記類似度取得部は、前記選択部によって抽出された前記分析観点の組合せについて、各分析観点の組合せに含まれる分析観点の結果ベクトル間のベクトル類似度を取得する、
　ことを特徴とする付記１乃至３の何れか一つに記載のテキストマイニング装置。

（付記５）
　前記抽出条件は、その分析観点の組合せに含まれる分析観点の結果ベクトル間の簡易類似度が所定の閾値よりも高い分析観点の組合せであること、その分析観点の組合せに含まれる分析観点の結果ベクトルが共通して有する要素であって、所定の閾値以上の値を有する要素の数が所定の数以上であること、各分析観点と対応付けられたテキストを示す識別情報間の類似度が、その分析観点の組合せに含まれる分析観点の識別情報間において所定の閾値以下であること、の少なくとも何れか一つを含む、
　ことを特徴とする付記４に記載のテキストマイニング装置。

（付記６）
　付記１乃至５の何れか一つに記載のテキストマイニング装置と、
　前記データをあらかじめ記憶しているデータ記憶装置と、
　を備える、
　ことを特徴とするテキストマイニングシステム。

（付記７）
　テキストと、属性名及び属性値を有する、前記テキストに対応付けられた一つ以上の属性と、を含むデータから前記属性を分析観点として取得し、前記各分析観点を用いて前記データを分析することで各分析観点からの分析の結果を取得し、前記各分析観点の結果ベクトルを生成する分析ステップと、
　複数の前記各分析観点の結果ベクトル間のベクトル類似度を取得する類似度取得ステップと、
　前記分析観点の組合せを、前記ベクトル類似度に基づいて推薦候補として抽出し提示する推薦ステップと、
　を備える、
　ことを特徴とするテキストマイニング方法。

（付記８）
　コンピュータを、
　テキストと、属性名及び属性値を有する、前記テキストに対応付けられた一つ以上の属性と、を含むデータから前記属性を分析観点として取得し、前記各分析観点を用いて前記データを分析することで各分析観点からの分析の結果を取得し、前記各分析観点の結果ベクトルを生成する分析部、
　複数の前記各分析観点の結果ベクトル間のベクトル類似度を取得する類似度取得部、
　前記分析観点の組合せを、前記ベクトル類似度に基づいて推薦候補として抽出し提示する推薦部、
　として機能させるプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。

　なお、本発明は、本発明の広義の精神と範囲とを逸脱することなく、様々な実施形態及び変形が可能とされるものである。また、上述した実施形態は、本発明を説明するためのものであり、本発明の範囲を限定するものではない。つまり、本発明の範囲は、実施形態ではなく、請求の範囲によって示される。そして、請求の範囲内及びそれと同等の発明の意義の範囲内で施される様々な変形が、本発明の範囲とみなされる。

　本出願は、２０１３年１月１１日に出願された日本国特許出願２０１３－００３９９０号に基づく。本明細書中に日本国特許出願２０１３－００３９９０号の明細書、特許請求の範囲、図面全体を参照として取り込むものとする。

　本発明は、ユーザが、テキストマイニングにおける、各分析観点からの分析の結果に固有な特徴を把握することを可能にする。このため、本発明は、アンケート結果等の膨大なテキストデータから有用な情報を抽出することが求められる、マーケティング等の分野において有用である。

１１…制御部
１２…主記憶部
１３…外部記憶部
１４…操作部
１５…表示部
１６…送受信部
１７…制御プログラム
１８…内部バス
１００…テキストマイニング装置
１１０…記憶部
１２０…分析部
１３０…ベクトル生成部
１４０…類似度取得部
１５０…推薦部
１６０…結果データ受信部
１７０…選択部
１８０…推薦データ送信部
２００…データ記憶装置
２１０…記憶部
２２０…分析部
２３０…結果データ送信部
２４０…推薦データ受信部
２５０…表示部
３００…有線ＬＡＮ
１０００…テキストマイニングシステム

Claims

　テキストと、属性名及び属性値を有する、前記テキストに対応付けられた一つ以上の属性と、を含むデータから前記属性を分析観点として取得し、前記各分析観点を用いて前記データを分析することで各分析観点からの分析の結果を取得し、前記各分析観点の結果ベクトルを生成する分析部と、
　複数の前記各分析観点の結果ベクトル間のベクトル類似度を取得する類似度取得部と、
　前記分析観点の組合せを、前記ベクトル類似度に基づいて推薦候補として抽出し提示する推薦部と、
　を備える、
　ことを特徴とするテキストマイニング装置。
　前記結果ベクトルは、前記各分析観点からの分析の結果に含まれる一つ以上のデータに基づいて生成される、
　ことを特徴とする請求項１に記載のテキストマイニング装置。
　前記各分析観点からの分析の結果は、前記テキストに含まれる単語、前記テキストに含まれる単語の出現頻度、前記テキストに含まれる単語の出現回数、前記テキストに含まれる係り受け、前記テキストに含まれるフレーズ、の少なくとも何れか一つを含む、
　ことを特徴とする請求項１又は２に記載のテキストマイニング装置。
　前記分析観点の組合せのうち、抽出条件を満たす分析観点の組合せを抽出する選択部を更に備え、
　前記類似度取得部は、前記選択部によって抽出された前記分析観点の組合せについて、各分析観点の組合せに含まれる分析観点の結果ベクトル間のベクトル類似度を取得する、
　ことを特徴とする請求項１乃至３の何れか１項に記載のテキストマイニング装置。
　前記抽出条件は、その分析観点の組合せに含まれる分析観点の結果ベクトル間の簡易類似度が所定の閾値よりも高い分析観点の組合せであること、その分析観点の組合せに含まれる分析観点の結果ベクトルが共通して有する要素であって、所定の閾値以上の値を有する要素の数が所定の数以上であること、各分析観点と対応付けられたテキストを示す識別情報間の類似度が、その分析観点の組合せに含まれる分析観点の識別情報間において所定の閾値以下であること、の少なくとも何れか一つを含む、
　ことを特徴とする請求項４に記載のテキストマイニング装置。
　請求項１乃至５の何れか１項に記載のテキストマイニング装置と、
　前記データをあらかじめ記憶しているデータ記憶装置と、
　を備える、
　ことを特徴とするテキストマイニングシステム。
　テキストと、属性名及び属性値を有する、前記テキストに対応付けられた一つ以上の属性と、を含むデータから前記属性を分析観点として取得し、前記各分析観点を用いて前記データを分析することで各分析観点からの分析の結果を取得し、前記各分析観点の結果ベクトルを生成する分析ステップと、
　複数の前記各分析観点の結果ベクトル間のベクトル類似度を取得する類似度取得ステップと、
　前記分析観点の組合せを、前記ベクトル類似度に基づいて推薦候補として抽出し提示する推薦ステップと、
　を備える、
　ことを特徴とするテキストマイニング方法。
　コンピュータを、
　テキストと、属性名及び属性値を有する、前記テキストに対応付けられた一つ以上の属性と、を含むデータから前記属性を分析観点として取得し、前記各分析観点を用いて前記データを分析することで各分析観点からの分析の結果を取得し、前記各分析観点の結果ベクトルを生成する分析部、
　複数の前記各分析観点の結果ベクトル間のベクトル類似度を取得する類似度取得部、
　前記分析観点の組合せを、前記ベクトル類似度に基づいて推薦候補として抽出し提示する推薦部、
　として機能させるプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。