WO2016088212A1 - データ収集装置、及びデータ収集方法 - Google Patents

データ収集装置、及びデータ収集方法 Download PDF

Info

Publication number
WO2016088212A1
WO2016088212A1 PCT/JP2014/081937 JP2014081937W WO2016088212A1 WO 2016088212 A1 WO2016088212 A1 WO 2016088212A1 JP 2014081937 W JP2014081937 W JP 2014081937W WO 2016088212 A1 WO2016088212 A1 WO 2016088212A1
Authority
WO
WIPO (PCT)
Prior art keywords
search
data collection
data
collection device
search condition
Prior art date
Application number
PCT/JP2014/081937
Other languages
English (en)
French (fr)
Inventor
裕 早矢仕
石黒 正雄
直史 冨田
和重 廣井
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to PCT/JP2014/081937 priority Critical patent/WO2016088212A1/ja
Priority to JP2016562135A priority patent/JP6325132B2/ja
Publication of WO2016088212A1 publication Critical patent/WO2016088212A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 検索条件を指定して行われるデータの収集に際し、ユーザが目的としている情報を容易かつ精度よく収集する。検索条件を満たす情報をデータ群から収集するデータ収集装置10が、複数の検索条件の夫々を用いてデータ群を検索し、複数の検索条件の夫々のヒット件数に応じて複数の検索条件を複数のクラスタに分類した結果に基づき検索に用いる検索条件の候補を特定する。データ収集装置10は、クラスタの夫々について、夫々に属する検索条件の夫々のヒット件数の平均値を求め、平均値に基づき検索条件の候補を特定し、例えば、平均値が予め設定された範囲に含まれないクラスタに属している検索条件を候補の対象から除外する。

Description

データ収集装置、及びデータ収集方法
 本発明は、データ収集装置、及びデータ収集方法に関する。
 特許文献1には、「利用者が関連記事を検索したい記事を選択すると、基準検索件数に最も近いヒット件数となるような検索式を動的に変化させながら自動的に生成し、関連記事を表示する」と記載されている。
 特許文献2には、「ユーザのキーワード入力を受け付けるキーワード入力受付手段と、受け付けられたユーザ入力のキーワードで定まる検索式が対象の文書内で成立する件数を求めて該検索式と求めた件数とをユーザに提示する検索結果提示手段と、検索結果提示手段が提示した検索式の関連語を生成する関連語生成手段と、提示されたキーワードと生成された関連語とを含む検索式が対象の文書内で成立する件数を求めて該件数と生成された関連語とをユーザに提示する検索結果予想提示手段とを有する」と記載されている。
特開2005-100136号公報 特開平5-314182号公報
 特許文献1では、基準検索件数に最も近いヒット件数となるような検索式を動的に変化させるため、検索結果にユーザが想定していた情報とは異なる情報が含まれてしまう場合や検索結果にユーザが想定していた情報が含まれない場合が生じうる。また特許文献2では、提示された情報に基づきユーザが関連語を選択して新たなキーワードを指示するので、特許文献1と同様の問題が生じうる。
 本発明は、検索条件を指定して行われるデータの収集に際し、ユーザが目的としている情報を精度よく収集することが可能な、データ収集装置、及びデータ収集方法を提供することを目的としている。
 上記目的を達成するための本発明の一つは、検索条件を満たす情報をデータ群から収集する情報収集装置であって、複数の検索条件の夫々を用いて前記データ群を検索し、前記複数の検索条件の夫々のヒット件数に応じて前記複数の検索条件を複数のクラスタに分類した結果に基づき、前記検索に用いる前記検索条件の候補を特定する。
 その他、本願が開示する課題、及びその解決方法は、発明を実施するための形態の欄、及び図面により明らかにされる。
 本発明によれば、検索条件を指定して行われるデータの収集に際し、ユーザが目的としている情報を精度よく収集することができる。
データ収集システム1の概略的な構成を示す図である。 データ収集装置10の処理の概念を説明する図である。 データ収集装置10及びサーバ装置20の実現に用いられる情報処理装置100のハードウェアの一例である。 データ収集装置10が備える機能及びデータ収集装置10が管理するデータを説明するデータフロー図である。 収集データ402の一例である。 設定検索ワード403の一例である。 同義語辞書405の一例である。 対義語辞書406の一例である。 ヒット件数データ408の一例である。 検索条件データ411の一例である。 検索条件生成処理S1100を説明するフローチャートである。 収集データ取得処理S1200を説明するフローチャートである。 検索処理S1300を説明するフローチャートである。 クラスタ生成処理S1400を説明するフローチャートである。 除外条件判定処理S1500を説明するフローチャートである。 除外条件設定画面1600の一例である。 第2実施例におけるヒット件数データ408Aの一例である。 第3実施例のクラスタ生成部409が行う類似度の判定例を示す図である。
 以下、本発明の一実施形態について図面とともに説明する。尚、以下の説明において、同一の機能及び構成を有する構成要素について同一の符号を付して重複した説明を省略することがある。
=第1実施例=
 図1は一実施形態として説明するデータ収集システム1の概略的な構成を示す図である。同図に示すように、データ収集システム1は、データ収集装置10とサーバ装置20を含む。データ収集装置10とサーバ装置20とは、通信ネットワーク5を介して通信可能に接続されている。通信ネットワーク5は、例えば、インターネットや専用回線等である。
 サーバ装置20は、通信ネットワーク5を介してアクセスしてくる他の装置に対して情報(データ)を提供する装置(例えば、Webサーバ、SNSサーバ(SNS:Social Network Service)、オープンデータサーバ等)として機能する。
 データ収集装置10は、通信ネットワーク5を介してサーバ装置20にアクセスし、サーバ装置20からデータを取得する。データ収集装置10によって取得されるデータは、例えば、特定の話題に関する傾向分析や因果関係分析等に役立てられる。
 データ収集装置10は、検索条件(検索式)を満たす情報(ヒットする情報)を、サーバ装置20から取得されるデータ群から収集する。上記収集に際し、データ収集装置10は、複数の検索条件を用いてデータ群を検索し、複数の検索条件の夫々のヒット件数に応じて複数の検索条件を複数のクラスタに分類した結果に基づき、上記データ群の検索に用いる検索条件の候補を特定する。
 図2に示すように、データ収集装置10は、上記特定に際し、平均値が予め設定された範囲に含まれないクラスタに属している検索条件を検索条件の候補から除外する。例えば、データ収集装置10は、平均値が予め設定された範囲を超えるクラスタ(同図におけるクラスタC)に属する検索条件(h,i,j)を上記候補の対象から除外する。
 このようにデータ収集装置10は、検索条件を複数のクラスタに分類し、クラスタを単位として検索条件の候補を特定するので、ヒット件数が非常に大きなクラスタに属する検索条件を有効に除外することができ、ユーザが目的としない情報(以下、ノイズ(noise)とも称する。)を含まない検索結果を取得可能な検索条件を特定することができる。尚、ヒット件数が非常に大きなクラスタに属する検索条件には、例えば多義性を持ったキーワードが検索条件に含まれており、ユーザが目的としない情報が多く含まれることとなるので、候補から除外する。
 尚、図2に示しているように、データ収集装置10は、上記複数の検索条件を、例えば、ある検索条件に含まれるワードの関連語を関連語辞書(同義語辞書、対義語辞書、具体化辞書等)から検索して置換することにより生成する。そのため、ユーザに負担を強いることなく、検索に用いる検索条件の候補の選択対象となる検索条件を効率よく生成することができる。
 データ収集装置10は、検索条件の上記複数のクラスタの分類を、例えば、k-means法により行う。またデータ収集装置10は、検索に用いる検索条件の候補として特定した検索条件を提示して指定させるユーザインタフェースを備えており、ユーザから検索に用いる検索条件の指定を受け付ける。そのため、ユーザは目的とする情報を効率よく取得するのに適した検索条件を自ら最終的に決定することができる。
 図3はデータ収集装置10やサーバ装置20の実現に用いられる、情報処理装置100のハードウェアの一例である。同図に示すように、情報処理装置100は、プロセッサ101、記憶装置102、入力装置104、出力装置105、及び通信装置106を備える。これらはバス等の通信手段を介して通信可能に接続されている。
 プロセッサ101は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)を用いて構成されている。記憶装置102は、プログラムやデータを記憶する装置であり、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、NVRAM(Non Volatile RAM)、ハードディスクドライブ、SSD(Solid State Drive)、光学式記憶装置等である。入力装置104は、ユーザから情報や指示の入力を受け付けるユーザインタフェースであり、例えば、キーボード、マウス、タッチパネル等である。出力装置105は、ユーザに情報を提供するユーザインタフェースであり、例えば、グラフィックカード、液晶モニタ等である。通信装置106は、通信ネットワーク5を介して他の装置と通信する通信インタフェースであり、例えば、NIC(Network Interface Card)や無線LANインタフェースである。
 図4はデータ収集装置10が備える機能及びデータ収集装置10が管理するデータを説明するデータフロー図である。
 同図に示すように、データ収集装置10は、データ取得部401、検索条件生成部404、データ検索部407、クラスタ生成部409、除外条件判定部410、及び除外条件選択部412の各機能を備える。これらの機能は、プロセッサ101が、主記憶装置102に格納されているプログラムを読み出して実行することにより実現される。尚、これらの機能はハードウェア(ASIC(Application Specific Integrated Circuit)等)によって実現されるものであってもよい。またこれらの機能の複数が一つのハードウェアによって実現される構成としてもよいし、これらの機能が複数のハードウェアによって分散もしくは強調して実現される構成としてもよい。また同図に示す各機能は、データ収集装置10の機能の理解を容易にするために便宜的に設定したものに過ぎず、各機能の分類の仕方や名称はここに示した態様に限定されない。
 同図に示すように、データ収集装置10は、収集データ402、設定検索ワード403、同義語辞書405、対義語辞書406、ヒット件数データ408、及び検索条件データ411等を管理する。データ収集装置10は、これらのデータを、例えば、DBMS(DataBase Management System)が提供するデータベースのテーブルとして管理する。尚、以下では、複数の検索条件の生成に用いる関連語辞書として、同義語辞書405並びに対義語辞書406を例示するが、関連語辞書として他の種類の辞書(例えば、あるワードの下位概念となるワードを記載した具体化辞書等)を用いてもよい。
 同図に示す機能のうち、データ取得部401は、通信ネットワーク5を介してサーバ装置20からデータ(SNSの投稿データ、ニュース記事等の記事データ、オープンデータ等)を取得する。具体的には、データ取得部401は、API(Application Programming Interface)やクローリング(Crawling)等の手法により、サーバ装置20から定期的に(例えば1週間に1度)データを取得する。データ取得部401は、取得したデータ群を、収集データ402として管理する。
 図5に収集データ402の一例を示す。同図に示す一行分(1レコード分)のデータが一つの収集データ402に相当する。同図に示すように、収集データ402は、提供日時4021、ソース4022、提供者ID4023、及び本文4024の各項目を含む。このうち提供日時4021には、当該収集データ402が提供された日時(例えば、収集データ402がSNSに投稿された日時等)が格納される。ソース4022には、当該収集データ402の取得元の種類を示す情報が格納される。例えば、取得元がSNSサーバであれば「SNS」が、取得元がニュース記事を提供するWebサーバであれば「ニュース」が格納される。提供者ID4023には、当該収集データ402の提供者(投稿者、寄稿者等)を示す情報(ユーザ名、アカウント名等)が格納される。本文4024には、当該収集データ402の本文に相当する情報が格納される。
 図4に戻り、検索条件生成部404は、例えば、ユーザが事前に登録した検索条件のワード群を設定検索ワード403から取得し、同義語辞書405からは検索条件の各ワードに関する同義語を、対義語辞書406からは検索条件の各ワードに関する対義語を、夫々取得し、ユーザが設定した検索条件のワードと、取得した同義語及び対義語とを組み合わせて複数の検索条件を生成する。
 図6に設定検索ワード403の一例を示す。同図に示す一行分(1レコード分)のデータが一つの設定検索ワード403に相当する。設定検索ワード403には、ユーザが事前に設定した、検索条件として用いるワードが格納される。同図に示すように、設定検索ワード403は、検索条件ID4031、及び検索条件(検索ワード1(4032),検索ワード2(4033),検索ワード3(4034),・・・)の各項目を含む。このうち検索条件ID4031には、検索条件を特定する識別情報が格納される。検索条件(検索ワード1(4032),検索ワード2(4033),検索ワード3(4034),・・・)には、ユーザが事前に設定した、検索条件として用いるワードが格納される。
 図7に同義語辞書405(類義語辞書)の一例を示す。同図に示す一行分(1レコード分)のデータが一つの同義語辞書405に相当する。同義語辞書405は、一つのワード(対象語4051)とそのワードについての一つ以上の同義語(同義語4052,4053,4054,・・・)とを含む。例えば、同図における1行目のレコードの同義語辞書405は、対象語4051「将来」と、同義語4052「今後」及び同義語4053「未来」とを含む。
 図8に対義語辞書406(反対語辞書)の一例を示す。同図に示す一行分(1レコード分)のデータが一つの対義語辞書406に相当する。対義語辞書406は、一つのワード(対象語4061)とそのワードについての一つ以上の対義語(対義語4062,4063,4064,・・・)とを含む。例えば、同図における2行目のレコードの対義語辞書406は、対象語4061「安心」と、対義語4062「不安」及び対義語4063「心配」とを含む。
 図4に戻り、データ検索部407は、検索条件生成部404が生成した複数の検索条件を用いて収集データ402を検索し、複数の検索条件の夫々のヒット件数をヒット件数データ408として管理する。
 図9にヒット件数データ408の一例を示す。同図に示す一行分(1レコード分)のデータが一つのヒット件数データ408に相当する。ヒット件数データ408は、データ検索部407によって集計された検索条件(検索ワード候補1(4081),検索ワード候補2(4082),検索ワード候補3(4083),・・・)と、当該検索条件によるヒット件数4084とを含む。このうち検索条件(検索ワード候補1(4081),検索ワード候補2(4082),検索ワード候補3(4083),・・・)には、設定検索ワード403における検索条件のワード群と、設定検索ワード403に格納された検索条件のワード群の各ワードの同義語や対義語との組合せが格納される。例えば、同図では、設定検索ワード403に含まれる検索条件のワード群である(電話,休止)と、「休止」を同義語に置き換えた(電話,中止)、(電話,停止)、(電話,ポーズ)と、「電話」を同義語に置き換えた(テレホン,休止)が格納されている。
 図4に戻り、クラスタ生成部409は、検索条件生成部404によって生成された複数の検索条件を夫々のヒット件数データ408のヒット件数4084に応じてクラスタに分類する。
 除外条件判定部410は、検索条件をクラスタに分類した結果に基づき検索条件の候補を特定(候補から除外する検索条件を特定)する。
 除外条件選択部412は、検索条件データ411の内容(候補とする検索条件、候補から除外する検索条件)をユーザに提示するとともに、ユーザから検索に用いる検索条件の指定を受け付ける。
 図10に検索条件データ411の一例を示している。同図に示す一行分(1レコード分)のデータが一つの検索条件データ411に相当する。同図に示すように、検索条件データ411は、検索条件ID4111、検索条件(検索ワード候補1(4112),検索ワード候補2(4113),検索ワード候補3(4114),・・・)、除外対象判定結果4115、及び除外選択結果4116を含む。このうち検索条件ID4111には、検索条件を特定する識別情報が格納される。検索条件(検索ワード候補1(4112),検索ワード候補2(4113),検索ワード候補3(4114),・・・)には、ヒット件数データ408における検索条件(検索ワード候補1(4081),検索ワード候補2(4082),検索ワード候補3(4083),・・・)が格納される。除外対象判定結果4115には、除外条件判定部410が除外対象であるかを判定した結果が格納される。例えば、当該検索条件が除外対象と判定された場合、除外対象判定結果4115には「1」が、それ以外の場合に「0」が格納される。除外選択結果4116には、除外条件選択部412のユーザインタフェースを通じて、除外対象と判定された検索条件を除外するかをユーザが選択した結果が格納される。例えば、当該検索条件が除外対象とされていない場合は「-」が格納される。また当該検索条件が除外対象とされており、かつ、ユーザが除外を選択した場合は「1」が格納される。また当該検索条件が除外対象とされており、かつ、ユーザが除外を選択していない場合は「0」が格納される。
 続いて、データ収集装置10が行う処理について説明する。
<検索条件生成処理>
 図11は、データ収集装置10の検索条件生成部404が、設定検索ワード403、同義語辞書405、及び対義語辞書406に基づき、収集データ402の検索条件を生成する処理(以下、検索条件生成処理S1100と称する。)を説明するフローチャートである。データ収集装置10は、例えば、入力装置14に対して当該処理の開始操作が行われたことを契機として検索条件生成処理S1100を開始する。以下、同図とともに検索条件生成処理S1100について説明する。尚、以下では、検索ワード501が2つである場合(図6において、検索ワード4032及び検索ワード4033が設定されている場合)を例として説明する。
 同図に示すように、検索条件生成部404は、まず1つ目の検索ワード1(4032)を設定検索ワード403から取得する(S1101)。以下、1つ目の検索ワード1(4032)の関連語のリストを関連語リストW1、関連語リストW1に含まれるn番目の関連語をW1[n]と表記する。
 続いて、検索条件生成部404は、同義語辞書405から1つ目の検索ワード1(4032)の同義語を取得し(以下、取得した同義語の総数をW1SNと表記する。)、取得した同義語を、検索ワード1関連語リストW1[1]~W1[W1SN]に登録する(S1102)。尚、W1[0]には1つ目の検索ワード1(4032)が登録されるものとする。
 続いて、検索条件生成部404は、対義語辞書406から1つ目の検索ワード1(4032)の対義語を取得し(以下、取得した対義語の総数をW1ANと表記する。)、取得した対義語を、検索ワード1関連語リストW1[W1SN+1]~W1[W1SN+W1AN]に登録する(S1103)。
 次に、検索条件生成部404は、2つ目の検索ワード2(4033)を、設定検索ワード403から取得する(S1104)。以下、2つ目の検索ワード2(4033)の関連語のリストを関連語リストW2、関連語リストW2に含まれるn番目の関連語をW2[n]と表記する。
 続いて、検索条件生成部404は、同義語辞書405から2つ目の検索ワード2(4033)の同義語を取得し(以下、取得した同義語の総数をW2SNと表記する。)、取得した同義語を、検索ワード1関連語リストW2[1]~W2[W2SN]に登録する(S1105)。尚、W2[0]には2つ目の検索ワード2(4033)が登録されるものとする。
 続いて、検索条件生成部404は、対義語辞書406から2つ目の検索ワード2(4033)の対義語を取得し(以下、取得した対義語の総数をW2ANと表記する。)、取得した対義語を、検索ワード2関連語リストW2[W2SN+1]~W2[W2SN+W2AN]に登録する(S1106)。
 S1107では、検索条件生成部404は、関連語リストにおける関連語を指定するインデックスとして用いる変数I1に0を代入する。
 S1108では、検索条件生成部404は、関連語リストにおける関連語を指定するインデックスとして用いる変数I2に0を代入する。
 続いて、検索条件生成部404は、関連語の組(W1[I1],W2[I2])をヒット件数データ408の検索条件(検索ワード候補1(4081)、検索ワード候補2(4082)、検索ワード候補3(4083),・・・)として、もしくは検索条件データ411として登録する(S1109)。
 続いて、検索条件生成部404は、I2がW2SN+W2ANとなるまで(S1110の条件が成立(S1110:YES)するまで)、I2を繰り返しインクリメントしつつ(S1111)、S1109の処理を繰り返す。
 またS1110の条件が成立すると(S1110:YES)、検索条件生成部404は、I1がW1SN+W1ANとなるまで(S1112の条件が成立(S1112:YES)するまで)、I1を繰り返しインクリメントしつつ(S1113)、S1108~S1111の処理を繰り返す。
 ここでS1107~S1113の処理は、各検索ワード(検索ワード1,検索ワード2)の関連語リストから1つずつ関連語を選択し、これらの関連語の組を検索条件データ411として登録する処理を、全ての関連語の組み合わせについて実施していることに相当する。従って、例えば、1つ目の検索ワード1(4032)の関連語リストが(安心,安堵)であり、2つ目の検索ワード2(4033)の関連語リストが(将来,今後)である場合、(安心,将来)、(安堵,将来)、(安心,今後)、(安堵,今後)の4つが検索条件として登録される。
 ところで、以上では、検索ワード501が2つである場合を例として説明したが、検索ワード501の数はいくつであってもよい。尚、検索ワード501の数がnである場合、例えば、各検索ワードについて関連語リストW1~Wnを作成し、関連語の組(W1[I1],W2[I2],…,Wn[In])を検索条件に登録することになる。
<収集データ取得処理>
 図12は、データ収集装置10のデータ取得部401が、通信ネットワーク5を介してサーバ装置20からデータ(収集データ402)を取得する処理(以下、収集データ取得処理S1200と称する。)を説明するフローチャートである。データ収集装置10は、例えば、検索条件生成処理S1100の終了後に収集データ取得処理S1200を実行する。以下、同図とともに収集データ取得処理S1200について説明する。
 同図に示すように、データ取得部401は、通信ネットワーク5を通じてサーバ装置20からデータを取得し、収集データ402として記憶する(S1101)。例えば、データ取得部401は、予めユーザが指定したサーバ装置20が提供するデータを取得する。また例えば、データ取得部401は、サーバ装置20に含まれるデータのうち、ユーザが指定した期間におけるデータを取得する。
<検索処理>
 図13は、データ収集装置10のデータ検索部407が収集データ402を検索する処理(以下、検索処理S1300と称する。)を説明するフローチャートである。データ収集装置10は、例えば、収集データ取得処理S1200の終了後に検索処理S1300を実行する。以下、同図とともに検索処理S1300について説明する。
 同図に示すように、まずデータ検索部407は、検索条件生成部404により生成された検索条件データ411から検索条件のリスト及び当該リストに含まれている検索条件の総数を取得する(S1301)。以降では、検索条件のリストをS,検索条件のリストにおけるI番目の検索条件をS[I]、上記総数をSCNと表記する。
 続いて、データ検索部407は、変数Iに0を代入する(S1302)。尚、変数Iは、検索条件を指定するためのインデックスである。
 続いて、データ検索部407は、収集データ402から検索条件S[I]にヒットするものを取得する(S1303)。
 続いて、データ検索部407は、S1303にて取得した収集データ402の数(ヒット件数)を求め、求めた値をヒット件数4084に設定して現在選択中の検索条件S[I]のヒット件数データ408を生成する(S1305)。
 データ検索部407は、Iをインクリメントしつつ(S1306)、S1303~S1304の処理を、I=SCNとなるまで、即ち検索条件のリスト(S)の全ての検索条件を対象として(S1305:YES)繰り返し実行する。
 以上の検索処理S1300が実行されることにより、検索条件生成部404によって生成された複数の検索条件の夫々について、検索条件にヒットする収集データ402の件数(ヒット件数)を取得することができる。
<クラスタ生成処理>
 図14は、データ収集装置10のクラスタ生成部409が、ヒット件数データ408に登録されている検索条件(検索ワード候補1(4081),検索ワード候補2(4082),検索ワード候補3(4083),・・・)をクラスタに分類する処理(以下、クラスタ生成処理S1400と称する。)を説明するフローチャートである。データ収集装置10は、例えば、検索処理S1300の終了後にクラスタ生成処理S1400を実行する。以下、クラスタリング手法として「k-means法」を用いた場合を例として説明する。
 同図に示すように、まずクラスタ生成部409は、ヒット件数データ408の各ヒット件数4084(ヒット件数データ408の各レコード)をK個のクラスタのいずれかに(ランダムに)割り当てる(S1401)。クラスタの数Kは、例えば、ユーザが予め設定することができる。尚、ユーザはクラスタの数Kを調節することで、目的とする情報を精度よく取得するのにより適した検索条件を探ることができる。以下、ヒット件数データ408のヒット件数4084のリストに含まれるI番目のヒット件数をv[I]、ヒット件数4084のリストに含まれるヒット件数(レコード)の総数をNと表記する。
 続いて、クラスタ生成部409は、クラスタを特定するインデックスである変数kに0を代入する(S1402)。
 続いて、クラスタ生成部409は、インデックスkで特定されるクラスタに属する件数v[n]の平均値を求め、これをインデックスkで特定されるクラスタの中心値C[k]とする(S1403)。
 続いて、クラスタ生成部409は、変数kをインクリメントしつつ(S1405)、変数kがKとなるまでS1403の処理を繰り返し実行し、各クラスタの中心値C[k](k=0~K)を算出する。
 続いて、クラスタ生成部409は、ヒット件数4084のリストの一つを特定するインデックスである変数nに0を代入する(S1406)。
 続いて、クラスタ生成部409は、クラスタの中心値C[k]とv[n]との距離が最短となるクラスタkにヒット件数v[n]を割り当てる(S1407)。尚、クラスタの中心値C[k]とヒット件数v[n]との距離は、例えば、C[k]―v[n]の絶対値として求められる。
 続いて、クラスタ生成部409は、変数nをインクリメントしつつ(S1409)、変数nがNとなるまでS1407の処理を繰り返し実行し(S1408)、全てのヒット件数v[n](即ち検索条件(検索ワード候補1(4081),検索ワード候補2(4082),検索ワード候補3(4083),・・・))をクラスタの中心値C[k]との距離が最短となるクラスタに割り当て直す。
 次に、クラスタ生成部409は、上記S1407の処理の繰り返しの実行中にクラスタの割り当てに変更が生じたか否かを判定する(S1410)。クラスタの割り当てに変更が生じた場合(S1410:Yes)、クラスタ生成部409は、S1402~S1410の処理を再度実行する。一方、上記S1407の処理の繰り返しの実行中に検索条件のクラスタの割り当てに変更が生じていない場合(S1410:No)、クラスタ生成処理S1400は終了する。
 以上の仕組みによれば、ヒット件数データ408に登録されているヒット件数(即ち検索条件(検索ワード候補1(4081),検索ワード候補2(4082),検索ワード候補3(4083),・・・))を、件数の近い検索条件で構成される複数のクラスタに分類することができる。尚、以上では「k-means法」を用いたが、他のクラスタリング手法を用いてもよい。
<除外条件判定処理>
 図15は、データ収集装置10の除外条件判定部410が、所属する検索件数が多いクラスタに属する検索条件を除外することを目的として行う処理(以下、除外条件判定処理S1500と称する。)を説明するフローチャートである。データ収集装置10は、例えば、クラスタ生成処理S1400の終了後に除外条件判定処理S1500を実行する。以下、同図とともに除外条件判定処理S1500について説明する。
 同図に示すように、まず除外条件判定部410は、クラスタを特定するインデックスである変数kに0を代入する(S1501)。
 次に、除外条件判定部410は、クラスタの中心値C[k]が変数pより大きいか否かを判定する(S1502)。ここで変数pは、検索条件を除外するか否かを判定する閾値である。例えば、変数pは、全クラスタの中心値C[k]の平均値をCm、分散Cv、ユーザがあらかじめ定めたパラメータをαとして次式から求められる。
Figure JPOXMLDOC01-appb-I000001
 尚、クラスタの内容をユーザが確認してユーザが変数pを指定する構成としてもよい。ユーザは変数pを調節することで、目的とする情報を取得するのにより適した検索条件を抽出することができる。
 クラスタの中心値C[k]が変数pより大きい場合(S1502:Yes)、除外条件判定部410は、クラスタkに含まれる件数v[n]に対応する検索条件を除外対象と判定し、判定結果を検索条件データ411の除外対象判定結果4115として設定する(S1503)。除外条件判定部410は、kをインクリメントしつつ(S1505)、S1502~S1503の処理をk=Kとなるまで繰り返し実行する(S1504)。
 以上の除外条件判定処理S1500により、検索件数が多いクラスタに属する検索条件を除外対象として特定することができる。例えば、ヒット件数データ408が図9の内容である場合、(電話,ポーズ)、(テレホン,休止)等の検索条件が除外対象となる。尚、この例では「ポーズ」というワードが多義性を有しており、検索結果に本来収集したい話題とは異なるデータ(ノイズ)が多く含まれているため除外対象とされている。このように除外条件判定処理S1500を行うことで、検索結果にユーザが目的としないデータ(ノイズ)が多く含まれてしまうような検索条件を効率よく除外することができる。
 図16は、除外条件選択部412が、ユーザに最終的に除外する検索条件を決定させる際に表示装置205に表示する画面(以下、除外条件設定画面1600と称する。)の一例である。同図に示すように、除外条件設定画面1600は、検索条件の表示欄1601、検索条件の除外指定欄1602、及び除外実行指示ボタン1603を有する。検索条件の表示欄1601には、除外条件判定部410によって除外対象と判定された検索条件のワード群が表示される。検索条件の除外指定欄1602には、ユーザが検索条件表示部1601に表示された検索条件を除外するか否かを指定する欄(例えば、チェックボックス)が表示される。除外実行指示ボタン1603は、ユーザがデータ収集装置10に対して検索条件の除外指定欄1602にて除外指定した検索条件を除外するための処理の実行を指示するためのユーザインタフェースである。除外条件設定画面1600を介して行われた除外指定の内容は、図10の検索条件データ411の除外選択結果4116に反映される。
 ユーザは除外条件設定画面1600を介して除外条件判定部410によって除外判定された検索条件(逆に言えばデータ収集装置10が提示する検索条件の候補)を容易に確認することができる。またユーザは除外条件設定画面1600を介して除外する検索条件を自ら決定することができる。
 以上に説明したように、本実施形態のデータ収集装置10は、検索条件を複数のクラスタに分類し、クラスタを単位として検索条件の候補を特定するので、ヒット件数が非常に大きなクラスタに属する検索条件を除外することができ、ユーザが目的としない情報(ノイズ)を含まない検索結果を得ることが可能な検索条件の候補を特定することができる。
=第2実施例=
 第2実施例は、基本的な構成は第1実施例と同様であるが、検索件数の集計に際し、データの取得元に応じて検索件数に重み付けを行っている。以下、第1実施例と構成が相違する部分を中心として説明する。
 図17は、第2実施例におけるヒット件数データ408(以下、ヒット件数データ408Aと称する。)の一例である。同図に示すように、第2実施例におけるヒット件数データ408Aは、前述した検索条件(検索ワード候補1(4081)、検索ワード候補2(4082)、検索ワード候補3(4083),・・・)に加えて、取得元別検索件数1(1701),取得元別検索件数2(1702),・・・、及び検索スコア1703の各項目を有する。
 このうち取得元別検索件数1(1701),取得元別検索件数2(1702),・・・は、収集データ402において、検索条件(検索ワード候補1(4081)、検索ワード候補2(4082)、検索ワード候補3(4083),・・・)を含む収集データ402の件数を、収集データ402の取得元毎に集計したものである。例えば、同図における取得元別検索件数1(1701)は、SNSサーバから取得した収集データ402のうち、検索ワード候補1(4081)及び検索ワード候補2(4082)を含むデータの件数であり、取得元別検索件数2(1702)は、ニュース記事を提供するWebサーバから取得した収集データ402のうち、検索ワード候補1(4081)及び検索ワード候補2(4082)を含むデータの件数である。検索スコア1703は、取得元別検索件数1(1701),取得元別検索件数2(1702),・・・の夫々を、取得元に応じて夫々に重み付けをして加算した値である。
 クラスタ生成部409は、検索スコア1703をヒット件数としてクラスタ生成処理S1400を行い、検索条件をクラスタに分類する。このように、収集データ402の取得元に応じて重みを設定して各検索条件のヒット件数を調整し、その上で検索条件をクラスタに分類することで、取得元の性質等を考慮しつつ、検索条件の候補を得ることができる。例えば、収集データ402の取得元が提供する情報の信頼性(信憑性)が高い程、取得元に高い重みを設定することで、信頼性(信憑性)の高い情報を収集するといったことが可能になる。
=第3実施例=
 第3実施例では、複数の検索条件に対して、定められた時間範囲毎に検索条件にヒットする収集データ402の件数を集計し、これらの件数の推移の類似度を算出し、求めた類似度に基づき検索条件を複数のクラスタに分類する。
 第3実施例において、データ検索部407は、ヒット件数データ408に格納されている検索条件(検索ワード候補1(4081)、検索ワード候補2(4082)、検索ワード候補3(4083),・・・)を読み込み、各検索条件に対し、定められた時間範囲毎に検索条件にヒットする収集データ402の件数を集計する。例えば、定められた時間範囲を年単位とした場合、指定された検索条件に対して、2011年に投稿された収集データ402のうち検索条件にヒットする収集データ402の件数、2012年に投稿された収集データ402のうち検索条件にヒットする収集データ402の件数、というように、各年度において検索条件にヒットする収集データ402の件数を夫々集計する。第3実施例におけるヒット件数データ408には、定められた時間範囲毎に検索条件にヒットする収集データ402の件数が格納される。
 第3実施例のクラスタ生成部409は、2つの検索条件について、夫々にヒットする収集データ402の件数の推移の類似度を測定する。例えば、クラスタ生成部409は、検索条件aと検索条件bの夫々にヒットする収集データ402の件数の推移の類似度を次式から求める。
Figure JPOXMLDOC01-appb-I000002
 上式において、a(t)は、時間範囲tにおいて検索条件aに合致する収集データ402の件数であり、b(t)は時間範囲tにおいて検索条件bに合致する収集データ402の件数であり、kは時間ずれに対応するパラメータである。kは、例えば、ユーザが予め指定してもよいし、ヒット件数データ408から推定してもよい。
 図18に第3実施例のクラスタ生成部409が行う類似度の判定例を示す。同図において、符号1801で示す枠内は、類似度が大きい検索条件の組の例であり、符号1802で示す枠内は、類似度が小さい検索条件の組の例である。符号1801で示す枠内の検索条件の組では、商品Aという商品名に、「東京」、「大阪」という異なる地名を加えた検索条件間の類似度が大きいことを示している。一方、符号1802で示す枠内の検索条件の組では、商品Bという商品名に、「東京」、「大阪」という異なる地名を加えた検索条件間の類似度が小さいことを示している。
 この例の場合、例えば、類似度が予め定められた閾値を超えている検索条件の組については同じクラスタに所属させ、類似度が上記閾値未満の検索条件の組については異なるクラスタに所属させるようにする。このように、検索条件の類似度に応じて検索条件をクラスタに分類することで、各検索条件のヒット件数の時間変化の類似性を考慮しつつ検索条件をクラスタに分類することができ、ヒット件数の時間変化の類似性を考慮した上で検索条件を決定することができる。尚、ヒット件数の時間変化の類似性を判定することについて他の効果として、例えば、検索条件ごとのヒット件数の推移の類似度に基づき、特定の話題について情報の伝播が発生しているか否かを判定することができる。
 ところで、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、また、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
 上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサが夫々の機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD等の記録装置や、ICカード、SDカード、DVD等の記録媒体に置くことができる。
 制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
1 データ収集システム、5 通信ネットワーク、10 データ収集装置、20 サーバ装置、100 情報処理装置、401 データ取得部、402 収集データ、403 設定検索ワード、404 検索条件生成部、405 同義語辞書、406 対義語辞書
407 データ検索部、408 ヒット件数データ、409 クラスタ生成部、410 除外条件判定部、411 検索条件データ、412 除外条件選択部、S1100 検索条件生成処理、S1200 収集データ取得処理、S1300 検索処理、S1400 クラスタ生成処理、S1500 除外条件判定処理、S1600 除外条件設定画面

Claims (15)

  1.  検索条件を満たす情報をデータ群から収集する情報処理装置であり、
     複数の検索条件の夫々を用いて前記データ群を検索し、
     前記複数の検索条件の夫々のヒット件数に応じて前記複数の検索条件を複数のクラスタに分類した結果に基づき、前記検索に用いる前記検索条件の候補を特定する
     データ収集装置。
  2.  請求項1に記載のデータ収集装置であって、
     前記クラスタの夫々について、夫々に属する前記検索条件の夫々の前記ヒット件数の平均値を求め、前記平均値に基づき前記検索条件の候補を特定する
     データ収集装置。
  3.  請求項2に記載のデータ収集装置であって、
     前記平均値が予め設定された範囲に含まれない前記クラスタに属している前記検索条件を前記候補の対象から除外する
     データ収集装置。
  4.  請求項1乃至3のいずれか一項に記載のデータ収集装置であって、
     前記検索条件に含まれるワードの関連語を関連語辞書から検索して置換することにより、前記検索条件とは異なる検索条件を自動生成する
     データ収集装置。
  5.  請求項4に記載のデータ収集装置であって、
     前記関連語辞書は、同義語辞書、対義語辞書、及び具体化辞書のうちの少なくともいずれかである
     データ収集装置。
  6.  請求項1に記載のデータ収集装置であって、
     前記複数の検索条件のクラスタへの分類をk-means法により行う
     データ収集装置。
  7.  請求項1に記載のデータ収集装置であって、
     前記検索に用いる前記検索条件の候補として特定した検索条件を提示して選択させるユーザインタフェースを備える
     データ収集装置。
  8.  請求項1に記載のデータ収集装置であって、
     前記データ群のデータの取得元別に前記ヒット件数を集計し、
     前記取得元毎に前記ヒット件数を重み付けした上で前記取得元毎の前記ヒット件数の合計値を求め、
     前記複数の検索条件の夫々の前記合計値に応じて前記複数の検索条件を複数のクラスタに分類した結果に基づき、前記検索に用いる前記検索条件の候補を特定する
     データ収集装置。
  9.  請求項1に記載のデータ収集装置であって、
     前記複数の検索条件の夫々のヒット数の時系列変化の類似度に応じて、前記複数の検索条件のクラスタへの分類を行う
     データ収集装置。
  10.  請求項1に記載のデータ収集装置であって、
     インターネットと通信可能に接続し、前記データ群にインターネットを介してアクセスする
     データ収集装置。
  11.  検索条件を満たす情報をデータ群から収集する情報収集方法であって、
     情報処理装置が、
     複数の検索条件の夫々を用いて前記データ群を検索する第1ステップ、
     前記複数の検索条件の夫々のヒット件数に応じて前記複数の検索条件を複数のクラスタに分類した結果に基づき前記検索に用いる前記検索条件の候補を特定する第2ステップ
     を含む、データ収集方法。
  12.  請求項11に記載のデータ収集方法であって、
     前記情報処理装置が、前記第2ステップにおいて、前記クラスタの夫々について、夫々に属する前記検索条件の夫々の前記ヒット件数の平均値を求め、前記平均値に基づき前記検索条件の候補を特定する
     データ収集方法。
  13.  請求項12に記載のデータ収集方法であって、
     前記情報処理装置が、前記第2ステップにおいて、前記平均値が予め設定された範囲に含まれない前記クラスタに属している前記検索条件を前記候補の対象から除外する
     データ収集方法。
  14.  請求項11に記載のデータ収集方法であって、
     前記情報処理装置が、
     前記データ群のデータの取得元別に前記ヒット件数を集計するステップ、及び、
     前記取得元毎に前記ヒット件数を重み付けした上で前記取得元毎の前記ヒット件数の合計値を求めるステップ、
     を更に含み、
     前記第2ステップにおいて、前記複数の検索条件の夫々の前記合計値に応じて前記複数の検索条件を複数のクラスタに分類した結果に基づき、前記検索に用いる前記検索条件の候補を特定する
     データ収集方法。
  15.  請求項11に記載のデータ収集方法であって、
     前記情報処理装置が、前記第2ステップにおいて、前記複数の検索条件の夫々のヒット数の時系列変化の類似度に応じて、前記複数の検索条件のクラスタへの分類を行う
     データ収集方法。
PCT/JP2014/081937 2014-12-03 2014-12-03 データ収集装置、及びデータ収集方法 WO2016088212A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2014/081937 WO2016088212A1 (ja) 2014-12-03 2014-12-03 データ収集装置、及びデータ収集方法
JP2016562135A JP6325132B2 (ja) 2014-12-03 2014-12-03 データ収集装置、及びデータ収集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/081937 WO2016088212A1 (ja) 2014-12-03 2014-12-03 データ収集装置、及びデータ収集方法

Publications (1)

Publication Number Publication Date
WO2016088212A1 true WO2016088212A1 (ja) 2016-06-09

Family

ID=56091186

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/081937 WO2016088212A1 (ja) 2014-12-03 2014-12-03 データ収集装置、及びデータ収集方法

Country Status (2)

Country Link
JP (1) JP6325132B2 (ja)
WO (1) WO2016088212A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019144914A (ja) * 2018-02-22 2019-08-29 カシオ計算機株式会社 情報処理装置及びプログラム
JP2022050654A (ja) * 2018-02-22 2022-03-30 カシオ計算機株式会社 情報処理装置、人事分析支援方法及びプログラム
CN117851538A (zh) * 2024-03-07 2024-04-09 济南浪潮数据技术有限公司 一种分布式检索方法、系统、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041540A (ja) * 2000-07-28 2002-02-08 Shinichiro Okude 連想・推論機能を備えた検索システムおよび、それに用いられる、記録媒体献金
JP2005309998A (ja) * 2004-04-23 2005-11-04 Fujitsu Ltd コンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置
JP2013190848A (ja) * 2012-03-12 2013-09-26 Rakuten Inc 情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041540A (ja) * 2000-07-28 2002-02-08 Shinichiro Okude 連想・推論機能を備えた検索システムおよび、それに用いられる、記録媒体献金
JP2005309998A (ja) * 2004-04-23 2005-11-04 Fujitsu Ltd コンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置
JP2013190848A (ja) * 2012-03-12 2013-09-26 Rakuten Inc 情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WATARU SUNAYAMA ET AL.: "Clustering Search Keywords for Acquiring Trends of Web Information", DAI 43 KAI SPECIAL INTERNET GROUP ON FOUNDATION OF ARTIFICIAL INTELLIGENCE SHIRYO (SIG-FAI-A003, 9 November 2000 (2000-11-09), pages 7 - 11 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019144914A (ja) * 2018-02-22 2019-08-29 カシオ計算機株式会社 情報処理装置及びプログラム
JP2022050654A (ja) * 2018-02-22 2022-03-30 カシオ計算機株式会社 情報処理装置、人事分析支援方法及びプログラム
JP7069810B2 (ja) 2018-02-22 2022-05-18 カシオ計算機株式会社 情報処理装置、人事分析支援方法及びプログラム
JP7276525B2 (ja) 2018-02-22 2023-05-18 カシオ計算機株式会社 情報処理装置、人事分析支援方法及びプログラム
CN117851538A (zh) * 2024-03-07 2024-04-09 济南浪潮数据技术有限公司 一种分布式检索方法、系统、设备及介质

Also Published As

Publication number Publication date
JPWO2016088212A1 (ja) 2017-06-15
JP6325132B2 (ja) 2018-05-16

Similar Documents

Publication Publication Date Title
US11263240B2 (en) Organizing survey text responses
US10572524B2 (en) Content categorization
US9881037B2 (en) Method for systematic mass normalization of titles
AU2014389492B2 (en) Blending search results on online social networks
RU2701110C2 (ru) Изучение и использование контекстных правил извлечения контента для устранения неоднозначности запросов
US10535106B2 (en) Selecting user posts related to trending topics on online social networks
US20170351760A1 (en) Segmentation of professional network update data
KR102466489B1 (ko) 관심 지점에 관련된 정보를 사용자에게 제공하기 위한 방법 및 시스템
AU2017250467B2 (en) Query optimizer for combined structured and unstructured data records
US20140379719A1 (en) System and method for tagging and searching documents
US20160070748A1 (en) Method and apparatus for improved searching of digital content
JP5494126B2 (ja) 文書推薦システム、文書推薦装置、文書推薦方法、及びプログラム
WO2018176913A1 (zh) 搜索方法、装置及非临时性计算机可读存储介质
US9996529B2 (en) Method and system for generating dynamic themes for social data
US20140026083A1 (en) System and method for searching through a graphic user interface
JP6325132B2 (ja) データ収集装置、及びデータ収集方法
US20140114982A1 (en) Automatic taxonomy merge
US20140067812A1 (en) Systems and methods for ranking document clusters
WO2023231288A1 (zh) 搜索结果的排序方法、装置、电子设备和存储介质
JP6364086B2 (ja) 自己産出的情報処理システムおよび方法
CN115145449A (zh) 书单生成方法、电子设备及计算机存储介质
JP2010066888A (ja) 同文字異議語の検索装置
TWM508168U (zh) 網上提取評價處理伺服器

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14907280

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016562135

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14907280

Country of ref document: EP

Kind code of ref document: A1