WO2011102076A1

WO2011102076A1 - 情報整理システム及び情報整理方法

Info

Publication number: WO2011102076A1
Application number: PCT/JP2011/000210
Authority: WO
Inventors: 伸治加美
Original assignee: 日本電気株式会社
Priority date: 2010-02-16
Filing date: 2011-01-18
Publication date: 2011-08-25
Also published as: JP5900323B2; JPWO2011102076A1; US20120310938A1; US9116916B2

Abstract

　本発明にかかる情報整理システムは、参照情報を保持する参照情報データベース１と、計量的および非計量的データを互いに類似するほどその距離が近くなるように空間にマッピングする一般化表現手段２と、参照情報を一般化表現手段を用いて拡張表現した拡張参照情報データベース３と、ログデータ６を一般化表現手段を用いて拡張表現した拡張ログデータ７と、拡張ログデータと関連性の深い拡張参照情報を検出する関連性検出手段８と、検出された拡張参照情報を用いてログデータ６を要約した所定のテンプレート１４を作成するテンプレート作成手段１３と、を有する。本発明により、膨大なログデータのうち、ユーザにとって重要度が高く、かつ特徴的と考える情報を選択し要約情報を迅速に自動表示することが可能な情報整理システムを提供することができる。

Description

情報整理システム及び情報整理方法

　本発明は膨大な情報を分析し整理する情報整理システム及び情報整理方法に関し、特にユーザにとって重要度の高い情報を効率よく抽出し表示することができる情報整理システム及び情報整理方法に関する。

　自動的にログデータを分析し整理する技術の一つに、ＧＰＳロガー等の測地座標データを収集するデバイスのログを、ユーザが実際に通った地図上の経路に表示する技術がある。図１０は、ＧＰＳログデータの一般的なデータフォーマットの一例を示す図である。図１０に示すＧＰＳログデータを用いることで、ＧＰＳロガーが定期的に収集した測地座標などのデータに基づき、対応する地図上の点を視認性を考慮した適当な間隔で間引いた点群やその間の線分の集合として表示することができる。そして、ユーザは例えば旅行記などを記録・作成する際にこのような経路情報を活用することができる。

　さらに、背景技術としてユーザが撮影した写真をその撮影場所と対応付けて地図上に表示する技術がある。この場合、撮影場所と写真データとを対応づけるためにカメラにＧＰＳロガーと同等の機能を付与し、写真データに測地座標情報を付与することができる。また、写真の撮影時間情報とＧＰＳログデータを用いて、写真の撮影時間と最も近い時間に記録されたＧＰＳログデータの点をサーチし、その点で撮影されたものとして写真を表示することもできる。

　このような背景技術にかかる情報整理システムを図１１に示す。図１１に示すように、背景技術にかかる情報整理システムは、ユーザデバイス２０１、データ読み取り装置２０２、サーバ２０３、およびユーザ端末２０４から構成されている。ＧＰＳロガーからのＧＰＳログデータやデジタルカメラの写真データなどがユーザデバイス２０１からデータ読み取り装置２０２を経由してサーバ２０３にアップロードされる。サーバ２０３は地図情報との対応付けなどの処理を自動的に行い、対応するファイル（例えば、ｈｔｍｌ形式）を作成しユーザ端末２０４に出力する。ユーザはサーバ２０３が作成したファイル２０５を、ユーザ端末２０４を用いて表示し確認する。

　サーバ２０３はこのような機能を実現する際に、地図ユーティリティを提供しているサードパーティのＡＰＩ（Application Programming Interface）を利用することもできる。つまり、ＡＰＩに合わせた形で情報を加工して入力し、取得した出力情報を加工してユーザ向けｈｔｍｌファイルやブログ等を作成することも可能である。上記の背景技術にかかる情報整理システムにおいても、ユーザはたとえばＧＰＳログデータの分析、対応する地図情報の編集、対応する写真データのマッピングや表示といった煩雑な作業をすることなく、自動的にブログなどを作成することが可能となる。

　一般的に、ＧＰＳログデータや写真データをそのまま表示すると膨大なデータ量となるため、表示に必要な情報やアイテムを選択する必要がある。簡単には、ＧＰＳログデータのうち冗長な部分を自動的に間引く方法や、撮影した写真をすべて表示するか、予め決めておいたルール（例えば、予め決めておいた数だけ表示する等）に従って膨大なデータを圧縮する方法がある。しかし、これだけではログデータからその概略を要約したような視認性の高い情報を出力することは難しい。例えば旅行に関するログデータであったら、交通要所、観光名所などを抽出し、その間は移動情報として扱った旅行記のようなテンプレートを作成することが望ましい。また、そのテンプレートには、例えばログデータには明示的に含まれていなくとも、近くにある名所のうちユーザが興味をもつデータなどが自動的に表示されると情報価値が高まる。

　これらの目的を達成するためには、一般的に特徴となりうる名所などのデータベースを用意し、さらに予めユーザの趣向情報を登録しておく。そして、ログデータとの関連性を選択するために、Ｎ個のログデータ（場合によっては適当に間引かれたログデータ）と名所データベースに登録してあるＭ個の名所との関係性を演算する。そして、この関係性を抽出するための演算をマニュアル的に予め決めておいたルールや判断基準に従い実施することで自動化することができる。

　例えば、ＧＰＳログデータを用いて名所からの物理的距離を抽出し、ある半径内に入ったものを候補として選択し、さらに、そこからユーザの趣向情報（例えば、興味のあるジャンルなどのカテゴリ情報等）と比較し、関係性が高いと判断されたものを絞り込むという作業を行う。関係性の判断は、なんらかの方法で定量化された指標をＮ×Ｍ回の厳密な計算で求めてそれをソートし、さらにユーザの趣向情報をもとに絞りこむという複数種類の演算を実行することで可能となる。

　一方、特許文献１にはユーザによる嗜好性に係る情報の入力／変更といった煩雑な作業を伴うことなく、ログデータに基づいてユーザの嗜好をダイナミックに読み取り、情報配信を行う時点で最適な情報を迅速且つ高効率に配信する技術が開示されている。特許文献１にかかる情報配信システム及び情報配信方法では、ＣＭコンテンツリコメンドサーバが、配信管理サーバを介してユーザ端末からの所定情報を受信した場合には、ユーザＩＤによりユーザを特定し、ログデータ蓄積ＤＢを参照しつつユーザの嗜好性に係る情報を検出し、嗜好性に係る情報に基づいてユーザに好適なＣＭコンテンツをユーザ端末側に送信するように配信スケジュールを作成する。そして、ストリーミング配信サーバにより、配信スケジュールに基づいてＣＭコンテンツがＣＭコンテンツ蓄積ＤＢから読み出され、ユーザ端末に配信される。

特開２００３－２４２０６９号公報

　上記背景技術にかかる情報整理システムでは、膨大なログデータのうち、ユーザにとって重要度が高く、かつ特徴的と考える情報を選択し要約情報を迅速に自動表示することが困難であるという問題がある。この理由は、各コンテンツデータの優劣はログデータに含まれておらず、またユーザはログ収集の最後になるまで重要度の優劣を決めることが難しく、情報量が大量の場合マニュアル的に優劣情報を入力することが困難だからである。また、背景技術で説明したように、特徴的な情報として候補となりうる情報群をあらかじめデータベース化しておき、ユーザごとに異なる優劣情報も考慮して関連性の高い情報を抽出する場合は、計算量が多く迅速に表示することが困難だからである。

　上記課題に鑑み本発明の目的は、膨大なログデータのうち、ユーザにとって重要度が高く、かつ特徴的と考える情報を選択し要約情報を迅速に自動表示することが可能な情報整理システム及び情報整理方法を提供することである。

　本発明にかかる情報整理システムは、参照情報を保持する参照情報データベースと、計量的および非計量的データを互いに類似するほどその距離が近くなるように空間にマッピングする一般化表現手段と、前記参照情報を前記一般化表現手段を用いて拡張表現することで生成された拡張参照情報を保持する拡張参照情報データベースと、ログデータを前記一般化表現手段を用いて拡張表現することで生成された拡張ログデータと、前記拡張参照情報と前記拡張ログデータとの関連性の強さをマッピングされた空間内における距離に基づき測定し、前記拡張ログデータと関連性の深い拡張参照情報を検出する関連性検出手段と、前記関連性検出手段により検出された拡張参照情報を用いて前記ログデータを要約した所定のテンプレートを作成するテンプレート作成手段と、を有する。

　本発明にかかる情報整理方法は、ログデータを登録し、計量的および非計量的データを互いに類似するほどその距離が近くなるように空間にマッピングする一般化表現手段を用いて、参照情報を拡張表現することで拡張参照情報を生成し、前記一般化表現手段を用いて前記ログデータを拡張表現することで拡張ログデータを生成し、前記拡張参照情報と前記拡張ログデータとの関連性の強さをマッピングされた空間内における距離に基づき測定し、前記拡張ログデータと関連性の深い拡張参照情報を検出し、前記検出された拡張参照情報を用いて前記ログデータを要約した所定のテンプレートを作成する。

　本発明にかかる、登録されたログデータから所定のテンプレートを作成する処理をコンピュータに実行させるプログラムは、計量的および非計量的データを互いに類似するほどその距離が近くなるように空間にマッピングする一般化表現手段を用いて、参照情報を拡張表現することで拡張参照情報を生成し、前記一般化表現手段を用いて前記ログデータを拡張表現することで拡張ログデータを生成し、前記拡張参照情報と前記拡張ログデータとの関連性の強さをマッピングされた空間内における距離に基づき測定し、前記拡張ログデータと関連性の深い拡張参照情報を検出し、前記検出された拡張参照情報を用いて前記ログデータを要約した所定のテンプレートを作成する処理をコンピュータに実行させるプログラムである。

　本発明により、膨大なログデータのうち、ユーザにとって重要度が高く、かつ特徴的と考える情報を選択し要約情報を迅速に自動表示することが可能な情報整理システム及び情報整理方法を提供することができる。

実施の形態にかかる情報整理システムを示すブロック図である。実施の形態にかかる情報整理システムの動作を説明するためのフローチャートである。実施の形態にかかる情報整理システムを用いて出力されるテンプレートの一例を示す図である。実施の形態にかかる情報整理システムを用いて出力されたテンプレートを編集可能に再構成した場合の一例を示す図である。実施の形態にかかる情報整理システムの一例を示すブロック図である。実施の形態にかかる情報整理システムの特徴点情報の一例を示す図である。実施の形態にかかる情報整理システムを用いてテンプレートを作成する場合に用いる３次元ベクトル空間を示す図である。実施の形態にかかる情報整理システムを用いて出力されるテンプレートの一例を示す図である。実施の形態にかかる情報整理システムを示すブロック図である。ＧＰＳログデータの一般的なデータフォーマットの一例を示す図である。背景技術にかかる情報整理システムを説明するための図である。

　以下、図面を参照して本発明の実施の形態について説明する。図１は、本実施の形態にかかる情報整理システムを示すブロック図である。図１に示すように、本実施の形態にかかる情報整理システムは、特徴点および当該特徴点に関連する特徴点情報（以下、これらを参照情報ともいう）を含む参照情報データベース１と、一般化表現手段２と、一般化表現手段２によって一般化表現された拡張参照情報データベース３と、確率的インデックス化手段４と、確率的インデックス化手段４を用いて拡張参照情報をインデックス化したインデックステーブル５と、を備える。更に、ユーザからアップロードデバイスによってアップロードされたログデータ６を、一般化表現手段２を用いて距離の定義がされた空間（典型的にはベクトル空間上の一点）として表現された拡張ログデータ７と、インデックステーブル５に登録された拡張参照情報の中で、拡張ログデータ７と関連性の深い拡張参照情報を確率的に検出する関連性検出手段８と、を備える。なお、以下では参照情報や拡張参照情報を単に特徴点と表現する場合もある。

　本実施の形態にかかる情報整理システムは更に、関連性検出手段８によって検出された拡張参照情報の集合である関連特徴点集合９と、特徴点（拡張参照情報）を序列化するためのスコアリングポリシー１１と、スコアリングポリシー１１を用いて、上述の関連特徴点集合９をその優劣・重要度によって序列化する序列化手段１０と、序列化手段１０で序列化された特徴点リスト１２と、特徴点リスト１２に基づきログデータ６およびそれと関連の深い特徴点情報から構成されるテンプレート１４を作成するテンプレート作成手段１３と、を備える。ここで、テンプレート１４は例えばブログなどのｈｔｍｌデータに代表されるドキュメント情報である。

　参照情報データベース１は、例えば名所や交通要所といったユーザがログデータから旅行記のようなサマライズされた情報を作成する上で一般的に有用な情報のデータベースである。参照情報データベース１が蓄積する情報は、特徴点と、当該特徴点に関連する情報である特徴点情報（特徴としての情報量を含んだ情報）を含んでいる。その名称、測地座標情報、その名所の種別（カテゴリ）情報など各特徴点に関する基本情報と、その特徴の記述やユーザのレビューコメントなどに代表される詳細情報（特徴点情報）が各特徴点に対して関連付けられている。ここで、特徴点情報は、測地座標などの計量ベクトル空間（たとえば緯度、経度、高度の３次元空間）で直接的に計量化されて表現された計量的な情報と、特徴点の特徴を記述する非計量的な情報（たとえばカテゴリ情報など）とを含んでいる。

　一般化表現手段２は、上記特徴点情報のうちの計量的な情報（例えば、測地座標等）と、非計量的な情報（例えば、カテゴリ情報等）とを、その特徴の相互関係を適切に表現するように計量化し、多次元ベクトル空間の一点として表現する。例えば、互いに類似する非計量的な特徴を有する特徴点同士はより空間的に近い距離に配置されるように表現される。この場合、一般化ベクトル空間は上記の計量的な情報の表現に用いられるベクトル空間と非計量的情報の計量化表現のためのベクトル空間との直和で表わされ、その次元は（計量的ベクトル空間の次元）＋（非計量的情報を計量化したベクトル空間の次元）となる。非計量的情報の計量化の一例としては多次元尺度法などを用いる方法がある。しかし、本実施の形態では、必ずしもこれに限られるものではなく、同じような特徴をもつ特徴点がベクトル空間上の同じような位置に表現され、特徴点同士の関係がその空間的位置関係によって反映されるような手段であれば、どのような手段を用いてもよい。

　拡張参照情報データベース３は、参照情報データベース１に登録された各特徴点に対して、一般化表現手段２によって計量化され一般化表現に置き換えられた特徴点の詳細情報をデータベース化したものである。これは特徴点のＩＤ情報（もしくは名称）に対して、その特徴点に対応する一般化表現が登録されたものである。

　確率的インデックス化手段４は、拡張参照情報データベース３に登録された特徴点を、互いに近傍にあるほど高い確率で同一インデックステーブルのエントリＩＤが与えられるように設計された確率的近傍検出手段によってインデックス化する手段である。この場合は、例えば近似近傍点探索手法（ＬＳＨ：Ｌｏｃａｌｉｔｙ　Ｓｅｎｓｉｔｉｖｅ　Ｈａｓｈｉｎｇ）を用いることができる。以後の説明では、確率的近傍検出手段の代表例としてＬＳＨを用いて説明するが、ＬＳＨと同様の機能を実現する手法であればＬＳＨ以外の手法を用いてもよい。

　ＬＳＨは、ベクトル空間上の１点とハッシュテーブル上のエントリのＩＤ（ラベル）とを対応させる関数およびその方法である。ＬＳＨは、距離が近い２点はその距離が近いほど同じエントリにハッシュされる確率が高くなるように設計される手法である。ＬＳＨは、近傍検出問題（Ｑｕｅｒｙとなるあるベクトルが与えられた時、そのＱｕｅｒｙベクトルの近くにあるベクトルを検出する問題）などに応用されている。そのアルゴリズム詳細については例えば、Mayur Datar , Nicole Immorlica , Piotr Indyk , Vahab S. Mirrokni, Locality-sensitive hashing scheme based on p-stable distributions, Proceedings of the twentieth annual symposium on Computational geometry, pp. 253-262, 2004, Brooklyn, New York, USAを参照されたい。

　インデックステーブル５は、各エントリＩＤをもつエントリに対して複数の特徴点が登録された情報テーブルであり、エントリＩＤをキーに指定すると、そこに登録された特徴点情報のポインタおよびその実体詳細情報が参照できるように設計されている。上述のＬＳＨを用いた場合は、エントリＩＤ（ハッシュ値の組）がキーであり、そのエントリに登録された特徴点情報を参照することができる。計算時間に問題がない場合は、厳密な距離計算に基づいて一般化ベクトル空間上での距離が近い点同士が同じエントリに登録されるように設計されていてもよい。一例としてボロノイ分割などによる手法がある。

　ログデータ６は、例えばＧＰＳロガーによって取得されたＧＰＳ測地座標情報やデジタルカメラによって撮影された写真データなどに代表される、ユーザが取得しサーバにアップロードした情報である。

　拡張ログデータ７は、上述の拡張参照情報データベース３と同様に、ログデータ６を一般化表現手段２によって計量化し一般化表現されたデータである。このとき、特徴点の一般化表現手段で表現されるベクトル空間（拡張参照情報データベース３）と次元を合致させるために、ユーザ固有の情報（例えば、ユーザの興味が強いカテゴリ情報などのプレファランス情報）をもとに次元を拡張しておく。例えば、特徴点の物理的な測地座標の他に、その属するカテゴリ情報を含んでいた場合、ユーザの興味の強いカテゴリ情報もＧＰＳデータに加えて次元を拡張し、ログデータ６の一般化表現がその興味の近い特徴点の一般化表現と近く配置されるようにする。一方、ユーザの興味の強いカテゴリ情報がない場合は、例えば予め決めておいた初期値を設定する等の方法を用いる。

　関連性検出手段８は、インデックステーブル５に登録してある拡張特徴点情報のなかで拡張ログデータ７と関連性の深いものを抽出し関連特徴点集合９を出力する。例えば、関連性検出手段８はＬＳＨを用いて空間的距離の近さを関連性の高い特徴点として抽出できる。具体的には、拡張ログデータ７をＬＳＨに入力して、出力されるエントリＩＤ（ハッシュ値の組）を調べ、そのエントリＩＤをキーにして、インデックステーブル５に登録されている特徴点情報を抽出する。インデックステーブル５の特徴として、一般化ベクトル空間において距離の近い、つまり関連性の高いもの同士は同じテーブルラベルを持つエントリに登録されている可能性が高い。このため、拡張ログデータ７のあるデータ点のテーブルラベルをもつエントリに登録された特徴点は互いに関連性が高いといえる。

　また、その近傍（例えば、隣のテーブルラベルを持つエントリ）も次に関連性が高い特徴点が登録されている可能性が高いので、近傍のテーブルエントリを検索することで同様の手続きによって関連性の高い特徴点を必要な特徴点の数になるまでさらに検索することができる。なお、本実施の形態において関連性検出手段８は必ずしもＬＳＨを用いる場合に限定されることはなく、インデックステーブル５に登録してある特徴点のなかで拡張ログデータ７と関連性の深いものを抽出し関連特徴点集合９を出力することができる方法であればどのようなものであってもよい。

　上記で説明した一連の特徴点検出手法は、ログデータ６と特徴点の測地座標との単なる物理的な近さを用いて特徴点を抽出しているのではなく、ユーザの趣向情報を考慮して特徴点を抽出している。つまり、ユーザの趣向情報などのユーザコンテキスト情報を含んだ特徴点との近さを関連性の強さとして表現し、関連性が強い（一般化ベクトル空間上で近い）ほど高い確率で、ユーザにとって興味が強く価値がある情報として特徴点を抽出することができる。ここで、ＬＳＨを利用した確率的インデックス化手段４を用いたのは、その高速性を重視した計算コストの削減が主たる理由であり、計算コストに問題がない場合は、厳密な距離計算による近傍計算やボロノイ分割をはじめ、その他の近傍点検出手法を使うことも可能である。

　スコアリングポリシー１１は、ユーザごとに定義・提供され、抽出された特徴点の重要度に対する優劣をつけるための情報、ルールなどが記述されたものである。抽出する特徴点の数は自由に設定可能である。しかし、少なすぎると十分にユーザの趣向にあった特徴点を抽出することが困難である。また、多すぎると計算に時間がかかるほか、それほど重要度の高くない情報も含まれることになり、有用性が薄れる。そのため、本実施の形態では計算コストに合わせて適当な数を抽出し、スコアリングすることで上から順に重要な情報として表示する方法が望ましい。

　スコアリングポリシー１１としては、重視する特徴点情報に関する事前知識（例えば、他の多くのユーザのレーティングが高い特徴点や、過去にユーザが強く興味を示したカテゴリに属している特徴点を重視する等）がある場合には、これに基づきその特徴点を上位にレーティングするというルールを記述しておく。また、例えばデジタルカメラなどの写真データのようにユーザが収集したデータが特徴点の近傍（単に一般化ベクトル空間での距離での比較だけではなく、例えばＧＰＳ測地座標や撮影時間などの観点での近傍であってもよい）にある場合は、ユーザがより強い興味を示している証拠として、その特徴点を上位にレーティングするというルールを記述しておくことができる。このようなスコアリングポリシー１１の記述例は一例であり、管理者の管理ポリシーに基づいて任意に記述することができる。

　重要度による序列化手段１０は、上述のスコアリングポリシー１１を用いて関連特徴点集合９を序列化し、特徴点リスト１２として出力する。必要に応じて、例えば上位１０個を選択する等の選択数の上限を設定することも可能である。

　テンプレート作成手段１３は、特徴点リスト１２に基づき予め決められたフォーマットに従ってテンプレート１４を作成する。ここで、テンプレート１４としては例えばｘｍｌやｈｔｍｌに代表されるマークアップ言語などで記述されたドキュメント情報などである。このテンプレート１４は、例えばユーザのログデータをもとに基本構造として抽出した特徴点を時間的な推移に沿って構成されるものである。典型的な例としては、ユーザが入力したＧＰＳデータなどから、始点から終点までに経由した特徴的な名所およびその名所間の接続情報（交通手段、所要時間など）を記載した旅行記等がある。

　ユーザはこのテンプレート１４をさらに編集することができる。この際、ログデータ６から関連が高いとして抽出されたがスコアリングポリシー１１による序列化の結果、表示されなかった特徴点情報や、それに関係の深いデータをこのテンプレート１４を用いて更に再構成しておくことで、ユーザの編集作業を容易にすることが可能である。

　次に、本実施の形態にかかる情報整理システムの動作を図２を用いて説明する。なお、図２に示す動作では、参照情報（名所などの特徴点の情報）は、予め上述の一般化表現手段２によってすべてオフライン処理によりインデックス化され、拡張参照情報がインデックステーブル５に登録されているものとする。クライアント側のユーザ処理および、サーバ側の処理プロセスは以下に示すとおりである。

　図２に示すように、ユーザは必要に応じてサーバのシステムにログインし、ＧＰＳロガーに代表される各種デバイスのログデータをデータ読み取り装置などを用いてサーバにアップロードする（ステップＳ１）。

　次に、サーバ側において、ユーザのアップロードを契機に、アップロードされたログデータを加工し、一般化表現手段２を用いて、その一般化表現された拡張ログデータ７を得る（ステップＳ２）。ここで、データの加工とは、その後の処理に必要な予め決められたルールで行う一連のデータ加工処理であり、例えば不必要なＧＰＳデータの間引き処理や、次元を合わせるための次元圧縮や次元拡張などの処理である。なお、このような処理は一例であり、データの加工については任意に決定することができる。また、拡張ログデータ７は、対応するインデックステーブル５のエントリＩＤを計算することができるフォーマットで記述されている。

　次に、上述の確率的インデックス手段を通して、拡張ログデータ７が写像されるインデックステーブル５のエントリＩＤを計算する（ステップＳ３）。

　次に、関連性抽出手段８を用いて、ステップＳ３で求めたエントリＩＤから各拡張ログデータ７に関連の深い特徴点を検出する（ステップＳ４）。典型的には、そのエントリＩＤを有するテーブルエントリに登録された特徴点を最高の関連性とする。そして、必要に応じてその近傍テーブルを検索するなど次に関連性の高い特徴点を抽出し、所定の数の特徴点を抽出する。抽出される特徴点の数は、一般的にはインデックス化手段に依存した予め決められたルールで決定される数であり、例えば下限、上限を定めることで決定される数である。なお、抽出される特徴点の数を決定するルールはこれに限定されるものではなく、任意に決定することができる。

　次に、序列化手段１０を用いて、抽出した特徴点集合をユーザに応じたスコアリングポリシー１１（重要度や優先度）に従って序列化する（ステップＳ５）。スコアリングポリシー１１は、例えば交通要所など特徴点自体が持つ重要性に加えて、ユーザの趣向などのプレファランス情報や、他のユーザの評判など様々なルールに基づき規定することができる。ここで、例えばユーザのプレファランス情報はユーザのプロフィールに加え、過去の行動パタンやレーティング情報などの行動履歴等から規定することができる。なお、ユーザのプレファランス情報は任意に規定することができる。

　次に、テンプレート作成手段１３を用いて、序列化された特徴点集合に基づき予め決められた処理に従って、ログデータのサマリー情報を表現するテンプレートを作成する（ステップＳ６）。典型的にはｈｔｍｌなどで記述されるがこれに限定されるものではない。ユーザが旅行に行った際のＧＰＳデータであれば、例えば図３に示すようになる。図３では、テンプレートとしてその旅行の道中のＧＰＳデータに基づき、その軌跡と関連の深い特徴点２１、２２、２３を予め決められた数だけ抽出し時系列的に表示している。また、各特徴点２１、２２、２３にはそれぞれに対応する特徴点情報３１、３２、３３が表示されている。また、各特徴点２１、２２、２３間の経路２４、２５に対応する接続情報３４、３５として、例えば移動にかかった時間や前後の特徴点および移動所要時間などから推察される交通手段などの移動情報を表示することができる。なお、図３に示した出力例は一例であり、ログデータのサマリー情報を表現するテンプレートは任意に決定することができる。

　また、表示に利用された特徴点以外の特徴点や関連する情報などは、ユーザが編集しやすいように再構成することができる。表示するテンプレートはあくまでテンプレートであり、ユーザはそのテンプレート情報に基づき、表示する特徴点を増やしたり逆に削除したりすることができる。その際に、例えば特徴点を増やす時は、接続情報を右クリックすることで、その接続情報と関連の深い情報をプルダウンメニューなどで表示できるようにしてもよい。ここで、その接続情報と関連の深い情報とは、例えば、その接続区間に属しているが、ステップＳ５の序列化の結果選択されなかった情報である。この場合、接続情報に関連の深い情報を優先順位に従い表示できるように、データを各特徴点や接続情報（以下、特徴点や接続情報を表示オブジェクトという）に対して再度グループ化して関連付けし序列化しておく。

　また、表示オブジェクトに選択された特徴点と関連の深いデータ（写真データや特徴を記述したテキストデータなど）を関連付けておくことで、データをさらに編集し、追加的情報を容易に掲載することが可能である。なお、この関連付けるデータには、関連性検出手段８によって検出された関連性の高い特徴点情報以外にも、例えば、予め参照情報データベース１に登録された特徴点情報に関連付けておいたコメントや写真などの詳細情報を加えることができる。更に、例えばユーザのデジタルカメラによる写真データやコメント情報なども、その作成時間・場所から上述の手法と同様の手法により関連性に応じてインデックステーブルに登録でき、同様の手法で再構成することが可能である。

　ここで再構成の一例を図４を用いて説明する。図４に示すように、表示するテンプレート４０を構成する特徴点４１、４２、４３、４４や接続情報４５、４６、４７に対して、これらの表示オブジェクト以外の特徴点情報や接続情報に関連の深い補助的な各種情報を次のような手法により各表示オブジェクトに関連付けることができる。

　図４に示す特徴点４１、４２、４３、４４、各特徴点間の接続情報４５、４６、４７で構成されるテンプレート情報４０は、抽出された特徴点情報５１、特徴点と関連づけられた一般情報５２、ログデータ５３などの情報群５０に基づき自動生成される。この例では、テンプレート情報４０の構造に従って、情報群５０を各特徴点４１、４２、４３、４４および接続情報４５、４６、４７との関連性に応じて分解し再構成している。

　また、例えば接続情報４５には、関連特徴点サブ集合６１、ログデータ候補サブ集合６２、一般データ候補サブ集合６３を含む情報６０が関連づけられ再構成されている。また、特徴点４２には、ログデータ候補サブ集合７１、一般データ候補サブ集合７２を含む情報７０が関連づけられ再構成されている。さらに、表示オブジェクトの詳細情報は予め決められたルールに従い、予め用意された詳細情報を使用して表示オブジェクトの詳細情報として自動的に表示することも可能である。例えば、特徴点４３を詳細に記述するテキスト情報や写真情報などのノート４８を抽出された特徴点に関連する一般情報から自動作成し特徴点４３に関連付けておき、その重要度に応じて自動的に表示する等のルールによって自動表示処理することも可能である。

　次に、作成されたテンプレート情報がネットワークを通してクライアント側に転送される（ステップＳ７）。ユーザはユーザ端末を用いてサーバから転送されてきたテンプレート情報を表示し、確認する（ステップＳ８）。また、ユーザは表示されたテンプレート情報を用いて、上記の手法により再構成されたログデータを用いてテンプレート情報を編集することができる（ステップＳ９、Ｓ１０）。そして、ユーザによるテンプレート情報の編集が完了し、テンプレート作成作業が終了する（ステップＳ１１）。

　以上で説明した本実施の形態にかかる情報整理システム及び情報整理方法を用いることで、膨大なログデータの中から不必要な細部を省略し、ユーザにとって重要度が高い部分を優先的に要約した情報を高速に表示できることが可能になる。その理由は、特徴的な情報となる可能性の高い情報群を集めたデータベースとユーザのプロファイル情報を用いることで、重要度の高い情報をログデータの中から高速に抽出することができるためである。

　また、本実施の形態にかかる情報整理システム及び情報整理方法を用いることで、ユーザのログデータに直接含まれてはいないが、ユーザのログデータと関連性が高く、ユーザにとって重要度が高い、もしくは高い関心を示す可能性の高い関連情報を、ログデータの要約表示に関連付けてあわせて表示することができる。

　次に、上記の本実施の形態にかかる情報整理システム及び情報整理方法を用いてテンプレート情報を作成した場合の具体例について説明する。具体例として、ユーザが旅行に行った際に収集したＧＰＳデータをアップロードすることで、自動的に旅行記テンプレートを出力することが可能なシステムについて説明する。

　図５は本実施の形態にかかる情報整理システム８０の具体例を示すブロック図である。図５に示すように、情報整理システム８０はユーザ端末８１、ウェブサーバ８２、アプリケーションサーバ８３、データベースサーバ８４を備える。ユーザはＧＰＳロガー８５をユーザデバイスとして有する。ユーザ端末８１はネットワークを介してウェブサーバ８２と接続されており、相互にデータの交換が可能である。ユーザはユーザ端末８１からウェブサーバ８２にアクセスし、例えばウェブページ８６を通してユーザに固有のアカウントを用いてログインし、旅行中に作成・記録したログデータをウェブサーバ８２にアップロードする。

　アプリケーションサーバ８３は、テンプレート作成アプリケーション８３_１、インデックス化手段８３_２、ポリシー情報８３_３、再構成データ８３_４を備える。また、データベースサーバ８４は、インデックステーブル８４_１、ユーザ情報８４_２、参照情報データベース８４_３を備える。

　データベースサーバ８４の参照情報データベース８４_３は、例えば図６に示す特徴点に関するデータが登録されている。各特徴点は一般化表現に拡張され、ＬＳＨを用いて空間的距離の近さを関連性の高い特徴点として抽出し、インデックステーブル８４_１に格納されている。データベースサーバ８４は、このような処理を予めオフライン処理として実施する。ここで、参照情報データベース８４_３には、特徴点、測地座標値、カテゴリ情報、レーティング情報が登録されている。

　この一般化ベクトル空間は、３次元の物理的な測地座標空間とカテゴリ情報を表現するベクトル空間の直和として表現される。カテゴリ情報空間は一般的にはある正の整数Ｋに対して、Ｋ次元空間で表現することが可能である。しかし、本実施の形態では簡単のためにカテゴリを「山」と「テーマパーク」の２つとし、１次元上の２点（１は「山」、－１は「テーマパーク」とする）で表現する。

　また、測地座標空間も高さ方向を無視した２次元で簡略化すると、一般化ベクトル空間上での表現は２次元の物理的な測地座標空間＋１次元のカテゴリ情報空間＝３次元ベクトル空間上の点となる。例えば、「特徴点Ａ」は（a１、ａ２、１）、「特徴点Ｂ」は（ｂ１、ｂ２、－１）、「特徴点Ｃ」は（ｃ１、ｃ２、１）、「特徴点Ｄ」は（ｄ１、ｄ２、１）となり、それぞれ図７に示す３次元ベクトル空間の点９１、点９２、点９３、点９４に位置する。ただし、ａ１、ａ２、ｂ１、ｂ２、ｃ１、ｃ２、ｄ１、ｄ２は特徴点Ａ、Ｂ、Ｃ、Ｄの測地座標の高さ方向を無視した２次元空間での成分値とする。これらの特徴点は、データベースサーバ８４において保存されるインデックステーブル８４_１に登録される。なお、このインデックステーブル８４_１はアプリケーションサーバ８３で保存しておいてもよい。

　さらに、これらの特徴点に対して、事前に他のユーザのレーティング情報も［０、１］の範囲の実数で指定することもできる。ここで、レーティング情報の値が大きいほどその評価が高い（人気が高い）とする。この例では特徴点Ａは０．８、特徴点Ｂは０．７、特徴点Ｃは０．５、特徴点Ｄは０．９とする。

　ユーザが入力するＧＰＳログデータは、地点Ｘ（ｘ１、ｘ２）から地点Ｙ（ｙ１、ｙ２）までの測地座標が適当な時間間隔で配置された離散データとする。このＧＰＳログデータは、地点Ｘ（ｘ１、ｘ２）から地点Ｙ（ｙ１、ｙ２）までの直線軌跡（軌跡９８）を形成する。またユーザは過去の履歴からユーザの趣向に関する情報として、山に強い興味がありテーマパークには興味がほとんどない、と設定されているとする。この情報は一般化ベクトル上のベクトル成分で表現されているとする。これは、例えば過去にアップロードした写真データのカテゴリ情報（山の写真が多い等）から決定することができる。

　本実施の形態では簡単のために、カテゴリ情報空間である１次元ベクトル空間の一点（例えば山の写真が９枚、テーマパークの写真が１枚なら、（９×１＋１×（－１））／１０＝０．８のように－１から１までの内分点）で表現する。この場合、このユーザの興味カテゴリに関する成分値は０．８となり、ＧＰＳログデータの軌跡の一般化ベクトル空間上での表現は、図７に示すような２次元の物理的な測地座標空間＋１次元のカテゴリ情報空間＝３次元空間の軌跡に拡張され、面９５上の軌跡９９となる。

　このユーザのＧＰＳログデータの一般化ベクトル空間上の表現（以後、一般化軌跡と呼ぶ）は、（ｘ１、ｘ２、０．８）から（ｙ１、ｙ２，０．８）までの直線上にある点の集合となる。この一般化軌跡の始点および終点の幾何的な位置は、それぞれ図７における点９６および点９７で表わされ、一般化軌跡はその測地座標の軌跡９８に対して、軌跡９９で表わされる。すなわち、ログデータである軌跡９８を一般化表現手段を用いて拡張表現した拡張ログデータが軌跡９９となる。

　ユーザがＧＰＳログデータをアップロードすると、ウェブサーバ８２は、アプリケーションサーバ８３にテンプレートファイルの作成要求を発行する。アプリケーションサーバ８３にはユーザのログデータからテンプレートを作成するアプリケーション８３_１がインストールされている。アプリケーションサーバ８３は、ウェブサーバ８２からアップロードされたログデータを取得すると、ユーザの趣向情報を合わせて上述のようにデータを加工し一般化表現に変換することで拡張ログデータを作成する。

　また、アプリケーションサーバ８３は、作成された拡張ログデータをＬＳＨに入力して出力されるエントリＩＤを調べ、そのエントリＩＤをキーにしてデータベースサーバ８４にあるインデックステーブル８４_１から関連の深い特徴点集合を予め決められた範囲の数だけ抽出する。このとき、抽出されたデータの数が予め決められた範囲の数に達しない場合は、その近傍のテーブルエントリから順にデータを取得し、予め決められた範囲の数に達したところでデータの取得を中止する。

　本実施の形態では抽出する特徴点の数を２つとする。この場合、図７に示すように特徴点Ａおよび特徴点Ｃはそれぞれ一般化表現で近傍となるので抽出される。しかし、特徴点Ｂはカテゴリ情報軸において距離があるため、一般化軌跡の近傍として検出されない。この結果は、このユーザがテーマパークよりも山へ興味を示していることを反映している。また、特徴点Ｄは物理的な距離がユーザの軌跡から離れているためこのログデータには無関係と判断され抽出されない。

　関連の深い特徴点の集合（特徴点ＡおよびＣ）が得られると、データベースサーバ８４に保存されているユーザ情報８４_２やアプリケーションサーバ８３に保持されているポリシー情報８３_３に基づき、特徴点を序列化し表示するオブジェクトを決定する。ポリシー情報は様々決められるが、本実施の形態では簡単のため、他のユーザのレーティング情報を用いるとする。すると、レーティング情報が高い特徴点Ａが特徴点Ｃよりも上位になるようにソートされる。これにより、特徴点Ａが特徴点Ｃよりも優先的に用いられることになる。

　この結果を用いてｈｔｍｌなどのウェブブラウザで表示可能なフォーマットで記述されたテンプレートを作成する。本実施の形態では簡単のため、例えば一つの特徴点のみを表示するように設定しているので、特徴点Ａが選ばれることになる。このとき、上述したように、各表示オブジェクト（始点Ｘ、終点Ｙ、特徴点Ａ、Ｘ－Ａの接続情報、Ａ－Ｙの接続情報）に対して、関係の深い特徴点情報およびそれに関連付けられた詳細情報などのデータを再構成し、この再構成データ８３_４をアプリケーションサーバ８３に保持しておく。

　この結果、図８に示すようなテンプレート（旅行記）が作成される。図８に示すテンプレート（旅行記）は、始点Ｘと終点Ｙを有し、始点Ｘには始点Ｘの情報１０１が、また終点Ｙには終点Ｙの情報１０３が表示される。また、抽出された特徴点Ａは、始点Ｘから終点Ｙまでの道中でユーザに一番関係が高いと思われる特徴点であり、特徴点Ａに関する情報１０２が自動的に表示される。

　また、経路Ｘ－Ａの接続情報１０４と経路Ａ－Ｙの接続情報１０５も同時に自動的に作成され、例えば経過時間などの情報を表示することができる。なお、検出されたその他の特徴点である特徴点Ｃの情報は、特徴点Ａと終点Ｙとの間の接続情報オブジェクトに関連付けるように再構成しておく。これにより、例えばユーザが接続情報Ａ－Ｙを選択し、更に新たな情報を追加する編集をする際に、優先的に表示することが可能となる。

　なお、本実施の形態において設定したデータはあくまで簡略化された例であり、例えば一般化表現は、ＧＰＳ情報以外にも時間情報などの計量データを追加することができる。また、カテゴリ情報をはじめその他の非計量データで構成される情報を含めてより複雑な情報をさらに高次元化して表現することも可能である。また、一般化軌跡も固定的平面内の軌跡である必要はなく、場所などに依存する曲面で表現する、確率的に重みが決められた複数の一般化軌跡で表現する、などの拡張を加えてもよい。

　以上で説明した本発明にかかる情報整理システム及び情報整理方法により、ログデータをサーバにアップロードすることでリアルタイム性に優れたレスポンス性を有しながら旅行記、行動記録等を自動作成することが可能となる。また、本発明にかかる情報整理システム及び情報整理方法は、ログデータをもとに利用者の行動パタンから関連の高い店や観光地などの関連情報を推薦する、または関連の深い情報を含む広告などを表示するといった用途にも適用可能である。

　なお、本実施の形態にかかる情報整理システムは少なくとも図９に示す構成要素を備えていればよい。つまり、本実施の形態にかかる情報整理システムは、参照情報を保持する参照情報データベース１と、計量的および非計量的データを互いに類似するほどその距離が近くなるように空間にマッピングする一般化表現手段２と、参照情報を一般化表現手段を用いて拡張表現することで生成された拡張参照情報を保持する拡張参照情報データベース３と、ログデータ６を一般化表現手段２を用いて拡張表現することで生成された拡張ログデータ７と、拡張参照情報と拡張ログデータとの関連性の強さをマッピングされた空間内における距離に基づき測定し、拡張ログデータと関連性の深い拡張参照情報を検出する関連性検出手段８と、関連性検出手段８により検出された拡張参照情報を用いてログデータを要約した所定のテンプレート１４を作成するテンプレート作成手段１３と、を有することで上記効果を得ることができる。ここで、図９に示す各構成要素については図１で既に説明したので詳細な説明を省略する。

　また、本実施の形態にかかる、登録されたログデータから所定のテンプレートを作成する処理をコンピュータに実行させるプログラムは、次のステップをコンピュータに実行させる。
　計量的および非計量的データを互いに類似するほどその距離が近くなるように空間にマッピングする一般化表現手段を用いて、参照情報を拡張表現することで拡張参照情報を生成するステップ。
　一般化表現手段を用いて登録されたログデータを拡張表現することで拡張ログデータを生成するステップ。
　拡張参照情報と拡張ログデータとの関連性の強さをマッピングされた空間内における距離に基づき測定し、拡張ログデータと関連性の深い拡張参照情報を検出するステップ。
　検出された拡張参照情報を用いてログデータを要約した所定のテンプレートを作成するステップ。

　また、上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ　ｃｏｍｐｕｔｅｒ　ｒｅａｄａｂｌｅ　ｍｅｄｉｕｍ）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（ｔａｎｇｉｂｌｅ　ｓｔｏｒａｇｅ　ｍｅｄｉｕｍ）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Ｐｒｏｇｒａｍｍａｂｌｅ　ＲＯＭ）、ＥＰＲＯＭ（Ｅｒａｓａｂｌｅ　ＰＲＯＭ）、フラッシュＲＯＭ、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（ｔｒａｎｓｉｔｏｒｙ　ｃｏｍｐｕｔｅｒ　ｒｅａｄａｂｌｅ　ｍｅｄｉｕｍ）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

　以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２０１０年２月１６日に出願された日本出願特願２０１０－０３１５３３を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１　参照情報データベース
２　一般化表現手段
３　拡張参照情報データベース
４　確率的インデックス化手段
５　インデックステーブル
６　ログデータ
７　拡張ログデータ
８　関連性検出手段
９　関連特徴点集合
１０　序列化手段
１１　スコアリングポリシー
１２　特徴点リスト
１３　テンプレート作成手段
１４　テンプレート
２１、２２、２３　特徴点
２４、２５　経路
３１、３２、３３　特徴点情報
３４、３５　接続情報
４０　テンプレート情報
４１、４２、４３、４４　特徴点
４５、４６、４７　接続情報
４８　特徴点のノート
５０　情報群
５１　抽出された特徴点情報
５２　特徴点と関連づけられた一般情報
５３　ログデータ
６０　接続情報に関連づけられた情報
６１　関連特徴点サブ集合
６２　ログデータ候補サブ集合
６３　一般データ候補サブ集合
７０　特徴点に関連づけられた情報
７１　ログデータ候補サブ集合
７２　一般データ候補サブ集合
８０　情報整理システム
８１　ユーザ端末
８２　ウェブサーバ
８３　アプリケーションサーバ
８３_１　テンプレート作成アプリケーション
８３_２　インデックス化手段
８３_３　ポリシー情報
８３_４　再構成データ
８４　データベースサーバ
８４_１　インデックステーブル
８４_３　参照情報データベース
８４_２　ユーザ情報
８５　ＧＰＳロガー
８６　ウェブページ

Claims

　参照情報を保持する参照情報データベースと、
　計量的および非計量的データを互いに類似するほどその距離が近くなるように空間にマッピングする一般化表現手段と、
　前記参照情報を前記一般化表現手段を用いて拡張表現することで生成された拡張参照情報を保持する拡張参照情報データベースと、
　ログデータを前記一般化表現手段を用いて拡張表現することで生成された拡張ログデータと、
　前記拡張参照情報と前記拡張ログデータとの関連性の強さをマッピングされた空間内における距離に基づき測定し、前記拡張ログデータと関連性の深い拡張参照情報を検出する関連性検出手段と、
　前記関連性検出手段により検出された拡張参照情報を用いて前記ログデータを要約した所定のテンプレートを作成するテンプレート作成手段と、
　を有する情報整理システム。
　前記拡張参照情報を互いに近傍にあるほど高い確率で同一インデックステーブルに登録する確率的インデックス化手段を更に備える、請求項１に記載の情報整理システム。
　前記関連性検出手段は、前記拡張ログデータに基づき求められたエントリＩＤを用いて前記インデックステーブルに登録されている拡張参照情報を検出する、請求項２に記載の情報整理システム。
　前記拡張参照情報の次元と前記拡張ログデータの次元とが同一の次元となるように、前記拡張ログデータの次元を拡張する、請求項１乃至３のいずれか一項に記載の情報整理システム。
　前記関連性検出手段により検出された拡張参照情報を、予め定められたスコアリングポリシーに基づき序列化する序列化手段を更に備える、請求項１乃至４のいずれか一項に記載の情報整理システム。
　前記拡張参照情報および前記拡張ログデータの少なくとも一つを前記テンプレート作成手段が作成したテンプレートに関連付けて再構成する、請求項１乃至５のいずれか一項に記載の情報整理システム。
　前記参照情報データベースは、特徴点および当該特徴点に関連する情報である特徴点情報を含み、前記特徴点情報は計量的な情報および非計量的な情報を含む、請求項１乃至６のいずれか一項に記載の情報整理システム。
　前記ログデータは、ユーザが作成したデータ、ユーザが測定したデータ、及びこれらのデータに関連する場所や時間の情報が付加されたデータの集合である、請求項１乃至７のいずれか一項に記載の情報整理システム。
　ログデータを登録し、
　計量的および非計量的データを互いに類似するほどその距離が近くなるように空間にマッピングする一般化表現手段を用いて、参照情報を拡張表現することで拡張参照情報を生成し、
　前記一般化表現手段を用いて前記ログデータを拡張表現することで拡張ログデータを生成し、
　前記拡張参照情報と前記拡張ログデータとの関連性の強さをマッピングされた空間内における距離に基づき測定し、前記拡張ログデータと関連性の深い拡張参照情報を検出し、
　前記検出された拡張参照情報を用いて前記ログデータを要約した所定のテンプレートを作成する、
　情報整理方法。
　計量的および非計量的データを互いに類似するほどその距離が近くなるように空間にマッピングする一般化表現手段を用いて、参照情報を拡張表現することで拡張参照情報を生成し、
　前記一般化表現手段を用いて登録されたログデータを拡張表現することで拡張ログデータを生成し、
　前記拡張参照情報と前記拡張ログデータとの関連性の強さをマッピングされた空間内における距離に基づき測定し、前記拡張ログデータと関連性の深い拡張参照情報を検出し、
　前記検出された拡張参照情報を用いて前記ログデータを要約した所定のテンプレートを作成する処理をコンピュータに実行させる非一時的なコンピュータ可読媒体。