JPWO2011061890A1 - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JPWO2011061890A1
JPWO2011061890A1 JP2011541795A JP2011541795A JPWO2011061890A1 JP WO2011061890 A1 JPWO2011061890 A1 JP WO2011061890A1 JP 2011541795 A JP2011541795 A JP 2011541795A JP 2011541795 A JP2011541795 A JP 2011541795A JP WO2011061890 A1 JPWO2011061890 A1 JP WO2011061890A1
Authority
JP
Japan
Prior art keywords
attribute
thing
density
value
things
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011541795A
Other languages
English (en)
Other versions
JP5692087B2 (ja
Inventor
康高 山本
康高 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011541795A priority Critical patent/JP5692087B2/ja
Publication of JPWO2011061890A1 publication Critical patent/JPWO2011061890A1/ja
Application granted granted Critical
Publication of JP5692087B2 publication Critical patent/JP5692087B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

情報処理装置900は、属性を有するか否かを表す値である属性値と対応付けられた事物を複数含む全体集合内の1つの事物である推定対象事物に接続されている事物である接続事物と対応付けられた属性値に基づいて、当該推定対象事物と対応付けられる属性値を推定する属性値推定部901を備える。

Description

本発明は、事物と対応付けられた属性値を推定する情報処理装置に関する。
属性を有するか否かを表す値である属性値と対応付けられた事物を複数含む全体集合内の1つの事物である推定対象事物と対応付けられる属性値を推定する情報処理装置が知られている。この種の情報処理装置の一は、各事物が複数の属性のそれぞれを有するか否かを表す複数の属性値と対応付けられている全体集合に対して適用される。
この情報処理装置は、ある属性に対する属性値が、推定対象事物と同一である(又は、類似する)事物を抽出する。そして、情報処理装置は、抽出した事物と対応付けられた他の属性に対する属性値に基づいて、推定対象事物と対応付けられる当該属性に対する属性値を推定する。
例えば、この種の情報処理装置の一つとして非特許文献1に記載の情報処理装置は、事物としてのユーザ(消費者)が登録した属性値としてのソーシャルブックマークの類似性に基づいて、類似する興味を有するユーザを抽出する。そして、この情報処理装置は、抽出したユーザと対応付けられた属性値としての商品又はサービスを表す情報に基づいて、推定対象となるユーザ(推定対象事物)と対応付けられる属性値を推定する。また、非特許文献2及び非特許文献3にも同様の推定処理を行う情報処理装置が開示されている。
白土慧、吉井伸一郎、古川正志、「ソーシャルブックマークサービスを利用した情報レコメンデーション」、情報処理学会研究報告[IPSJ SIG Notes]、情報処理学会、2006年、第84巻、p.15-20 清水拓也、土方嘉徳、西田正吾、「発見性を考慮した協調フィルタリングアルゴリズムに関する基礎検討」、情報処理学会研究報告[IPSJ SIG Notes]、情報処理学会、2006年、第59巻、p.53-60 Stuart E. Middleton, Nigel R. Shadbolt, and David C. De Roure, 「Ontological User Profiling in Recommender Systems」, ACM Transactions on Information Systems、アメリカ計算機学会(ACM)、2004年、第22巻、第1号、p.54-88
しかしながら、いずれの属性に対しても、推定対象事物と対応付けられた属性値と同一の(又は、類似する)属性値と対応付けられた事物が存在しない場合、又は、推定対象事物と対応付けられた属性値が1つも存在しない場合がある。このような場合、上述した情報処理装置は、推定対象事物と対応付けられる属性値を推定することができないという問題があった。
このため、本発明の目的は、上述した課題である「推定対象事物と対応付けられる属性値を推定することができない状況が発生すること」を解決することが可能な情報処理装置を提供することにある。
かかる目的を達成するため本発明の一形態である情報処理装置は、
属性を有するか否かを表す値である属性値と対応付けられた事物を複数含む全体集合内の1つの事物である推定対象事物に接続されている事物である接続事物と対応付けられた属性値に基づいて、当該推定対象事物と対応付けられる属性値を推定する属性値推定手段を備える。
本発明は、以上のように構成されることにより、推定対象事物と対応付けられる属性値を推定することができない状況の発生を抑制することができる。
本発明の第1実施形態に係る情報処理装置の概略構成を表す図である。 本発明の第1実施形態に係る情報処理装置の機能の概略を表すブロック図である。 本発明の第1実施形態に係る情報処理装置が実行する処理の概要を示したフローチャートである。 本発明の第1実施形態に係る接続情報の一例を示したテーブルである。 図4に示された接続情報を、直接に接続されている事物間を直線により結んだグラフとして概念的に示した図である。 本発明の第1実施形態に係るプロファイル情報の一例を示したテーブルである。 本発明の第1実施形態に係る全体集合内密度の一例を示したテーブルである。 本発明の第1実施形態に係る接続事物抽出部により抽出された接続事物を概念的に示した図である。 本発明の第1実施形態に係る情報処理装置が記憶する、ホップ数と、接続事物IDと、を示したテーブルである。 本発明の第1実施形態に係る接続集合内密度算出部により算出された接続集合内密度を示したテーブルである。 本発明の第1実施形態の変形例に係る接続強度を概念的に示した図である。 本発明の第1実施形態の変形例に係る接続集合内密度を示したテーブルである。 接続情報のうちの、属性としての「テニス」を有する接続事物に係る接続情報をグラフとして概念的に示した図である。 本発明の第1実施形態の変形例に係る接続集合内密度を示したテーブルである。 既定形状の一例を概念的に示した図である。 既定形状の一例を概念的に示した図である。 本発明の第1実施形態に係る属性値推定部により算出された偏在度を示したテーブルである。 本発明の第1実施形態の変形例に係る属性値推定部により算出された偏在度を示したテーブルである。 本発明の第2実施形態に係る情報処理装置の機能の概略を表すブロック図である。 本発明の第2実施形態に係る情報処理装置が実行する処理の概要を示したフローチャートである。 本発明の第2実施形態に係る情報処理装置が記憶する、接続事物IDと、外部接続事物IDと、を示したテーブルである。 本発明の第2実施形態に係る接続集合内密度算出部により算出された接続集合内密度を示したテーブルである。 本発明の第2実施形態に係る外部接続集合内密度算出部により算出された外部接続集合内密度の代表値を示したテーブルである。 本発明の第3実施形態に係る情報処理装置の機能の概略を表すブロック図である。
以下、本発明に係る、情報処理装置、情報処理方法、及び、プログラム、の各実施形態について図1〜図23を参照しながら説明する。
<第1実施形態>
第1実施形態に係る情報処理装置は、属性としての趣味(嗜好)を有するか否かを表す値である属性値と対応付けられた事物としてのユーザを複数含む全体集合に対して適用される。
なお、本明細書においては、全体集合内の1つの事物であって、情報処理装置が属性値を推定する対象となる事物を、推定対象事物と呼ぶ。また、推定対象事物に接続されている事物を接続事物と呼ぶ。本実施形態においては、ある事物が推定対象事物に接続されていることは、当該事物と推定対象事物との間で情報が授受された頻度が閾値以上であることに対応している。なお、ある事物が推定対象事物に接続されていることは、当該事物と推定対象事物との間で情報が授受される可能性が閾値以上であることに対応していてもよい。
ところで、推定対象事物は、接続事物との間で互いに影響を及ぼし合う。そのため、推定対象事物と接続事物とは、趣味を共有する可能性が比較的高い。そこで、この情報処理装置は、接続事物と対応付けられた属性値に基づいて、推定対象事物と対応付けられる属性値を推定する。これにより、推定対象事物と対応付けられる属性値が高い精度にて推定される。
なお、本発明に係る情報処理装置は、ユーザ以外の事物を複数含む全体集合に対して適用されてもよい。例えば、情報処理装置は、事物としての文書(例えば、HTML(HyperText Markup Language)に従った情報等)を複数含む全体集合に対して適用されてもよい。この場合、属性は、文書において出現するキーワードである。また、この場合、ある事物が推定対象事物に接続されていることは、当該事物及び推定対象事物の少なくとも一方が他方を参照していることに対応している。
以下、第1実施形態及びその変形例に係る情報処理装置の構成及び作動について、図1乃至図17を参照しながら具体的に説明する。
(構成)
図1は、本発明の第1実施形態に係る情報処理装置10の概略構成を示した図である。図1に示すように、情報処理装置10は、中央処理装置(CPU;Central Processing Unit)11と、メモリ12と、ハードディスクドライブ(HDD;Hard Disk Drive)13と、通信インタフェース(IF;Interface)14と、入力装置15と、出力装置16と、を有する。メモリ12及びHDD13は、記憶装置を構成している。
CPU11〜出力装置16は、バス17を介して互いに接続されることにより、データの入出力を行う(互いにデータを授受する)。通信IF14は、外部のネットワークに接続するためのインタフェースである。入力装置15は、例えば、キーボード及びマウス等である。出力装置16は、例えば、ディスプレイ等である。情報処理装置10の機能は、CPU11が、メモリ12又はHDD13に記憶されているプログラムを実行することにより実現される。
(機能)
図2は、第1実施形態に係る情報処理装置10の機能を示したブロック図である。情報処理装置10の機能は、接続事物抽出部(接続事物抽出手段)101と、接続集合内密度算出部(接続集合内密度算出手段)102と、属性値推定部(属性値推定手段)103と、を含む。
図2に示したように、事物情報201は、情報処理装置10に入力されるデータであり、推定対象事物の属性値202は、情報処理装置10から出力されるデータである。図3は、情報処理装置10のCPU11が実行する処理の概要を示したフローチャートである。
以降、図2及び図3を参照しながら、情報処理装置10の機能について説明する。
事物情報201は、全体集合内のすべての事物組のそれぞれに対する接続情報と、全体集合内の事物のうちの、推定対象事物以外の事物と対応付けられたプロファイル情報と、全体集合内密度と、を含む。
ここで、各事物組は、全体集合内の任意の2つの事物からなる。また、接続情報は、事物組を構成する2つの事物が接続されているか否かを表す。本例では、接続情報は、事物組のそれぞれに対する真偽値を含む。接続情報は、0である場合に、2つの事物が接続されていないことを表し、一方、1である場合に、2つの事物が接続されていることを表す。なお、接続情報は、事物組を構成する2つの事物が接続されている強さを表す接続強度を含んでいてもよい。この場合、例えば、接続強度は、0以上であり且つ1以下である実数である。接続強度は、0である場合に、2つの事物が接続されていないことを表し、一方、1である場合に、2つの事物が最も強く接続されていることを表す。
また、全体集合内密度は、全体集合内の事物の数(総数)に対する、当該全体集合内の事物のうちの属性を有する旨を表す属性値と対応付けられた事物の数の比が大きくなるほど大きくなる値を有する。本例では、全体集合内密度は、全体集合内の事物のうちの属性を有する旨を表す属性値と対応付けられた事物の数を、全体集合内の事物の数により除した値である。即ち、全体集合内密度は、0以上であり且つ1以下である実数である。
情報処理装置10は、事物情報を入力し、入力した事物情報を記憶装置に記憶させる。本例では、情報処理装置10は、ユーザとしての事物を識別するための事物識別情報(事物ID)と、当該事物と接続されている事物(接続事物)を識別するための接続事物識別情報(接続事物ID)と、を対応付けて記憶する。
なお、本例では、情報処理装置10は、各事物に対する事物IDと、当該事物と接続されている、すべての接続事物に対する接続事物IDと、を対応付けて記憶する。なお、情報処理装置10は、互いに接続されている2つの事物のそれぞれに対する事物IDの組を記憶するように構成されていてもよい。また、情報処理装置10は、行に対応する事物と列に対応する事物とが互いに接続されているか否かを表す真偽値からなる行列(隣接行列)を記憶するように構成されていてもよい。
プロファイル情報は、複数の属性のそれぞれに対する属性値を含む。本例では、プロファイル情報は、各属性に対する属性値を要素とするベクトルである。本例では、プロファイル情報は、属性としての「ゴルフ」、「テニス」、「ラクロス」、及び、「サッカー」のそれぞれに対する属性値を含む。なお、属性は、「車」、「PC」、「食事」、「スポーツ」、「コミック」、「映画」、「音楽」、又は、「ゲーム」等であってもよい。
なお、属性値は、事物が属性を有する程度の強さが強くなるほど大きくなる値である。ここで、事物が属性を有する程度の強さは、ユーザの属性としての趣味に対する関心の高さに対応している。本例では、属性値は、0以上であり且つ1以下である実数である。属性値は、0である場合に、ユーザが当該属性を有しないことを表し、一方、1である場合に、ユーザが最も強い程度にて当該属性を有する(ユーザが最も高い程度にて当該趣味に対する関心を有する)ことを表す。なお、属性値は、事物が属性を有するか否かのみを表す真偽値であってもよい。
また、属性は、階層化されていてもよい。例えば、「ラーメン」という属性の下層に、「麺の固さ」、「麺の太さ」、「スープの種類」、「辛さ」、「あっさり/こってり」等の属性が配置されていてもよい。このように、属性が階層化されている場合、情報処理装置10は、一つの階層を構成する親属性(上記例では「ラーメン」に相当)毎にデータを区切り、その中の子属性の集合を一つのベクトルとみなし、親属性毎に下記に示す処理を行うことが好適である。
情報処理装置10は、事物情報201のうちの接続情報を、インターネット上の情報処理システム(例えば、SNS(Social Network Service)を実現するシステム等)から通信IF14を介して受信するように構成されていてもよい。また、情報処理装置10は、ユーザが所持する端末装置が記憶するアドレス帳(通信先の端末装置を特定するための情報(メールアドレス、又は、電話番号等))を取得するように構成されていてもよい。また、情報処理装置10は、事物としてのユーザ、又は、情報処理装置10の管理者等が、入力装置15を介して接続情報を登録/修正するように構成されていてもよい。
また、情報処理装置10は、事物情報201のうちのプロファイル情報を、インターネット上の情報処理システム(例えば、SNS(Social Network Service)を実現するシステム、ブログを実現するシステム、又は、電子商取引システム等)から通信IF14を介して受信するように構成されていてもよい。なお、情報処理装置10は、インターネット上の情報処理システムから受信した、商品の購入履歴を表す情報、ウェブサイトの閲覧履歴、又は、ウェブサイトへの入力履歴等に基づいて、プロファイル情報を生成するように構成されていてもよい。
具体的には、情報処理装置10は、商品の購入履歴を表す情報に基づいて、商品を属性とし、且つ、購入した商品に対する属性値を「1」とするプロファイル情報を生成してもよい。また、情報処理装置10は、閲覧されたウェブサイトに含まれるキーワード、又は、入力された情報に含まれるキーワードを属性とするプロファイル情報を生成してもよい。また、情報処理装置10は、事物としてのユーザ、又は、情報処理装置10の管理者等が、入力装置15を介してプロファイル情報を登録/修正するように構成されていてもよい。
また、情報処理装置10は、事物としてのユーザ、又は、情報処理装置10の管理者等が、入力装置15を介して全体集合内密度を登録/修正するように構成されていてもよい。
図4は、情報処理装置10が記憶装置に記憶させる接続情報の一例を示す。本例において、情報処理装置10は、各事物に対する事物IDと、当該事物と直接に接続されている、すべての接続事物に対する接続事物IDと、を対応付けて記憶する。また、図5は、図4に示された接続情報を、直接に接続されている事物間を直線により結んだグラフとして概念的に示した図である。
図4及び図5において、大文字のアルファベットは事物IDを表す。また、「X」は、推定対象事物を識別するための事物IDである。なお、接続情報が接続強度を含む場合には、情報処理装置10は、互いに接続されている2つの事物のそれぞれに対する事物IDの組と、接続強度と、を対応付けて記憶することが好適である。また、この場合、情報処理装置10は、行に対応する事物と列に対応する事物との間の接続に対する接続強度を要素とする行列(隣接行列)を記憶するように構成されていてもよい。
図6は、情報処理装置10が記憶装置に記憶させるプロファイル情報の一例を示す。本例において、空欄は属性値が「0」であることを表す。本例において、属性は、「ゴルフ」、「テニス」、「ラクロス」、及び、「サッカー」である。事物ID「A」と対応付けられた属性値は、「ゴルフ」に対して「1」であり、「テニス」に対して「1」であり、「ラクロス」に対して「0」であり、「サッカー」に対して「0」である。即ち、事物ID「A」により識別されるユーザは、「ゴルフ」及び「テニス」に対して関心(興味)を有し、且つ、「ラクロス」及び「サッカー」に対して関心を有さない。
図7は、情報処理装置10が記憶装置に記憶させる全体集合内密度の一例を示す。図7に示したように、情報処理装置10は、全体集合内密度を各属性と対応付けて記憶する。
(接続事物抽出部)
接続事物抽出部101は、記憶装置に記憶されている接続情報に基づいて、全体集合内の事物の中から、推定対象事物に接続されている接続事物を抽出する。なお、接続事物抽出部101が行う処理は、図3のステップS1の処理と対応している。本例では、接続事物抽出部101は、推定対象事物と接続されている事物のうちの、ホップ数が予め設定された閾値ホップ数よりも大きい事物を除外した事物を接続事物として抽出する。
ここで、ホップ数は、推定対象事物と事物とが他の事物(経由事物)を経由して接続されている場合、当該事物から当該推定対象事物へ到達する最短の経路において経由する経由事物の数に「1」を加えた値である。また、ホップ数は、推定対象事物と事物とが他の事物(経由事物)を経由することなく(直接に)接続されている場合、「1」である。
ところで、推定対象事物と事物との間の接続に対するホップ数が大きくなるほど、推定対象事物と当該事物とが接続されている強さは弱くなると言える。従って、推定対象事物と接続されている事物のうちのホップ数が閾値ホップ数よりも大きい事物を除外した事物を、接続事物抽出部101が接続事物として抽出することは、後述するように、推定対象事物と接続事物とが接続されている強さが弱くなるほど、接続集合内密度をより小さい値に補正することに対応している、と言うことができる。
接続事物抽出部101は、閾値ホップ数を予め記憶している。閾値ホップ数は、情報処理装置10の管理者により入力装置15を介して入力された値であってもよい。
更に、接続事物抽出部101は、抽出された接続事物を表す情報を接続集合内密度算出部102へ出力する。
ここで、接続事物抽出部101が行う具体的な処理について説明する。
先ず、接続事物抽出部101は、情報処理装置10の管理者により入力された事物ID(ここでは、「X」)を、推定対象事物を識別するための事物IDとして受け付ける。なお、接続事物抽出部101は、記憶されているプロファイル情報に属性値が含まれていない事物IDを取得し、取得した事物IDを推定対象事物を識別するための事物IDとして受け付けるように構成されていてもよい。
そして、接続事物抽出部101は、図4に示したように記憶されている接続情報に含まれる、事物ID「X」と対応付けられた接続事物ID(「A」、「B」、「C」、及び、「D」)を取得する。取得された接続事物ID「A」、「B」、「C」、又は、「D」により識別される事物は、推定対象事物(「X」)に、ホップ数「1」にて接続(即ち、直接に接続)されている事物である。次いで、接続事物抽出部101は、取得された接続事物ID(「A」、「B」、「C」、及び、「D」)を記憶装置に記憶させる。
そして、接続事物抽出部101は、同様に、取得された接続事物ID(「A」、「B」、「C」、及び、「D」)のそれぞれに対して、記憶されている接続情報に含まれる、事物IDと対応付けられた接続事物IDを取得する。次いで、接続事物抽出部101は、取得した接続事物IDから、既に記憶されている接続事物IDを除いた接続事物IDを、記憶装置に記憶させる。このとき、記憶装置に記憶される接続事物IDにより識別される事物は、推定対象事物(「X」)に、ホップ数「2」にて接続されている事物である。
接続事物抽出部101は、このような処理を、閾値ホップ数だけ繰り返し実行することにより、推定対象事物と接続されている事物のうちの、ホップ数が閾値ホップ数よりも大きい事物を除外した事物を接続事物として抽出する。
図8は、接続事物抽出部101により抽出された接続事物を概念的に示した図である。図8において、矩形領域501内の事物は、閾値ホップ数が「1」に設定されていた場合に抽出される接続事物である。また、矩形領域502内の事物は、閾値ホップ数が「2」に設定されていた場合に抽出される接続事物である。
そして、接続事物抽出部101は、記憶されている接続事物IDを接続集合内密度算出部102へ出力する。なお、本例では、接続事物抽出部101は、図9に示したように、ホップ数と、接続事物IDと、を対応付けて記憶装置に記憶させるとともに、ホップ数と、接続事物IDと、を対応付けて接続集合内密度算出部102へ出力する。
ここで、接続事物抽出部101の変形例について説明する。
接続事物抽出部101は、接続情報が接続強度を含む場合、接続強度に基づいて接続事物を抽出するように構成されることが好適である。接続強度は、例えば、事物がユーザである場合、ユーザ間で情報が授受された頻度、又は、ユーザ間で情報が授受される可能性の高さ等に対応する値である。また、事物が文書である場合、接続強度は、文書が他の文書を参照する頻度等に対応する値である。
具体的には、SNSにおける、他のユーザの日記を閲覧した頻度、他のユーザの日記にコメントを入力した頻度、及び、他のユーザへ電子メールを送信した頻度等に基づいて算出された値を接続強度として用いることができる。また、携帯端末においても同様に、電話をかけた頻度、及び、メールを送信した頻度等に基づいて算出された値を接続強度として用いることができる。
即ち、比較的大きい接続強度にて接続されたユーザ同士は、高い頻度にて情報を授受していると言える。即ち、これらのユーザは、互いに強く影響を及ぼし合っている可能性が高い。そこで、接続事物抽出部101は、比較的大きい接続強度にて推定対象事物と接続されている事物のみを接続事物として抽出するように構成されていてもよい。
具体的には、接続事物抽出部101は、推定対象事物と接続されている事物から当該推定対象事物へ到達する最短の経路を構成する各接続に対する接続強度のすべてを乗算した値を、当該事物と当該推定対象事物との間の接続に対する接続強度として算出する。そして、接続事物抽出部101は、算出された接続強度が、予め設定された第1の閾値強度よりも大きい場合、当該事物を接続事物として抽出する。なお、第1の閾値強度は、情報処理装置10の管理者により入力された値であってもよい。
この変形例によれば、推定対象事物と接続事物とが接続されている強さに応じて、全体集合において、属性を有する旨を表す属性値と対応付けられた事物が接続集合内に偏在しているか否かを適切に判定することができる。
また、接続事物抽出部101は、2つの事物間の接続に対する接続強度が予め設定された第2の閾値強度よりも小さい場合、当該2つの事物を互いに接続されていない事物として処理するように構成されていてもよい。これにより、情報処理装置10の処理負荷を軽減することができる。
また、接続事物抽出部101は、属性毎に異なる数の接続事物を抽出するように構成されていてもよい。この場合、接続事物抽出部101は、ある属性に対する全体集合内密度が小さくなるほど、当該属性に対して、より少ない接続事物を抽出するように構成されることが好適である。具体的には、接続事物抽出部101は、ある属性に対する全体集合内密度が小さくなるほど、当該属性に対して、より小さい閾値ホップ数を用いることが好適である。また、接続事物抽出部101は、ある属性に対する全体集合内密度が小さくなるほど、当該属性に対して、より大きい第1の閾値強度を用いることが好適である。
ところで、ある属性に対する全体集合内密度が比較的小さい場合、当該属性を有する事物の数が比較的少ない可能性が高い。従って、このような場合、過度に多くの接続事物を抽出してしまうと、全体集合において、当該属性を有する旨を表す属性値と対応付けられた事物が接続集合内に偏在しているか否かを適切に判定することができない。そこで、このように情報処理装置を構成することにより、全体集合において、当該属性を有する旨を表す属性値と対応付けられた事物が接続集合内に偏在しているか否かを適切に判定することができる。
また、接続事物抽出部101は、推定対象事物と接続されている事物のすべてを接続事物として抽出するように構成されていてもよい。
(接続集合内密度算出部)
接続集合内密度算出部102は、接続事物抽出部101により出力された接続事物IDを受け付ける。接続集合内密度算出部102は、受け付けた接続事物IDに基づいて、属性毎に接続集合内密度を算出する。なお、接続集合内密度算出部102が行う処理は、図3のステップS2の処理と対応している。
本例では、接続集合内密度算出部102は、受け付けた接続事物IDにより識別される接続事物の数に対する、当該接続事物(即ち、接続集合内の事物)のうちの属性を有する旨を表す属性値と対応付けられた事物の数の比が大きくなるほど大きくなる値を有する接続集合内密度を算出する。具体的には、接続集合内密度算出部102は、接続集合内の事物のうちの、属性を有する旨を表す属性値と対応付けられた事物の数を、接続集合内の事物の数(総数)により除した値を接続集合内密度として算出する。
即ち、接続集合内密度算出部102は、下記式(1)に基づいて、k番目の属性に対する接続集合内密度ckを算出する。ここで、pikは、i番目の事物と対応付けられたk番目の属性に対する属性値である。また、Nは、接続集合内の事物の数である。
Figure 2011061890
なお、pikは、0、又は、1の整数であってもよく、0以上であり且つ1以下である実数であってもよい。
このように、接続集合内密度算出部102は、接続集合内の事物と対応付けられた属性値の総和が大きくなるほど大きくなり、且つ、当該接続集合内の事物の総数が多くなるほど小さくなる値を接続集合内密度として算出する。
これにより、事物が属性を有する程度の強さ(即ち、属性値の大きさ)に応じて、全体集合において、当該属性を有する旨を表す属性値と対応付けられた事物が接続集合内に偏在しているか否かを適切に判定することができる。
また、上記式(1)の右辺の分母は、i番目の事物に対するpikの最大値の、すべてのiに対する和であってもよい。これにより、すべての属性に対して属性を有しない旨を表す属性値と対応付けられた事物が存在している場合であっても、全体集合において、当該属性を有する旨を表す属性値と対応付けられた事物が接続集合内に偏在しているか否かを適切に判定することができる。
そして、接続集合内密度算出部102は、算出した接続集合内密度ckを属性値推定部103へ出力する。
ここで、接続集合内密度算出部102が行う具体的な処理について、図9に示したように、互いに対応付けられたホップ数及び接続事物IDを受け付けた場合を例として説明する。
ここでは、閾値ホップ数が「2」に設定されている場合を想定している。
接続集合内密度算出部102は、接続事物抽出部101から受け付けた接続事物IDを計数することにより、接続事物の総数を取得する。本例では、接続集合内密度算出部102が接続事物ID「A」〜「J」を受け付けるので、取得される接続事物の総数は、「10」である。
次いで、接続集合内密度算出部102は、記憶されているプロファイル情報(図6を参照)に基づいて、各接続事物IDと対応付けられた属性値を取得する。即ち、本例では、接続集合内密度算出部102は、事物ID「A」〜「J」のそれぞれと対応付けられた属性値を取得する。
そして、接続集合内密度算出部102は、上記式(1)と、取得された属性値と、取得された接続事物の総数と、に基づいて、属性毎に接続集合内密度ckを算出する。本例では、接続集合内密度算出部102は、図10に示したように、接続集合内密度ckを算出する。即ち、属性としての「ゴルフ」、「テニス」、及び、「サッカー」に対する接続集合内密度ckは、「0.5」であり、属性としての「ラクロス」に対する接続集合内密度ckは、「0.2」である。
ここで、接続集合内密度算出部102の変形例について説明する。
推定対象事物は、より小さいホップ数にて接続されている事物から、より大きな影響を受ける可能性が高い。なお、推定対象事物と接続事物との間の接続に対するホップ数が大きくなることは、推定対象事物と当該接続事物とが接続されている強さが弱くなることに対応している。そこで、接続集合内密度算出部102は、ホップ数が小さくなるほど、接続集合内密度をより小さい値に補正するように構成されることが好適である。
具体的には、接続集合内密度算出部102は、下記式(2)に基づいて接続集合内密度ckを算出する。ここで、w(i)は、i番目の事物と推定対象事物との間の接続に対するホップ数が小さくなるほど、大きくなる値を有する重み値である。例えば、w(i)は、ホップ数の逆数である。
Figure 2011061890
なお、上記式(2)の右辺の分母は、i番目の事物に対するpikの最大値と、重み値w(i)と、の積の、すべてのiに対する和であってもよい。また、w(i)は、情報処理装置10の管理者により入力された値であってもよい。
ここで、上述した接続集合内密度算出部102の変形例が行う具体的な処理について、図9に示したように、互いに対応付けられたホップ数及び接続事物IDを受け付けた場合を例として説明する。
接続集合内密度算出部102は、接続事物毎に、接続事物抽出部101から受け付けたホップ数の逆数を、重み値w(i)として算出する。次いで、接続集合内密度算出部102は、記憶されているプロファイル情報(図6を参照)に基づいて、受け付けた接続事物IDのそれぞれと対応付けられた属性値を取得する。即ち、本例では、接続集合内密度算出部102は、事物ID「A」〜「J」のそれぞれと対応付けられた属性値を取得する。
そして、接続集合内密度算出部102は、上記式(2)と、取得された属性値と、算出された重み値w(i)と、に基づいて、属性毎に接続集合内密度ckを算出する。本例では、接続集合内密度算出部102は、図12に示したように、接続集合内密度ckを算出する。即ち、属性としての「ゴルフ」、及び、「テニス」に対する接続集合内密度ckは、「0.35」であり、属性としての「ラクロス」に対する接続集合内密度ckは、「0.2」であり、属性としての「サッカー」に対する接続集合内密度ckは、「0.3」である。
このように、推定対象事物により小さいホップ数にて接続されている事物が有する属性に対する接続集合内密度ckほど、相対的に大きい値となっている。即ち、推定対象事物と直接に接続されている事物「B」及び「C」が共有する属性である「ラクロス」に係る接続集合内密度ckの、他の属性に係る接続集合内密度ckに対する比は、式(1)に基づいて算出される場合よりも大きくなっている。
また、接続集合内密度算出部102は、接続情報が接続強度を含む場合、w(i)として接続強度を用いるように構成されていてもよい。接続強度は、例えば、上述したように、接続事物から推定対象事物へ到達する最短の経路を構成する各接続に対する接続強度のすべてを乗算した値である。
図11は、このような場合の接続強度を概念的に示した図である。図11において、推定対象事物503と接続事物504とは、接続強度「0.9」にて接続されている。また、接続事物504と接続事物505とは、接続強度「0.3」にて接続され、接続事物504と接続事物506とは、接続強度「0.8」にて接続されている。
このような場合、接続事物504に対する重み値w(i)は、0.9である。また、接続事物505に対する重み値w(i)は、0.27(=0.9×0.3)である。同様に、接続事物506に対する重み値w(i)は、0.72(=0.9×0.8)である。
このように、接続集合内密度算出部102は、推定対象事物と接続事物とが接続されている強さが弱くなるほど、接続集合内密度をより小さい値に補正するように構成されている、と言うことができる。これにより、推定対象事物と接続事物とが接続されている強さに応じて、全体集合において、当該属性を有する旨を表す属性値と対応付けられた事物が接続集合内に偏在しているか否かを適切に判定することができる。
更に、接続集合内密度算出部102の他の変形例について説明する。
ところで、属性を有する旨を表す属性値と対応付けられた接続事物と推定対象事物とが、他の接続事物(経由接続事物)を経由して(他の接続事物を介して)接続されている場合がある。この場合において、経由接続事物が、上記属性を有する旨を表す属性値と対応付けられている場合(第1の場合)と、上記属性を有しない旨を表す属性値と対応付けられている場合(第2の場合)と、がある。
このような場合、第1の場合の方が第2の場合よりも、推定対象事物が当該属性を有する可能性が高い。従って、接続集合内密度算出部102は、接続事物のうちの、属性を有しない旨を表す属性値と対応付けられた接続事物を介して推定対象事物と接続され、且つ、当該属性を有する旨を表す属性値と対応付けられた接続事物の数が多くなるほど、接続集合内密度をより小さい値に補正するように構成されることが好適である。これにより、推定対象事物と対応付けられる属性値を高い精度にて推定することができる。
いま、閾値ホップ数が「2」に設定されている場合を想定する。この場合、接続事物「F」は、図6に示したように、属性としての「テニス」に高い関心を有する。ところで、接続事物「F」は、図8に示したように、接続事物「C」を経由して推定対象事物「X」と接続されている。また、接続事物「C」は、図6に示したように、属性としての「テニス」に高い関心を有しない。この場合、接続集合内密度算出部102は、接続事物「F」を、属性としての「テニス」を有しない旨を表す属性値と対応付けられている事物として処理することにより、接続集合内密度ckを算出する。
具体的には、接続集合内密度算出部102は、下記式(3)に基づいて接続集合内密度ckを算出する。ここで、r(i)は、i番目の事物が推定対象事物へ到達するまでに経由する事物のすべてが、当該属性を有する旨を表す属性値と対応付けられている場合に「1」に設定され、それ以外の場合に「0」に設定される連結値である。
Figure 2011061890
なお、上記式(3)の右辺の分母は、連結値r(i)の、すべてのiに対する和であってもよい。
ここで、上述した接続集合内密度算出部102の変形例が行う具体的な処理について説明する。接続集合内密度算出部102は、記憶されているプロファイル情報(図6を参照)に基づいて、接続事物抽出部101から受け付けた接続事物IDのそれぞれと対応付けられた属性値を取得する。そして、接続集合内密度算出部102は、属性毎に、取得された属性値に基づいて、当該属性を有する旨を表す属性値と対応付けられた接続事物を抽出する。
いま、閾値ホップ数が「2」に設定されている場合を想定する。この場合、接続集合内密度算出部102は、属性としての「テニス」を有する接続事物として、図13に示したように、接続事物「A」、「D」、「F」、「G」、及び、「I」を抽出する。
そして、接続集合内密度算出部102は、図4に示した接続情報に基づいて、抽出された接続事物のそれぞれが、推定対象事物へ到達するまでに経由する事物のすべてが、当該属性を有する旨を表す属性値と対応付けられているか否かを判定する。接続集合内密度算出部102は、接続情報に基づいて、推定対象事物から当該接続事物へ再帰的に辿ることにより上記判定を行う。
これにより、接続集合内密度算出部102は、連結値r(i)を取得する。そして、接続集合内密度算出部102は、上記式(3)と、取得された連結値r(i)と、取得された属性値と、接続事物の総数Nと、に基づいて接続集合内密度ckを算出する。
本例では、接続集合内密度算出部102は、図14に示したように、接続集合内密度ckを算出する。即ち、属性としての「ゴルフ」に対する接続集合内密度ckは、「0.5」であり、属性としての「テニス」に対する接続集合内密度ckは、「0.3」であり、属性としての「ラクロス」に対する接続集合内密度ckは、「0.2」であり、属性としての「サッカー」に対する接続集合内密度ckは、「0.1」である。図10に示した値と比較すると、属性を有しない旨を表す属性値と対応付けられている経由接続事物の数が相対的に多い属性である「サッカー」に対する接続集合内密度ckが小さくなっていることが分かる。
更に、接続集合内密度算出部102は、重み値w(i)と、連結値r(i)と、の両方に基づいて、接続集合内密度ckを算出するように構成されていてもよい。この場合、接続集合内密度算出部102は、下記式(4)に基づいて接続集合内密度ckを算出することが好適である。
Figure 2011061890
更に、他の変形例に係る接続集合内密度算出部102は、推定対象事物に対する接続事物の接続形状(接続状況)に基づいて、接続集合内密度ckを補正するように構成されていてもよい。
ところで、推定対象事物に直接に接続されている事物がある属性を有している場合に、推定対象事物が当該属性を有している可能性が高い。従って、接続集合内密度算出部102は、推定対象事物に直接に接続されている事物のいずれもが、ある属性を有していない場合、当該属性に対する接続集合内密度ckを「0」に補正するように構成されることが好適である。
また、ある属性を共有する接続事物の、推定対象事物に対する接続形状が、予め設定された既定形状と一致する場合、接続集合内密度算出部102は、当該属性に対する接続集合内密度ckを「1」に補正するように構成されることが好適である。
既定形状を表す情報は、情報処理装置10の管理者により入力された情報であってもよい。また、情報処理装置10は、既定形状を表す情報を生成するように構成されていてもよい。
図15A及び図15Bは、既定形状の例を示す。図15A及び図15Bにおいて、黒丸は、推定対象事物であり、白丸は、接続事物である。図15Aに示した既定形状は、推定対象事物と接続事物とが完全グラフを形成している形状である。また、図15Bに示した既定形状は、推定対象事物をルートとして、接続事物が二分木を形成している形状である。
また、接続集合内密度算出部102は、ある属性に対するネットワーク密度が予め設定された閾値密度よりも大きい場合、当該属性に対する接続集合内密度ckを「1」に補正するように構成されていてもよい。
ここで、ネットワーク密度は、ある属性を有する接続事物の総数に対する、当該属性を有する連結事物の総数の比である。連結事物は、ある属性を有し、且つ、当該連結事物から推定対象事物へ到達する最短の経路において経由する経由事物のすべてが当該属性を有するように推定対象事物と接続されている事物である。即ち、ネットワーク密度は、0以上であり且つ1以下である実数である。
更に、接続集合内密度算出部102は、全体集合内密度が小さくなるほど、閾値密度をより小さい値に設定するように構成されることが好適である。
ところで、ある属性に対する全体集合内密度が比較的小さい場合、当該属性を有する事物の数が比較的少ない可能性が高い。従って、このような場合、閾値密度を過度に大きい値に設定してしまうと、全体集合において、当該属性を有する旨を表す属性値と対応付けられた事物が接続集合内に偏在しているか否かを適切に判定することができない。そこで、上記のように情報処理装置10を構成することにより、全体集合において、当該属性を有する旨を表す属性値と対応付けられた事物が接続集合内に偏在しているか否かを適切に判定することができる。
同様に、接続集合内密度算出部102は、全体集合内密度に応じて異なる既定形状を用いるように構成されていてもよい。
(属性値推定部)
属性値推定部103は、接続集合内密度算出部102から出力された接続集合内密度ckを受け付ける。更に、属性値推定部103は、受け付けた接続集合内密度ckと、記憶されている全体集合内密度と、に基づいて、属性毎に推定対象事物と対応付けられる属性値を推定する。即ち、属性値推定部103は、推定対象事物に接続されている事物である接続事物と対応付けられた属性値に基づいて、当該推定対象事物と対応付けられる属性値を推定する。なお、属性値推定部103が行う処理は、図3のステップS3の処理と対応している。
ある属性に対して、全体集合内密度に対する接続集合内密度ckの比が高く(大きく)なるほど、全体集合において、当該属性を有する旨を表す属性値と対応付けられた事物が、接続事物からなる接続集合内に偏在している程度が高くなる。従って、全体集合内密度に対する接続集合内密度ckの比が高くなるほど、推定対象事物が当該属性を有する可能性が高くなる。
そこで、本例では、属性値推定部103は、属性毎に、接続集合内密度ckを全体集合内密度により除した値である偏在度が、予め設定された閾値偏在度よりも大きい場合、当該属性に対して推定対象事物と対応付けられる属性値として、当該属性を有する旨を表す属性値を推定する。なお、上記閾値偏在度は、情報処理装置10の管理者により入力された値であってもよい。
このように、属性値推定部103は、属性毎に、接続集合内密度ckと、全体集合内密度と、に基づいて、全体集合において、当該属性を有する旨を表す属性値と対応付けられた事物が接続集合内に偏在しているか否かを判定する。そして、属性値推定部103は、全体集合において、属性を有する旨を表す属性値と対応付けられた事物が接続集合内に偏在していると判定された場合に、推定対象事物と対応付けられる属性値として、当該属性を有する旨を表す属性値を推定する。
具体的には、属性値推定部103は、下記式(5)に基づいて、k番目の属性に対する偏在度bkを算出する。ここで、k番目の属性に対する全体集合内密度をakとし、接続集合内密度をckとする。
Figure 2011061890
図7に示した全体集合内密度akと、図10に示した接続集合内密度ckと、に基づいて属性値を推定する際の、属性値推定部103が行う具体的な処理について説明する。
属性値推定部103は、記憶されている全体集合内密度akと、接続集合内密度算出部102から受け付けた接続集合内密度ckと、上記式(5)と、に基づいて、属性毎に偏在度bkを算出する。
本例では、属性値推定部103は、図16に示したように、偏在度bkを算出する。即ち、属性としての「ゴルフ」に対する偏在度bkは、「2.5」であり、属性としての「テニス」に対する偏在度bkは、「1.7」であり、属性としての「ラクロス」に対する偏在度bkは、「20」であり、属性としての「サッカー」に対する偏在度bkは、「1.7」である。
このように、全体集合において、属性としての「ラクロス」を有する旨を表す属性値と対応付けられた事物が、接続事物からなる接続集合内に偏在している程度が最も高いことが分かる。
そして、属性値推定部103は、属性毎に、算出された偏在度bkが閾値偏在度よりも大きい場合に、当該属性に対して推定対象事物と対応付けられる属性値として、当該属性を有する旨を表す属性値を出力(推定)し、一方、算出された偏在度bkが閾値偏在度よりも小さい場合に、当該属性に対して推定対象事物と対応付けられる属性値として、当該属性を有しない旨を表す属性値を出力する。
いま、閾値偏在度として「2」が設定されている場合を想定する。この場合、属性値推定部103は、推定対象事物「X」に対応付けられる属性値として、「ゴルフ」及び「ラクロス」に対して「1」を出力し、「テニス」及び「サッカー」に対して「0」を出力する。
次に、図7に示した全体集合内密度akと、図14に示した接続集合内密度ckと、に基づいて属性値を推定する場合について説明する。この場合、属性値推定部103は、図17に示したように、偏在度bkを算出する。即ち、属性としての「ゴルフ」に対する偏在度bkは、「2.5」であり、属性としての「テニス」に対する偏在度bkは、「1」であり、属性としての「ラクロス」に対する偏在度bkは、「20」であり、属性としての「サッカー」に対する偏在度bkは、「0.33」である。
この場合も、属性値推定部103は、推定対象事物「X」に対応付けられる属性値として、「ゴルフ」及び「ラクロス」に対して「1」を出力し、「テニス」及び「サッカー」に対して「0」を出力する。また、この場合、「サッカー」に対する偏在度bkは、図16に示した場合よりも小さくなっている。この理由は、「サッカー」が、属性を有しない旨を表す属性値と対応付けられている経由接続事物の数が相対的に多い属性であるためである。
なお、属性値推定部103は、算出された偏在度bkの最大値bkmaxを取得し、属性毎に、取得された最大値bkmaxにより偏在度bkを除した値を、当該属性に対して推定対象事物と対応付けられる属性値として出力するように構成されていてもよい。この場合、属性間の偏在度bkの差が過大であることがある。そこで、属性値推定部103は、算出された偏在度bkの対数を取った値に基づいて属性値を算出するように構成されていてもよい。
情報処理装置10は、属性値推定部103により出力された、推定対象事物に対応付けられる属性値を記憶装置に記憶させる。なお、情報処理装置10は、属性値推定部103により出力された、推定対象事物に対応付けられる属性値を出力装置16を介して出力するように構成されていてもよい。
ここで、属性値推定部103の変形例について説明する。
属性値推定部103は、全体集合内密度akと、接続集合内密度ckと、に基づいて統計的検定を行うことにより、推定対象事物に対応付けられる属性値を推定するように構成されていてもよい。本例では、属性値推定部103は、属性毎に、所定の統計量が正規分布に従うという仮説が容認されるか否かを判定する。
属性値推定部103は、仮説が棄却されたと判定した場合において接続集合内密度ckが全体集合内密度akよりも大きいとき、当該属性に対して推定対象事物と対応付けられる属性値として、当該属性を有する旨を表す属性値を推定する。一方、属性値推定部103は、それ以外の場合、当該属性に対して推定対象事物と対応付けられる属性値として、当該属性を有しない旨を表す属性値を推定する。
次に、属性値推定部103が行う具体的な処理について説明する。
属性値推定部103は、記憶されているプロファイル情報に基づいて全体集合内の事物の数Naを取得する。また、属性値推定部103は、接続事物抽出部101により出力された接続事物IDに基づいて接続集合内の事物の数Ncを取得する。
そして、属性値推定部103は、下記式(6)と、記憶されている全体集合内密度akと、接続集合内密度算出部102から受け付けた接続集合内密度ckと、取得された全体集合内の事物の数Naと、取得された接続集合内の事物の数Ncと、に基づいてk番目の属性に対する統計量zkを算出する。ここで、値dkは、下記式(7)により算出される値である。
Figure 2011061890
Figure 2011061890
ところで、上記統計量zkは、正規分布に従うことが知られている。従って、属性値推定部103は、有意確率を算出し、算出された有意確率が予め設定された有意水準よりも小さい場合において、接続集合内密度ckが全体集合内密度akよりも大きいとき、当該属性に対して推定対象事物と対応付けられる属性値として、当該属性を有する旨を表す属性値を推定する。
以上、説明したように、本発明の第1実施形態に係る情報処理装置10は、推定対象事物に接続されている事物である接続事物と対応付けられた属性値に基づいて、当該推定対象事物と対応付けられる属性値を推定する。
これによれば、いずれの属性に対しても、推定対象事物と対応付けられた属性値と同一の(又は、類似する)属性値と対応付けられた事物が存在しない場合、又は、推定対象事物と対応付けられた属性値が1つも存在しない場合であっても、推定対象事物と対応付けられる属性値を推定することができる。即ち、情報処理装置10によれば、推定対象事物と対応付けられる属性値を推定することができない状況の発生を抑制することができる。
更に、第1実施形態に係る情報処理装置10は、全体集合において、属性を有する旨を表す属性値と対応付けられた事物が接続集合内に偏在している場合に、推定対象事物と対応付けられる属性値として、当該属性を有する旨を表す属性値を推定する。
ところで、全体集合において、ある属性を有する事物が接続集合内に偏在している場合、推定対象事物も、その属性を有していることが多い。従って、このように情報処理装置10を構成することにより、推定対象事物と対応付けられる属性値を高い精度にて推定することができる。
<第2実施形態>
次に、本発明の第2実施形態に係る情報処理装置について説明する。第2実施形態に係る情報処理装置は、上記第1実施形態に係る情報処理装置に対して、全体集合内密度に基づくことなく、推定対象事物と対応付けられる属性値を推定するように構成されている点において相違している。従って、以下、かかる相違点を中心として説明する。
ところで、接続事物の各々が、ある属性を有する局所的な集合において中心的な存在である場合には、推定対象事物と対応付けられる属性値が、当該属性を有する旨を表す属性値である可能性が比較的高い。そこで、第2実施形態に係る情報処理装置は、接続事物の各々が、ある属性を有する局所的な集合において中心的な存在であるか否かを分析し、その分析結果に基づいて、推定対象事物と対応付けられる属性値を推定する。
図18は、第2実施形態に係る情報処理装置30の機能を示したブロック図である。情報処理装置30の機能は、接続事物抽出部(接続事物抽出手段)301と、接続集合内密度算出部(接続集合内密度算出手段)302と、外部接続集合内密度算出部(外部接続集合内密度算出手段)303と、属性値推定部(属性値推定手段)304と、を含む。
図18に示したように、事物情報401は、情報処理装置30に入力されるデータであり、推定対象事物の属性値202は、情報処理装置30から出力されるデータである。図19は、情報処理装置30のCPUが実行する処理の概要を示したフローチャートである。
以降、図18及び図19を参照しながら、情報処理装置30の機能について説明する。
事物情報401は、第1実施形態に係る事物情報201から、全体集合内密度を除いた情報を含む。
(接続事物抽出部)
接続事物抽出部301は、第1実施形態に係る接続事物抽出部101と同様に、記憶装置に記憶されている接続情報に基づいて、全体集合内の事物の中から、推定対象事物と接続されている接続事物を抽出する。なお、この処理は、図19のステップS11の処理と対応している。本例では、接続事物抽出部301は、推定対象事物と接続されている事物のうちの、推定対象事物との間のホップ数が予め設定された第1の閾値ホップ数(本例では、「1」)よりも大きい事物を除外した事物を接続事物として抽出する。
ここで、ホップ数は、着目する2つの事物が他の事物(経由事物)を経由して接続されている場合、当該2つの事物の一方から他方へ到達する最短の経路において経由する経由事物の数に「1」を加えた値である。即ち、接続事物からなる接続集合は、当該接続集合内の任意の接続事物から、当該接続集合の中心となる推定対象事物へ到達する最短の経路において経由する経由事物の数に1を加えた値であるホップ数が、予め設定された第1の閾値ホップ数以下となるように構成される、と言うことができる。
更に、接続事物抽出部301は、記憶装置に記憶されている接続情報と、抽出された接続事物と、に基づいて、外部接続事物を抽出する。ここで、外部接続事物は、接続事物に接続されている事物のうちの、推定対象事物以外の事物である。なお、この処理は、図19のステップS12の処理と対応している。
本例では、接続事物抽出部301は、抽出された接続事物のそれぞれに対して、当該接続事物と接続されている事物のうちの、推定対象事物を除外するとともに、当該接続事物との間のホップ数が予め設定された第2の閾値ホップ数(本例では、「1」)よりも大きい事物を除外した事物を外部接続事物として抽出する。即ち、接続事物抽出部301は、抽出された接続事物のそれぞれを中心とする外部接続集合を構成する外部接続事物を抽出する。
なお、各外部接続集合は、当該外部接続集合内の任意の外部接続事物から、当該外部接続集合の中心となる接続事物へ到達する最短の経路において経由する経由事物の数に1を加えた値であるホップ数が、予め設定された第2の閾値ホップ数以下となるように構成される、と言うことができる。
接続事物抽出部301は、第1の閾値ホップ数及び第2の閾値ホップ数を予め記憶している。第1の閾値ホップ数及び第2の閾値ホップ数は、情報処理装置30の管理者により入力装置を介して入力された値であってもよい。
更に、接続事物抽出部301は、抽出された接続事物を表す情報を接続集合内密度算出部302へ出力するとともに、抽出された外部接続事物を表す情報を外部接続集合内密度算出部303へ出力する。
ここで、接続事物抽出部301が行う具体的な処理について説明する。
先ず、接続事物抽出部301は、情報処理装置30の管理者により入力された事物ID(ここでは、「X」)を、推定対象事物を識別するための事物IDとして受け付ける。なお、接続事物抽出部301は、記憶されているプロファイル情報に属性値が含まれていない事物IDを取得し、取得した事物IDを、推定対象事物を識別するための事物IDとして受け付けるように構成されていてもよい。
接続事物抽出部301は、図4に示したように記憶されている接続情報に含まれる、事物ID「X」と対応付けられた接続事物ID(「A」、「B」、「C」、及び、「D」)を取得する。取得された接続事物ID「A」、「B」、「C」、又は、「D」により識別される事物は、推定対象事物(「X」)に、ホップ数「1」にて接続(即ち、直接に接続)されている事物(即ち、接続事物)である。次いで、接続事物抽出部301は、取得された接続事物ID(「A」、「B」、「C」、及び、「D」)を記憶装置に記憶させる。
そして、接続事物抽出部301は、取得された接続事物ID(「A」、「B」、「C」、及び、「D」)のそれぞれに対して、記憶されている接続情報に含まれる、事物IDと対応付けられた接続事物IDを取得する。次いで、接続事物抽出部301は、取得された接続事物IDから、事物ID「X」を除いた接続事物IDを外部接続事物IDとして取得する。取得された外部接続事物IDにより識別される事物は、当該外部接続事物IDを取得する基となった接続事物IDにより識別される接続事物に、ホップ数「1」にて接続(即ち、直接に接続)されている事物(即ち、外部接続事物)である。
例えば、接続事物抽出部301は、接続事物ID「A」に対して、外部接続事物ID「B」、「E」、及び「J」を取得する。同様に、接続事物抽出部301は、接続事物ID「B」に対して、外部接続事物ID「A」を取得する。
接続事物抽出部301は、取得された外部接続事物IDを、当該外部接続事物IDを取得する基となった接続事物IDと対応付けて記憶装置に記憶させる。
そして、接続事物抽出部301は、記憶されている接続事物IDを接続集合内密度算出部302へ出力する。更に、接続事物抽出部301は、記憶されている外部接続事物IDを、当該外部接続事物IDと対応付けて記憶されている接続事物IDと対応付けて外部接続集合内密度算出部303へ出力する。
本例では、接続事物抽出部301は、図20に示したように、接続事物IDと外部接続事物IDとを対応付けて記憶装置に記憶させる。なお、第2の閾値ホップ数が2以上に設定されている場合には、接続事物抽出部301は、接続事物IDと外部接続事物IDとホップ数とを対応付けて記憶装置に記憶させるとともに、接続事物IDと外部接続事物IDとホップ数とを対応付けて外部接続集合内密度算出部303へ出力することが好適である。
(接続集合内密度算出部)
接続集合内密度算出部302は、接続事物抽出部301により出力された接続事物IDを受け付ける。接続集合内密度算出部302は、受け付けた接続事物IDに基づいて、属性毎に接続集合内密度を算出する。なお、接続集合内密度算出部302が行う処理は、図19のステップS13の処理と対応している。
接続集合内密度算出部302は、第1実施形態に係る接続集合内密度算出部102と同様の機能を有する。従って、ここでは詳細な説明を省略する。なお、k番目の属性に対する接続集合内密度ckは、0以上であり且つ1以下である実数である。
そして、接続集合内密度算出部302は、算出した接続集合内密度ckを属性値推定部304へ出力する。
(外部接続集合内密度算出部)
外部接続集合内密度算出部303は、接続事物抽出部301により出力された、接続事物ID及び外部接続事物IDを受け付ける。外部接続集合内密度算出部303は、受け付けた接続事物ID及び外部接続事物IDに基づいて、属性毎に外部接続集合内密度を算出する。なお、外部接続集合内密度算出部303が行う処理は、図19のステップS14の処理と対応している。なお、情報処理装置30は、ステップS13の処理とステップS14の処理とを同時に行ってもよいし、逆の順序で行ってもよい。
外部接続集合内密度は、推定対象事物に対する接続事物のそれぞれが、ある属性を有する事物の集合において中心的な存在であるか否かを、定量化した値である。ところで、接続事物が、ある属性を有する局所的な集合において中心的な存在である場合には、推定対象事物と対応付けられる属性値が、当該属性を有する旨を表す属性値である可能性が比較的高い。
外部接続集合内密度算出部303は、接続事物のそれぞれを中心とする外部接続集合に対する、属性毎の外部接続集合内密度を算出する。具体的には、外部接続集合内密度算出部303は、外部接続集合のそれぞれに対して、当該外部接続集合内の事物(外部接続事物)のうちの、属性を有する旨を表す属性値と対応付けられた事物の数を、外部接続集合内の事物の数(総数)により除した値を外部接続集合内密度eikとして算出する。
i番目の接続事物を中心とする外部接続集合に対する値であり、且つ、k番目の属性に対する値である、外部接続集合内密度eikは、0以上であり且つ1以下である実数である。本例では、外部接続集合内密度算出部303は、接続集合内密度算出部302が接続集合内密度ckを算出する場合と同様に、外部接続集合内密度eikを算出する。
そして、外部接続集合内密度算出部303は、属性毎に、算出した外部接続集合内密度eikの代表値ekを決定する。そして、外部接続集合内密度算出部303は、決定した代表値ekを属性値推定部304へ出力する。即ち、外部接続集合内密度の代表値ekは、接続集合内密度ckと同じ次元を有するベクトルである。
ここで、外部接続集合内密度算出部303が行う具体的な処理について、図20に示したように、互いに対応付けられた接続事物ID及び外部接続事物IDを受け付けた場合を例として説明する。
外部接続集合内密度算出部303は、受け付けた接続事物ID毎に、順に以下の処理を実行する。
外部接続集合内密度算出部303は、先ず、接続事物IDと対応付けられた外部接続事物IDを取得する。ここでは、外部接続集合内密度算出部303は、接続事物ID「A」に対して、外部接続事物ID「B」、「E」、及び、「J」を取得する。
外部接続集合内密度算出部303は、取得した外部接続事物IDを計数することにより、外部接続事物の総数を取得する。本例では、外部接続集合内密度算出部303が外部接続事物ID「B」、「E」、及び、「J」を取得しているので、取得される外部接続事物の総数は、「3」である。
次いで、外部接続集合内密度算出部303は、記憶されているプロファイル情報に基づいて、接続事物IDと対応付けられた属性値と、各外部接続事物IDと対応付けられた属性値と、を取得する。即ち、外部接続集合内密度算出部303は、事物ID「A」、「B」、「E」、及び、「J」のそれぞれと対応付けられた属性値を取得する。
そして、外部接続集合内密度算出部303は、事物ID「A」に対して取得された属性値のうちの、k番目の属性の属性値が、当該属性を有しない旨を表す場合、外部接続集合内密度eikとして「0」を算出する。
一方、外部接続集合内密度算出部303は、事物ID「A」に対して取得された属性値のうちの、k番目の属性の属性値が、当該属性を有する旨を表す場合、上記式(1)と同様の数式と、取得された属性値と、取得された外部接続事物の総数と、に基づいて、外部接続集合内密度eikを算出する。
本例では、接続事物「A」を中心とする外部接続集合に対して算出され、且つ、属性としての「ゴルフ」、及び、「テニス」に対して算出された、外部接続集合内密度eikは、「0」よりも大きい値を有する。また、接続事物「A」を中心とする外部接続集合に対して算出され、且つ、属性としての「サッカー」、及び、「ラクロス」に対して算出された、外部接続集合内密度eikは、「0」である。
そして、外部接続集合内密度算出部303は、算出された外部接続集合内密度eikを記憶装置に記憶させる。
外部接続集合内密度算出部303は、接続事物ID「B」、「C」、及び、「D」のそれぞれに対しても、上述した接続事物ID「A」に対する処理と同様の処理を行う。
次いで、外部接続集合内密度算出部303は、各外部接続集合に対して算出された(即ち、記憶されている)外部接続集合内密度eikに基づいて、外部接続集合内密度eikの代表値ekを決定する。
本例では、外部接続集合内密度算出部303は、k番目の属性に対して算出された外部接続集合内密度eikの最大値を、k番目の属性に対する代表値ekとして決定する。なお、外部接続集合内密度算出部303は、k番目の属性に対して算出された外部接続集合内密度eikの平均値を、k番目の属性に対する代表値ekとして決定してもよい。
そして、外部接続集合内密度算出部303は、決定した代表値ekを属性値推定部304へ出力する。
(属性値推定部)
属性値推定部304は、接続集合内密度算出部302から出力された接続集合内密度ckと、外部接続集合内密度算出部303から出力された外部接続集合内密度の代表値ekと、を受け付ける。属性値推定部304は、受け付けた、接続集合内密度ck、及び、外部接続集合内密度の代表値ekに基づいて、属性毎に推定対象事物と対応付けられる属性値を推定する。なお、属性値推定部304が行う処理は、図19のステップS15の処理と対応している。
ある属性に対する接続集合内密度が高く(大きく)なるほど、推定対象事物が当該属性を有する可能性は高くなる。また、ある属性に対する外部接続集合内密度が高くなるほど、推定対象事物が当該属性を有する可能性は高くなる。
そこで、本例では、属性値推定部304は、属性毎に、接続集合内密度ckの値が、予め設定された第1の閾値密度α1よりも大きいか否かを判定する。属性値推定部304は、接続集合内密度ckの値が第1の閾値密度α1よりも大きいと判定した場合、当該属性に対して推定対象事物と対応付けられる属性値として、当該属性を有する旨を表す属性値を推定する。なお、第1の閾値密度α1は、情報処理装置30の管理者により入力された値であってもよい。
一方、属性値推定部304は、接続集合内密度ckの値が第1の閾値密度α1以下であると判定した場合、接続集合内密度ckの値が予め設定された第3の閾値密度α3よりも大きいか否かを判定する。第3の閾値密度α3は、第1の閾値密度α1よりも小さい値である。なお、第3の閾値密度α3は、情報処理装置30の管理者により入力された値であってもよい。
属性値推定部304は、接続集合内密度ckの値が第3の閾値密度α3よりも大きいと判定した場合、外部接続集合内密度の代表値ekが予め設定された第2の閾値密度α2よりも大きいか否かを判定する。なお、第2の閾値密度α2は、情報処理装置30の管理者により入力された値であってもよい。また、第1の閾値密度α1と第2の閾値密度α2とは、同一の値であってもよい。
属性値推定部304は、接続集合内密度ckの値が第1の閾値密度α1以下であり、且つ、接続集合内密度ckの値が第3の閾値密度α3よりも大きく、且つ、外部接続集合内密度の代表値ekが第2の閾値密度α2よりも大きい、と判定した場合、当該属性に対して推定対象事物と対応付けられる属性値として、当該属性を有する旨を表す属性値を推定する。
なお、属性値推定部304は、接続集合内密度ckの値が第3の閾値密度α3以下であると判定した場合、当該属性に対して推定対象事物と対応付けられる属性値として、当該属性を有しない旨を表す属性値を推定する。
同様に、属性値推定部304は、接続集合内密度ckの値が第1の閾値密度α1以下であり、且つ、接続集合内密度ckの値が第3の閾値密度α3よりも大きく、且つ、外部接続集合内密度の代表値ekが第2の閾値密度α2以下である、と判定した場合、当該属性に対して推定対象事物と対応付けられる属性値として、当該属性を有しない旨を表す属性値を推定する。
次に、図21に示した接続集合内密度と、図22に示した外部接続集合内密度の代表値と、に基づいて属性値を推定する場合における属性値推定部304の具体的な処理について説明する。ここで、第1の閾値密度α1、及び、第2の閾値密度α2の両方が「0.5」に設定され、且つ、第3の閾値密度α3が「0.3」に設定されている場合を想定する。
本例では、属性としての「ゴルフ」に対する接続集合内密度ckの値「0.1」は、第3の閾値密度α3以下である。従って、属性値推定部304は、推定対象事物「X」と対応付けられる属性値として、属性としての「ゴルフ」に対して「0」(即ち、属性を有しない旨を表す属性値)を推定(出力)する。
また、属性としての「テニス」に対する接続集合内密度ckの値「0.6」は、第1の閾値密度α1よりも大きい。従って、属性値推定部304は、推定対象事物「X」と対応付けられる属性値として、属性としての「テニス」に対して「1」(即ち、属性を有する旨を表す属性値)を推定(出力)する。
また、属性としての「ラクロス」に対する接続集合内密度ckの値「0.4」は、第1の閾値密度α1以下であり、且つ、第3の閾値密度α3よりも大きい。更に、属性としての「ラクロス」に対する外部接続集合内密度の代表値ek「0.6」は、第2の閾値密度α2よりも大きい。従って、属性値推定部304は、推定対象事物「X」と対応付けられる属性値として、属性としての「ラクロス」に対して「1」を推定(出力)する。
また、属性としての「サッカー」に対する接続集合内密度ckの値「0.4」は、第1の閾値密度α1以下であり、且つ、第3の閾値密度α3よりも大きい。更に、属性としての「サッカー」に対する外部接続集合内密度の代表値ek「0.4」は、第2の閾値密度α2以下である。従って、属性値推定部304は、推定対象事物「X」と対応付けられる属性値として、属性としての「サッカー」に対して「0」を推定(出力)する。
以上、説明したように、本発明の第2実施形態に係る情報処理装置30は、推定対象事物に接続されている事物である接続事物と対応付けられた属性値に基づいて、当該推定対象事物と対応付けられる属性値を推定する。
これによれば、いずれの属性に対しても、推定対象事物と対応付けられた属性値と同一の(又は、類似する)属性値と対応付けられた事物が存在しない場合、又は、推定対象事物と対応付けられた属性値が1つも存在しない場合であっても、推定対象事物と対応付けられる属性値を推定することができる。即ち、情報処理装置30によれば、推定対象事物と対応付けられる属性値を推定することができない状況の発生を抑制することができる。
更に、情報処理装置30は、k番目の属性に対して、接続集合内密度ckが第1の閾値密度α1よりも大きい場合、推定対象事物と対応付けられる属性値として、当該属性を有する旨を表す属性値を推定するように構成される。
ところで、接続集合内密度ckが十分に大きい場合、推定対象事物も、その属性を有していることが多い。従って、このように情報処理装置30を構成することにより、推定対象事物と対応付けられる属性値を高い精度にて推定することができる。
加えて、情報処理装置30は、k番目の属性に対して、接続集合内密度ckが第1の閾値密度α1よりも小さい場合において、代表値ekが第2の閾値密度α2よりも大きいとき、推定対象事物と対応付けられる属性値として、当該属性を有する旨を表す属性値を推定するように構成される。
ところで、接続集合内密度ckが比較的小さい場合であっても、外部接続集合内密度の代表値ekが比較的大きい場合、推定対象事物も、当該属性を有していることが多い。従って、このように情報処理装置30を構成することにより、推定対象事物と対応付けられる属性値を高い精度にて推定することができる。
なお、第2実施形態の変形例において、情報処理装置30は、接続集合内密度ckが第3の閾値密度α3以下である場合であっても、外部接続集合内密度の代表値ekが第2の閾値密度α2よりも大きいとき、当該属性に対して推定対象事物と対応付けられる属性値として、当該属性を有する旨を表す属性値を推定してもよい。即ち、情報処理装置30は、第3の閾値密度α3に基づくことなく、推定対象事物と対応付けられる属性値を推定してもよい。
また、第2実施形態の他の変形例において、情報処理装置30は、外部接続集合内密度eikに基づくことなく、接続集合内密度ckのみに基づいて、推定対象事物と対応付けられる属性値を推定してもよい。
即ち、この場合、情報処理装置30は、接続集合内密度ckが第1の閾値密度α1よりも大きい場合、推定対象事物と対応付けられる属性値として、当該属性を有する旨を表す属性値を推定し、一方、接続集合内密度ckが第1の閾値密度α1以下である場合、推定対象事物と対応付けられる属性値として、当該属性を有しない旨を表す属性値を推定するように構成される。
<第3実施形態>
次に、本発明の第3実施形態に係る情報処理装置について図23を参照しながら説明する。
第3実施形態に係る情報処理装置900は、属性を有するか否かを表す値である属性値と対応付けられた事物を複数含む全体集合内の1つの事物である推定対象事物に接続されている事物である接続事物と対応付けられた属性値に基づいて、当該推定対象事物と対応付けられる属性値を推定する属性値推定部(属性値推定手段)901を備える。
これによれば、いずれの属性に対しても、推定対象事物と対応付けられた属性値と同一の(又は、類似する)属性値と対応付けられた事物が存在しない場合、又は、推定対象事物と対応付けられた属性値が1つも存在しない場合であっても、推定対象事物と対応付けられる属性値を推定することができる。即ち、情報処理装置900によれば、推定対象事物と対応付けられる属性値を推定することができない状況の発生を抑制することができる。
以上、上記実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成及び詳細に、本願発明の範囲内において当業者が理解し得る様々な変更をすることができる。
例えば、上記実施形態において情報処理装置10の各機能は、CPUがプログラム(ソフトウェア)を実行することにより実現されていたが、回路等のハードウェアにより実現されていてもよい。
また、上記実施形態においてプログラムは、記憶装置に記憶されていたが、コンピュータが読み取り可能な記録媒体に記憶されていてもよい。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。
また、上記実施形態の他の変形例として、上述した実施形態及び変形例の任意の組み合わせが採用されてもよい。
<付記>
上記実施形態の一部又は全部は、以下の付記のように記載され得るが、以下には限られない。
(付記1)
属性を有するか否かを表す値である属性値と対応付けられた事物を複数含む全体集合内の1つの事物である推定対象事物に接続されている事物である接続事物と対応付けられた属性値に基づいて、当該推定対象事物と対応付けられる属性値を推定する属性値推定手段を備える情報処理装置。
これによれば、いずれの属性に対しても、推定対象事物と対応付けられた属性値と同一の(又は、類似する)属性値と対応付けられた事物が存在しない場合、又は、推定対象事物と対応付けられた属性値が1つも存在しない場合であっても、推定対象事物と対応付けられる属性値を推定することができる。即ち、上記情報処理装置によれば、推定対象事物と対応付けられる属性値を推定することができない状況の発生を抑制することができる。
(付記2)
付記1に記載の情報処理装置であって、
前記属性値推定手段は、前記全体集合において、前記属性を有する旨を表す属性値と対応付けられた事物が、前記接続事物からなる接続集合内に偏在している場合に、前記推定対象事物と対応付けられる属性値として、当該属性を有する旨を表す属性値を推定するように構成された情報処理装置。
ところで、全体集合において、ある属性を有する事物が、接続事物からなる接続集合内に偏在している場合、推定対象事物も、その属性を有していることが多い。従って、上記のように情報処理装置を構成することにより、推定対象事物と対応付けられる属性値を高い精度にて推定することができる。
(付記3)
付記2に記載の情報処理装置であって、
前記属性値推定手段は、前記全体集合内の事物の数に対する、当該全体集合内の事物のうちの前記属性を有する旨を表す属性値と対応付けられた事物の数の比が大きくなるほど大きくなる値を有する全体集合内密度と、前記接続集合内の事物の数に対する、当該接続集合内の事物のうちの当該属性を有する旨を表す属性値と対応付けられた事物の数の比が大きくなるほど大きくなる値を有する接続集合内密度と、に基づいて、当該全体集合において、当該属性を有する旨を表す属性値と対応付けられた事物が当該接続集合内に偏在しているか否かを判定するように構成された情報処理装置。
(付記4)
付記3に記載の情報処理装置であって、
前記属性値は、前記事物が前記属性を有する程度の強さが強くなるほど大きくなる値であり、
前記接続集合内の事物と対応付けられた前記属性値の総和が大きくなるほど大きくなり、且つ、当該接続集合内の事物の総数が多くなるほど小さくなる値を前記接続集合内密度として算出する接続集合内密度算出手段を備える情報処理装置。
ところで、事物が属性を有する程度の強さは、例えば、事物がユーザであり、且つ、属性がユーザの趣味である場合、ユーザの当該趣味に対する関心の高さに対応している。また、事物が文書であり、且つ、属性がキーワードである場合、事物が属性を有する程度の強さは、文書において当該キーワードが出現する頻度に対応している。
従って、上記のように情報処理装置を構成することにより、事物が属性を有する程度の強さに応じて、全体集合において、当該属性を有する旨を表す属性値と対応付けられた事物が接続集合内に偏在しているか否かを適切に判定することができる。
(付記5)
付記4に記載の情報処理装置であって、
前記接続集合内密度算出手段は、前記接続事物のうちの、前記属性を有しない旨を表す属性値と対応付けられた接続事物を介して前記推定対象事物と接続され、且つ、当該属性を有する旨を表す属性値と対応付けられた接続事物の数が多くなるほど、前記接続集合内密度をより小さい値に補正するように構成された情報処理装置。
ところで、属性を有する旨を表す属性値と対応付けられた接続事物と推定対象事物とが、他の接続事物(経由接続事物)を経由して(他の接続事物を介して)接続されている場合がある。この場合において、経由接続事物が、上記属性を有する旨を表す属性値と対応付けられている場合(第1の場合)と、上記属性を有しない旨を表す属性値と対応付けられている場合(第2の場合)と、がある。
このような場合、第1の場合の方が第2の場合よりも、推定対象事物が当該属性を有する可能性が高い。従って、上記のように情報処理装置を構成することにより、推定対象事物と対応付けられる属性値を高い精度にて推定することができる。
(付記6)
付記4又は付記5に記載の情報処理装置であって、
前記接続集合内密度算出手段は、前記推定対象事物と前記接続事物とが接続されている強さが弱くなるほど、前記接続集合内密度をより小さい値に補正するように構成された情報処理装置。
ところで、推定対象事物と接続事物とが接続されている強さは、例えば、事物がユーザである場合、ユーザ間で情報が授受された頻度、又は、ユーザ間で情報が授受される可能性の高さ等に対応している。また、事物が文書である場合、推定対象事物と接続事物とが接続されている強さは、文書が他の文書を参照する頻度等に対応している。
また、推定対象事物と接続事物とが接続されている強さは、推定対象事物と接続事物とが、他の接続事物(経由接続事物)を経由して接続されている場合、経由される経由接続事物の数が多くなるほど弱くなる。
従って、上記のように情報処理装置を構成することにより、推定対象事物と接続事物とが接続されている強さに応じて、全体集合において、当該属性を有する旨を表す属性値と対応付けられた事物が接続集合内に偏在しているか否かを適切に判定することができる。
(付記7)
付記3乃至付記6のいずれか一項に記載の情報処理装置であって、
前記全体集合内の事物の中から、前記推定対象事物に接続されている事物である前記接続事物を抽出する接続事物抽出手段を備え、
前記属性値推定手段は、前記抽出された接続事物と対応付けられた属性値に基づいて、前記推定対象事物と対応付けられる属性値を推定するように構成され、
前記接続事物抽出手段は、前記全体集合内密度が小さくなるほど、より少ない前記接続事物を抽出するように構成された情報処理装置。
ところで、ある属性に対する全体集合内密度が比較的小さい場合、当該属性を有する事物の数が比較的少ない可能性が高い。従って、このような場合、過度に多くの接続事物を抽出してしまうと、全体集合において、当該属性を有する旨を表す属性値と対応付けられた事物が接続集合内に偏在しているか否かを適切に判定することができない。そこで、上記のように情報処理装置を構成することにより、全体集合において、当該属性を有する旨を表す属性値と対応付けられた事物が接続集合内に偏在しているか否かを適切に判定することができる。
(付記8)
付記1に記載の情報処理装置であって、
前記属性値推定手段は、前記接続事物からなる接続集合内の事物の数に対する、当該接続集合内の事物のうちの前記属性を有する旨を表す属性値と対応付けられた事物の数の比が大きくなるほど大きくなる値を有する接続集合内密度が予め設定された第1の閾値密度よりも大きい場合、前記推定対象事物と対応付けられる属性値として、当該属性を有する旨を表す属性値を推定するように構成された情報処理装置。
ところで、接続集合内密度が十分に大きい場合、推定対象事物も、その属性を有していることが多い。従って、上記のように情報処理装置を構成することにより、推定対象事物と対応付けられる属性値を高い精度にて推定することができる。
(付記9)
付記8に記載の情報処理装置であって、
前記属性値推定手段は、前記接続事物に接続されている事物である外部接続事物からなる外部接続集合内の事物の数に対する、当該外部接続集合内の事物のうちの前記属性を有する旨を表す属性値と対応付けられた事物の数の比が大きくなるほど大きくなる値を有する外部接続集合内密度と、前記接続集合内密度と、に基づいて、前記推定対象事物と対応付けられる属性値を推定するように構成された情報処理装置。
ところで、外部接続集合内密度が比較的大きい場合、推定対象事物も、当該属性を有していることが多い。従って、上記のように情報処理装置を構成することにより、推定対象事物と対応付けられる属性値を高い精度にて推定することができる。
(付記10)
付記9に記載の情報処理装置であって、
前記属性値推定手段は、前記接続事物のそれぞれに対して、当該接続事物を中心とする前記外部接続集合に対する前記外部接続集合内密度を算出し、当該接続事物のそれぞれに対して算出された外部接続集合内密度に基づいて、当該外部接続集合内密度の代表値を決定し、当該決定した代表値と、前記接続集合内密度と、に基づいて、前記推定対象事物と対応付けられる属性値を推定するように構成された情報処理装置。
(付記11)
付記10に記載の情報処理装置であって、
前記属性値推定手段は、前記接続集合内密度が前記第1の閾値密度よりも小さい場合において、前記代表値が予め設定された第2の閾値密度よりも大きいとき、前記推定対象事物と対応付けられる属性値として、前記属性を有する旨を表す属性値を推定するように構成された情報処理装置。
ところで、接続集合内密度が比較的小さい場合であっても、外部接続集合内密度が比較的大きい場合、推定対象事物も、当該属性を有していることが多い。従って、上記のように情報処理装置を構成することにより、推定対象事物と対応付けられる属性値を高い精度にて推定することができる。
(付記12)
付記10に記載の情報処理装置であって、
前記属性値推定手段は、前記接続集合内密度が前記第1の閾値密度よりも小さく、且つ、当該第1の閾値密度よりも小さい第3の閾値密度よりも大きい場合において、前記代表値が予め設定された第2の閾値密度よりも大きいとき、前記推定対象事物と対応付けられる属性値として、前記属性を有する旨を表す属性値を推定するように構成された情報処理装置。
ところで、接続集合内密度が比較的小さい場合であっても、外部接続集合内密度が比較的大きい場合、推定対象事物も、当該属性を有していることが多い。従って、上記のように情報処理装置を構成することにより、推定対象事物と対応付けられる属性値を高い精度にて推定することができる。
(付記13)
付記9乃至付記12のいずれか一項に記載の情報処理装置であって、
前記接続集合は、当該接続集合内の任意の接続事物から、当該接続集合の中心となる前記推定対象事物へ到達する最短の経路において経由する経由事物の数に1を加えた値であるホップ数が、予め設定された第1の閾値ホップ数以下となるように構成され、
前記外部接続集合は、当該外部接続集合内の任意の外部接続事物から、当該外部接続集合の中心となる前記接続事物へ到達する最短の経路において経由する経由事物の数に1を加えた値であるホップ数が、予め設定された第2の閾値ホップ数以下となるように構成された情報処理装置。
(付記14)
付記8乃至付記13のいずれか一項に記載の情報処理装置であって、
前記属性値は、前記事物が前記属性を有する程度の強さが強くなるほど大きくなる値であり、
前記接続集合内の事物と対応付けられた前記属性値の総和が大きくなるほど大きくなり、且つ、当該接続集合内の事物の総数が多くなるほど小さくなる値を前記接続集合内密度として算出する接続集合内密度算出手段を備える情報処理装置。
これによれば、事物が属性を有する程度の強さに応じて、接続集合内密度を適切に算出することができる。この結果、推定対象事物と対応付けられる属性値を高い精度にて推定することができる。
(付記15)
付記14に記載の情報処理装置であって、
前記接続集合内密度算出手段は、前記接続事物のうちの、前記属性を有しない旨を表す属性値と対応付けられた接続事物を介して前記推定対象事物と接続され、且つ、当該属性を有する旨を表す属性値と対応付けられた接続事物の数が多くなるほど、前記接続集合内密度をより小さい値に補正するように構成された情報処理装置。
これによれば、推定対象事物と対応付けられる属性値を高い精度にて推定することができる。
(付記16)
付記14又は付記15に記載の情報処理装置であって、
前記接続集合内密度算出手段は、前記推定対象事物と前記接続事物とが接続されている強さが弱くなるほど、前記接続集合内密度をより小さい値に補正するように構成された情報処理装置。
これによれば、推定対象事物と接続事物とが接続されている強さに応じて、接続集合内密度を適切に算出することができる。この結果、推定対象事物と対応付けられる属性値を高い精度にて推定することができる。
(付記17)
属性を有するか否かを表す値である属性値と対応付けられた事物を複数含む全体集合内の1つの事物である推定対象事物に接続されている事物である接続事物と対応付けられた属性値に基づいて、当該推定対象事物と対応付けられる属性値を推定する、情報処理方法。
(付記18)
付記17に記載の情報処理方法であって、
前記全体集合において、前記属性を有する旨を表す属性値と対応付けられた事物が、前記接続事物からなる接続集合内に偏在している場合に、前記推定対象事物と対応付けられる属性値として、当該属性を有する旨を表す属性値を推定するように構成された情報処理方法。
(付記19)
付記17に記載の情報処理方法であって、
前記接続事物からなる接続集合内の事物の数に対する、当該接続集合内の事物のうちの前記属性を有する旨を表す属性値と対応付けられた事物の数の比が大きくなるほど大きくなる値を有する接続集合内密度が予め設定された第1の閾値密度よりも大きい場合、前記推定対象事物と対応付けられる属性値として、当該属性を有する旨を表す属性値を推定するように構成された情報処理方法。
(付記20)
情報処理装置に、
属性を有するか否かを表す値である属性値と対応付けられた事物を複数含む全体集合内の1つの事物である推定対象事物に接続されている事物である接続事物と対応付けられた属性値に基づいて、当該推定対象事物と対応付けられる属性値を推定する属性値推定手段を実現させるためのプログラム。
(付記21)
付記20に記載のプログラムであって、
前記属性値推定手段は、前記全体集合において、前記属性を有する旨を表す属性値と対応付けられた事物が、前記接続事物からなる接続集合内に偏在している場合に、前記推定対象事物と対応付けられる属性値として、当該属性を有する旨を表す属性値を推定するように構成されたプログラム。
(付記22)
付記20に記載のプログラムであって、
前記属性値推定手段は、前記接続事物からなる接続集合内の事物の数に対する、当該接続集合内の事物のうちの前記属性を有する旨を表す属性値と対応付けられた事物の数の比が大きくなるほど大きくなる値を有する接続集合内密度が予め設定された第1の閾値密度よりも大きい場合、前記推定対象事物と対応付けられる属性値として、当該属性を有する旨を表す属性値を推定するように構成されたプログラム。
なお、本発明は、日本国にて2009年11月20日に出願された特願2009−264760の特許出願、及び、日本国にて2010年2月5日に出願された特願2010−024035の特許出願、に基づく優先権主張の利益を享受するものであり、当該特許出願にて開示された内容のすべてが本明細書に含まれるものとする。
本発明は、事物と対応付けられた属性値を推定する情報処理装置等に適用可能である。
10 情報処理装置
11 CPU
12 メモリ
13 HDD
14 通信IF
15 入力装置
16 出力装置
17 バス
101 接続事物抽出部
102 接続集合内密度算出部
103 属性値推定部
30 情報処理装置
301 接続事物抽出部
302 接続集合内密度算出部
303 外部接続集合内密度算出部
304 属性値推定部
900 情報処理装置
901 属性値推定部

Claims (10)

  1. 属性を有するか否かを表す値である属性値と対応付けられた事物を複数含む全体集合内の1つの事物である推定対象事物に接続されている事物である接続事物と対応付けられた属性値に基づいて、当該推定対象事物と対応付けられる属性値を推定する属性値推定手段を備える情報処理装置。
  2. 請求項1に記載の情報処理装置であって、
    前記属性値推定手段は、前記全体集合において、前記属性を有する旨を表す属性値と対応付けられた事物が、前記接続事物からなる接続集合内に偏在している場合に、前記推定対象事物と対応付けられる属性値として、当該属性を有する旨を表す属性値を推定するように構成された情報処理装置。
  3. 請求項2に記載の情報処理装置であって、
    前記属性値推定手段は、前記全体集合内の事物の数に対する、当該全体集合内の事物のうちの前記属性を有する旨を表す属性値と対応付けられた事物の数の比が大きくなるほど大きくなる値を有する全体集合内密度と、前記接続集合内の事物の数に対する、当該接続集合内の事物のうちの当該属性を有する旨を表す属性値と対応付けられた事物の数の比が大きくなるほど大きくなる値を有する接続集合内密度と、に基づいて、当該全体集合において、当該属性を有する旨を表す属性値と対応付けられた事物が当該接続集合内に偏在しているか否かを判定するように構成された情報処理装置。
  4. 請求項3に記載の情報処理装置であって、
    前記属性値は、前記事物が前記属性を有する程度の強さが強くなるほど大きくなる値であり、
    前記接続集合内の事物と対応付けられた前記属性値の総和が大きくなるほど大きくなり、且つ、当該接続集合内の事物の総数が多くなるほど小さくなる値を前記接続集合内密度として算出する接続集合内密度算出手段を備える情報処理装置。
  5. 請求項4に記載の情報処理装置であって、
    前記接続集合内密度算出手段は、前記接続事物のうちの、前記属性を有しない旨を表す属性値と対応付けられた接続事物を介して前記推定対象事物と接続され、且つ、当該属性を有する旨を表す属性値と対応付けられた接続事物の数が多くなるほど、前記接続集合内密度をより小さい値に補正するように構成された情報処理装置。
  6. 請求項1に記載の情報処理装置であって、
    前記属性値推定手段は、前記接続事物からなる接続集合内の事物の数に対する、当該接続集合内の事物のうちの前記属性を有する旨を表す属性値と対応付けられた事物の数の比が大きくなるほど大きくなる値を有する接続集合内密度が予め設定された第1の閾値密度よりも大きい場合、前記推定対象事物と対応付けられる属性値として、当該属性を有する旨を表す属性値を推定するように構成された情報処理装置。
  7. 請求項6に記載の情報処理装置であって、
    前記属性値推定手段は、前記接続事物のそれぞれに対して、当該接続事物を中心とし且つ当該接続事物に接続されている事物である外部接続事物からなる外部接続集合内の事物の数に対する、当該外部接続集合内の事物のうちの前記属性を有する旨を表す属性値と対応付けられた事物の数の比が大きくなるほど大きくなる値を有する外部接続集合内密度を算出し、当該接続事物のそれぞれに対して算出された外部接続集合内密度に基づいて、当該外部接続集合内密度の代表値を決定し、当該決定した代表値と、前記接続集合内密度と、に基づいて、前記推定対象事物と対応付けられる属性値を推定するように構成された情報処理装置。
  8. 請求項7に記載の情報処理装置であって、
    前記属性値推定手段は、前記接続集合内密度が前記第1の閾値密度よりも小さく、且つ、当該第1の閾値密度よりも小さい第3の閾値密度よりも大きい場合において、前記代表値が予め設定された第2の閾値密度よりも大きいとき、前記推定対象事物と対応付けられる属性値として、前記属性を有する旨を表す属性値を推定するように構成された情報処理装置。
  9. 属性を有するか否かを表す値である属性値と対応付けられた事物を複数含む全体集合内の1つの事物である推定対象事物に接続されている事物である接続事物と対応付けられた属性値に基づいて、当該推定対象事物と対応付けられる属性値を推定する、情報処理方法。
  10. 情報処理装置に、
    属性を有するか否かを表す値である属性値と対応付けられた事物を複数含む全体集合内の1つの事物である推定対象事物に接続されている事物である接続事物と対応付けられた属性値に基づいて、当該推定対象事物と対応付けられる属性値を推定する属性値推定手段を実現させるためのプログラム。
JP2011541795A 2009-11-20 2010-10-13 情報処理装置 Active JP5692087B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011541795A JP5692087B2 (ja) 2009-11-20 2010-10-13 情報処理装置

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2009264760 2009-11-20
JP2009264760 2009-11-20
JP2010024035 2010-02-05
JP2010024035 2010-02-05
JP2011541795A JP5692087B2 (ja) 2009-11-20 2010-10-13 情報処理装置
PCT/JP2010/006069 WO2011061890A1 (ja) 2009-11-20 2010-10-13 情報処理装置

Publications (2)

Publication Number Publication Date
JPWO2011061890A1 true JPWO2011061890A1 (ja) 2013-04-04
JP5692087B2 JP5692087B2 (ja) 2015-04-01

Family

ID=44059378

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011541795A Active JP5692087B2 (ja) 2009-11-20 2010-10-13 情報処理装置

Country Status (3)

Country Link
US (1) US9305081B2 (ja)
JP (1) JP5692087B2 (ja)
WO (1) WO2011061890A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977611B2 (en) * 2011-10-18 2015-03-10 Facebook, Inc. Ranking objects by social relevance
JP2013196520A (ja) * 2012-03-21 2013-09-30 Fuji Xerox Co Ltd 組織属性推定装置及びプログラム
US10007722B2 (en) * 2016-06-20 2018-06-26 International Business Machines Corporation Presenting collaboration summaries of artifacts to improve engagement of user in collaboration activities

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5218409B2 (ja) * 2007-08-03 2013-06-26 日本電気株式会社 関連情報検索システム及び関連情報検索方法
US8306922B1 (en) * 2009-10-01 2012-11-06 Google Inc. Detecting content on a social network using links

Also Published As

Publication number Publication date
WO2011061890A1 (ja) 2011-05-26
US20120226703A1 (en) 2012-09-06
US9305081B2 (en) 2016-04-05
JP5692087B2 (ja) 2015-04-01

Similar Documents

Publication Publication Date Title
Abdel-Basset et al. A group decision making framework based on neutrosophic VIKOR approach for e-government website evaluation
US20170140058A1 (en) Systems and Methods for Identifying Influencers and Their Communities in a Social Data Network
US20160132800A1 (en) Business Relationship Accessing
US11960471B2 (en) Using lineage to infer data quality issues
US8732176B2 (en) Web-based tool for detecting bias in reviews
Allahbakhsh et al. An iterative method for calculating robust rating scores
CN107895038B (zh) 一种链路预测关系推荐方法及装置
US20160132901A1 (en) Ranking Vendor Data Objects
JP2012510667A5 (ja)
CN104954360B (zh) 分享内容屏蔽方法及装置
JP6377050B2 (ja) 学習装置、学習方法および学習プログラム
CN107870956B (zh) 一种高效用项集挖掘方法、装置及数据处理设备
US10255300B1 (en) Automatically extracting profile feature attribute data from event data
US20190295106A1 (en) Ranking Vendor Data Objects
US9762655B2 (en) Directing communications to nodes of a social network using an elastic map
WO2017203672A1 (ja) アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置
JP5692087B2 (ja) 情報処理装置
JP5772599B2 (ja) テキストマイニングシステム、テキストマイニング方法および記録媒体
Nechaev et al. Concealing Interests of Passive Users in Social Media.
CN112560105B (zh) 保护多方数据隐私的联合建模方法及装置
CN101639856B (zh) 检测互联网信息传播的网页关联评价装置
JP2020135673A (ja) 投稿評価システム及び方法
US20170031927A1 (en) Multi-term query subsumption for document classification
CN110321540A (zh) 一种生成表单的方法、装置、电子设备及介质
Vasconcelos et al. What makes your opinion popular? Predicting the popularity of micro-reviews in Foursquare

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130904

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140610

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140801

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140902

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150119

R150 Certificate of patent or registration of utility model

Ref document number: 5692087

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150