WO2012176863A1 - 情報処理システム、ネットワーク構造学習装置、リンク強度予測装置、リンク強度予測方法およびプログラム - Google Patents

情報処理システム、ネットワーク構造学習装置、リンク強度予測装置、リンク強度予測方法およびプログラム Download PDF

Info

Publication number
WO2012176863A1
WO2012176863A1 PCT/JP2012/065949 JP2012065949W WO2012176863A1 WO 2012176863 A1 WO2012176863 A1 WO 2012176863A1 JP 2012065949 W JP2012065949 W JP 2012065949W WO 2012176863 A1 WO2012176863 A1 WO 2012176863A1
Authority
WO
WIPO (PCT)
Prior art keywords
network
link
template
networks
model representing
Prior art date
Application number
PCT/JP2012/065949
Other languages
English (en)
French (fr)
Inventor
健児 青木
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2013521623A priority Critical patent/JP5991317B2/ja
Priority to US14/128,691 priority patent/US9424527B2/en
Publication of WO2012176863A1 publication Critical patent/WO2012176863A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/101Collaborative creation, e.g. joint development of products or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Definitions

  • the present invention is based on the priority claim of Japanese patent application: Japanese Patent Application No. 2011-140112 (filed on June 24, 2011), the entire contents of which are incorporated herein by reference. Shall.
  • the present invention relates to an information processing system, a network structure learning device, a link strength prediction device, a link strength prediction method, and a program, and in particular, in the field of data mining, an information processing system that handles network structure learning and link prediction problems, and a network structure
  • the present invention relates to a learning device, a link strength prediction device, a link strength prediction method, and a program.
  • Non-Patent Document 1 proposes an analysis method in which when a plurality of types of links exist between nodes of a network, the links are predicted at the same time.
  • Non-Patent Document 2 proposes a flexible analysis method that expresses as a probability model how much the structure difference between the networks described above exists.
  • this analysis method as a result of analyzing data of different product categories in online shopping at the same time, it is possible to predict user preferences more accurately than analyzing individual product category data individually It is shown.
  • Non-Patent Document 3 and Non-Patent Document 4 are references related to the hierarchical model.
  • Non-Patent Document 1 performs a plurality of link predictions between nodes of a network at the same time, and is considered to be equivalent to the problem of handling a plurality of networks simultaneously.
  • this analysis method does not take into account differences in properties that may exist between different link types (ie, how much the structure of connections between nodes differs between different link types). There is a point. Therefore, when there is a certain difference in structure between different link types, the prediction accuracy may be reduced by performing multiple types of link prediction at the same time, compared with the case where individual link predictions are performed individually. There is.
  • Non-Patent Document 2 has a problem that there is a restriction on the data format to be applied because there is a need for the purchase user to match between product categories.
  • An object of the present invention is to provide an information processing system, a network structure learning apparatus, and a link that can accurately learn the structure of a plurality of networks and predict link strength on the assumption that the structures of individual networks are different.
  • An object of the present invention is to provide a strength prediction device, a link strength prediction method, and a program.
  • a first input unit to which learning data and superparameters related to a plurality of networks are input, and a plurality of networks to be learned in a network structure using the learning data and superparameters.
  • a network structure learning unit that outputs a network, a learning result output unit that outputs a sample sequence from the posterior distribution of each random variable in the probability model representing the structure of each network and template network, and a network whose link strength is to be predicted Variables related to the combination of nodes
  • a second input unit to which the sample network generated from the posterior distribution of each random variable in the template model output from the learning result output unit and the probability model representing the structure of each network is input; and the external variable And the sample string generated from the posterior probability distribution of each random variable in the template network and the probability
  • a network structure learning device and a link strength prediction device that constitute the information processing system described above.
  • a sample string generated from the posterior probability distribution of each random variable in the template network and the probability model representing the structure of each network to obtain a predicted value of the strength of the link specified by the external variable
  • a link strength prediction method including It is. This method is associated with a specific machine called an information processing system that learns the structure of a plurality of networks and predicts the strength of an arbitrary link.
  • a computer program for realizing a network structure learning device and a link strength prediction device that constitute the information processing system described above.
  • these programs can be recorded on a computer-readable storage medium. That is, the present invention can be embodied as a computer program product.
  • FIG. 3 is a continuation diagram of FIG. 2.
  • the link strength is represented by a real number. Further, it is assumed that several external variables representing information such as properties and characteristics between nodes are observed for each combination of nodes.
  • B, C) represents the conditional probability distribution of the random variable A given the random variable B
  • C represents the parameter of the conditional probability distribution.
  • Y represents the strength of the link.
  • X represents an external variable.
  • N g represents the number of links (ie, node combinations) observed in the g th network.
  • G represents the number of target network data.
  • D represents the number of external variables.
  • ⁇ , ⁇ , ⁇ , ⁇ , and ⁇ are hyperparameters (hyperparameters).
  • N (*, ⁇ , ⁇ ) represents a multidimensional normal distribution of mean vector ⁇ and covariance matrix ⁇ .
  • IG (*, ⁇ , ⁇ ) represents an inverse gamma distribution of the shape parameter ⁇ and the scale parameter ⁇ .
  • [Equation 10] and [Equation 11] represent a probability model of the template network.
  • [Equation 8] and [Equation 9] indicate that probability models of individual networks 1 to G are generated from the template network.
  • [Equation 7] represents that each network data is generated from a probability model of each network.
  • FIG. 1 is a block diagram showing the configuration of the information processing system according to the first embodiment of this invention.
  • the network structure learning device 10 includes a first input unit 101, a network structure learning unit 102, and a learning result output unit 103. Further, the network structure learning unit 102 includes a template network structure learning unit 102-0 that learns the structure of the template network, and a first network structure learning unit 102-1 to a G-th network structure learning unit that learn the structure of each network. 102-G.
  • the link strength prediction apparatus 20 includes a second input unit 104, a link strength prediction unit 105, and a prediction result output unit 106. Further, the link strength predicting unit 105 is connected to the first network link strength predicting unit 105-1 to the G-th network link strength predicting unit 105-G that predict the link strength for each network.
  • the first input unit 101 receives and stores the learning data (y, X) for learning the network structure and the super parameters ⁇ , ⁇ , ⁇ , ⁇ , ⁇ , and ⁇ , and stores them. Output to the unit 102.
  • the network structure learning unit 102 uses the input learning data (y, X) and the super parameters ⁇ , ⁇ , ⁇ , ⁇ , ⁇ , and ⁇ as a template network structure learning unit 102-0 and a first network structure learning unit. 102-1 to G-th network structure learning unit 102-G.
  • learning data for example, the number of emails exchanged between employees in a company or the number of times attending the same meeting can be used. In this case, the link strength prediction has not been revealed (however, potential It is possible to analyze the relationships and relationships between employees.
  • the external variables described later include gender match / mismatch between employees, job match / mismatch, department match / mismatch, and specialized field (skill) match / mismatch.
  • the template network structure learning unit 102-0 and the first network structure learning unit 102-1 to the G-th network structure learning unit 102-G each generate and store a sample sequence from the posterior probability distribution of each random variable by a Gibbs sampler. To do. Further, the generated sample sequence is output to the learning result output unit 103 via the network structure learning unit 102.
  • the learning result output unit 103 outputs a sample sequence from the posterior probability distribution of each random variable input from the network structure learning unit 102 to the outside of the apparatus.
  • the second input unit 104 receives an input of an external variable X * related to a combination of nodes for which link strength is to be predicted and a sample sequence from the posterior probability distribution of each random variable, and inputs them to the link strength prediction unit 105. Output.
  • the link strength prediction unit 105 converts the input external variable X * and the sample sequence from the posterior probability distribution of each random variable into the first network link strength prediction unit 105-1 to the G-th network link strength prediction unit 105. -Input to G.
  • the link strength prediction value on the left side of [Equation 12] predicted as described above is output to the prediction result output unit 106 via the link strength prediction unit 105.
  • the prediction result output unit 106 outputs the link strength prediction value input from the link strength prediction unit 105 to the outside of the device.
  • each unit (processing unit) of the network structure learning device 10 and the link strength prediction device 20 illustrated in FIG. 1 uses the hardware of the computer that configures the network structure learning device 10 and the link strength prediction device 20. It can also be realized by a computer program that executes the above-described processes.
  • FIG. 2 and 3 are flowcharts showing the operation of the information processing system according to the first embodiment of this invention.
  • the first input unit 101 includes learning data (y, X) for learning a network structure given from the outside of the device, super parameters ⁇ , ⁇ , ⁇ , ⁇ , ⁇ , ⁇ , ⁇ , ⁇ , Are received and stored, and these are output to the network structure learning unit 102 (step S101 in FIG. 2).
  • the network structure learning unit 102 uses the Gibbs sampler to generate a sample sequence from the posterior probability distribution of each random variable for the input learning data (y, X) and the superparameters ⁇ , ⁇ , ⁇ , ⁇ , and ⁇ . Generate and save (step S102 in FIG. 2).
  • the template network structure learning unit 102-0 generates and stores sample strings related to b and t (see [Equation 10] and [Equation 11]), and the first to G-th network structure learning units 102-1 to 102-1 102-G generates and stores a sample string related to w g , s 2 (see [Equation 8] and [Equation 9]).
  • the learning result output unit 103 outputs these sample strings to an external device (step S103 in FIG. 2).
  • the second input unit 104 includes an external variable X * (prediction data) relating to a combination of nodes for which the strength of a link given from the outside of the apparatus is to be predicted, and the posterior probability of each random variable. After storing the sample sequence from the distribution, these are output to the link strength prediction unit 105 (step S104 in FIG. 3).
  • X * prediction data
  • the link strength prediction unit 105 calculates and stores a link strength prediction value based on the input external variable X * (prediction data) and a sample sequence from the posterior probability distribution of each random variable (in FIG. 3). Step S105).
  • the prediction result output unit 106 outputs the stored link strength prediction value to the outside of the apparatus (step S106 in FIG. 3).
  • the accuracy of network structure learning represented by link prediction is improved by learning the data of the plurality of networks simultaneously.
  • increasing accuracy means performing prediction with higher accuracy than when learning individual network structures individually.
  • the reason is that the concept of a hierarchical model, which is a kind of statistical model, was introduced. By doing so, it is possible to appropriately use data information of other networks in consideration of the similarity between networks when performing link prediction of a certain network. For example, when there is a large difference in the number of data obtained between networks, it is possible to compensate for the instability of learning accuracy for networks with a small number of data by using network information with a large number of data. become.
  • the parameter value of the hierarchical model is obtained by learning, and further, secondary information such as how much the structure between networks is different is obtained from the parameter value.
  • the link strength is represented by a real number, and some external variables representing the properties of individual nodes are observed. Similar learning / prediction is performed by assuming an appropriate linear model even when the link is not a real number but a binary value indicating the presence / absence of a link or when the link strength is expressed by a positive integer. It is possible.
  • Non-Patent Document 3 Even if no external variable is observed, it is possible to perform similar learning / prediction by using the hierarchical model shown in Non-Patent Document 3 or Non-Patent Document 4, for example. .
  • learning / prediction is performed not by the Gibbs sampling used in this embodiment but by the Metropolis-Hastings algorithm after giving an appropriate transition probability distribution.
  • the present invention uses information of an existing social network (hereinafter referred to as “B”) when a new social network (hereinafter referred to as “A”) is started.
  • B an existing social network
  • A new social network
  • the similarity between A and B is automatically determined, and the information of B is used based on the strength of the similarity.
  • Network structure learning device 20 Link strength prediction device 101 First input unit 102 Network structure learning unit 102-0 Template network structure learning units 102-1 to 102-G First network structure learning unit to G-th network structure learning unit 103 Learning Result output unit 104 Second input unit 105 Link strength prediction units 105-1 to 105-G First network link strength prediction unit to G-th network link strength prediction unit 106 Prediction result output unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 個々のネットワークの構造が異なる場合においても、これら複数のネットワークの構造を精度よく学習し、リンク強度を予測する。統計モデルの一種である階層モデルの概念を導入する。情報処理システムは、複数のネットワークに関する学習データおよび超パラメータを用いて、ネットワーク構造の学習対象の複数のネットワークの雛形となるテンプレートネットワークの構造を表わす確率モデルにおける各確率変数の事後分布と、前記複数のネットワークの構造を表わす確率モデルにおける各確率変数の事後分布と、からそれぞれサンプル列を生成する。次に、情報処理システムは、外的変数と前記サンプル列と、に基づいて、前記外的変数にて指定されたリンクの強度の予測値を求める。

Description

情報処理システム、ネットワーク構造学習装置、リンク強度予測装置、リンク強度予測方法およびプログラム
[関連出願についての記載]
 本発明は、日本国特許出願:特願2011-140112号(2011年6月24日出願)の優先権主張に基づくものであり、同出願の全記載内容は引用をもって本書に組み込み記載されているものとする。
 本発明は、情報処理システム、ネットワーク構造学習装置、リンク強度予測装置、リンク強度予測方法およびプログラムに関し、特に、データマイニングの分野において、ネットワーク構造学習、リンク予測の問題を取り扱う情報処理システム、ネットワーク構造学習装置、リンク強度予測装置、リンク強度予測方法およびプログラムに関する。
 ソーシャルネットワークサービスにおけるユーザ間の結びつきの強さや、オンラインショッピングにおけるユーザの商品に関する好みの予測をネットワークの構造とそのリンクの強度の問題として解析する方法が提案されている。非特許文献1では、あるネットワークのノード間に複数種類のリンクが存在する場合に、それらのリンク予測を同時に行なう分析手法が提案されている。
 また、非特許文献2では、上で述べたネットワーク間での構造の違いがどの程度存在するのかを確率モデルとして表わす柔軟な分析手法を提案している。この分析手法の応用例として、オンラインショッピングにおける異なる商品カテゴリーのデータを同時に分析した結果、個々の商品カテゴリー単独のデータを個別に分析するよりもユーザの好みを精度良く予測することが可能であることが示されている。
 非特許文献3や非特許文献4は、階層モデルに関する参考文献である。
Hisashi Kashima, Tsuyoshi Kato, Yoshihiro Yamanishi, Masashi Sugiyama and Koji Tsuda, 「Link propagation: a fast semi-supervised learning algorithm for link prediction」, Proceedings of the 9th SIAM International Conference on Data Mining (SDM 2009), pp. 1099-1110. Yu Zhang,Bin Cao, and Dit-Yan Yeung, 「Multi-Domain Collaborative Filtering」, Proceedings of the 26th Conference on Uncertainty in Artificial Intelligence (UAI 2010). Peter D.Hoff, 「Bilinear mixed-effects models for dyadic data」, Journal of the American Statistical Association, 100, 469, pp. 286-295. Peter D.Hoff, 「Modeling homophily and stochastic equivalence in symmetric relational data」, Advances in Neural Information Processing Systems, 20, pp. 657-664.
 以下の分析は、本発明によって与えられたものである。非特許文献1の分析手法は、ネットワークのノード間の複数のリンク予測を同時に行なうものであり、複数のネットワークを同時に扱う問題と同等であると考えられる。しかしながら、この分析手法では、異なるリンクの種類間に存在するかもしれない性質の違い(すなわちノード間の繋がりの構造が異なるリンクの種類間でどの程度違っているのか)は考慮されていないという問題点がある。したがって、異なるリンクの種類間において、構造の違いが一定以上存在する場合、複数種類のリンク予測を同時に行なうことにより、個々のリンク予測を個別に行なった場合よりも予測精度が落ちてしまう可能性がある。
 また、非特許文献2の方法では、商品カテゴリー間で購買ユーザが一致している必要性があるため、適用対象となるデータ形式に制約があるという問題点がある。
 従って、複数のネットワークから得られたデータに基づいて、リンク強度の予測等を行うには、各ネットワークの構造の類似性や、各ネットワークから得られるデータ数に大きな差がある場合も考慮する必要がある。
 本発明の目的とするところは、個々のネットワークの構造が異なることを前提に、複数のネットワークの構造を精度よく学習し、リンク強度を予測することのできる情報処理システム、ネットワーク構造学習装置、リンク強度予測装置、リンク強度予測方法およびプログラムを提供することにある。
 本発明の第1の視点によれば、複数のネットワークに関する学習データおよび超パラメータが入力される第1の入力部と、前記学習データおよび超パラメータを用いて、ネットワーク構造の学習対象の複数のネットワークの雛形となるテンプレートネットワークの構造を表わす確率モデルにおける各確率変数の事後分布から生成したサンプル列と、前記複数のネットワークの構造を表わす確率モデルにおける各確率変数の事後分布から生成したサンプル列と、を出力するネットワーク構造学習部と、前記各ネットワークおよびテンプレートネットワークの構造を表わす確率モデルにおける各確率変数の事後分布からのサンプル列を出力する学習結果出力部と、リンクの強さの予測対象のネットワークのノードの組み合わせに関する外的変数と、前記学習結果出力部から出力された前記テンプレートネットワークおよび各ネットワークの構造を表わす確率モデルにおける各確率変数の事後分布から生成したサンプル列とが入力される第2の入力部と、前記外的変数と前記テンプレートネットワークおよび各ネットワークの構造を表わす確率モデルにおける各確率変数の事後確率分布から生成されたサンプル列と、に基づいて、前記外的変数にて指定されたリンクの強度の予測値を求めるリンク強度予測部と、前記外的変数にて指定されたリンクの強度を出力する予測結果出力部と、を備える情報処理システムが提供される。
 本発明の第2の視点によれば、上記した情報処理システムを構成するネットワーク構造学習装置と、リンク強度予測装置がそれぞれ提供される。
 本発明の第3の視点によれば、複数のネットワークに関する学習データおよび超パラメータを用いて、ネットワーク構造の学習対象の複数のネットワークの雛形となるテンプレートネットワークの構造を表わす確率モデルにおける各確率変数の事後分布と、前記複数のネットワークの構造を表わす確率モデルにおける各確率変数の事後分布と、からそれぞれサンプル列を生成するステップと、リンクの強さの予測対象のネットワークのノードの組み合わせに関する外的変数と、前記テンプレートネットワークおよび各ネットワークの構造を表わす確率モデルにおける各確率変数の事後確率分布から生成したサンプル列と、に基づいて、前記外的変数にて指定されたリンクの強度の予測値を求めるステップと、を含むリンク強度予測方法が提供される。本方法は、複数のネットワークの構造を学習し、その任意のリンクの強度を予測する情報処理システムという、特定の機械に結びつけられている。
 本発明の第4の視点によれば、上記した情報処理システムを構成するネットワーク構造学習装置と、リンク強度予測装置を実現するコンピュータプログラムが提供される。なお、これらのプログラムは、コンピュータが読み取り可能な記憶媒体に記録することができる。即ち、本発明は、コンピュータプログラム製品として具現することも可能である。
 本発明によれば、個々のネットワークの構造が異なる場合においても、これら複数のネットワークの構造を精度よく学習し、リンク強度を予測することが可能となる。
本発明の第1の実施形態の情報処理システムの構成を表したブロック図である。 本発明の第1の実施形態の情報処理システムの動作を表した流れ図である。 図2の続図である。
[第1の実施形態]
 続いて、本発明の第1の実施形態について図面を参照して詳細に説明する。以下、本実施形態では、リンクの強さを実数で表わすものとする。また、個々のノードの組み合わせに対して、ノード間の性質や特徴といった情報を表わすいくつかの外的変数が観測されているものとする。
 以下の実施形態では、個々のネットワークデータの雛形とも呼ぶべきテンプレートネットワークの存在を仮定し、そのテンプレートネットワークがある確率分布から生成されていると仮定する。さらに、個々のネットワークに関するデータはそのテンプレートネットワークに基づいた確率分布から生成されていると仮定する。以上の前提の下、本実施形態における階層モデルを仮定する。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000005
Figure JPOXMLDOC01-appb-M000006
 ただし、p(A|B,C)は、確率変数Bが与えられたもとでの確率変数Aの条件付き確率分布を表わし、Cはその条件付き確率分布のパラメータを表わす。また、yは、リンクの強さを表わす。Xは外的変数を表わす。Nは、g番目のネットワークにおいて観測されたリンク(すなわちノードの組み合わせ)の数を表わす。Gは対象とするネットワークデータの数を表わす。Dは外的変数の個数を表わす。また、κ,λ,β,σ,μ,υは、超パラメータ(ハイパーパラメータ)である。
 上記[数1]の右辺の確率分布として、以下を仮定する。
Figure JPOXMLDOC01-appb-M000007
Figure JPOXMLDOC01-appb-M000008
Figure JPOXMLDOC01-appb-M000009
Figure JPOXMLDOC01-appb-M000010
Figure JPOXMLDOC01-appb-M000011
 但し、N(*,μ,Σ)は、平均ベクトルμ、共分散行列Σの多次元正規分布を表わす。IG(*,φ,ψ)は、形状パラメータφ、尺度パラメータψの逆ガンマ分布を表わす。
 ここで、[数10]と[数11]は、テンプレートネットワークの確率モデルを表わす。また[数8]と[数9]は、1からGまでの個々のネットワークの確率モデルが、前記テンプレートネットワークから生成されることを表わしている。また、[数7]は、個々のネットワークデータが個々のネットワークの確率モデルから生成されることを表わしている。
 上記の仮定の下で、[数1]の右辺における各確率変数の条件付き確率分布は、共役分布となり、条件付き事後確率分布が解析的に求められる。したがって、ギブスサンプラーにより確率変数の事後分布を予測することが可能となる。
 続いて、上記階層モデルによるリンク予測を具現する本発明の第1の実施形態の情報処理システムの構成について図面を参照して詳細に説明する。図1は、本発明の第1の実施形態の情報処理システムの構成を表したブロック図である。
 図1を参照すると、ネットワーク構造学習装置10と、リンク強度予測装置20とを含んだ情報処理システムが示されている。ネットワーク構造学習装置10は、第1入力部101と、ネットワーク構造学習部102と、学習結果出力部103と、を含んで構成されている。さらに、ネットワーク構造学習部102は、テンプレートネットワークの構造を学習するテンプレートネットワーク構造学習部102-0と、個々のネットワークの構造を学習する第1ネットワーク構造学習部102-1~第Gネットワーク構造学習部102-Gと、接続されている。
 リンク強度予測装置20は、第2入力部104と、リンク強度予測部105と、予測結果出力部106と、を含んで構成されている。さらに、リンク強度予測部105は、個々のネットワークについてリンク強度を予測する第1ネットワークリンク強度予測部105-1~第Gネットワークリンク強度予測部105-Gと接続されている。
 第1入力部101は、ネットワーク構造を学習するための学習データ(y,X)と、超パラメータκ,λ,β,σ,μ,υとの入力を受け付けて保存し、これらをネットワーク構造学習部102に出力する。
 ネットワーク構造学習部102は、入力された学習データ(y,X)と、超パラメータκ,λ,β,σ,μ,υとを、テンプレートネットワーク構造学習部102-0、第1ネットワーク構造学習部102-1~第Gネットワーク構造学習部102-Gに入力する。このような学習データとしては、例えば企業における社員同士のメールのやりとりの回数や同じ会議に出席した回数などを用いることでき、この場合、リンク強度予測として、顕在化していない(ただし、潜在的な繋がりがある)社員同士の繋がりや・関係性を分析することができる。また、後記する外的変数としては社員同士の性別の一致・不一致、役職の一致・不一致、所属部署の一致・不一致、専門分野(スキル)の一致・不一致などが挙げられる。
 テンプレートネットワーク構造学習部102-0および第1ネットワーク構造学習部102-1~第Gネットワーク構造学習部102-Gは、それぞれギブスサンプラーによって各確率変数の事後確率分布からのサンプル列を生成し、保存する。さらに、前記生成されたサンプル列は、ネットワーク構造学習部102を介して学習結果出力部103に出力される。
 学習結果出力部103は、ネットワーク構造学習部102から入力された各確率変数の事後確率分布からのサンプル列を装置外部に出力する。
 第2入力部104では、リンクの強さを予測したいノードの組み合わせに関する外的変数Xと、各確率変数の事後確率分布からのサンプル列との入力を受け付け、これらをリンク強度予測部105に出力する。
 リンク強度予測部105は、入力された外的変数Xと、各確率変数の事後確率分布からのサンプル列とを、第1ネットワークリンク強度予測部105-1~第Gネットワークリンク強度予測部105-Gに入力する。
 第1ネットワークリンク強度予測部105-1~第Gネットワークリンク強度予測部105-Gのうち、g番目(g=1,・・・,G)のリンク強度予測部105-gは、wの事後確率分布からのサンプル列の平均値AVE(w)を用いて、次式[数12]により、リンク強度を予測する。但し、[数12]の右辺のx gngはg番目のネットワークに関してリンクの強さを予測したいノードの組み合わせに対する外的変数を表わす。
Figure JPOXMLDOC01-appb-M000012
 なお、上記の例は、あくまで一例であり、他の方法として、各確率変数の事後確率分布からのサンプル列からリンクの強さの事後予測確率分布を求める方法を用いることもできる。
 上記のようにして予測された[数12]の左辺のリンク強度予測値は、リンク強度予測部105を介して予測結果出力部106に出力される。
 予測結果出力部106は、装置外部に、リンク強度予測部105から入力されたリンク強度予測値を出力する。
 なお、図1に示したネットワーク構造学習装置10およびリンク強度予測装置20の各部(処理手段)は、ネットワーク構造学習装置10およびリンク強度予測装置20を構成するコンピュータに、そのハードウェアを用いて、上記した各処理を実行させるコンピュータプログラムにより実現することもできる。
 続いて、本実施形態の動作について図面を参照して詳細に説明する。図2、図3は、本発明の第1の実施形態の情報処理システムの動作を表した流れ図である。
 図2を参照すると、まず、第1入力部101は装置外部から与えられたネットワーク構造を学習するための学習データ(y,X)と、超パラメータκ,λ,β,σ,μ,υとの入力を受け付けて保存し、これらをネットワーク構造学習部102に出力する(図2のステップS101)。
 ネットワーク構造学習部102は、入力された学習データ(y,X)と、超パラメータκ,λ,β,σ,μ,υに対してギブスサンプラーによって各確率変数の事後確率分布からのサンプル列を生成し、保存する(図2のステップS102)。この際、テンプレートネットワーク構造学習部102-0は、b,tに関するサンプル列を生成、保存し([数10]、[数11]参照)、第1~第Gネットワーク構造学習部102-1~102-Gは、w,sに関するサンプル列を生成、保存する([数8]、[数9]参照)。
 学習結果出力部103は、これらのサンプル列を外部装置に出力する(図2のステップS103)。
 続いて、図3を参照すると、第2入力部104は、装置外部から与えられたリンクの強さを予測したいノードの組み合わせに関する外的変数X(予測データ)と、各確率変数の事後確率分布からのサンプル列を保存した上で、これらをリンク強度予測部105に出力する(図3のステップS104)。
 リンク強度予測部105は、入力された外的変数X(予測データ)と、各確率変数の事後確率分布からのサンプル列をもとにリンク強度の予測値を算出し保存する(図3のステップS105)。
 予測結果出力部106は、装置外部に、保存されたリンク強度の予測値を出力する(図3のステップS106)。
 以上のように、本実施形態によれば、複数のネットワークのデータが得られている際に、これら複数のネットワークのデータを同時に学習することにより、リンク予測に代表されるネットワーク構造学習の精度を上げることができる(ここで、精度を上げるとは、個々のネットワーク構造を個別に学習したときよりも高い精度で予測を行なうことを意味する)。その理由は、統計モデルの一種である階層モデルの概念を導入したことにある。こうすることにより、あるネットワークのリンク予測をする際に、ネットワーク間の類似性を考慮した上で他のネットワークのデータの情報を適切に利用することが可能となる。例えば、ネットワーク間で得られたデータの数に大きな差がある場合に、データの数の少ないネットワークに対する学習精度の不安定さをデータの数の多いネットワークの情報を用いることにより補うといったことが可能になる。
 また、本実施形態によれば、階層モデルのパラメータの値が学習によって得られ、さらに、そのパラメータの値からネットワーク間の構造がどの程度違うのかといった副次的な情報が得られる。
 また、上記した説明からも明らかなように、本実施形態では、非特許文献1の手法のようにネットワーク間で全ノードが一致していることを要求しない。即ち、あるネットワークに含まれているノードが他のネットワークに含まれていないというケースがあってもよいという利点も存在するため、対象とするデータ形式の制約はない。
 以上、本発明の各実施形態を説明したが、本発明は、上記した実施形態に限定されるものではなく、本発明の基本的技術的思想を逸脱しない範囲で、更なる変形・置換・調整を加えることができる。例えば、上記した実施形態では、リンクの強さが実数で表わされていて、個々のノードの性質を表わすいくつかの外的変数が観測されているものとして説明したが、リンクの強さが実数ではなく、リンクの存在の有無を表わす二値である場合や、リンクの強さが正の整数で表わされる場合についても、適切な線形モデルを仮定することにより、同様の学習・予測を行なうことが可能である。
 また、外的変数が観測されていない場合であっても、例えば、非特許文献3や非特許文献4で示されている階層モデルを用いることにより同様の学習・予測を行なうことが可能である。ただし、これらの場合は本実施形態で用いたギブスサンプリングではなく適切な推移確率分布を与えた上でのMetropolis-Hastingsアルゴリズムによって学習・予測を行なうことになる。
 本発明は、社員同士の繋がりの分析のほか、新たなソーシャルネットワーク(以後、「A」とする)が開始された際に、既存のソーシャルネットワーク(以後、「B」とする)の情報を利用することにより、Aの導入初期の段階からAにおけるユーザ間の繋がりの強さを精度良く予測し、各ユーザに対して繋がりの強いユーザをレコメンドすることが可能となる。また、Aにおけるユーザ間の繋がりの強さを予測する際に、AとBの類似性が自動的に判断され、その類似性の強さに基づいた上でBの情報が利用されることになる。
 なお、前述の特許文献の開示を、本書に引用をもって繰り込むものとする。
 本発明の全開示(請求の範囲および図面を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲および図面の枠内において種々の開示要素(各請求項の各要素、各実施例の各要素、各図面の各要素等を含む)の多様な組み合わせないし選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。
10 ネットワーク構造学習装置
20 リンク強度予測装置
101 第1入力部
102 ネットワーク構造学習部
102-0 テンプレートネットワーク構造学習部
102-1~102-G 第1ネットワーク構造学習部~第Gネットワーク構造学習部
103 学習結果出力部
104 第2入力部
105 リンク強度予測部
105-1~105-G 第1ネットワークリンク強度予測部~第Gネットワークリンク強度予測部
106 予測結果出力部

Claims (8)

  1.  複数のネットワークに関する学習データおよび超パラメータが入力される第1の入力部と、
     前記学習データおよび超パラメータを用いて、ネットワーク構造の学習対象の複数のネットワークの雛形となるテンプレートネットワークの構造を表わす確率モデルにおける各確率変数の事後分布から生成したサンプル列と、前記複数のネットワークの構造を表わす確率モデルにおける各確率変数の事後分布から生成したサンプル列と、を出力するネットワーク構造学習部と、
     前記各ネットワークおよびテンプレートネットワークの構造を表わす確率モデルにおける各確率変数の事後分布からのサンプル列を出力する学習結果出力部と、
     リンクの強さの予測対象のネットワークのノードの組み合わせに関する外的変数と、前記学習結果出力部から出力された前記テンプレートネットワークおよび各ネットワークの構造を表わす確率モデルにおける各確率変数の事後分布から生成したサンプル列とが入力される第2の入力部と、
     前記外的変数と前記テンプレートネットワークおよび各ネットワークの構造を表わす確率モデルにおける各確率変数の事後確率分布から生成されたサンプル列と、に基づいて、前記外的変数にて指定されたリンクの強度の予測値を求めるリンク強度予測部と、
     前記外的変数にて指定されたリンクの強度を出力する予測結果出力部と、
     を備える情報処理システム。
  2.  前記ネットワーク構造学習部は、
     前記テンプレートネットワークの構造を表わす確率モデルにおける各確率変数の事後分布からのサンプル列を出力するテンプレートネットワーク構造学習部と、
     前記各ネットワークの構造を表わす確率モデルにおける各確率変数の事後分布からのサンプル列をそれぞれ出力する複数のネットワーク構造学習部と、
     を含む請求項1の情報処理システム。
  3.  前記リンク強度予測部は、
     前記各ネットワークに対応して設けられ、任意のリンクの強度の予測値を求める複数のリンク強度予測部を含み、
     前記外的変数にて指定されたリンクに対応するリンク強度予測部が、前記リンクの強度の予測値を求める請求項1または2の情報処理システム。
  4.  複数のネットワークに関する学習データおよび超パラメータが入力される第1の入力部と、
     前記学習データおよび超パラメータを用いて、ネットワーク構造の学習対象の複数のネットワークの雛形となるテンプレートネットワークの構造を表わす確率モデルにおける各確率変数の事後分布から生成したサンプル列と、前記複数のネットワークの構造を表わす確率モデルにおける各確率変数の事後分布から生成したサンプル列と、を出力するネットワーク構造学習部と、
     前記テンプレートネットワークおよび各ネットワークの構造を表わす確率モデルにおける各確率変数の事後分布から生成したサンプル列を出力する学習結果出力部と、
     を備えるネットワーク構造学習装置。
  5.  リンクの強さの予測対象のネットワークのノードの組み合わせに関する外的変数と、前記学習結果出力部から出力された前記テンプレートネットワークおよび各ネットワークの構造を表わす確率モデルにおける各確率変数の事後分布から生成したサンプル列とが入力される第2の入力部と、
     前記外的変数と前記テンプレートネットワークおよび各ネットワークの構造を表わす確率モデルにおける各確率変数の事後確率分布から生成されたサンプル列と、に基づいて、前記外的変数にて指定されたリンクの強度の予測値を求めるリンク強度予測部と、
     前記外的変数にて指定されたリンクの強度を出力する予測結果出力部と、
     を備えるリンク強度予測装置。
  6.  複数のネットワークに関する学習データおよび超パラメータを用いて、ネットワーク構造の学習対象の複数のネットワークの雛形となるテンプレートネットワークの構造を表わす確率モデルにおける各確率変数の事後分布と、前記複数のネットワークの構造を表わす確率モデルにおける各確率変数の事後分布と、からそれぞれサンプル列を生成するステップと、
     リンクの強さの予測対象のネットワークのノードの組み合わせに関する外的変数と、前記テンプレートネットワークおよび各ネットワークの構造を表わす確率モデルにおける各確率変数の事後確率分布から生成したサンプル列と、に基づいて、前記外的変数にて指定されたリンクの強度の予測値を求めるステップと、
     を含むリンク強度予測方法。
  7.  複数のネットワークに関する学習データおよび超パラメータを入力する処理と、
     前記学習データおよび超パラメータを用いて、ネットワーク構造の学習対象の複数のネットワークの雛形となるテンプレートネットワークの構造を表わす確率モデルにおける各確率変数の事後分布と、前記複数のネットワークの構造を表わす確率モデルにおける各確率変数の事後分布と、からそれぞれサンプル列を生成する処理と、
     前記テンプレートネットワークおよび各ネットワークの構造を表わす確率モデルにおける各確率変数の事後分布からのサンプル列を出力する処理と、
     を第1の装置を構成するコンピュータに実行させるプログラム。
  8.  リンクの強さの予測対象のネットワークのノードの組み合わせに関する外的変数と、前記学習結果出力部から出力された前記テンプレートネットワークおよび各ネットワークの構造を表わす確率モデルにおける各確率変数の事後分布から生成されたサンプル列とを入力する処理と、
     リンクの強さの予測対象のネットワークのノードの組み合わせに関する外的変数と、前記テンプレートネットワークおよび各ネットワークの構造を表わす確率モデルにおける各確率変数の事後確率分布から生成したサンプル列と、に基づいて、前記外的変数にて指定されたリンクの強度の予測値を求める処理と、
     前記外的変数にて指定されたリンクの強度を出力する処理と、
     を第2の装置を構成するコンピュータに実行させるプログラム。
PCT/JP2012/065949 2011-06-24 2012-06-22 情報処理システム、ネットワーク構造学習装置、リンク強度予測装置、リンク強度予測方法およびプログラム WO2012176863A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013521623A JP5991317B2 (ja) 2011-06-24 2012-06-22 情報処理システム、ネットワーク構造学習装置、リンク強度予測装置、リンク強度予測方法およびプログラム
US14/128,691 US9424527B2 (en) 2011-06-24 2012-06-22 Information processing system, network structure learning device, link strength prediction device, link strength prediction method and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011140112 2011-06-24
JP2011-140112 2011-06-24

Publications (1)

Publication Number Publication Date
WO2012176863A1 true WO2012176863A1 (ja) 2012-12-27

Family

ID=47422691

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/065949 WO2012176863A1 (ja) 2011-06-24 2012-06-22 情報処理システム、ネットワーク構造学習装置、リンク強度予測装置、リンク強度予測方法およびプログラム

Country Status (3)

Country Link
US (1) US9424527B2 (ja)
JP (1) JP5991317B2 (ja)
WO (1) WO2012176863A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111369374A (zh) * 2020-02-19 2020-07-03 山西大学 一种基于概率产生式的社交网络时序链接预测方法及装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016133523A1 (en) * 2015-02-19 2016-08-25 Hewlett Packard Enterprise Development Lp Post-sampling conflict detection
CN107730055A (zh) * 2017-11-21 2018-02-23 燕山大学 符号网络链接预测方法及终端设备
CN112446542B (zh) * 2020-11-30 2023-04-07 山西大学 基于注意力神经网络的社交网络链路预测方法
US11221908B1 (en) * 2021-03-02 2022-01-11 International Business Machines Corporation Discovery of an inexplicit link between a change and an incident in a computing environment
CN114444279B (zh) * 2022-01-14 2022-12-16 中国人民解放军国防科技大学 基于卫星低高精度数据关联参数联合估计的响应预测方法
CN114650167B (zh) * 2022-02-08 2023-06-27 联想(北京)有限公司 一种异常检测方法、装置、设备及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009107412A1 (ja) * 2008-02-27 2009-09-03 日本電気株式会社 グラフ構造推定装置、グラフ構造推定方法およびプログラム
JP2010250377A (ja) * 2009-04-10 2010-11-04 Internatl Business Mach Corp <Ibm> リンク予測システム、方法及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7853485B2 (en) * 2005-11-22 2010-12-14 Nec Laboratories America, Inc. Methods and systems for utilizing content, dynamic patterns, and/or relational information for data analysis
US20090077079A1 (en) * 2007-09-18 2009-03-19 Siemens Aktiengesellschaft Method for classifying interacting entities
US8090665B2 (en) * 2008-09-24 2012-01-03 Nec Laboratories America, Inc. Finding communities and their evolutions in dynamic social network
WO2010088460A1 (en) * 2009-01-30 2010-08-05 The Board Of Trustees Of The Leland Stanford Junior University Systems, methods and circuits for learning of relation-based networks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009107412A1 (ja) * 2008-02-27 2009-09-03 日本電気株式会社 グラフ構造推定装置、グラフ構造推定方法およびプログラム
JP2010250377A (ja) * 2009-04-10 2010-11-04 Internatl Business Mach Corp <Ibm> リンク予測システム、方法及びプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HISASHI KASHIMA: "Link Propagation: a semi- supervised approach to link prediction", DAI 73 KAI JINKO CHINO KIHON MONDAI KENKYUKAI SHIRYO, 6 March 2009 (2009-03-06), pages 19 - 24 *
HISASHI KASHIMA: "Survey of Network Structure Prediction Methods", JOURNAL OF JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE, vol. 22, no. 3, 1 May 2007 (2007-05-01), pages 344 - 351 *
SAKIKO MORIYASU: "Link Prediction for Question- Answering Bulletin Boards", TRANSACTIONS OF INFORMATION PROCESSING SOCIETY OF JAPAN, RONBUNSHI TRANSACTIONS HEISEI 20 NENDO 2, vol. 2, no. 1, 15 April 2009 (2009-04-15), pages 10 - 21 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111369374A (zh) * 2020-02-19 2020-07-03 山西大学 一种基于概率产生式的社交网络时序链接预测方法及装置
CN111369374B (zh) * 2020-02-19 2023-06-02 山西大学 一种基于概率产生式的社交网络时序链接预测方法及装置

Also Published As

Publication number Publication date
JPWO2012176863A1 (ja) 2015-02-23
US9424527B2 (en) 2016-08-23
JP5991317B2 (ja) 2016-09-14
US20140122393A1 (en) 2014-05-01

Similar Documents

Publication Publication Date Title
JP5991317B2 (ja) 情報処理システム、ネットワーク構造学習装置、リンク強度予測装置、リンク強度予測方法およびプログラム
Lundberg et al. An unexpected unity among methods for interpreting model predictions
Li et al. Rényi divergence variational inference
Dong et al. Multi-granular unbalanced linguistic distribution assessments with interval symbolic proportions
Montalto et al. Neural networks with non-uniform embedding and explicit validation phase to assess Granger causality
Ramadass et al. Evaluation of cloud vendors from probabilistic linguistic information with unknown/partial weight values
Vergidis et al. Optimisation of business process designs: An algorithmic approach with multiple objectives
CN110689110B (zh) 处理交互事件的方法及装置
Burlutskiy et al. An investigation on online versus batch learning in predicting user behaviour
JP2021072100A (ja) 情報処理装置、統合モデル生成方法、及び統合モデル生成プログラム
Imani et al. Multiple model adaptive controller for partially-observed Boolean dynamical systems
WO2019193981A1 (ja) データ予測装置、方法、及びプログラム
CN106104427A (zh) 输入的感知内容的重新格式化
Tornede et al. Automl for predictive maintenance: One tool to rul them all
Tavares et al. Process mining encoding via meta-learning for an enhanced anomaly detection
Zighed et al. Comparative analysis of object-oriented software maintainability prediction models
Jin et al. Model-free selective inference under covariate shift via weighted conformal p-values
Attila et al. A decomposition algorithm for robust lot sizing problem with remanufacturing option
Pousi et al. Simulation metamodelling with Bayesian networks
Zhou et al. A model-agnostic approach for explaining the predictions on clustered data
JP2015038709A (ja) モデルパラメータ推定方法、装置、及びプログラム
JP6059594B2 (ja) 重み行列更新装置、その動作方法およびコンピュータプログラム
Brockhoff et al. Using comparative preference statements in hypervolume-based interactive multiobjective optimization
Felicioni et al. On the Importance of Uncertainty in Decision-Making with Large Language Models
JP6614030B2 (ja) 観測者検出装置、方法、プログラム、及びコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12803118

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013521623

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14128691

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12803118

Country of ref document: EP

Kind code of ref document: A1