WO2022190221A1 - データ解析装置、データ解析方法、及びプログラム - Google Patents

データ解析装置、データ解析方法、及びプログラム Download PDF

Info

Publication number
WO2022190221A1
WO2022190221A1 PCT/JP2021/009379 JP2021009379W WO2022190221A1 WO 2022190221 A1 WO2022190221 A1 WO 2022190221A1 JP 2021009379 W JP2021009379 W JP 2021009379W WO 2022190221 A1 WO2022190221 A1 WO 2022190221A1
Authority
WO
WIPO (PCT)
Prior art keywords
parameter
permutation
data analysis
analysis device
rectangular
Prior art date
Application number
PCT/JP2021/009379
Other languages
English (en)
French (fr)
Inventor
允裕 中野
昭悟 木村
武士 山田
修功 上田
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/009379 priority Critical patent/WO2022190221A1/ja
Publication of WO2022190221A1 publication Critical patent/WO2022190221A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models

Definitions

  • the present invention relates to technology for clustering relational data using the nonparametric Bayesian method.
  • Bayesian estimation is when input observation data is conditioned by manually designing a probability model (also called a Bayesian model) with parameters and fitting (learning) it to input observation data. It is a technique for data analysis by obtaining the posterior probability distribution of the parameters of Bayesian estimation is a concept with a history of several decades, and it is a very broad idea that is close to "statistical machine learning".
  • Nonparametric Bayesian method is a subconcept of the Bayesian inference explained in (a). It is called a parametric Bayes model, and the technique of performing Bayesian inference using a non-parametric Bayes model is called a non-parametric Bayes method.
  • An emerging research area in the early 2000s, "non-parametric Bayesian models" are much rarer than regular Bayesian models.
  • the benefit of nonparametric Bayesian methods in practical applications is that they are essentially freed from model selection and model complexity tuning problems. In other words, since it originally has an infinite dimensional parameter, it becomes unnecessary to adjust the dimension.
  • Network/relationship data analysis Demands for general network/relationship data analysis are especially increasing recently. These are often discussed separately from the standard "one-dimensional array analysis", especially in the context of "multi-dimensional array analysis", since networks and relational data are generally represented as matrices (two-dimensional arrays). It comes from the fact that it is often expressed in the form.
  • the network can be expressed as a matrix of "row: node set, column: node set” with each node having a connection as each element.
  • relational data such as purchase data can be expressed as a matrix in the form of "row: user set, column: product set”.
  • Machine learning technology can be broadly divided into three categories: clustering (classification), factor analysis, and regression.
  • non-patent document 1 [Kemp+, 2006]
  • non-patent document 2 [Roy & Teh, 2009]
  • a non-parametric Bayes model configuration/non-parametric Bayes method Rectangular division clustering of network/relational data is realized.
  • Non-Patent Document 3 [Nakano + 2014] describes the configuration of a nonparametric Bayes model on an arbitrary rectangular partition. successful.
  • this nonparametric Bayesian model had a complicated model configuration, making it difficult to configure a Bayesian inference algorithm that fits it to the input observation data. had become unsuitable.
  • the present invention has been made in view of the above points, and it is possible to efficiently perform Bayesian inference without limiting solution candidates in a technique for clustering relational data using a nonparametric Bayesian method.
  • the purpose is to provide technology to
  • a data analysis device that performs rectangular division clustering on observed relational data by a nonparametric Bayesian method
  • a transformation unit that generates a permutation from a first parameter, which is a random variable obtained from a first probability distribution, and generates a rectangular partition based on the permutation, using a second parameter, which is a random variable obtained from a second probability distribution.
  • An updating unit that updates parameters including the first parameter and the second parameter based on the posterior probability under observation of the relational data.
  • a technique that enables efficient Bayesian inference without limiting solution candidates in a technique for clustering relational data using a nonparametric Bayesian method.
  • FIG. 1 is a configuration diagram of a matrix data analysis device according to an embodiment of the present invention
  • FIG. FIG. 4 is a diagram for explaining RP; It is a figure which shows the example of a floor plan.
  • FIG. 4 is a diagram for explaining conversion from U to BP;
  • FIG. 11 shows an algorithm for conversion from BP to FP;
  • FIG. 4 is a diagram for explaining conversion from BP to FP;
  • FIG. 10 is a diagram showing the evolution of FP;
  • FIG. 10 is a diagram showing the evolution of FP;
  • FIG. 4 is a diagram for explaining conversion from FP to RP; It is a figure which shows the mode of learning. It is a figure which shows the hardware configuration example of an apparatus.
  • Baxter permutations are used as permutations, but applicable permutations are not limited to Baxter permutations.
  • separable permutations may be used.
  • the uniform distribution, beta distribution, Dirichlet distribution, categorical distribution, etc. are used as probability distributions, but they are not limited to the distributions used in the explanation below. distribution may be used.
  • this non-parametric Bayes model also serves as a non-parametric Bayes model on any floor plan partition.
  • the new nonparametric Bayesian model on arbitrary rectangular partitions is efficient Bayesian inference because it can derive a Bayesian inference algorithm via an underlying Baxter permutation instead of Bayesian inference using the rectangular partition directly. Algorithms can be implemented. Problem 2 is thus solved.
  • FIG. 1 shows a configuration example of a matrix data analysis apparatus 100 according to this embodiment.
  • matrix data analysis apparatus 100 includes BP-FP conversion unit 110, FP-RP conversion unit 120, parameter update unit 130, iterative calculation end determination unit 140, posterior probability distribution calculation It has a part 150 .
  • the matrix data analysis device 100 may be called a data analysis device.
  • the “BP-FP conversion unit 110+FP-RP conversion unit 120” may be called a conversion unit.
  • the BP-FP converter 110 and the FP-RP converter 120 may also be called a first converter and a second converter, respectively.
  • the posterior probability distribution calculation unit 150 may include an output unit that outputs a rectangular partitioned cluster or the like as a calculation result.
  • BP Baxter Permutation
  • FP Floorplan partitioning
  • RP Rectangular partitioning
  • the BP-FP conversion unit 110 generates a Baxter permutation from the random variable sequence, and converts the generated Baxter permutation into a floor plan division.
  • the FP-RP conversion unit 120 converts from floor plan division to rectangular division.
  • the parameter updating unit 130 updates parameters (random variables).
  • the iterative computation end determination unit 140 determines the end of the iterative computation.
  • the posterior probability distribution calculator 150 calculates the posterior probability distribution of parameters (random variables).
  • RP can be viewed as a [0,1] ⁇ [0,1] partition such that all blocks form a [0,1] ⁇ [0,1] rectangular cluster.
  • FIG. 2 shows an example of RP in AHK (Aldous-Hoover-Kallenberg) representation.
  • AHK Aldous-Hoover-Kallenberg
  • the relational data generation probability model can be easily generated as follows.
  • the RP samples are extracted based on the BNP model. Then, random variables U i row and U j column are extracted from the uniform distribution as follows.
  • FIG. 3 shows an example of FP.
  • each rectangular block corresponding to a room has no size. That is, the three FPs shown in FIG. 3 are identical as FPs.
  • segment s is said to support room r if segment s contains one of the edges of room (block) r.
  • Two FPs are equivalent if the rooms and segments are labeled such that they have the same seg-room relationship between the two FPs.
  • a Baxter permutation on ⁇ 1,2 ,..., n ⁇ ( n ⁇ N ) is the four indices i
  • a permutation ⁇ ( ⁇ 1 ⁇ 2 . . . ⁇ n ) such that ⁇ j ⁇ j+1 ⁇ k does not exist.
  • Nonparametric Bayes model In the present embodiment, it is assumed that the observed relational data is generated from a generative probability model (nonparametric Bayesian model), and the posterior probability based on the nonparametric Bayesian model under the observation of the relational data is maximized Estimate parameters (rectangular split clusters) such that
  • the nonparametric Bayesian model in the present embodiment is a relational model used in relational data analysis, and is a BBP (board breaking process)-based relational model described later.
  • X is observation data input to the matrix data analysis apparatus 100 .
  • X consists of categorical elements in the nonparametric Bayesian model. That is, let X i,j ⁇ 1, 2, . . . , H ⁇ , H ⁇ N.
  • the kth block has a latent Dirichlet-distributed random variable ⁇ k as follows.
  • each row and column in the input matrix is mapped from the uniform distribution to [0,1] as follows.
  • the most standard method is used as the Bayesian inference for fitting the above model to the input data X.
  • the matrix data analysis device 100 shown in FIG. 1 is configured to execute MCMC. The operation of each unit in matrix data analysis apparatus 100 will be described in detail below.
  • the BP-FP conversion unit 110 converts (uniform distribution random variable sequence corresponding to) the Baxter permutation into a floor plan division. More specifically, the BP-FP transformation unit 110 receives a random variable sequence U, transforms it into one Baxter permutation, further uniquely transforms it into corresponding floor plan divisions, and outputs it.
  • Proposition 2 Consider creating a BP on ⁇ 1,...,n ⁇ by inserting a number n into the BP on ⁇ 1,...,n-1 ⁇ . At this time, the position where addition is permitted is limited to the immediate left side of the left-to-right maxima or the immediate right side of the right-to-left maxima in the Baxter permutation.
  • ⁇ 1 ⁇ 2 . . . ⁇ n is a permutation on ⁇ 1, . call.
  • ⁇ i is called right-to-left maximum if ⁇ i > ⁇ j for all j>i.
  • the Baxter permutation process will be explained. Note that the Baxter permutation process may be referred to as BPP.
  • a BPP is a discrete-time Markov process over BP that, at the nth instant, produces an object corresponding to the BP sample at Zn.
  • the evolution of the BPP depends on left-to-right maxima and right-to-left maxima and the choice of positions where additions are allowed.
  • left-to - left maxima in BP are denoted by x 1 , x 2 , .
  • the BPP is defined at times t 1 , t 2 , . .
  • a discrete-time Markov process ⁇ : ( ⁇ (t n ), n ⁇ N) over , where each ⁇ (t n ) is a BP sample on Z n .
  • BPP ⁇ (t n ) on t n has a set of latent parameters consisting of uniformly distributed random variables U 1 , U 2 , . . . U n on [0,1].
  • U 1 , U 2 , . . . , U n can be assumed to satisfy the following.
  • the room is bisected by a horizontal segment (FIG. 5, lines 5 and 6) and i The label of the th element is attached to the new upper right corner block (FIG. 5, line 7).
  • the left of the room has a larger label than the room's label, the room is expanded to the left (lines 9, 10).
  • the room is bisected by a vertical segment (Fig. 5, line 13) and the ith element of BP is attached to the new upper right corner block (line 14).
  • the resulting vertical block if the bottom of the room has a smaller label than the room's label, the room is extended downwards (lines 16, 17).
  • the upper right corner block is bisected by a horizontal segment.
  • FP samples corresponding to 25314 are obtained.
  • Figure 7 shows the evolution of FPs based on BPPs, showing that two FP samples are growing according to BPPs. Rather than directly converting n blocks of FP to n+1 blocks of FP, we evolve the BP and use the algorithm of FIG. 5 to obtain the FP samples.
  • FIG. 8 also shows an example of evolution of FP according to BPP.
  • the upper FP in FIG. 8 corresponds to 25314.
  • FIG. The four patterns below are all possible FPs corresponding to the BP of Z6 whose projection onto Z5 is 25314 . As mentioned above, there is no direct conversion from the FP corresponding to 25314 to the FP of 6 blocks. Applying the algorithm of FIG. 5 to 625314, 265314, 256314 and 253146 independently, we obtain the corresponding FPs.
  • the FP-RP conversion unit 120 inputs one floor plan division (FP) from the BP-FP conversion unit 110, inputs ⁇ which is a beta distribution random variable, and performs a block breaking process (BBP: Block Breaking Process). outputs a unique rectangular partition (RP). Specifically, it is as follows.
  • BP can be converted to FP by the algorithm in FIG.
  • the FP does not have a size, it is not possible to construct a BNP model based on the AHK theorem for analyzing relational data in this embodiment as it is.
  • the FP-RP conversion unit 120 introduces a size adjustment parameter ⁇ to generate an RP consisting of blocks having a size from an FP consisting of a room without a size generated by BPP. This realizes a generative model that assigns probabilistic sizes to floor plan divisions that do not have size information for each room without destroying the consistency of the divisions.
  • a beta distribution random variable sequence is introduced into the BPP, and the [0, 1] ⁇ [0, 1] board dividing process is realized.
  • BBP can also be interpreted as a multidimensional extension of SBP (stick-breaking process).
  • SBP scratch-breaking process
  • the BBP may be thought of as replacing the lines [0,1] and bars of the SBP with bounding rectangles [0,1] ⁇ [0,1] and rectangular blocks, respectively.
  • the direction in which the new partition should be added must be considered. That's right.
  • BBP is calculated at times t 1 , t 2 , .
  • a discrete-time Markov process b : (b(t n ), n ⁇ N) over . where each b(t n ) is n blocks of RP samples.
  • the BBP on t n , b(t n ), is distributed over the uniformly distributed random variables U 1 , . . , ⁇ n ⁇ 1 .
  • sample b(t n ) at next time t n is generated as follows.
  • C n min be the block of minimum width (or minimum height) l n in C n (dark gray indicated by A in FIG. 9).
  • the nth block of RP is generated by cutting the block at Cn such that the nth block has a width (or height) of (1 ⁇ n ⁇ 1 )l n .
  • new RPs are sequentially generated by dividing the blocks in the RP determined by the positional relationship between rooms in the FP using the parameter ⁇ obtained from the beta distribution as the ratio.
  • the current parameter set ⁇ is input to the parameter update unit 130, and the parameter update unit 130 obtains new candidates ⁇ from them and overwrites and updates them.
  • the parameter set ⁇ is the latent parameter used in the BP-FP conversion unit 110 and the FP-RP conversion unit 120 described above, and is specifically ⁇ U row , U column , U, ⁇ .
  • MCMC Markov chain Monte Carlo method
  • a random variable is sampled once from its prior probability distribution for each parameter, and whether to adopt or reject it as a new candidate is determined by the posterior probability of the random variable is determined by the probability of the density ratio of
  • the density ratio of the posterior probability of the random variable is the density ratio of the joint probability (p(X, ⁇ )) of the input X and the parameter ⁇ shown by the following “Formula 1” (and “Formula 2” to “Formula 4”) also match.
  • P model ( ⁇ k ) indicates the probability of the parameter ⁇ k in the model.
  • U row , U column , U, ⁇ ) denotes the generation probability of X under U row , U column , U, ⁇ .
  • X, ⁇ k ⁇ * ) means that all the elements of the observation data (observation matrix X) are contained in the 1st to k * -th labeled blocks, and the k * -th block is empty.
  • first term represents the probability that the k * -th block is not empty
  • second term represents the probability that the observation data does not enter the k * -th block or later.
  • parameter update method is not limited to the above method.
  • Various other existing techniques can be used to implement the parameter update.
  • the general-purpose Markov chain Monte Carlo method used in this embodiment is generally based on iterative calculation, and its termination determination is required.
  • the iterative calculation end determination unit 140 for example, repeats a pre-specified number of times (for example, 2000 iterations), and controls the parameter updating unit 130 to end the iterative process when the specified number of times is reached.
  • the posterior probability distribution calculator 150 uses the most standard method of calculating the posterior probability of parameters (random variables) by the Markov chain Monte Carlo method. That is, the posterior probability distribution calculator 150 obtains a histogram of each parameter during iterations from the middle to the end of the iterations (for example, 1001st to 2000th iterations), thereby approximating the true posterior probability distribution.
  • the output ⁇ U row , U column , U, ⁇ represents the clustering estimation result for the input data X. At the time of output, for example, it may be output (displayed) in the form of RP that has been divided into boards.
  • the left side of FIG. 10 shows an image of the analysis results of relational data having users and items output as rectangular partitioned clusters.
  • the right side of FIG. 10 shows how the index (perplexity) for measuring the degree of fitting of observation data in the board dividing process gradually improves (improves toward the bottom of the graph) as learning progresses.
  • Matrix data analysis apparatus 100 can be realized, for example, by causing a computer to execute a program.
  • This computer may be a physical computer or a virtual machine on the cloud.
  • the device can be realized by executing a program corresponding to the processing performed by the device using hardware resources such as a CPU and memory built into the computer.
  • the above program can be recorded in a computer-readable recording medium (portable memory, etc.), saved, or distributed. It is also possible to provide the above program through a network such as the Internet or e-mail.
  • FIG. 11 is a diagram showing a hardware configuration example of the computer.
  • the computer of FIG. 11 has a drive device 1000, an auxiliary storage device 1002, a memory device 1003, a CPU 1004, an interface device 1005, a display device 1006, an input device 1007, an output device 1008, etc., which are interconnected by a bus BS.
  • a program that implements the processing in the computer is provided by a recording medium 1001 such as a CD-ROM or memory card, for example.
  • a recording medium 1001 such as a CD-ROM or memory card
  • the program is installed from the recording medium 1001 to the auxiliary storage device 1002 via the drive device 1000 .
  • the program does not necessarily need to be installed from the recording medium 1001, and may be downloaded from another computer via the network.
  • the auxiliary storage device 1002 stores installed programs, as well as necessary files and data.
  • the memory device 1003 reads and stores the program from the auxiliary storage device 1002 when a program activation instruction is received.
  • the CPU 1004 implements functions related to the device according to programs stored in the memory device 1003 .
  • the interface device 1005 is used as an interface for connecting to a network and functions as a transmitter and a receiver.
  • a display device 1006 displays a GUI (Graphical User Interface) or the like by a program.
  • An input device 1007 is composed of a keyboard, a mouse, buttons, a touch panel, or the like, and is used to input various operational instructions.
  • the output device 1008 outputs the calculation result.
  • ⁇ Candidate solutions can be inferred from arbitrary rectangular divisions.
  • This specification discloses at least a data analysis device, a data analysis method, and a program for each of the following items.
  • a data analysis device that performs rectangular partition clustering on observed relational data by a nonparametric Bayesian method, A transformation unit that generates a permutation from a first parameter, which is a random variable obtained from a first probability distribution, and generates a rectangular partition based on the permutation, using a second parameter, which is a random variable obtained from a second probability distribution.
  • a data analysis device comprising: an updating unit that updates parameters including the first parameter and the second parameter based on the posterior probability under observation of the relational data.
  • (Section 2) 2.
  • the data analysis device is a Baxter permutation.
  • the conversion unit a first transformation unit that generates the permutation from the first parameter and generates a floor plan division from the permutation; a second conversion unit that generates the rectangular partition from the floor plan partition; 3.
  • the data analysis device according to item 1 or item 2.
  • (Section 4) 4.
  • the data analysis device according to claim 3, wherein the first conversion unit generates the sketch division by repeating a process of adding an upper right block based on the magnitude relationship of the elements before and after the permutation.
  • the second conversion unit repeats a process of dividing a predetermined block in the rectangular division obtained from the positional relationship between the rooms in the floor plan division using a ratio based on the second parameter, thereby dividing the desired rectangular division 5.
  • the data analysis device according to claim 3 or 4.
  • (Section 6) 5.
  • (Section 7) A data analysis method executed by a data analysis device that performs rectangular partition clustering on observed relational data by a nonparametric Bayesian method, A transformation step of generating a permutation from a first parameter, which is a random variable obtained from a first probability distribution, and generating a rectangular partition based on the permutation using a second parameter, which is a random variable obtained from a second probability distribution.
  • (Section 8) A program for causing a computer to function as each unit in the data analysis apparatus according to any one of items 1 to 6.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Computational Linguistics (AREA)
  • Complex Calculations (AREA)

Abstract

ノンパラメトリックベイズ法により、観測された関係データに対する長方形分割クラスタリングを行うデータ解析装置であって、第1確率分布から得られる確率変数である第1パラメータから順列を生成し、当該順列に基づいて、第2確率分布から得られる確率変数である第2パラメータを用いて長方形分割を生成する変換部と、前記関係データが観測された下での事後確率に基づいて、前記第1パラメータと前記第2パラメータを含むパラメータを更新する更新部とを備える。

Description

データ解析装置、データ解析方法、及びプログラム
 本発明は、ノンパラメトリックベイズ法により、関係データのクラスタリングを行う技術に関連するものである。
 以下、背景技術として、(a)ベイズ推論、(b)ノンパラメトリックベイズ法、(c)ネットワーク・関係データ解析、(e)順列について説明する。
 (a)ベイズ推定
 ベイズ推定は、パラメータを持つ確率モデル(ベイズモデルとも呼ぶ)を人手で設計して、それを入力観測データにフィッティングさせ(学習させ)ることで、入力観測データを条件付けた時のパラメータの事後確率分布を得ることによってデータ解析を行う技術である。ベイズ推定は、数十年単位の歴史のある概念であり、「統計的機械学習」と近い程度に非常に広い考え方である。
 (b)ノンパラメトリックベイズ法
 ノンパラメトリックベイズ法は、(a)で説明したベイズ推論の部分概念であり、(a)に加えて、確率モデルが無限次元のパラメータ空間を持つときに、それらをノンパラメトリックベイズモデルと呼び、ノンパラメトリックベイズモデルを用いてベイズ推論を行う技術のことをノンパラメトリックベイズ法と呼ぶ。2000年初頭に興った研究領域であり、「ノンパラメトリックベイズモデル」は通常のベイズモデルよりも遥かに希少である。実用・応用におけるノンパラメトリックベイズ法の恩恵は、本質的にモデル選択・モデル複雑度のチューニング問題から解放されることにある。つまり、もともと無限次元のパラメータを持つため、その次元の調整が不要となる。
 (c)ネットワーク・関係データ解析
 広く一般のネットワーク・関係データ解析は最近特に需要が高まっている。これらは特に「多次元配列の解析」という文脈で、標準的な「一次元配列の解析」とは区別されて論じられることが多く、これはネットワークや関係データが一般に行列(二次元配列)の形で表現されることが多いことに由来する。ネットワークはノードごとの繋がりを各要素として「行:ノード集合、列:ノード集合」の行列と表せる。また、関係データも例えば購買データなどは「行:ユーザ集合、列:商品集合」のようにして行列として表せる。機械学習技術は広く「クラスタリング(分類)」「因子分析」「回帰」の3つに分けることが出来るが、ネットワーク・関係データ解析においてもこれら3つの技術が広く研究されている。
 (d)ネットワーク・関係データの長方形分割クラスタリング
 ネットワーク・関係データ解析を広く「クラスタリング(分類)」「因子分析」「回帰」に細分化したとき、その「クラスタリング(分類)」の中で、特に「全てのクラスタが長方形になるようにクラスタリング」する技術のことを長方形分割クラスタリングと呼ぶ。これは(c)の小さな部分概念ではあるものの、研究領域の意味では(その基礎性、他への拡張性の高さもあって)非常に人気がある。
(e)順列
 順列は、自然数の集合の並べ替えである。例えば{1,2,3,4}のすべての順列は、1234,1243,1324,1342,1423,1432,2134,2143,2314,2341,2413,2431,3124,3142,3214,3241,3412,3421,4123,4132,4213,4231,4312,4321の24通りである。また、順列の中から特別な条件を満たすものだけに注目して、それらに特別な名前を付けられることもある。例えば、先述の{1,2,3,4}の順列の中から、3142,2413の二つを除いた22通りのものは「長さ4のBaxter順列」と呼ばれる。ほかにも、separable順列、k-clumped順列、などその重要性から個別に研究対象となっている順列クラスが存在する。
[Kemp+, 2006] Kemp, C., Tenenbaum, J.B., Griffiths, T.L., Yamada, T., Ueda, N.: Learning systems of concepts with an infinite relational model. In: AAAI Conference on Artificial Intelligence. pp. 381-388 (2006) [Roy&Teh, 2009] Roy, D.M., Teh, Y.W.: The Mondrian process. In: Advances in Neural Information Processing Systems (2009) [Nakano+, 2014] Nakano, M., Ishiguro, K., Kimura, A., Yamada, T., Ueda, N.: Rectangular tiling process. In: Proceedings of the 31st International Conference on Machine Learning.Proceedings of Machine Learning Research, vol. 32, pp. 361-369 (2014)
 ネットワーク・関係データの長方形分割クラスタリングに対するノンパラメトリックベイズ法、つまり、(b)と(d)の同時実現についての従来技術がある。しかし、従来技術には、以下のような課題1、2がある。
 (課題1)
 課題1は、解(長方形分割クラスタリング結果)候補が制限されてしまうということである。従来技術では、任意の長方形分割上のノンパラメトリックベイズモデルを諦めて、表現しうる長方形分割のクラスを制限することでノンパラメトリックベイズモデルを構成し、それを用いてベイズ推論を行うことでノンパラメトリックベイズ法を実現しなければならなかった。
 例えば、非特許文献1[Kemp+,2006]ではregular gridと呼ばれるクラスに対して、非特許文献2[Roy&Teh, 2009]ではhierarchicalと呼ばれるクラスに対してノンパラメトリックベイズモデルの構成・ノンパラメトリックベイズ法によるネットワーク・関係データの長方形分割クラスタリングを実現している。
 しかし、これらの手法は、表現しうる長方形分割のクラスを制限してしまったことにより、本来解析結果として望ましい長方形分割クラスタリング結果が制限された長方形分割クラスに属さないときには、そのような結果を得ることが出来なくなってしまっていた。
 (課題2)
 課題2は、モデルに対する有効な推論アルゴリズム(モデルフィッティングアルゴリズム)の構成が困難になってしまうということである。
 上記課題1の解消のため(つまり長方形分割クラスが制限される事のないノンパラメトリックベイズモデルの実現のため)、非特許文献3[Nakano+2014]では任意の長方形分割上のノンパラメトリックベイズモデルの構成に成功している。
 しかし、このノンパラメトリックベイズモデルは複雑なモデル構成をしていたためにそれを入力観測データに対してフィッティングするベイズ推論アルゴリズムの構成が難しいものとなり、結果として実応用(ネットワーク・関係データ解析)用途には不向きなものとなってしまっていた。
 本発明は上記の点に鑑みてなされたものであり、ノンパラメトリックベイズ法により、関係データのクラスタリングを行う技術において、解の候補を制限せずに、効率的にベイズ推論を行うことを可能とする技術を提供することを目的とする。
 開示の技術によれば、ノンパラメトリックベイズ法により、観測された関係データに対する長方形分割クラスタリングを行うデータ解析装置であって、
 第1確率分布から得られる確率変数である第1パラメータから順列を生成し、当該順列に基づいて、第2確率分布から得られる確率変数である第2パラメータを用いて長方形分割を生成する変換部と、
 前記関係データが観測された下での事後確率に基づいて、前記第1パラメータと前記第2パラメータを含むパラメータを更新する更新部と
 を備えるデータ解析装置が提供される。
 開示の技術によれば、ノンパラメトリックベイズ法により、関係データのクラスタリングを行う技術において、解の候補を制限せずに、効率的にベイズ推論を行うことを可能とする技術が提供される。
本発明の実施の形態における行列データ解析装置の構成図である。 RPを説明するための図である。 見取り図の例を示す図である。 UからBPへの変換を説明するための図である。 BPからFPへの変換のアルゴリズムを示す図である。 BPからFPへの変換を説明するための図である。 FPの進化を示す図である。 FPの進化を示す図である。 FPからRPへの変換を説明するための図である。 学習の様子を示す図である。 装置のハードウェア構成例を示す図である。
 以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
 例えば、本実施の形態では、順列としてBaxter順列を用いているが、適用可能な順列はBaxter順列に限られない。例えば、separable順列を使用してもよい。また、以下の説明では、確率分布として、一様分布、ベータ分布、ディリクレ分布、カテゴリカル分布などを使用しているが、以下の説明で使用する分布に限定されるわけではなく、それぞれ、他の分布を使用してもよい。
 (実施の形態の概要)
 長方形分割と見取り図分割との間には全射の関係があり、見取り図分割とBaxter順列との間には全単射の関係があることが知られている。本実施の形態では、これらの関係を利用して、任意の長方形分割上のノンパラメトリックベイズモデルを、Baxter順列を用いて表すこととしている。具体的には、下記のとおりである。
 ・任意の長さの任意のBaxter順列上のノンパラメトリックベイズモデルの構成を実現している。見取り図分割とBaxter順列との間の全単射(一対一対応)を利用することにより、このノンパラメトリックベイズモデルは、任意の見取り図分割上のノンパラメトリックベイズモデルとしての役割も果たす。
 ・見取り図分割を長方形分割に変換(つまり、長方形分割と見取り図分割の間の全射の逆向きの操作)する確率的アルゴリズムを実現し、その結果、任意の長方形分割上のノンパラメトリックベイズモデルを実現している。これにより課題1が解消される。
 ・新しい任意の長方形分割上のノンパラメトリックベイズモデルは、長方形分割を直接用いたベイズ推論ではなく、背後にあるBaxter順列を介したベイズ推論アルゴリズムを導出することができるために、効率的なベイズ推論アルゴリズムを実現することができる。これにより課題2が解消される。
 (装置構成)
 本実施の形態における行列データ解析装置100の構成例を図1に示す。図1に示すように、本実施の形態に係る行列データ解析装置100は、BP-FP変換部110、FP-RP変換部120、パラメータ更新部130、反復計算終了判定部140、事後確率分布計算部150を有する。なお、行列データ解析装置100をデータ解析装置と呼んでもよい。また、「BP-FP変換部110+FP-RP変換部120」を変換部と呼んでもよい。BP-FP変換部110、FP-RP変換部120をそれぞれ第1変換部、第2変換部と呼んでもよい。また、事後確率分布計算部150に、計算結果となる長方形分割クラスタ等を出力する出力部が含まれていてもよい。
 BPは、Baxter Permutation(Baxter順列)の略であり、FPは、Floorplan partitioning(見取り図分割)、RPは、Rectangular partitioning(長方形分割)の略である。
 BP-FP変換部110は、確率変数列からBaxter順列を生成し、生成したBaxter順列から見取り図分割への変換を行う。FP-RP変換部120は、見取り図分割から長方形分割への変換を行う。パラメータ更新部130は、パラメータ(確率変数)の更新を行う。反復計算終了判定部140は、反復計算の終了判定を行う。事後確率分布計算部150は、パラメータ(確率変数)の事後確率分布を計算する。
 各部の詳細処理内容については後述するが、その前に、本実施の形態において用いている長方形分割、見取り図分割、Baxter順列の概要を説明する。以降、Baxter順列、長方形分割、見取り図分割、ベイジアンノンパラメトリックについて、それぞれBP、RP、FP、BNPと表記する場合がある。また、添字付きの確率変数の表記において、下付きの下付きの文字を表現する場合、"_"を使用する。例えば、Ux_2は、Uの下付きの添字がxであることを意図している。
 (RP、FP、BPの概要)
 本実施において、RPは、全てのブロックが、[0,1]×[0,1]の長方形クラスタを形成するような[0,1]×[0,1]の分割と見なすことができる。図2に、AHK(Aldous-Hoover-Kallenberg)表現によるRPの例を示す。図2において、関係データの観測結果が、{1,…,N}によりインデックス付けされる行と{1,…,M}によりインデックス付けされる列からなると考える。
 RPに対するBNPモデルに関して、関係データの生成確率モデルは、下記のようにして容易に生成することができる。
 まず、BNPモデルに基づいてRPサンプルを抽出する。そして、下記のように一様分布から確率変数U row、U columnを抽出する。
 U row~Uniform([0,1]) (i=1,2,…N),
 U column~Uniform([0,1]) (j=1,2,…M)
 行のインデックスi及び列のインデックスjを持つ点(U row,U column)が属する[0,1]×[0,1]上のブロックにより、各要素のクラスタ割り当てが特定される。
 次に、FPの概要を説明する。図3にFPの例を示す。FPでは、部屋に相当する各長方形ブロックはサイズを持たない。つまり、図3に示す3つのFPは、FPとしては同一である。
 FPのサンプルfにおいて、セグメントsが部屋(ブロック)rの辺のうちの1つを含む場合、セグメントsは部屋rをサポートするという。sとrとの間には、top-seg-room関係、left-seg-room関係、right-seg-room関係、又はbottom-seg-room関係がある。2つにFP間において、同じseg-room関係を持つように部屋とセグメントのラベルが付されている場合、これら2つのFPは等価である。
 次に、Baxter順列(BP)について説明する。{1,2,…,n}(n∈N)上のBaxter順列は、σ<σ<σ<σj+1又はσj+1<σ<σ<σを満たす4個のインデックスi<j<j+1<kが存在しないような順列π=(σσ…σ)である。
 例えば、π=(σσ…σ)=61832547はBaxter順列ではない。σ=3<σ=6<σ=7<σ=8となる4個のインデックス1<3<4<8を含むからである。
 (ノンパラメトリックベイズモデル)
 本実施の形態では、観測される関係データが生成確率モデル(ノンパラメトリックベイズモデル)から生成されると仮定し、当該関係データが観測された下での当該ノンパラメトリックベイズモデルに基づく事後確率を最大にするようなパラメータ(長方形分割クラスタ)を推定する。
 ノンパラメトリックベイズ推論に用いるノンパラメトリックベイズモデルを以下で説明する。
 本実施の形態におけるノンパラメトリックベイズモデルは、関係データ解析において使用する関係モデルであり、後述するBBP(板割り過程)ベースの関係モデルである。
 BBPベースの関係モデルは、入力行列X:=(Xi,jN×Mに対して適用される。Xは行列データ解析装置100に入力される観測データである。ノンパラメトリックベイズモデルにおいてXはカテゴリカル要素からなるものと想定する。つまり、Xi,j∈{1,2,…,H},H∈Nであるとする。
 BBPは、下記のとおり、[0,1]上の一様分布確率変数列U:=(U,U…)、及びベータ分布確率変数列β:=(β,β,…)からなる。
 U~Uniform([0,1])、β~Beta(1,α)(k=1,2,…)
ここで、αは、非負ハイパーパラメータである。便宜上、U=(U,U…,U)、β=(β,β,…,β)という表記も使用する。
 これらの確率変数は、[0,1]×[0,1]における長方形分割のサンプルに対応する。k番目のブロックは、下記のように、潜在ディリクレ分布確率変数φを有する。
 φ~Dirichlet(α) (k=1,2,…)
ここで、α=(α,…,α)は、H次元非負ハイパーパラメータである。AHK表現に従って、入力行列における各行と列は、下記のとおり、一様分布から[0,1]にマッピングされる。
 U row~Uniform([0,1]) (i=1,2,…,N),
 U column~Uniform([0,1]) (j=1,2,…,M)
 最後に、行の位置Urow:=(U row,…,U row)、列の位置Ucolumn:=(U column,…,U column)、及び、U=(U,U…)、β=(β,β,…)、(φ,φ,…)からなるBBPパラメータが与えられると、入力行列における各要素Xi,jがH次元カテゴリカル分布から抽出される。
 Xi,j|Urow,Ucolumn,U,β,φk(i,j)~Categorical(φk(i,j)
 ここで、k(i,j)は、点(U row,U column)が属するブロックインデックスを示す。
 本実施の形態では、上記のモデルを入力データXにフィッティングさせるベイズ推論として、最も標準的な方法であるマルコフ連鎖モンテカルロ法(MCMC)を使用している。図1に示した行列データ解析装置100は、MCMCを実行するように構成されている。以下、行列データ解析装置100における各部の動作を詳細に説明する。
 (BP-FP変換部110)
 まず、BP-FP変換部110の動作を説明する。BP-FP変換部110は、Baxter順列(に対応する一様分布確率変数列)から見取り図分割への変換を行う。より具体的には、BP-FP変換部110は、確率変数列Uを入力して、それをある一つのBaxter順列へ変換し、それをさらに対応する見取り図分割に一意に変換し、出力する。
 以下、上記の処理の前半(確率変数列UからBaxter順列への変換)と後半(Baxter順列から見取り図分割への変換)のそれぞれについて説明する。
  <前半(確率変数列UからBaxter順列への変換)>
 まず、確率変数列UからBaxter順列(BP)への変換について説明する。BPには、次の命題1、2が成り立つことが知られている。
 命題1:π=(σσ…σ)が{1,…,n}上のBPであり、当該BPから最大のラベルσ=nを除いた場合、その結果はBPである。
 命題2:{1,…,n-1}上のBPに対して、数字nを挿入して{1,…n}上のBPを作ることを考える。このとき、追加が許される位置はBaxter順列におけるleft-to-right maximaのすぐ左隣、またはright-to-left maximaのすぐ右隣に限られる。
 ここで、σσ…σを{1,…,n}上の順列とした場合、全てのj<iについてσ>σが成り立つ場合、σをleft-to-right maximumと呼ぶ。同様に、全てのj>iについてσ>σが成り立つ場合、σをright-to-left maximumと呼ぶ。
 次に、Baxter順列過程(Baxter permutation process)について説明する。なお、Baxter順列過程をBPPと記載する場合がある。
 Zを{1,…,n}上の全てのBPの集合とする。BPPは、BP上の離散時間マルコフ過程であり、n番目の時刻において、ZにおけるBPサンプルに対応するオブジェクトを生成する。
 BPPの一例を説明する。BPサンプルを312564∈Zとし、追加が許されている位置に7を挿入することにより得られるBPを考える。上述した命題2により、追加が許されている位置は、「〇312〇5〇6〇4〇」における〇で示される。すなわち、left-to-right maximaである3、5、6のすぐ左隣、及び、right-to-left maximaである4、6のすぐ右隣になる。
 この例に示すように、BPPの進化は、left-to-right maxima及びright-to-left maxima、及び、追加が許される位置の選択に依存する。表記の便宜上、BPにおけるleft-to-left maximaをx,x,…,xと表し、right-to-right maximaをy,y,…,yと表す。
 BPPの進化を説明するために、補助変数として、一様分布確率変数である、[0,1]上のU,U,…,を導入する。n番目に時刻におけるBPPサンプルは、U,U,…,Uから得られる。以下でより詳細に説明する。
 上述したとおり、BPPは、時間t,t,..にわたる離散時間マルコフ過程π:=(π(t),n∈N)であり、各π(t)は、Z上のBPサンプルである。t上のBPPπ(t)は、[0,1]上の一様分布確率変数U,U,…,Uからなる潜在パラメータの集合を有する。
 U,U,…,Uから生成されたサンプルπ(t)=(σσ…σ)が与えられた場合、サンプルπ(tn+1)は下記のようにして抽出される。
 一般性を失うことなく、π(t)は、left-to-right maximaとしてx<…<x=nを有し、right-to-left maximaとしてn=y>…>yを有すると想定することができる。更に、U,U,…,Uは、下記を満たすと想定することができる。
 Ux_1<Ux_2<…<Ux_i=U=Uy_j<Uy_j-1<…<Uy_1
便宜上、Ux_0=0としUy_0=0とする。上記の不等式は、実線[0,1]が、区間[Ux_0,Ux_1],[Ux_1,Ux_2],...[Ux_i-1,Ux_i],[Uy_j,Uy_j-1],...[Uy_1,Uy_0]に分割されることを示している。
 例えば、[0,1]上の一様分布から独立に抽出されたUn+1が[Ux_k-1,Ux_k](k=1,…,i)の区間に位置する場合、(n+1)が、xのすぐ左隣に挿入される。もしも、Un+1が[Uy_l,Uy_l-1](l=1,…,j)の区間に位置する場合、(n+1)が、yのすぐ右隣に挿入される。
 上述した不等式、U,…,Un+1に対しても成立するので、当該不等式は、全てのn∈Nについて成立する。
 一例として、図4に示すように、BPであるπ(t)=312564∈Zを考える。図4の上段に示すように、U,…,Uが抽出されたとする。このBPは、図4の中段に示すように、left-to-right maximaとしてx=3<x=5<x=6を有し、right-to-left maximaとして6=y>4=yを有する。もしも、区間[U,U]からUが抽出された場合、312564における5のすぐ右隣に7が挿入される。結果として、3127564に対応するBPであるπ(t)∈Zが得られる。なお、このBPは、U,…,Uの順序と等価ではない。
  <後半(Baxter順列から見取り図分割への変換)>
 次に、BP-FP変換部110が実行するBPからFPへの変換処理について説明する。{1,…,n}上のBPが与えられると、図5に示すアルゴリズムにより、n部屋を持つFPサンプルを構築できる。なお「アルゴリズム」は、行列データ解析装置100が実行するプログラムに相当する。このアルゴリズムにおいて、繰り返し、FPの上右隅に1つずつ部屋が挿入される。i番目の部屋は、i-1番目の部屋を2分割することにより生成され、BPのi番目の要素に従ってラベル付けされる。より具体的には、下記のとおりである。
 もしも、(i-1)番目の要素が、現在の要素(i番目の要素)よりも大きい場合、その部屋は横のセグメントにより2分割され(図5、5行、6行)、BPのi番目の要素のラベルが新たな上右隅ブロックに付けられる(図5、7行)。その結果生じる横方向のブロックについて、もしもその部屋の左が、その部屋のラベルよりも大きなラベルを持つ場合、その部屋は、左へ拡張される(9、10行)。
 もしも、(i-1)番目の要素が、現在の要素(i番目の要素)よりも小さい場合、その部屋は縦のセグメントにより2分割され(図5、13行)、BPのi番目の要素のラベルが新たな上右隅ブロックに付けられる(14行)。その結果生じる縦方向のブロックについて、もしもその部屋の下が、その部屋のラベルよりも小さなラベルを持つ場合、その部屋は、下へ拡張される(16行、17行)。
 図6に例を示す。図6の例では、BPサンプルであるπ=(σσ…σ)=25314が、FPに変換される。まず、σ=2としてラベル付けされたブロックを抽出し、5×5のグリッド(第1グリッド)を生成する。続いて、σ=5>σ=2なので、右上隅ブロックを、図6の第2グリッドにおいて、縦のセグメントで2分割する。次に、σ=3<σ=5なので、第3グリッドにおいて、右上隅ブロックを、横のセグメントで2分割する。
 次に、第4グリッドにおいて、右上隅ブロックを、横のセグメントで2分割する。ここでσ=1の左のブロックσ=2は、ブロックσよりも大きなラベルを有するので、σ=2の一部をつぶしてブロックσ=1を左方向に拡張する。このような処理を25314に対して行うことにより、25314に対応するFPサンプルが得られる。
 図7は、BPPに基づくFPの進化を示しており、2つのFPサンプルがBPPに従って成長していることを示している。nブロックのFPをn+1ブロックのFPへ直接的に変換するのではなく、BPを進化させ、図5のアルゴリズムを用いることで、FPサンプルを得る。
 一例として、312564から3127564へのBPの進化を考えると、図5のアルゴリズムを312564と3127564の両方に適用し、それぞれ312564と3127564に対応するFPを得ることになる。
 図8も、BPPに従ったFPの進化の例を示している。図8における上段のFPは25314に対応する。その下の4つのパターンはすべて、Zへの射影が25314であるZのBPに対応する、あり得るFPである。上述したように、25314に対応するFPから6ブロックのFPへの直接変換は行わない。図5のアルゴリズムを625314、265314、256314、253146にそれぞれ独立に適用して、対応するFPを得る。
 (FP-RP変換部120)
 次に、FP-RP変換部120の処理内容について説明する。FP-RP変換部120は、BP-FP変換部110から、ある一つの見取り図分割(FP)を入力し、ベータ分布確率変数であるβを入力して、板割り過程(BBP: Block Breaking Process)を適用することで、一意に一つの長方形分割(RP)を出力する。具体的には下記のとおりである。
 前述したとおり、図5のアルゴリズムにより、BPをFPに変換できる。しかし、FPはサイズを持たないため、そのままでは本実施の形態における関係データの解析のためのAHK定理に基づくBNPモデルを構築することができない。
 そこで、FP-RP変換部120は、サイズ調整パラメータβを導入して、BPPによって生成される、サイズの無い部屋からなるFPから、サイズを有するブロックからなるRPを生成することとしている。これにより、各部屋のサイズ情報を持たない見取り図分割に対し、分割としての整合性を壊さずに確率的なサイズを割り当てる生成モデルを実現している。
 すなわち、本実施の形態では、BPPから抽出されたFPの部屋のサイズを制御するために、BPPにベータ分布確率変数列を導入し、[0,1]×[0,1]の板割り過程を実現している。
 BBPは、SBP(棒割り過程(Stick-breaking process))の多次元への拡張と解釈することも可能である。SBPでは、ベータ分布確率変数βを抽出し、残りの棒をβ:(1-β)の比で切断する処理を再帰的に繰り返すことにより、線[0,1]の無限数の棒を生成する。BBPはSBPの線[0,1]と棒を、それぞれバウンディング長方形[0,1]×[0,1]と長方形ブロックに置き換えたものと考えてもよい。ただし、SBPとは異なり、BBPの構築においては、新しい分割を追加すべき方向を考慮しなければならない板割り過程(BBP)の詳細、つまり、FP-RP変換部120の動作の詳細は下記のとおりである。
 BBPは、時間t,t,....にわたる離散時間マルコフ過程b:=(b(t),n∈N)である。ここで、各b(t)はnブロックのRPサンプルである。t上のBBPであるb(t)は、[0,1]上の一様分布確率変数U,...,U、及びベータ分布確率変数β,.....,βn-1からなる潜在パラメータの集合を有する。
 図9には、n=1~5におけるBBPの例が示されている。図9に示すように、順次、現在のRPに、新たな右下ブロックが追加される。CやC min、βの使用方法については、以下で説明される。なお、図9には、表示の便宜上、C、C min、C、C minは図示されていない。
 U,...Un-1とβ,..,βn-2から得られるRPサンプルb(tn-1)、及び、BPPに従ってU,...Un-1から得られる、(n-1)個の部屋を有するFPサンプルf(tn-1)を考える。
 b(tn-1)とf(tn-1)が与えられたとき、次時刻tにおけるサンプルb(t)は次のようにして生成される。
 ベータ分布からβn-1を抽出する。もしも、Uに基づき得られるf(t)の(n-1)番目の部屋の右下隅が、f(t)のn番目の部屋の右下隅の左側(または上側)にあるならば、対応するf(t)の部屋がf(t)のn番目の部屋の左側(または上側)に隣接するような、b(t)のすべてのブロック(図9の明るい灰色(Bで示す)と暗い灰色(Aで示す))のセットをCとする。図9において、n=3の次段階及びn=4の次段階に示されるように、Cは、ブロック切断前のb(tn-1)における、上記条件を満たすブロックである。
 C minを、Cにおける最小幅(または最小高)lのブロック(図9においてAで示す濃い灰色)とする。RPのn番目のブロックは、当該n番目のブロックが幅(または高さ)として(1-βn-1)lを持つように、Cにおけるブロックを切断することによって生成される。
 上記のように、FP内の部屋間の位置関係により定まるRPにおけるブロックを、ベータ分布から得られたパラメータβを比率として使用して分割していくことで、順次、新たなRPを生成する。
 (パラメータ更新部130)
 次に、パラメータ更新部130の処理動作を説明する。パラメータ更新部130には、現在のパラメータの集合θが入力され、パラメータ更新部130は、それらから新しい候補θを求め、上書きして更新する。パラメータの集合θは、前述したBP-FP変換部110、FP-RP変換部120において使用される潜在パラメータであり、具体的には、{Urow,Ucolumn,U,β}である。
 上記の更新には、例えば、マルコフ連鎖モンテカルロ法(MCMC)と呼ばれるベイズ推論における標準的な手法を用いることができる。MCMCは、対象とする確率分布に対して、「確率の大きな方へ移動し、確率が大きくなったらその近傍をうろうろする」手法であり、ベイズ推定では、事後確率を対象とする。
 サンプリングのアルゴリズムとして多く用いられるメトロポリス=ヘイスティング法を使用する場合、パラメータ毎にその事前確率分布から一度確率変数をサンプリングし、それを新しい候補として採択するか棄却するかを確率変数の事後確率の密度比の確率によって決定する。確率変数の事後確率の密度比は、以下の「数1」(及び「数2」~「数4」)により示される入力Xとパラメータθの同時確率(p(X,θ))の密度比とも一致する。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
 ただし、Nk,hは、k番目の長方形ブロックに属するhラベルの行列要素の個数を示しており、θ={Urow,Ucolumn,U,β}である。また、Pmodel(θ)は、モデルにおけるパラメータθの確率を示す。Pobs.(X|Urow,Ucolumn,U,β)は、Urow,Ucolumn,U,βのもとでのXの生成確率を示す。また、「数2」のpcomp.(k|X,θk^*)は、観測データ(観測行列X)の全要素が、1からk番目のラベルのついたブロックの中に収まって、なおかつk番目のブロックは空でなく、更にk+1以降の全てのブロックは空になるような確率を示す。具体的には、「数2」の右辺の3つの項の掛け算「第1項×第2項×第3項」において、第1項がk番目のブロックが空でない確率を表し、第2項×第3項がk番目以降のブロックに観測データが入らない確率を表している。
 なお、パラメータ更新の手法は、上記の手法に限られない。他の種々の既存技術を用いてパラメータ更新を実現することが可能である。
 (反復計算終了判定部140)
 本実施の形態で使用する汎用のマルコフ連鎖モンテカルロ法は一般に反復計算に基づいており、その終了判定が必要となる。反復計算終了判定部140は、例えば、予め事前に指定した回数(例えば2000反復など)だけ反復し、その指定回数に達したら繰り返し処理を終了するようパラメータ更新部130を制御する。
 (事後確率分布計算部150)
 本実施の形態では、事後確率分布計算部150は、マルコフ連鎖モンテカルロ法によるパラメータ(確率変数)の事後確率の最も標準的な計算方法を使用している。すなわち、事後確率分布計算部150は、反復の途中から終了まで(例えば1001回目~2000回目)までの反復中における各パラメータのヒストグラムをとることによって、それを真の事後確率分布の近似とする。
 (出力について)
 事後確率分布計算部150における出力部は、例えば、入力データXが観測された下での事後確率を最大とするパラメータθ={Urow,Ucolumn,U,β}を出力する。出力された{Urow,Ucolumn,U,β}は、入力されたデータXに対するクラスタリングの推定結果を表す。出力時には、例えば、板割りがなされたRPの形で出力(表示)してもよい。
 図10の左側は、ユーザとアイテムを有する関係データの解析結果を、長方形分割クラスタとして出力したイメージを示している。図10の右側は、板割り過程の観測データのフィッティング度合を測る指標(パープレキシティ)が学習の進行に応じて徐々に改善(グラフ下側に向かうほど改善)する様子を示している。
 (装置のハードウェア構成例)
 本実施の形態に係る行列データ解析装置100は、例えば、コンピュータにプログラムを実行させることにより実現できる。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。
 すなわち、当該装置は、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、当該装置で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
 図11は、上記コンピュータのハードウェア構成例を示す図である。図11のコンピュータは、それぞれバスBSで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、入力装置1007、出力装置1008等を有する。
 当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
 メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、当該装置に係る機能を実現する。インタフェース装置1005は、ネットワークに接続するためのインタフェースとして用いられ、送信部及び受信部として機能する。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置1008は演算結果を出力する。
 (実施の形態の効果)
 以上説明した本実施の形態に係る技術により、ノンパラメトリックベイズ法を用いて関係データのクラスタリングを行う技術において、解の候補を制限せずに、効率的にベイズ推論を行うことを可能とする技術が提供される。具体的には下記のとおりである。
 ・モデル選択及びモデル複雑度のチューニングを必要としないアルゴリズムを実現することができる。すなわち、長方形分割クラスタリングにおけるクラスタ(長方形ブロック)の個数や、各クラスタのサイズに対する事前知識・チューニングを必要とせず、それらをデータから自立的に学習させることのできるアルゴリズムが構成できる。
 ・解候補を任意の長方形分割から推論することができる。
 ・上記二つの効果を持ちつつ、さらに実用に足るベイズ推論を導くことができる。
 (実施の形態のまとめ)
 本明細書には、少なくとも下記各項のデータ解析装置、データ解析方法、及びプログラムが開示されている。
(第1項)
 ノンパラメトリックベイズ法により、観測された関係データに対する長方形分割クラスタリングを行うデータ解析装置であって、
 第1確率分布から得られる確率変数である第1パラメータから順列を生成し、当該順列に基づいて、第2確率分布から得られる確率変数である第2パラメータを用いて長方形分割を生成する変換部と、
 前記関係データが観測された下での事後確率に基づいて、前記第1パラメータと前記第2パラメータを含むパラメータを更新する更新部と
 を備えるデータ解析装置。
(第2項)
 前記順列は、Baxter順列である
 第1項に記載のデータ解析装置。
(第3項)
 前記変換部は、
 前記第1パラメータから前記順列を生成し、前記順列から見取り図分割を生成する第1変換部と、
 前記見取り図分割から前記長方形分割を生成する第2変換部と、
 備える第1項又は第2項に記載のデータ解析装置。
(第4項)
 前記第1変換部は、前記順列における前後の要素の大小関係に基づいて、右上ブロックを追加していく処理を繰り返すことにより前記見取り図分割を生成する
 第3項に記載のデータ解析装置。
(第5項)
 前記第2変換部は、前記見取り図分割における部屋間の位置関係から得られる前記長方形分割における所定のブロックを、前記第2パラメータに基づく比率を用いて分割する処理を繰り返すことにより、目的の長方形分割を生成する
 第3項又は第4項に記載のデータ解析装置。
(第6項)
 前記事後確率を最大にする前記第1パラメータと前記第2パラメータに基づく長方形分割を前記関係データのクラスタリング結果として出力する出力部
 を備える請求項1ないし4のうちいずれか1項に記載のデータ解析装置。
(第7項)
 ノンパラメトリックベイズ法により、観測された関係データに対する長方形分割クラスタリングを行うデータ解析装置が実行するデータ解析方法であって、
 第1確率分布から得られる確率変数である第1パラメータから順列を生成し、当該順列に基づいて、第2確率分布から得られる確率変数である第2パラメータを用いて長方形分割を生成する変換ステップと、
 前記関係データが観測された下での事後確率に基づいて、前記第1パラメータと前記第2パラメータを含むパラメータを更新する更新ステップと
 を備えるデータ解析方法。
(第8項)
 コンピュータを、第1項ないし第6項のうち1ずれか1項に記載のデータ解析装置における各部として機能させるためのプログラム。
 以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
100 行列データ解析装置
110 BP-FP変換部
120 FP-RP変換部
130 パラメータ更新部
140 反復計算終了判定部
150 事後確率分布計算部
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
1008 出力装置

Claims (8)

  1.  ノンパラメトリックベイズ法により、観測された関係データに対する長方形分割クラスタリングを行うデータ解析装置であって、
     第1確率分布から得られる確率変数である第1パラメータから順列を生成し、当該順列に基づいて、第2確率分布から得られる確率変数である第2パラメータを用いて長方形分割を生成する変換部と、
     前記関係データが観測された下での事後確率に基づいて、前記第1パラメータと前記第2パラメータを含むパラメータを更新する更新部と
     を備えるデータ解析装置。
  2.  前記順列は、Baxter順列である
     請求項1に記載のデータ解析装置。
  3.  前記変換部は、
     前記第1パラメータから前記順列を生成し、前記順列から見取り図分割を生成する第1変換部と、
     前記見取り図分割から前記長方形分割を生成する第2変換部と、
     備える請求項1又は2に記載のデータ解析装置。
  4.  前記第1変換部は、前記順列における前後の要素の大小関係に基づいて、右上ブロックを追加していく処理を繰り返すことにより前記見取り図分割を生成する
     請求項3に記載のデータ解析装置。
  5.  前記第2変換部は、前記見取り図分割における部屋間の位置関係から得られる前記長方形分割における所定のブロックを、前記第2パラメータに基づく比率を用いて分割する処理を繰り返すことにより、目的の長方形分割を生成する
     請求項3又は4に記載のデータ解析装置。
  6.  前記事後確率を最大にする前記第1パラメータと前記第2パラメータに基づく長方形分割を前記関係データのクラスタリング結果として出力する出力部
     を備える請求項1ないし4のうちいずれか1項に記載のデータ解析装置。
  7.  ノンパラメトリックベイズ法により、観測された関係データに対する長方形分割クラスタリングを行うデータ解析装置が実行するデータ解析方法であって、
     第1確率分布から得られる確率変数である第1パラメータから順列を生成し、当該順列に基づいて、第2確率分布から得られる確率変数である第2パラメータを用いて長方形分割を生成する変換ステップと、
     前記関係データが観測された下での事後確率に基づいて、前記第1パラメータと前記第2パラメータを含むパラメータを更新する更新ステップと
     を備えるデータ解析方法。
  8.  コンピュータを、請求項1ないし6のうちいずれか1項に記載のデータ解析装置における各部として機能させるためのプログラム。
PCT/JP2021/009379 2021-03-09 2021-03-09 データ解析装置、データ解析方法、及びプログラム WO2022190221A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/009379 WO2022190221A1 (ja) 2021-03-09 2021-03-09 データ解析装置、データ解析方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/009379 WO2022190221A1 (ja) 2021-03-09 2021-03-09 データ解析装置、データ解析方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2022190221A1 true WO2022190221A1 (ja) 2022-09-15

Family

ID=83226386

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/009379 WO2022190221A1 (ja) 2021-03-09 2021-03-09 データ解析装置、データ解析方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2022190221A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120078821A1 (en) * 2010-09-25 2012-03-29 The Board of Trustees of the Leland Srandford Junior University Methods for unsupervised learning using optional pólya tree and bayesian inference
JP2015088117A (ja) * 2013-11-01 2015-05-07 日本電信電話株式会社 行列データ解析装置、方法、及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120078821A1 (en) * 2010-09-25 2012-03-29 The Board of Trustees of the Leland Srandford Junior University Methods for unsupervised learning using optional pólya tree and bayesian inference
JP2015088117A (ja) * 2013-11-01 2015-05-07 日本電信電話株式会社 行列データ解析装置、方法、及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NAKANO MASAHIRO, ISHIGURO KATSUHIKO, KIMURA AKISATO, YAMADA TAKESHI, UEDA NAONORI: "Rectangular Tiling Process", 1 January 2014 (2014-01-01), XP055968601, Retrieved from the Internet <URL:http://proceedings.mlr.press/v32/nakano14.pdf> [retrieved on 20221006] *
NAKANO MASAHIRO, KIMURA AKISATO, YAMADA TAKESHI, UEDA NAONORI: "Baxter Permutation Process", ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS (NEURIPS 2020), 1 January 2020 (2020-01-01), XP055968602, Retrieved from the Internet <URL:https://proceedings.neurips.cc/paper/2020/file/6271faadeedd7626d661856b7a004e27-Paper.pdf> [retrieved on 20221006] *

Similar Documents

Publication Publication Date Title
Ranganath et al. Operator variational inference
McGrory et al. Variational approximations in Bayesian model selection for finite mixture distributions
US11341424B2 (en) Method, apparatus and system for estimating causality among observed variables
Akay A study on particle swarm optimization and artificial bee colony algorithms for multilevel thresholding
US10860829B2 (en) Data-parallel parameter estimation of the Latent Dirichlet allocation model by greedy Gibbs sampling
US20220092240A1 (en) System for Machine Learning-Based Acceleration of a Topology Optimization Process
US20200027016A1 (en) Hardware-based machine learning acceleration
Lovell et al. Clustercluster: parallel Markov chain Monte Carlo for Dirichlet process mixtures
CN115412102B (zh) 基于稀疏随机Kaczmarz算法稀疏信号恢复方法、系统、设备和介质
Friel et al. Exploiting multi-core architectures for reduced-variance estimation with intractable likelihoods
Määttä et al. Gradient-based training and pruning of radial basis function networks with an application in materials physics
CN117744754B (zh) 大语言模型任务处理方法、装置、设备及介质
Holmes et al. Adaptive MCMC for multimodal distributions
WO2022190221A1 (ja) データ解析装置、データ解析方法、及びプログラム
Sassi et al. A New Improved Baum-Welch Algorithm for Unsupervised Learning for Continuous-Time HMM Using Spark.
Buntine Tree classification software
Guillaume et al. A maximum likelihood approach to inference under coarse data based on minimax regret
JP3809062B2 (ja) マルチレベル不完全ブロック分解による前処理を行う処理装置
JP2012093976A (ja) クラスタリング・システム、方法及びプログラム
US20140310221A1 (en) Interpretable sparse high-order boltzmann machines
Sarje et al. Accelerating pairwise computations on cell processors
Hazan et al. High dimensional inference with random maximum a-posteriori perturbations
Jin et al. Towards MapReduce approach with dynamic fuzzy inference/interpolation for big data classification problems
Liu et al. Variational inference using approximate likelihood under the coalescent with recombination
Benmouna et al. New method for Bayesian network learning

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21930078

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21930078

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP