WO2011108632A1 - モデル選択装置、モデル選択方法及びモデル選択プログラム - Google Patents

モデル選択装置、モデル選択方法及びモデル選択プログラム Download PDF

Info

Publication number
WO2011108632A1
WO2011108632A1 PCT/JP2011/054883 JP2011054883W WO2011108632A1 WO 2011108632 A1 WO2011108632 A1 WO 2011108632A1 JP 2011054883 W JP2011054883 W JP 2011054883W WO 2011108632 A1 WO2011108632 A1 WO 2011108632A1
Authority
WO
WIPO (PCT)
Prior art keywords
model
distribution
criterion
complete data
component
Prior art date
Application number
PCT/JP2011/054883
Other languages
English (en)
French (fr)
Inventor
遼平 藤巻
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US13/582,385 priority Critical patent/US9208436B2/en
Priority to JP2012503237A priority patent/JP5704162B2/ja
Publication of WO2011108632A1 publication Critical patent/WO2011108632A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Definitions

  • the present invention relates to a data model selection apparatus, and more particularly to model selection characterized by realizing high-speed model selection for a complex mixed distribution model by optimizing an expected value of a conditional information criterion.
  • the present invention relates to a device, a model selection method, and a model selection program.
  • the mixed distribution is a model that expresses the distribution of data by a plurality of distributions, and is an important model for industrial data modeling.
  • Such models include various models such as a mixed normal distribution and a mixed hidden Markov model.
  • Non-Patent Document 1 When the number of mixtures and the type of each component are specified, it is possible to specify the parameters of the distribution using a known technique such as an EM algorithm (for example, Non-Patent Document 1). is there.
  • model selection problem or “system fixed problem”. This is an extremely important problem for constructing a reliable model, and a plurality of techniques have been proposed as related techniques.
  • MDL minimum description length
  • AIC Akaike's Information Criterion
  • the model selection method using the information criterion is a method of selecting a model that optimizes the value of the information criterion for data from among model candidates. It is known that a model for optimizing the information criterion has excellent statistical properties such as consistency with a true distribution in the case of MDL and minimum prediction error in the case of AIC.
  • model selection method using the information criterion it is possible in principle to perform model selection for any model candidate by calculating the information criterion value for all model candidates.
  • the number of model candidates becomes enormous, it is virtually impossible to calculate.
  • the polynomial curve includes a straight line (primary curve), a quadratic curve, a cubic curve, and a plurality of orders.
  • Patent Document 1 performs model selection based on the information criterion at high speed by repeatedly optimizing the expected information criterion for complete data including hidden variables for various mixed distribution models. The technology to do is disclosed.
  • An object of the present invention is to provide a model selection device, a model selection method, and a model selection program that solves the above-described problems and realizes high-speed model selection even for a model having dependencies between components. .
  • Another object of the present invention is to provide a model selection device, a model selection method, and a model selection program that realize high-speed model selection even when the number of component candidates increases rapidly with respect to parameters.
  • the first model selection device includes model optimization means for optimizing a model with respect to a mixture distribution, and the model optimization means relates to an information criterion for complete data, and a posterior distribution of hidden variables of complete data. , The complete data expected information criterion for a set of component models and parameters satisfying a predetermined condition is optimized.
  • the first model selection method of the present invention includes a model optimization step for optimizing a model with respect to a mixture distribution, and the model optimization step relates to an information criterion for complete data, and performs a posteriori of hidden variables of complete data. For the distribution, the expected data criterion of the complete data for the model and parameter set of the component satisfying the predetermined condition is optimized.
  • a first model selection program causes a computer to execute a model optimization process for optimizing a model with respect to a mixture distribution.
  • the model optimization process relates to an information criterion for complete data, and is a hidden variable of complete data.
  • the expected information criterion of complete data for a set of component models and parameters satisfying a predetermined condition is optimized.
  • the present invention in the estimation of the mixture distribution, it is possible to realize high-speed model selection even for a model having a dependency between components.
  • FIG. 1 is a block diagram showing a configuration of a model selection device 100 according to the first embodiment of the present invention.
  • a model selection apparatus 100 includes a data input unit 101, a mixture number setting unit 102, a distribution initialization processing unit 103, a model optimization processing unit 104, and a mixture number loop end.
  • the determination processing unit 105, the optimum distribution selection processing unit 106, and the model selection result output unit 107 are provided.
  • the model selection apparatus 100 optimizes the number of mixtures, the types and parameters of each component, etc., with respect to the input data 108, and outputs the result as a model selection result 109.
  • the data input unit 101 is a functional unit for inputting the input data 108.
  • the input data 108 includes information necessary for model selection, such as the types and parameters of each component to be mixed, and candidate values for the number of mixtures.
  • the mixture number setting unit 102 has a function of selecting and setting the mixture number of the model from the input candidate number of the mixture number.
  • the number of mixtures set by the mixture setting unit 102 is referred to as K.
  • the distribution initialization processing unit 103 has a function of performing initialization processing for estimation. Note that initialization can be performed by any method. For example, a method of setting a value of a hidden variable corresponding to data at random can be considered.
  • the model optimization processing unit 104 has a function of optimizing the model with respect to the mixture distribution of the mixture number set by the mixture number setting unit 102.
  • the model optimization processing unit 104 is configured as a model optimization processing unit 200 shown in FIG. 2 or a model optimization processing unit 300 shown in FIG. 3, and details thereof will be described later.
  • the mixture number loop end determination processing unit 105 has a function of determining whether or not an optimum information amount reference value is calculated for all input candidate values for the mixture number.
  • the optimum distribution selection processing unit 106 has a function of comparing the information amount reference values calculated for all the mixture number candidate values and selecting the number of mixtures for which the information amount criterion is optimal. Note that the optimum model information amount value for each mixture number is calculated by the model optimization processing unit 104 as described later. Further, since the model optimization processing unit 104 optimizes the types and parameters of each component with respect to the optimal number of mixtures, it is selected as the optimal distribution.
  • the model selection result output unit 107 has a function of outputting an optimal number of mixtures, component types, parameters, and the like as a model selection result 109.
  • the model optimization processing unit 200 includes a hidden variable posterior distribution calculation processing unit 201, an update parameter setting unit 202, a conditional expected information criterion optimization processing unit 203, and an independent parameter setting loop end determination unit 204. , An information amount reference calculation processing unit 205 and an optimality determination processing unit 206 are provided.
  • the hidden variable posterior distribution calculation processing unit 201 has a function of calculating a posterior distribution related to a hidden variable indicating to which component of the mixed distribution each input data belongs.
  • the update parameter setting unit 202 stores rules for partially updating the model and parameter candidates of each component, and is an optimization target among the partial models and parameters. Has a function to select.
  • the conditional expected information criterion minimization processing unit 203 relates to the posterior distribution calculated by the hidden variable posterior distribution calculation processing unit 201, and the expected information criterion of complete data for the model and parameters selected by the update parameter setting unit 202. It has a function to optimize.
  • complete data refers to a set of input data and corresponding hidden variables. Input data is called incomplete data. Note that any optimization method can be used for the optimization method.
  • the update parameter setting loop end determination unit 204 determines whether the conditional expected information criterion minimization processing has been performed on all of the partially updated model / parameter pairs stored in the update parameter setting unit 202. It has a function to judge.
  • the information criterion calculation processing unit 205 has a function of calculating an information criterion value for incomplete data for the updated model.
  • the optimality determination processing unit 206 has a function of comparing the information amount reference value calculated in this loop with the information amount reference value calculated in the previous loop to determine whether the optimization processing has converged. Have.
  • the update parameter setting unit 202 sets partial models and parameters, and optimizes the conditional expected information amount criterion, so that the number of candidates can be reduced even for complex model candidates. It is a point that can prevent the enormous amount of.
  • ⁇ _ ⁇ d 0 ⁇ ⁇ ⁇ D * (D ⁇ 1) / 2 ⁇ D * (D -1) It is necessary to perform parameter estimation for the 2Cd component candidates and select an optimal component.
  • the model optimization processing unit 300 is different from the model optimization processing unit 200 in that the connection order of the hidden variable posterior distribution calculation processing unit 201 and the update parameter setting unit 202 is different, and the update parameter.
  • the difference is that the setting loop end determination unit 204 is not provided. In this process, regardless of whether or not all update parameters are updated by the update parameter setting unit, the process ends when the optimization determination processing unit 206 determines that the optimization has been completed.
  • FIG. 4 is a flowchart showing the processing operation of the model selection device 100 according to the present embodiment.
  • model selection apparatus 100 generally operates as follows.
  • the mixture number setting unit 102 selects a mixture number that has not yet been optimized among the input candidate values for the mixture number. Set (step S402).
  • the distribution initialization processing unit 103 initializes the specified number of mixtures necessary for optimization (step S403).
  • the model optimization processing unit 104 estimates an optimal model for the designated number of mixtures (step S404). Details of processing when the model optimization processing unit 200 and the model optimization processing unit 300 are used as the model optimization processing unit 104 will be described later.
  • the mixture number loop end determination processing unit 105 determines whether optimization has been completed for all the mixture number candidate values and the information amount reference value has been calculated (step S405).
  • step S401 to step S404 is repeated ("NO" in step S405).
  • the optimum distribution selection processing unit 106 compares the optimized information amount standard value for each number of mixtures, and optimizes the number of mixtures whose value is optimum. Is selected as the correct model (step S406). For the selected model, the component types and parameters are optimized in the processing from step S402 to step S405, and a distribution having the optimal number of mixtures and component types is acquired.
  • the model selection result output unit 107 outputs the model selection result 109 (step S407).
  • FIG. 5 is a flowchart showing the processing operation of the model optimization processing unit 200 according to this embodiment.
  • the optimization processing unit 200 generally operates as follows.
  • the output of the distribution initialization processing unit 103 is received, and the posterior distribution calculation processing unit 201 of the hidden variable calculates the posterior distribution of the hidden variable (step S501).
  • the update parameter setting unit 202 selects a model and parameter set that is stored in the update parameter setting unit 202 and is independent of other models and parameters (step S502).
  • conditional expected information criterion optimization processing unit 203 estimates a model and parameters that minimize the conditional expected information criterion for the model and parameters selected by the update parameter setting unit 202 (step S503). ).
  • the update parameter setting unit 204 determines whether or not all the independent models and parameter pairs stored in the update parameter setting unit 202 have been updated (step S504).
  • step S501 to step S504 If there are still sets that have not been updated, the processing from step S501 to step S504 is repeated ("NO" in step S504).
  • step S504 If no updated set remains (step S504 “YES”), the information criterion calculation unit 205 calculates an information criterion value for the updated model (step S505).
  • the optimality determination processing unit 206 compares the information amount reference value calculated in this loop with the information amount reference value calculated in the previous loop to determine whether the optimization processing has converged. (Step S506 ") If the information amount reference value has converged (" YES "in Step S507), the process of the optimization processing unit 200 is terminated. If the information amount reference value has not converged, (“NO” in step S507), the processing from S501 to S506 is repeated.
  • FIG. 6 is a flowchart showing the operation of the model optimization processing unit 300 according to the present embodiment.
  • the optimization processing unit 300 according to the present embodiment has the processing order of steps S501 and S502 shown in FIG. 5 reversed (steps S601 and 602). The difference is that the processing of S504 shown in FIG. 5 is not included.
  • the mixture distribution to be learned is expressed by the following equation (1) with respect to the random variable X corresponding to the input data.
  • (pi) k represents the mixture ratio regarding a kth component
  • ( ⁇ 1 ,..., ⁇ K ).
  • the distribution P (X; ⁇ k ) of each component is an element of a set S of component candidates.
  • the equation (1) can be a mixture of a plurality of different distributions such as a normal distribution and an exponential distribution. Equation (1) is a framework for modeling the data distribution, but the following configuration is similarly established for model selection to which teacher data is given, such as a regression distribution and a data classification distribution.
  • the MDL standard is a standard for selecting, as an optimal model, a model that minimizes the sum of the data description length and the model description length expressed by the equation (2).
  • the MDL criterion calculation method is stored in the information criterion calculation processing unit 106, and the MDL criterion value of the distribution is calculated by Expression (2).
  • l represents a description length function
  • M represents a model.
  • x i represents one point of data
  • X is a random variable corresponding to the data.
  • M) can be calculated as in Equation (3) or Equation (4). Is possible.
  • log is a logarithm with a base of 2 and ln is a natural logarithm.
  • represents that the parameter is a maximum likelihood estimator.
  • I ( ⁇ ) is a Fisher information matrix. Note that various description methods have been proposed for the description length functions l (x N
  • posterior distribution calculation processing unit 201 of the hidden variables calculation of expected values for the posterior probability of the hidden variables when data x N is given it is stored. Note that the posterior probability varies depending on P (X; ⁇ ) and can be calculated by any known method. In the following, it is assumed that Ez [A] represents an expected value related to the posterior probability of the hidden variable of the argument A.
  • l (x N , z N ; M) can use an arbitrary description length function, similarly to l (x N
  • Formula (6) is mentioned corresponding to Formula (3).
  • M k is the dimension of ⁇ k
  • N k is the number of data belonging to the k-th cluster, and can be calculated by Expression (7).
  • P (z i ; ⁇ k ) represents the probability that the cluster assignment related to the i-th data takes “1” or “0”.
  • the expected description length calculated by the conditional expected information criterion minimization processing unit 203 is a variable of the model and parameter selected by the update parameter setting unit 202 for l (x N , z N ; M). When other parameters are fixed, this is an amount that takes an expected value with respect to the posterior probability of the hidden variable, and is calculated as Ez [l (x N , z N ; M)]. Since the models and parameters set as update parameters are independent of each other, considering the conditional expected description length for the selected model and parameters, optimization is possible for each model and parameter. As a parameter estimation method for the distribution for each component, any known technique such as maximum likelihood estimation or moment method can be used.
  • the update parameter setting unit 202 it is stored as a model to determine whether any two dimensions of each component are independent. Thus, by sequentially selecting whether each of the two dimensions is independent, it is possible to perform learning at high speed even in a situation where the combination of independence increases rapidly as the dimension increases.
  • the optimal distribution differs for each dimension. Therefore, when considering a mixed distribution, it is necessary to consider the simultaneous distribution, but the combination of which dimension is what distribution A problem occurs. Therefore, by setting which model the peripheral distribution of each dimension of each component is in the update parameter setting unit 202 and updating the optimal distribution for each dimension, it is possible to select a model at high speed.
  • model selection apparatus 100 proposed in the present invention it is possible to simultaneously estimate not only the peripheral distribution but also the copula expressing the correlation between the peripheral distributions.
  • Model and attribute selection of mixed identification model using different attributes By using the model selection apparatus 100 proposed in the present invention, it is possible to perform high-speed model selection with respect to the model and attribute selection of the mixed identification model using different attributes.
  • attribute 1 has valid information for data identification
  • attribute 2 has valid information for identification
  • different valid attributes may be estimated for each component.
  • the combination of which attribute is used and which attribute is not used becomes enormous.
  • the use of each attribute in each component is used as a model and parameter to be set by the update parameter setting unit 202, so that an attribute effective for identification in each component can be estimated at high speed. Is possible.
  • FIG. 7 is a block diagram illustrating a hardware configuration example of the model selection device 100.
  • the model selection device 100 has a hardware configuration similar to that of a general computer device, and includes a data work area including a memory such as a CPU (Central Processing Unit) 801 and a RAM (Random Access Memory). And a main storage unit 802 used for a temporary data saving area, a communication unit 803 that transmits and receives data via a network, an input / output interface that transmits and receives data by connecting to the input device 805, the output device 806, and the storage device 807 A unit 804 and a system bus 808 for interconnecting the above components.
  • the storage device 807 is realized by, for example, a hard disk device including a non-volatile memory such as a ROM (Read Only Memory), a magnetic disk, and a semiconductor memory.
  • the selection result output unit 107 implements its functions by implementing circuit components, which are hardware components such as LSI (Large Scale Integration), in which a program is incorporated, as well as realizing its operation in hardware.
  • the program to be provided can be realized in software by storing the program to be stored in the storage device 807, loading the program into the main storage unit 802, and executing it by the CPU 801.
  • a plurality of components are formed as a single member, and a single component is formed of a plurality of members. It may be that a certain component is a part of another component, a part of a certain component overlaps with a part of another component, or the like.
  • the plurality of procedures of the method and the computer program of the present invention are not limited to being executed at different timings. For this reason, another procedure may occur during the execution of a certain procedure, or some or all of the execution timing of a certain procedure and the execution timing of another procedure may overlap.
  • the model optimization means includes: A model characterized by optimizing the expected information criterion of the complete data for a set of parameters and a model of a component satisfying a predetermined condition for the posterior distribution of the hidden variable of the complete data with respect to the information criterion of the complete data Selection device.
  • the model optimization means comprises: Means for calculating a posterior distribution of hidden variables for calculating a posterior distribution of hidden variables of the data; Update parameter setting means for selecting a model of a component that satisfies a predetermined condition and a set of parameters; Concerning the posterior distribution calculated by the posterior distribution calculation means of the hidden variable, the conditional expected information criterion minimum for optimizing the expected information criterion for complete data for the model and parameter set selected by the update parameter setting means And An information criterion calculation means for calculating an information criterion value for incomplete data for a model updated by optimization by the conditional expected information criterion minimization means; Determining the optimality of
  • the model optimization means comprises: When there are a plurality of combinations of component models and parameters satisfying a predetermined condition, the update parameter setting means and the conditional expectation information are optimized until the expected information criterion for the complete data is optimized for all of the pairs.
  • the model selection apparatus according to claim 2, further comprising an update parameter setting loop end determination unit that repeatedly performs the processing by the amount criterion minimization unit.
  • Appendix 4 The model selection apparatus according to any one of appendix 1 to appendix 3, wherein the information amount criterion is an MDL criterion.
  • Appendix 7 The model selection apparatus according to any one of appendix 1 to appendix 4, wherein the number of blends and the kind of the marginal distribution of each component are optimized with respect to a mixture distribution of a plurality of different marginal distributions.
  • Appendix 8 The model selection apparatus according to any one of appendix 1 to appendix 4, wherein an attribute effective for discrimination in each component is optimized with respect to a model and attribute selection of a mixed discrimination model using different attributes.
  • a model optimization step for optimizing the model for the mixture distribution includes: A model characterized by optimizing the expected information criterion of the complete data for a set of parameters and a model of a component satisfying a predetermined condition for the posterior distribution of the hidden variable of the complete data with respect to the information criterion of the complete data Selection method.
  • the model optimization step comprises: A hidden variable posterior distribution calculating step for calculating a posterior distribution related to the hidden variable of the data; An update parameter setting step for selecting a model of a component satisfying a predetermined condition and a set of parameters; Concerning the posterior distribution calculated in the posterior distribution calculation step of the hidden variable, the conditional expected information criterion minimum that optimizes the expected information criterion for the complete data for the model and parameter set selected in the update parameter setting step Step, An information criterion calculation step for calculating an information criterion value for incomplete data for the model updated by optimization by the conditional expected information criterion minimization step; Determining the optimality of the information amount cri
  • the model optimization step comprises: When there are a plurality of component model and parameter pairs satisfying a predetermined condition, the update parameter setting step and the conditional expectation information are optimized until the expected information criterion is optimized for complete data for all of the pairs.
  • Appendix 12 The model selection method according to any one of appendix 9 to appendix 11, wherein the information amount criterion is an MDL criterion.
  • Appendix 14 The model selection method according to any one of appendix 9 to appendix 12, wherein the number of blends and the independence of each component are optimized for a mixture distribution of a plurality of distributions having different independence with respect to multidimensional data .
  • Appendix 15 The model selection method according to any one of appendix 9 to appendix 12, wherein the number of blends and the kind of the marginal distribution of each component are optimized with respect to a mixture distribution of a plurality of different marginal distributions.
  • Appendix 16 The model selection method according to any one of appendix 9 to appendix 12, wherein an attribute effective for discrimination in each component is optimized with respect to a model and attribute selection of a mixed discrimination model using different attributes.
  • the model optimization process is: A model characterized by optimizing the expected information criterion of the complete data for a set of parameters and a model of a component satisfying a predetermined condition for the posterior distribution of the hidden variable of the complete data with respect to the information criterion of the complete data Selection program.
  • the model optimization process is: A posterior distribution calculation process of a hidden variable for calculating a posterior distribution related to the hidden variable of the data; Update parameter setting processing for selecting a model of a component that satisfies a predetermined condition and a set of parameters; Concerning the posterior distribution calculated by the posterior distribution calculation process of the hidden variable, the conditional expected information criterion minimum that optimizes the expected information criterion for the complete data for the model and parameter set selected in the update parameter setting process Processing, An information criterion calculation process for calculating an information criterion value for incomplete data for a model updated by optimization by the conditional expected information criterion minimization process

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

 コンポーネント間に依存性があるモデルに対しても、或いはコンポーネントの候補がパラメータに対して急激に増加する場合でも、高速なモデル選択を実現する。 モデル選択装置100は、混合分布に対してモデルを最適化するモデル最適化手段を備え、モデル最適化手段は、完全データの情報量基準に関し、完全データの隠れ変数の事後分布について、所定の条件を満たすコンポーネントのモデルおよびパラメータの組に対する完全データの期待情報量基準を最適化する。

Description

モデル選択装置、モデル選択方法及びモデル選択プログラム
 本発明は、データのモデル選択装置に関し、特に、条件付情報量基準の期待値を最適化することによって、複雑な混合分布モデルに対して高速なモデル選択を実現することを特徴とするモデル選択装置、モデル選択方法、モデル選択プログラムに関する。
 混合分布は、複数の分布によってデータの分布を表現するモデルであり、産業上データモデル化に対して重要なモデルである。このようなモデルには、例えば、混合正規分布や混合隠れマルコフモデルなど様々なモデルが存在する。
 一般的に、混合の数と各コンポーネントの種類が特定された場合には、EMアルゴリズム(例えば、非特許文献1)などの公知の技術を利用して、分布のパラメータを特定することが可能である。
 パラメータを推定するためには、混合の数や各コンポーネントの種類を決定する必要が有り、このような、モデルの形を特定する問題は、一般的に「モデル選択問題」や「システム固定問題」と呼ばれ、信頼性のあるモデルを構築するために極めて重要な問題であり、そのための技術が関連技術として複数提案されている。
 モデル選択のための有力な技術として、最小記述長(MDL:minimum escription length)(例えば、非特許文献2)、赤池情報量基準(AIC:Akaike’s Information Criterion)(例えば、非特許文献3)などの、情報量基準を用いたモデル選択方法が提案されている。
 情報量基準を用いたモデル選択方法は、モデルの候補のなかから、データに対する情報量基準の値を最適とするモデルを選択する方法である。情報量基準を最適化するモデルは、例えばMDLの場合は真の分布への一致性や、AICの場合は予測誤差最小など、優れた統計的性質を持つことが知られている。
 しかし、情報量基準を用いたモデル選択方法では、全てのモデル候補に対して情報量基準の値を計算すれば、原理的には任意のモデル候補に対してモデル選択を実施することが可能であるが、モデル候補の数が膨大になった場合には、事実上計算が不可能であった。
 例として、以下、混合多項曲線の選択問題を説明する。多項式曲線は、直線(1次曲線)、2次曲線、3次曲線と、複数の次数が存在する。
 混合数を1からCmaxまで、曲線の次数を1からDmaxまで探索して最適なモデルを選択する場合、関連技術では、直線と2次曲線が2つ(混合数は3)、3次曲線が3つと4次曲線が2つ(混合数は5)など全てのモデルの候補に対して情報量基準を計算する必要がある。このモデルの候補の数は、例えばCmax=10、Dmax=10とした場合には約十万通り、Cmax=20、Dmax=20とした場合には数百億通りとなり、探索すべきモデルの複雑さに伴って指数的に増加する。
 この問題に対して、特許文献1では、さまざまな混合分布モデルに対して、隠れ変数を含む完全データに対する期待情報量基準を繰り返し最適化することによって、高速に情報量基準に基づくモデル選択を実行する技術を開示している。
特願2009-013503号
Christopher M.Bishop著, 「Pattern Recognition And Machine Learning」, New edition版, Springer-Verlag, 2006年8月17日, p.438-441 山西健司、韓太舜著, 「MDL入門:情報理論の立場から」, 人工知能学会誌, 1992年5月, 第7巻, 第3号, p.427-434 下平英寿著、他3名, 「モデル選択 予測・検定・推定の交差点統計科学のフロンティア(3)」, 岩波書店,2004年12月, p.24-25 Yue Wang,Lan Lou,Matthew T.Freedman,and Sun-Yuan Kung, "Probabilistic Principal Component Subspaces:A Hierarchical Finite Mixture Model for Data Visualization", IEEE TRANSACTIONS ON NEURAL NETWORKS, MAY 2000, VOL.11, NO.2, p.625-636
 しかし、特許文献1に記載されるような、隠れ変数を含む完全データに対する期待情報量基準を繰り返し最適化する方法では、混合分布の各コンポーネントのパラメータが独立であることが仮定されているため、この仮定を満たさないモデルに対しては適用できないという課題があった。
 また、例えば、各コンポーネント内で属性の独立性を選択する必要がある場合など、コンポーネントの候補の数が指数的に増加してしまう状況では、高速なモデル選択が実現できないという課題があった。コンポーネントの候補の数が指数的に増加してしまう状況としては、例えば、異なる独立性をもつD次元の正規分布の混合分布が考えられる。この場合、次元の独立性の候補がΣ_{d=0}^{D*(D-1)/2} D*(D-1)/2Cd通り存在するための次元とともに、急激にコンポーネントの候補の数が増加してしまう。
(発明の目的)
 本発明の目的は、上述の課題を解決し、コンポーネント間に依存性があるモデルに対しても、高速なモデル選択を実現するモデル選択装置、モデル選択方法及びモデル選択プログラムを提供することである。
 本発明の他の目的は、コンポーネントの候補がパラメータに対して急激に増加する場合でも、高速なモデル選択を実現するモデル選択装置、モデル選択方法及びモデル選択プログラムを提供することである。
 本発明の第1のモデル選択装置は、混合分布に対してモデルを最適化するモデル最適化手段を備え、モデル最適化手段は、完全データの情報量基準に関し、完全データの隠れ変数の事後分布について、所定の条件を満たすコンポーネントのモデルおよびパラメータの組に対する完全データの期待情報量基準を最適化する。
 本発明の第1のモデル選択方法は、混合分布に対してモデルを最適化するモデル最適化ステップを有し、モデル最適化ステップは、完全データの情報量基準に関し、完全データの隠れ変数の事後分布について、所定の条件を満たすコンポーネントのモデルおよびパラメータの組に対する完全データの期待情報量基準を最適化する。
 本発明の第1のモデル選択プログラムは、混合分布に対してモデルを最適化するモデル最適化処理をコンピュータに実行させ、モデル最適化処理は、完全データの情報量基準に関し、完全データの隠れ変数の事後分布について、所定の条件を満たすコンポーネントのモデルおよびパラメータの組に対する完全データの期待情報量基準を最適化する。
 本発明によれば、混合分布の推定において、コンポーネント間に依存性があるモデルに対しても、高速なモデル選択を実現ことができる。
 また、本発明によれば、混合分布の推定において、コンポーネントの候補がパラメータに対して急激に増加する場合でも、高速なモデル選択を実現することができる。
本発明の第1の実施の形態によるモデル選択装置の構成を示すブロック図である。 本実施の形態によるモデル最適化処理部の構成例を示す図である。 本実施の形態によるモデル最適化処理部の構成例を示す図である。 本実施の形態によるモデル選択装置の処理動作の内容を説明するフローチャートである。 本実施の形態によるモデル最適化処理部の処理動作の内容を説明するフローチャートである。 本実施の形態によるモデル最適化処理部の処理動作の内容を説明するフローチャートである。 本発明のモデル選択装置のハードウェア構成例を示すブロック図である。
 次に、本発明の実施の形態について、図面を参照して詳細に説明する。なお、すべての図面において、同様な構成要素には同様の符号を付し,適宜説明を省略する。
(第1の実施の形態)
 本発明の第1の実施の形態について、図面を参照して詳細に説明する。以下の図において、本発明の本質に関わらない部分の構成については省略してあり、図示されていない。
 図1は、本発明の第1の実施の形態によるモデル選択装置100の構成を示すブロック図である。図1を参照すると、本実施の形態のモデル選択装置100は、データ入力部101と、混合数設定部102と、分布初期化処理部103と、モデル最適化処理部104と、混合数ループ終了判定処理部105と、最適分布選択処理部106と、モデル選択結果出力部107を備えている。
 モデル選択装置100は、入力データ108が入力されると、入力データ108に対して混合の数と各コンポーネントの種類及びパラメータ等を最適化し、モデル選択結果109として出力する。
 データ入力部101は、入力データ108を入力するための機能部である。入力データ108には、混合される各コンポーネントの種類及びパラメータや、混合数の候補値など、モデル選択に必要な情報が含まれる。
 混合数設定部102は、モデルの混合数を、入力された混合数の候補値から選択して設定する機能を有する。以後、混合設定部102により設定された混合数をKと称する。
 分布初期化処理部103は、推定のための初期化処理を実施する機能を有する。なお、初期化は任意の方法によって実施することが可能である。例えば、ランダムにデータに対応する隠れ変数の値を設定する方法が考えられる。
 モデル最適化処理部104は、混合数設定部102で設定された混合数の混合分布に対して、モデルを最適化する機能を有する。モデル最適化処理部104は、具体的には図2に示されるモデル最適化処理部200や図3に示されるモデル最適化処理部300のように構成され、これらの詳細については後述する。
 混合数ループ終了判定処理部105は、入力された全ての混合数の候補値に対して、最適な情報量基準の値が計算されているかを判定する機能を有する。
 最適分布選択処理部106は、全ての混合数の候補値に対して計算された情報量基準の値を比較し、情報量基準が最適である混合数を選択する機能を有する。なお、各混合数に対する最適なモデルの情報量基準の値は、後述するようにモデル最適化処理部104で計算されている。また、最適な混合数に対して、各コンポーネントの種類及びパラメータはモデル最適化処理部104において最適化されているため、それを最適な分布として選択する。
 モデル選択結果出力部107は、最適な混合数、コンポーネントの種類、パラメータなどをモデル選択結果109として出力する機能を有する。
 次に、モデル最適化処理部104の具体的な構成例として示すモデル最適化処理部200及びモデル最適化処理部300の構成を説明する。
 図2を参照すると、モデル最適化処理部200は、隠れ変数の事後分布計算処理部201、更新パラメータ設定部202、条件付期待情報量基準最適化処理部203、独立パラメータ設定ループ終了判定部204、情報量基準計算処理部205、最適性判定処理部206を備えている。
 隠れ変数の事後分布計算処理部201は、入力された各データが混合分布のどのコンポーネントに属しているかを表す隠れ変数に関する事後分布を計算する機能を有する。
 更新パラメータ設定部202は、各コンポーネントのモデル及びパラメータの候補に対して、部分的に更新をするためのルールを記憶しており、その部分的なモデル及びパラメータの中から最適化対象となるもの選択する機能を有する。
 条件付期待情報量基準最小化処理部203は、隠れ変数の事後分布計算処理部201で計算された事後分布に関し、更新パラメータ設定部202で選択されたモデル及びパラメータに対する完全データの期待情報量基準を最適化する機能を有する。なお、ここで、完全データとは、入力データ及びそれに対応する隠れ変数の組を指す。入力データを不完全データと呼ぶ。なお、最適化の方法に関しては任意の最適化手法を用いることが可能である。
 更新パラメータ設定ループ終了判定部204は、更新パラメータ設定部202に記憶された部分的に更新するモデルとパラメータの組の全てに対して、条件付期待情報量基準最小化の処理が実施されたかを判定する機能を有する。
 情報量基準計算処理部205は、更新されたモデルに対して、不完全データに対する情報量基準の値を計算する機能を有する。
最適性判定処理部206は、本ループで計算された情報量基準の値と、前のループで計算された情報量基準の値を比較し、最適化処理が収束されているかを判定する機能を有する。
 この処理の重要な点は、更新パラメータ設定部202において、部分的なモデル及びパラメータを設定し、条件付期待情報量基準を最適化することにより、複雑なモデル候補に対しても、候補の数が膨大となる事を防ぐことが可能な点である。例として、独立性の異なるD次元の正規分布の混合モデルの例を考える。例えば、特許文献1で提案されている期待情報量基準の最適化では、各コンポーネントを最適化するために、Σ_{d=0}^{D*(D-1)/2} D*(D-1)/2Cd通りのコンポーネント候補に対してパラメータ推定を行い、最適なコンポーネントを選択する必要がある。一方で、本発明を利用すると、2つの次元の独立性を部分モデルと設定し、残りの次元に対する条件付期待情報量基準を最適化する事によって、(D*(D-1)/2通り)に関するパラメータ推定によって最適化を実施する事が可能であり、高速なモデル選択が実現される。
 図3を参照すると、モデル最適化処理部300は、モデル最適化処理部200と比較して、隠れ変数の事後分布計算処理部201と更新パラメータ設定部202の接続順序が異なる点、及び更新パラメータ設定ループ終了判定部204を有しない点で相違する。この処理では、更新パラメータ設定部によって更新パラメータが全て更新されたどうかにかかわらず、最適性判定処理部206で最適化が終了したと判断された時点で処理が終了する。
(第1の実施の形態の動作の説明)
 次に、図面を参照して、本実施の形態の動作について詳細に説明する。
 本実施の形態によるモデル選択装置100の動作について、図4を参照して詳細に説明する。図4は、本実施の形態によるモデル選択装置100の処理動作を示すフローチャートである。
 図4を参照すると、本実施の形態によるモデル選択装置100は、概略以下のように動作する。
 まず、データ入力部101に入力データ108が入力されると(ステップS401)、混合数設定部102において、入力された混合数の候補値のうち、まだ最適化の行なわれていない混合数を選択し設定する(ステップS402)。
 次に、分布初期化処理部103において、指定された混合数に対して、最適化に必要な初期化する(ステップS403)。
 次に、モデル最適化処理部104において、指定された混合数に対して、最適なモデルを推定する(ステップS404)。なお、モデル最適化処理部104として、モデル最適化処理部200及びモデル最適化処理部300を利用した場合の処理の詳細に関しては後述する。
 次に、混合数ループ終了判定処理部105において、混合数の候補値の全てに対して最適化が完了し、情報量基準の値が計算されているかを判定する(ステップS405)。
 全ての候補に対して最適化が完了していない場合には、ステップS401からステップS404の処理を繰り返す(ステップS405で”NO”)。
 全ての候補に対して、最適化が完了した場合には、最適分布選択処理部106において、各混合数に対する最適化された情報量基準の値を比較し、その値が最適な混合数を最適なモデルとして選択する(ステップS406)。なお、選択されたモデルに関しては、ステップS402からステップS405の処理において、コンポーネントの種類及びパラメータが最適化されており、最適な混合数及びコンポーネントの種類を持った分布が取得される。
 次に、モデル選択結果出力部107において、モデル選択結果109を出力する(ステップS407)。
 次に、モデル最適化処理部104としてモデル最適化処理部200を利用した場合の処理の詳細について、図5を参照して詳細に説明する。図5は、本実施の形態によるモデル最適化処理部200の処理動作を示すフローチャトである。
 図5を参照すると、本実施の形態に関する最適化処理部200は、概略以下のように動作する。
 まず、分布初期化処理部103の出力を受け取り、隠れ変数の事後分布計算処理部201において、隠れ変数の事後分布を計算する(ステップS501)。
 次に、更新パラメータ設定部202において、更新パラメータ設定部202に記憶されている、他のモデル及びパラメータと独立であるモデル及びパラメータの組を選択する(ステップS502)。
 次に、条件付期待情報量基準最適化処理部203において、更新パラメータ設定部202にて選択されたモデル及びパラメータに関して、条件付期待情報量基準を最小化するモデル及びパラメータを推定する(ステップS503)。
 次に、更新パラメータ設定部204において、更新パラメータ設定部202に記憶されている、独立となるモデルとパラメータの組が全て更新されたかどうかを判定する(ステップS504)。
 まだ更新されていない組が残っている場合には、ステップS501からステップS504の処理を繰り返す(ステップS504で”NO”)。
 更新されている組が残っていない場合には(ステップS504”YES”)、情報量基準計算部205において、更新されたモデルに対する情報量基準の値を計算する(ステップS505)。
 次いで、最適性判定処理部206において、本ループで計算された情報量基準の値と、前のループで計算された情報量基準の値を比較し、最適化処理が収束されているかを判定する(ステップS506”)。情報量基準の値が収束した場合には(ステップS507で”YES”)、最適化処理部200の処理を終了する。情報量基準の値が収束していない場合には(ステップS507で”NO”)、S501からS506の処理を繰り返す。
 ここで、図6を参照すると、図6は、本実施の形態によるモデル最適化処理部300の動作を示すフローチャトである。本実施の形態による最適化処理部300は、最適化処理部200の動作と比較して、図5に示すステップS501とステップS502の処理順が逆となっている(ステップS601,602)点、図5に示すS504の処理が含まれていない点で相違する。
 次に、情報量基準としてMDL基準を利用する場合の一例について説明する。
 まず、学習すべき混合分布は、入力されたデータに対応する確率変数Xに対して下記の式(1)で表される。
Figure JPOXMLDOC01-appb-M000001
 
 ただし、πはk番目のコンポーネントに関する混合比、ηはk番目のコンポーネントに関する分布のパラメータを表し、θ={π、η,…,η}とする。ただし、π=(π,…,π)である。
 各コンポーネントの分布P(X;η)は、コンポーネント候補の集合Sの元であり、例えば式(1)は正規分布と指数分布など、複数の異なる分布を混合させる事も可能である。なお、式(1)はデータの分布をモデル化する枠組みであるが、回帰の分布やデータ分類のための分布など、教師データが与えられるモデル選択に関しても、以下の構成は同様に成立する。
 次に、MDL基準とは、式(2)で表される、データの記述長とモデルの記述長の総和を最小化するモデルを最適なモデルとして選択するための基準である。情報量基準としてMDL基準を利用する場合には、情報量基準計算処理部106にはMDL基準の計算方法が記憶されており、式(2)によって分布のMDL基準の値が計算される。
Figure JPOXMLDOC01-appb-M000002
 
 ただし、lは記述長関数を、x=(x,…,x)は入力されたデータセットを、Mはモデルを表す。xはデータ1点を表し、Xはデータに対応する確率変数である。例えば、モデルMによって決まるXの分布をP(X;θ)とすると(θは分布のパラメータ)、l(x|M)は式(3)や式(4)のように計算する事が可能である。
Figure JPOXMLDOC01-appb-M000003
 
Figure JPOXMLDOC01-appb-M000004
 
 ただし、logは底が2の対数とし、lnは自然対数とする。また、^はパラメータが最尤推定量である事を表すとする。また、I(θ)はフィッシャー情報行列である。なお、記述長関数l(x|M)及びl(M)は、Mの種類によって様々な記述方法が提案されており、本発明においては、任意の記述方法を利用することが可能である。
 データxに対する隠れ変数をzとし、z=(z,…,z)とする。z=(zi1,…,ziK)であり、zikはxがk番目のクラスタに属する場合には1を、k番目のクラスタに属さない場合には0をとる変数である。xとzの組は、完全データと呼ばれる。
 隠れ変数の事後分布計算処理部201では、データxが与えられた場合の隠れ変数の事後確率に関する期待値の計算方法が記憶されている。なお、事後確率は、P(X;θ)によって異なり、公知の任意の方法によって計算する事が可能である。以下では、Ez[A]は引数Aの隠れ変数の事後確率に関する期待値を表すとする。
 完全データを記述する場合の記述長は、式(5)によって計算される。
Figure JPOXMLDOC01-appb-M000005
 
 ここで、l(x,z;M)は、l(x|M)及びl(M)と同じく任意の記述長関数を利用することが可能である。例としては、式(3)に対応して式(6)が挙げられる。
Figure JPOXMLDOC01-appb-M000006
 
 ただし、Mはηの次元であり、Nはk番目のクラスタに属するデータの個数であり、式(7)で計算可能である。また、P(z;π)はi番目のデータに関するクラスタアサイメントが「1」または「0」をとる確率を表す。
Figure JPOXMLDOC01-appb-M000007
 
 条件付期待情報量基準最小化処理部203で計算される期待記述長とは、l(x,z;M)に対して、更新パラメータ設定部202で選択されたモデル及びパラメータを変数とし、それ以外のパラメータを固定した場合に、隠れ変数の事後確率に関して期待値をとった量であり、Ez[l(x,z;M)]と計算される。更新パラメータとして設定されたモデル及びパラメータは、それぞれ独立であるため、選択されたモデル及びパラメータに関する条件付期待記述長を考えると、モデル及びパラメータ毎に最適化が可能となる。なお、コンポーネント毎の分布のパラメータ推定方法に関しては、最尤推定やモーメント法ななど公知の任意の技術を利用することが可能である。
 次に、本発明で提案するモデル選択装置100が適用可能なモデルについて、以下において具体的に説明する。
(独立性の異なる複数の混合分布)
 本発明で提案するモデル選択装置100を利用すると、多次元データに対して独立性の異なる複数の分布の混合分布に関し、混合の数及び各コンポーネントの独立性を高速に最適化する事が可能である。
 更新パラメータ設定部202において、各コンポーネントの任意の2つの次元が独立かどうかを判定する事をモデルとして記憶させる。これによって、各2つの次元が独立かどうかを逐次的に選択することにより、次元の増加とともに独立性の組み合わせが急激に増加する状況においても、高速に学習を行う事が可能である。
(異種多様な周辺分布を持つ同時分布)
 本発明で提案するモデル選択装置を利用すると、複数の異なる周辺分布の混合分布に関して、混合の数及び各コンポーネントの周辺分布の種類を最適化する事が可能である。
 一般に多次元データが入力された場合に、各次元に対して最適な分布は異なるため、混合分布を考える場合には、その同時分布を考える必要があるが、どの次元がどの分布かという組み合わせの問題が発生する。そこで、各コンポーネントの各次元の周辺分布がどのモデルであるかを、更新パラメータ設定部202で設定し、次元ごとに最適な分布を更新する事で、高速なモデル選択が可能である。
 本発明で提案するモデル選択装置100を利用すると、周辺分布のみでなく、周辺分布間の相関関係を表現するコピュラを同時に推定する事が可能となる。
(異なる属性を用いた混合識別モデルのモデル及び属性選択)
 本発明で提案するモデル選択装置100を利用すると、異なる属性を用いた混合識別モデルのモデル及び属性選択に関して、高速なモデル選択を行う事が可能である。
 例えば、あるコンポーネントに関しては、属性1がデータ識別に関して有効な情報をもち、また別のコンポーネントに関しては、属性2が識別に有効な情報を有する場合は、各コンポーネントによって異なる有効な属性を推定する事が重要となるが、どの属性を利用してどの属性を利用しないかという組み合わせが膨大となってしまう。本発明の技術を利用すると、各コンポーネントにおける各属性の利用の有無を、更新パラメータ設定部202で設定すべきモデル及びパラメータとする事によって、各コンポーネントで識別に有効な属性を高速に推定する事が可能である。
(第1の実施の形態による効果)
 次に本実施の形態の効果について説明する。
 本実施の形態によれば、混合分布の推定において、コンポーネント間に依存性があるモデルに対しても、高速なモデル選択を実現することが可能となる。
 また、本実施の形態によれば、混合分布の推定において、コンポーネントの候補がパラメータに対して急激に増加する場合でも、高速なモデル選択を実現することが可能となる。
 次に、本発明のモデル選択装置100のハードウェア構成例について、図7を参照して説明する。図7はモデル選択装置100のハードウェア構成例を示すブロック図である。
 図7を参照すると、モデル選択装置100は、一般的なコンピュータ装置と同様のハードウェア構成であり、CPU(Central Processing Unit)801、RAM(Random Access Memory)等のメモリからなる、データの作業領域やデータの一時退避領域に用いられる主記憶部802、ネットワークを介してデータの送受信を行う通信部803、入力装置805や出力装置806及び記憶装置807と接続してデータの送受信を行う入出力インタフェース部804、上記各構成要素を相互に接続するシステムバス808を備えている。記憶装置807は、例えば、ROM(Read Only Memory)、磁気ディスク、半導体メモリ等の不揮発性メモリから構成されるハードディスク装置等で実現される。
 本発明のモデル選択装置100のデータ入力部101、混合数設定部102、分布初期化処理部103、モデル最適化処理部104、混合数ループ終了判定処理部105、最適分布選択処理部106、モデル選択結果出力部107は、プログラムを組み込んだ、LSI(Large Scale Integration)等のハードウェア部品である回路部品を実装することにより、その動作をハードウェア的に実現することは勿論として、その機能を提供するプログラムを、記憶装置807に格納し、そのプログラムを主記憶部802にロードしてCPU801で実行することにより、ソフトウェア的に実現することも可能である。
 以上好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも、上記実施の形態に限定されるものでなく、その技術的思想の範囲内において様々に変形して実施することができる。
 なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
 また、本発明の各種の構成要素は、必ずしも個々に独立した存在である必要はなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でもよい。
 また、本発明の方法及びコンピュータプログラムには複数の手順を順番に記載してあるが、その記載の順番は複数の手順を実行する順番を限定するものではない。このため、本発明の方法及びコンピュータプログラムを実施する時には、その複数の手順の順番は内容的に支障しない範囲で変更することができる。
 また、本発明の方法及びコンピュータプログラムの複数の手順は個々に相違するタイミングで実行されることに限定されない。このため、ある手順の実行中に他の手順が発生すること、ある手順の実行タイミングと他の手順の実行タイミングとの一部ないし全部が重複していること、等でもよい。
 さらに、上記実施形態の一部又は全部は、以下の付記のようにも記載されうるが、これに限定されない。
(付記1)
 混合分布に対してモデルを最適化するモデル最適化手段を備え、
 前記モデル最適化手段は、
 完全データの情報量基準に関し、前記完全データの隠れ変数の事後分布について、所定の条件を満たすコンポーネントのモデルおよびパラメータの組に対する前記完全データの期待情報量基準を最適化することを特徴とするモデル選択装置。
(付記2)
 混合数の候補値から最適化が行われていない候補値を選択する混合数設定手段と、
 前記混合数設定手段で選択された混合数を用いてデータの初期化処理を実施する分布初期化手段と、
 全ての混合数の候補値に対して、最適な情報量基準の値が計算されているかを判定し、計算されていないと判定した場合、前記混合数設定手段及び前記分布初期化手段、前記最適化手段による処理を再度行わせる混合数ループ終了判定手段と、
 全ての混合数の候補値に対して計算された情報量基準の値を比較し、情報量基準が最適である混合数を選択する最適分布選択手段とを備え、
 前記モデル最適化手段が、
 前記データの隠れ変数に関する事後分布を計算する隠れ変数の事後分布計算手段と、
 所定の条件を満たすコンポーネントのモデル及びパラメータの組を選択する更新パラメータ設定手段と、
 前記隠れ変数の事後分布計算手段で計算された事後分布に関し、前記更新パラメータ設定手段にて選択したモデル及びパラメータの組について、完全データに対する期待情報量基準を最適化する条件付期待情報量基準最小化手段と、
 前記条件付期待情報量基準最小化手段による最適化により更新されたモデルについて、不完全データに対する情報量基準の値を計算する情報量基準計算手段と、
 前記情報量基準計算手段にて計算した情報量基準の値の最適性を判定し、最適でないと判定した場合に、再度最適化処理を行う最適性判定手段と、
 を含むことを特徴とする付記1に記載のモデル選択装置。
(付記3)
 前記モデル最適化手段が、
 所定の条件を満たすコンポーネントのモデル及びパラメータの組が複数ある場合に、当該組のすべてについて、完全データに対する期待情報量基準の最適化が行われるまで、前記更新パラメータ設定手段と前記条件付期待情報量基準最小化手段による処理を繰り返し行わせる更新パラメータ設定ループ終了判定手段を含むことを特徴とする付記2に記載のモデル選択装置。
(付記4)
 前記情報量基準は、MDL基準であることを特徴とする付記1から付記3の何れか1項に記載のモデル選択装置。
(付記5)
 前記所定の条件は、他のモデル及びパラメータと独立であることを特徴とする付記1から付記4の何れか1項に記載のモデル選択装置。
(付記6)
 多次元データに対して独立性の異なる複数の分布の混合分布に関し、混合の数及び各コンポーネントの独立性を最適化することを特徴とする付記1から付記4の何れか1項にモデル選択装置。
(付記7)
 複数の異なる周辺分布の混合分布に関して、混合の数及び各コンポーネントの周辺分布の種類を最適化することを特徴とする付記1から付記4の何れか1項にモデル選択装置。
(付記8)
 異なる属性を用いた混合識別モデルのモデル及び属性選択に関して、各コンポーネントで識別に有効な属性を最適化することを特徴とする付記1から付記4の何れか1項にモデル選択装置。
(付記9)
 混合分布に対してモデルを最適化するモデル最適化ステップを有し、
 前記モデル最適化ステップは、
 完全データの情報量基準に関し、前記完全データの隠れ変数の事後分布について、所定の条件を満たすコンポーネントのモデルおよびパラメータの組に対する前記完全データの期待情報量基準を最適化することを特徴とするモデル選択方法。
(付記10)
 混合数の候補値から最適化が行われていない候補値を選択する混合数設定ステップと、
 前記混合数設定ステップで選択された混合数を用いてデータの初期化処理を実施する分布初期化ステップと、
 全ての混合数の候補値に対して、最適な情報量基準の値が計算されているかを判定し、計算されていないと判定した場合、前記混合数設定ステップ、前記分布初期化ステップ及び前記最適化ステップによる処理を再度行わせる混合数ループ終了判定ステップと、
 全ての混合数の候補値に対して計算された情報量基準の値を比較し、情報量基準が最適である混合数を選択する最適分布選択ステップとを有し、
 前記モデル最適化ステップが、
 前記データの隠れ変数に関する事後分布を計算する隠れ変数の事後分布計算ステップと、
 所定の条件を満たすコンポーネントのモデル及びパラメータの組を選択する更新パラメータ設定ステップと、
 前記隠れ変数の事後分布計算ステップで計算された事後分布に関し、前記更新パラメータ設定ステップにて選択したモデル及びパラメータの組について、完全データに対する期待情報量基準を最適化する条件付期待情報量基準最小化ステップと、
 前記条件付期待情報量基準最小化ステップによる最適化により更新されたモデルについて、不完全データに対する情報量基準の値を計算する情報量基準計算ステップと、
 前記情報量基準計算ステップにて計算した情報量基準の値の最適性を判定し、最適でないと判定した場合に、再度最適化処理を行う最適性判定ステップと、
 を含むことを特徴とする付記9に記載のモデル選択方法。
(付記11)
 前記モデル最適化ステップが、
 所定の条件を満たすコンポーネントのモデル及びパラメータの組が複数ある場合に、当該組のすべてについて、完全データに対する期待情報量基準の最適化が行われるまで、前記更新パラメータ設定ステップと前記条件付期待情報量基準最小化ステップによる処理を繰り返し行わせる更新パラメータ設定ループ終了判定ステップを含むことを特徴とする付記10に記載のモデル選択方法。
(付記12)
 前記情報量基準は、MDL基準であることを特徴とする付記9から付記11の何れか1項に記載のモデル選択方法。
(付記13)
 前記所定の条件は、他のモデル及びパラメータと独立であることを特徴とする付記9から付記12の何れか1項に記載のモデル選択方法。
(付記14)
 多次元データに対して独立性の異なる複数の分布の混合分布に関し、混合の数及び各コンポーネントの独立性を最適化することを特徴とする付記9から付記12の何れか1項にモデル選択方法。
(付記15)
 複数の異なる周辺分布の混合分布に関して、混合の数及び各コンポーネントの周辺分布の種類を最適化することを特徴とする付記9から付記12の何れか1項にモデル選択方法。
(付記16)
 異なる属性を用いた混合識別モデルのモデル及び属性選択に関して、各コンポーネントで識別に有効な属性を最適化することを特徴とする付記9から付記12の何れか1項にモデル選択方法。
(付記17)
 混合分布に対してモデルを最適化するモデル最適化処理をコンピュータに実行させ、
 前記モデル最適化処理は、
 完全データの情報量基準に関し、前記完全データの隠れ変数の事後分布について、所定の条件を満たすコンポーネントのモデルおよびパラメータの組に対する前記完全データの期待情報量基準を最適化することを特徴とするモデル選択プログラム。
(付記18)
 混合数の候補値から最適化が行われていない候補値を選択する混合数設定処理と、
 前記混合数設定処理で選択された混合数を用いてデータの初期化処理を実施する分布初期化処理と、
 全ての混合数の候補値に対して、最適な情報量基準の値が計算されているかを判定し、計算されていないと判定した場合、前記混合数設定処理、前記分布初期化処理及び前記最適化処理による処理を再度行わせる混合数ループ終了判定処理と、
 全ての混合数の候補値に対して計算された情報量基準の値を比較し、情報量基準が最適である混合数を選択する最適分布選択処理とをコンピュータに実行させ、
 前記モデル最適化処理が、
 前記データの隠れ変数に関する事後分布を計算する隠れ変数の事後分布計算処理と、
 所定の条件を満たすコンポーネントのモデル及びパラメータの組を選択する更新パラメータ設定処理と、
 前記隠れ変数の事後分布計算処理で計算された事後分布に関し、前記更新パラメータ設定処理にて選択したモデル及びパラメータの組について、完全データに対する期待情報量基準を最適化する条件付期待情報量基準最小化処理と、
 前記条件付期待情報量基準最小化処理による最適化により更新されたモデルについて、不完全データに対する情報量基準の値を計算する情報量基準計算処理と、
 前記情報量基準計算処理にて計算した情報量基準の値の最適性を判定し、最適でないと判定した場合に、再度最適化処理を行う最適性判定処理と、をコンピュータに実行させるモデル選択プログラム。
 この出願は、2010年3月3日に出願された日本出願特願2010-046725を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (10)

  1.  混合分布に対してモデルを最適化するモデル最適化手段を備え、
     前記モデル最適化手段は、
     完全データの情報量基準に関し、前記完全データの隠れ変数の事後分布について、所定の条件を満たすコンポーネントのモデルおよびパラメータの組に対する前記完全データの期待情報量基準を最適化することを特徴とするモデル選択装置。
  2.  混合数の候補値から最適化が行われていない候補値を選択する混合数設定手段と、
     前記混合数設定手段で選択された混合数を用いてデータの初期化処理を実施する分布初期化手段と、
     全ての混合数の候補値に対して、最適な情報量基準の値が計算されているかを判定し、計算されていないと判定した場合、前記混合数設定手段及び前記分布初期化手段、前記最適化手段による処理を再度行わせる混合数ループ終了判定手段と、
     全ての混合数の候補値に対して計算された情報量基準の値を比較し、情報量基準が最適である混合数を選択する最適分布選択手段とを備え、
     前記モデル最適化手段が、
     前記データの隠れ変数に関する事後分布を計算する隠れ変数の事後分布計算手段と、
     所定の条件を満たすコンポーネントのモデル及びパラメータの組を選択する更新パラメータ設定手段と、
     前記隠れ変数の事後分布計算手段で計算された事後分布に関し、前記更新パラメータ設定手段にて選択したモデル及びパラメータの組について、完全データに対する期待情報量基準を最適化する条件付期待情報量基準最小化手段と、
     前記条件付期待情報量基準最小化手段による最適化により更新されたモデルについて、不完全データに対する情報量基準の値を計算する情報量基準計算手段と、
     前記情報量基準計算手段にて計算した情報量基準の値の最適性を判定し、最適でないと判定した場合に、再度最適化処理を行う最適性判定手段と、
     を含むことを特徴とする請求項1に記載のモデル選択装置。
  3.  前記モデル最適化手段が、
     所定の条件を満たすコンポーネントのモデル及びパラメータの組が複数ある場合に、当該組のすべてについて、完全データに対する期待情報量基準の最適化が行われるまで、前記更新パラメータ設定手段と前記条件付期待情報量基準最小化手段による処理を繰り返し行わせる更新パラメータ設定ループ終了判定手段を含むことを特徴とする請求項2に記載のモデル選択装置。
  4.  前記情報量基準は、MDL基準であることを特徴とする請求項1から請求項3の何れか1項に記載のモデル選択装置。
  5.  前記所定の条件は、他のモデル及びパラメータと独立であることを特徴とする請求項1から請求項4の何れか1項に記載のモデル選択装置。
  6.  多次元データに対して独立性の異なる複数の分布の混合分布に関し、混合の数及び各コンポーネントの独立性を最適化することを特徴とする請求項1から請求項4の何れか1項にモデル選択装置。
  7.  複数の異なる周辺分布の混合分布に関して、混合の数及び各コンポーネントの周辺分布の種類を最適化することを特徴とする請求項1から請求項4の何れか1項にモデル選択装置。
  8.  異なる属性を用いた混合識別モデルのモデル及び属性選択に関して、各コンポーネントで識別に有効な属性を最適化することを特徴とする請求項1から請求項4の何れか1項にモデル選択装置。
  9.  混合分布に対してモデルを最適化するモデル最適化ステップを有し、
     前記モデル最適化ステップは、
     完全データの情報量基準に関し、前記完全データの隠れ変数の事後分布について、所定の条件を満たすコンポーネントのモデルおよびパラメータの組に対する前記完全データの期待情報量基準を最適化することを特徴とするモデル選択方法。
  10.  混合分布に対してモデルを最適化するモデル最適化処理をコンピュータに実行させ、
     前記モデル最適化処理は、
     完全データの情報量基準に関し、前記完全データの隠れ変数の事後分布について、所定の条件を満たすコンポーネントのモデルおよびパラメータの組に対する前記完全データの期待情報量基準を最適化することを特徴とするモデル選択プログラム。
PCT/JP2011/054883 2010-03-03 2011-03-03 モデル選択装置、モデル選択方法及びモデル選択プログラム WO2011108632A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/582,385 US9208436B2 (en) 2010-03-03 2011-03-03 Model selection device, model selection method and model selection program
JP2012503237A JP5704162B2 (ja) 2010-03-03 2011-03-03 モデル選択装置、モデル選択方法及びモデル選択プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-046725 2010-03-03
JP2010046725 2010-03-03

Publications (1)

Publication Number Publication Date
WO2011108632A1 true WO2011108632A1 (ja) 2011-09-09

Family

ID=44542279

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/054883 WO2011108632A1 (ja) 2010-03-03 2011-03-03 モデル選択装置、モデル選択方法及びモデル選択プログラム

Country Status (3)

Country Link
US (1) US9208436B2 (ja)
JP (1) JP5704162B2 (ja)
WO (1) WO2011108632A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5403456B2 (ja) * 2011-03-18 2014-01-29 日本電気株式会社 多変量データの混合モデル推定装置、混合モデル推定方法および混合モデル推定プログラム
WO2015068330A1 (ja) * 2013-11-05 2015-05-14 日本電気株式会社 モデル推定装置、モデル推定方法およびモデル推定プログラム
CN106156856A (zh) * 2015-03-31 2016-11-23 日本电气株式会社 用于混合模型选择的方法和装置
US11360873B2 (en) 2016-09-06 2022-06-14 Kabushiki Kaisha Toshiba Evaluation device, evaluation method, and evaluation program

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8909582B2 (en) * 2013-02-04 2014-12-09 Nec Corporation Hierarchical latent variable model estimation device, hierarchical latent variable model estimation method, and recording medium
US9489346B1 (en) * 2013-03-14 2016-11-08 The Mathworks, Inc. Methods and systems for early stop simulated likelihood ratio test
US20140344183A1 (en) * 2013-05-20 2014-11-20 Nec Corporation Latent feature models estimation device, method, and program
US9489632B2 (en) * 2013-10-29 2016-11-08 Nec Corporation Model estimation device, model estimation method, and information storage medium
US9355196B2 (en) * 2013-10-29 2016-05-31 Nec Corporation Model estimation device and model estimation method
JP6669075B2 (ja) 2014-10-28 2020-03-18 日本電気株式会社 領域線形モデル最適化システム、方法およびプログラム
TWI735001B (zh) * 2019-06-28 2021-08-01 鴻海精密工業股份有限公司 數據模型選擇優化方法、裝置、電腦裝置及存儲介質
CN112149708A (zh) * 2019-06-28 2020-12-29 富泰华工业(深圳)有限公司 数据模型选择优化方法、装置、计算机装置及存储介质
CN111177657B (zh) * 2019-12-31 2023-09-08 北京顺丰同城科技有限公司 需求确定方法、系统、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005234214A (ja) * 2004-02-19 2005-09-02 Nippon Telegr & Teleph Corp <Ntt> 音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7474997B2 (en) * 2003-04-16 2009-01-06 Sony Corporation Construction and selection of a finite mixture model for use in clustering and vector quantization
JP2009013503A (ja) 2008-09-29 2009-01-22 Showa Denko Kk 切削加工用アルミニウム合金押出材、アルミニウム合金製切削加工品及び自動車部品用バルブ材

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005234214A (ja) * 2004-02-19 2005-09-02 Nippon Telegr & Teleph Corp <Ntt> 音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HIROSHI TENMOTO ET AL.: "Optimal Selection of the Number of Components in Classifiers Based on Mixture Models", IEICE TECHNICAL REPORT, vol. 98, no. 127, 19 June 1998 (1998-06-19), pages 39 - 43 *
RYOHEI FUJIMAKI ET AL.: "Senkei Jikan Ishu Kongo Model Sentaku no Tameno Kitai Johoryo Kijun Saishoka-ho", TECHNICAL REPORT ON INFORMATION-BASED INDUCTION SCIENCES 2009, 19 October 2009 (2009-10-19), pages 312 - 319, XP008171188 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5403456B2 (ja) * 2011-03-18 2014-01-29 日本電気株式会社 多変量データの混合モデル推定装置、混合モデル推定方法および混合モデル推定プログラム
WO2015068330A1 (ja) * 2013-11-05 2015-05-14 日本電気株式会社 モデル推定装置、モデル推定方法およびモデル推定プログラム
JPWO2015068330A1 (ja) * 2013-11-05 2017-03-09 日本電気株式会社 モデル推定装置、モデル推定方法およびモデル推定プログラム
CN106156856A (zh) * 2015-03-31 2016-11-23 日本电气株式会社 用于混合模型选择的方法和装置
US11360873B2 (en) 2016-09-06 2022-06-14 Kabushiki Kaisha Toshiba Evaluation device, evaluation method, and evaluation program

Also Published As

Publication number Publication date
US9208436B2 (en) 2015-12-08
JPWO2011108632A1 (ja) 2013-06-27
US20120323834A1 (en) 2012-12-20
JP5704162B2 (ja) 2015-04-22

Similar Documents

Publication Publication Date Title
JP5704162B2 (ja) モデル選択装置、モデル選択方法及びモデル選択プログラム
Bartoli et al. Adaptive modeling strategy for constrained global optimization with application to aerodynamic wing design
Ilievski et al. Efficient hyperparameter optimization for deep learning algorithms using deterministic rbf surrogates
Di Marzio et al. Kernel density estimation on the torus
Stute et al. Nonparametric checks for single-index models
Angelikopoulos et al. X-TMCMC: Adaptive kriging for Bayesian inverse modeling
KR20160143548A (ko) 인공 신경 네트워크를 자동으로 조정하는 방법 및 장치
JPH06348292A (ja) 音声認識システム
JP2011034177A (ja) 情報処理装置および情報処理方法、並びにプログラム
CN114202072A (zh) 量子体系下的期望值估计方法及系统
Scrucca Genetic algorithms for subset selection in model-based clustering
JP2007200302A (ja) 収束基準を利用する多目的最適化のためのモデルベースおよび遺伝ベースの子孫生成の組み合わせ
JP5332647B2 (ja) モデル選択装置、モデル選択装置の選択方法及びプログラム
US11797507B2 (en) Relation-enhancement knowledge graph embedding method and system
JP2022549844A (ja) 加重平均近傍埋め込みの学習
JP2012181579A (ja) パターン分類の学習装置
Bosman et al. IDEAs based on the normal kernels probability density function
US7133811B2 (en) Staged mixture modeling
Markov et al. Implementation and learning of quantum hidden markov models
Braun trustOptim: An R package for trust region optimization with sparse Hessians
CN114399025A (zh) 一种图神经网络解释方法、系统、终端以及存储介质
Huang et al. Evaluating aleatoric uncertainty via conditional generative models
Li et al. Sparse model identification and learning for ultra-high-dimensional additive partially linear models
US20230289501A1 (en) Reducing Resources in Quantum Circuits
Mitchell et al. Self expanding neural networks

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11750741

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2012503237

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 13582385

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11750741

Country of ref document: EP

Kind code of ref document: A1