KR102153161B1 - Method and system for learning structure of probabilistic graphical model for ordinal data - Google Patents

Method and system for learning structure of probabilistic graphical model for ordinal data Download PDF

Info

Publication number
KR102153161B1
KR102153161B1 KR1020170177372A KR20170177372A KR102153161B1 KR 102153161 B1 KR102153161 B1 KR 102153161B1 KR 1020170177372 A KR1020170177372 A KR 1020170177372A KR 20170177372 A KR20170177372 A KR 20170177372A KR 102153161 B1 KR102153161 B1 KR 102153161B1
Authority
KR
South Korea
Prior art keywords
correlation
sequence data
association
distribution
association learning
Prior art date
Application number
KR1020170177372A
Other languages
Korean (ko)
Other versions
KR20190075631A (en
Inventor
양은호
심하진
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020170177372A priority Critical patent/KR102153161B1/en
Priority to PCT/KR2018/013254 priority patent/WO2019124724A1/en
Publication of KR20190075631A publication Critical patent/KR20190075631A/en
Application granted granted Critical
Publication of KR102153161B1 publication Critical patent/KR102153161B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

확률 그래프 기반의 서열 데이터 연관성 학습 방법 및 시스템이 개시된다. 일 실시예에 따른 연관성 학습 시스템에 의해 수행되는 서열 데이터의 연관성 학습 방법은, 서열 데이터에서 각각의 변수 사이의 상관 관계를 예측하는 단계; 및 상기 각각의 변수 사이에 예측된 상관 관계를 그래프로 제공하는 단계를 포함할 수 있다. Disclosed is a method and system for learning association of sequence data based on a probability graph. A method for learning association of sequence data performed by an association learning system according to an embodiment includes: predicting a correlation between respective variables in sequence data; And providing a predicted correlation between the respective variables as a graph.

Description

확률 그래프 기반의 서열 데이터 연관성 학습 방법 및 시스템{METHOD AND SYSTEM FOR LEARNING STRUCTURE OF PROBABILISTIC GRAPHICAL MODEL FOR ORDINAL DATA}Sequence data association learning method and system based on probability graph {METHOD AND SYSTEM FOR LEARNING STRUCTURE OF PROBABILISTIC GRAPHICAL MODEL FOR ORDINAL DATA}

아래의 설명은 확률 그래프 기반의 서열 데이터 연관성 학습 방법 및 시스템에 관한 것이다.
The following description relates to a method and system for learning association of sequence data based on a probability graph.

마르코프 랜덤 필드(MRF)라고 하는 방향이 지정되지 않은 그래픽 모델은 다변수 무작위 변수를 모델링하는데, 무차별 그래프를 사용하여 변수들 사이의 조건부 독립 구조를 모델링한다. 이러한 조건부 독립 구조는 서로 다른 변수가 서로 상호 작용하는 방식에 대한 유용한 통찰력을 제공한다. 결과적으로 MRF는 자연 언어 처리, 생물학 및 의학 등 다양한 분야에서 광범위하게 사용된다.An undirected graphic model called Markov Random Field (MRF) models a multivariate random variable, which uses a promiscuous graph to model a conditional independent structure between the variables. These conditional independence structures provide useful insights into how different variables interact with each other. As a result, MRF is widely used in various fields such as natural language processing, biology and medicine.

한국공개특허 제10-2013-0052432호는 마르코프 연쇄 은닉 조건부 랜덤 필드 모델 기반의 패턴 인식 방법에 관한 것으로, 특정 패턴에 대하여 측정되는 트레이닝 입력 신호로부터의 특징 벡터를 추출하고, 전체 공분산 가우스 분포의 조합을 적용한 은닉 조건부 랜덤 필드 모델이, 특징 벡터와 상기 특정 패 턴을 지시하는 라벨의 조합을 다수 개 입력 받아서 은닉 조건부 랜덤 필드 모델의 매개 변수를 구하고, 매개 변수가 적용된 은닉 조건부 랜덤 필드 모델이, 실제 패턴에 대하여 측정되는 테스트 입력 신호로부터 추출된 특징 벡터를 입력 받아서 실제 패턴을 지시하는 라벨을 추론하는 구성을 개시하고 있다.
Korean Patent Laid-Open Publication No. 10-2013-0052432 relates to a pattern recognition method based on a Markov chain concealment conditional random field model, extracting a feature vector from a training input signal measured for a specific pattern, and combining the entire covariance Gaussian distribution. The hidden conditional random field model to which the parameter is applied receives a plurality of combinations of feature vectors and labels indicating the specific pattern to obtain the parameters of the hidden conditional random field model, and the hidden conditional random field model to which the parameter is applied is actually Disclosed is a configuration in which a label indicating an actual pattern is inferred by receiving a feature vector extracted from a test input signal measured for a pattern.

확률 그래프 기반의 서열 데이터 연관성 학습 방법 및 시스템을 제공할 수 있다.
Probability graph-based sequence data association learning method and system can be provided.

연관성 학습 시스템에 의해 수행되는 서열 데이터의 연관성 학습 방법은, 서열 데이터에서 각각의 변수 사이의 상관 관계를 예측하는 단계; 및 상기 각각의 변수 사이에 예측된 상관 관계를 그래프로 제공하는 단계를 포함할 수 있다. A method for learning association of sequence data performed by an association learning system includes: predicting a correlation between respective variables in sequence data; And providing a predicted correlation between the respective variables as a graph.

상기 서열 데이터에서 각각의 변수 사이의 상관 관계를 예측하는 단계는, 상기 변수에 대한 단변량 서열 분포를 통해 노드 조건부 분포를 지정하고, 상기 지정된 노드 조건부 분포에 대한 분석을 수행하여 결합 분포를 탐색하는 단계를 포함할 수 있다. The step of predicting the correlation between each variable in the sequence data includes designating a node conditional distribution through a univariate sequence distribution for the variable, and searching for a binding distribution by performing analysis on the designated node conditional distribution. It may include steps.

상기 서열 데이터에서 각각의 변수 사이의 상관 관계를 예측하는 단계는, 도메인

Figure 112017127829023-pat00001
를 포함하는 p차원의 확률 벡터
Figure 112017127829023-pat00002
이고, 각각의 확률 변수
Figure 112017127829023-pat00003
에 대응하는 노드를 갖는 그래프를
Figure 112017127829023-pat00004
라고 하면, 확률 벡터의 모든 노드 조건부 분포가 수학식 1(
Figure 112017127829023-pat00005
)의 단변량 누적 비율 모델에 적용될 경우, 각 노드
Figure 112017127829023-pat00006
에 대하여, 위치 파라미터
Figure 112017127829023-pat00007
가 나머지 변수의 임의 함수일 수 있다. Predicting the correlation between each variable in the sequence data, the domain
Figure 112017127829023-pat00001
P-dimensional probability vector containing
Figure 112017127829023-pat00002
And each random variable
Figure 112017127829023-pat00003
A graph with nodes corresponding to
Figure 112017127829023-pat00004
If, then, the conditional distribution of all nodes of the probability vector is Equation 1 (
Figure 112017127829023-pat00005
), when applied to the univariate cumulative ratio model, each node
Figure 112017127829023-pat00006
Regarding, the location parameter
Figure 112017127829023-pat00007
Can be any function of the remaining variables.

상기 서열 데이터에서 각각의 변수 사이의 상관 관계를 예측하는 단계는, 도메인

Figure 112017127829023-pat00008
를 포함하는 p 차원의 확률 벡터
Figure 112017127829023-pat00009
에서, 각각의 확률 변수
Figure 112017127829023-pat00010
에 대응하는 노드를 갖는 그래프를
Figure 112017127829023-pat00011
라고 하면, 확률 벡터의 모든 노드 조건부 분포가 수학식 2(
Figure 112017127829023-pat00012
)의 단변수 연속 비율 모델에 적용될 경우, 각 노드
Figure 112017127829023-pat00013
에 대하여, 위치 파라미터
Figure 112017127829023-pat00014
가 나머지 변수의 임의 함수이고,
Figure 112017127829023-pat00015
에 대하여, 특정 노드 조건부 분포가 확률 벡터 Y를 통한 임의의 결합 분포에 대한 마르코프와 일치하지 않는
Figure 112017127829023-pat00016
실수값 파라미터가 존재할 수 있다. Predicting the correlation between each variable in the sequence data, the domain
Figure 112017127829023-pat00008
P-dimensional probability vector containing
Figure 112017127829023-pat00009
In, each random variable
Figure 112017127829023-pat00010
A graph with nodes corresponding to
Figure 112017127829023-pat00011
If, then, the conditional distribution of all nodes of the probability vector is Equation 2 (
Figure 112017127829023-pat00012
), when applied to a univariate continuous ratio model, each node
Figure 112017127829023-pat00013
Regarding, the location parameter
Figure 112017127829023-pat00014
Is an arbitrary function of the remaining variables,
Figure 112017127829023-pat00015
For, a certain node conditional distribution does not match Markov's for any joint distribution through the probability vector Y
Figure 112017127829023-pat00016
There may be real value parameters.

상기 서열 데이터에서 각각의 변수 사이의 상관 관계를 예측하는 단계는, 서열 확률 변수

Figure 112017127829023-pat00017
에 대한 연속 비율 모델은 충분한 통계
Figure 112017127829023-pat00018
:
Figure 112017127829023-pat00019
를 갖는 지수족에 포함되며,
Figure 112017127829023-pat00020
이고, 서열 확률 벡터
Figure 112017127829023-pat00021
에 대하여 노드 조건부 분포를 지정하기 위하여 단변량 서열 분포를 사용할 경우, 각 노드
Figure 112017127829023-pat00022
에 대해 수학식 3(
Figure 112017127829023-pat00023
)과 같이 표현하고,
Figure 112017127829023-pat00024
에 대해
Figure 112017127829023-pat00025
이고, 위치 파라미터
Figure 112017127829023-pat00026
가 나머지 변수의 임의 함수일 수 있다. Predicting the correlation between each variable in the sequence data, the sequence random variable
Figure 112017127829023-pat00017
The continuous ratio model for
Figure 112017127829023-pat00018
:
Figure 112017127829023-pat00019
It is included in the exponential family having
Figure 112017127829023-pat00020
Is, the sequence random vector
Figure 112017127829023-pat00021
When using a univariate sequence distribution to specify a node conditional distribution for each node
Figure 112017127829023-pat00022
For Equation 3(
Figure 112017127829023-pat00023
), and
Figure 112017127829023-pat00024
About
Figure 112017127829023-pat00025
And the positional parameter
Figure 112017127829023-pat00026
Can be any function of the remaining variables.

상기 서열 데이터에서 각각의 변수 사이의 상관 관계를 예측하는 단계는, 상기 노드 조건부 분포가 결합 분포와 일치하는 단계를 포함하고, 상기 그래프

Figure 112017127829023-pat00027
와 관련하여, 마르코프인 결합 분포와 일치하며 크기가 가장 큰 2개의 요소를 갖는 쌍으로 된 경우, 수학식 4(
Figure 112017127829023-pat00028
)와 같이 표현되고, 상기 연속 비율 모델의 파라미터를 추정하기 위하여, 각 노드
Figure 112017127829023-pat00029
에서 정규화된 노드 조건부 로그 우드 최대화 문제를 해결할 수 있다. Predicting the correlation between each variable in the sequence data includes the step of matching the node conditional distribution with the binding distribution, the graph
Figure 112017127829023-pat00027
In relation to, if the paired with the two elements of the largest size coinciding with the Markovin bond distribution, Equation 4 (
Figure 112017127829023-pat00028
), and to estimate the parameters of the continuous ratio model, each node
Figure 112017127829023-pat00029
The node conditional logwood maximization problem normalized in can be solved.

상기 서열 데이터에서 각각의 변수 사이의 상관 관계를 예측하는 단계는, 다변량 양자화 서열 분포에서 다변량 잠재 확률 벡터가 다변량 가우시안인 경우, 다변량 프로빗 모델로 불리며, 종속성이 가우스 분포를 통하여 잠재적인 확률 벡터에 의해 표현되고, 상기 다변량 프로빗 모델에서, 서열 확률 벡터

Figure 112017127829023-pat00030
는 잠재 다변량 가우시안 확률 벡터
Figure 112017127829023-pat00031
에 의해 생성되고,
Figure 112017127829023-pat00032
Figure 112017127829023-pat00033
일 때, 각
Figure 112017127829023-pat00034
Figure 112017127829023-pat00035
의 이산화를 통해 획득될 수 있다. The step of predicting the correlation between each variable in the sequence data is, when the multivariate latent probability vector in the multivariate quantization sequence distribution is multivariate Gaussian, it is called a multivariate probit model, and the dependency is on the potential probability vector through a Gaussian distribution. And in the multivariate probit model, a sequence random vector
Figure 112017127829023-pat00030
Is a latent multivariate Gaussian random vector
Figure 112017127829023-pat00031
Created by,
Figure 112017127829023-pat00032
Wow
Figure 112017127829023-pat00033
When, each
Figure 112017127829023-pat00034
end
Figure 112017127829023-pat00035
Can be obtained through the discretization of

상기 서열 데이터에서 각각의 변수 사이의 상관 관계를 예측하는 단계는,

Figure 112017127829023-pat00036
, iff
Figure 112017127829023-pat00037
일 때,
Figure 112017127829023-pat00038
는 임계값이
Figure 112017127829023-pat00039
,
Figure 112017127829023-pat00040
으로 설정되며, Y의 밀도 함수,
Figure 112017127829023-pat00041
가 수학식 5(
Figure 112017127829023-pat00042
)와 같이 제안되고,
Figure 112017127829023-pat00043
Figure 112017127829023-pat00044
Figure 112017127829023-pat00045
에 의하여 정의된 하이퍼큐브일 수 있다. Predicting the correlation between each variable in the sequence data,
Figure 112017127829023-pat00036
, iff
Figure 112017127829023-pat00037
when,
Figure 112017127829023-pat00038
Is the threshold
Figure 112017127829023-pat00039
,
Figure 112017127829023-pat00040
Is set to the density function of Y,
Figure 112017127829023-pat00041
Equation 5(
Figure 112017127829023-pat00042
) Is proposed as,
Figure 112017127829023-pat00043
Wow
Figure 112017127829023-pat00044
end
Figure 112017127829023-pat00045
It may be a hypercube defined by.

상기 서열 데이터에서 각각의 변수 사이의 상관 관계를 예측하는 단계는,

Figure 112017127829023-pat00046
가 파라미터
Figure 112017127829023-pat00047
를 포함하는 프로빗 모델로부터 유도된 확률 벡터 Y로부터 실현될 경우,
Figure 112017127829023-pat00048
로부터 파라미터
Figure 112017127829023-pat00049
를 학습하는
Figure 112017127829023-pat00050
-정규화된 최대 우드(ML) 추정기가 수학식 6(
Figure 112017127829023-pat00051
)과 같은 형식으로 표시되고,
Figure 112017127829023-pat00052
가 diagonal entries를 제외한 항목별
Figure 112017127829023-pat00053
표준일 수 있다. Predicting the correlation between each variable in the sequence data,
Figure 112017127829023-pat00046
Parameter
Figure 112017127829023-pat00047
When realized from a probability vector Y derived from a probit model containing
Figure 112017127829023-pat00048
Parameters from
Figure 112017127829023-pat00049
To learn
Figure 112017127829023-pat00050
-Normalized maximum Wood (ML) estimator is Equation 6 (
Figure 112017127829023-pat00051
), and
Figure 112017127829023-pat00052
Is by item excluding diagonal entries
Figure 112017127829023-pat00053
It can be standard.

상기 서열 데이터에서 각각의 변수 사이의 상관 관계를 예측하는 단계는, 상기 프로빗 그래프 모델 분포에서 알려지지 않은 파라미터를 추정하기 위하여 단변량 주변에서 임계값

Figure 112017127829023-pat00054
를 추정하고, 이변량 주변 분포로부터 polychoric 상관 관계
Figure 112017127829023-pat00055
를 추정할 수 있다. The step of predicting the correlation between each variable in the sequence data includes a threshold value around a univariate in order to estimate an unknown parameter in the probit graph model distribution.
Figure 112017127829023-pat00054
And the polychoric correlation from the distribution around the bivariate
Figure 112017127829023-pat00055
Can be estimated.

상기 서열 데이터에서 각각의 변수 사이의 상관 관계를 예측하는 단계는, 상기 이변량 주변 분포로부터 polychoric 상관 관계

Figure 112017127829023-pat00056
를 추정하기 위하여, 이변량 주변 우도로부터 원시 추정치
Figure 112017127829023-pat00057
를 계산하고, sparse 잠재 그래프와 평활화된 추정치
Figure 112017127829023-pat00058
를 추정하기 위하여 예측된 공분산 행렬
Figure 112017127829023-pat00059
을 그래픽 lasso 추정기로 플러그인할 수 있다. Predicting the correlation between each variable in the sequence data, polychoric correlation from the distribution around the bivariate
Figure 112017127829023-pat00056
To estimate, the raw estimate from the likelihood around the bivariate
Figure 112017127829023-pat00057
And the sparse latent graph and smoothed estimate
Figure 112017127829023-pat00058
Covariance matrix predicted to estimate
Figure 112017127829023-pat00059
Can be plugged into a graphical lasso estimator.

상기 서열 데이터에서 각각의 변수 사이의 상관 관계를 예측하는 단계는,

Figure 112017127829023-pat00060
에 대해
Figure 112017127829023-pat00061
를 추정하면,
Figure 112017127829023-pat00062
의 결합 분포는 확률
Figure 112017127829023-pat00063
를 갖는 다항식이고, 확률 변수
Figure 112017127829023-pat00064
,
Figure 112017127829023-pat00065
의 확률 분포가 평균 [0, 0]과 공분산
Figure 112017127829023-pat00066
를 갖는 이변량 정규 분포이며,
Figure 112017127829023-pat00067
, 이변량 주변 로그 우도 함수를 최대화함으로써 파라미터
Figure 112017127829023-pat00068
를 수학식 7 (
Figure 112017127829023-pat00069
)을 통해 추정하고,
Figure 112017127829023-pat00070
,
Figure 112017127829023-pat00071
일 수 있다. Predicting the correlation between each variable in the sequence data,
Figure 112017127829023-pat00060
About
Figure 112017127829023-pat00061
If you estimate
Figure 112017127829023-pat00062
The combined distribution of the probability
Figure 112017127829023-pat00063
Is a polynomial with
Figure 112017127829023-pat00064
,
Figure 112017127829023-pat00065
The probability distribution of is covariates with the mean [0, 0]
Figure 112017127829023-pat00066
Is a bivariate normal distribution with
Figure 112017127829023-pat00067
, Parameters by maximizing the log likelihood function around the bivariate
Figure 112017127829023-pat00068
Equation 7 (
Figure 112017127829023-pat00069
) Through estimation,
Figure 112017127829023-pat00070
,
Figure 112017127829023-pat00071
Can be

상기 서열 데이터에서 각각의 변수 사이의 상관 관계를 예측하는 단계는, 상기

Figure 112017127829023-pat00072
를 추정하기 위하여
Figure 112017127829023-pat00073
를 추정기
Figure 112017127829023-pat00074
로 대체하고, 수학식 8(
Figure 112017127829023-pat00075
)과 같이 로그 우도를 최대화하고,
Figure 112017127829023-pat00076
Figure 112017127829023-pat00077
의 도메인이며, (-1, 1)일 수 있다. Predicting the correlation between each variable in the sequence data, the
Figure 112017127829023-pat00072
To estimate
Figure 112017127829023-pat00073
Estimator
Figure 112017127829023-pat00074
And Equation 8 (
Figure 112017127829023-pat00075
) To maximize the log likelihood,
Figure 112017127829023-pat00076
silver
Figure 112017127829023-pat00077
Domain of, and may be (-1, 1).

상기 서열 데이터에서 각각의 변수 사이의 상관 관계를 예측하는 단계는, 그래프의 구조와 최종 공분산을 획득하기 위하여 파라 메트릭 가우시안 그래프 모델 추정기에

Figure 112017127829023-pat00078
를 플러그인할 수 있다. The step of predicting the correlation between each variable in the sequence data may be performed by using a parametric Gaussian graph model estimator to obtain the structure of the graph and the final covariance.
Figure 112017127829023-pat00078
Can be plugged in.

연관성 학습 시스템은, 서열 데이터에서 각각의 변수 사이의 상관 관계를 예측하는 예측부; 및 상기 각각의 변수 사이에 예측된 상관 관계를 그래프로 제공하는 제공부를 포함할 수 있다.
The association learning system includes: a prediction unit that predicts a correlation between each variable in sequence data; And a providing unit that provides a predicted correlation between the respective variables in a graph.

일 실시예에 따른 연관성 학습 시스템은 서열 데이터의 분석을 통한 관계성의 파악이 가능해진다. The association learning system according to an embodiment enables identification of the relationship through analysis of sequence data.

일 실시예에 따른 연관성 학습 시스템은 서열 데이터 분석에 있어서 변수들 사이의 연관 관계를 파악하여 데이터의 생성 및 구조에 대한 이해를 높일 수 있다.The association learning system according to an embodiment may increase an understanding of the generation and structure of data by grasping the association between variables in sequence data analysis.

일 실시예에 따른 연관성 학습 시스템은 각각의 변수들 사이의 연관성에 기반하여 특정 정보를 추천할 수 있다.
The association learning system according to an embodiment may recommend specific information based on the association between respective variables.

도 1은 일 실시예에 있어서, 체인 그래프 구조가 있는 프로빗 모델로부터 데이터가 생성될 때의 다양한 추정치를 비교한 것을 나타낸 것이다
도 2 및 3은 일 실시예에 있어서, 2D 그리드 구조 (10 x 5 그리드)가있는 Consec 모델에서 샘플링한 데이터를 나타낸 것이다.
도 4는 일 실시예에 있어서, SmokeNow 및 사회 인구 학적 지표에 해당하는 잠재 잠정 그래프 구조를 나타낸 것이다.
도 5는 일 실시예에 따른 연관성 학습 시스템의 구성을 설명하기 위한 블록도이다.
도 6은 일 실시예에 따른 연관성 학습 시스템에서 연관성 학습을 수행하는 방법을 설명하기 위한 흐름도이다.
1 shows a comparison of various estimates when data is generated from a probit model having a chain graph structure in an embodiment.
2 and 3 show data sampled from a Consec model with a 2D grid structure (10 x 5 grid) in one embodiment.
FIG. 4 shows a potential tentative graph structure corresponding to SmokeNow and socio-demographic indicators in an embodiment.
5 is a block diagram illustrating a configuration of a relevance learning system according to an embodiment.
6 is a flowchart illustrating a method of performing association learning in the association learning system according to an embodiment.

이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.
Hereinafter, embodiments will be described in detail with reference to the accompanying drawings.

도 5는 일 실시예에 따른 연관성 학습 시스템의 구성을 설명하기 위한 블록도이고, 도 6은 일 실시예에 따른 연관성 학습 시스템에서 연관성 학습을 수행하는 방법을 설명하기 위한 흐름도이다. 5 is a block diagram illustrating a configuration of a association learning system according to an embodiment, and FIG. 6 is a flowchart illustrating a method of performing association learning in a association learning system according to an embodiment.

연관성 학습 시스템(100)은 확률 그래프 기반의 서열 데이터 연관성을 학습하기 위한 것으로, 예측부(510) 및 제공부(520)를 포함할 수 있다. 연관성 학습 시스템의 구성 요소들은 도 6의 연관성 학습을 수행하는 방법이 포함하는 단계들(610 내지 620)을 수행하도록 연관성 학습 시스템(100)을 제어할 수 있다. The association learning system 100 is for learning the association of sequence data based on a probability graph, and may include a prediction unit 510 and a providing unit 520. Components of the association learning system may control the association learning system 100 to perform steps 610 to 620 included in the method for performing association learning of FIG. 6.

단계(610)에서 예측부(510)는 서열 데이터에서 각각의 변수들 사이의 상관 관계를 예측할 수 있고, 단계(620)에서 제공부(520)는 각각의 변수들 사이에 예측된 상관 관계를 그래프로 제공할 수 있다. 이하, 아래의 설명에서는 확률 그래프 기반의 서열 데이터 연관성을 학습하는 것에 대하여 구체적으로 설명하기로 한다.In step 610, the prediction unit 510 may predict the correlation between each variable in the sequence data, and in step 620, the provider 520 graphs the predicted correlation between the respective variables. Can be provided as Hereinafter, in the following description, learning of sequence data association based on a probability graph will be described in detail.

다변량 확률 비율 기반 모델에 대하여 설명하기로 한다. 첫번째로, 종래의 단변수 서열 분포를 통해 노드 조건부 분포를 지정하고 해머슬리-클리포드-에스크(Hammersley-Clifford-esque) 분석을 통해 해당 결합 분포를 탐색할 수 있다.A model based on a multivariate probability ratio will be described. First, it is possible to designate a node conditional distribution through a conventional univariate sequence distribution, and search for the corresponding binding distribution through Hammersley-Clifford-esque analysis.

- Univariate Latent Quantified Ordinal Models를 통한 MRF-MRF through Univariate Latent Quantified Ordinal Models

CDF가

Figure 112017127829023-pat00079
로 표시되는 실수값 잠재 확률 변수
Figure 112017127829023-pat00080
가 있다고 가정하자. 여기서,
Figure 112017127829023-pat00081
는 분포의 위치 파라미터이다. 서열 확률 변수
Figure 112017127829023-pat00082
는 어떤 일부 위치(또는 컷 포인트) 파라미터
Figure 112017127829023-pat00083
,
Figure 112017127829023-pat00084
에 대해
Figure 112017127829023-pat00085
,
Figure 112017127829023-pat00086
와 같은 실수값 변수 Z의 이산화된 버전으로 작성될 수 있다.CDF
Figure 112017127829023-pat00079
Real-valued latent random variable represented by
Figure 112017127829023-pat00080
Suppose there is. here,
Figure 112017127829023-pat00081
Is the positional parameter of the distribution. Sequence random variable
Figure 112017127829023-pat00082
Is some position (or cut point) parameter
Figure 112017127829023-pat00083
,
Figure 112017127829023-pat00084
About
Figure 112017127829023-pat00085
,
Figure 112017127829023-pat00086
Can be written as a discrete version of the real-valued variable Z, such as

서열 변수 Y의 확률 질량 함수는 다음과 같이 나타낼 수 있다.The probability mass function of the sequence variable Y can be expressed as follows.

수학식 1:Equation 1:

Figure 112017127829023-pat00087
Figure 112017127829023-pat00087

잠재 실수값 변수 Z에 대한 대중적인 분포는 단변량 로지스틱 분포이고, 여기서,

Figure 112017127829023-pat00088
는 즉 위의 함수
Figure 112017127829023-pat00089
가 로지스틱 함수
Figure 112017127829023-pat00090
가 되도록 한다. 이 경우, 앞서 설명한 분포는 로그-오즈비의 측면에서도 보다 간결한 형식으로 표현될 수 있다. The popular distribution for the real latent variable Z is the univariate logistic distribution, where
Figure 112017127829023-pat00088
Is the above function
Figure 112017127829023-pat00089
Logistic function
Figure 112017127829023-pat00090
Let it be. In this case, the distribution described above can be expressed in a more concise form in terms of log-ods ratio.

Figure 112017127829023-pat00091
Figure 112017127829023-pat00091

따라서 서열 분포의 계급을 누적 비율 모델이라고도 부른다. Hence, the rank of the sequence distribution is also called the cumulative proportion model.

수학식 1의 단변량 서열 분포를 사용하여 노드 조건부 분포를 지정하고 일관된 결합 분포를 도출할 수 있다. The univariate sequence distribution of Equation 1 can be used to specify a node conditional distribution and derive a consistent binding distribution.

Figure 112017127829023-pat00092
를 p차원의 서열 확률 벡터라고 하자. 표기법을 단순화하기 위하여, 후속에서 확률 변수
Figure 112017127829023-pat00093
의 도메인은 동일하고,
Figure 112017127829023-pat00094
와 같다고 가정한다.
Figure 112017127829023-pat00095
를 각각의 확률 변수에 대응하는 노드로 나타낸 그래프라고 하자.
Figure 112017127829023-pat00092
Let be the p-dimensional sequence probability vector. To simplify the notation, random variables in the subsequent
Figure 112017127829023-pat00093
The domain of is the same,
Figure 112017127829023-pat00094
Is assumed to be equal to
Figure 112017127829023-pat00095
Let be a graph represented by nodes corresponding to each random variable.

Figure 112017127829023-pat00096
에 대하여, 수학식 2와 같이 표현할 수 있다. bracket
Figure 112017127829023-pat00096
With respect to, it can be expressed as in Equation 2.

수학식 2:Equation 2:

Figure 112017127829023-pat00097
Figure 112017127829023-pat00097

여기서, 위치 파라미터

Figure 112017127829023-pat00098
는 나머지 변수들의 임의의 함수이고,
Figure 112017127829023-pat00099
는 로지스틱 함수이다. 노드 조건부 분포가 일관된 결합 분포로 이어지지 않는 것을 증명하는 다음의 정리를 제시한다. Where, the position parameter
Figure 112017127829023-pat00098
Is an arbitrary function of the remaining variables,
Figure 112017127829023-pat00099
Is a logistic function. We present the following theorem, which proves that the node conditional distribution does not lead to a consistent joint distribution.

정리 1: 도메인

Figure 112017127829023-pat00100
를 포함하는 p차원의 확률 벡터
Figure 112017127829023-pat00101
고려하자. 그리고, 각각의 확률 변수
Figure 112017127829023-pat00102
에 대응하는 노드를 가진 그래프를
Figure 112017127829023-pat00103
라 하자. 확률 벡터의 모든 노드 조건부 분포가 수학식 2의 단변량 누적 비율 모델을 따른다고 가정하면, 각 노드
Figure 112017127829023-pat00104
에 대하여, 위치 파라미터
Figure 112017127829023-pat00105
는 나머지 변수의 임의 함수이다. Theorem 1: domain
Figure 112017127829023-pat00100
P-dimensional probability vector containing
Figure 112017127829023-pat00101
Let's consider. And, each random variable
Figure 112017127829023-pat00102
A graph with nodes corresponding to
Figure 112017127829023-pat00103
Let's do it. Assuming that the conditional distribution of all nodes of the probability vector follows the univariate cumulative proportion model of Equation 2, each node
Figure 112017127829023-pat00104
Regarding, the location parameter
Figure 112017127829023-pat00105
Is an arbitrary function of the remaining variables.

그러면,

Figure 112017127829023-pat00106
에 대하여, 특정 노드-조건부 분포가 크기가 최대 2인 그래프 G에 대한 Markov인 Y에 대한 임의의 결합 분포와 일치하지 않는 실수값 파라미터
Figure 112017127829023-pat00107
가 존재한다. then,
Figure 112017127829023-pat00106
For, a real-valued parameter in which a particular node-conditional distribution does not match any joint distribution for Y, which is Markov for a graph G with a size of up to 2
Figure 112017127829023-pat00107
Exists.

-MRFs via Continuation Ratio Models 통한 MRF-MRFs via Continuation Ratio Models

누적 비율 모델에 밀접한 관계가 있는 로그-오즈 비율의 수정이 고려된다. A modification of the log-odd ratio, which is closely related to the cumulative ratio model, is considered.

Figure 112017127829023-pat00108
Figure 112017127829023-pat00108

단변량 확률 분포 클래스는 연속 비율 모델이라고도 한다. 위의 로그-오즈 비율 비율에서

Figure 112017127829023-pat00109
를 나타낼 때, 확률 변수 Y의 확률 질량 함수(RMF)는 다음과 같이 유도될 수 있다.The univariate probability distribution class is also referred to as a continuous ratio model. From the log-odd ratio above
Figure 112017127829023-pat00109
When represents, the probability mass function RMF of the random variable Y can be derived as follows.

수학식 3:Equation 3:

Figure 112017127829023-pat00110
에 대해,
Figure 112017127829023-pat00110
About,

Figure 112017127829023-pat00111
Figure 112017127829023-pat00111

그러면,

Figure 112017127829023-pat00112
는 다음과 같이 수정될 수 있다. then,
Figure 112017127829023-pat00112
Can be modified as follows.

Figure 112017127829023-pat00113
, PMF의 합계는 1이 된다.
Figure 112017127829023-pat00113
, The sum of PMF becomes 1.

특히, 각 노드

Figure 112017127829023-pat00114
에 대해 수학식 4를 가지고 있다고 가정하기로 하자.Specifically, each node
Figure 112017127829023-pat00114
Suppose we have Equation 4 for

수학식 4:Equation 4:

Figure 112017127829023-pat00115
Figure 112017127829023-pat00115

여기서,

Figure 112017127829023-pat00116
과 위치 파라미터
Figure 112017127829023-pat00117
는 나머지 변수의 임의 함수이다. 다음 정리는 이러한 노드 조건부 분포가 일관된 결합 분포로 나타나지 않는 것을 증명한다. here,
Figure 112017127829023-pat00116
And position parameters
Figure 112017127829023-pat00117
Is an arbitrary function of the remaining variables. The following theorem proves that this node conditional distribution does not appear as a coherent joint distribution.

정리 2: 도메인

Figure 112017127829023-pat00118
를 포함하는 p 차원의 확률 벡터
Figure 112017127829023-pat00119
를 고려한다.
Figure 112017127829023-pat00120
는 각각의 확률 변수
Figure 112017127829023-pat00121
에 대응하는 노드를 갖는 그래프라고 가정하자. 확률 벡터의 모든 노드 조건부 분포가 수학식 4의 단변수 연속 비율 모델을 따른다고 가정하면, 각 노드
Figure 112017127829023-pat00122
에 대하여, 위치 파라미터
Figure 112017127829023-pat00123
는 나머지 변수의 임의 함수이다.Theorem 2: domain
Figure 112017127829023-pat00118
P-dimensional probability vector containing
Figure 112017127829023-pat00119
Consider.
Figure 112017127829023-pat00120
Is each random variable
Figure 112017127829023-pat00121
Suppose it is a graph with nodes corresponding to. Assuming that the conditional distribution of all nodes of the probability vector follows the univariate continuous ratio model of Equation 4, each node
Figure 112017127829023-pat00122
Regarding, the location parameter
Figure 112017127829023-pat00123
Is an arbitrary function of the remaining variables.

그러면,

Figure 112017127829023-pat00124
에 대하여, 특정 노드 조건부 분포가 Y를 통한 임의의 결합 분포, 즉, 무방향성 그래프 G에 대한 마르코프와 일치하지 않는
Figure 112017127829023-pat00125
실수값 파라미터 가 존재한다.then,
Figure 112017127829023-pat00124
For, a certain node conditional distribution does not coincide with an arbitrary joint distribution through Y, that is, Markov for an undirected graph G
Figure 112017127829023-pat00125
There are real-valued parameters.

-MRFs via a Consecutive Ratio model 통한 MRF-MRF through MRFs via a Consecutive Ratio model

단변량 누적 비율 모델 및 연속 비율 모델은 지수족에 비포함되고, 특히 이러한 분포에 속하는 노드 조건부에 일관성 있는 결합이 존재할 수 있도록 하는 규칙성을 갖고 있지 않다는 것이다. 다시 말해서, 단변량 누적 비율 모델 및 연속 비율 모델에서 각 노드 조건부 분포가 비규칙성을 가진다. The univariate cumulative proportion model and the continuous proportion model are not included in the exponential family, and in particular, they do not have a regularity that allows a coherent coupling to exist in the node conditionals belonging to this distribution. In other words, each node conditional distribution has irregularities in the univariate cumulative ratio model and the continuous ratio model.

다음과 같이 정의되는 연속 비율 모델이라고 불리는 단변수 서열 분포의 세번째 클래스를 고려한다.Consider a third class of univariate sequence distribution called a continuous ratio model, defined as:

Figure 112017127829023-pat00126
Figure 112017127829023-pat00126

아래에서 볼 수 있듯이 서열 분포는 앞서 설명한 서열 분포와 달리 지수족에 포함된다. As can be seen below, the sequence distribution is included in the exponential family, unlike the sequence distribution described above.

명제 1: 서열 확률 변수

Figure 112017127829023-pat00127
에 대한 연속 비율 모델은 충분한 통계
Figure 112017127829023-pat00128
:
Figure 112017127829023-pat00129
를 갖는 지수족에 속하며,
Figure 112017127829023-pat00130
이다.Proposition 1: Sequence random variable
Figure 112017127829023-pat00127
The continuous ratio model for
Figure 112017127829023-pat00128
:
Figure 112017127829023-pat00129
Belongs to the exponential family with
Figure 112017127829023-pat00130
to be.

서열 확률 벡터

Figure 112017127829023-pat00131
에 대해 노드 조건부 분포를 지정하기 위하여 단변량 서열 분포를 사용한다고 가정하자. 특히, 각 노드
Figure 112017127829023-pat00132
에 대해, 수학식 5와 같이 표현할 수 있다.Sequence random vector
Figure 112017127829023-pat00131
Suppose we use a univariate sequence distribution to specify a node conditional distribution for. Specifically, each node
Figure 112017127829023-pat00132
For can be expressed as in Equation 5.

수학식 5:Equation 5:

Figure 112017127829023-pat00133
Figure 112017127829023-pat00133

여기서,

Figure 112017127829023-pat00134
에 대해
Figure 112017127829023-pat00135
이고, 위치 파라미터
Figure 112017127829023-pat00136
는 나머지 변수의 임의 함수이다. 노드 조건부 분포는 단변량 지수족에 속하기 때문에 명제 1을 적용하면 다음 정리를 산출할 수 있다. here,
Figure 112017127829023-pat00134
About
Figure 112017127829023-pat00135
And the positional parameter
Figure 112017127829023-pat00136
Is an arbitrary function of the remaining variables. Since the node conditional distribution belongs to the univariate exponential family, applying the proposition 1 can yield the following theorem.

정리 3: 수학식 5에서 노드 조건부 분포는 결합 분포와 일치한다.Theorem 3: In Equation 5, the node conditional distribution matches the joint distribution.

무방향 그래프

Figure 112017127829023-pat00137
와 관련하여, 마르코프인 결합 분포와 일치하며, 크기가 가장 큰 2개의 요소를 갖는 쌍으로 된 경우에는 다음과 같은 형식을 취할 수 있다. Undirected graph
Figure 112017127829023-pat00137
Regarding, in the case of a pair with two elements of the largest size, consistent with the Markovin bond distribution, the following form can be taken:

Figure 112017127829023-pat00138
Figure 112017127829023-pat00138

정리 3에서 분포는 수학식 6과 동일하게 다시 작성될 수 있다.In Theorem 3, the distribution can be rewritten in the same manner as in Equation 6.

수학식 6:Equation 6:

Figure 112017127829023-pat00139
Figure 112017127829023-pat00139

Figure 112017127829023-pat00140
를 통하여 Y의 순서를 쌍으로 기재한다.
Figure 112017127829023-pat00140
The order of Y is described in pairs.

수학식 6의 연속 비율 모델의 파라미터를 추정하기 위하여, 각 노드

Figure 112017127829023-pat00141
에서 정규화된 노드 조건부 로그 우드 최대화 문제를 해결한다. In order to estimate the parameters of the continuous ratio model of Equation 6, each node
Figure 112017127829023-pat00141
Solve the problem of maximizing the node conditional logwood normalized in.

Figure 112017127829023-pat00142
,
Figure 112017127829023-pat00142
,

여기서,

Figure 112017127829023-pat00143
은 트레이닝 샘플이고,
Figure 112017127829023-pat00144
이다.here,
Figure 112017127829023-pat00143
Is the training sample,
Figure 112017127829023-pat00144
to be.

지수족 그래프 모델의 추정량에 대한 통계적 보증에 대한 기존의 결과가 연속 비율 모델로 이어진다. Existing results of statistical guarantees for estimators of exponential graph models lead to continuous ratio models.

이산과 대비/명목 그래프 모델: 수학식 6의 연속 비율 모델을 각 노드에서 확률 변수를 명목 변수로 취급하는 고전적인 이산 명목 그래프 모델과 대조한다. 확률 벡터 Y에 대해 수학식 7과 같은 이산 그래프 모델을 고려한다.Discrete vs. Contrast/Nominal Graph Model: Contrast the continuous ratio model of Equation 6 with the classic discrete nominal graph model, which treats random variables as nominal variables at each node. For the probability vector Y, a discrete graph model such as Equation 7 is considered.

수학식 7:Equation 7:

Figure 112017127829023-pat00145
Figure 112017127829023-pat00145

연속 비율 모델과 달리, 이산 그래프 모델은

Figure 112017127829023-pat00146
,
Figure 112017127829023-pat00147
의 다른 값에 대해 공통 엣지 파라미터
Figure 112017127829023-pat00148
를 가지지 않는다. 범주형 모델의 각각의 엣지는 M2 변수를 사용하여 파라미터화 된다. 결과적으로 이산 그래프 모델은 Y의 순서를 사용하지 않고, 연속 비율 모델과 비교했을 때 더 복잡하다. 이 파라미터화는 연속 비율 모델 파라미터화를 포함하는 반면, 주요 단점은 명목 그래프 모델이 더 많은 파라미터를 가지므로 샘플 복잡성이 더 크다는 것이다.Unlike the continuous ratio model, the discrete graph model
Figure 112017127829023-pat00146
,
Figure 112017127829023-pat00147
Common edge parameter for different values of
Figure 112017127829023-pat00148
Does not have Each edge of the categorical model is parameterized using an M 2 variable. Consequently, the discrete graph model does not use the order of Y and is more complex compared to the continuous ratio model. While this parameterization involves the continuous ratio model parameterization, the main drawback is that the nominal graph model has more parameters and therefore the sample complexity is greater.

-Multivariate Latent Quantized Models -Multivariate Latent Quantized Models

단변량 서열 분포로부터 다변량 서열 그래프 모델을 직접 구성하는 것을 고려한다. 실수값 잠재 변수의 양자화에 기반하여 단변량 서열 분포의 고전적이고 가장 대중적인 클래스를 다시 고찰한다. 다변량 분포의 자연적인 클래스는 다변량 잠재 확률 벡터를 취하고, 다변량 서열 확률 벡터를 획득하기 위하여 양자화함으로써 획득될 수 있다. Consider constructing a multivariate sequence graph model directly from a univariate sequence distribution. We reconsider the classical and most popular class of univariate sequence distributions based on quantization of real-valued latent variables. The natural class of a multivariate distribution can be obtained by taking a multivariate latent probability vector and quantizing to obtain a multivariate sequence probability vector.

-Probit Graphical Model -Probit Graphical Model

다변량 양자화 서열 분포의 가장보편적인 예는 다변량 잠재 확률 벡터가 다변량 가우시안인 경우이며, 이는 다변량 프로빗 모형으로도 알려져 있다. 따라서, 종속성은 가우스 분포를 통하여 잠재적인 확률 벡터에 의하여 표현될 수 있다. The most common example of a multivariate quantization sequence distribution is when the multivariate latent probability vector is multivariate Gaussian, which is also known as a multivariate probit model. Thus, the dependency can be expressed by a potential probability vector through a Gaussian distribution.

프로빗 모델에서, 서열 확률 벡터

Figure 112017127829023-pat00149
는 잠재 다변량 가우시안 확률 벡터
Figure 112017127829023-pat00150
에 의해 생성되는 것으로 가정하고,
Figure 112017127829023-pat00151
Figure 112017127829023-pat00152
이다. 각
Figure 112017127829023-pat00153
는 다음과 같이
Figure 112017127829023-pat00154
의 이산화를 통해 획득될 수 있다.In the probit model, the sequence random vector
Figure 112017127829023-pat00149
Is a latent multivariate Gaussian random vector
Figure 112017127829023-pat00150
Is assumed to be generated by
Figure 112017127829023-pat00151
Wow
Figure 112017127829023-pat00152
to be. bracket
Figure 112017127829023-pat00153
Is as follows
Figure 112017127829023-pat00154
Can be obtained through the discretization of

Figure 112017127829023-pat00155
, iff
Figure 112017127829023-pat00156
일 때,
Figure 112017127829023-pat00157
는 임계값이
Figure 112017127829023-pat00158
,
Figure 112017127829023-pat00159
으로 설정된다. 그러면, Y의 밀도 함수,
Figure 112017127829023-pat00160
는 수학식 8과 같이 주어진다.
Figure 112017127829023-pat00155
, iff
Figure 112017127829023-pat00156
when,
Figure 112017127829023-pat00157
Is the threshold
Figure 112017127829023-pat00158
,
Figure 112017127829023-pat00159
Is set to Then, the density function of Y,
Figure 112017127829023-pat00160
Is given as in Equation 8.

수학식 8:Equation 8:

Figure 112017127829023-pat00161
Figure 112017127829023-pat00161

여기서,

Figure 112017127829023-pat00162
Figure 112017127829023-pat00163
Figure 112017127829023-pat00164
에 의하여 정의된 하이퍼큐브이다. here,
Figure 112017127829023-pat00162
Wow
Figure 112017127829023-pat00163
Is
Figure 112017127829023-pat00164
It is a hypercube defined by.

Figure 112017127829023-pat00165
는 파라미터
Figure 112017127829023-pat00166
를 포함하는 프로빗 모델로부터 유도된 확률 벡터 Y로부터 실현된다고 하자. 그러면,
Figure 112017127829023-pat00167
로부터 파라미터
Figure 112017127829023-pat00168
를 학습하는
Figure 112017127829023-pat00169
-정규화된 최대 우드(ML) 추정기가 수학식 9와 같은 형식을 취한다.
Figure 112017127829023-pat00165
Is the parameter
Figure 112017127829023-pat00166
Suppose that it is realized from a probability vector Y derived from a probit model including. then,
Figure 112017127829023-pat00167
Parameters from
Figure 112017127829023-pat00168
To learn
Figure 112017127829023-pat00169
-The normalized maximum Wood (ML) estimator takes the same form as in Equation 9.

수학식 9:Equation 9:

Figure 112017127829023-pat00170
Figure 112017127829023-pat00170

Figure 112017127829023-pat00171
는 diagonal entries를 제외한 항목별
Figure 112017127829023-pat00172
표준이다. 목적이 비볼록하고 일반적으로 최적화하기가 어렵다는 것을 알 수 있다. 모델 파라미터를 학습하기 위하여 근사 EM 기반 접근법이 제안되었지만, 여전히 상대적으로 계산적으로 요구되고 있으며, 실제 정규화된 MLE 솔루션에 대하여 강력한 통계 보증을 제공하지 않는다.
Figure 112017127829023-pat00171
Is for each item excluding diagonal entries
Figure 112017127829023-pat00172
It is standard. It can be seen that the purpose is non-convex and is generally difficult to optimize. Although an approximate EM-based approach has been proposed to learn model parameters, it is still relatively computationally required and does not provide strong statistical guarantees for actual normalized MLE solutions.

-A Direct Estimation Method -A Direct Estimation Method

수학식 8에서 프로빗 그래프 모델 분포에서 알려지지 않은 파라미터를 추정하기 위한 대체 절차를 제안한다. 2단계의 절차로서, 첫 번째 단계에서는 단변량 주변에서 임계값

Figure 112017127829023-pat00173
를 추정하고, 두 번째 단계에서는 이변량 주변 분포로부터 polychoric상관관계
Figure 112017127829023-pat00174
를 추정한다. In Equation 8, we propose an alternative procedure for estimating unknown parameters in the probit graph model distribution. As a two-step procedure, in the first step, the threshold value around the univariate
Figure 112017127829023-pat00173
Is estimated, and in the second step, polychoric correlation from the distribution around the bivariate
Figure 112017127829023-pat00174
Estimate

-ESTIMATION OF THRESHOLDS -ESTIMATION OF THRESHOLDS

Figure 112017127829023-pat00175
의 추정량,
Figure 112017127829023-pat00176
를 다음과 같이 정의한다.
Figure 112017127829023-pat00175
The estimator of,
Figure 112017127829023-pat00176
Is defined as follows.

Figure 112017127829023-pat00177
Figure 112017127829023-pat00177

Figure 112017127829023-pat00178
는 표준 정규 분포의 CDF이고,
Figure 112017127829023-pat00179
은 지시 함수,
Figure 112017127829023-pat00180
는 벡터
Figure 112017127829023-pat00181
Figure 112017127829023-pat00182
번째 좌표이다.
Figure 112017127829023-pat00183
는 일관되게
Figure 112017127829023-pat00184
를 추정한다는 것을 알 수 있다.
Figure 112017127829023-pat00178
Is the CDF of the standard normal distribution,
Figure 112017127829023-pat00179
Is an indication function,
Figure 112017127829023-pat00180
The vector
Figure 112017127829023-pat00181
of
Figure 112017127829023-pat00182
Is the second coordinate.
Figure 112017127829023-pat00183
Is consistently
Figure 112017127829023-pat00184
It can be seen that it estimates

- 상관 관계 및 잠재 그래프 구조의 추정-Estimation of correlation and latent graph structure

Figure 112017127829023-pat00185
의 추정을 위한 두 단계 접근법을 제시한다. 첫 번째 단계에서, 이변량 주변 우도로부터 원시 추정치
Figure 112017127829023-pat00186
를 계산한다. 두 번째 단계에서, sparse 잠재 그래프와 평활화된 추정치
Figure 112017127829023-pat00187
를 추정하기 위하여 추정된 공분산 행렬
Figure 112017127829023-pat00188
을 그래픽 lasso 추정기로 플러그인 한다.
Figure 112017127829023-pat00185
We present a two-step approach for the estimation of In the first step, the raw estimate from the likelihood around the bivariate
Figure 112017127829023-pat00186
Calculate In the second step, the sparse latent graph and the smoothed estimate
Figure 112017127829023-pat00187
The estimated covariance matrix to estimate
Figure 112017127829023-pat00188
Plug in the graphic lasso estimator.

단계 1:

Figure 112017127829023-pat00189
의 각 항목을 추정하기 위하여 독립적인 최적화 문제를 해결한다.
Figure 112017127829023-pat00190
에 대해
Figure 112017127829023-pat00191
를 추정한다고 가정하자.
Figure 112017127829023-pat00192
의 결합 분포는 확률
Figure 112017127829023-pat00193
를 갖는 다항식이다. 여기서, 확률 변수
Figure 112017127829023-pat00194
,
Figure 112017127829023-pat00195
의 확률 분포는 평균 [0, 0]과 공분산
Figure 112017127829023-pat00196
를 갖는 이변량 정규 분포이다. Step 1:
Figure 112017127829023-pat00189
Independent optimization problems are solved to estimate each item of.
Figure 112017127829023-pat00190
About
Figure 112017127829023-pat00191
Suppose you estimate
Figure 112017127829023-pat00192
The combined distribution of the probability
Figure 112017127829023-pat00193
Is a polynomial with Where, random variable
Figure 112017127829023-pat00194
,
Figure 112017127829023-pat00195
The probability distribution of is covariance with the mean [0, 0]
Figure 112017127829023-pat00196
Is a bivariate normal distribution with

만약,

Figure 112017127829023-pat00197
이 알려져 있고, 이변량 주변 로그 우도 함수를 최대화함으로써 미지의 파라미터
Figure 112017127829023-pat00198
를 추정할 수 있고, 다음과 같이 나타낼 수 있다.if,
Figure 112017127829023-pat00197
Is known, and the unknown parameter by maximizing the log likelihood function around the bivariate
Figure 112017127829023-pat00198
Can be estimated, and can be expressed as

수학식 10:Equation 10:

Figure 112017127829023-pat00199
Figure 112017127829023-pat00199

Figure 112017127829023-pat00200
이고,
Figure 112017127829023-pat00201
이다. 그러나, 임계값
Figure 112017127829023-pat00202
이 알려져 있지 않다.
Figure 112017127829023-pat00203
를 추정하기 위하여
Figure 112017127829023-pat00204
를 추정기
Figure 112017127829023-pat00205
로 대체하고, 다음의 로그 우도를 최대화한다.
Figure 112017127829023-pat00200
ego,
Figure 112017127829023-pat00201
to be. However, the threshold
Figure 112017127829023-pat00202
This is not known.
Figure 112017127829023-pat00203
To estimate
Figure 112017127829023-pat00204
Estimator
Figure 112017127829023-pat00205
And maximize the following log likelihood.

Figure 112017127829023-pat00206
Figure 112017127829023-pat00206

Figure 112017127829023-pat00207
Figure 112017127829023-pat00208
의 도메인이며, 공분산에 대한 추가적인 제한이 설정되지 않는다면 (-1, 1)이다. 일차원 최적화 문제로, 목표의 매끄러움과 같이 특정 규칙 하에서는
Figure 112017127829023-pat00209
에서 미세한 그리드를 통해 목표를 단순히 평가하고 최적의 그리드 포인트를 선택함으로써 시간
Figure 112017127829023-pat00210
에서 오류
Figure 112017127829023-pat00211
내에서 해결할 수 있다.
Figure 112017127829023-pat00207
silver
Figure 112017127829023-pat00208
Is the domain of, and is (-1, 1) if no additional restrictions on covariance are set. It is a one-dimensional optimization problem, under certain rules, such as smoothness of the target
Figure 112017127829023-pat00209
Time by simply evaluating the goal through a fine grid and selecting the optimal grid point
Figure 112017127829023-pat00210
Error in
Figure 112017127829023-pat00211
Can be solved within

단계 2: 그래프 구조와 최종 공분산을 획득하기 위하여 파라 메트릭 가우시안 그래프 모델 추정기에

Figure 112017127829023-pat00212
를 플러그인한다. 일관된 파라 메트릭 가우시안 추정기 (예컨대, graphical lasso estimator, CLIME, graphical Dantzig selector 등)을 사용하여 잠재 그래프 구조를 추정하는데 사용될 수 있지만, 본 발명에서는 graphical lasso estimator에 기반하여 설명하기로 한다. 다음은 최적화 문제를 해결할 수 있다. Step 2: Use the parametric Gaussian graph model estimator to obtain the graph structure and final covariance.
Figure 112017127829023-pat00212
Plug in. Although it can be used to estimate the latent graph structure using a consistent parametric Gaussian estimator (eg, graphical lasso estimator, CLIME, graphical Dantzig selector, etc.), in the present invention, it will be described based on the graphical lasso estimator. The following can solve the optimization problem.

수학식 11:Equation 11:

Figure 112017127829023-pat00213
Figure 112017127829023-pat00213

여기서 <<A, B>>는 A와 P의 trace inner product를 나타낸다.Here, <<A, B>> represents the trace inner product of A and P.

-Theoretical Properties 이론적 특성-Theoretical Properties Theoretical Properties

앞서 설명한, 직접적인 추정 방법이 단순할 뿐만 아니라 강력한 통계적 보증을 한다. 구체적으로, 역공분산

Figure 112017127829023-pat00214
에 대한
Figure 112017127829023-pat00215
로 향하는 것을 제공하고, 그래픽 모델 구조 복구와 관련하여 희소성을 보여준다. 단순화하기 위하여,
Figure 112017127829023-pat00216
가 주어진 것으로 가정하자. 그러나,
Figure 112017127829023-pat00217
가 알려지지 않은 경우의 확장은 매우 간단해야 한다. The direct estimation method described above is not only simple, but also provides strong statistical guarantees. Specifically, inverse covariance
Figure 112017127829023-pat00214
for
Figure 112017127829023-pat00215
It provides a heading to and shows scarcity in relation to the recovery of the graphic model structure. To simplify,
Figure 112017127829023-pat00216
Suppose is given. But,
Figure 112017127829023-pat00217
If is unknown, the extension should be very simple.

먼저 표기법을 소개하기로 한다.

Figure 112017127829023-pat00218
라고 하자. 이때,
Figure 112017127829023-pat00219
는 크로네커 매트릭스 곱을 나타내고,
Figure 112017127829023-pat00220
에서 평가된 –log det(A)의 헤시안(Hessian )을 나타낸다. S를
Figure 112017127829023-pat00221
에 모든 0이 아닌 항목에 해당하는 인덱스 집합이라고 하고, Sc를 S의 보수이다. 또한,
Figure 112017127829023-pat00222
는 최대 절대 행 합계를 나타내는 표기 단순성을 위해
Figure 112017127829023-pat00223
를 정의한다. d를 잠재 그래프에서 최대 노드 차수라고 하자.
Figure 112017127829023-pat00224
는 수학식 10에서 정의된 샘플 손실의 모집단 버전이다. 아래에서는 가정을 밝힌다. First, let's introduce the notation.
Figure 112017127829023-pat00218
Let's say. At this time,
Figure 112017127829023-pat00219
Denotes the Kronecker matrix product,
Figure 112017127829023-pat00220
It represents the Hessian of -log det(A) evaluated at. S
Figure 112017127829023-pat00221
Is called the set of indices corresponding to all nonzero items, and S c is the complement of S. Also,
Figure 112017127829023-pat00222
Represents the maximum absolute row sum, for notation simplicity
Figure 112017127829023-pat00223
Defines Let d be the maximum node order in the latent graph.
Figure 112017127829023-pat00224
Is the population version of the sample loss defined in Equation 10. The assumptions are shown below.

(c-1)

Figure 112017127829023-pat00225
Figure 112017127829023-pat00226
이 존재한다.(c-1)
Figure 112017127829023-pat00225
sign
Figure 112017127829023-pat00226
Exists.

(c-2)

Figure 112017127829023-pat00227
Figure 112017127829023-pat00228
인 상수가 있다. 더욱이, 우도 함수
Figure 112017127829023-pat00229
Figure 112017127829023-pat00230
와 같이 양의
Figure 112017127829023-pat00231
를 갖는다. (c-2)
Figure 112017127829023-pat00227
sign
Figure 112017127829023-pat00228
There is a constant phosphorus. Moreover, likelihood function
Figure 112017127829023-pat00229
Is
Figure 112017127829023-pat00230
As positive
Figure 112017127829023-pat00231
Has.

(c-3) 1차, 2차 및 3차 미분의 절대값

Figure 112017127829023-pat00232
는 L1, L2, L3,
Figure 112017127829023-pat00233
에 의하여 각각 상한값을 갖는다. 더욱이
Figure 112017127829023-pat00234
Figure 112017127829023-pat00235
에서 퇴행성 임계점을 갖지 않는 온화한 규칙 성질이 성립한다. (c-3) Absolute values of the first, second and third derivatives
Figure 112017127829023-pat00232
L1, L2, L3,
Figure 112017127829023-pat00233
Each has an upper limit. Furthermore
Figure 112017127829023-pat00234
end
Figure 112017127829023-pat00235
A mild regular property that does not have a degenerative threshold is established.

(c-1) 는 glasso estimator의 보증을 위해 만들어진 표준 비일관성 가정이다.(c-1) is the standard inconsistency assumption made for the guarantee of the glasso estimator.

(c-2) 두개의 잠재적 변수가 동일 선상에 있지 않고 서열 변수의 모든 범주가 0이 아닌 확률을 갖도록 보장하는 온화한 조건이다.(c-2) It is a mild condition that ensures that the two potential variables are not collinear and that all categories of sequence variables have a non-zero probability.

이론 4: 파라미터

Figure 112017127829023-pat00236
를 갖는 잠재 가우시안 모델을 해결하기 위하여 수학식 11을 추정치를 고려한다. c-1, c-3 조건이 만족된다고 가정하자. 그러면, L1, L2, L3, M,
Figure 112017127829023-pat00237
,
Figure 112017127829023-pat00238
,
Figure 112017127829023-pat00239
,
Figure 112017127829023-pat00240
,
Figure 112017127829023-pat00241
에 따라 알려진 C1, C2, C3이 존재하므로,
Figure 112017127829023-pat00242
과 n이
Figure 112017127829023-pat00243
만큼 경계가 낮으면,
Figure 112017127829023-pat00244
, 역추적
Figure 112017127829023-pat00245
는 다음의 경계를 만족시킨다.Theory 4: parameters
Figure 112017127829023-pat00236
Equation 11 is considered an estimate to solve the latent Gaussian model with. Assume that the conditions c-1 and c-3 are satisfied. Then, L1, L2, L3, M,
Figure 112017127829023-pat00237
,
Figure 112017127829023-pat00238
,
Figure 112017127829023-pat00239
,
Figure 112017127829023-pat00240
,
Figure 112017127829023-pat00241
Since there are known C1, C2, C3 according to,
Figure 112017127829023-pat00242
And n
Figure 112017127829023-pat00243
If the boundary is as low as,
Figure 112017127829023-pat00244
, Backtracking
Figure 112017127829023-pat00245
Satisfies the following boundary.

수학식 12:Equation 12:

Figure 112017127829023-pat00246
Figure 112017127829023-pat00246

적어도

Figure 112017127829023-pat00247
확률
Figure 112017127829023-pat00248
만큼
Figure 112017127829023-pat00249
로 인코딩된 잠재적인 가우시안 그래프 구조는 지속적으로
Figure 112017127829023-pat00250
에 의해 복원될 수 있다.At least
Figure 112017127829023-pat00247
percentage
Figure 112017127829023-pat00248
as much as
Figure 112017127829023-pat00249
The potential Gaussian graph structure encoded with
Figure 112017127829023-pat00250
Can be restored by

추정치

Figure 112017127829023-pat00251
가 1단계를 만족한다. 높은 확률과 함께,
Figure 112017127829023-pat00252
Estimate
Figure 112017127829023-pat00251
Satisfies step 1. With high probability,
Figure 112017127829023-pat00252

glasso의 일관성 속성을 이용하여 단계 2로부터 추정치

Figure 112017127829023-pat00253
가 높은 확률로 수학식 12를 만족한다는 것을 보여준다.Estimates from step 2 using glasso's consistency property
Figure 112017127829023-pat00253
It shows that Equation 12 is satisfied with a high probability.

Figure 112017127829023-pat00254
하기 위하여, 비볼록 경험적 위험 최소화 문제의 정점의 속성을 연구한다.
Figure 112017127829023-pat00254
To do this, we study the attributes of the peaks of the non-convex empirical risk minimization problem.

도 1은 체인 그래프 구조가 있는 프로빗 모델로부터 데이터가 생성될 때의 다양한 추정치의 비교를 나타낸 것이다. 상단의 행과 하단의 행은 각각

Figure 112017127829023-pat00255
= -0.3,
Figure 112017127829023-pat00256
= -0.9에 해당된다. 왼쪽의 두개의 열은 n=50, 100에 대한 ROC 곡선을 나타낸다. 오른쪽 세개의 열은 log likelihood, 프로베니우스, 엔트로피 손실에 대한 성능을 나타낸다. 1 shows a comparison of various estimates when data is generated from a probit model with a chain graph structure. The top row and bottom row respectively
Figure 112017127829023-pat00255
= -0.3,
Figure 112017127829023-pat00256
= -0.9. The two columns on the left show the ROC curve for n=50, 100. The three columns on the right show the performance for log likelihood, probenius, and entropy loss.

평가 척도: 정규화 매개 변수를 변경하여 계산 된 ROC 곡선을 사용하여 그래프 구조 복구에 대한 기준선과 견적 도구의 성능을 비교할 수 있다. Probit 모델에서 데이터를 생성 할 때 Frobenius Loss 및 Entropy Loss를 사용하여 Oracle, ProbitEM, ProbitEMApprox 및 ProbitDirect의 매개 변수 예측 성능을 비교할 수 있다.Rating Scale: The ROC curve calculated by changing the normalization parameters can be used to compare the performance of the estimating tool with the baseline for the recovery of the graph structure. When generating data from the Probit model, you can use Frobenius Loss and Entropy Loss to compare the parameter prediction performance of Oracle, ProbitEM, ProbitEMApprox and ProbitDirect.

프로베니우스 손실:

Figure 112017127829023-pat00257
Provenius loss:
Figure 112017127829023-pat00257

엔트로피 손실:

Figure 112017127829023-pat00258
Entropy loss:
Figure 112017127829023-pat00258

여기서,

Figure 112017127829023-pat00259
공분산 행렬이고,
Figure 112017127829023-pat00260
는 추정된 공분산 행렬이다.here,
Figure 112017127829023-pat00259
Is the covariance matrix,
Figure 112017127829023-pat00260
Is the estimated covariance matrix.

마지막으로 500 개의 테스트 샘플에서 계산된 로그 가능성에 대한 ProbitEM, ProbitEMApprox, ProbitDirect를 비교할 수 있다.   이 세 가지 메트릭을 비교하기 위해 교차 유효성 검사를 사용하여 각 메소드에 대해 최적의 조정 매개 변수를 선택할 수 있다. 예를 들면, 그래프의 노드 수를 50으로 고정하고 각 서수 변수의 카테고리 수를 5로 설정한다. 분산을 줄이기 위해 평균 10 회 이상의 결과를 획득할 수 있다. Finally, you can compare ProbitEM, ProbitEMApprox, and ProbitDirect for log probability calculated from 500 test samples. To compare these three metrics, you can use cross-validation to select the optimal tuning parameters for each method. For example, the number of nodes in the graph is fixed at 50, and the number of categories for each ordinal variable is set to 5. In order to reduce the variance, more than 10 results can be obtained on average.

첫 번째, 프로빗 모델로부터 서열 데이터를 생성할 수 있고, 체인 그래프로부터 데이터를 시뮬레이션할 수 있다. 잠재 변수의 역 공분산 행렬은 다음의 수학식 13과 같이 선택될 수 있다. First, sequence data can be generated from a probit model, and data can be simulated from a chain graph. The inverse covariance matrix of the latent variable may be selected as shown in Equation 13 below.

수학식 13:Equation 13:

Figure 112017127829023-pat00261
Figure 112017127829023-pat00261

이때,

Figure 112017127829023-pat00262
를 선택하고, 노드 j에서 임계값
Figure 112017127829023-pat00263
을 다음과 같이 설정할 수 있다.At this time,
Figure 112017127829023-pat00262
And the threshold at node j
Figure 112017127829023-pat00263
Can be set as follows:

Figure 112017127829023-pat00264
Figure 112017127829023-pat00264

이때, 모든 변수가 1이 되도록 공분산 행렬을 스케일할 수 있다. 도 1은

Figure 112017127829023-pat00265
= -0.3,
Figure 112017127829023-pat00266
= -0.9를 사용하여 획득된 결과를 나타낸다. ProbitDirect와 ProbitEM은 비슷한 성능을 보이나, ProbitDirect는 ProbitEM보다 1-2 배 더 빠르고, ProbitEMApprox는 특히 낮은 샘플 복잡성 설정에서 성능이 매우 낮음을 알 수 있다. At this time, the covariance matrix can be scaled so that all variables are 1. 1 is
Figure 112017127829023-pat00265
= -0.3,
Figure 112017127829023-pat00266
= -0.9 is used to represent the results obtained. ProbitDirect and ProbitEM perform similarly, but ProbitDirect is 1-2 times faster than ProbitEM, and ProbitEMApprox has very low performance, especially at low sample complexity settings.

도 2는 2D 그리드 구조 (10 x 5 그리드)가있는 Consec 모델에서 샘플링 한 데이터이다. 노드 특정 파라미터(

Figure 112017127829023-pat00267
)는 [-1, 1]로부터 균등하게 샘플링될 수 있다. 쌍방향 상호작용 항(
Figure 112017127829023-pat00268
)은 모든 수평 모서리에 대하여 0.1로 설정되고, 모든 수직 모서리에 대하여 -0.1로 설정될 수 있다. Figure 2 is data sampled from a Consec model with a 2D grid structure (10 x 5 grid). Node specific parameters (
Figure 112017127829023-pat00267
) Can be evenly sampled from [-1, 1]. Interactive interaction term (
Figure 112017127829023-pat00268
) Is set to 0.1 for all horizontal edges, and can be set to -0.1 for all vertical edges.

도 3은 2D 그리드 구조 (10 x 5 그리드)가있는 Consec 모델에서 샘플링 한 데이터이다. 노드 특정 파라미터(

Figure 112017127829023-pat00269
)는 [-1, 1]로부터 균등하게 샘플링될 수 있다. 쌍방향 상호 작용 항 (
Figure 112017127829023-pat00270
)은 모든 수평 모서리에 대하여 0.3으로 설정되고 모든 수직 모서리에 대하여 -0.3으로 설정될 수 있다.Figure 3 is data sampled from a Consec model with a 2D grid structure (10 x 5 grid). Node specific parameters (
Figure 112017127829023-pat00269
) Can be evenly sampled from [-1, 1]. Two-way interaction term (
Figure 112017127829023-pat00270
) Can be set to 0.3 for all horizontal edges and -0.3 for all vertical edges.

실시예에서는 Consec 모델의 데이터를 샘플링할 수 있다. 도 2와 3은 사용된 정확한 매개 변수의 세부 사항과 함께 그리드 그래프에 결과를 제시하였다. 도 2를 참고하면, 변수 간의 상호 작용이 낮기 때문에 Consec 모델은 다른 추정치와 비슷한 성능을 보임을 알 수 있고, 도 3을 참고하면, 상호 작용이 높으면 성능이 저하됨을 판단할 수 있다. 연속적 비율 모델에 대한 노드 조건적 우도 기반 추정기가 효율적이지 않거나 프로빗 모델과 같은 잠정적 그래픽 모델이 연속 모델보다 더 좋은 모델임을 제안할 수 있다.In an embodiment, data of the Consec model may be sampled. Figures 2 and 3 present the results in a grid graph with details of the exact parameters used. Referring to FIG. 2, since the interaction between variables is low, it can be seen that the Consec model exhibits similar performance to other estimates, and referring to FIG. 3, it can be determined that the performance decreases when the interaction is high. It can be suggested that the node conditional likelihood-based estimator for the continuous ratio model is not efficient or that a tentative graphic model such as the probit model is a better model than the continuous model.

도 4는 SmokeNow 및 사회 인구 학적 지표에 해당하는 잠재 잠정 그래프 구조를 나타낸 것이다. 그래프는 대응하는 변수의 주변 분포로부터 생성될 수 있다. 녹색 및 적색 엣지는 각각 양의 상관 부분과 음의 부분 상관을 나타낸 것이고, 가장자리 두께는 부분 상관 관계의 크기에 비례한다.Figure 4 shows a potential tentative graph structure corresponding to SmokeNow and socio-demographic indicators. The graph can be generated from the marginal distribution of the corresponding variable. The green and red edges represent positive and negative partial correlations, respectively, and the edge thickness is proportional to the magnitude of the partial correlation.

일례로, 건강 정보 국가 동향 조사(HINTS)는 국립 암 연구소(NCI)에서 전국적으로 실시한 설문 조사에서 설문 조사의 각 질문을 그래프의 노드로, 질문에 대한 개인의 반응을 그래프에서 추출한 샘플로 취급할 수 있다. 분석과 관련이 있는 데이터 세트에서 일부의 질문을 선택할 수 있고, 선택한 질문에 ProbitDirect를 사용하여 프로빗 모델을 적용하고, 최적의 튜닝 파라미터를 선택하기 위해 우리는 10 배 교차 검증을 사용할 수 있다. 이후, 잭 나이프 리샘플링 기법을 통해 잠복 그래프의 에지 강도에 대해 95 % 신뢰 구간을 획득할 수 있다. 이때, 신뢰 구간이 [-0.1, 0.1]과 교차하지 않는 경우에만 그래프에 모서리를 배치할 수 있다. For example, in a nationally conducted survey conducted by the National Cancer Institute (NCI), the Health Information National Trends Survey (HINTS) treats each question in the survey as a node of a graph and an individual's response to the question as a sample extracted from the graph. I can. We can select some questions from the data set relevant to the analysis, apply the probit model using ProbitDirect to the selected questions, and use 10-fold cross-validation to select the optimal tuning parameters. Thereafter, a 95% confidence interval may be obtained for the edge strength of the latent graph through the jack knife resampling technique. At this time, corners can be placed on the graph only when the confidence interval does not intersect with [-0.1, 0.1].

도 4는 사회 인구 학적 지표와 관련된 다양한 변수가 사람의 흡연 행동과 어떻게 관련되는지를 나타낸다. 특히, SmokeNow는 교육과 매우 중요한 연관성이 있음을 나타내고, 이것은 사람이 잘 교육 받았고 다른 모든 변수를 조건으로 한다면, 그 사람이 담배를 피울 가능성이 낮다는 것을 나타낸다. SmokeNow와 FewCigarettesHarmHealth가 긍정적인 부분 상관 관계를 가지고 있어 나머지 변수들, 흡연하는 사람들, 담배를 피우지 않는 사람들보다 덜 해롭다는 것을 흡연자가 인지한다는 것을 나타냅니다. 일 실시예에 따르면, 이러한 통찰력이 흡연 관련 건강 정보를 대중에게 알리는 효율적인 전략을 설계하는 데 도움이 될 수 있다.Figure 4 shows how various variables related to socio-demographic indicators relate to smoking behavior in humans. In particular, SmokeNow indicates that there is a very important connection with education, which indicates that if a person is well educated and conditional on all other variables, that person is less likely to smoke. SmokeNow and FewCigarettesHarmHealth have a positive partial correlation, indicating that smokers perceive that they are less harmful than the rest of the variables, those who smoke, and those who do not smoke. According to one embodiment, these insights can help to design efficient strategies to inform the public about smoking related health information.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The apparatus described above may be implemented as a hardware component, a software component, and/or a combination of a hardware component and a software component. For example, the devices and components described in the embodiments are, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA). , A programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions, such as one or more general purpose computers or special purpose computers. The processing device may execute an operating system (OS) and one or more software applications executed on the operating system. In addition, the processing device may access, store, manipulate, process, and generate data in response to the execution of software. For the convenience of understanding, although it is sometimes described that one processing device is used, one of ordinary skill in the art, the processing device is a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that it may include. For example, the processing device may include a plurality of processors or one processor and one controller. In addition, other processing configurations are possible, such as a parallel processor.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more of these, configuring the processing unit to behave as desired or processed independently or collectively. You can command the device. Software and/or data may be interpreted by a processing device or to provide instructions or data to a processing device, of any type of machine, component, physical device, virtual equipment, computer storage medium or device. Can be embodyed in The software may be distributed over networked computer systems and stored or executed in a distributed manner. Software and data may be stored on one or more computer-readable recording media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like alone or in combination. The program instructions recorded on the medium may be specially designed and configured for the embodiment, or may be known and usable to those skilled in computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks. -A hardware device specially configured to store and execute program instructions such as magneto-optical media, and ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine language codes such as those produced by a compiler but also high-level language codes that can be executed by a computer using an interpreter or the like.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.Although the embodiments have been described by the limited embodiments and drawings as described above, various modifications and variations are possible from the above description to those of ordinary skill in the art. For example, the described techniques are performed in an order different from the described method, and/or components such as a system, structure, device, circuit, etc. described are combined or combined in a form different from the described method, or other components Alternatively, even if substituted or substituted by an equivalent, an appropriate result can be achieved.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
Therefore, other implementations, other embodiments, and those equivalents to the claims also fall within the scope of the claims to be described later.

Claims (15)

컴퓨터로 구현되는 연관성 학습 시스템에 의해 수행되는 서열 데이터의 연관성 학습 방법에 있어서,
상기 컴퓨터로 구현되는 연관성 학습 시스템은,
컴퓨터 판독 가능 기록 매체에 명령을 저장하는 메모리; 및
상기 메모리에 저장된 명령을 저장하고 수행하도록 구성된 복수 개의 프로세서 또는 하나의 프로세서
를 포함하고,
상기 서열 데이터의 연관성 학습 방법은,
상기 연관성 학습 시스템에서, 서열 데이터에서 확률 그래프 모델을 기반으로 각각의 변수 사이의 상관 관계를 예측하는 단계; 및
상기 연관성 학습 시스템에서, 상기 각각의 변수 사이에 예측된 상관 관계를 그래프로 제공하는 단계
를 포함하고,
상기 서열 데이터에서 확률 그래프 모델을 기반으로 각각의 변수 사이의 상관 관계를 예측하는 단계는,
도메인
Figure 112020034820317-pat00355
를 포함하는 p차원의 확률 벡터
Figure 112020034820317-pat00356
이고, 각각의 확률 변수
Figure 112020034820317-pat00357
에 대응하는 노드를 갖는 그래프를
Figure 112020034820317-pat00358
라고 하면,
확률 벡터의 모든 노드 조건부 분포가 단변량 누적 비율 모델을 따를 경우, 특정 노드 조건부 분포가 마르코프 결합 분포와 일치하지 않는
연관성 학습 방법.
In the association learning method of sequence data performed by a computer-implemented association learning system,
The association learning system implemented by the computer,
A memory for storing instructions in a computer-readable recording medium; And
A plurality of processors or one processor configured to store and execute instructions stored in the memory
Including,
The method of learning the association of sequence data,
In the association learning system, predicting a correlation between each variable based on a probability graph model from sequence data; And
In the association learning system, providing a predicted correlation between the respective variables as a graph
Including,
Predicting a correlation between each variable based on a probability graph model from the sequence data,
domain
Figure 112020034820317-pat00355
P-dimensional probability vector containing
Figure 112020034820317-pat00356
And each random variable
Figure 112020034820317-pat00357
A graph with nodes corresponding to
Figure 112020034820317-pat00358
If you say,
If all node conditional distributions in the probability vector follow the univariate cumulative proportion model, then the specific node conditional distribution does not match the Markov joint distribution.
How to learn associations.
제1항에 있어서,
상기 서열 데이터에서 확률 그래프 모델을 기반으로 각각의 변수 사이의 상관 관계를 예측하는 단계는,
상기 변수에 대한 단변량 서열 분포를 통해 노드 조건부 분포를 지정하고, 상기 지정된 노드 조건부 분포에 대한 분석을 수행하여 결합 분포를 탐색하는 단계
를 포함하는 연관성 학습 방법.
The method of claim 1,
Predicting a correlation between each variable based on a probability graph model from the sequence data,
Designating a node conditional distribution through a univariate sequence distribution for the variable, and searching for a binding distribution by performing analysis on the designated node conditional distribution
Association learning method comprising a.
삭제delete 컴퓨터로 구현되는 연관성 학습 시스템에 의해 수행되는 서열 데이터의 연관성 학습 방법에 있어서,
상기 컴퓨터로 구현되는 연관성 학습 시스템은,
컴퓨터 판독 가능 기록 매체에 명령을 저장하는 메모리; 및
상기 메모리에 저장된 명령을 저장하고 수행하도록 구성된 복수 개의 프로세서 또는 하나의 프로세서
를 포함하고,
컴퓨터로 구현되는 연관성 학습 시스템에 의해 수행되는 서열 데이터의 연관성 학습 방법은,
상기 연관성 학습 시스템에서, 서열 데이터에서 확률 그래프 모델을 기반으로 각각의 변수 사이의 상관 관계를 예측하는 단계; 및
상기 연관성 학습 시스템에서, 상기 각각의 변수 사이에 예측된 상관 관계를 그래프로 제공하는 단계
를 포함하고,
상기 서열 데이터에서 확률 그래프 모델을 기반으로 각각의 변수 사이의 상관 관계를 예측하는 단계는,
도메인
Figure 112020034820317-pat00278
를 포함하는 p 차원의 확률 벡터
Figure 112020034820317-pat00279
에서, 각각의 확률 변수
Figure 112020034820317-pat00280
에 대응하는 노드를 갖는 그래프를
Figure 112020034820317-pat00281
라고 하면,
확률 벡터의 모든 노드 조건부 분포가 단변수 연속 비율 모델을 따를 경우, 특정 노드 조건부 분포가 마르코프 결합 분포와 일치하지 않는
것을 특징으로 하는 연관성 학습 방법.
In the association learning method of sequence data performed by a computer-implemented association learning system,
The association learning system implemented by the computer,
A memory for storing instructions in a computer-readable recording medium; And
A plurality of processors or one processor configured to store and execute instructions stored in the memory
Including,
A method of learning the association of sequence data performed by a computer-implemented association learning system,
In the association learning system, predicting a correlation between each variable based on a probability graph model from sequence data; And
In the association learning system, providing a predicted correlation between the respective variables as a graph
Including,
Predicting a correlation between each variable based on a probability graph model from the sequence data,
domain
Figure 112020034820317-pat00278
P-dimensional probability vector containing
Figure 112020034820317-pat00279
In, each random variable
Figure 112020034820317-pat00280
A graph with nodes corresponding to
Figure 112020034820317-pat00281
If you say,
If all node conditional distributions in the probability vector follow the univariate continuous ratio model, then the specific node conditional distribution does not match the Markov joint distribution.
Association learning method, characterized in that.
컴퓨터로 구현되는 연관성 학습 시스템에 의해 수행되는 서열 데이터의 연관성 학습 방법에 있어서,
상기 컴퓨터로 구현되는 연관성 학습 시스템은,
컴퓨터 판독 가능 기록 매체에 명령을 저장하는 메모리; 및
상기 메모리에 저장된 명령을 저장하고 수행하도록 구성된 복수 개의 프로세서 또는 하나의 프로세서
를 포함하고,
컴퓨터로 구현되는 연관성 학습 시스템에 의해 수행되는 서열 데이터의 연관성 학습 방법은,
상기 연관성 학습 시스템에서, 서열 데이터에서 확률 그래프 모델을 기반으로 각각의 변수 사이의 상관 관계를 예측하는 단계; 및
상기 연관성 학습 시스템에서, 상기 각각의 변수 사이에 예측된 상관 관계를 그래프로 제공하는 단계
를 포함하고,
상기 서열 데이터에서 확률 그래프 모델을 기반으로 각각의 변수 사이의 상관 관계를 예측하는 단계는,
서열 확률 변수
Figure 112020034820317-pat00371
에 대한 연속 비율 모델이 지수족에 포함되며, 서열 확률 벡터
Figure 112020034820317-pat00372
에 대하여 노드 조건부 분포를 지정하기 위하여 단변량 서열 분포를 사용할 경우, 노드 조건부 분포가 단변량 지수족에 속하기 때문에 마르코프 결합 분포와 일치하는
것을 특징으로 하는 연관성 학습 방법.
In the association learning method of sequence data performed by a computer-implemented association learning system,
The association learning system implemented by the computer,
A memory for storing instructions in a computer-readable recording medium; And
A plurality of processors or one processor configured to store and execute instructions stored in the memory
Including,
A method of learning the association of sequence data performed by a computer-implemented association learning system,
In the association learning system, predicting a correlation between each variable based on a probability graph model from sequence data; And
In the association learning system, providing a predicted correlation between the respective variables as a graph
Including,
Predicting a correlation between each variable based on a probability graph model in the sequence data,
Sequence random variable
Figure 112020034820317-pat00371
The continuous ratio model for is included in the exponential family, and the sequence random vector
Figure 112020034820317-pat00372
When a univariate sequence distribution is used to specify a node conditional distribution for, since the node conditional distribution belongs to the univariate exponential family,
Association learning method, characterized in that.
삭제delete 컴퓨터로 구현되는 연관성 학습 시스템에 의해 수행되는 서열 데이터의 연관성 학습 방법에 있어서,
상기 컴퓨터로 구현되는 연관성 학습 시스템은,
컴퓨터 판독 가능 기록 매체에 명령을 저장하는 메모리; 및
상기 메모리에 저장된 명령을 저장하고 수행하도록 구성된 복수 개의 프로세서 또는 하나의 프로세서
를 포함하고,
컴퓨터로 구현되는 연관성 학습 시스템에 의해 수행되는 서열 데이터의 연관성 학습 방법은,
상기 연관성 학습 시스템에서, 서열 데이터에서 확률 그래프 모델을 기반으로 각각의 변수 사이의 상관 관계를 예측하는 단계; 및
상기 연관성 학습 시스템에서, 상기 각각의 변수 사이에 예측된 상관 관계를 그래프로 제공하는 단계
를 포함하고,
상기 서열 데이터에서 확률 그래프 모델을 기반으로 각각의 변수 사이의 상관 관계를 예측하는 단계는,
다변량 양자화 서열 분포에서 다변량 잠재 확률 벡터가 다변량 가우시안인 경우, 다변량 프로빗 모델로 불리며, 종속성이 가우스 분포를 통하여 잠재적인 확률 벡터에 의해 표현되는
것을 특징으로 하는 연관성 학습 방법.
In the association learning method of sequence data performed by a computer-implemented association learning system,
The association learning system implemented by the computer,
A memory for storing instructions in a computer-readable recording medium; And
A plurality of processors or one processor configured to store and execute instructions stored in the memory
Including,
A method of learning the association of sequence data performed by a computer-implemented association learning system,
In the association learning system, predicting a correlation between each variable based on a probability graph model from sequence data; And
In the association learning system, providing a predicted correlation between the respective variables as a graph
Including,
Predicting a correlation between each variable based on a probability graph model from the sequence data,
In a multivariate quantization sequence distribution, when the multivariate latent probability vector is a multivariate Gaussian, it is called a multivariate probit model, and the dependency is expressed by the potential probability vector through a Gaussian distribution.
Association learning method, characterized in that.
삭제delete 삭제delete 제7항에 있어서,
상기 서열 데이터에서 확률 그래프 모델을 기반으로 각각의 변수 사이의 상관 관계를 예측하는 단계는,
상기 다변량 프로빗 모델에서 알려지지 않은 파라미터를 추정하기 위하여 단변량 주변에서 임계값을 추정하고, 이변량 주변 분포로부터 polychoric 상관 관계 를 추정하는
것을 특징으로 하는 연관성 학습 방법.
The method of claim 7,
Predicting a correlation between each variable based on a probability graph model from the sequence data,
In order to estimate an unknown parameter in the multivariate probit model, a critical value is estimated around a univariate and a polychoric correlation is estimated from a distribution around a bivariate.
Association learning method, characterized in that.
제10항에 있어서,
상기 서열 데이터에서 확률 그래프 모델을 기반으로 각각의 변수 사이의 상관 관계를 예측하는 단계는,
상기 이변량 주변 분포로부터 polychoric 상관 관계를 추정하기 위하여, 이변량 주변 우도로부터 원시 추정치를 계산하고, sparse 잠재 그래프와 평활화된 추정치를 추정하기 위하여 예측된 공분산 행렬을 그래픽 lasso 추정기로 플러그인하는
것을 특징으로 하는 연관성 학습 방법.
The method of claim 10,
Predicting a correlation between each variable based on a probability graph model from the sequence data,
In order to estimate the polychoric correlation from the bivariate marginal distribution, a raw estimate is calculated from the likelihood around the bivariate, and the predicted covariance matrix is plugged into a graphic lasso estimator to estimate a sparse latent graph and a smoothed estimate.
Association learning method, characterized in that.
삭제delete 삭제delete 제11항에 있어서,
상기 서열 데이터에서 확률 그래프 모델을 기반으로 각각의 변수 사이의 상관 관계를 예측하는 단계는,
상기 예측된 공분산 행렬을 파라 메트릭 가우시안 그래프 모델 추정기 중 그래픽 lasso 추정기로 플러그인하여 그래프의 구조와 최종 공분산을 획득하는
것을 특징으로 하는 연관성 학습 방법.
The method of claim 11,
Predicting a correlation between each variable based on a probability graph model from the sequence data,
Plugging the predicted covariance matrix into a graphical lasso estimator among parametric Gaussian graph model estimators to obtain the graph structure and final covariance
Association learning method, characterized in that.
컴퓨터로 구현되는 연관성 학습 시스템에 있어서,
컴퓨터 판독 가능 기록 매체에 명령을 저장하는 메모리; 및
상기 메모리에 저장된 명령을 저장하고 수행하도록 구성된 복수 개의 프로세서 또는 하나의 프로세서
를 포함하고,
상기 복수 개의 프로세서 또는 하나의 프로세서는,
서열 데이터에서 확률 그래프 모델을 기반으로 각각의 변수 사이의 상관 관계를 예측하는 예측부; 및
상기 각각의 변수 사이에 예측된 상관 관계를 그래프로 제공하는 제공부
를 포함하고,
상기 예측부는,
도메인
Figure 112020034820317-pat00363
를 포함하는 p차원의 확률 벡터
Figure 112020034820317-pat00364
이고, 각각의 확률 변수
Figure 112020034820317-pat00365
에 대응하는 노드를 갖는 그래프를
Figure 112020034820317-pat00366
라고 하면,
확률 벡터의 모든 노드 조건부 분포가 단변량 누적 비율 모델을 따를 경우, 특정 노드 조건부 분포가 마르코프 결합 분포와 일치하지 않는
연관성 학습 시스템.
In a computer-implemented association learning system,
A memory for storing instructions in a computer-readable recording medium; And
A plurality of processors or one processor configured to store and execute instructions stored in the memory
Including,
The plurality of processors or one processor,
A prediction unit predicting a correlation between each variable based on a probability graph model in sequence data; And
Providing unit that provides the predicted correlation between the respective variables in a graph
Including,
The prediction unit,
domain
Figure 112020034820317-pat00363
P-dimensional probability vector containing
Figure 112020034820317-pat00364
And each random variable
Figure 112020034820317-pat00365
A graph with nodes corresponding to
Figure 112020034820317-pat00366
If you say,
If all node conditional distributions in the probability vector follow the univariate cumulative proportion model, then the specific node conditional distribution does not match the Markov joint distribution.
Association learning system.
KR1020170177372A 2017-12-21 2017-12-21 Method and system for learning structure of probabilistic graphical model for ordinal data KR102153161B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170177372A KR102153161B1 (en) 2017-12-21 2017-12-21 Method and system for learning structure of probabilistic graphical model for ordinal data
PCT/KR2018/013254 WO2019124724A1 (en) 2017-12-21 2018-11-02 Method and system for learning sequence data association on basis of probability graph

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170177372A KR102153161B1 (en) 2017-12-21 2017-12-21 Method and system for learning structure of probabilistic graphical model for ordinal data

Publications (2)

Publication Number Publication Date
KR20190075631A KR20190075631A (en) 2019-07-01
KR102153161B1 true KR102153161B1 (en) 2020-09-08

Family

ID=66995005

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170177372A KR102153161B1 (en) 2017-12-21 2017-12-21 Method and system for learning structure of probabilistic graphical model for ordinal data

Country Status (2)

Country Link
KR (1) KR102153161B1 (en)
WO (1) WO2019124724A1 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102292637B1 (en) * 2019-10-24 2021-08-23 서울대학교산학협력단 Estimation method to analyze parameter and prediction uncertainty of River Storage Mode using the Bayesian inference and segment mixture likelihood
US10853385B1 (en) * 2020-03-05 2020-12-01 Capital One Services, Llc Systems and methods for formatting data using a recurrent neural network
CN112884230B (en) * 2021-02-26 2022-05-24 润联软件系统(深圳)有限公司 Power load prediction method and device based on multivariate time sequence and related components

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005275794A (en) 2004-03-24 2005-10-06 Ntt Data Corp Inter-information relevancy analyzing device and method, program and recording medium

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050106936A (en) * 2004-05-06 2005-11-11 재단법인서울대학교산학협력재단 Improvement method of bayesian network classifiers over multiple node orders and media recording the program to perform this method
KR101300247B1 (en) * 2011-11-11 2013-08-26 경희대학교 산학협력단 Markov chain hidden conditional random fields model based pattern recognition method
JP6157628B2 (en) * 2012-10-09 2017-07-05 ファイヴ3 ゲノミクス,エルエルシー Systems and methods for learning and identifying regulatory interactions of biological pathways
JP6066826B2 (en) * 2013-05-17 2017-01-25 株式会社日立製作所 Analysis system and health business support method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005275794A (en) 2004-03-24 2005-10-06 Ntt Data Corp Inter-information relevancy analyzing device and method, program and recording medium

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Arun Sai Suggala et al., Ordinal Graphical Models: A Tale of Two Approaches, Proceedings of the 34th International Conference on Machine Learning, PMLR 70:3260-3269, 2017.08.06.
Vadim Kutsyy, Modeling and Inference for Spatial Processes with Ordinal Data. 2001.
Yang, 4617-graphical-models-via-generalized-linear-models. nips. 2012.

Also Published As

Publication number Publication date
WO2019124724A1 (en) 2019-06-27
KR20190075631A (en) 2019-07-01

Similar Documents

Publication Publication Date Title
US11741361B2 (en) Machine learning-based network model building method and apparatus
AU2016245868B2 (en) Automated model development process
WO2019129060A1 (en) Method and system for automatically generating machine learning sample
US11308418B2 (en) Automatic selection of variables for a machine-learning model
KR102153161B1 (en) Method and system for learning structure of probabilistic graphical model for ordinal data
US11341034B2 (en) Analysis of verification parameters for training reduction
JP2019096313A (en) Information processing method and information processing apparatus
CN105469123A (en) Missing data completion method based on k plane regression
WO2015180340A1 (en) Data mining method and device
CN114072809A (en) Small and fast video processing network via neural architectural search
Zhou et al. Student's $ t $ VAR Modeling With Missing Data Via Stochastic EM and Gibbs Sampling
CN116324821A (en) System and method for simulating quantum circuits using extracted hamiltonian
CN117201308A (en) Network resource allocation method, system, storage medium and electronic equipment
Ackermann et al. Black-box learning of parametric dependencies for performance models
CN106874286B (en) Method and device for screening user characteristics
CN111046912A (en) Feature derivation method and device and computer equipment
CN113505838B (en) Image clustering method and device, electronic equipment and storage medium
US20220379919A1 (en) Parameter space optimization
Burnaev et al. Adaptive design of experiments for sobol indices estimation based on quadratic metamodel
CN111898666A (en) Random forest algorithm and module population combined data variable selection method
US20240104436A1 (en) Chained feature synthesis and dimensional reduction
US20240104421A1 (en) Correlation-based dimensional reduction of synthesized features
JP7085521B2 (en) Information processing equipment, information processing methods, and programs
KR102663160B1 (en) Pruning method and system for efficient compression of generative artificial intelligence model
JP7500358B2 (en) Information processing device

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant