WO2019124724A1 - 확률 그래프 기반의 서열 데이터 연관성 학습 방법 및 시스템 - Google Patents

확률 그래프 기반의 서열 데이터 연관성 학습 방법 및 시스템 Download PDF

Info

Publication number
WO2019124724A1
WO2019124724A1 PCT/KR2018/013254 KR2018013254W WO2019124724A1 WO 2019124724 A1 WO2019124724 A1 WO 2019124724A1 KR 2018013254 W KR2018013254 W KR 2018013254W WO 2019124724 A1 WO2019124724 A1 WO 2019124724A1
Authority
WO
WIPO (PCT)
Prior art keywords
correlation
distribution
sequence data
predicting
variable
Prior art date
Application number
PCT/KR2018/013254
Other languages
English (en)
French (fr)
Inventor
양은호
심하진
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Publication of WO2019124724A1 publication Critical patent/WO2019124724A1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass

Definitions

  • the following description relates to a method and system for learning a sequence data association based on a probability graph.
  • Markov random field ⁇ 11 ⁇
  • ⁇ 11 ⁇ Markov random field
  • Korean Patent Laid-Open No. 10-2013-0052432 relates to a pattern recognition method based on a Markov chain hidden conditional random field model, in which a feature vector from a trained input signal measured for a specific pattern is extracted, and a total covariance Gaussian distribution
  • the hidden conditional random field model to which the combination of the hidden conditional random field model and the specific pattern is applied is characterized by obtaining a parameter of the hidden conditional random field model by receiving a plurality of combinations of the feature vector and the label indicating the specific pattern,
  • a probability graph based sequence data association learning method and system can be provided.
  • the association learning method of sequence data performed by the association learning system includes: predicting a correlation between each variable in the sequence data; And graphically providing a predicted correlation between each of the variables.
  • the step of predicting the correlation between each of the variables in the sequence data is characterized by specifying a node conditional distribution through a univariate sequence distribution for the variable and analyzing the specified node conditional distribution to determine a combined distribution And searching for the search result.
  • the step of predicting the correlation between the respective variables in the sequence data may include
  • the step Included Probability vector of dimension With corresponding nodes 2019/124724 1 »(: 1 ⁇ 1 ⁇ 2018/013254 All probability distributions of the nodes of the probability vector
  • the step of predicting a correlation between each of the variables in the sequence data comprises:
  • the step of predicting the correlation between each variable in the sequence data is called a multivariate probit model when the multivariate Gaussian vector is a multivariate Gaussian in the multivariate quantization sequence distribution, Vector, and in the multivariate probit model, a sequence probability vector
  • the step of predicting a correlation between each variable in the sequence data comprises:
  • the step of predicting a correlation between each variable in the sequence data comprises: 2019/124724 1 »(: 1 ⁇ ⁇ 2018/013254
  • the step of predicting the correlation between each variable in the sequence data is performed by estimating the threshold value ⁇ around the short-side variable and estimating the polychoric correlation from the bivariate distribution to estimate the unknown parameter in the pro- Can be estimated.
  • the step of predicting the correlation between each variable in the sequence data is to calculate the primitive estimate value from the bivariate likelihoods to estimate the polychoric correlation coefficient from the bivariate distribution and calculate the sparse latent graph and the smoothed
  • a predicted covariance matrix Can be plugged into a graphical lasso estimator.
  • the step of predicting the correlation between each of the variables in the sequence data may comprise: , Is the domain of , and can be (- 1, 1 ).
  • the step of predicting the correlation between each of the variables in the sequence data may be performed using a parametric Gaussian graph model estimator to obtain the structure of the graph and the final covariance You can plug in.
  • the association learning system includes a predictor for estimating a correlation between each variable in the sequence data; And a providing unit for providing graphically predicted correlations between the respective variables.
  • the association learning system can grasp the relationship through analysis of the sequence data.
  • the association learning system can improve the understanding of data generation and structure by grasping the relationship between variables in sequence data analysis.
  • the relevance learning system can recommend specific information based on the association between each of the variables.
  • Figure 1 shows a comparison of various estimates when data is generated from a probabilistic model with a chain graph structure, in one embodiment
  • Figures 2 and 3 illustrate data sampled in a model with 20 grid structures (10 X 5 grid), in one embodiment.
  • Figure 4 shows, in one embodiment, a potential tentative graph structure corresponding to SmokeNow and socio-demographic indicators.
  • FIG. 5 is a block diagram for explaining the configuration of the association learning system according to one embodiment.
  • FIG. 6 is a flowchart illustrating a method of performing association learning in the association learning system according to an embodiment.
  • FIG. 5 is a block diagram for explaining a configuration of the association learning system according to an embodiment
  • FIG. 6 is a flowchart illustrating a method for performing association learning in the association learning system according to an embodiment.
  • the association learning system 100 is for learning a sequence graph based sequence data association and may include a predictor 510 and a correlator 520.
  • the components of the system 2019/124724 1 (2018/013254) include the steps involved in the method of performing association learning of Figure 6
  • the predictor 510 may predict the correlation between the respective variables in the sequence data, and in step 620, the provider 520 graphs the predicted correlation between the respective variables
  • the learning of the sequence data association based on the probability graph will be described in detail in the following description.
  • a multivariate probability ratio based model will be described. First, a node conditional distribution can be specified through a conventional univariate sequence distribution and a Hammersley-Clifford-esque analysis can be performed to find the corresponding binding distribution.
  • the probability mass function of a sequence variable can be expressed as:
  • Equation ( 1) The univariate sequence distribution of Equation ( 1) can be used to specify a node conditional distribution and to derive a consistent binding distribution.
  • Equation 2 Is a logistic function. The following theorem proving that the node conditional distribution does not lead to a consistent joint distribution is presented.
  • the univariate probability distribution class is also called the continuous rate model.
  • Equation 4 2019/124724 1 »(: 1/10 public 018/013254
  • Theorem 2 Domain ⁇ ,. ⁇ ⁇ ', Including 0 to 19 ?
  • Dimensional probability vector, (hi, ... , 3 ⁇ 4).
  • ( k ) is a graph with nodes corresponding to each random variable.
  • all the node conditional distributions of the probability vector follow the single-variable continuous rate model of Equation 4,
  • the other is arbitrary function of the remaining variables.
  • the univariate cumulative ratio model and the continuous ratio model are not included in the exponent family, and in particular, they do not have the regularity to ensure that there is a coherent combination in the node condition part of this distribution.
  • each node has the conditional distribution of the gov't regularity.
  • sequence distribution is included in the index group, unlike the sequence distribution described above.
  • the model has enough
  • Position parameter It is an arbitrary function of the remaining variables. Since the node conditional distribution belongs to univariate index group, the following theorem can be calculated by applying proposition 1.
  • Non-directional graphs Two In the case of a pair of two elements with the largest size, which is consistent with the Markov binding distribution, the following form can be taken. In theorem 3, the distribution can be rewritten as Equation 6.
  • each node Solves the problem of normalized node conditional log wood maximization.
  • Contrast ratio model of Equation (6) is compared with the classical discrete nominal graph model which treats random variables as nominal variables at each node.
  • equation (7) for the probability vector V.
  • Each edge of the categorical model is parameterized using a variable.
  • the discrete graph model And is more complicated when compared to the continuous rate model.
  • This parameterization is continuous
  • the major drawback is that the nominal graph model has more parameters and therefore the sample complexity is larger, while the ratio model parameterization is included.
  • multivariate quantization sequence distribution is multivariate Gaussian multivariate probabilistic vectors, also known as multivariate probit models.
  • the dependence can be expressed by a potential probability vector through a Gaussian distribution.
  • Equation 9 off
  • Il l Off is a standard for each item except for diagonal entries. It can be seen that the purpose is ambiguous and is generally difficult to optimize. Although an approximate EM based approach has been proposed to learn the model parameters, it is still relatively computationally demanding and does not provide robust statistical guarantees for actual normalized MLE solutions.
  • Equation (8) we propose an alternative procedure for estimating unknown parameters in the ProBit graph model distribution.
  • the threshold is estimated around the univariate, and in the second step, 130 ( 01 : Correlation is established from the bimodal distribution.
  • the estimated covariance matrix is plugged into the graphical lasso estimator to estimate the sparse potential graph and the smoothed estimate value.
  • Step 1 We solve the independent optimization problem to estimate each item. .
  • the probability distribution of the random variable, 2 is the average [0,
  • Equation (10) If, and 0 * is known, by maximizing the bivariate around the log-likelihood function and can estimate the unknown parameter t can be expressed as: Equation (10)
  • the domain is a domain of (-1, 1) unless an additional restriction is set on the covariance. Under certain rules, such as the smoothness of the target with a one-dimensional optimization problem, it can be solved within the error at time 1 ⁇ / 1> simply by evaluating the target through a fine grid and selecting the optimal grid point.
  • Step 2 Plug in the parametric Gaussian graph model estimator to obtain the graph structure and final covariance.
  • a consistent parametric Gaussian estimator e.g., a graphical lasso estimator, CLIME graphical Dantzig selector, etc.
  • (c-2) is a mild condition that ensures that the two potential variables are not collinear and that all categories of sequence variables have non-zero probabilities.
  • Figure 1 shows a comparison of various estimates when data is generated from a Probit model with a chain graph structure.
  • the three columns on the right represent performance against log likelihood, probenosis, and entropy loss.
  • Evaluation Scale You can compare the performance of the estimator tool with the baseline for graph structure recovery using the calculated R0C curve by changing the normalization parameters. You can use Frobenius Loss and Entropy Loss to compare the performance of Oracle, ProbitEM, ProbitEMApprox, and ProbitDirect parameters when generating data from the Probit model. Provenius loss: 2019/124724 1 »(: 1 ⁇ ⁇ 2018/013254
  • this High Node] threshold ⁇ 1 can be set as follows.
  • the covariance matrices can be scaled so that all variables are equal to 1 at a time of 1, 10, -0.7, 0.7, 10, 1. 1, , Wow
  • Fig. 2 is data sampled at a (: father model with 20 grid structures (10 x 5 grid).
  • the node specific parameters () can be sampled evenly from [-1, 1].
  • the bidirectional interaction term ($ lower) is set to 0.1 for all horizontal edges and can be set to -0.1 for all vertical edges.
  • Fig. 3 is data sampled at 0 011360 model with 20 grid structures (10 x 5 grid).
  • the node specific parameters () can be sampled evenly from [-1 1].
  • the bidirectional interaction term ( 4 ) may be set to 0.3 for all horizontal edges and set to -0.3 for all vertical edges.
  • the model's data can be sampled.
  • Figures 2 and 3 present the results on a grid graph with details of the exact parameters used. Referring to FIG. 2, since the interaction between variables is low It can be seen that the model shows similar performance to other estimates, and referring to FIG. 3, it can be judged that the performance degrades if the interaction is high.
  • the node conditional likelihood-based estimator for the continuous ratio model is not efficient or that the provisional graphical model such as the probit model is a better model than the continuous model.
  • Figure 4 shows the potential preliminary graph structure corresponding to SmokeNow and socio-demographic indicators.
  • the graph can be generated from the surrounding distribution of the corresponding variables.
  • the green and red edges represent negative partial correlations with positive correlations, respectively, and edge thickness is proportional to the magnitude of partial correlations.
  • 2019/124724 1 (1) ⁇ 2018/013254 For example, the Health Information Country National Cancer Institute
  • a 95% confidence interval can then be obtained for the edge strength of the latent graph using the Jackknife resampling technique. At this time, you can place an edge on the graph only if the confidence interval does not intersect [-0.1, 0.1].
  • Figure 4 shows how various variables related to sociodemographic indicators are related to human smoking behavior.
  • £ 1110 1 3 ⁇ 4 1 [ 0 indicates a very significant association with education, indicating that if a person is well educated and subject to all other variables, the person is unlikely to smoke.
  • this insight can help to design an efficient strategy to inform the public about smoking-related health information.
  • the apparatus described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components.
  • the devices and components described in the embodiments may be implemented by any suitable means, including, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, A general purpose computer or a special purpose computer, such as a microcomputer, a field programmable gate array (FPGA), a programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions.
  • the processing device may execute an operating system (OS) and one or more software applications running on the operating system.
  • OS operating system
  • software applications running on the operating system.
  • the processing device may also access, store, manipulate, process, and generate data in response to execution of the software.
  • the processing apparatus may be described as being used singly, but those of ordinary skill in the art will recognize that the processing apparatus may include a plurality of processing elements and / Processing elements may be included.
  • the processing unit may include a plurality of processors or one processor and one controller. Other processing configurations, such as a parallel processor, are also possible.
  • the software may include a computer program, code, instructions, or a combination of one or more of the foregoing, configured to configure the processing device to operate as desired, or to be processed collectively or independently You can command the device.
  • Software and / or data may be stored on any type of machine, component, physical device, virtual equipment, computer storage media, or any combination thereof, for interpretation by a processing device or to provide instructions or data to the processing device or may be embodied (near 111 1 300 ⁇ ) to the device.
  • the software is a networked computer system It may be distributed on a system and stored or executed in a distributed manner.
  • the software and data may be stored on one or more computer readable media.
  • the method according to an embodiment may be implemented in the form of a program command that can be executed through various computer means and recorded in a computer-readable medium.
  • the computer-readable medium may include program instructions, data files, data structures, etc., alone or in combination.
  • the program instructions to be recorded on the medium may be those specially designed and configured for the embodiments or may be available to those skilled in the art of computer software.
  • Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape, optical media such as CD-ROMs and DVDs, and optical disks such as floppy disks.
  • Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like.
  • Examples of program commands include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter,

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

확률 그래프 기반의 서열 데이터 연관성 학습 방법 및 시스템이 개시된다. 일 실시예에 따른 연관성 학습 시스템에 의해 수행되는 서열 데이터의 연관성 학습 방법은, 서열 데이터에서 각각의 변수 사이의 상관 관계를 예측하는 단계; 및 상기 각각의 변수 사이에 예측된 상관 관계를 그래프로 제공하는 단계를 포함할 수 있다.

Description

2019/124724 1»(:1^1{2018/013254
【명세세
【발명의 명칭】
확률그래프기반의 서열 데이터 연관성 학습방법 및 시스템
【기술분야】
아래의 설명은확률그래프기반의 서열 데이터 연관성 학습방법 및 시스템 에 관한것이다.
【배경기술】
마르코프 랜덤 필드 (^11^)라고하는방향이 지정되지 않은그래픽 모델은다 변수무작위 변수를모델링하는데,무차별 그래프를사용하여 변수들사이의 조건부 독립 구조를모델링한다. 이러한조건부 독립 구조는서로 다른 변수가서로상호 작용하는 방식에 대한유용한통찰력을 제공한다. 결과적으로
Figure imgf000002_0001
는 자연 언어 처리, 생물학및 의학등다양한분야에서 광범위하게사용된다.
한국공개특허 제 10-2013-0052432 호는 마르코프 연쇄 은닉 조건부 랜덤 필드모델 기반의 패턴 인식 방법에 관한 것으로, 특정 패턴에 대하여 측정되는트 레이닝 입력 신호로부터의 특징 벡터를 추출하고, 전체 공분산가우스 분포의 조합 을적용한은닉 조건부 랜덤 필드모델이,특징 벡터와상기 특정 패 턴을지시하는 라벨의 조합을다수 개 입력 받아서 은닉 조건부 랜덤 필드모델의 매개 변수를구 하고, 매개 변수가적용된은닉 조건부 랜덤 필드모델이,실제 패턴에 대하여 측정 되는 테스트 입력 신호로부터 추출된 특징 벡터를 입력 받아서 실제 패턴을지시하 는라벨을추론하는구성을개시하고 있다.
【발명의 상세한설명】 2019/124724 1»(:1^1{2018/013254
【기술적 과제】
확률 그래프 기반의 서열 데이터 연관성 학습 방법 및 시스템을 제공할 수 있다.
【기술적 해결방법】
연관성 학습 시스템에 의해 수행되는서열 데이터의 연관성 학습 방법은,서 열 데이터에서 각각의 변수사이의 상관 관계를 예측하는 단계; 및 상기 각각의 변 수사이에 예측된 상관관계를그래프로 제공하는단계를포함할수 있다.
상기 서열 데이터에서 각각의 변수사이의 상관관계를 예측하는 단계는, 상 기 변수에 대한 단변량서열 분포를통해 노드 조건부 분포를 지정하고, 상기 지정 된 노드조건부 분포에 대한분석을수행하여 결합분포를 탐색하는 단계를포함할 수있다.
상기 서열 데이터에서 각각의 변수사이의 상관관계를 예측하는 단계는, 도
Figure imgf000003_0007
Figure imgf000003_0001
단변량 누적 비율모델에 적용될 경우, 각노드
Figure imgf000003_0003
대하여, 위치 파라미터
Figure imgf000003_0002
나머지 변수의 임의 함수일 수 있다.
상기 서열 데이터에서 각각의 변수사이의 상관관계를예측하는
단계는, 도메인
Figure imgf000003_0004
포함하는
Figure imgf000003_0005
차원의 확률 벡터
Figure imgf000003_0006
대응하는 노드를 갖 2019/124724 1»(:1^1{2018/013254 는 그래프를
Figure imgf000004_0001
하면 확률 벡터의 모든 노드조건부 분포가수
Figure imgf000004_0002
모델에 적용될 경우, 각노드 5드 ’에 대하여, 위치 파라미터
Figure imgf000004_0003
지 변수의 임의 함수이고,
Figure imgf000004_0004
³ 1에 대하여, 특정 노드조건부 분포가 확률 벡 터 \를 통한 임의의 결합 분포에 대한 마르코프와 일치하지 않는
Figure imgf000004_0005
실수값파라미터가존재할수 있다.
상기 서열 데이터에서 각각의 변수사이의 상관관계를 예측하는 단계는,서
Figure imgf000004_0006
' = (¾…,조 )에 대하여 노드조건부분포를지정하기 위하여 단변량서열 분포를 사용할 경우, 각 노드
Figure imgf000004_0007
에 대해 수학식
Figure imgf000004_0008
5(추 5)가나머지 변수의 임의 함수일 수 있다. 상기 서열 데이터에서 각각의 변수 사이의 상관 관계를 예측하는 단계는,상 기 노드 조건부 분포가 결합 분포와 일치하는 단계를 포함하고, 상기 그래프 = ( )와관련하여,마르코프인 결합분포와 일치하며 크기가가장큰 2개 의 요소를 갖는 쌍으로 된 경우, 수학식 2019/124724 1»(:1/10公018/013254
Figure imgf000005_0001
4( )와 같이 표현되 고,상기 연속비율모델의 파라미터를추정하기 위하여,각노드 3 ^ 1^1 에서 정 규화된 노드조건부로그우드최대화문제를해결할수 있다. 상기 서열 데이터에서 각각의 변수 사이의 상관관계를 예측하는 단계는, 다 변량양자화서열 분포에서 다변량잠재 확률 벡터가다변량 가우시안인 경우, 다변 량프로빗 모델로불리며,종속성이 가우스분포를통하여 잠재적인 확률 벡터에 의 해 표현되고,상기 다변량프로빗 모델에서 서열 확률 벡터
Figure imgf000005_0002
Figure imgf000005_0003
- #(◦,å)와 ¾ 〜 #(0,1) VI € [1 일 때, 각 幻가 爲의 이 산화를통해 획득될수 있다. 상기 서열 데이터에서 각각의 변수 사이의 상관 관계를 예측하는 단계는,
Figure imgf000005_0004
Figure imgf000005_0005
[41》 1 쨍)) 映 ,뺑)
에 의하여 정의된 하이퍼큐브일 수 이 다. 상기 서열 데이터에서 각각의 변수 사이의 상관 관계를 예측하는 단계는, 2019/124724 1»(:1^1{2018/013254
h ~ {y }i=i가파라미터 ©' å 를포함하는프로빗 모델로부터 유도된 확 률 벡터 Y로부터 실현될 경우 Y 로부터 파라미터 ©' å 를 학습하는 -정 규화된 최대 우드 (ML) 추정기가 수학식 n
mlmmize - ^ log FCy,; å5 0) +세 å_1 |j i,0|f
6( åG i=l )과 같은 형식으로 표시되고,
Figure imgf000006_0001
가 diagonal entries를제외한항목별 玄 1 표준일 수 있다. 상기 서열 데이터에서 각각의 변수사이의 상관관계를 예측하는 단계는 상 기 프로빗 그래프 모델 분포에서 알려지지 않은 파라미터를 추정하기 위하여 단변 량주변에서 임계값 ®를추정하고 이변량주변 분포로부터 polychoric 상관 관계 ᄅ를추정할수 있다. 상기 서열 데이터에서 각각의 변수사이의 상관관계를 예측하는 단계는 상 기 이변량 주변 분포로부터 polychoric 상관 관계 ᄅ를 추정하기 위하여, 이변량 주변 우도로부터 원시 추정치 £를 계산하고, sparse잠재 그래프와평활화된 추정 치 å를추정하기 위하여 예측된 공분산 행렬
Figure imgf000006_0002
을그래픽 lasso추정기로플러그 인할수 있다. 상기 서열 데이터에서 각각의 변수 사이의 상관 관계를 예측하는 단계는, 3 ¹ ¾ 에 대해 å作 를 추정하면, 히, ) 의 결합 분포는 확률 례 ¾ ©, å作) = 레 ! < ¾ < 0찧세 ' £爲 £ 4 玄如)를 갖는 다항식이고, 확률 변수 4,
Figure imgf000006_0003
확률 분포가 평균 [0, 이과 공분산 1 'å>jk
å 'jk 를갖는 이변량 정규분포이며, ᄋ \ 이변량주변로그우도 함수를 2019/124724 1»(:1/10公018/013254 최 수학식 7
Figure imgf000007_0001
)을 통해 추정하고,
¾¾ - [: =1玉(}¾ = 公’父 ) 成 (分; ®) ~례 :? 에 쇼; 分)일 수있다 상기 서열 데이터에서 각각의 변수사이의 상관관계를 예즉하는 단계는,상 수학식
Figure imgf000007_0003
, 은 ·의 도메인이며,(-1 , 1)일 수 있다.
상기 서열 데이터에서 각각의 변수 사이의 상관관계를 예측하는 단계는 그 래프의 구조와 최종 공분산을 획득하기 위하여 파라 메트릭 가우시안 그래프 모델 추정기에
Figure imgf000007_0002
플러그인할수 있다.
연관성 학습 시스템은 서열 데이터에서 각각의 변수사이의 상관관계를 예 측하는 예측부; 및 상기 각각의 변수사이에 예측된 상관관계를그래프로제공하는 제공부를포함할수 있다.
【발명의 효과】
일 실시예에 따른 연관성 학습 시스템은 서열 데이터의 분석을 통한 관계성 의 파악이 가능해진다.
일 실시예에 따른 연관성 학습 시스템은 서열 데이터 분석에 있어서 변수들 사이의 연관관계를파악하여 데이터의 생성 및 구조에 대한이해를높일 수 있다. 2019/124724 1»(:1^1{2018/013254 일 실시예에 따른 연관성 학습시스템은각각의 변수들사이의 연관성에 기 반하여 특정 정보를추천할수 있다.
【도면의 간단한설명】
도 1은일실시예에 있어서,체인그래프구조가있는프로빗모델로부터 데 이터가생성될때의 다양한추정치를비교한것을나타낸 것이다
도 2 및 3은 일 실시예에 있어서, 20그리드구조 (10 X 5그리드)가있는 모델에서 샘플링한데이터를나타낸것이다.
도 4는 일 실시예에 있어서, SmokeNow및 사회 인구학적 지표에 해당하 는잠재잠정 그래프구조를나타낸것이다.
도 5는일실시예에 따른연관성 학습시스템의 구성을설명하기 위한블록 도이다.
도 6은 일 실시예에 따른 연관성 학습시스템에서 연관성 학습을수행하는 방법을설명하기 위한흐름도이다.
【발명의 실시를위한최선의 형태】
이하,실시예를첨부한도면을참조하여 상세히 설명한다. 도 5는일실시예에 따른연관성 학습시스템의 구성을설명하기 위한블록 도이고,도 6은일 실시예에 따른연관성 학습시스템에서 연관성 학습을수행하는 방법을설명하기 위한흐름도이다.
연관성 학습시스템 (100)은 확률그래프 기반의 서열 데이터 연관성을학습 하기 위한것으로, 예측부 (510)및 제공부 (520)를포함할수 있다. 연관성 학습시 2019/124724 1»(:1^1{2018/013254 스템의 구성 요소들은 도 6 의 연관성 학습을 수행하는 방법이 포함하는 단계들
(610내지 620)을수행하도록연관성 학습시스템 ( 100)을 제어할수 있다.
단계 (61⑴에서 예측부 (510)는 서열 데이터에서 각각의 변수들 사이의 상관 관계를 예측할수 있고, 단계 (620)에서 제공부 (520)는 각각의 변수들사이에 예측된 상관관계를그래프로 제공할수 있다. 이하, 아래의 설명에서는 확률그래프 기반 의 서열 데이터 연관성을학습하는 것에 대하여 구체적으로설명하기로 한다.
다변량 확률 비율 기반 모델에 대하여 설명하기로 한다. 첫번째로, 종래의 단변수 서열 분포를 통해 노드 조건부 분포를 지정하고 해머슬리-클리포드-에스크 (Hammersley-Clifford-esque)분석을통해 해당결합분포를탐색할수 있다.
- Univariate Latent Quantified Ordinal Models를통한 MRF
Figure imgf000009_0001
서열
Figure imgf000009_0003
파라미터 分- 1 = -次) , OM =公分에 대해 F — J
Figure imgf000009_0002
같은 실수값변수 의 이산화된 버전으로작성될 수 있다.
서열 변수 의 확률질량함수는다음과같이 나타낼수 있다.
수학식 1:
P[F = j] = g {分 j - ) - g{0j~ i一 ). 잠재 실수값 변수 z 에 대한 대중적인 분포는 단변량 로지스틱 분포이고, 여기서, 玄 〜 logistic(/i, 1) 는 즉 위의 함수 公 ( ) 가 로지스틱 함수 2019/124724 1»(:1/10公018/013254
公(句 () = 1八 1 + 6X1)( - ))가 되도록 한다. 이 경우, 앞서 설명한
Figure imgf000010_0001
따라서 서열 분포의 계급을누적 비율모델이라고도부른다. 수학식 1 의 단변량 서열 분포를 사용하여 노드 조건부 분포를 지정하고 일관된 결합분포를도출할수 있다.
、 — 사 15' !?)를 p 차원의 서열 확률 벡터라고 하자. 표기법을
/V
단순화하기 위하여 후속에서 확률 변수 1 5 /*=1 의 도메인은 동일하고,
Figure imgf000010_0002
대응하는노드로나타낸그래프라고하자.
각 5ᄐ !ᄌ에 대하여,수학식 2와같이 표현할수 있다. 수학식 2:
Figure imgf000010_0003
는 로지스틱 함수이다. 노드 조건부 분포가 일관된 결합 분포로 이어지지 않는 것을증명하는다음의 정리를 제시한다.
Figure imgf000010_0004
2019/124724 1»(:1/10公018/013254 조건부 분포가수학식 2 의 단변량 누적 비율 모델을 따른다고 가정하면, 각 노드
Figure imgf000011_0001
대하여,위치 파라미터 쫘 는나머지 변수의 임의 함수이다. 그러면, M > 1에 대하여, 특정 노드-조건부 분포가 크기가 최대 2 인 그래프 G에 대한 Markov인 Y에 대한임의의 결합분포와일치하지 않는실수값
Figure imgf000011_0002
존재한다.
-MRFs via Continuation Ratio Models통한 MRF
누적 비율모델에 밀접한관계가있는로그-오즈비율의 수정이 고려된다.
Figure imgf000011_0003
단변량 확률 분포 클래스는 연속 비율 모델이라고도 한다. 위의 로그-오즈 비율 비율에서 ··= _ P를 나타낼 때, 확률 변수 Y 의 확률 질량 함수 (RMF)는다음과같이 유도될수 있다.
수학식 3:
3 =必,, , 有一 1.에 대해,
Figure imgf000011_0004
합계는 1이 된다.
특히, 각노드 5
Figure imgf000011_0005
대해 수학식 4를가지고 있다고가정하기로하자. 수학식 4: 2019/124724 1»(:1/10公018/013254
Figure imgf000012_0001
는 나머지 변수의 임의 함수이다. 다음 정리는 이러한 노드 조건부 분포가 일관된 결합분포로나타나지 않는 것을증명한다.
정리 2: 도메인 {◦,. · ·‘, 019를 포함하는 ? 차원의 확률 벡터 、 = (히,…, ¾) 를 고려한다.
Figure imgf000012_0002
= ( 끄)는 각각의 확률 변수 €^시1에 대응하는노드를 갖는그래프라고가정하자. 확률 벡터의 모든 노드 조건부 분포가 수학식 4 의 단변수 연속 비율 모델을 따른다고 가정하면, 각 노드
Figure imgf000012_0003
대하여,위치 파라미터 쇠!외는나머지 변수의 임의 함수이다. 그러면, ]|// > 1에 대하여, 특정 노드 조건부 분포가 V 를 통한 임의의 결합 분포, 즉, 무방향성 그래프
Figure imgf000012_0004
에 대한 마르코프와 일치하지 않는 {分 } 的 [씨: 실수값파라미터 가존재한다.
ᅳ MRFs via a Consecutive Ratio model통한 MRF
단변량 누적 비율 모델 및 연속 비율 모델은 지수족에 비포함되고, 특히 이러한 분포에 속하는 노드 조건부에 일관성 있는 결합이 존재할 수 있도록 하는 규칙성을 갖고 있지 않다는 것이다. 다시 말해서, 단변량 누적 비율 모델 및 연속 비율모델에서 각노드조건부분포가비규칙성을가진다.
다음과 같이 정의되는 연속 비율 모델이라고 불리는 단변수 서열 분포의 세번째 클래스를고려한다.
Figure imgf000012_0005
2019/124724 1»(:1^1{2018/013254
아래에서 볼수 있듯이 서열 분포는앞서 설명한서열 분포와달리 지수족에 포함된다.
모델은 충분한 를 갖는
Figure imgf000013_0001
지수족에 속하며,
Figure imgf000013_0002
서열 확률 벡터 、
Figure imgf000013_0003
대해 노드 조건부 분포를 지정하기 위하여 단변량서열 분포를사용한다고가정하자. 특히,각노드 5 €
Figure imgf000013_0004
에 대해,수학식 5와 같이 표현할수 있다.
수학식 5:
Figure imgf000013_0005
위치 파라미터
Figure imgf000013_0006
나머지 변수의 임의 함수이다. 노드 조건부 분포는 단변량지수족에 속하기 때문에 명제 1을 적용하면 다음 정리를산출할수 있다. 정리 3:수학식 5에서 노드조건부분포는 결합분포와일치한다.
무방향 그래프 두 =
Figure imgf000013_0007
관련하여, 마르코프인 결합 분포와 일치하며, 크기가 가장 큰 2 개의 요소를 갖는 쌍으로 된 경우에는 다음과 같은 형식을취할수 있다.
Figure imgf000013_0008
정리 3에서 분포는수학식 6과동일하게 다시 작성될수 있다.
수학식 6: 2019/124724 1»(:1/10公018/013254
Figure imgf000014_0001
수학식 6 의 연속 비율 모델의 파라미터를 추정하기 위하여, 각 노드
Figure imgf000014_0002
정규화된 노드조건부로그우드최대화문제를해결한다.
Figure imgf000014_0003
여기서, {^ }¾=1 은 트레이닝 샘플이고, 多 5 = {多 5;少}보【 - 1]山: {¾於}½1’、.3이다 지수족 그래프 모델의 추정량에 대한 통계적 보증에 대한 기존의 결과가 연속비율모델로이어진다.
이산과 대비/명목 그래프 모델: 수학식 6 의 연속 비율 모델을 각 노드에서 확률 변수를 명목 변수로 취급하는 고전적인 이산 명목 그래프 모델과 대조한다. 확률 벡터 V에 대해 수학식 7과같은이산그래프모델을고려한다.
수학식 7:
(父 exp( 히 0s:j ^{ys =거
Figure imgf000014_0004
연속 비율 모델과 달리 이산 그래프 모델은
Figure imgf000014_0005
1의 다른 값에 대해 공통 엣지 파라미터 ^ 를 가지지 않는다. 범주형 모델의 각각의 엣지는 변수를 사용하여 파라미터화 된다. 결과적으로 이산 그래프 모델은
Figure imgf000014_0006
의 순서를 사용하지 않고, 연속 비율모델과비교했을 때 더 복잡하다. 이 파라미터화는 연속 2019/124724 1»(:1^1{2018/013254 비율 모델 파라미터화를 포함하는 반면 주요 단점은 명목 그래프 모델이 더 많은 파라미터를가지므로 샘플복잡성이 더 크다는 것이다.
-Multivariate Latent Quantized Models
단변량 서열 분포로부터 다변량 서열 그래프 모델을 직접 구성하는 것을 고려한다. 실수값 잠재 변수의 양자화에 기반하여 단변량 서열 분포의 고전적이고 가장 대중적인 클래스를 다시 고찰한다. 다변량분포의 자연적인 클래스는 다변량 잠재 확률 벡터를 취하고, 다변량 서열 확률 벡터를 획득하기 위하여 양자화함으로써 획득될수 있다.
-Probit Graphical Model
다변량 양자화 서열 분포의 가장보편적인 예는 다변량 잠재 확률 벡터가 다변량가우시안인 경우이며, 이는다변량프로빗 모형으로도알려져 있다. 따라서, 종속성은가우스분포를통하여 잠재적인 확률벡터에 의하여 표현될수 있다.
프로빗 모델에서, 서열 확률 벡터
Figure imgf000015_0001
잠재 다변량 가우시안 확률 벡터
Figure imgf000015_0002
에 의해 생성되는 것으로 가정하고, 쏭 ~ (.0,å)와 ¾ - M(Q, 1) Vi e [1,계이다. 각 幻는 다음과 같이 ¾의 이산화를통해 획득될수 있다.
Figure imgf000015_0003
/x(i) /Q(0 —
U_i =—OO , — w 으로 설정된다. 그러면, Y 의 밀도 함수,
Figure imgf000015_0004
수학식 8과같이 주어진다. 수학식 8: 2019/124724 1»(:1/10公018/013254
Figure imgf000016_0001
, 와
(7( V, 0) ᄐ [쎄 1,多 )) X… X 떼 1,淨 ¾)) 에 의하여 정의된 하이퍼큐브이다.
Figure imgf000016_0002
포함하는 프로빗 모델로부터 유도된 확률 벡터 \7 로부터 실현된다고 하자. 그러면, I71로부터 파라미터 ©' å*를 학습하는 1 -정규화된 최대 우드(凡) 추정기가 수학식 9 와 같은 형식을취한다. 수학식 9: , off
Figure imgf000016_0003
I I ' Il l Off 는 diagonal entries 를 제외한 항목별 요 1 표준이다. 목적이 비볼록하고 일반적으로 최적화하기가 어렵다는 것을 알 수 있다. 모델 파라미터를 학습하기 위하여 근사 EM 기반 접근법이 제안되었지만, 여전히 상대적으로 계산적으로 요구되고 있으며, 실제 정규화된 MLE 솔루션에 대하여 강력한 통계 보증을제공하지 않는다.
-A Direct Estimation Method 수학식 8 에서 프로빗 그래프 모델 분포에서 알려지지 않은 파라미터를 추정하기 위한 대체 절차를 제안한다. 2 단계의 절차로서, 첫 번째 단계에서는 2019/124724 1»(:1/10公018/013254
단변량 주변에서 임계값 를 추정하고 두 번째 단계에서는 이변량 주변 분포로부터 13001 :상관관계 를주정한다.
-ESTIMATION OF THRESHOLDS
©의 추정량, ø를다음과같이 정의한다.
Figure imgf000017_0001
yi jth 수、
J 번째 좌표이다. 는일관되게
Figure imgf000017_0002
추정한다는 것을알수 있다.
-상관관계 및 잠재 그래프구조의 추정
ᄅ의 추정을 위한 두 단계 접근법을 제시한다. 첫 번째 단계에서 이변량 주변 우도로부터 원시 추정치
Figure imgf000017_0003
를 계산한다. 두 번째 단계에서, sparse 잠재 그래프와평활화된추정치 å를추정하기 위하여 추정된 공분산 행렬 을그래픽 lasso추정기로플러그인 한다.
단계 1:
Figure imgf000017_0004
의 각항목을추정하기 위하여 독립적인 최적화문제를해결한다.
Figure imgf000017_0005
갖는 다항식이다. 여기서 확률 변수 , 2 의 확률 분포는 평균 [0, 이과
___ — 공분산
Figure imgf000017_0006
1 !를갖는이변량 정규분포이다. 2019/124724 1»(:1^1{2018/013254
만약, 0*이 알려져 있고, 이변량 주변 로그 우도 함수를 최대화함으로써 미지의 파라미터 ᄐ 를추정할수 있고 다음과같이 나타낼수 있다. 수학식 10:
Figure imgf000018_0001
ab'jk0' (今) = P(5j
Figure imgf000018_0002
= 6; G cr)이다. 그러나, 임계값 0 이
Figure imgf000018_0003
알려져 있지 않다.
Figure imgf000018_0004
추정하기 위하여 를추정기 3로 대체하고, 다음의 로그우도를최대화한다.
·
Figure imgf000018_0005
arg max £jk(cr; G, Yn)
dºM ᆻ은 의 도메인이며 공분산에 대한추가적인 제한이 설정되지 않는다면 (-1, 1)이다. 일차원 최적화 문제로 목표의 매끄러움과 같이 특정 규칙 하에서는 서에서 미세한 그리드를 통해 목표를 단순히 평가하고 최적의 그리드 포인트를 선택함으로써 시간ᄋ<1/ 에서 오류 내에서 해결할수 있다. 단계 2: 그래프 구조와 최종 공분산을 획득하기 위하여 파라 메트릭 가우시안그래프모델 추정기에 £를 플러그인한다. 일관된 파라 메트릭 가우시안 추정기 (예컨대, graphical lasso estimator CLIME graphical Dantzig selector 등)을 사용하여 잠재 그래프 구조를 추정하는데 사용될 수 있지만 본 발명에서는 2019/124724 1»(:1/10公018/013254
graphical lasso estimator 에 기반하여 설명하기로 한다. 다음은 최적화 문제를 해결할수 있다. 수학식 11: å = arg min《å_1, ¾) - log det (å -1) + A7i ||å 1 |i oiif
å- Vo 여기서 <<A B ñ ñ는 A와 P의 trace inner product를나타낸다.
-Theoretical Properties이론적 특성 앞서 설명한 직접적인 추정 방법이 단순할 뿐만 아니라 강력한 통계적
Figure imgf000019_0001
보증을 한다. 구체적으로 역공분산 에 대한 00로 향하는 것을 제공하고,
©* 그래픽 모델 구조 복구와 관련하여 희소성을 보여준다. 단순화하기 위하여, 가
0*
주어진 것으로 가정하자. 그러나 가 알려지지 않은 경우의 확장은 매우 간단해야한다. 먼저 표기법을소개하기로 한다.
Figure imgf000019_0002
하자. 이때, 後!는 크로네커 매트릭스 곱을 나타내고
Figure imgf000019_0003
에서 평가된 -log det(A)의 헤시안 (Hessian )을나타낸다. S를
Figure imgf000019_0004
모든 0 이 아닌 항목에 해당하는 인덱스 집합이라고 하고, sc를 s 의 보수이다. 또한, IHI00는 최대 절대 행 합계를 나타내는 표기 단순성을 위해
Figure imgf000019_0005
: = |(r 자ᄂ를 정의한다. d 를 잠재
¾¾ (ᄍ; ©*) =】段[¾ (ᄍ; ©*)] 그래프에서 최대 노드 차수라고 하자. 수학식 10에서 정의된 샘플손실의 모집단버전이다. 아래에서는가정을밝힌다.
(c-1) 將 (: ¾)— 11。。 £ 1 - «인 « (0, 1]이 존재한다. 2019/124724 1 1/10公018/013254
Figure imgf000020_0001
에 의하여 각각상한값을 갖는다. 더욱이 1 ―、(이 © 가 卜 1斗久 1 - «5]에서 퇴행성 임계점을 갖지 않는온화한규칙 성질이 성립한다.
(c-l) 는 glasso estimator 의 보증을 위해 만들어진 표준 비일관성 가정이다.
(c-2) 두개의 잠재적 변수가 동일 선상에 있지 않고 서열 변수의 모든 범주가 0이 아닌 확률을갖도록보장하는온화한조건이다.
이론 4: 파라미터
Figure imgf000020_0002
갖는 잠재 가우시안 모델을 해결하기 위하여 수학식 11 을추정치를고려한다. 0- 1 , 0-3조건이 만족된다고 가정하자. 그러면
Figure imgf000020_0004
수학식 12:
Figure imgf000020_0003
2019/124724 1»(:1/10公018/013254 적어도 1 _ l/p—令 1 확률
Figure imgf000021_0001
잠재적인가우시안그래프구조는지속적으로
Figure imgf000021_0002
에 의해 복원될수 있다.
Figure imgf000021_0006
glasso의 일관성 속성을이용하여 단계 2로부터 추정치
Figure imgf000021_0003
가높은확률로 수학식 12를 만족한다는것을보여준다.
suPi,fc
Figure imgf000021_0004
위하여, 비볼록 경험적 위험 최소화 문제의 정점의 속성을연구한다.
도 1 은 체인 그래프 구조가 있는 프로빗 모델로부터 데이터가 생성될 때의 다양한추정치의 비교를나타낸 것이다. 상단의 행과하단의 행은각각 w = -0.3, 쨘 = -0.9 에 해당된다. 왼쪽의 두개의 열은 n=50, 100 에 대한 R0C 곡선을 나타낸다. 오른쪽세개의 열은 log likelihood,프로베니우스, 엔트로피 손실에 대한 성능을나타낸다.
평가 척도: 정규화 매개 변수를 변경하여 계산 된 R0C 곡선을 사용하여 그래프 구조 복구에 대한 기준선과 견적 도구의 성능을 비교할 수 있다. Probit 모델에서 데이터를 생성 할 때 Frobenius Loss 및 Entropy Loss 를 사용하여 Oracle, ProbitEM, ProbitEMApprox 및 ProbitDirect 의 매개 변수 예즉 성능을 비교할수있다. 프로베니우스손실:
Figure imgf000021_0005
2019/124724 1»(:1^1{2018/013254
Figure imgf000022_0001
엔트로피 손실:
여기서
Figure imgf000022_0002
공분산 행렬이고, å 는추정된 공분산행렬이다.
마지막으로 500 개의 테스트 샘플에서 계산된 로그 가능성에 대한 1 013 £]\1,
Figure imgf000022_0003
를 비교할 수 있다. 이 세 가지 메트릭을 비교하기 위해 교차 유효성 검사를 사용하여 각 메소드에 대해 최적의 조정 매개 변수를 선택할 수 있다. 예를 들면, 그래프의 노드 수를 50 으로 고정하고각서수 변수의 카테고리 수를 5로 설정한다. 분산을줄이기 위해 평균 10회 이상의 결과를획득할수 있다.
첫 번째, 프로빗 모델로부터 서열 데이터를 생성할 수 있고, 체인 그래프로부터 데이터를 시뮬레이션할 수 있다. 잠재 변수의 역 공분산 행렬은 다음의 수학식 13과같이 선택될수 있다.
수학식 13:
Figure imgf000022_0004
고 노드 ] 에서 임계값 ø1")을. 다음과 같이 설정할수 있다.
⑴ = [― I此一 10, -0.7, 0.7, 10, 1베 이때,모든 변수가 1 이 되도록 공분산 행렬을 스케일할 수 있다. 도 1 은
Figure imgf000022_0005
, 와
1 013 1\4 은 비슷한 성능을 보이나,
Figure imgf000022_0006
013 1\4 보다 1-2 배 더 2019/124724 1»(:1^1{2018/013254 빠르고, ProbitEMApprox 는 특히 낮은 샘플 복잡성 설정에서 성능이 매우 낮음을 알수 있다.
도 2는 20그리드구조(10 X 5그리드)가있는( : 父모델에서 샘플링 한 데이터이다. 노드특정 파라미터( )는 [-1, 1 ]로부터 균등하게 샘플링될 수 있다. 쌍방향상호작용항($하)은모든수평 모서리에 대하여 0.1 로설정되고,모든수직 모서리에 대하여 -0.1로 설정될수 있다.
도 3은 20그리드구조(10 X 5그리드)가있는 0011360모델에서 샘플링 한 데이터이다. 노드특정 파라미터( )는 [-1 1 ]로부터 균등하게 샘플링될수 있다. 쌍방향상호 작용 항 ( ·4)은 모든 수평 모서리에 대하여 0.3 으로 설정되고 모든 수직 모서리에 대하여 -0.3으로설정될수 있다.
실시예에서는
Figure imgf000023_0001
모델의 데이터를 샘플링할 수 있다. 도 2 와 3 은 사용된 정확한 매개 변수의 세부 사항과 함께 그리드 그래프에 결과를 제시하였다. 도 2 를 참고하면 변수 간의 상호 작용이 낮기 때문에
Figure imgf000023_0002
모델은 다른 추정치와비슷한성능을보임을알수 있고, 도 3을 참고하면 상호 작용이 높으면 성능이 저하됨을판단할수 있다. 연속적 비율모델에 대한노드조건적 우도기반 추정기가 효율적이지 않거나 프로빗 모델과 같은 잠정적 그래픽 모델이 연속 모델보다더 좋은모델임을 제안할수 있다.
도 4 는 SmokeNow 및 사회 인구 학적 지표에 해당하는 잠재 잠정 그래프 구조를나타낸 것이다. 그래프는 대응하는 변수의 주변 분포로부터 생성될 수 있다. 녹색 및 적색 엣지는 각각 양의 상관 부분과 음의 부분 상관을 나타낸 것이고, 가장자리 두께는부분상관관계의 크기에 비례한다. 2019/124724 1»(:1^1{2018/013254 일례로, 건강 정보 국가
Figure imgf000024_0001
국립 암 연구소어 )에서 전국적으로실시한설문조사에서 설문조사의 각 질문을그래프의 노드로, 질문에 대한 개인의 반응을 그래프에서 추출한 샘플로 취급할 수 있다. 분석과 관련이 있는 데이터 세트에서 일부의 질문을 선택할 수 있고, 선택한 질문에 대 산 를 사용하여 프로빗 모델을 적용하고, 최적의 튜닝 파라미터를 선택하기 위해 우리는 10 배 교차 검증을 사용할 수 있다. 이후, 잭 나이프 리샘플링 기법을통해 잠복 그래프의 에지 강도에 대해 95 %신뢰 구간을 획득할 수 있다. 이때, 신뢰 구간이 [-0.1, 0.1 ]과 교차하지 않는 경우에만 그래프에 모서리를배치할수 있다.
도 4 는사회 인구 학적 지표와 관련된 다양한 변수가사람의 흡연 행동과 어떻게 관련되는지를나타낸다. 특히, £11101¾1\[0 는교육과매우중요한연관성이 있음을나타내고, 이것은사람이 잘교육받았고다른모든 변수를조건으로한다면, 그 사람이 담배를 피울 가능성이 낮다는 것을 나타낸다.
Figure imgf000024_0002
와 6\¥(¾ 663¾11111¾크11;11 가 긍정적인 부분 상관 관계를 가지고 있어 나머지 변수들, 톱연하는 사람들, 담배를 피우지 않는 사람들보다 덜 해롭다는 것을 흡연자가인지한다는것을나타냅니다. 일 실시예에 따르면, 이러한통찰력이 흡연 관련 건강 정보를 대중에게 알리는 효율적인 전략을 설계하는 데 도움이 될 수 있다.
【발명의 실시를위한형태】
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소및 소프트웨어 구성요소의 조합으로구현될 수 있다. 예를들어, 2019/124724 1»(:1^1{2018/013254 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit),디지털신호프로세서 (digital signal processor),마이크 로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령 (instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는운영 체제 (OS) 및 상기 운영 체제 상에서 수행되는하나이 상의 소프트웨어 애플리케이션을수행할수 있다. 또한, 처리 장치는소프트웨어의 실행에 응답하여, 데이터를접근,저장,조작,처리 및 생성할수도있다. 이해의 편 의를 위하여, 처리 장치는하나가사용되는 것으로 설명된 경우도 있지만, 해당 기 술분야에서 통상의 지식을가진자는,처리 장치가복수개의 처리 요소 (processing element)및/또는복수유형의 처리 요소를포함할수 있음을알수있다. 예를들 어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할수 있다. 또한, 병렬 프로세서 (parallel processor)와같은, 다른처리 구성 (processing configuration)도가능하다.
소프트웨어는 컴퓨터 프로그램 (computer program), 코드 (code), 명령 (instruction),또는 이들중하나이상의 조합을포함할수 있으며, 원하는 대로동 작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로 (collectively) 처리 장치를명령할수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되 거나처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요 소 (component),물리적 장치,가상장치 (virtual equipment),컴퓨터 저장매체 또는 장치에 구체화 (근1111300沙)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스 2019/124724 1»(:1^1{2018/013254 템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는하나이상의 컴퓨터 판독가능기록매체에 저장될수있다.
실시예에 따른방법은 다양한컴퓨터 수단을통하여 수행될 수 있는프로그 램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독가능 매체는프로그램 명령, 데이터 파일, 데이터 구조등을단독으로또는조 합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능기록 매체의 예에는 하드 디스크, 플로 피 디스크 및 자기 테이프와같은자기 매체 (magnetic media), CD-ROM, DVD와 같은 광기록 매체 (optical media), 플롭티컬 디스크 (floptical disk)와 같은 자기-광 매체 (magneto-optical media),및 롬 (ROM), 램 (RAM),플래시 메모리 등과같은프 로그램 명령을저장하고수행하도록특별히 구성된 하드웨어 장치가포함된다. 프 로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아 니라인터프리터 등을사용해서 컴퓨터에 의해서 실행될수 있는고급언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를들어, 설명된 기술들이 설명된 방법과 다른순서로수행되 거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합또는조합되거나, 다른구성요소또는균등물에 의하여 대치되거 나치환되더라도적절한결과가달성될수있다. 2019/124724 1»(:1/10公018/013254 그러므로, 다른구현들, 다른실시예들 및 특허청구범위와균등한 것들도후 술하는특허청구범위의 범위에 속한다.

Claims

2019/124724 1»(:1^1{2018/013254 【청구의 범위】
【청구항 1】
연관성 학습 시스템에 의해 수행되는 서열 데이터의 연관성 학습 방법에 있 어서,
서열 데이터에서 각각의 변수사이의 상관관계를예측하는단계; 및 상기 각각의 변수사이에 예측된상관관계를그래프로 제공하는단계 를포함하는연관성 학습방법.
【청구항 2】
제 1항에 있어서,
상기 서열 데이터에서 각각의 변수사이의 상관관계를예측하는단계는, 상기 변수에 대한 단변량 서열 분포를 통해 노드 조건부 분포를 지정하고 상기 지정된 노드조건부분포에 대한분석을수행하여 결합분포를탐색하는단계 를포함하는연관성 학습방법.
【청구항 3】
제 1항에 있어서,
상기 서열 데이터에서 각각의 변수사이의 상관관계를예측하는단계는, 도메인 {0, 1, . . . ,
Figure imgf000028_0002
를 포함하는 ^ 차원의 확률 벡터
Figure imgf000028_0001
에 대응하는 노드를 갖는그래프를 ^ = 피라고하면, 2019/124724 1»(:1^1{2018/013254 확률 벡터의 모든 노드 조건부 분포가 수학식 1 의 단변량 누적 비율 모델에 적용될 경우, 각 노드 5 V에 대하여, 위치 파라미터 ᆻ 1\«)가 나머지 변수의 임의 함수인
수학식 1:
Figure imgf000029_0001
것을특징으로하는연관성 학습방법.
【청구항 4]
제 1항에 있어서
상기 서열 데이터에서 각각의 변수사이의 상관관계를예측하는단계는, 도메인 {와,· · ·씨 를 포함하는 ? 차원의 확률 벡터
Figure imgf000029_0002
갖는그래프를 ( : = :0 표)라고하면,
확률 벡터의 모든 노드 조건부 분포가 수학식 2 의 단변수 연속 비율 모델에 적용될 경우, 각 노드 5 에 대하여, 위치 파라미터
Figure imgf000029_0003
나머지 변수의 임의 함수이고,
Figure imgf000029_0004
³ 에 대하여, 특정 노드 조건부 분포가 확률 벡터 V 를 통한 임의의 결합 분포에 대한 마르코프와 일치하지 않는
Figure imgf000029_0005
것을특징으로하는연관성 학습 방법. 2019/124724 1»(:1^1{2018/013254
【청구항 5]
제 1항에 있어서,
상기 서열 데이터에서 각각의 변수사이의 상관관계를 예측하는단계는,
Figure imgf000030_0001
Figure imgf000030_0002
부 분포를 지정하기 위하여 단변량서열 분포를사용할 경우, 각노드 5드 V에 대해 수학식
Figure imgf000030_0003
수학식 3:
Figure imgf000030_0004
것을특징으로하는연관성 학습방법.
【청구항 6】
제 5항에 있어서,
상기 서열 데이터에서 각각의 변수사이의 상관관계를예측하는단계는, 상기 노드조건부분포가결합분포와일치하는단계
를포함하고,
상기 그래프 ( = 0시 0와 관련하여, 마르코프인 결합분포와 일치하며 크기가가장큰 2개의 요소를 갖는쌍으로된 경우,수학식 4와 같이 표현되고, 2019/124724 1»(:1/10公018/013254 상기 연속 비율 모델의 파라미터를 추정하기 위하여 각 노드 5 ^ 1^1 에 서 정규화된 노드조건부로그우드최대화문제를해결하는
수학식 4:
Figure imgf000031_0001
것을특징으로하는연관성 학습방법.
【청구항 7】
제 1항에 있어서,
상기 서열 데이터에서 각각의 변수사이의 상관관계를예측하는단계는, 다변량 양자화 서열 분포에서 다변량 잠재 확률 벡터가 다변량 가우시안인 경우, 다변량프로빗 모델로불리며, 종속성이 가우스 분포를통하여 잠재적인 확률 벡터에 의해 표현되고,
상기 다변량 프로빗 모델에서, 서열 확률 벡터 이’ ·기)는 잠재 다변량 가우시안 확률 벡터
Figure imgf000031_0002
에 의해 생성되고, 分' ~ / ¾ å)와 爲 〜 :ᄉ厂 (04) 、此 .€ [1 일 때, 각 가 爲의 이산화를통해 획득되는
것을특징으로하는연관성 학습방법.
【청구항 8】
제 7항에 있어서
상기 서열 데이터에서 각각의 변수사이의 상관관계를예측하는단계는, \ 02019/124724 1»(:1^1{2018/013254
Yi =k ¾ ^[“ ))일 때,
Figure imgf000032_0001
가 임계값이
Figure imgf000032_0002
수학식 5와같이 제안되고,
6 [一니비}와 (7(¥?0)가
Figure imgf000032_0003
의하여 정의된 하이퍼큐브인
수학식 5:
Figure imgf000032_0004
것을특징으로하는연관성 학습방법.
【청구항 9】
제 7항에 있어서,
상기 서열 데이터에서 각각의 변수사이의 상관관계를 예측하는단계는, ={ £=1 가 파라미터 ©'玄*를 포함하는 프로빗 모델로부터 유도된 확률 벡터 V 로부터 실현될 경우,
Figure imgf000032_0005
로부터 파라미터 ©' "를 학습하는 ^ -정규화된 최대 우드 (ML) 추정기가 수학식 6 과 같은 형식으로 표시되고
|.|1,0行가 diagonal entries를제외한항목별
Figure imgf000032_0006
표준인
수학식 6:
Figure imgf000032_0007
2019/124724 1»(:1^1{2018/013254
것을특징으로하는연관성 학습방법.
【청구항 10】 제 7항에 있어서 상기 서열 데이터에서 각각의 변수사이의 상관관계를 예측하는단계는 상기 프로빗 그래프모델에서 알려지지 않은파라미터를추정하기 위하여 단 변량주변에서 임계값 를 추정하고, 이변량주변 분포로부터 polychoric 상관관 계 ᄅ를추정하는 것을특징으로하는연관성 학습방법.
【청구항 11】 제 7항에 있어서, 상기 서열 데이터에서 각각의 변수사이의 상관관계를예측하는단계는 상기 이변량주변 분포로부터 polychoric 상관 관계 ᄅ를추정하기 위하여 이변량주변우도로부터 원시 추정치 £를 계산하고 sparse잠재 그래프와평활화 rr
된추정치 å를추정하기 위하여 예측된 공분산 행렬 å을그래픽 lasso추정기로 플러그인하는 것을특징으로하는연관성 학습방법.
【청구항 12】 제 11항에 있어서 상기 서열 데이터에서 각각의 변수사이의 상관관계를 예측하는단계는
JF(幻,
Figure imgf000033_0001
\ 0 2019/124724 1»(:1/10公018/013254
갖는 다항식이고, 확률 변수 , 의 확률 분포가 평균 [0 ◦]과 공분산 å 갖는이변량정규분포이며,
Figure imgf000034_0001
, 이변량 주변 로그 우도 함수를 최대화함으로써 파라미터 ᄅ:治를 수학식 7을통해 추정하고
Figure imgf000034_0004
것을특징으로하는연관성 학습방법.
【청구항 13】 제 12항에 있어서, 상기 서열 데이터에서 각각의 변수 사이의 상관관계를예측하는단계는, 상기 ᄅ 를 추정하기
Figure imgf000034_0002
추정기 로 대체하고 수학식 8 과 같이 로그우도를최대화하고,
Figure imgf000034_0003
것을특징으로하는연관성 학습방법.
【청구항 14】 2019/124724 1»(:1^1{2018/013254 제 11항에 있어서,
상기 서열 데이터에서 각각의 변수사이의 상관관계를예측하는단계는, 그래프의 구조와최종공분산을획득하기 위하여 파라메트릭 가우시안그래 프모델추정기에 ¾를플러그인하는
것을특징으로하는연관성 학습방법.
【청구항 15】
연관성 학습시스템에 있어서,
서열 데이터에서 각각의 변수사이의 상관관계를예측하는예측부; 및 상기 각각의 변수사이에 예측된상관관계를그래프로제공하는제공부 를포함하는연관성 학습시스템.
PCT/KR2018/013254 2017-12-21 2018-11-02 확률 그래프 기반의 서열 데이터 연관성 학습 방법 및 시스템 WO2019124724A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170177372A KR102153161B1 (ko) 2017-12-21 2017-12-21 확률 그래프 기반의 서열 데이터 연관성 학습 방법 및 시스템
KR10-2017-0177372 2017-12-21

Publications (1)

Publication Number Publication Date
WO2019124724A1 true WO2019124724A1 (ko) 2019-06-27

Family

ID=66995005

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/013254 WO2019124724A1 (ko) 2017-12-21 2018-11-02 확률 그래프 기반의 서열 데이터 연관성 학습 방법 및 시스템

Country Status (2)

Country Link
KR (1) KR102153161B1 (ko)
WO (1) WO2019124724A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112884230A (zh) * 2021-02-26 2021-06-01 润联软件系统(深圳)有限公司 基于多元时间序列的电力负荷预测方法、装置及相关组件
US20220300526A1 (en) * 2020-03-05 2022-09-22 Capital One Services, Llc Systems and methods for formatting data using a recurrent neural network

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102292637B1 (ko) * 2019-10-24 2021-08-23 서울대학교산학협력단 베이지안 추론 기법과 곡선분할혼합우도를 적용하여 하천 저장대 모형의 매개변수 불확도 및 예측 불확도를 평가하는 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050106936A (ko) * 2004-05-06 2005-11-11 재단법인서울대학교산학협력재단 다중 노드순서에 대한 베이지안모델평균화를 통한베이지안망분류기의 성능향상방법 및 이를 구현하기 위한프로그램을 저장한 기록매체
US20140343965A1 (en) * 2013-05-17 2014-11-20 Hitachi, Ltd. Analysis system and health business support method
KR20160072842A (ko) * 2012-10-09 2016-06-23 파이브3 제노믹스, 엘엘씨 생물학적 경로 내의 조절 상호작용의 학습 및 확인을 위한 시스템 및 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4477389B2 (ja) 2004-03-24 2010-06-09 株式会社エヌ・ティ・ティ・データ 情報間関係性解析装置、情報間関係性解析方法、プログラムおよび記録媒体
KR101300247B1 (ko) * 2011-11-11 2013-08-26 경희대학교 산학협력단 마르코프 연쇄 은닉 조건부 랜덤 필드 모델 기반의 패턴 인식 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050106936A (ko) * 2004-05-06 2005-11-11 재단법인서울대학교산학협력재단 다중 노드순서에 대한 베이지안모델평균화를 통한베이지안망분류기의 성능향상방법 및 이를 구현하기 위한프로그램을 저장한 기록매체
KR20160072842A (ko) * 2012-10-09 2016-06-23 파이브3 제노믹스, 엘엘씨 생물학적 경로 내의 조절 상호작용의 학습 및 확인을 위한 시스템 및 방법
US20140343965A1 (en) * 2013-05-17 2014-11-20 Hitachi, Ltd. Analysis system and health business support method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ARUN SAI SUGGALA ET AL.: "Ordinal Graphical Models: A Tale of Two Approaches", PROCEEDINGS OF THE 34TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING, PMLR, vol. 70, 6 August 2017 (2017-08-06), pages 3260 - 3269, XP055620045 *
YANG, E. ET AL.: "Graphical models via univariate exponential family distribu tions", JOURNAL OF MACHINE LEARNING RESEARCH, vol. 16, 2015, pages 3813 - 3847, XP055620049 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220300526A1 (en) * 2020-03-05 2022-09-22 Capital One Services, Llc Systems and methods for formatting data using a recurrent neural network
US11727031B2 (en) * 2020-03-05 2023-08-15 Capitai One Services, LLC Systems and methods for formatting data using a recurrent neural network
CN112884230A (zh) * 2021-02-26 2021-06-01 润联软件系统(深圳)有限公司 基于多元时间序列的电力负荷预测方法、装置及相关组件

Also Published As

Publication number Publication date
KR102153161B1 (ko) 2020-09-08
KR20190075631A (ko) 2019-07-01

Similar Documents

Publication Publication Date Title
CN107564513B (zh) 语音识别方法及装置
Delaigle et al. Componentwise classification and clustering of functional data
JP2012058972A (ja) 評価予測装置、評価予測方法、及びプログラム
CN109800884B (zh) 模型参数的处理方法、装置、设备和计算机存储介质
JP4935047B2 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2019124724A1 (ko) 확률 그래프 기반의 서열 데이터 연관성 학습 방법 및 시스템
CN108536784B (zh) 评论信息情感分析方法、装置、计算机存储介质和服务器
US20220208198A1 (en) Combined learning method and apparatus using deepening neural network based feature enhancement and modified loss function for speaker recognition robust to noisy environments
CN110766044A (zh) 一种基于高斯过程先验指导的神经网络训练方法
WO2019198306A1 (ja) 推定装置、学習装置、推定方法、学習方法及びプログラム
JP2008123011A (ja) 情報処理装置、情報処理方法、およびプログラム
CN112270546A (zh) 基于stacking算法的风险预测方法、装置和电子设备
WO2020045313A1 (ja) マスク推定装置、マスク推定方法及びマスク推定プログラム
Avila et al. Bayesian restoration of audio signals degraded by impulsive noise modeled as individual pulses
TW202123098A (zh) 深度神經網路超參數選擇方法及電子裝置
Lee et al. NAS-TasNet: neural architecture search for time-domain speech separation
KR20070044780A (ko) 정보 처리 장치, 정보 처리 방법, 및 프로그램
CN110019832B (zh) 语言模型的获取方法和装置
Lim et al. Memetic algorithm for multivariate time-series segmentation
US8494986B2 (en) Information processing apparatus, information processing method, and program
CN109460474B (zh) 用户偏好趋势挖掘方法
CN110047509B (zh) 一种两级子空间划分方法及装置
CN110751400A (zh) 一种风险评估方法及装置
CN108766465B (zh) 一种基于enf通用背景模型的数字音频篡改盲检测方法
Parker et al. Nonlinear time series classification using bispectrum‐based deep convolutional neural networks

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18892674

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18892674

Country of ref document: EP

Kind code of ref document: A1