WO2019124724A1

WO2019124724A1 - 확률 그래프 기반의 서열 데이터 연관성 학습 방법 및 시스템

Info

Publication number: WO2019124724A1
Application number: PCT/KR2018/013254
Authority: WO
Inventors: 양은호; 심하진
Original assignee: 한국과학기술원
Priority date: 2017-12-21
Filing date: 2018-11-02
Publication date: 2019-06-27
Also published as: KR102153161B1; KR20190075631A

Abstract

확률 그래프 기반의 서열 데이터 연관성 학습 방법 및 시스템이 개시된다. 일 실시예에 따른 연관성 학습 시스템에 의해 수행되는 서열 데이터의 연관성 학습 방법은, 서열 데이터에서 각각의 변수 사이의 상관 관계를 예측하는 단계; 및 상기 각각의 변수 사이에 예측된 상관 관계를 그래프로 제공하는 단계를 포함할 수 있다.

Description

2019/124724 1»（：1^1{2018/013254

【명세세

【발명의 명칭】

확률그래프기반의 서열 데이터 연관성 학습방법 및 시스템

【기술분야】

아래의 설명은확률그래프기반의 서열 데이터 연관성 학습방법 및 시스템 에 관한것이다.

【배경기술】

마르코프 랜덤 필드 (^11^)라고하는방향이 지정되지 않은그래픽 모델은다 변수무작위 변수를모델링하는데，무차별 그래프를사용하여 변수들사이의 조건부 독립 구조를모델링한다. 이러한조건부 독립 구조는서로 다른 변수가서로상호 작용하는 방식에 대한유용한통찰력을 제공한다. 결과적으로

는 자연 언어 처리, 생물학및 의학등다양한분야에서 광범위하게사용된다.

한국공개특허 제 10-2013-0052432 호는 마르코프 연쇄 은닉 조건부 랜덤 필드모델 기반의 패턴 인식 방법에 관한 것으로， 특정 패턴에 대하여 측정되는트 레이닝 입력 신호로부터의 특징 벡터를 추출하고， 전체 공분산가우스 분포의 조합 을적용한은닉 조건부 랜덤 필드모델이，특징 벡터와상기 특정 패 턴을지시하는 라벨의 조합을다수 개 입력 받아서 은닉 조건부 랜덤 필드모델의 매개 변수를구 하고, 매개 변수가적용된은닉 조건부 랜덤 필드모델이，실제 패턴에 대하여 측정 되는 테스트 입력 신호로부터 추출된 특징 벡터를 입력 받아서 실제 패턴을지시하 는라벨을추론하는구성을개시하고 있다.

【발명의 상세한설명】 2019/124724 1»（：1^1{2018/013254

【기술적 과제】

확률 그래프 기반의 서열 데이터 연관성 학습 방법 및 시스템을 제공할 수 있다.

【기술적 해결방법】

연관성 학습 시스템에 의해 수행되는서열 데이터의 연관성 학습 방법은,서 열 데이터에서 각각의 변수사이의 상관 관계를 예측하는 단계; 및 상기 각각의 변 수사이에 예측된 상관관계를그래프로 제공하는단계를포함할수 있다.

상기 서열 데이터에서 각각의 변수사이의 상관관계를 예측하는 단계는, 상 기 변수에 대한 단변량서열 분포를통해 노드 조건부 분포를 지정하고, 상기 지정 된 노드조건부 분포에 대한분석을수행하여 결합분포를 탐색하는 단계를포함할 수있다.

상기 서열 데이터에서 각각의 변수사이의 상관관계를 예측하는 단계는, 도

단변량 누적 비율모델에 적용될 경우, 각노드

대하여, 위치 파라미터

나머지 변수의 임의 함수일 수 있다.

상기 서열 데이터에서 각각의 변수사이의 상관관계를예측하는

단계는, 도메인

포함하는

차원의 확률 벡터

대응하는 노드를 갖 2019/124724 1»(：1^1{2018/013254 는 그래프를

하면 확률 벡터의 모든 노드조건부 분포가수

모델에 적용될 경우， 각노드 ⁵드 ’에 대하여, 위치 파라미터

지 변수의 임의 함수이고，

³ 1에 대하여， 특정 노드조건부 분포가 확률 벡 터 \를 통한 임의의 결합 분포에 대한 마르코프와 일치하지 않는

실수값파라미터가존재할수 있다.

상기 서열 데이터에서 각각의 변수사이의 상관관계를 예측하는 단계는,서

' = （¾…，조 ）에 대하여 노드조건부분포를지정하기 위하여 단변량서열 분포를 사용할 경우， 각 노드

에 대해 수학식

5（추 ₅）가나머지 변수의 임의 함수일 수 있다. 상기 서열 데이터에서 각각의 변수 사이의 상관 관계를 예측하는 단계는，상 기 노드 조건부 분포가 결합 분포와 일치하는 단계를 포함하고, 상기 그래프 = （）와관련하여_,마르코프인 결합분포와 일치하며 크기가가장큰 2개 의 요소를 갖는 쌍으로 된 경우, 수학식 2019/124724 1»(：1/10公018/013254

4（）와 같이 표현되 고，상기 연속비율모델의 파라미터를추정하기 위하여,각노드 ³ ^ 1^1 에서 정 규화된 노드조건부로그우드최대화문제를해결할수 있다. 상기 서열 데이터에서 각각의 변수 사이의 상관관계를 예측하는 단계는, 다 변량양자화서열 분포에서 다변량잠재 확률 벡터가다변량 가우시안인 경우, 다변 량프로빗 모델로불리며，종속성이 가우스분포를통하여 잠재적인 확률 벡터에 의 해 표현되고,상기 다변량프로빗 모델에서 서열 확률 벡터

- #（◦，å）와 ¾ 〜 #（0，1） VI € [1 일 때， 각 幻가 爲의 이 산화를통해 획득될수 있다. 상기 서열 데이터에서 각각의 변수 사이의 상관 관계를 예측하는 단계는,

[4¹》 1 쨍））映，뺑）

에 의하여 정의된 하이퍼큐브일 수 이 다. 상기 서열 데이터에서 각각의 변수 사이의 상관 관계를 예측하는 단계는, 2019/124724 1»（：1^1{2018/013254

h ^~ {y }i=i가파라미터 ©' å 를포함하는프로빗 모델로부터 유도된 확 률 벡터 Y로부터 실현될 경우 Y 로부터 파라미터 ©' å 를 학습하는 -정 규화된 최대 우드 (ML) 추정기가 수학식 n

mlmmize - ^ log FCy,; å₅ 0) +세 å^_1 |j i,_0|f

6( ^å，^G i=l )과 같은 형식으로 표시되고，

가 diagonal entries를제외한항목별 玄 1 표준일 수 있다. 상기 서열 데이터에서 각각의 변수사이의 상관관계를 예측하는 단계는 상 기 프로빗 그래프 모델 분포에서 알려지지 않은 파라미터를 추정하기 위하여 단변 량주변에서 임계값 ®를추정하고 이변량주변 분포로부터 polychoric 상관 관계 ᄅ를추정할수 있다. 상기 서열 데이터에서 각각의 변수사이의 상관관계를 예측하는 단계는 상 기 이변량 주변 분포로부터 polychoric 상관 관계 ᄅ를 추정하기 위하여， 이변량 주변 우도로부터 원시 추정치 £를 계산하고， sparse잠재 그래프와평활화된 추정 치 å를추정하기 위하여 예측된 공분산 행렬

을그래픽 lasso추정기로플러그 인할수 있다. 상기 서열 데이터에서 각각의 변수 사이의 상관 관계를 예측하는 단계는， 3 ¹ ¾ 에 대해 ^å作 를 추정하면, 히， ) 의 결합 분포는 확률 례 ¾ ©, å作) = 레 _! < ¾ < 0찧세 ' £爲 £ 4 玄如)를 갖는 다항식이고， 확률 변수 4，

확률 분포가 평균 [0， 이과 공분산 1 'å>jk

å 'jk 를갖는 이변량 정규분포이며， ᄋ \ 이변량주변로그우도 함수를 2019/124724 1»（：1/10公018/013254 최 수학식 7

（

）을 통해 추정하고，

¾¾ - [: ₌₁玉（｝¾ ⁼ 公’父）成（分; ®） ^~례 :_? ^‘ 에 쇼; 分）일 수있다 상기 서열 데이터에서 각각의 변수사이의 상관관계를 예즉하는 단계는，상 수학식

， 은 ·의 도메인이며_,（-_{1 , 1}）일 수 있다.

상기 서열 데이터에서 각각의 변수 사이의 상관관계를 예측하는 단계는 그 래프의 구조와 최종 공분산을 획득하기 위하여 파라 메트릭 가우시안 그래프 모델 추정기에

플러그인할수 있다.

연관성 학습 시스템은 서열 데이터에서 각각의 변수사이의 상관관계를 예 측하는 예측부; 및 상기 각각의 변수사이에 예측된 상관관계를그래프로제공하는 제공부를포함할수 있다.

【발명의 효과】

일 실시예에 따른 연관성 학습 시스템은 서열 데이터의 분석을 통한 관계성 의 파악이 가능해진다.

일 실시예에 따른 연관성 학습 시스템은 서열 데이터 분석에 있어서 변수들 사이의 연관관계를파악하여 데이터의 생성 및 구조에 대한이해를높일 수 있다. 2019/124724 1»（：1^1{2018/013254 일 실시예에 따른 연관성 학습시스템은각각의 변수들사이의 연관성에 기 반하여 특정 정보를추천할수 있다.

【도면의 간단한설명】

도 1은일실시예에 있어서，체인그래프구조가있는프로빗모델로부터 데 이터가생성될때의 다양한추정치를비교한것을나타낸 것이다

도 2 및 3은 일 실시예에 있어서， 20그리드구조 (10 X 5그리드)가있는 모델에서 샘플링한데이터를나타낸것이다.

도 4는 일 실시예에 있어서， SmokeNow및 사회 인구학적 지표에 해당하 는잠재잠정 그래프구조를나타낸것이다.

도 5는일실시예에 따른연관성 학습시스템의 구성을설명하기 위한블록 도이다.

도 6은 일 실시예에 따른 연관성 학습시스템에서 연관성 학습을수행하는 방법을설명하기 위한흐름도이다.

【발명의 실시를위한최선의 형태】

이하,실시예를첨부한도면을참조하여 상세히 설명한다. 도 5는일실시예에 따른연관성 학습시스템의 구성을설명하기 위한블록 도이고,도 6은일 실시예에 따른연관성 학습시스템에서 연관성 학습을수행하는 방법을설명하기 위한흐름도이다.

연관성 학습시스템 (100)은 확률그래프 기반의 서열 데이터 연관성을학습 하기 위한것으로， 예측부 (510)및 제공부 (520)를포함할수 있다. 연관성 학습시 2019/124724 1»（：1^1{2018/013254 스템의 구성 요소들은 도 6 의 연관성 학습을 수행하는 방법이 포함하는 단계들

(610내지 620)을수행하도록연관성 학습시스템 ( 100)을 제어할수 있다.

단계 (61⑴에서 예측부 (510)는 서열 데이터에서 각각의 변수들 사이의 상관 관계를 예측할수 있고， 단계 (620)에서 제공부 (520)는 각각의 변수들사이에 예측된 상관관계를그래프로 제공할수 있다. 이하, 아래의 설명에서는 확률그래프 기반 의 서열 데이터 연관성을학습하는 것에 대하여 구체적으로설명하기로 한다.

다변량 확률 비율 기반 모델에 대하여 설명하기로 한다. 첫번째로， 종래의 단변수 서열 분포를 통해 노드 조건부 분포를 지정하고 해머슬리-클리포드-에스크 (Hammersley-Clifford-esque)분석을통해 해당결합분포를탐색할수 있다.

- Univariate Latent Quantified Ordinal Models를통한 MRF

서열

파라미터 分- ₁ = -次) _, OM =公分에 대해 F — J

같은 실수값변수 의 이산화된 버전으로작성될 수 있다.

서열 변수 의 확률질량함수는다음과같이 나타낼수 있다.

수학식 1:

P[F = j] = g {分 _{j -} ) - g{0_{j~ i}一 ). 잠재 실수값 변수 z 에 대한 대중적인 분포는 단변량 로지스틱 분포이고, 여기서_, 玄〜 logistic(/i, 1) 는 즉 위의 함수 公 ( ) 가 로지스틱 함수 2019/124724 1»（：1/10公018/013254

公（句（） = 1八 1 + 6X1）（ - ））가 되도록 한다_. 이 경우， 앞서 설명한

따라서 서열 분포의 계급을누적 비율모델이라고도부른다. 수학식 ₁ 의 단변량 서열 분포를 사용하여 노드 조건부 분포를 지정하고 일관된 결합분포를도출할수 있다.

、 — 사 1₅ 쏴^' _!?）를 p 차원의 서열 확률 벡터라고 하자. 표기법을

/V

단순화하기 위하여 후속에서 확률 변수 ^{1 5 /}*⁼¹ 의 도메인은 동일하고,

대응하는노드로나타낸그래프라고하자.

각 5ᄐ !ᄌ에 대하여_,수학식 ₂와같이 표현할수 있다. 수학식 2：

는 로지스틱 함수이다. 노드 조건부 분포가 일관된 결합 분포로 이어지지 않는 것을증명하는다음의 정리를 제시한다.

2019/124724 1»（：1/10公018/013254 조건부 분포가수학식 2 의 단변량 누적 비율 모델을 따른다고 가정하면, 각 노드

대하여_,위치 파라미터 쫘 는나머지 변수의 임의 함수이다. 그러면_, M > 1에 대하여， 특정 노드-조건부 분포가 크기가 최대 2 인 그래프 G에 대한 Markov인 Y에 대한임의의 결합분포와일치하지 않는실수값

존재한다.

-MRFs via Continuation Ratio Models통한 MRF

누적 비율모델에 밀접한관계가있는로그-오즈비율의 수정이 고려된다.

단변량 확률 분포 클래스는 연속 비율 모델이라고도 한다. 위의 로그-오즈 비율 비율에서 ··= _ P를 나타낼 때, 확률 변수 Y 의 확률 질량 함수 (RMF)는다음과같이 유도될수 있다.

수학식 3：

3 =必，,_‘ ，有一 1^.에 대해_,

합계는 1이 된다.

특히, 각노드 ⁵드

대해 수학식 4를가지고 있다고가정하기로하자. 수학식 4： 2019/124724 1»(：1/10公018/013254

여

，

는 나머지 변수의 임의 함수이다. 다음 정리는 이러한 노드 조건부 분포가 일관된 결합분포로나타나지 않는 것을증명한다.

정리 2： 도메인 ｛◦，^. · ·‘， 0¹⁹를 포함하는 _? 차원의 확률 벡터 、 ⁼ （히，…， ¾） 를 고려한다.

⁼ （ 끄）는 각각의 확률 변수 €^시1에 대응하는노드를 갖는그래프라고가정하자. 확률 벡터의 모든 노드 조건부 분포가 수학식 4 의 단변수 연속 비율 모델을 따른다고 가정하면, 각 노드

대하여_,위치 파라미터 쇠!외는나머지 변수의 임의 함수이다. 그러면_, ]|^// > 1에 대하여_, 특정 노드 조건부 분포가 V 를 통한 임의의 결합 분포, 즉， 무방향성 그래프

에 대한 마르코프와 일치하지 않는 ｛分｝的 [씨: 실수값파라미터 가존재한다.

ᅳ MRFs via a Consecutive Ratio model통한 MRF

단변량 누적 비율 모델 및 연속 비율 모델은 지수족에 비포함되고， 특히 이러한 분포에 속하는 노드 조건부에 일관성 있는 결합이 존재할 수 있도록 하는 규칙성을 갖고 있지 않다는 것이다. 다시 말해서, 단변량 누적 비율 모델 및 연속 비율모델에서 각노드조건부분포가비규칙성을가진다.

다음과 같이 정의되는 연속 비율 모델이라고 불리는 단변수 서열 분포의 세번째 클래스를고려한다.

2019/124724 1»（：1^1{2018/013254

아래에서 볼수 있듯이 서열 분포는앞서 설명한서열 분포와달리 지수족에 포함된다.

모델은 충분한 를 갖는

지수족에 속하며，

서열 확률 벡터 、

대해 노드 조건부 분포를 지정하기 위하여 단변량서열 분포를사용한다고가정하자. 특히,각노드 ^{5 €}

에 대해,수학식 5와 같이 표현할수 있다.

수학식 5：

위치 파라미터

나머지 변수의 임의 함수이다. 노드 조건부 분포는 단변량지수족에 속하기 때문에 명제 1을 적용하면 다음 정리를산출할수 있다. 정리 3：수학식 5에서 노드조건부분포는 결합분포와일치한다.

무방향 그래프 두 ⁼

관련하여， 마르코프인 결합 분포와 일치하며, 크기가 가장 큰 2 개의 요소를 갖는 쌍으로 된 경우에는 다음과 같은 형식을취할수 있다.

정리 3에서 분포는수학식 6과동일하게 다시 작성될수 있다.

수학식 6： 2019/124724 1»（：1/10公018/013254

수학식 6 의 연속 비율 모델의 파라미터를 추정하기 위하여, 각 노드

정규화된 노드조건부로그우드최대화문제를해결한다.

여기서， {^ }_¾=1 은 트레이닝 샘플이고，多 ₅ = {多 _5;少}보_€【 - 1]山^: {¾於}½1’、.₃이다 지수족 그래프 모델의 추정량에 대한 통계적 보증에 대한 기존의 결과가 연속비율모델로이어진다.

이산과 대비/명목 그래프 모델: 수학식 6 의 연속 비율 모델을 각 노드에서 확률 변수를 명목 변수로 취급하는 고전적인 이산 명목 그래프 모델과 대조한다. 확률 벡터 V에 대해 수학식 7과같은이산그래프모델을고려한다.

수학식 7：

（父 exp（ 히 0s：j ^{ys =거

연속 비율 모델과 달리 이산 그래프 모델은

1의 다른 값에 대해 공통 엣지 파라미터 ^ 를 가지지 않는다_. 범주형 모델의 각각의 엣지는 변수를 사용하여 파라미터화 된다. 결과적으로 이산 그래프 모델은

의 순서를 사용하지 않고， 연속 비율모델과비교했을 때 더 복잡하다. 이 파라미터화는 연속 2019/124724 1»（：1^1{2018/013254 비율 모델 파라미터화를 포함하는 반면 주요 단점은 명목 그래프 모델이 더 많은 파라미터를가지므로 샘플복잡성이 더 크다는 것이다.

-Multivariate Latent Quantized Models

단변량 서열 분포로부터 다변량 서열 그래프 모델을 직접 구성하는 것을 고려한다. 실수값 잠재 변수의 양자화에 기반하여 단변량 서열 분포의 고전적이고 가장 대중적인 클래스를 다시 고찰한다. 다변량분포의 자연적인 클래스는 다변량 잠재 확률 벡터를 취하고, 다변량 서열 확률 벡터를 획득하기 위하여 양자화함으로써 획득될수 있다.

-Probit Graphical Model

다변량 양자화 서열 분포의 가장보편적인 예는 다변량 잠재 확률 벡터가 다변량가우시안인 경우이며， 이는다변량프로빗 모형으로도알려져 있다. 따라서, 종속성은가우스분포를통하여 잠재적인 확률벡터에 의하여 표현될수 있다.

프로빗 모델에서, 서열 확률 벡터

잠재 다변량 가우시안 확률 벡터

에 의해 생성되는 것으로 가정하고_, 쏭 ~ (.0，å)와 ¾ - M(Q, 1) Vi e [1，계이다. 각 幻는 다음과 같이 ¾의 이산화를통해 획득될수 있다.

_/x(i) /Q(0 —

U_i =—OO _, — w 으로 설정된다. 그러면_, Y 의 밀도 함수_,

수학식 8과같이 주어진다. 수학식 8： 2019/124724 1^»(：1/10公018/013254

, 와

（7（ V， 0） ᄐ ［쎄 1，多）） X… X 떼 1，淨 ¾）） 에 의하여 정의된 하이퍼큐브이다.

포함하는 프로빗 모델로부터 유도된 확률 벡터 \⁷ 로부터 실현된다고 하자. 그러면, I⁷¹로부터 파라미터 ©' å^*를 학습하는 ¹ -정규화된 최대 우드（凡） 추정기가 수학식 9 와 같은 형식을취한다. 수학식 9： , off

I I ^' Il l Off 는 diagonal entries 를 제외한 항목별 요 1 표준이다. 목적이 비볼록하고 일반적으로 최적화하기가 어렵다는 것을 알 수 있다. 모델 파라미터를 학습하기 위하여 근사 EM 기반 접근법이 제안되었지만, 여전히 상대적으로 계산적으로 요구되고 있으며, 실제 정규화된 MLE 솔루션에 대하여 강력한 통계 보증을제공하지 않는다.

-A Direct Estimation Method 수학식 8 에서 프로빗 그래프 모델 분포에서 알려지지 않은 파라미터를 추정하기 위한 대체 절차를 제안한다. 2 단계의 절차로서, 첫 번째 단계에서는 2019/124724 1»（：1/10公018/013254

단변량 주변에서 임계값 를 추정하고 두 번째 단계에서는 이변량 주변 분포로부터 ₁₃₀ （ ₀₁ :상관관계 를주정한다.

-ESTIMATION OF THRESHOLDS

©의 추정량_, ø를다음과같이 정의한다.

yi j^th 수、

의 ^J 번째 좌표이다. 는일관되게

추정한다는 것을알수 있다.

-상관관계 및 잠재 그래프구조의 추정

ᄅ의 추정을 위한 두 단계 접근법을 제시한다. 첫 번째 단계에서 이변량 주변 우도로부터 원시 추정치

를 계산한다. 두 번째 단계에서, sparse 잠재 그래프와평활화된추정치 å를추정하기 위하여 추정된 공분산 행렬 을그래픽 lasso추정기로플러그인 한다.

단계 1：

의 각항목을추정하기 위하여 독립적인 최적화문제를해결한다.

갖는 다항식이다. 여기서 확률 변수 ， 2 의 확률 분포는 평균 [0, 이과

___ — 공분산

1 !를갖는이변량 정규분포이다. 2019/124724 1»（：1^1{2018/013254

만약_, 0*이 알려져 있고_, 이변량 주변 로그 우도 함수를 최대화함으로써 미지의 파라미터 ᄐ 를추정할수 있고 다음과같이 나타낼수 있다. 수학식 10:

步 _ab'_jk人⁰' ⁽今) = P(5j

= 6; G cr)이다_. 그러나， 임계값 0 이

알려져 있지 않다.

추정하기 위하여 를추정기 3로 대체하고， 다음의 로그우도를최대화한다.

·

arg max £_jk(cr; G, Y_n)

dºM ᆻ은 의 도메인이며 공분산에 대한추가적인 제한이 설정되지 않는다면 (-1, 1)이다. 일차원 최적화 문제로 목표의 매끄러움과 같이 특정 규칙 하에서는 서에서 미세한 그리드를 통해 목표를 단순히 평가하고 최적의 그리드 포인트를 선택함으로써 시간ᄋ<1/ 에서 오류 내에서 해결할수 있다. 단계 2： 그래프 구조와 최종 공분산을 획득하기 위하여 파라 메트릭 가우시안그래프모델 추정기에 £를 플러그인한다. 일관된 파라 메트릭 가우시안 추정기 (예컨대， graphical lasso estimator CLIME graphical Dantzig selector 등)을 사용하여 잠재 그래프 구조를 추정하는데 사용될 수 있지만 본 발명에서는 2019/124724 1»(：1/10公018/013254

graphical lasso estimator 에 기반하여 설명하기로 한다. 다음은 최적화 문제를 해결할수 있다. 수학식 11: å = arg min《å^_1, ¾) - log det (å -¹) + A_7i ||å ¹ |i oii_f

å- Vo 여기서 <<A B ñ ñ는 A와 P의 trace inner product를나타낸다.

-Theoretical Properties이론적 특성 앞서 설명한 직접적인 추정 방법이 단순할 뿐만 아니라 강력한 통계적

보증을 한다. 구체적으로 역공분산 에 대한 ⁰⁰로 향하는 것을 제공하고，

©* 그래픽 모델 구조 복구와 관련하여 희소성을 보여준다. 단순화하기 위하여， 가

0*

주어진 것으로 가정하자. 그러나 가 알려지지 않은 경우의 확장은 매우 간단해야한다. 먼저 표기법을소개하기로 한다.

하자. 이때，後^!는 크로네커 매트릭스 곱을 나타내고

에서 평가된 -log det(A)의 헤시안 (Hessian )을나타낸다. S를

모든 0 이 아닌 항목에 해당하는 인덱스 집합이라고 하고, s^c를 s 의 보수이다. 또한, IHI⁰⁰는 최대 절대 행 합계를 나타내는 표기 단순성을 위해

: = |(r 자ᄂ를 정의한다. _d 를 잠재

¾_¾ (ᄍ; ©^*) =】段[¾ (ᄍ; ©*)] 그래프에서 최대 노드 차수라고 하자. 수학식 10에서 정의된 샘플손실의 모집단버전이다. 아래에서는가정을밝힌다.

(c-1) 將 (: ¾)— ¹1。。 £ 1 - «인 « ^€ (0, ¹]이 존재한다. 2019/124724 1 1/10公018/013254

에 의하여 각각상한값을 갖는다. 더욱이 1 ―、(이 © 가 卜 1斗久 1 - «5]에서 퇴행성 임계점을 갖지 않는온화한규칙 성질이 성립한다.

(c-l) 는 glasso estimator 의 보증을 위해 만들어진 표준 비일관성 가정이다.

(c-2) 두개의 잠재적 변수가 동일 선상에 있지 않고 서열 변수의 모든 범주가 0이 아닌 확률을갖도록보장하는온화한조건이다.

이론 4： 파라미터

갖는 잠재 가우시안 모델을 해결하기 위하여 수학식 11 을추정치를고려한다. _{0- 1 , 0-}3조건이 만족된다고 가정하자. 그러면

수학식 12:

2019/124724 1»（：1/10公018/013254 적어도 1 _ l/p—令 1 확률

잠재적인가우시안그래프구조는지속적으로

에 의해 복원될수 있다.

glasso의 일관성 속성을이용하여 단계 2로부터 추정치

가높은확률로 수학식 12를 만족한다는것을보여준다.

s^uPi，fc

위하여_, 비볼록 경험적 위험 최소화 문제의 정점의 속성을연구한다.

도 1 은 체인 그래프 구조가 있는 프로빗 모델로부터 데이터가 생성될 때의 다양한추정치의 비교를나타낸 것이다. 상단의 행과하단의 행은각각 ^w = -0.3, 쨘 = -0.9 에 해당된다. 왼쪽의 두개의 열은 n=50, 100 에 대한 R0C 곡선을 나타낸다. 오른쪽세개의 열은 log likelihood,프로베니우스, 엔트로피 손실에 대한 성능을나타낸다.

평가 척도: 정규화 매개 변수를 변경하여 계산 된 R0C 곡선을 사용하여 그래프 구조 복구에 대한 기준선과 견적 도구의 성능을 비교할 수 있다. Probit 모델에서 데이터를 생성 할 때 Frobenius Loss 및 Entropy Loss 를 사용하여 Oracle, ProbitEM, ProbitEMApprox 및 ProbitDirect 의 매개 변수 예즉 성능을 비교할수있다. 프로베니우스손실:

2019/124724 1»(：1^1{2018/013254

엔트로피 손실:

여기서

공분산 행렬이고, å 는추정된 공분산행렬이다.

마지막으로 500 개의 테스트 샘플에서 계산된 로그 가능성에 대한 1 ₀1₃ £]\1,

를 비교할 수 있다. 이 세 가지 메트릭을 비교하기 위해 교차 유효성 검사를 사용하여 각 메소드에 대해 최적의 조정 매개 변수를 선택할 수 있다. 예를 들면, 그래프의 노드 수를 50 으로 고정하고각서수 변수의 카테고리 수를 5로 설정한다. 분산을줄이기 위해 평균 10회 이상의 결과를획득할수 있다.

첫 번째， 프로빗 모델로부터 서열 데이터를 생성할 수 있고, 체인 그래프로부터 데이터를 시뮬레이션할 수 있다. 잠재 변수의 역 공분산 행렬은 다음의 수학식 13과같이 선택될수 있다.

수학식 13:

이

고 노드 ] 에서 임계값 ø¹")을. 다음과 같이 설정할수 있다.

⑴ = [― I此一 10, -0.7, 0.7, 10, 1베 이때,모든 변수가 1 이 되도록 공분산 행렬을 스케일할 수 있다. 도 1 은

, 와

1 ₀1₃ 1\4 은 비슷한 성능을 보이나,

는 ₀1₃ 1\4 보다 1-2 배 더 2019/124724 1»（：1^1{2018/013254 빠르고, ProbitEMApprox 는 특히 낮은 샘플 복잡성 설정에서 성능이 매우 낮음을 알수 있다.

도 2는 20그리드구조（10 X 5그리드）가있는（ : 父모델에서 샘플링 한 데이터이다. 노드특정 파라미터（）는 [-1， 1 ]로부터 균등하게 샘플링될 수 있다. 쌍방향상호작용항（$하）은모든수평 모서리에 대하여 0.1 로설정되고，모든수직 모서리에 대하여 -0.1로 설정될수 있다.

도 3은 20그리드구조（10 X 5그리드）가있는 0₀₁₁₃₆₀모델에서 샘플링 한 데이터이다. 노드특정 파라미터（）는 [-1 1 ]로부터 균등하게 샘플링될수 있다. 쌍방향상호 작용 항 （ ^·4）은 모든 수평 모서리에 대하여 0.3 으로 설정되고 모든 수직 모서리에 대하여 -0.3으로설정될수 있다.

실시예에서는

모델의 데이터를 샘플링할 수 있다. 도 2 와 3 은 사용된 정확한 매개 변수의 세부 사항과 함께 그리드 그래프에 결과를 제시하였다. 도 2 를 참고하면 변수 간의 상호 작용이 낮기 때문에

모델은 다른 추정치와비슷한성능을보임을알수 있고， 도 3을 참고하면 상호 작용이 높으면 성능이 저하됨을판단할수 있다. 연속적 비율모델에 대한노드조건적 우도기반 추정기가 효율적이지 않거나 프로빗 모델과 같은 잠정적 그래픽 모델이 연속 모델보다더 좋은모델임을 제안할수 있다.

도 4 는 SmokeNow 및 사회 인구 학적 지표에 해당하는 잠재 잠정 그래프 구조를나타낸 것이다. 그래프는 대응하는 변수의 주변 분포로부터 생성될 수 있다. 녹색 및 적색 엣지는 각각 양의 상관 부분과 음의 부분 상관을 나타낸 것이고, 가장자리 두께는부분상관관계의 크기에 비례한다. 2019/124724 1»（：1^1{2018/013254 일례로， 건강 정보 국가

국립 암 연구소어 )에서 전국적으로실시한설문조사에서 설문조사의 각 질문을그래프의 노드로, 질문에 대한 개인의 반응을 그래프에서 추출한 샘플로 취급할 수 있다. 분석과 관련이 있는 데이터 세트에서 일부의 질문을 선택할 수 있고， 선택한 질문에 대 산 를 사용하여 프로빗 모델을 적용하고, 최적의 튜닝 파라미터를 선택하기 위해 우리는 10 배 교차 검증을 사용할 수 있다. 이후， 잭 나이프 리샘플링 기법을통해 잠복 그래프의 에지 강도에 대해 95 %신뢰 구간을 획득할 수 있다. 이때， 신뢰 구간이 [-0.1, 0.1 ]과 교차하지 않는 경우에만 그래프에 모서리를배치할수 있다.

도 4 는사회 인구 학적 지표와 관련된 다양한 변수가사람의 흡연 행동과 어떻게 관련되는지를나타낸다. 특히, £₁₁₁₀1_¾1\[₀ 는교육과매우중요한연관성이 있음을나타내고， 이것은사람이 잘교육받았고다른모든 변수를조건으로한다면， 그 사람이 담배를 피울 가능성이 낮다는 것을 나타낸다.

와 6_\¥(¾ ₆的₆₃¾₁₁₁₁1¾크11；1₁ 가 긍정적인 부분 상관 관계를 가지고 있어 나머지 변수들, 톱연하는 사람들, 담배를 피우지 않는 사람들보다 덜 해롭다는 것을 흡연자가인지한다는것을나타냅니다. 일 실시예에 따르면， 이러한통찰력이 흡연 관련 건강 정보를 대중에게 알리는 효율적인 전략을 설계하는 데 도움이 될 수 있다.

【발명의 실시를위한형태】

이상에서 설명된 장치는 하드웨어 구성요소， 소프트웨어 구성요소， 및/또는 하드웨어 구성요소및 소프트웨어 구성요소의 조합으로구현될 수 있다. 예를들어， 2019/124724 1»（：1^1{2018/013254 실시예들에서 설명된 장치 및 구성요소는， 예를 들어， 프로세서, 콘트롤러, ALU(arithmetic logic unit),디지털신호프로세서 (digital signal processor),마이크 로컴퓨터， FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령 (instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이， 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는운영 체제 (OS) 및 상기 운영 체제 상에서 수행되는하나이 상의 소프트웨어 애플리케이션을수행할수 있다. 또한， 처리 장치는소프트웨어의 실행에 응답하여， 데이터를접근，저장,조작，처리 및 생성할수도있다. 이해의 편 의를 위하여， 처리 장치는하나가사용되는 것으로 설명된 경우도 있지만， 해당 기 술분야에서 통상의 지식을가진자는，처리 장치가복수개의 처리 요소 (processing element)및/또는복수유형의 처리 요소를포함할수 있음을알수있다. 예를들 어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할수 있다. 또한, 병렬 프로세서 (parallel processor)와같은， 다른처리 구성 (processing configuration)도가능하다.

소프트웨어는 컴퓨터 프로그램 (computer program), 코드 (code), 명령 (instruction),또는 이들중하나이상의 조합을포함할수 있으며， 원하는 대로동 작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로 (collectively) 처리 장치를명령할수 있다. 소프트웨어 및/또는 데이터는， 처리 장치에 의하여 해석되 거나처리 장치에 명령 또는 데이터를 제공하기 위하여， 어떤 유형의 기계, 구성요 소 (component),물리적 장치，가상장치 (virtual equipment),컴퓨터 저장매체 또는 장치에 구체화 (근₁₁₁1₃₀₀沙)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스 2019/124724 1»（：1^1{2018/013254 템 상에 분산되어서， 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는하나이상의 컴퓨터 판독가능기록매체에 저장될수있다.

실시예에 따른방법은 다양한컴퓨터 수단을통하여 수행될 수 있는프로그 램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독가능 매체는프로그램 명령， 데이터 파일， 데이터 구조등을단독으로또는조 합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능기록 매체의 예에는 하드 디스크, 플로 피 디스크 및 자기 테이프와같은자기 매체 (magnetic media), CD-ROM, DVD와 같은 광기록 매체 (optical media), 플롭티컬 디스크 (floptical disk)와 같은 자기-광 매체 (magneto-optical media),및 롬 (ROM), 램 (RAM),플래시 메모리 등과같은프 로그램 명령을저장하고수행하도록특별히 구성된 하드웨어 장치가포함된다. 프 로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아 니라인터프리터 등을사용해서 컴퓨터에 의해서 실행될수 있는고급언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를들어， 설명된 기술들이 설명된 방법과 다른순서로수행되 거나, 및/또는 설명된 시스템, 구조， 장치， 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합또는조합되거나, 다른구성요소또는균등물에 의하여 대치되거 나치환되더라도적절한결과가달성될수있다. 2019/124724 1»（：1/10公018/013254 그러므로， 다른구현들， 다른실시예들 및 특허청구범위와균등한 것들도후 술하는특허청구범위의 범위에 속한다.

Claims

2019/124724 1»（：1^1{2018/013254 【청구의 범위】

【청구항 1】

연관성 학습 시스템에 의해 수행되는 서열 데이터의 연관성 학습 방법에 있 어서,

서열 데이터에서 각각의 변수사이의 상관관계를예측하는단계; 및 상기 각각의 변수사이에 예측된상관관계를그래프로 제공하는단계 를포함하는연관성 학습방법.

【청구항 2】

제 1항에 있어서，

상기 서열 데이터에서 각각의 변수사이의 상관관계를예측하는단계는， 상기 변수에 대한 단변량 서열 분포를 통해 노드 조건부 분포를 지정하고 상기 지정된 노드조건부분포에 대한분석을수행하여 결합분포를탐색하는단계 를포함하는연관성 학습방법.

【청구항 3】

제 1항에 있어서,

상기 서열 데이터에서 각각의 변수사이의 상관관계를예측하는단계는， 도메인 {0, 1, . . . ,

를 포함하는 ^ 차원의 확률 벡터

에 대응하는 노드를 갖는그래프를 ^ = 피라고하면， 2019/124724 1»（：1^1{2018/013254 확률 벡터의 모든 노드 조건부 분포가 수학식 1 의 단변량 누적 비율 모델에 적용될 경우_, 각 노드 ⁵ V에 대하여_, 위치 파라미터 ᆻ 1\«)가 나머지 변수의 임의 함수인

수학식 1:

것을특징으로하는연관성 학습방법.

【청구항 4］

제 1항에 있어서

상기 서열 데이터에서 각각의 변수사이의 상관관계를예측하는단계는， 도메인 {와，· · ·씨 를 포함하는 _? 차원의 확률 벡터

갖는그래프를 ( ^{: =} :0 표)라고하면，

확률 벡터의 모든 노드 조건부 분포가 수학식 2 의 단변수 연속 비율 모델에 적용될 경우_, 각 노드 ⁵ 에 대하여_, 위치 파라미터

나머지 변수의 임의 함수이고，

³ 에 대하여, 특정 노드 조건부 분포가 확률 벡터 V 를 통한 임의의 결합 분포에 대한 마르코프와 일치하지 않는

것을특징으로하는연관성 학습 방법. 2019/124724 1»（：1^1{2018/013254

【청구항 5]

제 1항에 있어서，

상기 서열 데이터에서 각각의 변수사이의 상관관계를 예측하는단계는，

부 분포를 지정하기 위하여 단변량서열 분포를사용할 경우, 각노드 ⁵드 V에 대해 수학식

수학식 3：

것을특징으로하는연관성 학습방법.

【청구항 6】

제 5항에 있어서,

상기 서열 데이터에서 각각의 변수사이의 상관관계를예측하는단계는, 상기 노드조건부분포가결합분포와일치하는단계

를포함하고，

상기 그래프 ^{( =} 0시 0와 관련하여, 마르코프인 결합분포와 일치하며 크기가가장큰 2개의 요소를 갖는쌍으로된 경우,수학식 4와 같이 표현되고， 2019/124724 1»（：1/10公018/013254 상기 연속 비율 모델의 파라미터를 추정하기 위하여 각 노드 ⁵ ^ 1^1 에 서 정규화된 노드조건부로그우드최대화문제를해결하는

수학식 4：

것을특징으로하는연관성 학습방법.

【청구항 7】

제 1항에 있어서,

상기 서열 데이터에서 각각의 변수사이의 상관관계를예측하는단계는， 다변량 양자화 서열 분포에서 다변량 잠재 확률 벡터가 다변량 가우시안인 경우， 다변량프로빗 모델로불리며, 종속성이 가우스 분포를통하여 잠재적인 확률 벡터에 의해 표현되고,

상기 다변량 프로빗 모델에서， 서열 확률 벡터 이’ ·^‘기)는 잠재 다변량 가우시안 확률 벡터

에 의해 생성되고, 分' ~ / ¾ å)와 爲〜 _:ᄉ厂 (04) 、此 _.€ [1 일 때， 각 가 爲의 이산화를통해 획득되는

것을특징으로하는연관성 학습방법.

【청구항 8】

제 7항에 있어서

상기 서열 데이터에서 각각의 변수사이의 상관관계를예측하는단계는, \ 02019/124724 1»（：1^1{2018/013254

Yi =k ¾ ^［“ ））일 때，

가 임계값이

수학식 5와같이 제안되고,

6 ［一니비｝와 (7(¥_?0)가

의하여 정의된 하이퍼큐브인

수학식 5：

것을특징으로하는연관성 학습방법.

【청구항 9】

제 7항에 있어서,

|.|1，₀行가 diagonal entries를제외한항목별

표준인

수학식 6：

2019/124724 1»（：1^1{2018/013254

것을특징으로하는연관성 학습방법.

【청구항 10】 제 7항에 있어서 상기 서열 데이터에서 각각의 변수사이의 상관관계를 예측하는단계는 상기 프로빗 그래프모델에서 알려지지 않은파라미터를추정하기 위하여 단 변량주변에서 임계값 를 추정하고, 이변량주변 분포로부터 polychoric 상관관 계 ᄅ를추정하는 것을특징으로하는연관성 학습방법.

【청구항 11】 제 7항에 있어서， 상기 서열 데이터에서 각각의 변수사이의 상관관계를예측하는단계는 상기 이변량주변 분포로부터 polychoric 상관 관계 ᄅ를추정하기 위하여 이변량주변우도로부터 원시 추정치 £를 계산하고 sparse잠재 그래프와평활화 rr

된추정치 å를추정하기 위하여 예측된 공분산 행렬 å을그래픽 lasso추정기로 플러그인하는 것을특징으로하는연관성 학습방법.

【청구항 12】 제 11항에 있어서 상기 서열 데이터에서 각각의 변수사이의 상관관계를 예측하는단계는

JF（幻，