KR102519218B1

KR102519218B1 - 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법

Info

Publication number: KR102519218B1
Application number: KR1020210003233A
Authority: KR
Inventors: 박유랑; 박지애
Original assignee: 연세대학교 산학협력단
Priority date: 2021-01-11
Filing date: 2021-01-11
Publication date: 2023-04-07
Also published as: KR20220102166A

Abstract

가중치 기반 통합 방법은, 각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계, 각 파티의 모델 파라메터를 공유하는 단계, 각 파티의 분할된 데이터에 전체 파티 모델 파라메터를 바탕으로 손실값을 연산하는 단계 및 손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계를 포함한다.

Description

물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법 {A method for estimating a centralized model based on horizontal division without physical data sharing based on weighted integration}

본 발명은 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법에 관한 것이다.

연구 모집단의 대표성을 확보하는 것은 연구의 일반화 가능성을 높일 수 있기 때문에 바이오메디컬 연구에 있어서 중요하다. 이 점에서 다중 기관의 의료 데이터를 사용하는 것은 연구에 이점이 있다. 그러나 의료 데이터의 비밀유지의무 및 기밀 특성으로 인해 개인 정보 문제가 발생하기 때문에 의료 데이터를 물리적으로 결합하기는 곤란하다. 따라서 여러 기관의 의료 데이터를 연구에 활용하기 위해서는 기관 간 실체적 데이터 공유없이 모델을 구축 할 수 있는 방법의 개발이 요구된다.

등록특허공보 제 10-1799823 호, 2017.11.15

본 발명이 해결하고자 하는 과제는 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법을 제공하는 것이다.

본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상술한 과제를 해결하기 위한 본 발명의 일 면에 따른 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법은, 각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계, 각 파티의 모델 파라메터를 공유하는 단계, 각 파티의 분할된 데이터에 전체 파티 모델 파라메터를 바탕으로 손실값을 연산하는 단계, 및 손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계;를 포함한다.

각 파티별로 로지스틱 모델을 이용하여 파라메터 데이터를 생성하는 단계를 더 포함할 수 있다.

상기 로지스틱 모델은

에 따르는 것일 수 있다.

상기 각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계는, (

)를 생성하는 단계로, 여기에서, 1

의 자연수이고,

는 k번째 파티를 지칭하는 변수이고,

은

의 크기를 가지는 첫번째 분할 부분이고,

는

의 크기를 가지는 두번째 분할 부분이며, x는 임의의 숫자일 수 있다.

각 파티의 모델 파라메터를 공유하는 단계는, 각 파티별로 분할된 세트에서 추정한 파라메터 벡터값을 서로 다른 분할된 세트로 보내어 공유하는 단계일 수 있다.

각 파티의 모델 파라메터를 공유하는 단계는,

를 이용하여

를 추정하여 (

)를 도출하는 단계,

를 이용하여 파라메터 벡터

를 추정하여

를 도출하는 단계, 및 각 파티별로 도출한

를 서로 공유하는 단계를 포함하고, 여기에서, 1

의 자연수이고,

는 k번째 파티를 지칭하는 변수이고,

는 k번째 파티에 대한, i번째의 모델을 나타내는 파라메터 일 수 있다.

상기 손실값을 연산하는 단계는, 각 파티별로 제1 분할 세트를 기준으로 도출된 모델을 피팅하는 단계, 제1 분할 세트를 기준으로 피팅한 모델을 제2 분할 세트로 전달하는 단계, 및 제2 분할 세트의 손실값을 각 파티별로 연산하는 단계를 포함할 수 있다.

상기 각 파티별로 제1 분할 세트를 기준으로 도출된 모델을 피팅하는 단계는, 파티 별로 피팅된

를 도출하는 단계이고, 제1 분할 세트를 기준으로 피팅한 모델을 제2 분할 세트로 전달하는 단계는,

를 i에 대응하는 제2 분할 세트인

로 전달하는 단계이고, 제2 분할 세트의 손실값을 각 파티별로 연산하는 단계는

로 표현될 수 있다.

손실값 연산 함수는 로지스틱 회귀 함수일 수 있다.

손실값 연산 함수는 - ln L(p) =

로 표현되고, 여기서

일 수 있다.

상기 손실값의 역수를 기준으로 각 파티의 가중치를 연산은

를 통해 연산되고, 여기서

는

의 역수로 정의되며, 상기 통합 모델을 구축하는 단계는,

를 통해 연산되는 것일 수 있다.

상기 각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계는, 각 파티별로 이벤트 타임 데이터를 함께 생성하는 단계일 수 있다.

상기 각 파티별로 이벤트 타임 데이터의 생성은

로 표현되고,

는 특정 사이트에서의 이벤트의 개수를 나타낼 수 있다.

각 파티의 모델 파라메터를 공유하는 단계는, 각 파티별로 분할된 세트에서 추정한 파라메터 벡터값 및 이벤트 타임 데이터값을 서로 다른 분할된 세트로 보내어 공유하는 단계일 수 있다.

상기 손실값을 연산하는 단계는, 콕스 모델(Cox model)의 손실값 함수를 이용하여 연산하는 것일 수 있다.

상기 손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계 이후에, 각 파티의 이벤트 타임 데이터에 대해서 서바이벌 함수를 연산하는 단계를 더 포함할 수 있다.

상기 서바이벌 함수를 연산하는 단계 이후에 각 파티에 대해서 서바이벌 함수값을 더해서, 중앙 타임 포인트에서의 중앙 서바이벌값을 추정하는 단계를 더 포함할 수 있다.

에서 각 파티별

를 더해서 중앙 서바이벌값을 추정하는 것일 수 있다.

상기 중앙 서바이벌값을 추정하는 단계는, 이벤트 타임 데이터마다 복수 개의 통합 모델 파라메터를 바탕으로 중앙 서바이벌 값을 추정하고, 추정된 중앙 서바이벌 값의 추정치를 각 타임 포인트에서의 포인트 서바이벌 값을 추정하는 것일 수 있다.

또한, 본 발명은 컴퓨터인 하드웨어와 결합되어, 전술한 방법을 실행하기 위해 매체에 저장된, 가중치 기반 통합 프로그램을 제공할 수 있다.

본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

본 발명의 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법은, 환자 수준의 물리적 데이터를 공유하지 않고 개인정보 보호 하에서 예측 모델의 일반화를 구현하여 평균 예측 성능을 향상시킬 수 있다.

본 발명의 일 면에 따른 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법은, 기관 간의 반복적인 커뮤니케이션 없이도 다중 기관 데이터의 가중치 기반 통합 예측 모델을 구축할 수 있다.

본 발명의 일 면에 따른 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법은, 로지스틱스 회귀 모델을 적용하여 모든 데이터가 결합된 중앙 집중식 모델 수준의 타당성을 구현할 수 있다.

본 발명의 일 면에 따른 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법은, 서바이벌 함수를 이용하여 각 시간 포인트에서의 포인트 서바이벌 비율을 추정할 수 있다.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일면에 따른 가중치 기반 통합 방법을 통해 가중치 통합 모델을 도출하는 단계를 도시한 순서도이다.
도 2는 도 1에 따른 순서도를 구체화한 도면이다.
도 3은 본 발명의 일면에 따른 가중치 기반 통합 방법을 통해 중앙 서바이벌값을 추정하는 단계를 도시한 순서도이다.
도 4는 도 3에 따른 순서도를 구체화한 도면이다.
도 5는 반복회수에 따른 가중치값을 나타낸 그래프이다.
도 6은 동일한 데이터 특성 하에서, 데이터 사이즈에 따른 가중치 패턴의 변화를 도시한 그래프이다.
도 7은 동일한 데이터 특성 하에서, 중앙 데이터와의 부합정도에 따른 가중치 패턴의 변화를 도시한 그래프이다.
도 8은 각 기관별로 10개의 모델에 대한 가중치값을 예시적으로 나타낸 도면이다.
도 9는 로지스틱 회귀 모델에 대한 예측 정도를 비교도시한 그래프이다.
도 10은 10개의 모델, 가중치 통합 모델, 중앙화 모델의 외부 검증값을 비교도시한 그래프이다.
도 11은 로지스틱 회귀 모델을 적용한 모델에 대한 OR수치를 비교도시한 그래프이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

이하의 본 발명에 따른 가중치 기반 통합 방법은 서버와 같은 컴퓨터 장치를 통해 수행될 수 있다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.

도 1은 본 발명의 일면에 따른 가중치 기반 통합 방법을 통해 가중치 통합 모델을 도출하는 단계를 도시한 순서도이다. 도 2는 도 1에 따른 순서도를 구체화한 도면이다.

도 1 및 2를 참조하면, 가중치 기반 통합 방법은 각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계(S100), 각 파티의 모델 파라메터를 공유하는 단계(S200), 각 파티의 분할된 데이터에 전체 파티 모델 파라메터를 바탕으로 손실값을 연산하는 단계(S300), 및 손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계(S400)를 포함한다.

각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계(S100)는 예측 모델을 추정하고 성능을 측정하기 위해 각 파티가 두 개의 분할 데이터 세트를 생성한다.

구체적으로는, 본 단계(S100)는 k번째 파티(크기를

라 할때)를 2개의 데이터 세트로 분할한다.

첫번째 분할 세트는

로 지칭되고, 크기를

를 가진다.

두번째 분할 세트는

로 지칭되고, 크기를

를 가진다.

은 예측 모델

를 추정하기 위해 이용될 수 있다.

은

으로부터 얻어진 예측 모델

를 추정하기 위해 이용될 수 있다.

데이터 세트 (

)는 각 파티

(여기에서 k는 파티의 번호를 지칭하는 숫자를 나타낸다)에 대해서 m번 반복해서 생성(여기서 m은 2이상의 자연수)될 수 있다.

m번 반복해서 생성된 데이터 세트를 지칭하기 위해 변수

를 정의할 때, 해당 범주를 만족한다(1

).

(

) 는 k번째 파티의 i번째 데이터 세트의 데이터를 나타낸다.

각 파티의 모델 파라메터를 공유하는 단계(S200)는 각 파티가 추정한 모델 파라메터가 서로 공유된다.

구체적으로는, K번째 파티인

의

번째 모델인

가 첫번째 분할 세트 데이터인

를 통해 추정된다. 그리고, 벡터 파라메터인

는

로부터 추정된다.

결과적으로 k개의 파티의 벡터 파라메터 세트

는 (

)를 통해 추정된다.

각 파티의 분할된 데이터에 전체 파티 모델 파라메터를 바탕으로 손실값을 연산하는 단계(S300)는 모델을 각 파티의 전체 데이터 세트에 피팅하여 각 파티의 모델에 대한 손실값을 계산하는 단계이다.

구체적으로는, 손실값을 연산하는 단계는, 각 파티별로 제1 분할 세트를 기준으로 도출된 모델을 피팅하는 단계, 제1 분할 세트를 기준으로 피팅한 모델을 제2 분할 세트로 전달하는 단계, 및 제2 분할 세트의 손실값을 각 파티별로 연산하는 단계를 포함할 수 있다.

를 i에 대응하는 제2 분할 세트인

로 표현될 수 있다.

손실값을 연산하는 것은 모델에 따라 다양한 함수가 적용될 수 있다.

예를 들어, 이진법 분류 모델에 있어서는 로지스틱 모델을 이용하여 손실값을 연산할 수 있다.

예를 들어, 로지스틱 모델은

에 따르는 것일 수 있다.

예를 들어, 로지스텍 모델을 따를 손실값 연산 함수는 -ln L(p) =

로 표현되고, 여기서

일 수 있고,

는 파라메터의 벡터이며,

는 i번째 환자의 특성을 나타내는 벡터이며,

는 i번째 환자의 바이너리 출력값일 수 있다.

손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계(S400)는

의 역수인

를 정의하여 가중치

를 정의할 수 있고, 통합 모델을 가중치를 통해 연산할 수 있다. 손실값의 역수를 기준으로 각 파티의 가중치를 연산은

를 통해 연산되고, 여기서

는

의 역수로 정의되며, 상기 통합 모델을 구축하는 단계는,

를 통해 연산되는 것일 수 있다.

이렇게 연산된 통합 모델의 가중치는 2가지 요소에 의해 결정될 수 있다. 첫번째는 파티의 데이터 크기로 중앙 데이터에 대한 데이터 사이즈의 비율에 해당한다. 두번째는 다른 파티에 대해서 파티 모델이 얼마나 잘 부합하는지 정도에 대한 것으로, 각 파티별로 형성한 모델이 다른 파티들에 대해서 얼마나 부합(fitting)되는지에 해당한다. 만일 k번째 파티의 데이터 크기가 매우 큰 경우, 전체 파티에 대한 데이터 크기

에 대한 데이터의 비율이 커지는 것이며, k번째 파티에 대한

값 즉 손실값은 작아진다. 이렇게 될 경우, 가중치 값

은 다른 파티 대비 커질 수 있다. 이의 의미는, 큰 데이터 세트를 가지는 파티의 가중치는 작은 데이터 세트를 가지는 파티의 가중치 대비 더 크다는 것을 의미한다.

도 3은 본 발명의 일면에 따른 가중치 기반 통합 방법을 통해 중앙 서바이벌값을 추정하는 단계를 도시한 순서도이다. 도 4는 도 3에 따른 순서도를 구체화한 도면이다.

도 3 및 4를 참조하면, 가중치 기반 통합 방법은 각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계(S110), 각 파티의 모델 파라메터를 공유하는 단계(S210), 각 파티의 분할된 데이터에 전체 파티 모델 파라메터를 바탕으로 손실값을 연산하는 단계(S310), 및 손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계(S410), 각 파티의 이벤트 타임 데이터에 대해서 서바이벌 함수를 연산하는 단계(S500), 각 파티에 대해서 서바이벌 함수값을 더해서, 중앙 타임 포인트에서의 중앙 서바이벌값을 추정하는 단계(S600)를 포함한다.

2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계(S110)는, 각 파티별로 이벤트 타임 데이터를 함께 생성하는 단계이다. 각 파티별로 이벤트 타임 데이터의 생성은

로 표현되고,

는 특정 사이트에서의 이벤트의 개수를 나타낼 수 있다.

각 파티의 모델 파라메터를 공유하는 단계(S210)는, 각 파티별로 분할된 세트에서 추정한 파라메터 벡터값 및 이벤트 타임 데이터값을 서로 다른 분할된 세트로 보내어 공유하는 단계일 수 있다.

예를 들어, 파티 A와 파티 B를 가정할 때, A의 m개

에서 추정한 m개의 (

)와

를 B에 보내고, B의 m개

에서 추정한 m개의 (

)와

를 A로 보낼 수 있다.

각 파티의 분할된 데이터에 전체 파티 모델 파라메터를 바탕으로 손실값을 연산하는 단계(S310)는 콕스 모델(Cox model)의 손실값 함수를 이용하여 연산하는 것일 수 있다. 예를 들어, 손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계 이후에, 각 파티의 이벤트 타임 데이터에 대해서 서바이벌 함수를 연산하는 단계를 더 포함할 수 있다.

손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계(S410)는 손실 값역수를 기준으로 각 파티 의 가중치를 계산하고, m개의 평균으로 최종 가중치 를 도출 후, 통합 모델을 구축하는 단계이다.

각 파티의 이벤트 타임 데이터

에 대해서 서바이벌 함수를 연산하는 단계(S500)는 각 파티별

를 연산할 수 있다.

각 파티에 대해서 서바이벌 함수값을 더해서, 중앙 타임 포인트에서의 중앙 서바이벌값을 추정하는 단계(S600)는

에서 각 파티별

를 더해서 중앙 서바이벌 값을 추정하고, 추정된 중앙 서바이벌 값의 추정치를 각 타임 포인트에서의 포인트 서바이벌 값을 추정하는 것일 수 있다.

예를 들어, 이벤트가 발생한 타임 포인트마다 복수 개(예를 들어, 200개 이상)의 통합 모델을 기반으로 복수 개의 중앙 서바이벌이 추정되고, 200개의 평균으로 포인트 서바이벌 값을 최종 추정할 수 있다.

도 5는 반복회수에 따른 가중치값을 나타낸 그래프이다. 3개의 파티를 대상으로 반복회수를 200,400,600,800 및 1000번으로 한 경우의 가중치 양상이 도시되었다. 수진 점선은 200번 반복한 경우를 나타내는 도시선이다.

일반적으로 반복회수가 200에 도달하는 경우에 가중치가 포화되는 양상을 보이고 있으므로, 연산의 효율성을 위해서는 200번 부근, 예를 들어, 170번 내지 230번을 반복하는 것이 효율적일 수 있으나 이에 한정되는 것은 아니다.

도 6은 동일한 데이터 특성 하에서, 데이터 사이즈에 따른 가중치 패턴의 변화를 도시한 그래프이다. 도 6에 도시된 바와 같이, 시나리오 1에 해당하는 C의 크기를 1000, 2000, 3000, 000, 5000으로 변화함에 따른 해당하는 파티 A, B, C에 대한 중앙 데이터의 부합 정도를 나타내고 있다.

도 7은 동일한 데이터 사이즈 하에서, 중앙 데이터와의 부합정도에 따른 가중치 패턴의 변화를 도시한 그래프이다. 시나리오 2에 해당하는 크기 1000에 해당하는 파티 A, B, C에 대한 중앙 데이터의 부합 정도를 나타낸 그래프이다.

도 8은 각 기관별로 10개의 모델에 대한 가중치값을 예시적으로 나타낸 도면이다. 병원 1번부터 10번 까지 200 번 반복한 경우의 손실값, 가중치, AUC 값, n값 등이 도시된다.

도 9는 로지스틱 회귀 모델에 대한 예측 정도를 비교도시한 그래프이다. 도 9를 참조하면 총 2,845개의 ICU모델 입원을 기준으로 한 중앙 집중식 LR 모델과 본 발명에 따른 가중치 통합 모델의 ROC 곡선, AUC 곡선 등을 통한 로지스틱 회귀 모델의 예측력이 비교된다.

도 10은 10개의 모델, 가중치 통합 모델, 중앙화 모델의 외부 검증값을 비교도시한 그래프이다.

도 10을 참조하면, 중앙 집중식 모델, WIM 및 각 병원의 10 개 모델에 대한 외부 검증의 AUC 결과 (오차 막대 : 95 % CI). 검은 색, 짙은 회색, 밝은 회색은 각각 WIM, 중앙 집중식 모델 및 각 병원의 10 개 모델을 나타낸다.

도 11은 로지스틱 회귀 모델을 적용한 모델에 대한 OR수치를 비교도시한 그래프이다. 도 11을 참조하면, 첫 번째 로지스틱 회귀 모델의 11 개 특성에 대한 추정 OR 및 95 % CI 비교 데이터가 도시된다.

본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.

이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.

Claims

서버에 의해 수행되는, 가중치 기반 통합 방법에 있어서,
각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계;
각 파티의 모델 파라메터를 공유하는 단계;
각 파티의 분할된 데이터에 전체 파티 모델 파라메터를 바탕으로 손실값을 연산하는 단계; 및
손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계;를 포함하는 가중치 기반 통합 방법.
제1 항에 있어서,
각 파티별로 로지스틱 모델을 이용하여 파라메터 데이터를 생성하는 단계를 더 포함하는 가중치 기반 통합 방법.
제2 항에 있어서,
상기 로지스틱 모델은
에 따르는 것인 가중치 기반 통합 방법.
여기에서, 로지스틱 모델은
개의 예측변수를 고려하였으며,
는 이분형 종속변수 (1 또는 0) 중 관심사건(1) 이 발생할 확률,
및
는
번째 parameter 및 예측변수를 나타낸다 (
=
).
제1 항에 있어서,
상기 각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계는, (
)를 생성하는 단계로, 여기에서, 1
의 자연수이고,
는 k번째 파티를 지칭하는 변수이고,
은
의 크기를 가지는 첫번째 분할 부분이고,
는
의 크기를 가지는 두번째 분할 부분이며, x는 임의의 숫자인 가중치 기반 통합 방법.
제1 항에 있어서,
각 파티의 모델 파라메터를 공유하는 단계는,
각 파티별로 분할된 세트에서 추정한 파라메터 벡터값을 서로 다른 분할된 세트로 보내어 공유하는 단계인 가중치 기반 통합 방법.
제5 항에 있어서,
각 파티의 모델 파라메터를 공유하는 단계는,

를 이용하여
를 추정하여 (
)를 도출하는 단계,

를 이용하여 파라메터 벡터
를 추정하여
를 도출하는 단계, 및
각 파티별로 도출한
를 서로 공유하는 단계를 포함하고, 여기에서, 1
의 자연수이고,
는 k번째 파티를 지칭하는 변수이고,
는 k번째 파티에 대한, i번째의 모델을 나타내는 파라메터 인 가중치 기반 통합 방법.
제1 항에 있어서,
상기 손실값을 연산하는 단계는,
각 파티별로 제1 분할 세트를 기준으로 도출된 모델을 피팅하는 단계,
제1 분할 세트를 기준으로 피팅한 모델을 제2 분할 세트로 전달하는 단계, 및
제2 분할 세트의 손실값을 각 파티별로 연산하는 단계를 포함하는 가중치 기반 통합 방법.
제7 항에 있어서,
상기 각 파티별로 제1 분할 세트를 기준으로 도출된 모델을 피팅하는 단계는, 파티 별로 피팅된
를 도출하는 단계이고,
제1 분할 세트를 기준으로 피팅한 모델을 제2 분할 세트로 전달하는 단계는,
를 i에 대응하는 제2 분할 세트인
로 전달하는 단계이고,
제2 분할 세트의 손실값을 각 파티별로 연산하는 단계는
로 표현되는 가중치 기반 통합 방법.
제8 항에 있어서,
손실값 연산 함수는 로지스틱 회귀 함수인 가중치 기반 통합 방법.
제9 항에 있어서,
손실값 연산 함수는 전체 N명의 subjecgt에 대해 (i=1, 2, …, N), -ln L(p) =
로 표현되고, 여기서

는 i subject의 관심사건의 발생확률,　
는 parameter vector, x_i 는 i subject의 feature vector이며, y_i 는 i subject의 binary outcome인 가중치 기반 통합 방법.
제1 항에 있어서,
상기 손실값의 역수를 기준으로 각 파티의 가중치를 연산은
를 통해 연산되고, 여기서
는
의 역수로 정의되며,
상기 통합 모델을 구축하는 단계는,
를 통해 연산되는 것인 가중치 기반 통합 방법.
제1 항에 있어서,
상기 각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계는,
각 파티별로 이벤트 타임 데이터를 함께 생성하는 단계인 가중치 기반 통합 방법.
제12 항에 있어서,
상기 각 파티별로 이벤트 타임 데이터의 생성은
로 표현되고,
는 특정 사이트에서의 이벤트의 개수를 나타내는 가중치 기반 통합 방법.
제12 항에 있어서,
각 파티의 모델 파라메터를 공유하는 단계는,
각 파티별로 분할된 세트에서 추정한 파라메터 벡터값 및 이벤트 타임 데이터값을 서로 다른 분할된 세트로 보내어 공유하는 단계인 가중치 기반 통합 방법.
제12 항에 있어서,
상기 손실값을 연산하는 단계는, 콕스 모델(Cox model)의 손실값 함수를 이용하여 연산하는 것인 가중치 기반 통합 방법.
제12 항에 있어서,
상기 손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계 이후에,
각 파티의 이벤트 타임 데이터에 대해서 서바이벌 함수를 연산하는 단계를 더 포함하는 가중치 기반 통합 방법.
제16 항에 있어서,
상기 서바이벌 함수를 연산하는 단계 이후에 각 파티에 대해서 서바이벌 함수값을 더해서, 중앙 타임 포인트에서의 중앙 서바이벌값을 추정하는 단계를 더 포함하는 가중치 기반 통합 방법.
제17 항에 있어서,

에서 각 파티별
를 더해서 중앙 서바이벌값을 추정하는 것인 가중치 기반 통합 방법.
여기에서,
는 total distinct event time set이며, N_d는 distinct event time의 수이다. 또한, R(t)는 t시점의 risk set (t 이후에 사건 또는 중도절단이 발생한 subject set)이며,
는 i subject의 가중치 통합 추정 coefficient와 예측변수의 선형식이다.
제17 항에 있어서,
상기 중앙 서바이벌값을 추정하는 단계는, 이벤트 타임 데이터마다 복수 개의 통합 모델 파라메터를 바탕으로 중앙 서바이벌 값을 추정하고, 추정된 중앙 서바이벌 값의 추정치를 각 타임 포인트에서의 포인트 서바이벌 값을 추정하는 것인 가중치 기반 통합 방법.
컴퓨터인 하드웨어와 결합되어, 제1항 내지 제19항 중 어느 한 항의 방법을 실행하기 위해 매체에 저장된, 가중치 기반 통합 프로그램.