KR102519218B1 - 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법 - Google Patents

물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법 Download PDF

Info

Publication number
KR102519218B1
KR102519218B1 KR1020210003233A KR20210003233A KR102519218B1 KR 102519218 B1 KR102519218 B1 KR 102519218B1 KR 1020210003233 A KR1020210003233 A KR 1020210003233A KR 20210003233 A KR20210003233 A KR 20210003233A KR 102519218 B1 KR102519218 B1 KR 102519218B1
Authority
KR
South Korea
Prior art keywords
party
weight
model
calculating
integration method
Prior art date
Application number
KR1020210003233A
Other languages
English (en)
Other versions
KR20220102166A (ko
Inventor
박유랑
박지애
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020210003233A priority Critical patent/KR102519218B1/ko
Publication of KR20220102166A publication Critical patent/KR20220102166A/ko
Application granted granted Critical
Publication of KR102519218B1 publication Critical patent/KR102519218B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

가중치 기반 통합 방법은, 각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계, 각 파티의 모델 파라메터를 공유하는 단계, 각 파티의 분할된 데이터에 전체 파티 모델 파라메터를 바탕으로 손실값을 연산하는 단계 및 손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계를 포함한다.

Description

물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법 {A method for estimating a centralized model based on horizontal division without physical data sharing based on weighted integration}
본 발명은 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법에 관한 것이다.
연구 모집단의 대표성을 확보하는 것은 연구의 일반화 가능성을 높일 수 있기 때문에 바이오메디컬 연구에 있어서 중요하다. 이 점에서 다중 기관의 의료 데이터를 사용하는 것은 연구에 이점이 있다. 그러나 의료 데이터의 비밀유지의무 및 기밀 특성으로 인해 개인 정보 문제가 발생하기 때문에 의료 데이터를 물리적으로 결합하기는 곤란하다. 따라서 여러 기관의 의료 데이터를 연구에 활용하기 위해서는 기관 간 실체적 데이터 공유없이 모델을 구축 할 수 있는 방법의 개발이 요구된다.
등록특허공보 제 10-1799823 호, 2017.11.15
본 발명이 해결하고자 하는 과제는 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상술한 과제를 해결하기 위한 본 발명의 일 면에 따른 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법은, 각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계, 각 파티의 모델 파라메터를 공유하는 단계, 각 파티의 분할된 데이터에 전체 파티 모델 파라메터를 바탕으로 손실값을 연산하는 단계, 및 손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계;를 포함한다.
각 파티별로 로지스틱 모델을 이용하여 파라메터 데이터를 생성하는 단계를 더 포함할 수 있다.
상기 로지스틱 모델은
Figure 112021003203117-pat00001
에 따르는 것일 수 있다.
상기 각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계는, (
Figure 112021003203117-pat00002
)를 생성하는 단계로, 여기에서, 1
Figure 112021003203117-pat00003
의 자연수이고,
Figure 112021003203117-pat00004
는 k번째 파티를 지칭하는 변수이고,
Figure 112021003203117-pat00005
Figure 112021003203117-pat00006
의 크기를 가지는 첫번째 분할 부분이고,
Figure 112021003203117-pat00007
Figure 112021003203117-pat00008
의 크기를 가지는 두번째 분할 부분이며, x는 임의의 숫자일 수 있다.
각 파티의 모델 파라메터를 공유하는 단계는, 각 파티별로 분할된 세트에서 추정한 파라메터 벡터값을 서로 다른 분할된 세트로 보내어 공유하는 단계일 수 있다.
각 파티의 모델 파라메터를 공유하는 단계는,
Figure 112021003203117-pat00009
를 이용하여
Figure 112021003203117-pat00010
를 추정하여 (
Figure 112021003203117-pat00011
)를 도출하는 단계,
Figure 112021003203117-pat00012
를 이용하여 파라메터 벡터
Figure 112021003203117-pat00013
를 추정하여
Figure 112021003203117-pat00014
를 도출하는 단계, 및 각 파티별로 도출한
Figure 112021003203117-pat00015
를 서로 공유하는 단계를 포함하고, 여기에서, 1
Figure 112021003203117-pat00016
의 자연수이고,
Figure 112021003203117-pat00017
는 k번째 파티를 지칭하는 변수이고,
Figure 112021003203117-pat00018
는 k번째 파티에 대한, i번째의 모델을 나타내는 파라메터 일 수 있다.
상기 손실값을 연산하는 단계는, 각 파티별로 제1 분할 세트를 기준으로 도출된 모델을 피팅하는 단계, 제1 분할 세트를 기준으로 피팅한 모델을 제2 분할 세트로 전달하는 단계, 및 제2 분할 세트의 손실값을 각 파티별로 연산하는 단계를 포함할 수 있다.
상기 각 파티별로 제1 분할 세트를 기준으로 도출된 모델을 피팅하는 단계는, 파티 별로 피팅된
Figure 112021003203117-pat00019
를 도출하는 단계이고, 제1 분할 세트를 기준으로 피팅한 모델을 제2 분할 세트로 전달하는 단계는,
Figure 112021003203117-pat00020
를 i에 대응하는 제2 분할 세트인
Figure 112021003203117-pat00021
로 전달하는 단계이고, 제2 분할 세트의 손실값을 각 파티별로 연산하는 단계는
Figure 112021003203117-pat00022
로 표현될 수 있다.
손실값 연산 함수는 로지스틱 회귀 함수일 수 있다.
손실값 연산 함수는 - ln L(p) =
Figure 112021003203117-pat00023
로 표현되고, 여기서
Figure 112021003203117-pat00024
일 수 있다.
상기 손실값의 역수를 기준으로 각 파티의 가중치를 연산은
Figure 112021003203117-pat00025
를 통해 연산되고, 여기서
Figure 112021003203117-pat00026
Figure 112021003203117-pat00027
의 역수로 정의되며, 상기 통합 모델을 구축하는 단계는,
Figure 112021003203117-pat00028
를 통해 연산되는 것일 수 있다.
상기 각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계는, 각 파티별로 이벤트 타임 데이터를 함께 생성하는 단계일 수 있다.
상기 각 파티별로 이벤트 타임 데이터의 생성은
Figure 112021003203117-pat00029
로 표현되고,
Figure 112021003203117-pat00030
는 특정 사이트에서의 이벤트의 개수를 나타낼 수 있다.
각 파티의 모델 파라메터를 공유하는 단계는, 각 파티별로 분할된 세트에서 추정한 파라메터 벡터값 및 이벤트 타임 데이터값을 서로 다른 분할된 세트로 보내어 공유하는 단계일 수 있다.
상기 손실값을 연산하는 단계는, 콕스 모델(Cox model)의 손실값 함수를 이용하여 연산하는 것일 수 있다.
상기 손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계 이후에, 각 파티의 이벤트 타임 데이터에 대해서 서바이벌 함수를 연산하는 단계를 더 포함할 수 있다.
상기 서바이벌 함수를 연산하는 단계 이후에 각 파티에 대해서 서바이벌 함수값을 더해서, 중앙 타임 포인트에서의 중앙 서바이벌값을 추정하는 단계를 더 포함할 수 있다.
Figure 112021003203117-pat00031
에서 각 파티별
Figure 112021003203117-pat00032
를 더해서 중앙 서바이벌값을 추정하는 것일 수 있다.
상기 중앙 서바이벌값을 추정하는 단계는, 이벤트 타임 데이터마다 복수 개의 통합 모델 파라메터를 바탕으로 중앙 서바이벌 값을 추정하고, 추정된 중앙 서바이벌 값의 추정치를 각 타임 포인트에서의 포인트 서바이벌 값을 추정하는 것일 수 있다.
또한, 본 발명은 컴퓨터인 하드웨어와 결합되어, 전술한 방법을 실행하기 위해 매체에 저장된, 가중치 기반 통합 프로그램을 제공할 수 있다.
본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명의 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법은, 환자 수준의 물리적 데이터를 공유하지 않고 개인정보 보호 하에서 예측 모델의 일반화를 구현하여 평균 예측 성능을 향상시킬 수 있다.
본 발명의 일 면에 따른 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법은, 기관 간의 반복적인 커뮤니케이션 없이도 다중 기관 데이터의 가중치 기반 통합 예측 모델을 구축할 수 있다.
본 발명의 일 면에 따른 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법은, 로지스틱스 회귀 모델을 적용하여 모든 데이터가 결합된 중앙 집중식 모델 수준의 타당성을 구현할 수 있다.
본 발명의 일 면에 따른 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법은, 서바이벌 함수를 이용하여 각 시간 포인트에서의 포인트 서바이벌 비율을 추정할 수 있다.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일면에 따른 가중치 기반 통합 방법을 통해 가중치 통합 모델을 도출하는 단계를 도시한 순서도이다.
도 2는 도 1에 따른 순서도를 구체화한 도면이다.
도 3은 본 발명의 일면에 따른 가중치 기반 통합 방법을 통해 중앙 서바이벌값을 추정하는 단계를 도시한 순서도이다.
도 4는 도 3에 따른 순서도를 구체화한 도면이다.
도 5는 반복회수에 따른 가중치값을 나타낸 그래프이다.
도 6은 동일한 데이터 특성 하에서, 데이터 사이즈에 따른 가중치 패턴의 변화를 도시한 그래프이다.
도 7은 동일한 데이터 특성 하에서, 중앙 데이터와의 부합정도에 따른 가중치 패턴의 변화를 도시한 그래프이다.
도 8은 각 기관별로 10개의 모델에 대한 가중치값을 예시적으로 나타낸 도면이다.
도 9는 로지스틱 회귀 모델에 대한 예측 정도를 비교도시한 그래프이다.
도 10은 10개의 모델, 가중치 통합 모델, 중앙화 모델의 외부 검증값을 비교도시한 그래프이다.
도 11은 로지스틱 회귀 모델을 적용한 모델에 대한 OR수치를 비교도시한 그래프이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하의 본 발명에 따른 가중치 기반 통합 방법은 서버와 같은 컴퓨터 장치를 통해 수행될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.
도 1은 본 발명의 일면에 따른 가중치 기반 통합 방법을 통해 가중치 통합 모델을 도출하는 단계를 도시한 순서도이다. 도 2는 도 1에 따른 순서도를 구체화한 도면이다.
도 1 및 2를 참조하면, 가중치 기반 통합 방법은 각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계(S100), 각 파티의 모델 파라메터를 공유하는 단계(S200), 각 파티의 분할된 데이터에 전체 파티 모델 파라메터를 바탕으로 손실값을 연산하는 단계(S300), 및 손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계(S400)를 포함한다.
각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계(S100)는 예측 모델을 추정하고 성능을 측정하기 위해 각 파티가 두 개의 분할 데이터 세트를 생성한다.
구체적으로는, 본 단계(S100)는 k번째 파티(크기를
Figure 112021003203117-pat00033
라 할때)를 2개의 데이터 세트로 분할한다.
첫번째 분할 세트는
Figure 112021003203117-pat00034
로 지칭되고, 크기를
Figure 112021003203117-pat00035
를 가진다.
두번째 분할 세트는
Figure 112021003203117-pat00036
로 지칭되고, 크기를
Figure 112021003203117-pat00037
를 가진다.
Figure 112021003203117-pat00038
은 예측 모델
Figure 112021003203117-pat00039
를 추정하기 위해 이용될 수 있다.
Figure 112021003203117-pat00040
Figure 112021003203117-pat00041
으로부터 얻어진 예측 모델
Figure 112021003203117-pat00042
를 추정하기 위해 이용될 수 있다.
데이터 세트 (
Figure 112021003203117-pat00043
)는 각 파티
Figure 112021003203117-pat00044
(여기에서 k는 파티의 번호를 지칭하는 숫자를 나타낸다)에 대해서 m번 반복해서 생성(여기서 m은 2이상의 자연수)될 수 있다.
m번 반복해서 생성된 데이터 세트를 지칭하기 위해 변수
Figure 112021003203117-pat00045
를 정의할 때, 해당 범주를 만족한다(1
Figure 112021003203117-pat00046
).
(
Figure 112021003203117-pat00047
) 는 k번째 파티의 i번째 데이터 세트의 데이터를 나타낸다.
각 파티의 모델 파라메터를 공유하는 단계(S200)는 각 파티가 추정한 모델 파라메터가 서로 공유된다.
구체적으로는, K번째 파티인
Figure 112021003203117-pat00048
Figure 112021003203117-pat00049
번째 모델인
Figure 112021003203117-pat00050
가 첫번째 분할 세트 데이터인
Figure 112021003203117-pat00051
를 통해 추정된다. 그리고, 벡터 파라메터인
Figure 112021003203117-pat00052
Figure 112021003203117-pat00053
로부터 추정된다.
결과적으로 k개의 파티의 벡터 파라메터 세트
Figure 112021003203117-pat00054
는 (
Figure 112021003203117-pat00055
)를 통해 추정된다.
각 파티의 분할된 데이터에 전체 파티 모델 파라메터를 바탕으로 손실값을 연산하는 단계(S300)는 모델을 각 파티의 전체 데이터 세트에 피팅하여 각 파티의 모델에 대한 손실값을 계산하는 단계이다.
구체적으로는, 손실값을 연산하는 단계는, 각 파티별로 제1 분할 세트를 기준으로 도출된 모델을 피팅하는 단계, 제1 분할 세트를 기준으로 피팅한 모델을 제2 분할 세트로 전달하는 단계, 및 제2 분할 세트의 손실값을 각 파티별로 연산하는 단계를 포함할 수 있다.
상기 각 파티별로 제1 분할 세트를 기준으로 도출된 모델을 피팅하는 단계는, 파티 별로 피팅된
Figure 112021003203117-pat00056
를 도출하는 단계이고, 제1 분할 세트를 기준으로 피팅한 모델을 제2 분할 세트로 전달하는 단계는,
Figure 112021003203117-pat00057
를 i에 대응하는 제2 분할 세트인
Figure 112021003203117-pat00058
로 전달하는 단계이고, 제2 분할 세트의 손실값을 각 파티별로 연산하는 단계는
Figure 112021003203117-pat00059
로 표현될 수 있다.
손실값을 연산하는 것은 모델에 따라 다양한 함수가 적용될 수 있다.
예를 들어, 이진법 분류 모델에 있어서는 로지스틱 모델을 이용하여 손실값을 연산할 수 있다.
예를 들어, 로지스틱 모델은
Figure 112021003203117-pat00060
에 따르는 것일 수 있다.
예를 들어, 로지스텍 모델을 따를 손실값 연산 함수는 -ln L(p) =
Figure 112021003203117-pat00061
로 표현되고, 여기서
Figure 112021003203117-pat00062
일 수 있고,
Figure 112021003203117-pat00063
는 파라메터의 벡터이며,
Figure 112021003203117-pat00064
는 i번째 환자의 특성을 나타내는 벡터이며,
Figure 112021003203117-pat00065
는 i번째 환자의 바이너리 출력값일 수 있다.
손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계(S400)는
Figure 112021003203117-pat00066
의 역수인
Figure 112021003203117-pat00067
를 정의하여 가중치
Figure 112021003203117-pat00068
를 정의할 수 있고, 통합 모델을 가중치를 통해 연산할 수 있다. 손실값의 역수를 기준으로 각 파티의 가중치를 연산은
Figure 112021003203117-pat00069
를 통해 연산되고, 여기서
Figure 112021003203117-pat00070
Figure 112021003203117-pat00071
의 역수로 정의되며, 상기 통합 모델을 구축하는 단계는,
Figure 112021003203117-pat00072
를 통해 연산되는 것일 수 있다.
이렇게 연산된 통합 모델의 가중치는 2가지 요소에 의해 결정될 수 있다. 첫번째는 파티의 데이터 크기로 중앙 데이터에 대한 데이터 사이즈의 비율에 해당한다. 두번째는 다른 파티에 대해서 파티 모델이 얼마나 잘 부합하는지 정도에 대한 것으로, 각 파티별로 형성한 모델이 다른 파티들에 대해서 얼마나 부합(fitting)되는지에 해당한다. 만일 k번째 파티의 데이터 크기가 매우 큰 경우, 전체 파티에 대한 데이터 크기
Figure 112021003203117-pat00073
에 대한 데이터의 비율이 커지는 것이며, k번째 파티에 대한
Figure 112021003203117-pat00074
값 즉 손실값은 작아진다. 이렇게 될 경우, 가중치 값
Figure 112021003203117-pat00075
은 다른 파티 대비 커질 수 있다. 이의 의미는, 큰 데이터 세트를 가지는 파티의 가중치는 작은 데이터 세트를 가지는 파티의 가중치 대비 더 크다는 것을 의미한다.
도 3은 본 발명의 일면에 따른 가중치 기반 통합 방법을 통해 중앙 서바이벌값을 추정하는 단계를 도시한 순서도이다. 도 4는 도 3에 따른 순서도를 구체화한 도면이다.
도 3 및 4를 참조하면, 가중치 기반 통합 방법은 각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계(S110), 각 파티의 모델 파라메터를 공유하는 단계(S210), 각 파티의 분할된 데이터에 전체 파티 모델 파라메터를 바탕으로 손실값을 연산하는 단계(S310), 및 손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계(S410), 각 파티의 이벤트 타임 데이터에 대해서 서바이벌 함수를 연산하는 단계(S500), 각 파티에 대해서 서바이벌 함수값을 더해서, 중앙 타임 포인트에서의 중앙 서바이벌값을 추정하는 단계(S600)를 포함한다.
2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계(S110)는, 각 파티별로 이벤트 타임 데이터를 함께 생성하는 단계이다. 각 파티별로 이벤트 타임 데이터의 생성은
Figure 112021003203117-pat00076
로 표현되고,
Figure 112021003203117-pat00077
는 특정 사이트에서의 이벤트의 개수를 나타낼 수 있다.
각 파티의 모델 파라메터를 공유하는 단계(S210)는, 각 파티별로 분할된 세트에서 추정한 파라메터 벡터값 및 이벤트 타임 데이터값을 서로 다른 분할된 세트로 보내어 공유하는 단계일 수 있다.
예를 들어, 파티 A와 파티 B를 가정할 때, A의 m개
Figure 112021003203117-pat00078
에서 추정한 m개의 (
Figure 112021003203117-pat00079
)와
Figure 112021003203117-pat00080
를 B에 보내고, B의 m개
Figure 112021003203117-pat00081
에서 추정한 m개의 (
Figure 112021003203117-pat00082
)와
Figure 112021003203117-pat00083
를 A로 보낼 수 있다.
각 파티의 분할된 데이터에 전체 파티 모델 파라메터를 바탕으로 손실값을 연산하는 단계(S310)는 콕스 모델(Cox model)의 손실값 함수를 이용하여 연산하는 것일 수 있다. 예를 들어, 손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계 이후에, 각 파티의 이벤트 타임 데이터에 대해서 서바이벌 함수를 연산하는 단계를 더 포함할 수 있다.
손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계(S410)는 손실 값역수를 기준으로 각 파티 의 가중치를 계산하고, m개의 평균으로 최종 가중치 를 도출 후, 통합 모델을 구축하는 단계이다.
각 파티의 이벤트 타임 데이터
Figure 112021003203117-pat00084
에 대해서 서바이벌 함수를 연산하는 단계(S500)는 각 파티별
Figure 112021003203117-pat00085
를 연산할 수 있다.
각 파티에 대해서 서바이벌 함수값을 더해서, 중앙 타임 포인트에서의 중앙 서바이벌값을 추정하는 단계(S600)는
Figure 112021003203117-pat00086
에서 각 파티별
Figure 112021003203117-pat00087
를 더해서 중앙 서바이벌 값을 추정하고, 추정된 중앙 서바이벌 값의 추정치를 각 타임 포인트에서의 포인트 서바이벌 값을 추정하는 것일 수 있다.
예를 들어, 이벤트가 발생한 타임 포인트마다 복수 개(예를 들어, 200개 이상)의 통합 모델을 기반으로 복수 개의 중앙 서바이벌이 추정되고, 200개의 평균으로 포인트 서바이벌 값을 최종 추정할 수 있다.
도 5는 반복회수에 따른 가중치값을 나타낸 그래프이다. 3개의 파티를 대상으로 반복회수를 200,400,600,800 및 1000번으로 한 경우의 가중치 양상이 도시되었다. 수진 점선은 200번 반복한 경우를 나타내는 도시선이다.
일반적으로 반복회수가 200에 도달하는 경우에 가중치가 포화되는 양상을 보이고 있으므로, 연산의 효율성을 위해서는 200번 부근, 예를 들어, 170번 내지 230번을 반복하는 것이 효율적일 수 있으나 이에 한정되는 것은 아니다.
도 6은 동일한 데이터 특성 하에서, 데이터 사이즈에 따른 가중치 패턴의 변화를 도시한 그래프이다. 도 6에 도시된 바와 같이, 시나리오 1에 해당하는 C의 크기를 1000, 2000, 3000, 000, 5000으로 변화함에 따른 해당하는 파티 A, B, C에 대한 중앙 데이터의 부합 정도를 나타내고 있다.
도 7은 동일한 데이터 사이즈 하에서, 중앙 데이터와의 부합정도에 따른 가중치 패턴의 변화를 도시한 그래프이다. 시나리오 2에 해당하는 크기 1000에 해당하는 파티 A, B, C에 대한 중앙 데이터의 부합 정도를 나타낸 그래프이다.
도 8은 각 기관별로 10개의 모델에 대한 가중치값을 예시적으로 나타낸 도면이다. 병원 1번부터 10번 까지 200 번 반복한 경우의 손실값, 가중치, AUC 값, n값 등이 도시된다.
도 9는 로지스틱 회귀 모델에 대한 예측 정도를 비교도시한 그래프이다. 도 9를 참조하면 총 2,845개의 ICU모델 입원을 기준으로 한 중앙 집중식 LR 모델과 본 발명에 따른 가중치 통합 모델의 ROC 곡선, AUC 곡선 등을 통한 로지스틱 회귀 모델의 예측력이 비교된다.
도 10은 10개의 모델, 가중치 통합 모델, 중앙화 모델의 외부 검증값을 비교도시한 그래프이다.
도 10을 참조하면, 중앙 집중식 모델, WIM 및 각 병원의 10 개 모델에 대한 외부 검증의 AUC 결과 (오차 막대 : 95 % CI). 검은 색, 짙은 회색, 밝은 회색은 각각 WIM, 중앙 집중식 모델 및 각 병원의 10 개 모델을 나타낸다.
도 11은 로지스틱 회귀 모델을 적용한 모델에 대한 OR수치를 비교도시한 그래프이다. 도 11을 참조하면, 첫 번째 로지스틱 회귀 모델의 11 개 특성에 대한 추정 OR 및 95 % CI 비교 데이터가 도시된다.
본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.
이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.

Claims (20)

  1. 서버에 의해 수행되는, 가중치 기반 통합 방법에 있어서,
    각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계;
    각 파티의 모델 파라메터를 공유하는 단계;
    각 파티의 분할된 데이터에 전체 파티 모델 파라메터를 바탕으로 손실값을 연산하는 단계; 및
    손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계;를 포함하는 가중치 기반 통합 방법.
  2. 제1 항에 있어서,
    각 파티별로 로지스틱 모델을 이용하여 파라메터 데이터를 생성하는 단계를 더 포함하는 가중치 기반 통합 방법.
  3. 제2 항에 있어서,
    상기 로지스틱 모델은
    Figure 112022111311882-pat00131
    에 따르는 것인 가중치 기반 통합 방법.
    여기에서, 로지스틱 모델은
    Figure 112022111311882-pat00132
    개의 예측변수를 고려하였으며,
    Figure 112022111311882-pat00133
    는 이분형 종속변수 (1 또는 0) 중 관심사건(1) 이 발생할 확률,
    Figure 112022111311882-pat00134
    Figure 112022111311882-pat00135
    Figure 112022111311882-pat00136
    번째 parameter 및 예측변수를 나타낸다 (
    Figure 112022111311882-pat00137
    =
    Figure 112022111311882-pat00138
    ).
  4. 제1 항에 있어서,
    상기 각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계는, (
    Figure 112021003203117-pat00089
    )를 생성하는 단계로, 여기에서, 1
    Figure 112021003203117-pat00090
    의 자연수이고,
    Figure 112021003203117-pat00091
    는 k번째 파티를 지칭하는 변수이고,
    Figure 112021003203117-pat00092
    Figure 112021003203117-pat00093
    의 크기를 가지는 첫번째 분할 부분이고,
    Figure 112021003203117-pat00094
    Figure 112021003203117-pat00095
    의 크기를 가지는 두번째 분할 부분이며, x는 임의의 숫자인 가중치 기반 통합 방법.
  5. 제1 항에 있어서,
    각 파티의 모델 파라메터를 공유하는 단계는,
    각 파티별로 분할된 세트에서 추정한 파라메터 벡터값을 서로 다른 분할된 세트로 보내어 공유하는 단계인 가중치 기반 통합 방법.
  6. 제5 항에 있어서,
    각 파티의 모델 파라메터를 공유하는 단계는,
    Figure 112021003203117-pat00096
    를 이용하여
    Figure 112021003203117-pat00097
    를 추정하여 (
    Figure 112021003203117-pat00098
    )를 도출하는 단계,
    Figure 112021003203117-pat00099
    를 이용하여 파라메터 벡터
    Figure 112021003203117-pat00100
    를 추정하여
    Figure 112021003203117-pat00101
    를 도출하는 단계, 및
    각 파티별로 도출한
    Figure 112021003203117-pat00102
    를 서로 공유하는 단계를 포함하고, 여기에서, 1
    Figure 112021003203117-pat00103
    의 자연수이고,
    Figure 112021003203117-pat00104
    는 k번째 파티를 지칭하는 변수이고,
    Figure 112021003203117-pat00105
    는 k번째 파티에 대한, i번째의 모델을 나타내는 파라메터 인 가중치 기반 통합 방법.
  7. 제1 항에 있어서,
    상기 손실값을 연산하는 단계는,
    각 파티별로 제1 분할 세트를 기준으로 도출된 모델을 피팅하는 단계,
    제1 분할 세트를 기준으로 피팅한 모델을 제2 분할 세트로 전달하는 단계, 및
    제2 분할 세트의 손실값을 각 파티별로 연산하는 단계를 포함하는 가중치 기반 통합 방법.
  8. 제7 항에 있어서,
    상기 각 파티별로 제1 분할 세트를 기준으로 도출된 모델을 피팅하는 단계는, 파티 별로 피팅된
    Figure 112021003203117-pat00106
    를 도출하는 단계이고,
    제1 분할 세트를 기준으로 피팅한 모델을 제2 분할 세트로 전달하는 단계는,
    Figure 112021003203117-pat00107
    를 i에 대응하는 제2 분할 세트인
    Figure 112021003203117-pat00108
    로 전달하는 단계이고,
    제2 분할 세트의 손실값을 각 파티별로 연산하는 단계는
    Figure 112021003203117-pat00109
    로 표현되는 가중치 기반 통합 방법.
  9. 제8 항에 있어서,
    손실값 연산 함수는 로지스틱 회귀 함수인 가중치 기반 통합 방법.
  10. 제9 항에 있어서,
    손실값 연산 함수는 전체 N명의 subjecgt에 대해 (i=1, 2, …, N), -ln L(p) =
    Figure 112022111311882-pat00139
    로 표현되고, 여기서
    Figure 112022111311882-pat00140

    는 i subject의 관심사건의 발생확률, 
    Figure 112022111311882-pat00141
    는 parameter vector, xi 는 i subject의 feature vector이며, yi 는 i subject의 binary outcome인 가중치 기반 통합 방법.
  11. 제1 항에 있어서,
    상기 손실값의 역수를 기준으로 각 파티의 가중치를 연산은
    Figure 112021003203117-pat00112
    를 통해 연산되고, 여기서
    Figure 112021003203117-pat00113
    Figure 112021003203117-pat00114
    의 역수로 정의되며,
    상기 통합 모델을 구축하는 단계는,
    Figure 112021003203117-pat00115
    를 통해 연산되는 것인 가중치 기반 통합 방법.
  12. 제1 항에 있어서,
    상기 각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계는,
    각 파티별로 이벤트 타임 데이터를 함께 생성하는 단계인 가중치 기반 통합 방법.
  13. 제12 항에 있어서,
    상기 각 파티별로 이벤트 타임 데이터의 생성은
    Figure 112021003203117-pat00116
    로 표현되고,
    Figure 112021003203117-pat00117
    는 특정 사이트에서의 이벤트의 개수를 나타내는 가중치 기반 통합 방법.
  14. 제12 항에 있어서,
    각 파티의 모델 파라메터를 공유하는 단계는,
    각 파티별로 분할된 세트에서 추정한 파라메터 벡터값 및 이벤트 타임 데이터값을 서로 다른 분할된 세트로 보내어 공유하는 단계인 가중치 기반 통합 방법.
  15. 제12 항에 있어서,
    상기 손실값을 연산하는 단계는, 콕스 모델(Cox model)의 손실값 함수를 이용하여 연산하는 것인 가중치 기반 통합 방법.
  16. 제12 항에 있어서,
    상기 손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계 이후에,
    각 파티의 이벤트 타임 데이터에 대해서 서바이벌 함수를 연산하는 단계를 더 포함하는 가중치 기반 통합 방법.
  17. 제16 항에 있어서,
    상기 서바이벌 함수를 연산하는 단계 이후에 각 파티에 대해서 서바이벌 함수값을 더해서, 중앙 타임 포인트에서의 중앙 서바이벌값을 추정하는 단계를 더 포함하는 가중치 기반 통합 방법.
  18. 제17 항에 있어서,
    Figure 112022111311882-pat00142
    에서 각 파티별
    Figure 112022111311882-pat00143
    를 더해서 중앙 서바이벌값을 추정하는 것인 가중치 기반 통합 방법.
    여기에서,
    Figure 112022111311882-pat00144
    는 total distinct event time set이며, Nd는 distinct event time의 수이다. 또한, R(t)는 t시점의 risk set (t 이후에 사건 또는 중도절단이 발생한 subject set)이며,
    Figure 112022111311882-pat00145
    는 i subject의 가중치 통합 추정 coefficient와 예측변수의 선형식이다.
  19. 제17 항에 있어서,
    상기 중앙 서바이벌값을 추정하는 단계는, 이벤트 타임 데이터마다 복수 개의 통합 모델 파라메터를 바탕으로 중앙 서바이벌 값을 추정하고, 추정된 중앙 서바이벌 값의 추정치를 각 타임 포인트에서의 포인트 서바이벌 값을 추정하는 것인 가중치 기반 통합 방법.
  20. 컴퓨터인 하드웨어와 결합되어, 제1항 내지 제19항 중 어느 한 항의 방법을 실행하기 위해 매체에 저장된, 가중치 기반 통합 프로그램.
KR1020210003233A 2021-01-11 2021-01-11 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법 KR102519218B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210003233A KR102519218B1 (ko) 2021-01-11 2021-01-11 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210003233A KR102519218B1 (ko) 2021-01-11 2021-01-11 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법

Publications (2)

Publication Number Publication Date
KR20220102166A KR20220102166A (ko) 2022-07-20
KR102519218B1 true KR102519218B1 (ko) 2023-04-07

Family

ID=82609156

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210003233A KR102519218B1 (ko) 2021-01-11 2021-01-11 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법

Country Status (1)

Country Link
KR (1) KR102519218B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014146161A (ja) 2013-01-29 2014-08-14 Toshiba Corp モデル推定装置およびその方法
JP2020177429A (ja) 2019-04-17 2020-10-29 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP2020537797A (ja) 2017-10-02 2020-12-24 アイエムイーシー ブイゼットダブリュー セキュアなブローカーによって媒介されるデータ分析および予測

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101799823B1 (ko) 2015-08-12 2017-11-21 아주대학교산학협력단 다기관 의료 데이터 통합 분석을 위한 정규화 방법 및 그 시스템
CN110892396B (zh) * 2017-07-11 2023-11-24 海德拉哈希图有限责任公司 用于在网络内高效地实现分布式数据库的方法和设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014146161A (ja) 2013-01-29 2014-08-14 Toshiba Corp モデル推定装置およびその方法
JP2020537797A (ja) 2017-10-02 2020-12-24 アイエムイーシー ブイゼットダブリュー セキュアなブローカーによって媒介されるデータ分析および予測
JP2020177429A (ja) 2019-04-17 2020-10-29 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
KR20220102166A (ko) 2022-07-20

Similar Documents

Publication Publication Date Title
US11809993B2 (en) Systems and methods for determining graph similarity
CN116569189A (zh) 被配置为在机器学习模型中实现动态离群值偏倚减少的基于计算机的系统、计算组件和计算对象
Zheng Gradient descent algorithms for quantile regression with smooth approximation
Wang et al. A compact constraint incremental method for random weight networks and its application
US20110112998A1 (en) Methods and systems for variable group selection and temporal causal modeling
US11288318B2 (en) Obtaining dynamic embedding vectors of nodes in relationship graphs
CN110619082B (zh) 一种基于重复搜索机制的项目推荐方法
CN116759100B (zh) 基于联邦学习构建慢性心血管疾病大模型方法
Baragona et al. Fitting piecewise linear threshold autoregressive models by means of genetic algorithms
Wang et al. Bayesian network based trust management
JP7119820B2 (ja) 予測プログラム、予測方法および学習装置
Krejić et al. Descent direction method with line search for unconstrained optimization in noisy environment
Martino et al. Multivariate hidden Markov models for disease progression
CN115809569A (zh) 基于耦合竞争失效模型的可靠性评价方法和装置
Mohammed et al. Improving forecasts of the EGARCH model using artificial neural network and fuzzy inference system
Soliman et al. Ensemble forecasting of the Zika space‐time spread with topological data analysis
Oh et al. Genetically optimized fuzzy polynomial neural networks with fuzzy set-based polynomial neurons
Zeng et al. Influential simplices mining via simplicial convolutional network
Luber et al. Structural neural additive models: Enhanced interpretable machine learning
CN117077737B (zh) 一种知识点动态协同的知识追踪系统
KR102519218B1 (ko) 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법
KR20220027155A (ko) 격자 점들 열거를 위한 디바이스들 및 방법들
CN116956081A (zh) 面向异构社交网络分布外泛化的社交标签预测方法及系统
CN116523001A (zh) 电网薄弱线路识别模型构建方法、装置和计算机设备
CN115238134A (zh) 用于生成图数据结构的图向量表示的方法及装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant