KR20220102166A - 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법 - Google Patents

물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법 Download PDF

Info

Publication number
KR20220102166A
KR20220102166A KR1020210003233A KR20210003233A KR20220102166A KR 20220102166 A KR20220102166 A KR 20220102166A KR 1020210003233 A KR1020210003233 A KR 1020210003233A KR 20210003233 A KR20210003233 A KR 20210003233A KR 20220102166 A KR20220102166 A KR 20220102166A
Authority
KR
South Korea
Prior art keywords
party
weight
model
calculating
data
Prior art date
Application number
KR1020210003233A
Other languages
English (en)
Other versions
KR102519218B1 (ko
Inventor
박유랑
박지애
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020210003233A priority Critical patent/KR102519218B1/ko
Publication of KR20220102166A publication Critical patent/KR20220102166A/ko
Application granted granted Critical
Publication of KR102519218B1 publication Critical patent/KR102519218B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

가중치 기반 통합 방법은, 각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계, 각 파티의 모델 파라메터를 공유하는 단계, 각 파티의 분할된 데이터에 전체 파티 모델 파라메터를 바탕으로 손실값을 연산하는 단계 및 손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계를 포함한다.

Description

물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법 {A method for estimating a centralized model based on horizontal division without physical data sharing based on weighted integration}
본 발명은 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법에 관한 것이다.
연구 모집단의 대표성을 확보하는 것은 연구의 일반화 가능성을 높일 수 있기 때문에 바이오메디컬 연구에 있어서 중요하다. 이 점에서 다중 기관의 의료 데이터를 사용하는 것은 연구에 이점이 있다. 그러나 의료 데이터의 비밀유지의무 및 기밀 특성으로 인해 개인 정보 문제가 발생하기 때문에 의료 데이터를 물리적으로 결합하기는 곤란하다. 따라서 여러 기관의 의료 데이터를 연구에 활용하기 위해서는 기관 간 실체적 데이터 공유없이 모델을 구축 할 수 있는 방법의 개발이 요구된다.
등록특허공보 제 10-1799823 호, 2017.11.15
본 발명이 해결하고자 하는 과제는 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상술한 과제를 해결하기 위한 본 발명의 일 면에 따른 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법은, 각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계, 각 파티의 모델 파라메터를 공유하는 단계, 각 파티의 분할된 데이터에 전체 파티 모델 파라메터를 바탕으로 손실값을 연산하는 단계, 및 손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계;를 포함한다.
각 파티별로 로지스틱 모델을 이용하여 파라메터 데이터를 생성하는 단계를 더 포함할 수 있다.
상기 로지스틱 모델은
Figure pat00001
에 따르는 것일 수 있다.
상기 각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계는, (
Figure pat00002
)를 생성하는 단계로, 여기에서, 1
Figure pat00003
의 자연수이고,
Figure pat00004
는 k번째 파티를 지칭하는 변수이고,
Figure pat00005
Figure pat00006
의 크기를 가지는 첫번째 분할 부분이고,
Figure pat00007
Figure pat00008
의 크기를 가지는 두번째 분할 부분이며, x는 임의의 숫자일 수 있다.
각 파티의 모델 파라메터를 공유하는 단계는, 각 파티별로 분할된 세트에서 추정한 파라메터 벡터값을 서로 다른 분할된 세트로 보내어 공유하는 단계일 수 있다.
각 파티의 모델 파라메터를 공유하는 단계는,
Figure pat00009
를 이용하여
Figure pat00010
를 추정하여 (
Figure pat00011
)를 도출하는 단계,
Figure pat00012
를 이용하여 파라메터 벡터
Figure pat00013
를 추정하여
Figure pat00014
를 도출하는 단계, 및 각 파티별로 도출한
Figure pat00015
를 서로 공유하는 단계를 포함하고, 여기에서, 1
Figure pat00016
의 자연수이고,
Figure pat00017
는 k번째 파티를 지칭하는 변수이고,
Figure pat00018
는 k번째 파티에 대한, i번째의 모델을 나타내는 파라메터 일 수 있다.
상기 손실값을 연산하는 단계는, 각 파티별로 제1 분할 세트를 기준으로 도출된 모델을 피팅하는 단계, 제1 분할 세트를 기준으로 피팅한 모델을 제2 분할 세트로 전달하는 단계, 및 제2 분할 세트의 손실값을 각 파티별로 연산하는 단계를 포함할 수 있다.
상기 각 파티별로 제1 분할 세트를 기준으로 도출된 모델을 피팅하는 단계는, 파티 별로 피팅된
Figure pat00019
를 도출하는 단계이고, 제1 분할 세트를 기준으로 피팅한 모델을 제2 분할 세트로 전달하는 단계는,
Figure pat00020
를 i에 대응하는 제2 분할 세트인
Figure pat00021
로 전달하는 단계이고, 제2 분할 세트의 손실값을 각 파티별로 연산하는 단계는
Figure pat00022
로 표현될 수 있다.
손실값 연산 함수는 로지스틱 회귀 함수일 수 있다.
손실값 연산 함수는 - ln L(p) =
Figure pat00023
로 표현되고, 여기서
Figure pat00024
일 수 있다.
상기 손실값의 역수를 기준으로 각 파티의 가중치를 연산은
Figure pat00025
를 통해 연산되고, 여기서
Figure pat00026
Figure pat00027
의 역수로 정의되며, 상기 통합 모델을 구축하는 단계는,
Figure pat00028
를 통해 연산되는 것일 수 있다.
상기 각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계는, 각 파티별로 이벤트 타임 데이터를 함께 생성하는 단계일 수 있다.
상기 각 파티별로 이벤트 타임 데이터의 생성은
Figure pat00029
로 표현되고,
Figure pat00030
는 특정 사이트에서의 이벤트의 개수를 나타낼 수 있다.
각 파티의 모델 파라메터를 공유하는 단계는, 각 파티별로 분할된 세트에서 추정한 파라메터 벡터값 및 이벤트 타임 데이터값을 서로 다른 분할된 세트로 보내어 공유하는 단계일 수 있다.
상기 손실값을 연산하는 단계는, 콕스 모델(Cox model)의 손실값 함수를 이용하여 연산하는 것일 수 있다.
상기 손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계 이후에, 각 파티의 이벤트 타임 데이터에 대해서 서바이벌 함수를 연산하는 단계를 더 포함할 수 있다.
상기 서바이벌 함수를 연산하는 단계 이후에 각 파티에 대해서 서바이벌 함수값을 더해서, 중앙 타임 포인트에서의 중앙 서바이벌값을 추정하는 단계를 더 포함할 수 있다.
Figure pat00031
에서 각 파티별
Figure pat00032
를 더해서 중앙 서바이벌값을 추정하는 것일 수 있다.
상기 중앙 서바이벌값을 추정하는 단계는, 이벤트 타임 데이터마다 복수 개의 통합 모델 파라메터를 바탕으로 중앙 서바이벌 값을 추정하고, 추정된 중앙 서바이벌 값의 추정치를 각 타임 포인트에서의 포인트 서바이벌 값을 추정하는 것일 수 있다.
또한, 본 발명은 컴퓨터인 하드웨어와 결합되어, 전술한 방법을 실행하기 위해 매체에 저장된, 가중치 기반 통합 프로그램을 제공할 수 있다.
본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명의 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법은, 환자 수준의 물리적 데이터를 공유하지 않고 개인정보 보호 하에서 예측 모델의 일반화를 구현하여 평균 예측 성능을 향상시킬 수 있다.
본 발명의 일 면에 따른 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법은, 기관 간의 반복적인 커뮤니케이션 없이도 다중 기관 데이터의 가중치 기반 통합 예측 모델을 구축할 수 있다.
본 발명의 일 면에 따른 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법은, 로지스틱스 회귀 모델을 적용하여 모든 데이터가 결합된 중앙 집중식 모델 수준의 타당성을 구현할 수 있다.
본 발명의 일 면에 따른 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법은, 서바이벌 함수를 이용하여 각 시간 포인트에서의 포인트 서바이벌 비율을 추정할 수 있다.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일면에 따른 가중치 기반 통합 방법을 통해 가중치 통합 모델을 도출하는 단계를 도시한 순서도이다.
도 2는 도 1에 따른 순서도를 구체화한 도면이다.
도 3은 본 발명의 일면에 따른 가중치 기반 통합 방법을 통해 중앙 서바이벌값을 추정하는 단계를 도시한 순서도이다.
도 4는 도 3에 따른 순서도를 구체화한 도면이다.
도 5는 반복회수에 따른 가중치값을 나타낸 그래프이다.
도 6은 동일한 데이터 특성 하에서, 데이터 사이즈에 따른 가중치 패턴의 변화를 도시한 그래프이다.
도 7은 동일한 데이터 특성 하에서, 중앙 데이터와의 부합정도에 따른 가중치 패턴의 변화를 도시한 그래프이다.
도 8은 각 기관별로 10개의 모델에 대한 가중치값을 예시적으로 나타낸 도면이다.
도 9는 로지스틱 회귀 모델에 대한 예측 정도를 비교도시한 그래프이다.
도 10은 10개의 모델, 가중치 통합 모델, 중앙화 모델의 외부 검증값을 비교도시한 그래프이다.
도 11은 로지스틱 회귀 모델을 적용한 모델에 대한 OR수치를 비교도시한 그래프이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하의 본 발명에 따른 가중치 기반 통합 방법은 서버와 같은 컴퓨터 장치를 통해 수행될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.
도 1은 본 발명의 일면에 따른 가중치 기반 통합 방법을 통해 가중치 통합 모델을 도출하는 단계를 도시한 순서도이다. 도 2는 도 1에 따른 순서도를 구체화한 도면이다.
도 1 및 2를 참조하면, 가중치 기반 통합 방법은 각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계(S100), 각 파티의 모델 파라메터를 공유하는 단계(S200), 각 파티의 분할된 데이터에 전체 파티 모델 파라메터를 바탕으로 손실값을 연산하는 단계(S300), 및 손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계(S400)를 포함한다.
각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계(S100)는 예측 모델을 추정하고 성능을 측정하기 위해 각 파티가 두 개의 분할 데이터 세트를 생성한다.
구체적으로는, 본 단계(S100)는 k번째 파티(크기를
Figure pat00033
라 할때)를 2개의 데이터 세트로 분할한다.
첫번째 분할 세트는
Figure pat00034
로 지칭되고, 크기를
Figure pat00035
를 가진다.
두번째 분할 세트는
Figure pat00036
로 지칭되고, 크기를
Figure pat00037
를 가진다.
Figure pat00038
은 예측 모델
Figure pat00039
를 추정하기 위해 이용될 수 있다.
Figure pat00040
Figure pat00041
으로부터 얻어진 예측 모델
Figure pat00042
를 추정하기 위해 이용될 수 있다.
데이터 세트 (
Figure pat00043
)는 각 파티
Figure pat00044
(여기에서 k는 파티의 번호를 지칭하는 숫자를 나타낸다)에 대해서 m번 반복해서 생성(여기서 m은 2이상의 자연수)될 수 있다.
m번 반복해서 생성된 데이터 세트를 지칭하기 위해 변수
Figure pat00045
를 정의할 때, 해당 범주를 만족한다(1
Figure pat00046
).
(
Figure pat00047
) 는 k번째 파티의 i번째 데이터 세트의 데이터를 나타낸다.
각 파티의 모델 파라메터를 공유하는 단계(S200)는 각 파티가 추정한 모델 파라메터가 서로 공유된다.
구체적으로는, K번째 파티인
Figure pat00048
Figure pat00049
번째 모델인
Figure pat00050
가 첫번째 분할 세트 데이터인
Figure pat00051
를 통해 추정된다. 그리고, 벡터 파라메터인
Figure pat00052
Figure pat00053
로부터 추정된다.
결과적으로 k개의 파티의 벡터 파라메터 세트
Figure pat00054
는 (
Figure pat00055
)를 통해 추정된다.
각 파티의 분할된 데이터에 전체 파티 모델 파라메터를 바탕으로 손실값을 연산하는 단계(S300)는 모델을 각 파티의 전체 데이터 세트에 피팅하여 각 파티의 모델에 대한 손실값을 계산하는 단계이다.
구체적으로는, 손실값을 연산하는 단계는, 각 파티별로 제1 분할 세트를 기준으로 도출된 모델을 피팅하는 단계, 제1 분할 세트를 기준으로 피팅한 모델을 제2 분할 세트로 전달하는 단계, 및 제2 분할 세트의 손실값을 각 파티별로 연산하는 단계를 포함할 수 있다.
상기 각 파티별로 제1 분할 세트를 기준으로 도출된 모델을 피팅하는 단계는, 파티 별로 피팅된
Figure pat00056
를 도출하는 단계이고, 제1 분할 세트를 기준으로 피팅한 모델을 제2 분할 세트로 전달하는 단계는,
Figure pat00057
를 i에 대응하는 제2 분할 세트인
Figure pat00058
로 전달하는 단계이고, 제2 분할 세트의 손실값을 각 파티별로 연산하는 단계는
Figure pat00059
로 표현될 수 있다.
손실값을 연산하는 것은 모델에 따라 다양한 함수가 적용될 수 있다.
예를 들어, 이진법 분류 모델에 있어서는 로지스틱 모델을 이용하여 손실값을 연산할 수 있다.
예를 들어, 로지스틱 모델은
Figure pat00060
에 따르는 것일 수 있다.
예를 들어, 로지스텍 모델을 따를 손실값 연산 함수는 -ln L(p) =
Figure pat00061
로 표현되고, 여기서
Figure pat00062
일 수 있고,
Figure pat00063
는 파라메터의 벡터이며,
Figure pat00064
는 i번째 환자의 특성을 나타내는 벡터이며,
Figure pat00065
는 i번째 환자의 바이너리 출력값일 수 있다.
손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계(S400)는
Figure pat00066
의 역수인
Figure pat00067
를 정의하여 가중치
Figure pat00068
를 정의할 수 있고, 통합 모델을 가중치를 통해 연산할 수 있다. 손실값의 역수를 기준으로 각 파티의 가중치를 연산은
Figure pat00069
를 통해 연산되고, 여기서
Figure pat00070
Figure pat00071
의 역수로 정의되며, 상기 통합 모델을 구축하는 단계는,
Figure pat00072
를 통해 연산되는 것일 수 있다.
이렇게 연산된 통합 모델의 가중치는 2가지 요소에 의해 결정될 수 있다. 첫번째는 파티의 데이터 크기로 중앙 데이터에 대한 데이터 사이즈의 비율에 해당한다. 두번째는 다른 파티에 대해서 파티 모델이 얼마나 잘 부합하는지 정도에 대한 것으로, 각 파티별로 형성한 모델이 다른 파티들에 대해서 얼마나 부합(fitting)되는지에 해당한다. 만일 k번째 파티의 데이터 크기가 매우 큰 경우, 전체 파티에 대한 데이터 크기
Figure pat00073
에 대한 데이터의 비율이 커지는 것이며, k번째 파티에 대한
Figure pat00074
값 즉 손실값은 작아진다. 이렇게 될 경우, 가중치 값
Figure pat00075
은 다른 파티 대비 커질 수 있다. 이의 의미는, 큰 데이터 세트를 가지는 파티의 가중치는 작은 데이터 세트를 가지는 파티의 가중치 대비 더 크다는 것을 의미한다.
도 3은 본 발명의 일면에 따른 가중치 기반 통합 방법을 통해 중앙 서바이벌값을 추정하는 단계를 도시한 순서도이다. 도 4는 도 3에 따른 순서도를 구체화한 도면이다.
도 3 및 4를 참조하면, 가중치 기반 통합 방법은 각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계(S110), 각 파티의 모델 파라메터를 공유하는 단계(S210), 각 파티의 분할된 데이터에 전체 파티 모델 파라메터를 바탕으로 손실값을 연산하는 단계(S310), 및 손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계(S410), 각 파티의 이벤트 타임 데이터에 대해서 서바이벌 함수를 연산하는 단계(S500), 각 파티에 대해서 서바이벌 함수값을 더해서, 중앙 타임 포인트에서의 중앙 서바이벌값을 추정하는 단계(S600)를 포함한다.
2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계(S110)는, 각 파티별로 이벤트 타임 데이터를 함께 생성하는 단계이다. 각 파티별로 이벤트 타임 데이터의 생성은
Figure pat00076
로 표현되고,
Figure pat00077
는 특정 사이트에서의 이벤트의 개수를 나타낼 수 있다.
각 파티의 모델 파라메터를 공유하는 단계(S210)는, 각 파티별로 분할된 세트에서 추정한 파라메터 벡터값 및 이벤트 타임 데이터값을 서로 다른 분할된 세트로 보내어 공유하는 단계일 수 있다.
예를 들어, 파티 A와 파티 B를 가정할 때, A의 m개
Figure pat00078
에서 추정한 m개의 (
Figure pat00079
)와
Figure pat00080
를 B에 보내고, B의 m개
Figure pat00081
에서 추정한 m개의 (
Figure pat00082
)와
Figure pat00083
를 A로 보낼 수 있다.
각 파티의 분할된 데이터에 전체 파티 모델 파라메터를 바탕으로 손실값을 연산하는 단계(S310)는 콕스 모델(Cox model)의 손실값 함수를 이용하여 연산하는 것일 수 있다. 예를 들어, 손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계 이후에, 각 파티의 이벤트 타임 데이터에 대해서 서바이벌 함수를 연산하는 단계를 더 포함할 수 있다.
손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계(S410)는 손실 값역수를 기준으로 각 파티 의 가중치를 계산하고, m개의 평균으로 최종 가중치 를 도출 후, 통합 모델을 구축하는 단계이다.
각 파티의 이벤트 타임 데이터
Figure pat00084
에 대해서 서바이벌 함수를 연산하는 단계(S500)는 각 파티별
Figure pat00085
를 연산할 수 있다.
각 파티에 대해서 서바이벌 함수값을 더해서, 중앙 타임 포인트에서의 중앙 서바이벌값을 추정하는 단계(S600)는
Figure pat00086
에서 각 파티별
Figure pat00087
를 더해서 중앙 서바이벌 값을 추정하고, 추정된 중앙 서바이벌 값의 추정치를 각 타임 포인트에서의 포인트 서바이벌 값을 추정하는 것일 수 있다.
예를 들어, 이벤트가 발생한 타임 포인트마다 복수 개(예를 들어, 200개 이상)의 통합 모델을 기반으로 복수 개의 중앙 서바이벌이 추정되고, 200개의 평균으로 포인트 서바이벌 값을 최종 추정할 수 있다.
도 5는 반복회수에 따른 가중치값을 나타낸 그래프이다. 3개의 파티를 대상으로 반복회수를 200,400,600,800 및 1000번으로 한 경우의 가중치 양상이 도시되었다. 수진 점선은 200번 반복한 경우를 나타내는 도시선이다.
일반적으로 반복회수가 200에 도달하는 경우에 가중치가 포화되는 양상을 보이고 있으므로, 연산의 효율성을 위해서는 200번 부근, 예를 들어, 170번 내지 230번을 반복하는 것이 효율적일 수 있으나 이에 한정되는 것은 아니다.
도 6은 동일한 데이터 특성 하에서, 데이터 사이즈에 따른 가중치 패턴의 변화를 도시한 그래프이다. 도 6에 도시된 바와 같이, 시나리오 1에 해당하는 C의 크기를 1000, 2000, 3000, 000, 5000으로 변화함에 따른 해당하는 파티 A, B, C에 대한 중앙 데이터의 부합 정도를 나타내고 있다.
도 7은 동일한 데이터 사이즈 하에서, 중앙 데이터와의 부합정도에 따른 가중치 패턴의 변화를 도시한 그래프이다. 시나리오 2에 해당하는 크기 1000에 해당하는 파티 A, B, C에 대한 중앙 데이터의 부합 정도를 나타낸 그래프이다.
도 8은 각 기관별로 10개의 모델에 대한 가중치값을 예시적으로 나타낸 도면이다. 병원 1번부터 10번 까지 200 번 반복한 경우의 손실값, 가중치, AUC 값, n값 등이 도시된다.
도 9는 로지스틱 회귀 모델에 대한 예측 정도를 비교도시한 그래프이다. 도 9를 참조하면 총 2,845개의 ICU모델 입원을 기준으로 한 중앙 집중식 LR 모델과 본 발명에 따른 가중치 통합 모델의 ROC 곡선, AUC 곡선 등을 통한 로지스틱 회귀 모델의 예측력이 비교된다.
도 10은 10개의 모델, 가중치 통합 모델, 중앙화 모델의 외부 검증값을 비교도시한 그래프이다.
도 10을 참조하면, 중앙 집중식 모델, WIM 및 각 병원의 10 개 모델에 대한 외부 검증의 AUC 결과 (오차 막대 : 95 % CI). 검은 색, 짙은 회색, 밝은 회색은 각각 WIM, 중앙 집중식 모델 및 각 병원의 10 개 모델을 나타낸다.
도 11은 로지스틱 회귀 모델을 적용한 모델에 대한 OR수치를 비교도시한 그래프이다. 도 11을 참조하면, 첫 번째 로지스틱 회귀 모델의 11 개 특성에 대한 추정 OR 및 95 % CI 비교 데이터가 도시된다.
본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.
이상, 첨부된 도면을 참조로 하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.

Claims (20)

  1. 서버에 의해 수행되는, 가중치 기반 통합 방법에 있어서,
    각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계;
    각 파티의 모델 파라메터를 공유하는 단계;
    각 파티의 분할된 데이터에 전체 파티 모델 파라메터를 바탕으로 손실값을 연산하는 단계; 및
    손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계;를 포함하는 가중치 기반 통합 방법.
  2. 제1 항에 있어서,
    각 파티별로 로지스틱 모델을 이용하여 파라메터 데이터를 생성하는 단계를 더 포함하는 가중치 기반 통합 방법.
  3. 제2 항에 있어서,
    상기 로지스틱 모델은
    Figure pat00088
    에 따르는 것인 가중치 기반 통합 방법.
  4. 제1 항에 있어서,
    상기 각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계는, (
    Figure pat00089
    )를 생성하는 단계로, 여기에서, 1
    Figure pat00090
    의 자연수이고,
    Figure pat00091
    는 k번째 파티를 지칭하는 변수이고,
    Figure pat00092
    Figure pat00093
    의 크기를 가지는 첫번째 분할 부분이고,
    Figure pat00094
    Figure pat00095
    의 크기를 가지는 두번째 분할 부분이며, x는 임의의 숫자인 가중치 기반 통합 방법.
  5. 제1 항에 있어서,
    각 파티의 모델 파라메터를 공유하는 단계는,
    각 파티별로 분할된 세트에서 추정한 파라메터 벡터값을 서로 다른 분할된 세트로 보내어 공유하는 단계인 가중치 기반 통합 방법.
  6. 제5 항에 있어서,
    각 파티의 모델 파라메터를 공유하는 단계는,
    Figure pat00096
    를 이용하여
    Figure pat00097
    를 추정하여 (
    Figure pat00098
    )를 도출하는 단계,
    Figure pat00099
    를 이용하여 파라메터 벡터
    Figure pat00100
    를 추정하여
    Figure pat00101
    를 도출하는 단계, 및
    각 파티별로 도출한
    Figure pat00102
    를 서로 공유하는 단계를 포함하고, 여기에서, 1
    Figure pat00103
    의 자연수이고,
    Figure pat00104
    는 k번째 파티를 지칭하는 변수이고,
    Figure pat00105
    는 k번째 파티에 대한, i번째의 모델을 나타내는 파라메터 인 가중치 기반 통합 방법.
  7. 제1 항에 있어서,
    상기 손실값을 연산하는 단계는,
    각 파티별로 제1 분할 세트를 기준으로 도출된 모델을 피팅하는 단계,
    제1 분할 세트를 기준으로 피팅한 모델을 제2 분할 세트로 전달하는 단계, 및
    제2 분할 세트의 손실값을 각 파티별로 연산하는 단계를 포함하는 가중치 기반 통합 방법.
  8. 제7 항에 있어서,
    상기 각 파티별로 제1 분할 세트를 기준으로 도출된 모델을 피팅하는 단계는, 파티 별로 피팅된
    Figure pat00106
    를 도출하는 단계이고,
    제1 분할 세트를 기준으로 피팅한 모델을 제2 분할 세트로 전달하는 단계는,
    Figure pat00107
    를 i에 대응하는 제2 분할 세트인
    Figure pat00108
    로 전달하는 단계이고,
    제2 분할 세트의 손실값을 각 파티별로 연산하는 단계는
    Figure pat00109
    로 표현되는 가중치 기반 통합 방법.
  9. 제8 항에 있어서,
    손실값 연산 함수는 로지스틱 회귀 함수인 가중치 기반 통합 방법.
  10. 제9 항에 있어서,
    손실값 연산 함수는 -ln L(p) =
    Figure pat00110
    로 표현되고, 여기서
    Figure pat00111
    인 가중치 기반 통합 방법.
  11. 제1 항에 있어서,
    상기 손실값의 역수를 기준으로 각 파티의 가중치를 연산은
    Figure pat00112
    를 통해 연산되고, 여기서
    Figure pat00113
    Figure pat00114
    의 역수로 정의되며,
    상기 통합 모델을 구축하는 단계는,
    Figure pat00115
    를 통해 연산되는 것인 가중치 기반 통합 방법.
  12. 제1 항에 있어서,
    상기 각 파티별로 데이터를 랜덤하게 2개로 분할한 세트를 m번(여기서 m은 2이상의 자연수) 생성하는 단계는,
    각 파티별로 이벤트 타임 데이터를 함께 생성하는 단계인 가중치 기반 통합 방법.
  13. 제12 항에 있어서,
    상기 각 파티별로 이벤트 타임 데이터의 생성은
    Figure pat00116
    로 표현되고,
    Figure pat00117
    는 특정 사이트에서의 이벤트의 개수를 나타내는 가중치 기반 통합 방법.
  14. 제12 항에 있어서,
    각 파티의 모델 파라메터를 공유하는 단계는,
    각 파티별로 분할된 세트에서 추정한 파라메터 벡터값 및 이벤트 타임 데이터값을 서로 다른 분할된 세트로 보내어 공유하는 단계인 가중치 기반 통합 방법.
  15. 제12 항에 있어서,
    상기 손실값을 연산하는 단계는, 콕스 모델(Cox model)의 손실값 함수를 이용하여 연산하는 것인 가중치 기반 통합 방법.
  16. 제12 항에 있어서,
    상기 손실값의 역수를 기준으로 각 파티의 가중치를 연산하여, 통합 모델을 구축하는 단계 이후에,
    각 파티의 이벤트 타임 데이터에 대해서 서바이벌 함수를 연산하는 단계를 더 포함하는 가중치 기반 통합 방법.
  17. 제16 항에 있어서,
    상기 서바이벌 함수를 연산하는 단계 이후에 각 파티에 대해서 서바이벌 함수값을 더해서, 중앙 타임 포인트에서의 중앙 서바이벌값을 추정하는 단계를 더 포함하는 가중치 기반 통합 방법.
  18. 제17 항에 있어서,
    Figure pat00118
    에서 각 파티별
    Figure pat00119
    를 더해서 중앙 서바이벌값을 추정하는 것인 가중치 기반 통합 방법.
  19. 제17 항에 있어서,
    상기 중앙 서바이벌값을 추정하는 단계는, 이벤트 타임 데이터마다 복수 개의 통합 모델 파라메터를 바탕으로 중앙 서바이벌 값을 추정하고, 추정된 중앙 서바이벌 값의 추정치를 각 타임 포인트에서의 포인트 서바이벌 값을 추정하는 것인 가중치 기반 통합 방법.
  20. 컴퓨터인 하드웨어와 결합되어, 제1항 내지 제19항 중 어느 한 항의 방법을 실행하기 위해 매체에 저장된, 가중치 기반 통합 프로그램.
KR1020210003233A 2021-01-11 2021-01-11 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법 KR102519218B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210003233A KR102519218B1 (ko) 2021-01-11 2021-01-11 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210003233A KR102519218B1 (ko) 2021-01-11 2021-01-11 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법

Publications (2)

Publication Number Publication Date
KR20220102166A true KR20220102166A (ko) 2022-07-20
KR102519218B1 KR102519218B1 (ko) 2023-04-07

Family

ID=82609156

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210003233A KR102519218B1 (ko) 2021-01-11 2021-01-11 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법

Country Status (1)

Country Link
KR (1) KR102519218B1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014146161A (ja) * 2013-01-29 2014-08-14 Toshiba Corp モデル推定装置およびその方法
KR101799823B1 (ko) 2015-08-12 2017-11-21 아주대학교산학협력단 다기관 의료 데이터 통합 분석을 위한 정규화 방법 및 그 시스템
KR20200105975A (ko) * 2017-07-11 2020-09-09 스월즈, 인크. 네트워크 내의 분산 데이터베이스를 효율적으로 구현하기 위한 방법들 및 장치
JP2020177429A (ja) * 2019-04-17 2020-10-29 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP2020537797A (ja) * 2017-10-02 2020-12-24 アイエムイーシー ブイゼットダブリュー セキュアなブローカーによって媒介されるデータ分析および予測

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014146161A (ja) * 2013-01-29 2014-08-14 Toshiba Corp モデル推定装置およびその方法
KR101799823B1 (ko) 2015-08-12 2017-11-21 아주대학교산학협력단 다기관 의료 데이터 통합 분석을 위한 정규화 방법 및 그 시스템
KR20200105975A (ko) * 2017-07-11 2020-09-09 스월즈, 인크. 네트워크 내의 분산 데이터베이스를 효율적으로 구현하기 위한 방법들 및 장치
JP2020537797A (ja) * 2017-10-02 2020-12-24 アイエムイーシー ブイゼットダブリュー セキュアなブローカーによって媒介されるデータ分析および予測
JP2020177429A (ja) * 2019-04-17 2020-10-29 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
KR102519218B1 (ko) 2023-04-07

Similar Documents

Publication Publication Date Title
US11586743B2 (en) Secure data processing
US11652497B2 (en) Neural network-based quantum error correction decoding method and apparatus, and chip
EP3566389B1 (en) Distributed privacy-preserving verifiable computation
Zheng Gradient descent algorithms for quantile regression with smooth approximation
Wang et al. Differentially private SGD with non-smooth losses
CN113822315A (zh) 属性图的处理方法、装置、电子设备及可读存储介质
Akter et al. Edge intelligence-based privacy protection framework for iot-based smart healthcare systems
Mazalov et al. A modified Myerson value for determining the centrality of graph vertices
Oh et al. Genetically optimized fuzzy polynomial neural networks with fuzzy set-based polynomial neurons
Fontenla-Romero et al. FedHEONN: Federated and homomorphically encrypted learning method for one-layer neural networks
KR20220102166A (ko) 물리적 데이터 공유 없이 수평분할 기반 중앙화 모델을 추정하기 위한 가중치 기반 통합 방법
CN114626511B (zh) 神经网络的训练方法、推理方法及相关产品
Dash DECPNN: A hybrid stock predictor model using Differential Evolution and Chebyshev Polynomial neural network
US20160292300A1 (en) System and method for fast network queries
Dhahri et al. Hierarchical learning algorithm for the beta basis function neural network
CN115081253A (zh) 数据处理方法以及装置
Menon et al. Proper loss functions for nonlinear hawkes processes
CN116633571A (zh) 基于同态加密以及无监督特征选择的隐私信息保护方法以及装置
Javaheripi et al. Swann: Small-world architecture for fast convergence of neural networks
TWI829558B (zh) 保護資料摘要的聯邦學習系統及其方法
Kodandaram Improving the Performance of Neural Networks
CN114491515B (zh) 基于节点匹配的对抗图生成方法、装置和计算机设备
US20240112054A1 (en) Quantum preprocessing method, device, storage medium and electronic device
EP4333356A1 (en) Optimizing a computer program for a table lookup operation
KR20240028896A (ko) 패턴 및 그룹에 기반한 분산 합의 시스템 및 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant