KR20210015527A - 의료 데이터 웨어하우스 실시간 자동 업데이트 시스템, 방법 및 이의 기록매체 - Google Patents

의료 데이터 웨어하우스 실시간 자동 업데이트 시스템, 방법 및 이의 기록매체 Download PDF

Info

Publication number
KR20210015527A
KR20210015527A KR1020190094533A KR20190094533A KR20210015527A KR 20210015527 A KR20210015527 A KR 20210015527A KR 1020190094533 A KR1020190094533 A KR 1020190094533A KR 20190094533 A KR20190094533 A KR 20190094533A KR 20210015527 A KR20210015527 A KR 20210015527A
Authority
KR
South Korea
Prior art keywords
data
server
date
cohort study
data source
Prior art date
Application number
KR1020190094533A
Other languages
English (en)
Other versions
KR102272401B1 (ko
Inventor
박근칠
Original Assignee
사회복지법인 삼성생명공익재단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 사회복지법인 삼성생명공익재단 filed Critical 사회복지법인 삼성생명공익재단
Priority to KR1020190094533A priority Critical patent/KR102272401B1/ko
Priority to PCT/KR2020/009998 priority patent/WO2021025365A2/ko
Publication of KR20210015527A publication Critical patent/KR20210015527A/ko
Application granted granted Critical
Publication of KR102272401B1 publication Critical patent/KR102272401B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

본 발명은 의료 데이터 웨어하우스를 실시간 자동 업데이트하는 시스템, 방법 및 이의 기록매체에 관한 것이다. 적어도 하나의 데이터 소스에 의해, 적어도 하나의 데이터를 수집하는 단계, 서버에 의해 적어도 하나의 데이터 소스로부터 적어도 하나의 데이터 중 코호트 연구 정보에 대응하는 기설정된 적어도 하나의 데이터를 추출하는 단계, 서버에 의해 추출된 적어도 하나의 데이터를 기초로 데이터 전처리를 수행하는 단계, 서버에 의해 전처리된 데이터를 분석하여 코호트 연구 정보를 획득하는 단계 및 서버에 의해 코호트 연구 정보를 데이터 웨어하우스에 업데이트하는 단계를 포함한다.

Description

의료 데이터 웨어하우스 실시간 자동 업데이트 시스템, 방법 및 이의 기록매체{Medical data warehouse real-time automatic update system, method and recording medium therefor}
본 발명은 의료 데이터 웨어하우스를 실시간 자동 업데이트하는 시스템, 방법 및 이의 기록매체에 관한 것이다.
폐암은 전 세계 암 관련 사망의 주요 원인 중 하나이다. 2012년 전 세계적으로 약 160만 명이 사망했고 그 수가 증가하고 있다. 우리나라에서 폐암은 남성에서 2번째로 흔한 암으로 여성에서 5번째이며, 최근 여성 폐암 환자가 증가하고 있고 전체 폐암 환자에서 5년 생존율은 26.7% 정도이다. 국가 차원에서 통계청 자료를 통하여 폐암의 발생률과 생존율에 대한 분석을 진행하고 있지만 폐암의 분자생리학적 특징이나 표적치료제, 면역 항암제를 비롯한 신약에 대한 치료 빈도와 반응에 대하여는 이러한 국가가 관리하는 빅데이터에서 포함되기는 어려운 상태이다. 따라서 폐암 환자의 생물학적 특징과 치료의 패턴과 결과는 각 기관별로 소규모의 후향적 코호트를 통한 자료의 수집에 불가한 실정이다. 이러한 후향적 데이터의 한계는 전체 폐암 환자를 포함하기 어렵고 특수한 목적에 의하여서만 수집된 자료여서 편향(bias)이 크고 실제 데이터를 업데이트하는 것이 물리적으로 불가능 하다는 한계가 있다.
한편, 다양한 분야에서 데이터를 관리하고 처리하기 위해 데이터베이스 시스템을 이용하는 것이 보편화되고, 기술의 발달로 데이터베이스에 저장하는 데이터의 양이 크게 증가하였다. 그래서 데이터베이스에 많은 양의 데이터를 효과적으로 저장하는 것도 중요하지만 사용자가 원하는 데이터를 빠르게 검색하여 제공하는 기능이 무엇보다 중요하게 되었다. 데이터베이스에 저장된 엄청난 양의 데이터를 분석하여 사용자에게 필요한 데이터를 효율적으로 추출하는 일은 결코 쉽지 않다.
이에 따라, 데이터베이스에 저장된 많은 데이터 중에서 의사 결정에 도움이 되는 데이터를 빠르고 정확히 추출할 수 있는 방법에 대한 연구가 많이 이루어졌다. 그 중 한 가지 방법이 데이터 웨어하우스다. 데이터 웨어하우스(data warehouse)는 데이터베이스 시스템에서 의사 결정에 필요한 데이터를 미리 추출하여, 이를 원하는 형태로 변환하고 통합한 읽기 전용의 데이터 저장소다. 데이터 웨어하우스는 데이터베이스 시스템 하나를 대상으로 할 수도 있고 여러 개를 대상으로 할 수도 있다.
CDW(clinical datawarehouse)는 병원 내에서 원무나 경영과 관련된 통계에 주로 사용이 되어 왔고 따라서 국내 여러 의료 기관에서도 CDW 시스템을 갖추고는 있지만 임상 데이터에서 이를 적용하는 데에는 한계가 있었다.
본 발명은 상술한 필요성에 따른 것으로, 종래의 수작업의 방식으로 진행되어 왔던 코호트(cohort)에 대한 연구를, 실시간 업데이트를 통하여 체계적이면서 지속적인 코호트를 구성할 수 있도록 운용되는 CDW(clinical datawarehouse) 시스템을 제공하는 것을 목적으로 한다.
구체적으로, CDW(clinical data warehouse)를 통하여 데이터가 실시간으로 업데이트되며, 필요한 데이터의 추출(data extraction)과 데이터 변환(data transformation), 데이터 클리어링(data clearing)과 데이터 구성(organization), SAS 프로그램을 이용한 데이터 분석까지 연결되는 데이터 관리 시스템을 구축하는 것을 목적으로 한다.
그러나 이러한 과제는 예시적인 것으로, 이에 의해 본 발명의 범위가 한정되는 것은 아니다.
본 발명의 일 실시 예에 따른 데이터 웨어하우스 자동 업데이트 방법은 적어도 하나의 데이터 소스에 의해, 적어도 하나의 데이터를 수집하는 단계; 서버에 의해, 상기 적어도 하나의 데이터 소스로부터 상기 적어도 하나의 데이터 중 코호트 연구 정보에 대응하는 기설정된 적어도 하나의 데이터를 추출하는 단계; 상기 서버에 의해, 상기 추출된 적어도 하나의 데이터를 기초로 데이터 전처리를 수행하는 단계; 상기 서버에 의해, 상기 전처리된 데이터를 분석하여 상기 코호트 연구 정보를 획득하는 단계; 및 상기 서버에 의해, 상기 코호트 연구 정보를 데이터 웨어하우스에 업데이트하는 단계;를 포함한다.
또한, 상기 코호트 연구 정보는 비소 세포 폐암(NSCLC)에 대한 무진행 생존 기간 또는 전체 생존 기간이고, 상기 적어도 하나의 데이터는 사망여부, 암 등록일자 및 NSCLC 진단일을 포함한다.
또한, 상기 코호트 연구 정보가 환자의 무진행 생존기간인 경우, 상기 적어도 하나의 데이터는 PFS 여부, PFS First Date, PFS Last Date를 포함하고, 상기 코호트 연구 정보가 환자의 전체 생존기간인 경우, 상기 적어도 하나의 데이터는 사망 여부, OS First date, OS Last date, OS1 및 OS2를 포함한다.
또한, 상기 적어도 하나의 데이터를 추출하는 단계는, 상기 적어도 하나의 데이터 소스 중 SQL(struectured query language)를 통해 상기 기설정된 적어도 하나의 데이터를 포함하는 데이터 소스를 판단하여 제공하고, 상기 데이터를 추출한다.
또한, 상기 적어도 하나의 데이터를 추출하는 단계는, 상기 적어도 하나의 데이터 소스 중 우선순위가 높은 데이터 소스 순서로 상기 데이터를 추출한다.
또한, 상기 데이터 소스는 EMR 시스템의 데이터 베이스이고, 상기 EMR 시스템의 데이터 베이스는 실시간으로 업데이트된다.
한편, 본 발명의 일 실시예에 따른 기록매체는 데이터 웨어하우스 자동 업데이트 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체일 수 있다.
전술한 것 외의 다른 측면, 특징, 이점은 이하의 발명을 실시하기 위한 구체적인 내용, 청구범위 및 도면으로부터 명확해질 것이다.
상기한 바와 같이 이루어진 본 발명의 일 실시예에 따르면, 기존의 단편적이며 수기로 기입하였던 코호트에서 체계화된 시스템 구축을 통하여 자동으로 업데이트 할 수 있는 코호트 시스템을 제공할 수 있다.
본 발명의 일 실시예에 따르면, CDW를 이용하여 실시간 업데이트 되는 코호트를 통해 임상 데이터의 관리 면에서 효율적이고, 임상 데이터를 통한 추가적인 연구들에 대한 백그라운드를 제공할 수 있다.
또한, 실제 임상에서 사용하는 EMR 시스템을 이용하여 자동으로 필요한 자료들이 업데이트 및 구성 되어 코호트의 CRF처럼 사용하는 것이 가능할 수 있다.
물론 이러한 효과에 의해 본 발명의 범위가 한정되는 것은 아니다.
도 1은 본 발명의 일 실시예예 따른 자동 업데이트 데이터 웨어하우스 시스템을 설명하기 위한 시스템도이다.
도 2는 본 발명의 일 실시예에 따른 서버(200)의 구성요소를 설명하기 위한 간단한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 ROOT 시스템(20)의 의료 데이터 웨어하우스 자동 업데이트 방법을 설명하기 위한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 구성화(organization )된 데이터를 도시한 테이블이다.
도 5는 본 발명의 일 실시예에 따른 코호트에 포함되어 있는 데이터를 추출한 것을 도시하는 테이블이다.
이하, 본 개시의 다양한 실시예가 첨부된 도면과 연관되어 기재된다. 본 개시의 다양한 실시예는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는바, 특정 실시예들이 도면에 예시되고 관련된 상세한 설명이 기재되어 있다. 그러나 이는 본 개시의 다양한 실시예를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 다양한 실시예의 사상 및 기술 범위에 포함되는 모든 변경 및/또는 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용되었다.
본 개시의 다양한 실시예에서 사용될 수 있는 "포함한다." 또는 "포함할 수 있다." 등의 표현은 개시(disclosure)된 해당 기능, 동작 또는 구성요소 등의 존재를 가리키며, 추가적인 하나 이상의 기능, 동작 또는 구성요소 등을 제한하지 않는다. 또한, 본 개시의 다양한 실시예에서, "포함하다." 또는 "가지다." 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 개시의 다양한 실시예에서 "또는" 등의 표현은 함께 나열된 단어들의 어떠한, 그리고 모든 조합을 포함한다. 예를 들어, "A 또는 B"는, A를 포함할 수도, B를 포함할 수도, 또는 A 와 B 모두를 포함할 수도 있다.
본 개시의 다양한 실시예에서 사용된 "제1", "제2", "첫째", 또는 "둘째" 등의 표현들은 다양한 실시예들의 다양한 구성요소들을 수식할 수 있지만, 해당 구성요소들을 한정하지 않는다. 예를 들어, 상기 표현들은 해당 구성요소들의 순서 및/또는 중요도 등을 한정하지 않는다. 상기 표현들은 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 수 있다. 예를 들어, 제1 사용자 기기와 제2 사용자 기기는 모두 사용자 기기이며, 서로 다른 사용자 기기를 나타낸다. 예를 들어, 본 개시의 다양한 실시예의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 새로운 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 새로운 다른 구성요소가 존재하지 않는 것으로 이해될 수 있어야 할 것이다.
본 개시의 실시 예에서 "모듈", "유닛", "부(part)" 등과 같은 용어는 적어도 하나의 기능이나 동작을 수행하는 구성요소를 지칭하기 위한 용어이며, 이러한 구성요소는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈", "유닛", "부(part)" 등은 각각이 개별적인 특정한 하드웨어로 구현될 필요가 있는 경우를 제외하고는, 적어도 하나의 모듈이나 칩으로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.
본 개시의 다양한 실시예에서 사용한 용어는 단지 특정일 실시예를 설명하기 위해 사용된 것으로, 본 개시의 다양한 실시예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 개시의 다양한 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.
일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 개시의 다양한 실시예에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하에서, 첨부된 도면을 이용하여 본 발명의 다양한 실시 예들에 대하여 구체적으로 설명한다.
도 1은 본 발명의 일 실시예예 따른 자동 업데이트 데이터 웨어하우스 시스템을 설명하기 위한 시스템도이다.
도 1을 참조하면, 본 발명의 시스템(10)은 적어도 하나의 데이터 소스(100)와, 서버(200) 및 CDW(300)를 포함하는 ROOT(Realtime autOmatically updated data warehOuse in healTh care) 시스템(20)을 포함할 수 있다.
이때, 데이터 소스(100)는 데이터베이스 1, 데이터베이스 2 내지 데이터베이스 n까지 복수의 데이터베이스를 포함할 수 있다. 이때, 본 발명의 일 실시예에 따른 데이터베이스는 EMR 시스템의 데이터베이스, 실험 결과(laboratory test) 데이터베이스, 분자 테스트를 포함하는 병리학적(Patholgy including molecular test) 데이터베이스 등을 포함할 수 있다. 데이터 소스가 EMR 시스템의 데이터 베이스인 경우, 데이터 베이스는 실시간으로 환자에 대한 진료 기록 등의 데이터가 업데이트 되는 것일 수 있다.
서버(200)는 ROOT(Realtime autOmatically updated data warehOuse in healTh care)를 이용하기 위한 서버일 수 있다. 다만, 이는 일 실시예에 불과하고, 본 발명의 서버(200)는 데이터 웨어하우스를 통합 관리하기 위한 모든 종류의 서버를 의미할 수 있다. 본 발명의 서버(200)는 복수의 데이터 소스로부터 추출하여 획득한 의료 데이터를 저장하고, 저장된 의료 데이터를 분석하여 목표하는 의료 결과를 산출할 수 있다.
CDW(300)는 데이터 웨어하우스, 구체적으로 의료 데이터 웨어하우스(Clinical Data Warehouse)일 수 있다. CDW(300)는 서버(200)가 획득한 의료 데이터 및 서버(200)가 산출한 결과를 저장할 수 있다.
한편, 본 발명의 일 실시예에 따른 서버(200)는 복수의 데이터 소스(100)로부터 특정한 목적을 도출하기 위한 데이터를 추출할 수 있다. 즉, 연구 목적에 따라 기설정된 데이터 종류에 대응하는 데이터를 복수의 데이터 소스로부터 추출할 수 있다. 이때, 서버(200)는 SQL(struectured query language)를 통해 기설정된 데이터 종류에 대응하는 데이터 소스를 탐색하고, 데이터를 추출할 수 있다.
예를 들어, 서버(200)는 복수의 데이터 소스(100) 중 폐암 환자의 코호트 연구를 위해 필요한 데이터인 환자데이터, 분자 병리학적 검사 결과 및 치료 결과 등의 데이터를 포함하는 데이터 소스를 탐색할 수 있고, 해당 데이터 소스로부터 데이터를 추출할 수 있다.
이때, 서버(200)는 필요한 데이터를 명시하고, 각각의 데이터(상술한 예에서는 환자데이터, 분자 병리학적 검사 결과 및 치료 결과 등)에 대한 내용을 정의할 수 있다.
서버(200)는 추출한 데이터를 기초로 데이터 변환(transformation) 및 데이터 구성(organization)을 수행할 수 있다. 또한, 구성된 데이터를 분석하여 상기 목적에 대응하는 결과를 산출할 수 있다.
구체적으로 서버(200)는 정의된 데이터의 내용을 기초로 코호트 연구를 위한 분석을 수행할 수 있다. 예를 들어, 서버(200)는 특정 알고리즘을 통해 전체 기간 생존율(OS, Overall Survival), 무진행 생존 기간(PFS, Progression Free Survival) 등을 산출할 수 있고, 산출된 결과를 실시간으로 CDW(300)에 업데이트할 수 있다.
도 2는 본 발명의 일 실시예에 따른 서버(200)의 구성요소를 설명하기 위한 간단한 블록도이다.
도 2를 참조하면, 서버(200)는 데이터 추출부(210), 데이터 전처리부(220) 및 데이터 분석부(230)를 포함할 수 있다.
데이터 추출부(210)는 복수의 데이터 소스(100)로부터 데이터를 추출하여 획득하기 위한 구성이다. 구체적으로 데이터 추출부(210)는 EMR과 같은 데이터베이스에서 데이터를 추출하기 위한 SQL(struectured query language) 를 사용하여 조건에 맞는 또는 목표로 하는 데이터를 획득할 수 있다.
데이터 전처리부(220)는 데이터 추출부(210)를 통해 획득한 데이터를 기초로 전처리를 수행할 수 있다.
예를 들어, 본 발명의 데이터 전처리부(220)는 획득한 데이터를 변환(transformation)하고, 구성(organization)할 수 있다. 구체적으로, 데이터 전처리부(220)는 변환(transformation)을 통해 계산 속도 증가 및 데이터의 분포도를 조정하여 편향(bias)을 저감할 수 있다.
데이터 분석부(230)는 추출 및 전처리된 데이터를 기초로 분석을 수행할 수 있다. 예를 들어 데이터 분석부(230)는 폐암환자에 대한 후향적 연구를 위한 코호트로부터 추출한 데이터를 기초로, 폐암환자에 대한 전체 생존 기간(overall survival)과 무진행 생존 기간(progression free survival) 등을 산출할 수 있다.
도 2에서는 도시하지 않았으나, 서버(200)는 프로세서, 메모리, 통신부와 같은 하드웨어 구성을 포함할 수 있다.
프로세서는 메모리에 저장된 각종 프로그램을 이용하여 서버(200)의 전반적인 동작을 제어한다. 본 발명의 일 실시 예에 따라, 프로세서는 디지털 신호를 처리하는 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor), TCON(Time controller)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다.
통신부는 다양한 유형의 통신방식에 따라 다양한 유형의 외부 장치와 통신을 수행하는 구성일 수 있다. 통신부는 와이파이칩, 블루투스 칩, 무선 통신 칩, NFC 칩 중 적어도 하나를 포함할 수 있다. 프로세서는 통신부를 이용하여 데이터 소스(100) 및 CDW(300)와 통신을 수행할 수 있다.
메모리는 프로세서의 처리 또는 제어를 위한 프로그램 등 서버(200)의 전반의 동작을 위한 다양한 데이터를 저장할 수 있다. 프로세서에 포함된 롬(ROM), 램(RAM) 등의 내부 메모리로 구현되거나, 프로세서와 별도의 메모리로 구현될 수도 있다.
한편, 도 2에서의 데이터 추출부(210), 데이터 전처리부(220) 및 데이터 분석부(230)는 메모리에 저장되어 프로세서에 의해 구동되는 별도의 소프트웨어 모듈을 통해 구현될 수 있다. 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 동작을 수행할 수 있다. 또한, 각각의 구성은 별도의 모듈로 구현될 수도 있고, 하나의 모듈로 구현된 것일 수도 있다. 서버(200)는 상술한 모듈 이외에도 다양한 계산을 수행하는 소프트웨어 모듈을 포함할 수 있음은 물론이다.
도 3은 본 발명의 일 실시예에 따른 ROOT 시스템(20)의 의료 데이터 웨어하우스 자동 업데이트 방법을 설명하기 위한 흐름도이다.
서버(200)는 복수의 데이터 소스(100), 예를 들어, EMR 시스템의 데이터베이스로부터 데이터를 추출할 수 있다(S310). 구체적으로 서버(200)는 치료 연구 대상에 대한 결과 값을 도출하기 위해 필요한 데이터를 SQL을 통해 복수의 데이터 소스(100)로부터 추출할 수 있다. 본 발명의 일 실시예에 따르면, 데이터 소스(100)는 Darwin-Med 및/또는 DBMS(Database management system, toad for Oracle V11.6)일 수 있으나, 이에 한정하지 않는다.
예를 들어, 폐암 환자의 치료 결과로 무진행 생존 기간(PFS), 전체 생존 기간(OS), 다음 치료까지의 기간(time to next treatment) 등과 같은 코호트 연구 정보를 산출하기 위해서 필요한 데이터를 복수의 데이터 소스(100)로부터 추출할 수 있다. 코호트 연구 정보가 전체 생존 기간(OS)인 경우, 서버(200)는 사망여부, 암 등록 일자, NSCLC 진단일 등을 데이터로 추출할 수 있다. 이때, 각각의 데이터를 포함하고 있는 데이터소스(100)는 다양할 수 있다.
본 발명의 일 실시예에 따른 서버(200)는 비소세포폐암(NSCLC, Non Small Cell Lung Cancer) 코호트 연구를 위한 데이터를 추출할 수 있는 프로그램을 저장할 수 있다. 이때, 프로그램은 Toad for Oracle V11.6을 이용하여 개발된 SQL(standard query language) 기반의 프로그램일 수 있으나 이에 한정하지 않는다.
상기 프로그램은 기설정된 변수들을 포함할 수 있고, 어떠한 데이터소스(100)로부터 데이터가 추출될지 또는 어떠한 데이터가 추출될지 설정될 수 있다. 본 발명의 일 실시예에 따르면, 서버(200)는 NSCLC 코호트 연구 정보에 대한 데이터를 저장하고 있는 데이터소스(100) 정보를 제공할 수 있다.
예를 들어, 무진행 생존 기간(PFS)에 대한 코호트 연구 정보를 획득하는 것을 목표로 하는 경우, 4기(stage IV) 비소세포폐암(NSCLC, Non Small Cell Lung Cancer) 환자들 중 항암 치료(anticancer treatment)를 수행한 환자들만을 대상으로 하며, 이때 NSCLC의 PFS를 산출하기 위한 데이터는 PFS 여부, PFS First Date, PFS Last Date일 수 있다. 서버(200)는 복수의 데이터 소스(100) 중에서 PFS 여부, PFS First Date, PFS Last Date를 저장하고 있는 데이터소스(100)가 무엇인지 제공할 수 있다. 이후, 서버(200)는 개발된 프로그램을 이용하여 Darwin-Med(Original data source)로부터 NSCLC 코호트 연구 정보에 대한 데이터(기(stage IV) 비소세포폐암(NSCLC, Non Small Cell Lung Cancer) 환자의 PFS 여부, PFS First Date, PFS Last Date)를 추출할 수 있다.
또 다른 예로, 서버(200)가 전체 생존기간(Overall survival)에 대한 코호트 분석 연구 정보를 획득하는 것을 목표로 하는 경우, 4기(stage IV) 비소세포폐암(NSCLC, Non Small Cell Lung Cancer) 환자들 중 항암 치료(anticancer treatment)를 수행한 환자들만을 대상으로 한다. 이때, NSCLC의 OS를 산출하기 위한 데이터는 사망 여부(0: Survival, 1: Death), OS First date(OS1, 암 등록 일자), OS First date(OS2, Recurrent or metastatic NSCLC 진단일) OS Last date(사망 환자: 사망일, 생존 환자: 마지막 F/U Date), OS1(OS1 First date~ OS Last date: 소수 첫째 자리), OS2(OS2 First date~ OS Last date: 소수 첫째 자리)를 포함할 수 있다. 따라서 서버(200)는 사망 여부, OS First date, OS Last date, OS2와 같은 데이터를 포함하는 데이터소스(100) 정보를 제공할 수 있고, 프로그램을 통해 상기 데이터소스(100)들로부터 데이터를 추출할 수 있다.
또 다른 예로, 서버(200)가 무재발 생존(Recurrence free survival)에 대한 코호트 분석 연구 정보를 획득하는 것을 목표로 하는 경우, 치료 여부 상관없이 Stage I/II/III 환자들만을 대상으로 한다. 이때, 필요한 데이터는 무재발 여부(0: No recurrence, 1: Recurrence, EMR : recur site, Image: recur site, Palliative aim 치료) RFS First date(RFS1, NSCLC 진단날짜), RFS First date(RFS2, NSCLC에서 Chemo or RT or surgery 치료 시작일), RFS Last date(Recur 날짜, EMR: recur site, Image: recur site, Palliative aim 치료), RFS 1(RFS Last date-RFS First date(RFS1)/30 : 소수 첫째 자리)를 포함한다. 단 초기(Initial) 치료가 palliative aim 치료 날이라면 RFS는 N/A가 되어야 하며, I/II/III 기 중 Initial treatment가 palliative aim의 치료라면 RFS는 Not assessed 가 되어야 한다. 따라서 서버(200)는 무재발 여부, RFS First date, RFS Last date, RFS 1 와 같은 데이터를 포함하는 데이터소스(100) 정보를 제공할 수 있고, 프로그램을 통해 상기 데이터소스(100)들로부터 데이터를 추출할 수 있다.
본 발명의 일 실시예에 따르면, 서버(200)는 데이터 추출에 있어서 데이터 소스(100) 각각에 우선순위를 부여하여 추출할 수 있다. 예를 들어, TNM(암의 진행 단계; Tumnor size, Lymph Node, Metastasis)에 대한 데이터를 추출함에 있어서, 서버(200)는 복수의 데이터 소스(100) 중 TS 폐암수술 TNM에 대한 데이터를 포함하는 데이터소스에 우선순위를 부여하여 데이터를 추출하고, 이후 상기 데이터와 연관된 자료 건수가 많은 데이터소스에 우선순위를 적용할 수 있다. 다만, 이는 일 예에 불과하고, 서버(200)는 TNM 작성 건수가 많은 데이터소스에 우선순위를 부여하여 데이터를 획득할 수 있다.
한편, 서버(200)는 복수의 데이터 소스로부터 추출한 데이터가 상이한 경우, 우선순위가 높은 데이터 소스에서 추출한 데이터를 우선하여 판단할 수 있다. 예를 들어, 복수의 데이터소스로부터 추출한 중복된 TNM 기록이 상이한 경우, 서버(200)는 우선순위가 높은 데이터 소스에서 획득한 TNM 기록을 우선하여 획득할 수 있다. 또한, 서버(200)는 동일한 데이터소스(100)에서도 특정한 기준에 따라 데이터에 우선순위를 부여하여 추출할 수 있다.
서버(200)는 상기와 같이 추출한 데이터에 대하여 변환(transformation), 구성화(organization), 클린징(cleansing) 및 클리어링(clearing)할 수 있다(S320).
서버(200)는 다양한 데이터소스로부터 추출된 다양한 형식의 텍스트 또는 숫자 데이터(numerical data)를 적합한 저장 포맷 및 저장 구조로 시스템적인 변환(transformation)을 수행할 수 있다.
또는, 서버(200)는 수술 정보에 대한 데이터를 아래 표 1과 같이 카테고리화하여 구성(organization)할 수 있다.
01.24 : Other craniotomy Brain tumor removal
01.59 : Other excision or destruction of lesion or tissue of brain Brain tumor removal
02.2 : Ventriculostomy VP Shunt
02.2S : Stereotactic ommaya reservoir insertion Omaya insertion
02.42 : Replacement of ventricular shunt VP Shunt
32.3 : Segmental resection of lung Segmentectomy
32.3RS : Segmental resection of lung, Robotic surgery Segmentectomy
32.4 : Lobectomy of lung Lobectomy
32.41 : Sleeve lobectomy of lung Lobectomy
32.4RS : Lobectomy of lung, Robotic Surgery Lobectomy
32.4RSF : Lobectomy of lung, Robotic Surgery, fail Lobectomy
32.5 : Complete pneumonectomy Pneumonectomy
32.51 : Sleeve complete pneumonectomy Pneumonectomy
서버(200)는 전처리가 수행된 데이터를 기초로 분석을 수행하여(S330), 목표 결과를 산출할 수 있다. 상술한 예시에서, 서버(200)는 환자의 PFS 여부, PFS First Date, PFS Last Date에 대한 데이터를 기초로 NSCLC의 FPS에 대한 분석 값을 결과로 출력할 수 있다.
이후, 서버(200)는 분석 결과 값을 CDW(300)에 실시간 업데이트할 수 있다(S340). 예를 들어, 서버(200)는 Darwin-Med와 같은 원본 데이터소스(original datasource)로부터 Toad for Oracle을 이용한 프로그램을 통해 추출한 데이터를 기초로 산출한 NSCLC의 FPS 값을 Darwin-CDW 데이터베이스, SAP HANA DB에 24시간 실시간으로 자동 업데이트할 수 있다.
도 4는 본 발명의 일 실시예에 따른 구성화(organization)된 데이터를 도시한 테이블이다.
본 발명의 기초가 된 코호트(cohort) 연구는 2008년 1월 1일부터 2017년 12월 31일까지 조직학적으로 확진된 폐암 환자 23735명을 대상으로 하였다. 본 발명의 일 실시예에 따른 서버(200)는 SQL을 이용하여 폐암 환자의 코호트 연구에서 필요한 임상 데이터들을 명시하고, 본 코호트의 목적인 폐암 환자의 기본 데이터와 분자 병리학적 검사 결과와 각 치료의 결과에 대한 내용을 정의하고, 데이터 추출을 할 수 있다.
이때 추출된 데이터의 종류는 3가지일 수 있다. 도 4 참조하면, 데이터 소스(100), 예를 들면 EMR 시스템 데이터베이스에서 그대로 추출(extraction)할 수 있는 베이직 데이터(basic data), 필요에 따라 명료화(clarification)와 변경(modification)이 필요한 정형 데이터(structured data), 검색어 등을 이용하고 여러 가지 데이터를 합성하여 데이터를 완성하여야 하는 비정형 데이터(unstructured data)로 3가지일 수 있다.
본 발명의 일 실시예에 따른 서버(200)는 추출된 데이터를 상술한 3가지의 분류에 따라 구성화(organization)할 수 있다. 예를 들어, 서버(200)는 나이, 성별, 생년월일과 같은 데이터는 베이직 데이터로, ECOG, p TNM과 같은 데이터는 정형 데이터로, 흡연력, NGS 데이터와 같은 데이터는 비정형 데이터로 분류할 수 있다.
한편, c TNM과 같은 경우, 수술 전 임상적 병기로써, 다양한 데이터 소스로부터 추출된 결과를 병합해야 하는 경우가 있다. 이에 따라, 서버(200)는 FIB 형식의 의료 기록은 정형 데이터로 분류하고, 이미지 영상, 의료 기록 텍스트는 비정형 데이터로 분류할 수 있다.
도 5는 본 발명의 일 실시예에 따른 코호트에 포함되어 있는 데이터를 추출한 것을 도시하는 테이블이다.
서버(200)는 1) 임상적 특징(clinical feature) 데이터, 2) 뇌(brain) 데이터, 3) 병리학적(pathology) 데이터, 4) 항암 화학요법(chemotherapy) 데이터 및 5)결과(outcome) 데이터를 추출할 수 있다.
1) 임상적 특징(clinical feature) 데이터는 나이(age) 데이터, 성별(Sex) 데이터, ECOG, 흡연력, TNM 데이터, 최초 전이점(initial meta site) 데이터, 초기 치료(initial treatment) 데이터 등을 포함할 수 있다.
나이 데이터는 IM 6 내원 시(또는 외래 입원) 데이터 또는 palliative setting chemotherapy 첫 시작 일시일 수 있다. ECOG, 가족력, 흡연력은 EMR 텍스트(IM6, RT, TS 초진 기록)를 기초로 데이터를 추출할 수 있다.
TNM 데이터의 데이터 소스는 병기 관리 의무기록, 병기 관리 암센터, Darwin-Med EMR일 수 있다. 이때, Darwin-Med EMR은 IM6 폐암 초진 기록, 공통 초진 기록, 항암 공통 기록, TS 수술기록, 폐암 수술기록, 일반 흉부 기록, RT 폐암 초진, 공통 초진, TS Clinical TNM 키워드, 첫 재진 기록에 대한 주관적 소견에 대한 텍스트 데이터와 진단명을 포함할 수 있다.
서버(200)의 데이터 추출부(210)는 각 데이터 소스(100) 별 TNM을 추출하기 위해 아래 표 2과 같은 약어를 통해 추출할 수 있다.
출처 약어
병기관리 -의무기록 01_SMR
병기관리 -암센터 02_SCC
TS 폐암수술 03_TLO
IM6 폐암초진 04_ILF
RT 폐암 초진 05_RLF
RT 공통초진 06_RGF
IM6 공통초진 07_ITF
TS 수술 08_TOP
IM6 폐암 첫 재진
IM6 항암 첫 재진
RT 폐암 첫 재진
TS 첫 재진
병기관리- 의무기록 BLANK 10_SMR_B
IM6 폐암 초진 BLANK 12_TLO_B
영상(Image) 13_IMG
본 발명의 일 실시예에 따른 서버(200)는 환자의 첫 치료가 수술인 경우, 복수의 데이터 소스(100) 중 TS 폐암수술 TNM을 포함하는 데이터 소스에 우선순위를 부여하여 데이터를 추출하고, 이후 자료 건수가 많은 데이터 소스에 우선순위를 적용할 수 있다. 이후 TNM 작성 건수가 많은 데이터를 포함하는 데이터 소스 순으로 우선순위를 부여하여 획득할 수 있다.
본 발명의 일 실시예에 따른 서버(200)는 환자의 첫 치료가 항암 화학요법인 경우, IM6 초진/첫 재진 TNM을 우선 추출하고, TNM 작성 건수가 많은 데이터 소스, TNM 작성 건수가 많은 데이터 소스 순서로 우선순위를 부여하여 데이터를 획득할 수 있다.
또한, 본 발명의 일 실시예에 따른 서버(200)는 중복되는 TNM가 존재하는 경우, 우선순위가 부여된 순서대로 신뢰성을 판단할 수 있다. 즉, 서버(200)는 복수의 데이터 소스로부터 추출한 중복된 TNM 기록이 상이한 경우, 우선순위가 높은 데이터 소스에서 획득한 TNM 기록을 우선하여 획득할 수 있다.
본 발명의 일 실시예에 따른 서버(200)는 데이터 소스(100)에서도 병기관리(의무기록,암센터) > TS 폐암수술 > 초진 > TS 수술 > 영상 순서로 데이터에 우선순위를 부여하여 추출할 수 있다.
한편, 본 발명의 일 실시예에 따른 서버(200)는 TNM에서 N만 있을 경우, Stage 분류 제외하도록 하되, N3만 Stage III로 분류할 수 있다. 서버(200)는 Clinical TNM이 없고 수술한 경우, pathology가 있으면, 통합 Clinical EMR column에도 적용할 수 있다.
본 발명의 일 실시예에 따른 서버(200)는 TNM이 없고, stage도 존재하지 않는 경우 Stage IV, M%만 있는 데이터를 재작업 하였을 때 Stage IV. 1(병기관리), 4.2(IM6 폐암 초진) 로 분류할 수 있다.
또한, 본 발명의 일 실시예에 따른 서버(200)의 데이터 전처리부(220)는 각각의 데이터 소스(100)에서 추출된 TNM을 통합하여 하나의 합성 TNM로 편집하여 획득할 수 있다.
2) 뇌(brain) 데이터는 초기 치료 및 중간 치료 데이터, SRS, WBRT, ITMTX, 개두술(craniotomy) 등에 대한 데이터 및 외부 실험 결과 등을 포함할 수 있다.
3) 병리학적(pathology) 데이터는 조직학적 분류(histologic type) 데이터, 분자학적(molecular) 데이터, 유전자분석기법(NGS) 데이터, 2차 생체검사(2-- nd biopsy) 데이터를 포함할 수 있다.
서버(200)는 암 등록 데이터(조직학적 코드) 및 외과 병리검사(등록일 전후 6개월 이내의 검사)를 데이터 소스로 조직학적 분류(histologic type) 데이터를 추출할 수 있다.
4) 항암 화학요법(chemotherapy) 데이터는 보조약물(adjuvant) 데이터, 신 보조약물(neoadjuvant) 데이터, 최종 처방(definitive) 데이터, 임시 처방(palliative) 데이터를 포함할 수 있다.
본 발명의 일 실시예에 따른 서버(200)는 혈액경과 요약지(Chemotherapy)에 대한 정보를 추출할 수 있다. 서버(200)는 레즈먼(Regimen) 데이터로 첫 투약 날짜, 마지막 투약날짜, 사이클 정보를 획득할 수 있다. 또는 서버(200)는 마지막 처방된 날짜에 처방일수를 합산할 수 있다.
이때, 사이클 정보는 먹는 약의 경우, 약 처방 개수/28 로 계산할 수 있고, 주사약의 경우 D8이나, D1-3 등의 특수 레즈먼 확인하여 예외 적용할 수 있다. 예외처리가 진행된 레즈먼은 해당 기한 안에 '동일 성분'의 IP가 투여될 경우 같은 사이클로 적용될 수 있다. (예외_9일: 9일 안의 중복 처방 무시, 해당 약물: Gemcitabine, Irinotecan, Vinorelbine, 5-FU, Etoposide)(예외_16일: 16일 안의 중복 처방 무시, 해당 레즈먼 : Weekly 레즈먼)
레즈먼 종류는 Adjuvant 레즈먼(12 개), Neoadjuvant 레즈먼(7개), Definitive 레즈먼(6개), Palliative 레즈먼(52개)일 수 있고, Clinical trial 레즈먼은 Neoadjuvant, Adjuvant, Palliative 목적에 따라 분류할 수 있다.
5) 결과(outcome) 데이터는 반응률(response rate), 무진행 생존기간(PFS), 전체 생존기간(OS)를 포함할 수 있다.
이외에도, 사망 데이터는 사망일 및 사망 사유를 포함하고, 데이터 출처는 통계청 데이터, 암 등록 데이터, 보험말소일 데이터 중 가장 빠른 날짜를 추출할 수 있다. 이때, 통계청 데이터는 2년마다 업데이트 되어 2년 이내 자료는 누락될 수 있다.
서버(200)는 EMR, 암 등록 정보 데이터베이스, Brain metastasis 추출 내용 (진단코드, 처치내역, 이미지)을 데이터 소스로 전이위치(Metastasis Site) 데이터를 추출할 수 있다.
이때, EMR 텍스트의 레퍼런스는 폐암 재진/RT 폐암 재진-주관적 소견, 진단명을 포함할 수 있고, meta 관련 키워드는 progression, mets, meta, recur, m/ 를 포함할 수 있다. 부위 관련 키워드는 아래 표 3과 같다.
Lung to lung lung
bone spine
skull
pelvis
rib
bone
liver liver
adrenal adrenal
brain brain
LMS
기타 Pleura
LN
서버(200)는 Stage 관련한 내용은 EMR 텍스트에 반영할 수 있고, 2개월 이내에 전이 텍스트 있는 대상자는 Stage IV로 변경할 수 있다.
본 발명의 일 실시예에 따른 서버(200)는 Brain meta 치료 첫 처방일(GKS, RT, IT-MTX, OP(CRA, VPS, OMA), EMR 상병 진단코드 (C79.3 뇌(막) 이차성 악성 신생물), 암 등록정보 센터-병기관리 뇌 전이정보 등록일, Image(Brain MRI) 진단 날짜를 데이터 소스로 하여 뇌 전이(Brain metastasis)의 진단날짜에 대한 데이터를 획득할 수 있다. 서버(200)는 Brain 암 등록 정보에서 Brain metastasis가 없는데 Brain 치료를 한 대상자는 진단이 누락이 된 것으로 판단할 수 있다.
본 발명의 일 실시예에 따른 서버(200)는 추가 보조데이터(Supportive care)를 획득할 수 있다. 예를 들면, 서버(200)는 Antiemetics, Opioid에 대한 데이터를 추출할 수 있다. 구체적으로 서버(200)는 투여 횟수, 누적 용량, 실제 투약 Y/N, 경구약 투여 용량 등에 대한 데이터를 획득할 수 있다.
한편, 상술한 본 발명의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치에 설치 가능한 어플리케이션 형태로 구현될 수 있다.
또한, 상술한 본 발명의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치에 대한 소프트웨어 업그레이드, 또는 하드웨어 업그레이드만으로도 구현될 수 있다.
또한, 상술한 본 발명의 다양한 실시예들은 전자 장치에 구비된 임베디드 서버, 또는 전자장치의 외부 서버를 통해 수행되는 것도 가능하다.
한편, 본 발명의 일 실시예에 따르면, 이상에서 설명된 다양한 실시예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록매체(computer readable recording medium)에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 일부 경우에 있어 본 명세서에서 설명되는 실시예들이 프로세서 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 동작을 수행할 수 있다.
한편, 컴퓨터(computer) 또는 이와 유사한 장치는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 장치를 포함할 수 있다. 상기 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 상기 프로세서의 제어 하에 다른 구성요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다.
기기로 읽을 수 있는 기록매체는, 비일시적 기록매체(non-transitory computer readable recording medium)의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다. 이때 비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.
이와 같이 본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 당해 기술분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 다른 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적 사상에 의하여 정해져야 할 것이다.
10: 시스템
20: ROOT 시스템
100: 데이터 소스
200: 서버
300: CDW

Claims (7)

  1. 적어도 하나의 데이터 소스에 의해, 적어도 하나의 데이터를 수집하는 단계;
    서버에 의해, 상기 적어도 하나의 데이터 소스로부터 상기 적어도 하나의 데이터 중 코호트 연구 정보에 대응하는 기설정된 적어도 하나의 데이터를 추출하는 단계;
    상기 서버에 의해, 상기 추출된 적어도 하나의 데이터를 기초로 데이터 전처리를 수행하는 단계;
    상기 서버에 의해, 상기 전처리된 데이터를 분석하여 상기 코호트 연구 정보를 획득하는 단계; 및
    상기 서버에 의해, 상기 코호트 연구 정보를 데이터 웨어하우스에 업데이트하는 단계;를 포함하는 데이터 웨어하우스 자동 업데이트 방법.
  2. 제1항에 있어서,
    상기 코호트 연구 정보는 비소 세포 폐암(NSCLC)에 대한 무진행 생존 기간 또는 전체 생존 기간이고,
    상기 적어도 하나의 데이터는 사망여부, 암 등록일자 및 NSCLC 진단일을 포함하는 데이터 웨어하우스 자동 업데이트 방법.
  3. 제2항에 있어서,
    상기 코호트 연구 정보가 환자의 무진행 생존기간인 경우, 상기 적어도 하나의 데이터는 PFS 여부, PFS First Date, PFS Last Date를 포함하고,
    상기 코호트 연구 정보가 환자의 전체 생존기간인 경우, 상기 적어도 하나의 데이터는 사망 여부, OS First date, OS Last date, OS1 및 OS2를 포함하는 데이터 웨어하우스 자동 업데이트 방법.
  4. 제1항에 있어서,
    상기 적어도 하나의 데이터를 추출하는 단계는,
    상기 적어도 하나의 데이터 소스 중 SQL(struectured query language)를 통해 상기 기설정된 적어도 하나의 데이터를 포함하는 데이터 소스를 판단하여 제공하고, 상기 데이터를 추출하는 데이터 웨어하우스 자동 업데이트 방법.
  5. 제1항에 있어서,
    상기 적어도 하나의 데이터를 추출하는 단계는,
    상기 적어도 하나의 데이터 소스 중 우선순위가 높은 데이터 소스 순서로 상기 데이터를 추출하는 데이터 웨어하우스 자동 업데이트 방법.
  6. 제1항에 있어서,
    상기 데이터 소스는 EMR 시스템의 데이터 베이스이고,
    상기 EMR 시스템의 데이터 베이스는 실시간으로 업데이트되는 데이터 웨어하우스 자동 업데이트 방법.
  7. 제1항 내지 제6항 중 어느 한 항의 데이터 웨어하우스 자동 업데이트 방법을 실행 시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020190094533A 2019-08-02 2019-08-02 의료 데이터 웨어하우스 실시간 자동 업데이트 시스템, 방법 및 이의 기록매체 KR102272401B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020190094533A KR102272401B1 (ko) 2019-08-02 2019-08-02 의료 데이터 웨어하우스 실시간 자동 업데이트 시스템, 방법 및 이의 기록매체
PCT/KR2020/009998 WO2021025365A2 (ko) 2019-08-02 2020-07-29 의료 데이터 웨어하우스 실시간 자동 업데이트 시스템, 방법 및 이의 기록매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190094533A KR102272401B1 (ko) 2019-08-02 2019-08-02 의료 데이터 웨어하우스 실시간 자동 업데이트 시스템, 방법 및 이의 기록매체

Publications (2)

Publication Number Publication Date
KR20210015527A true KR20210015527A (ko) 2021-02-10
KR102272401B1 KR102272401B1 (ko) 2021-07-02

Family

ID=74503181

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190094533A KR102272401B1 (ko) 2019-08-02 2019-08-02 의료 데이터 웨어하우스 실시간 자동 업데이트 시스템, 방법 및 이의 기록매체

Country Status (2)

Country Link
KR (1) KR102272401B1 (ko)
WO (1) WO2021025365A2 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070011183A1 (en) * 2005-07-05 2007-01-11 Justin Langseth Analysis and transformation tools for structured and unstructured data
KR20080002941A (ko) * 2005-04-20 2008-01-04 더 보잉 컴파니 적응형 데이터 크리닝 프로세스 및 시스템
KR20170089067A (ko) * 2016-01-25 2017-08-03 한국전자통신연구원 빅데이터 처리 시스템 및 처리 방법
KR20180026574A (ko) * 2013-10-08 2018-03-12 코타 인코포레이티드 임상 결과 추적 및 분석
KR101937434B1 (ko) * 2017-09-25 2019-01-10 천자혜 빅데이터 및 인공지능 기반 공공 주치의 서비스 제공 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11538561B2 (en) * 2010-09-01 2022-12-27 Apixio, Inc. Systems and methods for medical information data warehouse management
KR20170110244A (ko) * 2016-03-23 2017-10-11 황규민 다수의 의료기관간에 협업체계 구축을 위한 웹기반의 폐암환자 임상연구 데이터 관리시스템 및 그 제어방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080002941A (ko) * 2005-04-20 2008-01-04 더 보잉 컴파니 적응형 데이터 크리닝 프로세스 및 시스템
US20070011183A1 (en) * 2005-07-05 2007-01-11 Justin Langseth Analysis and transformation tools for structured and unstructured data
KR20180026574A (ko) * 2013-10-08 2018-03-12 코타 인코포레이티드 임상 결과 추적 및 분석
KR20170089067A (ko) * 2016-01-25 2017-08-03 한국전자통신연구원 빅데이터 처리 시스템 및 처리 방법
KR101937434B1 (ko) * 2017-09-25 2019-01-10 천자혜 빅데이터 및 인공지능 기반 공공 주치의 서비스 제공 방법

Also Published As

Publication number Publication date
WO2021025365A3 (ko) 2021-04-01
KR102272401B1 (ko) 2021-07-02
WO2021025365A2 (ko) 2021-02-11

Similar Documents

Publication Publication Date Title
CN111863267B (zh) 数据信息获取方法、数据分析方法、装置以及存储介质
Albertsen et al. 20-year outcomes following conservative management of clinically localized prostate cancer
Middlewood et al. Dying in hospital: medical failure or natural outcome?
CN111710420B (zh) 一种基于电子病历大数据的并发症发病风险预测方法、系统、终端以及存储介质
US20170286604A1 (en) Computer System and Information Processing Method
US8929625B2 (en) Method and device for side-effect prognosis and monitoring
WO2014196087A1 (ja) 診療プロセス分析システム
CN113539515A (zh) 临床需求挖掘方法、装置、电子设备和存储介质
JP2024028423A (ja) 被験者候補抽出方法および被験者候補抽出システム
Barshes et al. Minor amputation and palliative wound care as a strategy to avoid major amputation in patients with foot infections and severe peripheral arterial disease
Pecoraro et al. Designing ETL tools to feed a data warehouse based on electronic healthcare record infrastructure
Cao et al. Deep learning derived automated ASPECTS on non‐contrast CT scans of acute ischemic stroke patients
Sheta et al. Building a health care data warehouse for cancer diseases
Gurtner et al. A retrospective matched‐cohort study of 3994 lower extremity wounds of multiple etiologies across 644 institutions comparing a bioactive human skin allograft, TheraSkin, plus standard of care, to standard of care alone
Vahidnia et al. Cancer incidence and mortality in a cohort of US blood donors: a 20‐year study
KR102272401B1 (ko) 의료 데이터 웨어하우스 실시간 자동 업데이트 시스템, 방법 및 이의 기록매체
Fan et al. Application of three‐dimensional reconstruction of left upper lung lobes in anatomical segmental resection
JP6386956B2 (ja) データ作成支援システム、データ作成支援方法及びプログラム
US20040096896A1 (en) Pattern recognition of serum proteins for the diagnosis or treatment of physiologic conditions
Selcuk et al. Prognostic value of coronary dominance in patients undergoing elective coronary artery bypass surgery
Alnahhal et al. Median arcuate ligament syndrome: comparing the safety of open and laparoscopic management in a large cohort
Aragón-Sánchez et al. Prospective validation of the value of adding osteomyelitis to moderate and severe categories of diabetic foot infections
CN112259231A (zh) 一种高危胃肠间质瘤患者术后复发风险评估方法与系统
Shin-Woo et al. Clinical Characteristics and Outcomes of COVID-19 Cohort Patients in Daegu Metropolitan City Outbreak in 2020
Niazi et al. Advancing clinicopathologic diagnosis of high-risk neuroblastoma using computerized image analysis and proteomic profiling

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant