KR20210007547A - 자동 경계화를 이용한 데이터 처리 방법 및 시스템 - Google Patents

자동 경계화를 이용한 데이터 처리 방법 및 시스템 Download PDF

Info

Publication number
KR20210007547A
KR20210007547A KR1020190084214A KR20190084214A KR20210007547A KR 20210007547 A KR20210007547 A KR 20210007547A KR 1020190084214 A KR1020190084214 A KR 1020190084214A KR 20190084214 A KR20190084214 A KR 20190084214A KR 20210007547 A KR20210007547 A KR 20210007547A
Authority
KR
South Korea
Prior art keywords
data
data set
processing system
data processing
value
Prior art date
Application number
KR1020190084214A
Other languages
English (en)
Other versions
KR102261474B1 (ko
Inventor
김지은
강병일
이창대
조민아
Original Assignee
주식회사 젠큐릭스
주식회사 딥바이오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 젠큐릭스, 주식회사 딥바이오 filed Critical 주식회사 젠큐릭스
Priority to KR1020190084214A priority Critical patent/KR102261474B1/ko
Priority to CN202080050896.8A priority patent/CN114503205A/zh
Priority to JP2022501145A priority patent/JP7345811B2/ja
Priority to PCT/KR2020/009095 priority patent/WO2021010670A1/ko
Priority to EP20841170.2A priority patent/EP3985677A4/en
Priority to US17/626,795 priority patent/US20220277812A1/en
Publication of KR20210007547A publication Critical patent/KR20210007547A/ko
Application granted granted Critical
Publication of KR102261474B1 publication Critical patent/KR102261474B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Primary Health Care (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

기준이 되는 데이터 세트로부터 군집을 구분하기 위한 경계 값을 자동으로 산출하고 이를 이용하여 데이터를 처리하는 방법 및 이를 수행하는 시스템이 개시된다. 본 발명의 일 측면에 따르면, 데이터 처리 시스템이, 2 이상의 군집을 가지는 기준 데이터 세트에 포함된 다수의 개별 수치 값을 입력 받는 단계 상기 데이터 처리 시스템이, 입력 받은 상기 기준 데이터 세트에 포함된 각각의 수치 값에 기초하여 상기 기준 데이터 세트가 가지는 군집을 분할하기 위한 경계 값(threshold)을 산출하는 단계 및 상기 데이터 처리 시스템이, 적어도 하나의 분석 대상 데이터 세트 각각에 대하여, 다수의 개별 수치 값을 가지는 상기 분석 대상 데이터 세트를 상기 경계 값을 이용하여 서로 다른 군집으로 분할하는 단계를 포함하는 자동 경계화를 이용한 데이터 처리 방법이 제공된다.

Description

자동 경계화를 이용한 데이터 처리 방법 및 시스템{Method and system for processing data using auto-thresholding}
본 발명은 자동 경계화(auto-thresholding)을 이용한 데이터 처리 방법 및 이를 수행하는 데이터 처리 시스템에 관한 것이다. 보다 상세하게는 기준이 되는 데이터 세트로부터 군집을 구분하기 위한 경계 값을 자동으로 산출하고 이를 이용하여 데이터를 처리하는 방법 및 이를 수행하는 시스템에 관한 것이다.
많은 기술 또는 서비스 분야에서 다수의 데이터를 분석하고 활용하고 있다. 예컨대, 특정 의료데이터들을 분석하여 환자 별로 의약을 적용할지 말지 여부를 결정하거나, 개인에 특화된 치료법을 적용하는 등의 방식이 활발히 적용되고 있다.
도 1a는 소정의 표적항암제에 처방에 적합한 환자를 선별하기 위한 수단인 소정의 동반진단키트에서 활용되는 의료데이터의 일 예를 나타내고 있다.
도 1a는 일 실시 예로써, 폐암의 대표적인 바이오 마커인 EGFR 유전자의 exon 18, 19, 20, 21에 존재하는 돌연변이의 존재 여부를 알려주는 검사키트(예컨대, GenesWell™ ddEGFR Mutation Test)를 이용해서 얻어지는 의료데이터이며, 도 1b는 GenesWell™ ddEGFR Mutation Test의 검사 방법인 Droplet Digital™ PCR(ddPCR™)의 일 실험 데이터이다. 예를 들면, 이러한 의료데이터를 분석하여 수술 후 표적항암제 처방 전에 치료제에 효과를 보이는 환자를 선별하거나 돌연변이의 발현 여부를 판별하는데 이용될 수 있다. 하지만 본 발명의 기술적 사상은 이러한 실시 예에 국한되어 적용되는 것은 아니며, 다양한 데이터 분석에 이용될 수 있음은 물론이다.
한편 도 1a 및 도 1b에 도시된 바와 같은 그래프에서 x축은 각 의료 데이터의 이벤트 넘버이며, y축은 의료 데이터의 수치 값의 크기(Amplitude)이다. 각각의 점(spot)은 개별적인 의료 데이터를 나타낸다. 그리고 실시 예에서 의료 데이터들는 도 1a 및 도 1b에 도시된 바와 같이 좌표계에서 적어도 하나의 군집(예컨대, 도 1a에서는 3개의 군집)으로 군집화를 이루고 있을 수 있다.
이때 특정 데이터 군집에서의 군집을 구분하기 위한 경계 값(threshold) 또는 특정 군집의 종단지점(예를 들면, 첫 번째 군집인 최하단 데이터 군집에서 가장 상부에 존재하는 적어도 한 개의 개별 의료데이터(예를 들면, y축 값이 가장 큰 순서로 적어도 한 개) 또는 해당 의료데이터의 수치 값(y축 값))을 판단할 필요가 있을 수 있다. 하지만 각각의 개별 의료데이터만으로는 어떤 개별 의료데이터가 어떤 군집에 포함되는지 데이터 수치 값 또는 좌표계에서 표시된 좌표위치만으로는 알기가 어렵고, 특히 데이터 군집과 데이터 군집 사이에 다수의 개별 의료데이터가 존재하는 경우에는 이러한 어려움은 더욱 증대될 수 있다.
실제로 종래에는 도 1a 및 도 1b에 도시된 바와 같이 사람이 육안으로 좌표계에 표시된 개별 의료데이터를 확인하고, 임의로 경계 값 또는 종단지점(예컨대, 첫 번째(최하위) 군집에서의 상단지점)을 구분하기 위한 구분선(10 또는 11)을 긋는 작업 방식을 이용하고 있다.
하지만 이러한 경우 작업 수행자에 따라 경계 값 또는 종단지점이 달라질 수 있고, 정확도가 떨어질 수 있는 문제점이 있었다.
본 발명이 이루고자 하는 기술적인 과제는 2 이상의 군집을 가지는 기준이 되는 데이터 세트로부터 군집을 구분하기 위한 경계 값을 자동으로 산출하고 이를 이용하여 데이터를 처리하는 방법 및 이를 수행하는 시스템을 제공하는 것이다.
또한 2 이상의 데이터 군집이 존재하는 데이터 세트에서 신속히 특정 데이터 군집의 종단지점을 자동으로 탐색함으로써 상술한 경계 값을 효과적으로 산출할 수 있도록 하는 방법 및 시스템을 제공하는 것이다.
본 발명의 일 측면에 따르면, 데이터 처리 시스템이, 2 이상의 군집을 가지는 기준 데이터 세트에 포함된 다수의 개별 수치 값을 입력 받는 단계; 상기 데이터 처리 시스템이, 입력 받은 상기 기준 데이터 세트에 포함된 각각의 수치 값에 기초하여 상기 기준 데이터 세트가 가지는 군집을 분할하기 위한 경계 값(threshold)을 산출하는 단계; 및 상기 데이터 처리 시스템이, 적어도 하나의 분석 대상 데이터 세트 각각에 대하여, 다수의 개별 수치 값을 가지는 상기 분석 대상 데이터 세트를 상기 경계 값을 이용하여 서로 다른 군집으로 분할하는 단계를 포함하는 자동 경계화를 이용한 데이터 처리 방법이 제공된다.
일 실시예에서, 상기 자동 경계화를 이용한 데이터 처리 방법은, 상기 데이터 처리 시스템이, 입력 받은 상기 기준 데이터 세트에 포함된 각각의 수치 값에 기초하여 상기 기준 데이터 세트가 가지는 군집 중 평균 값이 가장 작은 군집의 기저선(baseline) 값을 산출하는 단계를 더 포함하되, 상기 데이터 처리 시스템이, 상기 다수의 개별 수치 값을 가지는 상기 분석 대상 데이터 세트를 상기 경계 값을 이용하여 서로 다른 군집으로 분할하는 단계는, 상기 데이터 처리 시스템이, 상기 분석 대상 데이터 세트에 포함된 각각의 수치 값에 기초하여 상기 분석 대상 데이터 세트가 가지는 군집 중 평균 값이 가장 작은 군집의 기저선 값을 산출하는 단계; 상기 데이터 처리 시스템이, 상기 기준 데이터 세트의 기저선 값과 상기 분석 대상 데이터 세트의 기저선 값의 차이에 기초하여 상기 경계 값을 보정한 보정 경계 값을 산출하는 단계; 및 상기 데이터 처리 시스템이, 상기 분석 대상 데이터 세트에 포함된 각각의 수치 값을 상기 보정 경계 값을 기준으로 구분하는 단계를 포함할 수 있다.
일 실시예에서, 상기 기준 데이터 세트 및 상기 적어도 하나의 분석 대상 데이터 세트에 포함된 각각의 수치 값은, 특정 돌연변이를 검출하기 위한 형광 시약이 첨가되고, 상기 특정 돌연변이에 상응하는 유전자 시퀀스에 대한 중합효소연쇄반응(polymerase chain reaction; PCR)이 수행된 각각의 액적(droplet)을 대상으로 하여 측정한 형광 신호의 크기 값인 것을 특징으로 할 수 있다.
일 실시예에서, 상기 데이터 처리 시스템이, 상기 입력 받은 상기 기준 데이터 세트에 포함된 각각의 수치 값에 기초하여 상기 기준 데이터 세트가 가지는 군집을 분할하기 위한 경계 값을 산출하는 단계는, 상기 데이터 처리 시스템이, 상기 기준 데이터 세트에 포함된 각각의 수치 값을 이용하여, 미리 정해진 빈 폭을 갖는 복수의 빈으로 구성된 히스토그램 데이터를 생성하는 단계; 상기 데이터 처리 시스템이, 상기 히스토그램 데이터의 각 빈들 중 미리 정해진 노이즈 기준치 이하의 도수를 가지는 빈의 도수가 0이 되도록 하는 노이즈 제거 과정을 수행하여 노이즈가 제거된 히스토그램 데이터를 생성하는 단계;상기 데이터 처리 시스템이, 상기 노이즈가 제거된 히스토그램 데이터에 기초하여 상기 기준 데이터 세트 내의 제1군집의 좌측 종단에 존재하는 제1목표 빈을 탐색하는 단계;상기 데이터 처리 시스템이, 상기 노이즈가 제거된 히스토그램 데이터에 기초하여 상기 기준 데이터 세트 내의 제2군집의 우측 종단에 존재하는 제2목표 빈을 탐색하는 단계; 상기 제1목표 빈 및 상기 제2목표 빈 사이의 수치 값 중 어느 하나인 상기 경계 값을 산출하는 단계를 포함할 수 있다.
일 실시예에서, 상기 데이터 처리 시스템이, 입력 받은 상기 각각의 수치 값을 이용해 미리 정해진 빈 폭을 갖는 복수의 빈으로 구성된 히스토그램 데이터를 생성하는 단계는, 상기 기준 데이터 세트에 포함된 각각의 수치 값 중 상위 일부 수치 값 및 하위 일부 수치 값을 제거한 수정 데이터 세트를 생성하는 단계; 및 상기 수정 데이터 세트에 포함된 각각의 수치 값을 이용하여 상기 히스토그램 데이터를 생성하는 단계를 포함할 수 있다.
일 실시예에서, 상기 데이터 처리 시스템이, 상기 입력 받은 상기 기준 데이터 세트에 포함된 각각의 수치 값에 기초하여 상기 기준 데이터 세트가 가지는 군집을 분할하기 위한 경계 값을 산출하는 단계는, a) 상기 데이터 처리 시스템이, 입력 받은 상기 각각의 수치 값을 이용해 상기 수치 값이 가질 수 있는 수치범위를 미리 정해진 빈 폭을 갖는 복수 개의 빈들로 분할하고, 분할된 빈들 각각에 해당하는 수치 값의 개수를 도수로 갖는 히스토그램 데이터를 생성하는 단계; b) 상기 데이터 처리 시스템이, 상기 히스토그램 데이터를 평활화하는 단계; c) 상기 데이터 처리 시스템이, 상기 평활화된 히스토그램 데이터를 차분하는 단계; d) 상기 데이터 처리 시스템이, 차분된 히스토그램 데이터에 기초하여 소정의 기준조건을 만족하며 상기 기준 데이터 세트 내의 제1군집의 좌측 종단에 존재하는 제1목표 빈을 탐색하는 단계; e) 상기 데이터 처리 시스템이, 차분된 히스토그램 데이터에 기초하여 상기 기준조건을 만족하며 상기 기준 데이터 세트 내의 제2군집의 우측 종단에 존재하는 제2목표 빈을 탐색하는 단계; f) 상기 데이터 처리 시스템이, 상기 제1목표 빈 및 상기 제2목표 빈 사이의 값 중 어느 하나인 상기 경계 값을 산출하는 단계를 포함할 수 있다.
일 실시예에서, 상기 자동 경계화를 이용한 데이터 처리 방법은, 상기 데이터 처리 시스템이, 미리 설정된 빈 폭을 이용하여 상기 기준조건을 만족하는 제1목표 빈 또는 제2목표 빈이 탐색되지 않는 경우, 상기 빈 폭을 일정 수치만큼 줄이는 단계; 및 상기 데이터 처리 시스템이, 줄어든 빈 폭을 이용하여 상기 a)단계 내지 e)단계를 재수행하는 단계를 더 포함할 수 있다.
일 실시예에서, 상기 데이터 처리 시스템이, 상기 입력 받은 상기 기준 데이터 세트에 포함된 각각의 수치 값에 기초하여 상기 기준 데이터 세트가 가지는 군집을 분할하기 위한 경계 값을 산출하는 단계는, a) 상기 데이터 처리 시스템이, 입력 받은 상기 각각의 수치 값을 이용해 상기 수치 값이 가질 수 있는 수치범위를 미리 정해진 빈 폭을 갖는 복수 개의 빈들로 분할하고, 분할된 빈들 각각에 해당하는 수치 값의 개수를 도수로 갖는 히스토그램 데이터를 생성하는 단계; b) 상기 데이터 처리 시스템이, 상기 히스토그램 데이터를 평활화하는 단계; c) 상기 데이터 처리 시스템이, 평활화된 히스토그램 데이터에 기초하여 소정의 기준조건을 만족하며 상기 기준 데이터 세트 내의 제1군집의 좌측 종단에 존재하는 제1목표 빈을 탐색하는 단계; d) 상기 데이터 처리 시스템이, 평활화된 히스토그램 데이터에 기초하여 상기 기준조건을 만족하며 상기 기준 데이터 세트 내의 제2군집의 우측 종단에 존재하는 제2목표 빈을 탐색하는 단계를 포함할 수 있다.
본 발명의 다른 일 측면에 따르면, 데이터 처리시스템에 설치되며 상술한 방법을 수행하기 위한 컴퓨터 프로그램이 제공된다.
본 발명의 다른 일 측면에 따르면, 상술한 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체가 제공된다.
본 발명의 다른 일 측면에 따르면, 2 이상의 군집을 가지는 기준 데이터 세트에 포함된 다수의 개별 수치 값을 입력 받는 입력모듈; 입력 받은 상기 기준 데이터 세트에 포함된 각각의 수치 값에 기초하여 상기 기준 데이터 세트가 가지는 군집을 분할하기 위한 경계 값을 산출하는 경계값 산출모듈; 및 적어도 하나의 분석 대상 데이터 세트 각각에 대하여, 다수의 개별 수치 값을 가지는 상기 분석 대상 데이터 세트를 상기 경계 값을 이용하여 서로 다른 군집으로 분할하는 처리모듈을 포함하는 자동 경계화를 이용한 데이터 처리 시스템이 제공된다.
일 실시예에서, 상기 자동 경계화를 이용한 데이터 처리 시스템은, 입력 받은 상기 기준 데이터 세트에 포함된 각각의 수치 값에 기초하여 상기 기준 데이터 세트가 가지는 군집 중 평균 값이 가장 작은 군집의 기저선 값을 산출하는 기저선값 산출모듈을 더 포함하되, 상기 처리모듈은, 상기 다수의 개별 수치 값을 가지는 상기 분석 대상 데이터 세트를 상기 경계 값을 이용하여 서로 다른 군집으로 분할하기 위하여, 상기 분석 대상 데이터 세트에 포함된 각각의 수치 값에 기초하여 상기 분석 대상 데이터 세트가 가지는 군집 중 평균 값이 가장 작은 군집의 기저선 값을 산출하고, 상기 기준 데이터 세트의 기저선 값과 상기 분석 대상 데이터 세트의 기저선 값의 차이에 기초하여 상기 경계 값을 보정한 보정 경계 값을 산출하고, 상기 분석 대상 데이터 세트에 포함된 각각의 수치 값을 상기 보정 경계 값을 기준으로 구분할 수 있다.
일 실시예에서, 상기 경계값 산출모듈은, 상기 기준 데이터 세트에 포함된 각각의 수치 값을 이용하여, 미리 정해진 빈 폭을 갖는 복수의 빈으로 구성된 히스토그램 데이터를 생성하고, 상기 히스토그램 데이터의 각 빈들 중 미리 정해진 노이즈 기준치 이하의 도수를 가지는 빈의 도수가 0이 되도록 하는 노이즈 제거 과정을 수행하여 노이즈가 제거된 히스토그램 데이터를 생성하고, 상기 노이즈가 제거된 히스토그램 데이터에 기초하여 상기 기준 데이터 세트 내의 제1군집의 좌측 종단에 존재하는 제1목표 빈을 탐색하고, 상기 노이즈가 제거된 히스토그램 데이터에 기초하여 상기 기준 데이터 세트 내의 제2군집의 우측 종단에 존재하는 제2목표 빈을 탐색하고, 상기 제1목표 빈 및 상기 제2목표 빈 사이의 수치 값 중 어느 하나인 상기 경계 값을 산출할 수 있다.
일 실시예에서, 상기 경계값 산출모듈은, 상기 히스토그램 데이터를 생성하기 위하여, 상기 기준 데이터 세트에 포함된 각각의 수치 값 중 상위 일부 수치 값 및 하위 일부 수치 값을 제거한 수정 데이터 세트를 생성하고, 상기 수정 데이터 세트에 포함된 각각의 수치 값을 이용하여 상기 히스토그램 데이터를 생성할 수 있다.
일 실시예에서, 상기 경계값 산출모듈은, 입력 받은 상기 각각의 수치 값을 이용해 상기 수치 값이 가질 수 있는 수치범위를 미리 정해진 빈 폭을 갖는 복수 개의 빈들로 분할하고, 분할된 빈들 각각에 해당하는 수치 값의 개수를 도수로 갖는 히스토그램 데이터를 생성하고, 상기 히스토그램 데이터를 평활화하고, 상기 평활화된 히스토그램 데이터를 차분하고, 차분된 히스토그램 데이터에 기초하여 소정의 기준조건을 만족하며 상기 기준 데이터 세트 내의 제1군집의 좌측 종단에 존재하는 제1목표 빈을 탐색하고, 상기 기준조건을 만족하며 상기 기준 데이터 세트 내의 제2군집의 우측 종단에 존재하는 제2목표 빈을 탐색하고, 상기 제1목표 빈 및 상기 제2목표 빈 사이의 값 중 어느 하나인 상기 경계 값을 산출할 수 있다.
일 실시예에서, 상기 경계값 산출모듈은, 미리 설정된 빈 폭을 이용하여 상기 기준조건을 만족하는 목표 빈이 탐색되지 않는 경우, 상기 빈 폭을 일정 수치만큼 줄이고, 줄어든 빈 폭을 이용하여 히스토그램 데이터를 재생성하고, 재생성된 히스토그램 데이터를 이용하여 특정 군집의 종단에 존재하는 목표 빈을 탐색할 수 있다.
일 실시예에서, 상기 경계값 산출모듈은, 입력 받은 상기 각각의 수치 값을 이용해 상기 수치 값이 가질 수 있는 수치범위를 미리 정해진 빈 폭을 갖는 복수 개의 빈들로 분할하고, 분할된 빈들 각각에 해당하는 수치 값의 개수를 도수로 갖는 히스토그램 데이터를 생성하고, 상기 히스토그램 데이터를 평활화하고, 평활화된 히스토그램 데이터에 기초하여 소정의 기준조건을 만족하며 상기 기준 데이터 세트 내의 제1군집의 좌측 종단에 존재하는 제1목표 빈을 탐색하고, 상기 기준조건을 만족하며 상기 기준 데이터 세트 내의 제2군집의 우측 종단에 존재하는 제2목표 빈을 탐색하고, 상기 제1목표 빈 및 상기 제2목표 빈 사이의 값 중 어느 하나인 상기 경계 값을 산출할 수 있다.
본 발명의 일 실시예에 의하면, 기준이 되는 데이터 세트를 통해 파악할 수 있는 군집 분할의 객관적인 기준을 다른 데이터 세트에 일관적으로 적용할 수 있게 되는 효과가 있다.
또한 다수의 개별 데이터들을 별도로 클러스터링 하지 않고도 개별 데이터들의 수치 값을 이용해 빠르게 특정 데이터 군집의 종단지점을 자동으로 탐색함으로써 군집 분할의 기준이 되는 경계 값을 효과적이고 신속하게 찾을 수 있게 되는 효과가 있다.
또한 본 발명의 일 실시예에 따른 방법 및 시스템을 의료 데이터에 적용할 경우 기존에 수동으로 수행하던 작업에 비해 일관성 있고 정확한 진단을 할 수 있게 되는 효과가 있다.
본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1a 및 도 1b는 본 발명의 기술적 사상이 적용될 수 있는 의료 데이터의 일 예를 도시한 도면이다.
도 2는 본 발명의 일 실시 예에 따른 자동 경계화를 이용한 데이터 처리 시스템의 개략적인 구성을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 자동 경계화를 이용한 데이터 처리 방법을 수행하는 과정을 도시한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 데이터 처리 시스템이 경계 값을 산출하는 과정의 일 예를 도시한 흐름도이다.
도 5a는 히스토그램 데이터의 일 예를 도시한 도면이며, 도 5b 및 도 5c는 각각 노이즈가 제거된 히스토그램 데이터의 일 예를 도시한 도면이다.
도 6a는 본 실시예에 따른 자동 경계화를 이용한 데이터 처리 방법에서 히스토그램을 생성하는 단계를 보다 상세하게 도시한 흐름도이며, 도 6b는 도 6a의 방법을 통해 생성된 히스토그램 데이터의 일 예를 도시한 도면이다.
도 7은 본 발명의 일 실시 예에 따른 특정 데이터 군집의 종단지점 탐색 방법을 개념적으로 설명하기 위한 도면이다.
도 8은 본 발명의 일 실시 예에 따른 특정 데이터 군집의 종단지점 탐색 방법을 설명하기 위한 흐름도를 나타낸다.
도 9는 본 발명의 일 실시예에 따른 데이터 처리 방법에 의해 산출된 경계 값을 기준으로 복수의 분석 대상 데이터 세트에 포함된 개별 데이터를 일괄적으로 분류하는 예를 도시한 도면이다.
도 10은 본 발명의 다른 일 실시예에 따른 자동 경계화를 이용한 데이터 처리 방법을 도시한 흐름도이다.
도 11은 복수의 분석 대상 데이터 세트에 대한 군집 분할에서 기저선 값에 따라 경계 값이 보정되는 예를 도시한 도면이다.
도 12는 본 발명의 일 실시예에 따른 자동 경계화를 이용한 데이터 처리 시스템의 개략적인 구성을 도시한 블록도이다.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 명세서에 있어서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 본 명세서에 있어서는 어느 하나의 구성요소가 다른 구성요소로 데이터를 '전송'하는 경우에는 상기 구성요소는 상기 다른 구성요소로 직접 상기 데이터를 전송할 수도 있고, 적어도 하나의 또 다른 구성요소를 통하여 상기 데이터를 상기 다른 구성요소로 전송할 수도 있는 것을 의미한다. 반대로 어느 하나의 구성요소가 다른 구성요소로 데이터를 '직접 전송'하는 경우에는 상기 구성요소에서 다른 구성요소를 통하지 않고 상기 다른 구성요소로 상기 데이터가 전송되는 것을 의미한다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시예들을 중심으로 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.
도 2는 본 발명의 일 실시 예에 따른 자동 경계화를 이용한 데이터 처리 시스템(이하, '데이터 처리 시스템'이라고 함)의 개략적인 구성을 설명하기 위한 도면이다.
도 2를 참조하면, 본 발명의 기술적 사상에 따른 데이터 처리 시스템 (100)은 프로세서(110) 및 메모리(120)를 포함한다.
상기 메모리(120)는 본 발명의 기술적 사상을 구현하기 위한 컴퓨터 프로그램(소프트웨어)를 저장할 수 있다.
상기 소프트웨어는 상기 프로세서(110)에 의해 구동되어 본 발명의 기술적 사상에 따른 자동 경계화를 이용한 데이터 처리 방법을 수행할 수 있다.
상기 데이터 처리 시스템(100)은 실시 예에 따라 소정의 주변장치(130)를 적어도 하나 포함할 수 있다. 상기 주변장치는 예컨대, 디스플레이장치, 스피커, 오디오/비디오 처리모듈, 외장메모리, 입출력장치, 통신장치 등 다양할 수 있다.
일 실시예에서 상기 데이터 처리 시스템(100)은 소정의 서버에 설치되어 본 발명의 기술적 사상을 구현할 수 있다. 서버는 본 발명의 기술적 사상을 구현하기 위한 연산능력을 가진 데이터 처리장치를 의미하며, 일반적으로 네트워크를 통해 클라이언트가 접속 가능한 데이터 처리장치뿐만 아니라 개인용 컴퓨터, 휴대 단말 등과 같이 특정 서비스를 수행할 수 있는 어떠한 장치도 서버로 정의될 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다. 즉, 상기 데이터 처리 시스템(100)은 컴퓨터, 서버, 모바일 폰 등 데이터 프로세싱 능력을 가지는 어떠한 컴퓨팅 시스템으로도 구현 가능할 수 있다.
상기 데이터 처리 시스템(100)은 도 2에서는 어느 하나의 물리적 장치로 구현된 것으로 도시하였지만, 필요에 따라 복수의 물리적 장치가 유기적으로 결합되어 본 발명의 기술적 사상에 따른 데이터 처리 시스템(100)을 구현할 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.
상기 데이터 처리 시스템(100)은 소정의 데이터 세트를 입력받을 수 있다. 상기 데이터 세트는 다수의 개별 데이터를 포함할 수 있다. 다수의 개별 데이터는 각각 소정의 값을 갖는다. 상기 값은 수치 값일 수 있다. 그리고 다수의 개별 데이터는 하나 또는 2 이상의 데이터 군집을 형성할 수 있다.
군집은 데이터 세트 내의 각 개별 데이터의 분포에 의해 결정될 수 있다. 예를 들어 데이터 세트 내에서 거리 값이 일정 수치 이하로 가까운 개별 데이터들이 군집을 형성할 수 있다. 또는 공통되거나 유사한 속성을 가지는 개별 데이터들이 전체 데이터 세트 내에서 하나의 군집을 형성할 수도 있다. 예를 들어, 전체 데이터 세트는 돌연변이의 발현에 상응하는 군집과 그렇지 않은(미발현) 군집, 특정 질병의 발현에 상응하는 군집과 그렇지 않은(미발현) 군집 등으로 구분될 수 있다.
상기 데이터 처리 시스템(100)은 기준이 되는 기준 데이터 세트를 분석하여 실제 분석의 대상이 될 다른 데이터 세트 내의 개별 데이터를 서로 다른 군집으로 구분할 수 있도록 하기 위한 경계 값을 산출할 수 있으며, 산출한 경계 값을 실제로 분석의 대상이 되는 다른 데이터 세트들에 적용하여 해당 데이터 세트 내의 개별 데이터를 서로 다른 군집으로 분류할 수 있다.
예를 들어 데이터 세트는 소정의 질병 혹은 돌연변이의 발현을 검출하기 위한 시료를 분석한 개별 데이터의 세트일 수 있다.
특히 일 실시예에서, 상기 데이터 세트는 특정 질병이나 돌연변이를 검출하기 위한 형광 시약(예를 들면, FAM probe 및/또는 HEX probe)이 첨가되고, 상기 특정 질병 혹은 돌연변이에 상응하는 유전자 시퀀스(예를 들면, DNA 및/또는 RNA)에 대한 중합효소연쇄반응(polymerase chain reaction; 이하, 'PCR'이라고 함)이 수행된 각각의 액적(droplet)을 대상으로 하여 측정한 형광 신호의 크기(amplitude) 값을 개별 데이터로서 가질 수 있다. 이때 기준 데이터 세트는 양성조절(positive control)을 위한 시료에 상응하는 데이터 세트이며, 분석 대상 데이터 세트는 개별 검진자로부터 추출한 유전자 시퀀스에 상응하는 데이터 세트일 수 있다.
예를 들어 데이터 세트는 Droplet Digital™ PCR 시스템의 출력 결과일 수 있다. Droplet Digital™ PCR System은 20ul의 PCR 반응을 약 2만개 액적 (droplet)으로 쪼개어 증폭시킨 후, 타겟 DNA를 계수하는 시스템이다. 개별 액적 에서의 타겟 DNA의 증폭 여부에 따라 양성 액적(positive droplet(1))과 음성 액적(negative droplet (0))으로 디지털 신호처럼 취급하여 계수하고, 프아송 분포를 통해 타겟 DNA의 카피를 계산해 최종적으로 샘플 ul당 카피수로 결과 값을 확인하는 시스템이다. Droplet Digital™ PCR은 분석하고자 하는 시료와 프로브(FAM, HEX/VIC)를 포함하는 PCR 반응액으로부터 오일막으로 구분되는 약 2만 개의 액적(droplet)을 생성하고, 생성된 액적(droplet)에 대해 PCR 반응을 진행하며, PCR 반응이 완료되면 액적 판독기(droplet reader)를 통해 각 액적의 형광 신호를 감지하여 양성 액적(positive droplet)과 음성 액적(negative droplet) 및 타겟 유전자의 카피 수를 계산하여 분석한다. 분석 결과는 수치 값을 가지는 데이터 리스트의 형태(예를 들면, .csv 포맷 등)로 출력된다.
본 발명의 기술적 사상에 따른 예시는 위와 같은 의료데이터일 수도 있지만, 본 발명의 권리범위는 이에 한정되지는 않으며 다양한 데이터에 활용될 수 있음은 물론이다.
상술한 바와 같이, 상기 데이터 처리 시스템(100)은 기준이 되는 기준 데이터 세트를 분석하여 실제 분석의 대상이 될 다른 데이터 세트 내의 개별 데이터를 서로 다른 군집으로 구분할 수 있도록 하기 위한 경계 값을 산출할 수 있으며, 산출한 경계 값을 실제로 분석의 대상이 되는 다른 데이터 세트들에 적용하여 해당 데이터 세트 내의 개별 데이터를 서로 다른 군집으로 분류할 수 있다. 데이터 세트가 Droplet Digital™ PCR에 의해 출력되는 수치 값의 리스트인 경우, 기준 데이터 세트는 양성조절(positive control) 시료에 대한 출력 결과일 수 있으며, 실제 분석 대상이 되는 데이터 세트는 실제 검진자로부터 추출한 유전자를 포함하는 시료에 대한 출력 결과일 수 있다.
이 경우 상기 데이터 처리 시스템(100)은 양성조절(positive control) 시료로부터 산출한 경계 값을 다수의 검진자에 대한 결과에 공통적으로 적용할 수 있으므로 다수의 검진자에 대한 진단 시에 일관성과 객관성을 확보할 수 있게 되는 효과가 있다.
한편 데이터 세트는 각각이 이벤트 넘버가 부여된 수치 값의 리스트의 형태일 수 있으며, .csv나 .xls 등 스프레드 시트나 .db 등 데이터베이스 파일의 형식으로 제공될 수 있다.
이하에서는 도 3을 참조하여 본 발명의 일 실시예에 따른 데이터 처리 시스템(100)이 자동 경계화를 이용한 데이터 처리 방법을 수행하는 과정에 관하여 보다 상세하게 설명하기로 한다.
도 3을 참조하면, 상기 데이터 처리 시스템(100)은 2 이상의 군집을 가지는 기준 데이터 세트에 포함된 다수의 개별 수치 값을 입력 받을 수 있다(S100). 상기 개별 데이터가 가질 수 있는 수치 값은 양의 실수 값일 수 있으며, 최대 값이 미리 정해질 수 있다. 일 실시예에서 상기 기준 데이터 세트는 상술한 바와 같이 양성조절 시료에 대한 시험 결과일 수 있다.
이후 상기 데이터 처리 시스템(100)은 입력 받은 상기 기준 데이터 세트에 포함된 각각의 수치 값에 기초하여 상기 기준 데이터 세트가 가지는 군집을 분할하기 위한 경계 값(threshold)을 산출할 수 있다(S110).
일 실시예에서 산출된 경계 값은 질병 혹은 돌연변이가 발현된 군집과 그렇지 않은 군집을 분류하기 위한 값일 수 있다.
S110 단계에서 경계 값을 산출하는 방법은 다양할 수 있다. 특히, 본 발명의 일 실시예에 따르면 상기 데이터 처리 시스템(100)은 경계 값을 산출하기 위하여, 입력된 데이터 세트를 이용해 히스토그램 데이터를 생성할 수 있으며 특정 군집의 종단 지점을 탐색/판단할 수 있다.
상기 히스토그램 데이터의 제1축(예를 들면, x축)은 각 빈의 계급을 나타내고, 제2축(예를 들면, y축)은 각 계급의 도수를 나타낼 수 있다. 즉, 상기 히스토그램 데이터는 상기 개별 데이터가 가질 수 있는 수치 값의 범위를 제1축(예를 들면, x축)의 도메인으로 하며, 이러한 제1축이 소정의 빈 폭을 갖는 복수의 빈(bin)들로 분할된 경우의 각각의 빈에 대한 정보를 포함할 수 있다. 각각의 빈에 대한 정보는 해당 빈의 제1축 값의 범위(또는 몇 번째 빈인지를 나타내는 빈의 인덱스) 및 해당 빈의 제2축(예를 들면, y축) 값을 가질 수 있다. 빈의 제2축 값은 제1축 값의 범위(즉, 상기 빈 폭만큼의 범위를 가지는 상기 개별 데이터의 수치 값)에 해당하는 개별 데이터의 개수일 수 있다.
한편, 특정 군집의 종단지점은 해당 군집의 좌측 종단지점 혹은 우측 종단지점일 수 있다.
좌측 종단지점은 상기 특정 군집에 포함된 개별 데이터 중 개별 데이터의 수치 값이 높은 순으로(예를 들면, 도 1a 또는 도 1b에서 y축 방향으로 위쪽) 첫 번째 개별 데이터의 수치 값(또는 상기 첫 번째 개별 데이터의 수치 값 직후의 수치 값의 범위) 또는 높은 순으로 몇 개의 개별 데이터가 갖는 수치 값의 범위(또는 상기 범위 직후의 수치 값의 범위)를 의미할 수 있다.
우측 종단지점은 상기 특정 군집에 포함된 개별 데이터 중 개별 데이터의 수치 값이 낮은 순으로(예를 들면, 도 1에서 y축 방향으로 아래쪽) 첫 번째 개별 데이터가 갖는 수치 값(또는 첫 번째 개별 데이터의 수치 값 보다 낮은 직전 수치 값의 범위) 또는 낮은 순으로 미리 정해진 개수(예를 들면, 2~3개)의 개별 데이터가 갖는 수치 값의 범위(또는 그 직전 수치 값의 범위)를 의미할 수 있다.
도 4는 본 발명의 일 실시예에 따른 데이터 처리 시스템(100)이 경계 값을 산출하는 과정의 일 예를 도시한 흐름도이다.
도 4를 참조하면, 데이터 처리 시스템(100)은 기준 데이터 세트에 포함된 각각의 수치 값을 이용하여, 미리 정해진 빈 폭을 갖는 복수의 빈으로 구성된 히스토그램 데이터를 생성할 수 있다(S111).
한편, 상기 데이터 처리 시스템(100)은 상기 히스토그램 데이터의 각 빈들 중 미리 정해진 노이즈 기준치 이하의 도수를 가지는 빈의 도수가 0이 되도록 하는 노이즈 제거 과정을 수행하여 노이즈가 제거된 히스토그램 데이터를 생성할 수 있다(S112).
이때, 노이즈 기준치는 실험 혹은 기타의 방법을 통해 미리 정해진 값일 수 있다.
이하에서는 히스토그램 데이터에서 노이즈를 제거하는 예에 대하여 도 5a 내지 도 5c를 참조하여 설명하기로 한다.
도 5a는 S111 단계에서 생성한 히스토그램 데이터의 일 예를 나타내는 도면이다. 즉, 상기 데이터 처리 시스템(100)은 도 5a에 도시된 바와 같은 히스토그램 데이터를 생성할 수 있다. 이때, 노이즈 기준치는 k로 정해져 있을 수 있다.
일 실시예에서, 상기 노이즈 제거 과정은 노이즈 기준치 이하의 도수를 가지는 빈의 도수를 0으로 설정하는 과정일 수 있다. 이러한 노이즈 제거 과정이 도 5a의 히스토그램 데이터에 대해 수행되고 난 후에 생성되는 노이즈가 제거된 히스토그램 데이터는 도 5b와 같을 수 있다.
한편, 다른 일 실시예에서, 상기 노이즈 제거 과정은 각 빈들의 도수에서 노이즈 기준치만큼을 뺀 후 0 미만의 도수를 가지는 빈의 도수 0으로 설정하는 과정일 수 있다. 이러한 노이즈 제거 과정이 도 5a의 히스토그램에 대해 수행되고 난 후에 생성되는 노이즈가 제거된 히스토그램 데이터는 도 5c와 같을 수 있다.
한편, 다시 도 4를 참조하면, 히스토그램에서 노이즈를 제거한 후 상기 데이터 처리 시스템(100)은 상기 노이즈가 제거된 히스토그램 데이터에 기초하여 상기 기준 데이터 세트 내의 제1군집의 좌측 종단에 존재하는 제1목표 빈을 탐색할 수 있다(S113). 상기 기준 데이터 세트 내의 제1군집은 상기 기준 데이터 세트가 가지는 군집 중 해당 군집 내의 수치 값의 평균이 가장 큰 군집일 수 있다.
상기 데이터 처리 시스템(100)은 상기 제1목표 빈 및 후술할 제2목표 빈을 탐색하기 위하여, 상기 노이즈가 제거된 히스토그램 데이터를 가장 큰 계급에 상응하는 빈으로부터 역순으로 각 빈을 탐색할 수 있다. 도 5c를 예로 들어 설명하면, 상기 데이터 처리 시스템(100)은 가장 큰 계급의 빈(1-1)을 제1군집의 우측 종단에 존재하는 빈으로 판단하고 역순(도 5c의 탐색방향(b))으로 각 빈들 탐색할 수 있으며, 해당 빈의 도수는 0보다 크면서 다음 빈의 도수가 0이 되는 빈(1-2)을 제1군집의 좌측 종단에 존재하는 빈(즉, 제1목표 빈)으로 판단할 수 있다. 또한 상기 데이터 처리 시스템(100)은 빈(1-2) 내지 빈(1-1)에 속하는 수치 값을 제1군집(1)으로 판단할 수 있다.
다시 도 4를 참조하면, 상기 데이터 처리 시스템(100)은 상기 노이즈가 제거된 히스토그램 데이터에 기초하여 상기 기준 데이터 세트 내의 제2군집의 우측 종단에 존재하는 제2목표 빈을 탐색할 수 있다(S114). 상기 기준 데이터 세트 내의 제2군집은 상기 기준 데이터 세트가 가지는 군집 중 해당 군집 내의 수치 값의 평균이 두 번째로 큰 군집일 수 있다.
도 5c를 예로 들어 설명하면, 상기 데이터 처리 시스템(100)은 상기 제1군집의 좌측 종단에 있는 제1목표 빈을 탐색한 후 계속 상기 노이즈가 제거된 히스토그램을 역순으로 탐색하고, 이전 빈의 도수가 0이며, 해당 빈의 도수가 0이 아닌 빈(2-1)을 제2군집의 우측 종단에 존재하는 제2목표 빈이라고 판단할 수 있다. 또한 상기 데이터 처리 시스템(100)은 해당 빈의 도수는 0이 아니면서 다음 빈의 도수가 0이 되는 빈(2-2)을 제2군집의 좌측 종단에 존재하는 빈을 탐색할 수 있으며 빈(2-2) 내지 빈(2-1)에 존재하는 수치 값을 제2군집(2)으로 판단할 수 있다.
제2군집의 좌측 종단에 존재하는 빈을 탐색한 이후 상기 데이터 처리 시스템(100)은 동일한 방법으로 제3군집의 우측 종단에 존재하는 빈(3-1)과 제3군집의 좌측 종단에 존재하는 빈(3-2)을 탐색하고 제3군집(3)을 판단할 수도 있다.
다시 도 4를 참조하면, 상기 데이터 처리 시스템(100)은 상기 제1목표 빈(예를 들면, 도 5c의 제1목표 빈(1-2) 및 상기 제2목표 빈(예를 들면, 도 5c의 제2목표 빈(2-1)) 사이의 값 중 어느 하나인 상기 경계 값을 산출할 수 있다(S115). 도 5c를 예로 들어 설명하면, 상기 데이터 처리 시스템(100)은 제2목표 빈(2-1)에 속할 수 있는 최대 값과 제1목표 빈(1-2)에 속할 수 있는 최소 값의 중간 값(T)을 경계 값으로 결정할 수 있다. 이 외에도 상기 상기 데이터 처리 시스템(100)은 상기 제1군집(1)과 제2군집(2)을 분할할 수 있도록 하는 임의의 값이 선정될 수 있도록 하는 다양한 방법으로 상기 경계 값을 선정할 수 있음은 물론이다.
또한 위의 예에서는 제1군집과 제2군집을 각각 해당 군집이 속하는 수치 값의 평균이 가장 큰 군집과 두 번째로 큰 군집으로 한 예를 설명하였으나, 이와 달리 제1군집은 해당 군집에 속하는 수치 값의 평균이 가장 작은 군집이며, 제2군집은 해당 군집에 속하는 수치 값의 평균이 두 번째로 큰 군집인 경우에도 본 발명의 기술적 사상은 적용될 수 있으며, 이 경우에는 상기 데이터 처리 시스템(100)은 노이즈가 제거된 히스토그램을 계급이 가장 작은 빈으로부터 순차적으로 탐색을 함으로써 각 군집의 좌/우측 종단을 판단할 수 있음을 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 자명하게 이해할 수 있을 것이다. 또한 상기 데이터 처리 시스템(100)은 제2군집과 제3군집을 분할할 수 있는 경계 값 역시 산출할 수도 있음은 물론이다.
한편, 본 발명의 다른 일 실시예에서는, 전체적인 연산 속도를 줄이기 위하여, 경계 값의 산출에 불필요할 것으로 간주되는 일부 수치 값을 제거한 후에 히스토그램을 생성할 수도 있는데, 이에 대하여 도 6을 참조하여 설명하기로 한다.
도 6a는 본 실시예에 따른 자동 경계화를 이용한 데이터 처리 방법에서 히스토그램을 생성하는 단계(즉, 도 4의 S111)를 보다 상세하게 도시한 흐름도이다.
도 6a을 참조하면, 상기 데이터 처리 시스템(100)은 히스토그램 데이터를 생성하기 위하여, 먼저 상기 기준 데이터 세트에 포함된 각각의 수치 값 중 상위 일부 수치 값 및 하위 일부 수치 값을 제거한 수정 데이터 세트를 생성할 수 있다(S1110). 예를 들어 상기 데이터 처리 시스템(100)은 최초의 기준 데이터 세트에 포함된 각각의 수치 값 중 상위 10% 및 하위 10%의 수치 값을 제거하여 수정 데이터 세트를 생성할 수 있다(S1120).
이후 상기 데이터 처리 시스템(100)은 상기 수정 데이터 세트에 포함된 각각의 수치 값을 이용하여 상기 히스토그램 데이터를 생성할 수 있는데, 수정 데이터 세트를 이용하여 생성된 히스토그램의 일 예가 도 6b에 도시되어 있다. 앞서 설명한 바와 같이, 도 5a는 최초의 기준 데이터 세트를 기준으로 생성된 히스토그램의 일 예를 나타내며 이와 도 6b의 히스토그램은, 도 5a와 비교하면, 좌/우측 빈들의 도수가 0이 된 것을 확인할 수 있다.
한편, 본 발명의 다른 실시 예에서는, 상기 히스토그램 데이터를 그대로 이용하는 것이 아니라, 평활화된 히스토그램 데이터 및/또는 평활화된 히스토그램 데이터를 차분한 히스토그램 데이터를 이용하여 목표 빈을 탐색할 수도 있다. 즉, 본 발명의 실시 예에서는 평활화된 히스토그램 데이터를 이용하여 목표 빈을 탐색할 수도 있고, 평활화된 히스토그램 데이터를 다시 차분화하여 차분한 히스토드램 데이터를 이용하여 목표 빈을 탐색할 수도 있다. 또한 차분화를 수행하는 경우에는 보다 직관적으로 히스토그램 데이터의 변곡점을 직관적으로 판단하기 용이한 효과가 있다.
도 7은 본 발명의 일 실시 예에 따른 특정 데이터 군집의 종단지점 탐색 방법을 개념적으로 설명하기 위한 도면이다. 도 7에서 기호 O는 데이터 세트에 포함된 개별 데이터의 원본을 나타내며, H는 히스토그램 데이터, S는 평활화된 히스토그램 데이터, D는 차분화된 히스토그램 데이터를 나타낸다. 또한, 도 8은 본 발명의 일 실시 예에 따른 특정 데이터 군집의 종단지점 탐색 방법을 설명하기 위한 플로우 차트를 나타낸다. 이하에서는 편의를 위하여 복수의 데이터 군집에서 수치 값이 낮은 순으로 첫 번째 데이터 군집의 상단지점(즉, 우측 종단지점)을 찾는 경우를 예시적으로 설명하고 있지만, 본 발명의 기술적 사상이 반드시 첫 번째 데이터 군집에 적용되어야 하거나 특정 데이터 군집의 상단지점을 탐색하는 데만 적용되는 것은 아니다. 예를 들면, 히스토그램 데이터를 이용하여 특정 군집의 종단지점을 탐색할 경우, 탐색방향(예컨대, 제1축의 수치 값이 낮은 빈에서 높은 빈 방향으로)에 따라 몇 번째(예를 들면, 2번째) 종단지점을 찾는지에 따라 임의의 데이터 군집(예를 들면, 2번째 데이터 군집)의 종단지점을 찾을 수 있다. 또한 탐색방향(예를 들면, 제1축의 수치 값이 높은 빈에서 낮은 빈 방향으로)에 따라 특정 데이터 군집의 상단지점이 아니라 하단지점(즉, 좌측 종단지점)을 찾을 수도 있다. 이하에서는 설명의 편의를 위해, 복수의 데이터 군집에서 수치 값이 낮은 순서로 첫 번째 데이터 군집의 상단지점을 찾는 경우를 일 예로 설명하지만 본 발명의 권리범위가 이에 한정되지는 않는다.
도 7은 마스크의 지름(즉, 파라미터의 수)이 3이고 단순히 파라미터의 값들이 각각 [-1. 0. 1]인 마스크로 평활화 및/또는 차분화를 수행할 경우의 예시적인 히스토그램 데이터를 도시하고 있지만, 평활화 마스크 및/또는 차분화 마스크의 지름과 파라미터 값 등은 다양해질 수 있음은 물론이다.
도 7 및 도 8을 참조하면, 상기 데이터 처리 시스템(100)이 입력받은 데이터 세트에 포함된 원본 개별 데이터(O)는 도 7에 도시된 바와 같이 양의 실수 값(예컨대, 1.23425, 2.13425, 4.23252, 3.13141, 1.14452 등)을 가질 수 있다. 이러한 양의 실수 값은 도 1a 또는 도 1b에 도시된 그래프에서 제2축(예를 들면, y축)에 상응하는 값일 수 있다.
앞서 설명한 바와 같이, 상기 데이터 처리 시스템(100)은 입력된 원본 개별 데이터(O)에 기초하여 히스토그램 데이터(H)를 생성할 수 있다(S300). 상기 히스토그램 데이터(H)는 개별 데이터가 가질 수 있는 수치 값의 범위를 일정 폭을 가지는 복수의 빈(bin)들(20)로 분할하고, 분할된 빈들 각각에 해당하는 수치 값을 갖는 개별 데이터의 개수가 각각의 빈들의 도수를 가지도록 생성되는 데이터일 수 있다. 이러한 히스토그램 데이터(H)를 도식화하면 도 7의 히스토그램 데이터(H)와 같을 수 있다.
도 7의 히스토그램 데이터(H)에서 도수를 갖는 빈들(21)은 어느 하나의 데이터 군집에 상응하는 히스토그램의 부분 영역일 수 있다.
따라서 상기 데이터 군집의 종단지점 즉, 상기 데이터 처리 시스템(100)이 탐색하고자 하는 목표 빈(30)은 도 7에 도시된 바와 같을 수 있다. 즉, 도 7에서는 마지막 개별 데이터 즉, 목표 빈(30)의 직전 빈(21-1)에 해당하는 개별 데이터의 수치 값 범위(즉, 상기 직전 빈(21-1)의 제1축 값의 범위)가 아니라 그 도수가 존재하는 상기 직전 빈(21-1) 직후의 빈을 목표 빈(30)으로 탐색하는 경우를 도시하고 있지만, 실시 예에 따라서는 상기 직전 빈(21-1)이 목표 빈이 될 수도 있음은 물론이다.
상기 데이터 처리 시스템(100)은 이러한 히스토그램 데이터(H)로부터 직접 목표 빈(30)을 탐색하는 것이 아니라, 상기 히스토그램 데이터(H)를 평활화 할 수 있다(S310).
그리고 평활화된 히스토그램 데이터(S)를 이용하여 상기 목표 빈(30)을 탐색할 수 있다(S340).
이처럼 평활화된 히스토그램 데이터(S)를 이용함으로써, 상기 도수를 갖는 일련의 빈들(21) 사이에 일시적으로 도수가 0인 빈(공백 빈이라 함)이 적어도 하나 존재하는 경우 즉, 탐색하고자 하는 데이터 군집에 해당하는 수치 값의 범위 중에서 개별 데이터가 존재하지 않는 일부 범위가 존재하는 경우, 이러한 공백 빈을 목표 빈으로 판단할지 또는 공백 빈으로 판단할 지가 불명확한 문제를 해결할 수 있다. 즉, 평활화된 히스토그램 데이터(S)를 이용하는 경우에는 원래의 히스토그램(H)에서는 공백 빈이라 하더라도 좌우의 도수에 따라 일정 값을 갖게 되어 도수가 0이 아니게 될 수 있기 때문에 평활화된 히스토그램 데이터(S)를 활용하는 것이 더욱 효과적일 수 있다.
이처럼 원본 히스토그램 데이터(H)를 평활화한 결과를 예시적으로 도시하면 도 7의 히스토그램(S)과 같을 수 있다.
히스토그램을 평활화하기 위한 평활화 마스크(또는 필터) 및/또는 차분 마스크는 널리 알려져 있다.
본 발명의 실시 예에서는 평활화 마스크 및/또는 차분 마스크는 컨볼루션 마스크를 이용할 수 있고, 소정의 숫자열 x와 콘볼루션 마스크 h는 다음과 같이 정의될 수 있다.
[수학식 1]
Figure pat00001
본 발명의 일 실시 예에서, 평활화 마스크 및 차분 마크의 일 예는 각각 [1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [-1, -1, -1, -1, 0, 1, 1, 1, 1]을 이용하였고, 또 다른 실시 예에서는 [1, 1, 1, 1, 1, 1, 1, 1, 1], [-1, -1, -1, -1, 0, 1, 1, 1, 1]을 이용하였다. 하지만 평활화 마스크 및 차분 마스크는 데이터 세트에 포함된 개별 데이터의 개수 및 군집도 등 데이터 세트의 특성에 따라 다양하게 설정될 수도 있다.
한편, 전술한 바와 같이 상기 데이터 처리 시스템(100)은 평활화된 히스토그램 데이터(S)를 이용하여 목표 빈(30)을 탐색할 수 있지만, 다른 케이스의 경우에는 평활화된 히스토그램 데이터(S)를 차분화함으로써 보다 명확하게 목표 빈(30)을 탐색할 수 있다.
어떤 경우에 평화화된 히스토그램 데이터(S)를 이용하여 목표 빈(30)을 탐색하고, 또 어떤 경우에 차분화된 히스토그램 데이터(D)를 이용하여 목표 빈(30)을 탐색할지는 데이터 세트의 특성에 따라 미리 결정되어 있을 수 있다. 데이터 세트의 특성은 데이터의 개수, 데이터의 밀집도, 데이터 군집의 개수를 포함하는 데이터 세트의 특성에 기초하여 결정될 수 있으며, 미리 수행되는 반복되는 실험을 통해 상기 특성이 어떤 범위에 들 경우에는 제1케이스 즉, 평활화 히스토그램 데이터(S)를 이용하여 목표 빈(30)을 탐색하고, 다른 제2케이스에는 차분화 히스토드램 데이터(D)를 이용하여 목표 빈(30)을 탐색하는 것으로 그 기준이 정해질 수도 있음은 물론이다.
물론 실시 예에 따라서는 랜덤하게 두 방식 중 어느 하나를 선택할 수도 있고, 구현 예에 따라서는 두 방식을 모두 이용하여 목표 빈(30)을 탐색하고 그 결과를 비교할 수도 있다.
만약 두 방식을 모두 이용하여 목표 빈(30)을 탐색하는 경우에는, 탐색된 목표 빈들 각각의 위치(제1축 값)가 동일하거나 또는 미리 정해진 위치(제1축값) 범위내인 경우 어느 하나의 방식으로 찾아진 목표 빈을 최종 목표 빈으로 결정할 수 있다.
따라서 상기 데이터 처리 시스템(100)은 입력되는 원본 개별 데이터(O)에 기초하여 제1케이스라고 판단한 경우(S130), 상술한 바와 같이 평활화된 히스토그램 데이터(S)를 이용하여 목표 빈(30)을 탐색할 수 있다(S340).
그리고 상기 데이터 처리 시스템(100)이 제2케이스라고 판단한 경우, 상기 데이터 처리 시스템(100)은 상기 평활화 된 히스토그램 데이터(S)를 다시 차분화할 수 있다(S330). 그러면 상기 데이터 처리 시스템(100)은 차분화한 히스토그램 데이터(D)를 이용하여 목표 빈(30)을 탐색할 수 있다(S340).
상기 데이터 처리 시스템(100)이 평활화된 히스토그램 데이터(S)로부터 목표 빈(30)을 탐색하는 경우의 일 예는 다음과 같을 수 있다.
예를 들면, 상기 데이터 처리 시스템(100)은 평활화된 히스토그램 데이터(S)에서 일정 방향(예컨대, 수치 값이 커지는 방향)으로 빈들 각각의 도수를 탐색할 수 있다.
그러면서 탐색하고 있는 현재 빈의 이전 도수가 컷오프 값(예를 들면, 0)이 아니면서 현재 도수가 컷오프 값(예를 들면, 0)이고 미리 정해진 개수(예를 들면, 1개 또는 2개 이상)의 다음 도수가 컷오프 값(예를 들면, 0)을 갖는 목표 빈(30)을 탐색할 수 있다.
이러한 경우 도 7에서 상기 목표 빈(30)이 현재 탐색되고 있는 현재 빈일 경우, 직전 빈(21-1)의 도수는 0이 아니고, 현재 빈의 도수는 0이면 미리 정해진 개수(예를 들면 2개)의 직후 빈들의 도수들은 0이므로 상기 현재 빈을 목표 빈(30)으로 결정할 수 있다.
컷 오프 값은 0일 수 있지만, 실시 예에 따라서는 1 등과 같이 작은 값을 가지도록 설정될 수도 있다. 이러한 경우는 탐색하는 종단지점은 데이터 군집에서 종단측에 개별 데이터가 1개 정도만 존재하는 수치 값을 찾는 알고리즘으로 정의될 수 있으며, 실시 예에 따라 컷오프 값은 다양하게 설정될 수 있다.
한편, 차분화된 히스토그램 데이터(D)로부터 목표 빈(30)을 탐색하는 경우의 일 예는 다음과 같을 수 있다.
예를 들면, 상기 데이터 처리 시스템(100)은 차분화된 히스토그램 데이터(D)에서 일정 방향(예를 들면, 수치 값이 커지는 방향)으로 빈들 각각의 도수를 탐색할 수 있다.
그러면서 탐색하고 있는 현재 빈이 목표 빈(30)이라면, 상기 현재 빈의 직전 빈(21-1)의 도수가 직후 빈(31)의 도수보다 작고, 상기 직전 빈(21-1)의 도수가 0보다 같거나 작고 상기 직후 빈(31)의 도수가 0보다 같거나 큰 경우를 갖는 경우가 탐색하고자 하는 목표 빈(30)일 수 있다. 즉, 도수가 음의 값에서 점점 작아지면서 0이 되는 영역에 해당하는 지점이 탐색하고자 하는 목표 빈(30)이 될 수 있다.
한편, 상술한 바와 같은 히스토그램 데이터를 생성할 때 빈 폭을 어떻게 설정하느냐에 따라 목표 빈(30)이 탐색되지 않을 수도 있다. 예컨대, 빈의 폭이 너무 큰 경우에는 탐색하고자 하는 데이터 군집과 그 다음 데이터 군집 사이에 개별 데이터가 다수 존재하고 상대적으로 밀집되어 있을 경우, 컷오프 값을 갖는 빈이 존재하지 않을 수도 있다. 그렇다고 너무 빈 폭을 좁히는 경우에는 하나의 데이터 군집 내에서도 컷오프 값을 갖는 빈이 다수 검출될 수 있는 문제점, 또는 빈의 개수가 많아져서 탐색시간이 오래 걸리는 문제점 등이 발생할 수 있다. 따라서 반복적인 실험을 통해 적절한 빈 폭을 미리 결정해두는 것이 필요할 수도 있다.
만약 이러한 빈 폭을 미리 결정해두는 것이 어려운 경우에는, 소정의 디폴트 빈 폭 값을 이용하여 탐색을 수행하고, 상술한 바와 같은 목표 빈이 탐색되지 않을 경우(즉, 탐색하고자 하는 목표 데이터 군집의 종단 빈과 상기 목표 데이터 군집에 이웃하는 데이터 군집의 상기 목표 데이터 군집 측 종단 빈 사이에 도수가 0인 빈이 존재하지 않을 정도로 빈 폭이 넓을 경우)에는 순차적으로 미리 정해진 단위 값만 큼 빈 폭을 좁혀가면서 좁혀진 빈 폭을 이용하여 다시 히스토그램 데이터를 생성할 수 있다. 그리고 다시 생성된 히스토그램 데이터를 이용하여 전술한 바와 같은 목표 빈 탐색과정(평활화된 히스토그램 데이터를 이용한 목표 빈 탐색 또는 차분화된 히스토그램 데이터를 이용한 목표 빈 탐색)을 수행할 수 있다.
상기 데이터 처리 시스템(100)은 도 7 내지 도 8을 참조하여 설명한 위 방법에 의해 각 군집의 좌측 종단지점 및 우측 종단지점을 판단할 수 있으며, 이를 이용하여 각 군집을 분할할 수 있는 경계 값을 산출할 수 있다.
한편, 다시 도 3을 참조하면, 상기 데이터 처리 시스템(100)은 상술한 바와 같은 방법에 의해 경계 값을 산출한 후에, 적어도 하나의 분석 대상 데이터 세트 각각에 대하여, 상기 분석 대상 데이터 세트를 상기 경계 값을 이용하여 서로 다른 군집으로 분할할 수 있다(S120, S130)
상기 적어도 하나의 분석 대상 데이터 세트는 모두 다수의 개별 데이터를 포함할 수 있으며, 각각의 개별 데이터는 수치 값을 가질 수 있다.
상기 분석 대상 데이터 세트는 상기 기준 데이터 세트와 동일한 방식의 시험 또는 실험에 의해 생성된 데이터일 수 있다. 만약 상기 기준 데이터 세트가 특정한 질병 또는 돌연변이의 발현 여부에 대한 양성조절(positive control) 시료로부터 측정된 데이터의 세트인 경우, 상기 적어도 하나의 분석 대상 데이터 세트는 그에 상응하는 분석 대상자로부터 추출한 생체 정보(예를 들면, 유전자 정보)를 포함하는 시료로부터 측정된 데이터의 세트일 수 있다.
도 9는 상술한 방법에 의해 산출된 경계 값을 기준으로 복수의 분석 대상 데이터 세트에 포함된 개별 데이터를 일괄적으로 분류하는 예를 도시한 도면이다.
도 9에 도시된 바와 같이, 분류의 기준이 되는 경계 값(12)이 산출된 후, 상기 데이터 처리 시스템(100)은 복수의 분석 대상 데이터 세트(A01, B01, …, H01)를 질병 또는 돌연변이가 발현된 것을 나타내는 데이터 군집(즉, 경계 값(12) 이상의 값을 가지는 군집) 및 그렇지 않은 군집(즉, 경계 값(12) 미만의 값을 가지는 군집)으로 일괄적으로 분류할 수 있다.
한편 복수의 분석 대상 데이터 세트는 실험 기기(예를 들면, Droplet Digital™ PCR 시스템) 자체에서 발생하는 오차 등으로 인하여 수치 값의 전체적인 변동(shift)가 발생할 수도 있다. 즉, 하나의 분석 대상 데이터 세트 내에서는 문제가 없으나, 다른 분석 대상 데이터 세트와의 관계에서 수치들이 전체적으로 수치 값이 증가하거나 감소하는 경우가 발생할 수 있다.
이를 위하여, 상기 데이터 처리 시스템(100)은 각 데이터 세트의 기저선(baseline) 값을 기준으로 전체적인 수치 값을 보정하는 과정을 더 수행하도록 구구현될 수도 있다. 이러한 실시예에 따른 자동 경계화를 이용한 데이터 처리 방법의 구체적인 예가 도 10에 도시되어 있다.
도 10을 참조하면, 상기 데이터 처리 시스템(100)은 기준 데이터 세트에 포함된 다수의 개별 수치 값을 입력 받을 수 있으며(200), 입력 받은 상기 기준 데이터 세트에 포함된 각각의 수치 값에 기초하여 상기 기준 데이터 세트가 가지는 군집을 분할하기 위한 경계 값을 산출할 수 있다(S210).
또한 상기 데이터 처리 시스템(100)은 입력 받은 상기 기준 데이터 세트에 포함된 각각의 수치 값에 기초하여 상기 기준 데이터 세트가 가지는 군집 중 평균 값이 가장 작은 군집의 기저선(baseline) 값을 산출할 수 있다(220).
일 실시예에서 상기 데이터 처리 시스템(100)은 상술한 특정 군집의 종단 지점 탐색 방법을 적용하여 기저선 값을 산출할 수 있다. 예를 들어, 상기 데이터 처리 시스템(100)은 특정 그룹(예를 들면 최하단 그룹)의 상단 지점 및 하단 지점을 탐색한 후 양 지점의 중간 값, 평균 값 또는 무게 중심 값을 기저선 값으로 산출할 수 있다.
한편, 상기 데이터 처리 시스템(100)은 상기 적어도 하나의 분석 대상 데이터 세트 각각에 대하여 도 10의 S240 내지 S260 단계를 수행할 수 있다(S230).
상기 데이터 처리 시스템은 각각의 분석 대상 데이터 세트 각각에 대하여, 상기 분석 대상 데이터 세트에 포함된 각각의 수치 값에 기초하여 상기 분석 대상 데이터 세트가 가지는 군집 중 평균 값이 가장 작은 군집의 기저선 값을 산출할 수 있다(S240).
또한 상기 데이터 처리 시스템(100)은 상기 기준 데이터 세트의 기저선 값과 상기 분석 대상 데이터 세트의 기저선 값의 차이에 기초하여 상기 경계 값을 보정한 보정 경계 값을 산출할 수 있다.
예를 들어 상기 데이터 처리 시스템(100)은 상기 경계 값을 상기 기준 데이터 세트의 기저선 값과 상기 분석 대상 데이터 세트의 기저선 값의 차이만큼 보정한 보정 경계 값을 산출할 수 있으며(S250), 상기 분석 대상 데이터 세트에 포함된 각각의 수치 값을 상기 보정 경계 값을 기준으로 구분할 수 있다(S260).한편, 실시예에 따라, 상기 데이터 처리 시스템(100)은 상기 기준 데이터 세트의 기저선 값과 상기 분석 대상 데이터 세트의 기저선 값의 차이가 일정 수준 이상인 경우에 한하여 상기 경계 값을 상기 기준 데이터 세트의 기저선 값과 상기 분석 대상 데이터 세트의 기저선 값의 차이만큼 보정한 보정 경계 값을 산출하고(S250), 상기 분석 대상 데이터 세트에 포함된 각각의 수치 값을 상기 보정 경계 값을 기준으로 구분할 수도 있다(S260).
도 11은 복수의 분석 대상 데이터 세트에 대한 군집 분할에서 기저선 값에 따라 경계 값이 보정되는 예를 도시한 도면이다. 도 11은 각각의 데이터 세트인 A01, B01, C01, …, H09에 대한 군집 분할 결과를 도시하고 있다.
도 11을 참조하면, 상기 데이터 처리 시스템(100)은 A05 데이터 세트를 제외한 나머지 데이터 세트에 대해서는 소정의 경계 값(13)을 기준으로 군집을 분할하지만, 기준 데이터 세트의 기저선 값과는 다른 기저선 값을 가지는 A05 데이터 세트에 대해서는 양자의 차이만큼 보정된 경계 값(14)을 기준으로 군집을 분할할 수 있다.
도 12는 본 발명의 실시 예에 따른 데이터 처리 시스템(100)의 논리적 구성을 설명하기 위한 도면이다.
도 12를 참조하면, 상기 데이터 처리 시스템(100)은 입력모듈(140), 경계값 산출모듈(150) 및 처리모듈(170)을 포함할 수 있다. 본 발명의 실시예에 따라서는, 상술한 구성요소들 중 일부 구성요소는 반드시 본 발명의 구현에 필수적으로 필요한 구성요소에 해당하지 않을 수도 있으며, 또한 실시예에 따라 상기 데이터 처리 시스템(100)은 이보다 더 많은 구성요소를 포함할 수도 있음은 물론이다. 예를 들어 상기 데이터 처리 시스템(100)은 기저선값 산출모듈(160) 및/또는 본 발명의 기술적 사상을 구현하기 위해 상기 데이터 처리 시스템(100)에 포함된 다른 구성(예를 들어, 상기 입력모듈(140), 경계값 산출모듈(150), 기저선값 산출모듈(160) 및 처리모듈(170) 등), 혹은 상기 데이터 처리 시스템(100)의 기능이나 리소스를 제어하기 위한 제어모듈(미도시)을 더 포함할 수 있다.
상기 데이터 처리 시스템(100)은 본 발명의 기술적 사상을 구현하기 위해 필요한 하드웨어 리소스(resource) 및/또는 소프트웨어를 구비한 논리적인 구성을 의미할 수 있으며, 반드시 하나의 물리적인 구성요소를 의미하거나 하나의 장치를 의미하는 것은 아니다. 즉, 상기 데이터 처리 시스템(100)은 본 발명의 기술적 사상을 구현하기 위해 구비되는 하드웨어 및/또는 소프트웨어의 논리적인 결합을 의미할 수 있으며, 필요한 경우에는 서로 이격된 장치에 설치되어 각각의 기능을 수행함으로써 본 발명의 기술적 사상을 구현하기 위한 논리적인 구성들의 집합으로 구현될 수도 있다. 또한, 상기 데이터 처리 시스템(100)은 본 발명의 기술적 사상을 구현하기 위한 각각의 기능 또는 역할별로 별도로 구현되는 구성들의 집합을 의미할 수도 있다. 예를 들어, 상기 입력모듈(140), 경계값 산출모듈(150), 기저선값 산출모듈(160) 및 처리모듈(170) 각각은 서로 다른 물리적 장치에 위치할 수도 있고, 동일한 물리적 장치에 위치할 수도 있다. 또한, 구현 예에 따라서는 상기 입력모듈(140), 경계값 산출모듈(150), 기저선값 산출모듈(160) 및 처리모듈(170) 각각을 구성하는 소프트웨어 및/또는 하드웨어의 결합 역시 서로 다른 물리적 장치에 위치하고, 서로 다른 물리적 장치에 위치한 구성들이 서로 유기적으로 결합되어 각각의 상기 모듈들을 구현할 수도 있다.
또한, 본 명세서에서 모듈이라 함은, 본 발명의 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예컨대, 상기 모듈은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스(resource)의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것은 아님은 본 발명의 기술분야의 평균적 전문가에게는 용이하게 추론될 수 있다.
도 8을 참조하면, 상기 입력모듈(140)은 2 이상의 군집을 가지는 데이터 세트(예를 들면, 양성 조절 에 상응하는 데이터 세트)에 포함된 다수의 개별 수치 값을 입력 받을 수 있다. 상기 입력모듈(140)은 기준 데이터 세트 및/또는 적어도 하나의 분석 대상 데이터 세트를 입력 받을 수 있다.
상기 경계값 산출모듈(150)은 입력 받은 상기 기준 데이터 세트에 포함된 각각의 수치 값에 기초하여 상기 기준 데이터 세트가 가지는 군집을 분할하기 위한 경계 값(threshold)을 산출할 수 있다. 상기 경계값 산출모듈(150)이 경계 값을 산출하는 다양한 방법에 대해서는 앞서 설명한 바와 같다.
상기 처리모듈(170)은 적어도 하나의 분석 대상 데이터 세트 각각에 대하여, 다수의 개별 수치 값을 가지는 상기 분석 대상 데이터 세트를 상기 경계 값을 이용하여 서로 다른 군집으로 분할할 수 있다.
한편, 일 실시예에서, 상기 데이터 처리 시스템(100)은 입력 받은 상기 기준 데이터 세트에 포함된 각각의 수치 값에 기초하여 상기 기준 데이터 세트가 가지는 군집 중 평균 값이 가장 작은 군집의 기저선(baseline) 값을 산출하는 기저선값 산출모듈(160)을 더 포함할 수 있으며, 이때, 상기 처리모듈(170)은 상기 다수의 개별 수치 값을 가지는 상기 분석 대상 데이터 세트를 상기 경계 값을 이용하여 서로 다른 군집으로 분할하기 위하여, 상기 분석 대상 데이터 세트에 포함된 각각의 수치 값에 기초하여 상기 분석 대상 데이터 세트가 가지는 군집 중 평균 값이 가장 작은 군집의 기저선 값을 산출하고, 상기 경계 값을 상기 기준 데이터 세트의 기저선 값과 상기 분석 대상 데이터 세트의 기저선 값의 차이만큼 보정한 보정 경계 값을 산출하고, 상기 분석 대상 데이터 세트에 포함된 각각의 수치 값을 상기 보정 경계 값을 기준으로 구분할 수 있다.
한편, 일 실시예에서, 상기 경계값 산출모듈(150)은 상술한 바와 같이 경계 값 산출을 위하여 특정 군집의 종단 지점을 탐색할 수 있다.
한편, 구현 예에 따라서, 상기 데이터 처리 시스템(100)은 프로세서 및 상기 프로세서에 의해 실행되는 프로그램을 저장하는 메모리를 포함할 수 있다. 상기 프로세서는 싱글 코어 CPU혹은 멀티 코어 CPU를 포함할 수 있다. 메모리는 고속 랜덤 액세스 메모리를 포함할 수 있고 하나 이상의 자기 디스크 저장 장치, 플래시 메모리 장치, 또는 기타 비휘발성 고체상태 메모리 장치와 같은 비휘발성 메모리를 포함할 수도 있다. 프로세서 및 기타 구성 요소에 의한 메모리로의 액세스는 메모리 컨트롤러에 의해 제어될 수 있다.
한편, 본 발명의 실시예에 따른 자동 경계화를 이용한 데이터 처리 방법은 컴퓨터가 읽을 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 읽을 수 있는 기록 매체에 저장될 수 있으며, 본 발명의 실시예에 따른 제어 프로그램 및 대상 프로그램도 컴퓨터로 판독 가능한 기록 매체에 저장될 수 있다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.
기록 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 소프트웨어 분야 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터로 읽을 수 있는 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 전자적으로 정보를 처리하는 장치, 예를 들어, 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타나며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (17)

  1. 데이터 처리 시스템이, 2 이상의 군집을 가지는 기준 데이터 세트에 포함된 다수의 개별 수치 값을 입력 받는 단계;
    상기 데이터 처리 시스템이, 입력 받은 상기 기준 데이터 세트에 포함된 각각의 수치 값에 기초하여 상기 기준 데이터 세트가 가지는 군집을 분할하기 위한 경계 값(threshold)을 산출하는 단계; 및
    상기 데이터 처리 시스템이, 적어도 하나의 분석 대상 데이터 세트 각각에 대하여, 다수의 개별 수치 값을 가지는 상기 분석 대상 데이터 세트를 상기 경계 값을 이용하여 서로 다른 군집으로 분할하는 단계를 포함하는 자동 경계화를 이용한 데이터 처리 방법.
  2. 제1항에 있어서, 상기 자동 경계화를 이용한 데이터 처리 방법은,
    상기 데이터 처리 시스템이, 입력 받은 상기 기준 데이터 세트에 포함된 각각의 수치 값에 기초하여 상기 기준 데이터 세트가 가지는 군집 중 평균 값이 가장 작은 군집의 기저선(baseline) 값을 산출하는 단계를 더 포함하되,
    상기 데이터 처리 시스템이, 상기 다수의 개별 수치 값을 가지는 상기 분석 대상 데이터 세트를 상기 경계 값을 이용하여 서로 다른 군집으로 분할하는 단계는,
    상기 데이터 처리 시스템이, 상기 분석 대상 데이터 세트에 포함된 각각의 수치 값에 기초하여 상기 분석 대상 데이터 세트가 가지는 군집 중 평균 값이 가장 작은 군집의 기저선 값을 산출하는 단계;
    상기 데이터 처리 시스템이, 상기 기준 데이터 세트의 기저선 값과 상기 분석 대상 데이터 세트의 기저선 값의 차이에 기초하여 상기 경계 값을 보정한 보정 경계 값을 산출하는 단계; 및
    상기 데이터 처리 시스템이, 상기 분석 대상 데이터 세트에 포함된 각각의 수치 값을 상기 보정 경계 값을 기준으로 구분하는 단계를 포함하는 자동 경계화를 이용한 데이터 처리 방법.
  3. 제1항에 있어서,
    상기 기준 데이터 세트 및 상기 적어도 하나의 분석 대상 데이터 세트에 포함된 각각의 수치 값은,
    특정 돌연변이를 검출하기 위한 형광 시약이 첨가되고, 상기 특정 돌연변이에 상응하는 유전자 시퀀스에 대한 중합효소연쇄반응(polymerase chain reaction; PCR)이 수행된 각각의 액적(droplet)을 대상으로 하여 측정한 형광 신호의 크기 값인 것을 특징으로 하는 자동 경계화를 이용한 데이터 처리 방법.
  4. 제1항에 있어서,
    상기 데이터 처리 시스템이, 상기 입력 받은 상기 기준 데이터 세트에 포함된 각각의 수치 값에 기초하여 상기 기준 데이터 세트가 가지는 군집을 분할하기 위한 경계 값을 산출하는 단계는,
    상기 데이터 처리 시스템이, 상기 기준 데이터 세트에 포함된 각각의 수치 값을 이용하여, 미리 정해진 빈 폭을 갖는 복수의 빈으로 구성된 히스토그램 데이터를 생성하는 단계;
    상기 데이터 처리 시스템이, 상기 히스토그램 데이터의 각 빈들 중 미리 정해진 노이즈 기준치 이하의 도수를 가지는 빈의 도수가 0이 되도록 하는 노이즈 제거 과정을 수행하여 노이즈가 제거된 히스토그램 데이터를 생성하는 단계;
    상기 데이터 처리 시스템이, 상기 노이즈가 제거된 히스토그램 데이터에 기초하여 상기 기준 데이터 세트 내의 제1군집의 좌측 종단에 존재하는 제1목표 빈을 탐색하는 단계;
    상기 데이터 처리 시스템이, 상기 노이즈가 제거된 히스토그램 데이터에 기초하여 상기 기준 데이터 세트 내의 제2군집의 우측 종단에 존재하는 제2목표 빈을 탐색하는 단계;
    상기 제1목표 빈 및 상기 제2목표 빈 사이의 수치 값 중 어느 하나인 상기 경계 값을 산출하는 단계를 포함하는 자동 경계화를 이용한 데이터 처리 방법.
  5. 제4항에 있어서,
    상기 데이터 처리 시스템이, 입력 받은 상기 각각의 수치 값을 이용해 미리 정해진 빈 폭을 갖는 복수의 빈으로 구성된 히스토그램 데이터를 생성하는 단계는,
    상기 기준 데이터 세트에 포함된 각각의 수치 값 중 상위 일부 수치 값 및 하위 일부 수치 값을 제거한 수정 데이터 세트를 생성하는 단계; 및
    상기 수정 데이터 세트에 포함된 각각의 수치 값을 이용하여 상기 히스토그램 데이터를 생성하는 단계를 포함하는 자동 경계화를 이용한 데이터 처리 방법.
  6. 제1항에 있어서,
    상기 데이터 처리 시스템이, 상기 입력 받은 상기 기준 데이터 세트에 포함된 각각의 수치 값에 기초하여 상기 기준 데이터 세트가 가지는 군집을 분할하기 위한 경계 값을 산출하는 단계는,
    a) 상기 데이터 처리 시스템이, 입력 받은 상기 각각의 수치 값을 이용해 상기 수치 값이 가질 수 있는 수치범위를 미리 정해진 빈 폭을 갖는 복수 개의 빈들로 분할하고, 분할된 빈들 각각에 해당하는 수치 값의 개수를 도수로 갖는 히스토그램 데이터를 생성하는 단계;
    b) 상기 데이터 처리 시스템이, 상기 히스토그램 데이터를 평활화하는 단계;
    c) 상기 데이터 처리 시스템이, 상기 평활화된 히스토그램 데이터를 차분하는 단계;
    d) 상기 데이터 처리 시스템이, 차분된 히스토그램 데이터에 기초하여 소정의 기준조건을 만족하며 상기 기준 데이터 세트 내의 제1군집의 좌측 종단에 존재하는 제1목표 빈을 탐색하는 단계;
    e) 상기 데이터 처리 시스템이, 차분된 히스토그램 데이터에 기초하여 상기 기준조건을 만족하며 상기 기준 데이터 세트 내의 제2군집의 우측 종단에 존재하는 제2목표 빈을 탐색하는 단계;
    f) 상기 데이터 처리 시스템이, 상기 제1목표 빈 및 상기 제2목표 빈 사이의 값 중 어느 하나인 상기 경계 값을 산출하는 단계를 포함하는 자동 경계화를 이용한 데이터 처리 방법.
  7. 제6항에 있어서,
    상기 자동 경계화를 이용한 데이터 처리 방법은,
    상기 데이터 처리 시스템이, 미리 설정된 빈 폭을 이용하여 상기 기준조건을 만족하는 제1목표 빈 또는 제2목표 빈이 탐색되지 않는 경우, 상기 빈 폭을 일정 수치만큼 줄이는 단계; 및
    상기 데이터 처리 시스템이, 줄어든 빈 폭을 이용하여 상기 a)단계 내지 e)단계를 재수행하는 단계를 더 포함하는 것을 특징으로 하는 자동 경계화를 이용한 데이터 처리 방법.
  8. 제1항에 있어서,
    상기 데이터 처리 시스템이, 상기 입력 받은 상기 기준 데이터 세트에 포함된 각각의 수치 값에 기초하여 상기 기준 데이터 세트가 가지는 군집을 분할하기 위한 경계 값을 산출하는 단계는,
    a) 상기 데이터 처리 시스템이, 입력 받은 상기 각각의 수치 값을 이용해 상기 수치 값이 가질 수 있는 수치범위를 미리 정해진 빈 폭을 갖는 복수 개의 빈들로 분할하고, 분할된 빈들 각각에 해당하는 수치 값의 개수를 도수로 갖는 히스토그램 데이터를 생성하는 단계;
    b) 상기 데이터 처리 시스템이, 상기 히스토그램 데이터를 평활화하는 단계;
    c) 상기 데이터 처리 시스템이, 평활화된 히스토그램 데이터에 기초하여 소정의 기준조건을 만족하며 상기 기준 데이터 세트 내의 제1군집의 좌측 종단에 존재하는 제1목표 빈을 탐색하는 단계;
    d) 상기 데이터 처리 시스템이, 평활화된 히스토그램 데이터에 기초하여 상기 기준조건을 만족하며 상기 기준 데이터 세트 내의 제2군집의 우측 종단에 존재하는 제2목표 빈을 탐색하는 단계를 포함하는 자동 경계화를 이용한 데이터 처리 방법.
  9. 데이터 처리시스템에 설치되며 제1항 내지 제8항 중 어느 한 항에 기재된 방법을 수행하기 위한 컴퓨터 프로그램.
  10. 제1항 내지 제8항 중 어느 한 항에 기재된 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.
  11. 2 이상의 군집을 가지는 기준 데이터 세트에 포함된 다수의 개별 수치 값을 입력 받는 입력모듈;
    입력 받은 상기 기준 데이터 세트에 포함된 각각의 수치 값에 기초하여 상기 기준 데이터 세트가 가지는 군집을 분할하기 위한 경계 값을 산출하는 경계값 산출모듈; 및
    적어도 하나의 분석 대상 데이터 세트 각각에 대하여, 다수의 개별 수치 값을 가지는 상기 분석 대상 데이터 세트를 상기 경계 값을 이용하여 서로 다른 군집으로 분할하는 처리모듈을 포함하는 자동 경계화를 이용한 데이터 처리 시스템.
  12. 제11항에 있어서, 상기 자동 경계화를 이용한 데이터 처리 시스템은,
    입력 받은 상기 기준 데이터 세트에 포함된 각각의 수치 값에 기초하여 상기 기준 데이터 세트가 가지는 군집 중 평균 값이 가장 작은 군집의 기저선 값을 산출하는 기저선값 산출모듈을 더 포함하되,
    상기 처리모듈은, 상기 다수의 개별 수치 값을 가지는 상기 분석 대상 데이터 세트를 상기 경계 값을 이용하여 서로 다른 군집으로 분할하기 위하여,
    상기 분석 대상 데이터 세트에 포함된 각각의 수치 값에 기초하여 상기 분석 대상 데이터 세트가 가지는 군집 중 평균 값이 가장 작은 군집의 기저선 값을 산출하고,
    상기 기준 데이터 세트의 기저선 값과 상기 분석 대상 데이터 세트의 기저선 값의 차이에 기초하여 상기 경계 값을 보정한 보정 경계 값을 산출하고,
    상기 분석 대상 데이터 세트에 포함된 각각의 수치 값을 상기 보정 경계 값을 기준으로 구분하는 자동 경계화를 이용한 데이터 처리 시스템.
  13. 제11항에 있어서,
    상기 경계값 산출모듈은,
    상기 기준 데이터 세트에 포함된 각각의 수치 값을 이용하여, 미리 정해진 빈 폭을 갖는 복수의 빈으로 구성된 히스토그램 데이터를 생성하고, 상기 히스토그램 데이터의 각 빈들 중 미리 정해진 노이즈 기준치 이하의 도수를 가지는 빈의 도수가 0이 되도록 하는 노이즈 제거 과정을 수행하여 노이즈가 제거된 히스토그램 데이터를 생성하고, 상기 노이즈가 제거된 히스토그램 데이터에 기초하여 상기 기준 데이터 세트 내의 제1군집의 좌측 종단에 존재하는 제1목표 빈을 탐색하고, 상기 노이즈가 제거된 히스토그램 데이터에 기초하여 상기 기준 데이터 세트 내의 제2군집의 우측 종단에 존재하는 제2목표 빈을 탐색하고, 상기 제1목표 빈 및 상기 제2목표 빈 사이의 수치 값 중 어느 하나인 상기 경계 값을 산출하는 자동 경계화를 이용한 데이터 처리 시스템.
  14. 제13항에 있어서,
    상기 경계값 산출모듈은, 상기 히스토그램 데이터를 생성하기 위하여,
    상기 기준 데이터 세트에 포함된 각각의 수치 값 중 상위 일부 수치 값 및 하위 일부 수치 값을 제거한 수정 데이터 세트를 생성하고, 상기 수정 데이터 세트에 포함된 각각의 수치 값을 이용하여 상기 히스토그램 데이터를 생성하는 자동 경계화를 이용한 데이터 처리 시스템.
  15. 제11항에 있어서,
    상기 경계값 산출모듈은,
    입력 받은 상기 각각의 수치 값을 이용해 상기 수치 값이 가질 수 있는 수치범위를 미리 정해진 빈 폭을 갖는 복수 개의 빈들로 분할하고, 분할된 빈들 각각에 해당하는 수치 값의 개수를 도수로 갖는 히스토그램 데이터를 생성하고, 상기 히스토그램 데이터를 평활화하고, 상기 평활화된 히스토그램 데이터를 차분하고, 차분된 히스토그램 데이터에 기초하여 소정의 기준조건을 만족하며 상기 기준 데이터 세트 내의 제1군집의 좌측 종단에 존재하는 제1목표 빈을 탐색하고, 상기 기준조건을 만족하며 상기 기준 데이터 세트 내의 제2군집의 우측 종단에 존재하는 제2목표 빈을 탐색하고, 상기 제1목표 빈 및 상기 제2목표 빈 사이의 값 중 어느 하나인 상기 경계 값을 산출하는 자동 경계화를 이용한 데이터 처리 시스템.
  16. 제15항에 있어서,
    상기 경계값 산출모듈은,
    미리 설정된 빈 폭을 이용하여 상기 기준조건을 만족하는 목표 빈이 탐색되지 않는 경우, 상기 빈 폭을 일정 수치만큼 줄이고, 줄어든 빈 폭을 이용하여 히스토그램 데이터를 재생성하고, 재생성된 히스토그램 데이터를 이용하여 특정 군집의 종단에 존재하는 목표 빈을 탐색하는 자동 경계화를 이용한 데이터 처리 시스템.
  17. 제11항에 있어서,
    상기 경계값 산출모듈은,
    입력 받은 상기 각각의 수치 값을 이용해 상기 수치 값이 가질 수 있는 수치범위를 미리 정해진 빈 폭을 갖는 복수 개의 빈들로 분할하고, 분할된 빈들 각각에 해당하는 수치 값의 개수를 도수로 갖는 히스토그램 데이터를 생성하고, 상기 히스토그램 데이터를 평활화하고, 평활화된 히스토그램 데이터에 기초하여 소정의 기준조건을 만족하며 상기 기준 데이터 세트 내의 제1군집의 좌측 종단에 존재하는 제1목표 빈을 탐색하고, 상기 기준조건을 만족하며 상기 기준 데이터 세트 내의 제2군집의 우측 종단에 존재하는 제2목표 빈을 탐색하고, 상기 제1목표 빈 및 상기 제2목표 빈 사이의 값 중 어느 하나인 상기 경계 값을 산출하는 자동 경계화를 이용한 데이터 처리 시스템.
KR1020190084214A 2019-07-12 2019-07-12 자동 경계화를 이용한 데이터 처리 방법 및 시스템 KR102261474B1 (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
KR1020190084214A KR102261474B1 (ko) 2019-07-12 2019-07-12 자동 경계화를 이용한 데이터 처리 방법 및 시스템
CN202080050896.8A CN114503205A (zh) 2019-07-12 2020-07-10 利用自动阈值的数据处理方法及系统
JP2022501145A JP7345811B2 (ja) 2019-07-12 2020-07-10 自動閾値化を用いたデータ処理方法及びシステム
PCT/KR2020/009095 WO2021010670A1 (ko) 2019-07-12 2020-07-10 자동 경계화를 이용한 데이터 처리 방법 및 시스템
EP20841170.2A EP3985677A4 (en) 2019-07-12 2020-07-10 DATA PROCESSING METHOD AND SYSTEM USING AUTOMATIC THRESHOLD GENERATION
US17/626,795 US20220277812A1 (en) 2019-07-12 2020-07-10 Data processing method and system using autothresholding

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190084214A KR102261474B1 (ko) 2019-07-12 2019-07-12 자동 경계화를 이용한 데이터 처리 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20210007547A true KR20210007547A (ko) 2021-01-20
KR102261474B1 KR102261474B1 (ko) 2021-06-07

Family

ID=74210608

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190084214A KR102261474B1 (ko) 2019-07-12 2019-07-12 자동 경계화를 이용한 데이터 처리 방법 및 시스템

Country Status (6)

Country Link
US (1) US20220277812A1 (ko)
EP (1) EP3985677A4 (ko)
JP (1) JP7345811B2 (ko)
KR (1) KR102261474B1 (ko)
CN (1) CN114503205A (ko)
WO (1) WO2021010670A1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100056066A (ko) * 2008-11-19 2010-05-27 한국과학기술정보연구원 계층적 클러스터링에서 최적의 군집 분할 방법 및 시스템
KR20110114181A (ko) * 2010-04-13 2011-10-19 고려대학교 산학협력단 예측 정확성이 향상된 대출 심사 방법
KR20140030838A (ko) * 2012-09-04 2014-03-12 에스케이플래닛 주식회사 군집 분석 지원 시스템 및 방법과, 이를 지원하는 장치
JP2014507134A (ja) * 2011-01-05 2014-03-27 ザ・チャイニーズ・ユニバーシティー・オブ・ホンコン 胎児の性染色体遺伝子型の非侵襲的出生前同定
KR20140064471A (ko) * 2012-11-20 2014-05-28 한국과학기술원 대용량 데이터를 위한 군집화 방법
KR101782364B1 (ko) * 2016-05-23 2017-09-27 (주)에이앤아이 케이평균군집화를 통한 학습기반의 비전검사 방법

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1163502A1 (en) 1999-02-18 2001-12-19 Bio-View Ltd System and method for identifying and analyzing rare cell types in a mixed population of cells
WO2001085914A2 (en) * 2000-05-11 2001-11-15 Becton, Dickinson And Company System for identifying clusters in scatter plots using smoothed polygons with optimal boundaries
CN1826529B (zh) * 2003-07-18 2010-12-01 A&T株式会社 临床检查分析装置及临床检查分析方法
KR100875915B1 (ko) * 2005-12-08 2008-12-26 한국전자통신연구원 정보추출 군집화 시스템 및 그 방법
JP5645761B2 (ja) 2011-06-23 2014-12-24 登史夫 小林 医療データ解析方法、医療データ解析装置およびプログラム
JP2015207111A (ja) 2014-04-18 2015-11-19 ソニー株式会社 検査サーバ、検査方法および検査システム
JP2016099888A (ja) 2014-11-25 2016-05-30 日本電信電話株式会社 センサデータ分類装置、方法およびプログラム
US11694802B2 (en) 2016-01-22 2023-07-04 Otraces Inc. Systems and methods for improving diseases diagnosis

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100056066A (ko) * 2008-11-19 2010-05-27 한국과학기술정보연구원 계층적 클러스터링에서 최적의 군집 분할 방법 및 시스템
KR20110114181A (ko) * 2010-04-13 2011-10-19 고려대학교 산학협력단 예측 정확성이 향상된 대출 심사 방법
JP2014507134A (ja) * 2011-01-05 2014-03-27 ザ・チャイニーズ・ユニバーシティー・オブ・ホンコン 胎児の性染色体遺伝子型の非侵襲的出生前同定
KR20140030838A (ko) * 2012-09-04 2014-03-12 에스케이플래닛 주식회사 군집 분석 지원 시스템 및 방법과, 이를 지원하는 장치
KR20140064471A (ko) * 2012-11-20 2014-05-28 한국과학기술원 대용량 데이터를 위한 군집화 방법
KR101782364B1 (ko) * 2016-05-23 2017-09-27 (주)에이앤아이 케이평균군집화를 통한 학습기반의 비전검사 방법

Also Published As

Publication number Publication date
JP2022540195A (ja) 2022-09-14
EP3985677A4 (en) 2023-06-21
EP3985677A1 (en) 2022-04-20
JP7345811B2 (ja) 2023-09-19
KR102261474B1 (ko) 2021-06-07
WO2021010670A1 (ko) 2021-01-21
US20220277812A1 (en) 2022-09-01
CN114503205A (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
US11961589B2 (en) Models for targeted sequencing
KR20200106179A (ko) 서열분석 기반 어세이의 유효성을 보장하기 위한 품질 관리 주형
IL258999A (en) Methods for detecting copy-number variations in next-generation sequencing
CN112599199A (zh) 一种适用于10x单细胞转录组测序数据的分析方法
US20180181835A1 (en) Method of digital information classification
CN107832584B (zh) 宏基因组的基因分析方法、装置、设备及存储介质
Wicker et al. Density of points clustering, application to transcriptomic data analysis
KR102261474B1 (ko) 자동 경계화를 이용한 데이터 처리 방법 및 시스템
KR101771042B1 (ko) 질병 관련 유전자 탐색 장치 및 그 방법
Petito et al. Misclassified group-tested current status data
CN107203916B (zh) 一种用户信用模型建立方法及装置
KR102433411B1 (ko) 인지 부하를 고려한 정상상태시각유발전위 분류 방법
US20200105374A1 (en) Mixture model for targeted sequencing
KR102273373B1 (ko) 특정 데이터 군집의 종단지점 탐색 방법 및 이를 위한 데이터 처리시스템
KR101701168B1 (ko) 유전자 패스웨이 활성지수의 세부적 정량화를 위한 유전자 프로파일 방법
CN113780445B (zh) 癌症亚型分类预测模型的生成方法及装置、存储介质
US9223930B2 (en) Methods and systems for identifying the quantitation cycle for a PCR amplification reaction
Wu et al. Fuzzy C-Means based LSED analysis model of single-cell RNA sequencing data for gene expression difference data
Meijer et al. Model selection for high-dimensional models
US10579934B2 (en) Data classification device, non-transitory computer readable medium, and data classification method
CN118015381A (zh) 基于影像基因组学的精神分裂症分类方法及系统
Hicks et al. Genomics of burn injury and its promise in clinical practice
CN114065860A (zh) 银行账户数据分类方法及装置
KR20150050041A (ko) 퍼지 신경망을 이용한 유전자 선택 방법 및 시스템
CN116821818A (zh) 表单数据分类方法及装置、设备、存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant