KR102483880B1 - 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템 및 그 방법 - Google Patents

복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템 및 그 방법 Download PDF

Info

Publication number
KR102483880B1
KR102483880B1 KR1020220088537A KR20220088537A KR102483880B1 KR 102483880 B1 KR102483880 B1 KR 102483880B1 KR 1020220088537 A KR1020220088537 A KR 1020220088537A KR 20220088537 A KR20220088537 A KR 20220088537A KR 102483880 B1 KR102483880 B1 KR 102483880B1
Authority
KR
South Korea
Prior art keywords
disease
information
genetic
score
analysis
Prior art date
Application number
KR1020220088537A
Other languages
English (en)
Inventor
김호
윤상혁
김정오
김정은
김두환
이솔
김나영
이선엽
선하라
김하은
Original Assignee
주식회사 바스젠바이오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 바스젠바이오 filed Critical 주식회사 바스젠바이오
Priority to KR1020220088537A priority Critical patent/KR102483880B1/ko
Application granted granted Critical
Publication of KR102483880B1 publication Critical patent/KR102483880B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Organic Chemistry (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 복수의 데이터베이스로부터 수집한 유전체 데이터의 각 품질 지수를 산출하고 이를 기준으로 분석 대상 데이터를 선별하고 연관성 분석을 통해 유전자변이 별 질병 연관성 가중점수를 산출하여 유전자변이 별 질병 연관성 분석 정보를 생성하며, 유전자변이 별 질병 연관성 분석 정보를 통해 유전자변이에 대한 영향을 주제로 기고된 복수의 선행 문헌을 수집하고, 복수의 선행 문헌을 분석하여 각 유전자변이 별 타겟 질환 영향력 점수를 산출함으로써 유전자변이 별 타겟 질환 영향력 점수를 기준으로 질병에 연관성이 높다고 판단되는 유전자변이에 대한 유전체 데이터를 이용하여 질병 프로파일링 정보를 생성하는 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템 및 그 방법에 대한 것으로 사용자에게 타겟 질병을 대상으로 유전자변이가 미치는 생물학적 기능 정보 및 의학적 설명 정보를 직관적으로 제공할 수 있는 질병 프로파일링 정보를 제공함으로써 유전체 데이터에 대한 연구 및 활용이 좀 더 용이해지고 활성화 될 수 있으며 그에 소요되는 시간과 비용도 감소 시킬 수 있는 효과가 존재한다.

Description

복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템 및 그 방법{disease profiling information providing system based on multiple database information and method therefor}
본 발명은 복수의 데이터베이스로부터 수집한 자료를 분석 및 가공하여 사용자가 가시적으로 질병과 관련된 유전자변이에 대한 질병 프로파일링 정보를 생성하여 제공하는 기술에 대한 것으로, 더욱 자세하게는 복수의 데이터베이스로부터 수집한 유전체 데이터의 각 품질 지수를 산출하고 이를 기준으로 분석 대상 데이터를 선별하고 연관성 분석을 통해 유전자변이 별 질병 연관성 가중점수를 산출하여 유전자변이 별 질병 연관성 분석 정보를 생성하며, 유전자변이 별 질병 연관성 분석 정보를 통해 유전자변이에 대한 영향을 주제로 기고된 복수의 선행 문헌을 수집하고, 복수의 선행 문헌을 분석하여 각 유전자변이 별 타겟 질환 영향력 점수를 산출함으로써 유전자변이 별 타겟 질환 영향력 점수를 기준으로 질병에 연관성이 높다고 판단되는 유전자변이에 대한 유전체 데이터를 이용하여 질병 프로파일링 정보를 생성하는 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템 및 그 방법을 제공하는데 그 목적이 있다.
염기서열 분석(Generation Sequencing)은 유전체를 무수히 많은 조각으로 나눠서 읽고, 얻어진 염기서열 조각을 조립하여 유전체의 서열을 분석하는 유전체 고속 분석 방법을 이용하는 방향으로 개발되고 있다.
이러한 유전체 고속 분석 방법의 등장으로 분석된 전장 유전체 서열(Whole-Genome Sequencing, WGS)은 거의 모든 유형의 체세포 돌연변이(somatic mutations) 검출에 유용하고, 이러한 유용성 덕분에 전장 유전체 분석이 광범위하게 이루어지고 있으며, 특히 암 유전체학에서 매우 중요한 역할을 하고 있다.
구조 변이(Structural Variants, SV)는 암 발생 과정에 중요한 역할을 하므로, 암 유전체에서 체세포 돌연변이를 검출하기 위해 많은 생물 정보학 알고리즘과 툴이 개발되었다. 하지만, 구조 변이 탐색 툴은 높은 민감도를 얻기 위해, 어쩔 수 없이 출력에 상당한 수의 위양성(False Positives, FP)을 포함하게 된다. 그래서, 구조 변이 탐색 툴에서 호출된 구조 변이 후보들 중에서 위양성을 제거하여 정확한 구조 변이(True Positives) 목록을 생성하는 작업이 후속되어야 하나 종래에는 해당 분야의 전문가들이 수작업을 통해 시간 소모적이고 노동 집약적인 필터링 작업을 수행하여야만 하는 어려움이 존재하였다.
유전체 시퀀싱 결과물에서 추출된 변이 정보의 생물학적 및 유전학적 의미를 해석하는 작업을 어노테이션(annotation)이라고 하며, 어노테이션은 생물학 연구자가 하나하나 찾아내야 하지만, 게놈 프로젝트와 같이 대량의 정보 처리(high-throughput)가 필요한 상황에서는 컴퓨터를 이용한 빠른 처리가 필요하기 때문에 현재 이러한 생물 정보학적 방법론은 게놈 프로젝트에서 어노테이션의 중요도가 점차 증가하고 있는 실정이다.
이러한 이유로 어노테이션에 있어 그 정확도를 향상하고 어노테이션된 데이터를 높은 전문 지식을 가지지 아니한 일반 사용자도 쉽게 이해할 수 있도록 시각화 하는 기술에 대한 수요가 점차 늘어나도 있는 실정이다.
본 발명을 통해 대용량의 유전체 데이터를 분석하고 어노테이션 함에 있어 전문가의 개입 없이 자동으로 특정 질병에 대한 관련 유전자변이를 선별하고 유전자변이 별로 수집된 복수의 선행 문언 수와 선행 문언별 효과 크기를 기반으로 주석 데이터를 생성하여 이를 사용자에게 시각적으로 제공함으로 인하여 생물학적 기능 정보 및 의학적 설명 정보를 직관적으로 제공할 수 있는 질병 프로파일링 정보를 제공하는 기술을 제공하고자 한다.
본 발명의 실시예에 따르면 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템은 유전체 코호트 데이터 베이스부터 유전자형(genotype)데이터 및 표현형(phenotype) 데이터를 포함하는 유전체 데이터를 수신하고, 수신한 복수의 유전체 데이터의 각 품질 지수를 산출하여 상기 산출된 품질 지수가 미리 설정된 임계치를 초과하는 유전체 데이터를 분석 대상 데이터로 수집하는 분석 대상 데이터 수집부; 상기 분석 대상 데이터로 선정된 유전체 데이터를 대상으로 연관성 분석을 수행하여 유전자변이 별 질병 연관성 원점수 및 유전자형별 영향 대립인자의 개수, 대립인자 별 결과변수 영향력(BETA 값)를 산출하고, 유전자변이 별 유전자변이 질환 연관성 점수에 유전자형별 영향 대립인자의 개수, 상기 대립인자 별 결과변수 영향력(BETA 값)를 기준으로 가중치를 적용하여 유전자변이 별 질병 연관성 가중점수를 산출하며, 상기 산출된 유전자변이 별 질병 연관성 가중점수 중 미리 설정된 점수 이상인 유전자변이의 질병 연관성 가중점수를 대상으로 유전자변이 별 질병 연관성 분석 정보를 생성하는 연관성 분석부; 복수의 공개 데이터 베이스로부터 상기 질병 연관성 분석 정보에 따라 매칭된 유전자변이에 타겟 질병을 대상으로 유전자변이에 대한 영향을 주제로 기고된 복수의 선행 문헌을 유전자변이 별로 스크래핑하여 수집하고, 수집된 복수의 선행 문헌을 분석하여 상기 복수의 선행 문헌 별로 상기 유전자변이의 주제에 부합하는 효과 크기를 산출하며, 상기 수집된 선행 문헌의 수와 선행 문헌 별 효과 크기를 포함하는 주석 데이터를 생성하고, 상기 주석 데이터를 유전체 데이터에 추가하여 어노테이션을 수행하는 어노테이션 수행부; 상기 유전자변이 별로 수집된 복수의 선행 문언 수에 선행 문언별 효과 크기를 가중치로 적용하여 각 유전자변이 별 타겟 질환 영향력 점수를 산출하는 타겟 질환 영향력 점수 산출부; 및 유전자변이 별 연관성 분석 정보에 포함된 유전자변이 별 타겟 질환 영향력 점수를 기준으로 질병에 연관성이 높다고 판단되는 유전자변이에 대한 유전체 데이터를 이용하여 질병 프로파일링 정보를 생성하는 질병 프로파일링 정보 생성부를 포함할 수 있다.
본 발명의 일 실시예에 따르면 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템은 생성된 상기 질병 프로파일링 정보를 기준으로 매칭된 특정 유전자변이와 질병에 대하여 상기 수집된 복수의 선행 문헌을 대상으로 자연어 처리를 수행하여 질병-유전자변이간 유효성 정보, 화합물-유전자변이 유효성 정보, 질병-화합물 유효성 정보를 생성하고, 생성된 유효성 정보 별로 각 연관 유효성 점수를 산출하는 유효성 정보 생성부; 상기 복수의 유효성 정보를 이용하여 유전자변이 별로 특정 유전자변이를 시작점으로 하고 특정 질병을 끝점으로 하며, 동일한 항목의 유전자변이, 질병, 화합물 중 적어도 하나를 중간 노드로 하는 유전자변이-질병 유효성 네트워크를 생성하고, 생성된 유전자변이-질병 유효성 네트워크 중 시작점부터 끝점까지 연결된 적어도 하나의 루트를 선정하여 선정된 루트 별로 유전자변이-질병 유효성 총점수를 산출하여 상대적으로 가장 높은 점수를 가진 루트를 최적 유효성 패스로 선정하며, 상기 최적 유효성 패스에 포함된 유전자변이에 대하여 상기 최적 유효성 패스 유전자변이-질병 유효성 총점수를 기준으로 유효성 가중치를 산정하는 유효성 가중치 생성부; 및 상기 유전자변이 별 타겟 질환 영향력 점수에 산출된 유전자변이와 질병간의 유효성 가중치를 적용하여 재산출된 타겟 질환 영향력 점수에 따라 질병 프로파일링 정보를 업데이트하는 업데이트 수행부를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템은 상기 질병 프로파일링 정보를 이용하여 각 유전자변이별 질병 유발 영향력에 대한 시각화 정보를 생성하여 사용자에게 디스플레이하는 시각화 정보 제공부를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 연관성 분석부는, 상기 연관성 분석으로 GWAS 분석을 수행하고, 상기 GWAS 분석 결과에 따른 유전자변이별 질환 연관성 베타 값의 절대값을 질환 유발에 대한 영향력으로 판단하여 유전자변이 별로 질환별 유전자변이 연관성 점수를 부여할 수 있다.
본 발명의 일 실시예에 따르면 상기 연관성 분석부는, 상기 연관성 분석으로 GWAS 분석 및 AI 분석을 수행하고, 베이시안 추론을 적용하여 유전자변이 도출 분석을 수행하여, 상기 GWAS 분석 결과에 포함된 유전자변이별 질환 연관성 베타 값을 사전확률로 설정한 후, 상기 AI 분석을 통한 유전자변이별 중요도 점수와 상기 타겟 질환 영향력 점수를 새롭게 추가되는 조건으로 하여 조건부 확률을 산출하고, 각 유전자변이 별 질환 발병 확률값을 산출하여 유전자변이 별로 질환별 유전자변이 연관성 점수를 부여할 수 있다.
본 발명의 일 실시예에 따르면 상기 어노테이션 수행부는, 상기 복수의 선행 문헌별로 상기 유전자변이의 주제에 부합하는 효과 크기는 각 선행 문헌별로 오즈비(odds ratio)와 신뢰구간을 산출하여, 상기 오즈비와 신뢰구간을 토대로 선행 문헌별 유전자변이가 타겟 질환에 미치는 효과 크기를 추정할 수 있다.
본 발명의 일 실시 예에 따르면 상기 타겟 질환 영향력 점수 산출부는, 상기 효과 크기에 역분산 추정을 통해 선행 문헌별 가중치로 산출하고, 상기 선행 문헌별 오즈비에 상기 가중치를 적용하고 상기 유전자변이별로 수집된 복수의 선행 문언 수를 반영하여 산출된 선행 문헌별 오즈비를 합산하여 타겟 질환 영향력 점수를 산출할 수 있다.
본 발명의 일 실시예에 따르면 상기 유효성 정보 생성부는, 수집된 복수의 선행 문헌을 자연어 처리를 통하여 각 선행 문헌에 미리 설정된 단어 또는 문장과 동일 또는 유사한 단어 및 문장의 포함 여부 및 포함 횟수를 기준으로 0~1 사이의 점수를 산출하고, 미리 설정된 단어 또는 문장과 동일 또는 유사한 단어가 포함되지 않은 경우 0으로 산정하며, 미리 설정된 단어 또는 문장과 동일 또는 유사한 단어가 많이 포함될수록, 포함된 횟수가 많을수록 1에 가까워 지도록 각 선행 문헌 별로 문헌 연관성 점수를 산출할 수 있다.
본 발명의 일 실시예에 따르면 상기 유효성 정보 생성부는, 상기 각 선행 문헌 별로 산출된 문헌 연관성 점수에 선행 문헌에서 사용한 데이터의 종류 또는 임상 시험에 포함된 정보인지 여부, 선행 문헌이 인용된 문헌의 수에 따라 문헌 가중치를 부여하고, 상기 각 선행 문헌 별로 문헌 연관성 점수에 문헌 가중치를 적용하여 문헌 연관성 가중점수를 산출할 수 있다.
본 발명의 실시예에 따르면 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 방법은 유전체 코호트 데이터 베이스부터 유전자형(genotype)데이터 및 표현형(phenotype) 데이터를 포함하는 유전체 데이터를 수신하고, 수신한 복수의 유전체 데이터의 각 품질 지수를 산출하여 상기 산출된 품질 지수가 미리 설정된 임계치를 초과하는 유전체 데이터를 분석 대상 데이터로 수집하는 단계; 상기 분석 대상 데이터로 선정된 유전체 데이터를 대상으로 연관성 분석을 수행하여 유전자변이 별 질병 연관성 원점수 및 유전자형별 영향 대립인자의 개수, 대립인자 별 결과변수 영향력(BETA 값)를 산출하고, 유전자변이 별 유전자변이 질환 연관성 점수에 유전자형별 영향 대립인자의 개수, 상기 대립인자 별 결과변수 영향력(BETA 값)를 기준으로 가중치를 적용하여 유전자변이 별 질병 연관성 가중점수를 산출하며, 상기 산출된 유전자변이 별 질병 연관성 가중점수 중 미리 설정된 점수 이상인 유전자변이의 질병 연관성 가중점수를 대상으로 유전자변이 별 질병 연관성 분석 정보를 생성하는 단계; 복수의 공개 데이터 베이스로부터 상기 질병 연관성 분석 정보에 따라 매칭된 유전자변이에 타겟 질병을 대상으로 유전자변이에 대한 영향을 주제로 기고된 복수의 선행 문헌을 유전자변이 별로 스크래핑하여 수집하고, 수집된 복수의 선행 문헌을 분석하여 상기 복수의 선행 문헌 별로 상기 유전자변이의 주제에 부합하는 효과 크기를 산출하며, 상기 수집된 선행 문헌의 수와 선행 문헌 별 효과 크기를 포함하는 주석 데이터를 생성하고, 상기 주석 데이터를 유전체 데이터에 추가하여 어노테이션을 수행하는 단계; 상기 유전자변이 별로 수집된 복수의 선행 문언 수에 선행 문언별 효과 크기를 가중치로 적용하여 각 유전자변이 별 타겟 질환 영향력 점수를 산출하는 단계; 및 유전자변이 별 연관성 분석 정보에 포함된 유전자변이 별 타겟 질환 영향력 점수를 기준으로 질병에 연관성이 높다고 판단되는 유전자변이에 대한 유전체 데이터를 이용하여 질병 프로파일링 정보를 생성하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따르면 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 방법은 생성된 상기 질병 프로파일링 정보를 기준으로 매칭된 특정 유전자변이와 질병에 대하여 상기 수집된 복수의 선행 문헌을 대상으로 자연어 처리를 수행하여 질병-유전자변이간 유효성 정보, 화합물-유전자변이 유효성 정보, 질병-화합물 유효성 정보를 생성하고, 생성된 유효성 정보 별로 각 연관 유효성 점수를 산출하는 단계; 상기 복수의 유효성 정보를 이용하여 유전자변이 별로 특정 유전자변이를 시작점으로 하고 특정 질병을 끝점으로 하며, 동일한 항목의 유전자변이, 질병, 화합물 중 적어도 하나를 중간 노드로 하는 유전자변이-질병 유효성 네트워크를 생성하고, 생성된 유전자변이-질병 유효성 네트워크 중 시작점부터 끝점까지 연결된 적어도 하나의 루트를 선정하여 선정된 루트 별로 유전자변이-질병 유효성 총점수를 산출하여 상대적으로 가장 높은 점수를 가진 루트를 최적 유효성 패스로 선정하며, 상기 최적 유효성 패스에 포함된 유전자변이에 대하여 상기 최적 유효성 패스의 유전자변이-질병 유효성 총점수를 기준으로 유효성 가중치를 산정하는 단계; 및 상기 유전자변이 별 타겟 질환 영향력 점수에 산출된 유전자변이와 질병간의 유효성 가중치를 적용하여 재산출된 타겟 질환 영향력 점수에 따라 질병 프로파일링 정보를 업데이트하는 단계를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 방법은 상기 질병 프로파일링 정보를 이용하여 각 유전자변이별 질병 유발 영향력에 대한 시각화 정보를 생성하여 사용자에게 디스플레이하는 단계를 더 포함할 수 있다.
본 발명의 일 실시예에 따르면 상기 연관성 분석 정보를 생성하는 단계는, 상기 연관성 분석으로 GWAS 분석을 수행하고, 상기 GWAS 분석 결과에 따른 유전자변이별 질환 연관성 베타 값의 절대값을 질환 유발에 대한 영향력으로 판단하여 유전자변이 별로 질환별 유전자변이 연관성 점수를 부여할 수 있다.
본 발명의 일 실시예에 따르면 상기 연관성 분석 정보를 생성하는 단계는, 상기 연관성 분석으로 GWAS 분석 및 AI 분석을 수행하고, 베이시안 추론을 적용하여 유전자변이 도출 분석을 수행하여, 상기 GWAS 분석 결과에 포함된 유전자변이별 질환 연관성 베타 값을 사전확률로 설정한 후, 상기 AI 분석을 통한 유전자변이별 중요도 점수와 상기 타겟 질환 영향력 점수를 새롭게 추가되는 조건으로 하여 조건부 확률을 산출하고, 각 유전자변이 별 질환 발병 확률값을 산출하여 유전자변이 별로 질환별 유전자변이 연관성 점수를 부여할 수 있다.
본 발명의 일 실시예에 따르면 상기 어노테이션을 수행하는 단계는, 상기 복수의 선행 문헌별로 상기 유전자변이의 주제에 부합하는 효과 크기는 각 선행 문헌별로 오즈비(odds ratio)와 신뢰구간을 산출하여, 상기 오즈비와 신뢰구간을 토대로 선행 문헌별 유전자변이가 타겟 질환에 미치는 효과 크기를 추정할 수 있다.
본 발명의 일 실시예에 따르면 상기 타겟 질환 영향력 점수를 산출하는 단계는, 상기 효과 크기에 역분산 추정을 통해 선행 문헌별 가중치로 산출하고, 상기 선행 문헌별 오즈비에 상기 가중치를 적용하고 상기 유전자변이별로 수집된 복수의 선행 문언 수를 반영하여 산출된 선행 문헌별 오즈비를 합산하여 타겟 질환 영향력 점수를 산출할 수 있다.
본 발명의 일 실시예에 따르면 상기 연관 유효성 점수를 산출하는 단계는, 수집된 복수의 선행 문헌을 자연어 처리를 통하여 각 선행 문헌에 미리 설정된 단어 또는 문장과 동일 또는 유사한 단어 및 문장의 포함 여부 및 포함 횟수를 기준으로 0~1 사이의 점수를 산출하고, 미리 설정된 단어 또는 문장과 동일 또는 유사한 단어가 포함되지 않은 경우 0으로 산정하며, 미리 설정된 단어 또는 문장과 동일 또는 유사한 단어가 많이 포함될수록, 포함된 횟수가 많을수록 1에 가까워 지도록 각 선행 문헌 별로 문헌 연관성 점수를 산출할 수 있다.
본 발명의 일 실시예에 따르면 상기 연관 유효성 점수를 산출하는 단계는, 상기 각 선행 문헌 별로 산출된 문헌 연관성 점수에 선행 문헌에서 사용한 데이터의 종류 또는 임상 시험에 포함된 정보인지 여부, 선행 문헌이 인용된 문헌의 수에 따라 문헌 가중치를 부여하고, 상기 각 선행 문헌 별로 문헌 연관성 점수에 문헌 가중치를 적용하여 문헌 연관성 가중점수를 산출할 수 있다.
본 발명의 실시예에 따라 구현된 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템을 통해 유전체 데이터의 분석에 대한 전문적인 이해도를 가지지 못한 일반 사용자에게 질병에 연관성이 높다고 판단되는 유전자변이에 대한 유전체 데이터만을 선정하여, 선정된 유전체 데이터에 포함되어 있는 주석 데이터를 이용하여 사용자에게 타겟 질병을 대상으로 유전자변이가 미치는 생물학적 기능 정보 및 의학적 설명 정보를 직관적으로 제공할 수 있는 질병 프로파일링 정보를 제공함으로써 유전체 데이터에 대한 연구 및 활용이 좀 더 용이해지고 활성화 될 수 있으며 그에 소요되는 시간과 비용도 감소 시킬 수 있는 효과가 존재한다.
도 1은 본 발명의 제1 실시예에 따라 구현된 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템의 구성도이다.
도 2는 본 발명의 제2 실시예에 따라 구현된 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템의 구성도이다.
도 3은 본 발명의 제3 실시예에 따라 구현된 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템의 구성도이다.
도 4는 본 발명의 일 실시예에 따라 선정된 유전자변이-질병 유효성 네트워크 상의 복수의 루트를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 방법의 흐름도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.
본 발명에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 발명에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.
일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한 도면들의 각 블록과 흐름도 도면들의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수 있음을 이해할 수 있을 것이며, 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 흐름도 블록(들)에서 설명된 기능들을 수행하는 수단을 생성하게 된다.
이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 흐름도 블록(들)에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다.
컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 흐름도 블록(들)에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다.
그리고 몇 가지 대체 실시예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
이 때, 본 실시예에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field-Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다.
그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.
따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.
본 발명의 실시예들을 구체적으로 설명함에 있어서, 특정 시스템의 예를 주된 대상으로 할 것이지만, 본 명세서에서 청구하고자 하는 주요한 요지는 유사한 기술적 배경을 가지는 여타의 통신 시스템 및 서비스에도 본 명세서에 개시된 범위를 크게 벗어나지 아니하는 범위에서 적용 가능하며, 이는 당해 기술분야에서 숙련된 기술적 지식을 가진 자의 판단으로 가능할 것이다.
이하, 도면을 참조하여 본 발명의 실시 예에 따른 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템 및 그 방법에 대하여 설명한다.
도 1은 본 발명의 제1 실시예에 따라 구현된 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템(1000)의 구성도이다.
도 1을 참조하면 본 발명의 제1 실시예에 따라 구현된 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템(1000)은 분석 대상 데이터 수집부(100), 연관성 분석부(200), 어노테이션 수행부(300), 타겟 질병 영향력 점수 산출부(400), 질병 프로파일링 정보 생성부(500)를 포함할 수 있다.
분석 대상 데이터 수집부(100)는 유전체 코호트 데이터 베이스부터 유전자형(genotype)데이터 및 표현형(phenotype) 데이터를 포함하는 유전체 데이터를 수신하고, 수신한 복수의 유전체 데이터의 각 품질 지수를 산출하여 산출된 품질 지수가 미리 설정된 임계치를 초과하는 유전체 데이터를 분석 대상 데이터로 수집할 수 있다.
본 발명의 일 실시예에 따르면 분석 대상 데이터 수집부(100)는 유전체 코호트 데이터 베이스부터 수신한 유전체 데이터를 대상으로 품질 지수를 산출하여 미리 설정된 임계치를 초과하는 품질 지수를 가진 유전체 데이터만을 분석 대상 데이터로 수집하여 데이터 품질 관리를 수행할 수 있다.
여기서 데이터 품질 관리가 필요한 이유는 유전체 데이터를 분석함에 있어서 유전체 데이터 안에 포함된 수십만개의 유전자변이에 대한 정보 중에는 높은 확률로 신뢰도가 낮은 정보가 포함될 가능성이 있으며, 이러한 신뢰도가 낮은 정보를 포함하여 연관성 분석을 수행할 경우 결과 값에 대한 정확도가 떨어질 수 밖에 없기 때문에, 신뢰도가 낮은 정보는 필터링 하여 상대적으로 일정 기준 이상의 신뢰도를 가진 정보만은 수집하여 연관성 분석 결과의 정확도를 향상시킬 수 있다.
본 발명의 일 실시예에 따르면 분석 대상 데이터 수집부(100)는 유전체 데이터를 대상으로 품질 지수를 산출하기 위하여 유전체 데이터를 대상으로 LD(Linkage Disequilibrium)분석을 수행하여 도출한 결과값 또는 HWE(Hardy??Weinberg Equilibrium)분석을 수행하여 도출한 결과값, MAF(Minor Allele Frequency)분석을 수행하여 도출한 결과값, 대치법을 이용한 결측치(Missing Value) 중 적어도 하나의 방법을 이용할 수 있다.
본 발명의 일 실시예에 따르면 분석 대상 데이터 수집부(100)는 복수의 데이터베이스로부터 수신한 유전체 데이터 중 일정 수준 이상의 신뢰도를 가지는 것으로 분류된 미리 설정된 임계치를 초과하는 일부 유전체 데이터를 분석 대상 데이터로 선정할 수 있으며, 여기서 분석 대상 데이터는 연관성 분석의 대상이 될 유전체 데이터를 의미할 수 있다.
연관성 분석부(200)는 분석 대상 데이터로 선정된 유전체 데이터를 대상으로 타겟 질병에 대한 연관성 분석을 수행하여 타겟 질병에 대한 유전자변이 별 질병 연관성 원점수 및 유전자형별 영향 대립인자의 개수, 대립인자 별 결과변수 영향력(BETA 값)를 산출하고, 유전자변이 별 유전자변이 질병 연관성 원점수에 유전자형별 영향 대립인자의 개수, 대립인자 별 결과변수 영향력(BETA 값)를 기준으로 가중치를 적용하여 유전자변이 별 질병 연관성 가중점수를 산출할 수 있으며, 산출된 유전자변이 별 질병 연관성 가중점수 중 미리 설정된 점수 이상인 유전자변이의 질병 연관성 가중점수를 대상으로 유전자변이 별 질병 연관성 분석 정보를 생성할 수 있다.
여기서 타겟 질병이란 사용자로부터 입력 받은 유전체 데이터 분석을 통해 특정 유전자변이와의 연관성에 대한 프로파일링 정보를 제공받기 원하는 대상 질병을 의미할 수 있다.
본 발명의 일 실시예에 따르면 연관성 분석부(200)는 분석 대상 데이터로 선정된 유전체 데이터를 대상으로 타겟 질병에 대한 연관성 분석을 수행함에 있어 GWAS(genome-wide association study) 분석을 수행할 수 있다.
본 발명의 일 실시예에 따르면 연관성 분석부(200)는 분석 대상 데이터에 포함된 유전체 데이터를 대상으로 타겟 질병에 대한 GWAS 분석 또는 AI 분석을 통해 유전자변이 별 질병 연관성 원점수 및 유전자형별 영향 대립인자의 개수, 대립인자 별 결과변수 영향력(BETA 값)를 산출할 수 있다.
본 발명의 일 실시예에 따르면 연관성 분석부(200)는 연관성 분석으로 GWAS 분석을 수행하고, GWAS 분석 결과에 따른 유전자변이별 질병 연관성 베타 값의 절대값을 질병 유발에 대한 영향력으로 판단하여 유전자변이 별로 질병별 유전자변이 연관성 점수를 부여할 수 있다.
본 발명의 일 실시예에 따르면 연관성 분석부(200)는 유전자형별 영향 대립인자의 개수, 상기 대립인자 별 결과변수 영향력(BETA 값)를 기준으로 가중치를 적용하여 아래 수학식 1과 같이 유전자변이 별 질병 연관성 가중점수(Y)를 산출할 수 있다.
Figure 112022074900110-pat00001
k=유전자형별 영향 대립인자의 개수
β=대립인자 별 결과변수 영향력(BETA 값)
X= 유전자변이 별 질병 연관성 원점수
본 발명의 일 실시예에 따르면 연관성 분석부(200)는 산출된 유전자변이 별 질병 연관성 가중점수 중 미리 설정된 점수 이상인 질병 연관성 가중점수를 가진 유전자변이를 타겟 질병에 연관성이 있다고 정의하여 미리 설정된 점수 이상인 질병 연관성 가중점수를 가진 유전자변이에 대한 식별 정보, 유전자변이 정보, 연관성 분석 결과 정보를 포함한 질병 연관성 분석 정보를 생성할 수 있다.
본 발명의 일 실시예에 따르면 질병 연관성 가중점수는 특정 값일 수도 있으며, 이분형 결과의 경우 오즈비(Odds ratio) 값, 연속형 결과의 경우 BETA 값, 결과의 유의수준 p-value 값 등의 형식으로 산출될 수 있다.
본 발명의 일 실시예에 따르면 연관성 분석부(200)는 분석 대상 데이터에 포함된 유전체 데이터를 대상으로 타겟 질병에 대한 연관성 분석으로 GWAS 분석 및 AI 분석을 수행하고, 베이시안 추론을 적용하여 유전자변이 도출 분석을 수행하여 GWAS 분석 결과에 포함된 유전자변이별 질병 연관성 베타 값을 사전확률로 설정한 후, AI 분석을 통한 유전자변이별 중요도 점수와 타겟 질병 영향력 점수를 새롭게 추가되는 조건으로 하여 조건부 확률을 산출하고, 각 유전자변이 별 질병 발병 확률값을 산출하여 유전자변이 별로 질병별 유전자변이 연관성 점수를 부여할 수 있다.
본 발명의 일 실시예에 따르면 연관성 분석부(200)는 어노테이션 수행부(300)로부터 복수의 공개 데이터 베이스로부터 질병 연관성 분석 정보에 따라 타겟 질병과 매칭된 유전자변이를 대상으로 유전자변이에 대한 영향을 주제로 기고된 복수의 선행 문헌를 수신할 수 있으며, 수신된 복수의 선행 문헌를 대상으로 메타 분석을 수행할 수 있다.
본 발명의 일 실시예에 따르면 메타 분석은 수신한 선행 문헌들을 분석하여 선행 문헌별 분석 정보 기반의 데이터 세트를 생성하고 해당 데이터 세트를 대상으로 유전자 변이의 주제에 부합하는 효과 크기, 즉 해당 유전자 변이가 특정 질환에 영향을 미치는 크기를 산출하고, 효과 크기를 이용하여 타겟 질환 영향력 점수를 측정함으로써 이에 따라 질환 유발 인자 후보로 선별하는 것을 의미할 수 있다.
본 발명의 일 실시예에 따르면 GWAS 분석 결과에 포함된 유전자변이별 질환 연관성 베타 값을 사전확률 [P(A)]로 정의하고, AI 분석을 통한 유전자변이별 중요도 점수를 [P(A|B)], 메타 분석을 통한 타겟 질병 영향력 점수 [P(A|C)]로 정의하고 이를 새롭게 추가되는 조건으로 하여 수학식 2와 같이 조건부 확률을 산출하여 유전자변이 별로 질환별 유전자변이 연관성 점수를 부여할 수 있다.
Figure 112022074900110-pat00002
본 발명의 일 실시예에 따르면 수학식 2과 같이 조건부 확률을 산출함으로써 GWAS 결과에 대하여 AI 결과와 메타 분석 결과를 이용한 보정을 수행하여 각 유전자변이 별 질환 발병 확률값을 얻을 수 있고 이를 토대로 유전자변이 별로 질환별 유전자변이 연관성 점수를 부여할 수 있다.
어노테이션 수행부(300)는 복수의 공개 데이터 베이스로부터 질병 연관성 분석 정보에 따라 타겟 질병과 매칭된 유전자변이를 대상으로 유전자변이에 대한 영향을 주제로 기고된 복수의 선행 문헌을 유전자변이 별로 스크래핑하여 수집하여 어노테이션 분석 대상 정보를 생성하고, 어노테이션 분석 대상 정보를 분석하여 복수의 선행 문헌 별로 상기 유전자변이의 주제에 부합하는 효과 크기를 산출하며, 상기 수집된 선행 문헌의 수와 선행 문헌 별 효과 크기를 포함하는 주석 데이터를 생성하고, 상기 주석 데이터를 유전체 데이터에 추가하여 어노테이션을 수행할 수 있다.
본 발명의 일 실시예에 따르면 공개 데이터 베이스는 GteX portal, ClinVar, dbsnp, genecard, drugbank, PubMed, Embase, google scholar 등이 사용될 수 있다.
본 발명의 일 실시예에 따르면 어노테이션 수행부(300)는 질병 연관성 분석 정보에 따라 타겟 질병과 매칭된 유전자변이에 대한 정보를 복수의 공개 데이터 베이스로 송신하고, 복수의 공개 데이터 베이스로부터 검색된 타겟 질병과 매칭된 유전자변이를 대상으로 유전자변이에 대한 영향을 주제로 기고된 복수의 선행 문헌을 대상으로 유전자변이 별로 스크래핑을 수행하여 어노테이션 분석 대상 정보를 생성할 수 있다.
본 발명의 일 실시예에 따르면 어노테이션 수행부(300)는 어노테이션 분석 대상 정보를 분석하여 복수의 선행 문헌 별 효과 크기를 산출할 수 있다.
본 발명의 일 실시예에 따르면 어노테이션 수행부(300)는 복수의 선행 문헌별을 분석하여 동일한 주제, 즉 특정 질병에 대한 특정 유전자변이의 영향성에 대하여 기재된 선행 문헌을 체계적으로 고찰하고, 최종 선정된 문헌들을 분석하여 주제에 부합하는 결과값(효과 크기)을 추출하여 사용할 수 있다.
본 발명의 일 실시예에 따르면 어노테이션 수행부(300)는 복수의 선행 문헌별로 유전자변이의 주제에 부합하는 효과 크기는 각 선행 문헌별로 오즈비(odds ratio)와 신뢰구간을 산출하여, 오즈비와 신뢰구간을 토대로 선행 문헌별 유전자변이가 타겟 질병에 미치는 효과 크기를 추정할 수 있다.
본 발명의 일 실시예에 따르면 효과 크기를 추출하기 위한 방법은 다양하게 존재할 수 있으며, 추출하는 효과크기의 종류는 주제에 따라 상이한데, 표준화 평균차(Standardized mean difference)를 기준으로 한 효과크기, 상관계수를 기준으로 한 효과 크기, 그리고 오즈비(odds ratio)를 기준으로 한 효과 크기 등을 사용할 수 있다.
본 발명의 일 실시예에 따르면 오즈비(odds ratio)를 기준으로 효과 크기를 산출하기 위하여 각 유전자변이 별로 질환에 대한 영향력의 크기(연관성 크기)에 대한 지표인 오즈비(odds ratio, OR)와 95% 신뢰구간(95% Confidence Interval, CI)을 토대로 효과크기를 추정할 수 있으며. 각 개별 문헌의 오즈비를 종합하여 종합 효과크기(overall OR)를 산출할 수 있다.
본 발명의 일 실시예에 따르면 산출한 효과 크기를 이용하여 유전자변이 별로 타겟 질환 영향력 점수를 측정하기 위하여 역분산 추정법(generic inverse variance estimation method)을 이용할 수 있다.
본 발명의 일 실시예에 따르면 역분산 추정법은 메타분석에서 가중치를 주기위해 사용되는 방법으로, 추정된 효과크기의 분산의 역수를 개별 선행 문헌의 가중치로 사용할 수 있다.
역분산 추정법을 사용하는 본 발명의 일 실시예에 따르면 표본수가 큰 연구에 대한 선행 문헌은 작은 분산을 가지고, 분산의 역수는 커지게 될 것이므로, 표본수가 큰 연구에 대한 선행 문헌에 더 큰 가중치를 주는 것으로 사용될 수 있다.
상기 일 실시예에 따르면 각 선행 문헌의 오즈비에 자연로그를 취한
Figure 112022074900110-pat00003
를 산출하고,
Figure 112022074900110-pat00004
에 대한 표준오차(SE)를 계산하고, 계산된 표준오차의 제곱의 역수를 가중치
Figure 112022074900110-pat00005
로 산출할 수 있으며, 수학식 3과 같이 산출된 각 선행 문헌의 가중치를 오즈비에 곱한 값을 모두 합하여 종합적인 효과 크기(ORpooled)를 계산할 수 있다.
Figure 112022074900110-pat00006
Figure 112022074900110-pat00007
Figure 112022074900110-pat00008
본 발명의 일 실시예에 따르면 어노테이션 수행부(300)는 수집된 선행 문헌의 수와 선행 문헌 별 효과 크기를 포함하는 주석 데이터를 생성하고, 주석 데이터를 유전체 데이터에 추가하여 어노테이션을 수행할 수 있다.
본 발명의 일 실시예에 따르면 어노테이션 분석 대상 정보를 분석하여 획득한 타겟 질병과 매칭된 각 유전자변이에 수집된 선행 문헌의 수와 선행 문헌 별 효과 크기에 대한 정보를 주석 데이터로 생성할 수 있으며, 어노테이션은 생성한 주석 데이터를 각 유전자변이 별로 유전체 데이터에 주석 형태로 추가하는 것을 의미할 수 있다.
타겟 질병 영향력 점수 산출부(400)는 유전자변이 별로 수집된 복수의 선행 문언 수에 선행 문언별 효과 크기를 가중치로 적용하여 각 유전자변이 별 타겟 질병 영향력 점수를 산출할 수 있다.
본 발명의 일 실시예에 따르면 타겟 질병 영향력 점수 산출부(400)는 타겟 질병을 대상으로 선행 문언별 효과 크기가 크면 클수록 높은 가중치를 부여하고 선행 문언 수에 가중치를 적용하는 방법으로 각 유전자변이 별 타겟 질병 영향력 점수를 산출할 수 있다.
본 발명의 일 실시예에 따르면 타겟 질병 영향력 점수 산출부(400)는 효과 크기에 역분산 추정을 통해 선행 문헌별 가중치로 산출하고, 선행 문헌별 오즈비에 가중치를 적용하여 유전자변이별로 수집된 복수의 선행 문언 수를 반영함으로써 산출된 선행 문헌별 오즈비를 합산하여 타겟 질병 영향력 점수를 산출할 수 있다.
질병 프로파일링 정보 생성부(500)는 유전자변이 별 연관성 분석 정보에 포함된 유전자변이 별 타겟 질병 영향력 점수를 기준으로 질병에 연관성이 높다고 판단되는 유전자변이에 대한 유전체 데이터를 이용하여 질병 프로파일링 정보를 생성할 수 있다.
여기서 질병 프로파일링 정보는 유전체 데이터 중 유전자변이 별 타겟 질병 영향력 점수를 기준으로 질병에 연관성이 높다고 판단되는 유전자변이에 대한 유전체 데이터만을 선정하여, 선정된 유전체 데이터에 포함되어 있는 주석 데이터를 이용하여 사용자에게 타겟 질병을 대상으로 유전자변이가 미치는 생물학적 기능 정보 및 의학적 설명 정보를 직관적으로 제공할 수 있는 정보를 의미할 수 있다.
도 2는 본 발명의 제2 실시예에 따라 구현된 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템의 구성도이다.
유효성 정보 생성부(600)는 질병 프로파일링 정보를 기준으로 매칭된 특정 유전자변이와 질병에 대하여 수집된 복수의 선행 문헌을 대상으로 자연어 처리를 수행하여 질병-유전자변이 유효성 정보, 화합물-유전자변이 유효성 정보, 질병-화합물 유효성 정보를 생성하고, 생성된 유효성 정보 별로 각 유전자변이-질병 유효성 점수를 산출할 수 있다.
본 발명의 일 실시예에 따르면 유효성 정보는 질병-유전자변이간 유효성 정보, 화합물-유전자변이 유효성 정보, 질병-화합물 유효성 정보 중 적어도 하나를 포함하는 정보를 의미할 수 있다.
본 발명의 일 실시예에 따르면 질병-유전자변이 유효성 정보는 수집된 복수의 선행 문헌에 타켓 질병과 특정 유전자변이에 대한 관계성이 기재되어 있는 내용을 추출하여 생성한 정보를 의미할 수 있다.
본 발명의 일 실시예에 따르면 질병-유전자변이 유효성 정보는 선행 문헌으로부터 추출한 타켓 질병과 특정 유전자변이에 대한 관계성(예를 들어 활성화 여부, 발병 억제 효과 등)이 기재되어 있는 내용을 추출함에 있어 자연어 처리를 통해 미리 설정된 단어 또는 문장과 동일 또는 유사한 단어 및 문장의 포함여부에 대한 정보를 포함할 수 있으며, 미리 설정된 단어 또는 문장은 중요도에 따라 각각 가중치가 미리 설정되어 있을 수 있다.
본 발명의 일 실시예에 따르면 화합물-유전자변이 유효성 정보는 선행 문헌으로부터 추출한 특정 화합물과 특정 유전자변이에 대한 관계성(예를 들어 결합 조건 및 화합물 사용 약물 존재 여부 등)이 기재되어 있는 내용을 추출함에 있어 자연어 처리를 통해 미리 설정된 단어 또는 문장과 동일 또는 유사한 단어 및 문장의 포함여부에 대한 정보를 포함할 수 있으며, 미리 설정된 단어 또는 문장은 중요도에 따라 각각 가중치가 미리 설정되어 있을 수 있다.
본 발명의 일 실시예에 따르면 질병-화합물 유효성 정보는 선행 문헌으로부터 추출한 특정 화합물과 타겟 질병에 대한 관계성(예를 들어 질병 발현 여부 및 부작용 발생 여부 등)이 기재되어 있는 내용을 추출함에 있어 자연어 처리를 통해 미리 설정된 단어 또는 문장과 동일 또는 유사한 단어 및 문장의 포함여부에 대한 정보를 포함할 수 있으며, 미리 설정된 단어 또는 문장은 중요도에 따라 각각 가중치가 미리 설정되어 있을 수 있다.
본 발명의 일 실시예에 따르면 유효성 정보 생성부(600)는 수집된 복수의 선행 문헌을 자연어 처리를 통하여 각 선행 문헌에 미리 설정된 단어 또는 문장과 동일 또는 유사한 단어 및 문장의 포함 여부 및 포함 횟수를 기준으로 0~1 사이의 점수를 산출할 수 있고, 미리 설정된 단어 또는 문장과 동일 또는 유사한 단어가 포함되지 않은 경우 0으로 산정하고, 미리 설정된 단어 또는 문장과 동일 또는 유사한 단어가 많이 포함될수록, 포함된 횟수가 많을수록 1에 가까워 지도록 각 선행 문헌 별로 문헌 연관성 점수를 산출할 수 있다.
본 발명의 일 실시예에 따르면 문헌 연관성 점수는 유효성 정보를 분석하여 각 논문 별로 다양한 조합의 질병-화합물, 화합물-유전자변이, 질병-유전자변이들 사이에 연관성이 있다는 전제를 가설로 세우고, 가설에 대한 유효성이 어느정도 인지 수치화한 점수를 의미할 수 있다.
본 발명의 일 실시예에 따르면 상기 각 선행 문헌 별로 산출된 문헌 연관성 점수에 선행 문헌에서 사용한 데이터의 종류에 따라, 임상 시험에 포함된 정보인지 여부에 따라, 선행 문헌이 인용된 문헌의 수에 따라 문헌 가중치를 부여하고, 각 선행 문헌 별로 문헌 연관성 점수에 문헌 가중치를 적용하여 문헌 연관성 가중점수를 산출할 수 있다.
본 발명의 일 실시예에 따르면 문헌 연관성 가중점수는 문헌 연관성 점수에 선행 문헌별로 산출된 문헌 가중치를 적용한 선행 문헌 별 점수를 의미할 수 있다.
본 발명의 일 실시예에 따르면 산출된 문헌 연관성 가중점수를 이용하여 동일 질병-화합물, 화합물-유전자변이, 질병-유전자변이에 대한 적어도 하나의 선행 논문에 대한 문헌 연관성 가중점수들의 평균 값을 연관 유효성 점수로 산출할 수 있다.
본 발명의 일 실시예에 따르면 연관 유효성 점수는 다양한 조합의 질병-화합물, 화합물-유전자변이, 질병-유전자변이에 대한 유효성 정보 별로 각 조합이 얼마나 강한 연관성을 가지고 있는지에 한 점수를 의미할 수 있으며, 점수가 높을수록 각 조합 간의 연관성은 높은 것으로 볼 수 있다.
예를 들어 화합물 A와 유전자변이 1과의 화합물-유전자변이 유효성 정보를 생성함에 있어 화합물 A와 유전자변이 1에 대하여 미리 설정된 단어 또는 문장과 동일 또는 유사한 단어 및 문장이 포함된 선행문헌이 선행 문헌 a, b 두개가 존재한다고 가정하면, 선행 문헌 a, b에 대한 문헌 연관성 점수를 산출할 수 있고 선행 문헌 a, b에 따라 산출된 문헌 가중치를 문헌 연관성 점수에 적용하여 선행 문헌 a, b에 대한 각각 문헌 연관성 가중점수를 산출할 수 있다.
이후 선행 문헌 a, b는 동일 화합물-유전자변이 유효성 정보(화합물 A와 유전자변이 1 조합)에 대한 선행 문헌이므로 선행 문헌 a, b 각각의 문헌 연관성 가중점수들의 평균 값을 연관 유효성 점수로 산출할 수 있다.
본 발명의 일 실시예에 따르면 예를 들어 화합물 A와 유전자변이 1 조합에 대한 화합물-유전자변이 유효성 정보의 연관 유효성 점수가 0.8이고, 화합물 B와 유전자변이 1 조합에 대한 화합물-유전자변이 유효성 정보의 연관 유효성 점수가 0.3이라고 한다면 화합물 A와 유전자변이 1 사이의 연관성이 더 크고 유효성도 높은 것일 수 있다.
여기서 연관성은 특정 데이터에 포함된 각 항목 사이에 서로 영향을 미칠 수 있는 가능성이라고 정의할 수 있으며, 유효성은 특정 데이터에 대한 신뢰도를 의미할 수 있다.
유효성 가중치 생성부(700)는 복수의 유효성 정보를 이용하여 유전자변이 별로 특정 유전자변이를 시작점으로 하고 특정 질병을 끝점으로 하며, 동일한 항목의 유전자변이, 질병, 화합물 중 적어도 하나를 중간 노드로 하는 유전자변이-질병 유효성 네트워크를 생성할 수 있고, 생성된 유전자변이-질병 유효성 네트워크 중 시작점부터 끝점까지 연결된 적어도 하나의 루트를 선정하여 선정된 루트 별로 유전자변이-질병 유효성 총점수를 산출하여 상대적으로 가장 높은 점수를 가진 루트를 최적 유효성 패스로 선정할 수 있으며, 최적 유효성 패스에 포함된 적어도 하나의 유전자변이에 대하여 최적 유효성 패스의 유전자변이-질병 유효성 총점수를 기준으로 유효성 가중치를 산정할 수 있다.
본 발명의 일 실시예에 따르면 유효성 가중치 생성부(700)는 복수의 유효성 정보에 포함된 복수의 질병-화합물, 화합물-유전자변이, 질병-유전자변이 유효성 정보를 이용하여 특정 유전자변이를 시작점으로 하고 특정 질병을 끝점으로 하며 서로 동일한 항목을 중간 노드로 하여 동일한 항목끼리 연결되는 유전자변이-질병 유효성 네트워크를 생성할 수 있다.
본 발명의 일 실시예에 따르면 유효성 가중치 생성부(700)는 유전자변이-질병 유효성 네트워크 중에서 시작점인 특정 유전자변이부터 서로 동일한 항목끼리 연결된 중간 노드를 지나 끝점인 특정 질병까지 연결된 루트를 생성할 수 있으며, 루트는 하나 또는 그 이상일 수 있다.
예를 들어 특정 유전자변이를 A 특정 질병은 1이라고 하는 경우 유효성 정보 중 유전자변이 A-질병 2 대한 유효성 정보, 유전자변이 A-화합물 a 유효성 정보, 질병 1- 유전자변이 A 유효성 정보, 질병 1-화합물 a 유효성 정보, 질병 2-화합물 b 유효성 정보, 화합물 b-질병 1 유효성 정보가 포함되어 있다고 가정하면, 도 4와 같이 시작점인 특정 유전자변이 A는 화합물 a와 연결될 수 있고, 화합물 a는 끝점인 질병 1(루트 1)과 연결되게 이어질 수 있으며, 또다른 루트로는 시작점인 특정 유전자변이 A는 질병 2와 연결될 수 있고, 질병 2는 화합물 b와, 화합물 b는 질병 1과 연결(루트 2)되게 이어질 수 있다.
본 발명의 일 실시예에 따르면 유효성 가중치 생성부(700)는 선정된 루트 별로 유전자변이-질병 유효성 총점수를 산출하여 상대적으로 가장 높은 점수를 가진 루트를 최적 유효성 패스로 선정할 수 있다.
상술한 예시에 따르면 루트 1은 유전자변이 A는 화합물 a와 연결될 수 있고, 화합물 a는 끝점인 질병 1로 연결될 수 있고 이때 유전자변이 A- 화합물 a 유효성 정보에 포함된 연관 유효성 점수(0.3), 화합물 a-질병 1 유효성 정보에 포함된 연관 유효성 점수(0.5)인 경우 루트 1의 유전자변이-질병 유효성 총점수는 0.8일 수 있다.
또한 루트 2는 유전자변이 A는 질병 2와 연결될 수 있고, 질병 2는 화합물 b와 연결될 수 있고 화합물 b는 끝점인 질병 1로 연결될 수 있으며, 이때 유전자변이 A-질병 2 유효성정보에 포함된 연관 유효성 점수(0.4), 질병 2-화합물 b 유효성정보에 포함된 연관 유효성 점수(0.4), 화합물 b-질병 1 유효성정보에 포함된 연관 유효성 점수(0.3)인 경우 루트 2의 유전자변이-질병 유효성 총점수는 1.1일 수 있으며 이 경우 루트 2를 최적 유효성 패스로 선정할 수 있다.
본 발명의 일 실시예에 따르면 유효성 가중치 생성부(700) 최적 유효성 패스에 포함된 유전자변이에 대하여 최적 유효성 패스의 유전자변이-질병 유효성 총점수를 기준으로 유효성 가중치를 산정할 수 있다.
예를 들어 루트 2가 최적 유효성 패스로 선정된 경우 최적 유효성 패스에 포함된 유전자변이인 유전자변이 A에 대하여 루트 2의 유전자변이-질병 유효성 총점수를 기준으로 하여 유효성 가중치를 산정할 수 있다.
본 발명의 일 실시예에 따르면 유효성 가중치를 산출함에 있어 미리 설정한 가중치 산출 구간에 따라 유전자변이-질병 유효성 총점수를 기준으로 각 구간별로 산정하는 방법이 사용될 수 있으나, 또 다른 일 실시예에 따르면 유전자변이-질병 유효성 네트워크에 포함된 각 루트별 유전자변이-질병 유효성 총점수의 평균치를 기준으로 표준점수를 산출하여 산정하는 방법이 사용될 수도 있다.
업데이트 수행부(800)는 유전자변이 별 타겟 질환 영향력 점수에 산출된 유전자변이와 질병 간의 유효성 가중치를 적용하여 재산출된 타겟 질환 영향력 점수에 따라 질병 프로파일링 정보를 업데이트할 수 있다.
본 발명의 일 실시예에 따르면 업데이트 수행부(800)는 유전자변이 별 타겟 질환 영향력 점수에 산출된 유전자변이와 질병 간의 유효성 가중치를 적용하여 타겟 질환 영향력 점수를 재산출할 수 있으며, 재산출된 타겟 질환 영향력 점수를 기준으로 미리 설정한 기준값을 넘는 유전자변이에 대한 유전체 데이터를 질병 프로파일링 정보에 포함시켜 업데이트를 수행할 수 있다.
도 3은 본 발명의 제3 실시예에 따라 구현된 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템의 구성도이다.
도 3을 참조하면 본 발명의 제3 실시예에 따라 구현된 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템(1200)은 분석 대상 데이터 수집부(100), 연관성 분석부(200), 어노테이션 수행부(300), 타겟 질병 영향력 점수 산출부(400), 질병 프로파일링 정보 생성부(500)에 시각화 정보 제공부(900)를 더 포함할 수 있다.
시각화 정보 제공부(900)는 질병 프로파일링 정보를 이용하여 각 유전자변이별 질병 유발 영향력에 대한 시각화 정보를 생성하여 사용자에게 디스플레이할 수 있다.
본 발명의 일 실시예에 따르면 질병 프로파일링 정보 생성부(500)는 질병 프로파일링 정보를 이용하여 타겟 질병과 유전자변이 사이의 다방면적인 분석 정보(임상적 분석 정보, 약물개발 분석 정보 등)의 시각화 정보(정보종합 표, 원 형태와 중요도가 색으로 강조된 도식 등)를 제공하여 사용자가 쉽고 빠르게 타겟 질병에 대해 유전자변이가 가지는 의미를 이해할 수 있도록 할 수 있다.
본 발명의 일 실시 예에 따르면 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템을 통해 기허가 약물을 정신 질환 치료용으로 허가 확대하기 위한 목적으로 연관성 분석부(200)의 결과로 유의미하게 산출된 variant가 속해있는 유전자를 타겟으로 하는 기허가 약물이 어노테이션 수행부(300)의 약물 데이터베이스로부터 매칭이 될 수 있다.
상기 일 실시예에 따르면 어노테이션 수행부(300)는 eQTL(expression quantitative trait) 데이터베이스로부터 해당 variant의 인간 장기 별 발현량(gene expression) 를 통하여 variant의 유전형(genotype)에 따라 다른 유전자 발현데이터를 통해 매칭할 수 있으며,타겟 질환 영향력 점수 산출부(400)에서 보고된 유전자 발현 데이터의 통계 검정에 따라 가중치를 두어 유효성을 판단하고, 질병 프로파일링 정보 생성부(500)에서 다수의 인간 대상 연구(환자-대조군, 코호트 등) 와 실험연구(in vivo, in vitro) 문헌들을 수집할 수 있다.
상기 일 실시예에 따르면 유효성 정보 생성부(600)에서는 자연어처리를 통하여 해당 기허가약물의 성분명, 타겟 유전자, 약 복용력, 정신질환 관련 적응증 등이 포함된 유의미한 데이터만을 구성할 수 있으며, 유효성 가중치 생성부(700)에서는 자연어처리 결과 데이터의 통계적 검정에 따라 재 가중치를 부여하고, 시각화 정보 제공부(900)에서 가중치 기준 내림차순으로 정신질환 치료에 가장 유의미한 기허가 약물에 대한 시각화를 제공할 수 있다.
도 5는 본 발명의 일 실시예에 따른 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 방법의 흐름도이다.
유전자형 데이터 및 표현형 데이터를 포함하는 유전체 데이터를 수신하고, 수신한 복수의 유전체 데이터의 각 품질 지수를 산출하여 산출된 품질 지수가 미리 설정된 임계치를 초과하는 유전체 데이터를 분석 대상 데이터로 수집한다(S10).
본 발명의 일 실시예에 따르면 유전체 코호트 데이터 베이스부터 유전자형(genotype)데이터 및 표현형(phenotype) 데이터를 포함하는 유전체 데이터를 수신하고, 수신한 복수의 유전체 데이터의 각 품질 지수를 산출하여 산출된 품질 지수가 미리 설정된 임계치를 초과하는 유전체 데이터를 분석 대상 데이터로 수집할 수 있다.
본 발명의 일 실시예에 따르면 유전체 코호트 데이터 베이스부터 수신한 유전체 데이터를 대상으로 품질 지수를 산출하여 미리 설정된 임계치를 초과하는 품질 지수를 가진 유전체 데이터만을 분석 대상 데이터로 수집하여 데이터 품질 관리를 수행할 수 있다.
본 발명의 일 실시예에 따르면 유전체 데이터를 대상으로 품질 지수를 산출하기 위하여 유전체 데이터를 대상으로 LD(Linkage Disequilibrium)분석을 수행하여 도출한 결과값 또는 HWE(Hardy??Weinberg Equilibrium)분석을 수행하여 도출한 결과값, MAF(Minor Allele Frequency)분석을 수행하여 도출한 결과값, 대치법을 이용한 결측치(Missing Value) 중 적어도 하나의 방법을 이용할 수 있다.
본 발명의 일 실시예에 따르면 복수의 데이터베이스로부터 수신한 유전체 데이터 중 일정 수준 이상의 신뢰도를 가지는 것으로 분류된 미리 설정된 임계치를 초과하는 일부 유전체 데이터를 분석 대상 데이터로 선정할 수 있으며, 여기서 분석 대상 데이터는 연관성 분석의 대상이 될 유전체 데이터를 의미할 수 있다.
분석 대상 데이터로 선정된 유전체 데이터를 대상으로 연관성 분석을 수행하여 산출한 유전자변이 별 유전자 변이 질환 연관성 점수에 유전자형별 영향 대립인자의 개수, 상기 대립인자 별 결과변수 영향력(BETA 값)를 기준으로 가중치를 적용하여 유전자변이 별 질병 연관성 가중점수를 산출하며, 산출된 유전자변이 별 질병 연관성 가중점수 중 미리 설정된 점수 이상인 유전자변이의 질병 연관성 가중점수를 대상으로 유전자변이 별 질병 연관성 분석 정보를 생성한다(S20).
본 발명의 일 실시예에 따르면 분석 대상 데이터로 선정된 유전체 데이터를 대상으로 타겟 질병에 대한 연관성 분석을 수행하여 타겟 질병에 대한 유전자변이 별 질병 연관성 원점수 및 유전자형별 영향 대립인자의 개수, 대립인자 별 결과변수 영향력(BETA 값)를 산출하고, 유전자변이 별 유전자변이 질병 연관성 원점수에 유전자형별 영향 대립인자의 개수, 대립인자 별 결과변수 영향력(BETA 값)를 기준으로 가중치를 적용하여 유전자변이 별 질병 연관성 가중점수를 산출할 수 있으며, 산출된 유전자변이 별 질병 연관성 가중점수 중 미리 설정된 점수 이상인 유전자변이의 질병 연관성 가중점수를 대상으로 유전자변이 별 질병 연관성 분석 정보를 생성할 수 있다.
본 발명의 일 실시예에 따르면 분석 대상 데이터로 선정된 유전체 데이터를 대상으로 타겟 질병에 대한 연관성 분석을 수행함에 있어 GWAS(genome-wide association study) 분석을 수행할 수 있다.
본 발명의 일 실시예에 따르면 분석 대상 데이터에 포함된 유전체 데이터를 대상으로 타겟 질병에 대한 GWAS 분석 또는 AI 분석을 통해 유전자변이 별 질병 연관성 원점수 및 유전자형별 영향 대립인자의 개수, 대립인자 별 결과변수 영향력(BETA 값)를 산출할 수 있다.
본 발명의 일 실시예에 따르면 연관성 분석으로 GWAS 분석을 수행하고, GWAS 분석 결과에 따른 유전자변이별 질병 연관성 베타 값의 절대값을 질병 유발에 대한 영향력으로 판단하여 유전자변이 별로 질병별 유전자변이 연관성 점수를 부여할 수 있다.
본 발명의 일 실시예에 따르면 유전자형별 영향 대립인자의 개수, 상기 대립인자 별 결과변수 영향력(BETA 값)를 기준으로 가중치를 적용하여 수학식 1과 같이 유전자변이 별 질병 연관성 가중점수(Y)를 산출할 수 있다.
본 발명의 일 실시예에 따르면 산출된 유전자변이 별 질병 연관성 가중점수 중 미리 설정된 점수 이상인 질병 연관성 가중점수를 가진 유전자변이를 타겟 질병에 연관성이 있다고 정의하여 미리 설정된 점수 이상인 질병 연관성 가중점수를 가진 유전자변이에 대한 식별 정보, 유전자변이 정보, 연관성 분석 결과 정보를 포함한 질병 연관성 분석 정보를 생성할 수 있다.
본 발명의 일 실시예에 따르면 질병 연관성 가중점수는 특정 값일 수도 있으며, 이분형 결과의 경우 오즈비(Odds ratio) 값, 연속형 결과의 경우 BETA 값, 결과의 유의수준 p-value 값 등의 형식으로 산출될 수 있다.
본 발명의 일 실시예에 따르면 분석 대상 데이터에 포함된 유전체 데이터를 대상으로 타겟 질병에 대한 연관성 분석으로 GWAS 분석 및 AI 분석을 수행하고, 베이시안 추론을 적용하여 유전자변이 도출 분석을 수행하여 GWAS 분석 결과에 포함된 유전자변이별 질병 연관성 베타 값을 사전확률로 설정한 후, AI 분석을 통한 유전자변이별 중요도 점수와 타겟 질병 영향력 점수를 새롭게 추가되는 조건으로 하여 조건부 확률을 산출하고, 각 유전자변이 별 질병 발병 확률값을 산출하여 유전자변이 별로 질병별 유전자변이 연관성 점수를 부여할 수 있다.
본 발명의 일 실시예에 따르면 GWAS 분석 결과에 포함된 유전자변이별 질환 연관성 베타 값을 사전확률 [P(A)]로 정의하고, AI 분석을 통한 유전자변이별 중요도 점수를 [P(A|B)], 메타 분석을 통한 타겟 질병 영향력 점수 [P(A|C)]로 정의하고 이를 새롭게 추가되는 조건으로 하여 수학식 2와 같이 조건부 확률을 산출하여 유전자변이 별로 질환별 유전자변이 연관성 점수를 부여할 수 있다.
본 발명의 일 실시예에 따르면 수학식 2과 같이 조건부 확률을 산출함으로써 GWAS 결과에 대하여 AI 결과와 메타 분석 결과를 이용한 보정을 수행하여 각 유전자변이 별 질환 발병 확률값을 얻을 수 있고 이를 토대로 유전자변이 별로 질환별 유전자변이 연관성 점수를 부여할 수 있다.
질병 연관성 분석 정보에 따라 매칭된 유전자 변이에 타겟 질병을 대상으로 유전자 변이에 대한 영향을 주제로 기고된 복수의 선행 문헌을 유전자 변이 별로 스크래핑하여 수집하고, 수집된 복수의 선행 문헌을 분석하여 복수의 선행 문헌 별로 상기 유전자 변이의 주제에 부합하는 효과 크기를 산출하며, 수집된 선행 문헌의 수와 선행 문헌 별 효과 크기를 포함하는 주석 데이터를 생성하고, 상기 주석 데이터를 유전체 데이터에 추가하여 어노테이션을 수행한다(S30).
본 발명의 일 실시예에 따르면 복수의 공개 데이터 베이스로부터 질병 연관성 분석 정보에 따라 타겟 질병과 매칭된 유전자변이를 대상으로 유전자변이에 대한 영향을 주제로 기고된 복수의 선행 문헌을 유전자변이 별로 스크래핑하여 수집하여 어노테이션 분석 대상 정보를 생성하고, 어노테이션 분석 대상 정보를 분석하여 복수의 선행 문헌 별로 상기 유전자변이의 주제에 부합하는 효과 크기를 산출하며, 상기 수집된 선행 문헌의 수와 선행 문헌 별 효과 크기를 포함하는 주석 데이터를 생성하고, 상기 주석 데이터를 유전체 데이터에 추가하여 어노테이션을 수행할 수 있다.
본 발명의 일 실시예에 따르면 공개 데이터 베이스는 GteX portal, ClinVar, dbsnp, genecard, drugbank 등이 사용될 수 있다.
본 발명의 일 실시예에 따르면 질병 연관성 분석 정보에 따라 타겟 질병과 매칭된 유전자변이에 대한 정보를 복수의 공개 데이터 베이스로 송신하고, 복수의 공개 데이터 베이스로부터 검색된 타겟 질병과 매칭된 유전자변이를 대상으로 유전자변이에 대한 영향을 주제로 기고된 복수의 선행 문헌을 대상으로 유전자변이 별로 스크래핑을 수행하여 어노테이션 분석 대상 정보를 생성할 수 있다.
본 발명의 일 실시예에 따르면 어노테이션 분석 대상 정보를 분석하여 복수의 선행 문헌 별 효과 크기를 산출할 수 있다.
본 발명의 일 실시예에 따르면 복수의 선행 문헌별을 분석하여 동일한 주제, 즉 특정 질병에 대한 특정 유전자변이의 영향성에 대하여 기재된 선행 문헌을 체계적으로 고찰하고, 최종 선정된 문헌들을 분석하여 주제에 부합하는 결과값(효과 크기)을 추출하여 사용할 수 있다.
본 발명의 일 실시예에 따르면 복수의 선행 문헌별로 유전자변이의 주제에 부합하는 효과 크기는 각 선행 문헌별로 오즈비(odds ratio)와 신뢰구간을 산출하여, 오즈비와 신뢰구간을 토대로 선행 문헌별 유전자변이가 타겟 질병에 미치는 효과 크기를 추정할 수 있다.
본 발명의 일 실시예에 따르면 효과 크기를 추출하기 위한 방법은 다양하게 존재할 수 있으며, 추출하는 효과크기의 종류는 주제에 따라 상이한데, 표준화 평균차(Standardized mean difference)를 기준으로 한 효과크기, 상관계수를 기준으로 한 효과 크기, 그리고 오즈비(odds ratio)를 기준으로 한 효과 크기 등을 사용할 수 있다.
본 발명의 일 실시예에 따르면 오즈비(odds ratio)를 기준으로 효과 크기를 산출하기 위하여 각 유전자변이 별로 질환에 대한 영향력의 크기(연관성 크기)에 대한 지표인 오즈비(odds ratio, OR)와 95% 신뢰구간(95% Confidence Interval, CI)을 토대로 효과크기를 추정할 수 있으며. 각 개별 문헌의 오즈비를 종합하여 종합 효과크기(overall OR)를 산출할 수 있다.
본 발명의 일 실시예에 따르면 산출한 효과 크기를 이용하여 유전자변이 별로 타겟 질환 영향력 점수를 측정하기 위하여 역분산 추정법(generic inverse variance estimation method)을 이용할 수 있다.
본 발명의 일 실시예에 따르면 역분산 추정법은 메타분석에서 가중치를 주기위해 사용되는 방법으로, 추정된 효과크기의 분산의 역수를 개별 선행 문헌의 가중치로 사용할 수 있다.
역분산 추정법을 사용하는 본 발명의 일 실시예에 따르면 표본수가 큰 연구에 대한 선행 문헌은 작은 분산을 가지고, 분산의 역수는 커지게 될 것이므로, 표본수가 큰 연구에 대한 선행 문헌에 더 큰 가중치를 주는 것으로 사용될 수 있다.
상기 일 실시예에 따르면 각 선행 문헌의 오즈비에 자연로그를 취한
Figure 112022074900110-pat00009
를 산출하고,
Figure 112022074900110-pat00010
에 대한 표준오차(SE)를 계산하고, 계산된 표준오차의 제곱의 역수를 가중치
Figure 112022074900110-pat00011
로 산출할 수 있으며, 수학식 3과 같이 산출된 각 선행 문헌의 가중치를 오즈비에 곱한 값을 모두 합하여 종합적인 효과 크기(ORpooled)를 계산할 수 있다.
본 발명의 일 실시예에 따르면 수집된 선행 문헌의 수와 선행 문헌 별 효과 크기를 포함하는 주석 데이터를 생성하고, 주석 데이터를 유전체 데이터에 추가하여 어노테이션을 수행할 수 있다.
본 발명의 일 실시예에 따르면 어노테이션 분석 대상 정보를 분석하여 획득한 타겟 질병과 매칭된 각 유전자변이에 수집된 선행 문헌의 수와 선행 문헌 별 효과 크기에 대한 정보를 주석 데이터로 생성할 수 있으며, 어노테이션은 생성한 주석 데이터를 각 유전자변이 별로 유전체 데이터에 주석 형태로 추가하는 것을 의미할 수 있다.
유전자변이 별로 수집된 복수의 선행 문언 수와 선행 문언별 효과 크기를 가중치로 적용하여 각 유전자 변이 별 타겟 질환 영향력 점수를 산출한다(S40).
본 발명의 일 실시예에 따르면 유전자변이 별로 수집된 복수의 선행 문언 수에 선행 문언별 효과 크기를 가중치로 적용하여 각 유전자변이 별 타겟 질병 영향력 점수를 산출할 수 있다.
본 발명의 일 실시예에 따르면 타겟 질병을 대상으로 선행 문언별 효과 크기가 크면 클수록 높은 가중치를 부여하고 선행 문언 수에 가중치를 적용하는 방법으로 각 유전자변이 별 타겟 질병 영향력 점수를 산출할 수 있다.
본 발명의 일 실시예에 따르면 효과 크기에 역분산 추정을 통해 선행 문헌별 가중치로 산출하고, 선행 문헌별 오즈비에 가중치를 적용하여 유전자변이별로 수집된 복수의 선행 문언 수를 반영함으로써 산출된 선행 문헌별 오즈비를 합산하여 타겟 질병 영향력 점수를 산출할 수 있다.
유전자변이 별 연관성 분석 정보에 포함된 유전자 변이 별 타겟 질환 영향력 점수를 기준으로 질병에 연관성이 높다고 판단되는 유전자 변이에 대한 유전체 데이터를 이용하여 질병 프로파일링 정보를 생성한다(S50).
본 발명의 일 실시예에 따르면 유전자변이 별 연관성 분석 정보에 포함된 유전자변이 별 타겟 질병 영향력 점수를 기준으로 질병에 연관성이 높다고 판단되는 유전자변이에 대한 유전체 데이터를 이용하여 질병 프로파일링 정보를 생성할 수 있다.
본 발명의 일 실시예에 따르면 질병 프로파일링 정보는 유전체 데이터 중 유전자변이 별 타겟 질병 영향력 점수를 기준으로 질병에 연관성이 높다고 판단되는 유전자변이에 대한 유전체 데이터만을 선정할 수 있으며, 선정된 유전체 데이터에 포함되어 있는 주석 데이터를 이용하여 사용자에게 타겟 질병을 대상으로 유전자변이가 미치는 생물학적 기능 정보 및 의학적 설명 정보를 직관적으로 제공할 수 있다.
본 발명의 일 실시예에 따르면 질병 프로파일링 정보를 기준으로 매칭된 특정 유전자변이와 질병에 대하여 수집된 복수의 선행 문헌을 대상으로 자연어 처리를 수행하여 질병-유전자변이 유효성 정보, 화합물-유전자변이 유효성 정보, 질병-화합물 유효성 정보를 생성하고, 생성된 유효성 정보 별로 각 유전자변이-질병 유효성 점수를 산출할 수 있다.
본 발명의 일 실시예에 따르면 유효성 정보는 질병-유전자변이간 유효성 정보, 화합물-유전자변이 유효성 정보, 질병-화합물 유효성 정보 중 적어도 하나를 포함하는 정보를 의미할 수 있다.
본 발명의 일 실시예에 따르면 질병-유전자변이 유효성 정보는 수집된 복수의 선행 문헌에 타켓 질병과 특정 유전자변이에 대한 관계성이 기재되어 있는 내용을 추출하여 생성한 정보를 의미할 수 있다.
본 발명의 일 실시예에 따르면 질병-유전자변이 유효성 정보는 선행 문헌으로부터 추출한 타켓 질병과 특정 유전자변이에 대한 관계성(예를 들어 활성화 여부, 발병 억제 효과 등)이 기재되어 있는 내용을 추출함에 있어 자연어 처리를 통해 미리 설정된 단어 또는 문장과 동일 또는 유사한 단어 및 문장의 포함여부에 대한 정보를 포함할 수 있으며, 미리 설정된 단어 또는 문장은 중요도에 따라 각각 가중치가 미리 설정되어 있을 수 있다.
본 발명의 일 실시예에 따르면 화합물-유전자변이 유효성 정보는 선행 문헌으로부터 추출한 특정 화합물과 특정 유전자변이에 대한 관계성(예를 들어 결합 조건 및 화합물 사용 약물 존재 여부 등)이 기재되어 있는 내용을 추출함에 있어 자연어 처리를 통해 미리 설정된 단어 또는 문장과 동일 또는 유사한 단어 및 문장의 포함여부에 대한 정보를 포함할 수 있으며, 미리 설정된 단어 또는 문장은 중요도에 따라 각각 가중치가 미리 설정되어 있을 수 있다.
본 발명의 일 실시예에 따르면 질병-화합물 유효성 정보는 선행 문헌으로부터 추출한 특정 화합물과 타겟 질병에 대한 관계성(예를 들어 질병 발현 여부 및 부작용 발생 여부 등)이 기재되어 있는 내용을 추출함에 있어 자연어 처리를 통해 미리 설정된 단어 또는 문장과 동일 또는 유사한 단어 및 문장의 포함여부에 대한 정보를 포함할 수 있으며, 미리 설정된 단어 또는 문장은 중요도에 따라 각각 가중치가 미리 설정되어 있을 수 있다.
본 발명의 일 실시예에 따르면 수집된 복수의 선행 문헌을 자연어 처리를 통하여 각 선행 문헌에 미리 설정된 단어 또는 문장과 동일 또는 유사한 단어 및 문장의 포함 여부 및 포함 횟수를 기준으로 0~1 사이의 점수를 산출할 수 있고, 미리 설정된 단어 또는 문장과 동일 또는 유사한 단어가 포함되지 않은 경우 0으로 산정하고, 미리 설정된 단어 또는 문장과 동일 또는 유사한 단어가 많이 포함될수록, 포함된 횟수가 많을수록 1에 가까워 지도록 각 선행 문헌 별로 문헌 연관성 점수를 산출할 수 있다.
본 발명의 일 실시예에 따르면 문헌 연관성 점수는 유효성 정보를 분석하여 각 논문 별로 다양한 조합의 질병-화합물, 화합물-유전자변이, 질병-유전자변이들 사이에 연관성이 있다는 전제를 가설로 세우고, 가설에 대한 유효성이 어느정도 인지 수치화한 점수를 의미할 수 있다.
본 발명의 일 실시예에 따르면 상기 각 선행 문헌 별로 산출된 문헌 연관성 점수에 선행 문헌에서 사용한 데이터의 종류에 따라, 임상 시험에 포함된 정보인지 여부에 따라, 선행 문헌이 인용된 문헌의 수에 따라 문헌 가중치를 부여하고, 각 선행 문헌 별로 문헌 연관성 점수에 문헌 가중치를 적용하여 문헌 연관성 가중점수를 산출할 수 있다.
본 발명의 일 실시예에 따르면 문헌 연관성 가중점수는 문헌 연관성 점수에 선행 문헌별로 산출된 문헌 가중치를 적용한 선행 문헌 별 점수를 의미할 수 있다.
본 발명의 일 실시예에 따르면 산출된 문헌 연관성 가중점수를 이용하여 동일 질병-화합물, 화합물-유전자변이, 질병-유전자변이에 대한 적어도 하나의 선행 논문에 대한 문헌 연관성 가중점수들의 평균 값을 연관 유효성 점수로 산출할 수 있다.
본 발명의 일 실시예에 따르면 연관 유효성 점수는 다양한 조합의 질병-화합물, 화합물-유전자변이, 질병-유전자변이에 대한 유효성 정보 별로 각 조합이 얼마나 강한 연관성을 가지고 있는지에 한 점수를 의미할 수 있으며, 점수가 높을수록 각 조합 간의 연관성은 높은 것으로 볼 수 있다.
본 발명의 일 실시예에 따르면 복수의 유효성 정보를 이용하여 유전자변이 별로 특정 유전자변이를 시작점으로 하고 특정 질병을 끝점으로 하며, 동일한 항목의 유전자변이, 질병, 화합물 중 적어도 하나를 중간 노드로 하는 유전자변이-질병 유효성 네트워크를 생성할 수 있고, 생성된 유전자변이-질병 유효성 네트워크 중 시작점부터 끝점까지 연결된 적어도 하나의 루트를 선정하여 선정된 루트 별로 유전자변이-질병 유효성 총점수를 산출하여 상대적으로 가장 높은 점수를 가진 루트를 최적 유효성 패스로 선정할 수 있으며, 최적 유효성 패스에 포함된 적어도 하나의 유전자변이에 대하여 최적 유효성 패스의 유전자변이-질병 유효성 총점수를 기준으로 유효성 가중치를 산정할 수 있다.
본 발명의 일 실시예에 따르면 복수의 유효성 정보에 포함된 복수의 질병-화합물, 화합물-유전자변이, 질병-유전자변이 유효성 정보를 이용하여 특정 유전자변이를 시작점으로 하고 특정 질병을 끝점으로 하며 서로 동일한 항목을 중간 노드로 하여 동일한 항목끼리 연결되는 유전자변이-질병 유효성 네트워크를 생성할 수 있다.
본 발명의 일 실시예에 따르면 유전자변이-질병 유효성 네트워크 중에서 시작점인 특정 유전자변이부터 서로 동일한 항목끼리 연결된 중간 노드를 지나 끝점인 특정 질병까지 연결된 루트를 생성할 수 있으며, 루트는 하나 또는 그 이상일 수 있다.
본 발명의 일 실시예에 따르면 선정된 루트 별로 유전자변이-질병 유효성 총점수를 산출하여 상대적으로 가장 높은 점수를 가진 루트를 최적 유효성 패스로 선정할 수 있다.
본 발명의 일 실시예에 따르면 최적 유효성 패스에 포함된 유전자변이에 대하여 최적 유효성 패스의 유전자변이-질병 유효성 총점수를 기준으로 유효성 가중치를 산정할 수 있다.
본 발명의 일 실시예에 따르면 유효성 가중치를 산출함에 있어 미리 설정한 가중치 산출 구간에 따라 유전자변이-질병 유효성 총점수를 기준으로 각 구간별로 산정하는 방법이 사용될 수 있으나, 또 다른 일 실시예에 따르면 유전자변이-질병 유효성 네트워크에 포함된 각 루트별 유전자변이-질병 유효성 총점수의 평균치를 기준으로 표준점수를 산출하여 산정하는 방법이 사용될 수도 있다.
본 발명의 일 실시예에 따르면 유전자변이 별 타겟 질환 영향력 점수에 산출된 유전자변이와 질병 간의 유효성 가중치를 적용하여 재산출된 타겟 질환 영향력 점수에 따라 질병 프로파일링 정보를 업데이트할 수 있다.
본 발명의 일 실시예에 따르면 유전자변이 별 타겟 질환 영향력 점수에 산출된 유전자변이와 질병 간의 유효성 가중치를 적용하여 타겟 질환 영향력 점수를 재산출할 수 있으며, 재산출된 타겟 질환 영향력 점수를 기준으로 미리 설정한 기준값을 넘는 유전자변이에 대한 유전체 데이터를 질병 프로파일링 정보에 포함시켜 업데이트를 수행할 수 있다.
본 발명의 실시 예는 이상에서 설명한 장치 및/또는 방법을 통해서만 구현이 되는 것은 아니며, 이상에서 본 발명의 실시 예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (18)

  1. 유전체 코호트 데이터 베이스부터 유전자형(genotype)데이터 및 표현형(phenotype) 데이터를 포함하는 유전체 데이터를 수신하고, 수신한 복수의 유전체 데이터의 각 품질 지수를 산출하여 상기 산출된 품질 지수가 미리 설정된 임계치를 초과하는 유전체 데이터를 분석 대상 데이터로 수집하는 분석 대상 데이터 수집부;
    상기 분석 대상 데이터로 선정된 유전체 데이터를 대상으로 연관성 분석을 수행하여 유전자변이 별 질병 연관성 원점수 및 유전자형별 영향 대립인자의 개수, 대립인자 별 결과변수 영향력(BETA 값)를 산출하고, 유전자변이 별 유전자변이 질환 연관성 점수에 유전자형별 영향 대립인자의 개수, 상기 대립인자 별 결과변수 영향력(BETA 값)를 기준으로 가중치를 적용하여 유전자변이 별 질병 연관성 가중점수를 산출하며, 상기 산출된 유전자변이 별 질병 연관성 가중점수 중 미리 설정된 점수 이상인 유전자변이의 질병 연관성 가중점수를 대상으로 유전자변이 별 질병 연관성 분석 정보를 생성하는 연관성 분석부;
    복수의 공개 데이터 베이스로부터 상기 질병 연관성 분석 정보에 따라 매칭된 유전자변이에 타겟 질병을 대상으로 유전자변이에 대한 영향을 주제로 기고된 복수의 선행 문헌을 유전자변이 별로 스크래핑하여 수집하고, 수집된 복수의 선행 문헌을 분석하여 상기 복수의 선행 문헌 별로 상기 유전자변이의 주제에 부합하는 효과 크기를 산출하며, 상기 수집된 선행 문헌의 수와 선행 문헌 별 효과 크기를 포함하는 주석 데이터를 생성하고, 상기 주석 데이터를 유전체 데이터에 추가하여 어노테이션을 수행하는 어노테이션 수행부;
    상기 유전자변이 별로 수집된 복수의 선행 문언 수에 선행 문언별 효과 크기를 가중치로 적용하여 각 유전자변이 별 타겟 질환 영향력 점수를 산출하는 타겟 질환 영향력 점수 산출부; 및
    유전자변이 별 연관성 분석 정보에 포함된 유전자변이 별 타겟 질환 영향력 점수를 기준으로 질병에 연관성이 높다고 판단되는 유전자변이에 대한 유전체 데이터를 이용하여 질병 프로파일링 정보를 생성하는 질병 프로파일링 정보 생성부를 포함하고,
    생성된 상기 질병 프로파일링 정보를 기준으로 매칭된 특정 유전자변이와 질병에 대하여 상기 수집된 복수의 선행 문헌을 대상으로 자연어 처리를 수행하여 질병-유전자변이간 유효성 정보, 화합물-유전자변이 유효성 정보, 질병-화합물 유효성 정보를 생성하고, 생성된 유효성 정보 별로 각 연관 유효성 점수를 산출하는 유효성 정보 생성부;
    상기 복수의 유효성 정보를 이용하여 유전자변이 별로 특정 유전자변이를 시작점으로 하고 특정 질병을 끝점으로 하며, 동일한 항목의 유전자변이, 질병, 화합물 중 적어도 하나를 중간 노드로 하는 유전자변이-질병 유효성 네트워크를 생성하고, 생성된 유전자변이-질병 유효성 네트워크 중 시작점부터 끝점까지 연결된 적어도 하나의 루트를 선정하여 선정된 루트 별로 유전자변이-질병 유효성 총점수를 산출하여 상대적으로 가장 높은 점수를 가진 루트를 최적 유효성 패스로 선정하며, 상기 최적 유효성 패스에 포함된 유전자변이에 대하여 상기 최적 유효성 패스 유전자변이-질병 유효성 총점수를 기준으로 유효성 가중치를 산정하는 유효성 가중치 생성부; 및
    상기 유전자변이 별 타겟 질환 영향력 점수에 산출된 유전자변이와 질병간의 유효성 가중치를 적용하여 재산출된 타겟 질환 영향력 점수에 따라 질병 프로파일링 정보를 업데이트하는 업데이트 수행부를 더 포함하는 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템.
  2. 삭제
  3. 제 1 항에 있어서,
    상기 질병 프로파일링 정보를 이용하여 각 유전자변이별 질병 유발 영향력에 대한 시각화 정보를 생성하여 사용자에게 디스플레이하는 시각화 정보 제공부를 더 포함하는 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템.
  4. 제 1 항에 있어서 상기 연관성 분석부는,
    상기 연관성 분석으로 GWAS 분석을 수행하고, 상기 GWAS 분석 결과에 따른 유전자변이별 질환 연관성 베타 값의 절대값을 질환 유발에 대한 영향력으로 판단하여 유전자변이 별로 질환별 유전자변이 연관성 점수를 부여하는 것을 특징으로 하는 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템.
  5. 제 1 항에 있어서 상기 연관성 분석부는,
    상기 연관성 분석으로 GWAS 분석 및 AI 분석을 수행하고, 베이시안 추론을 적용하여 유전자변이 도출 분석을 수행하여, 상기 GWAS 분석 결과에 포함된 유전자변이별 질환 연관성 베타 값을 사전확률로 설정한 후, 상기 AI 분석을 통한 유전자변이별 중요도 점수와 상기 타겟 질환 영향력 점수를 새롭게 추가되는 조건으로 하여 조건부 확률을 산출하고, 각 유전자변이 별 질환 발병 확률값을 산출하여 유전자변이 별로 질환별 유전자변이 연관성 점수를 부여하는 것을 특징으로 하는 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템.
  6. 제 1 항에 있어서 상기 어노테이션 수행부는,
    상기 복수의 선행 문헌별로 상기 유전자변이의 주제에 부합하는 효과 크기는 각 선행 문헌별로 오즈비(odds ratio)와 신뢰구간을 산출하여, 상기 오즈비와 신뢰구간을 토대로 선행 문헌별 유전자변이가 타겟 질환에 미치는 효과 크기를 추정하는 것을 특징으로 하는 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템.
  7. 제 6 항에 있어서 상기 타겟 질환 영향력 점수 산출부는,
    상기 효과 크기에 역분산 추정을 통해 선행 문헌별 가중치로 산출하고, 상기 선행 문헌별 오즈비에 상기 가중치를 적용하고 상기 유전자변이별로 수집된 복수의 선행 문언 수를 반영하여 산출된 선행 문헌별 오즈비를 합산하여 타겟 질환 영향력 점수를 산출하는 것을 특징으로 하는 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템.
  8. 제 1 항에 있어서 상기 유효성 정보 생성부는,
    수집된 복수의 선행 문헌을 자연어 처리를 통하여 각 선행 문헌에 미리 설정된 단어 또는 문장과 동일 또는 유사한 단어 및 문장의 포함 여부 및 포함 횟수를 기준으로 0~1 사이의 점수를 산출하고, 미리 설정된 단어 또는 문장과 동일 또는 유사한 단어가 포함되지 않은 경우 0으로 산정하며, 미리 설정된 단어 또는 문장과 동일 또는 유사한 단어가 많이 포함될수록, 포함된 횟수가 많을수록 1에 가까워 지도록 각 선행 문헌 별로 문헌 연관성 점수를 산출하는 것을 특징으로 하는 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템.
  9. 제 8 항에 있어서 상기 유효성 정보 생성부는,
    상기 각 선행 문헌 별로 산출된 문헌 연관성 점수에 선행 문헌에서 사용한 데이터의 종류 또는 임상 시험에 포함된 정보인지 여부, 선행 문헌이 인용된 문헌의 수에 따라 문헌 가중치를 부여하고, 상기 각 선행 문헌 별로 문헌 연관성 점수에 문헌 가중치를 적용하여 문헌 연관성 가중점수를 산출하는 것을 특징으로 하는 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템.
  10. 유전체 코호트 데이터 베이스부터 유전자형(genotype)데이터 및 표현형(phenotype) 데이터를 포함하는 유전체 데이터를 수신하고, 수신한 복수의 유전체 데이터의 각 품질 지수를 산출하여 상기 산출된 품질 지수가 미리 설정된 임계치를 초과하는 유전체 데이터를 분석 대상 데이터로 수집하는 단계;
    상기 분석 대상 데이터로 선정된 유전체 데이터를 대상으로 연관성 분석을 수행하여 유전자변이 별 질병 연관성 원점수 및 유전자형별 영향 대립인자의 개수, 대립인자 별 결과변수 영향력(BETA 값)를 산출하고, 유전자변이 별 유전자변이 질환 연관성 점수에 유전자형별 영향 대립인자의 개수, 상기 대립인자 별 결과변수 영향력(BETA 값)를 기준으로 가중치를 적용하여 유전자변이 별 질병 연관성 가중점수를 산출하며, 상기 산출된 유전자변이 별 질병 연관성 가중점수 중 미리 설정된 점수 이상인 유전자변이의 질병 연관성 가중점수를 대상으로 유전자변이 별 질병 연관성 분석 정보를 생성하는 단계;
    복수의 공개 데이터 베이스로부터 상기 질병 연관성 분석 정보에 따라 매칭된 유전자변이에 타겟 질병을 대상으로 유전자변이에 대한 영향을 주제로 기고된 복수의 선행 문헌을 유전자변이 별로 스크래핑하여 수집하고, 수집된 복수의 선행 문헌을 분석하여 상기 복수의 선행 문헌 별로 상기 유전자변이의 주제에 부합하는 효과 크기를 산출하며, 상기 수집된 선행 문헌의 수와 선행 문헌 별 효과 크기를 포함하는 주석 데이터를 생성하고, 상기 주석 데이터를 유전체 데이터에 추가하여 어노테이션을 수행하는 단계;
    상기 유전자변이 별로 수집된 복수의 선행 문언 수에 선행 문언별 효과 크기를 가중치로 적용하여 각 유전자변이 별 타겟 질환 영향력 점수를 산출하는 단계; 및
    유전자변이 별 연관성 분석 정보에 포함된 유전자변이 별 타겟 질환 영향력 점수를 기준으로 질병에 연관성이 높다고 판단되는 유전자변이에 대한 유전체 데이터를 이용하여 질병 프로파일링 정보를 생성하는 단계를 포함하고,
    생성된 상기 질병 프로파일링 정보를 기준으로 매칭된 특정 유전자변이와 질병에 대하여 상기 수집된 복수의 선행 문헌을 대상으로 자연어 처리를 수행하여 질병-유전자변이간 유효성 정보, 화합물-유전자변이 유효성 정보, 질병-화합물 유효성 정보를 생성하고, 생성된 유효성 정보 별로 각 연관 유효성 점수를 산출하는 단계;
    상기 복수의 유효성 정보를 이용하여 유전자변이 별로 특정 유전자변이를 시작점으로 하고 특정 질병을 끝점으로 하며, 동일한 항목의 유전자변이, 질병, 화합물 중 적어도 하나를 중간 노드로 하는 유전자변이-질병 유효성 네트워크를 생성하고, 생성된 유전자변이-질병 유효성 네트워크 중 시작점부터 끝점까지 연결된 적어도 하나의 루트를 선정하여 선정된 루트 별로 유전자변이-질병 유효성 총점수를 산출하여 상대적으로 가장 높은 점수를 가진 루트를 최적 유효성 패스로 선정하며, 상기 최적 유효성 패스에 포함된 유전자변이에 대하여 상기 최적 유효성 패스의 유전자변이-질병 유효성 총점수를 기준으로 유효성 가중치를 산정하는 단계; 및
    상기 유전자변이 별 타겟 질환 영향력 점수에 산출된 유전자변이와 질병간의 유효성 가중치를 적용하여 재산출된 타겟 질환 영향력 점수에 따라 질병 프로파일링 정보를 업데이트하는 단계를 더 포함하는 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 방법.
  11. 삭제
  12. 제 10 항에 있어서,
    상기 질병 프로파일링 정보를 이용하여 각 유전자변이별 질병 유발 영향력에 대한 시각화 정보를 생성하여 사용자에게 디스플레이하는 단계를 더 포함하는 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 방법.
  13. 제 10 항에 있어서 상기 연관성 분석 정보를 생성하는 단계는,
    상기 연관성 분석으로 GWAS 분석을 수행하고, 상기 GWAS 분석 결과에 따른 유전자변이별 질환 연관성 베타 값의 절대값을 질환 유발에 대한 영향력으로 판단하여 유전자변이 별로 질환별 유전자변이 연관성 점수를 부여하는 것을 특징으로 하는 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 방법.
  14. 제 10 항에 있어서 상기 연관성 분석 정보를 생성하는 단계는,
    상기 연관성 분석으로 GWAS 분석 및 AI 분석을 수행하고, 베이시안 추론을 적용하여 유전자변이 도출 분석을 수행하여, 상기 GWAS 분석 결과에 포함된 유전자변이별 질환 연관성 베타 값을 사전확률로 설정한 후, 상기 AI 분석을 통한 유전자변이별 중요도 점수와 상기 타겟 질환 영향력 점수를 새롭게 추가되는 조건으로 하여 조건부 확률을 산출하고, 각 유전자변이 별 질환 발병 확률값을 산출하여 유전자변이 별로 질환별 유전자변이 연관성 점수를 부여하는 것을 특징으로 하는 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 방법.
  15. 제 10 항에 있어서 상기 어노테이션을 수행하는 단계는,
    상기 복수의 선행 문헌별로 상기 유전자변이의 주제에 부합하는 효과 크기는 각 선행 문헌별로 오즈비(odds ratio)와 신뢰구간을 산출하여, 상기 오즈비와 신뢰구간을 토대로 선행 문헌별 유전자변이가 타겟 질환에 미치는 효과 크기를 추정하는 것을 특징으로 하는 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 방법.
  16. 제 15 항에 있어서 상기 타겟 질환 영향력 점수를 산출하는 단계는,
    상기 효과 크기에 역분산 추정을 통해 선행 문헌별 가중치로 산출하고, 상기 선행 문헌별 오즈비에 상기 가중치를 적용하고 상기 유전자변이별로 수집된 복수의 선행 문언 수를 반영하여 산출된 선행 문헌별 오즈비를 합산하여 타겟 질환 영향력 점수를 산출하는 것을 특징으로 하는 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 방법.
  17. 제 10 항에 있어서 상기 연관 유효성 점수를 산출하는 단계는,
    수집된 복수의 선행 문헌을 자연어 처리를 통하여 각 선행 문헌에 미리 설정된 단어 또는 문장과 동일 또는 유사한 단어 및 문장의 포함 여부 및 포함 횟수를 기준으로 0~1 사이의 점수를 산출하고, 미리 설정된 단어 또는 문장과 동일 또는 유사한 단어가 포함되지 않은 경우 0으로 산정하며, 미리 설정된 단어 또는 문장과 동일 또는 유사한 단어가 많이 포함될수록, 포함된 횟수가 많을수록 1에 가까워 지도록 각 선행 문헌 별로 문헌 연관성 점수를 산출하는 것을 특징으로 하는 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 방법.
  18. 제 17 항에 있어서 상기 연관 유효성 점수를 산출하는 단계는,
    상기 각 선행 문헌 별로 산출된 문헌 연관성 점수에 선행 문헌에서 사용한 데이터의 종류 또는 임상 시험에 포함된 정보인지 여부, 선행 문헌이 인용된 문헌의 수에 따라 문헌 가중치를 부여하고, 상기 각 선행 문헌 별로 문헌 연관성 점수에 문헌 가중치를 적용하여 문헌 연관성 가중점수를 산출하는 것을 특징으로 하는 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 방법.
KR1020220088537A 2022-07-18 2022-07-18 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템 및 그 방법 KR102483880B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220088537A KR102483880B1 (ko) 2022-07-18 2022-07-18 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220088537A KR102483880B1 (ko) 2022-07-18 2022-07-18 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템 및 그 방법

Publications (1)

Publication Number Publication Date
KR102483880B1 true KR102483880B1 (ko) 2023-01-04

Family

ID=84924899

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220088537A KR102483880B1 (ko) 2022-07-18 2022-07-18 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR102483880B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102351306B1 (ko) * 2021-09-06 2022-01-14 주식회사 바스젠바이오 질환 연관 유전자 변이 분석을 통한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102351306B1 (ko) * 2021-09-06 2022-01-14 주식회사 바스젠바이오 질환 연관 유전자 변이 분석을 통한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Hang-Rai Kim 외, Alzheimer's Research & Therapy, 2021.06.21., Vol.13, No.117, pp.1-11. *
Mulin Jun Li 외, GWASdb v2: an update database for human genetic variants identified by genome-wide association studies, Nucleic Acids Research, 2015.11.28., Vol.44, pp.869-876.* *
Sune Pletscher-Frankild 외, DISEASES: Text mining and data integration of disease-gene associations, Methods, 2014.12.05., Vol.74, pp.83-89.* *
인터넷 URL:https://www.mv.helsinki.fi/home/mjxpirin/GWAS_course/material/GWAS2.html *

Similar Documents

Publication Publication Date Title
Brudno et al. Automated whole-genome multiple alignment of rat, mouse, and human
CN109686439B (zh) 遗传病基因检测的数据分析方法、系统及存储介质
CN107103207B (zh) 基于病例多组学变异特征的精准医学知识搜索系统及实现方法
JP6312253B2 (ja) 形質予測モデル作成方法および形質予測方法
KR101693504B1 (ko) 개인 전장 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템
KR101693510B1 (ko) 개인 전장 유전체의 유전변이정보를 이용한 유전형 분석 시스템 및 방법
JP5005208B2 (ja) 予測方法、予測装置および予測プログラム
EP3871232A1 (en) Methods and apparatus for phenotype-driven clinical genomics using a likelihood ratio paradigm
WO2017144969A1 (en) Method and system for quantifying the likelihood that a gene is casually linked to a disease
Liao et al. ROC curve analysis in the presence of imperfect reference standards
KR102483880B1 (ko) 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템 및 그 방법
Li et al. Comparison of INDEL calling tools with simulation data and real short-read data
Xu et al. mtPGS: Leverage multiple correlated traits for accurate polygenic score construction
Malovini et al. Phenotype forecasting with SNPs data through gene-based Bayesian networks
Tanigawa et al. Power of inclusion: Enhancing polygenic prediction with admixed individuals
US20200105374A1 (en) Mixture model for targeted sequencing
JP2004354373A (ja) 遺伝子型データ及び表現型データを用いた浸透率推定方法及びディプロタイプ形と表現型との関連性検定方法
Ding et al. Power analysis of transcriptome-wide association study: implications for practical protocol choice
Wang et al. Transcriptome assembly strategies for precision medicine
Reches et al. From phenotyping to genotyping-bioinformatics for the busy clinician
JPWO2002048915A1 (ja) 遺伝子間の関連を検出する方法
Samyak et al. Statistical summaries of unlabelled evolutionary trees
Ettetuani et al. Meta-analysis for a therapeutic target involved in the activation of the genes associated with c3 glomerulopathy
KR102640503B1 (ko) 체질별 고혈압 위험성 예측 방법 및 시스템
Sulimov et al. Genome-wide analysis of genetic associations for prediction of polygenic hypercholesterolemia with bayesian networks

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant