KR102351763B1 - 유전자 변이의 기능 상실 유발 예측 시스템 및 방법 - Google Patents

유전자 변이의 기능 상실 유발 예측 시스템 및 방법 Download PDF

Info

Publication number
KR102351763B1
KR102351763B1 KR1020210102589A KR20210102589A KR102351763B1 KR 102351763 B1 KR102351763 B1 KR 102351763B1 KR 1020210102589 A KR1020210102589 A KR 1020210102589A KR 20210102589 A KR20210102589 A KR 20210102589A KR 102351763 B1 KR102351763 B1 KR 102351763B1
Authority
KR
South Korea
Prior art keywords
probability
function
loss
characteristic score
mutation
Prior art date
Application number
KR1020210102589A
Other languages
English (en)
Inventor
이경열
김동욱
Original Assignee
주식회사 쓰리빌리언
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 쓰리빌리언 filed Critical 주식회사 쓰리빌리언
Priority to KR1020210102589A priority Critical patent/KR102351763B1/ko
Application granted granted Critical
Publication of KR102351763B1 publication Critical patent/KR102351763B1/ko
Priority to FR2208028A priority patent/FR3126057A1/fr
Priority to US17/817,221 priority patent/US20230045438A1/en
Priority to JP2022124353A priority patent/JP7395675B2/ja
Priority to GB2211353.4A priority patent/GB2611617A/en
Priority to DE102022119636.4A priority patent/DE102022119636A1/de

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/165Mathematical modelling, e.g. logarithm, ratio

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Organic Chemistry (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • General Engineering & Computer Science (AREA)
  • Physiology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)

Abstract

본 발명에 따른 유전자 변이의 기능 상실 유발 예측 시스템은 대응 유전자가 기능 상실(loss of function)에 불내성(intolerant)할 제1 확률 및 상기 대응 유전자에 포함된 타겟 유전자 변이가 불내성할 제2 확률을 이용하는 제1 식에 대한 로지스틱 회귀(logistic regression)를 통해 상기 타겟 유전자 변이가 상기 대응 유전자에 기능 상실을 유발할 확률을 계산하는 LoF 예측부를 포함한다.

Description

유전자 변이의 기능 상실 유발 예측 시스템 및 방법{SYSTEM AND METHOD FOR PREDICTING LOSS OF FUNCTION CAUSED BY GENETIC VARIANTS}
본 발명은 유전자 변이의 기능 상실 유발 예측 시스템 및 방법에 관한 것으로, 더욱 상세하게는 로지스틱 회귀를 통해 특정 유전자 변이의 기능 상실 유발 확률을 계산할 수 있는 유전자 변이의 기능 상실 유발 예측 시스템 및 방법에 관한 것이다.
일상화된 유전자 검사로 인해 과거 대비 보다 많은 유전체 데이터를 유전 변이 해석에 활용할 수 있게 되었고, 이를 통해 유전자 변이가 인체에 미치는 영향을 높은 정확도로 해석할 수 있게 되었다.
특히, 다수의 유전체 데이터를 활용한 머신러닝 기술의 발달로 인해 병원성을 가지는 변이를 정교하게 판별하는 것이 가능하게 되었으나, 유전자가 병원성을 일으키는 구체적인 기작에 대해서는 아직까지도 많은 부분이 불분명하다.
유전자의 기능 상실(loss of function, LoF)을 일으키는 변이는 질병을 유발할 수 있다고 널리 알려져 있다.
특정 유전자 변이에 대하여 병원성을 가지는 정도를 알고리즘 등을 통해 수치화하여 예측하더라도 질병 유발 변이로 볼 수 있는 근거가 부족한 경우가 많으나, LoF 확률을 계산할 수 있다면 질병 유발 기작을 특정할 수 있어 더욱 정밀한 진단이 가능할 수 있다.
따라서, 다양한 유전자에 대하여 유전자 변이가 LoF를 유발할 확률을 계산할 수 있다면, 유전질환 환자에게서 발견된 유전자 변이의 LoF 유발 여부를 확인하여 원인 유전자 발굴 및 진단에 활용할 수 있을 것이다.
다만, 실험적, 임상적으로 LoF를 유발하는 것이 밝혀진 유전 변이는 극히 일부이며, 인체 내에서 유전자 변이가 LoF를 일으키는지 여부를 평가한 임상적 데이터가 거의 존재하지 않는다는 점에서 모든 유전자 변이의 LoF 유발 확률을 추정하기 어렵다는 문제점이 있다.
본 발명의 기술적 과제는 이러한 점에서 착안된 것으로 본 발명의 목적은 유전자 변이의 병원성 정도를 나타내는 스코어와 유전자가 LoF에 불내성(intolerant)한 정도를 나타내는 스코어를 이용하여 유전자 변이의 LoF 유발 확률을 계산하는데 활용될 수 있는 유전자 변이의 기능 상실 유발 예측 시스템 및 방법을 제공하는 것이다.
상술한 본 발명의 목적을 실현하기 위한 일 실시예에 따른 유전자 변이의 기능 상실 유발 예측 시스템 및 방법은 대응 유전자가 기능 상실(loss of function)에 불내성(intolerant)할 제1 확률 및 상기 대응 유전자에 포함된 타겟 유전자 변이가 불내성할 제2 확률을 이용하는 제1 식에 대한 로지스틱 회귀(logistic regression)를 통해 상기 타겟 유전자 변이가 상기 대응 유전자에 기능 상실을 유발할 확률을 계산하는 LoF 예측부를 포함한다.
본 발명의 일 실시예에 있어서, 상기 타겟 유전자 변이는 유전자의 변이로 인해 발현되는 단백질의 길이가 정상인 경우의 단백질 길이 보다 짧아지는 단백질 절단 변이(Protein Truncated Variant)를 포함할 수 있다.
본 발명의 일 실시예에 있어서, 상기 제1 식은 다음의 식으로 표현될 수 있으며,
Figure 112021090040415-pat00001
여기서,
Figure 112021090040415-pat00002
는 상기 타겟 유전자 변이가 상기 대응 유전자에 기능 상실을 유발할 확률,
Figure 112021090040415-pat00003
는 상기 제1 확률,
Figure 112021090040415-pat00004
는 상기 제2 확률을 나타낼 수 있다.
본 발명의 일 실시예에 있어서, 상기 대응 유전자가 기능 상실에 불내성한 정도에 대응되는 수치화된 제1 특성 점수를 계산하는 제1 특성 점수 계산부; 및 상기 타겟 유전자 변이가 병원성을 가지는 정도에 대응되는 수치화된 제2 특성 점수를 계산하는 제2 특성 점수 계산부;를 더 포함하고, 상기 제1 확률은
Figure 112021090040415-pat00005
를 이용하여 표현되며, 상기 제2 확률은
Figure 112021090040415-pat00006
를 이용하여 표현되고, 여기서,
Figure 112021090040415-pat00007
는 상기 제1 특성 점수,
Figure 112021090040415-pat00008
는 상기 제2 특성 점수, a, b, c 및 d는 각각 미리 정해진 상수일 수 있다.
본 발명의 일 실시예에 있어서, 상기 제1 식에 대한 로그 선형 모델은 다음 식을 포함할 수 있으며,
Figure 112021090040415-pat00009
여기서,
Figure 112021090040415-pat00010
는 상기 제2 특성 점수의 log값,
Figure 112021090040415-pat00011
는 상기 제1 특성 점수의 log값,
Figure 112021090040415-pat00012
,
Figure 112021090040415-pat00013
Figure 112021090040415-pat00014
는 각각 미리 정해진 상수를 나타낼 수 있다.
본 발명의 일 실시예에 있어서, 상기 제1 특성 점수는 pLI 알고리즘 또는 LOEUF 알고리즘 중 적어도 어느 하나 이상을 이용한 점수를 포함할 수 있다.
상술한 본 발명의 목적을 실현하기 위한 일 실시예에 따른 유전자 변이의 기능 상실 유발 예측 방법은 대응 유전자가 기능 상실(loss of function)에 불내성(intolerant)할 제1 확률 및 상기 대응 유전자에 포함된 타겟 유전자 변이가 불내성할 제2 확률을 이용하는 제1 식에 대한 로지스틱 회귀(logistic regression)를 통해 상기 타겟 유전자 변이가 상기 대응 유전자에 기능 상실을 유발할 확률을 계산하는 단계를 포함한다.
본 발명의 일 실시예에 있어서, 상기 타겟 유전자 변이는 유전자의 변이로 인해 발현되는 단백질의 길이가 정상인 경우의 단백질 길이 보다 짧아지는 단백질 절단 변이(Protein Truncated Variant)를 포함할 수 있다.
본 발명의 일 실시예에 있어서, 상기 제1 식은 다음의 식으로 표현될 수 있으며,
Figure 112021090040415-pat00015
여기서,
Figure 112021090040415-pat00016
는 상기 타겟 유전자 변이가 상기 대응 유전자에 기능 상실을 유발할 확률,
Figure 112021090040415-pat00017
는 상기 제1 확률,
Figure 112021090040415-pat00018
는 상기 제2 확률을 나타낼 수 있다.
본 발명의 일 실시예에 있어서, 상기 대응 유전자가 기능 상실에 불내성한 정도에 대응되는 수치화된 제1 특성 점수를 계산하는 제1 특성 점수 계산 단계; 및 상기 타겟 유전자 변이가 병원성을 가지는 정도에 대응되는 수치화된 제2 특성 점수를 계산하는 제2 특성 점수 계산 단계;를 더 포함하고, 상기 제1 확률은
Figure 112021090040415-pat00019
를 이용하여 표현되며, 상기 제2 확률은
Figure 112021090040415-pat00020
를 이용하여 표현되고, 여기서,
Figure 112021090040415-pat00021
는 상기 제1 특성 점수,
Figure 112021090040415-pat00022
는 상기 제2 특성 점수, a, b, c 및 d는 각각 미리 정해진 상수를 나타낼 수 있다.
본 발명의 일 실시예에 있어서, 상기 제1 식에 대한 로지스틱 회귀는 다음 식을 포함할 수 있으며,
Figure 112021090040415-pat00023
여기서,
Figure 112021090040415-pat00024
는 상기 제2 특성 점수의 log값,
Figure 112021090040415-pat00025
는 상기 제1 특성 점수의 log값,
Figure 112021090040415-pat00026
,
Figure 112021090040415-pat00027
Figure 112021090040415-pat00028
는 각각 미리 정해진 상수를 나타낼 수 있다.
본 발명의 일 실시예에 있어서, 상기 제1 특성 점수는 pLI 알고리즘 또는 LOEUF 알고리즘 중 적어도 어느 하나 이상을 이용한 점수를 포함할 수 있다.
이와 같은 유전자 변이의 기능 상실 유발 예측 시스템 및 방법에 따르면, 유전자 변이의 LoF 유발 확률을 계산하여 질병 유발 기작을 특정할 수 있어 진단의 정확성을 높일 수 있다.
또한, 유전자 변이의 위치에 따라 달라지는 LoF 점수를 통해 유전자의 기능에 중요한 역할을 하는 영역을 특정할 수 있게 되어 인체 단백질을 표적으로 하는 신약 개발에 활용 가능한 중요한 정보를 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 유전자 변이의 기능 상실 유발 예측 시스템을 나타내는 블록도이다.
도 2는 도 1의 LoF 예측부를 설명하기 위한 상세 블록도이다.
도 3은 본 발명의 일 실시예에 따른 유전자 변이의 기능 상실 유발 예측 방법을 나타내는 순서도이다.
도 4는 도 3의 대응 유전자에 기능 상실을 유발할 확률을 계산하는 단계를 설명하기 위한 상세 순서도이다.
이하에서, 첨부한 도면들을 참조하여, 본 발명을 보다 상세하게 설명하고자 한다. 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략될 수 있다.
도 1은 본 발명의 일 실시예에 따른 유전자 변이의 기능 상실 유발 예측 시스템을 나타내는 블록도이다. 도 2는 도 1의 LoF 예측부를 설명하기 위한 상세 블록도이다. 도 3은 본 발명의 일 실시예에 따른 유전자 변이의 기능 상실 유발 예측 방법을 나타내는 순서도이다.
도 1 및 도 2를 참조하면, 본 발명의 일 실시예에 따른 유전자 변이의 기능 상실 유발 예측 시스템은 유전자 변이 데이터베이스(10), LoF 예측부(20), 제1 특성 점수 계산부(30) 및 제2 특성 점수 계산부(40)를 포함할 수 있다.
유전자 변이 데이터베이스(10)는 본 발명에 따른 유전자 변이의 기능 상실 유발 예측 시스템에 의해 유전자에 포함된 유전자 변이가 해당 유전자에 기능 상실을 유발할 확률이 계산되는 타겟 유전자 변이 및 상기 타겟 유전자 변이를 포함하는 대응 유전자에 대한 정보를 포함할 수 있다.
DNA에는 생물의 유전정보가 담겨있다. DNA의 염기 서열 중 유전형질의 발현에 관여하는 염기 서열을 유전자라고 하며, 유전형질의 발현에 관여하지 않는 부분을 비부호화 DNA라고 한다.
유전자는 DNA의 일정 구간에 걸쳐 있는 염기 서열 영역에 대응될 수 있다. 유전자는 실제 유전정보가 담겨있는 엑손 구간과 발현에 관여하지 않는 인트론 구간을 포함할 수 있다.
염기 서열 또는 뉴클레오타이드 서열(base sequence or nucleotide sequence)이란 핵산 DNA 또는 RNA 구성의 기본단위인 뉴클레오타이드의 구성성분 중 하나인 염기들을 순서대로 나열한 순서 배열을 의미한다.
유전자 변이 또는 염기 서열 변이란, 핵산 염기 서열이 비교대상인 참조 염기 서열과 서열상의 차이를 보이는 부분을 의미하며, 서열을 구성하는 염기의 치환, 부가 또는 결실을 포함할 수 있다. 이와 같은 염기의 치환, 부가 또는 결실은 여러 가지 원인, 예를 들어, 염색체의 돌연변이, 절단, 결실, 중복, 역위 또는 전좌를 포함하는 구조적 차이에 의해 발생할 수 있다.
기능 상실(LoF) 이란, 유전자 변이에 의해 유전자가 본래 가져야할 기능을 잃는 현상을 의미한다.
LoF 예측부(20)는 타겟 유전자 변이가 대응 유전자에 기능 상실을 유발할 확률을 계산할 수 있다.
일 실시예에서, LoF 예측부(20)는 제1 확률 및 제2 확률을 이용하는 제1 식에 대한 로지스틱 회귀(logistic regression)를 통해 타겟 유전자 변이가 대응 유전자에 기능 상실을 유발할 확률을 계산할 수 있다.
제1 확률은 대응 유전자가 기능 상실에 불내성(intolerance)할 확률을 포함할 수 있다.
제2 확률은 타겟 유전자 변이가 불내성할 확률을 포함할 수 있다.
여기서, 유전자가 기능 상실에 불내성(LoF intolerance)하다는 것은 특정 유전자에서 기능 상실을 유발하는 유전자 변이가 일어났을 때, 생존에 치명적인 영향(높은 확률로 사멸 또는 질병으로 추정)을 받는 정도를 나타낼 수 있다.
이와 관련하여 불내성(intolerant) 이라는 표현이 사용될 수 있는데, 유전자에서 기능 상실을 유발하는 유전자 변이들이 실제로 발견되는 사례가 적을 수록 높은 점수를 가질 수 있다. 이는, 기능 상실을 유발하는 유전자 변이가 치명적으로 작용했을 경우, 자연 선택의 원리에 의해 이미 자연계에서 사라졌을 가능성이 높기 때문이다.
유전자가 기능 상실에 불내성한 정도에 대응되는 수치화된 제1 특성 점수(이하, 제1 특성 점수라 한다)를 산출하는 대표적인 방법으로는 pLI 알고리즘이 사용될 수 있다. pLI 알고리즘은 6만여 명의 일반인 유전체에서 LoF 유전자 변이가 이론적으로 관측 가능한 수와 실제로 관측된 수 차이의 편차를 정량화한 방법이다.
pLI 알고리즘은 다음의 선행기술 문헌을 통해 구현될 수 있다.
Lek, Monkol, et al. "Analysis of protein-coding genetic variation in 60,706 humans." Nature 536.7616(2016): 285-291. (htt ps://www.nature.com/articles/nature19057)
또한, 제1 특성 점수를 산출하기 위하여 pLI 알고리즘과 유사한 방식의 LOEUF 알고리즘이 사용될 수 있다.
LOEUF 알고리즘은 다음의 선행기술 문헌을 통해 구현될 수 있다.
Karczewski, et al. "The mutational constraint spectrum quantified from variation in 141,456 humans." Nature 581, 434-443 (2020). (https://doi.org/10.1038/s41586-020-2308-7)
또는, 제1 특성 점수를 산출하기 위하여, 단순하게 실제 관측된 기능 상실을 유발하는 유전자 변이의 수를 이론적으로 예상되는 기능 상실을 유발하는 유전자 변이의 수로 나누는 방법도 사용될 수 있다.
제1 특성 점수는 유전자 변이가 아닌 유전자 단위에서 정의되는 점수이므로, 각각의 유전자 변이가 기능 상실을 일으키는 정도는 측정할 수 없다는 단점이 있다.
위와 같은 제1 특성 점수를 이용하여 유전자가 기능 상실에 불내성할 확률(제1 확률)을 정의할 수 있다.
한편, 불내성하다는 것은 생존에 치명적인 영향을 받는 정도라는 점에서, 유전자 변이가 불내성할 확률은 유전자 변이가 질병을 유발해 치명적일 확률과 높은 연관성이 있을 수 있다.
따라서, 유전자 변이가 불내성할 확률(제2 확률)은 유전자 변이가 pathogenic할 확률, 즉, 유전자 변이가 병원성 변이일 확률에 비례할 수 있다.
위와 같은 조건에서, 본 발명에서는 제1 확률 및 제2 확률을 통해 타겟 유전자 변이가 대응 유전자 변이에 기능 상실을 유발할 확률을 역으로 추정할 수 있다.
구체적으로 제1 식은 다음의 과정을 통해 도출될 수 있다.
먼저, 전체 확률 법칙에 의해 유전자 변이가 불내성할 확률인 제2 확률은 다음의 식으로 표현될 수 있다.
Figure 112021090040415-pat00029
Figure 112021090040415-pat00030
여기서,
Figure 112021090040415-pat00031
는 타겟 유전자 변이가 불내성할 확률(즉, 제2 확률)을 나타낸다.
Figure 112021090040415-pat00032
는 대응 유전자가 기능 상실에 불내성할 확률(즉, 제1 확률)을 나타낸다.
Figure 112021090040415-pat00033
는 타겟 유전자 변이가 대응 유전자에 기능 상실을 일으킬 확률(즉, 구하고자 하는 확률)을 나타낸다.
Figure 112021090040415-pat00034
는 대응 유전자가 기능 획득(gain of function, GoF)에 불내성할 확률이다. 여기서, 기능 획득(GoF)은 기능 상실에 반대되는 개념으로, 유전자 변이에 의해 유전자가 본래 가져야할 기능이 더욱 활성화 되는 현상을 의미한다.
Figure 112021090040415-pat00035
는 타겟 유전자 변이가 대응 유전자에 기능 획득을 일으킬 확률을 나타낸다.
이어서 첫 번째 가정으로, 본 발명에 따른 유전자 변이의 기능 상실 유발 예측 시스템에 의해, 유전자 변이가 해당 유전자에 기능 상실을 유발할 확률이 계산되는 타겟 유전자 변이는 단백질 절단 변이(Protein Truncated Variant, 이하, PTV)로 한정되는 것으로 가정한다.
PTV는 유전자의 변이로 인해 발현되는 단백질의 길이가 정상인 경우의 단백질 길이 보다 짧아지는 유전자 변이를 의미할 수 있다.
구체적으로, PTV는 프레임쉬프트 변이(frameshift variant), 넌센스 변이(nonsense variant), 개시 상실 변이(start lost variant) 또는 스플라이싱 변이(splicing variant) 중 적어도 어느 하나로 인해 유전자로부터 발현된 단백질의 길이(예를 들어, 아미노산 서열의 길이)가 기존보다 짧아지는 형태의 유전 변이를 의미할 수 있다.
타겟 유전자 변이가 PTV로 한정되는 경우, PTV가 기능 획득을 유발시킬 가능성은 낮은 것으로 평가되고, 기능 획득이 병원성을 가질 가능성 또한 기능 상실에 비해 낮기 때문에, P(intolerant | GoF) * P(GoF |variant)는 0으로 수렴하는 것으로 가정할 수 있다.
이어서 두 번째 가정으로, 앞서 언급한 바와 같이, 대응 유전자가 기능 상실에 불내성할 확률(제1 확률)은 대응 유전자가 기능 상실에 불내성한 정도에 대응되는 수치화된 제1 특성 점수를 이용한 단항식으로 다음과 같이 표현될 수 있다.
Figure 112021090040415-pat00036
여기서,
Figure 112021090040415-pat00037
는 제1 특성 점수를 나타내고, a 및 b는 각각 미리 정해진 상수를 나타낸다.
또한, 타겟 유전자 변이가 불내성할 확률(제2 확률)은 타겟 유전자 변이가 병원성 변이일 확률에 비례할 수 있다는 점에서, 제2 확률은 타겟 유전자 변이가 병원성을 가지는 정도에 대응되는 수치화된 제2 특성 점수를 이용한 단항식으로 다음과 같이 표현될 수 있다.
Figure 112021090040415-pat00038
여기서,
Figure 112021090040415-pat00039
은 제2 특성 점수를 나타내고, c 및 d는 각각 미리 정해진 상수를 나타낸다.
첫 번째 가정을 통해 제1 식은 다음의 식으로 표현될 수 있다.
Figure 112021090040415-pat00040
두 번째 가정을 통해 제1 식은 다음의 식으로 표현될 수 있다.
Figure 112021090040415-pat00041
여기서,
Figure 112021090040415-pat00042
는 타겟 유전자 변이가 대응 유전자에 기능 상실을 유발할 확률을 나타낸다.
다음으로, 제1 식에 대한 로지스틱 회귀(logistic regression)를 통해 상기 타겟 유전자 변이가 상기 대응 유전자에 기능 상실을 유발할 확률을 계산하기 위하여, 로그 선형화(log linearity)를 통한 제1 식에 대한 로그 선형 모델(220)은 다음과 같이 표현될 수 있다.
Figure 112021090040415-pat00043
여기서,
Figure 112021090040415-pat00044
는 제2 특성 점수의 log값(즉,
Figure 112021090040415-pat00045
)을 나타낸다.
Figure 112021090040415-pat00046
는 제1 특성 점수의 log값(즉,
Figure 112021090040415-pat00047
)을 나타낸다.
Figure 112021090040415-pat00048
,
Figure 112021090040415-pat00049
Figure 112021090040415-pat00050
는 각각 미리 정해진 상수를 나타낸다.
예를 들어,
Figure 112021090040415-pat00051
는 두 번째 가정에서 사용된 상수 d를 포함할 수 있다.
Figure 112021090040415-pat00052
는 두 번째 가정에서 사용된 상수 -b를 포함할 수 있다.
Figure 112021090040415-pat00053
는 두 번째 가정에서 사용된 상수 a/c를 포함할 수 있다.
결론적으로, 타겟 유전자 변이가 대응 유전자에 기능 상실을 일으킬 확률 (P(LoF | variant))은 대응 유전자가 기능 상실에 불내성한 정도에 대응되는 수치화된 제1 특성 점수 및 타겟 유전자 변이가 병원성을 가지는 정도에 대응되는 수치화된 제2 특성 점수의 로지스틱 회귀를 통해 산출될 수 있다.
위와 같은 이론적 배경하에, LoF 예측부(20)는 변수 설정부(210), 로그 선형 모델(220) 및 LoF 확률 계산기(230)를 포함할 수 있다.
변수 설정부(210)는 타겟 유전자 변이가 대응 유전자에 기능 상실을 유발할 확률을 종속 변수로 설정하고, 대응 유전자가 기능 상실에 불내성할 확률(제1 확률)을 제1 독립 변수로 설정하며, 타겟 유전자 변이가 불내성할 확률(제2 확률)을 제2 독립 변수로 설정할 수 있다.
여기서, 제1 확률은 제1 특성 점수를 포함할 수 있다. 다시 말해, 제1 확률은 제1 특성 점수를 이용하여 표현될 수 있다. 제2 확률은 제2 특성 점수를 포함할 수 있다. 다시 말해, 제2 확률은 제2 특성 점수를 이용하여 표현될 수 있다.
로그 선형 모델(220)은 종속 변수, 제1 독립 변수 및 제2 독립 변수로 구성된 제1 식에 대한 로지스틱 회귀분석을 통해 모델링된 로그 선형 모델을 포함할 수 있다.
일 실시예에서, 로그 선형 모델(220)은 다음의 식을 포함할 수 있다.
Figure 112021090040415-pat00054
로그 선형 모델(220)은 앞서 설명된 바와 동일하므로, 중복되는 자세한 설명은 생략한다.
LoF 확률 계산기(230)는 로그 선형 모델(220)의 독립 변수에 제1 특성 점수 및 제2 특성 점수를 대입하여 타겟 유전자 변이가 대응 유전자에 기능 상실을 유발할 확률을 계산할 수 있다.
제1 특성 점수 계산부(30)는 타겟 유전자가 기능 상실에 불내성한 정도에 대응되는 수치화된 제1 특성 점수를 계산할 수 있다.
일 실시예에서, 제1 특성 점수는 컴퓨터 시뮬레이션을 이용한 in silico tool을 이용하여 산출될 수 있다. in silico tool을 이용한 제1 특성 점수 산출에는 일반인 유전체에서 LoF 유전자 변이가 이론적으로 관측 가능한 수와 실제로 관측된 수 차이의 편차를 정량화하는 알고리즘을 이용할 수 있다.
예를 들어, 제1 특성 점수 계산에 이용되는 알고리즘은 pLI, LOEUF 중 적어도 어느 하나 이상의 알고리즘을 포함할 수 있다.
제2 특성 점수 계산부(40)는 타겟 유전자 변이가 병원성을 가지는 정도에 대응되는 수치화된 제2 특성 점수를 계산할 수 있다.
일 실시예에서, 제2 특성 점수는 컴퓨터 시뮬레이션을 이용한 in silico tool을 이용하여 산출될 수 있다. in silico tool을 이용한 제2 특성 점수 산출에는 변이의 병원성을 수치화해주는 알고리즘을 이용할 수 있다.
예를 들어, 변이의 특성 점수 산출에 이용되는 알고리즘은 REVEL, SIFT, PrimateAI, DANN, PolyPhen, PolyPhen-2, 3CNET, MAPP, Logre, Mutation Assessor, Condel, GERP, CADD, MutationTaster, MutationTaster2, PROVEAN, PMuit, SNPeffect, fathmm, MSRV, Align-GVGD, Eigen, LRT, MetaLR, MetaSVM, MutPred, PANTHER, Parepro, phastCons, PhD-SNP, phyloP, PON-P, PON-P2, SiPhy, SNAP, SNPs&GO, VEST4, SNAP2, CAROL, PaPI, SInBaD, VAAST, CHASM, mCluster, nsSNPAnayzer, SAAPpred, HanSa, CanPredict, FIS 또는 BONGO 중 적어도 어느 하나 이상의 알고리즘을 포함할 수 있다.
본 발명에 적용되는 유전자 변이의 병원성을 수치화해주는 알고리즘은 다음의 공지된 선행기술 문헌들에 의해 구현될 수 있으며, 관련된 자세한 설명은 생략될 수 있다.
REVEL (Ioannidis, Nilah M., et al. REVEL: an Ensemble Method for Predicting the Pathogenicity of Rare Missense Variants._AGHG 2016, https://sites.google.com/site/revelgenomics/), SIFT (Sorting Intolerant From Tolerant, Pauline C et al., Genome Res. 2001 May; 11(5): 863-874; Pauline C et al., Genome Res. 2002 March; 12(3): 436-446; Jing Hul et al., Genome Biol. 2012; 13(2): R9), PrimateAI(Illumina사의 deep learning model for pathogenicity prediction) DANN (Quang, Daniel, Yifei Chen, and Xiaohui Xie. DANN: a deep learning approach for annotating the pathogenicity of genetic variants. Bioinformatics 2014: btu703., https://cbcl.ics.uci.edu/public_data/DANN/), PolyPhen, PolyPhen-2 (Polymorphism Phenotyping, Ramensky V et al., Nucleic Acids Res. 2002 September 1; 30(17): 3894-3900; Adzhubei IA et al., Nat Methods 7(4):248-249 (2010)), 3Cnet(3Cnet: Pathogenicity prediction of human variants using knowledge transfer with deep recurrent neural networks, Dhong-gun Won, Kyoungyeul Lee, bioRxiv 2020.09.27.302927; doi: https://doi.org/10.1101/2020.09.27.302927), MAPP (Eric A. et al., Multivariate Analysis of Protein Polymorphism, Genome Res. 2005;15:978-986), Logre (Log R Pfam E-value, Clifford R.J et al., Bioinformatics 2004;20:1006-1014), Mutation Assessor (Reva B et al., Genome Biol. 2007;8:R232, http://mutationassessor.org/), Condel (Gonzalez-Perez A et al.,The American Journal of Human Genetics 2011;88:440-449, http://bg.upf.edu/fannsdb/), GERP (Cooper et al., Genomic Evolutionary Rate Profiling, Genome Res. 2005;15:901-913, http://mendel.stanford.edu/SidowLab/downloads/gerp/), CADD (Combined Annotation-Dependent Depletion, http://cadd.gs.washington.edu/), MutationTaster, MutationTaster2 (Schwarz et al., MutationTaster2: mutation prediction for the deep-sequencing age. Nature Methods 2014;11:361-362, http://www.mutationtaster.org/), PROVEAN (Choi et al., PLoS One. 2012;7(10):e46688), PMuit (Ferrer-Costa et al., Proteins 2004;57(4):811-819, http://mmb.pcb.ub.es/PMut/), SNPeffect (Reumers et al., Bioinformatics. 2006;22(17):2183-2185, http://snpeffect.vib.be), fathmm (Shihab et al., Functional Analysis through Hidden Markov Models, Hum Mutat 2013;34:57-65, http://fathmm.biocompute.org.uk/), MSRV (Jiang, R. et al. Sequence-based prioritization of nonsynonymous single-nucleotide polymorphisms for the study of disease mutations. Am J Hum Genet 2007;81:346-360, http://msms.usc.edu/msrv/), Align-GVGD (Tavtigian, Sean V., et al. Comprehensive statistical study of 452 BRCA1 missense substitutions with classification of eight recurrent substitutions as neutral. Journal of medical genetics 2006:295-305., http://agvgd.hci.utah.edu/), Eigen (Ionita-Laza, Iuliana, et al. A spectral approach integrating functional genomic annotations for coding and noncoding variants. Nature genetics (2016):214-220., http://www.columbia.edu/~ii2135/eigen.html), LRT (Chun, Sung, and Justin C. Fay. Identification of deleterious mutations within three human genomes. Genome Res. 2009:1553-1561., http://www.genetics.wustl.edu/jflab/lrt_query.html), MetaLR (Dong, Chengliang, et al. Comparison and integration of deleteriousness prediction methods for nonsynonymous SNVs in whole exome sequencing studies. Human molecular genetics 2015;24(8):2125-2137), MetaSVM (Dong, Chengliang, et al. Comparison and integration of deleteriousness prediction methods for nonsynonymous SNVs in whole exome sequencing studies. Human molecular genetics 2015;24(8):2125-2137), MutPred (Mort, Matthew, et al. MutPred Splice: machine learning-based prediction of exonic variants that disrupt splicing. Genome Biology 2014;(15)1:1, http://www.mutdb.org/mutpredsplice/about.htm), PANTHER (Mi, Huaiyu, et al. The PANTHER database of protein families, subfamilies, functions and pathways. Nucleic Acids Research 2005;(33)suppl 1:D284-D288., http://www.pantherdb.org/tools/csnpScoreForm.jsp), Parepro (Tian, Jian, et al. Predicting the phenotypic effects of non-synonymous single nucleotide polymorphisms based on support vector machines. BMC bioinformatics 2007; 8.1, http://www.mobioinfor.cn/parepro/contact.htm), phastCons (Siepel, Adam, et al. Evolutionarily conserved elements in vertebrate, insect, worm, and yeast genomes. Genome Res. 2005;915)8:1034-1050, http://compgen.cshl.edu/phast/), PhD-SNP (Capriotti, E., Calabrese, R., Casadio, R. Predicting the insurgence of human genetic diseases associated to single point protein mutations with support vector machines and evolutionary information. Bioinformatics 2006;22:2729-2734., http://snps.biofold.org/phdsnp/), phyloP (Pollard, Katherine S., et al. Detection of nonneutral substitution rates on mammalian phylogenies._Genome Res. 2010;(20)1:110-121., http://compgen.cshl.edu/phast/background.php), PON-P (Niroula, Abhishek, Siddhaling Urolagin, and Mauno Vihinen. PON-P2: prediction method for fast and reliable identification of harmful variants. PLoS One 2015;(10)2:e0117380., http://structure.bmc.lu.se/PON-P2/), SiPhy (Garber, Manuel, et al. Identifying novel constrained elements by exploiting biased substitution patterns. Bioinformatics 2009;(25)12:i54-i62, http://portals.broadinstitute.org/genome_bio/siphy/documentation.html), SNAP (Bromberg,Y. and Rost,B. SNAP: predict effect of non-synonymous polymorphisms on function. Nucleic Acids Res. 2007;35:3823-3835,w http://www.rostlab.org/services/SNAP), SNPs&GO (Remo Calabrese, Emidio Capriotti, Piero Fariselli, Pier Luigi Martelli, and Rita Casadio. Functional annotations improve the predictive score of human disease-related mutations in proteins. Human Mutatation 2009;30:1237- 1244, http://snps.biofold.org/snps-and-go/), VEST4 (Carter H, Douville C, Stenson P, Cooper D, Karchin R Identifying Mendelian disease genes with the Variant Effect Scoring Tool BMC Genomics 2013;14(Suppl 3):S3), SNAP2 (Yana Bromberg, Guy Yachdav, and Burkhard Rost. SNAP predicts effect of mutations on protein function. Bioinformatics 2008;24:2397-2398, http://www.rostlab.org/services/SNAP), CAROL (Lopes MC, Joyce C, Ritchie GR, John SL, Cunningham F et al. A combined functional annotation score for non-synonymous variants, http://www.sanger.ac.uk/science/tools/carol), PaPI (Limongelli, Ivan, Simone Marini, and Riccardo Bellazzi. PaPI: pseudo amino acid composition to score human protein-coding variants. BMC bioinformatics 2015;(16)1:1, http://papi.unipv.it/), SInBaD (Lehmann, Kjong-Van, and Ting Chen. Exploring functional variant discovery in non-coding regions with SInBaD. Nucleic Acids Research 2013;(41)1:e7-e7, http://tingchenlab.cmb.usc.edu/sinbad/), VAAST (Hu, Hao, et al. VAAST 2.0: Improved variant classification and disease_]gene identification using a conservation_]controlled amino acid substitution matrix. Genetic epidemiology 2013;(37)6:622-634, http://www.yandell-lab.org/software/vaast.html), CHASM (Carter H, Chen S, Isik L, Tyekucheva S, Velculescu VE, Kinzler KW, Vogelstein B, Karchin R Cancer-specific high-throughput annotation of somatic mutations: computational prediction of driver missense mutations Cancer Res 2009;69(16):6660-7, http://www.cravat.us), mCluster (Yue P, Forrest WF, Kaminker JS, Lohr S, Zhang Z, Cavet G: Inferring the functional effects of mutation through clusters of mutations in homologous proteins. Human mutation. 2010;31(3):264-271. 10.1002/humu.21194.), nsSNPAnayzer (Lei Bao, Mi Zhou, and Yan Cui nsSNPAnalyzer: identifying disease-associated nonsynonymous single nucleotide polymorphisms. Nucleic Acids Res 2005;33:480-482, http://snpanalyzer.uthsc.edu/), SAAPpred (Nouf S Al-Numair and Andrew C R Martin. The SAAP pipeline and database: tools to analyze the impact and predict the pathogenicity of mutations. BMC Genomics 2013;14(3):1-11, www.bioinf.org.uk/saap/dap/), HanSa (Acharya V. and Nagarajaram H.A. Hansa An automated method for discriminating disease and neutral human nsSNPs. Human Mutation 2012;2:332-337, hansa.cdfd.org.in:8080/), CanPredict (Kaminker,J.S. et al. CanPredict: a computational tool for predicting cancer-associated missense mutations. Nucleic Acids Res., 2007;35:595:598, http://pgws.nci.nih.gov/cgi-bin/GeneViewer.cgi_), FIS (Boris Reva, Yevgeniy Antipin, and Chris Sander. Predicting the functional impact of protein mutations: Application to cancer genomics. Nucleic Acids Res 2011;39:e118-e118.), BONGO (Cheng T.M.K., Lu Y-E, Vendruscolo M., Lio P., Blundell T.L. Prediction by graph theoretic measures of structural effects in proteins arising from non-synonymous single nucleotide polymorphisms. PLoS Comp Biology 2008;(4)7:e1000135, http://www.bongo.cl.cam.ac.uk/Bongo2/Bongo.htm)
이상 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
10: 유전자 변이 데이터베이스 20: LoF 예측부
30: 제1 특성 점수 계산부 40: 제2 특성 점수 계산부
210: 변서 설정부 220: 로그 선형 모델
230: LoF 확률 계산기

Claims (12)

  1. 대응 유전자가 기능 상실(loss of function)에 불내성(intolerant)할 제1 확률 및 상기 대응 유전자에 포함된 타겟 유전자 변이가 불내성할 제2 확률을 이용하는 제1 식에 대한 로지스틱 회귀(logistic regression)를 통해 상기 타겟 유전자 변이가 상기 대응 유전자에 기능 상실을 유발할 확률을 계산하는 LoF 예측부를 포함하되,
    상기 타겟 유전자 변이는
    유전자의 변이로 인해 발현되는 단백질의 길이가 정상인 경우의 단백질 길이 보다 짧아지는 단백질 절단 변이(Protein Truncated Variant)를 포함하고,
    상기 제1 식은 다음의 식으로 표현되며,
    Figure 112021129397716-pat00087

    여기서,
    Figure 112021129397716-pat00088
    는 상기 타겟 유전자 변이가 상기 대응 유전자에 기능 상실을 유발할 확률,
    Figure 112021129397716-pat00089
    는 상기 제1 확률,
    Figure 112021129397716-pat00090
    는 상기 제2 확률인, 유전자 변이의 기능 상실 유발 예측 시스템.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 대응 유전자가 기능 상실에 불내성한 정도에 대응되는 수치화된 제1 특성 점수를 계산하는 제1 특성 점수 계산부; 및
    상기 타겟 유전자 변이가 병원성을 가지는 정도에 대응되는 수치화된 제2 특성 점수를 계산하는 제2 특성 점수 계산부;를 더 포함하고,
    상기 제1 확률은
    Figure 112021129397716-pat00059
    를 이용하여 표현되며,
    상기 제2 확률은
    Figure 112021129397716-pat00060
    를 이용하여 표현되고,
    여기서,
    Figure 112021129397716-pat00061
    는 상기 제1 특성 점수,
    Figure 112021129397716-pat00062
    는 상기 제2 특성 점수, a, b, c 및 d는 각각 미리 정해진 상수인 것을 특징으로 하는, 유전자 변이의 기능 상실 유발 예측 시스템.
  5. 제4항에 있어서, 상기 제1 식에 대한 로그 선형 모델은 다음 식을 포함하는 것을 특징으로 하는, 유전자 변이의 기능 상실 유발 예측 시스템.
    Figure 112021090040415-pat00063

    (여기서,
    Figure 112021090040415-pat00064
    는 상기 제2 특성 점수의 log값,
    Figure 112021090040415-pat00065
    는 상기 제1 특성 점수의 log값,
    Figure 112021090040415-pat00066
    ,
    Figure 112021090040415-pat00067
    Figure 112021090040415-pat00068
    는 각각 미리 정해진 상수)
  6. 제4항에 있어서, 상기 제1 특성 점수는 pLI 알고리즘 또는 LOEUF 알고리즘 중 적어도 어느 하나 이상을 이용한 점수를 포함하는 것을 특징으로 하는, 유전자 변이의 기능 상실 유발 예측 시스템.
  7. LoF 예측부에서, 대응 유전자가 기능 상실(loss of function)에 불내성(intolerant)할 제1 확률 및 상기 대응 유전자에 포함된 타겟 유전자 변이가 불내성할 제2 확률을 이용하는 제1 식에 대한 로지스틱 회귀(logistic regression)를 통해 상기 타겟 유전자 변이가 상기 대응 유전자에 기능 상실을 유발할 확률을 계산하는 단계를 포함하되,
    상기 타겟 유전자 변이는
    유전자의 변이로 인해 발현되는 단백질의 길이가 정상인 경우의 단백질 길이 보다 짧아지는 단백질 절단 변이(Protein Truncated Variant)를 포함하고,
    상기 제1 식은 다음의 식으로 표현되며,
    Figure 112021129397716-pat00091

    여기서,
    Figure 112021129397716-pat00092
    는 상기 타겟 유전자 변이가 상기 대응 유전자에 기능 상실을 유발할 확률,
    Figure 112021129397716-pat00093
    는 상기 제1 확률,
    Figure 112021129397716-pat00094
    는 상기 제2 확률인, 유전자 변이의 기능 상실 유발 예측 방법.
  8. 삭제
  9. 삭제
  10. 제7항에 있어서,
    제1 특성 점수 계산부에서, 상기 대응 유전자가 기능 상실에 불내성한 정도에 대응되는 수치화된 제1 특성 점수를 계산하는 제1 특성 점수 계산 단계; 및
    제2 특성 점수 계산부에서, 상기 타겟 유전자 변이가 병원성을 가지는 정도에 대응되는 수치화된 제2 특성 점수를 계산하는 제2 특성 점수 계산 단계;를 더 포함하고,
    상기 제1 확률은
    Figure 112021129397716-pat00073
    를 이용하여 표현되며,
    상기 제2 확률은
    Figure 112021129397716-pat00074
    를 이용하여 표현되고,
    여기서,
    Figure 112021129397716-pat00075
    는 상기 제1 특성 점수,
    Figure 112021129397716-pat00076
    는 상기 제2 특성 점수, a, b, c 및 d는 각각 미리 정해진 상수인 것을 특징으로 하는, 유전자 변이의 기능 상실 유발 예측 방법.
  11. 제10항에 있어서, 상기 제1 식에 대한 로지스틱 회귀는 다음 식을 포함하는 것을 특징으로 하는, 유전자 변이의 기능 상실 유발 예측 방법.
    Figure 112021090040415-pat00077

    (여기서,
    Figure 112021090040415-pat00078
    는 상기 제2 특성 점수의 log값,
    Figure 112021090040415-pat00079
    는 상기 제1 특성 점수의 log값,
    Figure 112021090040415-pat00080
    ,
    Figure 112021090040415-pat00081
    Figure 112021090040415-pat00082
    는 각각 미리 정해진 상수)
  12. 제10항에 있어서, 상기 제1 특성 점수는 pLI 알고리즘 또는 LOEUF 알고리즘 중 적어도 어느 하나 이상을 이용한 점수를 포함하는 것을 특징으로 하는, 유전자 변이의 기능 상실 유발 예측 방법.
KR1020210102589A 2021-08-04 2021-08-04 유전자 변이의 기능 상실 유발 예측 시스템 및 방법 KR102351763B1 (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
KR1020210102589A KR102351763B1 (ko) 2021-08-04 2021-08-04 유전자 변이의 기능 상실 유발 예측 시스템 및 방법
FR2208028A FR3126057A1 (fr) 2021-08-04 2022-08-02 Système et méthode pour prévoir la perte de fonction causée par des variants génétiques
US17/817,221 US20230045438A1 (en) 2021-08-04 2022-08-03 System and method for predicting loss of function caused by genetic variant
JP2022124353A JP7395675B2 (ja) 2021-08-04 2022-08-03 遺伝子変異による機能喪失誘発に対する予測システム及びその方法
GB2211353.4A GB2611617A (en) 2021-08-04 2022-08-04 System and method for predicting loss of function caused by genetic variant
DE102022119636.4A DE102022119636A1 (de) 2021-08-04 2022-08-04 System und Verfahren zum Vorhersagen eines durch genetische Varianten verursachten Funktionsverlusts

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210102589A KR102351763B1 (ko) 2021-08-04 2021-08-04 유전자 변이의 기능 상실 유발 예측 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR102351763B1 true KR102351763B1 (ko) 2022-01-17

Family

ID=80051490

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210102589A KR102351763B1 (ko) 2021-08-04 2021-08-04 유전자 변이의 기능 상실 유발 예측 시스템 및 방법

Country Status (6)

Country Link
US (1) US20230045438A1 (ko)
JP (1) JP7395675B2 (ko)
KR (1) KR102351763B1 (ko)
DE (1) DE102022119636A1 (ko)
FR (1) FR3126057A1 (ko)
GB (1) GB2611617A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102440388B1 (ko) 2022-02-17 2022-09-05 주식회사 쓰리빌리언 유전자 변이 종류에 따른 병원성 예측 시스템 및 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024064675A1 (en) * 2022-09-20 2024-03-28 Foundation Medicine, Inc. Methods and systems for determining variant properties using machine learning

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101325736B1 (ko) * 2010-10-27 2013-11-08 삼성에스디에스 주식회사 바이오 마커 추출 장치 및 방법

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A.B. Gussow et al, " The intolerance to functional genetic variation of protein domains predicts the localization of pathogenic mutations within genes ", Genome Biology (2016) 17:9. *
A.B.Cussow 외, " The intolerance to functional genetic variation of protein domain (후략)", Genome Biology (2016) 17:9.
J. Fadista 외, " LoFtool: a gene intolerance score based on loss-of-function variants(후략)", Bioinformatics, 33권, 4호, 2017.02.
J. Fadistaet al, " LoFtool: a gene intolerance score based on loss-of-function variants in 60 706 individuals", Bioinformatics, vol. 33, Issue 4 pp. 471–474, 2017.02. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102440388B1 (ko) 2022-02-17 2022-09-05 주식회사 쓰리빌리언 유전자 변이 종류에 따른 병원성 예측 시스템 및 방법

Also Published As

Publication number Publication date
JP7395675B2 (ja) 2023-12-11
FR3126057A1 (fr) 2023-02-10
US20230045438A1 (en) 2023-02-09
DE102022119636A1 (de) 2023-02-09
JP2023024374A (ja) 2023-02-16
GB2611617A (en) 2023-04-12
GB202211353D0 (en) 2022-09-21

Similar Documents

Publication Publication Date Title
Corces et al. Single-cell epigenomic analyses implicate candidate causal variants at inherited risk loci for Alzheimer’s and Parkinson’s diseases
Tse et al. Genome-wide detection of cytosine methylation by single molecule real-time sequencing
Chiang et al. The impact of structural variation on human gene expression
Griffiths et al. Ancestral inference from samples of DNA sequences with recombination
Talbot et al. High-resolution mapping of quantitative trait loci in outbred mice
JP7395675B2 (ja) 遺伝子変異による機能喪失誘発に対する予測システム及びその方法
McCarroll et al. Genome-scale neurogenetics: methodology and meaning
DiPetrillo et al. Bioinformatics toolbox for narrowing rodent quantitative trait loci
Choi et al. Genetic diagnosis by whole exome capture and massively parallel DNA sequencing
Jordan et al. Human allelic variation: perspective from protein function, structure, and evolution
Frazer et al. Evolutionarily conserved sequences on human chromosome 21
Morton Linkage disequilibrium maps and association mapping
Paşaniuc et al. Accurate estimation of expression levels of homologous genes in RNA-seq experiments
Nikolskiy et al. Using whole-genome sequences of the LG/J and SM/J inbred mouse strains to prioritize quantitative trait genes and nucleotides
Clifford et al. Bioinformatics tools for single nucleotide polymorphism discovery and analysis
Goswami Computational analyses prioritize and reveal the deleterious nsSNPs in human angiotensinogen gene
KR102334761B1 (ko) 병원성 유전 변이 빈발 지도 구축 시스템 및 방법
Panitz et al. SNP mining porcine ESTs with MAVIANT, a novel tool for SNP evaluation and annotation
Masoodi et al. Structural prediction, whole exome sequencing and molecular dynamics simulation confirms p. G118D somatic mutation of PIK3CA as functionally important in breast cancer patients
Joly-Lopez et al. Developing maps of fitness consequences for plant genomes
Moreno-Moral et al. Systems genetics as a tool to identify master genetic regulators in complex disease
Kelemen et al. Computational intelligence in bioinformatics: SNP/haplotype data in genetic association study for common diseases
Marla et al. Refinement of draft genome assemblies of Pigeonpea (Cajanus cajan)
Hu et al. Genomic scans of zygotic disequilibrium and epistatic SNPs in HapMap phase III populations
McGowan et al. Chromosomal characteristics of salt stress heritable gene expression in the rice genome

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant