KR102279056B1 - 지식전이를 이용한 유전자변이의 병원성 예측 시스템 - Google Patents

지식전이를 이용한 유전자변이의 병원성 예측 시스템 Download PDF

Info

Publication number
KR102279056B1
KR102279056B1 KR1020210007219A KR20210007219A KR102279056B1 KR 102279056 B1 KR102279056 B1 KR 102279056B1 KR 1020210007219 A KR1020210007219 A KR 1020210007219A KR 20210007219 A KR20210007219 A KR 20210007219A KR 102279056 B1 KR102279056 B1 KR 102279056B1
Authority
KR
South Korea
Prior art keywords
data
virtual
mutation
genetic
learning
Prior art date
Application number
KR1020210007219A
Other languages
English (en)
Inventor
이경열
원동건
Original Assignee
주식회사 쓰리빌리언
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 쓰리빌리언 filed Critical 주식회사 쓰리빌리언
Priority to KR1020210007219A priority Critical patent/KR102279056B1/ko
Application granted granted Critical
Publication of KR102279056B1 publication Critical patent/KR102279056B1/ko
Priority to JP2021192434A priority patent/JP7290354B2/ja
Priority to US17/644,339 priority patent/US20220230764A1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

본 발명은 진화적 보존 데이터로부터 생성된 가상 유전자변이 데이터를 이용하여 인공 신경망 네트워크 모델을 학습하고, 상기 인공 신경망 네트워크 모델로부터 추출된 은닉층의 가중치 값을 인공 신경망 네트워크 모델에 지식전이하여 실제 유전자변이 데이터를 학습하는 지식전이(knowledge transfer)를 이용한 유전자변이의 병원성 예측 시스템을 제공한다.

Description

지식전이를 이용한 유전자변이의 병원성 예측 시스템{System for pathogenicity prediction of genomic mutation using knowledge transfer}
본 발명은 유전자 변이의 병원성을 예측하는 시스템에 관한 것으로, 보다 상세하게는 지식전이를 이용해서 유전자변이의 병원성을 예측하는 시스템에 관한 것이다.
인체의 유전자변이가 다양한 질병과 증상을 일으키는 사례가 다수 발견이 되었으나 수많은 유전자변이 가운데 질병을 유발하는 원인유전자를 찾아내는 것은 어려운 문제이다.
최근에는 질병유발 원인유전자를 특정하기 위해서 자동화된 알고리즘을 통해 유전자변이의 병원성을 판단하는 연구가 진행되고 있다.
특히, 인공지능 기계학습을 통해 유전자변이의 병원성을 판단하려는 시도가 있으나, 기계학습 모델의 경우 데이터 의존성이 커서 소수의 임상 및 실험 데이터만으로 기계학습 모델을 학습할 경우 오버피팅(overfitting)이 발생할 가능성이 매우 높다.
보다 구체적으로, 종래 기술은 실제 유전자변이 데이터를 가지고 기계학습 모델을 통해 병원성을 예측하나, 정확한 병원성을 나타내는 임상 및 실험 데이터는 그 수가 한정되어 있어서 소수의 임상 및 실험 데이터로 기계학습 모델을 학습할 경우 오버피팅(overfitting)이 쉽게 발생된다.
특히, 희귀질환을 일으키는 질병유발 원인유전자는 그 데이터 정보를 모으는데 매우 어려워서, 이러한 문제를 해결하는 것은 매우 중요하다.
특허문헌 001) 대한민국 등록특허 제10-1953762호 (공고일자, 2019.03.04)
본 발명이 이루고자 하는 기술적 과제는 소수의 데이터 정보를 가지고 기계학습 모델을 통해 오버피팅 없이 학습하여 유전자변이의 병원성 여부를 판단할 수 있는 유전자변이의 병원성 예측 시스템을 제공하고자 한다.
이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 지식전이를 이용한 유전자변이의 병원성 예측 시스템은 진화적 보존 데이터로부터 생성된 가상 유전자변이 데이터를 이용하여 인공 신경망 네트워크 모델을 학습하고, 상기 인공 신경망 네트워크 모델로부터 추출된 은닉층의 가중치 값을 인공 신경망 네트워크 모델에 지식전이하여 실제 유전자변이 데이터를 학습한다.
상기 진화적 보존 데이터로부터 상기 가상 유전자변이 데이터를 생성하는 가상 유전자변이 데이터 생성부; 상기 가상 유전자변이 데이터를 이용하여 인공 신경망 네트워크 모델을 학습하는 가상 변이 학습부; 상기 실제 유전자변이 데이터를 이용하여 인공 신경망 네트워크 모델을 학습하는 실제 변이 학습부; 및 상기 가상 변이 학습부 또는 상기 실제 변이 학습부가 인공 신경망 네트워크 모델을 학습할 때, 상기 인공 신경망 네트워크 모델이 가지는 은닉층의 가중치 값을 획득하는 가중치 추출부를 포함하고, 상기 실제 변이 학습부는 인공 신경망 네트워크 모델을 학습할 때, 추출된 상기 가중치 값을 은닉층에 적용할 수 있다.
상기 가상 유전자변이 데이터 생성부는, 타겟 단백질 서열 정보와 다수의 유사 단백질 서열 정보로부터 다중 서열 정렬(MSA; Multiple Sequence Alignment)을 이용하여 진화적 보존 특징이 포함되어 있는 상기 진화적 보존 데이터를 생성하는 진화적 보존 데이터 생성부; 및 상기 진화적 보존 특징으로부터 미리 설정된 기준에 따라 가상 병원성 유전자변이 데이터와 가상 비병원성 유전자변이 데이터를 각각 생성하는 가상 병원성 변이 판단부를 포함할 수 있다.
상기 진화적 보존 특징은 해당 잔기(residue)에서 발견된 아미노산의 빈도일 수 있다.
상기 다중 서열 정렬은 BLAST 알고리즘 또는 HHBLits 알고리즘에 의해 수행될 수 있다.
상기 진화적 보존 데이터는 N X 21차원 특징 행렬이고, 상기 N은 아미노산 서열의 길이에 해당되는 임의의 수일 수 있다.
상기 실제 유전자변이 데이터는 실제 병원성 유전자변이 데이터와 실제 비병원성 유전자변이 데이터를 포함할 수 있다.
상기 지식전이(knowledge transfer)는 전이학습(transfer learning)과 다중작업학습(multi-task learning)을 포함할 수 있다.
상기 전이학습(transfer learning)은 상기 가상 변이 학습부가 인공 신경망 네트워크 모델을 이용하여 상기 가상 유전자변이 데이터를 학습한 후, 상기 가중치 추출부가 추출한 가중치 값을 상기 실제 변이 학습부가 이용할 수 있다.
상기 다중작업학습(multi-task learning)은 상기 가상 변이 학습부와 상기 실제 변이 학습부로부터 추출된 각각의 가중치 값을 서로 번갈아 가며 인공 신경망 네트워크 모델의 은닉층에 적용할 수 있다.
상기 은닉층은 상기 인공 신경망 네트워크 모델의 초반 레이어일 수 있다.
상기 실제 변이 학습부에서 학습된 인공 신경망 네트워크 모델을 이용해서 대상 유전자변이의 병원성을 판단하는 병원성 판단부를 더 포함할 수 있다.
위에서 언급된 본 발명의 기술적 과제 외에도, 본 발명의 다른 특징 및 이점들이 이하에서 기술되거나, 그러한 기술 및 설명으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
이상과 같은 본 발명에 따르면 다음과 같은 효과가 있다.
본 발명은 소수의 유전자변이 데이터 정보를 가지고 기계학습 모델을 통해 오버피팅 없이 학습하여 단백질 서열에 변화를 일으키는 유전자변이에 대한 정확한 병원성 예측할 수 있다.
또한 본 발명은 진화적 보존 데이터로부터 생성된 가상 유전자변이 데이터를 이용하고, 인공 신경망 네트워크 모델로부터 추출된 은닉층의 가중치 값을 지식전이함으로써 소수의 실제 유전자변이 데이터 정보를 가지고도 유전자변이에서 병원성 예측에 중요한 특징을 추출하여 오버피팅 없이 학습할 수 있어 단백질 서열에 변화를 일으키는 유전자변이에 대한 정확한 병원성을 예측할 수 있다.
이 밖에도, 본 발명의 실시 예들을 통해 본 발명의 또 다른 특징 및 이점들이 새롭게 파악될 수도 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 지식전이를 이용한 유전자변이의 병원성 예측 시스템의 개략적인 구성을 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 가상 유전자변이 데이터 생성부의 개략적인 구성도를 도시한 블록도이다.
도 3은 본 발명의 일 실시예에 따른, 단백질 서열 정보를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른, 다중 서열 정열을 이용하여 진화적 보존 특징을 나타내는 진화적 보존 데이터를 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른, 가상 병원성 유전자변이 데이터와 가상 비병원성 유전자변이 데이터를 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 유전자변이의 병원성 예측 시스템이 전이학습하는 것을 설명하기 위한 도면이다.
도 7은 본 발명의 다른 실시예에 따른 유전자변이의 병원성 예측 시스템이 다중작업학습하는 것을 설명하기 위한 도면이다.
도 8은 본 발명의 일 실시예에 따른 유전자변이의 병원성 예측 시스템이 인공 신경망 네트워크 모델을 이용하여 대상 유전자변이의 병원성을 판단하는 것을 설명하기 위한 도면이다.
본 명세서에서 각 도면의 구성요소들에 참조번호를 부가함에 있어서 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 번호를 가지도록 하고 있음에 유의하여야 한다.
한편, 본 명세서에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.
"포함하다" 또는 "가지다" 등의 용어는 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 본 명세서 해석의 명확함을 위해서, 이하에서는 본 명세서에서 사용되는 용어들을 정의하기로 한다.
본 명세서에서 사용되는 용어, "유전자변이"는 여러 가지 요인으로 인해, 염색체에서 일어나는 염기서열의 변이를 의미할 수 있다. 예를 들어, 유전자변이는 체성 돌연변이, 샘플의 오염으로 인한 염기서열의 변이 및 유전병으로 인한 염기서열의 변이일 수 있다. 그러나 유전자변이는 전술한 것에 제한되는 것은 아니다.
이하, 첨부되는 도면을 참고하여 상기 문제점을 해결하기 위해 고안된 본 발명의 바람직한 실시예들에 대해 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 지식전이를 이용한 유전자변이의 병원성 예측 시스템의 개략적인 구성을 도시한 블록도이고, 도 2는 본 발명의 일 실시예에 따른 가상 유전자변이 데이터 생성부의 개략적인 구성도를 도시한 블록도이고, 도 3은 본 발명의 일 실시예에 따른, 단백질 서열 정보를 설명하기 위한 도면이고, 도 4는 본 발명의 일 실시예에 따른, 다중 서열 정열을 이용하여 진화적 보존 특징을 나타내는 진화적 보존 데이터를 설명하기 위한 도면이고, 도 5는 본 발명의 일 실시예에 따른, 가상 병원성 유전자변이 데이터와 가상 비병원성 유전자변이 데이터를 설명하기 위한 도면이고, 도 6은 본 발명의 일 실시예에 따른 유전자변이의 병원성 예측 시스템이 전이학습하는 것을 설명하기 위한 도면이고 도 7은 본 발명의 다른 실시예에 따른 유전자변이의 병원성 예측 시스템이 다중작업학습하는 것을 설명하기 위한 도면이고, 도 8은 본 발명의 일 실시예에 따른 유전자변이의 병원성 예측 시스템이 인공 신경망 네트워크 모델을 이용하여 대상 유전자변이의 병원성을 판단하는 것을 설명하기 위한 도면이다.
도 1을 참조하면, 발명의 일 실시예에 따른 지식전이를 이용한 유전자변이의 병원성 예측 시스템(1000)은 가상 유전자변이 데이터 생성부(100), 가상 변이 학습부(300), 가중치 추출부(500), 실제 변이 학습부(700), 및 병원성 판단부(900)를 포함한다.
본 발명의 실시예에 따른 지식전이를 이용한 유전자변이의 병원성 예측 시스템은 가상 유전자변이 데이터 생성부에 의해 진화적 보존 데이터를 이용하여 인공 신경망 네트워크 모델에 이용되는 가상 유전자변이 데이터를 생성하고, 가상 변이 학습부에 의해 가상 유전자변이 데이터를 이용한 인공 신경망 네트워크 모델을 학습하면서 가중치 추출부에 의해 추출된 은닉층의 가중치를 실제 변이 학습부의 인공 신경망 네트워크 모델에 전이하여 실제 유전자변이 데이터를 학습할 수 있다.
가상 유전자변이 데이터 생성부(100)는 진화적 보존 데이터와 가상 유전자변이 데이터를 생성할 수 있다.
도 2를 참조하면, 가상 유전자변이 데이터 생성부(100)는 진화적 보존 데이터 생성부(110)와 가상 병원성 변이 판단부(130)를 포함한다.
진화적 보존 데이터 생성부(110)는 타겟 단백질 서열 정보와 다수의 유사 단백질 서열 정보로부터 다중 서열 정렬(MSA; Multiple Sequence Alignment)을 이용하여 진화적 보존 특징이 포함되어 있는 진화적 보존 데이터를 생성할 수 있다.
도 3을 참조하면, 단백질 서열의 전체 길이는 매우 다양하므로, 실시예에 따라 임의의 특정 영역의 단백질 서열 정보(10)만 이용할 수 있다.
단백질 서열 정보는 다수의 아미노산(알파벳 단어)이 순서를 가지고 이어진 문자열로 표현될 수 있다. 이때, 화살표는 단백질의 잔기(residue) 순서를 나타낸다.
도 3에 도시된 단백질 서열 정보(10)는 1번째 잔기에 아미노산 M부터 시작해서, 10번째 잔기에 아미노산 Q로 끝난다.
진화적 보존 데이터 생성부(110)는 진화적 보존 정보를 다중 서열 정렬(MSA; Multiple Sequence Alignment)을 이용하여 진화적 보존 특징이 포함되어 있는 진화적 보존 데이터를 생성할 수 있다.
도 4를 참조하면, 진화적 보존 데이터 생성부(110)는 타겟 단백질 서열 정보(A)와 다수의 유사 단백질 서열 정보(B)를 다중 서열 정렬(MSA)을 이용하여 서열 정렬할 수 있다.
먼저, 타겟 단백질을 설정하고, 타겟 단백질과 서열이 유사한 다른 단백질을 유사 단백질로 선정할 수 있다. 일반적으로, 서열이 유사한 단백질은 진화 과정에서 분화된 단백질로 가정한다.
이때, 타겟 단백질과 다른 단백질의 유사도를 판단하여 유사 단백질을 선정할 수 있는데, 유사도는 아미노산 동일성(identity)과 서열 일치 범위(coverage)로 판단할 수 있다. 유사도를 판단하는 E-value 등의 scoring 기법이 다수 개발되어 있다.
아미노산은 진화과정에서 다른 아미노산으로 변화하거나 새로운 아미노산이 추가 또는 유실되기도 하므로 같은 위치의 잔기가 다른 아미노산을 가질 수도 있다. 이때, 일치하는 잔기가 없으면 "갭(-)"으로 표시한다.
여러 단백질에서 동일한 아미노산이 반복적으로 발견될 경우 해당 잔기는 "잘 보존되었다(highly conserved)"고 한다.
그리고, 타겟 단백질과 다수의 유사 단백질을 다중 서열 정렬할 수 있다.
여기서, 서열 정렬이란 서로 다른 단백질의 잔기들이 위치가 일치하도록 정렬하는 것을 의미하고, 정렬하는 단백질이 여러 개이면 다중 서열 정렬이라 한다.
본 발명의 일 실시예에 따른 진화적 보존 데이터 생성부(110)는 BLAST 알고리즘 또는 HHBLits 알고리즘에 의해 다중 서열 정렬을 수행할 수 있다.
그리고, 진화적 보존 데이터 생성부(110)는 해당 잔기(residue)에서 발견된 아미노산의 빈도를 진화적 보존 특징으로 하여 진화적 보존 데이터(111)를 생성할 수 있다.
즉, 진화적 보존 데이터(111)는 진화적 보존 특징을 나타내는 서열 데이터이고, N X 21차원 특징 행렬일 수 있다. 여기서 N은 아미노산 서열 염기서열의 길이에 해당되는 임의의 수이고, 아미노산의 종류가 21종이므로 21차원로 표현될 수 있다.
가상 병원성 변이 판단부(130)는 진화적 보존 특징으로부터 미리 설정된 기준에 따라 가상 병원성 유전자변이 데이터와 가상 비병원성 유전자변이 데이터를 각각 생성할 수 있다.
가상 유전자변이 데이터는 가상 병원성 유전자변이 데이터와 가상 비병원성 유전자변이 데이터를 포함한다.
가상 병원성 유전자변이는 진화적으로 여러 생물종의 유전 정보에 비추어 봤을 때 드물게 발견되는 유전자 변이이며, 가상 비병원성 유전자변이는 자주 발견되는 유전자변이 일 수 있다.
도 4를 참조하면, 진화적 보전 데이터(111)의 1번째 잔기(a)에서 아미노산 L의 비중은 50%이다. 병원성인지 여부를 판단하는 기준을 10%로 미리 설정한다면, 1번째 잔기(a)에서 아미노산 M이 아미노산 L로 변하는 유전자변이는 비병원성으로 간주될 수 있다.
1번째 잔기(a)에서 아미노산 P의 비중은 0이므로 아미노산 M이 아미노산 P로 변하는 유전자변이는 병원성이라고 간주될 수 있다.
1번째 잔기(a)에서 아미노산 P는 한번도 발견되지 않았으므로 타겟 단백질의 1번째 잔기(a)가 아미노산 P로 변하는 유전자변이가 발생하면 진화적으로는 생명체의 발달에 큰 장애를 일으킨다고 생각할 수 있다.
따라서 병원성이 높을 것이라 생각할 수 있는 가상 병원성 유전자변이 데이터로 생성할 수 있다.
7번째 잔기(b)에서 아미노산 S의 비중은 10% 이상인 60%이므로 아미노산 T가 아미노산 S로 변하는 유전자변이는 비병원성으로 간주될 수 있다.
7번째 잔기(b)에서 아미노산 S가 반복적으로 관찰되므로 타겟 단백질의 7번째 잔기가 아미노산 S로 변하는 유전자변이가 발생해도 진화적으로는 생명체의 발달에 큰 장애를 일으키지 않는다고 추론할 수 있다.
따라서 병원성이 낮을 것이라 생각할 수 있는 가상 비병원성 유전자변이 데이터로 생성할 수 있다.
8번째 잔기(c)에서 아미노산 W의 비중은 10% 이상인 50%이므로 아미노산 F가 아미노산 W로 변하는 유전자변이는 비병원성으로 간주될 수 있다.
5를 참조하면, 가상 병원성 변이 판단부(130)는 진화적 보존 특징으로부터 미리 설정된 기준에 따라 다수의 가상 병원성 유전자변이 데이터(131)와 가상 비병원성 유전자변이 데이터(133)를 각각 생성할 수 있다.
가상 변이 학습부(300)는 가상 유전자변이 데이터를 이용하여 인공 신경망 네트워크 모델을 학습할 수 있다.
도 6을 참조하면, 가상 변이 학습부(300)는 가상 유전자변이 데이터(130)인 가상 병원성 유전자변이 데이터(131)와 가상 비병원성 유전자변이 데이터(133)를 이용하여 인공 신경망 네트워크 모델을 학습할 수 있다.
본 발명의 일 실시예에 따른 유전자변이의 병원성 예측 시스템(1000)은 지식전이(knowledge transfer) 기법 중에서 전이학습(transfer learning) 기법을 이용할 수 있다.
전이학습(transfer learning)은 가상 변이 학습부(300)가 인공 신경망 네트워크 모델을 이용하여 가상 유전자변이 데이터를 완전히 학습하고 난 후에, 가중치 추출부가 가상 변이 학습부(300)의 인공 신경망 네트워크 모델에서 은닉층의 가중치 값을 추출하게 된다. 그리고 나서 실제 변이 학습부에서 추출된 은닉층의 가중치 값을 인공 신경망 네트워크 모델이 적용하여 실제 유전자변이 데이터를 학습하게 된다.
이때, 인공 신경망 네트워크 모델(ANN: Artificial Neural Network)이 이용될 수 있으며, 딥러닝 네트워크인 CNN, RNN, 또는 Transformer 중 어느 하나가 이용될 수 있다.
CNN(Convolutional Neural Network)은 딥러닝에서 가장 많이 사용되는 알고리즘 중 하나로 서열 데이터를 학습할 수 있다. 이 경우 근처의 잔기들을 하나의 필터(filter)로 합성곱하는 방식이다.
RNN(Recurrent Neural Network)는 매순간의 데이터를 인공신경망 구조에 쌓아올린 것으로 딥 러닝 중 가장 깊은 네트워크 구조로, 서열 데이터를 입력 받는 대표적인 딥러닝 네트워크이다.
그 외에, 딥러닝 네트워크로 알려져 있는 Transformer, GRU(Gated Recurrent Unit), LSTM(Long Short-Term Memory), BERT(Bidirectional Encoder Representations from Transformers), 또는 XLNET 등 서열 데이터에 적용 가능한 딥러닝 네트워크들이 이용될 수 있다.
가상 변이 학습부(300)는 가상 유전자변이 데이터(130)를 이용하여 인공 신경망 네트워크 모델을 학습하면서 서열 특징(410)과 레이어(510)의 가중치를 생성할 수 있다.
일반적으로 인공 신경망 네트워크 모델이 어떤 문제를 해결하고자 데이터를 학습할 때 데이터의 패턴을 복수의 레이어(330, 510, 730)로 학습하게 된다.
가중치 추출부(500)는 가상 변이 학습부(300)가 인공 신경망 네트워크 모델을 학습할 때, 인공 신경망 네트워크 모델이 가지는 은닉층(510)의 가중치 값(510)을 획득할 수 있다.
이때, 가중치 추출부(500)는 복수의 레이어(330,510, 730) 중에서 초반 레이어(510) 가중치 값을 추출할 수 있다.
복수의 레이어(330, 510, 730) 중에서 초반 레이어(510) 가중치는 유전자변이에서 병원성 예측에 중요한 특징을 반영했다고 생각할 수 있어서 이를 지식전이 기법에 활용할 수 있다.
실제 변이 학습부(700)는 실제 유전자변이 데이터를 이용하여 인공 신경망 네트워크 모델을 학습하는데, 이때 가중치 추출부(500)에서 획득한 가중치 값을 이용할 수 있다.
즉, 가중치 추출부(500)에 의해 추출된 은닉층(510)의 가중치 값을 인공 신경망 네트워크 모델에 전이하여 실제 유전자변이 데이터를 학습할 수 있다.
실제 유전자변이 데이터는 실제 병원성 유전자변이 데이터(731)와 실제 비병원성 유전자변이 데이터(733)를 포함한다.
이때, 실제 변이 학습부(700)는 가중치 추출부(500)에 의해 추출된 은닉층(510)의 가중치 값을 인공 신경망 네트워크 모델의 초반 은닉층(510)에 이용할 수 있다.
도 7을 참조하여, 본 본 발명의 다른 실시예에 따른 유전자변이의 병원성 예측 시스템이 다중작업학습하는 것을 설명한다. 지식전이 기법 중 다중작업학습을 제외하고는 전술한 유전자변이의 병원성 예측 시스템과 동일하다. 따라서, 동일한 구성에 대해서는 동일한 도면부호를 부여하였고, 동일한 구성에 대한 반복 설명은 생략하기로 한다.
본 발명의 다른 실시예에 따른 유전자변이의 병원성 예측 시스템(1000)은 지식전이(knowledge transfer) 기법 중에서 다중작업학습(multi-task learning)을 이용할 수 있다.
다중작업학습(multi-task learning)은 가상 변이 학습부와 실제 변이 학습부로부터 추출된 각각의 은닉층의 가중치 값을 실시간으로 서로 번갈아 가며 인공 신경망 네트워크 모델의 은닉층으로 이용할 수 있다.
예를 들어, 가상 변이 학습부(300)는 가상 변이 데이터를 A, B, C로 나누어 학습하고, 실제 변이 학습부(700)는 실제 변이 데이터를 D, E, F로 나누어 학습한다고 하자.
가상 변이 학습부(300)에서 가상 변이 데이터 A를 학습하고 난 후에 가중치 추출부(500)가 인공 신경망 네트워크 모델의 은닉층(510) 가중치 값을 추출하게 된다. 실제 변이 학습부(700)는 추출된 은닉층 가중치(510) 값을 인공 신경망 네트워크 모델의 은닉층(510) 가중치 값으로 이용하여 실제 변이 데이터 D를 학습한다.
다음으로, 가상 변이 학습부(300)가 가상 변이 데이터 B를 학습할 때는, 실제 변이 학습부(700)에서 실제 변이 데이터 D를 학습하고 난 후에 추출된 은닉층(510)의 가중치 값을 이용하여 가상 변이 데이터 B를 학습하게 된다.
다시, 실제 변이 학습부(700)가 실제 변이 데이터 E를 학습할 때는, 가상 변이 학습부(300)가 가상 변이 데이터 B를 학습하고 난 후에 추출된 은닉층(510)의 가중치 값을 이용하여 실제 변이 데이터 E를 학습하게 된다.
다음으로, 가상 변이 학습부(300)가 가상 변이 데이터 C를 학습할 때는, 실제 변이 학습부(700)에서 실제 변이 데이터 E를 학습하고 난 후에 추출된 은닉층(510)의 가중치 값을 이용하여 가상 변이 데이터 C를 학습하게 된다.
다시, 실제 변이 학습부(700)가 실제 변이 데이터 F를 학습할 때는, 가상 변이 학습부(300)가 가상 변이 데이터 C를 학습하고 난 후에 추출된 은닉층(510)의 가중치 값을 이용하여 실제 변이 데이터 F를 학습하게 된다.
이처럼, 본 발명의 다른 실시예에 따른 유전자변이의 병원성 예측 시스템(1000)은 지식전이(knowledge transfer) 기법 중에서 다중작업학습(multi-task learning)을 이용할 수 있다.
결과적으로, 본 발명에 따른 유전자변이의 병원성 예측 시스템(1000)은 처음 여러 레이어에서의 학습에 필요한 데이터 자원을 지식전이 기법 중 전이학습 또는 다중작업학습으로 대체함으로써 유전자변이에서 병원성 예측에 중요한 특징을 추출하여, 인공 신경망 네트워크 모델의 후반 은닉층(730)만 학습할 정도의 적은 실제 유전자변이 데이터만으로도 오버피팅 없이 학습할 수 있다.
도 8을 참조하면, 본 발명의 일 실시예에 따른 유전자변이 병원성 예측 시스템(1000)은 실제 변이 학습부에서 학습된 인공 신경망 네트워크 모델(700)을 이용해서 대상 유전자변이(30)의 병원성을 판단하는 병원성 판단부(900)를 더 포함할 수 있다.
병원성 판단부(900)는 인공 신경망 네트워크 모델을 이용하여 활성화 함수(activation function)을 통해 병원성을 가질 가능성을 0부터 1사이의 병원성 점수로 표시할 수 있다.
이때, 활성화 함수(activation function)는 소프트맥스 함수(softmax function) 또는 시그모이드 함수(sigmoid function)일 수 있다.
이와 같이, 본 발명의 실시예에 따른 전이학습을 이용한 유전자변이의 병원성 예측 시스템(1000)은 단백질 서열 정보와 진화적 보전 데이터를 이용하여 가상 유전자변이 데이터를 생성하고, 인공 신경망 네트워크 모델로 가상 유전자변이 데이터를 학습하여 획득한 은닉층의 가중치 값을 지식전이함으로써, 소수의 실제 유전자변이 데이터만으로도 오버피팅 없이 학습할 수 있다.
즉, 본 발명의 실시예에 따른 전이학습을 이용한 유전자변이의 병원성 예측 시스템(1000)은 소수의 유전자변이 데이터 정보를 가지고 기계학습 모델을 통해 오버피팅 없이 학습하여 단백질 서열에 변화를 일으키는 유전자변이에 대한 정확한 병원성 예측할 수 있다.
이상에서 설명한 본 발명이 전술한 실시예 및 첨부된 도면에 한정되지 않으며, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지로 치환, 변형 및 변경이 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.
100: 가상 유전자 변이 데이터 생성부 110:진화적 보존 데이터 생성부
130: 가상 병원성 변이 판단부 300: 가상 변이 학습부
500: 가중치 추출부 700: 실제 변이 학습부
900: 병원성 판단부
1000: 전이학습을 이용한 유전자 변이의 병원성 예측 시스템

Claims (12)

  1. 진화적 보존 데이터로부터 가상 병원성 유전자변이 데이터와 가상 비병원성 유전자변이 데이터를 포함하는 가상 유전자변이 데이터를 생성하고, 상기 가상 유전자변이 데이터를 학습하는 인공 신경망 네트워크 모델로부터 은닉층의 가중치 값을 추출한 후, 실제 유전자변이 데이터를 학습하는 인공 신경망 네트워크 모델에 상기 은닉층의 가중치 값을 지식전이하여 대상 유전자변이의 병원성 여부를 예측하는 지식전이(knowledge transfer)를 이용한 유전자변이의 병원성 예측 시스템.
  2. 제1항에 있어서,
    상기 진화적 보존 데이터로부터 상기 가상 유전자변이 데이터를 생성하는 가상 유전자변이 데이터 생성부;
    상기 가상 유전자변이 데이터를 이용하여 인공 신경망 네트워크 모델을 학습하는 가상 변이 학습부;
    상기 실제 유전자변이 데이터를 이용하여 인공 신경망 네트워크 모델을 학습하는 실제 변이 학습부; 및
    상기 가상 변이 학습부 또는 상기 실제 변이 학습부가 인공 신경망 네트워크 모델을 학습할 때, 상기 인공 신경망 네트워크 모델이 가지는 은닉층의 가중치 값을 획득하는 가중치 추출부를 포함하고,
    상기 실제 변이 학습부는 인공 신경망 네트워크 모델을 학습할 때, 추출된 상기 가중치 값을 은닉층에 적용하는 것을 특징으로 하는 지식전이(knowledge transfer)를 이용한 유전자변이의 병원성 예측 시스템.
  3. 제2항에 있어서,
    상기 가상 유전자변이 데이터 생성부는,
    타겟 단백질 서열 정보와 다수의 유사 단백질 서열 정보로부터 다중 서열 정렬(MSA; Multiple Sequence Alignment)을 이용하여 진화적 보존 특징이 포함되어 있는 상기 진화적 보존 데이터를 생성하는 진화적 보존 데이터 생성부; 및
    상기 진화적 보존 특징으로부터 미리 설정된 기준에 따라 가상 병원성 유전자변이 데이터와 가상 비병원성 유전자변이 데이터를 각각 생성하는 가상 병원성 변이 판단부를 포함하는 지식전이(knowledge transfer)를 이용한 유전자변이의 병원성 예측 시스템.
  4. 제3항에 있어서,
    상기 진화적 보존 특징은 해당 잔기(residue)에서 발견된 아미노산의 빈도인 것을 특징으로 하는 지식전이(knowledge transfer)를 이용한 유전자변이의 병원성 예측 시스템.
  5. 제3항에 있어서,
    상기 다중 서열 정렬은 BLAST 알고리즘 또는 HHBLits 알고리즘에 의해 수행되는 것을 특징으로 하는 지식전이(knowledge transfer)를 이용한 유전자변이의 병원성 예측 시스템.
  6. 제3항에 있어서,
    상기 진화적 보존 데이터는 N X 21차원 특징 행렬이고, 상기 N은 아미노산 서열의 길이에 해당되는 임의의 수인 것을 특징으로 하는 지식전이(knowledge transfer)를 이용한 유전자변이의 병원성 예측 시스템.
  7. 제2항에 있어서,
    상기 실제 유전자변이 데이터는 실제 병원성 유전자변이 데이터와 실제 비병원성 유전자변이 데이터를 포함하는 지식전이(knowledge transfer)를 이용한 유전자변이의 병원성 예측 시스템.
  8. 제2항에 있어서,
    상기 지식전이(knowledge transfer)는 전이학습(transfer learning)과 다중작업학습(multi-task learning)을 포함하는 지식전이(knowledge transfer)를 이용한 유전자변이의 병원성 예측 시스템.
  9. 제8항에 있어서,
    상기 전이학습(transfer learning)은 상기 가상 변이 학습부가 인공 신경망 네트워크 모델을 이용하여 상기 가상 유전자변이 데이터를 학습한 후, 상기 가중치 추출부가 추출한 가중치 값을 상기 실제 변이 학습부가 이용하는 것을 특징으로 하는 지식전이(knowledge transfer)를 이용한 유전자변이의 병원성 예측 시스템.
  10. 제8항에 있어서,
    상기 다중작업학습(multi-task learning)은 상기 가상 변이 학습부와 상기 실제 변이 학습부로부터 추출된 각각의 가중치 값을 서로 번갈아 가며 인공 신경망 네트워크 모델의 은닉층에 적용하는 것을 특징으로 하는 지식전이(knowledge transfer)를 이용한 유전자변이의 병원성 예측 시스템.
  11. 제2항에 있어서,
    상기 은닉층은 상기 인공 신경망 네트워크 모델의 초반 레이어인 것을 특징으로 하는 지식전이(knowledge transfer)를 이용한 유전자변이의 병원성 예측 시스템.
  12. 제2항에 있어서,
    상기 실제 변이 학습부에서 학습된 인공 신경망 네트워크 모델을 이용해서 대상 유전자변이의 병원성을 판단하는 병원성 판단부를 더 포함하는 지식전이(knowledge transfer)를 이용한 유전자변이 병원성 예측 시스템.
KR1020210007219A 2021-01-19 2021-01-19 지식전이를 이용한 유전자변이의 병원성 예측 시스템 KR102279056B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020210007219A KR102279056B1 (ko) 2021-01-19 2021-01-19 지식전이를 이용한 유전자변이의 병원성 예측 시스템
JP2021192434A JP7290354B2 (ja) 2021-01-19 2021-11-26 知識移転を用いた遺伝子変異の病原性予測システム
US17/644,339 US20220230764A1 (en) 2021-01-19 2021-12-15 System for pathogenicity prediction of genomic variant using knowledge transfer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210007219A KR102279056B1 (ko) 2021-01-19 2021-01-19 지식전이를 이용한 유전자변이의 병원성 예측 시스템

Publications (1)

Publication Number Publication Date
KR102279056B1 true KR102279056B1 (ko) 2021-07-19

Family

ID=77125747

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210007219A KR102279056B1 (ko) 2021-01-19 2021-01-19 지식전이를 이용한 유전자변이의 병원성 예측 시스템

Country Status (3)

Country Link
US (1) US20220230764A1 (ko)
JP (1) JP7290354B2 (ko)
KR (1) KR102279056B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113808662A (zh) * 2021-09-01 2021-12-17 基诺莱(重庆)生物技术有限公司 基于神经网络的基因变异位点可致病性的预测方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101953762B1 (ko) 2017-09-25 2019-03-04 (주)신테카바이오 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템 및 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150106115A1 (en) 2013-10-10 2015-04-16 International Business Machines Corporation Densification of longitudinal emr for improved phenotyping
KR102165734B1 (ko) 2018-10-15 2020-10-14 일루미나, 인코포레이티드 심층 컨볼루션 신경망을 사전 훈련시키기 위한 심층 학습 기반 기술
CN110245685B (zh) 2019-05-15 2022-03-25 清华大学 基因组单位点变异致病性的预测方法、系统及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101953762B1 (ko) 2017-09-25 2019-03-04 (주)신테카바이오 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템 및 방법

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
D. Won 외, "3Cnet: Pathogenicity prediction of human variants using knowledge transfer with deep recurrent neural networks", bioRxiv preprint, 2020.09.27.* *
T. A. Hopf 외, "Mutation effects predicted from sequence co-variation", nature biotechnology, 35권, 2호(Supplementary 포함), 2017.02.* *
Z. Shamsi 외, "TLmutation: predicting the effects of mutations using transfer learning", bioRxiv preprint, 2020.04.18.* *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113808662A (zh) * 2021-09-01 2021-12-17 基诺莱(重庆)生物技术有限公司 基于神经网络的基因变异位点可致病性的预测方法及系统

Also Published As

Publication number Publication date
JP7290354B2 (ja) 2023-06-13
US20220230764A1 (en) 2022-07-21
JP2022111058A (ja) 2022-07-29

Similar Documents

Publication Publication Date Title
You et al. DeepGraphGO: graph neural network for large-scale, multispecies protein function prediction
Kimothi et al. Distributed representations for biological sequence analysis
CN107506799A (zh) 一种基于深度神经网络的开集类别发掘与扩展方法与装置
Nauman et al. Beyond homology transfer: Deep learning for automated annotation of proteins
KR102405030B1 (ko) 설명 가능한 유전자 변이의 병원성 예측 시스템 및 방법
Li et al. EP3: an ensemble predictor that accurately identifies type III secreted effectors
US20230207054A1 (en) Deep learning network for evolutionary conservation
KR102204509B1 (ko) 기계학습을 이용한 유전자 변이의 병원성 예측 시스템
KR102279056B1 (ko) 지식전이를 이용한 유전자변이의 병원성 예측 시스템
Bull et al. Learning classifier systems in data mining: An introduction
CN112397199B (zh) 一种基于5g和区块链的大数据疾病预测系统
CN109785901A (zh) 一种蛋白质功能预测方法及装置
CN112652358A (zh) 基于三通道深度学习调控疾病靶点的药物推荐系统、计算机设备、存储介质
Pasquier et al. PRED‐CLASS: Cascading neural networks for generalized protein classification and genome‐wide applications
CN116013428A (zh) 基于自监督学习的药物靶标通用预测方法、设备及介质
Viehweger et al. An encoding of genome content for machine learning
Hirsh et al. Using background knowledge to improve inductive learning: a case study in molecular biology
EP4182928A1 (en) Method, system and computer program product for determining presentation likelihoods of neoantigens
Kristensen et al. Classification of DNA Sequences by a MLP and SVM Network
JP6844565B2 (ja) ニューラルネットワーク装置及びプログラム
CA3165655A1 (en) Conformal inference for optimization
He et al. Predicting the sequence specificities of DNA-binding proteins by DNA fine-tuned language model with decaying learning rates
Xue et al. Recent research trends on Model Compression and Knowledge Transfer in CNNs
CN108427867A (zh) 一种基于灰色bp神经网络蛋白互作关系预测方法
CN113658633B (zh) 噬菌体宿主属预测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant