KR102204509B1

KR102204509B1 - 기계학습을 이용한 유전자 변이의 병원성 예측 시스템

Info

Publication number: KR102204509B1
Application number: KR1020200121299A
Authority: KR
Inventors: 이경열; 원동건
Original assignee: 주식회사 쓰리빌리언
Priority date: 2020-09-21
Filing date: 2020-09-21
Publication date: 2021-01-19
Also published as: WO2022059886A1

Abstract

본 발명은 유전자 변이 단백질 서열 데이터와 진화적 보존 데이터가 융합된 제1 융합데이터, 및 자연상태 단백질 서열 데이터와 진화적 보존 데이터가 융합된 제2 융합데이터를 인공 신경망 네트워크(ANN)를 통해 학습하여 유전자 변이의 병원성 여부를 판단하는 기계학습을 이용한 유전자 변이의 병원성 예측 시스템을 제공한다.

Description

기계학습을 이용한 유전자 변이의 병원성 예측 시스템{System for pathogenicity prediction of genomic mutation using machine learning}

본 발명은 유전자 변이의 병원성을 예측하는 시스템에 관한 것으로, 보다 상세하게는 기계학습을 이용해서 유전자 변이의 병원성을 예측하는 시스템에 관한 것이다.

인체의 유전자 변이가 다양한 질병과 증상을 일으키는 사례가 다수 발견이 되었으나 수많은 유전자 변이 가운데 질병을 유발하는 원인 유전자를 찾아내는 것은 어려운 문제이다.

최근에는 질병 유발 원인 유전자를 특정하기 위해서 자동화된 알고리즘을 통해 유전자 변이의 병원성을 판단하는 연구가 진행되고 있다.

특히, 인공지능 기계학습을 통해 유전자 변이의 병원성을 판단하려는 시도가 있으나, 기계학습 모델의 경우 데이터 의존성이 커서 소수의 임상 및 실험 데이터만으로 기계학습 모델을 학습할 경우 오버피팅(overfitting)이 발생할 가능성이 매우 높다.

보다 구체적으로, 종래 기술은 자연상태(wild-type) 단백질 서열 정보와 유전자 변이된(mutanted) 단백질 유전자 변이가 포함된 변이형 단백질(mutant-type protein) 서열 정보를 가지고 기계학습 모델을 통해 병원성을 예측하나, 정확한 병원성을 나타내는 임상 및 실험 데이터는 그 수가 한정되어 있어서 소수의 임상 및 실험 데이터로 기계학습 모델을 학습할 경우 오버피팅(overfitting)이 쉽게 발생된다.

특히, 희귀질환을 일으키는 질병유발 원인 유전자는 그 데이터 정보관련된 데이터를 모으는 일이데 매우 어려워서, 이러한 문제를 해결하는 것은 매우 중요하다.

본 발명이 이루고자 하는 기술적 과제는 소수의 데이터 정보를 가지고 기계학습 모델을 통해 오버피팅 없이 학습하여 유전자 변이의 병원성 여부를 판단할 수 있는 유전자 변이의 병원성 예측 시스템을 제공하고자 한다.

이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 유전자 변이의 병원성 예측 시스템은 유전자 변이 단백질 서열 데이터와 진화적 보존 데이터가 융합된 제1 융합데이터, 및 자연상태 단백질 서열 데이터와 진화적 보존 데이터가 융합된 제2 융합데이터를 인공 신경망 네트워크(ANN)를 통해 학습하여 유전자 변이의 병원성 여부를 판단한다.

자연상태 단백질(wild-type protein) 서열 정보로부터 단백질 서열 특징을 추출하여 상기 자연상태 단백질 서열 데이터를 생성하고, 유전자 변이가 포함된 변이형형 단백질(mutant-type-type protein) 서열 정보로부터 단백질 서열 특징을 추출하여 상기 유전자 변이 단백질 서열 데이터를 생성하는 단백질 서열 데이터 생성부; 상기 자연상태 단백질 서열 정보와 다수의 유사 단백질 서열 정보로부터 다중 서열 정렬(MSA; Multiple Sequence Alignment)을 이용하여 진화적 보존 특징이 포함되어 있는 상기 진화적 보존 데이터를 생성하는 진화적 보존 데이터 생성부; 딥러닝 네트워크를 이용하여 상기 자연상태 단백질 서열 데이터로부터 서열 특징을 추출하여 제1 가공데이터를 생성하고, 상기 유전자 변이 단백질 서열 데이터로부터 서열 특징을 추출하여 제2 가공데이터를 생성하고, 상기 진화적 보존 데이터로부터 서열 특징을 추출하여 제3 가공데이터를 생성하는 제1 특징추출부; 상기 제1 가공데이터와 상기 제3 가공데이터를 융합하여 상기 제1 융합데이터를 생성하고, 상기 제2 가공데이터와 상기 제3 가공데이터를 융합하여 상기 제2 가공데이터를 생성하는 융합데이터 생성부; 딥러닝 네트워크를 이용하여 상기 제1 융합데이터로부터 서열 특징을 추출하여 제1 비교데이터를 생성하고, 상기 제2 융합데이터로부터 서열 특징을 추출하여 제2 비교데이터를 생성하는 제2 특징추출부; 및 인공 신경망 네트워크를 이용하여 상기 제1 비교데이터와 상기 제2 비교데이터를 학습하여 유전자 변이의 병원성을 판단하는 병원성 판단부를 포함할 수 있다.

상기 단백질 서열 데이터 생성부는 임베딩(embedding) 기법을 이용하여 단백질 서열 특징을 추출할 수 있다.

상기 진화적 보존 데이터 생성부는 해당 잔기(residue)에서 발견된 아미노산의 빈도로 진화적 보존 특징을 나타낼 수 있다.

상기 다중 서열 정렬은 BLAST 알고리즘 또는 HHBLits 알고리즘에 의해 수행될 수 있다.

상기 진화적 보존 데이터는 21 X N 차원 행렬이고, 21은 자연계에서 발현되는 아미노산 종류의 수이고, N은 입력 단백질의 서열 길이일 수 있다.

자연상태 단백질과 유사 단백질의 유사도는 아미노산 동일성(identity)과 서열 일치 범위(coverage)로 판단할 수 있다.

상기 딥러닝 네트워크는 CNN, RNN, Transformer, GRU, LSTM, BERT, 또는 XLNET 중 어느 하나일 수 있다.

상기 병원성 판단부는, 상기 제1 비교데이터와 상기 제2 비교데이터를 결합한 제3 비교데이터를 생성하는 비교데이터 생성부; 인공 신경망 네트워크(ANN)를 이용하여 상기 제3 비교데이터로부터 상기 제1 비교데이터와 상기 제2 비교데이터의 차이점을 추출하여 차이점 데이터를 생성하는 차이점 추출부; 및 인공 신경망 네트워크(ANN)를 이용하여 활성화 함수(activation function)을 통해 병원성을 가질 가능성을 0부터 1사이의 병원성 점수로 표시하는 표시부를 포함할 수 있다.

상기 활성화 함수(activation function)는 소프트맥스 함수(softmax function) 또는 시그모이드 함수(sigmoid function)일 수 있다.

위에서 언급된 본 발명의 기술적 과제 외에도, 본 발명의 다른 특징 및 이점들이 이하에서 기술되거나, 그러한 기술 및 설명으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

이상과 같은 본 발명에 따르면 다음과 같은 효과가 있다.

본 발명은 소수의 데이터 정보를 가지고 기계학습 모델을 통해 오버피팅 없이 학습하여 단백질 서열에 변화를 일으키는 모든 유전자 변이에 대한 정확한 병원성 예측할 수 있다.

또한 본 발명은 자연상태 단백질 서열 정보와 변이형 단백질 서열 정보를 단순히 비교하는 것이 아니라, 진화적 보존 정보를 이용하여 융합데이터를 생성하고 기계학습 모델을 이용함으로써 소수의 데이터 정보를 가지고도 오버피팅 없이 학습하여 단백질 서열에 변화를 일으키는 모든 유전자 변이에 대한 정확한 병원성 예측할 수 있다.

이 밖에도, 본 발명의 실시 예들을 통해 본 발명의 또 다른 특징 및 이점들이 새롭게 파악될 수도 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 기계학습을 이용한 유전자 변이의 병원성 예측 시스템의 개략적인 구성을 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른, 단백질 서열 정보를 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른, 임베딩 기법을 이용하여 단백질 서열 특징을 나타내는 단백질 서열 데이터를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른, 다중 서열 정열을 이용하여 진화적 보존 특징을 나타내는 진화적 보존 데이터를 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 제1 특징추출부가 자연상태 서열 데이터로부터 서열 특징을 추출하여 제1 가공데이터를 생성하는 것을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 제1 특징추출부가 진화적 보존 데이터로부터 서열 특징을 추출하여 제3 가공데이터를 생성하는 것을 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른 융합데이터 생성부가 가공데이터를 이용하여 융합데이터를 생성하는 것을 설명하기 위한 도면이다.
도 8은 본 발명의 일 실시예에 따른 제2 특징추출부가 융합데이터를 이용하여 비교데이터를 생성하는 것을 설명하기 위한 도면이다.
도 9는 본 발명의 일 실시예에 따른 병원성 판단부의 개략적인 구성을 도시한 블록도이다.
도 10은 본 발명의 일 실시예에 따른 비교데이터 생성부가 제1 비교데이터와 제2 비교데이터를 결합하여 제3 비교데이터를 생성하는 것을 설명하기 위한 도면이다.
도 11은 본 발명의 일 실시예에 따른 차이점 추출부가 제3 비교데이터를 이용하여 차이점데이터를 생성하는 것을 설명하기 위한 도면이다.
도 12는 본 발명의 일 실시예에 따른 표시부가 차이점데이터로부터 병원성 점수를 표시하는 것을 설명하기 위한 도면이다.

본 명세서에서 각 도면의 구성요소들에 참조번호를 부가함에 있어서 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 번호를 가지도록 하고 있음에 유의하여야 한다.

한편, 본 명세서에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 정의하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다.

"포함하다" 또는 "가지다" 등의 용어는 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

또한, 본 명세서 해석의 명확함을 위해서, 이하에서는 본 명세서에서 사용되는 용어들을 정의하기로 한다.

본 명세서에서 사용되는 용어, "유전자 변이"는 여러 가지 요인으로 인해, 염색체에서 일어나는 염기서열의 변이를 의미할 수 있다. 예를 들어, 유전자 변이는 체성 돌연변이, 샘플의 오염으로 인한 염기서열의 변이 및 유전병으로 인한 염기서열의 변이일 수 있다. 그러나 유전변이는 전술한 것에 제한되는 것은 아니다.

본 명세서에서 사용되는 용어, "단백질 서열 데이터(protein sequence data)"란 단백질 잔기(residue) 순서에 따른 아미노산 특성 정보를 나타내는 데이터로 기계학습을 이용하기 위해 사용되는 데이터를 의미한다.

본 명세서에서 사용되는 용어, "변이형형 단백질 서열 정보(mutant-type-type protein sequence information)"란 유전자 변이가 포함된 단백질의 아미노산 서열 정보를 의미하고, "자연상태 단백질 서열 정보(wild-type protein sequence information)"란 유전자 변이가 포함되어 있지 않은 단백질의 아미노산 서열 정보를 의미한다.

이하, 첨부되는 도면을 참고하여 상기 문제점을 해결하기 위해 고안된 본 발명의 바람직한 실시예들에 대해 상세히 설명한다.

도 1은 본 발명의 일 실시예에 따른 기계학습을 이용한 유전자 변이의 병원성 예측 시스템의 개략적인 구성을 도시한 블록도이고, 도 2는 본 발명의 일 실시예에 따른, 단백질 서열 정보를 설명하기 위한 도면이고, 도 3은 본 발명의 일 실시예에 따른, 임베딩 기법을 이용하여 단백질 서열 특징을 나타내는 단백질 서열 데이터를 설명하기 위한 도면이고, 도 4는 본 발명의 일 실시예에 따른, 다중 서열 정열을 이용하여 진화적 보존 특징을 나타내는 진화적 보존 데이터를 설명하기 위한 도면이다.

도 1을 참조하면, 발명의 일 실시예에 따른 기계학습을 이용한 유전자 변이의 병원성 예측 시스템(1000)은 단백질 서열 데이터 생성부(100), 진화적 보존 데이터 생성부(200), 제1 특징추출부(300), 융합데이터 생성부(400), 제2 특징추출부(500), 및 병원성 판단부(600)를 포함한다.

단백질 서열 데이터 생성부(100)는 단백질 서열 정보로부터 단백질 서열 특징을 추출하여 단백질 서열 데이터를 생성할 수 있다.

도 2를 참조하면, 단백질 서열 정보는 자연상태 단백질(wild-type protein) 서열 정보(a)와 변이형형 단백질(mutant-type-type protein) 서열 정보(b)를 포함한다.

단백질 서열의 전체 길이는 매우 다양하므로, 실시예에 따라 임의의 특정 영역의 단백질 서열만 이용할 수 있다.

단백질 서열 정보는 다수의 아미노산(알파벳 단어)이 순서를 가지고 이어진 문자열로 표현될 수 있다. 이때, 화살표는 단백질의 잔기(residue) 순서를 나타낸다.

단백질 서열 정보는 자연상태 단백질(wild-type protein) 서열 정보(a)와 비교하여 변이형형 단백질(mutant-type-type protein) 서열 정보(b)는 6번째 잔기가 아미노산 P에서 아미노산 K로 변형되었으며, 9번째 잔기는 아미노산 T가 유실되어 있다.

도 3을 참조하면, 본 발명의 일 실시예에 따른 단백질 서열 데이터 생성부(100)가 단백질 서열 정보로부터 임베딩(embedding) 기법을 이용하여 단백질 서열 특징을 추출하여 단백질 서열 데이터(10)를 생성하는 것을 보여주는 하나의 일 실시예다.

임베딩(embedding) 기법이란 하나의 단어, 즉 하나의 아미노산을 실수 값을 갖는 N차원의 특징 벡터로 나타내는 딥러닝 기법이다. 여기서, 벡터는 N개의 특징(feature)이 한 방향으로 쭉 늘어선 데이터를 의미하고, 특징(feature)의 개수가 곧 그 데이터의 차원이 되므로 N차원의 특징 벡터가 된다.

이때, N값은 임의로 설정가능하고, 실수 값은 딥러닝 모델이 스스로 학습하여 각 아미노산에 부여하는 특징 벡터이다.

도 3에 표시된 일 실시예에 따른 단백질 서열 데이터(10)는 단백질 서열 길이가 10이고, 하나의 아미노산에 대한 특징의 개수가 8개이므로, 8 X 10 차원 특징 행렬이 된다.

이와 같이, 단백질 서열 데이터 생성부(100)는 자연상태 단백질 서열 정보로부터 딥러닝 모델을 이용하여 단백질 서열 특징을 추출하여 자연상태 단백질 서열 데이터를 생성하고, 변이형형 단백질(mutant-type-type protein) 서열 정보로부터 딥러닝 모델을 이용하여 단백질 서열 특징을 추출하여 상기 유전자 변이 단백질 서열 데이터를 생성할 수 있다.

진화적 보존 데이터 생성부(200)는 진화적 보존 정보를 다중 서열 정렬(MSA; Multiple Sequence Alignment)을 이용하여 진화적 보존 특징이 포함되어 있는 진화적 보존 데이터를 생성할 수 있다.

도 4를 참조하면, 진화적 보존 데이터 생성부(200)는 자연상태 단백질(wild-type protein) 서열 정보(a)와 다수의 유사 단백질 서열 정보(C)를 다중 서열 정렬(MSA)을 이용하여 서열 정렬할 수 있다.

먼저, 자연상태 단백질을 타겟 단백질로 하고, 타겟 단백질로 서열이 유사한 다른 단백질을 유사 단백질로 선정할 수 있다. 일반적으로, 서열이 유사한 단백질은 진화 과정에서 분화된 단백질로 가정한다.

이때, 타겟 단백질과 다른 단백질의 유사도를 판단하여 유사 단백질을 선정할 수 있는데, 유사도는 아미노산 동일성(identity)과 서열 일치 범위(coverage)로 판단할 수 있다. 유사도를 판단하는 E-value 등의 scoring 기업이 다수 개발되어 있다.

아미노산은 진화과정에서 다른 아미노산으로 변화하거나 새로운 아미노산이 추가 또는 유실되기도 하므로 같은 위치의 잔기가 다른 아미노산을 가질 수도 있다. 이때, 일치하는 잔기가 없으면 "-"로 표시한다.

여러 단백질에서 동일한 아미노산이 반복적으로 발견될 경우 해당 잔기는 "잘 보존되었다(highly conserved)"고 한다.

그리고, 타겟 단백질과 다수의 유사 단백질을 다중 서열 정렬할 수 있다.

여기서, 서열 정렬이란 서로 다른 단백질의 잔기들이 위치가 일치하도록 정렬하는 것을 의미하고, 정렬하는 단백질이 여러 개이면 다중 서열 정렬이라 한다.

본 발명의 일 실시예에 따른 진화적 보존 데이터 생성부(200)는 BLAST 알고리즘 또는 HHBLits 알고리즘에 의해 다중 서열 정렬을 수행할 수 있다.

그리고, 진화적 보존 데이터 생성부(200)는 해당 잔기(residue)에서 발견된 아미노산의 빈도를 진화적 보존 특징으로 하여 진화적 보존 데이터(20)를 생성할 수 있다.

즉, 진화적 보존 데이터(20)는 진화적 보존 특징을 나타내는 서열 데이터이고, 아미노산의 종류가 21종이므로 21차원의 특징 벡터와 N차원(입력 단백질의 서열 길이)으로 이루어진 21 X N의 행렬로 표현될 수 있다.

도 5는 본 발명의 일 실시예에 따른 제1 특징추출부가 자연상태 서열 데이터로부터 서열 특징을 추출하여 제1 가공데이터를 생성하는 것을 설명하기 위한 도면이고, 도 6은 본 발명의 일 실시예에 따른 제1 특징추출부가 진화적 보존 데이터로부터 서열 특징을 추출하여 제3 가공데이터를 생성하는 것을 설명하기 위한 도면이다.

도 5 및 도 6을 참조하면, 제1 특징추출부(300)는 단백질 서열 데이터(10)와 진화적 보존 데이터(20)로부터 서열 특징을 추출하여 가공데이터(30)를 생성할 수 있다.

제1 특징추출부(300)는 딥러닝 네트워크를 이용하여 자연상태 단백질 서열 데이터(11)로부터 서열 특징을 추출하여 제1 가공데이터(31)를 생성하고, 유전자 변이 단백질 서열 데이터(12)로부터 서열 특징을 추출하여 제2 가공데이터(32)를 생성하고, 진화적 보존 데이터(20)로부터 서열 특징을 추출하여 제3 가공데이터(33)를 생성할 수 있다.

이때, 딥러닝 네트워크는 CNN, RNN, 또는 Transformer 중 어느 하나일 수 있다.

CNN(Convolutional Neural Network)은 딥러닝에서 가장 많이 사용되는 알고리즘 중 하나로 서열 데이터를 학습할 수 있다. 이 경우 근처의 잔기들을 하나의 필터(filter)로 합성곱하는 방식이다.

RNN(Recurrent Neural Network)는 매순간의 데이터를 인공신경망 구조에 쌓아올린 것으로 입력 값들의 딥 러닝 중 가장 깊은 네트워크 구조로,앞뒤 문맥이나 순서가 존재하는 서열 데이터를 입력 받는 대표적인 딥러닝 네트워크이다. RNN의 발전된 형태인 GRU(Gated Recurrent Unit), LSTM(Long Short-Term Memory)도 모두 사용될 수 있다.

그 외에, 서열 데이터를 학습하는 딥러닝 네트워크로 알려져 있는 Transformer와 ,Transformer가 발전된 형태인 GRU(Gated Recurrent Unit), LSTM(Long Short-Term Memory), BERT(Bidirectional Encoder Representations from Transformers), 또는 XLNET 등이 이용될 수 있으며, 그 외에 서열 데이터를 처리할 수 있는 통상의 기술자에게 알려진 딥러닝 네트워크는 모두 사용될 수 있다.

단백질 서열 데이터(10)의 서열 특징은 개별적인 아미노산 특징에 불과하였다면, 제1 가공데이터(31)와 제2 가공데이터(32)는 딥러닝 네트워크를 통해 각각의 아미노산 사이의 관계를 학습하여 추출된 심층 서열 특징을 가질 수 있다.

또한, 제3 가공데이터(33)는 진화적 보존 데이터(20)의 아미노산 발견 빈도에서 병원성 예측에 유용한 특징, 예를 들어 특정 잔기의 진화적 보전성 (evolutionary conservation) 이 추출된 심층 서열 특징을 가질 수 있다.

도 7은 본 발명의 일 실시예에 따른 융합데이터 생성부가 가공데이터를 이용하여 융합데이터를 생성하는 것을 설명하기 위한 도면이다.

도 7을 참조하면, 융합데이터 생성부(400)는 제1 가공데이터(31)와 제3 가공데이터(33)를 융합하여 제1 융합데이터(41)를 생성하고, 제2 가공데이터(32)와 제3 가공데이터(33)를 융합하여 제2 융합데이터(42)를 생성할 수 있다.

융합데이터(40)는 딥러닝 네트워크를 통해 추출된 각 잔기의 심층 서열 특징을 가지는 X차원의 특징 벡터(31, 32)와 진화적 보전의 심층서열 특징을 가지는 X차원의 특징 벡터(33)를 서로 융합한 2X차원 융합 벡터이다.

이때, 제1 및 제2 가공데이터(31, 32)와 제3 가공데이터(33)의 단백질 잔기 순서가 동일하고, 딥러닝 네트워크를 통해 표준화된 특징을 추출했기 때문에 단순 벡터 결합으로 두 특징을 융합할 수 있다.

단순 벡터 결합이므로 제1 및 제2 가공데이터(31, 32)와 제3 가공데이터(33)의 차원이 동일할 필요는 없다.

융합데이터(40)는 특정 잔기에서 진화적으로 발견되어 온 아미노산들의 특징과 해당 단백질의 아미노산의 특징을 모두 가지고 있어 병원성 여부를 판단하는데 유용한 데이터이다.

도 8은 본 발명의 일 실시예에 따른 제2 특징추출부가 융합데이터를 이용하여 비교데이터를 생성하는 것을 설명하기 위한 도면이다.

도 8을 참조하면, 제2 특징 추출부(500)는 딥러닝 네트워크를 이용하여 융합데이터(40)로부터 서열 특징을 추출하여 비교데이터(50)를 생성할 수 있다.

제2 특징 추출부(500)는 딥러닝 네트워크를 이용하여 제1 융합데이터(41)로부터 서열 특징을 추출하여 Y차원의 단일 벡터인 제1 비교데이터(51)를 생성하고, 제2 융합데이터(42)로부터 서열 특징을 추출하여 Y차원의 단일 벡터인 제2 비교데이터(52)를 생성할 수 있다.

도 9는 본 발명의 일 실시예에 따른 병원성 판단부의 개략적인 구성을 도시한 블록도이고, 도 10은 본 발명의 일 실시예에 따른 비교데이터 생성부가 제1 비교데이터와 제2 비교데이터를 결합하여 제3 비교데이터를 생성하는 것을 설명하기 위한 도면이고, 도 11은 본 발명의 일 실시예에 따른 차이점 추출부가 제3 비교데이터를 이용하여 차이점데이터를 생성하는 것을 설명하기 위한 도면이고, 도 12는 본 발명의 일 실시예에 따른 표시부가 차이점데이터로부터 병원성 점수를 표시하는 것을 설명하기 위한 도면이다.

도 9를 참조하면, 본 발명의 일 실시예에 따른 병원성 판단부(600)는 비교데이터 생성부(610), 차이점 추출부(630), 및 표시부(650)를 포함한다.

병원성 판단부(600)는 인공 신경망 네트워크(ANN)를 이용하여 상기 제1 비교데이터(51)와 상기 제2 비교데이터(52)를 학습하여 유전자 변이의 병원성을 판단할 수 있다.

도 10을 참조하면, 비교데이터 생성부(610)는 제1 비교데이터(51)와 제2 비교데이터(52)를 결합한 제3 비교데이터(53)를 생성할 수 있다.

제3 비교데이터(53)는 자연상태 단백질의 특징을 가지고 있는 제1 비교데이터(51)와 유전자 변이 단백질의 특징을 가지고 있는 제2 비교데이터(52)를 하나의 특징 벡터로 모아 서로 비교하기 쉽게 만든 데이터이다.

도 11을 참조하면, 차이점 추출부(630)는 인공 신경망 네트워크(ANN: Artificial Neural Network)를 이용하여 제3 비교데이터(53)로부터 제1 비교데이터(51)와 제2 비교데이터(52)의 차이점을 추출하여 차이점데이터(60)를 생성할 수 있다.

즉, 차이점데이터(60)는 인공 신경망 네트워크(ANN)에 의해 자연상태 단백질의 특징과 유전자 변이 단백질의 특징으로부터 추출된 차이점에 대한 정보를 가지고 있다.

도 12를 참조하면, 표시부(650)는 차이점데이터(60)로부터 인공 신경망 네트워크(ANN)를 이용하여 활성화 함수(activation function)을 통해 병원성을 가질 가능성을 0부터 1사이의 병원성 점수(70)로 표시할 수 있다.

이때, 활성화 함수(activation function)는 소프트맥스 함수(softmax function) 또는 시그모이드 함수(sigmoid function)일 수 있다.

이와 같이, 본 발명의 실시예에 따른 기계학습을 이용한 유전자 변이의 병원성 예측 시스템(1000)은 단백질 서열 정보와 진화적 보존 정보로부터 딥러닝 네트워크를 이용해 특징을 추출하고 서로 융합한 융합데이터를 인공 신경망 네트워크(ANN)를 통해 학습함으로써 유전자 변이의 병원성 여부를 판단할 수 있다.

즉, 본 발명의 실시예에 따른 기계학습을 이용한 유전자 변이의 병원성 예측 시스템(1000)은 자연상태 단백질 서열 정보와 변이형 단백질 서열 정보를 단순히 비교하는 것이 아니라, 진화적 보존 정보를 이용하여 융합데이터를 생성하고 기계학습 모델을 이용함으로써 소수의 데이터 정보를 가지고도 오버피팅 없이 학습하여 단백질 서열에 변화를 일으키는 모든 유전자 변이에 대한 정확한 병원성 예측할 수 있다.

이상에서 설명한 본 발명이 전술한 실시예 및 첨부된 도면에 한정되지 않으며, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지로 치환, 변형 및 변경이 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.

10: 단백질 서열 데이터 11: 자연상태 단백질 서열 데이터
12: 유전자 변이 단백질 서열 데이터 20: 진화적 보존 데이터
30: 가공데이터 31: 제1 가공데이터
32: 제2 가공데이터 33: 제3 가공데이터
40: 융합데이터 41: 제1 융합데이터
42: 제2 융합데이터 50: 비교데이터
51: 제1 비교데이터 52: 제2 비교데이터
53: 제3 비교데이터 60: 차이점데이터
70: 병원성 점수 100: 단백질 서열 데이터 생성부
200: 진화적 보존 데이터 생성부 300: 제1 특징 추출부
400: 융합데이터 생성부 500: 제2 특징 추출부
600: 병원성 판단부
1000: 기계 학습을 이용한 유전자 변이의 병원성 예측 시스템

Claims

자연상태 단백질(wild-type protein) 서열 정보로부터 단백질 서열 특징을 추출하여 자연상태 단백질 서열 데이터를 생성하고, 유전자 변이가 포함된 변이형 단백질(mutant-type protein) 서열 정보로부터 단백질 서열 특징을 추출하여 유전자 변이 단백질 서열 데이터를 생성하는 단백질 서열 데이터 생성부;
상기 자연상태 단백질 서열 정보와 다수의 유사 단백질 서열 정보로부터 다중 서열 정렬(MSA; Multiple Sequence Alignment)을 이용하여 진화적 보존 특징이 포함되어 있는 진화적 보존 데이터를 생성하는 진화적 보존 데이터 생성부;
딥러닝 네트워크를 이용하여 상기 자연상태 단백질 서열 데이터로부터 서열 특징을 추출하여 제1 가공데이터를 생성하고, 상기 유전자 변이 단백질 서열 데이터로부터 서열 특징을 추출하여 제2 가공데이터를 생성하고, 상기 진화적 보존 데이터로부터 서열 특징을 추출하여 제3 가공데이터를 생성하는 제1 특징추출부;
상기 제1 가공데이터와 상기 제3 가공데이터를 융합하여 제1 융합데이터를 생성하고, 상기 제2 가공데이터와 상기 제3 가공데이터를 융합하여 제2 융합데이터를 생성하는 융합데이터 생성부;
딥러닝 네트워크를 이용하여 상기 제1 융합데이터로부터 서열 특징을 추출하여 제1 비교데이터를 생성하고, 상기 제2 융합데이터로부터 서열 특징을 추출하여 제2 비교데이터를 생성하는 제2 특징추출부; 및
인공 신경망 네트워크를 이용하여 상기 제1 비교데이터와 상기 제2 비교데이터를 학습하여 유전자 변이의 병원성을 판단하는 병원성 판단부를 포함하는 기계학습을 이용한 유전자 변이의 병원성 예측 시스템.
삭제
제1항에 있어서,
상기 단백질 서열 데이터 생성부는 임베딩(embedding) 기법을 이용하여단백질 서열 특징을 추출하는 것을 특징으로 하는 기계학습을 이용한 유전자 변이의 병원성 예측 시스템.
제1항에 있어서,
상기 진화적 보존 데이터 생성부는 해당 잔기(residue)에서 발견된 아미노산의 빈도로 진화적 보존 특징을 나타내는 것을 특징으로 하는 기계학습을 이용한 유전자 변이의 병원성 예측 시스템.
제1항에 있어서,
상기 다중 서열 정렬은 BLAST 알고리즘 또는 HHBLits 알고리즘에 의해 수행되는 것을 특징으로 하는 기계학습을 이용한 유전자 변이의 병원성 예측 시스템.
제1항에 있어서,
상기 진화적 보존 데이터는 21 X N 차원 행렬이고,
21은 자연계에서 발현되는 아미노산 종류의 수이고, N은 입력 단백질의 서열 길이인 것을 특징으로 하는 기계학습을 이용한 유전자 변이의 병원성 예측 시스템.
제1항에 있어서,
자연상태 단백질과 유사 단백질의 유사도는 아미노산 동일성(identity)과 서열 일치 범위(coverage)로 판단하는 것을 특징으로 하는 기계학습을 이용한 유전자 변이의 병원성 예측 시스템.
제1항에 있어서,
상기 딥러닝 네트워크는 CNN, RNN, Transformer, GRU, LSTM, BERT, 또는 XLNET 중 어느 하나인 것을 특징으로 하는 기계학습을 이용한 유전자 변이의 병원성 예측 시스템.
제1항에 있어서,
상기 병원성 판단부는,
상기 제1 비교데이터와 상기 제2 비교데이터를 결합한 제3 비교데이터를 생성하는 비교데이터 생성부;
인공 신경망 네트워크(ANN)를 이용하여 상기 제3 비교데이터로부터 상기 제1 비교데이터와 상기 제2 비교데이터의 차이점을 추출하여 차이점데이터를 생성하는 차이점 추출부; 및
인공 신경망 네트워크(ANN)를 이용하여 활성화 함수(activation function)을 통해 병원성을 가질 가능성을 0부터 1사이의 병원성 점수로 표시하는 표시부를 포함하는 기계학습을 이용한 유전자 변이의 병원성 예측 시스템.
제9항에 있어서,
상기 활성화 함수(activation function)는 소프트맥스 함수(softmax function) 또는 시그모이드 함수(sigmoid function)인 것을 특징으로 하는 기계학습을 이용한 유전자 변이의 병원성 예측 시스템.