KR102072894B1 - 인트론과 엑손 구분에 기반한 이상 서열 식별 방법 - Google Patents

인트론과 엑손 구분에 기반한 이상 서열 식별 방법 Download PDF

Info

Publication number
KR102072894B1
KR102072894B1 KR1020170180567A KR20170180567A KR102072894B1 KR 102072894 B1 KR102072894 B1 KR 102072894B1 KR 1020170180567 A KR1020170180567 A KR 1020170180567A KR 20170180567 A KR20170180567 A KR 20170180567A KR 102072894 B1 KR102072894 B1 KR 102072894B1
Authority
KR
South Korea
Prior art keywords
exon
sample data
intron
learning model
value
Prior art date
Application number
KR1020170180567A
Other languages
English (en)
Other versions
KR20190078846A (ko
Inventor
윤성로
배호
이병한
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020170180567A priority Critical patent/KR102072894B1/ko
Publication of KR20190078846A publication Critical patent/KR20190078846A/ko
Application granted granted Critical
Publication of KR102072894B1 publication Critical patent/KR102072894B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physiology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

인트론과 엑손 구분에 기반한 이상 서열 식별 방법은 컴퓨터 장치가 유전자 서열 정보를 포함하는 샘플 데이터를 입력받는 단계, 상기 컴퓨터 장치가 인트론(intron)과 엑손(exon)을 구분하는 학습 모델에 상기 샘플 데이터를 입력하는 단계 및 상기 컴퓨터 장치가 정상인 유전자 서열을 상기 학습 모델에 입력하여 사전에 마련한 기준값과 상기 샘플 데이터를 상기 학습 모델에 입력하여 출력되는 출력값을 비교하여 상기 샘플 데이터의 이상 여부를 판단하는 단계를 포함한다.

Description

인트론과 엑손 구분에 기반한 이상 서열 식별 방법{ABNORMAL SEQUENCE IDENTIFICATION METHOD BASED ON INTRON AND EXON}
이하 설명하는 기술은 샘플 유전자 서열의 이상 여부를 확인하는 기법에 관한 것이다.
차세대 염기서열 분석 기술(next generation sequencing, NGS)은 염기서열 해독(sequencing)에 걸리는 시간과 비용을 획기적으로 줄였다. NGS 기술은 개개인의 유전자 차이를 통해 발현 유전자 및 질병과 관련된 염기서열을 찾는 것을 목표로 한다.
NGS의 기술은 기존 DNA 염기 서열의 총합으로 표현되는 생거 염기 서열 분석과 다르게 각 세포에서 유래한 외가닥 DNA 염기 서열이 각각 독립적으로 표현된다. 따라서 NGS 데이터에서 특정 위치의 염기를 최소 몇 번 읽었는지, 에러가 없는지 등을 확인하는 작업이 중요하다. 또 시퀀싱에서 얻은 데이터를 참조 유전자(reference gene)와 대비하여 얼라인먼트(alignment) 매핑 과정을 거치게 된다.
미국공개특허 US2014-0143188
NGS 기술이 유전자 분석을 위한 시간과 비용을 획기적으로 줄이기는 했지만, 전술한 바와 같이 데이터에 에러가 없는지 확인하고, 참조 유전자와 비교하면서 매핑해야하는 부가적인 과정이 필요하다.
이하 설명하는 기술은 인트론과 엑손을 구분하는 학습 모델을 이용하여 특정 유전자 서열이 정상적인 서열과 다른 이상 부분이 있는지에 대한 정보를 제공하고자 한다. 이하 설명하는 기술은 부가적인 정보없이 주어진 염기 서열만을 기준으로 서열의 이상 여부를 인지하게 한다.
인트론과 엑손 구분에 기반한 이상 서열 식별 방법은 컴퓨터 장치가 유전자 서열 정보를 포함하는 샘플 데이터를 입력받는 단계, 상기 컴퓨터 장치가 인트론(intron)과 엑손(exon)을 구분하는 학습 모델에 상기 샘플 데이터를 입력하는 단계 및 상기 컴퓨터 장치가 정상인 유전자 서열을 상기 학습 모델에 입력하여 사전에 마련한 기준값과 상기 샘플 데이터를 상기 학습 모델에 입력하여 출력되는 출력값을 비교하여 상기 샘플 데이터의 이상 여부를 판단하는 단계를 포함한다.
인트론과 엑손 구분에 기반한 이상 서열 식별 장치는 유전자 서열 정보를 포함하는 샘플 데이터를 입력받는 입력장치, 인트론(intron)과 엑손(exon)을 구분하는 학습 모델 및 정상인 유전자 서열을 상기 학습 모델에 입력하여 마련한 기준값을 저장하는 저장장치 및 상기 샘플 데이터를 상기 학습 모델에 입력하여 출력값을 산출하고, 상기 출력값과 상기 기준값을 비교하여 상기 샘플 데이터의 이상 여부를 판단하는 연산장치를 포함한다.
이하 설명하는 기술은 학습 모델을 이용하여 샘플 데이터에 포함되는 염기 서열이 비정상인지 여부를 판단할 수 있다. 따라서 이하 설명하는 기술은 샘플 데이터가 질병과 관련된 유전자를 보유하는지 여부를 판단한다.
나아가 이하 설명하는 기술을 NGS 분석 과정에서 외가닥 DNA 서열의 에러 판단에 적용하면 종래 NGS에서의 반복적인 확인 과정을 생략할 수 있다. 또 이하 설명하는 기술은 NGS와 달리 정확한 얼라인먼트(alignment) 매핑이나 통계적 검증 없이 유전자 이상 유무를 판단할 수 있다.
도 1은 유전자 서열 분석 과정에 대한 개념도의 예이다.
도 2는 인트론과 엑손 구분에 기반한 이상 서열 식별 방법에 대한 순서도의 예이다.
도 3은 이상 서열 식별을 위하여 이용하는 신경망의 예이다.
도 4는 인트론과 엑손 구분에 기반한 이상 서열 식별 방법에 대한 순서도의 다른 예이다.
도 5는 이상 서열 식별을 위하여 이용하는 신경망의 다른 예이다.
도 6은 이상 서열 식별을 위한 장치에 대한 예이다.
도 7은 이상 서열 식별 방법을 적용한 실험 데이터이다.
이하 설명하는 기술은 다양한 변경을 가할 수 있고 여러 가지 실시례를 가질 수 있는 바, 특정 실시례들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 이하 설명하는 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 이하 설명하는 기술의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설시된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.
도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.
또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
이하 설명하는 기술은 유전자 서열을 포함하는 데이터를 분석하는 기법에 해당한다. 일반적으로 유전자 서열은 포함하는 데이터는 다양한 기법으로 마련될 수 있다. 예컨대, 상용 NGS 분석 장치를 이용하여 샘플 데이터에 대한 서열 데이터를 마련할 수 있다. 서열 데이터는 특정한 디지털 포맷을 갖는다. 서열 데이터를 마련하는 과정에 대해서는 자세한 설명을 생략한다. 이하 컴퓨터 장치가 이와 같은 서열 데이터를 분석한다고 가정한다. 컴퓨터 장치는 PC, 스마트기기, 서버 등과 같은 장치일 수 있다.
컴퓨터 장치는 일정한 학습 모델을 이용하어 서열 데이터를 분석한다. 이하 분석하고자 하는 대상이 되는 서열 데이터를 샘플 데이터라고 명명한다. 학습 모델은 사전에 일정한 서열 데이터를 이용하여 훈련된다. 이하 학습 모델의 훈련 과정에 사용되는 데이터를 훈련 데이터라고 명명한다. 컴퓨터 장치는 다양한 기계 학습 모델을 이용할 수 있다. 예컨대, 컴퓨터 장치는 인공 신경망(artificial neural network)을 이용하여 샘플 데이터를 분석할 수 있다. 인공 신경망도 다양한 유형이 존재한다. 컴퓨터 장치는 다양한 인공 신경망 중 분석 목적에 맞는 특정 신경망을 사용하여 샘플 데이터를 분석할 수 있다. 예컨대, 컴퓨터 장치는 오토엔코더(auto encoder), RNN(Recurrent Neural Network) 등과 같은 신경망 모델을 이용할 수 있다. 나아가 특정 신경망 모델의 구조는 필요에 따라 다양할 수 있다. 예컨대, 하나의 신경망을 이용할 수도 있고, 복수의 신경망을 중첩(stacked)적으로 이용할 수도 있다. 신경망 모델의 종류나 구조는 다양할 수 있다는 것을 전제로 설명한다. 이하 설명의 편의를 위해 컴퓨터 장치는 신경망 모델을 이용하여 서열 데이터를 분석한다고 가정한다.
도 1은 유전자 서열 분석 과정에 대한 개념도의 예이다. 신경망은 훈련 데이터를 이용하여 사전에 마련한다. 훈련 데이터는 정상 그룹에 속하는 사람의 서열 데이터일 수 있다. 컴퓨터 장치는 정상인 서열 데이터를 이용하여 신경망이 입력된 서열에서 인트론(intron)과 엑손(exon)을 구분하도록 학습한다.
또 신경망의 출력값을 일정한 기법을 이용하여 후처리할 수 있다. 컴퓨터 장치는 최종 출력 값을 활성화 함수로 처리할 수 있다. 예컨대, 컴퓨터 장치는 소프트맥스(softmax) 함수를 이용하여 신경망의 출력값을 정규화할 수 있다. 소프트맥스는 N개의 값이 존재할 때 각각의 값의 편차를 확대하여 큰 값은 상대적으로 더 크게하고, 작은 값은 상대적으로 더 작게 만드는 정규화 함수이다. 소프트맥스를 위한 상세한 설명이나 수식은 생략한다. 신경망에서 출력되는 확률이 0 내지 1 사이의 값을 갖는다고 가정한다. 소프트맥스를 사용한 정규화 과정에서 특정 기준점을 두어 출력값이 기준점보다 크면 1로 처리하고, 출력값이 기준점 이하이면 해당 값을 0이라고 처리할 수 있다. 이와 같은 기준값을 절단값(cufoff value)이라고 할 수 있다. 컴퓨터 장치는 신경망을 훈련하는 과정에서 적절한 기준값(절단값)을 사용할 수 있다. 컴퓨터 장치는 신경망에서 사용한 절단값에 대한 정보를 저장한다.
물론 컴퓨터 장치는 소프트맥스 외에 다른 활성화 함수(activation function)을 사용하여 신경망의 출력값을 후처리할 수도 있다.
신경망이 마련되었다면, 이후 컴퓨터 장치는 샘플 데이터를 부석할 수 있다. 샘플 데이터는 질병 그룹에 속한 사람의 유전자 데이터라고 가정한다. 컴퓨터 장치는 샘플 데이터를 신경망에 입력하고, 신경망의 출력값을 소프트맥스 기법으로 처리한다. 신경망에서 출력되는 값은 서열이 인트론일 확률 내지 엑손일 확률이다. 컴퓨터 장치는 샘플 데이터에 대한 신경망 출력값과 전술한 기준값을 비교하여 샘플 데이터의 이상 여부를 판단할 수 있다. 즉 샘플 데이터에 포함된 인트론/엑손에 대한 신경망의 평가 결과를 기준으로 현재 입력된 샘플 데이터의 이상 여부를 판단하는 것이다. 신경망의 출력값 자체가 샘플 데이터의 이상 여부가 아니다. 신경망의 출력값은 입력된 서열이 인트론 또는 엑손일 확률을 출력한다. 컴퓨터 장치는 해당 서열에 대하여 신경망이 정확한 결과를 산출하는지 여부를 기준으로 샘플 데이터의 이상 여부를 판단할 수 있다. 여기서 샘플 데이터의 이상이란, 유전자 서열이 정상과 다른 부분이 있다는 의미이다. 이 경우 사용자는 해당 샘플 데이터가 특정 질병과 관련될 수 있다고 사전에 파악할 수 있다.
도 2는 인트론과 엑손 구분에 기반한 이상 서열 식별 방법(100)에 대한 순서도의 예이다.
컴퓨터 장치는 먼저 학습 모델을 훈련한다(110). 학습 모델은 전술한 바와 같이 신경망이라고 가정한다. 신경망 학습 과정을 설명한다.
신경망이 입력 서열에서 인트론과 엑손을 구분하기 위하여 사전에 인트론과 엑손을 구분한 정보가 필요하다. 따라서 컴퓨터 장치는 사전에 훈련 데이터에서 인트론과 엑손에 해당하는 서열을 식별할 수 있다. 컴퓨터 장치는 훈련 데이터에서 인트론과 엑손을 식별하고, 인트론 또는 엑손에 해당하는 서열 조각을 각각 식별한다. 예컨대, 컴퓨터 장치는 인트론에 해당하는 서열 조각에 인트론이라는 정보를 태그하고, 엑손에 해당하는 서열 조작에는 엑손이라는 정보를 태그할 수 있다. 입력 서열에서 인트론과 엑손을 식별하는 방법은 다양할 수 있다. (1) 기본적으로 컴퓨터 장치는 엑손의 특징인 시작 코돈과 종료 코돈을 기준으로 입력 서열에서 엑손을 식별할 수 있다. 엑손을 식별하면 나머지 서열이 인트론에 해당한다. (2) 또 컴퓨터 장치는 이미 공개된 분석 데이터를 이용할 수 있다. 유전자 DB에서 특정 서열의 인트론과 엑손을 구분한 정보를 보유하고 있다면, 컴퓨터 장치는 해당 유전자 DB가 보유한 서열 정보를 이용하녀 신경망을 학습할 수도 있다.
이제 컴퓨터 장치는 인트론 내지 엑손에 해당하는 서열을 신경망에 입력하면서 신경망이 입력 서열이 인트론인지 엑손인지를 식별할 수 있도록 학습한다. 신경망에서 출력되는 값은 인트론 또는 엑손에 해당한다고 판단한 확률값일 수 있다.
신경망 학습이 완료되면, 컴퓨터 장치는 샘플 데이터를 입력받는다(120). 컴퓨터 장치는 샘플 데이터에서도 인트론 서열과 엑손 서열을 식별한다(130). 그리고 컴퓨터 장치는 인트론과 엑손을 식별한 샘플 데이터를 신경망에 입력한다(140).
컴퓨터 장치는 샘플 데이터를 입력으로 삼아 신경망이 출력하는 값과 기준값을 비교한다(150). 기준값은 전술한 바와 같이 신경망을 훈련하면서 마련한 절단값일 수 있다. 컴퓨터 장치는 신경망의 출력값(인트론/엑손 확률)과 기준값의 차이가 일정한 값 이하라면 샘플 데이터는 정상 유전자라고 판단할 수 있다(160). 컴퓨터 장치는 신경망의 출력값과 기준값의 차이가 일정한 값을 초과하면 샘플 데이터는 이상 유전자라고 판단할 수 있다(170). 여기서 일정한 값은 이상 여부 판단을 위한 임계값(Th)에 해당한다.
도 3은 이상 서열 식별을 위하여 이용하는 신경망의 예이다. 도 3은 도 2에서 사용하는 신경망에 대한 예이다. 도 3의 신경망은 인트론과 엑손을 식별한 유전자 데이터를 입력값으로 갖는다. 컴퓨터 장치는 인트론 또는 엑손에 해당하는 서열을 신경망에 입력하면서 신경망이 출력하는 값을 기준으로 샘플 데이터의 이상 여부를 판단한다. 컴퓨터 장치는 샘플 데이터에 포함되는 인트론/엑손 서열 중 어느 하나를 신경망에 입력하면서 신경망이 출력하는 확률값을 산출할 수 있다. 나아가 컴퓨터 장치는 전체 샘플 데이터에 포함되는 모든 인트론/엑손 서열을 입력하면서 신경망이 출력하는 확률값을 산출할 수 있다. 이 경우 컴퓨터 장치는 신경망이 출력하는 복수의 확률값을 일정하게 가공(예컨대, 평균화)하여 기준값과 비교할 수도 있다.
도 4는 인트론과 엑손 구분에 기반한 이상 서열 식별 방법(200)에 대한 순서도의 다른 예이다. 도 4는 컴퓨터 장치가 서열 데이터를 인트론과 엑손으로 사전에 식별하지 않는 예이다.
컴퓨터 장치는 먼저 학습 모델을 훈련한다(110). 또 이 과정에서 전술한 기준값을 결정한다. 학습 모델은 전술한 바와 같이 신경망이라고 가정한다. 신경망 학습 과정을 설명한다.
신경망은 입력되는 임의의 서열이 인트론인지 또는 엑손인지에 대한 확률을 산출한다. 이를 위해 신경망은 입력 서열에서 특정한 인트론 또는 엑손을 식별할 수도 있다. 즉, 신경망에서 입력 서열에서 인트론 또는 엑손에 해당하는 서열을 먼저 추출하고, 추출한 서열을 기준으로 해당 서열이 인트론 또는 엑손일 확률을 산출한다. 즉 도 4에서 신경망은 도 2와 달리 입력 서열에서 인트론 또는 엑손에 해당하는 서열(정확하게는 후보 서열)을 추출하고, 이후 추출한 서열에 대한 인트론 또는 엑손일 확률을 출력한다. 이 경우 신경망은 입력 서열에서 인트론/엑손을 추출하기 위한 신경망과, 추출한 신경망에 대한 분석을 수행하는 신경망으로 구성될 수도 있다.
신경망 학습이 완료되면, 컴퓨터 장치는 샘플 데이터를 입력받는다(220). 그리고 컴퓨터 장치는 샘플 데이터를 신경망에 입력한다(230).
컴퓨터 장치는 샘플 데이터를 입력으로 삼아 신경망이 출력하는 값과 기준값을 비교한다(240). 기준값은 전술한 바와 같이 신경망을 훈련하면서 마련한 절단값일 수 있다. 컴퓨터 장치는 신경망의 출력값(인트론/엑손 확률)과 기준값의 차이가 일정한 값 이하라면 샘플 데이터는 정상 유전자라고 판단할 수 있다(250). 컴퓨터 장치는 신경망의 출력값과 기준값의 차이가 일정한 값을 초과하면 샘플 데이터는 이상 유전자라고 판단할 수 있다(260). 여기서 일정한 값은 이상 여부 판단을 위한 임계값(Th)에 해당한다.
도 5는 이상 서열 식별을 위하여 이용하는 신경망의 다른 예이다. 도 5는 도 4에서 사용하는 신경망에 대한 예이다. 도 5의 신경망은 인트론과 엑손을 포함하는 유전자 데이터를 입력값으로 갖는다. 신경망은 입력 서열에서 인트론 또는 엑손에 해당할 것으로 예상되는 후보 서열을 추출하고, 후보 서열에 대한 확률값을 출력한다. 확률값은 후보 서열이 인트론인지 또는 엑손인지에 대한 확률값이다.
이하 전술한 이상 서열 식별을 위한 장치 내지 시스템에 대하여 설명한다. 도 6은 이상 서열 식별을 위한 장치에 대한 예이다. 이상 서열 식별 시스템(300)은 클라이언트 장치(310) 및 분석 서버(320)를 포함한다. 이상 서열 식별 시스템(300)은 모델 DB(330)를 포함할 수도 있다. 분석 서버(320)는 전술한 컴퓨터 장치에 해당한다. 분석 서버(320)는 전술한 방법에 따라 훈련 데이터를 이용하여 학습 모델을 사전에 훈련할 수 있다. 또는 사전에 훈련된 모델이 이미 마련된 상태를 전제한다. 모델 DB(330)는 전술한 학습 모델을 보유하는 데이터베이스를 의미한다.
클라이언트 장치(310)는 샘플 데이터를 제공하는 장치이다. 예컨대, 클라이언트 장치(310)는 NGS 분석 장치가 분석한 서열 데이터를 분석 서버(320)에 전달한다.
분석 서버(320)는 수신한 샘플 데이터를 모델 DB(330)의 학습 모델에 입력하고, 출력값을 수신한다. 분석 서버(320)는 학습 모델의 출력값과 사전에 마련한 기준값을 비교하여 현재 입력된 샘플 데이터에 이상 서열이 포함되었는지 여부를 판단한다.
도 8(B)는 이상 서열 식별하는 컴퓨터 장치(400)에 대한 예이다. 도 8(B)에 도시한 컴퓨터 장치(400)는 전술한 분석 서버(320)일 수도 있다. 컴퓨터 장치(400)는 PC, 노트북, 스마트기기 또는 서버 등과 같은 장치를 의미한다. 컴퓨터 장치(400)는 입력장치(410), 연산장치(420), 저장장치(430) 및 출력장치(440)를 포함한다.
입력장치(410)는 샘플 데이터를 입력받는다. 샘플 데이터는 NGS 분석 장치가 분석한 서열 데이터일 수 있다. 입력장치(410)는 샘플 데이터를 통신이나 별도의 저장 장치를 통해 컴퓨터 장치(400)에 입력하는 장치이다. 나아가 입력장치(410)는 컴퓨터 장치(400)를 통해 피험자의 샘플 데이터를 직접 입력받는 인터페이스 장치(키보드, 마우스, 터치 스크린 등)일 수도 있다.
저장장치(330)는 전술한 학습 모델을 저장하는 장치이다. 저장장치(330)는 학습 모델을 이용하여 서열 데이터를 분석하는 프로그램을 저장할 수 있다. 저장장치(330)는 정상인 유전자 서열을 학습 모델에 입력하여 사전에 마련한 기준값(전술한 절단값)을 저장할 수 있다. 또 저장장치(330)는 입력장치(410)로부터 전달받은 샘플 데이터를 저장할 수 있다.
연산 장치(420)는 저장장치(330)에 저장된 학습 모델 또는 프로그램을 이용하여 입력되는 샘플 데이터에 대한 분석을 수행한다. 연산 장치(420)는 입력된 샘플 데이터에 이상 서열이 포함되었는지 여부에 대한 판단을 한다.
출력장치(440)은 분석 결과를 일정한 형태로 출력하는 장치이다. 출력장치(440)는 디스플레이 장치, 문서를 출력하는 출력 장치 및 분석 결과를 다른 장치에 전달하는 통신 장치 중 적어도 하나를 포함한다.
전술한 방법 내지 장치를 통하여 샘플 데이터에 이상 서열이 포함되었는지 여부를 판단할 수 있다. 전술한 기법을 활용하면 다양한 실시예가 가능하다.
NGS의 기술은 기존 DNA 염기 서열의 총합으로 표현되는 생거 염기 서열 분석과 다르게 각 세포에서 유래한 외가닥 DNA 염기 서열이 각각 독립적으로 표현된다. 따라서 NGS 데이터에서 특정 위치의 염기를 최소 몇 번 읽었는지, 에러가 없는지 등을 확인하는 작업이 중요하다. 이상 서열 식별 방법을 NGS 기술에 적용하면 반복적으로 리드(read)하는 과정 없이 현재 외가닥 DNA 염기 서열에 에러가 있는지 여부에 대한 판단을 할 수 있다.
또 NGS 기술은 시퀀싱에서 얻은 데이터를 참조 유전자(reference gene)과 대비하여 얼라인먼트(alignment) 매핑 과정을 거쳐야 한다. 전술한 이상 서열 식별 방법을 적용하면 별도의 대비 과정이나 매핑 과정 없이도, 현재 입력 서열에 대하여 직접적으로 이상 여부를 판단할 수 있다.
도 7은 이상 서열 식별 방법을 적용한 실험 데이터이다. 도 7은 컴퓨터 장치를 사용하여 특정 서열 데이터에 대하여 인트론일 확률을 분석한 예이다.
도 7(A)는 서로 다른 DNA 서열을 입력받은 학습 모델의 출력값에 대한 예이다. 출력값은 전술한 소프트맥스 함수로 처리된 값이다. 서로 다른 서열은 사전에 준비한 복수의 서열 중 임의의 서열을 선택한 결과이다. 도 7(A)는 서로 다른 서열인 서열 A(sequence A) 및 서열 B(sequence B)에 대한 결과이다. 도 7(A)는 정상적인 서열이지만 서로 다른 서열 데이터를 학습 모델이 입력한 경우이다. 도 7(A)를 살펴보면 서로 다른 서열이지만 인트론의 확률이 거의 일치하는 것을 알 수 있다.
도 7(B)는 서로 다른 DNA 서열을 입력받은 학습 모델의 출력값에 대한 다른 에이다. 출력값은 전술한 소프트맥스 함수로 처리된 값이다. 도 7(B)는 서로 다른 서열인 서열 A(sequence A) 및 서열 C(sequence C)에 대한 결과이다. 서열 C는 서열 B에서 대약 1% 정도의 서열을 임의로 변경한 데이터이다. 즉, 서열 C는 서열 B에 대한 돌연변이 서열에 해당한다. 도 7(B)를 살펴보면 확율값 0.85 ~ 0.9사이에서 두 개의 그패프 사이에 간격(gap)이 나타난다. 해당 영역에 있는 서열이 임의로 변경한 서열에 해당합니다. 결국 일부 서열에 변경(이상)이 생기면 학습 모델에서 출력되는 확률값에 변화를 보인다는 것을 알 수 있다. 이를 근거로 컴퓨터 장치는 서열 C가 이상 서열이다라고 판단할 수 있다.
한편 도 7에서 확율값 0과 1에서의 차이는 무시해야 한다. 모든 서열에서 인트론 또는 엑손의 길이가 동일하지 않기 때문이다.
또한, 상술한 바와 같은 이상 서열 식별 방법은 컴퓨터에서 실행될 수 있는 실행가능한 알고리즘을 포함하는 프로그램(또는 어플리케이션)으로 구현될 수 있다. 상기 프로그램은 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
본 실시례 및 본 명세서에 첨부된 도면은 전술한 기술에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 전술한 기술의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시례는 모두 전술한 기술의 권리범위에 포함되는 것이 자명하다고 할 것이다.
300 : 이상 서열 식별 시스템
310 : 클라이언트 장치
320 : 분석 서버
330 : 모델 DB
400 : 컴퓨터 장치
410 : 입력 장치
420 : 연산 장치
430 : 저장 장치
440 : 출력 장치

Claims (12)

  1. 컴퓨터 장치가 유전자 서열 정보를 포함하는 샘플 데이터를 입력받는 단계;
    상기 컴퓨터 장치가 인트론(intron)과 엑손(exon)을 구분하는 학습 모델에 상기 샘플 데이터를 입력하는 단계; 및
    상기 컴퓨터 장치가 상기 학습 모델이 상기 샘플 데이터를 입력받아 출력하는 출력값과 기준값을 비교하여 상기 샘플 데이터의 이상 여부를 판단하는 단계를 포함하되,
    상기 기준값은 사전에 상기 학습 모델이 정상인 유전자 서열을 입력받아 출력하는 값인 인트론과 엑손 구분에 기반한 이상 서열 식별 방법.
  2. 제1항에 있어서,
    상기 컴퓨터 장치는 인트론과 엑손을 식별한 훈련용 유전자 서열을 이용하여 상기 학습 모델을 사전에 훈련하는 인트론과 엑손 구분에 기반한 이상 서열 식별 방법.
  3. 제2항에 있어서,
    상기 컴퓨터 장치는 엑손의 시작 코돈 및 엑손의 종료 코돈을 기준으로 상기 훈련용 유전자 서열에서 인트론과 엑손을 식별하거나, 상기 훈련용 유전자 서열에 대한 공개된 데이터베이스를 이용하여 상기 훈련용 유전자 서열에서 인트론과 엑손을 식별하는 인트론과 엑손 구분에 기반한 이상 서열 식별 방법.
  4. 제1항에 있어서,
    상기 컴퓨터 장치는 상기 학습 모델에서 출력하는 소프트맥스(softmax)를 포함하는 활성화 함수를 사용하여 후처리하고, 상기 기준값과 상기 출력값은 상기 활성화 함수로 후처리된 값인 인트론과 엑손 구분에 기반한 이상 서열 식별 방법.
  5. 제1항에 있어서,
    상기 기준값은 상기 정상인 유전자 서열을 이용하여 훈련한 상기 학습 모델에서 출력되는 값을 소프트맥스(softmax) 함수로 처리하여 결정되는 절단값(cufoff value)인 인트론과 엑손 구분에 기반한 이상 서열 식별 방법.
  6. 제1항에 있어서,
    상기 학습 모델은 신경망에 기반한 학습모델인 인트론과 엑손 구분에 기반한 이상 서열 식별 방법.
  7. 컴퓨터에서 상기 제1항 내지 제6항 중 어느 하나의 항에 기재된 인트론과 엑손 구분에 기반한 이상 서열 식별 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
  8. 컴퓨터 장치가 정상인 훈련용 유전자 서열을 이용하여 유전자 서열에서 인트론과 엑손을 구분하는 신경망 모델을 마련하는 단계;
    상기 컴퓨터 장치가 상기 신경망 모델에서 출력하는 값을 소프트맥스(softmax) 함수로 처리하여 유전자 서열에서 인트론과 엑손을 구분하는 기준값을 결정하는 단계;
    상기 컴퓨터 장치가 NGS 기법으로 도출한 유전자 서열을 포함하는 샘플 데이터를 상기 신경망 모델에 입력하는 단계; 및
    상기 컴퓨터 장치가 상기 샘플 데이터에 대한 상기 신경망 모델의 출력값을 소프트맥스 함수로 처리한 값과 상기 기준값을 비교하여 상기 샘플 데이터에 대한 이상 여부를 판단하는 단계를 포함하는 인트론과 엑손 구분에 기반한 이상 서열 식별 방법.
  9. 제8항에 있어서,
    상기 컴퓨터 장치는 엑손의 시작 코돈 및 엑손의 종료 코돈을 기준으로 상기 훈련용 유전자 서열에서 인트론과 엑손을 식별하거나, 상기 훈련용 유전자 서열에 대한 공개된 데이터베이스를 이용하여 상기 훈련용 유전자 서열에서 인트론과 엑손을 식별하는 인트론과 엑손 구분에 기반한 이상 서열 식별 방법.
  10. 제8항에 있어서,
    상기 신경망 모델은 신경망에 기반한 학습모델인 인트론과 엑손 구분에 기반한 이상 서열 식별 방법.
  11. 유전자 서열 정보를 포함하는 샘플 데이터를 입력받는 입력장치;
    인트론(intron)과 엑손(exon)을 구분하는 학습 모델 및 정상인 유전자 서열을 상기 학습 모델에 입력하여 마련한 기준값을 저장하는 저장장치; 및
    상기 샘플 데이터를 상기 학습 모델에 입력하여 출력값을 산출하고, 상기 출력값과 상기 기준값을 비교하여 상기 샘플 데이터의 이상 여부를 판단하는 연산장치를 포함하는 인트론과 엑손 구분에 기반한 이상 서열 식별 장치.
  12. 제11항에 있어서,
    상기 연산장치는 상기 학습 모델에서 출력하는 값을 정규화하고, 상기 기준값은 상기 정규화를 위한 기준이 되는 값이고, 상기 연산장치는 상기 샘플 데이터를 입력받아 상기 학습 모델이 출력하는 출력값을 정규화한 값과 상기 기준값을 비교하여 임계값 이상 차이가 있는지 판단하는 인트론과 엑손 구분에 기반한 이상 서열 식별 장치.
KR1020170180567A 2017-12-27 2017-12-27 인트론과 엑손 구분에 기반한 이상 서열 식별 방법 KR102072894B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170180567A KR102072894B1 (ko) 2017-12-27 2017-12-27 인트론과 엑손 구분에 기반한 이상 서열 식별 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170180567A KR102072894B1 (ko) 2017-12-27 2017-12-27 인트론과 엑손 구분에 기반한 이상 서열 식별 방법

Publications (2)

Publication Number Publication Date
KR20190078846A KR20190078846A (ko) 2019-07-05
KR102072894B1 true KR102072894B1 (ko) 2020-02-03

Family

ID=67224930

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170180567A KR102072894B1 (ko) 2017-12-27 2017-12-27 인트론과 엑손 구분에 기반한 이상 서열 식별 방법

Country Status (1)

Country Link
KR (1) KR102072894B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115881228B (zh) * 2022-10-24 2023-07-21 蔓之研(上海)生物科技有限公司 一种基于人工智能的基因检测数据清洗方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140143188A1 (en) 2012-11-16 2014-05-22 Genformatic, Llc Method of machine learning, employing bayesian latent class inference: combining multiple genomic feature detection algorithms to produce an integrated genomic feature set with specificity, sensitivity and accuracy

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
E. Snyder 외, "Identification of coding regions in genomic DNA sequences: an application of dynamic programming and neural networks", Nucleic Acids Research, 21권, 3호, pp.607-613, 1993.
M. Craven 외, "Machine Learning Approaches to Gene Recognition", IEEE Expert, 9권, 2호, 1994.04.

Also Published As

Publication number Publication date
KR20190078846A (ko) 2019-07-05

Similar Documents

Publication Publication Date Title
US10402039B2 (en) Adaptive user interface using machine learning model
JP6362808B1 (ja) 情報処理装置および情報処理方法
JP2018155522A (ja) データ解析装置
EP1958034B1 (en) Use of sequential clustering for instance selection in machine condition monitoring
CN109829478B (zh) 一种基于变分自编码器的问题分类方法和装置
US20180114123A1 (en) Rule generation method and apparatus using deep learning
JP6950504B2 (ja) 異常候補抽出プログラム、異常候補抽出方法および異常候補抽出装置
CN109685104B (zh) 一种识别模型的确定方法和装置
KR102072894B1 (ko) 인트론과 엑손 구분에 기반한 이상 서열 식별 방법
CN111783088B (zh) 一种恶意代码家族聚类方法、装置和计算机设备
Pereira et al. Assessing active learning strategies to improve the quality control of the soybean seed vigor
CN116467141A (zh) 日志识别模型训练、日志聚类方法和相关系统、设备
JP2016048485A (ja) 遺伝子発現情報解析装置、遺伝子発現情報解析方法、及びプログラム
CN107067034B (zh) 一种快速识别红外光谱数据分类的方法及系统
US20210397960A1 (en) Reliability evaluation device and reliability evaluation method
JP7306460B2 (ja) 敵対的事例検知システム、方法およびプログラム
CN110570908B (zh) 测序序列多态识别方法及装置、存储介质、电子设备
Gross et al. A selective approach to internal inference
Alexander et al. Capturing discrete latent structures: choose LDs over PCs
CN113239075A (zh) 一种施工数据自检方法及系统
CN112463964A (zh) 文本分类及模型训练方法、装置、设备及存储介质
CN111009287B (zh) SLiMs预测模型的生成方法、装置、设备和存储介质
CN114374561B (zh) 一种网络安全状态评估方法、装置及可存储介质
CN116168761B (zh) 核酸序列特征区域确定方法、装置、电子设备及存储介质
CN112784903B (zh) 用于目标识别模型训练的方法、装置及设备

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant