KR102345994B1 - Ngs 분석에서의 질병 관련 유전자 선별 방법 및 장치 - Google Patents

Ngs 분석에서의 질병 관련 유전자 선별 방법 및 장치 Download PDF

Info

Publication number
KR102345994B1
KR102345994B1 KR1020200008441A KR20200008441A KR102345994B1 KR 102345994 B1 KR102345994 B1 KR 102345994B1 KR 1020200008441 A KR1020200008441 A KR 1020200008441A KR 20200008441 A KR20200008441 A KR 20200008441A KR 102345994 B1 KR102345994 B1 KR 102345994B1
Authority
KR
South Korea
Prior art keywords
disease
information
mutations
symptom
keyword
Prior art date
Application number
KR1020200008441A
Other languages
English (en)
Other versions
KR20210094783A (ko
Inventor
이재웅
김명신
Original Assignee
가톨릭대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가톨릭대학교 산학협력단 filed Critical 가톨릭대학교 산학협력단
Priority to KR1020200008441A priority Critical patent/KR102345994B1/ko
Priority to PCT/KR2020/017863 priority patent/WO2021149913A1/ko
Publication of KR20210094783A publication Critical patent/KR20210094783A/ko
Application granted granted Critical
Publication of KR102345994B1 publication Critical patent/KR102345994B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 개시의 일 실시예는 대상체의 유전체로부터 검출된 변이들(variants)에 관한 정보를 획득하고, 기 설정된 분류 조건이 설정된 분류 필터를 검출된 변이들에 관한 정보에 적용하며, 질병의 증상들과 연관된 적어도 하나의 키워드를 이용하여, 필터 적용 결과 필터링된 변이들에 관한 정보로부터 키워드에 대응되는 유전자를 식별하고, 식별된 유전자에 관한 정보를 제공하는 NGS (next generation sequence) 분석에서의 질병 관련 유전자 선별 방법에 관한 것이다.

Description

NGS 분석에서의 질병 관련 유전자 선별 방법 및 장치 {METHOD AND APPARATUS FOR SCREENING GENE RELATED WITH DISEASE IN NEXT GENERATION SEQUENCE ANALYSIS}
개시된 실시예는 NGS 분석에서의 질병 관련 유전자를 선별하는 방법 및 장치에 관한 것으로, 보다 구체적으로 질병의 증상들과 관련된 유전자를 키워드로 이용하여 분석 대상이 되는 유전자를 선별하는 방법 및 장치에 관한 것이다.
현재 세계적으로 의료현장에서 유전질환의 진단을 위한 NGS검사가 이루어지고 있고, 이를 통해 정밀의학(precision medicine)분야의 연구가 활발하게 이루어 지고 있는 실정이다. 정밀의학에서 사용되는 NGS기술은 패널 시퀀싱 (panel sequencing), 엑솜 시퀀싱 (exome sequencing), 전체 게놈 시퀀싱 (whole genome sequencing) 등으로 다양하며, 어떤 방식을 사용하든 임상의사에게 필요한 내용은 환자에게 기존에 알려진 질병관련변이가 관찰되는가의 여부이다.
기술의 발전에 따라 한정된 자원으로 검사할 수 있는 유전자 변이의 양은 폭발적으로 증가했지만, 이 변이들과 환자의 질병연관성을 평가하기 위해서는 아직 전문의의 판독이 절대적으로 필요하다. 한편, 검사기관별 임상유전학자의 숫자는 수요를 따라가지 못함에 따라, 유전자 변이의 판독에 어려움을 겪고 있다.
이에 따라 상술한 문제점을 해결하기 위해 여러 상용 분석 프로그램들이 도입되고 있으나, 다양한 정보를 분석하는 데는 여전히 한계를 보이고 있으며, 상용 분석 프로그램이 고가임에 따라 현장에서 이를 도입하는데 어려움이 많다.
개시된 실시예는 환자의 질병과 연관된 유전자 변이를 보다 효과적으로 판독하기 위한 질병 관련 유전자 선별 방법 및 장치를 제공하기 위한 것이다.
일 실시예에 따른 질병 관련 유전자 선별 방법은 NGS방식으로 획득한 유전자 정보로부터 DB에 수집된 유전자 정보를 이용하여 환자의 질병과 관련된 유전자를 선별하여 유전질환의 진단에 사용되는 시간을 단축할 수 있다. 또한, 일 실시예에 따른 질병 관련 유전자 선별 방법은 NGS검사의 종류나 상용프로그램의 종류에 국한되지 않고 적용이 가능하다.
일 실시예에 따른 NGS (next generation sequence) 분석에서의 질병 관련 유전자 선별 방법은, 대상체의 유전체로부터 검출된 변이들(variants)에 관한 정보를 획득하는 단계; 기 결정된 분류 조건이 설정된 분류 필터를 검출된 변이들에 관한 정보에 적용하는 단계; 질병의 증상들과 연관된 적어도 하나의 키워드를 이용하여, 필터 적용 결과 필터링된 변이들에 관한 정보로부터 키워드에 대응되는 유전자를 식별하는 단계; 및 식별된 유전자에 관한 정보를 제공하는 단계를 포함할 수 있다.
일 실시예에 따른 NGS 분석에서의 질병 관련 유전자 선별 방법은, DB로부터 질병의 증상들과 연관된 적어도 하나의 키워드를 획득하는 단계를 더 포함하고, 식별하는 단계는, 획득된 키워드와 필터링된 변이들에 관한 정보를 비교하는 단계를 포함할 수 있다.
일 실시예에 따른 NGS 분석에서의 질병 관련 유전자 선별 방법에 있어서, 식별하는 단계는, 질병의 증상들과 연관된 키워드가 복수개인 경우, 복수개의 키워드의 적용 순서를 결정하는 단계; 및 결정된 키워드의 적용 순서에 기초하여, 필터링된 변이들에 관한 정보에 복수개의 키워드를 적용하는 단계를 포함할 수 있다.
일 실시예에 따른 NGS 분석에서의 질병 관련 유전자 선별 방법에 있어서, 복수개의 키워드의 적용 순서는, 사용자 입력 또는 기 획득된 설정 정보에 기초하여 결정되며, 복수개의 키워드를 적용하는 단계는, 필터링된 변이들에 관한 정보로부터 복수개의 키워드 중 제 1 키워드와 대응되는 변이들을 식별하는 단계; 및 제 1 키워드와 대응되는 변이들로부터 복수개의 키워드 중 제 2 키워드와 대응되는 변이들을 식별하는 단계를 포함할 수 있다.
일 실시예에 따른 NGS 분석에서의 질병 관련 유전자 선별 방법에 있어서, 분류 필터의 분류 조건은, 판독 뎁스(read depth), 변이 비율 및 데이터베이스별 인구 집단 변이 빈도 중 적어도 하나를 포함할 수 있다.
일 실시예에 따른 NGS 분석에서의 질병 관련 유전자 선별 장치는, 대상체의 유전체로부터 검출된 변이들(variants)에 관한 정보를 획득하고, 기 결정된 분류 조건이 설정된 분류 필터를 검출된 변이들에 관한 정보에 적용하며, 질병의 증상들과 연관된 적어도 하나의 키워드를 이용하여, 필터 적용 결과 필터링된 변이들에 관한 정보에 대응되는 유전자를 식별하는 프로세서; 질병의 증상들과 연관된 적어도 하나의 키워드를 저장하는 메모리; 및 식별된 유전자에 관한 정보를 표시하는 디스플레이를 포함할 수 있다.
일 실시예에 따른 NGS 분석에서의 질병 관련 유전자 선별 장치에 있어서, 프로세서는, DB(database)로부터 질병의 증상들과 연관된 적어도 하나의 키워드를 획득하고, 획득된 키워드와 필터링된 변이들에 관한 정보를 비교할 수 있다.
일 실시예에 따른 NGS 분석에서의 질병 관련 유전자 선별 장치에 있어서, 프로세서는, 질병의 증상들과 연관된 키워드가 복수개인 경우, 복수개의 키워드의 적용 순서를 결정하고, 결정된 키워드의 적용 순서에 기초하여, 필터링된 변이들에 관한 정보에 복수개의 키워드를 적용할 수 있다.
일 실시예에 따른 NGS 분석에서의 질병 관련 유전자 선별 장치에 있어서, 복수개의 키워드의 적용 순서는, 사용자 입력 또는 기 획득된 설정 정보에 기초하여 결정되며, 프로세서는, 필터링된 변이들에 관한 정보로부터 복수개의 키워드 중 제 1 키워드와 대응되는 변이들을 식별하고, 제 1 키워드와 대응되는 변이들로부터 복수개의 키워드 중 제 2 키워드와 대응되는 변이들을 식별할 수 있다.
일 실시예에 따른 NGS 분석에서의 질병 관련 유전자 선별 장치에 있어서, 분류 필터의 분류 조건은, 판독 뎁스(read depth), 변이 비율 및 데이터베이스별 인구 집단 변이 빈도 중 적어도 하나를 포함할 수 있다.
도 1은 일 실시예에 따른 질병 관련 유전자 선별 방법을 설명하기 위한 개념도이다.
도 2는 일 실시예에 따른 질병 관련 유전자 선별 방법을 설명하기 위한 흐름도이다.
도 3은 일 실시예에 따른 질병 관련 유전자 선별 방법을 보다 구체적으로 설명하기 위한 흐름도이다.
도 4는 일 실시예에 따른 질병 관련 유전자 선별 방법을 제공하기 위한 방법이 구현되는 유저 인터페이스를 도시한 도면이다.
도 5는 일 실시예에 따라 각각의 증상과 연관된 복수의 키워드를 적용하여 질병 관련 유전자를 선별하는 방법을 설명하기 위한 도면이다.
도 6은 일 실시예에 따른 질병 관련 유전자 선별 장치의 블록도이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 해당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.
도 1은 일 실시예에 따른 질병 관련 유전자 선별 방법을 설명하기 위한 개념도이다.
타겟 유전자를 단독으로 분석하는 기존의 생어 염기서열 분석(Sanger sequencing)과 달리, NGS는 수천 개의 유전자를 동시에 분석할 수 있다. 특히, 환자의 희귀 유전질환을 분석하기 위해서는 수천 개의 유전자를 동시에 분석하는 상용 패널분석이나 전제 엑솜 시퀀싱, 전체 게놈 시퀀싱을 통해 분석이 수행됨에 따라, 이를 판독하는데 상당한 시간이 소요될 수 있다.
현재 임상현장에서 사용되는 진단장비에서 분석되어 나온 변이가 사람 유전자 가운데 어떤 부분에 해당하는지 까지는 컴퓨터에서 자동으로 할당할 수 있다. 그리고 각각의 유전자가 일으키는 것으로 알려진 유전질환에 대한 정보는 세계적으로 여러 주체가 각자 운영하는 데이터베이스(DB)에 분산되어 있다. 이러한 DB의 대부분은 각각의 질환이나 각각의 유전자에 대한 설명을 서술형으로 제공한다. 이런 형태의 DB는 많은 정보를 제공할 수 있는 반면, 전문의 개인이 수천 개의 유전자 가운데 환자의 증상에 관련된 유전자를 찾는 데에는 현실적인 어려움이 따를 수 밖에 없다.
이에 따라, 증상이나 질환명에 대한 유전자 패널이 분석에 사용되고 있으나, 현재 의료기관에서 사용되는 다수의 패널은 포함된 유전자의 숫자가 제한적이어서 목표로 하는 질병관련 유전자를 포함하지 못할 수 있어, 타겟 유전자를 놓치거나, 목표로 하는 질병과 무관한 유전자까지 다수 포함하여 선별하는 등 선별 성능이 매우 낮다는 단점이 있다. 또한, 이러한 패널분석방식의 단점 중 중요한 하나는, 희귀한 증상 또는 그 조합이나 그에 해당하는 질환에 대해 적당한 유전자 패널이 미리 준비될 수 없다는 점이다.
이런 문제를 극복하기 위해서는, 환자에서 관찰된 변이들에 해당하는 유전자 이름과 환자의 증상과 관련된 유전자 이름을 매칭시키는 기술이 필요하며, 서술형으로 제공되는 DB에서 환자의 증상과 관련된 유전자 이름을 목록화 하는 기술이 필요하다.
따라서, 일 실시예에 따른 질병 관련 유전자 선별 방법은 NGS 분석에 있어서, 분석 장비에서 쏟아져 나오는 대량의 변이 정보 가운데, 환자의 증상과 관련 있는 타겟 유전자에 해당하는 변이만을 추려내는 방법을 제공하고자 한다.
도 1을 참조하면, 일 실시예에 따른 질병 관련 유전자 선별 장치는 특정 증상에 관한 키워드를 이용함으로써, 환자로부터 검출한 유전자 변이 정보 (110) 중 DB 내에 저장되어 있는 질병 관련 유전자 정보 (130)와 대응되는 원인 유전자를 선별할 수 있다. 또한, 기 설정된 상용 키트 내 유전자 패널(120) 역시 원인 유전자를 선별하는데 이용될 수 있으나, 이는 일 예시일 뿐, 유전자 패널(120)은 선택적으로 이용될 수 있다.
일 실시예에 따른 질병 관련 유전자 선별을 통해, 판독자가 해석해야 하는 유전자의 숫자가 수백 개에서 수 개 또는 수십 개로 감소하기 때문에, 결과 해석에 필요한 시간과 노력이 크게 감소할 수 있다.
도 2는 일 실시예에 따른 질병 관련 유전자 선별 방법을 설명하기 위한 흐름도이다.
단계 S210에서, 질병 관련 유전자 선별 장치는 대상체의 유전체로부터 검출된 변이들에 관한 정보를 획득할 수 있다.
NGS 검사의 분석과정은 장비로부터 얻어진 염기 서열의 변이 정보의 ① 정렬 (alignment), ② 분석 (analysis), ③ 주석 달기 (annotation), ④ 해석 (interpretation)의 단계로 구성될 수 있다.
대상체의 유전체로부터 추출된 염기서열의 변이 정보는 기존 데이터베이스와 비교하여 이미 알려진 변이인지 새롭게 발견된 변이인지 판단되어야 한다. 그리고 그 염기서열 변이가 아미노산의 변화를 가져올 것인지 아닌지, 또한 단백질 구조에 있어서 어떤 영향을 줄 것인지 등에 대해 판단하는 과정이 필요하며, 이러한 과정이 주석 달기 과정에서 수행될 수 있다. 한편, 주석달기 과정을 자동으로 수행하기 위해 자동화 도구를 통해 주석달기가 수행될 수 있으며, 자동화 도구로는 Annovar, GAMES 등이 사용될 수 있다.
일 실시예에 따른 질병 관련 유전자 선별 장치는 자동화 도구로부터 출력된 주석 달린 변이 정보를 획득할 수 있으며, 이하에서는 설명의 편의를 위해, 주석 달린 변이들을 변이들로 설명하도록 한다.
단계 S220에서, 질병 관련 유전자 선별 장치는 기 결정된 분류 조건이 설정된 분류 필터를 검출된 변이들에 관한 정보에 적용할 수 있다. 분류 필터의 분류 조건은, 판독 뎁스(read depth), 변이 비율 및 데이터베이스별 인구 집단 변이 빈도 중 적어도 하나를 포함할 수 있으나, 이는 일 예일 뿐, 분류 조건이 전술한 예에 한정되는 것은 아니다. 다음의 표 1은 일 실시예에 따른 필터의 분류 조건이 기술되어 있는 표에 해당한다. 표 1에 포함된 분류 조건 중 "ACMG가이드라인에 따른 5단계 변이 분류"는 검토해야 할 변이의 숫자를 줄여 판독자의 편의를 돕기 위해 적용될 수 있으나, 중요변이가 검출되지 않았다고 판단될 경우 이를 적용하지 않는 것으로 분류 조건을 재설정할 수 있다.
NGS 변이 filter 조건
Total read depth >10
Variant read frequency >0.3 (변이 비율 30%이상)
Filter = pass (on target gene)
데이터베이스별 인구집단 변이 빈도 <0.001
데이터베이스에 있는 유전자로 한정 (optional)
ACMG가이드라인에 따른 5단계 변이 분류 (optional)
단계 S230에서, 질병 관련 유전자 선별 장치는 질병의 증상들과 연관된 적어도 하나의 키워드를 이용하여 필터 적용 결과 필터링된 변이들에 관한 정보로부터 키워드에 대응되는 유전자를 식별할 수 있다.
일 실시예에 따른 질병 관련 유전자 선별 장치는 질병의 각 증상별로 유전자 및 변이에 관한 정보를 포함하는 DB로부터 질병의 특정 증상들과 연관된 적어도 하나의 키워드를 획득할 수 있다. 질병 관련 유전자 선별 장치는 획득한 키워드와 필터링된 변이들 및 유전자들을 비교할 수 있다. 질병 관련 유전자 선별 장치는 비교 결과, 매칭되는 변이들을 식별할 수 있다.
단계 S240에서, 질병 관련 유전자 선별 장치는 식별된 유전자에 관한 정보를 제공할 수 있다.
일 실시예에 따른 질병 관련 유전자 선별 장치는 식별된 유전자에 관한 정보를 디스플레이에 표시할 수 있다. 또한, DB로부터 식별된 유전자에 관한 서술형 텍스트에 관한 정보를 추출하여, 식별된 유전자에 관한 정보와 함께 표시할 수 있다.
한편, 복수의 증상에 관한 키워드를 적용할 경우, 질병 관련 유전자 선별 장치는 사용자 입력 또는 기 획득된 설정 정보를 이용하여 복수개의 키워드의 적용 순서를 결정할 수 있다. 질병 관련 유전자 선별 장치는 결정된 키워드의 적용 순서에 기초하여, 필터링된 변이들 및 유전자들에 복수개의 키워드를 적용할 수 있다. 예를 들어, 질병 관련 유전자 선별 장치는 2개의 키워드를 적용하는 경우, 필터링된 변이들 및 유전자들로부터 2개의 키워드 중 제 1 키워드와 대응되는 변이들 및 유전자들을 식별할 수 있다. 또한, 질병 관련 유전자 선별 장치는 제 1 키워드와 대응되는 변이들 및 유전자들로부터 2개의 키워드 중 제 2 키워드와 대응되는 변이들 및 유전자들을 식별할 수 있다.
도 3은 일 실시예에 따른 질병 관련 유전자 선별 방법을 보다 구체적으로 설명하기 위한 흐름도이다.
단계 S310에서, 질병 관련 유전자 선별 장치는 주석 달린 변이 정보를 획득할 수 있다.
단계 S320에서, 질병 관련 유전자 선별 장치는 획득된 변이 정보에 분류 필터를 적용할 수 있다. 여기에서, 분류 필터의 조건은 판독 뎁스(read depth), 변이 비율 및 데이터베이스별 인구 집단 변이 빈도 중 적어도 하나를 포함할 수 있으며, 분류 필터의 조건에 관한 설명은 도 2에서 전술한 단계 S220의 설명 내용과 대응될 수 있다.
단계 S330에서, 질병 관련 유전자 선별 장치는 DB 내에서 증상 관련 키워드를 포함한 유전자를 선별할 수 있다.
단계 S340에서, 질병 관련 유전자 선별 장치는 필터링된 유전자와 선별된 유전자를 매칭시킬 수 있다.
단계 S350에서, 질병 관련 유전자 선별 장치는 필터링된 유전자 중 선별된 유전자와 매칭되는 유전자를 제공할 수 있으며, 이에 따라 유전자 변이에 대한 임상적 의미 평가가 수행될 수 있다.
도 4는 일 실시예에 따른 질병 관련 유전자 선별 방법을 제공하기 위한 방법이 구현되는 유저 인터페이스를 도시한 도면이다.
도 4를 참조하면, 질병 관련 유전자 선별 장치는 전술한 분류 조건이 적용된 분류 필터를 이용한 필터링을 수행하여, 필터링된 변이들에 관한 정보(410)를 획득할 수 있다. 필터링된 변이들에 관한 정보는, 변이가 관찰된 유전자의 목록을 포함하고, 이는 spread sheet의 형태로 제공될 수 있다.
한편, 질병 관련 유전자 선별 장치는 질병의 각 증상을 일으키는 유전자 변이에 관한 정보가 저장된 DB(420)로부터 키워드를 획득할 수 있다. 질병 관련 유전자 선별 장치는 DB에서 keyword를 포함하는 항목을 spread sheet의 형태로 변환할 수 있다.
질병 관련 유전자 선별 장치는 두 개의 목록(430)을 매칭시켜 교집합에 해당하는 유전자 목록을 획득할 수 있다. 환자의 임상증상이 증후군(syndrome)의 형태를 보여 복수의 키워드가 적용되는 경우, 도출된 유전자 목록에 같은 작업을 반복하여 두 가지 증상을 모두 보일 수 있는 유전질환(증후군)에 관련된 유전자만을 목록화 할 수 있다.
질병 관련 유전자 선별 장치는 선별된 유전자들에 대한 해석 정보(440)를 디스플레이에 표시할 수 있다.
일 실시예에 따른 질병 관련 유전자 선별 방법에 따르면, 수천 개의 유전자를 포함하는 NGS 패널방식의 상용 키트를 사용한 검사에서는, 같은 방식을 통해 키트에 포함된 유전자만을 추려내어 임상증상(또는 그 조합)에 해당하는 패널을 기존 대비 적은 노력으로 생성할 수 있다. 패널 생성시에는 환자 검체에서 분석된 유전자 목록이 아닌, 패널에 포함된 유전자 목록을 사용할 수 있다.
현재 사용되는 상용 키트 패널 분석시, 임상증상과 관계없이 환자별로 수만~수십만 가지의 변이를 검출하고, quality control(QC)을 통과한 수천 개의 변이가 추려지며, 여기서 판독자가 분류 필터를 적용하면 분석알고리즘에 따라 수백~수천 개의 변이가 남게 된다. 이 변이들을 유전자별로 분류하면 일반적으로 수백 개의 유전자 목록이 도출된다.
이러한 목록에 본 개시에 해당하는 방법을 적용하면 일반적으로 수 개~수십 개의 유전자 목록으로 선별이 가능하며, 다수의 증상을 보이는 증후군을 진단하는 경우 선별 효율이 더욱 뛰어나다.
도 5는 일 실시예에 따라 각각의 증상과 연관된 복수의 키워드를 적용하여 질병 관련 유전자를 선별하는 방법을 설명하기 위한 도면이다.
단계 S510에서, 질병 관련 유전자 선별 장치는 검출된 유전자들의 변이에 분류 필터를 적용할 수 있다. 예를 들어, 질병 관련 유전자 선별 장치는 검출된 46만개 이상의 유전자 변이에 분류 필터를 적용할 수 있다. 여기에서, 적용되는 분류 필터는 도 2의 단계 S220에서 전술한 분류 필터와 대응될 수 있다. 질병 관련 유전자 선별 장치는 필터링 결과, 205개 유전자 및 218개 변이에 관한 정보를 획득할 수 있다.
한편, 이하에서는 본 개시에 따른 유전자 선별 방법의 특징을 보다 명확히 설명하기 위해, 본 개시에서 제안하는 방법을 단계 S520a, 단계 S525a 및 단계 S530a로 설명하고, 기존의 방법을 단계 S520b, S530b로 설명하도록 한다.
단계 S520a에서, 질병 관련 유전자 선별 장치는 필터링된 변이 정보와 DB로부터 식별된 증상 1과 연관된 키워드를 매칭시킬 수 있다. 그 결과, 질병 관련 유전자 선별 장치는 47개의 유전자를 획득할 수 있다.
단계 S525a에서, 질병 관련 유전자 선별 장치는 전술한 매칭 단계에서 획득된 유전자에 관한 정보와 DB로부터 식별된 증상 2와 연관된 키워드를 매칭시킬 수 있다. 그 결과, 질병 관련 유전자 선별 장치는 11개의 유전자를 획득할 수 있다.
단계 S530a에서, 질병 관련 유전자 선별 장치는 획득된 11개의 유전자에 대해 DB 서술형 텍스트를 확인할 수 있도록 이에 관한 정보를 추출하여 제공할 수 있다. 판독자는 11개의 유전자에 대해 DB 서술형 텍스트를 확인하여 11개 유전자에서 3개의 의심 유전자를 확인할 수 있다.
한편, 기존의 방법에 따르는 경우, 단계 S520b에서, 질병 관련 유전자 선별 장치는 필터링 된 205개 유전자 중 질병 관련 유전자를 검색할 수 있다.
단계 S530b에서, 질병 관련 유전자 선별 장치는 205개 유전자에 대해 DB 서술형 텍스트를 확인할 수 있도록 이에 관한 정보를 추출하여 제공할 수 있다. 판독자는 205개의 유전자에 대해 DB 서술형 텍스트를 확인해야 하는 반면에, 본 개시에 따른 유전자 선별 방법을 적용할 경우 11개의 유전자에 대해 DB 서술형 텍스트를 확인해야 함에 따라 유전자 판독에 소요되는 시간을 줄일 수 있다.
도 6은 일 실시예에 따른 질병 관련 유전자 선별 장치(600)의 블록도이다.
도 6을 참조하면, 질병 관련 유전자 선별 장치(600)는 프로세서(610), 메모리(620) 및 디스플레이(630)를 포함할 수 있다. 상기 실시 예들에서 제안한 유전자 선별 장치(600)에 따라, 프로세서(610)가 동작할 수 있다. 다만, 일 실시예에 따른 질병 관련 유전자 선별 장치(600)의 구성 요소가 전술한 예에 한정되는 것은 아니다. 다른 실시예에 따라, 질병 관련 유전자 선별 장치(600)는 전술한 구성 요소들 보다 더 많은 구성 요소를 포함하거나 더 적은 구성 요소를 포함할 수도 있다.
프로세서(610)는 대상체의 유전체로부터 검출된 변이들(variants)에 관한 정보를 획득할 수 있다. 또한, 프로세서(610)는 기 결정된 분류 조건이 설정된 분류 필터를 검출된 변이들에 관한 정보에 적용하며, 질병의 증상들과 연관된 적어도 하나의 키워드를 이용하여, 필터 적용 결과 필터링된 변이들에 관한 정보로부터 키워드에 대응되는 유전자를 식별할 수 있다.
일 실시예에 따른 프로세서(610)는 DB(database)로부터 질병의 증상들과 연관된 적어도 하나의 키워드를 획득하고, 필터링된 변이들에 관한 정보에 포함된 변이가 발생된 유전자 목록과 상기 적어도 하나의 키워드를 비교할 수 있다.
일 실시예에 따른 프로세서(610)는, 질병의 증상들과 연관된 키워드가 복수개인 경우, 복수개의 키워드의 적용 순서를 결정할 수 있다. 프로세서(610)는 결정된 키워드의 적용 순서에 기초하여, 필터링된 변이들에 관한 정보에 복수개의 키워드를 적용할 수 있다.
메모리(620)는 질병의 증상들과 연관된 적어도 하나의 키워드를 저장할 수 있으며, 키워드를 필터링된 변이 정보에 적용한 결과 식별된 유전자에 관한 정보를 저장할 수도 있다.
디스플레이(630)는 식별된 유전자에 관한 정보를 표시할 수 있으며, 도 5에서 전술한 바와 같이, 식별된 유전자에 대한 DB 서술형 텍스트를 함께 제공할 수 있다.
본 발명에 따른 장치는 프로세서, 프로그램 데이터를 저장하고 실행하는 메모리, 디스크 드라이브와 같은 영구 저장부(permanent storage), 외부 장치와 통신하는 통신 포트, 터치 패널, 키(key), 버튼 등과 같은 사용자 인터페이스 장치 등을 포함할 수 있다. 소프트웨어 모듈 또는 알고리즘으로 구현되는 방법들은 상기 프로세서상에서 실행 가능한 컴퓨터가 읽을 수 있는 코드들 또는 프로그램 명령들로서 컴퓨터가 읽을 수 있는 기록 매체 상에 저장될 수 있다. 여기서 컴퓨터가 읽을 수 있는 기록 매체로 마그네틱 저장 매체(예컨대, ROM(read-only memory), RAM(random-access memory), 플로피 디스크, 하드 디스크 등) 및 광학적 판독 매체(예컨대, 시디롬(CD-ROM), 디브이디(DVD: Digital Versatile Disc)) 등이 있다. 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템들에 분산되어, 분산 방식으로 컴퓨터가 판독 가능한 코드가 저장되고 실행될 수 있다. 매체는 컴퓨터에 의해 판독가능하며, 메모리에 저장되고, 프로세서에서 실행될 수 있다.
본 발명에서 인용하는 공개 문헌, 특허 출원, 특허 등을 포함하는 모든 문헌들은 각 인용 문헌이 개별적으로 및 구체적으로 병합하여 나타내는 것 또는 본 발명에서 전체적으로 병합하여 나타낸 것과 동일하게 본 발명에 병합될 수 있다.
본 발명의 이해를 위하여, 도면에 도시된 바람직한 실시 예들에서 참조 부호를 기재하였으며, 본 발명의 실시 예들을 설명하기 위하여 특정 용어들을 사용하였으나, 특정 용어에 의해 본 발명이 한정되는 것은 아니며, 본 발명은 당업자에 있어서 통상적으로 생각할 수 있는 모든 구성 요소들을 포함할 수 있다.
본 발명은 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들은 특정 기능들을 실행하는 다양한 개수의 하드웨어 또는/및 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 발명은 하나 이상의 마이크로프로세서들의 제어 또는 다른 제어 장치들에 의해서 다양한 기능들을 실행할 수 있는, 메모리, 프로세싱, 로직(logic), 룩업 테이블(look-up table) 등과 같은 직접 회로 구성들을 채용할 수 있다. 본 발명에의 구성 요소들이 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있는 것과 유사하게, 본 발명은 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 발명은 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. "매커니즘", "요소", "수단", "구성"과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다. 상기 용어는 프로세서 등과 연계하여 소프트웨어의 일련의 처리들(routines)의 의미를 포함할 수 있다.
본 발명에서 설명하는 특정 실행들은 일 실시 예들로서, 어떠한 방법으로도 본 발명의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. 또한, "필수적인", "중요하게" 등과 같이 구체적인 언급이 없다면 본 발명의 적용을 위하여 반드시 필요한 구성 요소가 아닐 수 있다.
본 발명의 명세서(특히 특허청구범위에서)에서 "상기"의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 본 발명에서 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 적용한 발명을 포함하는 것으로서(이에 반하는 기재가 없다면), 발명의 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다. 마지막으로, 본 발명에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 발명이 한정되는 것은 아니다. 본 발명에서 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.

Claims (11)

  1. NGS (next generation sequence) 분석에서의 질병 관련 유전자 선별 방법에 있어서, 컴퓨팅 디바이스에서, 대상체의 유전체로부터 검출된 변이들(variants)에 관한 정보를 획득하는 단계;
    상기 컴퓨팅 디바이스에서, 기 결정된 분류 조건이 설정된 분류 필터를 상기 검출된 변이들에 관한 정보에 적용함으로써, 필터링된 변이들에 관한 정보를 획득하는 단계;
    상기 컴퓨팅 디바이스에서, DB(database)로부터 일 질병의 적어도 2개의 증상들과 연관된 적어도 2개의 증상 키워드를 획득하는 단계;
    상기 컴퓨팅 디바이스에서, 상기 필터링된 변이들에 관한 정보에 포함된 변이가 발생된 유전자 목록을, 상기 적어도 2개의 증상 키워드 중 제1 증상 키워드와 비교하는 단계;
    상기 필터링된 변이들에 관한 정보에 포함된 상기 변이가 발생된 유전자 목록을 상기 제1 증상 키워드와 비교한 것에 기초하여, 상기 컴퓨팅 디바이스에서, 상기 필터링된 변이들에 관한 정보로부터 상기 제1 증상 키워드에 대응하는 제1 변이들을 식별하는 단계; 및
    상기 컴퓨팅 디바이스에서, 상기 식별된 제1 변이들을 상기 적어도 2개의 증상 키워드 중 제2 증상 키워드와 비교하는 단계;
    상기 제1 변이들을 상기 제2 증상 키워드와 비교한 것에 기초하여, 상기 컴퓨팅 디바이스에서, 상기 제1 변이들로부터 상기 제2 증상 키워드에 대응하는 제2 변이들을 식별하는 단계; 및
    상기 컴퓨팅 디바이스에서, 상기 식별된 제2 변이들에 연관된 유전자에 관한 정보를 제공하는 단계를 포함하는, 질병 관련 유전자 선별 방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 제 1항에 있어서, 상기 분류 필터의 분류 조건은,
    판독 뎁스(read depth), 변이 비율 및 데이터베이스별 인구 집단 변이 빈도 중 적어도 하나를 포함하는, 질병 관련 유전자 선별 방법.
  6. NGS (next generation sequence) 분석에서의 질병 관련 유전자 선별 장치에 있어서,
    질병의 증상들과 연관된 증상 키워드를 저장하는 메모리;
    디스플레이; 및
    프로세서를 포함하고, 상기 프로세서는:
    대상체의 유전체로부터 검출된 변이들(variants)에 관한 정보를 획득하고,
    기 결정된 분류 조건이 설정된 분류 필터를 상기 검출된 변이들에 관한 정보에 적용함으로써, 필터링된 변이들에 관한 정보를 획득하고,
    상기 메모리로부터 일 질병의 적어도 2개의 증상들과 연관된 적어도 2개의 증상 키워드를 획득하고,
    상기 필터링된 변이들에 관한 정보에 포함된 변이가 발생된 유전자 목록을, 상기 적어도 2개의 증상 키워드 중 제1 증상 키워드와 비교하고,
    상기 필터링된 변이들에 관한 정보에 포함된 상기 변이가 발생된 유전자 목록을 상기 제1 증상 키워드와 비교한 것에 기초하여, 상기 필터링된 변이들에 관한 정보로부터 상기 제1 증상 키워드에 대응하는 제1 변이들을 식별하고,
    상기 식별된 제1 변이들을 상기 적어도 2개의 증상 키워드 중 제2 증상 키워드와 비교하고,
    상기 제1 변이들을 상기 제2 증상 키워드와 비교한 것에 기초하여, 상기 제1 변이들로부터 상기 제2 증상 키워드에 대응하는 제2 변이들을 식별하고,
    상기 식별된 제2 변이들에 연관된 유전자에 관한 정보를 상기 디스플레이에서 표시하도록 구성되는, 질병 관련 유전자 선별 장치.
  7. 삭제
  8. 삭제
  9. 삭제
  10. 제 6항에 있어서, 상기 분류 필터의 분류 조건은,
    판독 뎁스(read depth), 변이 비율 및 데이터베이스별 인구 집단 변이 빈도 중 적어도 하나를 포함하는, 질병 관련 유전자 선별 장치.
  11. 제 1항 및 제 5항 중 어느 하나의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
KR1020200008441A 2020-01-22 2020-01-22 Ngs 분석에서의 질병 관련 유전자 선별 방법 및 장치 KR102345994B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200008441A KR102345994B1 (ko) 2020-01-22 2020-01-22 Ngs 분석에서의 질병 관련 유전자 선별 방법 및 장치
PCT/KR2020/017863 WO2021149913A1 (ko) 2020-01-22 2020-12-08 Ngs 분석에서의 질병 관련 유전자 선별 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200008441A KR102345994B1 (ko) 2020-01-22 2020-01-22 Ngs 분석에서의 질병 관련 유전자 선별 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20210094783A KR20210094783A (ko) 2021-07-30
KR102345994B1 true KR102345994B1 (ko) 2022-01-03

Family

ID=76993247

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200008441A KR102345994B1 (ko) 2020-01-22 2020-01-22 Ngs 분석에서의 질병 관련 유전자 선별 방법 및 장치

Country Status (2)

Country Link
KR (1) KR102345994B1 (ko)
WO (1) WO2021149913A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023080571A1 (ko) * 2021-11-08 2023-05-11 주식회사 씨젠 타겟 분석물을 검출하기 위한 서열 식별자를 선정하는 방법
KR102440452B1 (ko) * 2022-02-17 2022-09-07 주식회사 에스씨엘헬스케어 핵산서열 분석 기반 유전자 변이 해석 방법
WO2024053860A1 (ko) * 2022-09-05 2024-03-14 주식회사 지놈인사이트테크놀로지 유전 정보 분석 결과 제공 방법 및 시스템

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101295785B1 (ko) * 2011-10-31 2013-08-12 삼성에스디에스 주식회사 유전변이 데이터 베이스 구축 장치 및 방법
US20140278133A1 (en) * 2013-03-15 2014-09-18 Advanced Throughput, Inc. Systems and methods for disease associated human genomic variant analysis and reporting
KR20150076293A (ko) * 2013-12-26 2015-07-07 주식회사 케이티 변이 정보의 어노테이션 방법 및 장치
WO2016154584A1 (en) * 2015-03-26 2016-09-29 Quest Diagnostics Investments Incorporated Alignment and variant sequencing analysis pipeline
KR102618536B1 (ko) * 2015-08-12 2023-12-27 삼성전자주식회사 환자의 개인화된 치료를 위한 돌연변이 우선순위화 방법 및 장치
KR101936934B1 (ko) * 2016-11-29 2019-01-09 연세대학교 산학협력단 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스

Also Published As

Publication number Publication date
KR20210094783A (ko) 2021-07-30
WO2021149913A1 (ko) 2021-07-29

Similar Documents

Publication Publication Date Title
Kalantar et al. IDseq—An open source cloud-based pipeline and analysis service for metagenomic pathogen detection and monitoring
Mulligan et al. GeneNetwork: a toolbox for systems genetics
KR102345994B1 (ko) Ngs 분석에서의 질병 관련 유전자 선별 방법 및 장치
Chothani et al. deltaTE: detection of translationally regulated genes by integrative analysis of Ribo‐seq and RNA‐seq Data
Love et al. Differential analysis of count data–the DESeq2 package
Linard et al. Rapid alignment-free phylogenetic identification of metagenomic sequences
Dumbrell et al. Microbial community analysis by single-amplicon high-throughput next generation sequencing: data analysis–from raw output to ecology
Olson et al. Variant calling and benchmarking in an era of complete human genome sequences
Arendsee et al. phylostratr: A framework for phylostratigraphy
KR102391084B1 (ko) 유전자 서열 변이 정보를 이용한 혈연관계 판단 방법
Balick et al. Overcoming constraints on the detection of recessive selection in human genes from population frequency data
Bastiaanssen et al. Bugs as features (part 1): concepts and foundations for the compositional data analysis of the microbiome–gut–brain axis
Sturm et al. Discovering Medical Knowledge Using Visual Analytics.
JP6840627B2 (ja) ハイパーパラメータの評価方法、計算機及びプログラム
CN112863603A (zh) 细菌全基因组测序数据的自动化分析方法及系统
Langfelder et al. Package ‘WGCNA’
Abe et al. UNMF: a unified nonnegative matrix factorization for multi-dimensional omics data
Meng et al. Enrichment constrained time-dependent clustering analysis for finding meaningful temporal transcription modules
Salazar et al. Computational tools for parsimony phylogenetic analysis of omics data
CN115023762A (zh) 用于疾病驱动因素的诊断和排序的表型谱相似性分析的方法和系统
Superson et al. Choice of species affects phylogenetic stability of deep nodes: an empirical example in Terrabacteria
JP2005242587A (ja) クロス表作成のためのプログラム及び方法及び装置
JP6929015B2 (ja) バイオマーカー探索装置、バイオマーカー探索方法およびプログラム
Doyle et al. 2: RNA-seq counts to genes
David et al. Targeted domain assembly for fast functional profiling of metagenomic datasets with S3A

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant