KR20170064260A - 표적 시퀀싱 영역 선정 방법 및 장치 - Google Patents

표적 시퀀싱 영역 선정 방법 및 장치 Download PDF

Info

Publication number
KR20170064260A
KR20170064260A KR1020150169809A KR20150169809A KR20170064260A KR 20170064260 A KR20170064260 A KR 20170064260A KR 1020150169809 A KR1020150169809 A KR 1020150169809A KR 20150169809 A KR20150169809 A KR 20150169809A KR 20170064260 A KR20170064260 A KR 20170064260A
Authority
KR
South Korea
Prior art keywords
region
size
sequencing
exon
sections
Prior art date
Application number
KR1020150169809A
Other languages
English (en)
Inventor
고은형
선충현
임호균
홍유진
이수연
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to KR1020150169809A priority Critical patent/KR20170064260A/ko
Publication of KR20170064260A publication Critical patent/KR20170064260A/ko

Links

Images

Classifications

    • G06F19/22
    • G06F19/18
    • G06F19/28

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

표적 시퀀싱 영역 선정 방법 및 장치가 개시된다. 본 발명의 일 실시예에 따른 표적 시퀀싱 영역 선정 방법은 표준 유전자 데이터베이스로부터 염색체 팔에 포함되는 DNA 염기 서열의 크기 및 위치를 획득하는 단계, 상기 DNA 염기 서열의 크기에 기초하여 상기 DNA 염기 서열의 위치를 복수의 구간으로 분할하는 단계, 상기 표준 유전자 데이터베이스로부터 상기 복수의 구간 각각에 포함되는 엑손 영역의 위치 및 크기을 획득하는 단계, 상기 엑손 영역 각각에 대한 시퀀싱 적합도를 산출하는 단계, 상기 시퀀싱 적합도에 기초하여, 상기 복수의 구간 각각에서 적어도 하나의 엑손 영역을 선택하는 단계 및 선택된 엑손 영역의 위치를 표적 시퀀싱 영역으로 결정하는 단계를 포함한다.

Description

표적 시퀀싱 영역 선정 방법 및 장치{METHOD AND APPARATUS FOR SELECTING TARGET SEQUENCING REGION}
본 발명의 실시예들은 광역적 염기서열 유실 검출을 위한 표적 시퀀싱 영역을 선정하기 위한 기술과 관련된다.
염색체의 광역적 염기서열 유실(한 염색체 혹은 염색체의 절반 이상 크기로 염기서열이 유실되는 현상)은 여러 종류의 암(예: 혈액 암) 발병 원인, 서브타이핑(subtyping), 항암치료를 위한 정보로 이용된다. 그러나 차세대 염기서열분석방법 (Next Generation Sequencing, NGS)에 이용되는 맞춤형 시퀀싱 패널은 포함할 수 있는 염기서열 용량이 한정되어 있기 때문에 광역적 염기서열 유실을 검출할 표적 지역들을 효과적으로 선정해야 한다.
차세대 염기서열 분석 방법 (Next Generation Sequencing, NGS)을 이용한 예로 전장 유전체 염기서열해독(whole genome sequencing: WGS)은 인간 유전체 전체 영역에 대한 염기서열 해독을 하는 방법이고, 전장 엑솜 염기서열해독(whole exome sequencing: WES)은 전사체(transcript)를 코딩하는 엑손 영역들만 한정한 염기서열 해독하는 방법이다.
이 두 가지 NGS방법으로 시퀀싱 데이터를 분석하여 광역적 염기서열 유실을 검출할 수 있으나, 이들 방법은 시퀀싱 범위가 매우 커서 분석비용이 수 백에서 수 천 만원에 이르고 데이터 크기가 수 백 기가 바이트(Giga byte)에 달해서 데이터 분석시간, 데이터 저장/관리 비용도 높다.
미국 공개특허공보 US2013/0040824(2013.02.14 공개)
본 발명의 실시예들은 염색체의 광역적 염기 서열 유실을 검출하기 위한 표적 시퀀싱 영역 선정 방법 및 장치를 제공하기 위한 것이다.
본 발명의 일 실시예에 따른 표적 시퀀싱 영역 선정 방법은, 표준 유전자 데이터베이스로부터 염색체 팔에 포함되는 DNA 염기 서열의 크기 및 위치를 획득하는 단계, 상기 DNA 염기 서열의 크기에 기초하여 상기 DNA 염기 서열의 위치를 복수의 구간으로 분할하는 단계, 상기 표준 유전자 데이터베이스로부터 상기 복수의 구간 각각에 포함되는 엑손 영역의 위치 및 크기을 획득하는 단계, 상기 엑손 영역 각각에 대한 시퀀싱 적합도를 산출하는 단계, 상기 시퀀싱 적합도에 기초하여, 상기 복수의 구간 각각에서 적어도 하나의 엑손 영역을 선택하는 단계 및 선택된 엑손 영역의 위치를 표적 시퀀싱 영역으로 결정하는 단계를 포함한다.
상기 분할하는 단계는, 상기 DNA 염기 서열의 크기 및 상기 복수의 구간의 개수에 기초하여 상기 복수의 구간 각각의 크기를 결정하고, 상기 결정된 크기에 따라 상기 DNA 염기 서열의 위치를 상기 복수의 구간으로 분할할 수 있다.
상기 산출하는 단계는, 엑손 영역의 매핑률, GC 컨텐츠 비율, 단일염기다형성(Single Nucleotide Polymorphism) 빈도 및 크기 중 적어도 하나에 기초하여 상기 시퀀싱 적합도를 산출할 수 있다.
상기 산출하는 단계는, 엑손 영역의 매핑률, GC 컨텐츠 비율, 단일염기다형성(Single Nucleotide Polymorphism) 빈도 및 크기 중 적어도 하나에 대한 점수를 부여하고, 상기 부여된 점수들의 합을 상기 시퀀싱 적합도로 산출할 수 있다.
상기 표적 시퀀싱 영역 선정 방법은, 상기 표적 시퀀싱 영역의 크기 및 상기 복수의 구간의 개수에 기초하여 상기 복수의 구간 각각에 대한 허용 시퀀싱 영역의 크기를 결정하는 단계를 더 포함할 수 있다.
상기 선택하는 단계는, 상기 시퀀싱 적합도가 높은 순서대로 상기 복수의 구간 각각에서 하나 이상의 엑손 영역을 선택하되, 각 구간에서 선택된 엑손 영역의 총 크기가 상기 허용 시퀀싱 영역의 크기를 초과하지 않도록 상기 하나 이상의 엑손 영역을 선택할 수 있다.
본 발명의 일 실시예에 따른 표적 시퀀싱 영역 선정 장치는, 표준 유전자 데이터베이스로부터 염색체 팔에 포함되는 DNA 염기 서열의 크기 및 위치를 획득하고, 상기 DNA 염기 서열의 크기에 기초하여 상기 DNA 염기 서열의 위치를 복수의 구간으로 분할하는 분할부, 상기 표준 유전자 데이터베이스로부터 상기 복수의 구간 각각에 포함되는 엑손 영역을 획득하는 획득부, 상기 엑손 영역 각각에 대한 시퀀싱 적합도를 산출하는 적합도 산출부 및 상기 시퀀싱 적합도에 기초하여 상기 복수의 구간 각각에서 적어도 하나의 엑손 영역을 선택하고, 선택된 엑손 영역의 위치를 표적 시퀀싱 영역으로 결정하는 선정부를 포함한다.
상기 분할부는, 상기 DNA 염기 서열의 크기 및 상기 복수의 구간의 개수에 기초하여 상기 복수의 구간 각각의 크기를 결정하고, 상기 결정된 크기에 따라 상기 DNA 염기 서열의 위치를 상기 복수의 구간으로 분할할 수 있다.
상기 적합도 산출부는, 엑손 영역의 매핑률, GC 컨텐츠 비율, 단일염기다형성(Single Nucleotide Polymorphism) 빈도 및 크기 중 적어도 하나에 기초하여 상기 시퀀싱 적합도를 산출할 수 있다.
상기 적합도 산출부는, 엑손 영역의 매핑률, GC 컨텐츠 비율, 단일염기다형성(Single Nucleotide Polymorphism) 빈도 및 크기 중 적어도 하나에 대한 점수를 부여하고, 상기 부여된 점수들의 합을 상기 시퀀싱 적합도로 산출할 수 있다.
상기 선정부는, 상기 표적 시퀀싱 영역의 크기 및 상기 복수의 구간의 개수에 기초하여 상기 복수의 구간 각각에 대한 허용 시퀀싱 영역의 크기를 결정할 수 있다.
상기 선정부는, 상기 시퀀싱 적합도가 높은 순서대로 상기 복수의 구간 각각에서 하나 이상의 엑손 영역을 선택하되, 각 구간에서 선택된 엑손 영역의 총 크기가 상기 허용 시퀀싱 영역의 크기를 초과하지 않도록 상기 하나 이상의 엑손 영역을 선택할 수 있다.
본 발명의 일 실시예에 따른 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램은, 하드웨어와 결합되어, 표준 유전자 데이터베이스로부터 염색체 팔에 포함되는 DNA 염기 서열의 크기 및 위치를 획득하는 단계, 상기 DNA 염기 서열의 크기에 기초하여 상기 DNA 염기 서열의 위치를 복수의 구간으로 분할하는 단계, 상기 표준 유전자 데이터베이스로부터 상기 복수의 구간 각각에 포함되는 엑손 영역의 위치 및 크기을 획득하는 단계, 상기 엑손 영역 각각에 대한 시퀀싱 적합도를 산출하는 단계, 상기 시퀀싱 적합도에 기초하여, 상기 복수의 구간 각각에서 적어도 하나의 엑손 영역을 선택하는 단계 및 선택된 엑손 영역의 위치를 표적 시퀀싱 영역으로 결정하는 단계를 실행시킨다.
본 발명의 실시예들에 따르면, 염색체의 광역적 염기서열 유실 검출을 위해 최적화된 표적 시퀀싱 영역을 제공함과 동시에 표적 시퀀싱 영역의 크기를 최소화 함으로써, 염색체의 광역적 염기서열 유실 검출의 효율성과 정확성을 향상시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 표적 시퀀싱 영역 선정 장치의 구성도
도 2 및 도 3은 7번 염색체의 q arm에 대한 표적 시퀀싱 영역 선정의 예를 나타낸 도면
도 4는 본 발명의 일 실시예에 따른 표적 시퀀싱 영역 선정 방법의 순서도
이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.
본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.
도 1은 본 발명의 일 실시예에 따른 표적 시퀀싱 영역 선정 장치의 구성도이다.
도 1을 참조하면, 표적 시퀀싱 영역 선정 장치(100)는 염색체의 염기 서열 유실 검출을 위해 염색체의 염기 서열에서 시퀀싱(sequencing)을 수행할 영역(이하, 표적 시퀀싱 영역)을 결정하기 위한 것으로, 분할부(110), 획득부(130), 적합도 산출부(150) 및 선정부(170)를 포함한다.
분할부(110)는 염색체 팔(arm)에 포함되는 DNA 염기 서열의 크기 및 위치를 획득하고, 획득된 DNA 염기 서열의 크기에 기초하여 획득된 DNA 염기 서열의 위치를 복수의 구간으로 분할한다.
구체적으로, 분할부(110)는 예를 들어, refGene, geneCode, Ensemble 등과 같은 표준 유전자 데이터베이스로부터 특정 염색체의 p arm과 q arm 각각에 대한 DNA 염기 서열의 크기 및 위치를 획득할 수 있다.
이때, 염색체 팔에 포함되는 DNA 염기 서열의 위치는 염색체의 DNA 염기 서열에서 염색체 팔(p arm 또는 q arm)에 해당하는 염기 서열의 시작 위치 및 종료 위치를 포함할 수 있다.
한편, 본 발명의 일 실시예에 따르면, 분할부(110)는 획득된 DNA 염기 서열의 크기에 기초하여 획득된 DNA 염기 서열의 위치를 분할하기 위한 복수의 구간 각각의 크기를 산출하고, 산출된 각 구간의 크기에 해당하는 간격으로 획득된 DNA 염기 서열의 위치를 분할할 수 있다.
예를 들어, 획득된 DNA 염기 서열의 크기가 59,900,000 bp이며, 획득된 DNA 염기 서열의 위치를 분할하기 위한 구간의 수가 N인 것으로 가정하면, 각 구간의 크기는 59,900,000/N bp에 해당하게 된다.
이때, 실시예에 따라 획득된 DNA 염기 서열의 크기에서 말단소체(telomere)와 동원체(centromere) 영역에 해당하는 DNA 염기 서열의 크기를 제외한 나머지 크기를 N으로 나눈 값을 각 구간의 크기로 결정할 수도 있다. 예를 들어, 획득된 DNA 염기 서열의 크기가 59,900,000 bp, 획득된 DNA 염기 서열의 크기 중 말단소체와 동원체 영역에 해당하는 DNA 염기 서열의 크기가 20,000 bp, 획득된 DNA 염기 서열의 위치를 분할하기 위한 구간의 수가 N인 것으로 가정하면, 각 구간의 크기는 (59,900,000-20,000)/N bp에 해당하게 된다.
한편, 획득된 DNA 염기 서열의 위치를 분할하기 위한 구간의 수는 기 설정된 표적 시퀀싱 영역의 크기를 고려하여 적절한 값으로 설정될 수 있다. 예를 들어, 기 설정된 표적 시퀀싱 영역의 크기가 클수록 N의 값이 크게 설정될 수 있다.
한편, 획득된 DNA 염기 서열의 위치가 염색체 7번의 첫 번째 염기 서열에서 50,000,000 번째 염기 서열이며, 획득된 DNA 염기 서열의 위치를 분할하기 위한 각 구간의 크기가 1,200,000 bp인 것으로 가정하면, 분할부(110)는 획득된 DNA 염기 서열의 위치를 1,200,000 bp 간격으로 분할할 수 있으며, 이에 따라 분할된 첫 번째 구간은 염색체 7번의 첫 번째 염기 서열에서 1,200,000 번째 염기 서열에 해당하며, 두 번째 구간은 염색체 7번의 1,200,001 번째 염기 서열에서 2,400,000 번째 염기서열에 해당하게 된다.
획득부(130)는 표준 유전자 데이터베이스로부터 분할부에 의해 분할된 DNA 염기 서열 위치의 각 구간에 포함되는 엑손(exon) 영역의 위치 및 크기를 획득한다.
예를 들어, 분할된 첫 번째 구간의 위치가 염색체 7번의 첫 번째 염기 서열에서 1,200,000 번째 염기 서열에 해당하는 경우, 획득부(130)는 염색체 7번의 첫 번째 염기 서열에서 1,200,000 번째 염기 서열 내에서 엑손에 해당하는 영역들 각각의 위치 및 크기를 획득할 수 있다.
적합도 산출부(150)는 획득부(130)에 의해 위치 및 크기가 획득된 엑손 영역들 각각에 대하여 시퀀싱 적합도를 산출한다.
이때, 본 발명의 일 실시예에 따르면, 적합도 산출부(150)는 엑손 영역의 매핑률, GC 컨텐츠 비율, 단일염기다형성(Single Nucleotide Polymorphism) 빈도 및 크기 중 적어도 하나에 기초하여 각 엑손 영역의 시퀀싱 적합도를 산출할 수 있다.
예를 들어, 적합도 산출부(150)는 아래의 수학식 1과 같이 엑손 영역의 매핑률, GC 컨텐츠 비율, 단일염기다형성(Single Nucleotide Polymorphism, 이하 SNP) 빈도 및 크기 각각에 대해 점수를 부여하고, 부여된 점수의 합으로 각 엑손 영역에 대한 시퀀싱 적합도를 산출할 수 있다.
[수학식 1]
Figure pat00001
수학식 1에서, M은 매핑률 점수, G는 GC 컨텐츠 비율 점수, F는 SNP 빈도 점수, S는 엑손 영역의 크기 점수, a, b, c 및 d는 가중치를 의미한다.
한편, 엑손 영역의 매핑률은 엑손 영역의 염기 서열이 엑손 영역 외 다른 영역에 매핑되는지 여부를 나타내는 것으로, 엑손 영역의 매핑률은 표준유전자 데이터베이스로부터 획득할 수 있다. 또한, 적합도 산출부(150)는 예를 들어, 엑손 영역의 염기 서열이 다른 영역에 매핑되는 수가 적을 수록 높은 매핑률 점수를 부여할 수 있다.
GC 컨텐츠 비율은 엑손 영역의 염기 서열 중 G와 C의 비율을 나타내는 것으로, GC 컨텐츠 비율은 예를 들어, GRCH37, HG19 등과 같이 공개된 유전체 서열 데이터의 DNA 염기 서열 정보로부터 획득될 수 있다. 구체적으로, 적합도 산출부(150)는 유전체 서열 데이터의 DNA 염기 서열 정보에서 엑손 영역의 위치에 해당하는 염기 서열을 획득한 후 획득된 염기 서열 중 G와 C의 수를 카운트 함으로써, 해당 엑손 영역의 GC 컨텐츠 비율을 획득할 수 있다. 한편, 엑손 영역의 GC 컨텐츠 비율이 너무 높거나 낮으면, 시퀀싱 정확도가 낮아지므로, 적합도 산출부(150)는 예를 들어, GC 컨텐츠의 비율이 40 내지 60%인 엑손 영역에 높은 GC 컨텐츠 점수를 부여할 수 있다.
SNP 빈도는 예를 들어, dbSNP, COSMIC(Catalogue of Somatic Mutations In Cancer) 등과 같은 데이터베이스로부터 획득될 수 있으며, 적합도 산출부(150)는 예를 들어, SNP 빈도가 높은 엑손 영역에 높은 SNP 빈도 점수를 부여할 수 있다.
한편, 엑손 영역의 크기가 너무 크거나 작으면 시퀀싱의 효율이 떨어지게 되므로, 적합도 산출부(150)는 예를 들어, 크기가 200 bp에서 600bp 사이인 엑손 영역에 높은 엑손 영역 크기 점수를 부여할 수 있다.
선정부(170)는 각 엑손 영역의 시퀀싱 적합도에 기초하여, 분할된 각 구간별로 적어도 하나의 엑손 영역을 선택하고, 선택된 엑손 영역들의 위치를 표적 시퀀싱 영역으로 결정한다.
구체적으로, 선정부(170)는 분할된 각 구간별로 각 구간에 포함된 엑손 영역 중 시퀀싱 적합도가 높은 순서대로 하나 이상의 엑손 영역을 선택할 수 있다.
이때, 본 발명의 일 실시예에 따르면, 분할된 각 구간별로 선택되는 엑손 영역의 수는 각 엑손 영역의 크기 및 각 구간에 대한 허용 시퀀싱 영역 크기에 따라 결정될 수 있다. 구체적으로, 선정부(170)는 기 설정된 표적 시퀀싱 영역의 크기 및 분할된 구간의 개수에 기초하여, 분할된 구간 각각에 대한 허용 시퀀싱 영역의 크기를 결정하고, 각 구간별로 선택된 엑손 영역들의 총 크기가 결정된 허용 시퀀싱 영역의 크기를 초과하지 않도록 엑손 영역들을 선택할 수 있다.
보다 구체적으로, 분할된 각 구간에 대한 허용 시퀀싱 영역의 크기는 예를 들어, 아래의 수학식 2에 의해 결정될 수 있다.
[수학식 2]
Figure pat00002
이때, S는 기 설정된 표적 시퀀싱 영역의 크기, N은 분할된 구간의 수를 의미한다.
예를 들어, 기 설정된 표적 시퀀싱 영역의 크기가 500,000bp이고, 분할된 구간의 수가 50인 것으로 가정하면, 분할된 각 구간에서 허용 시퀀싱 영역의 크기는 10,000bp가 된다. 따라서, 이 경우, 선정부(170)는 시퀀싱 적합도가 높은 순서대로 분할된 각 구간에서 엑손 영역들을 선택하되, 선택된 엑손 영역들의 크기 합이 허용 시퀀싱 영역의 크기인 10,000bp를 초과하지 않도록 엑손 영역들을 선택할 수 있다.
한편, 본 발명의 일 실시예에서, 분할부(110), 획득부(130), 적합도 산출부(150) 및 선정부(170)는 하나 이상의 프로세서 및 그 프로세서와 연결된 컴퓨터 판독 가능 기록 매체를 포함하는 컴퓨팅 장치 상에서 구현될 수 있다. 컴퓨터 판독 가능 기록 매체는 프로세서의 내부 또는 외부에 있을 수 있고, 잘 알려진 다양한 수단으로 프로세서와 연결될 수 있다. 컴퓨팅 장치 내의 프로세서는 각 컴퓨팅 장치로 하여금 본 명세서에서 기술되는 예시적인 실시예에 따라 동작하도록 할 수 있다. 예를 들어, 프로세서는 컴퓨터 판독 가능 기록 매체에 저장된 명령어를 실행할 수 있고, 컴퓨터 판독 가능 기록 매체에 저장된 명령어는 프로세서에 의해 실행되는 경우 컴퓨팅 장치로 하여금 본 명세서에 기술되는 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.
도 2 및 도 3은 7번 염색체의 q arm에 대한 표적 시퀀싱 영역 선정의 예를 나타낸 도면이다.
도 2를 참조하면, 7번 염색체 q arm의 DNA 염기 서열은 59,900,000bp의 크기를 가지며, 7번 염색체 q arm의 DNA 염기 서열의 위치를 1.2Mbp의 간격으로 N개의 구간(Bin 1 내지 Bin N)으로 분할하였다.
한편, 분할된 DNA 염기 서열의 위치 중 다섯 번째 구간(Bin 5)에는 k개의 엑손 영역(검은색 줄무늬로 표시된 부분)이 포함되어 있으며, k개의 엑손 영역 각각에 대해 산출된 시퀀싱 적합도는 도 3에 도시된 표와 같다.
구체적으로, 도 3에서, Start와 End는 염색체의 DNA 서열에서 각 엑손 영역의 시작 위치와 종료 위치를 나타내며, Gene은 각 엑손 영역을 포함하는 유전자명을 의미한다. 또한, Score는 엑손 영역 크기 점수(Exon size score), GC 컨텐츠 점수(GC contents score), SNP 빈도 점수(SNP frequency score) 및 매핑률 점수(Mappability score)의 합(즉, 시퀀싱 적합도)을 의미하며, Rank는 엑손 영역들의 시퀀싱 적합도 순위를 나타낸다.
한편, 도3에 도시된 예에서, 허용 시퀀싱 영역의 크기가 1,000bp인 것으로 가정하면, Bin 5에 포함된 엑손 영역 중 표적 시퀀싱 영역에 포함될 엑손 영역의 크기의 합이 1,000bp를 초과하지 않아야 하므로, Bin 5에서는 시퀀싱 적합도 순위가 1위인 엑손 영역부터 3위인 엑손 영역이 표적 시퀀싱 영역에 포함될 엑손 영역으로 선택될 수 있다.
한편, Bin 1 내지 Bin 4와 Bin 6 내지 Bin N 각각에 대해서도 Bin 5와 동일한 과정을 통해 엑손 영역이 선정될 수 있으며, 선정된 엑손 영역들의 위치는 표적 시퀀싱 영역으로 결정될 수 있다.
도 4는 본 발명의 일 실시예에 따른 표적 시퀀싱 영역 선정 방법의 순서도이다.
도 4에 도시된 방법은 예를 들어, 도 1에 도시된 표적 시퀀싱 영역 선정 장치(100)에 의해 수행될 수 있다. 또한, 도시된 순서도에서는 상기 방법을 복수 개의 단계로 나누어 기재하였으나, 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.
도 4를 참조하면, 표적 시퀀싱 영역 선정 장치(100)는 표준 유전자 데이터베이스로부터 염색체의 팔에 포함되는 DNA 염기 서열의 크기 및 위치를 획득한다(410).
이후, 표적 시퀀싱 영역 선정 장치(100)는 획득된 DNA 염기 서열의 크기에 기초하여 획득된 DNA 염기 서열의 위치를 복수의 구간으로 분할한다(420). 이때, 표적 시퀀싱 영역 선정 장치(100)는 획득된 DNA 염기 서열의 크기에 기초하여 획득된 DNA 염기 서열의 위치를 분할하기 위한 복수의 구간 각각의 크기를 산출하고, 산출된 각 구간의 크기에 해당하는 간격으로 획득된 DNA 염기 서열의 위치를 분할할 수 있다.
이후, 표적 시퀀싱 영역 선정 장치(100)는 표준 유전자 데이터베이스로부터 분할된 복수의 구간 각각에 포함되는 엑손 영역의 위치 및 크기를 획득한다(430).
이후, 표적 시퀀싱 영역 선정 장치(100)는 분할된 각 구간에 포함되는 엑손 영역 각각에 대한 시퀀싱 적합도를 산출한다(440). 이때, 시퀀싱 적합도는 엑손 영역의 매핑률, GC 컨텐츠 비율, 단일염기다형성(Single Nucleotide Polymorphism) 빈도 및 크기 중 적어도 하나에 기초하여 산출될 수 있다.
이후, 표적 시퀀싱 영역 선정 장치(100)는 산출된 시퀀싱 적합도에 기초하여 분할된 각 구간에서 적어도 하나의 엑손 영역을 선택한다(450). 구체적으로, 표적 시퀀싱 영역 선정 장치(100)는 분할된 각 구간별로 각 구간에 포함된 엑손 영역 중 시퀀싱 적합도가 높은 순서대로 하나 이상의 엑손 영역을 선택할 수 있다.
이때, 본 발명의 일 실시예에 따르면, 분할된 각 구간별로 선택되는 엑손 영역의 수는 각 엑손 영역의 크기 및 각 구간에 대한 허용 시퀀싱 영역 크기에 따라 결정될 수 있다. 구체적으로, 표적 시퀀싱 영역 선정 장치(100)는 기 설정된 표적 시퀀싱 영역의 크기 및 분할된 구간의 개수에 기초하여, 분할된 구간 각각에 대한 허용 시퀀싱 영역의 크기를 결정하고, 각 구간별로 선택된 엑손 영역들의 총 크기가 결정된 허용 시퀀싱 영역의 크기를 초과하지 않도록 엑손 영역들을 선택할 수 있다.
이후, 표적 시퀀싱 영역 선정 장치(100)는 선택된 엑손 영역들의 위치를 표적 시퀀싱 영역으로 결정한다(460).
한편, 본 발명의 실시예는 본 명세서에서 기술한 방법들을 컴퓨터상에서 수행하기 위한 프로그램을 포함하는 컴퓨터 판독 가능 기록매체를 포함할 수 있다. 상기 컴퓨터 판독 가능 기록매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나, 또는 컴퓨터 소프트웨어 분야에서 통상적으로 사용 가능한 것일 수 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광 기록 매체, 플로피 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
이상에서 본 발명의 대표적인 실시예들을 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
100: 표적 시퀀싱 영역 선정 장치
110: 분할부
130: 획득부
150: 적합도 산출부
170: 선정부

Claims (13)

  1. 표준 유전자 데이터베이스로부터 염색체 팔에 포함되는 DNA 염기 서열의 크기 및 위치를 획득하는 단계;
    상기 DNA 염기 서열의 크기에 기초하여 상기 DNA 염기 서열의 위치를 복수의 구간으로 분할하는 단계;
    상기 표준 유전자 데이터베이스로부터 상기 복수의 구간 각각에 포함되는 엑손 영역의 위치 및 크기을 획득하는 단계;
    상기 엑손 영역 각각에 대한 시퀀싱 적합도를 산출하는 단계;
    상기 시퀀싱 적합도에 기초하여, 상기 복수의 구간 각각에서 적어도 하나의 엑손 영역을 선택하는 단계; 및
    선택된 엑손 영역의 위치를 표적 시퀀싱 영역으로 결정하는 단계를 포함하는 표적 시퀀싱 영역 선정 방법.
  2. 청구항 1에 있어서,
    상기 분할하는 단계는, 상기 DNA 염기 서열의 크기 및 상기 복수의 구간의 개수에 기초하여 상기 복수의 구간 각각의 크기를 결정하고, 상기 결정된 크기에 따라 상기 DNA 염기 서열의 위치를 상기 복수의 구간으로 분할하는 표적 시퀀싱 영역 선정 방법.
  3. 청구항 1에 있어서,
    상기 산출하는 단계는, 엑손 영역의 매핑률, GC 컨텐츠 비율, 단일염기다형성(Single Nucleotide Polymorphism) 빈도 및 크기 중 적어도 하나에 기초하여 상기 시퀀싱 적합도를 산출하는 표적 시퀀싱 영역 선정 방법.
  4. 청구항 3에 있어서,
    상기 산출하는 단계는, 엑손 영역의 매핑률, GC 컨텐츠 비율, 단일염기다형성(Single Nucleotide Polymorphism) 빈도 및 크기 중 적어도 하나에 대한 점수를 부여하고, 상기 부여된 점수들의 합을 상기 시퀀싱 적합도로 산출하는 표적 시퀀싱 영역 선정 방법.
  5. 청구항 1에 있어서,
    상기 표적 시퀀싱 영역의 크기 및 상기 복수의 구간의 개수에 기초하여 상기 복수의 구간 각각에 대한 허용 시퀀싱 영역의 크기를 결정하는 단계를 더 포함하는 표적 시퀀싱 영역 선정 방법.
  6. 청구항 5에 있어서,
    상기 선택하는 단계는, 상기 시퀀싱 적합도가 높은 순서대로 상기 복수의 구간 각각에서 하나 이상의 엑손 영역을 선택하되, 각 구간에서 선택된 엑손 영역의 총 크기가 상기 허용 시퀀싱 영역의 크기를 초과하지 않도록 상기 하나 이상의 엑손 영역을 선택하는 표적 시퀀싱 영역 선정 방법.
  7. 표준 유전자 데이터베이스로부터 염색체 팔에 포함되는 DNA 염기 서열의 크기 및 위치를 획득하고, 상기 DNA 염기 서열의 크기에 기초하여 상기 DNA 염기 서열의 위치를 복수의 구간으로 분할하는 분할부;
    상기 표준 유전자 데이터베이스로부터 상기 복수의 구간 각각에 포함되는 엑손 영역을 획득하는 획득부;
    상기 엑손 영역 각각에 대한 시퀀싱 적합도를 산출하는 적합도 산출부; 및
    상기 시퀀싱 적합도에 기초하여 상기 복수의 구간 각각에서 적어도 하나의 엑손 영역을 선택하고, 선택된 엑손 영역의 위치를 표적 시퀀싱 영역으로 결정하는 선정부를 포함하는 표적 시퀀싱 영역 선정 장치.
  8. 청구항 7에 있어서,
    상기 분할부는, 상기 DNA 염기 서열의 크기 및 상기 복수의 구간의 개수에 기초하여 상기 복수의 구간 각각의 크기를 결정하고, 상기 결정된 크기에 따라 상기 DNA 염기 서열의 위치를 상기 복수의 구간으로 분할하는 표적 시퀀싱 영역 선정 장치.
  9. 청구항 7에 있어서,
    상기 적합도 산출부는, 엑손 영역의 매핑률, GC 컨텐츠 비율, 단일염기다형성(Single Nucleotide Polymorphism) 빈도 및 크기 중 적어도 하나에 기초하여 상기 시퀀싱 적합도를 산출하는 표적 시퀀싱 영역 선정 장치.
  10. 청구항 9에 있어서,
    상기 적합도 산출부는, 엑손 영역의 매핑률, GC 컨텐츠 비율, 단일염기다형성(Single Nucleotide Polymorphism) 빈도 및 크기 중 적어도 하나에 대한 점수를 부여하고, 상기 부여된 점수들의 합을 상기 시퀀싱 적합도로 산출하는 표적 시퀀싱 영역 선정 장치.
  11. 청구항 7에 있어서,
    상기 선정부는, 상기 표적 시퀀싱 영역의 크기 및 상기 복수의 구간의 개수에 기초하여 상기 복수의 구간 각각에 대한 허용 시퀀싱 영역의 크기를 결정하는 표적 시퀀싱 영역 선정 장치.
  12. 청구항 11에 있어서,
    상기 선정부는, 상기 시퀀싱 적합도가 높은 순서대로 상기 복수의 구간 각각에서 하나 이상의 엑손 영역을 선택하되, 각 구간에서 선택된 엑손 영역의 총 크기가 상기 허용 시퀀싱 영역의 크기를 초과하지 않도록 상기 하나 이상의 엑손 영역을 선택하는 표적 시퀀싱 영역 선정 장치.
  13. 하드웨어와 결합되어,
    표준 유전자 데이터베이스로부터 염색체 팔에 포함되는 DNA 염기 서열의 크기 및 위치를 획득하는 단계;
    상기 DNA 염기 서열의 크기에 기초하여 상기 DNA 염기 서열의 위치를 복수의 구간으로 분할하는 단계;
    상기 표준 유전자 데이터베이스로부터 상기 복수의 구간 각각에 포함되는 엑손 영역의 위치 및 크기을 획득하는 단계;
    상기 엑손 영역 각각에 대한 시퀀싱 적합도를 산출하는 단계;
    상기 시퀀싱 적합도에 기초하여, 상기 복수의 구간 각각에서 적어도 하나의 엑손 영역을 선택하는 단계; 및
    선택된 엑손 영역의 위치를 표적 시퀀싱 영역으로 표적 시퀀싱 영역으로 결정하는 단계를 실행시키기 위하여 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램.






KR1020150169809A 2015-12-01 2015-12-01 표적 시퀀싱 영역 선정 방법 및 장치 KR20170064260A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150169809A KR20170064260A (ko) 2015-12-01 2015-12-01 표적 시퀀싱 영역 선정 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150169809A KR20170064260A (ko) 2015-12-01 2015-12-01 표적 시퀀싱 영역 선정 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20170064260A true KR20170064260A (ko) 2017-06-09

Family

ID=59220445

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150169809A KR20170064260A (ko) 2015-12-01 2015-12-01 표적 시퀀싱 영역 선정 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20170064260A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020530767A (ja) * 2017-07-21 2020-10-29 メナリーニ シリコン バイオシステムズ エッセ.ピー.アー. 超並列シークエンシングのためのdnaライブラリー生成のための改良された方法及びキット

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020530767A (ja) * 2017-07-21 2020-10-29 メナリーニ シリコン バイオシステムズ エッセ.ピー.アー. 超並列シークエンシングのためのdnaライブラリー生成のための改良された方法及びキット
US11859249B2 (en) 2017-07-21 2024-01-02 Menarini Silicon Biosystems S.P.A. Method and kit for the generation of DNA libraries for massively parallel sequencing

Similar Documents

Publication Publication Date Title
Mose et al. ABRA: improved coding indel detection via assembly-based realignment
Deng et al. An ensemble strategy that significantly improves de novo assembly of microbial genomes from metagenomic next-generation sequencing data
Cleary et al. Comparing variant call files for performance benchmarking of next-generation sequencing variant calling pipelines
Narasimhan et al. BCFtools/RoH: a hidden Markov model approach for detecting autozygosity from next-generation sequencing data
Soneson et al. Differential analyses for RNA-seq: transcript-level estimates improve gene-level inferences
Mielczarek et al. Review of alignment and SNP calling algorithms for next-generation sequencing data
Prjibelski et al. ExSPAnder: a universal repeat resolver for DNA fragment assembly
Malhis et al. High quality SNP calling using Illumina data at shallow coverage
Brynildsrud et al. CNOGpro: detection and quantification of CNVs in prokaryotic whole-genome sequencing data
US20200251178A1 (en) Method and System for Identifying Clinical Phenotypes in Whole Genome DNA Sequence Data
Voshall et al. Next-generation transcriptome assembly: strategies and performance analysis
US20180330046A1 (en) Methods for detecting copy-number variations in next-generation sequencing
Grytten et al. Graph Peak Caller: Calling ChIP-seq peaks on graph-based reference genomes
JPWO2016147290A1 (ja) 情報分析プログラム、情報分析方法および情報分析装置
WO2018060365A1 (en) Genomic variant ranking system for clinical trial matching
US20170372003A1 (en) Genome analysis device and genome visualization method
US20160078169A1 (en) Method of and apparatus for providing information on a genomic sequence based personal marker
Shi et al. The combination of direct and paired link graphs can boost repetitive genome assembly
KR20170064260A (ko) 표적 시퀀싱 영역 선정 방법 및 장치
WO2016147289A1 (ja) 情報分析プログラム、情報分析方法および情報分析装置
JP2018504669A (ja) 非コード−コード遺伝子共発現ネットワークを生成する方法及びシステム
McCallum et al. Empirical Bayes scan statistics for detecting clusters of disease risk variants in genetic studies
Schmidt et al. VarGrouper: A Bioinformatic Tool for Local Haplotyping of Deletion–Insertion Variants from Next-Generation Sequencing Data after Variant Calling
JP3584275B2 (ja) エキソンイントロンジャンクション決定装置および遺伝子領域決定装置並びにそれらの決定方法
JP5414130B2 (ja) 塩基配列のリードエラーを判定するためのプログラム