KR102035285B1 - Dna 샷건 시퀀싱 또는 rna 전사체 어셈블리를 위한 콘티그 프로파일의 업데이트 방법 및 콘티그 형성 방법 - Google Patents

Dna 샷건 시퀀싱 또는 rna 전사체 어셈블리를 위한 콘티그 프로파일의 업데이트 방법 및 콘티그 형성 방법 Download PDF

Info

Publication number
KR102035285B1
KR102035285B1 KR1020170066743A KR20170066743A KR102035285B1 KR 102035285 B1 KR102035285 B1 KR 102035285B1 KR 1020170066743 A KR1020170066743 A KR 1020170066743A KR 20170066743 A KR20170066743 A KR 20170066743A KR 102035285 B1 KR102035285 B1 KR 102035285B1
Authority
KR
South Korea
Prior art keywords
contig
read
contigs
length
sequence
Prior art date
Application number
KR1020170066743A
Other languages
English (en)
Other versions
KR20180130755A (ko
Inventor
강근수
박웅준
윤석현
Original Assignee
단국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 단국대학교 산학협력단 filed Critical 단국대학교 산학협력단
Priority to KR1020170066743A priority Critical patent/KR102035285B1/ko
Publication of KR20180130755A publication Critical patent/KR20180130755A/ko
Application granted granted Critical
Publication of KR102035285B1 publication Critical patent/KR102035285B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Abstract

본 발명은 리드(read) 오류의 정정이 가능하여 전체 게놈(genome) 혹은 전체 전사체(transcriptome) 어셈블리의 성능을 향상시킬 수 있도록 한 DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리를 위한 콘티그 프로파일의 업데이트 방법 및 콘티그 형성 방법에 관한 것으로, 리드(read)를 콘티그(contig)에 정렬하기 위해 각 콘티그를 4xN 혹은 Nx4인 컨센서스 행렬과 이에 상응한 길이 N인 대표 시퀀스로 표현하여 전체 게놈(genome) 혹은 전체 전사체(transcriptome) 어셈블리를 수행하는 과정에서 효율과 성능을 향상시키기 위한 것이다.

Description

DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리를 위한 콘티그 프로파일의 업데이트 방법 및 콘티그 형성 방법{Contig Profile Update Method and Contig Formation Method for DNA shotgun sequencing or RNA transcriptome assembly}
본 발명은 유전체 및 RNA 시퀀스 데이터 분석에 관한 것으로, 구체적으로 리드(read)에 포함된 오류의 정정이 가능하여 전체 게놈(genome) 혹은 전체 전사체(transcriptome) 어셈블리의 성능을 향상시킬 수 있도록 한 DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리를 위한 콘티그 프로파일 업데이트 방법 및 콘티그 형성 방법에 관한 것이다.
어떤 생물의 DNA 서열을 알아내는 과정은 크게 세 단계로 구성된다.
첫 번째 단계에서는 생물학적인 실험을 통해 전체 DNA 서열을 조각낸 후, "시퀀서(sequencer)"라 부르는 기계를 이용해 이들의 염기(base: A, C, T, G)와 염기가 맞을 확률을 나타내는 품질 정보를 얻는다.
이러한 짧은 길이의 DNA 조각을 "프래그먼트(fragment)" 또는 "리드(read)"라 부른다.
두 번째 단계에서는 많은 프래그먼트들을 결합하여 하나 또는 몇 개의 긴 서열로 어셈블(assemble)한다.
어셈블된 긴 서열을 콘티그(contig)라 하고, 이 과정에서 사용되는 프로그램을 "DNA 서열 어셈블리 프로그램" 또는 짧게 "어셈블러"라 부른다.
마지막 단계에서는 콘티그를 검증하고, 콘티그들을 서로 결합하는 작업을 한다.
지금까지 개발된 어셈블러는 PHRAP, Celera assembler, STROLL, TIGR, ARACHNE, CAP3 등이 있다.
이들 프로그램은 모두 "오버랩(overlap)-레이아웃(layout)-컨센서스(consensus)"의 단계로 된 구조를 갖는다.
첫 번째 "오버랩(overlap)" 단계에서는 리드(read)들 사이에 서로 비슷한 부분을 찾아낸다(alignment).
두 번째 "레이아웃(layout)" 단계에서는 얼라이먼트(alignment) 처리된 정보를 바탕으로 리드들을 서로 결합(merge)한다.
세 번째 "컨센서스(consensus)" 단계에서는 합병된 리드(read)의 염기를 바탕으로 전체 염기 서열을 구한다.
이들 프로그램은 같은 세 단계를 가지지만 각 단계에서 사용한 구체적 알고리즘 및 접근 방식에 따라서 매우 다른 성능을 나타낸다.
예를 들어, PHRAP은 가능한 한 어셈블(assemble)을 많이 해 적은 개수의 콘티그를 생성하지만 정확도가 부족하고, 반면 ARACHNE는 정확도가 높지만 많은 개수의 콘티그를 생성한다.
이와 같은 DNA 염기 서열을 알아내기 위한 첫 번째 단계인 생물학적 실험 단계에서 얻어지는 정보들에는 많은 에러가 존재한다.
서로 인접하지 않은 두 부분이 하나의 리드(read)를 구성하기도 하고, 각 리드rmead) 내의 염기들이 부정확하게 읽혀질 수도 있다.
어셈블러에 입력되는 데이터가 이와 같이 부정확할 수 있기 때문에 어셈블러에서 처리된 결과는 오류를 포함할 수 있다.
또한, 이러한 어셈블러에 입력되는 데이터의 오류뿐만 아니라 DNA 서열 자체에 존재하는 반복 구간(repeat)에 의하여 실제로는 전혀 다른 위치의 두 리드(read)를 잘못 병합하게 됨으로써 실제 염기 서열과는 다른 결과를 초래할 가능성도 있다.
하지만, 종래 기술의 경우에는 전체 게놈(genome) 혹은 전체 전사체(transcriptome) 어셈블리를 위해 리드(read)들을 정렬하는 과정에서 리드(read)에 발생되는 오류를 아예 고려하지 않거나 이를 고려한다 하더라도 리드(read)에 포함된 오류의 정정은 수행되지 않는다.
따라서, 전체 게놈(genome) 혹은 전체 전사체(transcriptome) 어셈블리의 성능을 향상시켜 보다 신뢰성 있는 시퀀싱과 어셈블리가 가능하도록 하는 새로운 기술의 개발이 요구되고 있다.
대한민국 등록특허 제10-0609656호 대한민국 공개특허 제10-2008-0102006호
본 발명은 이와 같은 종래 기술의 유전체 및 RNA 시퀀스 데이터 분석의 문제를 해결하기 위한 것으로, 리드(read)에 포함된 오류의 정정이 가능하여 전체 게놈(genome) 혹은 전체 전사체(transcriptome) 어셈블리의 성능을 향상시킬 수 있도록 한 DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리를 위한 콘티그 프로파일 업데이트 방법 및 콘티그 형성 방법을 제공하는데 그 목적이 있다.
본 발명은 리드(read)를 콘티그(contig)에 정렬하기 위해 각 콘티그를 4xN 혹은 Nx4인 컨센서스 행렬과 이에 상응한 길이 N인 대표 시퀀스로 표현하여 전체 게놈(genome) 혹은 전체 전사체(transcriptome) 어셈블리를 수행하는 과정에서 효율과 성능을 향상시키기 위한 DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리를 위한 콘티그 프로파일 업데이트 방법 및 콘티그 형성 방법을 제공하는데 그 목적이 있다.
본 발명은 전체 게놈(genome) 혹은 전체 전사체(transcriptome) 어셈블리에 적용할 경우 리드(read)에 포함된 오류의 정정이 가능하여 전체 게놈(genome) 혹은 전체 전사체(transcriptome) 어셈블리의 성능을 향상시켜 보다 신뢰성 있는 시퀀싱 또는 어셈블리가 가능하도록 한 DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리를 위한 콘티그 프로파일 업데이트 방법 및 콘티그 형성 방법을 제공하는데 그 목적이 있다.
본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
이와 같은 목적을 달성하기 위한 본 발명에 따른 DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리를 위한 콘티그 프로파일 업데이트 방법은 리드(read)를 콘티그(contig)에 정렬하기 위해 각 콘티그를 4xN 혹은 Nx4인 컨센서스 행렬 C과 이에 상응한 길이 N인 대표 시퀀스 s로 표현하고,컨센서스 행렬 C를 취하고
Figure 112019064434713-pat00119
로 주어지는 대표 시퀀스를 반환하는 함수 rep(·)를 정의하고, 여기서, s의 각 요소는
Figure 112019064434713-pat00120
에 의해 주어지고,시퀀스 s를 취하여 s에 의해 초기화된 컨센서스 행렬을 반환하는 함수 cns(·)를 정의하고,
Figure 112019064434713-pat00121
의 각 행 혹은 열은 해당 콘티그의 해당 위치에서의 정렬된 리드(read)로부터 획득된 값으로 해당 위치에서 해당 염기가 몇 번 발생했는지를 나타내는 염기의 발생 회수일 수 있고,
Figure 112019064434713-pat00122
의 각 요소는
Figure 112019064434713-pat00123
에 의해 주어지고, 길이 m의 리드(read) rs의 좌/우에서 길이 lm의 대표 시퀀스
Figure 112019064434713-pat00124
와 부분적으로 중첩되고 중첩 깊이가
Figure 112019064434713-pat00125
라고 가정하여,
Figure 112019064434713-pat00126

Figure 112019064434713-pat00127

으로 컨센서스 행렬 C 대표 시퀀스 s의 쌍으로 주어지는 콘티그 프로파일을 업데이트하고, 여기서, N은 4xN 혹은 Nx4인 컨센서스 행렬 C에 상응하는 대표 시퀀스 s의 길이이고, l은 콘티그의 길이, Oth는 n이 유효 값이기 위한 최소 중첩 깊이인 것을 특징으로 한다.
삭제
삭제
삭제
다른 목적을 달성하기 위한 본 발명에 따른 DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리를 위한 콘티그 형성 방법은 리드(read)를 콘티그(contig)에 정렬하기 위해 각 콘티그를 4xN 혹은 Nx4인 컨센서스 행렬 C과 이에 상응한 길이 N인 대표 시퀀스 s로 표현하여, 리드(read)의 집합으로부터 리드(read)를 선택하고 지금까지 발견된 콘티그의 집합의 모든 콘티그들과의 정렬을 시도할때 상기의 컨센서스 행렬을 사용하는 콘티그 성장 단계;상기 콘티그 성장 단계에서 얻어진 컨센서스 행렬 C 대표 시퀀스 s의 쌍으로 주어지는 콘티그 프로파일을 이용한 접합부 탐색을 통해 염기 서열의 세그먼트를 나타내는 노드와 세그먼트 사이의 연결을 나타내는 에지를 구성하는 그래프 구성 단계;상기 그래프로부터 동형전사체(isoform)를 검출하고 발현량(abundances)을 추정하는 결합 검출/추정 단계;를 포함하고, 콘티그 성장 단계에서, 컨센서스 행렬 C를 취하고
Figure 112019064434713-pat00128
로 주어지는 대표 시퀀스를 반환하는 함수 rep(·)를 정의하고, 여기서, s의 각 요소는
Figure 112019064434713-pat00129
에 의해 주어지고, 시퀀스 s를 취하여 s에 의해 초기화된 컨센서스 행렬을 반환하는 함수 cns(·)를 정의하고,
Figure 112019064434713-pat00130
의 각 행 혹은 열은 해당 콘티그의 해당 위치에서의 정렬된 리드(read)로부터 획득된 값으로 해당 위치에서 해당 염기가 몇 번 발생했는지를 나타내는 염기의 발생 회수일 수 있고,
Figure 112019064434713-pat00131
의 각 요소는
Figure 112019064434713-pat00132
에 의해 주어지고, 길이 m의 리드(read) rs의 좌/우에서 길이 lm의 대표 시퀀스
Figure 112019064434713-pat00133
와 부분적으로 중첩되고 중첩 깊이가
Figure 112019064434713-pat00134
라고 가정하여,
Figure 112019064434713-pat00135

Figure 112019064434713-pat00136

으로 컨센서스 행렬 C 대표 시퀀스 s의 쌍으로 주어지는 콘티그 프로파일을 업데이트하고, 여기서, N은 4xN 혹은 Nx4인 컨센서스 행렬 C에 상응하는 대표 시퀀스 s의 길이이고, l은 콘티그의 길이, Oth는 n이 유효 값이기 위한 최소 중첩 깊이인 것을 특징으로 한다.
또 다른 목적을 달성하기 위한 본 발명에 따른 DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리를 위한 콘티그 형성 방법은 DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리를 위한 콘티그 형성을 위하여, 리드(read)를 콘티그(contig)에 정렬하기 위해 각 콘티그를 4xN 혹은 Nx4인 컨센서스 행렬 C과 이에 상응한 길이 N인 대표 시퀀스 s로 표현하는 단계;리드(read)의 집합으로부터 리드(read)를 선택하고 지금까지 발견된 콘티그의 집합의 모든 콘티그들과의 정렬을 시도하는 단계;선택된 리드(read)와 가장 많이 중첩되는 콘티그를 선택하고 리드(read)와 콘티그가 완전하게 중첩하면 콘티그에 리드(read)를 결합(merge)하고, 리드(read)와 부분적으로만 중첩되면 콘티그를 연장하는 단계;하나의 리드(read)가 두 개 혹은 그 이상의 콘티그와 중첩을 갖는 경우 중첩이 더 큰 콘티그에 결합하는 단계;미리 정의된 값보다 크거나 같은 중첩을 갖는 콘티그가 없다면 리드(read)를 콘티그 풀에 추가하는 단계;를 포함하고, 콘티그 형성을 위하여, 컨센서스 행렬 C를 취하고
Figure 112019064434713-pat00137
로 주어지는 대표 시퀀스를 반환하는 함수 rep(·)를 정의하고, 여기서, s의 각 요소는
Figure 112019064434713-pat00138
에 의해 주어지고, 시퀀스 s를 취하여 s에 의해 초기화된 컨센서스 행렬을 반환하는 함수 cns(·)를 정의하고,
Figure 112019064434713-pat00139
의 각 행 혹은 열은 해당 콘티그의 해당 위치에서의 정렬된 리드(read)로부터 획득된 값으로 해당 위치에서 해당 염기가 몇 번 발생했는지를 나타내는 염기의 발생 회수일 수 있고,
Figure 112019064434713-pat00140
의 각 요소는
Figure 112019064434713-pat00141
에 의해 주어지고, 길이 m의 리드(read) rs의 좌/우에서 길이 lm의 대표 시퀀스
Figure 112019064434713-pat00142
와 부분적으로 중첩되고 중첩 깊이가
Figure 112019064434713-pat00143
라고 가정하여,
Figure 112019064434713-pat00144

Figure 112019064434713-pat00145

으로 컨센서스 행렬 C 대표 시퀀스 s의 쌍으로 주어지는 콘티그 프로파일을 업데이트하고, 여기서, N은 4xN 혹은 Nx4인 컨센서스 행렬 C에 상응하는 대표 시퀀스 s의 길이이고, l은 콘티그의 길이, Oth는 n이 유효 값이기 위한 최소 중첩 깊이인 것을 특징으로 한다.
이와 같은 본 발명에 따른 DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리를 위한 콘티그 프로파일 업데이트 방법 및 콘티그 형성 방법은 다음과 같은 효과를 갖는다.
첫째, DNA 시퀀싱 혹은 RNA-Seq을 통해 얻어진 리드(read)들을 결합하여 전체 게놈(genome) 혹은 전체 전사체(transcriptome) 어셈블리를 수행하는 과정에서 효율과 성능을 향상시킬 수 있다.
둘째, 리드(read)를 콘티그(contig)에 정렬하기 위해 각 콘티그를 4xN 혹은 Nx4인 컨센서스 행렬과 이에 상응한 길이 N인 대표 시퀀스로 표현하여 전체 게놈(genome) 혹은 전체 전사체(transcriptome) 어셈블리를 수행하는 과정에서 효율과 성능을 높여 신뢰성을 향상시킬 수 있다.
도 1은 본 발명에 따른 DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리 방법을 나타낸 구성도
도 2는 컨센서스 행렬과 이에 상응한 대표 시퀀스의 일 예를 나타낸 구성도
도 3은 본 발명에 따른 콘티그 프로파일 업데이트 과정의 일 예를 나타낸 구성도
이하, 본 발명에 따른 DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리를 위한 콘티그 프로파일 업데이트 방법 및 콘티그 형성 방법의 바람직한 실시 예에 관하여 상세히 설명하면 다음과 같다.
본 발명에 따른 DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리를 위한 콘티그 프로파일 업데이트 방법 및 콘티그 형성 방법의 특징 및 이점들은 이하에서의 각 실시 예에 대한 상세한 설명을 통해 명백해질 것이다.
도 1은 본 발명에 따른 DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리 방법을 나타낸 구성도이다.
본 발명은 DNA 시퀀싱 혹은 RNA-Seq을 통해 얻어진 리드(read)들을 결합하여 전체 게놈(genome) 혹은 전체 전사체(transcriptome) 어셈블리를 수행하는 과정에서 효율과 성능을 향상시키기 위한 것이다.
이를 위하여 리드(read)를 콘티그(contig)에 정렬하기 위해 각 콘티그를 4xN 혹은 Nx4인 컨센서스 행렬과 이에 상응한 길이 N인 대표 시퀀스로 표현하여 전체 게놈(genome) 혹은 전체 전사체(transcriptome) 어셈블리를 수행하는 구성을 포함한다.
본 발명에 적용되는 어셈블러는 콘티그 성장 단계(contig grower), 그래프 생성 단계(graph constructor), 결합 검출/추정 단계(joint detector/estimator)를 포함한다.
콘티그 성장 단계(contig grower)는 greedy 방식을 사용하고 각각의 리드(read)에 대하여 콘티그 풀에서 중첩구간을 갖는 콘티그를 선택하고 콘티그에 중첩구간을 갖는 리드(read)들을 결합하고 비 중첩 영역에 의해 좌우로 연장시킨다.
중첩되는 콘티그가 없다면 리드(read)는 콘티그 풀에 추가되고, 이 과정들은 모든 리드(read)들이 처리될 때까지 반복한다.
그래프 생성 단계(graph constructor)에서는 콘티그 성장 단계(contig grower)에서 얻어진 콘티그를 이용하여 염기 서열의 세그먼트를 나타내는 노드와 세그먼트 사이의 연결을 나타내는 에지로 구성되는 그래프를 만든다.
세그먼트를 얻기 위해 콘티그를 사용하여 접합 탐색(junction discovery)를 수행한다.
접합탐색은 콘티그성장 단계에서서 얻어진 콘티그 간 정렬을 통해 이루어지는데 콘티그 성장단계에서와 동일한 방법으로 이루어지며 모든 중첩영역의 경계에서 콘티그를 분리하고 중첩된 프래그먼트를 결합하여 세그먼트를 구성하고 세그먼트간 연결정보를 획득한다.
이와 같은 처리가 이루어지는 동안에 각 세그먼트에 대한 컨티그 프로파일이 얻어지며 이 정보는 동형전사체(isoform)를 검출하고 발현량(abundances)을 추정하는데 사용된다.
이와 같은 처리 과정에서 콘티그 성장 단계에서 콘티그의 각 위치에 대한 염기의 발생회수(base count)로 표현된 정렬 프로파일을 유지하는 컨센서스 행렬을 사용한다.
그리고 이 프로파일을 통하여 오류를 식별하고 어떤 유사한 시퀀스가 하나의 콘티그와 병합되었는지 확인할 수 있다.
이 정렬 프로파일은 또한 그래프 작성 단계에서 추적되고 최종 단계로 전송되어 최종적으로 동형전사체(isoform)를 검출하고 발현량(abundances)을 추정할 수 있도록 한다.
본 발명에 따른 DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리를 위한 콘티그 프로파일 업데이트 방법 및 콘티그 형성 방법을 RNA 전사체 어셈블리를 기준으로 설명하면 다음과 같다.
본 발명에 따른 RNA 전사체 어셈블리는 크게 컨센서스 행렬을 사용한 콘티그 성장 단계와, 그래프 구성 단계와, 결합 동형전사체(isoform) 검출 및 발현량 추정 단계를 포함한다.
DNA 샷건 시퀀싱은 리드(read)들의 정렬을 통해 중첩구간을 찾고 중첩구간을 갖는 리드(read)들을 결합하여 콘티그(contig)를 얻고 이 콘티그들에 모든 리드(read)들을 계속 결합하여 최종적으로 전체 게놈 시퀀스(genome sequence)를 얻는다.
이때, 하나의 리드(read)가 두 개 혹은 그 이상의 콘티그와 중첩을 갖는 경우 중첩이 더 큰 콘티그에 결합하는 greedy 방식이 적용된다.
여기서 리드(read)에 오류가 존재하는 경우(일반적으로 1%내외의 read 오류가 존재함), 어느 콘티그에 결합할지 애매해지며 정렬구간 내에서 오류가 더 적은 콘티그에 결합할 수 있으나 이런 방식으로도 리드(read) 오류의 정정은 불가능하다.
컨센서스 행렬을 이용한 콘티그 성장 단계를 구체적으로 설명하면 다음과 같다.
콘티그 성장 단계(contig grower)는 콘티그 풀의 모든 콘티그에 대하여 리드(read)를 정렬하여 콘티그를 만든다.
기본적으로 이와 같은 콘티그 성장 단계의 절차는 greedy 방식이 사용되고 greedy 방식의 적용은 다음과 같이 진행된다.
Figure 112019064434713-pat00006
는 지금까지 발견된 콘티그의 집합이고,
Figure 112019064434713-pat00007
는 리드(read)의 집합이다.
리드(read)의 집합(
Figure 112019064434713-pat00008
)으로부터 리드(read)를 선택하고 지금까지 발견된 콘티그의 집합(
Figure 112019064434713-pat00009
)의 모든 콘티그들과의 정렬을 시도한다.
그리고 선택된 리드(read)와 가장 많이 중첩되는 콘티그를 선택하고 리드(read)와 콘티그가 완전하게 중첩하면 콘티그에 리드(read)를 결합(merge)하고, 리드(read)와 부분적으로만 중첩되면 콘티그를 연장한다.
미리 정의된 값보다 크거나 같은 중첩을 갖는 콘티그가 없다면 리드(read)를 단순하게 콘티그 풀에 추가하고, 이 과정들은 모든 리드(read)들이 처리될 때까지 반복한다.
이와 같은 콘티그 성장 단계의 핵심 기능은 정렬 테스트와 콘티그 프로파일의 업데이트이다.
먼저, 각각 길이 lm의 두 시퀀스 sr의 정렬 테스트를 고려하면 다음과 같다.
일반성의 손실없이 l m이라고 가정한다.
s에 대해 r을 정렬할 때 (1)완전한 중첩, (2)참조 시퀀스의 왼쪽 또는 오른쪽에서의 부분 중첩, (3)중첩 없음의 3가지의 경우가 발생할 수 있다.
Figure 112017051497918-pat00010
를 벡터 t의 l번째 요소에서 n번째 요소까지의 부분이라 하면, l > n인 경우
Figure 112017051497918-pat00011
은 길이 0의 널 벡터이고, 즉,
Figure 112017051497918-pat00012
이고, l ≤ n이면
Figure 112017051497918-pat00013
이다.
행렬에도 동일한 표기를 적용할 수 있는데,
Figure 112017051497918-pat00014
는 행렬 Tl번째부터 n번째 까지의 열들로 구성되는 행렬이다.
다음으로
Figure 112017051497918-pat00015
인 정수 n에 대하여
Figure 112017051497918-pat00016
으로 표기할 수 있고, 이 표기에 기초하여, 구간
Figure 112017051497918-pat00017
의 한 정수 a에 대하여
Figure 112017051497918-pat00018
이면 rs와 완전히 중첩하는 것이다. 여기서,
Figure 112017051497918-pat00019
는 거리 문턱값이고
Figure 112017051497918-pat00020
는 두 벡터 ab 사이의 해밍 거리이다.
다른 한편, 다음 수학식 1의 조건들 중 하나를 만족하는 n이 존재할 때, r은 깊이 n에서 s와 부분적으로 겹치는 것이다.
Figure 112017051497918-pat00021
여기서, n은
Figure 112017051497918-pat00022
이고,
Figure 112017051497918-pat00023
는 유효 중첩 깊이로 간주되는 최소 중첩 깊이다.
여기서, 거리 문턱값(
Figure 112017051497918-pat00024
)와, 최소 중첩 깊이(
Figure 112017051497918-pat00025
)는 미리 정의되는 값이거나, 콘티그 성장 단계에서의 콘티그 성장에 따라 적응적으로 변화되는 것이다.
상기 조건을 만족하는 n이 여러 개 존재하면 가장 큰 값을 선택한다.
이를 단순화하기 위하여 수학식 2에서와 같이 벡터 rs 사이의 중첩 깊이를
Figure 112017051497918-pat00026
으로 정의한다.
Figure 112017051497918-pat00027
이를 사용하여
Figure 112017051497918-pat00028
이면 rs와 중첩되지 않는 것으로 가정한다.
이어, s에 대한 r의 정렬 테스트에 따라 콘티그 프로파일 업데이트를 고려한다.
리드(read)에 포함된 오류의 정정을 위하여 중첩 깊이에 따른 콘티그 업데이트시에(병합 또는 확장) '컨센서스 행렬' 개념을 사용한다.
본 발명에 따른 DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리를 위한 콘티그 프로파일 및 정렬 방법에서 길이 l의 콘티그, 즉 s는 4*l 크기의 컨센서스 행렬 C를 수반한다.
행렬 C의 각 행은 프로파일 업데이트 절차를 통해 얻어진 염기 {A, C, G, T}에 해당한다.(A는 Adenine, C는 Cytosine, G는 Guanine, T는 Thymine이다.)
이를 단순화하기 위하여, A, C, G 및 T에 각각 1, 2, 3 및 4를 지정하면
{A, C, G, T} 대신 숫자를 사용한다.
실제로 콘티그 s는 수학식 3에서의 C의 대표 시퀀스이다.
Figure 112017051497918-pat00029
컨센서스 행렬 C와 상응한 대표 시퀀스 s의 예는 도 2에서와 같다.
도 2는 컨센서스 행렬과 이에 상응한 대표시퀀스의 일 예를 나타낸 구성도이다.
표기를 단순화기 위하여, rep(·)와 cns(·)의 두 함수를 정의한다.
함수 rep(·)는 컨센서스 행렬 C를 취하고
Figure 112017051497918-pat00030
로 주어지는 대표 시퀀스를 반환한다. 여기서, s의 각 요소는 수학식 3에 의해 주어진다.
또한, 함수 cns(·)는 시퀀스 s를 취하여 s에 의해 초기화된 컨센서스 행렬을 반환한다.
Figure 112019064434713-pat00031
의 각 행 혹은 열은 해당 콘티그의 해당 위치에서의 정렬된 리드(read)로부터 획득된 값으로 해당 위치에서 해당 염기가 몇 번 발생했는지를 나타내는 염기의 발생 회수일 수 있으며 또 다른 방법으로는 해당위치에서의 염기가 특정한 값(A, C, G, T)을 가질 신뢰도를 나타낼 수도 있다.
특히, 전자의 경우
Figure 112017051497918-pat00032
의 각 요소는 수학식 4에 의해 주어진다.
Figure 112017051497918-pat00033
두 가지 함수를 사용하여 콘티그 프로파일 업데이트 절차를 설명하면 다음과 같다.
3 가지의 예를 고려할 수 있는데, 길이 m의 리드(read) rs의 좌/우에서 길이 lm의 대표 시퀀스
Figure 112019064434713-pat00034
와 부분적으로 중첩되고 중첩 깊이가
Figure 112019064434713-pat00035
라고 가정한다.
이어, 콘티그 프로파일을 수학식 5 및 수학식 6에서와 같이 업데이트 한다.
Figure 112017051497918-pat00036
Figure 112017051497918-pat00037
이와 같이, Cs로 표현된 콘티그에 리드(read)를 정렬하여 콘티그 정보를 업데이트 하는 과정은 도 3에서와 같다.
도 3은 본 발명에 따른 업데이트시의 콘티그 프로파일의 일 예를 나타낸 것으로 부분적인 중첩을 갖는 경우이다.
길이 m의 리드(read) r이 위치 a에서 길이 l m의 대표 시퀀스
Figure 112019064434713-pat00038
와 완전히 중첩되는 것으로 가정하고, 콘티그 프로파일을 수학식 7에서와 같이 업데이트 한다.
Figure 112017051497918-pat00039
리드(read) r이 s와 겹치지 않는다면(또는
Figure 112019064434713-pat00040
보다 깊이가 작은 중첩이면), 단순하게
Figure 112019064434713-pat00041
을 새로운 씨드로 콘티그 풀에 추가한다.
이와 같이 콘티그 업데이트를 리드(read)가 갖는 오류를 정정하면서 신뢰성 있는 게놈 정보의 획득이 가능하다.
이상에서 설명한 리드(read)를 콘티그에 정렬시키는 과정을 적용한 콘티그 정장 단계의 예는 다음과 같다.
전체 콘티그 성장 과정은 표 1에서와 같다.
Figure 112017051497918-pat00042
그리고 그래프 생성에 관하여 설명하면 다음과 같다.
콘티그의 집합(
Figure 112017051497918-pat00043
)의 콘티그들(콘티그 프로파일의 대표자)를 이용하면, 접합 검색(junction search)은 콘티그의 접두부와 접미부를 다른 콘티그와 정렬 테스트함으로써 수행된다. 이는 콘티그 성장 단계에서의 정렬 테스트와 정확하게 같은 과정이다.
수집된 접합 정보에 기초하여 모든 접합(중첩) 경계에서 콘티그(콘티그 프로파일)을 세그먼트화하고, 세그먼트 프로파일(컨센서스 행렬로 표시되는)을 결합하고, 세그먼트에 대한 컨센서스 행렬을 구성하여 최종적으로 스플라이스 그래프(splice graph)를 구성한다.
접합점 탐색, 세그먼트화(segmentation) 및 그래프 구성은 도1의 (2-1), (2-2) 및 (2-3)에 각각 도시하였다.
노드 집합 N과 에지 집합 E로 구성된 스플라이스 그래프 G(N,E)는 시퀀스의 반복 및 리드(read)에 포함된 오류로 인한 루프가 포함될 수 있는 방향 그래프이다.
스플라이스 그래프에서 각 노드는 세그먼트 프로파일(컨센서스 행렬)을 갖는 세그먼트를 나타내고, 각 에지는 하나의 세그먼트를 다른 세그먼트와 연결한다.
4*l 크기의 세그먼트 프로파일 S를 갖는 세그먼트의 커버리지 깊이 프로파일 v는 수학식 8에서와 같이 구해지고,
Figure 112017051497918-pat00044
의 평균 커버리지 깊이를 갖는다.
Figure 112017051497918-pat00045
리드(read)들이 실제 동형전사체(isoforms)에 대해 균일하게 분포된 위치에서 표본화된다고 가정하면, 커버리지 깊이
Figure 112019064434713-pat00046
는 이항 분포(binomial distribution)를 따르며 푸아송(Poisson) 분포 또는 가우시안(Gaussian) 분포로 근사 될 수도 있다.
본 발명의 실시 예에서는 계산의 간소화를 위해 이를 가우시안(Gaussian) 분포로 가정한다.
그래프 축소 및 최소 그래프(condensation and minimal graph) 구성에 관하여 설명한다.
임의의 에지 e에 대해 src(e)와 dest(e)를 각각 에지 e의 원천 노드와 목적지 노드라 하자. 또한 임의의 노드n에 대해 indeg(n)과 outdeg(n)를 각각 노드n의 입력 에지수와 출력 에지수로 정의하자.
임의의 에지 e로 연결된 두 노드n=src(e)와 n'=dest(e)에 대해, outdeg(n) = indeg (n') = 1인 경우 두 개의 노드 n = src(e)와 n'= src(e)는 단독으로 결합되어 있다고 하며,
정보의 손실이 없이 이 두 노드를 하나의 노드로 결합할 수 있으며 이 과정을 모든 노드와 에지에 대해 반복함으로써 그래프를 최소화할 수 있다.
이와 같은 결합을 수행하여 얻은 최소 그래프는 나중에 동형전사체(isoform)를 검출하고 발현량(abundances) 추정에 사용된다.
결합 동형전사체(isoform) 검출 및 발현량(abundances) 추정을 설명하면 다음과 같다.
노드 집합 N과 에지 집합 E로 구성된 (최소)스플라이스 그래프 G(N,E)를 사용하여 세그먼트 별 평균 커버리지
Figure 112017051497918-pat00047
에 기초하여 결합적으로(jointly) 동형전사체(isoform) 검출 및 발현량(abundances) 추정을 한다.
임의의 indeg(n) = 0 인 노드에서 시작하여 임의의 outdeg(n) = 0 인 노드에서 끝나는 모든 최대 경로의 집합을
Figure 112017051497918-pat00048
라 하자.
만약,
Figure 112017051497918-pat00049
의 동형전사체(isoform) 후보들의 모든 경로를 고려한다면, 결합 동형전사체(isoform) 검출과 발현량(abundance) 추정은
Figure 112017051497918-pat00050
의 가우시안 가정하에서 수학식 9에 의해 주어진 제약 조건이 있는 최소 평균 제곱 오차 추정으로 표현될 수 있다.
Figure 112017051497918-pat00051
여기서,
Figure 112017051497918-pat00052
x의 모든 요소가 음이 아니어야 한다는 제약 조건을 나타내고, 행렬
Figure 112017051497918-pat00053
는 임의의 i번째 행과 j번째 열에 상응한 원소인
Figure 112017051497918-pat00054
(음이 아닌 정수)가 경로 j에 세그먼트 i가 몇번 포함되었는지를 나타내는
Figure 112017051497918-pat00055
행렬이고, 가중치 행렬
Figure 112017051497918-pat00056
j번째 노드에 해당하는 세그먼트 길이,
Figure 112017051497918-pat00057
를 대각선 요소로 갖는
Figure 112017051497918-pat00058
대각 행렬이다.
한편, 수학식 9에서의 최소화는 후보 동형전사체(isoform) 집합의 크기
Figure 112017051497918-pat00059
가 매우 크거나
Figure 112017051497918-pat00060
보다 더 큰 경우에 문제가 발생하는데, 이 경우
Figure 112017051497918-pat00061
의 추정된 발현량이 대부분 매우 작은 0이 아닌 값이다.
본 발명에서는 이 문제를 해결하기 위하여 한 쌍의 리드(pair-end reads)를 사용하여 공존할 수 없는 동형전사체(isoform) 후보를 제거할 수 있도록 한다.
다른 방법으로는 수학식 10에서와 같이 IsoLasso를 사용하는 것이다.
Figure 112017051497918-pat00062
여기서,
Figure 112017051497918-pat00063
x
Figure 112017051497918-pat00064
정규이고, 파라미터
Figure 112017051497918-pat00065
를 제어하여 실효 경로 후보의 수(동형전사체 후보의 수)를 줄일 수 있다.
Figure 112017051497918-pat00066
를 최소 경로 커버 집합(minimum path cover, MPC)라 하자. 최소 경로 커버 집합이란 최소한의 수로 그래프 G를 완전하게 커버하는 경로들의 집합이다.
또한,
Figure 112017051497918-pat00067
를 하나의 최소 경로 커버 집합 T에 포함된 경로들의 (동형전사체(isoform)의 후보) 발현량을 나타내는 M×1 벡터라 하자.
임의의 최소 경로 커버 집합의 크기 M과 동일한 수의 경로(동형 전사체 후보)를 갖는 다수의 T들이 존재할 수 있고, 문제는 이들 중 세그먼트 당 평균 커버리지
Figure 112017051497918-pat00068
에 가장 잘 맞는 것을 찾는 것이다.
이러한 동형전사체(isoform)의 검출은
Figure 112017051497918-pat00069
의 가우시안 가정하에서 다음의 수학식 11에서와 같이 표현될 수 있다.
Figure 112017051497918-pat00070
여기서,
Figure 112017051497918-pat00071
는 크기
Figure 112017051497918-pat00072
인 행렬로 이의 각 원소
Figure 112017051497918-pat00073
는 T의 j 번째 경로에 세그먼트 i가 몇번 포함되는가를 나타낸다.
이상에서 설명한 본 발명에 따른 DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리를 위한 콘티그 프로파일 업데이트 방법 및 콘티그 형성 방법은 전체 게놈(genome) 혹은 전체 전사체(transcriptome) 어셈블리에 적용할 경우 리드(read) 오류의 정정이 가능하여 전체 게놈(genome) 혹은 전체 전사체(transcriptome) 어셈블리의 성능을 향상시켜 보다 신뢰성 있는 어셈블리가 가능하도록 한 것이다.
이상에서의 설명에서와 같이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명이 구현되어 있음을 이해할 수 있을 것이다.
그러므로 명시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하고, 본 발명의 범위는 전술한 설명이 아니라 특허청구 범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (14)

  1. 리드(read)를 콘티그(contig)에 정렬하기 위해 각 콘티그를 4xN 혹은 Nx4인 컨센서스 행렬 C과 이에 상응한 길이 N인 대표 시퀀스 s로 표현하고,
    컨센서스 행렬 C를 취하고
    Figure 112019064434713-pat00146
    로 주어지는 대표 시퀀스를 반환하는 함수 rep(·)를 정의하고, 여기서, s의 각 요소는
    Figure 112019064434713-pat00147
    에 의해 주어지고,
    시퀀스 s를 취하여 s에 의해 초기화된 컨센서스 행렬을 반환하는
    함수 cns(·)를 정의하고,
    Figure 112019064434713-pat00148
    의 각 행 혹은 열은 해당 콘티그의 해당 위치에서의 정렬된 리드(read)로부터 획득된 값으로 해당 위치에서 해당 염기가 몇 번 발생했는지를 나타내는 염기의 발생 회수일 수 있고,
    Figure 112019064434713-pat00149
    의 각 요소는
    Figure 112019064434713-pat00150
    에 의해 주어지고,
    길이 m의 리드(read) rs의 좌/우에서 길이 lm의 대표 시퀀스
    Figure 112019064434713-pat00075
    와 부분적으로 중첩되고 중첩 깊이가
    Figure 112019064434713-pat00076
    라고 가정하여,
    Figure 112019064434713-pat00077

    Figure 112019064434713-pat00078

    으로 컨센서스 행렬 C 대표 시퀀스 s의 쌍으로 주어지는 콘티그 프로파일을 업데이트하고,
    여기서, N은 4xN 혹은 Nx4인 컨센서스 행렬 C에 상응하는 대표 시퀀스 s의 길이이고, l은 콘티그의 길이, Oth는 n이 유효 값이기 위한 최소 중첩 깊이인 것을 특징으로 하는 DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리를 위한 콘티그 프로파일의 업데이트 방법.
  2. 제 1 항에 있어서, 길이 m의 리드(read) r이 길이 l m의 대표 시퀀스
    Figure 112019064434713-pat00079
    의 위치 a에서 완전히 중첩되는 것으로 가정하고,
    콘티그 프로파일을
    Figure 112019064434713-pat00080
    으로 업데이트 하는 것을 특징으로 하는 DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리를 위한 콘티그 프로파일의 업데이트 방법.
  3. 제 1 항 또는 제 2 항에 있어서, 각각 길이 lm의 두 시퀀스 s와 리드(read) r의 정렬 테스트시에 s에 대해 r을 정렬할 때 (1)완전한 중첩, (2)참조 시퀀스의 왼쪽 또는 오른쪽에서의 부분 중첩, (3)중첩 없음의 3가지의 경우를 고려하고,
    구간
    Figure 112019064434713-pat00081
    의 어떤 정수 a에 대하여 중첩구간 내에서 두 시퀀스간의 해밍거리
    Figure 112019064434713-pat00082
    이 미리 정해진 거리 문턱값
    Figure 112019064434713-pat00083
    에 대해
    Figure 112019064434713-pat00084
    을 만족하면 rs와 완전히 중첩하는 것이고,
    조건들
    Figure 112019064434713-pat00085
    에서 하나를 만족하는 정수 n이 존재할 때, r은 깊이 n에서 s와 부분적으로 겹치는 것이고, 조건을 만족하는 n이 여러 개 존재하면 가장 큰 값을 선택하고,
    여기서,
    Figure 112019064434713-pat00086
    는 거리 문턱값이며
    Figure 112019064434713-pat00087
    는 두 벡터 ab 사이의 해밍 거리이고, n은 유효 중첩 깊이로 간주되는 최소 중첩 깊이
    Figure 112019064434713-pat00088
    에 대해
    Figure 112019064434713-pat00089
    을 만족하는 것을 특징으로 하는 DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리를 위한 콘티그 프로파일의 업데이트 방법.
  4. 제 3 항에 있어서, 거리 문턱값(
    Figure 112018112718429-pat00090
    )와, 최소 중첩 깊이(
    Figure 112018112718429-pat00091
    )는 미리 정의되는 값이거나, 콘티그 성장 단계에서의 콘티그 성장에 따라 적응적으로 변화되는 것을 특징으로 하는 DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리를 위한 콘티그 프로파일의 업데이트 방법.
  5. 제 1 항에 있어서, 길이 l의 콘티그 대표 시퀀스 s는 4xN 또는 Nx4인 컨센서스 행렬 C를 수반하고, 컨센서스 행렬 C의 각 행 또는 각 열은 염기 {A, C, G, T}에 해당하는 것을 특징으로 하는 DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리를 위한 콘티그 프로파일의 업데이트 방법.
  6. 리드(read)를 콘티그(contig)에 정렬하기 위해 각 콘티그를 4xN 혹은 Nx4인 컨센서스 행렬 C과 이에 상응한 길이 N인 대표 시퀀스 s로 표현하여,
    리드(read)의 집합으로부터 리드(read)를 선택하고 지금까지 발견된 콘티그의 집합의 모든 콘티그들과의 정렬을 시도할때 상기의 컨센서스 행렬을 사용하는 콘티그 성장 단계;
    상기 콘티그 성장 단계에서 얻어진 컨센서스 행렬 C 대표 시퀀스 s의 쌍으로 주어지는 콘티그 프로파일을 이용한 접합부 탐색을 통해 염기 서열의 세그먼트를 나타내는 노드와 세그먼트 사이의 연결을 나타내는 에지를 구성하는 그래프 구성 단계;
    상기 그래프로부터 동형전사체(isoform)를 검출하고 발현량(abundances)을 추정하는 결합 검출/추정 단계;를 포함하고,
    콘티그 성장 단계에서, 컨센서스 행렬 C를 취하고
    Figure 112019064434713-pat00151
    로 주어지는 대표 시퀀스를 반환하는 함수 rep(·)를 정의하고, 여기서, s의 각 요소는
    Figure 112019064434713-pat00152
    에 의해 주어지고,
    시퀀스 s를 취하여 s에 의해 초기화된 컨센서스 행렬을 반환하는 함수 cns(·)를 정의하고,
    Figure 112019064434713-pat00153
    의 각 행 혹은 열은 해당 콘티그의 해당 위치에서의 정렬된 리드(read)로부터 획득된 값으로 해당 위치에서 해당 염기가 몇 번 발생했는지를 나타내는 염기의 발생 회수일 수 있고,
    Figure 112019064434713-pat00154
    의 각 요소는
    Figure 112019064434713-pat00155
    에 의해 주어지고,
    길이 m의 리드(read) rs의 좌/우에서 길이 lm의 대표 시퀀스
    Figure 112019064434713-pat00110
    와 부분적으로 중첩되고 중첩 깊이가
    Figure 112019064434713-pat00111
    라고 가정하여,
    Figure 112019064434713-pat00112

    Figure 112019064434713-pat00113

    으로 컨센서스 행렬 C 대표 시퀀스 s의 쌍으로 주어지는 콘티그 프로파일을 업데이트하고,
    여기서, N은 4xN 혹은 Nx4인 컨센서스 행렬 C에 상응하는 대표 시퀀스 s의 길이이고, l은 콘티그의 길이, Oth는 n이 유효 값이기 위한 최소 중첩 깊이인 것을 특징으로 하는 DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리를 위한 콘티그 형성 방법.
  7. 제 6 항에 있어서, 콘티그 성장 단계에서,
    선택된 리드(read)와 가장 많이 중첩되는 콘티그를 선택하고 리드(read)와 콘티그가 완전하게 중첩하면 콘티그에 리드(read)를 결합(merge)하고, 리드(read)와 부분적으로만 중첩되면 콘티그를 연장하는 것을 특징으로 하는 DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리를 위한 콘티그 형성 방법.
  8. 제 6 항에 있어서, 하나의 리드(read)와 두 개 혹은 그 이상의 콘티그와 중첩을 갖는 경우 중첩이 더 큰 콘티그에 결합하는 greedy 방식이 적용되고,
    미리 정의된 값보다 크거나 같은 중첩을 갖는 콘티그가 없다면 리드(read)를 콘티그 풀에 추가하고, 이 과정들은 모든 리드(read)들이 처리될 때까지 반복하는 것을 특징으로 하는 DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리를 위한 콘티그 형성 방법.
  9. 삭제
  10. 제 6 항에 있어서, 길이 m의 리드(read) r이 길이 l m의 대표 시퀀스
    Figure 112019064434713-pat00097
    의 위치 a에서 완전히 중첩되는 것으로 가정하고,
    콘티그 프로파일을
    Figure 112019064434713-pat00098
    으로 업데이트 하는 것을 특징으로 하는 DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리를 위한 콘티그 형성 방법.
  11. 제 6 항 또는 제 10 항에 있어서, 길이 l의 콘티그 대표 시퀀스 s는 4xN 또는 Nx4인 컨센서스 행렬 C를 수반하고, 컨센서스 행렬 C의 각 행 또는 각 열은 염기 {A, C, G, T}에 해당하는 것을 특징으로 하는 DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리를 위한 콘티그 형성 방법.
  12. DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리를 위한 콘티그 형성을 위하여,
    리드(read)를 콘티그(contig)에 정렬하기 위해 각 콘티그를 4xN 혹은 Nx4인 컨센서스 행렬 C과 이에 상응한 길이 N인 대표 시퀀스 s로 표현하는 단계;
    리드(read)의 집합으로부터 리드(read)를 선택하고 지금까지 발견된 콘티그의 집합의 모든 콘티그들과의 정렬을 시도하는 단계;
    선택된 리드(read)와 가장 많이 중첩되는 콘티그를 선택하고 리드(read)와 콘티그가 완전하게 중첩하면 콘티그에 리드(read)를 결합(merge)하고, 리드(read)와 부분적으로만 중첩되면 콘티그를 연장하는 단계;
    하나의 리드(read)가 두 개 혹은 그 이상의 콘티그와 중첩을 갖는 경우 중첩이 더 큰 콘티그에 결합하는 단계;
    미리 정의된 값보다 크거나 같은 중첩을 갖는 콘티그가 없다면 리드(read)를 콘티그 풀에 추가하는 단계;를 포함하고,
    콘티그 형성을 위하여, 컨센서스 행렬 C를 취하고
    Figure 112019064434713-pat00156
    로 주어지는 대표 시퀀스를 반환하는 함수 rep(·)를 정의하고, 여기서, s의 각 요소는
    Figure 112019064434713-pat00157
    에 의해 주어지고,
    시퀀스 s를 취하여 s에 의해 초기화된 컨센서스 행렬을 반환하는 함수 cns(·)를 정의하고,
    Figure 112019064434713-pat00158
    의 각 행 혹은 열은 해당 콘티그의 해당 위치에서의 정렬된 리드(read)로부터 획득된 값으로 해당 위치에서 해당 염기가 몇 번 발생했는지를 나타내는 염기의 발생 회수일 수 있고,
    Figure 112019064434713-pat00159
    의 각 요소는
    Figure 112019064434713-pat00160
    에 의해 주어지고,
    길이 m의 리드(read) rs의 좌/우에서 길이 lm의 대표 시퀀스
    Figure 112019064434713-pat00115
    와 부분적으로 중첩되고 중첩 깊이가
    Figure 112019064434713-pat00116
    라고 가정하여,
    Figure 112019064434713-pat00117

    Figure 112019064434713-pat00118

    으로 컨센서스 행렬 C 대표 시퀀스 s의 쌍으로 주어지는 콘티그 프로파일을 업데이트하고,
    여기서, N은 4xN 혹은 Nx4인 컨센서스 행렬 C에 상응하는 대표 시퀀스 s의 길이이고, l은 콘티그의 길이, Oth는 n이 유효 값이기 위한 최소 중첩 깊이인 것을 특징으로 하는 DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리를 위한 콘티그 형성 방법.
  13. 삭제
  14. 제 12 항에 있어서, 길이 m의 리드(read) r이 길이 l m의 대표 시퀀스
    Figure 112019064434713-pat00104
    의 위치 a에서 완전히 중첩되는 것으로 가정하고,
    콘티그 프로파일을
    Figure 112019064434713-pat00105
    으로 업데이트 하는 것을 특징으로 하는 DNA 샷건 시퀀싱 또는 RNA 전사체 어셈블리를 위한 콘티그 형성 방법.
KR1020170066743A 2017-05-30 2017-05-30 Dna 샷건 시퀀싱 또는 rna 전사체 어셈블리를 위한 콘티그 프로파일의 업데이트 방법 및 콘티그 형성 방법 KR102035285B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170066743A KR102035285B1 (ko) 2017-05-30 2017-05-30 Dna 샷건 시퀀싱 또는 rna 전사체 어셈블리를 위한 콘티그 프로파일의 업데이트 방법 및 콘티그 형성 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170066743A KR102035285B1 (ko) 2017-05-30 2017-05-30 Dna 샷건 시퀀싱 또는 rna 전사체 어셈블리를 위한 콘티그 프로파일의 업데이트 방법 및 콘티그 형성 방법

Publications (2)

Publication Number Publication Date
KR20180130755A KR20180130755A (ko) 2018-12-10
KR102035285B1 true KR102035285B1 (ko) 2019-10-22

Family

ID=64670270

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170066743A KR102035285B1 (ko) 2017-05-30 2017-05-30 Dna 샷건 시퀀싱 또는 rna 전사체 어셈블리를 위한 콘티그 프로파일의 업데이트 방법 및 콘티그 형성 방법

Country Status (1)

Country Link
KR (1) KR102035285B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112133371B (zh) * 2019-06-25 2024-02-23 深圳华大生命科学研究院 基于单管长片段测序数据进行骨架组装的方法和装置
WO2021033981A1 (ko) * 2019-08-21 2021-02-25 울산대학교 산학협력단 Dna 저장 장치의 연성 정보 기반 복호화 방법, 프로그램 및 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100609656B1 (ko) * 2005-02-04 2006-08-08 재단법인서울대학교산학협력재단 디엔에이 서열 어셈블리 방법 및 그 기록매체
US20140220587A1 (en) 2013-02-01 2014-08-07 The Regents Of The University Of California Methods for genome assembly and haplotype phasing
JP2015035212A (ja) 2013-07-29 2015-02-19 アジレント・テクノロジーズ・インクAgilent Technologies, Inc. ターゲットシークエンシングパネルから変異を見つける方法
JP2016506733A (ja) 2013-02-01 2016-03-07 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア ゲノムアセンブリ及びハプロタイプフェージングの方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080102006A (ko) 2007-05-17 2008-11-24 강원대학교산학협력단 공간분할 방식을 이용한 유전자 서열 정렬 방법
KR101918004B1 (ko) * 2009-10-26 2018-11-13 애보트 모레큘러 인크. 비-소세포 폐암의 예후를 측정하기 위한 진단 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100609656B1 (ko) * 2005-02-04 2006-08-08 재단법인서울대학교산학협력재단 디엔에이 서열 어셈블리 방법 및 그 기록매체
US20140220587A1 (en) 2013-02-01 2014-08-07 The Regents Of The University Of California Methods for genome assembly and haplotype phasing
JP2016506733A (ja) 2013-02-01 2016-03-07 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア ゲノムアセンブリ及びハプロタイプフェージングの方法
JP2015035212A (ja) 2013-07-29 2015-02-19 アジレント・テクノロジーズ・インクAgilent Technologies, Inc. ターゲットシークエンシングパネルから変異を見つける方法

Also Published As

Publication number Publication date
KR20180130755A (ko) 2018-12-10

Similar Documents

Publication Publication Date Title
US8165821B2 (en) System and methods for indel identification using short read sequencing
Butler et al. ALLPATHS: de novo assembly of whole-genome shotgun microreads
KR101337094B1 (ko) 염기 서열 정렬 장치 및 그 방법
Hajirasouliha et al. Detection and characterization of novel sequence insertions using paired-end next-generation sequencing
Deshpande et al. Cerulean: a hybrid assembly using high throughput short and long reads
Sahraeian et al. PicXAA: greedy probabilistic construction of maximum expected accuracy alignment of multiple sequences
Morisse et al. Hybrid correction of highly noisy long reads using a variable-order de Bruijn graph
US20140121991A1 (en) System and method for aligning genome sequence
KR102035285B1 (ko) Dna 샷건 시퀀싱 또는 rna 전사체 어셈블리를 위한 콘티그 프로파일의 업데이트 방법 및 콘티그 형성 방법
EP3482329B1 (en) A computer-implemented and reference-free method for identifying variants in nucleic acid sequences
Pan et al. Novo&Stitch: accurate reconciliation of genome assemblies via optical maps
US20180039730A1 (en) Computer Method and System of Identifying Genomic Mutations Using Graph-Based Local Assembly
US20140121983A1 (en) System and method for aligning genome sequence
EP2631832A2 (en) System and method for processing reference sequence for analyzing genome sequence
US20150142328A1 (en) Calculation method for interchromosomal translocation position
US20140121986A1 (en) System and method for aligning genome sequence
Van der Burgt et al. Automated alignment-based curation of gene models in filamentous fungi
Freire et al. ViQUF: de novo viral quasispecies reconstruction using unitig-based flow networks
Otto From sequence mapping to genome assemblies
Pockrandt et al. Genmap: Fast and exact computation of genome mappability
KR101584857B1 (ko) 염기 서열 정렬 시스템 및 방법
CN104951673A (zh) 一种基因组酶切图谱拼接方法及系统
Greenberg et al. Improving bacterial genome assembly using a test of strand orientation
Tammi et al. ReDiT: Repeat Discrepancy Tagger—a shotgun assembly finishing aid
AlEisa et al. K-mer spectrum-based error correction algorithm for next-generation sequencing data

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant