KR20230108089A - 전장 유전체 데이터를 이용한 유전체 복원 방법 - Google Patents

전장 유전체 데이터를 이용한 유전체 복원 방법 Download PDF

Info

Publication number
KR20230108089A
KR20230108089A KR1020220003453A KR20220003453A KR20230108089A KR 20230108089 A KR20230108089 A KR 20230108089A KR 1020220003453 A KR1020220003453 A KR 1020220003453A KR 20220003453 A KR20220003453 A KR 20220003453A KR 20230108089 A KR20230108089 A KR 20230108089A
Authority
KR
South Korea
Prior art keywords
genome
graph
integer
edge
segment
Prior art date
Application number
KR1020220003453A
Other languages
English (en)
Inventor
이현주
이영훈
Original Assignee
광주과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 광주과학기술원 filed Critical 광주과학기술원
Priority to KR1020220003453A priority Critical patent/KR20230108089A/ko
Priority to US18/152,037 priority patent/US20230223104A1/en
Publication of KR20230108089A publication Critical patent/KR20230108089A/ko

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/10Nucleic acid folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Biochemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 전장 유전체 데이터를 이용한 유전체 복원 방법에 관한 것으로, 본 발명의 유전체 복원 방법은 구조 변이를 가진 염기 서열을 그래프 형태로 변환한 뒤, 구조 변이와 복제수 변이가 서로 일관성 있는 값을 가지도록 그래프를 재구성함으로써 검출 오차를 줄였다. 이후, 이형접합 단일염기다형성(heterozygous single nucleotide polymorphism) 정보를 이용해 일배체형(haplotype) 그래프를 구성한 후, 최소 엔트로피(entropy) 값을 갖는 오일러 경로(Eulerian path)를 찾음으로써 유전체 배열 형태를 복원했다. 본 발명의 유전체 복원 방법은 유전 변이 검출 오차를 크게 줄이고, 암세포주의 유전체 배열 형태를 단일염기서열 수준으로 복원했으며, 본 발명의 유전 변이 검출 정확도는 국제적인 유전체 분석 전문기업 일루미나 알고리즘 만타에 비해 크게 향상된 수준을 나타내었다.

Description

전장 유전체 데이터를 이용한 유전체 복원 방법{GENOME RECONSTRUCTION METHOD USING WHOLE GENOME DATA}
본 발명은 전장 유전체 데이터를 이용한 유전체 복원 방법에 관한 것이다.
전장유전체 데이터란 개별 개체의 전체 DNA의 염기 서열을 제공하는 데이터를 말한다. 인간의 유전체는 30억 개의 염기서열로 구성돼 있으며, 암세포의 경우 정상 세포와는 다른 유전 변이가 존재한다. 개개인의 암에 따른 서로 다른 유전 변이를 정확히 파악해 내는 것은 개인 맞춤 치료에 있어 중요하다.
그러나 30억 개의 염기서열을 분석해 암세포가 갖고 있는 변이를 정확히 파악하는 것은 매우 어려운 과제이며, 특히 암세포에서 과거에 현미경으로 관측돼 온 재배열된 염색체 구조는 아직 단일염기서열 수준으로 파악된 적 없다. 따라서 전장 유전체를 분석해 이를 파악할 수 있는 알고리즘이 필요하다.
암세포는 점 돌연변이에서 DNA 재배열에 이르기까지 DNA에서 수많은 변화를 통하여 궁극적으로 복잡한 암 관련 게놈을 생성한다. 광범위하게 연구된 순차 중복(tandem duplication), 결실, 역위 및 삽입과 같은 단순한 SV뿐만 아니라 전좌, 폴드-백 역위(fold-back inversion), 염색체 파열(chromothripsis), 균질 염색 영역(homogeneously staining regions, HSR; 반복 유전자 증폭을 나타냄) 및 이중 극미(double minute, DM, 염색체 외 DNA)와 같은 반복적인 염색체 구조 변이(structural variation, SV)는 종양 발생과 관련이 있다.
G-banding 및 형광 FISH(fluorescent in situ hybridisation)와 같은 전통적인 핵형 분석(karyotyping) 기술은 유도 염색체(다중 염색체와 온전한 중심체의 재조합의 부산물) 또는 마커 염색체(유전체가 확인되지 않은 비정상적인 염색체)에서 복잡한 SV의 존재 유무를 확인할 수 있다. 그러나 제한된 해상도(~5Mb)로 인해 표준 핵형 분석 기술을 사용하여 유도체 또는 마커 염색체에서 복잡한 SV를 정확하게 식별할 수 없다.
고속-처리 시퀀싱(High-throughput sequencing)은 단일 염기 수준에서 게놈 변화를 해결하여 SV에 대한 이해를 향상시켰다. 시퀀싱 데이터에서 불일치(discordant) 및 분할 판독(split read)을 사용하여 SV를 감지하는 초기 단계 방법이 개발되었다. 그러나 이러한 방법은 SV에 대한 감지 능력이 로컬 게놈 영역에서 SV 중단점(breakpoint)을 파악하는 것으로 제한되어 있으며, 전체 게놈 영역에서 SV를 해석하지 못한다. 최근에는 SV를 식별하기 위해 암 순도 및 배수성, 총 복제수 변이(copy number alteration, CNA), 대립 유전자 특이적 CNA 및 일배체형 정보와 같은 게놈 정보를 통합하는 여러 방법이 개발되었다. 그들은 재배열된 암 게놈에 대해 그래프-기반 표현을 사용하지만 선형 및/또는 원형 염색체의 실제 핵형을 분석하지 않으므로 HSR, DM 또는 염색체 파열(chromothripsis)과 같은 핵형 토폴로지를 생성하지 않는다. 암에서의 게놈 핵형의 전반적인 재구축은 암 발달 및 진화의 기저를 밝혀낼 수 있다.
대한민국 등록특허 제10-2188376호
본 발명은 일배체형 그래프 기반 표현(haplotype graph-based representation)을 제공하면서, 복잡한 토폴로지 분석을 기반으로 암 게놈 핵형을 재구성하는 방법을 제공한다.
본 발명의 그래프 기반 프레임 워크는 입력 SV 검출(input SV call), 매핑되지 않은 판독(unmapped read), 리드-깊이 정보(read-depth information) 및 SNP(단일 뉴클레오티드 다형성)를 사용하여 게놈 전체 규모에서 게놈 세그먼트(genomic segment) 간의 연결을 모델링하기 위하여 중단점 그래프(breakpoint graph)를 구성한다.
본 발명은 재배열 토폴로지(rearrangement topology)를 분류하고 일배체형 그래픽 출력(haplotype graphical output)에서 암 게놈 핵형을 도출한다(보조 그림 1).
또한, 시뮬레이션 데이터와 암세포 주 데이터를 사용하여 기존 툴과 비교하여 본 발명 방법의 분석 잠재력을 보여주며, 또한 The Cancer Genome Atlas(TCGA) 및 European Genome-phenome Archive(EGA)의 WGS 데이터를 사용하여, 본 발명은 암세포의 핵형을 재구성하고 일차 및 전이성 암세포에서 개인(private) 및 공유 SV를 구별하여 종양 진화를 나타낼 수 있음을 보여준다.
본 발명은 전장 유전체 데이터를 이용한 유전체 복원 방법을 제공하며, 상기 유전체 복원 방법은 1) 전장 유전체(Whole genome sequence) 게놈 세그먼트의 초기 구조 변이(Initial structural variation)를 검출하는 단계; 2) 상기 게놈 세그먼트 및 구조 변이로부터 중단점(Breakpoint) 그래프를 구성하는 단계; 3) 대립 유전자 특이적(Allele-specific) 중단점 그래프를 구성하는 단계; 4) 일배체형(Haplotype) 중단점 그래프를 구성하는 단계 및 5) 상기 중단점 그래프 에지를 페어링(edge pairing)하여 오일러 경로를 열거하는 단계를 포함할 수 있다.
상기 1) 전장 유전체(Whole genome sequence) 게놈 세그먼트의 초기 구조 변이(Initial structural variation)를 검출하는 단계에서 상기 구조 변이는 중단점 인접성(breakpoint adjacencies)의 방향에 따라 헤드-투-헤드(HH), 헤드-투-테일(HT), 테일-투-헤드(TH) 또는 테일-투-테일(TT)로 표기된다.
상기 단계 2)에서, 그래프 노드는 헤드 노드(Sh) 및 테일 노드(St)를 포함하고, 그래프 에지는 세그먼트 에지(Es), 참조 에지(Er) 및 SV 에지(Ev)를 포함한다.
상기 세그먼트 에지(segment edge)는 n번 게놈 세그먼트의 헤드 노드 및 테일 노드를 연결하고, 상기 세그먼트 에지의 다중도는 게놈 세그먼트의 카피수(CN)을 나타낸다.
상기 참조 에지(reference edge)는 n번 및 n+1번 게놈 세그먼트 사이에서 n번 테일 노드와 n+1번 헤드 노드를 연결하고, 상기 참조 게놈(reference genome)에 존재하는 인접한 게놈 세그먼트 사이의 인접성(adjacency)을 나타낸다.
상기 SV 에지는 참조 게놈에 존재하지 않는 게놈 세그먼트 사이의 인접성을 나타낸다.
상기 2) 상기 게놈 세그먼트 및 구조 변이로부터 중단점(Breakpoint) 그래프를 구성하는 단계는 a) 로컬 카피수 분할을 수행하는 단계; b) 정수 프로그래밍에 의하여 정수 카피수(integer CN)를 예측하는 단계 및 c) 정수 프로그래밍에 의하여 에지 다중도를 결정하는 단계에 의하여 수행될 수 있다.
상기 a) 로컬 카피수 분할을 수행하는 단계는 다음의 두 항(term)으로 구성된 중단점을 결정하는 단계를 포함할 수 있다:
- 중단점이 있는 모델이 리드-깊이 데이터에 얼마나 잘 맞는지 설명하는 우도 항(likelihood term);및
- 중단점 수를 조절하고 과도한 세분화를 방지하는 매개변수 또는 페널티 항(penalty term).
상기 b) 정수 카피수를 예측하는 단계는 게놈 세그먼트의 리드-깊이로부터의 정수 측정 모델에서 높은 확률에 따라 순차적으로 정수 카피수를 대입하는 단계를 포함할 수 있다.
상기 에지 다중도는 세그먼트 에지, 구조 변이 에지 및 참조 에지의 다중도로 표시될 수 있으며, 상기 2) 상기 게놈 세그먼트 및 구조 변이로부터 중단점(Breakpoint) 그래프를 구성하는 단계는 상기 c) 정수 프로그래밍에 의하여 에지 다중도를 결정하는 단계 이후에 d) 에지 다중도가 0인 구조 변이를 제거하는 단계를 더 포함할 수 있다.
상기 2) 상기 게놈 세그먼트 및 구조 변이로부터 중단점(Breakpoint) 그래프를 구성하는 단계는 에지 다중도가 0인 구조 변이가 검출되지 않을 때까지 a) ~ d) 단계를 반복적으로 수행하는 단계를 더 포함할 수 있다.
상기 3) 대립 유전자 특이적(Allele-specific) 중단점 그래프를 구성하는 단계는 정수 프로그래밍에 의하여 정수 카피수(integer CN)를 대립 유전자-특이적 카피수(ASCN)로 나누는 단계를 더 포함할 수 있다.
상기 정수 프로그래밍에 의하여 정수 카피수(integer CN)를 대립 유전자-특이적 카피수(ASCN)로 나누는 단계는 SNP의 다른 깊이(depth)에 대한 음의 이항 모델을 사용하여 수행될 수 있다.
상기 대립 유전자 특이적(Allele-specific) 중단점 그래프는 대립 유전자-특이적 카피수(ASCN)를 기반으로 구성될 수 있다.
상기 대립 유전자 특이적(Allele-specific) 중단점 그래프는 균형 노드 및 불균형 노드로 구성될 수 있다.
상기 4) 일배체형(Haplotype) 중단점 그래프를 구성하는 단계는 상기 단계 3)의 대립 유전자 특이적(Allele-specific) 중단점 그래프로부터 일배체형 세그먼트를 정의하는 단계; 균형 이형접합 SNP 및 불균형 이형접합 SNP를 위상화(phasing)하는 단계 및 정수 프로그래밍에 의하여 일배체형(Haplotype) 중단점 그래프를 구성하는 단계를 포함할 수 있다.
상기 오일러 경로를 열거하는 단계는 다중경로 트리 구조(multiway tree structure)를 사용하여 중단점 그래프 에지를 페어링할 수 있다.
상기 오일러 경로의 열거는 최소 엔트로피를 가진 오일러 경로를 우선시할 수 있다.
또한, 본 발명은 상기 전장 유전체 데이터를 이용한 유전체 복원 방법을 수행하기 위해 컴퓨터로 실행시킬 수 있는 프로그램을 기록한 기록매체를 제공한다.
상기 기록매체는 CD-ROM, DVD-ROM, 이동식 저장장치, ROM, RAM, 또는 인터넷을 통한 전송의 형태일 수 있다.
상기 기록매체에 기록된 정보는 컴파일된 바이너리 파일(binary file), 텍스트 파일, 또는 쉘 스크립트의 형태로 나타낼 수 있다.
본 발명의 유전체 복원 방법은 구조 변이를 가진 염기 서열을 그래프 형태로 변환한 뒤, 구조 변이와 복제수 변이가 서로 일관성 있는 값을 가지도록 그래프를 재구성함으로써 검출 오차를 줄였다. 이후, 이형접합 단일염기다형성(heterozygous single nucleotide polymorphism) 정보를 이용해 일배체형(haplotype) 그래프를 구성한 후, 최소 엔트로피(entropy) 값을 갖는 오일러 경로(Eulerian path)를 찾음으로써 유전체 배열 형태를 복원했다. 본 발명의 유전체 복원 방법은 유전 변이 검출 오차를 크게 줄이고, 암세포주의 유전체 배열 형태를 단일염기서열 수준으로 복원했으며, 본 발명의 유전 변이 검출 정확도는 국제적인 유전체 분석 전문기업 일루미나 알고리즘 만타에 비해 크게 향상된 수준을 나타내었다.
도 1: a) 두 염색체(chrA 및 chrB)에 대한 head-to-tail(HT), tail-to-head(TH), tail-to-tail(TT) and head-to-head(HH) SV 및 두 가지 일배체형(hap1 및 hap2)을 표현한다; b) 중단점 그래프 구성 - 전체 게놈 시퀀싱 데이터(WGS)의 판독이 정렬된 후 노드와 세그먼트 에지(파란색 및 녹색 상자), 참조 에지(검정색 선) 및 SV 에지(색선)로 구성된 중단점 그래프가 구성된다. 세 단계로 구성된 반복이 첫 번째 상자에 표시된다. log2ratio는 정규화된 CN(카피수)을 나타내며 노드 아래의 숫자는 정수 CN이다(낮은 신뢰도 CN은 회색으로 표시됨). 위양성 에지는 정수 프로그래밍 후에 회색 에지로 변경된다. 그래프가 수렴되면(첫 번째 반복) 결실을 지원하는 판독(녹색)이 다시 매핑되고 분할 매개변수 λ는 두 번째 반복 전에 업데이트된다; c) 대립유전자 특이적 그래프 구성 - ASCN은 음의 이항 모델(negative binomial model)을 사용하여 각 세그먼트에 대해 측정되며 불균형 세그먼트는 대립유전자 세그먼트(chrA의 경우 연한 파란색 및 파란색, chrB의 경우 연한 녹색 및 녹색)로 나눈다. 균형 세그먼트(회색)는 중단점 그래프에서 동일한 상태로 유지된다; d) 일배체형 그래프 구성 - 대립형질(Allelic) 세그먼트는 HMM(파란색 및 녹색 화살표)을 사용하여 일배체형 그래프를 구성하는 일배체형으로 위상이 조절된다; e) 일배체형 그래프의 오일러 경로 찾기 문제는 최종적으로 정렬 데이터로부터 암 게놈을 재구성한다. 여기에서 예제에는 고유한 경로가 존재한다.
도2: 5가지 변형 호출 범주(SV, SVCN, CNA 중단점, 정수 CN 및 ASCN)에 대한 F-측정과 일배체형에 대한 스위치 오류율을 다른 변이 호출 툴과 비교했다. 비교는 대조군(체세포 변이체)이 있는 조건과 대조군이 없는 (생식세포 및 체세포 변이를 포함한 총 변이) 조건에서 이루어졌다. x축은 일배체형 커버리지(3X ~ 20X)를 나타내며, 일배체형의 뉴클레오티드에 정렬된 평균 판독 수를 나타낸다.
도 3: 일배체형 그래프는 두 개의 일배체형(녹색 및 파란색 상자)의 노드 및 세그먼트 에지와 참조 에지 및 SV 에지(각각 검정색 및 유색 선)로 구성된다. 대립유전자 세그먼트의 카피수는 색상 강도(1~5개 카피수)로 표시된다. 핵형 분석에 포함된 SV는 D(결실), TD(탠덤 복제), T(전좌), FB(폴드백 역위) 및 C(복합 SV)로 표시된다. a-e H292(a), A549(b), H226(c) 및 HeLa(d, e) 세포주의 핵형과 염색체에 걸친 염색체 간 SV 세트가 표시된다.
도 4: The Cancer Genome Atlas(TCGA)의 BRCA 및 GBM의 핵형 가능성. 여기서 일배체형 그래프의 SV 클러스터는 대괄호로 표시된다. SV 클러스터는 동시에 증폭된 암 관련 유전자(빨간색 텍스트)와 함께 HSR, HSR/DM, DM 및 CT로 표시된다. TCGA의 환자 식별자는 각 핵형의 상단에 표시된다. DM 형성을 암시하는 반복 사이클은 원으로 표시된다; a) BRCA에서 염색체간 SV 클러스터가 있는 일반적으로 재배열된 17번 염색체. BRCA의 SV 클러스터는 염색체 암 또는 텔로미어 말단에 연결되어 HSR 가 있는 유도 염색체를 형성하며, CT는 이에 일반적으로 동반된다. SV 클러스터가 있는 각 염색체 말단은 회색 선으로 연결되어 표시된다. b) 일반적으로 재배열된 염색체 4, 7, 12 및 GBM의 DM 형성. 염색체 핵형 아래의 DM은 SV 클러스터에서 증폭된 암 관련 유전자와 함께 표시된다.
도 5: a) EGA(European Genome-phenome Archive) 데이터 세트의 전이성 및 재발성 유방암에서 발견된 SV 및 SV 클러스터의 막대 플롯. 연구된 4가지 암 유형에는 원발성 종양(primary tumour), 국소 재발(local relapse), 동시 발생 액와 LN 전이 및 원격 전이가 포함된다. 암 유형은 나열된 순서대로 분류되었으며 환자는 SV의 누적 패턴에 따라 원발성 또는 전이성 진화를 갖는 것으로 분류되었다. b) 환자 PD4252는 염색체 1과 9의 핵형 진화를 보였다. c) 환자 PD4820은 6번 염색체의 핵형 진화를 보였다. d) 환자 PD11460은 염색체 8과 11의 핵형 진화를 보였다. e) 환자 PD9193은 11번 염색체와 14번 염색체의 핵형 진화를 보였다. b-e는 EGA의 환자 식별자는 각 핵형의 상단에 표시된다. 암 관련 유전자는 빨간색 텍스트로 표시된다.
이하, 실시 예 및 실험 예를 통해 본 발명을 보다 구체적으로 설명한다. 그러나 이들 예는 본 발명의 이해를 돕기 위한 것일 뿐 어떠한 의미로든 본 발명의 범위가 이들 예로 한정되는 것은 아니다.
본 발명의 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
1. InfoGenomeR는 후보 게놈 핵형을 재구성한다.
먼저 InfoGenomeR는 WGS 데이터 세트의 모든 판독을 평가하고 불일치 및 분할 판독 분석 툴(도 1a)을 사용하여 초기 구조 변이(SV) 호출을 생성하고 리드-깊이 분석 툴을 사용하여 초기 카피 수(CN) 분할을 수행한다. 그런 다음 초기 SV 및 CN 중단점(breakpoint)을 사용하여 로컬 게놈 세그먼트의 초기 중단점 그래프를 구성한다. 상기 중단점 그래프는 노드와 세그먼트 에지, 참조 에지 및 SV 에지로 구성된다. 다음 3단계 반복은 초기 중단점 그래프를 업데이트한다.
각 반복(iteration)에서 (i) 로컬 게놈 세그먼트가 개선(refine)되고, (ii) 순도 및 배수성(purity and ploidy)을 사용하여 게놈 세그먼트의 정수 CN이 추정되고 (iii) CN 균형 조건의 정수 프로그래밍(integer programming)은 중단점 그래프의 에지 다중도(edge multiplicities)를 결정하고 다중도가 0인 SV를 제거한다.
각 반복은 다중도가 0인 SV를 포함하지 않는 SV 세트로 다시 시작되고, CN 분할은 이전의 위양성(false-positive) SV 중단점 없이 수행되고, 세그먼트의 정수 CN이 다시 계산된다. 그래프가 수렴할 때까지 반복이 수행된다(다중도가 0인 SV가 관찰되지 않을 때 중단됨). 상기 반복은 분할 매개변수에 따라 1차 및 2차 반복으로 구성되며 CN 세그먼트는 1차 반복보다 2차 반복에서 더 일반적으로 인접 CN 세그먼트(neighbour CN segment)와 병합된다. 1차 및 2차 반복 사이의 중간 단계에서 적절하게 쌍을 이루지 않는 불일치 또는 매핑되지 않은 판독은 불균형 노드의 후보 인접 시퀀스에 다시 매핑된다(도 1b). 그런 다음 판독에 의해 지원되는 후보 인접 항목(candidate adjacencies)이 생성되고 2차 반복이 중단점 그래프를 완성한다.
다음으로, 정수 CN은 이형접합 SNP의 다른 판독 깊이(depth)에 대한 음의 이항 모델(negative binomial model)을 사용하여 ASCN(allele-specific copy number)로 나뉘고 EM(expectation-maximisation) 알고리즘은 매개변수를 추정하는데 사용된다.
ASCN을 포함하는 CN 균형 조건에서 정수 프로그래밍은 대립유전자 특이적 중단점 그래프를 구성한 다음 불균형 이형접합 SNP 시퀀스(imbalanced heterozygous SNP)의 위상을 조절한다(도 1c).
균형 이형접합 SNP(balanced heterozygous SNP)를 포함하는 게놈 세그먼트는 히든 Markov 모델을 사용하여 위상 조절되고 최종 일배체형 중단점 그래프(haplotype breakpoint graph)가 구성된다(도 1d).
오일러 경로는 최소 엔트로피 검색(minimum-entropy search)과 함께 다중경로 트리 구조(multiway tree structure)를 사용하여 중단점 그래프 에지를 페어링하여 후보 게놈을 얻기 위해 열거될 수 있다.
결국 InfoGenomeR은 일배체형 수준에서 암세포의 후보 핵형을 생성한다(도 1e).
2. InfoGenomeR은 다른 변이 호출 방법보다 성능이 뛰어나다.
시뮬레이션된 데이터 세트를 기반으로 6개의 제한된 변이 호출 카테고리, SV, SV 카피 수(SVCN), CNA 중단점, 정수 CN, ASCN 및 일배체형에서 8개의 다른 도구에 대해 InfoGenomeR의 성능을 평가했다. 이 6가지 범주는 전체 및 체세포 모드에 대해 평가되었다. 각 범주에서 변이를 감지하기 위해 다른 방법을 비교했다. 개별 방법의 성능은 InfoGenomeR에 통합하기 전에 평가되었다.
본 발명자는 각 일배체형 범위에 대해 4중 교차 검증을 수행했으며, 여기서 선택된 매개변수 또는 임계값은 정의된 값 범위를 열거하여 결정되었다. InfoGenomeR와 최근 그래프 SV 호출자인 JaBbA를 비교하기 위해 InfoGenomeR에 사용한 것과 동일한 SV 공용 집합 입력(DELLY2, Manta 및 NovoBreak)을 사용하여 JaBbA을 실행했다. JaBbA는 입력 순도와 배수성 하이퍼파라미터에 민감하기 때문에 JaBbA 입력에 대해 InfoGenomeR의 순도 및 배수성 추정을 사용했다. JaBbA 권장 사항과 함께 JaBbA에 대한 다양한 하이퍼 매개변수 설정을 테스트하고 SV 감지에 가장 적합한 설정을 선택했다. 각 변형 호출 범주의 정밀도와 재현율에 대한 성능 메트릭을 판단했다.
불일치 및 분할 판독(split read)을 사용하는 세 가지 방법(DELLY2, Manta 및 NovoBreak)과 불일치/분할 판독 및 판독 깊이를 모두 사용하는 세 가지 방법(CONSERTING, Weaver 및 JaBbA)과 비교할 때, InfoGenomeR는 15X의 일배체형 범위에서 가장 높은 전체(정밀도, 0.987, 재현율, 0.825) 및 체세포(정밀도, 0.981, 재현율, 0.919) SV 호출 성능을 달성했다(도 2). 또한 JaBbA는 SV 호출에 대해 두 번째로 좋은 결과를 생성했다. 본 발명자의 결과는 InfoGenomeR의 통합 전략이 개별 SV 툴(DELLY2, Manta 및 NovoBreak)에 비해 향상된 성능을 부여했으며 InfoGenomeR이 다른 그래프 SV 호출자 JaBbA를 능가하는 것을 확인하였다.
CONSERTING과 Weaver는 불일치/분할 판독과 판독 깊이를 함께 사용했지만 DELLY2 및 Manta에 비해 성능이 낮다. 반면, InfoGenomeR는 초기 SV 호출에서 회수율을 유지하면서 더 높은 정밀도를 보였다. 또한 InfoGenomeR는 중간 단계에서 SV를 발견하기 위해 불균형 노드에 제대로 짝을 이루지 않은 판독을 다시 매핑하여 체세포 SV에 대한 회수율이 2.8% 개선되었다. SV와의 판독 깊이 통합은 변형 크기에 민감할 수 있으므로 다음으로 변형 크기를 기반으로 성능을 비교했다. 다시 말하지만, InfoGenomeR은 변이체 크기에 관계없이 강력하게 유지되었으며 다른 모든 테스트 방법에 비해 가장 높은 정밀도와 재현율을 보여주었다. 마지막으로 SVCN 탐지 측면에서 InfoGenomeR, Weaver 및 JaBbA를 비교했는데 InfoGenomeR이 더 나은 성능을 보였다(도 2).
CNA 중단점 호출의 경우 InfoGenomeR는 로컬 분할 전략(local segmentation strategy)으로 인해 BIC-seq2보다 향상된 성능을 보였다(도 2). 특히, InfoGenomeR는 초기 SV를 사용하여 CNA 중단점을 미리 결정하고(1차 반복), 후보 SV가 존재하는 CNA 중단점을 발견하고(중간 단계), 분할 매개변수를 증가시켜 분할 영역에서 잘못된 중단점을 감소시켰다(2차 반복). 로컬 분할은 노이즈 필터링과 실제 변형 호출 간의 균형을 해결하여 최고의 정밀도와 재현율을 제공한다. CONSERTING은 InfoGenomeR과 유사한 로컬 세분화 접근 방식을 사용하지만 성능이 더 낮다. 반면 Weaver는 가장 낮은 성능을 보였고 변형 크기와 순도에 민감했다. JaBbA는 CNA 중단점에서 두 번째로 좋은 성능을 보였다. 다음으로, 확증(동일한 상태를 갖는 세그먼트 영역의 >90%로 정의, 실제 사본 수 포함)을 기반으로 세그먼트 영역의 정수 CN 및 ASCN을 감지하는 성능을 비교했다. 정수 CN의 경우 Weaver는 전체 정수 CN을 감지할 수 있었지만 생식선 커버리지 대조를 사용하여 체세포 정수 CN은 감지할 수 없었다. 또한 BIC-seq2와 ABSOLUTE를 결합하여 총 및 체세포 정수 CN을 감지하는 능력을 비교했다. JaBbA는 전체 및 체세포 정수 CN 모두에 대해 InfoGenomeR과 비교되었다. InfoGenomeR는 BIC-seq2와 ABSOLUTE의 조합에 비해 향상된 성능을 보여주었으며 JaBbA를 능가하여 정수 CN 감지에서 최고의 성능을 달성했다. ASCN의 경우 InfoGenomeR는 0.799(15X)의 F-측정을 보여주었으며 이는 Weaver의 F-측정보다 14% 더 높다. 체세포 ASCN의 경우 InfoGenomeR는 0.907(15X)의 F-측정값을 보여주었다. ASCN은 SNP의 수에 의존하기 때문에 작은 생식세포 변이체(<10 kb)가 병목 현상을 일으키는 것으로 관찰되었다. InfoGenomeR은 큰 ASCN(>100 kb)에 대해 0.940(총 변이체) 및 0.925(체세포 변이체)의 F-측정값을 보여주었다.
일배체형 추정을 위해 전체 또는 체세포 중단점 그래프를 기반으로 실제 일배체형과 추론된 일배체형 사이의 스위치 오류율(switch error rate)을 측정했다. InfoGenomeR는 전체 모드와 체세포 모드에 대해 각각 1.98% 및 1.87%의 오류율을 나타내었으며(15X)(도 2), 체세포 모드(somatic mode)에 대한 오류율의 작은 감소는 체세포 ASCN 추정의 더 높은 정확도로 인한 것일 수 있다. InfoGenomeR는 Weaver보다 더 나은 ASCN 추정의 이점을 얻을 수 있기 때문에 Weaver보다 일배체형 추정에 더 나은 성능을 보였다.
인간 참조 게놈 버전에 따른 성능을 비교하기 위해 GRCh38-기반 시뮬레이션 데이터 세트를 사용하여 5개의 다른 도구에 대해 InfoGenomeR을 평가했다. GRCh37-기반 시뮬레이션 데이터 세트와 비교하여 SV 호출자 간의 성능 격차는 감소했다. 이러한 성능 격차의 감소는 GRCh38의 매핑 가능성 개선으로 인한 것일 수 있다. 전체 SV에 대한 InfoGenomeR 및 JaBbA, 체세포 SV에 대한 InfoGenomeR 및 Manta가 그 순서대로 각각 최고의 성능을 보였다. InfoGenomeR 및 JaBbA는 전체 CNA 중단점 호출에 대해 유사한 성능을 보였다. GRCh38 참조의 매핑 가능성 개선으로 변형 호출 방법 간의 성능 격차가 줄어들 수 있지만 InfoGenomeR의 고성능은 여전히 GRCh38 참조에 유효했다. 이러한 결과를 고려할 때 InfoGenomeR는 GRCh37 및 GRCh38 참조 모두에 대해 모든 제한된 변이 호출 범주에서 다른 변형 호출 방법보다 성능이 뛰어났다.
3. 암세포주를 이용한 검증
InfoGenomeR의 성능을 평가하기 위해 핵형이 잘 알려진 3개의 폐암세포주(H292, A549 및 H226)와 HeLa 세포주의 WGS 데이터를 분석했다. 본 발명자는 각 세포주에 대한 일배체형 그래프를 구성했다(도 3). 상기 그래프에는 대체 오일러 경로에 따라 여러 핵형 가능성이 포함되어 있기 때문에 후보 핵형 중에서 핵형의 검증을 위해 엔트로피가 최소인 것을 선택했다. InfoGenomeR에 의해 재구성된 핵형 및 염색체 말단을 m-FISH에서 발견된 핵형 및 염색체 말단과 비교했다. InfoGenomeR는 m-FISH에서 염색체간 전좌의 62.5, 50.0, 53.3 및 40%를 식별했다(표 1). 미확인 전좌(translocation)의 대부분은 중심체(centromeric) 또는 텔로미어(telomeric) 영역에서 발견되었다.
암세포주에 대한 핵형 재건의 성능
세포주 배수성
(Ploidy)
전위 정밀도
(Translocation Precision)
재현율
(Recall)
핵형 정밀도
(Karyotype Precision)
재현율
(Recall)
H292 2배체성 1.000 (5/5) 0.625 (5/8) 0.800 (40/50) 0.870 (40/46)
A549 3배체성 1.000 (2/2) 0.500 (2/4) 0.924 (61/66) 0.968 (61/63)
H226 4배체성 0.875 (7/8) 0.583 (7/12) 0.775 (69/69) 0.863 (69/80)
HeLa 3배체성 0.890 (8/9) 0.400 (8/20) 0.680 (53/78) 0.828 (53/64)
올바르게 식별된 염색체간 전좌에 대하여, InfoGenomeR는 일배체형의 단일 염기 해상도(base-pair resolution)에서 중단점(breakpoint)과 m-FISH로 표시할 수 없는 염색체파열(chromothripsis)과 같은 복잡한 SV 유형을 감지할 수 있다.
H292 세포주는 6번, 8번, 11번, 19번 염색체 사이에서 크로모플렉스(재배열 사슬)를 보였다(도 3a의 T3-T6 및 C2). 그 결과 der(6)t(6;8), der(11)t(11;19) 및 der(19)t(11;19)가 있다. A549 세포주는 3배체였고 염색체 3과 15에서 염색체파열을 보였다(도 3b에서 각각 C1과 C2). 15번 염색체의 염색체파열에서 생성된 der(19)t(15;19)x2를 재구성했다. 또한 본 발명자는 균형 전좌 t(8;19) 및 t(9;20) (도 3c에서 각각 T2-3 및 T4-5) 및 불균형 전좌 t(7;10), t(10;15) 및 t(20;21)로 4배체인 H226 세포주의 핵형을 재구성했다 (도 3c에서 각각 T1, T6 및 T7). 유도 염색체(derivative chromosome)가 복제되었는데, 이는 전좌 후에 전체 게놈 복제(WGD)가 뒤따랐음을 시사했다.
HeLa 세포주의 경우 9개의 전좌를 확인했으며 그 중 8개는 m-FISH로 식별된 전좌와 일치했다. 일치하지 않는 전좌는 3p와 염색체의 중심체 영역 사이에 있었으며 중심체 영역의 잡음(centromeric noise)을 나타낸다(도 3d의 T3). 특히, 본 발명자는 단일 염기 해상도에서 InfoGenomeR을 사용하여 대표적인 HeLa 유도 염색체[der(1)t(1;3), der(12)t(3;12) 및 der(19)t(13;19)]를 재구성했다(도 3d). 그 결과는 염색체 11이 이형접합성 (LOH)의 손실과 함께 과도한 SV를 가지고 있음을 보여주었으며, 이는 der(11)t(7,11)의 유도 염색체를 암시한다(도 3e).
게다가, 본 발명자는 HeLa 세포주의 der(11)t(7;11)에서 암-레벨 증폭 및 국소 YAP1 증폭과 함께 TP63 및 MYC 탠덤 복제를 발견했다; 이러한 증폭은 자궁경부암에서 재발한다. 또한, 일치하는 RNA-seq 데이터(방법)를 사용하여 SV에 따른 발현 수준의 변화를 분석했다. 본 발명자는 LRP1B 종양 억제 유전자와 4개의 헤드-투-테일 또는 테일-투-테일 유전자 융합(DNER-TRIP12, SLC12A3-NLRC5, KLHDC4-SLC7A5 및 TEAD2-LAIR1)에서 동형 접합 엑손 결실(homozygous exonic deletion)을 감지했다. 이 데이터는 일치하는 RNA-seq 데이터의 불일치 판독을 사용하여 검증되었다. 재구성된 핵형에 의해 확인된 바와 같이, 유도 염색체의 유전자 발현은 증가된 카피 수에 비례하여 상향 조절되었다. 종합하면, 재구성된 게놈은 자궁경부암 및 RNA 발현 데이터에서 이전에 발표된 보고서에 의해 뒷받침되었다.
4. InfoGenomeR는 암의 복잡한 SV 및 핵형을 특성화할 수 있다.
InfoGenomeR가 암세포의 핵형을 구성할 수 있음을 보여주었고, 본 발명자는 TCGA에서 가져온 유방 침윤성 암종(BRCA, n = 90), 다형성 교모세포종(GBM, n = 37) 및 변이 장액성 낭선암종(OV, n = 47)의 다양한 데이터 세트에 InfoGenomeR를 적용했다. InfoGenomeR는 BRCA, GBM 및 OV 데이터 세트에서 각각 평균 223, 124 및 275개의 체세포 SV를 식별했으며 그 중 >20%가 복합 SV였다. 본 발명자는 일배체형 그래프에서 이러한 복잡한 SV의 클러스터링 분석을 수행하여 SV 클러스터를 밀접하게 재배열된 국소 세그먼트 세트로 정의했다. 본 발명자는 BRCA, GBM 및 OV의 SV 클러스터를 세 가지 증폭 유형으로 추가 분류했다: (1) HSR(염색체 암에 연결된 높은 증폭(>10개 카피수)을 갖는 SV 클러스터); (2) HSR/DM(염색체 암에 연결된 고 증폭 및 5개 이상의 다중도를 갖는 사이클을 갖는 SV 클러스터); 그리고 (3) DM(염색체 암에 대한 연결 없이 최소 5개의 다중도를 갖는 사이클을 갖는 SV 클러스터). HSR/DM 증폭 유형은 HSR과 DM 간의 구별이 불명확한 SV 클러스터 또는 HSR과 DM의 동시 존재를 나타낸다. 본 발명자는 또한 LOH가 산재되어 있는 SV 클러스터인 결실형 염색체파열(chromothripsis)을 분류했다.
다음으로 각 암 유형의 데이터를 개별적으로 조사했다.
BRCA 데이터 세트에서 본 발명자는 17번 염색체에서 재배열된 9명의 환자의 핵형 구조를 유도했다(도 4a). 본 발명자의 결과에서, 염색체 11과 17은 가장 일반적으로 재배열된 염색체였으며 HSR 또는 HSR/DM 유형 SV 클러스터를 나타냈다.
또한 HSR 및 HSR/DM은 CT를 동반하여 유도 염색체를 생성한다.
본 발명자의 결과는 염색체 간 SV가 HSR 및 HSR/DM에서 다른 증폭된 종양 유전자와 함께 염색체 17에서 ERBB2의 빈번한 클러스터링을 유발한다는 것을 보여주었다(도 4a). 또한 염색체 11의 CCND1ERRB2와 가장 일반적으로 클러스터링 되었으며 MECOM, FGFR1 MYC가 그 뒤를 이었다. 종합하면, 이러한 발견은 종양유전자의 공동 국소화에 대한 핵형 증거를 제공하고 CT가 BRCA에서 자주 관찰되는 HSR 및 HSR/DM과 관련되어 있음을 시사한다.
GBM 데이터 세트인 DM에서 종양 유전자 증폭의 주요 특징은 샘플의 16.2%(6/37)에서 관찰되었다(도 4b). DM은 절제 또는 CT가 있는 염색체에 존재하지 않고, 나머지 세그먼트는 LOH를 생성하며 함께 결합되었다. 본 발명자는 샘플의 59.4%(22/37)에서 HSR/DM을 관찰했다. DM은 염색체 암에 연결되지 않는 엄격한 조건을 요구했기 때문에 대부분의 SV 클러스터는 HSR/DM으로 분류되었다. 주요 GBM 종양 유전자, 즉 CDK, MDM2, KIT, PDGFRAEGFR은 HSR/DM 및 DM에서 증폭되었다. 또한, CDK4 MDM2는 염색체 12에서 가장 빈번하게 클러스터링된 파트너인 반면, KIT, PDGFRAEGFRCDK4MDM2와 염색체간 클러스터링을 보였다. 특히, 증폭(amplification)은 높고 국소적이어서 BRCA에서 관찰되는 HSR과 다른 메커니즘을 통해 발달한 것으로 보이는 DM의 가능성을 시사한다.
OV는 19번 염색체(n = 7, OV의 14.9%)에서 공통적인 BFB(breakage-fusion-bridge) 사이클을 제안하는 암-레벨 CNA 및 접힘 역위(fold-back inversions) 클러스터를 특징으로 한다. 접힘 역위는 HSR을 생성하는 반전 반복(inverted repeats)을 유도하고 OV에서 나쁜 예후와 강력하게 연관된다. 본 발명자는 염색체 19에서 BRD4CCNE1이 자주 증폭되는 염색체 간 SV가 있는 유도 염색체에서 BFB 주기(접힘 역위 ≥5))를 갖는 HSR을 관찰했다. BFB 주기와 함께 BRCA와 유사한 CT가 있는 HSR은 BRD4 CCNE1 증폭이 있는 유도 염색체에서도 관찰되었으며, 이는 다른 메커니즘이 증폭에 관여할 수 있음을 시사한다.
5. 종양 진화를 밝히기 위한 다중 샘플 WGS 데이터의 적용
종양 진화는 단일 염기 변이체(SNV) 및 CNA의 맥락에서 조사되었다. 그러나 1차 또는 전이성 세포(metastatic cell)에서 개별 및 공유 SV 간의 분화는 위양성 SV 및 다중 샘플 간의 일치하지 않는 SV 호출 비율(calling rate)로 인해 덜 철저하게 조사되었다. EGA(EGAD00001002696)에서 다운로드한 국소 재발 또는 전이성 유방암 샘플(방법)의 다중 샘플 WGS 데이터에 InfoGenomeR을 적용했다. 본 발명자는 원발성 및/또는 전이성 병변이 있는 15명의 환자로부터 34개의 종양 샘플을 분석했다.
6명의 환자는 전이성 종양보다 원발성 종양에서 더 높은 개별 SV 축적을 보였다(도 5a). 이 환자 중 2명(PD4252 및 PD4820)은 원발성 종양에서 새로운 SV 클러스터를 보여주었다(도 5b 및 5c). 환자 PD4252는 원발성 종양에서 9q의 LOH 결실을 가졌고, 나머지 세그먼트는 1p의 LOH를 갖는 염색체 1에 통합되어 NFIL3 증폭(PD4252a)이 있는 HSR을 형성했다. 환자 PD4820은 ERBB2BRD4가 증폭된 HSR/DM과 PAK1이 증폭된 HSR이 있었고, 이들은 림프절(LN) 전이(PD4820c) 동안 전달(pass)되었다. 원발성 종양에서는 새로운 SV 클러스터(클러스터 3)와 함께 FOXO3 증폭을 나타내는 역반복(inverted repeat)이 생성되었다. 이러한 결과는 LN 전이 후 원발성 종양에서 SV 클러스터의 획득을 나타낸다. SV 클러스터가 없는 마이너 서브클론이 LN으로 전이되었을 가능성이 있지만, 원발성 종양에서 서브클론 CNA가 관찰되지 않았기 때문에 그 아이디어를 무시했다.
다른 9명의 환자들은 전이성 종양에서 새로 생성된 SV 클러스터 혹은 원발성 종양 대비 발달된 SV 클러스터를 보여주었으며, 이는 전이 진화(metastatic evolution)를 나타낸다(도 5a). 이들 환자 중 2명(PD11460 및 PD9193)은 전이성 종양에서 새로운 SV 클러스터를 보였다. 본 발명자는 환자 PD11460에서 전이성 병변과 원발성 종양 사이의 발산 진화를 발견했다. 또한, 11p의 소실은 전이성 LN 종양(PD11460c)에서만 진화한 반면, 전이성 피부 종양에서는 8번 염색체와 11번 염색체 사이의 새로운 클러스터(PD11460 클러스터 2)가 생성되었다. 이 새로운 클러스터는 FGFR1CD82(>10개 사본)의 국소 증폭과 함께 유도 염색체에서 HSR을 발생시켰다(도 5d). 환자 PD9193에서 원발성 종양(PD9193a)에는 전이성 LN 종양(PD9193c)에 의해 유전되는 SV 클러스터(PD9193 클러스터 1)가 존재하였다(도 5e). 새로운 DM(클러스터 2)은 CT가 발생한 11번 염색체로부터 분리되어 생성되었으며, 이는 국소적으로 증폭된 CCND1(>30개 카피수)을 갖고 있다. 11번 염색체의 나머지 세그먼트는 작은 결실 다리(small deletion bridge)에 의해 14번 염색체로 전위되었다. 이러한 결과는 CT를 동반하는 HSR 및 DM 생성의 진화 과정을 보여준다.
<실시 예>
1. 초기 구조 변이 검출
실시 예에서 사용한 변이 검출기(variant caller) DELLY2, Manta 및 novoBreak은 기본 매개변수와 함께 사용되어 컨트롤이 있거나 없는(전체 또는 체세포) 초기 SV를 검출하였다. 판독을 지원하는 <3 변형 또는 매핑 품질 <20으로 정의된 저품질(Low-quality) SV가 필터링되었다. SV의 중단점(Breakpoint)은 참조 시퀀스의 염색체 및 좌표 순서에 따라 정렬되었으며 SV는 게놈 세그먼트에 대한 중단점 인접성(breakpoint adjacencies)의 방향에 따라 헤드-투-헤드(HH), 헤드-투-테일(HT), 테일-투-헤드(TH) 또는 테일-투-테일(tail-to-tail)로 주석이 달렸다. 헤드와 테일은 각각 참조 게놈의 5 '및 3' 좌표이다. 개별 SV 검출기(caller)의 SV 세트는 InfoGenomeR의 입력으로 통합되었다. SV 검출기가 예측한 중단점은 동일한 SV에 대해 다를 수 있으며(SV의 중단점이 100bp 미만으로 겹치는 경우 동일한 SV로 간주됨) SV 집합이 통합될 때 해당 중단점 중 하나를 경험적으로 선택했다.
2. 중단점 그래프 구성
InfoGenomeR은 게놈 세그먼트 및 SV로부터 중단점 멀티그래프 G(S, E)를 구성한다. 노드 세트(S)에는 두 가지 유형, 헤드 노드(Sh) 및 테일 노드(St)가 있으며, 각각 게놈 세그먼트의 헤드와 테일 쪽을 나타낸다. 중단점 그래프에서 ith 게놈 세그먼는 한 쌍의 헤드 및 테일 노드(Si h, Si t)로 표시된다. 에지 세트(E)에는 세그먼트 에지(Es), 참조 에지(Er) 및 SV 에지(Ev)의 세 가지 유형이 있다. 세그먼트 에지는 ith 게놈 세그먼트의 헤드 노드(si h)와 테일 노드(si t)를 연결하고 세그먼트 에지의 다중도는 게놈 세그먼트의 CN을 나타낸다. 참조 에지는 ith 와 i + 1th 세그먼트 사이의 테일 노드(si t)와 헤드 노드(si+1 h)를 연결하여 참조 게놈(reference genome)에 존재하는 인접한 게놈 세그먼트 사이의 인접성(adjacency)을 나타낸다. 반대로 SV 에지는 참조 게놈에 존재하지 않는 게놈 세그먼트 사이의 새로운 인접성을 나타낸다. 중단점 그래프를 구성하는데 다음과 같은 반복 절차가 사용된다:
반복 단계 1 - 로컬 CN 분할
InfoGenomeR은 현재(current) SV 중단점을 사용하여 게놈 영역을 분할한다.
그런 다음 미리 분할된 영역에서 주요 패널티 매개변수(λ) 및 BIC-seq2를 사용하여 로컬 CN 분할(segmentation)을 수행하고 게놈 영역에서 관찰 및 (사용 가능한 경우 대조군과 비교하여) 예상 판독 수 간의 카피 비율을 측정했다.
실시 예에서 사용한 BIC-seq2는 리드-깊이 분석 툴로 다음의 두 항(term)으로 구성된 Bayesian 정보 기준을 사용하여 중단점을 결정한다; 중단점이 있는 모델이 리드-깊이 데이터에 얼마나 잘 맞는지 설명하는 우도 항(likelihood term), 및 중단점 수를 조절하고 과도한 세분화를 방지하는 매개변수 또는 페널티 항(penalty term).
상기 매개변수(λ)는 상기 페널티 항을 조정하고 λ가 높을수록 과도한 중단점을 방지한다.
InfoGenomeR은 1 및 2 라운드 반복에서 서로 다른 λ를 사용했으며, 2 라운드 반복은 더 높은 페널티를 사용하여 SV 증거없이 잘못 분할된 영역을 병합할 수 있다. 현재 분석에서는 시뮬레이션 데이터에 대해 bin size = 100, 초기 λ = 1 및 최종 = 16의 매개변수 값을 사용했다. 암세포주 데이터는 시뮬레이션 데이터보다 더 높은 노이즈 수준을 보였으며, 암세포 주 데이터에는 bin size = 100, 초기 λ = 1 및 최종 λ = 2000의 매개변수 값이 사용되었으며, 여기서 재구성된 핵형이 m-FISH 핵형과 잘 일치했다. 암세포주 데이터에 사용된 동일한 매개변수가 TCGA 및 EGA 데이터에 사용되었다.
반복 단계 2 - 순도(Purity) 및 정수 CN 예측
게놈 세그먼트의 복제 비율은 로컬 CN 분할에 의해 측정되었고, 암 순도(p) 및 배수성(τ)은 ABSOLUTE를 사용하여 추정되었다. 게놈 세그먼트의 엔드 사이드(end side)는 헤드 및 테일 노드로 표시되고, 노드 s(헤드 또는 테일)의 게놈 세그먼트의 카피 비율 및 정수(integer) CN은 각각 copyratio(s) 및 CN(s)로 표시된다. copyratio(s)는 가우스 혼합 모델에 맞춰졌고, 각 성분은 mq = {qp + 2(1-p)}/D의 평균 복사 비율과 함께 정수 CN 상태(q)를 나타내는 가우스 분포였다. 여기서 q는 암 게놈에서 정수 CN(0, 1, 2, ...)을 취했고 D = pτ + 2(1-p)는 암과 정상 세포의 평균 배수성(average ploidy)이다.
실시 예에서 사용한 ABSOLUTE는 카피 비율로부터 암 순도와 배수성을 추정했으며 정수 카피 수(copy number) CN(s)은 가우스 혼합 모델(Gaussian Mixture Model)에서 정수 카피 수의 가장 높은 사후 확률(posterior probability)에 따라 할당되었다. copyratio(s)이 추정 한계보다 클 때 ABSOLUTE는 사전 정의된 최대 정수 CN을 할당하기 때문에 이 경우, 본 발명자는 카피 비율 방정식, copy ratio(s) = {CN'(s)p + 2(1 - p)}/D 을 만족하는 비-정수 CN'(s)를 계산했다. 그런 다음 CN(s)는 비-정수 CN'(s)를 반올림하여 [CN'(s)]로 할당된다.
섭동(Perturbation)은 신뢰도가 낮은 세그먼트에서 수행되었으며 정수 CN은 다음 정수 프로그래밍 단계에서 결정되었다. 노드 s의 세그먼트는 다음과 같은 경우 낮은 신뢰도로 정의되었다.
(1) 정수 CN의 사후 확률, p(CN(s)) <0.95, (2) 세그먼트 크기(s) <50bp 또는 s에 깊이 정보가 없는 경우(매핑할 수 없는 영역) 또는 (3) 높은 CN의 경우 |CN(s) - CN'(s)| > 0.35.
순도 추정은 InfoGenomeR 반복 단계 중에 반복되었으며 최종 순도는 마지막 반복에서 결정되었다.
반복 단계 3 - 에지 다중도를 찾기 위한 정수 프로그래밍
암 게놈을 나타내는 최적의 중단점 그래프가 재구성되었으며, 여기서, 에지의 다중도는 CN 균형 조건을 충족했다(수학식 1).
CN 균형 조건은 각 선형 염색체에 대해 하나의 텔로미어에서 다른 텔로미어로의 오일러 경로를 보장했다.
에지(e)의 다중도는 μ(e)로 표시되고 노드(s)에 인접한 세그먼트 에지, SV 에지(여러 SV가 존재할 수 있음) 및 참조 에지는 각각 es(s), Ev(s) 및 er(s)로 표시된다.
세그먼트 에지의 다중도 μ(es(s))는 노드(s)에 대한 참조 에지의 다중도 μ(er(s))와 SV 에지의 다중도 μ(ev(s))의 합이다.
[수학식 1]
CN 균형 조건을 충족하는 에지의 다중도는 정수 프로그래밍(integer programming)에 의해 결정되었다. 신뢰 세그먼트 에지(confident segment edge)의 경우, 다중도는 세그먼트의 정수 CN에 의해 제공되며, 이는 이전 카피의 추정치이다(노드의 세그먼트가 신뢰있는 경우 상수).
가변 에지(참조 및 SV 에지, 신뢰도가 낮은 세그먼트 에지)의 다중도를 결정하기 위해, 먼저 상호 관련된 노드 하위 집합(Srelated)을 찾은 다음 정수 프로그래밍 문제(수학식 2)를 해결하여 상호 관련된 노드에 인접하지만 다른 하위 집합과는 독립적인 에지의 다중도를 찾는다. 상기 상호 관련된 하위 집합은 시작 노드(sstart)에서 인접 노드 Adj(s)를 포함하여 유도적으로 정의되었으며 BFS(Broadth-First Search) 방식으로 찾을 수 있다.
BFS는 신뢰 노드를 만날 때, 세그먼트 에지 방향으로의 전파가 중단된다 (세그먼트 에지에 의한 인접 노드 Adjs(s)는 포함되지 않은 반면 참조 및 SV 에지에 의한 다른 인접 노드 Adjr,v(s)는 포함됨).
임의의 sstart에 대해 Srelated = {sstart}가 구축된 후 Srelated가 다음과 같이 확장되었다:
상호 관련된 각 하위 집합에서 세그먼트의 상수 정수 CN 상태가 주어지면 참조 에지와 SV 에지의 다중도는 낮은 신뢰도 세그먼트의 정수 CN의 작은 섭동으로 결정되었다. Srelated의 모든 노드에 대해 CN 균형 조건(수학식 (1))을 충족하기 위해 최적화 문제가 정의되었다.
lpSolveAPI R 패키지는 정수 프로그래밍 문제를 해결하는 데 사용되었다.
[수학식 2]
첫 번째 제약(constraint)은 인접성이 세그먼트의 CN을 초과할 때마다 넌센스 솔루션을 방지했다. 두 번째 제약은 SV 에지의 다중도의 상한에 대한 것이고, 이는 SV 중단점에서 인접한 세그먼트 에지의 다중성 간의 차이를 초과하지 않았다.
이는 인접한 세그먼트 모서리 사이의 기존 참조 에지를 최대한 보존했다. 드물게 SV 중단점이 정확히 상호(reciprocal)인 경우 SV는 두 번째 제약 조건에 의해 필터링될 수 있으며 이를 복원하기 위해 상호 중단점 사이에 가상 (길이가 0인) 세그먼트가 남아 있다.
세 번째에서 다섯 번째 제약은 세그먼트의 정수 CN에 대한 것이다. 세그먼트의 크기가 너무 작아 CN을 측정할 수 없거나 SV 중단점 오류에 의한 미스-세그먼트화가 발생하면 CN이 0과 최대 CN 사이에서 대치된다. 여기서 최소 크기 임계값은 50bp로 설정되었다. 세그먼트 >50bp의 경우, s가 확실하면 원래 추정치 CN(s)에 의해 다중도가 고정되었다; 그렇지 않으면 현재 분석에서 ABSOLUTE에서 다음으로 가장 좋은 정수 상태로 설정된 대체 CN 범위인 대체 CN(s) 내에서 다중도가 변경되었다. 여러 솔루션이 있는 경우 (1) SV 에지의 최대 다중도와 (2) 초기 CN에 가장 가까운 세그먼트 에지의 다중도가 선택된다. SV 에지를 최대화하면 가능한 실제 SV가 리콜되지만 여전히 거짓(false) SV는 제외되고(거짓 SV는 CN 균형 조건을 거의 충족하지 않음), 단순 역위 및 균형 전좌의 경우에서 SV 다중도가 0이 되는 널 솔루션을 방지한다. 상기 솔루션은 SV 및 세그먼트 에지에 대한 경계 제약 조건을 점진적으로 변경하여 찾을 수 있다.
특히, 다중도가 0인 SV는 위양성(false positives)이며 다음 반복 전에 제거된다. 반복 단계는 다중도가 0인 SV를 필터링한 후 얻은 SV 세트로 다시 시작된다. BIC-seq2의 λ 매개변수 값은 첫 번째 및 두 번째 반복에 다르게 사용된다. 두 번째 반복 및 중단점 그래프 설정 이전에, SV 에지는 불일치 및 매핑되지 않은 판독을 후보 인접 항목의 de novo 참조로 다시 매핑하여 추가된다. 체세포 모드(대조군이 있음)의 경우 생식선 변형이 제외되고 체세포 SV로 암 게놈 그래프를 재구성하기 위해 추가 프로세스가 수행된다. 또한 중단점 구축 후 SV는 각각의 중단점 그래프에 따라 단순 또는 복합 SV로 분류된다. 생식선 변이(Germline variant) 및 짧은 단순 SV (<100kb)는 대립 유전자 특이적 그래프에 대한 대립 유전자 정보가 충분하지 않고 게놈의 과다 분할을 유발할 수 있기 때문에 핵형 재구성의 병목이다. 핵형 보기에서 무시할 수 있다고 가정하면 생식선 변형에 대한 SV 에지와 CN 빈을 제거하여 중단점 그래프를 단순화한다.
3. 대립 유전자-특이적 CN 측정
전체 판독 깊이(total read depth)를 기반으로 하는 정수 CN 외에도 이형접합 SNP의 판독 깊이는 대립 유전자-특이적 CN에 대한 정보를 제공한다. 중단점 그래프에서 각 세그먼트의 정수 CN, μ(es(s))는 이형접합 SNP를 사용하여 대립 유전자-특이적 CN, ASCN(s)로 나뉜다(대조군이 존재하는 경우, 대조군의 모든 이형접합성 SNP가 사용됨).
Let A={A1,A2,...,A[(μ(es(s))+1)/2]}는 게놈 세그먼트가 가질 수 있는 대립 유전자-특이적 CN의 가능한 모든 상태를 나타낸다. 여기서 정수 CN은 가능한 경우 [(μ(es(s))+1)/2]의 집합으로 나눌 수 있고, 각 Ai={Ai,1, Ai,2}, Ai,1+Ai,2=μ(es(s))이다. 예를 들어, 세그먼트 에지의 다중도 μ(es(s))=3 이면 A1={0, 3} 및 A2={1, 2} 의 두 가지 경우가 있다. 각 세그먼트의 Ai가 주어지면, aj=(aj,1, aj,2) 로 표시된 각 SNP에 대한 대립 유전자 특정 카피 번호가 주어질 때, 이형접합 SNP의 리드 깊이 oj=(oj,1, oj,2)는 NB(negative binomial) 분포를 사용하여 모델링 할 수 있다. SNP 깊이 쌍 oj,1 및 oj,2는 각각 aj,1 및 aj,2에서 관찰된다.
여기서, 이형접합 SNP의 대립 유전자 특이적 카피 수는 잠재적 변수이다.
[수학식 3]
[수학식 4]
이전의 중단점 그래프 구성에서 측정된 순도 p가 주어지면, 세그먼트 당 p(O│θ)는 각각 A i ,1A i ,2에 대한 음 이항 분포(negative binomial distribution)의 일배체형 기본 커버리지(haplotype base coverage) b와 분산 매개변수(dispersion parameter) φ1 및 φ2를 추정하여 최대화된다. EM 알고리즘은 주어진 Ai에 대한 최대 우도 매개변수(maximum likelihood parameter)를 추정하는데 사용된다.
각 Ai에 대한 최대 우도 및 우도 스코어 ScoreL(Ai)는 μ(es(s))의 반복 분할을 통해 얻어지며, 최대 우도 상황에서 대립 유전자 특이적 카피 수, 를 구한다.
[수학식 5]
[수학식 6]
[수학식 7]
그럼에도 불구하고 ASCN(s)의 초기 추정치는 불확실성을 가지며, 신뢰도가 낮은 ASCN(s)은 (1) <0.8, 또는 (2) 이형접합 SNP의 수가 <5인 경우로 정의되었다. 낮은-신뢰도 세그먼트의 경우, 본 발명자는 다음 라운드의 대립 유전자-특이적 중단점 그래프 구성에서 목적 함수를 최소화한 최고의 ASCN을 검색했다.
4. 대립유전자 특이적 중단점 그래프 구성
ASCN을 기반으로, 대립 유전자 특이적 중단점 그래프 AG(S, E)가 구성되었으며, 여기서 노드 집합 는 균형() 및 불균형 노드(시간적 두 일배체형의 경우 S1 및 S2)로 구성되며, 이는 각각 균형 및 불균형 ASCN이 있는 게놈 세그먼트의 머리와 꼬리를 나타낸다. 대립유전자 특이적 중단점 그래프에서 상기 불균형 노드(imbalanced node)는 일시적으로 일배체형 1 또는 일배체형 2에 할당되는 반면 균형 노드는 할당되지 않는다. 불균형 노드의 단계적 상태(일배체형 1 및 일배체형 2)는 불균형 ASCN 내에서 보존되며 균형 ASCN이 있는 게놈 세그먼트에서 전환될 수 있다.
구체적으로, 불균형 AS 세그먼트라고 하는 불균형 ASCN을 갖는 게놈 세그먼트는 두 개의 헤드 노드(S1,h 및 S2,h)와 꼬리 노드(S1,t 및 S2,t)로 표시되었다. 균형 AS 세그먼트라고 하는 균형 ASCN이 있는 게놈 세그먼트는 중단점 그래프와 동일한 방식으로 표시되었다. 따라서 불균형 세그먼트 및 균형 세그먼트에 대한 세그먼트 에지의 다중도는 각각 ASCN 및 총 카피 수였다. 대립 유전자 특이적 그래프는 세그먼트 에지의 다중도가 불균형한 경우 SV 에지가 대립 유전자 중 하나에 할당될 수 있음을 의미한다. 불균형 AS 세그먼트의 경우, 인접 세그먼트 간의 차이는 AS 세그먼트의 시간적 위상 상태(temporal phased state)에 따라 달라지므로 불균형 AS 세그먼트를 고유하게 정렬하는 SV 에지를 할당하여 카피 균형 조건을 충족할 수 있다. 그러나 균형 AS 세그먼트의 경우 목적 함수의 값이 위상 상태에 의존하지 않기 때문에 AS 세그먼트와 SV 에지의 위상 상태가 고유하게 결정되지 않았다. 대립유전자-특정 중단점 그래프는 다음 정수 프로그래밍 문제에 의해 구성되었다. 신뢰도가 낮은 세그먼트의 다중도를 조정하기 위해 목적 함수에 페널티 함수 ε를 추가하여 모든 후보 정수 나눗셈(candidate integer division)을 검색했다. 이것은 신뢰도가 낮은 세그먼트에 대한 정수 나눗셈의 가능성 점수 순위에 비례했으며 신뢰도가 있는 세그먼트에 대해서는 0이었다. 신뢰도가 낮은 세그먼트의 페널티는 세그먼트에 대한 헤드 노드와 테일 노드에 대해 두 번 추가되었으므로 목적 함수에 추가하면서 페널티를 2로 나누었다.
[수학식 8]
노드()의 ASCN 측정이 로 표시될 때, 정수 프로그래밍 문제(integer programming problem)(여기서 목적 함수의 s는 불균형 AS 세그먼트의 경우 s1 및 s2일 수 있음)는 , 또는 를 교체하기 위해 에 대한 지수 시간(exponential time)이 필요하다. 여기서 는 이전 중단점 그래프의 노드를 나타내며, 이는 s1 및 s2로 확장되거나 이 균형을 이루는 경우 그대로 유지될 수 있다.
일련의 불균형 AS 세그먼트에서 정수 프로그래밍 문제를 해결하기 위해, 휴리스틱을 사용하여 세그먼트 에지의 다중도를 결정하였다.
5. 일배체형 세그먼트
일배체형 세그먼트 H = {H1, H2, ..., Hn}는 대립유전자 특이적 그래프 AG(S, E)로부터 정의되며, 각 요소 Hi = {Hi,1, Hi,2}는 일배체형 1 및 일배체형 2에 대한 불균형 AS 세그먼트 세트이며, 여기서 이형접합 SNP는 (1) 대립형질 불균형(allelic imbalances) 및 (2) 국소(<1 Mb) 비동종(nonhomologous) SV에 의해 위상화(phased)된다. 먼저, 대립유전자 특이적 그래프에서 균형 AS 세그먼트 사이의 연속적인 불균형 AS 세그먼트 세트를 수집하고, 여기서 각 세트의 불균형 AS 세그먼트의 위상(phase)은 이전 대립유전자 특정 중단점 그래프 구성 섹션의 정수 프로그래밍에 의해 결정되었다. 그런 다음, 두 세트의 불균형 AS 세그먼트의 세그먼트 사이의 SV를 상동성(>100 bp 상동성) 및 비상동성 SV(≤100 bp 상동성)로 분류하고, 이어서 불균형 AS 세그먼트 사이에서 비상동 SV의 존재를 확인하였다. 상동 염색체가 동일한 국소 중단점(focal breakpoint)에서 상동 메커니즘에 의해 교환되는 드문 가능성을 제외하고 국소 비상동 SV(focal nonhomologous SV)는 단일 대립유전자에서 발생하는 것으로 가정되었다. 상기 가정은 잘못된 대립형질 전환(일배체형 전환 오류)을 방지하여 일배체형 위상 문제를 단순화했으며, 불균형 AS 세그먼트의 시퀀스는 일배체형 세그먼트로 병합되었다.
불균형 세그먼트의 두 시퀀스, 즉 k,k+1,...,k+k' 세그먼트와 l,l+1,...,l+l' 세그먼트가 존재하고 이들 사이에 비상동성 SV가 존재하는 경우, 일배체형 세그먼트는 다음과 같이 정의되었다.
[수학식 9]
[수학식 10]
상기 헤드 및 테일 노드 쌍 은 일배체형 1의 k번째 세그먼트를 나타내며, 이는 대립 유전자 특이적 그래프 또는 의 노드를 기반으로 할당되었다. 상기 할당은 비동종 SV에 대한 제약 조건과 함께 Hi의 카피 수 균형 조건에 대한 정수 프로그래밍에 의해 결정된다. 일배체형 세그먼트의 SNP는 일배체형 세그먼트에서 불균형 AS 세그먼트의 정렬된 상태를 감안할 때 식 (4)의 가능성을 최대화하여 위상이 조절(phased)된다. oj,1이 Hi의 k번째 세그먼트의 snpj,1에서 관찰된 경우, 이형접합 SNP, snpj,1 및 snpj,2는 각각 Hi,1 및 Hi,2에 해당한다(만약 인 경우).
6. 일배체형 중단점 그래프 구성
이전에는 대립 유전자 특이적 중단점 그래프에서 불균형 AS 세그먼트와 비상동 SV의 서열이 일배체형 세그먼트(H)를 정의하고 일배체형 세그먼트의 불균형 ASCN에서 이형접합 SNP의 위상을 조절했다. 일배체형 중단점 그래프는 인구 정보를 사용하여 균형 AS 세그먼트에서 SNP의 위상을 조절(phasing)하고 일배체형 세그먼트의 엔드-투-엔드 순서(end-to-end order)를 결정하여 구성되었다. BEAGLE의 HMM(hidden Markov model)에 대한 Viterbi 알고리즘의 제한된 버전을 사용하여 일배체형을 얻었으며, 여기서 전이(transition) 및 방출(emission) 확률은 지역화된 일배체형-클러스터 그래프(localised haplotype-cluster graph)에서 정의되었다. 불균형 이형접합 SNP가 이미 일배체형 세그먼트에서 단계적으로 이루어졌기 때문에, 상기 Viterbi 경로는 SNP의 단계적 순서(phased order)를 따르도록 실행되었다. Viterbi 경로는 일배체형 세그먼트의 순서를 결정하는 동시에 균형 ASCN에서 이형접합 SNP의 위상을 조절했다. 마지막으로, 일배체형 그래프 HG(S, E)를 구성하였다. 본 발명자는 대립-유전자 특이적 그래프로부터 노드 에 대한 일배체형-특이적 카피 수를 로 나타냈으며, 이는 일배체형 위상(phasing)을 통해 구하였다. 불균형 노드의 경우, 불균형 세그먼트에서 이형 SNP의 위상 상태에 따라 또는 이다. 균형 노드의 경우, 이다. 일배체형 특정 카피 수를 얻은 후, 다음 정수 프로그래밍에 의해 일배체형 그래프를 구성하였다. 즉 불균형 노드에서 세그먼트 에지의 다중도는 대립 유전자 특정 그래프에서 균형 노드의 확장으로 정렬되었으며, 목적 함수를 최소화하기 위해 기준 및 변형 에지의 다중도가 할당되었다.
[수학식 11]
7. 오일러 경로의 열거
후보 게놈을 식별하기 위해, 이전 단계에서 구성된 일배체형 그래프에서 세그먼트 에지와 SV/참조 에지 사이를 번갈아 가며 오일러 경로를 열거했다.
복제 수 균형 조건(원래 텔로미어 끝 포함)을 충족하지 않는 헤드 및 테일 노드는 재구성된 염색체(P)의 끝으로 간주되었으며, 이는 누락된 SV 또는 잘못 계산된 CN으로 인한 끝 또는 파손일 수도 있다. DM 클러스터에 포함된 원형 염색체(C)는 원형 경로로 관찰되었다. 오일러 분해 문제(EDP, Eulerian decomposition problem)는 중단점 그래프에서 선형 및 원형 염색체를 찾기 위해 정의되었다. 경로와 주기의 수를 최소화한 min-EDP인 |P| + |C|는 이전에 가장 가능한 핵형을 설명하기 위해 제안되었지만, min-EDP가 항상 생물학적으로 관련이 있는 것은 아니다(즉, max-EDP가 해당될 수 있음). 이 연구에서는 최소 엔트로피로 P와 C의 분해를 우선시하는 최소 엔트로피 오일러 경로 열거를 공식화했다. 후보 오일러 경로를 열거하기 위해 각 트리 노드가 중단점 그래프 에지의 페어링 상태를 나타내는 다중경로 트리(multiway tree) 구조를 사용했다. 다중경로 트리(multiway tree)는 중단점 그래프에서 각 노드의 레벨과 처리를 순차적으로 증가시켜 루트-투-리브(root-to-leave) 모델에서 확장되었다. 리프 노드는 모든 게놈 세그먼트에 도달하는 오일러 경로를 설명하는 가능한 에지 페어링 상태를 나타낸다.
모든 오일러 경로에 대한 열거는 NP-hard 문제이며 생물학적으로 관련된 경우로 최소 엔트로피를 가진 오일러 경로를 우선시했다. 먼저 연결된 염색체를 분리하고 연결된 염색체 내부에서 열거(enumeration)를 수행하였다. 고도로 분할된 게놈의 경우 후보 핵형에 크게 영향을 미치지 않는 단순 SV(탠덤 복제, 삭제 및 블록-교환 삽입)를 추가로 제외하여 일배체형 중단점 그래프를 단순화할 수 있다. 그런 다음 최소 엔트로피를 사용하여 솔루션의 우선 순위를 지정하기 위해 최소 엔트로피 검색이 적용되었다. 예를 들어, 레벨 l의 다중경로 트리에 있는 노드는 중단점 그래프에서 총 l 노드의 에지 페어링 상태를 나타내며 n개의 고유한 경로가 있다. 총 경로 수는 w = w1 + w2 + ... + wn이며, 여기서 wi는 i번째 경로의 다중도이다. 레벨 l, e l 에서의 엔트로피는 다음 공식에서 파생되었다:
[수학식 12]
낮은 엔트로피는 arm-level 복제, WGD 및 HSR 및 DM에서 기타 복제 프로세스와 같은 추가 증폭 프로세스를 통해 SV 세트가 복제되었음을 나타낸다. 이것은 SV의 개별 발생보다 더 짧은 거리가 필요했다. 솔루션 공간이 너무 빠르게 성장하면 다중경로 트리에서 가지를 자르고 나머지 가지의 리프 노드(leaf node)에서 후보 게놈을 얻었다.
8. 다중 샘플 데이터에 대한 중단점 그래프 구성
다중 샘플의 경우 각 샘플의 초기 SV에서 SV 세트를 통합했다. 통합 SV 세트를 사용하여 각 샘플의 중단점 그래프를 구성했다. 그런 다음 원시 SV 증거(불일치 또는 분할 판독)의 존재 여부에 따라 SV를 개인 및 공유 SV로 분류했다. 공유 SV가 원발성 종양에서 호출되지 않으면 전이성 종양에서 개인 SV로 관찰되고 그 반대의 경우도 마찬가지이다. 통합 SV 세트를 사용하는 이 접근 방식은 지원하는 카피 수 깊이와 인접 SV 정보가 해당 샘플에 존재하는 경우 각 샘플에서 호출되지 않은 SV 에지를 그래프에 추가할 수 있다는 이점이 있다. 개별(private) SV와 공유 SV를 구분하는데 어려움이 있는 경우에는 반복 최적화를 다시 한 번 수행했다.
9. 시뮬레이션된 데이터 세트
먼저, 1000 게놈 프로젝트의 3단계에서 NA12878, HG00732, NA19238 및 HG00513 개체로부터 12개의 시뮬레이션된 정상 종양 쌍이 생성되었다. 본 발명자는 각 SV 유형의 비율과 크기가 이전 연구에서 파생된 암 게놈 당 약 3000개의 생식세포와 200개의 체세포 SV를 시뮬레이션했다. 2배체에서 4배체 암 게놈은 WGD 작업에 의해 생성되었으며 각 암 게놈은 서로 다른 순도(60, 75 및 90%)로 일치하는 정상 게놈과 혼합되었다. ART(버전 2.5.8)를 사용하여 3X, 5X, 10X, 15X 및 20X 일배체형 접힘 범위를 사용하여 이종 게놈에서 Illumina HiSeq 2 Х 100 판독을 생성하고 Burrows-Wheeler Aligner-Maximal Exact Matches(BWA-MEM)를 사용하여 GRCh37 참조 게놈에 매핑했다. 인간 참조 게놈 버전에 따른 성능을 비교하기 위해, 동일한 시뮬레이션 체계를 사용하여 GRCh38 참조를 기반으로 NA12878에서 2배체에서 4배체 암 게놈을 생성하고 판독값을 GRCh38 참조 게놈에 매핑했다.
10. 데이터 수집 및 전처리
데이터 수집을 위해 SRA Toolkit(버전 2.8.2)을 사용하여 HeLa 세포주의 WGS 및 RNA-seq 데이터와 폐암세포주의 WGS 데이터를 다운로드했다. GDC 클라이언트(버전 1.2.0)는 TCGA 샘플의 WGS 데이터를 다운로드하는데 사용되었다. EGA 클라이언트(버전 2.2.2)는 전이성 유방암의 WGS 데이터를 다운로드하는데 사용되었다. HeLa 게놈의 paired-end 및 mate-pair 라이브러리에서 판독은 기본 매개변수(버전 0.7.15)가 있는 BWA-MEM을 사용하여 인간 참조 게놈(GRCh37)에 매핑되었다. DELLY2, Manta 및 NovoBreak은 paired-end 데이터에서 SV 호출에 사용되었고 DELLY2는 mate-pair 데이터에 사용되었다. 두 라이브러리의 초기 SV 호출은 InfoGenomeR의 입력으로 병합되었으며 CN 호출 및 대립 유전자 특이적 및 일배체형 추정에 페어드 엔드 데이터가 사용되었다. SNP는 BCFtools(버전 1.3)를 사용하여 감지되었다. HeLa 전사체의 3개 라이브러리에서 판독한 값을 HISAT2 및 CuffLinks를 사용하여 매핑하고 정량화했으며, 중복에서 평균 카운트를 수집하여 발현 값을 측정했다. 폐암세포주, TCGA 샘플 및 전이성 유방암의 WGS 데이터에는 GRCh37에 매핑된 전처리 데이터(BAM)가 포함되었으며 변이체는 paired-end HeLa 및 모의 데이터 세트와 동일한 방식으로 호출되었다.
<논의>
당사의 그래프 기반 프레임워크인 InfoGenomeR은 SV 및 CNA, 순도 및 배수체 측정, 일배체형 추정에 대한 개별 변이체 호출(variant calling)을 통합한다. 중단점 그래프를 기반으로 InfoGenomeR는 일배체형 그래프를 생성하여 대립유전자 및 일배체형 특정 정보에 따라 대상 게놈을 좁힌다(narrowing). 결과적으로, 개별 변이체 호출의 범위를 늘리고 게놈 전체 SV의 식별을 용이하게 하여 표적 게놈의 핵형을 특성화한다.
InfoGenomeR를 사용하면 재구성된 암 게놈 핵형에서 복잡한 재배열 토폴로지(HSR, DM, HSR/DM 및 CT)를 식별할 수 있다. 이전 연구에서 DM의 식별은 통합 SV와 CNA를 사용하여 수행되었지만 분석은 일배체형 핵형을 복구하지 않고 국부적으로 증폭된 영역으로 제한되었다. ShatterSeek는 SV와 CNA의 통합 접근 방식을 사용하여 CT를 식별했다. 그러나 CT로 인한 유도 염색체 및 DM과 같은 핵형 구조는 제공하지 않았다. 최근에는 일배체형 그래프를 기반으로 하는 DM 및/또는 선형 염색체의 분해 방법이 도입되었다. 그럼에도 불구하고 이 방법은 HSR, HSR/DM 또는 CT와 같은 다른 토폴로지에 대한 해석이 부족하다. JaBbA는 DM과 함께 복잡한 토폴로지를 도입하였지만, 재구성된 일배체형에서 유도될 수 있는 다른 핵형들을 배제하였다. InfoGenomeR를 사용하면 TCGA(도 4) 및 EGA 데이터(도 5) 분석에서 볼 수 있듯이 전체 게놈 수준에서 핵형 재구성을 통해 복잡한 토폴로지를 동시에 이해할 수 있다. InfoGenomeR는 BRCA의 HSR과 함께 11번 및 17번 염색체에서 생성된 재발성 유도체 염색체(recurrent derivative chromosome)를 식별하는데 도움이 될 수 있다. SV 클러스터에 대한 본 발명자의 분석은 CCND1ERBB2가 종종 이러한 유도 염색체에 밀접하게 클러스터되어 있음을 보여주었다. 게다가, 본 발명자는 GBM과 OV가 주로 HSR/DM 또는 DM 및 HSR에 의해 특징지어지며 다른 염색체에 대한 역위(fold-back inversion)에 의해 특징지어진다는 것을 발견했다.
CT는 최근 ShatterSeek에 의해 암의 절반 이상에서 발견된 것으로 보고되었으며, 다른 복잡한 이벤트이 있는 CT가 두 CN 상태 사이에 진동 패턴을 나타내는 표준 CT보다 더 널리 일반적이다(prevalent). 그러나 ShatterSeek의 목표는 CT의 SV 클러스터를 파악하는데 제한되어 있었고 재구성 전략이 없기 때문에 유도 염색체의 구조를 포괄적으로 조사하지 못했다. 본 발명자의 결과는 암 게놈 핵형을 재구성하여 염색체 구조에서 CT와 관련된 HSR, HSR/DM 또는 DM 토폴로지를 보여주었다. 본 발명자 17번 염색체가 주형 염색체이며, BRCA에서 CT가 있는 다른 염색체와 반복적으로 재배열되어 여러 염색체에서 CT가 있는 복잡한 사건이 유도 염색체를 생성했음을 보여준다. 유도 염색체 형성에서 CT와 관련된 복잡한 사건이 CCND1, CDK4, MDM2 ERBB2와 같은 암 관련 유전자의 증폭에 기여했다고 제안되었다. 본 발명의 결과는 유도 염색체의 형성에서 암 관련 유전자가 증폭되었음을 보여주었다. 전반적으로, 본 발명자는 CT와 관련된 복잡한 재배열의 핵형 관점에 대한 통찰력을 제공했다.
다중 샘플 분석을 통해, 본 발명자는 전이성 종양 진화(metastatic tumour evolution) 동안 CT를 동반한 HSR 및 DM 생성의 진화 과정을 식별할 수 있었다. 이전에는 SV가 전이에서 나타나는 것으로 조사되었다. 그러나 개별 SV와 공유 SV 간의 구별이 명확하지 않았으며 핵형 특성화(karyotypic characterisation)가 수행되지 않았다. 본 발명자는 SV가 원발성 및 전이성 종양에 존재하는 CNA 증거를 바탕으로 공유 SV로 식별될 수 있음에도 불구하고, 기존의 SV 호출 접근 방식으로는 개별 SV로 잘못 식별될 수 있음을 관찰했다. 본 발명자는 중단점 그래프 구성 중에 원발성 및 전이성 종양 모두에 존재할 수 있는 후보 공유 SV에 대한 전가(imputation)를 수행하여 진정한 개별 SV를 명확하게 구별했다. 이러한 개별 SV는 CT와 함께 HSR 및 DM 토폴로지에서 함께 표시되었다(도 5d, e). 본 발명자는 유도 염색체와 DM을 재구성하여 핵형을 특성화하여 종양 진화의 구조 기반 분석을 위한 기초를 제공했다. 그럼에도 불구하고 현재의 분석에는 한계가 있었다. 첫째, 반복 최적화 동안 중간 단계에서 중단점 그래프를 조정했지만 원발성 및 전이성 종양에 대한 우리의 적용은 서로 독립적이었다. 또한 하위 클론 SV 또는 CNA가 종양 진화 과정을 명확히 할 수 있지만 클론 특이적 해석을 수행하지 않았다. 향후 분석을 위해서는 다중 샘플에 걸친 서브클론에 대한 공동 접근 방식이 필요하다.
게놈 전체의 핵형 구성을 위한 InfoGenomeR의 성공적인 적용에도 불구하고 미래에 이 프레임워크를 개선하고 확장할 분명한 기회가 있다. 예를 들어, 최적화 절차의 각 반복에서 잠재적인 거짓 SV를 필터링했으며 중간 SV 추가 단계를 제외하고는 그래프에 추가하지 않았다(도 1b). 그러나 이것은 실제 SV의 리콜을 방지할 수 있다. 또한, 일부 전좌는 중심체 또는 매핑할 수 없는 반복 영역에서 발생할 수 있는 HeLa 세포주의 초기 SV 호출에서 호출되지 않았다. 짧은 판독 시퀀싱으로 식별할 수 없는 SV를 찾으려면 긴 판독 시퀀싱이 필요하다. 우리의 프레임워크는 짧은 판독 세트의 SV 호출에 긴 판독 SV 호출을 통합함으로써 긴 판독 시퀀싱 기술의 이점을 얻을 수 있다. 또한, 현재 프레임워크가 대량 WGS 데이터에서 우성 종양 세포에 대한 대표적인 그래프를 구성함에 따라 최적화 절차 동안 CN의 사소한 변경을 제거했다. 그러나 이 과정에서 소수의 하위 클론 집단이 제거되었을 수 있다. 더욱이, 이 제거는 하위 클론 집단이 상당한 집단을 형성하는 샘플에 대해 문제가 될 수 있다(여기서 본 발명자는 암 순도가 70% 이상인 비클론 샘플에 집중했다). CNA 및 SV에 대한 디콘볼루션 방법을 프레임워크에 통합하면 하위 클론 구조에 대한 조사가 추가로 허용되고 이에 대한 다중 중단점 그래프가 생성된다. 마지막으로 다중 샘플 게놈의 그래프 기반 재구성을 시작하여 구조 기반 분석의 기초를 제공했다. 본 발명자는 이제 핵형 진화(즉, 중단점 그래프에서 편집 거리 측정)를 조사하기 위한 계통 발생학적 방법이 필요하다고 제안한다. InfoGenomeR는 암에 국한되지 않고 다른 유전 질환에도 사용할 수 있다. 잠재적인 응용은 체세포 SNV와 같은 인간 뉴런의 유전적 다양성에 기여하는 신경 질환의 체세포 돌연변이 분석이다. 체세포 SV는 신경계 질환에서 포괄적으로 조사되지 않았지만 미세한 이상이 나타났다. InfoGenomeR의 적용은 SNV에서 발견되지 않은 유전적 변이를 발견할 수 있다.
요약하면, 본 발명자는 암 게놈 핵형을 재구성하는 방법을 개발하고 3가지 암 유형(BRCA, GBM 및 OV)에서 복잡한 SV의 핵형과 원발성 및 전이성 암세포를 사용한 다중 샘플 데이터를 탐색했다. 암 발생 및 진화 중에 발생하는 더 넓은 핵형 변화를 결정하기 위해 더 많은 암 유형을 탐색해야 한다. 본 발명자는 이러한 복잡한 SV의 암 유발 유전자가 임상 치료 후보를 식별하는 데 사용될 수 있을 것으로 기대한다.
본 명세서에서는 본 발명을 한정된 실시 예를 중심으로 설명하였으나, 본 발 명의 사상적 범위 내에서 다양한 실시 예가 가능하다. 또한 설명되지는 않았으나, 균등한 수단도 또한 본 발명에 그대로 결합되는 것이라 할 것이다. 따라서 본 발명의 진정한 보호범위는 하기 특허청구범위에 의하여 정해져야 할 것이다.

Claims (22)

1) 전장 유전체(Whole genome sequence) 게놈 세그먼트의 초기 구조 변이(Initial structural variation)를 검출하는 단계;
2) 상기 게놈 세그먼트 및 구조 변이로부터 중단점(Breakpoint) 그래프를 구성하는 단계;
3) 대립 유전자 특이적(Allele-specific) 중단점 그래프를 구성하는 단계;
4) 일배체형(Haplotype) 중단점 그래프를 구성하는 단계;
5) 상기 중단점 그래프 에지를 페어링(edge pairing)하여 오일러 경로를 열거하는 단계를 포함하는 전장 유전체 데이터를 이용한 유전체 복원 방법.
제1항에 있어서,
상기 단계 1)에서 상기 구조 변이는 중단점 인접성(breakpoint adjacencies)의 방향에 따라 헤드-투-헤드(HH), 헤드-투-테일(HT), 테일-투-헤드(TH) 또는 테일-투-테일(TT)로 표기되는 유전체 복원 방법.
제1항에 있어서,
상기 단계 2)에서, 그래프 노드는 헤드 노드(Sh) 및 테일 노드(St)를 포함하고, 그래프 에지는 세그먼트 에지(Es), 참조 에지(Er) 및 SV 에지(Ev)를 포함하는 유전체 복원 방법.
제2항에 있어서,
상기 세그먼트 에지(segment edge)는 n번 게놈 세그먼트의 헤드 노드 및 테일 노드를 연결하고, 상기 세그먼트 에지의 다중도는 게놈 세그먼트의 카피수(CN)을 나타내는 유전체 복원 방법.
제2항에 있어서,
상기 참조 에지(reference edge)는 n번 및 n+1번 게놈 세그먼트 사이에서 n번 테일 노드와 n+1번 헤드 노드를 연결하고, 상기 참조 게놈(reference genome)에 존재하는 인접한 게놈 세그먼트 사이의 인접성(adjacency)을 나타내는 유전체 복원 방법.
제2항에 있어서,
상기 SV 에지는 참조 게놈에 존재하지 않는 게놈 세그먼트 사이의 인접성을 나타내는 유전체 복원 방법.
제1항에 있어서,
상기 단계 2)는 하기의 반복적인 단계에 의하여 수행되는 유전체 복원 방법:
a) 로컬 카피수 분할을 수행하는 단계;
b) 정수 프로그래밍에 의하여 정수 카피수(integer CN)를 예측하는 단계;및
c) 정수 프로그래밍에 의하여 에지 다중도를 결정하는 단계.
제7항에 있어서,
상기 a) 로컬 카피수 분할을 수행하는 단계는 다음의 두 항(term)으로 구성된 중단점을 결정하는 단계를 포함하는 유전체 복원 방법:
- 중단점이 있는 모델이 리드-깊이 데이터에 얼마나 잘 맞는지 설명하는 우도 항(likelihood term);및
- 중단점 수를 조절하고 과도한 세분화를 방지하는 매개변수 혹은 페널티 항(penalty term).
제7항에 있어서,
상기 b) 정수 카피수를 예측하는 단계는 게놈 세그먼트의 리드-깊이로부터의 정수 측정 모델에서 높은 확률에 따라 순차적으로 정수 카피수를 대입하는 단계를 포함하는 유전체 복원 방법.
제7항에 있어서,
상기 에지 다중도는 세그먼트 에지, 구조 변이 에지 및 참조 에지의 다중도로 표시되는 유전체 복원 방법.
제7항에 있어서,
d) 에지 다중도가 0인 구조 변이를 제거하는 단계를 더 포함하는 유전체 복원 방법.
제11항에 있어서,
에지 다중도가 0인 구조 변이가 검출되지 않을 때까지 a) ~ d) 단계를 반복적으로 수행하는 단계를 더 포함하는 유전체 복원 방법.
제1항에 있어서,
상기 단계 3)는 정수 프로그래밍에 의하여 정수 카피수(integer CN)를 대립 유전자-특이적 카피수(ASCN)로 나누는 단계를 더 포함하는 유전체 복원 방법.
제13항에 있어서,
상기 정수 프로그래밍에 의하여 정수 카피수(integer CN)를 대립 유전자-특이적 카피수(ASCN)로 나누는 단계는 SNP의 다른 깊이(depth)에 대한 음의 이항 모델을 사용하여 수행되는 유전체 복원 방법.
제1항에 있어서,
상기 대립 유전자 특이적(Allele-specific) 중단점 그래프는 대립 유전자-특이적 카피수(ASCN)를 기반으로 구성되는 유전체 복원 방법.
제1항에 있어서,
상기 대립 유전자 특이적(Allele-specific) 중단점 그래프는 균형 노드 및 불균형 노드로 구성되는 유전체 복원 방법.
제1항에 있어서,
상기 4) 일배체형(Haplotype) 중단점 그래프를 구성하는 단계는
상기 단계 3)의 대립 유전자 특이적(Allele-specific) 중단점 그래프로부터 일배체형 세그먼트를 정의하는 단계;
균형 이형접합 SNP 및 불균형 이형접합 SNP를 위상화(phasing)하는 단계;
정수 프로그래밍에 의하여 일배체형(Haplotype) 중단점 그래프를 구성하는 단계를 포함하는 유전체 복원 방법.
제1항에 있어서,
상기 오일러 경로를 열거하는 단계는 다중경로 트리 구조(multiway tree structure)를 사용하여 중단점 그래프 에지를 페어링하는 유전체 복원 방법.
제18항에 있어서,
상기 오일러 경로의 열거는 최소 엔트로피를 가진 오일러 경로를 우선시하는 유전체 복원 방법.
제1항의 전장 유전체 데이터를 이용한 유전체 복원 방법을 수행하기 위해 컴퓨터로 실행시킬 수 있는 프로그램을 기록한 기록매체.
제20항에 있어서,
상기 기록매체는 CD-ROM, DVD-ROM, 이동식 저장장치, ROM, 또는 RAM인 것을 특징으로 하는 기록매체.
제20항에 있어서,
상기 기록매체에 기록된 정보는 컴파일된 바이너리 파일(binary file), 텍스트 파일, 또는 쉘 스크립트의 형태로 나타내는 것을 특징으로 하는, 기록매체.
KR1020220003453A 2022-01-10 2022-01-10 전장 유전체 데이터를 이용한 유전체 복원 방법 KR20230108089A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020220003453A KR20230108089A (ko) 2022-01-10 2022-01-10 전장 유전체 데이터를 이용한 유전체 복원 방법
US18/152,037 US20230223104A1 (en) 2022-01-10 2023-01-09 Genome reconstruction method using whole genome data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220003453A KR20230108089A (ko) 2022-01-10 2022-01-10 전장 유전체 데이터를 이용한 유전체 복원 방법

Publications (1)

Publication Number Publication Date
KR20230108089A true KR20230108089A (ko) 2023-07-18

Family

ID=87069959

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220003453A KR20230108089A (ko) 2022-01-10 2022-01-10 전장 유전체 데이터를 이용한 유전체 복원 방법

Country Status (2)

Country Link
US (1) US20230223104A1 (ko)
KR (1) KR20230108089A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102188376B1 (ko) 2017-04-25 2020-12-08 주식회사 싸이퍼롬 암 유전체 염기서열 변이, 전사체 발현 및 환자 생존 정보를 이용한 맞춤형 항암 치료 방법 및 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102188376B1 (ko) 2017-04-25 2020-12-08 주식회사 싸이퍼롬 암 유전체 염기서열 변이, 전사체 발현 및 환자 생존 정보를 이용한 맞춤형 항암 치료 방법 및 시스템

Also Published As

Publication number Publication date
US20230223104A1 (en) 2023-07-13

Similar Documents

Publication Publication Date Title
Frankell et al. The evolution of lung cancer and impact of subclonal selection in TRACERx
Brown et al. Finding driver mutations in cancer: Elucidating the role of background mutational processes
Fridlyand et al. Hidden Markov models approach to the analysis of array CGH data
KR102658592B1 (ko) 핵산의 염기 변형의 결정
Hardiman et al. Intra-tumor genetic heterogeneity in rectal cancer
US7937225B2 (en) Systems, methods and software arrangements for detection of genome copy number variation
Rajaram et al. Two distinct categories of focal deletions in cancer genomes
CN108475300B (zh) 利用癌症患者的基因组碱基序列突变信息和生存信息的定制型药物选择方法及系统
EP3452937A1 (en) Method of characterising a dna sample
Lee et al. Integrative reconstruction of cancer genome karyotypes using InfoGenomeR
KR20230108089A (ko) 전장 유전체 데이터를 이용한 유전체 복원 방법
Christensen et al. DREAMS: deep read-level error model for sequencing data applied to low-frequency variant calling and circulating tumor DNA detection
CN110462063B (zh) 一种基于测序数据的变异检测方法、装置和存储介质
Tellaetxe-Abete et al. Ideafix: a decision tree-based method for the refinement of variants in FFPE DNA sequencing data
Tai et al. Decomposing the subclonal structure of tumors with two-way mixture models on copy number aberrations
Zhang et al. nSEA: n-Node Subnetwork Enumeration Algorithm Identifies Lower Grade Glioma Subtypes with Altered Subnetworks and Distinct Prognostics
Li et al. Background mutability shapes observed mutational spectrum in cancer and improves driver mutation prediction
Xia et al. A novel HMM for analyzing chromosomal aberrations in heterogeneous tumor samples
Heinrich Aspects of Quality Control for Next Generation Sequencing Data in Medical Genetics
Van Dam et al. Molecular profiling in cancer research and personalized medicine
Maljanen Deep Mutation Modelling in Cancer Driver Mutation and Cancer Driver Gene Detection
Ha et al. TITAN: Inference of copy number architectures in clonal cell populations from tumour whole genome sequence data Supplementary Material
Averbuj Applying Machine Learning to Detect Somatic Structural Variation in Bulk Whole Genome Sequencing
Sveen et al. Evolutionary mode and timing of dissemination of high-grade serous carcinomas
Forcelloni et al. New perspectives into the evolutionary pressures acting on the Human intrinsically disordered proteins