KR20230023276A - 현미부수체 지역의 서열 길이의 변화율을 이용한 현미부수체 불안정성 진단방법 - Google Patents

현미부수체 지역의 서열 길이의 변화율을 이용한 현미부수체 불안정성 진단방법 Download PDF

Info

Publication number
KR20230023276A
KR20230023276A KR1020210105250A KR20210105250A KR20230023276A KR 20230023276 A KR20230023276 A KR 20230023276A KR 1020210105250 A KR1020210105250 A KR 1020210105250A KR 20210105250 A KR20210105250 A KR 20210105250A KR 20230023276 A KR20230023276 A KR 20230023276A
Authority
KR
South Korea
Prior art keywords
microsatellite
region
rate
change
length
Prior art date
Application number
KR1020210105250A
Other languages
English (en)
Inventor
박승구
김동하
서성현
Original Assignee
(주)디엑솜
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)디엑솜 filed Critical (주)디엑솜
Priority to KR1020210105250A priority Critical patent/KR20230023276A/ko
Priority to PCT/KR2022/010138 priority patent/WO2023018024A1/ko
Publication of KR20230023276A publication Critical patent/KR20230023276A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본원은, 현미부수체 지역의 서열 길이의 변화율을 이용한 현미부수체 불안정성 진단방법에 관한 것으로서, 현미부수체 지역을 탐색하는 단계; 타겟 현미부수체 지역을 선택하는 단계; 단일 샘플 현미부수체 지역에 정렬된 서열을 검출하는 단계; 각각의 지역에서 검출된 서열 중 현미부수체를 담고 있는 서열을 선택하는 단계; 선택된 서열들 속 현미부수체의 구성 및 길이를 계산하는 단계; 각각의 현미부수체 지역에서 검출된 현미부수체들의 길이에 대한 변화율을 계산하는 단계; 및 계산된 변화율을 이용하여 현미부수체 불안정성을 진단하는 단계를 포함하는, 현미부수체 불안정성 진단 방법을 제공한다.
본원은 계산이 단순한 변화율을 이용하기 때문에 기존의 NGS 기반 검사보다 현미부수체 불안정성 진단에 걸리는 시간을 줄일 수 있어 더욱 효과적인 환자 치료 전략 구축에 용이하다.

Description

현미부수체 지역의 서열 길이의 변화율을 이용한 현미부수체 불안정성 진단방법{METHOD OF DIAGNOSING MICROSATELLITE INSTABILITY USING RATE OF CHANGE IN SEQUENCE LENGTH AT MICROSATELLITE LOCUS}
본원은, 현미부수체 지역의 서열 길이의 변화율을 이용한 현미부수체 불안정성 진단방법에 관한 것이다.
현미부수체란 인체의 유전자 전체에 걸쳐 6개 이하의 짧은 DNA 염기서열이 순차적으로 반복하여 연속되어 있는 형태로 모든 염색체 위에서 서로 다른 반복 횟수, 반복형태를 가지고 산재되어 있는 것을 말하며 이들은 반복 단위의 수에 따라 길이가 서로 다른 다수의 대립유전자를 생산한다.
현미부수체 불안정성(Microsatellite Instability, MSI)은 현미부수체를 이루고 있는 단순 반복된 짧은 염기배열(short tandem repeat sequence)이 증가 혹은 감소하는 길이 다양성을 의미한다. 이는 hMSH2, hMLH1, hMSH6, hPMS1, hPMS2 등 부조화 복구 유전자(mismatch repair gene; MMR gene)에 의한 종자선 돌연변이(germline mutation)나 프로모터 메틸화에 의한 복제 이상(replication errors) 에 의해 길이가 변화한다.
이러한 변화들은 단순 반복 염기배열을 가진 TGFBII, IGFIIR, BAX, hMSH3, hMSH6 등의 유전자에 frameshift 돌연변이를 유발케 하여 특정한 종양 의 발생을 증가시킨다고 알려져 있다.
기존의 MSI 검출 방법으로는 정상조직과 종양조직에서 DNA를 추출한 후, 미국 국립암 연구소에서 권장하는 5개의 현미부수체 표지자를 이용한 형광표시 중합효소 연쇄반응을 통하여 DNA을 증폭한 다음, 모세관 전기영동법(capillary electrophoresis)을 이용하여 형광 표시된 DNA가 반대편에서 쏘는 레이저에 의해 빛을 내어 검출하면서 서열을 확인하여 MSI를 진단하는 "Multiplex fluorescence PCR amplification and capillary electrophoresis" 분석법과NGS를 기반으로 한 MSI 검출 방법이 알려져 있다.
현미부수체 불안정성 진단 방법에 대한 연구 결과로 양기능성 PNA 프로브를 이용한 융해곡선 분석방법, 및 이를 이용한 현미부수체 불안정성의 진단방법 및 현미부수체 불안정성 진단용 키트 (대한민국 공개특허 제 10-2018-0108137호) 등이 있으나, 신속하고 효과적인 현미부수체 불안정성 진단 방법에 대한 개발 및 연구가 여전히 필요한 실정이다.
이에, 본 발명자들은 현미부수체 불안정성을 신속하고 효과적으로 진단할 수 있는 방법을 개발하기 위해 예의 노력한 결과, NGS를 기반으로 하는 현미부수체 지역의 서열 길이의 변화율을 이용한 현미부수체 불안정성 진단방법을 개발하여, 본 발명을 완성하였다.
한국등록특허공보 10-1969971호
본원은, NGS를 기반으로 하는 현미부수체 지역의 서열 길이의 변화율을 이용한 현미부수체 불안정성 진단방법에 관한 것이다.
그러나, 본원이 해결하고자 하는 과제는 이상에서 언급한 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본원의 제1측면은, 현미부수체 지역의 서열 길이의 변화율을 이용한 단일 샘플의 현미부수체 불안정성 진단방법을 제공한다.
본원의 제2측면은, 현미부수체 지역의 서열 길이의 변화율을 이용한 샘플의 짝비교 현미부수체 불안정성 진단방법을 제공한다.
본원은 계산이 단순한 변화율을 이용하기 때문에 기존의 NGS 기반 검사보다 현미부수체 불안정성 진단에 걸리는 시간을 줄일 수 있어 더욱 효과적인 환자 치료 전략 구축에 용이하다.
도 1은, 현미부수체 지역의 서열 길이의 변화율을 이용한 단일샘플의 현미부수체 불안정성 진단방법을 나타낸 도면이다.
도 2는, 현미부수체 지역의 서열 길이의 변화율을 이용한 샘플의 짝비교 현미부수체 불안정성 진단방법을 나타낸 도면이다.
도 3은, 현미부수체 지역의 서열 길이의 변화율을 이용한 현미부수체 불안정성 진단방법의 기본 원리를 나타낸 도면이다.
도 4는, 현미부수체 지역의 서열 길이의 변화율을 이용한 현미부수체 불안정성 진단방법과 기존 진단방법의 현미부수체 불안정성 결과수치를 비교한 결과를 나타낸 도면이다.
도 5는, 현미부수체 지역의 서열 길이의 변화율을 이용한 현미부수체 불안정성 진단방법과 기존 진단방법의 현미부수체 불안정성 계산 속도를 비교한 결과를 나타낸 도면이다.
아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본원 명세서 전체에서, 어떤 부재가 다른 부재 “상에” 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부분이 어떤 구성 요소를 “포함” 한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다. 본원 명세서 전체에서 사용되는 정도의 용어 “약”, “실질적으로” 등은 언급된 의미에 고유한 제조 및 물질 허용오차가 제시될 때 그 수치에서 또는 그 수치에 근접한 의미로 사용되고, 본원의 이해를 돕기 위해 정확하거나 절대적인 수치가 언급된 개시 내용을 비양심적인 침해자가 부당하게 이용하는 것을 방지하기 위해 사용된다. 본원 명세서 전체에서 사용되는 정도의 용어 “~(하는) 단계” 또는 “~의 단계”는 “~ 를 위한 단계”를 의미하지 않는다.
본원 명세서 전체에서, 마쿠시 형식의 표현에 포함된 “이들의 조합(들)”의 용어는 마쿠시 형식의 표현에 기재된 구성 요소들로 이루어진 군에서 선택되는 하나 이상의 혼합 또는 조합을 의미하는 것으로서, 상기 구성 요소들로 이루어진 군에서 선택되는 하나 이상을 포함하는 것을 의미한다.
본원 명세서 전체에서, “A 및/또는 B”의 기재는 “A 또는 B, 또는 A 및 B”를 의미한다.
이하, 첨부된 도면을 참조하여 본원의 구현예 및 실시예를 상세히 설명한다. 그러나, 본원이 이러한 구현예 및 실시예와 도면에 제한되지 않을 수 있다.
본원의 제 1 측면은, 현미부수체 지역의 서열 길이의 변화율을 이용한 단일 샘플의 현미부수체 불안정성 진단방법을 제공한다.
본원의 일 구현예에 따르면, 본원은 현미부수체 지역을 탐색하는 단계; 타겟 현미부수체 지역을 선택하는 단계; 단일 샘플 현미부수체 지역에 정렬된 서열을 검출하는 단계; 각각의 지역에서 검출된 서열 중 현미부수체를 담고 있는 서열을 선택하는 단계; 선택된 서열들 속 현미부수체의 구성 및 길이를 계산하는 단계; 각각의 현미부수체 지역에서 검출된 현미부수체들의 길이에 대한 변화율을 계산하는 단계; 및 계산된 변화율을 이용하여 현미부수체 불안정성을 진단하는 단계를 포함하는, 현미부수체 불안정성 진단 방법을 제공한다(도 1 참조).
본원 명세서 전체에서 사용되는 용어 "현미부수체(microsatellite, MS)"는 DNA 염기 서열 중에서 반복되는 부분을 의미하며, 보통 1~6개의 염기쌍이 5~50번 정도 반복된다. 전체 사람의 DNA 중 5% 가량을 차지하며, 다른 DNA 부분보다 돌연변이 확률이 높다.
본원 명세서 전체에서 사용되는 용어 "현미부수체 불안정성(microsatellite instability, MSI)"은 현미부수체를 이루고 있는 단순 반복된 짧은 염기 배열(short tandem repeat sequence)이 증가하거나 감소하면서 나타나는 길이의 다양성으로, 이는 DNA 불일치복구유전자 (mismatch repair gene; MMR gene)의 복구 과정을 통하여 회복되는 과정을 거치게 된다. 그러나 DNA 불일치복구유전자의 종자선돌연변이 (germline mutation)나 프로모터 (promotor) 메틸화 등의 원인으로 복구에 기능이상이 발생하면 현미부수체의 길이에 변화가 일어나게 되며, 이러한 현미부수체의 불안정성을 검사하면 유전자 복구 이상의 발생을 진단할 수 있게 된다.
MSI는 국제적 표준에 따르면 일반적으로 두 가지 유형으로 구분되는데 미국 국립 암연구소 (National Cancer Institute, NCI)에서는 1997년에 두 개의 모노뉴클레오티드 (mononucleotide)와 세 개의 다이뉴클레오티드 (dinucleotide)로 이루어진 다섯 개의 현미부수체 표지자 (BAT-25, BAT-26, D2S123, D17S250, D5S346)를 제시하였으며, 두 개 이상의 표지자에서 불안정성을 보이면 고도 현미부수체 불안정성 (high-level MSI, MSI-H)으로 측정한 현미부수체 표지자의 40% 이상에서 현미부수체 불안정성이 있는 경우로 복제오류양성 (replication error positive, RER+)이라고도 하며, 한 개의 표지자에서만 불안정성을 보이면 저도현미부수체 불안정성 (low-level MSI, MSI-L)으로 측정한 현미부수체 표지자의 40% 이하에서 현미부수체 불안정성이 있는 경우를 말하며, 현미부수체 불안정성이 전혀 없는 경우는 현미부수체 안정성 (microsatellite stable, MSS)이라고 정의하였다 (Boland et al., Cancer Res., 58:5248-57, 1998; 김덕우, Journal of Genetic Medicine 7:24-36, 2010).
본원 명세서 전체에서 사용되는 용어 “변화율(rate of change)”은 현미부수체 지역에서 발견되는 현미부수체(반복서열 유닛) 길이들 중 시퀀싱 에러가 아닌 참서열로 판단된 현미부수체 길이들의 최대값을 최소값으로 나눈 값을 말한다.
본원 명세서 전체에서 사용되는 용어 "FASTQ"는 염기서열이나 단백질 아미노산 서열의 시퀀스와 품질 점수 데이터를 아스키코드(ASCII)로 이루어진 텍스트 형식으로 저장한 것을 의미한다. 즉, 해당 시퀀스가 얼마나 믿을만한 정보인지, 얼마나 정확한 정보인지까지 서열 하나 하나에 대해 표시해준다.
본원 명세서 전체에서 사용되는 용어 "유전체(Genome)"는 한 생물이 가지는 모든 유전 정보를 의미하며, 일부 바이러스의 RNA를 제외하고 모든 생물은 DNA로 유전 정보를 구성하고 있기 때문에 일반적으로 DNA로 구성된 유전 정보를 지칭한다.
본원의 일 구현예에 따르면, 본원은 타겟 현미부수체 지역에서 각각의 현미부수체 길이들 간 길이가 유사한 경우인 MSS 일 경우 변화율은 1에 근접 하게 되고 각각의 현미부수체 길이 변화가 큰 경우인 MSI-H 일 경우 변화율은 1보다 커지게 되어 현미부수체 불안정성을 변화율 1 내지 그이상의 범위에서 점수화 할 수 있다. 현미부수체 서열 변화의 특성상 무한의 값까지는 나타나지 않는다.
본원의 일 구현예에 따르면, 본원은 계산이 단순한 변화율을 이용하기 때문에 현미부수체 불안정성 진단에 걸리는 시간을 줄일 수 있다.
본원의 제 2 측면은, 현미부수체 지역의 서열 길이의 변화율을 이용한 샘플의 짝비교 현미부수체 불안정성 진단방법을 제공한다. 본원의 제1측면과 중복되는 내용은 본원의 제2측면의 방법에도 공히 적용된다.
본원의 일 구현예에 따르면, 본원은 현미부수체 지역을 탐색하는 단계; 타겟 현미부수체 지역을 선택하는 단계; 정상샘플과 암 샘플에서 동일한 현미부수체 지역에 정렬된 서열을 검출하는 단계; 짝 샘플의 동일한 현미부수체 지역에서 검출된 서열을 병합하는 단계; 각각의 지역에서 검출된 서열 중 현미부수체를 담고 있는 서열을 선택하는 단계; 선택된 서열들 속 현미부수체의 구성 및 길이를 계산하는 단계; 각각의 현미부수체 지역에서 검출된 현미부수체들의 길이에 대한 변화율을 계산하는 단계; 및 계산된 변화율을 이용하여 현미부수체 불안정성을 진단하는 단계를 포함하는, 현미부수체 불안정성 진단 방법을 제공한다(도 2 참조).
본원의 일 구현예에 따르면, 본원은 정상 샘플과 암 샘플의 동일한 현미부수체 지역에서 검출된 서열을 병합하여 한번에 계산하기 때문에 현미부수체 불안정성 진단에 걸리는 시간을 줄일 수 있다.
이하, 본원의 실시예를 통하여 본 발명을 더욱 상세하게 설명하고자 하나, 하기의 실시예는 본원의 이해를 돕기 위하여 예시하는 것 일뿐, 본원의 내용이 하기 실시예에 한정되는 것은 아니다.
[실시예]
단일 샘플을 이용한 현미부수체 불안정성 검사
단일 샘플을 이용한 현미부수체 불안정성(MSI) 검사는 하기와 같은 단계들을 거쳐 이루어졌다.
(1) 현미부수체 지역을 탐색하는 단계
유전체(Genome)에서 MSI부위로 예상되는 부위를 탐색하였다. 대부분의 MSI 부위는 단순 반복 서열이 있는 부위로 염색체 별로 시작부터 끝까지 모든 부위를 탐색하였다. 이때 가능한 반복서열 모두를 예상하여 패턴화하고 모든 패턴을 염색체에서 검색하는 방법으로 수행하였다.
(2) 타겟 현미부수체 지역을 선택하는 단계
전장 Genome 분석의 경우 상기에서 예측된 모든 부위를 다 사용하면 되며, 타겟 시퀀싱 분석의 경우 타겟 부위에 있는 MSI 예측 부위를 선택하여 사용하였다. 타겟 부위와 MSI 예측 부위의 염색체 상 좌표를 이용하여 서로 겹침이 있는 것들을 사용하였다.
(3) 단일 샘플 현미부수체 지역에 정렬된 서열을 검출하는 단계
선택된 MSI 예측 부위에 서열정렬된 FASTQ sequence read 들을 선택하였다.
(4) 각각의 지역에서 검출된 서열 중 현미부수체를 담고 있는 서열을 선택하는 단계
선택된 FASTQ sequence read 들은 서열 정렬되지 않은 상태 (원천 FASTQ sequence read)로 사용하였다. 선택된 원천 FASTQ sequence read 에 MSI 예측 부위가 양 끝에 위치 하는 것들은 MSI 예측 부위의 시작과 끝을 명확하게 하기 위하여 제거하였다.
(5) 선택된 서열들 속 현미부수체(MS)의 구성 및 길이를 계산하는 단계
원천 FASTQ sequence read 속 MSI 예측 부위의 MS repeat의 종류를 검사하고 해당 repeat 의 길이를 계산하였다.
(6) 각각의 현미부수체 지역에서 검출된 현미부수체들(MS)의 길이에 대한 변화율을 계산하는 단계
상기에서 계산된 MS repeat 길이들을 가지고 기초 통계(변화율) 계산을 하였으며, 변화율은 하기와 같이 계산하였다.
변화율 = 시퀀싱 에러에 의한 반복서열을 제외한 현미부수체 지역 현미부수체(반복서열유닛) 길이의 최대값 / 시퀀싱 에러에 의한 반복서열을 제외한 현미부수체 지역 현미부수체(반복서열유닛) 길이의 최소값
따라서 Genome 상 같은 위치에 존재하는 현미부수체들 간 길이 변화가 없거나 길이가 유사할수록 변화율이 1이거나 1보다 커지게 되고, 현미부수체들의 길이가 크게 변할수록 변화율은 1이상의 값을 가지게 된다. 현미부수체 길이 변화의 특성상 1이상의 값은 무한의 범위까지 가지 않는다.
(7) 계산된 변화율을 이용하여 현미부수체 불안정성을 진단하는 단계
계산된 통계량(변화율) 이 다른 MSI 예측 부위와 유의하게 다른 MSI 예측 부위가 전체 MSI 예측 부위의 몇 % 인지 계산하였다.
샘플 짝비교를 이용한 현미부수체 불안정성 검사
(1) 현미부수체 지역을 탐색하는 단계
Genome에서 MSI부위로 예상되는 부위를 탐색하였다. 대부분의 MSI 부위는 단순 반복 서열이 있는 부위로 염색체 별로 시작부터 끝까지 모든 부위를 탐색하였다. 이때 가능한 반복서열 모두를 예상하여 패턴화하고 모든 패턴을 염색체에서 검색하는 방법으로 수행하였다.
(2) 타겟 현미부수체 지역을 선택하는 단계
전장 Genome 분석의 경우 상기에서 예측된 모든 부위를 다 사용하면 되며, 타겟 시퀀싱 분석의 경우 타겟 부위에 있는 MSI 예측 부위를 선택하여 사용하였다. 타겟 부위와 MSI 예측 부위의 염색체 상 좌표를 이용하여 서로 겹침이 있는 것들을 사용하였다.
(3) 정상샘플과 암 샘플에서 동일한 현미부수체 지역에 정렬된 서열을 검출하는 단계
(4) 짝 샘플의 동일한 현미부수체 지역에서 검출된 서열을 병합하는 단계
병합 후에는 상기에 기재한 단일 샘플을 이용한 현미부수체 불안정성 검사 방법과 동일한 과정을 수행하였다.
(5) 각각의 지역에서 검출된 서열 중 현미부수체를 담고 있는 서열을 선택하는 단계
선택된 FASTQ sequence read 들은 서열 정렬되지 않은 상태 (원천 FASTQ sequence read)로 사용하였다. 선택된 원천 FASTQ sequence read 에 MSI 예측 부위가 양 끝에 위치 하는 것들은 MSI 예측 부위의 시작과 끝을 명확하게 하기 위하여 제거하였다.
(6) 선택된 서열들 속 현미부수체의 구성 및 길이를 계산하는 단계
원천 FASTQ sequence read 속 MSI 예측 부위의 MS repeat의 종류를 검사하고 해당 repeat 의 길이를 계산하였다.
(7) 각각의 현미부수체 지역에서 검출된 현미부수체들의 길이에 대한 변화율을 계산하는 단계
상기에서 계산된 MS repeat 길이들을 가지고 기초 통계(변화율) 계산을 하였으며, 변화율은 하기와 같이 계산하였다.
변화율 = 시퀀싱 에러에 의한 반복서열을 제외한 현미부수체 지역 현미부수체(반복서열유닛) 길이의 최대값 / 시퀀싱 에러에 의한 반복서열을 제외한 현미부수체 지역 현미부수체(반복서열유닛) 길이의 최소값
따라서 Genome 상 같은 위치에 존재하는 현미부수체들 간 길이 변화가 없거나 길이가 유사 할수록 변화율이 1이거나 1보다 커지게 되고, 현미부수체들의 길이가 크게 변할수록 변화율은 1이상의 값을 가지게 된다. 현미부수체 길이 변화의 특성상 1이상의 값은 무한의 범위까지 가지 않는다.
(8) 계산된 변화율을 이용하여 현미부수체 불안정성을 진단하는 단계
계산된 통계량(변화율) 이 다른 MSI 예측 부위와 유의하게 다른 MSI 예측 부위가 전체 MSI 예측 부위의 몇 % 인지 계산하였다.
기존의 NGS 기반 계산방법과 계산 속도 비교 실험
동일한 서버에서 현미부수체 검사를 수행한 현미부수체 지역의 총 개수를 각 계산방법에 따른 프로그램의 연산시간으로 나누어 단일 현미부수체 지역을 계산하는데 필요한 시간을 비교하였다.
단일 현미부수체 지역 계산 시간 = 분석한 총 현미부수체 지역 / (각 계산방법에 따른) 프로그램 연산시간
기존의 NGS 기반 계산 방법과 결과수치를 비교한 결과, 결과 값이 유사하게 나와 본원 발명을 이용한 경우에도 기존 NGS 기반의 계산 방법을 이용한 것과 같은 결과를 도출해 낼 수 있음을 확인할 수 있었다(도 4 참조).
또한, 도 5에서 보듯이 본원의 현미부수체 불안정성 계산방법을 이용한 경우 기존의 NGS 기반 계산 방법에 비해 계산시간이 훨씬 빠르다는 것을 확인할 수 있었다.
전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

Claims (4)

  1. (a) 현미부수체 지역을 탐색하는 단계;
    (b) 타겟 현미부수체 지역을 선택하는 단계;
    (c) 단일 샘플 현미부수체 지역에 정렬된 서열을 검출하는 단계;
    (d) 각각의 지역에서 검출된 서열 중 현미부수체를 담고 있는 서열을 선택하는 단계;
    (e) 선택된 서열들 속 현미부수체의 구성 및 길이를 계산하는 단계;
    (f) 각각의 현미부수체 지역에서 검출된 현미부수체들의 길이에 대한 변화율을 계산하는 단계; 및
    (g) 계산된 변화율을 이용하여 현미부수체 불안정성을 진단하는 단계를 포함하는, 현미부수체 불안정성 진단 방법.
  2. 제 1항에 있어서,
    상기 변화율은 시퀀싱 에러에 의한 반복서열을 제외한 현미부수체 지역 현미부수체 길이의 최대값을 시퀀싱 에러에 의한 반복서열을 제외한 현미부수체 지역 현미부수체 길이의 최소값으로 나눈 값을 의미하는 것인, 현미부수체 불안정성 진단 방법.
  3. (a) 현미부수체 지역을 탐색하는 단계;
    (b) 타겟 현미부수체 지역을 선택하는 단계;
    (c) 정상샘플과 암 샘플에서 동일한 현미부수체 지역에 정렬된 서열을 검출하는 단계;
    (d) 짝 샘플의 동일한 현미부수체 지역에서 검출된 서열을 병합하는 단계;
    (e) 각각의 지역에서 검출된 서열 중 현미부수체를 담고 있는 서열을 선택하는 단계;
    (f) 선택된 서열들 속 현미부수체의 구성 및 길이를 계산하는 단계;
    (g) 각각의 현미부수체 지역에서 검출된 현미부수체들의 길이에 대한 변화율을 계산하는 단계; 및
    (h) 계산된 변화율을 이용하여 현미부수체 불안정성을 진단하는 단계를 포함하는, 현미부수체 불안정성 진단 방법.
  4. 제 3항에 있어서,
    상기 변화율은 시퀀싱 에러에 의한 반복서열을 제외한 현미부수체 지역 현미부수체 길이의 최대값을 시퀀싱 에러에 의한 반복서열을 제외한 현미부수체 지역 현미부수체 길이의 최소값으로 나눈 값을 의미하는 것인, 현미부수체 불안정성 진단 방법.
KR1020210105250A 2021-08-10 2021-08-10 현미부수체 지역의 서열 길이의 변화율을 이용한 현미부수체 불안정성 진단방법 KR20230023276A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210105250A KR20230023276A (ko) 2021-08-10 2021-08-10 현미부수체 지역의 서열 길이의 변화율을 이용한 현미부수체 불안정성 진단방법
PCT/KR2022/010138 WO2023018024A1 (ko) 2021-08-10 2022-07-13 현미부수체 지역의 서열 길이의 변화율을 이용한 현미부수체 불안정성 진단방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210105250A KR20230023276A (ko) 2021-08-10 2021-08-10 현미부수체 지역의 서열 길이의 변화율을 이용한 현미부수체 불안정성 진단방법

Publications (1)

Publication Number Publication Date
KR20230023276A true KR20230023276A (ko) 2023-02-17

Family

ID=85200027

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210105250A KR20230023276A (ko) 2021-08-10 2021-08-10 현미부수체 지역의 서열 길이의 변화율을 이용한 현미부수체 불안정성 진단방법

Country Status (2)

Country Link
KR (1) KR20230023276A (ko)
WO (1) WO2023018024A1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101969971B1 (ko) 2017-03-24 2019-04-18 주식회사 시선바이오머티리얼스 양기능성 pna 프로브를 이용한 융해곡선 분석방법, 및 이를 이용한 현미부수체 불안정성의 진단방법 및 현미부수체 불안정성 진단용 키트

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3601615A4 (en) * 2017-03-20 2020-12-09 Caris MPI, Inc. GENOMIC STABILITY PROFILING
WO2019108807A1 (en) * 2017-12-01 2019-06-06 Personal Genome Diagnositics Inc. Process for microsatellite instability detection
US20190206513A1 (en) * 2017-12-29 2019-07-04 Grail, Inc. Microsatellite instability detection
JP2021535489A (ja) * 2018-08-31 2021-12-16 ガーダント ヘルス, インコーポレイテッド 無細胞dnaにおけるマイクロサテライト不安定性の検出
CN112955570A (zh) * 2018-09-14 2021-06-11 莱森特生物公司 评估微卫星不稳定性的方法和系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101969971B1 (ko) 2017-03-24 2019-04-18 주식회사 시선바이오머티리얼스 양기능성 pna 프로브를 이용한 융해곡선 분석방법, 및 이를 이용한 현미부수체 불안정성의 진단방법 및 현미부수체 불안정성 진단용 키트

Also Published As

Publication number Publication date
WO2023018024A1 (ko) 2023-02-16

Similar Documents

Publication Publication Date Title
Salk et al. Enhancing the accuracy of next-generation sequencing for detecting rare and subclonal mutations
US20230416729A1 (en) Nucleic acid sequencing adapters and uses thereof
KR101858344B1 (ko) 바코드 서열을 포함하는 어댑터를 이용한 차세대 염기서열 분석 방법
KR102393608B1 (ko) 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법
CN110520542A (zh) 用于靶向核酸序列富集的方法及在错误纠正的核酸测序中的应用
CN110392739B (zh) 检测dna突变的测序方法
US20220290215A1 (en) Methods for analyzing nucleic acids
CN113373524B (zh) 一种ctDNA测序标签接头、文库、检测方法和试剂盒
WO2018144159A1 (en) Capture probes using positive and negative strands for duplex sequencing
EP3870718B1 (en) Methods and uses of introducing mutations into genetic material for genome assembly
CN108728515A (zh) 一种使用duplex方法检测ctDNA低频突变的文库构建和测序数据的分析方法
KR20220080682A (ko) 현미부수체 지역의 서열 길이의 변동계수를 이용한 현미부수체 불안정성 진단방법
KR20230023276A (ko) 현미부수체 지역의 서열 길이의 변화율을 이용한 현미부수체 불안정성 진단방법
WO2022124575A1 (ko) 현미부수체 지역의 서열 길이의 변동계수를 이용한 현미부수체 불안정성 진단방법
CN104769133A (zh) 通过链排除改进微阵列表现的方法
US11959131B2 (en) Method for measuring mutation rate
KR20230023278A (ko) 현미부수체 지역의 서열 길이의 최대값과 최소값의 차이를 이용한 현미부수체 불안정성 진단방법
CN106233291A (zh) 高通量测序应用中的变体分析
KR102342490B1 (ko) 분자 인덱스된 바이설파이트 시퀀싱
WO2023058100A1 (ja) 構造多型の検出方法、プライマーセット及びプライマーセットの設計方法
JP7362901B2 (ja) 塩基のメチル化度の算出方法及びプログラム
CN109790587B (zh) 从100pg以下的人类基因组DNA判别其来源的方法、识别个人的方法及分析造血干细胞的植活程度的方法
WO2022131285A1 (ja) Dnaサンプルのシーケンスにおけるアダプター結合効率を評価する方法
염희란 Next-generation sequencing error validation method for rare variant detection
CN114807302A (zh) 扩增子文库构建方法及用于地中海贫血突变型与缺失型基因检测的试剂盒

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right