KR20220080682A - Method of diagnosing microsatellite instability using coefficient of variation of sequence length at microsatellite locus - Google Patents

Method of diagnosing microsatellite instability using coefficient of variation of sequence length at microsatellite locus Download PDF

Info

Publication number
KR20220080682A
KR20220080682A KR1020210105254A KR20210105254A KR20220080682A KR 20220080682 A KR20220080682 A KR 20220080682A KR 1020210105254 A KR1020210105254 A KR 1020210105254A KR 20210105254 A KR20210105254 A KR 20210105254A KR 20220080682 A KR20220080682 A KR 20220080682A
Authority
KR
South Korea
Prior art keywords
microsatellite
region
variation
coefficient
instability
Prior art date
Application number
KR1020210105254A
Other languages
Korean (ko)
Inventor
박승구
김동하
서성현
Original Assignee
(주)디엑솜
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)디엑솜 filed Critical (주)디엑솜
Priority to PCT/KR2021/015670 priority Critical patent/WO2022124575A1/en
Publication of KR20220080682A publication Critical patent/KR20220080682A/en

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism

Landscapes

  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본원은, 현미부수체 지역의 서열 길이의 변동계수를 이용한 현미부수체 불안정성 진단방법에 관한 것으로서, 현미부수체 지역을 탐색하는 단계; 타겟 현미부수체 지역을 선택하는 단계; 단일 샘플 현미부수체 지역에 정렬된 서열을 검출하는 단계; 각각의 지역에서 검출된 서열 중 현미부수체를 담고 있는 서열을 선택하는 단계; 선택된 서열들 속 현미부수체의 구성 및 길이를 계산하는 단계; 각각의 현미부수체 지역에서 검출된 현미부수체들의 길이에 대한 변동계수(CV)를 계산하는 단계; 및 계산된 변동계수를 이용하여 현미부수체 불안정성을 진단하는 단계를 포함하는, 현미부수체 불안정성 진단 방법을 제공한다.
본원은 계산이 단순한 변동계수(CV)를 이용하기 때문에 기존의 NGS 기반 검사보다 현미부수체 불안정성 진단에 걸리는 시간을 줄일 수 있어 더욱 효과적인 환자 치료 전략 구축에 용이하다.
The present application relates to a method for diagnosing microsatellite instability using a coefficient of variation of the sequence length of the microsatellite region, the method comprising: searching for a microsatellite region; selecting a target microsatellite region; detecting sequences aligned to the single sample microsatellite region; selecting a sequence containing a microsatellite from among the sequences detected in each region; calculating the composition and length of microsatellites in the selected sequences; calculating a coefficient of variation (CV) for the lengths of microsatellites detected in each microsatellite region; and diagnosing microsatellite instability using the calculated coefficient of variation.
Since the calculation uses a simple coefficient of variation (CV), the time taken for microsatellite instability diagnosis can be reduced compared to the existing NGS-based test, making it easy to establish a more effective patient treatment strategy.

Description

현미부수체 지역의 서열 길이의 변동계수를 이용한 현미부수체 불안정성 진단방법{METHOD OF DIAGNOSING MICROSATELLITE INSTABILITY USING COEFFICIENT OF VARIATION OF SEQUENCE LENGTH AT MICROSATELLITE LOCUS}Microsatellite instability diagnosis method using coefficient of variation of sequence length in microsatellite region

본원은, 현미부수체 지역의 서열 길이의 변동계수를 이용한 현미부수체 불안정성 진단방법에 관한 것이다. The present application relates to a method for diagnosing microsatellite instability using a coefficient of variation of the sequence length of the microsatellite region.

현미부수체란 인체의 유전자 전체에 걸쳐 6개 이하의 짧은 DNA 염기서열이 순차적으로 반복하여 연속되어 있는 형태로 모든 염색체 위에서 서로 다른 반복 횟수, 반복형태를 가지고 산재되어 있는 것을 말하며 이들은 반복 단위의 수에 따라 길이가 서로 다른 다수의 대립유전자를 생산한다.Microsatellite refers to a form in which six or less short DNA nucleotide sequences are sequentially and continuously repeated throughout the entire gene of the human body and are scattered with different repeat counts and repeat forms on all chromosomes. These are the number of repeat units produces multiple alleles of different lengths.

현미부수체 불안정성(Microsatellite Instability, MSI)은 현미부수체를 이루고 있는 단순 반복된 짧은 염기배열(short tandem repeat sequence)이 증가 혹은 감소하는 길이 다양성을 의미한다. 이는 hMSH2, hMLH1, hMSH6, hPMS1, hPMS2 등 부조화 복구 유전자(mismatch repair gene; MMR gene)에 의한 종자선 돌연변이(germline mutation)나 프로모터 메틸화에 의한 복제 이상(replication errors) 에 의해 길이가 변화한다. Microsatellite instability (MSI) refers to the length diversity in which the short tandem repeat sequence constituting the microsatellite increases or decreases. The length is changed due to germline mutations caused by mismatch repair genes (MMR genes) such as hMSH2, hMLH1, hMSH6, hPMS1, and hPMS2 or replication errors caused by promoter methylation.

이러한 변화들은 단순 반복 염기배열을 가진 TGFBII, IGFIIR, BAX, hMSH3, hMSH6 등의 유전자에 frameshift 돌연변이를 유발케 하여 특정한 종양 의 발생을 증가시킨다고 알려져 있다.These changes are known to increase the occurrence of specific tumors by inducing frameshift mutations in genes such as TGFBII, IGFIIR, BAX, hMSH3, and hMSH6 with simple repetitive nucleotide sequences.

기존의 MSI 검출 방법으로는 정상조직과 종양조직에서 DNA를 추출한 후, 미국 국립암 연구소에서 권장하는 5개의 현미부수체 표지자를 이용한 형광표시 중합효소 연쇄반응을 통하여 DNA을 증폭한 다음, 모세관 전기영동법(capillary electrophoresis)을 이용하여 형광 표시된 DNA가 반대편에서 쏘는 레이저에 의해 빛을 내어 검출하면서 서열을 확인하여 MSI를 진단하는 "Multiplex fluorescence PCR amplification and capillary electrophoresis" 분석법과NGS를 기반으로 한 MSI 검출 방법이 알려져 있다.In the existing MSI detection method, after DNA is extracted from normal and tumor tissues, the DNA is amplified through a fluorescence-labeled polymerase chain reaction using five microsatellite markers recommended by the US National Cancer Institute, and then capillary electrophoresis is used. The "Multiplex fluorescence PCR amplification and capillary electrophoresis" analysis method that diagnoses MSI by checking the sequence while detecting the fluorescence-labeled DNA using a laser beam from the opposite side, and the MSI detection method based on NGS. is known

현미부수체 불안정성 진단 방법에 대한 연구 결과로 양기능성 PNA 프로브를 이용한 융해곡선 분석방법, 및 이를 이용한 현미부수체 불안정성의 진단방법 및 현미부수체 불안정성 진단용 키트 (대한민국 공개특허 제 10-2018-0108137호) 등이 있으나, 신속하고 효과적인 현미부수체 불안정성 진단 방법에 대한 개발 및 연구가 여전히 필요한 실정이다.As a result of a study on the microsatellite instability diagnosis method, a melting curve analysis method using a bifunctional PNA probe, a diagnostic method for microsatellite instability using the same, and a kit for diagnosing microsatellite instability (Korea Patent Publication No. 10-2018-0108137 ), but there is still a need for development and research on a rapid and effective method for diagnosing microsatellite instability.

이에, 본 발명자들은 현미부수체 불안정성을 신속하고 효과적으로 진단할 수 있는 방법을 개발하기 위해 예의 노력한 결과, NGS를 기반으로 하는 현미부수체 지역의 서열 길이의 변동계수를 이용한 현미부수체 불안정성 진단방법을 개발하여, 본 발명을 완성하였다.Accordingly, the present inventors made diligent efforts to develop a method for rapidly and effectively diagnosing microsatellite instability. As a result, the microsatellite instability diagnosis method using the coefficient of variation of the sequence length of the microsatellite region based on NGS was developed. developed and completed the present invention.

한국등록특허공보 10-1969971호Korean Patent Publication No. 10-1969971

본원은, NGS를 기반으로 하는 현미부수체 지역의 서열 길이의 변동계수를 이용한 현미부수체 불안정성 진단방법에 관한 것이다.The present application relates to a method for diagnosing microsatellite instability using the coefficient of variation of the sequence length of the microsatellite region based on NGS.

그러나, 본원이 해결하고자 하는 과제는 이상에서 언급한 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.However, the problems to be solved by the present application are not limited to the problems mentioned above, and other problems not mentioned will be clearly understood by those skilled in the art from the following description.

본원의 제1측면은, 현미부수체 지역의 서열 길이의 변동계수를 이용한 단일 샘플의 현미부수체 불안정성 진단방법을 제공한다.A first aspect of the present application provides a method for diagnosing microsatellite instability using a single sample microsatellite instability using the coefficient of variation of the sequence length of the microsatellite region.

본원의 제2측면은, 현미부수체 지역의 서열 길이의 변동계수를 이용한 샘플의 짝비교 현미부수체 불안정성 진단방법을 제공한다.A second aspect of the present application provides a method for diagnosing pairwise comparison microsatellite instability of a sample using the coefficient of variation of the sequence length of the microsatellite region.

본원은 계산이 단순한 변동계수(CV)를 이용하기 때문에 기존의 NGS 기반 검사보다 현미부수체 불안정성 진단에 걸리는 시간을 줄일 수 있어 더욱 효과적인 환자 치료 전략 구축에 용이하다.Because the calculation uses a simple coefficient of variation (CV), the time taken for microsatellite instability diagnosis can be reduced compared to the existing NGS-based test, making it easy to establish a more effective patient treatment strategy.

도 1은, 현미부수체 지역의 서열 길이의 변동계수를 이용한 단일샘플의 현미부수체 불안정성 진단방법을 나타낸 도면이다.
도 2는, 현미부수체 지역의 서열 길이의 변동계수를 이용한 샘플의 짝비교 현미부수체 불안정성 진단방법을 나타낸 도면이다.
도 3은, 현미부수체 지역의 서열 길이의 변동계수를 이용한 현미부수체 불안정성 진단방법의 기본 원리를 나타낸 도면이다.
도 4는, 현미부수체 지역의 서열 길이의 변동계수를 이용한 현미부수체 불안정성 진단방법과 기존 진단방법의 현미부수체 불안정성 결과수치를 비교한 결과를 나타낸 도면이다.
도 5는, 현미부수체 지역의 서열 길이의 변동계수를 이용한 현미부수체 불안정성 진단방법과 기존 진단방법의 현미부수체 불안정성 계산 속도를 비교한 결과를 나타낸 도면이다.
1 is a diagram illustrating a method for diagnosing microsatellite instability in a single sample using the coefficient of variation of the sequence length of the microsatellite region.
FIG. 2 is a diagram illustrating a pairwise comparison microsatellite instability diagnosis method of a sample using the coefficient of variation of the sequence length of the microsatellite region.
3 is a view showing the basic principle of a microsatellite instability diagnosis method using the coefficient of variation of the sequence length of the microsatellite region.
4 is a view showing the results of comparing the microsatellite instability result values of the microsatellite instability diagnostic method using the coefficient of variation of the sequence length of the microsatellite region and the existing diagnostic method.
5 is a view showing the results of comparing the microsatellite instability calculation speed between the microsatellite instability diagnosis method using the coefficient of variation of the sequence length of the microsatellite region and the existing diagnostic method.

아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, embodiments of the present application will be described in detail with reference to the accompanying drawings so that those of ordinary skill in the art can easily implement them. However, the present application may be implemented in several different forms and is not limited to the embodiments described herein. And in order to clearly explain the present application in the drawings, parts irrelevant to the description are omitted, and similar reference numerals are attached to similar parts throughout the specification.

본원 명세서 전체에서, 어떤 부재가 다른 부재 “상에” 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.Throughout this specification, when a member is said to be located “on” another member, this includes not only a case in which a member is in contact with another member but also a case in which another member is present between the two members.

본원 명세서 전체에서, 어떤 부분이 어떤 구성 요소를 “포함” 한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다. 본원 명세서 전체에서 사용되는 정도의 용어 “약”, “실질적으로” 등은 언급된 의미에 고유한 제조 및 물질 허용오차가 제시될 때 그 수치에서 또는 그 수치에 근접한 의미로 사용되고, 본원의 이해를 돕기 위해 정확하거나 절대적인 수치가 언급된 개시 내용을 비양심적인 침해자가 부당하게 이용하는 것을 방지하기 위해 사용된다. 본원 명세서 전체에서 사용되는 정도의 용어 “~(하는) 단계” 또는 “~의 단계”는 “~ 를 위한 단계”를 의미하지 않는다.Throughout this specification, when a part "includes" a component, it means that other components may be further included, rather than excluding other components, unless otherwise stated. As used throughout this specification, the terms “about”, “substantially”, etc. are used in a sense at or close to the numerical value when the manufacturing and material tolerances inherent in the stated meaning are presented, and are intended to enhance the understanding of the present application. To help, precise or absolute figures are used to prevent unfair use by unconscionable infringers of the stated disclosure. As used throughout this specification, the term “step of (to)” or “step of” does not mean “step for”.

본원 명세서 전체에서, 마쿠시 형식의 표현에 포함된 “이들의 조합(들)”의 용어는 마쿠시 형식의 표현에 기재된 구성 요소들로 이루어진 군에서 선택되는 하나 이상의 혼합 또는 조합을 의미하는 것으로서, 상기 구성 요소들로 이루어진 군에서 선택되는 하나 이상을 포함하는 것을 의미한다.Throughout this specification, the term “combination(s)” included in the expression of the Markush form means one or more mixtures or combinations selected from the group consisting of the components described in the expression of the Markush form, It means to include one or more selected from the group consisting of the above components.

본원 명세서 전체에서, “A 및/또는 B”의 기재는 “A 또는 B, 또는 A 및 B”를 의미한다.Throughout this specification, reference to “A and/or B” means “A or B, or A and B”.

이하, 첨부된 도면을 참조하여 본원의 구현예 및 실시예를 상세히 설명한다. 그러나, 본원이 이러한 구현예 및 실시예와 도면에 제한되지 않을 수 있다.Hereinafter, embodiments and examples of the present application will be described in detail with reference to the accompanying drawings. However, the present application may not be limited to these embodiments and examples and drawings.

본원의 제 1 측면은, 현미부수체 지역의 서열 길이의 변동계수를 이용한 단일 샘플의 현미부수체 불안정성 진단방법을 제공한다.A first aspect of the present application provides a method for diagnosing microsatellite instability in a single sample using the coefficient of variation of the sequence length of the microsatellite region.

본원의 일 구현예에 따르면, 본원은 현미부수체 지역을 탐색하는 단계; 타겟 현미부수체 지역을 선택하는 단계; 단일 샘플 현미부수체 지역에 정렬된 서열을 검출하는 단계; 각각의 지역에서 검출된 서열 중 현미부수체를 담고 있는 서열을 선택하는 단계; 선택된 서열들 속 현미부수체의 구성 및 길이를 계산하는 단계; 각각의 현미부수체 지역에서 검출된 현미부수체들의 길이에 대한 변동계수(CV)를 계산하는 단계; 및 계산된 변동계수를 이용하여 현미부수체 불안정성을 진단하는 단계를 포함하는, 현미부수체 불안정성 진단 방법을 제공한다(도 1 참조).According to one embodiment of the present application, the present application comprises the steps of searching for a microsatellite region; selecting a target microsatellite region; detecting sequences aligned to the single sample microsatellite region; selecting a sequence containing a microsatellite from among the sequences detected in each region; calculating the composition and length of microsatellites in the selected sequences; calculating a coefficient of variation (CV) for the lengths of microsatellites detected in each microsatellite region; and diagnosing microsatellite instability using the calculated coefficient of variation (see FIG. 1 ).

본원 명세서 전체에서 사용되는 용어 "현미부수체(microsatellite, MS)"는 DNA 염기 서열 중에서 반복되는 부분을 의미하며, 보통 1~6개의 염기쌍이 5~50번 정도 반복된다. 전체 사람의 DNA 중 5% 가량을 차지하며, 다른 DNA 부분보다 돌연변이 확률이 높다. The term "microsatellite (MS)" used throughout the present specification refers to a repeating portion of a DNA base sequence, and usually 1 to 6 base pairs are repeated 5 to 50 times. It accounts for about 5% of all human DNA and has a higher mutation rate than other DNA parts.

본원 명세서 전체에서 사용되는 용어 "현미부수체 불안정성(microsatellite instability, MSI)"은 현미부수체를 이루고 있는 단순 반복된 짧은 염기 배열(short tandem repeat sequence)이 증가하거나 감소하면서 나타나는 길이의 다양성으로, 이는 DNA 불일치복구유전자 (mismatch repair gene; MMR gene)의 복구 과정을 통하여 회복되는 과정을 거치게 된다. 그러나 DNA 불일치복구유전자의 종자선돌연변이 (germline mutation)나 프로모터 (promotor) 메틸화 등의 원인으로 복구에 기능이상이 발생하면 현미부수체의 길이에 변화가 일어나게 되며, 이러한 현미부수체의 불안정성을 검사하면 유전자 복구 이상의 발생을 진단할 수 있게 된다. As used throughout this specification, the term "microsatellite instability (MSI)" is a variability in length that appears as the short tandem repeat sequence constituting the microsatellite increases or decreases, which The DNA mismatch repair gene (MMR gene) is restored through the repair process. However, if there is a malfunction in repair due to germline mutation of the DNA mismatch repair gene or promoter methylation, the length of the microsatellite changes. It becomes possible to diagnose the occurrence of gene repair abnormalities.

MSI는 국제적 표준에 따르면 일반적으로 두 가지 유형으로 구분되는데 미국 국립 암연구소 (National Cancer Institute, NCI)에서는 1997년에 두 개의 모노뉴클레오티드 (mononucleotide)와 세 개의 다이뉴클레오티드 (dinucleotide)로 이루어진 다섯 개의 현미부수체 표지자 (BAT-25, BAT-26, D2S123, D17S250, D5S346)를 제시하였으며, 두 개 이상의 표지자에서 불안정성을 보이면 고도 현미부수체 불안정성 (high-level MSI, MSI-H)으로 측정한 현미부수체 표지자의 40% 이상에서 현미부수체 불안정성이 있는 경우로 복제오류양성 (replication error positive, RER+)이라고도 하며, 한 개의 표지자에서만 불안정성을 보이면 저도현미부수체 불안정성 (low-level MSI, MSI-L)으로 측정한 현미부수체 표지자의 40% 이하에서 현미부수체 불안정성이 있는 경우를 말하며, 현미부수체 불안정성이 전혀 없는 경우는 현미부수체 안정성 (microsatellite stable, MSS)이라고 정의하였다 (Boland et al., Cancer Res., 58:5248-57, 1998; 김덕우, Journal of Genetic Medicine 7:24-36, 2010).MSI is generally classified into two types according to international standards. Sieve markers (BAT-25, BAT-26, D2S123, D17S250, D5S346) are presented, and if two or more markers show instability, microsatellite measured with high-level microsatellite instability (high-level MSI, MSI-H) If there is microsatellite instability in more than 40% of the markers, it is also called replication error positive (RER+). Microsatellite instability was defined as a case in which less than 40% of the measured microsatellite markers had microsatellite instability, and if there was no microsatellite instability, it was defined as microsatellite stable (MSS) (Boland et al., Cancer Res., 58:5248-57, 1998; Kim Deok-woo, Journal of Genetic Medicine 7:24-36, 2010).

본원 명세서 전체에서 사용되는 용어 "변동계수(CV, coefficient of variation)"는 표준편차를 평균값으로 나눈 값으로서, 어떤 인자의 변화로 초래되는 효과를 비교하는 척도로 사용된다. As used throughout this specification, the term “coefficient of variation (CV)” is a value obtained by dividing the standard deviation by the average value, and is used as a measure for comparing the effect caused by the change of a certain factor.

본원 명세서 전체에서 사용되는 용어 "FASTQ"는 염기서열이나 단백질 아미노산 서열의 시퀀스와 품질 점수 데이터를 아스키코드(ASCII)로 이루어진 텍스트 형식으로 저장한 것을 의미한다. 즉, 해당 시퀀스가 얼마나 믿을만한 정보인지, 얼마나 정확한 정보인지까지 서열 하나 하나에 대해 표시해준다.The term "FASTQ" used throughout this specification means that the sequence and quality score data of a nucleotide sequence or a protein amino acid sequence are stored in ASCII code (ASCII) text format. In other words, it displays for each sequence, including how reliable the sequence is and how accurate it is.

본원 명세서 전체에서 사용되는 용어 "유전체(Genome)"는 한 생물이 가지는 모든 유전 정보를 의미하며, 일부 바이러스의 RNA를 제외하고 모든 생물은 DNA로 유전 정보를 구성하고 있기 때문에 일반적으로 DNA로 구성된 유전 정보를 지칭한다.As used throughout this specification, the term “genome” refers to all genetic information of an organism, except for RNA of some viruses. refers to information.

본원의 일 구현예에 따르면, 본원은 타겟 현미부수체 지역에서 각각의 현미부수체 길이들 간에 길이가 유사할수록 변동계수가 0에 근접하게 되고, 각각의 현미부수체 길이들 간에 길이가 다양할수록 변동계수가 1에 근접하게 되어 현미부수체 불안정성을 변동계수 0 내지 1의 범위에서 점수화 할 수 있다.According to one embodiment of the present application, in the present application, as the lengths between the respective microsatellite lengths in the target microsatellite region are similar, the coefficient of variation approaches 0, and as the length varies between microsatellite lengths, the variation As the coefficient approaches 1, microsatellite instability can be scored in a range of 0 to 1 coefficient of variation.

본원의 일 구현예에 따르면, 본원은 계산이 단순한 변동계수(CV)를 이용하기 때문에 현미부수체 불안정성 진단에 걸리는 시간을 줄일 수 있다.According to one embodiment of the present application, since the present application uses a simple coefficient of variation (CV) for calculation, the time taken for diagnosing microsatellite instability can be reduced.

본원의 제 2 측면은, 현미부수체 지역의 서열 길이의 변동계수를 이용한 샘플의 짝비교 현미부수체 불안정성 진단방법을 제공한다. 본원의 제1측면과 중복되는 내용은 본원의 제2측면의 방법에도 공히 적용된다.A second aspect of the present application provides a method for diagnosing pairwise comparison microsatellite instability of a sample using the coefficient of variation of the sequence length of the microsatellite region. The content overlapping with the first aspect of the present application also applies to the method of the second aspect of the present application.

본원의 일 구현예에 따르면, 본원은 현미부수체 지역을 탐색하는 단계; 타겟 현미부수체 지역을 선택하는 단계; 정상샘플과 암 샘플에서 동일한 현미부수체 지역에 정렬된 서열을 검출하는 단계; 짝 샘플의 동일한 현미부수체 지역에서 검출된 서열을 병합하는 단계; 각각의 지역에서 검출된 서열 중 현미부수체를 담고 있는 서열을 선택하는 단계; 선택된 서열들 속 현미부수체의 구성 및 길이를 계산하는 단계; 각각의 현미부수체 지역에서 검출된 현미부수체들의 길이에 대한 변동계수(CV)를 계산하는 단계; 및 계산된 변동계수를 이용하여 현미부수체 불안정성을 진단하는 단계를 포함하는, 현미부수체 불안정성 진단 방법을 제공한다(도 2 참조).According to one embodiment of the present application, the present application comprises the steps of searching for a microsatellite region; selecting a target microsatellite region; detecting sequences aligned to the same microsatellite region in the normal sample and the cancer sample; merging the sequences detected in the same microsatellite region of the paired sample; selecting a sequence containing a microsatellite from among the sequences detected in each region; calculating the composition and length of microsatellites in the selected sequences; calculating a coefficient of variation (CV) for the lengths of microsatellites detected in each microsatellite region; and diagnosing microsatellite instability using the calculated coefficient of variation (see FIG. 2 ).

본원의 일 구현예에 따르면, 본원은 정상 샘플과 암 샘플의 동일한 현미부수체 지역에서 검출된 서열을 병합하여 한번에 계산하기 때문에 현미부수체 불안정성 진단에 걸리는 시간을 줄일 수 있다.According to one embodiment of the present application, since the present application merges sequences detected in the same microsatellite region of a normal sample and a cancer sample and calculates them at once, the time taken for diagnosing microsatellite instability can be reduced.

이하, 본원의 실시예를 통하여 본 발명을 더욱 상세하게 설명하고자 하나, 하기의 실시예는 본원의 이해를 돕기 위하여 예시하는 것 일뿐, 본원의 내용이 하기 실시예에 한정되는 것은 아니다.Hereinafter, the present invention will be described in more detail through examples of the present application, but the following examples are merely illustrative to aid understanding of the present application, and the content of the present application is not limited to the following examples.

[실시예][Example]

단일 샘플을 이용한 현미부수체 불안정성 검사 Microsatellite instability testing using a single sample

단일 샘플을 이용한 현미부수체 불안정성(MSI) 검사는 하기와 같은 단계들을 거쳐 이루어졌다.Microsatellite instability (MSI) test using a single sample was performed through the following steps.

(1) 현미부수체 지역을 탐색하는 단계(1) Step of exploring the microsatellite region

유전체(Genome)에서 MSI부위로 예상되는 부위를 탐색하였다. 대부분의 MSI 부위는 단순 반복 서열이 있는 부위로 염색체 별로 시작부터 끝까지 모든 부위를 탐색하였다. 이때 가능한 반복서열 모두를 예상하여 패턴화하고 모든 패턴을 염색체에서 검색하는 방법으로 수행하였다.A region expected to be an MSI region in the genome was searched. Most of the MSI sites are sites with simple repeat sequences, and all sites were searched from beginning to end for each chromosome. At this time, all possible repeat sequences were predicted and patterned, and all patterns were searched for in chromosomes.

(2) 타겟 현미부수체 지역을 선택하는 단계(2) selecting a target microsatellite region

전장 Genome 분석의 경우 상기에서 예측된 모든 부위를 다 사용하면 되며, 타겟 시퀀싱 분석의 경우 타겟 부위에 있는 MSI 예측 부위를 선택하여 사용하였다. 타겟 부위와 MSI 예측 부위의 염색체 상 좌표를 이용하여 서로 겹침이 있는 것들을 사용하였다.In the case of full-length genome analysis, all predicted regions may be used, and in the case of target sequencing analysis, MSI predicted regions in the target region were selected and used. Using the chromosome coordinates of the target site and the MSI prediction site, those that overlap each other were used.

(3) 단일 샘플 현미부수체 지역에 정렬된 서열을 검출하는 단계(3) detecting the aligned sequence in the single sample microsatellite region

선택된 MSI 예측 부위에 서열정렬된 FASTQ sequence read 들을 선택하였다.FASTQ sequence reads aligned to the selected MSI prediction site were selected.

(4) 각각의 지역에서 검출된 서열 중 현미부수체를 담고 있는 서열을 선택하는 단계(4) selecting the sequence containing the microsatellite among the sequences detected in each region

선택된 FASTQ sequence read 들은 서열 정렬되지 않은 상태 (원천 FASTQ sequence read)로 사용하였다. 선택된 원천 FASTQ sequence read 에 MSI 예측 부위가 양 끝에 위치 하는 것들은 MSI 예측 부위의 시작과 끝을 명확하게 하기 위하여 제거하였다.The selected FASTQ sequence reads were used without sequence alignment (original FASTQ sequence reads). In the selected source FASTQ sequence read, MSI prediction sites at both ends were removed to clarify the beginning and end of the MSI prediction site.

(5) 선택된 서열들 속 현미부수체(MS)의 구성 및 길이를 계산하는 단계(5) calculating the composition and length of microsatellite (MS) in the selected sequences

원천 FASTQ sequence read 속 MSI 예측 부위의 MS repeat의 종류를 검사하고 해당 repeat 의 길이를 계산하였다.The type of MS repeat in the MSI predicted region in the source FASTQ sequence read was examined and the length of the repeat was calculated.

(6) 각각의 현미부수체 지역에서 검출된 현미부수체들(MS)의 길이에 대한 변동계수(CV)를 계산하는 단계(6) calculating the coefficient of variation (CV) for the length of microsatellites (MS) detected in each microsatellite region

상기에서 계산된 MS repeat 길이들을 가지고 기초 통계(변동계수) 계산을 하였으며, 변동계수는 하기와 같이 계산하였다.Basic statistics (coefficient of variation) were calculated using the MS repeat lengths calculated above, and the coefficient of variation was calculated as follows.

변동계수(CV) = 현미부수체들 길이의 표준편차/ 현미부수체들 길이의 평균값Coefficient of variation (CV) = standard deviation of microsatellite lengths / mean value of microsatellite lengths

따라서 Genome상 같은 위치에 존재하는 현미부수체들 간에 길이변화가 없거나 길이가 유사할수록 변동계수가 0이거나 0에 근접하고, 현미부수체들의 길이가 다양할수록 변동계수가 1에 근접하게 나왔다.Therefore, when there is no length change or similar lengths among microsatellites existing at the same location on the genome, the coefficient of variation is 0 or close to 0.

(7) 계산된 변동계수를 이용하여 현미부수체 불안정성을 진단하는 단계(7) Diagnosing microsatellite instability using the calculated coefficient of variation

계산된 통계량(변동계수) 이 다른 MSI 예측 부위와 유의하게 다른 MSI 예측 부위가 전체 MSI 예측 부위의 몇 % 인지 계산하였다.The calculated statistic (coefficient of variation) was calculated to determine what percentage of the total MSI predicted sites were MSI predicted sites that were significantly different from other MSI predicted sites.

샘플 짝비교를 이용한 현미부수체 불안정성 검사Microsatellite instability test using sample pair comparison

(1) 현미부수체 지역을 탐색하는 단계(1) Step of exploring the microsatellite region

Genome에서 MSI부위로 예상되는 부위를 탐색하였다. 대부분의 MSI 부위는 단순 반복 서열이 있는 부위로 염색체 별로 시작부터 끝까지 모든 부위를 탐색하였다. 이때 가능한 반복서열 모두를 예상하여 패턴화하고 모든 패턴을 염색체에서 검색하는 방법으로 수행하였다.A site expected to be an MSI site in the genome was searched. Most of the MSI sites are sites with simple repeat sequences, and all sites were searched from beginning to end for each chromosome. At this time, all possible repeat sequences were predicted and patterned, and all patterns were searched for in chromosomes.

(2) 타겟 현미부수체 지역을 선택하는 단계(2) selecting a target microsatellite region

전장 Genome 분석의 경우 상기에서 예측된 모든 부위를 다 사용하면 되며, 타겟 시퀀싱 분석의 경우 타겟 부위에 있는 MSI 예측 부위를 선택하여 사용하였다. 타겟 부위와 MSI 예측 부위의 염색체 상 좌표를 이용하여 서로 겹침이 있는 것들을 사용하였다.In the case of full-length genome analysis, all predicted regions may be used, and in the case of target sequencing analysis, MSI predicted regions in the target region were selected and used. Using the chromosome coordinates of the target site and the MSI prediction site, those that overlap each other were used.

(3) 정상샘플과 암 샘플에서 동일한 현미부수체 지역에 정렬된 서열을 검출하는 단계 (3) detecting sequences aligned in the same microsatellite region in the normal sample and the cancer sample

(4) 짝 샘플의 동일한 현미부수체 지역에서 검출된 서열을 병합하는 단계(4) merging the sequences detected in the same microsatellite region of the paired sample.

병합 후에는 상기에 기재한 단일 샘플을 이용한 현미부수체 불안정성 검사 방법과 동일한 과정을 수행하였다.After merging, the same procedure as the microsatellite instability test method using a single sample described above was performed.

(5) 각각의 지역에서 검출된 서열 중 현미부수체를 담고 있는 서열을 선택하는 단계 (5) selecting a sequence containing a microsatellite among sequences detected in each region

선택된 FASTQ sequence read 들은 서열 정렬되지 않은 상태 (원천 FASTQ sequence read)로 사용하였다. 선택된 원천 FASTQ sequence read 에 MSI 예측 부위가 양 끝에 위치 하는 것들은 MSI 예측 부위의 시작과 끝을 명확하게 하기 위하여 제거하였다.The selected FASTQ sequence reads were used without sequence alignment (original FASTQ sequence reads). In the selected source FASTQ sequence read, MSI prediction sites at both ends were removed to clarify the beginning and end of the MSI prediction site.

(6) 선택된 서열들 속 현미부수체의 구성 및 길이를 계산하는 단계 (6) calculating the composition and length of the microsatellite in the selected sequences

원천 FASTQ sequence read 속 MSI 예측 부위의 MS repeat의 종류를 검사하고 해당 repeat 의 길이를 계산하였다.The type of MS repeat in the MSI predicted region in the source FASTQ sequence read was examined and the length of the repeat was calculated.

(7) 각각의 현미부수체 지역에서 검출된 현미부수체들의 길이에 대한 변동계수(CV)를 계산하는 단계(7) calculating the coefficient of variation (CV) for the lengths of microsatellites detected in each microsatellite region

상기에서 계산된 MS repeat 길이들을 가지고 기초 통계(변동계수) 계산을 하였으며, 변동계수는 하기와 같이 계산하였다.Basic statistics (coefficient of variation) were calculated using the MS repeat lengths calculated above, and the coefficient of variation was calculated as follows.

변동계수(CV) = 현미부수체들 길이의 표준편차/ 현미부수체들 길이의 평균값Coefficient of variation (CV) = standard deviation of microsatellite lengths / mean value of microsatellite lengths

따라서 Genome상 같은 위치에 존재하는 현미부수체들 간에 길이변화가 없거나 길이가 유사할수록 변동계수가 0이거나 0에 근접하고, 현미부수체들의 길이가 다양할수록 변동계수가 1에 근접하게 나왔다.Therefore, when there is no length change or similar lengths among microsatellites existing at the same location on the genome, the coefficient of variation is 0 or close to 0.

(8) 계산된 변동계수를 이용하여 현미부수체 불안정성을 진단하는 단계(8) Diagnosing microsatellite instability using the calculated coefficient of variation

계산된 통계량(변동계수) 이 다른 MSI 예측 부위와 유의하게 다른 MSI 예측 부위가 전체 MSI 예측 부위의 몇 % 인지 계산하였다.The calculated statistic (coefficient of variation) was calculated to determine what percentage of the total MSI predicted sites were MSI predicted sites that were significantly different from other MSI predicted sites.

기존의 NGS 기반 계산방법과 계산 속도 비교 실험Existing NGS-based calculation method and calculation speed comparison experiment

동일한 서버에서 현미부수체 검사를 수행한 현미부수체 지역의 총 개수를 각 계산방법에 따른 프로그램의 연산시간으로 나누어 단일 현미부수체 지역을 계산하는데 필요한 시간을 비교하였다. The time required to calculate a single microsatellite area was compared by dividing the total number of microsatellite regions for which microsatellite tests were performed on the same server by the calculation time of the program according to each calculation method.

단일 현미부수체 지역 계산 시간 = 분석한 총 현미부수체 지역 / (각 계산방법에 따른) 프로그램 연산시간Single microsatellite area calculation time = total microsatellite area analyzed / program calculation time (according to each calculation method)

기존의 NGS 기반 계산 방법과 결과수치를 비교한 결과, 결과 값이 유사하게 나와 본원 발명을 이용한 경우에도 기존 NGS 기반의 계산 방법을 이용한 것과 같은 결과를 도출해 낼 수 있음을 확인할 수 있었다(도 4 참조).As a result of comparing the result value with the existing NGS-based calculation method, it was confirmed that the same result as using the existing NGS-based calculation method can be derived even when the present invention is used because the result value is similar (refer to FIG. 4) ).

또한, 도 5에서 보듯이 본원의 현미부수체 불안정성 계산방법을 이용한 경우 기존의 NGS 기반 계산 방법에 비해 계산시간이 훨씬 빠르다는 것을 확인할 수 있었다.In addition, as shown in FIG. 5 , when the microsatellite instability calculation method of the present application was used, it was confirmed that the calculation time was much faster than that of the existing NGS-based calculation method.

전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The foregoing description of the present application is for illustration, and those of ordinary skill in the art to which the present application pertains will understand that it can be easily modified into other specific forms without changing the technical spirit or essential features of the present application. Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive. For example, each component described as a single type may be implemented in a dispersed form, and likewise components described as distributed may be implemented in a combined form.

Claims (4)

(a) 현미부수체 지역을 탐색하는 단계;
(b) 타겟 현미부수체 지역을 선택하는 단계;
(c) 단일 샘플 현미부수체 지역에 정렬된 서열을 검출하는 단계;
(d) 각각의 지역에서 검출된 서열 중 현미부수체를 담고 있는 서열을 선택하는 단계;
(e) 선택된 서열들 속 현미부수체의 구성 및 길이를 계산하는 단계;
(f) 각각의 현미부수체 지역에서 검출된 현미부수체들의 길이에 대한 변동계수(CV)를 계산하는 단계; 및
(g) 계산된 변동계수를 이용하여 현미부수체 불안정성을 진단하는 단계를 포함하는, 현미부수체 불안정성 진단 방법.
(a) exploring the microsatellite region;
(b) selecting a target microsatellite region;
(c) detecting sequences aligned to the single sample microsatellite region;
(d) selecting a sequence containing a microsatellite from among the sequences detected in each region;
(e) calculating the composition and length of the microsatellite in the selected sequences;
(f) calculating a coefficient of variation (CV) for the lengths of microsatellites detected in each microsatellite region; and
(g) diagnosing microsatellite instability using the calculated coefficient of variation.
제 1항에 있어서,
상기 변동계수(CV)는 현미부수체들 길이의 표준편차를 현미부수체들 길이의 평균값으로 나눈 값을 의미하는 것인, 현미부수체 불안정성 진단 방법.
The method of claim 1,
The coefficient of variation (CV) means a value obtained by dividing the standard deviation of the lengths of microsatellites by the average value of the lengths of microsatellites.
(a) 현미부수체 지역을 탐색하는 단계;
(b) 타겟 현미부수체 지역을 선택하는 단계;
(c) 정상샘플과 암 샘플에서 동일한 현미부수체 지역에 정렬된 서열을 검출하는 단계;
(d) 짝 샘플의 동일한 현미부수체 지역에서 검출된 서열을 병합하는 단계;
(e) 각각의 지역에서 검출된 서열 중 현미부수체를 담고 있는 서열을 선택하는 단계;
(f) 선택된 서열들 속 현미부수체의 구성 및 길이를 계산하는 단계;
(g) 각각의 현미부수체 지역에서 검출된 현미부수체들의 길이에 대한 변동계수(CV)를 계산하는 단계; 및
(h) 계산된 변동계수를 이용하여 현미부수체 불안정성을 진단하는 단계를 포함하는, 현미부수체 불안정성 진단 방법.
(a) exploring the microsatellite region;
(b) selecting a target microsatellite region;
(c) detecting sequences aligned to the same microsatellite region in the normal sample and the cancer sample;
(d) merging the sequences detected in the same microsatellite region of the paired sample;
(e) selecting a sequence containing a microsatellite from among the sequences detected in each region;
(f) calculating the composition and length of the microsatellite in the selected sequences;
(g) calculating a coefficient of variation (CV) for the lengths of microsatellites detected in each microsatellite region; and
(h) diagnosing microsatellite instability using the calculated coefficient of variation.
제 3항에 있어서,
상기 변동계수(CV)는 현미부수체들 길이의 표준편차를 현미부수체들 길이의 평균값으로 나눈 값을 의미하는 것인, 현미부수체 불안정성 진단 방법.
4. The method of claim 3,
The coefficient of variation (CV) means a value obtained by dividing the standard deviation of the lengths of microsatellites by the average value of the lengths of microsatellites.
KR1020210105254A 2020-12-07 2021-08-10 Method of diagnosing microsatellite instability using coefficient of variation of sequence length at microsatellite locus KR20220080682A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2021/015670 WO2022124575A1 (en) 2020-12-07 2021-11-02 Method for diagnosing microsatellite instability using coefficient of variation of sequence lengths in microsatellite loci

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200169309 2020-12-07
KR20200169309 2020-12-07

Publications (1)

Publication Number Publication Date
KR20220080682A true KR20220080682A (en) 2022-06-14

Family

ID=81980061

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210105254A KR20220080682A (en) 2020-12-07 2021-08-10 Method of diagnosing microsatellite instability using coefficient of variation of sequence length at microsatellite locus

Country Status (1)

Country Link
KR (1) KR20220080682A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116543835A (en) * 2023-04-21 2023-08-04 苏州吉因加生物医学工程有限公司 Method and device for detecting microsatellite state of plasma sample

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101969971B1 (en) 2017-03-24 2019-04-18 주식회사 시선바이오머티리얼스 Melting Curve Analysis Using bifunctional PNA probe for Microsatellite Instability (MSI) Diagnosis, and Method and Kit of Microsatellite Instability Diagnosis Using the Same

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101969971B1 (en) 2017-03-24 2019-04-18 주식회사 시선바이오머티리얼스 Melting Curve Analysis Using bifunctional PNA probe for Microsatellite Instability (MSI) Diagnosis, and Method and Kit of Microsatellite Instability Diagnosis Using the Same

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116543835A (en) * 2023-04-21 2023-08-04 苏州吉因加生物医学工程有限公司 Method and device for detecting microsatellite state of plasma sample
CN116543835B (en) * 2023-04-21 2024-02-06 苏州吉因加生物医学工程有限公司 Method and device for detecting microsatellite state of plasma sample

Similar Documents

Publication Publication Date Title
Zou et al. A systematic CRISPR screen defines mutational mechanisms underpinning signatures caused by replication errors and endogenous DNA damage
Salk et al. Enhancing the accuracy of next-generation sequencing for detecting rare and subclonal mutations
CN110520542A (en) Method for targeting nucleic acid sequence enrichment and the application in the nucleic acid sequencing of error correcting
CN109767810B (en) High-throughput sequencing data analysis method and device
Eyre-Walker Evolution in health and medicine Sackler colloquium: Genetic architecture of a complex trait and its implications for fitness and genome-wide association studies.
JP2019531700A5 (en)
AU2018236781A1 (en) Method for accurate sequencing of dna
CN107475375A (en) A kind of DNA probe storehouse, detection method and kit hybridized for microsatellite locus related to microsatellite instability
KR20150067161A (en) Systems and methods to detect rare mutations and copy number variation
US11718869B2 (en) Method and kit for determining genome instability based on next generation sequencing (NGS)
CN110392739A (en) Detect the sequencing approach of DNA mutation
Lynch et al. Quantifying chromosomal instability from intratumoral karyotype diversity using agent-based modeling and Bayesian inference
US20190390269A1 (en) Method for detecting known nucleotide modifications in an rna
US20180032669A1 (en) Method for designing primer used for polymerase chain reaction and primer set
CN106939344A (en) The joint being sequenced for two generations
KR20220080682A (en) Method of diagnosing microsatellite instability using coefficient of variation of sequence length at microsatellite locus
CN105046105B (en) The Haplotype map and its construction method of chromosome span
Styk et al. Microsatellite instability assessment is instrumental for Predictive, Preventive and Personalised Medicine: Status quo and outlook
CN108728515A (en) A kind of analysis method of library construction and sequencing data using the detection ctDNA low frequencies mutation of duplex methods
WO2022124575A1 (en) Method for diagnosing microsatellite instability using coefficient of variation of sequence lengths in microsatellite loci
CN111477277A (en) Sample quality evaluation method and device
CN108441572B (en) Method for identifying maize chloroplast cytoplasm type based on KASP technology
CN106233291A (en) Variant analysis in high-flux sequence application
Wang et al. Using ultra-sensitive next generation sequencing to dissect DNA damage-induced mutagenesis
US11959131B2 (en) Method for measuring mutation rate

Legal Events

Date Code Title Description
E902 Notification of reason for refusal