KR20230012033A - 다형 좌위 신호의 신뢰성 값의 산출 방법 - Google Patents

다형 좌위 신호의 신뢰성 값의 산출 방법 Download PDF

Info

Publication number
KR20230012033A
KR20230012033A KR1020227044153A KR20227044153A KR20230012033A KR 20230012033 A KR20230012033 A KR 20230012033A KR 1020227044153 A KR1020227044153 A KR 1020227044153A KR 20227044153 A KR20227044153 A KR 20227044153A KR 20230012033 A KR20230012033 A KR 20230012033A
Authority
KR
South Korea
Prior art keywords
nucleic acid
signal
allele
subcomponent
data set
Prior art date
Application number
KR1020227044153A
Other languages
English (en)
Inventor
기범 김
Original Assignee
가부시키가이샤 씨디엔에이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가부시키가이샤 씨디엔에이 filed Critical 가부시키가이샤 씨디엔에이
Publication of KR20230012033A publication Critical patent/KR20230012033A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6851Quantitative amplification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/686Polymerase chain reaction [PCR]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2531/00Reactions of nucleic acids characterised by
    • C12Q2531/10Reactions of nucleic acids characterised by the purpose being amplify/increase the copy number of target nucleic acid
    • C12Q2531/113PCR
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Pathology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

[과제]본 발명이 해결하고자 하는 과제는 cffDNA, ctDNA, ddcfDNA와 같은 극미량의 부차 핵산을 포함하는 혼합 핵산 샘플의 분석 데이터에서, 부차 핵산의 존재를 나타내는 신호의 신뢰성 값을 평가하는 신규 기술을 제공하는 데에 있다.
[해결 수단]상기 과제의 해결 수단은, 해석 데이터에 포함된, 최소 부차 성분 신호 강도 및 부차 성분 혼입률을 가진 수치군을 선형결합해서 구한 합성 변수와 신뢰성에 대해 회귀 분석을 실시하여, 신뢰성 값을 산출하기 위한 모델 함수를 작성하는 것이다.

Description

다형 좌위 신호의 신뢰성 값의 산출 방법
본 발명은 SNPs 등의 해석 데이터의 데이터 처리에 관한 것이다.
불확실한 친생자 관계의 존부는 법률 및 가족관계 등에 큰 영향을 미칠 수 있다. 임부의 태내 속 태아의 친부가 누구인지 확실하지 않은 경우에 친부를 확인할 수 있는 방법으로는 몇 가지가 있다.
한 가지 방법은 출산까지 기다렸다가 아이와 아이의 아버지로 추정되는 사람의 게놈 DNA를 분석하고 비교하는 것이다. 그러나 출산 전 단계에서 친생자 관계를 확인하고 싶어 하는 사람들이 많다. 출생 전 친생자 관계를 감별하는 방법으로는 융모 진단이나 양수천자를 통해 채취한 유전물질을 해석하는 방법이 있으나, 침습적 검사이므로 유산 위험이 있다.
위에서 언급한 침습적 검사의 문제점 비추어, 혈액에 혼입된 무세포 DNA(cell-free DNA, cfDNA)를 해석하는 검진 방식이 산전 친자확인 검사에 응용되어 사용되고 있다. 임부의 혈액에 혼입된 태아 유래의 유전물질인 무세포 태아 DNA(Cell-free fetal DNA, cffDNA)의 분석을 통해 비침습적 산전 친자 검사 (Non-Invasive Prenatal Paternity Test, NIPPT)를 실시할 수 있다 (예. 특허문헌 1).
그러나 cffDNA 분석에는 해결해야 할 중요한 과제가 있다. 당연하게도, 임부의 혈액에는 태아 유래의 유전물질보다 임부 유래의 유전물질이 현저히 많이 함유되어 있다. 따라서, cfDNA 분석을 통해 확인할 수 있는 태아 유전물질의 존재를 알려주는 신호가 매우 약하게 발생한다. 이 때문에 cfDNA 분석을 통해 얻은 태아 유전물질의 신호가 정말로 태아의 유전물질에서 유래한 것인지, 노이즈인지를 판별하기가 매우 어렵다.
cfDNA 분석기술의 응용 분야로는 위에서 언급한 산전 유전학적 검사 외에도 암 스크리닝과 항암치료 경과 평가 등, 다양한 암 검사법이 있다. 암세포가 면역에 의해 파괴되거나, 스스로 세포자살(아포토시스)을 일으키거나, 혈중 순환 종양세포(CTC)가 어떠한 영향으로 인해 혈중에서 파괴되는 경우, 암세포의 게놈 DNA가 혈액 속으로 누출되게 된다. 이 암세포에서 유래한 cfDNA는 ctDNA(circulating tumor DNA)로 불리기도 한다. 한편, 암세포의 게놈 DNA에는 특이적인 단일 염기 변이가 발생한다는 사실이 알려져 있기 때문에, 암과 관련된 변이가 발생하는 다형 좌위(多型座位)의 염기서열을 해석하는 검사 방법을 통해 암을 조기에 발견할 수 있을 것이라 기대되고 있다 (예. 특허문헌 2).
이러한 지식을 조합해, 혈액 속 순환 cfDNA를 추출하고 암과 관련된 변이가 발생하는 다형 좌위를 해석함으로써 암 검사를 실시할 수 있다.
다만, cfDNA의 대부분은 검사 대상자의 정상형 게놈 DNA에서 유래하며 암세포 유래의 cfDNA는 극미량 함유되어 있다. 따라서, 위에서 언급한 산전 유전학적 검사와 마찬가지로, cfDNA 해석을 통해 얻은 암 관련 변이의 존재를 알려주는 신호가 정말 암세포의 게놈 DNA에서 유래한 것인지, 노이즈인지를 판별하기가 매우 어렵다는 문제가 있다.
또 다른 cfDNA 분석기술의 응용 분야로는 이식 장기의 정착 경과 모니터링이 있다. 면역억제제의 발전 등으로 성공률이 크게 향상되기는 했으나, 이식 거부 반응은 아직도 이식 장기의 정착과 장기 생존에 있어서 큰 문제이다. 거부 반응으로 인해 이식 장기에 장애나 괴사가 발생하는 경우, 이식 장기를 구성하는 세포로부터 게놈 DNA가 혈액 속으로 누출된다. 이 때문에 이식 장기에서 유래하는 cfDNA(ddcfDNA로 불리기도 한다)를 이식 거부반응의 바이오마커로 활용할 수 있을 것이라 기대된다. 구체적으로는 장기레시피엔트와 장기 기증자의 개인 식별이 가능한 단일 염기 변이(SNPs)를 특정함으로써, 차세대 시퀀서 등을 이용해 장기레시피엔트의 혈액 속에 누출된 극미량의 ddcfDNA를 검출해낼 수 있다 (예. 특허문헌 3).
다만, cfDNA의 대부분은 장기레시피엔트의 게놈 DNA에서 유래하며 기증자에서 유래한 ddcfDNA는 극미량이기 때문에, 위에서 언급한 산전 유전학적 검사와 마찬가지로 cfDNA 해석을 통해 얻은 ddcfDNA의 존재를 알려주는 신호가 정말 이식 장기의 게놈 DNA에서 유래한 것인지, 노이즈인지를 판별하기가 매우 어렵다는 문제가 있다.
특표 2014-502845호 공보 재표 2017-094805호 공보 특표 2020-529648호 공보
본 발명이 해결하고자 하는 과제는 cffDNA, ctDNA, ddcfDNA와 같은 극미량의 부차 핵산을 포함하는 혼합 핵산 샘플의 분석 데이터에서, 부차 핵산의 존재를 나타내는 신호의 신뢰성 값을 평가하는 신규 기술을 제공하는 데에 있다.
위 과제를 해결하기 위한 본 발명은 이하와 같다.
[1] 이하의 공정 A-1, 공정 A-2, 공정 A-3-1 및 공정 A-4-1을 포함하는 것을 특징으로 하는, 부차 성분 신호의 신뢰성 값을 산출하기 위한 모델 함수의 작성 방법.
[공정 A-1]
주요 기여체에 관한 유전 정보를 포함하는 주요 핵산과, 부차 기여체에 관한 유전 정보를 포함하는 부차 핵산이 포함되는, 혼합 핵산 샘플의 측정에 의해 얻어지는 데이터 세트이며, 상기 주요 핵산 및 상기 부차 핵산에 있어서의, 복수의 다형 좌위(多型座位)에 있어서의 각 대립 유전자의 존재를 나타내는 신호를 포함하는 데이터 세트(단, 상기 신호의 진위는 이미 알려져 있음)를 준비하는 공정.
[공정 A-2]
상기 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서, 상기 주요 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호와, 상기 부차 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 이하의 (A1) 및 (A2)를 포함하는 수치군을 선형 결합시켜, 1 개 이상의 합성 변수를 생성하는 공정.
(A1) 상기 부차 핵산에서 유래하는 특정의 다형 좌위의 대립 유전자의 존재를 나타내는 부차 성분 신호 강도
(A2) 상기 특정의 다형 좌위의 대립 유전자에서 기인하는 신호 강도의 총합에 대한 상기 부차 성분 신호 강도의 비율인 부차 성분 혼입률.
[공정 A-3-1]
상기 공정 A-2에서 생성된 합성 변수를 복수로 구분하고, 각 구분에 포함되는 상기 합성 변수에 대응하는 부차 성분 신호 강도 중, 이것이 참(眞)이었던 비율을 각 구분에 포함되는 상기 합성 변수에 대응하는 확률로서 부여하는 공정.
[공정 A-4-1]
상기 각 구분에 포함되는 상기 합성 변수와, 상기 각 구분에 포함되는 상기 합성 변수에 대응하는 확률에 대해 회귀 분석을 실시하여, 상기 합성 변수를 설명 변수, 신뢰성 값을 목적 변수로 하는, 신뢰성 값을 산출하기 위한 모델 함수를 준비하는 공정.
[2] 상기 합성 변수가, 적어도 상기 (A1) 및 상기 (A2)를 포함하는 수치군에 대해 주성분 분석을 실시함으로써 생성할 수 있는 합성 변수인 것을 특징으로 하는, 방법.
[3] 상기 공정 A-3-1 및 공정 A-4-1에 있어서 모델 함수의 작성을 위해 사용하는 상기 합성 변수가, 공정 A-2에 있어서 생성된 1 이상의 합성 변수 중, 가장 기여율이 높은 합성 변수인 것을 특징으로 하는, 방법.
[4] 상기 공정 A-2가, 적어도 상기 (A1) 및 상기 (A2)를 포함하는 수치군에 대해 주성분 분석을 실시하여, 1 개 이상의 주성분을 합성 변수로 하여 생성하는 공정인 것을 특징으로 하는, 방법.
[5] 상기 공정 A-2가, 상기 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서, 상기 주요 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호와, 상기 부차 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 상기 (A1) 및 상기 (A2)를 포함하고, 또한 이하의 (A3)~(A5)에서 선택되는 1 또는 2 이상을 포함하는 수치군을 선형 결합시켜, 1 개 이상의 합성 변수를 생성하는 공정인 것을 특징으로 하는, 방법.
(A3) 상기 주요 핵산에서 유래하는, 특정의 다형 좌위의 하나의 대립 유전자의 존재를 나타내는 주요 성분 신호 강도.
(A4) 상기 특정의 다형 좌위의 대립 유전자에서 기인하는 신호 강도의 총합에 대한 상기 주요 성분 신호 강도의 비율인, 주요 성분 혼입률.
(A5) 상기 특정의 다형 좌위의 대립 유전자에서 기인하는 신호 강도의 총합으로부터, 상기 주요 성분 신호 강도 및 상기 부차 성분 신호 강도를 차감하여 구해지는 노이즈.
[6] 상기 공정 A-2가, 상기 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서, 상기 주요 핵산에서 유래한 대립유전자의 존재를 나타내는 신호와 상기 부차 핵산에서 유래한 대립유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 상기 (A1) 및 상기 (A2)를 포함하고 이하 (A3)~(A5)를 포함하는 수치군을 선형결합하여 1 개 이상의 합성 변수를 생성하는 공정인 것을 특징으로 하는, [1]~[5] 중 어느 하나에 기재된 방법이다.
(A3) 상기 주요 핵산에서 유래한 특정 다형 좌위에 있는 하나의 대립유전자의 존재를 나타내는 주요 성분 신호 강도.
(A4) 상기 특정 다형 좌위에 있는 대립유전자에서 기인하는 신호 강도의 총합에 대한 상기 주요 성분 신호 강도의 비율을 나타내는 주요 성분 혼입률.
(A5) 상기 특정 다형 좌위에 있는 대립유전자에서 기인하는 신호 강도의 총합으로부터, 상기 주요 성분 신호 강도 및 상기 부차 성분 신호 강도를 차감하여 구하는 노이즈.
[7] 상기 회귀 분석이 최소제곱법인 것을 특징으로 하는, [1]~[6] 중 어느 하나에 기재된 방법이다.
[8] 상기 합성 변수를 나타내는 1차 제차다항식에서 부차 성분 신호 강도, 또는 부차 성분 혼입률이 최대로 가중되는 것을 특징으로 하는, [1]~[7] 중 어느 하나에 기재된 방법.
[9] 상기 공정 A-2에서 선형결합하는 수치군에 포함된 수치는 표준화된 수치인 것이 특징으로 하는, [1]~[8] 중 어느 하나에 기재된 방법.
[10] 상기 공정 A-2에 있어서 2개 이상의 합성 변수를 생성하고,
상기 공정 A-3-1에 있어서 상기 2개 이상의 합성 변수 각각에 대해서신뢰성 값의 부여를 실시하고,
상기 공정 A-4-1에 있어서 상기 2개 이상의 합성 변수의 각각을 설명 변수로 하는 서로 독립된 2 이상의 모델 함수를 작성하고,
또한, 상기 2 이상의 모델 함수를 서로 곱하여 곱셈으로 나타내는 모델 함수를 작성하는 공정을 구비하는 것을 특징으로하는, [1]~[9]중 어느 하나에 기재된 방법이다.
[11] 이하의 공정 A-1, 공정 A-3-2 및 공정 A-4-2를 포함하는 것을 특징으로 하는, 부차 성분 신호의 신뢰성 값을 산출하기 위한 모델 함수의 작성 방법.
[공정 A-1]
주요 기여체에 관한 유전정보를 포함하는 주요 핵산과 부차 기여체에 관한 유전정보를 포함하는 부차 핵산이 포함되는 혼합 핵산 샘플의 측정에 의해 얻어지는 데이터 세트이며, 상기 주요 핵산 및 상기 부차 핵산에 있어서의, 복수의 다형 자위에 있어서의 각 대립유전자의 존재를 나타내는 신호를 포함하는 데이터 세트(단, 상기 신호의 진위는 이미 알려져 있음)를 준비하는 공정.
[공정 A-3-2]
상기 복수의 다형 좌위 중에서, 상기 주요 핵산에서 유래하는 대립유전자의 존재를 나타내는 신호와 상기 부차 핵산에서 유래하는 대립유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 상기 부차 핵산에서 유래하는 특정의 다형 좌위의 대립 유전자의 존재를 나타내는 부차 성분 신호 강도를 복수로 구분하고, 각 구분에 포함되는 상기 부차 성분 신호 강도 중 이것이 진 이었던 비율을, 각 구분에 포함되는 상기 부차 성분 신호 강도에 대응하는 확률로서 부여하는 공정.
[공정 A-4-2]
상기 각 구분에 포함된 상기 부차 성분 신호 강도와, 상기 각 구분에 포함된 상기 부차 성분 신호 강도에 대응하는 확률에 대해 회귀분석을 실시하여, 상기 부차 성분 신호 강도를 설명 변수로, 신뢰성 값을 목적 변수로 갖는, 신뢰성 값을 산출하기 위한 모델 함수를 준비하는 공정.
[12] 이하의 공정 A-1, 공정 A-3-3 및 공정 A-4-3을 포함하는 것을 특징으로 하는, 부차 성분 신호의 신뢰성 값을 산출하기 위한 모델 함수의 작성 방법.
[공정 A-1]
주요 기여체에 관한 유전정보를 포함하는 주요 핵산과 부차 기여체에 관한 유전 정보를 포함하는 부차 핵산이 포함되는 혼합 핵산 샘플의 측정에 의해 얻어지는 데이터 세트이며, 상기 주요 핵산 및 상기 부차 핵산에 있어서의, 복수의 다형 좌위에 있어서의 각 대립유전자의 존재를 나타내는 신호를 포함하는 데이터 세트(단, 상기 신호의 진위는 이미 알려져 있음)를 준비하는 공정이다.
[공정 A-3-3]
상기 복수의 다형 좌위 중에서, 상기 주요 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호와, 상기 부차 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 특정의 다형 좌위의 대립유전자에서 기인하는 신호 강도의 총합에 대한 부차 성분 신호 강도의 비율인 부차 성분 혼입률을 복수로 구분하고, 각 구분에 포함되는 상기 부차 성분 혼입률에 대응하는 부차 성분 신호 강도 중 참인 비율을, 각 구분에 포함되는 상기 부차 성분 혼입률에 대응하는 확률로서 부여하는 공정이다.
[공정 A-4-3]
상기 각 구분에 포함되는 상기 부차 성분 혼입률과, 상기 각 구분에 포함되는 상기 부차 성분 혼입률에 대응하는 확률에 대해 회귀 석을 실시하여 상기 부차 성분 혼입률을 설명 변수로, 신뢰성 값을 목적 변수로 갖는, 신뢰성 값을 산출하기 위한 모델 함수를 준비하는 공정.
[13] 상기 모델 함수가 시그모이드 함수인 것을 특징으로 하는, [1]~[12] 중 어느 하나에 기재된 방법.
[14] 상기 모델 함수가 2개의 매개 변수를 가지는 시그모이드 함수인 것을 특징으로 하는, [1]~[13] 중 어느 하나에 기재된 방법.
[15] [1]~[10] 중 어느 하나에 기재된 방법으로 작성한 모델 함수와,
[11]에 기재된 방법으로 작성한 모델 함수와,
[12]에 기재된 방법으로 작성한 모델 함수로 이루어지는 군에서 선택되는 2 이상의 모델 함수를 서로 곱하여 곱셈으로 나타내는 모델 함수를 작성하는 공정을 구비하는, 모델 함수의 작성 방법.
[16] [1]~[10] 중 어느 하나에 기재된 방법으로 작성한 모델 함수와,
[11]에 기재된 방법으로 작성한 모델 함수, 및/또는 [12]에 기재된 방법으로 작성한 모델 함수를 서로 곱하여 곱셈으로 나타내는 모델 함수를 작성하는 공정을 구비하는, 모델 함수의 작성 방법.
[17] [1]~[10] 중 어느 하나에 기재된 방법으로 작성한 모델 함수와,
[11]에 기재된 방법으로 작성한 모델 함수와,
[12]에 기재된 방법으로 작성한 모델 함수를 서로 곱하여 곱셈으로 나타내는 모델 함수를 작성하는 공정을 구비하는, 모델 함수의 작성 방법.
[18] 상기 다형 좌위가 일염기다형을 포함하는 좌위인 것이 특징으로 하는, [1]~[17] 중 어느 하나에 기재된 방법이다.
[19] 상기 데이터 세트가 염기서열 분석, 디지털 PCR, 마이크로어레이, 실시간 PCR 또는 질량분석에 의해 취득한 데이터인 것을 특징으로 하는, [1]~[18] 중 어느 하나에 기재된 방법.
[20] 상기 데이터 세트가 염기서열 분석에 의해 취득된 데이터이며,
상기 부차 성분 신호 강도가 배열 태그의 카운트 수, 리드 수, 이온 농도 또는 전기 신호인 것을 특징으로 하는, [1]~[18] 중 어느 하나에 기재된 방법.
[21] 상기 데이터 세트가 디지털 PCR에 의해 취득된 데이터이며,
상기 부차 성분 신호 강도가 형광이 관찰된 웰의 수인 것을 특징으로 하는, [1]~[18] 중 어느 하나에 기재된 방법이다.
[22] 상기 데이터 세트가 마이크로어레이에 의해 취득한 데이터이며,
상기 부차 성분 신호 강도가 형광 광도인 것을 특징으로 하는, [1]~[18] 중 어느 하나에 기재된 방법.
[23] 상기 주요 기여체가 모친이고, 상기 부차 기여체가 상기 모친의 태내에 있는 태아이며, 상기 혼합 핵산 샘플이 상기 모친에서 채취한 순환 무세포 핵산 샘플이고, 상기 공정 A-1, 공정 A-2, 공정 A-3-1 및 공정 A-4-1이 각각 공정 A1-1, 공정 A1-2, 공정 A1-3-1 및 공정 A1-4-1인 것을 특징으로 하는, [1]~[11] 중 어느 하나에 기재된 방법.
[공정 A1-1]
모친에 관한 유전정보를 포함하는 주요 핵산과 태아에 관한 유전 정보를 포함하는 부차 핵산을 포함하는 순환 무세포 핵산 샘플의 측정을 통해 얻은 데이터 세트이자, 상기 주요 핵산과 상기 부차 핵산에 있어서의, 복수의 다형 좌위에 있어서의 각 대립 유전자의 존재를 나타내는 신호를 포함하는 데이터 세트(단, 상기 신호의 진위는 이미 알려져 있음)를 준비하는 공정.
[공정 A1-2]
상기 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서, 상기 모친에서 동형 접합이고 부친에서 동형 접합이며, 또한 상기 주요 핵산에서 유래한 대립유전자의 존재를 나타내는 신호와 상기 부차 핵산에서 유래한 대립유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 상기 (A1) 및 상기 (A2)를 포함하는 수치군을 선형결합하여 1 개 이상의 합성 변수를 생성하는 공정.
[공정 A1-3-1]
상기 공정 A1-2에서 생성된 합성 변수를 복수로 구분하고, 각 구분에 포함된 상기 합성 변수에 대응하는 부차 성분 신호 강도 중 참인 비율을, 각 구분에 포함된 상기 합성 변수에 대응하는 확률로 부여하는 공정.
(단, 상기 모친과에서 동형 접합이고 부친에서 동형 접합이며, 상기 모친과 상기 부친이 서로 이형인 대립유전자에 대하여,
주요 성분 신호와 상기 부차 성분 신호가 구별되어 검출된 경우 해당 부차 성분 신호를 참(眞)으로 하고,
주요 성분 신호와 상기 부차 성분 신호가 구별되어 검출되지 않았을 경우 해당 부차 성분 신호를 거짓(僞)으로 한다.
상기 모친에서 동형 접합이고 부친에서 동형 접합이며, 상기 모친과 상기 부친이 서로 동형인 대립유전자에 대하여,
주요 성분 신호와 상기 부차 성분 신호가 구별되어 검출된 경우 해당 부차 성분 신호를 거짓으로 하고,
주요 성분 신호와 상기 부차 성분 신호가 구별되어 검출되지 않았을 경우 해당 부차 성분신호를 참으로 한다.)
[공정 A1-4-1]
상기 각 구분에 포함되는 상기 합성 변수와, 상기 각 구분에 포함되는 상기 합성 변수에 대응하는 확률에 대해 회귀분석을 실시하여 상기 합성 변수를 설명 변수로, 신뢰성 값을 목적 변수로 갖는, 신뢰성 값을 산출하기 위한 모델 함수를 준비하는 공정이다.
[24] 상기 주요 기여체가 건강인 이고 상기 부차 기여체가 암세포이며, 상기 공정 A-1, 공정 A-2, 공정 A-3-1 및 공정 A-4-1이 각각 공정 A2-1, 공정 A2-2, 공정 A2-3-1 및 공정 A2-4-1인 것을 특징으로 하는, [1]~[10] 중 어느 하나에 기재된 방법이다.
[공정 A2-1]
상기 건강인에서 채취한, 해당 검사 대상자의 유전정보를 가진 주요 핵산을 포함하는 핵산 샘플에, 암 관련 변이가 도입된 상기 다형 좌위의 염기 서열 정보를 가진 핵산 단편들로 이루어진 부차 핵산을 첨가하여 인공적으로 조제한 혼합 핵산 샘플의 측정을 통해 구한 데이터가 포함된 데이터 세트이자,
상기 주요 핵산의 정상형 대립유전자의 존재를 나타내는 신호와, 상기 부차 핵산의 상기 변이를 가진 대립유전자의 존재를 나타내는 신호로 이루어진 데이터 세트를 준비하는 공정.
[공정 A2-2]
상기 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서, 상기 주요 핵산에서 유래한 대립유전자의 존재를 나타내는 신호와 상기 부차 핵산에서 유래한 대립유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 상기 (A1) 및 상기 (A2)를 포함하는 수치군을 선형결합하여 1 개 이상의 합성 변수를 생성하는 공정.
[공정 A2-3-1]
상기 공정 A2-2에서 생성한 합성 변수를 복수로 구분하고, 각 구분에 포함된 상기 합성 변수에 대응하는 부차 성분 신호 강도 중 참인 비율을, 각 구분에 포함된 상기 합성 변수에 대응하는 확률로 부여하는 공정.
(단, 상기 변이가 도입된 상기 다형 좌위의 염기 서열 정보를 가진 핵산 단편을 혼합 핵산 샘플에 첨가하였을 때에는,
해당 핵산 단편에 대하여 부차 성분 신호가 검출된 경우 해당 부차 성분 신호를 참으로 하고,
해당 핵산 단편에 대하여 부차 성분 신호가 검출되지 않았을 경우 해당 부차 성분 신호를 거짓으로 한다.
상기 변이가 도입된 상기 다형 좌위의 염기 서열 정보 가진 핵산 단편을 혼합 핵산 샘플에 첨가하지 않았을 때에는,
해당 핵산 단편에 대하여 부차 성분 신호가 검출된 경우 해당 부차 성분 신호를 거짓으로 하고,
해당 핵산 단편에 대하여 부차 성분 신호가 검출되지 않았을 경우 해당 부차 성분 신호를 참으로 한다.)
[공정 A2-4-1]
상기 각 구분에 포함된 상기 합성 변수와, 상기 각 구분에 포함된 상기 합성 변수에 대응하는 확률에 대해 회귀분석을 실시하여 상기 합성 변수를 설명 변수로, 신뢰성 값을 목적 변수로 갖는, 신뢰성 값을 산출하기 위한 모델 함수를 준비하는 공정.
[25] 이하 공정 A2'-1, 공정 A2'-2, 공정 A2'-3-1 및 공정 A2'-4-1을 포함하는 것을 특징으로 하는, 부차 성분 신호의 신뢰성 값을 산출하기 위한 모델 함수의 작성방법이다.
[공정 A2'-1]
건강인에서 채취한, 해당 검사 대상자의 유전정보를 가진 주요 핵산을 포함하는 핵산 샘플에, 암 관련 변이가 도입된 상기 단일 다형 좌위의 염기 서열 정보를 갖는 핵산 단편들로 이루어진 부차 핵산을 첨가하여 인공적으로 조제한, 상기 부차 핵산의 함유 비율이 서로 다른 여러 개의 혼합 핵산 샘플의 측정을 통해 얻은 데이터로 이루어진 데이터 세트이자,
상기 주요 핵산의 정상형 대립유전자의 존재를 나타내는 신호와, 상기 부차 핵산의 상기 변이를 가진 대립유전자의 존재를 나타내는 신호로 이루어진 데이터 세트를 준비하는 공정.
[공정 A2'-2]
상기 데이터 세트에 포함된 데이터 중, 상기 주요 핵산에서 유래한 대립유전자의 존재를 나타내는 신호와 상기 부차 핵산에서 유래한 대립유전자의 존재를 나타내는 신호가 구별되어 검출된 상기 단일 다형 좌위에 관한, 적어도 이하의 (A1')과 (A2')를 포함하는 수치군을 선형결합하여 1 개 이상의 합성 변수를 생성하는 공정.
(A1') 상기 부차 핵산에서 유래한 상기 단일 특정 다형 좌위에 있는 대립유전자의 존재를 나타나는 부차 성분 신호 강도.
(A2') 상기 단일 다형 좌위에 있는 대립유전자에서 기인하는 신호 강도의 총합에 대한 상기 부차 성분 신호 강도의 비율을 나타내는 부차 성분 혼입률.
[공정 A2-3-1]
상기 공정 A2'-2에서 생성된 합성 변수를 복수로 구분하고, 각 구분에 포함된 상기 합성 변수에 대응하는 부차 성분 신호 강도 중 참인 비율을, 각 구분에 포함된 상기 합성 변수에 대응하는 확률로 부여하는 공정.
(단, 상기 변이가 도입된 상기 다형 좌위의 염기 서열 정보를 가진 핵산 단편을 혼합 핵산 샘플에 첨가하였을 때에는,
해당 핵산 단편의 부차 성분 신호가 검출된 경우 해당 부차 성분 신호를 참으로 하고,
해당 핵산 단편의 부차 성분 신호가 검출되지 않았을 경우 해당 부차 성분 신호를 거짓으로 한다.
상기 변이가 도입된 상기 다형 좌위의 염기 서열 정보를 가진 핵산 단편을 혼합 핵산 샘플에 첨가하지 않았을 때에는,
해당 핵산 단편의 부차 성분 신호가 검출된 경우 해당 부차 성분 신호를 거짓으로 하고, 해당 핵산 단편의 부차 성분 신호가 검출되지 않았을 경우 해당 부차 성분 신호를 참으로 한다.)
[공정 A2-4-1]
상기 각 구분에 포함된 상기 합성 변수와, 상기 각 구분에 포함된 상기 합성 변수에 대응하는 확률에 대해 회귀분석을 실시하여 상기 합성 변수를 설명 변수로, 신뢰성 값을 목적 변수로 갖는, 신뢰성 값을 산출하기 위한 모델 함수를 준비하는 공정.
[26] 상기 주요 기여체가 장기 레시피엔트이고 상기 부차 기여체가 이식 장기이며, 상기 공정 A-1, 공정 A-2, 공정 A-3-1 및 공정 A-4-1이 각각 공정 A3-1, 공정 A3-2, 공정 A3-3-1 및 공정 A3-4-1인 것을 특징으로 하는, [1]~[10] 중 어느 하나에 기재된 방법이다.
[공정 A3-1]
레시피엔트의 유전정보를 가진 주요 핵산과 이식 장기의 유전정보를 가진 부차 핵산을 포함하는 핵산 샘플의 측정을 통해 얻은 데이터 세트이자, 상기 주요 핵산 및 상기 부차 핵산에 있어서의, 복수의 다형 좌위에 있어서의 각 대립 유전자의 존재를 나타내는 신호를 포함하는 데이터 세트(단, 상기 신호의 진위는 이미 알려져 있음)를 준비하는 공정.
[공정 A3-2]
상기 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서, 상기 주요 핵산에서 유래한 대립유전자의 존재를 나타내는 신호와 상기 부차 핵산에서 유래한 대립유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 상기 (A1) 및 상기 (A2)를 포함하는 수치군을 선형결합하여 1 개 이상의 합성 변수를 생성하는 공정.
[공정 A3-3-1]
상기 공정 A3-2에서 생성한 합성 변수를 복수로 구분하고, 각 구분에 포함된 상기 합성 변수에 대응하는 부차 성분 신호 강도 중 참인 비율을, 각 구분에 포함된 상기 합성 변수에 대응하는 확률로 부여하는 공정.
(단, 레시피엔트가 가지고 있지 않으며 기증자가 동형 접합 또는 헤테로 접합으로 가지고 있는 대립유전자에 대하여,
주요 성분 신호와 상기 부차 성분 신호가 구별되어 검출된 경우 해당 부차 성분 신호를 참으로 하고,
주요 성분 신호와 상기 부차 성분 신호가 구별되어 검출되지 않았을 경우 해당 부차 성분 신호를 거짓으로 한다.
레시피엔트와 기증자 어느 쪽도 가지고 있지 않은 대립유전자에 대하여,
주요 성분 신호와 상기 부차 성분 신호가 구별되어 검출된 경우 상기 부차 성분 신호를 거짓으로 하고,
주요 성분 신호와 상기 부차 성분 신호가 구별되어 검출되지 않았을 경우 상기 부차 성분 신호를 참으로 한다.)
[공정 A3-4-1]
상기 각 구분에 포함된 상기 합성 변수와, 상기 각 구분에 포함된 상기 합성 변수에 대응하는 확률에 대해 회귀분석을 실시하여 상기 합성 변수를 설명 변수로, 신뢰성 값을 목적 변수로 갖는, 신뢰성 값을 산출하기 위한 모델 함수를 준비하는 공정.
[27] 모델 함수에 설명 변수를 입력하여 신뢰성 값을 산출하는 신뢰성 값의 산출 방법으로, 상기 모델 함수가,
[1]~[26] 중 어느 하나에 기재된 방법으로 구한 상기 모델 함수,
이하 식 1~3 중 하나의 모델 함수, 또는
이하 식 1~3의 모델 함수 중 선택된 2 이상의 모델 함수를 서로 곱하여 곱셈으로 나타낸 모델 함수이며,
상기 설명 변수가 이하 공정 B-1에서 구한 데이터 세트에 포함된 이하 (B1) 및 (B2) 및 이하 공정 B-2에서 구한 합성 변수 중 선택한 1 또는 2 이상의 수치인 것을 특징으로 하는, 신뢰성 값의 산출 방법.
[공정 B-1]
주요 기여체의 유전정보를 가진 주요 핵산과 부차 기여체의 유전정보를 가진 부차 핵산을 포함하는, 또는 혼입되어 있을 수 있는 혼합 핵산 샘플의 측정을 통해 얻는 데이터 세트이자, 상기 주요 핵산 및 상기 부차 핵산에 있는 여러 다형적 유전자의 각 대립유전자의 존재를 나타내는 신호로 이루어진 데이터 세트를 준비하는 공정.
[공정 B-2]
상기 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서, 상기 주요 핵산에서 유래한 대립유전자의 존재를 나타내는 신호와 상기 부차 핵산에서 유래한 대립유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 이하의 (B1)과 (B2)를 포함하는 수치군을 선형결합하여 1 개 이상의 합성 변수를 생성하는 공정.
(B1) 상기 부차 핵산에서 유래한 특정 다형 좌위에 있는 대립유전자의 존재를 나타나는 부차 성분 신호 강도.
(B2) 상기 특정 다형 좌위에 있는 대립유전자에서 기인하는 신호 강도의 총합에 대한 상기 부차 성분 신호 강도의 비율을 나타내는 부차 성분 혼입률.
[수학식 1]
Figure pct00001
(x1: 제1주성분, A1: 천이 영역의 기울기, x01: 중간점)
(단, 식 1중, A1는 15.4~15.6이며, x01는 -0.8~-0.6이다.)
[수학식 2]
Figure pct00002
(x2: 부차 성분 신호 강도, A2: 천이 영역의 기울기, x02: 중간점)
(단, 식 2중, A2는 1.8~2.0이며, x02는 2.5~2.7이다.)
[수학식 3]
Figure pct00003
(x3: 부차 성분 혼입률, A3: 천이 영역의 기울기, x03: 중간점)
(단, 식 3중, A3는 9.3~9.5이며, x03는 0.5~0.7이다.)
[28] 상기 주요 기여체가 모친이고 상기 부차 기여체가 상기 모친의 태내 속 태아이며, 상기 혼합 핵산 샘플이 상기 모친에서 채취한 순환 무세포 핵산 샘플인, 상기 공정 B-1 및 공정 B-2가, 각각 공정 B1-1 및 공정 B1-2인 것을 특징으로 하는, [27]에 기재된 방법이다.
[공정 B1-1]
모친에 관한 유전 정보를 포함하는 주요 핵산과 태아에 관한 유전 정보를 포함하는 부차 핵산을 포함하는 순환 무세포 핵산 샘플의 측정을 통해 얻은 데이터 세트이자, 상기 주요 핵산과 상기 부차 핵산에 있어서의, 복수의 다형 좌위에 있어서의 각 대립 유전자의 존재를 나타내는 신호로 이루어진 데이터 세트를 준비하는 공정.
[공정 B1-2]
상기 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서 상기 모친에서 동형 접합이며, 상기 주요 핵산에서 유래한 대립유전자의 존재를 나타내는 신호와 상기 부차 핵산에서 유래한 대립유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 상기 (B1) 및 상기 (B2)를 포함하는 수치군을 선형결합하여 1 개 이상의 합성 변수를 생성하는 공정.
[29] 상기 복수의 다형 좌위가 사람의 개인 식별에 사용되는 다형 좌위이며
비침습적 산전 친자 검사를 위한 신뢰성 값의 산출 방법인 것을 특징으로 하는, [28]에 기재된 방법이다.
[30] 상기 주요 기여체가 암 검사 대상자이고 상기 부차 기여체가 암세포이며, 상기 혼합 핵산 샘플이 상기 암 검사 대상자에서 채취한 순환 무세포 핵산 샘플인, 상기 공정 B-1 및 공정 B-2가 각각 공정 B2-1 및 공정 B2-2인 것을 특징으로 하는, [27]에 기재된 방법이다.
[공정 B2-1]
암 검사 대상자의 유전정보를 가진 주요 핵산과, 암세포의 유전정보를 가진 부차 핵산이 혼입되어 있을 수 있는 순환 무세포 핵산 샘플의 측정을 통해 얻은 데이터 세트이자, 상기 주요 핵산과 상기 부차 핵산에 있는 여러 암 관련 다형 좌위의 각 대립유전자의 존재를 나타내는 신호로 이루어진 데이터 세트를 준비하는 공정.
[공정 B2-2]
상기 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서, 정상형 대립유전자의 존재를 나타내는 신호와 변이형 대립유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 상기 (B1) 및 상기 (B2)를 포함하는 수치군을 선형결합하여 1 개 이상의 합성 변수를 생성하는 공정.
[31] 상기 공정 B2-2에서, 상기 데이터 세트에 포함된 데이터로부터 상기 복수의 다형 좌위 중에서, 암 검사 대상자에서 변이형 대립유전자가 동형 접합 또는 헤테로 접합인 다형 좌위에 관한 데이터는 제외하고,
제외 후 남은 상기 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서, 정상형 대립유전자의 존재를 나타내는 신호와 변이형 대립유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 상기 (B1) 및 상기 (B2)를 포함하는 수치군을 선형결합하여 1 개 이상의 합성 변수를 생성하는 것을 특징으로 하는, [30]에 기재된 방법이다.
[32] 상기 주요 기여체가 레시피엔트이고 상기 부차 기여체가 이식 장기이며, 상기 혼합 핵산 샘플이 상기 레시피엔트에서 채취한 순환 무세포 핵산 샘플인, 상기 공정 B-1 및 B-2가 각각 공정 B3-1 및 B3-2 인 것을 특징으로 하는, [27]에 기재된 방법.
[공정 B3-1]
레시피엔트의 유전정보를 가진 주요 핵산과, 이식 장기의 유전정보를 가진 부차 핵산이 혼입되어 있을 수 있는 순환 무세포 핵산 샘플의 측정을 통해 얻은 데이터 세트이자, 상기 주요 핵산과 상기 부차 핵산에 있어서의, 복수의 다형 좌위에 있어서의 각 대립 유전자의 존재를 나타내는 신호로 이루어진 데이터 세트를 준비하는 공정.
[공정 B3-2]
상기 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서, 상기 주요 핵산에서 유래하는 대립유전자의 존재를 나타내는 신호와 상기 부차 핵산에서 유래하는 대립유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 상기 (B1) 및 상기 (B2)를 포함하는 수치군을 선형결합하여 1 개 이상의 합성 변수를 생성하는 공정.
[33] 상기 복수의 다형 좌위가 사람의 개인식별에 사용되는 다형 좌위이며,
이식 장기의 정착 경과 모니터링을 위한 신뢰성 값의 산출 방법인 것을 특징으로 하는, [32]에 기재된 방법.
[34] [27]~[33] 중 어느 하나에 기재된 방법을 통해 신뢰성 값의 산출에 적절하지 않은 데이터를 제외하기 위한 제외 조건을 설정하는 방법이며, 이하 공정 C-1-1, 공정 C-2-1, 공정 C-3-1 및 공정 C-4-1을 포함하는 것을 특징으로 하는 제외 조건 설정 방법이다.
[공정 C-1-1]
주요 기여체의 유전정보를 가진 주요 핵산과 부차 기여체의 유전정보를 가진 부차 핵산을 포함하는 혼합 핵산 샘플의 측정을 통해 얻은 데이터 세트이자, 상기 주요 핵산과 상기 부차 핵산에 있어서의, 복수의 다형 좌위에 있어서의 각 대립 유전자의 존재를 나타내는 신호로 이루어진 데이터세트(단, 상기 신호의 진위는 이미 알려져 있음)를 준비하는 공정. (단, 상기 주요 기여체가 모친, 상기 부차 기여체가 상기 모친의 태내 속에 있는 태아이며 상기 혼합 핵산 샘플은 상기 모친에서 채취한 순환 무세포 핵산 샘플이거나,
상기 주요 기여체가 레시피엔트, 상기 부차 기여체가 이식 장기이며 상기 혼합 핵산 샘플은 상기 레시피엔트에서 채취한 순환 무세포 핵산 샘플이다.)
[공정 C-2-1]
상기 모친에서 동형 접합이고 부친에서 동형 접합이며, 상기 모친과 상기 부친에서 서로 이형인 대립유전자, 또는,
상기 레시피엔트에서 동형 접합이고 상기 장기 기증자에서 동형 접합이며, 상기 레시피엔트와 상기 기증자에서 서로 이형인 대립유전자가 존재하는 다형 좌위에 관한, 적어도 이하의 (C1), (C2) 및 (C3)을 포함하는 수치군을 선형결합하여 구한 합성 변수 중 가장 기여율이 높을 합성 변수를 생성하는 공정.
(C1) 상기 부차 핵산에서 유래한 특정 다형 좌위에 있는 대립유전자의 존재를 나타나는 부차 성분 신호 강도.
(C2) 상기 특정 다형 좌위에 있는 대립 유전자에서 기인하는 신호 강도의 총합에 대한 상기 부차 성분 신호 강도의 비율을 나타내는 부차 성분 혼입률.
(C3) 상기 특정 다형 좌위에 있는 대립유전자에서 기인하는 신호 강도의 총합으로부터 상기 주요 성분 신호 강도 및 상기 부차 성분 신호 강도를 차감하여 구하는 노이즈.
[공정 C-3-1]
상기 공정 C-2-1에서 상기 선형결합에 의해 구한 상기 합성 변수의 이상치의 일부, 또는 전부를 제외하도록 상기 합성 변수에 역치를 설정하는 공정.
[공정 C-4-1]
신뢰성 값의 산출을 위한 모델 함수에 입력하는 데이터 세트로부터 제외해야 하는 데이터의 조건을, 이하 제외 조건 C1으로 설정하는 공정.
(제외 조건 C1)
모친 또는 레시피엔트의 유전정보를 가진 주요 핵산과, 태아 또는 이식 장기의 유전정보를 가진 부차 핵산을 포함하는 혼합 핵산 샘플의 분석을 통해 얻은 데이터 세트 중,
모친에서 동형 접합이고 아버지로 추정되는 사람에서 동형 접합이며, 상기 모친과 상기 아버지로 추정되는 사람에서 서로 이형인 대립유전자, 또는,
상기 레시피엔트에서 동형 접합이고 상기 장기 기증자에서 동형 접합이며, 상기 레시피엔트와 상기 기증자에서 서로 이형인 대립유전자가 존재하는 다형 좌위에 관한, 적어도 상기 (C1), 상기 (C2) 및 상기 (C3)을 포함하는 수치군을 선형결합하여 구한 합성 변수 중, 가장 기여율이 높은 합성 변수가 상기 공정 C-3-1에서 설정한 상기 역치 미만에 해당하는 데이터 세트는 제외한다.
[35] [27]~[33] 중 어느 하나에 기재된 방법에 의한 신뢰성 값의 산출에 적절하지 않은 데이터를 제외하기 위한 제외 조건을 설정하는 방법이자, 이하 공정 C-1-2, 공정 C-2-2, 공정 C-3-2 및 공정 C-4-2를 포함하는 것을 특징으로 하는 제외 조건 설정 방법이다.
[공정 C-1-2]
주요 기여체의 유전정보를 가진 주요 핵산과 부차 기여체의 유전정보를 가진 부차 핵산을 포함하는 혼합 핵산 샘플의 측정을 통해 얻은 데이터 세트이자, 상기 주요 핵산과 상기 부차 핵산에 있어서의, 복수의 다형 좌위에 있어서의 각 대립 유전자의 존재를 나타내는 신호로 이루어진 데이터세트(단, 상기 신호의 진위는 이미 알려져 있음)를 준비하는 공정.
(단, 상기 주요 기여체가 모친, 상기 부차 기여체가 상기 모친의 태내 속 태아이며 상기 혼합 핵산 샘플은 상기 모친에서 채취한 순환 무세포 핵산 샘플이거나,
상기 주요 기여체가 레시피엔트, 상기 부차 기여체가 이식 장기이며 상기 혼합 핵산 샘플은 상기 레시피엔트에서 채취한 순환 무세포 핵산 샘플이다.)
[공정 C-2-2]
상기 모친에서 동형 접합이고 부친에서 동형 접합이며, 상기 모친과 상기 부친에서 동형인 대립유전자, 또는,
상기 레시피엔트에서 동형 접합이고 상기 장기 기증자에서 동형 접합이며, 상기 레시피엔트와 상기 기증자에서 동형인 대립 유전자가 존재하는 다형 좌위에 관한, 적어도 이하의 (C1), (C2), 및 (C3)을 포함하는 수치군을 선형결합하여 구한 합성 변수 중, 첫 번째 또는 두 번째로 기여율이 높은 합성 변수를 생성하는 공정.
(C1) 상기 부차 핵산에서 유래한 특정 다형 좌위에 있는 대립유전자의 존재를 나타나는 부차 성분 신호 강도.
(C2) 상기 특정 다형 좌위에 있는 대립유전자에서 기인하는 신호 강도의 총합에 대한 상기 부차 성분 신호 강도의 비율을 나타내는 부차 성분 혼입률.
(C3) 상기 특정 다형 좌위에 있는 대립유전자에서 기인하는 신호 강도의 총합으로부터 상기 주요 성분 신호 강도 및 상기 부차 성분 신호 강도를 차감하여 구하는 노이즈.
[공정 C-3-2]
상기 공정 C-2-2에서 상기 선형결합에 의해 구한 상기 합성 변수의 이상치의 일부, 또는 전부를 제외하도록 상기 합성 변수에 역치를 설정하는 공정.
[공정 C-4-2]
신뢰성 값의 산출을 위한 모델 함수에 입력하는 데이터 세트로부터 제외해야 하는 조건을, 이하 제외 조건 C2으로 설정하는 공정.
(제외 조건 C2)
모친 또는 레시피엔트의 유전정보를 가진 주요 핵산과 태아 또는 이식 장기의 유전정보를 가진 부차 핵산을 포함하는 혼합 핵산 샘플의 분석을 통해 얻은 데이터 세트 중,
모친에서 동형 접합이고 아버지로 추정되는 사람에서 동형 접합이며, 상기 모친과 상기 아버지로 추정되는 사람에서 동형인 대립유전자, 또는,
상기 레시피엔트에서 동형 접합이고 상기 장기 기증자에서 동형 접합이며, 상기 레시피엔트와 상기 기증자에서 동형인 대립유전자가 존재하는 다형 좌위에 관한, 적어도 상기 (C1), 상기 (C2) 및 상기 (C3)을 포함하는 수치군을 선형결합하여 구한 합성 변수 중, 첫 번째 또는 두 번째로 기여율이 높은 합성 변수가 상기 공정 C-3-2에서 설정한 상기 역치 미만에 해당하는 데이터 세트는 제외한다.
[36] 상기 다형 좌위가 사람의 개인 식별에 사용되는 일염기다형을 가진 다형 좌위인 것을 특징으로 하는, [34] 또는 [35]에 기재된 방법.
[37] 이식 장기의 정착 경과를 모니터링하기 위한 방법인 것을 특징으로 하는, [34]~[36] 중 어느 하나에 기재된 방법.
[38] 상기 이상치가, [27]~[33] 중 어느 하나에 기재된 방법을 통해 신뢰성 값을 산출할 때에,
상기 부차 핵산에서 유래한 특정 대립유전자가 상기 혼합 핵산 샘플에 혼입되어 있음에도 불구하고, 해당 대립유전자 신호의 신뢰성이 0.8 미만으로 산출되어버린 경우에서의 해당 대립유전자에 관련된 수치, 및/또는
상기 부차 핵산에서 유래한 특정 대립유전자가 상기 혼합 핵산 샘플에 함유되어 있지 않음에도 불구하고, 해당 대립유전자 신호의 신뢰성이 0.2 이상으로 산출되어버린 경우에서의 해당 대립유전자에 관련된 수치인 것을 특징으로 하는, [34]~[37] 중 어느 하나에 기재된 방법.
[39] 상기 이상치가 상기 합성 변수의 평균치로부터 표준편차의 2배 이상 떨어진 수치인 것을 특징으로 하는, [34]~[38] 중 어느 하나에 기재된 방법.
[40] 상기 공정 B-1에서,
[34]에 기재된 방법으로 특정한 제외 조건 C1 및/또는 [35]에 기재된 방법으로 특정한 제외 조건 C2에 해당하는 데이터 세트를 제외한 후에 남은 데이터 세트를 준비하는 것을 특징으로 하는, [32] 또는 [33]에 기재된 방법.
[41] 모델 함수에 설명 변수를 입력하여 신뢰성 값을 산출하는 신뢰성 값의 산출 방법으로,
상기 모델 함수가,
[1]~[26] 중 어느 하나에 기재된 방법으로 구한 상기 모델 함수,
이하 식 1~3 중 하나의 모델 함수, 또는
이하 식 1~3의 모델 함수 중 선택된 2이상의 모델 함수를 서로 곱하여 곱셈으로 나타낸 모델 함수이며,
상기 설명 변수가 이하 공정 B4-1에서 준비한 데이터 세트에 포함된 이하의 (B1), (B2) 및 이하의 공정 B4-2에서 구한 합성 변수 중 선택한 1 또는 2 이상의 수치인 것을 특징으로 하는, 신뢰성 값의 산출 방법.
[공정 B4-1]
모친에 관한 유전 정보를 포함하는 주요 핵산과 상기 모친의 태내 속 태아에 관한 유전 정보를 포함하는 부차 핵산을 포함하는, 상기 모친에서 채취한 순환 무세포 핵산 샘플의 측정을 통해 구한 데이터 세트이자, 상기 주요 핵산과 상기 부차 핵산에 있는 여러 질환 관련 다형 좌위의 각 대립유전자의 존재를 나타내는 신호로 이루어진 데이터 세트를 준비하는 공정.
[공정 B4-2]
상기 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서, 모친에서 변이형인 대립유전자를 헤테로 접합으로 가진 다형 좌위에 관한 데이터는 제외하고,
제외 후 남은 상기 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서, 상기 주요 핵산 유래하는 대립유전자의 존재를 나타내는 신호와 상기 부차 핵산에서 유래하는 대립유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 이하의 (B1) 및 (B2)를 포함하는 수치군을 선형결합하여 1 개 이상의 합성 변수를 생성하는 공정.
(B1) 상기 부차 핵산에서 유래한 특정 다형 좌위에 있는 대립유전자의 존재를 나타나는 부차 성분 신호 강도.
(B2) 상기 특정 다형 좌위에 있는 대립유전자에서 기인하는 신호 강도의 총합에 대한 상기 부차 성분 신호 강도의 비율을 나타내는 부차 성분 혼입률.
[수학식 1]
Figure pct00004
(x1: 제1주성분, A1: 천이 영역의 기울기, x01: 중간점)
(단, 식 1중, A1는 15.4~15.6이며, x01는 -0.8~-0.6이다.)
[수학식 2]
Figure pct00005
(x2: 부차 성분 신호 강도, A2: 천이 영역의 기울기, x02: 중간점)
(단, 식 2중, A2는 1.8~2.0이며, x02는 2.5~2.7이다.)
[수학식 3]
Figure pct00006
(x3: 부차 성분 혼입률, A3: 천이 영역의 기울기, x03: 중간점)
(단, 식 3중, A3는 9.3~9.5이며, x03는 0.5~0.7이다.)
[42] 질환 리스크를 평가하는 비침습적 산전 검사를 위한 신뢰성 값을 산출하는 방법인 것을 특징으로 하는, [41]에 기재된 방법.
[43] [1]~[42] 중 어느 하나에 기재된 방법을 컴퓨터에 실행하기 위한 프로그램.
[44] [43]에 기재된 프로그램을 기록하는 기록 매체.
[45] [1]~[26] 중 어느 하나에 기재된 방법으로 작성한 모델 함수,
이하 식 1~3중 어느 하나에 기재된 모델 함수, 또는
이하 식 1~3의 모델 함수 중 선택된 2 이상의 모델 함수를 서로 곱하여 곱셈으로 나타낸 모델 함수가 기록된 기억 매체.
[수학식 1]
Figure pct00007
(x1: 제1주성분, A1: 천이 영역의 기울기, x01: 중간점)
(단, 식 1중, A1는 15.4~15.6이며, x01는 -0.8~-0.6이다.)
[수학식 2]
Figure pct00008
(x2: 부차 성분 신호 강도, A2: 천이 영역의 기울기, x02: 중간점)
(단, 식 2중, A2는 1.8~2.0이며, x02는 2.5~2.7이다.)
[수학식 3]
Figure pct00009
(x3: 부차 성분 혼입률, A3: 천이 영역의 기울기, x03: 중간점)
(단, 식 3중, A3는 9.3~9.5이며, x03는 0.5~0.7이다.)
[46] [1]~[26] 중 어느 하나에 기재된 방법으로 작성한 모델 함수,
이하 식 1~3중 어느 하나에 기재된 모델 함수, 또는
이하 식 1~3의 모델 함수 중 선택된 2이상의 모델 함수를 서로 곱하여 곱셈으로 나타낸 모델 함수가 기록된 기억부와, [27]~[33] 및 [40]~[42] 중 어느 하나에 기재된 방법으로 실행된 처리부를 포함하는 신뢰성 값의 산출 시스템.
[수학식 1]
Figure pct00010
(x1: 제1주성분, A1: 천이 영역의 기울기, x01: 중간점)
(단, 식 1중, A1는 15.4~15.6이며, x01는 -0.8~-0.6이다.)
[수학식 2]
Figure pct00011
(x2: 부차 성분 신호 강도, A2: 천이 영역의 기울기, x02: 중간점)
(단, 식 2중, A2는 1.8~2.0이며, x02는 2.5~2.7이다.)
[수학식 3]
Figure pct00012
(x3: 부차 성분 혼입률, A3: 천이 영역의 기울기, x03: 중간점)
(단, 식 3중, A3는 9.3~9.5이며, x03는 0.5~0.7이다.)
[47] 상기 기억부에 [34]에 기재된 방법으로 작성한 제외 조건 C1 및/또는 [35]에 기재된 방법으로 작성한 제외 조건 C2가 기록되어 있으며,
상기 처리부는 [40]에 기재된 방법을 실행하는 것을 특징으로 하는, [46]에 기재된 신뢰성 값의 산출 시스템.
본 발명의 모델 함수 작성 방법에 의하면, cffDNA, ctDNA, ddcfDNA와 같이 부차 핵산을 극소량 포함하는 혼합 핵산 샘플의 분석 데이터로부터, 부차 성분 신호의 신뢰성 값을 산출하기 위한 모델 함수를 작성할 수 있다.
또한, 본 발명의 신뢰성 값의 산출 방법에 의하면, cffDNA, ctDNA, ddcfDNA와 같이 부차 핵산을 극소량 포함하는 혼합 핵산 샘플의 분석 데이터로부터, 부차 성분 신호의 신뢰성 값을 산출할 수 있다.
또한, 본 발명의 제외 조건 설정 방법에 의하면, 상기 모델 함수에 입력해야 하는 설명 변수의 데이터를 좁히기 위해, 데이터 세트에서 제외해야 하는 데이터를 판정하기 위한 제외 조건을 설정할 수 있다.
[도면1] 모델 함수 f1(x1)을 나타내는 시그모이드 곡선이다. 세로축의 "확률"은 신뢰성, 가로축의 "주성분 1"은 주성분분석을 통해 얻은 제1주성분이다. 그래프에서 흰색 데이터 포인트는 회귀 분석에 이용한 신뢰성과 제1주성분을 나타낸다.
[도면2] 모델 함수 f2(x2)를 나타내는 시그모이드 곡선이다. 세로축의 "확률"은 신뢰성, 가로축의 "태아 마이너 카운트"는 부차 성분 신호 강도의 절대치이다. 그래프에서 흰색 데이터 포인트는 회귀분석에 이용한 신뢰성과 부차 성분 신호 강도의 절대치를 나타낸다.
[도면3] 모델 함수 f3(x3)을 나타내는 시그모이드 곡선이다. 세로축의 "확률"을 신뢰성, 가로축의 "태아 마이너 프리퀀시"는 부차 성분 혼입률이다. 그래프에서 흰색 데이터 포인트는 회귀분석에 이용한 신뢰성과 부차 성분 혼입률을 나타낸다.
[도면4] 시험 예 2에서 산출한 신뢰성 값 (Fidelity)의 분포도이다. 왼쪽은 부모가 각각 동형 접합이며 서로 이형인 SNPs의 신뢰성 값을 집계하였다. 오른쪽은 부모가 각각 동형 접합이며 서로 동형인 SNPs의 신뢰성 값을 집계하였다.
[도면5] 제외 조건 1을 검토하기 위해 작성한 주성분분석을 통해 얻은 주성분을 y축, 신뢰성 값을 x축으로 나타낸 산포도이다. 왼쪽에서부터 제1 주성분, 제2 주성분, 제3 주성분, 제4 주성분, 제5 주성분을 y축으로 가진 산포도이다.
[도면6] 제외 조건 2를 검토하기 위해 작성한 주성분분석을 통해 얻은 주성분을 y축, 신뢰성 값을 x축으로 나타낸 산포도이다. 왼쪽에서부터 제1 주성분, 제2 주성분, 제3 주성분, 제4 주성분, 제5 주성분을 y축으로 가진 산포도이다.
[도면7] 시험 예 4에서 산출한 신뢰성 값 (Fidelity)의 분포도이다. 왼쪽은 부모가 각각 동형 접합이며 서로 이형인 SNPs의 신뢰성 값을 집계하였다. 오른쪽은 부모가 각각 동형 접합이며 서로 동형인 SNPs의 신뢰성 값을 집계하였다.
[도면8] 시험 예 5에서 산출한 신뢰성 값 (Fidelity)의 분포도이다. 왼쪽은 부모가 각각 동형 접합이며 서로 이형과 동형인 SNPs의 신뢰성 값을 집계하였다. 오른쪽은 서로 다른 NGS 타깃 패널 해석인 시험 예 2와 시험 예 5에서 산출한 신뢰성 값 (Fidelity)의 비율을 나타낸다.
[도면9] 시험 예 6에서 태어난 아이의 DNA의 해석으로부터 확정한 SNPs 유전형에 대한 신뢰성 값 (Fidelity)의 분포도를 숫자로 집계하였다.
[도면10] 시험 예 2와 시험 예 8에서 산출한 신뢰성 값 (Fidelity)의 분포도이다. 왼쪽은 부모가 각각 동형 접합이며 서로 이형인 SNPs의 신뢰성 값을 집계하였다 (태아의 유전형은 헤테로 접합). 오른쪽은 부모가 각각 동형 접합이며 서로 동형인 SNPs의 신뢰성 값을 집계하였다.
[도면11] 시험 예 6과 시험 예 9에서 산출한 신뢰성 값 (Fidelity)의 분포도이다. 왼쪽은 부모가 각각 동형 접합이며, 신생아가 헤테로 접합인 SNPs의 신뢰성 값을 집계하였다. 오른쪽은 부모가 각각 동형 접합이며, 신생아가 동형 접합인 SNPs의 신뢰성 값을 집계하였다.
이하, 본 발명의 모델 함수 작성 방법, 신뢰성 값의 산출 방법, 제외 조건 설정 방법의 순서로 구체적인 실시 형태에 대하여 설명한다. 단, 본 발명의 범위는 이하에서 설명한 구체적인 실시 형태에 한정되지 않는다.
<1> 모델 함수 작성 방법
이하, 본 발명의 모델 함수 작성 방법의 실시 형태에 대해 설명한다. "<1-1>개요" 항목에서는 본 발명의 모델 함수 작성 방법의 개요에 대한 설명을, "<1-2> 산전 유전학적 검사" 항목에서는 산전 유전학적 검사와 그 응용 예시에 대한 구체적인 설명을, "<1-3> 암 검사" 항목에서는 암 검사와 그 응용 예시에 대한 구체적인 설명을, "<1-4> 이식 장기의 정착 모니터링" 항목에서는 이식 장기의 정착 경과 모니터링과 그 응용 예시에 대한 구체적인 설명을 상술한다.
<1-1> 개요
본 발명의 모델 함수 작성 방법은, 공정 A-1, 공정 A-2, 공정 A-3-1 및 공정 A-4-1를 필수 공정으로 포함한다. 이하, 순서대로 설명한다.
[공정 A-1]
공정 A-1은 혼합 핵산 샘플의 측정을 통해 구한 데이터 세트를 준비하는 공정이다.
"혼합 핵산 샘플"이란, 여러 기여체의 유전정보가 혼입된 샘플이다. 여기서 말하는 유전정보는 DNA에 코딩된 유전정보 외에도 RNA에 코딩된 유전정보를 포괄한다.
혼합 핵산 샘플로는 cfDNA와 cfRNA 등이 혼합된 샘플을 사용할 수 있다. 구체적으로는 전혈, 혈장, 혈청, 소변 등을 들 수 있으며, 가급적이면 전혈과 혈장, 혈청을 사용하는 것이 좋다.
혼합 핵산 샘플에는 주요 기여체의 유전정보를 가진 주요 핵산과 부차 기여체의 유전정보를 가진 부차 핵산이 혼입되어 있다. 또한, 혼합 핵산 샘플에 함유된 주요 핵산과 부차 핵산의 비율은, 주요 기여체와 부차 기여체의 상황에 따라 다를 수 있다.
여기서 말하는 "주요 기여체"란 산전 유전학적 검사의 경우에는 모친, 암 검사의 경우에는 검사 대상자, 이식 장기의 정착 경과 모니터링의 경우에는 레시피엔트가 해당된다. 즉, "주요 기여체"란 혼합 핵산 샘플이 채취된 개체를 가리킨다.
"주요 핵산"이란, 상기 주요 기여체의 유전정보를 포함하는 핵산이다. 산전 유전학적 검사의 경우에는 모친의 게놈 DNA 또는 그 단편이나 모친의 게놈 DNA의 전사물인 RNA(모친 유래의 cfDNA 또는 cfRNA), 암 검사의 경우에는 검사 대상자의 게놈 DNA 또는 그 단편이나 검사 대상자의 게놈 DNA의 전사물인 RNA(검사 대상자 유래의 cfDNA 또는 cfRNA), 이식 장기의 정착 경과 모니터링의 경우에는 레시피엔트의 게놈 DNA 또는 그 단편이나 레시피엔트의 게놈 DNA의 전사물인 RNA(레시피엔트 유래의 cfDNA 또는 cfRNA)가 주요 핵산에 해당된다.
"부차 기여체"란 산전 유전학적 검사의 경우에는 태아, 암 검사의 경우에는 암세포, 이식 장기의 정착 경과 모니터링의 경우에는 이식 장기가 해당된다. 즉, "부차 기여체"란 주요 기여체의 체내에 존재하는, 주요 기여체 본래의 유전정보와 다른 유전정보를 가진 개체, 조직 또는 세포를 가리킨다.
"부차 핵산"이란 상기 부차 기여체의 유전정보를 포함하는 핵산이다. 산전 유전학적 검사의 경우에는 태아의 게놈 DNA, 또는 그 단편이나 태아 게놈 DNA의 전사물인 RNA(태아 유래의 cfDNA 또는 cfRNA), 암 검사의 경우에는 암세포의 게놈 DNA, 또는 그 단편이나 암세포 게놈 DNA의 전사물인 RNA(암세포 유래의 cfDNA 또는 cfRNA), 이식 장기의 정착 경과 모니터링의 경우에는 이식 장기의 게놈 DNA, 또는 그 단편이나 이식 장기 게놈 DNA의 전사물인 RNA(이식 장기 유래의 cfDNA 또는 cfRNA)가 부차 핵산에 해당된다.
본 발명의 모델 함수 작성 방법은 어디까지나 모델 함수 작성이 목적이기 때문에, 주요 핵산과 부차 핵산을 포함하는 혼합 핵산 샘플은 인공적으로 만들어진 것이어도 상관없다. 예를 들어, 주요 핵산이 담긴 혈액에 부차 핵산을 모방한 핵산을 첨가하여 혼합 핵산 샘플을 조제해도 좋다.
공정 A-1에서 구한 데이터 세트에는 주요 핵산과 부차 핵산에 있어서의, 복수의 다형 좌위에 있어서의 각 대립 유전자의 존재를 나타내는 신호로 이루어진 데이터 세트가 포함된다. 여기서 데이터 세트에 포함된 다형 좌위의 수는 특별히 한정되어 있지 않으나, 5 이상이 좋으며, 더 바람직하게는 10 이상, 더 바람직하게는 15 이상, 더 바람직하게는 18 이상이 좋다.
이 데이터 세트는 다형 좌위의 각 대립유전자를 구별하여 검출할 수 있는 분석 수단을 사용하여 구한 것인 이상 특별히 한정되지 않는다. 해당 분석 수단으로는, 다형 좌위의 일염기다형(SNPs)을 구별하여 검출할 수 있는 수단이 이상적이다.
분석 수단의 예시로는 SNPs 검출에 사용되는 염기 서열 해석 수단, 디지털 PCR, 마이크로 어레이, 리얼타임 PCR 등을 들 수 있다.
염기 서열 해석 수단의 구체적인 예시로는 차세대 시퀀서(NGS)를 들 수 있다. 차세대 시퀀서는 클론 증폭과정을 거쳐 분자 및 단일 핵산 분자를 대량으로 병렬하여 염기 서열 정보를 읽는 해석 수단이다. 본 발명에서는 아무 NGS 시스템을 사용해도 상관 없다. 사용 가능한 NGS 시스템의 예시로는 파이로시퀀싱 (GS Junior (Roche 사) 등), 가역적 색소 터미네이터를 사용하는 합성에 의한 시퀀싱 (MiSeq (Illumina 사) 등), 라이게이션에 의한 시퀀싱(Seq Studio Genetic Analyzer (Thermo Fisher SCENTIFIC 사) 등), 이온반도체 시퀀싱(Ion Proton System (Thermo Fisher SCENTIFIC 사) 등), CMOS(상보형 금속산화막 반도체) 칩에 의한 시퀀싱 (iSeq 100 system (Illumina 사) 등을 들 수 있다.
차세대 시퀀서를 사용해 염기 서열 데이터를 해석하면, 다형 좌위에서 특정 배열(특정 SNPs)을 갖는 대립유전자의 리드 수를 해당 대립유전자의 존재를 나타내는 신호로 해석할 수 있다.
나아가, 차세대 시퀀서에 사용하는 라이브러리의 조제 단계에서 핵산 분자의 개별 식별을 가능케 하는 바코드 배열(Unique Molecular Identifiers (UMI), Unique Molecular Tag (UMT))을 해석 대상인 핵산 단편에 연결한 경우, 다형 좌위에서 특정 배열(특정 SNPs)을 갖는 대립유전자를 특정하는 UMT 카운트 수를 해당 대립유전자의 존재를 나타내는 신호로 해석할 수 있다.
본 발명의 분석 수단으로 차세대 시퀀서를 채용한 경우, 다형 좌위를 특이적으로 증폭시키는, 기존에 알려진 타깃 시퀀스법을 채용하는 것이 이상적이다.
디지털 PCR은 웰 하나 당 핵산 분자가 하나 정도 들어갈 수 있도록 샘플을 여러 개의 웰에 분배하여 개별적으로 PCR을 실시하는 방법이다. 타깃 배열을 포함하는 웰에서는 PCR 증폭이 진행되어 형광 시그널이 검출되며, 타깃 배열을 포함하지 않는 웰에서는 PCR 증폭이 진행되지 않아 형광 시그널이 검출되지 않는다. PCR 후, 각 웰에서 시그널 증폭 "있음(+)/없음(-)"을 판별하여 시그널 "있음(+)"을 나타내는 웰의 수를 타깃의 복사 수로 산출한다.
디지털 PCR에서 SNPs 등의 변이를 정밀하게 판별할 수 있는 탐침(TaqManR 탐침, 사이클링 크롭 등)을 조합한 경우, 특정 배열(특정 SNPs)을 갖는 대립유전자가 증폭된 웰에서만 형광이 관찰된다. 대립유전자에 따라 다른 발광 파장을 갖는 형광 표지 탐침을 설계하면, 하나의 다형적좌에 존재하는 서로 다른 대립유전자를 형광색에 따라 각각 구별하여 검출할 수 있다. 특정 대립유전자에 대응하는 형광 시그널을 나타내는 웰의 수를, 해당 대립유전자의 존재를 나타내는 신호로 해석할 수 있다.
마이크로어레이는 기존의 배열을 갖는 DNA, DNA 단편, cDNA, 올리고뉴클레오타이드, RNA 또는 RNA단편 등의 핵산을 수백~수십만 개 고체물질 위에 배열하여, 탐침과 상보적인 배열을 갖는 핵산이 결합되었을 때, 이를 형광 표식을 통해 검출하는 방법이다.
하나의 유전자좌에 여러 개의 대립유전자가 존재하는 경우, 각 대립유전자를 개별로 고체물질 위에 부착함으로써 이들을 구별하여 검출할 수 있다. 특정 대립유전자가 부착된 포인트에서의 형광 강도를 해당 대립유전자의 존재를 나타내는 신호로 해석할 수 있다.
리얼타임 PCR은 PCR에 의한 핵산 증폭 양에 따라 생기는 형광을 분광 형광 광도계를 이용하여 실시간으로 모니터 하며 해석하는 방법이다. 리얼타임 PCR에서는 SNPs 등의 변이를 정밀하게 판별할 수 있는 탐침(TaqManR 탐침, 사이클링 탐침 등)을 조합하는 것이 이상적이다. 대립유전자에 따라 다른 발광 파장을 갖는 형광 표식 탐침을 설계하면, 하나의 다형 좌위에 존재하는 서로 다른 대립유전자를 형광색에 따라 각각 구별하여 검출할 수 있다.
리얼타임 PCR을 통해 데이터 세트를 준비하는 경우, 측정 효율의 향상을 위해 멀티플렉스PCR을 채용하는 것이 이상적이다. 멀티플렉스 PCR은 여러 쌍의 프라이머를 사용하여 여러 타깃 배열을 하나의 반응기에서 한꺼번에 증폭시키는 방법이다.
리얼타임 PCR에서는 특정 대립유전자에 대응하는 형광 시그널의 강도를 해당 대립유전자의 존재를 나타내는 신호로 해석할 수 있다.
질량 분석은 분자를 이온화하고, 그 질량 대 전하비(m/z)를 측정함으로써 이온이나 분자의 질량을 측정하는 분석법이다. 원래는 분자의 질량을 측정하는 방법으로 사용되지만, 특정 조건(특정 프라이머를 사용하여 PCR을 실시하는 경우나, 특정 제한효소로 핵산 분자를 절단하는 경우 등)에서 조제된 핵산 분자의 질량을 측정하여 그 질량을 데이터 베이스와 대조하면, 검출된 핵산 분자의 염기서열을 특정할 수 있다. 이 때문에 질량 분석은 지노타이핑에 널리 응용되고 있다.
질량 분석에서는 특정 대립유전자가 가진 염기 서열 특유의 질량 대 전하비(m/z)의 이온강도를, 해당 대립유전자의 존재를 나타내는 신호로 해석할 수 있다.
공정 A-1에서 구한 데이터 세트는, 위에서 상술한 대립유전자 신호의 진위를 기존에 알고 있어야 한다. 즉, 어느 특정 대립유전자의 신호가 검출된 경우, 해당 대립유전자의 염기 서열을 가진 주요 핵산 또는 부차 핵산이 혼합 핵산 샘플에 혼입되어 있는지를 기존에 알고 있어야 한다.
공정 A-1은 데이터 세트를 준비하는 공정이다. 본 발명에서는 데이터 세트를 반드시 일차적으로 구할 필요는 없다. 즉, 공정 A-1의 구체적인 실시 형태로 본 발명의 실시자 본인이 핵산 분석을 통해 일차적으로 데이터를 취득함으로써 상기 데이터 세트를 준비하는 형태도 물론 좋지만, 제 삼자가 핵산 분석을 통해 일차적으로 취득한 데이터 세트를 이차적으로 취득함으로써 상기 데이터 세트를 준비하는 형태이여도 물론 상관없다.
[공정 A-2]
공정 A-2는 위에서 상술한 데이터 세트에 포함된 데이터를 대상으로 주성분 분석을 실행하는 공정이다. 구체적으로는, 상기 데이터 세트에 포함된 데이터의 복수의 다형 좌위 중에서, 주요 핵산에서 유래한 대립유전자의 존재를 나타내는 신호와 부차 핵산에서 유래한 대립유전자의 존재를 나타내는 신호가 구별되어 검출되는 다형 좌위에 관한, 이하 (A1) 및 (A2)를 포함하는 수치군을 선형결합하여 1 개 이상의 합성 변수를 생성한다.
(A1)는 부차 성분 신호 강도이다. 부차 성분 신호 강도란, 부차 핵산에서 유래하는 특정 다형 좌위의 대립유전자의 존재를 나타내는 신호의 강도이다.
혼합 핵산 샘플 분석에서 서로 구별되어 검출된 두 종류의 대립유전자의 존재를 나타내는 신호가, 각각 주요 핵산과 부차 핵산 중 어느 쪽에서 유래하였는지 확인하는 데에 있어서 용이하다.
혼합 핵산 샘플 분석에서는, 대부분의 경우 부차 핵산보다 주요 핵산이 대량 함유되어 있기 때문에 부차 성분 신호 강도가 주요 성분 신호 강도보다 약하다. 따라서 이러한 경우, 두 개의 신호 중 강도가 약한 쪽을 부차 성분 신호로 간주할 수 있다.
그러나, 예를 들어 임신 후기의 산모, 또는 암이 이미 진행되고 있는 환자에서는 그 비율이 반대일 수 있다. 즉, 순환 무세포 샘플에서 부차 핵산의 양이 주요 핵산의 양과 동등하거나 또는 그 이상일 수 있다. 이러한 특수한 경우에는 지노타이핑을 통해 주요 기여체의 유전형을 미리 특정한 후, 혼합 핵산 샘플의 분석 결과와 비교하면 된다. 이 방법을 통해 혼합 핵산 샘플 분석에서 서로 구별되어 검출된 두 종류의 대립유전자의 신호가, 각각 주요 핵산과 부차 핵산 중 어느 쪽에서 유래하였는지 판단할 수 있다.
데이터 세트를 일차적으로 취득할 때에 사용한 측정 수단의 종류나, 취득 후 소프트웨어에 의한 데이터 처리에 따라, 부차 성분 신호 강도를 나타내는 단위나 표현 등이 다양할 수 있다. 본 발명에서는, 부차 핵산에서 유래하는 특정 다형 좌위에 있는 대립유전자의 존재를 나타내는 신호의 강도를 반영하는 모든 수치를 "부차 성분 신호 강도"라 부른다. 즉, 해당 신호 강도를 직접적으로 나타내는 수치 외에도 해당 수치에 정수를 곱한 값이나, 해당 수치의 제곱치 및 제곱근 등, 해당 신호 강도를 반영하는 모든 수치를 "부차 성분 신호 강도"라 표현한다.
예를 들어, 부차 성분 신호 강도의 원 데이터를 표준화한 수치도 "부차 성분 신호 강도"로 취급한다. 표준화에 대해서는 뒤에서 상세히 설명한다.
또한, 검출된 다른 파라미터를 사용해 부차 성분 신호 강도의 원 데이터를 가공하여 얻은 수치도 "부차 성분 신호 강도"로 취급한다. 부차 성분 신호 강도의 원 데이터를 가공하기 위해 사용되는 "다른 파라미터"로는 노이즈 등을 들 수 있다. 노이즈의 정의는 뒤에서 설명한다.
예를 들어, 부차 성분 신호 강도의 원 데이터에서, 해석 대상인 다형 좌위의 노이즈 강도, 또는 그 평균 값을 뺀 수치도 "부차 성분 신호 강도"로 취급할 수 있다. 노이즈 강도의 평균 값을 구할 때의 모수는 노이즈가 검출된 다형적좌의 수, 또는 해석 대상인 모든 다형 좌위의 수이어도 좋다.
구체적으로는, 노이즈가 검출된 다형 좌위와 노이즈가 검출되지 않은 다형 좌위의 구별 없이, 일률적으로 부차 성분 신호 강도의 원 데이터로부터 상기 노이즈 강도의 평균치를 차감하여도 좋다.
또는, 노이즈가 검출된 특정 다형 좌위에 대해서만 부차 성분 신호 강도의 원 데이터로부터 상기 노이즈 강도의 평균치를 차감하여도 좋으며,
노이즈가 검출된 특정 다형 좌위의 부차 성분 신호 강도로부터 해당 다형 좌위에 대해 검출된 노이즈의 강도를 차감하여도 좋다.
또한, 상기 특정 다형 좌위에 있는 대립유전자의 존재를 나타내는 부차 성분 신호 강도를, 상기 복수의 다형 좌위에서의 노이즈 강도의 평균치로 나눈 수치를 "부차 성분 신호 강도"로 취급할 수도 있다.
즉, 아래 식으로 나타낼 수 있는 수치를 "부차 성분 신호 강도"로 취급할 수 있다.
(부차 성분 신호 강도)/(노이즈 강도 평균치)
이와 같이 "부차 성분 신호 강도"라는 표현은 한 종류의 수치만이 아니라 여러 종류의 수치를 포괄한다. 따라서, 공정 A-2에서 선형결합의 대상이 되는 수치군에는 한 종류의 "부차 성분 신호 강도"만이 포함되어 있어도 좋으며, 두 종류 이상의 "부차 성분 신호 강도"가 포함되어도 좋다.
(A2)는 부차 성분 혼입률이다. 부차 성분 혼입률이란, 특정 다형 좌위의 대립유전자에서 기인하는 신호 강도 총합에 대한 부차 성분 신호 강도의 비율이다. 즉, 이하 식으로 나타낼 수 있다.
"부차 성분 혼입률=부차 성분 신호 강도 / 신호 강도 총합"
상기 (A1)에서의 설명과 동일한 이유로, 부차 성분 혼입률을 나타내는 단위나 표현 등은 다양할 수 있다. 본 발명에서는 특정 다형 좌위의 대립유전자에서 기인하는 신호 강도 총합에 대한 부차 성분 신호 강도의 비율을 반영하는 모든 수치를 "부차 성분 혼입률"이라 부른다. 즉, 해당 비율을 직접적으로 나타내는 수치 외에도, 해당 수치에 정수를 곱한 값이나 해당 수치의 제곱치 또는 제곱근 등, 해당 비율을 반영하는 모든 수치를 "부차 성분 혼입률"이라는 표현에 포함한다.
예를 들어, 부차 성분 혼입률의 원 데이터를 표준화한 수치도 "부차 성분 혼입률"이라 표현할 수 있다. 표준화에 대해서는 뒤에서 상세히 설명한다.
또한, 검출된 다른 파라미터를 사용해 부차 성분 혼입률의 원 데이터를 가공하여 얻은 수치도 "부차 성분 혼입률"로 취급할 수 있다. 부차 성분 혼입률의 원 데이터를 가공하기 위해 사용되는 "다른 파라미터"로는, 노이즈를 들 수 있다. 노이즈의 정의는 뒤에서 설명한다.
예를 들어, 부차 성분 혼입률의 원 데이터에서 해석 대상인 복수의 다형 좌위에서의 신호 강도 총합에 대한 노이즈 강도의 비율 (노이즈 혼입률), 또는 그 평균 값을 뺀 수치도 "부차 성분 혼입률"로 취급할 수 있다. 노이즈 혼입률의 평균 값을 구할 때의 모수는 노이즈가 검출된 다형적 좌위의 수, 또는 해석 대상인 모든 다형 좌위의 수 이어도 좋다.
구체적으로는, 노이즈가 검출된 다형 좌위와 노이즈가 검출되지 않은 다형 좌위의 구별 없이, 일률적으로 부차 성분 혼입률의 원 데이터로부터 상기 노이즈 혼입률의 평균치를 차감하는 실시 형태이어도 좋다.
또는, 노이즈가 검출된 특정 다형 좌위에 대해서만 부차 성분 혼입률의 원 데이터로부터 상기 노이즈 혼입률의 평균치를 차감하여도 좋으며,
노이즈가 검출된 특정 다형 좌위의 부차 성분 혼입률로부터 해당 다형 좌위에 대해 검출된 노이즈의 강도의 노이즈 혼입률을 개별로 차감하여도 좋다.
또한, 상기 특정 다형 좌위의 부차 성분 혼입률을 복수의 다형 좌위에서의 노이즈 강도의 평균치로 나눈 수치를 "부차 성분 혼입률"로 취급하여도 좋다.
즉, 이하 식으로 나타낼 수 있는 수치를 "부차 성분 혼입률"로 취급하여도 좋다.
(부차 성분 혼입률)/(노이즈 강도 평균치)
이와 같이 "부차 성분 혼입률"이란 표현은, 한 종류의 수치만이 아니라 여러 종류의 수치를 포괄한다. 따라서, 공정 A-2에서 선형결합의 대상이 되는 수치군에는 한 종류의 "부차 성분 혼입률"만이 포함되어 있어도 좋으며, 두 종류 이상의 "부차 성분 혼입률"이 포함되어도 좋다.
공정 A-2에서 선형결합의 대상이 되는 수치군에는 위에서 상술한 (A1) 및 (A2) 이외의 수치가 포함되어 있어도 좋다. 즉, 특정 다형 좌위에 관한 (A1) 및 (A2) 외에도, 특정 다형 좌위에 관한 여러 측정치 또는 산출치를 포함하는 수치군에 대해 선형결합을 실시한다.
이하 선형결합의 대상이 되는 수치군에 포함해도 되는 수치 (A3)~(A5)에 대해 설명한다. 아래에 열거된 (A3)~(A5) 중 한 종류만을 선택하여 상기 수치군에 포함해도 되며, 임의로 선택한 두 종류 이상의 수치를 상기 수치군에 포함해도 좋다. 또는, (A3)~(A5) 모두 상기 수치군에 포함해도 좋다.
(A3)은 주요 성분 신호 강도이다. 주요 성분 신호 강도란, 주요 핵산에서 유래하는 특정 다형 좌위에 있는 하나의 대립유전자의 존재를 나타내는 신호의 강도이다.
위에서 상술한 바와 같이, 대부분의 경우 순환 무세포 핵산 샘플에 부차 핵산보다 주요 핵산이 더 많이 함유되어 있으므로, 위에서 상술한 부차 성분 신호 강도가 주요 성분 신호 강도보다 필연적으로 약하다. 이러한 경우, 두 개의 신호 중 강도가 강한 쪽을 주요 성분 신호 강도로 간주할 수 있다.
그러나, 예를 들어 임신 후기의 산모, 또는 암이 이미 진행되고 있는 환자에서는 그 비율이 반대일 수 있다. 즉, 순환 무세포 샘플에서 부차 핵산의 양이 주요 핵산의 양과 동등하거나, 또는 그 이상일 수 있다. 이러한 특수한 경우에는 지노타이핑을 통해 주요 기여체의 유전형을 미리 특정한 후, 혼합 핵산 샘플의 분석 결과와 비교하면 된다. 이와 같은 방법을 통해, 혼합 핵산 샘플 분석에서 서로 구별되어 검출된 두 종류의 대립유전자의 신호가, 각각 주요 핵산과 부차 핵산 중 어느 쪽에서 유래하였는지 판단할 수 있다.
상기 (A1)에서의 설명과 동일한 이유로, 해당 신호 강도를 직접적으로 나타내는 수치 외에도 해당 수치에 정수를 곱한 값이나 해당 수치의 제곱치 또는 제곱근 등, 해당 신호 강도를 반영하는 모든 수치를 "주요 성분 신호 강도"에 포함한다. 공정 A-2에서 선형결합의 대상이 되는 수치군에는 한 종류의 "주요 성분 신호 강도"만을 포함하여도 좋으며, 두 종류 이상의 "주요 성분 신호 강도"를 포함하여도 좋다.
(A4)는 주요 성분 혼입률이다. 주요 성분 혼입률이란, 특정 다형 좌위의 대립유전자에서 기인하는 신호 강도 총합에 대한 주요 성분 신호 강도의 비율이다. 즉, 이하 식으로 나타낼 수 있다.
"주요 성분 혼입률=주요 성부 신호 강도 / 신호 강도 총합"
상기 (A2)에서의 설명과 동일한 이유로, 해당 비율을 직접적으로 나타내는 수치 외에도 해당 수치에 정수를 곱한 값이나 해당 수치의 제곱치 또는 제곱근 등, 해당 신호 강도를 반영한 모든 수치가 "주요 성분 혼입률"이라는 표현에 포괄된다. 공정 A-2에서 선형결합의 대상이 되는 수치군에는 한 종류의 "주요 성분 혼입률"만을 포함하여도 좋으며, 두 종류 이상의 "주요 성분 혼입률"을 포함하여도 좋다.
(A5)는 노이즈이다.
생물학적, 유전학적 또는 시험 상의 이유로, 일염기다형를 가진 어느 특정 유전자좌에서 염기 "A" 또는 염기 "G"를 나타내는 신호는 관찰될 수 있지만, 염기 "T" 또는 염기 "C"를 나타내는 신호는 관찰될 수 없는 상황을 생각해 보자. 이러한 상황의 예시로는, 일염기다형을 가진 특정 유전자좌에서 부친이 염기 "A"를 동형 접합으로 가지고 있고 모친이 염기 "G"를 동형 접합으로 가지고 있는 경우에서, 태아의 상기 특정 일염기다형을 관찰하는 상황을 들 수 있다(해당 특정 일염기다형을 가진 유전자좌에서 태아가 염기 "T" 및 염기 "C"를 가지고 있는 것은 통상 있을 수 없다). 본 발명은, 이러한 상황에서 본래 관찰될 수 없는 염기인 "T" 및 "C"를 나타내는 신호가 관찰된 경우, 이 신호를 "노이즈"라 정의한다.
즉, 노이즈는 특정 다형 좌위의 대립유전자에서 기인하는 신호 강도의 총합에서 상기 주요 성분 신호 강도와 상기 부차 성분 신호 강도를 차감하여 구하는 것으로, "신호 강도 총합 - (주요 성분 신호 강도 + 부차 성분 신호 강도)"의 수식으로 나타낼 수 있다.
위에서 상술한 바와 같이, 공정 A-1에서 구하는 데이터 세트는 여러 개의 다형 좌위에 관한 데이터의 집합이다. 이 때문에 공정 A-1에서 구한 데이터 세트에는, 특정 다형 좌위에 관한 상기 (A1), (A2) 및 다른 수치 데이터를 한 세트로 하는 데이터 세트가 여러 세트 포함된다.
또한, 선형결합의 대상이 되는 수치군에 포함되는 수치 데이터는 표준화되어 있는 것이 이상적이다. 표준화 데이터는 다음과 같은 식으로 구할 수 있다.
표준화 데이터 = [(원데이터)-(평균치)]/(표본표준편차)
"주요 핵산에서 유래한 대립유전자의 존재를 나타내는 신호와 부차 핵산에서 유래한 대립유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위"란, 주요 핵산에서 유래한 대립유전자의 존재를 나타내는 신호와 부차 핵산에서 유래한 대립유전자의 존재를 나타내는 신호가 혼재되어 있지 않은 다형 좌위를 뜻한다.
예를 들어 산전 유전학적 검사의 경우, 어느 특정 다형 좌위에서 모친이 대립유전자 A와 대립유전자 B를 헤테로 접합으로 가지고 있을 때, 부친의 유전형과 관계없이 cfDNA 해석 결과에는 모친의 게놈 DNA에서 유래한 대립유전자 A와 대립유전자 B의 신호가 반드시 검출된다. 대립유전자 A 의 신호와 대립유전자 B의 신호 중 한 쪽에는 태아의 cffDNA에서 기인하는 신호가 혼재되어 있으나, 이는 모친의 게놈 DNA에서 기인하는 신호와 구별할 수 없다. 이러한 데이터를 분석에 포함하면 모델 함수의 정확도가 떨어진다.
또는 암 검사에서 검사 대상자가 선천적으로 암 관련 변이를 동형 접합 또는 헤테로 접합으로 가지고 있을 경우, 해당 변이는 반드시 ctDNA에도 함유되어 있기 때문에 검사 대상자에서 유래한 신호와 암세포에서 유래한 신호가 혼재되게 된다. 이러한 데이터를 분석에 포함하면 모델 함수의 정확도가 떨어진다.
이식 장기의 정착 경과 모니터링의 경우, 어느 특정 다형 좌위에서 레시피엔트가 대립유전자 A와 대립유전자 B를 헤테로 접합으로 가지고 있을 때, 장기 기증자의 유전형과 관계없이 cfDNA 해석 결과에는 레시피엔트의 게놈 DNA에서 유래한 대립유전자 A와 대립유전자 B의 신호가 반드시 검출된다. 대립유전자 A의 신호와 대립유전자 B의 신호 중 한 쪽에는 장기 기증자의 cffDNA에서 기인하는 신호가 혼재되어 있으나, 이는 레시피엔트의 게놈 DNA에서 유래한 신호와 구별할 수 없다. 이러한 데이터를 분석에 포함하면 모델 함수의 정확도가 떨어진다.
위에서 상술한 내용를 바탕으로 공정 A-2에서는, 데이터 해석의 대상이 되는 다형 좌위를 "주요 핵산에서 유래한 대립유전자의 존재를 나타내는 신호와 부차 핵산에서 유래한 대립유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위"로 한정하고 있다. 바꾸어 말하면 공정 A-2에서 해석 대상이 되는 다형 좌위는, 부차 핵산에서 유래한 대립유전자의 존재를 나타내는 신호에 주요 핵산에서 유래한 대립유전자의 존재를 나타내는 신호가 혼재되어 있을 가능성이 없는 다형 좌위이어야 한다.
공정 A-2에서는 위에서 상술한 수치군을 선형결합하여 1 개 이상의 합성 변수를 생성한다. 선형결합의 수단으로는 주성분 분석을 좋은 예시로 들 수 있다. 합성 변수는 주성분 분석이 아닌 다른 수단으로 생성하여도 좋으나, 다른 수단으로 생성한 경우에도 주성분 분석을 통해 생성할 수 있는 합성 변수인 것이 이상적이다.
선형결합에 의해 생성된 합성 변수는 이하 1차 제차다항식으로 나타낼 수 있다. 여기서 n은 데이터 세트에 포함된 수치 중, 선형결합 대상이 되는 수치군에 포함되는 수치의 종류의 수를 나타내는 2 이상의 정수이다. Xn은 선형결합의 대상이 되는 수치군에 포함되는 수치이며, a1n은 선형결합을 실행하는 수치를 가중시키는 계수이다.
Figure pct00013
본 발명의 이상적인 실시 형태에서는 합성 변수를 나타내는 1차 제차다항식에서 부차 성분 신호 강도, 또는 부차 성분 혼입률이 최대로 가중된다.
생성할 수 있는 합성 변수의 수는 선형결합의 대상이 되는 수치군에 포함되는 수치의 종류가 많을수록 증가한다. 공정 A-2에서 생성하는 합성 변수의 수는 특별히 한정되어 있지 않다.
최소 (A1) 및 (A2)를 포함하는 수치군의 선형결합에 의해 합성 변수를 생성하는 실시 형태에 대해 설명하였으나, 상기 수치군의 비선형결합에 의해 합성 변수를 생성하여도 좋다. 여기서 비선형결합이란 각 수치의 승, 각 수치끼리의 곱셈 및 이러한 수치를 지수로 갖는 함수 등을 가리킨다.
공정 A-2에서 선형결합에 의해 구한 합성 변수는 신뢰성과 상관관계를 가지며, 이 상관관계를 이용하여 모델 함수를 작성한다. 본 발명에서 이 공정은 이하 공정 A-3-1 및 공정 A-4-1과 같다.
[공정 A-3-1]
공정 A-3-1은 선형결합에 의해 생성된 합성 변수에 신뢰성 값을 부여하는 공정이다.
공정 A-3-1에 사용되는 합성 변수는 특별히 한정되지 않으나, 선형결합의 대상인 수치군을 가장 잘 반영하는 합성 변수를 이상적으로 들 수 있다. 다르게 말하자면, 선형결합의 대상인 수치군에 대해 가장 높은 기여율을 가진 합성 변수를 사용하는 것이 이상적이다. 이는 주성분 분석에서는 제1 주성분에 해당된다.
공정 A-3-1에서는 우선 선형결합에 의해 생성된 합성 변수를 여러 구분으로 나눈다. 즉, 합성 변수를 수치의 크기에 따라 여러 구분으로 나눈다.
구분 방법은 특별히 제한되지 않는다. 합성 변수의 크기에 따라 동일한 간격으로 나눠도 되지만, 생성된 합성 변수가 모든 구분에 포함되도록 나누는 것이 이상적이다. 더 이상적으로는, 합성 변수의 크기에 따라 직선적으로 나누는 것이 아니라 지수적으로 나누는 것이 좋다. 생성된 합성 변수와 확률을 곡선 회귀하면 시그모이드 곡선이 되기 때문이다.
구분의 수는 한정되어 있지 않지만, 3 구분 이상이 좋으며, 5 구분 이상이 더 좋다. 더 바람직하게는 7 구분 이상, 더 바람직하게는 10구분 이상, 더 바람직하게는 12 구분 이상, 더 바람직하게는 15구분 이상, 더 바람직하게는 18 구분으로 나누는 것이 좋다.
이어서, 각 구분에 포함되는 합성 변수에 대응하는 부차 성분 신호 강도 중 참인 비율을 구한다. 즉, 각 구분에 포함되는 모든 합성 변수 중, 참인 부차 성분 신호 강도에 대응하는 합성 변수의 비율을 구한다. 본 명세서에서는 이 비율을 확률이라 부른다.
또한, 부차 성분 신호 강도는 부차 핵산에 있어서 해당 다형 좌위에 있는 특정 대립유전자의 존재를 나타내는 신호의 강도를 가리킨다. 이와 같이, 실제로 부차 핵산에서 해당 특정 대립유전자가 존재하는 경우에는 이를 "참"으로 한다.
각 구분에서 합성 변수의 확률을 구한 후, 이를 각 구분의 합성 변수에 대응하는 확률로 부여한다. 구체적으로는, 각 구분을 대표하는 하나의 합성 변수의 값에 해당 구분에서의 확률을 부여한다. 이 공정에 의해 합성 변수와 확률의 산포도를 작성할 수 있게 된다.
[공정 A-4-1]
공정 A-4-1에서는, 위에서 상술한 각 구분의 합성 변수와, 각 구분의 합성 변수에 대응하는 확률에 대해 회귀분석을 실행한다. 이를 통해 합성 변수를 설명 변수, 신뢰성 값을 목적 변수로 갖는 신뢰성 값을 산출하기 위한 모델 함수를 구한다.
"확률"과 "신뢰성"은 대응 관계를 가진다. 본 명세서에서는 모델 함수를 작성하기 위해 사용하는 파라미터를 "확률"이라 부르고, 모델 함수에 설명 변수를 입력하여 산출하는 파라미터를 "신뢰성"이라 부른다.
공정 A-4-1에서 사용하는 회귀 분석의 수법은 특별히 제한되지 않으나, 최소 제곱법을 사용하는 것이 좋다.
모델 함수는 시그모이드 함수이다. 합성 변수가 주성분 분석의 제1 주성분인 경우, 모델 함수는 이하 식 1로 나타낼 수 있다.
[수학식 1]
Figure pct00014
(x1: 제1주성분, A1: 천이 영역의 기울기, x01: 중간점)
본 발명은 상기 식 1에 제한되지 않으며, 2개의 매개 변수를 갖는 시그모이드 함수의 형식으로 신뢰성 값을 산출할 수 있는 모델 함수를 작성하는 것이 바람직하다. 식 1에서는 A1과 x01이 매개변수에 해당된다.
식 1에서 A1은 15.4~15.6사이의 수치가 좋으며 15.5가 이상적이다. x01은 -0.8~-0.6 사이의 수치가 좋으며 -0.9가 가장 좋다. 이는 소수점 둘째 자리까지 반올림한 수치도 포함한다.
위에서 상술한 방법에 의해 구한 모델 함수는 범용성이 매우 높다. 공정 A-1에서 취득한 데이터 세트의 취득 조건과는 다른 조건에서 일차적으로 취득한 데이터 세트의 해석에도 응용할 수 있다. 예를 들어, 공정 A-1에서 구한 데이터 세트의 취득 조건과는 샘플 양이나 농도, 다형 좌위의 해석, 신호 종류 (리드 수나 UMT 카운트) 등의 차이가 있는 조건에서 일차적으로 구한 데이터 세트의 신뢰성 값의 산출에도 해당 모델 함수를 응용할 수 있다.
즉, 다른 조건에서 취득한 데이터 세트의 신뢰성 값을 산출하고 싶은 경우, 해당 조건을 위해 새로운 모델 함수를 작성할 필요는 없다. 본 발명의 방법을 통해 모델 함수를 작성해 둔 경우, 작성한 모델 함수를 다른 조건으로 취득한 데이터 세트의 해석에도 사용할 수 있기 때문이다.
나아가, 모델 함수 작성의 기초가 된 데이터 세트는, 다른 종류의 검사에서 얻은 데이터 세트의 해석에도 응용할 수 있다. 예를 들어, 산전 유전학적 검사에서 얻은 데이터 세트에 기초하여 작성한 모델 함수를, 암 검사나 이식 장기의 정착 경과 모니터링에서 취득한 데이터 세트를 해석하는 데에 응용할 수 있다.
또한, 모델 함수를 작성하기 위해 선형결합한 수치군에 포함되는 수치의 종류 및 그 수, 그리고 모델 함수의 입력 값이 되는 합성 변수를 생성하기 위해 선형결합한 수치군에 포함되는 수치의 종류 및 그 수는, 일치하는 것이 이상적이다.
이상, 합성 변수와 신뢰성의 상관관계에서 기초한 모델 함수의 작성 방법에 대해 설명하였으나, 본 발명은 더 나아가 별도의 지표를 설명 변수로 갖는 신뢰성 값을 산출하기 위한 모델 함수도 제공할 수 있다. 본 발명은, 아래에서 설명하는 모델 함수 f2(x2), f3(x3)을 작성하는 방법에도 관한 것이다. 이하, 각각의 모델 함수를 작성하는 방법에 대해 설명한다.
먼저 모델 함수 f2(x2)를 작성하는 방법에 대해 설명한다. 이 방법은 공정 A-1, 공정 A-3-2 및 공정 A-4-2를 포함한다. 공정 A-1의 내용은 위에서 상술한 바와 같다. 이하, 공정 A-3-2 및 공정 A-4-2에 대해 설명한다.
[공정 A-3-2]
공정 A-3-2에서는 우선 위에서 상술한 (A1) 부차 성분 신호 강도를 여러 구분으로 나눈다. 즉, (A1) 부차 성분 신호 강도를 그 수치의 크기에 따라 여러 구분으로 나눈다.
구분 방법은 특별히 제한되지 않는다. 부차 성분 신호 강도의 크기에 따라 동일한 간격으로 나눠도 되지만, 부차 성분 신호 강도가 모든 구분에 포함되도록 구분하는 것이 바람직하다. 더 이상적으로는, 부차 성분 신호 강도의 크기에 따라 직선적으로 나누는 것이 아니라 지수적으로 나누는 것이 좋다. 부차 성분 신호 강도와 신뢰성 값을 곡선 회귀하면 시그모이드 곡선이 되기 때문이다.
구분의 수는 한정되어 있지 않지만, 3구분 이상이 좋으며, 5 구분 이상이 더 좋다. 더 바람직하게는 7구분 이상, 더 바람직하게는 10 구분 이상, 더 바람직하게는 12 구분 이상, 더 바람직하게는 15 구분 이상, 더 바람직하게는 18 구분 이상으로 나누는 것이 좋다.
이어서, 각 구분에 포함되는 부차 성분 신호 강도에 대응하는 부차 성분 신호 강도 중 참인 비율을 구한다. 즉, 각 구분에 포함되는 모든 부차 성분 신호 강도의 수치 중, 참인 부차 성분 신호 강도의 비율을 구한다. 본 명세서에는, 이 비율을 "확률"이라 부른다.
또한, 부차 성분 신호 강도는 부차 핵산의 해당 다형 좌위에 있는 특정 대립유전자의 존재를 나타내는 신호의 강도를 가리킨다. 이와 같이, 실제로 부차 핵산에서 해당 특정 대립유전자가 존재하는 경우에는 이를 "참"으로 한다.
각 구분에서 부차 성분 신호 강도의 확률을 구한 후, 이를 각 구분의 부차 성분 신호 강도에 대응하는 확률로 부여한다. 구체적으로는, 각 구분을 대표하는 하나의 부차 성분 신호 강도의 값에 해당 구분에서의 확률을 부여한다. 이 공정에 의해 부차 성분 신호 강도와 확률의 산포도를 작성할 수 있다.
[공정 A-4-2]
공정 A-4-2에서는, 위에서 상술한 각 구분의 부차 성분 신호 강도와 각 구분의 부차 성분 신호 강도에 대응하는 확률에 대해 회귀분석을 실행한다. 이를 통해 부차 성분 신호 강도를 설명 변수 x2, 신뢰성 값을 목적변수로 갖는, 신뢰성 값을 산출하기 위한 모델 함수 f2(x2)을 구한다. 공정 A-4-2에서 사용하는 회귀분석의 수법은 특별히 제한되지 않지만, 최소 제곱법을 사용하는 것이 좋다.
모델 함수 f2(x2)는 시그모이드 함수이며, 이하 식2로 나타낼 수 있다.
[수학식 2]
Figure pct00015
(x2: 부차 성분 신호 강도, A2: 천이 영역의 기울기, x02: 중간점)
위에서 상술한 방법에 의해 구한 모델 함수 f2(x2)는 범용성이 매우 높으며, 본 발명의 방법으로 모델 함수 f2(x2)을 작성해 두면 다른 조건에서 구한 데이터 세트의 해석에도 사용할 수 있다. 또한, 모델 함수 f2(x2)의 작성의 기초로 한 데이터 세트와는 다른 종류의 검사로부터 얻은 데이터 세트의 해석에도 응용할 수 있다.
식 2에서 A2는 1.8~2.0 사이의 수치가 좋으며 1.9가 가장 좋다. x02는 2.5~2.7 사이의 수치가 좋으며 2.6이 이상적이다. 이는 소수점 둘째 자리까지 반올림한 수치도 포함한다.
이어서 모델 함수 f3(x3)를 작성하는 방법에 대해 설명한다. 이하 방법은 공정 A-3-3 및 공정 A-4-3을 포함한다.
[공정 A-3-3]
공정 A-3-3에서는 우선 위에서 상술한 (A2) 부차 성분 혼입률을 여러 구분으로 나눈다. 즉, (A2) 부차 성분 혼입률을 그 수치의 크기에 따라 여러 구분으로 나눈다. 구분 방법은 특별히 제한되지 않는다. 부차 성분 혼입률의 크기에 따라 동일한 간격으로 나눠도 되지만, 부차 성분 혼입률이 모든 구분에 포함되도록 구분하는 것이 바람직하다.
더 이상적으로는, 부차 성분 혼입률의 크기에 따라 직선적으로 나누는 것이 아니라 지수적으로 나누는 것이 좋다. 부차 성분 혼입률과 확률을 곡선 회귀하면 시그모이드 곡선이 되기 때문이다.
구분의 수는 한정되어 있지 않지만, 3 구분 이상이 좋으며, 5 구분 이상이 더 좋다. 더 바람직하게는 7 구분 이상, 더 바람직하게는 10 구분 이상, 더 바람직하게는 12 구분 이상, 더 바람직하게는 15 구분 이상, 더 바람직하게는 18 구분 이상으로 나누는 것이 좋다.
이어서, 각 구분에 포함되는 부차 성분 혼입률에 대응하는 부차 성분 신호 강도 중 참인 비율을 구한다. 즉, 각 구분에 포함되는 모든 부차 성분 혼입률의 수치 중, 참인 부차 성분 혼입률의 비율을 구한다. 본 명세서에는, 이 비율을 "확률"이라 부른다.
또한, 부차 성분 혼입률은 그 산출 근거로서 부차 성분 신호 강도를 포함하지만, 부차 핵산의 해당 다형 좌위에 있는 특정 대립유전자의 존재를 가리킨다. 이와 같이, 실제로 부차 핵산에서 해당 특정 대립유전자가 존재하는 경우에는 이를 "참"으로 한다.
각 구분에서 부차 성분 혼입률의 확률을 구한 후, 이를 각 구분의 부차 성분 혼입률에 대응하는 확률로 부여한다. 구체적으로는 각 구분을 대표하는 하나의 부차 성분 혼입률의 값에 해당 구분의 확률을 부여한다. 이 공정을 통해 부차 성분 혼입률과 확률의 산포도를 작성할 수 있다.
[공정 A-4-3]
공정 A-4-3에서는, 위에서 상술한 각 구분의 부차 성분 혼입률과 각 구분의 부차 성분 혼입률에 대응하는 확률에 대해 회귀분석을 실행한다. 이를 통해 부차 성분 혼입률을 설명 변수 x3, 신뢰성 값을 목적변수로 갖는, 신뢰성 값을 산출하기 위한 모델 함수 f3(x3)를 구한다. 공정 A-4-3에서 사용하는 회귀분석의 수법은 특별히 제한되지 않지만, 최소 제곱법을 사용하는 것이 좋다.
모델 함수 f3(x3)는 시그모이드 함수이며, 이하 식3으로 나타낼 수 있다.
[수학식 3]
Figure pct00016
(x3: 부차 성분 혼입률, A3: 천이 영역의 기울기, x03: 중간점)
식 3에서 A3은 9.3~9.5 사이의 수치가 좋으며 9.4가 가장 좋다. x03은 0.5~0.7 사이의 수치가 좋으며 0.6이 이상적이다. 이는 소수점 둘째 자리까지 반올림한 수치도 포함한다.
위에서 상술한 모델 함수들은, 데이터 세트에 포함된 부차 성분 신호 강도의 신뢰성 값을 각각 단독으로 평가하는데 유용하다. 그러나, 작성한 여러 개의 모델 함수들을 서로 곱함으로써 보다 유용한 모델 함수를 작성할 수 있다.
예를 들어, 공정 A-2에서 2개 이상의 합성 변수를 생성하고, 공정 A-3-1에서 해당 2 개 이상의 합성 변수 각각에 신뢰성 값을 부여한다. 이어서, 공정 A-4-1에서 해당 2개 이상의 합성 변수 각각을 설명 변수로 갖는, 서로 독립된 2 이상의 모델 함수를 작성한다. 해당 2 개 이상의 모델 함수를 서로 곱하여 곱셈으로 나타낸 모델 함수를 작성하여도 상관없다.
또한, 이하 3개의 모델 함수로부터 선택된 2이상의 모델 함수를 서로 곱하여 곱셈으로 나타낸 모델 함수를 작성해도 좋다. 본 발명의 바람직한 실시 형태에서는, 이하 3개의 모델 함수를 모두 서로 곱하여 곱셈으로 나타낸 모델 함수를 작성하여도 좋다.
·공정 A-1, 공정 A-2, 공정 A-3-1 및 공정 A-4-1에 의해 작성한 모델 함수
·공정 A-1, 공정 A-3-2 및 공정 A-4-2에 의해 작성한 모델 함수
·공정 A-1, 공정 A-3-3 및 공정 A-4-3에 의해 작성한 모델 함수
본 발명의 이상적인 실시 형태에서는 이하 식 4에서 나타낸 바와 같이, 위에서 상술한 모델 함수 f1(x1), 모델 함수 f2(x2), 모델 함수 f3(x3)을 서로 곱하여 작성한 모델 함수를 사용한다.
[수학식 4]
Figure pct00017
<1-2> 산전 유전학적 검사
이어서 산전 유전학적 검사에서 얻은 데이터 세트로부터 모델 함수를 작성하는 실시 형태에 대해 설명한다. "<1-1> 개요" 항목에서 설명한 사항은 본 실시 형태에도 적용되기 때문에, 설명이 중복되는 부분은 적절히 생략한다.
본 실시 형태에서는 모친이 주요 기여체, 모친 태내 속 태아가 부차 기여체, 모친에서 채취한 순환 무세포 핵산 샘플이 혼합 핵산 샘플에 해당된다.
"<1-1>개요" 항목에서 설명한 공정 A-1, 공정 A-2, 공정 A-3-1 및 A-4-1은, 본 실시 형태의 공정 A1-1, 공정 A1-2, 공정 A1-3-1 및 A1-4-1에 상당한다. 이하, 각 공정에 대해 설명한다.
[공정 A1-1]
공정 A1-1은 순환 무세포 핵산 샘플의 측정을 통해 얻은 데이터 세트를 준비하는 공정이다. 순환 무세포 핵산 샘플에는 모친에 관한 유전 정보를 포함하는 주요 핵산과 태아에 관한 유전 정보를 포함하는 부차 핵산이 혼입되어 있다. 보통 순환 무세포 핵산 샘플에는 주요 핵산보다 부차 핵산이 다량 함유되어 있지만, 임신 후기에는 그 비율이 반대일 수도 있다.
이 데이터 세트는, 주요 핵산 및 부차 핵산에 있어서의, 복수의 다형 좌위에 있어서의 각 대립 유전자의 존재를 나타내는 신호로 이루어진다. 여기서 다형 좌위의 좋은 예시로는 사람의 개인 식별 (Human Identification, HID)에 사용되는 일염기다형(SNPs)이 있는 유전자좌를 들 수 있다. HID에 사용되는 기존의 SNPs는 데이터 베이스화되어 있기 때문에, 이러한 SNPs가 존재하는 다형 좌위를 데이터 베이스로부터 임의로 선택할 수 있다.
각 대립유전자의 존재를 나타내는 신호의 진위는 기존에 알고 있는 상태이어야 한다. 신호의 진위를 알기 위한 수단으로는, 출생 후 아이에게 유전자 검사를 실시하여 확정적인 결과를 얻는 방법을 들 수 있다. 이 외에도 부친과 모친에게 유전자 검사를 실시하였을 때, 어느 다형 좌위에서 모친과 부친에서 동형 접합이며 서로 동형 또는 이형인 대립 유전자를 가지고 있는 확정적인 결과를 얻은 경우, 해당 다형 좌위에서의 태아의 대립유전자형을 특정할 수 있다.
[공정 A1-2]
공정 A1-2는 데이터 세트에 포함된 데이터의 복수의 다형 좌위 중에서, 모친에서 동형접합이고 부친에서 동형 접합이며, 주요 핵산에서 유래한 대립유전자의 존재를 나타내는 신호와 상기 부차 핵산에서 유래한 대립유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 상기 (A1) 및 상기 (A2)의 수치를 선형결합하는 공정이다.
모친과 부친에서 동형 접합인 다형 좌위에 한정하고 있기 때문에, 주요 성분 신호 강도와 부차 성분 신호 강도 양쪽에서 모친 게놈 DNA 유래의 신호가 검출될 수 없다.
[공정 A1-3-1]
공정 A1-3-1은 선형결합에 의해 생성한 합성 변수에 신뢰성 값을 부여하는 공정으로, 공정 A-3-1에서 설명한 내용이 모두 해당된다. 여기서 부차 성분 신호 강도의 진위는 다음과 같이 판별한다.
모친과에서 동형 접합이고 부친(친부)에서 동형 접합이며, 모친과 부친이 서로 이형인 대립유전자에 대해서는, 부친 유래의 대립유전자에서 기인하는 부차 성분 신호와 모친에서 동형 접합인 대립유전자가 구별되어 검출되어야 한다.
따라서, 상기 대립유전자에 대해서 주요 성분 신호와 부차 성분 신호가 구별되어 검출된 경우, 해당 부차 성분 신호를 참으로 한다.
반대로, 상기 대립유전자에 대해서 주요 성분 신호와 부차 성분 신호가 구별되어 검출되지 않았을 경우, 해당 부차 성분 신호를 거짓으로 한다. 이는, 부차 성분 신호가 검출되지 않은 결과가 거짓임을 가리킨다.
한편, 모친에서 동형 접합이고 부친 (친부)에서 동형 접합이며, 모친과 부친이 서로 동형 접합인 대립유전자에 대해서는, 부친 유래의 대립유전자에서 기인하는 부차 성분 신호가 모친에서 동형 접합인 대립유전자와 구별되어 검출될 수 없다.
따라서, 상기 대립유전자에 대해서 주요 성분 신호와 부차 성분 신호가 구별되어 검출된 경우, 해당 부차 성분 신호를 거짓으로 한다.
반대로, 상기 대립유전자에 대해서 주요 성분 신호와 상기 부차 성분 신호가 구별되어 검출되지 않았을 경우, 해당 부차 성분 신호를 참으로 한다. 이는, 부차 성분 신호가 검출되지 않은 결과가 참임을 가리킨다.
[공정 A1-4-1]
공정 A1-4-1은 모델 함수를 준비하는 공정이며, 위에서 상술한 공정 A-4-1에서 설명한 내용이 모두 해당된다.
본 실시 형태에서도 부차 성분 신호 강도를 설명 변수 x2로 가지는 모델 함수 f2(x2)와, 부차 성분 혼입률을 설명 변수 x3으로 가지는 모델 함수 f3(x3)을 구하는 것이 이상적이다. 본 실시 형태에서 모델 함수를 준비하는 구체적인 방법으로는, 위에서 상술한 공정 A-4-2 및 공정 A-4-3에서의 설명이 해당된다.
또한, 본 실시 형태에서도 작성한 여러 개의 모델 함수를 서로 곱하여 곱셈으로 나타낸 모델 함수를 작성하여도 좋다. 그 구체적인 실시 형태는 위에서 상술한 바와 같다.
<1-3> 암 검사
이어서 암 검사에서 얻은 데이터 세트로부터 모델 함수를 작성하는 실시 형태에 대해 설명한다. "<1-1> 개요" 항목에서 설명한 사항은 본 실시 형태에도 해당되기 때문에, 설명이 중복되는 부분은 적절히 생략한다.
본 실시 형태에서는, 암과 관련된 변이가 관찰된 다형 좌위에서 정상형 대립유전자를 가진 건강인이 주요 기여체, 암세포가 부차 기여체에 해당된다.
본 실시 형태에서 사용한 혼합 핵산 샘플은, 신체 건강한 검사 대상자에서 채취한 핵산 샘플에 암 관련 변이가 도입된 다형 좌위의 염기서열정보를 가진 여러 핵산 단편으로 이루어진 부차 핵산을 첨가하여 인공적으로 조제하였다.
더 구체적으로는, 검사 대상자에서 채취한 순환 무세포 핵산 샘플에 암과 관련된 변이형 대립유전자를 가진 여러 핵산 단편들을 첨가하여 인공적으로 조제한 혼합 핵산 샘플이다.
혼합 핵산 샘플은 검사 대상자에서 채취한 핵산 샘플에 인공적으로 합성한 핵산 단편을 첨가하여 조제해도 좋다.
또는, 검사 대상자에서 채취한 핵산 샘플에 암세포주, 암 조직, 또는 그 핵산 추출물을 첨가하여 혼합 핵산 샘플을 조제하여도 좋다.
본 실시 형태에서 사용한 혼합 핵산 샘플은 암 검사 대상자의 순환 무세포 핵산 샘플을 모방한 것이다. 혼합 핵산 샘플에서 주요 핵산과 부차 핵산의 혼합 비율은 특별히 제한되지 않지만, 주요 핵산이 부차 핵산보다 많이 포함되어 있도록 조정하는 것이 바람직하다. 즉, 부차 핵산의 특정 유전자좌에서 기인하는 신호가 주요 핵산의 해당 유전자좌에서 기인하는 신호보다 작도록 부차 핵산을 첨가하는 것이 바람직하다.
따라서, 첨가하는 부차 핵산의 유전자 복사 수는 주요 핵산의 50% 미만, 더 바람직하게는 40% 이하, 더 바람직하게는 30% 이하, 더 바람직하게는 20% 이하, 더 바람직하게는 10% 이하로 하는 것이 좋다.
첨가하는 핵산 단편은 암과 관련된 변이가 포함되어 있는 이상 그 크기는 특별히 제한되지 않지만, 50~500bp가 바람직하며 더 바람직하게는 100~300bp, 더 바람직하게는 120~200bp의 크기가 좋다.
암과 관련된 변이, 특히 단일 염기 치환 변이가 관찰된 다형 좌위는 기존에 다수 알려져 있으며 데이터 베이스화되어 있다. 첨가하는 핵산 단편은 이러하게 기존에 알려져 있는 단일 염기 치환 변이 중에서 임의로 여러 개를 선택할 수 있다.
"<1-1> 개요" 항목에서 설명한 공정 A-1, 공정 A-2, 공정 A-3-1 및 공정 A-4-1은, 본 실시 형태의 공정 A2-1, 공정 A2-2, 공정 A2-3-1 및 공정 A2-4-1에 상당한다. 이하, 각 공정에 대해 설명한다.
[공정 A2-1]
공정 A2-1은, 위에서 상술한 부차 핵산이 첨가된 혼합 핵산 샘플의 측정을 통해 얻은 데이터 세트를 준비하는 공정이다.
공정 A2-1에서 구한 데이터 세트는 부차 핵산이 첨가되어 있지 않은, 주요 핵산만 함유하는 핵산 샘플의 측정을 통해 얻은 데이터이어도 좋다.
이 데이터 세트는, 주요 핵산 및 부차 핵산에 있어서의, 복수의 다형 좌위에 있어서의 각 대립 유전자의 존재를 나타내는 신호로 이루어진다. 여기서 다형 좌위의 좋은 예시로는, 기존에 알려져 있는 암 관련 일염기다형(SNPs)이 존재하는 유전자좌를 들 수 있다. 기존에 알려져있는 암 관련 SNPs는 데이터 베이스화 되어 있기 때문에, 이러한 SNPs가 있는 다형 좌위로부터 임의로 선택할 수 있다.
[공정 A2-2]
상기 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서, 상기 주요 핵산에서 유래한 대립유전자의 존재를 나타낸 신호와 상기 부차 핵산에서 유래한 대립유전자의 존재를 나타낸 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 상기 (A1) 및 상기 (A2)의 수치를 선형결합하는 공정이다.
[공정 A2-3-1]
공정 A2-3-1은 선형결합에 의해 생성한 합성 변수에 신뢰성 값을 부여하는 공정으로, 위에서 상술한 공정 A-3-1에서 설명한 내용이 모두 해당된다. 여기서 부차 성분 신호 강도의 진위는 다음과 같이 판별한다.
상기 변이가 도입된 상기 다형 좌위의 염기 서열 정보를 가진 핵산 단편을 혼합 핵산 샘플에 첨가한 경우, 해당 핵산 단편에 대한 부차 성분 신호가 검출되어야 한다.
따라서, 이러한 상황에서 해당 핵산 단편에 대한 부차 성분 신호가 검출된 경우, 해당 부차 성분 신호를 참으로 한다.
반대로, 해당 핵산 단편에 대한 부차 성분 신호가 검출되지 않았을 경우, 해당 부차 성분 신호를 거짓으로 한다. 이는, 부차 성분 신호가 검출되지 않은 결과가 거짓임을 가리킨다.
한편, 상기 변이가 도입된 상기 다형 좌위의 염기 서열 정보를 가진 핵산 단편을 혼합 핵산 샘플에 첨가하지 않은 경우, 해당 핵산 단편에 대한 부차 성분 신호가 검출되지 않아야 한다.
따라서, 이러한 상황에서 해당 핵산 단편에 대한 부차 성분 신호가 검출된 경우, 해당 부차 성분 신호를 거짓으로 한다.
반대로, 해당 핵산 단편에 대한 부차 성분 신호가 검출되지 않았을 경우, 해당 부차 성분 신호를 참으로 한다. 이것은, 부차 성분 신호가 검출되지 않은 결과가 참임을 가리킨다.
[공정 A2-4-1]
공정 A2-4-1은 모델 함수를 준비하는 공정이며, 위에서 상술한 공정 A-4-1에서 설명한 내용이 모두 해당된다.
본 실시 형태에서도 부차 성분 신호 강도를 설명 변수 x2로 가지는 모델 함수 f2(x2)와, 부차 성분 혼입률을 설명 변수 x2으로 가지는 모델 함수 f2(x2)을 구하는 것이 이상적이다. 본 실시 형태에서 모델 함수를 준비하는 구체적인 방법으로는, 위에서 상술한 공정 A-4-2 및 공정 A-4-3에서의 설명이 해당된다.
본 실시 형태에서도 작성한 여러 개의 모델 함수를 서로 곱하여 곱셈으로 나타낸 모델 함수를 작성하여도 좋다. 그 구체적인 실시 형태는 위에서 상술한 바와 같다.
나아가 암 검사로부터 얻은 데이터 세트로부터 모델 함수를 작성하는 다른 실시 형태에 대해 설명한다. 본 실시 형태는 하나의 다형 좌위에 관한 데이터로부터 모델 함수를 작성한 것이 특징이다.
구체적으로는 이하 공정 A2'-1, 공정 A2'-2 및 공정 A2-3-1 및 공정 A2-4-1을 포함한다. 이하 본 실시 형태에 대해서 상세히 설명하지만, 위에서 상술한 다른 실시 형태와 중복되는 설명은 적절히 생략한다.
[공정 A2'-1]
공정 A2'-1은, 위에서 상술한 부차 핵산을 서로 다른 함유 비율로 첨가한 여러 개의 혼합 핵산 샘플의 측정을 통해 얻은 데이터 세트를 준비하는 공정이다. 공정 A2-1과는 다르게, 본 실시 형태는 부차 핵산이 서로 다른 함유 비율로 첨가된 여러 개의 혼합 핵산 샘플을 준비한다.
또한, 위에서 상술한 공정 A2-1의 데이터 세트는 여러 개의 다형 좌위에 관한 데이터를 포함하는 반면, 공정 A2'-1의 데이터 세트는 주요 핵산과 부차 핵산에 있는 1 개의 다형 좌위에 있는 각 대립유전자의 신호를 포함한다는 점이 다르다.
즉, 공정 A2'-1은 1 개의 다형 좌위에 관한 데이터를 준비하는 공정이며, 부차 핵산의 함유 비율이 서로 다른 여러 개의 혼합 핵산 샘플에 관한 데이터를 준비하는 것이 특징이다.
[공정 A2'-2]
공정 A2'-2는, 데이터 세트에 포함된 데이터 중 주요 핵산에서 유래하는 대립유전자의 존재를 나타내는 신호와 부차 핵산에서 유래하는 대립유전자의 존재를 나타내는 신호가 구별되어 검출되는 단일 다형 좌위에 관한, 적어도 이하의 (A1') 및 (A2')를 포함하는 수치군을 선형결합하여 1 개 이상의 합성 변수를 생성하는 공정이다.
(A1') 상기 부차 핵산에서 유래한 상기 단일 다형 좌위에 있는 대립유전자의 존재를 나타내는 부차 성분 신호 강도.
(A2') 상기 단일 다형 좌위에 있는 대립유전자에서 기인하는 신호 강도의 총합에 대한 상기 부차 성분 신호 강도의 비율을 나타내는 부차 성분 혼입률.
또한, (A1')과 (A2')의 본질은 위에서 설명한 (A1)과 (A2)와 동일하며, 공정 A2'-1에서 구한 단일 다형 좌위에 관한 데이터라는 점에서 표현 상의 차이가 다소 발생할 뿐이다.
이어지는 공정 A2-3-1과 공정 A2-4-1은, 위에서 상술한 바와 같으므로 자세한 설명은 생략한다.
공정 A2'-1과 공정 A2'-2 및 위에서 상술한 공정 A2-3-1과 공정 A2-4-1를 포함하는 실시 형태는, 검량선을 작성하는 일반적인 방법이 없는 마이크로어레이나 디지털 PCR, 또는 염기서열 해석 수단(특히 차세대 시퀀서)에 의해 구한 데이터로 모델 함수를 작성하는 경우에 유용하다.
<1-4> 이식 장기의 정착 경과 모니터링
이어서 이식 장기의 정착 경과 모니터링에서 얻은 데이터 세트로부터 모델 함수를 작성하는 실시 형태에 대해 설명한다. "<1-1> 개요" 항목에서 설명한 사항은 본 실시 형태에도 적용되기 때문에, 설명이 중복되는 부분은 적절하게 생략한다.
본 실시 형태에서는 레시피엔트가 주요 기여체, 장기 기증자로부터 이식된 이식 장기가 부차 기여체이다.
본 실시 형태에서 혼합 핵산 샘플에는 레시피엔트의 유전정보를 가진 주요 핵산과 이식 장기의 유전정보를 가진 부차 핵산이 혼입되어 있다. 혼합 핵산 샘플에는 주요 핵산이 부차 핵산보다 다량 함유되어 있으며, 이식 장기의 유전정보는 장기 기증자의 유전정보와 일치한다.
본 실시 형태에서 혼합 핵산 샘플은 장기 이식 수술 후 레시피엔트에서 채취한 샘플, 구체적으로는 순환 무세포 핵산 샘플이어도 좋으며,
레시피엔트에서 채취한 레시피엔트 유래의 주요 핵산과, 기증자 또는 이식 장기에서 채취한 레시피엔트 유래의 부차 핵산을 인공적으로 혼합하여 조제한 것이어도 좋다. 이 경우, 주요 핵산에서 기인하는 신호가 부차 핵산에서 기인하는 신호보다 강하게 검출되도록, 부차 핵산의 복사 수가 주요핵산의 50% 미만, 더 바람직하게는 40% 이하, 더 바람직하게는 30% 이하, 더 바람직하게는 20% 이하, 더 바람직하게는 10% 이하로 조정하는 것이 좋다.
"<1-1> 개요" 항목에서 설명한 공정 A-1 ,공정 A-2, 공정 A-3-1 및 공정 A-4-1은, 본 실시 형태의 공정 A3-1, 공정 A3-2, 공정 A3-3-1 및 공정 A3-4-1에 상당한다. 이하, 각 공정에 대하여 설명한다.
[공정 A3-1]
공정 A3-1은, 위에서 상술한 혼합 핵산 샘플의 측정을 통해 얻은 데이터 세트를 준비하는 공정이다.
이 데이터 세트는, 주요 핵산과 부차 핵산에 있어서의, 복수의 다형 좌위에 있어서의 각 대립 유전자의 존재를 나타내는 신호로 이루어진다. 여기서 다형 좌위의 좋은 예시로는, 사람의 개인 식별(Human Identification, HID)에 사용되는 일염기다형(SNPs)이 있는 유전자좌를 들 수 있다. 기존에 알려져있는 HID에 사용되는 SNPs는 데이터 베이스화되어 있기 때문에, 이러한 SNPs가 존재하는 다형 좌위를 데이터 베이스로부터 임의로 선택할 수 있다.
각 대립유전자의 신호의 진위는 기존에 알고 있는 상태여야 한다. 신호의 진위를 알기 위한 수단으로는 레시피엔트와 기증자의 게놈 DNA를 해석하여 각각의 유전자형을 기존에 특정하는 방법을 들 수 있다. 이를 통해 장기 레시피엔트와 기증자, 양쪽이 모두 가지고 있지 않은 대립유전자의 존재를 나타내는 신호가 검출된 경우, 검출된 신호를 거짓이라 판별할 수 있다.
또한, 장기 레시피엔트에서 채취한 레시피엔트 유래의 주요 핵산과, 기증자 또는 이식 장기에서 채취한 레시피엔트 유래의 부차 핵산을 인공적으로 혼합하여 조제한 혼합 핵산 샘플에 대한 데이터 세트의 경우, 레시피엔트가 가지고 있지 않으며 기증자에서 헤테로 접합 또는 동형 접합인 대립 유전자의 존재를 나타내는 신호가 검출되면 해당 신호를 참으로 판별할 수 있다.
공정 A3-1에서 구한 데이터 세트는 주요 핵산만을 함유하는 핵산 샘플에 관한 데이터를 포함하여도 좋다. 해당 핵산 샘플에는 장기 레시피엔트의 유전정보만 함유되어 있으며 기증자 유래의 부차 핵산은 함유되어 있지 않기 때문에, 레시피엔트가 가지고 있지 않으며 기증자는 가지고 있는 대립유전자의 존재를 나타내는 신호가 검출된 경우, 검출된 신호를 거짓으로 판별할 수 있다.
[공정 A3-2]
공정 A3-2는, 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서, 상기 주요 핵산에서 유래하는 대립유전자의 존재를 나타내는 신호와 상기 부차 핵산에서 유래하는 대립유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 상기 (A1) 및 (A2)의 수치를 선형결합하는 공정이다.
구체적으로는, 장기 레시피엔트가 어느 다형 좌위의 특정 대립유전자를 동형 접합으로 가진 경우, 주요 핵산에서 유래하는 대립 유전자의 신호와 부차 핵산에서 유래하는 대립 유전자의 신호는 구별되어 검출되어야 한다. 즉, 해당 대립유전자 외의 다른 대립유전자의 존재를 나타내는 부차 성분 신호 강도와 장기 레시피엔트의 대립유전자에서 기인하는 신호는 혼재될 수 없다.
[공정 A3-3-1]
공정 A3-3-1은 선형결합에 의해 생성한 합성 변수에 신뢰성 값을 부여하는 공정이며, 위에서 상술한 공정 A-3-1에서 설명한 내용이 해당된다. 여기서 부차 성분 신호 강도의 진위는 다음과 같이 판별한다.
장기 레시피엔트가 가지고 있지 않으며 장기 기증자가 동형 접합 또는 헤테로 접합으로 가지고 있는 대립유전자에 대해서는, 기증자 유래의 부차 성분 신호는 레시피엔트가 가진 대립유전자와 구별되어 검출되어야 한다.
따라서, 상기 대립유전자에 대해서 주요 성분 신호와 부차 성분 신호가 구별되어 검출된 경우, 해당 부차 성분 신호를 참으로 한다.
반대로, 상기 대립유전자에 대해서 주요 성분 신호와 부차 성분 신호가 구별되어 검출되지 않았을 경우, 해당 부차 성분 신호를 거짓으로 한다. 이는, 부차 성분 신호가 검출되지 않은 결과를 거짓임을 뜻한다.
한편, 장기 레시피엔트와 기증자 중 어느 쪽도 가지고 있지 않은 대립유전자에 대해서는, 레시피엔트가 가진 대립유전자와 부차 성분 신호가 구별되어 검출될 수 없다.
따라서, 상기 대립유전자에 대해서 주요 성분 신호와 부차 성분 신호가 구별되어 검출된 경우, 해당 부차 성분 신호를 거짓으로 한다.
반대로, 상기 대립유전자에 대하여 주요 성분 신호와 부차 성분 신호가 구별되어 검출되지 않았을 경우, 해당 부차 성분 신호를 참으로 한다. 이는, 부차 성분 신호가 검출되지 않은 결과를 "참"임을 뜻한다.
[공정 A3-4-1]
공정 A3-4-1은 모델 함수를 준비하는 공정이며, 위에서 상술한 공정 A-4-1에서 설명한 내용이 모두 해당된다.
본 실시 형태에서도 부차 성분 신호 강도를 설명 변수 x2로 가지는 모델 함수 f2(x2)와, 부차 성분 혼입률을 설명 변수 x3으로 가지는 모델 함수 f3(x3)을 구하는 것이 이상적이다. 본 실시 형태에서 모델 함수를 구하는 구체적인 방법으로는, 위에서 상술한 공정 A-4-2 및 공정 A-4-3에서의 설명이 해당된다.
본 실시 형태에서도 작성한 여러 개의 모델 함수를 서로 곱하여 곱셈으로 나타낸 모델 함수를 작성하여도 좋다. 그 구체적인 실시 형태는 위에서 상술한 바와 같다.
<2> 신뢰성 값의 산출 방법
본 발명은 신뢰성 값의 산출 방법에 관한 것이다. 이하, 본 발명의 신뢰성 값의 산출 방법의 구체적인 실시 형태에 대해 설명한다. 또한, 위에서 상술한 모델 함수 작성 방법에서 설명한 내용 중 본 발명의 신뢰성 값의 산출 방법의 설명과 중복되는 부분에 대해서는 적절히 생략한다.
본 발명에서는 모델 함수에 설명 변수를 입력하여 신뢰성 값을 산출한다. 본 발명에서 사용되는 모델 함수로는, 위에서 상술한 방법으로 구한 모델 함수 식 1~3 중 하나, 또는 모델 함수 식 1~3 중 선택된 2이상의 모델 함수를 서로 곱하여 곱셈으로 나타낸 모델 함수를 들 수 있다.
본 실시 형태에서는 각 모델 함수가 설명 변수로 갖는 수치를 모델 함수에 입력한다. 구체적으로는 이하 공정 B-1에서 구한 데이터 세트에 포함되는 이하 (B1), (B2) 및 이하 공정 B-2에서 구한 합성 변수 중 선택된 1 또는 2 이상의 수치를 설명 변수로 하여 모델 함수에 입력한다.
본 발명의 신뢰성 값의 산출 방법은 이하 공정 B-1를 포함한다. 모델 함수에 입력하는 값이 합성 변수인 경우에는 이하 공정 B-2를 통해 합성 변수를 생성한다.
이하, 공정 B-1, 공정 B-2 및 공정 B-3-1를 포함하는 실시형태에 대하여 설명한다.
[공정 B-1]
공정 B-1은 주요 기여체의 유전정보를 가진 주요 핵산과 부차 기여체의 유전정보를 가진 부차 핵산을 포함하는 혼합 핵산 샘플의 측정을 통해 데이터 세트를 준비하는 공정이다. 해당 혼합 핵산 샘플에는 주요 핵산보다 부차 핵산이 다량 함유되어 있다. 또한, 해당 데이터 세트는 주요 핵산 및 상기 부차 핵산에 있어서의, 복수의 다형 좌위에 있어서의 각 대립 유전자의 존재를 나타내는 신호로 이루어진다.
상기 데이터 세트를 취득하는 방법은 특별히 한정되지 않는다. 아래에서 설명하는 분석 수단을 사용하여 일차적으로 취득하여도 좋으며, 제 삼자가 일차적으로 취득한 데이터를 이차적으로 취득하여도 좋다.
데이터 세트는 다형적 유전자의 각 대립유전자를 구별하여 검출할 수 있는 분석 수단을 사용해 구한 것인 이상 특별히 한정되지 않는다. 해당 분석 수단은 다형 좌위의 일염기다형(SNPs)을 구별하여 검출할 수 있는 분석 수단인 것이 이상적이다.
분석 수단의 예시로는 SNPs 검출에 사용되는 차세대 시퀀서, 디지털 PCR, 마이크로어레이, 멀티플렉싱 PCR, 질량 분석 등을 들 수 있다. 이에 대한 구체적은 내용은 "<1> 모델 함수 작성 방법" 항목에서 설명한 바와 같다.
혼합 핵산 샘플의 종류 또한 한정되지 않는다. 좋은 예시로는 산전 유전학적 검사를 위해 산모의 혈액에서 채취한 순환 무세포 핵산 샘플(cfDNA, cfRNA)이나, 암 검사를 위해 검사 대상자의 혈액에서 채취한 순환 무세포 핵산 샘플(cfDNA, cfRNA), 이식 장기의 정착 경과 모니터링을 위해 장기 레시피엔트의 혈액에서 채취한 순환 무세포 핵산 샘플(cfDNA, cfRNA) 등을 들 수 있다.
본 발명의 신뢰성 값의 산출 방법에서 사용되는 데이터 세트는 복수의 다형 좌위의 각 대립유전자의 존재를 나타내는 신호를 포함하지만, 여기서 "다형 좌위"는 모델 함수 작성의 기초로 사용된 "다형 좌위"와 동일할 필요는 없으며, 그 중복도 또한 한정되지 않는다.
해당 중복도는 모델 함수 작성의 기초로 사용된 "복수의 다형 좌위"를 기준으로 할 때 바람직하게는 80% 이하, 더 바람직하게는 70% 이하, 더 바람직하게는 60% 이하, 더 바람직하게는 50% 이하인 것이 좋다.
또한, 해당 중복도는 모델 함수 작성의 기초로 사용된 "복수의 다형 좌위"를 기준으로 할 때 0%여도 좋으며, 바람직하게는 10% 이상, 더 바람직하게는 20% 이상, 더 바람직하게는 30%, 더 바람직하게는 40% 이상인 것이 좋다.
[공정 B-2]
공정 B-2는 상기 데이터 세트에 포함된 데이터의 복수의 다형 좌위 중에서, 주요 핵산에서 유래하는 대립유전자의 존재를 나타내는 신호와 부차 핵산에서 유래하는 대립유전자의 존재를 나타내는 신호가 구별되어 검출된 다형적 유전자에 관련된, 이하 (B1) 및 (B2)를 포함하는 수치군을 선형결합하여 1 개 이상의 합성 변수를 생성하는 공정이다.
(B1)는 부차 성분 신호 강도이다. 부차 성분 신호 강도란, 부차 핵산에서 유래하는 특정 다형 좌위에 있는 대립유전자의 존재를 나타내는 신호의 강도이다. 그 정의와 구체적인 형태에 대해서는 상기 (A1)에서의 설명 내용이 그대로 해당된다.
(B2)는 부차 성분 혼입률이다. 부차 성분 혼입률이란, 특정 다형 좌위의 대립유전자에서 기인하는 신호 강도 총합에 대한 부차 성분 신호 강도의 비율이다. 즉, "부차 성분 혼입률 = 부차 성분 신호 강도 / 신호 강도 총합"과 같은 수식으로 나타낼 수 있다. 그 정의와 구체적인 형태에 대해서는 상기 (A2)에서의 설명 내용이 그대로 해당된다.
공정 B-2에서 선형결합의 대상이 되는 수치군에는 위에서 상술한 (B1) 및 (B2) 외의 수치를 포함하여도 좋다. 즉, 특정 유전자좌에 관한 (B1)와 (B2) 외에도 해당 유전자좌에 관한 다양한 측정치 및 산출치를 포함하는 수치군에 대해 선형결합을 실시한다.
이하 선형결합의 대상이 되는 수치군에 포함해도 되는 수치 (B3)~(B5)에 대하여 설명한다. 또한, 아래에서 상술하는 (B3)~(B5) 중 1 종류만을 선택하여 상기 수치군에 포함하여도 좋으며, 임의로 선택한 2 종류 이상의 수치를 상기 수치군에 포함하여도 좋다. (B3)~(B5) 모두 상기 수치군에 포함하여도 좋다.
(B3)은 주요 성분 신호 강도이다. 주요 성분 신호 강도란, 주요 성분에서 유래하는 특정 유전자에 있는 1 개의 대립유전자의 존재를 나타내는 신호의 강도이다. 그 정의와 구체적인 형태에 대해서는 상기 (A3)에 관한 설명이 그대로 해당된다.
(B4)는 주요 성분 혼입률이다. 주요 성분 혼입률이란, 특정 다형 좌위의 대립유전자에서 기인하는 신호 강도 총합에 대한 주요 성분 신호 강도의 비율이다. 즉, "주요 성분 혼입률 = 주요 성분 신호 강도 / 신호 강도 총합"과 같은 수식으로 나타낼 수 있다. 그 정의와 구체적인 형태에 대해서는 상기 (A1)에서의 설명 내용이 그대로 해당된다.
(B5)는 노이즈이다. 그 정의와 구체적인 형태에 대해서는 상기 (A1)에서의 설명 내용이 그대로 해당된다.
위에서 상술한 바와 같이, 공정 B-1에서 구한 데이터 세트는 여러 개의 다형 좌위에 관한 데이터의 집합이다. 이 때문에 공정 B-1에서 구한 데이터 세트에는, 특정 다형 좌위에 관한 상기 (B1), (B2) 및 다른 수치 데이터를 한 세트로 하는 데이터 세트가 여러 세트 포함된다.
또한, 선형결합의 대상이 되는 수치군의 수치 데이터는 표준화되어 있는 것이 좋다. "표준화"란, 이미 알려진 바와 같이 복수의 데이터의 평균을 0, 분산이 1이 되도록 변환하는 것으로, "기준화" 또는 "정규화"라 불리기도 한다. 표준화 데이터는 다음과 같은 식으로 구할 수 있다.
표준화 데이터 = [(원 데이터)-(평균치)]/(표본 표준 편차)
"주요 핵산에서 유래한 대립유전자의 존재를 나타내는 신호와 부차 핵산에서 유래한 대립유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위"란, 주요 핵산에서 유래한 대립유전자의 존재를 나타내는 신호와 부차 핵산에서 유래한 대립유전자의 존재를 나타내는 신호가 혼재되어 있지 않은 다형 좌위를 뜻한다.
예를 들어 산전 유전학적 검사의 경우, 모친이 어느 특정 다형 좌위에서 대립유전자 A와 대립유전자 B를 헤테로 접합으로 가지고 있을 때, 부친의 유전형과 관계없이 cfDNA 해석 결과에는 모친의 게놈 DNA에서 유래한 대립유전자 A와 대립유전자 B의 신호가 반드시 검출된다. 대립유전자 A의 신호와 대립유전자 B의 신호 중 한 쪽에는 태아의 cffDNA에서 기인하는 신호가 혼재되어 있으나, 이는 모친의 게놈 DNA에서 기인하는 신호와 구별할 수 없다. 이러한 데이터는 본 발명의 해석 대상에서 제외한다.
또한, 암 검사의 경우, 검사 대상자가 선천적으로 암 관련 변이를 동형 접합 또는 헤테로 접합으로 가지고 있을 때, 해당 변이는 반드시 ctDNA에도 존재하기 때문에 검사 대상자에서 유래한 신호와 암세포에서 유래한 신호가 혼재되게 된다. 이러한 데이터는 본 발명의 해석 대상에서 제외한다.
이식 장기의 정착 경과 모니터링의 경우, 장기 레시피엔트가 어느 특정 다형 좌위에서 대립유전자 A와 대립유전자 B를 헤테로 접합으로 가지고 있을 때, 장기 기증자의 유전형과 관계없이 cfDNA 해석 결과에는 장기 레시피엔트의 게놈 DNA에서 유래한 대립유전자 A의 신호와 대립유전자 B의 신호가 반드시 검출된다. 대립유전자 A의 신호와 대립유전자 B의 신호 중 한 쪽에는 장기 기증자의 cffDNA에서 기인하는 신호가 혼재되어 있으나, 이는 장기 레시피엔트의 게놈 DNA에서 유래한 신호와 구별할 수 없다. 이러한 데이터는 본 발명의 해석 대상에서 제외한다.
이 때문에 공정 B-2에서는 데이터 해석의 대상이 되는 다형 좌위를, "주요 핵산에서 유래한 대립유전자의 존재를 나타내는 신호와 부차 핵산에서 유래한 대립유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위"에 한정한다. 바꾸어 말하면, 공정 B-2에서 해석 대상이 되는 다형 좌위는 부차 핵산에서 유래한 대립유전자의 존재를 나타내는 신호와 주요 핵산에서 유래한 대립유전자의 존재를 나타내는 신호가 혼재되어 있을 가능성이 없는 다형 좌위이어야 한다.
공정 B-2에서는 위에서 상술한 수치군을 선형결합하여 1 개 이상의 합성 변수를 생성한다. 선형결합의 이상적인 수단으로는 주성분 분석이 있다. 주성분 분석과는 다른 수단으로 합성 변수를 생성하여도 좋으나, 다른 수단으로 생성한 경우에도 주성분 분석을 통해 생성할 수 있는 합성 변수인 것이 이상적이다.
생성할 수 있는 합성 변수의 수는 선형결합의 대상이 되는 수치군에 포함되는 수치의 종류가 많을수록 증가한다. 공정 B-2에서 생성하는 합성 변수의 수는 특별히 한정되지 않는다.
위와 같은 방법으로 얻은 수치를 모델 함수에 입력하여 신뢰성 값을 산출하는 공정이 이하 공정 B-3-1~공정 B-3-4이다.
[공정 B-3-1]
공정 B-3-1은 공정 B-2에서 선형결합하여 생성한 합성 변수를 설명 변수, 신뢰성 값을 목적변수로 갖는 모델 함수에 합성 변수를 입력하여 신뢰성 값을 산출하는 공정이다. 또한, 모델 함수 작성을 위해 선형결합에 사용한 수치군에 포함된 수치의 종류 및 그 수와, 모델 함수에 입력하는 합성 변수를 생성하기 위해 선형결합에 사용한 수치군에 포함된 수치의 종류 및 그 수는 일치하는 것이 좋다.
또한, 본 발명은 위에서 상술한 공정 B-1 및 이하 공정 B-3-2를 포함하는 것을 특징으로 하는 신뢰성 값의 산출 방법에도 관한 것이다.
[공정 B-3-2]
공정 B-3-2는 상기 (B1) 부차 성분 신호 강도를 위에서 상술한 모델 함수 f2(x2)에 입력하여 신뢰성 값을 산출하는 공정이다. 데이터 세트에 일차적으로 포함되는 부차 성분 신호 강도를 모델 함수 f2(x2)에 입력함으로써 간단하게 데이터의 신뢰성 값을 산출할 수 있다.
또한, 본 발명은 위에서 상술한 공정 B-1 및 이하 공정 B-3-3를 포함하는 것을 특징으로 하는 신뢰성 값의 산출 방법에도 관한 것이다.
[공정 B-3-3]
공정 B-3-3은 상기 (B2)의 상기 부차 성분 혼입률을 위에서 상술한 모델 함수 f3(x3)에 입력하여 신뢰성 값을 산출하는 공정이다. 부차 성분 혼입률을 모델 함수 f3(x3)에 입력함으로써 간단하게 데이터의 신뢰성 값을 산출할 수 있다.
또한, 본 발명은 위에서 상술한 공정 B-1 및 이하 공정 B-3'를 포함하는 것을 특징으로 하는 신뢰성 값의 산출 방법에도 관한 것이다.
[공정 B-3']
공정 B-3'은 이하 3 종류의 수치 중에서 선택한 변수를 설명 변수로 하고, 신뢰성 값을 목적변수로 갖는 곱셈으로 나타낸 모델 함수에 설명 변수를 입력하여 신뢰성 값을 산출하는 공정이다.
(i) 상기 공정 B-2에서 생성한 합성 변수이다.
(ii) 상기 복수의 다형 좌위 중에서, 상기 주요 핵산에서 유래한 대립유전자의 존재를 나타내는 신호와 상기 부차 핵산에서 유래한 대립유전자의 존재를 나타내는 신호가 구별되어 검출된 다형적 유전자에 관한, 상기 부차 핵산에서 유래한 특정 다형 좌위의 대립유전자의 존재를 나타내는 부차 성분 신호 강도.
(iii) 상기 복수의 다형 좌위 중에서, 상기 주요 핵산에서 유래한 대립유전자의 존재를 나타내는 신호와 상기 부차 핵산에서 유래한 대립유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 특정 다형적 유전자의 대립유전자에서 기인하는 신호 강도의 총합에 대한 상기 부차 성분 신호 강도의 비율을 나타내는 부차 성분 혼입률.
여기서 말하는 곱셈으로 나타낸 모델 함수란, 위에서 상술한 바와 같이 이하 모델 함수 3개 중 선택된 2이상의 모델 함수를 서로 곱하여 곱셈으로 나타낸 모델 함수이다.
·공정 A-1, 공정 A-2, 공정 A-3-1 및 공정 A-4-1을 통해 작성한 모델 함수
·공정 A-1, 공정 A-3-2 및 공정 A-4-2를 통해 작성한 모델 함수
·공정 A-1, 공정 A-3-3 및 공정 A-4-3을 통해 작성한 모델 함수
본 발명의 바람직한 실시 형태에서는, f1(x1), f2(x2), f3(x3)의 설명 변수 각각에 상당하는 변수를 모델 함수 식 4에 입력하여 신뢰성 값을 산출한다.
이하, 본 발명의 신뢰성 값의 산출 방법의 더욱 상세한 실시 형태에 대해서 설명한다. 구체적으로는 비침습적 산전 친자 감정, 암 검사, 이식 장기의 정착 경과 모니터링, 그리고 질환 리스크 평가를 위한 비침습적 산전 검사를 순서대로 설명한다.
<2-1> 비침습적 산전 친자 감정을 위한 신뢰성 값의 산출 방법
먼저 비침습적 산전 친자 감정을 위한 신뢰성 값의 산출 방법에 대해 설명한다. <2>에서 설명한 사항은 본 실시 형태에도 적용되므로 설명이 중복되는 부분은 적절히 생략한다.
본 실시 형태에서는 모친이 주요 기여체, 모친 태내 속 태아가 부차 기여체, 모친에서 채취한 순환 무세포 핵산 샘플이 혼합 핵산 샘플에 해당된다.
또한, 위에서 상술한 공정 B-1, 공정 B-2 및 공정 B-3-1은 각각 이하 B1-1, 공정 B1-2 및 공정 B1-3-1에 상당한다.
[공정 B1-1]
공정 B1-1은 모친에 관한 유전 정보를 포함하는 주요 핵산과 태아에 관한 유전 정보를 포함하는 부차 핵산이 혼합된 순환 무세포 핵산 샘플을 측정을 통해 데이터 세트를 준비하는 공정이다. 해당 데이트세트는 주요 핵산과 부차 핵산에 있어서의, 복수의 다형 좌위에 있어서의 각 대립 유전자의 존재를 나타내는 신호로 이루어진다.
여기서 상기 복수의 다형 좌위는, 사람의 개인 식별(HID)에 사용되는 다형 좌위인 것이 바람직하다.
[공정 B1-2]
공정 B1-2는 데이터 세트에 포함된 데이터의 복수의 다형 좌위 중에서, 모친에서 동형 접합이며, 주요 핵산에서 유래한 대립유전자의 존재를 나타내는 신호와 부차 핵산에서 유래한 대립유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 상기 (B1) 및 상기 (B2)를 포함하는 수치군을 선형결합하여 1 개 이상의 합성 변수를 생성하는 공정이다. 또한, 아버지로 추정되는 사람의 상기 다형 좌위의 유전형은 동형 접합이어도 헤테로 접합이어도 좋다.
[공정 B1-3-1]
공정 B1-3-1은 공정 B1-2에서 생성한 합성 변수를 설명 변수로 갖는 모델 함수에 해당 합성 변수를 입력하여 신뢰성 값을 산출하는 공정이다.
<2-2> 암 검사를 위한 신뢰성 값의 산출 방법
다음은 암 검사를 위한 신뢰성 값의 산출 방법에 대해 설명한다. <2>에 기재된 사항은 본 실시 형태에도 해당되므로 설명이 중복되는 부분은 적절하게 생략한다.
본 실시 형태에서는 검사 대상자가 주요 기여체, 암세포가 부차 기여체, 검사 대상자에서 채취한 순환 무세포 핵산 샘플이 혼합 핵산 샘플에 상당한다.
또한, 위에서 설명한 공정 B-1, 공정 B-2 및 공정 B-3-1은 각각 이하 B2-1, 공정 B2-2 및 공정 B2-3-1에 상당한다.
[공정 B2-1]
공정 B2-1은 검사 대상자의 유전정보를 가진 주요 핵산이 혼입되어 있고, 암세포의 유전정보를 가진 부차 핵산이 혼입되어 있을 수 있는 순환 무세포 핵산 샘플의 측정을 통해 구한 데이터 세트이자, 상기 주요 핵산 및 상기 부차 핵산에 있는 암과 관련된 복수의 다형 좌위의 각 대립유전자의 존재를 나타내는 신호로 이루어진 데이터 세트를 준비하는 공정이다.
여기서 "부차 핵산이 혼입되어 있을 수 있는"이란, 순환 무세포 핵산 샘플에 부차 핵산이 혼입되어 있을 가능성을 완전히 부정할 수 없는 경우를 가리킨다.
[공정 B2-2]
공정 B2-2는 데이터 세트에 포함된 데이터의 복수의 다형 좌위 중에서, 정상형 대립유전자의 신호와 변이형 대립유전자의 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 상기 (B1) 및 상기 (B2)를 포함하는 수치군을 선형결합하여 1 개 이상의 합성 변수를 생성하는 공정이다.
정상형 대립유전자란 암에 걸리지 않은 사람에서 발견되는 대립유전자이며, 변이형 대립유전자란 암 관련 변이가 도입된 대립유전자를 가리킨다.
공정 B2-2에서는, 상기 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서, 검사 대상자에서 변이형인 대립유전자를 동형 접합 또는 헤테로 접합으로 가진 다형 좌위에 관한 데이터는 제외하는 것이 바람직하다. 이와 같이 검사 대상자가 선천적으로 가진 변이형 대립유전자가 있는 다형 좌위에 관한 데이터를 제외함으로써, 부차 성분 신호와 검사 대상자에서 유래하는 주요 성분 신호가 혼재되어 검출된 데이터를 제외할 수 있다. 이를 통해, 산출된 신뢰성의 정밀도를 향상시킬 수 있다.
[공정 B2-3-1]
공정 B2-3-1은, 공정 B2-2에서 생성한 합성 변수를 설명 변수로 갖는 모델 함수에 해당 합성 변수를 입력하여 신뢰성 값을 산출하는 공정이다.
<2-3> 이식 장기의 정착 경과 모니터링을 위한 신뢰성 값의 산출 방법
이어서 이식 장기의 정착 경과 모니터링을 위한 신뢰성 값의 산출 방법에 대해 설명한다. <2>에서 설명한 사항은 본 실시 형태에도 적용되기 때문에, 설명이 중복되는 부분은 적절히 생략한다.
본 실시 형태에서는 장기 레시피엔트가 주요 기여체, 이식 장기가 부차 기여체, 장기 레시피엔트에서 채취한 순환 무세포 핵산 샘플이 혼합 핵산 샘플에 해당된다.
또한, 위에서 상술한 공정 B-1, 공정 B-2 및 공정 B-3-1은 각각 이하 B3-1, 공정 B3-2 및 공정 B3-3-1에 상당한다.
[공정 B3-1]
공정 B3-1은 장기 레시피엔트의 유전정보를 가진 주요 핵산이 혼입되어 있고, 이식 장기의 유전정보를 가진 부차 핵산이 혼입되어 있을 수 있는 순환 무세포 핵산 샘플의 측정을 통해 데이터 세트를 준비하는 공정이다. 해당 데이터 세트는 주요 핵산과 부차 핵산에 있어서의, 복수의 다형 좌위에 있어서의 각 대립 유전자의 신호로 이루어진다. 여기서 다형 좌위는, 사람의 개인 식별(HID)에서 사용되는 다형 좌위인 것이 좋다.
[공정 B3-2]
공정 B3-2는 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서, 상기 주요 핵산에서 유래한 대립 유전자의 존재를 나타내는 신호와 상기 부차 핵산에서 유래한 대립 유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 상기 (B1) 및 상기 (B2)를 포함하는 수치군을 선형결합하여 1 개 이상의 합성 변수를 생성하는 공정이다.
[공정 B3-3-1]
공정 B3-3-1은, 공정 B3-2에서 생성한 합성 변수를 설명 변수로 갖는 모델 함수에 해당 합성 변수를 입력하여 신뢰성 값을 산출하는 공정이다.
<2-4> 질환 리스크를 평가하는 비침습적 산전 검사를 위한 신뢰성 값의 산출 방법
이어서, 질환 리스크를 평가하는 비침습적 산전 검사를 위한 신뢰성 값을 산출하는 방법에 대해 설명한다. <2>에서 설명한 사항은 본 실시 형태에도 적용되기 때문에, 설명이 중복되는 부분은 적절히 생략한다.
본 실시 형태에서는 모친이 주요 기여체, 모친 태내에 있는 태아가 부차 기여체, 모친에서 채취한 순환 무세포 핵산 샘플이 혼합 핵산 샘플에 상당한다.
또한, 위에서 상술한 공정 B-1, 공정 B-2 및 공정 B-3-1은 각각 이하 B4-1, 공정 B4-2 및 공정 B4-3-1에 상당한다.
[공정 B4-1]
공정 B4-1은 모친에 관한 유전 정보를 포함하는 주요 핵산과 모친의 태내 속 태아에 관한 유전 정보를 포함하는 부차 핵산이 혼합된, 상기 모친에서 채취한 순환 무세포 핵산 샘플의 측정을 통해 데이터 세트를 준비하는 공정이다. 해당 데이터세트는 주요 핵산과 부차 핵산에 있는, 질환관 관련된 복수의 다형 좌위의 각 대립유전자의 존재를 나타내는 신호로 이루어진다.
[공정 B4-2]
공정 B4-2에서는 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서, 모친에서 변이형 대립유전자를 헤테로 접합으로 가진 다형 좌위에 관한 데이터를 제외한다.
제외 후 남은 데이터세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서, 상기 주요 핵산에서 유래한 대립유전자의 존재를 나타내는 신호와 상기 부차 핵산에서 유래한 대립 유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 상기 (B1) 및 상기 (B2)를 포함하는 수치군을 선형결합하여 1 개 이상의 합성 변수를 생성한다.
[공정 B4-3-1]
공정 B4-3-1은 상기 공정 B-2에서 생성한 상기 합성 변수를 설명 변수로 갖는 모델 함수에 해당 합성 변수를 입력하여 신뢰성 값을 산출하는 공정이다.
<3> 제외 조건 설정 방법
위에서 상술한 신뢰성 값의 산출 방법에 의하면, 데이터 세트에 포함된 부차 핵산의 특정 다형 좌위에 있는 특정 대립유전자의 신호의 신뢰성 값 (Fidelity)을 평가할 수 있다.
단, 위에서 상술한 신뢰성 값의 산출 방법은, 부차 핵산에서 유래한 특정 대립유전자가 혼합 핵산 샘플에 혼입되어 있음에도 불구하고 해당 대립유전자의 존재를 나타내는 신호의 신뢰성이 낮게 산출되는 경우가 있다. 반대로 부차 핵산에서 유래한 특정 대립유전자가 혼합 핵산 샘플에 혼입되어 있지 않음에도 불구하고 해당 대립유전자의 존재를 나타내는 신호의 신뢰성이 높게 산출되는 경우도 있다. 이러한 예외적인 결과는 분석 대상인 데이터 세트에 이상치가 포함되어 있기 때문에 발생한다. 이러한 예외적인 결과를 제외할 수 있으면 더욱더 정밀도 높은 신뢰성 값을 산출할 수 있다 .
본 발명의 제외 조건 설정 방법은 모델 함수에 입력하는 설명 변수의 데이터를 좁히기 위해, 데이터 세트 중 제외 대상을 판별하는 조건을 설정하는 방법에 관한 것이다. 본 발명의 제외 조건 설정 방법은 특히 산전 유전학적 검사에 관한 것이다.
구체적으로는 부모가 각각 동형 접합으로 가졌으며 서로 이형인 유전자좌에 대한 부차 성분 신호 강도의 신뢰성이 0.8 미만, 더 바람직하게는 0.9 미만, 더 바람직하게는 0.99 미만, 더 바람직하게는 0.999 미만이면 제외되도록 제외 조건을 설정하는 것이 좋다.
또한, 부모가 각각 동형 접합으로 가졌으며 서로 동형인 유전자좌에 대한 부차 성분 신호 강도의 신뢰성이 0.2 이상, 더 바람직하게는 0.1 이상, 더 바람직하게는 0.01 이상, 더 바람직하게는 0.001 이상이면 제외되도록 제외 조건을 설정하는 것이 좋다.
이하, 본 발명의 제외 조건 설정 방법에 대하여 각 실시 형태 별로 설명을 한다.
<3-1> 제외 조건 설정 방법 (실시 형태 1)
본 발명의 제외 조건 설정 방법의 하나의 실시 형태는, 이하 공정 C-1-1, 공정 C-2-1, 공정 C-3-1 및 공정 C-4-1를 포함한다. 본 실시 형태로부터 설정한 제외 조건은, 위에서 상술한 이식 장기의 정착 경과 모니터링을 위한 신뢰성 값의 산출 방법에 적용할 수도 있다.
[공정 C-1-1]
공정 C-1-1은, 주요 기여체의 유전정보를 가진 주요 핵산과 부차 기여체의 유전정보를 가진 부차 핵산이 혼합된 혼합 핵산 샘플의 측정을 통해 데이터 세트를 준비하는 공정이다. 해당 데이터세트는 상기 주요 핵산과 상기 부차 핵산에 있어서의, 복수의 다형 좌위에 있어서의 각 대립 유전자의 존재를 나타내는 신호로 이루어진다. 상기 신호의 진위는 기존에 알고 있어야 한다.
상기 해당 다형 좌위는 사람의 개인 식별(HID)에서 사용하는 일염기다형을 가진 유전자좌인 것이 이상적이다.
또한, 주요 기여체, 부차 기여체 및 혼합 핵산 샘플은, 이하 중 하나에 해당된다.
(i) 상기 주요 기여체가 모친, 상기 부차 기여체가 상기 모친의 태내 속 태아이며, 상기 혼합 핵산 샘플이 상기 모친에서 채취한 순환 무세포 핵산 샘플이다.
(ii) 상기 주요 기여체가 장기 레시피엔트, 상기 부차 기여체가 상기 이식 장기이며 상기 혼합 핵산 샘플이 상기 장기 레시피엔트에서 채취한 순환 무세포 핵산 샘플이다.
[공정 C-2-1]
공정 C-2-1은, 공정 C-1-1에서 구한 데이터 세트에서 특정 조건에 부합하는 다형 좌위에 관한 수치군을 선형결합하여 구한 합성 변수 중, 가장 기여율이 높은 합성 변수를 생성하는 공정이다. 가장 기여율이 높은 합성 변수란, 주성분 분석을 실행하는 경우 제1주성분에 해당된다.
공정 C-2-1에서는 모친에서 동형 접합이고 부친에서 동형 접합이며, 모친과 부친에서 서로 이형인 대립유전자, 또는 장기 레시피엔트에서 동형 접합이고 장기 기증자에서 동형 접합이며, 레시피엔트와 기증자에서 서로 이형인 대립유전자가 존재하는 다형 좌위에 관한, 적어도 이하의 (C1), (C2) 및 (C3)를 포함하는 수치군에 대해 선형결합을 실시한다.
(C1)는 부차 성분 신호 강도이다. 부차 성분 신호 강도란, 부차 핵산에서 유래하는 특정 다형 좌위의 대립유전자의 존재를 나타내는 신호의 강도이다. 그 정의와 구체적인 형태에 대해서는 상기 (A1)에서의 설명 내용이 그대로 해당된다.
(C2)는 부차 성분 혼입률이다. 부차 성분 혼입률이란 특정 다형 좌위의 대립유전자에서 기인하는 신호 강도 총합에 대한 부차 성분 신호 강도의 비율이다. 즉, "부차 성분 혼입률 = 부차 성분 신호 강도 / 신호 강도 총합"과 같은 수식으로 나타낼 수 있다. 그 정의와 구체적인 형태에 대해서는 상기 (A2)에서의 설명 내용이 그대로 해당된다.
(C3)는 노이즈이다. 노이즈 특정 다형 좌위의 대립유전자에서 기인하는 신호 강도 총합에서 주요 성분 신호 강도와 부차 성분 신호 강도를 차감하여 구한 수치이다. 그 정의와 구체적인 형태에 대해서는 상기 (A5)에서의 설명이 그대로 해당된다.
공정 C-2-1에서 선형결합 대상이 되는 수치군에는 위에서 상술한 (C1), (C2) 및 (C3) 이외의 수치가 포함되어도 좋다. 즉, 해당 다형 좌위에 관한 (C1), (C2) 및 (C3) 외에도 해당 특정 다형 좌위에 관한 다양한 측정치 및 산출치를 선형결합하여도 좋다.
이하, 선형결합 대상이 되는 수치군에 포함해도 좋은 수치 (C4)~(C5)에 대해 설명한다. 또한, 아래에 열거된 (C4)~(C5) 중 1 종류만을 선택하여 상기 수치군에 포함하여도 좋으며, 2 종류 이상의 수치를 임의로 선택하여 상기 수치군에 포함하여도 좋다. (C4)~(C5) 모두 상기 수치군에 포함하여도 좋다.
(C4)는 주요 성분 신호 강도이다. 주성분 신호 강도란, 주요 핵산에서 유래한 특정 유전자좌에 있는 1 개의 대립유전자의 존재를 나타내는 신호의 강도이다. 그 정의와 구체적인 형태에 대해서는 상기 (A3)에 대한 설명이 그대로 해당된다.
(C5)는 주요 성분 혼입률이다. 주요 성분 혼입률이란, 특정 다형 좌위의 대립유전자에서 기인하는 신호 강도 총합에 대한 주요 성분 신호 강도의 비율이다. 즉, "주요 성분 혼입률 = 주요 성분 신호 강도 / 신호 강도 총합"와 같은 수식으로 나타낼 수 있다. 그 정의와 구체적인 형태에 대해서는 상기 (A1)에서의 설명 내용이 그대로 해당된다.
여기서 데이터 세트는 여러 개의 다형 좌위에 관한 데이터의 집합이다. 이 때문에 해당 데이터 세트에는, 특정 다형 좌위에 관한 상기 (C1-1)~(C5-1)의 수치 데이터를 한 세트로 하는 데이터 세트가 여러 세트에 포함된다.
또한, 선형결합 대상이 되는 수치군에 포함되는 수치 데이터는 표준화 한 것이 이상적이다.
또한, 모델 함수 작성을 위해 선형결합에 사용한 수치군에 포함된 수치의 종류 및 그 수와, 공정 C-2-1에서 합성 변수를 생성하기 위해 선형결합에 사용한 수치군에 포함된 수치의 종류 및 그 수는 일치하는 것이 좋다.
[공정 C-3-1]
공정 C-3-1은, 공정 C-2-1에서 선형결합을 통해 얻은 합성 변수의 이상치의 일부 또는 전부가 제외되도록 상기 합성 변수의 값에 역치를 설정하는 공정이다. 그 구체적인 형태는 특별히 한정되지 않는다.
상기 이상치는, 본 발명에서 작성한 모델 함수에 의해 신뢰성 값을 산출하였을 때에 나오는 비정상적인 값을 가리킨다.
예를 들어, 부차 핵산에서 유래하는 특정 대립유전자가 혼합 핵산 샘플에 혼입되어 있음에도 불구하고 해당 대립유전자의 존재를 나타내는 신호의 신뢰성이 바람직하게는 0.6 미만, 더 바람직하게는 0.7 미만, 더 바람직하게는 0.8 미만으로 산출되는 경우, 해당 대립유전자에 관한 수치를 이상치로 취급할 수 있다.
또는, 부차 핵산에서 유래하는 특정 대립유전자가 혼합 핵산 샘플에 혼입되지 않았음에도 불구하고 해당 대립유전자의 존재를 나타내는 신호의 신뢰성이 바람직하게는 0.4 이상, 더 바람직하게는 0.3 이상, 더 바람직하게는 0.2 이상으로 산출되는 경우, 해당 대립유전자에 관한 수치를 이상치로 취급할 수 있다.
또한, 합성 변수의 평균치에서 그 표준편차의 2배 이상, 더 바람직하게는 3 배 이상, 더 바람직하게는 4배 이상, 더 바람직하게는 5배 이상 떨어진 수치를 이상치로 취급할 수 있다.
공정 C-3-1의 구체적인 형태로 이하 방법을 들 수 있다.
우선, 상기 합성 변수에 대해 임시 역치를 설정하고 이하 임시 제외 조건 C1을 설정한다.
(임시 제외 조건 C1)
모친 또는 장기 레시피엔트의 유전정보를 가진 주요 핵산과, 태아 또는 이식 장기의 유전정보를 가진 부차 핵산을 포함하는 혼합 핵산 샘플을 분석하여 얻은 데이터 세트 중에서
모친에서 동형 접합이고 아버지로 추정되는 사람에서 동형 접합이며, 상기 모친과 상기 아버지로 추정되는 사람에서 서로 이형인 대립유전자, 또는,
상기 장기 레시피엔트에서 동형 접합이고 상기 장기 기증자에서 동형 접합이며, 상기 장기 레시피엔트와 상기 장기 기증자에서 서로 이형인 대립유전자가 존재하는 다형 좌위에 관한, 적어도 상기 (C1), 상기 (C2) 및 상기 (C3)를 포함하는 수치군을 선형결합하여 구한 합성변수 중, 가장 기여율이 높은 합성 변수가 임시 역치 미만에 해당되는 데이터 세트는 제외한다.
또한, 해석 대상이 되는 데이터 세트에 이 임의 제외 조건 C1을 적용하고, 제외되지 않고 남은 데이터 세트에 위에서 상술한 신뢰성 값의 산출 방법을 적용하여 신뢰성 값을 산출한다. 여기서 산출된 신뢰성 값의 결과에서 열외 결과가 제외되었는지 여부를 확인한다. 열외 결과가 제외되지 않은 경우, 임시 제외 조건을 다시 설정하고 확인하는 상기와 같은 과정을 반복하여 최적의 조건을 특정한다.
공정 C-3-1은, 이하에서 설명하는 공정 C-3-1-1 및 공정 C-3-1-2을 포함하는 형태여도 좋다.
[공정 C-3-1-1]
공정 C-3-1-1은 위에서 상술한 본 발명 방법을 통해 작성한 모델 함수에, 공정 C-2-1에서 선형결합에 의해 생성한 합성 변수, (C1) 부차 성분 신호 강도, (C2) 부차 성분 혼입률 및 (C3) 노이즈 중 하나를 설명 변수로 하고 필요한 수치를 입력하여 신뢰성 값을 산출하는 공정이다.
신뢰성 값의 산출에 사용하는 모델 함수는, "<1> 모델 함수 작성 방법" 항목에서 설명한 모델 함수인 이상 특별히 한정되지 않는다. 바람직하게는 위에서 상술한 식 1~4 중 하나의 모델 함수에 설명 변수를 입력하여 신뢰성 값을 산출한다.
[공정 C-3-1-2]
이어서 공정 C-3-1-2에서는, 공정 C-2-1에서 선형결합에 의해 생성한 합성 변수와 공정 C-3-1-1에서 산출한 신뢰성에 대해 산포도를 작성한다. 예를 들어 세로축을 합성 변수로, 가로축을 신뢰성으로 하여 작성한 산포도에는, 가로 방향으로 (신뢰성이 퍼지는 방향) 분산된 데이터 포인트의 집합(바꾸어 말하면 합성 변수의 값의 분산이 작고 신뢰성의 분산이 큰 집합)과 세로방향으로(합성 변수가 퍼지는 방향) 분산된 데이터 포인트의 집합(바꾸어 말하면 합성 변수의 값의 분산이 크고 신뢰성의 분산이 작은 집합)이 관찰된다.
이 중, 신뢰성이 퍼지는 방향으로 분산된 데이터 포인트의 집합(가로 방향으로 연장되는 집합)을 제외 후보로 특정한다.
한편, 합성 변수가 퍼지는 방향으로 분산된 데이터 포인트의 집합(세로 방향으로 연장되는 집합)을 비제외 후보로 특정한다.
그리고 제외 후보의 일부 또는 전부가 제외되도록 상기 합성 변수의 값을 역치로 설정한다.
제외되는 데이터 포인트의 비율이 제외 후보의 모든 데이터 포인트(비제외 후보와 중복되는 부분도 제외 후보에 포함)의 50% 이상, 더 바람직하게는 60% 이상, 더 바람직하게는 70% 이상, 더 바람직하게는 80% 이상, 더 바람직하게는 90% 이상, 더 바람직하게는 95% 이상이 되도록 합성 변수에 역치를 설정한다.
[공정 C-4-1]
공정 C-4-1은 신뢰성 값의 산출을 위한 모델 함수에 입력하는 데이터 세트에서 제외해야 하는 데이터의 조건을, 이하 제외 조건 C1으로 설정하는 공정이다.
(제외 조건 C1)
모친 또는 장기 레시피엔트의 유전정보를 가진 주요 핵산과, 태아 또는 이식 장기의 유전정보를 가진 부차 핵산을 포함하는 혼합 핵산 샘플의 분석을 통해 구한 데이터 세트 중에서
모친에서 동형 접합이고 부친으로 추정되는 사람에서 동형 접합이며, 상기 모친과 상기 부친으로 추정되는 사람에서 서로 이형인 대립유전자, 또는
상기 장기 레시피엔트에서 동형 접합이고 상기 장기 기증자에서 동형 접합이며, 상기 장기 레시피엔트와 상기 장기 기증자에서 서로 이형인 대립유전자에 관한, 적어도 상기 (C1), 상기 (C2) 및 상기 (C3)를 포함하는 수치군을 선형결합하여 구한 합성 변수 중 가장 기여율이 높은 합성 변수가 상기 공정 C-3-1에서 설정한 상기 역치 미만에 해당되는 데이터 세트는 제외한다.
제외 후 남은 데이터 세트에 위에서 상술한 본 발명의 신뢰성 값의 산출 방법을 적용함으로써 예외 결과가 저감된 고정밀 신뢰성 값의 산출 결과를 얻을 수 있다.
<3-2> 제외 조건 설정 방법 (실시 형태 2)
본 발명의 제외 조건 설정 방법의 하나의 실시 형태는, 이하 공정 C-1-2 및 공정 C-2-2, 공정 C-3-2, 공정 C-4-2를 포함한다.
[공정 C-1-2]
공정 C-1-2는, 주요 기여체의 유전정보를 가진 주요 핵산과 부차 기여체의 유전정보를 가진 부차 핵산을 포함하는 혼합 핵산 샘플의 측정을 통해 데이터 세트를 준비하는 공정이다. 해당 데이터세트는 상기 주요 핵산과 상기 부차 핵산에 있어서의, 복수의 다형 좌위에 있어서의 각 대립 유전자의 존재를 나타내는 신호로 이루어진다. 또한, 상기 신호의 진위는 기존에 알고 있어야 한다.
상기 다형 좌위는 사람의 개인 식별(HID)에서 사용하는 일염기다형을 가진 유전자좌인 것이 이상적이다.
또한, 주요 기여체, 부차 기여체 및 혼합 핵산 샘플은, 이하 중 하나에 해당된다.
(i) 상기 주요 기여체가 모친, 상기 부차 기여체가 상기 모친의 태내 속 태아이며 상기 혼합 핵산 샘플이 상기 모친에서 채취한 순환 무세포 핵산 샘플이다.
(ii) 상기 주요 기여체가 장기 레시피엔트, 상기 부차 기여체가 상기 이식 장기이며 상기 혼합 핵산 샘플이 상기 장기 레시피엔트에서 채취한 순환 무세포 핵산 샘플이다.
[공정 C-2-2]
공정 C-2-2는, 공정 C-1-2에서 구한 데이터 세트에서 특정 조건에 부합하는 다형 좌위에 관한 수치군을 선형결합하여 구한 합성 변수 중, 첫 번째 또는 두 번째로 기여율이 높은 합성 변수를 생성하는 공정이다. 첫 번째로 기여율이 높은 합성 변수란, 주성분 분석을 실행하는 경우 제1주성분에 해당된다. 두 번째로 기여율이 높은 합성 변수란, 주성분 분석을 실행하는 경우 제2주성분에 해당된다.
공정 C-2-2에서는 모친에서 동형 접합이고 부친에서 동형 접합이며, 모친과 상기 부친에서 서로 동형인 대립유전자, 또는, 장기 레시피엔트에서 동형 접합이고 장기 기증자에서 동형 접합이며, 장기 레시피엔트와 장기 기증자에서 서로 동형인 대립유전자가 존재하는 다형 좌위에 관한, 최소 위에서 상술한 (C1), (C2) 및 (C3)을 포함하는 수치군에 대해 선형결합을 실행한다. 또한, 선형결합 대상이 되는 수치군에는 (C1), (C2) 및 (C3) 외의 수치가 포함되어도 좋으며, 그 예시로는 위에서 상술한 (C4)~(C5)를 들 수 있다. 이 외에도, C-2-2의 구체적 형태에 대해서는 위에서 상술한 공정 C-2-1에서의 설명이 해당된다.
또한, 모델 함수 작성을 위한 선형결합에 사용한 수치군에 포함된 수치의 종류 및 그 수와, 공정 C-2-2에서 합성 변수를 생성하기 위한 선형결합에 사용한 수치군에 포함된 수치의 종류 및 그 수는 일치하는 것이 좋다.
[공정 C-3-2]
공정 C-3-2는, 공정 C-2-2에서 선형결합을 통해 얻은 합성 변수의 이상치의 일부 또는 전부가 제외되도록 상기 합성 변수의 값에 역치를 설정하는 공정이다. 그 구체적인 형태는 특별히 한정되지 않는다. 이상치의 정의에 대해서는 위에서 상술한 공정 C-3-1에서의 설명이 해당된다.
공정 C-3-2의 구체적 형태로 이하 방법을 들 수 있다.
우선 상기 합성 변수에 대하여 임시 역치를 설정하고 이하 임시 제외 조건 C2를 설정한다.
(임시 제외 조건 C2)
모친 또는 장기 레시피엔트의 유전정보를 가진 주요 핵산과, 태아 또는 이식 장기의 유전정보를 가진 부차 핵산을 포함하는 혼합 핵산 샘플을 분석하여 구한 데이터 세트 중에서
모친에서 동형 접합이고 부친으로 추정되는 사람에서 동형 접합이며, 상기 모친과 상기 부친으로 추정되는 사람에서 서로 동형인 대립유전자, 또는
상기 장기 레시피엔트에서 동형 접합이고 상기 장기 기증자에서 동형 접합이며, 상기 장기 레시피엔트와 상기 장기 기증자에서 서로 동형인 대립유전자에 관한, 적어도 상기 (C1), 상기 (C2) 및 상기 (C3)를 포함하는 수치군을 선형결합하여 구한 합성 변수 중, 첫 번째 또는 두 번째로 기여율이 높은 합성 변수가 임시 역치 미만에 해당되는 데이터 세트는 제외한다.
또한, 해석대상이 되는 데이터 세트에 이 임시 제외 조건 C2를 적용하고, 제외되지 않고 남은 데이터 세트에 위에서 상술한 신뢰성 값의 산출 방법의 발명을 적용하여 신뢰성 값을 산출한다. 여기서 산출된 신뢰성 값의 결과에서 예외결과가 제외되었는지 여부를 확인한다. 예외결과가 제외되지 않은 경우나 사실을 정확하게 반영한 신뢰성 값의 결과가 과도하게 제외된 경우에는, 임시 제외 조건을 다시 설정하고 확인하는 상기와 같은 과정을 반복하여 최적의 조건을 특정한다.
공정 C-3-2는, 이하에서 설명하는 공정 C-3-2-1 및 공정 C-3-2-2를 포함하는
형태여도 좋다.
[공정 C-3-2-1]
공정 C-3-2-1은 위에서 상술한 본 발명 방법을 통해 작성한 모델 함수에, 공정 C-2-2에서 선형결합에 의해 생성한 합성 변수, (C1) 부차 성분 신호 강도, (C2) 부차 성분 혼입률 및 (C3) 노이즈 중 하나를 설명 변수로 하고 필요한 수치를 입력하여 신뢰성 값을 산출하는 공정이다.
신뢰성 값의 산출에 사용하는 모델 함수는, "<1> 모델 함수 작성 방법" 항목에서 설명한 모델 함수인 이상 특별히 한정되지 않는다. 바람직하게는 위에서 상술한 식 1~4 중 하나의 모델 함수에 설명 변수를 입력하여 신뢰성 값을 산출한다.
[공정 C-3-2-2]
이어서 공정 C-3-2-2에서는, 공정 C-2-2에서 선형결합을 통해 생성한 합성 변수와 공정 C-3-2-1에서 산출한 신뢰성에 대해 산포도를 작성한다. 예를 들어, 세로축을 합성 변수, 가로축을 신뢰성으로 하여 작성한 산포도에는 가로 방향으로 (신뢰성이 퍼지는 방향) 분산된 데이터 포인트의 집합(바꾸어 말하면 합성 변수의 값의 분산이 작고 신뢰성의 분산이 큰 집합)과, 세로 방향으로(합성 변수가 퍼지는 방향) 분산된 데이터 포인트의 집합(바꾸어 말하면 합성 변수의 값의 분산이 크고 신뢰성의 분산이 작은 집합)이 관찰된다.
이 중, 신뢰성이 퍼지는 방향으로 분산된 데이터 포인트의 집합(가로 방향으로 연장되는 집합)을 제외 후보로 특정한다.
한편, 합성 변수가 퍼지는 방향으로 분산된 데이터 포인트의 집합(세로 방향으로 연장되는 집합)을 비제외 후보로 특정한다.
그리고 제외 후보의 일부 또는 전부가 제외되도록 해당 합성 변수의 값을 역치로 설정한다.
제외되는 데이터 포인트의 비율이 제외 후보의 모든 데이터 포인트(비제외 후보와 중복되는 부분도 제외 후보에 포함한)의 50% 이상, 더 바람직하게는 60% 이상, 더 바람직하게는 70% 이상, 더 바람직하게는 80% 이상, 더 바람직하게는 90% 이상, 더 바람직하게는 95% 이상이 되도록 합성 변수에 역치를 설정한다.
[공정 C-4-2]
공정 C-4-2는 신뢰성 값의 산출을 위한 모델 함수에 입력하는 데이터 세트에서 제외해야 하는 조건을 이하 제외 조건 C2로 설정하는 공정이다.
(제외 조건 C2)
모친 또는 장기 레시피엔트의 유전정보를 가진 주요 핵산과, 태아 또는 이식 장기의 유전정보를 가진 부차 핵산을 포함하는 혼합 핵산 샘플을 분석해서 구한 데이터 세트 중에서
모친에서 동형 접합이고 부친으로 추정되는 사람에서 동형 접합이며, 상기 모친과 상기 부친으로 추정되는 사람에서 서로 동형인 대립유전자, 또는
상기 장기 레시피엔트에서 동형 접합 이고 상기 장기 기증자에서 동형 접합이며, 상기 장기 레시피엔트와 상기 장기 기증자에서 서로 동형인 대립유전자가 존재하는 다형 좌위에 관한, 적어도 상기 (C1), 상기 (C2) 및 상기 (C3)를 포함하는 수치군을 선형결합하여 구한 합성 변수 중, 첫 번째로 또는 두 번째로 기여율이 높은 합성 변수가 상기 공정 C-3-2에서 설정한 상기 역치 미만에 해당되는 데이터 세트는 제외한다.
제외 후 남은 데이터 세트에 위에서 상술한 본 발명의 신뢰성 값의 산출 방법을 적용함으로써 예외 결과가 저감된 고정밀 신뢰성 값의 산출 결과를 얻을 수 있다.
<4> 제외 조건을 적용하여 신뢰성 값을 산출하는 방법
본 발명은, 위에서 상술한 제외 조건 설정 방법에 의해 설정한 제외 조건 C1 및/또는 제외 조건 C2를 상기 "<2-3>이식 장기의 정착 경과 모니터링을 위한 신뢰성 값의 산출 방법"의 공정 B2-1에서 구한 데이터 세트에 적용했을 때, 제외되지 않고 남은 데이터 세트에 본 발명의 신뢰성 값의 산출 방법을 적용하여 신뢰성 값을 산출하는 방법에 관한 것이다.
적용한 제외 조건은 제외 조건 C1과 제외 조건 C2 중 어느 한 쪽, 또는 양쪽이어도 좋다. 또한, 공정 B1-2 또는 공정 B3-2에서 선형결합의 대상이 되는 수치군에 포함되는 수치의 종류가 10종류 이상, 더 바람직하게는 20종류 이상, 더 바람직하게는 30종류 이상인 경우에는, 제외 조건 C1만을 적용하고도 매우 정밀도 높은 신뢰성 값을 산출할 수 있다.
본 발명의 실시 형태는 제외 조건 C1 및/또는 제외 조건 C2를 적용하는 것 외에는, "<2-3> 이식 장기의 정착 경과 모니터링을 위한 신뢰성 값의 산출 방법" 항목에서 설명한 내용을 그대로 적용할 수 있다.
데이터 세트에 제외 조건을 적용하고 있기 때문에, 이 입력값들에서는 이상치가 제외되어 있다. 때문에, 모델 함수에 의해 산출된 신뢰성으로 예외적인 결과가 출력되어 버리는 문제를 크게 낮출 수 있다.
<5> 프로그램
본 발명은 위에서 상술한 모델 함수 작성 방법, 신뢰성 값의 산출 방법, 제외 조건 설정 방법 중, 1 또는 2 이상의 방법을 선택하여 컴퓨터에 실행시키기 위한 프로그램에 관한 것이다. 컴퓨터 내의 프로세서가 하드디스크 장치 등의 내부 기억 장치에 저장된 본 발명의 프로그램에 따라 동작함으로써, 위에서 상술한 모델 함수 작성 방법, 신뢰성 값의 산출 방법, 제외 조건 설정 방법 중 1 또는 2 이상의 방법을 선택하여 실행하도록 구성할 수 있다.
<6> 기억 장치
본 발명은 위에서 상술한 프로그램을 기록한 기억매체에도 관한 것이다. 또한, 본 발명은 위에서 상술한 방법으로 작성한 모델 함수가 기록된 기억매체에도 관한 것이다. 여기서 기억매체는 반도체 메모리, 하드디스크, 자기 기억 장치, 광기억 장치 등, 컴퓨터에 의해 판독이 가능한 기억 장치인 이상 특별히 제한되지 않는다.
<7> 신뢰성 값의 산출 시스템
본 발명은 위에서 상술한 모델 함수가 기록된 기억부와, 위에서 상술한 신뢰성 값의 산출 방법을 실행하는 처리부를 갖춘 신뢰성 값의 산출 시스템에 관한 것이다. 이하, 본 발명의 신뢰성 값의 산출 시스템의 바람직한 실시 형태에 대해서 설명한다.
처리부는 분석장치에 의해 취득한, 감정 대상이 되는 데이터 세트를 처리하는 구성이다. 예를 들어, 처리부는 기억부에 저장된 프로그램(위에서 상술한 신뢰성 값의 산출 방법을 실행하는 프로그램)을 읽고 실행하여 신뢰성 값의 산출에 필요한 데이터 처리를 실현하는 연산 장치(계산기라 불러도 된다)여도 좋다. 처리부는 데이터 처리의 실행 주체이다. 처리부로는 CPU (Central Processing Unit), MPU (Micro Processing Unit), DSP (Digital Signal Processor)나 FPGA(Field Programmable Gate Array) 등을 들 수 있다. 여기서 처리부는 두 개 이상의 코어를 포함하는 멀티 코어 프로세스여도 좋다.
기억부는, 처리부에서 실행되는 각종 데이터 처리에 관련된 데이터나 프로그램을 기억 유지하도록 구성된 회로이다. 기억부는 비휘발성 기억장치와 휘발성 기억장치, 양쪽 또는 최소 한쪽을 포함하는 구성을 가지고 있다. 그 예시로는 RAM (Random Access Memory), ROM (Read Only Memory), SSD (Solid State Drive), HDD (Hard Disk Drive) 등을 들 수 있다. 기억부는 주기억장치 및 보조기억장치 등의 각종 기억장치를 총칭한다. 프로그램은 기존의 기억부에 저장되어 있어도 좋고, 통신회로를 통해 접속된 장치(서버 등)로부터 다운로드되어 기억부에 저장되어도 좋다.
본 실시 형태의 신뢰성 값의 산출 시스템은, 상기 공정 B-1에서 구한 데이터 세트를 입력하는 입력부를 갖춘다. 입력부에 입력한 상기 데이터 세트는 상기 처리부에 제공된다. 상기 처리부는 기억부에 기억된, 위에서 상술한 신뢰성 값의 산출 방법 실행을 위한 프로그램을 읽고, 해당 프로그램에 따라 기억부에 기억된 모델 함수에 상기 데이터 세트에 포함되거나 상기 데이터 세트로부터 생성한 설명 변수를 입력하여 신뢰성 값을 산출한다.
또한, 본 발명의 바람직한 실시 형태에서는 위에서 상술한 제외 조건 설정 방법에 의해 작성한 제외 조건 C1 및/또는 제외 조건 C2가 상기 기억부에 기록된다. 더 바람직하게는 신뢰성 값의 산출 시스템이 상기 공정 B-1에서 구한 데이터 세트를 입력하는 입력부를 준비한다.
본 실시 형태에서는 입력부에 입력한 상기 데이터 세트를 상기 처리부에 제공한다. 상기 처리부는 기억부에 기억된, 위에서 상술한 제외 조건 C1 및/또는 제외 조건 C2를 읽고 해당 조건을 데이터 세트에 적용하여 신뢰성 값의 산출에 적절하지 않은 데이터를 제외한다. 처리부는 위에서 상술한 신뢰성 값의 산출 방법을 실행하기 위한 프로그램을 읽고, 해당 프로그램에 따라 기억부에 기억된 모델 함수에 제외 조건을 적용한 후 남은 상기 데이터 세트에 포함 또는 상기 데이터 세트에서 생성된 설명 변수를 입력하여 신뢰성 값을 산출한다.
[실행예]
<시험 예1> 모델 함수 작성
모친의 구강상피세포 샘플 (모친의 유전정보만 포함), 부친의 구강상피세포 샘플 (부친의 유전정보만 포함) 및 모친의 plasma 샘플 (모친과 태아의 유전정보를 미량 포함)을 분석한 차세대 시퀀서(NGS)에 의해 구한 유전자 검사 데이터를 하나의 세트로 하여, 총 200 개의 데이터 세트를 구하였다. 기존에 알고 있는 184 개의 SNPs가 있는 다형 좌위를 타깃 시퀀스를 하여 NGS를 실시하였다. 데이터 세트에는 36,800 개 (200쌍 x 184 개)의 SNPs의 데이터가 포함되어 있다.
데이터 세트에 포함된 모친 전혈의 해석 데이터 중, 모친과 부친에서 모두 동형 접합인 다형 좌위에 관한 데이터만 추출하였다. 이를 통해 데이터 세트에 포함된 데이터를 10,415 개의 SNPs의 데이터로 좁혔다. 그리고 여기서 추출한 데이터 세트에 포함된 이하 5 개의 인자에 대해 주성분 분석을 실시하였다.
(1) 주요 성분 신호 강도의 절대치 [태아 Count Major]
(2) 부차 성분 신호 강도의 절대치 [태아 Count minor]
(3) 주요 성분 혼입률 (= (1) / 신호 강도 총합) [태아 Freq. Major]
(4) 부차 성분 혼입률 (= (2) / 신호 강도 총합) [태아 Freq. minor]
(5) 노이즈 (= 신호 강도 총합 - [(1)+(2)] [태아 error]
또한, 상기 (1)~(5)의 데이터를 표준화한 후, 주성분 분석을 실행하였다.
* (표준화 데이터) = [(원 데이터) - (평균치)]/(표분 표준 편차)
그 결과, 제1 주성분이 신뢰성과 높은 상관을 나타내는 지표인 것을 확인하였다.
아래에 기재된 방법으로 각 모델 함수를 작성하였다. 모델 함수의 작성에는 부차 성분 신호 강도의 진위판정이 필요하기 때문에, 이하 규칙에 따라 설정한 참/거짓의 기준에 기초하여 진위판정을 실시하였다.
·부모의 유전형이 동형 접합이며 서로 동형인 경우, 태아의 유전형은 동형 접합이다 (부차 성분 신호 강도는 거짓)
·부모의 유전형이 동형 접합이며 서로 이형인 경우, 태아의 유전형은 헤테로 접합이다 (부차 성분 신호 강도는 참)
모델 함수 f1(x1)의 작성
주성분 분석에 의해 구한 제1 주성분을 크기에 따라 20 구분으로 나누었다. 이어서, 각 구분에 포함된 제1 주성분에 대응하는 부차 성분 신호 강도 중 "참"인 비율(확률)을 구하였다. 그리고 각 구분에 포함된 제1 주성분의 대표치에 해당 구분의 확률을 부여하였다. 이러한 방법으로 구한 제1 주성분과 신뢰성에 대해 최소 제곱법으로 회귀분석을 실시하고, 제1주성분을 설명 변수, 신뢰성 값 (Fidelity)를 목적 변수로 갖는 모델 함수 f1(x1)을 구하였다. 회귀 분석의 기여율(R2)은 0.99 이상으로, 매우 양호하였다.
도면1을 모델 함수 f1(x1)의 시그모이드 곡선을 나타낸다. 이하 식 5 또한 모델 함수 f1(x1)을 나타낸다.
[수학식 5]
Figure pct00018
(x1: 제1주성분, A1: 15.5, x01: -0.7)
모델 함수 f2(x2)의 작성
부차 성분 신호 강도의 절대치를 크기에 따라 20 구분으로 나누었다. 이어서, 각 구분에 포함된 부차 성분 신호의 절대치 중 "참"인 비율(확률)을 구하였다. 그리고 각 구분에 포함된 부차 성분 신호 강도 절대치의 대표치에 해당 구분의 확률을 부여하였다. 이러한 방법으로 구한 부차 성분 신호 강도의 절대치를 설명 변수, 신뢰성 값 (Fidelity)을 목적 변수로 갖는 모델 함수 f2(x2)를 구하였다. 회귀 분석의 기여율(R2)은 0.99 이상으로, 매우 양호하였다.
도면2는 모델 함수 f2(x2)의 시그모이드 곡선을 나타낸다. 이하 식 6 또한 모델 함수 f2(x2)을 나타낸다.
[수학식 6]
Figure pct00019
(x2: 부차 성분 신호 강도, A2: 1.9, x02: 2.6)
모델 함수 f3(x3)의 작성
부차 성분 혼입률을 크기에 따라 20 구분으로 나누었다. 이어서, 각 구분에 포함된 부차 성분 혼입률에 대응하는 부차 성분 신호 강도 중 참인 비율(확률)을 구하였다. 그리고 각 구분에 포함된 부차 성분 혼입률의 대표치에, 해당 구분의 확률을 부여하였다. 이러한 방법으로 구한 부차 성분 혼입률을 설명 변수, 신뢰성 값 (Fidelity)을 목적 변수로 갖는 모델 함수 f3(x3)을 구하였다. 회귀 분석의 기여율(R2)은 0.99 이상으로, 매우 양호하였다.
도면3은 모델 함수 f3(x3)의 시그모이드 곡선을 나타낸다. 이하 식 7 또한 모델 함수 f3(x3)을 나타낸다.
[수학식 7]
Figure pct00020
(x3: 부차 성분 혼입률, A3: 9.4, x03: 0.6)
모델 함수 f(x1, x2, x3)의 작성
f1(x1), f2(x2), f3(x3)를 서로 곱하여 이하 식 4의 모델 함수 f(x1, x2, x3)을 작성하였다.
[수학식 4]
Figure pct00021
<시험 예 2> 신뢰성 값의 산출
식 4의 모델 함수 f(x1, x2, x3)에 의해 해당 모델 함수의 작성에 사용한 200 데이터 세트의 신뢰성 값을 산출하고, 그 결과를 검증하였다. 즉, 혼합 핵산 샘플의 SNPs에 관련된 좌위에 대한 제1 주성분, 부차 성분 신호 강도의 절대치와 부차 성분 혼입률을 모델 함수 f(x1, x2, x3)에 입력하고, 그 신뢰성 값을 산출하였다. 여기서 신뢰성 값의 산출에는 (1) 과 (2)의 합계치가 300 미만인 것은 제외한, 8,148 개의 SNPs의 신뢰성 값 (Fidelity)를 계산하였다.
도면4는 산출한 신뢰성 값 (Fidelity)의 분포도이다.
왼쪽은 부모가 각각 동형 접합이며 서로 이형인 SNPs의 신뢰성 값을 집계하였다 (태아의 유전형은 헤테로 접합이다).
오른쪽은 부모가 각각 동형 접합이며 서로 동형인 SNPs의 신뢰성 값을 집계하였다 (태아의 유전형은 동형 접합이다).
도면4에 나타난 바와 같이, 본 발명의 방법에 의하면 SNPs의 신뢰성 값을 높은 정밀도로 평가할 수 있다.
<시험 예 3> 제외 조건의 검토
도면4의 왼쪽(부모가 각각 동형 접합이며 서로 이형인 SNPs)의 집계를 보면, 계산된 신뢰성이 0.19 미만인 값들이 분포되어 있으며 일정 수의 예외 사례를 확인할 수 있다. 도면4의 오른쪽(부모가 각각 동형 접합이며 서로 동형인 SNPs)의 집계에서 또한, 0.9 이상인 값들이 분포되어 있으며 일정 수의 예외 사례를 확인할 수 있다.
태아의 유전형이 헤테로 접합임에도 불구하고 산출된 신뢰성이 낮은 경우(예를 들어 0.1 미만), 또는 태아의 유전형이 동형 접합임에도 불구하고 산출된 신뢰성이 높은 경우(예를 들어 0.9 이상), 예외 결과를 제외하기 위해 이하 방법으로 제외 조건을 상세히 검토하였다.
제외 조건 1
부모가 각각 동형 접합이며 서로 이형인 SNPs(태아의 유전형은 헤테로 접합)에 관한 혼합 핵산 샘플의 분석에 의해 얻은 SNPs (총 3,196개)를 대상으로, 상기 파라미터 (1)~(5)에 대해 주성분 분석을 실행하였다.
한편, 주성분 분석을 실행한 파라미터 (1)~(5)로부터 모델 함수 f(x1, x2, x3)을 이용하여 신뢰성 값을 산출하였다.
이어서, 주성분 분석에 의해 얻은 각 주성분을 y축, 신뢰성 값을 x축으로 하여 산포도를 작성하였다 (도면5). 데이터가 최대로 분산된 제1 주성분 산포도에 나타난 바와 같이, x축 방향으로 분산된 데이터 포인트의 집합과, y축 방향으로 분산된 데이터 포인트의 집합이 2 개 관찰된다. 이 중, x축 방향으로 분산된 데이터 포인트의 집합을 제외해야 하는 이상치로 하고, 제1 주성분에 대해 -1.9 위치에 역치를 설정하였다. 이 역치에 기초하여 이하 제외 조건 1을 설정하였다.
(제외 조건 1)
데이터 세트 중, 부모가 각각 동형 접합이며 서로 이형인 SNPs에 대하여, 상기 (1)~(5)의 제 1 주성분이 -1.9 미만인 데이터는 제외한다.
제외 조건 2
부모가 각각 동형 접합이며 서로 동형인 SNPs의 제외 조건을 적절히 설정할 수 있는지를 검토하였다.
부모가 각각 동형 접합이며 서로 동형인 SNPs(태아의 유전형은 동형 접합)에 관한 혼합 핵산 샘플의 분석에 의해 얻은 SNPs (총 4,952개)를 대상으로, 상기 파라미터 (1)~(5)에 대해 주성분 분석을 실행하였다.
한편, 주성분 분석을 실행한 파라미터 (1)~(5)로부터 모델 함수 f(x1, x2, x3)을 이용하여 신뢰성 값을 산출하였다.
이어서, 주성분 분석에 의해 얻은 각 주성분을 y축, 신뢰성 값을 x축으로 하여 산포도를 작성하였다 (도면6).
데이터가 최대로 분산된 제1 주성분 산포도에 나타난 바와 같이, x축 방향으로 분산된 데이터 포인트의 집합과, y축 방향으로 분산된 데이터 포인트의 집합이 2 개 관찰된다. 이 중, y축방향으로 분산된 데이터 포인트의 집합을 제외해야 하는 이상치로 하고, 제1 주성분에 대해 6 위치에 역치를 설정하였다. 이 역치에 기초하여 이하 제외 조건 2을 설정하였다.
(제외 조건 2)
데이터 세트 중, 부모가 각각 동형 접합이며 서로 동형인 SNPs에 대하여, 상기 (1)~(5)의 제 1 주성분이 6 이상인 데이터는 제외한다.
<시험 예 4> 신뢰성 재설계
200 개의 시험 데이터 세트를 이용한 시험 예 3에서 설정한 제외 조건 1, 2에 해당하는 SNPs의 데이터를 데이터 세트에서 제외한 다음, 시험 예 1과 동일한 순서로 신뢰성 값을 산출하였다 (제외 후 남은 SNPs의 수: 8,081 개).
도면7은 산출한 신뢰성 값 (Fidelity)의 분포도이다.
왼쪽은 부모가 각각 동형 접합이며 서로 이형인 SNPs의 신뢰성 값을 집계하였다 (태아의 유전형은 헤테로 접합이다).
오른쪽은 부모가 각각 동형 접합이며 서로 동형인 SNPs의 신뢰성 값을 집계하였다 (태아의 유전형은 동형 접합이다).
도면7 왼쪽은 제외 조건 1을 적용한 후의 데이터에 관한 신뢰성의 분포도이다. 도면7 오른쪽은 제외 조건 2를 적용한 후의 데이터에 관한 신뢰성의 분포도이다. 도면7에서 나타난 바와 같이 제외 조건 1 또는 2를 적용한 결과, 예외 사례가 유의하게 제외되어 타당성이 향상되었다.
<시험 예 5> 다른 NGS 타깃 패널에 대한 타당성 검증
본 발명의 타당성을 검증하기 위해 별도로 준비한 16 개의 데이터세트를 이용하여 이하 검토를 실행하였다. 시험 예 1의 184 개의 SNPs의 타깃 패널과는 다른, 132 개의 SNPs의 타깃 패널의 해석결과이다.
모친의 구강상피세포 샘플, 부친의 구강상피세포 샘플, 모친의 plasma 샘플 및 신생아의 구강상피세포 샘플을 분석한 NGS에 의해 구한 유전자 염기서열 검사 데이터를 한 세트로 하여, 시험 예 1~3와는 별도로 16 개의 데이터 세트를 구하였다. 기존 132 개의 SNPs가 존재하는 다형 좌위를 타깃 시퀀스로 하여 NGS를 실행하였다. 즉, 데이터 세트에는 2,112개(16쌍 x 132개)의SNPs의 데이터가 포함되어 있다.
본 시험 예에서 해석한 132 개의 SNPs는, 시험 예 1~3에서 해석한 184 개의 SNPs와 완전히 중복되지 않는다. 71 개의 SNPs는 시험 예 1~3에서 해석한 SNPs와는 다른 SNPs이다.
이 데이터 세트 중에서 모친과 부친에서 동형 접합인 SNPs를 추출하여 531 개의 SNPs의 신뢰성 값을 산출하였다.
도면8은 16 개의 데이터 세트에서 산출한 신뢰성 값 (Fidelity)의 분포도이다.
왼쪽은 부모가 각각 동형 접합이며 서로 이형인 SNPs와 (태아의 유전형은 헤테로 접합이다), 부모가 각각 동형 접합이며 서로 동형인 SNPs(태아의 유전형은 동형 접합이다)에 관한 신뢰성 값을 집계하였다.
부모가 각각 동형 접합이며 서로 이형인 SNPs에 관해서는, 176개의 SNPs 중 175 개가 0.9 이상의 신뢰성 값을 갖는다. 또한, 부모가 각각 동형 접합이며 서로 동형인 SNPs에 관해서는, 355 개의 SNPs 중 신뢰성이 0.5 이상인 SNP는 1개밖에 없었다.
오른쪽은 시험 예 1과는 다른 타깃 패널의 신뢰성 분포도를 비율로 나타내었다.
200 개의 데이터 세트 (184 SNPs의 타깃 패널)에서 산출한 모델 함수를 16 개의 데이터 세트(132 개의 타깃 패널)를 해석하는 데에 사용하였지만 같은 모양의 Fidelity 분포도를 구할 수 있었다.
이러한 결과로부터 본 발명의 Fidelity 산출 방법은 같은 시험 시스템을 사용한 경우, 타깃 패널의 종류와는 관계없이 정확한 것을 확인할 수 있었다.
<시험 예 6> 부차 성분 신호의 진위가 불분명한 SNPs에 대한 타당성 검증
시험 예 5에서 사용한 16개의 데이터 세트 중, 모친이 동형 접합으로 가진 951 개의 SNPs의 Fidelity 분포를, 신생아 유전형의 데이터와 집계하여 도면9에 나타냈다.
도면9에서 나타낸 모든 SNPs는 태아 Count Major와 태아 Count minor의 합계 300 개 이상이다.
도면9에서 나타낸 바와 같이, 부모의 유전형을 사용하여 추정한 태아의 유전형은, 출생 후 확정한 신생아의 유전형과 일치하였다. 신생아의 동형 SNPs 중 99.6%(575 SNPs 중 573 SNPs)는 0.2 이하의 낮은 신뢰성 값을 가지며, 신생아의 헤테로 SNPs 중 99.4%(376 SNPs 중 374 SNPs)는 0.8 이상의 높은 신뢰성 값을 가진다.
따라서, 시험 예 1의 모델 함수를 사용한 Fidelity 산출 방법에 의하면, 부차 성분 신호의 존재에 대한 진위를 나타내는 부친의 유전형을 모르는 경우에도 정확한 Fidelity를 산출할 수 있다.
이러한 결과로부터, 본 발명의 타당성을 확인할 수 있었다.
<시험 예 7> 모델 함수의 작성 (2)
시험 예 1에서 사용한 데이터 세트와 동일한 데이터 세트에 대하여, 모친과 부친에서 동형 접합인 다형 좌위에 관한 데이터만 추출하였다. 추출된 데이터 세트에 포함된 이하 표 1의 13개의 인자에 대하여 주성분 분석을 실시하였다. 표 1에는, 주성분 분석 결과에서 구한 제1 주성분의 고유 벡터를 나타낸다.
Figure pct00022
표 1에서 나타낸 13개의 인자 중, (1)~(5)의 내용은 시험 예 1에서 설명한 바와 같다. 표 1에서 변수의 표기에 "major"가 포함되면 주요 성분 신호에 관한 데이터라는 뜻이며, "minor"가 포함되면 부차 성분 신호에 관한 데이터라는 뜻이다. 또한, 표 1에서 변수의 표기에 "Count"가 포함되면 신호 강도에 관한 데이터라는 뜻이며, "Freq" 또는 "Frequency"가 포함되면 신로 강도의 비율에 관한 데이터라는 뜻이다.
즉, 표 1에서 변수의 표기에 "minor"와 "Count"가 모두 포함된 수치는, 본 발명에서 말하는 "부차 성분 신호 강도"에 해당된다.
또한, 표 1에서 변수의 표기에 "minor"와 "Freq" 또는 "Frequency"가 모두 포함된 수치는, 본 발명에서 말하는 "부차 성분 혼입률"에 해당된다.
표 1의 (7)은 상기 특정 다형 좌위에 있는 대립 유전자의 존재를 나타내는 부차 성분 신호 강도를, 여러 다형적 유전자에서의 노이즈의 평균치로 나눈 수치이다.
표 1의 (9)는 상기 특정 다형 좌위에 있는 대립 유전자에서 기인하는 신호 강도 총합에 대한 상기 부차 성분 신호 강도의 비율인 부차 성분 혼입률을, 복수의 다형 좌위에 에서의 노이즈의 평균치로 나눈 수치이다.
주성분 분석에 의해 구한 제1 주성분을 바탕으로 시험 예 1과 같은 순서로, 해당 제 1 주성분 x1을 설명 변수, 신뢰성 값을 목적 변수로 갖는 모델 함수 f1(x1)를 작성하였다. 회귀분석의 기여율(R2)은 0.99이상으로 매우 양호했다.
이 f1(x1)와 위에서 상술한 f2(x2)와 f3(x3)를 서로 곱하여 상기 식 4의 모델 함수 f(x1, x2, x3)를 작성하였다.
<시험 예 8> 신뢰성 값의 산출 (2)
시험 예 1에서 사용한 데이터 세트와 동일한 데이터 세트를 포함하는, 표 1에서 나타낸 13개의 인자에 대하여 주성분 분석을 실시하였다. 주성분 분석에 의해 구한 제1 주성분, 부차 성분 신호 강도의 절대치와 부차 성분 혼입률을 시험 예 7에서 작성한 모델 함수 f(x1, x2, x3)에 입력하여 신뢰성 값을 산출하였다. 도면10은, 5개의 인자, 또는 13개의 인자에 대하여 주성분 분석을 실시하여 산출한 신뢰성 값 (Fidelity)의 분포도이다.
도면10에서 나타낸 바와 같이, 본 시험 예에서도 예외 결과가 거의 없는, 매우 정밀도 높은 결과를 구하였다. 이러한 결과로부터, 시험 예 7에서 작성한 모델 함수의 타당성과 높은 정밀도를 증명할 수 있었다.
<시험 예 9> 타당성 검증 (2)
시험 예 6에서 구한 데이터 세트와 동일한 데이터 세트를 포함하는, 표 1에서 나타낸 13 개의 인자에 대하여 주성분 분석을 실시하였다. 주성분 분석에 의해 구한 제1 주성분, 부차 성분 신호 강도의 절대치와 부차 성분 혼입률을 시험 예 7에서 작성한 모델 함수 f(x1, x2, x3)에 입력하여 신뢰성 값을 산출하였다. 도면11은, 5개 인자, 또는 13개의 인자에 대하여 주성분 분석을 실시하여 산출한 신뢰성 값 (Fidelity)의 분포도이다.
도면11에서 나타낸 바와 같이, 본 시험 예에서 부차 성분 신호의 존재에 대한 진위를 나타내는 부친의 유전형을 모르는 경우에도 예외 결과가 거의 없는, 매우 정밀도 높은 결과를 구하였다. 이러한 결과로부터, 시험 예 7에서 작성한 모델 함수의 타당성과 높은 정밀도를 증명할 수 있었다.
본 발명은 산전 유전학적 검사, 암 검사, 이식 장기의 정착 경과 모티너링, 감염병 검사, 법의학 등에 응용할 수 있다.

Claims (47)

  1. 이하의 공정 A-1, 공정 A-2, 공정 A-3-1 및 공정 A-4-1을 포함하는 것을 특징으로 하는, 부차 성분 신호의 신뢰성 값을 산출하기 위한 모델 함수의 작성 방법.
    [공정 A-1]
    주요 기여체에 관한 유전 정보를 포함하는 주요 핵산과, 부차 기여체에 관한 유전 정보를 포함하는 부차 핵산이 포함되는, 혼합 핵산 샘플의 측정에 의해 얻어지는 데이터 세트이며, 상기 주요 핵산 및 상기 부차 핵산에 있어서의, 복수의 다형 좌위(多型座位)에 있어서의 각 대립 유전자의 존재를 나타내는 신호를 포함하는 데이터 세트(단, 상기 신호의 진위는 이미 알려져 있음)를 준비하는 공정.
    [공정 A-2]
    상기 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서, 상기 주요 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호와, 상기 부차 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 이하의 (A1) 및 (A2)를 포함하는 수치군을 선형 결합시켜, 1 개 이상의 합성 변수를 생성하는 공정.
    (A1) 상기 부차 핵산에서 유래하는 특정의 다형 좌위의 대립 유전자의 존재를 나타내는 부차 성분 신호 강도
    (A2) 상기 특정의 다형 좌위의 대립 유전자에서 기인하는 신호 강도의 총합에 대한 상기 부차 성분 신호 강도의 비율인 부차 성분 혼입률.
    [공정 A-3-1]
    상기 공정 A-2에서 생성된 합성 변수를 복수로 구분하고, 각 구분에 포함되는 상기 합성 변수에 대응하는 부차 성분 신호 강도 중, 이것이 참(眞)이었던 비율을 각 구분에 포함되는 상기 합성 변수에 대응하는 확률로서 부여하는 공정.
    [공정 A-4-1]
    상기 각 구분에 포함되는 상기 합성 변수와, 상기 각 구분에 포함되는 상기 합성 변수에 대응하는 확률에 대해 회귀 분석을 실시하여, 상기 합성 변수를 설명 변수, 신뢰성 값을 목적 변수로 하는, 신뢰성 값을 산출하기 위한 모델 함수를 구하는 공정.
  2. 청구항 1에 있어서, 상기 합성 변수가, 적어도 상기 (A1) 및 상기 (A2)를 포함하는 수치군에 대해 주성분 분석을 실시함으로써 생성할 수 있는 합성 변수인 것을 특징으로 하는, 방법.
  3. 청구항 2에 있어서, 상기 공정 A-3-1 및 공정 A-4-1에 있어서 모델 함수의 작성을 위해 사용하는 상기 합성 변수가, 공정 A-2에 있어서 생성된 1 이상의 합성 변수 중, 가장 기여율이 높은 합성 변수인 것을 특징으로 하는, 방법.
  4. 청구항 1 내지 3 중 어느 한 항에 있어서, 상기 공정 A-2가, 적어도 상기 (A1) 및 상기 (A2)를 포함하는 수치군에 대해 주성분 분석을 실시하여, 1 개 이상의 주성분을 합성 변수로 하여 생성하는 공정인 것을 특징으로 하는, 방법.
  5. 청구항 1 내지 4 중 어느 한 항에 있어서, 상기 공정 A-2가, 상기 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서, 상기 주요 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호와, 상기 부차 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 상기 (A1) 및 상기 (A2)를 포함하고, 또한 이하의 (A3)~(A5)에서 선택되는 1 또는 2 이상을 포함하는 수치군을 선형 결합시켜, 1 개 이상의 합성 변수를 생성하는 공정인 것을 특징으로 하는, 방법.
    (A3) 상기 주요 핵산에서 유래하는, 특정의 다형 좌위의 하나의 대립 유전자의 존재를 나타내는 주요 성분 신호 강도.
    (A4) 상기 특정의 다형 좌위의 대립 유전자에서 기인하는 신호 강도의 총합에 대한 상기 주요 성분 신호 강도의 비율인, 주요 성분 혼입률.
    (A5) 상기 특정의 다형 좌위의 대립 유전자에서 기인하는 신호 강도의 총합으로부터, 상기 주요 성분 신호 강도 및 상기 부차 성분 신호 강도를 차감하여 구해지는 노이즈.
  6. 청구항 1 내지 5 중 어느 한 항에 있어서, 상기 공정 A-2가, 상기 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서, 상기 주요 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호와, 상기 부차 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 상기 (A1) 및 (A2)를 포함하고, 또한 이하의 (A3)~(A5)를 포함하는 수치군을 선형 결합시켜, 1 개 이상의 합성 변수를 생성하는 공정인 것을 특징으로 하는, 방법.
    (A3) 상기 주요 핵산에서 유래하는, 특정의 다형 좌위의 하나의 대립 유전자의 존재를 나타내는 주요 성분 신호 강도.
    (A4) 상기 특정의 다형 좌위의 대립 유전자에서 기인하는 신호 강도의 총합에 대한 상기 주요 성분 신호 강도의 비율인, 주요 성분 혼입률.
    (A5) 상기 특정의 다형 좌위의 대립 유전자에서 기인하는 신호 강도의 총합으로부터, 상기 주요 성분 신호 강도 및 상기 부차 성분 신호 강도를 차감하여 구해지는 노이즈.
  7. 청구항 1 내지 6 중 어느 한 항에 있어서, 상기 회귀 분석이 최소 제곱법인 것을 특징으로 하는, 방법.
  8. 청구항 1 내지 7 중 어느 한 항에 있어서, 상기 합성 변수를 나타내는 1차 제차 다항식에 있어서, 부차 성분 신호 강도, 또는 부차 성분 혼입률이 최대로 가중되는 것을 특징으로 하는, 방법.
  9. 청구항 1 내지 8 중 어느 한 항에 있어서, 상기 공정 A-2에 있어서 선형 결합하는 수치군에 포함되는 수치는, 표준화된 수치인 것을 특징으로 하는, 방법.
  10. 청구항 1 내지 9 중 어느 한 항에 있어서, 상기 공정 A-2에 있어서, 2개 이상의 합성 변수를 생성하고,
    상기 공정 A-3-1에 있어서, 상기 2개 이상의 합성 변수의 각각에 대해서, 신뢰성 값의 부여를 실시하고,
    상기 공정 A-4-1에 있어서, 상기 2개 이상의 합성 변수의 각각을 설명 변수로 하는 서로 독립된 2 이상의 모델 함수를 작성하고,
    또한, 상기 2 이상의 모델 함수를 서로 곱하여 곱셈으로 나타내는 모델 함수를 작성하는 공정을 구비하는 것을 특징으로 하는, 방법.
  11. 이하의 공정 A-1, 공정 A-3-2 및 공정 A-4-2를 포함하는 것을 특징으로 하는, 부차 성분 신호의 신뢰성 값을 산출하기 위한 모델 함수의 작성 방법.
    [공정 A-1]
    주요 기여체에 관한 유전 정보를 포함하는 주요 핵산과, 부차 기여체에 관한 유전 정보를 포함하는 부차 핵산이 포함되는, 혼합 핵산 샘플의 측정에 의해 얻어지는 데이터 세트이며, 상기 주요 핵산 및 상기 부차 핵산에 있어서의, 복수의 다형 좌위에 있어서의 각 대립 유전자의 존재를 나타내는 신호를 포함하는 데이터 세트(단, 상기 신호의 진위는 이미 알려져 있음)를 준비하는 공정.
    [공정 A-3-2]
    상기 복수의 다형 좌위 중에서, 상기 주요 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호와, 상기 부차 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 상기 부차 핵산에서 유래하는 특정의 다형 좌위의 대립 유전자의 존재를 나타내는 부차 성분 신호 강도를 복수로 구분하고, 각 구분에 포함되는 상기 부차 성분 신호 강도 중 이것이 참이었던 비율을 각 구분에 포함되는 상기 부차 성분 신호 강도에 대응하는 확률로서 부여하는 공정.
    [공정 A-4-2]
    상기 각 구분에 포함되는 상기 부차 성분 신호 강도와, 상기 각 구분에 포함되는 상기 부차 성분 신호 강도에 대응하는 확률에 대해 회귀 분석을 실시하여, 상기 부차 성분 신호 강도를 설명 변수, 신뢰성 값을 목적 변수로 하는, 신뢰성 값을 산출하기 위한 모델 함수를 구하는 공정.
  12. 이하의 공정 A-1, 공정 A-3-3 및 공정 A-4-3을 포함하는 것을 특징으로 하는, 부차 성분 신호의 신뢰성 값을 산출하기 위한 모델 함수의 작성 방법.
    [공정 A-1]
    주요 기여체에 관한 유전 정보를 포함하는 주요 핵산과, 부차 기여체에 관한 유전 정보를 포함하는 부차 핵산이 포함되는, 혼합 핵산 샘플의 측정에 의해 얻어지는 데이터 세트이며, 상기 주요 핵산 및 상기 부차 핵산에 있어서의, 복수의 다형 좌위에 있어서의 각 대립 유전자의 존재를 나타내는 신호를 포함하는 데이터 세트(단, 상기 신호의 진위는 이미 알려져 있음)를 준비하는 공정.
    [공정 A-3-3]
    상기 복수의 다형 좌위 중에서, 상기 주요 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호와, 상기 부차 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 특정의 다형 좌위의 대립 유전자에서 기인하는 신호 강도의 총합에 대한 부차 성분 신호 강도의 비율인 부차 성분 혼입률을 복수로 구분하고, 각 구분에 포함되는 상기 부차 성분 혼입률에 대한 부차 성분 신호 강도 중 이것이 참이었던 비율을 각 구분에 포함되는 상기 부차 성분 혼입률에 대응하는 확률로서 부여하는 공정.
    [공정 A-4-3]
    상기 각 구분에 포함되는 상기 부차 성분 혼입률과, 상기 각 구분에 포함되는 상기 부차 성분 혼입률에 대응하는 확률에 대해 회귀 분석을 실시하여, 상기 부차 성분 혼입률을 설명 변수, 신뢰성 값을 목적 변수로 하는, 신뢰성 값을 산출하기 위한 모델 함수를 구하는 공정.
  13. 청구항 1 내지 12 중 어느 한 항에 있어서, 상기 모델 함수가 시그모이드 함수인 것을 특징으로 하는, 방법.
  14. 청구항 1 내지 13 중 어느 한 항에 있어서, 상기 모델 함수가 2개의 매개 변수를 갖는 시그모이드 함수인 것을 특징으로 하는, 방법.
  15. 청구항 1 내지 10 중 어느 한 항에 기재된 방법으로 작성한 모델 함수와,
    청구항 11에 기재된 방법으로 작성한 모델 함수와,
    청구항 12에 기재된 방법으로 작성한 모델 함수로 이루어지는 군에서 선택되는 2 이상의 모델 함수를 서로 곱하여 곱셈으로 나타내는 모델 함수를 작성하는 공정을 구비하는, 모델 함수의 작성 방법.
  16. 청구항 1 내지 10 중 어느 한 항에 기재된 방법으로 작성한 모델 함수와,
    청구항 11에 기재된 방법으로 작성한 모델 함수, 및/또는 청구항 12에 기재된 방법으로 작성한 모델 함수를 서로 곱하여 곱셈으로 나타내는 모델 함수를 작성하는 공정을 구비하는, 모델 함수의 작성 방법.
  17. 청구항 1 내지 10 중 어느 한 항에 기재된 방법으로 작성한 모델 함수와,
    청구항 11에 기재된 방법으로 작성한 모델 함수와,
    청구항 12에 기재된 방법으로 작성한 모델 함수를 서로 곱하여 곱셈으로 나타내는 모델 함수를 작성하는 공정을 구비하는, 모델 함수의 작성 방법.
  18. 청구항 1 내지 17 중 어느 한 항에 있어서, 상기 다형 좌위가, 일염기 다형을 포함하는 좌위인 것을 특징으로 하는, 방법.
  19. 청구항 1 내지 18 중 어느 한 항에 있어서, 상기 데이터 세트가, 염기 서열 분석, 디지털 PCR, 마이크로어레이, 실시간 PCR 또는 질량 분석에 의해 취득된 데이터인 것을 특징으로 하는, 방법.
  20. 청구항 1 내지 18 중 어느 한 항에 있어서, 상기 데이터 세트가 염기 서열 분석에 의해 취득된 데이터이며,
    상기 부차 성분 신호 강도가, 서열 태그의 카운트 수, 리드 수, 이온 농도 또는 전기 신호인 것을 특징으로 하는, 방법.
  21. 청구항 1 내지 18 중 어느 한 항에 있어서, 상기 데이터 세트가 디지털 PCR에 의해 취득된 데이터이며,
    상기 부차 성분 신호 강도가, 형광이 관찰된 웰 수인 것을 특징으로 하는, 방법.
  22. 청구항 1 내지 18 중 어느 한 항에 있어서, 상기 데이터 세트가 마이크로어레이에 의해 취득된 데이터이며,
    상기 부차 성분 신호 강도가, 형광 광도인 것을 특징으로 하는, 방법.
  23. 청구항 1 내지 11 중 어느 한 항에 있어서, 상기 주요 기여체가 모친이고, 상기 부차 기여체가 상기 모친의 태내에 있는 태아이며, 상기 혼합 핵산 샘플이 상기 모친에서 채취한 순환 무세포 핵산 샘플이고, 상기 공정 A-1, 공정 A-2, 공정 A-3-1 및 공정 A-4-1이, 각각 공정 A1-1, 공정 A1-2, 공정 A1-3-1 및 공정 A1-4-1인 것을 특징으로 하는, 방법.
    [공정 A1-1]
    모친에 관한 유전 정보를 포함하는 주요 핵산과, 태아에 관한 유전 정보를 포함하는 부차 핵산을 포함하는 순환 무세포 핵산 샘플의 측정에 의해 얻어지는 데이터 세트이며, 상기 주요 핵산 및 상기 부차 핵산에 있어서의, 복수의 다형 좌위에 있어서의 각 대립 유전자의 존재를 나타내는 신호를 포함하는 데이터 세트(단, 상기 신호의 진위는 이미 알려져 있음)를 준비하는 공정.
    [공정 A1-2]
    상기 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서,
    상기 모친에 있어서 동형 접합이고, 부친에 있어서 동형 접합이며, 또한, 상기 주요 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호와, 상기 부차 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 상기 (A1) 및 상기 (A2)를 포함하는 수치군을 선형 결합시켜, 1 개 이상의 합성 변수를 생성하는 공정.
    [공정 A1-3-1]
    상기 공정 A1-2에서 생성된 합성 변수를 복수로 구분하고, 각 구분에 포함되는 상기 합성 변수에 대응하는 부차 성분 신호 강도 중 이것이 참이었던 비율을 각 구분에 포함되는 상기 합성 변수에 대응하는 확률로서 부여하는 공정.
    (단, 상기 모친에 있어서 동형 접합이고, 부친에 있어서 동형 접합이며, 또한, 상기 모친과 상기 부친에서 이형인 대립 유전자에 대하여,
    주요 성분 신호와 구별되어 상기 부차 성분 신호가 검출된 경우, 해당 부차 성분 신호를 참(眞)으로 하고,
    주요 성분 신호와 구별되어 상기 부차 성분 신호가 검출되지 않았을 경우, 해당 부차 성분 신호를 거짓(僞)으로 한다.
    상기 모친에 있어서 동형 접합이고, 부친에 있어서 동형 접합이며, 또한, 상기 모친과 상기 부친이에서 동형인 대립 유전자에 대하여,
    주요 성분 신호와 구별되어 상기 부차 성분 신호가 검출된 경우, 해당 부차 성분 신호를 거짓으로 하고,
    주요 성분 신호와 구별되어 상기 부차 성분 신호가 검출되지 않았을 경우, 해당 부차 성분 신호를 참으로 한다.)
    [공정 A1-4-1]
    상기 각 구분에 포함되는 상기 합성 변수와, 상기 각 구분에 포함되는 상기 합성 변수에 대응하는 확률에 대해 회귀 분석을 실시하여, 상기 합성 변수를 설명 변수, 신뢰성 값을 목적 변수로 하는, 신뢰성 값을 산출하기 위한 모델 함수를 구하는 공정.   
  24. 청구항 1 내지 10 중 어느 한 항에 있어서, 상기 주요 기여체가 건강인이고, 상기 부차 기여체가 암세포이며, 상기 공정 A-1, 공정 A-2, 공정 A-3-1 및 공정 A-4-1이, 각각 공정 A2-1, 공정 A2-2, 공정 A2-3-1 및 공정 A2-4-1인 것을 특징으로 하는, 방법.
    [공정 A2-1]
    상기 건강인에 관한 유전 정보를 포함하는 주요 핵산을 함유하는 건강인으로부터 채취한 핵산 샘플에, 암에 관련하는 다형 좌위에 있어서 암 관련 변이가 도입된 상기 다형 좌위의 염기 서열 정보를 포함하는 복수의 핵산 단편으로 이루어지는 부차 핵산을 첨가함으로써 인공적으로 조제한 혼합 핵산 샘플의 측정에 의해 얻어지는 데이터를 포함하는 데이터 세트이며,
    상기 주요 핵산에 있어서의 정상형 대립 유전자의 존재를 나타내는 신호와, 상기 부차 핵산에 있어서의 상기 변이를 포함하는 대립 유전자의 존재를 나타내는 신호를 포함하는 데이터 세트를 준비하는 공정.
    [공정 A2-2]
    상기 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서, 상기 주요 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호와, 상기 부차 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 상기 (A1) 및 상기 (A2)를 포함하는 수치군을 선형 결합시켜, 1 개 이상의 합성 변수를 생성하는 공정.
    [공정 A2-3-1]
    상기 공정 A2-2에서 생성된 합성 변수를 복수로 구분하고, 각 구분에 포함되는 상기 합성 변수에 대응하는 부차 성분 신호 강도 중 참이었던 비율을, 각 구분에 포함되는 상기 합성 변수에 대응하는 확률로서 부여하는 공정.
    (단, 상기 변이가 도입된 상기 다형 좌위의 염기 서열 정보를 포함하는 핵산 단편을 혼합 핵산 샘플에 첨가한 경우로서,
    상기 핵산 단편에 대해서 부차 성분 신호가 검출된 경우에는, 해당 부차 성분 신호는 참으로 하고,
    상기 핵산 단편에 대해서 부차 성분 신호가 검출되지 않았을 경우에는, 해당 부차 성분 신호는 거짓으로 한다.
    상기 변이가 도입된 상기 다형 좌위의 염기 서열 정보를 포함하는 핵산 단편을 혼합 핵산 샘플에 첨가하지 않은 경우로서,
    상기 핵산 단편에 대해서 부차 성분 신호가 검출된 경우에는, 해당 부차 성분 신호는 거짓으로 하고,
    상기 핵산 단편에 대해서 부차 성분 신호가 검출되지 않았을 경우에는, 해당 부차 성분 신호는 참으로 한다.)
    [공정 A2-4-1]
    상기 각 구분에 포함되는 상기 합성 변수와, 상기 각 구분에 포함되는 상기 합성 변수에 대응하는 확률에 대해 회귀 분석을 실시하여, 상기 합성 변수를 설명 변수, 신뢰성 값을 목적 변수로 하는, 신뢰성 값을 산출하기 위한 모델 함수를 구하는 공정.
  25. 이하의 공정 A2'-1, 공정 A2'-2, 공정 A2'-3-1 및 공정 A2'-4-1을 포함하는 것을 특징으로 하는, 부차 성분 신호의 신뢰성 값을 산출하기 위한 모델 함수의 작성 방법.
    [공정 A2'-1]
    건강인에 관한 유전 정보를 포함하는 주요 핵산을 함유하는 건강인으로부터 채취한 핵산 샘플에, 암에 관련하는 단일의 다형 좌위에 있어서 암 관련 변이가 도입된 상기 단일의 다형 좌위의 염기 서열 정보를 포함하는 복수의 핵산 단편으로 이루어지는 부차 핵산을 첨가함으로써 인공적으로 조제한, 상기 부차 핵산의 함유 비율이 서로 다른 복수의 혼합 핵산 샘플의 측정에 의해 얻어지는 데이터를 포함하는 데이터 세트이며,
    상기 주요 핵산에 있어서의 정상형 대립 유전자의 존재를 나타내는 신호와, 상기 부차 핵산에 있어서의 상기 변이를 포함하는 대립 유전자의 존재를 나타내는 신호를 포함하는 데이터 세트를 준비하는 공정.
    [공정 A2'-2]
    상기 데이터 세트에 포함되는 데이터 중, 상기 주요 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호와, 상기 부차 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호가 구별되어 검출된 상기 단일의 다형 좌위에 관한, 적어도 이하의 (A1') 및 (A2')를 포함하는 수치군을 선형 결합시켜, 1 개 이상의 합성 변수를 생성하는 공정.
    (A1') 상기 부차 핵산에서 유래하는 상기 단일의 다형 좌위의 대립 유전자의 존재를 나타내는 부차 성분 신호 강도.
    (A2') 상기 단일의 다형 좌위의 대립 유전자에서 기인하는 신호 강도의 총합에 대한 상기 부차 성분 신호 강도의 비율인 부차 성분 혼입률.
    [공정 A2-3-1]
    상기 공정 A2'-2에서 생성된 합성 변수를 복수로 구분하고, 각 구분에 포함되는 상기 합성 변수에 대응하는 부차 성분 신호 강도 중 이것이 참이었던 비율을, 각 구분에 포함되는 상기 합성 변수에 대응하는 확률로서 부여하는 공정.
    (단, 상기 변이가 도입된 상기 다형 좌위의 염기 서열 정보를 포함하는 핵산 단편을 혼합 핵산 샘플에 첨가한 경우로서,
    상기 핵산 단편에 대해서 부차 성분 신호가 검출된 경우에는, 해당 부차 성분 신호는 참으로 하고,
    상기 핵산 단편에 대해서 부차 성분 신호가 검출되지 않았을 경우에는, 해당 부차 성분 신호는 거짓으로 한다.
    상기 변이가 도입된 상기 다형 좌위의 염기 서열 정보를 포함하는 핵산 단편을 혼합 핵산 샘플에 첨가하지 않은 경우로서,
    상기 핵산 단편에 대해서 부차 성분 신호가 검출된 경우에는, 해당 부차 성분 신호는 거짓으로 하고,
    상기 핵산 단편에 대해서 부차 성분 신호가 검출되지 않았을 경우에는, 해당 부차 성분 신호는 참으로 한다.)
    [공정 A2-4-1]
    상기 각 구분에 포함되는 상기 합성 변수와, 상기 각 구분에 포함되는 상기 합성 변수에 대응하는 확률에 대해 회귀 분석을 실시하여, 상기 합성 변수를 설명 변수, 신뢰성 값을 목적 변수로 하는, 신뢰성 값을 산출하기 위한 모델 함수를 구하는 공정.
  26. 청구항 1 내지 10 중 어느 한 항에 있어서, 상기 주요 기여체가 장기 이식의 레시피엔트이고, 상기 부차 기여체가 이식 장기이며, 상기 공정 A-1, 공정 A-2, 공정 A-3-1 및 공정 A-4-1이, 각각 공정 A3-1, 공정 A3-2, 공정 A3-3-1 및 공정 A3-4-1인 것을 특징으로 하는, 방법.
    [공정 A3-1]
    레시피엔트에 관한 유전 정보를 포함하는 주요 핵산과, 이식 장기에 관한 유전 정보를 포함하는 부차 핵산이 포함되는 혼합 핵산 샘플의 측정에 의해 얻어지는 데이터 세트이며, 상기 주요 핵산 및 상기 부차 핵산에 있어서의, 복수의 다형 좌위에 있어서의 각 대립 유전자의 존재를 나타내는 신호를 포함하는 테이터 세트(단, 상기 신호의 진위는 이미 알려져 있음)를 준비하는 공정.
    [공정 A3-2]
    상기 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서, 상기 주요 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호와, 상기 부차 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 상기 (A1) 및 상기 (A2)를 포함하는 수치군을 선형 결합시켜, 1 개 이상의 합성 변수를 생성하는 공정.
    [공정 A3-3-1]
    상기 공정 A3-2에서 생성된 합성 변수를 복수로 구분하고, 각 구분에 포함되는 상기 합성 변수에 대응하는 부차 성분 신호 강도 중 이것이 참이었던 비율을, 각 구분에 포함되는 상기 합성 변수에 대응하는 확률로서 부여하는 공정. (단, 레시피엔트가 가지고 있지 않은 대립 유전자로서, 또한, 기증자가 동형 접합 또는 헤테로 접합으로 가지고 있는 대립 유전자에 대하여,
    주요 성분 신호와 구별되어 상기 부차 성분 신호가 검출된 경우, 해당 부차 성분 신호를 참으로 하고,
    주요 성분 신호와 구별 되어 상기 부차 성분 신호가 검출되지 않았을 경우, 해당 부차 성분 신호를 거짓으로 한다.
    레시피엔트 및 기증자의 어느 쪽도 가지고 있지 않은 대립 유전자에 대하여,
    주요 성분 신호와 구별되어 상기 부차 성분 신호가 검출된 경우, 상기 부차 성분 신호를 거짓으로 하고,
    주요 성분 신호와 구별되어 상기 부차 성분 신호가 검출되지 않았을 경우, 상기 부차 성분 신호를 참으로 한다.)
    [공정 A3-4-1]
    상기 각 구분에 포함되는 상기 합성 변수와, 상기 각 구분에 포함되는 상기 합성 변수에 대응하는 확률에 대해 회귀 분석을 실시하여, 상기 합성 변수를 설명 변수, 신뢰성 값을 목적 변수로 하는, 신뢰성 값을 산출하기 위한 모델 함수를 구하는 공정.
  27. 모델 함수에 그 설명 변수를 입력함으로써, 신뢰성 값을 산출하는 신뢰성 값의 산출 방법으로,
    상기 모델 함수가,
    청구항 1 내지 26 중 어느 한 항에 기재된 방법으로 구한 상기 모델 함수,
    이하의 식 1~3 중 어느 하나의 모델 함수, 또는
    이하의 식 1~3으로 나타내는 모델 함수로 이루어지는 군에서 선택되는 2이상의 모델 함수를 서로 곱하여 곱셈으로 나타내는 모델 함수이며,
    상기 설명 변수가, 이하의 공정 B-1에서 준비한 데이터 세트에 포함되는 이하의 (B1), (B2) 및 이하의 공정 B-2에서 구한 합성 변수에서 선택되는 1 또는 2 이상의 수치인 것을 특징으로 하는, 신뢰성 값의 산출 방법.
    [공정 B-1]
    주요 기여체에 관한 유전 정보를 포함하는 주요 핵산을 포함하고, 부차 기여체에 관한 유전 정보를 포함하는 부차 핵산을 포함하거나, 또는 포함할 수 있는 혼합 핵산 샘플의 측정에 의해 얻어지는 데이터 세트이며, 상기 주요 핵산 및 상기 부차 핵산에 있어서의, 복수의 다형 좌위에 있어서의 각 대립 유전자의 존재를 나타내는 신호를 포함하는 데이터 세트를 준비하는 공정.
    [공정 B-2]
    상기 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서, 상기 주요 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호와, 상기 부차 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 이하의 (B1) 및 (B2)를 포함하는 수치군을 선형 결합시켜, 1 개 이상의 합성 변수를 생성하는 공정.
    (B1) 상기 부차 핵산에서 유래하는 특정의 다형 좌위의 대립 유전자의 존재를 나타내는 부차 성분 신호 강도.
    (B2) 상기 특정의 다형 좌위의 대립 유전자에서 기인하는 신호 강도의 총합에 대한 상기 부차 성분 신호 강도의 비율인 부차 성분 혼입률.
    [수학식 1]
    Figure pct00023

    (x1: 제1주성분, A1: 천이 영역의 기울기, x01: 중간점)
    (단, 식 1중, A1는 15.4~15.6이며, x01는 -0.8~-0.6이다.)
    [수학식 2]
    Figure pct00024

    (x2: 부차 성분 신호 강도, A2: 천이 영역의 기울기, x02: 중간점)
    (단, 식 2중, A2는 1.8~2.0이며, x02는 2.5~2.7이다.)
    [수학식 3]
    Figure pct00025

    (x3: 부차 성분 혼입률, A3: 천이 영역의 기울기, x03: 중간점)
    (단, 식 3중, A3는 9.3~9.5이며, x03는 0.5~0.7이다.)
  28. 청구항 27에 있어서, 상기 주요 기여체가 모친이고, 상기 부차 기여체가 상기 모친의 태내에 있는 태아이며, 상기 혼합 핵산 샘플이 상기 모친에서 채취한 순환 무세포 핵산 샘플인이며, 상기 공정 B-1 및 공정 B-2가, 각각 공정 B1-1 및 공정 B1-2인 것을 특징으로 하는, 방법.
    [공정 B1-1]
    모친에 관한 유전 정보를 포함하는 주요 핵산과, 태아에 관한 유전 정보를 포함하는 부차 핵산을 포함하는 순환 무세포 핵산 샘플의 측정에 의해 얻어지는 데이터 세트이며, 상기 주요 핵산 및 상기 부차 핵산에 있에 있어서의, 복수의 다형 좌위에 있어서의 각 대립 유전자의 존재를 나타내는 신호를 포함하는 데이터 세트를 준비하는 공정.
    [공정 B1-2]
    상기 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서,
    상기 모친에 있어서 동형 접합이며, 또한, 상기 주요 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호와, 상기 부차 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 상기 (B1) 및 상기 (B2)를 포함하는 수치군을 선형 결합시켜, 1 개 이상의 합성 변수를 생성하는 공정.
  29. 청구항 28에 있어서, 상기 복수의 다형 좌위가 사람의 개인 식별에 사용되는 다형 좌위이며,
    비침습적 출생전 친자 감정을 위해 신뢰성 값을 산출하는 방법인 것을 특징으로 하는, 방법.
  30. 청구항 27에 있어서, 상기 주요 기여체가 검사 대상자이고, 상기 부차 기여체가 암세포이며, 상기 혼합 핵산 샘플이 상기 검사 대상자에서 채취한 순환 무세포 핵산 샘플이며, 상기 공정 B-1 및 공정 B-2가, 각각 공정 B2-1 및 공정 B2-2인 것을 특징으로 하는, 방법.
    [공정 B2-1]
    검사 대상자에 관한 유전 정보를 포함하는 주요 핵산을 포함하고, 암세포에 관한 유전 정보를 포함하는 부차 핵산을 포함할 수 있는, 순환 무세포 핵산 샘플의 측정에 의해 얻어지는 데이터 세트이며, 상기 주요 핵산 및 상기 부차 핵산에 있어서의, 암에 관련하는 복수의 다형 좌위에 있어서의 각 대립 유전자의 존재를 나타내는 신호를 포함하는 데이터 세트를 준비하는 공정.
    [공정 B2-2]
    상기 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서, 정상형 대립 유전자의 존재를 나타내는 신호와, 변이형 대립 유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 상기 (B1) 및 상기 (B2)를 포함하는 수치군을 선형 결합시켜, 1 개 이상의 합성 변수를 생성하는 공정.
  31. 청구항 30에 있어서, 상기 공정 B2-2에 있어서, 상기 데이터 세트에 포함되는 데이터로부터, 상기 복수의 다형 좌위 중에서, 검사 대상자에 있어서 변이형 대립 유전자를 동형 접합 또는 헤테로 접합으로서 가지고 있는 다형 좌위에 관한 데이터를 제외하고,
    제외 후 남은 상기 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서, 정상형 대립 유전자의 존재를 나타내는 신호와, 변이형 대립 유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 상기 (B1) 및 상기 (B2)를 포함하는 수치군을 선형 결합시켜, 1 개 이상의 합성 변수를 생성하는 것을 특징으로 하는, 방법.
  32. 청구항 27에 있어서, 상기 주요 기여체가 장기 이식의 레시피엔트이고, 상기 부차 기여체가 이식 장기이며, 상기 혼합 핵산 샘플이 상기 레시피엔트에서 채취한 순환 무세포 핵산 샘플이며, 상기 공정 B-1 및 B-2가, 각각 공정 B3-1 및 B3-2 인 것을 특징으로 하는, 방법.
    [공정 B3-1]
    레시피엔트에 관한 유전 정보를 포함하는 주요 핵산을 포함하고, 이식 장기에 관한 유전 정보를 포함하는 부차 핵산을 포함할 수 있는, 순환 무세포 핵산 샘플의 측정에 의해 얻어지는 데이터 세트이며, 상기 주요 핵산 및 상기 부차 핵산에 있어서의, 복수의 다형 좌위에 있어서의 각 대립 유전자의 존재를 나타내는 신호를 포함하는 데이터 세트를 준비하는 공정.
    [공정 B3-2]
    상기 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서, 상기 주요 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호와, 상기 부차 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 상기 (B1) 및 상기 (B2)를 포함하는 수치군을 선형 결합시켜, 1 개 이상의 합성 변수를 생성하는 공정.
  33. 청구항 32에 있어서, 상기 복수의 다형 좌위가 사람의 개인 식별에 사용되는 다형 좌위이며,
    이식 장기의 정착의 모니터링을 위해 신뢰성 값을 산출하는 방법인 것을 특징으로 하는, 방법.
  34. 청구항 27 내지 33 중 어느 한 항에 기재된 방법에 의한 신뢰성 값의 산출에 적절하지 않은 데이터를 제외하기 위한 제외 조건을 설정하는 방법이며, 이하의 공정 C-1-1, 공정 C-2-1, 공정 C-3-1 및 공정 C-4-1을 구비하는 것을 특징으로 하는 제외 조건의 설정 방법.
    [공정 C-1-1]
    주요 기여체에 관한 유전 정보를 포함하는 주요 핵산과, 부차 기여체에 관한 유전 정보를 포함하는 부차 핵산이 포함되는 혼합 핵산 샘플의 측정에 의해 얻어지는 데이터 세트이며, 상기 주요 핵산 및 상기 부차 핵산에 있어서의, 복수의 다형 좌위에 있어서의 각 대립 유전자의 존재를 나타내는 신호를 포함하는 데이터 세트(단, 상기 신호의 진위는 이미 알려져 있음)를 준비하는 공정.
    (단, 상기 주요 기여체가 모친이며, 상기 부차 기여체가 상기 모친의 태내에 있는 태아이며, 상기 혼합 핵산 샘플이 상기 모친에서 채취한 순환 무세포 핵산 샘플이거나, 또는
    상기 주요 기여체가 레시피엔트이고, 상기 부차 기여체가 이식 장기이며, 상기 혼합 핵산 샘플이 상기 레시피엔트에서 채취한 순환 무세포 핵산 샘플이다.)
    [공정 C-2-1]
    상기 모친에 있어서 동형 접합이고, 부친에 있어서 동형 접합이며, 또한, 상기 모친과 상기 부친에서 이형인 대립 유전자, 또는,
    상기 레시피엔트에 있어서 동형 접합이고, 상기 이식 장기의 기증자에 있어서 동형 접합이며, 또한, 상기 레시피엔트와 상기 기증자에서 이형인 대립 유전자가 존재하는 다형 좌위에 관한, 적어도 이하의 (C1), (C2) 및 (C3)을 포함하는 수치군을 선형 결합시켜 얻어지는 합성 변수 중, 가장 기여율이 높은 합성 변수를 생성하는 공정.
    (C1) 상기 부차 핵산에서 유래하는 특정의 다형 좌위의 대립 유전자의 존재를 나타내는 부차 성분 신호 강도.
    (C2) 상기 특정의 다형 좌위의 대립 유전자에서 기인하는 신호 강도의 총합에 대한 상기 부차 성분 신호 강도의 비율인 부차 성분 혼입률.
    (C3) 상기 특정의 다형 좌위의 대립 유전자에서 기인하는 신호 강도의 총합으로부터, 상기 주요 성분 신호 강도 및 상기 부차 성분 신호 강도를 차감하여 구해지는 노이즈.
    [공정 C-3-1]
    상기 공정 C-2-1에 있어서의 상기 선형 결합에 의해 얻어진 상기 합성 변수의 이상치의 일부, 또는 전부를 제외하도록 상기 합성 변수의 값에 역치를 설정하는 공정.
    [공정 C-4-1]
    신뢰성 값을 산출하기 위한 모델 함수에 입력하는 데이터 세트로부터 제외해야 하는 조건을, 이하의 제외 조건 C1로서 설정하는 공정.
    (제외 조건 C1)
    모친 또는 레시피엔트에 관한 유전 정보를 포함하는 주요 핵산과, 태아 또는 이식 장기에 관한 유전 정보를 포함하는 부차 핵산이 포함되는, 혼합 핵산 샘플의 분석에 의해 얻어지는 데이터 세트 중,
    모친에 있어서 동형 접합이고, 의부(擬父, 아버지로 추정되는 사람)에 있어서 동형 접합이며, 또한, 상기 모친과 상기 의부에서 이형인 대립 유전자이며, 또는,
    상기 레시피엔트에 있어서 동형 접합이고, 상기 이식 장기의 기증자에 있어서 동형 접합이며, 또한, 상기 레시피엔트와 상기 기증자에서 이형인 대립 유전자가 존재하는 다형 좌위에 관한, 적어도 상기 (C1), 상기 (C2) 및 상기 (C3)을 포함하는 수치군을 선형 결합시켜 얻어진, 가장 기여율이 높은 합성 변수가, 상기 공정 C-3-1에서 설정한 상기 역치 미만에 해당하는 데이터 세트는 제외한다.
  35. 청구항 27 내지 33 중 어느 한 항에 기재된 방법에 의한 신뢰성 값의 산출에 적절하지 않은 데이터를 제외하기 위한 제외 조건을 설정하는 방법이며, 이하의 공정 C-1-2 및 공정 C-2-2, 공정 C-3-2 및 공정 C-4-2를 구비하는 것을 특징으로 하는 제외 조건의 설정 방법.
    [공정 C-1-2]
    주요 기여체에 관한 유전 정보를 포함하는 주요 핵산과, 부차 기여체에 관한 유전 정보를 포함하는 부차 핵산이 포함되는, 혼합 핵산 샘플의 측정에 의해 얻어지는 데이터 세트이며, 상기 주요 핵산 및 상기 부차 핵산에 있어서의, 복수의 다형 좌위에 있어서의 각 대립 유전자의 존재를 나타내는 신호를 포함하는 데이터 세트(단, 상기 신호의 진위는 이미 알려져 있음)를 준비하는 공정.
    (단, 상기 주요 기여체가 모친이고, 상기 부차 기여체가 상기 모친의 태내에 있는 태아이며, 상기 혼합 핵산 샘플이 상기 모친에서 채취한 순환 무세포 핵산 샘플이거나, 또는
    상기 주요 기여체가 레시피엔트이고, 상기 부차 기여체가 이식 장기이며, 상기 혼합 핵산 샘플이 상기 레시피엔트에서 채취한 순환 무세포 핵산 샘플이다.)
    [공정 C-2-2]
    상기 모친에 있어서 동형 접합이고, 부친에 있어서 동형 접합이며, 또한, 상기 모친과 상기 부친에서 동형인 대립 유전자, 또는,
    상기 레시피엔트에 있어서 동형 접합이고, 상기 이식 장기의 기증자에 있어서 동형 접합이며, 또한, 상기 레시피엔트와 상기 기증자에서 동형인 대립 유전자가 존재하는 다형 좌위에 관한, 적어도 이하의 (C1), (C2), 및 (C3)을 포함하는 수치군을 선형 결합시켜 얻어지는 합성 변수 중, 첫 번째 또는 두 번째로 기여율이 높은 합성 변수를 생성하는 공정.
    (C1) 상기 부차 핵산에서 유래하는 특정의 다형 좌위의 대립 유전자의 존재를 나타내는 부차 성분 신호 강도.
    (C2) 상기 특정의 다형 좌위의 대립 유전자에서 기인하는 신호 강도의 총합에 대한 상기 부차 성분 신호 강도의 비율인 부차 성분 혼입률.
    (C3) 상기 특정의 다형 좌위의 대립 유전자에서 기인하는 신호 강도의 총합으로부터, 상기 주요 성분 신호 강도 및 상기 부차 성분 신호 강도를 차감하여 구해지는 노이즈.
    [공정 C-3-2]
    상기 공정 C-2-2에 있어서의 상기 선형 결합에 의해 얻어진 상기 합성 변수의 이상치의 일부, 또는 전부를 제외하도록 상기 합성 변수의 값에 역치를 설정하는 공정.
    [공정 C-4-2]
    신뢰성 값을 산출하기 위한 모델 함수에 입력하는 데이터 세트로부터 제외해야 하는 조건을, 이하의 제외 조건 C2로서 설정하는 공정.
    (제외 조건 C2)
    모친 또는 레시피엔트에 관한 유전 정보를 포함하는 주요 핵산과, 태아 또는 이식 장기에 관한 유전 정보를 포함하는 부차 핵산이 포함되는 혼합 핵산 샘플의 분석에 의해 얻어진 데이터 세트 중,
    모친에 있어서 동형 접합이고, 의부에 있어서 동형 접합이며, 또한, 상기 모친과 의부에서 동형인 대립유전자, 또는,
    상기 레시피엔트에 있어서 동형 접합이고, 상기 이식 장기의 기증자에 있어서 동형 접합이며, 또한, 상기 레시피엔트와 상기 기증자에서 동형인 대립 유전자가 존재하는 다형 좌위에 관한, 적어도 상기 (C1), 상기 (C2) 및 상기 (C3)을 포함하는 수치군을 선형 결합시켜 얻어진, 첫 번째 또는 두 번째로 기여율이 높은 합성 변수가, 상기 공정 C-3-2에서 설정한 상기 역치 미만에 해당하는 데이터 세트는 제외한다.
  36. 청구항 34 또는 35에 있어서, 상기 다형 좌위가, 사람의 개인 식별에 사용되는 일염기 다형 좌위인 것을 특징으로 하는, 방법.
  37. 청구항 34 내지 36중 어느 한 항에 있어서, 이식 장기의 정착의 모니터링을 위한 방법인 것을 특징으로 하는, 방법.
  38. 청구항 34 내지 37 중 어느 한 항에 있어서, 상기 이상치가, 청구항 27 내지 33 중 어느 한 항에 기재된 방법에 의해 신뢰성 값을 산출했을 때에,
    상기 부차 핵산에서 유래하는 특정의 대립 유전자가 상기 혼합 핵산 샘플에 포함되어 있음에도 불구하고, 해당 대립 유전자의 존재를 나타내는 신호의 신뢰성 값이 0.8 미만으로 산출되어 버린 경우에 있어서의 해당 대립 유전자에 관한 수치, 및/또는
    상기 부차 핵산에서 유래하는 특정의 대립 유전자가 상기 혼합 핵산 샘플에 함유되어 있지 않음에도 불구하고, 해당 대립 유전자의 존재를 나타내는 신호의 신뢰성 값이 0.2 이상으로 산출되어 버린 경우에 있어서의 해당 대립 유전자에 관한 수치인 것을 특징으로 하는, 방법.
  39. 청구항 34 내지 38 중 어느 한 항에 있어서, 상기 이상치가, 상기 합성 변수의 평균치로부터, 그 표준 편차의 2배 이상 떨어진 수치인 것을 특징으로 하는, 방법.
  40. 청구항 32 또는 33에 있어서, 상기 공정 B-1에 있어서,
    청구항 34에 기재된 방법으로 특정한 제외 조건 C1 및/또는 청구항 35에 기재된 방법으로 특정한 제외 조건 C2에 해당하는 데이터 세트를 제외한 후에 남은 데이터 세트를 준비하는 것을 특징으로 하는, 방법.
  41. 모델 함수에 그 설명 변수를 입력함으로써, 신뢰성 값을 산출하는 신뢰성 값의 산출 방법으로,
    상기 모델 함수가,
    청구항 1 내지 26 중 어느 한 항에 기재된 방법으로 구한 상기 모델 함수,
    이하의 식 1~3 중 어느 하나의 모델 함수, 또는
    이하의 식 1~3으로 나타내는 모델 함수로 이루어지는 군에서 선택되는 2이상의 모델 함수를 서로 곱하여 곱셈으로 나타내는 모델 함수이며,
    상기 설명 변수가, 이하의 공정 B4-1에서 준비한 데이터 세트에 포함되는 이하의 (B1), (B2) 및 이하의 공정 B4-2에서 구한 합성 변수에서 선택되는 1 또는 2 이상의 수치인 것을 특징으로 하는, 신뢰성 값의 산출 방법.
    [공정 B4-1]
    모친에 관한 유전 정보를 포함하는 주요 핵산과, 상기 모친의 태내에 있는 태아에 관한 유전 정보를 포함하는 부차 핵산이 포함되는, 상기 모친에서 채취한 순환 무세포 핵산 샘플의 측정에 의해 얻어지는 데이터 세트이며, 상기 주요 핵산 및 상기 부차 핵산에 있어서의, 질환에 관련하는 복수의 다형 좌위에 있어서의 각 대립 유전자의 존재를 나타내는 신호를 포함하는 데이터 세트를 준비하는 공정.
    [공정 B4-2]
    상기 데이터 세트에 포함되는 데이터로부터, 상기 복수의 다형 좌위 중에서, 모친에 있어서 변이형 대립 유전자를 헤테로 접합으로 가지고 있는 다형 좌위에 관한 데이터를 제외하고,
    제외 후 남은 상기 데이터 세트에 포함되는 데이터 중, 상기 복수의 다형 좌위 중에서, 상기 주요 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호와, 상기 부차 핵산에서 유래하는 대립 유전자의 존재를 나타내는 신호가 구별되어 검출된 다형 좌위에 관한, 적어도 이하의 (B1) 및 (B2)를 포함하는 수치군을 선형 결합시켜, 1 개 이상의 합성 변수를 생성하는 공정.
    (B1) 상기 부차 핵산에서 유래하는 특정의 다형 좌위의 대립 유전자의 존재를 나타내는 부차 성분 신호 강도.
    (B2) 상기 특정의 다형 좌위의 대립 유전자에서 기인하는 신호 강도의 총합에 대한 상기 부차 성분 신호 강도의 비율인 부차 성분 혼입률.
    [수학식 1]
    Figure pct00026

    (x1: 제1주성분, A1: 천이 영역의 기울기, x01: 중간점)
    (단, 식 1중, A1는 15.4~15.6이며, x01는 -0.8~-0.6이다.)
    [수학식 2]
    Figure pct00027

    (x2: 부차 성분 신호 강도, A2: 천이 영역의 기울기, x02: 중간점)
    (단, 식 2중, A2는 1.8~2.0이며, x02는 2.5~2.7이다.)
    [수학식 3]
    Figure pct00028

    (x3: 부차 성분 혼입률, A3: 천이 영역의 기울기, x03: 중간점)
    (단, 식 3중, A3는 9.3~9.5이며, x03는 0.5~0.7이다.)
  42. 청구항 41에 있어서, 질환 리스크를 평가하는 비침습적 출생전 검사를 위해 신뢰성 값을 산출하는 방법인 것을 특징으로 하는, 방법.
  43. 청구항 1 내지 42 중 어느 한 항에 기재된 방법을 컴퓨터에 실행시키기 위한 프로그램.
  44. 청구항 43에 기재된 프로그램을 기록한 기록 매체.
  45. 청구항 1 내지 26 중 어느 한 항에 기재된 방법으로 작성한 모델 함수,
    이하의 식 1~3중 어느 하나인 모델 함수, 또는
    이하의 식 1~3으로 나타내는 모델 함수로 이루어지는 군에서 선택되는 2이상의 모델 함수를 서로 곱하여 곱셈으로 나타내는 모델 함수가 기록된 기억 매체.
    [수학식 1]
    Figure pct00029

    (x1: 제1주성분, A1: 천이 영역의 기울기, x01: 중간점)
    (단, 식 1중, A1는 15.4~15.6이며, x01는 -0.8~-0.6이다.)
    [수학식 2]
    Figure pct00030

    (x2: 부차 성분 신호 강도, A2: 천이 영역의 기울기, x02: 중간점)
    (단, 식 2중, A2는 1.8~2.0이며, x02는 2.5~2.7이다.)
    [수학식 3]
    Figure pct00031

    (x3: 부차 성분 혼입률, A3: 천이 영역의 기울기, x03: 중간점)
    (단, 식 3중, A3는 9.3~9.5이며, x03는 0.5~0.7이다.)
  46. 청구항 1 내지 26 중 어느 한 항에 기재된 방법으로 작성한 모델 함수,
    이하의 식 1~3중 어느 하나인 모델 함수, 또는
    이하의 식 1~3으로 나타내는 모델 함수로 이루어지는 군에서 선택되는 2이상의 모델 함수를 서로 곱하여 곱셈으로 나타내는 모델 함수가 기록된 기억부와, 청구항 27 내지 33및 40 내지 42 중 어느 한 항에 기재된 방법을 실행하는 처리부를 구비하는 신뢰성 값 산출 시스템.
    [수학식 1]
    Figure pct00032

    (x1: 제1주성분, A1: 천이 영역의 기울기, x01: 중간점)
    (단, 식 1중, A1는 15.4~15.6이며, x01는 -0.8~-0.6이다.)
    [수학식 2]
    Figure pct00033

    (x2: 부차 성분 신호 강도, A2: 천이 영역의 기울기, x02: 중간점)
    (단, 식 2중, A2는 1.8~2.0이며, x02는 2.5~2.7이다.)
    [수학식 3]
    Figure pct00034

    (x3: 부차 성분 혼입률, A3: 천이 영역의 기울기, x03: 중간점)
    (단, 식 3중, A3는 9.3~9.5이며, x03는 0.5~0.7이다.)
  47. 청구항 46에 있어서, 상기 기억부에, 청구항 34에 기재된 방법으로 작성한 제외 조건 C1 및/또는 청구항 35에 기재된 방법으로 작성한 제외 조건 C2가 기록되어 있으며,
    상기 처리부는, 청구항 40에 기재된 방법을 실행하는 것을 특징으로 하는, 신뢰성 값 산출 시스템.
KR1020227044153A 2020-12-16 2021-12-16 다형 좌위 신호의 신뢰성 값의 산출 방법 KR20230012033A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JPJP-P-2020-208554 2020-12-16
JP2020208554 2020-12-16
PCT/JP2021/046513 WO2022131328A1 (ja) 2020-12-16 2021-12-16 多型座位の信号の信頼性値の算出方法

Publications (1)

Publication Number Publication Date
KR20230012033A true KR20230012033A (ko) 2023-01-25

Family

ID=82059580

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227044153A KR20230012033A (ko) 2020-12-16 2021-12-16 다형 좌위 신호의 신뢰성 값의 산출 방법

Country Status (5)

Country Link
US (1) US20230227897A1 (ko)
EP (1) EP4266315A1 (ko)
JP (1) JP7121440B1 (ko)
KR (1) KR20230012033A (ko)
WO (1) WO2022131328A1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014502845A (ja) 2010-12-22 2014-02-06 ナテラ, インコーポレイテッド 非侵襲性出生前親子鑑定法
KR20170094805A (ko) 2016-02-11 2017-08-22 주식회사 로브아이 레이더 및 비디오 카메라 일체형 교통정보 측정시스템
JP2020529648A (ja) 2017-06-20 2020-10-08 イルミナ インコーポレイテッド 既知又は未知の遺伝子型の複数のコントリビューターからのdna混合物の分解及び定量化のための方法並びにシステム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2827873C (en) * 2011-02-24 2022-08-16 The Chinese University Of Hong Kong Molecular testing of multiple pregnancies
JP6415204B2 (ja) * 2014-09-19 2018-10-31 株式会社ケーヒン・サーマル・テクノロジー エバポレータおよびこれを用いた車両用空調装置
JP6520660B2 (ja) 2015-11-19 2019-05-29 株式会社デンソー 車両制御装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014502845A (ja) 2010-12-22 2014-02-06 ナテラ, インコーポレイテッド 非侵襲性出生前親子鑑定法
KR20170094805A (ko) 2016-02-11 2017-08-22 주식회사 로브아이 레이더 및 비디오 카메라 일체형 교통정보 측정시스템
JP2020529648A (ja) 2017-06-20 2020-10-08 イルミナ インコーポレイテッド 既知又は未知の遺伝子型の複数のコントリビューターからのdna混合物の分解及び定量化のための方法並びにシステム

Also Published As

Publication number Publication date
US20230227897A1 (en) 2023-07-20
JPWO2022131328A1 (ko) 2022-06-23
JP7121440B1 (ja) 2022-08-18
EP4266315A1 (en) 2023-10-25
WO2022131328A1 (ja) 2022-06-23

Similar Documents

Publication Publication Date Title
US20220246234A1 (en) Using cell-free dna fragment size to detect tumor-associated variant
ES2441807T3 (es) Diagnóstico de aneuploidía cromosómica fetal utilizando secuenciación genómica
US11043283B1 (en) Systems and methods for automating RNA expression calls in a cancer prediction pipeline
CN107771221A (zh) 用于癌症筛查和胎儿分析的突变检测
CN107849612A (zh) 比对和变体测序分析管线
KR101614471B1 (ko) 유전체 서열분석을 이용한 태아 염색체 이수성의 진단 방법 및 장치
JP2021505977A (ja) 体細胞突然変異のクローン性を決定するための方法及びシステム
EP3476946A1 (en) Quality evaluation method, quality evaluation apparatus, program, storage medium, and quality control sample
US20090226916A1 (en) Automated Analysis of DNA Samples
CN105143466A (zh) 通过大规模平行rna测序分析母亲血浆转录组
EP3074538A2 (en) Method for predicting congenital heart defect
JP2020530261A (ja) 未知の遺伝子型の寄与体からのdna混合物の正確な計算による分解のための方法
JP7121440B1 (ja) 多型座位の信号の信頼性値の算出方法
Haverty et al. Limited agreement among three global gene expression methods highlights the requirement for non-global validation
Chong et al. SeqControl: process control for DNA sequencing
Alberts et al. A verification protocol for the probe sequences of Affymetrix genome arrays reveals high probe accuracy for studies in mouse, human and rat
CN117912560B (zh) 一种全基因组重测序分析方法及系统
US20220170010A1 (en) System and method for detection of genetic alterations
Guha et al. OP035: Rapid Whole Genome Sequencing (rWGS) in the cardiac NICU
Cabello-Aguilar et al. ifCNV: a novel isolation-forest-based package to detect copy number variations from various NGS datasets
Iadarola et al. Enhanced targeted resequencing by optimizing the combination of enrichment technology and DNA fragment length
Retnomawarti et al. The Bioinformatics Application in Detecting Germline and Somatic Variants towards Breast Cancer using Next Generation Sequencing
Persson Comparing Two Algorithms for the Detection of Cross-Contamination in Simulated Tumor Next-Generation Sequencing Data
CN117912560A (zh) 一种全基因组重测序分析方法及系统
Accomando et al. HousemanEugenePHHSQuantitativeReconstructionLeukocyte. pdf

Legal Events

Date Code Title Description
A201 Request for examination