MX2015002769A - Sistemas y metodos para detectar mutaciones raras y variacion en el numero de copias. - Google Patents

Sistemas y metodos para detectar mutaciones raras y variacion en el numero de copias.

Info

Publication number
MX2015002769A
MX2015002769A MX2015002769A MX2015002769A MX2015002769A MX 2015002769 A MX2015002769 A MX 2015002769A MX 2015002769 A MX2015002769 A MX 2015002769A MX 2015002769 A MX2015002769 A MX 2015002769A MX 2015002769 A MX2015002769 A MX 2015002769A
Authority
MX
Mexico
Prior art keywords
polynucleotides
readings
sequence
sequencing
labeled
Prior art date
Application number
MX2015002769A
Other languages
English (en)
Other versions
MX367963B (es
Inventor
Amirali Talasaz
Helmy Eltoukhy
Original Assignee
Guardant Health Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=50237580&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=MX2015002769(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Guardant Health Inc filed Critical Guardant Health Inc
Publication of MX2015002769A publication Critical patent/MX2015002769A/es
Publication of MX367963B publication Critical patent/MX367963B/es

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/165Mathematical modelling, e.g. logarithm, ratio
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2545/00Reactions characterised by their quantitative nature
    • C12Q2545/10Reactions characterised by their quantitative nature the purpose being quantitative analysis
    • C12Q2545/114Reactions characterised by their quantitative nature the purpose being quantitative analysis involving a quantitation step
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/16Primer sets for multiplex assays

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Physics & Mathematics (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Silver Salt Photography Or Processing Solution Therefor (AREA)
  • Investigating Or Analysing Materials By The Use Of Chemical Reactions (AREA)

Abstract

La presente descripción proporciona un sistema y método para la detección de mutaciones raras y variaciones en el número de copias en polinucleótidos libres de células. En general, los sistemas y métodos comprenden la preparación de la muestra, o la extracción y aislamiento de secuencias de polinucleótidos libres de células a partir de un fluido corporal; la subsecuente secuenciación de polinucleótidos libres de células por técnicas conocidas en la técnica; y la aplicación de herramientas bioinformáticas para detectar mutaciones raras y variaciones en el número de copias en comparación con una referencia. Los sistemas y métodos pueden contener una base de datos o colección de diferentes mutaciones o perfiles de variación en el número de copias de diferentes enfermedades, que se van a usar como referencias adicionales al ayudar en la detección de mutaciones raras, perfil de la variación en el número de copias o perfil genético general de una enfermedad.

Description

SISTEMAS Y MÉTODOS PARA DETECTAR MUTACIONES RARAS VARIACIÓN EN EL NÚMERO DE COPIAS Campo y Antecedentes de la Invención
[0002] La detección y cuantificación de polinucleótidos es importante para la biología molecular y para aplicaciones médicas tal como el diagnóstico. Es particularmente útil la prueba genética para varios métodos de diagnóstico. Por ejemplo, los trastornos que se equivocan por alteraciones genéticas raras (por ejemplo, variantes de secuencia) o cambios en los marcadores epigenéticos tal como cáncer y aneuploidia parcial o completa, se pueden detectar o caracterizar de manera más exacta con información de secuencias de ADN.
[0003] La detección temprana y el monitoreo de enfermedades genéticas, tal como cáncer frecuentemente es útil y necesario en el tratamiento o manejo exitoso de la enfermedad. Un planteamiento puede incluir el monitoreo de una muestra derivada de ácidos nucleicos libres de célula, una población de polinucleótidos que se puede encontrar en diferentes tipos de fluidos corporales. En algunos casos, la enfermedad se puede caracterizar o detectar en base a la detección de anormalidades genéticas, tal como un cambio en la variación de números de copias y/o variación de secuencias de una o más secuencias de ácido nucleico, o en el desarrollo de otras ciertas alteraciones genéticas raras. Durante décadas en la téenica se ha conocido del ADN libre de células ("cfDNA", por sus siglas en inglés) y puede contener anormalidades genéticas asociadas con una enfermedad particular. Con las mejoras en la secuenciación y en las técnicas para manipular ácidos nucleicos, existe la necesidad en la técnica de métodos y sistemas mejorados para usar el ADN libre de células para detectar y monitorizar la enfermedad.
Breve Descripción de la Invención
[0004] La descripción proporciona un método para detectar variación en el número de copias, el cual comprende: a) secuenciar polinucleótidos extracelulares de una muestra corporal de un sujeto, en donde cada uno de los polinucleótidos extracelulares se une opcionalmente a códigos de barra, únicos; b) filtrar las lecturas que fallan en cumplir un umbral establecido; c) correlacionar las lecturas de secuencia obtenidas del paso (a) a una secuencia de referencia; d) cuantificar/contar las lecturas correlacionadas en dos o más regiones predefinidas de la secuencia de referencia; e) determinar una variación de número de copias en una o más de las regiones predefinidas al (i) normalizar el número de lecturas en las regiones predefinidas entre sí y/o el número de códigos de barra, únicos en las regiones predefinidas entre sí; y (ii) comparar los números normalizados obtenidos en el paso (i) a números normalizados obtenidos de una muestra de control.
[0005] La descripción también proporciona un método para detectar una mutación rara en una muestra libre de células o sustancialmente libre de células obtenida de un sujeto, el cual comprende: a) secuenciar polinucleótidos extracelulares de una muestra corporal de un sujeto, en donde cada uno de los polinucleótidos extracelulares genera una pluralidad de lecturas de secuenciación; b) secuenciar polinucleótidos extracelulares de una muestra corporal de un sujeto, en donde cada uno de los polinucleótidos extracelulares genera una pluralidad de lecturas de secuenciación; secuenciar polinucleótidos extracelulares de una muestra corporal de un sujeto, en donde cada uno de los polinucleótidos extracelulares genera una pluralidad de lecturas de secuenciación; c) filtrar las lecturas que fallan en cumplir con un umbral establecido; d) correlacionar lecturas de secuencia derivadas de la secuenciación sobre una secuencia de referencia; e) identificar un subconjunto de lecturas de secuencia correlacionadas que se alinean con una variante de la secuencia de referencia en cada posición base correlacionable; f) para cada posición base correlacionable, calcular una relación de (a) un número de lecturas de secuencia correlacionada que incluye una variante en comparación a la secuencia de referencia, a (b) un número de lecturas de secuencias totales para cada posición base correlacionable; g) normalizar las relaciones o frecuencia de varianza para cada posición base correlacionable de terminar las variantes o mutaciones raras potenciales; h) y comparar el número resultante para cada una de las regiones con las variantes o mutaciones raras potenciales a números similarmente derivados de una muestra de referencia.
[0006] Adicionalmente, la descripción también proporciona un método para caracterizar la heterogeneidad de una condición normal en un sujeto, el método que comprende generar un perfil genético de polinucleótidos extracelulares en el sujeto, en donde el perfil genético comprende una pluralidad de datos que resultan de la variación en el número de copias y/u otros análisis de mutaciones raras (por ejemplo, alteración genética).
[0007] En algunas modalidades, la prevalencia/concentración de cada variante rara identificada en el sujeto se reporta y cuantifica de manera simultánea. En otras modalidades, se reporta una puntuación de confianza, con respecto a la prevalencia/concentraciones de variantes raras en el sujeto.
[0008] En algunas modalidades, polinucleótidos extracelulares comprenden ADN. En otras modalidades, los polinucleótidos extracelulares comprenden ARN. Los polinucleótidos pueden ser fragmentos o ser fragmentados después del aislamiento. Adicionalmente, la descripción proporciona un método para hacer circular el aislamiento y extracción de ácidos nucleicos.
[0009] En algunas modalidades, se aíslan polinucleótidos extracelulares a partir de una muestra corporal que se puede seleccionar del grupo que consiste de sangre, plasma, suero, orina, saliva, excreciones mucosas, esputo, excremento y lágrimas. [00010] En algunas modalidades, los métodos de la descripción también comprenden el paso de determinar el por ciento de secuencias que tienen variación en el número de copias u otra alteración genética rara (por ejemplo, variantes de secuencia) en la muestra corporal. [00011] En algunas modalidades, el por ciento de secuencias que tienen variación en el número de copias en la muestra corporal se determina al calcular el porcentaje de regiones predefinidas con una cantidad de polinucleótidos por arriba o por abajo de un umbral predeterminado. [00012] En algunas modalidades, se extraen fluidos corporales de un sujeto sospechoso de tener una condición anormal que se puede seleccionar del grupo que consiste de, mutaciones, mutaciones raras, variantes individuales de nucleótidos, indeles, variaciones en el número de copias, transversiones, transcolocaciones, inversión, supresiones, aneuploidia, aneuploidia parcial, poliploidia, inestabilidad cromosómica, alteraciones de la estructura cromosómica, fusiones génicas, fusiones de cromosomas, truncamientos génicos, amplificación génica, duplicaciones génicas, lesiones cromosómicas, lesiones de ADN, cambios anormales en modificaciones químicas de ácidos nucleicos, cambios anormales en patrones epigenéticos, cambios anormales en la infección por metilación de ácidos nucleicos y cáncer. [00013] En algunas modalidades, el sujeto puede ser una mujer embarazada en la cual la condición anormal puede ser una anormalidad fetal seleccionada del grupo que consiste de, variantes individuales de nucleótidos, indeles, variaciones en el número de copias, transversiones, transcolocaciones, inversión, supresiones, aneuploidia, aneuploidia parcial, poliploidia, inestabilidad cromosómica, alteraciones de la estructura cromosómica, fusiones génicas, fusiones cromosómicas, truncamientos génicos, amplificación génicas, duplicaciones génicas, lesiones cromosómicas, lesiones de ADN, cambios anormales en modificaciones químicas de ácidos nucleicos, cambios anormales en patrones epigenéticos, cambios anormales en la infección por metilación de ácidos nucleicos y cáncer. [00014] En algunas modalidades, el método puede comprender unir uno o más códigos de barra a los polinucleótidos extracelulares o fragmentos de los mismos antes de la secuenciación, en donde los códigos de barra que se comprenden son únicos. En otras modalidades los códigos de barra unidos a los polinucleótidos extracelulares o fragmentos de los mismos antes de la secuenciación no son únicos. [00015] En algunas modalidades, los métodos de la descripción pueden comprender enriquecer de manera selectiva las regiones del genoma o transcriptoma del sujeto antes de la secuenciación. En otras modalidades, los métodos de la descripción comprenden enriquecer de manera selectiva las regiones del genoma o transcriptoma del sujeto antes de la secuenciación. En otras modalidades, los métodos de la descripción comprenden no enriquecer de manera selectiva las regiones del genoma o transcriptoma del sujeto antes de la secuenciación. [00016] Adicionalmente, los métodos de la descripción comprenden unir uno o más códigos de barra en los polinucleótidos extracelulares o fragmentos de los mismos antes de cualquier paso de amplificación o enriquecimiento. [00017] En algunas modalidades, el código de barra es un polinucleótido, que puede comprender además secuencia aleatoria o un conjunto fijo o semi-aleatorio de oligonucleótidos que en combinación con la diversidad de moléculas secuenciadas de una región seleccionada permite la identificación de moléculas únicas y es de al menos 3, 5, 10, 15, 2025, 30, 35, 40, 45, o 50mer pares de base de longitud. [00018] En algunas modalidades, se pueden amplificar polinucleótidos extracelulares o fragmentos de los mismos. En algunas modalidades, la amplificación comprende la amplificación global o la amplificación del genoma completo. [00019] En algunas modalidades, las lecturas de secuencia de identidad única se pueden detectar en base a la información de secuencia en las regiones de comienzo (inicio) y final (final) de la lectura de secuencia y la longitud de la lectura de secuencia. En otras modalidades, las moléculas de secuencia de identidad única se detectan en base a la información de secuencia en las regiones de comienzo (inicio) y final (final) de la lectura de secuencia, y la longitud de la lectura de secuencia y la unión de un código de barras. [00020] En algunas modalidades, la amplificación comprende amplificación selectiva, amplificación no selectiva, amplificación por supresión o enriquecimiento substractivo. [00021] En algunas modalidades, los métodos de la descripción comprenden remover un subconjunto de las lecturas del análisis adicional antes de identificar o enumerar las lecturas. [00022] En algunas modalidades, el método comprende filtrar las lecturas con una puntuación de exactitud o calidad de menos de un umbral, por ejemplo, 90%, 99%, 99.9%, o 99.99%) y/o correlacionar la puntuación a menos de un umbral, por ejemplo, 90%, 99%, 99.9% o 99.99%. En otras modalidades, los métodos de la descripción comprenden filtrar las lecturas con una puntuación de calidad menor que un umbral establecido. [00023] En algunas modalidades, las regiones predefinidas son uniformes o sustancialmente uniformes en tamaño, de aproximadamente 10kb, 20kb, 30kb 40kb, 50kb, 60kb, 70kb, 80kb, 90kb, o lOOkb de tamaño. En algunas modalidades, se analizan al menos 50, 100, 200, 500, 1000, 2000, 5000, 10,000, 20,000, o 50,000 regiones. [00024] En algunas modalidades, una variante genética, mutación rara o variación en el número de copias se presenta en una región del genoma seleccionado del grupo que consiste de fusiones génicas, duplicaciones génicas, supresiones génicas, transcolocaciones génicas, regiones de microsatélite, fragmentos génicos o combinaciones de esto. En otras modalidades, una variante genética, mutación rara o variación en el número de copias se presenta en una región el genoma seleccionada del grupo que consiste de genes, oncogenes, genes supresores de tumor, promotores, elementos de secuencia reguladora, o combinación de estos. En algunas modalidades, la variante es una variante de nucleótido, sustitución de base individual, o pequeño indel, transversión, transcolocación, inversión, supresión, truncamiento o truncamiento génico de aproximadamente 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15 o 20 nucleótidos de longitud. [00025] En algunas modalidades, el método comprende corregir/normalizar/ajustar la cantidad de lecturas correlacionadas usando los códigos de barra o propiedades únicas de lecturas individuales. [00026] En algunas modalidades, la enumeración de las lecturas se realiza a través de la numeración de códigos de barra, únicos en cada una de las regiones predefinidas y normalizar estos números a través de al menos un subconjunto de regiones predefinidas que se secuenciaron. En algunas modalidades, las muestras a intervalos sucesivos de tiempo del mismo sujeto se analizan y comparan a resultados previos de muestra. El método de la descripción puede comprender además determinar la frecuencia de la variación parcial en el número de copias, la pérdida de heterosigocidad, análisis de expresión génica, análisis epigenético y análisis de hipermetilación después de amplificar los polinucleótidos extracelulares unidos al código de barras. [00027] En algunas modalidades, se determina la variación en el número de copias y el análisis de mutaciones raras, en una muestra libre de células o sustancialmente libre de células obtenida de un sujeto usando secuenciación multiplex, que comprende realizar más de 10,000 reacciones de secuenciación; secuenciando simultáneamente al menos 10,000 lecturas diferentes; o realizando el análisis de datos en al menos 10,000 lecturas diferentes a través del genoma. El método puede comprender la secuenciación multiplex que comprende realizar el análisis de datos en al menos 10,000 lecturas diferentes a través del genoma. El método puede comprender además enumerar las lecturas secuenciadas que son identificables de manera única. [00028] En algunas modalidades, los métodos de la descripción comprenden normalizar y la detección se realiza usando uno o más de markov oculto, programación dinámica, máquina de vector de soporte, red Bayesiana, descodificación de entramado, descodificación Viterbi, maximización por expectación, filtración Kalman, o metodologías de red neural. [00029] En algunas modalidades, los métodos de la descripción comprenden monitorizar el progreso de la enfermedad, monitorizar la enfermedad residual, monitorizar la terapia, diagnosticar una condición, hacer pronóstico de una condición, seleccionar una terapia en base a las variantes descubiertas. [00030] En algunas modalidades, una terapia se modifica en base al análisis de muestra más reciente. Adicionalmente, los métodos de la descripción comprenden inferir el perfil genético de un tumor, infección u otra anormalidad de tejido. En algunas modalidades, se monitoriza el crecimiento, remisión o evolución de un tumor, infección u otra anormalidad de tejido. En algunas modalidades, se analiza el sistema inmunitario del sujeto y se monitoriza en casos individuales o con el paso del tiempo. [00031] En algunas modalidades, los métodos de la descripción comprende la identificación de una variante que se sigue a través de una prueba por formación de imágenes (por ejemplo, CT, PET-CT, MRI, rayos X, ultrasonido) para la localización de la normalidad de tejido sospechoso de provocar la variante identificada. [00032] En algunas modalidades, los métodos de la descripción comprenden usar los datos genéticos obtenidos de una biopsia de tumor o tejido del mismo paciente. En algunas modalidades, por lo que se infiere la filogenética de un tumor, infección u otra anormalidad de tejido. [00033] En algunas modalidades, los métodos de la descripción comprenden realizar la no lectura automática en base a la población y la identificación de regiones de baja confianza. En algunas modalidades, la obtención de los datos de medición para la cobertura de secuencia comprende medir la profundidad de cobertura de secuencia en cada posición del genoma. En algunas modalidades, la corrección de los datos de medición para la desviación de cobertura de secuencia comprende calcula la cobertura promediada por ventana. En algunas modalidades, la corrección de los datos de medición para la desviación de cobertura de secuencia comprende realizar ajustes a causa de la desviación de GC en el proceso de secuenciación y construcción de la biblioteca. En algunas modalidades, la corrección de los datos de medición para la desviación de cobertura de secuencia comprende realizar ajustes en base al factor de ponderación adicional asociado con correlaciones individuales para compensar esta desviación. [00034] En algunas modalidades, los métodos de la descripción comprenden polinucleótido extracelular derivado de un origen de célula enferma. En algunas modalidades, el polinucleótido extracelular se deriva de un origen de célula saludable. [00035] La descripción también proporciona un sistema que comprende un medio leíble por computadora para realizar los siguientes pasos: seleccionar regiones predefinidas en un genoma; enumerar el número de lecturas de secuencia en las regiones predefinidas; normalizar el número de lecturas de secuencia a través de las regiones predefinidas; y determinar el por ciento de variación en el número de copias en las regiones predefinidas. En algunas modalidades, la totalidad del genoma o al menos 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, o 90% del genoma se analiza. En algunas modalidades, el medio leíble por computadora proporciona datos del por ciento de ADN o ARN de cáncer en plasma o suero al usuario final. [00036] En algunas modalidades, se analiza la cantidad de variación genética, tal como polimorfismos o variantes causales. En algunas modalidades, se detecta la presencia ausencia de alteraciones genéticas. [00037] La descripción también proporciona un método pOara detectar una mutación rara en una muestra libre de células o sustancialmente libre de células obtenida de un sujeto que comprende: a) secuenciar polinucleótidos extracelulares de una muestra corporal de un sujeto, en donde cada uno de los polinucleótidos extracelulares genera una pluralidad de lecturas de secuenciación; b) filtrar las lecturas que fallan en cumplir con un umbral establecido; c) filtrar las lecturas de secuencia derivadas de la secuenciación sobre una secuencia de referencia; d) identificar un subconjunto de lecturas de secuencia correlacionadas que se alinean con una variante de la secuencia de referencia en cada posición base correlacionable; e) para cada posición base correlacionable, calcular una relación de (a) un número de lectura de secuencia correlacionada que incluye una variante en comparación a la secuencia de referencia, a (b) un número de lecturas totales de secuencias para cada posición base correlacionable; f) normalizar las relaciones o frecuencia de varianza para cada posición base correlacionable y determinar la variantes raras potenciales u otras alteraciones genéticas; y g) comparar el número resultante para cada una de las regiones. [00038] Esta descripción también proporciona un método que comprende: a. proporcionar al menos un conjunto de polinucleótidos de origen, marcados, y para cada conjunto de polinucleótidos de origen marcados; b. amplificar los polinucleótidos de origen, marcados, en el conjunto para producir un conjunto correspondiente de polinucleótidos de progenie, amplificados; c. secuenciar un subconjunto (incluyendo un subconjunto apropiado) del conjunto de polinucleótidos de progenie, amplificados, para producir un conjunto de lecturas de secuenciación; y d. colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias de consenso, cada secuencia de consenso que corresponde a un polinucleótido único entre el conjunto de polinucleótidos de origen, marcados. En ciertas modalidades, el metodo comprende además: e. analizar el conjunto de secuencia de consenso para cada conjunto de moléculas de origen, marcadas. [00039] En algunas modalidades, cada polinucleótido en un conjunto se puede correlacionar a una secuencia de referencia. [00040] En algunas modalidades, el método comprende proporcionar una pluralidad de conjuntos de polinucleótidos de origen, marcados, en donde cada conjunto se puede correlacionar a una diferente secuencia de referencia. [00041] En algunas modalidades, el método comprende además convertir material genético inicial de inicio en los polinucleótidos de origen, macados. [00042] En algunas modalidades, el material genético inicial de inicio comprende no más de 100 ng de polinucleótidos. [00043] En algunas modalidades, el método comprende restringir el material genético inicial de inicio antes de la conversión. [00044] En algunas modalidades el método comprende convertir el material genético inicial de inicio en polinucleótidos de origen, marcados con una eficiencia de conversión de al menos 10%, al menos 20%, al menos 30%, al menos 40%, al menos 50%, al menos 60%, al menos 80% o al menos 90%. [00045] En algunas modalidades, la conversión comprende cualquiera de ligación de extremos romos, ligación de extremos pegajosos, sondas de inversión molecular, PCR, PCR basada en ligación, ligación de hebra individual y circularización de hebra individual. [00046] En algunas modalidades, el material genético inicial de inicio es ácido nucleico libre de células. [00047] En algunas modalidades, una pluralidad de las secuencias de referencia son del mismo genoma. [00048] En algunas modalidades cada polinucleótido de origen, marcado, en el conjunto, está marcado de manera única. [00049] En algunas modalidades, las marcas no son únicas. [00050] En algunas modalidades, la generación de las secuencias de consenso se basa en información de la marca y/o al menos una de la información de secuencia en la región de comienzo (inicio) de la lectura de secuencia, las regiones finales (finales) de la lectura de secuencia y la longitud de la lectura de secuencia. [00051] En algunas modalidades, el método comprende secuenciar un subconjunto del conjunto de polinucleótidos de progenie, amplificados, suficiente para producir lecturas de secuencia para al menos una progenie de cada uno de al menos 20%, al menos 30%, al menos 40%, al menos 50%, al menos 60%, al menos 70%, al menos 80%, al menos 90% al menos 95%, al menos 98%, al menos 99%, al menos 99.9% o al menos 99.99% de polinucleótidos únicos en el conjunto de polinucleótidos de origen, marcados. [00052] En algunas modalidades la por lo menos una progenie es una pluralidad de progenies, por ejemplo, al menos 2, al menos 5 o al menos 10 progenies. [00053] En algunas modalidades, el número de lecturas de secuencia en el conjunto de lecturas de secuencia es mayor que el número de polinucleótidos de origen, marcados, únicos, en el conjunto de polinucleótidos de origen, marcados. [00054] En algunas modalidades, el subconjunto de conjunto de polinucleótidos de progenie, amplificados, secuenciados, es de tamaño suficiente de modo que cualquier secuencia de nucleótidos representada en el conjunto de polinucleótidos de origen, marcados, a un porcentaje que es el mismo como el porcentaje de la proporción de error de secuenciación por base de la plataforma de secuenciación usada, tiene al menos 50%, al menos 60%, al menos 70%, al menos 80%, al menos 90% al menos 95%, al menos 98%, al menos 99%, al menos 99.9% o al menos 99.99% de probabilidad de que se represente entre el conjunto de secuencias de consenso. [00055] En algunas modalidades, el método comprende enriquecer el conjunto de polinucleótidos de progenie, amplificados, para los polinucleótidos que correlacionan a una o más secuencias de referencia, seleccionadas mediante: (i) amplificación selectiva de secuencias de material genético inicial de inicio convertido a polinucleótidos de origen, marcados; (ii) amplificación selectiva de polinucleótidos de origen, marcados; (iii) captura de secuencia selectiva de polinucleótidos de progenie, amplificados; y (iv) captura de secuencia selectiva de material genético inicial de inicio. [00056] En algunas modalidades el análisis comprende normalizar una medida (por ejemplo, número) tomada de un conjunto de secuencias de consenso contra una medida tomada de un conjunto de secuencias de consenso de una muestra de control. [00057] En algunas modalidades, el análisis comprende detectar mutaciones, mutaciones raras, variantes de nucleótidos individuales, indeles, variaciones en el número de copias, transversiones, transcolocaciones, inversión, supresiones, aneuploidia, aneuploidia parcial, poliploidia, inestabilidad cromosómica, alteraciones de la estructura cromosómica, fusiones génicas, fusiones de cromosómicas, truncamientos génicos, amplificación génica, duplicaciones génicas, lesiones cromosómicas, lesiones de ADN, cambios anormales en las modificaciones químicas de ácido nucleico, cambios anormales en patrones epigenéticos, cambios anormales en infección por metilación de ácido nucleico o cáncer. [00058] En algunas modalidades los polinucleótidos comprenden ADN, ARN, una combinación de los dos o ADN más ADNc derivado de ARN. [00059] En algunas modalidades un cierto subconjunto de los polinucleótidos se selecciona para, o se enriquece en base a, la longitud de polinucleótido en pares de base en conjunto inicial de polinucleótidos o de los polinucleótidos amplificados. [00060] En algunas modalidades, el análisis comprende además la detección y monitoreo de una anormalidad o enfermedad dentro de un individuo, tal como, infección y/o cáncer. [00061] En algunas modalidades, el método se realiza en combinación con perfilado de repertorio inmunitario. [00062] En algunas modalidades, los polinucleótidos se extraen del grupo que consiste de sangre, plasma, suero, orina, saliva, excreciones mucosas, esputo, eses y lágrimas. [00063] En algunas modalidades, el colapso que comprende detectar y/o corregir errores, mcyas o lesiones presentes en la hebra homosentido o anti-sentido de los polinucleótidos de origen, marcados, o polinucleótidos de progenie, amplificados. [00064] Esta descripción también proporciona un método que comprende detectar la variación genética en un material genético inicial de inicio con una sensibilidad de al menos 5%, al menos 1%, al menos 0.5%, al menos 0.1% o al menos 0.05%. En algunas modalidades, el material genético inicial de inicio se proporciona en una cantidad de menos de 100 ng de ácido nucleico, la variación genética es la variación en el número de copias/heterocigosidad y la detección se realiza con resolución sub-cromosómica; por ejemplo una resolución de al menos 100 megabases, resolución de al menos 10 megabases, resolución de al menos 1 megabase, resolución de al menos 100 kilobases, resolución de al menos 10 kilobases o resolución de al menos 1 kilobase. En otra modalidad, el método comprende proporcionar una pluralidad de conjuntos de polinucleótidos de origen, marcados, en donde cada conjunto se puede correlacionar a una diferente secuencia de referencia. En otra modalidad, la secuencia de referencia es el sitio de un marcador tumoral, y el análisis comprende detectar el marcador tumoral en el conjunto de secuencias de consenso. En otra modalidad, el marcador tumoral está presente en el conjunto de secuencias de consenso a una frecuencia menor que la proporción de error introducida en el paso de amplificación. En otra modalidad, el por lo menos un conjunto es una pluralidad de conjuntos, y las secuencias de referencia comprenden una pluralidad de secuencias de referencia, cada una de las cuales es el sitio de un marcador tumoral. En otra modalidad, en el análisis comprende detectar la variación en el número de copias de secuencias de consenso ente al menos dos conjuntos de polinucleótidos de origen. En otra modalidad, el análisis comprende detectar la presencia de variaciones de secuencia en comparación con las secuencias de referencia. En otra modalidad, el análisis comprende detectar la presencia de variaciones de secuencia en comparación con las secuencias de referencia y detectar la variación en el número de copias de secuencia de consenso entre al menos dos conjuntos de polinucleótidos de origen, en otra modalidad, el colapso comprende: i. agrupar lecturas de secuencias secuenciadas de polinucleótidos de progenie, amplificados, en familias, cada familia amplificada del mismo polinucleótido de origen, macado; y ii. determinar una secuencia de consenso en base a las lecturas de secuencia en una familia. [00065] Esta descripción también proporciona un sistema que comprende un medio leíble por computadora para realizar los siguientes pasos: a. proporcionar al menos un conjunto de polinucleótidos de origen, marcados, y para cada conjunto de polinucleótidos de origen, marcados; b.. amplificar los polinucleótidos de origen, marcados en el conjunto para producir un conjunto correspondiente de polinucleótidos de progenie, amplificados; c. secuenciar un subconjunto (incluyendo un subconjunto apropiado) del conjunto de polinucleótidos de progenie, amplificados, para producir un conjunto de lecturas de secuenciación; y d. colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias de consenso, cada secuencia de consenso que corresponde a un polinucleótido único entre el conjunto de polinucleótidos de origen, marcados, y opcionalmente, e. analizar el conjunto de secuencias de consenso para cada conjunto de moléculas de origen, macadas. [00066] Esta descripción también proporcionar un método que comprende: a. proporcionar al menos un conjunto de polinucleótidos de origen, marcados, y para cada conjunto de polinucleótidos de origen, marcados; b. amplificar los polinucleótidos de origen, marcados en el conjunto para producir un conjunto correspondiente de polinucleótidos de progenie, amplificados; c. secuenciar un subconjunto (incluyendo un subconjunto apropiado) del conjunto de polinucleótidos de progenie, amplificados, para producir un conjunto de lecturas de secuenciación; d. colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias de consenso, cada secuencia de consenso que corresponde a un polinucleótido único entre el conjunto de polinucleótidos de origen, marcados; y e. filtrar de entre las secuencias de consenso a aquellas que fallan en cumplir con un umbral de calidad. En una modalidad, el umbral de calidad considera varias lecturas de secuencia de los polinucleótidos de progenie, amplificados, colapsados en una secuencia de consenso. En otra modalidad, el umbral de calidad considera varias lecturas de secuencia de los polinucleótidos de progenie amplificados, colapsados en una secuencia de consenso. Esta descripción también proporciona un sistema que comprende un medio leíble por computadora para realizar el método anterior. [00067] Esta descripción también proporciona un método que comprende: a. proporcionar al menos un conjunto de polinucleótidos de origen, marcados, en donde cada conjunto correlaciona a una diferente secuencia de referencia en uno o más genomas, y para cada conjunto de polinucleótidos de origen, marcados; i. amplificar los primeros polinucleótidos para producir un conjunto de polinucleótidos amplificados; ii. secuenciar un subconjunto del conjunto de polinucleótidos amplificados, para producir un conjunto de lecturas de secuenciación; y iii. colapsar las lecturas de secuencia al: 1. Agrupar lecturas de secuencia secuenciadas de polinucleótidos de progenie, amplificados en familias, cada familia amplificada del mismo polinucleótido de origen, marcado. En una modalidad, el colapso comprende además: 2. determinar una medida cuantitativa de las lecturas de secuencia en cada familia. En otra modalidad, el método comprende además (que incluye a) que incluye a): b. determinar una medida cuantitativa de familias únicas; y c. en base a (1) la medida cuantitativa de familias únicas y (2) la medida cuantitativa de lecturas de secuencia en cada grupo, infiriendo una medida de polinucleótidos de origen, marcados, únicos, en el conjunto. En otra modalidad, la inferencia se realiza usando modelos estadísticos o probabilísticos. En otra modalidad, en donde el por lo menos un conjunto es una pluralidad de conjuntos. En otra modalidad, el método comprende además corregir para amplificación o desviación representacional entre los dos conjuntos. En otra modalidad, el método comprende además usar un control o conjunto de muestras de control para corregir las desviaciones de amplificación o representacionales entre los dos conjuntos. En otra modalidad, el método comprende además determinar la variación en el número de copias entre los conjuntos. En otra modalidad, el método comprende además (incluyendo a, b, c): d. determinar una medida cuantitativa de formas polimórficas entre las familias; y e. en base a la medida cuantitativa determinada de formas polimórficas, inferir una medida cuantitativa de formas polimórficas en el número de polinucleótidos de origen, marcados, únicos, inferidos. En otra modalidad, en donde las formas polimórficas incluyen pero no se limitan a: sustituciones, inserciones, supresiones, inversiones, cambios de microsatélite, transversiones, translocaciones, fusiones, metilación, hipermetilación, hidroximetilación, acetilación, variantes epigenéticas, variantes asociadas a regulación o sitios de unión a proteína. En otra modalidad, en donde los conjuntos se derivan de una muestra común, el método que comprende además: a. inferir la variación en el número de copias para la pluralidad de conjuntos en base a una comparación del número inferido de polinucleótidos de origen, marcados en cada conjunto que correlaciona a cada una de una pluralidad de secuencias de referencia. En otra modalidad, el número original de polinucleótidos en cada conjunto se infiere de manera adicional. Esta descripción también proporciona un sistema que comprende un medio leíble por computadora para realizar los métodos anteriores. [00068] Esta descripción también proporciona un método para determinar la variación en el número de copias en una muestra que incluye polinucleótidos, el método que comprende: a. proporcionar al menos dos conjuntos de primeros polinucleótidos, en donde cada conjunto correlaciona a una diferente secuencia de referencia en el genoma, y para cada conjunto de primeros polinucleótidos; i. amplificar los polinucleótidos para producir un conjunto de polinucleótidos amplificados; ii. secuenciar un subconjunto del conjunto de polinucleótidos amplificados, para producir un conjunto de lecturas de secuenciación; iii. agrupar lecturas de secuencia secuenciadas de polinucleótidos amplificados en familias, cada familia amplificada del mismo primer polinucleótido en el conjunto; iv. Inferir una medida cuantitativa de familias en el conjunto; b. determinar la variación en el número de copias al comparar la medida cuantitativa de familias en cada conjunto. Esta descripción también proporciona un sistema que comprende un medio leíble por computadora para realizar los métodos anteriores. [00069] Esta descripción también proporciona un método para inferir la frecuencia de lecturas automáticas de secuencia en una muestra de polinucleótidos que comprende: a. proporcionar al menos un conjunto de primeros polinucleótidos, en donde cada conjunto correlaciona una diferente secuencia de referencia en uno o más genomas, y para cada conjunto de primeros polinucleótidos; i. amplificar los primeros polinucleótidos para producir un conjunto de polinucleótidos amplificados; ii. secuenciar un subconjunto del conjunto de polinucleótidos amplificados, para producir un conjunto de lecturas de secuenciación; iii. agrupar las lecturas de secuencia en familias, cada familia que comprende lecturas de secuencia de polinucleótidos amplificados, amplificados del mismo primer polinucleótido; b. inferir, para cada conjunto de primeros polinucleótidos, una frecuencia de lectura automática para una o más bases en el conjunto de primeros polinucleótidos, en donde la inferencia comprende: i. asignar, para cada familia, puntuación de confianza para cada una de una pluralidad de lecturas automáticas, la puntuación de confianza que toma en consideración una frecuencia de la lectura automática entre miembros de la familia; y ii. estimar una frecuencia de la una o más llamadas automáticas tomando en consideración las puntuaciones de confianza de la una o más llamadas automáticas asignadas a cada familia. Esta descripción también proporcionar un sistema que comprende un medio leíble por computadora para realizar los métodos anteriores. [00070] Esta descripción también proporciona un método para comunicar la información de secuencia entre al menos una molécula de polinucleótido individual que comprende: a. proporcionar al menos una molécula de polinucleótido individual; b. codificar información de secuencia en la por lo menos una secuencia de polinucleótido individual para producir una señal; c. hacer pasar al menos parte de la señal a través de un canal para producir una señal recibida que comprende información de secuencia de nucleótidos a cerca de la por lo menos una molécula de polinucleótido individual, en donde la señal recibida comprender ruido y/o distorsión; d. descodifica la señal recibida para producir un mensaje que comprende información de secuencia a cerca de la por lo menos una molécula de polinucleótido individual, en donde la descodificación reduce el ruido y/o distorsión en el mensaje; y e. proporcionar el mensaje a un receptor. En una modalidad, el ruido comprende llamadas automáticas incorrectas de nucleótidos. En otra modalidad, la distorsión comprende amplificación desigual de la molécula de polinucleótido individual en comparación con otras moléculas de polinucleótido, individuales. En otra modalidad, la distorsión resulta de la desviación de secuenciación o amplificación. En otra modalidad, la por lo menos una molécula de polinucleótido individual es una pluralidad de moléculas individuales de polinucleótido, y la descodificación produce un mensaje a cerca de cada molécula en la pluralidad. En otra modalidad, la codificación comprende amplificar la por lo menos una molécula de polinucleótido individual que se ha marcado de manera opcional, en donde la señal comprende una colección de moléculas amplificadas. En otra modalidad, el canal comprende un secuenciador de polinucleótidos y la señal recibida comprende lecturas de secuencia de una pluralidad de polinucleótidos amplificados de la por lo menos una molécula de polinucleótido individual. En otra modalidad, la descodificación comprende agrupar lecturas de secuencia de moléculas amplificadas, amplificadas de cada una de la por lo menos una molécula de polinucleótido individual. En otra modalidad, la descodificación consiste de un método probabilístico o estadístico para filtrar la señal de secuencia generada. Esta descripción proporciona también un sistema que comprende un medio leíble por computadora para realizar los métodos mencionados anteriormente. [00071] En otra modalidad, los polinucleótidos se derivan de ARN o ADN genómico tumoral. En otra modalidad, los polinucleótidos se derivan de polinucleótidos libres de células, polinucleótidos exórnales, polinucleótidos bacterianos o polinucleótidos virales. En otra modalidad, que comprende además la detección y/o asociación de rutas moleculares afectadas. En otra modalidad, que comprende además el monitoreo serial de la salud o estado de enfermedad de un individuo. En otra modalidad, de este modo se infiere la filogenia de un genoma asociado con una enfermedad dentro de un individuo. En otra modalidad que comprende además la diagnosis, monitoreo o tratamiento de una enfermedad. En otra modalidad, el régimen de tratamiento se selecciona o modifica en base a las formas polimórficas detectadas o CNV o rutas asociadas. En otra modalidad, el tratamiento comprende una terapia de combinación. [00072] Esta descripción también proporciona un medio leíble por computadora en forma tangible no transitoria que comprende código ejecutable configurado para realizar los siguientes pasos: seleccionar regiones predefinidas en un genoma; tener acceso a lecturas de secuencia y enumerar el número de lecturas de secuencia en las regiones predefinidas; normalizar el número de lecturas de secuencia a través de las regiones predefinidas; y determinar el por ciento de variación en el número de copias en las regiones predefinidas. [00073] Esta descripción también proporciona un medio leíble por computador en forma tangible no transitoria que comprende código ejecutable configurado para realizar los siguientes pasos: a. tener acceso a un archivo de datos que comprende una pluralidad de lecturas de secuenciación; b. filtrar las lecturas que fallan en cumplir con un umbral establecido; c. correlacionar las lecturas de secuencia derivadas de la secuenciación sobre una secuencia de referencia; d. identificar un subconjunto de lecturas de secuencia correlacionadas que se alinean con una variante de la secuencia de referencia en cada posición base correlacionable; e. para cada posición base correlacionable, calcular una relación de (a) un número de lecturas de secuencia correlacionada que incluye una variante en comparación a la secuencia de referencia, a (b) un número total de lecturas de secuencia totales para cada posición base correlacionable; f. normalizar las relaciones o frecuencia de varianza para cada posición base correlacionable y determinar la variantes raras potenciales u otras alteraciones genéticas; y g. comparar el número resultante para cada una de las regiones con variantes raras potenciales o mutaciones potenciales a números similarmente derivados de una muestra de referencia. [00074] Esta descripción también proporciona un medio leíble por computadora en forma tangible no transitoria que comprende código ejecutable configurado para realizar los siguientes pasos: a. tener acceso a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuenciación se derivan de un conjunto de polinucleótidos de progenie amplificados de al menos un conjunto de polinucleótidos de origen, marcados; b. colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias de consenso, cada secuencia de consenso que corresponde a un polinucleótido único entre el conjunto de polinucleótidos de origen, marcados. [00075] Esta descripción también proporciona un medo leíble por computadora en forma tangible, no transitoria que comprende código ejecutable configurado para realizar los siguientes pasos: a. tener acceso a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados de al menos un conjunto de polinucleótidos de origen, marcados; b. b. colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias de consenso, cada secuencia de consenso que corresponde a un polinucleótido único entre el conjunto de polinucleótidos de origen, marcados; c. filtrar de entre las secuencias de consenso a aquellas que fallan en cumplir con un umbral de calidad. [00076] Esta descripción tambien proporciona un medio leíble por computadora en forma tangible, no transitoria que comprende código ejecutable configurado para realizar los siguientes pasos: a. tener acceso a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados de al menos un conjunto de polinucleótidos de origen, marcados; y i. colapsar las lecturas de secuencia al: 1. Agrupar las lecturas de secuencia secuenciadas de polinucleótidos de progenie, amplificados, en familias, cada familia amplificada del mismo polinucleótido de origen, marcado, y opcionalmente, 2. Determinar una medida cuantitativa de lecturas de secuencia en cada familia. En ciertas modalidades, el código ejecutable realiza además los pasos de: b. determinar una medida cuantitativa de familias únicas; c. en base a (l) la medida cuantitativa de familias únicas y (2) la medida cuantitativa de lecturas de secuencia en cada grupo, inferir una medida de polinucleótidos de origen, marcados, únicos, en el conjunto. En ciertas modalidades, el código ejecutable realiza adicionalmente los pasos de: d. determinar una medida cuantitativa de formas polimórficas entre las familias; y e. en base a la medida cuantitativa determinada de las formas polimórficas, inferir una medida cuantitativa de las formas polimórficas en el número de polinucleótidos de origen, marcados, únicos, inferidos. [00077] Esta descripción también proporciona un medio leíble por computadora en forma tangible, no transitoria que comprende código ejecutable configurado para realizar los siguientes pasos: a. tener acceso a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados de al menos un conjunto de polinucleótidos de origen, marcados, agrupar lecturas de secuencia secuenciadas de los polinucleótidos amplificados en familias, cada familia amplificada del mismo primer polinucleótido en el conjunto; b. inferir una medida cuantitativa de las familias en el conjunto; c. determinar la variación en el número de copias al comparar la medida cuantitativa de familias en cada conjunto. [00078] Esta descripción también proporciona un medio leíble por computadora en forma tangible, no transitoria que comprende código ejecutable configurado para realizar los siguientes pasos: a. tener acceso a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia derivadas de un conjunto de polinucleótidos de progenie amplificados de al menos un conjunto de polinucleótidos de origen, marcados, agrupando las lecturas de secuencias en familia, cada familia que comprende lecturas de secuencia de polinucleótidos amplificados, amplificados del mismo primer polinucleótido; b. inferir, para cada conjunto de primeros polinucleótidos, una frecuencia de llamada automática para una o más bases en el conjunto de primeros polinucleótidos, en donde la inferencia comprende: c. asignar, para cada familia, puntuación de confianza para cada una de una pluralidad de lecturas automáticas, la puntuación de confianza que toma en consideración una frecuencia de la lectura automática entre miembros de la familia; y d. estimar una frecuencia de la una o más lecturas automáticas tomando en consideración las puntuaciones de confianza de la una o más lecturas automáticas asignadas a cada familia. [00079] Esta descripción también proporciona un medio leíble por computadora en forma tangible, no transitoria que comprende código ejecutable configurado para realizar los siguientes pasos: a. tener acceso a un archivo de datos que comprende una señal recibida que comprende información de secuencia codificada de al menos una molécula de polinucleótido individual en donde la señal recibida comprende ruido y/o distorsión; b. descodificar la señal recibida para producir un mensaje que comprende información de secuencia a cerca de por lo menos una molécula de polinucleótido individual, en donde la descodificación reduce el ruido y/o distorsión a cerca de cada polinucleótido individual en el mensaje; y c. escribir el mensaje que comprende información de secuencia a cerca de la por lo menos una molécula de polinucleótido individual a un archivo de computadora. [00080] Esta descripción también proporciona un medio leíble por computadora en forma tangible, no transitoria que comprende código ejecutable configurado para realizar los siguientes pasos: a. tener acceso a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia derivadas de un conjunto de polinucleótidos de progenie amplificados de al menos un conjunto de polinucleótidos de origen, marcados; b. colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias de consenso, cada secuencia de consenso que corresponde a un polinucleótido único entre el conjunto de polinucleótidos de origen, marcados; c. filtrar de entre las secuencias de consenso aquellas que fallen en cumplir con un umbral de calidad. [00081] Esta descripción tambien proporciona un medio leíble por computadora en forma tangible, no transitoria que comprende código ejecutable configurado para realizar los siguientes pasos: a. tener acceso a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados de al menos un conjunto de polinucleótidos de origen, marcados; y b. colapsar las lecturas de secuencia al: i. agrupar lecturas de secuencia secuenciadas de polinucleótidos de progenie amplificados, en familias, cada familia amplificada del mismo polinucleótido de origen, marcado; y ii. opcionalmente, determinar una medida cuantitativa de lecturas de secuencia en cada familia. En ciertas modalidades, el código ejecutable realiza además los pasos de: c. determinar una medida cuantitativa de familias únicas; d. en base a (1) la medida cuantitativa de familias únicas y (2) la medida cuantitativa de lecturas de secuencia en cada grupo, inferir una medida de polinucleótidos de origen, marcados, únicos, en el conjunto. En ciertas modalidades, el código ejecutable realiza además los pasos de: e. determinar una medida cuantitativa de formas polimórficas entre las familia; y f. en base a la medida cuantitativa determinadas de formas polimórficas, inferir una medida cuantitativa de formas polimórficas en el número de polinucleótidos de origen, marcados, únicos, inferidos. En ciertas modalidades, el código ejecutable realiza además los pasos de: e. inferir la variación en el número de copias para la pluralidad de conjuntos en base a una comparación del número referido de polinucleótidos de origen, marcados en cada conjunto, correlacionando a cada una de una pluralidad de secuencias de referencia. [00082] Esta descripción también proporciona un medio leíble por computadora en forma tangible, no transitoria que comprende código ejecutable configurado para realizar los siguientes pasos: a. tener acceso a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados de al menos un conjunto de polinucleótidos de origen, marcados; b. agrupar lecturas de secuencia secuenciadas de polinucleótidos amplificados, en familias, cada familia amplificada del mismo primer polinucleótido en el conjunto; c. inferir una medida cuantitativa de familias en el conjunto; d. determinar la variación en el número de copias al comparar la medida cuantitativa de familias en cada conjunto. [00083] Esta descripción también proporciona un medio leíble por computadora en forma tangible, no transitoria que comprende código ejecutable configurado para realizar los siguientes pasos: a. tener acceso a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados de al menos un conjunto de polinucleótidos de origen, marcados, agrupando las lecturas de secuencia en familias, cada familia que comprende lecturas de secuencia de polinucleótidos amplificados, amplificados del mismo primer polinucleótido; y b. inferir, para cada conjunto de primeros polinucleótidos, una frecuencia de lecturas automáticas para una o más bases en el conjunto de primeros polinucleótidos, en donde la inferencia comprende: i. asignar, para cada familia, puntuación de confianza para cada una de la pluralidad de lecturas automáticas, la puntuación de confianza que toma en consideración una frecuencia de la lectura automática entre los miembros de la familia; y ii. estimar una frecuencia de la una o más lecturas automáticas tomando en consideración las puntuaciones de confianza de la una o más lecturas automáticas asignadas a cada familia. [00084] Esta descripción también proporciona un método que comprende: a. proporcionar una muestra que comprende entre 100 y 100,000 equivalentes haploides de genoma humano de polinucleótidos de ADN libre de células (cfDNA); y b. marcar los polinucleótidos con entre 2 y 1,000,000 de identificadores únicos. En ciertas modalidades, el número de identificadores únicos es al menos 3, al menos 5, al menos 10, al menos 15 o al menos 25 y a lo mucho 100, a lo mucho 1000 o a lo mucho 10,000. En ciertas modalidades, el número de identificadores únicos es a lo mucho 100, a lo mucho 1000, a lo mucho 10,000, a lo mucho 100,000. [00085] Esta descripción también proporciona un método que comprende: a. proporcionar una muestra que comprende una pluralidad de equivalentes haploides de genoma humano de polinucleótidos fragmentados; b. determinar z, en donde z es una medida de la tendencia central (por ejemplo, media, mediana o modo) del número esperado de polinucleótidos duplicados iniciando en cualquier posición en el genoma, en donde los polinucleótidos duplicados tienen las mismas posiciones de inicio y finalización; y c. marcar polinucleótidos en la muestra con n identificadores únicos, en donde n está entre 2 y 100,000*z, 2 y 10,000*z, 2 y 1,000*z o 2 y 100*z. [00086] Esta descripción también proporciona un método que comprende: a. proporcionar al menos un conjunto de polinucleótidos de origen, marcados, y para cada conjunto de polinucleótidos de origen, marcados; b. producir una pluralidad de lecturas de secuencia para cada polinucleótido de origen, marcado, en el conjunto para producir un conjunto de lecturas de secuenciación; y c. colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias de consenso, cada secuencia de consenso que corresponde a un polinucleótido único entre el conjunto de polinucleótidos de origen, marcados. [00087] La descripción proporciona un metodo para detectar la variación en el número de copias, que comprende: a) secuenciar polinucleótidos extracelulares de una muestra corporal de un sujeto, en donde cada uno de los polinucleótidos extracelulares generan una pluralidad de lecturas de secuenciación; b) filtrar las lecturas que fallan en cumplir con un umbral establecido; c) correlacionar las lecturas de secuencia obtenidas del paso (a), después de que se filtran las lecturas, a una secuencia de referencia; d) cuantificar o enumerar las lecturas correlacionadas en dos o más regiones predefinidas de la secuencia de referencia; y e) determinar la variación en el número de copias en una o más de las regiones predefinidas al: (ii) normalizar el número de lecturas en las regiones predefinidas entre sí y/o el número de lecturas de secuencia únicas en las regiones predefinidas entre sí; (ii) comparar los números normalizados obtenidos en el paso (i) a los números normalizados obtenidos de una muestra de control. [00088] La descripción también proporciona un método para detectar una mutación rara en una muestra libre de células o sustancialmente libre de células obtenida de un sujeto, el cual comprende: a) secuenciar polinucleótidos extracelulares de una muestra corporal de un sujeto, en donde cada uno de los polinucleótidos extracelulares genera una pluralidad de lecturas de secuenciación; b) realizar secuenciación multiplex en regiones o secuenciación de genoma completo si no se realiza enriquecimiento; c) filtrar las lecturas que fallan en cumplir con un umbral establecido; d) correlacionar lecturas de secuencia derivadas de la secuenciación sobre una secuencia de referencia; e) identificar un subconjunto de lecturas de secuencia correlacionadas que se alinean con una variante de la secuencia de referencia en cada posición base correlacionable; f) para cada posición base correlacionable, calcular una relación de (a) un número de lectura de secuencia correlacionada que incluye una variante en comparación a la secuencia de referencia, a (b) un número de lecturas de secuencias totales para cada posición base correlacionable; g) normalizar las relaciones o frecuencia de varianza para cada posición base correlacionable y determinar variantes raras o mutaciones potenciales; y h) comparar el número resultante para cada una de las regiones con las variantes raras o mutaciones potenciales a números similarmente derivados de una muestra de referencia. [00089] La descripción también proporciona un método para caracterizar la heterogeneidad de una condición anormal en un sujeto, el método que comprende generar un perfil genético de polinucleótidos extracelulares en el sujeto, en donde el perfil genético comprende una pluralidad de datos que resultan de la variación en el número de copias y análisis de mutaciones raras. [00090] En algunas modalidades, la prevalencia/concentración de cada variante rara identificada en el sujeto se reporta y cuantifica de manera simultánea. En algunas modalidades, se reporta una puntuación de confianza, con respecto a la prevalencia/concentraciones de variantes raras en el sujeto. [00091] En algunas modalidades, los polinucleótidos extracelulares comprenden ADN. En algunas modalidades, los polinucleótidos extracelulares comprenden ARN. [00092] En algunas modalidades, los métodos comprenden además aislar polinucleótidos extracelulares de la muestra corporal. En algunas modalidades, el aislamiento comprende un método de someter a ciclos el aislamiento y extracción de ácidos nucleicos. En algunas modalidades, el método comprende además fragmentar los polinucleótidos extracelulares aislados. En algunas modalidades, la muestra corporal se selecciona del grupo que consiste de sangre, plasma, suero, orina, saliva, excreciones mucosas, esputo, eses y lágrimas. [00093] En algunas modalidades, los métodos comprenden además el paso de determinar el por ciento de secuencias que tienen variación en el número de copias o mutación rara o variante rara en esta muestra corporal. En algunas modalidades, la determinación comprende calcular el porcentaje de regiones predefinidas con una cantidad de polinucleótidos por arriba o por abajo de un umbral predeterminado. [00094] En algunas modalidades, el sujeto es sospechoso de tener una condición anormal. En algunas modalidades, la condición anormal se selecciona del grupo que consiste de mutaciones, mutaciones raras, indeles, variaciones en el número de copias, transversiones, transcolocaciones, inversión, supresiones, aneuploidia, aneuploidia parcial, poliploidia, inestabilidad cromosómica, alteraciones de la estructura cromosómica, fusiones génicas, fusiones cro osómicas, truncamientos génicos, amplificación génica, duplicaciones génicas, lesiones cromosómicas, lesiones de ADN, cambios anormales en las modificaciones químicas de ácidos nucleicos, cambios anormales en patrones epigenéticos, cambios anormales en la infección por metilación de ácidos nucleicos y cáncer. [00095] En algunas modalidades, el sujeto es una mujer embarazada. En algunas modalidades, la variación en el número de copias o la variante genética o mutación rara es indicativa de una anormalidad fetal. En algunas modalidades, la anormalidad fetal se selecciona del grupo que consiste de mutaciones, mutaciones raras, indeles, variaciones en el número de copias, transversiones, transcolocaciones, inversión, supresiones, aneuploidia, aneuploidia parcial, poliploidia, inestabilidad cromosómica, alteraciones de la estructura cromosómica, fusiones génicas, fusiones cromosómicas, truncamientos génicos, amplificación génica, duplicaciones génicas, lesiones cromosómicas, lesiones de ADN, cambios anormales en las modificaciones químicas de ácidos nucleicos, cambios anormales en patrones epigenéticos, cambios anormales en la infección por metilación de ácidos nucleicos y cáncer. [00096] En algunas modalidades, los métodos comprenden además unir uno o más códigos de barra a los polinucleótidos extracelulares o fragmentos de los mismos antes de la secuenciación. En algunas modalidades, cada código de barras unido a los polinucleótidos extracelulares o fragmentos de los mismos antes de la secuenciación, es único. En algunas modalidades no es único cada código de barras unido a los polinucleótidos extracelulares o fragmentos de los mismos antes de la secuenciación. [00097] En algunas modalidades, los métodos comprenden además enriquecer selectivamente regiones del genoma o transcriptoma del sujeto antes de la secuenciación. En algunas modalidades, los métodos comprenden además no enriquecer selectivamente las regiones del genoma o transcriptoma del sujeto antes de la secuenciación. [00098] En algunas modalidades, los métodos comprenden además unir uno o más códigos de barra a los polinucleótidos extracelulares o fragmentos de los mismos antes de cualquier paso de amplificación o enriquecimiento. En algunas modalidades, el código de barras es un polinucleótido. En algunas modalidades, el código de barras comprende secuencia aleatoria. En algunas modalidades, el código de barra comprende un conjunto fijo semialeatorio de oligonucleótidos que en combinación con la diversidad de moléculas secuenciadas de una región seleccionada permite la identificación de moléculas únicas. En algunas modalidades, los códigos de barra comprende oligonucleótidos que son de al menos 3, 5, 10, 15, 2025, 30, 35, 40, 45, o 50mer pares de base de longitud. [00099] En algunas modalidades, los métodos comprenden además amplificar los polinucleótidos extracelulares o fragmentos de los mismos. En algunas modalidades, la amplificación comprende amplificación global o amplificación de genoma completo. En algunas modalidades, la amplificación comprende amplificación selectiva. En algunas modalidades, la amplificación comprende amplificación no selectiva. En algunas modalidades, la amplificación por supresión o enriquecimiento substractivo se realiza. [000100] En algunas modalidades, las lecturas de secuencia de identidad única se detectan en base a la información de secuencia en las regiones de comienzo (inicio) y finales (finales) de la lectura de secuencia y la longitud de la lectura de secuencia. En algunas modalidades, las moléculas de secuencia de identidad única se detectan en base a la información de secuencia en las regiones de comienzo (inicio) y finales (finales) de la lectura de secuencia, la longitud de la lectura de secuencia y la unión de un código de barras. [000101] En algunas modalidades, los métodos comprenden además remover un subconjunto de las lecturas de los análisis adicionales antes de cuantificar o enumerar las lecturas. En algunas modalidades, la remoción comprende filtrar las lecturas con una puntuación de exactitud o calidad de al menos un umbral, por ejemplo, 90%, 99%, 99.9%, o 99.99% y/o puntuación de correlación menor que un umbral por ejemplo, 90%, 99%, 99.9% o 99.99%. En algunas modalidades, los métodos comprenden además filtrar las lecturas con una puntuación de calidad menor que un umbral establecido. [000102] En algunas modalidades, las regiones predefinidas son de tamaño uniforme o sustancialmente uniforme. En algunas modalidades, las regiones predefinidas son de al menos aproximadamente lOkb, 20kb, 30kb 40kb, 50kb, 60kb, 70kb, 80kb, 90kb, o lOOkb de tamaño. [000103] En algunas modalidades, se analizan al menos 50, 100, 200, 500, 1000, 2000, 5000, 10,000, 20,000, o 50,000 regiones. [000104] En algunas modalidades, la variante se presenta en una región del genoma seleccionada del grupo que consiste de fusiones génicas, duplicaciones génicas, supresiones génicas, translocaciones génicas, regiones de microsatélite, fragmentos génicos o combinación de esto. En algunas modalidades, la variante se presenta en una región del geno a seleccionada del grupo que consisten de genes, oncogenes, genes supresores de tumor, promotores, elementos o secuencias reguladoras o combinación de estos. En algunas modalidades, la variante es una variante de nucleótido, sustitución de base individual, pequeño indel, transversión, translocación, inversión, supresión, truncamiento o truncamiento o truncamiento génico de 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15 o 20 nucleótidos de longitud. [000105] En algunas modalidades, los métodos comprenden además corregir/normalizar/ajustar la cantidad de lecturas correlacionadas usando los códigos de barra o propiedades únicas de lecturas individuales. En algunas modalidades, la enumeración de las lecturas se realiza a través de la numeración de los códigos de barra únicos en cada una de las regiones predefinidas y normalizando aquellos números a través de al menos un subconjunto de regiones predefinidas que se secuenciaron. [000106] En algunas modalidades, las muestras a intervalos sucesivos de tiempo del mismo sujeto se analizan y comparan a resultados previos de muestras. En algunas modalidades, el método comprende además amplificar los polinucleótidos extracelulares unidos a códigos de barra. En algunas modalidades, los métodos comprenden además determinar la frecuencia parcial de variación en el número de copias, determinar la pérdida de heterocigosidad, realizar el análisis de expresión génica, realizar el análisis epigenético y/o realizar el análisis de hipermetilación. [000107] La descripción también proporciona un método que comprende determinar una variación en el número de copias o realizar el análisis de mutaciones raras en una muestra libre de células o sustancialmente libre de células obtenida de un sujeto usando secuenciación multiplex. [000108] En algunas modalidades, la secuenciación multiplex comprende realizar más de 10,000 reacciones de secuenciación. En algunas modalidades, la secuenciación multiplex comprende secuenciar simultáneamente al menos 10,000 lecturas diferentes. En algunas modalidades, la secuenciación multiplex que comprende realizar análisis de datos en al menos 10,000 lecturas diferentes a través del genoma. En algunas modalidades, la normalización y detección se realiza usando uno o más de markov oculto, programación dinámica, máquina de vector de soporte, modelado Bayesiano o probabilístico, descodificación de entramado, descodificación Viterbi, maximización por expectación, filtración Kalman, o metodologías de redes neurales. En algunas modalidades, los métodos comprenden además monitorizar el progreso de la enfermedad, monitorizar la enfermedad residual, monitorizar la terapia, diagnosticar una condición, hacer prognosis de una condición, o seleccionar una terapia en base a las variantes descubiertas para el sujeto. En algunas modalidades, una terapia se modifica en base a al menos el análisis de muestra más reciente. En algunas modalidades, se infiere el perfil genético de un tumor, infección u otra anormalidad de tejido. [000109] En algunas modalidades, se monitoriza el crecimiento, remisión o evolución de un tumor, infección u otra anormalidad de tejido. En algunas modalidades, las secuencias relacionadas al sistema monitario del sujeto se analizan y monitorizan en casos individuales o con el paso del tiempo. En algunas modalidades, la identificación de una variante se sigue a través de una prueba por formación de imágenes (por ejemplo, CT, PET-CT, MRI, rayos X, ultrasonido) para la localización de la anormalidad de tejido sospechoso de provocar la variante identificada. En algunas modalidades, el análisis comprende además el uso de datos genéticos obtenidos de una biopsia de tejido o tumor del mismo paciente. En algunas modalidades, se infiere la filogenética de un tumor, infección u otra anormalidad de tejido. En algunas modalidades, el método comprende además realizar la lectura no automática en base a la población y la identificación de regiones de baja confianza. En algunas modalidades, la obtención de los datos de medición para la cobertura de secuencia comprende medir la profundidad de cobertura de secuencia en cada posición del genoma. En algunas modalidades, la corrección de los datos de medición para la desviación de la cobertura de secuencia comprende calcular la cobertura promediada por ventana. En algunas modalidades, la corrección de los datos de medición para la desviación de cobertura de secuencia comprende realizar ajustes a causa de la desviación de GC en el proceso de secuenciación y construcción y biblioteca. En algunas modalidades, la corrección de los datos de medición para la desviación de la cobertura de secuencia comprende realizar ajustes en base al factor de ponderación, adicional, asociado con correlaciones individuales para compensar la desviación. [000110] En algunas modalidades, el polinucleótido extracelular se deriva de un origen de célula enferma. En algunas modalidades, polinucleótido extracelular se deriva de un origen de célula saludable. [000111] La descripción también proporciona un sistema que comprende un medio leíble por computadora para realizar los siguientes pasos: seleccionar regiones predefinidas en un genoma; enumerar el número de lecturas de secuencia en las regiones predefinidas; normalizar el número de lecturas de secuencia a través de la regiones predefinidas; y determinar el porciento de variación en el número de copia en las regiones predefinidas. [000112] En algunas modalidades, la totalidad del genoma o al menos 85% del genoma se analiza. En algunas modalidades, el medio leíble por computadora proporciona datos del porciento de ARN o ADN de cáncer en plasma o suero al usuario final. En algunas modalidades, las variantes en el número de copias identificadas son fracciónales (es decir, niveles de números no enteros) debido a la heterogeneidad en la muestra. En algunas modalidades, se realiza el enriquecimiento de regiones seleccionadas. En algunas modalidades, la información de la variación en el número de copias se extrae de manera simultánea en base a los métodos descritos en la presente. En algunas modalidades, los métodos comprenden un paso inicial de restricción de polinucleótidos para limitar el número de copias iniciales de inicio o la diversidad de polinucleótidos en la muestra. [000113] La descripción también proporciona un método para detectar una mutación rara en una muestra libre de células o sustancialmente libre de células obtenida de un sujeto, que comprende: a) secuenciar polinucleótidos extracelulares de una muestra corporal de un sujeto, en donde cada uno de los polinucleótidos extracelulares genera una pluralidad de lecturas de secuenciación; b) filtrar las lecturas que fallan en cumplir con un umbral establecido de calidad; c) correlacionar las lecturas de secuencia derivadas de la secuenciación sobre una secuencia de referencia; d) identificar un subconjunto de lecturas correlacionadas de secuencia que se alinean con una variante de la secuencia de referencia en cada posición base correlacionable; e) para cada posición base correlacionable, calcular una relación de (a) un número de lecturas correlacionadas de secuencia que incluye una variante en comparación a la secuencia de referencia, a (b) un número de lecturas totales de secuencias para cada posición base correlacionable; f) normalizar las relaciones o frecuencia de varianza para cada posición base correlacionable y determinar las variantes raras potenciales u otras alteraciones genéticas; y g) comparar el número resultante para cada una de las regiones con variantes o mutaciones raras potenciales a números similarmente derivados de una muestra de referencia. [000114] La descripción también proporciona un método que comprende: a) proporcionar al menos un conjunto de polinucleótidos de origen, marcados, y para cada conjunto de polinucleótidos de origen, marcados; b) amplificar los polinucleótidos de origen, marcados en el conjunto para producir un conjunto correspondiente de polinucleótidos de progenie, amplificados; c) secuenciar un subconjunto (incluyendo un subconjunto apropiado) del conjunto de polinucleótidos de progenie, amplificados, para producir un conjunto de lecturas de secuenciación; y d) colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias de consenso, cada secuencia de consenso que corresponde a un polinucleótido único entre el conjunto de polinucleótidos de origen, marcados. [000115] En algunas modalidades, cada polinucleótido en un conjunto se puede correlacionar a una secuencia de referencia. En algunas modalidades, los métodos comprenden proporcionar una pluralidad de conjuntos de polinucleótidos de origen, marcados, en donde cada conjunto se puede correlacionar a una diferente posición correlacionable en la secuencia de referencia. En algunas modalidades, el método comprende además: e) analizar el conjunto de secuencias de consenso para cada conjunto de moléculas de origen, marcadas de manera separada o en combinación. En algunas modalidades, el método comprende además convertir el material genético inicial de inicio en los polinucleótidos de origen, marcados. En algunas modalidades, el material genético inicial de inicio comprende no más de 100 ng de polinucleótidos. En algunas modalidades, el método comprende restringir el material genético inicial de inicio antes de la conversión. En algunas modalidades, el método comprende convertir el material genético inicial de inicio en polinucleótidos de origen, marcados con una eficiencia de conversión de al menos 10%, al menos 20%, al menos 30%, al menos 40%, al menos 50%, al menos 60%, al menos 80% o al menos 90%. En algunas modalidades, la conversión comprende cualquiera de ligación de extremos romos, ligación de extremos pegajosos, sondas de inversión molecular, PCR, PCR a base de ligación, ligación de hebra individual y circularización de hebra individual. En algunas modalidades, el material genetico inicial de inicio es ácido nucleico libre de células. En algunas modalidades, una pluralidad de los conjuntos correlaciona a diferentes posiciones correlacionables en una secuencia de referencia del mismo genoma. [000116] En algunas modalidades, cada polinucleótido de origen, marcado en el conjunto, está marcado de manera única. En algunas modalidades, cada conjunto de polinucleótidos de origen se puede correlacionar a una posición en una secuencia de referencia, y los polinucleótidos en cada conjunto no están marcados de manera única. En algunas modalidades, la generación de secuencias de consenso se basa en la información de la marca y/o al menos uno de (i) información de secuencia en la región de comienzo (inicio) de la lectura de secuencia, (ii) las regiones finales (finales) de la lectura de secuencia y (iii) la longitud de la lectura de secuencia. [000117] En algunas modalidades, el método comprende secuenciar un subconjunto del conjunto de polinucleótidos de progenie, amplificados suficiente para producir lecturas de secuencia para al menos una progenie de cada uno de al menos 20%, al menos 30%, al menos 40%, al menos 50%, al menos 60%, al menos 70%, al menos 80%, al menos 90% al menos 95%, al menos 98%, al menos 99%, al menos 99.9% o al menos 99.99%) de polinucleótidos únicos en el conjunto de polinucleótidos de origen, marcados. En algunas modalidades, la por lo menos una progenie es una pluralidad de progenies, por ejemplo al menos 2, al menos 5 o al menos 10 progenies. En algunas modalidades, el número de lecturas de secuencia en el conjunto de lecturas de secuencia es mayor que el número de polinucleótidos de origen, marcados, únicos en el conjunto de polinucleótidos de origen, marcados. En algunas modalidades, el subconjunto del conjunto de polinucleótidos de progenie, amplificados, secuenciados, es de tamaño suficiente de modo que cualquier secuencia de nucleótidos representada en el conjunto de polinucleótidos de origen, marcados, a un porcentaje que es el mismo como el porcentaje de la proporción de error de secuenciación por base de la plataforma de secuenciación usada, tiene al menos 50%, al menos a 60%, al menos a 70%, al menos a 80%, al menos a 90% al menos a 95%, al menos a 98%, al menos a 99%, al menos a 99.9% o al menos a 99.99% de probabilidad de ser representada entre el conjunto de secuencias de consenso. [000118] En algunas modalidades, el método comprende enriquecer el conjunto de polinucleótidos de progenie, amplificados para los polinucleótidos que correlacionan a una o más posiciones correlacionables, seleccionadas, en una secuencia de referencia por: (i) amplificación selectiva de secuencias de material genético inicial de inicio convertido a polinucleótidos de origen, marcados; (ii) amplificación selectiva de polinucleótidos de origen, marcados; (iii) captura selectiva de secuencia de polinucleótidos de progenie, amplificados; o (iv) captura selectiva de secuencias de material genético inicial de inicio. [000119] En algunas modalidades, el análisis comprende normalizar una medida (por ejemplo, un número) tomada de un conjunto de secuencias de consenso contra una medida tomada de un conjunto de secuencias de consenso de una muestra de control. En algunas modalidades, el análisis comprende detectar mutaciones, mutaciones raras, indeles, variaciones en el número de copias, transversiones, transcolocaciones, inversión, supresiones, aneuploidia, aneuploidia parcial, poliploidia, inestabilidad cro osómica, alteraciones de la estructura cromosómica, fusiones génicas, fusiones cromosómicas, truncamientos génicos, amplificación génica, duplicaciones génicas, lesiones cromosómicas, lesiones de ADN, cambios anormales en las modificaciones químicas de ácidos nucleicos, cambios anormales en los patrones epigenéticos, cambios anormales en la infección por metilación de ácidos nucleicos y cáncer. [000120] En algunas modalidades, los polinucleótidos comprenden ADN, ARN, una combinación de los dos, o ADN más ADNc derivado de ARN. En algunas modalidades, un cierto subconjunto de polinucleótidos se selecciona para o se enriquece en base a, la longitud de polinucleótido en pares de base del conjunto inicial de polinucleótidos o de los polinucleótidos amplificados. En algunas modalidades, el análisis comprende además la detección y monitoreo de una anormalidad o enfermedad dentro de un individuo, tal como, infección y/o cáncer. En algunas modalidades, el método se realiza en combinación con perfilado de repertorio inmunitario. En algunas modalidades, los polinucleótidos se extraen de una muestra seleccionada del grupo que consiste de sangre, plasma, suero, orina, saliva, excreciones mucosas, esputo, heces y lágrimas. En algunas modalidades, el colapso comprende detectar y/o corregir errores, mellas o lesiones presentes en la hebra homosentido o anti-sentido de los polinucleótidos de origen, marcados o polinucleótidos de progenie, amplificados. [000121] La descripción también proporciona un método que comprende detectar la variación genética en material genético inicial de inicio, no marcado de manera única, con una sensibilidad de al menos 5%, al menos 1%, al menos 0.5%, al menos 0.1% o al menos 0.05%. [000122] En algunas modalidades, el material genético inicial de inicio se proporciona en una cantidad de menos de 100 ng de ácido nucleico, la variación genética es variación en el número de copias/heterocigosidad y la detección se realiza con resolución sub-cromosómica; por ejemplo, resolución de al menos 100 megabases, resolución de al menos 10 megabases, resolución de al menos 1 megabase, resolución de al menos 100 kilobases, resolución de al menos 10 kilobases o resolución de al menos 1 kilobase. En algunas modalidades, el método comprende proporcionar una pluralidad de conjuntos de polinucleótidos de origen, marcados, en donde cada conjunto se puede correlacionar a una diferente posición correlacionable en una secuencia de referencia. En algunas modalidades, la posición correlacionable en la secuencia de referencia es el locus de un marcador tumoral y el análisis comprende detectar el marcador tumoral en el conjunto de secuencias de consenso. [000123] En algunas modalidades, el marcador tumoral está presente en el conjunto de secuencias de consenso a una frecuencia menor que la proporción de error introducida en el paso de amplificación. En algunas modalidades, el por lo menos un conjunto es una pluralidad de conjuntos, y la posición correlacionable de la secuencia de referencia comprende una pluralidad de posiciones correlacionables en la secuencia de referencia, cada una de las posiciones correlacionables es el sitio de un marcador tumoral. En algunas modalidades, el análisis comprende detectar la variación en el número de copias de secuencias de consenso entre al menos dos conjuntos de polinucleótidos de origen. En algunas modalidades, el análisis comprende detectar la presencia de variaciones de secuencia en comparación con las secuencias de referencia. [000124] En algunas modalidades, el análisis comprende detectar la presencia de variaciones de secuencia en comparación con las secuencias de referencia y detectar la variación en el número de copias de secuencias de consenso entre al menos dos conjuntos de polinucleótidos de origen. En algunas modalidades, el colapso comprende: (i) agrupar lecturas de secuencia, secuenciadas de polinucleótidos de progenie, amplificados, en familias, cada familia amplificada del mismo polinucleótido de origen, marcado; y (ii) determinar una secuencia de consenso en base a las lecturas de secuencias en una familia. [000125] La descripción también proporciona un sistema que comprende un medio leíble por computadora para realizar los siguientes pasos: a) aceptar al menos un conjunto de polinucleótidos de origen, marcados, y para cada conjunto de polinucleótidos de origen, marcados; b) amplificar los polinucleótidos de origen, marcados en el conjunto para producir un conjunto correspondiente de polinucleótidos de progenie, amplificados; c) secuenciar un subconjunto (incluyendo un subconjunto apropiado) del conjunto de polinucleótidos de progenie, amplificados, para producir un conjunto de lecturas de secuenciación; d) colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias de consenso, cada secuencia de consenso que corresponde a un polinucleótido único entre el conjunto de polinucleótidos de origen, marcados y, opcionalmente, e) analizar el conjunto de secuencias de consenso para cada conjunto de moléculas de origen, marcadas. [000126] La descripción también proporciona un método que comprende detectar la presencia o ausencia de la alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación del ácido nucleico libre de células, en donde se secuencia al menos 10% del genoma del individuo. [000127] La descripción también proporciona un método que comprende detectar la presencia o ausencia de la alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación del ácido nucleico libre de células, en donde se secuencia al menos 20% del genoma del individuo. [000128] La descripción también proporciona un método que comprende detectar la presencia o ausencia de la alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación del ácido nucleico libre de células, en donde al menos 30% del genoma del individuo. [000129] La descripción también proporciona un método que comprende detectar la presencia o ausencia de la alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación del ácido nucleico libre de células, en donde al menos 40% del genoma del individuo. [000130] La descripción también proporciona un método que comprende detectar la presencia o ausencia de la alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación del ácido nucleico libre de células, en donde al menos 50% del genoma del individuo. [000131] La descripción también proporciona un método que comprende detectar la presencia o ausencia de la alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación del ácido nucleico libre de células, en donde al menos 60% del genoma del individuo. [000132] La descripción también proporciona un método que comprende detectar la presencia o ausencia de la alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación del ácido nucleico libre de células, en donde al menos 70% del genoma del individuo. [000133] La descripción también proporciona un método que comprende detectar la presencia o ausencia de la alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación del ácido nucleico libre de células, en donde al menos 80% del genoma del individuo. [000134] La descripción también proporciona un método que comprende detectar la presencia o ausencia de la alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación del ácido nucleico libre de células, en donde al menos 90% del genoma del individuo. [000135] La descripción también proporciona un método que comprende detectar la presencia o ausencia de la alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación del ácido nucleico libre de células, en donde al menos 10% del genoma del individuo. [000136] La descripción también proporciona un método que comprende detectar la presencia o ausencia de la alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación del ácido nucleico libre de células, en donde al menos 20% del genoma del individuo. [000137] La descripción también proporciona un método que comprende detectar la presencia o ausencia de la alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación del ácido nucleico libre de células, en donde al menos 30% del genoma del individuo. [000138] La descripción también proporciona un método que comprende detectar la presencia o ausencia de la alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación del ácido nucleico libre de células, en donde al menos 40% del genoma del individuo. [000139] La descripción también proporciona un método que comprende detectar la presencia o ausencia de la alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación del ácido nucleico libre de células, en donde al menos 50% del genoma del individuo. [000140] La descripción también proporciona un método que comprende detectar la presencia o ausencia de la alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación del ácido nucleico libre de células, en donde al menos 60% del genoma del individuo. [000141] La descripción también proporciona un método que comprende detectar la presencia o ausencia de la alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación del ácido nucleico libre de células, en donde al menos 70% del genoma del individuo. [000142] La descripción también proporciona un método que comprende detectar la presencia o ausencia de la alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación del ácido nucleico libre de células, en donde al menos 80% del genoma del individuo. [000143] La descripción también proporciona un método que comprende detectar la presencia o ausencia de la alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación del ácido nucleico libre de células, en donde al menos 90% del genoma del individuo. [000144] En algunas modalidades, la alteración genética es la variación en el número de copias o una o más mutaciones raras. En algunas modalidades, la variación genética comprende una o más variantes causales y uno o más polimorfismos. En algunas modalidades, la alteración genética y/o cantidad de variación genética en el individuo se puede comparar a una alteración genética y/o cantidad de variación genética en uno o más individuos con una enfermedad conocida. En algunas modalidades, la alteración genética y/o cantidad de variación genética en el individuo se puede comparar a una alteración genética y/o cantidad de variación genética en uno o más individuos, sin una enfermedad. En algunas modalidades, el ácido nucleico libre de células es ADN. En algunas modalidades, el ácido nucleico libre de células es ARN. En algunas modalidades, el ácido nucleico libre de células es ADN y ARN. En algunas modalidades, la enfermedad es cáncer o pre-cáncer. En algunas modalidades, el método que comprende además diagnosis o tratamiento de una enfermedad. [000145] La descripción también proporciona un método que comprende: a) proporcionar al menos un conjunto de polinucleótidos de origen, marcados, y para cada conjunto de polinucleótidos de origen, marcados; b) amplificar los polinucleótidos de origen, marcados en el conjunto para producir un conjunto correspondiente de polinucleótidos de progenie, amplificados; c) secuenciar un subconjunto (incluyendo un subconjunto apropiado) del conjunto de polinucleótidos de progenie, amplificados, para producir un conjunto de lecturas de secuenciación,- d) colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias de consenso, cada secuencia de consenso que corresponde a un polinucleótido único entre el conjunto de polinucleótidos de origen, marcados; y e) filtrar entre las secuencias de consenso aquellas que fallan en cumplir con un umbral de calidad. [000146] En algunas modalidades, el umbral de calidad considera varias lecturas de secuencia de los polinucleótidos de progenie, amplificados, colapsados en una secuencia de consenso. En algunas modalidades, el umbral de calidad considera varias lecturas de secuencia de los polinucleótidos de progenie, amplificados, colapsados en una secuencia de consenso. [000147] La descripción también proporciona un sistema que comprende un medio leíble por computadora para realizar los métodos descritos en la presente. [000148] La descripción también proporciona un método que comprende: a) proporcionar al menos un conjunto de polinucleótidos de origen, marcados, en donde cada conjunto correlaciona a una diferente posición correlacionable en una secuencia de referencia en uno o más genomas, y, para cada conjunto de polinucleótidos de origen, marcados; i) amplificar los primeros polinucleótidos para producir un conjunto de polinucleótidos amplificados; ii) secuenciar un subconjunto del conjunto de polinucleótidos amplificados, para producir un conjunto de lecturas de secuenciación; y iii) colapsar las lecturas de secuencia al: (1) agrupar lecturas de secuencia secuenciadas de polinucleótidos de progenie, amplificados, en familias, cada familia amplificada del mismo polinucleótido de origen, marcado. [000149] En algunas modalidades, el colapso comprende además determinar una medida cuantitativa de lecturas de secuencia en cada familia. En algunas modalidades, el método comprende además: a) determinar una medida cuantitativa de familias únicas; y b) en base a (1) la medida cuantitativa de familias únicas y (2) la medida cuantitativa de lecturas de secuencia en cada grupo, infiriendo una medida de polinucleótidos de origen, marcados, únicos en el conjunto. En algunas modalidades, la inferencia se realiza usando modelos estadísticos o probabilísticos. En algunas modalidades, el por lo menos un conjunto es una pluralidad de conjuntos. En algunas modalidades, el método comprende además corregir para la desviación representacional o de amplificación entre los dos conjuntos. En algunas modalidades, el método comprende además usar un control o conjunto de muestras de control para corregir las desviaciones representacionales o de amplificación entre los dos conjuntos. En algunas modalidades, el método comprende además determinar la variación en el número de copias entre los conjuntos. [000150] En algunas modalidades, el método comprende además: d) determinar una medida cuantitativa de formas polimórficas entre las familias; y e) en base a la medida cuantitativa determinada de las formas polimórficas, inferir una medida cuantitativa de formas polimórficas en el número de polinucleótidos de origen, marcados, únicos, inferidos. En algunas modalidades, las formas polimórficas incluyen pero no se limitan a: sustituciones , inserciones, supresiones, inversiones, cambios de microsatelite , transversiones, translocaciones, fusiones, metilación, hipermetilación, hirdroximetilación, acetilación, variantes epigenéticas, variantes asociadas a regulación o sitios de unión a proteína. [000151] En algunas modalidades, los conjuntos se derivan de una muestra de control, y el método comprende además: d) inferir la variación en el número de copias para la pluralidad de conjuntos en base a una comparación del número inferido de polinucleótidos de origen, marcados en cada conjunto que correlaciona a cada una de una pluralidad de posiciones correlacionables en una secuencia de referencia. En algunas modalidades, se infiere adicionalmente el número original de polinucleótidos en cada conjunto. En algunas modalidades, al menos un subconjunto de los polinucleótidos de origen, marcados en cada conjunto, no están marcados de manera única. [000152] La descripción también proporciona un método para determinar la variación en el número de copias en una muestra que incluye polinucleótidos, el método que comprende: a) proporcionar al menos dos conjuntos de primeros polinucleótidos, en donde cada conjunto correlaciona a una diferente posición correlacionable en una secuencia de referencia en un genoma, y, para cada conjunto de primeros polinucleótidos; (i) amplificar los polinucleótidos para producir un conjunto de polinucleótidos amplificados; (ii) secuenciar un subconjunto del conjunto de polinucleótidos amplificados, para producir un conjunto de lecturas de secuenciación; (iii) agrupar lecturas de secuencia secuenciadas de polinucleótidos amplificados en familias, cada familia amplificada del mismo primer polinucleótido en el conjunto; (iv) inferir una medida cuantitativa de familias en el conjunto; y b) determinar la variación en el número de copias al comparar la medida cuantitativa de familias en cada conjunto. [000153] La descripción también proporciona un método para inferir la frecuencia de lecturas automáticas de secuencia en una muestra de polinucleótidos, que comprende: a) proporcionar al menos un conjunto de primeros polinucleótidos, en donde cada conjunto correlaciona a una diferente posición correlacionable en una secuencia de referencia en uno o más genomas, y, para cada conjunto de primeros polinucleótidos; (i) amplificar los primeros polinucleótidos para producir un conjunto de polinucleótidos amplificados; (ii) secuenciar un subconjunto del conjunto de polinucleótidos amplificados, para producir un conjunto de lecturas de secuenciación; (iii) agrupar las lecturas de secuencia en familias, cada familia que comprende lecturas de secuencia de polinucleótidos amplificados, amplificados del mismo primer polinucleótido; b) inferir, para cada conjunto de primeros polinucleótidos, una frecuencia de lecturas automáticas para una o más bases en el conjunto de primeros polinucleótidos, en donde la inferencia comprende: (i) asignar, para cada familia, puntuación de confianza para cada uno de una pluralidad de lecturas automáticas, la puntuación de confianza que toma en consideración una frecuencia de la lectura automática entre miembros de la familia; y (ii) estimar una frecuencia de la una o más lecturas automáticas tomando en consideración las puntuaciones de confianza de la una o más lecturas automáticas asignadas a cada familia. [000154] La descripción también proporciona un método para comunicar la información de secuencia a cerca de una molécula de polinucleótido individual, que comprende: a) proporcionar al menos una molécula de polinucleótido individual; b) codificar la información de secuencia en la por lo menos una molécula de polinucleótido individual para producir una señal; c) hacer pasar al menos parte de la señal a través de un canal para producir una señal recibida que comprende la información de secuencia de nucleótidos acerca de la por lo menos una molécula de polinucleótido individual, en donde la señal recibida comprende ruido y/o distorsión; d) descodificar la señal recibida para producir un mensaje que comprende información de secuencia a cerca de la por lo menos una molécula de polinucleótido individual, en donde la descodificación reduce el ruido y/o distorsión a cerca de cada polinucleótido individual en el mensaje; y e) proporcionar el mensaje que comprende información de secuencia a cerca de la por lo menos una molécula de polinucleótido individual, a un receptor. [000155] En algunas modalidades, el ruido comprende lecturas automáticas incorrectas de nucleótidos. En algunas modalidades, la distorsión comprende la amplificación desigual de la molécula de polinucleótido individual en comparación a otras moléculas de polinucleótidos individuales. En algunas modalidades, la distorsión resulta de la desviación de la secuenciación o amplificación. En algunas modalidades, la por lo menos una molécula de polinucleótido individual es una pluralidad de moléculas de polinucleótido individuales, y la descodificación produce mensaje a cerca de cada molécula en la pluralidad. En algunas modalidades, la codificación comprende amplificar la por lo menos una molécula de polinucleótido individual, que se ha marcado de manera opcional, en donde la señal comprende una colección de moléculas amplificadas. En algunas modalidades, el canal comprende un secuenciador de polinucleótido y la señal recibida comprende lecturas de secuencia de una pluralidad de polinucleótidos amplificados de la por lo menos una molécula de polinucleótido individual. En algunas modalidades, la descodificación comprende agrupar las lecturas de secuencia de moléculas amplificadas, amplificadas de cada una de la por lo menos una molécula de polinucleótido individual. En algunas modalidades, la descodificación consiste de un método probabilístico o estadístico para filtrar la señal de secuencia, generada. [000156] En algunas modalidades, los polinucleótidos se derivan de ARN o ADN genómico tumoral. En algunas modalidades, los polinucleótidos se derivan de polinucleótidos libres de células, polinucleótidos exosomales, polinucleótidos bacterianos o polinucleótidos virales. En algunas modalidades de cualquiera de los métodos de la presente, el método comprende además la detección y/o asociación de rutas moleculares afectadas . En algunas modalidades de cualquiera de los métodos de la presente, el método que comprende además el monitoreo en serie de la salud o estado de enfermedad de un individuo. En algunas modalidades la filogenia de un genoma asociado con una enfermedad dentro de un individuo, se infiere. En algunas modalidades, cualquiera de los métodos descritos en la presente comprende además la diagnosis, monitoreo o tratamiento de una enfermedad. En algunas modalidades, el régimen de tratamiento se selecciona o modifica en base a las formas polimórficas detectadas o CNV o rutas asociadas. En algunas modalidades, el tratamiento comprende una terapia de combinación. En algunas modalidades, la diagnosis comprende además localizar la enfermedad usando una téenica radiográfica, tal como una CT-Exploración, PET-CT, MRI, Ultrasonido, Ultrasonido con microburbujas, etc. [000157] La descripción también proporciona un medio leíble por computadora que comprende el código ejecutable en máquina no transitorio que, en la ejecución por un procesador de computadora, implementa un método, el método que comprende: seleccionar regiones predefinidas en un genoma; tener acceso a lecturas de secuencia y enumerar el número de lecturas de secuencia en las regiones predefinidas; normalizar el número de lecturas de secuencia a través de las regiones predefinidas; y determinar el porciento de la variación en el número de copias en las regiones predefinidas. [000158] La descripción también proporciona un medio leíble por computadora que comprende código ejecutable por máquina, no transitorio, que, en la ejecución por un procesador de computadora, implementa un método que comprende: tener acceso a un archivo de datos que comprende una pluralidad de lecturas de secuenciación; filtrar las lecturas que fallan en cumplir con un umbral establecido; correlacionar lecturas de secuencia derivadas de la secuenciación en una secuencia de referencia; identificar un subconjunto de lecturas de secuencia correlacionadas que se alinean con una variante de la secuencia de referencia en cada posición base correlacionable; para cada posición base correlacionable, calcular una relación de (a) un número de lecturas de secuencia correlacionada que incluye una variante en comparación a la secuencia de referencia, a (b) un número de lecturas de secuencia totales para cada posición base correlacionable; normalizar las relaciones o frecuencia de varianza para cada posición base correlacionable y determinar las variantes raras potenciales u otras alteraciones genéticas; y comparar el número resultante para cada una de las regiones con las variantes o mutaciones raras potenciales a números similarmente derivados de una muestra de referencia. [000159] La descripción también proporciona un medio leíble por computadora que comprende código ejecutable por máquina, no transitorio, que en la ejecución por un procesador de computadora, implementa un método, el método que comprende: a) tener acceso a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuenciación se derivan de un conjunto de polinucleótidos de progenie, amplificados de al menos un conjunto de polinucleótidos de origen, marcados; y b) colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias de consenso, cada secuencia de consenso que corresponde a un polinucleótido único entre el conjunto de polinucleótidos de origen, marcados. [000160] La descripción también proporciona un medio leíble por computadora que comprende código ejecutable en máquina no transitorio, que, en la ejecución por un procesador de computadora, implementa un método, el método que comprende: a) tener acceso a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados de al menos un conjunto de polinucleótidos de origen, marcados; b) colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias de consenso, cada secuencia de consenso que corresponde a un polinucleótido único entre el conjunto de polinucleótidos de origen, marcados; y c) filtrar de entre las secuencias de consenso aquellas que fallan en cumplir con un umbral de calidad. [000161] Un medio leíble por computadora que comprende código ejecutable en máquina no transitorio que, en la ejecución por un procesador de computadora, implementa un método, el método que comprende: a) tener acceso a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados de al menos un conjunto de polinucleótidos de origen, marcados; y i) colapsar las lecturas de secuencia al: (1) agrupar lecturas de secuencia secuenciadas de polinucleótidos de progenie, amplificados, en familias, cada familia amplificada del mismo polinucleótido de origen, marcado y, opcionalmente, (2) determinar una medida cuantitativa de lecturas de secuencia en cada familia. [000162] En algunas modalidades, el código ejecutable, en la ejecución por un procesador de computadora, realiza adicionalmente los pasos de: b) determinar una medida cuantitativa de familias únicas; y e) en base a (1) la medida cuantitativa de familias únicas y (2) la medida cuantitativa de lecturas de secuencia en cada grupo, inferir una medida de polinucleótidos de origen, marcados, únicos en el conjunto. [000163] En algunas modalidades, el código ejecutable, en la ejecución por un procesador de computadora, realiza adicionalmente los pasos de: d) determinar una medida cuantitativa de formas polimórficas entre las familias; y e) en base a la medida cuantitativa determinada de formas polimórficas, inferir una medida cuantitativa de formas polimórficas en el número de polinucleótidos de origen, marcados, únicos, inferidos. [000164] La descripción también proporciona un medio leíble por computadora que comprende código ejecutable en máquina no transitorio que, en la ejecución por un procesador de computadora, implementa un método, el método que comprende: a) tener acceso a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados de al menos un conjunto de polinucleótidos de origen, marcados, que agrupa lecturas de secuencia secuenciadas de polinucleótidos amplificados en familias, cada familia amplificada del primer mismo polinucleótido en el conjunto; b) inferir una medida cuantitativa de familias en el conjunto; y c) determinar la variación en el número de copias al comparar la medida cuantitativa de familias en cada conjunto. [000165] La descripción también proporciona un medio leíble por computadora que comprende código ejecutable en máquina no transitorio, que, en la ejecución por un procesador de computadora, implementa un método, el método que comprende: a) tener acceso a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados de al menos un conjunto de polinucleótidos de origen, marcados que agrupa las lecturas de secuencia en familias, cada familia que comprende lecturas de secuencia de polinucleótidos amplificados, amplificados del mismo primer polinucleótido; b) inferir, para cada conjunto de primeros polinucleótidos, una frecuencia de lecturas automáticas para una o más bases en el conjunto de primeros polinucleótidos, en donde la inferencia comprende: c) asignar, para cada familia, la puntuación de confianza para cada una de una pluralidad de lecturas automáticas, la puntuación de confianza que toma en consideración una frecuencia de la lectura automática entre miembros de la familia; y d) estimar una frecuencia de la una o más llamada tomando en consideración las puntuaciones de confianza de la una o más lecturas automáticas asignadas a cada familia. [000166] La descripción también proporciona un medio leíble por computadora que comprende código ejecutable en máquina no transitorio, que, en la ejecución por un procesador de computadora, implementa un método, el método que comprende: a) tener acceso a un archivo de datos que comprende una señal recibida que comprende información de secuencia codificada de al menos una molécula de polinucleótido individual en donde la señal recibida comprende ruido y/o distorsión; b) descodificar la señal recibida para producir un mensaje que comprende la información de secuencia a cerca de la por lo menos una molécula de polinucleótido individual, en donde la descodificación reduce el ruido y/o distorsión a cerca de cada polinucleótido individual en el mensaje; y c) describir el mensaje que comprende la información de secuencia a cerca de la por lo menos una molécula de polinucleótido individual a un archivo de computadora. [000167] La descripción también proporciona un medio leíble por computadora que comprende código ejecutable por máquina no transitorio, que, en la ejecución por un procesador de computadora, implementa un método, el método que comprende: a) tener acceso a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados de al menos un conjunto de polinucleótidos de origen, marcados; b) colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias de consenso, cada secuencia de consenso que corresponde a un polinucleótido único entre el conjunto de polinucleótidos de origen, marcados; y c) filtrar de entre las secuencias de consenso aquellas que fallan en cumplir con un umbral de calidad. [000168] La descripción también proporciona un medio leíble por computadora que comprende código ejecutable en máquina no transitorio, que, en la ejecución por un procesador de computadora, implementa un método, el método que comprende: a) tener acceso a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados de al menos un conjunto de polinucleótidos de origen, marcados; y b) colapsar las lecturas de secuencia al: (i) agrupar las lecturas de secuencia secuenciadas de polinucleótidos de progenie, amplificados, en familias, cada familia amplificada del mismo polinucleótido de origen, marcado; y (ii) opcionalmente, determinar una medida cuantitativa de lecturas de secuencia en cada familia. [000169] En algunas modalidades, el código ejecutable, en la ejecución por un procesador de computadora, realiza además los pasos de: d) determinar una medida cuantitativa de familias únicas; e) en base a (1) la medida cuantitativa de familias únicas y (2) la medida cuantitativa de lecturas de secuencia en cada grupo, inferir una medida de polinucleótidos de origen, marcados, únicos, en el conjunto. [000170] En algunas modalidades, el código ejecutable, en la ejecución por un procesador de computadora, realiza adicionalmente los pasos de: e) determinar una medida cuantitativa de formas polimórficas entre las familias; y f) en base a la medida cuantitativa determinada de formas polimórficas, inferir una medida cuantitativa de formas polimórficas en el número de polinucleótidos de origen, marcados, únicos, inferidos. [000171] En algunas modalidades, el código ejecutable, en la ejecución por un procesador de computadora, realiza adicionalmente los pasos de: e) inferir la variación en el número de copias para la pluralidad de conjuntos en base a una comparación del número inferido de polinucleótidos de origen, marcados en cada conjunto que correlaciona a cada una de una pluralidad de secuencias de referencia. [000172] La descripción también proporciona un medio leíble por computadora que comprende código ejecutable en máquina no transitorio, que, en la ejecución por un procesador de computadora, implementa un método, el método que comprende: a) tener acceso a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados de al menos un conjunto de polinucleótidos de origen, marcados; b) agrupar las lecturas de secuencia secuenciadas de polinucleótidos amplificados en familias, cada familia amplificada del mismo primer polinucleótido en el conjunto; c) inferir una medida cuantitativa de familias en el conjunto; d) determinar la variación en el número de copias al comparar la medida cuantitativas de familias en cada conjunto. [000173] La descripción también proporciona un medio leíble por computadora que comprende código ejecutable por máquina no transitorio, que, en la ejecución por un procesador de computadora, implementa un método, el método que comprende: tener acceso a un archivo de datos que comprende una pluralidad de lecturas de secuencia en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados de al menos un conjunto de polinucleótidos de origen, marcados que agrupan las lecturas de secuencia en familias, cada familia que comprende lecturas de secuencia de polinucleótidos amplificados, amplificados del mismo primer polinucleótido; e inferir, para cada conjunto de primeros polinucleótidos, una frecuencia de lecturas automáticas para una o más bases en el conjunto de primeros polinucleótidos, en donde la inferencia comprende: (i) asignar, para cada familia, la puntuación de confianza para cada una de una pluralidad de lectura automáticas, la puntuación de confianza que toma en consideración una frecuencia de la lectura automática entre miembros de la familia; y (ii) estimar una frecuencia de la una o más lecturas automáticas tomando en consideración las puntuaciones de confianza de las una o más lecturas automáticas asignadas a cada familia. [000174] La descripción también proporciona una composición que comprende entre 100 y 100,000 equivalentes haploides de genoma humano de los polinucleótidos de cfDNA en donde los polinucleótidos se marcan con entre 2 y 1,000,000 identificadores únicos. [000175] En algunas modalidades, la composición comprende entre 1000 y 50,000 equivalentes haploides de genoma humano de polinucleótidos de cfDNA, en donde los polinucleótidos se marcan con entre 2 y 1,000 identificadores únicos. En algunas modalidades, los identificadores únicos comprenden códigos de barra de nucleótidos. La descripción también proporciona un método que comprende: a) proporcionar una muestra que comprende entre 100 y 100,000 equivalentes haploides de genoma humano de polinucleótidos de cfDNA; y b) marcar los polinucleótidos con entre 2 y 1,000,000 identificadores únicos. [000176] La descripción también proporciona un método que comprende: a) proporcionar una muestra que comprende una pluralidad de equivalentes haploides de genoma humano de polinucleótidos fragmentados; b) determinar z, en donde z es una medida de la tendencia central (por ejemplo, media, mediana o modo) del número esperado de polinucleótidos duplicados iniciando en cualquier posición en el genoma, en donde los polinucleótidos duplicados tienen las mismas posiciones de inicio y final; y c) marcar los polinucleótidos en la muestra con n identificadores únicos, en donde n está entre 2 y 100,000*z, 2 y 10,000*z, 2 y l,000*z o 2 y 100*z.
La descripción también proporciona un método que comprende: a) proporcionar al menos un conjunto de polinucleótidos de origen, marcados, y para cada conjunto de polinucleótidos de origen, marcados; b) producir una pluralidad de lecturas de secuencia para cada polinucleótido de origen marcado en el conjunto para producir un conjunto de lecturas de secuenciación; y c) colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias de consenso, cada secuencia de consenso que corresponde a un polinucleótido único entre el conjunto de polinucleótidos de origen, marcados. [000177] La descripción también proporciona un sistema que comprende un medio leíble por computadora que comprende código ejecutable por máquina como se describe en la presente. La descripción también proporciona un sistema que comprende un medio leíble por computadora que comprende código ejecutable por máquina que, en la ejecución por un procesador de computadora, implementa un método como se describe en la presente. [000178] Los aspectos y ventajas adicionales de la presente descripción llegarán a ser fácilmente evidentes para aquellos expertos en la téenica a partir de la siguiente descripción detallada, en donde solo se muestran y describen modalidades ilustrativas de la presente descripción. Como se apreciará, la presente descripción es capaz de otras y diferentes modalidades, y sus varios detalles son capaces de modificaciones en varios aspectos obvios, todo sin apartarse de la descripción. Por consiguiente, las figuras y la descripción se van a considerar como de naturaleza ilustrativa y no como restrictiva.
Incorporación por Referencia [000179] Todas las publicaciones, patentes, y solicitudes de patente mencionadas en la especificación se incorporan en la presente como referencia al mismo grado como si cada publicación individual, patente individual o solicitud de patente individual se indicara de manera específica e individual para que se incorpore como referencia.
Breve Descripción de las Figuras [000180] Las nuevas características de un sistema y método de esta descripción se exponen con particularidad en las reivindicaciones anexas. Se obtendrá un mejor entendimiento de las características y ventajas de esta descripción por referencia a la siguiente descripción detallada que expone modalidades ilustrativas, en las cuales se utilizan los principios de un sistema y métodos de esta descripción y las figuras anexas de las cuales: [000181] La Figura 1 es una representación de un diagrama de flujo de un método de detección de la variación en el número de copias usando una muestra individual. [000182] La Figura 2 es una representación en diagrama de flujo de un método de detección de la variación en el número de copias usando muestras apareadas. [000183] La Figura 3 es una representación en diagrama de flujo de un método de detección de mutaciones raras (por ejemplo, variaciones de nucleótidos individuales). [000184] La Figura 4A es un reporte gráfico de la detección de la variación en el número de copias, generado de un sujeto no canceroso, normal. [000185] La figura 4B es un reporte gráfico de la detección de la variación en el número de copias generado de un sujeto con cáncer de próstata. [000186] La figura 4C es una representación esquemática del acceso habilitado por Internet de los reportes generados del análisis de la variación en el número de copias de un sujeto con cáncer de próstata. [000187] La figura 5A es un reporte gráfico de la detección de la variación de número de copias generado de un sujeto con remisión de cáncer de próstata. [000188] La figura 5B es un reporte gráfico de la detección de la variación de número de copias generado de un sujeto con recurrencia de cáncer de próstata. [000189] La figura 6A es un reporte gráfico de detección (por ejemplo, para variantes individuales de nucleótidos) generado de varios experimentos de mezclado usando muestras de ADN que contienen copias tanto tipo silvestre como mutantes de MET y TP53. [000190] La figura 6B es una representación gráfica logarítmica de los resultados de detección (por ejemplo, variante de nucleótido individual). Se muestran las mediciones del por ciento de cáncer observado vs para varios experimentos de mezclado usando muestras de ADN que contienen copias tanto tipo silvestre como mutantes de MET, HRAS y TP53. [000191] La figura 7A es un reporte gráfico del por ciento de dos (por ejemplo, variantes de nucleótidos individuales) en dos genes, PIK3CA y TP53, en un sujeto con cáncer de próstata en comparación a una referencia (control). [000192] La figura 7B es una representación esquemática del acceso habilitado por Internet de los reportes generados del análisis (por ejemplo, variante de nucleótido individual) de un sujeto con cáncer de próstata. [000193] La figura 8 es una representación en diagrama de flujo de un método para analizar material genético. [000194] La figura 9 es una representación de diagrama de flujo de un método para descodificar información en un conjunto de lecturas de secuencia para producir, con ruido y/o distorsión, reducidos, una representación de la información en un conjunto de polinucleótidos de origen, marcados. [000195] La figura 10 es una representación en diagrama de flujo de un método para reducir la distorsión en la determinación de CNV de un conjunto de lecturas de secuencia. [000196] La figura 11 es una representación en diagrama de flujo de un método para estimar la frecuencia de una base o secuencia de bases en un sitio en una población de polinucleótidos de origen, marcados de un conjunto de lecturas de secuencia. [000197] La figura 12 muestra un método para comunicar información de secuencia. [000198] La figura 13A-13B muestra las frecuencias detectadas de alelos menores a través del panel completo de 70kb en titulación de cfDNA de LNCaP al 0.3% usando flujos de trabajo de secuenciación digital y secuenciacion normal. La secuenciación "análoga" normal (figura 13A) marca todas las variantes raras positivas-verdaderas en ruido tremendo debido a errores de secuenciación de PCR a pesar de la filtración Q30. La secuenciación digital (figura 13B) elimina todo el ruido de secuenciación y PCR, revelando mutaciones verdaderas sin positivos falsos: círculos verdes son puntos de SNP en cfDNA normal y círculos rojos son mutaciones LNCaP detectadas. [000199] La figura 14 muestra la titulación de cfDNA de LNCap. [000200] La figura 15 muestra un sistema de computadora que se programa o se configura de otro modo para implementar varios métodos de la presente descripción.
Descripción Detallada de la Invención I. Visión General [000201] La presente descripción proporciona un sistema y método para la detección de mutaciones raras (por ejemplo, variaciones de nucleótidos individuales o múltiples) y variaciones en el número de copias en polinucleótidos libres de células. En general, los sistemas y métodos comprenden la preparación de muestras, o la extracción y aislamiento de secuencias de polinucleótido libres de células de un fluido corporal; la secuenciación subsiguiente de los polinucleótidos libres de células por téenicas conocidas; y la aplicación de herramientas bioinformáticas para detectar variaciones raras y variaciones en el número de copias en comparación a una referencia. Los sistemas y métodos también pueden contener una base de datos o colección de diferentes mutaciones raras o perfiles de variación en el número de copias de diferentes enfermedades, que se van a usar como referencias adicionales en la ayuda de la detección de mutaciones raras (por ejemplo, perfilado de la variación de nucleótidos individuales), perfilado de la variación en el número de copias o perfilado genético general de una enfermedad. [000202] Los sistemas y métodos pueden ser particularmente útiles en el análisis de los ADN libres de células. En algunos casos, se extraen ADN libre de células y se aíslan de un fluido corporal fácilmente accesible tal como sangre. Por ejemplo, se puede extraer ADN libre de células usando una variedad de métodos conocidos en la técnica, que incluyen pero no se limitan a precipitación con isopropanol y/o purificación a base de sílice. El ADN libre de células se puede extraer de cualquier número de sujetos, tal como sujetos sin cáncer, sujetos en riesgo de cáncer, o sujetos que se conocen que tienen cáncer (por ejemplo, a través de otros medios). [000203] Después del paso de aislamiento/extracción, se puede realizar cualquier número de diferentes operaciones de secuenciación en la muestra de polinucleótidos libre de células. Las muestras se pueden procesar antes de la secuenciación con uno o más reactivos (por ejemplo, enzimas, identificadores únicos (por ejemplo, códigos de barras), sondas, etcétera). En algunos casos, si la muestra se procesa con un identificador único, tal como un código de barras, las muestras o fragmentos de muestras se pueden marcar de manera individual o en subgrupos con el identificador único. La muestra marcada entonces se puede usar en una aplicación corriente abajo, tal como una reacción de secuenciación por lo cual las moléculas individuales se pueden seguir a las moléculas de origen. [000204] Después de que se recolectan los datos de secuenciación de las secuencias de polinucleótido libres de células, se pueden aplicar uno o más procesos bioinformáticos a los datos de secuencia para detectar características o anormalidades genéticas tal como variación en el número de copias, mutaciones raras (por ejemplo, variaciones de nucleótidos individuales o múltiples) o cambios en los marcadores epigenéticos, incluyendo pero no limitado a perfiles de metilación. En algunos casos, en los cuales se desea el análisis de la variación del número que copias, los datos de secuencia pueden ser: 1) alineados con un genoma de referencia; 2), filtrados y correlacionados; 3) divididos en ventanas o depósitos de secuencia; 4) lecturas de cobertura montadas para cada ventana; 5) lecturas de cobertura entonces se pueden normalizar usando un algoritmo de modelado estocástico o estadístico; 6) y un archivo de salida se puede generar que refleje los estados discretos en el número de copias en varias posiciones en el genoma. En otros casos, en los cuales se desea el análisis de mutaciones raras, los datos de secuencia se pueden 1) alinear con un genoma de referencia; 2), filtrar y correlacionar; 3) frecuencia de bases variantes calculada en base a las lecturas de cobertura para esa base específica; 4) frecuencia de bases variantes normalizada usando un algoritmo de modelado estocástico, estadístico o probabilístico; 5) y se puede generar un archivo de salida que refleje los estados de mutaciones en varias posiciones en el genoma. [000205] Una variedad de diferentes reacciones y/o operaciones pueden presentarse dentro de los sistemas y métodos descritos en la presente, incluyendo, pero no limitado a: secuenciación de ácido nucleico, cuantificación de ácido nucleico, optimización de secuencia, detección de la expresión génica, cuantificación de la expresión génica, perfilado genómico, perfilado de cáncer, o análisis de marcadores expresados. Además, los sistemas y métodos tienen numerosas aplicaciones médicas. Por ejemplo, se puede usar para la identificación, detección, diagnosis, tratamiento, clasificación por etapas de, o predicción de riesgo de varias enfermedades o trastornos geneticos y no genéticos, incluyendo cáncer. Se pueden usar para valorar la respuesta en un sujeto a diferentes tratamientos de las enfermedades genéticas y no genéticas, o para proporcionar información con respecto a la prognosis y progreso de la enfermedad. [000206] La secuenciación de polinucleótidos se puede comparar con un problema en la teoría de comunicación. Un polinucleótido individual inicial o montaje de polinucleótidos se considera como un mensaje original. La marcación y/o amplificación se puede considerar como la codificación del mensaje original en una señal. La secuenciación se puede considerar como el canal de comunicación. La salida de un secuenciador, por ejemplo, lecturas de secuencia, se puede considerar como una señal recibida. El procesamiento bioinformático se puede considerar como un receptor que descodifica la señal recibida para producir un mensaje transmitido, por ejemplo, una secuencia o secuencias de nucleótidos. La señal recibida puede incluir artefactos, tal como ruido y distorsión. El ruido se puede considerar como adición aleatoria indeseada a una señal. La distorsión se puede considerar como una alteración en la amplitud de una señal o porción de una señal. [000207] Se puede introducir ruido a través de errores en el copiado y/o lectura de un polinucleótido. Por ejemplo, en un proceso de secuenciación primero se puede someter un polinucleótido individual a la amplificación. La amplificación puede introducir errores, de modo que un subconjunto de los polinucleótidos amplificados puede contener, en un sitio particular, una base que no es la misma como la base original en ese sitio. Además, en el proceso de lectura, una base en cualquier sitio particular se puede leer de manera incorrecta. Como consecuencia, la colección de lecturas de secuencia puede incluir un cierto porcentaje de lecturas automáticas de base en un sitio que no son las mismas como la base original. En las teenologías típicas de secuenciación esta proporción de error puede ser en los dígitos individuales, por ejemplo, 2%-3%. Cuando una colección de moléculas que se presume que todas tienen la misma secuencia, se secuencian, este ruido es suficientemente pequeño de modo que se puede identificar la base original con alta confiabilidad. [000208] Sin embargo, si una colección de polinucleótidos de origen incluye un subconjunto de polinucleótidos que tienen variantes de secuencia en un sitio particular, el ruido puede ser un problema significativo. Esto puede ser el caso, por ejemplo, cuando el ADN libre de células incluye no solo ADN de línea germinal, sino ADN de otra fuente, tal como ADN fetal o ADN de una célula de cáncer. En este caso, si la frecuencia de las moléculas con variantes individuales está en el mismo intervalo como la frecuencia de errores introducidos por el proceso de secuenciación, entonces las variantes de secuencia no se pueden distinguir del ruido. Esto puede interferir, por ejemplo, con la detección de las variantes de secuencia en una muestra. [000209] La distorsión se puede manifestar en el proceso de secuenciación como una diferencia en la fuerza de señal, por ejemplo, el número total de lecturas de secuencia, producidas por moléculas en una población de origen a la misma frecuencia. Se puede introducir distorsión, por ejemplo, a través de la desviación de la amplificación, desviación de GC, o desviación de secuenciación. Esto puede interferir con la detección de la variación en el número de copias en una muestra. La desviación de GC da por resultado la representación desigual de áreas ricas o pobres en el contenido de GC en la lectura de la secuencia. [000210] Esta invención proporciona métodos para reducir los artefactos de secuenciación, tal como ruido y/o distorsión, en un proceso de secuenciación de polinucleótidos. La agrupación de las lecturas de secuencia en familias derivadas de moléculas individuales originales puede reducir el ruido y/o distorsión de una molécula individual o de un montaje de moléculas. Con respecto a una molécula individual, la agrupación de lecturas en familia reduce la distorsión, al indicar por ejemplo que muchas lecturas de secuencia representan realmente una molécula individual en lugar de muchas moléculas diferentes. El colapso de las lecturas de secuencia en una secuencia de consenso es una manera para reducir el ruido en el mensaje recibido de una molécula. El uso de las funciones probabilísticas que convierten las frecuencias recibidas es otra manera. Con respecto a un montaje de moléculas, la agrupación de lectura en familias y la determinación de una medida cuantitativa de las familias reduce la distorsión, por ejemplo, en la cantidad de moléculas en cada uno de una pluralidad de diferentes sitios. Nuevamente, el colapso de las lecturas de secuencia de diferentes familias en las secuencias de consenso elimina errores introducidos por error de amplificación y/o secuenciación. Además, la determinación de las frecuencias de las lecturas automáticas de base en base a las probabilidades derivadas de la información de familias también reduce el ruido en el mensaje recibido de un montaje de moléculas. [000211] Se conocen métodos para reducir el ruido y/o distorsión de un proceso de secuenciación. Estos incluyen, por ejemplo, secuencias de filtración, por ejemplo, que requieren cumplir con un umbral de calidad, o reducir la desviación de GC. Estos métodos se realizan típicamente en la colección de lecturas de secuencia que son la salida de un secuenciador, y se puede realizar la lectura de secuencia por lectura de secuencia, sin considerar la estructura de la familia (sub-colecciones de secuencias derivadas de una molécula original individual de origen). Ciertos métodos de esta invención reducen el ruido y distorsión al reducir el ruido y/o distorsión dentro de familias de lecturas de secuencia, es decir, operando en lecturas de secuencia agrupadas en familias derivadas de una molécula de polinucleótido de origen individual. La reducción de los artefactos de señal a un nivel de familia puede producir significativamente menos ruido y distorsión en el mensaje final que se proporciona que la reducción de artefactos realizada a un nivel de lectura de secuencia por lectura de secuencia o en la salida del secuenciador como una totalidad. [000212] La presente descripción proporciona además métodos y sistemas para detectar con alta sensibilidad la variación genética en una muestra de material genético inicial. Los métodos comprenden usar una o ambas de las siguientes herramientas: primero, la conversión eficiente de polinucleótidos individuales en una muestra de material genético inicial en polinucleótidos de origen, marcados, listos de secuencia, para incrementar la probabilidad que los polinucleótidos individuales en una muestra de material genético inicial se representarán en una muestra lista de secuencia. Esto puede producir información de secuencia a cerca de más polinucleótidos de la muestra inicial. Segundo, la generación en alto rendimiento de secuencias de consenso para los polinucleótidos de origen, marcados por muestreo a alta proporción de polinucleótidos de progenie amplificados de los polinucleótidos de origen, marcados, y el colapso de las lecturas de secuencia generadas en las secuencias de consenso que representan secuencias de polinucleótidos marcados de origen. Esto puede reducir el ruido introducido por la desviación de amplificación y/o errores de secuenciación, y puede incrementar la sensibilidad de la detección. El colapso se realiza en una pluralidad de lecturas de secuencia, generadas ya sea de lecturas de moléculas amplificadas, o múltiples lecturas de una molécula individual. [000213] Los métodos de secuenciación comprenden típicamente la preparación de la muestra, la secuencia de polinucleótidos en la muestra preparada para producir lecturas de secuencia y manipulación bioinformática de las lecturas de secuencia para producir información genética cuantitativa y/o cualitativa acerca de la muestra. La preparación de la muestra comprende típicamente convertir polinucleótidos en una muestra en una forma compatible con la plataforma de secuenciación usad. Esta conversión puede comprender marcar polinucleótidos. En ciertas modalidades de esta invención, las marcas comprenden marcas de secuencias de polinucleótido. Las metodologías de conversión usadas en la secuenciación pueden no ser 100% eficientes. Por ejemplo, no es común convertir polinucleótidos en una muestra con una eficiencia de conversión de aproximadamente 1-5%, es decir, aproximadamente 1-5% de los polinucleótidos en una muestra se convierten en polinucleótidos marcados. Los polinucleótidos que no se convierten en moléculas marcadas no se representan en una biblioteca marcada para secuenciación. Por consiguiente, los polinucleótidos que tienen variantes genéticas representadas a baja frecuencia en el material genético inicial no se pueden representar en la biblioteca marcada, y por lo tanto no se pueden secuenciar ni detectar. Al incrementar la eficiencia de conversión, se incrementa la probabilidad que un polinucleótido raro en el material genético inicial se representará en la biblioteca marcada, y en consecuencia, se detectará por secuenciación. Además, en lugar de afrontar directamente la cuestión de baja eficiencia de conversión de la preparación de la biblioteca, la mayoría de los protocolos a la fecha leen más de 1 microgramo de ADN como material de entrada. Sin embargo, cuando el material de muestra de entrada se limita o se desea la detección de polinucleótidos con baja representación, la eficiencia de alta conversión puede secuenciar de manera eficiente la muestra y/o detectar de manera adecuada estos polinucleótidos. [000214] Esta descripción proporciona métodos para convertir polinucleótidos individuales en polinucleótidos marcados con una eficiencia de conversión de al menos 10%, al menos 20%, al menos 30%, al menos 40%, al menos 50%, al menos 60%, al menos 80% o al menos 90%. Los métodos comprenden, por ejemplo, usar cualquiera de ligación de extremos romos, ligación de extremos pegajosos, sondas de inversión molecular, PCR basada en ligación, PCR multiplex, ligación de hebras individuales y circularización de hebras individuales. Los métodos también pueden comprender limitar la cantidad de material genético inicial. Por ejemplo, la cantidad de material genético inicial puede ser menos de 1 ug, menos de 100 ng o menos de 10 ng. Estos métodos se describen en más detalle en la presente. [000215] La obtención de información cuantitativa y cualitativa exacta cerca de los polinucleótidos en una biblioteca marcada puede dar por resultado una caracterización más sensible del material genético inicial. Típicamente, los polinucleótidos en una biblioteca marcada se amplifican y las moléculas amplificadas resultantes se secuencian. Dependiendo del rendimiento de la plataforma de secuenciación usada, solo un subconjunto de las moléculas en la biblioteca amplificada produce lecturas de secuencia. De este modo, por ejemplo, el número de moléculas amplificadas, muestreadas para secuenciación pueden ser solo de aproximadamente 50% de los polinucleótidos únicos en la biblioteca marcada. Además, la amplificación se puede desviar en favor o en contra ciertas secuencias o ciertos miembros de la biblioteca marcada. Esto puede distorsionar la medición cuantitativa de secuencias en la biblioteca marcada. También, las plataformas de secuenciación pueden introducir errores en la secuenciación. Por ejemplo, las secuencias pueden tener una proporción de error por base de 0.5-1%. La desviación de la amplificación y los errores de secuenciación introducen ruido en el producto final de secuenciación. Este ruido puede disminuir la sensibilidad de la detección. Por ejemplo, las variantes de secuencia cuya frecuencia en la población marcada es menor que la proporción de error de secuenciación se pueden confundir con el ruido. También, al proporcionar lecturas de secuencias en mayores o menores cantidades que su número real en una población, la desviación en la amplificación puede distorsionar las mediciones de la variación en el número de copias. De manera alternativa, una pluralidad de lecturas de secuencia de un polinucleótido individual se puede producir sin amplificación. Esto se puede hacer, por ejemplo, con métodos de nanoporos. [000216] Esta descripción proporciona métodos para detectar y leer de manera exacta polinucleótidos únicos en una mezcla marcada. En ciertas modalidades, esta descripción proporciona polinucleótidos marcados por secuencia que, cuando se amplifican y secuencian, o cuando se secuencian una pluralidad de veces para producir una pluralidad de lecturas de secuencia, proporcionan información que permite la trazabilidad, o colapso, de los polinucleótidos de progenie a la molécula única de polinucleótido de origen, marcado. El colapso de las familias de polinucleótidos de progenie, amplificados reduce la desviación de amplificación al proporcionar información acerca de moléculas de origen, únicas, originales. El colapso también reduce los errores de secuenciación al eliminar de los datos de secuenciación las secuencias mutantes de moléculas de progenie. [000217] La detección y lectura de polinucleótidos únicos en la biblioteca marcada puede comprender dos estrategias. En una estrategia, un subconjunto suficientemente grande de la mezcla de polinucleótidos de progenie amplificados, es una secuencia tal que, para un gran porcentaje de polinucleótidos de origen, marcados, únicos en el conjunto de polinucleótidos de origen, marcados, hay una lectura de secuencia que se produce para al menos un polinucleótido de progenie, amplificado en una familia producida de un polinucleótido de origen, marcado, único. En una segunda estrategia, el conjunto de polinucleótidos de progenie amplificados se muestrea para secuenciación a un nivel para producir lecturas de secuencia de múltiples miembros de progenie de una familia derivada de un polinucleótido de origen, único. La generación de lecturas de secuencia de múltiples miembros de progenie de una familia permite el colapso de las secuencias en secuencias de origen de consenso. [000218] De esta modo, por ejemplo, el muestreo de varios polinucleótidos de progenie amplificados del conjunto de polinucleótidos de progenie, amplificados, que es igual al número de polinucleótidos de origen, marcados, únicos en el conjunto de polinucleótidos de origen, marcados (particularmente cuando el número es al menos 10,000) producirá, estadísticamente, una lectura de secuencia para al menos uno de progenie de aproximadamente 68% de los polinucleótidos de origen marcados en el conjunto, y aproximadamente 40% de los polinucleótidos de origen, marcados, únicos en el conjunto original será representará por al menos dos lecturas de secuencias de progenie. En ciertas modalidades, el conjunto de polinucleótidos de progenie, amplificados se muestrea de manera suficiente para producir un promedio de cinco a diez lecturas de secuencia para cada familia. El muestreo del conjunto de progenie amplificado de 10-veces tantas moléculas como el número de polinucleótidos de origen, marcados, únicos, producirá, estadísticamente, información de secuencia acerca de 99.995%) de las familias, de las cuales 99.95% de las familias totales se cubrirá por una pluralidad de lecturas de secuencia. Una secuencia de consenso se puede construir de los polinucleótidos de progenie en cada familia, para reducir drásticamente la proporción de error de la proporción nominal de error de secuenciación por base a una proporción posiblemente muchos órdenes de magnitud inferior. Por ejemplo, si el secuenciador tiene una proporción aleatoria de error por base de 1% y la familia elegida tiene 10 lecturas, una secuencia de consenso construida de estas 10 lecturas poseerá una proporción de error por abajo de 0.0001%. Por consiguiente, el tamaño de muestreo de la progenie amplificada que se va a secuenciar se puede elegir para asegurar una secuencia que tiene una frecuencia en la muestra que no es mayor que la proporción nominal de error de secuenciación por base a una proporción de la plataforma de secuenciación usada, tiene al menos 99% de probabilidad que se represente por al menos una lectura. [000219] En otra modalidad, el conjunto de polinucleótidos de progenie, amplificados, se muestrea a un nivel para producir una alta probabilidad, por ejemplo, al menos 90%, que una secuencia representada en el conjunto de polinucleótidos de origen, marcados a una frecuencia que es aproximadamente la misma como la proporción de error de secuenciación por base de la plataforma de secuenciación usada se cubre por al menos una lectura de secuencia y de manera preferente por una pluralidad de lecturas de secuencia. De este modo, por ejemplo, si la plataforma de secuenciación tiene una proporción de error por base de 0.2% en una secuencia o conjunto de secuencias, se representa en el conjunto de polinucleótidos de origen, marcados a una frecuencia de aproximadamente 0.2%, entonces el número de polinucleótidos en la mezcla de la progenie amplificado que se secuencian puede ser de aproximadamente X veces el número de moléculas únicas en el conjunto de polinucleótidos de origen, marcados. [000220] Estos métodos se pueden combinar con cualquiera de los métodos de reducción de ruido, descritos. Incluyendo, por ejemplo, la calificación de las lecturas de secuencia para la inclusión en la mezcla de secuencias usadas para generar secuencias de consenso. [000221] Esta información ahora se puede usar tanto para análisis cualitativo como cuantitativo. Por ejemplo, para análisis cuantitativo, se determina una medida, por ejemplo, una cuenta de la cantidad de moléculas de origen, marcadas que correlacionan a una secuencia de referencia. Esta medida se puede comparar con una medida de las moléculas de origen, marcadas que correlacionan a una diferente región genómica. Es decir, la cantidad de moléculas de origen, marcadas que correlacionan a una primera ubicación o posición correlacionable a una secuencia de referencia, tal como el genoma humano, se pueden comparar con una medida de moléculas de origen, marcadas que correlacionan a una segunda ubicación o posición correlacionable en una secuencia de referencia. Esta comparación puede revelar, por ejemplo, las cantidades relativas de moléculas de origen que correlacionan a cada región. Esto, a su vez, proporciona una indicación de la variación en el número de copias para moleculas que correlacionan a una región particular. Por ejemplo, si la medida de polinucleótidos que correlacionan a una primera secuencia de referencia es mayor que la medida de polinucleótidos que correlacionan a una segunda secuencia de referencia, esto puede indicar que la población de origen, y por la extensión la muestra original, incluidos los polinucleótidos de células que exhiben aneuploidía. Las medidas se pueden normalizar contra una muestra de control para eliminar varias desviaciones. Las medidas cuantitativas pueden incluir, por ejemplo, número, cuenta, frecuencia (ya sea relativa, inferida o absoluta). [000222] Un genoma de referencia puede incluir el genoma de cualquier especie de interés. Las secuencias de genoma humano útiles como referencias pueden incluir el montaje hgl9 o cualquier montaje hg previo o disponible. Estas secuencias se pueden interrogar usando el navegador de genoma disponible en genome.ucsc.edu/index.html. Los genomas de otras especies incluyen, por ejemplo PanTro2 (chimpancé) y mm9 (ratón). [000223] Para análisis cualitativo, para secuencias variantes se pueden analizar secuencias de un conjunto de polinucleótidos marcados que correlacionan a una secuencia de referencia y se puede medir su frecuencia en la población de polinucleótidos de origen, marcados.
II. Preparación de muestra A. Extracción y aislamiento de polinucleótidos [000224] Los sistemas y métodos de esta descripción pueden tener una amplia variedad de usos en la manipulación, preparación, identificación y/o cuantificación de polinucleótidos libres de células. Los ejemplos de polinucleótidos incluyen, pero no se limitan a: ADN, ARN, amplicones, ADNc, ADNds, ADNss, ADN de plásmido, ADN de cósmido, ADN de alto peso molecular (MW), ADN cromosómico, ADN genómico, ADN viral, ADN bacteriano, ADNmt (ADN mitocondrial), ARNm, ARNr, ARNt, ARNn, ARNsi, ARNsn, ARNsno, ARNsca, microRNA, ARNds, ribozima, ribocambio y ARN viral (por ejemplo, ARN retroviral). [000225] Los polinucleótidos libres de célula se pueden derivar de una variedad de fuentes, que incluyen fuentes humanas, mamíferas, mamíferas no humanas, monos, changos, chimpancé, reptil, anfibio, o aviar. Además, las muestras se pueden extraer de una variedad de fluidos animales que contienen secuencias libres de células, incluyendo pero no limitado a sangre, suero, plasma, vitreo, esputo, orina, lágrimas, traspiración, saliva, semen, secreciones mucosas, moco, fluido espinal, fluido amniótico, fluido linfoide y similares. Los polinucleótidos libres de células pueden ser de origen fetal (mediante fluido tomado de una embarazada), o se puede derivar del tejido del sujeto mismo. [000226] El aislamiento y extracción de polinucleótidos libres de células se puede realizar a través de la recolección de fluidos corporales usando una variedad de téenicas. En algunos casos, la recolección puede comprender la aspiración de un fluido corporal de un sujeto usando una jeringa. En otros casos, la recolección puede comprender toma con pipeta o recolección directa de fluido en un recipiente de recolección. [000227] Después de la recolección de fluido corporal, los polinucleótidos libres de célula se pueden aislar y extraer usando una variedad de técnicas conocidas en la técnica. En algunos casos, se puede aislar, extraer o preparar ADN libre de células usando equipos comercialmente disponibles, tal como el protocolo de equipo de ácido nucleico circulante Qiagen Qiamp®. En otros ejemplos, se puede usar el protocolo del equipo de ensayo Qiagen Qubit*® dsDNA HS, equipo Agilent® ADN 1000, o el protocolo TruSeq1® Sequencing Library Preparation; Low-Throughput (LT). [000228] En general, se extraen y aíslan polinucleótidos libres de células de fluidos corporales a través de un paso de división en el cual los ADN libres de células, como se encuentran en solución, se separan de células y otros componentes no solubles del fluido corporal. La división puede incluir, pero no se limita a, técnicas tal como centrifugación o filtración. En otros casos, las células no se dividen primero del ADN libre de células, sino más bien se lisan. En un ejemplo, el ADN genómico de células intactas se divide a través de precipitación selectiva. Los polinucleótidos libres de células, incluyendo ADN, pueden permanecer solubles y se pueden separar del ADN genómico insoluble y extraer. En general, después de la adición de amortiguadores y otros pasos de lavado específicos de diferentes equipos, el ADN se puede precipitar usando precipitación con isopropanol. Se pueden usar pasos adicionales de limpieza tal como columnas a base de sílice para remover contaminantes o sales. Los pasos generales se pueden optimizar para aplicaciones específicas. Se puede adicionar, por ejemplo polinucleótidos portadores volumétricos no específicos a través de la reacción para optimizar ciertos aspectos del procedimiento, tal como rendimiento. [000229] El aislamiento y purificación de ADN libre de células se puede lograr usando cualquier medio, incluyendo, pero no limitado a, el uso de equipos y protocolos comerciales proporcionados por compañías tal como Sigma Aldrich, Life Technologies, Promega, Affymetrix, IBI o similares. Los equipos y protocolos también pueden no estar comercialmente disponibles. [000230] Después del aislamiento, en algunos casos, los polinucleótidos libres de células se pre-mezclan con uno o más materiales adicionales, tal como uno o más reactivos (por ejemplo, ligasa, proteasa, polimerasa) antes de la secuenciación. [000231] Un metodo para incrementar la eficiencia de conversión comprende usar una ligasa manejada para reactividad óptima en el ADN de hebra individual, tal como un derivado de ligasa de ADNss ThermoPhage. Estas ligasas derivan los pasos tradicionales en la preparación de bibliotecas de reparación terminal y A-extremidad que puede tener pobres eficiencias y/o pérdidas acumuladas debido a pasos intermedios de limpieza, y permite dos veces la probabilidad que ya sea el polinucleótido de inicio homosentido o anti-sentido se convertirá en un polinucleótido apropiadamente marcado. También convierte polinucleótidos de doble hebra que pueden poseer salientes que pueden no estar suficientemente romos en los extremos por la reacción típica de reparación de extremos. Las condiciones óptimas de reacción para esta reacción de ADNss son: 1 x amortiguador de reacción (MOPS 50 mM (pH 7.5), DTT 1 mM, MgC125 mM, KC1 10 mM). Con ATP 50 mM, BSA 25 mg/ml, MnC122.5 mM, oligómero de ADNss 85 nt 200 pmol y ligasa de ADNss 5 U incubado a 65°C durante 1 hora. La amplificación subsiguiente usando PCR puede convertir adicionalmente la biblioteca de hebra individual marcada a una biblioteca de doble hebra y produce una eficiencia total de conversión por arriba de 20%. Otros métodos para incrementar la proporción de conversión, por ejemplo, a más de 10%, incluyen, por ejemplo, cualquiera de los siguientes, solos o en combinación: sondas de inversión molecular optimizadas por fijación, ligación de extremos romos con un intervalo de tamaño de polinucleótido bien-controlado, ligación de extremos pegajosos o un paso de amplificación multiplex franco con o sin el uso de cebadores de fusión.
B. Códigos de barras moleculares de polinucleótidos libres de células [000232] Los sistemas y métodos de esta descripción también pueden permitir que los polinucleótidos libres de células se marquen o sigan a fin de permitir la identificación subsiguiente y el origen del polinucleótido particular. Esta característica es en contraste con otros métodos que usan reacciones mezcladas o multiplex y que solo proporcionan mediciones o análisis como un promedio de múltiples muestras. Aquí, la asignación de un identificador a polinucleótidos individuales o subgrupos de polinucleótidos puede permitir que se asigne una identidad única a secuencias individuales o fragmentos de secuencias. Esto puede permitir la adquisición de datos de muestras individuales y no se limita a promedios de muestras. [000233] En algunos ejemplos, los ácidos nucleicos u otras moléculas derivadas de una hebra individual pueden compartir un identificador o marca común y por lo tanto se puede identificar más adelante como que se derivan de esa hebra. De manera similar, todos los fragmentos de una hebra individual del ácido nucleico se pueden marcar con el mismo identificador o marca, permitiendo de este modo la identificación subsiguiente de fragmentos de la hebra de origen. En otros casos, se pueden marcar productos de expresión génica (por ejemplo, ARNm) a fin de cuantificar la expresión, por lo cual se puede contar el código de barras o el código de barras en combinación con la secuencia a la cual se une. En aun otros casos, los sistemas y métodos se pueden usar como un control de amplificación por PCR. En estos casos, se pueden marcar múltiples productos de amplificación de una reacción de PCR con la misma marca o identificador. Si los productos se secuencian más adelante y demuestran diferencias de secuencia, las diferencias entre los productos con el mismo identificador entonces se pueden atribuir al error de la PCR. [000234] Adicionalmente, se pueden identificar secuencias individuales en base a las características de datos de secuencias para la lectura de sí mismos. Por ejemplo, la detección de datos únicos de secuencias en las porciones de comienzo (inicio) y final (final) de lecturas de secuenciación individuales se puede usar, solas o en combinación, con la longitud, o número de pares de bases de cada secuencia única de lectura de secuencia para asignar identidades únicas a moléculas individuales. Los fragmentos de una hebra individual de ácido nucleico, que se han asignado una identidad única, pueden permitir de este modo la identificación subsiguiente de fragmentos de la hebra de origen. Esto se puede usar en unión con la restricción del material genético inicial de inicio para limitar la diversidad. [000235] Adicionalmente, usando los datos únicos de secuencias en las porciones de comienzo (inicio) y final (final) de lecturas individuales de secuenciación y la longitud de la lectura de secuenciación, se pueden usar, solos o combinación, con el uso de códigos de barra. En algunos casos, los códigos de barra pueden ser únicos como se describe en la presente. En otros casos, los códigos de barra por sí mismos pueden no ser únicos. En este caso, el uso de códigos de barra no únicos, en combinación con datos de secuencia en las porciones de comienzo (inicio) y final (final) de lecturas individuales de secuenciación y longitud de lectura de secuenciación puede permitir la asignación de una identidad única a secuencias individuales. De manera similar, los fragmentos de una hebra individual de ácido nucleico que se le ha asignado una identidad única, puede permitir de este modo la identificación subsiguiente de fragmentos de la hebra de origen. [000236] En general, los métodos y sistemas proporcionados en la presente son útiles para la preparación de secuencias de polinucleótidos libres de células a una reacción de secuenciación de aplicación en etapa posterior. Frecuentemente, un método de secuenciación es la secuenciación Sanger clásica. Los métodos de secuenciación pueden incluir, pero no se limitan a: secuenciación de alto rendimiento, pirosecuenciación, secuenciación por síntesis, secuenciación de molécula individual, secuenciación de nanoporos, secuenciación por semiconductores, secuenciación por ligación, secuenciación por hibridación, RNA-Seq (Illumina), expresión génica digital (Helicos), secuenciación siguiente generación, secuenciación de molécula individual por síntesis (SMSS)(Helicos), secuenciación masivamente paralela, arreglo de molécula individual clonal (Solexa), secuenciación de disparo, secuenciación de Maxim-Gilbert, desplazamiento de cebador, y cualquier otro método de secuenciación conocido en la téenica.
C. Asignación de códigos de barra a secuencias de polinucleótidos libres de células [000237] Los sistemas y métodos descritos en la presente se pueden usar en aplicaciones que comprenden la asignación de identificadores únicos o no únicos, o códigos de barra moleculares, a polinucleótidos libres de células. Frecuentemente, el identificador es un oligonucleótido de código de barra que se usa para marcar el polinucleótido; pero, en algunos casos, se usan diferentes identificadores únicos. Por ejemplo, en algunos casos, el identificador único es una sonda de hibridación. En otros casos, el identificador único es un tinte, caso en el cual la unión puede comprender la intercalación del tinte en la molécula de analito (tal como la intercalación en ADN o ARN) o la unión a una sonda marcada con el tinte. En aun otros casos, el identificador único puede ser un oligonucleótido de ácido nucleico, caso en el cual la unión a las secuencias de polinucleótidos puede comprender una reacción de ligación entre el oligonucleótido y las secuencias o la incorporación a través de la PCR. En otros casos, la reacción puede comprender la adición de un isótopo metálico, ya sea directamente al analito o por una sonda marcada con el isótopo. En general, la asignación de identificadores únicos o no únicos, o códigos de barra moleculares en reacciones de esta descripción puede seguir los métodos y sistemas descritos, por ejemplo, en las solicitudes de patente US 20010053519, 20030152490, 20110160078 y la patente US 6,582,908. [000238] Frecuentemente, el método comprende unir los códigos de barra de oligonucleótidos a analitos de ácido nucleico a través de una reacción enzimática que incluye, pero no se limita a una reacción de ligación. Por ejemplo, la enzima ligasa puede unir covalentemente un código de barras de ADN a ADN fragmentado (por ejemplo, ADN de alto peso molecular). Después de la unión de los códigos de barras, las moléculas se pueden someter a una reacción de secuenciación. [000239] Sin embargo, se pueden usar también otras reacciones. Por ejemplo, los cebadores de oligonucleótidos que contienen secuencias de códigos de barras se pueden usar en reacciones de amplificación (por ejemplo, PCR, qPCR, PCR de transcriptasa invertida, PCR digital, etcétera) de los analitos de la plantilla de ADN, produciendo de este modo analitos marcados. Después de la asignación de códigos de barra a secuencias individuales de polinucleótidos libres de células, se puede secuenciar la mezcla de moléculas. [000240] En algunos casos, se puede usar PCR para amplificación global de las secuencias de polinucleótidos libres de células. Esto puede comprender usando secuencias adaptadoras que se pueden ligar primero a diferentes moléculas seguido por amplificación por PCR usando cebadores universales. La PCR para secuenciación se puede realizar usando cualquier medio, incluyendo, pero no limitado al uso de equipos comerciales proporcionados por Nugen (equipo WGA), Life Technologies, Affymetrix, Promega, Qiagen y similares. En otros casos, solo ciertas moléculas diana dentro de una población de moléculas de polinucleótidos libres de células se puede amplificar. Los cebadores específicos, pueden en unión con la ligación del adaptador, pueden ser usados para amplificar de manera selectiva ciertos dianas para secuenciación de etapa posterior. [000241] Los identificadores únicos (por ejemplo, códigos de barra de oligonucleótidos, anticuerpos, sondas, etcétera) se pueden introducir a secuencias de polinucleótidos libres de células al azar o no al azar. En algunos casos, se introducen a una relación esperada de identificadores únicos a microconcavidades. Por ejemplo, los identificadores únicos se pueden cargar de modo que más de aproximadamente 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50, 100, 500, 1,000, 5,000, 10,000, 50.000, 100000, 50,0000, 1,000,000, 10,000,000, 50,000,000 o 1.000.000.000 identificadores únicos se cargan por muestra de genoma. En algunos casos, los identificadores únicos se pueden cargar de modo que menos de aproximadamente 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50, 100, 500, 1000, 5000, 10000, 50.000, 100,000, 500,000, 1,000,000, 10,000,000, 50,000,000 o 1.000.000.000 identificadores únicos se cargan por muestra de genoma. En algunos casos, el número promedio de identificadores únicos cargados por genoma de muestra es menor que, o mayor que, aproximadamente 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50, 100, 500, 1000, 5000, 10000, 50,000, 100.000, 500,000, 1,000,000, 10,000,000, 50,000,000 o 1.000.000.000 identificadores únicos por muestra de genoma. [000242] En algunos casos, los identificadores únicos pueden ser una variedad de longitudes tal que cada código de barras es de al menos aproximadamente 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50, 100, 500, 1000 pares de base. En otros casos, los códigos de barra pueden comprender menos de aproximadamente 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50, 100, 500, 1000 pares de base. [000243] En algunos casos, los identificadores únicos pueden ser oligonucleótidos de secuencia predeterminados o aleatorios o semi-aleatorios. En otros casos, se puede usar una pluralidad de códigos de barra tal que los códigos de barra no sean necesariamente únicos entre sí en la pluralidad. En este ejemplo, los códigos de barras se pueden ligar a moléculas individuales, tal que la combinación del código de barra y la secuencia que se puede ligar para crear una secuencia única que se puede seguir de manera individual. Como se describe en la presente, la detección de códigos de barra no únicos en combinación con datos de secuencia de las porciones de comienzo (inicio) y final (final) de lecturas de secuencia puede permitir la asignación de una identidad única a una molécula particular. La longitud, o el número de pares de base, de una lectura de secuencia individual también se puede usar para asignar una identidad única a esta molécula. Como se describe en la presente, los fragmentos de una hebra individual de ácido nucleico a la que se ha asignado una identidad única, puede permitir de este modo la identificación subsiguiente de fragmentos de la hebra de origen. De esta manera, se pueden marcar de manera única o sustancialmente única los polinucleótidos en la muestra. [000244] Los identificadores únicos se pueden usar para marcar una amplia variedad de analitos, incluyendo pero no limitado a moléculas de ADN o ARN. Por ejemplo, se pueden unir identificadores únicos (por ejemplo, oligonucleótidos de código de barras) a hebras enteras de ácidos nucleicos o a fragmentos de ácidos nucleicos (por ejemplo, ADN genómico fragmentado, ARN fragmentado). Los identificadores únicos (por ejemplo, oligonucleótidos) también pueden unirse a productos de expresión génica, ADN genómico, ADN mitocondrial, ARN, ARNm, y similares. [000245] En muchas aplicaciones, puede ser importante determinar si las secuencias individuales de polinucleótidos libres de células reciben cada una un diferente identificador único (por ejemplo, código de barras de oligonucleótido). Si la población de identificadores únicos introducidos en los sistemas y métodos no es significativamente diversa, se pueden marcar posiblemente diferentes analitos con identificadores únicos. Los sistemas y métodos descritos en la presente pueden permitir la detección de secuencias de polinucleótidos libres de células, marcadas con el mismo identificador. En algunos casos, se puede incluir una secuencia de referencia con la población de secuencias de polinucleótidos libres de células que se van a analizar. La secuencia de referencia puede ser, por ejemplo, un ácido nucleico con una secuencia conocida y una cantidad conocida. Si los identificadores únicos son códigos de barra de oligonucleótidos y los analitos son ácidos nucleicos, los analitos marcados se pueden secuenciar y cuantificar de manera subsiguiente. Estos metodos pueden indicar si uno o más fragmentos y/o analitos se pueden haber asignado a un código de barras idéntico. [000246] Un método descrito en la presente puede comprender utilizar reactivos necesarios para la asignación de códigos de barras a los analitos. En el caso de reacciones de ligación, en los sistemas y métodos se pueden cargar reactivos, que incluyen, pero no se limitan a, enzima ligasa, amortiguador, oligonucleótidos adaptadores, una pluralidad de códigos de barras de ADN identificador único y similares. En el caso de enriquecimiento, los reactivos que incluyen, pero no se limitan a una pluralidad de cebadores de PCR, oligonucleótidos que contienen secuencia identificadora única, o secuencia de código de barras, ADN-polimerasa, DNTPs, y amortiguadores y similares se pueden utilizar en la preparación para secuenciación. [000247] En general, el método y sistema de esta descripción puede utilizar los métodos de la patente US 7,537,897 al usar códigos de barras moleculares para contar moléculas o analitos. [000248] En una muestra que comprende ADN genómico fragmentado, por ejemplo, ADN libre de células (cfDNA), de una pluralidad de genomas, hay alguna probabilidad que más de un polinucleótido de diferentes genomas tendrá la misma posición de inicio y final ("duplicados" o "cognados"). El número probable de duplicados que empieza en cualquier posición es una función del número de equivalentes de genoma haploide en una muestra y la distribución de los tamaños de fragmentos. Por ejemplo, cfDNA tiene un pico de fragmentos en aproximadamente 160 nucleótidos, y la mayoría de los fragmentos en este pico varían de aproximadamente 140 nucleótidos a 180 nucleótidos. Por consiguiente, cfDNA de un genoma de aproximadamente 3 billones de bases (por ejemplo, el genoma humano) puede estar comprendido casi 20 millones (2xl07) de fragmentos de polinucleótido. Una muestra de aproximadamente 30 ng de ADN puede contener aproximadamente 10,000 equivalentes haploides de genoma humano. (De manera similar, una muestra de aproximadamente 100 ng de ADN puede contener aproximadamente 30,000 equivalentes haploides de genoma humano). Una muestra que contiene aproximadamente 10,000 (104) equivalentes haploides de genoma de este ADN puede tener aproximadamente 200 billones (2x1011) de moléculas individuales de polinucleótido. Se ha determinado de manera empírica que en una muestra de aproximadamente 10,000 equivalentes haploides de genoma de ADN humano, hay aproximadamente 3 polinucleótidos duplicados que empiezan en cualquier posición determinada. De esta manera, esta colección puede contener una diversidad de aproximadamente 6xl010-8xl010 (aproximadamente 60 billones a 80 billones, por ejemplo, aproximadamente 70 billones (7xl010)) de moléculas de polinucleótido diferentemente secuenciadas. [000249] La probabilidad de identificar de manera correcta las moléculas es dependiente del número inicial de equivalentes de genoma, la distribución por longitud de las moléculas secuenciadas, la uniformidad de secuencia y el número de marcas. Cuando la cuenta de marcas es igual a uno, es decir, equivalente a que no tiene marcas únicas o ningún marcado. La tabla posterior lista la probabilidad de identificar de manera correcta una molécula como única asumiendo una distribución típica de tamaño libre de células como antes. [000250] En este caso, al secuenciar el ADN genómico, puede no ser posible determinar que lecturas de secuencia se derivan de que moléculas de origen. Este problema se puede disminuir al marcar moléculas de origen con un número suficiente de identificadores únicos (por ejemplo, la cuenta de marcas) tal que exista la probabilidad que dos moléculas duplicadas, es decir, moléculas que tienen las mismas posiciones de inicio y final, tengan diferentes identificadores únicos de modo que las lecturas de secuencia son trazables de regreso a moléculas particulares de origen. Un planteamiento a este problema es marcar de manera única cada, o casi cada, diferente molécula de origen en la muestra. Sin embargo, dependiendo del número de equivalentes haploides del gen y de la distribución de tamaños de fragmento en la muestra, esto puede requerir billones de diferentes identificadores únicos. [000251] Este método puede ser embarazoso y costoso. Esta invención proporciona métodos y composiciones en las cuales una población de polinucleótidos en una muestra de ADN genómico fragmentado se marca con n diferentes identificadores únicos, en donde n es al menos 2 y no más de 100,000*z, en donde z es una medida de la tendencia central (por ejemplo, media, mediana, modo) de un número esperado de moléculas duplicadas que tienen las mismas posiciones de inicio y final. En ciertas modalidades, n es al menos cualquiera de 2*z, 3*z, 4*z, 5*z, 6*z, 7*z, 8*z, 9*z, 10*z, ll*z, 12*z, 13*z, 14*z, 15*z, 16*z, 17*z, 18*z, 19*z, o 20*2 (por ejemplo, límite inferior). En otras modalidades, n no es mayor que 100,000*z, 10,000*z, 1000*z o 100* (por ejemplo, límite superior). De esta manera, n puede variar entre cualquier combinación de estos límites inferior y superior. En ciertas modalidades, n está entre 5*z y 15*z, entre 8*z y 12*, o aproximadamente 10*z. Por ejemplo, un equivalente haploide de genoma humano tiene aproximadamente 3 picogramos de ADN. Una muestra de aproximadamente 1 microgramo de ADN contiene aproximadamente 300,000 equivalentes haploides de genoma humano. El número n puede estar entre 15 y 45, entre 24 y 36 o aproximadamente 30. Se pueden lograr mejoras en la secuenciación en tanto que al menos algunos de los polinucleótidos duplicados o cognados tengan identificadores únicos, es decir, tengan diferentes marcas. Sin embargo, en ciertas modalidades, el número de marcas usadas se seleccionan de modo que hay al menos una probabilidad de 95% que todas las moléculas duplicadas que inicien en cualquier posición tengan identificadores únicos. Por ejemplo, una muestra que comprende aproximadamente 10,000 equivalentes haploides de genoma humano de cfDNA se puedan marcar con aproximadamente 36 identificadores únicos. Los identificadores únicos pueden comprender seis códigos de barras, únicos de ADN. Unidos a ambos extremos de un polinucleótido, se producen 36 posibles identificadores únicos. Las muestras marcadas de esta manera pueden ser aquellas con un intervalo de aproximadamente 10 ng a cualquiera de aproximadamente 100 ng, aproximadamente 1 pg, aproximadamente 10 mg de polinucleótidos fragmentados, por ejemplo, por ejemplo ADN genómico, por ejemplo, cfDNA. [000252] Por consiguiente, esta invención también proporciona composiciones de polinucleótidos marcados. Los polinucleótidos pueden comprender ADN fragmentado, por ejemplo, cfDNA. Un conjunto de polinucleótidos en la composición que correlaciona a una posición base correlacionadle en un genoma se puede marcar de forma no única, es decir, el número de diferentes identificadores puede ser al menos 2 y menos que el número de polinucleótidos que correlacionan a la posición base correlacionadle. Una composición de entre aproximadamente 10 ng a aproximadamente 10 mg (por ejemplo, cualquiera de aproximadamente 10 ng-lpg, aproximadamente 10ng-100 mg, aproximadamente 100ng-10 pg, aproximadamente 100 ng-1 pg, aproximadamente 1 pg-10 pg) puede tener entre cualquiera de 2, 5, 10, 50 o 100 a cualquiera de 100, 1,000, 10,000 o 100,000 diferentes identificadores. Por ejemplo, se pueden usar de entre 5 y 100 diferentes identificadores para marcar los polinucleótidos en esta composición.
III. Plataformas de secuenciación de ácidos nucleicos [000253] Después de la extracción y aislamiento de polinucleótidos libres de células de los fluidos corporales, se pueden secuenciar las secuencias libres de células. Frecuentemente, un método de secuenciación es la secuenciación Sanger clásica. Los métodos de secuenciación pueden incluir, pero no se limitan a: secuenciación de alto rendimiento, pirosecuenciación, secuenciación por síntesis, secuenciación de molécula individual, secuenciación de nanoporos, secuenciación por semiconductor, secuenciación por ligación, secuenciación por hibridación, RNA-Seq (IIlumina), expresión génica digital (Helicos), secuenciación de siguiente generación, secuenciación de molécula individual por síntesis (SMSS) (Helicos), secuenciación masivamente paralela, arreglo molecular individual clonal (Solexa), secuenciación de disparo, secuenciación de Maxim-Gilbert, desplazamiento de cebadores, secuenciación usando las plataformas PacBio, SOLiD, Ion Torrent, o Nanoporos y cualquier otro método de secuenciación conocida en la téenica. [000254] En algunos casos, varios tipos de reacciones de secuenciación, como se describe en la presente, pueden comprender una variedad de unidades de procesamiento de muestra. Las unidades de procesamiento de muestra pueden incluir, pero no se limitan a múltiples sendas, múltiples canales, múltiples concavidades, u otro medio para procesar múltiples conjuntos de muestras de manera sustancialmente simultánea. Adicionalmente, la unidad de procesamiento de muestra puede incluir múltiples cámaras de muestra para permitir el procesamiento de múltiples corridas de forma simultánea. [000255] En algunos ejemplos, se pueden realizar reacciones simultáneas de secuenciación usando secuenciación multiplex. En algunos casos, los polinucleótidos libres de células se pueden secuenciar con al menos 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000, 100,000 reacciones de secuenciación. En otros casos, los polinucleótidos libres de celulas se pueden secuenciar con menos de 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000, 100,000 reacciones de secuenciación. Las reacciones de secuenciación se pueden realizar de manera secuencial o simultáneamente. Se puede realizar el análisis subsiguiente de datos en todas o partes de las reacciones de secuenciación. En algunos casos, se puede realizar el análisis de datos en al menos 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000, 100,000 reacciones de secuenciación. En otros casos el análisis de datos se puede realizar en menos de 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 50000, 100,000 reacciones de secuenciación. [000256] En otros ejemplos, el número de reacciones de secuenciación puede proporcionar cobertura para diferentes cantidades del genoma. En algunos casos, la cobertura de secuencia del genoma puede ser al menos 5%, 10%, 15%, 20%, 25%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 95 %, 99%, 99,9% o 100%. En algunos casos, la cobertura de secuencia del genoma puede ser menor de 5%, 10%, 15%, 20%, 25%, 30%, 40%, 50%, 60%, 70%, 80%, 90% , 95%, 99%, 99,9% o 100%. [000257] En algunos ejemplos, se puede realizar la secuenciación en los polinucleótidos libres de células que pueden comprender una variedad de diferentes tipos de ácidos nucleicos. Los ácidos nucleicos pueden ser polinucleótidos u oligonucleótidos. Los ácidos nucleicos incluyen, pero no se limitan a ADN o ARN, de hebra individual o de doble hebra o un par de RNA/ADNc.
IV. Estrategia de análisis de polinucleótidos [000258] La figura 8 es un diagrama, 800, que muestra una estrategia para analizar polinucleótidos en una muestra de material genético inicial. En el paso 802, se proporciona una muestra que contiene material genético inicial. La muestra puede incluir ácido nucleico diana en poca abundancia. Por ejemplo, el ácido nucleico de un genoma normal o tipo silvestre (por ejemplo, un genoma de línea germinal) puede predominar en una muestra que también incluye no más de 20%, no más de 10%, no más de 5%, no más de 1%, no más de 0.5% o no más de 0.1% de ácido nucleico de al menos otro genoma que contiene variación genética, por ejemplo, un genoma de cáncer o un genoma fetal, o un genoma de otra especie. La muestra puede incluir, por ejemplo, ácido nucleico libre de células o células que comprenden ácido nucleico. El material genético inicial puede constituir no más de 100 ng de ácido nucleico. Esto puede contribuir al apropiado sobremuestreó de los polinucleótidos originales por el proceso de análisis genético secuenciación. De manera alternativa, la muestra se puede rematar de manera artificial o restringir para reducir la cantidad de ácido nucleico a no más de 100 ng o enriquecer selectivamente para analizar solo secuencias de interés. La muestra se puede modificar para producir de manera selectiva lecturas de secuencia de moléculas que correlacionan a cada una de una o más ubicaciones seleccionadas en una secuencia de referencia. Una muestra de 100 ng de ácido nucleico puede contener aproximadamente 30,000 equivalentes haploides de genoma humano, es decir, moléculas que, conjuntamente, proporcionan una cobertura de 30,000 veces de un genoma humano. [000259] En el paso 804 el material genético inicial se convierte en un conjunto de polinucleótidos marcados de origen. La marcación puede incluir unir marcas secuenciadas a moléculas en el material genético inicial. Las marcas secuenciadas se pueden seleccionar de modo que todos los polinucleótidos únicos que correlacionan a la misma ubicación en una secuencia de referencia tienen una marca identificadora única. Se puede realizar la conversión en alta eficiencia, por ejemplo al menos 50%. [000260] En el paso 806, el conjunto de polinucleótidos marcados de origen se amplifica para producir un conjunto de polinucleótidos amplificados de progenie. La amplificación puede ser, por ejemplo, de 1000 veces. [000261] En el paso 808, el conjunto de polinucleótidos amplificados de progenie se muestrean para secuenciación. La proporción de muestreo se elige de modo que las lecturas de secuencia producidas ambas (1) cubren un número objetivo de moléculas únicas en el conjunto de polinucleótidos marcados de origen y (2) cubren moléculas únicas en el conjunto de polinucleótidos marcados de origen a una cobertura objetivo (por ejemplo, cobertura de 5 a 10 veces) de los polinucleótidos de origen. [000262] En el paso 810, el conjunto de lecturas de secuencias se colapsa para producir un conjunto de secuencias de consenso que corresponden a polinucleótidos marcados únicos de origen. Las lecturas de secuencia se pueden calificar para la inclusión en el análisis. Por ejemplo, las lecturas de secuencia que fallan en cumplir una puntuación de control de calidad se pueden remover de la mezcla. Las lecturas de secuencia se pueden clasificar en familias que representan lecturas de moléculas de progenie derivadas de una molécula única particular de origen. Por ejemplo, una familia de polinucleótidos amplificados de progenie puede constituir estas moléculas amplificadas derivadas de un polinucleótido individual de origen. Al comparar las secuencias de progenie en una familia, se puede deducir una secuencia de consenso del polinucleótido original de origen. Esto produce un conjunto de secuencias de consenso que representan polinucleótidos únicos de origen en la mezcla marcada. [000263] En el paso 812, el conjunto de secuencias de consenso se analiza usando cualquiera de los métodos analíticos descritos en la presente. Por ejemplo, las secuencias de consenso que correlacionan a una ubicación particular de secuencia de referencia se pueden analizar para detectar casos de variación genética. Las secuencias de consenso que correlacionan a secuencias particulares de referencia se pueden medir y normalizar contra muestras de control. Las medidas de moléculas que correlacionan a secuencias de referencia se pueden comparar a través de un genoma para identificar áreas en el genoma en el cual varía el número de copias, o se pierde la heterocigosidad. [000264] La figura 9 es un diagrama que presenta un método más genérico de extraer información de una señal representada por una colección de lecturas de secuencia. En este método, después de secuenciar los polinucleótidos amplificados de progenie, las lecturas de secuencias se agrupan en familias de moléculas amplificadas de una molécula de identidad única (910). Este agrupamiento puede ser un punto de salto para los métodos para interpretar la información en la secuencia para determinar los contenidos de los polinucleótidos marcados de origen con mayor fidelidad, por ejemplo, menos ruido y/o menos distorsión. [000265] El análisis de la colección de lecturas de secuencia permite hacer inferencias acerca de la población polinucleótidos de origen de la cual se generaron las lecturas de secuencia. Estas inferencias pueden ser útiles debido a que la secuenciación comprende típicamente solo la lectura de subconjunto particular de polinucleótidos amplificados, totales, globales. Por lo tanto, uno no puede estar seguro que cada polinucleótido de origen se representará por al menos una lectura de secuencia en la colección de lecturas de secuencia. [000266] Esta inferencia es el número de polinucleótidos únicos de origen en la mezcla original. Esta inferencia se puede hacer en base al número de familias únicas en las cuales se pueden agrupar las lecturas de secuencia y el número de lecturas de secuencia en cada familia. En este caso, una familia se refiere a una colección de lecturas de secuencia trazadle de regreso a un polinucleótido original de origen. La inferencia se puede hacer usando métodos estadísticos bien conocidos. Por ejemplo, si la agrupación produce muchas familias, cada una representada por una o unas pocas progenies, entonces se puede inferir que la población original incluyó más polinucleótidos únicos de origen que no se secuenciaron. Por otra parte, si la agrupación produce solo unas pocas familias, cada familia representada por muchas progenie, entonces se puede inferir que la mayoría de los polinucleótidos únicos en la población de origen se representan por al menos un grupo de lecturas de secuencia en esa familia. [000267] Otra inferencia es la frecuencia de una base o secuencia de bases en un sitio particular en una mezcla original de polinucleótidos. Esta inferencia se puede hacer en base al número de familias únicas en las cuales se pueden agrupar las lecturas de secuencia y el número de lecturas de secuencia en cada familia. El análisis de las lecturas automáticas de base en un sitio en una familia de lecturas de secuencia, se asigna una puntuación de confianza a cada secuencia o lectura automática de base particular. Entonces, tomando en consideración la puntuación de confianza para cada llamada automática de base en una pluralidad de las familias, se determina la frecuencia de cada base o secuencia en el sitio.
V. Detección de la variación en el número de copias A. Detección de la variación en el número de copias usando una muestra individual [000268] La figura 1 es un diagrama, 100, que muestra una estrategia para la detección de la variación en el número de copias en un sujeto individual. Como se muestra aquí, se pueden implementar como sigue los métodos de detección de la variación en el número de copias. Después de la extracción y aislamiento de polinucleótidos libres de células en el paso 102, se puede secuenciar una muestra única individual por una plataforma de secuenciación de ácidos nucleicos, conocida en la téenica en el paso 104. Este paso genera una pluralidad de lecturas de secuencia de fragmento genómico. En algunos casos, estas lecturas de secuencia pueden contener información de código de barras. En otros ejemplos, no se utilizan códigos de barras. Después de la secuenciación, las lecturas se asignan a una puntuación de calidad. Una puntuación de calidad puede ser una representación de lecturas que indica si estas lecturas pueden ser útiles en el análisis subsiguiente en base a un umbral. En algunos casos, algunas lecturas no son de calidad suficiente o de longitud suficiente para realizar el paso subsiguiente de correlación. Las lecturas de secuenciación con una puntuación de calidad al menos 90%, 95%, 99%, 99.9%, 99.99% o 99.999% se pueden filtrar de los datos. En algunos casos, las lecturas de secuenciación asignadas a una puntuación de calidad menor de 90%, 95%, 99%, 99.9%, 99.99% o 99.999% se pueden filtrar del conjunto de datos. En el paso 106, las lecturas de fragmento genómico que cumplen con un umbral especificado de puntuación de calidad se correlacionan a un genoma de referencia, o una secuencia de plantilla que se conoce que no contiene variaciones en el número de copias. Después de la alineación por correlación, las lecturas de secuencia se asignan a una puntuación de correlación. Una puntuación de correlación puede ser una representación o lecturas correlacionadas de regreso a la secuencia de referencia que indica si cada posición es o no correlacionable de manera única. En casos, las lecturas pueden ser secuencias no relacionadas al análisis de la variación en el número de copias. Por ejemplo, algunas lecturas de secuencia pueden originarse de polinucleótidos contaminantes. Las lecturas de secuenciación con una puntuación de correlación de al menos 90%, 95%, 99%, 99.9%, 99.99% o 99.999% se pueden filtrar del conjunto de datos. En otros casos, las lecturas de secuenciación asignadas a una puntuación de correlación menor de 90%, 95%, 99%, 99.9%, 99.99% o 99.999% se pueden filtrar en el conjunto de datos. [000269] Después de la filtración y correlación de los datos, la pluralidad de lecturas de secuencia genera una región cromosómica de cobertura. En el paso 108 estas regiones cromosómicas se pueden dividir en depósitos o ventanas de longitud variable. Un depósito de ventana puede ser de al menos 5 kb, 10, kb, 25 kb, 30 kb, 35 kb, 40 kb, 50 kb, 60 kb, 75 kb, 100 kb, 150 kb, 200 kb, 500 kb, o 1000 kb. Un depósito o ventana puede tener también bases hasta 5 kb, 10, kb, 25 kb, 30 kb, 35 kb, 40 kb, 50 kb, 60 kb, 75 kb, 100 kb, 150 kb, 200 kb, 500 kb o 1000 kb. Un depósito o ventana también pueden ser de aproximadamente 5 kb, 10, kb, 25 kb, 30 kb, 35 kb, 40 kb, 50 kb, 60 kb, 75 kb, 100 kb, 150 kb, 200 kb, 500 kb, o 1000 kb. [000270] Para la normalización de cobertura en el paso 110, cada ventana o depósito se selecciona para contener aproximadamente el mismo número de bases correlacionadles. En algunos casos, cada ventana o depósito en una región cromosómica pueden contener el número exacto de bases correlacionadles. En otros casos, cada ventana o depósito pueden contener un número diferente de bases correlacionables. Adicionalmente, cada ventana o depósito pueden no estar traslapada con una ventana o depósito adyacente. En otros casos, una ventana o depósito puede traslaparse con otra ventana o depósito adyacente. En algunos casos, una ventana o depósito puede traslaparse por al menos 1 pb, 2, pb, 3 pb, 4 pb, 5, pb, 10 pb, 20 pb, 25 pb, 50 pb, 100 pb, 200 pb, 250 pb, 500 pb, o 1000 pb. En otros casos, una ventana o depósito puede traslaparse por hasta 1 pb, 2, pb, 3 pb, 4 pb, 5, pb, 10 pb, 20 pb, 25 pb, 50 pb, 100 pb, 200 pb, 250 pb, 500 pb, o 1000 pb. En algunos casos, una ventana o depósito puede traslaparse por aproximadamente 1 pb, 2, pb, 3 pb, 4 pb, 5, pb, 10 pb, 20 pb, 25 pb, 50 pb, 100 pb, 200 pb, 250 pb, 500 pb, o 1000 pb. [000271] En algunos casos, cada una de las regiones de ventana se puede hacer de un tamaño de modo que contengan aproximadamente el mismo número de bases correlacionables de manera única. La capacidad de correlación de cada base que comprende una región de ventana se determina y usar para generar un archivo de capacidad de correlación que contiene una representación de lecturas de las referencias que se correlacionan de regreso a la referencia para cada archivo. El archivo de capacidad de correlación contiene una fila por cada posición, indicando si cada posición es o no correlacionable de manera única. [000272] Adicionalmente, las ventanas predefinidas, conocidas a través del genoma por ser duras de secuenciar, o contener una desviación de GC sustancialmente alta, se pueden filtrar del conjunto de datos. Por ejemplo, las regiones que se conoce que caen cerca del centromero de los cromosomas (es decir, ADN centromérico) se conoce que contienen secuencias altamente repetitivas que pueden producir resultados positivos falsos. Estas regiones se pueden filtrar. Otras regiones del genoma, tal como las regiones que contienen una concentración inusualmente alta de otras secuencias altamente repetitivas tal como ADN de microsatélite, se pueden filtrar del conjunto de datos. [000273] El número de ventanas analizadas también puede variar. En algunos casos, se analizan 10, 20, 30, 40, 50, 100, 200, 500, 1000, 2000, 5000, 10,000, 20,000, 50,000 o 100,000 ventanas. En otros casos, el número de ventanas analizadas es hasta 10, 20, 30, 40, 50, 100, 200, 500, 1000, 2000, 5000, 10,000, 20,000, 50,000 o 100,000 ventanas. [000274] Para un genoma de ejemplo derivado de las secuencias de polinucleótidos libres de células, el siguiente paso comprende determinar la cobertura de lectura para cada región de ventana. Esto se puede realizar usando ya sea lecturas con códigos de barras, o sin códigos de barras. En casos sin códigos de barras, los pasos previos de correlación proporcionarán cobertura de diferentes posiciones base. Las lecturas de secuencia que tienen suficientes puntuaciones de correlación y calidad y que caen dentro de las ventanas de cromosoma que no se filtran, se pueden contar. El número de lecturas de cobertura se puede asignar a una puntuación por cada posición correlacionadle. En casos que comprenden los códigos de barras, todas las secuencias con el mismo código de barras, propiedades físicas o combinación de los dos se pueden colapsar en una lectura, puesto que se derivan todas de la molécula de origen de muestra. Este paso reduce las desviaciones que se pueden haber introducido durante cualquiera de los pasos precedentes, tal como los pasos que comprenden la amplificación. Por ejemplo, si una molécula se amplifica 10 veces, pero otra se amplifica 1000 veces, cada molécula solo se representa una vez después del colapso, negando de este modo el efecto de una amplificación desigual. Solo las lecturas con códigos de barras únicos se pueden contar para cada posición correlacionadle y tener influencia en la puntuación asignada. [000275] Las secuencias de consenso se pueden generar de familias de lecturas de secuencias por cualquier método conocido en la teenica. Estos métodos incluyen, por ejemplo, métodos lineales o no lineales para construir secuencias de consenso (tal como votación, promedio, estadístico, máximo a posteriori o detección de probabilidad máxima, programación dinámica, Bayesiano, Markov oculto o métodos en máquina de vector de soporte, etcétera.) derivadas de la teoría de comunicación digital, teoría de información, o bioinformática. [000276] Después de que se ha determinado la cobertura de lectura de secuencia, se aplica un algoritmo de modelado estocástico para convertir la cobertura normalizada de la lectura de secuencia de ácido nucleico para cada región de ventana a los estados discretos del número de copias. En algunos casos, este algoritmo puede comprender uno o más de lo siguiente: modelo Markov oculto, programación dinámica, máquinas de vectores soporte, red bayesiana, descodificación trellis, decodificación Viterbi, maximización por expectación, metodologías de filtración Raiman y redes neuronales. [000277] En el paso 112, los estados discretos del número de copias de cada región de ventana se pueden utilizar para identificar la variación en el número de copias en las regiones cromosómicas. En algunos casos, todas las regiones adyacentes de ventana con el mismo número de copias se pueden fusionar en un segmento para reportar la presencia o ausencia del estado de variación de número de copias. En algunos casos, se pueden filtrar las varias ventanas antes de que se fusionen con otros segmentos. [000278] En el paso 114, la variación en el número de copias se puede reportar como una gráfica, que indica varias posiciones en el genoma y un incremento o disminución correspondiente o mantenimiento de la variación en el número de copias en cada posición respectiva. Adicionalmente, se puede usar la variación en el número de copias para reportar un porcentaje de puntuación que indica cuanto material de enfermedad (o ácidos nucleicos que tienen variación en el número de copias) existe en la muestra de polinucleótido libre de células. [000279] Un método para determinar la variación en el número de copias se muestra en la figura 10. En este método, después de agrupar las lecturas de secuencia en familias generadas de un polinucleótido individual de origen (1010), las familias se cuantifican, por ejemplo, al determinar el número de familias que correlacionan a cada una de una pluralidad de diferentes ubicaciones de secuencia de referencia. Se pueden determinar los CNV directamente al comparar una medida cuantitativa de familias en cada uno de una pluralidad de diferentes sitios (1016b). De manera alternativa, se puede inferir una medida cuantitativa de familias en la población de polinucleótidos marcados de origen usando tanto una medida cuantitativa de familias como una medida cuantitativa de miembros de familia en cada familia, por ejemplo, como se analiza anteriormente. Entonces, se puede determinar el CNV al comparar la medida inferida de cantidad en la pluralidad de sitios. En otras modalidades, un planteamiento híbrido se puede tomar por lo que una inferencia similar de cantidad original se puede hacer después de la normalización de la desviación representacional durante el proceso de secuenciación, tal como desviación de GC, etcétera.
B. Detección de la variación en el número de copias usando muestras apareadas [000280] La detección en la variación en el número de copias de muestras apareadas comparte muchos de los pasos y parámetros como el planteamiento de muestra individual descrita en la presente. Sin embargo, como se representa en 200 en la figura 2 de la detección de variación del número de copias usando muestras apareadas, requiere la comparación de la cobertura de secuencia a una muestra de control en lugar de compararla a la capacidad de correlación prevista del genoma. Este planteamiento puede ayudar en la normalización a través de ventanas. [000281] La figura 2 es un diagrama, 200 que muestra una estrategia para la detección de la variación en el número de copias en sujetos apareados o empares. Como se muestra en la presente, los métodos de detección de la variación en el número de copias se pueden iplementar como sigue. En el paso 204, se puede secuenciar una muestra única individual por una plataforma de secuenciación de ácidos nucleicos conocida en la téenica después de la extracción y aislamiento de la muestra en el paso 202. Este paso genera una pluralidad de lecturas de secuencia de fragmento genómico. Adicionalmente, se toma una muestra o muestra de control de otro sujeto. En algunos casos, el sujeto de control puede ser un sujeto que no se conoce que tiene enfermedad, en tanto que el otro sujeto puede tener o estar en riesgo de una enfermedad particular. En algunos casos, estas lecturas de secuencia pueden contener información de código de barras. En otros ejemplos, no se utilizan códigos de barras. Después de la secuenciación, las lecturas se asignan a una puntuación de calidad. En algunos casos, algunas lecturas no son de calidad suficiente ni de longitud suficiente para realizar el paso subsiguiente de correlación. Las lecturas de secuenciación con una puntuación de calidad de al menos 90%, 95%, 99%, 99.9%, 99.99% o 99.999% se pueden filtrar del conjunto de datos. En otros casos, las lecturas de secuenciación asignadas a una puntuación de calidad menor de 90%, 95%, 99%, 99.9%, 99.99% o 99.999% se pueden filtrar del conjunto de datos. En el paso 206, las lecturas de fragmento genómico que cumplen con un umbral específico de puntuación de calidad se correlacionan a un genoma de referencia, o una secuencia de plantilla que se conoce que no contiene variaciones en el número de copias. Después de la alineación por correlación, las lecturas de secuencia se asignan a una puntuación de correlación. En casos, las lecturas pueden ser secuencias no relacionadas al análisis de la variación en el número de copias. Por ejemplo, algunas lecturas de secuencia pueden originarse de polinucleótidos contaminantes. Las lecturas de secuenciación con una puntuación de correlación de al menos 90%, 95%, 99%, 99.9%, 99.99% o 99.999% se pueden filtrar del conjunto de datos. En otros casos, lecturas de secuenciación asignadas a una puntuación de correlación de menos de 90%, 95%, 99%, 99.9%, 99.99% o 99.999% se pueden filtrar del conjunto de datos. [000282] Después de filtrar y correlacionar los datos, la pluralidad de lecturas de secuencia genera una región cromosómica de cobertura para cada uno de los sujetos de prueba y de control. En el paso 208, estas regiones cromosómicas se pueden dividir en ventanas o depósitos de longitud variable. Una ventana o depósito puede ser de al menos 5 kb, 10, kb, 25 kb, 30 kb, 35, kb, 40 kb, 50 kb, 60 kb, 75 kb, 100 kb, 150 kb, 200 kb, 500 kb, o 1000 kb. Una ventana o depósito también puede ser de menos de 5 kb, 10, kb, 25 kb, 30 kb, 35, kb, 40 kb, 50 kb, 60 kb, 75 kb, 100 kb, 150 kb, 200 kb, 500 kb, o 1000 kb. [000283] Para normalización de la cobertura en el paso 210, cada ventana o depósito se selecciona para contener aproximadamente el mismo número de bases correlacionables para cada uno de los sujetos de prueba y de control. En algunos casos, cada ventana o depósito en una región cromosómica puede contener el número exacto de bases correlacionables. En otros casos, cada ventana o depósito puede contener un número diferente de bases correlacionables. Adicionalmente, cada ventana o depósito puede no estar traslapada con una ventaja o depósito adyacente. En otros casos, una ventana o depósito puede traslaparse con otra ventana o depósito adyacente. En algunos casos, una ventana o depósito puede traslaparse por al menos 1 pb, 2, pb, 3 pb, 4 pb, 5, pb, 10 pb, 20 pb, 25 pb, 50 pb, 100 pb, 200 pb, 250 pb, 500 pb, o 1000 pb. En otros casos, una ventana de depósito puede traslaparse por menos de 1 pb, 2, pb, 3 pb, 4 pb, 5, pb, 10 pb, 20 pb, 25 pb, 50 pb, 100 pb, 200 pb, 250 pb, 500 pb, o 1000 pb. [000284] En algunos casos, cada una de las regiones de ventana se hace un tamaño de modo que contenga aproximadamente el mismo número de bases correlacionables de manera única para cada uno de los sujetos de prueba de control. La capacidad de correlación de cada base que comprende una región de ventana se determina y usa para generar un archivo de la capacidad de correlación que contiene una representación de lecturas de las referencias que se correlacionaron de regreso a la referencia para cada archivo. El archivo de capacidad de correlación contiene una fila por cada posición, indicando si cada posición es o no correlacionable de forma única. [000285] Adicionalmente, las ventanas predefinidas, conocidas a través del genoma por ser difíciles de secuenciar, o contener una desviación de GC sustancialmente alta, se filtran del conjunto de datos. Por ejemplo, las regiones que caen cerca del centrómero de los cromosomas (es decir, ADN centromérico) se conoce que contienen secuencias altamente repetitivas que pueden producir resultados positivos falsos. Estas regiones se pueden filtrar. Otras regiones del genoma, tal como regiones que contienen una concentración inusualmente alta de otras secuencias altamente repetitivas tal como ADN de microsatélite, se pueden filtrar del conjunto de datos. [000286] También puede variar el número de ventanas analizadas. En algunos casos, al menos 10, 20, 30, 40, 50, 100, 200, 500, 1000, 2000, 5,000, 10,000, 20,000, 50,000 o 100,000 ventanas se analizan. En otros casos, se analizan menos de 10, 20, 30, 40, 50, 100, 200, 500, 1000, 2000, 5,000, 10,000, 20,000, 50,000 o 100,000 ventanas. [000287] Un genoma de ejemplo derivado de las secuencias de polinucleótidos libres de células, el siguiente paso comprende determinar la cobertura de lectura para cada región de ventana para cada uno de los sujetos de prueba y de control. Esto se puede realizar usando ya sea lecturas con códigos de barras, o sin códigos de barras. En caso sin códigos de barras, los pasos previos de correlación proporcionarán cobertura de diferentes posiciones base. Las lecturas de secuencia que tienen suficientes puntuaciones de correlación y calidad y que caen dentro de las ventanas de cromosoma que no se filtran, se pueden contar. El número de lecturas de cobertura se puede asignar a una puntuación por cada posición correlacionadle. En casos que comprenden códigos de barras, todas las secuencias con el mismo código de barra se pueden colapsar en una lectura, puesto que se derivan todas de la molécula de origen de muestra. Este paso reduce las desviaciones que se pueden haber introducido durante cualquiera de los pasos precedentes, tal como los pasos que comprenden amplificación. Solo las lecturas con códigos de barras únicos se pueden contar para cada posición correlacionadle y tener influencia en la puntuación asignada. Por esta razón, es importante que el paso de ligación de códigos de barras se realice de una manera optimizada para producir la cantidad más baja de desviación. [000288] Al determinar la cobertura de lectura de ácido nucleico para cada ventana, la cobertura de cada ventana se puede normalizar por la cobertura media de esa muestra. Usando este planteamiento, puede ser deseable secuenciar tanto el sujeto de prueba como el control bajo condiciones similares. La cobertura de lectura para cada ventana entonces se puede expresar como una relación a través de ventanas similares. [000289] Las relaciones de cobertura de lectura de ácidos nucleicos para cada ventana el sujeto de prueba se puede determinar al dividir la cobertura de lectura de cada región de ventana de la muestra de prueba con la cobertura de lectura de una región de ventana correspondiente de la muestra de control. [000290] Después de que se han determinado las relaciones de cobertura de lectura de secuencia, se aplica un algoritmo de modelado estocástico para convertir las relaciones normalizadas para cada región de ventana en estados discretos de número de copias. En algunos casos, este algoritmo puede comprender un Modelo Markov Oculto. En otros casos, el modelo estocástico puede comprender programación dinámica, máquina de vector de soporte, modelado Bayesiano, modelado probabilístico, descodificación trellis, descodificación Viterbi, maximización por expectación, metodologías de filtración Raiman, o redes neurales. [000291] En el paso 212, los estados discretos del número de copias de cada región de ventanas se pueden utilizar para identificar la variación en el número de copias en las regiones cromosómicas. En algunos casos, todas las regiones adyacentes de ventana con el mismo número de copias se pueden fusionar en un segmento para reportar la presencia o ausencia del estado de variación en el número de copias. En algunos casos, se puede infiltrar varias ventanas antes de que se fusionen con otros segmentos. [000292] En el paso 214, la variación en el número de copias se puede reportar como una gráfica, que indica varias posiciones en el genoma y un incremento o disminución correspondiente o mantenimiento de la variación en el número de copias en cada posición respectiva. Adicionalmente, se puede usar la variación en el número de copias para reportar una puntuación de porcentaje que indica cuanto material de enfermedad existe en la muestra de polinucleótidos libres de células.
VI. Detección de Mutaciones Raras [000293] La detección de mutaciones raras comparte características similares a ambos planteamientos de la variación en el número de copias. Sin embargo, como se representa en la Figura 3, 300, la detección de mutaciones raras usa la comparación de la cobertura de secuencia a una muestra de control o secuencia de referencia en lugar de compararla a la capacidad de correlación relativa del genoma. Este planteamiento puede ayudar en la normalización a través de ventanas. [000294] En general, se puede realizar la detección de mutaciones raras en regiones selectivamente enriquecidas del genoma o transcriptoma purificado y aislado en el paso 302. Como se describe en la presente, las regiones específicas, que pueden incluir pero no se limitan a genes, oncogenes, genes supresores de tumor, promotores, elementos de secuencia reguladora, regiones no codificadoras, ARNmi, ARNsn y similares se pueden amplificar de manera selectiva de una población total de polinucleótidos libres de células. Esta se puede realizar como se describe en la presente. En un ejemplo, se puede usar secuenciación multiplex, con o sin marcas de código de barras para secuencias individuales de polinucleótido. En otros ejemplos, se puede realizar la secuenciación usando cualquier plataforma de secuenciación de ácidos nucleicos, conocida en la téenica. Este paso genera una pluralidad de lecturas de secuencia de fragmento genómico como en el paso 304. Adicionalmente, se obtiene una secuencia de referencia de una muestra de control, tomada de otro sujeto. En algunos casos, el sujeto de control puede ser un sujeto que no se conoce que tiene anormalidades genéticas conocidas ni enfermedad. En algunos casos, estas lecturas de secuencia pueden contener información de código de barras. En otros ejemplos, no se utilizan códigos de barras. Después de la secuenciación, se asignan lecturas a una puntuación de calidad. Una puntuación de calidad puede ser una representación de lecturas que indica si estas lecturas pueden ser útiles en el análisis subsiguiente en base a un umbral. En algunos casos, algunas lecturas no son de calidad suficiente ni de longitud suficiente para realizar el paso subsiguiente de correlación. Las lecturas de secuenciación con una puntuación de calidad de al menos 90%, 95%, 99%, 99.9%, 99.99% o 99.999% se pueden filtrar del conjunto de datos. En otros casos, las lecturas de secuenciación asignadas a una puntuación de calidad de al menos 90%, 95%, 99%, 99.9%, 99.99% o 99.999% se pueden filtrar del conjunto de datos. En el paso 306, las lecturas de fragmento genómico que cumplen con un umbral específico de puntuación de calidad se correlacionan a un genoma de referencia, o una secuencia de referencia que se conoce que no contiene mutaciones raras. Después de la alineación por correlación, las lecturas de secuencias se asignan a una puntuación de correlación. Una puntuación de correlación puede ser una representación o lecturas correlacionadas de regreso a la secuencia de referencia que indica si cada posición es o no es correlacionadle de manera única. En casos, las lecturas pueden ser secuencias no relacionadas al análisis de mutaciones raras. Por ejemplo, algunas lecturas de secuencia pueden originarse de polinucleótidos contaminantes. Las lecturas de secuenciación con una puntuación de correlación de al menos 90%, 95%, 99%, 99.9%, 99.99% o 99.999% se pueden filtrar del conjunto de datos en otros casos, las lecturas de secuenciación asignada a una puntuación de correlación de menos de 90%, 95%, 99%, 99.9%, 99.99% o 99.999% se pueden filtrar del conjunto de datos. [000295] Para cada base correlacionadle, las bases que no cumplan con el umbral mínimo para la capacidad de correlación o pases de baja calidad, se pueden reemplazar por las correspondientes bases como se encuentra en la secuencia de referencia. [000296] Después de la filtración y correlación de datos, se analiza las bases variantes encontradas entre las lecturas de secuencia obtenidas del sujeto y la secuencia de referencia. [000297] Para un genoma de ejemplo derivado de las secuencias de polinucleótidos libres de célula, el siguiente paso comprende determinar la cobertura de lectura para cada posición base correlacionable. Esto se puede realizar usando ya sea lecturas con códigos de barras, o sin códigos de barras. En casos sin códigos de barras, los pasos previos de correlación proporcionarán cobertura de diferentes posiciones bases. Se pueden contar lecturas de secuencia que tienen suficientes puntuaciones de correlación y calidad. El número de lecturas de cobertura se puede asignar a una puntuación por cada posición correlacionable. En casos que comprenden códigos de barras, todas las secuencias con el mismo código de barras se pueden colapsar en una lectura de consenso, puesto que se derivan todas de la molécula de origen de muestra. La secuencia para cada base se alinea como la lectura de nucleótido más dominante para esa ubicación específica. Adicionalmente, el número de moléculas únicas se puede contar en cada posición para derivar la cuantificación simultánea en cada posición. Este paso reduce las desviaciones que se pueden haber introducido durante cualquiera de los pasos precedentes, tal como pasos que comprenden amplificación. Solo las lecturas con códigos de barras únicos se pueden contar para cada posición correlacionable y tener influencia en la puntuación asignada. [000298] Una vez que se puede determinar la cobertura de lectura y se identifican las bases variantes con relación a la secuencia de control de cada lectura, se puede calcular la frecuencia de las bases variantes como el número de lecturas que contienen la variante dividido por el número total de lecturas. Esto se puede expresar como una relación en cada posición correlacionable en el genoma. [000299] Para cada posición base, las frecuencias de los cuatro nucleótidos, citocina, guanina, timina, adenina se analizan en comparación a la secuencia de referencia. Se aplica un algoritmo de modelado estocástico o estadístico para convertir las relaciones normalizadas para cada posición correlacionable para reflejar los estados de frecuencia para cada variante base. En algunos casos, este algoritmo puede comprender uno o más de lo siguiente. Modelo Markov Oculto, programación dinámica, máquina de vector de soporte, modelado Bayesiano o probabilístico, descodificación trellis, descodificación Viterbi, maximización por expectación, metodologías de filtración Raiman y redes neurales. [000300] En el paso 312, los estados discretos de mutaciones raras de cada posición base se pueden utilizar para identificar una variante base con alta frecuencia de varianza en comparación a la línea base de la secuencia de referencia. En algunos casos, la línea base puede representar una frecuencia de al menos 0.0001%, 0.001%, 0.01%, 0.1%, 1.0%, 2.0%, 3.0%, 4.0% 5.0%, 10%, o 25%. En otros casos la línea base puede representar una frecuencia de al menos 0.0001%, 0.001%, 0.01%, 0.1%, 1.0%, 2.0%, 3.0%, 4.0% 5.0%.10%, o 25%. En algunos casos, todas las posiciones base adyacentes con la variante base o mutación base se pueden fusionar en un segmento para reportar la presencia o ausencia de una mutación rara. En algunos casos, las varias posiciones se pueden filtrar antes de que se fusionen con otros segmentos. [000301] Después del cálculo de las secuencias de varianza para cada posición base, la variante con la mayor desviación para una posición específica en la secuencia derivada del sujeto en comparación a la secuencia de referencia se identifica como una mutación rara. En algunos casos, una mutación rara puede ser una mutación de cáncer. En otros casos, una mutación rara se puede correlacionar con un estado de enfermedad. [000302] Una variante o mutación rara puede comprender una normalidad genética que incluye, pero no se limita a una sustitución de base individual, o pequeños indeles, transversiones, transcolocaciones, inversión, supresiones, truncamientos o truncamientos génicos. En algunos casos, una mutación rara puede ser a lo mucho de l, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15 o 20 nucleótidos de longitud. En otros casos una mutación rara puede ser de al menos 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15 o 20 nucleótidos de longitud. [000303] En el paso 314, la presencia o ausencia de una mutación se puede reflejar en forma gráfica, indicando varias posiciones en el genoma y un incremento o disminución correspondiente o mantenimiento de una frecuencia de mutación en cada posición respectiva. Adicionalmente, se pueden usar mutaciones raras para reportar una puntuación de porcentaje que indica cuanto material de enfermedad existe en la muestra de polinucleótidos libres de células. Una puntuación de confianza puede acompañar a cada mutación detectada, dada la estadística conocida de las varianzas típicas en posiciones reportadas en secuencias de referencia sin enfermedad. También se pueden clasificar las mutaciones en orden de abundancia en el sujeto o clasificar por importancia clínicamente accionable. [000304] La Figura 11 muestra un método para inferir la frecuencia de una base o secuencia de bases en un sitio particular en una población de polinucleótidos. Las lecturas de secuencia se agrupan en familias generadas de un polinucleótido marcado original (1110). Para cada familia, una o más bases en el sitio o locus se asigna cada uno a una puntuación de confianza. La puntuación de confianza se puede asignar por cualquiera de varios métodos estadísticos conocidos y se puede basar, al menos en parte, en la frecuencia en la cual aparece una base entre las lecturas de secuencia que corresponden a la familia (1112). Por ejemplo, la puntuación de confianza puede ser la frecuencia a la cual aparece la base entre las lecturas de secuencia. Como otro ejemplo, para cada familia, se puede construir un modelo Markov oculto, tal como una probabilidad máxima o decisión máxima posterior se puede hacer en base a la frecuencia de ocurrencia de una base particular en una familia individual. Como parte en este modelo, la probabilidad de error y puntuación resultante de confianza para una decisión particular se puede producir también. Una frecuencia de la base en la población original entonces se puede asignar en base a las puntuaciones de confianza entre las familias (1114).
VII. Aplicaciones A. Detección Temprana de Cáncer [000305] Se pueden detectar numerosos cánceres usando los métodos y sistemas descritos en la presente. Las células de cáncer, como la mayoría de las células, se pueden caracterizar por una proporción de cambio, en la cual las células viejas mueren y se reemplazan por células más nuevas. En general, las células muertas en contacto con la vasculatura en un sujeto determinado, pueden liberar ADN o fragmentos de ADN en el torrente sanguíneo. Esto también es válido para células de cáncer durante las varias etapas de la enfermedad. Las células de cáncer también se pueden caracterizar, dependiendo de la etapa de la enfermedad, por varias anormalidades genéticas tal como variación en el número de copias así como mutaciones raras. Este fenómeno se puede usar para detectar la presencia o ausencia de cánceres en individuos, usando los métodos y sistemas descritos en la presente. [000306] Por ejemplo, se puede extraer sangre de sujetos en riesgo de cáncer y preparar como se describe en la presente para generar una población de polinucleótidos libres de células. En un ejemplo, esto puede ser ADN libre de células. Los sistemas y métodos de la descripción se pueden emplear para detectar mutaciones raras o variaciones en el número de copias que pueden existir en ciertos cánceres presentes. El método puede ayudar a detectar la presencia de células cancerosas en el cuerpo, a pesar de la ausencia de síntomas u otras marcas de enfermedad. [000307] Los tipos y el número de cánceres que se pueden detectar pueden incluir pero no se limitan a cánceres sanguíneos, cánceres de cerebro, cánceres de pulmón, cánceres de piel, cánceres de nariz, cánceres de garganta, cánceres de hígado, cánceres de hueso, linfornas, cánceres pancreáticos, cánceres de piel, cánceres de intestino, cánceres rectales, cánceres de tiroides, cánceres de vejiga, cánceres de riñón, cánceres de boca, cánceres de estómago, cánceres de estado sólido, tumores heterogéneos, tumores homogéneos y similares. [000308] En la detección temprana de cánceres, para detectar los cánceres se puede utilizar cualquiera de los sistemas o métodos descritos en la presente, incluyendo detección de mutaciones raras o detección de la variación en el número de copias. Estos sistemas y métodos se pueden usar para detectar cualquier número de anormalidades genéticas que pueden provocar o resultad de cánceres. Estos pueden incluir pero no se limitan a mutaciones, mutaciones raras, indeles, variaciones en el número de copias, transversiones, transcolocaciones, inversión, supresión, aneploidia, aneploidia parcial, poliploidia, inestabilidad crosómica, alteraciones de estructura cromosómica, o fusiones génicas, fusiones de cromosomas, truncamientos génicos, amplificación génica, duplicaciones génicas, lesiones cromosómicas, lesiones de ADN, cambios anormales en las modificaciones químicas de ácido nucleico, cambios anormales en los patrones epigenéticos, cambios anormales en la infección por metilación de ácidos nucleicos y cáncer. [000309] Adicionalmente, los sistemas y métodos descritos de la presente también se pueden usar para ayudar a caracterizar ciertos cánceres. Los datos genéticos producidos de los sistemas y métodos de esta descripción pueden permitir que los practicantes tengan ayuda para caracterizar mejor una forma específica de cáncer. Muchas veces, los cánceres son heterogéneos tanto en composición como en la etapa. Los datos del perfil genético pueden permitir la caracterización de sub-típicos específicos de cáncer que pueden ser importantes en la diagnosis o tratamiento de ese sub-tipo específico. Esta información también puede proporcionar a un sujeto o practicante vistas con respecto a la prognosis de un tipo específico de cáncer.
B. Prognosis y Monitoreo de Cáncer [000310] Los sistemas y métodos proporcionados en la presente se pueden usar para monitorizar cánceres ya conocidos u otras enfermedades en un sujeto particular. Eso puede permitir ya sea un sujeto o practicante adaptar opciones de tratamiento de acuerdo con el progreso de la enfermedad. En este ejemplo, los sistemas y métodos descritos en la presente se pueden usar para construir perfiles genéticos de un sujeto particular durante el transcurso de la enfermedad. En algunos casos, los cánceres pueden progresar, llegando a ser más agresivos y genéticamente inestables. En otros ejemplos, los cánceres pueden permanecer benignos, inactivos, durmientes o en remisión. El sistema y métodos de esta descripción pueden ser útiles en la determinación del progreso, remisión o recurrencia de la enfermedad. [000311] Adicionalmente, los sistemas y métodos descritos en la presente pueden ser útiles en la determinación de la eficiencia de una opción particular de tratamiento. En un ejemplo, las opciones exitosas de tratamiento pueden incrementar realmente la cantidad de variación en el número de copias o mutaciones raras detectadas en la sangre del sujeto si el tratamiento es exitoso puesto que más cánceres pueden morir y derramar ADN. En otros ejemplos, esto no puede presentarse. En otro ejemplo, quizá ciertas opciones de tratamiento se pueden correlacionar con perfiles genéticos de cánceres con el paso del tiempo. Esta correlación puede ser útil al seleccionar una terapia. Adicionalmente, si se observa un cáncer que está en remisión después del tratamiento, los sistemas y métodos descritos en la presente pueden ser útiles en el monitoreo de la enfermedad residual o de la recurrencia de la enfermedad. [000312] Por ejemplo, las mutaciones que se presentan dentro de un intervalo de frecuencia que empieza al nivel de umbral, se pueden determinar del ADN en una muestra de un sujeto, por ejemplo, un paciente. Las mutaciones pueden ser, por ejemplo, mutaciones relacionadas a cáncer. La frecuencia puede variar de, por ejemplo, al menos 0.1%, al menos 1%, o al menos 5% a 100%. La muestra puede ser, por ejemplo, ADN libre de células o una muestra tumoral. Se puede prescribir un transcurso de tratamiento en base a cualquiera o todas las mutaciones que se presenten dentro del intervalo de frecuencia incluyendo por ejemplo sus frecuencias. Se puede tomar una muestra del sujeto en cualquier momento subsiguiente. Se pueden determinar mutaciones que se presenten dentro del intervalo original de frecuencia o un diferente intervalo de frecuencia. El transcurso de tratamiento se puede ajustar en base a las mediciones subsiguientes.
C. Detección Temprana y Monitoreo de Otras Enfermedades o Estado de Enfermedad [000313] Los métodos y sistemas descritos en la presente no se pueden limitar a la detección de mutaciones raras ni a las variaciones en el número de copias, asociadas con solo cánceres. Varias enfermedades e infecciones diferentes pueden dar por resultado otros tipos de condiciones que pueden ser adecuadas para la detección temprana y el monitoreo. Por ejemplo, en ciertos casos, los trastornos genéticos o las enfermedades infecciosas pueden provocar un cierto mosaicismo dentro de un sujeto. Este mosaicismo genético puede provocar variación en el número de copias y mutaciones raras que se pueden observar. En otro ejemplo, los sistemas y métodos de la descripción también se puede usar para monitorizar los genomas de células inmunitarias dentro de cuerpo. Las células inmunitarias, tal como las células B, pueden experimentar expansión clonal rápida en la presencia de ciertas enfermedades. Se pueden monitorizar las expansiones clónales usando la detección de la variación en el número de copias y se pueden monitorizar ciertos estados inmunitarios. En este ejemplo, se puede realizar el análisis de una variación en el número de copias con el paso del tiempo para producir un perfil de cómo puede estar progresando una enfermedad particular. [000314] Además, los sistemas y métodos de esta descripción también se pueden usar para monitorizar infecciones sistémicas por sí mismas, como se puedan provocar por un patógeno tal como una bacteria o virus. La detección de mutaciones raras o la variación en el número de copias se puede usar para determinar cuanta población de patógenos está cambiando durante el transcurso de la infección. Esto puede ser particularmente importante durante infecciones crónicas, tal como V1H/SIDA o infecciones por hepatitis, por lo que los virus pueden cambiar el estado de ciclo de vida y/o mutar en formas más virulentas en el transcurso de la infección. [000315] Aún otro ejemplo en el que los sistemas y métodos de esta descripción se pueden usar es el monitoreo de sujetos de trasplante. En general, el tejido trasplantado experimenta un cierto grado de rechazo por el cuerpo en el trasplante. Los métodos de esta descripción se pueden usar para determinar o perfilar las actividades de rechazo del cuerpo del hospedador, conforme las células inmunitarias intentan destruir el tejido trasplantado. Esto puede ser útil en el monitoreo del estado del tejido trasplantado así como en la alteración del transcursos de tratamiento o prevención del rechazo. [000316] Además, los métodos de la descripción se pueden usar para caracterizarla la heterogeneidad de una condición anormal en un sujeto, el método que comprende general un perfil genético de polinucleótidos extracelulares en el sujeto, en donde el perfil genético comprende una pluralidad de datos que resultan de la variación en el número de copias y análisis de mutaciones raras. En algunos casos, incluyendo pero no limitado a cáncer, una enfermedad puede ser heterogénea. Las células de enfermedad puede no ser idénticas, en el ejemplo de cáncer, se conoce que algunos tumores comprenden diferentes tipos de células tumorales, algunas células en diferentes estados del cáncer. En otros ejemplos, la heterogeneidad puede comprender múltiples focos de la enfermedad. Nuevamente, en el ejemplo de cáncer, puede haber múltiples focos tumorales, quizá donde uno o más focos son el resultado de metástasis que se han propagado de un sitio primario. [000317] Los métodos de esta descripción se pueden usar para generar o perfilar, la huella o conjunto de datos que es una suma de la información de la información genética derivada de diferentes células en una enfermedad heterogénea. Este conjunto de datos puede comprender la variación en el número de copias y los análisis de mutaciones raras, solas o en combinación.
D. Detección Temprana y Monitoreo de Otras Enfermedades o Estados de Enfermedad de Origen Fetal [000318] Adicionalmente, los sistemas y métodos de la descripción se pueden usar para diagnosticar, pronosticar, monitorizar u observar cánceres u otras enfermedades de origen fetal. Es decir, estas metodologías se pueden emplear en una embarazada para diagnosticar, pronosticar, monitorizar u observar cánceres u otras enfermedades en un sujeto no nacido cuyo ADN y otros polinucleótidos puede co-circular con moléculas maternas.
VIII. Terminología [000319] La terminología usada en la presente es para el propósito de describir solo modalidades particulares y no se propone que sea limitante de los sistemas y métodos de esta descripción. Como se usa en la presente, las formas singulares "un", "una" y "es", "la" se propone que incluyan las formas plurales también, a menos que el contexto indique claramente lo contrario. Adicionalmente, el grado que los términos que "que incluye", "incluye", "que tiene", "tiene", "con" o variantes de estos se usan en ya sea la descripción detallada y/o en las reivindicaciones, se propone que estos términos sean incluyentes de una manera similar al término "que comprende". [000320] Se describen anteriormente varios aspectos de los sistemas y métodos de esta descripción con referencia a aplicaciones de ejemplo para ilustración. Se debe entender que se exponen numerosos detalles específicos, relaciones y métodos para proporcionar un entendimiento completo de los sistemas y métodos. Un experto en la téenica, sin embargo, reconocerá fácilmente que los sistemas y métodos se pueden practicar sin uno o más de los detalles específicos o con otros métodos. Esta descripción no se limita por el orden ilustrado de actos o eventos, puesto que algunos actos pueden presentarse en otros órdenes y/o concurrentemente con otros actos o eventos. Además, no todos los actos o eventos ilustrados se requieren para implementar una metodología de acuerdo con esta descripción. [000321] Los intervalos se pueden expresar en la presente como desde "aproximadamente" un valor particular, y/o a "aproximadamente" otro valor particular. Cuando se exprese este intervalo, otra modalidad incluye desde un valor particular y/o al otro valor particular. De manera similar, cuando los valores se expresan como aproximaciones, por el uso del antecedente, "aproximadamente", se entenderá que el valor particular forma otra modalidad. Se entenderá además que los puntos finales de cada uno de los intervalos son significativos tanto con relación al otro punto final independientemente del otro punto final. El término "aproximadamente" como se usa en la presente se refiere a un intervalo que es 15% más o menos desde un valor numérico señalado dentro del contexto del uso particular. Por ejemplo, aproximadamente 10 incluirá un intervalo de 8.5 a 11.5. Sistemas de Computadora [000322] Los métodos de la presente descripción se pueden implementar usando, o con la ayuda de, sistema de computadora, la Figura 15 muestra un sistema de computador a 1501 que se programa o configura de otro modo para implementar los métodos de la presente descripción. El sistema de computadora 1501 puede regular varios aspectos de preparación, secuenciación y/o análisis de muestras. En algunos ejemplos, el sistema de computadora 1501 se configura para realizar el análisis de muestra y la preparación de muestra, incluyendo secuenciación de ácidos nucleicos. [000323] El sistema de computadora 1501 incluye una unidad de procesamiento central (CPU, también "procesador" y "procesador de computadora" en la presente) 1505, que puede ser un procesador de un solo núcleo de múltiples núcleos, o una pluralidad de procesadores para procesamiento paralelo.
El sistema de computadora 1501 también incluye memoria o ubicación de memoria 1510 (por ejemplo, memoria de acceso aleatorio, memoria de lectura únicamente, memoria flash), unidad de almacenamiento electrónico 1515 (por ejemplo, disco duro), interfaz de comunicación 1520 (por ejemplo, adaptador de red) para comunicarse con uno o más sistemas diferentes, y dispositivos periféricos 1525, tal como memoria intermedia, otra memoria, almacenamiento die datos y/o adaptadores para visualización electrónica. La memoria 1510, unidad de almacenamiento 1515, interfaz 1520 y dispositivos periféricos 1525 están en comunicación con la CPU 1505 a través de una barra común de comunicación (líneas sólidas), tal como una tarjeta madre. La unidad de almacenamiento 1515 puede ser una unidad de almacenamiento de datos (o depositario de datos) para almacenar datos. El sistema de computadora 1501 se puede acoplar de manera operativa a una red de computadora ("red") 1530 con la ayuda de la interfaz de comunicación 1520. La red 1530 puede ser la Internet, una Internet y/o extranet, o una intranet y/o extranet que está en comunicación con la Internet. La red 1530 en algunos casos es una red de telecomunicación y/o de datos. La red 1530 puede incluir uno o más servidores de computadora, que pueden permitir computación distribuida, tal como computación en la nube. La red 1530, en algunos casos con la ayuda del sistema de computadora 1501, puede implementar una red de par a par, que puede habilitar positivos acoplados al sistema de computadora 1501 para que se comporten por un cliente o como un servidor. [000324] La CPU 1505 puede ejecutar una secuencia de distribuciones leíbles por máquina, que se pueden incorporar en un programa o software. La instrucción se puede almacenar en una ubicación de memoria, tal como la memoria 1510. Los ejemplos de operaciones realizadas por la CPU 1505 pueden incluir traer, descodificar, ejecutar y rescribir. [000325] La unidad de almacenamiento 1515 puede almacenar archivos tal como controladores, bibliotecas y programas salvados. La unidad de almacenamiento 1515 puede almacenar programas generados por usuario y cesiones registradas, así como salidas asociadas con los programas. La unidad de almacenamiento 1515 puede almacenar datos de usuario, por ejemplo, preferencias de usuario y programas de usuario. El sistema de computadora 1501 en algunos casos puede incluir una o más unidades adicionales de almacenamiento de datos que están externas al sistema de computadora 1501, tal como localizadas en un servidor remoto que está en comunicación con el sistema de computadora 1501 a través de una intranet o la Internet. [000326] El sistema de computadora 1501 puede comunicarse con uno o más sistemas remotos de computadora a través de la red 1530. Por ejemplo, el sistema de computadora 1501 puede comunicarse con un sistema remoto de computadora de un usuario (por ejemplo, operador). Los ejemplos de sistemas remotos de computadora incluyen computadoras personales (por ejemplo, PC portátil), PC de tableta o pizarra (por ejemplo, iPad de AppleR, Galaxy Tab den Samsung®), telefonos, teléfonos inteligentes (por ejemplo, iPhone de Apple®, dispositivo habilitado con Android, Blackberry®), o asistentes digitales personales. El usuario puede tener acceso al sistema de computadora 1501 mediante la red 1530. [000327] Los métodos como se describen en la presente se pueden implementar por medio de código ejecutable en máquina (por ejemplo, procesador de computadora) almacenado en una ubicación de almacenamiento electrónico del sistema de computadora 1501, tal como, por ejemplo, la memoria 1510 o unidad de almacenamiento electrónico 1515. El código leíble por máquina o ejecutable por máquina se puede proporcionar en la forma de software. Durante el uso, el código se puede ejecutar por el procesador 1505. En algunos casos, el código se puede recuperar de la unidad de almacenamiento 1515 y almacenar en la memoria 1510 para acceso rápido por el procesador 1505. En algunas situaciones, la unidad de almacenamiento electrónico 1515 se puede prohibir, y las instrucciones ejecutables por máquina se almacenan en la memoria 1510., [000328] El código se puede pre-compilar y configurar para el uso con una máquina que tiene un procesador adaptado para ejecutar el código, o se puede compilar durante el tiempo de ejecución. El código se puede proporcionar en un lenguaje de programación que se puede seleccionar para permitir que el código se ejecute de una manera pre-compilada o corno-compilada. [000329] Los aspectos de los sistemas y metodos proporcionados en la presente, tal como el sistema de computadora 1501, se pueden incorporar en la programación. Los varios aspectos de la teenología se pueden entender como "productos" o "artículos de manufactura" típicamente en la forma de código ejecutable por máquina (o procesador) y/o datos asociados que se llevan en o incorporan en un tipo de medio leíble por máquina. El código ejecutable por máquina se puede almacenar en una unidad de almacenamiento electrónico, tal como memoria (por ejemplo, memoria de lectura únicamente, memoria de acceso aleatorio, memoria flash) o disco duro. Los medios tipo "almacenamiento" pueden incluir cualquiera o todas de la memoria tangible de las computadoras, procesadores o similares o módulos asociados de esto, tal como varias memorias de semiconductor, unidades de cinta, unidades de disco y similares, que pueden proporcionar almacenamiento no transitorio en cualquier momento para la programación de software. Todo o porciones del software se puede comunicar a veces a través de la Internet u otras varias redes de telecomunicación. Por ejemplo estas comunicaciones pueden permitir la carga del software de una computadora o procesador en otro, por ejemplo, de un servidor de manejo o computadora huésped en la plataforma de computadoras de un servidor de aplicación. De esta manera, otro tipo de medios que pueden tener los elementos de software incluyen ondas ópticas, eléctricas y electromagnéticas, tal como se usan a través de interfaces físicas entre dispositivos locales, a través de redes de línea terrestre óptica y alámbricas y otros varios enlaces aéreos. Los elementos físicos que tienen estas ondas, tal como enlaces alámbricos e inalámbricos, enlaces ópticos o similares, también se pueden considerar como medios que tienen el software. Como se usa en la presente, a menos que se restringa a medios tangibles de "almacenamiento", no transitorios, los términos tal como "medio leíble" por máquina o computadora se refieren a cualquier medio que participe en la provisión de instrucciones a un procesador para ejecución. [000330] Por lo tanto, un medio leíble por máquina, tal como el código ejecutable por computadora, puede tomar muchas formas, que incluyen, pero no se limitan a, un medio de almacenamiento tangible, un medio de onda portadora o medio de transmisión física. Los medios no volátiles de almacenamiento incluyen, por ejemplo, discos ópticos o magnéticos, tal como cualquiera de los dispositivos de almacenamiento en cualquier computadora o similares, tal como se pueden usar para implementar las bases de datos, etc, mostrado en las figuras. Los medios volátiles de almacenamiento incluyen memoria dinámica, tal como la memoria principal de una plataforma de computadora. Los medios de transmisión tangibles incluyen cables coaxiales; alambre de cobre y fibra óptica, incluyendo los alambres que comprenden una barra colectora dentro de un sistema de computadora. Los medios de transmisión de onda portadora pueden tomar la forma de señales eléctricas o electromagnéticas, u ondas acústicas o luminosas tal como aquellas generadas durante las comunicaciones de datos por radiofrecuencia (RF) y por infrarrojo (IR). Las formas comunes de medios leíbles por computadora incluyen por lo tanto por ejemplo: un disco flexible, un disco flexible, disco duro, cinta magnética o cualquier otro medio magnético, un CD-ROM, DVD o DVD-ROM, cualquier otro medio óptico, tarjetas perforadas, cinta de papel o cualquier otro medio de almacenamiento físico con patrones de agujeros, una RAM, una ROM, una PROM y EPROM, una FLASH-EPROM, cualquier otro chip o cartucho de memoria, datos que transporten onda portadora o instrucciones, cables o enlaces que transporten esta onda portadora o cualquier otro medio del cual una computadora puede leer el código y/o datos de programación. Muchas de estas formas de medio leíbles por computadora pueden estar comprendidas en el transporte de una o más secuencias de una o más instrucciones a un procesador para ejecución. [000331] El sistema de computadora 1501 puede incluir o estar en comunicación con una pantalla electrónica que comprende una interfaz de usuario (UI) para proporcionar, por ejemplo, uno o más resultados de análisis de muestras. Los ejemplos de UF incluyen, sin limitación, una interfaz gráfica de usuario (GUI) e interfaz de usuario basado en web.
Ejemplos Ejemplo 1. - Tratamiento y Prognosis de Cáncer de Próstata [000332] Se toma una muestra de sangre de un sujeto con cáncer de próstata. Previamente, un oncólogo determina que el sujeto tiene cáncer de próstata de etapa II y recomienda un tratamiento. Se extrae ADN libre de células, se aísla, se secuencia y se analiza cada 6 meses después de la diagnosis inicial. [000333] El ADN libre de células se extrae y aísla de la sangre usando el protocolo del equipo Qiagen Qubit. Un ADN portador se adiciona para incrementar los rendimientos. El ADN se amplifica usando PCR y cebadores universales. Se secuencian 10 ng de ADN usando un planteamiento de secuenciación masivamente paralelo con un secuenciador personal Illumina MiSeq. Se cubre 90% del genoma del sujeto a través de la secuenciación de ADN libre de células. [000334] Los datos de secuencia se montan y analizan para la variación en el número de copia. Las lecturas de secuencias se correlacionan y comparan a un individuo saludable (control). En base al número de lecturas de secuencia, las regiones cromosómicas se dividen en regiones de traslape de 50 kb. Las lecturas de secuencias se comparan entre sí y se determina una relación para cada posición correlacionadle. [000335] Se aplica un modelo Markov oculto para convertir los números de copias en estados discretos para cada ventana. [000336] Se generan reportes, que correlacionan las posiciones de genoma y la variación en el número de copias mostrada en la Figura 4A (para un individuo saludable) y Figura 4B para el sujeto con cáncer. [000337] Estos reportes, en comparación a otros perfiles de sujetos con resultados conocidos, indican que este cáncer particular es agresivo y resistente a tratamiento. La carga tumoral libre de células es de 21%. El sujeto se monitoriza durante 18 meses. En el mes 18, el perfil de la variación en el número de copias empieza a incrementar dramáticamente, de la carga tumoral libre de células de 21% a 30%. Se hace una comparación con perfiles genéticos de otros sujetos de próstata. Se determina que este incremento en la variación del número de copias indica que el cáncer de próstata está avanzando de la etapa II a la etapa III. El régimen original de tratamiento como se prescribe no está tratando por más tiempo al cáncer. Se prescribe un nuevo tratamiento. [000338] Adicionalmente, estos reportes se presentan y se pueden acceder por vía electrónica a través de la Internet. El análisis de los datos de secuencia se presenta en un sitio diferente de la ubicación del sujeto, el reporte se genera y transmite a la ubicación del sujeto. Mediante una computadora habilitada con Internet, el sujeto tiene acceso a los reportes que reflejan su carga tumoral (Figura 4C).
Ejemplo 2 - Recurrencia y Remisión de Cáncer de próstata [000339] Se toma una muestra sanguínea de un superviviente de cáncer de próstata. El sujeto ha tenido previamente numerosas rondas de quimioterapia y radiación. El sujeto en el momento de la prueba no presenta síntomas ni cuestiones de salud relacionadas al cáncer. Las exploraciones y ensayos normales revelan que el sujeto está libre de cáncer. [000340] Se extrae ADN libre de células y se aísla de la sangre usando el protocolo del equipo Qiagen TruSeq. Un ADN portador se adiciona para incrementar los rendimientos. Se amplifica el ADN usando PCR y cebadores universales. Se secuencian 10 ng de ADN usando un planteamiento de secuenciación masivamente paralelo con un secuenciador personal Illumina MiSeq. Se adicionan códigos de barras 12mer a moléculas individuales usando un método de ligación. [000341] Los datos de secuencia se montan y analizan para la variación en el número de copias. Las lecturas de secuencia se correlacionan y comparan a un individuo saludable (control). En base al número de lecturas de secuencia, las regiones cromosómicas se dividen en regiones de no traslape de 40 kb. Las lecturas de secuencia se comparan entre sí y se determina una relación para cada posición correlacionable. [000342] Las secuencias de códigos de barras no únicas se colapsan en una lectura individual para ayudar a normalizar la desviación de la amplificación. [000343] Se aplica un Modelo Markov Oculto para convertir números de copia en estados discretos para cada ventana. [000344] Se generan reportes, que correlacionan las posiciones de genoma y la variación en el número de copias mostrada en la Figura 5A, para un sujeto con cáncer en remisión y Figura 5B para un sujeto con cáncer en recurrencia. [000345] Este reporte en comparación a otros perfiles de sujetos con resultados conocidos indica que en el mes 18, el análisis de mutaciones raras para la variación en el número de copias se detecta a una carga tumoral libre de células de 5%. Un oncólogo prescribe nuevamente tratamiento.
Ejemplo 3 - Cáncer de Tiroides y Tratamiento [000346] Se conoce que un sujeto tiene cáncer de tiroides de etapa IV y se somete a tratamiento normal, incluyendo terapia de radiación co 1-131. Las exploraciones por CT son inconclusas con respecto a si la terapia de radiación está destruyendo las masas cancerosas. Se extra sangre antes y después de la última sesión de radiación. [000347] Se extrae el ADN libre de células y se aísla de la sangre usando el protocolo del equipo Qiagen Qubi . Una muestra de ADN volumétrico no específico se adiciona a las reacciones de preparación de muestra para incrementar los rendimientos. [000348] Se conoce que el gen BRAF puede estar mutado en la posición 600 de aminoácido en este cáncer de tiroides. De la población de ADN libres de células, se amplifica selectivamente el ADN de BRAF usando cebadores específicos para el gen. Se adicionan códigos de barras 20mer a la molécula de origen como un control para contar las lecturas. [000349] Se secuencias 10 ng de ADN usando un planteamiento de secuenciación masivamente paralelo con un secuenciador personal Illumina MiSeq. [000350] Los datos de secuencias se montan y analizan para la detección de la variación en el número de copias. Las lecturas de secuencia se correlacionan y comparan a un individuo saludable (control). En base al número de lecturas de secuencia, como se determina al contar las secuencias de códigos de barras, las regiones cromosómicas se dividen en regiones no de traslape de 50 kb. Las lecturas de secuencia se comparan entre sí y se determina una relación para cada posición correlacionable. [000351] Un Modelo Markov Oculto se aplica para convertir números de copias en estados discretos para cada ventana. [000352] Se genera un reporte, que correlaciona a las posiciones de genoma y la variación en el número de copias. [000353] Los reportes generados antes y después del tratamiento se comparan. El porcentaje de carga de células tumorales salta de 30% a 60% después de la sesión de radiación. El salto en la carga tumoral se determina que es un incremento en la necrosis de tejido de cáncer versus tejido normal como resultado del tratamiento. Los oncólogos recomiendan al sujeto continuar el tratamiento preestablecido.
Ejemplo 4 - Sensibilidad de Detección de Mutaciones Raras [000354] Al fin de determinar los intervalos de detección de la mutación rara presente en una población de ADN, se realizan experimentos de mezclado. Las secuencias de ADN, algunas que contienen copias tipo silvestre de los genes TP53, HRAS y MET y algunas que contienen copias con mutaciones raras en los mismos genes, se mezclan conjuntamente a distintas relaciones. Se preparan mezclas de ADN tal que las relaciones o porcentajes de ADN mutante a ADN tipo silvestre varían de 100% a 0.01%. [000355] Se secuencian 10 ng de ADN para cada experimento de mezclado usando un planteamiento de secuenciación masivamente paralelo con un secuenciador personal Illumina MiSeq. [000356] Los datos de secuencias se montan y analizan para detección de mutaciones raras. Las lecturas de secuencias se correlacionan y comparan a una secuencia de referencia (control). En base al número de lecturas de secuencia, se determina la frecuencia de la varianza para cada posición correlacionadle. [000357] Se aplica un Modelo Markov Oculto para convertir la frecuencia de varianza para porción correlacionable en estados discretos para la posición base. [000358] Se genera un reporte, que correlaciona las posiciones base de genoma y el porcentaje de detección de la mutación rara sobre la línea base como se determina por la secuencia de referencia (Figura 6A). [000359] Los resultados de varios experimentos de mezclado que varían de 0.1% a 100% se representan en una gráfica de escala logarítmica, con el porcentaje medido de ADN con una mutación rara graficado como una función del porcentaje real de ADN con una mutación rara (Figura 6B). Se presentan los tres genes TP53, HRAS y MET. Se encontró una correlación lineal fuerte entre las poblaciones medidas y esperadas de mutaciones raras. Adicionalmente, un umbral de menor sensibilidad de aproximadamente 0.1% de ADN con una mutación rara en una población de ADN no mutado se encontró con estos experimentos (Figura 6B). o 5 Detección de Mutaciones Raras en jeto de Cáncer de Próstata [000360] Se cree que un sujeto tiene cáncer de próstata de etapa temprana. Otras pruebas clínicas proporcionan resultados inconclusos. Se extrae sangre del sujeto y se extrae el ADN libre de células, se aísla, se prepara y se secuencia. [000361] Un panel de varios oncogenes y genes supresores de tumor se seleccionan para amplificación selectiva usando el equipo de PCR TaqMan*® (Invitrogen) usando cebadores específicos de genes. Las regiones de ADN amplificadas incluyen ADN que contiene los genes PIK3CA y TP53. [000362] Se secuencian 10 ng de ADN usando un planteamiento de secuenciación masivamente paralelo con un secuenciador personal Illumina MiSeq. [000363] Los datos de secuencia se montan y analizan para detección de mutaciones raras. Las lecturas de secuencia se correlacionan y comparan a una secuencia de referencia (control). En base al número de lecturas de secuencia, se determinó la frecuencia de varianza para cada posición correlacionable. [000364] Se aplica un modelo Markov oculto para convertir la frecuencia de varianza para cada posición correlacionable en estados discretos para cada posición base. [000365] Se genera un reporte, que correlaciona a las posiciones base genómicas y el porcentaje de detección de la mutación rara con respecto a la línea base como se determina por la secuencia de referencia (Figura 7A). Las mutaciones raras se encuentran a una incidencia de 5% en dos genes, PIK3CA y TP53, respectivamente, indicando que el sujeto tiene un cáncer de etapa temprana. Se inicia el tratamiento. [000366] Adicionalmente, estos reportes se presentan y se puede tener acceso a los mismos electrónicamente mediante la Internet. El análisis de los datos de secuencia se presenta en un sitio diferente de la ubicación del sujeto. El reporte se genera y transmite a la ubicación del sujeto. Mediante una computadora habilitada para Internet, el sujeto tiene acceso a los reportes que reflejan su carga tumoral (Figura 7B). Ejemplo 6.- Detección de Mutaciones Raras en Sujetos con Cáncer Colorectal [000367] Se piensa que sujeto tiene cáncer colorectal de etapa media. Otras pruebas clínicas proporcionan resultados inconclusos. Se extrae sangre del sujeto y se extrae el ADN libre de células. [000368] Se usan 10 ng de material genético libre de células que se extrae de un tubo individual de plasma. El material genético inicial se convierte en un conjunto de polinucleótidos marcados de origen. La marcación incluyó unir marcas requeridas para secuenciación así como identificadores no únicos para seguir las moléculas de progenie hasta los ácidos nucleicos de origen. La conversión se realiza a través de una reacción optimizada de ligación como se describe anteriormente y se confirma el rendimiento de la conversión al buscar el perfil de tamaño de moléculas pos-ligación. Se mide el rendimiento de conversión con el porcentaje de moléculas iniciales de inicio que tienen ambos extremos ligados con marcas. La conversión usando este planteamiento se realiza a alta eficiencia, por ejemplo, al menos 50%. [000369] La biblioteca marcada se amplifica por PCR y se enriquece para los genes más asociados con cáncer colorectal, (por ejemplo, KRAS, APC, TP53, etc.) y el ADN resultante se secuencia usando un planteamiento de secuenciación masivamente paralelo con un secuenciador personal Illumina MiSeq. [000370] Se habilitan los datos de secuencia y se analizan para la detección de mutaciones raras. Las lecturas de secuencia se colapsan en grupos familiares que corresponden a una molécula de origen (así como se corrigen por error en el colapso) y se correlacionan usando una secuencia de referencia (control). En base al número de lecturas de secuencia, se determina la frecuencia de las variaciones raras (sustituciones, inserciones, supresiones, etc.) y las variaciones en el número de copias y la heterocigosidad (donde es apropiado) para cada posición correlacionadle. [000371] Se genera un reporte, que correlaciona a las posiciones base genómicas y el porcentaje de detección de la mutación rara con respecto a la línea base como se determina por la secuencia de referencia. Se encuentran mutaciones raras a una incidencia de 0.3-0.4% en dos genes, KRAS y FBXW7, respectivamente, indicando que el sujeto tiene cáncer residual. Se inicia el tratamiento. [000372] Adicionalmente, estos reportes se presentan y se tiene acceso a ellos electrónicamente vía a la internet. El análisis de los datos de secuencia se presenta en un sitio diferente de la ubicación del sujeto. El reporte se genera y transmite a la ubicación del sujeto. Mediante una computadora habilitada con internet, el sujeto tiene acceso a los reportes que reflejan su carga tumoral. [000373] Ejemplo 7.- Teenología de Secuenciación Digital [000374] Las concentraciones de ácidos nucleicos derramados por tumor son típicamente bajas de modo que las tecnologías actuales de secuenciación de siguiente generación solo pueden detectar estas señales esporádicamente o en pacientes con una carga tumoral terminalmente alta. La razón principal que estas tecnologías están plagadas por proporciones de error y desviación que pueden ser de órdenes de magnitud mayores que lo que se requiere para detectar de manera confiable alteraciones genéticas de novo asociadas con cáncer en el ADN en circulación. Aquí se muestra una nueva metodología de secuenciación, la Tecnología de Secuenciación Digital (DST, por sus siglas inglés), lo que incrementa la sensibilidad y especificidad de la detección y cuantificación de ácidos nucleicos derivados de tumores raros entre fragmentos de línea germinal por al menos 1-2 órdenes de magnitud. [000375] La arquitectura de DST se inspira por los sistemas de comunicación digital del estado de la téenica que combaten el alto ruido y distorsión provocado por los modernos canales de comunicación y se habilitan para transmitir información digital sin problemas a muy altas velocidades de datos. De manera similar, los flujos de trabajo actuales de siguiente generación están plagados de un ruido y distorsión extremadamente altos (debido a la preparación de muestra, secuenciación y amplificación a base de PCR). La secuenciación digital es capaz de eliminar el error y la distorsión creada por estos procesos y producir una representación casi perfecta de todas las variantes raras (incluyendo CNVs). [000376] Preparación de Biblioteca de Alta Diversidad [000377] Diferente de los protocolos convencionales y preparación de bibliotecas de secuenciación, por lo que la mayoría de los fragmentos extraídos de ADN en circulación se pierde debido a la ineficiente conversión de la biblioteca, nuestro flujo de trabajo de la tecnología de secuenciación digital permite que es conviertan y secuencien la vasta mayoría de las moléculas de inicio. Esto es críticamente importante para la detección de variantes raras puesto que solo puede haber un puñado de moléculas somáticamente mutadas en un tubo completo de lOmL de sangre. El proceso eficiente de conversión de biología molecular desarrollado permite la más alta sensibilidad posible para la detección de variantes raras. [000378] Panel de Oncogenes Accionables Comprensible [000379] El flujo de trabajo manejado alrededor de la plataforma DST es flexible y altamente ajustable puesto que regiones buscadas pueden ser tan pequeñas como exones individuales o tan amplias, exones completos (o aún genomas completos). Un panel normal consiste de todas las bases exónicas de 15 genes accionables relacionados a cáncer y la cobertura de los exones "caliente" de 36 genes adicionales onco-/supresores de tumor (por ejemplo, exones que contienen al menos una o más mutaciones somáticas reportadas en COSMIC). [000380] Ejemplo 8: Estudios Analíticos [000381] Para estudiar el desempeño de nuestra teenología, su sensibilidad en muestras analíticas se evaluó. Se pincharon cantidades variables de ADN de la línea de células de cáncer LNCaP en un fondo de cfDNA normal y fue capaz de detectar exitosamente mutaciones somáticas por abajo de 0.1% de sensibilidad (ver Figura 13A-13B). [000382] Estudios Preclínicos [000383] La concordancia del ADN en circulación con ADNg tumoral en modelos de xenoinjertos humanos en ratones se investigó. En siete ratones negativos a CTC, cada uno con uno de dos diferentes tumores de cáncer de mama de humano, todas las mutaciones somáticas detectadas en el ADNg tumoral también se detectaron en el cfDNA de sangre de ratón usando DST que valida adicionalmente la utilidad de cfDNA para perfilado genético tumoral no invasivo, [000384] Estudios Clínicos Piloto [000385] Correlación de biopsia tumoral versus mutaciones somáticas en ADN en circulación^ [000386] Se inició u estudio piloto en muestras humanas a través de diferentes tipos de cáncer. La concordancia de los perfiles de mutación tumoral derivados de ADN libre de células en circulación con aquellos derivados de muestras correspondidas de biopsia tumoral, se investigó. Se encontró una concordancia mayor de 93% entre los perfiles de mutación somática de cfDNA y tumor tanto en cánceres colorectales como de melanoma a través de 14 pacientes (Tabla 1).
Tabla 1 [000387] Se debe entender de lo anterior, en tanto que se han ilustrado y descrito implementaciones particulares, se pueden hacer a esta varias modificaciones y se contemplan de la presente. También no se propone que la invención se limite por los ejemplos específicos proporcionados dentro de la especificación. En tanto que la invención se ha descrito con referencia a la especificación mencionada anteriormente, las descripciones e ilustraciones de las modalidades preferibles en la presente no se proponen para que se consideran en un sentido limitante. Además, se debe entender que todos los aspectos de la invención no se limitan a las representaciones específicas, configuraciones o proporciones relativas expuestas en la presente que dependen de una variedad de condiciones y variables. Serán evidentes para una persona experta en la téenica varias modificaciones en la forma y detalle de las modalidades de la invención. Por lo tanto, se contemplan que la invención también debe cubrir todas esas modificaciones, variaciones y equivalentes.

Claims (206)

REIVINDICACIONES 1. Un método para detectar la variación en el número de copias, que comprende: a. secuenciar polinucleótidos extracelulares de una muestra corporal de un sujeto, en donde cada uno de los polinucleótidos extracelulares genera una pluralidad de lecturas de secuenciación; b. filtrar las lecturas que fallan en cumplir con un umbral establecido; c. correlacionar las lecturas de secuencia derivadas del paso (a), después de que las lecturas se filtran, a una secuencia de referencia; d. cuantificar o enumerar lecturas correlacionadas en dos o más regiones predefinidas de la secuencia de referencia; y e. determinar la variación en el número de copias en una más de las regiones predefinidas, al:
1. normalizar el número de lecturas en las regiones predefinidas entre sí y/o el número de lecturas únicas de secuencia en las regiones predefinidas, entre sí; ii. comparar los números normalizados obtenidos en el paso (i) a números normalizados obtenidos de una muestra de control.
2. Un método para detectar una mutación rara en una muestra libre de células o sustancialmente libre de células obtenido de un sujeto, que comprende: a. secuenciar polinucleótidos extracelulares de una muestra corporal de un sujeto, en donde cada uno de los polinucleótidos extracelulares genera una pluralidad de lecturas de secuenciación; b. realizar secuenciación multiplex en regiones o secuenciación de genoma completa sino se realiza el enriquecimiento; c. filtrar las lecturas que fallan en cumplir con un umbral establecido; d. correlacionar las lecturas de secuencia derivadas de la secuenciación sobre una secuencia de referencia; e. identificar un subconjunto de lecturas de secuencia correlacionadas que se alinean con una variante de la secuencia de referencia en cada posición base correlacionable; f. para cada posición base correlacionable, calcular una relación de (a) un número de lectura de secuencia correlacionadas que incluye una variante en comparación a la secuencia de referencia, a (b) un número de lecturas de secuencias totales para cada posición base correlacionable; g. normalizar las relaciones o frecuencia de varianza para cada posición base correlacionable y determinar las mutaciones o variantes o raras potenciales; y h. y comparar el número resultante para cada una de las regiones con las variantes o mutaciones raras potenciales a números similarmente derivados de una muestra de referencia.
3. Un método para caracterizar la heterogeneidad de una condición anormal en un sujeto, el método que comprende generar un perfil genético de polinucleótidos extracelulares en el sujeto, en donde el perfil genético comprende una pluralidad de datos que resultan de los análisis de mutaciones raras y variación en el número de copias.
4. El método de la reivindicación 1, 2, o 3, en donde la prevalencia/concentración de cada variante rara identificada en el sujeto se reporta y cuantifica de manera simultánea.
5 El método de la reivindicación 1, 2, o 3, en donde se reporta una puntuación de confianza con respecto a la prevalencia/concentraciones de variantes raras en el sujeto.
6. El método de la reivindicación 1, 2, o 3, en donde los polinucleótidos extracelulares comprenden ADN.
7. El método de la reivindicación 1, 2, o 3, en donde los polinucleótidos extracelulares comprenden ARN.
8. El método de la reivindicación 1, 2, o 3 que comprende además aislar polinucleótidos extracelulares de la muestra corporal.
9. El método de la reivindicación 1, 2, o 3, en donde el aislamiento comprende un método para poner en ciclo el aislamiento y extracción de ácidos nucleicos.
10. El método de la reivindicación 1, 2, o 3, que comprende además fragmentar los polinucleótidos extracelulares aislados.
11. El método de la reivindicación 8, en donde la muestra corporal se selecciona del grupo que consiste de sangre, plasma, suero, orina, saliva, excreciones mucosas, esputo, eses y lágrimas.
12. El método de la reivindicación 1, 2, o 3, comprende además el paso de determinar el por ciento de secuencias que tienen variación en el número de copias o variante o mutación rara en la muestra corporal.
13. El método de la reivindicación 12, en donde la determinación comprende calcular el porcentaje de regiones predefinidas con una cantidad de polinucleótidos por arriba o por abajo de un umbral predeterminado.
14. El método de la reivindicación 1, 2, o 3, en donde el sujeto es sospechoso de tener una condición anormal.
15. El método de la reivindicación 14, en donde la condición anormal se selecciona del grupo que consiste de, mutaciones, mutaciones raras, indeles, variaciones en el número de copias, transversiones, transcolocaciones, inversión, supresiones, aneuploidia, aneuploidia parcial, poliploidia, inestabilidad cromosómica, alteraciones de la estructura cromosómica, fusiones génicas, fusiones cromosómicas, truncamientos génicos, amplificación génica, duplicaciones génicas, lesiones cromosómicas, lesiones de ADN, cambios anormales en las modificaciones químicas de ácidos nucleicos, cambios anormales en los patrones epigenéticos, cambios anormales en la infección por metilación de ácidos nucleicos y cáncer.
16. El método de la reivindicación 1, 2, o 3, en donde el sujeto es una mujer embarazada.
17. El método de la reivindicación 1 o 2, en donde la variación en el número de copia o variante genética o mutación rara es indicativa de una anormalidad fetal.
18. El método de la reivindicación 17, en donde la anormalidad fetal se selecciona del grupo que consiste de, mutaciones, mutaciones raras, indeles, variaciones en el número de copias, transversiones, transcolocaciones, inversión, supresiones, aneuploidia, aneuploidia parcial, poliploidia, inestabilidad cromosómica, alteraciones de la estructura cromosómica, fusiones génicas, fusiones cromosómicas, truncamientos génicos, amplificación génica, duplicaciones génicas, lesiones cromosómicas, lesiones de ADN, cambios anormales en las modificaciones químicas de ácidos nucleicos, cambios anormales en patrones epigeneticos, cambios anormales en la infección por metilación de ácidos nucleicos y cáncer.
19. El método de la reivindicación 1, 2, o 3, que comprende además unir uno o más códigos de barras a los polinucleótidos extracelulares o fragmentos de los mismos antes de la secuenciación.
20. El método de la reivindicación 19, en donde cada código de barras unido a los polinucleótidos extracelulares o fragmentos de los mismos antes de la secuenciación, es único.
21. El método de la reivindicación 19, en donde no es único cada código de barras unido a los polinucleótidos extracelulares o fragmentos de los mismos antes de la secuenciación.
22. El método de la reivindicación 1, 2, o 3, que comprende además enriquecer selectivamente regiones del genoma o transcriptoma de sujeto antes de la secuenciación.
23. El método de la reivindicación 1, 2, o 3, que comprende además no enriquecer selectivamente regiones del genoma o transcriptoma del sujeto antes de la secuenciación.
24. El método de la reivindicación 1, 2, o 3, que comprende además unir uno o más códigos de barras a los polinucleótidos extracelulares o fragmentos de los mismos antes de cualquier paso de amplificación o enriquecimiento.
25. El método de la reivindicación 19, en donde el código de barras es un polinucleótido.
26. El método de la reivindicación 19, en donde el código de barras comprende secuencia aleatoria.
27. El método de la reivindicación 19, en donde el código de barras comprende un conjunto fijo o semialeatorio de oligonucleótidos que en combinación con la diversidad de moléculas secuenciadas de una región seleccionada permite la identificación de moléculas únicas.
28. El método de la reivindicación 19, en donde los códigos de barras comprenden oligonucleótidos que son al menos de 3, 5, 10, 15, 2025, 30, 35, 40, 45, o 50mer pares de base de longitud.
29. El método de la reivindicación 1, 2, o 3, comprende además amplificar los polinucleótidos extracelulares o fragmentos de los mismos.
30. El método de la reivindicación 29, en donde la amplificación comprende la amplificación global o la amplificación del genoma completo.
31. El método de la reivindicación 1, 2, o 3, en donde las lecturas de secuencia de identidad única se detectan en base a la información de secuencia en las regiones de comienzo (inicio) y finales (finales) de la lectura de secuencia y la longitud de la lectura de secuencia.
32. El método de la reivindicación 31, en donde las moléculas de secuencia de identidad únicas se detecta en base a la información de secuencia en las regiones de comienzo (inicio) y finales (finales) de la lectura de secuencia, la longitud de la lectura de secuencia y la unión de un código de barras.
33. El método de la reivindicación 30, en donde la amplificación comprende amplificación selectiva.
34. El método de la reivindicación 33, en donde la amplificación comprende amplificación comprende amplificación no selectiva.
35. El método de las reivindicaciones 1, 2, o 3, en donde se realiza la amplificación por supresión o el enriquecimiento substractivo.
36. El método de la reivindicación 1, 2, o 3, que comprende además remover un subconjunto de las lecturas del análisis adicional antes de cuantificar o enumerar las lecturas.
37. El método de la reivindicación 36, en donde la remoción comprende filtrar las lecturas con una puntuación de exactitud o calidad de menos de un umbral, por ejemplo 90%, 99%, 99.9%, o 99.99%) y/o puntuación de correlación de menos de un umbral, por ejemplo, 90%, 99%, 99.9% o 99.99%.
38. El método de la reivindicación 1, 2, o 3, que comprende además filtrar las lecturas con una puntuación de calidad menor que un umbral establecido.
39. El método de la reivindicación 1, en donde las regiones predefinidas son de tamaño uniforme o sustancialmente uniforme.
40. El método de la reivindicación 39, en donde las regiones predefinidas son de un tamaño de al menos aproximadamente 10kb, 20kb, 30kb 40kb, 50kb, 60kb, 70kb, 80kb, 90kb, o lOOkb.
41. El método de la reivindicación 1, 2, o 3, en donde se analizan al menos 50, 100, 200, 500, 1000, 2000, 5000, 10,000, 20,000, o 50,000 regiones.
42. El método de la reivindicación 1, 2, o 3, en donde la variante se presenta en una región del genoma seleccionado del grupo que consiste de fusiones génicas, duplicaciones génicas, supresiones génicas, transcolocaciones génicas, regiones de microsatélite, fragmentos génicos o combinación de esto.
43. El método de la reivindicación 1, 2, o 3, en donde la variante se presenta en una región del genoma seleccionado del grupo que consiste de genes, oncogenes, genes supresores de tumor, promotores, elementos de secuencia reguladora, o combinación de esto.
44. El método de la reivindicación 2, en donde la variante es una variante de nucleótido, substitución de base individual, indel pequeño, transversión, translocación, inversión, supresión, truncamiento o truncamiento génico de 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15 o 20 nucleótidos de longitud.
45. El método de la reivindicación 1, 2, o 3, que comprende además corregir/normalizar/ajustar la cantidad de lecturas correlacionadas usando los códigos de barra o propiedades únicas de lecturas individuales.
46. El método de la reivindicación 1 o 2, en donde la numeración de las lecturas se realiza a través de la numeración de códigos de barra, únicos, en cada una de las regiones predefinidas y normalizando estos números a través de al menos un subconjunto de regiones predefinidas que se secuenciaron.
47. El método de la reivindicación 1, 2, o 3, en donde se analizan muestras en intervalos sucesivos de tiempo del mismo sujeto y se comparan a resultados previos de muestra.
48. El método de la reivindicación 45, en donde el método comprende además amplificar los polinucleótidos extracelulares unidos a códigos de barra.
49. El método de la reivindicación 1, 2, o 3, que comprende además determinar la frecuencia parcial de la variación en el número de copias, determinar la pérdida de heterocigosidad, realizar análisis de expresión génicas, realizar análisis epigenético y/o realizar análisis de hipermetilación.
50. Un método que comprende: determinar la variación en el número de copias o realizar el análisis de mutaciones raras en una muestra libre de células o sustancialmente libre de células obtenida de un sujeto usando secuenciación multiplex.
51. El método de la reivindicación 50, en donde la secuenciación multiplex comprende realizar más de 10,000 reacciones de secuenciación.
52. El método de la reivindicación 50, en donde la secuenciación multiplex comprende secuenciar simultáneamente al menos 10,000 lecturas diferentes.
53. El método de la reivindicación 50, en donde la secuenciación multiplex comprende realizar análisis de datos en al menos 10,000 lecturas diferentes a través del genoma.
54. El método de la reivindicación 1 o 2, en donde la normalización y detección se realiza usando uno o más de markov oculto, programación dinámica, máquina de vector de soporte, modelado Bayesiano o probabilístico, descodificación de entramado, descodificación Viterbi, maximización por expectación, filtración Kalman, o metodologías de red neural.
55. El método de la reivindicación 1, 2, o 3, que comprende además monitorizar el progreso de la enfermedad, monitorizar la enfermedad residual, monitorizar la terapia, diagnosticar una condición, hacer pronóstico de una condición o seleccionar una terapia en base a las variantes descubiertas para el sujeto.
56. El método de la reivindicación 55, en donde se modifica una terapia en base al análisis de muestra más reciente.
57. El método de la reivindicación 1, 2, o 3, en donde se infiere el perfil genético de un tumor, infección u otra anormalidad de tejido.
58. El método de la reivindicación 1, 2, o 3, en donde se monitoriza el crecimiento, remisión o evolución de un tumor, infección u otra anormalidad de tejido.
59. El método de la reivindicación 1, 2, o 3, en donde las secuencias relacionadas al sistema inmunitario de un sujeto se analizan y monitorizan en casos individuales o con respecto al tiempo.
60. El método de la reivindicación 1, 2, o 3, en donde la identificación de una variante se sigue a través de una prueba de formación de imágenes (por ejemplo, CT, PET-CT, MRI, rayos X, ultrasonido) para la localización de la normalidad de tejido sospechoso de provocar la variante identificada.
61. El método de la reivindicación 1, 2, o 3, en donde el análisis comprende además el uso de datos genéticos obtenidos de una biopsia de tejido o tumor del mismo paciente.
62. El método de la reivindicación 1, 2, o 3, en donde la filogenética de un tumor, infección u otra anormalidad de tejido se infiere.
63. El método de la reivindicación 1 o 2, en donde el método comprende además realizar la no lectura automática en base a la población y la identificación de regiones de baja confianza.
64. El método de la reivindicación 1 o 2, en donde la obtención de los datos de medición para la cobertura de secuencia comprenden medir la profundidad de cobertura de secuencia en cada posición del genoma.
65. El método de la reivindicación 64, en donde la corrección de los datos de medición para la desviación de la cobertura de secuencia comprende calcular la cobertura promediada en la ventan .
66. El método de la reivindicación 64, en donde la corrección de los datos de medición para la desviación de cobertura de secuencia comprende realizar ajustes a causa de la desviación de GC en el proceso de secuenciación y construcción de biblioteca.
67. El método de la reivindicación 64, en donde la corrección de los datos de medición para la desviación de la cobertura de secuencia comprende realizar ajustes en base al factor de ponderación adicional asociado con correlaciones individuales para compensar la desviación.
68. El método de la reivindicación 1, 2, o 3, en donde el polinucleótido extracelular se deriva de un origen de célula enferma.
69. El método de la reivindicación 1, 2, o 3, en donde el polinucleótido extracelular se deriva de un origen de célula saludable.
70. Un sistema que comprende un medio leíble por computadora para realizar los siguientes pasos. Seleccionar regiones predefinidas en un genoma; enumerar el número de lecturas de secuencia en las regiones predefinidas, normalizar el número de lecturas de secuencia a través de las regiones predefinidas; y determinar el por ciento de variación de número de copia en las regiones predefinidas.
71. El sistema de la reivindicación 70, en donde la totalidad del genoma o al menos 85% del genoma se analiza.
72. El sistema de la reivindicación 70, en donde el medio leíble por computadora proporciona datos del por ciento de ARN o ADN de cáncer en plasma o suero al usuario final.
73. El método de la reivindicación 1, por lo que las variantes en el número de copias, identificadas, son fracciónales (es decir, niveles de números enteros) debido a la heterogeneidad en la muestra.
74. El método de la reivindicación 1, por lo que se realiza en el enriquecimiento de las regiones seleccionadas.
75. El método de la reivindicación 1, por lo que se extrae simultáneamente y la formación de la variación en el número de copias en base a los métodos descritos en las reivindicaciones 1, 64, 65, 66 y 67.
76. El método de la reivindicación 1 o 2, usado con un paso inicial de restricción de polinucleótidos para limitar el número de copias iniciales de inicio o la diversidad de polinucleótidos en la muestra.
77. Un método para detectar una mutación rara en una muestra libre de células o sustancialmente libre de células obtenida de un sujeto, que comprende a. secuenciar polinucleótidos extracelulares de una muestra corporal de un sujeto, en donde cada uno de los polinucleótidos extracelulares genera una pluralidad de lecturas de secuenciación; b. filtrar las lecturas que fallan en cumplir con un umbral de calidad establecido; c. correlacionar las lecturas de secuencia derivadas de la secuenciación sobren una secuencia de referencia; d. identificar un subconjunto de lecturas de secuencia correlacionadas que se alinean con una variante de la secuencia de referencia en cada posición base correlacionable; e. para cada posición base correlacionable, calcular una relación de (a) un número de lecturas correlacionadas de secuencia que incluye una variante en comparación a la secuencia de referencia, a (b) un número de lecturas totales de secuencias para cada posición base correlacionable; f. normalizar las relaciones o frecuencia de varianza para cada posición base correlacionable y determinar las variantes raras potenciales u otras alteraciones genéticas; y g. comparar el número resultante para cada una de las regiones con mutaciones o variantes raras potenciales a números similarmente derivados de una muestra de referencia.
78. Un método que comprende: a. proporcionar al menos un conjunto de polinucleótidos de origen, marcados, y para cada conjunto de polinucleótidos de origen, marcados; b. amplificar los polinucleótidos de origen, marcados en el conjunto, para producir un conjunto correspondiente de polinucleótidos de progenie, amplificados; c. secuenciar un subconjunto (incluyendo un subconjunto apropiado) del conjunto de polinucleótidos de progenie, amplificados, para producir un conjunto de lecturas de secuenciación; y d. colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias de consenso, cada secuencia de consenso que corresponde a un polinucleótido único entre el conjunto de polinucleótidos de origen, marcados.
79. El método de la reivindicación 78, en donde cada polinucleótido en un conjunto se puede correlacionar a una secuencia de referencia.
80. El método de la reivindicación 78, que comprende proporcionar una pluralidad de conjuntos de polinucleótidos de origen, marcados, en donde cada conjunto se puede correlacionar a una diferente posición correlacionable en la secuencia de referencia.
81. El método de la reivindicación 78, que comprende además: e. analizar el conjunto de secuencias de consenso para cada conjunto de moléculas de origen, marcadas, de manera separada o en combinación.
82. El método de la reivindicación 78, que comprende además convertir el material genético inicial de inicio en los polinucleótidos de origen, marcados.
83. El método de la reivindicación 82, en donde el material genético inicial de inicio comprende no más de 100 ng de polinucleótidos.
84. El método de la reivindicación 82, que comprende restringir el material genético inicial de inicio antes de la conversión.
85. El método de la reivindicación 82, que comprende convertir el material genético inicial de inicio en polinucleótidos de origen, marcados con una eficiencia de conversión de al menos 10%, al menos 20%, al menos 30%, al menos 40%, al menos 50%, al menos 60%, al menos 80% o al menos 90%.
86. El método de la reivindicación 82, en donde la conversión comprende cualquiera de ligación de extremos romos, ligación de extremos pegajosos, sondas de inversión molecular, PCR, PCR basada en ligación, ligación de hebra individual y circularización de hebra individual.
87. El método de la reivindicación 82, en donde el material genético inicial de inicio es ácido nucleico libre de células.
88. El método de la reivindicación 79, en donde una pluralidad de los conjuntos correlaciona diferentes posiciones correlacionables en una secuencia de referencia del mismo genoma.
89. El método de la reivindicación 78, en donde cada polinucleótido de origen, marcado, en el conjunto, se marca de manera única.
90. El método de la reivindicación 78, en donde cada conjunto de polinucleótidos de origen se puede correlacionar a una posición en una secuencia de referencia y no se marcan de manera única los polinucleótidos en cada conjunto.
91. El método de la reivindicación 78, en donde la generación de secuencias de consenso se basa en la información de la marca y/o al menos uno de (i) información de secuencia en la región de comienzo (inicio) de la lectura de secuencia, (ii) las regiones finales (finales) de la lectura de secuencia y (iii) la longitud de la lectura de secuencia.
92. El método de la reivindicación 78, que comprende secuenciar un subconjunto del conjunto de polinucleótidos de progenie, amplificados suficiente para producir lecturas de secuencia para al menos una progenie de cada uno de al menos 20%, al menos 30%, al menos 40%, al menos 50%, al menos 60%, al menos 70%, al menos 80%, al menos 90% al menos 95%, al menos 98%, al menos 99%, al menos 99.9% o al menos 99.99% de polinucleótidos únicos en el conjunto de polinucleótidos de origen, marcados.
93. El método de la reivindicación 92, en donde la por lo menos una progenie es una pluralidad de progenies, por ejemplo, al menos 2, al menos 5 o al menos 10 progenies.
94. El método de la reivindicación 78, en donde el número de lecturas de secuencia en el conjunto de lecturas de secuencia es mayor que el número de polinucleótidos de origen, marcados, únicos, en el conjunto de polinucleótidos de origen, marcados.
95. El método de la reivindicación 78, en donde el subconjunto del conjunto de polinucleótidos de progenie, amplificados, secuenciados, es de tamaño suficiente de modo que cualquier secuencia de nucleótidos representada en el conjunto de polinucleótidos de origen, marcados a un porcentaje que es el mismo como el porcentaje de la proporción de error de secuenciación por base de la plataforma de secuenciación usada, tiene al menos una 50%, al menos 60%, al menos 70%, al menos 80%, al menos 90% al menos 95%, al menos 98%, al menos 99%, al menos 99.9% o al menos 99.99% de probabilidad de que se represente entre el conjunto de secuencias de consenso.
96. El método de la reivindicación 78, que comprende enriquecer el conjunto de polinucleótidos de progenie, amplificados, para los polinucleótidos que correlacionan a una o más posiciones correlacionadles seleccionadas en una secuencia de referencia por: (i) amplificación selectiva de secuencias del material genético inicial de inicio convertido a polinucleótidos de origen, marcados; (ii) amplificación selectiva de polinucleótidos de origen, marcados; (iii) captura selectiva de secuencias de polinucleótidos de progenie, amplificados; o (iv) captura selectiva de secuencias de material genético inicial de inicio.
97. El método de la reivindicación 81, en donde el análisis comprende normalizar una medida (por ejemplo, número) tomada de un conjunto de secuencias de consenso contra una medida tomada de un conjunto de secuencias de consenso de una muestra de control.
98. El método de la reivindicación 81, en donde el análisis comprende detectar mutaciones, mutaciones raras, indeles, variaciones en el número de copias, transversiones, transcolocaciones, inversión, supresiones, aneuploidia, aneuploidia parcial, poliploidia, inestabilidad cromosómica, alteraciones de la estructura cromosómica, fusiones génicas, fusiones cromosómicas, truncamientos génicos, amplificación génica, duplicaciones génicas, lesiones cromosómicas, lesiones de ADN, cambios anormales en las modificaciones químicas de ácidos nucleicos, cambios anormales en patrones epigenéticos, cambios anormales en la infección por metilación de ácidos nucleicos y cáncer.
99. El método de la reivindicación 78, en donde los polinucleótidos comprenden ADN, ARN, una combinación de los dos o ADN más ADNc derivado de ARN.
100. El método de la reivindicación 82, en donde un cierto subconjunto de polinucleótidos se selecciona para, o se enriquece en base a, la longitud de polinucleótido en pares de base del conjunto inicial de polinucleótidos o de los polinucleótidos amplificados.
101. El método de la reivindicación 82, en donde el análisis comprende además la detección y monitoreo de una anormalidad o enfermedad dentro de un individuo, tal como, infección y/o cáncer.
102. El método de la reivindicación 101, realizado en combinación con perfilado de repertorio inmunitario.
103. El método de la reivindicación 78, en donde los polinucleótidos se extraen de una muestra seleccionada del grupo que consiste de sangre, plasma, suero, orina, saliva, excreciones mucosas, esputo, eses y lágrimas.
104. El método de la reivindicación 78, en donde el colapso comprende detectar y/o corregir errores, mellas o lesiones presentes en la hebra homosentido o anti-sentido de los polinucleótidos de origen, marcados o polinucleótidos de progenie, amplificados.
105. Un método que comprende detectar la variación genética en material genético inicial de inicio, marcado de forma no única, con una sensibilidad de al menos 5%, al menos 1%, al menos 0.5%, al menos 0.1% o al menos 0.05%.
106. El método de la reivindicación 105, en donde el material genético inicial de inicio se proporciona en una cantidad menor de 100 ng de ácido nucleico, la variación genética en el número de copia/variación de heterocigosidad y la detección se realizan con solución sub-cromosómica; por ejemplo, resolución de al menos 100 megabases, resolución de al menos 10 megabases, resolución de al menos 1 megabase, resolución de al menos 100 kilobases, resolución de al menos 10 kilobases o resolución de al menos 1 kilobase.
107. El método de la reivindicación 81, que comprende proporcionar una pluralidad de conjuntos de polinucleótidos de origen, marcados, en donde cada conjunto se puede correlacionar a una diferente posición correlacionadle en una secuencia de referencia.
108. El método de la reivindicación 107, en donde la posición correlacionadle en la secuencia de referencia es el sitio de un marcador tumoral y el análisis comprende detectar el marcador tumoral en el conjunto de secuencias de consenso.
109. El método de la reivindicación 108, en donde el marcador tumoral está presente en un conjunto de secuencias de consenso a una frecuencia menor que la proporción de error introducida en el paso de amplificación.
110. El método de la reivindicación 107, en donde el por lo menos un conjunto es una pluralidad de conjuntos, y la posición correlacionadle de la secuencia de referencia comprende una pluralidad de posiciones correlacionadles en la secuencia de referencia, cada una de las posiciones correlacionadles que es el sitio de un marcador tumoral.
111. El método de la reivindicación 107, en donde el análisis comprende detectar la variación en el número de copias de secuencias de consenso entre al menos dos conjuntos de polinucleótidos de origen.
112. El método de la reivindicación 107, en donde el análisis comprende detectar la presencia de variaciones de secuencia en comparación con las secuencias de referencia.
113. El método de la reivindicación 107, en donde el análisis comprende detectar la presencia de variaciones de secuencia en comparación con las secuencias de referencia y detectar la variación en el número de copias de secuencia de consenso entre al menos dos conjuntos de polinucleótidos de origen.
114. El método de la reivindicación 78, en donde el colapso comprende: i. agrupar lecturas de secuencia secuenciadas de polinucleótidos de progenie, amplificados, en familias, cada familia amplificada del mismo polinucleótido de origen, marcado; y ii. determinar una secuencia de consenso en base a las lecturas de secuencia en una familia.
115. Un sistema que comprende un medio leíble por computadora para realizar los siguientes pasos: a. aceptar al menos un conjunto de polinucleótidos de origen, marcados, y para cada conjunto de polinucleótidos de origen, marcados; b. amplificar los polinucleótidos de origen, marcados en el conjunto para producir un conjunto correspondiente de polinucleótidos de progenie, amplificados; c. secuenciar un subconjunto (incluyendo un subconjunto apropiado) del conjunto de polinucleótidos de progenie, amplificados, para producir un conjunto de lecturas de secuenciación; d. colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias de consenso, cada secuencia de consenso que corresponde a un polinucleótido único entre el conjunto de polinucleótidos de origen, marcados y opcionalmente, e. analizar el conjunto de secuencias de consenso para cada conjunto de moléculas de origen, marcadas.
116. Un método que comprende detectar la presencia o ausencia de alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación de ácido nucleico libre de células, en donde al menos 10% del genoma del individuo de secuencia.
117. Un método que comprende detectar la presencia o ausencia de alteración genética o cantidad de variación genética de un individuo, en donde la detección se realiza con ayuda de la secuenciación de ácido nucleico libre de células, en donde se secuencia al menos 20% del genoma del individuo.
118. Un método que comprende detectar la presencia o ausencia de alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación de ácido nucleico libre de células en donde se secuencia al menos 30% del genoma del individuo.
119. Un método que comprende detectar la presencia o ausencia de alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación de ácido nucleico libre de células, en donde se secuencia al menos 40% del genoma del individuo.
120. Un método que comprende detectar la presencia o ausencia de alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación de ácido nucleico libre de células, en donde se secuencia al menos 50% del genoma del individuo.
121. Un método que comprende detectar la presencia o ausencia de alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación de ácido nucleico libre de células, en donde se secuencia al menos 60% del genoma del individuo.
122. Un método que comprende detectar la presencia o ausencia de alteración genética o cantidad de variación genetica en un individuo, en donde la detección se realiza con la ayuda de la secuenciación de ácido nucleico libre de células, en donde se secuencia al menos 70% del genoma del individuo.
123. Un método que comprende detectar la presencia o ausencia de alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación de ácido nucleico libre de células, en donde se secuencia al menos 80% del genoma del individuo.
124. Un método que comprende detectar la presencia o ausencia de alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación de ácido nucleico libre de células, en donde se secuencia al menos 90% del genoma del individuo.
125. Un método que comprende detectar la presencia o ausencia de alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación de ácido nucleico libre de células, en donde se secuencia al menos 10% del genoma del individuo.
126. Un método que comprende detectar la presencia o ausencia de alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación de ácido nucleico libre de células, en donde se secuencia al menos 20% del genoma del individuo.
127. Un método que comprende detectar la presencia o ausencia de alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación de ácido nucleico libre de células, en donde se secuencia al menos 30% del genoma del individuo.
128. Un método que comprende detectar la presencia o ausencia de alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación de ácido nucleico libre de células, en donde se secuencia al menos 40% del genoma del individuo.
129. Un método que comprende detectar la presencia o ausencia de alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación de ácido nucleico libre de células, en donde se secuencia al menos 50% del genoma del individuo.
130. Un método que comprende detectar la presencia o ausencia de alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación de ácido nucleico libre de células, en donde se secuencia al menos 60% del genoma del individuo.
131. Un método que comprende detectar la presencia o ausencia de alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación de ácido nucleico libre de células, en donde se secuencia al menos 70% del genoma del individuo.
132. Un método que comprende detectar la presencia o ausencia de alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación de ácido nucleico libre de células, en donde se secuencia al menos 80% del genoma del individuo.
133. Un método que comprende detectar la presencia o ausencia de alteración genética o cantidad de variación genética en un individuo, en donde la detección se realiza con la ayuda de la secuenciación de ácido nucleico libre de células, en donde se secuencia al menos 90% del genoma del individuo.
134. El método de las reivindicaciones 116-133, en donde la alteración genética es la variación en el número de copias o una o más mutaciones raras.
135. El método de las reivindicaciones 116-133, en donde la variación genética comprende una o más variantes causales y uno o más polimorfismos.
136. El metodo de las reivindicaciones 116-133, en donde la alteración genética y/o cantidad de variación genética en el individuo se puede comparar a una alteración genética y/o cantidad de variación genética en uno o más individuos con una enfermedad conocida.
137. El método de las reivindicaciones 116-133, en donde la alteración genética y/o cantidad de variación genética en el individuo se puede comparar a una alteración genética y/o cantidad de variación genética en uno o más individuos sin una enfermedad.
138. El método de las reivindicaciones 116-133, en donde el ácido nucleico libre de células es ADN.
139. El método de la reivindicación 116-133, en donde el ácido nucleico libre de células es ARN.
140. El método de la reivindicación 116-133, en donde el ácido nucleico libre de células es ADN y ARN.
141. El método de la reivindicación 136, en donde la enfermedad es cáncer o pre-cáncer.
142. El método de las reivindicaciones 116-133, el método que comprende además diagnosis o tratamiento de una enfermedad.
143. Un método que comprende: a. proporcionar al menos un conjunto de polinucleótidos de origen, marcados, y para cada conjunto de polinucleótidos de origen, marcados; b. amplificar los polinucleótidos de origen, marcados en el conjunto para producir un conjunto correspondiente de polinucleótidos de progenie, amplificados; c. secuenciar un subconjunto (incluyendo un subconjunto apropiado) del conjunto de polinucleótidos de progenie, amplificados, para producir un conjunto de lecturas de secuenciación; d. colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias de consenso, cada secuencia de consenso que corresponde a un polinucleótido único entre el conjunto de polinucleótidos de origen, marcados; y e. filtrar de entre las secuencias de consenso aquellas que fallan en cumplir con un umbral de calidad.
144. El método de la reivindicación 143, en donde el umbral de calidad considera un número de lecturas de secuencia de polinucleótidos de progenie, amplificados, colapsados en una secuencia de consenso.
145. El método de la reivindicación 143, en donde el umbral de calidad considera un número de lecturas de secuencia de polinucleótidos de progenie, amplificados, colapsados en una secuencia de consenso.
146. Un sistema que comprende un medio leíble por computadora para realizar el método de cualquiera de las reivindicaciones 143-145.
147. Un metodo que comprende: a. proporcionar al menos un conjunto de polinucleótidos de origen, marcados, en donde cada conjunto correlaciona a una diferente posición correlacionadle en una secuencia de referencia en uno o más genomas, y para cada conjunto de polinucleótidos de origen, marcados; i. amplificar los primeros polinucleótidos para producir un conjunto de polinucleótidos amplificados; ii. secuenciar un subconjunto del conjunto de polinucleótidos amplificados, para producir un conjunto de lecturas de secuenciación; y iii. colapsar las lecturas de secuencia al: 1. agrupar lecturas de secuencia secuenciadas de polinucleótidos de progenie, amplificados, en familias, cada familia amplificada del mismo polinucleótido de origen, marcado.
148. El método de la reivindicación 147, en donde el colapso comprende además: 2. determinar una medida cuantitativa de lecturas de secuencia en cada familia.
149. El método de la reivindicación 148, que comprende además: b. determinar una medida cuantitativa de familias únicas; y c. en base a (1) la medida cuantitativa de familias únicas y (2) la medida cuantitativa de lecturas de secuencia en cada grupo, inferir una medida de polinucleótidos de origen, marcados, únicos en el conjunto.
150. El método de la reivindicación 149, en donde la inferencia se realiza usando modelos estadísticos o probabilísticos.
151. El método de la reivindicación 149, en donde al menos un conjunto es una pluralidad de conjuntos.
152. El método de la reivindicación 151, que comprende además corregir para la desviación representacional o de amplificación entre los dos conjuntos.
153. El método de la reivindicación 152, que comprende además usar un control o conjunto de muestras de control para corregir las desviaciones representacionales o de amplificación entre los dos conjuntos.
154. El método de la reivindicación 151, que comprende además determinar la variación en el número de copias entre los conjuntos.
155. El método de la reivindicación 149, que comprende además: d. determinar una medida cuantitativa de formas polimórficas entre las familias; y e. en base a la medida cuantitativa determinada de formas polimórficas, inferir una medida cuantitativa de formas polimórficas en el número de polinucleótidos de origen, marcados, únicos, inferidos.
156. El método de la reivindicación 155, en donde las formas polimórficas incluyen pero no se limitan a: sustituciones, inserciones, supresiones, inversiones, cambios de microsatélite, transversiones, transcolocaciones, fusiones, metilación, hipermetilación, hidroximetilación, acetilación, variantes epigenéticas, variantes asociadas a regulación o sitios de unión a proteína.
157. El método de la reivindicación 149, en donde los conjuntos se derivan de una muestra común y el método comprende además: d. inferir la variación en el número de copias para la pluralidad de conjuntos en base a una comparación del número inferido de polinucleótidos de origen, marcados en cada conjunto que correlaciona a cada una de una pluralidad de posiciones correlacionadles en una secuencia de referencia.
158. El método de la reivindicación 157, en donde el número original de polinucleótidos en cada conjunto se infiere de manera adicional.
159. El método de la reivindicación 147, en donde al menos un conjunto de los polinucleótidos de origen, marcados en cada conjunto no se marcan de manera única.
160. Un sistema que comprende un medio leíble por computadora que comprende código ejecutable en máquina que, en la ejecución por un procesador de computadora, implementa un método como en cualquiera de las modalidades 147-158.
161. Un método para determinar la variación en el número de copias en una muestra que incluye polinucleótidos, el método que comprende: a. proporcionar al menos dos conjuntos de primeros polinucleótidos, en donde cada conjunto correlaciona a una diferente posición correlacionable en una secuencia de referencia en el genoma, y para cada conjunto correlaciona a una diferente posición correlacionable en una secuencia de referencia en el genoma, y para cada conjunto de primeros polinucleótidos; i. amplificar los polinucleótidos para producir un conjunto de polinucleótidos amplificados; ii. secuenciar un subconjunto del conjunto de polinucleótidos amplificados, para producir un conjunto de lecturas de secuenciación; iii. agrupar lecturas de secuencia secuenciadas de polinucleótidos amplificados en familias, cada familia amplificada del mismo primer polinucleótido en el conjunto; iv. inferir una medida cuantitativa de familias en el conjunto; y b. determinar la variación en el número de copias al comparar la medida cuantitativa de familias en cada conjunto.
162. Un sistema que comprende un medio leíble por computadora que comprende código ejecutable en máquina que, en la ejecución por un procesador de computadora, implementa el método de la reivindicación 161.
163. Un método para inferir la frecuencia de lecturas automáticas de secuencia en una muestra de polinucleótidos que comprende: a. proporcionar al menos un conjunto de primeros polinucleótidos, en donde cada conjunto correlaciona a una diferente posición correlacionadle en una secuencia de referencia en uno o más genomas, y, para cada conjunto de primeros polinucleótidos; i. amplificar los primeros polinucleótidos para producir un conjunto de polinucleótidos amplificados; ii. secuenciar un subconjunto del conjunto de polinucleótidos amplificados, para producir un conjunto de lecturas de secuenciación; iii. agrupar las lecturas de secuencia en familias, cada familia que comprende lecturas de secuencia de polinucleótidos amplificados, amplificados del mismo primer polinucleótido; b. inferir, para cada conjunto de primeros polinucleótidos, una frecuencia de lecturas automáticas para una o más bases en el conjunto de primeros polinucleótidos, en donde la inferencia comprende: i. asignar, para cada familia, la puntuación de confianza para cada una de una pluralidad de lecturas automáticas, la puntuación de confianza que toma en consideración una frecuencia de la lectura automática entre los miembros de la familia; y ii. estimar una frecuencia de la una o más lecturas automáticas tomando en consideración las puntuaciones de confianza de la una o más lecturas automática asignada a cada familia.
164. Un sistema que comprende un medio leíble por computadora que comprende código ejecutable por máquina que, en la ejecución por un procesador de computadora, implementa el método de la reivindicación 163.
165. Un método para comunicar información de secuencia a cerca de al menos una molécula de polinucleótido individual, que comprende: a. proporcionar al menos una molécula de polinucleótido individual; b. codificar la información de secuencia en la por lo menos una molécula de polinucleótido individual para producir una señal; c. hacer pasar al menos parte de la señal a través de un canal para producir una señal recibida que comprende la información de secuencia de polinucleótidos a cerca de la por lo menos una molécula de polinucleótido individual, en donde la señal recibida comprende ruido y/o distorsión; d. descodificar la señal recibida para producir un mensaje que comprende información de secuencia a cercan de la por lo menos una molécula de polinucleótido individual en donde la descodificación reduce el ruido y/o distorsión a cerca de cada polinucleótido individual en el mensaje; y e. proporcionar el mensaje que comprende la información de secuencia a cerca de la por lo menos una molécula de polinucleótido individual a un receptor.
166. El método de la reivindicación 165, en donde el ruido comprende lecturas automáticas incorrectas de nucleótidos.
167 El método de la reivindicación 165, en donde la distorsión comprende amplificación desigual de la molécula de polinucleótido individual en comparación con otras moléculas de polinucleótidos individuales.
168. El método de la reivindicación 167, en donde la distorsión resulta de la desviación de secuenciación o amplificación.
169. El método de la reivindicación 165, en donde la por lo menos una molécula de polinucleótido individual es una pluralidad de moléculas de polinucleótidos individuales y la descodificación produce mensaje a cerca de cada molécula de pluralidad.
170. El método de la reivindicación 165, en donde la codificación comprende amplificar la por lo menos una molécula de polinucleótido individual, que se ha marcado opcionalmente, en donde la señal comprende una colección de molécula amplificadas.
171. El método de la reivindicación 165, en donde el canal comprende un secuenciador de polinucleótidos y la señal recibida comprende lecturas de secuencia de una pluralidad de polinucleótidos amplificados de la por lo menos una molécula de polinucleótido individual.
172. El método de la reivindicación 165, en donde la decodificación comprende agrupar lecturas de secuencia de moléculas amplificadas, amplificadas de cada una de la por lo menos una molécula de polinucleótido individual.
173. El método de la reivindicación 169, en donde la descodificación consiste de un método probabilístico o estadístico de filtración de la señal de secuencia generada.
174. Un sistema que comprende un medio leíble por computadora que comprende código ejecutable por máquina que, en la ejecución por un procesador de computadora implementa un método de cualquiera de las reivindicaciones 165-173.
175. El método de cualquiera de las reivindicaciones 143-145, 147-159 y 161, en donde los polinucleótidos se derivan de AFIN o ADN genómica tumoral.
176. El método de cualquiera de las reivindicaciones 143-175, en donde los polinucleótidos se derivan de polinucleótidos libres de células, polinucleótidos exosomales, polinucleótidos bacterianos o polinucleótidos virales.
177. El método de cualquiera de las reivindicaciones 1-3 o 143-175, que comprende además la detección y/o asociación de rutas moleculares afectadas.
178. El método de cualquiera de las reivindicaciones 1-3 o 143-175, que comprende además monitorear en serie del estado de salud o enfermedad de un individuo.
179. El método de cualquiera de las reivindicaciones 1-3 o 143-175, por lo que se infiere la filogenia de un genoma asociado con una enfermedad dentro de un individuo.
180. El método de cualquiera de las reivindicaciones 1-3 o 143-175, en donde comprende además la diagnosis, monitoreo o tratamiento de una enfermedad.
181. El método de la reivindicación 180, donde el régimen de tratamiento se selecciona o modifica en base a las formas polimórficas detectadas o CNV o rutas asociadas.
182. El método de la reivindicación 180 o 181, donde el tratamiento comprende una terapia de combinación
183. El método de la reivindicación 179, donde la diagnosis comprende además localizar la enfermedad usando una teenica radiográfica, tal como, exploración CT-S, PET-CT, MRI, Ultrasonido, Ultrasonido con microburbujas, etc.
184. Un medio leíble por computadora que comprende código ejecutable en máquina, no transitorio, que, en la ejecución por un procesador de computadora, implementa un método, el método que comprende: seleccionar regiones predefinidas en un genoma; tener acceso a lecturas de secuencia y enumerar el número de lecturas de secuencia en la regiones definidas; normalizar el número de lecturas de secuencia a través de las regiones predefinidas; y determinar el por ciento de variación de número de copia de las regiones predefinida.
185. Un medio leíble por computadora que comprende código ejecutable por máquina, no transitorio, que, en la ejecución por un procesador de computadora, implementa un método, el método que comprende: a. tener acceso a un archivo de datos que comprende una pluralidad de lecturas de secuenciación; b. filtrar las lecturas que fallan en cumplir con un umbral establecido; c. correlacionar las lecturas de secuencia derivadas de la secuenciación sobre una secuencia de referencia; d. identificar un subconjunto de lecturas de secuencia correlacionadas que se alinean con una variante de la secuencia de referencia en cada posición base correlacionable; e. para cada posición base correlacionable, calcular una relación de (a) un número de lecturas correlacionadas de secuencia que incluye una variante en comparación a la secuencia de referencia, a (b) un número de lecturas totales de secuencias para cada posición base correlacionable; f. normalizar las relaciones o frecuencia de varianza para cada posición base correlacionable de determinar las variantes raras potenciales u otras alteraciones genéticas; y g. comparar el número resultante para cada una de las regiones con mutaciones o variantes raras potenciales a números similarmente derivados de una muestra de referencia.
186. Un medio leíble por computadora que comprende código ejecutable por máquina, no transitorio, que, en la ejecución por un procesador de computadora, implementa un método, el método que comprende: a. tener acceso a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados de al menos un conjunto de polinucleótidos de origen, marcados; y b. colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias de consenso, cada secuencia de consenso que corresponde a un polinucleótido único entre el conjunto de polinucleótidos de origen, marcados.
187. Un medio leíble por computadora que comprende código ejecutable por máquina, no transitorio, que, en la ejecución por un procesador de computadora, implementa un método, el método que comprende: a. tener acceso a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados de al menos un conjunto de polinucleótidos de origen, marcados; b. colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias de consenso, cada secuencia de consenso que corresponde a un polinucleótido único entre el conjunto de polinucleótidos de origen, marcados. c. filtrar de entre las secuencias de consenso a aquellas que fallan en cumplir con un umbral de calidad.
188. Un medio leíble por computadora que comprende código ejecutable por máquina, no transitorio, que, en la ejecución por un procesador de computadora, implementa un método, el método que comprende: a. tener acceso a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados de al menos un conjunto de polinucleótidos de origen, marcados; y i. colapsar las lecturas de secuencia al: 1. agrupar lecturas de secuencia secuenciadas de polinucleótidos de progenie, amplificados, en familias, cada familia amplificada del mismo polinucleótido de origen, marcado y opcionalmente, 2. determinar una medida cuantitativa de lecturas de secuencia en cada familia.
189. El medio leíble por computadora de la reivindicación 188, en donde el código ejecutable en la ejecución por un procesador de computadora, realiza adicionalmente los pasos de: b. determinar una medida cuantitativa de familias únicas; c. en base a (1) la medida la medida cuantitativa de familias únicas y (2) la medida cuantitativa de lecturas de secuencia en cada grupo, inferir una medida de polinucleótidos de origen, marcados, únicos en el conjunto.
190. El medio leíble por computadora de la reivindicación 189, en donde el código ejecutable, en la ejecución por un procesador de computadora, realiza adicionalmente los pasos: d. en base a la medida cuantitativa determinada de formas polimórficas, inferir una medida cuantitativa de formas polimórficas en el número de polinucleótidos de origen, marcados, únicos, inferidos.
191. Un medio leíble por computadora que comprende el código ejecutable por máquina no transitorio, que, en la ejecución por un procesador de computadora, implementa un método, el método que comprende: a. tener acceso a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados de al menos un conjunto de polinucleótidos de origen, marcados agrupando lecturas de secuencia secuenciadas de polinucleótidos amplificados en familias, cada familia amplificada de mismo primer polinucleótido en el conjunto; b. inferir una medida cuantitativas de familias en el conjunto; c. determinar la variación en el número de copias al comparar la medida cuantitativa de familias en cada conjunto.
192. Un medio leíble por computadora que comprende el código ejecutable por máquina no transitorio, que, en la ejecución por un procesador de computadora, implementa un método, el método que comprende: a. tener acceso a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados de al menos un conjunto de polinucleótidos de origen, marcados, agrupando lecturas de secuencia en familias, cada familia que comprende lecturas de secuencia de polinucleótidos amplificados, amplificados del mismo primer polinucleótido; b. inferir, para cada conjunto de primeros polinucleótido, una frecuencia de lecturas automáticas para una o más bases en el conjunto de primeros polinucleótidos, en donde la inferencia comprende: c. asignar, para cada familia, una puntuación de confianza para cada una de una pluralidad de lecturas automáticas, la puntuación de confianza que toma en consideración una frecuencia de la lectura automática entre los miembros de la familia; y d. estimar una frecuencia de una o más lecturas automáticas tomando en consideración las puntuaciones de confianza de la una o más lecturas automáticas asignadas a cada familia.
193. Un medio leíble por computadora que comprende el código ejecutable por máquina no transitorio, que, en la ejecución por un procesador de computadora, implementa un método, el método que comprende: a. tener acceso a un archivo de datos que comprende una señal recibida que comprende información de secuencia codificada de al menos una molécula de polinucleótidos individual en donde la señal recibida comprende ruido y/o distorsión; b. descodificar la señal recibida para producir un mensaje que comprende información de secuencia cerca de la por lo menos una molécula de polinucleótidos individual, en donde la descodificación reduce el ruido y/o distorsiona cerca de cada polinucleótido individual en el mensaje; y c. escribir el mensaje que comprende la información de secuencia cerca de la por lo menos una molécula de polinucleótido individual a un archivo de computadora.
194. Un medio leíble por computadora que comprende el código ejecutable por máquina no transitorio, que, en la ejecución por un procesador de computadora, implementa un método, el método que comprende: a. tener acceso a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados de al menos un conjunto de polinucleótidos de origen, marcados; b. colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias de consensos, cada secuencias de consenso que corresponde a un polinucleótido único entre el conjunto de polinucleótidos de origen, marcados; y c. filtrar de entre las secuencias de consenso aquellas que fallan en cumplir con un umbral de calidad.
195. Un medio leíble por computadora que comprende el código ejecutable por máquina no transitorio, que, en la ejecución por un procesador de computadora, implementa un método, el método que comprende: a. tener acceso a un archivo de datos que comprende una pluralidad de lecturas de necuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados de al menos un conjunto de polinucleótidos de origen, marcados; y b. colapsar las lecturas de secuencia al: i. agrupar lecturas de secuencias secuenciadas de polinucleótidos de progenie amplificados, en familias, cada familia amplificada del mismo polinucleótido de origen, marcado; y ii. opcionalmente, determinar una medida cuantitativa de las lecturas de secuencia en cada familia.
196. El medio leíble por computadora de la reivindicación 195, en donde el código ejecutable, en la ejecución por un procesador de computadora, realiza adicionalmente los pasos de: c. determinar una medida cuantitativa de familias únicas; d. en base a (1) la medida cuantitativa de familias únicas y (2) la medida cuantitativa de lecturas de secuencia en cada grupo, inferir una medida de los polinucleótidos de origen, marcados, únicos en el conjunto.
197. El medio leíble por computadora de la reivindicación 196, en donde el código ejecutable, en la ejecución por un procesador de computadora, realiza adicionalmente los pasos de: e. determinar una medida cuantitativa de formas polimórficas entre las familias; y f. en basen a la medida cuantitativa determinada de formas polimórficas, inferir una medida cuantitativa de formas polimórficas en el número de polinucleótidos de origen, marcados, únicos, inferidos.
198. El medio leíble por computadora de la reivindicación 196, en donde el código ejecutable, en la ejecución por un procesador de computadora, realiza adicionalmente los pasos de: e. inferir la variación en el número de copias para la pluralidad de conjuntos en base a una comparación del número inferido de polinucleótidos de origen, marcados en cada conjunto que correlaciona a cada una de una pluralidad de secuencias de referencia.
199. Un medio leíble por computadora que comprende código ejecutable por máquina, no transitorio, que, en la ejecución por un procesador de computadora, implementa un método, el método que comprende: a. tener acceso a un archivo de datos que comprende una pluralidad de lecturas de secuenciación, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados de al menos un conjunto de polinucleótidos de origen, marcados; b. agrupar lecturas de secuencias secuenciadas de polinucleótidos amplificados en familias, cada familia amplificada del mismo primer polinucleótidos en el conjunto; c. inferir una medida cuantitativa de las familias en el conjunto; y d. determinar la variación en el número de copias al comparar la medida cuantitativa de familias en cada conjunto.
200. Un medio leíble por computadora que comprende el código ejecutable por máquina no transitorio, que, en la ejecución por un procesador de computadora, implementa un método, el método que comprende: a. tener acceso a un archivo de datos que comprende una pluralidad de lecturas de secuencia, en donde las lecturas de secuencia se derivan de un conjunto de polinucleótidos de progenie amplificados de al menos un conjunto de polinucleótidos de origen, marcados, agrupando las lecturas de secuencia en familias, cada familia que comprende lecturas de secuencia de polinucleótidos amplificados, amplificados del mismo primer polinucleótido; b. inferir, para cada conjunto de primeros polinucleótidos, una frecuencia de lecturas automáticas para una o más bases en el conjunto de primeros polinucleótidos, en donde la inferencia comprende: i. asignar, para cada familia, una puntuación de confianza para cada una de una pluralidad de lecturas automáticas, la puntuación de confianza que toma en consideración una frecuencia de la lectura automática entre los miembros de la familia; y ii. estimar una frecuencia de una o más lectura automáticas tomando en consideración las puntuaciones de confianza de la una o más lecturas automáticas asignadas a cada familia.
201. Una composición que comprende entre 100 y 100,000 equivalentes haploides de genoma humano de polinucleótidos de cfDNA, en donde los polinucleótidos se marcan con entre 2 y 1,000,000 de identificadores únicos.
202. La composición de la reivindicación 201, que comprende entre 1000 y 50,000 equivalentes haploides de genoma humano de polinucleótidos de cfDNA, en donde los polinucleótidos se marcan con entre 2 y 1,000 identificadores únicos.
203. La composición de la reivindicación 201, en donde los identificadores únicos comprenden códigos de barras de nucleótidos.
204. Un método que comprende: a. proporcionar una muestra que comprende entre 100 y 100,000 equivalentes haploides de genoma humano de polinucleótidos de cfDNA; y b. marcar los polinucleótidos con entre 2 y 1,000,000 de identificadores únicos.
205. Un método que comprende: a. proporcionar una muestra que comprende una pluralidad de equivalentes haploides de genoma humano de polinucleótidos fragmentados; b. determinar z, en donde z es una medida de la tendencia central (por ejemplo, media, mediana o modo) del número esperado de polinucleótidos duplicados iniciando en cualquiera posición en el genoma, en donde los polinucleótidos duplicados tienen las mismas posiciones de inicio y final; y c. marcar los polinucleótidos en la muestran con n identificadores únicos, en donde n está entre 2 y 100,000*z, 2 y 10,000*z, 2 y l,000*z o 2 y 100*z.
206. Un método que comprende: a. proporcionar al menos un conjunto de polinucleótidos de origen, marcados, y para cada conjunto de polinucleótidos de origen, marcados; b. producir una pluralidad de lecturas de secuencia para cada polinucleótido de origen, marcado en el conjunto para producir un conjunto de lecturas de secuenciación; y c. colapsar el conjunto de lecturas de secuenciación para generar un conjunto de secuencias de consenso, cada secuencia de consenso que corresponde a un polinucleótido único entre el conjunto de polinucleótidos de origen, marcados.
MX2015002769A 2012-09-04 2013-09-04 Métodos para detectar mutaciones raras y variación en el número de copias. MX367963B (es)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261696734P 2012-09-04 2012-09-04
US201261704400P 2012-09-21 2012-09-21
US201361793997P 2013-03-15 2013-03-15
US201361845987P 2013-07-13 2013-07-13
PCT/US2013/058061 WO2014039556A1 (en) 2012-09-04 2013-09-04 Systems and methods to detect rare mutations and copy number variation

Publications (2)

Publication Number Publication Date
MX2015002769A true MX2015002769A (es) 2015-08-14
MX367963B MX367963B (es) 2019-09-11

Family

ID=50237580

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2015002769A MX367963B (es) 2012-09-04 2013-09-04 Métodos para detectar mutaciones raras y variación en el número de copias.

Country Status (18)

Country Link
US (25) US10041127B2 (es)
EP (5) EP2893040B1 (es)
JP (5) JP6275145B2 (es)
KR (5) KR102028375B1 (es)
CN (2) CN104781421B (es)
BR (1) BR112015004847A2 (es)
CA (2) CA2883901C (es)
DE (1) DE202013012824U1 (es)
DK (1) DK2893040T5 (es)
ES (3) ES2906714T3 (es)
GB (1) GB2533006B (es)
HK (3) HK1201080A1 (es)
IL (3) IL269097B2 (es)
MX (1) MX367963B (es)
PL (2) PL2893040T3 (es)
PT (1) PT2893040T (es)
SG (2) SG10202000486VA (es)
WO (1) WO2014039556A1 (es)

Families Citing this family (267)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9424392B2 (en) 2005-11-26 2016-08-23 Natera, Inc. System and method for cleaning noisy genetic data from target individuals using genetic data from genetically related individuals
US10081839B2 (en) 2005-07-29 2018-09-25 Natera, Inc System and method for cleaning noisy genetic data and determining chromosome copy number
US11111543B2 (en) 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US10083273B2 (en) 2005-07-29 2018-09-25 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US11111544B2 (en) * 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
EP2854056A3 (en) 2009-09-30 2015-06-03 Natera, Inc. Methods for non-invasive pre-natal ploidy calling
EP2854058A3 (en) 2010-05-18 2015-10-28 Natera, Inc. Methods for non-invasive pre-natal ploidy calling
US10316362B2 (en) 2010-05-18 2019-06-11 Natera, Inc. Methods for simultaneous amplification of target loci
US11332785B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US20190010543A1 (en) 2010-05-18 2019-01-10 Natera, Inc. Methods for simultaneous amplification of target loci
US11939634B2 (en) 2010-05-18 2024-03-26 Natera, Inc. Methods for simultaneous amplification of target loci
US11332793B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for simultaneous amplification of target loci
US11408031B2 (en) 2010-05-18 2022-08-09 Natera, Inc. Methods for non-invasive prenatal paternity testing
US11339429B2 (en) 2010-05-18 2022-05-24 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US9677118B2 (en) 2014-04-21 2017-06-13 Natera, Inc. Methods for simultaneous amplification of target loci
US11322224B2 (en) 2010-05-18 2022-05-03 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11326208B2 (en) 2010-05-18 2022-05-10 Natera, Inc. Methods for nested PCR amplification of cell-free DNA
US10179937B2 (en) * 2014-04-21 2019-01-15 Natera, Inc. Detecting mutations and ploidy in chromosomal segments
ES2770342T3 (es) 2010-12-22 2020-07-01 Natera Inc Procedimientos para pruebas prenatales no invasivas de paternidad
KR20140024270A (ko) 2010-12-30 2014-02-28 파운데이션 메디신 인코포레이티드 종양 샘플의 다유전자 분석의 최적화
CN103608818B (zh) 2011-02-09 2017-12-08 纳特拉公司 非侵入性产前倍性识别装置
US9260753B2 (en) 2011-03-24 2016-02-16 President And Fellows Of Harvard College Single cell nucleic acid detection and analysis
EP2697397B1 (en) 2011-04-15 2017-04-05 The Johns Hopkins University Safe sequencing system
WO2012177792A2 (en) 2011-06-24 2012-12-27 Sequenom, Inc. Methods and processes for non-invasive assessment of a genetic variation
US20130079241A1 (en) 2011-09-15 2013-03-28 Jianhua Luo Methods for Diagnosing Prostate Cancer and Predicting Prostate Cancer Relapse
US9367663B2 (en) 2011-10-06 2016-06-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20140242588A1 (en) 2011-10-06 2014-08-28 Sequenom, Inc Methods and processes for non-invasive assessment of genetic variations
US9984198B2 (en) 2011-10-06 2018-05-29 Sequenom, Inc. Reducing sequence read count error in assessment of complex genetic variations
US10196681B2 (en) 2011-10-06 2019-02-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10424394B2 (en) 2011-10-06 2019-09-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
AU2013209499B2 (en) 2012-01-20 2018-05-10 Sequenom, Inc. Diagnostic processes that factor experimental conditions
SI3363901T1 (sl) 2012-02-17 2021-04-30 Fred Hutchinson Cancer Research Center Sestavki in postopki za natančno identifikacijo mutacij
US9892230B2 (en) 2012-03-08 2018-02-13 The Chinese University Of Hong Kong Size-based analysis of fetal or tumor DNA fraction in plasma
PT2828218T (pt) 2012-03-20 2020-11-11 Univ Washington Through Its Center For Commercialization Métodos para baixar a taxa de erro da sequenciação paralela massiva de adn utilizando sequenciação duplex de consensus
CN104428425A (zh) * 2012-05-04 2015-03-18 考利达基因组股份有限公司 测定复杂肿瘤全基因组绝对拷贝数变异的方法
US10504613B2 (en) 2012-12-20 2019-12-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9920361B2 (en) 2012-05-21 2018-03-20 Sequenom, Inc. Methods and compositions for analyzing nucleic acid
US11261494B2 (en) 2012-06-21 2022-03-01 The Chinese University Of Hong Kong Method of measuring a fractional concentration of tumor DNA
US10497461B2 (en) 2012-06-22 2019-12-03 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20150011396A1 (en) 2012-07-09 2015-01-08 Benjamin G. Schroeder Methods for creating directional bisulfite-converted nucleic acid libraries for next generation sequencing
DE202013012824U1 (de) 2012-09-04 2020-03-10 Guardant Health, Inc. Systeme zum Erfassen von seltenen Mutationen und einer Kopienzahlvariation
US11913065B2 (en) 2012-09-04 2024-02-27 Guardent Health, Inc. Systems and methods to detect rare mutations and copy number variation
US10876152B2 (en) 2012-09-04 2020-12-29 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US10482994B2 (en) 2012-10-04 2019-11-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
AU2013338393B2 (en) 2012-10-29 2017-05-11 The Johns Hopkins University Papanicolaou test for ovarian and endometrial cancers
US9218450B2 (en) * 2012-11-29 2015-12-22 Roche Molecular Systems, Inc. Accurate and fast mapping of reads to genome
US20130309666A1 (en) 2013-01-25 2013-11-21 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
GB2528205B (en) 2013-03-15 2020-06-03 Guardant Health Inc Systems and methods to detect rare mutations and copy number variation
WO2014144092A1 (en) 2013-03-15 2014-09-18 Nugen Technologies, Inc. Sequential sequencing
EP4187543A1 (en) 2013-04-03 2023-05-31 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
IL309903A (en) 2013-05-24 2024-03-01 Sequenom Inc Methods and processes for non-invasive evaluation of genetic variations
JP6473744B2 (ja) 2013-06-21 2019-02-20 セクエノム, インコーポレイテッド 遺伝子の変動の非侵襲的評価のための方法および処理
US10577655B2 (en) 2013-09-27 2020-03-03 Natera, Inc. Cell free DNA diagnostic testing standards
US10262755B2 (en) 2014-04-21 2019-04-16 Natera, Inc. Detecting cancer mutations and aneuploidy in chromosomal segments
IL304949A (en) 2013-10-04 2023-10-01 Sequenom Inc Methods and processes for non-invasive evaluation of genetic variations
CN105874082B (zh) 2013-10-07 2020-06-02 塞昆纳姆股份有限公司 用于非侵入性评估染色体改变的方法和过程
KR102373647B1 (ko) 2013-10-21 2022-03-11 베리나타 헬스, 인코포레이티드 사본수 변동을 결정함에 있어서 검출의 감수성을 향상시키기 위한 방법
EP3066236B1 (en) 2013-11-07 2022-08-24 The Board of Trustees of the Leland Stanford Junior University Cell-free nucleic acids for the analysis of the human microbiome and components thereof
JP6525473B2 (ja) 2013-11-13 2019-06-05 ニューゲン テクノロジーズ, インコーポレイテッド 複製物配列決定リードを同定するための組成物および方法
ES2822125T3 (es) 2013-12-28 2021-04-29 Guardant Health Inc Métodos y sistemas para detectar variantes genéticas
ES2818625T3 (es) 2013-12-30 2021-04-13 Univ Pittsburgh Commonwealth Sys Higher Education Genes de fusión asociados con el cáncer de próstata progresivo
WO2015175705A1 (en) 2014-05-13 2015-11-19 Board Of Regents, The University Of Texas System Gene mutations and copy number alterations of egfr, kras and met
EP3149202A1 (en) * 2014-05-26 2017-04-05 Ebios Futura S.r.l. Method of prenatal diagnosis
EP3690061A1 (en) * 2014-05-30 2020-08-05 Verinata Health, Inc. Detecting, optionally fetal, sub-chromosomal aneuploidies and copy number variations
WO2015183872A1 (en) * 2014-05-30 2015-12-03 Sequenom, Inc. Chromosome representation determinations
EP3193944B1 (en) 2014-07-17 2021-04-07 University of Pittsburgh - Of the Commonwealth System of Higher Education Methods of treating cells containing fusion genes
TWI727156B (zh) 2014-07-18 2021-05-11 香港中文大學 Dna混合物中之組織甲基化模式分析
GB201412834D0 (en) * 2014-07-18 2014-09-03 Cancer Rec Tech Ltd A method for detecting a genetic variant
KR102441391B1 (ko) 2014-07-25 2022-09-07 유니버시티 오브 워싱톤 무세포 dna를 생성하는 조직 및/또는 세포 유형을 결정하는 방법 및 이를 사용하여 질환 또는 장애를 확인하는 방법
US20160034640A1 (en) 2014-07-30 2016-02-04 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CA2957633A1 (en) * 2014-08-06 2016-02-11 Nugen Technologies, Inc. Digital measurements from targeted sequencing
US11959141B2 (en) 2014-12-05 2024-04-16 Foundation Medicine, Inc. Multigene analysis of tumor samples
CN107075564A (zh) * 2014-12-10 2017-08-18 深圳华大基因研究院 确定肿瘤核酸浓度的方法和装置
DK3230469T3 (da) * 2014-12-12 2019-07-15 Verinata Health Inc Anvendelse af cellefri DNA-fragmentstørrelse til bestemmelse af kopiantalsvariationer
WO2016095093A1 (zh) * 2014-12-15 2016-06-23 天津华大基因科技有限公司 肿瘤筛查方法、目标区域变异检测方法和装置
WO2016100049A1 (en) 2014-12-18 2016-06-23 Edico Genome Corporation Chemically-sensitive field effect transistor
US9618474B2 (en) 2014-12-18 2017-04-11 Edico Genome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US10006910B2 (en) 2014-12-18 2018-06-26 Agilome, Inc. Chemically-sensitive field effect transistors, systems, and methods for manufacturing and using the same
US9859394B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US9857328B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Chemically-sensitive field effect transistors, systems and methods for manufacturing and using the same
US10020300B2 (en) 2014-12-18 2018-07-10 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
CN107111693A (zh) * 2014-12-29 2017-08-29 考希尔股份有限公司 用于确定高同源性区域中的基因型的方法
JP6783768B2 (ja) * 2014-12-31 2020-11-11 ガーダント ヘルス, インコーポレイテッド 疾患細胞不均一性を示す疾患の検出および処置、ならびに通信試験結果のためのシステムおよび方法
US10364467B2 (en) * 2015-01-13 2019-07-30 The Chinese University Of Hong Kong Using size and number aberrations in plasma DNA for detecting cancer
CN107771221B (zh) 2015-02-10 2021-11-02 香港中文大学 用于癌症筛查和胎儿分析的突变检测
JP6995625B2 (ja) 2015-05-01 2022-01-14 ガーダント ヘルス, インコーポレイテッド 診断方法
WO2016183106A1 (en) 2015-05-11 2016-11-17 Natera, Inc. Methods and compositions for determining ploidy
AU2016264102A1 (en) 2015-05-18 2017-12-21 Karius, Inc. Compositions and methods for enriching populations of nucleic acids
US10395759B2 (en) * 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
JP6698708B2 (ja) * 2015-06-09 2020-05-27 ライフ テクノロジーズ コーポレーション 分子タグ付けのための方法、システム、組成物、キット、装置、及びコンピュータ可読媒体
CN107408163B (zh) * 2015-06-24 2021-03-05 吉尼努斯公司 用于分析基因的方法及装置
WO2017007903A1 (en) * 2015-07-07 2017-01-12 Farsight Genome Systems, Inc. Methods and systems for sequencing-based variant detection
EP3322816B1 (en) * 2015-07-13 2020-01-01 Agilent Technologies Belgium NV System and methodology for the analysis of genomic data obtained from a subject
ES2844852T3 (es) * 2015-07-21 2021-07-22 Guardant Health Inc Acidos nucleicos bloqueados para capturar genes de fusión
EP3325664B1 (en) 2015-07-23 2021-12-29 The Chinese University Of Hong Kong Analysis of fragmentation patterns of cell-free dna
WO2017020024A2 (en) * 2015-07-29 2017-02-02 Progenity, Inc. Systems and methods for genetic analysis
CA2993347A1 (en) 2015-07-29 2017-02-02 Progenity, Inc. Nucleic acids and methods for detecting chromosomal abnormalities
CA2994848C (en) * 2015-08-07 2021-08-10 University Of Pittsburgh-Of The Commonwealth System Of Higher Education Methods for predicting prostate cancer relapse
US11286531B2 (en) 2015-08-11 2022-03-29 The Johns Hopkins University Assaying ovarian cyst fluid
US11302416B2 (en) 2015-09-02 2022-04-12 Guardant Health Machine learning for somatic single nucleotide variant detection in cell-free tumor nucleic acid sequencing applications
AU2016321204B2 (en) * 2015-09-08 2022-12-01 Cold Spring Harbor Laboratory Genetic copy number determination using high throughput multiplex sequencing of smashed nucleotides
EP3359694A4 (en) 2015-10-09 2019-07-17 Guardant Health, Inc. POPULATION-BASED TREATMENT TREATMENT USING CELL-FREE DNA
KR101848438B1 (ko) 2015-10-29 2018-04-13 바이오코아 주식회사 디지털 pcr을 이용한 산전진단 방법
EP3368686A1 (en) 2015-10-30 2018-09-05 Exact Sciences Development Company, LLC Multiplex amplification detection assay and isolation and detection of dna from plasma
RU2018121254A (ru) 2015-11-11 2019-12-16 Резолюшн Байосайенс, Инк. Высокоэффективное построение библиотек днк
US20180330050A1 (en) * 2015-11-16 2018-11-15 Mayo Foundation For Medical Education And Research Detecting copy number variations
EP4043584A1 (en) 2015-12-08 2022-08-17 Twinstrand Biosciences, Inc. Improved adapters, methods, and compositions for duplex sequencing
CN117174167A (zh) * 2015-12-17 2023-12-05 夸登特健康公司 通过分析无细胞dna确定肿瘤基因拷贝数的方法
WO2017127741A1 (en) * 2016-01-22 2017-07-27 Grail, Inc. Methods and systems for high fidelity sequencing
WO2017136603A1 (en) * 2016-02-02 2017-08-10 Guardant Health, Inc. Cancer evolution detection and diagnostic
US10095831B2 (en) 2016-02-03 2018-10-09 Verinata Health, Inc. Using cell-free DNA fragment size to determine copy number variations
WO2017161175A1 (en) * 2016-03-16 2017-09-21 Dana-Farber Cancer Institute, Inc. Methods for genome characterization
US9976181B2 (en) 2016-03-25 2018-05-22 Karius, Inc. Synthetic nucleic acid spike-ins
US20190085406A1 (en) 2016-04-14 2019-03-21 Guardant Health, Inc. Methods for early detection of cancer
US11384382B2 (en) 2016-04-14 2022-07-12 Guardant Health, Inc. Methods of attaching adapters to sample nucleic acids
ITUA20162640A1 (it) * 2016-04-15 2017-10-15 Menarini Silicon Biosystems Spa Metodo e kit per la generazione di librerie di dna per sequenziamento massivo parallelo
CN109511265B (zh) 2016-05-16 2023-07-14 安可济控股有限公司 通过链鉴定改进测序的方法
WO2017201081A1 (en) 2016-05-16 2017-11-23 Agilome, Inc. Graphene fet devices, systems, and methods of using the same for sequencing nucleic acids
WO2017212428A1 (en) * 2016-06-07 2017-12-14 The Regents Of The University Of California Cell-free dna methylation patterns for disease and condition analysis
EP3831958B1 (en) 2016-06-30 2023-09-06 Grail, LLC Differential tagging of rna for preparation of a cell-free dna/rna sequencing library
CN107577917A (zh) * 2016-07-05 2018-01-12 魏霖静 一种生物信息学高性能信息化管理系统及数据处理方法
WO2018009723A1 (en) 2016-07-06 2018-01-11 Guardant Health, Inc. Methods for fragmentome profiling of cell-free nucleic acids
JP7048105B2 (ja) 2016-07-15 2022-04-05 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア 核酸ライブラリを生成する方法
EP3491560A1 (en) 2016-07-27 2019-06-05 Sequenom, Inc. Genetic copy number alteration classifications
CN117286217A (zh) 2016-08-25 2023-12-26 分析生物科学有限公司 用于检测dna样品中基因组拷贝变化的方法
CA3037917A1 (en) * 2016-09-22 2018-03-29 Illumina, Inc. Somatic copy number variation detection
US9850523B1 (en) 2016-09-30 2017-12-26 Guardant Health, Inc. Methods for multi-resolution analysis of cell-free nucleic acids
AU2017336153B2 (en) 2016-09-30 2023-07-13 Guardant Health, Inc. Methods for multi-resolution analysis of cell-free nucleic acids
WO2018067517A1 (en) 2016-10-04 2018-04-12 Natera, Inc. Methods for characterizing copy number variation using proximity-litigation sequencing
WO2018071595A1 (en) 2016-10-12 2018-04-19 Bellwether Bio, Inc. Determining cell type origin of circulating cell-free dna with molecular counting
TWI797095B (zh) 2016-10-24 2023-04-01 美商格瑞爾有限責任公司 腫瘤檢測之方法及系統
WO2018081465A1 (en) * 2016-10-26 2018-05-03 Pathway Genomics Corporation Systems and methods for characterizing nucleic acid in a biological sample
CN106566877A (zh) * 2016-10-31 2017-04-19 天津诺禾致源生物信息科技有限公司 检测基因突变的方法和装置
KR102529113B1 (ko) 2016-11-30 2023-05-08 더 차이니즈 유니버시티 오브 홍콩 소변 및 기타 샘플에서의 무세포 dna의 분석
US10011870B2 (en) 2016-12-07 2018-07-03 Natera, Inc. Compositions and methods for identifying nucleic acid molecules
CN110383385B (zh) * 2016-12-08 2023-07-25 生命科技股份有限公司 从肿瘤样品中检测突变负荷的方法
US20180166170A1 (en) * 2016-12-12 2018-06-14 Konstantinos Theofilatos Generalized computational framework and system for integrative prediction of biomarkers
CA3046007A1 (en) 2016-12-22 2018-06-28 Guardant Health, Inc. Methods and systems for analyzing nucleic acid molecules
CN106701956A (zh) * 2017-01-11 2017-05-24 上海思路迪生物医学科技有限公司 ctDNA的数字化深度测序技术
US11929145B2 (en) 2017-01-20 2024-03-12 Sequenom, Inc Methods for non-invasive assessment of genetic alterations
CA3050055C (en) 2017-01-24 2023-09-19 Sequenom, Inc. Methods and processes for assessment of genetic variations
MY197535A (en) 2017-01-25 2023-06-21 Univ Hong Kong Chinese Diagnostic applications using nucleic acid fragments
US10894976B2 (en) 2017-02-21 2021-01-19 Natera, Inc. Compositions, methods, and kits for isolating nucleic acids
CN106755547A (zh) * 2017-03-15 2017-05-31 上海亿康医学检验所有限公司 一种膀胱癌的无创检测及其复发监测方法
US11584958B2 (en) 2017-03-31 2023-02-21 Grail, Llc Library preparation and use thereof for sequencing based error correction and/or variant identification
WO2018191563A1 (en) 2017-04-12 2018-10-18 Karius, Inc. Sample preparation methods, systems and compositions
US11342047B2 (en) 2017-04-21 2022-05-24 Illumina, Inc. Using cell-free DNA fragment size to detect tumor-associated variant
EP3635138A1 (en) * 2017-05-15 2020-04-15 Katholieke Universiteit Leuven Method for analysing cell-free nucleic acids
JP7123975B2 (ja) * 2017-05-16 2022-08-23 ガーダント ヘルス, インコーポレイテッド 無細胞dnaについての体細胞起源または生殖系列起源の識別
CN110914911B (zh) 2017-05-16 2023-09-22 生命科技股份有限公司 压缩分子标记的核酸序列数据的方法
KR102145417B1 (ko) * 2017-05-24 2020-08-19 지니너스 주식회사 무세포 핵산으로부터 수득된 서열 분석 데이터에 대한 배경 대립인자의 빈도 분포를 생성하는 방법 및 이를 이용하여 무세포 핵산으로부터 변이를 검출하는 방법
WO2018227202A1 (en) * 2017-06-09 2018-12-13 Bellwether Bio, Inc. Determination of cancer type in a subject by probabilistic modeling of circulating nucleic acid fragment endpoints
CA3067419A1 (en) * 2017-06-20 2018-12-27 Illumina, Inc. Methods and systems for decomposition and quantification of dna mixtures from multiple contributors of known or unknown genotypes
EP3431611A1 (en) 2017-07-21 2019-01-23 Menarini Silicon Biosystems S.p.A. Improved method and kit for the generation of dna libraries for massively parallel sequencing
ES2959360T3 (es) * 2017-07-26 2024-02-23 Univ Hong Kong Chinese Mejora del cribado del cáncer mediante ácidos nucleicos víricos acelulares
US11430543B2 (en) 2017-08-04 2022-08-30 Billiontoone, Inc. Sequencing output determination and analysis with target-associated molecules in quantification associated with biological targets
US11519024B2 (en) 2017-08-04 2022-12-06 Billiontoone, Inc. Homologous genomic regions for characterization associated with biological targets
US11646100B2 (en) 2017-08-04 2023-05-09 Billiontoone, Inc. Target-associated molecules for characterization associated with biological targets
CA3075932A1 (en) 2017-09-20 2019-03-28 Guardant Health, Inc. Methods and systems for differentiating somatic and germline variants
CN107688726B (zh) * 2017-09-21 2021-09-07 深圳市易基因科技有限公司 基于液相捕获技术判定单基因病相关拷贝数缺失的方法
US11099202B2 (en) 2017-10-20 2021-08-24 Tecan Genomics, Inc. Reagent delivery system
WO2019090156A1 (en) 2017-11-03 2019-05-09 Guardant Health, Inc. Normalizing tumor mutation burden
WO2019090147A1 (en) 2017-11-03 2019-05-09 Guardant Health, Inc. Correcting for deamination-induced sequence errors
AU2018366213A1 (en) 2017-11-08 2020-05-14 Twinstrand Biosciences, Inc. Reagents and adapters for nucleic acid sequencing and methods for making such reagents and adapters
JP7054133B2 (ja) * 2017-11-09 2022-04-13 国立研究開発法人国立がん研究センター 配列解析方法、配列解析装置、参照配列の生成方法、参照配列生成装置、プログラム、および記録媒体
CA3080170A1 (en) * 2017-11-28 2019-06-06 Grail, Inc. Models for targeted sequencing
KR20200093438A (ko) * 2017-12-01 2020-08-05 일루미나, 인코포레이티드 체성 돌연변이 클론형성능을 결정하기 위한 방법 및 시스템
CN108197428B (zh) * 2017-12-25 2020-06-19 西安交通大学 一种并行动态规划的下一代测序技术拷贝数变异检测方法
CN112365927B (zh) * 2017-12-28 2023-08-25 安诺优达基因科技(北京)有限公司 Cnv检测装置
CN112020565A (zh) 2018-01-05 2020-12-01 十亿至一公司 用于确保基于测序的测定的有效性的质量控制模板
WO2019140201A1 (en) 2018-01-12 2019-07-18 Claret Bioscience, Llc Methods and compositions for analyzing nucleic acid
SG11201911805VA (en) * 2018-01-15 2020-01-30 Illumina Inc Deep learning-based variant classifier
CN108268752B (zh) * 2018-01-18 2019-02-01 东莞博奥木华基因科技有限公司 一种染色体异常检测装置
KR102036609B1 (ko) * 2018-02-12 2019-10-28 바이오코아 주식회사 디지털 pcr을 이용한 산전진단 방법
AU2019255613A1 (en) * 2018-04-16 2020-11-12 Memorial Sloan Kettering Cancer Center Systems and methods for detecting cancer via cfDNA screening
US20210180112A1 (en) * 2018-04-20 2021-06-17 Biofire Diagnostics, Llc Methods for normalization and quantification of sequencing data
WO2019209954A1 (en) * 2018-04-24 2019-10-31 Grail, Inc. Systems and methods for using pathogen nucleic acid load to determine whether a subject has a cancer condition
CN112888459B (zh) 2018-06-01 2023-05-23 格里尔公司 卷积神经网络系统及数据分类方法
EP3802878A1 (en) 2018-06-04 2021-04-14 Guardant Health, Inc. Methods and systems for determining the cellular origin of cell-free nucleic acids
CA3100983A1 (en) 2018-06-06 2019-12-12 The Regents Of The University Of California Methods of producing nucleic acid libraries and compositions and kits for practicing same
CN109192246B (zh) * 2018-06-22 2020-10-16 深圳市达仁基因科技有限公司 检测染色体拷贝数异常的方法、装置和存储介质
US11525159B2 (en) 2018-07-03 2022-12-13 Natera, Inc. Methods for detection of donor-derived cell-free DNA
RU2745733C1 (ru) * 2018-07-11 2021-03-31 Иллюмина, Инк. Фреймворк на основе глубокого обучения для идентификации паттернов последовательности, которые вызывают последовательность-специфичные ошибки (sse)
KR20210059694A (ko) 2018-07-12 2021-05-25 트윈스트랜드 바이오사이언시스, 인코포레이티드 게놈 편집, 클론 팽창 및 연관된 분야를 규명하기 위한 방법 및 시약
EP3827100A2 (en) 2018-07-23 2021-06-02 Guardant Health, Inc. Methods and systems for adjusting tumor mutational burden by tumor fraction and coverage
EP3830296A1 (en) * 2018-07-27 2021-06-09 F. Hoffmann-La Roche AG Method of monitoring effectiveness of immunotherapy of cancer patients
CN113574602A (zh) * 2018-08-22 2021-10-29 加利福尼亚大学董事会 从循环无细胞核酸中灵敏地检测拷贝数变异(cnv)
JP2021536232A (ja) 2018-08-30 2021-12-27 ガーダント ヘルス, インコーポレイテッド 試料間の汚染を検出するための方法およびシステム
EP3844761A1 (en) 2018-08-31 2021-07-07 Guardant Health, Inc. Microsatellite instability detection in cell-free dna
US20200075123A1 (en) 2018-08-31 2020-03-05 Guardant Health, Inc. Genetic variant detection based on merged and unmerged reads
EP3847276A2 (en) 2018-09-04 2021-07-14 Guardant Health, Inc. Methods and systems for detecting allelic imbalance in cell-free nucleic acid samples
US20220059185A1 (en) * 2018-09-14 2022-02-24 The Jackson Laboratory Method and apparatus for detecting copy number variations in a genome
CN113286881A (zh) 2018-09-27 2021-08-20 格里尔公司 甲基化标记和标靶甲基化探针板
SG11202100960RA (en) * 2018-10-08 2021-02-25 Freenome Holdings Inc Transcription factor profiling
CN109523520B (zh) * 2018-10-25 2020-12-18 北京大学第三医院 一种基于深度学习的染色体自动计数方法
CA3116176A1 (en) 2018-10-31 2020-05-07 Guardant Health, Inc. Methods, compositions and systems for calibrating epigenetic partitioning assays
CN109584961A (zh) * 2018-12-03 2019-04-05 元码基因科技(北京)股份有限公司 基于二代测序技术检测血液微卫星不稳定的方法
US11581062B2 (en) 2018-12-10 2023-02-14 Grail, Llc Systems and methods for classifying patients with respect to multiple cancer classes
US20200202975A1 (en) * 2018-12-19 2020-06-25 AiOnco, Inc. Genetic information processing system with mutation analysis mechanism and method of operation thereof
CN109712671B (zh) * 2018-12-20 2020-06-26 北京优迅医学检验实验室有限公司 基于ctDNA的基因检测装置、存储介质及计算机系统
CN113454218A (zh) 2018-12-20 2021-09-28 夸登特健康公司 用于改进核酸分子的回收的方法、组合物和系统
CN111383714B (zh) * 2018-12-29 2023-07-28 安诺优达基因科技(北京)有限公司 模拟目标疾病仿真测序文库的方法及其应用
EP3918089A1 (en) 2019-01-31 2021-12-08 Guardant Health, Inc. Compositions and methods for isolating cell-free dna
CN109841265B (zh) * 2019-02-22 2021-09-21 清华大学 使用片段化模式确定血浆游离核酸分子组织来源的方法和系统及应用
EP3931831A1 (en) 2019-02-27 2022-01-05 Guardant Health, Inc. Computational modeling of loss of function based on allelic frequency
WO2020176659A1 (en) 2019-02-27 2020-09-03 Guardant Health, Inc. Methods and systems for determining the cellular origin of cell-free dna
CN111755075B (zh) * 2019-03-28 2023-09-29 深圳华大生命科学研究院 对免疫组库高通量测序样本间序列污染进行过滤的方法
EP3947718A4 (en) 2019-04-02 2022-12-21 Enumera Molecular, Inc. METHODS, SYSTEMS AND COMPOSITIONS FOR COUNTING NUCLEIC ACID MOLECULES
CN110299185B (zh) * 2019-05-08 2023-07-04 西安电子科技大学 一种基于新一代测序数据的插入变异检测方法及系统
US11939636B2 (en) 2019-05-31 2024-03-26 Guardant Health, Inc. Methods and systems for improving patient monitoring after surgery
WO2020252387A2 (en) * 2019-06-12 2020-12-17 Ultima Genomics, Inc. Methods for accurate base calling using molecular barcodes
EP4041919A1 (en) 2019-09-30 2022-08-17 Guardant Health, Inc. Compositions and methods for analyzing cell-free dna in methylation partitioning assays
CN110578002A (zh) * 2019-10-10 2019-12-17 广州燃石医学检验所有限公司 用于检测循环肿瘤dna突变的质控品及其制备方法
BR112022005455A2 (pt) * 2019-10-10 2022-06-21 Carlsberg As Métodos para preparar plantas mutantes
WO2021077411A1 (zh) * 2019-10-25 2021-04-29 苏州宏元生物科技有限公司 染色体不稳定性检测方法、系统及试剂盒
US11447819B2 (en) 2019-10-25 2022-09-20 Guardant Health, Inc. Methods for 3′ overhang repair
GB2595193B (en) 2019-11-06 2022-10-12 Univ Leland Stanford Junior Methods and systems for analyzing nucleic acid molecules
CN114746560A (zh) 2019-11-26 2022-07-12 夸登特健康公司 改进甲基化多核苷酸结合的方法、组合物和系统
KR102184277B1 (ko) * 2020-01-16 2020-11-30 성균관대학교산학협력단 초음파 진단 및 dna 검사 일체형 ai 자가 건강 관리 장치 및 이를 이용한 원격 의료 진단 방법
WO2021155241A1 (en) 2020-01-31 2021-08-05 Guardant Health, Inc. Significance modeling of clonal-level absence of target variants
US11475981B2 (en) 2020-02-18 2022-10-18 Tempus Labs, Inc. Methods and systems for dynamic variant thresholding in a liquid biopsy assay
US11211144B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Methods and systems for refining copy number variation in a liquid biopsy assay
US11211147B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing
WO2021183821A1 (en) 2020-03-11 2021-09-16 Guardant Health, Inc. Methods for classifying genetic mutations detected in cell-free nucleic acids as tumor or non-tumor origin
CN111445950B (zh) * 2020-03-19 2022-10-25 西安交通大学 一种基于滤波策略的高容错基因组复杂结构变异检测方法
CN113436679A (zh) * 2020-03-23 2021-09-24 北京合生基因科技有限公司 确定待测核酸样本变异率的方法和系统
CA3177127A1 (en) 2020-04-30 2021-11-04 Guardant Health, Inc. Methods for sequence determination using partitioned nucleic acids
WO2021231862A1 (en) * 2020-05-14 2021-11-18 Georgia Tech Research Corporation Methods of detecting the efficacy of anticancer agents
US20220025468A1 (en) 2020-05-14 2022-01-27 Guardant Health, Inc. Homologous recombination repair deficiency detection
WO2023282916A1 (en) 2021-07-09 2023-01-12 Guardant Health, Inc. Methods of detecting genomic rearrangements using cell free nucleic acids
EP4189111A1 (en) 2020-07-30 2023-06-07 Guardant Health, Inc. Methods for isolating cell-free dna
WO2022046947A1 (en) 2020-08-25 2022-03-03 Guardant Health, Inc. Methods and systems for predicting an origin of a variant
AU2021333661A1 (en) 2020-08-25 2023-03-23 Seer, Inc. Compositions and methods for assaying proteins and nucleic acids
US20220068433A1 (en) 2020-08-27 2022-03-03 Guardant Health, Inc. Computational detection of copy number variation at a locus in the absence of direct measurement of the locus
WO2022073011A1 (en) 2020-09-30 2022-04-07 Guardant Health, Inc. Methods and systems to improve the signal to noise ratio of dna methylation partitioning assays
US20220154286A1 (en) 2020-10-23 2022-05-19 Guardant Health, Inc. Compositions and methods for analyzing dna using partitioning and base conversion
JP2023551292A (ja) 2020-11-30 2023-12-07 ガーダント ヘルス, インコーポレイテッド メチル化されたポリヌクレオチドを富化するための組成物および方法
WO2022140629A1 (en) 2020-12-23 2022-06-30 Guardant Health, Inc. Methods and systems for analyzing methylated polynucleotides
CN112735516A (zh) * 2020-12-29 2021-04-30 上海派森诺生物科技股份有限公司 一种无参考基因组的群体变异检测分析方法
CN112908411A (zh) * 2021-01-12 2021-06-04 广州市金域转化医学研究院有限公司 一种线粒体变异位点数据库及其建立方法和应用
EP4291679A1 (en) 2021-02-12 2023-12-20 Guardant Health, Inc. Methods and compositions for detecting nucleic acid variants
JP2024513668A (ja) 2021-03-05 2024-03-27 ガーダント ヘルス, インコーポレイテッド 分子応答を分析するための方法および関連する態様
JP2024512372A (ja) 2021-03-09 2024-03-19 ガーダント ヘルス, インコーポレイテッド オフターゲットポリヌクレオチド配列決定データに基づく腫瘍の存在の検出
WO2022204730A1 (en) 2021-03-25 2022-09-29 Guardant Health, Inc. Methods and compositions for quantifying immune cell dna
CN113130005B (zh) * 2021-04-12 2022-11-22 中国科学院东北地理与农业生态研究所 一种基于m2群体的候选因果突变位点基因定位的方法
US11783912B2 (en) 2021-05-05 2023-10-10 The Board Of Trustees Of The Leland Stanford Junior University Methods and systems for analyzing nucleic acid molecules
WO2022251655A1 (en) 2021-05-28 2022-12-01 Guardant Health, Inc. Compositions and methods for assaying circulating molecules
CN113284555B (zh) * 2021-06-11 2023-08-22 中山大学 一种基因突变网络的构建方法、装置、设备及存储介质
WO2022271730A1 (en) 2021-06-21 2022-12-29 Guardant Health, Inc. Methods and compositions for copy-number informed tissue-of-origin analysis
WO2023283551A1 (en) * 2021-07-06 2023-01-12 Switch Therapeutics Inc. Methods of designing conditional-activatable small interfering rna sensors
WO2023018791A1 (en) * 2021-08-10 2023-02-16 Cornell University Ultra-sensitive liquid biopsy through deep learning empowered whole genome sequencing of plasma
WO2023056065A1 (en) 2021-09-30 2023-04-06 Guardant Health, Inc. Compositions and methods for synthesis and use of probes targeting nucleic acid rearrangements
CA3233805A1 (en) * 2021-10-04 2023-04-13 The Chinese University Of Hong Kong Sequencing of viral dna for predicting disease relapse
WO2023081722A2 (en) 2021-11-02 2023-05-11 Guardant Health, Inc. Quality control method
WO2023097325A2 (en) * 2021-11-29 2023-06-01 Mammoth Biosciences, Inc. Systems and methods for identifying genetic phenotypes using programmable nucleases
CN114703263B (zh) * 2021-12-20 2023-09-22 北京科迅生物技术有限公司 一种群组染色体拷贝数变异检测方法及装置
WO2023122623A1 (en) 2021-12-21 2023-06-29 Guardant Health, Inc. Methods and systems for combinatorial chromatin-ip sequencing
WO2023122740A1 (en) 2021-12-23 2023-06-29 Guardant Health, Inc. Compositions and methods for detection of metastasis
WO2023197004A1 (en) 2022-04-07 2023-10-12 Guardant Health, Inc. Detecting the presence of a tumor based on methylation status of cell-free nucleic acid molecules
CN114724628B (zh) * 2022-04-24 2022-11-08 华中农业大学 一种对多物种进行多核苷酸变异鉴定和注释的方法
US20230360725A1 (en) 2022-05-09 2023-11-09 Guardant Health, Inc. Detecting degradation based on strand bias
WO2024006908A1 (en) 2022-06-30 2024-01-04 Guardant Health, Inc. Enrichment of aberrantly methylated dna
WO2024020573A1 (en) 2022-07-21 2024-01-25 Guardant Health, Inc. Methods for detection and reduction of sample preparation-induced methylation artifacts
WO2024059840A1 (en) 2022-09-16 2024-03-21 Guardant Health, Inc. Compositions and methods for analyzing soluble proteins
WO2024073508A2 (en) 2022-09-27 2024-04-04 Guardant Health, Inc. Methods and compositions for quantifying immune cell dna
CN115798580B (zh) * 2023-02-10 2023-11-07 北京中仪康卫医疗器械有限公司 基于基因型填补和低深度测序的一体化基因组分析方法

Family Cites Families (273)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US604804A (en) * 1898-05-31 Shuttle for looms
US4725536A (en) 1985-09-19 1988-02-16 Genetics Institute, Inc. Reagent polynucleotide complex with multiple target binding regions, and kit and methods
US6150517A (en) 1986-11-24 2000-11-21 Gen-Probe Methods for making oligonucleotide probes for the detection and/or quantitation of non-viral organisms
US5149625A (en) 1987-08-11 1992-09-22 President And Fellows Of Harvard College Multiplex analysis of DNA
US4942124A (en) 1987-08-11 1990-07-17 President And Fellows Of Harvard College Multiplex sequencing
US5124246A (en) 1987-10-15 1992-06-23 Chiron Corporation Nucleic acid multimers and amplified nucleic acid hybridization assays using same
US5656731A (en) 1987-10-15 1997-08-12 Chiron Corporation Nucleic acid-amplified immunoassay probes
US5871928A (en) 1989-06-07 1999-02-16 Fodor; Stephen P. A. Methods for nucleic acid analysis
US5925525A (en) 1989-06-07 1999-07-20 Affymetrix, Inc. Method of identifying nucleotide differences
US6309822B1 (en) 1989-06-07 2001-10-30 Affymetrix, Inc. Method for comparing copy number of nucleic acid sequences
US5143854A (en) 1989-06-07 1992-09-01 Affymax Technologies N.V. Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof
US5424186A (en) 1989-06-07 1995-06-13 Affymax Technologies N.V. Very large scale immobilized polymer synthesis
US5800992A (en) 1989-06-07 1998-09-01 Fodor; Stephen P.A. Method of detecting nucleic acids
US6551784B2 (en) 1989-06-07 2003-04-22 Affymetrix Inc Method of comparing nucleic acid sequences
US6040138A (en) 1995-09-15 2000-03-21 Affymetrix, Inc. Expression monitoring by hybridization to high density oligonucleotide arrays
US5744101A (en) 1989-06-07 1998-04-28 Affymax Technologies N.V. Photolabile nucleoside protecting groups
US5200314A (en) 1990-03-23 1993-04-06 Chiron Corporation Polynucleotide capture assay employing in vitro amplification
DK0834575T3 (da) 1990-12-06 2002-04-02 Affymetrix Inc A Delaware Corp Identifikation af nucleinsyrer i prøver
US6582908B2 (en) 1990-12-06 2003-06-24 Affymetrix, Inc. Oligonucleotides
US5981179A (en) 1991-11-14 1999-11-09 Digene Diagnostics, Inc. Continuous amplification reaction
US5424413A (en) 1992-01-22 1995-06-13 Gen-Probe Incorporated Branched nucleic acid probes
US5573905A (en) 1992-03-30 1996-11-12 The Scripps Research Institute Encoded combinatorial chemical libraries
US6020124A (en) 1992-04-27 2000-02-01 Trustees Of Dartmouth College Detection of soluble gene sequences in biological fluids
US5981176A (en) 1992-06-17 1999-11-09 City Of Hope Method of detecting and discriminating between nucleic acid sequences
DE69431719T2 (de) 1993-06-25 2003-09-18 Affymetrix Inc N D Ges D Staat Hybridisierung und sequenzierung von nukleinsäuren
US5500356A (en) 1993-08-10 1996-03-19 Life Technologies, Inc. Method of nucleic acid sequence selection
US6309823B1 (en) 1993-10-26 2001-10-30 Affymetrix, Inc. Arrays of nucleic acid probes for analyzing biotransformation genes and methods of using the same
US5681697A (en) 1993-12-08 1997-10-28 Chiron Corporation Solution phase nucleic acid sandwich assays having reduced background noise and kits therefor
CH686982A5 (fr) 1993-12-16 1996-08-15 Maurice Stroun Méthode pour le diagnostic de cancers.
US20030017081A1 (en) 1994-02-10 2003-01-23 Affymetrix, Inc. Method and apparatus for imaging a sample on a device
US5714330A (en) 1994-04-04 1998-02-03 Lynx Therapeutics, Inc. DNA sequencing by stepwise ligation and cleavage
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US6406848B1 (en) 1997-05-23 2002-06-18 Lynx Therapeutics, Inc. Planar arrays of microparticle-bound polynucleotides
US5695934A (en) 1994-10-13 1997-12-09 Lynx Therapeutics, Inc. Massively parallel sequencing of sorted polynucleotides
US6013445A (en) 1996-06-06 2000-01-11 Lynx Therapeutics, Inc. Massively parallel signature sequencing by ligation of encoded adaptors
US5604097A (en) 1994-10-13 1997-02-18 Spectragen, Inc. Methods for sorting polynucleotides using oligonucleotide tags
US6600996B2 (en) 1994-10-21 2003-07-29 Affymetrix, Inc. Computer-aided techniques for analyzing biological sequences
ATE340866T1 (de) 1994-10-28 2006-10-15 Gen Probe Inc Zusammensetzungen und verfahren für die gleichzeitige detektion und quantifizierung von einer mehrheit spezifischer nuklein säure sequenzen
US5648245A (en) 1995-05-09 1997-07-15 Carnegie Institution Of Washington Method for constructing an oligonucleotide concatamer library by rolling circle replication
US5968740A (en) 1995-07-24 1999-10-19 Affymetrix, Inc. Method of Identifying a Base in a Nucleic Acid
GB9516636D0 (en) 1995-08-14 1995-10-18 Univ London In-situ nucleic acid amplification and detection
US5763175A (en) 1995-11-17 1998-06-09 Lynx Therapeutics, Inc. Simultaneous sequencing of tagged polynucleotides
US5854033A (en) 1995-11-21 1998-12-29 Yale University Rolling circle replication reporter systems
WO1997034015A1 (en) 1996-03-15 1997-09-18 The Penn State Research Foundation Detection of extracellular tumor-associated nucleic acid in blood plasma or serum using nucleic acid amplification assays
PT938320E (pt) 1996-03-26 2010-09-22 Michael S Kopreski Método que permite a utilização de arn extracelular extraído de plasma ou de soro para detectar, monitorizar ou avaliar o cancro
US6458530B1 (en) 1996-04-04 2002-10-01 Affymetrix Inc. Selecting tag nucleic acids
US6300077B1 (en) 1996-08-14 2001-10-09 Exact Sciences Corporation Methods for the detection of nucleic acids
US5935793A (en) 1996-09-27 1999-08-10 The Chinese University Of Hong Kong Parallel polynucleotide sequencing method using tagged primers
US6124092A (en) 1996-10-04 2000-09-26 The Perkin-Elmer Corporation Multiplex polynucleotide capture methods and compositions
US6117631A (en) 1996-10-29 2000-09-12 Polyprobe, Inc. Detection of antigens via oligonucleotide antibody conjugates
US6046005A (en) 1997-01-15 2000-04-04 Incyte Pharmaceuticals, Inc. Nucleic acid sequencing with solid phase capturable terminators comprising a cleavable linking group
WO1999028505A1 (en) 1997-12-03 1999-06-10 Curagen Corporation Methods and devices for measuring differential gene expression
WO2000012687A1 (en) 1998-08-28 2000-03-09 Invitrogen Corporation System for the rapid manipulation of nucleic acid sequences
US6653077B1 (en) 1998-09-04 2003-11-25 Lynx Therapeutics, Inc. Method of screening for genetic polymorphism
US6503718B2 (en) 1999-01-10 2003-01-07 Exact Sciences Corporation Methods for detecting mutations using primer extension for detecting disease
US6573053B1 (en) 1999-02-05 2003-06-03 Amersham Biosciences Uk Limited Analysis method
US6629040B1 (en) 1999-03-19 2003-09-30 University Of Washington Isotope distribution encoded tags for protein identification
EP1165839A2 (en) 1999-03-26 2002-01-02 Whitehead Institute For Biomedical Research Universal arrays
ES2269129T3 (es) 1999-04-09 2007-04-01 Exact Sciences Corporation Procedimientos para detectar acidos nucleicos reveladores de cancer.
CA2304260C (en) 1999-04-20 2009-03-24 Japan Bioindustry Association Method for determining a concentration of target nucleic acid molecules, nucleic acid probes for the method and method for analyzing data obtained by the method
US6355431B1 (en) 1999-04-20 2002-03-12 Illumina, Inc. Detection of nucleic acid amplification reactions using bead arrays
US6242186B1 (en) 1999-06-01 2001-06-05 Oy Jurilab Ltd. Method for detecting a risk of cancer and coronary heart disease and kit therefor
US6326148B1 (en) 1999-07-12 2001-12-04 The Regents Of The University Of California Detection of copy number changes in colon cancer
US6440706B1 (en) 1999-08-02 2002-08-27 Johns Hopkins University Digital amplification
US6586177B1 (en) 1999-09-08 2003-07-01 Exact Sciences Corporation Methods for disease detection
US6849403B1 (en) 1999-09-08 2005-02-01 Exact Sciences Corporation Apparatus and method for drug screening
DE60043896D1 (de) 1999-12-07 2010-04-08 Exact Sciences Corp Verfahren zum nachweis von lungenneoplasmen in fäkalen proben
US6489114B2 (en) 1999-12-17 2002-12-03 Bio Merieux Process for labeling a ribonucleic acid, and labeled RNA fragments which are obtained thereby
AU2001238068A1 (en) 2000-02-07 2001-08-14 Illumina, Inc. Nucleic acid detection methods using universal priming
GB2364054B (en) 2000-03-24 2002-05-29 Smithkline Beecham Corp Method of amplifying quinolone-resistance-determining-regions and identifying polymorphic variants thereof
US20030207300A1 (en) 2000-04-28 2003-11-06 Matray Tracy J. Multiplex analytical platform using molecular tags
EP1158055A1 (fr) 2000-05-26 2001-11-28 Xu Qi University of Teaxs Laboratoire de Leucémie Chen Méthode pour le diagnostic de cancers
ATE380883T1 (de) 2000-10-24 2007-12-15 Univ Leland Stanford Junior Direkte multiplex charakterisierung von genomischer dna
US20020142345A1 (en) 2000-12-22 2002-10-03 Nelsen Anita J. Methods for encoding and decoding complex mixtures in arrayed assays
US20030049616A1 (en) 2001-01-08 2003-03-13 Sydney Brenner Enzymatic synthesis of oligonucleotide tags
US6849404B2 (en) 2001-05-07 2005-02-01 Bioneer Corporation Polymerase chain reaction of DNA of which base sequence is completely unidentified
US7406385B2 (en) 2001-10-25 2008-07-29 Applera Corporation System and method for consensus-calling with per-base quality values for sample assemblies
DE60207979T2 (de) 2002-03-05 2006-09-28 Epigenomics Ag Verfahren und Vorrichtung zur Bestimmung der Gewebespezifität von freier DNA in Körperflüssigkeiten
US20030186251A1 (en) 2002-04-01 2003-10-02 Brookhaven Science Associates, Llc Genome sequence tags
US7727720B2 (en) 2002-05-08 2010-06-01 Ravgen, Inc. Methods for detection of genetic disorders
AU2003291481A1 (en) 2002-11-11 2004-06-03 Affymetrix, Inc. Methods for identifying dna copy number changes
US10229244B2 (en) 2002-11-11 2019-03-12 Affymetrix, Inc. Methods for identifying DNA copy number changes using hidden markov model based estimations
US7822555B2 (en) 2002-11-11 2010-10-26 Affymetrix, Inc. Methods for identifying DNA copy number changes
US7704687B2 (en) 2002-11-15 2010-04-27 The Johns Hopkins University Digital karyotyping
EP1606417A2 (en) 2003-03-07 2005-12-21 Rubicon Genomics Inc. In vitro dna immortalization and whole genome amplification using libraries generated from randomly fragmented dna
WO2006102264A1 (en) 2005-03-18 2006-09-28 Fluidigm Corporation Thermal reaction device and method for using the same
US20040259118A1 (en) 2003-06-23 2004-12-23 Macevicz Stephen C. Methods and compositions for nucleic acid sequence analysis
CA2531105C (en) 2003-07-05 2015-03-17 The Johns Hopkins University Method and compositions for detection and enumeration of genetic variations
EP1524321B2 (en) 2003-10-16 2014-07-23 Sequenom, Inc. Non-invasive detection of fetal genetic traits
DE10348407A1 (de) 2003-10-17 2005-05-19 Widschwendter, Martin, Prof. Prognostische und diagnostische Marker für Zell-proliferative Erkrankungen von Brustgeweben
US20070111233A1 (en) 2003-10-30 2007-05-17 Bianchi Diana W Prenatal diagnosis using cell-free fetal DNA in amniotic fluid
JP2007524410A (ja) 2004-01-23 2007-08-30 リングヴィテ エーエス ポリヌクレオチドライゲーション反応の改良
JP2007521833A (ja) 2004-02-12 2007-08-09 コンパス ジェネティクス エルエルシー 配列特異的分類による遺伝的分析
US20100216153A1 (en) 2004-02-27 2010-08-26 Helicos Biosciences Corporation Methods for detecting fetal nucleic acids and diagnosing fetal abnormalities
US20060046258A1 (en) 2004-02-27 2006-03-02 Lapidus Stanley N Applications of single molecule sequencing
WO2005111242A2 (en) 2004-05-10 2005-11-24 Parallele Bioscience, Inc. Digital profiling of polynucleotide populations
US7276720B2 (en) 2004-07-19 2007-10-02 Helicos Biosciences Corporation Apparatus and methods for analyzing samples
US20060035258A1 (en) 2004-08-06 2006-02-16 Affymetrix, Inc. Methods for identifying DNA copy number changes
US7937225B2 (en) 2004-09-03 2011-05-03 New York University Systems, methods and software arrangements for detection of genome copy number variation
EP1647600A3 (en) 2004-09-17 2006-06-28 Affymetrix, Inc. (A US Entity) Methods for identifying biological samples by addition of nucleic acid bar-code tags
WO2006047787A2 (en) 2004-10-27 2006-05-04 Exact Sciences Corporation Method for monitoring disease progression or recurrence
US7424371B2 (en) 2004-12-21 2008-09-09 Helicos Biosciences Corporation Nucleic acid analysis
US7393665B2 (en) 2005-02-10 2008-07-01 Population Genetics Technologies Ltd Methods and compositions for tagging and identifying polynucleotides
ITRM20050068A1 (it) 2005-02-17 2006-08-18 Istituto Naz Per Le Malattie I Metodo per la rivelazione di acidi nucleici di agenti patogeni batterici o di parassiti nelle urine.
US20060211030A1 (en) 2005-03-16 2006-09-21 Sydney Brenner Methods and compositions for assay readouts on multiple analytical platforms
ATE406463T1 (de) 2005-04-06 2008-09-15 Maurice Stroun Methode zur krebsdiagnose mittels nachweis von dna und rna im kreislauf
US20070020640A1 (en) 2005-07-21 2007-01-25 Mccloskey Megan L Molecular encoding of nucleic acid templates for PCR and other forms of sequence analysis
US7666593B2 (en) 2005-08-26 2010-02-23 Helicos Biosciences Corporation Single molecule sequencing of captured nucleic acids
CA2623539C (en) 2005-09-29 2015-12-15 Keygene N.V. High throughput screening of mutagenized populations
US7537897B2 (en) 2006-01-23 2009-05-26 Population Genetics Technologies, Ltd. Molecular counting
US20070172839A1 (en) 2006-01-24 2007-07-26 Smith Douglas R Asymmetrical adapters and methods of use thereof
US8383338B2 (en) 2006-04-24 2013-02-26 Roche Nimblegen, Inc. Methods and systems for uniform enrichment of genomic regions
US7702468B2 (en) 2006-05-03 2010-04-20 Population Diagnostics, Inc. Evaluating genetic disorders
CN101449162B (zh) 2006-05-18 2013-07-31 分子压型学会股份有限公司 确定针对病状的个性化医疗介入的系统和方法
WO2007147018A1 (en) 2006-06-14 2007-12-21 Cellpoint Diagnostics, Inc. Analysis of rare cell-enriched samples
FR2904833A1 (fr) 2006-08-11 2008-02-15 Bioquanta Sarl Procede de dosage d'acide nuclieque par fluorescence
DK2518162T3 (en) 2006-11-15 2018-06-18 Biospherex Llc Multi-tag sequencing and ecogenomic analysis
WO2008070144A2 (en) 2006-12-06 2008-06-12 Duke University Imprinted genes and disease
EP2126127B1 (en) 2007-01-25 2016-09-28 Dana-Farber Cancer Institute, Inc. Use of anti-egfr antibodies in treatment of egfr mutant mediated disease
CL2008000717A1 (es) 2007-03-13 2008-09-22 Amgen Inc Metodo para pronosticar si un paciente sera no respondedor al tratamiento con un agente de union especifica a un polipeptido de egfr que comprende determinar la presencia o ausencia de una mutacion de k-ras en un tumor del paciente.
WO2008148072A2 (en) 2007-05-24 2008-12-04 The Brigham And Women's Hospital, Inc. Disease-associated genetic variations and methods for obtaining and using same
JP2010528608A (ja) 2007-06-01 2010-08-26 454 ライフ サイエンシーズ コーポレイション 複合的な混合物から個々の試料を特定するためのシステムおよび方法
EP2155855B1 (en) * 2007-06-06 2016-10-12 Pacific Biosciences of California, Inc. Methods and processes for calling bases in sequence by incorporation methods
KR20230117256A (ko) 2007-07-23 2023-08-07 더 차이니즈 유니버시티 오브 홍콩 대규모 병렬 게놈 서열분석을 이용한 태아 염색체 이수성의진단 방법
US20100112590A1 (en) 2007-07-23 2010-05-06 The Chinese University Of Hong Kong Diagnosing Fetal Chromosomal Aneuploidy Using Genomic Sequencing With Enrichment
US20090053719A1 (en) 2007-08-03 2009-02-26 The Chinese University Of Hong Kong Analysis of nucleic acids by digital pcr
ATE541946T1 (de) 2007-09-07 2012-02-15 Fluidigm Corp Verfahren und system zur bestimmung von genkopiezahlvarianten
US20100173294A1 (en) 2007-09-11 2010-07-08 Roche Molecular Systems, Inc. Diagnostic test for susceptibility to b-raf kinase inhibitors
CN102007407A (zh) 2007-11-21 2011-04-06 考斯摩斯德公司 基因组鉴定系统
WO2009102632A2 (en) 2008-02-12 2009-08-20 Biocept, Inc. Method for isolating cell free apoptotic or fetal nucleic acids
US20110003701A1 (en) 2008-02-27 2011-01-06 454 Life Sciences Corporation System and method for improved processing of nucleic acids for production of sequencable libraries
US8216789B2 (en) 2008-02-27 2012-07-10 University Of Washington Diagnostic panel of cancer antibodies and methods for use
CA2718137A1 (en) 2008-03-26 2009-10-01 Sequenom, Inc. Restriction endonuclease enhanced polymorphic sequence detection
CN102084001B (zh) 2008-03-28 2015-03-18 加利福尼亚太平洋生物科学股份有限公司 用于核酸测序的组合物和方法
US20110160290A1 (en) 2008-05-21 2011-06-30 Muneesh Tewari Use of extracellular rna to measure disease
US20090298709A1 (en) 2008-05-28 2009-12-03 Affymetrix, Inc. Assays for determining telomere length and repeated sequence copy number
DE102008025656B4 (de) 2008-05-28 2016-07-28 Genxpro Gmbh Verfahren zur quantitativen Analyse von Nukleinsäuren, Marker dafür und deren Verwendung
CN102165073A (zh) 2008-07-10 2011-08-24 骆树恩 用于核酸作图和鉴定核酸中的精细结构变化的方法
US20100041048A1 (en) 2008-07-31 2010-02-18 The Johns Hopkins University Circulating Mutant DNA to Assess Tumor Dynamics
US20100062494A1 (en) 2008-08-08 2010-03-11 President And Fellows Of Harvard College Enzymatic oligonucleotide pre-adenylation
US20100069250A1 (en) 2008-08-16 2010-03-18 The Board Of Trustees Of The Leland Stanford Junior University Digital PCR Calibration for High Throughput Sequencing
EP3216874A1 (en) 2008-09-05 2017-09-13 TOMA Biosciences, Inc. Methods for stratifying and annotating cancer drug treatment options
US8383345B2 (en) * 2008-09-12 2013-02-26 University Of Washington Sequence tag directed subassembly of short sequencing reads into long sequencing reads
EP2952589B1 (en) 2008-09-20 2018-02-14 The Board of Trustees of The Leland Stanford Junior University Noninvasive diagnosis of fetal aneuploidy by sequencing
US8236532B2 (en) 2008-12-23 2012-08-07 Illumina, Inc. Multibase delivery for long reads in sequencing by synthesis protocols
JP2012514977A (ja) 2009-01-13 2012-07-05 キージーン・エン・フェー 新規ゲノム配列決定戦略
US20100323348A1 (en) 2009-01-31 2010-12-23 The Regents Of The University Of Colorado, A Body Corporate Methods and Compositions for Using Error-Detecting and/or Error-Correcting Barcodes in Nucleic Acid Amplification Process
US9085798B2 (en) 2009-04-30 2015-07-21 Prognosys Biosciences, Inc. Nucleic acid constructs and methods of use
US20120165202A1 (en) 2009-04-30 2012-06-28 Good Start Genetics, Inc. Methods and compositions for evaluating genetic markers
US20130143747A1 (en) 2011-12-05 2013-06-06 Myriad Genetics, Incorporated Methods of detecting cancer
US9524369B2 (en) 2009-06-15 2016-12-20 Complete Genomics, Inc. Processing and analysis of complex nucleic acid sequence data
JP2012531202A (ja) 2009-06-25 2012-12-10 フレッド ハチンソン キャンサー リサーチ センター 適応免疫を測定する方法
US20120220478A1 (en) 2009-07-20 2012-08-30 Bar Harbor Biotechnology, Inc. Methods for assessing disease risk
AU2010311535B2 (en) 2009-10-26 2015-05-21 Lifecodexx Ag Means and methods for non-invasive diagnosis of chromosomal aneuploidy
JP2013510580A (ja) 2009-11-12 2013-03-28 エソテリックス ジェネティック ラボラトリーズ, エルエルシー 遺伝子座のコピー数の分析
US20110237444A1 (en) * 2009-11-20 2011-09-29 Life Technologies Corporation Methods of mapping genomic methylation patterns
US9023769B2 (en) 2009-11-30 2015-05-05 Complete Genomics, Inc. cDNA library for nucleic acid sequencing
US9752187B2 (en) 2009-12-11 2017-09-05 Nucleix Categorization of DNA samples
US8835358B2 (en) 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
US9315857B2 (en) 2009-12-15 2016-04-19 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse label-tags
EP3660165B1 (en) 2009-12-22 2023-01-04 Sequenom, Inc. Processes and kits for identifying aneuploidy
WO2011091046A1 (en) 2010-01-19 2011-07-28 Verinata Health, Inc. Identification of polymorphic sequences in mixtures of genomic dna by whole genome sequencing
US20120100548A1 (en) * 2010-10-26 2012-04-26 Verinata Health, Inc. Method for determining copy number variations
US20120010085A1 (en) 2010-01-19 2012-01-12 Rava Richard P Methods for determining fraction of fetal nucleic acids in maternal samples
US9260745B2 (en) 2010-01-19 2016-02-16 Verinata Health, Inc. Detecting and classifying copy number variation
US20110177512A1 (en) 2010-01-19 2011-07-21 Predictive Biosciences, Inc. Method for assuring amplification of an abnormal nucleic acid in a sample
US10388403B2 (en) 2010-01-19 2019-08-20 Verinata Health, Inc. Analyzing copy number variation in the detection of cancer
AU2010343276B2 (en) 2010-01-19 2015-05-28 Verinata Health, Inc. Methods for determining fraction of fetal nucleic acid in maternal samples
EP2536854B1 (en) 2010-02-18 2017-07-19 The Johns Hopkins University Personalized tumor biomarkers
EP2547698B1 (en) 2010-03-14 2015-07-29 The Translational Genomics Research Institute Methods of determining susceptibility of tumors to tyrosine kinase inhibitors
CN101967517B (zh) 2010-03-19 2012-11-07 黄乐群 一种无需借助pcr的基因检测方法
CA2796578C (en) 2010-04-16 2021-11-23 Chronix Biomedical Breast cancer associated circulating nucleic acid biomarkers
US9255291B2 (en) 2010-05-06 2016-02-09 Bioo Scientific Corporation Oligonucleotide ligation methods for improving data quality and throughput using massively parallel sequencing
WO2011142836A2 (en) * 2010-05-14 2011-11-17 Fluidigm Corporation Assays for the detection of genotype, mutations, and/or aneuploidy
US20190010543A1 (en) 2010-05-18 2019-01-10 Natera, Inc. Methods for simultaneous amplification of target loci
US20130143214A1 (en) 2010-06-04 2013-06-06 Chronix Biomedical Prostate cancer associated circulating nucleic acid biomarkers
ES2960184T3 (es) 2010-06-09 2024-03-01 Keygene Nv Códigos de barras de secuencias combinatorias para el cribado de alto rendimiento
EP2400035A1 (en) 2010-06-28 2011-12-28 Technische Universität München Methods and compositions for diagnosing gastrointestinal stromal tumors
WO2012006291A2 (en) * 2010-07-06 2012-01-12 Life Technologies Corporation Systems and methods to detect copy number variation
SG10201505723UA (en) 2010-07-23 2015-09-29 Harvard College Methods for detecting signatures of disease or conditions in bodily fluids
CN104759297B (zh) 2010-07-29 2018-02-23 Toto株式会社 光催化剂涂装体和光催化剂涂覆液
DK2601609T3 (en) 2010-08-02 2017-06-06 Population Bio Inc COMPOSITIONS AND METHODS FOR DISCOVERING MUTATIONS CAUSING GENETIC DISORDERS
US11031095B2 (en) * 2010-08-06 2021-06-08 Ariosa Diagnostics, Inc. Assay systems for determination of fetal copy number variation
US20120034603A1 (en) 2010-08-06 2012-02-09 Tandem Diagnostics, Inc. Ligation-based detection of genetic variants
EP2426217A1 (en) 2010-09-03 2012-03-07 Centre National de la Recherche Scientifique (CNRS) Analytical methods for cell free nucleic acids and applications
WO2012034061A2 (en) 2010-09-09 2012-03-15 Traxxsson, Llc Combination methods of diagnosing cancer in a patient
EP3115468B1 (en) 2010-09-21 2018-07-25 Agilent Technologies, Inc. Increasing confidence of allele calls with molecular counting
EP3572528A1 (en) 2010-09-24 2019-11-27 The Board of Trustees of the Leland Stanford Junior University Direct capture, amplification and sequencing of target dna using immobilized primers
WO2012042374A2 (en) 2010-10-01 2012-04-05 Anssi Jussi Nikolai Taipale Method of determining number or concentration of molecules
GB2497912B (en) 2010-10-08 2014-06-04 Harvard College High-throughput single cell barcoding
US8725422B2 (en) 2010-10-13 2014-05-13 Complete Genomics, Inc. Methods for estimating genome-wide copy number variations
TR201810530T4 (tr) 2010-10-22 2018-08-27 Cold Spring Harbor Laboratory Genomik kopya sayısı bilgisi elde etmek için nükleik asitlerin varyete sayımı.
WO2012066451A1 (en) 2010-11-15 2012-05-24 Pfizer Inc. Prognostic and predictive gene signature for colon cancer
WO2012071621A1 (en) 2010-11-30 2012-06-07 The Chinese University Of Hong Kong Detection of genetic or molecular aberrations associated with cancer
ES2770342T3 (es) 2010-12-22 2020-07-01 Natera Inc Procedimientos para pruebas prenatales no invasivas de paternidad
US9163281B2 (en) 2010-12-23 2015-10-20 Good Start Genetics, Inc. Methods for maintaining the integrity and identification of a nucleic acid template in a multiplex sequencing reaction
CA2822439A1 (en) 2010-12-23 2012-06-28 Sequenom, Inc. Fetal genetic variation detection
KR20140024270A (ko) 2010-12-30 2014-02-28 파운데이션 메디신 인코포레이티드 종양 샘플의 다유전자 분석의 최적화
WO2012097053A1 (en) 2011-01-11 2012-07-19 Via Genomes, Inc. Methods, systems, databases, kits and arrays for screening for and predicting the risk of and identifying the presence of tumors and cancers
US20120190020A1 (en) 2011-01-25 2012-07-26 Aria Diagnostics, Inc. Detection of genetic abnormalities
WO2012106559A1 (en) * 2011-02-02 2012-08-09 Translational Genomics Research Institute Biomarkers and methods of use thereof
CN103608818B (zh) 2011-02-09 2017-12-08 纳特拉公司 非侵入性产前倍性识别装置
US20120238464A1 (en) 2011-03-18 2012-09-20 Baylor Research Institute Biomarkers for Predicting the Recurrence of Colorectal Cancer Metastasis
US9260753B2 (en) 2011-03-24 2016-02-16 President And Fellows Of Harvard College Single cell nucleic acid detection and analysis
US20150065358A1 (en) 2011-03-30 2015-03-05 Verinata Health, Inc. Method for verifying bioassay samples
EP2697397B1 (en) 2011-04-15 2017-04-05 The Johns Hopkins University Safe sequencing system
US9411937B2 (en) 2011-04-15 2016-08-09 Verinata Health, Inc. Detecting and classifying copy number variation
EP3395957B1 (en) 2011-04-25 2020-08-12 Bio-Rad Laboratories, Inc. Methods and compositions for nucleic acid analysis
US8697408B2 (en) 2011-05-06 2014-04-15 New England Biolabs, Inc. Ligation enhancement
US9074204B2 (en) 2011-05-20 2015-07-07 Fluidigm Corporation Nucleic acid encoding reactions
US9752176B2 (en) 2011-06-15 2017-09-05 Ginkgo Bioworks, Inc. Methods for preparative in vitro cloning
KR101454886B1 (ko) 2011-08-01 2014-11-03 주식회사 셀레믹스 핵산분자의 제조방법
US10704164B2 (en) 2011-08-31 2020-07-07 Life Technologies Corporation Methods, systems, computer readable media, and kits for sample identification
US9834766B2 (en) 2011-09-02 2017-12-05 Atreca, Inc. DNA barcodes for multiplexed sequencing
US8712697B2 (en) 2011-09-07 2014-04-29 Ariosa Diagnostics, Inc. Determination of copy number variations using binomial probability calculations
US20130079241A1 (en) 2011-09-15 2013-03-28 Jianhua Luo Methods for Diagnosing Prostate Cancer and Predicting Prostate Cancer Relapse
US20140242588A1 (en) 2011-10-06 2014-08-28 Sequenom, Inc Methods and processes for non-invasive assessment of genetic variations
US9367663B2 (en) 2011-10-06 2016-06-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10196681B2 (en) 2011-10-06 2019-02-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10424394B2 (en) 2011-10-06 2019-09-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20130102485A1 (en) 2011-10-19 2013-04-25 Inhan Lee Method of Determining a Diseased State in a Subject
PL2768985T3 (pl) 2011-10-21 2019-10-31 Chronix Biomedical Biomarkery będące krążącymi kwasami nukleinowymi związane z rakiem jelita grubego
NO3051026T3 (es) 2011-10-21 2018-07-28
US20130122499A1 (en) 2011-11-14 2013-05-16 Viomics, Inc. System and method of detecting local copy number variation in dna samples
WO2013086352A1 (en) 2011-12-07 2013-06-13 Chronix Biomedical Prostate cancer associated circulating nucleic acid biomarkers
JP6072819B2 (ja) 2011-12-08 2017-02-01 ファイヴ3 ゲノミクス,エルエルシー Mdm2を含む二重微小染色体およびその方法
CN108611398A (zh) 2012-01-13 2018-10-02 Data生物有限公司 通过新一代测序进行基因分型
SI3363901T1 (sl) 2012-02-17 2021-04-30 Fred Hutchinson Cancer Research Center Sestavki in postopki za natančno identifikacijo mutacij
GB2513024B (en) 2012-02-27 2016-08-31 Cellular Res Inc A clonal amplification method
ES2776673T3 (es) 2012-02-27 2020-07-31 Univ North Carolina Chapel Hill Métodos y usos para etiquetas moleculares
WO2013128281A1 (en) 2012-02-28 2013-09-06 Population Genetics Technologies Ltd Method for attaching a counter sequence to a nucleic acid sample
WO2013130791A1 (en) 2012-02-29 2013-09-06 Dana-Farber Cancer Institute, Inc. Compositions, kits, and methods for the identification, assessment, prevention, and therapy of cancer
US9892230B2 (en) 2012-03-08 2018-02-13 The Chinese University Of Hong Kong Size-based analysis of fetal or tumor DNA fraction in plasma
CA2867293C (en) 2012-03-13 2020-09-01 Abhijit Ajit PATEL Measurement of nucleic acid variants using highly-multiplexed error-suppressed deep sequencing
PT2828218T (pt) 2012-03-20 2020-11-11 Univ Washington Through Its Center For Commercialization Métodos para baixar a taxa de erro da sequenciação paralela massiva de adn utilizando sequenciação duplex de consensus
WO2013142213A1 (en) 2012-03-20 2013-09-26 Wake Forest University Health Sciences Methods, systems, and computer readable media for tracking and verifying receipt of contents of a delivery within an organization
FI2831279T3 (fi) 2012-03-26 2023-05-23 Univ Johns Hopkins Nopea aneuploidian havaitseminen
US8209130B1 (en) * 2012-04-04 2012-06-26 Good Start Genetics, Inc. Sequence assembly
CA2870969C (en) 2012-04-19 2023-10-03 Aoy Tomita Mitchell Highly sensitive surveillance using detection of cell free dna
CA2873585C (en) 2012-05-14 2021-11-09 Cb Biotechnologies, Inc. Method for increasing accuracy in quantitative detection of polynucleotides
WO2013181170A1 (en) 2012-05-31 2013-12-05 Board Of Regents, The University Of Texas System Method for accurate sequencing of dna
EP2859123A4 (en) 2012-06-11 2015-12-16 Sequenta Inc METHOD OF SEQUENCE DETERMINATION USING SEQUENCE TAGS
US11261494B2 (en) 2012-06-21 2022-03-01 The Chinese University Of Hong Kong Method of measuring a fractional concentration of tumor DNA
WO2014004726A1 (en) 2012-06-26 2014-01-03 Caifu Chen Methods, compositions and kits for the diagnosis, prognosis and monitoring of cancer
EP2875149B1 (en) 2012-07-20 2019-12-04 Verinata Health, Inc. Detecting and classifying copy number variation in a cancer genome
DE202013012824U1 (de) 2012-09-04 2020-03-10 Guardant Health, Inc. Systeme zum Erfassen von seltenen Mutationen und einer Kopienzahlvariation
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US10876152B2 (en) 2012-09-04 2020-12-29 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US20140066317A1 (en) 2012-09-04 2014-03-06 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
WO2014093330A1 (en) 2012-12-10 2014-06-19 Clearfork Bioscience, Inc. Methods for targeted genomic analysis
WO2014107548A1 (en) 2013-01-05 2014-07-10 Foundation Medicine, Inc. System and method for outcome tracking and analysis
CA3150658A1 (en) 2013-01-18 2014-07-24 Foundation Medicine, Inc. Methods of treating cholangiocarcinoma
US20160034638A1 (en) 2013-03-14 2016-02-04 University Of Rochester System and Method for Detecting Population Variation from Nucleic Acid Sequencing Data
GB2528205B (en) * 2013-03-15 2020-06-03 Guardant Health Inc Systems and methods to detect rare mutations and copy number variation
US9890425B2 (en) 2013-03-15 2018-02-13 Abbott Molecular Inc. Systems and methods for detection of genomic copy number changes
CA2906076A1 (en) * 2013-03-15 2014-09-18 Abvitro, Inc. Single cell bar-coding for antibody discovery
EP2971152B1 (en) 2013-03-15 2018-08-01 The Board Of Trustees Of The Leland Stanford Junior University Identification and use of circulating nucleic acid tumor markers
WO2014145078A1 (en) 2013-03-15 2014-09-18 Verinata Health, Inc. Generating cell-free dna libraries directly from blood
EP2977464A4 (en) 2013-03-19 2016-10-19 Toppan Printing Co Ltd PROCEDURE FOR PREDICTING SENSITIVITY TO EGFR HEMMER
EP4321628A3 (en) 2013-05-23 2024-04-24 The Board of Trustees of the Leland Stanford Junior University Transposition into native chromatin for personal epigenomics
JP2015096049A (ja) 2013-11-15 2015-05-21 凸版印刷株式会社 Vegf阻害剤長期奏功性予測方法
ES2822125T3 (es) 2013-12-28 2021-04-29 Guardant Health Inc Métodos y sistemas para detectar variantes genéticas
CN106574296B (zh) 2014-04-14 2021-03-02 耶路撒冷希伯来大学伊森姆研究发展公司 用于测定dna的组织或细胞来源的方法和试剂盒
WO2015175705A1 (en) 2014-05-13 2015-11-19 Board Of Regents, The University Of Texas System Gene mutations and copy number alterations of egfr, kras and met
KR102441391B1 (ko) 2014-07-25 2022-09-07 유니버시티 오브 워싱톤 무세포 dna를 생성하는 조직 및/또는 세포 유형을 결정하는 방법 및 이를 사용하여 질환 또는 장애를 확인하는 방법
SI3178941T1 (sl) 2014-07-25 2022-04-29 Bgi Genomics Co., Limited Postopek za določanje deleža brezceličnih fetalnih nukleinskih kislin v vzorcu periferne krvi nosečnice in njegova uporaba
US20160053301A1 (en) 2014-08-22 2016-02-25 Clearfork Bioscience, Inc. Methods for quantitative genetic analysis of cell free dna
US10733903B2 (en) 2014-09-10 2020-08-04 Pathway Genomics Corporation Health and wellness management methods and systems useful for the practice thereof
US11085084B2 (en) 2014-09-12 2021-08-10 The Board Of Trustees Of The Leland Stanford Junior University Identification and use of circulating nucleic acids
CN107771221B (zh) 2015-02-10 2021-11-02 香港中文大学 用于癌症筛查和胎儿分析的突变检测
US10844428B2 (en) 2015-04-28 2020-11-24 Illumina, Inc. Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS)
EP4043584A1 (en) 2015-12-08 2022-08-17 Twinstrand Biosciences, Inc. Improved adapters, methods, and compositions for duplex sequencing
US20190085406A1 (en) 2016-04-14 2019-03-21 Guardant Health, Inc. Methods for early detection of cancer

Also Published As

Publication number Publication date
DE202013012824U1 (de) 2020-03-10
US10947600B2 (en) 2021-03-16
US20180327862A1 (en) 2018-11-15
US20210139998A1 (en) 2021-05-13
HK1212396A1 (en) 2016-06-10
US20170218460A1 (en) 2017-08-03
US20190177802A1 (en) 2019-06-13
CA2883901C (en) 2023-04-11
EP3591073B1 (en) 2021-12-01
HK1201080A1 (zh) 2015-08-21
GB2533006B (en) 2017-06-07
EP2893040A4 (en) 2016-04-27
EP3470533B1 (en) 2019-11-06
US10793916B2 (en) 2020-10-06
US10837063B2 (en) 2020-11-17
KR20210013317A (ko) 2021-02-03
JP6664025B2 (ja) 2020-03-13
JP2020103298A (ja) 2020-07-09
US9840743B2 (en) 2017-12-12
ES2711635T3 (es) 2019-05-06
BR112015004847A2 (pt) 2020-04-22
US20200291487A1 (en) 2020-09-17
IL269097A (en) 2019-11-28
US20180223374A1 (en) 2018-08-09
EP2893040B1 (en) 2019-01-02
PL2893040T3 (pl) 2019-05-31
JP2018027096A (ja) 2018-02-22
US10457995B2 (en) 2019-10-29
US10683556B2 (en) 2020-06-16
ES2906714T3 (es) 2022-04-20
US11001899B1 (en) 2021-05-11
US20200087736A1 (en) 2020-03-19
US11773453B2 (en) 2023-10-03
KR20190112843A (ko) 2019-10-07
EP3842551C0 (en) 2023-11-01
US20150368708A1 (en) 2015-12-24
US20210355549A1 (en) 2021-11-18
EP3842551B1 (en) 2023-11-01
CN104781421B (zh) 2020-06-05
JP6275145B2 (ja) 2018-02-07
US20230151435A1 (en) 2023-05-18
US20170218459A1 (en) 2017-08-03
US20190177803A1 (en) 2019-06-13
EP3470533A1 (en) 2019-04-17
EP3842551A1 (en) 2021-06-30
MX367963B (es) 2019-09-11
KR20240007774A (ko) 2024-01-16
US10501808B2 (en) 2019-12-10
US20200248270A1 (en) 2020-08-06
CN110872617A (zh) 2020-03-10
US20230323477A1 (en) 2023-10-12
US20190185941A1 (en) 2019-06-20
CN104781421A (zh) 2015-07-15
US20180171415A1 (en) 2018-06-21
KR20220061271A (ko) 2022-05-12
US11319598B2 (en) 2022-05-03
ES2769241T3 (es) 2020-06-25
JP7119014B2 (ja) 2022-08-16
US20200087735A1 (en) 2020-03-19
US10738364B2 (en) 2020-08-11
ES2769241T5 (es) 2023-05-30
PT2893040T (pt) 2019-04-01
US20190185940A1 (en) 2019-06-20
EP4036247B1 (en) 2024-04-10
US20210130912A1 (en) 2021-05-06
JP2015535681A (ja) 2015-12-17
US10876172B2 (en) 2020-12-29
US20220205051A1 (en) 2022-06-30
US10041127B2 (en) 2018-08-07
US10494678B2 (en) 2019-12-03
US20210032707A1 (en) 2021-02-04
SG10202000486VA (en) 2020-03-30
IL305303A (en) 2023-10-01
IL269097B1 (en) 2023-09-01
DK2893040T5 (en) 2019-03-18
US9834822B2 (en) 2017-12-05
EP4036247A1 (en) 2022-08-03
US9598731B2 (en) 2017-03-21
US10876171B2 (en) 2020-12-29
KR102210852B1 (ko) 2021-02-01
HK1225416B (zh) 2017-09-08
US20150299812A1 (en) 2015-10-22
US20210340632A1 (en) 2021-11-04
US11879158B2 (en) 2024-01-23
US11319597B2 (en) 2022-05-03
US10995376B1 (en) 2021-05-04
US20200299785A1 (en) 2020-09-24
CA3190199A1 (en) 2014-03-13
EP3591073A1 (en) 2020-01-08
US20220042104A1 (en) 2022-02-10
JP2022169566A (ja) 2022-11-09
KR102393608B1 (ko) 2022-05-03
IL237480A0 (en) 2015-04-30
GB201509071D0 (en) 2015-07-08
PL3591073T3 (pl) 2022-03-28
WO2014039556A1 (en) 2014-03-13
SG11201501662TA (en) 2015-05-28
EP3470533B2 (en) 2023-01-18
EP2893040A1 (en) 2015-07-15
US10501810B2 (en) 2019-12-10
KR102028375B1 (ko) 2019-10-04
US10822663B2 (en) 2020-11-03
US10961592B2 (en) 2021-03-30
KR20150067161A (ko) 2015-06-17
JP2020000237A (ja) 2020-01-09
DK2893040T3 (en) 2019-03-11
IL269097B2 (en) 2024-01-01
CA2883901A1 (en) 2014-03-13
IL237480B (en) 2019-10-31
GB2533006A (en) 2016-06-08

Similar Documents

Publication Publication Date Title
US11667959B2 (en) Systems and methods to detect rare mutations and copy number variation
US10501810B2 (en) Systems and methods to detect rare mutations and copy number variation
US10894974B2 (en) Systems and methods to detect rare mutations and copy number variation
EP3882362B1 (en) Methods for sequencing of cell free polynucleotides
US11913065B2 (en) Systems and methods to detect rare mutations and copy number variation
US20220389489A1 (en) Systems and methods to detect rare mutations and copy number variation

Legal Events

Date Code Title Description
FG Grant or registration