MXPA03004840A - Enzimas que tienen actividad de deshalogenasa y metodos. - Google Patents

Enzimas que tienen actividad de deshalogenasa y metodos.

Info

Publication number
MXPA03004840A
MXPA03004840A MXPA03004840A MXPA03004840A MXPA03004840A MX PA03004840 A MXPA03004840 A MX PA03004840A MX PA03004840 A MXPA03004840 A MX PA03004840A MX PA03004840 A MXPA03004840 A MX PA03004840A MX PA03004840 A MXPA03004840 A MX PA03004840A
Authority
MX
Mexico
Prior art keywords
nos
seq
sequence
polypeptide
homology
Prior art date
Application number
MXPA03004840A
Other languages
English (en)
Inventor
Eric J Mathur
Jay M Short
Toby Richardson
Dan Robertson
Kevin Gray
Original Assignee
Verenium Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Verenium Corp filed Critical Verenium Corp
Publication of MXPA03004840A publication Critical patent/MXPA03004840A/es

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/52Genes encoding for enzymes or proenzymes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S422/00Chemical apparatus and process disinfecting, deodorizing, preserving, or sterilizing
    • Y10S422/90Decreasing pollution or environmental impact

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Wood Science & Technology (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Plant Pathology (AREA)
  • Enzymes And Modification Thereof (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Peptides Or Proteins (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Processing Of Solid Wastes (AREA)

Abstract

La invención se refiere a haloalcano deshalogenasas y a polinucleótidos que codifican las haloalcano deshalogenasas. En adición, también se proveen métodos de diseñar nuevas deshalogenasas y métodos de uso de las mismas. Las deshalogenasas tienen actividad y estabilidad incrementada a valores de pH y temperatura incrementados.

Description

ENZIMAS QUE TIENEN ACTIVIDAD DE DESHALOGENASA Y MÉTODOS DE USO DE LAS MISMAS Campo de la Invención Esta invención se refiere generalmente a enzimas, polinucleótidos que codifican las enzimas, el uso de tales polinucleótidos y polipéptidos, y mas específicamente a enzimas que tienen actividad de haloalcano deshalogenasa . Antecedentes Los contaminantes ambientales consisten en una gran cantidad y variedad de productos químicos; muchos de éstos son riesgos ambientales tóxicos que fueron designados en 1979 como contaminantes prioritarios por la U.S. Environmental Protection Agency (Agencia de Protección Ambiental de los Estados Unidos) . La biodegradación microbiana y enzimática es un método para la eliminación de estos contaminantes . De conformidad con lo anterior, se han diseñado métodos para tratar los desechos comerciales, y para bio-remediar los ambientes contaminados mediante procesos microbianos y enzimáticos relacionados. Desafortunadamente, muchos contaminantes químicos son resistentes a la degradación microbiana, o bien son tóxicos para los degradadores microbianos potenciales cuando están presentes en altas concentraciones y en ciertas combinaciones. La deshalogenasa de haloalcano pertenece a la familia de hidrolasa alfa/beta donde todas las enzimas comparten una topología, mecanismos de reacción, y residuos triad catalíticos similares ( rooshof y colaboradores, Biochemistry 36(31) : 9571-9580, 1997) . La enzima disocia los enlaces de carbono-halógeno en los haloalcanos y en los ácidos halocarboxilicos mediante hidrólisis, convirtiéndolos de esta manera en sus alcoholes correspondientes. Esta reacción es importante para la destoxifi-cación que involucra a los haloalcanos, tales como cloruro de etilo, cloruro de metilo, y 1, 2-dicloroetano, que son considérados como contaminantes prioritarios por la Environmental Protection Agency (Agencia de Protección Ambiental) (Roseboom, H., Kingma, J., Janssen, D., Dijkstra, B. Crystallization of Haloalkane Dehalogenase from Xanthobacter autotrophicus GJ10 J Mol. Biol. 200(3), 611-612 (1988)). Las deshalogenasas de haloalcano son producidas por microorganismos que pueden crecer enteramente en los compuestos alifáticos clorados. No se necesita metal u oxígeno para la actividad: el agua es el único sustrato. Xanthobacter autotrophicus GJ10 es una bacteria fijadora del nitrógeno que utiliza 1 , 2-dicloroetano y otros cuantos haloalcanos y ácidos halocarboxilicos para su crecimiento (Rozeboom y colaboradores, J. Mol. Biol. 200 3:611-612, 1988; Keuning y colaboradores, J. Bacteriol 163 (2 ): 635-639, 1985). Es la deshalogenasa más bien estudiada debido a que tiene un mecanismo de reacción catalítica, mecanismo de actividad, y estructura de cristal conocidos (Sc anstra y colaboradores, J. Biol. Chem. 27 (25) : 14747-14753, 1996). El organismo produce dos deshalogenasas diferentes. Una deshalogenasa es para los alcanos halogenados, y la otra para los ácidos carboxilicos halogenados. Los compuestos halogenados más dañinos son producidos industrialmente para utilizarse como agentes limpiadores, plaguicidas, y solventes. El sustrato natural de Xanthobacter autotrophicus es el 1, 2-dicloroetano. Este haloalcano con frecuencia se utiliza en la producción de vinilo. Las enzimas son catalizadores altamente selectivos. Su marca es la capacidad para catalizar las reacciones con estéreo-, regio-, y quimio-selectividades exquisitas que no tienen paralelo en la química sintética convencional. Más aún, las enzimas son notoriamente versátiles. Se pueden hacer a la medida para funcionar en solventes orgánicos, operar a pHs y temperaturas extremos, y catalizan las reacciones con compuestos que estructu-ralmente no están relacionados con sus sustratos fisiológicos naturales . Las enzimas son reactivas hacia un amplio rango de sustratos naturales y no naturales, haciendo posible de esta manera la modificación de virtualmente cualquier compuesto de plomo orgánico. Más aún, a diferencia de los catalizadores químicos tradicionales, las enzimas son altamente enantio- y regio-selectivas . El alto grado de especificidad de grupos funcionales exhibido por las enzimas, hace posible mantener la pista de cada reacción en una secuencia sintética que conduzca a un nuevo compuesto activo. Las enzimas también son capaces de catalizar muchas reacciones diversas no relacionadas con su función fisiológica en la naturaleza. Por ejemplo, las peroxida-sas catalizan la oxidación de fenoles por el peróxido de hidrógeno. Las peroxidasas también pueden catalizar reacciones de hidroxilación que no estén relacionadas con la función nativa de la enzima. Otros ejemplos son las proteasas que catalizan la descomposición de los polipéptidos . En solución orgánica, algunas proteasas también pueden acilar azúcares, una función no relacionada con la función nativa de estas enzimas. La presente invención explota las propiedades catalíticas únicas de las enzimas. Aunque el uso de biocatalizadores (es decir, enzimas purificadas o crudas, células no vivas o vivas) en las transformaciones químicas normalmente requiere de la identificación de un biocatalizador particular que reaccione con un compuesto de partida específico, la presente invención utiliza biocatalizadores seleccionados y condiciones de reacción que son específicos para los grupos funcionales que están presentes en muchos compuestos de partida. Cada biocatalizador es específico para un grupo funcional, o para varios grupos funcionales relacionados, y puede reaccionar con muchos compuestos de partida que contengan este grupo funcional .
Las reacciones biocataliticas producen una población de derivados a partir de un solo compuesto de partida. Estos derivados se pueden someter a otra ronda de reacciones biocataliticas para producir una segunda población de compuestos deriva-dos. Se pueden producir miles de variaciones del compuesto original con cada iteración de derivación biocatalitica . Las enzimas reaccionan en sitios específicos de un compuesto de partida sin afectar al resto de la molécula, un proceso que es muy difícil de lograr utilizando los métodos químicos tradicionales. Este alto grado de especificidad biocatalitica proporciona el medio para identificar un solo compuesto activo dentro de la biblioteca. La biblioteca se caracteriza por la serie de reacciones biocataliticas utilizadas para producirla, una denominada "historia biosintética" . El rastreo de la biblioteca para determinar las actividades biológicas y rastrear la historia biosintética, identifica la secuencia de reacción específica que produce el compuesto activo. La secuencia de reacción se repite, y se determina la estructura del compuesto sintetizado. Este modo de identificación, a diferencia de otros planteamientos de síntesis y rastreo, no requiere de tecnologías de inmovilización, y los compuestos se pueden sintetizar y probar libres en solución utilizando virtualmente cualquier tipo de ensayo de rastreo. Es importante observar que el alto grado de especificidad de las reacciones enzimáticas sobre los grupos funcionales, permite el "rastreo" de reacciones enzimáticas específicas que forman la biblioteca biocatalíticamente producida. Muchos de los pasos de procedimiento se realizan utilizando automatización robótica, que hace posible la ejecución de muchas miles de reacciones biocatalíticas y ensayos de rastreo al día, así como asegura un alto nivel de exactitud y reproduci-bilidad. Como un resultado, se puede producir una biblioteca de compuestos derivados en materia de semanas, lo cual tomaría años para producirse utilizando los métodos químicos actuales. (Para otras enseñanzas sobre la modificación de moléculas, incluyendo moléculas pequeñas, ver la publicación PCT/US94/09174, incorporada a la presente por referencia en su totalidad) . Las publicaciones descritas en la presente se proporcionan exclusivamente por su divulgación antes de la fecha de presentación de la presente solicitud. Nada de lo contenido en la presente debe interpretarse como una admisión de que la invención no tenga derecho a una ante-fecha de dicha divulgación en virtud de la invención anterior. Compendio de la Invención La invención proporciona un ácido nucleico aislado que tiene una secuencia como se estipula en las SEQ ID NOs : 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45, 47 y variantes de las mismas que tengan una identidad de secuencia de cuando menos el 50 por ciento con las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 o 47, y que codifiquen polipéptidos que tengan actividad de des alogenasa . Un aspecto de la invención es un ácido nucleico aislado que tiene una secuencia como se estipula en las SEQ ID NOs : 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45, 47 (referidas posteriormente en la presente como "secuencias de ácidos nucleicos del Grupo A"), secuencias sustancialmente idénticas a las mismas, y secuencias complementarias para las mismas . Otro aspecto de la invención es un ácido nucleico aislado que incluye cuando menos 10 bases consecutivas de una secuencia como se estipula en las secuencias de ácidos nucleicos del Grupo A, secuencias sustancialmente idénticas a las mismas, y las secuencias complementarias para las mismas. En todavía otro aspecto, la invención proporciona un ácido nucleico aislado que codifica un polipéptido que tiene una secuencia como se estipula en las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y variantes de las mismas, que codifican un polipéptido que tiene actividad de deshalogenasa, y que tiene una identidad de secuencia de cuando menos el 50 por ciento con estas secuencias. Otro aspecto de la invención es un ácido nucleico aislado que codifica un polipéptido o un fragmento funcional del mismo, que tiene una secuencia como se estipula en las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48 (referidas posteriormente en la presente como "secuencias de aminoácidos del Grupo B"), y secuencias sustan-cialmente idénticas a las mismas. Otro aspecto de la invención es un ácido nucleico aislado que codifica un polipéptido que tiene cuando menos 10 aminoácidos consecutivos de una secuencia como se estipula en las secuencias de aminoácidos del Grupo B, y secuencias sustancial-mente idénticas a las mismas. En todavía otro aspecto, la invención proporciona un polipéptido purificado que tiene una secuencia como se estipula en las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas. Otro aspecto de la invención es un anti-cuerpo aislado o purificado que se enlaza específicamente con un polipéptido que tiene una secuencia como se estipula en las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas. Otro aspecto de la invención es un anti-cuerpo aislado o purificado, o un fragmento de enlace del mismo, que se enlaza específicamente con un polipéptido que tiene cuando menos 10 aminoácidos consecutivos de uno de los polipéptidos de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas. Otro aspecto de la invención es un método para hacer un polipéptido que tiene una secuencia como se estipula en las -Sí-secuencias de aminoácidos del Grupo B, y secuencias sustancial-mente idénticas a las mismas. El método incluye introducir un ácido nucleico que codifique al polipéptido en una célula hospedera, donde el ácido nucleico se enlaza operativamente con un promotor, y cultivar la célula hospedera bajo condiciones que permitan la expresión del ácido nucleico. Otro aspecto de la invención es un método para hacer un polipéptido que tenga cuando menos 10 aminoácidos de una secuencia como se estipula en las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas. El método incluye introducir un ácido nucleico que codifique el polipéptido en una célula hospedera, donde el ácido nucleico se enlaza operativamente con un promotor, y cultivar la célula hospedera bajo condiciones que permitan la expresión del ácido nucleico, produciendo de esta manera el polipéptido. Otro aspecto de la invención es un método para generar una variante, el cual incluye obtener un ácido nucleico que tenga una secuencia como se estipula en las secuencias de ácidos nucleicos del Grupo A, secuencias sustancialmente idénticas a las mismas, secuencias complementarias para las secuencias de ácidos nucleicos del Grupo A, fragmentos que comprendan cuando menos 30 nucleótidos consecutivos de las secuencias anteriores, y cambiar uno o más nucleótidos de la secuencia a otro nucleótido, suprimir uno o más nucleótidos de la secuencia, o agregar uno o más nucleótidos a la secuencia.
Otro aspecto de la invención es un medio legible por computadora que tiene almacenada en el mismo una secuencia como se estipula en las secuencias de aminoácidos del Grupo ?, y secuencias sustancialmente idénticas a las mismas, o una secuencia de polipéptido como se estipula en las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas . Otro aspecto de la invención es un sistema de computación que incluye un procesador y un dispositivo de almacenamiento de datos, donde el dispositivo de almacenamiento de datos tiene almacenada en el mismo una secuencia como se estipula en las secuencias de ácidos nucleicos del Grupo ?, y secuencias sustancialmente idénticas a las mismas, o un polipéptido que tiene una secuencia como se estipula en las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas. Otro aspecto de la invención es un método para comparar una primera secuencia con una secuencia de referencia, donde la primera secuencia es un ácido nucleico que tiene una secuencia como se estipula en las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, o un código de polipéptido de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas. El método incluye leer la primera secuencia y la secuencia de referencia mediante el uso de un programa de computación que compare las secuencias; y determinar las diferencias entre la primera secuencia y la secuencia de referencia con el programa de computación . Otro aspecto de la invención es un método para identificar una característica en una secuencia como se estipula en las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, o un polipéptido que tenga una secuencia como se estipula en las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, incluyendo leer la secuencia mediante el uso de un programa de computación que identifique las características en las secuencias; e identificar las características en la secuencia con el programa de computación. Otro aspecto de la invención es un ensayo para identificar fragmentos o variantes de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, que retengan la función enzimática de los polipéptidos de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas. El ensayo incluye poner en contacto el polipéptido de las secuencias de aminoácidos del Grupo B, secuencias sustancialmente idénticas a las mismas, o fragmento o variante de polipéptido, con una molécula de sustrato, bajo condiciones que permitan que el fragmento o variante de polipéptido funcione, y detectar ya sea una reducción en el nivel de sustrato, o bien un incremento en el nivel del producto de reacción especifico de la reacción entre el polipép-tido y el sustrato, identificando de esta manera un fragmento o variante de estas secuencias. En todavía otro aspecto, la invención proporciona un método para sintetizar glicerol. El método incluye poner en contacto tricloropropano o dicloropropanol con un polipéptido que tenga una homología de cuando menos el 70 por ciento con una secuencia seleccionada a partir del grupo que consiste en las secuencias de aminoácidos del Grupo B, y secuencias sustancial-mente idénticas a las mismas, y que tenga actividad de deshaloge-nasa, bajo condiciones para sintetizar glicerol. En todavía otro aspecto, la invención proporciona un método para producir un ácido haloláctico ópticamente activo. El método incluye poner en contacto un ácido dihalopropiónico con un polipéptido que tenga una homología de cuando menos el 70 por ciento con una secuencia seleccionada a partir del grupo que consiste en las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, y que tenga actividad de deshalogenasa, bajo condiciones para producir ácido haloláctico ópticamente activo. En todavía otro aspecto, la invención proporciona un método para bio-remedio, mediante el contacto de una muestra ambientan con un polipéptido que tenga una homología de cuando menos el 70 por ciento con una secuencia seleccionada a partir del grupo que consiste en las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, y que tenga actividad de deshalogenasa . En otro aspecto, la invención proporciona un método para remover un contaminante halogenado o una impureza halogenada de una muestra. El método incluye poner en contacto la muestra con un polipéptido que tenga una homología de cuando menos el 70 por ciento con una secuencia seleccionada a partir del grupo que consiste en las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, y que tenga actividad de deshalogenasa. En todavía otro aspecto, la invención proporciona un método para sintetizar un diol, mediante el contacto de un dihalopropano o un monohalopropanol con un polipéptido que tenga una homología de cuando menos el 70 por ciento con una secuencia seleccionada a partir del grupo que consiste en las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, y que tenga actividad de deshalogenasa, bajo condiciones para sintetizar el diol. En todavía otro aspecto, la invención proporciona un método para deshalogenar un hidrocarbilo cíclico sustituido por halógeno. El método incluye poner en contacto el hidrocarbilo cíclico sustituido por halógeno con un polipéptido que tenga una homología de cuando menos el 70 por ciento con una secuencia seleccionada a partir del grupo que consiste en las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, y que tenga actividad de deshalogenasa, bajo condiciones para deshalogenar el hidrocarbilo cíclico sustituido por halógeno. Breve Descripción de los Dibujos Los siguientes dibujos son ilustrativos de las modalidades de la invención, y no pretenden limitar el alcance de la invención como es abarcado por las reivindicaciones. La Figura 1 es un diagrama de bloques de un sistema de computación. La Figura 2 es un diagrama de flujo que ilustra una modalidad de un proceso para comparar una nueva secuencia de nucleótido o de proteína con una base de datos de secuencia, con el objeto de determinar los niveles de homología entre la secuencia nueva y las secuencias de la base de datos. La Figura 3 es un diagrama de flujo que ilustra una modalidad de un proceso en una computadora para determinar si dos secuencias son homologas. La Figura 4 es un diagrama de flujo que ilustra una modalidad de un proceso identificador 300, para detectar la presencia de una característica en una secuencia. La Figura 5 muestra una alineación de las secuencias de polipéptidos de la invención. A=SEQ ID NO: 4; B=SEQ ID NO: 2; C=SEQ ID NO: 6; rhod2=SEQ ID NO: 40; myco4=SEQ ID NO: 42. La Figura 6 muestra las secuencias de la invención (SEQ ID Nos : 9-38 y 43-48) .
La Figura 7 muestra un ejemplo de la formación de glicerol utilizando las deshalogenasas de la invención, asi como la formación de 1, 2-propanodiol o 1, 3-propanodiol utilizando las deshalogenasas de la invención. La Figura 8 muestra un ejemplo de la deshalogenación de un hidrocarbilo cíclico sustituido por halógeno, utilizando las deshalogenasas de la invención. Descripción Detallada de la Invención La invención se refiere a polipéptidos de deshalogenasa de haloalcano, y a polinucleótidos que los codifican, así como a métodos de uso de los polinucleótidos y polipéptidos. Como se utiliza en la presente, la terminología "deshalogenasa de haloalcano" abarca las enzimas que tienen actividad de hidrolasa, por ejemplo las enzimas capaces de catalizar la hidrólisis de haloalcanos por medio de un intermediario de alquilo-enzima. Los polinucleótidos de la invención se han identificado por codificar polipéptidos que tienen actividad de deshalogenasa, y en las modalidades particulares, actividad de deshalogenasa de haloalcano . Las deshalogenasas y los polinucleótidos que codifican las deshalogenasas de la invención son útiles en un número de procesos, métodos, y composiciones. Por ejemplo, como se describe anteriormente, una deshalogenasa se puede utilizar para remediar un medio ambiente contaminado con cloro orgánico alifático, degradar el herbicida dalapón, degradar los ácidos orgánicos halogenados, asi como remediar la tierra y el agua, y tratar mediante degradación el ácido orgánico halogenado en la tierra y en el agua. Además, una deshalogenasa de la invención se puede utilizar para remover impurezas en procesos industriales, en el medio ambiente, y en medicamentos. Por ejemplo, una deshalogenasa se puede utilizar para descomponer las impurezas de ácido haloalcanoico en diferentes muestras, incluyendo, por ejemplo, tensoactivos, carboximetilcelulosa, o sales de ácido tioglicóli-co. En todavía otro aspecto, las deshalogenasas de la invención se pueden utilizar en la formación de medicamentos, líquidos agroquímicos y ferroeléctricos, permitiendo la deshalogenación oxidativa del 1,2-diol específico o de las halohidrinas racémi-cas. Por ejemplo, una deshalogenasa se puede utilizar en la síntesis de ácidos glicídico y láctico ópticamente activos (por ejemplo, ácido beta-haloláctico) mediante el tratamiento de un ácido ß-dihalopropiónico (por ejemplo, ácido dicloropropiónico) con una deshalogenasa. Las deshalogenasas de la invención también se pueden utilizar en la producción de (S) - (+) -3-halo-l, 2-propanodiol o (R) -(-) -3-halo-l, 2-propanodiol activos a partir del 1, 3-dihalo-2-propanol . El (S) -(+) -3-halo-l, 2-propanodiol es útil como una materia prima para tratamientos fisiológicos y médicos, y para medicamentos. Por ejemplo, una deshalogenasa de la invención se puede poner en contacto con tricloropropanodiol (TCP) o con dicloropro-panodiol (DCP) bajo condiciones y durante un tiempo suficientes para permitir que la deshalogenación oxidativa forme, por ejemplo, glicerol (por ejemplo, DCP o TCP hasta glicerol) (ver, por ejemplo, la Figura 7) . Se pueden producir diferentes dioles utilizando los métodos de la invención y las enzimas de la invención. En adición, los métodos y composiciones de la invención se pueden aplicar a compuestos aromáticos halogenados. Por ejemplo, las composiciones de la invención se pueden utilizar para deshalogenar un hidrocarbilo cíclico sustituido por halógeno, como se ilustra en la Figura 8. Los ejemplos de los compuestos de hidrocarbilo cíclico incluyen cicloalquilo, cicloalquenilo, cicloalcadienilo, cicloalcatrienilo, cicloalqui-nilo, cicloalcadi-inilo, compuestos aromáticos, espiro-hidrocarburos donde dos anillos están unidos por un solo átomo que es el único miembro común de los dos anillos (por ejemplo, espiro [3, 4] octanilo, y similares), hidrocarburos bicíclicos donde dos anillos están unidos y tienen cuando menos dos átomos en común (por ejemplo, biciclo [3.2.1] octano, biciclo [2.2.1] hept-2-eno, y similares) , ensambles de anillo donde dos o más sistemas cíclicos (es decir, anillos individuales o sistemas fusionados) están directamente unos con otros mediante enlaces individuales o dobles, y el número de estas uniones de anillos es uno menos que el número de sistemas cíclicos involucrados (por ejemplo, bifenililo, bifenilileno, radicales de p-terfenilo, ciclohexil-bencilo, y similares), policíclicos, y similares. Deshalogenasa de Haloalca.no Estructura Global La deshalogenasa de haloalcano a partir de Xanthobacter autotrophicus está compuesta de 310 aminoácidos, y consiste en una sola cadena de polipéptido con un peso molecular de 36,000. La enzima monomérica es esférica y está compuesta de dos dominios. El dominio principal tiene una estructura plegada de hidrolasa alfa/beta con una hoja beta mezclada del orden de 8 cadenas 12435678; la cadena 2 es antiparalela al resto. El segundo dominio es una tapa alfa-helicoidal que está encima del dominio principal. (Keuning y colaboradores, J. Bacteriol 163 (2) : 635-639, 1985). Como se describe con mayor detalle en la presente, se ha hecho mutagénesis para modificar la actividad de la enzima, por ejemplo, mutando residuos específicos del dominio de tapa (Krooshof y colaboradores, Biochemistry 36(31) : 9571-9580, 1997) . El sitio activo de la enzima en Xanthobacter autotrophicus, que consiste en tres residuos catalíticos (Asp 124, His 289, y Asp 260) se encuentra entre los dos dominios en una cavidad hidrofóbica interna. El Asp 124 nucleofílico y la base general His 289, localizada después de las cadenas beta 5 y 8, respectivamente, están completamente conservados en la familia de hidrolasa alfa/beta, mientras que el Asp 260 no lo está. El sitio activo está recubierto con 10 residuos hidrofóbicos : 4 fenilala-ninas; 2 triptófanos ; 2 leucinas; 1 valina; y 1 prolina. (Schanstra y colaboradores, J. Biol . Chem. 271 (25) : 14747-14753, Durante la hidrólisis enzimática de un sustrato, la deshalogenasa de haloalcano forma un intermediario covalente formado por la sustitución nucleofilica con Aspl24 que se hidroliza mediante una molécula de agua que se activa mediante His289. (Verschueren y colaboradores, Nature 363 (6431) : 693-698, 1993) . El papel de Asp260, que es el tercer miembro de un triad catalítico común a las enzimas de deshalogenasa, se ha estudiado mediante mutagénesis dirigida al sitio. La mutación de Asp260 hasta asparagina dio como resultado un mutante D260N catalíticamente inactivo, lo cual demuestra que el ácido Asp260 del triad es esencial para la actividad de deshalogenasa en la enzima de tipo silvestre. Además, el Asp260 tiene un papel estructural importante, debido a que la enzima D260N se acumula principalmente en los cuerpos de inclusión durante la expresión, y ningún sustrato ni producto podría fijarse en la cavidad del sitio activo. La actividad para los sustratos bromados se restauró a D260N, reemplazando Asnl48 con un ácido aspártico o glutámico. Ambos mutantes dobles D260N+N148D y D260N+N148E tuvieron un kcat reducido 10 veces, y valores Km 40 veces más altos para 1,2-dibromoetano, comparándose con la enzima de tipo silvestre. El análisis cinético previamente en estado continuo del mutante doble D260N+N148E mostró que la reducción en kcat era principalmente causada por una reducción de 220 veces del índice de disociación de enlace de carbono-bromo, y una reducción de 10 veces en el Indice de hidrólisis del intermediario de alquilo-enzima. Por otra parte, el bromo fue liberado 12 veces más rápido y mediante una senda diferente que en la enzima de tipo silvestre. La modelación molecular del mutante mostró que realmente el Glul48 podría hacerse cargo de la interacción con His289, y que había un cambio en la distribución de carga en la región del túnel que conecta el sitio activo con el solvente. ( rooshof y colaboradores, Biochemistry 36 (31 ): 9571-9580, 1997). El primer paso en la degradación de los compuestos halogenados dañinos utiliza deshalogenasa de alcano. La cataliza-ción de deshalogenasa ocurre como un mecanismo de dos pasos que involucra un intermediario de éster. No se requiere energía para las deshalogenasas hidrolíticas por consiguiente, es una manera simple de destoxificar la materia orgánica, debido a que se pierde el halógeno, que es el que causa la toxicidad. Un triad catalítico (Asp-His-Asp) , junto con un carboxilato de aspartato (Asp 124) , son el punto focal de la reacción. El sustrato se fija a la cavidad del sitio activo, y el complejo de Cl-alfa reacciona con los grupos NH de la cadena lateral de Trp 172 y Trp 175. Como un primer paso, un halógeno del sustrato es desplazado por el aspartato nucleofilico, dando como resultado un éster covalente intermediario. Entonces el His 289 activa una molécula de agua, la cual hidroliza el éster. Como un resultado, un alcohol y un haluro son desplazados del sitio activo. El mecanismo de dos pasos que involucra el Asp 124 nucleofílico y la hidrólisis con agua del intermediario de éster, es consistente con otras enzimas plegadas de hidrolasa alfa/beta. La deshalogenasa de haloalcano rompe los enlaces de carbono-halógeno en los compuestos alifáticos. Los resultados muestran que la reacción enzimática con el enlace C-Cl es más lenta que aquélla de otros enlaces de C-haluro, tales como los enlaces de C-Br. La capacidad del grupo saliente es la explicación de la diferencia. El paso limitante de velocidad para las reacciones de 1, 2-dicloroetano y 1, 2-dibromoetano no es la disociación del enlace de carbono-halógeno, sino más bien la liberación del ion hacia afuera del sitio activo. Bio-Remedío La presente invención proporciona un número de enzimas de deshalogenasa útiles en el bio-remedio, que tienen mejores características enzimáticas. Los polinucleótidos y productos de polinucleótidos de la invención son útiles, por ejemplo, en el tratamiento de agua subterránea que involucra a las células hospederas transformadas que contienen un polinucleótido o polipéptido de la invención (por ejemplo, la bacteria Xanthobac-ter autotrophicus) , y el haloalcano 1, 2-dicloroetano, así como la remoción de los bifenilos policlorados (PCBs) del sedimento de la tierra . La deshalogenasa de haloalcano de la invención es útil en los esfuerzos de reducción de carbono-haluro . Las enzimas de la invención inician la degradación de los haloalcanos. De una manera alternativa, las células hospederas que contienen un polinucleótido de deshalogenasa o un polipéptido de la invención pueden alimentarse sobre los haloalcanos y producir la enzima destoxificante . Definiciones Las frases "ácido nucleico" o "secuencia de ácido nucleico", como se utilizan en la presente, se refieren a un oligonucleótido, nucleótido, polinucleótido, o a un fragmento de cualquiera de los mismos, a ADN o ARN de origen genómico o sintético que pueden ser de una sola cadena o de doble cadena, y que pueden representar una cadena en sentido o anti-sentido, al ácido nucleico del péptido (PNA) , o a cualquier material de tipo ADN o de tipo ARN, de origen natural o sintético. En una modalidad, una "secuencia de ácido nucleico" de la invención incluye, por ejemplo, una secuencia que codifica un polipéptido como se estipula en las secuencias de aminoácidos del Grupo B, y variantes de las mismas. En otra modalidad, una "secuencia de ácido nucleico" de la invención incluye, por ejemplo, una secuencia como se estipula en las secuencias de ácidos nucleicos del Grupo A, secuencias complementarias para las mismas, fragmentos de las secuencias anteriores, y variantes de las mismas . Una "secuencia de codificación de" o una "secuencia de nucleótidos que codifica" un polipéptido o proteina particular, es una secuencia de ácido nucleico que se transcribe y se traduce en un polipéptido o proteína cuando se pone bajo el control de secuencias reguladoras apropiadas . El término "gen" significa el segmento de ADN involucrado en la producción de una cadena de polipéptido; incluye las regiones precedentes y siguientes a la región codificante (delantera y trasera) así como, donde sea aplicable, las secuencias que intervienen (intrones) entre los segmentos codificantes individuales (exones) . "Aminoácido" o "secuencia de aminoácidos", como se utiliza en la presente, se refiere a una secuencia de oligopépti-do, péptido, polipéptido, o proteína, o a un fragmento, porción, o subunidad de cualquiera de los mismos, y a moléculas que se presentan naturalmente o sintéticas . En una modalidad, una "secuencia de aminoácidos" o una "secuencia de polipéptido" de la invención incluye, por ejemplo, una secuencia como se estipula en las secuencias de aminoácidos del Grupo B, fragmentos de las secuencias anteriores, y variantes de las mismas. En otra modalidad, una "secuencia de aminoácidos" de la invención incluye, por ejemplo, una secuencia codificada por un polinucleó-tido que tiene una secuencia como se estipula en las secuencias de ácidos nucleicos del Grupo B, secuencias complementarias para las mismas, fragmentos de las secuencias anteriores, y variantes de las mismas. El término "polipéptido" como se utiliza en la presente, se refiere a aminoácidos unidos unos a otros por enlaces peptidicos o por enlaces peptídicos modificados, es decir, isoésteres de péptidos, y pueden contener aminoácidos modificados diferentes de los 20 aminoácidos codificados por el gen. Los polipéptidos se pueden modificar mediante procesos naturales, tales como procesamiento posterior a la traducción, o mediante técnicas de modificación química que son bien conocidas en este campo. Las modificaciones pueden presentarse en cualquier parte del polipéptido, incluyendo la estructura base del péptido, las cadenas laterales de aminoácidos, y los términos amino o carboxilo. Se apreciará que puede haber el mismo tipo de modificación presente en el mismo o diferente grado en diferentes sitios en un polipéptido dado. También, un polipéptido dado puede tener muchos tipos de modificaciones. Las modificaciones incluyen acetilación, acilación, ribosilación de ADP, amidación, unión covalente de flavina, unión covalente de una fracción heme, unión covalente de un nucleótido o derivado de nucleótido, unión covalente de un lípido o derivado de lípido, unión covalente de un fosfatidilinositol, ciclación reticulante, formación de enlace de disulfuro, desmetilación, formación de reticulaciones covalentes, formación de cisterna, formación de piroglutamato, formilación, gamma-carboxilación, glicosilación, formación de ancla GPI, hidroxilación, yodación, metilación, miristoilación, oxidación, pergilación, procesamiento proteolítico, fosforilación, prenilación, racemización, selenoilación, sulfatación, y adición de aminoácidos mediada por ARN de transferencia a la proteina, tal como arginilación. (Ver Creighton, T.E., Proteins -Structure and Molecular Properties, Segunda Edición, W. H. Freeman and Company, Nueva York (1993) ; Posttranslational Covalent Modification of Proteins, B.C. Johnson, Editor, Academic Press, Nueva York, páginas 1-12 (1983) ) . Como se utiliza en la presente, el término "aislado" significa que el material se remueve de su medio ambiente original (por ejemplo, el medio ambiente natural si se presenta naturalmente) . Por ejemplo, un polinucleótido o polipéptido que se presenta naturalmente, presente en un animal vivo, no está aislado, pero el mismo polinucleótido o polipéptido, separado de algunos o todos los materiales coexistentes en el sistema natural, está aislado. Estos polinucleótidos podrían ser parte de un vector, y/o estos polinucleótidos o polipéptidos podrían ser parte de una composición, y todavía estar aislados, porque ese vector o composición no sea parte de su medio ambiente natural. Como se utiliza en la presente, el término "purificado" no requiere de una pureza absoluta; más bien, se pretende como una definición relativa. Los ácidos nucleicos individuales obtenidos de una biblioteca se han purificado convencionalmente hasta una homogeneidad electroforética . Las secuencias obtenidas de estos clones no se pudieron obtener directamente de la biblioteca o del ADN humano total. Los ácidos nucleicos purificados de la invención se han purificado a partir del resto del ADN genómico del organismo por cuando menos 104-106 veces. Sin embargo, el término "purificado" también incluye ácidos nucleicos que se hayan purificado a partir del resto del ADN genómico o de otras secuencias de una biblioteca u otro medio ambiente por cuando menos un orden de magnitud, normalmente 2 3 órdenes, y más típicamente 4 o 5 órdenes de magnitud. Como se utiliza en la presente, el término "recombinan-te" significa que el ácido nucleico está adyacente a un ácido nucleico de la "estructura base" al que no está adyacente en su medio ambiente natural. Adicionalmente, para estar "enriquecidos", los ácidos nucleicos representarán el 5 por ciento o más del número de insertos de ácidos nucleicos en una población de moléculas de estructura base de ácido nucleico. Las moléculas de estructura base de acuerdo con la invención incluyen ácidos nucleicos, tales como vectores de expresión, ácidos nucleicos auto-replicantes, virus, ácidos nucleicos integradores, y otros vectores o ácidos nucleicos utilizados para mantener o manipular un inserto de ácido nucleico de interés. Normalmente, los ácidos nucleicos enriquecidos representan el 15 por ciento o más del número de insertos de ácidos nucleicos en la población de moléculas de estructura base recombinantes . Más típicamente, los ácidos nucleicos enriquecidos representan el 50 por ciento o más del número de insertos de ácidos nucleicos en la población de moléculas de estructura base recombinantes. En una modalidad, los ácidos nucleicos enriquecidos representan el 90 por ciento o más del número de insertos de ácidos nucleicos en la población de moléculas de estructura base recombinantes . Polipéptidos o proteínas "recombinantes", se refieren a los polipéptidos o proteínas producidos mediante técnicas de ADN recombinante; es decir, producidos a partir de células transformadas mediante una construcción de ADN exógena que codifique al polipéptido o proteína deseados. Los polipéptidos o proteínas "sintéticos", son los preparados mediante síntesis química. También se pueden utilizar métodos de síntesis química de péptidos en fase sólida para sintetizar el polipéptido o los fragmentos de la invención. Este método se ha conocido en la técnica desde principios de la década de 1960 (Merrifield, R. B. J. Am. Chem. Soc. 85:2149-2154, 1963) (Ver también Stewart J. M. y Young, J. D., Solid Phase Peptide Synthesis, Segunda Edición, Pierce Chemical Co . , Rockford, III, páginas 11-12)), y recientemente se han empleado en estuches de diseño y síntesis de péptidos de laboratorio comercialmente disponibles (Cambridge Research Biochemicals ) . Estos estuches de laboratorio comercialmente disponibles han utilizado en general las enseñanzas de H. M. Geysen y colaboradores, Proc. Nati. Acad. Sci. USA, 81:3998 (1984) , y proporcionan la síntesis de péptidos sobre las puntas de una multitud de "varillas" o "picos", todos los cuales se conectan a una sola placa. Cuando se utiliza este sistema, una placa de varillas o picos se invierte y se inserta en una segunda placa de pozos o depósitos correspondientes, que contienen soluciones para unir o anclar un aminoácido apropiado a las puntas de los picos o varillas. Mediante la repetición de este paso del proceso, es decir, invertir e insertar las puntas de las varillas y picos en las soluciones apropiadas, se construyen aminoácidos en los péptidos deseados. En adición, están disponibles un número de sistemas de síntesis de péptidos EMOC disponibles. Por ejemplo, el ensamble de un polipéptido o fragmento se puede llevar a cabo sobre un soporte sólido utilizando un sintetizador de péptidos automatizado Applied Biosystems, Inc. Modelo 431A. Este equipo proporciona un fácil acceso a los péptidos de la invención, ya sea mediante síntesis directa o bien mediante síntesis de una serie de fragmentos que se pueden acoplar utilizando otras técnicas conocidas. Una secuencia promotora está "operativamente enlazada a" una secuencia de codificación, cuando la polimerasa de ARN que inicia la transcripción en el promotor, transcriba la secuencia de codificación en el ARNm. Los "plásmidos" son designados por una "p" minúscula precedida y/o seguida por letras mayúsculas y/o números. Los plásmidos de partida en la presente están comercialmente disponibles, están públicamente disponibles sobre una base no restringida, o se pueden construir a partir de plásmidos disponibles de acuerdo con los procedimientos publicados. En adición, en este campo se conocen plásmidos equivalentes a los descritos en la presente, y serán aparentes para el técnico en la materia . "Digestión" de ADN se refiere a la disociación catalítica del ADN con una enzima de restricción que actúa solamente en ciertas secuencias del ADN. Las diferentes enzimas de restricción utilizadas en la presente están comercialmente disponibles, y se utilizaron sus condiciones de reacción, cofactores, y otros requerimientos, como serían conocidos por el técnico en la materia. Para propósitos analíticos, normalmente se utiliza 1 microgramo de plásmido o fragmento de ADN con aproximadamente dos unidades de enzima en aproximadamente 20 microlitros de solución regulador. Para el propósito de aislar fragmentos de ADN para la construcción de plásmidos, normalmente se digieren de 5 a 50 microgramos de ADN con 20 a 250 unidades de enzima en un volumen más grande. Los reguladores y cantidades de sustrato apropiados para las enzimas de restricción particulares son especificados por el fabricante. Ordinariamente se utilizan tiempos de incubación de aproximadamente 1 hora a 37 °C, pero pueden variar de acuerdo con las instrucciones del proveedor. Después de la digestión, se puede realizar electroforesis en gel para aislar el fragmento deseado. "Oligonucleótido" se refiere a un polidesoxinucleótido de una sola cadena, o bien a dos cadenas de polidesoxinucleótido complementarias, que se pueden sintetizar químicamente. Estos oligonucleótidos sintéticos no tienen 5 '-fosfato, y por lo tanto, no se ligarán a otro oligonucleótido sin agregar un fosfato con un ATP en la presencia de una cinasa. Un oligonucleótido sintético se ligará a un fragmento que no se haya desfosforilado . La frase "sustancialmente idéntico" en el contexto de dos ácidos nucleicos o polipéptidos, se refiere a dos o más secuencias que tengan cuando menos el 50 por ciento, el 55 por ciento, el 60 por ciento, el 65 por ciento, el 70 por ciento, el 75 por ciento, el 80 por ciento, el 85 por ciento, y en algunos aspectos del 90 al 95 por ciento de identidad de nucleótidos o de residuos de aminoácidos, al compararse y alinearse para una máxima correspondencia, medida utilizando uno de los algoritmos de comparación de secuencias, o mediante inspección visual. Normalmente, existe una identidad sustancial sobre una región de cuando menos aproximadamente 100 residuos, y más comúnmente, las secuencias son sustancialmente idénticas sobre cuando menos aproximadamente 150 a 200 residuos. En algunas modalidades, las secuencias son sustancialmente idénticas sobre toda la longitud de las regiones codificantes. Adicionalmente, una secuencia de aminoácidos "sustancialmente idéntica" es una secuencia que difiere de una secuencia de referencia por una o más sustituciones, supresiones, o inserciones de aminoácidos conservadoras o no conservadoras, en particular cuando esta sustitución ocurre en un sitio que no sea el sitio activo de la molécula, y en el entendido de que el polipéptido retenga esencialmente sus propiedades funcionales. Por ejemplo, una sustitución de aminoácido conservadora sustituye un aminoácido por otro de la misma clase (por ejemplo, sustitución de un aminoácido hidrofóbico, tal como isoleucina, valina, leucina, o metionina, por otro, o sustitución de un aminoácido polar por otro, tal como sustitución de arginina por lisina, ácido glutámico por ácido aspártico, o glutamina por asparagina) . Se pueden suprimir uno o más aminoácidos, por ejemplo, de un polipéptido de deshalogenasa, dando como resultado la modificación de la estructura del polipéptido, sin alterar significativamente su actividad biológica. Por ejemplo, se pueden remover los aminoácidos amino- o carboxil-terminales que no se requieran para la actividad biológica de la deshalogenasa. Las secuencias de polipéptidos modificadas de la invención se pueden ensayar para determinar la actividad biológica de la deshalogenasa mediante cualquier número de métodos, incluyendo poner en contacto la secuencia de polipéptido modificada con un sustrato de deshalogenasa, y determinar si el polipéptido modificado reduce la cantidad de sustrato especifico en el ensayo, o incrementa los bioproductos de la reacción enzimática de un polipéptido de deshalogenasa funcional con el sustrato. "Fragmentos", como se utilizan en la presente, son una porción de una proteina que se presenta naturalmente, que puede existir en cuando menos dos conformaciones diferentes. Los fragmentos pueden tener la misma o sustancialmente la misma secuencia de aminoácidos que la proteina que se presenta naturalmente. "Sustancialmente la misma" significa que una secuencia de aminoácidos es en gran parte, pero no enteramente, igual, pero retiene cuando menos una actividad funcional de la secuencia con la que esté relacionada. En general, dos secuencias de aminoácidos son "sustancialmente iguales" o "sustancialmente homologas" si son cuando menos aproximadamente 85 por ciento idénticas. También se incluyen los fragmentos que tengan diferentes estructuras tridimensionales como la proteina que se presente naturalmente. Un ejemplo de esto es una molécula de "proforma", tal como una proproteina de baja actividad que se pueda modificar mediante disociación para producir una enzima madura con una actividad significativamente más alta. "Hibridación" se refiere al proceso mediante el cual una cadena de ácido nucleico se une con una cadena complementaria a través de emparejamiento de bases. Las reacciones de hibridación pueden ser sensibles y selectivas, de tal manera que se puede identificar una secuencia de interés particular inclusive en muestras en las que esté presente en bajas concentraciones. Las condiciones adecuadamente astringentes se pueden definir, por ejemplo, por las concentraciones de sal o formamida en las soluciones de prehibridación y de hibridación, o por la temperatura de hibridación, y son bien conocidas en la materia. En particular, la astringencia se puede incrementar reduciendo la concentración de sal, incrementando la concentración de formamida, o elevando la temperatura de hibridación. Por ejemplo, la hibridación bajo condiciones de alta astringencia podría ocurrir en formamida a aproximadamente el 50 por ciento, de aproximadamente 37 °C a 42 °C. La hibridación podría ocurrir bajo condiciones de astringencia reducida en formamida de aproximadamente el 35 por ciento al 25 por ciento, de aproximadamente 30°C a 35°C. En particular, la hibridación podría ocurrir bajo condiciones de alta astringencia a 42 °C en formamida al 50 por ciento, 5X SSPE, SDS al 0.3 por ciento, y 200 n/ml de ADN de esperma de salmón desgarrado y desnaturalizado. La hibridación podría ocurrir bajo condiciones de astringencia reducida como se describe anteriormente, pero en formamida al 35 por ciento a una temperatura reducida de 35°C. El rango de temperatura correspondiente a un nivel de astringencia particular se puede estrechar adicionalmente mediante el cálculo de la proporción de purina a pirimidina del ácido nucleico de interés, y ajustando la temperatura de conformidad con lo mismo. Las variaciones sobre los rangos y condiciones anteriores son bien conocidas en este campo . El término "variante" se refiere a polinucleótidos o polipéptidos de la invención modificados en uno o más pares de bases, codones, intrones, exones, o residuos de aminoácidos (respectivamente) , y no obstante todavía retienen la actividad biológica de una deshalogenasa de la invención. Los polinucleótidos o polipéptidos de la invención también se pueden modificar mediante la introducción de una base modificada, tal como inosina. Adicionalmente, las modificaciones se pueden repetir de manera opcional una o más veces. Se pueden producir variantes mediante cualquier número de medios, incluyendo métodos tales como, por ejemplo, reacción en cadena de la polimerasa susceptible a error, mezcla, mutagénesis dirigida al oligonucleótido, reacción en cadena de la polimerasa de ensamble, mutagénesis de reacción en cadena de la polimerasa sexual, mutagénesis in vivo, mutagénesis de cásete, mutagénesis de ensamble recursivo, mutagénesis de ensamble exponencial, mutagénesis especifica del sitio, reensamble genético, GSSM y cualquier combinación, permutación, o proceso iterativo de los mismos. Las enzimas son catalizadores altamente selectivos. Su marca es la capacidad para catalizar las reacciones con estéreo-, regio-, y quimio-selectividades exquisitas que no tienen paralelo en la química sintética convencional. Más aún, las enzimas son notoriamente versátiles. Se pueden hacer a la medida para funcionar en solventes orgánicos, operar en pHs extremos (por ejemplo, pHs altos y pHs bajos), a temperaturas extremas (por ejemplo, altas temperaturas y bajas temperaturas), niveles de salinidad extremos (por ejemplo, alta salinidad y baja salinidad) , y catalizar reacciones con compuestos que estructuralmente no estén relacionados con sus sustratos fisiológicos naturales. Las enzimas son reactivas hacia un amplio rango de sustratos naturales y no naturales, haciendo posible de esta manera la modificación de virtualmente cualquier compuesto de plomo orgánico. Más aún, a diferencia de los catalizadores químicos tradicionales, las enzimas son altamente enantio- y regio-selectivas . El alto grado de especificidad de grupos funcionales exhibido por las enzimas hace posible mantener el rastro de cada reacción en una secuencia sintética que conduzca a un nuevo compuesto activo. Las enzimas también son capaces de catalizar muchas reacciones diversas no relacionadas con su función fisiológica en la naturaleza. Por ejemplo, las peroxida-sas catalizan la oxidación de fenoles por el peróxido de hidrógeno. Las peroxidasas también pueden catalizar reacciones de hidroxilación que no estén relacionadas con la función nativa de la enzima. Otros ejemplos son las proteasas que catalizan la descomposición de polipéptidos . En solución orgánica, algunas proteasas también pueden acilar azúcares, una función no relacionada con la función nativa de estas enzimas . La presente invención explota las propiedades catalíticas únicas de las enzimas. Aunque el uso de biocatalizadores (es decir, enzimas purificadas o crudas, células no vivas o vivas) en las transformaciones químicas normalmente requiere de la identificación de un biocatalizador particular que reaccione con un compuesto de partida específico, la presente invención utiliza biocatalizadores seleccionados y condiciones de reacción que son específicas para los grupos funcionales que están presentes en muchos compuestos de partida. Cada biocatalizador es específico para un grupo funcional, o varios grupos funcionales relacionados, y puede reaccionar con muchos compuestos de partida que contengan este grupo funcional . Las reacciones biocatalíticas producen una población de derivados a partir de un solo compuesto de partida. Estos derivados se pueden someter a otra ronda de reacciones biocatalíticas para producir una segunda población de compuestos derivados. Se pueden producir miles de variaciones del compuesto original con cada iteración de derivación biocatalítica . Las enzimas reaccionan en sitios específicos de un compuesto de partida sin afectar al resto de la molécula, un proceso que es muy difícil de lograr utilizando los métodos químicos tradicionales. Este alto grado de especificidad biocatalítica proporciona el medio para identificar un solo compuesto activo dentro de la biblioteca. La biblioteca se caracteriza por la serie de reacciones biocatalíticas utilizadas para producirla, la denominada "historia biosintética" . El rastreo de la biblioteca para determinar las actividades biológicas y rastrear la historia biosintética, identifica la secuencia de reacción específica que produce al compuesto activo. La secuencia de reacción se repite, y se determina la estructura del compuesto sintetizado. Este modo de identificación, a diferencia de otros planteamientos de síntesis y rastreo, no requiere de tecnologías de inmovilización, y los compuestos se pueden sintetizar y probar libres en solución utilizando virtualmente cualquier tipo de ensayo de rastreo. Es importante observar que el alto grado de especificidad de las reacciones enzimáticas sobre los grupos funcionales, permite el "rastreo" de reacciones enzimáticas especificas que forman la biblioteca biocataliticamente producida. Muchos de los pasos del procedimiento se llevan a cabo utilizando automatización robótica, que hace posible la ejecución de muchas miles de reacciones biocataliticas y ensayos de rastreo al día, así como asegura un alto nivel de exactitud y reproduci-bilidad. Como un resultado, se puede producir una biblioteca de compuestos derivados en materia de semanas, lo cual tomaría años de producir utilizando los métodos químicos actuales. (Para más enseñanzas sobre la modificación de moléculas, incluyendo moléculas pequeñas, ver la publicación PCT/US94/09174, incorporada a la presente como referencia en su totalidad) . En un aspecto, la presente invención proporciona un método no estocástico denominado reensamble genético sintético, que está un poco relacionado con la mezcla estocástica, salvo porque los bloques de construcción de ácidos nucleicos no se mezclan ni se concatenan ni se quimerizan aleatoriamente, sino que más bien se ensamblan de una manera no estocástica. El método de reensamble genético sintético no depende de la presencia de un alto nivel de homología entre los polinu-cleótidos que se vayan a mezclar. La invención se puede utilizar para generar bibliotecas (o conjuntos) de moléculas de progenie de una manera no estocástica, comprendidas de más de 10100 quimeras diferentes. Concebiblemente, el reensamble genético sintético se puede utilizar inclusive para generar bibliotecas comprendidas de más de 101000 quimeras de progenie diferentes. Por consiguiente, en un aspecto, la invención proporciona un método no estocástico para producir un conjunto de moléculas de ácido nucleico quiméricas finalizadas que tienen un orden de ensamble global que se seleccionan por diseño, cuyo método está comprendido de los pasos de generar por diseño una pluralidad de bloques de construcción de ácidos nucleicos específicos que tengan extremos ligables mutuamente compatibles útiles, y ensamblar estos bloques de construcción de ácidos nucleicos, de tal manera que se alcance un orden de ensamble global designado. Los extremos ligables mutuamente compatibles de los bloques de construcción de ácidos nucleicos que se van a ensamblar, se consideran "útiles" para este tipo de ensamble ordenado, si hacen posible que se acoplen los bloques de construcción en órdenes previamente determinados. Por consiguiente, en un aspecto, el orden de ensamble global en el que se pueden acoplar los bloques de construcción de ácidos nucleicos es especificado por el diseño de los extremos ligables, y si se da a utilizar más de un paso de ensamble, entonces el orden de ensamble global en el que se pueden acoplar los bloques de construcción de ácidos nucleicos también es especificado por el orden en secuencia de los pasos de ensamble. En una modalidad de la invención, las piezas de construcción templadas se tratan con una enzima, tal como una ligasa (por ejemplo, ligasa de ADN T4) para lograr un enlace covalente de las piezas de construcción. En otra modalidad, el diseño de los bloques de construcción de ácidos nucleicos se obtiene después del análisis de las secuencias de un conjunto de plantillas de ácidos nucleicos progenitoras, que sirven como base para producir un conjunto de progenie de moléculas de ácidos nucleicos quiméricas finalizadas. Estas plantillas de ácidos nucleicos progenitoras, por consiguiente, sirven como una fuente de información de secuencia que ayuda en el diseño de los bloques de construcción de ácidos nucleicos que se van a mutar, es decir, se van a quimerizar o mezclar. En una e emplificación, la invención proporciona la quimerización de una familia de genes relacionados y su familia codificada de productos relacionados. En una ej emplificación particular, los productos codificados son enzimas. Las deshaloge-nasas de la presente invención se pueden mutar de acuerdo con los métodos descritos en la presente. Por lo tanto, de conformidad con un aspecto de la invención, las secuencias de una pluralidad de plantillas de ácidos nucleicos progenitoras (por ejemplo, los polinucleótidos de las secuencias de ácidos nucleicos del Grupo A) se alinean en orden para seleccionar uno o más puntos de demarcación, cuyos puntos de demarcación se pueden localizar en un área de homolo- gia. Los puntos de demarcación se pueden utilizar para delinear los limites de los bloques de construcción de ácidos nucleicos que se vayan a generar. Por consiguiente, los puntos de demarcación identificados y seleccionados en las moléculas progenitoras sirven como puntos de quimerización potenciales en el ensamble de las moléculas de progenie. Normalmente, un punto de demarcación útil es un área de homología (comprendida de cuando menos una base de nucleótido homologa compartida por cuando menos dos plantillas progenitoras, pero el punto de demarcación puede ser un área de homología que sea compartida por cuando menos la mitad de las plantillas progenitoras, cuando menos dos terceras partes de las plantillas progenitoras, cuando menos tres cuartas partes de las plantillas progenitoras, y de preferencia casi todas las plantillas progenitoras. De una manera todavía más preferible, un punto de demarcación útil es un área de homología que es compartida por todas las plantillas progenitoras. En una modalidad, el proceso de reensamble genético se realiza exhaustivamente con el objeto de generar una biblioteca exhaustiva. En otras palabras, todas las posibles combinaciones ordenadas de los bloques de construcción de ácidos nucleicos están representadas en el conjunto de moléculas de ácidos nucleicos quiméricas finalizadas. Al mismo tiempo, el orden de ensamble (es decir, el orden de ensamble de cada bloque de construcción en la secuencia de 5 ' a 3 de cada ácido nucleico quimérico finalizado) en cada combinación es por diseño (o no estocástico) . Debido a la naturaleza no estocástica del método, se puede reducir mucho la posibilidad de productos secundarios indeseados . En otra modalidad, el método dispone que el proceso de reensamble genético se realice de una manera sistemática, por ejemplo para generar una biblioteca sistemáticamente compartimen-talizada, con compartimientos que se puedan rastrear de una manera sistemática, por ejemplo, uno por uno. En otras palabras, la invención dispone que, a través del uso selectivo y juicioso de bloques de construcción de ácidos nucleicos específicos, junto con el uso selectivo y juicioso de reacciones de ensamble escalonadas en secuencia, se pueda lograr un diseño experimental donde se hagan conjuntos específicos de productos de progenie en cada uno de varios recipientes de reacción. Esto permite que se lleve a cabo un procedimiento sistemático de examen y rastreo. Por lo tanto, permite que se examine sistemáticamente un número potencialmente muy grande de moléculas de progenie en grupos más pequeños . Debido a su capacidad para llevar a cabo quimerizacio-nes de una manera que es altamente flexible, y no obstante es también exhaustiva y sistemática, en particular cuando hay un bajo nivel de homología entre las moléculas progenitoras, la presente invención proporciona la generación de una biblioteca (o conjunto) comprendida de un gran número de moléculas de progenie.
Debido a la naturaleza no estocástica de la presente invención de reensamble genético, las moléculas de progenie generadas de preferencia comprenden una biblioteca de moléculas de ácidos nucleicos quiméricas finalizadas que tienen un orden de ensamble global que es seleccionado por diseño. En una modalidad particular, esta biblioteca generada está comprendida de más de 103 hasta más de 101000 especies moleculares de progenie diferentes. En un aspecto, un conjunto de moléculas de ácidos nucleicos quiméricas finalizadas, producidas como se describe, está comprendido de un polinucleótido que codifica un polipépti-do. De conformidad con una modalidad, este polinucleótido es un gen, el cual puede ser un gen hecho por el hombre. De conformidad con otra modalidad, este polinucleótido es una senda genética, que puede ser una senda genética hecha por el hombre. La invención dispone que se puedan incorporar uno o más genes hechos por el hombre generados por la invención, en una senda genética hecha por el hombre, tal como la senda que opera en un organismo eucariótico (incluyendo una planta) . En otra e emplificación, la naturaleza sintética del paso en el que se generan los bloques de construcción, permite el diseño y la introducción de nucleótidos (por ejemplo, uno o más nucleótidos, que pueden ser, por ejemplo, codones o intrones o secuencias reguladoras) , que posteriormente se pueden remover de manera opcional en un proceso in vitro (por ejemplo, mediante mutagénesis) , o en un proceso in vivo (por ejemplo, utilizando la capacidad de empalme de genes de un organismo anfitrión) . Se aprecia que, en muchos casos, la introducción de estos nucleóti-dos también puede ser deseable por muchas otras razones en adición al beneficio potencial de crear un punto de demarcación útil. Por consiguiente, de conformidad con otra modalidad, la invención dispone que se puede utilizar un bloque de construcción de ácido nucleico para introducir un intrón. Por lo tanto, la invención dispone que se pueden introducir intrones funcionales en un gen hecho por el hombre de la invención. La invención también dispone que se pueden introducir intrones funcionales en una senda genética hecha por el hombre de la invención. De conformidad con lo anterior, la invención proporciona la generación de un polinucleótido quimérico que es un gen hecho por el hombre que contiene uno (o más) intron(es) artificialmente introducido (s) . De acuerdo con lo anterior, la invención proporciona la generación de un polinucleótido quimérico que es una senda genética hecha por el hombre que contiene uno (o más) intron(es) artificialmente introducido ( s ) . De preferencia, los intrones artificialmente introducidos son funcionales en una o más células hospederas para el empalme de genes, de una manera muy parecida a aquélla en que los intrones que se presentan naturalmente sirven funcionalmente en el empalme de genes. La invención proporciona un proceso para producir polinucleótidos que contienen introñes hechos por el hombre, para introducirse en organismos anfitriones para recombinación y/o empalme. Un gen hecho por el hombre producido utilizando la invención también puede servir como un sustrato para recombinarse con otro ácido nucleico. De la misma manera, una senda de genética hecha por el hombre producida utilizando la invención, también puede servir como un sustrato para recombinarse con otro ácido nucleico. En un caso preferido, la recombinación es facilitada por, u ocurre en, las áreas de homología entre el gen que contiene al intrón hecho por el hombre, y un ácido nucleico, el cual sirve como un socio de recombinación. En un caso particularmente preferido, el socio de recombinación también puede ser un ácido nucleico generado por la invención, incluyendo un gen hecho por el hombre o una senda genética hecha por el hombre. La recombinación puede ser facilitada por, o puede ocurrir en, las áreas de homología que existan en uno (o más) intron(es) artificialmente introducido (s) en el gen hecho por el hombre . El método de reensamble genético sintético de la invención utiliza una pluralidad de bloques de construcción de ácidos nucleicos, cada uno de los cuales de preferencia tiene dos extremos ligables. Los dos extremos ligables de cada bloque de construcción de ácido nucleico pueden ser dos extremos romos (es decir, cada uno teniendo una colgadura de 0 nucleótidos) , o de preferencia un extremo romo y una colgadura, o más preferiblemen- te todavía dos colgaduras . Una colgadura útil para este propósito puede ser una colgadura 3" o una colgadura 5'. Por consiguiente, un bloque de construcción de ácido nucleico puede tener una colgadura 3', o alternativamente una colgadura 5', o alternativamente dos colgaduras 3', o alternativamente dos colgaduras 5T. El orden global en el que se ensamblen los bloques de construcción de ácidos nucleicos para formar una molécula de ácido nucleico quimérica finalizada, es determinado por el diseño experimental a propósito, y no es aleatorio. De conformidad con una modalidad preferida, se genera un bloque de construcción de ácido nucleico mediante síntesis química de dos ácidos nucleicos de una sola cadena (también referidos como oligonucleótidos de una sola cadena) , y poniéndolos en contacto para permitir que se templen con el fin de formar un bloque de construcción de ácido nucleico de doble cadena. Un bloque de construcción de ácido nucleico de doble cadena puede ser de un tamaño variable. Los tamaños de estos bloques de construcción pueden ser pequeños o grandes. Los tamaños preferidos para los bloques de construcción son desde 1 par de bases (sin incluir colgaduras) hasta 100,000 pares de bases (sin incluir colgaduras) . También se proporcionan otros rangos de tamaños preferidos, que tienen límites inferiores, desde 1 par de bases hasta 10,000 pares de bases (incluyendo todos los valores enteros entre los mismos) , y límites superiores desde 2 pares de bases hasta 100,000 pares de bases (incluyendo todos los valores enteros entre los mismos) . Existen muchos métodos mediante los cuales se puede generar un bloque de construcción de ácido nucleico de doble cadena que sea útil para la invención; y éstos son conocidos en la técnica, y pueden ser llevados a cabo fácilmente por el técnico . De conformidad con una modalidad, un bloque de construcción de ácido nucleico de doble cadena se genera generando primero dos ácidos nucleicos de una sola cadena, y permitiendo que se templen para formar un bloque de construcción de ácido nucleico de doble cadena. Las dos cadenas de un bloque de construcción de ácido nucleico de doble cadena pueden ser complementarias en cada nucleótido aparte de cualquiera que forme una colgadura; por lo tanto, no contienen malos emparejamientos, aparte de cualesquiera colgaduras. De conformidad con otra modalidad, las dos cadenas de un bloque de construcción de ácido nucleico de doble cadena son complementarias en menos que cada nucleótido aparte de cualquiera que forme una colgadura. Por consiguiente, de acuerdo con esta modalidad, se puede utilizar un bloque de construcción de ácido nucleico de doble cadena para introducir la degeneración del codón. De preferencia, la degeneración del codón se introduce utilizando mutagénesis de saturación del sitio descrita en la presente, utilizando uno o más casetes de N,N, G/T, o utilizando de manera alternativa uno o más casetes de ?,?,?. El método de recombinación in vivo de la invención se puede llevar a cabo ciegamente sobre un grupo de híbridos desconocidos o alelos de un polinucleótido o secuencia específica. Sin embargo, no es necesario conocer la secuencia de ADN de ARN real del polinucleótido específico. El planteamiento de utilizar recombinación dentro de una población mixta de genes puede ser útil para la generación de cualesquiera proteínas útiles, por ejemplo, interleucina I, anticuerpos, tPA, y hormona de crecimiento. Este planteamiento se puede utilizar para generar proteínas que tengan una especificidad o actividad alteradas. El planteamiento también puede ser útil para la generación de secuencias de ácidos nucleicos híbridas, por ejemplo regiones promotoras, intrones, exones, secuencias potenciadoras, regiones no traducidas 3' o regiones no traducidas 5' de genes. Por consiguiente, este planteamiento se puede utilizar para generar genes que tengan mayores índices de expresión. Este planteamiento también puede ser útil en el estudio de secuencias de ADN repetitivas. Finalmente, este planteamiento puede ser útil para mutar ribosimas o aptámeros. En un aspecto, la invención descrita en la presente se refiere al uso de ciclos repetidos de reclasificación reductiva, recombinación y selección que permitan la evolución molecular dirigida de secuencias lineales altamente complejas, tales como ADN, ARN, o proteínas, a través de la recombinación.
La mezcla in vivo de moléculas es útil para proporcionar variantes, y se puede realizar utilizando la propiedad natural de las células para recombinar multimeros . Aunque la recombinación in vivo ha proporcionado la principal ruta natural hacia la diversidad molecular, la recombinación genética sigue siendo un proceso relativamente complejo que involucra dos puntos 1) el reconocimiento de homologías; 2) disociación de cadena, invasión de cadena, y pasos metabólicos que conducen a la producción de quiasma recombinante; y finalmente 3) la resolución de quiasma en moléculas recombinadas separadas. La formación del quiasma requiere del conocimiento de secuencias homologas. En otra modalidad, la invención incluye un método para producir un polinucleótido híbrido a partir de cuando menos un primer polinucleótido y un segundo polinucleótido. La invención se puede utilizar para producir un polinucleótido híbrido mediante la introducción de cuando menos un primer polinucleótido y un segundo polinucleótido que compartan cuando menos una región de homología parcial de secuencias (por ejemplo, 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45, 47, y combinaciones de las mismas) en una célula hospedera adecuada. Las regiones de homología parcial de secuencias promueven procesos que dan como resultado la reorganización de la secuencia, produciendo un polinucleótido híbrido. El término "polinucleótido híbrido", como se utiliza en la presente, es cualquier secuencia de nucleótidos que resulte del método de la presente invención, y contiene la secuencia a partir de cuando menos dos secuencias de polinucleótidos originales. Estos polinucleótidos híbridos pueden resultar de los eventos de recombinación intermolecular que promueven la integración de las secuencias entre las moléculas de ADN. En adición, estos polinucleótidos híbridos pueden resultar de los procesos de reclasificación reductiva intramolecular que utilizan secuencias repetidas para alterar una secuencia de nucleótidos dentro de una molécula de ADN. La invención proporciona un medio para generar polinucleótidos híbridos que pueden codificar polipéptidos híbridos biológicamente activos (por ejemplo, deshalogenasa de haloalcano híbrida) . En un aspecto, los polinucleótidos originales codifican polipéptidos biológicamente activos. El método de la invención produce nuevos polipéptidos híbridos mediante la utilización de procesos celulares que integran la secuencia de los polinucleótidos originales, de tal manera que el polinucleó-tido híbrido resultante codifica un polipéptido que demuestra actividades derivadas a partir de los polipéptidos biológicamente activos originales. Por ejemplo, los polinucleótidos originales pueden codificar una enzima particular a partir de diferentes microorganismos. Una enzima codificada por un primer polinucleó-tido a partir de un organismo o variante, por ejemplo, puede funcionar efectivamente bajo una condición ambiental particular, por ejemplo una alta salinidad. Una enzima codificada por un segundo polinucleótido a partir de un organismo o variante diferente, puede funcionar efectivamente bajo una condición ambiental diferente, tal como temperaturas extremadamente altas. Un polinucleótido híbrido que contenga secuencias de los primero y segundo polinucleótidos originales puede codificar una enzima que exhiba características de ambas enzimas codificadas por los polinucleótidos originales. Por consiguiente, la enzima codificada por el polinucleótido híbrido puede funcionar efectivamente bajo condiciones ambientales compartidas por cada una de las enzimas codificadas por los primero y segundo polinucleótidos, por ejemplo, alta salinidad y temperaturas extremas. Las enzimas codificadas por los polinucleótidos de la invención incluyen, pero no se limitan a, hidrolasas, deshaloge-nasas, y deshalogenasas de haloalcano. Un polipéptido híbrido que resulte del método de la invención, puede exhibir una actividad enzimática especializada no exhibida en las enzimas originales. Por ejemplo, en seguida de la recombinación y/o de la reclasificación reductiva de los polinucleótidos que codifiquen actividades de hidrolasa, el polipéptido híbrido resultante codificado por un polinucleótido híbrido puede rastrearse para tener actividades de hidrolasa especializadas obtenidas de cada una de las enzimas originales, es decir, el tipo de enlace sobre el que actúa la hidrolasa, y la temperatura a la que funciona la hidrolasa. Por consiguiente, por ejemplo, la hidrolasa se puede rastrear para aseverar las funcionalidades químicas que distingan a la hidrolasa híbrida de las hidrolasas originales, tales como: (a) amida (enlaces peptídicos) , es decir, proteasas; (b) enlaces de éster, es decir, esterasas y lipasas; (c) acétales, es decir, glicosidasas y, por ejemplo, la temperatura, el pH, o la concentración de sal en los que funciona el polipéptido híbrido. Las fuentes de los polinucleótidos originales se pueden aislar a partir de organismos individuales ("aislados"), colecciones de organismos que se hayan cultivado en un medio definido ("cultivos de enriquecimiento"), u organismos no cultivados ("muestras ambientales") . Es más preferible el uso de un planteamiento independiente del cultivo para derivar los polinucleótidos que codifiquen las bioactividades novedosas a partir de muestras ambientales, debido a que esto permite aceptar recursos de biodiversidad sin limitaciones. Las "bibliotecas ambientales" se generan a partir de muestras ambientales, y representan los genomas colectivos de los organismos que se presentan naturalmente archivados en los vectores de clonación que se pueden propagar en los anfitriones procarióticos adecuados. Debido a que el ADN clonado inicialmente se extrae directamente de las muestras ambientales, las bibliotecas no están limitadas a la pequeña fracción de procariotes que se pueden cultivar en un cultivo puro. Adicionalmente, una normalización del ADN ambiental presente en estas muestras podría permitir tener una representación más igual del ADN de todas las especies presentes en la muestra original. Esto puede incrementar dramáticamente la eficiencia del descubrimiento de genes interesantes a partir de constituyentes menores de la muestra que pueden estar sub-representados por varios órdenes de magnitud, comparándose con las especies dominantes. Por ejemplo, se rastrean las bibliotecas genéticas generadas a partir de uno o más microorganismos no cultivados, para determinar una actividad de interés. Primero se capturan las sendas potenciales que codifiquen las moléculas bioactivas de interés en células procarióticas en la forma de bibliotecas de expresión genética. ? partir de estas bibliotecas, se aislan los polinucleótidos que codifiquen las actividades de interés, y se introducen en una célula hospedera. La célula hospedera se cultiva bajo condiciones que promuevan la recombinación y/o la reclasificación reductiva, creando biomoléculas potencialmente activas con actividades novedosas o mejoras. Los microorganismos a partir de los cuales se puede preparar el polinucleotido incluyen microorganismos procarióti-cos, tales como Eubacteria y Archaebacteria, y microorganismos eucarióticos inferiores, tales como hongos, algunas algas, y protozoarios . Los polinucleótidos se pueden aislar a partir de muestras ambientales, en cuyo caso, el ácido nucleico se puede recuperar sin cultivarse de un organismo, o se puede recuperar de uno o más organismos cultivados. En un aspecto, estos microorganismos pueden ser extremófilos, tales como hipertermófilos, psicrófilos, psicrótrofos, halófilos, barófilos, yacidófilos. Se prefieren en particular los polinucleótidos que codifiquen las enzimas aisladas a partir de microorganismos extremofilicos . Estas enzimas pueden funcionar a temperaturas mayores de 100 °C en las primaveras calientes terrestres y en las ventilas térmicas del mar profundo, a temperaturas menores de 0°C en las aguas árticas, en el medio ambiente de sal saturada del Mar Muerto, en valores de pH alrededor de 0 en depósitos de carbón y en manantiales geotérmicos ricos en azufre, o en valores de pH mayores de 11 en el fango del alcantarillado. Por ejemplo, varias esterasas y lipasas clonadas y expresadas a partir de organismos extremofilicos, muestran una alta actividad a través de todo un amplio rango de temperaturas y pHs . Los polinucleótidos seleccionados y aislados como se describe anteriormente en la presente, se introducen en una célula hospedera adecuada. Una célula hospedera adecuada es cualquier célula que sea capaz de promover la recombinación y/o la reclasificación reductiva. Los polinucleótidos seleccionados de preferencia ya están en un vector que incluya secuencias de control apropiadas. La célula hospedera puede ser una célula eucariótica superior, tal como una célula de mamífero, o una célula eucariótica inferior, tal como una célula de levadura, o de preferencia, la célula hospedera puede ser una célula procariótica, tal como una célula bacteriana. La introducción de la construcción en la célula hospedera se puede efectuar mediante transfección con fosfato de calcio, transfección mediada por DEi¾E-dextrano, o electroporación (Davis y colaboradores, 1986) . Los ejemplos representativos de los anfitriones apropiados, se pueden mencionar: células bacterianas, tales como E. coli, Streptomyces, Salmonella typhimuriu ; células fúngicas, tales como levadura; células de insectos, tales como Drosophila S2 y Spodoptera Sf9; células animales, tales como CHO, COS, o melanoma de Bowes; adenovirus; y células de plantas. La selección de un anfitrión apropiado se considera dentro del alcance de la experiencia en la materia, a partir de las enseñanzas de la presente . Con referencia particular a diferentes sistemas de cultivo celular de mamífero que se pueden emplear para expresar la proteína recombinante, los ejemplos de los sistemas de expresión de mamífero incluyen las líneas COS-7 de fibroblastos de riñon de mono, descritas en "SV40-transformed simian cells support the application of early SV40 mutants" (Gluzman, 1981) , otras líneas celulares capaces de expresar un vector compatible, por ejemplo, las líneas celulares C127, 3T3, CHO, HeLa, y BHK. Los vectores de expresión de mamífero comprenderán un origen de réplica, un promotor adecuado y un potenciador, y también cualesquiera sitios de enlace de ribosoma necesarios, sitio de poliadenilación, sitios de donador y aceptor de empalme, secuencias de terminación de transcripción, y secuencias no transcritas de flanqueo 5'. Se pueden utilizar secuencias de ADN derivadas a partir del empalme SV40, y los sitios de poliadenila- ción, para proporcionar los elementos genéticos no transcritos requeridos . Las células hospederas que contengan a los polinucleó-tidos de interés se pueden cultivar en un medio nutriente convencional modificado como sea apropiado para activar promotores, seleccionar transformantes, o amplificar genes. Las condiciones de cultivo, tales como la temperatura, el pH, y similares, son las previamente utilizadas con la célula hospedera seleccionada para la expresión, y serán aparentes para el técnico en la materia. Los clones que se identifican por tener la actividad enzimática especificada se pueden secuenciar entonces para identificar la secuencia de polinucleótidos que codifique una enzima que tenga la actividad mejorada. En otro aspecto, se prevé que el método de la presente invención se puede utilizar para generar polinucleótidos novedosos que codifiquen sendas bioquímicas a partir de uno o más operones o racimos genéticos o porciones de los mismos. Por ejemplo, las bacterias y muchos eucariotes tienen un mecanismo coordinado para regular genes cuyos productos están involucrados en los procesos relacionados. Los genes se arraciman, en estructuras referidas como "racimos de genes", sobre un solo cromosoma, y se transcriben juntos bajo el control de una sola secuencia reguladora, incluyendo un solo promotor, el cual inicia la transcripción de todo el racimo. Por consiguiente, un racimo de genes es un grupo de genes adyacentes que son idénticos o están relacionados, usualmente con respecto a su función. Un ejemplo de una senda bioquímica codificada por racimos de genes son los policétidos. Los policétidos son moléculas que son una fuente extremadamente rica de bioactividades, incluyendo antibióticos (tales como tetraciclinas y eritromicina) , agentes contra el cáncer (daunomicina) , inmunosupresores (FK506 y rapamicina) , y productos veterinarios (monensina) . Muchos policétidos (producidos por las sintasas de policétido) son valiosos como agentes terapéuticos. Las sintasas de policétido son enzimas multifuncionales que catalizan la biosíntesis de una enorme variedad de cadenas de carbono de diferente longitud y patrones de funcionalidad y ciclación. Los genes de sintasa de policétido caen en los racimos de genes, y cuando menos un tipo (designado como tipo I) de sintasas de policétido tienen genes y enzimas de gran tamaño, complicando la manipulación genética y los estudios in vitro de estos genes/proteínas. El ADN del racimo de genes se puede aislar a partir de diferentes organismos, y se puede ligar en vectores, en particular vectores que contengan secuencias reguladoras de expresión que puedan controlar y regular la producción de una proteína detectable o de una actividad de arreglo relacionado con proteína a partir de los racimos de genes ligados. Es particularmente apropiado el uso de vectores que tengan una capacidad excepcio-nalmente grande para la introducción de ADN exógeno, para utilizarse con estos racimos de genes, y se describen a manera de ejemplo en la presente para incluir el factor-f (o factor de fertilidad) de E. coli. Este factor-f de E. coli es un plásmido que afecta la transferencia de alta frecuencia de si mismo durante la conjugación, y es ideal para lograr y propagar establemente fragmentos de ADN grandes, tales como racimos de genes, a partir de muestras microbianas mixtas. Una modalidad particularmente preferida es utilizar vectores de clonación, referidos como "fósmidos" o vectores de cromosomas artificiales bacterianos (BAC) . Éstos se derivan a partir de factor-f de E. coli, que es capaz de integrar establemente segmentos grandes de ADN genómico. Cuando se integran con el ADN a partir de una muestra ambiental no cultivada mixta, esto hace posible lograr grandes fragmentos genómicos en la forma de una "biblioteca de ADN ambiental" estable. Otro tipo de vector para utilizarse en la presente invención es un vector de cósmido. Los vectores de cósmido fueron diseñados originalmente para clonar y propagar segmentos grandes de ADN genómico. La clonación en los vectores de cósmido se describe con detalle en Sambrook y colaboradores, Molecular Clonincr: A Laboratory Manual, Segunda Edición, Cold Spring Harbor Laboratory Press (1989) . Una vez ligados en un vector apropiado, se pueden introducir dos o más vectores que contengan diferentes racimos de genes de sintasa de policétido en una célula hospedera adecuada. Las regiones de homología parcial de secuencias compartidas por los racimos de genes, promoverán procesos que darán como resultado la reorganización de la secuencia, dando como resultado un racimo de genes híbrido. El racimo de genes híbrido novedoso se puede rastrear entonces para tener actividades mejoradas no encontradas en los racimos de genes originales. Por consiguiente, en una modalidad, la invención se refiere a un método para producir un polipéptido híbrido biológicamente activo, y para rastrear este polipéptido para tener una actividad mejorada, mediante: 1) introducir cuando menos un primer polinucleótido en enlace operativo, y un segundo polinucleótido en enlace operativo, compartiendo los cuando menos primer polinucleótido y segundo polinucleótido al menos una región de homología parcial de secuencias, en una célula hospedera adecuada; 2) cultivar la célula hospedera bajo condiciones que promuevan la reorganización de la secuencia, dando como resultado un polinucleótido híbrido en enlace operativo; 3) expresar un polipéptido híbrido codificado por el polinucleótido híbrido; 4) rastrear el polipéptido híbrido bajo condiciones que promuevan la identificación de la actividad biológica mejorada; y 5) aislar el polinucleótido que codifique al polipéptido híbrido. Los métodos para rastrear diferentes actividades enzimáticas son conocidos por los técnicos en la materia, y se discuten a través de toda la presente memoria descriptiva. Estos métodos se pueden emplear cuando se aislen los polipéptidos y polinucleótidos de la invención. Como ejemplos representativos de los vectores de expresión que se pueden utilizar, se pueden mencionar partículas virales, baculovirus, fagos, plásmidos, fagémidos, cósmidos, fósmidos, cromosomas artificiales bacterianos, ADN viral (por ejemplo, vacuna, adenovirus, virus de viruela de aves, seudo-rabia, y derivados de SV40) , cromosomas artificiales basados en Pl, plásmidos de levadura, cromosomas artificiales de levadura, y cualesquiera otros vectores específicos para anfitriones específicos de interés (tales como bacillusr aspergillus, y levadura) . Por consiguiente, por ejemplo, el ADN se puede incluir en cualquiera de una variedad de vectores de expresión para expresar un polipéptido. Estos vectores incluyen secuencias de ADN cromosómicas, no cromosómicas, y sintéticas. Los técnicos en la materia conocen grandes números de vectores adecuados, y están comercialmente disponibles. Los siguientes vectores se proporcionan a manera de ejemplo: Bacterianos: vectores pQE (Qiagen) , plásmidos pBluescript, vectores pNH, (vectores lambda-ZAP (Stratagene) ptcr99a, pKK223-3, pDR540, pRIT2T (Pharmacia) / Eukariotic: pXTl, pSG5 (Stratagene), pSVK3, pBPV, pMSG, pSVLSV40 (Pharmacia) . Sin embargo, se puede utilizar cualquier otro plásmido u otro vector, siempre que sean replicables y viables en el anfitrión. Se pueden emplear vectores de bajo número de copias o de alto número de copias con la presente invención. La secuencia de ADN en el vector de expresión se enlaza operativamente con una secuencia de control de expresión apropiada (promotora) , para dirigir la síntesis del ARN. Los promotores bacterianos particularmente mencionados incluyen lacl, lacZ, T3, T7, gptr lambda PRr PLr y trp. Los promotores eucarióti-cos incluyen CMV temprano inmediato, cinasa de timidina de HSV, SV40 temprano y tardío, LTRs de retrovirus, y metalotioneína-I de ratón. La selección del vector y promotor apropiados está bien dentro del nivel de la experiencia ordinaria en este campo. El vector de expresión también contiene un sitio de enlace de ribosoma para el inicio de la traducción, y un terminador de transcripción. El vector también puede incluir secuencias apropiadas para amplificar la expresión. Se pueden seleccionar regiones promotoras a partir de cualquier gen deseado utilizando vectores de transferasa de cloranfenicol (CAT) , u otros vectores con marcadores seleccionables . En adición, los vectores de expresión de preferencia contienen uno o más genes marcadores seleccionables para proporcionar un rasgo fenotípico para la selección de las células hospederas transformadas, tales como reductasa de dihidrofolato o resistencia a la neomicina para un cultivo celular eucariótico, o tales como resistencia a la tetraciclina o a la ampicilina en E. coli. La reclasificación in vivo se enfoca en los procesos "intermoleculares" colectivamente referidos como "recombinación" que, en las bacterias, se ve generalmente como un fenómeno "dependiente de RecA". La invención puede apoyarse en los procesos de recombinación de una célula hospedera para recombinar y reclasificar secuencias, o en la capacidad de las células para mediar los procesos reductivos con el fin de reducir la complejidad de las secuencias casi repetidas en la célula mediante supresión. Este proceso de "reclasificación reductiva" ocurre mediante un proceso "intramolecular" independiente de RecA. Por consiguiente, en otro aspecto de la invención, se pueden generar polinucleótidos novedosos mediante el proceso de reclasificación reductiva. El método involucra la generación de construcciones que contengan secuencias consecutivas (secuencias de codificación originales) , su inserción en un vector apropiado, y su introducción subsecuente en una célula hospedera apropiada. La reclasificación de las identidades moleculares individuales ocurre mediante procesos de combinación entre las secuencias consecutivas en la construcción que posea regiones de homología, o entre las unidades casi repetidas. El proceso de reclasificación recombina y/o reduce la complejidad y la extensión de las secuencias repetidas, y da como resultado la producción de especies moleculares novedosas. Se pueden aplicar diferentes tratamientos para mejorar el índice de reclasificación. Éstos podrían incluir el tratamiento con luz ultravioleta, o productos químicos que dañen el ADN, y/o el uso de líneas celulares hospederas que exhiban niveles mejorados de "inestabilidad genética" . Por consiguiente, el proceso de reclasificación puede involucrar recombinación homologa o la propiedad natural de las secuencias casi repetidas para dirigir su propia evolución. Las secuencias repetidas o "casi repetidas" juegan un papel en la inestabilidad genética. En la presente invención, las "casi repeticiones" son repeticiones que no están restringidas a su estructura unitaria original. Las unidades casi repetidas pueden presentarse como un arreglo de secuencias en una construcción; o unidades consecutivas de secuencias similares. Una vez ligadas, las uniones entre las secuencias consecutivas llegan a ser esencialmente invisibles, y la naturaleza casi repetitiva de la construcción resultante es ahora continua al nivel molecular. El proceso de supresión que realiza la célula para reducir la complejidad de la construcción resultante opera entre las secuencias casi repetidas. Las unidades casi repetidas proporcionan un repertorio prácticamente ilimitado de plantillas sobre el cual pueden presentarse eventos de deslizamiento. Las construcciones que contienen las casi repeticiones, por lo tanto, proporcionan efectivamente suficiente elasticidad molecular para que se puedan presentar eventos de supresión (y potencialmente de inserción) virtualmente en cualquier parte dentro de las unidades casi repetitivas. Cuando se ligan todas las secuencias casi repetidas en la misma orientación, por ejemplo cabeza con cola o viceversa, la célula no puede distinguir las unidades individuales. En consecuencia, el proceso reductivo puede ocurrir a través de todas las secuencias. En contraste, cuando, por ejemplo, las unidades se presentan cabeza con cabeza, en lugar de cabeza con cola, la inversión delinea los puntos de extremo de la unidad adyacente, de tal manera que la formación de la supresión favorecerá la pérdida de las unidades separadas. Por consiguiente, con el presente método, es preferible que las secuencias estén en la misma orientación. La orientación aleatoria de las secuencias casi repetidas dará como resultado la pérdida de la eficiencia de la reclasificación, mientras que una orientación consistente de las secuencias ofrecerá la más alta eficiencia. Sin embargo, mientras el tener menos de las secuencias contiguas en la misma orientación reduce la eficiencia, todavía puede proporcionar suficiente elasticidad para la recuperación efectiva de las moléculas novedosas. Se pueden hacer construcciones con las secuencias casi repetidas en la misma orientación para permitir una eficiencia más alta. Las secuencias se pueden ensamblar en una orientación de cabeza con cola utilizando cualquiera de una variedad de métodos, incluyendo los siguientes: a) Se pueden utilizar cebadores que incluyan una cabeza poli-A y una cola poli-T que, cuando se conviertan en una sola cadena, proporcionen orientación. Esto se realiza haciendo las primeras pocas bases de los cebadores a partir de ARN, y por consiguiente se remueve fácilmente la ARNsaH. b) Se pueden utilizar cebadores que incluyan sitios de disociación de restricción únicos. Se requerirían múltiples sitios, una batería de secuencias únicas, y pasos repetidos de síntesis y ligamiento. c) Las pocas bases internas del cebador se podrían tiolar, y se podría utilizar una exonucleasa para producir moléculas con cola apropiada. La recuperación de las secuencias reclasificadas se apoya en la identificación de vectores de clonación con un índice repetitivo (RI) reducido. Luego se pueden recuperar las secuencias que codifiquen la reclasificación, mediante amplificación. Los productos se vuelven a clonar y se expresan. La recuperación de los vectores de clonación con un índice repetitivo reducido puede ser afectada por: 1) El uso de vectores sólo mantenidos establemente cuando se reduce la complejidad de la construcción. 2) La recuperación física de vectores recortados mediante procedimientos físicos. En este caso, el vector de clonación se recuperaría utilizando procedimientos de aislamiento de plásmidos convencionales, y fraccionando el tamaño ya sea sobre un gel de agarosa, o en columna con un corte de peso molecular bajo, utilizando procedimientos convencionales. 3) La recuperación de vectores que contengan genes interrumpidos que se puedan seleccionar cuando se reduzca el tamaño del inserto. 4) El uso de técnicas de selección directa con un vector de expresión y la selección apropiada. Las secuencias de codificación (por ejemplo, genes) de organismos relacionados pueden demostrar un alto grado de homología y codificar productos _de proteína muy diversos. Estos tipos de secuencias son particularmente útiles en la presente invención como casi repeticiones. Sin embargo, aunque los ejemplos ilustrados más adelante demuestran la reclasificación de secuencias de codificación originales casi idénticas (casi repeticiones) , este proceso no está limitado a estas repeticiones casi idénticas. El siguiente ejemplo demuestra un método de la invención. Se describe la codificación de secuencias de ácidos nucleicos (casi repeticiones) derivadas a partir.de tres (3) especies únicas. Cada secuencia codifica una proteína con un conjunto distinto de propiedades. Cada una de las secuencias difiere por un solo o por unos cuantos pares de bases en una posición única en la secuencia. Las secuencias casi repetidas se amplifican por separado o colectivamente, y se ligan en ensambles aleatorios, de tal manera que estén disponibles todas las posibles permutaciones y combinaciones en la población de moléculas ligadas. El número de unidades casi repetidas se puede controlar mediante las condiciones de ensamble. El número promedio de unidades casi repetidas en una construcción se define como el índice repetitivo (RI) . Una vez formadas, a las construcciones se les puede o no fraccionar el tamaño sobre un gel de agarosa de acuerdo con los métodos publicados, se insertan en un vector de clonación, y se transfectan en una célula hospedera apropiada. Luego las células se propagan y se efectúa la "reclasificación reductiva" . El índice del proceso de reclasificación reductiva se puede estimular mediante la introducción de daño del ADN si se desea. Es insustancial si la reducción en el índice repetitivo es mediada por formación de supresión entre secuencias repetidas mediante un mecanismo "intramolecular", o si es mediada por eventos de tipo recombinación a través de mecanismos "intermoleculares". El resultado final es una reclasificación de las moléculas en todas las combinaciones posibles. Opcionalmente, el método comprende el paso adicional de rastrear los miembros de la biblioteca del grupo mezclado para identificar los miembros de biblioteca mezclados individuales que tengan la capacidad para enlazarse con, o interactuar de otra manera con, o catalizar, una reacción particular (por ejemplo, tal como el dominio catalítico de una enzima) con una macromolé-cula previamente determinada, tal como, por ejemplo, un receptor proteináceo, un oligosacárido, virión, u otro compuesto o estructura previamente determinada. Los polipéptidos que se identifican a partir de estas bibliotecas se pueden utilizar para propósitos terapéuticos, de diagnóstico, de investigación, y relacionados (por ejemplo, catalizadores, solutos para incrementar la osmolaridad de una solución acuosa, y similares) , y/o se pueden someter a uno o más ciclos adicionales de mezcla y/o selección. En otro aspecto, se prevé que antes de, o durante, la recombinación o reclasificación, los polinucleótidos generados mediante el método de la invención se pueden someter a agentes o procesos que promuevan la introducción de mutaciones en los polinucleótidos originales. La introducción de estas mutaciones incrementaría la diversidad de los polinucleótidos híbridos resultantes y polipéptidos codificados a partir de los mismos. Los agentes o procesos que promueven la mutagénesis pueden incluir, pero no se limitan a: (+ )-CC-1065, o un análogo sintético, tal como (+) -CC-1065- (N3-adenina) (Ver Sun y Hurley, (1992)); un aducto de 4 ' -fluoro-4-aminobifenilo N-acetilado o desacetilado capaz de inhibir la síntesis del ADN (ver, por ejemplo, van de Poli y colaboradores, (1992) ) ; o un aducto de 4-aminobifenilo N-acetilado o desacetilado capaz de inhibir la síntesis de ADN (ver también, van de Poli y colaboradores, (1992), páginas 751-758); cromo trivalente, una sal de cromo trivalente, un aducto de ADN de hidrocarburo aromático policícli-co (PAH) capaz de inhibir la réplica del ADN, tal como 7-bromometil-benz [a] antraceno ("???"), tris (2, 3-dibromopro-pil) fosfato ("Tris-BP"), 1 , 2-dibromo-3-cloropropano ("DBCP"), 2-bromoacroleína (2BA) , benzo [a]pireno-7, 8-dihidrodiol-9-10-epóxido ("BPDE"), una sal de halógeno de platino (II), N-hidroxi-2-amino-3-metilimidazo [4, 5-f] -quinolina ( "N-hidroxi-IQ" ) , y N-hidroxi-2- amino-l-metil-6-fenilimidazo [4, 5-f]piridina ( "N-hidroxi-PhIP" ) . Los medios especialmente preferidos para hacer más lenta o detener la amplificación con reacción en cadena de la polimerasa, consisten en luz ultravioleta (+)-CC-1065 y (+) -CC-1065- (N3-adenina) . Los medios particularmente abarcados son los aductos de ADN o polinucleótidos que comprendan los aductos de ADN a partir de los polinucleótidos o grupo de polinucleótidos, que se puedan liberar o remover mediante un proceso que incluya calentamiento de la solución que comprenda a los polinucleótidos, antes de su procesamiento adicional. En otro aspecto, la invención se refiere a un método para producir proteínas recombinantes que tienen actividad biológica, mediante el tratamiento de una muestra que comprenda polinucleótidos de plantilla de doble cadena que codifiquen una proteína de tipo silvestre bajo condiciones de acuerdo con la invención, que proporcionen la producción de los polinucleótidos híbridos o reclasificados . La invención también proporciona el uso de cebadores de codones patentados (que contienen una secuencia ?,?,? degenerada) para introducir mutaciones puntuales en un polinucleótido, con el fin de generar un conjunto de polipéptidos de progenie donde esté representado un rango completo de sustituciones de aminoácidos individuales en cada posición de aminoácido (mutagénesis saturada del sitio del gen (GSSM) ) . Los oligonucleótidos utilizados están comprendidos contiguamente a una primera secuencia homologa, una secuencia ?,?,? degenerada, y de preferencia, pero no necesariamente, una segunda secuencia homologa. Los productos de traducción de la progenie corriente abajo a partir del uso de estos oligonucleótidos incluyen todos los cambios de aminoácidos posibles en cada sitio de aminoácido a lo largo del polipéptido, debido a que la degeneración de la secuencia ?,?,? incluye codones para todos los 20 aminoácidos. En un aspecto, se utiliza un oligonucleótido degenerado (comprendido de un cásete ?,?,? degenerado) para someter a cada codón original de una plantilla de polinucleótido progenitora, a un rango completo de sustituciones de codones. En otro aspecto, se utilizan cuando menos dos casetes ?,?,? degenerados - ya sea en el mismo oligonucleótido o no - para someter a cuando menos dos codones originales de una plantilla de polinucleótido progenitora, a un rango completo de sustituciones de codones. Por consiguiente, puede haber más de una secuencia ?,?,? contenida en un oligonucleótido para introducir mutaciones de aminoácidos en más de un sitio. Esta pluralidad de secuencias ?,?,? pueden estar directamente contiguas, o pueden estar separadas por una o más secuencias de nucleótidos adicionales. En otro aspecto, se pueden utilizar oligonucleótidos útiles para introducir adiciones y supresiones, ya sea solos o bien en combinación con los codones que contengan una secuencia ?,?,?, para introducir cualquier combinación o permutación de adiciones, supresiones, y/o sustituciones de aminoácidos.
En una e emplificación particular, es posible mutar simultáneamente dos o más posiciones de aminoácidos contiguas utilizando un oligonucleótido que contenga tripletes ?,?,? contiguos, es decir, una secuencia degenerada (N,N,N)n. En otro aspecto, la presente invención proporciona el uso de casetes degenerados que tienen menos degeneración que la secuencia ?,?,?. Por ejemplo, en algunos casos puede ser deseable utilizar (por ejemplo, en un oligonucleótido) una secuencia triplete degenerada comprendida solamente de un N, donde este N puede estar en la primera, segunda, o tercera posición del triplete. Se pueden utilizar cualesquiera otras bases, incluyendo cualesquiera combinaciones y permutaciones de las mismas, en las dos posiciones restantes del triplete. De una manera alternativa, en algunos casos puede ser deseable utilizar (por ejemplo, en un oligonucleótido) una secuencia triplete ?,?,? degenerada, N,N,G/T, o una secuencia triplete N,N,G/C. Sin embargo, se aprecia que el uso de un triplete degenerado (tal como una secuencia triplete N, , G/T o N,N, G/C) como se da a conocer en la presente invención, es conveniente por varias razones. En un aspecto, esta invención proporciona un medio para generar de una manera sistemática y muy fácil la sustitución del rango completo de posibles aminoácidos (para un total de 20 aminoácidos) en cada posición de aminoácido en un polipéptido. Por consiguiente, para un polipéptido de 100 aminoácidos, la invención proporciona una manera de generar de una manera sistemática y muy fácil 2,000 especies distintas (es decir, 20 posibles aminoácidos por posición por 100 posiciones de aminoácidos) . Se aprecia que se proporcionan, a través del uso de un oligonucleótido que contiene una secuencia triplete degenerada N,N, G/T o N,N,G/C, 32 secuencias individuales que codifican para 20 posibles aminoácidos. Por consiguiente, en un recipiente de reacción donde la secuencia de polinucleótido progenitora se someta a mutagénesis de saturación utilizando uno de estos oligonucleótidos, se generan 32 polinucleótidos de progenie distintos que codifican 20 polipéptidos distintos. En contraste, el uso de un oligonucleótido no degenerado en la mutagénesis dirigida al sitio, conduce solamente a un producto de polipéptido de progenie por recipiente de reacción. Esta invención también proporciona el uso de oligonucleótidos no degenerados, los cuales se pueden utilizar opcional-mente en combinación con los cebadores degenerados dados a conocer. Se aprecia que, en algunas situaciones, es conveniente utilizar oligonucleótidos no degenerados para generar mutaciones puntuales especificas en un polinucleótido de trabajo. Esto proporciona un medio para generar mutaciones puntuales silenciosas especificas, mutaciones puntuales que conduzcan a cambios de aminoácidos correspondientes, y mutaciones puntuales que ocasionen la generación de codones de paro y la expresión correspondiente de fragmentos de polipéptidos. Por consiguiente, en una modalidad preferida de esta invención, cada recipiente de reacción de mutagénesis de saturación contiene polinucleótidos que codifican cuando menos 20 moléculas de polipéptidos de progenie, de tal manera que todos los 20 aminoácidos están representados en una posición de aminoácido especifica correspondiente a la posición del codón mutada en el polinucleótido progenitor. Los polipéptidos de progenie degenerados 32 veces, generados a partir de cada recipiente de reacción de mutagénesis de saturación, se pueden someter a amplificación clonal (por ejemplo, se pueden clonar en un anfitrión de E. coli adecuado, utilizando un vector de expresión) , y se pueden someter a rastreo de expresión. Cuando se identifica un polipéptido de progenie individual mediante rastreo para exhibir un cambio favorable en las propiedades (comparándose con el polipéptido progenitor) , se puede secuenciar para identificar la sustitución de aminoácido correspondientemente favorable contenida en el mismo. Se aprecia que después de mutar cada posición de aminoácido en un polipéptido progenitor utilizando mutagénesis de saturación como se da a conocer en la presente, se pueden identificar cambios de aminoácidos favorables en más de una posición de aminoácido. Se pueden generar una o más moléculas de progenie nuevas que contengan una combinación de todas o parte de estas sustituciones de aminoácidos favorables. Por ejemplo, si se identifican dos cambios de aminoácidos favorables específicos en cada una de tres posiciones de aminoácidos en un polipéptido, las permutaciones incluyen tres posibilidades en cada posición (no hay cambio desde el aminoácido original, y cada uno de dos cambios favorables), y tres posiciones. Por consiguiente, hay 3 x 3 x 3, o 27 posibilidades en total, incluyendo 7 que fueron seis mutaciones puntuales individuales previamente examinadas (es decir, dos en cada una de tres posiciones) y ningún cambio en cualquier posición. En todavía otro aspecto, se puede utilizar mutagénesis de saturación del sitio junto con procesos de mezcla, quimeriza-ción, recombinación, y otros procesos de mutación, junto con el rastreo. Esta invención proporciona el uso de cualesquiera procesos de mutación, incluyendo mutagénesis de saturación, de una manera iterativa. En una ej emplificación, se hace uso iterativo de cualesquiera procesos de mutación en combinación con el rastreo. Por consiguiente, en una ej emplificación no limitante, esta invención proporciona el uso de mutagénesis de saturación en combinación con procesos de mutación adicionales, tales como procesos donde se introducen dos o más polinucleótidos relacionados en una célula hospedera adecuada, tal manera que se genera un polinucleótido híbrido mediante recombinación y reclasificación reductiva . En adición a la realización de mutagénesis a lo largo de toda la secuencia de un gen, la presente invención dispone que se puede utilizar la mutagénesis para reemplazar cada una de cualquier número de bases en una secuencia de polinucleótido, donde el número de bases que se va a mutar de preferencia es cada entero desde 15 hasta 100,000. Por consiguiente, en lugar de mutar cada posición a lo largo de una molécula, se puede someter a cada una o a un número discreto de bases (de preferencia un subconjunto que totalice de 15 a 100,000) a mutagénesis. De preferencia, se utiliza un nucleótido separado para mutar cada posición o grupo de posiciones a lo largo de una secuencia de polinucleótido . Un grupo de tres posiciones a mutar puede ser un codón. Las mutaciones de preferencia se introducen utilizando un cebador mutagénico, que contenga un cásete heterólogo, también referido como un cásete mutagénico. Los casetes preferidos pueden tener de 1 a 500 bases. Cada posición de nucleótido en estos casetes heterólogos puede ser N, A, C, G, T, A/C, A/G, A/T, C/G, C/T, G/T, C/G/T, A/G/T, A/C/T, A/C/G, o E, donde E es cualquier base que no sea A, C, G, o T (E puede ser referido como un oligonucleótido diseñador) . En un sentido general, la mutagénesis de saturación está comprendida de mutar un conjunto completo de casetes mutagénicos (donde cada cásete de preferencia es de aproximadamente 1 a 500 bases de longitud) en la secuencia de polinucleótido definida que se vaya a mutar (donde la secuencia que se va a mutar de preferencia es de aproximadamente 15 a 100,000 bases de longitud) . Por consiguiente, se introduce un grupo de mutaciones (de 1 a 100 mutaciones) en cada cásete que se vaya a mutar. Un grupo de mutaciones que se vaya a introducir en un cásete puede ser diferente o igual al segundo grupo de mutaciones que se vaya a introducir en un segundo cásete durante la aplicación de una ronda de mutagénesis de saturación. Estas agrupaciones son ejemplificadas por supresiones, adiciones, agrupaciones de codones particulares, y agrupaciones de casetes de nucleótidos particulares . Las secuencias definidas que se van a mutar incluyen un gen entero, una senda, ADNc, un marco de lectura abierta entero (ORF) , y promotor entero, potenciador, represor/transactivador, origen de réplica, intrón, operador, o cualquier grupo funcional de polinucleótidos . En general, una "secuencia definida" para este propósito, puede ser cualquier polinucleótido que tenga una secuencia de polinucleótido de 15 bases, y secuencias de polinucleótidos de longitudes entre 15 bases y 15,000 bases (esta invención menciona específicamente cada entero entre las mismas) . Las consideraciones para seleccionar las agrupaciones de codones incluyen los tipos de aminoácidos codificados por un cásete mutagénico degenerado. En una ej emplificación particularmente preferida, se puede introducir una agrupación de mutaciones en un cásete mutagénico, y esta invención dispone específicamente sustituciones de codones degenerados (utilizando oligonucleótidos degenerados) que codifiquen para 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, y 20 aminoácidos en cada posición, y una biblioteca de polipéptidos codificados por los mismos. Un aspecto de la invención es un ácido nucleico aislado que comprende una de las secuencias de las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, las secuencias complementarias para las mismas, o un fragmento que comprenda cuando menos 10, 15, 20, 25, 30, 35, 40, 50, 75, 100, 150, 200, 300, 400 o 500 bases consecutivas de una de las secuencias de una secuencia de ácido nucleico del Grupo A (o las secuencias complementarias para la misma) . Los ácidos nucleicos aislados pueden comprender ADN, incluyendo ADNc, ADN genómico, y ADN sintético. El ADN puede ser de doble cadena o de una sola cadena, y si es de una sola cadena, puede ser la cadena codificante o no codificante (anti-sentido) . De una manera alternativa, los ácidos nucleicos aislados pueden comprender ARN. Como se discute con mayor detalle más adelante, los ácidos nucleicos aislados de una de las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, se pueden utilizar para preparar uno de los polipéptidos de una secuencia de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a la misma, o fragmentos que comprendan cuando menos 5, 10, 15, 20, 25, 30, 35, 40, 50, 75, 100, o 150 aminoácidos consecutivos de uno de los polipéptidos de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas. De conformidad con lo anterior, otro aspecto de la invención es un ácido nucleico aislado que codifica uno de los polipéptidos de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, o fragmentos que comprendan cuando menos 5, 10, 15, 20, 25, 30, 35, 40, 50, 75, 100 o 150 aminoácidos consecutivos de uno de los polipéptidos de las secuencias de aminoácidos del Grupo B. Las secuencias de codificación de estos ácidos nucleicos pueden ser idénticas a una de las secuencias de codificación de uno de los ácidos nucleicos de las secuencias de ácidos nucleicos del Grupo A, o un fragmento de las mismas, o pueden ser secuencias de codificación diferentes que codifiquen uno de los polipéptidos de las secuencias de aminoácidos del Grupo B, secuencias sustancialmente idénticas a las mismas, y fragmentos que tengan cuando menos 5, 10, 15, 20, 25, 30, 35, 40, 50, 75, 100 o 150 aminoácidos consecutivos de uno de los polipéptidos de las secuencias de aminoácidos del Grupo B, como un resultado de la redundancia o degeneración del código genético. El código genético es bien conocido por los técnicos en la materia, y se puede obtener, por ejemplo, de la página 214 de B. Lewin, Genes VI, Oxford University Press, 1997, cuya divulgación se incorpora a la presente como referencia. El ácido nucleico aislado que codifica uno de los polipéptidos de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, puede incluir, pero no se limita a: solamente la secuencia de codificación de una de las secuencias de aminoácidos del Grupo A, y secuencias sustancialmente idénticas a las mismas, y secuencias de codificación adicionales, tales como secuencias líderes o secuencias de proproteína y secuencias no codificantes, tales como intrones o secuencias no codificantes 5' y/o 3' de la secuencia de codificación. Por consiguiente, como se utiliza en la presente, el término "polinucleótido que codifica un polipéptido" abarca un polinucleótido que incluye solamente la secuencia de codificación para el polipéptido, asi como un polinucleótido que incluye una secuencia codificante y/no codificante adicional. De una manera alternativa, las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, se pueden mutar utilizando técnicas convencionales, tales como mutagénesis dirigida al sitio, u otras técnicas familiares para los técnicos en este campo, para introducir cambios silenciosos en los polinucleótidos de las secuencias de ácidos nucleicos del Grupo ?, y secuencias sustancialmente idénticas a las mismas. Como se utiliza en la presente, "cambios silenciosos" incluyen, por ejemplo, cambios que no alteran la secuencia de aminoácidos codificada por el polinucleótido. Estos cambios pueden ser deseables con el objeto de incrementar el nivel del polipéptido producido por las células hospederas que contengan un vector que codifique el polipéptido, mediante la introducción de codones o pares de codones que se presenten con frecuencia en el organismo anfitrión. La invención también se refiere a polinucleótidos que tienen cambios de nucleótidos que dan como resultado sustituciones, adiciones, supresiones, fusiones, y truncamientos de aminoácidos en los polipéptidos de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas. Estos cambios de nucleótidos se pueden introducir utilizando técnicas tales como mutagénesis dirigida al sitio, mutagénesis química aleatoria, supresión de exonucleasa III, y otras técnicas de ADN recombinante . De una manera alternativa, estos cambios de nucleótidos pueden ser variantes alélicas que se presenten naturalmente, las cuales se aislen mediante la identificación de ácidos nucleicos que se hibriden específicamente a sondas que comprendan cuando menos 10, 15, 20, 25, 30, 35, 40, 50, 75, 100, 150, 200, 300, 400, o 500 bases consecutivas de una de las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas (o las secuencias complementarias para las mismas) bajo condiciones de astringencia alta, moderada, o baja, como se dispone en la presente. Los ácidos nucleicos aislados de las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, las secuencias complementarias para las mismas, o un fragmento que comprenda cuando menos 10, 15, 20, 25, 30, 35, 40, 50, 75, 100, 150, 200, 300, 400, o 500 bases consecutivas de una de las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, o las secuencias complementarias para las mismas, también se pueden utilizar como sondas para determinar si una muestra biológica, tal como una muestra de tierra, contiene un organismo que tenga una secuencia de ácido nucleico de la invención, o un organismo a partir del cual se obtuviera el ácido nucleico. En estos procedimientos, se obtiene una muestra biológica que aloje potencialmente al organismo a partir del cual se aisló el ácido nucleico, y se obtienen ácidos nucleicos de la muestra. Los ácidos nucleicos se ponen en contacto con la sonda bajo condiciones que permitan que la sonda se hibride específicamente con cualesquiera secuencias complementarias a partir de las cuales esté presente en las mismas. Cuando sea necesario, se pueden determinar las condiciones que permitan que la sonda se hibride específicamente a las secuencias complementarias, colocando la sonda en contacto con secuencias complementarias de muestras que se sepa que contienen la secuencia complementaria, así como secuencias de control que no contengan la secuencia complementaria. Se pueden variar las condiciones de hibridación, tales como la concentración de sal del regulador de hibridación, la concentración de formamida del regulador de hibridación, o la temperatura de hibridación, para identificar las condiciones que permitan que la sonda se hibride específicamente a los ácidos nucleicos complementarios . Si la muestra contiene al organismo a partir del cual se aisló el ácido nucleico, entonces se detecta la hibridación especifica de la sonda. La hibridación se puede detectar marcando la sonda con un agente detectable, tal como un isótopo radioactivo, un tinte fluorescente, o una enzima capaz de catalizar la formación de un producto detectable. Los técnicos en la materia están familiarizados con muchos métodos para utilizar las sondas marcadas con el fin de detectar la presencia de ácidos nucleicos complementarios en una muestra. Estos incluyen Manchas Southern, Manchas Northern, procedimientos de hibridación de colonias, y manchas de puntos. Los protocolos para cada uno de estos procedimientos se proporcionan en Ausubel y colaboradores, Current Protocols in Molecular Bioloqv, John Wiley & Sons, Inc. (1997), y Sambrook y colaboradores, Molecular Cloning: A Laboratory Manual, Segunda Edición, Cold Spring Harbor Laboratory Press (1989) , cuyas divulgaciones totales se incorporan a la presente como referencia. De una manera alternativa, se puede utilizar más de una sonda (cuando menos una de las cuales sea capaz de hibridarse específicamente a cualesquiera secuencias complementarias que estén presentes en la muestra de ácido nucleico) en una reacción de amplificación, para determinar si la muestra contiene un organismo que contenga una secuencia de ácido nucleico de la invención (por ejemplo, un organismo a partir del cual se aisló el ácido nucleico) . Normalmente, las sondas comprenden oligonu-cleótidos. En una modalidad, la reacción de amplificación puede comprender una reacción en cadena de la polimerasa. Los protoco- los de la reacción en cadena de la polimerasa se describen en Ausubel y Sambrook, supra. De una manera alternativa, la amplificación puede comprender una reacción de cadena de ligasa, 3SR, o reacción de desplazamiento de cadena. (Ver Barany, F., "The Ligase Chain Reaction in a PCR World", PCR Methods and Applications ,1:5-16, 1991; E. Fahy y colaboradores, "Self-sustained Sequence Replication (3SR) : An Isothermal Transcription-based Amplification System Alternative to PCR", PCR Methods and Applications 1: 25-33, 1991; y Walker G. T. y colaboradores, "Strand Displacement Amplification-an Isothermal in vitro DNA Amplification Technique", Nucleic Acid Research 20.: 1691-1696, 1992, cuyas divulgaciones se incorporan a la presente como referencia en su totalidad) . En estos procedimientos, los ácidos nucleicos de la muestra se ponen en contacto con las sondas, se lleva a cabo la reacción de amplificación, y se detecta cualquier producto de amplificación resultante. El producto de la amplificación se puede detectar llevando a cabo electroforesis en gel sobre los productos de reacción, y tiñendo el gel con un intercalador, tal como bromuro de etidio. De una manera alternativa, una o más de las sondas se pueden marcar con un isótopo radioactivo, y se puede detectar la presencia de un producto de amplificación radioactivo mediante autorradiografia después de la electroforesis en gel. Las sondas derivadas a partir de secuencias cercanas a los extremos de las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, también se pueden utilizar en los procedimientos de avance de cromosomas, para identificar los clones que contengan secuencias genómicas localizadas adyacentes a las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas. Estos métodos permiten el aislamiento de genes que codifican proteínas adicionales a partir del organismo anfitrión. Los ácidos nucleicos aislados de las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, las secuencias complementarias para las mismas, o un fragmento que comprenda cuando menos 10, 15, 20, 25, 30, 35, 40, 50, 75, 100, 150, 200, 300, 400, o 500 bases consecutivas de una de las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, o las secuencias complementarias para las mismas, se pueden utilizar como sondas para identificar y aislar ácidos nucleicos relacionados. En algunas modalidades, los ácidos nucleicos relacionados pueden ser ADNcs o ADNs genómicos a partir de organismos diferentes de aquél a partir del cual se aisló el ácido nucleico. Por ejemplo, los otros organismos pueden ser organismos relacionados. En estos procedimientos, una muestra de ácido nucleico se pone en contacto con la sonda bajo condiciones que permitan que la sonda se hibride específicamente con las secuencias relacionadas. La hibridación de la sonda a los ácidos nucleicos del organismo relacionado se detecta entonces utilizan- do cualquiera de los métodos descritos anteriormente. En las reacciones de hibridación de ácidos nucleicos, las condiciones utilizadas para alcanzar un nivel de astringencia particular variarán dependiendo de la naturaleza de los ácidos nucleicos que se estén hibridando. Por ejemplo, se pueden considerar la longitud, el grado de complementariedad, la composición de la secuencia de nucleótidos (por ejemplo, contenido de GC contra ??) , y el tipo de ácido nucleico (por ejemplo, ARN contra ADN) de las regiones de hibridación de los ácidos nucleicos, en la selección de las condiciones de hibridación. Una consideración adicional es si uno de los ácidos nucleicos está inmovilizado, por ejemplo, sobre un filtro. La hibridación se puede llevar a cabo bajo condiciones de astringencia baja, astringencia moderada, o astringencia alta. Como un ejemplo de la hibridación de ácidos nucleicos, primero se prehibrida una membrana de polímero que contenga ácidos nucleicos desnaturalizados inmovilizados durante 30 minutos a 45°C en una solución consistente en NaCl 0.9 M, NaH2P04 50 mM, ph de 7.0, Na2EDTA 5.0 mM, SDS al 0.5 por ciento, solución de Denhardt 10X, y 0.5 miligramos/mililitro de ácido poli-riboadenílico . Luego se agregan aproximadamente 2 x 107 cpm (actividad específica: 4-9 x 108 cpm/microgramo) de sonda de oligonucleótido marcada en el extremo con 32P a la solución. Después de 12 a 16 horas de incubación, la membrana se lava durante 30 minutos a temperatura ambiente en IX SET (NaCl 150 mM, clorhidrato de Tris 20 mM, pH de 7.8, Na2EDTA 1 mM) conteniendo SDS al 0.5 por ciento, seguido por un lavado de 30 minutos en IX SET fresco a una Tm-10°C para la sonda de oligonucleótido . Luego se expone la membrana a una película auto-radiográfica para la detección de las señales de hibridación. Mediante la variación de la astringencia de las condiciones de hibridación utilizadas para identificar ácidos nucleicos, tales como ADNcs o ADNs genómicos, que se hibriden a la sonda detectable, se pueden identificar y aislar los ácidos nucleicos que tengan diferentes niveles de homología con la sonda. La astringencia se puede variar conduciendo la hibridación a diferentes temperaturas debajo de las temperaturas de fusión de las sondas. La temperatura de fusión, Tm, es la temperatura (bajo una concentración iónica y pH definidos) a la cual el 50 por ciento de la secuencia objetiva se híbrida a una sonda perfectamente complementaria. Las condiciones muy astringentes se seleccionan iguales a, o aproximadamente 5°C más bajas que, la Tm, para una sonda particular. La temperatura de fusión de la sonda se puede calcular utilizando las siguientes fórmulas: Para sondas entre 14 y 70 nucleótidos de longitud, la temperatura de fusión (TJ se calcula utilizando la fórmula: Tm = 81.5 + 16.6 (log [Na+] ) + 0.41 (fracción G+C) - ( 600/N) , donde N es la longitud de la sonda. Si la hibridación se lleva a cabo en una solución que contenga formamida, la temperatura de fusión se puede calcular utilizando la ecuación: Tm = 81.5 + 16.6 (log [Na+] ) + 0.41 (fracción G+C)-(0.63% formamida) (600/N), donde N es la longitud de la sonda. La prehibridación se puede llevar a cabo en 6X SSC, 5X reactivo de Denhardt, SDS al 0.5 por ciento, 100 microgramos de ADN de esperma de salmón fragmentado desnaturalizado o 6X SSC, 5X reactivo de Denhardt, SDS al 0.5 por ciento, 100 microgramos de ADN de esperma de salmón fragmentado desnaturalizado, formamida al 50 por ciento. Las fórmulas para SSC y soluciones de Denhardt se enlistan en Sambrook y colaboradores, supra. La hibridación se conduce agregando la sonda detectable a las soluciones de prehibridación enlistadas anteriormente. Cuando la sonda comprenda ADN de doble cadena, se desnaturaliza antes de agregarse a la solución de hibridación. El filtro se pone en contacto con la solución de hibridación durante un periodo de tiempo suficiente para permitir que la sonda se hibride a los ADNcs o a los ADNs genómicos que contengan secuencias complementarias para la misma u homologas a la misma. Para sondas de más de 200 nucleótidos de longitud, la hibridación se puede llevar a cabo a 15-25°C debajo de la Tm. Para sondas más cortas, tales como sondas de oligonucleótidos, la hibridación se puede conducir a 5-10°C debajo de la Tm. Típicamente, para hibridaciones en 6X SSC, la hibridación se conduce aproximadamente a 68 °C. Usualmente, para hibridaciones en soluciones que contengan formamida al 50 por ciento, la hibridación se conduce a aproximadamente 42°C. Todas las hibridaciones anteriores se considerarían como condiciones de alta astringencia. Enseguida de la hibridación, el filtro se lava para remover cualquier sonda detectable no específicamente enlazada. La astringencia utilizada para lavar los filtros también se puede variar, dependiendo de la naturaleza de los ácidos nucleicos que se estén hibridando, de la longitud de los ácidos nucleicos que se estén hibridando, del grado de complementáriedad, de la composición de la secuencia de nucleótidos (por ejemplo, contenido de GC contra AT) , y del tipo de ácido nucleico (por e emplo, AR contra ADN) . Los e emplos de los lavados en condición de astringencia progresivamente más alta, son como sigue: 2X SSC, SDS al 0.1 por ciento a temperatura ambiente durante 15 minutos (baja astringencia); 0. IX SSC, SDS al 0.5 por ciento a temperatura ambiente durante 30 minutos a 1 hora (astringencia moderada); 0. IX SSC, SDS al 0.5 por ciento durante 15 a 30 minutos entre la temperatura de hibridación y 68 °C (alta astringencia); y NaCl 0.15M durante 15 minutos a 72°C (muy alta astringencia) . Se puede conducir un lavado final a baja astringencia en 0. IX SSC a temperatura ambiente. Los ejemplos anteriores son meramente ilustrativos de un conjunto de condiciones que se pueden utilizar para lavar filtros. Un técnico en la materia sabría que existen numerosas recetas para lavados de diferente astringencia. Algunos otros ejemplos se dan más adelante.
Los ácidos nucleicos que se hayan hibridado a la sonda se identifican mediante auto-radiografia u otras técnicas convencionales . El procedimiento anterior se puede modificar para identificar ácidos nucleicos que tengan niveles decrecientes de homología con la secuencia de sonda. Por ejemplo, para obtener ácidos nucleicos de una homología decreciente con la sonda detectable, se pueden utilizar condiciones menos astringentes. Por ejemplo, la temperatura de hibridación se puede reducir en incrementos de 5°C desde 68°C hasta 42°C en un regulador de hibridación que tenga una concentración de Na+ de aproximadamente 1 M. En seguida de la hibridación, el filtro se puede lavar con 2X SSC, SDS al 0.5 por ciento, a la temperatura de hibridación. Estas condiciones se consideran como condiciones "moderadas" arriba de 50°C, y como condiciones "bajas" debajo de 50°C. Un ejemplo específico de condiciones de hibridación "moderadas" es cuando la hibridación anterior se conduce a 55°C. Un ejemplo específico de condiciones de hibridación de "baja astringencia" es cuando la hibridación anterior se conduce a 45 °C. De una manera alternativa, la hibridación se puede llevar a cabo en reguladores, tales como 6X SSC, conteniendo formamida, a una temperatura de 42 °C. En este caso, la concentración de formamida en el regulador de hibridación se puede reducir en incrementos del 5 por ciento desde el 50 por ciento hasta el 0 por ciento, para identificar los clones que tengan niveles decrecientes de homología con la sonda. En seguida de la hibridación, el filtro se puede lavar con 6X SSC, SDS al 0.5 por ciento a 50 °C. Estas condiciones se consideran como condiciones "moderadas" arriba del 25 por ciento de formamida, y como condiciones "bajas" debajo del 25 por ciento de formamida. Un ejemplo específico de condiciones de hibridación "moderadas", es cuando la hibridación anterior se conduce con formamida al 30 por ciento. Un ejemplo específico de condiciones de hibridación de "baja astringencia" es cuando la hibridación anterior se conduce con formamida al 10 por ciento. Por ejemplo, los métodos anteriores se pueden utilizar para aislar ácidos nucleicos que tengan una secuencia con una homología de cuando menos aproximadamente el 97 por ciento, cuando menos el 95 por ciento, cuando menos el 90 por ciento, cuando menos el 85 por ciento, cuando menos el 80 por ciento, cuando menos del 75 por ciento, cuando menos el 70 por ciento, cuando menos el 65 por ciento, cuando menos el 60 por ciento, cuando menos el 55 por ciento, o cuando menos el 50 por ciento con una secuencia de ácido nucleico seleccionada a partir del grupo que consiste en una de las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, o fragmentos que comprendan cuando menos aproximadamente 10, 15, 20, 25, 30, 35, 40, 50, 75, 100, 150, 200, 300, 400 o 500 bases consecutivas de las mismas, y las secuencias complementarias para las mismas. La homología se puede medir utilizando el algoritmo de alineación. Por ejemplo, los polinucleótidos homólogos pueden tener una secuencia de codificación que sea una variante alélica que se presente naturalmente de una de las secuencias de codificación descritas en la presente. Estas variantes alélicas pueden tener una sustitución, supresión, o adición de uno o más nucleótidos al compararse con los ácidos nucleicos de las secuencias de ácidos nucleicos del Grupo A, o las secuencias complementarias para las mismas. Adicionalmente, los procedimientos anteriores se pueden utilizar para aislar ácidos nucleicos que codifiquen polipéptidos que tengan una homología de cuando menos aproximadamente el 99 por ciento, el 95 por ciento, cuando menos el 90 por ciento, cuando menos el 85 por ciento, cuando menos el 80 por ciento, cuando menos el 75 por ciento, cuando menos el 70 por ciento, cuando menos el 65 por ciento, cuando menos 60 por ciento, cuando menos el 55 por ciento, o cuando menos el 50 por ciento con un polipéptido que tenga la secuencia de una de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, o fragmentos que comprendan cuando menos 5, 10, 15, 20, 25, 30, 35, 40, 50, 75, 100, 150 aminoácidos consecutivos de las mismas, determinado utilizando un algoritmo de alineación de secuencias (por ejemplo, tal como el algoritmo FASTA versión 3.0t78 con los parámetros por omisión). Otro aspecto de la invención es un polipéptido aislado o purificado que comprende la secuencia de una de las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, o fragmentos que comprendan cuando menos aproximadamente 5, 10, 15, 20, 25, 30, 35, 40, 50, 75, 100, o 150 aminoácidos consecutivos de las mismas. Como se describió anteriormente, estos polipéptidos se pueden obtener insertando un ácido nucleico que codifique al polipéptido en un vector, de tal manera que la secuencia de codificación se enlace operativamente con una secuencia capaz de impulsar la expresión del polipéptido codificado en una célula hospedera adecuada. Por ejemplo, el vector de expresión puede comprender un promotor, un sitio de enlace de ribosoma para el inicio de la traducción, y un terminador de transcripción. El vector también puede incluir secuencias apropiadas para amplificar la expresión. Los promotores adecuados para expresar el polipéptido o fragmento del mismo en bacterias incluyen los promotores lac o trp de E. Coli. El promotor lacl, el promotor lacZ, el promotor T3, el promotor T7, el promotor gpt, el promotor lambda PRr el promotor lambda PLr promotores de operones que codifiquen enzimas glicoliticas, tales como cinasa de 3-fosfoglicerato (PGK) , y el promotor de fosfatasa de ácido. Los promotores fúngicos incluyen al promotor del factor V. Los promotores eucarióticos incluyen al promotor temprano inmediato de CMV, al promotor de cinasa de timidina de HSV, promotores de choque por calor, al promotor de SV40 temprano y tardío, LTRs de retrovirus, y al promotor de metalotioneína I de ratón. También se pueden utilizar otros promotores conocidos para controlar la expresión de genes en células procarióticos o eucarióticas o sus virus. Los vectores de expresión de mamífero también pueden comprender un origen de réplica, cualesquiera sitios de enlace de ribosoma necesarios, un sitio de poliadenilación, sitios donadores y aceptores de empalme, secuencias de terminación de transcripción, y secuencias no transcritas de flanqueo 5'. En algunas modalidades, se pueden utilizar secuencias de ADN derivadas a partir del empalme SV40 y de sitios de poliadenilación, para proporcionar los elementos genéticos no transcritos requeridos . Los vectores para expresar el polipéptido o fragmento del mismo en células eucarióticas también pueden contener potenciadores para incrementar los niveles de expresión. Los potenciadores son elementos de acción cis del ADN, usualmente de aproximadamente 10 a aproximadamente 300 pares de bases de longitud, que actúan sobre un promotor para aumentar su transcripción. Los ejemplos incluyen al potenciador SV40 sobre el lado tardío del origen de réplica de los pares de bases 100 a 270, el potenciador del promotor temprano de citomegalovirus, el potenciador de polioma sobre el lado tardío del origen de réplica, y los potenciadores de adenovirus. En adición, los vectores de expresión normalmente contienen uno o más genes marcadores seleccionables para permitir la selección de células hospederas que contengan al vector. Estos marcadores seleccionables incluyen genes que codifican reductasa de dihidrofolato, o genes que confieren resistencia a la neomicina para cultivo celular eucariótico, genes que confieren resistencia a la tetraciclina o a la ampicilina en E. coli, y el gen TRP1 de S. cerevisiae. Después de que se hayan generado las bibliotecas de expresión, se puede incluir el paso adicional de "bioextender" estas bibliotecas antes del rastreo mediante selección de células. El procedimiento de "bioextensión" se refiere a un proceso para identificar los clones que tengan una actividad biológica especificada, mediante el rastreo para determinar la homología de secuencias en una biblioteca de clones preparados mediante: (i) aislar selectivamente el ADN objetivo, a partir del ADN derivado de cuando menos un microorganismo, mediante el uso de cuando menos un ADN de sonda que comprenda cuando menos una porción de una secuencia de ADN que codifique un producto biológico que tenga la actividad biológica especificada; y (ii) opcionalmente transformar un anfitrión con el ADN objetivo aislado para producir una biblioteca de clones que se rastrean para determinar la actividad biológica especificada. El ADN de sonda utilizado para el aislamiento selectivo del ADN objetivo de interés a partir del ADN derivado de cuando menos un microorganismo, puede ser una secuencia de la región de codificación de longitud completa, o una secuencia de la región de codificación parcial del ADN para una enzima de actividad conocida. La biblioteca del ADN original de preferencia se puede sondear utilizando mezclas de sondas que comprendan cuando menos una porción de la secuencia de ADN que codifique una enzima que tenga la actividad enzimática especificada. Estas sondas o bibliotecas de sondas de preferencia son de una sola cadena, y el ADN microbiano que se sondea de preferencia se ha convertido a la forma de una sola cadena. Las sondas que son particularmente adecuadas son las derivadas a partir de enzimas codificantes de ADN que tengan una actividad similar o idéntica a la actividad de la enzima especificada que se vaya a rastrear. El ADN de sonda debe ser de cuando menos aproximadamente 10 bases, y de preferencia de cuando menos 15 bases. En una modalidad, se puede emplear toda la región codificante como una sonda. Las condiciones para la hibridación en las que se aisla selectivamente el ADN objetivo mediante el uso de cuando menos una sonda de ADN, se diseñarán para proporcionar una astringencia de hibridación de cuando menos una identidad de secuencias de aproximadamente el 50 por ciento, más particularmente una astringencia que proporcione una identidad de secuencias de cuando menos aproximadamente el 70 por ciento. En las reacciones de hibridación de ácidos nucleicos, las condiciones utilizadas para alcanzar un nivel particular de astringencia variarán, dependiendo de la naturaleza de los ácidos nucleicos que se estén hibridando. Por ejemplo, se pueden considerar la longitud, el grado de complementariedad, la composición de la secuencia de nucleótidos (por ejemplo, contenido de GC contra ??) , y el tipo de ácido nucleico (por ejemplo, ARN contra ADN) de las regiones de hibridación de los ácidos nucleicos, en la selección de las condiciones de hibridación. Una consideración adicional es si uno de los ácidos nucleicos está inmovilizado, por ejemplo sobre un filtro. Un ejemplo de condiciones de astringencia progresivamente más alta es como sigue: 2X SSC/SDS al 0.1 por ciento a aproximadamente la temperatura ambiente (condiciones de hibridación) ; 0.2X SSC/SDS al 0.1 por ciento a aproximadamente la temperatura ambiente (condiciones de baja astringencia); 0.2X SSC/SDS al 0.1 por ciento a aproximadamente 42 °C (condiciones de astringencia moderada); y 0. IX SSC a aproximadamente 68°C (condiciones de alta astringencia) . El lavado se puede llevar a cabo utilizando sólo una de estas condiciones, por ejemplo, condiciones de alta astringencia, o se puede utilizar cada una de las condiciones, por ejemplo, durante 10 a 15 minutos cada una, en el orden mencionado anteriormente, repitiendo cualquiera o todos los pasos enlistados. Sin embargo, como se mencionó anteriormente, las condiciones ópticas variarán, dependiendo de la reacción de hibridación particular involucrada, y se pueden determinar de una manera empírica. Las técnicas de hibridación para sondear una biblioteca de ADN microbiano con el fin de aislar el ADN objetivo de interés potencial, son bien conocidas en la materia, y aquéllas que se describen en la literatura son adecuadas para utilizarse en la presente, en particular aquéllas que utilicen un ADN de sonda enlazado en fase sólida, directa o indirectamente enlazado, para mayor facilidad en la separación a partir del resto del ADN derivado de los microorganismos. De preferencia, el ADN de sonda se "marca" con un socio de un par de enlace especifico (es decir, un ligando) , y el otro socio del par se enlaza con una matriz sólida para proporcionar facilidad de separación del objetivo de su fuente. El ligando y el socio de enlace especifico se pueden seleccionar a partir de, en cualquier orientación, los siguientes: (1) un antigeno o hapteno y un anti-cuerpo o fragmento de enlace especifico del mismo; (2) biotina o iminobiotina y avidina o estreptavidina; (3) un azúcar y una lectina especifica para el mismo; (4) una enzima y un inhibidor para la misma; (5) una apoenzima y un cofactor; (6) oligonucleótidos homopoliméricos complementarios; y (7) una hormona y un receptor para la misma. La fase sólida de preferencia se selecciona a partir de: (1) una superficie de vidrio o polimérica; (2) una columna empacada de perlas poliméricas; y (3) partículas magnéticas o paramagnéticas . Además, es opcional pero deseable realizar una amplificación del ADN objetivo que se haya aislado. En esta modalidad, el ADN objetivo se separa del ADN de sonda después del aislamiento. Luego se amplifica antes de utilizarse para transformar anfitriones. El ADN de doble cadena se selecciona para incluir, como cuando menos una porción del mismo, una secuencia de ADN previamente determinada que se pueda hacer de una sola cadena, someter a amplificación, y templar, para proporcionar números amplificados de ADN de doble cadena seleccionado. Ahora se conocen bien en la materia numerosas metodologías de amplificación. Luego se utiliza el ADN seleccionado para preparar una biblioteca para el rastreo mediante la transformación de un organismo adecuado. Los anfitriones, en particular aquéllos específicamente identificados en la presente como preferidos, se transforman mediante la introducción artificial de los vectores que contengan al ADN objetivo, mediante inoculación, bajo condiciones que conduzcan a esta transformación. Las bibliotecas resultantes de clones transformados se rastrean entonces para determinar los clones que exhiban actividad para la enzima de interés. Habiendo preparado una multiplicidad de clones a partir del ADN selectivamente aislado de un organismo, estos clones se rastrean para determinar una actividad enzimática específica, y para identificar los clones que tengan las características enzimáticas especificadas. El rastreo de la actividad enzimática se puede efectuar sobre clones de expresión individuales, o se puede efectuar inicialmente sobre una mezcla de clones de expresión para aseverar si la mezcla tiene o no una o más actividades enzimáti- cas especificadas. Si la mezcla tiene una actividad enzimática especificada, entonces los clones individuales se pueden volver a rastrear utilizando una máquina FACS para esta actividad enzimática, o para una actividad más especifica. De una manera alternativa, se pueden emplear técnicas de encapsulación, tales como microgotas de gel, para localizar múltiples clones en un lugar que se vaya a rastrear en una máquina FACS para determinar los clones de expresión positiva dentro del grupo de clones, que luego se pueden descomponer en los clones individuales para rastrearse nuevamente en una máquina FACS con el fin de identificar los clones individuales positivos. Por consiguiente, por ejemplo, si una mezcla de clones tiene actividad de hidrolasa, entonces los clones individuales se pueden recuperar y rastrear utilizando una máquina FACS para determinar cuál de estos clones tiene actividad de hidrolasa. Como se utiliza en la presente, "biblioteca de inserto pequeño" significa una biblioteca genética que contiene clones con insertos de ácidos nucleicos de tamaño pequeño aleatorios de hasta aproximadamente 5,000 pares de bases. Como se utiliza en la presente, "biblioteca de inserto grande" significa una biblioteca genética que contiene clones con insertos de ácidos nucleicos de tamaño grande aleatorios de aproximadamente 5,000 hasta varios cientos de miles de pares de bases o más. Como se describe con respecto a uno de los aspectos anteriores, la invención proporciona un proceso para rastrear la actividad enzimática de clones que contienen ADN seleccionado derivado a partir de un microorganismo, cuyo proceso incluye: rastrear una biblioteca para determinar una actividad enzimática especificada, incluyendo esta biblioteca una pluralidad de clones, habiendo sido estos clones preparados mediante la recuperación a partir del ADN genómico de un ADN seleccionado de un microorganismo, cuyo ADN se selecciona mediante hibridación con cuando menos una secuencia de ADN que es toda o una porción de una secuencia de ADN que codifica una enzima que tiene la actividad especificada; y transformar un anfitrión con el ADN seleccionado para producir clones, los cuales se rastrean para determinar la actividad enzimática especificada. En una modalidad, una biblioteca de ADN derivada de un microorganismo se somete a un procedimiento de selección para seleccionar del mismo el ADN que se hibride con una o más secuencias de ADN de sonda, que sean toda o una porción de una secuencia de ADN que codifique una enzima que tenga la actividad enzimática especificada, mediante: (a) convertir la población de ADN genómico de doble cadena en una población de ADN de una sola cadena; (b) poner en contacto la población de ADN de una sola cadena de (a) con la sonda de ADN enlazada a un ligando bajo condiciones que permitan la hibridación, con el fin de producir un complejo de doble cadena de la sonda y miembros de la población de ADN genómico que se hibriden al mismo; (c) poner en contacto el complejo de doble cadena de (b) con un socio de enlace especifico en fase sólida para dicho ligando, con el fin de producir un complejo en fase sólida; (d) separar el complejo en fase sólida de la población de ADN de doble cadena de (b) ; (e) liberar de la sonda a los miembros de la población genómica que se hubieran enlazado a la sonda enlazada en fase sólida; (f) formar ADN de doble cadena a partir de los miembros de la población genómica de (e) ; (g) introducir el ADN de doble cadena de (f) en un anfitrión adecuado, para formar una biblioteca que contenga una pluralidad de clones que contengan al ADN seleccionado; y (h) rastrear la biblioteca para determinar la actividad enzimática especificada. En otro aspecto, el proceso incluye una preselección para recuperar el ADN que incluya secuencias de señal o de secreción. De esta manera, es posible seleccionar, a partir de la población de ADN genómico mediante hibridación como se describió anteriormente en la presente, sólo el ADN que incluya una secuencia de señal o de secreción. Los siguientes párrafos describen el protocolo para esta modalidad de la invención, la naturaleza y función de las secuencias de señales de secreción en general, y una aplicación de ejemplo especifica de tales secuencias a un ensayo o proceso de selección.
Una modalidad particularmente preferida de este aspecto comprende además, después de (a) pero antes de (b) anteriores, los pasos de: (ai) poner en contacto la población de ADN de una sola cadena de (a) con una sonda de oligonucleótido enlazada con ligando que sea complementaria para una secuencia de señal de secreción única para una clase dada de proteínas, bajo condiciones que permitan la hibridación para formar un complejo de doble cadena; (aii) poner en contacto el complejo de doble cadena de (ai) con un socio de enlace específico en fase sólida para este ligando, con el fin de producir un complejo en fase sólida; (aiii) separar el complejo en fase sólida de la población de ADN de una sola cadena de (a) ; (aiv) liberar los miembros de la población genómica que se hubieran enlazado con la sonda enlazada en fase sólida; y (av) separar la sonda enlazada en fase sólida de los miembros de la población genómica que se hubieran enlazado a la misma . El ADN que se ha seleccionado y aislado para incluir una secuencia de señal, se somete entonces al procedimiento de selección descrito anteriormente en la presente, para seleccionar y aislar a partir del mismo, el ADN que se enlace con una o más secuencias de ADN de sonda derivadas a partir del ADN que codifique una enzima que tenga la actividad enzimática especifi- cada . Este procedimiento se describe y se ejemplifica en la solicitud de patente US 08/692,002, presentada el 2 de agosto de 1996, incorporada a la presente como referencia. La bioextension in vivo se puede realizar utilizando una máquina basada en FACS. Se construyen bibliotecas genéticas complejas con vectores que contengan elementos que estabilicen el ARN transcrito. Por ejemplo, la inclusión de secuencias que den como resultado estructuras secundarias, tales como horquillas que estén diseñadas para flanquear las regiones transcritas del ARN, servirían para mejorar su estabilidad, incrementando de esta manera su vida media adentro de la célula. Las moléculas de sonda utilizadas en el proceso de bioextension consisten en oligonu-cleótidos marcados con moléculas reporteras que solamente fluorescen al enlazar la sonda con una molécula objetiva. Estas sondas se introducen en las células recombinantes de la biblioteca, utilizando uno de varios métodos de transformación. Las moléculas de sonda se enlazan con el ARNm objetivo transcrito, dando como resultado moléculas heterodúplex de ADN/ARN. El enlace de la sonda con un objetivo producirá una señal fluorescente, la cual se detecta y se selecciona mediante la máquina FACS durante el proceso de rastreo. En algunas modalidades, el ácido nucleico que codifique uno de los polipéptidos de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, o los fragmentos que comprendan cuando menos aproximadamente 5, 10, 15, 20, 25, 30, 35, 40, 50, 75, 100, o 150 aminoácidos consecutivos de las mismas, se ensambla en una fase apropiada con una secuencia líder capaz de dirigir la secreción del polipéptido traducido o fragmento del mismo. Opcionalmente, el ácido nucleico puede codificar un polipéptido de fusión donde uno de los polipéptidos de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, o los fragmentos que comprendan cuando menos 5, 10, 15, 20, 25, 30, 35, 40, 50, 75, 100, o 150 aminoácidos consecutivos de las mismas, se fusiona con péptidos o polipéptidos heterólogos, tales como péptidos de identificación N-terminales que impartan las características deseadas, tales como una mayor estabilidad o una purificación simplificada. La secuencia de ADN apropiada se puede insertar en el vector mediante una variedad de procedimientos. En general, la secuencia de ADN se liga a la posición deseada en el vector en seguida de la digestión del inserto y el vector con endonucleasas de restricción apropiadas. De una manera alternativa, los extremos romos tanto del inserto como del vector se pueden ligar. Una variedad de técnicas de clonación se dan a conocer en Ausubel y colaboradores, Current Protocols in Molecular Biology, John Wiley & Sons, Inc. 1997 y Sambrook y colaboradores, Molecular Cloning: A Laboratory Manual Segunda Edición, Cold Spring Harbor Laboratory Press (1989) , cuyas divulgaciones totales se incorpo- ran a la presente como referencia. Estos procedimientos y otros se consideran dentro del alcance de la experiencia en la materia. Por ejemplo, el vector puede estar en la forma de un plásmido, una partícula viral, o un fago. Otros vectores incluyen secuencias de ADN cromosómicas , no cromosómicas, y sintéticas, derivados de SV40; plásmidos bacterianos, ADN de fago, baculovi-rus, plásmidos de levadura, vectores derivados a partir de combinaciones de plásmidos y ADN de fago, ADN viral tal como vacuna, adenovirus, virus de viruela de aves, y seudo-rabia. Una variedad de vectores de clonación y expresión para utilizarse con anfitriones procarióticos y eucarióticos es descrita por Sambrook y colaboradores, Molecular Cloning: A Laboratorv Manual, Segunda Edición, Cold Spring Harbor, N.Y. (1989) , cuya divulgación se incorpora a la presente como referencia. Los vectores bacterianos particulares que se pueden utilizar incluyen los plásmidos comercialmente disponibles que comprenden los elementos genéticos del vector de clonación bien conocido pBR322 (ATCC 37017), pKK223-3 (Pharmacia Fine Chemicals, Uppsala, Suecia) , GEMI (Promega Biotec, Madison, Wisconsin, Estados Unidos), pQE70, pQE60, pQE-9 (Qiagen) , pDlO, psiX174 pBluescript II S, pNH8A, pNH16a, pNH18A, pNH46A (Stratagene) , ptrc99a, pKK223-3, pKK233-3, pDR540, pRITS (Pharmacia), pKK232-8 y pCM7. Los vectores eucarióticos particulares incluyen pSV2CAT, pOG44, pXTl, pSG (Stratagene), pSVK3, pBPV, pMSG, y pSVL (Pharmacia) . Sin embargo, se puede utilizar cualquier otro vector, siempre que sea replicable y viable en la célula hospedera. La célula hospedera puede ser cualquiera de las células hospederas familiares para los técnicos en este campo, incluyendo células procarióticas, células eucarióticas, células de mamífero, células de insecto, o células de plantas. Como los ejemplos representativos de los anfitriones apropiados, se pueden mencionar: células bacterianas, tales como E. coli r Streptomycesr Bacillus subtilis, Salmonella typhimurium, y diferentes especies dentro de los géneros Pseudomonas, Streptomycesr y Staphylococ-cus, células fúngicas, tales como levadura, células de insectos, tales como Drosophila 52 y Spodoptera Sf9, células animales tales como CHO, COS, o melanoma de Bowes, y adenovirus . La selección de un anfitrión apropiado está dentro de las capacidades de los técnicos en la materia. El vector se puede introducir en las células hospederas utilizando cualquiera de una variedad de técnicas, incluyendo transformación, transfeccion, transducción, infección viral, pistolas de genes, o transferencia genética mediada por Ti. Los métodos particulares incluyen transfeccion con fosfato de calcio, transfeccion mediada con DEAE-dextrano, lipofección, o electropo-ración (Davis, L., Dibner, M., Battey, I., Basic Methods in Molecular Biology, (1986) ) . Cuando sea apropiado, las células hospederas diseñadas se pueden cultivar en un medio nutriente convencional modificado según sea apropiado para activar promotores, seleccionar transformantes, o amplificar los genes de la invención. En seguida de la transformación de una cepa hospedera adecuada, y del crecimiento de la cepa hospedera hasta una densidad celular apropiada, se puede inducir el promotor seleccionado por medios apropiados (por ejemplo, cambio de temperatura o inducción quimica) , y las células se pueden cultivar durante un periodo adicional para permitirles producir el polipéptido deseado o el fragmento del mismo. Las células normalmente se cosechan mediante centrifugación, se alteran mediante un elemento físico o químico, y el extracto crudo resultante se retiene para una purificación adicional. Las células microbianas empleadas para la expresión de proteínas se pueden alterar mediante cualquier método conveniente, incluyendo ciclo de congelación-descongelación, sonicación, alteración mecánica, o el uso de agentes de lisis celular. Estos métodos son bien conocidos por los técnicos en la materia. El polipéptido expresado o el fragmento del mismo se puede recuperar y purificar a partir de los cultivos celulares recombinantes mediante métodos que incluyen precipitación con sulfato de amonio o etanol, extracción con ácido, cromatografía con intercambio de aniones o cationes, cromatografía en fosfocelulosa, cromatografía con interacción hidrofóbica, cromatografía por afinidad, cromatografía con hidroxiapatita, y cromatografía con lectina. Se pueden utilizar pasos de repliegue de proteína, según sean necesarios, para terminar la configuración del polipéptido. Si se desea, se puede emplear cromatografía de líquidos de alto rendimiento (HPLC) para los pasos de purificación finales. También se pueden emplear diferentes sistemas de cultivo celular de mamífero para expresar la proteína recombinan-te. Los ejemplos de los sistemas de expresión de mamífero incluyen las líneas COS-7 de fibroblastos de riñon de mono (descritas por Gluzman, Cell, 23.: 175, 1981), y otras líneas celulares capaces de expresar proteínas a partir de un vector compatible, tales como las líneas celulares C127, 3T3, CHO, HeLa, y BHK. Las construcciones en las células hospederas se pueden utilizar de una manera convencional para producir el producto genético codificado por la secuencia recombinante . Dependiendo del anfitrión empleado en un procedimiento de producción recombinante, los polipéptidos producidos por las células hospederas que contengan al vector se pueden glicosilar o pueden no glicosilarse . Los polipéptidos de la invención pueden o no incluir también un residuo de aminoácido de metionina inicial. De una manera alternativa, los polipéptidos de las secuencias de aminoácidos del Grupo B, y secuencias sustancial-mente idénticas a las mismas, o fragmentos que comprendan cuando menos 5, 10, 15, 20, 25, 30, 35, 40, 50, 75, 100, o 150 aminoácidos consecutivos de las mismas, se pueden producir sintéticamente mediante sintetizadores de péptidos convencionales. En otras modalidades, se pueden emplear fragmentos o porciones de los polipéptidos para producir el polipéptido de longitud completa correspondiente, mediante síntesis de péptidos; por consiguiente, los fragmentos se pueden emplear como intermediarios para producir los polipéptidos de longitud completa. También se pueden emplear sistemas de traducción sin células para producir uno de los polipéptidos de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, o fragmentos que comprendan cuando menos 5, 10, 15, 20, 25, 30, 35, 40, 50, 75, 100, o 150 aminoácidos consecutivos de las mismas, utilizando AR ms transcritos a partir de una construcción de ADN que comprenda un promotor operativamente enlazado con un ácido nucleico que codifique al polipéptido o fragmento del mismo. En algunas modalidades, la construcción del ADN se puede linearizar antes de conducir una reacción de transcripción in vitro. Luego se incuba el ARNm transcrito con un extracto de traducción sin células apropiado, tal como un extracto de reticulocitos de conejo, para producir el polipéptido deseado o fragmento del mismo. La invención también se refiere a variantes de los polipéptidos de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, o fragmentos que comprendan cuando menos 5, 10, 15, 20, 25, 30, 35, 40, 50, 75, 100, o 150 aminoácidos consecutivos de las mismas. El término "variante" incluye derivados o análogos de estos polipéptidos. En particular, las variantes pueden diferir en la secuencia de aminoácidos de los polipéptidos de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, por una o más sustituciones, adiciones, supresiones, fusiones, y truncamientos, los cuales puedan estar presentes en cualquier combinación. Las variantes pueden estar presentes naturalmente, o se pueden crear in vitro. En particular, estas variantes se pueden crear utilizando técnicas de ingeniería genética, tales como mutagénesis dirigida al sitio, mutagénesis química aleatoria, procedimientos de supresión de exonucleasa III, y técnicas de clonación convencionales . De una manera alternativa, estas variantes, fragmentos, análogos, o derivados, se pueden crear utilizando síntesis química o procedimientos de modificación. Otros métodos para hacer variantes también son familiares para los técnicos en este campo. Éstos incluyen procedimientos donde se monitorean las secuencias de ácidos nucleicos obtenidas de aislados naturales, para generar ácidos nucleicos que codifiquen polipéptidos que tengan características que mejoren su valor en las aplicaciones industriales o de laboratorio. En estos procedimientos, se generan y se caracterizan un gran número de secuencias variantes que tienen una o más diferencias de nucleótidos con respecto a la secuencia obtenida del aislado natural. Normalmente, estas diferencias de nucleótidos dan como resultado cambios de aminoácidos con respecto a los polipéptidos codificados por los ácidos nucleicos a partir de los aislados naturales. Por ejemplo, se pueden crear variantes utilizando la reacción en cadena de la polimerasa susceptible a error. En la reacción en cadena de la polimerasa susceptible a error, se lleva a cabo la reacción en cadena de la polimerasa bajo condiciones donde la fidelidad de copiado de la polimerasa de ADN sea baja, de tal manera que se obtenga un alto índice de mutaciones puntuales a lo largo de toda la longitud del producto de la reacción en cadena de la polimerasa. La reacción en cadena de la polimerasa susceptible a error se describe en Leung, D.W. y colaboradores, Technique, 1: 11-15, 1989 y en Caldwell, R. C. & Joyce G.F., PCR Methods Applic, 2.:28-33, 1992, cuya divulgación se incorpora a la presente como referencia en su totalidad. Dicho de una manera breve, estos procedimientos, los ácidos nucleicos que se vayan a mutar se mezclan con cebadores de reacción en cadena de la polimerasa, regulador de reacción, MgCl2 MnCl2, polimerasa Taq, y una concentración apropiada de dNTPs para lograr un alto índice de mutación puntual a lo largo de toda la longitud del producto de la reacción en cadena de la polimerasa. Por ejemplo, la reacción se puede llevar a cabo utilizando 20 fmoles de ácido nucleico que se vaya a mutar, 30 picomoles de cada cebador de reacción en cadena de la polimerasa, un regulador de reacción que comprenda KC1 50 mM, Tris-HCl 10 mM (pH de 8.3), y gelatina al 0.01 por ciento, MgCl2 7 mM, MnCl2 0.5 mM, 5 unidades de polimerasa Taq, dGTP 0.2 mM, dATP 0.2 mM, dCTP 1 iriM, y dTTP 1 mM. La reacción en cadena de la polimerasa se puede realizar por 30 ciclos a 94 °C durante 1 minuto, a 45°C durante 1 minuto y a 72°C durante 1 minuto. Sin embargo, se apreciará que estos parámetros se pueden variar según sea apropiado. Los ácidos nucleicos mutados se clonan en un vector apropiado, y se evalúan las actividades de los polipéptidos codificados por los ácidos nucleicos mutados. También se pueden crear variantes utilizando mutagéne-sis dirigida a los oligonucleótidos, para generar mutaciones especificas del sitio en cualquier ADN clonado de interés. La mutagénesis de oligonucleótidos se describe en Reidhaar-Olson, J.F. y Sauer, R.T. y colaboradores, Science, 241 : 53-57 , 1988, cuya divulgación se incorpora a la presente como referencia en su totalidad. Dicho de una manera breve, en estos procedimientos, se sintetizan una pluralidad de oligonucleótidos de doble cadena que lleven una o más mutaciones para introducirse en el ADN clonado, y se insertan en el ADN clonado que se vaya a mutar. Se recuperan los clones que contengan al ADN mutado, y se evalúan las actividades de los polipéptidos que codifiquen. Otro método para generar variantes es la reacción en cadena de la polimerasa de ensamble. La reacción en cadena de la polimerasa de ensamble involucra el ensamble de un producto de reacción en cadena de la polimerasa a partir de una mezcla de fragmentos de ADN pequeños. Se presentan un gran número de - I diferentes reacciones en cadena de la polimerasa en paralelo en el mismo frasco, cebando los productos de una reacción a los productos de otra reacción. La reacción en cadena de la polimerasa de ensamble se describe en la patente US 5,965,408, presentada el 9 de julio de 1996, titulada "Method of DNA Reassembly by Interrupting Synthesis", cuya divulgación se incorpora a la presente como referencia en su totalidad. Todavía otro método para generar variantes es la mutagénesis de reacción en cadena de la polimerasa sexual. En la mutagénesis de reacción en cadena de la polimerasa sexual, se presenta una recombinación homologa forzada entre las moléculas de ADN de una secuencia de ADN diferente pero altamente relacionada in vitro, como un resultado de la fragmentación aleatoria de la molécula de ADN, basándose en la homología de secuencias, seguido por fijación del cruce por la extensión del cebador en una reacción en cadena de la polimerasa. La mutagénesis de reacción en cadena de la polimerasa sexual se describe en Stemmer, W.P., PNAS, USA, 91:10747-10751, 1994, cuya divulgación se incorpora a la presente como referencia. Brevemente, en estos procedimientos, se digieren una pluralidad de ácidos nucleicos que se vayan a recombinar con la ADNsa, para generar fragmentos que tengan un tamaño promedio de 50 a 200 nucleótidos. Los fragmentos del tamaño promedio deseado se purifican y se vuelven a suspender en una mezcla de reacción en cadena de la polimerasa. La reacción en cadena de la polimerasa se conduce bajo condicio- nes que faciliten la recombinación entre los fragmentos de ácido nucleico. Por ejemplo, se puede llevar a cabo la reacción en cadena de la polimerasa volviendo a suspender los fragmentos purificados en una concentración de 10 a 30 nanogramos/mililitro, en una solución de 0.2 mM de cada dNTP, MgCl2 2.2 mM, KC1 50 mM, Tris-HCl 10 mM, pH de 9.0, y Tritón X-100 al 0.1 por ciento. Se agregan 2.5 unidades de polimerasa Taq por 100:1 de mezcla de reacción, y se lleva a cabo la reacción en cadena de la polimerasa utilizando el siguiente régimen: 94°C durante 60 segundos, 94°C durante 30 segundos, 50-55°C durante 30 segundos, 72°C durante 30 segundos (30-45 veces), y 72°C durante 5 minutos. Sin embargo, apreciará que estos parámetros se pueden variar según sea apropiado. En algunas modalidades, se pueden incluir oligonucleótidos en las reacciones en cadena de la polimerasa. En otras modalidades, se puede utilizar el fragmento Klenow de la polimerasa I de ADN en un primer conjunto de reacciones en cadena de la polimerasa, y se puede utilizar la polimerasa Taq en un conjunto subsecuente de reacciones en cadena de la polimerasa. Las secuencias recombinantes se aislan, y se evalúan las actividades de los péptidos que codifiquen. También se pueden crear variantes mediante mutagénesis in vivo. En algunas modalidades, se generan mutaciones aleatorias en una secuencia de interés, propagando la secuencia de interés en una cepa bacteriana, tal como una cepa de E. coli, que lleve mutaciones en una o más de las sendas de reparación de ADN. Estas cepas "imitadoras" tienen un índice de mutación aleatoria más alto que aquél de un progenitor de tipo silvestre. La propagación del ADN en una de estas cepas eventualmente generará mutaciones aleatorias adentro del ADN. Las cepas imitadoras adecuadas para utilizarse para la mutagénesis in vivo se describen en la Publicación del TCP Número W091/16427, publicada el 31 de octubre de 1991, titulada "Methods for Phenotype Creation f om Múltiple Gene Populations" , cuya divulgación se incorpora a la presente como referencia en su totalidad. También se pueden generar variantes utilizando mutagénesis de cásete. En la mutagénesis de cásete, una pequeña región de la molécula de ADN de doble cadena es reemplazada con un "cásete" de oligonucleótido sintético que difiera de la secuencia nativa. El oligonucleótido con frecuencia contiene la secuencia nativa completamente y/o parcialmente aleatorizada . También se puede utilizar mutagénesis de ensamble recursivo para generar variantes. La mutagénesis de ensamble recursivo es un algoritmo para el diseño de proteínas (mutagénesis de proteínas) desarrollado para producir diversas poblaciones de mutantes fenotípicamente relacionados cuyos miembros difieren en la secuencia de aminoácidos. Este método utiliza un mecanismo de retroalimentación para controlar las rondas sucesivas de mutagénesis de cásete de combinación. La mutagénesis de ensamble recursivo se describe en Arkin, A.P. y Youvan, D.C., PNAS, USA 8_9: 7811-7815, 1992, cuya divulgación se incorpora a la presente como referencia en su totalidad. En algunas modalidades, se crean variantes utilizando la mutagénesis de ensamble exponencial. La mutagénesis de ensamble exponencial es un proceso para generar bibliotecas de combinación con un alto porcentaje de mutantes únicos y funcionales, donde se aleatorizan pequeños grupos de residuos en paralelo, para identificar, en cada posición alterada, los aminoácidos que conduzcan a las proteínas funcionales. La mutagénesis de ensamble exponencial se describe en Delegrave, S. y Youvan, D.C., Biotechnology Research, JLL: 1548-1552, 1993, cuya divulgación se incorpora a la presente como referencia en su totalidad. La mutagénesis aleatoria y dirigida al sitio y dirigida al sitio se describe en Arnold, F.H. Current Opinión in Biotechnology, 4_: 450-455, 1993, cuya divulgación se incorpora a la presente como referencia en su totalidad. En algunas modalidades, las variantes se crean utilizando procedimientos de mezcla, donde se fusionan entre sí porciones de una pluralidad de ácidos nucleicos que codifican polipéptidos distintos, para crear secuencias de ácidos nucleicos quiméricas que codifican polipéptidos quiméricos, como se describe en la patente US 5,965,408, presentada el 9 de julio de 1996, titulada "Method of DNA Reassembly by Interrupting Synthesis", y en la patente US 5,939,250, presentada el 22 de mayo de 1996, titulada "Production of Enzymes Having Desired Activities by Mutagénesis", ambas de las cuales se incorporan a - lióla presente como referencia. Las variantes de los polipéptidos de las secuencias de aminoácidos del Grupo B pueden ser variantes donde uno o más de los residuos de aminoácidos de los polipéptidos de las secuencias de aminoácidos del Grupo B, son sustituidos con un residuo de aminoácido conservado o no conservado (de preferencia un residuo de aminoácido conservado) , y este residuo de aminoácido sustituido puede o no ser uno codificado por el código genético. Las sustituciones conservadoras son aquéllas que sustituyen a un aminoácido dado en un polipéptido por otro aminoácido de características similares. Normalmente se ven como sustituciones conservadoras los siguientes reemplazos: reemplazos de un aminoácido alifático, tal como alanina, valina, leucina, e isoleucina, con otro aminoácido alifático; reemplazo de una serina con una treonina o viceversa; reemplazo de un residuo ácido, tal como ácido aspártico y ácido glutámico, con otro residuo ácido; reemplazo de un residuo que lleve un grupo amida, tal como asparagina y glutamina, con otro residuo que lleve un grupo amida; intercambio de un residuo básico, tal como lisina y arginina, con otro residuo básico; y reemplazo de un residuo aromático, tal como Fenilalanina, Tirosina, con otro residuo aromático . Otras variantes son aquéllas donde uno o más de los residuos de aminoácidos de los polipéptidos de las secuencias de aminoácidos del Grupo B, incluye un grupo sustituyente .
Todavia otras variantes son aquéllas donde el polipép-tido está asociado con otro compuesto, tal como un compuesto para aumentar la vida media del polipéptido (por ejemplo, polietilen-glicol) . Las variantes adicionales son aquéllas donde se fusionan aminoácidos adicionales al polipéptido, tales como una secuencia líder, una secuencia secretora, una secuencia de proproteína, o una secuencia que facilite la purificación, enriquecimiento, o estabilización del polipéptido. En algunas modalidades, los fragmentos, derivados, y análogos, retienen la misma función o actividad biológica que los polipéptidos de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas. En otras modalidades, el fragmento, derivado, o análogo incluye una proproteína, de tal manera que el fragmento, derivado, o análogo se puede activar mediante disociación de la porción de proproteína para producir un polipéptido activo . Otro aspecto de la invención es el de polipéptidos o fragmentos de los mismos que tienen cuando menos aproximadamente el 50 por ciento, cuando menos aproximadamente el 55 por ciento, cuando menos aproximadamente el 60 por ciento, cuando menos aproximadamente el 65 por ciento, cuando menos aproximadamente el 70 por ciento, cuando menos aproximadamente el 75 por ciento, cuando menos aproximadamente el 80 por ciento, cuando menos aproximadamente el 85 por ciento, cuando menos aproximadamente el 90 por ciento, cuando menos aproximadamente el 95 por ciento, o más de aproximadamente el 95 por ciento de homología con uno de los polipéptidos de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, o un fragmento que comprenda cuando menos 5, 10, 15, 20, 25, 30, 35, 40, 50, 75, 100, o 150 aminoácidos consecutivos de las mismas. La homología se puede determinar utilizando cualquiera de los programas descritos anteriormente, que alinee a los polipéptidos o fragmentos que se estén comparando, y que determine el grado de identidad de aminoácidos o la similitud entre ellos. Se apreciará que la "homología" de aminoácidos incluye las sustituciones de aminoácidos conservadoras, tales como las descritas anteriormente. Los polipéptidos o fragmentos que tienen homología con uno de los polipéptidos de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, o un fragmento que comprenda cuando menos aproximadamente 5, 10, 15, 20, 25, 30, 35, 40, 50, 75, 100, o 150 aminoácidos consecutivos de las mismas, se pueden obtener mediante el aislamiento de los ácidos nucleicos que los codifiquen, utilizando las técnicas descritas anteriormente. De una manera alternativa, los polipéptidos homólogos o los fragmentos se pueden obtener a través de procedimientos de enriquecimiento bioquímico o purificación. La secuencia de los polipéptidos potencialmente homólogos o fragmentos, se puede determinar mediante digestión proteolítica, electroforesis en gel, y/o microsecuenciación. La secuencia del polipéptido homólogo o fragmento en perspectiva, se puede comparar con uno de los polipéptidos de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, o un fragmento que comprenda cuando menos aproximadamente 5, 10, 15, 20, 25, 30, 35, 40, 50, 75, 100, o 150 aminoácidos consecutivos de las mismas, · utilizando cualquiera de los programas descritos anteriormente . Otro aspecto de la invención es un ensayo para identificar fragmentos o variantes de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, que retengan la función enzimática de los polipéptidos de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas. Por ejemplo, se pueden utilizar los fragmentos o variantes de estos polipéptidos para catalizar reacciones bioquímicas, que indiquen que el fragmento o la variante retiene la actividad enzimática de los polipéptidos de las secuencias de aminoácidos del Grupo B. El ensayo para determinar si los fragmentos o las variantes retienen la actividad enzimática de los polipéptidos de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, incluye los pasos de: poner en contacto el fragmento o variante de polipéptido con una molécula de sustrato bajo condiciones que permitan que el fragmento o variante de polipéptido funcione, y detectar ya sea una reducción en el nivel de sustrato, o bien un incremento en el nivel del producto de reacción especifico de la reacción entre el polipéptido y el sustrato. Los polipéptidos de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, o fragmentos que comprenden cuando menos 5, 10, 15, 20, 25, 30, 35, 40, 50, 75, 100, o 150 aminoácidos consecutivos de las mismas, se pueden utilizar en una variedad de aplicaciones. Por ejemplo, los polipéptidos o fragmentos de los mismos se pueden utilizar para catalizar reacciones bioquímicas. De conformidad con un aspecto de la invención, se proporciona un proceso para utilizar los polipéptidos de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, o polinucleó-tidos que codifiquen estos polipéptidos, para hidrolizar enlaces glicosídicos . En estos procedimientos, se pone en contacto una sustancia que contenga un enlace glicosídico (por ejemplo, un almidón) , con uno de los polipéptidos de las secuencias de aminoácidos del Grupo B, o secuencias sustancialmente idénticas a las mismas, bajo condiciones que faciliten la hidrólisis del enlace glicosídico. Los polipéptidos de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, o fragmentos que comprendan cuando menos 5, 10, 15, 20, 25, 30, 35, 40, 50, 75, 100, o 150 aminoácidos consecutivos de las mismas, también se pueden utilizar para generar anti-cuerpos que se enlacen específicamente con los polipéptidos o fragmentos . Los anti-cuerpos resultantes se pueden utilizar en procedimientos de cromatografía por inmunoafinidad para aislar o purificar el polipéptido, o para determinar si el polipéptido está presente en una muestra biológica. En estos procedimientos, se pone en contacto una preparación de proteína, tal como un extracto, o una muestra biológica, con un anti-cuerpo capaz de enlazarse específicamente con uno de los polipéptidos de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, o fragmentos que comprendan cuando menos 5, 10, 15, 20, 25, 30, 35, 40, 50, 75, 100, o 150 aminoácidos consecutivos de las mismas. En los procedimientos de inmunoafinidad, el anti-cuerpo se une a un soporte sólido, tal como una perla u otra matriz de columna. La preparación de proteína se pone en contacto con el anti-cuerpo bajo condiciones donde el anti-cuerpo se enlace específicamente con uno de los polipéptidos de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, o fragmento de las mismas. Después de un lavado para remover las proteínas no específicamente enlazadas, se eluyen los polipéptidos específicamente enlazados. La capacidad de las proteínas de una muestra biológica para enlazarse con el anti-cuerpo se puede determinar utilizando cualquiera de una variedad de procedimientos familiares para los técnicos en la materia. Por ejemplo, el enlace se puede determinar marcando el anti-cuerpo con una marca detectable, tal como un agente fluorescente, una marca enzimática, o un radioisótopo. De una manera alternativa, el enlace del anti-cuerpo con la muestra se puede detectar utilizando un anti-cuerpo secundario que tenga la marca detectable en el mismo. Los ensayos particulares incluyen ensayos ELISA, ensayos de emparedado, radioinmunoensa-yos, y Manchas Western. Se pueden obtener anti-cuerpos policlonales generados contra los polipéptidos de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, o fragmentos que comprendan cuando menos 5, 10, 15, 20, 25, 30, 35, 40, 50, 75, 100, o 150 aminoácidos consecutivos de las mismas, mediante inyección directa de los polipéptidos en un animal, o mediante la administración de los polipéptidos a un animal, por ejemplo un no humano. El anti-cuerpo asi obtenido entonces se enlazará con el polipéptido mismo. De esta manera, se puede utilizar inclusive una secuencia que codifique solamente un fragmento del polipéptido, para generar anti-cuerpos que se puedan enlazar al polipéptido nativo entero. Estos anti-cuerpos se pueden utilizar entonces para aislar el polipéptido de las células que expresen ese polipéptido. Para la preparación de anti-cuerpos monoclonales, se puede utilizar cualquier técnica que proporcione anti-cuerpos producidos mediante cultivos de lineas celulares continuos. Los ejemplos incluyen la técnica de ibridoma (Kohler y Milstein, Nature, 256 : 495-497 , 1975, cuya divulgación se incorpora a la presente como referencia) , la técnica trioma, la técnica de hibridoma de células B humanas (Kozbor y colaboradores, Immuno-logy Today 4: 72, 1983, cuya divulgación se incorpora a la presente como referencia) , y la técnica de ibridoma-EBV (Colé y colaboradores, 1985, en Monoclonal Antibodies and Cáncer Therapy, Alan R. Liss, Inc., páginas 77-96, cuya divulgación se incorpora a la presente como referencia) . Las técnicas descritas para la producción de anticuerpos de una sola cadena (patente US 4,946,778, cuya divulgación se incorpora a la presente como referencia) se pueden adaptar para producir anti-cuerpos de una sola cadena para los polipéptidos de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, o fragmentos que comprendan cuando menos 5, 10, 15, 20, 25, 30, 35, 40, 50, 75, 100, o 150 aminoácidos consecutivos de las mismas. De una manera alternativa, se pueden utilizar ratones transgénicos para expresar los anti-cuerpos humanizados para estos polipéptidos o fragmentos de los mismos. Los anti-cuerpos generados contra los polipéptidos de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, o fragmentos que comprendan cuando menos 5, 10, 15, 20, 25, 30, 35, 40, 50, 75, 100, o 150 aminoácidos consecutivos de las mismas, se pueden utilizar en el rastreo de polipéptidos similares de otros organismos y muestras. En estas técnicas, los polipéptidos del organismo se ponen en contacto con el anti-cuerpo, y se detectan los polipéptidos que se enlacen específicamente con el anti-cuerpo. Se puede utilizar cualquiera de los procedimientos descritos anteriormente para detectar el enlace del anti-cuerpo. Uno de estos ensayos de rastreo se describe en "Methods for Measuring Cellulase Activi-ties", Methods in Enzymology, Volumen 160, páginas 87-116, el cual se incorpora a la presente como referencia en su totalidad. Como se utiliza en la presente, el término "secuencia de ácido nucleico como se estipula en las SEQ ID Nos: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45, y 47" abarca las secuencias de nucleótidos de las secuencias de aminoácidos del Grupo ?, y secuencias sustancialmente idénticas a las mismas, así como las secuencias homologas a las secuencias de ácidos nucleicos del Grupo A, y fragmentos de las mismas, y secuencias complementarias para todas las secuencias anteriores. Los fragmentos incluyen porciones de las SEQ ID Nos: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45, y 47 que comprendan cuando menos 10, 15, 20, 25, 30, 35, 40, 50, 75, 100, 150, 200, 300, 400, o 500 nucleótidos consecutivos de las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas. Las secuencias homologas y fragmentos de las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, se refieren a una secuencia que tiene cuando menos el 99 por ciento, el 98 por ciento, el 97 por ciento, el 96 por ciento, el 95 por ciento, el 90 por ciento, el 85 por ciento, el 80 por ciento, el 75 por ciento, el 70 por ciento, el 65 por ciento, el 60 por ciento, el 55 por ciento, o el 50 por ciento de homología con estas secuencias. La homología se puede determinar utilizando cualquiera de los programas de computación y parámetros descritos en la presente, incluyendo FASTA versión 3.0t78 con los parámetros por omisión. Las secuencias homologas también incluyen secuencias de ARN, donde las uridinas reemplacen a las timinas en las secuencias de ácidos nucleicos como se estipulan en las secuencias de ácidos nucleicos del Grupo A. Las secuencias homologas se pueden obtener utilizando cualquiera de los procedimientos descritos en la presente, o pueden resultar de la corrección de un error de secuenciación. Se apreciará que las secuencias de ácidos nucleicos como se estipulan en las secuencias de ácidos nucleicos del Grupo A, y las secuencias sustancialmente idénticas a las mismas, pueden representarse en el formato tradicional de un solo carácter (ver la portada interna de Stryer, Lubert . Biochemistry, Tercera Edición, W. H. Freeman & Co . , Nueva York) o en cualquier otro formato que registre la identidad de los nucleótidos en una secuencia . Como se utiliza en la presente, el término "una secuencia de polipéptido como se estipula en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, y 48", abarca la secuencia de polipéptido de las secuencias de aminoácidos del Grupo B, y secuencias sustancial-mente idénticas a las mismas, que sean codificadas por una secuencia como se estipula en las SEQ ID Nos: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45, y 47, secuencias de polipéptidos homologas a los polipéptidos de las secuencias de aminoácidos del Grupo B, y secuencias sustancial-mente idénticas a las mismas, o fragmentos de cualquiera de las secuencias anteriores. Las secuencias de polipéptidos homologas se refieren a una secuencia de polipéptido que tiene cuando menos el 99 por ciento, el 98 por ciento, el 97 por ciento, el 96 por ciento, el 95 por ciento, el 90 por ciento, el 85 por ciento, el 80 por ciento, el 75 por ciento, el 70 por ciento, el 65 por ciento, el 60 por ciento, el 55 por ciento, o el 50 por ciento de homología con una de las secuencias de polipéptidos de las secuencias de aminoácidos del Grupo B- La homología se puede determinar utilizando cualquiera de los programas de computación y parámetros descritos en la presente, incluyendo FASTA versión 3.0t78 con los parámetros por omisión, o con cualesquiera parámetros modificados. Las secuencias homologas se pueden obtener utilizando cualquiera de los procedimientos descritos en la presente, o pueden resultar de la corrección de un error de secuenciación. Los fragmentos de polipéptidos comprenden cuando menos 5, 10, 15, 20, 25, 30, 35, 40, 50, 75, 100, o 150 aminoácidos consecutivos de los polipéptidos de las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas. Se apreciará que los códigos de polipéptidos como se estipulan en las secuencias de aminoácidos del Grupo B, y las secuencias sustancialmente idénticas a las mismas, se pueden representar en el formato tradicional de un solo carácter, o en el formato de tres letras (ver la portada interna de Stryer, Lubert, Bioc emistrv, Tercera Edición, W. H. Freeman & Co . , Nueva York) , o en cualquier otro formato que relacione la identidad de los polipéptidos en una secuencia. Los técnicos en la materia apreciarán que una secuencia de ácido nucleico como se estipula en las SEQ ID NOs : 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45, y 47, y una secuencia de polipéptido como se estipula en las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, y 48, se puede almacenar, registrar, y manipular en cualquier medio que pueda ser leído y accesado por una computadora. Como se utilizan en la presente, las palabras "registrar" y "almacenar" se refieren a un proceso para almacenar información en un medio de computación. Un técnico puede adoptar fácilmente cualquier de los métodos actualmente conocidos para registrar información en un medio legible por computadora para generar manufacturas que comprendan una o más de las secuencias de ácidos nucleicos estipuladas en las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, una o más de las secuencias de polipéptidos como se estipulan en las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas. Otro aspecto de la invención es un medio legible por computadora que tiene registradas en el mismo cuando menos 2, 5, 10, 15, o 20 secuencias de ácidos nucleicos como se estipulan en las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas. Otro aspecto de la invención es un medio legible por computadora que tiene registradas en el mismo una o más de las secuencias de ácidos nucleicos como se estipulan en las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas . Otro aspecto de la invención es un medio legible por computadora que tiene registradas en el mismo una o más de las secuencias de polipéptidos como se estipulan en las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas. Otro aspecto de la invención es un medio legible por computadora que tiene registradas en el mismo cuando menos 2, 5, 10, 15, o 20 de las secuencias como se estipulan anteriormente. Los medios legibles por computadora incluyen medios magnéticamente legibles, medios ópticamente legibles, medios electrónicamente legibles, y medios magnéticos/ópticos . Por ejemplo, el medio legible por computadora puede ser un disco duro, un disco flexible, una cinta magnética, CD-ROM, Disco Versátil Digital (DVD) , Memoria de Acceso Aleatorio (RAM) , o Memoria de Sólo Lectura (ROM) , así como otros tipos de medios conocidos por los técnicos en la materia. Las modalidades de la invención incluyen sistemas (por ejemplo, sistemas basados en Internet), en particular sistemas de computación que almacenan y manipulan la información de las secuencias descrita en la presente. Un ejemplo de un sistema de computación 100 se ilustra en forma de diagrama de bloques en la Figura 1. Como se utiliza en la presente, "un sistema de computación" se refiere a los componentes de hardware, los componentes de software, y los componentes de almacenamiento de datos utilizados para analizar una secuencia de nucleótidos de una secuencia de ácido nucleico como se estipula en las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmen-te idénticas a las mismas, o una secuencia de polipéptido como se estipula en las secuencias de aminoácidos del Grupo B. El sistema de computación 100 normalmente incluye un procesador para procesar, accesar, y manipular los datos de secuencias. El procesador 105 puede ser cualquier tipo bien conocido de unidad de procesamiento central, tal como, por ejemplo, Pentium III de Intel Corporation, o un procesador similar de Sun, Motorola, Compaq, AMD, o International Business Machines. Normalmente, el sistema de computación 100 es un sistema para propósitos generales que comprende al procesador 105 y uno o más componentes de almacenamiento de datos internos 110 para almacenar datos, y uno o más dispositivos de recuperación de datos para recuperar los datos almacenados en los componentes de almacenamiento de datos. Un técnico puede apreciar fácilmente que es adecuado cualquiera de los sistemas de computación actualmente disponibles . En una modalidad particular, el sistema de computación 100 incluye un procesador 105 conectado con una barra colectora que se conecta a una memoria principal 115 (de preferencia implementada como RAM) , y uno o más dispositivos de almacenamiento de datos internos 110, tales como un disco duro y/u otro medio legible por computadora que tenga datos registrados en el mismo. En algunas modalidades, el sistema de computación 100 incluye además uno o más dispositivos de recuperación de datos 118, para leer los datos almacenados en los dispositivos de almacenamiento de datos internos 110. El dispositivo de recuperación de datos 118 puede representar, por ejemplo, una unidad de disco flexible, una unidad de disco compacto, una unidad de cinta magnética, o un modem capaz de conectarse a un sistema de almacenamiento de datos remoto (por ejemplo, por medio de la Internet), etcétera. En algunas modalidades, el dispositivo de almacenamiento de datos interno 110 es un medio legible por computadora removible, tal como un disco flexible, un disco compacto, una cinta magnética, etcétera, que contiene la lógica de control y/o los datos grabados en el mismo. El sistema de computación 100 puede incluir convenientemente o se puede programar mediante un software apropiado para leer la lógica de control y/o los datos desde el componente de almacenamiento de datos una vez insertado en el dispositivo de recuperación de datos. El sistema de computación 100 incluye un despliegue visual 120 que se utiliza para exhibir la salida a un usuario de la computadora. También se debe observar que el sistema de computación 100 se puede enlazar con otros sistemas de computación 125a-c en una red, o en una red de área amplia, para proporcionar un acceso centralizado al sistema de computación 100. El software para accesar y procesar las secuencias de nucleótidos de una secuencia de ácido nucleico como se estipula en las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, o una secuencia de polipéptido como se estipula en las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas (tales como herramientas de búsqueda, herramientas de comparación, y herramientas de modelación, etcétera) , puede residir en la memoria principal 115 durante la ejecución. En algunas modalidades, el sistema de computación 100 puede comprender además un algoritmo de comparación de secuencias para comparar una secuencia de ácido nucleico como se estipula en las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, o una secuencia de polipéptido como se estipula en las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, almacenadas en un medio legible por computadora, con una secuencia de nucleótidos o de polipéptido de referencia almacenada en un medio legible por computadora. Un "algoritmo de comparación de secuencias" se refiere a uno o más programas que se implementan (localmente o remotamente) en el sistema de computación 100, para comparar una secuencia de nucleótidos con otra secuencia de nucleótidos y/o compuestos almacenados dentro de un medio de almacenamiento de datos. Por ejemplo, el algoritmo de comparación de secuencias puede comparar las secuencias de nucleótidos de una secuencia de ácido nucleico como se estipula en las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, o una secuencia de polipéptido como se estipula en las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, almacenadas en un medio legible por computadora, con secuencias de referencia almacenadas en un medio legible por computadora, para identificar los homologías o los motivos estructurales. Se contemplan particularmente diferentes programas de comparación de secuencias identificados en cualquier otra parte de esta memoria descriptiva de patente, para utilizarse en este aspecto de la invención. Las homologías de secuencias de proteínas y/o ácidos nucleicos se pueden evaluar utilizando cualquiera de la variedad de algoritmos y programas de comparación de secuencias conocidos en este campo. Estos algoritmos y programas incluyen, pero por ningún medio se limitan a, TBLASTN, BLASTP, FASTA, TFASTA, y CLUSTALW (Pearson y Lipman, Proc. Nati. Acad. Sci . USA 85 (8) -.2444-2448, 1988; Altsc ul y colaboradores, J. Mol. Biol. 215 (3) : 403-410, 1990; Thompson y colaboradores, Nucleic Acids Res. 22 (2) : 4673-4680, 1994; Higgins y colaboradores, Methods Enzymol. 266 : 383-402 , 1996; Altschul y colaboradores, J. Mol. Biol. 215 (3) : 403-410, 1990; Altschul y colaboradores, Nature Genetics 3:266-272, 1993). La homología o identidad con frecuencia se miden utilizando el software de análisis de secuencias (por ejemplo, el Paquete de Software de Análisis de Secuencias del Genetics Computer Group, University of Wisconsin Biotechnology Center, 1710 University Avenue, Madison, Wisconsin 53705, Estados Unidos) . Este software empareja las secuencias similares asignando grados de homología a diferentes supresiones, sustituciones, y otras modificaciones. Los términos "homología" e "identidad" en el contexto de dos o más secuencias de ácidos nucleicos o de polipéptidos, se refieren a dos o más secuencias o subsecuencias que son iguales o que tienen un porcentaje especificado de residuos de aminoácidos o de nucleótidos que son iguales cuando se comparan y se alinean para una correspondencia máxima sobre una ventana de comparación o una región designada, medida utilizando cualquier número de algoritmos de comparación de secuencias, o mediante alineación manual e inspección visual. Para la comparación de secuencias, normalmente una secuencia actúa como una secuencia de referencia, con la que se comparan las secuencias de prueba. Cuando se utiliza un algoritmo de comparación de secuencias, se introducen secuencias de prueba y de referencia en una computadora, se designan las coordenadas de las subsecuencias, si es necesario, y se designan los parámetros del programa del algoritmo de secuencias. Se pueden utilizar los parámetros por omisión del programa, o se pueden designar parámetros alternativos. Luego el algoritmo de comparación de secuencias calcula el porcentaje de identidades de secuencia para las secuencias de prueba en relación con la secuencia de referencia, basándose en los parámetros del programa . Una "ventana de comparación", como se utiliza en la presente, incluye la referencia a un segmento de cualquiera de un número de posiciones contiguas seleccionadas a partir del grupo que consiste en desde 20 hasta 600, usualmente de aproximadamente 50 a aproximadamente 200, más usualmente de aproximadamente 100 a aproximadamente 150, donde se puede comparar una secuencia con una secuencia de referencia del mismo número de posiciones contiguas después de que se alinean óptimamente las dos secuencias. Los métodos de alineación de secuencias para la comparación son bien conocidos en la técnica. Se puede conducir una alineación óptima de secuencias para la comparación, por ejemplo, mediante el algoritmo de homología local de Smith y Waterman, Adv. Appl. Math. 2 : 482, 1981, mediante el algoritmo de alineación de homologías de Needleman y Wunsch, J. Mol. Biol . 48.: 443, 1970, mediante el método de búsqueda de similitud de Person y Lipman, Proc. Nati. Acad. Sci. USA 85:2444, 1988, mediante implementacio-nes computarizadas de estos algoritmos (GAP, BESTFIT, FASTA, y TFAS A en el isconsin Genetics Software Package, Genetics Computer Group, 575 Science Dr., Madison, Wisconsin, Estados Unidos), o mediante alineación manual e inspección visual. Otros algoritmos para determinar la homología o la identidad incluyen, por ejemplo, en adición al programa BLAST (Basic Local Alignment Search Tool en el National Center for Biological Information) , ALIGN, AMAS (Analysis of Multiply Aligned Sequences) , AMPS (Protein Múltiple Sequence Alignment) , ASSET (Aligned Segment Statistical Evaluation Tool), BANDS, BESTSCOR, BIOSCAN (Biological Sequence Comparative Analysis Node) , BLIMPS (BLocks IMProved Searcher) , FASTA, Intervals & Points, BMB, CLUSTAL V, CLUSTAL , CONSENSUS, LCONSENSUS, WCONSENSUS, algoritmo Smith-Waterman, DARWIN, algoritmo Las Vegas, FNAT (Forced Nucleotide Alignment Tool) , Framealign, Framesearch, DYNAMIC, FILTER, FSAP (Fristensky Sequence Analysis Package) , GAP (Global Alignment Program) , GENAL, GIBBS, GenQuest, ISSC (Sensitive Sequence Comparison) , LALIGN (Local Sequence Alignment) , LCP (Local Content Program) , MACAW (Múltiple Alignment Construction & Analysis Workbench) , MAP (Múltiple Alignment Program) , MBLKP, MBLKN, PIMA (Pattern-Induced Multi-sequence Alignment) , SAGA (Sequence Alignment by Genetic Algorithm) y WHAT-IF. Estos programas de alineación también se pueden utilizar para rastrear bases de datos de genomas, con el fin de identificar secuencias de polinucleótidos que tengan secuencias sustancialmente idénticas. Están disponibles un número de bases de datos de genomas, por ejemplo, una porción sustancial del genoma humano está disponible como parte del Proyecto de Secuenciación del Genoma Humano (J. Roach, http : //weber . u. Washington.edu/Droach/human_genome_progress 2.html) (Gibbs, 1995) . Ya se han secuenciado cuando menos otros 21 genomas, incluyendo, por ejemplo, M. genitalium (Fraser y colaboradores, 1995), M. jannaschii (Bult y colaboradores, 1996), H. influenzae (Fleischmann y colaboradores, 1995) , E. coli (Blattner y colaboradores, 1997), y levadura (S. cerevisiae) (Mewes y colaboradores, 1997), y D. melanogaster (Adams y colaboradores, 2000) . También se ha hecho un progreso significativo en la secuenciación de los genomas del organismo modelo, tales como C. elegans y Arabidopsis sp. Varias bases de datos que contienen información genómica anotada con alguna información funcional, son mantenidas por diferentes organizaciones, y están accesibles mediante la Internet, por ejemplo, http://wwwtigr.org/tdb; http://www.genetics.wisc.edu; htt : //genome-www.stanford.edu/ Dball; http://hiv-web.lanl.gov; http://www.ncbi.nlm.nih.gov; http://www.ebi.ac.uk; http://Pasteur.fr/other/biology; y http : // www. genome .wi .mit . edu . Un ejemplo de un algoritmo útil es el de los algoritmos BLAST y BLAST 2.0, que se describen en Altschul y colaboradores, J. Mol. Biol. 215: 403-410, 1990, respectivamente. El software para realizar los análisis BLAST está públicamente disponible a través del National Center' for Biotechnology Information (http : // www.ncbi.nlm.nih.gov/). Este algoritmo involucra identificar primero los pares de secuencias de alta calificación (HSPs) mediante la identificación de palabras cortas de una longitud W en la secuencia pedida, que concuerden o satisfagan con algún puntaje umbral de valor positivo T al alinearse con una palabra de la misma longitud en una secuencia de la base de datos. T es referido como el umbral de puntaje de palabra vecina (Altschul y colaboradores, supra) . Estos impactos iniciales de la palabra vecina actúan como semillas para iniciar búsquedas con el fin de encontrar HSPs más largos que las contengan. Los impactos de palabras se extienden en ambas direcciones a lo largo de cada secuencia por tanto como se pueda incrementar el puntaje de alineación acumulativa. Los puntajes acumulativos se calculan utilizando, para las secuencias de nucleótidos, los parámetros M (puntaje de recompensa para un par de residuos que se emparejan; siempre >0) . Para secuencias de aminoácidos, se utiliza una matriz de puntaje para calcular el puntaje acumulativo. La extensión de los impactos de la palabra en cada dirección se detiene cuando: el puntaje de alineación acumulativa cae fuera por una cantidad X desde su máximo valor alcanzado; el puntaje acumulativo va hasta cero o menos, debido a la acumulación de una o más alineaciones de residuos de puntaje negativo; o se llega al final de cualquier secuencia. Los parámetros W, T, y X del algoritmo BLAST determinan la sensibilidad y velocidad de la alineación. El programa BLASTN (para secuencias de nucleótidos) utiliza como omisiones una longitud de palabra (w) de 11, una expectativa (E) de 10, M=5, N=-4, y una comparación de ambas cadenas. Para las secuencias de aminoácidos, el programa BLASTP utiliza como omisiones una longitud de palabra de 3, y expectativas (E) de 10, y la matriz de puntaje BLOSOM62 (ver Henikoff y Henikoff, Proc. Nati. Acad. Sci. USA 9:10915, 1989) las alineaciones (B) de 50, expectativa (E) de 10, M=5, N=-4, y una comparación de arabas cadenas . El algoritmo BLAST también realiza un análisis estadístico de la similitud entre dos secuencias (ver, por ejemplo, Karlin y Altschul, Proc. Nati. Acad. Sci. USA 90 : 5873, 1993) . Una medida de la similitud proporcionada por el algoritmo BLAST es la probabilidad de suma más pequeña (P(N)), que proporciona una indicación de la probabilidad por la cual ocurriría un emparejamiento entre dos secuencias de nucleótidos o de aminoácidos por azar. Por ejemplo, un ácido nucleico se considera similar a una secuencia de referencia si la probabilidad de suma más pequeña en una comparación del ácido nucleico de prueba con el ácido nucleico de referencia es menor de aproximadamente 0.2, más preferiblemente menor de aproximadamente 0.01, y muy preferiblemente menor de aproximadamente 0.001. En una modalidad, se evalúan las homologías de secuencias de proteina y ácido nucleico utilizando la Basic Local Alignment Search Tool ("BLAST") . En particular, se utilizan cinco programas BLAST específicos para realizar la siguiente tarea: (1) BLASTP y BLAST3 comparan una secuencia de aminoácidos pedida contra una base de datos de secuencias de proteínas ; (2) BLASTN compara una secuencia de nucleótidos pedida contra una base de datos de secuencias de nucleótidos; (3) BLASTX compara los productos de traducción conceptual de seis marcos de una secuencia de nucleótidos pedida (ambas cadenas) contra una base de datos de secuencias de proteínas ; (4) TBLASTN compara una secuencia de proteína pedida contra una base de datos de secuencias de nucleótidos traducida en todos los seis marcos de lectura (ambas cadenas) ; y (5) TBLASTX compara las traducciones de seis marcos de una secuencia de nucleótidos pedida contra las traducciones de seis marcos de una base de datos de secuencias de nucleótidos. Los programas BLAST identifican las secuencias homologas mediante la identificación de segmentos similares, los cuales son referidos en la presente como "pares de segmentos de alto puntaje", entre una secuencia de aminoácidos o de ácido nucleico pedida y una secuencia de prueba que de preferencia se obtiene de una base de datos de secuencias de proteínas o de ácidos nucleicos. Los pares de segmentos de alto puntaje de preferencia se identifican (es decir, se alinean) por medio de una matriz de puntaje, muchas de las cuales son conocidas en la técnica. De preferencia, la matriz de puntaje utilizada es la matriz BLOSOM62 (Gonnet y colaboradores, Science 256 : 1443-1445, 1992; Henikoff y Henikoff, Proteins 17:49-61, 1993). De una manera menos preferible, también se pueden utilizar las matrices P7AM o PAM250 (ver, por ejemplo, Schwartz y Dayhoff, editores, 1978, Matrices for Detecting Distance Relationship: Atlas of Protein Sequence and Structure, Washington: National Biomedical Research Foundation) . Los programas BLAST son accesibles a través de la U.S. National Library of Medicine, por ejemplo en www. ncbi .nlm.nih. gov. Los parámetros utilizados con los algoritmos anteriores se pueden adaptar dependiendo de la longitud de la secuencia y del grado de homología estudiado. En algunas modalidades, los parámetros pueden ser los parámetros por omisión utilizados por algoritmos en ausencia de instrucciones del usuario. La Figura 2 es un diagrama de flujo que ilustra una modalidad de un proceso 200 para comparar una nueva secuencia de nucleótido o de proteína con una base de datos de secuencias, con el objeto de determinar los niveles de homología entre la nueva secuencia y las secuencias de la base de datos. La base de datos de secuencias puede ser una base de datos privada almacenada dentro del sistema de computación 100, o una base de datos pública, tal como GENBANK, que está disponible a través de la Internet . El proceso 200 empieza en un estado de inicio 201, y luego se mueve hasta un estado 202, donde la nueva secuencia que se va a comparar se almacena en una memoria de un sistema de computación 100. Como se describió anteriormente, la memoria podría ser cualquier tipo de memoria, incluyendo RAM, o un dispositivo de almacenamiento interno. El proceso 200 se mueve entonces hasta un estado 204, donde se abre una base de datos de secuencias para el análisis y la comparación. Luego el proceso 200 se mueve hasta un estado 206, donde se lee la primera secuencia almacenada en la base de datos en una memoria de la computadora. Luego se realiza una comparación en un estado 210, para determinar si la primera secuencia es igual que la segunda secuencia. Es importante observar que este paso no está limitado a realizar una comparación exacta entre la nueva secuencia y la primera secuencia de la base de datos. Los técnicos en la materia conocen métodos que son bien conocidos para comparar dos secuencias de nucleótidos o de proteínas, inclusive cuando no sean idénticas. Por ejemplo, se pueden introducir huecos en una secuencia con el objeto de elevar el nivel de homología entre las dos secuencias probadas. Los parámetros que controlan si se introducen huecos u otras características en una secuencia durante la comparación, normalmente son introducidos por el usuario del sistema de computación .
Una vez que se ha realizado una comparación de las dos secuencias en el estado 210, se hace una determinación en un estado de decisión 210, de si las dos secuencias son iguales. Por supuesto, el término "iguales" no está limitado a secuencias que sean a solutamente idénticas. Las secuencias que estén dentro de los parámetros de homología introducidos por el usuario, se marcarán como "iguales" en el proceso 200. Si se hace una determinación de que las dos secuencias son iguales, el proceso 200 se mueve hasta un estado 214, donde se exhibe para el usuario el nombre de la secuencia de la base de datos. Este estado notifica al usuario que la secuencia con el nombre exhibido satisface las limitaciones de homología que se introdujeron. Una vez que se exhibe para el usuario el nombre de la secuencia almacenada, el proceso 200 se mueve hasta un estado de decisión 218, donde se hace una determinación de si existen más secuencias en la base de datos. Si no existen más secuencias en la base de datos, entonces el proceso 200 termina en un estado de fin 220. Sin embargo, si existen más secuencias en la base de datos, entonces el proceso 200 se mueve hasta un estado 224, donde se mueve un señalador hacia la siguiente secuencia de la base de datos, de tal manera que se puede comparar con la nueva secuencia. De esta manera, la nueva secuencia se alinea y se compara con cada secuencia de la base de datos. Se debe observar que si se hubiera hecho una determinación en el estado de decisión 212 de que las secuencias no eran homologas, entonces el proceso 200 se movería inmediatamente hasta el estado de decisión 218 con el objeto de determinar si estaban disponibles cualesquiera otras secuencias en la base de datos para la comparación. De conformidad con lo anterior, un aspecto de la invención es un sistema de computación que comprende un procesador, un dispositivo de almacenamiento de datos que tiene almacenada en el mismo una secuencia de ácido nucleico como se estipula en las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, o una secuencia de polipéptido como se estipula en las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, un dispositivo de almacenamiento de datos que tiene almacenadas de una manera recuperable en el mismo, secuencias de nucleótidos o secuencias de polipéptidos de referencia para compararse con una secuencia de ácido nucleico como se estipula en las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, o una secuencia de polipéptido como se estipula en las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, y un comparador de secuencias para conducir la comparación. El comparador de secuencias puede indicar un nivel de homología entre las secuencias comparadas, o puede identificar motivos estructurales en el código de ácido nucleico anteriormente descrito de las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, o una secuencia de polipéptido como se estipula en las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, o puede identificar motivos estructurales en secuencias que se comparen con estos códigos de ácidos nucleicos y códigos de polipéptidos . En algunas modalidades, el dispositivo de almacenamiento de datos puede tener almacenadas en el mismo las secuencias de cuando menos 2, 5, 10, 15, 20, 25, 30, 40 o más de las secuencias de ácidos nucleicos como se estipula en las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, o las secuencias de polipéptidos como se estipulan en las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas. Otro aspecto de la invención es un método para determinar el nivel de homología entre una secuencia de ácido nucleico como se estipula en las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, o una secuencia de polipéptido como se estipula en las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, y una secuencia de nucleótidos de referencia. El método que incluye leer el código del ácido nucleico o el código del polipéptido y la secuencia del nucleóti-do o polipéptido de referencia a través del uso de un programa de computación, que determina los niveles de homología, y de determinar la homología entre el código del ácido nucleico o el código del polipéptido y la secuencia del nucleótido o polipéptido de referencia con el programa de computación. El programa de computación puede ser cualquier de un número de programas de computación para determinar niveles de homología, incluyendo aquéllos específicamente enumerados en la presente (por ejemplo, BLAST2N con los parámetros por omisión o con cualesquiera parámetros modificados) . El método se puede implementar utilizando los sistemas de computación descritos anteriormente. El método también se puede realizar leyendo cuando menos 2, 5, 10, 15, 20, 25, 30, o 40 o más de las secuencias de ácidos nucleicos anteriormente descritas, como se estipulan en las Secuencias de ácidos nucleicos del Grupo A, o las secuencias de polipéptidos como se estipulan en las secuencias de aminoácidos del Grupo B, a través del uso del programa de computación, y determinando la homología entre los códigos de ácidos nucleicos o códigos de polipéptidos y las secuencias de nucleótidos o secuencias de polipéptidos de referencia. La Figura 3 es un diagrama de flujo que ilustra una modalidad de un proceso 250 en una computadora para determinar si dos secuencias son homologas. El proceso 250 empieza en un estado de inicio 252, y luego se mueve hasta un estado 254, donde se almacena en una memoria una primera secuencia que se vaya a comparar. La segunda secuencia que se va a comparar se almacena entonces en una memoria en un estado 256. Luego el proceso 250 se mueve hasta un estado 260, donde se lee el primer carácter de la primera secuencia, y luego hasta un estado 262, donde se lee el primer carácter de la segunda secuencia. Se debe entender que, si la secuencia es una secuencia de nucleótidos, entonces el carácter normalmente seria cualquier de A, T, C, G, o U. Si la secuencia es una secuencia de proteina, entonces de preferencia está en el código de aminoácidos de una sola letra, de tal manera que se pueden comparar fácilmente las primera y segunda secuencias . Entonces se hace una determinación en un estado de decisión 264, de si los dos caracteres son iguales. Si son iguales, entonces el proceso 250 se mueve hasta un estado 268, donde se leen los siguientes caracteres de las primera y segunda secuencias. Luego se hace una determinación de si los siguientes caracteres son iguales. Si lo son, entonces el proceso 250 continúa este ciclo hasta que dos caracteres no sean iguales. Si se hace una determinación de que los siguientes dos caracteres no son iguales, el proceso 250 se mueve hasta un estado de decisión 274 para determinar si hay más caracteres de cualquier secuencia para leer. Si no hay más caracteres para leer, entonces el proceso 250 se mueve hasta un estado 276, donde se exhibe para el usuario el nivel de homología entre las primera y segunda secuencias. El nivel de homología se determina calculando la proporción de caracteres entre las secuencias que fueron iguales, del número total de secuencias en la primera secuencia. Por consiguiente, si cada carácter de una primera secuencia de 100 nucleótidos queda alineado con cada carácter en una segunda secuencia, el nivel de homología sería del 100 por ciento. De una manera alternativa, el programa de computación puede ser un programa de computación que compare las secuencias de nucleótidos de una secuencia de ácido nucleico como se estipula en la invención, con una o más secuencias de nucleótidos de referencia, con el objeto de determinar si el código de ácido nucleico de las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, difiere de una secuencia de ácido nucleico de referencia en una o más posiciones. Opcionalmente, este programa registra la longitud e identidad de los nucleótidos insertados, suprimidos, o sustituidos con respecto a la secuencia ya sea del polinucleótido de referencia, o de una secuencia de ácido nucleico como se estipula en las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas. En una modalidad, el programa de computación puede ser un programa que determine si una secuencia de ácido nucleico como se estipula en las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, contiene un polimorfismo de un solo nucleótido (SNP) con respecto a una secuencia de nucleótidos de referencia . De conformidad con lo anterior, otro aspecto de la invención es un método para determinar si una secuencia de ácido nucleico como se estipula en las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, difiere en uno o más nucleótidos de una secuencia de nucleótidos de referencia, el cual comprende los pasos de leer el código del ácido nucleico y la secuencia de nucleótidos de referencia mediante la utilización de un programa de computación, el cual identifica las diferencias entre las secuencias de ácidos nucleicos, e identificar las diferencias entre el código de ácido nucleico y la secuencia de nucleótidos de referencia con el programa de computación. En algunas modalidades, el programa de computación es un programa que identifica polimorfismos de un solo nucleótido. El método se puede implementar mediante los sistemas de computación descritos anteriormente, y el método ilustrado en la Figura 3. El método también se puede llevar a cabo leyendo cuando menos 2, 5, 10, 15, 20, 25, 30, o 40 o más de las secuencias de ácidos nucleicos como se estipulan en las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, y las secuencias de nucleótidos de referencia, a través del uso del programa de computación, e identificando las diferencias entre los códigos de ácidos nucleicos y las secuencias de nucleótidos de referencia con el programa de computación. En otras modalidades, el sistema basado en computadora puede comprender además un identificador para identificar las características dentro de una secuencia de ácido nucleico como se estipula en las secuencias de ácidos nucleicos del Grupo A, o una secuencia de polipéptido como se estipula en las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas. Un "identificador" se refiere a uno o más programas que identifican ciertas características dentro de una secuencia de ácido nucleico como se estipula en las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, o una secuencia de polipéptido como se estipula en las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas. En una modalidad, el identifi-cador puede comprender un programa que identifique un marco de lectura abierta en una secuencia de ácido nucleico como se estipula en las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas. La Figura 5 es un diagrama de flujo que ilustra una modalidad de un proceso identificador 300 para detectar la presencia de una característica en una secuencia. El proceso 300 empieza en un estado de inicio 302, y luego se mueve hasta un estado 304, donde una primera secuencia que se va a verificar por sus características, se almacena en una memoria 115 en el sistema de computación 100. Luego el proceso 300 se mueve hasta un estado 306, donde se abre una base de datos de las características de la secuencia. Esta base de datos incluiría una lista de cada uno de los atributos característicos junto con el nombre de la caracte- rística. Por ejemplo, un nombre de característica podría ser "Codón de Inicio", y el atributo sería "ATG" . Otro ejemplo sería el nombre de característica "Cuadro ??????", y el atributo de la característica sería "??????". Un ejemplo de esta base de datos es producido por el University of Wisconsin Genetics Computer Group (www.gcg.com) . De una manera alternativa, las características pueden ser motivos de polipéptidos estructurales, tales como hélices alfa, hojas beta, o motivos de polipéptidos funcionales, tales como sitios enzimáticos activos, motivos de hélice-vuelta-hélice, u otros motivos conocidos por los técnicos en la materia. Una vez que se abre la base de datos de características en el estado 306, el proceso 300 se mueve hasta un estado 308, donde se lee la primera característica desde la base de datos. Luego se hace una comparación del atributo de la primera característica con la primera secuencia en un estado 310. Entonces se hace una determinación en un estado de decisión 316, de si se encontró el atributo de la característica en la primera secuencia. Si se encontró el atributo, entonces el proceso 300 se mueve hasta un estado 318, donde se exhibe para el usuario el nombre de la característica encontrada. Luego el proceso 300 se mueve hasta un estado de decisión 320, donde se hace una determinación de si existen características que se muevan en la base de datos. Si no existen más características, entonces el proceso 300 termina en un estado de fin 324. Sin embargo, si existen más características en la base de datos, entonces el proceso 300 lee la siguiente característica de secuencia en un estado 326, y cicla de regreso al estado 310, donde se compara el atributo de la siguiente característica contra la primera secuencia. Se debe observar que, si no se encuentra el atributo de la característica en la primera secuencia en el estado de decisión 316, el proceso 300 se mueve directamente hasta el estado de decisión 320, con el objeto de determinar si existen más características en la base de datos. De conformidad con lo anterior, otro aspecto de la invención es un método para identificar una característica dentro de una secuencia de ácido nucleico como se estipula en las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, o una secuencia de polipéptido como se estipula en las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, el cual comprende leer los códigos de ácidos nucleicos o los códigos de polipéptidos a través del uso de un programa de computación, el cual identifica las características en los mismos,. e identifica las características dentro de los códigos de ácidos nucleicos con el programa de computación. En una modalidad, el programa de computación comprende un programa de computación que identifica los marcos de lectura abierta. El método se puede realizar leyendo una sola secuencia de cuando menos 2, 5, 10, 15, 20, 25, 30, o 40 de las secuencias de ácidos nucleicos como se estipulan en las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, o las secuencias de polipéptidos como se estipulan en las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, a través del uso del programa de computación, e identificando las características dentro de los códigos de ácidos nucleicos o códigos de polipéptidos con el programa de computación. Una secuencia de ácido nucleico como se estipula en las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, o una secuencia de polipéptido como se estipula en las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, se puede almacenar y manipular en una variedad de programas procesadores de datos en una variedad de formatos. Por ejemplo, una secuencia de ácido nucleico como se estipula en las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, o una secuencia de polipéptido como se estipula en las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas, se puede almacenar como texto en un archivo de procesamiento de palabras, tal como Microsoft Word o WordPerfect, o como un archivo ASCII en una variedad de programas de bases de datos familiares para los técnicos en este campo, tales como DB2, SYBASE, u ORACLE. En adición, se pueden utilizar muchos programas de computación y bases de datos como algoritmos de comparación de secuencias, identificadores , o fuentes de secuencias de nucleótidos o secuencias de polipéptidos de referencia, para compararse con una secuencia de ácido nucleico como se estipula en las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, o una secuencia de polipéptido como se estipula en las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas. La siguiente lista no pretende limitar la invención, sino proporcionar guia para los programas y bases de datos que son útiles con las secuencias de ácidos nucleicos como se estipulan en las secuencias de ácidos nucleicos del Grupo A, y secuencias sustancialmente idénticas a las mismas, o las secuencias de polipéptidos como se estipulan en las secuencias de aminoácidos del Grupo B, y secuencias sustancialmente idénticas a las mismas. Los programas y bases de datos que se pueden utilizar incluyen, pero no se limitan a: MacPattern (EMBL) , DiscoveryBase (Molecular Applications Group) , GeneMine (Molecular Applications Group) , Look (Molecular Applications Group) , MacLook (Molecular Applications Group), BLAST y BLAST2 (NCBI) , BLASTN y BLASTX (Altschul y colaboradores, J. Mol. Biol. 215: 403, 1990), FASTA (Pearson y Lipman, Proc. Nati. Acad. Sci. USA, 85:2444, 1988), FASTDB (Brutlag y colaboradores, Comp. App . Biosci. 6 : 237-245, 1990), Catalyst (Molecular Simulations Inc.), Catalyst/SHAPE (Molecular Simulations Inc.), Cerius2. DBAccess (Molecular Simulations Inc.), HypoGen (Molecular Simulations Inc.), Insight II (Molecular Simulations Inc.), Discover (Molecular Simulations Inc.)/ CHARMm (Molecular Simulations Inc.), Félix (Molecular Simulations Inc.), DelPhi (Molecular Simulations Inc.), QuanteMM (Molecular Simulations Inc.), Homology (Molecular Simulations Inc.), Modeler (Molecular Simulations Inc) , ISIS (Molecular Simulations Inc.), Quanta/Protein Design (Molecular Simulations Inc.), WebLab (Molecular Simulations Inc.), WebLab Diversity Explorer (Molecular Simulations Inc.), Gene Explorer (Molecular Simulations Inc.), SeqFold (Molecular Simulations Inc.), la base de datos MDL Available Chemicals Directory, la base de datos MDL Drug Data Report, la base de datos Comprehensi e Medicinal Chemistry, la base de datos Derwent's World Drug Index, la base de datos BioByteMasterFile, la base de datos GenBank, y la base de datos Genseqn. Muchos otros programas y bases de datos serian aparentes para un técnico en la materia, dada la presente divulgación. Los motivos que se pueden detectar utilizando los programas anteriores incluyen secuencias que codifican cremalleras de leucina, motivos de hélice-vuelta-hélice, sitios de glicosilación, sitios de ubiquitinación, hélices alfa, y hojas beta, secuencias de señales que codifican péptidos de señales que dirigen la secreción de las proteínas codificadas, secuencias implicadas en la regulación de transcripción tales como homeocua-dros, estiramientos ácidos, sitios enzimáticos activos, sitios de enlace de sustrato, y sitios de disociación enzimática.
La presente invención explota las propiedades catalíticas únicas de las enzimas. Aunque el uso de biocatalizadores (es decir, enzimas purificadas o crudas, células no vivas o vivas) en las transformaciones químicas normalmente requiere de la identificación de un biocatalizador particular que reaccione con un compuesto de partida específico, la presente invención utiliza biocatalizadores seleccionados y condiciones de reacción que son específicas para los grupos funcionales que están presentes en muchos compuestos de partida, tales como moléculas pequeñas. Cada biocatalizador es específico para un grupo funcional, o para varios grupos funcionales relacionados, y puede reaccionar con muchos compuestos de partida que contengan a este grupo funcional . Las reacciones biocatalíticas producen una población de derivados a partir de un solo compuesto de partida. Estos derivados se pueden someter a otra ronda de reacciones biocatalíticas para producir una segunda población de compuestos deriva-dos. Se pueden producir miles de variaciones de la molécula pequeña o compuesto original con cada iteración de derivación biocatalítica. Las enzimas reaccionan en sitios específicos de un compuesto de partida sin afectar al resto de la molécula, un proceso que es muy difícil de lograr utilizando los métodos químicos tradicionales. Este alto grado de especificidad biocatalítica proporciona el medio para identificar un solo compuesto activo dentro de la biblioteca. La biblioteca se caracteriza por la serie de reacciones biocatalíticas utilizadas para producirla, una denominada "historia biosintética" . El rastreo de la biblioteca para determinar las actividades biológicas, y el rastreo de la historia biosintética, identifica la secuencia de reacción específica que produce al compuesto activo. La secuencia de reacción se repite, y se determina la estructura del compuesto sintetizado. Este modo de identificación, a diferencia de otros planteamientos de síntesis y rastreo, no requiere de tecnologías de inmovilización, y los compuestos se pueden sintetizar y probar libres en solución utilizando virtualmente cualquier tipo de ensayo de rastreo. Es importante observar que el alto grado de especificidad de las reacciones enzimáticas sobre los grupos funcionales, permite el "rastreo" de reacciones enzimáticas específicas que forman la biblioteca biocatalíticamente producida. Muchos de los pasos del procedimiento se realizan utilizando automatización robótica, que hace posible la ejecución de muchas miles de reacciones biocatalíticas y ensayos de rastreo al día, así como asegura un alto nivel de exactitud y reproduci-bilidad. Como un resultado, se puede producir una biblioteca de compuestos derivados en materia de semanas, lo cual tomaría años de producir utilizando los métodos químicos actuales. En una modalidad particular, la invención proporciona un método para modificar moléculas pequeñas, el cual comprende poner en contacto un polipéptido codificado por un polinucleótido descrito en la presente, o fragmentos enzimáticamente activos del mismo, con una molécula pequeña, para producir una molécula pequeña modificada. Se prueba una biblioteca de moléculas pequeñas modificadas para determinar si está presente una molécula pequeña modificada dentro de la biblioteca, que exhiba una actividad deseada. Se identifica una reacción biocatalitica especifica que produzca la molécula pequeña modificada de la actividad deseada, eliminando sistemáticamente cada una de las reacciones biocataliticas utilizadas para producir una porción de la biblioteca, y luego se prueban las moléculas pequeñas producidas en la porción de la biblioteca para determinar la presencia o ausencia de la molécula pequeña modificada con la actividad deseada. Opcionalmente se repiten las reacciones biocataliticas especificas que producen la molécula pequeña modificada de la actividad deseada. Las reacciones biocataliticas se conducen con un grupo de biocatalizadores que reaccionan con distintas fracciones estructurales encontradas dentro de la estructura de una molécula pequeña; cada biocatalizador es especifico para una fracción estructural o un grupo de fracciones estructurales relacionadas; y cada biocatalizador reacciona con muchas moléculas pequeñas diferentes que contienen la fracción estructural distinta. La invención se describirá adicionalmente con referencia a los siguientes ejemplos; sin embargo, se debe entender que la invención no está limitada a estos ejemplos. EJEMPLOS Enemplo 1 Mutaqénesis de Saturación del Sitio Para llevar a cabo la mutagénesis de saturación del sitio, cada residuo (317) de una enzima de deshalogenasa (SEQ ID NO: 2) codificada por la SEQ ID NO: 1, se convirtió en todos los 20 aminoácidos mediante mutagénesis dirigida al sitio, utilizando cebadores de oligonucleótidos degenerados 32 veces, como sigue: Se hizo crecer un cultivo de la construcción de expresión de deshalogenasa, y se hizo la preparación del plásmido . Se hicieron los cebadores para aleatorizar cada codón -tienen la estructura común X20NN (G/T) X20r donde X20 representa los 20 nucleótidos de la secuencia de ácido nucleico de la SEQ ID NO: 1 que flanquea al codón que se va a cambiar. Se preparó una mezcla de reacción de 25 microlitros conteniendo aproximadamente 50 nanogramos de plantilla de plásmido, 125 nanogramos de cada cebador, IX de regulador Pfu nativo, 200 uM de cada dNTP, y 2.5 unidades de polimerasa de ADN de Pfu nativa. La reacción se cicló en un Ciclador de Gradiente Robo96 como sigue: Desnaturalización inicial a 95°C durante 1 minuto; 20 ciclos de 95°C durante 45 segundos, 53°C durante 1 minuto, y 72°C durante 11 minutos; y paso de elongación final de 72 °C durante 10 minutos. La mezcla de reacción se digirió con 10 unidades de Dpnl a 37 °C durante 1 hora, para digerir el ADN de plantilla metilado . Se utilizaron 2 microlitros de la mezcla de reacción para transformar 50 microlitros de células XLl-Blue MRF', y toda la mezcla de transformación se aplicó sobre una placa LB-Amp-Met grande, produciendo de 200 a 1,000 colonias. Las colonias individuales se recogieron con un palillo en los pozos de placas de microtitulación de 384 pozos conteniendo LB-Amp-IPTG, y se cultivaron durante la noche. Los clones de estas placas se ensayaron al dia siguiente . Ejemplo 2 Estabilidad Térmica de la Deshaloqenasa Esta invención dispone que se ejemplifique una propiedad deseable para generarse mediante evolución dirigida en una forma limitante, mediante una actividad residual mejorada (por ejemplo, una actividad enzimática, una inmunorreactividad, una actividad antibiótica, etcétera) de una molécula, al someterse a un medio ambiente alterado, incluyendo lo que se puede considerar un medio ambiente hostil, durante un tiempo especificado. Este método ambiente hostil puede comprender cualquier combinación de los siguientes (iterativamente o no, y en cualquier orden o permutación) : una temperatura elevada (incluyendo una temperatura que pueda ocasionar la desnaturalización de una enzima de trabajo) , una temperatura reducida, una salinidad elevada, una salinidad reducida, un pH elevado, un pH reducido, una presión elevada, una presión reducida, y un cambio en la exposición a una fuente de radiación (incluyendo radiación ultravioleta, luz visible, asi como todo el espectro electromagnético) . El siguiente ejemplo muestra una aplicación de evolución dirigida para hacer evolucionar la capacidad de una enzima para volver a ganar o retener la actividad al exponerse a una temperatura elevada. Cada residuo (317) de una enzima de deshalogenasa, se convirtió en todos los 20 aminoácidos mediante mutagénesis dirigida al sitio, utilizando cebadores de oligonucleótidos degenerados 32 veces, como se describió anteriormente. El procedimiento de rastreo fue como sigue: Los cultivos nocturnos en placas de 384 pozos, se centrifugaron, y se removió el medio. ? cada pozo se le agregaron 0.06 mililitros de Tris 1 mM/S042", pH de 7.8. Un robot hizo 2 placas de ensayo a partir de cada placa de cultivo progenitora, consistentes en una suspensión celular de 0.02 mililitros. Una placa de ensayo se puso a temperatura ambiente, y la otra a temperatura elevada (el rastreo inicial utilizó 55°C) durante un periodo de tiempo (inicialmente 30 minutos) . Después del tiempo prescrito, se agregaron a cada pozo 0.08 mililitros de sustrato a temperatura ambiente (Tris 1 mM/S042_ saturado con TCP, pH de 7.8, con NaN3 1.5 mM y azul de bromotimol 0.1 mM) . TCP = tricloropropano . Se tomaron mediciones a 620 nanómetros en diferentes puntos del tiempo para generar una curva de progreso para cada pozo . Se analizaron los datos, y se comparó la cinética de las células calentadas con aquélla de las no calentadas. Cada placa contenía 1-2 columnas (24 pozos) de controles 20F12 no mutados . Los pozos que parecían tener una mejor estabilidad se volvieron a cultivar y se probaron bajo las mismas condiciones. Enseguida de este procedimiento, se secuenciaron los clones que tenían mutaciones que conferían una mayor estabilidad térmica, para determinar los cambios de aminoácidos exactos en cada posición que eran específicamente responsables de la mejora. Se identificaron los mutantes que tenían una secuencia de ácido nucleico como se estipula en las SEQ ID Nos: 5 y 7, y las secuencias de polipéptidos estipuladas en las SEQ ID Nos: 6 y 8, respectivamente. El mutante térmico en la posición G18V (SEQ ID NO: 6) también puede ser un glutamato (Q) con una estabilidad térmica aumentada similar. Similarmente, la permutación P302A se podría cambiar a leucina (L) , serina (S) , lisina (K) , o arginina (R) . Estas variantes (asi como las que se encuentran más adelante) están abarcadas por la presente invención. Enseguida de este procedimiento, 9 mutaciones de un solo sitio parecieron conferir una mayor estabilidad térmica. El análisis de la secuencia mostró que los siguientes cambios fueron benéficos : D89G; G91S; T159L; G182Q; G182V; I220L; N238T; W251Y; P302A, P302L, P302S, P302K; P302R/S306R. Solamente dos sitios (189 y 302) tuvieron más de una sustitución. Los primeros cinco de la lista se combinaron (utilizando G189Q) en un solo gen. La estabilidad térmica se evaluó incubando la enzima a la temperatura elevada (55°C y 80°C) durante algún periodo de tiempo, y se ensayó la actividad a 30°C. Los índices iniciales se graficaron contra el tiempo a la temperatura más alta. La enzima estuvo en Tris 50 mM/S04, pH de 7.8, tanto para la incubación como para el ensayo. El producto (Cl~) se detectó mediante un método estándar, utilizando Fe(N03)3 y HgSCN. Se utilizó la des alogenasa de la SEQ ID NO: 2 como el tipo silvestre de facto. La vida media aparente (T1/2) se calculó ajustando los datos a una función de decaimiento exponencial. Aunque la invención se ha descrito con detalle con referencia a ciertas modalidades preferidas de la misma, se entenderá que las modificaciones y variaciones están dentro del espíritu y alcance como se describe y se reivindica.

Claims (145)

  1. REIVINDICACIONES 1. Un ácido nucleico aislado, que comprende una secuencia que codifica un polipéptido que tiene actividad de deshalogenasa, donde dicha secuencia es seleccionada del grupo que consiste en: SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47; variantes que tienen al menos alrededor de 50% de homología con al menos una de las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47, sobre una región de al menos alrededor de 100 residuos, según se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; secuencias complementarias a las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47; y secuencias complementarias a variantes que tienen al menos alrededor de 50% de homología con las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual.
  2. 2. El ácido nucleico aislado como se define en la reivindicación 1, donde el ácido nucleico aislado comprende una secuencia complementaria que híbrida bajo condiciones de alta astringencia a una secuencia seleccionada del grupo que consiste en: SEQ ID NOs : 3, 5, 7, 9, 11, 13, 15, 11, 19, 21, 23, 25, 21, 29, 31, 33, 35, 37, 39, 43, 45 y 47, y variantes que tienen al menos alrededor de 50% de homología con al menos una de las SEQ ID NOs: 3, 5, 1, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual.
  3. 3. El ácido nucleico aislado como se define en la reivindicación 1, donde el ácido nucleico aislado comprende una secuencia complementaria que híbrida bajo condiciones de astringencia moderada a una secuencia seleccionada del grupo que consiste en: SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47, y variantes que tienen al menos alrededor de 50% de homología con al menos una de las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual.
  4. 4. El ácido nucleico aislado como se define en la reivindicación 1, donde el ácido nucleico aislado comprende una secuencia complementaria que híbrida bajo condiciones de baja astringencia a una secuencia seleccionada del grupo que consiste en: SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47, y variantes que tienen al menos alrededor de 50% de homología con al menos una de las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual.
  5. 5. El ácido nucleico aislado como se define en la reivindicación 1, donde dichas variantes tienen al menos alrededor de 50% de homología con al menos una de las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47, sobre una región de al menos alrededor de 200 residuos, como se determina por análisis con un algoritmo de comparación de secuencias.
  6. 6. El ácido nucleico aislado de acuerdo con la reivindicación 1, donde dichas variantes tienen al menos alrededor de 50% de homología con al menos una de las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47, sobre toda la secuencia.
  7. 7. El ácido nucleico aislado de acuerdo con la reivindicación 1, 2, 3, 4, 5 o 6, donde dichas variantes tienen al menos alrededor de 55% de homología con al menos una de las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47.
  8. 8. El ácido nucleico aislado de acuerdo con la reivindicación 1, 2, 3, 4, 5 o 6, donde dichas variantes tienen al menos alrededor de 60% de homología con al menos una de las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47.
  9. 9. El ácido nucleico aislado de acuerdo con la reivindicación 1, 2, 3, 4, 5 o 6, donde dichas variantes tienen al menos alrededor de 65% de homología con al menos una de las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47.
  10. 10. El ácido nucleico aislado de acuerdo con la reivindicación 1, 2, 3, 4, 5 o 6, donde dichas variantes tienen al menos alrededor de 70% de homología con al menos una de las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47.
  11. 11. El ácido nucleico aislado de acuerdo con la reivindicación 1, 2, 3, 4, 5 o 6, donde dichas variantes tienen al menos alrededor de 75% de homología con al menos una de las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47.
  12. 12. El ácido nucleico aislado de acuerdo con la reivindicación 1, 2, 3, 4, 5 o 6, donde dichas variantes tienen al menos alrededor de 80% de homología con al menos una de las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47.
  13. 13. El ácido nucleico aislado de acuerdo con la reivindicación 1, 2, 3, 4, 5 o 6, donde dichas variantes tienen al menos alrededor de 85% de homología con al menos una de las SEQ ID NOs: 3, 5, 7 , 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47.
  14. 14. El ácido nucleico aislado de acuerdo con la reivindicación 1, 2, 3, 4, 5 o 6, donde dichas variantes tienen al menos alrededor de 90% de homología con al menos una de las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47.
  15. 15. El ácido nucleico aislado de acuerdo con la reivindicación 1, 2, 3, 4, 5 o 6, donde dichas variantes tienen al menos alrededor de 95% de homología con al menos una de las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47.
  16. 16. El ácido nucleico aislado de la reivindicación 1, donde el algoritmo de comparación de secuencias es FASTA, versión 3.0t78, con los parámetros por defecto.
  17. 17. Un ácido nucleico aislado, que comprende al menos 10 bases consecutivas de una secuencia seleccionada del grupo que consiste en: SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47; variantes que tienen al menos alrededor de 50% de homología con al menos una de las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; secuencias complementarias a las SEQ ID NOs : 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47; y secuencias complementarias a variantes que tienen al menos alrededor de 50% de homología con las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual.
  18. 18. El ácido nucleico aislado como se define en la reivindicación 17, donde dicha secuencia tiene al menos alrededor de 50% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47, sobre una región de al menos alrededor de 200 residuos.
  19. 19. El ácido nucleico aislado como se define en la reivindicación 17, donde dicha secuencia tiene al menos alrededor de 50% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47, sobre toda la secuencia .
  20. 20. El ácido nucleico aislado como se define en la reivindicación 17, 18 o 19, donde dicha secuencia tiene al menos alrededor de 55% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID NOs : 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47.
  21. 21. El ácido nucleico aislado como se define en la reivindicación 17, 18 o 19, donde dicha secuencia tiene al menos alrededor de 60% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47.
  22. 22. El ácido nucleico aislado como se define en la reivindicación 17, 18 o 19, donde dicha secuencia tiene al menos alrededor de 65% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47.
  23. 23. El ácido nucleico aislado como se define en la reivindicación 17, 18 o 19, donde dicha secuencia tiene al menos alrededor de 70% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47.
  24. 24. El ácido nucleico aislado como se define en la reivindicación 17, 18 o 19, donde dicha secuencia tiene al menos alrededor de 75% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47.
  25. 25. El ácido nucleico aislado como se define en la reivindicación 17, 18 o 19, donde dicha secuencia tiene al menos alrededor de 80% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID NOs : 3, 5, 7, 9, 11, 13, 15, 11, 19, 21, 23, 25, 21, 29, 31, 33, 35, 37, 39, 43, 45 y 47.
  26. 26. El ácido nucleico aislado como se define en la reivindicación 17, 18 o 19, donde dicha secuencia tiene al menos alrededor de 85% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47.
  27. 27. El ácido nucleico aislado como se define en la reivindicación 17, 18 o 19, donde dicha secuencia tiene al menos alrededor de 90% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47.
  28. 28. El ácido nucleico aislado como se define en la reivindicación 17, 18 o 19, donde dicha secuencia tiene al menos alrededor de 95% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47.
  29. 29. Un ácido nucleico aislado que codifica un polipéptido seleccionado del grupo que consiste en: polipéptidos que tiene una secuencia de aminoácidos seleccionada del grupo que consiste en: SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48; variantes que tienen al menos alrededor de 50% de homología con al menos una de las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; secuencias complementarias a las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48; y secuencias complementarias a variantes que tienen al menos alrededor de 50% de homología con las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; y polipéptidos que tienen al menos 10 aminoácidos consecutivos de un polipéptido que tiene una secuencia seleccionada del grupo que consiste en las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48.
  30. 30. Un polipéptido purificado, seleccionado del grupo que consiste en: polipéptidos que tiene una secuencia de aminoácidos seleccionada del grupo que consiste en: SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48; variantes que tienen al menos alrededor de 50% de homología con al menos una de las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; secuencias complementarias a las SEQ ID NOs : 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48; y secuencias complementarias a variantes que tienen al menos alrededor de 50% de homología con las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; y polipéptidos que tienen al menos 10 aminoácidos consecutivos de un polipéptido que tiene una secuencia seleccionada del grupo que consiste en las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48.
  31. 31. El polipéptido purificado como se define en la reivindicación 30, donde la secuencia de aminoácidos tiene al menos alrededor de 50% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, sobre una región de al menos alrededor de 200 residuos.
  32. 32. El polipéptido purificado como se define en la reivindicación 30, donde la secuencia de aminoácidos tiene al menos alrededor de 50% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, sobre toda la secuencia.
  33. 33. El polipéptido purificado como se define en la reivindicación 30, 31 o 32, donde la secuencia de aminoácidos tiene al menos alrededor de 55% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48.
  34. 34. El polipéptido purificado como se define en la reivindicación 30, 31 o 32, donde la secuencia de aminoácidos tiene al menos alrededor de 60% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48.
  35. 35. El polipéptido purificado como se define en la reivindicación 30, 31 o 32, donde la secuencia de aminoácidos tiene al menos alrededor de 65% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48.
  36. 36. El polipéptido purificado como se define en la reivindicación 30, 31 o 32, donde la secuencia de aminoácidos tiene al menos alrededor de 70% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID NOs : 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48.
  37. 37. El polipéptido purificado como se define en la reivindicación 30, 31 o 32, donde la secuencia de aminoácidos tiene al menos alrededor de 75% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48.
  38. 38. El polipéptido purificado como se define en la reivindicación 30, 31 o 32, donde la secuencia de aminoácidos tiene al menos alrededor de 80% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48.
  39. 39. El polipéptido purificado como se define en la reivindicación 30, 31 o 32, donde la secuencia de aminoácidos tiene al menos alrededor de 85% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48.
  40. 40. El polipéptido purificado como se define en la reivindicación 30, 31 o 32, donde la secuencia de aminoácidos tiene al menos alrededor de 90% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48.
  41. 41. El polipéptido purificado como se define en la reivindicación 30, 31 o 32, donde la secuencia de aminoácidos tiene al menos alrededor de 95% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID NOs : 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48.
  42. 42. Un polipéptido purificado como se define en la reivindicación 30, teniendo una secuencia de aminoácidos seleccionada del grupo que consiste en las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48; y secuencias que tienen al menos alrededor de 50% de homología con al menos una de las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, sobre toda la secuencia.
  43. 43. Un anti-cuerpo purificado que se liga específicamente a un polipéptido seleccionado del grupo que consiste en: polipéptidos que comprenden una secuencia de aminoáci-dos seleccionada del grupo que consiste en: SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48; variantes que tienen al menos alrededor de 50% de homología con al menos una de las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; secuencias complementarias a las SEQ ID NOs : 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48; y secuencias complementarias a variantes que tienen al menos alrededor de 50% de homología con las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; y polipéptidos teniendo al menos 10 aminoácidos consecutivos de un polipéptido que tiene una secuencia seleccionada del grupo que consiste en las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48.
  44. 44. Un anti-cuerpo purificado como se define en la reivindicación 43, que se liga específicamente a un polipéptido que tiene al menos alrededor de 10 aminoácidos consecutivos de un polipéptido seleccionado del grupo que consiste en las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48.
  45. 45. El anti-cuerpo de la reivindicación 43, donde los anti-cuerpos son policlonales .
  46. 46. El anti-cuerpo de la reivindicación 43, donde los anti-cuerpos son monoclonales .
  47. 47. Un método de producir un polipéptido seleccionado del grupo que consiste en: polipéptidos que tienen una secuencia de aminoácidos seleccionada del grupo que consiste en: SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48; variantes que tienen al menos alrededor de 50% de homología con al menos una de las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; secuencias complementarias a las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48; y secuencias complementarias a variantes que tienen al menos alrededor de 50% de homología con las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; y polipéptidos que tienen al menos 10 aminoácidos consecutivos de un polipéptido que tiene una secuencia seleccio-nada del grupo que consiste en las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48; comprendiendo los pasos de introducir un ácido nucleico que codifica el polipéptido a una célula hospedera bajo condiciones que permiten la expresión del polipéptido, y recuperar el polipéptido .
  48. 48. Un método de producir un polipéptido que comprende al menos 10 aminoácidos de una secuencia seleccionada del grupo que consiste en las SEQ ID NOs : 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, que comprende los pasos de: introducir un ácido nucleico que codifica el polipéptido, enlazado operativamente a un promotor, a una célula hospedera bajo condiciones que permiten la expresión del polipéptido, y recuperar el polipéptido.
  49. 49. Un método de generar una variante, que comprende: obtener un ácido nucleico que comprende un polinucleó-tido seleccionado del grupo que consiste en: SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47; variantes que tienen al menos alrededor de 50% de homología con al menos una de las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 39, 43, 45 y 47, sobre una región de -al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; secuencias complementarias a las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 11, 19, 21, 23, 25, 21, 29, 31, 33, 35, 31, 39, 43, 45 y 47; y secuencias complementarias a variantes que tienen al menos alrededor de 50% de homología con las SEQ ID NOs: 3, 5, 1 , 9, 11, 13, 15, 11, 19, 21, 23, 25, 21, 29, 31, 33, 35, 31, 39, 43, 45 y 47, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; y fragmentos que comprenden al menos 30 nucleótidos consecutivos cualesquiera de las secuencias anteriores; y modificar uno o mas nucleótidos en dicho polinucleótido a otro nucleótido, eliminar uno o mas nucleótidos en dicho polinucleótido, o añadir uno o mas nucleótidos a dicho polinucleótido .
  50. 50. El método de la reivindicación 49, donde las modificaciones son introducidas por un método seleccionado de: PCR susceptible a error, entremezclado, mutagénesis dirigida por oligonucleótido, PCR de ensamble, mutagénesis por PCR sexual, mutagénesis in vivo, mutagénesis de cásete, mutagénesis de ensamble recursivo, mutagénesis de ensamble exponencial, mutagénesis especifica al sitio, re-ensamble de genes, mutagénesis de sitio de gen saturado, o cualquier combinación, permutación o proceso iterativo de las anteriores.
  51. 51. El método de la reivindicación 50, donde las modificaciones son introducidas por PCR susceptible a error.
  52. 52. El método de la reivindicación 50, donde las modificaciones son introducidas por entremezclado.
  53. 53. El método de la reivindicación 50, donde las modificaciones son introducidas por mutagénesis dirigida por oligonucleótido .
  54. 54. El método de la reivindicación 50, donde las modificaciones son introducidas por PCR de ensamble.
  55. 55. El método de la reivindicación 50, donde las modificaciones son introducidas por mutagénesis de PCR sexual.
  56. 56. El método de la reivindicación 50, donde las modificaciones son introducidas por mutagénesis in vivo.
  57. 57. El método de la reivindicación 50, donde las modificaciones son introducidas por mutagénesis de cásete.
  58. 58. El método de la reivindicación 50, donde las modificaciones son introducidas por mutagénesis de ensamble recursivo .
  59. 59. El método de la reivindicación 50, donde las modificaciones son introducidas por mutagénesis de ensamble exponencial .
  60. 60. El método de la reivindicación 50, donde las modificaciones son introducidas por mutagénesis especifica de sitio .
  61. 61. El método de la reivindicación 50, donde las modificaciones son introducidas por re-ensamble de genes.
  62. 62. El método de la reivindicación 50, donde las modificaciones son introducidas por mutagénesis de sitio de gen saturado .
  63. 63. Un medio legible por computador que tiene almacenado en él una secuencia seleccionada del grupo que consiste en: secuencias de ácido nucleico de las SEQ ID NOs : 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47; variantes de una secuencia de ácido nucleico que tiene al menos alrededor de 50% de homología con al menos una de las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; secuencias de ácido nucleico complementarias a las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47; secuencias de ácido nucleico complementarias a variantes de secuencias de ácido nucleico que tienen al menos alrededor de 50% de homología con las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; secuencias de polipéptido de las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48; variantes de secuencias de polipéptidos teniendo al menos alrededor de 50% de homología con al menos una de las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; secuencias de polipéptido complementarias a las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48; y secuencias de polipéptido complementarias a variantes de secuencias de polipéptido que tienen al menos alrededor de 50% de homología con las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual.
  64. 64. Un sistema de computador, que comprende un procesador y un dispositivo de almacenamiento de datos, donde dicho dispositivo de almacenamiento de datos tiene almacenado en el mismo una secuencia seleccionada del grupo que consiste en: secuencias de ácido nucleico de las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47; variantes de una secuencia de ácido nucleico que tiene al menos alrededor de 50% de homología con al menos una de las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; secuencias de ácido nucleico complementarias a las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47; secuencias de ácido nucleico complementarias a variantes de secuencias de ácido nucleico que tienen al menos alrededor de 50% de homología con las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; secuencias de polipéptido de las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48; variantes de secuencias de polipéptidos teniendo al menos alrededor de 50% de homología con al menos una de las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; secuencias de polipéptido complementarias a las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48; y secuencias de polipéptido complementarias a variantes de secuencias de polipéptido que tienen al menos alrededor de 50% de homología con las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual.
  65. 65. El sistema computador de la reivindicación 64, que comprende además un algoritmo de comparación de secuencias y un dispositivo de almacenamiento de datos que tiene al menos una secuencia de referencia almacenada en el mismo.
  66. 66. El sistema computador de la reivindicación 65, donde el algoritmo de comparación de secuencias comprende un programa de computador que indica polimorfismos.
  67. 67. El sistema computador de la reivindicación 64, comprendiendo además un identificador que identifica una o mas características en dicha secuencia.
  68. 68. Un método para comparar una primera secuencia con una segunda secuencia, que comprende los pasos de: leer la primera secuencia y la segunda secuencia mediante el uso de un programa de computador que compara secuencias; y determinar las diferencias entre la primera secuencia y la segunda secuencia con el programa de computador, donde dicha primera secuencia es una secuencia seleccionada del grupo que consiste en: secuencias de ácido nucleico de las SEQ ID NOs : 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47; variantes de una secuencia de ácido nucleico que tiene al menos alrededor de 50% de homología con al menos una de las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; secuencias de ácido nucleico com lementarias a las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47; secuencias de ácido nucleico complementarias a variantes de secuencias de ácido nucleico que tienen al menos alrededor de 50% de homología con las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; secuencias de polipéptido de las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48; variantes de secuencias de polipéptidos teniendo al menos alrededor de 50% de homología con al menos una de las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; secuencias de polipéptido complementarias a las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48; y secuencias de polipéptido complementarias a variantes de secuencias de polipéptido que tienen al menos alrededor de 50% de homología con las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual.
  69. 69. El método de la reivindicación 68, donde el paso de determinar diferencias entre la primera secuencia y la segunda secuencia comprende además el paso de identificar polimorfismos.
  70. 70. Un método para identificar una característica en una secuencia, que comprende los pasos de: leer la secuencia usando un programa de computador que identifica una o mas características en una secuencia; y identificar una o mas características en la secuencia con el programa de computador, donde la secuencia es seleccionada el grupo que consiste en: secuencias de ácido nucleico de las SEQ ID NOs : 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47; variantes de una secuencia de ácido nucleico que tiene al menos alrededor de 50% de homología con al menos una de las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; secuencias de ácido nucleico complementarias a las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47; secuencias de ácido nucleico complementarias a variantes de secuencias de ácido nucleico que tienen al menos alrededor de 50% de homología con las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; secuencias de polipéptido de las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48; variantes de secuencias de polipéptidos teniendo al menos alrededor de 50% de homología con al menos una de las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; secuencias de polipéptido complementarias a las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48; y secuencias de polipéptido complementarias a variantes de secuencias de polipéptido que tienen al menos alrededor de 50% de homología con las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual.
  71. 71. Un método de hidrolizar un enlace carbono-halógeno, que comprende poner en contacto una sustancia que contiene el enlace carbono-halógeno con un polipéptido seleccionado del grupo que consiste en las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48,' y secuencias sustancialmente idénticas a ellas, bajo condiciones que faciliten la hidrólisis del enlace carbono-halógeno.
  72. 72. Un método de catalizar la desintegración de un haloalcano o ácido halocarboxílico, que comprende el paso de poner en contacto una muestra que contiene haloalcano o ácido halocarboxílico con un polipéptido que tiene una secuencia seleccionada del grupo que consiste en: secuencias de polipéptido de las SEQ ID NOs : 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48; variantes de secuencias de polipéptidos teniendo al menos alrededor de 50% de homología con al menos una de las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; secuencias de polipéptido complementarias a las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48; y secuencias de polipéptido complementarias a variantes de secuencias de polipéptido que tienen al menos alrededor de 50% de homología con las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; bajo condiciones que faciliten la desintegración del haloalcano o ácido halocarboxílico.
  73. 73. Un ensaye para identificar fragmentos o variantes funcionales de polipéptido codificados por fragmentos de las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47, y secuencias que tienen al menos alrededor de 50% de homología con las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual, que conservan al menos una propiedad de los polipéptidos de las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, y secuencias que tienen al menos alrededor de 50% de homología con las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual, dicho ensaye comprendiendo los pasos de: poner en contacto el polipéptido de las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, y secuencias que tienen al menos alrededor de 50% de homología con las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual, fragmentos o variantes de polipéptido codificados por las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47, secuencias que tienen al menos alrededor de 50% de homología con las SEQ ID NOs : 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual, y secuencias complementarias a cualquiera de las secuencias anteriores, con una molécula de sustrato bajo condiciones que permiten que funcione el polipéptido particular; y detectar ya sea una reducción en una cantidad de un sustrato o un incremento en una cantidad de un producto de reacción que sea el resultado de una reacción entre dicho polipéptido y dicho sustrato; donde una reducción en la cantidad del sustrato o un incremento en la cantidad del producto de reacción es indicativo de la existencia del polipéptido funcional .
  74. 74. Una sonda de ácido nucleico, que comprende un oligonucleótido de alrededor de 10 a 50 nucleótidos de longitud y teniendo un segmento de al menos 10 nucleótidos contiguos que es al menos 50% complementario a una región objetivo de ácido nucleico de una secuencia de ácido nucleico seleccionada del grupo que consiste en las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47; y que híbrida a la región objetivo de ácido nucleico bajo condiciones de moderada a altamente astringentes para formar un dúplex ob etivo : sonda detectable.
  75. 75. La sonda de la reivindicación 74, donde el oligonucleótido es ADN.
  76. 76. La sonda de la reivindicación 74, donde el oligonucleótido tiene un segmento de al menos 10 nucleótidos contiguos que es al menos 55% complementaria a la región objetivo de ácido nucleico.
  77. 77. La sonda de la reivindicación 74, donde el oligonucleótido tiene un segmento de al menos 10 nucleótidos contiguos que es al menos 60% complementario a la región objetivo de ácido nucleico.
  78. 78. La sonda de la reivindicación 74, donde el oligonucleótido tiene un segmento de al menos 10 nucleótidos contiguos que es al menos 65% complementaria a la región objetivo de ácido nucleico.
  79. 79. La sonda de la reivindicación 74, donde el oligonucleótido tiene un segmento de al menos 10 nucleótidos contiguos que es al menos 70% complementario a la región objetivo de ácido nucleico.
  80. 80. La sonda de la reivindicación 74, donde el oligonucleótido tiene un segmento de al menos 10 nucleótidos contiguos que es al menos 75% complementario a la región objetivo de ácido nucleico.
  81. 81. La sonda de la reivindicación 74, donde el oligonucleótido tiene un segmento de al menos 10 nucleótidos contiguos que es al menos 80% complementario a la región objetivo de ácido nucleico.
  82. 82. La sonda de la reivindicación 74, donde el oligonucleótido tiene un segmento de al menos 10 nucleótidos contiguos que es al menos 85% complementario a la región objetivo de ácido nucleico.
  83. 83. La sonda de la reivindicación 74, donde el oligonucleótido tiene un segmento de al menos 10 nucleótidos contiguos que es al menos 90% complementario a la región objetivo de ácido nucleico.
  84. 84. La sonda de la reivindicación 74, donde el oligonucleótido tiene un segmento de al menos 10 nucleótidos contiguos que es al menos 95% complementario a la región objetivo de ácido nucleico.
  85. 85. La sonda de la reivindicación 74, donde el oligonucleótido tiene un segmento de al menos 10 nucleótidos contiguos que es completamente complementario a la región objetivo de ácido nucleico.
  86. 86. La sonda de la reivindicación 74, donde el oligonucleótido es de 15-50 bases de longitud.
  87. 87. La sonda de la reivindicación 74, donde la sonda comprende además una etiqueta isotópica detectable.
  88. 88. La sonda de la reivindicación 74, donde la sonda comprende además una etiqueta no isotópica, detectable, seleccionada del grupo que consiste en una molécula fluorescente, una molécula quimo-luminiscente, una enzima, un cofactor, un sustrato de enzima, y un hapteno.
  89. 89. La sonda de la reivindicación 86, donde el oligonucleótido tiene un segmento de al menos 15 nucleótidos contiguos que es al menos 90% complementario a la región objetivo de ácido nucleico, y que híbrida a la región objetivo de ácido nucleico bajo condiciones moderada a altamente astringentes para formar un dúplex ob etivo : sonda detectable.
  90. 90. La sonda de la reivindicación 86, donde el oligonucleótido tiene un segmento de al menos 15 nucleótidos contiguos que es al menos 95% complementaria a una región objetivo de ácido nucleico, y que híbrida a la región objetivo de ácido nucleico bajo condiciones moderada a altamente astringentes para formar un dúplex obj etivo : sonda detectable.
  91. 91. La sonda de la reivindicación 86, donde el oligonucleótido tiene un segmento de al menos 15 nucleótidos contiguos que es al menos 97% complementaria a una región objetivo de ácido nucleico, y que híbrida a la región objetivo de ácido nucleico bajo condiciones moderada a altamente astringentes para formar un dúplex obj etivo : sonda detectable.
  92. 92. Una sonda de polinucleótido para aislamiento o identificación de genes de deshalogenasa que tienen una secuencia que es la misma que, o plenamente complementaria a al menos un fragmento de una de las SEQ ID NOs : 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47.
  93. 93. Una preparación de proteína, que comprende un polipéptido seleccionado del grupo que consiste en: polipéptidos que tienen una secuencia de aminoácidos seleccionada del grupo que consiste en: SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48; variantes de secuencias teniendo al menos alrededor de 50% de homología con al menos una de las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; secuencias complementarias a las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48; y secuencias complementarias a variantes de secuencias de polipéptido que tienen al menos alrededor de 50% de homología con las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; Y polipéptidos teniendo al menos 10 aminoácidos consecutivos de un polipéptido que tiene una secuencia seleccionada del grupo que consiste en las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48; y donde la preparación de proteínas es un líquido.
  94. 94. Una preparación de proteínas, que comprende un polipéptido seleccionado del grupo que consiste en: polipéptidos que tienen una secuencia de aminoácidos seleccionada del grupo que consiste en: SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48; variantes de secuencias teniendo al menos alrededor de 50% de homología con al menos una de las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; secuencias complementarias a las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48; y secuencias complementarias a variantes de secuencias de polipéptido que tienen al menos alrededor de 50% de homología con las SEQ ID NOs: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; y polipéptidos teniendo al menos 10 aminoácidos consecutivos de un polipéptido que tiene una secuencia seleccionada del grupo que consiste en las SEQ ID NOs : 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46 y 48; y donde la preparación de proteínas es un sólido.
  95. 95. Un método para modificar moléculas pequeñas, que comprende el paso de mezclar al menos un polipéptido codificado por un polinucleótido seleccionado del grupo que consiste en: SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47; variantes que tienen al menos alrededor de 50% de homología con al menos una de las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; secuencias complementarias a las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47; y secuencias complementarias a variantes que tienen al menos alrededor de 50% de homología con las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; y fragmentos de cualquiera de los polipéptidos anteriores; con al menos una molécula pequeña para producir al menos una molécula pequeña modificada vía al menos una reacción biocatalítica, donde el al menos un polipéptido tiene actividad de deshalogenasa .
  96. 96. El método de la reivindicación 95, donde el al menos un polipéptido comprende una pluralidad de polipéptidos y la al menos una molécula pequeña comprende una pluralidad de moléculas pequeñas, con lo cual se produce una pluralidad de moléculas pequeñas modificadas vía una pluralidad de reacciones biocataliticas para formar una biblioteca de moléculas pequeñas modificadas .
  97. 97. El método de la reivindicación 96, comprendiendo además el paso de probar la biblioteca para determinar si una molécula pequeña modificada, particular, que exhibe una actividad deseada, está presente dentro de la biblioteca.
  98. 98. El método de la reivindicación 97, donde el paso de probar la biblioteca comprende además los pasos de: eliminar sistemáticamente todas salvo una de las reacciones biocataliticas usadas para producir una porción de la pluralidad de las moléculas pequeñas modificadas dentro de la biblioteca probando la porción de la molécula pequeña modificada respecto de la presencia o ausencia de la molécula pequeña modificada particular con la actividad deseada, e identificando una reacción biocatalítica específica que produce la molécula pequeña modificada particular de actividad deseada.
  99. 99. El método de la reivindicación 98, donde la reacción biocatalitica especifica, que produce la molécula pequeña modificada de actividad deseada, es repetida.
  100. 100. El método de la reivindicación 93, donde las reacciones biocataliticas son conducidas con un grupo de biocatalizadores que reaccionan con fracciones moleculares distintas encontradas dentro de la al menos una molécula pequeña; cada biocatalizador es especifico para una fracción estructural particular o un grupo de fracciones estructurales relacionadas; y cada biocatalizador reacciona con una pluralidad de moléculas pequeñas que contienen la fracción estructural particular especifica al biocatalizador particular.
  101. 101. Un vector de clonación, que comprende una secuencia que codifica un polipéptido que tiene actividad de deshalogenasa, dicha secuencia siendo seleccionada del grupo que consiste en: SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47; variantes que tienen al menos alrededor de 50% de homología con al menos una de las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; secuencias complementarias a las SEQ ID NOs: 3, 5, 7, 9, 11, 13, Ib, 11, 19, 21, 23, 25, 21, 29, 31, 33, 35, 31, 43, 45 y 47; y secuencias complementarias a variantes que tienen al menos alrededor de 50% de homología con las SEQ ID NOs: 3, 5, 1, 9, 11, 13, 15, 11, 19, 21, 23, 25, 21, 29, 31, 33, 35, 31, 43, 45 y 47, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual.
  102. 102. Una célula hospedera, que comprende una secuencia que codifica un polipéptido que tiene actividad de deshalogenasa, dicha secuencia siendo seleccionada del grupo que consiste en: SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47; variantes que tienen al menos alrededor de 50% de homología con al menos una de las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual; secuencias complementarias a las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47; y secuencias complementarias a variantes que tienen al menos alrededor de 50% de homología con las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual.
  103. 103. Un vector de expresión capaz de replicar en una célula hospedera, que comprende un polinucleótido que tiene una secuencia seleccionada del grupo que consiste en las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47, y variantes que tienen al menos alrededor de 50% de homología con las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual, secuencias complementarias a las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47, y secuencias complementarias a variantes que tienen al menos alrededor de 50% de homología con las SEQ ID NOs: 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29, 31, 33, 35, 37, 43, 45 y 47, sobre una región de al menos alrededor de 100 residuos, como se determina por análisis con un algoritmo de comparación de secuencias o por inspección visual, y ácidos nucleicos aislados que hibridan a ácidos nucleicos teniendo cualquiera de las secuencias anteriores bajo condiciones de astringencia baja, moderada y elevada.
  104. 104. Un vector como se define en la reivindicación 101 o 103, donde el vector es seleccionado del grupo que consiste en vectores virales, vectores plásmidos, vectores de fago, vectores de fagémidos, cósmidos, fósmidos, bacteriófagos, cromosomas artificiales, vectores de adenovirus, vectores retrovirales, y vectores virales adeno-asociados .
  105. 105. Una célula hospedera, que comprende un vector de expresión como se define en la reivindicación 103.
  106. 106. Una célula hospedera como se define en la reivindicación 47, 102, 103 o 105, donde el anfitrión es seleccionado del grupo que consiste en procariotes, eucariotes, hongos, levaduras, plantas y anfitriones metabólicamente ricos.
  107. 107. El ácido nucleico aislado de la reivindicación 1, donde la variante es producida por un método seleccionado de: PCR susceptible a error, entremezclado, mutagénesis dirigida por oligonucleótido, PCR de ensamble, mutagénesis de PCR sexual, mutagénesis in vivo, mutagénesis de cásete, mutagénesis de ensamble recursivo, mutagénesis de ensamble exponencial, mutagénesis especifica al sitio, re-ensamble de gen, mutagénesis de sitio de gen saturado, o cualquier combinación, permutación o proceso iterativo de los mismos.
  108. 108. El método de cualquiera de las reivindicaciones 49-62, donde la modificación de uno o mas nucleótidos es opcionalmente repetida una o mas veces.
  109. 109. El método de la reivindicación 49, donde la modificación es introducción de una base modificada.
  110. 110. El método de la reivindicación 64, donde la base modificada es inosina.
  111. 111. Un método para producir (R) - (±) -3-halo-l, 2-propanodiol, que comprende poner en contacto un 1, 3-dihalo-2-propanol con un polipéptido que tiene al menos 70% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias sustancialmente idénticas a ellas, y teniendo actividad de deshalogenasa, bajo condiciones para producir (R) -(±) -3-halo-l, 2-propanodiol .
  112. 112. El método de la reivindicación 111, donde el polipéptido tiene al menos 80% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias sustancialmente idénticas a ellas.
  113. 113. El método de la reivindicación 111, donde el polipéptido tiene al menos 90% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias sustancialmente idénticas a ellas.
  114. 114. El método de la reivindicación 111, donde el polipéptido tiene al menos 95% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias sustancialmente idénticas a ellas.
  115. 115. El método de la reivindicación 111, donde el polipéptido tiene una secuencia como se señala en el grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias que tienen sustituciones, eliminaciones o inserciones conservadoras de las mismas.
  116. 116. Un método para sintetizar glicerol, que comprende poner en contacto tricloropropano o dicloropropanol con un polipéptido que tiene al menos 70% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias sustancialmente idénticas a ellas, y teniendo actividad de deshalogenasa, bajo condiciones para sintetizar glicerol.
  117. 117. El método de la reivindicación 116, donde el polipéptido tiene al menos 80% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias sustancialmente idénticas a ellas.
  118. 118. El método de la reivindicación 116, donde el polipéptido tiene al menos 90% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias sustancialmente idénticas a ellas.
  119. 119. El método de la reivindicación 116, donde el polipéptido tiene al menos 95% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias sustancialmente idénticas a ellas.
  120. 120. El método de la reivindicación 116, donde el polipéptido tiene una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 15, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias que tienen sustituciones, eliminaciones o inserciones conservadoras de las mismas.
  121. 121. Un método para producir un ácido haloláctico ópticamente activo, que comprende poner en contacto un ácido di alopropiónico con un polipéptido teniendo al menos 70% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias sustancialmente idénticas a ellas, y teniendo actividad de deshalogenasa, bajo condiciones para producir ácido haloláctico ópticamente activo.
  122. 122. El método de la reivindicación 121, donde el polipéptido tiene al menos 80% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias sustancialmente idénticas a éstas.
  123. 123. El método de la reivindicación 121, donde el polipéptido tiene al menos 90% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias sustancialmente idénticas a éstas.
  124. 124. El método de la reivindicación 121, donde el polipéptido tiene al menos 95% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias sustancialmente idénticas a éstas.
  125. 125. El método de la reivindicación 121, donde el polipéptido tiene una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias que tienen sustituciones, eliminaciones o inserciones conservadoras de las mismas.
  126. 126. Un método para bio-remediación, que comprende poner en contacto una muestra ambiental con un polipéptido que tiene al menos 70% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias sustancialmente idénticas a ellas, y teniendo actividad de deshalogenasa.
  127. 127. El método de la reivindicación 126, donde el polipéptido que tiene al menos 80% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias sustancialmente idénticas a ellas.
  128. 128. El método de la reivindicación 126, donde el polipéptido que tiene al menos 90% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias sustancialmente idénticas a ellas.
  129. 129. El método de la reivindicación 126, donde el polipéptido que tiene al menos 95% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias sustancialmente idénticas a ellas.
  130. 130. El método de la reivindicación 126, donde el polipéptido tiene una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias que tienen sustituciones, eliminaciones o inserciones conservadoras de ellas .
  131. 131. Un método de remover un contaminante halogenado o impureza halogenada de una muestra, que comprende poner en contacto la muestra con un polipéptido que tiene al menos 70% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias sustancialmente idénticas a ellas, y teniendo actividad de deshalogenas .
  132. 132. El método de la reivindicación 131, donde el polipéptido tiene al menos 80% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias sustancialmente idénticas a ellas.
  133. 133. El método de la reivindicación 131, donde el polipéptido tiene al menos 90% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias sustancialmente idénticas a ellas.
  134. 134. El método de la reivindicación 131, donde el polipéptido tiene al menos 95% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias sustancialmente idénticas a ellas.
  135. 135. El método de la reivindicación 131, donde el polipéptido tiene una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias que tienen sustituciones, eliminaciones o inserciones conservadoras de las mismas.
  136. 136. Un método para sintetizar un diol, que comprende poner en contacto dihalopropano o monohalopropanol con un polipéptido que tiene al menos 70% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias sustancialmente idénticas a ellas, y teniendo actividad de deshalogenasa, bajo condiciones para sintetizar el diol .
  137. 137. El método de la reivindicación 136, donde el polipéptido tiene al menos 80% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias sustancialmente idénticas a ellas.
  138. 138. El método de la reivindicación 136, donde el polipéptido tiene al menos 90% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias sustancialmente idénticas a ellas.
  139. 139. El método de la reivindicación 136, donde el polipéptido tiene al menos 95% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias sustancialmente idénticas a ellas.
  140. 140. El método de la reivindicación 136, donde el polipéptido tiene una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias que tienen sustituciones, eliminaciones o inserciones conservadoras de ellas.
  141. 141. Un método para deshalogenar un hidrocarbilo cíclico halo sustituido, que comprende poner en contacto el hidrocarbilo cíclico halo sustituido con un polipéptido que tiene al menos 70% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias sustancialmente idénticas a ellas, y teniendo actividad de deshalogenasa, bajo condiciones para deshalogenar el hidrocarbilo cíclico halo sustituido.
  142. 142. El método de la reivindicación 141, donde el polipéptido tiene al menos 80% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias sustancialmente idénticas a ellas.
  143. 143. El método de la reivindicación 141, donde el polipéptido tiene al menos 90% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias sustancialmente idénticas a ellas.
  144. 144. El método de la reivindicación 141, donde el polipéptido tiene al menos 95% de homología con una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias sustancialmente idénticas a ellas.
  145. 145. El método de la reivindicación 141, donde el polipéptido tiene una secuencia seleccionada del grupo que consiste en las SEQ ID Nos: 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 44, 46, 48, y secuencias que tiene sustituciones, eliminaciones o inserciones conservadoras de las mismas.
MXPA03004840A 2000-12-01 2001-11-30 Enzimas que tienen actividad de deshalogenasa y metodos. MXPA03004840A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US25089700P 2000-12-01 2000-12-01
PCT/US2001/045337 WO2002068583A2 (en) 2000-12-01 2001-11-30 Enzymes having dehalogenase activity and methods of use thereof

Publications (1)

Publication Number Publication Date
MXPA03004840A true MXPA03004840A (es) 2008-10-08

Family

ID=22949600

Family Applications (1)

Application Number Title Priority Date Filing Date
MXPA03004840A MXPA03004840A (es) 2000-12-01 2001-11-30 Enzimas que tienen actividad de deshalogenasa y metodos.

Country Status (9)

Country Link
US (4) US7078504B2 (es)
EP (1) EP1507870A4 (es)
JP (4) JP4589602B2 (es)
KR (1) KR20030051897A (es)
CN (2) CN102690799A (es)
BR (1) BR0115875A (es)
CA (2) CA2430192C (es)
MX (1) MXPA03004840A (es)
WO (1) WO2002068583A2 (es)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040005673A1 (en) * 2001-06-29 2004-01-08 Kevin Jarrell System for manipulating nucleic acids
AU774306B2 (en) * 1999-01-05 2004-06-24 Trustees Of Boston University Improved nucleic acid cloning
US7435562B2 (en) * 2000-07-21 2008-10-14 Modular Genetics, Inc. Modular vector systems
KR20030051897A (ko) 2000-12-01 2003-06-25 다이버사 코포레이션 데할로게나제 활성을 가진 효소 및 이의 사용 방법
US7414119B2 (en) * 2002-09-20 2008-08-19 Verenium Corporation Aldolases, nucleic acids encoding them and methods for making and using them
US7429472B2 (en) 2003-01-31 2008-09-30 Promega Corporation Method of immobilizing a protein or molecule via a mutant dehalogenase that is bound to an immobilized dehalogenase substrate and linked directly or indirectly to the protein or molecule
CA2514564A1 (en) 2003-01-31 2005-07-26 Promega Corporation Covalent tethering of functional groups to proteins
US7425436B2 (en) 2004-07-30 2008-09-16 Promega Corporation Covalent tethering of functional groups to proteins and substrates therefor
EP1817413B1 (en) 2004-11-11 2012-01-04 Modular Genetics, Inc. Oligonucleotide ladder assembly and system for generating molecular diversity
US7632666B2 (en) * 2004-12-27 2009-12-15 Masarykova Univerzita V Brne Method of production of optically active halohydrocarbons and alcohols using hydrolytic dehalogenation catalysed by haloalkane dehalogenases
US8420367B2 (en) 2006-10-30 2013-04-16 Promega Corporation Polynucleotides encoding mutant hydrolase proteins with enhanced kinetics and functional expression
WO2011137368A2 (en) 2010-04-30 2011-11-03 Life Technologies Corporation Systems and methods for analyzing nucleic acid sequences
US9268903B2 (en) 2010-07-06 2016-02-23 Life Technologies Corporation Systems and methods for sequence data alignment quality assessment
CN102296046B (zh) * 2011-09-16 2013-08-14 广州市暨源生物科技有限公司 可用于预防慢性重金属中毒的重组食品级乳酸菌、其制备方法与应用
CN104694514B (zh) * 2015-03-18 2017-11-28 中国科学院微生物研究所 一种脱卤酶DhmB及其编码基因与应用
CN106139887A (zh) 2015-05-13 2016-11-23 三星电子株式会社 包含编码具有羟化酶活性的蛋白质的基因的微生物和使用其降低样品中氟化甲烷浓度的方法
EP3178922B1 (en) 2015-12-07 2019-05-22 Samsung Electronics Co., Ltd. Bacterial cytochrome p450 protein variant and method of reducing concentration of fluorinated methane in sample using the same
CN109706139A (zh) * 2019-03-01 2019-05-03 中国人民解放军92609部队 脱卤素酶基因LinB、脱卤素酶、脱卤素酶基因工程菌及其构建方法和应用方法
US11760793B2 (en) 2020-12-18 2023-09-19 University Of Tennessee Research Foundation Antibody for skewing sex ratio and methods of use thereof

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5108892A (en) * 1989-08-03 1992-04-28 Promega Corporation Method of using a taq dna polymerase without 5'-3'-exonuclease activity
US6037465A (en) * 1994-06-14 2000-03-14 Invitek Gmbh Universal process for isolating and purifying nucleic acids from extremely small amounts of highly contaminated various starting materials
WO2000058517A1 (en) 1999-03-26 2000-10-05 Diversa Corporation Exonuclease-mediated nucleic acid reassembly in directed evolution
US5723125A (en) * 1995-12-28 1998-03-03 Tanox Biosystems, Inc. Hybrid with interferon-alpha and an immunoglobulin Fc linked through a non-immunogenic peptide
KR20000071014A (ko) * 1997-02-13 2000-11-25 그래햄 이. 테일러 재조합 할로지방족 탈할로겐화 효소
US6183740B1 (en) * 1997-08-13 2001-02-06 Diversa Corporation Recombinant bacterial phytases and uses thereof
AU6504099A (en) * 1998-09-29 2000-04-17 Diversa Corporation Nucleic acids and proteins from Cenarchaeum symbiosum
WO2002022810A2 (en) 2000-09-15 2002-03-21 Diversa Corporation Combinatorial screening of mixed populations of organisms
KR20030051897A (ko) 2000-12-01 2003-06-25 다이버사 코포레이션 데할로게나제 활성을 가진 효소 및 이의 사용 방법

Also Published As

Publication number Publication date
US20130115675A1 (en) 2013-05-09
BR0115875A (pt) 2005-05-10
WO2002068583A3 (en) 2004-12-02
JP2005501515A (ja) 2005-01-20
WO2002068583A2 (en) 2002-09-06
CA2430192A1 (en) 2002-09-06
CN102690799A (zh) 2012-09-26
JP5697365B2 (ja) 2015-04-08
US20060035216A1 (en) 2006-02-16
EP1507870A4 (en) 2005-11-09
US20100112666A1 (en) 2010-05-06
CA2430192C (en) 2014-06-03
CA2846761A1 (en) 2002-09-06
JP4589602B2 (ja) 2010-12-01
CN1610754B (zh) 2012-07-04
US20060275804A1 (en) 2006-12-07
US7671189B2 (en) 2010-03-02
US7078504B2 (en) 2006-07-18
KR20030051897A (ko) 2003-06-25
JP2010268796A (ja) 2010-12-02
EP1507870A2 (en) 2005-02-23
JP2008142089A (ja) 2008-06-26
US9453211B2 (en) 2016-09-27
CN1610754A (zh) 2005-04-27
JP2015107123A (ja) 2015-06-11
US8153411B2 (en) 2012-04-10

Similar Documents

Publication Publication Date Title
US9453211B2 (en) Dehalogenases, nucleic acids encoding them and methods for making and using them
US20030044956A1 (en) Enzymes having carboxymethyl cellulase activity and methods of use thereof
US20080227132A1 (en) Hydrolase Enzymes and Their Use in Kinetic Resolution
JP4261799B2 (ja) 鏡像異性的に純粋なα−置換カルボン酸の製造方法
JP2004523211A (ja) 高温ポリメラーゼ活性を有する酵素およびその使用方法
US20050202494A1 (en) Catalases
US20050186605A1 (en) Phosphatase -encoding nucleic acids and methods of making and using them
US20020132295A1 (en) Enzymes having transaminase and aminotransferase activity and methods of use thereof
US20050221364A1 (en) Enzymes having alpha-galactosidase activity and methods of use thereof
AU2006235875B2 (en) Enzymes having dehalogenase activity and methods of use thereof
US7288400B2 (en) Nucleic acids encoding esterases and methods of making and using them
US20020137185A1 (en) Enzymes having amidase activity and methods of use thereof
AU2001297671A1 (en) Enzymes having dehalogenase activity and methods of use thereof
US20020120118A1 (en) Enzymes having endoglucanase activity and methods of use thereof

Legal Events

Date Code Title Description
GB Transfer or rights
FG Grant or registration