PT1000149E - 5' ests para proteínas segregadas identificadas a partir de tecidos do cérebro. - Google Patents

5' ests para proteínas segregadas identificadas a partir de tecidos do cérebro. Download PDF

Info

Publication number
PT1000149E
PT1000149E PT98936593T PT98936593T PT1000149E PT 1000149 E PT1000149 E PT 1000149E PT 98936593 T PT98936593 T PT 98936593T PT 98936593 T PT98936593 T PT 98936593T PT 1000149 E PT1000149 E PT 1000149E
Authority
PT
Portugal
Prior art keywords
quot
sequences
ests
cdna
protein
Prior art date
Application number
PT98936593T
Other languages
English (en)
Inventor
Milne Edwards Jean-Bapti Dumas
Aymeric Duclert
Bruno Lacroix
Original Assignee
Serono Genetics Inst Sa
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Serono Genetics Inst Sa filed Critical Serono Genetics Inst Sa
Publication of PT1000149E publication Critical patent/PT1000149E/pt

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/46Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates
    • C07K14/47Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K38/00Medicinal preparations containing peptides
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K48/00Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy

Landscapes

  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Biophysics (AREA)
  • Zoology (AREA)
  • Genetics & Genomics (AREA)
  • Medicinal Chemistry (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Toxicology (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Peptides Or Proteins (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

1
DESCRIÇÃO
"5' ESTs PARA PROTEÍNAS SEGREGADAS IDENTIFICADAS A PARTIR DE TECIDOS DO CÉREBRO"
Contexto da Invenção
Os 50 000 - 100 000 genes estimados espalhados ao longo dos cromossomas humanos são tremendamente promissores para a compreensão, diagnóstico e tratamento de doenças humanas. Adicionalmente, sondas capazes de hibridizar especificamente para loci distribuídos em todo o genoma humano têm aplicação na construção de mapas cromossómicos de alta resolução e na identificação de indivíduos.
No passado, a caracterização mesmo de apenas um único gene humano era um processo meticuloso, requerendo anos de esforço. Surgiram desenvolvimentos recentes nas áreas da clonagem de vectores, sequenciação de DNA e tecnologia computacional que aceleraram grandemente a taxa à qual genes humanos podem ser isolados, sequenciados, mapeados e caracterizados. Vectores de clonagem, tais como os cromossomas artificiais de levedura (YACs) e cromossomas artificiais bacterianos (BACs), são capazes de aceitar inserções de DNA cujo comprimento varia desde 300 até 1000 quilobases (kb) ou 100-400 kb, respectivamente, desse modo facilitando a manipulação e ordenação de sequências de DNA distribuídas ao longo de grandes distâncias nos cromossomas humanos. Máquinas de sequenciação automática de DNA permitem a sequenciação rápida de genes humanos. O "software" de bioinformática permite comparar sequências de ácidos nucleicos e proteínas, desse modo ajudando a caracterizar produtos de genes humanos.
Presentemente estão a ser seguidas duas abordagens diferentes para identificar e caracterizar os genes distribuídos ao longo do genoma humano. Numa abordagem, 2 grandes fragmentos de DNA genómico são isolados, clonados e sequenciados. Potenciais fases de leitura aberta presentes nestas sequências genómicas são identificadas utilizando "software" de bioinformática. No entanto, esta abordagem implica sequenciar grandes extensões de DNA humano que não codificam proteínas de modo a encontrar as sequências codificadoras de proteínas espalhadas em todo o genoma. Para alem de requerer sequenciação extensa, o "software" de bioinformática pode caracterizar mal as sequências genómicas obtidas. Assim, o "software" pode produzir positivos falsos nos quais DNA não codificador é mal caracterizado como DNA codificador, ou negativos falsos nos quais DNA codificador é mal etiquetado como DNA não codificador.
Uma abordagem alternativa segue uma via mais directa para identificar e caracterizar genes humanos. Nesta abordagem, DNAs complementares (cDNAs) são sintetizados a partir de RNAs mensageiros (mRNAs) isolados que codificam proteínas humanas. Utilizando esta abordagem, a sequenciação só é efectuada em DNA derivado de porções codificadoras de proteínas do genoma. Muitas vezes, apenas pequenas extensões dos cDNAs são sequenciadas de modo a obter sequências denominadas marcadores de sequências expressas (ESTs) . Em seguida, as ESTs podem ser utilizadas para isolar ou purificar cDNAs estendidos que incluem sequências adjacentes às sequências EST. Os cDNAs estendidos podem conter a totalidade da sequência da EST que foi utilizada para obtê-los, ou apenas uma porção da sequência da EST que foi utilizada para obtê-los. Adicionalmente, os cDNAs estendidos podem conter a sequência codificadora completa do gene de onde derivou a EST ou, alternativamente, os cDNAs estendidos podem incluir porções da sequência codificadora do gene de onde derivou a 3 EST. Será apreciado que podem existir vários cDNAs estendidos que incluem a sequência EST em resultado de processamento alternativo ou da actividade de promotores alternativos.
No passado, estas sequências EST pequenas eram muitas vezes obtidas a partir de bibliotecas de cDNA iniciado com oligo-dT. Em conformidade, correspondiam maioritariamente à região 3' não traduzida do mRNA. Em parte, a predominância de sequências EST derivadas da extremidade 3' do mRNA resulta do facto de técnicas típicas para obter cDNAs não estarem bem adaptadas para isolar sequências de cDNA derivadas das extremidades 5' de mRNAs. (Adams et al., Nature 377: 3-174, 1996; Hillier et al., Genome Res. 6: 807-828, 1996) .
Adicionalmente, naqueles casos relatados em que se obtiveram sequências de cDNA mais longas, as sequências relatadas correspondem tipicamente a sequências codificadoras e não incluem a região 5' completa não traduzida do mRNA de onde deriva o cDNA. Essas sequências incompletas podem não incluir o primeiro exão do mRNA, particularmente em situações em que o primeiro exão é pequeno. Suplementarmente, podem não incluir alguns exões, muitas vezes pequenos, que estão localizados a montante de sítios de processamento. Assim, é necessário obter sequências derivadas das extremidades 5' de mRNAs.
Se bem que muitas sequências derivadas de cromossomas humanos tenham aplicações práticas, abordagens baseadas na identificação e caracterização daquelas sequências cromossómicas que codificam um produto proteico são particularmente relevantes para utilizações de diagnóstico e terapêuticas. Dos 50 000 - 100 000 genes codificadores de proteínas, aqueles genes codificadores de proteínas que são segregadas pela célula onde são sintetizadas, bem como as 4 próprias proteínas segregadas, são particularmente valiosos como agentes terapêuticos potenciais. É frequente essas proteínas estarem envolvidas na comunicação célula-célula e podem ser responsáveis pela produção de uma resposta clinicamente relevante nas suas células-alvo.
De facto, presentemente várias proteínas secretoras, incluindo o activador do plasminogénio em tecidos, G-CSF, GM-CSF, eritropoietina, hormona de crescimento humano, insulina, interferão-a, interferão-β, interferão-γ e interleuquina-2, estão a ser clinicamente utilizadas. Estas proteínas são utilizadas para tratar uma gama ampla de estados, incluindo enfarte agudo do miocárdio, acidente vascular cerebral isquémico agudo, anemia, diabetes, deficiência de hormona do crescimento, hepatite, carcinoma do rim, neutropenia induzida por quimioterapia e esclerose múltipla. Por estes motivos, cDNAs estendidos que codificam proteínas segregadas, ou respectivas porções, representam uma fonte particularmente valiosa de agentes terapêuticos. Assim, é necessário identificar e caracterizar proteínas segregadas e os ácidos nucleicos que as codificam.
Para além de, em si próprias, serem terapeuticamente úteis, proteínas secretoras incluem péptidos pequenos, denominados péptidos de sinal, nos seus terminais amino, que dirigem a sua secreção. Estes péptidos de sinal são codificados pelas sequências de sinal localizadas nas extremidades 5' das sequências codificadoras de genes que codificam proteínas segregadas. Uma vez que estes péptidos de sinal irão dirigir a secreção extracelular de qualquer proteína à qual estejam operativamente ligados, as sequências de sinal podem ser exploradas para dirigir a secreção eficiente de qualquer proteína ligando operativamente as sequências de sinal a um gene que codifica a proteína cuja secreção se deseja. 5
Adicionalmente, também podem utilizar-se porções de sequências de sinal para dirigir a importação intracelular de um péptido ou proteína de interesse. Isto poderá ser benéfico em estratégias de terapia genética nas quais se deseja distribuir um produto genético particular em células diferentes da célula onde é produzido. Sequências de sinal que codificam péptidos de sinal também têm aplicação na simplificação de técnicas de purificação de proteínas. Nessas aplicações, a secreção extracelular da proteína desejada facilita muito a purificação ao reduzir o número de proteínas indesejadas das quais deve ser seleccionada a proteína desejada. Assim, é necessário identificar e caracterizar as porções 5' dos genes para proteínas secretoras que codificam péptidos de sinal.
As informações públicas quanto ao número de genes humanos para os quais foram identificados e caracterizados os promotores e regiões reguladoras a montante são bastante limitadas. Em parte, este cenário pode dever-se à dificuldade de isolar essas sequências reguladoras. Sequências reguladoras a montante, como sítios de ligação de factores de transcrição, são tipicamente demasiado pequenas para serem utilizadas como sondas com a finalidade de isolar promotores a partir de bibliotecas genómicas humanas. Recentemente foram desenvolvidas algumas abordagens para isolar promotores humanos. Uma delas consiste em preparar uma biblioteca de ilhas CpG (Cross et ai., Nature Genetics 6: 236-244, 1994). A segunda consiste em isolar sequências de DNA genómico humano contendo sítios de ligação Spel utilizando a proteína de ligação de Spel. (Mortlock et al., Genome Res. 6: 327-335, 1996). Estas duas abordagens têm limitações devido a falta de especificidade ou de abrangência. 6
As presentes 5' ESTs podem ser utilizadas para identificar e isolar eficientemente regiões reguladoras a montante que controlam a localização, fase do desenvolvimento, taxa e quantidade da sintese de proteínas, bem como a estabilidade do mRNA. (Theil, BioFactors 4: 87-93, 1993). Depois de identificadas e caracterizadas, estas regiões reguladoras podem ser utilizadas em terapia genética ou esquemas de purificação de proteínas para obter a quantidade e localizações desejadas da sintese de proteínas ou para inibir, reduzir ou prevenir a síntese de produtos genéticos indesejáveis.
Adicionalmente, ESTs contendo as extremidades 5' de genes de proteínas secretoras podem incluir sequências úteis como sondas para o mapeamento cromossómico e a identificação de indivíduos. Assim, é necessário identificar e caracterizar as sequências a montante das sequências codificadoras 5' de genes que codificam proteínas secretoras.
Resumo da Invenção A presente invenção refere-se a um péptido de sinal possuindo a sequência de aminoácidos -22 até -1 da ID SEQ NO: 307. Também são descritas ESTs purificadas, isoladas ou recombinantes que incluem sequências derivadas das extremidades 5' autênticas dos seus mRNAs correspondentes. O termo "mRNA correspondente" refere-se ao mRNA que foi o modelo para a síntese do cDNA que produziu a 5' EST. Estas sequências serão referidas daqui em diante como "5' ESTs". Tal como é aqui utilizado, o termo "purificado" não requer pureza absoluta; ao invés, é uma definição relativa. Clones de 5' EST individuais isolados de uma biblioteca de cDNA foram purificados convencionalmente de modo a exibirem homogeneidade electroforética. Não foi possível obter 7 directamente as sequências obtidas destes clones quer a partir da biblioteca quer a partir de DNA total humano. Os clones de cDNA não ocorrem naturalmente como tal; ao invés, são obtidos via manipulação de uma substância de ocorrência natural (RNA mensageiro) parcialmente purificada. A conversão de mRNA numa biblioteca de cDNA envolve criar uma substância sintética (cDNA), e os clones de cDNA individuais puros podem ser isolados da biblioteca sintética por selecção clonal. Assim, criar uma biblioteca de cDNA a partir de RNA mensageiro e, subsequentemente, isolar dessa biblioteca clones individuais resulta numa purificação, aproximadamente, de 104-106 vezes da mensagem nativa. É expressamente contemplada a purificação do material de partida ou material natural em pelo menos uma ordem de grandeza, preferivelmente duas ou três ordens e mais preferivelmente quatro ou cinco ordens de grandeza.
Tal como é aqui utilizado, o termo "isolado" requer que o material seja removido do seu ambiente original (por exemplo, o ambiente natural se for de ocorrência natural). Por exemplo, um polinucleótido de ocorrência natural presente num animal vivo não está isolado, mas o mesmo polinucleótido separado de alguns ou de todos os materiais coexistentes no sistema natural está isolado.
Tal como é aqui utilizado, o termo "recombinante" significa que a 5' EST é adjacente ao ácido nucleico "da coluna vertebral", ao qual não é adjacente no seu ambiente natural. Adicionalmente, para "estarem enriquecidas", as 5' ESTs representarão 5% ou mais do número de inserções de ácidos nucleicos numa população de moléculas da coluna vertebral de ácidos nucleicos. Moléculas da coluna vertebral, de acordo com a presente invenção, incluem ácidos nucleicos tais como vectores de expressão, ácidos nucleicos auto-replicativos, vírus, ácidos nucleicos de 8 integração e outros vectores ou ácidos nucleicos utilizados para manter ou manipular uma inserção de ácido nucleico de interesse. Preferivelmente, as 5' ESTs enriquecidas representam 15% ou mais do número de inserções de ácidos nucleicos na população de moléculas recombinantes da coluna vertebral. Mais preferivelmente, as 5' ESTs enriquecidas representam 50% ou mais do número de inserções de ácidos nucleicos na população de moléculas recombinantes da coluna vertebral. Numa especificação altamente preferida, as 5' ESTs enriquecidas representam 90% ou mais do número de inserções de ácidos nucleicos na população de moléculas recombinantes da coluna vertebral.
Condições de hibridização "restritas", "moderadas" e "fracas" são como definidas no Exemplo 29. A menos que indicado em contrário, uma sequência "complementar" é totalmente complementar.
Assim, 5' ESTs presentes em bibliotecas de cDNA nas quais uma ou mais 5' ESTs perfazem 5% ou mais do número de inserções de ácidos nucleicos nas moléculas da coluna vertebral são "5' ESTs recombinantes enriquecidas" como definido aqui. Da mesma forma, 5' ESts numa população de plasmideos onde foram inseridas uma ou mais 5' ESTs da presente invenção de modo a representarem 5% ou mais do número de inserções na coluna vertebral do plasmideo são "5' ESTs recombinantes enriquecidas" como definido aqui. No entanto, 5' ESts presentes em bibliotecas de cDNA nas quais 5' ESTs constituem menos de 5% do número de inserções de ácidos nucleicos na população de moléculas da coluna vertebral, como bibliotecas nas quais são extremamente raras moléculas da coluna vertebral com uma inserção 5' EST, não são "5' ESTs recombinantes enriquecidas".
Em particular, são descritas 5' ESTs derivadas de genes que codificam proteínas segregadas. Tal como é aqui 9 utilizado, uma proteína "segregada" é tal que, quando é expressa numa célula hospedeiro adequada, é transportada através de uma membrana, incluindo o transporte resultante da presença de péptidos de sinal na sua sequência de aminoácidos. Proteínas "segregadas" incluem, sem limitação, proteínas segregadas completamente (por exemplo, proteínas solúveis) ou parcialmente (por exemplo, receptores) a partir da célula onde são expressas. Proteínas "segregadas" também incluem, sem limitação, proteínas que são transportadas através da membrana do retículo endoplasmático.
Essas 5' ESTs incluem sequências de ácidos nucleicos, denominadas sequências de sinal, que codificam péptidos de sinal que dirigem a secreção extracelular das proteínas codificadas pelos genes de onde derivam as 5' ESTs. Em geral, os péptidos de sinal estão localizados nos terminais amino de proteínas segregadas.
Proteínas segregadas são traduzidas por ribossomas associados ao retículo endoplasmático "rugoso". Em geral, as proteínas segregadas são transferidas, de forma co-tradução, para a membrana do retículo endoplasmático. A associação do ribossoma ao retículo endoplasmático durante a tradução de proteínas segregadas é mediada pelo péptido de sinal. 0 péptido de sinal é tipicamente clivado após a sua entrada, co-tradução, no retículo endoplasmático. Depois de serem distribuídas no retículo endoplasmático, as proteínas segregadas podem prosseguir para o aparato de Golgi. No aparato de Golgi, as proteínas podem sofrer modificação pós-tradução antes de entrarem em vesículas secretoras que as transportam através da membrana celular.
As 5' ESTs descritas aqui têm várias aplicações importantes. Por exemplo, podem ser utilizadas para obter e expressar clones de cDNA que incluem as sequências 10 codificadoras das proteínas completas dos produtos genéticos correspondentes, incluindo os sítios autênticos de início da tradução derivados das extremidades 5' das sequências codificadoras dos mRNAs de onde derivam as 5' ESTs. Estes cDNAs serão aqui referidos como "cDNAs completos". Estes cDNAs também podem incluir DNA derivado de sequências de mRNA a montante do sítio do início da tradução. As sequências de cDNA completo podem ser utilizadas para expressar as proteínas correspondentes às 5' ESTs. Como discutido acima, as proteínas segregadas são terapeuticamente importantes. Assim, as proteínas expressas a partir dos cDNAs podem ser úteis no tratamento ou controlo de uma variedade de estados humanos. As 5' ESTs também podem ser utilizadas para obter o DNA genómico correspondente. O termo "DNA genómico correspondente" refere-se ao DNA genómico que codifica o mRNA de onde derivou a 5' EST.
Alternativamente, as 5' ESTs podem ser utilizadas para obter e expressar cDNAs estendidos que codificam porções da proteína segregada. As porções podem compreender os péptidos de sinal das proteínas segregadas ou as proteínas maduras geradas quando o péptido de sinal é removido por clivagem. As porções também podem compreender polipéptidos possuindo pelo menos 10 aminoácidos consecutivos codificados pelos cDNAs estendidos ou cDNAs completos. Alternativamente, as porções podem compreender pelo menos 15 aminoácidos consecutivos codificados pelos cDNAs estendidos ou cDNAs completos. Nalgumas especificações, as porções podem compreender pelo menos 25 aminoácidos consecutivos codificados pelos cDNAs estendidos ou cDNAs completos. Noutras especificações, as porções podem compreender pelo menos 40 aminoácidos codificados pelos cDNAs estendidos ou cDNAs completos. 11
Também podem obter-se, como descrito abaixo, anticorpos que reconhecem especificamente as proteínas segregadas completas codificadas pelos cDNAs estendidos, cDNAs completos, ou respectivos fragmentos possuindo pelo menos 10 aminoácidos consecutivos, pelo menos 15 aminoácidos consecutivos, pelo menos 25 aminoácidos consecutivos ou pelo menos 40 aminoácidos consecutivos. Também podem ser obtidos, como descrito abaixo, anticorpos que reconhecem especificamente a proteína madura gerada quando o péptido de sinal é clivado. De modo semelhante, também podem obter-se anticorpos que reconhecem especificamente os péptidos de sinal codificados pelos cDNAs estendidos ou cDNAs completos.
Os cDNAs estendidos obtidos utilizando as 5' ESTs podem incluir a sequência de sinal. Alternativamente, os cDNAs estendidos obtidos utilizando as 5' ESTs podem incluir a sequência codificadora completa para a proteína madura (isto é, a proteína gerada quando o polipéptido de sinal é removido por clivagem). Adicionalmente, os cDNAs estendidos obtidos utilizando as 5' ESTs podem incluir regiões reguladoras a montante do sítio do início da tradução ou a jusante do codão de terminação que controlam a quantidade, localização ou fase do desenvolvimento da expressão genética.
Como discutido acima, as proteínas segregadas são terapeuticamente importantes. Assim, as proteínas expressas a partir dos cDNAs estendidos ou cDNAs completos obtidos utilizando as 5' ESTs podem ser úteis no tratamento ou controlo de uma variedade de estados humanos.
As 5' ESTs (ou cDNAs ou DNAs genómicos obtidos daquelas) podem ser utilizadas em procedimentos forenses, para identificar indivíduos, ou em procedimentos de diagnóstico, para identificar indivíduos com doenças 12 genéticas resultantes de expressão anormal dos genes correspondentes às 5' ESTs. Adicionalmente, a presente invenção é útil para construir um mapa de alta resolução dos cromossomas humanos. A presente invenção também se refere a vectores de secreção capazes de dirigir a secreção de uma proteína de interesse. Esses vectores podem ser utilizados em estratégias de terapia genética nas quais se deseja produzir um produto genético numa célula que deve ser distribuído noutra localização do corpo. Os vectores de secreção também podem facilitar a purificação de proteínas desejadas. A presente invenção também se refere a vectores de expressão capazes de dirigir a expressão de um gene inserido de uma forma espacial ou temporal desejada ou num nível desejado. Esses vectores podem incluir sequências a montante das 5' ESTs, como promotores ou sequências reguladoras a montante. Péptidos de sinal podem ser fundidos a proteínas heterólogas para dirigir a sua secreção extracelular.
Clones bacterianos contendo plasmídeos Bluescript com inserções que contêm a 5' EST ID SEQ NO: 149 estão presentemente armazenados, a 80°C em glicerol 4% (v/v), nos laboratórios do inventor com a designação listada a seguir à ID SEQ NO em II. As inserções podem ser recuperadas a partir dos materiais depositados desenvolvendo os clones apropriados num meio adequado. Em seguida, o DNA de Bluescript pode ser isolado utilizando procedimentos de isolamento de plasmídeos familiares aos experimentados na área, como técnicas mini-preparativas de lise alcalina ou procedimentos de isolamento de plasmídeos por lise alcalina em larga escala. Se desejado, o DNA plasmídico pode ser suplementarmente enriquecido por centrifugação num 13 gradiente de cloreto de césio, cromatografia de exclusão por tamanhos ou cromatografia de permuta aniónica. 0 DNA plasmidico obtido utilizando estes procedimentos pode ser seguidamente manipulado utilizando técnicas comuns de clonagem familiares aos experimentados na área. Alternativamente, pode efectuar-se uma PCR com "primers" concebidos em ambas as extremidades da inserção EST. 0 produto de PCR que corresponde à 5' EST pode então ser manipulado utilizando técnicas comuns de clonagem familiares aos experimentados na área. É descrito um ácido nucleico purificado ou isolado possuindo a sequência da ID SEQ NO: 14 9 ou possuindo uma sequência complementar àquela. Numa especificação, o ácido nucleico é recombinante. É descrito um ácido nucleico purificado ou isolado compreendendo pelo menos 10 bases consecutivas da sequência da ID SEQ NO: 149 ou de uma sequência complementar àquela. É descrito um ácido nucleico purificado ou isolado compreendendo pelo menos 15 bases consecutivas da sequência da ID SEQ NO: 149 ou de uma sequência complementar àquela. Numa especificação, o ácido nucleico é recombinante. É suplementarmente descrito um ácido nucleico purificado ou isolado com pelo menos 15 bases capaz de hibridizar, em condições restritas, para a sequência da ID SEQ NO: 149 ou uma sequência complementar à sequência da ID SEQ NO: 149. Numa especificação, o ácido nucleico é recombinante.
Também é descrito um ácido nucleico purificado ou isolado que codifica um produto genético humano, em que o referido produto genético humano tem uma sequência parcialmente codificada pela sequência da ID SEQ NO: 149.
Também é descrito um método de preparação de um cDNA que codifica uma proteína secretora humana, em que a 14 referida proteína secretora humana é parcialmente codificada pela ID SEQ NO: 149, compreendendo os passos de contactar uma colecção de moléculas de mRNA de células humanas com um "primer" compreendendo pelo menos 15 nucleótidos consecutivos de uma sequência complementar à ID SEQ NO: 149; hibridizar esse "primer" para um mRNA na referida colecção que codifica essa proteína; transcrever de forma reversa o referido "primer" hibridizado para preparar um primeiro filamento de cDNA a partir desse mRNA; preparar um segundo filamento de cDNA complementar ao referido primeiro filamento de cDNA, e isolar o cDNA resultante que codifica a referida proteína compreendendo o referido primeiro filamento de cDNA e o referido segundo filamento de cDNA.
Também é descrito um cDNA isolado ou purificado que codifica uma proteína secretora humana, em que a referida proteína secretora humana compreende a proteína codificada pela ID SEQ NO: 149 ou respectivo fragmento com pelo menos 10 aminoácidos, em que o referido cDNA pode ser obtido pelo método descrito no parágrafo precedente. Numa especificação, o cDNA compreende a sequência codificadora da proteína completa da referida proteína cuja sequência está parcialmente incluída na sequência da ID SEQ NO: 149.
Também é descrito um método para preparar um cDNA que codifica uma proteína secretora humana que é parcialmente codificada pela ID SEQ NO: 149, compreendendo os passos de obter um cDNA que compreende a sequência da ID SEQ NO: 149; contactar o referido cDNA com uma sonda detectável compreendendo pelo menos 15 nucleótidos consecutivos da referida sequência da ID SEQ NO: 149, ou uma sequência complementar àquela, em condições que permitem que a referida sonda hibridize para o referido cDNA; identificar 15 um cDNA que hibridiza para a referida sonda detectável, e isolar o referido cDNA que hibridiza para a referida sonda.
Também é descrito um cDNA isolado ou purificado que codifica uma proteína secretora humana, em que a referida proteína secretora humana compreende a proteína codificada pela ID SEQ NO: 149 ou respectivo fragmento com pelo menos 10 aminoácidos, em que o referido cDNA pode ser obtido pelo método descrito no parágrafo precedente. Numa especificação, o cDNA compreende a sequência codificadora da proteína completa parcialmente incluída na sequência da ID SEQ NO: 149.
Também é descrito um método para preparar um cDNA compreendendo a sequência da ID SEQ NO: 149, que compreende os passos de contactar uma colecção de moléculas de mRNA de células humanas com um primeiro "primer" capaz de hibridizar para o marcador poliA do referido mRNA; hibridizar o referido primeiro "primer" para o referido marcador poliA; transcrever de forma reversa o referido mRNA para preparar um primeiro filamento de cDNA; preparar um segundo filamento de cDNA complementar ao referido primeiro filamento de cDNA utilizando pelo menos um "primer" que compreende 15 nucleótidos da sequência da ID SEQ NO: 14 9, e isolar o cDNA resultante compreendendo o referido primeiro filamento de cDNA e o referido segundo filamento de cDNA.
Também é descrito um cDNA isolado ou purificado que codifica uma proteína secretora humana, em que a referida proteína secretora humana compreende a proteína codificada pela ID SEQ NO: 149 ou respectivo fragmento com pelo 10 aminoácidos, em que o referido cDNA pode ser obtido pelo método descrito no parágrafo precedente. Numa especificação, o cDNA compreende a sequência codificadora 16 da proteína completa parcialmente incluída na sequência da ID SEQ NO: 149.
Numa especificação do método descrito nos dois parágrafos acima, prepara-se o segundo filamento de cDNA contactando o referido primeiro filamento de cDNA com um primeiro par de "primers", em que o referido primeiro par de "primers" compreende um segundo "primer" compreendendo pelo menos 15 nucleótidos consecutivos da sequência da ID SEQ NO: 149 e um terceiro "primer" possuindo uma sequência que está incluída na sequência do referido primeiro "primer"; efectuando uma primeira reacção em cadeia de polimerase com o referido primeiro par de "primers" encaixados para gerar um primeiro produto de PCR; contactando o referido primeiro produto de PCR com um segundo par de "primers", em que o referido segundo par de "primers" compreende um quarto "primer", cujo quarto "primer" compreende pelo menos 15 nucleótidos consecutivos da referida sequência ID SEQ NO: 149, e um quinto "primer", em que os referidos quarto e quinto "primers" são capazes de hibridizar para sequências presentes no referido primeiro produto de PCR, e efectuando uma segunda reacção em cadeia de polimerase, desse modo gerando um segundo produto de PCR.
Também é descrito um cDNA isolado ou purificado que codifica uma proteína secretora humana, em que a referida proteína secretora humana compreende a proteína codificada pela ID SEQ NO: 149 ou respectivo fragmento com pelo 10 aminoácidos, em que o referido cDNA pode ser obtido pelo método do parágrafo precedente. Numa especificação, o cDNA compreende a sequência codificadora da proteína completa parcialmente incluída na sequência da ID SEQ NO: 149.
Também é descrito o método que foi descrito quatro parágrafos acima no qual o segundo filamento de cDNA é 17 preparado contactando o referido primeiro filamento de cDNA com um segundo "primer" que compreende pelo menos 15 nucleótidos consecutivos da ID SEQ NO: 149; hibridizando o referido segundo "primer" para o referido primeiro filamento de cDNA, e estendendo o referido segundo "primer" hibridizado para gerar o referido segundo filamento de cDNA.
Também é descrito um cDNA isolado ou purificado que codifica uma proteína secretora humana, em que a referida proteína secretora humana compreende a proteína parcialmente codificada pela ID SEQ NO: 14 9 ou compreende um fragmento respectivo com pelo 10 aminoácidos, em que o referido cDNA pode ser obtido pelo método descrito no parágrafo precedente. Numa especificação, o cDNA compreende a sequência codificadora da proteína completa parcialmente incluída na sequência da ID SEQ NO: 149.
Também é descrito um método para preparar uma proteína compreendendo a sequência da ID SEQ NO: 307, que compreende os passos de obter um cDNA que codifica a sequência da proteína completa parcialmente incluído na sequência da ID SEQ NO: 149; inserir o referido cDNA num vector de expressão de modo que o referido cDNA fique operativamente ligado a um promotor; introduzir o referido vector de expressão numa célula hospedeiro de modo que a referida célula hospedeiro produza a proteína codificada pelo referido cDNA, e isolar a referida proteína.
Também é descrita uma proteína isolada que pode ser obtida pelo método descrito no parágrafo precedente.
Também é descrito um método para obter um DNA promotor, que compreende os passos de obter DNAs localizados a montante do ácido nucleico da ID SEQ NO: 149 ou sequências complementares a esta; rastrear os referidos DNAs a montante de modo a identificar um promotor capaz de dirigir 18 a iniciação da transcrição, e isolar o referido DNA compreendendo o referido promotor identificado. Numa especificação, o passo de obtenção compreende uma caminhada cromossómica ("chromosome walking") a partir do referido ácido nucleico da ID SEQ NO: 149 ou uma sequência complementar a esta. Noutra especificação, o passo de rastreio compreende inserir as referidas sequências a montante num vector repórter promotor. Noutra especificação, o passo de rastreio compreende identificar motivos nos referidos DNAs a montante que sejam sítios de ligação de factores de transcrição ou sítios de início da transcrição.
Também é descrita uma proteína isolada ou purificada compreendendo a sequência da ID SEQ NO: 307.
Também é descrita a inclusão da sequência da ID SEQ NO: 149, ou da sequência complementar à sequência da ID SEQ NO: 149, ou respectivo fragmento com pelo menos 15 nucleótidos consecutivos, numa série de ESTs discretas, ou respectivos fragmentos com pelo menos 15 nucleótidos de comprimento.
Também é descrito um promotor possuindo uma sequência seleccionada do grupo que consiste nas ID SEQ NOs: 31, 34 e 37.
Descrição Breve das Figuras A Figura 1 é um resumo de um procedimento para obter cDNAs que foram seleccionados de modo a incluírem as extremidades 5' dos mRNAs de onde derivaram. A Figura 2 mostra a distribuição de pontuações de Von Heijne para 5' ESTs em cada uma das categorias descritas aqui e a probabilidade destas 5' ESTs codificarem um péptido de sinal. 19 A Figura 3 resume um método geral utilizado para clonar e sequenciar cDNAs estendidos contendo sequências adjacentes a 5' ESTs. A Figura 4 (descrição da estrutura de promotores isolados de 5' ESTs SignalTag) fornece uma descrição esquemática de promotores isolados e do modo como são reunidos com os marcadores 5' correspondentes.
Descrição Pormenorizada da Especificação Preferida A Tabela IV é uma análise dos 43 aminoácidos localizados no terminal N de todas as proteínas de SwissProt humanas, para determinar a frequência de positivos falsos e negativos falsos utilizando as técnicas de identificação de péptidos de sinal descritas aqui. A Tabela V mostra a distribuição de 5' ESTs em cada categoria descrita aqui e o número de 5' ESTs em cada categoria com uma dada pontuação mínima de Von Heijne. A Tabela VI mostra a distribuição de 5' ESTs em cada categoria descrita aqui relativamente ao tecido de onde foram obtidas as 5' ESTs do mRNA correspondente. A Tabela VII descreve os sítios de ligação de factores de transcrição presentes em cada um destes promotores. I. Métodos Gerais para Obter 5' ESTs Derivadas de mRNAs com Extremidades 5' Intactas
Para obter as 5' ESTs descritas aqui devem obter-se mRNAs com extremidades 5' intactas. Presentemente há duas abordagens para obter esses mRNAs com extremidades 5' intactas, como descrito abaixo: química (1) ou enzimática (2) . 20 1. Métodos Químicos para Obter mRNAs com Extremidades 5' Intactas
Uma destas abordagens consiste num método de modificação quimica envolvendo derivatização das extremidades 5' dos mRNAs e selecção dos mRNAs derivatizados. As extremidades 5' de mRNAs eucarióticos possuem uma estrutura referida como "cobertura" ("cap") que compreende uma guanosina metilada na posição 7. A cobertura é reunida à primeira base transcrita do mRNA através de uma ligação 5 ',5'-trifosfato. Nalguns casos, a 5' guanosina está metilada nas posições 2 e 7. Raramente, a 5' guanosina está trimetilada nas posições 2, 7 e 7. No método químico para obter mRNAs com extremidades 5' intactas, a cobertura 5' é especificamente derivatizada e acoplada a um grupo reactivo num substrato imobilizador. Esta derivatização específica baseia-se no facto de apenas a ribose ligada à guanosina metilada na extremidade 5' do mRNA e da ribose ligada à base no terminal 3' do mRNA possuírem 2',3'-cis-dióis.
Opcionalmente, o 2',3'-cis-diol da ribose 3' terminal pode ser quimicamente modificado, substituído, convertido ou eliminado, deixando apenas a ribose ligada à guanosina metilada na extremidade 5' do mRNA com um 2',3'-cis-diol. Está disponível uma variedade de técnicas para eliminar o 2',3'-cis-diol na ribose 3' terminal. Por exemplo, pode utilizar-se hidrólise alcalina controlada para gerar fragmentos de mRNA nos quais a ribose 3' terminal é um 3'-fosfato, 2'-fosfato ou (2 ',3 ')-ciclofosfato. Em seguida, o fragmento que inclui a 3' ribose original pode ser eliminado da mistura por cromatografia numa coluna de oligodT. Alternativamente, pode adicionar-se uma base sem o 2',3'-cis-diol à extremidade 3' do mRNA utilizando uma RNA ligase, como RNA ligase de T4. O Exemplo 1 abaixo descreve 21 um método de ligação de um nucleósido difosfato à extremidade 3' de RNA mensageiro. EXEMPLO 1
Ligação do Nucleósido Difosfato pCp à Extremidade 3' de
mRNA
Incubou-se 1 μg de RNA num meio reaccional final de 10 μΐ na presença de 5 U de RNA ligase do fago T4 no tampão fornecido pelo fabricante (Gibco - BRL), 40 U do inibidor de RNase RNasin (Promega) e 2 μΐ de 32pCp (Amersham #PB 10208) . A incubação foi efectuada a 37°C durante 2 horas ou durante a noite a 7-8°C.
Após modificação ou eliminação do 23'-cis-diol da 3' ribose, o 23'-cis-diol presente na extremidade 5' do mRNA pode ser oxidado utilizando reagentes tais como NaBH4, NaBH3CN ou periodato de sódio, desse modo convertendo o 23'-cis-diol num dialdeido. O Exemplo 2 descreve a oxidação do 23'-cis-diol na extremidade 5' do mRNA com periodato de sódio. EXEMPLO 2
Oxidação de 23'-cis-diol na Extremidade 5' do mRNA com
Periodato de Sódio
Trataram-se, do modo seguinte, 0,1 unidades de OD de um oligorribonucleótido com cobertura de 47 nucleótidos (incluindo a cobertura) ou de um oligorribonucleótido sem cobertura de 46 nucleótidos. Os oligorribonucleótidos foram produzidos por transcrição in vitro utilizando o estojo de transcrição "AmpliScribe T7" (Epicentre Technologies). Como indicado abaixo, o modelo de DNA para o transcrito de RNA continha uma única citosina. Para sintetizar o RNA sem 22 cobertura, todos os quatro NTPs foram incluídos na reacção de transcrição in vitro. Para obter o RNA com cobertura, substituiu-se GTP por um análogo da cobertura, m7G(5')ppp(5')G. Este composto, reconhecido pela polimerase, foi incorporado na extremidade 5' do transcrito nascente durante a iniciação da transcrição, mas não foi incorporado durante o passo de extensão. Consequentemente, o RNA resultante continha uma cobertura na sua extremidade 5'. As sequências dos oligorribonucleótidos produzidos pela reacção de transcrição in vitro foram: +Cobertura: 5'm7GpppGCÀUCCUACQCCCAUCCAAlRJCCACCCUAACUCCUCCCAUCUCCAC- 3' (ID SEQ NO: 1) -Cobertura: S^pppGCAUCCUACUCCCAUCCAALÍUCCACCCUAACUCCUCCCAUCUCCAC-y (ID SEQ NO: 2)
Os oligorribonucleótidos foram dissolvidos em 9 μΐ de tampão acetato (acetato de sódio 0,1 M, pH 5,2) e 3 μΐ de solução de periodato de sódio 0,1 M preparada de fresco. Incubou-se a mistura durante 1 hora no escuro a 4°C ou temperatura ambiente. Em seguida, a reacção foi terminada por adição de 4 μΐ de etilenoglicol 10%. O produto foi precipitado com etanol, novamente suspenso em pelo menos 10 μΐ de água ou tampão apropriado e dialisado contra água.
Em seguida, os grupos aldeído resultantes podem ser acoplados a moléculas com um grupo amina reactivo, como os grupos hidrazina, carbazida, tiocarbazida ou semi-carbazida, para facilitar o enriquecimento das extremidades 5' dos mRNAs. Moléculas com grupos amina reactivos que são adequadas para utilização na selecção de mRNAs com extremidades 5' intactas incluem avidina, proteínas, 23 anticorpos, vitaminas, ligandos capazes de se ligarem especificamente a moléculas receptoras, ou oligonucleótidos. 0 Exemplo 3 abaixo descreve o acoplamento do dialdeido resultante a biotina. EXEMPLO 3
Acoplamento do Dialdeido a Biotina na Extremidade 5' de
Transcritos 0 produto de oxidação obtido no Exemplo 2 foi dissolvido em 50 μΐ de acetato de sódio, a um pH situado entre 5 e 5,2, e 50 μΐ de solução de biotina hidrazida 0,02 M preparada de fresco numa mistura de metoxietanol/água (1:1) de fórmula:
H
O O
li II ΝΉ 2~ΊΜΗ —C—(CH2)n—NH—C—
No composto utilizado nestas experiências, n=5. No entanto, será apreciado que também podem ser utilizadas outras hidrazidas comercialmente disponíveis, tais como moléculas com a fórmula acima nas quais n varia desde 0 até 5. Em seguida, a mistura foi incubada durante 2 horas a 37°C, foi precipitada com etanol e dialisada contra água destilada. O Exemplo 4 demonstra a especificidade da reacção de biotinilação. EXEMPLO 4
Especificidade da Biotinilação de Transcritos Com Cobertura Avaliou-se a especificidade da biotinilação para mRNAs com cobertura por electroforese em gel das amostras seguintes. 24
Amostra 1. 0 transcrito in vitro sem cobertura de 46 nucleótidos preparado como no Exemplo 2 e etiquetado com 32pCp como descrito no Exemplo 1.
Amostra 2. 0 transcrito in vitro sem cobertura de 46 nucleótidos preparado como no Exemplo 2, etiquetado com 32pCp como descrito no Exemplo 1, tratado com a reacção de oxidação do Exemplo 2 e sujeito às condições de biotinilação do Exemplo 3.
Amostra 3. 0 transcrito in vitro com cobertura de 47 nucleótidos preparado como no Exemplo 2 e etiquetado com 32pCp como descrito no Exemplo 1.
Amostra 4. 0 transcrito in vitro com cobertura de 47 nucleótidos preparado como no Exemplo 2, etiquetado com 32pCp como descrito no Exemplo 1, tratado com a reacção de oxidação do Exemplo 2 e sujeito às condições de biotinilação do Exemplo 3.
As Amostras 1 e 2 exibiram velocidades de migração idênticas, demonstrando que os RNAs sem cobertura não foram oxidados nem biotinilados. A Amostra 3 migrou mais lentamente do que as amostras 1 e 2, ao passo que a Amostra 4 exibiu a migração mais lenta. A diferença da migração dos RNAs das Amostras 3 e 4 demonstra que os RNAs com cobertura foram especificamente biotinilados.
Nalguns casos, mRNAs com extremidades 5' intactas podem ser enriquecidos por ligação da molécula contendo um grupo amina reactivo a um substrato de fase sólida adequado, como o interior do recipiente contendo os mRNAs, esférulas magnéticas, matrizes de cromatografia ou membranas de nylon ou nitrocelulose. Por exemplo, quando a molécula com um grupo reactivo amina for biotina, o substrato de fase sólida pode ser acoplado a avidina ou estreptavidina. Alternativamente, quando a molécula com o grupo reactivo 25 amina for um anticorpo ou ligando de receptores, o substrato de fase sólida pode ser acoplado ao antigene ou receptor de cognato. Por fim, quando a molécula com um grupo reactivo amina compreender um oligonucleótido, 0 substrato de fase sólida pode compreender um oligonucleótido complementar. Os mRNAs com extremidades 5' intactas podem ser libertados da fase sólida após o procedimento de enriquecimento. Por exemplo, quando o dialdeido for acoplado a biotina hidrazida e a fase sólida compreender estreptavidina, os mRNAs podem ser libertados da fase sólida simplesmente por aquecimento para 95 graus Celsius em SDS 2%. Nalguns métodos, a molécula com um grupo reactivo amina também pode ser clivada dos mRNAs com extremidades 5' intactas após o enriquecimento. O Exemplo 5 descreve a captura de mRNAs biotinilados com esférulas revestidas com estreptavidina e a libertação dos mRNAs biotinilados a partir das esférulas após o enriquecimento. EXEMPLO 5
Captura e Libertação de mRNAs Biotinilados Utilizando Esférulas Revestidas com Estreptavidina As esférulas magnéticas revestidas com estreptavidina foram preparadas de acordo com as instruções do fabricante (CPG Inc., E.U.A.). Adicionaram-se os mRNAs biotinilados a um tampão de hibridização (NaCl 1,5 M, pH 5 - 6) . Após incubação durante 30 minutos, removeu-se o material não ligado e não biotinilado. Em seguida, as esférulas foram lavadas várias vezes em água com SDS 1%. As esférulas obtidas desta forma foram incubadas durante 15 minutos a 95°C em água contendo SDS 2%. 26 0 Exemplo 6 demonstra a eficiência da recuperação dos mRNAs biotinilados a partir das esférulas revestidas com estreptavidina. EXEMPLO 6
Eficiência da Recuperação de mRNAs Biotinilados
Avaliou-se do modo seguinte a eficiência do procedimento de recuperação. RNAs com cobertura foram etiquetados com 32pCp, oxidados, biotinilados e ligados a esférulas revestidas com estreptavidina como descrito acima. Subsequentemente, os RNAs ligados foram incubados durante 5, 15 ou 30 minutos a 95°C na presença de SDS 2%.
Os produtos da reacção foram analisados por electroforese em géis de poliacrilamida 12% em condições desnaturantes (ureia 7 M). Os géis foram sujeitos a autorradiografia. Durante esta manipulação, as ligações de hidrazona não foram reduzidas.
Recuperaram-se quantidades crescentes de ácidos nucleicos à medida que aumentaram os tempos de incubação em SDS 2%, demonstrando que os mRNAs biotinilados foram eficientemente recuperados.
Num método alternativo para obter mRNAs com extremidades 5' intactas, um oligonucleótido que foi derivatizado de modo a conter um grupo amina reactivo é especificamente acoplado a mRNAs com uma cobertura intacta. Preferivelmente, a extremidade 3' do mRNA é bloqueada antes do passo em que os grupos aldeídos são reunidos ao oligonucleótido derivatizado, como descrito acima, de modo a prevenir que o oligonucleótido derivatizado se reúna à extremidade 3' do mRNA. Por exemplo, pCp pode ser ligado à extremidade 3' do mRNA utilizando RNA ligase de T4, como descrito no Exemplo 1. No entanto e como discutido acima, o 27 bloqueio da extremidade 3' do mRNA é um passo opcional. Oligonucleótidos derivatizados podem ser preparados como descrito no Exemplo 7. EXEMPLO 7
Derivatização de Oligonucleótidos
Um oligonucleótido fosforilado na sua extremidade 3' foi convertido numa 3' hidrazida em 3' por tratamento com uma solução aquosa de hidrazina ou de di-hidrazida de fórmula H2N(R1)NH2 a cerca de 1 até 3 M e a pH 4,5, a uma temperatura de 8°C durante a noite. Esta incubação foi efectuada na presença de um agente do tipo carbodiimida solúvel em água, como l-etil-3-(3-dimetilaminopropil)carbodiimida, a uma concentração final de 0,3 M.
Em seguida, o oligonucleótido derivatizado foi separado dos outros agentes e produtos utilizando uma técnica comum de isolamento de oligonucleótidos.
Como discutido acima, os mRNAs a serem enriquecidos podem ser tratados de modo a eliminar os grupos 3' OH que possam estar presentes. Isto pode ser conseguido por ligação enzimática de sequências sem um 3' OH, como pCp, tal como descrito no Exemplo 1. Alternativamente, os grupos 3' OH podem ser eliminados por hidrólise alcalina, como descrito no Exemplo 8 abaixo. EXEMPLO 8
Eliminação de Grupos 3' OH de mRNA Utilizando Hidrólise Alcalina
Num volume total de 100 μΐ de hidróxido de sódio 0,1 N incubam-se 1,5 μρ de mRNA durante 40 até 60 minutos a 4°C. A solução é neutralizada com ácido acético e precipitada com etanol. 28
Após a eliminação opcional dos grupos 3' OH, os grupos diol presentes nas extremidades 5' dos mRNAs são oxidados, como descrito abaixo no Exemplo 9. EXEMPLO 9
Oxidação de Dióis de mRNA
Dissolveu-se até 1 unidade de OD de RNA em 9 μΐ de tampão (acetato de sódio 0,1 M, pH 6-7) ou água e 3 μΐ de solução de periodato de sódio 0,1 M preparada de fresco. Incubou-se a reacção durante 1 hora no escuro a 4°C ou à temperatura ambiente. Após a incubação, a reacção foi terminada por adição de 4 μΐ de etilenoglicol 10%. Em seguida, a mistura foi incubada à temperatura ambiente durante 15 minutos. Após precipitação com etanol, o produto foi novamente suspenso em pelo menos 10 μΐ de água ou tampão apropriado e foi dialisado contra água.
Após oxidação dos grupos diol nas extremidades 5' dos mRNAs, o oligonucleótido derivatizado foi reunido aos aldeídos resultantes, como descrito no Exemplo 10. EXEMPLO 10
Ligação de Aldeídos de mRNA a Oligonucleótidos Derivatizados O mRNA oxidado foi dissolvido num meio acídico, tal como 50 μΐ de acetato de sódio pH 4-6. Adicionaram-se 50 μΐ de uma solução do oligonucleótido derivatizado de modo a obter uma razão de mRNA: oligonucleótido derivatizado de 1:20. A mistura foi reduzida com um boro-hidreto e foi incubada durante 2 horas a 37°C ou durante a noite (14 horas) a 10°C. Em seguida, a mistura foi precipitada com etanol, novamente suspensa em 10 μΐ ou mais água ou tampão apropriado e dialisada contra água destilada. Se desejado, 29 o produto resultante pode ser analisado utilizando electroforese em gel de acrilamida, análise de HPLC ou outras técnicas convencionais.
Após a ligação do oligonucleótido derivatizado aos mRNAs, pode efectuar-se uma reacção de transcrição reversa, como descrito no Exemplo 11 abaixo. EXEMPLO 11
Transcrição Reversa de mRNAs Ligados a Oligonucleótidos Derivatizados Um oligodesoxirribonucleótido foi derivatizado do modo seguinte. Três unidades de OD de um oligodesoxirribonucleótido de sequência (ID SEQ NO: 3) 5'ATCAAGAATTCGCACGAGACCA1TA3’ com extremidades 5'-OH e 3'-P foram dissolvidas em 70 μΐ de uma solução de hidroxibenzotriazolo 1,5 M, pH 5,3, preparada em dimetilformamida/água (75:25) contendo 2 μg de l-etil-3-(3-dimetilaminopropil)carbodiimida. A mistura foi incubada durante 2 horas e 30 minutos a 22°C e depois foi precipitada duas vezes em LiC104/acetona. O grânulo foi novamente suspenso em 200 μΐ de hidrazina 0,25 M e foi incubado a 8°C durante 3 até 14 horas. Após a reacção com hidrazina, a mistura foi precipitada duas vezes em LiCl04/acetona.
Os RNAs mensageiros a serem transcritos de forma reversa foram extraídos de blocos de placenta, com 2 cm de lado, que haviam sido armazenados a -80°C. Extraiu-se o RNA total utilizando técnicas convencionais de fenol acídico. Para purificar os mRNAs utilizou-se cromatografia com oligo-dT. Verificou-se a integridade dos mRNAs por coloração "Northern". 30
Os grupos diol de 7 μς dos mRNAs de placenta foram oxidados como descrito acima no Exemplo 9. O oligonucleótido derivatizado foi reunido aos mRNAs como descrito no Exemplo 10 acima, com a excepção do passo de precipitação ter sido substituído por um passo de cromatografia por exclusão, para remover oligo-desoxirribonucleótidos derivatizados que não foram reunidos a mRNAs. A cromatografia por exclusão foi efectuada do modo seguinte.
Dez mililitros de gel Ultrogel AcA34 (BioSepra#230151), uma mistura de agarose e acrilamida, foram equilibrados em 50 ml de uma solução de Tris 10 mM pH 8,0, NaCl 300 mM, EDTA 1 mM e SDS 0,05%. Deixou-se sedimentar a mistura. Eliminou-se o sobrenadante e suspendeu-se novamente o gel em 50 ml de tampão. Repetiu-se este procedimento 2 ou 3 vezes.
Introduziu-se uma esférula de vidro (3 mm de diâmetro) numa pipeta descartável de 2 ml (25 cm de comprimento) . Encheu-se a pipeta com a suspensão de gel até a altura do gel ter estabilizado a 1 cm do topo da pipeta. Em seguida, a coluna foi equilibrada com 20 ml de tampão de equilibração (Tris HC1 10 mM pH 7,4, NaCl 20 mM).
Misturaram-se 10 μΐ do mRNA que tinha reagido com o oligonucleótido derivatizado em 39 μΐ de ureia 10 mM e 2 μΐ de tampão azul-glicerol, que havia sido preparado dissolvendo 5 mg de azul de bromofenol em glicerol 60% (v/v) e passando a mistura por um filtro de 0,45 μιη de diâmetro.
Em seguida, carregou-se a coluna com os mRNAs acoplados ao oligonucleótido. Assim que a amostra penetrou na coluna adicionou-se tampão de equilibração. Depois recolheram-se fracções de 100 μΐ. O oligonucleótido derivatizado que não 31 se tinha ligado a mRNA apareceu na fracção 16 e fracções posteriores. Assim, as fracções 3 até 15 foram combinadas e precipitadas com etanol.
Para determinar se o oligonucleótido derivatizado se ligou, de facto, a mRNA, um décimo das fracções combinadas foi disposto em manchas duas vezes numa membrana de nylon e hibridizado para uma sonda radioactiva utilizando técnicas • · Q0 , convencionais. A sonda etiquetada com P utilizada nestas hibridizações foi um oligodesoxirribonucleótido de sequência -vrAA'fOGTCTCOTGCGAATTCTTGAT3’ (id SEQ NO: 4) anti-complementar ao oligonucleótido derivatizado. Um sinal observado após autorradiografia indicou que o oligonucleótido derivatizado tinha sido, de facto, reunido ao mRNA.
Os restantes nove décimos dos mRNAs que tinham reagido com o oligonucleótido derivatizado foram transcritos de forma reversa do modo seguinte. Efectuou-se uma reacçâo de transcrição reversa com transcriptase reversa, seguindo as instruções do fabricante, e, como "primers", 50 pmol de nonâmeros com sequências aleatórias.
Realizaram-se dois tipos de experiências para assegurar que a transcrição reversa tinha sido efectuada através da estrutura de cobertura.
Na primeira abordagem, após a eliminação de RNA dos heteroduplexes de cDNA:RNA obtidos da reacçâo de transcrição reversa por hidrólise alcalina, uma porção dos cDNAs de filamentação simples resultantes foi disposta em manchas numa membrana de carga positiva e foi hibridizada, utilizando métodos convencionais, para uma sonda etiquetada com 32P possuindo uma sequência idêntica à do oligonucleótido derivatizado. Incluíram-se manchas de controlo contendo 1 pmol, 100 fmol, 50 fmol, 10 fmol e 1 fmol de um oligodesoxirribonucleótido de controlo com 32 sequência idêntica à do oligonucleótido derivatizado. 0 sinal observado nas manchas contendo o cDNA indicou que aproximadamente 15 fmol do oligonucleótido derivatizado tinham sido transcritas de forma reversa. Estes resultados demonstram que a transcrição reversa pode ser efectuada através da cobertura e, em particular, que a transcriptase reversa cruza a ligação 5'-P-P-P-5' da cobertura de RNAs mensageiros eucarióticos.
No segundo tipo de experiência, os cDNAs de filamentação simples obtidos da síntese acima do primeiro filamento foram utilizados como modelos para reacções de PCR. Efectuaram-se dois tipos de reacções. Em primeiro lugar, procedeu-se à amplificação específica dos mRNAs para alfa-globina, desidrogenase, ppl5 e factor de alongamento E4 utilizando os seguintes pares de "primers" oligo-desoxirribonucleotídicos. alfa-globina OLO-S: 5’CCOAC/VAGACCAACGTCAAGG CCGCT (ID SEQ N0: 5) GL0*As; 5 11 CA CCA OiA GGC AG í OGC TTA ÍKjA G 3r (i d SEQ NO 6) desidrogenase im$: SGVGT GAT TCC TGC TAC TTT GGA TCK3 C3* (ID SEQ NO: 7) 3 DK*As: 5:GCT TGGTCT TGT TCT GGA GTTTAG A3’ (iD SEQ NO: 8) ppl5 PPl Í-SJ 5‘TCC AGA AFGGGAGAC AAGCCA ATTΊ3’ ( jd SEQ NO: 9) PPí5-As:5’AGGGAOGAGGAAACAGCGTCAGTCC3’ (ID SEQ NO: 101
Factor de alongamento E4 EFAI-S: 5'ATG GGA AAG GAA AAG ACT CA' ATCA31 (ID SEQ NO: 11) 33 33 (ID SEQ NO: 12)
HFlA*As: 5'AGC AGC ÂAC AÀT CAG GAC AGC AO
Em segundo lugar, também se efectuaram amplificações inespecificas com os oligodesoxirribonucleótidos anti-sentido dos pares descritos acima e com um "primer" derivado da sequência do oligodesoxirribonucleótido derivatizado (5’ATCAAGAATrOXACGAiGACCATTA31 (ID SEQ NO: 13) .
Um vigésimo das seguintes amostras de produtos de RT-PCR foi processado num gel de agarose 1,5% e corado com brometo de etidio.
Amostra 1: Os produtos de uma reacção de PCR utilizando os "primers" de globina das ID SEQ NOs: 5 e 6 na presença de cDNA.
Amostra 2: Os produtos de uma reacção de PCR utilizando os "primers" de globina das ID SEQ NOs: 5 e 6 na ausência de cDNA adicionado.
Amostra 3: Os produtos de uma reacção de PCR utilizando os "primers" de desidrogenase das ID SEQ NOs: 7 e 8 na presença de cDNA.
Amostra 4: Os produtos de uma reacção de PCR utilizando os "primers" de desidrogenase das ID SEQ NOs: 7 e 8 na ausência de cDNA adicionado.
Amostra 5: Os produtos de uma reacção de PCR utilizando os "primers" de ppl5 das ID SEQ NOs: 9 e 10 na presença de cDNA.
Amostra 6: Os produtos de uma reacção de PCR utilizando os "primers" de ppl5 das ID SEQ NOs: 9 e 10 na ausência de cDNA adicionado. 34
Amostra 7: Os produtos de uma reacção de PCR utilizando os "primers" de E1F4 das ID SEQ NOs: 11 e 12 na presença de cDNA adicionado.
Amostra 8: Os produtos de uma reacção de PCR utilizando os "primers" de E1F4 das ID SEQ NOs: 11 e 12 na ausência de cDNA adicionado.
Observou-se uma banda com a dimensão esperada para o produto de PCR apenas nas amostras 1, 3, 5 e 7, indicando assim a presença da sequência correspondente na população de cDNA.
Também se realizaram reacções de PCR com oligonucleótidos anti-sentido dos "primers" de globina e desidrogenase (ID SEQ NOs: 6 e 8) e um oligonucleótido cuja sequência corresponde à do oligonucleótido derivatizado. A presença de produtos de PCR da dimensão esperada nas amostras equivalentes às amostras 1 e 3 acima indicou que o oligonucleótido derivatizado tinha sido ligado a mRNA.
Os exemplos acima resumem o procedimento químico de enriquecimento de mRNAs para os que possuem extremidades 5' intactas, como ilustrado na Figura 1. Mais pormenores respeitantes às abordagens químicas para obter esses mRNAs são revelados na Candidatura Internacional N° W096/34981, publicada em 7 de Novembro de 1996. Podem utilizar-se estratégias baseadas nas modificações químicas acima na estrutura de cobertura 5' para gerar cDNAs seleccionados de modo a incluírem as extremidades 5' dos mRNAs de onde derivaram. Numa versão desses procedimentos, as extremidades 5' dos mRNAs são modificadas como descrito acima. Em seguida, conduz-se uma reacção de transcrição reversa para estender um "primer" complementar à extremidade 5' do mRNA. RNAs de filamentação simples são eliminados para obter uma população de heteroduplexes de 35 cDNA/mRNA nos quais o mRNA inclui uma extremidade 5' intacta. Os heteroduplexes resultantes podem ser capturados numa fase sólida revestida com uma molécula capaz de interagir com a molécula utilizada para derivatizar a extremidade 5' do mRNA. Em seguida, os filamentos dos heteroduplexes são separados para recuperar primeiros filamentos de cDNA de filamentação simples que incluem a extremidade 5' do mRNA. A sintese do segundo filamento de cDNA pode então prosseguir utilizando técnicas convencionais. Por exemplo, podem empregar-se os procedimentos revelados em WO 96/34981 ou em Carninci et al., Genomics 37: 327-336, 1996, para seleccionar cDNAs que incluem a sequência derivada da extremidade 5' da sequência codificadora do mRNA.
Após ligação do marcador oligonucleotidico à cobertura 5' do mRNA, conduz-se uma reacção de transcrição reversa para estender um "primer" complementar ao mRNA para a extremidade 5' do mRNA. Após a eliminação do componente de RNA do heteroduplex resultante, utilizando técnicas comuns, procede-se à sintese do segundo filamento de cDNA com um "primer" complementar ao marcador oligonucleotidico. 2. Métodos Enzimáticos Para Obter mRNAs com Extremidades 5' Intactas
Outras técnicas para seleccionar cDNAs que se estendem até à extremidade 5' do mRNA de onde derivam são completamente enzimáticas. Algumas versões destas técnicas são reveladas em Dumas Milne Edwards J.B. (Tese de Doutoramento na Universidade de Paris VI "Le clonage des ADNc complets: difficultes et perspectives nouvelles. Apports pour 1'etude de la regulation de l'expression de la tryptophane hydroxylase de rat" 20 de Dezembro de 1993), EPO 625572 e Kato et al., Gene 150: 243-250, 1994. 36
Em resumo, nessas abordagens, mRNA isolado é tratado com fosfatase alcalina para remover os grupos fosfato presentes nas extremidades 5' de mRNAs incompletos sem cobertura. Após este procedimento, a cobertura presente em mRNAs completos é enzimaticamente removida com uma enzima de remoção da cobertura, como polinucleótido quinase de T4 ou pirofosfatase ácida de tabaco. Um oligonucleótido, que pode ser um oligonucleótido de DNA ou um oligonucleótido híbrido de DNA-RNA com RNA na sua extremidade 3', é então ligado ao fosfato presente na extremidade 5' do mRNA do qual foi removida a cobertura utilizando RNA ligase de T4. 0 oligonucleótido pode incluir um sítio de restrição para facilitar a clonagem dos cDNAs após a sua síntese. 0 Exemplo 12 abaixo descreve um método enzimático baseado na tese de doutoramento de Dumas. EXEMPLO 12
Abordagem Enzimática para Obter 5' ESTs Vinte microgramas de RNA PoliA+ foram desfosforilados utilizando Fosfatase Intestinal de Vitelo (Biolabs). Após uma extracção com fenol-clorofórmio, a estrutura da cobertura do mRNA foi hidrolisada utilizando a
Pirofosfatase Ácida de Tabaco (purificada como descrito por Shinshi et al., Biochemistry 15: 2185-2190, 1976) e um oligonucleótido hemi 5'-DNA/RNA-3' possuindo uma extremidade 5' não fosforilada, uma extensão de adenosina ribofosfato na extremidade 3', e um sítio EcoRl perto da extremidade 5' foi ligado às extremidades 5' P do mRNA utilizando a RNA ligase de T4 (Biolabs) . Os oligonucleótidos adequados para serem utilizados neste procedimento têm, preferivelmente, 30 até 50 bases de comprimento. Os oligonucleótidos com uma extremidade 5' não fosforilada podem ser sintetizados adicionando um 37 fluorocromo à extremidade 5'. A inclusão de uma extensão de adenosina ribofosfatos na extremidade 3' do oligonucleótido aumenta a eficiência da ligação. Será apreciado que o oligonucleótido pode conter sítios de clonagem diferentes de EcoRI.
Após a ligação do oligonucleótido ao fosfato presente na extremidade 5' do mRNA do qual foi removida a cobertura, procede-se à síntese do primeiro e segundo filamentos do cDNA utilizando métodos convencionais ou os especificados em EPO 625 572, Kato et 1., supra, e Dumas Milne Edwards, supra, cujas revelações são aqui incorporadas por referência. Em seguida, o cDNA resultante pode ser ligado em vectores tais como os revelados em Kato et al., supra, ou outros vectores de ácidos nucleicos conhecidos dos experimentados na área, utilizando técnicas como as descritas em Sambrook et al., "Molecular Cloning: A Laboratory Manual" 2a Edição, Cold Spring Harbor Laboratory Press, 1989. II. Obtenção e Caracterização das 5' ESTs da Presente Invenção
As 5' ESTs aqui descritas foram obtidas utilizando as abordagens química e enzimática acima mencionadas para enriquecer mRNAs para aqueles com extremidades 5' intactas, como descrito abaixo. 1. Obtenção de 5' ESTs Utilizando mRNAs com Extremidades 5' Intactas
Em primeiro lugar, prepararam-se mRNAs como descrito no Exemplo 13 abaixo. 38 EXEMPLO 13
Preparação de mRNAs com Extremidades 5' Intactas RNAs humanos totais ou RNAs poliA+ derivados de 29 tecidos diferentes foram adquiridos, respectivamente, à LABIMO e CLONTECH e foram utilizados para gerar, do modo seguinte, 44 bibliotecas de cDNA. 0 RNA adquirido tinha sido isolado de células ou tecidos utilizando extracçâo ácida com tiocianato de guanidínio-fenol-clorofórmio (Chomczyniski e Sacchi, Analytical Biochemistry 162: 156-159, 1987). 0 RNA poliA+ foi isolado de RNA total (LABIMO) por duas passagens de cromatografia com oligo dT, como descrito por Aviv e Leder, Proc. Natl. Acad. Sei. USA 69: 1408-1412, 1972, para eliminar RNA ribossómico.
Verificaram-se a qualidade e a integridade dos RNAs poliA+. Utilizaram-se colorações "Northern" hibridizadas com uma sonda de globina para confirmar que os mRNAs não se tinham degradado. Verificou-se a contaminação dos mRNAs poliA" por sequências ribossómicas utilizando colorações "Northern" e uma sonda derivada da sequência do rRNA 28S. Na construção de bibliotecas utilizaram-se preparações de mRNAs com menos de 5% de rRNAs. Para evitar construir bibliotecas com RNAs contaminados por sequências exógenas (procarióticas ou fúngicas), examinou-se, utilizando PCR, a presença de sequências ribossómicas 16S bacterianas ou de dois mRNAs fúngicos altamente expressos.
Depois de preparar os mRNAs, os procedimentos quimico e/ou enzimático descritos acima para enriquecer mRNAs para aqueles com extremidades 5' intactas foram empregues para obter 5' ESTs de vários tecidos. Em ambas as abordagens, um marcador oligonucleotidico foi ligado às extremidades 5' dos mRNAs. O marcador oligonucleotidico tinha um sitio EcoRI para facilitar procedimentos posteriores de clonagem. Para facilitar o processamento de cDNAs de filamentação 39 simples e filamentação dupla obtidos na construção das bibliotecas, utilizou-se a mesma sequência de nucleótidos para conceber o oligonucleótido ligado em ambas as abordagens química e enzimática. Ainda assim, no procedimento químico, o marcador utilizado consistiu num oligodesoxirribonucleótido que foi ligado à cobertura do mRNA, ao passo que, na ligação enzimática, o marcador consistiu num oligonucleótido hemi 5'-DNA/RNA-3' quimérico que foi ligado à extremidade 5' de mRNA do qual foi removida a cobertura como descrito no Exemplo 12.
Após a ligação do marcador oligonucleotídico ao mRNA por qualquer um dos métodos químico ou enzimático, examinou-se a integridade do mRNA efectuando uma coloração "Northern" com 200 até 500 ng de mRNA utilizando uma sonda complementar ao marcador oligonucleotídico antes de proceder à síntese do primeiro filamento como descrito no Exemplo 14. EXEMPLO 14 Síntese de cDNA Utilizando Modelos de mRNA com Extremidades 5' Intactas
Para os mRNAs reunidos a marcadores oligonucleotídicos, utilizando os métodos químico e enzimático, efectuou-se a síntese do primeiro filamento de cDNA utilizando a transcriptase reversa Superscript II (Gibco BRL) ou a RNase H Minus M-MLV (Promega), com nonâmeros aleatórios como "primers". Para proteger sítios EcoRl internos presentes no cDNA de digestão em passos posteriores do procedimento, utilizou-se dCTP metilado para a síntese do primeiro filamento. Após remoção de RNA por hidrólise alcalina, o primeiro filamento de cDNA foi precipitado utilizando isopropanol, de modo a eliminar "primers" residuais. 40
Para ambos os métodos químico e enzimático, o segundo filamento do cDNA foi sintetizado com um fragmento Klenow utilizando um "primer" correspondente à extremidade 5' do oligonucleótido ligado descrito no Exemplo 12. Preferivelmente, o "primer" tem 20-25 bases de comprimento. Também se utilizou dCTP metilado para a síntese do segundo filamento, de modo a proteger sítios EcoRI internos presentes no cDNA de digestão durante o processo de clonagem.
Após a síntese do cDNA, os cDNAs foram clonados em pBlueScript como descrito no Exemplo 15 abaixo. EXEMPLO 15
Clonagem de cDNAs derivados de mRNAs com Extremidades 5'
Intactas em BlueScript
Após a síntese do segundo filamento, as extremidades do cDNA foram sujeitas a tratamento ("blunted") com DNA polimerase de T4 (Biolabs) e o cDNA foi digerido com EcoRI. Uma vez que se utilizou dCTP metilado durante a síntese do cDNA, o sítio EcoRI presente no marcador era o único sítio hemi-metilado e, em consequência, o único sítio susceptível a digestão por EcoRI. Em seguida, o cDNA foi fraccionado por tamanhos utilizando cromatografia por exclusão (AcA, Biosepra) e as fracções correspondentes a cDNAs com mais de 150 pares de bases foram reunidas e precipitadas com etanol. O cDNA foi clonado direccionalmente nas extremidades Smal e EcoRI do vector pBlueScript de fagemídeo (Stratagene). A mistura de ligação foi submetida a electroporação em bactérias e foi propagada sob selecção de antibióticos apropriados.
Os clones contendo o marcador oligonucleotídico ligado foram seguidamente seleccionados como descrito no Exemplo 16 abaixo. 41 EXEMPLO 16
Selecção de Clones com o Marcador Oligonucleotídico Ligado Os DNAs plasmídicos contendo bibliotecas de 5' ESTs preparados como descrito acima foram purificados (Qiagen). Efectuou-se do modo seguinte uma selecção positiva dos clones marcados. Em resumo, neste procedimento de selecção, o DNA plasmidico foi convertido em DNA de filamentação simples utilizando endonuclease do gene II do fago F1 em combinação com uma exonuclease (Chang et ai., Gene 127: 95-8, 1993), tal como exonuclease III ou exonuclease do gene 6 de T7. 0 DNA de filamentação simples resultante foi seguidamente purificado utilizando esférulas paramagnéticas como descrito por Fry et ai., Biotechniques 13: 124-131, 1992. Neste procedimento, o DNA de filamentação simples foi hibridizado com um oligonucleótido biotinilado possuindo uma sequência correspondente à extremidade 3' do oligonucleótido descrito no Exemplo 13. Preferivelmente, o "primer" tem um comprimento de 20-25 bases. Os clones incluindo uma sequência complementar ao oligonucleótido biotinilado foram capturados por incubação com esférulas magnéticas revestidas com estreptavidina, seguida de selecção magnética. Após a captura dos clones positivos, o DNA plasmidico foi libertado das esférulas magnéticas e foi convertido em DNA de filamentação dupla utilizando uma DNA polimerase como a ThermoSequenase obtida da Amersham Pharmacia Biotech. Alternativamente, podem utilizar-se protocolos como o descrito no estojo Gene Trapper disponibilizado pela Gibco BRL. Em seguida, o DNA de filamentação dupla foi submetido a electroporação em bactérias. A percentagem de clones positivos com o oligonucleótido marcador 5' foi estimada, tipicamente, entre 90 e 98% utilizando análise de coloração em pontos ("dot blot"). 42
Após a electroporação, as bibliotecas foram ordenadas em placas de microtítulo (MTP) 384. Guardou-se uma cópia das MTP para necessidades futuras. As bibliotecas foram então transferidas para MTP 96 e foram sequenciadas como descrito abaixo. EXEMPLO 17
Sequenciação de Inserções em Clones Seleccionados
As inserções plasmidicas foram primeiramente amplificadas por PCR em aparatos de aplicação de ciclos térmicos PE 9600 (Perkin-Elmer, Applied Biosystems Division, Foster City, CA), utilizando os "primers" padrão SETA-A e SETA-B (Genset SA) , AmpliTaqGold (Perkin-Elmer), dNTPs (Boehringer), tampão e condições de aplicação de ciclos como recomendado pela Perkin-Elmer Corporation.
Em seguida, os produtos de PCR foram sequenciados utilizando sequenciadores automáticos ABI Prism 377 (Perkin Elmer). As reacções de sequenciação foram efectuadas utilizando aparatos de aplicação de ciclos térmicos PE 9600 com química padrão corante-"primer" e ThermoSequenase (Amersham Pharmacia Biotech). Os "primers" utilizados foram T7 ou 21M13 (disponibilizados pela Genset SA) , consoante o apropriado. Os "primers" foram etiquetados com os corantes JOE, FAM, ROX e TAMRA. Os dNTPs e ddNTPs utilizados nas reacções de sequenciação foram adquiridos à Boehringer. O tampão de sequenciação, concentrações dos reagentes e condições de aplicação de ciclos foram os recomendados pela Amersham.
Após a reacção de sequenciação, as amostras foram precipitadas com etanol, foram novamente suspensas em tampão de carga de formamida e carregadas num gel padrão de acrilamida 4%. Realizou-se electroforese durante 2,5 horas a 3000 V num sequenciador ABI 377; os dados das sequências 43 foram recolhidos e analisados utilizando o "Software" de Análise de Sequenciação de DNA ABI Prism, versão 2.1.2. 2. Análise Computacional das 5' ESTs Obtidas: Construção das Bases de Dados NetGene e SignalTag
Os dados das sequências das 44 bibliotecas de cDNA preparadas como descrito acima foram transferidos para uma base de dados registada, onde se efectuaram passos de controlo de qualidade e validação. Um programa registado de processamento das sequências para definir as bases ("base-caller"), que funciona com um sistema Unix, sinalizou automaticamente picos suspeitos, tomando em consideração a forma dos picos, a resolução inter-picos e o nivel de ruido. 0 programa registado de processamento das sequências para definir as bases também efectuou uma remoção de resíduos automática. Qualquer extensão de 25 bases ou menos com mais de 4 picos suspeitos foi considerada não fiável e foi descartada. Sequências correspondentes a vectores de clonagem ou oligonucleótidos de ligação foram automaticamente removidas das sequências EST. No entanto, as sequências EST resultantes podem conter 1 até 5 bases pertencentes às sequências acima mencionadas nas suas extremidades 5'. Se necessário, estas podem ser facilmente removidas numa base caso a caso.
Após a sequenciação como descrito acima, as sequências das 5' ESTs foram inseridas em NetGene™, uma base de dados registada para armazenamento e manipulação como descrito abaixo. Os experimentados na área apreciarão que os dados podem ser armazenados e manipulados em qualquer meio que possa ser lido e acedido por um computador. Meios que podem ser lidos por computador incluem meios que podem ser lidos de forma magnética, óptica ou electrónica. Por exemplo, o meio apto a ser lido por computador pode ser um disco 44 rígido, uma disquete, uma fita magnética, CD-ROM, RAM ou ROM, bem como outros tipos de outros meios conhecidos dos experimentados na área.
Adicionalmente, os dados de sequências podem ser armazenados e manipulados numa variedade de programas de processamento de dados numa diversidade de formatos. Por exemplo, os dados de sequências podem ser armazenados na forma de texto num ficheiro de um processador de texto, como Microsoft WORD ou WORDPERFECT, ou como um ficheiro ASCII numa variedade de programas de bases de dados familiares aos experimentados na área, como DB2, SYBASE ou ORACLE.
Os meios aptos a serem lidos por computador onde são armazenadas as informações das sequências podem estar num computador pessoal, uma rede, um servidor ou outros sistemas computacionais conhecidos dos experimentados na área. 0 computador ou outro sistema inclui, preferivelmente, os meios de armazenamento descritos acima e um processador para aceder e manipular os dados das sequências. Depois dos dados das sequências terem sido armazenados, podem ser manipulados e pesquisados para localizar aquelas sequências armazenadas que contêm uma sequência desejada de ácido nucleico ou que codificam uma proteína com um domínio funcional particular. Por exemplo, as informações das sequências armazenadas podem ser comparadas com outras sequências conhecidas para identificar homologias, motivos implicados na função biológica ou motivos estruturais.
Programas que podem ser utilizados para pesquisar ou comparar as sequências armazenadas incluem as séries de programas MacPattern (EMBL), BLAST e BLAST2 (NCBI), programas de ferramentas básicas de buscas de alinhamentos locais para comparações de nucleótidos (BLASTN) e péptidos 45 (BLASTX) (Altschul et al., J. Mol. Biol. 215: 403, 1990) e FASTA (Pearson e Lipman, Proc. Natl. Acad. Sei. USA 85: 2444, 1988) . Em seguida, os programas BLAST estendem os alinhamentos com base em critérios definidos de emparelhamento e emparelhamento defeituoso.
Motivos que podem ser detectados utilizando os programas acima e os descritos no Exemplo 28 incluem sequências que codificam "zippers" de leucina, motivos hélice-volta-hélice ("helix-turn-helix") , sítios de glicosilação, sítios de ubiquitinação, hélices alfa e folhas beta, sequências de sinal codificadoras de péptidos de sinal que dirigem a secreção das proteínas codificadas, sequências implicadas na regulação da transcrição, como "homeoboxes", extensões acídicas, sítios enzimáticos activos, sítios de ligação de substratos e sítios de clivagem enzimática.
Antes da pesquisa dos cDNAs presentes na base de dados NetGene™ quanto a motivos de sequências de interesse, cDNAs derivados de mRNAs sem interesse foram identificados e deixaram de ser considerados como descrito no Exemplo 18 abaixo. EXEMPLO 18
Sequências Indesejadas Deixam de Ser Consideradas As 5' ESTs presentes na base de dados NetGene™ que derivaram de sequências indesejadas, tais como RNAs de transferência, RNAs ribossómicos, RNAs mitocondriais, RNAs procarióticos, RNAs fúngicos, sequências Alu, sequências LI ou sequências de repetições, foram identificadas utilizando os programas FASTA e BLASTN com os parâmetros listados na Tabela I.
Para deixar de considerar 5' ESTs que codificam tRNAs, as sequências 5' ESTs foram comparadas com as sequências de 46 1190 tRNAs conhecidos obtidos da EMBL, tiragem 38, dos quais 100 eram humanos. Efectuou-se a comparação utilizando FASTA em ambos os filamentos das 5' ESTs. Sequências com mais de 80% de homologia ao longo de mais de 60 nucleótidos foram identificadas como tRNA. Das 144 341 sequências rastreadas, 26 foram identificadas como tRNAs e deixaram de ser consideradas.
Para deixar de considerar 5' ESTs que codificam rRNAs, as sequências 5' ESTs foram comparadas com as sequências de 2497 rRNAs conhecidos obtidos da EMBL, tiragem 38, dos quais 73 eram humanos. Efectuou-se a comparação utilizando BLASTN em ambos os filamentos das 5' ESTs com o parâmetro S=108. Sequências com mais de 80% de homologia ao longo de extensões maiores do que 40 nucleótidos foram identificadas como rRNAs. Das 144 341 sequências rastreadas, 3 312 foram identificadas como rRNAs e deixaram de ser consideradas.
Para deixar de considerar 5' ESTs que codificam mtRNAs, as sequências 5' ESTs foram comparadas com as sequências dos dois genomas mitocondriais conhecidos para os quais estão disponíveis as sequências genómicas completas e todas as sequências transcritas a partir destes genomas mitocondriais, incluindo tRNAs, rRNAs e mRNAs, num total de 38 sequências. Efectuou-se a comparação utilizando BLASTN em ambos os filamentos das 5' ESTs com o parâmetro S=108. Sequências com mais de 80% de homologia ao longo de extensões maiores do que 40 nucleótidos foram identificadas como mtRNAs. Das 144 341 sequências rastreadas, 6 110 foram identificadas como mtRNAs e deixaram de ser consideradas.
Sequências que possam ter resultado de contaminantes exógenos deixaram de ser consideradas comparando as sequências 5' ESTs com a tiragem 46 das secções bacteriana e fúngica da EMBL, utilizando BLASTN com o parâmetro S=144. Todas as sequências com mais de 90% de homologia ao longo 47 de pelo menos 40 nucleótidos foram identificadas como contaminantes exógenos. Nas 42 bibliotecas de cDNA examinadas, as percentagens médias de sequências procarióticas e fúngicas ai contidas foram 0,2% e 0,5%, respectivamente. Entre estas sequências, só foi possível identificar uma como sendo uma sequência específica de fungos. As outras eram sequências fúngicas ou procarióticas possuindo homologias com sequências de vertebrados ou incluindo sequências de repetição que não tinham sido mascaradas durante a comparação electrónica.
Adicionalmente, as 5' ESTs foram comparadas com 6093 sequências Alu e 1115 sequências LI para mascarar 5' ESTs contendo essas sequências de repetição. 5' ESTs incluindo as repetições THE e MER, sequências SSTR ou repetições satélite, micro-satélite ou teloméricas também deixaram de ser consideradas. Em média, 11,5% das sequências presentes nas bibliotecas continham sequências de repetição. Destes 11,5%, 7% continham repetições Alu, 3,3% continham repetições Ll e os restantes 1,2% derivaram dos outros tipos rastreados de sequências repetitivas. Estas percentagens são consistentes com as de bibliotecas de cDNA preparadas por outros grupos. Por exemplo, as bibliotecas de cDNA de Adams et al. continham entre 0% e 7,4% de repetições Alu, dependendo da fonte de RNA que foi utilizada para preparar a biblioteca de cDNA (Adams et al., Nature 377: 174, 1996).
As sequências das 5' ESTs remanescentes após a eliminação de sequências indesejáveis foram comparadas com as sequências de mRNAs humanos conhecidos, para determinar a exactidão dos procedimentos de sequenciação descritos acima. 48 EXEMPLO 19
Medição da Exactidão da Sequenciagão por Comparação com Sequências Conhecidas
Para determinar suplementarmente a exactidão do procedimento de sequenciagão descrito acima, as sequências de 5' ESTs derivadas de sequências conhecidas foram identificadas e comparadas com as sequências conhecidas originais. Em primeiro lugar, conduziu-se nas 5' ESTs uma análise FASTA com protuberâncias menores do que 5 pares de bases em ambas as extremidades para identificar as correspondentes a uma entrada da base de dados pública de mRNA humano. Em seguida, as 6655 5' ESTs correspondentes a um mRNA humano conhecido foram novamente alinhadas com o seu mRNA de cognato, e utilizou-se programação dinâmica para incluir substituições, inserções e deleções na lista de "erros" que seriam reconhecidos. Ignoraram-se os erros que ocorreram nas últimas 10 bases das sequências 5' ESTs para evitar a inclusão de sítios de clonagem espúrios na análise da exactidão da sequenciagão.
Esta análise revelou que as sequências incorporadas na base de dados NetGene™ tinham um grau de exactidão superior a 99,5%.
Realizou-se a análise seguinte para determinar a eficiência com que os procedimentos de selecção acima seleccionam cDNAs que incluem as extremidades 5' dos seus mRNAs correspondentes. EXEMPLO 20
Determinação da Eficiência da Selecção de 5' ESTs Para determinar a eficiência com que os procedimentos de selecção acima isolaram 5' ESTs incluindo sequências próximas da extremidade 5' dos mRNAs de onde derivaram, as 49 sequências das extremidades das 5' ESTs derivadas da subunidade α do factor de alongamento 1 e genes da cadeia pesada da ferritina foram comparadas com as sequências de cDNA conhecidas destes genes. Uma vez que os sítios de início da transcrição de ambos os genes estão bem caracterizados, podem ser utilizados para determinar a percentagem de 5' ESTs derivadas incluindo os sítios autênticos do início da transcrição.
Para ambos os genes, mais de 95% das 5' ESTs obtidas incluíam, de facto, sequências próximas ou a montante da extremidade 5' dos mRNAs correspondentes.
Para estender a análise da fiabilidade dos procedimentos de isolamento de 5' ESTs a partir de ESTs presentes na base de dados NetGene™ conduziu-se uma análise semelhante utilizando, para comparação, uma base de dados composta por sequências de mRNA humano extraídas da base de dados GenBank, tiragem 97. As extremidades 5' de mais de 85% de 5' ESTs derivadas de mRNAs incluídos na base de dados GeneBank foram localizadas próximo das extremidades 5' da sequência conhecida. Uma vez que algumas das sequências de mRNA disponíveis na base de dados GenBank são deduzidas de sequências genómicas, uma correspondência de extremidades 5' com estas sequências será contada como uma correspondência interna. Assim, o método utilizado aqui subestima o rendimento de ESTs incluindo as extremidades 5' autênticas dos seus mRNAs correspondentes.
As bibliotecas de ESTs preparadas acima incluíram múltiplas 5' ESTs derivadas do mesmo mRNA. Compararam-se entre si as sequências dessas 5' ESTs e identificaram-se as 5' ESTs mais longas para cada mRNA. Os cDNAs com sobreposição foram reunidos em sequências contínuas (sequências contíguas). Em seguida, as sequências contínuas 50 resultantes foram comparadas com bases de dados públicas para padronizar a sua semelhança com sequências conhecidas, como descrito no Exemplo 21 abaixo. EXEMPLO 21
Agregação das 5' ESTs e Cálculo de índices de Novidade para
Bibliotecas de cDNA
Para cada biblioteca de ESTs sequenciadas, as sequências foram agregadas pela extremidade 5'. Cada sequência presente na biblioteca foi comparada com as outras com BLASTN2 (filamento directo, parâmetros S=107). Agruparam-se ESTs com Pares de Segmentos de Pontuação Elevada (HSPs) com pelo menos 25 pares de bases de comprimento, possuindo 95% de bases idênticas e começando mais próximo do que 10 pares de bases a partir de cada extremidade 5' da EST. A sequência mais longa presente no agregado foi utilizada como representativa do grupo. Depois efectuou-se uma agregação global entre bibliotecas que conduziu à definição de sequências super-contiguas.
Para avaliar o rendimento de novas sequências nas bibliotecas de ESTs definiu-se uma classificação de novidade (NR): NR=100 X (Número de sequências únicas novas encontradas na biblioteca/Número total de sequências da biblioteca). Tipicamente, a classificação de novidade variou entre 10% e 41%, dependendo do tecido de onde se obteve a biblioteca de ESts. Para a maior parte das bibliotecas efectuou-se a sequenciação aleatória de bibliotecas de 5' EST até a classificação de novidade ter atingido 20%.
Após a caracterização como descrita acima, a colecção de 5' ESTs presente em NetGene™ foi rastreada para 51 identificar as 5' ESTs com potenciais sequências de sinal, como descrito no Exemplo 22 abaixo. EXEMPLO 22
Identificação de Potenciais Sequências de Sinal em 5' ESTs
As 5' ESTs presentes na base de dados NetGene™ foram rastreadas para identificar aquelas sequências com uma fase de leitura aberta (ORF) ininterrupta com mais de 45 nucleótidos, começando com um codão ATG e prolongando-se até à extremidade da EST. Aproximadamente metade das sequências de cDNA presentes na base de dados NetGene™ continha uma dessas ORF. Em seguida, as ORFs destas 5' ESTs foram pesquisadas para identificar potenciais motivos de sinal, utilizando modificações ligeiras dos procedimentos revelados em Von Heijne, Nucleic Acids Res. 14: 4683-4690, 1986. Considerou-se que as sequências 5' ESTs que codificam uma extensão de pelo menos 15 aminoácidos de comprimento com uma pontuação de pelo menos 3,5 na matriz de identificação de péptidos de sinal de Von Heijne possuíam uma sequência de sinal. As 5' ESTs correspondentes a uma sequência de mRNA ou EST humana conhecida e que tinham uma extremidade 5' mais de 20 nucleótidos a jusante da extremidade 5' conhecida foram excluídas de análises suplementares. Os cDNAs remanescentes possuindo sequências de sinal foram incluídos numa base de dados denominada SignalTag™.
Com a finalidade de confirmar a exactidão do método acima para identificar sequências de sinal realizou-se a análise do Exemplo 23. 52 EXEMPLO 23
Confirmação da Exactidão da Identificação de Potenciais Sequências de Sinal em 5' ESTs
Avaliou-se a exactidão do procedimento acima para identificar sequências de sinal que codificam péptidos de sinal aplicando o método aos 43 aminoácidos localizados no terminal N de todas as proteínas SwissProt humanas. A pontuação de Von Heijne calculada para cada proteina foi comparada com a caracterização conhecida da proteina, como proteina segregada ou proteina não segregada. Deste modo foi possível calcular o número de proteínas não segregadas com uma pontuação superior a 3,5 (positivos falsos) e o número de proteínas segregadas com uma pontuação inferior a 3,5 (negativos falsos).
Utilizando os resultados da análise acima, a probabilidade de um péptido codificado pela região 5' do mRNA ser, de facto, um péptido de sinal genuíno, com base na sua pontuação de Von Heijne, foi calculada com base na hipótese de 10% das proteínas humanas serem segregadas ou na hipótese de 20% das proteínas humanas serem segregadas. Os resultados desta análise estão apresentados na Figura 2 e Tabela IV.
Utilizando o método acima de identificação de proteínas secretoras obtiveram-se 5' ESTs dos seguintes polipéptidos que se sabe serem segregados: glucagon humano, precursor de monoquina induzida por interferão gama, proteína segregada do tipo ciclofilina, pleiotropina humana e precursor da biotinidase humana. Assim, o método acima identificou com êxito as 5' ESTs que codificam um péptido de sinal.
Para confirmar que o péptido de sinal codificado pelas 5' ESTs funciona, de facto, como um péptido de sinal, as sequências de sinal das 5' ESTs podem ser clonadas num 53 vector concebido para a identificação de péptidos de sinal. Esses vectores são concebidos de modo a conferir a capacidade para crescerem em meio selectivo apenas para células-hospedeiro contendo um vector com uma sequência de sinal operativamente ligada. Por exemplo, para confirmar que uma 5' EST codifica um péptido de sinal genuíno, a sequência de sinal da 5' EST pode ser inserida, a montante e na estrutura com uma forma não segregada do gene da invertase de levedura, em vectores de selecção de péptidos de sinal, como os descritos na Patente U.S. N° 5 536 637. 0 crescimento de células-hospedeiro contendo vectores de selecção de sequências de sinal com a sequência de sinal da 5' EST correctamente inserida confirma que a 5' EST codifica um péptido de sinal genuíno.
Alternativamente, pode confirmar-se a presença de um péptido de sinal por clonagem dos cDNAs estendidos obtidos utilizando as ESTs em vectores de expressão tais como pXTl (como descrito abaixo no Exemplo 30) , ou por construção de vectores promotor-sequência de sinal-gene repórter que codificam proteínas de fusão entre o péptido de sinal e uma proteína repórter apta a ser submetida a ensaio. Depois de introduzir estes vectores numa célula-hospedeiro adequada, como células COS ou células NIH 3T3, o meio de crescimento pode ser recolhido e analisado quanto à presença da proteína segregada. Compara-se o meio destas células com o meio de células de controlo contendo vectores sem a sequência de sinal ou inserção de cDNA estendido, para identificar vectores que codificam um péptido de sinal funcional ou uma proteína autêntica segregada.
Aquelas 5' ESTs que codificaram um péptido de sinal, o que foi determinado pelo método do Exemplo 22 acima, foram suplementarmente agrupadas em quatro categorias com base na 54 sua homologia com sequências conhecidas, como descrito no Exemplo 24 abaixo. EXEMPLO 24
Agrupamento em Categorias de 5' ESTs que Codificam Um Péptido de Sinal
As 5' ESTs com uma sequência que não corresponde a nenhuma sequência de vertebrado conhecida nem a nenhuma sequência EST publicamente disponível foram designadas "novas". Das sequências presentes na base de dados SignalTag™, 947 das 5' ESTs com uma pontuação de Von Heijne de pelo menos 3,5 caíram nesta categoria.
As 5' ESTs com uma sequência que não corresponde a nenhuma sequência de vertebrado mas que corresponde a uma EST publicamente conhecida foram designadas "EST-ext", desde que a sequência EST conhecida tivesse sido estendida em pelo menos 40 nucleótidos na direcção 5'. Das sequências presentes na base de dados SignalTag™, 150 das 5' ESTs com uma pontuação de Von Heijne de pelo menos 3,5 caíram nesta categoria.
As ESTs que não correspondem a nenhuma sequência de vertebrado mas que correspondem a uma EST publicamente conhecida sem estender a EST conhecida em pelo menos 40 nucleótidos na direcção 5' foram designadas "EST". Das sequências presentes na base de dados SignalTag™, 599 das 5' ESTs com uma pontuação de Von Heijne de pelo menos 3,5 caíram nesta categoria.
As 5' ESTs que correspondem a uma sequência de mRNA humano mas que estendem a sequência conhecida em pelo menos 40 nucleótidos na direcção 5' foram designadas "VERT-ext". Das sequências presentes na base de dados SignalTag™, 23 das 5' ESTs com uma pontuação de Von Heijne de pelo menos 3,5 caíram nesta categoria. Foi incluída nesta categoria 55 uma 5' EST que estendeu a sequência conhecida do mRNA da translocase humana em mais de 200 bases na direcção 5'. Também se identificou uma 5' EST que estendeu a sequência de um gene supressor de tumores humano na direcção 5'. A Tabela V mostra a distribuição de 5' ESTs em cada categoria e o número de 5' ESTs em cada categoria com uma dada pontuação minima de von Heijne. 3. Avaliação da Expressão Espacial e Temporal de mRNAs Correspondentes às 5' ESTs ou cDNAs Estendidos
Cada uma das 5' ESTs também foi agrupada em categorias com base no tecido de onde se obteve o seu mRNA correspondente, como descrito abaixo no Exemplo 25. EXEMPLO 25
Agrupamento em Categorias de Padrões de Expressão A Tabela VI mostra a distribuição de 5' ESTs em cada uma das categorias definidas acima relativamente ao tecido de onde se obtiveram as 5' ESTs do mRNA correspondente. A Tabela II fornece os números de identificação da sequência de sequências 5' EST derivadas do cérebro, as categorias onde caiem estas sequências e a pontuação de von Heijne dos péptidos de sinal que codificam. As sequências 5' ESTs e as sequências de aminoácidos que codificam são fornecidas nas listagens de sequências em apêndice. A Tabela III fornece os números ID de sequência das 5' ESTs e as sequências dos péptidos de sinal que codificam. As sequências das 5' ESTs e os polipéptidos que codificam são fornecidos na listagem de sequências em apêndice. A sequência de DNA ID SEQ NO: 149 pode ser facilmente rastreada quanto a quaisquer erros ai presentes, e quaisquer ambiguidades da sequência podem ser resolvidas por nova sequenciação de um fragmento contendo esses erros 56 ou ambiguidades em ambos os filamentos. Esses fragmentos podem ser obtidos dos plasmideos armazenados no laboratório dos inventores ou podem ser isolados utilizando as técnicas descritas aqui. A resolução de qualquer uma dessas ambiguidades ou erros pode ser facilitada utilizando "primers" que hibridizam para sequências localizadas próximo das sequências ambiguas ou erróneas. Por exemplo, os "primers" podem hibridizar para sequências a 50-75 bases da ambiguidade ou erro. Ao resolver um erro ou ambiguidade, podem fazer-se as correcções correspondentes nas sequências proteicas codificadas pelo DNA contendo o erro ou ambiguidade.
Para além de agrupar em categorias as 5' ESTs relativamente ao seu tecido de origem, podem determinar-se os padrões de expressão espacial e temporal dos mRNAs correspondentes às 5' ESTs, bem como os seus níveis de expressão, como descrito no Exemplo 26 abaixo. A caracterização dos padrões de expressão e níveis de expressão espaciais e temporais destes mRNAs é útil para construir vectores de expressão capazes de produzir um nível desejado de produtos genéticos de uma forma espacial ou temporal desejada, como será discutido mais pormenorizadamente abaixo.
Suplementarmente, também podem identificar-se 5' ESTs cujos mRNAs correspondentes estão associados a estados de doença. Por exemplo, uma doença particular pode resultar da ausência de expressão, super-expressão ou sub-expressão de um mRNA correspondente a uma 5' EST. Ao comparar padrões de expressão e quantidades de mRNA em amostras recolhidas de indivíduos saudáveis com os de indivíduos que sofrem de uma doença particular podem identificar-se 5' ESTs responsáveis pela doença. 57
Será apreciado que os resultados dos procedimentos de caracterização acima para 5' ESTs também se aplicam a cDNAs estendidos (que podem ser obtidos como descrito abaixo) que contêm sequências adjacentes às 5' ESTs. Também será apreciado que, se for desejado, a caracterização pode ser adiada até se terem obtido cDNAs estendidos, em vez de caracterizar as próprias ESTs. EXEMPLO 26
Avaliação de Níveis e Padrões de Expressão de mRNAs Correspondentes a 5' ESTs ou cDNAs Estendidos Os níveis e padrões de expressão de mRNAs correspondentes a 5' ESTs ou cDNAs estendidos (que podem ser obtidos como descrito abaixo no Exemplo 27) podem ser analisados por hibridizaçâo em solução com sondas longas, como descrito na Candidatura de Patente Internacional N° WO 97/05277. Em resumo, uma 5' EST, cDNA estendido ou respectivo fragmento correspondente ao gene que codifica o mRNA a ser caracterizado é inserido num sítio de clonagem imediatamente a jusante de um promotor da RNA polimerase de bacteriófago (T3, T7 ou SP6) para produzir RNA anti-sentido. Preferivelmente, a 5' EST ou cDNA estendido tem 100 ou mais nucleótidos. O plasmídeo é linearizado e transcrito na presença de ribonucleótidos compreendendo ribonucleótidos modificados (isto é, biotina-UTP e DIG-UTP) . Um excesso deste RNA duplamente etiquetado é hibridizado em solução com mRNA isolado de células ou tecidos de interesse. As hibridizações são efectuadas em condições restritas padrão (40-50°C durante 16 horas num tampão de formamida 80%, NaCl 0,4 M, pH 7-8). A sonda que não hibridizou é removida por digestão com ribonucleases específicas para RNA de filamentação simples (isto é, RNases CL3, Tl, Phy M, U2 ou A) . A presença da modificação 58 biotina-UTP permite a captura do híbrido numa placa de microtitulação revestida com estreptavidina. A presença da modificação DIG permite que o híbrido seja detectado e quantificado por ELISA utilizando um anticorpo anti-DIG acoplado a fosfatase alcalina.
As 5' ESTs, cDNAs estendidos ou respectivos fragmentos também podem ser marcados com sequências de nucleótidos para a análise em série de expressão de genes (SAGE), como revelado na Candidatura de Patente do R.U. N° 2 305 241 A. Neste método, preparam-se cDNAs a partir de uma célula, tecido, organismo ou outra fonte de ácidos nucleicos para os quais se devem determinar os padrões de expressão de genes. Os cDNAs resultantes são separados em duas reuniões. Os cDNAs presentes em cada reunião são clivados com uma primeira endonuclease de restrição, denominada enzima de ancoragem, com um sítio de reconhecimento que provavelmente estará presente pelo menos uma vez na maior parte dos cDNAs. Os fragmentos que contêm a região mais a 5' ou 3' do cDNA clivado são isolados por ligação a um meio de captura, como esférulas revestidas com estreptavidina. Um primeiro agente de ligação oligonucleotídico, com uma primeira sequência para hibridização de um "primer" de amplificação e um sítio de restrição interno para uma denominada endonuclease de marcação, é ligado aos cDNAs digeridos na primeira reunião. A digestão com a segunda endonuclease produz fragmentos pequenos marcados a partir dos cDNAs.
Um segundo oligonucleótido, com uma segunda sequência para hibridização de um "primer" de amplificação e um sítio de restrição interno, é ligado aos cDNAs digeridos na segunda reunião. Os fragmentos de cDNA presentes na segunda reunião também são digeridos com a endonuclease de marcação, para gerar fragmentos pequenos marcados derivados dos cDNAs da segunda reunião. Os marcadores resultantes da 59 digestão da primeira e segunda reuniões com a enzima de ancoragem e a endonuclease de marcação são ligados entre si, produzindo os denominados di-marcadores ("ditags") . Nalgumas especificações, os di-marcadores são submetidos a concatamerização, para dar origem a produtos de ligação contendo desde 2 até 200 di-marcadores. Em seguida, as sequências dos marcadores são determinadas e comparadas com as sequências das 5' ESTs ou cDNAs estendidos, para determinar quais 5' ESTs ou cDNAs estendidos são expressos na célula , tecido, organismo ou outra fonte de ácidos nucleicos de onde derivaram os marcadores. Deste modo obtém-se o padrão de expressão das 5' ESTs ou cDNAs estendidos na célula, tecido, organismo ou outra fonte de ácidos nucleicos. A análise quantitativa da expressão de genes também pode ser efectuada utilizando séries. Tal como é aqui utilizado, o termo série significa uma disposição unidimensional, bidimensional ou multidimensional de cDNAs completos (isto é, cDNAs estendidos que incluem a sequência codificadora para o péptido de sinal, a sequência codificadora para a proteína madura e um codão de terminação), cDNAs estendidos, 5' ESTs ou respectivos fragmentos de comprimento suficiente para permitir a detecção específica da expressão de genes. Preferivelmente, os fragmentos têm pelo menos 15 nucleótidos de comprimento. Mais preferivelmente, os fragmentos têm pelo menos 100 nucleótidos de comprimento. Mais preferivelmente, os fragmentos têm mais de 100 nucleótidos de comprimento. Nalgumas especificações, os fragmentos podem ter mais de 500 nucleótidos de comprimento.
Por exemplo, pode efectuar-se análise quantitativa da expressão de genes com cDNAs completos como definido abaixo, cDNAs estendidos, 5' ESTs ou respectivos fragmentos 60 numa microssérie de DNA complementar como descrito por Schena et al. (Science 270: 467-470, 1995; Proc. Natl.
Acad. Sei. U.S.A. 93: 10614-10619, 1996). cDNAs completos, cDNAs estendidos, 5' ESTs ou respectivos fragmentos são amplificados por PCR e dispostos em série, a partir de placas de microtítulo de 96 cavidades, em lâminas de microscópio sililadas utilizando robótica de alta velocidade. As séries impressas são incubadas numa câmara húmida, para permitir a re-hidratação dos elementos da série, e são enxaguadas, uma vez em SDS 0,2% durante 1 minuto, duas vezes em água durante 1 minuto e uma vez durante 5 minutos em solução de boro-hidreto de sódio. As séries são submersas em água durante 2 minutos a 95°C, são transferidas para SDS 0,2% durante 1 minuto, enxaguadas duas vezes com água, secas ao ar e armazenadas no escuro a 25°C. mRNA de células ou tecidos é isolado ou obtido comercialmente, preparando-se sondas por uma única ronda de transcrição reversa. As sondas são hibridizadas para microsséries de 1 cm2, sob uma lamela de cobertura de vidro de 14 x 14 mm, durante 6-12 horas a 60°C. As séries são lavadas durante 5 minutos a 25°C em tampão de lavagem de baixa restrição (1 x SSC/SDS 0,2%), depois durante 10 minutos à temperatura ambiente num tampão de lavagem de restrição elevada (0,1 x SSC/SDS 0,2%). As séries são submetidas a varrimento em 0,1 x SSC utilizando um dispositivo de varrimento de laser com fluorescência equipado com uma montagem de filtros preparada especialmente para o efeito. Obtêm-se medições exactas da expressão diferencial tomando a média das razões de duas hibridizações independentes. A análise quantitativa da expressão de genes também pode ser efectuada com cDNAs completos, cDNAs estendidos, 61 5' ESTs ou respectivos fragmentos em séries de DNA complementar, como descrito por Pietu et al. (Genome Research 6: 492-503, 1996). Os cDNAs completos , cDNAs estendidos, 5' ESTs OU respectivos fragmentos são amplificados por PCR e dispostos em manchas em membranas. Em seguida, mRNAs originários de vários tecidos ou células são etiquetados com nucleótidos radioactivos. Após hibridização e lavagem em condições controladas, os mRNAs hibridizados são detectados por "Phospho-Imaging" ou autorradiografia. Efectuam-se experiências em duplicado e depois procede-se a uma análise quantitativa de mRNAs expressos diferencialmente.
Alternativamente, a análise de expressão das 5' ESTs ou cDNAs estendidos pode ser feita com séries de nucleótidos de alta densidade, como descrito por Lockhart et al. (Nature Biotechnology 14: 1675-1680, 1996) e Sosnowsky et al. (Proc. Natl. Acad. Sei. 94: 1119-1123, 1997). Oligonucleótidos com 15-50 nucleótidos correspondentes a sequências das 5' ESTs ou cDNAs estendidos são sintetizados directamente no "chip" (Lockhart et al., supra) ou são sintetizados e depois endereçados no "chip" (Sosnowsky et al., supra). Preferivelmente, os oligonucleótidos têm cerca de 20 nucleótidos de comprimento.
Sondas de cDNA etiquetadas com um composto apropriado, como biotina, digoxigenina ou corante fluorescente, são sintetizadas a partir da população de mRNA apropriada e depois são fragmentadas aleatoriamente para uma dimensão média de 50 até 100 nucleótidos. Em seguida, essas sondas são hibridizadas para o "chip". Após lavagem como descrito em Lockhart et al., supra, e aplicação de diferentes campos eléctricos (Sonowsky et al., supra), os corantes ou compostos de etiquetagem são detectados e quantificados. Efectuam-se hibridizações em duplicado. A análise 62 comparativa da intensidade do sinal originário das sondas de cDNA no mesmo oligonucleótido alvo em diferentes amostras de cDNA indica uma expressão diferencial do mRNA correspondente à 5' EST ou cDNA estendido a partir do qual foi concebida a sequência oligonucleotidica. III. Utilização de 5' ESTs para Clonar cDNAs Estendidos e para Clonar os DNAs Genómicos Correspondentes
Depois de 5' ESTs que incluem a extremidade 5' dos mRNAs correspondentes terem sido seleccionadas utilizando os procedimentos descritos acima, podem ser utilizadas para isolar cDNAs estendidos que contêm sequências adjacentes às 5' ESTs. Os cDNAs estendidos podem incluir a sequência codificadora completa da proteina codificada pelo mRNA correspondente, incluindo o sitio autêntico do inicio da tradução, a sequência de sinal e a sequência que codifica a proteina madura remanescente após clivagem do péptido de sinal. Esses cDNAs estendidos são aqui referidos como "cDNAs completos". Alternativamente, os cDNAs estendidos podem incluir apenas a sequência que codifica a proteina madura remanescente após clivagem do péptido de sinal, ou apenas a sequência que codifica o péptido de sinal. O Exemplo 27 abaixo descreve um método geral para obter cDNAs estendidos utilizando 5' ESTs. 0 Exemplo 28 abaixo fornece resultados experimentais, utilizando o método explicado no Exemplo 27, que descrevem vários cDNAs estendidos incluindo a sequência codificadora completa e a extremidade 5' autêntica do mRNA correspondente para várias proteínas segregadas.
Os métodos dos Exemplos 27, 28 e 29 também podem ser utilizados para obter cDNAs estendidos que não codificam a totalidade da sequência codificadora das proteínas segregadas codificadas pelos genes correspondentes às 5' 63 ESTs. Nalgumas especificações, os cDNAs estendidos isolados utilizando estes métodos codificam pelo menos 10 aminoácidos da proteína codificada pela sequência da ID SEQ NO: 149. Noutras especificações, os cDNAs estendidos codificam pelo menos 20 aminoácidos da proteína codificada pela sequência da ID SEQ NO: 149. Em especificações suplementares, os cDNAs estendidos codificam pelo menos 30 aminoácidos da sequência da ID SEQ NO: 14 9. Numa especificação preferida, os cDNAs estendidos codificam uma sequência proteica completa que inclui a sequência codificadora de proteína da ID SEQ NO: 149. EXEMPLO 27 Método Geral de Utilização de 5' ESTs para Clonar e Sequenciar cDNAs que Incluem a Região Codificadora Completa e a Extremidade 5' Autêntica do mRNA Correspondente Utilizou-se o método geral seguinte para isolar, rápida e eficientemente, cDNAs estendidos com as extremidades 5' autênticas dos seus mRNAs correspondentes, bem como a sequência codificadora da proteína completa e incluindo sequências adjacentes às sequências das 5' ESTs utilizadas para a sua obtenção. Este método pode ser aplicado para a obtenção de cDNAs estendidos para qualquer 5' EST presente na base de dados NetGene™, incluindo aquelas 5' ESTs que codificam polipéptidos pertencentes a proteínas segregadas. O método é resumido na Figura 3. 1. Obtenção de cDNAs Estendidos a) Síntese do primeiro filamento O método tira partido da sequência 5' conhecida do mRNA. Uma reacção de transcrição reversa é conduzida em mRNA purificado com um "primer" poli 14dT contendo uma sequência de 4 9 nucleótidos na sua extremidade 5' que 64 permite adicionar uma sequência conhecida na extremidade do cDNA que corresponde à extremidade 3' do mRNA. Por exemplo, o "primer" pode ter a sequência seguinte: 5'-ATC GTT GAG ACT CGT ACC AGC AGA GTC ACG AGA OMS ACT ACA COO TAC TGOTTTTrr τπτπ TTVN -3’ (IO SEQ NO: 14). Os expe-rimentados na área apreciarão que outras sequências também podem ser adicionadas à sequência poli dT e ser utilizadas para iniciar a sintese do primeiro filamento. Utilizando este "primer" e uma transcriptase reversa, como a enzima Superscript II (Gibco BRL) ou Rnase H Minus M-MLV (Promega), é gerado um transcrito reverso ancorado no sitio 3' poliA dos RNAs.
Após remoção do mRNA que hibridizou para o primeiro filamento de cDNA por hidrólise alcalina, eliminam-se os produtos da hidrólise alcalina e o "primer" poli dT residual com uma coluna de exclusão, tal como uma matriz AcA34 (Biosepra), como explicado no Exemplo 11. b) Sintese do segundo filamento
Um par de "primers" encaixados em cada extremidade é concebido com base na sequência 5' conhecida da 5' EST e na extremidade 3' conhecida adicionada pelo "primer" poli dT utilizado na sintese do primeiro filamento. Os "softwares" utilizados para conceber "primers" baseiam-se no teor de GC e temperaturas de fusão de oligonucleótidos, como OSP (Illier e Green, PCR Meth. Appl. 1: 124-128, 1991), ou baseiam-se no método de disparidade da frequência de octâmeros (Griffais et al., Nucleic Acids Res. 19: 3887-3891, 1991), tal como PC-Rare (http://bioinformatics. weizmann.ac.il/software/PC-Rare/doc/manuel.html).
Preferivelmente, os "primers" encaixados na extremidade 5' estão separados entre si por quatro até nove bases. As sequências dos "primers" 5' podem ser seleccionadas de modo 65 a terem temperaturas de fusão e especificidades adequadas para utilização em PCR.
Preferivelmente, os "primers" encaixados na extremidade 3' estão separados entre si por quatro até nove bases. Por exemplo, os "primers" encaixados 3' podem ter as sequências seguintes: ($'“CCA OCAGÀGTCACGAGAGAGACTÀCACGG-3! (iD seq NO: 15) e 5'«CACQÀG AGAOACTAC ACG GTACTG G*3' (ID SEQ NO: 16). Seleccionaram-se estes "primers" porque têm temperaturas de fusão e especificidades compatíveis com a sua utilização em PCR. No entanto, os experimentados na área apreciarão que também podem utilizar-se outras sequências como "primers".
Realiza-se a primeira ronda de 25 ciclos de PCR utilizando a Mistura de Polimerase Advantage Tth (Clontech) e o "primer" externo de cada um dos "primers" encaixados. Depois realiza-se uma segunda PCR de 20 ciclos, utilizando a mesma enzima e o "primer" interno de cada um dos "primers" encaixados, em 1/2500 do primeiro produto de PCR. Depois removem-se os "primers" e nucleótidos. 2. Sequenciação de cDNAs Estendidos Completos ou Respectivos Fragmentos
Devido à ausência de restrições de posição na concepção de "primers" encaixados 5' compatíveis para utilização em PCR usando o "software" OSP, obtêm-se produtos de amplificação de dois tipos. Preferivelmente, o segundo "primer" 5' está localizado a montante do codão de iniciação da tradução, dando assim origem a um produto de PCR encaixado contendo a sequência codificadora completa. Esse cDNA estendido completo é submetido a um procedimento directo de clonagem como descrito na secção a. Todavia, 66 nalguns casos, o segundo "primer" 5' está localizado a jusante do codão de iniciação da tradução, dando assim origem a um produto de PCR contendo apenas parte da ORF. Esses produtos de PCR incompletos são submetidos a um procedimento modificado descrito na secção b. a) Produtos de PCR encaixados contendo ORFs completas
Quando o produto de PCR encaixado resultante contém a sequência codificadora completa, como previsto a partir da sequência 5' EST, é clonado num vector apropriado, tal como pED6dpc2, como descrito na secção 3. b) Produtos de PCR encaixados contendo ORFs incompletas
Quando o produto de amplificação não contém a sequência codificadora completa, são necessários passos intermediários para obter a sequência codificadora completa e um produto de PCR contendo a sequência codificadora completa. A sequência codificadora completa pode ser reunida a partir de várias sequências parciais determinadas directamente a partir de diferentes produtos de PCR, como descrito na secção seguinte.
Depois da sequência codificadora completa ter sido totalmente determinada, concebem-se novos "primers" compatíveis para utilização com PCR de modo a obter produtos de amplificação contendo a região codificadora completa. No entanto, nesses casos, os "primers" 3' compatíveis para utilização com PCR estão localizados dentro da 3' UTR do mRNA correspondente, dando assim origem a produtos de amplificação que não têm parte desta região, isto é, o tracto poliA e, por vezes, o sinal de poliadenilação, como ilustrado na Figura 3. Esses cDNAs estendidos completos são seguidamente clonados num vector apropriado, como descrito na secção 3. c) Sequenciação de cDNAs estendidos 67 A sequenciação de cDNAs estendidos é efectuada utilizando uma abordagem de Terminação com Corante com o estojo FS DNA polimerase AmpliTaq disponibilizado pela Perkin Elmer.
Para sequenciar fragmentos de PCR efectua-se "primer walking", utilizando "software" como OSP para escolher "primers" e "software" computacional automatizado, como ASMG (Sutton et ai., Genome Science Technol. 1: 9-19, 1995), para construir sequências contíguas de sequências "walking" incluindo o marcador 5' inicial, utilizando sobreposições mínimas de 32 nucleótidos. Preferivelmente, efectua-se a "primer walking" até se obterem as sequências de cDNAs completos. A sequenciação completa de um dado fragmento de cDNA estendido é avaliada do modo seguinte. Uma vez que, no caso de produtos não clonados, é difícil determinar de forma precisa sequências localizadas após um tracto poliA, os processos de sequenciação e "primer walking" de produtos de PCR são interrompidos quando se identifica um tracto poliA em cDNAs estendidos obtidos como descrito no caso b. Compara-se o comprimento da sequência com a dimensão do produto de PCR encaixado obtido como descrito acima. Devido à exactidão limitada da determinação do tamanho do produto de PCR por electroforese em gel, uma sequência é considerada completa se a dimensão da sequência obtida for pelo menos 70% da dimensão do primeiro produto de PCR encaixado. Se o comprimento da sequência determinado pela análise computacional não for pelo menos 70% do comprimento do produto de PCR encaixado, estes produtos de PCR são clonados e determina-se a sequência da inserção. Quando estão disponíveis dados de coloração "Northern", utiliza-se a dimensão do mRNA detectado para um dado produto de PCR para avaliar, por fim, se a sequência está completa. 68
Sequências que não cumpram os critérios acima serão descartadas e submetidas a novo procedimento de isolamento.
Em seguida, os dados de sequências de todos os cDNAs estendidos são transferidos para uma base de dados registada, onde se efectuam controlos de qualidade e passos de validação como descrito no Exemplo 15. 3. Clonagem de cDNAs Estendidos Completos 0 produto de PCR contendo a sequência codificadora completa é seguidamente clonado num vector apropriado. Por exemplo, os cDNAs estendidos podem ser clonados no vector de expressão pED6dpc2 (DiscoverEase, Genetics Institute, Cambridge, MA) do modo seguinte. Prepara-se DNA do vector pED6dpc2 com extremidades planas efectuando uma digestão com EcoRI seguida de uma reacção de preenchimento. 0 vector com extremidades planas é desfosforilado. Após remoção dos "primers" de PCR e precipitação com etanol, o produto de PCR contendo a sequência codificadora completa ou o cDNA estendido obtido como descrito acima é fosforilado com uma quinase, subsequentemente removida por extracção com fenol-Sevag e precipitação. 0 cDNA estendido de filamentação dupla é então ligado ao vector e o plasmideo de expressão resultante é introduzido em células-hospedeiro apropriadas.
Uma vez que os produtos de PCR obtidos como descrito acima são moléculas com extremidades planas que podem ser clonadas em qualquer direcção, determina-se a orientação de vários clones para cada produto de PCR. Depois, 4 até 10 clones são ordenados em placas de microtitulo e são sujeitos a uma reacção de PCR utilizando um primeiro "primer" localizado no vector próximo do sitio de clonagem e um segundo "primer" localizado na porção do cDNA estendido correspondente à extremidade 3' do mRNA. Este segundo "primer" pode ser o "primer" anti-sentido utilizado 69 em PCR ancorada no caso de clonagem directa (caso a) ou o "primer" anti-sentido localizado no interior da 3' UTR no caso de clonagem indirecta (caso b) . Os clones cujo codão de inicio do cDNA estendido está operativamente ligado ao promotor no vector, de modo a permitir a expressão da proteína codificada pelo cDNA estendido, são conservados e sequenciados. Para além das extremidades de inserções de cDNA, também são sequenciados aproximadamente 50 pares de bases de DNA vectorial de cada lado da inserção de cDNA.
Em seguida, os produtos de PCR clonados são completamente sequenciados de acordo com o procedimento acima mencionado. Neste caso, efectua-se uma operação de montagem ("contigation") de fragmentos longos em sequências "walking" que já foram submetidas a montagem quanto a produtos de PCR não clonados durante o "primer walking". A sequenciação de produtos de amplificação clonados está completa quando as sequências contíguas resultantes incluem a região codificadora completa bem como sequências de sobreposição com DNA vectorial em ambas as extremidades. 4. Análise Computacional de cDNA Estendido Completo
Em seguida, as sequências de todos os cDNAs estendidos completos são submetidas a análise suplementar como descrito abaixo. Antes de pesquisar os cDNAs estendidos completos quanto a sequências de interesse, os cDNAs estendidos que não têm interesse (RNAs vectoriais, RNAs de transferência, RNAs ribossómicos, RNAs mitocondriais, RNAs procarióticos e RNAs fúngicos) são descartados utilizando métodos essencialmente semelhantes aos descritos para 5' ESTs no Exemplo 18. a) Identificação de características estruturais
Subsequentemente determinam-se, do modo seguinte, características estruturais, por exemplo, marcadores poliA 70 e sinais de poliadenilação, das sequências de cDNAs estendidos completos.
Um marcador poliA é definido como uma extensão homopolimérica de pelo menos 11 A possuindo, no máximo, uma base alternativa. A busca de marcadores poliA é restringida aos últimos 100 nucleótidos da sequência e limitada a extensões de 11 A's consecutivos, por ser frequente que reacções de sequenciação não possam ser lidas após uma dessas extensões poliA. Extensões com mais de 90% de homologia ao longo de 8 nucleótidos são identificadas como marcadores poliA utilizando BLAST2N.
Para pesquisar um sinal de poliadenilação, o marcador poliA é separado da sequência completa. Os 50 pares de bases que precedem o marcador poliA são primeiramente pesquisados quanto ao sinal de poliadenilação canónico AAUAAA e, se o sinal canónico não for detectado, são pesquisados quanto ao sinal alternativo AUUAAA (Sheets et al., Nuc. Acids Res. 18: 5799-5805, 1990). Se não se encontrar nenhum destes sinais de poliadenilação de consenso, pesquisa-se novamente o motivo canónico permitindo um emparelhamento defeituoso, para tomar em consideração possíveis erros de sequenciação. Mais de 85% dos sinais de poliadenilação identificados de qualquer um dos tipos termina, de facto, 10 a 30 pares de bases do marcador poliA. Os sinais alternativos AUUAAA representam aproximadamente 15% do número total de sinais de poliadenilação identificados. b) Identificação de características funcionais
Subsequentemente determinam-se, do modo seguinte, características funcionais, por exemplo, ORFs e sequências de sinal, das sequências de cDNAs estendidos completos.
As 3 estruturas dos filamentos superiores de cDNAs estendidos são pesquisadas quanto a ORFs definidas como os 71 fragmentos de comprimento máximo que começam com um codão de iniciação da tradução e terminam com um codão de terminação. São preferidas ORFs que codificam pelo menos 20 aminoácidos.
Em seguida, cada ORF encontrada é submetida a varrimento quanto à presença de um péptido de sinal nos primeiros 50 aminoácidos ou, quando apropriado, em regiões mais pequenas até 20 aminoácidos ou menos na ORF, utilizando o método de matriz de von Heijne (Nuc. Acids Res. 14: 4683-4690, 1986), como descrito no Exemplo 22. c) Homologia com sequências de nucleótidos ou proteicas
Pode proceder-se ao agrupamento em categorias de sequências completas utilizando procedimentos essencialmente semelhantes aos descritos para 5' ESTs no Exemplo 24. cDNAs estendidos preparados como descrito acima podem ser subsequentemente manipulados para obter ácidos nucleicos que incluem porções desejadas do cDNA estendido utilizando técnicas convencionais, tais como subclonagem, PCR ou sintese de oligonucleótidos in vitro. Por exemplo, podem obter-se ácidos nucleicos que incluem apenas as sequências codificadoras completas (isto é, as sequências que codificam o péptido de sinal e a proteína madura remanescente após a remoção do péptido de sinal por clivagem) utilizando técnicas conhecidas dos experimentados na área. Alternativamente, podem aplicar-se técnicas convencionais para obter ácidos nucleicos que contêm apenas as sequências codificadoras para a proteína madura remanescente após a remoção do péptido de sinal por clivagem, ou ácidos nucleicos que contêm apenas as sequências codificadoras para os péptidos de sinal. 72
De modo semelhante, podem obter-se ácidos nucleicos contendo qualquer outra porção desejada das sequências codificadoras para a proteína segregada. Por exemplo, o ácido nucleico pode conter pelo menos 10 bases consecutivas de um cDNA estendido, tal como um dos cDNAs estendidos descritos abaixo. Noutra especificação, o ácido nucleico pode conter pelo menos 15 bases consecutivas de um cDNA estendido, tal como um dos cDNAs estendidos descritos abaixo. Alternativamente, o ácido nucleico pode conter pelo menos 20 bases consecutivas de um cDNA estendido, tal como um dos cDNAs estendidos descritos abaixo. Noutra especificação, o ácido nucleico pode conter pelo menos 25 bases consecutivas de um cDNA estendido, tal como um dos cDNAs estendidos descritos abaixo. Ainda noutra especificação, o ácido nucleico pode conter pelo menos 40 bases consecutivas de um cDNA estendido, tal como um dos cDNAs estendidos descritos abaixo.
Depois de se ter obtido um cDNA estendido, este pode ser sequenciado para determinar a sequência de aminoácidos que codifica. Depois de se ter determinado a sequência de aminoácidos codificada, é possível criar e identificar qualquer um dos muitos cDNAs concebíveis que codificarão essa proteína simplesmente utilizando a degenerescência do código genético. Por exemplo, podem identificar-se variantes alélicas ou outros ácidos nucleicos homólogos como descrito abaixo. Alternativamente, ácidos nucleicos que codificam a sequência de aminoácidos desejada podem ser sintetizados in vitro.
Numa especificação preferida, a sequência codificadora pode ser seleccionada utilizando o codão conhecido ou preferências de pares de codões para o organismo hospedeiro onde deve ser expresso o cDNA. 73
Os cDNAs estendidos derivados das 5' ESTs descritas aqui foram obtidos como descrito no Exemplo 28 abaixo. EXEMPLO 28
Caracterização de cDNAs Estendidos Clonados Utilizando 5' ESTs
Utilizou-se o procedimento descrito no Exemplo 27 acima para obter os cDNAs estendidos derivados das 5' ESTs da presente invenção numa variedade de tecidos. A lista seguinte fornece alguns exemplos dos cDNAs estendidos obtidos desse modo.
Utilizando esta abordagem obteve-se o cDNA completo da ID SEQ NO: 17 (número de identificação interna 48-19-3-G1-FL1) . Este cDNA pertence à categoria "EST-ext" descrita acima e codifica o péptido de sinal MK&vmJTAILAVÀVG (id SEQ NO: 18) com uma pontuação de von Heijne de 8,2.
Também se obteve o cDNA completo da ID SEQ NO: 19 (número de identificação interna 58-34-2-E7-FL2) utilizando este procedimento. Este cDNA pertence à categoria "EST-ext" descrita acima e codifica o péptido de sinal ^fWWfQC^LSFLFSALViWlSA (id SEQ NO: 20) com uma pontuação de von Heijne de 5,5.
Outro cDNA completo obtido utilizando o procedimento descrito acima tem a sequência da ID SEQ NO: 21 (número de identificação interna 51-27-1-E8-FL1). Este cDNA pertence à categoria "EST-ext" descrita acima e codifica o péptido de sinal MVl^TTI.PSANSANSPVNMPTTOPNSLSYASSALSPCLT (id SEQ NO: 22) com uma pontuação de von Heijne de 5,9.
Também se utilizou o procedimento acima para obter um cDNA completo com a sequência da ID SEQ NO: 23 (número de identificação interna 76-4-1-G5-FL1). Este cDNA pertence à categoria "EST-ext" descrita acima e codifica o péptido de 74 sinal ll-STVTALTFAXA (id SEQ NO: 24) com uma pontuação de von Heijne de 5,5.
Também se obteve o cDNA completo da ID SEQ NO: 25 (número de identificação interna 51-3-3-B10-FL3) utilizando este procedimento. Este cDNA pertence à categoria "novo" descrita acima e codifica um péptido de sinal LVLUrCUPLAVA (ID SEQ NO: 26) com uma pontuação de von Heijne de 10,1.
Também se obteve o cDNA completo da ID SEQ NO: 27 (número de identificação interna 58-35-2-F10-FL2) utilizando este procedimento. Este cDNA pertence à categoria "novo" descrita acima e codifica um péptido de sinal LWIÍJTLVTAS-JA (ID SEQ NO: 28) com uma pontuação de von Heijne de 10,7.
Clones bacterianos contendo plasmideos que contêm os cDNAs completos descritos acima estão presentemente armazenados nos laboratórios do inventor com os números de identificação interna fornecidos acima. As inserções podem ser recuperadas dos materiais armazenados por desenvolvimento de uma alíquota do clone bacteriano apropriado em meio apropriado. Em seguida, o DNA plasmidico pode ser isolado utilizando procedimentos de isolamento de plasmideos familiares aos experimentados na área, como técnicas mini-preparativas de lise alcalina ou procedimentos de isolamento de plasmideos por lise alcalina em larga escala. Se desejado, o DNA plasmidico pode ser suplementarmente enriquecido por centrifugação num gradiente de cloreto de césio, cromatografia por exclusão de tamanhos ou cromatografia de permuta aniónica. O DNA plasmidico obtido utilizando estes procedimentos pode então ser manipulado utilizando técnicas comuns de clonagem familiares aos experimentados na área. Alternativamente, pode efectuar-se uma PCR com "primers" concebidos em ambas 75 as extremidades da inserção de cDNA. 0 produto de PCR que corresponde ao cDNA pode ser seguidamente manipulado utilizando técnicas comuns de clonagem familiares aos experimentados na área.
Os polipéptidos codificados pelos cDNAs estendidos podem ser rastreados quanto à presença de motivos estruturais ou funcionais conhecidos ou quanto à presença de assinaturas, pequenas sequências de aminoácidos que estão bem conservadas entre os membros de uma família de proteínas. As regiões conservadas foram utilizadas para derivar padrões ou matrizes de consenso incluídos na base de dados PROSITE, em particular no ficheiro prosite.dat (Tiragem 13.0 de Novembro de 1995, localizado em http:// expasy.hcuge.ch/sprot/prosite.html). Podem utilizar-se os programas prosite_convert e prosite_scan (http://ulrec3. unil.ch/ftpserveur/prosite_scan) para encontrar assinaturas nos cDNAs estendidos.
Para cada padrão obtido com o programa prosite_convert a partir do ficheiro prosite.dat pode determinar-se a exactidão da detecção numa nova sequência proteica avaliando a frequência de acertos irrelevantes na população de proteínas humanas segregadas incluídas no banco de dados SWISSPROT. A razão entre o número de acertos em proteínas misturadas (com uma dimensão da janela de 20 aminoácidos) e o número de acertos em proteínas nativas (não misturadas) pode ser utilizada como índice. Cada padrão cuja razão é superior a 20% (um acerto em proteínas misturadas para 5 acertos em proteínas nativas) pode ser ignorado durante a busca com prosite_scan. O programa utilizado para misturar sequências proteicas (db_shuffled) e o programa utilizado para determinar a estatística de cada padrão nos bancos de dados de proteínas (prosite_statistics) são disponi- 76 bilizados no sítio de ftp http://ulrec3.unil.ch/ ftpserveur/prosite_scan.
Para além de métodos à base de PCR para obter cDNAs estendidos, também podem empregar-se métodos tradicionais à base de hibridização. Estes métodos também podem ser utilizados para obter os DNAs genómicos que codificam os mRNAs de onde derivaram as 5' ESTs, mRNAs correspondentes aos cDNAs estendidos ou ácidos nucleicos que são homólogos a cDNAs estendidos ou 5' ESTs. 0 Exemplo 29 abaixo fornece exemplos desses métodos. EXEMPLO 29 Métodos para Obter cDNAs que Incluem a Região Codificadora Completa e a Extremidade 5' Autêntica do mRNA Correspondente
Pode preparar-se uma biblioteca de cDNAs completos utilizando as estratégias descritas nos Exemplos 13, 14, 15 e 16 acima, substituindo o nonâmero aleatório utilizado no Exemplo 14 por um "primer" oligo-dT. Por exemplo, pode utilizar-se o oligonucleótido da ID SEQ NO: 14.
Alternativamente, uma biblioteca de cDNA ou biblioteca de DNA genómico pode ser obtida de uma fonte comercial ou preparada utilizando técnicas familiares aos experimentados na área. Essas bibliotecas de cDNA ou DNA genómico podem ser utilizadas, do modo seguinte, para isolar cDNAs estendidos obtidos de 5' ESTs ou ácidos nucleicos homólogos a cDNAs estendidos ou 5' ESTs. A biblioteca de cDNA ou biblioteca de DNA genómico é hibridizada para uma sonda detectável compreendendo pelo menos 10 nucleótidos consecutivos da 5' EST ou cDNA estendido utilizando técnicas convencionais. Preferivelmente, a sonda compreende pelo menos 12, 15 ou 17 nucleótidos consecutivos da 5' EST 77 ou cDNA estendido. Mais preferivelmente, a sonda compreende pelo menos 20 até 30 nucleótidos consecutivos da 5' EST ou cDNA estendido. Nalgumas especificações, a sonda compreende mais de 30 nucleótidos da 5' EST ou cDNA estendido. Técnicas para identificar clones de cDNA numa biblioteca de cDNA que hibridizam para uma dada sequência de sonda são reveladas em Sambrook et al.r "Molecular Cloning: A Laboratory Manual" 2a Edição, Cold Spring Harbor Laboratory Press, 1989. As mesmas técnicas podem ser utilizadas para isolar DNAs genómicos.
Em resumo, clones de cDNA ou DNA genómico que hibridizam para a sonda detectável são identificados e isolados do modo seguinte para manipulação suplementar. Uma sonda compreendendo pelo menos 10 nucleótidos consecutivos da 5' EST ou cDNA estendido é etiquetada com uma etiqueta detectável, como um isótopo radioactivo ou uma molécula fluorescente. Preferivelmente, a sonda compreende pelo menos 12, 15 ou 17 nucleótidos consecutivos da 5' EST ou cDNA estendido. Mais preferivelmente, a sonda compreende 20 até 30 nucleótidos consecutivos da 5' EST ou cDNA estendido. Nalgumas especificações, a sonda compreende mais de 30 nucleótidos da 5' EST ou cDNA estendido. Técnicas de etiquetagem da sonda são bem conhecidas e incluem fosforilação com polinucleótido quinase, tradução por cortes, transcrição in vitro e técnicas não radioactivas. Os cDNAs ou DNAs genómicos presentes na biblioteca são transferidos para um filtro de nitrocelulose ou nylon e são desnaturados. Após bloqueio de sítios inespecíficos, o filtro é incubado com a sonda etiquetada durante um período de tempo suficiente para permitir a ligação da sonda a cDNAs ou DNAs genómicos contendo uma sequência capaz de hibridizar para aquela. 78
Ao variar a restrição das condições de hibridização utilizadas para identificar cDNAs estendidos ou DNAs genómicos que hibridizam para a sonda detectável, cDNAs estendidos com diferentes niveis de homologia com a sonda podem ser identificados e isolados como descrito abaixo. 1. Identificação de Sequências de cDNA Estendido ou cDNA Genómico Possuindo um Grau Elevado de Homologia com a Sonda Etiquetada
Para identificar cDNAs estendidos ou DNAs genómicos possuindo um grau elevado de homologia com a sequência da sonda pode calcular-se a temperatura de fusão da sonda utilizando as fórmulas seguintes.
Para sondas com um comprimento situado entre 14 e 70 nucleótidos, calcula-se a temperatura de fusão (T.f.) utilizando a fórmula: T.f.=81,5+16,6 (log[Na+])+0,41(fracção G+C)- (600/N), em que N é o comprimento da sonda.
Se a hibridização for efectuada numa solução contendo formamida, pode calcular-se a temperatura de fusão utilizando a equação: T.f.=81,5+16,6(log[Na+])+0,41(fracção G+C)-(0,63% formamida)-(600/N), em que N é o comprimento da sonda. A pré-hibridização pode ser conduzida em 6X SSC, 5X reagente de Denhardt, SDS 0,5%, 100 μρ de DNA de esperma de salmão fragmentado e desnaturado, ou 6X SSC, 5X reagente de Denhardt, SDS 0,5%, 100 μρ de DNA de esperma de salmão fragmentado e desnaturado, formamida 50%. As fórmulas das soluções SSC e de Denhardt estão listadas em Sambrook et ai., supra.
A hibridização é conduzida adicionando a sonda detectável às soluções de pré-hibridização listadas acima. Quando a sonda compreender DNA de filamentação dupla, é desnaturada antes da adição à solução de hibridização. O 79 filtro é contactado com a solução de hibridização durante um período de tempo suficiente para permitir que a sonda hibridize para cDNAs estendidos ou DNAs genómicos contendo sequências complementares àquela ou homólogas àquela. Para sondas com mais de 200 nucleótidos de comprimento, a hibridização pode ser efectuada a 15-25°C abaixo da T.f. Para sondas mais pequenas, como sondas oligonucleotidicas, a hibridização pode ser conduzida a 15-25°C abaixo da T.f. Preferivelmente, para hibridizações em 6X SSC, a hibridização é conduzida aproximadamente a 68°C. Preferivelmente, para hibridizações em soluções contendo formamida 50%, a hibridização é conduzida aproximadamente a 42°C.
Todas as hibridizações anteriores são consideradas submetidas a condições "restritas".
Após a hibridização, o filtro é lavado em 2X SSC, SDS 0,1% à temperatura ambiente durante 15 minutos. Depois, o filtro é lavado com 0,1X SSC, SDS 0,5% à temperatura ambiente durante 30 minutos até 1 hora. Em seguida, a solução é lavada, à temperatura de hibridização, em 0,1X SSC, SDS 0,5%. Efectua-se uma lavagem final em 0,1X SSC à temperatura ambiente. cDNAs estendidos, ácidos nucleicos homólogos a cDNAs estendidos ou 5' ESTs ou DNAs genómicos que hibridizaram para a sonda são identificados por autorradiografia ou outras técnicas convencionais. 2. Obtenção de Sequências de cDNA Estendido ou cDNA Genómico Possuindo Graus Mais Baixos de Homologia com a Sonda Etiquetada O procedimento acima pode ser modificado para identificar cDNAs estendidos, ácidos nucleicos homólogos a cDNAs estendidos ou DNAs genómicos possuindo níveis 80 decrescentes de homologia com a sequência da sonda. Por exemplo, para obter cDNAs estendidos, ácidos nucleicos homólogos a cDNAs estendidos ou DNAs genómicos de homologia decrescente com a sonda detectável podem utilizar-se condições menos restritas. Por exemplo, a temperatura de hibridização pode ser decrescida, em decrementos de 5°C, de 68°C para 42°C num tampão de hibridização com uma concentração de sódio aproximadamente de 1 M. Após a hibridização, o filtro pode ser lavado com 2X SSC, SDS 0,5% à temperatura de hibridização. Estas condições são consideradas condições "moderadas" acima de 50°C e condições "fracas" abaixo de 50°C.
Alternativamente, a hibridização pode ser efectuada em tampões, tais como 6X SSC, contendo formamida a uma temperatura de 42°C. Neste caso, a concentração de formamida no tampão de hibridização pode ser reduzida, em decrementos de 5%, de 50% para 0%, para identificar clones possuindo níveis decrescentes de homologia com a sonda. Após a hibridização, o filtro pode ser lavado com 6X SSC, SDS 0,5% a 50°C. Estas condições são consideradas condições "moderadas" acima de formamida 25% e condições "fracas" abaixo de formamida 25%. cDNAs estendidos, ácidos nucleicos homólogos a cDNAs estendidos ou DNAs genómicos que hibridizaram para a sonda são identificados por autorradiografia. 3. Determinação do Grau de Homologia Entre os cDNAs Estendidos Obtidos e a Sonda Etiquetada
Se for desejado obter ácidos nucleicos homólogos a cDNAs estendidos, tais como respectivas variantes alélicas ou ácidos nucleicos que codificam proteínas relacionadas com as proteínas codificadas pelos cDNAs estendidos, o nível de homologia entre o ácido nucleico hibridizado e o 81 cDNA estendido ou 5' EST utilizado como sonda pode ser suplementarmente determinado utilizando BLAST2N; os parâmetros podem ser adaptados, dependendo do comprimento da sequência e do grau de homologia estudado. Para determinar o nivel de homologia entre o ácido nucleico hibridizado e o cDNA estendido ou 5' EST de onde derivou a sonda, comparam-se as sequências de nucleótidos do ácido nucleico hibridizado e do cDNA estendido ou 5' EST de onde derivou a sonda. Por exemplo, utilizando os métodos acima, podem obter-se e identificar-se ácidos nucleicos possuindo pelo menos 95% de homologia de ácidos nucleicos com o cDNA estendido ou 5' EST de onde derivou a sonda. De modo semelhante, utilizando condições de hibridização progressivamente menos restritas, podem obter-se e identificar-se ácidos nucleicos possuindo pelo menos 90%, pelo menos 85%, pelo menos 80% ou pelo menos 75% de homologia com o cDNA estendido ou 5' EST de onde derivou a sonda.
Para determinar se um clone codifica uma proteína com uma certa quantidade de homologia com a proteína codificada pelo cDNA estendido ou 5' EST, a sequência de aminoácidos codificada pelo cDNA estendido ou 5' EST é comparada com a sequência de aminoácidos codificada pelo ácido nucleico que hibridiza. Existe homologia quando uma sequência de aminoácidos do cDNA estendido ou 5' EST está proximamente relacionada com uma sequência de aminoácidos do ácido nucleico que hibridiza. Uma sequência está proximamente relacionada quando é idêntica à do cDNA estendido ou 5' EST ou quando contém uma ou mais substituições de aminoácidos nas quais aminoácidos com características semelhantes foram substituídos entre si. Utilizando os métodos acima e algoritmos como FASTA, com parâmetros dependentes do comprimento da sequência e grau de homologia estudado, 82 podem obter-se ácidos nucleicos que codificam proteínas possuindo pelo menos 95%, pelo menos 90%, pelo menos 85%, pelo menos 80% ou pelo menos 75% de homologia com as proteínas codificadas pelo cDNA estendido ou 5' EST de onde derivou a sonda.
Para além dos métodos descritos acima estão disponíveis outros protocolos para obter cDNAs estendidos utilizando 5' ESTs, como é esboçado nos parágrafos seguintes.
Podem preparar-se cDNAs estendidos obtendo mRNA do tecido, célula ou organismo de interesse usando procedimentos de preparação de mRNAs utilizando procedimentos de selecção com poliA ou outras técnicas conhecidas dos experimentados na área. Um primeiro "primer" capaz de hibridizar para a cauda poliA do mRNA é hibridizado para o mRNA e efectua-se uma reacção de transcrição reversa para gerar um primeiro filamento de cDNA. O primeiro filamento de cDNA é hibridizado para um segundo "primer" contendo pelo menos 10 nucleótidos consecutivos da sequência da ID SEQ NO: 149. Preferivelmente, o "primer" compreende pelo menos 12, 15 ou 17 nucleótidos consecutivos da sequência da ID SEQ NO: 149. Mais preferivelmente, o "primer" compreende 20 até 30 nucleótidos consecutivos da sequência da ID SEQ NO: 149. Nalgumas especificações, o "primer" compreende mais de 30 nucleótidos da sequência da ID SEQ NO: 149. Se for desejado obter cDNAs estendidos contendo a sequência codificadora da proteína completa, incluindo o sítio autêntico de iniciação da tradução, o segundo "primer" utilizado contém sequências localizadas a montante do sítio de iniciação da tradução. O segundo "primer" é estendido para gerar um segundo filamento de cDNA complementar ao primeiro filamento de 83 cDNA. Alternativamente, pode efectuar-se RT-PCR como descrito acima utilizando "primers" de ambas as extremidades do cDNA a ser obtido.
Podem preparar-se cDNAs estendidos contendo fragmentos 5' do mRNA por hibridização de um mRNA compreendendo a sequência da 5' EST para a qual se deseja um cDNA estendido com um "primer" compreendendo pelo menos 10 nucleótidos consecutivos das sequências complementares à 5' EST e transcrevendo de forma reversa o "primer" hibridizado para preparar um primeiro filamento de cDNA a partir dos mRNAs. Preferivelmente, o "primer" compreende pelo menos 12, 15 ou 17 nucleótidos consecutivos da 5' EST. Mais preferivelmente, o "primer" compreende 20 até 30 nucleótidos consecutivos da 5' EST.
Em seguida, sintetiza-se um segundo filamento de cDNA complementar ao primeiro filamento de cDNA. Pode preparar-se o segundo filamento de cDNA por hibridização de um "primer" complementar a sequências do primeiro filamento de cDNA para o primeiro filamento de cDNA e estendendo o "primer" para gerar o segundo filamento de cDNA.
Os cDNAs estendidos de filamentação dupla preparados utilizando os métodos descritos acima são isolados e clonados. Os cDNAs estendidos podem ser clonados em vectores, tais como plasmídeos ou vectores virais, capazes de se replicarem numa célula-hospedeiro apropriada. Por exemplo, a célula-hospedeiro pode ser uma célula bacteriana, de mamifero, aviária ou de insecto. Técnicas para isolar mRNA, transcrever de forma reversa um "primer" hibridizado para mRNA de modo a gerar um primeiro filamento de cDNA, estender um "primer" para preparar um segundo filamento de cDNA complementar ao primeiro filamento de cDNA, isolar o cDNA de filamentação dupla e clonar o cDNA de filamentação dupla são bem 84 conhecidas dos experimentados na área e estão descritas em "Current Protocols in Molecular Biology", John Wiley and Sons, Inc., 1997, e Sambrook et ai. "Molecular Cloning: A Laboratory Manual", Segunda Edição, Cold Spring Harbor Laboratory Press, 1989.
Alternativamente, podem utilizar-se procedimentos como o descrito no Exemplo 29 para obter cDNAs completos ou cDNAs estendidos. Nesta abordagem, preparam-se cDNAs completos ou estendidos a partir de mRNA, sendo clonados em fagemideos de filamentação dupla do modo seguinte. A biblioteca de cDNA dos fagemideos de filamentação dupla é transformada em filamentação simples por tratamento com uma endonuclease, como o produto do Gene II do fago Fl, e uma exonuclease (Chang et al., Gene 127: 95-8, 1993). Um oligonucleótido biotinilado, compreendendo a sequência de uma 5' EST ou respectivo fragmento contendo pelo menos 10 nucleótidos, é hibridizado para os fagemideos de filamentação simples. Preferivelmente, o fragmento compreende pelo menos 12, 15 ou 17 nucleótidos consecutivos da 5' EST. Mais preferivelmente, o fragmento compreende 20-30 nucleótidos consecutivos da 5' EST. Nalguns procedimentos, o fragmento pode compreender mais de 30 nucleótidos consecutivos da 5' EST.
Isolam-se híbridos entre o oligonucleótido biotinilado e fagemideos com inserções contendo a sequência da 5' EST por incubação dos híbridos com esférulas paramagnéticas revestidas com estreptavidina e recolhendo as esférulas com um magnete (Fry et al., Biotechniques 13: 124-131, 1992). Em seguida, os fagemideos resultantes contendo a sequência da 5' EST são libertados das esférulas e convertidos em DNA de filamentação dupla utilizando um "primer" específico para a sequência da 5' EST. Alternativamente, podem utilizar-se protocolos tais como o estojo Gene Trapper 85 (Gibco BRL). 0 DNA de filamentação dupla resultante é transformado em bactérias. cDNAs estendidos contendo a sequência 5' EST são identificados por PCR em colónias ou hibridização de colónias.
Utilizando qualquer um dos métodos descritos acima na secção III, uma pluralidade de cDNAs estendidos contendo sequências codificadoras de proteína completa, ou sequências que codificam apenas a proteína madura remanescente após remoção do péptido de sinal por clivagem, pode ser fornecida na forma de bibliotecas de cDNA para avaliação subsequente das proteínas codificadas ou utilização em ensaios de diagnóstico, como descrito abaixo. IV. Expressão de Proteínas Codificadas por cDNAs Estendidos Isolados Utilizando 5' ESTs
Podem utilizar-se cDNAs estendidos contendo as sequências codificadoras de proteínas completas dos seus mRNAs correspondentes ou respectivas porções, como cDNAs que codificam a proteína madura, para expressar as proteínas segregadas codificadas, ou respectivas porções, como descrito no Exemplo 30 abaixo. Se desejado, os cDNAs estendidos podem conter as sequências que codificam o péptido de sinal, para facilitar a secreção da proteína expressa. Será apreciado que uma pluralidade de cDNAs estendidos contendo as sequências codificadoras de proteínas completas, ou respectivas porções, pode ser simultaneamente clonada em vectores de expressão para criar uma biblioteca de expressão destinada a análise das proteínas codificadas, como descrito abaixo. 86 EXEMPLO 30
Expressão das Proteínas Codificadas pelos Genes Correspondentes a 5' ESTs ou Respectivas Porções Para expressar as proteínas codificadas pelos genes correspondentes a 5' ESTs (ou respectivas porções), cDNAs completos contendo a região codificadora da proteína completa ou cDNAs estendidos contendo sequências adjacentes às 5' ESTs (ou respectivas porções) são obtidos como descrito nos Exemplos 27-29 e clonados num vector de expressão adequado. Se desejado, os ácidos nucleicos podem conter as sequências que codificam o péptido de sinal, para facilitar a secreção da proteína expressa. Os ácidos nucleicos inseridos nos vectores de expressão também podem conter sequências a montante das sequências que codificam o péptido de sinal, tais como sequências que regulam níveis de expressão ou sequências que conferem expressão específica para tecidos. O ácido nucleico que codifica a proteína ou polipéptido a ser expresso é operativamente ligado a um promotor num vector de expressão utilizando tecnologia de clonagem convencional. O vector de expressão pode ser qualquer um dos sistemas de expressão de mamífero, levedura, insecto ou bacteriano conhecidos na área. Vectores e sistemas de expressão comercialmente disponíveis são disponibilizados por uma variedade de fabricantes, incluindo o Genetics Institute (Cambridge, MA), Stratagene (La Jolla, Califórnia), Promega (Madison, Wisconsin) e Invitrogen (San Diego, Califórnia) . Se desejado, para intensificar a expressão e facilitar o dobramento apropriado da proteína, o contexto de codões e emparelhamento de codões da sequência podem ser optimizados para o organismo de expressão particular onde é introduzido o vector de 87 expressão, como explicado por Hatfield et al., Patente U.S. N° 5 082 767. O cDNA clonado no vector de expressão pode codificar a proteína completa (isto é, o péptido de sinal e a proteína madura), a proteína madura (isto é, a proteína criada através de remoção do péptido de sinal por clivagem), apenas o péptido de sinal ou qualquer outra porção respectiva.
Apresenta-se a seguir um método exemplificativo para expressar as proteínas codificadas pelos cDNAs estendidos correspondentes às 5' ESTs ou ácidos nucleicos descritos acima. Em primeiro lugar, identificam-se o codão de iniciação de metionina para o gene e o sinal poliA do gene. Se o ácido nucleico que codifica o polipéptido a ser expresso não tiver uma metionina para servir de sítio de iniciação, pode introduzir-se uma metionina de iniciação a seguir ao primeiro codão do ácido nucleico utilizando técnicas convencionais. De modo semelhante, se o cDNA estendido não tiver um sinal poliA, esta sequência pode ser adicionada à construção, por exemplo, removendo por processamento o sinal poliA de pSG5 (Stratagene), utilizando enzimas endonuclease de restrição BglII e Sall, e incorporando-o no vector de expressão de mamífero pXTl (Stratagene) . O pXTl contém as LTRs e uma porção do gene gag do Vírus da Leucemia Murina de Moloney. A posição das LTRs na construção permite uma transfecção estável eficiente. O vector inclui o promotor da timidina quinase de Herpes Simplex e o gene seleccionável da neomicina. O cDNA estendido, ou respectiva porção, que codifica o polipéptido a ser expresso é obtido por PCR do vector bacteriano utilizando "primers" oligonucleotídicos complementares ao cDNA estendido, ou respectiva porção, e contendo sequências de endonuclease de restrição para PstI 88 incorporadas no "primer" 5' e BglII na extremidade 5' do "primer" 3' do cDNA correspondente, tendo o cuidado de assegurar que o cDNA estendido é posicionado com o sinal poli A. 0 fragmento purificado obtido da reacção de PCR resultante é digerido com PstI, submetido a tratamento de extremidades planas com uma exonuclease, digerido com Bgl II, purificado e ligado a pXTl contendo um sinal poli A e preparado para esta ligação (extremidades planas/BglII). 0 produto ligado é transfectado em células NIH 3T3 de ratinho utilizando Lipofectina (Life Technologies, Inc., Grand Island, Nova Iorque) em condições delineadas na especificação do produto. Seleccionam-se transfectantes positivos após desenvolvimento das células transfectadas em 600 μρ/ιηΐ de G418 (Sigma, St. Louis, Missouri) . Preferivelmente, a proteína expressa é libertada no meio de cultura, desse modo facilitando a purificação.
Alternativamente, os cDNAs estendidos podem ser clonados em pED6dpc2, como descrito acima. As construções resultantes de pED6dpc2 podem ser transfectadas numa célula-hospedeiro adequada, como células COS 1. As células resistentes ao metotrexato são seleccionadas e expandidas. Preferivelmente, a proteína expressa a partir do cDNA estendido é libertada no meio de cultura, desse modo facilitando a purificação.
As proteínas presentes no meio de cultura são separadas por electroforese em gel. Se desejado, antes da electroforese, as proteínas podem ser precipitadas com sulfato de amónio ou separadas com base na dimensão ou carga.
Como controlo, o vector de expressão sem uma inserção de cDNA é introduzido em células ou organismos-hospedeiro, recolhendo-se as proteínas presentes no meio. As proteínas segregadas presentes no meio são detectadas utilizando 89 técnicas familiares aos experimentados na área, tais como coloração com azul de Coomassie ou prata ou utilizando anticorpos contra a proteína codificada pelo cDNA estendido.
Podem gerar-se anticorpos capazes de reconhecerem especificamente a proteína de interesse utilizando péptidos 15-meros sintéticos possuindo uma sequência codificada pela 5' EST, cDNA estendido ou respectiva porção apropriada. Os péptidos sintéticos são injectados em ratinhos, para gerar anticorpos para o polipéptido codificado pela 5' EST, cDNA estendido ou respectiva porção.
As proteínas segregadas a partir das células ou organismos-hospedeiro contendo um vector de expressão que contém o cDNA estendido derivado de uma 5' EST, ou respectiva porção, são comparadas com as das células ou organismo de controlo. A presença de uma banda no meio proveniente das células contendo o vector de expressão, que está ausente no meio proveniente das células de controlo, indica que o cDNA estendido codifica uma proteína segregada. Em geral, a banda correspondente à proteína codificada pelo cDNA estendido terá uma mobilidade próxima da esperada com base no número de aminoácidos da fase de leitura aberta do cDNA estendido. No entanto, a banda pode ter uma mobilidade diferente da esperada em resultado de modificações tais como glicosilação, ubiquitinação ou clivagem enzimática.
Alternativamente, se a proteína expressa a partir dos vectores de expressão acima não contiver sequências que dirigem a sua secreção, as proteínas expressas a partir de células-hospedeiro contendo um vector de expressão com uma inserção que codifica uma proteína segregada, ou respectiva porção, podem ser comparadas com as proteínas expressas em células-hospedeiro de controlo contendo o vector de 90 expressão sem uma inserção. A presença de uma banda em amostras de células contendo o vector de expressão com uma inserção, que está ausente em amostras de células contendo o vector de expressão sem uma inserção, indica que a proteína desejada, ou respectiva porção, está a ser expressa. Em geral, a banda terá a mobilidade esperada para a proteína segregada, ou respectiva porção. No entanto, a banda pode ter uma mobilidade diferente da esperada em resultado de modificações tais como glicosilação, ubiquitinação ou clivagem enzimática. A proteína codificada pelo cDNA estendido pode ser purificada utilizando técnicas comuns de imunocromatografia. Nesses procedimentos, uma solução contendo a proteína segregada, como o meio de cultura ou um extracto celular, é aplicada numa coluna possuindo anticorpos contra a proteína segregada ligados à matriz da cromatografia. Permite-se que a proteína segregada se ligue à coluna de imunocromatografia. Em seguida, a coluna é lavada, para remover proteínas ligadas de forma inespecífica. A proteína segregada ligada especificamente é então libertada da coluna e recuperada utilizando técnicas comuns.
Se não for possível produzir anticorpos, a sequência do cDNA estendido, ou respectiva porção, pode ser incorporada em vectores de expressão concebidos para serem utilizados em esquemas de purificação que empregam polipéptidos quiméricos. Nessas estratégias, a sequência codificadora do cDNA estendido, ou respectiva porção, é inserida na estrutura com o gene que codifica a outra metade da quimera. A outra metade da quimera pode ser β-globina ou um polipéptido de ligação a níquel. Em seguida, para purificar a proteína quimérica, utiliza-se uma matriz de cromatografia com anticorpos ligados para β-globina ou 91 níquel. Sítios de clivagem de proteases podem ser fabricados entre o gene da β-globina ou o polipéptido de ligação a níquel e o cDNA estendido, ou respectiva porção. Assim, os dois polipéptidos da quimera podem ser separados um do outro por digestão com proteases.
Um vector de expressão útil para gerar estruturas quiméricas de β-globina é pSG5 (Stratagene) , que codifica a β-globina de coelho. 0 intrão II do gene da β-globina de coelho facilita o processamento do transcrito expresso, e o sinal de poliadenilação incorporado na construção aumenta o nível de expressão. Estas técnicas, tal como estão descritas, são bem conhecidas dos experimentados na área da biologia molecular. Métodos padrão estão publicados em textos de métodos, tais como Davis et al. ("Basic Methods in Molecular Biology", Davis, Dibner e Battey, editores, Elsevier Press, N.I., 1986) e muitos dos métodos são disponibilizados pela Stratagene, Life Technologies, Inc., ou Promega. O polipéptido pode ser adicionalmente produzido a partir da construção utilizando sistemas de tradução in vitro, como o Estojo de Tradução In vitro Express™ (Stratagene).
Após a expressão e purificação das proteínas segregadas codificadas pelas 5' ESTs, cDNAs estendidos ou respectivos fragmentos, as proteínas purificadas podem ser testadas quanto à capacidade para se ligarem à superfície de vários tipos de células, como descrito no Exemplo 31 abaixo. Será apreciado que uma pluralidade de proteínas expressas a partir destes cDNAs pode ser incluída num painel de proteínas a serem avaliadas simultaneamente quanto às actividades especificamente descritas abaixo, bem como 92 quanto a outros papéis biológicos para os quais estão disponíveis ensaios para determinar a actividade. EXEMPLO 31
Análise de Proteínas Segregadas para Determinar se Ligam à
Superfície Celular
As proteínas codificadas pelas 5' ESTs, cDNAs estendidos ou respectivos fragmentos são clonadas em vectores de expressão como os descritos no Exemplo 30. As proteínas são purificadas por tamanhos, carga, imunocromatografia ou outras técnicas familiares aos experimentados na área. Após a purificação, as proteínas são etiquetadas utilizando técnicas conhecidas dos experimentados na área. As proteínas etiquetadas são incubadas com células ou linhas de células derivadas de uma variedade de órgãos ou tecidos, para permitir que as proteínas se liguem a qualquer receptor presente na superfície celular. Após a incubação, as células são lavadas, para remover proteínas que se ligaram de forma inespecífica. As proteínas etiquetadas são detectadas por autorradiografia. Alternativamente, proteínas não etiquetadas podem ser incubadas com as células e ser detectadas com anticorpos possuindo uma etiqueta detectável ligada, como uma molécula fluorescente.
Pode analisar-se a especificidade da ligação à superfície celular conduzindo uma análise de competição na qual várias quantidades de proteína não etiquetada são incubadas juntamente com a proteína etiquetada. A quantidade de proteína etiquetada ligada à superfície celular diminui à medida que aumenta a quantidade de proteína não etiquetada competitiva. Como controlo, incluem-se nalgumas reacções de ligação várias quantidades de uma proteína não etiquetada que não está relacionada com 93 a proteína etiquetada. A quantidade de proteína etiquetada ligada à superfície celular não diminui em reacções de ligação contendo quantidades crescentes de proteína não etiquetada não relacionada, indicando que a proteína codificada pelo cDNA se liga especificamente à superfície celular.
Como discutido acima, foi mostrado que proteínas segregadas exercem alguns efeitos fisiológicos importantes e, consequentemente, representam um recurso terapêutico valioso. As proteínas segregadas codificadas pelos cDNAs estendidos, ou respectivas porções, preparadas de acordo com os Exemplos 27-29 podem ser avaliadas para determinar as suas actividades fisiológicas, como descrito abaixo. EXEMPLO 32
Avaliação das Proteínas Expressas a Partir de cDNAs Estendidos, ou Respectivas Porções, Quanto à Actividade de Citoquinas, Proliferação Celular ou Diferenciação Celular
Como discutido acima, as proteínas segregadas podem actuar como citoquinas ou podem afectar a proliferação ou diferenciação celulares. Muitos factores de proteínas descobertos até à data, incluindo todas as citoquinas conhecidas, exibiram actividade em um ou mais ensaios de proliferação de células dependente de factores e, assim, os ensaios são uma confirmação conveniente da actividade de citoquinas. A actividade de uma proteína codificada pelos cDNAs estendidos é evidenciada por qualquer um de alguns ensaios de rotina de proliferação celular dependente de factores para linhas de células incluindo, sem limitação, 32D, DA2, DA1G, TIO, B9, B9/11, BaF3, MC9/G, M+ (preB M+) , 2E8, RB5, DAI, 123, T1165, HT2, CTLL2, TF-1, Mo7c e CMK. As proteínas codificadas pelos cDNAs estendidos acima, ou 94 respectivas porções, podem ser avaliadas quanto à sua capacidade para regular a proliferação de células T ou timócitos em ensaios como os descritos acima ou nas referências seguintes: "Current Protocols in Immunology", Editado por Coligan et al., Greene Publishing Associates e Wiley-Interscience; Takai et al., J. Immunol. 137: 3494-3500, 1986; Bertagnolli et al., J. Immunol. 145: 1706-1712, 1990; Bertagnolli et al., Cell. Immunol. 133: 327-341, 1991; Bertagnolli et al., J. Immunol. 149: 3778-3783, 1992; Bowman et al., J. Immunol. 152: 1756-1761, 1994.
Adicionalmente, conhecem-se numerosos ensaios para avaliar a produção de citoquinas e/ou a proliferação de células do baço, células de nodos linfáticos e timócitos. Estes ensaios incluem as técnicas reveladas em "Current Protocols in Immunology", supra 1: 3.12.1-3.12.14, e Schreiber, em "Current Protocols in Immunology", supra 1: 6.8.1-6.8.8.
As proteínas codificadas pelos cDNAs também podem ser avaliadas quanto à capacidade para regular a proliferação e diferenciação de células hematopoiéticas ou linfopoiéticas. Muitos ensaios para avaliar essa actividade são familiares aos experimentados na área, incluindo os ensaios apresentados nas referências seguintes: Bottomly et al., em "Current Protocols in Immunology", supra 1: 6.3.1-6.3.12; deVries et al., J. Exp. Med. 173: 1205-1211, 1991; Moreau et al., Nature 36: 690-692, 1988; Greenberger et al., Proc. Natl. Acad. Sei. U.S.A. 80: 2931-2938, 1983; Nordan, R., em "Current Protocols in Immunology", supra 1: 6.6.1-6.6.5; Smith et al., Proc. Natl. Acad. Sei. U.S.A. 83: 1857-1861, 1986; Bennett et al., em "Current Protocols in Immunology", supra 1: 6.15.1; Ciarletta et al., em "Current Protocols in Immunology", supra 1: 6.13.1. 95
As proteínas codificadas pelos cDNAs também podem ser avaliadas quanto à sua capacidade para regular respostas de células T a antigenes. Muitos ensaios para avaliar essa actividade são familiares aos experimentados na área, incluindo os ensaios descritos nas referências seguintes: Capítulo 3 ("In Vitro Assays for Mouse Lymphocyte Function"), Capítulo 6 ("Cytokines and Their Cellular Receptors") e Capítulo 7 ("Immunologic Studies in Humans") em "Current Protocols in Immunology", supra; Weinberger et ai., Proc. Natl. Acad. Sei. USA 77: 6091-6095, 1980; Weinberger et al.r Eur. J. Immun. 11: 405-411, 1981; Takai et al., J. Immunol. 137: 3494-3500, 1986; Takai et al., J. Immunol. 140: 508-512, 1988.
Em seguida, as proteínas que exibem actividade de citoquinas, proliferação celular ou diferenciação celular podem ser formuladas como agentes farmacêuticos e utilizadas para tratar estados clínicos nos quais a indução de proliferação ou diferenciação celular é benéfica. Alternativamente, como descrito mais pormenorizadamente abaixo, genes que codificam estas proteínas ou ácidos nucleicos que regulam a expressão destas proteínas podem ser introduzidos em células-hospedeiro apropriadas para aumentar ou diminuir, consoante o desejado, a expressão das proteínas. EXEMPLO 33
Avaliação das Proteínas Expressas a Partir dos cDNAs Estendidos, ou Respectivas Porções, Quanto à Actividade como Reguladores do Sistema Imunolóqico As proteínas codificadas pelos cDNAs também podem ser avaliadas quanto aos seus efeitos como reguladores imunológicos. Por exemplo, as proteínas podem ser avaliadas 96 quanto à sua actividade para influenciar a citotoxicidade de timócitos ou esplenócitos. Numerosos ensaios para avaliar essa actividade são familiares aos experimentados na área, incluindo os ensaios descritos nas referências seguintes: Capitulo 3 ("In Vitro Assays for Mouse Lymphocyte Function" 3.1-3.19) e Capítulo 7 ("Immunologic Studies in Humans") em "Current Protocols in Immunology", Coligan et al., Editores, Greene Publishing Associates e Wiley-Interscience; Herrmann et ai., Proc. Natl. Acad. Sei. USA 78: 2488-2492, 1981; Herrmann et ai., J. Immunol. 128: 1968-1974, 1982; Handa et ai., J. Immunol. 135: 1564-1572, 1985; Takai et ai., J. immunol. 137: 3494-3500, 1986; Takai et al., J. Immunol. 140: 508-512, 1988; Bowman et al., J. Virology 61: 1992-1998; Bertagnolli et al., Cell. Immunol. 133: 327-341, 1991; Brown et al., J. Immunol. 153: 3079-3092, 1994.
As proteínas codificadas pelos cDNAs também podem ser avaliadas quanto aos seus efeitos em respostas de imunoglobulinas dependentes de células T e mudança de isotipos. Numerosos ensaios para avaliar essa actividade são familiares aos experimentados na área, incluindo os ensaios revelados nas referências seguintes: Maliszewski, J. Immunol. 144: 3028-3033, 1990; Mond et al., em "Current Protocols in Immunology", 1: 3.8.1-3.8.16, supra.
As proteínas codificadas pelos cDNAs também podem ser avaliadas quanto ao seu efeito em células efectoras imunológicas, incluindo o seu efeito em células Thl e linfócitos citotóxicos. Numerosos ensaios para avaliar essa actividade são familiares aos experimentados na área, incluindo os ensaios revelados nas referências seguintes: Capítulo 3 ("In Vitro Assays for Mouse Lymphocyte Function" 3.1-3.19) e Capítulo 7 ("Immunologic Studies in Humans") em "Current Protocols in Immunology", supra; Takai et al., J. 97
Immunol. 137: 3494-3500, 1986; Takai et al., J. Irmunol. 140: 508-512, 1988; Bertagnolli et al., J. Immunol. 149: 3778-3783, 1992.
As proteínas codificadas pelos cDNAs também podem ser avaliadas quanto ao seu efeito na activação, mediada por células dendríticas, de células T não manipuladas. Numerosos ensaios para avaliar essa actividade são familiares aos experimentados na área, incluindo os ensaios revelados nas referências seguintes: Guery et al., J. Immunol. 134: 536-544, 1995; Inaba et al., J. Exp. Med. 173: 549-559, 1991; Macatonia et al., J. Immunol. 154: 5071-5079, 1995; Porgador et al., J. Exp. Med. 182: 255- 260, 1995; Nair et al., J. Virol. 67: 4062-4069, 1993;
Huang et al., Science 264: 961-965, 1994; Macatonia et al., J. Exp. Med. 169: 1255-1264, 1989; Bhardwaj et al., Journal of Clinicai Investigation 94: 797-807, 1994, e Inaba et al., J. Exp. Med. 172: 631-640, 1990.
As proteínas codificadas pelos cDNAs também podem ser avaliadas quanto à sua influência no tempo de vida dos linfócitos. Numerosos ensaios para avaliar essa actividade são familiares aos experimentados na área, incluindo os ensaios revelados nas referências seguintes: Darzynkiewicz et al., Cytometry 13: 795-808, 1992; Gorczyca et al.,
Leukemia 7: 659-670, 1993; Gorczyca et al., Câncer Res. 53: 1945-1951, 1993; Itoh et al., Cell 66: 233-243, 1991; Zacharchuk, J. Immunol. 145: 4037-4045, 1990; Zamai et al., Cytometry 14: 891-897, 1993; Gorczyca et al., Int. J.
Oncol. 1: 639-648, 1992.
As proteínas codificadas pelos cDNAs também podem ser avaliadas quanto à sua influência nos passos iniciais do comprometimento e desenvolvimento de células T. Numerosos ensaios para avaliar essa actividade são familiares aos experimentados na área, incluindo, sem limitação, os 98 ensaios revelados nas referências seguintes: Antica et al., Blood 84: 111-117, 1994; Fine et al., Cell. Immunol. 155: 111-122, 1994; Galy et al., Blood 85: 2770-2778, 1995; Toki et al., Proc. Nat. Acad. Scl. USA 88: 7548-7551, 1991.
Em seguida, as proteínas que exibem actividade como reguladores do sistema imunológico podem ser formuladas como agentes farmacêuticos e utilizadas para tratar estados clínicos nos quais a regulação da actividade imunológica é benéfica. Por exemplo, a proteína pode ser útil no tratamento de várias deficiências e perturbações imunológicas (incluindo imunodeficiência combinada grave), por exemplo, na regulação (positiva ou negativa) do crescimento e proliferação de linfócitos T e/ou B, bem como na indução da actividade citolítica de células NK e outras populações de células. Estas deficiências imunológicas podem ser genéticas ou causadas por infecções virais (por exemplo, HIV), bem como bacterianas ou fúngicas, ou podem resultar de perturbações autoimunes. Mais especificamente, doenças infecciosas causadas por infecção virai, bacteriana, fúngica ou outra podem ser tratadas utilizando uma proteína codificada por cDNAs estendidos derivados das 5' ESTs da presente invenção, incluindo infecções causadas pelo HIV, vírus da hepatite, vírus herpes, micobactérias, Leishmania spp., plasmodium e várias infecções fúngicas, como candidíase. Obviamente e a este respeito, uma proteína codificada por cDNAs estendidos derivados das 5' ESTs da presente invenção também pode ser útil quando for desejável reforçar globalmente o sistema imunológico, isto é, no tratamento de cancro.
Alternativamente, proteínas codificadas por cDNAs estendidos derivados das 5' ESTs da presente invenção podem ser utilizadas no tratamento de perturbações autoimunes, incluindo, por exemplo, doença do tecido conjuntivo, 99 esclerose múltipla, lúpus eritematoso sistémico, artrite reumatóide, inflamação pulmonar autoimune, síndroma de Guillain-Barre, tiroidite autoimune, diabetes mellitus dependente de insulina, miastenia gravis, doença enxerto-versus-hospedeiro e doença inflamatória ocular autoimune. Essa proteína codificada por cDNAs estendidos derivados das 5' ESTs da presente invenção também pode ser útil no tratamento de reacções e estados alérgicos, como asma (particularmente asma alérgica) ou outros problemas respiratórios. Outros estados onde é desejada supressão imunológica (incluindo, por exemplo, transplantação de órgãos) também podem ser tratados utilizando uma proteína codificada por cDNAs estendidos derivados das 5' ESTs da presente invenção.
Ao utilizar as proteínas da invenção também pode ser possível regular positivamente ou negativamente respostas imunológicas. A regulação negativa pode envolver inibição ou bloqueio de uma resposta imunológica já em progressão ou pode envolver prevenir a indução de uma resposta imunológica. As funções de células T activadas podem ser inibidas suprimindo respostas de células T ou induzindo tolerância específica em células T, ou ambas. A supressão imunológica de respostas de células T é, em geral, um processo activo não específico para antigenes, que requer exposição contínua das células T ao agente supressor. A tolerância, que envolve indução de ausência de sensibilidade ou anergia em células T, distingue-se da supressão imunológica por ser geralmente específica para antigenes e persistir após o fim da exposição ao agente que induz tolerância. Operacionalmente, a tolerância pode ser demonstrada pela ausência de uma resposta de células T por nova exposição ao 100 antigene específico na ausência do agente que induz tolerância. A regulação negativa ou prevenção de uma ou mais funções de antigenes (incluindo, sem limitação, funções de antigenes para linfócitos B, tais como, por exemplo, co-estimulação de B7), por exemplo, prevenção da síntese de linfoquinas em nível elevado por células T activadas, será útil em situações de transplantação de tecido, pele e órgãos e na doença enxerto-versus-hospedeiro (GVHD). Por exemplo, o bloqueio da função de células T deve resultar em destruição reduzida de tecido em transplantação de tecido. Tipicamente, em transplantes de tecido, a rejeição do transplante é iniciada ao ser reconhecido como estranho por células T, seguido de uma reacção imunológica que destrói o transplante. A administração de uma molécula que inibe ou bloqueia a interacção de um antigene para linfócitos B7 com o(s) seu(s) ligando(s) natural (naturais) em células imunológicas (tal como uma forma solúvel e monomérica de um péptido com actividade de B7-2 isoladamente ou em conjunção com uma forma monomérica de um péptido com actividade de outro antigene para linfócitos B (por exemplo, B7-1, B7-3) ou anticorpo bloqueador), antes da transplantação, pode conduzir à ligação da molécula ao(s) ligando(s) natural(naturais) nas células imunológicas sem transmissão do sinal co-estimulador correspondente. Nesta situação, o bloqueio da função de antigenes para linfócitos B previne a síntese de citoquinas por células imunológicas, tais como células T, e, assim, actua como supressor imunológico. Além disso, a ausência de co-estimulação também pode ser suficiente para submeter as células T a anergia, desse modo induzindo tolerância num sujeito. A indução de tolerância a longo prazo por reagentes bloqueadores de antigenes para linfócitos B pode evitar a necessidade de administrar 101 repetidamente estes reagentes bloqueadores. Para se obter supressão imunológica ou tolerância suficiente num sujeito também pode ser necessário bloquear a função de uma combinação de antigenes para linfócitos B.
Pode avaliar-se a eficácia de reagentes bloqueadores particulares na prevenção da rejeição de transplantes de órgãos ou GVHD utilizando modelos animais que prevêem a eficácia em humanos. Exemplos de sistemas apropriados que podem ser utilizados incluem enxertos cardíacos alogeneicos em ratos e enxertos de células de ilhéus pancreáticos xenogeneicos em ratinhos, em que ambos foram utilizados para examinar os efeitos de supressão imunológica de proteínas de fusão CTLA4Ig in vivo, como descrito em Lenschow et al., Science 257: 789-792, 1992, e Turka et al., Proc. Natl. Acad. Sei. USA 89: 11102-11105, 1992. Adicionalmente, podem utilizar-se modelos murinos de GVHD (ver Paul, editor, "Fundamental Immunology" Raven Press, Nova Iorque, 1989, páginas 846-847) para determinar o efeito do bloqueio da função de antigenes para linfócitos B in vivo no desenvolvimento dessa doença. O bloqueio da função de antigenes também pode ser terapeuticamente útil para tratar doenças autoimunes. Muitas perturbações autoimunes resultam da activação inapropriada de células T que são reactivas contra tecidos próprios e que promovem a produção de citoquinas e autoanticorpos envolvidos na patologia das doenças. Prevenir a activação de células T auto-reactivas pode reduzir ou eliminar sintomas da doença. A administração de reagentes que bloqueiam a co-estimulação de células T ao destruir interaeções receptor/ligando de antigenes para linfócitos B pode ser utilizada para inibir a activação de células T e prevenir a produção de autoanticorpos ou citoquinas derivadas de células T, que estão potencialmente 102 envolvidos no processo da doença. Adicionalmente, reagentes bloqueadores podem induzir tolerância especifica para antigenes de células T auto-reactivas, o que pode conduzir a alivio a longo prazo da doença. Pode determinar-se a eficácia de reagentes bloqueadores na prevenção ou alivio de perturbações autoimunes utilizando alguns modelos animais bem caracterizados de doenças autoimunes humanas. Exemplos incluem encefalite autoimune experimental murina, lúpus eritematoso sistémico em ratinhos MRL/pr/pr ou ratinhos híbridos NZB, artrite induzida por colagénio autoimune murina, diabetes mellitus em ratinhos OD e ratos BB e miastenia gravis experimental murina (ver Paul, editor, supra, páginas 840-856) . A regulação positiva de uma função de antigenes (preferivelmente uma função de antigenes para linfócitos B), como forma de regular positivamente respostas imunológicas, também pode ser útil em terapia. A regulação positiva de respostas imunológicas pode envolver intensificar uma resposta imunológica existente ou induzir uma resposta imunológica inicial, como mostrado nos exemplos seguintes. Por exemplo, intensificar uma resposta imunológica por estimulação da função de antigenes para linfócitos B pode ser útil em casos de infecção virai. Adicionalmente, doenças virais sistémicas, como influenza, a gripe comum, e encefalite, podem ser atenuadas pela administração sistémica da forma estimuladora de antigenes para linfócitos B.
Alternativamente, respostas imunológicas antivirais podem ser intensificadas num paciente infectado por remoção de células T do paciente, co-estimulação das células T in vitro com APCs com impulsos antigénicos virais que expressam um péptido codificado por cDNAs estendidos derivados das 5' ESTs da presente invenção ou juntamente 103 com uma forma estimuladora de um péptido solúvel codificado por cDNAs estendidos derivados das 5' ESTs da presente invenção, e reintrodução no paciente das células T iniciadas in vitro. As células infectadas serão agora capazes de distribuir um sinal co-estimulador para células T in vivo, desse modo activando as células T.
Noutra aplicação, a regulação positiva ou intensificação da função de antigenes (preferivelmente uma função de antigenes para linfócitos B) pode ser útil na indução de imunidade tumoral. Células tumorais (por exemplo, de sarcoma, melanoma, linfoma, leucemia, neuroblastoma, carcinoma) transfectadas com um ácido nucleico que codifica pelo menos um péptido codificado por cDNAs estendidos derivados das 5' ESTs da presente invenção podem ser administradas a um sujeito para ultrapassar a tolerância especifica para o tumor no sujeito. Se desejado, a célula tumoral pode ser transfectada para expressar uma combinação de péptidos. Por exemplo, células tumorais obtidas de um paciente podem ser transfectadas ex vivo com um vector de expressão que dirige a expressão de um péptido possuindo actividade do tipo B7-2 isoladamente ou em conjunção com um péptido possuindo actividade do tipo B7-1 e/ou actividade do tipo B7-3. As células tumorais transfectadas são novamente inseridas no paciente, resultando na expressão dos péptidos na superfície da célula transfectada. Alternativamente, podem utilizar-se técnicas de terapia genética com a finalidade de abordar selectivamente uma célula tumoral para transfecção in vivo. A presença do péptido codificado por cDNAs estendidos derivados das 5' ESTs da presente invenção com actividade de antigene(s) para linfócitos B na superfície da célula tumoral fornece a células T o sinal de co-estimulação necessário para induzir uma resposta imunológica mediada 104 por células T contra as células tumorais transfectadas. Adicionalmente, células tumorais que não têm ou que não conseguem expressar novamente quantidades suficientes de moléculas de MHC de classe I ou MHC de classe II podem ser transfectadas com ácidos nucleicos que codificam a totalidade ou uma porção (por exemplo, uma porção truncada do domínio citoplasmático) de uma cadeia α de MHC de classe I e microglobulina β2 ou de uma cadeia α de MHC de classe II e uma cadeia β de MHC de classe II, para assim expressar na superfície da célula as proteínas de MHC de classe I ou MHC de classe II, respectivamente. A expressão das moléculas apropriadas de MHC de classe I ou classe II em conjunção com um péptido possuindo actividade de um antigene para linfócitos B (por exemplo, B7-1, B7-2, B7-3) induz uma resposta imunológica mediada por células T contra a célula tumoral transfectada. Opcionalmente, um gene que codifica uma construção anti-sentido que bloqueia a expressão de uma proteína associada a MHC de classe II, como a cadeia invariante, também pode ser co-transfectado com um DNA que codifica um péptido possuindo actividade de um antigene para linfócitos B, para promover a apresentação de antigenes associados ao tumor e induzir imunidade específica para o tumor. Assim, a indução de uma resposta imunológica mediada por células T num sujeito humano pode ser suficiente para ultrapassar a tolerância específica para o tumor no sujeito. Alternativamente, como descrito mais pormenorizadamente abaixo, genes que codificam estas proteínas reguladoras do sistema imunológico ou ácidos nucleicos que regulam a expressão dessas proteínas podem ser introduzidos em células-hospedeiro apropriadas para aumentar ou diminuir, consoante o desejado, a expressão das proteínas. 105 EXEMPLO 34
Avaliação das Proteínas Expressas a Partir de cDNAs Estendidos, ou Respectivas Porções, Quanto à Actividade Reguladora da Hematopoiese
As proteínas codificadas pelos cDNAs estendidos, ou respectivas porções, também podem ser avaliadas quanto à sua actividade reguladora da hematopoiese. Por exemplo, pode avaliar-se o efeito das proteínas na diferenciação de células estaminais embrionárias. Numerosos ensaios para avaliar essa actividade são familiares aos experimentados na área, incluindo os ensaios revelados nas referências seguintes: Johansson et al., Cell. Biol. 15: 141-151, 1995; Keller et al., Mol. Cell. Biol. 13: 473-486, 1993;
McClanahan et al., Blood 81: 2903-2915, 1993.
As proteínas codificadas pelos cDNAs estendidos, ou respectivas porções, também podem ser avaliadas quanto à sua influência no tempo de vida de células estaminais e diferenciação de células estaminais. Numerosos ensaios para avaliar essa actividade são familiares aos experimentados na área, incluindo os ensaios revelados nas referências seguintes: Freshney, "Methylcellulose Colony Forming
Assays", em "Culture of Hematopoietic Cells", Freshney et al., Editores, páginas 265-268, Wiley-Liss, Inc., Nova Iorque, NI, 1994; Hirayama et al., Proc. Natl. Acad. Sei. USA 89: 5907-5911, 1992; McNiece e Briddell, em "Culture of Hematopoietic Cells", supra; Neben et al., Exp. Hematol. 22: 353-359, 1994; Ploemacher e Cobblestone, em "Culture of Hematopoietic Cells", supra 1-21; Spooncer et al., "Culture of Hematopoietic Cells", supra 163-179, e Sutherland, em "Culture of Hematopoietic Cells", supra 139-162.
Em seguida, as proteínas que exibem actividade reguladora da hematopoiese podem ser formuladas como agentes farmacêuticos e utilizadas para tratar estados 106 clínicos nos quais a regulação da hematopoiese é benéfica, como no tratamento de deficiências de células mielóides ou linfóides. O envolvimento na regulação da hematopoiese é indicado mesmo por actividade biológica marginal no suporte de células formadoras de colónias ou de linhas de células dependentes de factores. Por exemplo, proteínas que suportam o crescimento e proliferação de células progenitoras eritróides isoladamente ou em combinação com outras citoquinas indicam que têm utilidade, por exemplo, no tratamento de várias anemias ou para utilização em conjunção com irradiação/quimioterapia, com a finalidade de estimular a produção de precursores eritróides e/ou células eritróides. Proteínas que suportam o crescimento e proliferação de células mielóides, como granulócitos e monócitos/macrófagos (isto é, actividade de CSF tradicional) podem ser úteis, por exemplo, em conjunção com quimioterapia, para prevenir ou tratar mielossupressão consequente. Proteínas que suportam o crescimento e proliferação de megacariócitos e, consequentemente, de plaquetas permitem prevenir ou tratar várias perturbações de plaquetas, tais como trombocitopenia, e, em geral, podem ser utilizadas em vez de transfusões de plaquetas ou de forma complementar a transfusões de plaquetas. Proteínas que suportam o crescimento e proliferação de células estaminais hematopoiéticas que são capazes de amadurecer para se transformarem em qualquer uma e todas as células hematopoiéticas acima mencionadas podem, em consequência, ter utilidade terapêutica em várias perturbações de células estaminais (tais como as habitualmente tratadas com transplantações, incluindo, sem limitação, anemia aplástica e hemoglobinúria paroxística nocturna), bem como na repopulação do compartimento de células estaminais pós-irradiação/quimioterapia, in vivo ou ex vivo (isto é, em 107 conjunção com transplantação de medula óssea ou com transplantação (homóloga ou heteróloga) de células progenitoras periféricas), como células normais ou geneticamente manipuladas para terapia genética. Alternativamente, como descrito mais pormenorizadamente abaixo, genes que codificam proteínas com actividade reguladora da hematopoiese ou ácidos nucleicos que regulam a expressão dessas proteínas podem ser introduzidos em células-hospedeiro apropriadas para aumentar ou diminuir, consoante o desejado, a expressão das proteínas. EXEMPLO 35
Avaliação das Proteínas Expressas a Partir de cDNAs Estendidos, ou Respectivas Porções, Quanto à Regulação do
Crescimento de Tecidos
As proteínas codificadas pelos cDNAs estendidos, ou respectivas porções, também podem ser avaliadas quanto ao seu efeito no crescimento de tecidos. Numerosos ensaios para avaliar essa actividade são familiares aos experimentados na área, incluindo os ensaios revelados na Publicação de Patente Internacional N° WO95/16035, Publicação de Patente Internacional N° WO95/05846 e Publicação de Patente Internacional N° WO91/07491.
Ensaios para avaliar a actividade de cura de feridas incluem, sem limitação, os descritos em: Winter, "Epidermal Wound Healing", páginas 71-112, Maibach e Rovee, editores, Year Book Medicai Publishers, Inc., Chicago, tal como foi modificado por Eaglstein e Mertz, J. Invest. Dermatol. 71: 382-84, 1978.
Em seguida, as proteínas que estão envolvidas na regulação do crescimento de tecidos podem ser formuladas como agentes farmacêuticos e utilizadas para tratar estados clínicos nos quais a regulação do crescimento de tecidos é 108 benéfica. Por exemplo, uma proteína codificada por cDNAs estendidos derivados das 5' ESTs da presente invenção também podem ser úteis em composições utilizadas para o crescimento ou regeneração de tecido ósseo, de cartilagens, tendões, ligamentos e/ou nervos, bem como para cura de feridas e reparação e substituição de tecidos, e no tratamento de queimaduras, incisões e úlceras.
Uma proteína codificada por cDNAs estendidos derivados das 5' ESTs da presente invenção que induz o crescimento de cartilagens e/ou osso em circunstâncias em que normalmente não se forma osso tem aplicação na cura de fracturas ósseas e danos ou defeitos em cartilagens em humanos e outros animais. Essa preparação empregando uma proteína da invenção pode ter utilização profiláctica na redução de fracturas fechadas e abertas e também na fixação aperfeiçoada de articulações artificiais. A síntese óssea de novo induzida por um agente osteogénico contribui para a reparação de defeitos craniofaciais congénitos, induzidos por traumatismo ou induzidos por ressecção oncológica e também é útil em cirurgia plástica cosmética.
Uma proteína desta invenção também pode ser utilizada no tratamento de doença periodontal e noutros processos de reparação de dentes. Esses agentes podem proporcionar um ambiente para atrair células de formação óssea, estimular o crescimento de células de formação óssea ou induzir a diferenciação de progenitores de células de formação óssea. Uma proteína da invenção também pode ser útil no tratamento de osteoporose ou osteoartrite, estimulando a reparação óssea e/ou de cartilagens ou bloqueando inflamações ou processos de destruição de tecidos (actividade de colagenase, actividade de osteoclastos, etc.) mediados por processos inflamatórios. 109
Outra categoria de actividade de regeneração de tecidos que pode ser atribuída à proteína codificada por cDNAs estendidos derivados das 5' ESTs da presente invenção é a formação de tendões/ligamentos. Uma proteína codificada por cDNAs estendidos derivados das 5' ESTs da presente invenção que induz a formação de tecido do tipo tendões/ligamentos ou de outros tecidos em circunstâncias em que normalmente esse tecido não se forma tem aplicação na cura de rupturas de tendões ou ligamentos, deformações e outros defeitos de tendões ou ligamentos em humanos e outros animais. Essa preparação empregando uma proteína indutora de tecido do tipo tendões/ligamentos pode ter utilização profiláctica na prevenção de danos em tecido de tendões ou ligamentos, bem como utilização na fixação aperfeiçoada de tendões ou ligamentos a ossos ou outros tecidos e na reparação de defeitos em tecido de tendões ou ligamentos. A formação de novo de tecido do tipo tendões/ligamentos induzida por uma composição codificada por cDNAs estendidos derivados das 5' ESTs da presente invenção contribui para a reparação de defeitos em tendões ou ligamentos de origem congénita, traumática ou outra e também é útil em cirurgia plástica cosmética para a ligação ou reparação de tendões ou ligamentos. As composições codificadas por cDNAs estendidos derivados das 5' ESTs da presente invenção podem proporcionar um ambiente para atrair células formadoras de tendões ou ligamentos, estimular o crescimento de células formadoras de tendões ou ligamentos, induzir a diferenciação de progenitores de células formadoras de tendões ou ligamentos ou induzir o crescimento de células de tendões/ligamentos ou progenitores, ex vivo, para serem novamente introduzidas in vivo com a finalidade de induzir a reparação de tecidos. As composições da invenção também podem ser úteis no tratamento de tendinite, síndroma do 110 túnel cárpico e outros defeitos de tendões ou ligamentos. As composições também podem incluir uma matriz e/ou um agente de sequestro apropriados como transportador, como é bem conhecido na área. A proteína codificada por cDNAs estendidos derivados das 5' ESTs da presente invenção também pode ser útil para a proliferação de células neurais e para a regeneração de tecido de nervos e cérebro, isto é, para o tratamento de doenças e neuropatias do sistema nervoso central e periférico, bem como de perturbações mecânicas e traumáticas que envolvem degeneração, morte ou traumatismo de células neurais ou tecido de nervos. Mais especificamente, uma proteína pode ser utilizada no tratamento de doenças do sistema nervoso periférico, como lesões de nervos periféricos, neuropatia periférica e neuropatias localizadas, e doenças do sistema nervoso central, como doença de Alzheimer, de Parkinson, doença de Huntington, esclerose lateral amiotrófica e síndroma de Shy-Drager. Outros estados que podem ser tratados de acordo com a presente invenção incluem perturbações mecânicas e traumáticas, tais como perturbações da espinal-medula, traumatismo craniano e doenças cerebrovasculares, como acidente vascular cerebral. Neuropatias periféricas resultantes de quimioterapia ou outras terapias médicas também podem ser tratadas utilizando uma proteína da invenção.
Proteínas da invenção também podem ser úteis para promover melhor ou mais rapidamente o fecho de feridas que não cicatrizam, incluindo, sem limitação, úlceras por pressão, úlceras associadas a insuficiência vascular, feridas cirúrgicas e traumáticas e afins. É esperado que uma proteína codificada por cDNAs estendidos derivados das 5' ESTs da presente invenção 111 também possa exibir actividade de geração ou regeneração de outros tecidos, como tecidos de órgãos (incluindo, por exemplo, pâncreas, fígado, intestino, rim, pele, endotélio), músculos (liso, esquelético ou cardíaco) e vasculares (incluindo endotélio vascular), ou de promoção do crescimento de células que constituem esses tecidos. Parte dos efeitos desejados pode dever-se a inibição ou modulação da formação de escaras fibróticas, para permitir a geração de tecido normal. Uma proteína da invenção também pode exibir actividade angiogénica.
Uma proteína codificada por cDNAs estendidos derivados das 5' ESTs da presente invenção também pode ser útil para protecção dos intestinos ou regeneração e tratamento de fibrose do pulmão ou fígado, lesão de reperfusão em vários tecidos e estados resultantes de danos sistémicos provocados por citoquinas.
Uma proteína codificada por cDNAs estendidos derivados das 5' ESTs da presente invenção também pode ser útil para promover ou inibir a diferenciação de tecidos descritos acima a partir de tecidos ou células precursoras, ou para inibir o crescimento de tecidos descritos acima.
Alternativamente, como descrito mais pormenorizadamente abaixo, genes que codificam proteínas com actividade reguladora do crescimento de tecidos ou ácidos nucleicos que regulam a expressão dessas proteínas podem ser introduzidos em células-hospedeiro apropriadas para aumentar ou diminuir, consoante o desejado, a expressão das proteínas. 112 EXEMPLO 36
Avaliação das Proteínas Expressas a Partir de cDNAs Estendidos, ou Respectivas Porções, Quanto à Regulação de
Hormonas Reprodutoras
As proteínas codificadas pelos cDNAs estendidos, ou respectivas porções, também podem ser avaliadas quanto à sua capacidade para regular hormonas reprodutoras, como a hormona estimulante do folículo. Numerosos ensaios para avaliar essa actividade são familiares aos experimentados na área, incluindo os ensaios revelados nas referências seguintes: Vale et al., Endocrinol. 91: 562-572, 1972; Ling et al., Nature 321: 779-782, 1986; Vale et al., Nature 321: 776-779, 1986; Mason et al., Nature 318: 659-663, 1985;
Forage et al., Proc. Natl. Acad. Sei. USA 83: 3091-3095, 1986; Capítulo 6.12 em "Current Protocols in Immunology", Coligan et al., Editores, Greene Publishing Associates e Wiley-Interscience; Taub et al., J. Clin. Invest. 95: 1370-1376, 1995; Lind et al., APMIS 103: 140-146, 1995; Muller et al., Eur. J. Immunol. 25: 1744-1748; Gruber et al., J. Immunol. 152: 5860-5867, 1994; Johnston et al., J. Immunol. 153: 1762-1768, 1994.
Em seguida, as proteínas que exibem actividade de hormonas reprodutoras ou reguladora do movimento celular podem ser formuladas como agentes farmacêuticos e utilizadas para tratar estados clínicos nos quais a regulação de hormonas reprodutoras é benéfica. Por exemplo, uma proteína codificada por cDNAs estendidos derivados das 5' ESTs da presente invenção também pode exibir actividades relacionadas com a activina ou inibina. As inibinas são caracterizadas pela sua capacidade para inibir a libertação da hormona estimulante do folículo (FSH), ao passo que as activinas são caracterizadas pela sua capacidade para estimular a libertação de FSH. Assim, uma proteína 113 codificada por cDNAs estendidos derivados das 5' ESTs da presente invenção, isoladamente ou em heterodímeros com um membro da familia α das inibinas, pode ser útil como contraceptivo, com base na capacidade das inibinas para diminuir a fertilidade em mamíferos do sexo feminino e diminuir a espermatogénese em mamíferos do sexo masculino. A administração de quantidades suficientes de outras inibinas pode induzir infertilidade nestes mamíferos. Alternativamente, a proteína da invenção, como homodímero ou como heterodímero com outras subunidades proteicas do grupo inibina-B, pode ser útil como agente terapêutico indutor de fertilidade, com base na capacidade de moléculas de activina para estimular a libertação de FSH a partir de células da pituitária anterior. Ver, por exemplo, a Patente dos Estados Unidos 4 798 885. Uma proteína da invenção também pode ser útil para acelerar o início da fertilidade em mamíferos sexualmente imaturos, de modo a aumentar o desempenho reprodutor ao longo da vida de animais domésticos, tais como vacas, ovelhas e porcos.
Alternativamente, como descrito mais pormenorizadamente abaixo, genes que codificam proteínas com actividade reguladora de hormonas reprodutoras ou ácidos nucleicos que regulam a expressão dessas proteínas podem ser introduzidos em células-hospedeiro apropriadas para aumentar ou diminuir, consoante o desejado, a expressão das proteínas. EXEMPLO 37
Avaliação das Proteínas Expressas a Partir de cDNAs Estendidos, ou Respectivas Porções, Quanto à Actividade Quimiotáctica/Quimiocinética
As proteínas codificadas pelos cDNAs estendidos, ou respectivas porções, também podem ser avaliadas quanto à actividade quimiotáctica/quimiocinética. Por exemplo, uma 114 proteína codificada por cDNAs estendidos derivados das 5' ESTs da presente invenção pode ter actividade quimiotáctica ou quimiocinética (por exemplo, actuar como uma quimioquina) para células de mamífero, incluindo, por exemplo, monócitos, fibroblastos, neutrófilos, células T, mastócitos, eosinófilos, células epiteliais e/ou endoteliais. As proteínas quimiotácticas e quimiocinéticas podem ser utilizadas para mobilizar ou atrair uma população celular desejada para um sítio de acção desejado. As proteínas quimiotácticas ou quimiocinéticas proporcionam vantagens particulares no tratamento de feridas e outros traumatismos em tecidos, bem como no tratamento de infecções localizadas. Por exemplo, a atracção de linfócitos, monócitos ou neutrófilos para tumores ou sítios de infecção pode resultar em respostas imunológicas melhoradas contra o tumor ou agente infeccioso.
Uma proteína ou péptido tem actividade quimiotáctica para uma população celular particular se conseguir estimular, directa ou indirectamente, a orientação ou movimento dirigido dessa população celular. Preferivelmente, a proteína ou péptido tem a capacidade para estimular directamente o movimento dirigido de células. Pode determinar-se facilmente se uma proteína particular tem actividade quimiotáctica para uma população de células empregando essa proteína ou péptido em qualquer ensaio conhecido de quimiotaxia de células. A actividade de uma proteína da invenção pode ser medida, entre outros meios, pelos métodos seguintes.
Os ensaios para avaliar a actividade quimiotáctica (que irão identificar proteínas que induzem ou previnem a quimiotaxia) consistem em ensaios que medem a capacidade de uma proteína para induzir a migração de células através de uma membrana, bem como a capacidade de uma proteína para 115 induzir a adesão de uma população celular a outra população celular. Ensaios adequados para avaliar o movimento e adesão incluem, sem limitação, os descritos em: "Current Protocols in Immunology", Editado por Coligan, Kruisbeek, Margulies, Shevach e Strober, Publicado por Greene Publishing Associates e Wiley-Interscience, Capitulo 6.12: 6.12.1-6.12.28; Taub et al., J. Clin. Invest. 95: 1370-1376, 1995; Lind et al., APMIS 103: 140-146, 1995; Mueller et al., Eur. J. Immunol. 25: 1744-1748; Gruber et al., J. Immunol. 152: 5860-5867, 1994; Johnston et al., J. Immunol. 153: 1762-1768, 1994. EXEMPLO 38
Avaliação das Proteínas Expressas a Partir de cDNAs Estendidos, ou Respectivas Porções, Quanto à Regulação da
Coagulação do Sangue
As proteínas codificadas pelos cDNAs estendidos, ou respectivas porções, também podem ser avaliadas quanto aos seus efeitos na coagulação do sangue. Numerosos ensaios para avaliar essa actividade são familiares aos experimentados na área, incluindo os ensaios revelados nas referências seguintes: Linet et al., J. Clin. Pharmacol. 26: 131-140, 1986; Burdick et al., Thrombosis Res. 45: 413-419, 1987; Humphrey et al., Fibrinolysis 5: 71-79, 1991; Schaub, Prostaglandins 35: 467-474, 1988.
Em seguida, as proteínas que estão envolvidas na regulação da coagulação do sangue podem ser formuladas como agentes farmacêuticos e utilizadas para tratar estados clínicos nos quais a regulação da coagulação do sangue é benéfica. Por exemplo, uma proteína da invenção também pode exibir actividade hemostática ou trombolítica. Em resultado, espera-se que essa proteína seja útil no tratamento de várias perturbações da coagulação (incluindo 116 perturbações hereditárias, como hemofilias) ou que intensifique a coagulação e outros acontecimentos hemostáticos no tratamento de feridas resultantes de traumatismo, cirurgia ou outras causas. Uma proteína da invenção também pode ser útil para dissolver ou inibir a formação de tromboses e para o tratamento e prevenção de estados daí resultantes (como enfarte de vasos sanguíneos cardíacos e do sistema nervoso central (por exemplo, acidente vascular cerebral)). Alternativamente, como descrito mais pormenorizadamente abaixo, genes que codificam proteínas com actividade de coagulação do sangue ou ácidos nucleicos que regulam a expressão dessas proteínas podem ser introduzidos em células-hospedeiro apropriadas para aumentar ou diminuir, consoante o desejado, a expressão das proteínas. EXEMPLO 39
Avaliação das Proteínas Expressas a Partir de cDNAs Estendidos, ou Respectivas Porções, Quanto ao Envolvimento em Interacções Receptor/Ligando As proteínas codificadas pelos cDNAs estendidos, ou respectiva porção, também podem ser avaliadas quanto ao seu envolvimento em interacções receptor/ligando. Numerosos ensaios para avaliar esse envolvimento são familiares aos experimentados na área, incluindo os ensaios revelados nas referências seguintes: Capítulo 7, 7.28.1-7.28.22 em "Current Protocols in Immunology", Coligan et al., Editores, Greene Publishing Associates e Wiley-
Interscience; Takai et al., Proc. Natl. Acad. Sei. USA 84: 6864-6868, 1987; Bierer et al., J. Exp. Med. 168: 1145- 1156, 1988; Rosenstein et al., J. Exp. Med. 169: 149-160, 1989; Stoltenborg et al., J. Immunol. Methods 175: 59-68, 117 1994; Stitt et al., Cell 80: 661-670, 1995; Gyuris et al., Cell 75: 791-803, 1993.
Por exemplo, as proteínas codificadas por cDNAs estendidos derivados das 5' ESTs da presente invenção também podem manifestar actividade como receptores, ligandos de receptores ou inibidores ou agonistas de interacções receptor/ligando. Exemplos desses receptores e ligandos incluem, sem limitação, receptores de citoquinas e seus ligandos, quinases receptoras e seus ligandos, fosfatases receptoras e seus ligandos, receptores envolvidos em interacções célula-célula e seus ligandos (incluindo, sem limitação, moléculas de adesão celular (tais como selectinas, integrinas e seus ligandos) e pares receptor/ligando envolvidos na apresentação de antigenes, reconhecimento de antigenes e desenvolvimento de respostas imunológicas celulares e humorais). Receptores e ligandos também são úteis para rastrear potenciais inibidores peptídicos ou de moléculas pequenas da interacção receptor/ ligando relevante. Uma proteína codificada por cDNAs estendidos derivados das 5' ESTs descritas (incluindo, sem limitação, fragmentos de receptores e ligandos) pode, por si própria, ser útil como inibidor de interacções receptor/ligando. Alternativamente, como descrito mais pormenorizadamente abaixo, genes que codificam proteínas envolvidas em interacções receptor/ligando ou ácidos nucleicos que regulam a expressão dessas proteínas podem ser introduzidos em células-hospedeiro apropriadas para aumentar ou diminuir, consoante o desejado, a expressão das proteínas. 118 EXEMPLO 40
Avaliação das Proteínas Expressas a Partir de cDNAs Estendidos, ou Respectivas Porções, Quanto à Actividade
Anti-Inflamatória
As proteínas codificadas pelos cDNAs estendidos, ou respectiva porção, também podem ser avaliadas quanto à actividade anti-inflamatória. Pode obter-se actividade anti-inflamatória fornecendo um estímulo a células envolvidas na resposta inflamatória, inibindo ou promovendo interacções célula-célula (tais como, por exemplo, adesão celular), inibindo ou promovendo a quimiotaxia de células envolvidas no processo inflamatório, inibindo ou promovendo a extravasação celular ou estimulando ou suprimindo a produção de outros factores que inibem ou promovem, mais directamente, uma resposta inflamatória. As proteínas que exibem essas actividades podem ser utilizadas para tratar estados inflamatórios incluindo estados crónicos ou aqudos, incluindo, sem limitação, inflamação associada a infecção (como choque séptico, sepsia ou síndroma da resposta inflamatória sistémica), isquemia-lesão de reperfusão, letalidade de endotoxinas, artrite, rejeição hiper-aguda mediada pelo complemento, nefrite, lesão do pulmão induzida por citoquinas ou quimioquinas, doença inflamatória do intestino, doença de Crohn ou resultante da super-produção de citoquinas, como TNF ou IL-1. Proteínas da invenção também podem ser úteis para tratar anafilaxia e hipersensibilidade a uma substância ou material antigénico. Alternativamente, como descrito mais pormenorizadamente abaixo, genes que codificam proteínas com actividade anti-inflamatória ou ácidos nucleicos que regulam a expressão dessas proteínas podem ser introduzidos em células-hospedeiro apropriadas para aumentar ou diminuir, consoante o desejado, a expressão das proteínas. 119 EXEMPLO 41
Avaliação das Proteínas Expressas a Partir de cDNAs Estendidos, ou Respectivas Porções, Quanto à Actividade de
Inibição de Tumores
As proteínas codificadas pelos cDNAs estendidos, ou respectiva porção, também podem ser avaliadas quanto à actividade de inibição de tumores. Para além das actividades descritas acima para o tratamento ou prevenção imunológica de tumores, uma proteína da invenção pode exibir outras actividades antitumorais. Uma proteína pode inibir o crescimento de tumores directamente ou indirectamente (tal como , por exemplo, via ADCC). Uma proteína pode exibir a sua actividade de inibição de tumores actuando em tecido tumoral ou tecido precursor de tumor, inibindo a formação de tecidos necessários para suportar o crescimento do tumor (tal como, por exemplo, ao inibir a angiogénese), causando a produção de outros factores, agentes ou tipos de células que inibem o crescimento tumoral ou suprimindo, eliminando ou inibindo factores, agentes ou tipos de células que promovem o crescimento de tumores. Alternativamente, como descrito mais pormenorizadamente abaixo, genes proteínas com actividade de inibição de tumores ou ácidos nucleicos que regulam a expressão dessas proteínas podem ser introduzidos em células-hospedeiro apropriadas para aumentar ou diminuir, consoante o desejado, a expressão das proteínas.
Uma proteína da invenção também pode exibir uma ou mais das seguintes actividades ou efeitos adicionais: inibir o crescimento, infecção ou função ou morte de agentes infecciosos, incluindo, sem limitação, bactérias, vírus, fungos e outros parasitas; afectar (suprimir ou intensificar) características corporais, incluindo, sem 120 limitação, altura, peso, cor do cabelo, cor dos olhos, pele, razão entre massa gorda e magra ou pigmentação de outros tecidos ou dimensão ou forma de órgãos ou outras partes do corpo (tal como, por exemplo, aumento ou diminuição dos seios, alteração da forma ou configuração de ossos); afectar biorritmos ou ciclos ou ritmos circadianos; afectar a fertilidade de sujeitos do sexo masculino ou feminino; afectar o metabolismo, catabolismo, anabolismo, processamento, utilização, armazenamento ou eliminação de gorduras dietéticas, lipidos, proteínas, hidratos de carbono, vitaminas, minerais, cofactores ou outro (s) factor(es) ou componente(s) nutricionais; afectar caracteristicas comportamentais, incluindo, sem limitação, apetite, libido, "stress", cognição (incluindo perturbações cognitivas), depressão (incluindo perturbações depressivas) e comportamentos violentos; proporcionar efeitos analgésicos ou outros efeitos de redução da dor; promover a diferenciação e crescimento de células estaminais embrionárias em linhagens diferentes das linhagens hematopoiéticas; actividade hormonal ou endócrina; no caso de enzimas, corrigir deficiências da enzima e tratar perturbações relacionadas com as deficiências; tratamento de perturbações hiperproliferativas (tais como, por exemplo, psoriase); actividade do tipo imunoglobulinas (tal como, por exemplo, a capacidade para se ligar a antigenes ou complemento), e a capacidade para actuar como antigene numa composição de vacina, para dirigir uma resposta imunológica contra essa proteína ou outro material ou entidade que reaja de forma cruzada com essa proteína. Alternativamente, como descrito mais pormenorizadamente abaixo, genes que codificam proteínas envolvidas em qualquer uma das actividades acima mencionadas ou ácidos nucleicos que regulam a expressão dessas proteínas podem 121 ser introduzidos em células-hospedeiro apropriadas para aumentar ou diminuir, consoante o desejado, a expressão das proteínas. EXEMPLO 42
Identificação de Proteínas que Interagem com Polipéptidos Codificados por cDNAs Estendidos Podem identificar-se proteínas que interagem com os polipéptidos codificados por cDNAs derivados das 5' ESTs, ou respectivos fragmentos, tais como proteínas receptoras, utilizando sistemas de dois híbridos, como o Sistema de Dois Híbridos Matchmaker 2 (N° de Catálogo K1604-1, Clontech). Como descrito no manual que acompanha o estojo, que é incorporado aqui por referência, os cDNAs derivados das 5' ESTs, ou respectivos fragmentos, são inseridos num vector de expressão de modo a ficarem na estrutura com DNA que codifica o domínio de ligação de DNA do activador da transcrição de levedura GAL4. Os cDNAs presentes numa biblioteca de cDNA que codificam proteínas que poderão interagir com os polipéptidos codificados pelos cDNAs estendidos, ou respectivas porções, são inseridos num segundo vector de expressão de modo a ficarem na estrutura com DNA que codifica o domínio de activação da GAL4. Os dois plasmídeos de expressão são transformados em levedura e as leveduras são plaqueadas em meio de selecção que selecciona quanto à expressão de marcadores seleccionáveis em cada um dos vectores de expressão, bem como expressão dependente de GAL4 do gene HIS3. Os transformantes capazes de crescer em meio sem histidina são rastreados quanto à expressão de lacZ dependente de GAL4. As células que são positivas na selecção de histidina e no ensaio de lacZ contêm plasmídeos codificadores de proteínas que interagem 122 com o polipéptido codificado pelos cDNAs estendidos, ou respectivas porções.
Alternativamente, pode utilizar-se o sistema descrito em Lustig et ai., Methods in Enzymology 283: 83-99, 1997, e na Patente U.S. N° 5 654 150, para identificar moléculas que interagem com os polipéptidos codificados por cDNAs estendidos. Nesses sistemas realizam-se reacções de transcrição in vítro numa reunião de vectores contendo inserções de cDNA estendido clonadas a jusante de um promotor que conduz a transcrição in vitro. As reuniões resultantes de mRNAs são introduzidas em oócitos de Xenopus laevis. Em seguida, os oócitos são avaliados quanto a uma actividade desejada.
Alternativamente, os produtos reunidos da transcrição in vitro produzidos como descrito acima podem ser traduzidos in vitro. Os produtos reunidos da tradução in vítro podem ser avaliados quanto a uma actividade desejada ou quanto a uma interacção com um polipéptido conhecido.
Podem descobrir-se proteínas ou outras moléculas que interagem com polipéptidos codificados por cDNAs estendidos por uma variedade de técnicas tradicionais. Num método, podem construir-se colunas de afinidade contendo o polipéptido codificado pelo cDNA estendido, ou respectiva porção. Nalgumas versões deste método, a coluna de afinidade contém proteínas quiméricas nas quais a proteína codificada pelo cDNA estendido, ou respectiva porção, está fundida a glutationa S-transferase. Aplica-se na coluna de afinidade uma mistura de proteínas celulares ou reunião de proteínas expressas como descrito acima. Em seguida, as proteínas que interagem com o polipéptido ligado à coluna podem ser isoladas e analisadas em gel de electroforese 2-D, como descrito em Ramunsen et al., Electrophoresis 18: 588-598, 1997. Alternativamente, as proteínas retidas na 123 coluna de afinidade podem ser purificadas por métodos à base de electroforese e ser sequenciadas. Pode utilizar-se o mesmo método para isolar anticorpos, para rastrear produtos de expressão em fagos ou para rastrear anticorpos humanos de expressão em fagos.
Proteínas que interagem com polipéptidos codificados por cDNAs estendidos, ou respectivas porções, também podem ser rastreadas utilizando um Biossensor Óptico, como descrito em Edwards e Leatherbarrow, Analytical Biochemistry 246: 1-6, 1997. A grande vantagem do método é permitir a determinação da taxa de associação entre a proteína e outras moléculas que interagem. Assim, é possível seleccionar especificamente moléculas que interagem com uma taxa de associação elevada ou baixa. Tipicamente, uma molécula alvo é ligada à superfície do sensor (através de uma matriz de carboximetildextrano) e uma amostra de moléculas de teste entra em contacto com as moléculas-alvo. A ligação de uma molécula de teste à molécula alvo provoca uma alteração no índice de refracção e/ou espessura. Esta alteração é detectada pelo Biossensor, desde que ocorra no campo evanescente (que se prolonga por algumas centenas de nanómetros desde a superfície do sensor). Nestes ensaios de rastreio, a molécula alvo pode ser um dos polipéptidos codificados por cDNAs estendidos, ou respectiva porção, e a amostra de teste pode ser uma colecção de proteínas extraídas de tecidos ou células, uma reunião de proteínas expressas, bibliotecas de péptidos e/ou químicos combinatoriais ou péptidos expressos em fagos. Os tecidos ou células de onde são extraídas as proteínas de teste podem ser originários de qualquer espécie.
Noutros métodos, uma proteína alvo é imobilizada e a população de teste consiste numa colecção de polipéptidos 124 únicos codificados pelos cDNAs estendidos ou respectivas porções.
Para estudar a interacção das proteínas codificadas pelos cDNAs estendidos, ou respectivas porções, com fármacos pode utilizar-se o método de microdiálise acoplada a HPLC descrito por Wang et al., Chromatographía 44: 205-208, 1997, ou o método de electroforese capilar de afinidade descrito por Busch et al., J. Chromatogr. 777: 311-328, 1997.
Será apreciado pelos experimentados na área que as proteínas expressas a partir dos cDNAs estendidos ou porções podem ser avaliadas quanto a numerosas actividades para além das especificamente enumeradas acima. Por exemplo, as proteínas expressas podem ser avaliadas quanto a aplicações envolvendo controlo e regulação da inflamação, proliferação ou metástases tumorais, infecção ou outros estados clínicos. Adicionalmente, as proteínas expressas a partir dos cDNAs estendidos, ou respectivas porções, podem ser úteis como agentes nutritivos ou agentes cosméticos.
As proteínas expressas a partir dos cDNAs, ou respectivas porções, podem ser utilizadas para gerar anticorpos capazes de se ligarem especificamente à proteína expressa, ou respectivos fragmentos, como descrito no Exemplo 40 abaixo. Os anticorpos podem ser capazes de se ligarem a uma proteína completa codificada por um cDNA derivado de uma 5' EST, uma proteína madura (isto é, a proteína gerada por clivagem do péptido de sinal) codificada por um cDNA derivado de uma 5' EST ou um péptido de sinal codificado por um cDNA derivado de uma 5' EST. Alternativamente, os anticorpos podem ser capazes de se ligar a fragmentos de pelo menos 10 aminoácidos das proteínas codificadas pelos cDNAs acima. Nalgumas 125 especificações, os anticorpos podem ser capazes de se ligar a fragmentos de pelo menos 15 aminoácidos das proteínas codificadas pelos cDNAs acima. Noutras especificações, os anticorpos podem ser capazes de se ligar a fragmentos de pelo menos 25 aminoácidos das proteínas expressas a partir dos cDNAs estendidos que compreendem pelo menos 25 aminoácidos das proteínas codificadas pelos cDNAs acima. Em especificações suplementares, os anticorpos podem ser capazes de se ligar a fragmentos de pelo menos 40 aminoácidos das proteínas codificadas pelos cDNAs acima. EXEMPLO 43
Produção de um Anticorpo para Uma Proteína Humana Uma proteína ou polipéptido substancialmente puro é isolado das células transfectadas ou transformadas como descrito no Exemplo 30. A concentração da proteína na preparação final é ajustada, por exemplo, por concentração num dispositivo de filtração Amicon, para o nível de alguns μg/ml. Em seguida, podem preparar-se anticorpos monoclonais ou policlonais para a proteína do modo seguinte. 1. Produção de Anticorpos Monoclonais por Fusão de Hibridomas
Podem preparar-se anticorpos monoclonais para epítopos de qualquer um dos péptidos identificados e isolados como descrito a partir de hibridomas murinos de acordo com o método clássico de Kohler e Milstein, Nature 256: 495, 1975, ou métodos derivados. Em resumo, um ratinho é repetidamente inoculado com alguns microgramas da proteína seleccionada, ou péptidos derivados, durante um período de algumas semanas. O ratinho é seguidamente sacrificado e as células produtoras de anticorpos do baço são isoladas. As células do baço são fundidas, através de polietilenoglicol, 126 a células de mieloma de ratinho, e o excesso de células não fundidas é destruído por desenvolvimento do sistema em meio selectivo compreendendo aminopterina (meio HAT) . Diluem-se as células fundidas com êxito e colocam-se aliquotas da diluição em cavidades de uma placa de microtitulo, onde se continua o desenvolvimento da cultura. Identificam-se clones produtores de anticorpos por detecção de anticorpos no fluido sobrenadante das cavidades utilizando procedimentos de imunoensaio, como ELISA, como foi originalmente descrito por Engvall, Meth. Enzymol. 70: 419, 1980, e métodos derivados. Podem expandir-se os clones positivos seleccionados e recolher o seu produto de anticorpos monoclonais para utilização. Procedimentos pormenorizados para a produção de anticorpos monoclonais são descritos em Davis et ai., em "Basic Methods in Molecular Biology", Elsevier, Nova Iorque, Secção 21-2. 2. Produção de Anticorpos Policlonais por Imunização
Pode preparar-se anti-soro policlonal contendo anticorpos para epitopos heterogéneos de uma única proteína imunizando animais adequados com a proteína expressa ou péptidos derivados, que podem não ser modificados ou ser modificados para aumentar a imunogenicidade. A produção eficaz de anticorpos policlonais é afectada por muitos factores relacionados com o antigene e a espécie hospedeiro. Por exemplo, moléculas pequenas tendem a ser menos imunogénicas do que outras e podem requerer a utilização de transportadores e adjuvantes. A resposta dos animais-hospedeiro também varia, dependendo do sitio da inoculação e das doses, em que doses inadequadas ou excessivas do antigene resultam em anti-soros de títulos baixos. Doses pequenas (nível de ng) de antigene administradas em múltiplos sítios intradérmicos parecem ser 127 o procedimento mais fiável. Pode encontrar-se um protocolo de imunização eficaz para coelhos em Vaitukaitis et al., J. Clin. Endocrinol. Metab. 33: 988-991 (1971).
Podem administrar-se injecções de reforço em intervalos regulares e pode recolher-se o anti-soro quando o seu titulo de anticorpos começa a diminuir, o que é determinado semi-quantitativamente, por exemplo, por imunodifusão dupla em agar contra concentrações conhecidas do antigene. Ver, por exemplo, Ouchterlony et al., Capitulo 19 em: "Handbook of Experimental Immunology", D. Wier (editor) Blackwell (1973). A concentração de patamar do anticorpo situa-se habitualmente na gama de 0,1 até 0,2 mg/ml de soro (cerca de 12 μΜ). Determina-se a afinidade dos anti-soros para o antigene preparando curvas de ligação competitiva, como descrito, por exemplo, por Fisher, D., Capitulo 42 em: "Manual of Clinicai Immunology", 2a Edição (Rose e Friedman, Editores) Amer. Soc. for Microbiol., Washington, D.C. (1980).
Preparações de anticorpos produzidas de acordo com qualquer um dos protocolos são úteis em imunoensaios quantitativos que determinam concentrações de substâncias com antigenes em amostras biológicas; também são utilizadas semi-quantitativamente ou qualitativamente para identificar a presença de antigenes numa amostra biológica. Os anticorpos também podem ser utilizados em composições terapêuticas para matar células que expressam a proteína ou reduzir os níveis da proteína no corpo. V. Utilização de 5' ESTs, ou de Sequências Obtidas Daquelas, ou Respectivas Porções, como Reagentes
As 5' ESTs da presente invenção (ou cDNAs ou DNAs genómicos obtidos daquelas) podem ser utilizadas como reagentes em procedimentos de isolamento, ensaios de 128 diagnóstico e procedimentos forenses. Por exemplo, sequências das 5' ESTs (ou cDNAs ou DNAs genómicos obtidos daquelas) podem ser etiquetadas de forma detectável e utilizadas como sondas para isolar outras sequências capazes de hibridizar para elas. Adicionalmente, sequências de 5' ESTs (ou cDNAs ou DNAs genómicos obtidos daquelas) podem ser utilizadas para conceber "primers" de PCR a serem utilizados em procedimentos de isolamento, diagnóstico ou forenses. 1. Utilização de 5' ESTs, ou de Sequências Obtidas Daquelas, ou Respectivas Porções, em Procedimentos de Isolamento, Diagnóstico e Forenses EXEMPLO 44
Preparação de "Primers" de PCR e Amplificação de DNA
As sequências 5' ESTs (ou cDNAs ou DNAs genómicos obtidos daquelas) podem ser utilizadas para preparar "primers" de PCR para uma variedade de aplicações, incluindo procedimentos de isolamento para clonar ácidos nucleicos capazes de hibridizar para essas sequências, técnicas de diagnóstico e técnicas forenses. Os "primers" de PCR têm pelo menos 10 bases e, preferivelmente, 12, 15 ou 17 bases de comprimento. Mais preferivelmente, os "primers" de PCR têm pelo menos 20-30 bases de comprimento. Nalgumas especificações, os "primers" de PCR podem ter mais de 30 bases de comprimento. É preferido que os pares de "primers" tenham aproximadamente a mesma razão G/C, para que as temperaturas de fusão sejam aproximadamente as mesmas. Uma variedade de técnicas de PCR é familiar aos experimentados na área. Para uma revisão da tecnologia de PCR ver "Molecular Cloning to Genetic Engineering", White, Editor, em: Methods in Molecular Biology 67; Humana Press, 129
Totowa 1997. Em cada um destes procedimentos de PCR, "primers" de PCR de cada lado das sequências de ácido nucleico a serem amplificadas são adicionados a uma amostra de ácido nucleico adequadamente preparada juntamente com dNTPs e uma polimerase termicamente estável, como Taq polimerase, Pfu polimerase ou Vent polimerase. 0 ácido nucleico presente na amostra é desnaturado e os "primers" de PCR são especificamente hibridizados para sequências de ácido nucleico complementares presentes na amostra. Os "primers" hibridizados são estendidos. Depois inicia-se outro ciclo de desnaturação, hibridização e extensão. Repetem-se os ciclos múltiplas vezes para produzir um fragmento amplificado contendo a sequência do ácido nucleico entre os sítios dos "primers". EXEMPLO 45
Utilização de 5' ESTs como Sondas Sondas derivadas de 5' ESTs (ou cDNAs ou DNAs genómicos obtidos daquelas), incluindo cDNAs completos ou sequências genómicas, podem ser etiquetadas com etiquetas detectáveis familiares aos experimentados na área, incluindo isótopos radioactivos e etiquetas não radioactivas, para dar origem a uma sonda detectável. A sonda detectável pode ter filamentação simples ou filamentação dupla e pode ser preparada utilizando técnicas conhecidas na área, incluindo transcrição in vitro, tradução por cortes ou reacções de quinases. Uma amostra de ácido nucleico contendo uma sequência capaz de hibridizar para a sonda detectável é contactada com a sonda etiquetada. Se o ácido nucleico presente na amostra tiver filamentação dupla, pode ser desnaturado antes do contacto com a sonda. Nalgumas aplicações, a amostra de ácido nucleico pode ser imobilizada numa superfície, como uma membrana de 130 nitrocelulose ou nylon. A amostra de ácido nucleico pode compreender ácidos nucleicos obtidos de uma variedade de fontes, incluindo DNA genómico, bibliotecas de cDNA, RNA ou amostras de tecidos.
Os procedimentos utilizados para detectar a presença de ácidos nucleicos capazes de hibridizar para a sonda detectável incluem técnicas bem conhecidas, como coloração "Southern", coloração "Northern", coloração em pontos, hibridização de colónias e hibridização em placas. Nalgumas aplicações, o ácido nucleico capaz de hibridizar para a sonda etiquetada pode ser clonado em vectores, como vectores de expressão, vectores de sequenciação ou vectores de transcrição in vitro, para facilitar a caracterização e expressão dos ácidos nucleicos que hibridizam presentes na amostra. Por exemplo, essas técnicas podem ser utilizadas para isolar e clonar sequências, numa biblioteca genómica ou biblioteca de cDNA, que são capazes de hibridizar para a sonda detectável, como descrito no Exemplo 30 acima.
Os "primers" de PCR preparados como descrito no Exemplo 44 acima podem ser utilizados em análises forenses, como as técnicas de obtenção de impressões digitais de DNA descritas nos Exemplos 46-50 abaixo. Essas análises podem utilizar sondas detectáveis ou "primers" baseados nas sequências das 5' ESTs ou de cDNAs ou DNAs genómicos isolados utilizando as 5' ESTs. EXEMPLO 46
Correspondência Forense por Sequenciação de DNA
Num método exemplificativo, amostras de DNA são isoladas de espécimes forenses, por exemplo, de cabelo, sémen, sangue ou células da pele, por métodos convencionais. Em seguida utiliza-se, de acordo com o Exemplo 44, um painel de "primers" de PCR com base em 131 algumas das 5' ESTs do Exemplo 25, ou cDNAs ou DNAs genómicos isolados daquelas como descrito acima, para amplificar DNA do espécime forense com comprimento, aproximadamente, de 100-200 bases. Obtêm-se sequências correspondentes de um sujeito de teste. Cada um destes DNAs de identificação é então sequenciado, utilizando técnicas comuns, e uma simples comparação de bases de dados determina as diferenças, se existirem, entre as sequências do sujeito e as da amostra. Diferenças estatisticamente significativas entre as sequências de DNA do suspeito e as da amostra demonstram, de forma conclusiva, ausência de identidade. Esta ausência de identidade pode ser demonstrada, por exemplo, apenas com uma sequência. Por outro lado, a identidade deve ser demonstrada com um grande número de sequências, todas correspondentes. Preferivelmente, utiliza-se um mínimo de 50 sequências estatisticamente idênticas com 100 bases de comprimento para provar a identidade entre o suspeito e a amostra. EXEMPLO 47
Identificação Positiva por Sequenciação de DNA A técnica esboçada no exemplo anterior também pode ser utilizada, numa escala maior, para fornecer uma identificação única do tipo impressão digital de qualquer indivíduo. Nesta técnica preparam-se "primers" a partir de um grande número de sequências 5' EST do Exemplo 25, ou de sequências de cDNA ou DNA genómico obtidas daquelas. Preferivelmente, utilizam-se 20 até 50 "primers" diferentes. Utilizam-se estes "primers" para obter um número correspondente de segmentos de DNA gerados por PCR do indivíduo em questão, de acordo com o Exemplo 44. Cada um destes segmentos de DNA é sequenciado utilizando os métodos apresentados no Exemplo 46. A base de dados de 132 sequências gerada através deste procedimento identifica de forma única o indivíduo de onde se obtiveram as sequências. Em seguida, o mesmo painel de "primers" pode ser utilizado, em qualquer altura posterior, para correlacionar de forma absoluta tecido, ou outro espécime biológico, com esse indivíduo. EXEMPLO 48
Identificação Forense por Coloração "Southern"
Repete-se o procedimento do Exemplo 47 para obter um painel de pelo menos 10 sequências amplificadas de um indivíduo e um espécime. Preferivelmente, o painel contém pelo menos 50 sequências amplificadas. Mais preferivelmente, o painel contém 100 sequências amplificadas. Nalgumas especificações o painel contém 200 sequências amplificadas. Em seguida, este DNA gerado por PCR é digerido com uma ou com uma combinação, preferivelmente, de enzimas de restrição específicas para quatro bases. Essas enzimas estão comercialmente disponíveis e são conhecidas dos experimentados na área. Após a digestão, os fragmentos de genes resultantes são separados por dimensão, em múltiplas cavidades em duplicado, num gel de agarose e são transferidos para nitrocelulose utilizando técnicas de coloração "Southern" bem conhecidas dos experimentados na área. Para uma revisão de coloração "Southern" ver Davis et al. ("Basic Methods in Molecular Biology", 1986, Elsevier Press, páginas 62-65) .
Um painel de sondas baseadas nas sequências de 5' ESTs (ou cDNAs ou DNAs genómicos obtidos daquelas), ou respectivos fragmentos com pelo menos 10 bases, é etiquetado de forma radioactiva ou colorimétrica utilizando métodos conhecidos na área, como tradução por cortes ou etiquetagem das extremidades, e é hibridizado para a 133 coloração "Southern" utilizando técnicas conhecidas na área (Davis et al.f supra). Preferivelmente, a sonda compreende pelo menos 12, 15 ou 17 nucleótidos consecutivos das 5' ESTs (ou cDNAs ou DNAs genómicos obtidos daquelas) . Mais preferivelmente, a sonda compreende pelo menos 20-30 nucleótidos consecutivos das 5' ESTs (ou cDNAs ou DNAs genómicos obtidos daquelas). Nalgumas especificações, a sonda compreende mais de 30 nucleótidos das 5' ESTs (ou cDNAs ou DNAs genómicos obtidos daquelas).
Preferivelmente, utilizam-se pelo menos 5 até 10 destas sondas etiquetadas e, mais preferivelmente, utilizam-se pelo menos cerca de 20 ou 30, para fornecer um padrão único. As bandas resultantes que surgem da hibridização de uma amostra grande de 5' ESTs (ou cDNAs ou DNAs genómicos obtidos daquelas) formarão um identificador único. Uma vez que a clivagem por enzimas de restrição será diferente para cada indivíduo, o padrão de bandas da coloração "Southern" também será único. Aumentar o número de sondas de 5' ESTs (ou cDNAs ou DNAs genómicos obtidos daquelas) proporcionará um nível de confiança da identificação estatisticamente mais elevado, uma vez que existirá um número acrescido de conjuntos de bandas utilizado para a identificação. EXEMPLO 49
Procedimento de Identificação por Coloração em Pontos Outra técnica para identificar indivíduos utilizando as sequências 5' ESTs reveladas aqui utiliza uma técnica de hibridização com coloração em pontos.
Isola-se DNA genómico de núcleos do sujeito a ser identificado. Sintetizam-se sondas oligonucleotídicas de, aproximadamente, 30 pares de bases de comprimento que correspondem a pelo menos 10, preferivelmente 50 sequências das 5' ESTs ou cDNAs ou DNAs genómicos obtidos daquelas. 134
Utilizam-se as sondas para hibridizar para o DNA genómico em condições conhecidas dos experimentados na área. Os oligonucleótidos são etiquetados nas extremidades com 32P utilizando polinucleótido quinase (Pharmacia). Criam-se colorações em pontos dispondo em manchas o DNA genómico em nitrocelulose ou afins, utilizando um aparato de coloração em pontos com vácuo (BioRad, Richmond Califórnia). 0 filtro de nitrocelulose contendo as sequências genómicas é cozido ou ligado por UV ao filtro, é pré-hibridizado e hibridizado com sonda etiquetada utilizando técnicas conhecidas na área (Davis et al., supra). Os fragmentos de DNA etiquetados com 32P são hibridizados sequencialmente com condições sucessivamente restritas, para detectar diferenças mínimas entre a sequência de 30 pares de bases e o DNA. O cloreto de tetrametilamónio é útil para identificar clones contendo pequenos números de falta de correspondência de nucleótidos (Wood et al., Proc. Natl. Acad. Sei. USA 82(6): 1585-1588, 1985). Um padrão único de pontos distingue um indivíduo de outro indivíduo.
Sequências 5' EST (ou cDNAs ou DNAs genómicos obtidos daquelas) ou oligonucleótidos contendo pelo menos 10 bases consecutivas destas sequências podem ser utilizados como sondas na seguinte técnica alternativa de obtenção de impressões digitais. Preferivelmente, a sonda compreende pelo menos 12, 15 ou 17 nucleótidos consecutivos das sequências 5' EST (ou cDNAs ou DNAs genómicos obtidos daquelas) . Mais preferivelmente, a sonda compreende pelo menos 20-30 nucleótidos consecutivos das sequências 5' EST (ou cDNAs ou DNAs genómicos obtidos daquelas). Nalgumas especificações, a sonda compreende mais de 30 nucleótidos das sequências 5' EST (ou cDNAs ou DNAs genómicos obtidos daquelas). 135
Preferivelmente, na técnica alternativa de obtenção de impressões digitais utiliza-se uma pluralidade de sondas com sequências de diferentes genes. 0 Exemplo 50 abaixo fornece um procedimento alternativo e representativo de obtenção de impressões digitais, no qual as sondas derivam de 5' ESTs. EXEMPLO 50 Técnica Alternativa de Identificação de "Impressões
Digitais"
Preparam-se oligonucleótidos 20-meros a partir de um número grande, por exemplo, 50, 100 ou 200, de 5' ESTs utilizando serviços de oligonucleótidos comercialmente disponíveis, como os fornecidos pela Genset, Paris, França. Amostras de células do sujeito de teste são processadas quanto ao DNA utilizando técnicas bem conhecidas dos experimentados na área. O ácido nucleico é digerido com enzimas de restrição, como EcoRI e Xbal. Após a digestão, as amostras são aplicadas em cavidades para fins de electroforese. O procedimento, tal como é conhecido na área, pode ser modificado para acomodar electroforese em poliacrilamida; no entanto, neste exemplo, amostras contendo 5 pg de DNA são colocadas em cavidades e separadas em géis de agarose 0,8%. Os géis são transferidos para nitrocelulose utilizando técnicas comuns de coloração "Southern" .
Dez nanogramas de cada um dos oligonucleótidos são reunidos e etiquetados nas extremidades com 32P. A nitrocelulose é pré-hibridizada com solução de bloqueio e hibridizada com as sondas etiquetadas. Após hibridizaçâo e lavagem, o filtro de nitrocelulose é exposto a filme de raios X X-Omat AR. O padrão de hibridizaçâo resultante será único para cada indivíduo. 136 É adicionalmente contemplado neste exemplo que o número utilizado de sequências de sondas possa variar, por motivos de exactidão ou clareza adicional.
As proteínas codificadas pelos cDNAs estendidos também podem ser utilizadas para gerar anticorpos, como explicado nos Exemplos 30 e 43, com a finalidade de identificar o tipo de tecido ou espécie de célula de onde deriva uma amostra, como descrito no Exemplo 51. EXEMPLO 51
Identificação de Tipos de Tecidos ou Espécies de Células Através de Anticorpos Etiquetados Específicos para Tecidos
Procede-se à identificação de tecidos específicos visualizando antigenes específicos para tecidos através de preparações de anticorpos de acordo com os Exemplos 30 e 43, que são conjugados, directa ou indirectamente, a um marcador detectável. Espécies seleccionadas de anticorpos etiquetados ligam-se ao seu parceiro específico de ligação de antigenes em secções de tecidos, suspensões de células ou em extractos de proteínas solúveis de uma amostra de tecido, dando origem a um padrão para interpretação qualitativa ou semi-qualitativa.
Os anti-soros para estes procedimentos devem ter uma potência superior à da preparação nativa; por esse motivo, os anticorpos são concentrados, para um nível de mg/ml, por isolamento da fracção de gamaglobulina, por exemplo, utilizando cromatografia de permuta iónica ou fraccionamento em sulfato de amónio. Além disso, para se obterem os anti-soros mais específicos, os anticorpos indesejados, por exemplo, para proteínas comuns, devem ser removidos da fracção de gamaglobulina, por exemplo, através de imunoabsorventes insolúveis, antes dos anticorpos serem 137 etiquetados com o marcador. Anti-soros monoclonais ou heterólogos são adequados para qualquer um dos procedimentos. A. Técnicas imuno-histoquímicas
Anticorpos purificados com titulo elevado, preparados como descrito acima, são conjugados a um marcador detectável, tal como descrito, por exemplo, por Fudenberg, Capitulo 26 em: "Basic and Clinicai Immunology", 3a Edição, Lange, Los Altos, Califórnia, 1980, ou Rose et al., Capitulo 12 em: "Methods in Immunodiagnosis" 2a Edição, John Wiley and Sons, Nova Iorque (1980) . É preferido um marcador fluorescente, fluoresceina ou rodamina, mas os anticorpos também podem ser etiquetados com uma enzima que suporte uma reacção produtora de cor com um substrato, como peroxidase de rábano bravo. Os marcadores podem ser adicionados ao anticorpo ligado ao tecido num segundo passo, como descrito abaixo. Alternativamente, os anticorpos anti-tecido específicos podem ser etiquetados com ferritina, ou outras partículas com elevada densidade electrónica, e a localização dos complexos antigene-anticorpo acoplados a ferritina é efectuada com um microscópio electrónico. Ainda noutra abordagem, os anticorpos são etiquetados de forma radioactiva, por exemplo, com 125I, e são detectados recobrindo a preparação tratada com anticorpo com emulsão fotográfica.
As preparações para implementar os procedimentos podem compreender anticorpos monoclonais ou policlonais para uma única proteína ou péptido identificados como sendo específicos para um tipo de tecido, por exemplo, tecido do cérebro, ou então preparações de anticorpos para vários antigenes específicos para tecidos antigenicamente 138 distintos podem ser utilizadas em painéis, independentemente ou em misturas, consoante o requerido.
Preparam-se secções de tecidos e suspensões de células para exame imuno-histoquímico de acordo com técnicas histológicas comuns. Montam-se múltiplas secções criostáticas (cerca de 4 μπι, não fixadas) do tecido desconhecido e controlo conhecido e recobre-se cada lâmina com diferentes diluições da preparação de anticorpos. As secções de tecido conhecido e desconhecido também devem ser tratadas com preparações para fornecer um controlo positivo, um controlo negativo, por exemplo, soros pré-imunológicos, e um controlo para coloração inespecifica, por exemplo, tampão.
As secções tratadas são incubadas numa câmara húmida durante 30 minutos à temperatura ambiente, são enxaguadas e depois lavadas em tampão durante 30-45 minutos. Remove-se a coloração do fluido em excesso e desenvolve-se o marcador.
Se o anticorpo especifico para tecidos não tiver sido etiquetado na primeira incubação, pode ser etiquetado nesta altura numa segunda reacção anticorpo-anticorpo, por exemplo, adicionando anticorpo conjugado a fluoresceina ou enzima contra a classe de imunoglobulinas da espécie produtora do anti-soro, por exemplo, anticorpo etiquetado com fluoresceina para IgG de ratinho. Esses soros etiquetados estão comercialmente disponíveis. O antigene encontrado nos tecidos pelo procedimento acima pode ser quantificado medindo a intensidade da cor ou fluorescência na secção de tecido e calibrando esse sinal utilizando padrões apropriados. B. Identificação de proteínas solúveis específicas de tecidos A visualização de proteínas específicas de tecidos e a identificação de tecidos desconhecidos através desse 139 procedimento são efectuadas utilizando os reagentes de anticorpos etiquetados e a estratégia de detecção como descrita para imuno-histoquímica; no entanto, a amostra é preparada de acordo com uma técnica electroforética, para distribuir as proteínas extraídas do tecido numa série ordenada, com base no peso molecular, para a detecção.
Uma amostra de tecido é homogeneizada utilizando um aparato Virtis; as suspensões de células são desagregadas por homogeneização Dounce ou lise osmótica, utilizando detergentes, em qualquer um dos casos, consoante o necessário para desagregar membranas celulares, como é prática corrente na área. Os componentes celulares insolúveis, como núcleos, microssomas e fragmentos membranares, são removidos por ultra-centrifugação; a fracção contendo proteínas solúveis é concentrada, se necessário, e é reservada para análise.
Uma amostra da solução de proteínas solúveis é resolvida em espécies proteicas individuais por electroforese convencional em SDS poliacrilamida, como descrito, por exemplo, por Davis et al.f Secção 19-2 em: "Basic Methods in Molecular Biology", Leder, editor, Elsevier, Nova Iorque, 1986, utilizando uma gama de quantidades de poliacrilamida num conjunto de géis para resolver a gama completa de pesos moleculares de proteínas a serem detectadas na amostra. Um marcador de tamanhos é processado em paralelo para estimar os pesos moleculares das proteínas constituintes. A dimensão da amostra para análise consiste num volume conveniente de 5 até 55 μΐ, e contém desde cerca de 1 até 100 μρ de proteínas. Transfere-se uma alíquota de cada uma das proteínas resolvidas por coloração num papel de filtro de nitrocelulose, um processo que mantém o padrão de resolução. Preparam-se múltiplas cópias. O procedimento, conhecido como Análise de Coloração 140 "Western", está extensamente descrito em Davis, L., et ai., supra, Secção 19-3. Um conjunto de manchas na nitrocelulose é corado com o corante azul de Coomassie, com a finalidade de visualizar o conjunto completo de proteínas para comparação com as proteínas ligadas aos anticorpos. Os filtros remanescentes de nitrocelulose são seguidamente incubados com uma solução de um ou mais anti-soros específicos para proteínas específicas de tecidos, preparada como descrito nos Exemplos 30 e 43. Neste procedimento, tal como no procedimento A acima, são processadas amostras positivas e negativas apropriadas e controlos de reagentes.
Em qualquer um dos procedimentos A ou B, uma etiqueta detectável pode ser ligada ao complexo antigene de tecido primário-anticorpo primário de acordo com várias estratégias e respectivas permutações. Numa abordagem directa, o anticorpo específico primário pode ser etiquetado; alternativamente, ao complexo não etiquetado pode ligar-se um anticorpo secundário anti-lgG etiquetado. Noutras abordagens, o anticorpo primário ou secundário é conjugado a uma molécula de biotina que pode, num passo subsequente, ligar-se a um marcador conjugado com avidina. De acordo ainda com outra estratégia, proteína A etiquetada com enzima ou radioactiva, que tem a propriedade de se ligar a qualquer IgG, liga-se, num passo final, ao anticorpo primário ou secundário. A visualização da ligação de antigenes específicos de tecidos, em níveis superiores aos observados em tecidos de controlo, a um ou mais anticorpos específicos para tecidos, preparados a partir das sequências genéticas identificadas a partir de sequências de cDNA estendido, pode identificar tecidos de origem desconhecida, por exemplo, amostras 141 forenses, ou tecido tumoral diferenciado que provocou a formação de metástases em sítios corporais estranhos.
Para além das suas aplicações nas áreas forense e de identificação, 5' ESTs (ou cDNAs ou DNAs genómicos obtidos daquelas) podem ser mapeadas quanto às suas localizações cromossómicas. 0 Exemplo 52 abaixo descreve o mapeamento de híbridos radioactivos (RH) de regiões cromossómicas humanas utilizando 5' ESTs. 0 Exemplo 53 abaixo descreve um procedimento representativo para o mapeamento de uma 5' EST na sua localização num cromossoma humano. 0 Exemplo 54 abaixo descreve o mapeamento de 5' ESTs em cromossomas na metafase por Hibridização In Situ por Fluorescência (FISH). Os experimentados na área apreciarão que o método dos Exemplos 52-54 também pode ser utilizado para mapear cDNAs ou DNAs genómicos, obtidos das 5' ESTs, nas suas localizações cromossómicas. 2. Utilização de 5' ESTs, ou de Sequências Obtidas Daquelas, ou Respectivas Porções, no Mapeamento Cromossómico EXEMPLO 52
Mapeamento de Híbridos Radioactivos de 5' ESTs no Genoma
Humano 0 mapeamento de híbridos radioactivos é uma abordagem genética de células somáticas que pode ser utilizada para o mapeamento de alta resolução do genoma humano. Nesta abordagem, linhas de células contendo um ou mais cromossomas humanos são irradiadas de forma letal, separando cada cromossoma em fragmentos cuja dimensão depende da dose da radiação. Estes fragmentos são resgatados por fusão com células cultivadas de roedores, dando origem a subclones contendo diferentes porções do 142 genoma humano. Esta técnica é descrita por Benham et al., Genomics 4: 509-517, 1989, e Cox et al., Science 250: 245-250, 1990. A natureza aleatória e independente dos subclones permite o mapeamento eficiente de qualquer mercador do genoma humano. DNA humano isolado de um painel de 80-100 linhas de células proporciona um reagente de mapeamento para ordenar 5' ESTs. Nesta abordagem utiliza-se a frequência da separação entre marcadores para medir a distância, permitindo construir mapas de resolução fina tal como foi feito utilizando ESTs convencionais (Schuler et al., Science 274: 540-546, 1996). O mapeamento de RH foi utilizado para gerar um mapa de híbridos radioactivos de alta resolução do genoma completo do cromossoma humano 17q22-q25.3 através dos genes para a hormona de crescimento (GH) e timidina quinase (TK) (Foster et al., Genomics 33: 185-192, 1996), a região que envolve o gene da síndroma de Gorlin (Obermayr et al., Eur. J. Hum. Genet. 4: 242-245, 1996), 60 loci abrangendo todo o braço curto do cromossoma 12 (Raeymaekers et al., Genomics 29: 170-178, 1995) , a região do cromossoma humano 22 contendo o locus da neurofibromatose de tipo 2 (Frazer et al., Genomics 14: 574-584, 1992) e 13 loci no braço longo do cromossoma 5 (Warrington et al., Genomics 11: 701-708, 1991). EXEMPLO 53
Mapeamento de 5' ESTs em Cromossomas Humanos Utilizando
Técnicas de PCR 5' ESTs (ou cDNAs ou DNAs genómicos obtidos daquelas) podem ser atribuídas a cromossomas humanos utilizando metodologias à base de PCR. Nessas abordagens, pares de "primers" oligonucleotídicos são concebidos a partir das 5' ESTs (ou cDNAs ou DNAs genómicos obtidos daquelas) para 143 minimizar as hipóteses de amplificação através de um intrão. Preferivelmente, os "primers" oligonucleotidicos têm 18-23 pares de bases de comprimento e são concebidos para amplificação por PCR. A criação de "primers" de PCR a partir de sequências conhecidas é bem conhecida dos experimentados na área. Para uma revisão da tecnologia de PCR ver Erlich em "PCR Technology, Principies and Applications for DNA Amplification", Freeman and Co., Nova Iorque, 1992.
Os "primers" são utilizados em reacções em cadeia de polimerase (PCR) para amplificar modelos a partir de DNA genómico humano total. As condições de PCR são as seguintes: utilizam-se 60 ng de DNA genómico como modelo para PCR com 80 ng de cada "primer" oligonucleotídico, 0,6 unidades de Taq polimerase e 1 de um desoxicitidina trifosfato etiquetado com 32P. A PCR é realizada num aparato de aplicação de ciclos térmicos em microplacas (Techne) nas condições seguintes: 30 ciclos a 94°C, 1,4 minutos; 55°C, 2 minutos, e 72°C, 2 minutos, com uma extensão final a 72°C durante 10 minutos. Os produtos amplificados são analisados num gel de sequenciação de poliacrilamida 6% e são visualizados por autorradiografia. Se o comprimento do produto de PCR resultante for idêntico à distância entre as extremidades das sequências dos "primers" no cDNA estendido de onde derivam os "primers", então a reacção de PCR é repetida com modelos de DNA de dois painéis de híbridos de células somáticas humano-roedor, DNA BIOS PCRable (BIOS Corporation) e Painel de Mapeamento de Híbridos de Células Somáticas Humano-Roedor NIGMS Número 1 (NIGMS, Camden, NJ).
Utiliza-se PCR para rastrear uma série de linhas de células de híbridos de células somáticas, contendo conjuntos definidos de cromossomas humanos, quanto à 144 presença de uma dada 5' EST (ou cDNA ou DNA genómico obtido daquela). 0 DNA é isolado dos híbridos somáticos e é utilizado como modelo de partida para reacções de PCR utilizando os pares de "primers" da 5' EST (ou cDNA ou DNA genómico obtido daquela). Apenas aqueles híbridos de células somáticas com cromossomas contendo o gene humano correspondente à 5' EST (ou cDNA ou DNA genómico obtido daquela) darão origem a um fragmento amplificado. A 5' EST (ou cDNA ou DNA genómico obtido daquela) é atribuída a um cromossoma por análise do padrão de segregação dos produtos de PCR a partir dos modelos de DNA de híbridos somáticos. 0 único cromossoma humano presente em todos os híbridos de células que dão origem a um fragmento amplificado é o cromossoma que contém aquela 5' EST (ou cDNA ou DNA genómico obtido daquela). Para uma revisão de técnicas e análises de resultados de experiências de mapeamento de genes de células somáticas ver Ledbetter et al., Genomics 6: 475-481, 1990. EXEMPLO 54
Mapeamento de 5' ESTs Estendidas em Cromossomas Utilizando Hibridização In Situ por Fluorescência A hibridização in situ por fluorescência permite mapear a 5' EST (ou cDNA ou DNA genómico obtido daquela) numa localização particular num dado cromossoma. Os cromossomas a serem utilizados para técnicas de hibridização in situ por fluorescência podem ser obtidos de uma variedade de fontes, incluindo culturas de células, tecidos ou sangue completo.
Numa especificação preferida, a localização cromossómica de uma 5' EST (ou cDNA ou DNA genómico obtido daquela) é obtida por FISH como descrito por Cherif et al. (Proc. Natl. Acad. Sei. U.S.A. 87: 6639-6643, 1990). 145
Preparam-se cromossomas na metafase a partir de dadores de células sanguíneas estimuladas com fito-hemaglutinina (PHA) . Os linfócitos estimulados com PHA provenientes de indivíduos do sexo masculino saudáveis são cultivados durante 72 horas em meio RPMI-1640. Para a sincronização, adiciona-se metotrexato (10 μΜ) durante 17 horas, seguido da adição de 5-bromodesoxiuridina (5-BrdU, 0,1 mM) durante 6 horas. Adiciona-se colcemida (1 μg/ml) durante os últimos 15 minutos antes da recolha das células. As células são recolhidas, lavadas em RPMI, incubadas com uma solução hipotónica de KC1 (75 mM), a 37°C durante 15 minutos, e fixadas em três mudas de metanol:ácido acético (3:1). A suspensão celular é gotejada numa lâmina de vidro e é seca ao ar. A 5' EST (ou cDNA ou DNA genómico obtido daquela) é etiquetada com biotina-16 dUTP por tradução por cortes, de acordo com as instruções do fabricante (Bethesda Research Laboratories, Bethesda, MD) , é purificada utilizando uma coluna de Sephadex G-50 (Pharmacia, Upsala, Suécia) e precipitada. Imediatamente antes da hibridização, o grânulo de DNA é dissolvido em tampão de hibridização (formamida 50%, 2 X SSC, sulfato de dextrano 10%, 1 mg/ml de DNA de esperma de salmão sonicado, pH 7) e a sonda é desnaturada a 70°C durante 5-10 minutos.
As lâminas mantidas a -20°C são tratadas durante 1 hora, a 37°C, com RNase A (100 μς/ιηΐ) , são enxaguadas três vezes em 2 X SSC e desidratadas numa série de etanol. As preparações cromossómicas são desnaturadas em formamida 70%, 2 X SSC durante 2 minutos a 70°C, depois são desidratadas a 4°C. As lâminas são tratadas com proteinase K (10 μρ/100 ml em Tris-HCl 20 mM, CaCl2 2 mM) a 37°C durante 8 minutos e são desidratadas. A mistura de hibridização contendo a sonda é colocada na lâmina, coberta 146 com uma lamela, selada com cola de borracha e incubada durante a noite numa câmara húmida a 37°C. Após a hibridização e lavagens pós-hibridização, a sonda biotinilada é detectada com avidina-FITC e amplificada com camadas adicionais de anti-avidina de cabra biotinilado e avidina-FITC. Para a localização cromossómica, obtêm-se bandas R fluorescentes como previamente descrito (Cherif et al., supra). As lâminas são observadas num microscópio de fluorescência LEICA (DMRXA). Os cromossomas são contra-corados com iodeto de propidio, e o sinal fluorescente da sonda aparece na forma de duas manchas amarelo-esverdeadas simétricas em ambos os cromatideos do cromossoma da banda R fluorescente (vermelho). Assim, uma 5' EST particular (ou cDNA ou DNA genómico obtido daquela) pode ser localizada numa banda R citogenética particular num dado cromossoma.
Depois das 5' ESTs (ou cDNA ou DNA genómico obtido daquelas) terem sido atribuídas a cromossomas particulares utilizando as técnicas descritas nos Exemplos 52-54 acima, podem ser utilizadas para construir um mapa de alta resolução dos cromossomas onde estão localizadas, ou para identificar os cromossomas presentes numa amostra. EXEMPLO 55
Utilização de 5' ESTs para Construir ou Expandir Mapas
Cromossómicos 0 mapeamento cromossómico envolve atribuir uma dada sequência única a um cromossoma particular, como descrito acima. Depois da sequência única ter sido mapeada num dado cromossoma, é ordenada relativamente a outras sequências únicas localizadas no mesmo cromossoma. Uma abordagem ao mapeamento cromossómico utiliza uma série de cromossomas artificiais de levedura (YACs) com vários milhares de inserções longas derivadas dos cromossomas do organismo de 147 onde se obtêm os cDNAs estendidos (ou DNAs genómicos obtidos daqueles) . Esta abordagem é descrita em Nagaraja et al., Genome Research 7: 210-222, 1997. Em resumo, nesta abordagem, cada cromossoma é separado em porções com sobreposição, que são inseridas no vector de YAC. As inserções de YAC são rastreadas utilizando PCR, ou outros métodos, para determinar se incluem a 5' EST (ou cDNA ou DNA genómico obtido daquela) cuja posição se quer determinar. Depois de se ter encontrado uma inserção que inclui a 5' EST (ou cDNA ou DNA genómico obtido daquela), a inserção pode ser analisada por PCR, ou outros métodos, para determinar se a inserção também contém outras sequências que se sabe estarem localizadas no cromossoma ou na região de onde derivou a 5' EST (ou cDNA ou DNA genómico obtido daquela). Pode repetir-se este processo para cada inserção presente na biblioteca de YAC, para determinar a localização de cada um dos cDNAs estendidos (ou DNAs genómicos obtidos daqueles) entre si e relativamente a outros marcadores cromossómicos conhecidos. Deste modo pode obter-se um mapa de alta resolução da distribuição de numerosos marcadores únicos ao longo de cada um dos cromossomas de organismos.
Como descrito no Exemplo 56 abaixo, cDNAs estendidos (ou DNAs genómicos obtidos daqueles) também podem ser utilizados para identificar genes associados a um fenótipo particular, como doenças hereditárias ou respostas a fármacos. 3. Utilização de 5' ESTs, ou de Sequências Obtidas Daquelas, ou Respectivos Fragmentos, na Identificação de
Genes 148 EXEMPLO 56
Identificação de Genes Associados a Doenças Hereditárias ou
Respostas a Fármacos
Este exemplo ilustra uma abordagem útil para associar 5' ESTs (ou cDNA ou DNA genómico obtido daquelas) a caracteristicas fenotípicas particulares. Neste exemplo, uma 5' EST particular (ou cDNA ou DNA genómico obtido daquela) é utilizada como sonda de teste para associar essa 5' EST (ou cDNA ou DNA genómico obtido daquela) a uma caracteristica fenotipica particular. 5' ESTs (ou cDNA ou DNA genómico obtido daquelas) são mapeadas numa localização particular num cromossoma humano utilizando técnicas como as descritas nos Exemplos 52 e 53, ou outras técnicas conhecidas na área. Uma pesquisa de Hereditariedade Mendeliana no Homem (McKusick em "Mendelian Inheritance in Man" (disponibilizado em rede pela Johns Hopkins University Welch Medicai Library)) revela que a região do cromossoma humano que contém a 5' EST (ou cDNA ou DNA genómico obtido daquela) é uma região muito rica em genes, contendo vários genes conhecidos e várias doenças ou fenótipos para os quais não foram identificados genes. Assim, o gene correspondente a esta 5' EST (ou cDNA ou DNA genómico obtido daquela) torna-se num candidato imediato para cada uma destas doenças genéticas. Células de pacientes com estas doenças ou fenótipos são isoladas e expandidas em cultura. Utilizam-se "primers" de PCR da 5' EST (ou cDNA ou DNA genómico obtido daquela) para rastrear DNA genómico, mRNA ou cDNA obtido dos pacientes. As 5' ESTs (ou cDNA ou DNA genómico obtido daquelas) que não são amplificadas nos pacientes podem ser positivamente associadas a uma doença particular por análise suplementar. Alternativamente, a análise de PCR pode dar origem a fragmentos de diferentes comprimentos quando as amostras 149 derivam de um indivíduo possuindo o fenótipo associado à doença, em vez da amostra derivar de um indivíduo saudável, indicando que o gene que contém a 5' EST pode ser responsável pela doença genética. VI. Utilzação de 5' ESTs (ou cDNA ou DNA Genómico Obtido Daquelas) para Construir Vectores
As presentes 5' ESTs (ou cDNA ou DNA genómico obtido daquelas) também podem ser utilizadas para construir vectores de secreção capazes de dirigir a secreção das proteínas codificadas por genes aí presentes. Esses vectores de secreção podem facilitar a purificação ou enriquecimento das proteínas codificadas por genes aí inseridos ao reduzir o número de proteínas de fundo de onde a proteína desejada deve ser purificada ou enriquecida. Vectores de secreção exemplificativos são descritos no
Exemplo 57 abaixo. 1. Construção de Vectores de Secreção EXEMPLO 57
Construção de Vectores de Secreção
Os vectores de secreção incluem um promotor capaz de dirigir a expressão de genes na célula, tecido ou organismo hospedeiro de interesse. Esses promotores incluem o promotor do Vírus do Sarcoma de Rous, o promotor do SV40, o promotor do citomegalovírus humano e outros promotores familiares aos experimentados na área.
Uma sequência de sinal de uma 5' EST (ou cDNAs ou DNAs genómico obtidos daquela) é operativamente ligada ao promotor de modo que o mRNA transcrito do promotor irá dirigir a tradução do péptido de sinal. A célula, tecido ou organismo hospedeiro pode ser qualquer célula, tecido ou 150 organismo que reconheça o péptido de sinal codificado pela sequência de sinal da 5' EST (ou cDNA ou DNA genómico obtido daquela) . Hospedeiros adequados incluem células, tecidos ou organismos de mamíferos, células, tecidos ou organismos aviários, células, tecidos ou organismos de insectos, ou levedura.
Adicionalmente, o vector de secreção contém sítios de clonagem para inserir genes que codificam as proteínas que devem ser segregadas. Os sítios de clonagem facilitam a clonagem do gene de inserção na estrutura com a sequência de sinal, de modo que uma proteína de fusão na qual o péptido de sinal está fundido à proteína codificada pelo gene inserido é expressa a partir do mRNA transcrito a partir do promotor. O péptido de sinal dirige a secreção extracelular da proteína de fusão. O vector de secreção pode ser DNA ou RNA e pode integrar-se no cromossoma do hospedeiro, ser mantido de forma estável no hospedeiro na forma de um replicão extra-cromossómico, ser um cromossoma artificial ou estar presente no hospedeiro de forma transitória. Muitas colunas vertebrais de ácidos nucleicos adequadas para utilização como vectores de secreção são conhecidas dos experimentados na área, incluindo vectores retrovirais, vectores do SV40, vectores do Vírus Papiloma Bovino, plasmídeos de integração em levedura, plasmídeos epissomais de levedura, cromossomas artificiais de levedura, cromossomas artificiais humanos, vectores do elemento P, vectores de baculovírus ou plasmídeos bacterianos aptos a serem transitoriamente introduzidos no hospedeiro. O vector de secreção também pode conter um sinal poliA de modo que o sinal poliA fique localizado a jusante do gene inserido no vector de secreção. 151
Depois do gene que codifica a proteína para a qual se deseja secreção ser inserido no vector de secreção, o vector de secreção é introduzido na célula, tecido ou organismo hospedeiro utilizando precipitação com fosfato de cálcio, DEAE-Dextrano, electroporação, transfecção mediada por lipossomas, partículas virais ou como DNA nu. A proteína codificada pelo gene inserido é então purificada ou enriquecida a partir do sobrenadante utilizando técnicas convencionais, como precipitação com sulfato de amónio, imunoprecipitação, imunocromatografia, cromatografia de exclusão por tamanhos, cromatografia de permuta iónica e HPLC. Alternativamente, a proteína segregada pode estar presente no sobrenadante ou meio de crescimento do hospedeiro num estado suficientemente enriquecido ou puro para permitir a sua utilização na finalidade pretendida sem enriquecimento suplementar.
As sequências de sinal também podem ser inseridas em vectores concebidos para terapia genética. Nesses vectores, a sequência de sinal é operativamente ligada a um promotor de modo que o mRNA transcrito a partir do promotor codifique o péptido de sinal. Um sítio de clonagem está localizado a jusante da sequência de sinal, de modo que um gene que codifica uma proteína cuja secreção se deseja possa ser facilmente inserido no vector e fundido à sequência de sinal. 0 vector é introduzido numa célula-hospedeiro apropriada. A proteína expressa a partir do promotor é segregada extracelularmente, desse modo produzindo um efeito terapêutico.
As 5' ESTs também podem ser utilizadas para clonar sequências localizadas a montante das 5' ESTs que são capazes de regular a expressão de genes, incluindo sequências promotoras, sequências intensificadoras e outras 152 sequências a montante que influenciem os níveis de transcrição ou tradução. Depois de identificadas e clonadas, estas sequências reguladoras a montante podem ser utilizadas em vectores de expressão concebidos para dirigir a expressão de um gene inserido de uma forma espacial, temporal, relativa ao desenvolvimento ou quantitativa desejada. 0 Exemplo 58 descreve um método para clonar sequências a montante dos cDNAs estendidos ou 5' ESTs. 2. Identificação de Sequências a Montante com Actividades Promotoras ou Reguladoras EXEMPLO 58
Utilização de cDNAs Estendidos ou 5' ESTs para Clonar Sequências a Montante de DNA Genómico Sequências derivadas de cDNAs estendidos ou 5' ESTs podem ser utilizadas para isolar os promotores dos genes correspondentes utilizando técnicas de caminhada cromossómica ("chromosome walking"). Numa técnica de caminhada cromossómica, que utiliza o estojo GenomeWalker™ disponibilizado pela Clontech, cada uma de cinco amostras de DNA genómico completo é digerida com uma enzima de restrição diferente que tem um sítio de reconhecimento de 6 bases e deixa uma extremidade plana. Após a digestão, adaptadores de oligonucleótidos são ligados a cada extremidade dos fragmentos resultantes de DNA genómico.
Para cada uma das cinco bibliotecas de DNA genómico efectua-se uma primeira reacção de PCR, de acordo com as instruções do fabricante, utilizando um "primer" adaptador externo fornecido no estojo e um "primer" específico para genes externo. 0 "primer" específico para genes deve ser seleccionado de modo a ser específico para o cDNA estendido ou 5' EST de interesse e deve ter uma temperatura de fusão, 153 comprimento e localização no cDNA estendido ou 5' EST consistentes com a sua utilização em reacções de PCR. Cada primeira reacção de PCR contém 5 ng de DNA genómico, 5 μΐ de tampão de reacção 10X Tth, 0,2 mM de cada dNTP, 0,2 μΜ de cada "primer" adaptador externo e "primer" especifico para genes externo, 1,1 mM de Mg(OAc)2 e 1 μΐ da mistura 50X de Tth polimerase num volume total de 50 μΐ. O ciclo reaccional para a primeira reacção de PCR é o seguinte: 1 minuto - 94°C / 2 segundos - 94°C, 3 minutos - 72°C (7 ciclos) / 2 segundos - 94°C, 3 minutos - 67°C (32 ciclos) / 5 minutos - 67°C.
O produto da primeira reacção de PCR é diluído e utilizado como modelo para uma segunda reacção de PCR de acordo com as instruções do fabricante, utilizando um par de "primers" encaixados que estão localizados internamente no produto de amplificação resultante da primeira reacção de PCR. Por exemplo, 5 μΐ do produto reaccional da mistura da primeira reacção de PCR podem ser diluídos 180 vezes. As reacções são conduzidas num volume de 50 μΐ com uma composição idêntica à da primeira reacção de PCR, com a excepção de se utilizarem os "primers" encaixados. O primeiro "primer" encaixado é específico para o adaptador e é fornecido com o estojo GenomeWalker™. O segundo "primer" encaixado é específico para o cDNA estendido ou 5' EST particular para o qual deve ser clonado o promotor e deve ter uma temperatura de fusão, comprimento e localização no cDNA estendido ou 5' EST consistentes com a sua utilização em reacções de PCR. Os parâmetros reaccionais da segunda reacção de PCR são os seguintes: 1 minuto - 94°C / 2 segundos - 94°C, 3 minutos - 72°C (6 ciclos) / 2 segundos -94°C, 3 minutos - 67°C (25 ciclos) / 5 minutos - 67°C. O 154 produto da segunda reacção de PCR é purificado, clonado e sequenciado utilizando técnicas comuns.
Alternativamente, podem construir-se duas ou mais bibliotecas de DNA genómico humano utilizando duas ou mais enzimas de restrição. 0 DNA genómico digerido é clonado em vectores que podem ser convertidos em DNA de filamentação simples, circular ou linear. Um oligonucleótido biotinilado compreendendo pelo menos 15 nucleótidos do cDNA estendido ou sequência 5' EST é hibridizado para o DNA de filamentação simples. Os híbridos entre o oligonucleótido biotinilado e o DNA de filamentação simples contendo o cDNA estendido ou sequência EST são isolados como descrito no Exemplo 29 acima. Em seguida, o DNA de filamentação simples contendo o cDNA estendido ou sequência EST é libertado das esférulas e convertido em DNA de filamentação dupla utilizando um "primer" específico para o cDNA estendido ou sequência 5' EST, ou um "primer" correspondente a uma sequência incluída no vector de clonagem. 0 DNA de filamentação dupla resultante é transformado em bactérias. Os DNAs contendo as sequências de 5' EST ou cDNA estendido são identificados por PCR em colónias ou hibridização de colónias.
Depois das sequências genómicas a montante terem sido clonadas e sequenciadas como descrito acima, podem identificar-se possíveis promotores e sítios de início da transcrição nas sequências a montante comparando as sequências a montante dos cDNAs estendidos ou 5' ESTs com bases de dados contendo sítios de início da transcrição, sítios de ligação de factores de transcrição ou sequências promotoras conhecidas. 155
Adicionalmente, podem identificar-se promotores nas sequências a montante utilizando vectores repórter promotores como descrito no Exemplo. EXEMPLO 59
Identificação de Promotores em Sequências a Montante
Clonadas
As sequências genómicas a montante dos cDNAs estendidos ou 5' ESTs são clonadas num vector repórter promotor adequado, como os Vectores Repórter Promotores pSEAP-Basic, pSEAP-Enhancer, pPgal-Basic, pPgal-Enhancer ou pEGFP-1 disponibilizados pela Clontech. Em resumo, cada um destes vectores repórter promotores inclui sitios de clonagem múltipla posicionados a montante de um gene repórter que codifica uma proteina facilmente avaliada, como fosfatase alcalina, β-galactosidase ou proteina fluorescente verde segregadas. As sequências a montante dos cDNAs estendidos ou 5' ESTs são inseridas nos sitios de clonagem a montante do gene repórter, em ambas as orientações, e são introduzidas numa célula-hospedeiro apropriada. 0 nível da proteína repórter é avaliado e comparado com o nível obtido de um vector que não tem uma inserção no sítio de clonagem. A presença de um nível de expressão elevado no vector contendo a inserção, relativamente ao vector de controlo, indica a presença de um promotor na inserção. Se necessário, as sequências a montante podem ser clonadas em vectores que contêm um intensificador, para aumentar os níveis da transcrição a partir de sequências promotoras fracas. Um nível significativo de expressão superior ao observado com o vector sem uma inserção indica estar presente uma sequência promotora na sequência a montante inserida. 156
Podem escolher-se células-hospedeiro apropriadas para os vectores repórter promotores com base nos resultados da determinação acima descrita de padrões de expressão dos cDNAs estendidos e ESTs. Por exemplo, se a análise de padrões de expressão indicar que o mRNA correspondente a um cDNA estendido ou 5' EST particular é expresso em fibroblastos, o vector repórter promotor pode ser introduzido numa linha celular de fibroblastos humanos.
Sequências promotoras no DNA genómico a montante podem ser suplementarmente definidas construindo deleções encaixadas no DNA a montante utilizando técnicas convencionais, tais como digestão com Exonuclease III. Os fragmentos de deleção resultantes podem ser inseridos no vector repórter promotor para determinar se a deleção reduziu ou obliterou actividade promotora. Deste modo podem definir-se as fronteiras dos promotores. Se desejado, podem identificar-se no promotor potenciais sitios reguladores individuais utilizando mutagénese dirigida a sitios ou varrimento de agentes de ligação, para obliterar potenciais sitios de ligação de factores de transcrição no promotor, individualmente ou em combinação. Podem determinar-se os efeitos destas mutações nos níveis de transcrição inserindo as mutações nos sítios de clonagem dos vectores repórter promotores. EXEMPLO 60
Clonagem e Identificação de Promotores Utilizando o método descrito no Exemplo 58 acima com 5' ESTs, obtiveram-se sequências a montante de vários genes.
GGG AAG ATG GA<3 ATA GTA
Utilizando os pares de "primers"
TTGCCI G (id SEQ NO: 29) e GCA IO* ACA &GATAG AGA0ΛΙ TC 157 (ID SEQ NO:30), obteve-se o promotor com a designação interna P13H2 (ID SEQ NO: 31).
Utilizando os pares de "primers" ^ A CÇA GGCG ACT G1G ACC ΑΓΤ GC (id seq NO: 32) e CTGTGACCATTGCTCCCAAGAGAG (ID SEQ NO:33), obteve-se o promotor com a designação interna P15B4 (ID SEQ NO: 34).
Utilizando os pares de "primers" CTG GGA TGG AÀG GCA CGGTA (id seq NO: 35) e GAG ACC ACA CAG CTAGAC AA (id SEQ NO:36), obteve-se o promotor com a designação interna P29B6 (ID SEQ NO: 37). A Figura 4 apresenta uma descrição esquemática dos promotores isolados e do modo como são reunidos aos marcadores 5' correspondentes. As sequências a montante foram rastreadas quanto à presença de motivos semelhantes a sitios de ligação de factores de transcrição ou sítios conhecidos de início da transcrição utilizando o programa de computador Matlnspector, tiragem 2.0, Agosto de 1996. A Tabela VII descreve os sitios de ligação de factores de transcrição presentes em cada um destes promotores. As colunas com o cabeçalho matrizes apresentam o nome da matriz Matlnspector utilizada. A coluna com o cabeçalho posição fornece a posição 5' do sítio do promotor. A numeração da sequência começa no sítio da transcrição, determinado por emparelhamento da sequência genómica com a sequência 5' EST. A coluna com o cabeçalho "orientação" indica o filamento de DNA onde se encontra o sítio, em que o filamento + é o filamento codificador, determinado por emparelhamento da sequência genómica com a sequência da 5' EST. A coluna com o cabeçalho "pontuação" apresenta a pontuação Matlnspector para este sítio. A coluna com o cabeçalho "comprimento" apresenta o comprimento do sítio em 158 nucleótidos. A coluna com o cabeçalho "sequência" apresenta a sequência do sítio.
Clones bacterianos contendo plasmídeos que contêm as sequências promotoras descritas acima estão presentemente armazenados nos laboratórios do inventor com os números de identificação interna fornecidos acima. As inserções podem ser recuperadas dos materiais depositados desenvolvendo uma alíquota do clone bacteriano apropriado no meio apropriado. Em seguida, o DNA plasmídico pode ser isolado utilizando procedimentos de isolamento de plasmídeos familiares aos experimentados na área, como técnicas mini-preparativas de lise alcalina ou procedimentos de isolamento de plasmídeos por lise alcalina em larga escala. Se desejado, o DNA plasmídico pode ser suplementarmente enriquecido por centrifugação num gradiente de cloreto de césio, cromatografia de exclusão por tamanhos ou cromatografia de permuta aniónica. 0 DNA plasmídico obtido utilizando estes procedimentos pode ser seguidamente manipulado utilizando técnicas comuns de clonagem familiares aos experimentados na área. Alternativamente, pode efectuar-se uma PCR com "primers" concebidos em ambas as extremidades da inserção EST. 0 produto de PCR que corresponde à 5' EST pode então ser manipulado utilizando técnicas comuns de clonagem familiares aos experimentados na área.
Os promotores e outras sequências reguladoras localizados a montante dos cDNAs estendidos ou 5' ESTs podem ser utilizados para conceber vectores de expressão capazes de dirigir a expressão de um gene inserido de uma forma espacial, temporal, relativa ao desenvolvimento ou quantitativa desejada. Pode seleccionar-se um promotor capaz de dirigir os padrões espacial, temporal, relativo ao desenvolvimento e quantitativo desejados utilizando os resultados da análise de expressão descrita no Exemplo 26 159 acima. Por exemplo, se for desejado um promotor que confira um nivel elevado de expressão em músculo, pode utilizar-se no vector de expressão a sequência promotora a montante de um cDNA estendido ou 5' EST derivada de um mRNA que é expresso num nivel elevado em músculo, como determinado pelo método do Exemplo 26.
Preferivelmente, o promotor desejado é colocado perto de sitios de restrição múltipla para facilitar a clonaqem da inserção desejada a jusante do promotor de modo que o promotor seja capaz de dirigir a expressão do gene inserido. 0 promotor pode ser inserido em colunas vertebrais de ácidos nucleicos convencionais concebidas para replicação extra-cromossómica, integração nos cromossomas do hospedeiro ou expressão transitória. Colunas vertebrais adequadas para os presentes vectores de expressão incluem colunas vertebrais retrovirais, colunas vertebrais de epissomas eucarióticos, como SV40 ou Virus Papiloma Bovino, colunas vertebrais de epissomas bacterianos ou cromossomas artificiais.
Preferivelmente, os vectores de expressão também incluem um sinal poliA a jusante dos sitios de restrição múltipla, para dirigir a poliadenilação de mRNA transcrito a partir do gene inserido no vector de expressão.
Após a identificação de sequências promotoras utilizando os procedimentos dos Exemplos 58-60, podem identificar-se proteínas que interagem com o promotor como descrito no Exemplo 61 abaixo. EXEMPLO 61
Identificação de Proteínas que Interagem com Sequências Promotoras, Sequências Reguladoras a Montante ou mRNA Podem identificar-se sequências na região promotora que provavelmente se ligarão a factores de transcrição por 160 homologia com sítios de ligação de factores de transcrição conhecidos, ou por mutagénese convencional, ou análises de deleção de plasmídeos repórter contendo a sequência promotora. Por exemplo, podem fazer-se deleções num plasmídeo repórter contendo a sequência promotora de interesse operativamente ligada a um gene repórter que pode ser avaliado. Os plasmídeos repórter com várias deleções na região promotora são transfectados numa célula-hospedeiro apropriada, avaliando-se os efeitos das deleções nos níveis de expressão. Sítios de ligação de factores de transcrição nas regiões em que deleções reduzem os níveis de expressão podem ser suplementarmente localizados utilizando mutagénese dirigida a sítios, análise de varrimento de agentes de ligação ou outras técnicas familiares aos experimentados na área.
Podem identificar-se ácidos nucleicos codificadores de proteínas que interagem com sequências do promotor utilizando sistemas de um híbrido, como os descritos no manual que acompanha o estojo Sistema de Um Híbrido Matchmaker disponibilizado pela Clontech (N° de Catálogo K1603-1). Em resumo, o Sistema de um híbrido Matchmaker é utilizado do modo seguinte. A sequência-alvo para a qual se desejam identificar proteínas de ligação é clonada a montante de um gene repórter seleccionável e integrada no genoma de levedura. Preferivelmente, múltiplas cópias das sequências-alvo são inseridas em série no plasmídeo repórter. Uma biblioteca constituída por fusões entre cDNAs a serem avaliadas quanto à capacidade para se ligarem ao promotor e ao domínio de activação de um factor de transcrição de levedura, como GAL4, é transformada na estirpe de levedura contendo a sequência repórter integrada. A levedura é plaqueada em meio selectivo, para seleccionar células que expressam o marcador seleccionável 161 ligado à sequência promotora. As colónias que crescem no meio selectivo contêm genes que codificam proteínas que se ligam à sequência-alvo. As inserções nos genes que codificam as proteínas de fusão são suplementarmente caracterizadas por sequenciação. Adicionalmente, as inserções podem ser inseridas em vectores de expressão ou vectores de transcrição in vitro. Pode confirmar-se a ligação dos polipéptidos codificados pelas inserções ao DNA promotor por técnicas familiares aos experimentados na área, como análise de retardamento em gel ou análise de protecção da DNAse. VII. Utilização de 5' ESTs (ou cDNAs ou DNAs Genómicos Obtidos Daquelas) em Terapia Genética
Também se descreve aqui a utilização de 5' ESTs (ou cDNA ou DNA genómico obtido daquelas) em estratégias de terapia genética, incluindo estratégias anti-sentido e de hélices triplas, como descrito nos Exemplos 62 e 63 abaixo. Em abordagens anti-sentido, sequências de ácidos nucleicos complementares a um mRNA são hibridizadas para o mRNA intracelularmente, desse modo bloqueando a expressão da proteína codificada pelo mRNA. As sequências anti-sentido podem prevenir a expressão de genes através de uma variedade de mecanismos. Por exemplo, as sequências anti-sentido podem inibir a capacidade de ribossomas para traduzirem o mRNA. Alternativamente, as sequências anti-sentido podem bloquear o transporte do mRNA do núcleo para o citoplasma, desse modo limitando a quantidade de mRNA disponível para tradução. Outro mecanismo pelo qual sequências anti-sentido podem inibir a expressão de genes consiste em interferirem no processamento de mRNA. Ainda noutra estratégia, o ácido nucleico anti-sentido pode ser 162 incorporado numa ribozima capaz de clivar especificamente o mRNA alvo. EXEMPLO 62
Preparação e Utilização de Oligonucleótidos Anti-Sentido
As moléculas de ácido nucleico anti-sentido a serem utilizadas em terapia genética podem consistir em sequências de DNA ou RNA. Podem compreender uma sequência complementar à sequência da 5' EST (ou cDNA ou DNA genómico obtido daquela). Os ácidos nucleicos anti-sentido devem ter um comprimento e temperatura de fusão suficientes para permitir a formação de uma hélice dupla intracelular com estabilidade suficiente para inibir a expressão do mRNA na hélice dupla. Estratégias para conceber ácidos nucleicos anti-sentido adequados para utilização em terapia genética são reveladas em Green et al.f Ann. Rev. Biochem. 55: 569— 597, 1986, e Izant e Weintraub, Cell 36: 1007-1015, 1984.
Nalgumas estratégias, obtêm-se moléculas anti-sentido de uma sequência de nucleótidos que codifica uma proteina invertendo a orientação da região codificadora relativamente a um promotor, de modo a transcrever o filamento oposto ao que é normalmente transcrito na célula. As moléculas anti-sentido podem ser transcritas utilizando sistemas de transcrição in vitro, tais como os que empregam polimerase de T7 ou SP6 para gerar o transcrito. Outra abordagem envolve a transcrição dos ácidos nucleicos anti-sentido in vivo ligando operativamente DNA contendo a sequência anti-sentido a um promotor num vector de expressão.
Alternativamente, oligonucleótidos que são
complementares ao filamento normalmente transcrito na célula podem ser sintetizados in vitro. Assim, os ácidos nucleicos anti-sentido são complementares ao mRNA 163 correspondente e são capazes de hibridizar para o mRNA, para criar uma hélice dupla. Nalgumas especificações, as sequências anti-sentido podem conter colunas vertebrais de açúcar fosfato modificadas, para aumentar a estabilidade e torná-las menos sensíveis à actividade de RNase. Exemplos de modificações adequadas para utilização em estratégias anti-sentido são descritos por Rossi et ai., Pharmacol. Ther. 50(2): 245-254, 1991.
Podem utilizar-se vários tipos de oligonucleótidos anti-sentido complementares à sequência da 5' EST (ou cDNA ou DNA genómico obtido daquela). Numa especificação preferida, utilizam-se oligonucleótidos anti-sentido estáveis e semi-estáveis descritos na Candidatura Internacional N° PCT WO94/23026. Nestas moléculas, a extremidade 3' ou ambas as extremidades 3' e 5' participam em ligações de hidrogénio intramoleculares entre pares de bases complementares. Estas moléculas conseguem suportar melhor ataques de exonucleases e exibem estabilidade acrescida em comparação com oligonucleótidos anti-sentido convencionais.
Noutra especificação preferida, utilizam-se os oligodesoxinucleótidos anti-sentido contra os vírus herpes simplex dos tipos 1 e 2 descritos na Candidatura Internacional N° WO 95/04141.
Ainda noutra especificação preferida, utilizam-se os oligonucleótidos anti-sentido com ligações covalentes cruzadas descritos na Candidatura Internacional N° WO 96/31523. Estes oligonucleótidos de filamentação dupla ou simples compreendem uma ou mais, respectivamente, ligações covalentes cruzadas inter-oligonucleótidos ou intra-oligonucleótidos, em que a ligação consiste numa ligação amida entre um grupo amina primária de um filamento e um grupo carboxilo do outro filamento ou do mesmo filamento, 164 respectivamente, em que o grupo amina primária está directamente substituído na posição 2' do anel de monossacárido do nucleótido do filamento e em que o grupo carboxilo está contido num grupo espaçador alifático substituído num nucleótido, ou análogo de nucleótido, do outro filamento ou do mesmo filamento, respectivamente.
Também podem utilizar-se os oligodesoxinucleótidos e oligonucleótidos anti-sentido revelados na Candidatura Internacional N° WO 92/18522. Estas moléculas são estáveis à degradação e contêm pelo menos uma sequência de reconhecimento de controlo da transcrição que se liga a proteínas de controlo e são eficazes como chamarizes para aquelas. Estas moléculas podem conter estruturas "em grampos", estruturas "em haltere", estruturas "em haltere modificado", estruturas chamarizes "com ligações cruzadas" e estruturas "em laço" .
Noutra especificação preferida, utilizam-se os oligonucleótidos cíclicos de filamentação dupla descritos na Candidatura de Patente Europeia N° 0 572 287 A2. Estes "halteres" oligonucleotídicos ligados contêm o sítio de ligação para um factor de transcrição e inibem a expressão do gene sob o controlo do factor de transcrição sequestrando o factor.
Também é contemplada a utilização dos oligonucleótidos anti-sentido fechados revelados na Candidatura Internacional N° WO 92/19732. Uma vez que estas moléculas não têm extremidades livres, são mais resistentes à degradação por exonucleases do que oligonucleótidos convencionais. Estes oligonucleótidos podem ser multifuncionais, interagindo com várias regiões que não são adjacentes ao mRNA alvo.
Pode determinar-se o nível apropriado de ácidos nucleicos anti-sentido necessário para inibir a expressão 165 de genes utilizando análise de expressão in vitro. A molécula anti-sentido pode ser introduzida nas células por difusão, injecção, infecção, transfecção ou importação mediada pela região h utilizando procedimentos conhecidos na área. Por exemplo, os ácidos nucleicos anti-sentido podem ser introduzidos no corpo na forma de um oligonucleótido vazio ou nu, oligonucleótido encapsulado em lipido, sequência oligonucleotidica submetida a encapsidação por proteína virai ou como um oligonucleótido operativamente ligado a um promotor contido num vector de expressão. 0 vector de expressão pode ser qualquer um de uma variedade de vectores de expressão conhecidos na área, incluindo vectores retrovirais ou virais, vectores capazes de replicação extra-cromossómica ou vectores de integração. Os vectores podem consistir em DNA ou RNA.
As moléculas anti-sentido são introduzidas em amostras de células em algumas concentrações diferentes, preferivelmente entre 1 x IO’10 M e 1 x 10“4 M. Depois de identificada a concentração mínima que consegue controlar adequadamente a expressão de genes, a dose optimizada é traduzida numa dosagem adequada para utilização in vivo. Por exemplo, uma concentração inibidora em cultura de 1 x 10"7 traduz-se numa dose, aproximadamente, de 0,6 mg/kg de peso do corpo. Podem ser possíveis níveis do oligonucleótido perto de 100 mg/kg de peso do corpo, ou mais elevados, depois de se testar a toxicidade do oligonucleótido em animais laboratoriais. É adicionalmente contemplado que células do vertebrado sejam removidas, tratadas com o oligonucleótido anti-sentido e reintroduzidas no vertebrado. É suplementarmente contemplado que a sequência oligonucleotidica anti-sentido seja incorporada numa sequência de ribozima para permitir que a sequência anti- 166 sentido se ligue especificamente e proceda à clivagem do seu mRNA alvo. Quanto a aplicações técnicas de ribozimas e oligonucleótidos anti-sentido ver Rossi et al.r supra.
Numa aplicação preferida desta invenção, identifica-se primeiramente o polipéptido codificado pelo gene, de modo que a eficácia da inibição da sequência anti-sentido na tradução possa ser monitorizada utilizando técnicas que incluem, mas não se limitam a testes mediados por anticorpos, como RIAs e ELISA, ensaios funcionais ou etiquetagem radioactiva.
As 5' ESTs da presente invenção (ou cDNAs ou DNAs genómicos obtidos daquelas) também podem ser utilizadas em abordagens de terapia genética com base na formação de hélices triplas intracelulares. Utilizam-se oligonucleótidos em hélice tripla para inibir a transcrição a partir de um genoma. São particularmente úteis para estudar alterações da actividade celular quando está associada a um gene particular. As sequências 5' ESTs (ou cDNAs ou DNAs genómicos obtidos daquelas) da presente invenção, ou, mais preferivelmente, uma porção dessas sequências, podem ser utilizadas para inibir a expressão de genes em indivíduos com doenças associadas à expressão de um gene particular. De modo semelhante, uma porção das sequências 5' ESTs (ou cDNAs ou DNAs genómicos obtidos daquelas) pode ser utilizada para estudar o efeito da inibição da transcrição de um gene particular numa célula. Tradicionalmente, as sequências de homopurinas foram consideradas as mais úteis para estratégias de hélices triplas. No entanto, sequências de homopirimidinas também podem inibir a expressão de genes. Esses oligonucleótidos de homopirimidinas ligam-se ao sulco maior em sequências homopurina:homopirimidina. Assim, são contemplados, no 167 âmbito desta invenção, ambos os tipos de sequências da 5' EST ou do gene correspondente à 5' EST. EXEMPLO 63
Preparação e Utilização de Sondas de Hélices Triplas
As sequências das 5' ESTs (ou cDNAs ou DNAs genómicos obtidos daquelas) são submetidas a varrimento para identificar extensões de homopirimidinas ou homopurinas de 10-meros até 20-meros que possam ser utilizadas em estratégias à base de hélices triplas para inibir a expressão de genes. Depois de identificar candidatos a extensões de homopirimidinas ou homopurinas, avalia-se a sua eficiência na inibição da expressão de genes introduzindo quantidades variáveis de oligonucleótidos contendo as sequências candidatas em células de cultura de tecidos que normalmente expressam o gene alvo. Os oligonucleótidos podem ser preparados num sintetizador de oligonucleótidos ou podem ser adquiridos comercialmente a uma empresa especializada na síntese de oligonucleótidos para uma finalidade particular, como a GENSET, Paris, França.
Os oligonucleótidos podem ser introduzidos nas células utilizando uma variedade de métodos conhecidos dos experimentados na área, incluindo, mas não se limitando a estes, precipitação com fosfato de cálcio, DEAE-Dextrano, electroporação, transfecção mediada por lipossomas ou captação nativa.
As células tratadas são monitorizadas quanto a função celular alterada ou expressão reduzida de genes utilizando técnicas tais como coloração "Northern", ensaios de protecção de RNase ou estratégias à base de PCR, para monitorizar os níveis de transcrição do gene alvo em células que foram tratadas com o oligonucleótido. As 168 funções celulares a serem monitorizadas são previstas com base nas homologias do gene alvo correspondente ao cDNA estendido de onde derivou o oligonucleótido com sequências de genes conhecidas que foram associadas a uma função particular. As funções celulares também podem ser previstas com base na presença de fisiologias anormais em células derivadas de indivíduos com uma doença hereditária particular, particularmente quanto o cDNA estendido é associado à doença utilizando técnicas descritas no Exemplo 56.
Os oligonucleótidos que são eficazes na inibição da expressão de genes em células de cultura de tecidos podem ser seguidamente introduzidos in vivo utilizando as técnicas descritas acima e no Exemplo 62, numa dosagem calculada com base nos resultados in vitro como descrito no Exemplo 62.
Nalgumas especificações, os anómeros naturais (beta) das unidades oligonucleotídicas podem ser substituídos por anómeros alfa, para tornar o oligonucleótido mais resistente a nucleases. Suplementarmente, um agente de intercalação, como brometo de etídio ou afins, pode ser ligado à extremidade 3' do oligonucleótido alfa, para estabilizar a hélice tripla. Quanto a informações sobre a geração de oligonucleótidos adequados para a formação de hélices triplas ver Griffin et al., Science 245: 967-971, 1989. EXEMPLO 64
Utilização de cDNAs Obtidos Utilizando as 5' ESTs para Expressar Uma Proteína Codificada num Organismo Hospedeiro Os cDNAs obtidos como descrito acima utilizando as 5' ESTs da presente invenção também podem ser utilizados para expressar uma proteína codificada num organismo hospedeiro 169 com a finalidade de produzir um efeito benéfico. Nesses procedimentos, a proteína codificada pode ser expressa de forma transitória no organismo hospedeiro ou ser expressa de forma estável no organismo hospedeiro. A proteína codificada pode ter qualquer uma das actividades descritas acima. A proteína codificada pode ser uma proteína que o organismo hospedeiro não tem ou, alternativamente, a proteína codificada pode aumentar os níveis existentes da proteína no organismo hospedeiro.
Um cDNA estendido completo que codifica o péptido de sinal e a proteína madura, ou um cDNA estendido que codifica apenas a proteína madura, é introduzido no organismo hospedeiro. 0 cDNA estendido pode ser introduzido no organismo hospedeiro utilizando uma variedade de técnicas conhecidas dos experimentados na área. Por exemplo, o cDNA estendido pode ser injectado no organismo hospedeiro na forma de DNA nu de modo que a proteína codificada seja expressa no organismo hospedeiro, desse modo produzindo um efeito benéfico.
Alternativamente, o cDNA estendido pode ser clonado num vector de expressão a jusante de um promotor que é activo no organismo hospedeiro. 0 vector de expressão pode ser qualquer um dos vectores de expressão concebidos para utilização em terapia genética, incluindo vectores virais ou retrovirais. 0 vector de expressão pode ser directamente introduzido no organismo hospedeiro de modo que a proteína codificada seja expressa no organismo hospedeiro, para produzir um efeito benéfico. Noutra abordagem, o vector de expressão pode ser introduzido em células in vitro. Em seguida, as células que contêm o vector de expressão são seleccionadas e introduzidas no organismo hospedeiro, onde expressam a proteína codificada para produzir um efeito benéfico. 170 EXEMPLO 65
Utilização de Péptidos de Sinal Codificados por 5' ESTs, ou Sequências Obtidas Daquelas, para Importar Proteínas para o
Interior de Células A região pequena hidrófoba do "core" (h) de péptidos de sinal codificados pelas 5' ESTs ou cDNAs estendidos derivados da ID SEQ NO: 149 também pode ser utilizada como transportador para importar um péptido ou proteína de interesse, denominado de carga, para o interior de células de cultura de tecidos (Lin et al., J. Biol. Chem. 270: 14225-14258, 1995; Du et al., J. Peptlde Res. 51: 235-243, 1998; Rojas et al., Nature Biotech. 16: 370-375, 1998).
Quando se pretender que péptidos permeáveis em células de tamanho limitado (aproximadamente até 25 aminoácidos) sejam deslocados através da membrana celular, poderá utilizar-se síntese química para adicionar a região h ao terminal C ou ao terminal N do péptido de carga de interesse. Alternativamente, quando se pretender importar para o interior de células péptidos ou proteínas mais longos, ácidos nucleicos poderão ser geneticamente manipulados, utilizando técnicas familiares aos experimentados na área, para ligar a sequência de cDNA estendido que codifica a região h à extremidade 5' ou 3' de uma sequência de DNA que codifica para um polipéptido de carga. Em seguida, esses ácidos nucleicos geneticamente manipulados são traduzidos In vitro ou in vivo após transfecção em células apropriadas, utilizando técnicas convencionais para produzir o polipéptido resultante permeável em células. Células-hospedeiro adequadas são então simplesmente incubadas com o polipéptido permeável em células, que é seguidamente deslocado através da membrana.
Pode aplicar-se este método para estudar diversas funções intracelulares e processos celulares. Por exemplo, 171 foi utilizado para sondar domínios funcionalmente relevantes de proteínas intracelulares e para examinar interacções proteína-proteína envolvidas em vias de transdução do sinal (Lin et al., supra; Lin et al., J. Biol. Chem. 271: 5305-5308, 1996; Rojas et al., J. Biol. Chem. 271: 27456-27461, 1996; Liu et al., Proc. Natl. Acad. Sei. USA 93: 11819-11824, 1996; Rojas et al., Bioch. Biophys. Res. Commun. 234: 675-680, 1997).
Essas técnicas podem ser utilizadas em terapia celular para importar proteínas que produzem efeitos terapêuticos. Por exemplo, células isoladas de um paciente podem ser tratadas com proteínas terapêuticas importadas, sendo depois reintroduzidas no organismo hospedeiro.
Alternativamente, a região h de péptidos de sinal da presente invenção pode ser utilizada, em combinação com um sinal de localização nuclear, para distribuir ácidos nucleicos em núcleos de células. Esses oligonucleótidos podem ser oligonucleótidos anti-sentido ou oligonucleótidos concebidos para formarem hélices triplas, como descrito nos Exemplos 62 e 63, respectivamente, com a finalidade de inibir o processamento e/ou maturação de um RNA celular alvo.
Como discutido acima, os cDNAs ou respectivas porções obtidos utilizando as 5' ESTs da presente invenção podem ser utilizados para várias finalidades. Os polinucleótidos podem ser utilizados para expressar proteínas recombinantes para análise, caracterização ou utilização terapêutica; como marcadores para tecidos nos quais a proteína correspondente é preferencialmente expressa (quer constitutivamente, quer numa fase particular da diferenciação ou desenvolvimento do tecido, quer em estados de doença); como marcadores de peso molecular em géis 172 "Southern"; como marcadores ou caudas (quando etiquetados) cromossómicos para identificar cromossomas ou para mapear posições de genes relacionados; para comparação com sequências de DNA endógeno em pacientes com a finalidade de identificar potenciais perturbações genéticas; como sondas para hibridizar e, assim, descobrir novas sequências de DNA relacionadas; como fonte de informação para derivar "primers" de PCR com a finalidade de obter impressões digitais genéticas; para seleccionar e preparar oligómeros destinados a ligação num «"chip" genético» ou outro suporte, incluindo para examinar quanto a padrões de expressão; para dirigir anticorpos anti-proteinas utilizando técnicas de imunização com DNA, e como antigenes para dirigir anticorpos anti-DNA ou induzir outra resposta imunológica. Quando o polinucleótido codificar uma proteína que se liga ou se liga potencialmente a outra proteína (tal como, por exemplo, numa interacção receptor-ligando), o polinucleótido também pode ser utilizado em ensaios por armadilha de interacção (tal como, por exemplo, o descrito em Gyuris et ai., Cell 75: 791-803, 1993) para identificar polinucleótidos que codificam a outra proteína com a qual ocorre ligação, ou para identificar inibidores da interacção de ligação.
As proteínas ou polipéptidos fornecidos pela presente invenção podem ser utilizados, de modo semelhante, em ensaios para determinar a actividade biológica, incluindo num painel de múltiplas proteínas para rastreio de alto rendimento; para dirigir anticorpos ou induzir outra resposta imunológica; como reagente (incluindo o reagente etiquetado) em ensaios concebidos para determinar quantitativamente níveis da proteína (ou seu receptor) em fluidos biológicos; como marcadores para tecidos nos quais a proteína correspondente é preferencialmente expressa 173 (quer constitutivamente, quer numa fase particular da diferenciação ou desenvolvimento do tecido, quer em estados de doença), e, obviamente, para isolar receptores ou ligandos correlativos. Quando a proteina se ligar ou se ligar potencialmente a outra proteina (tal como, por exemplo, numa interacção receptor-ligando) , a proteina pode ser utilizada para identificar a outra proteina com a qual ocorre ligação, ou para identificar inibidores da interacção de ligação. Proteínas envolvidas nestas interacções de ligação também podem ser utilizadas para rastrear inibidores ou agonistas peptídicos ou de moléculas pequenas da interacção de ligação.
Qualquer uma ou todas estas utilidades de investigação podem ser desenvolvidas em qualidade de reagentes ou formato de estojo para comercialização na forma de produtos de investigação. Métodos para implementar as utilizações listadas acima são bem conhecidos dos experimentados na área. Referências que revelam esses métodos incluem, sem limitação, "Molecular Cloning: A Laboratory Manual", 2a edição, Cold Spring Harbor Laboratory Press, Sambrook, Fritsch e Maniatis, editores, 1989, e "Methods in Enzymology: Guide to Molecular Cloning Techniques", Academic Press, Berger e Kimmel, editores, 1987.
Polinucleótidos e proteínas da presente invenção também podem ser utilizados como fontes ou suplementos nutritivos. Essas utilizações incluem, sem limitação, utilização como suplemento de proteínas ou aminoácidos, utilização como fonte de carbono, utilização como fonte de azoto e utilização como fonte de hidratos de carbono. Nesses casos, a proteína ou polinucleótido da invenção pode ser adicionado à alimentação de um organismo particular ou pode ser administrado na forma de uma preparação sólida ou 174 líquida separada, tal como na forma de pó, comprimidos, soluções, suspensões ou cápsulas. No caso de microrganismos, a proteína ou polinucleótido da invenção pode ser adicionado ao meio onde ou sobre o qual é cultivado o microrganismo. TABELA 1: Parâmetros utilizados para cada passo da análise de ESTs
Característica da pesquisa Caracteristicas da s elecção Passo Programa Filamento Parâmetros Identidade (%) Comprimento (pares de bases) misto blastn ambos S=61 X=16 90 17 tRNA fasta ambos - 80 60 rRNA Blastn ambos S=108 80 40 mtRNA Blastn ambos S=108 80 40 Procariótico Blastn ambos S=144 90 40 Fúngico Blastn ambos S=144 90 40 Alu fasta* ambos - 70 40 LI Blastn ambos S=72 70 40 Repetições Blastn ambos S=72 70 40 Promotores Blastn superior S=54 X=16 90 15t Vertebrados fasta* ambos S=108 90 30 ESTs blastn ambos S=108 X=16 90 30 Proteínas blastxu superior E = 0,001 - - utilização do dispositivo de varrimento da Base de Dados "Quick Fast" t alinhamento suplementarmente restringido a começar mais próximo do que 10 pares de bases da EST/extremidade 5' 1=1 utilizando a matriz de substituição BLOSUM62 175
TABELA IV
Pontuação mínima do péptido de sinal taxa de positivos falsos taxa de negativos falsos probabilidade (0,1) probabilidade (0,2) 3,5 0,121 0,036 0,467 0,664 4 0,096 0,06 0,519 0,708 4,5 0,078 0,079 0,565 0,745 5 0,062 0,098 0,615 0,782 LO LO 0,05 0,127 0,659 0,813 6 0,04 0,163 0,694 0,836 LO L£> 0,033 0,202 0,725 0,855 7 0,025 0,248 0,763 0,878 7,5 0,021 0,304 0,78 0,889 8 0,015 0,368 0,816 0,909 8,5 0,012 0,418 0,836 0,92 9 0,009 0,512 0,856 0,93 9,5 0,007 0,581 0,863 0,934 10 0,006 0,679 0,835 0,919
TABELA V
Pontuação mínima do péptido de sinal Todas as ESTs Novas ESTs ESTs correspondentes a ESTs públicas mais próximas do que 40 pares de bases do início ESTs que estendem mRNAs conhecidos em mais de 40 pares de bases ESTs que estendem ESTs públicas em mais de 40 pares de bases 3,5 2674 947 599 23 150 4 2278 784 499 23 126 4,5 1943 647 425 22 112 5 1657 523 353 21 96 5,5 1417 419 307 19 80 6 1190 340 238 18 68 6,5 1035 280 186 18 60 7 893 219 161 15 48 7,5 753 173 132 12 36 8 636 133 101 11 29 8,5 543 104 83 8 26 9 456 81 63 6 24 9,5 364 57 48 6 18 10 303 47 35 6 15 176
TABELA VI
Tecido Todas as ESTs ESTs correspondentes Novas a ESTs públicas ESTs mais próximas do gue 40 pares de bases do início ESTs gue estendem mRNAs conhecidos em mais de 40 pares de bases ESTs gue estendem ESTs públicas em mais de 40 pares de bases Cérebro 329 131 75 3 24 Próstata cancerosa 134 40 37 1 6 Cerebelo 17 9 1 0 6 Cólon 21 11 4 0 0 Músculo distrófico 41 18 8 0 1 Cérebro fetal 70 37 16 0 1 Rim fetal 227 116 46 1 19 Fígado fetal 13 7 2 0 0 Coração 30 15 7 0 1 Próstata hipertrófica 86 23 22 2 2 Rim 10 7 3 0 0 Intestino grosso 21 8 4 0 1 Fígado 23 9 6 0 0 Pulmão 24 12 4 0 1 Pulmão (células) 57 38 6 0 4 Gânglios linfáticos 163 60 23 2 12 Linfócitos 23 6 4 0 2 Músculo 33 16 6 0 4 Próstata normal 181 61 45 7 11 Ovário 90 57 12 1 2 Pâncreas 48 11 6 0 1 Placenta 24 5 1 0 0 Próstata 34 16 4 0 2 Baço 56 28 10 0 1 Substantia nigra 108 47 27 1 6 Supra-renais 15 3 3 1 0 Testículo 131 68 25 1 8 Tiróide 17 8 2 0 2 Cordão umbilical 55 17 12 1 3 Útero 28 15 3 0 2 Não específicas de tecidos 568 48 177 2 28 Total 2677 947 601 23 150 177
TABELA VII
Descrição de Sítios de Ligação de Factores de Transcrição presentes em promotores isolados de sequências SignalTag
Sequência promotora P13H2 (546 pares de bases):
Matriz
Posição Orientação Pontuação Comprimento Sequência
CMYSJI? -502 * S.S63 § TGTCAGTTG MYOD.QS *SDl - to ÇÇÇAACTGAC 38.65 »444 - Qm ti aataííaattag -42S * OMê 1* ÂACT4AAT7AG OÈLTASFIJIS m - O.S50 15 SGACACCTCAO GATA^e *3S4 - 0.354 it ÁGÀTAAATCCA cíáY8jm .349 0.958 3 CTTCACTTfi gataTjs- 443 ·· Q.â$9 34 TTGTAGATAGGACA $ATA_Õ «m ♦ Q..953 51 AGATAGGACAT 7AtíÃÍPHAEA7jl 235 OSft 58 CATAACãGATGGTÁÂG TA15BETAE*? SI *235 ♦ am 55 CATftACAGATGGTAAÇ TAUKTAlTfíOí m * 0.570 5® CATAACASAT&GYAAG MYOOJ5S *232 o.â&s 50 ACCATCTGTT gataijijs 45? 0.953 53 TCÃAGATAMCHA IKí J&1 ~ -128 * 3.963 53 AGTTGSGAATTCC IK2J31 52§ + 0.985 52 AGTTGGGAATTC CRÊLJ35 -123 * 0962 50 7&3GAATTCC GATA1 02 * 0.950 14 TCAGTSATATQÕCA sry m 4f v 0.951 52 TAAMCMAACA mjt 43 4 0.9$? § TTTAOCGC 4 0:975 $ TGAGGGQA
Sequência promotora P15B4 (861 pares de bases): Matriz Posição Orientação Pontuação Comprimento Sequência NFY.Q8 *743 Λ 0056 ssaôcaatgat ncFijeí -738 ♦ 0.862 8 ccToeaaSA CAívélc-i 4S4 + 0994 9 TOACCGTtQ VMY8J52 4582 Ç §6$ 9 TCCAACOBT STAtJm *073 + 0:988 9 TTCCTGGAA statTíh 673 * 0965 9 TTCCÁôQAA MZFijM SSs r 0.956 8 TTG&GGGA, ÍK2J5 *4§1 ·* 0.065 12 GAATGGGAtíTi MZF1.01 42* 4 0,0# 0 ÃGAGGQâA SRYJ» -398 - Ô.9S5 12 <SAftAACAAAAC7 M2F1JK *25 ® * 0.963 8 gaagggga Wrt» Ô6 ** *5â0 * 0985 50 AGCATCTGCC mm^jn -578 ♦ 0.958 55 TCCCACCTTCG Sâji 0 0:992 55 GASGCAATTAT οι 18 - 0.688 δ mmmsA 178
Sequência promotora P29B6 (555 pares de bases):
Matriz Posição Orientação Pontuação Comprimento Sequência AfWJ» m * 0.S64 1$ GOACTCACGTOOtOCT fwejn 4 0065 12 açtcacstgctg + 0.055 ACTCAÇi3T$eta usf'oi 0.055 52 CACCACGTGAGT miçjn m 0.055 12 CAGCACGTSAOT WZWX..M -1® - Q9?2 12 CAGGACGTOAOT US?/" ►38? * SS97 6 T G· AC GT GC ÍiSfj2 -33? - 839S S GCACGTGA :®F\0í -m - 0.030 1 CATGGÔâA gucijs -m 4 0 053 14 CTST CÍJSG AAGÇOT CETS1P54J1 Ml 4< Q.ST4 10 tCCeGAAGCO APtjH •42 > &.SS3 11 AGTGACTGAAC âP!5JjD2 •42 SJjSí 11 AGTGACTGAAC FAOst 45 ♦ vooo 0 tgtggtctc 179 LISTAGEM DE SEQUÊNCIAS (1) INFORMAÇÕES GERAIS:
i) CANDIDATO: (A) NOME: GENSET SA (B) RUA: 24, RUE ROYALE (C) CIDADE: PARIS (E) PAÍS: FRANÇA (F) CÓDIGO POSTAL (ZIP): 75008 ii) TÍTULO DA INVENÇÃO: 5' ESTs PARA PROTEÍNAS SEGREGADAS IDENTIFICADAS A PARTIR DE TECIDOS DO CÉREBRO (iii) NÚMERO DE SEQUÊNCIAS: 353 (v) FORMA DE LEITURA EM COMPUTADOR: (A) TIPO DE MEIO: Disquete
(B) COMPUTADOR: PC compatível com IBM (C) SISTEMA OPERATIVO: Win95 (D) "SOFTWARE": Word (2) INFORMAÇÕES PARA ID SEQ NO: 1: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 47 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: SIMPLES
(D) TOPOLOGIA: LINEAR (ii) TIPO DE MOLÉCULA: Outro ácido nucleico 180 (ix) CARACTERÍSTICA: (A) NOME/CHAVE: Cobertura (B) LOCALIZAÇÃO: 1 (D) OUTRAS INFORMAÇÕES: m7Gppp adicionado a 1 (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 1: SOCAOCCmC tíCCCM3CCft& BqÇCACCXm ACDCCOCCCA UGUCCAC 4 (2) INFORMAÇÕES PARA ID SEQ NO: 2: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 46 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: SIMPLES
(D) TOPOLOGIA: LINEAR (ii) TIPO DE MOLÉCULA: Outro ácido nucleico (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 2: õCAUcamcu ccaiucauui uccacccuàa etccuccCAtf cuccâc 4« (2) INFORMAÇÕES PARA ID SEQ NO: 3: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 25 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: SIMPLES
(D) TOPOLOGIA: LINEAR (ii) TIPO DE MOLÉCULA: Outro ácido nucleico
(xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 3: ATCMSM.n' CGCACGAGAC CATTA (2) INFORMAÇÕES PARA ID SEQ NO: 4: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 25 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: SIMPLES
(D) TOPOLOGIA: LINEAR (ii) TIPO DE MOLÉCULA: Outro ácido nucleico
(xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 4: TAATGGTCTC GTGCGAATTC TTUAT (2) INFORMAÇÕES PARA ID SEQ NO: 5: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 25 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: SIMPLES
(D) TOPOLOGIA: LINEAR (ii) TIPO DE MOLÉCULA: Outro ácido nucleico
(xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 5: CCG&CmGAC CMCGTC-AAG GC03C (2) INFORMAÇÕES PARA ID SEQ NO: 6: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 25 pares de bases 182
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: SIMPLES
(D) TOPOLOGIA: LINEAR (ii) TIPO DE MOLÉCULA: Outro ácido nucleico
(xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 6: 7CACCAGCAS GCAGTGGCTT AG-3AG (2) INFORMAÇÕES PARA ID SEQ NO: 7: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 25 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: SIMPLES
(D) TOPOLOGIA: LINEAR (ii) TIPO DE MOLÉCULA: Outro ácido nucleico (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 7:
ASTGATTCCT GCTACTTTGG ATGGC (2) INFORMAÇÕES PARA ID SEQ NO: 8: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 25 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: SIMPLES
(D) TOPOLOGIA: LINEAR (ii) TIPO DE MOLÉCULA: Outro ácido nucleico (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 8: 25
GCTTGGTCTT GTTCTJ3AGT TTAGA (2) INFORMAÇÕES PARA ID SEQ NO: 9: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 25 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: SIMPLES
(D) TOPOLOGIA: LINEAR (ii) TIPO DE MOLÉCULA: Outro ácido nucleico (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 9: TCCAGAATGS GÃG&C&&GCC MTfl (2) INFORMAÇÕES PARA ID SEQ NO: 10: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 25 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: SIMPLES
(D) TOPOLOGIA: LINEAR (ii) TIPO DE MOLÉCULA: Outro ácido nucleico
(xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 10: AGGGAGGAGG &MC&GCGTG ASTCC (2) INFORMAÇÕES PARA ID SEQ NO: 11: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 25 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: SIMPLES
(D) TOPOLOGIA: LINEAR 184
(ii) TIPO DE MOLÉCULA: Outro ácido nucleico (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 11: ATGGGAAAGG AAM.afe.CTCA TATCA (2) INFORMAÇÕES PARA ID SEQ NO: 12: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 25 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: SIMPLES
(D) TOPOLOGIA: LINEAR (ii) TIPO DE MOLÉCULA: Outro ácido nucleico
(xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 12: AGCAGCAACA AÍCAGGACAG CACÂG (2) INFORMAÇÕES PARA ID SEQ NO: 13: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 25 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: SIMPLES
(D) TOPOLOGIA: LINEAR (ii) TIPO DE MOLÉCULA: Outro ácido nucleico (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 13: ATCAAtíAAiT CSdAOÔMAC CATTtk (2) INFORMAÇÕES PARA ID SEQ NO: 14: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 67 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: SIMPLES
(D) TOPOLOGIA: LINEAR (ii) TIPO DE MOLÉCULA: Outro ácido nucleico (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 14:
CTCQTACCAG C&GAGTC&CG MJÃSÃSftCrA. CACGGTACTG GTTTTTTTTT
TTTITVN (2) INFORMAÇÕES PARA ID SEQ NO: 15: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 29 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: SIMPLES
(D) TOPOLOGIA: LINEAR (ii) TIPO DE MOLÉCULA: Outro ácido nucleico (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 15: ccftfiCAGAGT ckzçmmm actac&cgg (2) INFORMAÇÕES PARA ID SEQ NO: 16: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 25 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: SIMPLES
(D) TOPOLOGIA: LINEAR (ii) TIPO DE MOLÉCULA: Outro ácido nucleico (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 16: CACGAGAGAG ACTÃCACSGT ACTGS (2) INFORMAÇÕES PARA ID SEQ NO: 17: (i) CARACTERISTICAS DA SEQUENCIA: (A) COMPRIMENTO: 526 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: DUPLA
(D) TOPOLOGIA: LINEAR (ii) TIPO DE MOLÉCULA: cDNA (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo Sapiens (F) TIPO DE TECIDO: Gânglios linfáticos (ix) CARACTERÍSTICA: (A) NOME/CHAVE: outro (B) LOCALIZAÇÃO: complemento (261..376) (C) MÉTODO DE IDENTIFICAÇÃO: blastn (D) OUTRAS INFORMAÇÕES: identidade 96 região 166..281 id N70479 est (ix) CARACTERÍSTICA: (A) NOME/CHAVE: outro (B) LOCALIZAÇÃO: complemento (380..486) (C) MÉTODO DE IDENTIFICAÇÃO: blastn (D) OUTRAS INFORMAÇÕES: identidade 97 187 região 54...160 id N70479 est (ix) CARACTERÍSTICA: (A) NOME/CHAVE: outro (B) LOCALIZAÇÃO: complemento (110..145) (C) MÉTODO DE IDENTIFICAÇÃO: blastn (D) OUTRAS INFORMAÇÕES: identidade 94 região 403..438 id N70479 est (ix) CARACTERÍSTICA: (A) NOME/CHAVE: outro (B) LOCALIZAÇÃO: complemento (196..229) (C) MÉTODO DE IDENTIFICAÇÃO: blastn (D) OUTRAS INFORMAÇÕES: identidade 94 região 315..348 id N70479 est (ix) CARACTERÍSTICA: (A) NOME/CHAVE: péptido_sinal (B) LOCALIZAÇÃO: 90..140 (C) MÉTODO DE IDENTIFICAÇÃO: matriz de Von Heijne (D) OUTRAS INFORMAÇÕES: pontuação 8.2
MiLXTAILSVAW/FP (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 17:
AATATRARAC AGCfACMfA tfCCAGGGCC ARTCACTTGC CATTTCTCAT RACAGCGTCA
GAGAGãAAGÃ ACTGACTGAR ACGTTTGAC, AT6 ÃÂG AM GTT CPC CTC CTO ATC
Atei. Lys l.ys Vai Leu Leu Leu 11« -15 -10 AC A Lii.·-. ATC TTG GCA GTG GCT CTo CGT TTC GO A GTC ΤΓΤ CAA .··'· ·;·. CAG Thr Alui i. ΐ 0 i,e r Aio Ui AiO V-si Gly Pie Pr o ui. Ser Gin Arp GUi -¾ 1 C, GAA CbA GAA AAA AGA AGT ATC ACT GAC A.GC o; AT ? :U A TTA GCT TCA CGR .1 ·.: Ar;? Glíi 10 Lys Arq Ser ik Cor 13 Asp Ser A:sp •Ur Cor 50 Ala Sor G;.y mi ?ϊΐ GTC TTC CCT TAC CCA TAT CCA TTT CGC CCA CTT CCA CCA ÁíÍiiâ ftis Vv'i i Urc Pr o Tyr Iro ?yr Pr o PΠ i? Arq Pro Lee Pro Iro 11¾ 30 35 ccc .-í>nv;· CCA AGà TTT CCA TGG TTT AGà CGT AAi! rn CCT ATT CCA JVÍA Γ·: . lhe Pr o Ary Phe ? ri· Tsp Pio Ar 9 An? Xsíâ ?‘6$ Ovo Ur Pro 11 ':;1 4 0 45 50 11 CC” G:.‘Vi CCT TCC CCT AC Λ ACT CCC CTf CCT ACC GfTf\ AAG TAAACAARAA Pr o CU» Sc r AU PfO The Thr Pre Lee Γ· í 7: Sor Cio Lyf: 60 65 GGAAMCTCA CRÃTA.AACCT CGTCACCTGA AATTGAAftTT GAGCCACTTC CTTGAASAÃT CAAAATTCCT GTTM.XAAAA RAAAÃÃCAAÁ TGTAATTGAA ATAGCÃCÃCA. GCRTTCICTA OTCAATACCT TTAGTGATCT TCTITAATM ACRTGAARGC AAAMAAAAA AA (2) INFORMAÇÕES PARA ID SEQ NO: 18: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 17 aminoácidos
(B) TIPO: AMINOÁCIDO (D) TOPOLOGIA: LINEAR
(ii) TIPO DE MOLÉCULA: PROTEÍNA (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo Sapiens (ix) CARACTERÍSTICA: (A) NOME/CHAVE: péptido sinal 189 (B) LOCALIZAÇÃO: 1..17 (C) MÉTODO DE IDENTIFICAÇÃO: matriz de Von Heijne (D) OUTRAS INFORMAÇÕES: pontuação 8.2
seq H^miLravG/FP (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 18:
Met Lys Lys ¥ãl Leu Leu Leu ile Thr Ala lie Leu Ala Vai Alã Vâl 1 S 10 15 (2) INFORMAÇÕES PARA ID SEQ NO: 19: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 822 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: DUPLA
(D) TOPOLOGIA: LINEAR (ii) TIPO DE MOLÉCULA: cDNA (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo Sapiens (D) FASE DO DESENVOLVIMENTO: Fetal (F) TIPO DE TECIDO: rim (ix) CARACTERÍSTICA: (A) NOME/CHAVE: outro (B) LOCALIZAÇÃO: 260..464 (C) MÉTODO DE IDENTIFICAÇÃO: blastn (D) OUTRAS INFORMAÇÕES: identidade 96 região 153..357 id H57434 est 190 (ix) CARACTERÍSTICA: (A) NOME/CHAVE: outro (B) LOCALIZAÇÃO: 118..184 (C) MÉTODO DE IDENTIFICAÇÃO: blastn (D) OUTRAS INFORMAÇÕES: identidade 98 região 98..164 id H57434 est (ix) CARACTERÍSTICA: (A) NOME/CHAVE: outro (B) LOCALIZAÇÃO: 56..113 (C) MÉTODO DE IDENTIFICAÇÃO: blastn (D) OUTRAS INFORMAÇÕES: identidade 98 região 35..92 id H57434 est (ix) CARACTERÍSTICA: (A) NOME/CHAVE: outro (B) LOCALIZAÇÃO: 454..485 (C) MÉTODO DE IDENTIFICAÇÃO: blastn (D) OUTRAS INFORMAÇÕES: identidade 100 região 348..379 id H57434 est (ix) CARACTERÍSTICA: (A) NOME/CHAVE: outro (B) LOCALIZAÇÃO: 118..545 (C) MÉTODO DE IDENTIFICAÇÃO: blastn (D) OUTRAS INFORMAÇÕES: identidade 98 região 1. .428 191 id N27248 est (ix) CARACTERISTICA: (A) NOME/CHAVE: outro (B) LOCALIZAÇÃO: 65..369 (C) MÉTODO DE IDENTIFICAÇÃO: blastn (D) OUTRAS INFORMAÇÕES: identidade 98 região 41. .345 id H94779 est (ix) CARACTERISTICA: (A) NOME/CHAVE: outro (B) LOCALIZAÇÃO: 61..399 (C) MÉTODO DE IDENTIFICAÇÃO: blastn (D) OUTRAS INFORMAÇÕES: identidade 99 região 6..344 id H09880 est (ix) CARACTERISTICA: (A) NOME/CHAVE: outro (B) LOCALIZAÇÃO: 408..458 (C) MÉTODO DE IDENTIFICAÇÃO: blastn (D) OUTRAS INFORMAÇÕES: identidade 92 região 355..405 id H09880 est (ix) CARACTERISTICA: (A) NOME/CHAVE: outro (B) LOCALIZAÇÃO: 60..399 192 (C) MÉTODO DE IDENTIFICAÇÃO: blastn (D) OUTRAS INFORMAÇÕES: identidade 97 região 56..395 id H29351 est (ix) CARACTERÍSTICA: (A) NOME/CHAVE: outro (B) LOCALIZAÇÃO: 393..432 (C) MÉTODO DE IDENTIFICAÇÃO: blastn (D) OUTRAS INFORMAÇÕES: identidade 90 região 391..430 id H29351 est (ix) CARACTERÍSTICA: (A) NOME/CHAVE: péptido_sinal (B) LOCALIZAÇÃO: 346..408 (C) MÉTODO DE IDENTIFICAÇÃO: matriz de Von Heijne (D) OUTRAS INFORMAÇÕES: pontuação 5,5
seq SPLFfiALVIWTSA/AF (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 19:
ÃCTCCmTA GCKÍAOSGGC TTCGbÇSC-CÀ «ceSCCaSC® CTASTCOerC TOôTAftSTSC CTGATdCddA GTTCOSTCÍC TCÔCSTCTTT TCCTGGTCCC AGGCÂMGCG GASGNASatC 120 CTC&AACGGC CTASTSCTTC OCGCTTCCGG AGAAAATCAG- CfSSTCTAATT AATTCCTCTÔ 180 193 QTTTGTTOÃA GC&GTTACCA MM.TCTTCA AOCCTTTCCC AOAMGCTA ATTGAGTACÂ 240
CGTTCCTGTT G&GTACACGT TCCTGTTSAT TTACAAAAGG TGCAGGmTG AGC&GGTCTG 300 MGACTAACA TTTTGTGMG TTGTAAAACA G&AMCCTGT TAGAA Ara TQG TGG TTT 357
Met Trp Trp Phe -20 CA3 CAA GGC CTÇ ÀGT TTC CTT CCT TCA GCC CTT GTA ATT TGG ACà TCT 405
Gin Gin GXy Leu Ssr Phe Leu Pro Ser Ala Leu Vai Xle Trp Tfcr Ser -15 -10 ~S GCT GCT TTC ATA TTT TCA TAC ATT ACT GCA GT& ACA CTC CAC CAT ATA 453
Ala Ala Phe Ile Phe Ser Tyr Ile Thr Ala Vai Thr Leu Bis Kis XXã 1 5 10 15
GAC CCG GCT TTA CCT TAT ATC AGT GAC ACT GGT ACA GTA GCT CCA RAA 501 Aép Pro Ala Leu Pro Tyr lie Ser Asp Thr Gly Thr vai Ala Pro Xaa 20 ” 25 30
AAA TQC TTA TTT GGG GCA ATG CTA MT ATT GCS GCA OTT TTA TGT CAA 540
Lys Cye Leu Phe Gly Ala Bet Leu Aea Ile Ala Ala Vai Leu Çye Gin 35 40· 45 AM TÂGM&TCM GMRATAATT CAACTTMAG AAKTTCATTT CATGACCAftA 502
Lys
CTCTTCARAA ACAT3TCTTT ACAAfiCATAT ÇTCTTGTATT GCTTTCTÃCÃ. CTGTTGAATT 552 GTCTGGCAAT ATTTCTGCAG TGGM&ATTT GATTTAHMTA GTTCTTGACT GATAAATATC 722 GT&&GGTGGG CTTTTCCCCC TGTGTMTTG GCTACTATGT CTTACTGA0C CAÂfflTTGTAVí 792
TTTGAAATAA AATGATATGA GAGTSACACA AAAAAAAAAA 932 (2) INFORMAÇÕES PARA ID SEQ NO: 20: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 21 amínoácidos
(B) TIPO: AMINOÁCIDO (D) TOPOLOGIA: LINEAR
(ii) TIPO DE MOLÉCULA: PROTEÍNA 194 (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo Sapiens (ix) CARACTERÍSTICA: (A) NOME/CHAVE: péptido_sinal (B) LOCALIZAÇÃO: 1..21 (C) MÉTODO DE IDENTIFICAÇÃO: matriz de Von Heijne (D) OUTRAS INFORMAÇÕES: pontuação 5,5
seq SPLPSâLVIWTSã/M (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 20:
Met Trp Trp Pbt Gin Gin Glv bm Ser Pise Leu Pro Ser Ala Leu Vai 1 s 10 15 IIe Trp Thr Ser Ala 20 (2) INFORMAÇÕES PARA ID SEQ NO: 21: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 405 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: DUPLA
(D) TOPOLOGIA: LINEAR
(ii) TIPO DE MOLÉCULA: cDNA (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo Sapiens (F) TIPO DE TECIDO: Testículos (ix) CARACTERÍSTICA: (A) NOME/CHAVE: outro (B) LOCALIZAÇÃO: complemento (103..398) 195 (C) MÉTODO DE IDENTIFICAÇÃO: blastn (D) OUTRAS INFORMAÇÕES: identidade 96 região 1. .296 id AA442893 est (ix) CARACTERÍSTICA: (A) NOME/CHAVE: péptido_sinal (B) LOCALIZAÇÃO: 185..295 (C) MÉTODO DE IDENTIFICAÇÃO: matriz de Von Heijne (D) OUTRAS INFORMAÇÕES: pontuação 5,9
seq LSTASSÃLSPOLT/ÃP (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 21: A7CACCTTCT TÇTCCATCCT TSTCTGGGCC AGTCCCCARC CCAGTCCCTC TCCTGACCTG €õ CCCAGCCCAA GTCASCCTTÇ AGCACGCGCT TTTCTSCACA CAGATATTCC AGGCCTACCT 120 GSCATTCcas Gàccrccsm AmtecTCC astccctt&c aagcgcttcc tggatgaogs 280
TmC ATS GTG CFG ACC ACC C7C CCC TTG CCC TCT ÇÇÇ AAC AGC CCT GTG 229
Met Vai Leu Tfrr Thr Leu Pr o teu Pro Ser Ala Astt Ser Pro Vai -35 -30 -25 AAC ATG CCC ACC ACT GGC CCC AAC ACC CTG AGT TAT GCT AGC TCT QÇC 277
Asa Met Pro Thr Thr Gly Pro Aon Ser M Ser Tyr Ala Ser Ser Alá -20 -15 -IO CTG TC-C CCC TGT CTO ACC GCT CCA AAK TCC CCC CGG CTT GCT ATS ATS 325
Xjeu Ser Pro Cys Leu Thr Ala Pro Xsa Ser Pro Arg Leu Ala Met Mefe -$ I s 10 CCT GAC AAC TÃÃATATCCT tatccaaatc aatããarwea raatcctccc tccasaacgg 384
Pro Asp Asa TTTCTAAAAA CAAAAA&AAA A 495 (2) INFORMAÇÕES PARA ID SEQ NO: 22: 196 (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 37 aminoácidos
(B) TIPO: AMINOÁCIDO (D) TOPOLOGIA: LINEAR
(ii) TIPO DE MOLÉCULA: PROTEÍNA (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo Sapiens (ix) CARACTERÍSTICA: (A) NOME/CHAVE: péptido_sinal (B) LOCALIZAÇÃO: 1..37 (C) MÉTODO DE IDENTIFICAÇÃO: matriz de Von Heijne (D) OUTRAS INFORMAÇÕES: pontuação 5,9
seq LSYASSALSPCLT/AP (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 22:
Vai Leu Tbr Thr Leu Pro Leu Pro Ser Ala Ãsn Ser Pro Vai Asn. l 5 1Ú 1$
Met Pro Tiix Thr G:ly Pro Ase Ser Leu ser Tyr Ala Ser ser Ala Leu
20 25 3Q ser Pro Cys Leu. Thr 35 (2) INFORMAÇÕES PARA ID SEQ NO: 23: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 496 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: DUPLA
(D) TOPOLOGIA: LINEAR 197
(ii) TIPO DE MOLÉCULA: cDNA (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo Sapiens (F) TIPO DE TECIDO: Próstata cancerosa (ix) CARACTERÍSTICA: (A) NOME/CHAVE: outro (B) LOCALIZAÇÃO: 149..331 (C) MÉTODO DE IDENTIFICAÇÃO: blastn (D) OUTRAS INFORMAÇÕES: identidade 98 região 1. .183 id AA397994 est (ix) CARACTERÍSTICA: (A) NOME/CHAVE: outro (B) LOCALIZAÇÃO: 328..485 (C) MÉTODO DE IDENTIFICAÇÃO: blastn (D) OUTRAS INFORMAÇÕES: identidade 96 região 179..336 id AA397994 est (ix) CARACTERÍSTICA: (A) NOME/CHAVE: outro (B) LOCALIZAÇÃO: complemento (182..496) (C) MÉTODO DE IDENTIFICAÇÃO: blastn (D) OUTRAS INFORMAÇÕES: identidade 97 região 14..328 id AA399680 est (ix) CARACTERÍSTICA: 198 (A) NOME/CHAVE: péptido_sinal (B) LOCALIZAÇÃO: 196...240 (C) MÉTODO DE IDENTIFICAÇÃO: matriz de Von Heijne (D) OUTRAS INFORMAÇÕES: pontuação 5,5
seq X&STVTftLTEAXft/LD (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 23:
ÃAAAAATTGG TCCCAGTTTT CACCCTGCCS CAGGGCTGGC TGGGGAGÍ33C AGCGGTTTAG SC ATTAGCCSTG GCCTAGGC05 TTTAACGGGS T3ACACG&GC HTSC&SGGCC SASTCCAAGC 120
CCCGSftGATA GGACCAACCG TCA&S&TGC 0A8GAATGTT TTTCTTCGGA CTCTATOGAG ISO
ÔCACACAGAC AGACC ATO GGG ATT CtÉt TCT ACA GTG ACA SCC TTA ACA TTT 231
Met Gly ile Leu Ser Thr Vai Thr Ala Leu Thr Phe -15 -10 -5
SCC ASA QCC CTO QAC GGC TGC AQÂ AAT GGC ATT GCC CAC CCT OCA AST 279
Ala Xaa Ala Leu Agp Gly Cys Arg Asn Gly lie Ala His Pro Ma Ser 1 S 10 GAG AAG CAC AfiA CTC GAG AAA TST ÃSG GAA CTC O&G MC MC CAC TCfâ 327
Glu Lys His Aro Leu Glu Lys Cys Arg Glu Leu Glu xsa Xaa His Ser IS 2Ô 23 GCC CCA GGA TCA ÃCC CAS CAC CGA AGÀ ÃAÃ ACA ACC AGA AG& M.T TAT 375
Ala Pro Gly Ser Thr X&a His Arg Arg Lys Thr Thr &rg Arg Asn. Tyr 30 35 40 45 TCT TCA GCC TSMATGAAX CCGGGATCÂA ATGGTTGCTG ATCAHAGCCC ATATTTAAAT 434
Ser Ser Ala TSGAAftAGTC A&ATTG&SCA TTATTA&ATA AAGCTTfiTTT AATATGTCTC MACAAMAA 494
&A 49« (2) INFORMAÇÕES PARA ID SEQ NO: 24: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 15 aminoácidos 199
(B) TIPO: AMINOÁCIDO (D) TOPOLOGIA: LINEAR
(ii) TIPO DE MOLÉCULA: PROTEÍNA (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo Sapiens (ix) CARACTERÍSTICA: (A) NOME/CHAVE: péptido_sinal (B) LOCALIZAÇÃO: 1..15 (C) MÉTODO DE IDENTIFICAÇÃO: matriz de Von Heijne (D) OUTRAS INFORMAÇÕES: pontuação 5,5
seq ILSTVTALTFMA/LD (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 24:
Met 61y Ile Leu Ser Thr Vai Thr Ala Leu Thr Phe Ala Xaa Ala 1 S 10 15 (2) INFORMAÇÕES PARA ID SEQ NO: 25: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 623 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: DUPLA
(D) TOPOLOGIA: LINEAR
(ii) TIPO DE MOLÉCULA: cDNA (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo Sapiens (F) TIPO DE TECIDO: Testículo 200 (ix) CARACTERÍSTICA: (A) NOME/CHAVE: péptido_sinal (B) LOCALIZAÇÃO: 49..96 (C) MÉTODO DE IDENTIFICAÇÃO: matriz de Von Heijne (D) OUTRAS INFORMAÇÕES: pontuação 10,1
seq LVLTLCTLPLAVA/S A (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 25:
AAAGATCCCT GCASOÇCGÍ3C AGGAGASAAG CCTGAGCCTT CTGGCGTC ATG GAG AGG S7
Met Glu Arg ~is CTC GTC CTA ACC CTG 'TGC ACC CTC CCG CTG GCT GTG CCG TCT GCT SQC 105
Leu Vai Leu Thr Leu Cys Thr Leu Pro Leu Ala vai Ala Set Ala Gly -10 -5 1 TGC GCC ACC ACC CCA GCT CGC AAC CTG AGC TGC TAC CAG TGC TTC AAG 153 'Cys Ala Thr T&r Prò''Mâ'Mg Mn'Léu Ser Cys Tyr Gla'Cye 'í?he Lys S 10 15 GTC AGC AGÇ TSG AOS GAG TGC CCG CCC ACC TSG TGC AGC CCG CTG GÂ.C 201
Vai Ser Ser Trp Thr Glu Cys Tro Pro Thr Trp Cys Ser Pro Leu Asp 20 25 30 35
CAA GTC TGC ATC TCC AAC GAG GTG GTC GTC TCT TTT AAA TGG AGT GTA 243
Gin Vai Cys lie Ser Asn Glu Vai Vai Vai Ser Phe Lys Trp Ser Vai 40 45 S0 CGC GTC CTG CTC MC AAA CSC TGT GCT CCC ASA TST CCC MC GAC AAC 237
Arg Vai Leu Leu Ser Lys Arg Cys Ala Pro Arg Cys Pro Asa Asp Asn S5 60 65 ATS AAK TTC GAA TGG TCG CCS GCC CCC ATS GT3 CAA GGC GTG ATC ACC 345
Met Xaa Phe Glu Trp Ser Pro Ala Pro Met Vel Gin Gly Vai. Ile Thr ?o 75 eq AGG CGC TGC TGT TCC TGG GCT CTC TGC AAC AGG GCA CTG ACC CCA CAS 393
Arg Arg Cys Cys ser Trp Ala Leu Cvs Asu Arg Ala Leu Thr Pro Gin 05 §0 95 GAG GGG CGC TGG GCC CTS CSA GGG GGG CTC CTG CTC ÇftG GAC CCT TCG 441
Glu Gly Arg Trp Ala Leu Xaa Cly Gly Leu Leu Leu Gin Asp Pro Ser 100 10S ' 110 115 201
ASG GGC ASA ÃAA ACC TGG GT6 CGG CCA CM CTG GGG CTC CCA CTC TGC
Arg Gly Xaa Lys Thr Trp Vai Arg Pro Gin Leu Gly Leu Pro Leu Cys 120 125 130
CTT CCC AWT TCC MC CCC CTC TGC CCA R<5G GAA ACC C&G GAA GGA 534
Leu Puo xaa Ser Asn Pro Leu Cys Pro Xaa GIu Thr Gin Slu Gly 135 140 145 TAAGACTSTG GGTGCCCCCA CCTST8CATT1 GSGACCACRA CTTÇ&CCCTC TTGGASACAA 594 TAAACTCTCA TGCCCCCAAA ΆΑΑΑΆΆΑΆΆ 623 (2) INFORMAÇÕES PARA ID SEQ NO: 26: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 16 aminoácidos
(B) TIPO: AMIN0ÁCID0 (D) TOPOLOGIA: LINEAR (ii) TIPO DE MOLÉCULA: PROTEÍNA (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo Sapiens (ix) CARACTERÍSTICA: (A) NOME/CHAVE: péptido_sinal (B) LOCALIZAÇÃO: 1..16 (C) MÉTODO DE IDENTIFICAÇÃO: matriz de Von Heijne (D) OUTRAS INFORMAÇÕES: pontuação 10,1 seq (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 26:
Met GXtt Arg Leu Vai Leu Thr Leu Cys- Thr Leu Pra Lati Ala Vai. Ala 1 5 10 15 202 (2) INFORMAÇÕES PARA ID SEQ NO: 27: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 848 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: DUPLA
(D) TOPOLOGIA: LINEAR
(ii) TIPO DE MOLÉCULA: cDNA (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo Sapiens (D) FASE DO DESENVOLVIMENTO: Fetal (F) TIPO DE TECIDO: rim (ix) CARACTERÍSTICA: (A) NOME/CHAVE: péptido_sinal (B) LOCALIZAÇÃO: 32..73 (C) MÉTODO DE IDENTIFICAÇÃO: matriz de Von Heijne (D) OUTRAS INFORMAÇÕES: pontuação 10,7
seq L^LLFFLVTAIHA/ÊL (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 27:
MCTTTGCCT TGTSTTTTCC ACCCTGAAAG A ATS· TTG TG3 CTS CTC TTT TTT GTG 55
Ket Leu Trp Leu Leu Phe Phe Leu STS ACT OCC ATT CAT GCT GM CTC TGT CA& CCA 03T GCA GAA AAT GCT 103
Vai Tfctr Ala Ile His Ala Glu L®u Cys Gin pro Giy Ala Gin Asn Ala -5 1 5 10
TTT AM GTG" 't3ÇT' CTG' GG&GAT AAA GCA TAT 151 PA# Lys Vai Arg Leu Ser ile Arg Thr Ala Leu Gly Asp hys Ala Tyr 15 20 25 GCC T9S GAT ACC AAT GAA GA& TAC CTC TTC AAA GCG ATG STA GCT TTC 199
Ala Tro Asp Thr ften Glu Glu Tyr Leu Plie Lya Ala Met Vai Ala Phe 30 35 49 203 TCC ATG AGA AAA GTT CCC AAC AGA GAA <3CA ACA GAA ATT TCC C&T GTC 24?
Ser Ket Arg Lys Vai Pro Asa Arg Glu Ala Thr Glu lie Ser Eis Vai 45 50 55 CTA CTT TGC AAT GTA ACC CAG AGG GTA TCA TTC TGG TTT GTG GTT ACA 295
Lee Mu Cys Asa Vai Thr Gin Arg vai Ser Phe Trp Phe Vai V&l Thr 60 65 70 GAC CCT TCA AAA AAT ÇAC ACC CTT CCT GCT GTT GAG GTG CAA TCA GCC 343
Asp Pr o Ser Lys Asa His Thr Leu Pro Ala Vai Glu Vai Gin Ser Ala 75 80 85 90
ATA AGA ATG AAC AAG AAC CGS ATC AAC AAT CCC TTC TTT CTA AAT GAC 393,
Ile Arg Met Asn Lys Asn Arg Xle Asa Asa Ala Phe Phe Leu Asn Asp 95 100 105
CÀA ÃCT ÇTG GM TTT TTA AAA ATC CCT TCC ACA CTT GCA CCA CCC ATG 433
Gin Thr Leu Glu Phe Leu Lys Ile Fro Ser Thr Leu Ala Pro pro MAC 110 11s 120
GAC CCA TCT GTG CCC ATC TGG ATT ATT ATA TTT GGT GTG ATA TTT TGC 487
Asp Pro Ser Vai Pro lie Trp Xle Xle Ile Phe Gly Vai Ile Phe Cys 125 130 13S ATC ATC ATA GTT GCA ATT GCA CTA CTG ATT TTA TCA GGG ATC TGG CAA 535
Ile Xle Ile Vai Ala Ile Ala Leu Leu Ile Leu Ser Gly Xle Trp Gin 140 145 150 CGT A3A ARA AAG MC AAA GAA CCA TCT GAA GTG GA? GAC CCT GAA RAT 583
Arg Xaa Xaa Lys Asa Lys Glu Pro Ser Glu vai Asp Asp Ala Glu Xaa 155 160 165 170 AM TGT GAA AAC ATG ATC ACA ATT GAA AAT GGC ATC CCC TCT ÔAT CCC 631
xaa Cys Glu Asn «et Xle Thr Ile Glu Ass Gly Ile Pro Ser Asp Pro 175 180 1SS CTG <SAC ATG AAG GGA GGG CAT ATT AAT GAT GCC TTC ATG ACA GAG GAT 679
Leu Asp Met Lys Gly Gly His Ile Asa Asp Ala Phe Met Thr Glu Asp 190 195 200 GAG AGG CTC ACC CCT CTC TGAAGSSCTS TTG7TCTGCT TCCTCAASAA 727
Glu Arg Leu Thr Pro Leu 205 204 ATTM&CÃTT TÔÍTTCTGTG TG&CT&C7GA eCATCCXGAA ATACCAAOAG CAGATCftTA? 7$? VÍTTTTOTTTC ACCATTCTTC TTTTGTAATÀ AATTTTCm? GTSCTTGAAA MAA5AÃMA 647
C 848 (2) INFORMAÇÕES PARA ID SEQ NO: 28: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 14 aminoácidos
(B) TIPO: AMINOÁCIDO (D) TOPOLOGIA: LINEAR
(ii) TIPO DE MOLÉCULA: PROTEÍNA (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo Sapiens (ix) CARACTERÍSTICA: (A) NOME/CHAVE: péptido_sinal (B) LOCALIZAÇÃO: 1..14 (C) MÉTODO DE IDENTIFICAÇÃO: matriz de Von Heijne (D) OUTRAS INFORMAÇÕES: pontuação 10,7 seq wnájmmKmifm* (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 28:
Wtefc Leu Trp Leu Leu Fh© Çhe Leu Vai Thr Ala Xle Mia Ala 1 S 10 (2) INFORMAÇÕES PARA ID SEQ NO: 29: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 25 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: SIMPLES
(D) TOPOLOGIA: LINEAR (ii) TIPO DE MOLÉCULA: Outro ácido nucleico
(xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 29: GGGÂAGATGG AGATA3TATT GCCTS (2) INFORMAÇÕES PARA ID SEQ NO: 30: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 26 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: SIMPLES
(D) TOPOLOGIA: LINEAR (ii) TIPO DE MOLÉCULA: Outro ácido nucleico (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 30: CTGCCS.TSX& CATGATAOAG AG&TTC (2) INFORMAÇÕES PARA ID SEQ NO: 31: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 546 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: DUPLA
(D) TOPOLOGIA: LINEAR (ii) TIPO DE MOLÉCULA: DNA genómico (ix) CARACTERISTICA: 206 (A) NOME/CHAVE: promotor (B) LOCALIZAÇÃO: 1..517 (ix) CARACTERÍSTICA: (A) NOME/CHAVE: sítio de início da transcrição (B) LOCALIZAÇÃO: 518 (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: 17..25 (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome CMYB_01
pontuação 0,983 sequência TGTCAGTTQ (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: complemento (18..27) (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome MYOD_Q6
pontuação 0,961 sequência CCCAACTQ&C (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: complemento (75..85) (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome S8_01 pontuação 0,960 sequência (ix) CARACTERÍSTICA: 207
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: 94..104 (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome S8_01
pontuação 0,966 sequência AACTAftATTAG (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: complemento (129..139) (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome DELTAEFI_01
pontuação 0,960 sequência GCAC^CCTC&Q (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: complemento (155..165) (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector
(D) OUTRAS INFORMAÇÕES: nome GATA C pontuação 0,964 sequência ^ÃTAM.TCCÃ (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: 170..178 (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome CMYB_01
pontuação 0,958 sequência CTTCAGTTS (ix) CARACTERÍSTICA: 208
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: 176..189 (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome GATA1_02
pontuação 0,959 Sequência TTGT&GATAÔGÃCA (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: 180..190 (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector
(D) OUTRAS INFORMAÇÕES: nome GATA_C
pontuação 0,953 Sequência AGATAGS&CAT (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: 284..299 (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome
pontuação 0,973 Sequência CATAACAõATGGTÂftG (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: 284..299 (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome TAL1SETAB47JÍ!
pontuação 0,983 Sequência CATAACAGATõOTMG (ix) CARACTERÍSTICA: 209 209 (A) (B) (C) (D) NOME/CHAVE: sítio-ligação de TF LOCALIZAÇÃO: 284..299 MÉTODO DE IDENTIFICAÇÃO: previsão matinspector OUTRAS INFORMAÇÕES: nome TM<XBE7AITF2_01 pontuação 0,978 Sequência CATAAÍlA^TGGTÃAS (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: complemento (287..296) (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome MYOD_Q6
pontuação 0,954 sequência ACCATCTGTT (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: complemento (302..314) (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome GATA1_04
pontuação 0,953 sequência TCAAGATAAAGTA (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: 393..405 (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome IK1_01
pontuação 0,963 sequência AGTTGGG&ATTCC (ix) CARACTERÍSTICA: 210
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: 393..404 (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome IK2_01
pontuação 0,985 sequência ÃG-TTOGGA&TTC (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: 396..405 (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome CREL_01 pontuação 0,962 sequencia (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: 423..436 (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome GATA1_02 pontuação 0,950 sequência TCAGTGMMGGC& (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: complemento (478..489) (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome SRY_02 pontuação 0,951 sequência (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF 211 (B) LOCALIZAÇÃO: 486..493 (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome E2F_02 pontuação 0,957 sequência (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: complemento (514..521) (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome MZF1_01 pontuação 0,975 sequência (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 31: TGAQTqÇÃST STTACATGTC AGTTQGGTTÀ AGTTTGTTAA TGTCATTCAA ATCTTCTATS «O TCTTOATTTG CCTGCTAATT CTATfÀTTTC TGGAACTAAA rCTAGTTTGA(r GGTTCTATTA 120 GTTATTGACT QJWSGTGTGCT AATCTCCCAT TATGTGGATT TAtCTATTTC TiCâGTTGTA 180 GAT&GGACAT TGATAGATAC ATA&STACCA GGACAMAGC MGGAGASCT ΤΓΤΤΪΧΧΛΑΑ 2*0 ATC&SGA&AA AAAAATGACA TCTGGAfeàAC CTAXAGGGA& AGGCATAACA GATGGTAAGCí 300 ATACTTTATC rcmGTAGGÂ GÃGÇCÇTCCT QTQÇÇMCGT GGAGAAGGGA AGAGGTCGTA 3Ê0 G&ft.TTG&SQA GTCAGCTG&S TTAGAAGCAS GGAGTTGGGA ATTCCGTTCA TSTGATTTAG 420 C&TCAGTGAT AKSGGAAATS tGGGACTAAG ÇGTAGTGATC AGAGGGTfAA AATTGTCTGT 480 TT7GTTTTAG CGCTGCTGGG GCÁTCGCCTT GGGTCCCCTC A&ACMíMTC CCATGAATCT 540 CTTCAT s*s (2) INFORMAÇÕES PARA ID SEQ NO: 32: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 23 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: SIMPLES
(D) TOPOLOGIA: LINEAR (ii) TIPO DE MOLÉCULA: Outro ácido nucleico (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 32: GTAÇCAGGGA CTGTGACCAT TGt (2) INFORMAÇÕES PARA ID SEQ NO: 33: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 24 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: SIMPLES
(D) TOPOLOGIA: LINEAR (ii) TIPO DE MOLÉCULA: Outro ácido nucleico (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 33: CTOTOACCAT tgctcccaag agag (2) INFORMAÇÕES PARA ID SEQ NO: 34: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 861 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: DUPLA
(D) TOPOLOGIA: LINEAR (ii) TIPO DE MOLÉCULA: DNA genómico (ix) CARACTERÍSTICA: (A) NOME/CHAVE: promotor (B) LOCALIZAÇÃO: 1..806 (ix) CARACTERÍSTICA: 213 (A) NOME/CHAVE: sítio de início da transcrição (B) LOCALIZAÇÃO: 807 (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: complemento (60..70) (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome NFY_Q6 pontuação 0,956 sequência (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: 70..77 (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome MZF1_01
pontuação 0,962 sequência CCTGGGGA (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: 124..132 (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome CMYB_01
pontuação 0,994 sequência T^CCGTTG (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: complemento (126..134) (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome VMYB 02 pontuação 0,985 214 sequência TCCAACGG? (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: 135..143 (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome STAT_01 pontuação 0,968 sequência (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: complemento (135..143) (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome STAT_01 pontuação 0,951 sequência TTCCftCKMte (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: complemento (252..259) (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome MZF1_01 pontuação 0,956 sequência
TTGGGGGA (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: 357..368 (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome IK2_01 pontuação 0,965 215
sequência GA&TGGG&TTTC (ix) CARACTERISTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: 384..391 (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome MZFl_01
pontuação 0,986 sequência JfâftGGGOA (ix) CARACTERISTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: complemento (410..421) (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome SRY_02
pontuação 0,955 sequência S&WACMAACA (ix) CARACTERISTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: 592..599 (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome MZF1_01 pontuação 0,960 sequência βΑΑββ (ix) CARACTERISTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: 618..627 (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome MYOD Q6 pontuação 0,981 216 sequência
AGCATCTÕCC (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: 632..642 (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome DELTAEF1_01
pontuação 0,958 sequência ^ÇCACCTTCC (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: complemento (813..823) (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome S8_01
pontuação 0,992 Rpmiênr.i a ®AGGCAATTAT (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: complemento (824..831) (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome MZF1_01 pontuação 0,986 sequência
ÃQmGQQA (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 34: TACTÂTAGGG CACGCGTGGT CGACGGCCGO GCTGTTCTGQ ÂÇÇAG&GGGC ATSTCAGTAA 60 TGATTG&ÍCC CtGGQGAAGG TCTOGCTGGC TCCAGCAGM tÔftSOCATTT MSTATCTCt 120 217 CGGTGAÇCGT TGGATTCGTG GAAGCAGTAG CTSTTCrGTf TGGATCTGGT &GGSACA6GG 180 CTCMAGGGC TAGGCACGAG GGAAGOTCAG AGGAGAÃOGS ívbSSARGGCC CÃGTGAG&RG 24 & «GAGCATGCC TTCCCCCMC OCTeeCTTSC ΚΤΗΉΟ*ΗΙ«* MGGCGXSTír TSGGMÃCITR 300 AAYTCAGGGC CCÃASGAOAA SCACAGGCCC MTCSJTQGCT SMMSCACM TAGCCTOAAT 36í> GGGATTTCAG GTTAGNCAGG QTGASAGGGG AGOCTCTCTG GCTTAGTTTT &TTTTGTTXT 420 CCAMTCAAG OTAACTTGGT CCCTTCTGCT A0S8GCCTTG OTCTISSCTT GXCCTCACCC 430 AGTOGGÃACT ÇÇCTACCACT TTCAGGAGAG XGGTm*3G CCCtfCGSGGC TGTTCTGTTC 540 C&A^SXGT GAGÃÃCATGG CTGCTA8AÍKJ CTCXAGCTQT QTOOGGGGCC T0AASGGGAÇ SOO TGGGTTgTOG CGCâAASAQC ATCTGCCCAT TGCCCACCTT CCCTTCTOCC ACCAGAAGCT 660 TGCCTGAGCr GTTTGGACAA AJíATCCAAAC CCCÂCTTGGC XACXCTSGCC TOGCTTCAGC 720 TTGGAACCCA ÃTACCTAQGC TTACAGSCCA TCCTGAGCCA GGGGCCTCTG GAAATTCTCT 7S0 TCCTSATGGT CÇTTTÃGGTT teOQCACRAft. ATATWffTGC CTCTCCCCJC TfCCCATXXTC 840 rcrcTTGOGA gcaaxggtca c S61 (2) INFORMAÇÕES PARA ID SEQ NO: 35: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 20 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: SIMPLES
(D) TOPOLOGIA: LINEAR (ii) TIPO DE MOLÉCULA: Outro ácido nucleico (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 35: CTGGGATGGA AGGCACGGTA 20 (2) INFORMAÇÕES PARA ID SEQ NO: 36: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 20 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: SIMPLES 218
(D) TOPOLOGIA: LINEAR (ii) TIPO DE MOLÉCULA: Outro ácido nucleico (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 36: GAGACCÃCáC ASCTAG&CAA 20 (2) INFORMAÇÕES PARA ID SEQ NO: 37: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 555 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: DUPLA
(D) TOPOLOGIA: LINEAR (ii) TIPO DE MOLÉCULA: DNA genómico (ix) CARACTERÍSTICA: (A) NOME/CHAVE: promotor (B) LOCALIZAÇÃO: 1..500 (ix) CARACTERÍSTICA: (A) NOME/CHAVE: sitio de inicio da transcrição (B) LOCALIZAÇÃO: 501 (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: 191..206 (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome ARNT_01
pontuação 0,964 sequência Oe&CTCaOGrFGCTÍÍCT 219 (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: 193..204 (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome NMYC_01
pontuação 0,965 sequência ÃCTCMiTTGCTG (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: 193..204 (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome USF_01
pontuação 0,985 sequência ACTCACGTGCTG (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: complemento (193..204) (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome USF_01
pontuação 0,985 sequência CÃGC&CQTfè&GT (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: complemento (193..204) (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome NMYC_01
pontuação 0,956 sequência C&GC&CGTdAGT 220 (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: complemento (193..204) (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome MYCMAX_02
pontuação 0,972 sequência CAGC&C0TOMT (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: 195..202 (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector
(D) OUTRAS INFORMAÇÕES: nome USF_C
pontuação 0,997 sequência TC&CGTGC (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: complemento (195..202) (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector
(D) OUTRAS INFORMAÇÕES: nome USF_C pontuação 0,991 sequência
SCACGTGA (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: complemento (210..217) (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome MZF1_01 pontuação 0,968 sequência 221 (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: 397..410 (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome ELK1_02 pontuação 0,963
a CTCTCC60AA5CCT (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: 400..409 (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome CETS1P54_01
pontuação 0,974 sequência TCCGGAAOCC (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: complemento (460..470) (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome AP1_Q4
pontuação 0,963 sequência ÃGTGACTGAAC (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: complemento (460..470) (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector (D) OUTRAS INFORMAÇÕES: nome AP1FJ_Q2 pontuação 0,961 sequência AGTS&CT3AAÇ 222 (ix) CARACTERÍSTICA:
(A) NOME/CHAVE: sítio-ligação de TF (B) LOCALIZAÇÃO: 547..555 (C) MÉTODO DE IDENTIFICAÇÃO: previsão matinspector
(D) OUTRAS INFORMAÇÕES: nome PADS_C
pontuação 1,000 sequência TGTOGTCTC (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 37: CTtTAOGGCA CGCKT0GTC3 AOJGCCCGGG CTGGTCTGGT CT3TKGTGGA GTCGGGTTGA 60 ASG&CSÔCAT TTOTKACATC TOGTCTACTG CAOCTTOCCT CTGCCGTOCA CTTSSCCTTT 120 RàVÍÂ&GCTCÂ OCACCSGTGC CCATCACASG &CCGSCAGC& CACACATCCC ATÍACTCAGA 180 AGGAACTQAC GGACTCftCGT GCTGCTCCST ttCÍA.TGA3C TOWiTGGACC fGTCTATGTA 240 SAêCSGTCAG AG&GT8CCTG GGATASAffiFG AGAGTTCftQC CASTAAATCC AftSTSATtffr 300 C&TTÇCTOPC TSCÃTTAGTA ACTCCCARCC ΤΑΟΑΓΦΡΟΑΑ Jt&CTTAGTTC TTTCTÇaSÃG 340 GTTGCTÇTCC CCATQ3TCCC ACT0CAGACC CAGGCACTCT COjGÂAGCCT GGAMTCACC 420 CdTGTCTTCT QCCTGCTCCC GCTCACATCC CACACTTGTG TTCAGTCACT GAGTTACAGA 480 TTTTGCCTCC TCA&TTTCTC TTGTCTXAS? CCCAXCCTCT GTTCCCCTGG CCAQTTTGTC 540 TAGCTGTGTG GTCTC SSS (2) INFORMAÇÕES PARA ID SEQ NO: 149: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 472 pares de bases
(B) TIPO: ÁCIDO NUCLEICO
(C) FILAMENTAÇÃO: DUPLA
(D) TOPOLOGIA: LINEAR
(ii) TIPO DE MOLÉCULA: cDNA (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo Sapiens 223 (F) TIPO DE TECIDO: Substantia nigra (ix) CARACTERÍSTICA: (A) NOME/CHAVE: outro (B) LOCALIZAÇÃO: 245..466 (C) MÉTODO DE IDENTIFICAÇÃO: blastn (D) OUTRAS INFORMAÇÕES: identidade 92 região 74..295 id R61190 est (ix) CARACTERÍSTICA: (A) NOME/CHAVE: outro (B) LOCALIZAÇÃO: 181..258 (C) MÉTODO DE IDENTIFICAÇÃO: blastn (D) OUTRAS INFORMAÇÕES: identidade 94 região 11. .88 id R61190 est (ix) CARACTERÍSTICA: (A) NOME/CHAVE: péptido_sinal (B) LOCALIZAÇÃO: 89..154 (C) MÉTODO DE IDENTIFICAÇÃO: matriz de Von Heijne (D) OUTRAS INFORMAÇÕES: pontuação 11.1 seq (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 149: 224 ftGCtCCftGTC CTOGCATCTG CCCGAGGAGft CCACGCTCCT GGAfiCTCTGC TGTCTIfÇTCA. 60 GGGAGAGTCT GAGSCtCTCT TGACAATC ATG CTT TOG A6S CAG CTC ATC TÁT . l\2 M«t Leu Trp ftrg Gin Lee lie Tyr -20 -15 TGG cm C.i G CTG GCT TTG TTT TTC CTC CCT TTT TGC CTG TGT CM GAT. . 160 Tfp C.i n Leu Leu AlS Leu Phe Phe Leu Pro Pne Çys Leu Cys Gin. ÁSp -m “5 1 GM. TAC ATS GAO TCT CCA cm ACC GGA GGA CTA CCC CCA GAC TGC AGf1 208 Glu Tyr Net S Glu Ser Pro Gin Thr 10 Gly Gly Leu Pro Pro Asp 15 Cys Ser AAG TGT TGT CAT GGA GAC TAC ACC TTT CGA GCC TAC CM GGC ccc m lys Cys Cys Hie Gly Asp Tyr ser Pbe Ar§ Gly Tyr Gin Gly Pro Pro 20 25 30 GSG CCA CCC GOC CCT CCT GGC ATT CCA GGA MC CAT GGA AAC AÁT GGC 304 61v Pr o Pkc Gly Pro Pro Gly Ile Pro Gly Asn ÍLiS Gly Asn ASA Gly 35 40 45 59 AAC MT GGA GCC ACT GGT CAT GftA GGA GCC MÁ GGT GAS AAG GGC GAC 352 Asíí Aso Gly AI â Th.r Gly His Glu Gly Ala lys Gly Glu Lys Gly A$p 55 W 65 AAA GgJT GAC CTG G6G CCT CGA Gce GAG CCG GGG CAG CAT GGC CCC AM 400 Lys Gly hsp Leu ciy Pro Ar 9 Gly Glu Ar9 Gly Gin 6is Gly Pro Lys 70 75 80 GGA OAG MG GGC TAC CCG GGG ATT CCA CCA SM CTT CAG ATT GCA TTG 4 46 Gly 01« Lys Gly Tyr pro Gly lie Pro Pro Glu Leu Gin 11& Ala Phe 65 50 95 &TG GCT tCT CTG GMÁ ccc .ACT TCA 472 Jtet Aia Ser Leu XM Pro Thr Ser l&C 105 (2) INFORMAÇÕES PARA ID SEQ NO: 307: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 128 aminoácidos
(B) TIPO: AMINOÁCIDO (D) TOPOLOGIA: LINEAR (ii) TIPO DE MOLÉCULA: PROTEÍNA (vi) FONTE ORIGINAL: 225 (A) ORGANISMO: Homo Sapiens (F) TIPO DE TECIDO: Substantia nigra (ix) CARACTERÍSTICA: (A) NOME/CHAVE: péptido_sinal (B) LOCALIZAÇÃO:-22..-1 (C) MÉTODO DE IDENTIFICAÇÃO: matriz de Von Heijne (D) OUTRAS INFORMAÇÕES: pontuação 11.1
seq QUA&FFLPrC&C/QO (xi) DESCRIÇÃO DA SEQUÊNCIA: ID SEQ NO: 307: Mêt Leo Trp Arç Gin Leu lie Tyr frp Gin Lou Leu Ala te© Pbe ?h« -20 -15 -10
Leu. Pro Pbe Cy$ Lsu Cys Gin Asp Glu Tyr Heç 61 α Ser Pr o Gin Thx •·5 1 5 10
Gly 61 y Leu Pro Ptt> Asp Cye Ser Lys Cy$ Cys His Gly Asp Tyr Ser 15 20 25
Fhe Arç Gly Tyr Gin Gly Pro Pro Gly Pro Pro Gly Pm Pro Gly lie 30 35 40
Pro Gly Asn His Gly Asn Asn Gly Asrs Asn Gly Ala Thr Gly Sis Glu 45 50 55
Gly Ala Lys Gly Glu Lys Gly Asp Lys Gly Asp Leu Gly Pro Arg Gly 60 65 ?0
Glu Arg Gly Gin His Gly Pro Lys Gly Gly Lys Gly Tyr Pro Gly íie 75 80 85 90
Pro Pro Glu Lfew· Gin Ile Ala phe Het Ala Sor Leu Xaa Pro Thr Ser --95- loo 105
Lisboa, 24 de Julho de 2007

Claims (22)

1 REIVINDICAÇÕES 1. Péptido de sinal possuindo a sequência de aminoácidos -22 até -1 da ID SEQ NO: 307.
2. Polinucleótido que codifica o péptido de sinal da Reivindicação 1.
3. Polinucleótido da Reivindicação 2 possuindo a sequência de nucleótidos 89 até 154 da ID SEQ NO: 149.
4. Ácido nucleico purificado e isolado que codifica um polipéptido compreendendo o péptido de sinal da Reivindicação 1 na extremidade 5' da sequência codificadora, cuja sequência de ácido nucleico é fundida na estrutura à extremidade 5' de uma sequência que codifica um polipéptido que é heterólogo a um polipéptido compreendendo os aminoácidos 1 até 106 da ID SEQ NO: 307.
5. Ácido nucleico de acordo com a Reivindicação 4, em que o ácido nucleico compreende uma sequência polinucleotidica possuindo a sequência de nucleótidos 89 até 154 da ID SEQ NO: 149.
6. Vector de expressão compreendendo um polinucleótido de acordo com a Reivindicação 2 ou 3 operativamente ligado a um promotor.
7. Vector de expressão compreendendo um ácido nucleico de acordo com a Reivindicação 4 ou 5 operativamente ligado a um promotor. 2
8. Vector de expressão de acordo com a Reivindicação 6 ou 7, cujo vector é um vector de secreção.
9. Vector de expressão de acordo com a Reivindicação 6 ou 7, cujo vector é um vector de terapia genética.
10. Polipéptido codificado por um polinucleótido da Reivindicação 4 ou 5.
11. Polipéptido de acordo com a Reivindicação 10, cujo polipéptido é uma proteína humana segregada.
12. Proteína de fusão codificada por um ácido nucleico de acordo com a Reivindicação 4.
13. Utilização de um péptido de sinal de acordo com a Reivindicação 1 para dirigir a secreção extracelular de um polipéptido que é heterólogo a um polipéptido compreendendo os aminoácidos 1 até 106 da ID SEQ NO: 307.
14. Utilização de um péptido de sinal de acordo com a Reivindicação 1 para simplificar a purificação proteica de um polipéptido que é heterólogo a um polipéptido compreendendo os aminoácidos 1 até 106 da ID SEQ NO: 307.
15. Utilização de um vector de acordo com qualquer uma das Reivindicações 6 até 9 para dirigir a secreção extracelular de um polipéptido. 3
16. Utilização de um vector de acordo com qualquer uma das Reivindicações 6 até 9 para simplificar a purificação proteica de um polipéptido desejado.
17. Utilização de acordo com qualquer uma das Reivindicações 13 até 16, cujo polipéptido é um polipéptido de acordo com qualquer uma das Reivindicações 12 até 15.
18. Método de preparação de uma proteína segregada que é heteróloga a um polipéptido compreendendo os aminoácidos 1 até 106 da ID SEQ NO: 307, compreendendo o passo de inserir num vector um gene que codifica uma proteína não segregada na estrutura com um polinucleótido de acordo com a Reivindicação 2 ou 3, de modo que a proteína codificada pelo gene inserido seja expressa a partir do mRNA transcrito.
19. Método de acordo com a Reivindicação 18, compreendendo suplementarmente o passo de introduzir esse vector numa célula, tecido ou organismo hospedeiro in vítro.
20. Método de preparação de uma proteína segregada, compreendendo o passo de introduzir um vector de acordo com a Reivindicação 7 numa célula, tecido ou organismo hospedeiro ín vítro.
21. Método de acordo com qualquer uma das Reivindicações 18 até 20, compreendendo suplementarmente o passo de isolar a proteína segregada in vítro.
22. Método de acordo com a Reivindicação 21, em que o passo de isolar a proteína segregada compreende purificar a 4 proteína segregada a partir do sobrenadante, do meio de cultura ou do extracto celular da referida célula-hospedeiro . Lisboa, 24 de Julho de 2007
PT98936593T 1997-08-01 1998-07-31 5' ests para proteínas segregadas identificadas a partir de tecidos do cérebro. PT1000149E (pt)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US90513397A 1997-08-01 1997-08-01

Publications (1)

Publication Number Publication Date
PT1000149E true PT1000149E (pt) 2007-08-03

Family

ID=25420334

Family Applications (1)

Application Number Title Priority Date Filing Date
PT98936593T PT1000149E (pt) 1997-08-01 1998-07-31 5' ests para proteínas segregadas identificadas a partir de tecidos do cérebro.

Country Status (10)

Country Link
EP (1) EP1000149B1 (pt)
JP (1) JP2001512014A (pt)
AT (1) ATE361933T1 (pt)
AU (1) AU8555498A (pt)
CA (1) CA2296809A1 (pt)
DE (1) DE69837761T2 (pt)
DK (1) DK1000149T3 (pt)
ES (1) ES2287979T3 (pt)
PT (1) PT1000149E (pt)
WO (1) WO1999006551A2 (pt)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7435793B2 (en) * 1998-05-15 2008-10-14 Genentech, Inc. Peptides that induce chondrocyte redifferentiation
AU2006201603B2 (en) * 1997-12-17 2007-05-24 Serono Genetics Institute S.A. Extended cDNAs for secreted proteins
DE19818620A1 (de) * 1998-04-21 1999-10-28 Metagen Gesellschaft Fuer Genomforschung Mbh Menschliche Nukleinsäuresequenzen aus Blase-Normal
EP1075487A4 (en) * 1998-04-24 2002-11-20 Alphagene Inc SECRETED PROTEINS AND POLYNUCLEOTIDES CODING THESE
US7256039B2 (en) 1998-05-15 2007-08-14 Genentech, Inc. PRO4405 nucleic acids
WO2000042182A1 (en) * 1999-01-19 2000-07-20 Lexicon Genetics Incorporated Mammalian cortexin-like proteins and polynucleotides encoding the same
US6544946B1 (en) 1999-02-19 2003-04-08 Zymogenetics, Inc. Inhibitors for use in hemostasis and immune function
EP1382345A3 (en) 1999-02-19 2004-01-28 Zymogenetics Inc Uses of inhibitors of hemostasis
AU2399300A (en) * 1999-03-08 2000-09-28 Genentech Inc. Methods and compositions for inhibiting neoplastic cell growth
EP1163337B1 (en) 1999-03-11 2011-03-02 Merck Serono SA Vascular adhesion molecules and modulation of their function
KR100504305B1 (ko) * 1999-03-23 2005-07-28 제넨테크, 인크. 분비 및 막횡단 폴리펩티드 및 이를 코딩하는 핵산
IL145971A0 (en) * 1999-04-20 2002-07-25 Zymogenetics Inc Adipocyte complement related protein homolog zacrp3
US6521233B1 (en) 1999-04-20 2003-02-18 Zymogenetics, Inc. Adipocyte complement related protein homolog zacrp3
AU5011200A (en) * 1999-05-14 2000-12-05 Arbor Vita Corporation Molecular interactions in hematopoietic cells
AUPQ262599A0 (en) * 1999-09-02 1999-09-23 University Of Queensland, The Gene expression
AU2055401A (en) * 1999-12-01 2001-06-12 Genentech Inc. Secreted and transmembrane polypeptides and nucleic acids encoding the same
US6984519B2 (en) * 2000-03-01 2006-01-10 Genetech, Inc. Nucleic acids encoding peptides that induce chondrocyte redifferentiation
AU2001270240A1 (en) * 2000-06-26 2002-01-08 Millennium Pharmaceuticals, Inc. Human calcium channels (48000; 52920) and uses thereof
JP2004524825A (ja) 2000-12-07 2004-08-19 ザイモジェネティクス,インコーポレイティド 脂肪細胞補体関連タンパク質zacrp3x2
US7927597B2 (en) 2001-04-10 2011-04-19 Agensys, Inc. Methods to inhibit cell growth
CA2443123A1 (en) 2001-04-10 2002-10-24 Agensys, Inc. Nuleic acids and corresponding proteins useful in the detection and treatment of various cancers
US8007797B2 (en) 2006-09-28 2011-08-30 Merck Serono S.A. Junctional adhesion molecule-C (JAM-C) binding compounds and methods of their use
EP2130836B1 (en) * 2008-06-03 2013-02-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Means and methods for producing zinc fingers and concatemers thereof
IL204652A0 (en) 2010-03-22 2010-11-30 Univ Ben Gurion A system for detecting usability problems of users while using their mobile devices

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3337748B2 (ja) * 1992-09-25 2002-10-21 財団法人神奈川科学技術アカデミー 完全長cDNAの合成方法、その中間体の製造方法及び完全長cDNAを含む組換えベクターの製造方法
FR2733762B1 (fr) * 1995-05-02 1997-08-01 Genset Sa Methode de couplage specifique de la coiffe de l'extremite 5' d'un fragment d'arnm et preparation d'arnm et d'adnc complet
US5707829A (en) * 1995-08-11 1998-01-13 Genetics Institute, Inc. DNA sequences and secreted proteins encoded thereby

Also Published As

Publication number Publication date
WO1999006551A3 (en) 1999-04-29
EP1000149A2 (en) 2000-05-17
DE69837761D1 (de) 2007-06-21
ATE361933T1 (de) 2007-06-15
JP2001512014A (ja) 2001-08-21
WO1999006551B1 (en) 1999-06-03
ES2287979T3 (es) 2007-12-16
DE69837761T2 (de) 2008-01-17
WO1999006551A2 (en) 1999-02-11
AU8555498A (en) 1999-02-22
EP1000149B1 (en) 2007-05-09
CA2296809A1 (en) 1999-02-11
DK1000149T3 (da) 2007-09-10

Similar Documents

Publication Publication Date Title
EP1000150B1 (en) 5' ESTs FOR SECRETED PROTEINS EXPRESSED IN BRAIN
EP1000146B1 (en) 5'ESTs FOR NON TISSUE SPECIFIC SECRETED PROTEINS
ES2359401T3 (es) ESTs 5¿PARA PROTEÍNAS SECRETADAS, EXPRESADAS EN DIVERSOS TEJIDOS.
EP1037977B1 (en) EXTENDED cDNAs FOR SECRETED PROTEINS
US6936692B2 (en) Complementary DNAs
EP1367124A1 (en) 5' ests for secreted proteins expressed in muscle and other mesodermal tissues
EP1033401A2 (en) Expressed sequence tags and encoded human proteins
EP1000149B1 (en) 5' ESTs FOR SECRETED PROTEINS IDENTIFIED FROM BRAIN TISSUES
EP1000148A2 (en) 5' ESTs FOR SECRETED PROTEINS EXPRESSED IN PROSTATE
EP1000151B1 (en) 5' ESTs FOR SECRETED PROTEINS EXPRESSED IN VARIOUS TISSUES
EP0994899A2 (en) 5' ESTs FOR SECRETED PROTEINS EXPRESSED IN ENDODERM