PT699754E

PT699754E - Metodo para diagnosticar uma predisposicao para cancro da mama e do ovario

Info

Publication number: PT699754E
Application number: PT95305602T
Authority: PT
Inventors: Sean V Tavtigian; Mark H Skolnick; David E Goldgar; Yoshio Miki; Jeff Swensen; Alexander Kamb; Keith D Harshman; Donna M Shattuck-Eidens; Roger W Wiseman; P Andrew Futreal
Original assignee: Us Health; Myriad Genetics Inc; Univ Utah Res Found
Priority date: 1994-08-12
Filing date: 1995-08-11
Publication date: 2001-04-30
Also published as: FI970514A0; ES2164136T3; EP0699754A1; GR3035631T3; NO970626D0; NZ291624A; AU3321695A; EP0699754B2; FI970515A0; PT705902E; DE69519834T2; EP0705902B2; JP3399539B2; FI970514A7; DK0699754T3; DE69524182T2; WO1996005308A1; DE69524182D1; NO970626L; NO970625D0

Description

85 829 EP 699 754/PT

DESCRIÇÃO "Método para diagnosticar uma predisposição para cancro da mama e do ovário" O presente invento refere-se de um modo geral ao campo da genética humana. Especificamente, o presente invento refere-se a métodos e materiais utilizados para isolar e detectar um gene de predisposição para carioro da mama e do ovário humanos (BRCA1), alguns alelos mutantes que causam susceptibilidade a cancro, em particular, a cancro da mama edo-OVário-i-Mais es^écificámente, o invento referé-se a mutações de linhas germinatívas no gene BRCA1 e à sua utilização no diagnóstico de predisposição para cancro da mama e do ovário. O presente invento refere-se ainda a mutações somáticas no gene BRCA1 em cancro da mama e do ovário humanos e à sua utilização no diagnóstico e prognóstico de cancro da mama e do ovário humanos. Adicionalmente, o invento refere-se a mutações somáticas no gene BRCA1 noutros cancros humanos e sua utilização no diagnóstico e no prognóstico de cancros humanos. O invento refere-se também à terapia de cancros humanos que possuam uma mutação no gene BRCA1, incluindo terapia génica, terapia de substituição proteica e imitações proteicas. 0 invento refere-se ainda à pesquisa de fármacos para terapia do cancro. Finalmente, o invento refere-se à pesquisa de mutações no gene BRCA1, as quais sejam úteis para diagnosticar a predisposição para cancro da mama e do ovário.

As publicações e outros materiais aqui utilizados para elucidar os antecedentes do invento, e em particular, os casos para proporcionar detalhes adicionais em relação à prática, são aqui incorporados por referência, e por conveniência, são referenciados por autor e data no texto seguinte e respectivamente agrupados na Lista de Referências anexa.

ANTECEDENTES DO INVENTO A genética do cancro é complicada, envolvendo múltiplos reguladores dominantes, positivos do estado transformado (oncogenes) bem como múltiplos reguladores recessivos, negativos (genes de supressão tumoral). Foram caracterizados mais de cem oncogenes. Foram identificados menos de uma 85 829 ΕΡ 699 754/ΡΤ dúzia de genes de supressão tumoral, mas espera-se que o número aumente para além dos cinquenta (Knudson, 1993). O envolvimento de tantos genes sublinha a complexidade dos mecanismos de controlo de crescimento que operam nas células para manter a integridade do tecido normal. Esta complexidade manifesta-se de outro modo. Até agora, não se mostrou que um único gene participasse no desenvolvimento de todos, nem mesmo na maioria dos cancros humanos. A mutações oncogénicas mais comuns são no gene H-ras, encontradas em 10-15% de todos os tumores sólidos (Anderson· et a/., 1992). Os genes de supressão tumoral -mais frequentemente 'mutados são o gene TP53, delecionado homozigoticamente em aproximadamente 50% de todos os tumores, e CDKN2, o qual estava delecionado homozigoticamente em 46% de todas as linhas celulares de tumores examinadas (Kamb et al., 1994). Sem um alvo que seja comum a todas as células transformadas, o sonho de uma "bala mágica" que possa destruir ou reverter células cancerígenas deixando ao mesmo tempo o tecido normal não afectado é improvável. A esperança de uma nova geração de fármacos anti-tumorais especificamente direccionados pode estar na capacidade para se identificar genes de supressão tumoral ou onoogenes que desempenhem papéis genéricos no controlo da divisão celular.

Os genes de supressão tumoral que foram clonados e caracterizados influenciam a susceptibilidade para: 1) Retinoblastoma (RB 1); 2) Tumor de Wilms (WT1); 3) Li-Fraumeni (TP53); 4) Polipose familiar adenomatosa (APC); 5) Neurofibromatose tipo 1 (NF1); 6) Neurofibromatose tipo 2 (NF2); 7) Síndroma de von Hippel-Lindau (VHL); 8) Neoplasia endócrina múltipla tipo 2A (MEN2A); e 9) Melanoma (CDKN2).

Os loci de supressão tumoral que foram mapeados geneticamente mas que ainda não foram isolados incluem genes para: Neoplasia endócrina múltipla tipo 1 (MEN1); Síndroma familiar do cancro de Lynch 2 (LCFS2); Neuroblastoma (NB); Síndroma do nevo das células basais (BCNS); Síndroma de Beckwith-Wiedemann (BWS); Carcinoma das células renais (RCC); Esclerose tuberosa 1 (TSC1); e Esclerose tuberosa 2 (TSC2). Os genes de supressão tumoral que foram caracterizados ate agora codificam produtos com semelhanças a urna variedade de tipos de proteínas, incluindo proteínas de ligação ao ADN (WT1), reguladores de transcrição ancilares (RB1), proteínas de activação da GTPase ou

86 829 ΕΡ 699 754/ΡΤ GAP (NF1), componentes do citosqueleto (NF2), receptores-quinase ligados à membrana (MEN2A), reguladores do ciclo celular (CDKN2) e outras sem semelhanças óbvias com proteínas conhecidas (APC e VHL).

Em muitos casos, mostrou-se que o gene de supressão tumoral identificado originalmente através de estudos genéticos se perdeu ou foi mutado em alguns tumores esporádicos. Este resultado sugere que regiões de aberração cromossómica podem significar a posição de importantes genes de supressão tumoral envolvidos tanto na predisposição genética para o cancro comovem cancro esporádico. v~.''.λ

Uma das características principais de vários genes de supressão tumoral caracterizados até agora é a de que estes são delecionados com elevada frequência em certos tipos de tumores. As deleções envolvem frequentemente perda de um único alelo, uma designada perda de heterozigocidade (PDH), mas podem também envolver deleção homozigótica de ambos os alelos. Para PDH, presume-se que o alelo restante não seja funcional, devido a uma mutação herdada pré-existente, ou devido a uma mutação esporádica secundária. O cancro da mama é uma das doenças mais significativas que afectam as mulheres. À taxa actual, as mulheres americanas têm um risco de 1 em 8 de desenvolverem cancro da mama aos 95 anos (American Câncer Society, 1992). O tratamento do cancro da mama em estádios avançados é frequentemente inútil e desfigurante, tornando a detecção inicial uma elevada prioridade na gestão médica da doença. O cancro do ovário, embora menos frequente que o cancro da mama, é com frequência rapidamente fatal e é a quarta causa mais comum de mortalidade por cancro nas mulheres americanas. Os factores genéticos contribuem paro uma proporção definida por doença da incidência do cancro da mama, estimada como sendo cerca de 5% de todos os casos mas aproximadamente 25% dos casos diagnosticados antes dos 40 anos de idade (Claus et al., 1991). 0 cancro da mama foi subdividido em dois tipos, de aparecimento em idade precoce e de aparecimento em idade tardia, com base numa inflecção na curva de incidência específica para a idade por volta dos 50 anos. Pensa-se que a mutação de um gene, BRCA1, contribui para aproximadamente 45% do cancro da mama familiar, mas para pelo menos 80% das famílias com ambos os cancros da mama e do ovário (Easton et al., 1993). JSr*' ' \

85 829 EP 699 754/PT Têm-se procedido a esforços intensos para isolar o gene BRCA1 desde que este foi mapeado pela primeira vez em 1990 (Hall et al.t 1990; Narod et al., 1991). Um segundo locus, BRCA2, foi recentemente mapeado no cromossoma 13q (Wooster et al., 1994) e parece contribuir para uma proporção do cancro da mama de aparecimento precoce quase igual à de BRCA1, mas confere um risco menor de cancro do ovário. A restante susceptibilidade para cancro da mama de aparecimento precoce divide-se entre genes ainda não mapeados para cancro familiar, e rnulações raras da linha germinativa em genes tais como TP53 (Malkin et a!., 1990). Foi também sugerido que os portadores heterozigótinos de formas defeituosas do gene de Ataxia-Telangectasia têm maior· risco para cancro da mama (Swift et al., 1976; Swift et al., 1991). O cancro da mama de aparecimento em idade tardia é também frequentemente familiar embora os riscos em parentes não sejam tão elevados como os do cancro da mama de aparecimento precoce (Cannon-AIbright et al., 1994;

Mettlin et al., 1990). No entanto, a percentagem de tais casos devido a susceptibilidade genética é desconhecida. 0 cancro da mama foi à muito reconhecido como sendo, em parte, uma dnença familiar (Anderson, 1972). Numerosos investigadores examinaram a evidência de hereditariedade genética e concluíram que os dados são muito consistentes com hereditariedade dominante para um locus ou toei principais de susceptibilidade (Bishop e Gardner, 1980; Go et a!., 1983; Willams e Anderson, 1984; Bishop et al., 1988; Newman et a!., 1988; Claus et al., 1991). Resultados recentes demonstram que existem pelo menos três loci que conferem susceptibilidade para cancro da mama bem como para outros cancros. Estes loci são o locus TP53 no cromossoma 17p (Malkin et a!., 1990), um locus de susceptibilidade ligado a 17q conhecido como BRCA1 (Hall et a!., 1 990) e um ou mais loci responsáveis pelos residuais não mapeados. Hall et al., (1990) indicaram que a susceptibilidade herdada para cancro da mama em famílias com aparecimento em idade precoce está associada ao cromossoma 17q21; embora estudos subsequentes por este grupo utilizando um modelo genético mais apropriado tenham parcialmente refutado a limitação a cancro da mama de aparecimento precoce (Margaritte et a!., 1992). A maioria das estratégias para clonar o gene de predisposição para cancro da mama ligado a 17q (BRCA1) requerem estudos precisos de localização genética. O modelo mais simples para o papel funcional de BRCA1 5 85 829 ΕΡ 699 754/ΡΤ sustenta que os alelos de BRCA1 que predispõem para cancro são recessivos em relação aos alelos de tipo selvagem; isto é, as células que contêm pelo menos um alelo de BRCA1 de tipo selvagem não são cancerosas. No entanto, as células que contêm um alelo de BRCA1 de tipo selvagem e um alelo de predisposição podem ocasionalmente sofrer perda do alelo de tipo selvagem, por mutação aleatória ou por perda do cromossoma durante a divisão celular (não disjunção). Toda a descendência desta célula mutante não possui a função de tipo selvagem de BRCA1 e pode desenvolver-se em tumores. De acordo com este modelo, os alelos de predisposição de BRCA1 são recessivos, mas no • entanto a suaceptibilidade para cancro é herdada de uma formàTíTominante: as mulheres que possuem um alelo dé' predisposição (e um alelo de tipo selvagem) têm risco de desenvolver cancro, porque as suas células epiteliais mamárias podem perder espontaneamente o alelo de BRCA1 de tipo selvagem. Este modelo aplica-se a um grupo de toei de susceptibilidade para cancro conhecidos como de supressão tumoral ou anti-oncogenes, uma classe de genes que inclui o gene do retinoblastoma e o gene da neurofibromatose. Por inferência este modelo pode também explicar a função de BRCA1, tal como foi recentemente sugerido (Smith etal., 1992).

Uma segunda possibilidade é a de que os alelos de predisposição de BRCA1 sejam verdadeiramente dominantes; isto é, um alelo de tipo selvagem de BRCA1 não consegue superar o papel de formação tumoral do alelo de predisposição. Assim, uma célula que possua ambos os alelos de tipo selvagem e mutante não perderia necessariamente a cópia de tipo selvagem de BRCA1 antes de dar origem a células malignas. Pelo contrário, as células mamárias em indivíduos predispostos sofreriam outra ou outras alterações estocásticas que conduzem a cancro.

Se os alelos de predisposição de BRCA1 forem recessivos, espera-se que o gene BRCA1 seja expresso em tecido mamário normal mas não seja expresso funcionalmente em tumores mamários. Pelo contrário, se os alelos de predisposição de BRCA1 forem dominantes, o gene de tipo selvagem de BRCA1 pode ou não ser expresso em tecido mamário normal. No entanto, o alelo de predisposição será provavelmente expresso em células do tumor da mama. A associação de BRCA1 a 17q foi confirmada independentemente em três de cinco famílias com cancro da mama e cancro do ovário (Narod et a/., 6 85 829 ΕΡ 699 754/ΡΤ 1991). Estes estudos reivindicaram a localização do gene dentro de uma região muito grande, 15 centiMorgans (cM), ou aproximadamente 15 milhões de pares de bases, para ambos os lados do marcador associado pCMM86 (D17S74). No entanto, as tentativas para definir mais a região através de estudos genéticos, utilizando marcadores em redor de pCMMS6, não foram bem sucedidas. Estudos subsequentes indicaram que o gene era consideravelmente mais proximal (Easton et al., 1993) e que a análise original era imperfeita (Margaritte et a/., 1992). Hall et al., (1992) localizaram recentemente o gene BRCA1 num intervalo de aproximadamente 8 cM (aproximadamente 8 milhões de pares de bases) limitado por Mfd15' (5^1:7525.0) no lado proximal e pelo gene GIP humano no lado distai. Foi acordado um intervalo ligeiramente mais estreito para o locus BRCA1 no "Chromosome 17 workshop” em Março de 1992 (Fain, 1992), com base em dados publicamente disponíveis. 0 tamanho destas regiões e a incerteza que lhes está associada tornou extremamente difícil conceber e implementar o mapeamento físico e/ou estratégias de clonagem para isolamento do gene BRCA1. A identificação de um locus de susceptibilidade para cancro da mama permitiria a detecção precoce dc indivíduos susceptíveis e aumentaria grandemente a nossa capacidade para compreender os passos iniciais que conduzem a cancro. Como os loci de susceptibilidade são frequentemente alterados durante a progressão tumoral, a clonagem destes genes podia ser também importante no desenvolvimento de melhores produtos de diagnóstico e prognóstico, bem como melhores terapias do cancro.

SUMÁRIO DO INVENTO O presente invento refere-se de um modo geral ao campo da genctica humana. Especificamente, o presente invento refere-se a métodos e materiais utilizados para isolar e detectar um gene de predisposição para cancro da mama humano (BRCA1), alguns alelos que causam susceptibilidade a cancro, em particular cancro da mama e do ovário. Mais especificamente, o presente invento refere-se a mutações da linha germinativa no gene BRCA1 e à sua utilização no diagnóstico de predisposição para cancro da mama e do ovário. O invento refere-se ainda a mutações somáticas no gene BRCA1 em cancro da mama humano e à sua utilização no diagnóstico e prognóstico de cancro da mama e do ovário humanos. Adicionalmente, o invento refere-se a mutações

85 829 ΕΡ 699 754/ΡΤ somáticas no gene BRCA1 noutros cancros humanos e à sua utilização no diagnóstico e prognóstico de cancros humanos. O invento refere-se também à terapia de cancros humanos que tenham uma mutação no gene BRCA1, incluindo terapia génica, terapia de substituição proteica e imitações proteicas. O invento refere-se ainda à pesquisa de fármacos para terapia do cancro. Finalmente, o invento refere-se à pesquisa de mutações no gene BRCA1, as quais sejam úteis para diagnóstico da predisposição para cancro da mama e do ovário. BREVE DESCRICÂO DOS DESENHOS i A Figura 1 é um diagrama que mostra a ordem de loci na vizinhança de BRCA1 tal como determinado pelo "chromosome 17 workshop". A Figura 1 é reproduzida a partir de Fain, 1992. A Figura 2 é um mapa esquemático de YAC que definem parte da região Mfd1 5-Mfd188. A Figura 3 é um mapa esquemático dos STS, P1 e BAC na região de BRCA1. A Figura 4 é um mapa esquemático do cromossoma 17 humano. A região pertinente contendo BRCA1 está expandida para indicar as posições relativas de dois genes anteriormente identificados, CA125 e RNU2, BRCA1 abrange o marcador D17S855. A Figura 5 mostra o alinhamento do domínio "dedo-de-zinco" ("zinc-finger") do BRCA1 com outros 3 domínios dcdo-de-zinco que se classificaram no máximo num alinhamento de Smith-Waterman. RPT1 codifica uma proteína que parece ser um regulador negativo do receptor de IL-2 no ratinho. RIN1 codifica uma proteína de ligação a ADN que inclui um motivo dedo-de-RING relacionado com o dedo-de-zinco. RFP1 codifica um factor de transcrição putativo que é o domínio N-terminal do produto do oncogene RET. A linha inferior contém a sequência de consenso do dedo-de-zinco de C3HC4 mostrando as posições das cisteínas e uma histidina que formam o bolso de ligação aos iões de zinco. 8 86 829 ΕΡ 699 754/ΡΤ A Figura 6 é um diagrama do ARNm de BRCA1 que mostra as localizações dos intrões e as variantes do ARNm de BRCA1 produzidas por processamento alternativo. As localizações rios intrões são mostradas através de triângulos negros e os exões estão numerados por baixo da linha que representa o ADNc. O ADNc de cima é o compósito utilizado para gerar a sequência peptídica de BRCA1. As formas alternativas identificadas como clones de ADNc ou clones de selecção híbridos são mostradas abaixo. A Figura 7 mostra o padrão de expressão tissular de BRCA1. O “blot" foi obtido de Clontech e contém *ARN dos tecidos indicados. As condições de; hibridação foram as recomendadas pelo fabricante utilizando uma sonda que consiste nas posições nucleotídicas 3631 a 3930 de BRCA1. Note-se que tanto a mama como o ovário são tecidos heterogéneos e que a percentagem de células epiteliais relevantes pode ser variável. Os padrões de peso molecular são em quilobases. A Figura 8 é um diagrama da região 5' não traduzida mais o início da região traduzida de BRCA1 que mostra as localizações dos intrões e as variantes do ARNm de BRCA1 produzidas por processamento alternativo. As localizações dos intrões são mostradas por linhas tracejadas. São mostradas seis formas de processamento alternativo. A Figura 9A mostra uma mutação sem sentido na Família 2082. P indica a pessoa originalmente pesquisada, b e c são portadores do haplotipo, a, d, e, f e g não possuem o haplotipo de BRCA1. A mutação de C para T resulta num codão de terminação e cria um local para a enzima de restrição AvrW. Os produtos de amplificação por PCR são cortados com esta enzima. Os portadores são heterozigóticos para o local e mostram portanto três bandas. Os não portadores permanecem não cortados. A Figura 9B mostra uma mutação e análise de co-segregação em famílias com BRCA1. Os indivíduos portadores são representados como círculos e quadrados a cheio nos diagramas genealógicos. Mutação por desvio de enquadramento na Família 1910. As três primeiras pistas são amostras de não portadores, de controlo. As pistas marcadas como 1 -3 contêm sequências de indivíduos portadores. A pista 4 contém ADN de um membro da família que não possui a mutação de BRCA1. O losango é utilizado para evitar a identificação da 9 86 829 ΕΡ 699 754/ΡΤ família. Ο desvio de enquadramento resultante do C adicional é aparente nas pistas marcadas como 1, 2 e 3. A Figura 9C mostra uma mutação e análise de co-segregação em famílias com BRCA1. Os indivíduos portadores são representados como círculos e quadrados a cheio nos diagramas genealógicos. Mutação reguladora deduzida na Família 2035. Análise ASO dos portadores e não portadores de 2 polimorfismos diferentes (PM1 e PM7) que foram examinados quanto a heterozigocidade na linha germinativa e comparados à heterozigocidade do ARNm de linfócitos. As duas linhas superiores de cada painel, contêm produtos de PCR amplificados a partir de ADN genómico e as duas linhas inferiores contêm produtos de PCR amplificados a partir de ADNc. "A" e "G" são os dois alelos detectados através de ASO. Os pontos escuros indicam que um determinado alelo está presente na amostra. As três primeiras pistas de PM7 representam os três genótipos na população geral.

As Figuras 10A-10H mostram a sequência genómica de BRCA1. As letras minúsculas denotam a sequência de um intrão enquanto que as letras maiúsculas denotam a sequência de um exão. Os intervalos indefinidos dentro dos intrões são designados com vvvvvvvvvvvvv. Os locais polimórficos conhecidos são mostrados como letras sublinhadas e a cheio.

DESCRIÇÃO DETALHADA DO INVENTO O presente invento refere-se geralmente ao campo da genética humana. Especificamente, o presente invento refere-se a métodos e materiais utilizados para isolar e detectar um gene de predisposição para cancro da mama humano (BRCA1), alguns alelos do qual causam susccptibilidade a cancro, em particular cancro da mama e do ovário. Mais especificamente, o presente invento refere-se a mutações da linha germinativa no gene BRCA1 e à sua utilização no diagnóstico de predisposição para cancro da mama e do ovário. O invento refere-se ainda a mutações somáticas no gene BRCA1 em cancro da mama humano e à sua utilização no diagnóstico e prognóstico de cancro da mama e do ovário humanos. Adicionalmente, o invento refere-se a mutações somáticas no gene BRCA1 noutros cancros humanos e à sua utilização no diagnóstico e prognóstico de cancros humanos. O invento refere-se também à terapia de cancros humanos que tenham uma mutação no gene BRCA1, incluindo terapia 10 86 829 ΕΡ 699 754/ΡΤ génica, terapia de substituição proteica e imitações proteicas. O invento refere-se ainda à pesquisa de fármacos para terapia do cancro. Finalmente, o invento refere-se à pesquisa de mutações no gene BRCA1, as quais sejam úteis para diagnosticar a predisposição para cancro da mama e do ovário. O presente invento proporciona um polinucleótido isolado compreendendo todo ou parte do locus BRCA1 ou de um locus BRCA1 mutado, de preferência de pelo menos oito bases e não mais que cerca de 100 kb de comprimento. Tais polinucleótidos podem ser polinucleótidos anti-sentido. O presente invento proporciona também; .uma^construção recombinante compreendendo :tal polinucleótido isolado, por exemplo, uma construção recombinante adequada para expressão num célula hospedeira transformada. São também proporcionados pelo invento métodos de detecção de um polinucleótido compreendendo uma porção do locus BRCA1 ou do seu produto de expressão num objecto de análise. Tais métodos podem ainda compreender o passo de amplificação da porção do locus BRCA1, e podem ainda incluir um passo que proporciona um conjunto de polinucleótidos que sejam iniciadores para amplificação da referida porção do locus BRCA1. O método é útil para o diagnóstico da predisposição para cancro ou para o diagnóstico ou o prognóstico de cancro. O presente invento proporciona também anticorpos isolados, de preferência anticorpos monoclonais, que se ligam especificamente a um polipéptido isolado constituído por pelo menos cinco resíduos de aminoácido codificados pelo locus BRCA1. O presente invento proporciona também estojos para detecção num objecto de análise de um polinucleótido compreendendo uma porção do locus BRCA1, compreendendo os estojos um polinucleótido complementar à porção do locus BRCA1 embalado num recipiente adequado, e instruções para a sua utilização. O presente invento proporciona ainda métodos de preparação de um polinucleótido compreendendo nucleótidos de polimerização para produzir uma sequência constituída por pelo menos oito nucleótidos consecutivos do locus BRCA1; e métodos de preparação de um polipéptido compreendendo

85 829 ΕΡ 699 754/ΡΤ aminoácidos de polimerização para produzir uma sequência constituída por pelo menos cinco aminoácidos codificados pelo locus BRCA1. O presente invento proporciona ainda métodos de pesquisa do gene BRCA1 para identificar mutações. Tais métodos podem ainda compreender o passo de amplificação de uma porção do locus BRCA1, e podem ainda incluir um passo que proporciona um conjunto de polinucleótidos que sejam iniciadores para amplificação da referida porção do locus BRCA1. O método é útil para a identificação de mutações para utilização em diagnóstico da predisposição para cancro ou no diagnóstico ou prognóstico de cancro. O presente invento proporciona ainda métodos de pesquisa de alelos mutantes de BRCA1 suspeitos para identificar mutações no gene BRCA1.

Adicionalmente, o presente invento proporciona métodos de pesquisa de fármacos para terapia de cancro para identificar fármacos adequados para restaurar a função do produto do gene BRCA1.

Finalmente, o presente invento proporciona os meios necessários para a produção de terapias baseadas em genes dirigidas a células de cancro. Estes agentes terapêuticos podem tomar a forma de polinucleótidos compreendendo todo ou parte do locus BRCA1 colocados em vectores apropriados ou entregues a células alvo através de meios mais directos de forma a que a função da proteína BRCA1 seja reconstituída. Os agentes terapêuticos podem também tomar a forma de polipéptidos com base numa porção ou em toda a sequência proteica de BRCA1. Estes podem substituir funcionalmente a actividade de BRCA1 in vivo. É uma verificação do presente invento que o locus BRCA1 que predispõe indivíduos para cancro da mama e cancro do ovário, é um gene que codifica uma proteína BRCA1, a qual se verificou não ter uma homologia significativa com proteínas ou sequências de ADN conhecidas. Este gene é aqui designado BRCA1. É uma verificação do presente invento que mutações no locus BRCA1 na linha germinativa são indicadoras de uma predisposição para cancro da mama e cancro do ovário. Finalmente, é uma verificação do presente invento que mutações somáticas no locus BRCA1 estão também associadas a cancro da mama, cancro do ovário e outros cancros, o que representa um indicador

86 829 ΕΡ 699 754/ΡΤ 12 destes cancros ou do prognóstico destes cancros. Os eventos mutacionais do locus BRCA1 podem envolver deleções, inserções e mutações pontuais na sequência de codificação e na sequência que não de codificação. A partir de uma região no braço longo do cromossoma 17 humano do genoma humano, 17q, que possui um tamanho estimado de cerca de 8 milhões de pares de bases, foi identificada uma região que contém um locus genético, BRCA1, o qual causa susceptibilidade para cancro, incluindo cancro da mama e do ovário. A região contendo o locus BRCA1 foi identificada utilizando uma variedade de técnicas genéticas. As técnicas de mapeamento genético definiram inicialmente a região de BRCA1 em termos de recombinação com marcadores genéticos. Com base em estudos de famílias grandes alargadas ("famílias") com múltiplos casos de cancro da mama (e casos de cancro do ovário nalgumas famílias), foi apontada uma região cromossómica que contém o gene BRCA1 bem como outros alelos de susceptibilidade putativos no locus BRCA1. Foram identificados dois pontos de quebra meióticos no lado distai do locus BRCA1 os quais são expressos como recombinantes entre marcadores genéticos e a doença, e um recombinante no lado proximal do locus BRCA1. Assim, uma região que contém o locus BRCA1 está fisicamente limitada por estes marcadores.

A utilização de marcadores genéticos proporcionada por este invento permitiu a identificação de clones que cobrem a região a partir de uma biblioteca de cromossoma humano artificial de levedura (YAC) ou de cromossoma humano artificial bacteriano (BAC). Permitiu também a identificação e a preparação de clones cosmídicos, P1 e BAC mais facilmente manipulados a partir desta região e a construção de um elemento contíguo a partir de um subconjunto dos clones. Estes cosmídeos, P1, YAC e BAC proporcionam a base para a clonagem do locus BRCA1 e proporcionam a base para o desenvolvimento de reagentes eficazes, por exemplo, no diagnóstico e no tratamento de cancro da mama e/ou do ovário. O gene BRCA1 e outros potenciais genes de susceptibilidade foram isolados a partir desta região. O isolamento foi feito utilizando aprisionamento electrónico ("software trapping") (um método computacional para a identificação de sequências que provavelmente contêm exões de codificação, a partir de sequências de ADN 13 85 829 ΕΡ 699 754/ΡΤ genómico contíguas ou descontínuas), técnicas de selecção de híbridos e pesquisa directa, com inserções de ADNc inteiras ou parciais de cosmídeos, P1 e BAC, na região para pesquisar bibliotecas de ADNc. Estes métodos foram utilizados para se obter sequências de loci expressos na mama e noutro tecido. Estes loci candidatos foram analisados para identificar sequências que conferem susceptibilidade. Verificámos que existem mutações na sequência de codificação do locus BRCA1 em famílias, as quais são responsáveis pela susceptibilidade para cancro associada a 17q conhecida como BRCA1. Não se sabia que este gene estava nesta região. O presente invento não só facilita a detecção precoce de certos cancros, tão vital para a sobrevivência dos doentes, como também permite a detecção de indivíduos susceptíveis antes destes desenvolverem cancro.

Recursos Populacionais

As famílias grandes, bem documentadas do Utah são especialmente importantes para proporcionar bons recursos para estudos genéticos humanos. Cada família grande proporciona independentemente o poder de detectar se o alelo de susceptibilidade de BRCA1 está a ser segregado nessa família. Os recombinantes informativos quanto à localização e isolamento do locus BRCA1 podiam ser obtidos apenas a partir de famílias suficientemente grandes para se confirmar a presença de um alelo de susceptibilidade. Os grandes relacionamentos familiares são especialmente importantes para o estudo do cancro da mama, uma vez que a penetrância do alelo de susceptibilidade de BRCA1 é reduzida tanto pela idade como pelo sexo, tornando difícil de se encontrar relacionamentos familiares informativos. Para além disso, os grandes relacionamentos familiares são essenciais para a construção de haplotipos de indivíduos falecidos por inferência a partir dos haplotipos dos seus familiares próximos.

Embora outras populações possam também proporcionar informação benéfica, tais estudos requerem geralmente um esforço muito maior, e as famílias são normalmente muito menores e assim menos informativas. A incidência de cancro da mama ajustada à idade no Utah é 20% menor que a taxa média nos EUA. A menor incidência no Utah é provavelmente devida em grande parte a uma primeira gravidez em idade precoce, aumentando a probabilidade dos casos verificados nas famílias do Utah possuírem uma predisposição genética. 14 85 829 ΕΡ 699 754/ΡΤ

Mapeamento Genético

Dado um conjunto de famílias informativas, os marcadores genéticos são essenciais para a ligação de uma doença a uma região de um cromossoma. Tais marcadores incluem polimorfismos de tamanho de fragmentos de restrição (RFLP) (Botstein et a/., 1980), marcadores com um número variável de repetições em cadeia (VNTR) (Jeffreys et a!., 1985; Nakamura et al., 1987) e uma classe abundante de polimorfismos de ADN baseados em pequenas repetições em cadeia (STR), especialmente repetições de CpA (Weber e May, 1989; Litt et aí., 1989). Para gerar um mapa genético, seleccionam-se potenciais- marcadores' genéticos e testam-se utilizando ADN extraído , ·de: ! membros das famílias a serem estudadas.

Os marcadores genéticos úteis na pesquisa de um locus genético associado a uma doença podem ser seleccionados numa base ad hoc, cobrindo densamente um cromossoma específico, ou através de análise detalhada de uma região específica de um cromossoma. Um método preferido para a selecção de marcadores genéticos ligados a uma doença envolve a avaliação do grau de capacidade de informação das famílias para determinar a distância ideal entre os marcadores genéticos de um dado grau de polimorfismo, seleccionando depois marcadores a partir de mapas genéticos conhecidos que sejam idealmente espaçados para uma eficiência máxima. A capacidade de informação das famílias é medida através da probabilidade dos marcadores serem heterozigóticos em indivíduos não relacionados. É também muito eficiente utilizar marcadores de STR os quais são detectados por amplificação da sequência de ácido nucleico alvo utilizando PCR; tais marcadores são altamente informativos, fáceis de ensaiar (Weber e May, 1989) e podem ser ensaiados simultaneamente utilizando estratégias múltiplas (Skolnick e Wallace, 1988), reduzindo grandemente o número de experiências necessárias.

Uma vez estabelecida uma associação, é necessário encontrar marcadores que flanqueiem o locus da doença, i.e., um ou mais marcadores proximais ao locus da doença, e um ou mais marcadores distais ao locus da doença. Quando possível, os marcadores candidatos podem ser seleccionados a partir de um mapa genético conhecido. Quando não é conhecido nenhum, podem ser identificados novos marcadores através da técnica de STR, tal como mostrado nos Exemplos.

85 829 ΕΡ 699 754/ΡΤ Ο mapeamento genético é normalmente um processo iterativo. No presente invento, começou pela definição dos marcadores genéticos de flanqueamento em torno do locus BRCA1, substituindo depois estes marcadores de flanqueamento por outros marcadores que estavam sucessivamente mais próximos do locus BRCA1. Como passo inicial, os eventos de recombinação, definidos por famílias grandes alargadas, ajudaram especificamente a localizar o locus BRCA1 como distai ou proximal em relação a um marcador genético específico (Goldgar et al., 1994). A região em volta de BRCA1, até à divulgação do presente invento, não estava bem mapeada e havia poucos marcadores. Portanto, pequenas sequências repetitivas em cosmídeos subclonados a partir de YAC, as quais tenham sido mapeadas fisicamente, foram analisadas de forma a desenvolver novos marcadores genéticos. Utilizando esta abordagem, identificou-se um marcador do presente invento, 42D6, o qual substituiu pCMM86 como marcador de flanqueamento distai para a região de BRCA1. Uma vez que 42D6 está a aproximadamente 14 cM de pCMM86, a região de BRCA1 foi assim reduzida em aproximadamente 14 centiMorgans (Easton et al., 1993). O presente invento começou assim por encontrar um marcador de flanqueamento distai muito mais proximamente ligado da região de BRCA1. Verificou-se então que BRCA1 era distai em relação ao marcador genético Mfd15. Portanto, mostrou-se que BRCA1 estava numa região de 6 a 10 milhões de bases limitada por Mfd15 e 42D6. Foi subsequentemente verificado que o marcador Mfd191 era distai em relação a Mfdlõ e proximal a BRCA1. Assim, Mfd15 foi substituído por Mfd191 como o marcador genético proximal mais próximo. De forma semelhante, verificou-se que o marcador genético Mfd188 podia substituir o marcador genético 42D6, estreitando a região que contém o locus BRCA1 para aproximadamente 1,5 milhões de bases. Depois o marcador Mfd191 foi substituído por tdj1474 como marcador proximal e Mfd188 foi substituído por U5R como marcador distai, estreitando ainda mais a região de BRCA1 para uma região suficientemente pequena para permitir o isolamento e a caracterização do locus BRCA1 (ver Figura 3), utilizando técnicas conhecidas na arte tal como aqui descrito.

Mapeamento Físico

Foram empregues três métodos distintos para mapear fisicamente a região. O primeiro foi a utilização de cromossomas artificiais de leveduras (YAC)

85 829 ΕΡ 699 754/ΡΤ para clonar a região que é flanqueada por tdj1474 e U5R. O segundo foi a criação de um conjunto de clones de P1, BAC e cosmídicos que cubram a região contendo o locus BRCA1.

Cromossomas Artificiais de Leveduras (YAC). Uma vez identificada uma região suficientemente pequena contendo o locus BRCA1, o isolamento físico do ADN na região prosseguiu identificando-se um conjunto de YAC sobrepostos que cobrissem a região. YAC úteis podem ser isolados a partir de bibliotecas conhecidas, tais como as bibliotecas de YAC de St. Louis e de CEPH, que estão amplamente distribuídos e contêm aproximadamente 50000 YAC cada. Os YAC1 ·< isolados eram destas bibliotecas publicamente acessíveis e podem ser obtidos a partir de várias fontes incluindo o Michigan Genome Center. Claramente, outros que tiveram acesso a estes YAC, sem a divulgação do presente invento, não teriam sabido o valor dos YAC específicos que seleccionámos uma vez que não sabiam quais os YAC que estavam dentro e quais os YAC que estavam fora da região mais pequena contendo o locus BRCA1.

Clones Cosmídicos. de P1 e BAC. No presente invento, é vantajoso prosseguir obtendo clones cosmídicos, de P1 e BAC para cobrir esta região. O menor tamanho destas inserções, em comparação com as inserções de YAC, torna-as mais úteis como sondas de hibridação específicas. Para além disso, ter o ADN clonado em células bacterianas, em vez de células de levedura, aumenta grandemente a facilidade com que o ADN de interesse pode ser manipulado, e melhora a razão sinal-ruído dos ensaios de hibridação. Para os subclones cosmídicos de YAC, o ADN é parcialmente digerido com a enzima de restrição Sau3A e clonado no local BamYW do vector cosmídico pWE15 (Stratagene, cat. #1251201). Os cosmídeos contendo sequências humanas são pesquisados por hibridação com ADN repetitivo humano (p.ex. Gibco/BRL, Human C0t-1 DNA, cat. 5279SA) e depois analisando as "impressões digitais" através de uma variedade de técnicas, tal como detalhado nos Exemplos.

Os clones de P1 e BAC são obtidos por pesquisa de bibliotecas construídas a partir do genoma total humano com locais marcados de sequência específicos (STS) derivados dos YAC, cosmídeos ou P1 e BAC, isolados tal como aqui descrito. 17 86 829 ΕΡ 699 754/ΡΤ

Estes clones de Ρ1, BAC e cosmídicos podem ser comparados através de PCR de sequências repetitivas espalhadas (IRS) e/ou digestões por enzimas de restrição seguidas por electroforese em gel e comparação dos fragmentos de ADN resultantes ("impressões digitais") (Maniatis et al., 1982). Os clones podem também ser caracterizados através da presença de STS. As impressões digitais são utilizadas para definir um conjunto de clones contíguo com sobreposição que cubra a região mas que não seja excessivamente redundante, aqui referido como "caminho de cobertura mínima". Tal caminho de cobertura mínima forma a base para experiências subsequentes para identificar ADNc que se podem originar a partir do locus> BRCA1. .

Cobertura do Hiato com Clones de P1 e BAC. Para cobrir quaisquer hiatos no elemento contíguo de BRCA1 entre os cosmídeos identificados com clones genómicos, foram utilizados clones em vectores P1 e BAC que contêm inserções de ADN genómico aproximadamente duas vezes maiores que os cosmídeos para os P1 e ainda maiores para os BAC (Stemberg, 1990; Sternberg et al., 1990; Pierce et al., 1992; Shizuya et al., 1992). Os clones de P1 foram isolados por Genome Sciences utilizando iniciadores de PCR por nós proporcionados para pesquisa. Os BAC foram proporcionados através de técnicas de hibridação no laboratório do Dr. Mel Simon. A estratégia de utilização de clones de P1 permitiu também a cobertura da região genómica com um conjunto independente de clones não derivados de YAC. Isto previne a possibilidade de outras deleções em YAC que não tenham sido detectadas. Estas novas sequências derivadas dos clones de P1 proporcionam o material para pesquisar ainda quanto a genes candidatos, tal como descrito abaixo.

Isolamento de Genes.

Existem muitas tccnicos para testar clones genómicos quanto à presença de prováveis sequências candidatas à sequência de codificação de um locus que se está a tentar isolar, incluindo mas não se limitando a: a. “zoo blots"

b. identificação de ilhas HTF c. aprisionamento de exões

d. hibridação de ADNc com cosmídeos ou YAC e. pesquisa de bibliotecas de ADNc 18 85 829 ΕΡ 699 754/ΡΤ (a) "Zoo blots". A primeira técnica é hibridar cosmídeos com "Southern blots" para identificar sequências de ADN que sejam evolutivamente conservadas, e que dão portanto sinais de hihridação positivos com ADN de espécies de vários graus de parentesco com os humanos (tais como macaco, vaca, galinha, porco, ratinho e rato). "Southern blots” contendo tal ADN de uma variedade de espécies estão comercialmente disponíveis (Clonetech, Cat. 7753-1). (b) Identificação de ilhas HTF. A segunda técnica envolve a identificação de regiõès ricas nos nucleótidos C e G, as quais ocorrem frequéntémente perto ou dentro de sequências de codificação. Tais sequências são chamadas ilhas HTF (fragmento Hpa\ minúsculo) ou CpG, uma vez que enzimas de restrição específicas para locais que contêm dímeros de CpG cortam frequentemente nestas regiões (Lindsay et a!., 1987). (c) Aprisionamento de exões. A terceira técnica é o aprisionamento de exões, um método que identifica sequências no ADN genómico que contêm junções de união e portanto é provável que compreendam sequências de codificação de genes. A amplificação de exões (Buckler et a/., 1991) é utilizada para seleccionar e amplificar exões a partir de clones de ADN descritos abaixo. A amplificação de exões baseia-se na selecção de sequências de ARN que são flanqueadas por locais de união funcionais a 5' e/ou 3'. Os produtos da amplificação de exões são utilizados para pesquisar as bibliotecas de ADNc da mama para identificar um número manejável de genes candidatos para estudo posterior. O aprisionamento de exões pode também ser efectuado em pequenos segmentos de ADN sequenciado utilizando programas de computador ou através de aprisionamento electrónico. (d) Hibridacão de ADNc com Cosmídeos. P1, BAC ou YAC. A quarta técnica é uma modificação da técnica de enriquecimento selectivo a qual utiliza a hibridacão de ADNc com cosmídeos, P1, BAC ou YAC e permite que sequências transcritas sejam identificadas em, e recuperadas a partir de, ADN genómico clonado (Kandpal et al., 1990). A técnica de enriquecimento selectivo, tal como modificada para o presente fim, envolve a ligação de ADN da região de BRCA1 presente num YAC a uma matriz de coluna e a selecção de ADNc a partir das bibliotecas relevantes que hibridem com o ADN ligado, seguido de amplificação e purificação do ADN ligado, resultando num maior

85 829 ΕΡ 699 754/ΡΤ enriquecimento quanto a ADNc na região representada pelo ADN genómico clonado. (e) Identificação de ADNc. A quinta técnica consiste em identificar ADNc que correspondam ao locus BRCA1. São utilizadas sondas de hibridação contendo sequências de codificação putativas, seleccionadas utilizando qualquer uma das técnicas de cima, para pesquisar várias bibliotecas, incluindo bibliotecas de ADNc de tecido da mama, bibliotecas de ADNc de ovário e quaisquer outras bibliotecas necessárias. ;« t > » !?·. ' ' * ,

Oufra variação sobre o tema de selecção directa de ADNc foi também utilizada para encontrar genes candidatos para BRCA1 (Lovett et a/., 1991; Futreal, 1993). Este método utiliza ADN cosmídico, de P1 ou BAC como sonda. O ADN-sonda é digerido com uma enzima de restrição que corta com extremidades lisas tal como HaeIII. Adaptadores de cadeia dupla são então ligados ao ADN e servem como locais de ligação para iniciadores em subsequentes reacções de amplificação por PCR utilizando iniciadores biotinilados. O ADNc alvo é gerado a partir de ARNm derivado de amostras de tecido, p.ex., tecido da mama, através de síntese da primeira cadeia iniciada aleatoriamente ou iniciada com oligo(dT) seguido por síntese da segunda cadeia. As extremidades do ADNc são tornadas lisas e ligadas aos adaptadores de cadeia dupla. Estes adaptadores servem como locais de amplificação para PCR. O alvo e as sequências-sonda são desnaturadas e misturadas com ADN C0t-1 humano para bloquear as sequências repetitivas. A hibridação em solução é efectuada para valores elevados de C0t-1/2 para assegurar a hibridação de moléculas de ADNc alvo raras. O material hibridado é então capturado em contas de avidina, lavado em condições altamente rigorosas e os ADNc retidos são eluídos e amplificados por PCR. O ADNc seleccionado é sujeito a mais ciclos de enriquecimento antes da clonagem num vector plasmídico para análise.

Teste do ADNc quanto a Capacidade para ser Candidato A prova de que o ADNc é o locus BRCA1 é obtida encontrando sequências no ADN extraído de membros de famílias afectadas que criem produtos do gene BRCA1 anormais ou níveis anormais de produto do gene BRCA1. Tais alelos de susceptibilidade de BRCA1 co-segregarão com a doença em famílias grandes. Também estarão presentes numa frequência muito mais r

85 829 EP 699 754/PT 20

elevada em indivíduos não aparentados com cancro da mama e do ovário do que em indivíduos na população geral. Finalmente, uma vez que os tumores mutam frequentemente de modo somático em loci que estão noutros casos mutados na linha germinativa, esperamos ver alelos de BRCA1 da linha germinativa normais mutados em sequências que sejam idênticas ou semelhantes aos alelos de susceptibilidade de BRCA1 em ADN extraído de tecido tumoral. Quer se comparem as sequências de BRCA1 de tecido tumoral com alelos de BRCA1 da linha germinativa dos mesmo indivíduos, quer se comparem os alelos de BRCA1 da linha germinativa de casos de cancro com os de ‘indivíduos não afectados, a chave é encontrar mutações1 .sqúe.. sejam suficientemente graves para causar a ruptura óbvia da função normal do produto do gene. Estas mutações podem tomar várias formas. As formas mais graves seriam mutações por desvio de enquadramento ou grandes deleções que fariam com que o gene codificasse para uma proteína anormal ou uma que alterasse significativamente a expressão da proteína. Mutações com efeito de ruptura menos graves incluiriam pequenas deleções em enquadramento e substituições de pares de bases não conservativas que teriam um efeito significativo na proteína produzida, tais como alterações de um ou para um resíduo de cisteína, de um aminoácido básico para um ácido ou vice versa, de um aminoácido hidrófobo para um hidrófilo ou vice versa, ou outras mutações que afectariam a estrutura secundária, terciária ou quaternária da proteína. Geralmente não se espera que mutações silenciosas ou as que resultam em substituições de aminoácidos conservativas provoquem a ruptura da função da proteína.

De acordo com o método de diagnóstico e prognóstico do presente invento, é detectada a alteração do locus BRCA1 de tipo selvagem. Adicionalmentc, o metodo pode 3er efectuado detectando o locus BRCA1 de tipo selvagem e confirmando a ausência de uma predisposição para cancro no locus BRCA1. A "alteração de um gene de tipo selvagem" engloba todas as formas de mutações incluindo deleções, inserções e mutações pontuais nas regiões de codificação e não de codificação. As deleções podem ser de todo o gene ou de apenas uma porção do gene. As mutações pontuais podem resultar em codões de terminação, mutações por desvio de enquadramento ou substituições de aminoácidos. Mutações somáticas são as que ocorrem apenas em certos tecidos, p.ex., no tecido tumoral, e não são herdadas na linha germinativa. Mutações da linha germinativa podem ser encontradas em qualquer 21 85 829 ΕΡ 699 754/ΡΤ um dos tecidos do corpo e são herdadas. Se apenas um único alelo está somaticamente mutado, é indicado um estado neoplásico precoce. No entanto, se ambos os alelos estão somaticamente mutados, então é indicado um estado neoplásico tardio. A identificação de mutações de BRCA1 proporciona assim informação tanto de diagnóstico como de prognóstico. Um alelo de BRCA1 que não esteja delecionado (p.ex., encontrado no cromossoma irmão de um cromossoma portador de uma deleção de BRCA1) pode ser pesquisado quanto a outras mutações, tais como inserções, pequenas deleções e mutações pontuais. Crê-se que muitas mutações encontradas em tecidos tumorais serão as que conduzem a expressão reduzida:· do: produto do gene BRCA1. No entanto, as mutações que conduzem a produtos não funcionais do gene conduziriam também a um estado canceroso. Os eventos mutacionais pontuais podem ocorrer em regiões reguladoras, tais como no promotor do gene, conduzindo a perda ou diminuição da expressão do ARNm. As mutações pontuais podem também abolir o processamento correcto do ARN, conduzindo a perda de expressão do produto do gene BRCA1, ou a uma diminuição na estabilidade do ARNm ou da eficiência da tradução. Técnicas de diagnóstico úteis incluem, mas não se limitam a, hibridação in situ fluorescente (FISH), sequenciação directa de ADN, análise de PFGE, análise de "Southern blot", análise de conformação de cadeia simples (SSCA), ensaio de protecção de ARNase, oligonucleótido específico para o alelo (ASO), análise de "dot blot" e PCR-SSCP, tal como discutido em detalhe mais abaixo. A predisposição para cancros, tais como cancro da mama e do ovário, e os outros cancros aqui identificados, pode ser avaliada testando qualquer tecido de um humano quanto a mutações do gene BRCA1. Por exemplo, uma pessoa que herdou uma mutação de BRCA1 da linha germinativa seria propensa a desenvolver cancros. Isto pode ser determinado testando ADN de qualquer tecido do corpo da pessoa. Mais simplesmente, pode ser recolhido sangue e extraído o ADN das células do sangue. Adicionalmente, o diagnóstico pré-natal pode ser realizado testando células fetais, células placentárias ou células amnióticas quanto a mutações do gene BRCA1. A alteração de um alelo de BRCA1 de tipo selvagem, por exemplo, por mutação pontual ou por deleção, pode ser detectada através de qualquer um dos meios aqui discutidos.

86 829 ΕΡ 699 754/ΡΤ 22

Existem vários métodos que podem ser utilizados para detectar uma variação na sequência de ADN. A sequenciação directa de ADN, tanto sequenciação manual como sequenciação fluorescente automática, pode detectar variação de sequência. Para um gene tão grande como BRCA1, a sequenciação manual é muito trabalhosa, mas sob condições óptimas, as mutações na sequência de codificação de um gene raramente não são detectadas. Outra abordagem é o ensaio de polimorfismo de conformação da cadeia simples (SSCA) (Orita et al., 1989). Este método não detecta todas as mudanças na sequência, especialmente se o tamanho do fragmento de ADN for ^uperior.ra 200 pb, mas pode ser optimizado para detectar a,j:maior parte da variação da sequência de ADN. A reduzida sensibilidade de detecção é uma desvantagem, mas a maior capacidade de carga com SSCA torna-o numa alternativa atractiva e viável à sequenciação directa para detecção de mutações numa base de investigação. Os fragmentos que sofreram desvios de mobilidade em geles de SSCA são então sequenciados para determinar a natureza exacta da variação da sequência de ADN. Outras abordagens baseadas na detecção de emparelhamentos errados entre as duas cadeias de ADN complementares incluem electroforese em gel desnaturante fixo (CDGE) (Sheffield et al., 1991), análise de heterodúplices (HA) (White et a!., 1992) e clivagem química de emparelhamentos errados (CMC) (Grompe et al., 1989). Nenhum dos métodos acima descritos detectará grandes deleções, duplicações ou inserções, nem detectará uma mutação reguladora que afecte a transcrição ou tradução da proteína. Outros métodos que podiam detectar estas classes de mutações tais como um ensaio de truncamento de proteínas ou o ensaio assimétrico, detectam apenas tipos específicos de mutações e não detectariam mutações de sentido errado. Uma revisão dos métodos actualmente disponíveis de detecção de variação na sequência de ADN pode ser encontrada numa revisão recente por Grompe (1993). Uma vez conhecida uma mutação, uma abordagem de detecção específica para o alelo tal como hibridação com um oligonucleótido específico para o alelo (ASO) pode ser utilizada para pesquisar rapidamente um grande número de outras amostras quanto à mesma mutação.

Para detectar a alteração do gene BRCA1 de tipo selvagem num tecido, é útil isolar o tecido sem os tecidos normais circundantes. Os meios de enriquecimento da preparação de tecido quanto a células tumorais são conhecidos na arte. Por exemplo, o tecido pode ser isolado a partir de cortes em parafina ou de criostato. As células cancerígenas podem também ser 23 85 829 ΕΡ 699 754/ΡΤ separadas das células normais através de citometria de fluxo. Estas técnicas, bem como outras técnicas para separação de células tumorais de células normais, são bem conhecidas na arte. Se o tecido tumoral estiver altamente contaminado com células normais, a detecção de mutações é mais difícil.

Uma análise preliminar rápida para detectar polimorfismos em sequências de ADN pode ser efectuada observando uma série de "Southern bfots" de ADN cortado com uma ou mais enzimas de restrição, de preferência com um grande número de enzimas de restrição. Cada “blot" contém uma série de indivíduos normais e uma série ;de casos , de>.cancro, tumores ou ambos. Os "Southern blots” que apresentem fragmentos de hibridação (que difiram no comprimento em relação ao ADN de controlo quando sondados com sequência próximas ou que incluem o locus BRCA1) indicam uma possível mutação. Se forem utilizadas enzimas de restrição que produzam fragmentos de restrição muito grandes, então é empregue a electroforese em gel com campo pulsado (PFGE). A detecção de mutações pontuais pode ser alcançada através de clonagem molecular do(s) alelo(s) de BRCA1 e sequenciação do(s) alelo(s) utilizando técnicas bem conhecidas na arte. Alternativamente, as sequências génicas podem ser amplificadas directamente a partir de uma preparação de ADN genómico de tecido tumoral, utilizando técnicas conhecidas. A sequência de ADN das sequências amplificadas pode então ser determinada.

Existem seis métodos bem conhecidos para um teste mais completo, mas ainda assim indirecto, para confirmação da presença de um alelo de susceptibilidade: 1) análise de conformação de cadeia simples (SSCA) (Orita et a/., 1989); 2) electroforese em gel com gradiente desnaturante (DGGE) (Wartell et a/., 1990; Sheffield ct a!., 1989); 3) ensaios de protecção de ARNase (Finkelstein et al.t 1990; Kinszler et a/., 1991); 4) oligonucleótidos específicos para o alelo (ASO) (Conner et al., 1983); 5) a utilização de proteínas que reconhecem emparelhamentos errados de nucleótidos, tais como a proteína mutS de E. coíi (Modrich, 1991); e 6) PCR específica para o alelo (Rano & Kidd, 1989). Para a PCR específica para o alelo, são utilizados iniciadores que hibridam nas suas extremidades 3' com uma determinada mutação de BRCA1. Se essa determinada mutação de BRCA1 não estiver presente, não se observa um produto de amplificação. Pode também ser utilizado o Sistema de Mutações Refractário por Amplificação (ARMS), tal como divulgado na Publicação do 85 829 ΕΡ 699 754/ΡΤ 24 /Sr***

Pedido de Patente Europeia N° 0332435 e em Newton et af., 1989. As inserções e deleções de genes podem também ser detectadas através de clonagem, sequenciação e amplificação. Adicionalmente, podem ser utilizadas sondas de polimorfismo de tamanho de fragmentos de restrição (RFLP) para o gene ou para os genes marcadores circundantes, para classificar a alteração de um alelo ou uma inserção num fragmento polimórfico. Tal método é particularmente útil para pesquisar familiares de um indivíduo afectado quanto à presença da mutação de BRCA1 verificada nesse indivíduo. Podem ser utilizadas outras técnicas para a detecção de inserções e deleções tal como é conhecido na arte. .....

Nos três primeiros métodos (SSCA, DGGE e ensaio de protecção de ARNase), aparece uma nova banda electroforética. A SSCA detecta uma banda que migra diferencialmente porque a mudança na sequência causa uma diferença no emparelhamento das bases da cadeia simples, intramolecular. A protecção de ARNase envolve a clivagem do polinucleótido mutante em dois ou mais fragmentos mais pequenos. A DGGE detecta diferenças nas taxas de migração de sequências mutantes em comparação com sequências de tipo selvagem, utilizando um gel com gradiente desnaturante. Num ensaio de oligonucleótidos específico para o alelo, é concebido um oligonucleótido que detecta uma sequência específica, e o ensaio é efectuado através da detecção da presença ou ausência de um sinal de hibridação. No ensaio de mutS, a proteína liga-se apenas a sequências que contenham um nucleótido mal emparelhado numa heterodúplice entre as sequências mutante e de tipo selvagem.

Os erros de emparelhamento, de acordo com o presente invento, são dúplices de ácido nucleico hibridades cm que as duas cadeias não são 100% complementares. A falta de total homologia pode ser devida a deleções, inserções, inversões ou substituições. A detecção de erros de emparelhamento pode ser utilizada para detectar mutações pontuais no gene ou no produto do seu ARNm. Embora estas técnicas sejam menos sensíveis que a sequenciação, são mais simples de efectuar para um grande número de amostras de tumores. Um exemplo de uma técnica de clivagem de emparelhamento errado é o método de protecção de ARNase. Na prática do presente invento, o método envolve a utilização de uma ribossonda marcada que é complementar à sequência de codificação do gene BRCA1 de tipo selvagem humano. A ribossonda e ou o 25 85 829 ΕΡ 699 754/ΡΤ ARNm ou ο ADN isolado do tecido tumoral são ligados (hibridados) um com o outro e subsequentemente digeridos com a enzima ARNase A que é capaz de detectar alguns emparelhamentos errados numa estrutura dúplice de ARN. Se um emparelhamento errado for detectado pela ARNase A, esta cliva no local do emparelhamento errado. Assim, quando a preparação de ARN hibridado é separada numa matriz de gel electroforética, se foi detectado um emparelhamento errado e clivado pela ARNase A, será observado um produto de ARN que é menor que o ARN dúplice completo para a ribossonda e o ARNm ou ADN. A ribossonda não necessita de ser o ARNm ou gene BRCA1 inteiro mas pode ser um segmento de um destes. Se a ribossonda compreender apenas um segmento do ARNm ou gene BRCA1, será desejável utilizar várias destas sondas para pesquisar toda a sequência do ARNm quanto a emparelhamentos errados.

De modo semelhante, podem ser utilizadas sondas de ADN para detectar emparelhamentos errados, através de clivagem enzimática ou química. Ver, p.ex., Cotton et a!., 1988; Shenk et a!., 1975; Novack et a!., 1986. Alternativamente, os emparelhamentos errados podem ser detectados através de desvios de mobilidade electroforética de dúplices mal emparelhadas em relação a dúplices bem emparelhadas. Ver, p.ex., Cariello, 1988. Quer com ribossondas quer com sondas de ADN, o ARNm ou o ADN celulares que podiam conter uma mutação podem ser amplificados utilizando PCR (ver abaixo) antes da hibridação. As alterações no ADN do gene BRCA1 podem também ser detectadas utilizando hibridação "Southern", especialmente se as mudanças forem rearranjos grosseiros, tais como deleções e inserções.

As sequências de ADN do gene BRCA1 que foram amplificadas através da utilização de PCR podem também ser pesquisadas utilizando sondas específicas para os alelos. Estas sondas são oligómeros de ácido nucleico, cada um contendo uma região da sequência do gene BRCA1 portadora de uma mutação conhecida. Por exemplo, um oligómero pode ter cerca de 30 nucleótidos de comprimento, correspondendo a uma porção da sequência do gene BRCA1. Através da utilização de uma bateria destas sondas específicas para os alelos, os produtos de amplificação por PCR podem ser pesquisados para identificar a presença de uma mutação previamente identificada no gene BRCA1. A hibridação de sondas específicas para os alelos com as sequências de BRCA1 amplificadas pode ser efectuada, por exemplo, num filtro de nylon. A 26 85 829 ΕΡ 699 754/ΡΤ hibridação com uma determinada sonda sob condições rigorosas de hibridação indica a presença da mesma mutação no tecido tumoral que na sonda específica para o alelo. O teste mais definitivo para mutações num locus candidato é o de comparar directamente sequências genómicas de BRCA1 de doentes de cancro com as de uma população de controlo. Alternativamente, pode-se sequenciar ARN mensageiro após amplificação, p.ex., por PCR, eliminando deste modo a necessidade de determinação da estrutura do exão do gene candidato.

Mutações de doentes de cancro que caiam fora da região de codificação de BRCA1 podem ser detectadas examinando as regiões que não de codificação, tais como intrões e sequências reguladoras próximas ou dentro do gene BRCA1. Uma indicação precoce de que mutações em regiões que não de codificação são importantes pode vir de experiências de "Northern blot" que revelem moléculas de ARN mensageiro de tamanho ou em abundância anormais em doentes de cancro, em comparação com indivíduos de controlo. A alteração da expressão do ARNm de BRCA1 pode ser detectada através de quaisquer técnicas conhecidas na arte. Estas incluem análise de "Northern blot", amplificação por PCR e protecção de ARNase. A expressão reduzida de ARNm indica uma alteração do gene BRCA1 de tipo selvagem. A alteração de genes BRCA1 de tipo selvagem pode também ser detectada pesquisando quanto a alteração da proteína BRCA1 de tipo selvagem. Por exemplo, podem ser utilizados anticorpos monoclonais imunorreactivos com BRCA1 para pesquisar um tecido. A falta de um antigénio cognato indicaria uma mutação de BRCA1. Anticorpos específicos para produtos de alelos mutantes podiam também ser utilizados para detectar o produto do gene BRCA1 mutante. Tais ensaios imunológicos podem ser feitos em qualquer um dos formatos convenientes conhecidos na arte. Estes incluem "Western blots", ensaios imuno-histoquímicos e ensaios ELISA. Qualquer meio para detecção de uma proteína BRCA1 alterada pode ser utilizado para detectar alteração dos genes BRCA1 de tipo selvagem. Podem ser utilizados ensaios funcionais, tais como determinações de ligação a proteínas. Adicionalmente, podem ser utilizados ensaios que detectem a função bioquímica de BRCA1. A determinação de um produto do gene BRCA1 mutante indica alteração de um gene BRCA1 de tipo selvagem. 27 85 829 ΕΡ 699 754/ΡΤ

Os genes ou produtos dos genes BRCA1 mutantes podem também ser detectados noutras amostras do corpo humano, tais como soro, fezes, urina e esputo. As mesmas técnicas discutidas acima para a detecção de genes ou produtos de genes BRCA1 mutantes em tecidos podem ser aplicadas a outras amostras corporais. As células de cancro desprendem-se dos tumores e aparecem nestas amostras corporais. Adicionalmente, o próprio produto do gene BRCA1 pode ser segregado para o espaço extracelular e encontrar-se nestas amostras corporais mesmo na ausência de células de cancro. Através da pesquisa de tais amostras corporais, pode ser conseguido um diagnóstico precoce simples para muito tipos de cancros. Adicionalmente, o progresso da quimioterapia ou da radioterapia pode ser monitorizado mais facilmente testando tais amostras corporais quanto a genes ou produtos de genes BRCA1 mutantes.

Os métodos de diagnóstico do presente invento são aplicáveis a qualquer tumor no qual BRCA1 tenha um papel na tumorigénese. O método de diagnóstico do presente invento é útil para clínicos, para que estes possam decidir sobre um curso de tratamento apropriado.

Os pares iniciadores do presente invento são úteis para a determinação da sequência nucleotídica de um determinado alelo de BRCA1 utilizando PCR. Os pares de iniciadores de ADN de cadeia simples podem ser ligados a sequências dentro ou à volta do gene BRCA1 no cromossoma 17q21 de forma a iniciar a amplificação da síntese de ADN do próprio gene BRCA1. Um conjunto completo destes iniciadores permite a síntese de todos os nucleótidos das sequências de codificação do gene BRCA1, i.e., dos exões. O conjunto de iniciadores permite de preferência a síntese de sequências tanto de intrões como de exões. Podem também ser utilizados iniciadores específicos para o alelo. Tais iniciadores hibridam apenas com determinados alelos mutantes de BRCA1, e assim apenas amplificarão um produto na presença do alelo mutante como molde.

Para facilitar a subsequente clonagem das sequências amplificadas, os iniciadores podem ter sequências de locais de enzimas de restrição anexadas às suas extremidades 5'. Assim, todos os nucleótidos dos iniciadores são derivados das sequências de BRCA1 ou de sequências adjacentes a BRCA1, 28 85 829 ΕΡ 699 754/ΡΤ excepto os poucos nucleótidos necessários para formar um local para uma enzima de restrição. Tais enzimas e locais são bem conhecidos na arte. Os próprios iniciadores podem ser sintetizados utilizando técnicas que são bem conhecidas na arte. Geralmente, os iniciadores podem ser feitos utilizando máquinas de síntese de oligonucleótidos que estão comercialmente disponíveis. Dada a sequência do enquadramento de leitura aberta de BRCA1 mostrada em SEQ ID NO: 1, a concepção de determinados iniciadores está perfeitamente dentro da perícia na arte.

As sondas de ácido nucleico proporcionadas pelo presente invento são úteis para vários fins. Estas podem ser utilizadas em hibridação de "Southern" com ADN genómico e no método de protecção de ARNase para a detecção de mutações pontuais, já discutidas acima. As sondas podem ser utilizadas para detectar produtos de amplificação por PCR. Estas podem também ser utilizadas para detectar emparelhamentos errados com o gene ou ARNm de BRCA1 utilizando outras técnicas.

Verificou-se que indivíduos com o gene BRCA1 de tipo selvagem não têm cancro o que resulta do alclo dc BRCA1. No entanto, as mutações que interferem com a função da proteína BRCA1 estão envolvidas na patogénese de cancro. Assim, a presença de um gene BRCA1 alterado (ou mutante) que produza uma proteína possuindo uma perda de função, ou função alterada, correlaciona-se directamente com um maior risco de cancro. De forma a detectar uma mutação do gene BRCA1, é preparada e analisada uma amostra biológica quanto a uma diferença entre a sequência do alelo de BRCA1 a ser analisado e a sequência do alelo de BRCA1 de tipo selvagem. Os alelos de BRCA1 mutantes podem ser inicialmente identificados através de qualquer uma das técnicas acima descritas. Os alelos mutantes são então sequenciados para identificar a mutação específica do alelo mutante particular. Alternativamente, os alelos de BRCA1 mutantes podem ser inicialmente identificados identificando proteínas BRCA1 mutantes (alteradas), utilizando técnicas convencionais. Os alelos mutantes são então sequenciados para identificar a mutação específica para cada alelo. As mutações, especialmente as que conduzem a uma função alterada da proteína BRCA1, são então utilizadas para os métodos de diagnóstico e prognóstico do presente invento.

85 829 ΕΡ 699 754/ΡΤ Definições Ο presente invento emprega as seguintes definições: "Amplificação de Polinucleótidos" utiliza métodos tais como reacção em cadeia com polimerase (PCR), amplificação por ligação (ou reacção em cadeia com ligase (LCR)) e métodos de amplificação baseados na utilização da replicase Q-beta. Estes métodos são bem conhecidos e largamente praticados na arte. Ver, p.ex.. Patentes U.S. 4683195 e 4683202 e Innis et a/., 1990 (para PCR); e Wu et af., 1989a (para LCR). Os reagentes e o equipamento para efectuar as PCR estão comercialmente disponíveis. Os iniciadores úteis^'pára.. Jo ~r.,i amplificar sequências a partir da região de BRCA1 são de preferência complementares a, e hibridam especificamente com, sequências na região de BRCA1 ou em regiões que flanqueiem uma região alvo aí inclusa. As sequências de BRCA1 geradas por amplificação podem ser sequenciadas directamente. Alternativamente, mas de forma menos desejável, a sequência ou sequências amplificadas podem ser clonadas antes da análise da sequência. Um método para a clonagem directa e análise da sequência de segmentos genómicos enzimaticamente amplificados foi descrito por Scharf, 1 986. "Polinucleótido objecto de análise" e "cadeia objecto de análise" referem-se a um polinucleótido de cadeia simples ou dupla que se suspeita conter uma sequência alvo, e que pode estar presente numa variedade de tipos de amostras, incluindo amostras biológicas. "Anticorpos". O presente invento proporciona também anticorpos policlonais e/ou monoclonais e fragmentos destes, e equivalentes de ligação imunológica destes, os quais são capazes de se ligar especificamente aos polipéptidos BRCA1 e fragmentos destes ou a sequências polinucleotídicas da região de BRCA1, particularmente do locus BRCA1 ou de uma porção deste. O termo "anticorpo" é utilizado para referir tanto uma entidade molecular homogénea, como uma mistura tal como um produto sérico constituído por uma pluralidade de entidades moleculares diferentes. Os polipéptidos podem ser preparados sinteticamente num sintetizador de péptidos e conjugados a uma molécula transportadora (p.ex., hemocianina da lapa) e injectados ao longo de vários meses em coelhos. Os soros dos coelhos são testados quanto à imunorreactividade com o polipéptido ou fragmento de BRCA1. Os anticorpos monoclonais podem ser feitos injectando ratinhos com os polipéptidos

85 829 ΕΡ 699 754/ΡΤ proteicos, proteínas de fusão ou fragmentos destes. Os anticorpos monoclonais serão pesquisados através de ELISA e testados quanto à imunorreactividade específica com o polipéptido BRCA1 ou fragmentos deste. Ver, Harlow & Lane, 1 988. Estes anticorpos serão úteis em ensaios bem como fármacos.

Uma vez obtida uma quantidade suficiente do polipéptido desejado, este pode ser utilizado para vários fins. Uma utilização típica é a produção de anticorpos específicos para ligação. Estes anticorpos podem ser policlonais ou monoclonais, e podem ser produzidos através de técnicas in vitro ou in vivo bem conhecidas na arte. Para a produção de anticorpos policlonais, é seleccionado um sistema imunitário alvo apropriado, tipicamente ratinho ou coelho. 0 antigénio substancialmente purificado é apresentado ao sistema imunitário de uma forma determinada por métodos apropriados para o animal e por outros parâmetros bem conhecidos dos imunologistas. Os locais típicos para injecção são as almofadas das patas, intramuscularmente, intraperitonealmente ou intradermicamente. Claro que, o ratinho ou o coelho podem ser substituídos por outras espécies. Os anticorpos policlonais são então purificados utilizando técnicas conhecidas na arte e ajustados à especificidade desejada.

Uma resposta imunológica é normalmente ensaiada com um imunoensaio. Normalmente, tais imunoensaios envolvem alguma purificação de uma fonte de antigénio, por exemplo, a produzida pelas mesmas células e da mesma forma que o antigénio. Uma variedade de métodos de imunoensaio é bem conhecida na arte. Ver, p.ex., Harlow & Lane, 1988, ou Goding, 1986.

Anticorpos monoclonais com afinidades de 10 8 M'1 ou de preferência 10'9 a 10'10 M'1 ou mais fortes serão feitos tipicamente através de procedimentos padrão tal como descrito, p.ex., em Harlow & Lane, 1988 ou Goding, 1986. Resumidamente, serão seleccionados animais apropriados e seguido o protocolo de imunização desejado. Após o período de tempo apropriado, os baços destes animais são excisados e as células individuais do baço são fundidas, tipicamente, com células de mieloma imortalizadas sob condições de selecção apropriadas. Posteriormente, as células são clonalmente separadas e os sobrenadantes de cada clone são testados quanto à produção de um anticorpo apropriado específico para a região desejada do antigénio. 31 85 829 ΕΡ 699 754/ΡΤ

Outras técnicas adequadas envolvem a exposição in vitro de linfócitos aos polipéptidos antigénicos, ou alternativamente, a selecção de bibliotecas de anticorpos em fagos ou vectores semelhantes. Ver Huse et a!., 1989. Os polipéptidos e anticorpos do presente invento podem ser utilizados com ou sem modificação. Frequentemente, os polipéptidos e anticorpos serão marcados através da união, covalente ou não covalente, de uma substância que proporcione um sinal detectável. Uma grande variedade de marcadores e de técnicas de conjugação são conhecidos e são extensivamente relatados tanto na literatura científica como na de patentes. Marcadores adequados incluem radionuclídeos, enzimas, substratos, co-factores, inibidores, agentes fluorescentes, agentes quimioluminescentes, partículas magnéticas e semelhantes. Patentes que ensinam a utilização de tais marcadores incluem as Patentes U.S. 3817837, 3850752, 3939350, 3996345, 4277437, 4275149 e 4366241. Também podem ser produzidas imunoglobulinas recombinantes (ver Patente U.S. 4816567). "Parceiro de ligação" refere-se a uma molécula capaz de se ligar a uma molécula de ligando com alta especificidade, tal como por exemplo, um antigénio e um anticorpo específico para o antigénio ou uma enzima e o seu inibidor. Em geral, os parceiros de ligação específicos têm de se ligar com uma afinidade suficiente para imobilizar a dúplice cópia/cadeia complementar objecto de análise (no caso de hibridação polinucleotídica) sob as condições de isolamento. Parceiros de ligação específicos são conhecidos na arte e incluem, por exemplo, biotina e avidina ou estreptavidina, IgG e proteína A, os numerosos pares conhecidos receptor-ligando e cadeias polinucleotídicas complementares. No caso de parceiros de ligação polinucleotídicos complementares, os parceiros têm normalmente cerca de 15 bases de comprimento e podem ter pelo menos 40 bases de comprimento. Os polinucleótidos podem ser compostos por ADN, ARN ou análogos nucleotídicos sintéticos.

Uma "amostra biológica" refere-se a uma amostra de tecido ou fluido suspeita de conter um polinucleótido ou polipéptido objecto de análise de um indivíduo, incluindo, mas não se limitando a, p.ex., plasma, soro, fluido espinal, fluido linfático, as secções externas da pele, tractos respiratório, intestinal e genito-urinário, lágrimas, saliva, células sanguíneas, tumores, órgãos, tecido e amostras de constituintes de culturas celulares in vitro.

85 829 ΕΡ 699 754/ΡΤ

Tal como aqui se utiliza, os termos "diagnóstico" e "prognóstico", tal como utilizados no contexto de neoplasia, são utilizados para indicar 1) a classificação de lesões como neoplasia, 2) a determinação da gravidade da neoplasia, ou 3) a monitorização da progressão da doença, antes, durante e após o tratamento. "Codifica". Diz-se que um polinucleótido "codifica" um polipéptido se, no seu estado nativo ou quando manipulado através de métodos bem conhecidos dos peritos na arte, este pode ser transcrito e/ou traduzido para produzir o ARNm e/ou o polipéptido ou um fragmento destes. A cadeia anti-sentido é o complemento deste ácido nucleico e a sequência de codificação pode ser deduzida a partir desta. "Isolado" ou "substancialmente puro". Um ácido nucleico "isolado" ou "substancialmente puro” (p.ex., um ARN, ADN ou um polímero misto) é um que está substancialmente separado de outros componentes celulares que naturalmente acompanham uma sequência ou proteína humana nativa, p.ex., ribossomas, polimerase3, muitas outras sequências genómicas e proteínas humanas. 0 termo engloba uma sequência de ácido nucleico ou proteína que foi removida do seu ambiente de ocorrência natural, e inclui isolados de ADN clonado ou recombinante e análogos quimicamente sintetizados ou análogos biologicamente sintetizados por sistemas heterólogos. "Alelo de BRCA1" refere-se a alelos normais do locus BRCA1 bem como a alelos possuindo variações que predispõem os indivíduos para desenvolverem cancro em muitos locais, por exemplo, cancro da mama, do ovário, colo-rectal e da próstata. Tais alelos de predisposição são também chamados "alelos de susceptibilidade de BRCA1". "Locus BRCA1", "Gene BRCA1", "Ácidos Nucleicos de BRCA1" ou "Polinucleótido de BRCA1" referem-se cada um a polinucleótidos, todos na região de BRCA1, que é provável serem expressos em tecido normal, dos quais certos alelos predispõem um indivíduo para desenvolver cancros da mama, do ovário, colo-rectal e da próstata. As mutações no locus BRCA1 podem estar envolvidas na iniciação e/ou progressão de outros tipos de tumores. O locus é indicado em parte por mutações que predispõem indivíduos para desenvolverem 85 829 ΕΡ 699 754/ΡΤ 33 ST*?* cancro. Estas mutações caiem dentro da região de BRCA1 descrita infra. Pretende-se que o locus BRCA1 inclua sequências de codificação, sequências intervenientes e elementos reguladores que controlem a transcrição e/ou a tradução. Pretende-se que o locus BRCA1 inclua todas as variações alélicas da sequência de ADN.

Estes termos, quando aplicados a um ácido nucleico referem-se a um ácido nucleico que codifica um polipéptido, fragmento, homólogo ou variante de BRCA1, incluindo, p.ex., proteínas de fusão ou deleções. Os ácidos nucleicos do presente· invento possuirão uma sequência que é ou derivada de,· ou substancialmente semelhante a, um gene natural que codifica BRCA1 ou uma possuindo substancial homologia com um gene natural que codifica BRCA1 ou uma porção deste. A sequência de codificação para um polipéptido BRCA1 é mostrada em SEQ ID NO: 1, com a sequência de aminoácidos mostrada em SEQ ID NO: 2.

As composições polinucleotídicas deste invento incluem ARN, ADNc, ADN genómico, formas sintéticas e polímeros mistos, ambas as cadeias com sentido c anti sentido, e podem ser modificadas quimica ou bioquimicamente ou podem conter bases nucleotídicas não naturais ou derivadas, tal como será prontamente apreciado pelos peritos na arte. Tais modificações incluem, por exemplo, marcadores, metilação, substituição de um ou mais nucleótidos de ocorrência natural por um análogo, modificações internucleotídicas tais como ligações sem carga (p.ex., metilfosfonatos, fosfotriésteres, fosfoamidatos, carbamatos, etc.), ligações com carga (p.ex., fosforotioatos, fosforoditioatos, etc.), porções pendentes (p.ex., polipéptidos), intercaladores (p.ex., acridina, psoralen, etc.), quelantes, alquilantes e ligações modificadas (p.ex., ácidos nucleicos alfa-anomóricos, etc.). Também estão incluídas moléculas sintéticas que imitam polinucleótidos na sua capacidade para se ligarem a uma designada sequência através de pontes de hidrogénio e outras interaeções químicas. Tais moléculas são conhecidas na arte e incluem, por exemplo, aquelas em que as ligações fosfato substituem ligações peptídicas na estrutura da molécula.

O presente invento proporciona ácidos nucleicos recombinantes compreendendo toda ou parte da região de BRCA1. A construção recombinante pode ser capaz de replicar autonomamente numa célula hospedeira. Alternativamente, a construção recombinante pode ficar integrada no ADN 34 85 829 ΕΡ 699 754/ΡΤ cromossómico da célula hospedeira. Tal polinucleótido recombinante compreende um polinucleótido de origem genómica, em ADNc, semi-sintética ou sintética, o qual, em virtude da sua origem ou manipulação, 1) não está associado a todo ou a parte de um polinucleótido com o qual está associado na natureza; 2) está ligado a um polinucleótido diferente daquele a que está ligado na natureza; ou 3) não ocorre na natureza.

Portanto, são proporcionados por este invento ácidos nucleicos recombinantes compreendendo sequências que de outro modo não ocorrem naturalmente. Embora a sequência de tipo selvagem possa ser empregue, esta será frequentemente alterada, p.ex., através de deleção, substituição ou inserção.

Podem ser pesquisadas bibliotecas de ADNc ou genómicas de vários tipos como fontes naturais dos ácidos nucleicos do presente invento, ou tais ácidos nucleicos podem ser proporcionados através de amplificação das sequências residentes no ADN genómico ou outras fontes naturais, p.ex., por PCR. A escolha de bibliotecas de ADNc corresponde normalmente a uma fonte de tecido α qual é abundante em ARNm para as proteínas desejadas. Normalmente são preferidas bibliotecas fágicas, mas podem ser utilizados outros tipos de bibliotecas. Os clones de uma biblioteca são espalhados sobre placas, transferidos para um substrato para pesquisa, desnaturados e sondados quanto à presença das sequências desejadas.

As sequências de ADN utilizadas neste invento compreenderão normalmente pelo menos cerca de cinco codões (15 nucleótidos), mais habitualmente pelo menos cerca de 7-15 codões, e de preferência, pelo menos ccrca do 35 codõc3. Podem também estar presentes um ou mais intrões. Este número de nucleótidos é normalmente aproximadamente o comprimento mínimo necessário para uma sonda bem sucedida que hibridará especificamente com uma sequência que codifique BRCA1. Técnicas para manipulação de ácidos nucleicos são descritas genericamente, por exemplo, em Sambrook, et a/., 1989 ou Ausubel et a/., 1992. Os reagentes úteis na aplicação de tais técnicas, tais como enzimas de restrição e semelhantes, são amplamente conhecidos na arte e estão comercialmente disponíveis a partir de vendedores tais como New England 35 85 829 ΕΡ 699 754/ΡΤ

BioLabs, Boehringer Mannheim, Amersham, Promega Biotec, U.S. Biochemicals, New England Nuclear, e várias outras fontes. As sequências de ácido nucleico recombinantes utilizadas para produzir as proteínas de fusão do presente invento podem ser derivadas de sequências naturais ou sintéticas. Muitas sequências génicas naturais são obteníveis a partir de vários ADNc ou a partir de bibliotecas genómicas utilizando sondas apropriadas. Ver, GenBank, National Institutes of Health. "Região de BRCA1" refere-se a uma porção do cromossoma 17q21 humano, limitada pelos marcadores tdj1474 e U5R. Esta região comtém oz/ocus BRCA1, incluindo o gene BRCA1.

Tal como aqui se utiliza, os termos "locus BRCA1", "alelo de BRCA1” e "região de BRCA1" referem-se todos ao ADN de cadeia dupla compreendendo o locus, alelo ou região, bem como qualquer um dos ADN de cadeia simples que compreendem o locus, alelo ou região.

Tal como aqui se utiliza, uma "porção" do locus ou região ou alelo de BRCA1 é definida como possuindo um tamanho mínimo de pelo menos cerca de oito nucleótidos, ou de preferência cerca de 15 nucleótidos, sendo ainda mais preferível pelo menos cerca de 25 nucleótidos, e pode ter um tamanho mínimo de pelo menos cerca de 40 nucleótidos. "Proteína BRCA1" ou "polipéptido BRCA1" referem-se a uma proteína ou polipéptido codificado pelo locus BRCA1, suas variantes ou seus fragmentos. 0 termo "polipéptido" refere-se a um polímero de aminoácidos e seu equivalente e não se refere a um comprimento específico do produto; assim, estão incluídos na definição de um polipéptido péptidos, oligopéptidos e proteínas. Este termo também não se refere a, ou exclui, modificações do polipéptido, por exemplo, glicosilações, acetilações, fosforilações, e semelhantes. Estão incluídos na definição, por exemplo, polipéptidos contendo um ou mais análogos de um aminoácido (incluindo, por exemplo, aminoácidos não naturais, etc.), polipéptidos com ligações substituídas bem como outras modificações conhecidas na arte, tanto de ocorrência natural como não natural. Vulgarmente, tais polipéptidos serão pelo menos cerca de 50% homólogos à sequência de BRCA1 nativa, de preferência mais de cerca de 90%, sendo mais preferível pelo menos cerca de 95% homólogos. Também estão incluídas as proteínas 36 85 829 ΕΡ 699 754/ΡΤ codificadas pelo ADN que hibrida sob condições de rigor elevado ou TedOzido, com ácidos nucleicos que codificam BRCA1 e polipéptidos ou proteínas intimamente relacionados recuperados por anti-soros para a(s) proteína(s) BRCA1. O comprimento das sequências polipeptídicas comparadas quanto à homologia será geralmente de pelo menos cerca de 16 aminoácidos, normalmente pelo menos cerca de 20 resíduos, mais vulgarmente pelo menos cerca de 24 resíduos, tipicamente pelo menos cerca de 28 resíduos e de preferência mais de cerca de 35 resíduos: . "Operativamente ligado " refere-se a uma justaposição em que os componentes assim descritos estão numa relação que lhes permite funcionar do modo pretendido. Por exemplo, um promotor está operativamente ligado a uma sequência de codificação se o promotor afectar a sua transcrição ou expressão. "Sondas". Os polimorfismos de polinucleótidos associados aos alelos de BRCA1 que predispõem para certos cancros ou estão associados com a maioria dos cancros 3ão detectados através de hibridação com uma sonda polinucleotídica que forma um híbrido estável com o da sequência alvo, sob condições de hibridação e lavagem rigorosas a moderadamente rigorosas. Se se esperar que as sondas sejam perfeitamente complementares à sequência alvo, serão utilizadas condições rigorosas. O rigor da hibridação pode ser reduzido se for esperado algum emparelhamento errado, por exemplo, se forem esperadas variantes com o resultado de que a sonda não seja completamente complementar. São escolhidas condições que eliminem ligações não específicas/adventícias, isto é, que minimizem o ruído. Uma vez que tais indicações identificam polimorfismos de ADN neutros bem como mutações, estas indicações necessitam de mais análise para se demonstrar a detecção de um alelo de susceptibilidade de BRCA1.

As sondas para os alelos de BRCA1 podem ser derivadas das sequências da região de BRCA1 ou dos seus ADNc. As sondas podem ser de qualquer comprimento adequado, que abranja toda ou uma porção da região de BRCA1, e que permita a hibridação específica com a região de BRCA1. Se a sequência alvo contiver uma sequência idêntica à da sonda, as sondas podem ser curtas, p.ex., no intervalo de cerca de 8-30 pares de bases, uma vez que o híbrido será 37 85 829 ΕΡ 699 754/ΡΤ relativamente estável mesmo sob condições rigorosas. Se se espera algum grau de emparelhamento errado com a sonda, i.e., se se suspeita que a sonda hibridará com uma região variante, pode ser empregue uma sonda maior que hibride com a sequência alvo com a especificidade requerida.

As sondas incluirão um polinucleótido isolado ligado a um marcador ou molécula repórter e podem ser utilizadas para isolar outras sequências polinucleotídicas, possuindo semelhança de sequência, através de métodos padrão. Para técnicas para preparação e marcação de sondas ver, p.ex., Sambrook, et al., 1989 ou Ausubel et a!., 1992. Podem ser'seleccionados outros polinucleótidos semelhantes utilizando polinucleótidos homólogos. Alternativamente, podem ser sintetizados ou seleccionados polinucleótidos que codifiquem estes polipéptidos ou polipéptidos semelhantes, através da utilização da redundância no código genético. Podem ser introduzidas várias substituições de codões, p.ex., através de mudanças silenciosas (produzindo deste modo vários locais de restrição) ou para optimizar a expressão para um determinado sistema. Podem ser introduzidas mutações para modificar as propriedades do polipéptido, talvez para mudar as afinidades de ligação ao ligando, as afinidades inter-cadcias, ou a taxa de degradação ou rotatividade do polipéptido.

As sondas compreendendo oligonucleótidos sintéticos ou outros polinucleótidos do presente invento podem ser derivadas de polinucleótidos de cadeia simples ou dupla de ocorrência natural ou recombinantes, ou ser quimicamente sintetizadas. As sondas podem também ser marcadas através de tradução por cortes, reacção de preenchimento de Klenow, ou outros métodos conhecidos na arte. São preferidas como sondas porções da sequência polinucleotídica possuindo pelo menos cerca de oito nucleótidos, normalmente pelo menos cerca de 1 5 nucleótidos, e menos de cerca de 6 kb, normalmente menos de cerca de 1,0 kb, a partir de uma sequência polinucleotídica que codifique BRCA1. As sondas podem também ser utilizadas para se determinar se o ARNm que codifica BRCA1 está presente numa célula ou tecido. "Modificações proteicas ou fragmentos proteicos" são proporcionados pelo presente invento para polipéptidos BRCA1 ou fragmentos destes que sejam substancialmente homólogos à sequência estrutural primária mas que incluam. 38 85 829 ΕΡ 699 754/ΡΤ p.ex., modificações químicas e bioquímicas in vivo ou in vitro ou que incorporem aminoácidos invulgares. Tais modificações incluem, por exemplo, acetilação, carboxilação, fosforilação, glicosilação, ubiquitinação, marcação, p.ex., com radionuclídeos, e várias modificações enzimáticas, tal como será prontamente notado pelos peritos na arte. Uma variedade de métodos para marcação de polipéptidos e de substituintes ou marcadores úteis para estes fins, são bem conhecidos na arte, e incluem isótopos radioactivos tais como 32P, ligandos que se ligam a anti-ligandos marcados (p.ex., anticorpos), fluoróforos, agentes quimioluminescentes, enzimas e anti-ligandos que podem servir como membros de pares de ligação específica para um ligando marcado. A escolha do marcador depende da sensibilidade requerida, da facilidade de conjugação com o iniciador, de requisitos de estabilidade e instrumentação disponível. Os métodos de marcação de polipéptidos são bem conhecidos na arte. Ver, p.ex., Sambrook, et a!., 1989 ou Ausubel et a!., 1992.

Para além de polipéptidos substancialmente completos, o presente invento proporciona fragmentos biologicamente activos dos polipéptidos. As actividades biológicas significativas incluem ligação ao ligando, actividade irnunológica e outras actividades biológicas caraclerísLicas dos polipéptidos BRCA1. As actividades imunológicas incluem tanto a função imunogénica num sistema imunitário alvo, como a partilha de epítopos imunológicos para ligação, servindo ou como competidor ou como antigénio substituto para um epítopo da proteína BRCA1. Tal como aqui utilizado, "epítopo" refere-se a um determinante antigénico de um polipéptido. Um epítopo pode compreender três aminoácidos numa conformação espacial que seja única para o epítopo. Geralmente, um epítopo consiste em pelo menos cinco destes aminoácidos, e mais usualmente consiste em pelo menos 8-10 destes aminoácidos. Os métodos de determinação da conformação espacial destes aminoácidos são conhecidos na arte.

Para fins imunológicos, podem ser utilizados segmentos polipeptídicos repetidos em cadeia como imunogénios, produzindo-se deste modo proteínas altamente antigénicas. Alternativamente, tais polipéptidos servirão como competidores altamente eficientes para a ligação específica. A produção de anticorpos específicos para polipéptidos BRCA1 ou fragmentos destes é descrita abaixo. 39 ΕΡ 699 754/ΡΤ Ο presente invento proporciona também polipéptidos de fusão, compreendendo polipéptidos e fragmentos de BRCA1. Os polipéptidos homólogos podem ser fusões entre duas ou mais sequências polipeptídicas de BRCA1 ou entre as sequências de BRCA1 e uma proteína relacionada. Igualmente, podem ser construídas fusões heterólogas que exibiriam uma combinação de propriedades ou actividades das proteínas derivadas. Por exemplo, o domínio de ligação ao ligando ou outros podem ser "trocados" entre novos polipéptidos ou fragmentos de fusão diferentes. Tais polipéptidos de fusão homólogos ou heterólogos podem apresentar, por exemplo, força ou especificidade - de ligação alteradas. Os parceiros de - fusão, ..-s incluem imunoglobulinas, β-galactosidase bacteriana, trpE, proteína A, β-lactamase, alfa-amilase, álcool-desidrogenase e factor alfa de conjugação de leveduras. Ver, p.ex., Godowski et a/., 1988.

As proteínas de fusão serão tipicamente feitas por métodos de ácido nucleico recombinante, tal como descrito abaixo, ou podem ser sintetizadas quimicamente. As técnicas para a síntese de polipéptidos estão descritas, por exemplo, em Merrifield, 1963. "Purificação proteica" refere-se a vários métodos para o isolamento de polipéptidos BRCA1 a partir de outro material biológico, tal como a partir de células transformadas com ácidos nucleicos recombinantes que codifiquem BRCA1, e são bem conhecidos na arte. Por exemplo, tais polipéptidos podem ser purificados por cromatografia de imunoafinidade empregando, p.ex., os anticorpos proporcionados pelo presente invento. Vários métodos de purificação proteica são bem conhecidos na arte e incluem os descritos em Deutscher, 1990 e Scopes, 1982.

Os termos "isolado", "substancialmente puro" e "substancialmente homogéneo" são utilizados alternadamente para descrever uma proteína ou polipéptido que foi separado de componentes que o acompanham no seu estado natural. Uma proteína monomérica é substancialmente pura quando pelo menos cerca de 60 a 75% de uma amostra exibe uma única sequência polipeptídica. Uma proteína substancialmente pura constituirá tipicamente cerca de 60 a 90% p/p de uma amostra proteica, mais usualmente cerca de 95%, e de preferência será mais de cerca de 99% pura. A pureza ou homogeneidade proteica pode ser indicada através de vários meios bem conhecidos na arte, tais como 40 85 829 ΕΡ 699 754/ΡΤ electroforese em gel de poliacrilamida de uma amostra proteica, seguido de visualização de uma única banda polipeptídica após coloração do gel. Para certos fins, pode ser proporcionada uma maior resolução utilizando HPLC ou outros meios bem conhecidos na arte que são utilizados para purificação.

Uma proteína BRCA1 está substancialmente isenta de componentes naturalmente associados quando esta é separada dos contaminantes nativos que a acompanham no seu estado natural. Assim, um polipéptido que é sintetizado quimicamente ou sintetizado num sistema celular diferente da célula da qual tem naturalmente origem, estará substancialmente isento dos componentes que lhe estão naturalmente associados. Uma proteína pode também ser tornada substancialmente isenta de componentes naturalmente associados através de isolamento, utilizando técnicas de purificação proteica bem conhecidas na arte.

Um polipéptido produzido como produto de expressão de uma sequência genética isolada e manipulada é um "polipéptido isolado", tal como aqui se utiliza, mesmo se expresso num tipo celular homólogo. Formas ou moléculas produzidas sinteticamente expressas por células heterólogas são moléculas inerentemente isoladas. "Ácido nucleico recombinante" é um ácido nucleico que não é de ocorrência natural, ou que é feito através da combinação artificial de dois segmentos da sequência de outro modo separados. Esta combinação artificial é frequentemente alcançada através de meios de síntese química ou através da manipulação artificial de segmentos isolados de ácidos nucleicos, p.ex., através de técnicas de engenharia genética. Tal é usualmente feito para substituir um codão por um codão redundante que codifique o mesmo aminoácido ou um aminoácido conservativo, ao mesmo tempo que tipicamente se introduz ou remove um local de reconhecimento da sequência. Alternativamente, é efectuada para unir uns aos outros segmentos de ácido nucleico com funções desejadas para gerar uma combinação desejada de funções. "Sequências reguladoras" refere-se às sequências normalmente dentro dos 100 kb da região de codificação de um locus, mas estas podem também estar mais distantes da região de codificação, as quais afectam a expressão do

85 829 ΕΡ 699 754/ΡΤ gene (incluindo a transcrição do gene, e tradução, processamento, estabilidade ou semelhantes do ARN mensageiro). "Homologia ou semelhança substancial". Um ácido nucleico ou fragmento deste é "substancialmente homólogo" (ou "substancialmente semelhante") a outro se, quando optimamente alinhado (com as inserções ou deleções de nucleótidos apropriadas) com o outro ácido nucleico (ou a sua cadeia complementar), existe identidade da sequência nucleotídica em pelo menos cerca de 60% das bases nucleotídicas, usualmente pelo menos cerca de 70%·,.mais usualmente pelo menos cerca de 80%, de preferência pelo menos cerca de 90%, sendo mais preferível pelo menos cerca de 95-98% das bases nucleotídicas.

Alternativamente, existe homologia (ou semelhança) substancial quando um ácido nucleico ou seu fragmento hibrida com outro ácido nucleico (ou uma cadeia sua complementar) sob condições de hibridação selectivas, com uma cadeia, ou com o seu complemento. Existe selectividade de hibridação quando ocorre hibridação que é substancialmente mais selectiva que uma ausência total de especificidade. Tipicamente, ocorrerá hibridação selectiva quando existir pelo menos cerca de 55% de homologia ao longo de uma extensão de pelo menos 14 nucleótidos, de preferência pelo menos cerca de 65%, sendo mais preferível pelo menos cerca de 75%, e sendo ainda mais preferível pelo menos cerca de 90%. Ver, Kanehisa, 1984. O comprimento da comparação de homologia, tal como descrito, pode ser ao longo de extensões maiores, e em certas concretizações será frequentemente ao longo de uma extensão de pelo menos nove nucleótidos, usualmente pelo menos cerca de 20 nucleótidos, mais usualmente pelo menos cerca de 24 nucleótidos, tipicamente pelo menos cerca de 28 nucleótidos, mais tipicamente pelo menos cerca de 32 nucleótidos, e de preferência pelo menos cerca de 36 ou mais nucleótidos. A hibridação de ácidos nucleicos será afectada por condições tais como concentração salina, temperatura ou solventes orgânicos, em adição à composição de bases, comprimento das cadeias complementares e número de emparelhamentos errados de bases nucleotídicas entre os ácidos nucleicos que hibridam, tal como será prontamente apreciado pelos peritos na arte. Condições de temperatura rigorosas incluirão geralmente temperaturas acima de 30°C, tipicamente acima de 37°C, e de preferência acima de 45°C. Condições salinas 42 85 829 ΕΡ 699 754/ΡΤ rigorosas serão vulgarmente de menos de 1000 mM, tipicamente menos de”500 mM, e de preferência menos de 200 mM. No entanto, a combinação de parâmetros é muito mais importante que a medição de um único qualquer parâmetro. Ver, p.ex., Wetmur & Davidson, 1968.

As sequências-sonda podem também hibridar especificamente com um ADN dúplice sob certas condições para formar uma tríplice ou outros complexos de ADN de ordem superior. A preparação de tais sondas e as condições de hibridação adequadas são bem conhecidas na arte.

Os termos "homologia substancial" ou "identidade substancial”, quando se referem a polipéptidos, indicam que o polipéptido ou proteína em questão exibe pelo menos cerca de 30% de identidade com uma proteína de ocorrência natural completa ou uma porção desta, usualmente pelo menos cerca de 70% de igualdade, e de preferência pelo menos cerca de 95% de igualdade. "Função substancialmente semelhante" refere-se à função de um ácido nucleico modificado ou de uma proteína modificada, em relação ao ácido nucleico de BRCA1 de tipo selvagem ou polipéptido BRCA1 de tipo selvagem. O polipéptido modificado será substancialmente homólogo ao polipéptido BRCA1 de tipo selvagem e terá substancialmente a mesma função. O polipéptido modificado pode ter uma sequência de aminoácidos alterada e/ou pode conter aminoácidos modificados. Adicionalmente à semelhança de função, o polipéptido modificado pode ter outras propriedades úteis, tais como uma semi-vida mais longa. A semelhança de função (actividade) do polipéptido modificado pode ser substancialmente a mesma que a actividade do polipéptido BRCA1 de tipo selvagem. Alternativamente, a semelhança de função (actividade) do polipéptido modificado pode ser superior à actividade do polipéptido BRCA1 de tipo selvagem. 0 polipéptido modificado é sintetizado utilizando técnicas convencionais, ou é codificado por um ácido nucleico modificado e produzido utilizando técnicas convencionais. 0 ácido nucleico modificado é preparado através de técnicas convencionais. Um ácido nucleico com uma função substancialmente semelhante à função do gene BRCA1 de tipo selvagem produz a proteína modificada descrita acima. A homologia, para polipéptidos, é tipicamente medida utilizando suporte lógico de análise de sequências. Ver, p.ex., o Sequence Analysis Software

85 829 ΕΡ 699 754/ΡΤ 43

Package do Genetics Computer Group, University of Wiscosin Biotechnology Center, 910 University Avenue, Madison, Wisconsin 53705. O suporte lógico de análise proteica faz coincidir sequências semelhantes utilizando a medida da homologia atribuída a várias substituições, deleções e outras modificações. As substituições conservativas incluem tipicamente substituições dentro dos seguintes grupos: glicina, alanina; valina, isoleucina, leucina; ácido aspártico, ácido glutâmico; asparagina, glutamina; serina, treonina; lisina, arginina; e fenilalanina, tirosina.

Um "fragmento", "porção" ou "segmento" polipeptídico é uma extensão de resíduos de aminoácidos de pelo menos cerca de cinco a sete aminoácidos contíguos, frequentemente pelo menos cerca de sete a nove aminoácidos contíguos, tipicamente pelo menos cerca de nove a 1 3 aminoácidos contíguos e, de preferência, pelo menos cerca de 20 a 30 ou mais aminoácidos contíguos.

Os polipéptidos do presente invento, se forem solúveis, podem ser acoplados com um suporte em fase sólida, p.ex., nitrocelulose, nylon, materiais de enchimento de colunas (p.ex., contas de "Sepharose"), contas magnéticas, lá de vidro, plástico, metal, geles poliméricos, células ou outros substratos. Tais suportes podem tomar a forma, por exemplo, de contas, poços, varetas ou membranas. "Região alvo" refere-se a uma região do ácido nucleico que é amplificada e/ou detectada. 0 termo "sequência alvo" refere-se a uma sequência com a qual uma sonda ou um iniciador forma um híbrido estável sob condições desejadas. A prática do presente invento emprega, a menos que indicado em contrário, técnicas convencionais de química, biologia molecular, microbiologia, ADN rccombinante, genética e imunologia. Ver, p.ex., Maniatis et aí., 1982; Sambrook, et al., 1989; Ausubel et al., 1992; Glover, 1985; Anand, 1992; Guthrie & Fink, 1991. Um discussão geral de técnicas e materiais para mapeamento de genes humanos, incluindo o mapeamento do cromossoma humano 1 7q, é proporcionada, p.ex., em White e Lalouel, 1 988. 85 829 ΕΡ 699 754/ΡΤ 44

Preparação de ácidos nucleicos recombinantes ou sintetizados Quimicamente; vectores. transformação, células hospedeiras

Podem ser prodii7Ídas grandes quantidades de polinucleótidos do presente invento por replicação numa célula hospedeira adequada. Os fragmentos polinucleotídicos naturais ou sintéticos que codificam para um fragmento desejado serão incorporados em construções polinucleotídicas recombinantes, usualmente construções de ADN, capazes de introdução e replicação numa célula procariótica ou eucariótica. Usualmente as construções polinucleotídicas serão adequadas para replicação num hospedeiro unicelular, tal corno leveduras ou bactérias, mas também se pode pretender que sejam para introdução em (com e sem integração dentro do genoma) linhas celulares de mamífero ou vegetais em cultura ou outras linhas celulares eucarióticas. A purificação dos ácidos nucleicos produzidos através dos métodos do presente invento está descrita, p.ex., em Sambrook, et a!., 1989 ou Ausubel et al., 1992.

Os polinucleótidos do presente invento podem também ser produzidos através de síntese química, p.ex., através do método do fosforamidito descrito por Beaucage & Carruthers, 1981 ou do método do triéster de acordo com Matteucci e Carruthers, 1981, e pode ser efectuada em sintetizadores de oligonucleótidos comerciais e automáticos. Um fragmento de cadeia dupla pode ser obtido a partir do produto de cadeia simples da síntese química através ou de síntese da cadeia complementar e hibridação das cadeias uma à outra sob condições apropriadas ou adicionando a cadeia complementar utilizando AND-polimerase com uma sequência iniciadora apropriada.

As construções polinucleotídicas preparadas para introdução num hospedeiro procariótico ou eucariótico podem constituir um sistema de replicação reconhecido pelo hospedeiro, incluindo o fragmento polinucleotídico pretendido que codifica o polipéptido desejado, e de preferência incluirá também sequências reguladoras da iniciação da transcrição e tradução ligadas operativamente ao segmento que codifica o polipéptido. Os vectores de expressão podem incluir, por exemplo, uma origem de replicação ou uma sequência de replicação autónoma (ARS) e sequências de controlo da expressão, um promotor, um estimulador e locais para processamento de informação necessários, tais como locais de ligação a ribossomas, locais de união do ARN, locais de poliadenilação, sequências de terminação da 85 829 ΕΡ 699 754/ΡΤ 45 ST**' transcrição e sequências estabilizadoras do ARNm. Podem também ser incluídos sinais de secreção, quando apropriado, ou a partir de uma proteína BRCA1 nativa ou a partir de outros receptores ou a partir de polipéptidos segregados, da mesma espécie ou de espécies relacionadas, os quais permitem que a proteína atravesse e/ou se instale em membranas celulares, e assim consiga a sua topologia funcional, ou seja segregada para fora da célula. Tais vectores podem ser preparados através de técnicas recombinantes padrão bem conhecidas na arte e discutidas, por exemplo, em Sambrook, et al., 1989 ou Ausubel et a!., 1992.

Será seleccionado um promotor apropriado e outras sequências do vector necessárias de forma a serem funcionais no hospedeiro, e podem incluir, quando apropriado, as que estão naturalmente associadas a genes BRCA1. Exemplos de combinações operativas de linhas celulares e vectores de expressão são descritos em Sambrook, et ai, 1989 ou Ausubel et al., 1992; ver também, p.ex., Metzger et al., 1988. Muitos vectores úteis são conhecidos na arte e podem ser obtidos a partir de vendedores tais como Stratagene, New England Biolabs, Promega Biotech, e outros. Promotores tais como trp, lac e promotores fágicos, promotores de ARNt e promotores de enzimas glicolíticas podem ser utilizados em hospedeiros procarióticos. Promotores de leveduras úteis incluem regiões promotoras para metalotioneína, 3-fosfoglicerato-quinase ou outras enzimas glicolíticas tais como enolase ou gliceraldeído-3-fosfato-desidrogenase, enzimas responsáveis pela utilização da maltose e da galactose, e outras. Os vectores e promotores adequados para utilização em expressão em leveduras são ainda descritos em Hitzeman et a/., ΕΡ 73675A. Promotores de mamífero não nativos apropriados podem incluir os promotores precoce e tardio de SV40 (Fiers et al., 1978) ou promotores derivados do vírus da leucemia de Moloney de murídeo, vírus de tumores de ratinho, vírus do sarcoma de aves, adenovírus II, vírus do papiloma bovino ou polioma. Adicionalmente, a construção pode ser unida a um gene amplificável (p.ex., DHFR) de forma a que possam ser feitas múltiplas cópias do gene. Para sequências estimuladoras apropriadas e outras sequências de controlo da expressão, ver também Enhancers and Eukaryotic Gene Expression, Cold Spring Harbor Press, Cold Spring Harbor, New York (1983). 46 05 029 ΕΡ 699 754/ΡΤ

Embora tais vectores de expressão se possam replicar autonomamente, estes podem também ser replicados introduzindo-os no genoma da célula hospedeira, através de métodos bem conhecidos na arte.

Os vectores de expressão e clonagem conterão provavelmente um marcador seleccionável, um gene codificando uma proteína necessária para a sobrevivência ou crescimento de uma célula hospedeira transformada com o vector. A presença deste gene assegura o crescimento apenas das células hospedeiras que expressem as inserções. Genes de selecção típicos codificam proteínas que a) conferem resistência a antibióticos ou outras substâncias tóxicas, p.ex., ampicilina, neomicina, metotrexato, etc.; b) complementam deficiências auxotróficas, ou c) fornecem nutrientes críticos não disponíveis em meios complexos, p.ex., o gene que codifica D-alanina-racemase para Bacilli. A escolha do marcador seleccionável correcto dependerá da célula hospedeira e os marcadores apropriados para diferentes hospedeiros são bem conhecidos na arte.

Os vectores contendo os ácidos nucleicos de interesse podem ser transcritos in vitro, e o ARN resultante introduzido na célula hospedeira através de métodos bem conhecidos, p.ex., por injecção (ver, Kubo et a!., 1988), ou os vectores podem ser introduzidos directamente em células hospedeiras através de métodos bem conhecidos na arte, que variam dependendo do tipo de célula hospedeira, incluindo electroporação; transfecção empregando cloreto de cálcio, cloreto de rubídio, fosfato de cálcio, DEAE-dextrano, ou outras substâncias; bombardeamento de microprojécteis; lipofecção; infecção (quando o vector é um agente infeccioso, tal como um genoma retroviral); e outros métodos. Ver geralmente, Sambrook, et a!., 1989 ou Ausubel et a!., 1992. A introdução dos polinucleólidos na célula hospedeira através de qualquer método conhecido na arte, incluindo, inter alia, os acima descritos, será aqui referida como "transformação". Pretende-se que as células nas quais foram introduzidos os ácidos nucleicos acima descritos incluam também a descendência destas células.

Podem ser preparadas grandes quantidades dos ácidos nucleicos e polipéptidos do presente invento expressando os ácidos nucleicos de BRCA1 ou porções destes em vectores ou outros veículos de expressão em células hospedeiras procarióticas ou eucarióticas compatíveis. Os hospedeiros 47 85 829 ΕΡ 699 754/ΡΤ procarióticos mais vulgarmente utilizados são estirpes de Escherichia coli, embora também possam ser utilizados outros procariotas, tais como Bacillus subtilis ou Pseudomonas. Células de mamífero ou outras células hospedeiras eucarióticas, tais como as de leveduras, fungos filamentosos, plantas, insectos, ou espécies de anfíbios ou aves, podem também ser úteis para a produção das proteínas do presente invento. A propagação de células de mamífero em cultura é per se bem conhecida. Ver, Jakoby e Pastan, 1979. Exemplos de linhas celulares hospedeiras de mamífero vulgarmente utilizadas são as células VERO e HeLa, células de Ovário de Hamster Chinês (CHO) e as linhas celulares WI38, BHK, e COS, ainda que o praticante com perícia notará que outras linhas celulares podem ser apropriadas, p.ex., para proporcionar maior expressão, padrões de glicosilação desejáveis, ou outras características.

Os clones são seleccionados utilizando marcadores consoante o modo de construção do vector. O marcador pode estar na mesma molécula de ADN ou numa molécula diferente, de preferência na mesma molécula de ADN. Em hospedeiros procarióticos, o transformante pode ser seleccionado, p.ex., por resistência a ampicilina, tetraciclina ou outros antibióticos. A produção de um determinado produto baseada na sensibilidade à temperatura pode também servir como um marcador apropriado.

As células procarióticas ou eucarióticas transformadas com os polinucleótidos do presente invento serão úteis não só para a produção dos ácidos nucleicos e polipéptidos do presente invento, mas também, por exemplo, no estudo das características de polipéptidos BRCA1.

Sequências polinucleotídicas anti-sentido são úteis na prevenção ou diminuição da expressão do locus BRCA1, tal como será apreciado pelo peritos na arte. Por exemplo, os vectores polinucleotídicos contendo todo ou uma porção do locus BRCA1 ou outras sequências da região de BRCA1 (particularmente as que flanqueiam o locus BRCA1) podem ser colocados sob o controlo de um promotor numa orientação anti-sentido e introduzidos numa célula. A expressão de uma tal construção anti-sentido dentro de uma célula interferirá com a transcrição e/ou tradução e/ou replicação de BRCA1.

80 829 ΕΡ 699 754/ΡΤ 48

As sondas e iniciadores baseados nas sequências do gene BRCA1 aqui divulgadas são utilizadas para identificar proteínas e sequências do gene BRCA1 homólogas noutras espécies. Estas proteínas e sequências do gene BRCA1 são utilizadas nos métodos de diagnóstico/prognóstico, terapêuticos e de pesquisa de fármacos aqui descritos para as espécies a partir das quais estas foram isoladas. Métodos de Utilização: Estoios de Diagnose e Diagnóstico com Ácidos Nucleicos

De forma a detectar a presença de um alelo de BRCA1 que predisponha; um indivíduo para cancro, uma amostra biológica, tal como sangue, é preparada e analisada quanto à presença ou ausência de alelos de susceptibilidade de BRCA1. De forma a detectar a presença de neoplasia, a progressão em direcção à malignidade de uma lesão percursora, ou como indicador de prognóstico, uma amostra biológica da lesão é preparada e analisada quanto à presença ou ausência de alelos mutantes de BRCA1. Os resultados destes testes e a informação interpretativa são devolvidos ao prestador de cuidados de saúde para comunicação ao indivíduo testado. Tal diagnose pode ser efectuada por laboratórios de diagnúslico, ou, alternativamente, são fabricados e vendidos estojos de diagnóstico a prestadores de cuidados de saúde ou a indivíduos privados para auto-diagnose.

Inicialmente, o método de pesquisa envolve a amplificação das sequências de BRCA1 relevantes. Noutra concretização preferida do invento, o método de pesquisa envolve uma estratégia não baseada em PCR. Tais métodos de pesquisa incluem metodologias de amplificação de marcadores em dois passos as quais são bem conhecidas na arte. Ambas as estratégias de pesquisa, baseada em PCR e nãu baseada em PCR, podem detectar sequências alvo com um elevado nível de sensibilidade. O método mais popular utilizado actualmente é a amplificação do alvo. Aqui, a sequência de ácido nucleico alvo é amplificada com polimerases. Um método particularmente preferido que utiliza amplificação conduzida por polimerases é a reacção em cadeia com polimerase (PCR). A reacção em cadeia com polimerase e outros ensaios de amplificação conduzidos por polimerases podem atingir um aumento de mais de um milhão de vezes no número de cópias através da utilização de ciclos de amplificação conduzidos pela polimerase. Uma

85 82Θ ΕΡ 699 754/ΡΤ 49 vez amplificado, ο ácido nucleico resultante pode ser sequenciado ou utilizado como substrato para sondas de ADN.

Quando as sondas são utilizadas para detectar a presença das sequências alvo (por exemplo, na pesquisa de susceptibilidade a cancro), a amostra biológica a ser analisada, tal como sangue ou soro, pode ser tratada, se desejado, para extrair os ácidos nucleicos. O ácido nucleico da amostra pode ser preparado de vários modos para facilitar a detecção da sequência alvo; p.ex. desnaturação, digestão de restrição, electroforese ou "dot blotting". A região ' alvo do ácido nucleico objecto de análise usualmente tem que ser pelo menos parcialmente de cadeia simples para formar híbridos com a sequência da sonda que a tem como alvo. Se a sequência for naturalmente de cadeia simples, a desnaturação não será necessária. No entanto, se a sequência for de cadeia dupla, a sequência necessitará provavelmente de ser desnaturada. A desnaturação pode ser efectuada através de várias técnicas conhecidas na arte. O ácido nucleico objecto de análise e a sonda são incubados sob condições que promovam a formação de um híbrido estável da sequência alvo na sonda com a sequência putativa que a tem como alvo no objecto de análise. A região das sondas que é utilizada para se ligar ao objecto de análise pode ser feita completamente complementar à região a atingir do cromossoma humano 17q. Portanto, as condições de elevado rigor são desejáveis de forma a evitar falsos positivos. No entanto, as condições de elevado rigor são utilizadas apenas se as sondas são complementares a regiões do cromossoma que são únicas no genoma. O rigor da hibridação é determinado por vários factores durante a hibridação e durante o procedimento de lavagem, incluindo temperatura, força iónica, composição de bases, comprimento da sonda e concentração de formamida. Estes factores são delineados em, por exemplo, Maniatis et al., 1982 e Sambrook, et ai, 1989. Em certas circunstâncias, a formação de híbridos de ordens mais elevadas, tais como tríplice, quadríplice, etc., pode ser desejada para proporcionar o meio de detecção das sequências alvo. A detecção, se houver, do híbrido resultante é usualmente alcançada através da utilização de sondas marcadas. Alternativamente, a sonda pode ser não marcada, mas pode ser detectável através de ligação específica a um ligando que está marcado, directa ou indirectamente. Os marcadores 50 85 829 ΕΡ 699 754/ΡΤ adequados, e métodos para marcação de sondas e ligandos são conhecidos na arte, e incluem, por exemplo, marcadores radioactivos que podem ser incorporados através de métodos conhecidos (p.ex., tradução por cortes, iniciação aleatória ou fosforilação por quinases), biotina, grupos fluorescentes, grupos quimioluminescentes (p.ex., dioxetanos, particularmente dioxetanos activados), enzimas, anticorpos e semelhantes. As variações deste esquema básico são conhecidas na arte e incluem as variações que facilitam a separação dos híbridos a detectar de materiais estranhos e/ou que amplificam o sinal da metade marcada. Várias destas variações são revistas em, p.ex., Mathews & Kricka, 1988; Landergren era/., 1988; Mittlin, 1989; Patente U.S. 4868105 e na Publicação EPO N° 225807.

Tal como observado acima, os ensaios de pesquisa não baseados em PCR são também contemplados neste invento. Um procedimento não baseado em PCR exemplar é proporcionado no Exemplo 11. Este procedimento hibrida uma sonda de ácido nucleico (ou um análogo tal como uma estrutura de metilfosfonato substituindo o fosfodiéster normal) com o alvo de ADN de nível inferior. Esta sonda pode ter uma enzima ligada covalentemente à sonda, de forma a que a ligação covalanle não interfira com a especificidade da hibridação. Este complexo conjugado enzima-sonda - ácido nucleico alvo pode então ser isolado do conjugado enzima-sonda livre e é adicionado um substrato para a detecção da enzima. A actividade enzimática é observada como uma mudança na revelação de cor ou libertação luminescente resultando num aumento de 103-10e na sensibilidade. Por exemplo, em relação à preparação de conjugados oligodesoxinucleótido-fosfatase alcalina e sua utilização como sondas de hibridação, ver Jablonski et a!., 1986.

As metodologias de amplificação de marcadores em dois passos são conhecidas na arte. Estes ensaios funcionam com o princípio de que um ligando pequeno (tal como digoxigenina, biotina, ou semelhantes) é ligado a uma sonda de ácido nucleico capaz de se ligar especificamente a BRCA1. Sondas exemplares são proporcionadas na Tabela 9 deste pedido de patente e incluem adicionalmente a sonda de ácido nucleico correspondente às posições nucleotídicas 3631 a 3930 de SEQ ID NO: 1. Sondas específicas para o alelo estão também contempladas no âmbito deste exemplo e os exemplos de sondas específicas para o alelo, incluem sondas que englobam as mutações de predisposição resumidas nas Tabelas 11 e 12 deste pedido de patente. 51 85 829 ΕΡ 699 754/ΡΤ

Num exemplo, ο ligando pequeno ligado à sonda de ácido nucleico é especificamente reconhecido por um conjugado anticorpo-enzima. Numa concretização deste exemplo, a digoxigenina é ligada à sonda de ácido nucleico. A hibridação é detectada por um conjugado anticorpo-fosfatase alcalina que activa um substrato quimioluminescente. Para métodos para marcação de sondas de ácidos nucleicos de acordo com esta concretização ver Martin et a/., 1990. Num segundo exemplo, o ligando pequeno é reconhecido por um segundo conjugado ligando-enzima que é capaz de complexar especificamente com o primeiro ligando. Uma concretização bem conhecida deste exemplo é o tipo de interacções biotina-avidina. Para métodos para marcação de sondas de ácido nucleico e sua utilização em ensaios baseados em biotina-avidina ver Rigby, et a/., 1977 e Nguyen et al., 1992. É também contemplado no âmbito deste invento que os ensaios com sondas de ácido nucleico deste invento empregarão uma mistura de sondas de ácido nucleico capazes de detectar BRCA1. Assim, num exemplo para detectar a presença de BRCA1 numa amostra celular, são empregues mais de uma sonda complementares a BRCA1 e em parlicular o número de sondas diferentes é alternativamente 2, 3 ou 5 sequências-sonda de ácido nucleico diferentes. Noutro exemplo, para detectar a presença de mutações na sequência do gene BRCA1 num doente, são empregues mais de uma sonda complementares a BRCA1 em que a mistura inclui sondas capazes de se ligar a mutações específicas dos alelos identificadas em populações de doentes com alterações em BRCA1. Nesta concretização, pode ser utilizado um número qualquer de sondas, e incluirá de preferência sondas correspondentes às principais mutações do gene identificadas como de predisposição de um indivíduo para cancro da mama. Algumas sondas candidatas contempladas no âmbito do invento incluem sondas que incluem as mutações específicas dos alelos identificadas nas Tabelas 11 e 12 e as que possuem as regiões de BRCA1 correspondentes a SEQ ID NO: 1 tanto a 5' como a 3' do local da mutação. Métodos de Utilização: Estoios de Diagnose e Diagnóstico com Péptidos A condição neoplásica de lesões pode ser também detectada com base na alteração do polipéptido BRCA1 de tipo selvagem. Tais alterações podem ser determinadas através de análise da sequência de acordo com técnicas convencionais. Com maior preferência, são utilizados anticorpos (policlonais ou 52 85 829 ΕΡ 699 754/ΡΤ monoclonais) para detectar diferenças em, ou na ausência de, péptidos BRCA1. Os anticorpos podem ser preparados tal como discutido acima sob o título "Anticorpos" e tal como ainda mostrado nos Exemplos 12 e 13. Outras técnicas para a criação e purificação de anticorpos são bem conhecidas na arte e qualquer uma dessas técnicas pode ser escolhida para alcançar as preparações reivindicadas neste invento. Numa concretização preferida do invento, os anticorpos imunoprecipitarão proteínas BRCA1 a partir da solução bem como reagirão com a proteína BRCA1 em "Western blots" ou imunotransferência de geles de poliacrilamida. Noutra concretização preferida, os anticorpos detectarão proteínas B.RC.A1, em cortes de tecido cm parafina ou congelado, utilizando técnicas de imunocitoquímica.

As concretizações preferidas em relação aos métodos de detecção de BRCA1 ou das suas mutações incluem ensaios de imunossorção com ligação de enzimas (ELISA), radioimunoensaios (RIA), ensaios imunorradiométricos (IRMA) e ensaios imunoenzimáticos (IEMA), incluindo ensaios em sanduíche utilizando anticorpos monoclonais e/ou policlonais. Exemplos de ensaios em sanduíche são descritos por David et al. nas Patentes U.S. Nos 4376110 e 4486530, incorporadas deste modo por referência, e exemplificados no Exemplo 14. Métodos de Utilização: Pesquisa de Fármacos

Este invento é particularmente útil para a pesquisa de compostos utilizando o polipéptido BRCA1 ou um fragmento de ligação deste em qualquer uma de uma variedade de técnicas de pesquisa de fármacos. 0 polipéptido BRCA1 ou fragmento empregue em tal teste pode estar livre em solução, fixado num suporte sólido ou suportado por uma superfície celular. Um método de pesquisa de fármacos utiliza células hospedeiras eucarióticas ou procarióticas que são estavelmente transformadas com polinucleótidos recombinantes que expressam o polipéptido ou fragmento, de preferência em ensaios de ligação competitiva. Tais células, quer na forma viável quer fixada, podem ser utilizadas para ensaios de ligação padrão. Pode-se medir, por exemplo, para a formação de complexos entre um polipéptido BRCA1, ou fragmento, e o agente a testar, ou examinar o grau a que a formação de um complexo entre um polipéptido BRCA1, ou fragmento, e um ligando conhecido é influenciada pelo agente a testar.

85 829 ΕΡ 699 754/ΡΤ 53

Assim, ο presente invento proporciona métodos de pesquisa de fármacos compreendendo o contacto de um tal agente com um polipéptido BRCA1 ou um fragmento deste e n ensaio (i) quanto à presença de um complexo entre o agente e o polipéptido BRCA1, ou fragmento, ou (ii) quanto à presença de um complexo entre o polipéptido BRCA1, ou fragmento, e um ligando, através de métodos bem conhecidos na arte. Em tais ensaios de ligação competitiva o polipéptido BRCA1, ou fragmento, é tipicamente marcado. O polipéptido BRCA1, ou fragmento, livre é separado do que está presente num complexo proteína:proteína, e a quantidade de marcador livre (i.e., não complexado) é uma medida da ligação do agente a testar a'BRCA1 ou da sua interferência com a ligação BRCA1 digando, respectivamente.

Outra técnica para pesquisa de fármacos proporciona uma pesquisa de alto rendimento de compostos possuindo uma afinidade de ligação adequada para os polipéptidos BRCA1 e está descrita em pormenor em Geysen, pedido PCT publicado WO 84/03564, publicado a 13 de Setembro de 1984. Resumidamente, é sintetizado um grande número de pequenos compostos peptídicos de teste diferentes num substrato sólido, tal como alfinetes de plástico ou qualquer outra superfície. Os compostos peptídicos de teste são feitos reagir com o polipéptido BRCA1 e lavados. O polipéptido BRCA1 ligado é então detectado através de métodos bem conhecidos na arte.

Podem-se revestir directamente placas com o BRCA1 purificado para utilização nas técnicas de pesquisa de fármacos mencionadas anteriormente. No entanto, podem ser utilizados anticorpos não neutralizantes para o polipéptido para capturar anticorpos para imobilizar o polipéptido BRCA1 na fase sólida.

Este invento contempla também a utilização de ensaios de pesquisa de fármacos competitivos nos quais anticorpos neutralizantes capazes de se ligar especificamente ao polipéptido BRCA1 competem com um composto de teste pela ligação ao polipéptido BRCA1 ou fragmentos deste. Deste modo, os anticorpos podem ser utilizados para detectar a presença de qualquer péptido que partilhe um ou mais determinantes antigénicos do polipéptido BRCA1.

Uma outra técnica para pesquisa de fármacos envolve a utilização de linhas celulares ou células hospedeiras eucarióticas (tais como as descritas acima) que possuam um gene BRCA1 não funcional. Estas linhas celulares ou 54 05 029 ΕΡ 699 754/ΡΤ células hospedeiras são deficientes ao nível do polipéptido BRCA1. As linhas celulares ou células hospedeiras são postas a crescer na presença de um composto-fármaco. A taxa de crescimento das células hospedeiras é medida para determinar se o composto é capaz de regular o crescimento das células deficientes em BRCA1. Métodos de Utilização: Concepção Racional de Fármacos 0 objectivo da concepção racional de fármacos é o de produzir análogos estruturais de polipéptidos biologicamente activos de interesse ou de pequenas moléculas · corri as quais estes interagem (p.ex., agonistas, antagonistas;, inibidores) de modo a dar forma a fármacos que são, por exemplo, formas mais activas ou estáveis do polipéptido, ou que, p.ex., aumentam ou interferem na função de um polipéptido in vivo. Ver, p.ex., Hodgson, 1991. Numa abordagem, determina-se primeiro a estrutura tridimensional de uma proteína de interesse (p.ex., o polipéptido BRCA1) ou, por exemplo, do complexo BRCA1-receptor ou ligando, através de cristalografia de raios X, através de modelação por computador ou mais tipicamente, através de uma combinação de abordagens. Menos frequentemente, pode obter-se informação útil em relação à tíslrulura de um polipéptido através de modelação baseada na estrutura de proteínas homólogas. Um exemplo de concepção racional de fármacos é o desenvolvimento de inibidores da protease de HIV (Erickson et aí., 1990). Adicionalmente, são analisados péptidos (p.ex., polipéptido BRCA1) através de um varrimento com alanina (Wells, 1991). Nesta técnica, um resíduo de aminoácido é substituído por Ala e é determinado o seu efeito na actividade do péptido. Cada um dos resíduos de aminoácidos do péptido é analisado desta forma para determinar as regiões importantes do péptido. É também possível isular um anticorpo específico para o alvo, seleccionado através de um ensaio funcional, e resolver depois a sua estrutura cristalina. Em princípio, esta abordagem produz um "núcleo de fármaco" sobre o qual pode ser baseada a subsequente concepção do fármaco. É possível dispensar toda a cristalografia proteica criando anticorpos anti-idiotípicos (ant-id) para um anticorpo funcional e farmacologicamente activo. Tal como uma imagem no espelho de uma imagem no espelho, espera-se que o local de ligação dos anti-id seja um análogo do receptor original. O anti-id pode então ser utilizado para identificar e isolar péptidos a partir de bancos de bancos de 55 05 029 ΕΡ 699 754/ΡΤ péptidos produzidos química ou biologicamente. Os péptidos seleccionados actuariam então como "núcleo de fármaco".

Assim, podem-se conceber fármacos que possuam, p.ex., uma melhor actividade ou estabilidade do polipéptido BRCA1 ou que actuem como inibidores, agonistas, antagonistas, etc. da actividade do polipéptido BRCA1. Em virtude da disponibilidade de sequências de BRCA1 clonadas, quantidades suficientes do polipéptido BRCA1 podem tornar-se disponíveis para efectuar estudos analíticos tais como cristalografia de raios X. Adicionalmente, o conhecimento da sequência proteica de BRCA1 aqui proporcionado guiará os que empregarem técnicas de modelação por computador em vez de, ou em adição à cristalografia de raios X. Métodos de Utilização: Terapia Génica

De acordo com o presente invento, é também proporcionado um método de fornecimento da função de BRCA1 de tipo selvagem a uma célula que possua alelos de BRCA1 mutantes. O fornecimento de tal função deve suprimir o crescimento neoplásico das células receptoras. O gene BRCA1 de tipo selvagem ou uma parte do gene pode ser introduzido na célula num vector de forma a que o gene permaneça extracromossómico. Numa tal situação, o gene será expresso pela célula a partir da sua localização extracromossómica. Se for introduzido e expresso um fragmento do gene numa célula possuindo um alelo de BRCA1 mutante, o fragmento do gene deve codificar uma parte da proteína BRCA1 que é necessária para o crescimento não neoplásico da célula. É mais preferível a situação em que o gene BRCA1 de tipo selvagem, ou uma sua parte, é introduzido na célula mutante de tal forma que este recombine com o gene BRCA1 mutante endógeno presente na célula. Tal recombinação requer um evento de recombinação dupla que resulta na correcção da mutação do gene BRCA1. Os vectores para a introdução de genes tanto para recombinação como para manutenção extracromossómica são conhecidos na arte, e qualquer vector adequado pode ser utilizado. Os métodos para a introdução de ADN em células tais como electroporação, co-precipitação com fosfato de cálcio e transdução virai são conhecidos na arte, e a escolha do método é da competência do praticante. As células transformadas com o gene BRCA1 de tipo selvagem podem ser utilizadas como sistemas modelo para estudar a remissão de cancro e os tratamentos com fármacos que promovem tal remissão. 56 85 829 ΕΡ 699 754/ΡΤ

Tal como genericamente discutido acima, o gene BRCA1 ou fragmento, quando aplicável, podem ser empregues em métodos de terapia génica para aumentar a quantidade de produtos de expressão de tais genes em células de cancro. Tal terapia génica é particularmente apropriada para utilização tanto em células cancerosas como pré-cancerosas, nas quais o nível de polipéptido BRCA1 está ausente ou diminuído em comparação com células normais. Pode também ser útil aumentar o nível de expressão de um dado gene BRCA1 mesmo nas células tumorais em que o gene mutante é expresso a um nível "normal", mas onde o produlu do gene não é totalmente funcional. A terapia génica seria efectuada de acordo com métodos geralmente aceites, por exemplo, tal como descrito por Friedman, 1991. As células de tumor de um doente seriam primeiro analisadas através dos métodos de diagnóstico acima descritos, para avaliar a produção de polipéptido BRCA1 nas células tumorais. É preparado um vector virai ou plasmídico (ver mais detalhes abaixo), contendo uma cópia do gene BRCA1 ligado aos elementos de controlo da expressão e capaz de replicação dentro das células tumorais. Os vectores adequados são conhecidos, tal como divulgado na Patente U.S. 5252479 e no pedido PCT publicado WO 93/07282. O vector é então injectado no doente, ou localmente no local do tumor ou sistemicamente (de forma a alcançar quaisquer células tumorais que possam ter metastizado para outros locais). Se o gene transfectado não for permanentemente incorporado no genoma de cada uma das células tumorais alvo, o tratamento pode ter de ser repetido periodicamente.

Os sistemas de transferência de genes conhecidos na arte podem ser úteis na prática dos métodos de terapia génica do presente invento. Estes incluem métodos de transferência virais e não virais. Têm sido utilizados vários vírus como vectores de transferência de genes, incluindo papovavírus, p.ex., SV40 (Madzak et al., 1992), adenovírus (Berkner, 1992; Berkner et a/., 1988; Gorziglia e Kapikian, 1992; Quantin et a!., 1992; Rosenfeld et al., 1992; Wilkinson et a!., 1992; Stratford-Perricaudet et a!., 1990), vírus vaccínia (Moss, 1992), vírus adeno-associados (Muzyczka, 1992; Ohi et al., 1990), vírus de herpes incluindo HSV e EBV (Margolskee, 1992; Johnson et al., 1992; Fink et al., 1992; Breakfield e Geller, 1987; Freese et aí., 1990), e retrovírus de origem em aves (Brandyopadhyay e Temin, 1984; Petropoulos et a!., 1992), murídeo 57 85 820 ΕΡ 699 754/ΡΤ (Miller, 1992; Miller et al., 1985; Sorge et al., 1984; Mann e Baltimore, 1985; Miller et al., 1988) e origem humana (Shimada et al., 1991; Helseth et al., 1990; Page et al., 1990; Buchschacher e Panganiban, 1992). A maioria dos protocolos de terapia génica humana foi baseada em retrovírus de murídeo desactivados.

Os métodos de transferência de genes não virais conhecidos na arte incluem técnicas químicas tais como co-precipitação com fosfato de cálcio (Graham e van der Eb, 1973; Pellicer et al., 1980); técnicas mecânicas, por exemplo rnicroinjecção (Anderson et al., 1980; Gordon et a!., 1980; Brinster et al., 1981; Constantini e Lacy, 1981); transferência mediada por fusão membranar através de lipossomas (Felgner et al., 1987; Wang e Huang, 1989; Kaneda et al., 1989; Stewart et al., 1992; Nabel et al., 1990; Lim et al., 1992); e absorção directa de ADN e transferência de ADN mediada por receptores (Wolff et al., 1990; Wu et a!., 1991; Zenke et al., 1990; Wu et a!., 1 989b; Wolff et al., 1 991; Wagner et al., 1 990; Wagner et al., 1991; Cotten et al., 1990; Curiel et a!., 1991a; Curiel et al., 1991b). A transferência de genes mediada por vírus pode ser combinada com transferência directa de genes />/ vivo utilizando entrega por lipossomas, permitindo que os vectores virais sejam dirigidos às células tumorais e não às células circundantes que não se dividem. Alternativamente, a linha celular produtora do vector retroviral pode ser injectada em tumores (Culver et al., 1992). A injecção de células produtoras proporcionaria então uma fonte contínua de partículas virais. Esta técnica foi aprovada para utilização em humanos com tumores cerebrais não operáveis.

Numa abordagem que combina métodos biológicos e físicos de transferência de genes, é combinado ADN plasmídico de qualquer tamanho com um anticorpo conjugado com polilisina específico para a proteína hexão do adenovírus, e o complexo resultante é ligado a um vector adenoviral. 0 complexo trimolecular é então utilizado para infectar células. O vector adenoviral permite a ligação, internalização e degradação eficientes do endossoma antes do ADN acoplado ser danificado.

Mostrou-se que os complexos lipossoma/ADN eram capazes de mediar a transferência de genes directa in vivo. Embora em preparações de lipossomas padrão o processo de transferência de genes não seja específico, foram 58 85 829 ΕΡ 699 754/ΡΤ relatadas absorção e expressão localizadas in vivo em depósitos tumorais, por exemplo, após administração directa in situ (Nabel, 1992).

As técnicas de transferência de genes que dirigem o ADN directamente para tecidos da mama e do ovário, p.ex., células epiteliais da mama ou dos ovários, são preferidas. A transferência de genes mediada por receptores, por exemplo, é alcançada através da conjugação de ADN (usualmente na forma de um plasmídeo super-enrolado fechado covalentemente) com um ligando proteico através de polilisina. Os ligandos são escolhidos com base na presença dos receptores 1-de ligando correspondentes na superfície celular do . tipo celular/tissular alvo. Um par receptor/ligando apropriado pode incluir o receptor de estrogénio e o seu ligando, estrogénio (e análogos de estrogénio). Estes conjugados ligando-ADN podem ser injectados directamente no sangue se desejado e dirigem-se para o tecido alvo onde ocorre a ligação ao receptor e a internalização do complexo ADN-proteína. Para superar o problema da destruição intracelular do ADN, pode ser incluída a co-infecção com adenovírus para destruir a função do endossoma. A terapia envolve dois passos que podem ser efectuados individualmente ou em conjunto. No primeiro passo, são tratadas fêmeas pré-pubescentes que possuem um alelo de susceptibilidade de BRCA1 com um veículo de entrega de genes de forma a que algumas ou todas as suas células precursoras epiteliais do dueto mamário recebam pelo menos uma cópia adicional de um alelo de BRCA1 normal funcional. Neste passo, os indivíduos tratados têm um risco reduzido de cancro da mama ao ponto do efeito do alelo de susceptibilidade ter sido contrariado pela presença do alelo normal. No segundo passo de uma terapia preventiva, fêmeas jovens predispostas, em particular mulheres que receberam o tratamento terapêutico génico proposto, são sujeitas a terapia hormonal para imitar os efeitos na mama de uma gravidez de tempo completo. Métodos de Utilização: Terapia Peptídica

Os péptidos que têm actividade de BRCA1 podem ser fornecidos a células que possuam alelos de BRCA1 mutantes ou ausentes. A sequência da proteína BRCA1 é divulgada (SEQ ID NO: 2). A proteína pode ser produzida através da expressão da sequência de ADNc em bactérias, por exemplo, utilizando vectores de expressão conhecidos. Alternativamente, o polipéptido BRCA1 pode ser extraído de células de mamífero produtoras de BRCA1. 59 85 829 ΕΡ 699 754/ΡΤ

Adicionalmente, podem ser empregues as técnicas de química sintética para sintetizar proteína BRCA1. Qualquer uma dessas técnicas pode proporcionar a preparação do presente invento a qual compreende a proteína BRCA1. A preparação é substancialmente isenta de outras proteínas humanas. Isto é conseguido muito rapidamente por síntese num microorganismo ou in vitro.

As moléculas de BRCA1 activas podem ser introduzidas em células por microinjecção ou através da utilização de lipossomas, por exemplo. Alternativamente, algumas moléculas activas podem ser absorvidas pelas células, activamente ou por difusão. A aplicação extracelular do produto do gene BRCA1 pode ser suficiente para afectar o crescimento tumoral. O fornecimento de moléculas com actividade de BRCA1 deve conduzir a uma inversão parcial do estado neoplásico. Outras moléculas com actividade de BRCA1 (por exemplo, péptidos, fármacos ou compostos orgânicos) podem também ser utilizados para efectuarem tal inversão. São também utilizados polipéptidos modificados possuindo uma função substancialmente semelhante para terapia peptídica. Métodos de Utilização: Hospedeiros Transformados

De forma semelhante, podem ser utilizadas células e animais que possuam um alelo de BRCA1 mutante como sistemas modelo para estudar e testar substâncias que tenham potencial como agentes terapêuticos. As células são tipicamente células epiteliais de cultura. Estas podem ser isoladas a partir de indivíduos com mutações de BRCA1, quer somáticas quer da linha germinativa. Alternativamente, a linha celular pode ser modificada para possuir a mutação no alelo de BRCA1, tal como descrito acima. Após uma substância de teste ser aplicada às células, é determinado o fenótipo da célula neoplasicamenle transformada. Qualquer característica das células neoplasicamente transformadas pode ser avaliada, incluindo o crescimento independente da annnragem, a tumnrigenicidade em ratinhos nus, a capacidade de invasão das células e a dependência de factores de crescimento. Os ensaios para cada uma destas características são conhecidos na arte.

Os animais para testar agentes terapêuticos podem ser seleccionados após mutagénese de animais inteiros ou após o tratamento de células da linha germinativa ou de zigotos. Tais tratamentos incluem a inserção de alelos de BRCA1 mutantes, usualmente de uma segunda espécie animal, bem como a 60 85 820 ΕΡ 699 754/ΡΤ inserção de genes homólogos destruídos. Alternativamente, o gene ou genes BRCA1 endógenos dos animais podem ser destruídos através de mutação por inserção ou deleçãn ou outras alterações genéticas utilizando técnicas convencionais (Capecchi, 1989; Valancius e Smithies, 1991; Hasty et a!., 1991; Shinkai et al., 1992; Mombaerts et al., 1992; Philpott et a!., 1992; Snouwaert et al., 1992; Donehower eia/., 1992). Após as substâncias de teste terem sido administradas aos animais, tem de ser avaliado o crescimento tumoral. Se a substância de teste evita ou suprime o crescimento de tumores, então a substância de teste é um agente terapêutico candidato para o tratamento.dos cancros aqui identificados. Estes modelos animais proporcionam um veículo de teste extremamente importante para potenciais produtos terapêuticos. O presente invento é descrito por referência aos seguintes Exemplos, os quais são oferecidos como ilustração e não se pretende que de modo algum limitem o invento. Foram utilizadas técnicas padrão bem conhecidas na arte ou as técnicas especificamente descritas abaixo. EXEMPLO 1

Avaliação e Estudo de Famílias com Probabilidade de Possuírem um Locus de Susceotibilidade para Cancro da Mama Ligado a 17a

Foram avaliadas famílias extensas propensas a cancro de uma população definida que proporciona um grande conjunto de famílias extensas com múltiplos casos de cancro da mama e muitos familiares disponíveis para estudo. O grande número de meioses presente nestas grandes famílias proporcionou o poder de detectar se o locus BRCA1 estava a segregar, e aumentou a oportunidade de ocorrência de recombinantes informativos dentro da pequena região em investigação. Isto melhorou amplamente as hipóteses de se estahelecer uma ligação à região de BRCA1 e facilitou grandemente a redução da região de BRCA1 para um tamanho manuseável, o que permite a identificação do próprio locus BRCA1.

Cada família foi alargada a todos os familiares de contacto disponíveis e a todos os familiares de primeiro grau informativos de cada probando ou caso de cancro. Para estas famílias, os casos de cancro da mama adicionais e os indivíduos com cancro noutros locais de interesse (p.ex. ovário) que também

85 829 ΕΡ 699 754/ΡΤ apareceram nas famílias foram identificados através dos arquivos ligados ao registo de tumores. Todos os cancros da mama relatados na família que não foram confirmados no IJtah Câncer Registry foram investigados. Foram obtidos registos médicos ou certidões de óbito para confirmação de todos os cancros. Cada indivíduo-chave de contacto e todos os indivíduos informativos foram convidados a participar proporcionando uma amostra de sangue a partir da qual foi extraído ADN. Retirámos também amostras do cônjuge e familiares de casos falecidos de forma a que o genótipo dos casos falecidos pudesse ser deduzido a partir dos genótipos dos seus familiares.

Foram seleccionadas dez famílias que tiveram três ou mais casos de cancro com genótipos deduzíveis para estudos de ligação a marcadores de 17q a partir de um conjunto de 29 famílias originalmente avaliadas a partir das bases de dados associadas para um estudo da doença proliferativa da mama e do cancro da mama (Skolnick et a!., 1990). O critério para a selecção destas famílias foi a presença de duas irmãs ou de uma mãe e sua filha com cancro da mama. Adicionalmente, foram incluídas duas famílias que têm sido estudadas desde 1980 como parte dos nossos estudos de ligação do cancro da mama (K1001, K9018), seis famílias avaliadas a partir das bases de dados associadas quanto à presença de grupos ("clusters") de cancro da mama e/ou do ovário (K2019, K2073, K2079, K2080, K2039, K2082) e uma família auto-referida com cancro da mama de aparecimento precoce (K2035). Estas famílias foram investigadas e expandidas na nossa clínica do modo acima descrito. A Tabela 1 apresenta as características destas 19 famílias as quais são o objecto dos exemplos subsequentes. Na Tabela 1, são relatados, para cada família, o número total de indivíduos na nossa base de dados, o número de indivíduos tipificados, e a idade mínima, média e máxima aquando do diagnóstico de cancro da mama/ovário. As famílias são organizadas por ordem crescente da idade média aquando do diagnóstico de cancro da mama. Quatro mulheres diagnosticadas com ambos os cancros, da mama e do ovário, são tidas em conta em ambas as categorias.

85 829 EP 699 754/PT 62

O ' k- ‘CO > O

o "D O “D C (0 D cr (D 0 "O 03 "O

O O V-» CO Ό C O) (D

Q X ‘03 »

I I

o LO

co CO in co

IO a ‘0 05 > O co 00 co

CN CN , 00 CO in in lo , , in ^ >4-

O "Cf

Oi r-io LO

CN T-lO -3-

Descrição das 19 Famílias

raE O T3 o o "o .2 c -w co <5 o 'O cr co O) 05 -2 “o Q co T3

co O 32 > "D C >< C0 Ό N5 05>

(O

Cn^LOT-CNCOT-COrOCOr^CDOCNO^-OO^-OO^-co^^r^ioior^r^r^cor^i^-cDoococoooco

^tr^r^coocNCNCNco^tr^ooLoior^cocococo connn^ct^ct^ct-ctioioinininocDtD r^-oooo^ococNoorj-T— r^cNLor^LOCOcNoo^ cscMCMcococoncNnncM^^cMn^conTj·

CN ooooiOT-r^r^cDr-^-cr5Sa5ro^tcr5fr,^tooo fi-05CN'-i-MCN(Nr-i-”r-(Nr'CNW'"'-cl· < ^ CO *-< o < < U- iOOOCN^-^OCnoOCDlOOCNO^tr^COCNCOr^ τ— (Ό CN LO LO N !— CO 05 cl· N CO LO τ— CN 00 00 T— T- CN V-

o<— lor^-ooLor^i— co'— cNcnoocor^ocnco <— OOOCNv-CNCNIt— CNOOD'— OOOI^-'— (Nl^-co (3)0000(1)0)0)010)000)000)0)00 *— t— CN CN 05 *— τ— *— *— *— CN CN t— CN CN *— *— CN CN + Inclui um caso de cancro da mama masculino.

85 829 ΕΡ 699 754/ΡΤ 63 EXEMPLO 2

Seleccão de Famílias Que estão Ligadas ao Cromossoma 1 7q e Localização de BRCA1 no Intervalo Mfdl 5-Mfdl 88

Para cada amostra recolhida nestas 19 famílias, foi extraído o ADN do sangue (ou em dois casos de blocos de tecido impregnado em parafina) utilizando protocolos laboratoriais padrão. A genotipificação neste estudo restringiu-se a marcadores de repetições curtas em cadeia (STR) uma vez que, em geral, estes têm elevada heterozigocidade e os métodos de PCR oferecem urna rápida alternativa quando se utilizam quantidades muito pequenas de ADN. Para auxiliar neste esforço, foram desenvolvidos quatro desses marcadores de STR no cromossoma 17 pesquisando uma biblioteca cosmídica específica do cromossoma quanto a clones positivos para CA. Três destes marcadores localizavam-se no braço longo: (46E6, Easton et al., 1993); (42D6, Easton et al., 1993); 26C2 (D17S514, Oliphant et al., 1991), enquanto que o outro, 12G6 (D17S513, Oliphant et al., 1991) localizava-se no braço curto próximo do locus de supressão tumoral p53. Dois destes, 42D6 e 46E6, foram submetidos ao Breast Câncer Linkage Consortium para tipificação de famílias com cancro da mama por investigadores de todo o mundo. As sequências oliyunucleolídicas para os marcadores que não foram desenvolvidos no nosso laboratório foram obtidas a partir de relatórios publicados, ou como parte do Breast Câncer Linkage Consortium, ou de outros investigadores. Todas as películas de genotipificação foram classificadas de forma anónima com um marcador de pista padrão utilizado para manter consistente a codificação dos alelos. As amostras-chave nas quatro famílias aqui apresentadas foram submetidas a tipificação em duplicado para todos os marcadores relevantes. Todas as 19 famílias foram tipificadas para dois marcadores polimórficos da repetição CA: 42D6 (D17S588), uma repetição CA isolada no nosso laboratório e Midi 5 (D17S250), uma repetição CA proporcionada por J. Weber (Weber et a!., 1990). Foram utilizadas várias fontes de sondas para criar marcadores genéticos no cromossoma 17, especificamente bibliotecas cosmídicas e de fago lambda do cromossoma 17 criadas a partir de cromossomas ordenados por Los Alamos National Laboratories (van Dilla et al., 1986).

As classificações de LOP para cada família com estes dois marcadores (42D6, Mfd15) e um terceiro marcador, Mfd188 (D17S579, Hall et al., 1992), localizado aproximadamente a meio entre estes dois marcadores, foram 64 86 829 ΕΡ 699 754/ΡΤ calculados para dois valores da fracção de recombinação, 0,001 e 0,1. (Para o cálculo das classificações de LOP, ver Oh, 1985). As probabilidades foram avaliadas por computador com o modelo derivado por Claus et a!.. 1991, o qual assume uma frequência génica estimada de 0,003, um risco de vida em portadores dos genes de cerca de 0,80, e riscos específicos para a idade baseados na população para cancro da mama em não portadores dos genes. As frequências alélicas para os três marcadores utilizadas para os cálculos da classificação de LOP foram calculadas a partir das nossas próprias tipificações laboratoriais de indivíduos não relacionados no painel CEPH (White e Lalouel, 1988). A Tabela 2 mostra os resultados da análise de ligação em, pares de cada família com os três marcadores 42D6, Mfd188 e Mfd15. (Segue Tabela) 65 85 829 ΕΡ 699 754/ΡΤ CD Ο CN d- ο Ο) CM οο ^ (Ν οο τ- οο οο ο ο ο θ' Ο ι-' Ο ο ο ο οο ιη r» co ο ιη οο cn οο ιη τ- ο d d d οο' d d oo oo o o i- CN ιη ι- ο Ο Ο Ο d d d d d d

ω TJ ο 1CU ο· (Ό Ç ΙοΕ ο ο <Β 0C 00 οο ιη ω

ο (ΟΜ^ίΟ^-Γ-'ί Ο ω οο -- γ- γ- ^ ο ο cm' ο ο d σ> σ> m o oo cn 't (Ο Ο r- ι- Ο d d cm d ο'

lo oo i— o <— in CN (Ί O O O i- d d d d i-' I I i I co (Λ C0 CO t- o 00 CM < _i LU 0Q < E co Li. (O (0 “D (Λ (D co 0_E 0 o *0 o co σ 0 σ> tj

o ICO O' 0 <“ c Q Ia ^ E o o ω oc O cm o oo σι M r- oo o o' o' o' o' o' h-_ Z o' o'

co CN in in O m o O) o' o' I- CD O in o' d

CD H o IO in 00 1- 00 Τ l·- CD 00 H t— Τ CN o o o' O O Z CD d CN 1 d i in d 00 d 1 d 1 z tv d o cd' Ο 1 z d CD d Z Z Ο o' 1 O 0 ΊΖ5 0 co =5 c < in T3 O CD LO CO CN CD ι- n IO MO r- Γ- 00 O 00 00 CN 0-- O I- CN I- CO Ο ΙΟ d i-' d d d o' d o' i-' co d d Ν’ O) CN CN i“ OO O CN O O O 00 o' d o' d d d

0 “O

O in o cn ICO CO o- (O c Lq E o o Φ oc δ CD O o 00 id" 00 CN CM <d- LO 00 O r— r^. CN cn o in m CN o <d- CD τ CN O OO O CM O rv. co o d o' d 1 cm' 1 O 1 o" 1 o" 1 o" 1 o o" 1 ο" 1 o' 1 o" 1 ó 1 O r— 1 para < u_ O i— in D· oo in i- O oo CN i- CM CN CD O O O O O) CD i— i— CN CN O) i— i— i— (3) i— CN O) O I- CN O 00 I- O CD CD CD O O CD i— i— i— CN CN i—

O 00 0" O CD CD oo r-~ i- cn r- oo O O (D CD O O CN CN i- i- CM CN

85 829 ΕΡ 699 754/ΡΤ 66

Utilizando um critério para a ligação a 17q de uma classificação de LOP> 1,0 para pelo menos um locus sob o modelo CASH (Claus et al., 1991), quatro das 19 famílias pareciam estar ligadas a 1 7q (K1901, K1925, K2035, K2082). Várias famílias adicionais mostraram alguma evidência de ligação mas nesta altura não podiam ser definitivamente atribuídas à categoria das ligadas. Estas incluíam as famílias K1911, K2073, K2039 e K2080. Três das famílias ligadas a 17q tinham recombinantes informativos nesta região e estas são pormenorizadas abaixo. A Família 2082 é a maior família com cancro da mama ligado a 17q relatada até à data por qualquer grupo. A família contém 20 casos de cancro da mama e dez casos de cancro do ovário. Dois casos tinham ambos cancro da mama e do ovário. A evidência de ligação a 17q para esta família é esmagadora; a classificação de LOP com o haplotipo ligado é superior a 6,0, apesar da existência de três casos de cancro da mama que parecem ser esporádicos, i.e., estes casos não partilham qualquer parte do haplotipo ligado entre Mfd15 e 42D6. Estes três casos esporádicos foram diagnosticados com cancro da mama nas idades de 46, 47 e 54 anos. Em famílias mais pequenas, os cancros esporádicos deste tipo confundem grandemente a análise de ligação e a identificação correcta de recombinantes-chave. O recombinante-chave na Família 2082 é uma mulher que desenvolveu cancro do ovário aos 45 anos cuja mãe e tia tiveram cancro do ovário aos 58 e 66 anos, respectivamente. Ela herdou a porção ligada do haplotipo para ambos Mfd188 e 42D6 ao mesmo tempo que herdou alelos não ligados em Mfd15; este evento recombinante colocou BRCA1 distai em relação a Mfd15. A K1901 é típica de famílias com cancro da mama de aparecimento precoce. A família contém 10 casos de cancro da mama com uma idade média aquando do diagnóstico de 43,5 anos de idade; quatro casos foram diagnosticados antes dos 40 anos. A classificação de LOP para esta família com o marcador 42D6 é de 1,5, resultando numa probabilidade posterior de ligação a 17q de 0,96. O exame de haplotipos nesta família identificou um haplotipo recombinante num portador masculino obrigatório e na sua filha afectada a qual foi diagnosticada com cancro da mama aos 45 anos. 0 seu alelo ligado para o marcador Mfd15 difere do encontrado em todos os outros casos na família (excepto um caso que não podia ser completamente deduzido a partir dos seus filhos). Os dois haplotipos são idênticos para Mfd188 e 42D6. De forma

85 820 ΕΡ 699 754/ΡΤ 67 concordante, os dados da Família 1901 colocariam também o locus BRCA1 distai em relação a Mfd15. A Família 2035 é semelhante a K1901 no fenótipo da doença. A idade média aquando do diagnóstico para os oito casos de cancro da mama nesta família é de 37 anos. Um caso teve também cancro do ovário aos 60 anos. Os casos de cancro da mama nesta família descendem de duas irmãs as quais não foram afectadas com cancro da mama até à sua morte na oitava década. Cada ramo contém quatro casos de cancro da mama e pelo menos um caso em cada ramo possuindo aparecimento. marcadamente precoce. Esta família tem uma classificação de LOP de 2,34 com Mfd15. Os haplotipos que segregam, com cancro da mama, nos dois ramos partilham um alelo idêntico em Mfd15 mas diferem nos loci distais Mfd188 e NM23 (um marcador tipificado como parte do consórcio o qual se localiza imediatamente distai em relação a 42D6 (Hall et al., 1992)). Embora os dois haplotipos sejam concordantes para o marcador 42D6, é provável que os alelos sejam partilhados idênticos por estado (o mesmo alelo mas derivado de ancestrais diferentes), em vez de idênticos por descendência (derivado de um ancestral comum) uma vez que o alelo partilhado é o segundo alelo mais comum ubservado neste locus. Em contraste o alelo ligado partilhado em Mfd15 tem uma frequência de 0,04. Este é um recombinante-chave no nosso conjunto de dados uma vez que é o único recombinante no qual BRCA1 segregou com a porção proximal do haplotipo, estabelecendo assim a fronteira distai à região de BRCA1. Para este evento não ser um recombinante-chave é necessário que um segundo gene BRCA1 mutante esteja presente num cônjuge que entre para a família que também partilhe o alelo de Mfd15 raro que segrega com cancro da mama em ambos os ramos da família. Este evento tem uma probabilidade de menos de um em mil. A evidência desta família colocou portanto o locus BRCA1 proximal em relação a Mfd188. EXEMPLO 3

Criação de um Mapa da Estrutura Fina e Refinamento da Região de BRCA1 para Mfd191-Mfd188 utilizando Polimorfismos STR Adicionais

De forma a melhorar a caracterização dos nossos recombinantes e definir marcadores de flanqueamento mais próximos, era necessário um mapa denso desta região relativamente pequena no cromossoma 17q. 0 "chromosome 17 workshop" produziu um mapa de consenso desta região (Figura 1) baseado 68 85 829 ΕΡ 699 754/ΡΤ numa combinação de estudos de mapeamento genético e físico (Fain, 1992). Este mapa contém tanto polimorfismos STR altamente polimórficos como vários genes expressos não polimórficos. Como este mapa não deu detalhes sobre evidências para esta ordem nem deu nenhuma medida do suporte local para inversões na ordem dos toei adjacentes, vimo-lo como um guia incerto para a obtenção de recursos a serem utilizados para o desenvolvimento de novos marcadores e construção do nosso próprio mapa genético e físico pormenorizado de uma pequena região contendo BRCA1. A nossa abordagem foi a de analisar marcadores de STR existentes proporcionados por outros investigadores e quaisquer marcadores desenvolvidos de.··,novo do nosso laboratório em relação tanto a um painel de pontos de quebra meióticos (genéticos) identificados utilizando ADN das famílias de referência de CEPH como a um painel de híbridos de células somáticas (pontos de quebra físicos) construídos para esta região. Estes marcadores incluíam o 26C2 desenvolvido no nosso laboratório o qual é mapeado proximal em relação a Mfd15, Mfd191 (proporcionado por James Weber), THRA1 (Futreal et al., 1992a), e três polimorfismos gentilmente proporcionados por Dr. Donald Black, NM23 (Hall et a/., 1992), SCG40 (D17S181) e 6C1 (D17S293).

Localização genética dos marcadores. De forma a localizar novos marcadores geneticamente na região de interesse, identificámos vários pontos de quebra meióticos-chave na região, tanto no painel de referência de CEPH como na nossa grande família com cancro da mama (K2082). Dada a pequena distância genética nesta região, é provável que exista apenas um conjunto relativamente pequeno de recombinantes que podem ser utilizados para este fim, e é provável que estes agrupem os marcadores em conjuntos. As ordens dos marcadores dentro de cada conjunto apenas podem ser determinadas através de mapeamento físico. No entanto, o número de genotipificações necessário para posicionar um novo marcador é minimizado. Estes pontos de quebra são ilustrados nas Tabelas 3 e 4. Utilizando esta abordagem fomos capazes de ordenar geneticamente os marcadores THRA1, 6C1, SCG40 e Mfd191. Tal como pode ser observado a partir das Tabelas 3 e 4, THRA1 e MFD191 são ambos mapeados dentro da região Mfd15-Mfd188 que identificámos anteriormente como contendo o locus BRCA1. Nas Tabelas 3 e 4, M/P indica um recombinante materno ou paterno. Um "1" indica que o alelo herdado é proveniente do avô, enquanto que ”0" indica que é proveniente da avó, e indica que o locus era não tipificado ou não informativo. 69 85 029 ΕΡ 699 754/ΡΤ TABELA 3

Recombinantes de CEPH

Família ID M/P Mfd1 5 THRA1 Mfd191 Mfd188 SCG40 6C1 42D6 13292 4 M 1 1 1 0 0 0 0 13294 4 M 1 1 1 0 0 0 0 13294 6 M 0 0 1 1 - - - 1334 3 M 1 1 1 1 1 0 0 1333 4 M 1 1 1 0 - - 0 1333 6 M 0 o" 1 1 - - 1 1333 8 P 1 0 0 0 - - 0 1377 8 M 0 - 0 0 0 0 1 TABELA 4

Recombinantes da Família 2082

Família ID M/P Mfd1 5 Mfd191 Mfd188 SCG40 6C1 42D6 75 M 0 1 1 1 - - 63 M 0 0 1 1 - 1 125 M 1 1 1 0 - 0 40 M 1 1 0 0 - 0 70 85 820 ΕΡ 699 754/ΡΤ

Análise dos marcadores Mfd15. Mfd188, Mfd191 e THRA1 nas nossas famílias recombinantes. Mfd15, Mfd188, Mfd191 e THRA1 foram tipificados nas nossas famílias recombinantes e examinados quanto a informação adicional para localizar o locus BRCA1. Na Família 1901, o recombinante com Mfd15 foi recombinante para THRA1 mas não informativo para Mfd191, colocando assim BRCA1 distai em relação a THRA1. Em K2082, o recombinante com Mfd15 foi também recombinante com Mfd191, colocando assim o locus BRCA1 distai em relação a Mfd191 (Golgar et a!., 1994). 0 exame de THRA1 e Mfd191 na Família K2035 não produziu mais informação de localização uma vez que os dois ramos eram concordantes para ambos os marcadores. No enlanto, SCG40 e 6C1 apresentaram ambos o mesmo padrão que Mfd188, aumentando assim a nossa confiança na informação de localização proporcionada pelo recombinante de Mfd188 nesta família. 0 locus BRCA1, ou pelo menos uma porção deste, fica portanto dentro de um intervalo limitado por Mfd191 no lado proximal e Mfd188 no lado distai. EXEMPLO 4

Desenvolvimento de Recursos Genéticos e Físicos na Região de Interesse

Para aumentar o número de toei altamente polimórficos na região Mfd191-Mfd188, desenvolvemos vários marcadores de STR no nosso laboratório a partir de cosmídeos e YAC que estão mapeados fisicamente na região. Estes marcadores permitiram-nos refinar mais a região.

Foram identificados STR a partir de genes que se sabe estarem na região desejada para identificar os YAC que continham esses toei, os quais foram então utilizados para identificar subclones em cosmídeos, P1 ou BAC. Estes subclones foram então pesquisados quanto à presença de uma repetição CA em cadeia utilizando um oligonucleótido (CA)n (Pharmacia). Foram seleccionados preferencialmente clones com um sinal forte, uma vez que era mais provável que estes representassem repetições CA que tivessem um grande número de repetições e/ou fossem de fidelidade quase perfeita com o padrão (CA)n. Sabe-se que ambas estas características aumentam a probabilidade de polimorfismo (Weber, 1990). Estes clones foram sequenciados directamente a partir do vector para localizar a repetição. Obtivemos uma sequência única num dos lados da repetição CA utilizando um de um conjunto de iniciadores possíveis complementares à extremidade de uma repetição CA, tal como 85 829 ΕΡ 699 754/ΡΤ 71 (GT)10T. Com base nesta sequência única, foi feito um iniciador para sequenciar em sentido contrário a repetição na outra direcção, produzindo uma sequência única para a concepção de um segundo iniciador de flanqueamento da repetição CA. Os STR foram então pesquisados quanto a polimorfismo num pequeno grupo de indivíduos não relacionados e testados contra o painel de híbridos para confirmar a sua localização física. Os novos marcadores que satisfizeram estes critérios foram então tipificados num conjunto de 40 indivíduos não relacionados das famílias de Utah e de CEPH para obter frequências alélicas apropriadas para o estudo da população. Muitos dos outros marcadores relatados neste estudo :forarrv.testados num grupo menor de indivíduos nãa - ; relacionados de CEPH para obter de forma semelhante frequências alélicas apropriadas.

Utilizando o procedimento acima descrito, encontrou-se um total de oito STR polimórficos a partir destes YAC. Dos toei identificados deste modo, quatro eram polimórficos e localizavam-se na região de BRCA1. Quatro marcadores não se localizavam no cromossoma 17, reflectindo a natureza quimérica dos YAC utilizados. Os quatro marcadores que estavam na região foram designados AA1, ED2, 4-7 e YM29. AA1 e ED2 foram desenvolvidos a partir de YAC positivos para o gene RNU2, 4-7 a partir de um YAC EPB3 e YM29 a partir de um cosmídeo que se localizou na região através do painel de híbridos. Uma descrição do número de alelos, heterozigocidade e fonte destes quatro e de todos os outros polimorfismos de STR analisados nas famílias com cancro da mama é dada abaixo na Tabela 5. (Segue Tabela)

85 829 EP 699 754/PT 72 co| oo r-Nt-too^-ooioincNjcncncooo^·^ CN «- CM CM 00 00 <— 00 i- 00 ιο| γν Γ^ΐίοωοοτί-ι^οοοοσίίΛ^'ΟΟ'Φ^σ) o Ό o sz c CO E (0 TABELA 5 Marcadores Polimórficos de Repetições Curtas em Cadeia Utilizados para o Mapeamento da Estrutura Fina do Locus BRCA1 * <0 ÇJjõj < 2 o c «D D CT ω ω T3 co g 'u o σ ’nj O í_ 0) +-> ω •d-| γν rNLOoocricDr^cooo<—γ^<-γνΓνΟ

00| LO '-OOLO'— OOCMCOOO'— T-r^r-CncDCN CM| CNJ θω»ιηιη<1·(ΟΟΟΝΟΝ(ΟΝΟ!0 CM CM CMr-t-tMr-r-^nOJr-ÍSr-r- CD COCMCO<OCOOsIOOO»-OOOt-OCO<X) CM ^-COCMCMCD^J-OOCMCMCOOOCMlOOOt- CM LO LO 8» o CM CM O co LO o 00 o 00 co LO LO LO CD O cn co Γ*Ν On 00 co co co O o' O O O o O O o o O o o~ o o' o Φ "O c o Q. V) V 1_ U_ o o o IÍ0 c C0 o O (O k_ 8 -o g 2 1 c E w c 2 ° ° (Λ to (D O 4-> C CO α> o o *a <0 O ω £2 o <o Φ T3

CO (0 o c <φ D * * co ΙΩ Γν

CM §\2 S: o c c <G> C D o cr ο 0) k. CO H- § " (0 cfl CD — o t<0 — S ® Φ O *D LT) (0 o CD |Nn CM CO CM 'd- co 00 cn T_ 00 00 o CM ο CM co CM LO CM CO o c LO 0n oo 00 co r— Γν co co cn in 00 00 00 00 _o «D D CM *- |Nn r— ΐ— r— LO T— LO CM Γν T- τ— 1- T- <D σ* G) cp < CP CP CP CP (/) CP cn CP CP CP CP CP CP CP CD φ c ΓΝ. CC ΓΝ Γν Γν r·* Γν r^ i-n Γν Γν Γν Γν Γν CO '-H- 0) r- H T— τ .— T**“ τ— — r— r~ Γ— t— τ τ- τ— *— O <C o Q 1- Q α Q Q O Q Q 0 O O α Ω Q Q CO tò O ^ C TJ φ Ό C O En O) co co

0) c _o O m

< 2 CC T3 CM X ^ Q h 2 UJ

LO oo < O

00 co 00 CM X

ίο cn r-N co ,n — CP -d" CM CD 0 *— O t— *d· r- UCMUi-^LLjnLP W^flON 2uSD

O CO o Número de alelos observados nas amostras de ADN geneticamente independentes utilizadas para o cálculo das frequências alélicas.

85 829 ΕΡ 699 754/ΡΤ 73 éfr

Os quatro polimorfismos de STR que são mapeados fisicamente na região (4-7, ED2, AA1, YM29) foram analisados no painel de pontos de quebra maióticos mostrado inicialmente nas Tahelas 3 e 4. As Tabelas 6 e 7 contêm os dados relevantes de CEPH e da Família 2082 para a localização destes quatro marcadores. Nas tabelas, M/P indica um recombinante materno ou paterno. Um "1" indica que o alelo herdado é proveniente do avô, enquanto que ”0" indica que é proveniente da avó, e indica que o locus era não tipificado ou não informativo.

(Segue Tabela)

7486 829ΕΡ 699 754/ΡΤ CD α <Ν *3· ο ο ^ι-ο ο ο C0

α: ΙΟ) * «». Ο Οtoο>ο α) *Ό 0 ϋV-*'0 C0) ϋο 10ο C0 C 0-α cu (0 CL C0 Ο "Ο 0 Ν

0> 0χ:Ο I I/) Φ 4-< C(ϋ C

Οο φ CC σ φ •Ο Τ“<Ο 0C CQΦ Τ3 Ο 1(0'σ φ cc(0 Τ3 οχι<ο_ιοω(0 Ο 2ο CWο Τ3 '> Ο > C φ (Λ0)Ο 00 οο"Ό

ο CM

Γ-- I 05οr— Ν Ο ο Ο ο Ο * 1 · · · < *- Ο r- Ο< CN Q τ— ι ι LL1

σ>“D

<0C <- ο ο <- ο οX ΙΟ 1— Χ3 Ο 1- ο ο

CD

CD 00 Φ Ό 0 X 0. LL) CM 05 cf· cn σ> 00 00 00 Ε Ο CN CN CNI οο 00 00 0 00 00 00 00 00 00 υ_ τ— τ— ι— 1— τ—

76 85 829 ΕΡ 699 754/ΡΤ A partir de 1333-04 de CEPH, observamos que AA1 e YM29 têm de ficar distais em relação a Mfd191. A partir de 13292, pode ser deduzido que tanto AA1 como ED2 são proximais em relação a 4-7, YM29 e Mfd188. Os recombinantes verificados em K2082 proporcionam alguma informação de ordenação adicional. Três observações independentes (indivíduos número 22, 40 & 63) colocam AA1, ED2, 4-7 e YM29, e Mfd188 distais em relação a Mfd191, enquanto que ID 125 coloca 4-7, YM29 e Mfd188 proximais em relação a SCG40. Não foi obtida qualquer informação genética sobre a ordenação relativa dentro dos dois "cíusters" de marcadores AA1/ED2 e 4-7/YM29/Mfd188 a partir da análise dos recombinantes genéticos. Embora a ordenação dos loci em relação aos híbridos que se sabe conterem "hiatos" nos quais podem faltar pequenos pedaços de ADN intersticial humano seja problemática, os padrões dos híbridos indicam que 4-7 fica acima tanto de YM29 como de Mfd188. EXEMPLO 5

Análise Genética das Famílias com Cancro da Mama com os Marcadores AA1. 4-7. ED2 e YM29

Para além das três famílias contendo recombinantes-chave que foram discutidas anteriormente, mostrou-se através da análise dos marcadores de STR recentemente desenvolvidos que a Família K2039 estava ligada à região e contém um recombinante útil. A Tabela 8 define os haplotipos (mostrados na forma codificada) das famílias em termos de alelos marcadores específicos em cada focus e suas respectivas frequências. Na Tabela 8, os alelos estão listados em ordem decrescente de frequência; as frequências dos alelos 1-5 para cada locus são dadas na Tabela 5. Os haplotipos codificados como H são haplotipos associados a BRCA1, P designa um haplotipo H parcial e um R indica um haplotipo recombinante observável. Tal como é evidente na Tabela 8, nem todas as famílias foram tipificadas para todos os marcadores; para além disso, nem todos os indivíduos dentro de uma família foram tipificados para um conjunto idêntico de marcadores, especialmente em K2082. Com uma excepção, apenas são mostrados os haplotipos herdados de membros de uma família afectados ou em risco; os haplotipos dos cônjuges que entraram para a família não são descritos. Assim, num dado relacionamento familiar, o surgimento de haplotipos X e Y indica que ambos os haplotipos do indivíduo afectado/em risco foram observados e nenhum era um haplotipo associado a cancro da mama.

86 829 ÈP 699 754/PT 77 CO Q CN 3·

O CD ooo (Λ t— 2 CO Th »— z z z z

Z Z Z CN CD 2Z CNCN^CNCNt— CN^CDO·'· co co n

Haplotipos Ligados a Cancro da Mama Encontrados nas Três Famílias T3 00i 5

O) CN Γ'' 4 LO θ' 00<o σ>o

N <<

CN Q

IO 05 00 00

CN C0 CD CN CN

CD CN CN

CN CN CN CN sf 00 ^ CN C\| z zzzzzzzzz co

CD CD CD

Γ- I-* io LO LO 00 co co

LO CD co co LO LO ^ < cc I I-

LO m ^ zzzzzzzzz

CN CN CN

CL.< X ε co

05 00 co co CD CD 00 r- co 00 00 00 00 00 CN τ— CN CN 00 sfr LO co r->. 0M CN X OC X cl Q. CT cc IX cc cr cc cc X X CC CN 00 O CN LO CO O CN o 05

85 829 ΕΡ 699 754/ΡΤ 78

Na Família Κ1901, os novos marcadores não mostraram qualquer recombinação observável com susceptibilidade para cancro da mama, indicando que n evento de recombinação nesta família teve provavelmente lugar entre THRA1 e ED2. Assim, não foi obtida qualquer informação nova sobre a localização de BRCA1 com base no estudo dos quatro novos marcadores nesta família. Na Família 2082 o indivíduo recombinante-chave herdou os alelos ligados para ED2, 4-7, AA1 e YM29, e era recombinante para tdj1474 indicando que o evento de recombinação ocorreu neste indivíduo entre tdj1474 e ED2/AA1.

Existem três haplotipos de interesse na Família K2035, Hl, H2 e R2 mostrados na Tabela 8. H1 está presente nos quatro casos e num portador masculino obrigatório descendente do indivíduo 17 enquanto que H2 está presente ou é deduzido em dois casos e dois portadores masculinos obrigatórios em descendentes do indivíduo 10. R2 é idêntico a H2 para os toei entre, e incluindo, Mfd15 e SCG40, mas recombinou entre SCG40 e 42D6. Uma vez que estabelecemos que BRCA1 é proximal em relação a 42D6, esta diferença H2/R2 não adiciona mais informação quanto à localização. H1 e R2 partilham um alelo idêntico em Mfd15, THRA1, AA1 e ED2 mas diferem para os toei que se presume serem distais em relação a ED2, i.e., 4-7, Mfd188, SCG40 e 6C1. Embora os dois haplotipos sejam concordantes para o 5o alelo para o marcador YM29, um marcador que é mapeado fisicamente entre 4-7 e Mdf188, é provável que os alelos sejam partilhados idênticos por estado em vez de idênticos por descendência uma vez que este alelo é o alelo mais comum neste locus com uma frequência estimada em pais de CEPH de 0,42. Em contraste, os alelos ligados partilhados nos loci Mfd15 e ED2 têm frequências de 0,04 e 0,09, respectivamente. Estes partilham também mais alelos comuns em Mfd191 (frequência = 0,52), THRA1 e AA1 (frequência = 0,28). Este é o recombinante-chave no conjunto uma vez que é o único recombinante em que o cancro da mama segregou com a porção proximal do haplotipo, estabelecendo assim a fronteira distai. A evidência desta família coloca portanto o locus BRCA1 proximal em relação a 4-7. O evento de recombinação na Família 2082 que coloca BRCA1 distai em relação a tdj!474 é o único dos quatro eventos descritos que pode ser directamente deduzido; isto é, o genótipo da mãe afectada pode ser deduzido a partir do seu cônjuge e descendência, e o haplotipo recombinante pode ser 79 85 829 ΕΡ 699 754/ΡΤ observado na sua filha afectada. Nesta família as probabilidades a favor de indivíduos afectados possuindo alelos de susceptibilidade de BRCA1 são extremamente elevadas; as únicas interpretações possíveis dos dados são de que BRCA1 é distai em relação a Mfd191 ou alternativamente que o recombinante implicado é um caso esporádico de cancro do ovário aos 44 anos. Em vez de um recombinante directamente observável ou deduzido, a interpretação da Família 2035 depende da observação de haplotipos de 17q distintos que segregam, em ramos diferentes e por vezes distantemente relacionados da família. A observação de que porções destes haplotipos têm alelos em comum para alguns marcadores enquanto que diferem noutros marcadores coloca o locus BRCA1 na região partilhada. A confiança nesta colocação depende de vários factores: o parentesco entre os indivíduos portadores dos respectivos haplotipos, a frequência do alelo partilhado, a certeza com que se pode mostrar que os haplotipos segregam, com o locus BRCA1 e a densidade dos marcadores na região que define o haplotipo. No caso da Família 2035, os dois ramos estão intimamente relacionados, e cada um dos ramos tem vários casos de aparecimento precoce que possuem o respectivo haplotipo. Enquanto que dois dos alelos partilhados são comuns, (Mfd191, THRA1), as frequências estimadas dos alelos partilhados em Mfd15, AA1 e ED2 são de 0,04, 0,28 e 0,09, respectivamente. É portanto altamente provável que estes alelos sejam idênticos por descendência (derivados de um ancestral comum) em vez de idênticos por estado (o mesmo alelo mas derivado da população geral). EXEMPLO 6

Estudos de Mapeamento Físico Refinado Colocam o Gene BRCA1 numa Região

Flanqueada por tdi1474 e U5R

Desde a sua localização inicial no cromossoma 17q em 1990 (Hall etal,, 1990) tem sido feito um grande esforço para localizar o gene BRCA1 numa região suficientemente pequena que permita a implementação de estratégias de clonagem posicionai eficazes para isolar o gene. O locus BRCA1 foi primeiro localizado no intervalo Mfd15 (D17S250)-42D6 (D17S588) através de análise de ligação em múltiplos pontos (Easton et a!., 1993) no conjunto de dados da colaboração com o Breast Câncer Linkage Consortium que consiste em 214 famílias recolhidos em todo o mundo. Os refinamentos subsequentes da localização basearam-se em eventos recombinantes individuais em famílias

85 829 ΕΡ 699 754/ΡΤ 80 específicas. A região THRA1-D17S183 foi definida por Bowcock et a/., 1993; e a região THRA1 -D1 7S78 foi definida por Simard et al., 1 993.

Mostrámos ainda que o locus BRCA1 tem que ficar distai em relação ao marcador Mfd191 (D17S776) (Goldgar et al., 1994). Sabe-se que este marcador é distai em relação a THRA1 e RARA. A região mais pequena publicada para o locus BRCA1 está assim entre D17S776 e D17S78. Esta região contém ainda aproximadamente 1,5 milhões de bases de ADN, tornando o isolamento e teste de todos os genes na região uma tarefa muito difícil. Empreendemos portanto as tarefas de construir um mapa físico da região, isolar um conjunto de marcadores de STR polimórficos localizados na região e analisar estes novos marcadores num conjunto de famílias informativas para refinar a localização do gene BRCA1 a um intervalo tratável.

Quatro famílias proporcionam evidência genética importante para a localização de BRCA1 numa região suficientemente pequena para a aplicação de estratégias de clonagem posicionai. Duas famílias (K2082, K1901) proporcionam dados relativos à fronteira proximal de BRCA1 e as outras duas (K2035, K1813) fixam a fronteira distai. Estas famílias são discutidas em detalhe abaixo. Foi utilizado um total de 15 marcadores de Repetições Curtas em Cadeia passíveis de ensaio por PCR para refinar esta localização nas famílias estudadas. Estes marcadores incluem DS17S7654, DS17S975, tdj1474 e tdj1239. As sequências dos iniciadores para estes marcadores são proporcionadas em SEQ ID NO: 3 e SEQ ID NO: 4 para DS17S754; em SEQ ID NO:5 e SEQ ID NO: 6 para DS17S975; em SEQ ID NO: 7 e SEQ ID NO:8 para tdj1474; e em SEQ ID NO: 9 e SEQ ID NO: 10 para tdj1239.

Família 2082 A Família 2082 é a maior família com cancro da mama/ovário ligado a BRCA1 até hoje estudada. Tem uma classificação de LOP de 8.6, proporcionando uma evidência inequívoca para ligação a 17q. Esta família foi descrita anteriormente e mostrou-se que continha um recombinante crítico colocando BRCA1 distai em relação a Mfd191 (D17S776). Este recombinante ocorreu numa mulher diagnosticada com cancro do ovário aos 45 anos cuja mãe teve cancro do ovário aos 63 anos. A mãe afectada faleceu; no entanto, a partir dos seus filhos, pôde-se deduzir que ela tinha o haplotipo ligado presente nos outros 30 casos ligados na família na região entre Mfd15 e Mfd188. A sua

85 829 ΕΡ 699 754/ΡΤ filha afectada recebeu o alelo ligado nos loci ED2, 4-7 e Mfd188, mas recebeu o alelo no cromossoma que não possui BRCA1 em Mfd15 e Mfd191. De forma a localizar melhor este ponto de quebra de recombinação, testámos os membros-chave desta família quanto aos seguintes marcadores derivados de recursos de mapeamento físico: tdj1474, tdj1239( CF4, D17S855. Para os marcadores tdj1474 e CF4, a filha afectada não recebeu o alelo ligado. Para o focus STR tdj1239, no entanto, pôde-se deduzir que a mãe era informativa e que a sua filha recebeu o alelo associado a BRCA1. Nesta família D17S855 não foi informativo. Com base nesta análise, a ordem é centrómero de 17q -Mfd191 - 1J.HSD - CF4 - tdj1474 tdj1239 - D17S855 - ED2 - 4-7 - Mfd188 -telómero de 17q. O recombinante descrito acima coloca portanto BRCA1 distai em relação a tdj1474 e o ponto de quebra localiza-se no intervalo entre tdj1474 e tdj1239. A única explicação alternativa para os dados nesta família sem ser de que BRCA1 está localizado distai em relação a tdj1474, é a de que o cancro do ovário presente no indivíduo recombinante é causado por razões independentes do gene BRCA1. Dado que o cancro do ovário diagnosticado antes dos 50 anos é raro, esta explicação alternativa é extremamente improvável.

Família 1 901 A Família 1901 é uma família com cancro da mama de aparecimento precoce com 7 casos de cancro da mama diagnosticados antes dos 50 anos, 4 dos quais foram diagnosticados antes dos 40 anos. Adicionalmente, houve três casos de cancro da mama diagnosticados entre os 50 e os 70 anos. Um caso de cancro da mama também teve cancro do ovário aos 61 anos. Esta família tem actualmente uma classificação de LOP de 1,5 com D17S855. Dada esta evidência de ligação e a presença de pelo menos um caso de cancro do ovário, esta família tem uma probabilidade posterior de ser devido a BRCA1 superior a 0,99. Nesta família, a recombinação advém do facto de um indivíduo que é o irmão do caso de cancro do ovário a partir do qual descendem a maioria dos outros casos, apenas partilhar uma porção do haplotipo que co-segrega, com os outros casos na família. No entanto, ele passou este haplotipo parcial à sua filha que desenvolveu cancro da mama aos 44 anos. Se este caso se dever ao gene BRCA1, então a única parte do haplotipo partilhada entre este irmão e a sua irmã pode conter o gene BRCA1. A dificuldade na interpretação deste tipo de informação é a de que enquanto se pode ter certeza dos marcadores que não são partilhados e portanto recombinantes, os marcadores que são concordantes

85 829 ΕΡ 699 754/ΡΤ podem ser partilhados por não serem recombinantes ou por o seu progenitor ser homozigótico. Sem os dados genotípicos dos progenitores é impossível discriminar entre estas alternativas. A inspecção do haplotipo em K1901, mostra que este não partilha o alelo ligado em Mfd15 (D17S250), THRA1, CF4 (D17S1320) e tdj1474 (17DS1321). Este não partilha o alelo ligado em Mfd191 (D17S776), ED2 (D17S1327), tdj1239 (D17S1328) e Mfd188 (D17S579). Embora o alelo partilhado em Mfd191 seja relativamente raro (0,07), presumimos que o progenitor era homozigótico uma vez que estes são recombinantes com marcadores localizados próximo em ambos os lados, e um duplo evenlo de recumbinação nesla região seria exlrernamente improvável. Assim a evidência nesta família colocaria também o locus BRCA1 distai em relação a tdj1474. No entanto, é impossível determinar a fronteira inferior deste ponto de quebra sem informação do genótipo parental. É intrigante que o ponto de quebra recombinante-chave nesta família confirme o resultado na Família 2082. Tal como antes, a informação de localização nesta família é apenas significativa se o cancro da mama se devesse ao gene BRCA1. No entanto, a sua idade relativamente precoce aquando do diagnóstico (44) torna isto muito provável uma vez que o risco de cancro da mama antes dos 45 anos na população em geral é baixo (aproxirnadamerile 1 %).

Família 2035

Esta família é semelhante a K1901 no que diz respeito à informação sobre os eventos recombinantes críticos não ser directamente observada mas deduzida a partir da observação de que os dois haplotipos que co-segregam, com o cancro da mama de aparecimento precoce nos dois ramos da família parecem idênticos para marcadores localizados na porção proximal da região de BRCA1 de 17q mas diferem em toei mais distais. Cada um destes dois haplotipos ocorre em pelo menos quatro casos de cancro da mama de aparecimento precoce ou bilateral. A classificação de LOP global com ED2 nesta família é de 2,2 e considerando que existe um caso de cancro do ovário na família (indicando uma probabilidade anterior de ligação a BRCA1 de 80%), a probabilidade posterior resultante desta família estar ligada a BRCA1 é de 0,998. Os haplotipos são idênticos para os marcadores Mfd15, THRA1, Mfd191, ED2, AA1, D17S858 e D17S902. 0 alelo comum em Mfd15 e ED2 são ambos relativamente raros, indicando que este haplotipo é partilhado idêntico por descendência. Os haplotipos são discordantes, no entanto, para CA375, 4-7 e Mfd188, e mais alguns marcadores distais. Isto indica que o 83 85 829 ΕΡ 699 754/ΡΤ locus BRCA1 deve ficar acima do marcador CA-375. Este marcador localiza-se aproximadamente 50 kb abaixo de D17S78, servindo assim principalmente como confirmação adicional desta fronteira inferior anterior tal como relatado em Simard et al., (1993).

Família 1813 A Família 1813 é uma família pequena com quatro casos de cancro da mama diagnosticados antes dos 40 anos em que a mãe teve cancro da mama diagnosticado aos 45 anos e cancro do ovário aos 61 anos. Esta situação é de algum modo complicada pelo facto dos quatro casos parecerem ter três pais diferentes, dos quais apenas um foi genotipificado. No entanto, tipificando vários marcadores diferentes na região de BRCA1 bem como marcadores altamente polimórficos noutras partes do genoma, foi determinada a paternidade de todas as crianças na família com um elevado grau de certeza. Esta família produziu uma classificação de LOP de múltiplos pontos máxima de 0,60 com marcadores de 17q e, dado que existe pelo menos um caso de cancro do ovário, resulta numa probabilidade posterior de ser uma família ligada a BRCA1 de 0,93. Esta família contém um evento de recombinação directamente observável no indivíduo 18 (ver Figura 5 em Simard et al., Human Mol. Genet. 2: 1193-1199 (1993)), que desenvolveu cancro da mama aos 34 anos. O genótipo da sua mãe afectada nos toei de 17q relevantes pode ser deduzido a partir dos seus genótipos, dos genótipos da sua irmã afectada e dos genótipos de três outros irmãos não afectados. O indivíduo 18 herda os alelos ligados a BRCA1 para os seguintes loci: Mfd15, THRA1, D17S800, D17S855, AA1 e D17S931. No entanto, para marcadores abaixo de D17S931, i.e., U5R, vrs31, D17S858 e D17S579, ela herdou os alelos localizados no cromossoma que não possui a doença. A evidência desta família colocaria portanto o locus BRCA1 proximal em relação ao marcador U5R. Devido à sua idade precoce aquando do diagnóstico (34) é extremamente improvável que o cancro do indivíduo recombinante não seja devido ao gene responsável pelos outros casos de cancro da mama/ovário nesta família; a incerteza nesta família advém da nossa de algum modo pequena quantidade de evidências de que o cancro da mama nesta família seja devido a BRCA1 em vez de um segundo locus de susceptibilidade para cancro da mama, ainda não mapeado. 84 85 829 ΕΡ 699 754/ΡΤ

Tamanho da região contendo BRCA1

Com base nos dados genéticos acima descritos em pormenor, o locus BRCA1 tem de estar no intervalo entre os marcadores tdj1474 e U5R, ambos isolados no nosso laboratório. Com base nos mapas físicos mostrados nas Figuras 2 e 3, podemos tentar estimar a distância física entre estes dois toei. São necessários aproximadamente 14 clones de P1 com um tamanho de inserção médio de aproximadamente 80 kb para abranger a região. No entanto, como todos estes P1 se sobrepõem até um determinado grau desconhecido, é muito provável que a região física seja muito inferior a 14 vezes 80 kb. Com base nos mapas de restrição dos clones que cobrem a região, estimamos que o tamanho da região contendo BRCA1 seja de aproximadamente 650 kb. EXEMPLO 7

Identificação de Clones de ADNc Candidatos para o Locus BRCA1 Através de Análise Genómica da Região de Elementos Contíguos

Pesquisa completa da região plausível. O primeiro método para identificar ADNc candidatos, embora seja trabalhoso, utilizou técnicas conhecidas. O método compreendeu a pesquisa de clones cosmídicos c de P1 e BAC nos elementos contíguos para identificar sequências de codificação putativas. Os clones contendo as sequências de codificação putativas foram então utilizados como sondas sobre filtros de bibliotecas de ADNc para identificar os clones de ADNc candidatos para análises futuras. Os clones foram pesquisados quanto a sequências de codificação putativas através de um de dois métodos. “Zoo blots". O primeiro método para identificação de sequências de codificação putativas foi a pesquisa dos clones cosmídicos e de P1 quanto a sequências conservadas ao longo da evolução atravessando várias espécies. Esta técnica é referida como "análise de zoo blot" e é descrita por Monaco, 1986. Especificamente, foram digeridos ADN de vaca, galinha, porco, ratinho e rato com as enzimas de restrição £coRI e Hind\\\ (8 pg de ADN por enzima). Os ADN digeridos foram separados de um dia para o outro num gel a 0,7% a 20 volt durante 16 horas (14 cm de gel) e o ADN foi transferido para membranas de Nylon utilizando técnicas de "Southern blot" padrão. Por exemplo, o filtro de “zoo blot" foi tratado a 65UC com SSC 0,1x, SDS a 0,5% e Tris 0,2 M, pH 8,0, durante 30 minutos e depois bloqueado de um dia para o outro a 42°C em SSC 5x, PEG 8000 a 10%, NaP04 20 mM, pH 6,8, ADN de

85 829 ΕΡ 699 754/ΡΤ 85

Esperma de Salmão 100 pg/ml, solução de Denhardt 1x, formamida a 50%, SDS a 0,1 % e 2 pg/ml de ADN C0t-1.

Os clones cosmídicos e de P1 a analisar foram digeridos com uma enzima de restrição para libertar o ADN humano do ADN do vector. O ADN foi separado num gel de agarose de 14 cm a 0,5% corrido de um dia para o outro a 20 volt durante 16 horas. As bandas de ADN humano foram cortadas do gel e electroeluídas das bordas do gel a 100 volts durante pelo menos duas horas em tampão Tris-Acetato 0,5x (Maniatis et al., 1982). O ADN digerido com NotI eluídb (ÃTÔ kb a' 25 kb) foi então digerido com a enzima de restriçãpfeõRI pâra dar fragmentos mais pequenos («0,5 kb a 5,0 kb) os quais se desligam mais facilmente para o passo seguinte de marcação do ADN com radionuclídeos. Os fragmentos de ADN foram marcados através do método de marcação por iniciação aleatória com haxâmeros (Boehringer-Mannheim, Cat. #1004760). O ADN marcado foi precipitado com espermina (adicionar 100 μΙ de TE, 5 μΙ de espermina 0,1 M e 5 μΙ de ADN de esperma de salmão 10 mg/ml) para remover os radionuclídeos não incorporados. O ADN marcado foi então ressuspenso em 100 μΙ de TE, NaCI 0,5 M a 65°C durante 5 minutos e depois bloqueado com ADN C0t-1 Humano durante 2-4 h conforme as instruções do fabricante (Gibco/BRL, Cat. #5279SA). A sonda C0t-1 bloqueada foi incubada nos filtros de “zoo b/ot" na solução de bloqueio de um dia para o outro a 42°C. Os filtros foram lavados durante 30 minutos à temperatura ambiente em SSC 2x, SDS a 0,1% e depois no mesmo tampão durante 30 minutos a 55°C. Os filtros foram então expostos 1 a 3 dias a -70°C a película Kodak XAR-5 com um écran intensificador. Assim, os "zoo blots" foram hibridados ou com o banco de fragmentos EcoRI da inserção ou com cada um dos fragmentos individualmente.

Análise de ilhas HTF. O segundo método para identificação de cosmídeos para utilizar como sondas nas bibliotecas de ADNc foi a análise de ilhas HTF. Uma vez que o mapa de campo pulsado pode revelar ilhas HTF, os cosmídeos que são mapeados nessas regiões de ilhas HTF foram prioritariamente analisados. As ilhas HTF são segmentos de ADN que contêm uma frequência muito elevada de dinucleótidos CpG não metilados (Tonolio et a/., 1990) e revelam-se pelo agrupamento de locais de restrição de enzimas cujas sequências de reconhecimento incluem dinucleótidos CpG. As enzimas que se sabe serem úteis em análise de ilhas HTF são Asc\, Not\, físsHIl, Eag\, Sacll, Nae\, Nar\, Sma\ e Mlu\ (Anand, 1992). Foi criado um mapa de campo pulsado 86 05 029 ΕΡ 699 754/ΡΤ utilizando as enzimas Not\, Nru\, Eag\, Sacll e Sa/I e foram encontradas duas ilhas HTF. Estas ilhas localizam-se na extremidade distai da região, sendo uma distai em relação ao locus GP2B e a outra proximal em relação ao mesmo tocus, ambas fora da região de BRCA1. Os cosmídeos derivados dos YAC que cobrem estas duas localizações foram analisados para identificar os que continham estes locais de restrição, e assim as ilhas HTF.

Pesquisa de ADNc. É provável que os clones que contêm ilhas HTF ou que mostram hibridação com ADN de outras espécies para além da humana contenham sequências de codificação. O ADN humano desles clones foi isolado como uma inserção inteira ou como fragmentos fcoRI e marcado tal como descrito acima. O ADN marcado foi utilizado para pesquisar filtros de várias bibliotecas de ADNc sob as mesmas condições que os "zoo blots" excepto que os filtros de ADNc sofreram uma lavagem em condições mais rigorosas, com SSC 0,1x, SDS a 0,1% a 65°C durante 30 minutos, duas vezes. A maioria das bibliotecas de ADNc utilizadas até agora nos nossos estudos (bibliotecas de tecido da mama normal, tecido da mama de uma mulher no seu oitavo mês de gravidez e de uma malignidade da mama) foram preparadas em Clonetech, Inc. A biblioteca de ADNc criada a partir de tecido da mama de uma mulher grávida de oito meses está disponível de Clonetech (Cat #HL1037a) no vector Lambda gt-10, e cresceu em células hospedeiras bacterianas C600Hfl. As amostras de tecido da mama normal e de tecido da mama maligno foram isoladas de uma mulher caucasiana de 37 anos de idade e foi enviado um grama de cada tecido para Clonetech para processamento do ARNm e construção da biblioteca de ADNc. As duas últimas bibliotecas foram criadas utilizando tanto iniciação aleatória como com oligo-dT, com selecção por tamanhos dos produtos finais os quais foram enlãu clonados no vector Lambda Zap II, e cresceram na estirpe XL1-blue de bactérias tal como descrito pelo fabricante. Bibliotecas adicionais de ADNc específicas de tecidos incluem cérebro fetal humano (Stratagene, Cat. 936206), testículo humano (Clonetech Cat. HL3024), timo humano (Clonetech Cat. HL1127n), cérebro humano (Clonetech Cat. HL11810), placenta humana (Clonetech Cat. 1075b) e músculo esquelético humano (Clonetech Cat. HL1124b).

As bibliotecas de ADNc foram plaqueadas com as suas células hospedeiras em placas NZCYM e os levantamentos de filtros são feitos em 87 85 829 ΕΡ 699 754/ΡΤ duplicado a partir de cada placa tal como per Maniatis et al., (1982). O ADN (humano) da inserção dos clones genómicos candidatos foi purificado e marcado radioactivamente para uma elevada actividada específica. O ADN radioactivo foi então hibridado com os filtros de ADNc para identificar os ADNc que correspondem aos genes localizados no clone cosmídico candidato. Os ADNc identificados através deste método foram apanhados, replaqueados e pesquisados novamente com a inserção do clone marcada ou o seu ADN fragmento FcoRI derivado para verificar o seu estado positivo. Os clones que eram positivos após este segundo ciclo de pesquisa foram então postos a crescer' é ó seu ADN foi purificado para análise de ''Southern blot" e sequenciação. Os clones foram purificados na forma de plasmídeos através de excisão in vivo do plasmídeo a partir do vector Lambda tal como descrito nos protocolos dos fabricantes ou isolados a partir do vector Lambda como um fragmento de restrição e subclonado em vectores plasmídicos. A análise de "Southern blot" foi efectuada em duplicado, uma utilizando o ADN de inserção genómico original como sonda para verificar que a inserção de ADNc contém sequências que hibridam. O segundo “blot" foi hibridado com ADN da inserção de ADNc do maior clone de ADNc para identificar que clones representam o mesmo gene. Todos os ADNc que hibridam com o clone genómico e que são únicos foram sequenciados e o ADN foi analisado para determinar se as sequências representam genes conhecidos ou únicos. Todos os clones de ADNc que parecem ser únicos foram ainda analisados como toei BRCA1 candidatos. Especificamente, os clones são hibridados com "Northern blots” para procurar uma expressão específica da mama e expressão diferencial em ARN normal versus de tumor da mama. Estes são também analisados por PCR sobre clones na região de BRCA1 para verificar a sua localização. Para mapear a extensão do focus, são isolados ADNc inteiros e as suas sequências são utilizadas como sondas de PCR nos YAC e nos clones circundantes e que incluem os clones originais de identificação. As fronteiras intrão-exão são depois ainda definidas através da análise das sequências.

Pesquisámos as bibliotecas de ADNc de mama normal, de mama de grávida de 8 meses e de cérebro fetal com fragmentos fcoRI positivos em "zoo blots" dos clones cosmídicos, de BAC e P1 na região. Os clones de ADNc de BRCA1 potenciais foram identificados entre as três bibliotecas. Os clones foram 88 80 829 ΕΡ 699 754/ΡΤ recolhidos, replaqueados e pesquisados novamente com a sonda original para verificar que eram positivos.

Análise de ADNc seleccionado a partir de híbridos. Os fragmentos de ADNc obtidos por selecção directa foram verificados através de hibridação "Southern blot" contra o ADN-sonda para verificar que eram originários do elemento contíguo. Os que passaram este teste foram inteiramente sequenciados. O conjunto de sequências de ADN obtidas deste modo foram então verificadas umas contra as outras para se encontrarem clones independentes que se sobrepunham.-.Por exemplo, os clones 694-65, 1240-1 e 1240-33 foram obtidos independentemente e mostrou-se subsequentemente que derivavam da mesma sequência de ADNc contígua a qual foi chamada EST :489:1.

Análise dos clones candidatos. Um ou mais dos genes candidatos criados a partir de cima foram sequenciados e a informação foi utilizada para identificação e classificação de cada gene expresso. As sequências de ADN foram comparadas com genes conhecidos através de comparações da sequência nucleotídlca e através de tradução em todos os enquadramentos seguida de comparação com sequências de aminoácidos conhecidas. Isto foi alcançado utilizando o suporte lógico Genetic Data Environment (GDE) versão 2.2 e a série de pacotes de suportes lógicos cliente/servidor Basic Local Alignment Search Tool (Blast) (p.ex., BASTN 1.3.13MP), para comparação de sequências contra bases de dados de sequências locais e remotas (p.ex., GenBank), a correr em estações de trabalho Sun SPARC. Foram criadas sequências reconstruídas a partir de colecções de clones de ADNc identificados com os cosmídeos e P1. Todos os genes candidatos que representavam sequências novas foram ainda analisados, quanio ao tucua BRCA1 pulalivo para testar a sua capacidade para serem candidatos.

Pesquisa de mutações. Para pesquisar mutações nas árvores genealógicas afectadas, foram seguidas duas abordagens diferentes. Primeiro, o ADN genómico isolado de membros da família que se sabia serem portadores do alelo de susceptibilidade de BRCA1 foi utilizado como molde para amplificação das sequências de genes candidatos por PCR. Se os iniciadores de PCR flanqueiam ou se sobrepõem a uma fronteira intrão/exão, o fragmento amplificado será maior que o previsto a partir da sequência de ADNc ou não 89 85 829 ΕΡ 699 754/ΡΤ estará presente na mistura amplificada. Através de uma combinação de tais experiências de amplificação e sequenciação dos clones de P1, BAC ou cosmídicos utilizando o conjunto de iniciadores concebidos é possível estabelecer a estrutura intrão/exão e finalmente obter as sequências de ADN do ADN genómico a partir das árvores genealógicas.

Uma segunda abordagem que é muito mais rápida se a estrutura intrão/exão do gene candidato for complexa envolve a sequenciação de fragmentos amplificados a partir de ADNc de linfócitos da árvore genealógica. O ADNc sintetizado a partir de ARNm de linfócilus extraídos do <sangue. da árvore genealógica foi utilizado como substrato para amplificação por PCR utilizando o conjunto de iniciadores concebidos. Se o gene candidato for expresso num nível significativo em linfócitos, tais experiências produzem usualmente fragmentos amplificados que podem ser sequenciados directamente sem o conhecimento das junções intrão/exão.

Os produtos de tais reacções de sequenciação foram analisados por electroforese em gel para determinar as posições na sequência que contêm mutações tais como deleções ou inserções, ou substituições de pares de bases que causem alterações de aminoácidos ou outros efeitos prejudiciais.

Qualquer sequência dentro da região de BRCA1 que seja expressa na mama é considerada como sendo um gene candidato para BRCA1. A evidência no sentido de que um dado gene candidato corresponde a BRCA1 advém de uma demonstração de que as famílias das árvores genealógicas contêm alelos deficientes do candidato. EXEMPLO 8 Identificação de BRCA1

Identificação de BRCA1. Utilizando várias estratégias, foi desenvolvido um mapa pormenorizado de transcritos para a região de 600 kb de 17q21 entre D17S1321 e D17S1324. As sequências expressas candidatas foram definidas como sequências de ADN obtidas a partir de: 1) pesquisa directa de bibliotecas de ADNc de mama, cérebro fetal ou linfócitos, 2) selecção de híbridos de ADNc de mama, linfócitos ou ovário, ou 3) sequenciação aleatória de ADN genómico e previsão dos exões codificantes através de XPOUND (Thomas e Skolnick, 8D 829 ΕΡ 699 754/ΡΤ .1

1994). Estas sequências expressas em muitos casos foram associadas em elementos contíguos compostos por várias sequências independentemente identificadas. Os genes candidatos podem compreender mais de uma destas sequências expressas candidatas. Foram identificadas sessenta e cinco sequências expressas candidatas dentro desta região através de selecção de híbridos, através de pesquisa directa de bibliotecas de ADNc e através de sequenciação aleatória de subclones de P1. As sequências expressas foram caracterizadas pelo tamanho do transcrito, sequência de ADN, comparação com bases de dados, padrão de expressão, estrutura genómica e, mais importante, análise da sequência de ADNvem 'indivíduos de famílias que segregam susceptibilidade a cancro da mama e do ovário ligada a 17q.

Foram isolados três elementos contíguos independentes de sequências expressas, 1141:1 (649 pb), 694:5 (213 pb) e 754:2 (1079 pb) e mostrou-se eventualmente que representavam porções de BRCA1. Quando foram utilizados EST para estes elementos contíguos como sondas de hibridação para análise de "Northern", foi observado um único transcrito de aproximadamente 7,8 kb em ARNm de mama normal, sugerindo que estes codificam porções diferentes de um único gene. Pesquisas de bibliotecas de ADNc de mama, cérebro fetal, timo, testículo, linfócitos e placenta e experiências de PCR com ARNm de mama ligaram os elementos contíguos 1141:1, 694:5 e 754:2. Experiências de RACE 5' com ARNm de timo, testículo e mama estenderam o elemento contíguo até à extremidade 5' putativa, produzindo uma sequência compósita completa. Foi utilizado PCR e sequenciação directa de P1 e BAC na região para identificar a localização de intrões o que permitiu a determinação de locais dadores e aceitadores de união. Estas três sequências expressas foram fundidas numa única unidade de transcrição que se provou na análise final ser BRCA1. Esta unidade de transcrição localiza-se adjacente a D17S855 no centro da região de 600 kb (Fig. 4). A combinação das sequências obtidas a partir de clones de ADNc, sequências da selecção de híbridos e produtos amplificados por PCR permitiu a construção de um ADNc de BRCA1 compósito completo (SEQ ID NO: 1). A sequência do ADNc de BRCA1 (até ao codão de terminação) foi também depositada no GenBank e foi-lhe atribuído o número de acesso U-14680. Esta sequência depositada é aqui incorporada por referência. 0 clone de ADNc que mais se estende mais na direcção 3' contém um tracto poli(A) precedido por um 91 05 029 ΕΡ 699 754/ΡΤ sinal de poliadenilação. A tradução conceptual do ADNc revelou um único enquadramento de leitura aberta longo de 108 quilodaltons (sequência de aminoácidos: SEQ ID NO: 2) com um potencial codão de iniciação flanqueado por sequências semelhantes à sequência de consenso de Kozak (Kozak, 1987). As buscas de Smith-Waterman (Smith e Waterman, 1981) e BLAST (Altschul et a!., 1990) identificaram uma sequência próxima do terminal amino com uma homologia considerável a domínios dedo-de-zinco (Fig. 5). Esta sequência contém resíduos de cisteína e histidina presentes no motivo de consenso dedo-de-zinco C3HC4 e partilha vários outros resíduos com proteínas dedo-de-zinco nas bases de dados. O gene BRCA1 é composto >por 23 exões codificantes ordenados ao longo de mais de 100 kb de ADN genómico (Fig. 6). Os "Northern blots" utilizando fragmentos de ADNc de BRCA1 como sondas identificaram um único transcrito de cerca de 7,8 kb, presente mais abundantemente em mama, timo e testículo, e também presente no ovário (Fig. 7). Foram observados quatro produtos de processamento alternativo como clones de ADNc independentes; 3 destes foram detectados em ARNm de mama e 2 no de ovário (Fig. 6). Uma inspecção por PCR a partir de ADNc dos tecidos apoia ainda mais a ideia de que existe uma considerável heterogeneidade próximo da extremidade 5' dus transcritos deste gene; a base molecular para a heterogeneidade envolve a escolha diferencial do primeiro local dador de união, e todas as mudanças detectadas alteram o transcrito na região 5' do codão de iniciação identificado. Detectámos seis potenciais dadores de união alternados nesta região 5' não traduzida, com a deleção mais longa sendo de 1155 pb. A forma predominante da proteína BRCA1 na mama e no ovário não tem o exão 4. A sequência nucleotídica para o exão 4 de BRCA1 é mostrada na SEQ ID NO: 11, com a sequência de aminoácidos prevista mostrada na SEQ ID NO: 12. A sequência 5' adicional do ADN genómico de BRCA1 é exposta na SEQ ID N0: 13. 0 G na posição 1 representa o potencial local de início no testículo. O A na posição 140 representa o potencial local de início em tecido somático. Existem seis formas de união alternativas desta sequência 5’ tal como mostrado na Figura 8. O G na posição 356 representa o primeiro local dador de união canónico. O G na posição 444 representa o primeiro local dador de união em dois clones (testículo 1 e testículo 2). O G na posição 889 representa o primeiro local dador de união em timo 3. Um quarto local dador de união é o G na posição 1230. O T na posição 1513 representa o local aceitador de união para todos os dadores de união de cima. Uma quinta forma de união alternativa tem

85 829 ΕΡ 699 754/ΡΤ um primeiro local dador de união na posição 349 com um primeiro local aceitador na posição 591 e um segundo local dador de união na posição 889 e um segundo local aceitador na posição 1513. Uma sexta forma alternativa não é processada nesta região 5'. 0 A na posição 1532 é o local de início canónico, que aparece na posição 120 de SEQ ID NO: 1. As sequências parciais de ADN genómico determinadas para BRCA1 estão expostas nas Figuras 10A-10H e SEQ ID Números: 14-34. As letras minúsculas (nas Figuras 10A-10H) denotam a sequência de intrões enquanto que as letras maiúsculas denotam a sequência de exões. Intervalos indefinidos dentro dos intrões são designados com vvvvvvvvvvvvv nas Figuras IOA-1 OH. As uniões intrão/exão são mostradas na Tabela 9. 0 CAG encontrado na extremidade 5' dos exões 8 e 14 encontra-se em alguns ADNc mas não noutros. Os locais polimórficos conhecidos são mostrados nas Figuras 10A-10H com letras em negrito e sublinhados. (Segue Tabela) 86 829 ΕΡ 699 754/ΡΤ 93

* * Π ΌΚαί Ò3S

86 829 EP 699 754/PT

TABELA 9 (continuação)

* Números das bases em SEOID NO: 1. ** Os números em expoente referem-se a SEQ ID NOS. 95 85 829 ΕΡ 699 754/ΡΤ “Blots” de baixo rigor nos quais foi sondado ADN genómico de organismos de diversas proveniências filogenéticas com sequências de BRCA1 sem a região dedo-de-7Ínco revelaram fragmentos de forte hihridaoão em humano, macaco, ovelha e porco e sinais de hibridação muito fracos em roedores. Este resultado indica que, para além do domínio dedo-de-zinco, BRCA1 é conservado apenas num nível moderado ao longo da evolução.

Mutações de BRCA1 da linha qerminativa em famílias ligadas a 17q. O teste mais rigoroso para genes BRCA1 candidatos consiste em pesquisar mutações potencialmente disruptivas em indivíduos portadores de famílias que segregem susceptibilidade a cancro da mama e do ovário ligada a 17q. Tais indivíduos têm de conter alelos BRCA1 que difiram da sequência de tipo selvagem. 0 conjunto de amostras de ADN utilizado nesta análise consistiu em ADN de indivíduos representando 8 famílias de BRCA1 diferentes (Tabela 10). TABELA 10

DESCRIÇÕES DAS FAMÍLIAS E CLASSIFICAÇÕES DE LOP ASSOCIADAS

Casos Class.

Família Casos (n) Esporádicos1 (n) LOP Marcador(es)

Ma Ma <50 Ov 2082 31 20 22 7 9,49 D17S1327 2099 22 14 2* 0 2,36 D17S800/D17S8552 2035 10 8 Γ 0 2,25 D17S1327 1901 10 7 Γ 0 1,50 D17S855 1925 4 3 0 0 0,55 D17S579 1910 5 4 0 0 0,36 D173579/D17S2502 1927 5 4 0 1 -0,44 D17S250 191 1 8 5 0 2 -0,20 D17S250 1 Número de mulheres com cancro da mama (diagnosticado antes dos 50 anos) ou cancro do ovário (diagnosticado em qualquer idade) que não partilham o haplotipo ligado a BRCA1 que segrega nos restantes casos da família. 2 Classificaçãp de LOP de múltiplos pontos calculada utilizando ambos os marcadores ' A família contém um indivíduo que teve tanto cancro da mama como cancro do ovário; este indivíduo conta como um caso de cancro da mama e como um caso de cancro do ovário.

05 029 ΕΡ 699 754/ΡΤ 96

As classificações de logaritmo das probabilidades (LOP) nestas famílias variam de 9,49 a -0,44 para um conjunto de marcadores em 17q21. Quatro das famílias têm classificações de LOP convincentes para ligação, e 4 têm classificações de LOP reduzidos positivos ou negativos. As últimas famílias foram incluídas porque demonstram partilha do haplotipo no cromossoma 17q21 para pelo menos 3 membros afectados. Para além disso, todas as famílias no conjunto apresentam aparecimento precoce de cancro da mama e 4 das famílias incluem pelo menos um caso de cancro do ovário, ambos característicos de famílias de»BRCA1. Uma família, 2082, lem uma incidência ·ν„.· . quase igual de cancro da mama e do ovário, uma ocorrência invulgar dada a relativa raridade do cancro do ovário na população. Todas as famílias excepto duas foram avaliadas no Utah. K2035 é do Midwest. K2099 é uma família afro-americana do sul dos EUA.

Na pesquisa inicial de mutações de predisposição em BRCA1, foi testado o ADN de um indivíduo que possui o haplotipo de predisposição em cada família. Os 23 exões codificantes e as junções de união associadas foram amplificados a partir de amostras de ADN genómico ou partir de ADNc preparado a partir de ARNm de linfócitos. Quando as sequências de ADN amplificadas foram comparadas com a sequência de tipo selvagem, verificou-se que 4 das 8 amostras das famílias continham variantes da sequência (Tabela 11). TABELA 11

MUTAÇÕES DE PREDISPOSIÇÃO Número da Família Mutação Efeito na Codificação Localização* 2082 C -» T Gin -» Terminação 4065 1910 C extra desvio de enquadramento 5385 2099 T -* G Met -» Arg 5443 2035 ? perda do transcrito 1901 deleção de 11 pb desvio de enquadramento 189 ' Em SEQ ID NO: 1 97 86 829 ΕΡ 699 754/ΡΤ

Todas as quatro sequências variantes são heterozigóticas e cada uma aparece em apenas uma das famílias. A Família 2082 contém uma mutação sem sentido no exão 11 (Fig. 9A), a Família 1910 contém uma inserção de um único nucleótido no exão 20 (Fig. 9B), a Família 2099 contém uma mutação de sentido errado no exão 21, resultando numa substituição Met-»Arg. As mutações por desvio de enquadramento e sem sentido são provavelmente disruptivas da função do produto de BRCA1. 0 péptido codificado pelo alelo com desvio de enquadramento na Família 1910 conteria uma sequência de aminoácidos alterada começando a 108 resíduos do terminal C de tipo selvagem. 0 péptido codificado pelo alelo com desvio de enquadramento na Família 1901 conteria uma sequência de aminoácidos alterada começando no 24° resíduo a partir do terminal N de tipo selvagem. O alelo mutante na Família 2082 codificaria uma proteína sem 551 resíduos do terminal C. A substituição de sentido errado observada na Família 2099 é potencialmente disruptiva uma vez que causa a substituição de um pequeno aminoácido hidrófobo (Met) por um resíduo grande com carga (Arg). Foram também identificados onze polimorfismos vulgares, 8 na sequência de codificação e 3 em intrões. 0 indivíduo estudado na Família 2035 contém evidentemente uma mutação reguladora em BRCA1. No seu ADNc, um local polimórfico (A-»G na base 3667) pareceu homozigótico, enquanto que o seu ADN genómico revelou heterozigocidade nesta posição (Fig. 9C). Uma explicação possível para esta observação é a de que o ARNm do seu alelo de BRCA1 mutado está ausente devido a uma mutação que afecta a sua produção ou estabilidade. Esta possibilidade foi ainda explorada examinando 5 locais polimórficos na região de codificação de BRCA1, os quais estão separados por até 3,5 kb no transcrito de BRCA1. Em todos os casos onde o seu ADN genómico parecia heterozigótico para um polimorfismo, o ADNc parecia homozigótico. Em indivíduos de outras famílias e em não portadores do haplotipo na Família 2035, estes locais polimórficos podiam ser observados como heterozigóticos no ADNc, implicando que a amplificação a partir do ADNc não estava desequilibrada a favor de um alelo. Esta análise indica que uma mutação de BRCA1 na Família 2035 ou evita a transcrição ou causa instabilidade ou processamento aberrante do transcrito de BRCA1. 85 829 ΕΡ 699 754/ΡΤ 98

Sr**'

Co-seareaacão de mutações de BRCA1 com haplotipos de BRCA1 e análise da frequência na população. Para além da potencial ruptura da função proteica, têm de ser verificados dois critérios para que uma variante da sequência seja qualificada como uma mutação de predisposição candidata. A variante tem de: 1) estar presente em indivíduos da família que possuam o haplotipo de predisposição de BRCA1 e ausente noutros membros da família, e 2) ser rara na população geral.

Cada mutação foi testada quanto à co-segregação com BRCA1. Para a mutação por desvio de enquadramento na Família 1910, foram sequenciados.. dois outros portadores do haplotipo e um não portador (Fig. 9B). Apenas os portadores exibiram a mutação por desvio de enquadramento. A mudança de C para T na Família 2082 criou um novo local de restrição Avr\\. Foram testados outros portadores e não portadores na família quanto à presença do local de restrição (Fig. 9A). Foi concebido um oligonucleótido específico para o alelo (ASO) para detectar a presença da variante da sequência na Família 2099. Vários indivíduos da família, alguns que se sabe possuírem o haplotipo associado ao alelo de predisposição, e outros que se sabe não possuírem o haplotipo associado, foram pesquisados por ASO para a mutação detectada anteriormente na família. Em cada família, o alelo mutante correspondente foi detectado em indivíduos portadores do haplotipo associado a BRCA1 e não foi detectado nos não portadores. No caso da potencial mutação reguladora observada no indivíduo da Família 2035, o ADNc e ADN genómico dos portadores na família foram comparados quanto a heterozigocidade em locais polimórficos. Em todos os casos, mostrou-se que o alelo extinto na amostra de ADNc estava no cromossoma que transporta o alelo de predisposição de BRCA1 (Fig. 9C).

Para excluir a possibilidade das mutações serem apenas vulgares polimorfismos na população, foram utilizados ASO para cada mutação para pesquisar um conjunto de amostras de ADN normal. As estimativas das frequências génicas em caucasianos basearam-se em amostras aleatórias da população do Utah. As estimativas das frequências génicas em afro-americanos basearam-se em 39 amostras proporcionadas por M. Peracek-Vance provenientes de afro-americanos utilizados nos seus estudos de ligação e em 20 recém-nascidos afro-americanos do Utah. Nenhuma das 4 potenciais mutações de predisposição foi encontrada na população de controlo apropriada, indicando

05 029 ΕΡ 699 754/ΡΤ que estas são raras na população geral. Assim, dois requisitos importantes para alelos de susceptibilidade de BRCA1 foram preenchidos pelas mutações de predisposição candidatas: 1) co-segregação do alelo mutante com a doença, e 2) ausência do alelo mutante em controlos, indicando uma baixa frequência génica na população geral.

Expressão Fenotípica das Mutações de BRCA1. O efeito das mutações na proteína BRCA1 correlaciona-se com diferenças na expressão fenotípica observada nas famílias de BRCA1. A maioria das famílias de BRCA1 têm um risco moderadamente aumentado de cancro do ovário, e um subconjunto mais pequeno tem riscos elevados de cancro do ovário, em comparação com os de cancro da mama (Easton et al., 1993). Três das quatro famílias nas quais foram detectadas mutações de BRCA1 estão na primeira categoria, enquanto que a quarta (K2082) está no grupo de alto risco de cancro do ovário. Uma vez que a mutação sem sentido de BRCA1 verificada em K2082 fica mais próximo do terminal amino que as outras mutações detectadas, poderá esperar-se que tenha um fenótipo diferente. De facto, a mutação da Família 2082 tem uma alta incidência de cancro do ovário e uma idade média mais tardia aquando do diagnóstico de casos de cancro da mama que as oulras famílias (Qoldgar el al., 1994). Esta diferença na idade do aparecimento pode dever-se a um desvio na avaliação nas famílias mais pequenas e mais altamente penetrantes ou pode reflectir diferenças específicas de tecido no comportamento das mutações de BRCA1. As outras 3 famílias que segregam mutações de BRCA1 conhecidas têm, em média, um cancro do ovário para cada 10 casos de cancro da mama, mas têm uma proporção elevada de casos de cancro da mama diagnosticados próximo dos 30 anos. A Família 1910, que tem uma mutação por desvio de enquadramento, é digna de nota porque três dos quatro indivíduos afectados tiveram cancro da mama bilateral, e em cada caso o segundo tumor foi diagnosticado a menos de um ano da primeira ocorrência. Também será de esperar que a Família 2035, que segrega uma potencial mutação reguladora de BRCA1, tenha um fenótipo drástico. Oitenta porcento dos casos de cancro da mama nesta família ocorrem antes dos 50 anos. Este número é o mais alto do conjunto, sugerindo um alelo mutante de BRCA1 de elevada penetrância (Tabela 10).

Embora as mutações descritas acima sejam claramente deletérias, causando cancro da mama em mulheres de idades muito jovens, cada uma das 100 85 829 EP 699 754/PT quatro famílias com mutações inclui pelo menos uma mulher que possui a mutação e que viveu até aos 80 anos sem desenvolver a malignidade. Será de extrema importância nos estudos que se seguem identificar outros factores genéticos ou ambientais que possam melhorar os efeitos das mutações de BRCA1.

Em quatro das oito famílias ligadas a BRCA1 putativas, não se encontraram potenciais mutações de predisposição. Três destas quatro têm classificações de LOP para marcadores ligados a BRCA1 de menos de 0,55. Assim, estas famílias podem na realidade rião segregar alelos de predisposição : de BRCA1. Alternativamente, as mutações nestas quatro famílias podem estar em regiões de BRCA1 que, por exemplo, afectem o nível de transcrito e portanto escaparam até agora à detecção.

Papel de BRCA1 em Cancro. A maioria dos genes de supressão tumoral identificados até à data dão origem a produtos proteicos que estão ausentes, não são funcionais ou têm função reduzida. A maioria das mutações de TP53 são de sentido errado; mostrou-se que algumas destas produzem moléculas de μ53 anormais que interferem com a função do produto de tipo selvagem (Shaulian eia/., 1992; Srivastava et a!., 1993). Foi proposto um mecanismo de acção negativo dominante semelhante para alguns alelos de coli-polipose adenomatosa (APC) que produzem moléculas truncadas (Su et a/., 1993) e para mutações pontuais no gene do tumor de Wilms (WT1) que alteram a ligação da proteína ao ADN (Little et a!., 1993). A natureza das mutações observadas na sequência de codificação de BRCA1 é consistente com a produção tanto de proteínas negativas dominantes como de proteínas não funcionais. A mutação reguladora deduzida na Família 2035 não pode ser negativa dominante; pelo contrário, esta mutação causa provavelmente a redução ou perda completa da expressão de BRCA1 pelo alelo afectado. A proteína BRCA1 contém um domínio dedo-de-zinco C3HC4, semelhante aos verificados em várias proteínas de ligação ao ADN e implicadas na ligação a ácidos nucleicos dependente de zinco. Os primeiros 180 aminoácidos de BRCA1 contêm cinco vezes mais resíduos básicos que resíduos ácidos. Em contraste, a restante molécula é muito ácida, com um excesso líquido de 70 resíduos ácidos. 0 excesso de carga negativa concentra-se particularmente perto do terminal C. Assim, uma possibilidade é a de que BRCA1 codifique um factor de 101 85 829 ΕΡ 699 754/ΡΤ transcrição com um domínio de ligação ao ADN N-terminal e um domínio "gota-ácida" transactivador C-terminal. De forma interessante, outro gene de supressão tumoral familiar, WT1, contém também um motivo dedo-de-zinco (Haber et al., 1990). Muitas mutações de predisposição para cancro em WT1 alteram os domínios dedo-de-zinco (Little et al., 1993; Haber et al., 1990; Little et al., 1992). WT1 codifica um factor de transcrição e o processamento alternativo dos exões que codificam partes do domínio dedo-de-zinco alteram as propriedades de ligação ao ADN de WT1 (Bickmore et al., 1992). Algumas formas de processamento alternativo do ARNm de WT1 geram moléculas que actuam cornu repressores da Lrarisurição (Drummond et al., 1994). Algumas variantes de processamento de BRCA1 podem alterar o motivo dedo-de-zinco, criando a possibilidade de um mecanismo regulador semelhante ao que ocorre em WT1 se poder aplicar a BRCA1. EXEMPLO 9

Análise de Tumores quanto a Mutações de BRCA1

Para focar a análise em tumores com grande probabilidade de conter mutações de BRCA1, foram tipificados carcinomas primários da mama e do ovário quanto à PDH na região de BRCA1. Foram utilizados três marcadores de repetições simples em cadeia, altamente polimórficos para avaliar a PDH: D17S1323 e D17S855, os quais são intragénicos em relação a BRCA1, e D17S1327, o qual fica aproximadamente 100 kb distai em relação a BRCA1. A frequência de PDH combinada nos casos informativos (i.e., onde a linha germinativa era heterozigótica) foi de 32/72 (44%) para os carcinomas da mama e de 12/21 (57%) para os carcinomas do ovário, consistente com as medições anteriores de PDH na região (Futreal et al., 1992b; Jacobs et al., 1993; Sato et a!., 1990; Eccles et al., 1990; Cropp et al., 1994). A análise definiu assim um painel de 32 tumores da mama e 12 tumores do ovário de raças e idades de aparecimento mistas a serem examinados quanto a mutações de BRCA1. A região de codificação completa de 5589 pb e as sequências dos fronteiras intrão/exão do gene foram pesquisadas neste conjunto de tumores através de apenas sequenciação directa ou através de uma combinação de análise de conformação de cadeia simples (SSCA) e sequenciação directa.

Foi encontrado um total de seis mutações (das quais duas são idênticas), uma num tumor do ovário, quatro em tumores da mama e uma num portador

85 829 ΕΡ 699 754/ΡΤ 102 masculino do haplotipo não afectado (Tabela 12). Uma mutação, Glu1541Ter, introduziu um codão de terminação que criaria uma proteína truncada sem 323 aminoácidos no terminal carboxi. Adicionalmente, foram identificadas duas mutações de sentido errado. Estas são Ala1708Glu e Met1775Arg e envolvem substituições de pequenos resíduos hidrófobos por resíduos com carga. Os doentes 17764 3 19964 são da mesma família. No doente OV24 o nucleótido 2575 foi delecionado e nos doentes 17764 e 19964 foram delecionados os nucleótidos 2993-2996. TABELA 12

Mutações de Predisposição

Mudança de Mudança de Idade de História Doente Codão Nucleótido Aminoácido Aparecimento Familiar BT098 1541 GAG TAG Glu —» Terminação 39 - OV24 819 deleção de 1 pb desvio de enquad. 44 - BT106 1708 GÇG GAG Ala —» Glu 24 + MC44 1775 ATG -> AGG Met —> Arg 42 + 17764 958 deleção de 4 pb desvio de enquad. 31 + 19964 958 deleção de 4 pb desvio de enquad. + * ‘ Portador do haplotipo não afectado, masculino Várias linhas de evidência sugerem que todas as cinco mutações representam alelos de susceptibilidade de BRCA1: (i) todas as mutações estão presentes na linha germinativa; (ii) todas estão ausentes em populações de controlo apropriadas, sugerindo que estas não são polimorfismos vulgares; (iii) cada alelo mutante é mantido no tumor, tal como no caso de tumores de doentes pertencentes a famílias que segregam alelos de susceptibilidade de BRCA1 (Smith et a!., 1992; Kelsell et a/., 1993) (se as mutações representassem polimorfismos neutros, estas deveriam ser mantidas em apenas 50% dos casos); (iv) a idade de aparecimento nos quatro casos de cancro da mama com mutações variou entre os 24 e os 42 anos de idade, consistente com a idade precoce do aparecimento de cancro da mama em indivíduos com susceptibilidade de BRCA1; de forma semelhante, o caso de cancro do ovário

85 829 ΕΡ 699 754/ΡΤ 103 foi diagnosticado aos 44, uma idade que está nos 13% mais jovens de todos os casos de cancro do ovário; e finalmente, (v) três dos cinco casos têm histórias familiares positivas de cancro da mama ou do ovário encontrados retrospectivamente nos seus registos médicos, embora o conjunto de tumores não tivesse sido seleccionado tendo em conta este critério. BT106 foi diagnosticado aos 24 anos com cancro da mama. A sua mãe teve cancro do ovário, o seu pai teve melanoma e a sua avó paterna teve também cancro da mama. A doente MC44, uma afro-americana, teve cancro da mama bilateral aos 42 anos. Esta doente teve uma irmã que morreu de cancro da mama aos 34 anos, outra irmã que morreu de linfoma e um irmão que morreu de cancro do pulmão. A sua mutação (Met1775Arg) foi detectada anteriormente na Família 2099, uma família afro-americana que segrega um alelo de susceptibilidade de BRCA1, e estava ausente nos controlos afro-americanos e caucasianos. A doente MC44, que nós saibamos, não é parente da Família 2099. A detecção de um alelo mutante raro, uma vez numa família de BRCA1 e uma vez na linha germinativa de um caso de cancro da mama de aparecimento precoce aparentemente não relacionado, sugere que a mudança Met1775Arg pode ser uma mutação de predisposição comum em afro-americanos. Colectivamente, estas observações indicam que todas as quatro mutações de BRCA1 em tumores representam alelos de susceptibilidade; não foram detectadas quaisquer mutações somáticas nas amostras analisadas. A pequena quantidade de mutações de BRCA1 somáticas é inesperada, dada a frequência de PDH em 17q e o papel habitual dos genes de susceptibilidade como supressores tumorais na progressão de cancro. Existem três explicações possíveis para este resultado: (i) o nosso procedimento de pesquisa falhou algumas mutações de BRCA1 em sequências de codificação; (ii) as mutações somáticas de BRCA1 estão principalmente fora dos exões codificantes; e (iii) os eventos de PDH em 17q não reflectem mutações somáticas de BRCA1.

Se as mutações somáticas de BRCA1 forem verdadeiramente raras em carcinomas da mama e do ovário, isto terá fortes implicações na biologia de BRCA1. A aparente falta de mutações somáticas de BRCA1 implica que podem existir certas diferenças fundamentais na génese de tumores em portadores de 104 85 829 ΕΡ 699 754/ΡΤ BRCA1 geneticamente predispostos, em comparação com tumores na população geral. Por exemplo, as mutações em BRCA1 podem ter efeito apenas na formação do tumor num estádio específico no desenvolvimento precoce da mama e do ovário. Esta possibilidade é consistente com uma função primária para BRCA1 no cancro da mama pré-menopausa. Tal modelo para o papel de BRCA1 no cancro da mama e do ovário prevê uma interacção entre hormonas reprodutoras e a função de BRCA1. No entanto, não foram descritas quaisquer diferenças clínicas ou patológicas nos tumores da mama e do ovário familiares versus esporádicos, para além da idade de aparecimento (Lynch et ai., 1990). Por outro lado, a identificação recente de mutação aumentada de T.P53 e instabilidade dos microssatélites em tumores da mama de doentes com uma história familiar de cancro da mama (Glebov et ai., 1994) pode reflectir alguma diferença em tumores que surgem em pessoas geneticamente predispostas. O envolvimento de BRCA1 neste fenómeno pode agora ser avaliado directamente. Alternativamente, a falta de mutações somáticas de BRCA1 pode resultar da existência de múltiplos genes que funcionam na mesma via de supressão tumoral que BRCA1, mas que colectivamente representam um alvo mais preferencial para mutação em tumores esporádicos. Uma vez que a mutação de um único elemento numa via genética é geralmente suficiente para a disrupção da via, BRCA1 poderia mutar a uma taxa que é muito inferior à soma das taxas mutacionais dos outros elementos. EXEMPLO 10 Análise do Gene BRCA1 A estrutura e função do gene BRCA1 são determinadas de acordo com os seguintes métodos.

Estudos Biológicos. São construídos vectores de expressão em mamífero contendo ADNc de BRCA1 e transfectados para células de carcinoma da mama apropriadas com lesões no gene. É utilizado ADNc de BRCA1 de tipo selvagem bem como ADNc de BRCA1 alterado. O ADNc de BRCA1 alterado pode ser obtido a partir de alelos de BRCA1 alterados ou produzido tal como descrito abaixo. É examinada a reversão fenotípica em culturas (p.ex., morfologia celular, tempo de duplicação, crescimento independente de ancoragem) e em animais (p.ex. tumorigenicidade). Os estudos empregarão ambas as formas do gene, de tipo selvagem e mutante (secção B).

85 829 ΕΡ 699 754/ΡΤ 105

Estudos de Genética Molecular. É efectuada mutagénese in vitro para construir mutantes de deleção e mutantes de sentido errado (através de substituições de pares de bases únicos em codões individuais e “c/uster" com carga -» mutagénese de varrimento com alanina). Os mutantes são utilizados em estudos biológicos, bioquímicos e biofísicos.

Estudos do Mecanismo. É examinada a capacidade da proteína BRCA1 para se ligar a sequências de ADN conhecidas e desconhecidas. A sua capacidade para transactivar promotores é analisada através de sistemas de expressão transiente de repórteres em células de mamífero. São utilizados procedimentos convencionais tais como captura de partículas e sistema de dois híbridos de levedura para encontrar e identificar quaisquer parceiros funcionais. A natureza e funções dos parceiros são caracterizadas. Estes parceiros são por sua vez alvos para a identificação de fármacos.

Estudos Estruturais. São produzidas proteínas recombinantes em células de E. coli, levedura, de insecto e/ou de mamífero e são utilizadas em estudos de cristalografia e RMN. É também empregue modelação molecular das proteínas. Estes estudos facilitam a concepção de fármacos derivados da estrutura. EXEMPLO 11

Ensaio em Dois Passos para Detectar a Presença de BRCA1 numa Amostra A amostra do doente é processada de acordo com o método divulgado por Antonarakis et a/., (1985), separada através de um gel de agarose a 1% e transferida para membrana de nylon para análise "Southern blot". As membranas são sujeitas a UV para efectuar a ligação cruzada a 150 mJ utilizando um GS Gene Linker (Bio-Rad). A sonda de BRCA1 correspondente à posições nucleotídicas 3631-3930 de SEQ ID NO: 1 é subclonada em pTZ18U. Os fagemídeos são transformados em E. coli MV1190 infectada com o fago ajudante M13K07 (Bio-Rad, Richmond, CA). O ADN de cadeia simples é isolado de acordo com procedimentos padrão (ver Sambrook, et a!., 1989).

Os "blots" são pré-hibridados durante 15-30 min a 65°C em dodecilssulfato de sódio (SDS) a 7% em NaP04 0,5 M. Os métodos seguem os descritos por Nguyen et aí., 1992. Os "blots" são hibridados de um dia para o

85 829 ΕΡ 699 754/ΡΤ 106 outro a 65°C em SDS a 7%, NaP04 0,5 M com 25-50 ng/ml de ADN-sonda de cadeia simples. As lavagens pós-hibridação consistem em duas lavagens de 30 min em SDS a 5%, NaP04 40 mM a 65°C, seguido por duas lavagens de 30 min em SDS a 1 %, NaP04 40 mM a 65°C. A seguir os “blots" são passados por solução salina tamponada com fosfato (pH 6,8) durante 5 min à temperatura ambiente e incubados com caseína a 0,2% em PBS durante 30-60 min à temperatura ambiente e passados por PBS durante 5 min. Os "blots" são então pré-incubados durante 5-10 minutos · num banho-maria com agitação a 45°C com tampão de hibridação que consiste em ureia 6 M, NaCI 0,3 M e solução de Denhardt 5x (ver Sambrook, et a!., 1989). O tampão é removido e substituído por 50-75 μΙ/cm2 de tampão de hibridação fresco mais 2,5 nM do conjugado oligonucleótido-fosfatase alcalina ligado covalentemente de forma cruzada com a sequência nucleotídica complementar ao local iniciador universal (UP-AP, Bio-Rad). Os "blots" são hibridados durante 20-30 min a 45°C e as lavagens pós-hibridação são incubadas a 45°C como duas lavagens de 10 min em ureia 6 M, citrato salino padrão (SSC) 1 x, SDS a 0,1% e uma lavagem de 10 min em SSC 1x, Triton®X-100 a 0,1%. Os “blots" são passados durante 10 min à temperatura ambiente por SSC 1x.

Os "blots" são incubados durante 10 min à temperatura ambiente com agitação no tampão de substrato que consiste em dietanolamina 0,1 M, MgCI2 1 mM, azida de sódio a 0,02%, pH 10,0. Os “blots" individuais são colocados em sacos selados pelo calor com tampão de substrato e AMPPD 0,2 mM (3-(2'-espiroadamantano)-4-metoxi-4-(3'-fosforiloxi)fenil-1,2-dioxetano, sal dissódico, Bio-Rad). Após uma incubação de 20 min à temperatura ambiente com agitação, o excesso de solução de AMPPD é removido. O “blot" é exposto a película de raios X de um dia para o outro. As bandas positivas indicam a presença de BRCA1. EXEMPLO 12

Criação de Anticorpo Policlonal contra BRCA1

Segmentos da sequência de codificação de BRCA1 foram expressos como proteína de fusão em E. coli. A proteína sobrexpressa foi purificada através de eluição em gel e utilizada para imunizar coelhos e ratinhos utilizando 107 85 829 ΕΡ 699 754/ΡΤ um procedimento semelhante ao descrito por Harlow e Lane, 1988. Mostrou-se que este procedimento cria Ab contra várias outras proteínas (por exemplo, ver Kraemer et a!., 1993).

Resumidamente, foi clonada uma extensão da sequência de codificação de BRCA1 como proteína de fusão no plasmídeo PET5A (Novagen, Inc., Madison, Wl). A sequência incorporada de BRCA1 inclui os aminoácidos correspondentes a #1361-1554 de SEQ ID NO: 2. Após indução com IPTG, verificou-se a sobrexpressão de uma proteína de fusão com o peso molecular esperado através de SDS/PAGE. A .proteína de fusão foi purificada a partir do gel por electroeluição. A identificação da proteína como produto de fusão de BRCA1 foi verificada através de sequenciação proteica no terminal N. A seguir, a proteína purificada foi utilizada como imunogénio em coelhos. Os coelhos foram imunizados com 100 pg da proteína em adjuvante de Freund completo e reforçados duas vezes em intervalos de 3 semanas, primeiro com 100 pg de imunogénio em adjuvante de Freund incompleto seguido de 100 pg de imunogénio em PBS. O soro contendo anticorpos é recolhido duas semanas depois.

Este procedimento é repetido para criar anticorpos contra as formas mutantes do gene BRCA1. Estes anticorpos, em conjunto com anticorpos para BRCA1 de tipo selvagem, são utilizados para detectar a presença e o nível relativo das formas mutantes em vários tecidos e fluidos biológicos. EXEMPLO 13

Criação de Anticorpos Monoclonais Específicos para BRCA1

Os anticorpos monoclonais são criados de acordo com o seguinte protocolo. São imunizados ratinhos com o imunogénio compreendendo BRCA1 intacto ou péptidos BRCA1 (de tipo selvagem ou mutantes) conjugado com hemocianina de lapa utilizando glutaraldeído ou EDC tal como é bem conhecido. O imunogénio é misturado com um adjuvante. Cada ratinho recebe quatro injecções de 10 a 100 pg de imunogénio e após a quarta injecção são retiradas amostras de sangue dos ratinhos para determinar se o soro contém anticorpo para o imunogénio. O título sérico é determinado por ELISA ou RIA. Os ratinhos 108 05 029 ΕΡ 699 754/ΡΤ com soros indicando a presença de anticorpo para o imunogénio são seleccionados para produção do hibridoma. São removidos os baços dos ratinhos imunizados e é preparada uma única suspensão celular (ver Harlow e Lane, 1988). As fusões celulares são efectuadas essencialmente tal como descrito por Kohler e Milstein, 1975. Resumidamente, são fundidas células de mieloma P3.65.3 (American Type Culture Collection, Rockville, MD) com células do baço imunizadas utilizando polietilenoglicol tal como descrito por Harlow e Lane, 1988. As células são plaqueadas a uma densidade de 2x10* células/poço em placas de cultura de tecidos de 96 poços. Cada um dos poços é examinado quanto ao crescimento e os sobrenadantes dos poços com crescimento são testados quanto à presença de anticorpos específicos para BRCA1 por ELISA ou RIA utilizando a proteína alvo BRCA1 de tipo selvagem ou mutante. As células em poços positivos são expandidas e subclonadas para estabelecer e confirmar a monoclonalidade.

Os clones com as especificidades desejadas são expandidos e postos a crescer como ascitos em ratinhos ou num sistema de fibras ocas para produzir quantidades suficientes de anticorpo para o desenvolvimento da caracterização e ensaios. EXEMPLO 14

Ensaio Sanduíche para BRCA1 0 anticorpo monoclonal é ligado a uma superfície sólida tal como uma placa, tubo, conta ou partícula. De preferência, o anticorpo é ligado à superfície do poço de uma placa de ELISA de 96 poços. São adicionados ao anticorpo da fase sólida 100 μΙ de amostra (p.ex., soro, urina, cilosol de tecido) contendo o péptido/proteína BRCA1 (de tipo selvagem ou mutante). A amostra é incubada durante 2 h à temperatura ambiente. A seguir o fluido da amostra é decantado e a fase sólida é lavada com tampão para remover o material não ligado. São adicionados à fase sólida 100 μΙ de um segundo anticorpo monoclonal (para um determinante diferente no péptido/proteína BRCA1). Este anticorpo é marcado com uma molécula detectora (p.ex., 125l, enzima, fluoróforo ou um cromóforo) e a fase sólida com o segundo anticorpo é incubada durante 2 h à temperatura ambiente. 0 segundo anticorpo é decantado e a fase sólida é lavada com tampão para remover o material não ligado. 85 829 ΕΡ 699 754/ΡΤ 109 A quantidade de marcador ligado, a qual é proporcional à quantidade de péptido/proteína BRCA1 presente na amostra, é quantificada. São efectuados ensaios separados utilizando anticorpos monoclonais que são específicos para a BRCA1 de tipo selvagem bem como anticorpos monoclonais específicos para cada uma das mutações identificadas em BRCA1.

Utilidade Industrial

Tal como descrito previamente acima, o presente invento proporciona materiais e métodos para utilização no teste de alelos de BRCA1 de um indivíduo e uma interpretação da natureza normal ou de predisposição dos alelos. Os indivíduos com risco superior ao normal podem modificar os seus estilos de vida apropriadamente. No caso de BRCA1, o factor de risco não genético mais significativo é o efeito protector de uma gravidez de tempo completo em idade jovem. Portanto, as mulheres em risco podem considerar a gestação em idade jovem ou uma terapia concebida para simular os efeitos hormonais de uma gravidez de tempo completo em idade jovem. As mulheres em alto risco empenhar-se-iam também na detecção precoce e estariam mais altamente motivadas para aprender e praticar o auto-exame da mama. Tais mulheres estariam também altamente motivadas para fazer mamografias periódicas, começando talvez numa idade mais jovem que a população geral. A pesquisa no ovário também podia ser realizada com maior frequência. Métodos de diagnóstico baseados na análise da sequência do locus BRCA1 podiam também ser aplicados à detecção e classificação de tumores. A análise da sequência podia ser utilizada para diagnosticar lesões percursoras. Com a evolução do método e a acumulação de informação sobre BRCA1 e outros toei causadores, podia tornar-se possível a separação de cancros em benignos e malignos.

As mulheres com cancros da mama podem seguir procedimentos cirúrgicos diferentes se forem predispostas, e portanto se for provável terem mais cancros, do que se não forem predispostas. Podem ser desenvolvidas outras terapias, utilizando péptidos ou moléculas pequenas (concepção racional de fármacos). Os péptidos podem ser o próprio produto do gene em falta ou uma porção do produto do gene em falta. Alternativamente, o agente terapêutico pode ser outra molécula que imite a função do gene deletério, um péptido ou uma molécula não peptídica que procure contrariar o efeito deletério 80 829 ΕΡ 699 754/ΡΤ 110 do locus herdado. A terapia pode também ser baseada em genes, através da introdução de um alelo de BRCA1 normal em indivíduos para fazer uma proteína que contrariará o efeito do alelo deletério. Estas terapia génicas podem ter muitas formas e podem ser dirigidas para a prevenção da formação do tumor, cura de um cancro após este ter ocorrido ou impedimento de metástase de um cancro.

Notar-se-á que os métodos e composições do presente invento podem ser incorporados na forma de uma variedade de concretizações, das quais r,apenas algumas são aqui divulgadas. Será aparente para o artesão que existem outras concretizações e que não se afastam do espírito do invento. Assim, as concretizações descritas são ilustrativas e não devem ser entendidas como restritivas. (Segue Listagem de Referências) 111 05 029 ΕΡ 699 754/ΡΤ

LISTAGEM DE REFERÊNCIAS

Altschul, SF. et ai. (1990). J. Mol. Biol. 215: 195-197.

American Câncer Society, Câncer Facts & Figures - 1992. (American Câncer Society, Atlanta, GA).

Anand, R. (1992). Techniques for the Ana/ysis of Complex Genomes, (Academic Press).

Anderson, et al. (1980). Proc. Natl. Acad. Sei USA 77:5399-5403.

Anderson, D.E. (1972). J. Natl. Câncer Inst. 48:1029-1034.

Anderson, J.A., et al. (1992). J. Otolaryngology 21:321.

Antonarakis, S.E., et al. (1985). New Eng. J. Med. 313:842-848.

Ausubel, F.M., et al. (1992). Current Protocols in Molecular Biology, (J. Wiley and Sons, N.Y.)

Beaucage & Carruthers (1981). Tetra. Letts. 22:1859-1862.

Berkner (1992). Curr. Top. Microbiol. Immunol. 158:39-61.

Berkner, et al. (1988). BioTechniques 6:616-629.

Bickmore, W.A., et al. (1992). Science 257:235-7.

Bishop, D.T., et al. (1988). Genet. Epidemiol. 5:151-169.

Bishop, D.T. e Gardner, E.J. (1980). In: Banburv Report 4: Câncer Incidence in Defined Populations (J. Cairns, J.L. Lyon, M. Skolriick, eds.), Cold Spriny Harbor Laboratory, Cold Spring Harbor, N.Y., 309-408.

Botstein, et al. (1980). Am. J. Hum. Genet. 32:314-331.

Bowcock, A.M., et al. (1993). Am. J Hum. Genet. 52:718.

Brandyopadhyay e Temin (1984). Mol. Cell. Biol. 4:749-754.

Breakfield e Geller (1987). Mol. Neurobiol. 1:337-371.

Brinster, et al. (1981). Cell 27:223-231. 112 85 829 ΕΡ 699 754/ΡΤ

Buchschacher e Panganiban (1992). J. Virol. 66:2731-2739.

Buckler, et ai (1991). Proc. Natl. Acad. Sei. USA 88:40054009.

Cannon-AIbright, L., et ai (1994). Câncer Research 54:2378-2385.

Capecchi, M.R. (1989). Science 244:1288.

Cariello (1988). Human Genetics 42:726.

Claus, E., et ai. (1991). Am. J. Hum. Genet. 48:232-242. Cónner, B.J., et al. (1983). Proc. Natl. Acad. Sei. USA 80:2781282.

Constantini e Lacy (1981). Nature 294:92-94.

Cotten, et ai (1990). Proc. Natl. Acad. Sei USA 87:40334037.

Cotton, et ai (1988). Proc. Natl. Acad. Sei USA 85:4397.

Cropp, C.S., et ai (1994). Câncer Res. 54:2548-2551.

Culver, et ai (1992). Science 256:1550-1552.

Curiel, et ai (1991a). Proc. Natl. Acad. Sei. USA 88:8850-8854.

Curiel, et ai (1991b). Hum. Gene Ther. 3:147-154.

Deutscher, M. (1990). Meth. Enzymology 182 (Academic Press, San Diego, Cal.).

Donehower, L.A., et ai (1992). Nature 356:215.

Drummond, I. A., et ai (1994). Moi Cell Biol. 14:3800-9.

Easton, D., et ai (1993). Am. J. Hum. Genet. 52:678-701.

Eccles, D.M., et ai (1990). Oncogene 5:1599-1601.

Enhancers and Eurkaryotic Gene Expression, Cold Spring Harbor Press, Cold Spring Harbor, New York (1983).

Erickson, J. et al., (1990). Science 249:527-533.

Fain, P.R. (1992). Cytogen. Cell Genet. 60:178.

Felgner, et ai (1987). Proc. Natl. Acad. Sei USA 84:7413-7417. 113 85 829 ΕΡ 699 754/ΡΤ

Fiers, et ai (1978). Nature 273:113.

Fink, et al. (1992). Hum. Gene Ther. 3:11-19.

Finkelstein, J., et ai (1990). Genomics 7:167-172.

Freese, et ai (1990). Biochem. Pharmacol. 40:2189-2199.

Friedman, T. (1991). (n Therapy for Genetic Diseases, T. Friedman, ed., Oxford University Press, pp. 105-121.

Futreal (1993). Ph.D. Thesis, University of North Carolina, Chapei Hill. . . i í * ✓

Futreal, A., et ai (1992a). Hum. Molec. Genet. 1:66.

Futreal, P.A., et ai (1992b). Câncer Res. 52:2624-2627.

Glebov, O.K., et ai (1994). Câncer Res. 54:3703-3709.

Glover, D. (1985). DNA Cloning, I e II (Oxford Press).

Go, R.C.P., et ai (1983). J. Nati Câncer Inst. 71:455-461.

Goding (1986). Monocfona/ Antibodies: Principies and Practice, 2aed. (Academic Press, N.Y.).

Godowski, et ai (1988). Science 241:812-816.

Goldgar, D.E., et ai (1994). J. Nati Can. Inst. 86:3:200-209.

Gordon, et ai (1980). Proc. Nati Acad. Sei. USA 77:7380-7384.

Gorziglia e Kapikian (1992). J. Virol. 66:44074412.

Graham e van der Eb (1973). Virology 52:456467.

Grompe, M., (1993). Nature Genetics 5:111-117.

Grompe, M., et ai, (1989). Proc. Nati Acad Sei. USA 86:5855-5892.

Guthrie, G. & Fink, G.R. (1991). Guide to Yeast Genetics and Molecular Biology (Academic Press).

Haber, D. A., et al. (1990). Ce//61:1 257-69.

Hall, J.M., et ai (1990). Science 250:1684-1689. 114 05 029 ΕΡ 699 754/ΡΤ

Hall, J.M., et ai (1992). Am J Hum. Genet. 50:1 235-1 241.

Harlow & Lane (1988). Antibodies: A Laboratory Manual (Cold Spring Harbor Laboratory, Cold Spring Harbor, N.Y.

Hasty, P., K., et ai (1991). Nature 350:243.

Helseth, et ai (1990). J. Viro/. 64:2416-2420.

Hodgson, J. (1991). Bio/Technology 9:19-21.

Hnse, et ai (1989). Science 246:1275-1281.

Innis et ai (1990). PCR Protocols: A Guide to Methods and Applications (Academic Press, San Diego, Cal.).

Jablonski, E., et ai. (1986). Nuc. Acids Res. 14:6115-6128.

Jacobs, I.J., et ai (1993). Câncer Res. 53:1218-1221.

Jakoby, W.B. e Pastan, I.H. (eds.) (1979). Cell Culture. Methods in Enzymology, volume 58 (Academic Press, Inc., Harcourt Brace Jovanovich (New York)).

Jeffreys, et ai (1985). Nature 314:67-73.

Johnson, et ai (1992). J. Viro\. 66:2952-2965.

Kamb, A. et ai (1994). Science 264:436-440.

Kandpal, et ai (1990). Nuci Acids Res. 18:1789-1795.

Kaneda, et ai (1989). J. Bioi Chem. 264:12126-12129.

Kanehisa (1984). Nuci Acids Res. 12:203-213.

Kelsell,D.P., et ai (1993). Human Moi Genet. 2:1823-1828.

Kinszler, K.W., et ai (1991). Science 251:1366-1370.

Knudson, A.G. (1993). Nature Genet. 5:103.

Kohler, G. e Milstein, C. (1975). Nature 256:495-497.

Kozak, M. (1987). Nucleic Acids Res. 15:8125-8148.

Kraemer, F.B. et ai (1993). J. Lipid Res. 34:663-672. 115 85 829 ΕΡ 699 754/ΡΤ

Kubo,T„ et al. (1988). FEBS Letts. 241:119.

Landegren, et al. (1988). Science 242:229.

Lim, et al.( 1992). Circufation 83:2007-2011.

Lindsay, S., et al. (1987). Nature 327:336-368

Litt, et al. (1989). Am. J. Hum. Genet. 44:397-401.

Little, M.H., et al. (1992). Proc. Natl. Acad. Sei USA 89:4791.

Little, M.H., et al. (1993). Hum. Mol. Genet. 2:259.

Lovett, et al. (1991). Proc. Natl. Acad. Sei USA 88:9628-9632.

Lynch, H.T., et al. (1990). Gynecol. Oncol. 36:48-55.

Madzak, et al. (1992). J. Gen. Virol. 73:1533-1536.

Malkin, D., et al. (1990). Science 250:1233-1238.

Maniatis. T., et al. (1982). Molecular Cloning A Laboratory Manual (Cold Spring Harbor Laboratory, Cold Spring Harbor, N.Y.).

Mann e Baltimore (1985). J. Virol. 54:401407.

Margaritte, et al. (1992). Am. J. Hum. Genet. 50:1231-1234.

Margolskee (1992). Curr. Top. Microbiol. Immunol. 158:67-90.

Martin, R., et al. (1990). BioTechniques 9:762-768.

Matteucci, M.D. e Caruthers, M.H. (1981). J. Am. Chem. Soc. 103:3185.

Matthews & Kricka (1988). Anal. Biochem. 169:1.

Merrifield (1963). J. Am. Chem. Soc. 85:2149-2156.

Mettlin, C., et ai (1990). American Journal of Epidemiology 131:973-983.

Metzger, et al. (1988). Nature 334:31-36.

Miller (1992). Curr. Top. Microbiol. Immunol. 158:1-24.

Miller, et al. (1985). Mol. Cell. Biol. 5:431-437.

Miller, et al. (1988). J. Virol. 62:4337-4345. 116 85 829 ΕΡ 699 754/ΡΤ

Mittlin (1989). Clinicai Chem. 35:1819.

Modrich, P. (1991). Ann. Rev. Genet. 25:229-253.

Mombaerts, P., et ai (1992). Ce//68:869.

Monaco, et al. (1986). Nature 323:646.

Moss (1992). Curr. Top. Microbiol. Immunol. 158:25-38.

Muzyczka (1992). Curr. Top. Microbiol. Immunol. 158:97-123.

Nabel (1992). Hum. Gene Ther. 3:399-410.

Nabel, et aí. (1990). Science 249:1285-1288.

Nakamura, et al. (1987). Science 235:1616-1622.

Narod, S.A., et al. (1991). The Lancet 338:82-83.

Newman, B., et al. (1988). Proc. Natl. Acad. Sei. USA 85:3044-3048.

Newton, C.R., Graham, A., Heptinstall, L.E., Powell, S.J., Summers, C., Kalshckcr, N., Smith, J.C., e Markham, A.F. (1989). Nucl. Acids Res. 17:2503-2516.

Nguyen, Q., et al. (1992). BioTechniques 13:116-123.

Novack, et al. (1986). Proc. Natl. Acad. Sei. USA 83:586.

Oh, J. (1985). Analysis of Human Genetic Linkage, Johns Hopkins University Press, Baltimore, Md, p. 1-216.

Ohi, etal. (1990). Gene 89:279-282.

Oliphant, A., etal. (1991). Nucleic Acid Res. 19:4794.

Oliphant, A., etal. (1991). Nucleic Acid Res. 19:4795.

Orita, et al. (1 989). Proc. Natl. Acad. Sei. USA 86:2776-2770.

Page, etal. (1990). Λ Virol. 64:5370-5276.

Pellicer, ct al. (1980). Science 209:1414 1422.

Petropoulos, etal. (1992).7. Virol. 66:3391-3397. 117 85 829 ΕΡ 699 754/ΡΤ

Philpott, K.L., et a/. (1992>. Science 256:1448.

Pierce, et ai. (1992). Proc. Natl. Acad. Sei. USA 89:2056-2060.

Quantin, et ai. (1992). Proc. Natl. Acad. Sei. USA 89:2581-2584.

Rano & Kidd (1989). Nucf. Acids fíes. 17:8392.

Rigby, P.W.J., et ai. (1977). J. Moi. Bioi. 113:237-251.

Rosenfeld, et ai. (1992). Cell 68:143-155.

Sambrook, J., et ai. (1989). Molecular Ctoning: A Laboratory Manual, 2eEd (Cold Spring Harbor Laboratory, Cold Spring Harbor, N.Y.).

Sato, T., et al. (1990). Câncer Res. 50:7184-7189.

Scharf (1986). Science 233:1076.

Scopes, R. (1982). Protein Purification: Principies and Practice, (Springer Verlag, N.Y.).

Shaulian, E., et al. (1992). Moi Cell Biol. 12:5581-92.

Sheffield, V.C., et ai (1989). Proc. Natl. Acad Sei. USA 86:232-236.

Sheffield, V.C., et ai (1991). Am. J. Hum. Genet. 49:699-706.

Shenk, et al. (1975). Proc. Natl. Acad. Sei. USA 72:989.

Shimada, et ai (1991). J. Clin. Invest. 88:1043-1047.

Shinkai, Y.( et ai (1992). Cell 68:855.

Shizuya, H., et ai (1992). Proc. Natl. Acad. Sei. USA 89:8794-8797.

Simard, J., et ai (1993). Human Moi Genet. 2:1193-1199.

Skolnick, M.H. e Wallace, B.R. (1988). Genomics 2:273-279.

Skolnick, M.H., et ai (1990). Science 250:1715-1720.

Smith, S.A., et ai (1992). Nature Genetics 2:128-131.

Smith, T.F. e Waterman, M.S. (1981).7. Moi Biol. 147:195-197.

Snouwaert, J.N., et ai (1992). Science 257:1083. 118 85 829 ΕΡ 699 754/ΡΤ

Sorge, et ai (1984). Mol. Celf. Biol. 4:1730-1737.

Srivastava, S., et al. (1993). Câncer Res. 53:4452-5.

Sternberg (1990). Proc. Natl. Acad. Sei. USA 87:103-107.

Sternberg, et ai (1990). The New Biologist 2:151 -1 62.

Stewart, et al. (1992). Hum. Gene Ther. 3:267-275.

Stratford-Perricaudet, et al. (1990). Hum. Gene Ther. 1:241-256.

Swift, M., et ai (1991). N. Engl. J. Med. 325:1831-1836.

Swift, M., et al. (1976). Câncer Res. 36:209-215.

Su, L. K., et al. (1993). Câncer Res. 53:2728-31.

Thomas, A. e Skolnick, M.H. (1994). IMA Journal of Mathematics Applied in Medicine e Biology (no prelo).

Tonolio, D., et al. (1990). Cold Spring Harbor Conference.

Valancius, V. & Smithies, O. (1991). Mol. Cell Biol. 11:1402. van Dilla, et al. (1986). Biotechnology 4:537-552.

Wagner, et al. (1990). Proc. Natl. Acad. Sei. USA 87:3410-3414.

Wagner, et ai (1991). Proc. Natl. Acad. Sei. USA 88:4255-4259.

Wang e Huang (1989). Biochemistry 28:9508-9514.

Wartell, R.M., et al. (1990). Nucl. Acids Res. 18:2699-2705.

Weber, J.L. (1990). Genomics 7:524-530.

Weber e May (1989). Am. J. Hum. Genet. 44:388-396.

Weber, J.L., et al. (1990). Nucleic Acid Res. 18:4640.

Wells, J.A. (1991). Methods in Enzymol. 202:390-411.

Wetmur & Davidson (1968). J. Mol. Biol. 31:349-370.

White, M.B., et a!., (1992). Genomics 12:301-306.

White e Lalouel (1988). Ann. Rev. Genet. 22:259-279. 119 85 829 ΕΡ 699 754/ΡΤ

Wilkinson, et al. (1992). Nucleic Acids fíes. 20:2233-2239. Willams e Anderson (1984). Genet. Epidemiol. 1:7-20.

Wolff, etal. (1990). Science 247:1465-1468.

Wolff, etal. (1991). BioTechniques 11:474-485.

WoostRr, R., et al. (1994). Science 265:2088.

Wu, et ai. (1989a). Genomics 4:560-569.

Wu, èt al: (1989b). J. Biol. Chem. 264:16985-16987.

Wu, etal. (1991). J. Biol. Chem. 266:14338-14342.

Zenke, etal. (1990). Proc. Natl. Acad. Sei. USA 87:3655-3659.

Lista de Patentes e Pedidos de Patente:

Patente US No. 3 817 837 Patente US No. 3 850 752 Patente US No. 3 939 350 Patente US No. 3 996 345 Patente US No. 3 275 149 Patente US No. 4 277 437 Patente US No. 4 366 241 Patente US No. 4 376 110 Patente US No. 4 486 530

Patente US No. 4 683 195 120 85 829 ΕΡ 699 754/ΡΤ

Patente US No. 4 683 202 Patente US No. 4 816 567 Patente US No. 4 868 105 Patente US No. 5 252 479 Publicação EPO No. 225 807

Geysen, H.( pedido PCT publicado WO 84/03564, publicado em 13 de Setembro de 1984

Hitzeman etal., EP 73 675A

Pedido PCT publicado WO 93/07282 (Segue Listagem de Sequências)

85 829 ΕΡ 699 754/ΡΤ 121

LISTAGEM DE SEQUÊNCIAS (1) INFORMAÇÃO GERAL <i) REQUERENTE: (A) NOME: MYRIAD GENETICS INC.

(B) RUA: 300 WAKARA WAY

(C) CIDADE: SALT LAKE CITY

(D) ESTADO: UTAH

(E) PAÍS: ESTADOS UNIDOS DA AMÉRICA (F) CÓDIGO POSTAL: 84108

(A) NOME: THE UNIVERSITY OF UTAH RESEARCH FOUDATION (B) RUA: 421 WAKARA WAY, SUITE 170

(C) CIDADE: SALT LAKE CITY

(D) ESTADO: UTAH

(E) PAÍS: ESTADOS UNIDOS DA AMÉRICA (F) CÓDIGO POSTAL: 84108

(A) NOME: THE UNITED STATES OF AMERICA, REPRESENTADO POR THE

SECRETARY OF THE DEPARTMENT OF HEALTH AND HUMAN SERVICES

(B) RUA: OFFICE OF TECHNOLOGY TRANSFER, 6011 EXECUTIVE BOULEVARD, SUITE 325

(C) CIDADE: ROCKVILLE

(D) ESTADO: MARYLAND

(E) PAÍS: ESTADOS UNIDOS DA AMÉRICA (F) CÓDIGO POSTAL: 20852

<ii> TÍTULO DO INVENTO: MÉTODO PARA DIAGNOSTICAR UMA

PREDISPOSIÇÃO PARA CANCRO DA MAMA E DO OVÁRIO (iii) NÚMERO DE SEQUÊNCIAS: 85 liv) FORMATO LEGÍVEL EM COMPUTADOR: (A) TIPO DE MEIO: Disquete

(B) COMPUTADOR: compatível com PC IBM

(C) SISTEMA OPERATIVO: PC-DOS/MS-DOS (D) SUPORTE LÓGICO: Patentln Release #1.0, Versão #1.30 (EPO)

(2) INFORMAÇÃO PARA SEQ ID NO: 1: (i) CARACTERÍSTICAS DA SFQUÊNCIA: (A) COMPRIMENTO: 5914 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADNc

(iii) HIPOTÉTICA: NÃO (iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (ix) CARACTERÍSTICA PRINCIPAL:

(A) NOME/CHAVE: CDS (B) LOCALIZAÇÃO: 120..5711 (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 1: CCTGCGCTCA GGAGGCCTTC ACCCTCTGCT CTG \g rr ATG GAT TTA Ter GC" CGT CGC GTT GAA GAA GTA CAA ΛΛ- GTC Met Asp Leu Ser Ξ Leu A_rg Vai Glu Glu 10 Vai Gin Asn Vai GCT AIG CAG AAA ATC ΤΤλ GAG TGT CCC ATC TGT CTG TTG Ala Mac Gin Lys 20 Ile Leu Glu Cys ?ro 25 Ile Cys Leu Glu Leu 20

WV A X TAACTGGGCG 60 OAG.— 115 : ATT AAT 167 . Ile Asn f r*. - C AaG - 123 85 829 ΕΡ 699 754/ΡΤ GAA CCT GTC TCC ACA AAG TGT GAC CAC ATA TTT TGC AAA TTT TGC ATG 263 Glu Pro Vai Ser Thr Lys Cys Asp His Ile Phe Cys Lys Phe Cys Met 35 40 45 CTG AAA CTT CTC AAC CAG AAG AAA GGG CCT TCA CAG TGT CCT TTA TGT 311 Leu Lys Leu Leu Asn Gin Lys Lys Gly Pro Ser Gin Cys Pro Leu Cys 50 55 60 AAG AAT GAT ATA ACC AAA AGG AGC CTA CAA GAA AGT ACG AGA TTT AGT 359 Lvs Asn Asp Ile Thr Lys Arg Ser Leu Gin Glu Ser Thr Arg Phe Ser 65 70 75 80 CAA CTT GTT GAA GAG CTA TTG AAA ATC ATT TGT GCT TTT CAG CTT GAC 407 Gin Leu Vai Glu GlU Leu Leu Lys Ile Ile Cys Ala Phe Gin Leu Asp ' 8S 90 95 ACA GGT TTG GAG TAT GCA AAC AGC TAT AAT TTT GCA AAA AAG GAA AAT 455 Thr Gly Leu Glu Tyr Ala Asn Ser Tyr Asn Phe Ala Lys Lys Glu Asn 100 105 110 AAC TCT CCT GAA CAT CTA AAA GAT GAA GTT TCT ATC ATC CAA AGT ATG S03 Asn Ser Pro Glu HiS Leu Lys Asp Glu Vai Ser Ile Ile Gin Ser Met 115 120 125 GGC TAC AGA AAC CGT GCC AAA AGA CTT CTA CAG AGT GAA CCC GAA AAT 551 Glv Tvr Arg Asn Arg Ala Lys Arg Leu Leu Gin Ser Glu Pro Glu Asn 130 135 140 CCT TCC TTG CAG ACC AGT CTC AGT GTC CAA CTC TCT AAC CTT GGA 599 Pro Ser Leu Gin Glu Thr Ser Leu Ser Vai Gin Leu Ser Asn Leu Gly 145 ISO 155 160 ACT GTG AGA ACT CTG AGG ACA AAG CAG CGG ATA CAA CCT CAA AAG ACG 647 Thr Vai Are Thr Leu Arg Thr Lys Gin Arg Ile Gin Pro Gin Lys Thr 165 170 175 TCT GTC TAC ATT GAA TTG GGA TCT GAT TCT TCT GAA GAT ACC GTT AAT 695 Ser Vai Tyr Ile Glu Leu Gly Ser Asp Ser Ser Glu Asp Thr Vai Asn ISO 1S5 190 AAG GCA ACT TAT TGC AGT GTG GGA GAT CAA GAA TTG TTA CAA ATC ACC 743 Lys Ala Thr Tyr Cys Ser Vai Gly Asp Gin Glu Leu Leu Gin Ile Thr 195 200 205 CCT CAA GGA ACC AGG GAT GAA ATC AGT TTG GAT TCT GCA AAA AAG GCT 791 Pro Gin Gly Thr Arg Asp Glu Ile Ser Leu Asp Ser Ala Lys Lys Ala 210 215 220 GCT TGT GAA ΤΤΓ TCT GAG ACG GAT GTA ACA AAT ACT GAA CAT CAT CAA 839 Ala Cys Glu Phe Ser Glu Thr Asp Vai Thr Asn Thr Glu His His Gin 215 230 235 240 CCC AGT AAT AAT GAT TTG AAC ACC ACT GAG AAG CGT GCA GCT GAG AGG 887 Pro Ser Asn Asn Asp Leu Asn Thr Thr Glu Lys Arg Ala Ala GlU Arg 245 250 255 124 85 829 ΕΡ 699 754/ΡΤ CAT CCA GAA AAG TAT CAG GGT AGT TCT GTT TCA AAC TTG CAT GTG GAG 935 His Pro Glu Lys Tyr Gin Gly Ser Ser Val Ser Asn Leu His Val Glu 260 265 270 CCA TGT GGC ACA AAT ACT CAT GCC AGC TCA TTA CAG CAT GAG AAC AGC 983 Pro Cys Gly Thr Asn Thr His Ala Ser Ser Leu Gin His Glu Asn Ser 275 280 285 AGT TTA TTA CTC ACT AAA GAC AGA ATG AAT GTA GAA AAG GCT GAA TTC 1031 Ser Leu Leu Leu Thr Lys Asp Arg Met Asn Val Glu Lys Ala Glu Phe 290 295 300 TGT AAT AAA AGC AAA CAG CCT GGC TTA GCA AGG AGC CAA CAT AAC AGA 1079 Cys Asn Lys Ser Lys Gin Pro Gly Leu Ala Arg Ser Gin His Asn Arg 305 310 315 320 TGG GCT GGA AGT AAG GAA ACA TGT AAT GAT AGG CGG ACT CCC AGC ACA 1127 Trp Aj.3. Gly Ser Lys Glu Thr Cys Asn Asp Arg Arg Thr Pro Ser Thr 325 330 335 /— ' í» J/W AAA ArtG GTA GAT CTG AAT GCT GAT CCC CTG TGT GAG AGA AAA GAA 1175 Glu Lvs Lys Vai Asp Leu Asn Ala Asp Pro Leu cys Glu Arg Lys Glu 340 3 4 5 350 TGG AAT AAG CAG AAA CTG CCA TGC TCA GAG AAT CCT AGA GAT ACT GAA 1223 Trp Asn Lys Gin Lys Leu Pro Cys Ser Glu Asn Pro Arg Asp Thr Glu 355 360 365 GAT GTT CCT TGG ATA ACA CTA AAT AGC AGC ATT CAG /vA GTT AAT GAG 1271 Asp Vai Pro Trp Ile Thr Leu Asn Ser Ser Ile Gin Lys Val Asn Glu 370 375 380 TGG A i. λ TCC AGA AGT GAT GAA CTG TTA GGT TCT GAT GAC TCA CAT GAT 1319 Trp Phe Ser Arg Ser Asp Glu Leu Leu Gly Ser Asp Asp Ser His Asp 385 390 395 400 GGG GAG TCT GAA TCA AAT GCC AAA GTA GCT GAT GTA TTG GAC GTT CTA 1367 Gly Glu Ser Glu Ser Asn Ala Lys Vai Ala Asp Val Leu Asp Val Leu 405 410 415 AAT GAG GTA GAT GAA TAT TCT GGT TCT TCA GAG AAA ATA GAC TTA CTG 1415 Asn Glu Vai Asp Glu Tyr Ser Gly Ser Ser Glu Lys Ile Asp Leu Leu 420 42S 430 GCC AGT GAT CCT CAT GAG GCT TTA ATA TGT AAA AGT GAA AGA GTT CAC 1463 Ala Ser Asp Pro His Glu Ala Leu Ile Cys Lys Ser Glu Arg Val His 435 440 445 TCC AAA TCA GTA GAG AGT AAT ATT GAA GAC AAA ATA TTT GGG AAA ACC 1511 Ser Lys Ser Vai GlU Ser Asn Ile Glu Asp Lys Ile Phe Gly Lys Thr 4S0 455 460 TAT CGG AAG AAG GCA •AGC CTC CCC AAC TTA AGC CAT GTA ACT GAA AAT 1559 Tyr Arg Lys Lys Ala Ser Leu Pro Asn Leu Ser His Val Thr Glu Asn 465 470 475 480

85 829 ΕΡ 699 754/ΡΤ 125 CTA ATT ATA GGA GCA TTT GTT ACT GAG CCA CAG ATA ATA CAA GAG CGT 1607 Leu Ile Ile Gly Ala Phe Vai Thr Glu Pro Gin Ile Ile Gin Glu Arg 4Θ5 490 495 CCC CTC ACA AAT AAA TTA AAG CGT AAA AGG AGA CCT ACA TCA GGC CTT 1S35 Pro Leu Thr Asn Lys Leu Lys Arg Lys Arg Arg Pro Thr Ser Gly Leu 500 505 510 CAT CCT GAG GAT TTT ATC AAG AAA GCA GAT TTG GCA GTT CAA AAG ACT 1703 His Pro Glu Asp Phe Ile Lys Lys Ala Asp Leu Ala Vai Gin Lys Thr 515 520 525 CCT GAA ATG ATA AAT CAG GGA ACT AAC CAA ACG GAG CAG AAT GGT CAA 1751 Pro Glu Met Ile Asn Gin Gly Thr Asn Gin Thr Glu Gin Asn Gly Gin 530 535 540 GTG ATG AAT ATT ACT AAT AGT GGT CAT GAG AAT AAA ACA AAA GGT GAT 1799 Vai Mee Asn Ile Thr Asn Ser Gly Kis Glu Asn Lys Thr Lys Gly Asp 545 550 555 560 TCT ATT CAG AAT GAG AAA AAT CCT AAC CCA ATA GAA TCA CTC GAA AAA 1347 Ser Ile Gin Asn Glu Lys Asn Pro Asn Pro Ile Glu Ser Leu Glu Lys 565 570 575 GAA TCT GCT TTC AAA ACG AAA GCT GAA CCT ATA AGC AGC AGT ATA AGC 1395 Glu Ser Ala Phe Lys Thr Lys Ala Glu Pro Ile Ser Ser Ser Ile Ser 590 555 590 AAT ATG GAA CTC GAA TTA AAT ATC CAC AAT TCA AAA GCA CCT AAA AAG 1943 Asn Mec Glu Leu Glu Leu Asn Ile His Asn Ser Lys Ala Pro Lys Lys 595 600 605 AAT AGG CTG AGG AGG AAG TCT TCT ACC AGG CAT ATT CAT GCG GAA 1991 Asn Arg Leu Arg Arg Lys Ser Ser Thr Arg His Ile His Ala Leu Glu 610 615 620 CTA GTA GTC AGT AGA AAT CTA AGC CCA CCT AAT TGT ACT GAA TTG CAA 2039 Leu Vai Vai Ser Arg Asn Leu Ser Pro Pro Asn Cys Thr Glu Leu Gin S25 630 635 640 ATT GAT AGT TGT TCT AGC AGT GAA GAG ATA AAG AAA AAA AAG TAC AAC 2087 lie Asp Ser Cys Ser Ser Ser Glu Glu Ile Lys Lys Lys Lys Tyr Asn 645 650 655 CAA ATG CCA GTC AGG CAC AGC AGA AAC CTA CAA CTC ATG GAA GGT AAA 2135 Gin Met Pro Vai Arg His Ser Arg Asn Leu Gin Leu Met Glu Gly Lys 660 665 670 GAA CCT GCA ACT GGA GCC AAG AAG AGT AAC AAG CCA AAT GAA CAG ACA 2193 Glu Pro Ala Thr Gly Ala Lys Lys Ser Asn Lys Pro Asn Glu Gin Thr 675 690 695 AGT AAA AGA CAT GAC AGC GAT ACT TTC CCA GAG CTG AAG TTA ACA AAT 2231 Ser Lys Arg His Asp Ser Asp Thr Phe Pro Glu Leu Lys Leu Thr Asn 690 695 700 85 829 ΕΡ 699 754/ΡΤ

GCA CCT GGT TCT TTT ACT AAG TGT TCA AAT ACC AGT GAA CTT AAA GAA 2279 Ala ?ro Gly Ser Phe Thr Lys Cys Ser Asn Thr Ser Glu Leu Lys Glu 705 710 715 720 τττ GTC AAT CCT AGC CTT CCA AGA GAA GAA AAA GAA GAG AAA CTA GAA 2327 Phe Vai Asn Pro Ser Leu Pro Arg Glu Glu Lys Glu Glu Lys Leu Glu 725 730 735 ACA GTT AAA GTG TCT AAT AAT GCT GAA GAC CCC AAA GAT CTC ATG TTA 2375 Thr Vai Lys Vai Ser Asn Asn Ala Glu Asp Pro Lys Asp Leu Met Leu 740 74S 750 AGT GGA .GAA AGG GTT TTG CAA ACT. GAA AGA TCT GTA GAG AGT ACC AGT 2423 Ser Gly Glu Arg Vai Leu Gin Thr Glu Arg Ser Vai Glu Ser Ser Ser 755 760 765 ATT TC A TTG GTA CCT GGT ACT GAT TAT GGC ACT CAG GAA AGT ATC TCG 2471 Ile Ser Leu Vai Pro Gly Thr Asp Tvr Gly Thr Gin Glu Ser Ile Ser 770 775 780 TTA CTG GAA GTT AGC ACT CTA GGG AAG GCA AAA ACA GAA CCA AAT AAA 2519 Leu Leu Glu Vai Ser Thr Leu Gly Lys Ala Lys Thr Glu Pro Asn Lys 79 5 790 795 800 TGT GTG AGT CAG TGT GCA GCA TTT GAA AAC CCC AAG GGA CTA ATT CAT 2567 Cys Vai Ser Gin Cys Ala Ala Phs Glu Asn Pro Lys Gly Leu Ile His 305 310 315 GGT TGT TCC AAA GAT AAT AGA ΛΛ1 GAC ACA GAA GGC ijtf-irn AAG TAT CCA 2615 Gly Cys Ser Lys Asp Asn Arg Asn Asp Thr Glu Gly pV>A Lys Tyr Pro 820 825 830 TTG GGA CAX GAA GTT AAC CAC AGT CGG GAA ACA AGC ATA GAA ATG GAA 2663 Leu C-ly Kis Glu Vai Asn His Ser Arg Glu Thr Ser Ile Glu Mec Glu GAA AGT GAA CTT GAT GCT CAG TAT TTG CAG AAT ACA TTC AAG GTT TCA 2711 Glu Ser Glu Leu Asp Ala Gin Tyr Leu Gin Asn Thr Phe Lys val Ser 850 855 860 AAG CGC CAG TCA TTT GCT CCG TTT TCA AAT CCA GGA AAT GCA GAA GAG 2759 Lys Arg Gin Ser Phe Ala Pro Phe Ser Asn Pro Gly Asn Ala Glu Glu 865 870 875 880 GAA TGT GCA ACA TTC TCT GCC CAC TCT GGG TCC TTA AAG AAA CAA AGT 2607 Glu Cys Ala Thr Phe Ser Ala His Ser Gly Ser Leu Lys Lys Gin Ser 885 890 895 CCA AAA GTC ACT GAA TGT GAA CAA AAG GAA GAA AAT CAA GGA AAG Pro Lys val Thr Phe Glu Cys Glu Gin Lys Glu Glu Asn Gin Gly 17 ·< IA 900 905 910 AAT GAG TCT AAT ATC AAG CCT GTA CAG ACA GTT AAT ATC ACT GCA GGC Asn Glu Ser Asn Ile Lys Pro Val Gin Thr Val Asn Ile Thr Ala Gly 915 920 925 127 127 85 829 ΕΡ 699 754/ΡΤ τττ CCT GTG GTT GGT CAG AAA GAT AAG CCA GTT GAT AAT GCC AAA TGT 2951 Phe Pro Vai Vai Gly Gin Lys Asp Lys Pro Vai Asp Asn Ala Lys Cys 930 • 935 94 0 AGT ATC AAA GGA GGC TCT AGG ΤΤΓ TGT CTA TCA TCT CAG TTC AGA GGC 2999 Ser Ile Lys Gly Gly Ser Arg Phe Cys Leu Ser Ser Gin Phe Arg Gly 945 950 955 960 AAC GAA ACT GGA CTC ATT ACT CCA AAT AAA CAT GGA CTT TTA CAA AAC 3047 AS η Glu Thr Gly Leu Ile Thr Pro Asn Lys His Gly Leu Leu Gin Asn 965 970 975 CÇA TAT CGT ATA CCA CCA CTT TTT CCC ATC AAG TCA TTT GTT AAA ACT 309S Pro Tyr Arg Ile Pro Pro Leu Phe Pro Ile Lys Ser Phe Vai Lys Thr 980 985 990 AAA .TGT AAG AAA AAT CTG CTA GAG GAA AAC *ττΤ GAG GAA CAT TCA ATG 3143 Lys Cys Lys Lys Asn Leu Leu Glu Glu Asn Phe Glu Glu Kis Ser MeC 995 1000 1005 TCA CCT GAA AGA GAA ATG GGA AAT GAG AAC ATT CCA AGT ACA GTG AGC 3191 Ser Pro Glu Arg Glu MeC Gly Asn Glu Asn Ile Pro Ser Thr Vai Ser 1010 1015 1020 ACA Ai t AGC CGT AAT AAC ATT AGA GAA AAT GTT TTT AAA GAA GCC AGC 3239 Thr Ile Ser Arg Asn Asn Ile Arg Glu Asn Vai Phe Lys Glu Ala Ser 1025 1030 1035 1040 TCA AGC AAT ATT AAT GAA GTA GGT TCC AGT ACT AAT GAA GTG GGC TCC 3287 Ser Ser Asn Ile Asn Glu Vai Gly Ser Ser Thr Asn Glu Vai Gly Ser 1045 1050 1055 AGT ATT AAT GAA ATA. GGT TCC AGT GAT G-rvA. AAC ATT CAA GCA GAA CTA 3335 Ser Ile Asn Glu Ile Gly Ser Ser Asp Glu Asn ile Gin Ala Glu Leu 1060 1065 1070 GGT AGA AAC AGA GGG CCA AAA TTG AAT GCT ATG CTT AGA TTA GGG GTT 3383 Gly Arg Asn Arg Gly Pro Lys Leu Asn Ala Met Leu Arg Leu Gly Vai 1075 1080 1085 TTG CAA CCT GAG GTC TAT AAA CAA AGT CTT CCT GGA AGT AAT TGT AAG 3431 Leu Gin Pro Glu Vai Tyr Lys Gin Ser Leu Pro Gly Ser Asn Cys Lys 1090 1095 1100 CAT CCT GAA ATA AAA AAG CAA GAA TAT GAA GAA GTA GTT CAG ACT GTT 3479 His Pro Glu Ile Lys Lys Gin Glu Tyr Glu Glu Vai Vai Gin Thr Vai 1105 1110 1115 1120 AAT ACA GAT TTC TCT CCA TAT CTG ATT TCA GAT AAC TTA GAA CAG CCT 3527 Asn Thr Asp Phe Ser Pro Tyr Leu Ile Ser Asp Asn Leu Glu Gin Pro 1125 1130 1133 ATG GGA AGT AGT CAT GCA TCT CAG GTT TGT TCT GAG ACA CCT GAT GAC 3575 MeC Gly Ser Ser His Ala Ser Gin Vai Cys Ser Glu Thr Pro Asp Asp 1140 1145 1150 128 85 829 ΕΡ 699 754/ΡΤ CTG TTA GAT GAT GGT GAA ATA AAG GAA GAT ACT AGT TTT GCT GAA AAT 3623 Leu Leu Asp Asp Gly Glu Ile Lys Glu Asp Thr Ser Phe Ala Glu Asn 1155 1160 1165 GAC ATT AAG GAA AGT TCT GCT GTT TTT AGC AAA AGC GTC CAG AAA GGA 3671 Asp Ile Lys GlU Ser Ser Ala Vai Phe Ser Lys Ser Vai Gin Lys Gly 1170 1175 1180 GAG CTT AGC AGG AGT CCT AGC CCT TTC ACC CAT ACA CAT TTG GCT CAG 37X9 Glu Leu Ser Arg Ser Pro Ser Pro Phe Thr His Thr His Leu Ala Gin 1185 1190 1195 1200 GGT TAC CGA AGA GGG GCC AAG AAA TTA GAG TCC TCA GAA GAG AAC TTA 3767' Gly Tyr Arg Gly Ala. Lys Lys Leu Glu Ser Ser Glu Glu Asn Leu 1205 1210 1215 TCT AGT GAG GAT GAA GAG CTT CCC TGC TTC CAA CAC TTG TTA TTT GGT 3815 Ser Ser Glu Asp Glu Glu Leu Pro Cys Phe Gin His Leu Leu Phe Gly 1220 1225 1230 AAA GTA AAC AAT ATA CCT TCT CAG ACT ^ rvuvj CAT AGC ACC GTT GCT 3863 Lys Vai Asn Asn Ile Pro Ser Gin Ser Thr Arg His Ser Thr Vai Ala 1235 1240 1245 ACC GAG TGT CTG TCT AAG AAC ACA GAG GAG AAT TTA TTA TCA TTG AAG 3911 Thr Glu CVS Leu Ser Lys Asn Thr Glu Glu Asn Leu Leu Ser Leu Lys 125C 1 1255 1260 AAT AGC TTA ΛΛ. GAC TGC AGT AAC CAG GTA ATA TTG GCA AAG GCA TCT 3959 Asn Ser Leu Asn Asp Cys Ser Asn Gin Vai Ile Leu Ala Lys Ala Ser 1265 1270 1275 1280 CAG GArt CAT CAC CTT AGT GAG GAA ACA AAA TGT TCT GCT AGC TTG TTT 4007 Gin Glu Kis His Leu Ser Glu Glu Thr Lys Cys Ser Ala Ser Leu Phe 1285 1290 1295 TCT TCA CAG TGC AGT GAA TTG GAA GAC TTG ACT GCA AAT ACA AAC ACC 4055 Ser Ser Gin Cys Ser Glu Leu Glu Asp Leu Thr Ala Asn Thr Asn Thr 1300 1305 1310 CAG GAT CCT TTC TTG ATT GGT TCT TCC AAA CAA ATG AGG CAT CAG TCT 4103 Gin Asp Pro Phe Leu Ile Gly Ser Ser Lys Gin Met Arg His Gin Ser 1315 1320 1325 GAA AGC CAG GGA GTT GGT CTG AGT GAC AAG GAA TTG GTT TCA GAT GAT 4151 Glu Ser Gin Gly Vai Gly Leu Ser Asp Lys Glu Leu Vai Ser Asp Asp 1330 1335 1340 GAA GAA AGA GGA ACG GGC TTG GAA GAA AAT AAT CAA GAA GAG CAA AGC 4199 Glu Glu Arg Gly Thr Gly Leu Glu Glu Asn Asn Gin Glu Glu Gin Ser 1345 1350 1355 1360 ATG GAT TCA AAC TTA GGT GAA GCA GCA TCT GGG TGT GAG AGT GAA ACA 4247 Met Asp Ser Asn Leu Gly Glu Ala Ala Ser Gly Cys Glu Ser Glu Thr 1365 1370 1375

85 829 ΕΡ 699 754/ΡΤ 129 AGC GTC TCT GAA GAC TGC TCA GGG CTA TCC TCT CAG AGT GAC ATT TTA 4295 Ser Vai Ser Glu Asp Cys Ser Gly Leu Ser Ser Gin Ser Asp Ile Leu 1380 1385 1390 ACC ACT CAG CAG AGG GAT ACC ATG CAA CAT AAC CTG ATA AAG CTC CAG 4343 Thr Thr Gin Gin Arg Asp Thr Met Gin His Asn Leu Ile Lys Leu Gin 1395 1400 1405 CAG GAA ATG GCT GAA CTA GAA GCT GTG TTA GAA CAG CAT GGG AGC CAG 4391 Gin Glu Met Ala Glu Leu Glu Ala Vai Leu Glu Gin His Gly Ser Gin 1410 1415 1420 CCT TCT AAC AGC TAC CCT TCC ATC ATA AGT GAC TCT TCT GCC err GAG 4439 Pro Ser Asn Ser Tyr Pro Ser Ile Ile Ser Asp Ser Ser Ala Leu Glu 1425 1430 1435. 1440 GAC CTG CGA AAT CCA GAA CAA AGC ACA TCA GAA AAA GCA GTA TTA ACT 4487 Asp Leu Arg Asn Pro Glu Gin Ser Thr Ser Glu Lys Ala Vai Leu Thr 1445 1450 1455 TC A CAG AAA *» Γ*9** *\\J 1 AGT GAA TAC CCT ATA AGC CAG AAT CCA GAA GGC CTT 4535 Ser Gin Lys Ser Ser Glu Tyr Pro Ile Ser Gin Asn Pro Glu Gly Leu 1460 1465 1470 TCT GCT GAC AAG TTT GAG GTG TCT GCA GAT AGT TCT ACC AGT AAA AAT 4583 Ser Ala Asp Lys Phe Glu Vai Ser Ala Asp Ser Ser Thr Ser Lys Asn 1475 14 S0 1485 AAA GAA CCA GGA GTG GAA AGG TCA TCC CCT TCT AAA TGC CCA TCA TTA 4631 Lys Glu Pro Gly Vai Glu Arg Ser Ser Pro Ser Lys Cys Pro Ser Leu 1450 1495 1500 GAT GAT AGG TGG TAC ATG CA C AGT TGC TCT GGG AGT CTT CAG AAT AGA 4679 Asp Asp Arg Trp Tyr Met His Ser Cys Ser Gly Ser Leu Gin Asn Arg 1505 1510 1515 1520 AAC TAC CCA TCT CAA GAG GAG CTC ATT AAG GTT GTT GAT GTG GAG GAG 4727 Asn· Tyr Pro Ser Gin Glu Glu Leu Ile Lys Vai Vai Asp Vai Glu Glu 1525 1530 1535 CAA CAG CTG GAA GAG TCT GGG CCA CAC GAT TTG ACG GAA ACA TCT TAC 4775 Gin Gin Leu Glu Glu Ser Gly Pro His Asp Leu Thr Glu Thr Ser Tyr 154 0 1545 1550 TTG CCA AGG CAA GAT CTA GAG GGA ACC CCT TAC CTG GAA TCT GGA ATC 4323 Leu Pro Arg Gin Asp Leu Glu Gly Thr Pro Tyr Leu Glu Ser Gly Ile 1555 1560 1565 AGC CTC TTC TCT GAT GAC CCT GAA TCT GAT CCT TCT GAA GAC AGA GCC 4871 Ser Leu Piie Ser Asp Asp Pro Glu Ser Asp Pro Ser Glu Acp Arg Ala 1570 1 1575 1580 CCA GAG TCA GCT CGT GTT GGC AAC ATA CCA TCT TCA ACC TCT GCA TTG 4919 Pro Glu Ser Ala Arg Vai Gly Asn Ile Pro Ser Ser Thr Ser Ala Leu 1595 159C ) 1595 1600 130 8b 829

EP 699 754/PT AAA GTT CCC CAA TTG AAA GTT GCA GAA TCT GCC CAG AGT CCA GCT GCT 4967 Lys Vai Pro Gin Leu Lys Vai Ala Glu Ser Ala Gin Ser Pro Ala Ala 1605 1610 1615 GCT CAT ACT ACT GAT ACT GCT GGG TAT AAT GCA ATG GAA GAA AGT GTG 501S Ala His Thr Thr Asp Thr Ala Gly Tyr Asn Ala Met Glu Glu Ser Val 1620 1625 1630 AGC AG5 GAG AAG CCA GAA TTG ACA GCT TCA ACA GAA AGG GTC AAC AAA 5063 Ser Arg Glu Lys Pro Glu Leu Thr Ala Ser Thr Glu Arg Val Asn Lys 1635 1640 1645 AGA ATG TCC ATG GTG GTG TCT" GGC' CTG ACC CCA GAA GAA TTT ATG CTC 5111 Arg Met Ser Met Vai Vai Ser Gly Leu Thr Pro Glu Glu Phe Met Leu ISSO 1655 1660 GTG TAC AAG TTT GCC AGA AAA CAC CAC ATC ACT TTA ACT AAT CTA ATT 5159 Vai Tyr Lys phe Ala Arg Lys His His Ile Thr Leu Thr Asn Leu Ile 1665 1670 167' 1680 ACT GAA GAG ACT ACT CAT GTT GTT ATG AAA ACA GAT GCT GAG TTT GTG 5207 Thr Glu Glu Thr Thr His Vai Vai Met Lys Thr Asp Ala Glu Phe Val 1685 1690 169! TGT GAA CGG ACA CTG AAA TAT TTT CTA GGA ATT GCG GGA GGA AAA TGG 5255 Cvs Glu Arg Thr Leu Lys Tyr Phe Leu Gly Ile Ala Gly Gly Lys Trp 1700 1705 1710 GTA GTT AGC fr*% ry, Irvi TTC TGG GTG ACC CAG TCT ATT AAA GAA AGA AAA ATG 5303 Vai Vai Ser Tyr Phe Trp Vai Thr Gin Ser Ile Lys Glu Arg Lys Met 1715 1720 1725 CTG AAT. GACJ CAT GAT TTT GAA GTC AGA GGA GAT GTG GTC AAT GGA AGA £3 = 1 Leu Asn Glu His Asp Phe Glu Vai Arg Gly Asp Vai Val Asn Gly Arg 1730 1735 1740 AAC CAC CAA GGT CCA AAG CGA GCA AGA GAA TCC CAG GAC AGA AAG ATC = 399 Asa His Gin Gly Pro Lys Arg Ala Arg Glu Ser Gin Asp Arg Lys Ile 1745 1750 1755 1760 TTC AGG GGG CTA GAA ATC TGT TGC TAT GGG CCC TTC ACC AAC ATG CCC 5447 Phe Arg Gly Leu Glu Ile Cys Cys Tyr Gly Pro Phe Thr Asn Met Pro 1765 1770 1775 ACA GAT CAA CTG GAA TGG ATG GTA CAG CTG TGT GGT GCT TCT GTG GTG 5495 Thr Asp Gin Leu Glu Trp Met Vai Gin Leu Cys Gly Ala Ser Val Val 1780 1785 1790 AAG GAG CTT TCA TCA TTC ACC CTT GGC ACA GGT GTC CAC CCA ATT GTG 5543 Lys Glu Leu Ser ser Phe Thr Leu Gly Thr Gly Val His Pro Ile Val 1795 1800 1805 GTT GTG CAG CCA GAT GCC TGG ACA GAG GAC AAT GGC TTC CAT GCA ATT 5591 Vai Vai Gin Pro Asp Ala Trp Thr Glu Asp Asn Gly Phe His Ala Ile 1810 1815 1820 131 85 829 ΕΡ 699 754/ΡΤ GGG CAG ATG TGT GAG GCA CCT GTG GTG ACC CGA GAG TGG GTG TTG GAC Gly Gin MeC Cys Glu Ala Pro Vai Vai Thr Arg Glu Trp Vai Leu Asp 1825 1330 1335 1840 AGT GTA GCA CTC TAC CAG TGC CAG GAG CTG GAC ACC TAC CTG ATA CCC Ser Vai Ala Leu Tvr Gin Cys Gin Glu Leu Asp Thr Tyr Leu Ile Pro 1345 1350 1355 CAG ATC CCC CAC AGC CAC TAC TGA CTGCAGCCrt.G CCACAGGTAC AGAGCCACAG Gin Ile Pro Eis Ser His Tyr ♦ 1360 5639 5637 5741 53C1 5361 GACCCCAAGA ATGAGCTTAC AAAG7GGCCT ITCCAGGCCC TGGGAGCTCC TCTCACTCTT CAGTCrTTCT ACTG7CCTGG CTACTAAATA TTTTATGTAC ATCAGCCTGA AAAGGACTTC TGGCTATGCA AC-GG7CCCTT AAAGATTTTC TGCTTGAAGT CTCCCTTGGA ΑΑΓ (2) INFORMAÇÃO PARA SEQ ID NO: 2: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 1864 aminoácidos (B) TIPO: aminoácido (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: proteína (xi) DESCRIÇÃO OA SEQUÊNCIA: SEQ ID NO: 2:

Met Asp Leu Ser Ala Arg Vai Glu Glu Vai Gin Asn Vai Ile nSu - 5 10 15 Ala Met Gin Lys ile Leu GlU Cys ?ro ile cys Leu Glu Leu Ile lvs 20 25 30 Glu Pro Vai Ser Thr Lys Cys Asp HÍS Ile ?*ie Cys Lys Piis Cys Met 35 40 45 Leu Lys Leu Leu Asn Gin Lys Lys Gly Pro Ser Gin Cys Pro Leu Cys 50 55 60 Lys Asn Asp Ile Thr Lys Arg Ser Leu Gin Glu Ser Thr Arg Phe Ser 65 70 75 80 Gin Leu Vai Glu Glu Leu Leu Lys Ile Ile Cys Ala Phe Gin Leu Asp 85 90 95 Thr Gly Leu Glu Tyr Ala Asn Ser Tyr Asn Phe Ala Lys Lys Glu Asn 100 105 110 Asn Ser Pro Glu His Leu Lys Asp Glu Vai Ser Ile Ile Gin Ser Mee 115 120 125

Gly Tyr Arg Asa Arg Ala Lys Arg Leu Leu Gin Ser Glu Pro Glu Asn 130 135 140 85 829 ΕΡ 699 754/ΡΤ 132 ST*

Pro Ser Leu Gin Glu Thr Ser Leu Ser Val Gin Leu Ser Asn Leu Gly 145 150 155 160 Thr Vai Arg Thr Leu Arg Thr Lys Gin Arg Ile Gin Pro Gin Lys Thr 165 170 175 Ser Vai Tyr Tlg Glu Leu Gly Ser Asp Ser Ser Glu Asp Thr Val Asn 180 185 190 Lys Ala Thr Tyr Cys Ser Val Gly Asp Gin Glu Leu Leu Gin Ile Thr 195 200 205 Pro Gin Gly Thr Arg Asp Glu Ile Ser Leu Asp Ser Ala Lys Lys Ala 210 215 220 Ala Cys. Glu Phe Ser Glu Thr Asp Val Thr Asn Thr Glu His His Gin 22S 230 235 240 Pro Ser Asn Asn Asp Leu Asn Thr Thr Glu Lvs Arg Ala Ala Glu Arg 245 250 255 Kis Pro Glu Lys Tyr C-ln Gly Ser Ser Val Ser Asn Leu His Val Glu 260 265 270 Pro Cys Qly Thr Asn Thr His Ala Ser Ser Leu Gin. His Glu Asn 275 2S0 285 Ser Leu Leu Leu Thr Lys Asp Arg Mec Asn Val Glu Lys Ala Glu Phe 290 255 300 Cys Asn Lys Ser Lys Gin Pro Gly Leu Ala Arg Ser Gin His Asn Arg 305 310 315 320 Trp Ala Gly Ser Lys Glu Thr Cys Asn Asp Arg Arg Thr Pro Ser Thr 325 330 335 Glu Lys Lys Val Asp Leu Asn Ala Asp Pro Leu Cys Glu Arg Lys Glu 340 345 350 Trp Asn Lys Gin Lys Leu Pro Cys Ser Glu Asn Pro Arg Asp Thr Glu 355 360 365 Asp Vai Pro Trp Ile Thr Leu Asn Ser Ser Ile Gin Lys Val Asn Glu 370 375 380 Trp Phe Ser Arg Ser Asp Glu Leu Leu Gly Ser Asp Asp Ser His Asp 385 390 395 400 Gly Glu Ser Glu Ser Asn Ala Lys val Ala Asp val Leu Asp val Leu 405 410 415 Asn Glu Vai Asp Glu Tyr Ser Gly ser Ser Glu Lys Ile Asp Leu Leu 420 425 430 133 8b 829

EP 699 754/PT

Ala Ser Asp Pro His Glu Ala Leu Ile Cys Lys Ser Glu Arg Vai His 435 440 44S Ser Lys Ser Vai Glu Ser Asn Ile Glu Asp Lys Ile Phe Gly Lys Thr 450 455 460 Tyr Arg Lys Lys Ala Ser Leu Pro Asn Leu Ser His Vai Thr Glu Asn 4 65 470 475 480 Leu Ile Ile Gly Ala Phe Vai Thr Glu Pro Gin Ile Ile Gin Glu Arg 485 490 495 Pro Leu Thr Asn Lys Leu Lys Arg Lys Arg Arg Pro Thr Ser Gly Leu 500 505 510 His Pro Glu Asp Phe Ile Lys Lys Ala Asp Leu Ala vai Gin Lys Thr 515 520 525 Pro Glu Met Ile Asn Gin Gly Thr Asn Gin Thr Glu Gin Asn Gly Gin 530 53 5 540 Vai Met Asn Ile Thr Asn Ser Gly His Glu Asn Lys Thr Lys Gly Asp Ξ4 5 550 555 560 Ser Ile Gin Asn Glvi Lys Asn Pro Asn Pro Ile Glu Ser Leu Glu Lys 565 570 575 Glu Ser Ala Phe Lys Thr Lys Ala Glu Pro Ile Ser Ser Ser Ile Ser 580 585 590 Asn Met Glu Leu Glu Leu Asn Ile His Asn Ser Lys Ala Pro Lys Lys 595 600 605 Asn Arç Leu Arg Arg Lys Ser Ser Thr Arg His Ile His Ala Leu Glu 610 615 620 Leu Vai Vai Ser Arg Asn Leu Ser Pro Pro Asn Cys Thr Glu Leu Gin 625 630 635 640 lie Asp ser cys Ser Ser Ser Glu Glu Ile Lys Lys Lys Lys Tyr Asn 645 650 65S Gin Met Pro Vai Arg His Ser Arg Asn Leu Gin Leu Met Glu Gly Lys 660 665 670 Glu Pro Ala Thr Gly Ala Lys Lys Ser Asn Lys Pro Asn Glu Gin Thr 675 680 685 Ser Lys Arg His Asp Ser Asp Thr Phe Pro Glu Leu Lys Leu Thr Asn 690 695 700 Ala Pro Gly Ser Phe Thr Lys Cys Ser Asn Thr Ser Glu Leu Lys Glu 705 710 715 720 Phe Vai Asn Pro Ser Leu Pro Arg Glu Glu Lys Glu Glu Lys Leu GlU 725 730 735

85 829 ΕΡ 699 754/ΡΤ 134 Thr Vai Lys Vai Ser Asn Asn Ala Glu Asp Pro Lys Asp Leu Met Leu 740 745 750 Ser Gly Glu Arg Vai Leu Gin Thr Glu Arg Ser Vai Glu Ser Ser Ser 755 760 765 Ile Ser Leu Vai Pro Gly Thr Asp Tyr Gly Thr Gin Glu Ser Ile Ser 770 775 780 Leu Leu Glu Vai Ser Thr Leu Gly Lys Ala Lys Thr Glu Pro Asn Lys 785 790 795 800 Cys Vai Ser Gin Cys Ala Ala Phe Glu Asn Pro Lys Gly Leu Ile His 805 810 815 Gly Cys Ser Lys Asp Asn Arg Asn Asp Thr Glu Gly Phe Lys. Tyr Pro 820 825 830 Leu Gly Kis Glu Vai Asn His Ser Arg Glu Thr Ser Ile Glu Met Glu 335 840 845 Glu Ser Glu Leu Asp Ala Gin Tyr Leu Gin Asn Thr Phe Lys Vai Ser 850 855 860 Lys ηΓ2 Glr. Ser Phe Ala Pro Phe Ser. Asr. Pro Gly As r. Ala Glu Glu 865 870 875 880 Glu Cys Ala Thr Phe Ssr Ala Kis Ser Gly Ser Leu Lys Lys Gin Ser 385 890 895 Pro Lys Vai Thr Phe Glu Cys Glu Gin Lvs Glu Glu Asn Gin Gly Lys 900 905 910 Asn Glu Scr Asn ile Lys Pro Vai Gin Thr Vai Asn Ile Thr Ala Gly 91S 920 925 Phe Pro Vai Vai Gly Gin Lys Asp Lys Pro Vai Asp Asn Ala Lys Cys 930 935 940 Ser Ile Lys Gly Gly Ser Arg Phe Cys Leu Ser Ser Gin Phe Arg Gly 945 950 955 960 Asn Glu Thr Gly Leu Ile Thr Pro Asn Lys His Gly Leu Leu Gin Asn 965 970 975 Pro Tyr Arg Ile Pro Pro Leu Phe Pro Ile Lys Ser Phe Vai Lys Thr 980 985 990 Lys Cys Lys Lys Asn Leu Leu Glu Glu Asn Phe Glu Glu His Ser Met 995 1000 1005 Ser Pro Glu Arg Glu Met Gly Asn Glu Asn Ile Pro Ser Thr Vai Ser 1010 1015 1020

Thr Ile Ser Arg Asn Asn Ile Arg Glu Asn Vai Phe Lys Glu Ala Ser 1025 1030 1035 1040 135 85 829 ΕΡ 699 754/ΡΤ

Ser Ser Asn Ile Asn Glu Vai Gly Ser Ser Thr Asn Glu Vai Gly Ser 1045 1050 1055 Ser lie Asn Glu Ile Gly Ser Ser Asp Glu Asn Ile Gin Ala Glu Leu 1060 1065 1070 Gly Arg Asn Arg Gly Pro Lys Leu Asn Ala Met Leu Arg Leu Gly Vai 1075 1080 108S Leu Gin Pro Glu Vai Tyr Lys Gin Ser Leu Pro Gly Ser Asn Cys Lys 1090 . 109S 1100 nis Pro Glu Ile Lys Lys Gin Glu Tyr Glu Glu Vai Vai Gin Thr Vai 110S 1110 1115 1120 Asn Thr Asp Phe Ser Pro Tyr Leu Ile Ser Asp Asn Leu Glu Gin Pro 1125 1130 1135 Met Gly Ser Ser His Ala Ser Gin Vai Cys Ser Glu Thr Pro Asp Asp 1140 1145 1150 Leu Leu Asp Asp Gly Glu Ile Lys Glu Asp Thr Ser Phe Ala Glu Asn 1155 1160 1165 Asp Ile Lys Glu Ser Ser Ala Vai phe Ser Lys Ser Vai Gin Lys Gly 1170 1175 1180 Glu Leu Ser ser Pro Ser Pro Phe Thr His Thr His Leu Ala Gin 1185 1190 1195 1200 Gly Tyr Arg Arg Gly Ala Lys Lys Leu C-lu Ser Ser Glu Glu Asn Leu 1205 1210 1215 Ser Ser Glu Asp Glu Glu Leu Pro Cys Phe Gin His Leu Leu Phe Gly 1220 1225 1230 Lys Vai Asn Asn Ile Pro Ser Gin Sâ2T Thr Arg His Ser Thr Vai Ala 123' 1240 1245 Thr Glu Cys Leu Ser Lys Asn Thr Glu Glu Asn Leu Leu Ser Leu Lys 1250 1255 1260 Asn Ser Leu Asn Asp Cys Ser Asn Gin Vai Ile Leu Ala Lys Ala Ser 1265 1270 1275 1280 Gin Glu His His Leu Ser Glu Glu Thr Lys Cys Ser Ala Ser Leu Phe 1285 1290 1295 Ser Ser Gin Cys Ser Glu Leu Glu Asp Leu Thr Ala Asn Thr Asn Thr 1300 1305 1310 Gin Asp Pro Phe Leu Ile Gly Ser Ser Lys Gin Met Arg His Gin Ser 1315 1320 1325

Glu Ser Gin Gly vai Gly Leu Ser As? Lys Glu Leu Vai Ser Asp Asp 1330 1335 1340

Glu Glu Arg Gly Thr Gly Leu Glu Glu Asn Asn Gin Glu Glu Gin Ser 1345 1350 1355 1360 Met Asp Ser Asn Leu Gly Glu Ala Ala Ser Gly Cys Glu Ser Glu Thr 1365 1370 1375 Ser Vai Ser Glu Asp Cys Ser Gly Leu Ser Ser Gin Ser Asp Ile Leu 1380 1385 1390 Thr Thr Gin Gin Arg Asp Thr Met Gin His Asn Leu Ile Lys Leu Gin 1395 1400 1405 Gin Glu Mét Ala Glu Leu Glu Ala Val Leu Glu Gin ΗΪ3 Gly Sor Glzi 1410 1415 1420 Pro Ser Asn Ser Tyr Pro Ser Ile Ile Ser Asp Ser Ser Ala Leu Glu 1425 1430 1435 1440 A.sp Leu Arg Asn Pro Glu Gin Ser Thr Ser Glu Lys Ala Val Leu Thr 1445 1450 1455 Ser Gin Lys Ser Ser Glu Tyr Pro Ile Ser Gin Asn Pro Glu Gly Leu 1450 1465 1470 Ser Ala Asp Lys Phe Glu Vai Ser Ala Asp Ser Ser Thr Ser Lys Asn 1475 1480 1485 Lys Glu Pro Gly Vai Glu Arg Ser Ser Pro Ser Lys Cys Pro Ser Leu 1490 1 149: Z 1500

Asd Aso virg Trp Tyr Met HiS Ser Cys Ser Gly Ser Leu Gin Asn Arg 1505 1510 ISIS 1520 Asn Tyr Pro Ser Gin Glu Glu Leu Ile Lys Val Val Asp Val Glu Glu 1525 1530 1535 Gin Gin Leu Glu 'Glu Ser Gly Pro His Asp Leu Thr Glu Thr Ser Tyr 1540 1545 1550 Leu Pro Arg Gin Asp Leu Glu Gly Thr Pro Tyr Leu Glu Ser Gly Ile 1555 1560 1565 Ser Leu Phe Ser Asp Asp Pro Glu ser Asp Pro Ser Glu Asp Arg Ala 1570 1575 1580 Pro Glu Ser Ala Arg Val Gly Asn Ile Pro Ser Ser Thr Ser Ala Leu 1585 1590 1595 1600 Lys Val Pro Gin Leu Lys Val Ala Glu Ser Ala Gin Ser Pro Ala Ala 160S íeio 1615 Ala His Thr Thr Asp Thr Ala Gly Tyr Asn Ala Met Glu Glu Ser Val 1620 1625 1630 Ser Arg Glu Lys Pro Glu Leu Thr Ala Ser Thr Glu Arg Val Asn Lys 1635 1640 1645 137 85 829 ΕΡ 699 754/ΡΤ

Arg Met 1630 Ser Mec Val Vai Ser Giv 1633 leu Thr O u n. Glu ' 166 0 1663^ " Lys Ala Arr 1=71 lys His 3 His Ile Thr Leu. 1 1S7S 71r Glu Glu TÍ1^ HÍ.S 1=35 Val vai Mec lys 1330 l Asp Cys Glu Arg Thr leu 1700 lys Τ'/r Phe leu Gly 1703 ** Λ rwa Val Vai Ser Tyr T*-·^ Vai Thr Gla Ser T*. a Lys 1713 1720 1723 :.63(3 1710 lau As η Glu Hi s Asp Phe Glu Vai Arg Gly Asp Vai Vai Asa Gly Arg 1720 1733 1740

Asa Kis Glu Gly ?rs lys Aup Ala Arg Glu Ser G^a Asp Arg uys — .730

^75S 1.300 _30g

Val Vai Gla Prc Asp Ala 7— Thr Glu Asp Asa Gly Phe His Ala 21a 1510 1313 1520

Gly Gla Mec 1323 Cys Glu Ala Pro 1320 Vai Vai Thr Arg Glu 1533 Trp Val leu Asp 1340 Ser Vai Ala i^eu Tyr Gla Cys 1345 Gla Glu leu 1330 Asp Thr Tyr leu Ile 2ro

Gin Ile ?ro His Ser His Tyr * 1360 (2) INFORMAÇÃO PARA SEQ ID NO: 3: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 20 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens 85 829 ΕΡ 699 754/ΡΤ 138

(νίί) FONTE IMEDIATA:

(Β) CLONE: s754 A (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 3: 20

CTAGCCTGGG CAACAAACGA (2) INFORMAÇÃO PARA SEQ ID NO: 4: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 20 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(III) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (vii) FONTE IMEDIATA:

(B) CLONE: s754 B (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 4: GCAGGAAGCA GGAATGGAAC 20 (2) INFORMAÇÃO PARA SEQ ID NO: 5: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 20 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(B) CLONE: s975 A 85 829 ΕΡ 699 754/ΡΤ 139

(xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 5: TAGGAGATGG ATTATTGGTG 20

(2) INFORMAÇÃO PARA SEQ ID NO: 6: (j) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 20 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO

(vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (vii) FONTE IMEDIATA: (B) CLONE: s975 B (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 6: AGGCAACTTT GCAATGAGTG 20

(2) INFORMAÇÃO PARA SEQ ID NO: 7: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 22 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (vii) FONTE IMEDIATA: (B) CLONE: tdj1474 A (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 7:

CAGAGTGAGA CCTTG I CTCA AA 22 85 829 ΕΡ 699 754/ΡΤ 140 (2) INFORMAÇÃO PARA SEQ ID NO: 8: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 23 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (vii) FONTE IMEDIATA:

(B) CLONE: tdj1474 B (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 8: TTCTGCAAAC ACCTTAAACT CAG (2) INFORMAÇÃO PARA SEQ ID NO: 9: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 20 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (vii) FONTE IMEDIATA:

(B) CLONE: tdj1239 A (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 9: AACCTGGAAG GCAGAGGTTG (2) INFORMAÇÃO PARA SEQ ID NO: 10: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 21 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear

20 141 8b 829

EP 699 754/PT (ii) TIPO DE MOLÉCULA: ADN (genómico)

(BI CLONE: tdj1239 B

(xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 10: TCTGTACCTG CTAAGCAGTGG (2) INFORMAÇÃO PARA SEQ ID NO: 11: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 111 pares de base3 (A) TIPO: ácido nucleico (B) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADNc

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (ix) CARACTERÍSTICA PRINCIPAL:

(A) NOME/CHAVE: CDS (B) LOCALIZAÇÃO: 2..111 (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 11: G GXC TTA CTC TGT TGT CCC AGC TGG AGT A CA CWC TGC CAT CAT GAG Xaa Leu Leu Cys Cys Pro Ser Trp Ser Thr Xaa Cys Asp His Glu 1865 1870 1375

GCT TAC TGT TGC TTG ACT CCT AGG CTC AAG CGA TCC TAT CAC CTC AGT

Ala Tyr Cys Cys Leu Thr Pro Arg Leu Lys Arg Ser Tyr Kis Leu Ser 1880 188S 1890 1895

CTC CAA GTA GCT GGA CT

Leu Gin Vai Ala Gly 1900

85 829 ΕΡ 699 754/ΡΤ (2) INFORMAÇÃO PARA SEQ ID NO: 12: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 36 aminoácidos (B) TIPO: aminoácido (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: proteína (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 12:

Xaa 1 Leu Leu Cys Cys 5 Pro Ser Trp Ser Thr 10 Xaa Cys Asp His Glu 15 Ala Tyr Cys Cys Leu 20 Thr Pro Arg Leu Lys 25 Arg Ser Tyr His Leu 30 Ser Leu Gin Vai Ala Gly (2) INFORMAÇÃO PARA SEQ ID NO: 13: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 1534 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 13: GAGGCTAGAG GGCAGGCACT TTATGGCAAA CTCAGGTAGA ATTCTTCCTC TTCCGTCTCT 60 TTCCTTTTAC GTCATCGGGG AGACTGGGTG GCAATCGCAG CCCGAGAGAC GCATGGCTCT 120 TTCTGCCCTC CATCCTCTGA TGTACCTTGA TTTCGTATTC TGAGAGGCTG CTGCTTAGCG ISO GTAGCCCCTT GGTTTCCGTG GCAACGGAAA AGCGCGGGAA TTACAGATAA ATTAAAACTG 240 CGACTGCGCG GCGTGAGCTC GCTGAGACTT CCTGGACCCC GCACCAGGCT GTGGGGTTTC 300 TCAGATAACT GGGCCCCTGC GCTCAGGAGG CCTTCACCCT CTGCTCTGGG TAAAGGTAGT 360 AGAGTCCCGG GAAAGGGACA GGGGGCCCAA GTGATGCTCT GGGGTACTGG CGTGGGAGAG 420 TGGATTTCCG AAGCTGACAG ATGGGTATTC TTTGACGGGG GGTAGGGGCG GAACCTGAGA 480 85 829ΕΡ 699 754/ΡΤ 143

GGCGTAAGGC GTTGTGAACC CTGGGGAGGG GGGCAG777G XAGGTCGCGA GGGAAGCGCT S40 GAGGATCAGG AAGGGGGCAC 7GAG7GTCCG 7GGGGGAA7C C7CGTGA7AG GAAC7GGAA7 600 ATGCCTTGAG GGGGACACTA TGTC777AAA AACG7CGGC7 GGTCATGAGG 7CAGGAGTTC 660 CAGACCAGCC TGACCAACG7 GGTGAAAC7C CG7C7C7AC7 ArtAAATACÍA ãAaTTAGCCG 720 GGCGTGGTGC CGCTCCAGCT ACTCAGGAGG CTGAGGCAGG AGAATCGC7A GAACCCGGGA 780 GCAGTGAGCC GAGA7CGCGC CAT7GCAC7C CAGCC7GGGC GACAGAGCGA 340 GAC7G7C7CA AAACAAAACA AAACAAAACA AAACAAAAAA CACCGGC7GG 900 AGGATGGGAC C77G7GGAAG AAGAGG7GCC AGGAA7A7G7 CTGGGAAGGG GAGGAGACAG 260 GAT777G7GG 77AAGAAC7G GA7CCA777G CGCCA77GAG AAAGCGCAAG 1020 AGGAGCG7CA G7AG7AACAG A7GC7GCCGG CAGGGA7GT G C77GAGGAGG 1030 A7 C CAG AG A7 GAGAGCAGG7 CAC7GGGAAA A AtíliM^ Çsvs X 1 GGGGAGGCC7 7GA77GG7G7 1140 TGG7TTGC-7C G77G77GA77 T7GG7777A7 G Cj^AG ΑλΑΑλ GAAAACAACC AGAAACA77G 1200 (2) INFORMAÇÃO PARA SEQ ID NO: 14: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 1924 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANI I-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens

GAGAAAGC7A 77 G GAGAAAG G77G7C7AAT ΤΤ \-7TC7GGT 7GA7AAAATG AATG7GT7AA

AGGC7ACCAC GAAAAGACCC TnCAAAfiAG C 77G7A77A7T AAG77G7CA7 AG7TCA77GG

CACC7ACCCG G7CAGTCAC7 CC7CTG7AGC TTTCTCTTTC AAGGGG77GG CAG CGATATC TGAw^»w\i ^ AACTTC7AGA A7C777AAAA ATAAãGGACG 77G7CA7TAG CTAAAACCTC C CAAA7CTTC AAAJi"- - AC77 TA»11!1 T JAAAA Vi liílAntvwVJ n;nlAiA^Ai Ails^ í i I iU- AACAGAAAGA AATG 1260 1320 1380 1440 1500 1534

85 829 ΕΡ 699 754/ΡΤ 144 (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 14: GAGGCTAGAG GGCAGGCACT TTATGGCAAA CTCAGGTAGA ATTCTTCCTC TTCCGTCXCT 60 TTCCTTTTAC GXCATCGGGG AGACTGGGTG GCAATCGCAG CCCGAGAGAC GCATGGCTCT 120 TTCTC-CCCTC TGTACCTTGA TGAGAGGCTG CTGCTTAGCG ISO GTAGCCCCTT GGTTTCCGTG GCAACGGAAA agcgcgccaa. TTACAGATAA ATTAAAACTG 240 CGACTGCGCG GCG7GAGCTC GC7GAGACTT CCTGGACCCC GCACCAGGCT G7GGGGTTTC 300 TCAGATAACT GGGCCCC7GC GCTCAGGAGG CCTTCACCCT CTGCTCTGGG TAAAGGTAGT 360 AGAG7CCCGG GAAAGGGACA GGGGGCCCAA GTGATGCTCT' GGGGTACTGG CGTGGGAGAG 420 TGGATTTCCG AAGCTGACAG A7GGG7ATTC TTTGACGGGG GGTAGGGGCG GAACCTGAGA 480 GGCGTAACGC GTTGTGAACC CTGGGGAGGG GGGCAGTT7G TAGGTCGCGA GGGAAGCGCT 540 GAGGATCAGG AAGGGGGCAC TGAGTGTCCG TGGGGGAA7C CTCG7GATAG GAACTGGAAT 500 A7GCCT7GAC- GGGGACACTA TGTC777AAA AACGTCGGCT GG7CA7GAGG TCAGGAGTTC 660 CAGACCAGCC 7GACCAACG7 GG7GAAACTC CGTC7C7ACX AAAAATACIÍA AAAT7AGCCG 720 GGCGTGGXGC CGCTCCAGCT ACTCAGGAGG C7GAGGCAGG AGAATCGCTA GAACCCGGGA 780 GGCGGAGGTT GCAGTGAÇ3CC GAGATCGCGC CAT7GCAC7C CAGCCTGGGC GACAGAGCGA 840 GAC7G7C7CA AAACAAAhCA AAACAAAACA .-i^-iACAítAriAA CACCGGC7GG TA7GTATGAG 900 AGGAXGGGAC CT7G7GGAAG AAGAGGXGCC AGGAATA7GT CTGGGAAGGG GAGGAGACAG 960 GATTX7GTGG GAGGGAGAAC TTAAGAACTG GA7CCAT77G CGCCA7TGAG AAAGCGCAAG 1020 AGGGAAG7AG AGGAGCG7CA GTAGTAACAG A7GC7GCCGG CAGGGA7GTG C77GAGGAGG 1080 A7CCAGAGA7 GAGAGCAGGT CACTGGGAAA GGT7AGGGGC GGGGAGGCCT TGATTGGTGT 1140 TGGTTTGGTC GT7GTTGATT TTGGTTTTAX GCAAGAAAAA GAAAACAACC AGAAACATTG 1200 GAGAAAGCTA AGGCTACCAC CACCTACCCG GTCAGTCACT CCTCTGTAGC TTTCTCTTTC X260 T7GGAGAAAG GAAAAGACCC AAGGGG77GG CAGCGA7A7G TGAAAAAATT CAGAATTTAT 1320 GTTG7CTAAT 7ACAAAAAGC AACTTCTAGA ATCTTXAAAA ATAAAGGACG TTGTCATTAG 1380 7TCTTCTGGT 77GTATTATT CTAAAACCTT CCAAA7CTTC AAATTTACTT TATTTTAAAA 1440 TGATAAAATG AAG7TGTCAT TTTATAAACC TTTTAAAAAG ATATATATAT ATGTTTTTCT 1500 AA7GTG77AA AG7TCATTGG AACAGAAAGA AATGGA7TTA TCTGCTCTTC GCG7TGAAGA 1560 AGTACAAAAT GTCATTAATG CTA7GCAGAA AATCTTAGAG TGTCCCATCT GGTAAGTCAG 1620

CACAAGAGTG TATTAATTTG GGATTCCTAT GAXTATCTCC TATGCAAATG AACAGAATTG ISSO ACCTTACA7A CTAGGGAAGA AAAGACATGT CTAGTAAGAT TAGGCTAT7G TAATTGCTGA 1740 TTTTCTTAAC TGAAGAACTT TAAAAATATA GAAAATGATT CCTTGTTCTC CATCCACTCT 1800 GCCTCTCCCA ctcctctcçt tttcaacaca atcctgtggt CCGGGAAAGA CAGGGCTCTS 1860 TC7TGATTGG TTCTGCACTG GGCAGGATCT GTTAGATACT GCATTTGCTT TCTCCAGCTC 1320

TAAA (2) INFORMAÇÃO PARA SEQ ID NO: 15: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 631 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómioo)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 15: AAATGCTGAT GATAG7ATAG AG7ATTGAAG GGATCAATAT AAT7C7GTT7 TGA7A7C7GA 50 AAGGTA-AGGA TCGTATTC7C TGCTGTATTC TCAGTTCCTG ACACAGGAGA 120 Ολ'ΓΤΤλλΤΛΛ ATATTGAACG AACTTGAGGC CTTATGTTGA CTCAG7CATA ACAGCTCAAA iao GTTGAAC7TA TTCACTAAGA ATAGCTTTAT TTTTAAATAA ATTATTGAGC CTCA77TATT 240 CCCCCCCCTA CCCTGCTAGT CTGGAGTTGA TCAAGGAACC TGTCTCCACA 300 AAGTGTGACC ACATATTTTG CAAGTAAGTT TGAATGTGTT ATGTGGCTCC ATTATTAGCT 360 τττστττττσ tccttcataa CCCAGGAAAC ACCTAACTTT ATAGAAGCTT TACTTTCTTC 420 AATTAAGTGA GAACGAAAAT CCAACTCCAT TTCATTCTTT CTCAGAGAGT ATATAGTEAT 480 CAAAAGTTGG TTGTAATCAT AGTTCCTGGT AAAGTTTTGA CATATATTAT CTTTTTTTTT 540 TTTTGAGACA AGTCTCGCTC TGTCGCCCAG GCTGGAGTGC AGTGGCATGA GGCTTGCTCA 600 CTGCACCTCC GCCCCCGAGT TCAGCGACTC T 631 85 829 ΕΡ 699 754/ΡΤ 146 (2) INFORMAÇÃO PARA SEQ ID NO: 16: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 481 pares de bases (B) TIPO: ácido nuuleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 16:

eo 120 ISO 240 200 250 420 4SQ 431 (2) INFORMAÇÃO PARA SEQ ID NO: 17: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 522 pares de bases (B) TIPO: ácido nucleico (C) CADFIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens

60 120 ISO 240 200 360 · 420 4S0 Ξ 22 85 829 ΕΡ 699 754/ΡΤ 147 (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 17:

TGTCATCATA ACAGTAACCC ATATGCATCT AACTTCAGTT TTCATAGATC ATTGCTTATG 7AG77TAGGT TTTTGCTTAT C-CAGCATCCA AAAACAATTA GGAAACTATT GCT7GTAATT CACCTGCCAT TACT7TTTAA ATGGCTCTTA AGGGCAGTTG TGAGATTATC TTTTCATGGC TATTTGCCTi' TTGAG7A7TC TTTCTACAAA AGGAAGTAAA T7AAAT7GTT CTTTCTTTC7 ΤΓΑΤΑΑΤΤΤΑ TAGATTT7GC ATGC7GAAAC TTCTCAACCA GAAGAAAGGG CCTTCACAC-T GTCCTTTATG TAAGAATC-AT A7AACCAAAA GGTATATAAT‘ TTGGTAATGA TGCTAGGTTG GAAGCAACCA CAGTAGGAAA AAGTAGAAAT TATTTAA7AA CATAGCGT7C C7#x-Arw%CC ATTCA7CAGA ΑΑΑΑΤΤΤΑΓΑ AAAGAGTT77 TAGCACACAG TAAATTATTT CCAAAGTTAT T7TCC7GAAA GTTT7ATGGG CATCTGCCTT ATACAGGTAT TG (2) INFORMAÇÃO PARA SEQ ID NO: 18: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 465 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(ni) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 18: GGTAGGCTTA AATGAATGAC AAAAAG7TAC TAAATCACTG CCATCACACG GTTEATACAG 60 ATG7CAATGA TGTATTGATT ATAGAGGTTT TCTACTGTTG CTGCATCTTA TTTTTATTTG 120 TTTACATGTC TTTTCTTATT TTAGTGTCC7 TAAAAGGTTG A7AATCACTT GCTGAGTGTG 180 TTTCTCAAAC ΑΑΤΓΤΑΑΤΤΤ CAGGAGCCTA CAAGAAAGTA CGAGATTTAG TCAACTTGTT 240 GAAGAGCTAT TGAAAA7CAT TTGTGCTTTi- CAGCTTGACA CAGGTTTGGA GTGTAAGTGT 300 TGAATATCCC AAGAATGACA CTCAAGXGCT GTCCATGAAA ACTCAGGAAG TTTGCACAAT 360 TACTTTCTAT GACGTGGTGA 7AAGACCTTT TAGTCTAGGT TAATTTTAGT TCTGTATCTG' 420 85 829 ΕΡ 699 754/ΡΤ 148 TAATCTATT7 ΤΑΑΑΑΑΑΤΤΑ CTCCCACTGG TCTCACACCT ΤλΓΓΤ (2) INFORMAÇÃO PARA SEQ ID ΝΟ: 19: |i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 513 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 19:

4S3 SO 120 ISO 240 300 230 420 480 513

AA CAAAGAGCAT ACATAGGG": AU.WUWlU Λ·ΛΛ*^* AAACCAAAA TAACTCTCCT

SlTCAC aggtaacctt aatgcagtgt ctta; m CTT i G.nTT.n 'irti\TTCriTAC λΊ CCC^TG^n· — m ·ACr>C<->*CC rwi GAACATCÃAA AAGATGAAGT TTCTATCATC CAAAGTATGG GCTACAGAAA CCGTGCCAJ AGAC77C7AC AGAGTGAACC CGAAAATCCT TCCTTGGTAA AACCATTTGT TTTCTTTCTTv TTC7TCTTCT TCTTTTCTTT TTTTTTTCTT XTTTTTTTTG AGATGGAGTC TTGCTCTGTG GCCCAGGC7A GAAGCAGTCC TCCTGCCTTA GCGICCTTAG TAGC7GGGA7 TACAGGCACG CGCACCA7GC CAGGCTAATT 777G7A7TT7 TAGTAGAGAC GGGG777CA7 CATGTTGGCC AGGCTGGTCT CGAACTCCTA ACC7CAGG7G ATC rcrc (2) INFORMAÇÃO PARA SEQ ID NO: 20: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 6769 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO

85 829 ΕΡ 699 754/ΡΤ 149 (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (Xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 20: ATGATGGAGA TCTTAAAAAG TAATCATTCT GGGGCTGGGC GTAGTAGCTT GCACCTGTAA 60 TCCCAGCACT TCGGGAGGCT GAGGCAGGCA GATAATTTGA GGTCAGGAGT TTGAGACCAG 120 CCTGGCCAAC ATGGTGAAAC CCATCTCTAC TAAAAATACA AAAATTAGCT GGGTGTGGTG 180 GCACGTACCT GTAATCCCAG CTACTCGGGA GGCGGAGGCA CAAGAATTGC TTGAACCTAG 240 GACGCGGAGG TTGCAGCGAG CCAAGATCGC GCCACTGCAC TCCAGCCTGG GCCGTAGAGT. 300 GAGACTCTGT CTCAAAAAAG AAAAAAAAGT AATTGTTCTA GCTGGGCGCA GTGGCTCTTG 360 CC7GTAATCC CAGCACTTTG GGAGGCCAAG GCGGGTGGAT CTCGAGTCCT AGAGTTCAAG 420 ACCAGCCTAG GCAATGTGGT GAAACCCCAT CGCTACAAAA AATACAAAAA TTAGCCAGGC 460 ATGGTGGCGT GCGCATGTAG TCCCAGCTCC TTGGGAGGCT GAGGTGGGAG GATCACTTGA 540 ACCCAGGAGA CAC-AGGTTGC AGTGAACCGA GATCACGCCA CCACGCTCCA GCCTGGGCAA 600 CAG.-vACAkG^v CTCTGTCTAA AAAAATACAA ATAAAATAAA AGTAGTTCTC ACAGTACCAG 660 CATTCATTTT TCAAAAGATA TAGAGCTAAA AAGGAAGGAA AAAAAAAGTA AÍUí AV7V7V3V.A, 720 ΤΤΤΑλκΤΑΟΤ CGTTCCTATA CTAAATGTTC TTAGGAGTGC TGGGGTTTTA TTGTCATCAT 730 TTATCCTTTT TAAAAATGTT ATTGGCCAGG CACGGTGGCT CATGGCTGTA ATCCCAGCAC 840 TTTGGGAGGC CGAGGCAGGC AGATCACCTG AGGTCAGGAG TGTGAGACCA GCCTGGCCAA 900 CATGGCGAAA CCTGTCTCTA CTAAAAATAC AAAAATTAAC TAGGCGTGGT GGTGTACGCC 960 TGTAGTCCCA GCTACTCGGG AGGCTGAGGC AGGAGAATCA ACTGAACCAG GGAGGTGGAG 1020 GTTGCAGTGT GCCGAGATCA CGCCACTGCA CTCTAGCCTG GCAACAGAGC AAGATTCTGT 1080 CTCAAAAAAA AAAAACATAT ATACACATAT ATCCCAAAGT GCTGGGATTA CATATATATA 1140 TATATATATA TATTATATAT ATATATATAT ATATATGXGA TATATATGTG ATATATATAT 1200 AACATATATA TATGTAATAT ATATGTGATA TATATATAAT ATATATATGT AATATATATG 1260 TGATATATAT ATATACACAC ACACACACAT ATATATGTAT GTGTGTGTAC ACACACACAC 1320 ACAAATTAGC CAGGCATAGT TGCACACGCT TGGTAGACCC AGCTACTCAG GAGGCTGAGG 1380 GAGGAGAATC TCTTGAACTT AGGAGGCGGA GGTTGCAGTG AG CTG AG ATT GCGCCACTGC 1440 ACTCCAGCCT GGGTGACAGA GCAGGACTCT GTACACCCCC CAAAACAAAA AAAAAAGTTA 1S00

85 829 ΕΡ 699 754/ΡΤ 150 TCAGATGTGA TTGGAATGTA TATCAAGTAT CAGCTTCAAA ATATGCTATA TTAATACTTC 1560 AAAAATTACA CAAATAATAC ATAATCAGGT TTGAAAAATT TAAGACAACM SAARAAAAAA 1620 WYCMAATCAC AMATATCCCA CACATTTTAT TATTMCTMCT MCWATTATTT TGWAGAGMCT 1680 GGGTCTCACV CVXTTGCTWA TGCTGGTÇTT TGAACYCCYK GCCY CAAR.CA RTCCTSCTCC 1740 ABCCTCCCAA RGTGCTGC-GG ATWATAGGCA TGARCTAACC GCACCCAGCC CCAGACATTT 1300 TAGTGTGTAA ATTCCTGGGC ATTTTTTCAA GGCATCATAC ATGTTAGCTG ACTGATGATG 1960 GTCAATTTAT TTTGTCCATG GTGTCAAGTT TCTCTTCAGG AGGAAAAGCA CAGAACTGGC 1320 CAACAATTGC TTGACTGTTC TTTACCATAC TGTTTAGCAG GAAACCAGTC TCAGTGTCCA 1380 ACTCTCTAAC CTTGGAACTG TGAGAACTCT GAGGACAAAG CAGCGGATAC AACCTCAAAA 2040 GACGTCTGTC TACATTGAAT TGGGTAAGGG TCTCAGGTTT TTTAAGTATT ΤΑΑΤΑΛΤΛΛΤ 2100 TGCTGGATTC CTTATCTTAT AGTTTTGCCA AAAATCTTGG TCATAATTTG TATTTGTGGT 2160 siOowuj'·· u; GGG^-AG i Ολλ TTTTATGAGC CClnTGlj GTTATAAAAA ATGTAAAAGA 2220 CGCAGTTCCC ACCTTGAAGA ATCTTACTTT AAAAAGGGAG CAAAAGAGGC CAGGCATGGT 2280 GGCTCACACC TGTAATCCCA GCACTTTGGG AGGCCAAAGT GGGTGGATCA CCTGAGGTCG 2340 GGAGTTCGAG ACCAGCCTAG CCAACATGGA GAAACTCTGT CTGTACCAAA AAATAAAAAA 2400 TTAGCCAGGT GTGGTGGCAC ATAACTGTAA TCCCAGCTAC TCGGGAGGCT GAGGCAGGAG 2460 AATCACTTGA ACCCGGGAGG TGGAGGTTGC GGTGAACCGA GATCGCACCA TTGCACTCCA 2520 GCCTGGGCAA AAATAGCGAA ACTCCATCTA ΑΑΑΑΑΑΑΑΑΑ AGAGAGCAAA AGAAAGAKTM 2560 TCTGGTTTTA AKTMTGTGTA AATATGTTTT TGGAAAGATG GAGAC-TAGCA ATAAGAAAAA 2640 ACATGATGGA TTGCTACAGT ATTTAGTTCC aagataaatt GTACTAGATG AGGAAGCCTT 2700 TTAAGAAGAG CTGAATTGCC AGGCGCAGTG GCTCACGCCT GTAATCCCAG CACTTTGGGA 2760 GGCCGAGGTG GGCGGATCAC CTGAGGTCGG GAGTTCAAGA CCAGCCTGAC CAACATGGAG 2820 AAACCCCATC TCTACTAAAA ΆΑΑΑΑΑΑΆΑΑ AAAAATTAGC CGGGGTGGTG GCTTATGCCT 2880 GTAATCCCAG CTACTCAGGA GGCTGAGGCA GGAGAATCGC TTGAACCCAG GAAGCAGAGG 2940 TTGCAGTGAG CCAAGATCGC ACCATTGCAC TCCAGCCTAG GCAACAAGAG TGAAACTCCA 3000 TCTCAAAAAA AAAAAAAAAG AGCTGAATCT TGGCTGGGCA GGATGGCTCG TGCCTGTAAT 3060 CCTAACGCTT TGGAAGACCG AGGCAGAAGG ATTGGTTGAG TCCACGAGTT TAAGACCAGC 3120 CTGGCCAACA TAGGGGAACC CTGTCTCTAT TTTTAAAATA ATAATACATT TTTGGCCGGT 3180

85 829 ΕΡ 699 754/ΡΤ 151 GCGGTGGCTC ATGCCTGTAA 7CCCAA7AC7 77GGGAGGC7 GAGGCAGG7A GA7CACCTGA 3240 GGTCAGAGTT CGAGACCAGC CTGGA7AACC 7GG7GAAACC CC7C7T7AC7 AAAAATACAA 3300 ΑΑΑΑΑΑΑΑΑΑ AAATTAGCTG GG7G7GG7AG CACA7GC77G 7AA7CCCAGC 7AC7TGGGAG 3360 GCTGAGGCAG GAGAA7CGC7 7GAACCAGGG AGGCGGAGGT TACAA7GAGC CAACAC7ACA 3420 CCACTGCACT CCAGCCTGGG CAA7AGAG7G AGAC7GCA7C 7CAAAAAAAT AA7AA7TTTT 3480 ΑΑΑΑΑΤΑΑΤΑ AATTTTTTTA AGC7TA7AAA AAGAAAAG77 GAGGCCAGCA 7AG7AGCTCA 3S40 CATCTGTAAT .CTCAGCAGTG GCAGAGGATT GCTTGAAGCC AGGAGTTTGA GACCAGCCTG 3600 GG CAACATAG CAAGACCTCA 7C7C7ACAAA AAAATT7C7T 7777AAA77A GCTGGGTGTG 3660 GTGGTG7GCA 7C7G7AG7CC CAGC7AC7CA GGAGGCAGAG G7GAG7GGA7 ACATTGAACC 3720 CAGGAG777G AGGCTGTAGT GAGC7A7GA7 CA7GCCACTG CAC7CCAACC 7GGG7GACAG 3780 AGCAAGACCT C CAAAAAAAA AAAAAAAAGA GC7GC7GAGC 7CAGAA77CA AAC7GGGC7C 3840 TCAAATTGGA 7777C77TTA G^-vi Ιχί.1 i L η7ΑΚΐ IrtAhÁ AGGAIAGCCw-i ......... 3S00 TCCCAGGCAC CACCATCTAT 77ATCATAAC ACT7AC7G77 T^CCCCCC1^ ATGATCATAA 3 S60 ATTCC7AGAC AACAGGCATT G7AAAAA7AG 77ATAGTAG7 7GA7AT77AG GAGCAC77AA 4020 C7A7A77CCA GGCACTATTG 7GC7777C77 G7ATAAC7C.T. T7AGA7Gv- λ 7 G7CAGACC7C 4080 7GAGA77G77 CCTA7TATAC 77A7777ACA GA7GAGAAAA TTAAGGCACA GAGAAG7TAT 4140 GAAATTTT? C CAAGGTATTA AACCTAGTAA GTGCCTGAGC CATGATTCAA ACCTAGGAAG 4200 TTj-.G>«.TG ι Ολ GAGCC7G7GC 777777777G 777TTG7777 TG7TTTCAGT AGAAACGGGG 4260 GTCTCAC7TT G77GGCCAGG C7GG7C7TGA AC7 CC7AACC TCAAA7AA7C CACCCA7C7C 4320 GGCCTCCTCA AG7GC7GGGA 77ACAGG7GA GAGCCAC7G7 GCC7GGCGAA GCCCATGCCT 4380 TTAACCACTT C7C7G7A77A CA7AC7AGC7 7AAC7AGCA7 TGTACC7GCC ACAG7AGA7G 4440 CTCAGTAAAT ATTTCTAGTT GAATATCTGT 77TTCAACAA GTACATTTTT TTAACCCTTT 4500 TAATTAAGAA AACT777A77 GATT7A7TT7 77GGGGGGAA AT777T7AGG A7CTGATTCT 4560 TCTGAAGATA CCG77AA7AA GGCAAC77AT TGCAGG7GAG TCAAAGAGAA CCTTTGTC7A 4620 TGAAGCTGGT A77T7CC7A7 77AG77AA7A 77AAGGA77G A7G777C7CT C77T7TAAAA 4680 A7A7777AAC T777A7777A GG77CAGGGA 7G7A7G7GCA G777G77A7A 7AGG7AAACA 4740 CACGACTTGG GA7TTGG7GT ATAGATTTTT TTCATCA7CC GGG7ACTAAG CATACCCCAC 4800

AGTTTTTTGT TTGCTTTCTT 7C7GAA7T7C TCCCTCTTCC CACCTTCCTC CCTCAAGTAG 4860

85 82Θ ΕΡ 699 754/ΡΤ 152

GCTGGTGTTT CTCCAGACTA GAATCATGGT ATTGGAAGAA ACCTTAGAGA TCATCTAGTT 4920 TAGTTCTCTC ATTTTATAGT GGAGGAAATA CCCTTTTTGT TTGTTGGAT7 TAGTTATTAG 4980 CACTGTCCAA AGGAATTTAG GATAACAGTA GAACTCTGCA CATGCTTGCT TCTAGCAGAT 5040 TGTTCTCTAA GTTCCTCATA TACAGTAATA TTGACACAGC AGTAATTGTG ACTGATGAAA 5100 ATCTTCAAGQ ACTTCATTTT CAACTCTTTC TTTCCTCTGT T C CTTATTT C CACATATCTC 51G0 TCAAGCTTTG TCTGTATGTT ATATAATAAA CTACAAGCAA CCCCAACTA7 GTTACCTACC 5220 TTCCTTAGGA ATTATTGCTT GACCCAGGTT ΤΤΤΤΤΤΠΤΤ TTTTT7TGGA GACGGGG7CT 5280 TGCCCTGTTG CCAGGATGGA GTGTAGTGGC GCCATCTCGG CTCACTGCAA TCTCCAACTC 5340 CCTGGTTCAA GCGATTCTCC TGTCTCAATC 7CACGAGTAG C7GGGAC7AC AGGTATACAC 5400 CACCnCGCCC GGTTAATTGA CCATTCCA7T TCTT7C77TC 7CTC777777 ΤΤΤΤΤΤΤΤΤΓ S460 TTGAGACAGA G7C7TGCTCT GTTGCCCAGG C7GGAG7ACA GAGGTGTGAT CTCACCTCTC S520 CGCAACGTCT GrrrrrrAGG TTGAAGCCAT ACTCCTGCC7 CAGCCTG7C7 AGTAGCTGGG 5590 /\C CGCGCCACCA CACCCGGC7A ATTTTTG7A7 TTTTAGTAGA GATGGGGTTT 5540 CACCATGTTG GCCAGGCTGG 7CTTGAACTC A7GACC7CAA GTGGTCCACC CGCCTCAGCC 5700 TCCCAAAGTG C7GGAATTAC AGGCTTGAGC CACCG7GCCC AGCAACCATT TCATTTCAAC 5760 TAGAAGTT7C TAAAGGAGAG AGCAGCTTTC ACTAACTAAA TAAGATTGGT CAGCTTTCTG 5320 TAATCGAAAG AGC7AAAATG T7TGATCTTG GTCATTTGAC AGTTCTGCAT ACATGTAACT 5880 AGTGTTTCTT A7TAGGACTC TGTCTTTTCC CTATAGTGTG GGAGATCAAG AATTGTTACA 5940 AATCACCCCT CAAGGAACCA GGGATGAAAT CAGTTTGGAT TCTGCAAAAA AGGGTAATGG 6000 CAAAGTTTGC CAACTTAACA GGCACTGAAA AGAGAGTGGG TAGATACAGT ACTGTAATTA 6060 GATTATTCTG AAGACCAT77 GGGACCTTTA CAACCCACAA AA7CTCTTGG CAGAGTTAGA 6120 GTATCATTCT CTGTCAAATG TCGTGGTATG GTCTGATAGA TTTAAATGGT ACTAGACTAA 6180 TGTACCTATA ATAAGACCTT CTTGTAACTG ATTGTTGCCC TTTCGCTTTT TTTTTTGTTT 6240 GTTTGTTTGT TTTTTTTTGA GATGGGGTCT CACTCTGTTG CCCAGGCTGG AGTGCAGTGA 6300 7GCAATCTTG GCTCACTGCA ACCTCCACCT CCAAAGGCTC AAGCTATCC7 CCCACTTCAG 6360 CCTCCTGAGT AGC7GGGACT ACAGGCGCAT GCCACCACAC CCGGTTAATT TTTTGTGGTT 6420 TTATAGAGAT GGGGTTTCAC CATGTTACCG AGGCTGGTCT CAAACTCCTG GACTCAAGCA 6480 GTCTGCCCAC TTCAGCCTCC CAAAGTGCTG CAGTTACAGG CTTGAGCCAC TGTGCCTGGC 654C 153 85 829 ΕΡ 699 754/ΡΤ

CTGCCCTTTA CTTTTAATTG GTGTATTTGT GTTTCATCTT TTACCTACTG GTTTTTAAAT ATAGGGAG7G GTAAGTCTGT AGATAGAACA GAGTATTAAG TAGACTTAAX GGCCAGTAAT CTTTAGAGTA CATCAGAACC AGTTTTCTGA TGGCCAATCT GCTTTTAATT CACTCTTAGA CGTTAGAGAA ATAGGTGTGG TTTCTGCATA GGGAAAATTC TGAAAÂTAA (2) INFORMAÇÃO PARA SEQ ID NO: 21: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 4249 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUENCIA: SEQ ID NO: 21:

GA7CCTAAGT GG.-xAATAATC TAGG7AAA7A GGAATTAAA7 GAAAGAGTAX GAGC7ACAXC TTCAG7A”AC TTGGTAGTT7 ATGAGGTTAG T7TC7CTAAT ATAGCCAGTT GGTTGA7TTC CACCTCCAAG GTGTATGAAG TATGTAXTTT TTTAATGACA ATTCAGTTTT TGAGTACGTT GTTATTTTTG TA.ATTTTCA GCTGCTTGTG AATTTTCTGA GACGGATG7A ACAAATACTG AACATCATCA ACCCAGTAAT AATGATTTGA ACACCACTGA GAAGCGTGCA GCTGAGAGGC ATCCAGAAAA GTATCAGGGT AGTTCTGTTT CAAACTTGCA TGTGGAGCCA TGTGGCACAA ATACTCATGC CAGCTCATTA CAGCATGAGA ACAGCAGTTT AT7ACTCACT AAAGACAGAA

TGAATG7AGA AAAGGCTGAA TTCTGTAATA AAAGCAAACA GCCTGGCTTA GCAAGGAGCC

aacataacag ATGGGCTGGA AGTAAGGAAA catgtaatga TAGGCGGACT CCCAGCACAS AAAAAAAGGT AGATCTGAAT GCTGATCCCC TGTGTGAGAG AAAAGAATGG AATAAGCAGA AACTGCCATG CTCAGAGAAT CCTAGAGATA CTGAAGATGT TCCTTGGATA ACACTAAAXA GCAGCATTCA GAAAGTTAAT GAGTGGTTTT CCAGAAGTGA TGAACTGTTA GGTTCTGATG ACTCACATGA TGGGGAGTCT GAATCAAATG CCAAAGTAGC TGATGTATTG GACGTTCIAA SÓOO 6660 S720 5759 €G 120 ISO 240 300 360 420 480 S40 soa 660 720 780

A7GAGG7AGA TGAATATTCT GG77CT7CAG AGAAAA7AGA C77AC7GGCC AGTGATCC7C 840 ATGAGGCTTT AATATGTAAA AGTGAAAGAG 7TCAC7CCAA A7CAG7AGAG AGTAATATTG 900 AAGGCCAAAT ATTTGGGAAA ACCTATCGGA AGAAGGCAAG CCTCCCCAAC TTAAGCCATG 960 TAACTGAAAA TCTAATTATA GGAGCAT77G 77ACTGAGCC ACAGA7AA7A CAAGAGCGTC 1020 CCCTCACAAA TAAATTAAAG CG7AAAAGGA GACCTACATC AGGCC77CAT CC7GAGGATT 1080 TTATCAAGAA AGCAGAT77G GCAG7TCAAA AGAC7CC7GA AATGA7AAA7 CAGGGAAC7A 1140 ACCAAACGGA GCAGAATGGT CAAG7GA7GA A7A77AC7AA 7AG7GG7CA7 GAGAATAAAA 1200 GAAAAGGx GA TTC7ATTCAG AA7GAGAAAA A7CC7AACCC ’ AA7AGAA7CA CTCGAAAAAG 2.260 AATCTGCTTT CAAAACGAAA GC7GAACC7A .rtAGCAGCAG TA7AAGCAA7 A7GGAACTCG 1320 AATTAAATAX CCACAATTCA AAAGCACCTA ArvAAGAATAG GCTGAGGAGG AAGTCTTCTA 1380 CCAGGCATAT 7CA7GCGC77 GAAC7AG7AG 7CAGTAGAAA TC7AAGCCCA CC7AA7TG7A 1440 CTGAA77GCA A-iT - G.-.7AGT TG77CTAGCA G7GAAGAGA7 AAAGAAAAAA nnGirtCAACC 1500 AAATGCCAGT CAGGCACAGC AGAAACC7AC * · rnf****t ru-*í- x GrvXGvjA AGGTAAAGAA CC7GCAACTG ISSO GAGCCAAGAA GAG7AACAAG C Cnnn X G*\AC AGACAAG7AA AAGACA7GAC AGCGA7ACT7 1520 TCCCAGAGCT GAASTTAACA AATGCACCTG GTTCTTTTAC TAAGTGTTCA AATACCAGTG 1S30 AACTTAAAGA A777G7CAAT CC7AGCCTTC CAAGAGAAGA AAAAGAAGAG AACTAGAAAC 1740 AGTTAAAG7G 7CTAA7AA7G C7GAAGACCC CAAAGATC7C ATGTTAAG7G GAGAAAGGG7 1800 TTTGCAAACT GAAAGA7CTG TAGAGAGTAG CAG7A7TTCA 77GG7ACC7G G7AC7GAT7A 1860 TGGCACTCAG GAAAGTATCT CG77ACTGGA AG77AGCAC7 C7AGGGAAGG CAAAAACAGA 1920 ACCAAATAAA TGTGTGAGTC AGTG7GCAGC A7T7GAAAAC CCCAAGGGAC TAATTCATGG 1980 TTGTTCCAAA GATAATAGAA ATGACACAGA AGGCT77AAG 7A7CCA77GG GACA7GAAGT 2040 TAACCACAGT CGGGAAACAA GCA7AGAAAT GGAAGAAAG7 GAACTTGATG CTCAGTATTT 2100 GCAGAATACA TTCAAGGTTT CAAAGCGCCA GTCA777GC7 CCG7TT7CAA ATCCAGGAAA 2160 TGCAGAAGAG GAATGTGCAA CAT7GTC7GC CCAC7C7GGG 7CC77AAAGA AACAAAGTCC 2220 AAAAGTCACT 7T7GAATGTG AACAAAAGGA AGAAAATCAA GGAAAGAATG AG7CTAATAT 2280 CAAGCCTGTA CAGACAGTTA ATATCACTGC AGGC777CC7 G7GG77GG7C AGAAAGATAA 2340 GCCAGTTGAT AA7GCCAAAT GTAGTATCAA AGGAGGC7C7 AGGTTT7G7C TATCATCTCA 2400 GTTCAGAGGC AACGAAACTG GACTCATTAC 7CCAAATAAA CATGGAC777 TACAAAACCC 2460 85 829 ΕΡ 699 754/ΡΤ 155 ATATCGTATA CCACCAGTTT TTCCCATCAA gtcatttgtt AAAACTAAAT GTAAGAAAAA 2520 TCTGCTAGAG GAAAACTTTG AGGAACATTC AATGTCACCT GAAAGAGAAA TGGGAAATGA 25Θ0 GAACATTCCA AGTACAGTGA GCACAATTAG CCGTAATAAC ATTAGAGAAA ATGTTTTTAA 2640 AGAAGCCAGC TCAAGCAATA TTAATGAAGT AGGTTCCAGT ACTAATGAAG TGGGCTCCAG 2700 TATTAATGAA ATAGGTTCCA GTGATGAAAA CATTCAAGCA GAACTAGGTA GAAACAGAGG 2760 GCCAAAATTG AATGCTATGC TTAGATTAGG GGTTTTGCAA CCTGAGG7CT ATAAACAAAG 2820 TCTTCCTGGA AGTAATTGTA AGCATCCTGA AATAAAAAAG CAAGAATATG AAGAAGTAGT 2880 TGaGACTGTT AATACAGATT TCTCTCCATA TCTGAXTTCA' GATAACTTAG AACAGCCTAT 2940 GGGAAGTAGT CATGCATCTC AGGTTTGTTC TGAGACACCT GATGACC7GT TAGATGATGG 3000 TGAAATAAAG GAAGATACTA GTTTTGCTGA AAATGACATT AAGGAAAGTT CTGCTGTTTT 3060 TAGCAAAAGC G7CCAGAAAG GAGAGCTTAG CAGGAGTCCT AGCCCTTTCA CCCATACACA 3X20 TTTGGCTCAG GGT7ACCGAA GAGGGGCCAA GAAATTAGAG TCCTCAGAAG AGAACTTATC 3180 TAGTGAGGAT GAAGAGCTTC CCTGCTTCCA ACACTTGTTA T7TGGTAAAG 7AAACAATAT 3240 ACCTTCTCAG TCTACTAGGC A7AGCACCGT TGCXACC3AG XGXCXGXCTA aGAACACAGA 3300 GGAGAATTTA 7TATCATTGA AGAATAGCTT AAATGACTGC AGTAACCAGG TAATATTGGC 3360 AAaGGCATCT CAGGíxACATC ACCTTAGTGA GGAAACAAAA TG7TCTGCTA GC7TGTTTTC 3420 TTCACAGTGC AGTGAATTGG AAGACTTGAC TGCAAATACA AACACCCAGG ATCCTTTCTT 3480 GATTGGTTC7 TCCAAACAAA TGAGGCATCA GTCTGAAAGC CAGGGAGTTG GTCTGAGTGA 3540 CAAGGAA77G GTT7CAGATG ATGAAGAAAG TTGGAAGAAA ATAATCAAGA 3600 AGAGCAAAGC ATGGATTCAA ACTTAGGTAT TGGAACCAGG TTTTTGTGTT TGCCCCAGTC 3660 TATTTÀTAGA AGTGAGCTAA ATGTTTATGC 7TTTGGGGAG CACATTTTAC AAATTTCCAA 3720 GTATAGTTAA AGGAACTGCT TCTTAAACTT GAAACATGTT CCTCCTAAGG TGCTTTTCAT 3780 AGAAAAAAGT CCTTCACACA GCTAGGACGT CATCTTTGAC TGAATGAGCT TTAACATCCT 3840 AATTACTGGT GGACTTACTT CTGGTTTCAT TTTATAAAGC AAATCCCGGT GTCCCAAAGC 3900 AAGGAATT7A ATCATTTTGT GTGACATGAA AGTAAATCCA GTCCTGCCAA TGAGAAGAAA 3960 AAGACACAGC AAGTTGCAGC GTTTATAGTC TGCTTTTACA TCTGAACCTC TGTTTTTGTT 4020 ATTTAAGGTG AAGCAGCATC TGGG7GTGAG AGTGAAACAA GCGTCTCTGA AGACTGCTCA 4080 GGGCTATCCT CTCAGAGTGA CATTTTAACC ACTCAGGTAA AAAGCGTGTG TGTGTGTGCA 4X40 156 85 829 ΕΡ 699 754/ΡΤ

CA7GCGTGTG TGTGGTGTCC T7TGCATTCA GTAGTATGTA TCCCACATTC TTAGG7TTGC TGACATCATC TCTTTGAATT AATGGCACAA TTGTTTGTGG TTCATTGTC (2) INFORMAÇÃO PARA SEQ ID NO: 22: |i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 710 pares de bases (B) TIPO: ácido nucleico |C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (Vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens

(xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 22: NC-NGAA7G7A AGCCTAATAT GTC^CÍCGOÍA CTTAAAA.GAA 7ACCAC7CCA

AATACATCAA TCAATTGGGG --ATGGGGAT7 77CCC7CNC7 AACATCA>Í7G

VWiiAS* ·Λ«να i i i — · Gí.»">.í.Ga.í.A*A A7GGAAAGC7 TCTCAAAG7A 777CA77T7C 7TGG7ACCA7 7TA7CG7777

G\j--ti--tCCrv*« C.*wrvCAxAACC 7GA7AAAGC7 CCAGCAGGAA A7GGG7GAAC

G77AGAACA.G CATGGGAGCC AGCC7TCTAA CAGCTACCC7 TCCATCATAA

TGCCC77GAG GACCTGCGAA ATCCAGAACA AAGCACATCA GAAAAAGGTG

GCCAAACACT GATATCTTAA GCAAAATTCT TTCCTTCCCC TTTATCTCCT

AAGGACCTAG C7CCAACATT TTATGATCCT TGCTCAGCAC ATGGG7AATT

GGTTCTTGTC CCTGCTCACA ACTAATATAC CAGTCAGAGG GACCCAAGGC GTTGTCATCT GAGATACCTA CAACAAGTAG ATGCTATGGG GAGCCCATGG (2) INFORMAÇÃO PARA SEQ ID NO: 23: (i) CARACTERÍSTICAS DA SEQUENCIA: (A) COMPRIMENTO: 473 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear 4200 4249 SC 120 ISO 240 300 3S0 420 480 54 0 SOO 6S0 710 85 829 ΕΡ 699 754/ΡΤ 157 (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 23:

(2) INFORMAÇÃO PARA SEQ ID NO: 24: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 421 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) , ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 24: CCÁTAACirrc AAGAGATAττ TTGATAGSTG ATGCAGTGAT NAATTGSTGAA AATTTSXCTGC 60 CTGCTTtTAA TCTTCCCCCG TTCTTTCTTC CTNCCTCCCr CCCTTCCTNC CTCCCGTCCT 120 TNCCTTTCCT TTCCCTCCCT TCCICCTTCT TTCQrrcnrr CTTTCCTTTC TTTCCTGTCT 18 α 85 829 ΕΡ 699 754/ΡΤ 158

ACCTTTCTTT CCTTCCTCCC T7CCTT7TC7 TTTCTiTCTT TCCTTTCCTT TTCTTTCCTT 240 TCTT7CC777 CCTTTCTTTC T7GACAGAGT CTTGCTCTGT CAC7CAGGCT GGAG7GCAG7 300 GGCG7GATC7 CGNC7CAC7G CAACCTCTGT CTCCCAGGTT CAAGCAA7T? TCC7GCCTCA 360 GCCTCCGGAG TAGC7GAGAT 7ACAGGCGCC AGCCACCACA CCCAGC7AC7 GACC7GC777 420 (2) INFORMAÇÃO PARA SEQ ID NO: 25: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 997 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 25: AAACnGCTGG GAGA7ATGG7 GCC7CAGACC 7ATA7G7CAA CCCTGACATA 60 ACATGAAT C C AGAC77C7AG GCTGTCATGC GGGC7C777T 7TGCCAGTCA 120 TTT CTGAX CT CTCTGACATG AGCTGTTTCA C7TATGCTTT GGCTGCCCAG CA\C αΆΤΟ AT GSO 77G7CC777C ACAA77GG7G GCGA7GGTTT 7CTCC77CCA TAGG7CA7CC 240 CcttctAAAT GCCCATCATT AGATGATAGG TGGTACATGC ACAGTTGCTC TGGGAGTCT7 300 CAGAA7AGAA ACTÂCCCATC TCAAGAGGAG CTCATTAAGG TTGTTGATGT GGAGGAGCAA 350 CAGCTGGAAG agtctgggcc ACACGATT7G ACGGAAACAT C7TAC7TGCC AAGGCAAGAT 420 CTAGGTAATA TTTCATCTGC TGTATTGGAA CAAACACTYT GATTTTAC7C TGAA7CC7AC 480 ATAAAGATAT TC7GGTTAAC CAACTTTTAG ATG7ACTAGT CTATCATGGA CACT7T7G7T 540 ATACTTAATT AAGCCCACTT TAGAAAAATA GCTCAAGTGT TAATCAAGGT TTACTTGAAA 500 AT7A77GAAA CTGTTAATCC ATCTATATTT TAATTAA7GG TTTAAC7AAT GATTTTGAGG 650 ATGWGGGAGT OCTGGTGTAC TCTAMATGTA TTATTTCAGG CCAGGCA7AG TGGCTCACGC 720 159 85 829 ΕΡ 699 754/ΡΤ CTGG7AATCC CAG7AYYCM2. GAGCCCGAGG CAGGTGGAGC CAGCTGAGG7 CAGGAG77CA 780 AGACCTG7CT TGGCCAACAT GGGNGAAACC CTGTCTTCTT CTTAAAAAAN ACAAAAAAAA 840 TTAACTGGGT TGTGCTTAGG TGNATGCCCC GNATCCTAG7 TNTTCTTGNG GG77GAGGGA 900 GGAGA7CAG7 TTGGACCCCG GAGGGGNGGG TGGGGGNGAG CAGGiTCAAAA CACTGACCCA 960 GCTGGGG7GG AAGGGAAGCC CAC7CJAAAA AAUNTTH 997 (2) INFORMAÇÃO PARA SEQ ID NO: 26: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 639 pares de bases (B) TIPO: ácido nucleico |C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 26:

T7777AGGAA ACCCA.*.-4 60 777G7AA77C 120 CCCC7TACCT ião AAGACAGívG c 240 AAG7TCCCCA 300 ATACTGCTGG 360 C77CAACAGA 420 AA77TGTGAG 480 AGAGTTTTAT 540 CAG7TC7G7G 600 639 .-.C--AGCTAC7 77G-W--.777CC ACCAACACC7 G7A77CA7G7

C7C77AACC7 AAC777A7TG G7CTTT77AA 77C77AACAG AGACCAGAAC AACA77CA7C GT7G7G7AAA 77AAAC77CT CCCA77CCT7 XCAGAGGGAA GGAA7C7GGA ATCAGCCTC7 7C7C7GATGA CCCTGAATC7 GA7CC77C7G

CCCAGAG7CA GC7CG7GT7G GCAACATACC ATC7TCAACC TCTGCAT7GA A77GAAAGTT GCAGAATCTG CCCAGAGTCC AGCTGC7GC7 CATAC7ACTG

G7A7AA7GCA ATGGAAGAAA GTG7GAGCAG GGAGAAGCCA GAAT7GACAG AAGGGTCAAC AAAAGAATGT CCATGGTGGT GTCTGGCCTG ACCCCAGAAG TGTA7CCA7A TGTATC7CCC TAATGACTAA GACTTAACAA CATTCTGGAA G7AGG7A77G TCAAT7AATA ACCTAGAGGA AGAAATCTAG AAAACAATCA TAAT77AA7T 7CGA77ACTA A7TTCTGAAA ATTTAGAAT 85 829 ΕΡ 699 754/ΡΤ 160

(2) INFORMAÇÃO PARA SEQ ID NO: 27: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 922 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(ivj ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 27:

NCCC3NCCCC

GAGAS7??AA GTTGTTT-ΓΓ?

ACGTAGGTAA AC?C»*\ « iλ ACACCACA?C AGGTATACCA AGGCACGGTG GAGATTAGGA TGGSAAAAT7 GG CAGGAGAA NCATTCCAGC CAAATAAGAA CTTTATGAAA ATTTGGAGTG

CTAATCTGAA

7GGCCC2TTTC

GTT7GGTTAC AAATCGACT?

Λ4^«'ΛΛ1λ1 A

AC7TTAACTA

AGAACC7TTA GCGCATGCC7

GATCGAGACC

ANCTGGGTGT

TCACTTGAAC

CTGGCGACAG

TATTTGTTGA

GACAAATAAT

TGGGCCAGGC

ATGG^GuTAA TGAGGNACAií

C7CCAGCC7G

TAAÀTAGTTC ?GAx - -ATC?AAX?AC CAGAATACC? GTAATCGCAG ATCCTGGCCA GGTCGCGTGC CGGGGAAATG AGCAAGGCTC GCATAGCATG AGTTTTGCTG AC

CCCCCCCCCA . - ,ν.^ V—

z*»% z*·* r-\J A 'jnL.-VC.^C

CAGGAGrt.CGT

CTAGTATTC TGAAGAGAC? TGCATCTGC?

CACTTTGGGA

GCATGGTGAA

NCCTGTAGTC

GAGGTTTCAG

CGTCHCGIAA

GATGATAGTC

CTTCCTTACC ACCGAlíAOT?

CAGGNC-ACGT VWÍftL. - v- i «

G?AGAACG?G GTGTACAAG7 AC7CA7G77G G CATAAAACC GGCCGAGGCG ACCCCGTCTC CCAGCTACTC TGAGCAGAGA AAAATAAAAA TTCTAATAGT TCCTTTTGT?

GGGTXGGTTA

GGAi. CTA7GN 7CTAAAAAAA CAGGAT?GC? GC7AGAGG?A 7TGCCAGAAA ??ATGAAAAC ACA7GAGGCG GGCAGATCAC TACTANNAAA GTGAGGCTGA TCATUCCCCT AAAACGTGAA CAATCAATTA T7GGGTTAAG SO -20 ISO 240 300 350 420 480 540 600 660 720 780 840 900 922

GAT CTATAGC TAGCCTTGGC GTCTAGaaGa TTTCCTCTGG TCTTAACTTC GG77A7AA7T AG7GG7G7TT TCAGCCTCTG ATCCAGAT - ^ Λ - ^ . i * * A ^ /» i O TCCTC-ATTTT G777TCAACT iCTAATCC7T 7TGi GiGiGA ACGGíaCAC7G AAA7A7777C GC7A777C7G TAAGTATAAT AC7A777C7C TTTTTACACC TAACATTTAA CACC7AAGG7 AGGTCTTTAA A IWY"*'*"' ^ Τ'·* f 7AAAC7AC77 GCTGGTGATG CTGGGAAAAT GGG7C7C777 CAATGTTAGC ATATGAGCTA GGGATTTA77 NCAAACT7AT AATGTTTAAA TTAAACATCA AAGCCTTATT AAAGGGCTGT GGCTT7AGAG 7GCTC7TT7G TGAATCGCTG ACC7C7C7AT ATG7AACC7G 7CT77TCTAT GATGTCT 85 829 ΕΡ 699 754/ΡΤ 161 (2) INFORMAÇÃO PARA SEQ ID NO: 28: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 867 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 28: 7GGGTGT7GA GAAGAGGGAG 7A " q CCCC7AGAC7 TCCAAA7ATC CATACCTGCT 120 AT7C7G7CAC CAGGGG77T7 AGAA7CATAA 130 7GAGGCTCTT TAGCT7CTTA C-GACAGCAC7 240

- GrtGTGTTT? 7CA77CTGCA GA7GC7GAG7 3 C Q 7AGGAA77GC GGGAGGAAAA TGGGTAGTGA 260 CCC7CC7CCC TTTAACACC" CAGAA77GCA 420 T777GC7GA7 GC7GAG7CTG AGT7ACCAAA 430 77ATC777AA TATCACTTTG 77CAAGATAA 540 TATAACTAAT AGGACCTAAT C7GCTCC7AG 600 TAATAGTCGG CAGGAA7CCA TGTGCAS.CAG 660 ACTCTGTCTC CAGAAGGAAA CTGCTGCTAC 720 GGAAGGACCT CTCCTCTGTC ATTCTTCCTG 730 CTCCGTGAAA AGAGCACGTT CTTCTGCTGT 840 367 85 829 ΕΡ 699 754/ΡΤ 162 (2) INFORMAÇÃO PARA SEQ ID NO: 29: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 661 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 29:

jwjG Gil^·GwjG^niJiG G«v-Ci _AAAií C*—AaAGwjw—C21 .nnCiCCCw'» CCATT^IaaAA sO

j^T7GACICGGG GA77A77AAA .-GíGGGCGGG*n. AmCATTTCAC NGCCC.-—-wC-A nTrtiTGTTArt ϊ Z. Q ATTAAAACCA CCACCNCTGC NCCAaGGAGG C-AAACTC-C7G CTACAaGCC. Ta íTAAAGvrG 23 0 GC7GACC7C7 C7A7G7CG G7 GAAAaGAGCA CGT7CTTCG7 C7Gi.A7G-.n--w CCíwjíCTTTT .5 00

C7A7GA7C7C 777AGGGG7G ACCCAG-CTA T7AAAGAAAG j-wAnAA7GC7G aAíGAGwjíAtw ícO GTAC77GA7G 77ACAAACXA ACCAGAGATA 77CAT7CAG7 CA7A7.-wG77A AAArv7GTA77 420 7GC77CC77C CA7CAA7GCA CCAC777CC7 TAACAATGCA CAAATTT7CC ATGA7AA7GA 4S0 GGATCA7CAA GAATTATGCA GGCCTGCACT G7GGCTCA7A CCTATAA7CC CAGCGC7T7G S40 GGAGGC7GAG GCGCTTGGAT C Sói (2) INFORMAÇÃO PARA SEQ ID NO: 30: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 567 pares de bases • (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NAO 163 85 829 ΕΡ 699 754/ΡΤ (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (Xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 30: AATTTTTTGT ATTTTTAGTA GAGATGAGGT TCACCATGTT GGTCTAGA7C TGGTGTCGAA 60 CGTCCTGACC TCAAGTGATC TGCCAGCCTC AGTCTCCCAA AGTGCTAGGA TTACAGGGGT 120 GAGCCACTGC GCCTGGCCTG AATGCCTAAA ATATGACGTG TCTGCTCCAC TTCCATTGAA 180 GGAAGCTTCT CTTTCTCTTA TCCTGATGGG TTGTGTTTGG TTTC7TTCAG CATGATTTTG 240 AAGTCAGAGG AGATGTGGTC AA7GGAAGAA ACCACCAAGG TCCAAAGCGA GCAAGAGAA7 300 CCCAGGACAG AAAGwTAAAG * WA.W X Ww««. A CAAGTTGACA AAAATCTCAC CCCACCACTC 360 TGTA77 C CAC TCCCCTTTGC < ^ » /“* « 7G7AAGAC77 λα ;auãaaLà 420 TACACAG7GC TAGATACTT* CACACAGGTT TC77CCA7CC CA5.CCACAXA 4S0 λΑ7ΑΑG αλα7 GTCTCTACTT 7 ATGAA - GA7 AAAACTAAGA VJAl - GGw a GTGTArv 540 .Ai wn* A v». w CG7CTCGGGT TCAGA7C 557 (2) INFORMAÇÃO PARA SEQ ID NO: 31: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 633 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 31: TTGGCCTGAT TGGTGACAAA AGTGAGATGC TCAGTCCTTG AATGACAAAG AATGCCTGTA 60 GAGTTGCAGG TCCAACTACA TATGCACTTC AAGAAGATCT TCTGAAATCT AGTAGTGTTC 120 TGGACATTGG ACTGCTTGTC CCTGGGAAGT AGCAGCAGAA ATGATCGGTG GTGAACAGAA 180 GAAAAAGAAA AGCTCTTCCT TTTTGAAAGT CTGTTTTTTG AATAAAAGCC AATATTCTTT 240 85 829 ΕΡ 699 754/ΡΤ 164 CTCTTCCTCT CT7CTTCCAG 300 CCAACATGCC CACAGGTAAG 360 TTACATAGTG GAGTA7TATA 420 GTTCTAGAGG CTATTCTATT 430 CCTATGCCAA AAAAAAACTA in o GTTAGGATTC AGTATGTTAT 600 633

TATAACTAGA TTTTCCTTCT CTCCATTCCC CTGTCCCTCT ATCTTCAGGG GGCTAGAAAT CTGTTGCTAT GGGCCCTTCA AGCCTGGGAG AACCCCAGAG TTCCAGCACC AGCCTTTGTC AGCAAGGTCC CAC3ATGGC-G GTTCCTCAGA TTGCTGAAAT

TCTCTACCAC TCTCCAAACA AAACAGCACC TAAATGTTAT TACCTTGTCC CCCTTCTCAA GAGCATGAAG G7GGTTAA7A GTGTTCAGAT GGCGTTGAGC TGCTGTTAGT GCC (2) INFORMAÇÃO PARA SEQ ID NO: 32: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 470 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 32: TTTGAGAG^C TAT CAAACCT TATACCAAGT n t »<' ι*»ι·«* AGACTGATAA CCAGAG- ACA 60 TGGCATATCA GTGGCAAATT GACTTAAAAT «·· ACTATTTTAA GACCATTGTC 120 CTTTGGAGCA GAGAGACAGA CTCTCCCATT GAGAGGTCTT GCTATAAGCC TTCATCCGGA ISO GAGTGTAGGG TAGAGGGCCT GGGTTAAGTA TGCAGATTAC TGCAGTGATT TTACATGTAA 240 ATGTCCATTT TAGATCAACT GGAATGGATG GTACAGCTGT GTGGTGCTTC TGTGGTGAAG 300 GAGCTTTCAT CATTCACCCT TGGCACAGTA AGTATTGGGT GCCCTGTCAG TGTGGGAGGA 360 CACAATATTC TCTCCTGTGA GCAAGACTGG CACCTGTCAG TCCCTATGGA TGCCCCTACT 420 GTAGCCTCAG AAGTCTTCTC TGCCCACATA CCTGTGCCAA AAGACTCCAT 470 165 85 829 ΕΡ 699 754/ΡΤ (2) INFORMAÇÃO PARA SEQ ID NO: 33: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 517 parc3 dc bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens

(xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 33: GGTGGTAC3T G 7 CTGTAGTT CCAGC7AC77 G^rGAGvrv- · GA Çsa» ovjAAG\jA -ZGC77GAGC CCAGGAGGCA C-AGG7GGNAN N77ACGC7GA C-A7CACACCA CTGCACTCCÃ GCC7GGG7GA CAGAG uviort CCC7G7C7CA ««rtACAAACA .“UWWVJA · ν.Λ ^ λ» x CAnid i. UI. V.:«AU TCCTACTTTG ACAC77TGAA TGCTCTTTCC —CCTGGGGA TCCAGGG7GT CCACCCAA77 G7GG77G7GC AGCCAGATGC C i GGACAGAG G.-i.C,-uVTGGCT - '·~Λ « « ΛΛ GG7GCC7CGC - T-r·T·» GC7A77AG7G GGG7CC7TGT G CA7GGG777 GG777A7CAG 7CA77ACC7G GTGCTTGrtGT AGC.-^CrtGTTC TTGvsGACATT 7T7AAATATG TGTTGAAXGA AGGGCTAAAA TGTCTi - iTG moi.TTTAi TGi j-ATTTGx TTTaTATTGT AnAAGTAATA CATGAACTGT TTCCATGGGG TGGGAGTAAG ATATGAATGT TCATCAC 60 120 ISO 240 300 2S0 420 4S0 317 (2) INFORMAÇÃO PARA SEQ ID NO: 34: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 434 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(ív) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens 85 829 ΕΡ 699 754/ΡΤ 166

(xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 34: CCC TGGAC-TC GNTGNTTNGA GCCTAGTCQT SO TGTTCTCTGT CTCCAGCAA7 TGGGCAGATG 120 GTG TTGGACA GTGTAGCACT CTACCAGTGC 130 ATCCCCCACA GCCACTACTG ACTGCAGCCA 240 AATGAGCTTA CAAAGTGGCC A X XA.WMJVSV-'» 300 TACTG7CCTG' G CTACTAAAT ATTTTATGTA 360 AAGoGiCCCT T-nAAGATTTT CTGCT7GAAG 420

CAGTAATCCT NAGAACTCAT ACGACCGGGC GC-AGAATGAA TTGACACTAA TCTCTGCTTG TGTGAGGCAC CTGTGGTGAC CCGAGAGTGG CAGGAGCTGG ACACCTACCT GATACCCCAG GCCACAGGTA CAGAGCCACA GunC^wwinG CTGGGAGCTC CTCTCACTC7 TCAGTCCTTC CATCAGCCTS AAAAGGACTT CTGGCTATGC TCTCCGTTGG AAAT (2) INFORMAÇÃO PARA SEQ ID NO: 35: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 35: 30

GATAAATTAA AACTGCGACT GCGCGGCGTG (2) INFORMAÇÃO PARA SEQ ID NO. 36: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens 85 829 ΕΡ 699 754/ΡΤ 167

30

(xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 36: GTAGTAGAGT CCCGGGAAAG GGACAGGGGG (2) INFORMAÇÃO PARA SEQ ID NO: 37: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 37: 30

ATATATATAT GTTTTTCTAA TGTGTTAAAG (2) INFORMAÇÃO PARA SEQ ID NO: 38: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 38: GTAAGTCAGC ACAAGAGTGT ATTAATTTGG (2) INFORMAÇÃO PARA SEQ ID NO: 39: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear 30 85 829 ΕΡ 699 754/ΡΤ 168

<ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 39: TTTCTTTTTC TCCCCCCCCT ACCCTGCTAG 30

(2) INFORMAÇÃO PARA SEQ ID NO: 40: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (iv) ANTI-SENTIDO: NÃO

(vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 40: GTAAGTTTGA ATGTGTTATG TGGCTCCAATT 30

(2) INFORMAÇÃO PARA SEQ ID NO: 41: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 41:

AGCTACTTTT TTTTTTTTTT TTTGAGACAG 30

8b 829 EP 699 754/PT 169

(2) INFORMAÇÃO PARA SEQ ID NO: 42: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 42:

GTAAGTGCAC ACCACCATAT CCAGCTAAAT 30

(2) INFORMAÇÃO PARA SEQ ID NO: 43: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 43: AATTGTTCTT TCTTTCTTTA TAATTTATAG 30

(2) INFORMAÇÃO PARA SEQ ID NO: 44: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO 85 829 ΕΡ 699 754/ΡΤ 170 (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (Xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 44: GTATATAATT TGGTAATGAT GCTAGGTTGG 30 (2) INFORMAÇÃO PARA SEQ ID NO: 45: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 45: 30

GAGTGTGTTT CTCAAACAAT TTAATTTCAG (2) INFORMAÇÃO PARA SEQ ID NO: 46: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) ΓΟΝΤΕ ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 46:

GTAAGTGTTG AATATCCCAA GAATGACACT (2) INFORMAÇÃO PARA SEQ ID NO: 47: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear 171 85 829 ΕΡ 699 754/ΡΤ (ii) TIPO DE MOLÉCULA: ADN (genómico)

(ιιι) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 47: AAACATAATG TTTTCCCTTG TATTTTACAG (2) INFORMAÇÃO PARA SEQ ID NO: 48: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 48: GTAAAACCAT TTGTTTTCTT CTTCTTCTTC (2) INFORMAÇÃO PARA SEQ ID NO: 49: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 49:

TGCTTGACTG TTCTTTACCA TACTGTTTAG

85 829 ΕΡ 699 754/ΡΤ 172 (2) INFORMAÇÃO PARA SEQ ID NO: 50: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: aminoácido (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (Ui) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens 30

(xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 50: GTAAGGGTCT CAGGTTTTTT AAGTATTTAA (2) INFORMAÇÃO PARA SEQ ID NO: 51: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 51: 30

TGATTTATTT TTTGGGGGGA AATTTTTTAG (2) INFORMAÇÃO PARA SEQ ID NO: 52: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: 85 829 ΕΡ 699 754/ΡΤ 173

(Α) ORGANISMO: Homo sapiens

(ΧΪ> DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 52: GTGAGTCAAA GAGAACCTTT GTCTATGAAG 30

(2) INFORMAÇÃO PARA SEQ ID NO: 53: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 53: TCTTATTAGG ACTCTGTCTT TTCCCTATAG (2) INFORMAÇÃO PARA SEQ ID NO: 54: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear 30 TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) ΓΟΝΤΕ ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SFOIJÊNCIA: SEQ ID NO: 54: GTAATGGCAA AGTTTGCCAA CTTAACAGGC (2) INFORMAÇÃO PARA SEQ ID NO: 55: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear 30

85 829 ΕΡ 699 754/ΡΤ 174 (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 55: GAGTACCTTG TTATTTTTGT ATATTTTCAG

30 (2) INFORMAÇÃO PARA SEQ ID NO: 56:

CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear

(ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO

(vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 56: GTATTGGAAC CAGGTTTTTG TGTTTGCCCC 30 (2) INFORMAÇÃO PARA SEQ ID NO: 57: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 57:

ACATCTGAAC CTCTGTTTTT GTTATTTAAG 30

8b 829

EP 699 754/PT 175 (2) INFORMAÇÃO PARA SEQ ID NO: 58: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iií) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 58: 30

AGGTAAAAAG CGTGTGTGTG TGTGCACATG (2) INFORMAÇÃO PARA SEQ ID NO: 59: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 59: 30

CATTTTCTTG GTACCATTTA TCGTTTTTGA (2) INFORMAÇÃO PARA SEQ ID NO: 60: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: aminoácido (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOPTÉTICA: NÃO (vi) FONTE ORIGINAL: 176 85 829 ΕΡ 699 754/ΡΤ (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 60: GTGTGTATTG TTGGCCAAAC ACTGATATCT (2) INFORMAÇÃO PARA SEQ ID NO: 61: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 61:

AGTAGATTTG TTTTCTCATT CCATTTAAAG (2) INFORMAÇÃO PARA SEQ ID NO: 62: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 62:

GTAAGAAACA TCAATGTAAA GATGCTGTGG (2) INFORMAÇÃO PARA SEQ ID NO: 63: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear

85 829 ΕΡ 699 754/ΡΤ 177 (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 63: ATGGTTTTCT CCTTCCATTT ATCTTTCTAG

30 (2) INFORMAÇÃO PARA SEQ ID NO: 64: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear

(ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO

(vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 64: GTAATATTTC ATCTGCTGTA TTGGAACAAA 30

(2) INFORMAÇÃO PARA SEQ ID NO: 65: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO

(vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 65: TGTAAATTAA ACTTCTCCCA TTCCTTTCAG 30 178 85 829 ΕΡ 699 754/ΡΤ (2) INFORMAÇÃO PARA SEQ ID NO: 66: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 66: GTGAGTGTAT CCATATGTAT CTCCCTAATG (2) INFORMAÇÃO PARA SEQ ID NO: 67: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 67: ATGATAATGG AATATTTGAT TTAATTTCAG (2) INFORMAÇÃO PARA SEQ ID NO: 68: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO 179 85 829 ΕΡ 699 754/ΡΤ (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA; SEQ ID NO: 68:

GTATACCAAG AACCTTTACA GAATACCTTG (2) INFORMAÇÃO PARA SEQ ID NO: 69: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 69:

CTAATCCTTT GAGTGTTTTT CATTCTGCAG (2) INFORMAÇÃO PARA SEQ ID NO: 70: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 70:

GTAAGTATAA TACTATTTCT CCCCTCCTCC (2) INFORMAÇÃO PARA SEQ ID NO: 71: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear 85 829 ΕΡ 699 754/ΡΤ 180

(ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens

(xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 71: TGTAACCTGT CTTTTCTATG ATCTCTTTAG 30

(2) INFORMAÇÃO PARA SEQ ID NO: 72: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO

(vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 72: GTAAGTACTT GATGTTACAA ACTAACCAGA 30

(2) INFORMAÇÃO PARA SEQ ID NO: 73: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 73:

TCCTGATGGG TTGTGTTTGG TTTCTTTCAG 30 181 85 829 ΕΡ 699 754/ΡΤ (2) INFORMAÇÃO PARA SEQ ID NO: 74: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTF ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 74: GTAAAGCTCC CTCCCTCAAG TTGACAAAAA (2) INFORMAÇÃO PARA SEQ ID NO: 75: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 75: CTGTCCCTCT CTCTTCCTCT CTTCTTCCAG (2) INFORMAÇÃO PARA SEQ ID NO: 76: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: 85 829 ΕΡ 699 754/ΡΤ 182

30

(A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 76: GTAAGAGCCT GGGAGAACCC CAGAGTTCCA (2) INFORMAÇÃO PARA SEQ ID NO: 77: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 77: 30 AGTGATTTTA CATGTAAATG TCCATTTTAG (2) INFORMAÇÃO PARA SEQ ID NO: 78: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SFOUÊNCIA: SEQ ID NO: 78:

GTAAGTATTG GGTGCCCTGT CAGTGTGGGA (2) INFORMAÇÃO PARA SEQ ID NO: 79: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear 30

ΕΡ 699 754/ΡΤ 183 (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 79: TTGAATGCTC TTTCCTTCCT GGGGATCCAG

30 (2) INFORMAÇÃO PARA SEQ ID NO: 80:

(ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO

(vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 80: GTAAGGTGCC TCGCATGTAC CTGTGCTATT 30 (2) INFORMAÇÃO PARA SEQ ID NO: 81: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear

(ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 81:

CTAATCTCTG CTTGTGTTCT CTGTCTCCAG 30

85 829 ΕΡ 699 754/ΡΤ (2) INFORMAÇÃO PARA SEQ ID NO: 82: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 42 aminoácidos (B) TIPO: aminoácido (C) CADEIA: (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: péptido (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 82:

Cys 1 Pro Ile Cys Leu 5 Glu Leu Ile Lys Glu 10 Pro Vai Ser Thr Lys 15 Cys Asp His Ile Phe 20 Cys Lys Phe Cys Met 25 Leu Lys Leu Leu Asn 30 Gin Lys Lys Gly Pro 35 Ser Gin Cys Pro Leu 40 Cys Lys (2) INFORMAÇÃO PARA SEQ ID NO: 83: CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 45 aminoácidos (B) TIPO: aminoácido (C) CADEIA: (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: péptido

(iii) HIPOTÉTICA: NÃO (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 83:

Cys 1 Pro Ile Cys Leu 5 Glu Leu Leu Lys Glu 10 Pro Vai Ser Ala Asp 15 Cys Asn His Ser Phe 20 Cys Arg Ala Cys Ile 25 Thr Leu Asn Tyr Glu 30 Ser Asn Arg Asn Thr 35 Asp Gly Lys Gly Asn 40 Cys Pro Vai Cys Arg 45 185 85 829 ΕΡ 699 754/ΡΤ (2) INFORMAÇÃO PARA SEQ ID NO: 84: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 41 aminoácidos (B) TIPO: aminoácido (C) CADEIA: (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: péptido

(iii) HIPOTÉTICA: NÃO (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 84:

Cys 1 Pro Ile Cys Leu 5 Asp Met Leu Lys Asn 10 Thr Met Thr Thr Lys 15 Glu Cys Leu His Arg 20 Phe Cys Ser Asp Cys 25 Ile Vai Thr Ala Leu 30 Arg Ser Gly Asn Ly3 35 Clu Cys Pro Thr Cys 40 Arg (2) INFORMAÇÃO PARA SEQ ID NO: 85: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 42 aminoácidos (B) TIPO: aminoácido (C) CADEIA: (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: péptido

(iii) HIPOTÉTICA: NÃO (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 85:

Cys 1 Pro Vai Cys Leu 5 Gin Tyr Phe Ala Glu 10 Pro Met Met Leu Asp 15 Cys Gly His Asn Ile 20 Cys Cys Ala Cys Leu 25 Ala Arg Cys Trp Gly 30 Thr Ala Cys Thr Asn Vai Ser Cys Pro Gin Cys Arg 35 40

Lisboa, 'Í6· ^

Por MYRIAD GENETICS, INC., UNIVERSITY OF UTAH RESEARCH FOUNDATION e THE UNITED STATES OF AMERICA, representado por THE SECRETARY OF THE DEPARTMENT OF HEALTH AND HUMAN SERVICES

- O AGENTE OFI

^APjuaiu___ _£HG.# antómio jmi ----' *=-=* g-—~ Ag, .1 fr- Ind. !· dos Flores, 74 - 4.* leno LISBOA

Claims

s

85 829 EP 699 754/PT 1/4 REIVINDICAÇÕES 1. Método para diagnóstico de uma predisposição para cancro da mama e cancro do ovário num sujeito humano que compreende a determinação numa amostra de tecido do referido sujeito se existe uma alteração da linha germinativa na sequência do gene BRCA1 que codifica para um polipéptido BRCA1 possuindo a sequência de aminoácidos exposta em SEQ ID NO: 2 ou uma sequência com pelo menos 95% de identidade com essa sequência, sendo a referida alteração indicadora de uma predisposição para o referido cancro.
2. Método para diagnóstico de uma lesão num sujeito humano quanto a neoplasia associada ao locus do gene BRCA1 que compreende a determinação numa amostra da referida lesão se existe uma alteração na sequência do gene BRCA1 que codifica para um polipéptido BRCA1 possuindo a sequência de aminoácidos exposta em SEQ ID NO: 2 ou uma sequência com pelo menos 95% de identidade com essa sequência, sendo a referida alteração indicadora de neoplasia.
3. Método de acordo com a reivindicação 2 em que a referida lesão é uma lesão da mama ou do ovário.
4. Método de acordo com qualquer uma das reivindicações de 1 a 3 em que a sequência do gene BRCA1 na referida amostra é comparada com uma ou mais sequências de genes BRCA1 de tipo selvagem seleccionadas a partir da sequência exposta cm SEQ ID NO: 1 do nuclcótido 120 ao nucleótido 5708 e suas variantes alélicas de tipo selvagem.
5. Método de acordo com qualquer uma das reivindicações de 1 a 3 em que é investigada a sequência de um produto de expressão do gene BRCA1 na referida amostra.
6. Método de acordo com a reivindicação 5 em que o referido produto de expressão é ARNm.
7. Método de acordo com a reivindicação 6 em que o ARNm da referida amostra é colocado em contacto com uma sonda do gene BRCA1 sob condições adequadas para hibridação da referida sonda com um ARN

correspondendo ao referido gene BRCA1 e é determinada a hibridação da referida sonda.
8. Método de acordo com qualquer uma das reivindicações de 1 a 4 em que uma sonda do gene BRCA1 é colocada em contacto com ADN genómico isolado da referida amostra sob condições adequadas para hibridação da referida sonda com o referido gene e é determinada a hibridação da referida sonda.
9. Método de acordo com a reivindicação 7 ou na reivindicação 8 em que a referida sonda é uma sonda mutante específica para o alelo.
10. Método de acordo com a reivindicação 5 em que o referido produto de expressão é o polipéptido codificado pelo gene BRCA1 na referida amostra.
11. Método de acordo com a reivindicação 10 em que o referido polipéptido é detectado através de imunotransferência ou imunocitoquímica.
12. Método tal como reivindicado na reivindicação 10 em que é ensaiada interacção de ligação entre a proteína do gene BRCA1 isolada a partir da referida amostra e um parceiro de ligação capaz de se ligar especificamente ao produto de expressão polipeptídico de um alelo de BRCA1 mutante e/ou um parceiro de ligação para o polipéptido BRCA1 possuindo a sequência de aminoácidos exposta em SEQ ID NO: 2.
13. Método de acordo com a reivindicação 12 em que é determinada a inibição da actividade bioquímica do referido parceiro de ligação.
14. Método de acordo com qualquer uma das reivindicações de 1 a 4 que compreende a determinação se existe uma alteração na sequência da linha germinativa do gene BRCA1 na referida amostra através da observação de desvios na mobilidade electroforética de ADN de cadeia simples da referida amostra em geles de poliacrilamida não desnaturantes.
15. Método de acordo com qualquer uma das reivindicações de 1 a 4 em que todo ou parte do gene BRCA1 da referida amostra é amplificado e é determinada a sequência da referida sequência amplificada. 85 829 ΕΡ 699 754/ΡΤ 3/4
16. Método de acordo com qualquer uma das reivindicações de 1 a 4 em que são empregues iniciadores oligonucleotídicos para determinar se um alelo mutante de BRCA1 específico pode ser identificado na referida amostra através de amplificação de ácido nucleico.
17. Método de acordo com qualquer uma das reivindicações de 1 a 4 em que todo ou parte do gene BRCA1 da referida amostra é clonado para produzir uma sequência clonada e é determinada a sequência da referida sequência clonada.
18. Método de acordo com qualquer uma das reivindicações de 1 a 6 que compreende a determinação se existe um emparelhamento errado entre as moléculas (1) ADN genómico do gene BRCA1 ou ARNm de BRCA1 Isolados a partir da referida amostra, e (2) uma sonda de ácido nucleico complementar ao ADN do gene BRCA1 de tipo selvagem humano, quando as moléculas (1) e (2) são hibridadas uma com outra para formarem uma dúplice.
19. Método de acordo com qualquer uma das reivindicações de 1 a 6 em que é efectuada a amplificação de sequências do gene BRCA1 na referida amostra e é determinada a hibridação das sequências amplificadas com uma ou mais sondas de ácido nucleico as quais compreendem uma sequência do gene BRCA1 de tipo selvagem ou uma sequência de um gene BRCA1 mutante incluindo uma mutação.
20. Método de acordo com qualquer uma das reivindicações de 1 a 4 que compreende a determinação da hibridação in situ do gene BRCA1 na referida amostra com uma ou mais sondas de ácido nucleico que compreendem uma sequência do gene BRCA1 de tipo selvagem ou uma sequência de um gene BRCA1 mutante incluindo uma mutação.
21. Método de acordo com qualquer uma das reivindicações anteriores em que a alteração pesquisada é uma mutação por deleção.
22. Método de acordo com qualquer uma das reivindicações de 1 a 20 em que a alteração pesquisada é uma mutação pontual. 85 829 ΕΡ 699 754/ΡΤ 4/4
23. Método de acordo com qualquer uma das reivindicações de 1 a 20 em que a alteração pesquisada é uma mutação por inserção.
24. Método de acordo com qualquer uma das reivindicações de 1 a 20 em que a alteração pesquisada é uma mutação seleccionada a partir das mutações expostas na Tabela 11.
25. Método para diagnóstico de uma predisposição para cancro da mama e do ovário num sujeito humano que compreende a determinação numa amostra de tecido do referido sujeito, do nível de um produto de expressão do [gprte .. BRCA1, codificando o referido gene para um polipéptído BRCA1 possuindo a sequência de aminoácidos exposta em SEQ ID NO: 2 ou uma sequência com pelo menos 95% de identidade com essa sequência.
26. Método para diagnóstico de uma lesão de um sujeito humano quanto a neoplasia associada ao locus do gene BRCA1, que compreende a determinação numa amostra da referida lesão do nível de um produto de expressão do gene BRCA1, codificando o referido gene para um polipéptído BRCA1 possuindo a sequência de aminoácidos exposta em SEQ ID NO: 2 ou uma sequência com pelo menos 95% de identidade com essa sequência.
27. Método de acordo com a reivindicação 26 em que a referida lesão é uma lesão da mama ou do ovário.
28. Método de acordo com qualquer uma das reivindicações de 25 a 27 em que o referido produto de expressão é ARNm.
29. Método de acordo com qualquer uma das reivindicações de 25 a 27 em que o referido produto de expressão é o polipéptído codificado pelo gene BRCA1. Por MYRIAD GENETICS, INC., UNIVERSITY 0F UTAH RESEARCH FOUNDATION e THE UNITED STATES OF AMERICA, representado por THE SECRETARY OF THE DEPARTMENT OF HEALTH AND HUMAN SERVICES °áwm,AL·