PT705903E

PT705903E - Mutacoes no gene de susceptibilidade para o cancro da mama e do ovario ligado a 17q

Info

Publication number: PT705903E
Application number: PT95305605T
Authority: PT
Inventors: Donna M Shattuck-Eidens; Jacques Simard; Mitsuru Emi; Yusuke Nakamura; Francine Durocher
Original assignee: Myriad Genetics Inc; Ct De Rech Du Chul; Cancer Inst
Priority date: 1994-08-12
Filing date: 1995-08-11
Publication date: 2001-11-30
Also published as: FI970513A0; NO970624D0; CA2196797C; DE69521002T2; EP0705903A1; JP2002503943A; GR3036322T3; NO970624L; WO1996005306A3; AU3321295A; AU686004B2; DK0705903T3; FI970513A; WO1996005306A2; MX9701075A; ATE201445T1; NZ291621A; DE69521002D1; EP0705903B2; ES2158048T5

Description

ΕΡ 705 903/ΡΤ

DESCR1CÃO "Mutações no gene de susceptibilidade para o cancro da mama e do ovário, ligado a 17q" O presente invento refere-se de um modo geral ao campo da genética humana. Especificamente, o presente invento refere-se a métodos e materiais utilizados para isolar e detectar um gene de predisposição para cancro da mama e do ovário humanos (BRCA1), do qual alguns alelos mutantes que causam susceptibilidade a cancro, em particular, a cancro da mama e do ovário. Mais especificamente, o invento refere-se a mutações de linhas germinativas no gene BRCA1 e à sua utilização no diagnóstico de predisposição para cancro da mama e do ovário.

As publicações e outros materiais aqui utilizados para elucidar os antecedentes do invento, e em particular, os casos para proporcionar detalhes adicionais em relação à prática, são aqui incorporados por referência, e por conveniência, são referenciados por autor e data no texto seguinte e respectivamente agrupados na Lista de Referências anexa.

ANTECEDENTES DO INVENTO A genética do cancro é complicada, envolvendo múltiplos reguladores dominantes, positivos do estado transformado (oncogenes) bem como múltiplos reguladores recessivos, negativos (genes de supressão tumoral). Foram caracterizados mais de cem oncogenes. Foram identificados menos de uma dúzia de genes de supressão tumoral, mas espera-se que o número aumente para além dos cinquenta (Knudson, 1993). O envolvimento de tantos genes sublinha a complexidade dos mecanismos de controlo de crescimento que operam nas células para manter a integridade do tecido normal. Esta complexidade manifesta-se de outro modo. Até agora, não se mostrou que um único gene participasse no desenvolvimento de todos, nem mesmo na maioria dos cancros humanos. A mutações oncogénicas mais comuns são no gene H-ras, encontradas em 10-15% de todos os tumores sólidos (Anderson et a!., 1992). Os genes de supressão tumoral mais frequentemente mutados são o gene TP53, delecionado

86 719 ΕΡ 705 903/ΡΤ homozigoticamente em aproximadamente 50% de todos os tumores, e CDKN2, o qual estava delecionado homozigoticamente em 46% de todas as linhas celulares de tumores examinadas (Kamb et al., 1994). Sem um alvo que seja comum a todas as células transformadas, o sonho de uma "bala mágica" nua pObsa uesxruir ou reverter células cancerígenas deixando ao mesmo tempo o tecido normal não afectado é improvável. A esperança de uma nova geração de fármacos anti-tumorais especificamente direccionados pode estar na capacidade para se identificar genes de supressão tumoral ou oncogenes que desempenhem papéis genéricos no controlo da divisão celular.

Os genes de supressão tumoral que foram clonados e caracterizados influenciam a susceptibilidade para: 1) Retinoblastoma (RB 1); 2) Tumor de Wilms (WT1); 3) Li-Fraumeni (TP53); 4) Polipose familiar adenomatosa (APC); 5) Neurofibromatose tipo 1 (NF1); 6) Neurofibromatose tipo 2 (NF2); 7) Síndroma de von Hippel-Lindau (VHL); 8) Neoplasia endócrina múltipla tipo 2A (MEN2A); e 9) Melanoma (CDKN2).

Os toei de supressão tumoral que foram mapeados geneticamente mas que ainda não foram isolados incluem genes para: Neoplasia endócrina múltipla tipo 1 (MEN1); Síndroma familiar do cancro de Lynch 2 (LCFS2); Neuroblastoma (NB); Síndroma do nevo das células basais (BCNS); Síndroma de Beckwith-Wiedemann (BWS); Carcinoma das células renais (RCC); Esclerose tuberosa 1 (TSC1); e Esclerose tuberosa 2 (TSC2). Os genes de supressão tumoral que foram caracterizados até agora codificam produtos com semelhanças a uma variedade de tipos de proteínas, incluindo proteínas de ligação ao ADN (WT1), reguladores de transcrição ancilares (RB1), proteínas de activação da GTPase ou GAP (NF1), componentes do citosqueleto (NF2), receptores-quinase ligados à membrana (MEN2A), reguladores do ciclo celular (CDKN2) e outras sem semelhanças óbvias com proteínas conhecidas (APC e VHL).

Em muitos casos, mostrou-se que o gene de supressão tumoral identificado originalmente através de estudos genéticos se perdeu ou foi mutado em alguns tumores esporádicos. Este resultado sugere que regiões de aberração cromossómica podem significar a posição de importantes genes de supressão tumoral envolvidos tanto na predisposição genética para o cancro como em cancro esporádico.

86 719 ΕΡ 705 903/ΡΤ

Uma das características principais de vários genes de supressão tumoral caracterizados até agora é a de que estes são delecionados com elevada frequência em certos tipos de tumores. As deleções envolvem frequentemente perda de um único alelo, uma designada perda de heterozigocidade (PDH). mas pedem também envoiver deleção homozigótica de ambos os alelos. Para PDH, presume-se que o alelo restante não seja funcional, devido a uma mutação herdada preexistente, ou devido a uma mutação esporádica secundária. 0 cancro da mama é uma das doenças mais significativas que afectam as mulheres. À taxa actual, as mulheres americanas têm um risco de 1 em 8 de desenvolverem cancro da mama aos 95 anos (American Câncer Society, 1992). 0 tratamento do cancro da mama em estádios avançados é frequentemente inútil e desfigurante, tornando a detecção inicial uma elevada prioridade na gestão médica da doença. O cancro do ovário, embora menos frequente que o cancro da mama, é com frequência rapidamente fatal e é a quarta causa mais comum de mortalidade por cancro nas mulheres americanas. Os factores genéticos contribuem para uma proporção definida por doença da incidência do cancro da mama, estimada como sendo cerca de 5% de todos os casos mas aproximadamente 25% dos casos diagnosticados antes dos 40 anos de idade (Claus et a!., 1991). 0 cancro da mama foi subdividido em dois tipos, de aparecimento em idade precoce e de aparecimento em idade tardia, com base numa inflecção na curva de incidência específica para a idade por volta dos 50 anos. Pensa-se que a mutação de um gene, BRCA1, contribui para aproximadamente 45% do cancro da mama familiar, mas para pelo menos 80% das famílias com ambos os cancros da mama e do ovário (Easton et a!., 1993).

Têm-se procedido a esforços intensos para isolar o gene BRCA1 desde que este foi mapeado pela primeira vez em 1990 (Hall et al., 1990; Narod et al., 1991). Um segundo locus, BRCA2, foi recentemente mapeado no cromossoma 13q (Wooster et al., 1994) e parece contribuir para uma proporção do cancro da mama de aparecimento precoce quase igual à de BRCA1, mas confere um risco menor de cancro do ovário. A restante susceptibilidade para cancro da mama de aparecimento precoce divide-se entre genes ainda não mapeados para cancro familiar, e mutações raras da linha germinativa em genes tais como TP53 (Malkin et al., 1990). Foi também sugerido que os portadores heterozigóticos de formas defeituosas do gene de Ataxia-Telangectasia têm maior risco para cancro da mama (Swift et a!., 1976; Swift et al., 1991). O

4 4

86 719 ΕΡ 705 903/ΡΤ cancro da mama de aparecimento em idade tardia é também frequentemente familiar embora os riscos em parentes não sejam tão elevados como os do cancro da mama de aparecimento precoce (Cannon-AIbright et a!., 1994; Mettlin et a!., 1990). No entanto, a percentagem de tais casos deuiHn 5 susceptiuiiiuade genética é desconhecida. O cancro da mama foi à muito reconhecido como sendo, em parte, uma doença familiar (Anderson, 1972). Numerosos investigadores examinaram a evidência de hereditariedade genética e concluíram que os dados são muito consistentes com hereditariedade dominante para um locus ou toei principais de susceptibilidade (Bishop e Gardner, 1980; Go et ai., 1983; Willams e Anderson, 1984; Bishop et a/., 1988; Newman et al., 1988; Claus et al., 1991). Resultados recentes demonstram que existem pelo menos três loci que conferem susceptibilidade para cancro da mama bem como para outros cancros. Estes loci são o locus TP53 no cromossoma 17p (Malkin et al., 1990), um locus de susceptibilidade ligado a 17q conhecido como BRCA1 (Hall et aL, 1990) e um ou mais loci responsáveis pelos residuais não mapeados. Hall et a!., (1990) indicaram que a susceptibilidade herdada para cancro da mama em famílias com aparecimento em idade precoce está associada ao cromossoma 17q21; embora estudos subsequentes por este grupo utilizando um modelo genético mais apropriado tenham parcialmente refutado a limitação a cancro da mama de aparecimento precoce (Margaritte et al., 1992). A maioria das estratégias para clonar 0 gene de predisposição para cancro da mama ligado a 17q (BRCA1) requerem estudos precisos de localização genética. 0 modelo mais simples para o papel funcional de BRCA1 sustenta que os alelos de BRCA1 que predispõem para cancro são recessivos em relação aos alelos de tipo selvagem; isto é, as células que contêm pelo menos um alelo de BRCA1 de tipo selvagem não são cancerosas. No entanto, as células que contêm um alelo de BRCA1 de tipo selvagem e um alelo de predisposição podem ocasionalmente sofrer perda do alelo de tipo selvagem, por mutação aleatória ou por perda do cromossoma durante a divisão celular (não disjunção). Toda a descendência desta célula mutante não possui a função de tipo selvagem de BRCA1 e pode desenvolver-se em tumores. De acordo com este modelo, os alelos de predisposição de BRCA1 são recessivos, mas no entanto a susceptibilidade para cancro é herdada de uma forma dominante: as mulheres que possuem um alelo de predisposição (e um alelo de tipo selvagem)

têm risco de desenvolver cancro, porque as suas células epiteliais mamárias podem perder espontaneamente o alelo de BRCA1 de tipo selvagem. Este modelo aplica-se a um grupo de loci de susceptibilidade para cancro conhecidos como de supressão tumoral ou anti-oncogenes, uma classe de penes que inclui c gene dú reiinoòiastoma e o gene da neurofibromatose. Por inferência este modelo pode também explicar a função de BRCA1, tal como foi recentemente sugerido (Smith et ai., 1992).

Uma segunda possibilidade é a de que os alelos de predisposição de BRCA1 sejam verdadeiramente dominantes; isto é, um alelo de tipo selvagem de BRCA1 não consegue superar o papel de formação tumoral do alelo de predisposição. Assim, uma célula que possua ambos os alelos de tipo selvagem e mutante não perderia necessariamente a cópia de tipo selvagem de BRCA1 antes de dar origem a células malignas. Pelo contrário, as células mamárias em indivíduos predispostos sofreriam outra ou outras alterações estocásticas que conduzem a cancro.

Se os alelos de predisposição de BRCA1 forem recessivos, espera-se que o gene BRCA1 seja expresso em tecido mamário normal mas não seja expresso funcionalmente em tumores mamários. Pelo contrário, se os alelos de predisposição de BRCA1 forem dominantes, o gene de tipo selvagem BRCA1 pode ou não ser expresso em tecido mamário normal. No entanto, o alelo de predisposição será provavelmente expresso em células do tumor da mama. A associação de BRCA1 a 17q foi confirmada independentemente em três de cinco famílias com cancro da mama e cancro do ovário (Narod et a!., 1991). Estes estudos reivindicaram a localização do gene dentro de uma região muito grande, 15 centiMorgans (cM), ou aproximadamente 15 milhões de pares de bases, para ambos os lados do marcador associado pCMM86 (D17S74). No entanto, as tentativas para definir mais a região através de estudos genéticos, utilizando marcadores em redor de pCMMS6, não foram bem sucedidas. Estudos subsequentes indicaram que o gene era consideravelmente mais proximal (Easton et a!., 1993) e que a análise original era imperfeita (Margaritte et a!., 1992). Hall et a/., (1992) localizaram recentemente o gene BRCA1 num intervalo de aproximadamente 8 cM (aproximadamente 8 milhões de pares de bases) limitado por Mfd15 (D17S250) no lado proximal e pelo gene GIP humano no lado distai. Foi acordado um intervalo ligeiramente mais estreito para o locus

86 719 ΕΡ 705 903/ΡΤ BRCA1 no "Chromosome 17 workshop" em Março de 1992 (Fain, 1992), com base em dados publicamente disponíveis. O tamanho destas regiões e a incerteza que lhes está associada tornou extremamente difícil conceber e implementar o mapeamento físico e/ou estratégias de clonagem para isolamento uu yene BRCÁ Ϊ . A identificação de um locus de susceptibilidade para cancro da mama permitiria a detecção precoce de indivíduos susceptíveis e aumentaria grandemente a nossa capacidade para compreender os passos iniciais que conduzem a cancro. Como os loci de susceptibilidade são frequentemente alterados durante a progressão tumoral, a clonagem destes genes podia ser também importante no desenvolvimento de melhores produtos de diagnóstico e prognóstico, bem como melhores terapias do cancro.

SUMARIO DO INVENTO

Num aspecto, o presente invento proporciona um ácido nucleico isolado compreendendo os nucleótidos 120-5708 de SEQ ID NO:1 possuindo uma ou mais das mutações que se seguem, as quais estão também listadas na Tabela 14 na secção dos exemplos do fascículo: 1 85 ins A - ter 40 I 85 del AG - ter 39 Cys 64 Arg 926 ins 1 0 - ter 289 Vai 271 Met II 28 ins A - ter 345 1294 del 40 - ter 396 1499 ins A - ter 479 codão 482 del 4 - ter 2080 ins A - ter 672

Gin 667 His 2293 del G - ter 735 2509 del AA - ter 799

Thr 826 Lys 2596 del C - ter 845 codão 852 del 1 - ter 891

7 86 719 ΕΡ 705 903/ΡΤ

Tyr 856 His 3121 del A - ter 1023 Met 1008 lie-31 66 ins 5 - ter 1025 3447 uei 4 - rer i i i 5 3449 del 4 - ter 1115 3450 del 4 - ter 1115 Pro 11 50 Ser 3745 del T - ter 1209 Glu 1214 ter Glu 1219 Asp Arg 1347 Gly 41 84 del 4 - ter 1 364 Arg 1443 ter 4873 del CA - ter 1620 Met 1628 Vai 5085 del 19 - ter 1670 Thr 1 852 Ser ou um seu complemento. 0 presente invento proporciona adicionalmente um ácido nucleico isolado compreendendo a sequência nucleotídica apresentada na Figura 10 e possuindo a base 4223A delecionada ou um seu complemento. O invento proporciona também sondas de ácido nucleico derivadas de um ácido nucleico do invento como referido anteriormente, que retêm uma mutação de entre as listadas acima. Estas sondas podem ser utilizadas no diagnóstico de uma predisposição para o cancro da mama e do ovário ou no diagnóstico de uma lesão na mama ou no ovário de um indivíduo humano quanto a neoplasia.

Outros aspectos do invento serão evidentes da descrição detalhada que se segue.

δ 86 719 ΕΡ 705 903/ΡΤ

BREVE DESCRIÇÃO DOS DESENHOS A Figura 1 é um diagrama que mostra a ordem de toei na vizinhança de BRCA1 tal como determinado pelo "chromosome 17 workshop". A Figura 1 é rcprcuUZiOd a partir de ι-ain, 1 992. A Figura 2 é um mapa esquemático de YAC que definem parte da região Mfd1 5-Mfd188. A Figura 3 é um mapa esquemático dos STS, P1 e BAC na região de BRCA1. A Figura 4 é um mapa esquemático do cromossoma 17 humano. A região pertinente contendo BRCA1 está expandida para indicar as posições relativas de dois genes anteriormente identificados, CA125 e RNU2, BRCA1 abrange o marcador D17S855. A Figura 5 mostra o alinhamento do domínio "dedo-de-zinco" ("zinc-finger") de BRCA1 com outros 3 domínios dedo-de-zinco que se classificaram no máximo num alinhamento de Smith-Waterman. RPT1 codifica uma proteína que parece ser um regulador negativo do receptor de IL-2 no ratinho. RIN1 codifica uma proteína de ligação a ADN que inclui um motivo dedo-de-RING relacionado com o dedo-de-zinco. RFP1 codifica um factor de transcrição putativo que é o domínio N-terminal do produto do oncogene RET. A linha inferior contém a sequência de consenso do dedo-de-zinco de C3HC4 mostrando as posições das cisteínas e uma histidina que formam o bolso de ligação aos iões de zinco. A Figura 6 é um diagrama do ARNm de BRCA1 que mostra as localizações dos intrões e as variantes do ARNm de BRCA1 produzidas por processamento alternativo. As localizações dos intrões são mostradas através de triângulos negros e os exões estão numerados por baixo da linha que representa o ADNc. 0 ADNc de cima é o compósito utilizado para gerar a sequência peptídica de BRCA1. As formas alternativas identificadas como clones de ADNc ou clones de selecção híbridos são mostradas abaixo.

9 9

86 719 ΕΡ 705 903/ΡΤ A Figura 7 mostra ο padrão de expressão tissular de BRCA1. O "blot" foi obtido de Clontech e contém ARN dos tecidos indicados. As condições de hibridação foram as recomendadas pelo fabricante utilizando uma sonda que consiste nas posições nucleotídicas 3631 a 3930 de BRCA1. Note-se que tanto c rr.cma como υ ovário são tecidos heterogéneos e que a percentagem de células epiteliais relevantes pode ser variável. Os padrões de peso molecular são em quilobases. A Figura 8 é um diagrama da região 5’ não traduzida mais o início da região traduzida de BRCA1 que mostra as localizações dos intrões e as variantes do ARNm de BRCA1 produzidas por processamento alternativo. As localizações dos intrões são mostradas por linhas tracejadas. São mostradas seis formas de processamento alternativo. A Figura 9A mostra uma mutação sem sentido na Família 2082. P indica a pessoa originalmente pesquisada, b e c são portadores do haplótipo, a, d, e, f e g não possuem o haplótipo de BRCA1. A mutação de C para T resulta num codão de terminação e cria um local para a enzima de restrição AvrU. Os produtos de amplificação por PCR são cortados com esta enzima. Os portadores são heterozigóticos para o local e mostram portanto três bandas. Os não portadores permanecem não cortados. A Figura 9B mostra uma mutação e análise de co-segregação em famílias com BRCA1. Os indivíduos portadores são representados como círculos e quadrados a cheio nos diagramas genealógicos. Mutação por desvio de enquadramento na Família 1910. As três primeiras pistas são amostras de não portadores, de controlo. As pistas marcadas como 1-3 contêm sequências de indivíduos portadores. A pista 4 contém ADN de um membro da família que não possui a mutação de BRCA1.0 losango é utilizado para evitar a identificação da família. O desvio de enquadramento resultante do C adicional é aparente nas pistas marcadas como 1, 2 e 3. A Figura 9C mostra uma mutação e análise de co-segregação em famílias com BRCA1. Os indivíduos portadores são representados como círculos e quadrados a cheio nos diagramas genealógicos. Mutação reguladora deduzida na Família 2035. Análise ASO dos portadores e não portadores de 2 polimorfismos diferentes (PM1 e PM7) que foram examinados quanto a

ílÁ* 86 719 ΕΡ 705 903/ΡΤ 10 ^ heterozigocidade na linha germinativa e comparados à heterozigocidade do ARNm de linfócitos. As duas linhas superiores de cada painel contêm produtos de PCR amplificados a partir de ADN genómico e as duas linhas inferiores contêm produtos de PCR amplificados a partir de ADNc. "A" e "G" são os dois ciclos detcuiauos airaves de ASO. Os pontos escuros indicam que um determinado alelo está presente na amostra. As três primeiras pistas de PM7 representam os três genótipos na população geral.

As Figuras 10A-10H mostram a sequência genómica de BRCA1. As letras minúsculas denotam a sequência de um intrão enquanto que as letras maiusculas denotam a sequência de um exão. Os intervalos indefinidos dentro dos intrões são designados com vvvvvvvvvvvvv. Os locais polimórficos conhecidos são mostrados como letras sublinhadas e a cheio.

DESCRIÇÃO DETALHADA DO INVENTO O presente invento refere-se geralmente ao campo da genética humana. Especificamente, o presente invento refere-se a métodos e materiais utilizados para isolar e detectar um gene de predisposição para cancro da mama humano (BRCA1), alguns alelos do qual causam susceptibilidade a cancro, em particular cancro da mama e do ovário. Mais especificamente, o presente invento refere-se a mutações da linha germinativa no gene BRCA1 e à sua utilização no diagnóstico de predisposição para cancro da mama e do ovário. 0 invento refere-se ainda a mutações somáticas no gene BRCA1 em cancro da mama humano e à sua utilização no diagnóstico e prognóstico de cancro da mama e do ovário humanos. O presente invento proporciona um polinucleótido isolado compreendendo todo ou parte do locus BRCA1 ou de um tocus BRCA1 mutado, de preferência de pelo menos oito bases e não mais que cerca de 100 kb de comprimento. Tais polinucleótidos podem ser polinucleótidos anti-sentido. 0 presente invento proporciona também uma construção recombinante compreendendo tal polinucleótido isolado, por exemplo, uma construção recombinante adequada para expressão num célula hospedeira transformada.

86 719 ΕΡ 705 903/ΡΤ

11 ^ & São também proporcionados pelo invento métodos de detecção de um polinucleótido compreendendo uma porção do íocus BRCA1 ou do seu produto de expressão num objecto de análise. Tais métodos podem ainda compreender o passo de amplificação da porção do /ocus BRCA1, e podem ainda incluir um passe que proporciona um conjunto de polinucleótidos que sejam iniciadores para amplificação da referida porção do íocus BRCA1. O método é útil para o diagnóstico da predisposição para cancro ou para o diagnóstico ou o prognóstico de cancro. 0 presente invento proporciona também variantes de polipéptidos de BRCA1 substancialmente isentas de outras proteínas que são codificadas por um íocus de BRCA1 mutante tal como definido anteriormente e a utilização destes polinucleótidos como imunogénios para a produção de anticorpos, preferivelmente para a produção de anticorpos monoclonais. São também abrangidos pelo presente invento fragmentos antigénicos destes polipéptidos possuindo uma mutação de entre as acima listadas. O presente invento proporciona também estojos para detecção num objecto de análise de um polinucleótido compreendendo uma porção do íocus BRCA1, compreendendo os estojos um polinucleótido complementar à porção do íocus BRCA1 embalado num recipiente adequado, e instruções para a sua utilização. 0 presente invento proporciona ainda métodos de preparação de um polinucleótido compreendendo nucleótidos de polimerização para produzir uma sequência constituída por pelo menos oito nucleótidos consecutivos do íocus BRCA1; e métodos de preparação de um polipéptido compreendendo aminoácidos de polimerização para produzir uma sequência constituída por pelo menos cinco aminoácidos codificados pelo íocus BRCA1. O presente invento proporciona ainda métodos de pesquisa do gene BRCA1 para identificar mutações. Tais métodos podem ainda compreender o passo de amplificação de uma porção do íocus BRCA1, e podem ainda incluir um passo que proporciona um conjunto de polinucleótidos que sejam iniciadores para amplificação da referida porção do íocus BRCA1. O método é útil para a identificação de mutações para utilização em diagnóstico da predisposição para cancro ou no diagnóstico ou prognóstico de cancro.

86 719 ΕΡ 705 903/ΡΤ

12 Ο presente invento proporciona ainda métodos de pesquisa de alelos mutantes de BRCA1 suspeitos para identificar mutações no gene BRCA1. É uma vcriíicaçãu uo presente invento que o locus BRCA1 que predispõe indivíduos para cancro da mama e cancro do ovário, é um gene que codifica uma proteína BRCA1, a qual se verificou não ter uma homologia significativa com proteínas ou sequências de ADN conhecidas. Este gene é aqui designado BRCA1. É uma verificação do presente invento que mutações no locus BRCA1 na linha germinativa são indicadoras de uma predisposição para cancro da mama e cancro do ovário. Finalmente, é uma verificação do presente invento que mutações somáticas no locus BRCA1 estão também associadas a cancro da mama, cancro do ovário e outros cancros, o que representa um indicador destes cancros ou do prognóstico destes cancros. Os eventos mutacionais do locus BRCA1 podem envolver deleções, inserções e mutações pontuais na sequência de codificação e na sequência que não de codificação. A partir de uma região no braço longo do cromossoma 17 humano do genoma humano, 17q, que possui um tamanho estimado de cerca de 8 milhões de pares de bases, foi identificada uma região que contém um locus genético, BRCA1, o qual causa susceptibilidade para cancro, incluindo cancro da mama e do ovário. A região contendo o locus BRCA1 foi identificada utilizando uma variedade de técnicas genéticas. As técnicas de mapeamento genético definiram inicialmente a região de BRCA1 em termos de recombinação com marcadores genéticos. Com base em estudos de famílias grandes alargadas ("famílias") com múltiplos casos de cancro da mama (e casos de cancro do ovário nalgumas famílias), foi apontada uma região cromossómica que contém o gene BRCA1 bem como outros alelos de susceptibilidade putativos no locus BRCA1. Foram identificados dois pontos de quebra meióticos no lado distai do locus BRCA1 os quais são expressos como recombinantes entre marcadores genéticos e a doença, e um recombinante no lado proximal do locus BRCA1. Assim, uma região que contém o locus BRCA1 está fisicamente limitada por estes marcadores.

13 86 719 ΕΡ 705 903/ΡΤ A utilização de marcadores genéticos proporcionada por este invento permitiu a identificação de clones que cobrem a região a partir de uma biblioteca de cromossoma humano artificial de levedura (YAC) ou de cromossoma humano artificial bacteriano (BAC). Permitiu também a identiíioaçdo e a preparação de clones cosmídicos, P1 e BAC mais facilmente manipulados a partir desta região e a construção de um elemento contíguo a partir de um subconjunto dos clones. Estes cosmídeos, P1, YAC e BAC proporcionam a base para a clonagem do locus BRCA1 e proporcionam a base para o desenvolvimento de reagentes eficazes, por exemplo, no diagnóstico e no tratamento de cancro da mama e/ou do ovário. O gene BRCA1 e outros potenciais genes de susceptibilidade foram isolados a partir desta região. O isolamento foi feito utilizando aprisionamento electrónico ("software trapping") (um método computacional para a identificação de sequências que provavelmente contêm exões de codificação, a partir de sequências de ADN genómico contíguas ou descontínuas), técnicas de selecção de híbridos e pesquisa directa, com inserções de ADNc inteiras ou parciais de cosmídeos, P1 e BAC, na região para pesquisar bibliotecas de ADNc. Estes métodos foram utilizados para se obter sequências de loci expressos na mama e noutro tecido. Estes loci candidatos foram analisados para identificar sequências que conferem susceptibilidade. Verificámos que existem mutações na sequência de codificação do locus BRCA1 em famílias, as quais são responsáveis pela susceptibilidade para cancro associada a 17q conhecida como BRCA1. Não se sabia que este gene estava nesta região. O presente invento não só facilita a detecção precoce de certos cancros, tão vital para a sobrevivência dos doentes, como também permite a detecção de indivíduos susceptíveis antes destes desenvolverem cancro.

Recursos Populacionais

As famílias grandes, bem documentadas do Utah são especialmente importantes para proporcionar bons recursos para estudos genéticos humanos. Cada família grande proporciona independentemente o poder de detectar se o alelo de susceptibilidade de BRCA1 está a ser segregado nessa família. Os recombinantes informativos quanto à localização e isolamento do locus BRCA1 podiam ser obtidos apenas a partir de famílias suficientemente grandes para se confirmar a presença de um alelo de susceptibilidade. Os grandes relacionamentos familiares são especialmente importantes para o estudo do cancro da mama, uma vez que a penetrância do alelo de susceptibilidade de

BRCA1 é reduzida tanto pela idade como pelo sexo, tornando difícil de se encontrar relacionamentos familiares informativos. Para além disso, os grandes relacionamentos familiares são essenciais para a construção de haplótipos de indivíduos falecidos por inferência a partir dos haplótipos dos seus familiares nróyinr*£c

Embora outras populações possam também proporcionar informação benéfica, tais estudos requerem geralmente um esforço muito maior, e as famílias são normalmente muito menores e assim menos informativas. A incidência de cancro da mama ajustada à idade no Utah é 20% menor que a taxa média nos EUA. A menor incidência no Utah é provavelmente devida em grande parte a uma primeira gravidez em idade precoce, aumentando a probabilidade dos casos verificados nas famílias do Utah possuírem uma predisposição genética.

Mapeamento Genético

Dado um conjunto de famílias informativas, os marcadores genéticos são essenciais para a ligação de uma doença a uma região de um cromossoma. Tais marcadores incluem polimorfismos de tamanho de fragmentos de restrição (RFLP) (Botstein et al., 1980), marcadores com um número variável de repetições em cadeia (VNTR) (Jeffreys et al., 1985; Nakamura et al., 1987) e uma classe abundante de polimorfismos de ADN baseados em pequenas repetições em cadeia (STR), especialmente repetições de CpA (Weber e May, 1989; Litt et al., 1989). Para gerar um mapa genético, seleccionam-se potenciais marcadores genéticos e testam-se utilizando ADN extraído de membros das famílias a serem estudadas.

Os marcadores genéticos úteis na pesquisa de um locus genético associado a uma doença podem ser seleccionados numa base ad hoc, cobrindo densamente um cromossoma específico, ou através de análise detalhada de uma região específica de um cromossoma. Um método preferido para a selecção de marcadores genéticos ligados a uma doença envolve a avaliação do grau de capacidade de informação das famílias para determinar a distância ideal entre os marcadores genéticos de um dado grau de polimorfismo, seleccionando depois marcadores a partir de mapas genéticos conhecidos que sejam idealmente espaçados para uma eficiência máxima. A capacidade de informação das famílias é medida através da probabilidade dos marcadores serem

15 15

86 719 ΕΡ 705 903/ΡΤ heterozigóticos em indivíduos não relacionados. É também muito eficiente utilizar marcadores de STR os quais são detectados por amplificação da sequência de ácido nucleico alvo utilizando PCR; tais marcadores são altamente informativos, fáceis de ensaiar (Weber e May, 1989) e podem ser ensaiados sirr.uitancanieiiLe utilizando estratégias múltiplas (Skolnick e Wallace, 1988), reduzindo grandemente o número de experiências necessárias.

Uma vez estabelecida uma associação, é necessário encontrar marcadores que flanqueiem o locus da doença, i.e., um ou mais marcadores proximais ao locus da doença, e um ou mais marcadores distais ao locus da doença. Quando possível, os marcadores candidatos podem ser seleccionados a partir de um mapa genético conhecido. Quando não é conhecido nenhum, podem ser identificados novos marcadores através da técnica de STR, tal como mostrado nos Exemplos. 0 mapeamento genético é normalmente um processo iterativo. No presente invento, começou pela definição dos marcadores genéticos de flanqueamento em torno do locus BRCA1, substituindo depois estes marcadores de flanqueamento por outros marcadores que estavam sucessivamente mais próximos do locus BRCA1. Como passo inicial, os eventos de recombinação, definidos por famílias grandes alargadas, ajudaram especificamente a localizar o locus BRCA1 como distai ou proximal em relação a um marcador genético específico (Goldgar et a!., 1994). A região em volta de BRCA1, até à divulgação do presente invento, não estava bem mapeada e havia poucos marcadores. Portanto, pequenas sequências repetitivas em cosmídeos subclonados a partir de YAC, as quais tenham sido mapeadas fisicamente, foram analisadas de forma a desenvolver novos marcadores genéticos. Utilizando esta abordagem, identificou-se um marcador do presente invento, 42D6, o qual substituiu pCMM86 como marcador de flanqueamento distai para a região de BRCA1. Uma vez que 42D6 está a aproximadamente 14 cM de pCMM86, a região de BRCA1 foi assim reduzida em aproximadamente 14 centiMorgans (Easton et al., 1993). 0 presente invento começou assim por encontrar um marcador de flanqueamento distai muito mais proximamente ligado da região de BRCA1. Verificou-se então que BRCA1 era distai em relação ao marcador genético Mfd15. Portanto, mostrou-se que BRCA1 estava numa região de 6 a 10 milhões de bases limitada

16 16

86 719 ΕΡ 705 903/ΡΤ por Mfd15 e 42D6. Foi subsequentemente verificado que o marcador Mfd191 era distai em relação a Mfd15 e proximal a BRCA1. Assim, Mfd15 foi substituído por Mfd191 como o marcador genético proximal mais próximo. De forma semelhante, verificou-se que o marcador genético Mfd188 podia «ubstituir c mercador genérico 42D6, estreitando a região que contém o locus BRCA1 para aproximadamente 1,5 milhões de bases. Depois o marcador Mfd191 foi substituído por tdj1474 como marcador proximal e Mfd188 foi substituído por U5R como marcador distai, estreitando ainda mais a região de BRCA1 para uma região suficientemente pequena para permitir o isolamento e a caracterização do locus BRCA1 (ver Figura 3), utilizando técnicas conhecidas na arte tal como aqui descrito.

Mapeamento Físico

Foram empregues três métodos distintos para mapear fisicamente a região. 0 primeiro foi a utilização de cromossomas artificiais de leveduras (YAC) para clonar a região que é flanqueada por tdj1474 e U5R. 0 segundo foi a criação de um conjunto de clones de P1, BAC e cosmídicos que cubram a região contendo o locus BRCA1.

Cromossomas Artificiais de Leveduras (YAC). Uma vez identificada uma região suficientemente pequena contendo o locus BRCA1, o isolamento físico do ADN na região prosseguiu identificando-se um conjunto de YAC sobrepostos que cobrissem a região. YAC úteis podem ser isolados a partir de bibliotecas conhecidas, tais como as bibliotecas de YAC de St. Louis e de CEPH, que estão amplamente distribuídas e contêm aproximadamente 50000 YAC cada. Os YAC isolados eram destas bibliotecas publicamente acessíveis e podem ser obtidos a partir de várias fontes incluindo o Michigan Genome Center. Claramente, outros que tiveram acesso a estes YAC, sem a divulgação do presente invento, não teriam sabido o valor dos YAC específicos que seleccionámos uma vez que não sabiam quais os YAC que estavam dentro e quais os YAC que estavam fora da região mais pequena contendo o locus BRCA1.

Clones Cosmídicos, de P1 e BAC. No presente invento, é vantajoso prosseguir obtendo clones cosmídicos, de P1 e BAC para cobrir esta região. 0 menor tamanho destas inserções, em comparação com as inserções de YAC, torna-as mais úteis como sondas de hibridação específicas. Para além disso, ter o ADN clonado em células bacterianas, em vez de células de levedura, aumenta

17 17

86 719 ΕΡ 705 903/ΡΤ grandemente a facilidade com que o ADN de interesse pode ser manipulado, e melhora a razão sinal-ruído dos ensaios de hibridação. Para os subclones cosmídicos de YAC, o ADN é parcialmente digerido com a enzima de restrição Sau3A e clonado no local BamH\ do vector cosmídico pWE15 (Strataaene. r.at n 12G12G1). Os cosmideos contendo sequências humanas são pesquisados por hibridação com ADN repetitivo humano (p.ex. Gibco/BRL, Human C0t-1 DNA, cat. 5279SA) e depois analisando as "impressões digitais" através de uma variedade de técnicas, tal como detalhado nos Exemplos.

Os clones de P1 e BAC são obtidos por pesquisa de bibliotecas construídas a partir do genoma total humano com locais marcados de sequência específicos (STS) derivados dos YAC, cosmideos ou P1 e BAC, isolados tal como aqui descrito.

Estes clones de P1, BAC e cosmídicos podem ser comparados através de PCR de sequências repetitivas espalhadas (IRS) e/ou digestões por enzimas de restrição seguidas por electroforese em gel e comparação dos fragmentos de ADN resultantes ("impressões digitais") (Maniatis et al., 1982). Os clones podem também ser caracterizados através da presença de STS. As impressões digitais são utilizadas para definir um conjunto de clones contíguo com sobreposição que cubra a região mas que não seja excessivamente redundante, aqui referido como "caminho de cobertura mínima". Tal caminho de cobertura mínima forma a base para experiências subsequentes para identificar ADNc que se podem originar a partir do locus BRCA1.

Cobertura do Hiato com Clones de P1 e BAC. Para cobrir quaisquer hiatos no elemento contíguo de BRCA1 entre os cosmideos identificados com clones genómicos, foram utilizados clones em vectores P1 e BAC que contêm inserções de ADN genómico aproximadamente duas vezes maiores que os cosmideos para os P1 e ainda maiores para os BAC (Sternberg, 1990; Sternberg et al., 1990; Pierce et al., 1992; Shizuya et a!., 1992). Os clones de P1 foram isolados por Genome Sciences utilizando iniciadores de PCR por nós proporcionados para pesquisa. Os BAC foram proporcionados através de técnicas de hibridação no laboratório do Dr. Mel Simon. A estratégia de utilização de clones de P1 permitiu também a cobertura da região genómica com um conjunto independente de clones não derivados de YAC. Isto previne a possibilidade de outras deleções em YAC que não tenham sido detectadas.

86 719 ΕΡ 705 903/ΡΤ 18

Estas novas sequências derivadas dos clones de P1 proporcionam o material para pesquisar ainda quanto a genes candidatos, tal como descrito abaixo.

Isolamento de Genes. cxisiem muitas técnicas para testar clones genómicos quanto à presença de prováveis sequências candidatas à sequência de codificação de um locus que se está a tentar isolar, incluindo mas não se limitando a: a. "zoo blots"

b. identificação de ilhas HTF c. aprisionamento de exões

d. hibridação de ADNc com cosmídeos ou YAC e. pesquisa de bibliotecas de ADNc (a) “Zoo blots". A primeira técnica é hibridar cosmídeos com ”Southern blots" para identificar sequências de ADN que sejam evolutivamente conservadas, e que dão portanto sinais de hibridação positivos com ADN de espécies de vários graus de parentesco com os humanos (tais como macaco, vaca, galinha, porco, ratinho e rato). "Southern blots" contendo tal ADN de uma variedade de espécies estão comercialmente disponíveis (Clonetech, Cat. 7753-1). (b) Identificação de ilhas HTF. A segunda técnica envolve a identificação de regiões ricas nos nucleótidos C e G, as quais ocorrem frequentemente perto ou dentro de sequências de codificação. Tais sequências são chamadas ilhas HTF (fragmento Hpa\ minúsculo) ou CpG, uma vez que enzimas de restrição específicas para locais que contêm dímeros de CpG cortam frequentemente nestas regiões (Lindsay et a!., 1987). (c) Aprisionamento de exões. A terceira técnica é o aprisionamento de exões, um método que identifica sequências no ADN genómico que contêm junções de união e portanto é provável que compreendam sequências de codificação de genes. A amplificação de exões (Buckler et a/., 1991) é utilizada para seleccionar e amplificar exões a partir de clones de ADN descritos abaixo. A amplificação de exões baseia-se na selecção de sequências de ARN que são flanqueadas por locais de união funcionais a 5’ e/ou 3'. Os produtos da amplificação de exões são utilizados para pesquisar as bibliotecas de ADNc da

mama para identificar um número manejável de genes candidatos para estudo posterior. O aprisionamento de exões pode também ser efectuado em pequenos segmentos de ADN sequenciado utilizando programas de computador ou através de aprisionamento electrónico. (d) Hibridacão de ADNc com Cosmídeos, P1, BAC ou YAC. A quarta técnica é uma modificação da técnica de enriquecimento selectivo a qual utiliza a hibridacão de ADNc com cosmídeos, P1, BAC ou YAC e permite que sequências transcritas sejam identificadas em, e recuperadas a partir de, ADN genómico clonado (Kandpal et al., 1990). A técnica de enriquecimento selectivo, tal como modificada para o presente fim, envolve a ligação de ADN da região de BRCA1 presente num YAC a uma matriz de coluna e a selecção de ADNc a partir das bibliotecas relevantes que hibridem com o ADN ligado, seguido de amplificação e purificação do ADN ligado, resultando num maior enriquecimento quanto a ADNc na região representada pelo ADN genómico clonado. (e) Identificação de ADNc. A quinta técnica consiste em identificar ADNc que correspondam ao locus BRCA1. São utilizadas sondas de hibridacão contendo sequências de codificação putativas, seleccionadas utilizando qualquer uma das técnicas de cima, para pesquisar várias bibliotecas, incluindo bibliotecas de ADNc de tecido da mama, bibliotecas de ADNc de ovário e quaisquer outras bibliotecas necessárias.

Outra variação sobre o tema de selecção directa de ADNc foi também utilizada para encontrar genes candidatos para BRCA1 (Lovett et al., 1991; Futreal, 1993). Este método utiliza ADN cosmídico, de P1 ou BAC como sonda. O ADN-sonda é digerido com uma enzima de restrição que corta com extremidades lisas tal como HaeIII. Adaptadores de cadeia dupla são então ligados ao ADN e servem como locais de ligação para iniciadores em subsequentes reacções de amplificação por PCR utilizando iniciadores biotinilados. O ADNc alvo é gerado a partir de ARNm derivado de amostras de tecido, p.ex., tecido da mama, através de síntese da primeira cadeia iniciada aleatoriamente ou iniciada com oligo(dT) seguido por síntese da segunda cadeia. As extremidades do ADNc são tornadas lisas e ligadas aos adaptadores de cadeia dupla. Estes adaptadores servem como locais de amplificação para PCR. O alvo e as sequências-sonda são desnaturadas e misturadas com ADN C0t-1

86 719 ΕΡ 705 903/ΡΤ

20 humano para bloquear as sequências repetitivas. A hibridação em solução é efectuada para valores elevados de C0t-1/2 para assegurar a hibridação de moléculas de ADNc alvo raras. O material hibridado é então capturado em contas de avidina, lavado em condições altamente rigorosas e os ADNc retirins sãc ciuídcs e cimpiificados por PCR. O ADNc seleccionado é sujeito a mais ciclos de enriquecimento antes da clonagem num vector plasmídico para análise.

Teste do ADNc quanto a Capacidade para ser Candidato A prova de que o ADNc é o locus BRCA1 é obtida encontrando sequências no ADN extraído de membros de famílias afectadas que criem produtos do gene BRCA1 anormais ou níveis anormais de produto do gene BRCA1. Tais alelos de susceptibilidade de BRCA1 co-segregarão com a doença em famílias grandes. Também estarão presentes numa frequência muito mais elevada em indivíduos não aparentados com cancro da mama e do ovário do que em indivíduos na população geral. Finalmente, uma vez que os tumores mutam frequentemente de modo somático em toei que estão noutros casos mutados na linha germinativa, esperamos ver alelos de BRCA1 da linha germinativa normais mutados em sequências que sejam idênticas ou semelhantes aos alelos de susceptibilidade de BRCA1 em ADN extraído de tecido tumoral. Quer se comparem as sequências de BRCA1 de tecido tumoral com alelos de BRCA1 da linha germinativa dos mesmo indivíduos, quer se comparem os alelos de BRCA1 da linha germinativa de casos de cancro com os de indivíduos não afectados, a chave é encontrar mutações que sejam suficientemente graves para causar a ruptura óbvia da função normal do produto do gene. Estas mutações podem tomar várias formas. As formas mais graves seriam mutações por desvio de enquadramento ou grandes deleções que fariam com que o gene codificasse para uma proteína anormal ou uma que alterasse significativamente a expressão da proteína. Mutações com efeito de ruptura menos graves incluiriam pequenas deleções em enquadramento e substituições de pares de bases não conservativas que teriam um efeito significativo na proteína produzida, tais como alterações de um ou para um resíduo de cisteína, de um aminoácido básico para um ácido ou vice versa, de um aminoácido hidrófobo para um hidrófilo ou vice versa, ou outras mutações que afectariam a estrutura secundária, terciária ou quaternária da proteína. Geralmente não se espera que mutações silenciosas ou as que resultam em 21 21

86 719 ΕΡ 705 903/ΡΤ substituições de aminoácidos conservativas provoquem a ruptura da função cia proteína.

De acordo com o método de diagnóstico e prognóstico do presente ;r,vento, é uciectada a alteração do locus BRCA1 de tipo selvagem. Adicionalmente, o método pode ser efectuado detectando o locus BRCA1 de tipo selvagem e confirmando a ausência de uma predisposição para cancro no locus BRCA1. A "alteração de um gene de tipo selvagem" engloba todas as formas de mutações incluindo deleções, inserções e mutações pontuais nas regiões de codificação e não de codificação. As deleções podem ser de todo o gene ou de apenas uma porção do gene. As mutações pontuais podem resultar em codões de terminação, mutações por desvio de enquadramento ou substituições de aminoácidos. Mutações somáticas são as que ocorrem apenas em certos tecidos, p.ex., no tecido tumoral, e não são herdadas na linha germinativa. Mutações da linha germinativa podem ser encontradas em qualquer um dos tecidos do corpo e são herdadas. Se apenas um único alelo está somaticamente mutado, é indicado um estado neoplásico precoce. No entanto, se ambos os alelos estão somaticamente mutados, então é indicado um estado neoplásico tardio. A identificação de mutações de BRCA1 proporciona assim informação tanto de diagnóstico como de prognóstico. Um alelo de BRCA1 que não esteja delecionado (p.ex., encontrado no cromossoma irmão de um cromossoma portador de uma deleção de BRCA1) pode ser pesquisado quanto a outras mutações, tais como inserções, pequenas deleções e mutações pontuais. Crê-se que muitas mutações encontradas em tecidos tumorais serão as que conduzem a expressão reduzida do produto do gene BRCA1. No entanto, as mutações que conduzem a produtos não funcionais do gene conduziriam também a um estado canceroso. Os eventos mutacionais pontuais podem ocorrer em regiões reguladoras, tais como no promotor do gene, conduzindo a perda ou diminuição da expressão do ARNm. As mutações pontuais podem também abolir o processamento correcto do ARN, conduzindo a perda de expressão do produto do gene BRCA1, ou a uma diminuição na estabilidade do ARNm ou da eficiência da tradução. Técnicas de diagnóstico úteis incluem, mas não se limitam a, hibridação in situ fluorescente (FISH), sequenciação directa de ADN, análise de PFGE, análise de "Southern b/ot", análise de conformação de cadeia simples (SSCA),

86 719 ΕΡ 705 903/ΡΤ ensaio de protecção de ARNase, oligonucleótido específico para o alelo (ASO), análise de "dot b/ot" e PCR-SSCP, tal como discutido em detalhe mais abaixo. A predisposição para cancros, tais como cancro da mama e do ovário, e os outros cancros aqui identificados, pode ser avaliada testando qualquer tecido de um humano quanto a mutações do gene BRCA1. Por exemplo, uma pessoa que herdou uma mutação de BRCA1 da linha germinativa seria propensa a desenvolver cancros. Isto pode ser determinado testando ADN de qualquer tecido do corpo da pessoa. Mais simplesmente, pode ser recolhido sangue e extraído o ADN das células do sangue. Adicionalmente, o diagnóstico pré-natal pode ser realizado testando células fetais, células placentárias ou células amnióticas quanto a mutações do gene BRCA1. A alteração de um alelo de BRCA1 de tipo selvagem, por exemplo, por mutação pontual ou por deleção, pode ser detectada através de qualquer um dos meios aqui discutidos.

Existem vários métodos que podem ser utilizados para detectar uma variação na sequência de ADN. A sequenciação directa de ADN, tanto sequenciação manual como sequenciação fluorescente automática, pode detectar variação de sequência. Para um gene tão grande como BRCA1, a sequenciação manual é muito trabalhosa, mas sob condições óptimas, as mutações na sequência de codificação de um gene raramente não são detectadas. Outra abordagem é o ensaio de polimorfismo de conformação da cadeia simples (SSCP) (Orita et a/., 1989). Este método não detecta todas as mudanças na sequência, especialmente se o tamanho do fragmento de ADN for superior a 200 pb, mas pode ser optimizado para detectar a maior parte da variação da sequência de ADN. A reduzida sensibilidade de detecção é uma desvantagem, mas a maior capacidade de carga com SSCA torna-o numa alternativa atractiva e viável à sequenciação directa para detecção de mutações numa base de investigação. Os fragmentos que sofreram desvios de mobilidade em geles de SSCA são então sequenciados para determinar a natureza exacta da variação da sequência de ADN. Outras abordagens baseadas na detecção de emparelhamentos errados entre as duas cadeias de ADN complementares incluem electroforese em gel desnaturante fixo (CDGE) (Sheffield et a!., 1991), análise de heterodúplices (HA) (White et a/., 1992) e clivagem química de emparelhamentos errados (CMC) (Grompe et al., 1989). Nenhum dos métodos acima descritos detectará grandes deleções, duplicações ou inserções, nem detectará uma mutação reguladora que afecte a transcrição ou tradução da

proteína. Outros métodos que podiam detectar estas classes de mutações tais como um ensaio de truncamento de proteínas ou o ensaio assimétrico, detectam apenas tipos específicos de mutações e não detectariam mutações de sentido errado. Uma revisão dos métodos actualmente disponíveis de deteccão de variaçao na sequência de ADN pode ser encontrada numa revisão recente por Grompe (1993). Uma vez conhecida uma mutação, uma abordagem de detecção específica para o alelo tal como hibridação com um oligonucleótido específico para o alelo (ASO) pode ser utilizada para pesquisar rapidamente um grande número de outras amostras quanto à mesma mutação.

Para detectar a alteração do gene BRCA1 de tipo selvagem num tecido, é útil isolar o tecido sem os tecidos normais circundantes. Os meios de enriquecimento da preparação de tecido quanto a células tumorais são conhecidos na arte. Por exemplo, o tecido pode ser isolado a partir de cortes em parafina ou de criostato. As células cancerígenas podem também ser separadas das células normais através de citometria de fluxo. Estas técnicas, bem como outras técnicas para separação de células tumorais de células normais, são bem conhecidas na arte. Se o tecido tumoral estiver altamente contaminado com células normais, a detecção de mutações é mais difícil.

Uma análise preliminar rápida para detectar polimorfismos em sequências de ADN pode ser efectuada observando uma série de "Southern blots" de ADN cortado com uma ou mais enzimas de restrição, de preferência com um grande número de enzimas de restrição. Cada "blot” contém uma série de indivíduos normais e uma série de casos de cancro, tumores ou ambos. Os "Southern blots" que apresentem fragmentos de hibridação (que difiram no comprimento em relação ao ADN de controlo quando sondados com sequência próximas ou que incluem o locus BRCA1) indicam uma possível mutação. Se forem utilizadas enzimas de restrição que produzam fragmentos de restrição muito grandes, então é empregue a electroforese em gel com campo pulsado (PFGE). A detecção de mutações pontuais pode ser alcançada através de clonagem molecular do(s) alelo(s) de BRCA1 e sequenciação do(s) alelo(s) utilizando técnicas bem conhecidas na arte. Alternativamente, as sequências génicas podem ser amplificadas directamente a partir de uma preparação de ADN genómico de tecido tumoral, utilizando técnicas conhecidas. A sequência de ADN das sequências amplificadas pode então ser determinada.

24 86 719 ΕΡ 705 903/ΡΤ

Existem seis métodos bem conhecidos para um teste mais completo, mas ainda assim indirecto, para confirmação da presença de um alelo de susceptibilidade: 1) análise de conformação de cadeia simples (SSCA) (Orita et a!., 1589); 2) eiectrotorese em gel com gradiente desnaturante (DGGE) (Wartell et al., 1990; Sheffield et al., 1989); 3) ensaios de protecção de ARNase (Finkelstein et al., 1990; Kinszler et al., 1991); 4) oligonucleótidos específicos para o alelo (ASO) (Conner et al., 1983); 5) a utilização de proteínas que reconhecem emparelhamentos errados de nucleótidos, tais como a proteína mutS de E. coli (Modrich, 1991); e 6) PCR específica para o alelo (Rano & Kidd, 1989). Para a PCR específica para o alelo, são utilizados iniciadores que hibridam nas suas extremidades 3' com uma determinada mutação de BRCA1. Se essa determinada mutação de BRCA1 não estiver presente, não se observa um produto de amplificação. Pode também ser utilizado o Sistema de Mutações Refractário por Amplificação (ARMS), tal como divulgado na Publicação do Pedido de Patente Europeia N° 0332435 e em Newton et al., 1989. As inserções e deleções de genes podem também ser detectadas através de clonagem, sequenciação e amplificação. Adicionalmente, podem ser utilizadas sondas de polimorfismo de tamanho de fragmentos de restrição (RFLP) para o gene ou para os genes marcadores circundantes, para classificar a alteração de um alelo ou uma inserção num fragmento polimórfico. Tal método é particularmente útil para pesquisar familiares de um indivíduo afectado quanto à presença da mutação de BRCA1 verificada nesse indivíduo. Podem ser utilizadas outras técnicas para a detecção de inserções e deleções tal como é conhecido na arte.

Nos três primeiros métodos (SSCA, DGGE e ensaio de protecção de ARNase), aparece uma nova banda electroforética. A SSCA detecta uma banda que migra diferencialmente porque a mudança na sequência causa uma diferença no emparelhamento das bases da cadeia simples, intramolecular. A protecção de ARNase envolve a clivagem do polinucleótido mutante em dois ou mais fragmentos mais pequenos. A DGGE detecta diferenças nas taxas de migração de sequências mutantes em comparação com sequências de tipo selvagem, utilizando um gel com gradiente desnaturante. Num ensaio de oligonucleótidos específico para o alelo, é concebido um oligonucleótido que detecta uma sequência específica, e o ensaio é efectuado através da detecção da presença ou ausência de um sinal de hibridação. No ensaio de mutS, a 25 86 719 ΕΡ 705 903/ΡΤ proteína liga-se apenas a sequências que contenham um nucleótido mal emparelhado numa heterodúplice entre as sequências mutante e de tipo selvagem.

Us erros de emparelhamento, de acordo com o presente invento, são dúplices de ácido nucleico hibridadas em que as duas cadeias não são 100% complementares. A falta de total homologia pode ser devida a deleções, inserções, inversões ou substituições. A detecção de erros de emparelhamento pode ser utilizada para detectar mutações pontuais no gene ou no produto do seu ARNm. Embora estas técnicas sejam menos sensíveis que a sequenciação, são mais simples de efectuar para um grande número de amostras de tumores. Um exemplo de uma técnica de clivagem de emparelhamento errado é o método de protecção de ARNase. Na prática do presente invento, o método envolve a utilização de uma ribossonda marcada que é complementar à sequência de codificação do gene BRCA1 de tipo selvagem humano. A ribossonda e ou o ARNm ou o ADN isolado do tecido tumoral são ligados (hibridados) um com o outro e subsequentemente digeridos com a enzima ARNase A que é capaz de detectar alguns emparelhamentos errados numa estrutura dúplice de ARN. Se um emparelhamento errado for detectado pela ARNase A, esta cliva no local do emparelhamento errado. Assim, quando a preparação de ARN hibridado é separada numa matriz de gel electroforética, se foi detectado um emparelhamento errado e clivado pela ARNase A, será observado um produto de ARN que é menor que o ARN dúplice completo para a ribossonda e o ARNm ou ADN. A ribossonda não necessita de ser o ARNm ou gene BRCA1 inteiro mas pode ser um segmento de um destes. Se a ribossonda compreender apenas um segmento do ARNm ou gene BRCA1, será desejável utilizar várias destas sondas para pesquisar toda a sequência do ARNm quanto a emparelhamentos errados.

De modo semelhante, podem ser utilizadas sondas de ADN para detectar emparelhamentos errados, através de clivagem enzimática ou química. Ver, p.ex., Cotton et al., 1988; Shenk et a!., 1975; Novack et al., 1986. Alternativamente, os emparelhamentos errados podem ser detectados através de desvios de mobilidade electroforética de dúplices mal emparelhadas em relação a dúplices bem emparelhadas. Ver, p.ex., Caríello, 1988. Quer com ribossondas quer com sondas de ADN, o ARNm ou o ADN celulares que podiam conter uma mutação podem ser amplificados utilizando PCR (ver abaixo) antes 26 86 719 ΕΡ 705 903/ΡΤ da hibridação. As alterações no ADN do gene BRCA1 podem também ser detectadas utilizando hibridação "Southern", especialmente se as mudanças forem rearranjos grosseiros, tais como deleções e inserções.

As sequências de ADN do gene BRCA1 que foram amplificadas através da utilização de PCR podem também ser pesquisadas utilizando sondas específicas para os aleios. Estas sondas são oligómeros de ácido nucleico, cada um contendo uma região da sequência do gene BRCA1 portadora de uma mutação conhecida. Por exemplo, um oligómero pode ter cerca de 30 nucleótidos de comprimento, correspondendo a uma porção da sequência do gene BRCA1. Através da utilização de uma bateria destas sondas específicas para os aleios, os produtos de amplificação por PCR podem ser pesquisados para identificar a presença de uma mutação previamente identificada no gene BRCA1. A hibridação de sondas específicas para os aleios com as sequências de BRCA1 amplificadas pode ser efectuada, por exemplo, num filtro de nylon. A hibridação com uma determinada sonda sob condições rigorosas de hibridação indica a presença da mesma mutação no tecido tumoral que na sonda específica para o alelo. O teste mais definitivo para mutações num locus candidato é o de comparar directamente sequências genómicas de BRCA1 de doentes de cancro com as de uma população de controlo. Alternativamente, pode-se sequenciar ARN mensageiro após amplificação, p.ex., por PCR, eliminando deste modo a necessidade de determinação da estrutura do exão do gene candidato.

Mutações de doentes de cancro que caiam fora da região de codificação de BRCA1 podem ser detectadas examinando as regiões que não de codificação, tais como intrões e sequências reguladoras próximas ou dentro do gene BRCA1. Uma indicação precoce de que mutações em regiões que não de codificação são importantes pode vir de experiências de "Northern blot" que revelem moléculas de ARN mensageiro de tamanho ou em abundância anormais em doentes de cancro, em comparação com indivíduos de controlo.

A alteração da expressão do ARNm de BRCA1 pode ser detectada através de quaisquer técnicas conhecidas na arte. Estas incluem análise de "Northern blot", amplificação por PCR e protecção de ARNase. A expressão reduzida de ARNm indica uma alteração do gene BRCA1 de tipo selvagem. A 27 86 719 ΕΡ 705 903/ΡΤ alteração de genes BRCA1 de tipo selvagem pode também ser detectada pesquisando quanto a alteração da proteína BRCA1 de tipo selvagem. Por exemplo, podem ser utilizados anticorpos monoclonais imunorreactivos com BRCA1 para pesquisar um tecido. A falta de um antigénio cognato indicaria uma inulação de BhUAI. Anticorpos específicos para produtos de alelos mutantes podiam também ser utilizados para detectar o produto do gene BRCA1 mutante. Tais ensaios imunológicos podem ser feitos em qualquer um dos formatos convenientes conhecidos na arte. Estes incluem "Western blots”, ensaios imuno-histoquímicos e ensaios ELISA. Qualquer meio para detecção de uma proteína BRCA1 alterada pode ser utilizado para detectar alteração dos genes BRCA1 de tipo selvagem. Podem ser utilizados ensaios funcionais, tais como determinações de ligação a proteínas. Adicionalmente, podem ser utilizados ensaios que detectem a função bioquímica de BRCA1. A determinação de um produto do gene BRCA1 mutante indica alteração de um gene BRCA1 de tipo selvagem.

Os genes ou produtos dos genes BRCA1 mutantes podem também ser detectados noutras amostras do corpo humano, tais como soro, fezes, urina e esputo. As mesmas técnicas discutidas acima para a detecção de genes ou produtos de genes BRCA1 mutantes em tecidos podem ser aplicadas a outras amostras corporais. As células de cancro desprendem-se dos tumores e aparecem nestas amostras corporais. Adicionalmente, o próprio produto do gene BRCA1 pode ser segregado para o espaço extracelular e encontrar-se nestas amostras corporais mesmo na ausência de células de cancro. Através da pesquisa de tais amostras corporais, pode ser conseguido um diagnóstico precoce simples para muito tipos de cancros. Adicionalmente, o progresso da quimioterapia ou da radioterapia pode ser monitorizado mais facilmente testando tais amostras corporais quanto a genes ou produtos de genes BRCA1 mutantes.

Os métodos de diagnóstico do presente invento são aplicáveis a qualquer tumor no qual BRCA1 tenha um papel na tumorigénese. O método de diagnóstico do presente invento é útil para clínicos, para que estes possam decidir sobre um curso de tratamento apropriado.

Os pares iniciadores do presente invento são úteis para a determinação da sequência nucleotídica de um determinado alelo de BRCA1 utilizando PCR.

86 719 ΕΡ 705 903/ΡΤ 28

Os pares de iniciadores de ADN de cadeia simples podem ser ligados a sequências dentro ou à volta do gene BRCA1 no cromossoma 17q21 de forma a iniciar a amplificação da síntese de ADN do próprio gene BRCA1. Um conjunto completo destes iniciadores permite a síntese de todos os nucleótidos ucis sequências de codificação do gene BRCA1, i.e., dos exões. O conjunto de iniciadores permite de preferência a síntese de sequências tanto de intrões como de exões. Podem também ser utilizados iniciadores específicos para o alelo. Tais iniciadores hibridam apenas com determinados alelos mutantes de BRCA1, e assim apenas amplificarão um produto na presença do alelo mutante como molde.

Para facilitar a subsequente clonagem das sequências amplificadas, os iniciadores podem ter sequências de locais de enzimas de restrição anexadas às suas extremidades 5’. Assim, todos os nucleótidos dos iniciadores são derivados das sequências de BRCA1 ou de sequências adjacentes a BRCA1, excepto os poucos nucleótidos necessários para formar um local para uma enzima de restrição. Tais enzimas e locais são bem conhecidos na arte. Os próprios iniciadores podem ser sintetizados utilizando técnicas que são bem conhecidas na arte. Geralmente, os iniciadores podem ser feitos utilizando máquinas de síntese de oligonucleótidos que estão comercialmente disponíveis. Dada a sequência do enquadramento de leitura aberta de BRCA1 mostrada em SEQ ID NO: 1, a concepção de determinados iniciadores está perfeitamente dentro da perícia na arte.

As sondas de ácido nucleico proporcionadas pelo presente invento são úteis para vários fins. Estas podem ser utilizadas em hibridação de "Southern" com ADN genómico e no método de protecção de ARNase para a detecção de mutações pontuais, já discutidas acima. As sondas podem ser utilizadas para detectar produtos de amplificação por PCR. Estas podem também ser utilizadas para detectar emparelhamentos errados com o gene ou ARNm de BRCA1 utilizando outras técnicas.

Verificou-se que indivíduos com o gene BRCA1 de tipo selvagem não têm cancro o que resulta do alelo de BRCA1. No entanto, as mutações que interferem com a função da proteína BRCA1 estão envolvidas na patogénese de cancro. Assim, a presença de um gene BRCA1 alterado (ou mutante) que produza uma proteína possuindo uma perda de função, ou função alterada,

29 86 719 ΕΡ 705 903/ΡΤ correlaciona-se directamente com um maior risco de cancro. De forma a detectar uma mutação do gene BRCA1, é preparada e analisada uma amostra biológica quanto a uma diferença entre a sequência do alelo de BRCA1 a ser analisado e a sequência do alelo de BRCA1 de tipo selvagem. Os alfilns Ho 6RCA i mutantes podem ser inicialmente identificados através de qualquer uma das técnicas acima descritas. Os alelos mutantes são então sequenciados para identificar a mutação específica do alelo mutante particular. Alternativamente, os alelos de BRCA1 mutantes podem ser inicialmente identificados identificando proteínas BRCA1 mutantes (alteradas), utilizando técnicas convencionais. Os alelos mutantes são então sequenciados para identificar a mutação específica para cada alelo. As mutações, especialmente as que conduzem a uma função alterada da proteína BRCA1, são então utilizadas para os métodos de diagnóstico e prognóstico do presente invento.

Definições 0 presente invento emprega as seguintes definições: "Amplificação de Polinucleótidos" utiliza métodos tais como reacção em cadeia com polimerase (PCR), amplificação por ligação (ou reacção em cadeia com ligase (LCR)) e métodos de amplificação baseados na utilização da replicase Q-beta. Estes métodos são bem conhecidos e largamente praticados na arte. Ver, p.ex., Patentes U.S. 4683195 e 4683202 e Innis et a/., 1990 (para PCR); e Wu et a/., 1989a (para LCR). Os reagentes e o equipamento para efectuar as PCR estão comercialmente disponíveis. Os iniciadores úteis para amplificar sequências a partir da região de BRCA1 são de preferência complementares a, e hibridam especificamente com, sequências na região de BRCA1 ou em regiões que flanqueiem uma região alvo aí inclusa. As sequências de BRCA1 geradas por amplificação podem ser sequenciadas directamente. Alternativamente, mas de forma menos desejável, a sequência ou sequências amplificadas podem ser clonadas antes da análise da sequência. Um método para a clonagem directa e análise da sequência de segmentos genómicos enzimaticamente amplificados foi descrito por Scharf, 1986. "Polinucleótido objecto de análise" e "cadeia objecto de análise" referem-se a um polinucleótido de cadeia simples ou dupla que se suspeita conter uma sequência alvo, e que pode estar presente numa variedade de tipos de amostras, incluindo amostras biológicas.

30 86 719 ΕΡ 705 903/ΡΤ "Anticorpos". Ο presente invento proporciona também anticorpos policlonais e/ou monoclonais e fragmentos destes, e equivalentes de ligação imunológica destes, os quais são capazes de se ligar especificamfint« sns polipéptidos BRCA1 e fragmentos destes ou a sequências polinucleotídicas da região de BRCA1, particularmente do locus BRCA1 ou de uma porção deste. O termo "anticorpo" é utilizado para referir tanto uma entidade molecular homogénea, como uma mistura tal como um produto sérico constituído por uma pluralidade de entidades moleculares diferentes. Os polipéptidos podem ser preparados sinteticamente num sintetizador de péptidos e conjugados a uma molécula transportadora (p.ex., hemocianina da lapa) e injectados ao longo de vários meses em coelhos. Os soros dos coelhos são testados quanto à imunorreactividade com o polipéptido ou fragmento de BRCA1. Os anticorpos monoclonais podem ser feitos injectando ratinhos com os polipéptidos proteicos, proteínas de fusão ou fragmentos destes. Os anticorpos monoclonais serão pesquisados através de ELISA e testados quanto à imunorreactividade específica com o polipéptido BRCA1 ou fragmentos deste. Ver, Harlow & Lane, 1988. Estes anticorpos serão úteis em ensaios bem como fármacos.

Uma vez obtida uma quantidade suficiente do polipéptido desejado, este pode ser utilizado para vários fins. Uma utilização típica é a produção de anticorpos específicos para ligação. Estes anticorpos podem ser policlonais ou monoclonais, e podem ser produzidos através de técnicas in vitro ou in vivo bem conhecidas na arte. Para a produção de anticorpos policlonais, é seleccionado um sistema imunitário alvo apropriado, tipicamente ratinho ou coelho. O antigénio substancialmente purificado é apresentado ao sistema imunitário de uma forma determinada por métodos apropriados para o animal e por outros parâmetros bem conhecidos dos imunologistas. Os locais típicos para injecção são as almofadas das patas, intramuscularmente, intraperitonealmente ou intradermicamente. Claro que, o ratinho ou o coelho podem ser substituídos por outras espécies. Os anticorpos policlonais são então purificados utilizando técnicas conhecidas na arte e ajustados à especificidade desejada.

Uma resposta imunológica é normalmente ensaiada com um imunoensaio. Normalmente, tais imunoensaios envolvem alguma purificação de uma fonte de antigénio, por exemplo, a produzida pelas mesmas células e da mesma forma 31 86 719 ΕΡ 705 903/ΡΤ que ο antigénio. Uma variedade de métodos de imunoensaio é bem conhecida na arte. Ver, p.ex., Harlow & Lane, 1988, ou Goding, 1986.

Anticorpos monoclonais com afinidades de 10'8 M'1 ou de preferência 10'9 a 1 Cin ivV’ ou mais rortes serão feitos tipicamente através de procedimentos padrão tal como descrito, p.ex., em Harlow & Lane, 1988 ou Goding, 1986. Resumidamente, serão seleccionados animais apropriados e seguido o protocolo de imunização desejado. Após o período de tempo apropriado, os baços destes animais são excisados e as células individuais do baço são fundidas, tipicamente, com células de mieloma imortalizadas sob condições de selecção apropriadas. Posteriormente, as células são clonalmente separadas e os sobrenadantes de cada clone são testados quanto à produção de um anticorpo apropriado específico para a região desejada do antigénio.

Outras técnicas adequadas envolvem a exposição in vitro de linfócitos aos polipéptidos antigénicos, ou alternativamente, a selecção de bibliotecas de anticorpos em fagos ou vectores semelhantes. Ver Huse et al., 1989. Os polipéptidos e anticorpos do presente invento podem ser utilizados com ou sem modificação. Frequentemente, os polipéptidos e anticorpos serão marcados através da união, covalente ou não covalente, de uma substância que proporcione um sinal detectável. Uma grande variedade de marcadores e de técnicas de conjugação são conhecidos e são extensivamente relatados tanto na literatura científica como na de patentes. Marcadores adequados incluem radionuclídeos, enzimas, substratos, co-factores, inibidores, agentes fluorescentes, agentes quimioluminescentes, partículas magnéticas e semelhantes. Patentes que ensinam a utilização de tais marcadores incluem as Patentes U.S. 3817837, 3850752, 3939350, 3996345, 4277437, 4275149 e 4366241. Também podem ser produzidas imunoglobulinas recombinantes (ver Patente U.S. 4816567). "Parceiro de ligação" refere-se a uma molécula capaz de se ligar a uma molécula de ligando com alta especificidade, tal como por exemplo, um antigénio e um anticorpo específico para o antigénio ou uma enzima e o seu inibidor. Em geral, os parceiros de ligação específicos têm de se ligar com uma afinidade suficiente para imobilizar a dúplice cópia/cadeia complementar objecto de análise (no caso de hibridação polinucleotídica) sob as condições de isolamento. Parceiros de ligação específicos são conhecidos na arte e incluem, 32 86 719 ΕΡ 705 903/ΡΤ por exemplo, biotina e avidina ou estreptavidina, IgG e proteína A, os numerosos pares conhecidos receptor-ligando e cadeias polinucleotídicas complementares. No caso de parceiros de ligação polinucleotídicos complementares, os parceiros têm normalmente cerca de 15 bases He comprimento e podem ter pelo menos 40 bases de comprimento. Os polinucleótidos podem ser compostos por ADN, ARN ou análogos nucleotídicos sintéticos.

Uma "amostra biológica" refere-se a uma amostra de tecido ou fluido suspeita de conter um polinucleótido ou polipéptido objecto de análise de um indivíduo, incluindo, mas não se limitando a, p.ex., plasma, soro, fluido espinal, fluido linfático, as secções externas da pele, tractos respiratório, intestinal e genito-urinário, lágrimas, saliva, células sanguíneas, tumores, órgãos, tecido e amostras de constituintes de culturas celulares in vitro.

Tal como aqui se utiliza, os termos "diagnóstico" e "prognóstico", tal como utilizados no contexto de neoplasia, são utilizados para indicar 1) a classificação de lesões como neoplasia, 2) a determinação da gravidade da neoplasia, ou 3) a monitorização da progressão da doença, antes, durante e após o tratamento. "Codifica". Diz-se que um polinucleótido "codifica" um polipéptido se, no seu estado nativo ou quando manipulado através de métodos bem conhecidos dos peritos na arte, este pode ser transcrito e/ou traduzido para produzir o ARNm e/ou o polipéptido ou um fragmento destes. A cadeia anti-sentido é o complemento deste ácido nucleico e a sequência de codificação pode ser deduzida a partir desta. "Isolado" ou "substancialmente puro". Um ácido nucleico "isolado" ou "substancialmente puro" (p.ex., um ARN, ADN ou um polímero misto) é um que está substancialmente separado de outros componentes celulares que naturalmente acompanham uma sequência ou proteína humana nativa, p.ex., ribossomas, polimerases, muitas outras sequências genómicas e proteínas humanas. O termo engloba uma sequência de ácido nucleico ou proteína que foi removida do seu ambiente de ocorrência natural, e inclui isolados de ADN clonado ou recombinante e análogos quimicamente sintetizados ou análogos biologicamente sintetizados por sistemas heterólogos. 33 86 719 ΕΡ 705 903/ΡΤ "Alelo de BRCA1" refere-se a alelos normais do locus BRCA1 bem como a alelos possuindo variações que predispõem os indivíduos para desenvolverem cancro em muitos locais, por exemplo, cancro da mama, do ovário, colorrectal e da próstata. Tais alelos de predisposição são também chamados "alelos de susceptibilidade de BRCA1". "Locus BRCA1", "Gene BRCA1", "Ácidos Nucleicos de BRCA1" ou "Polinucleótido de BRCA1" referem-se cada um a polinucleótidos, todos na região de BRCA1, que é provável serem expressos em tecido normal, dos quais certos alelos predispõem um indivíduo para desenvolver cancros da mama, do ovário, colorrectal e da próstata. As mutações no locus BRCA1 podem estar envolvidas na iniciação e/ou progressão de outros tipos de tumores. 0 locus é indicado em parte por mutações que predispõem indivíduos para desenvolverem cancro. Estas mutações caiem dentro da região de BRCA1 descrita infra. Pretende-se que o locus BRCA1 inclua sequências de codificação, sequências intervenientes e elementos reguladores que controlem a transcrição e/ou a tradução. Pretende-se que o locus BRCA1 inclua todas as variações alélicas da sequência de ADN.

Estes termos, quando aplicados a um ácido nucleico referem-se a um ácido nucleico que codifica um polipéptido, fragmento, homólogo ou variante de BRCA1, incluindo, p.ex., proteínas de fusão ou deleções. Os ácidos nucleicos do presente invento possuirão uma sequência que é ou derivada de, ou substancialmente semelhante a, um gene natural que codifica BRCA1 ou uma possuindo substancial homologia com um gene natural que codifica BRCA1 ou uma porção deste. A sequência de codificação para um polipéptido BRCA1 é mostrada em SEQ ID NO: 1, com a sequência de aminoácidos mostrada em SEQ ID NO: 2.

As composições polinucleotídicas deste invento incluem ARN, ADNc, ADN genómico, formas sintéticas e polímeros mistos, ambas as cadeias com sentido e anti-sentido, e podem ser modificadas química ou bioquimicamente ou podem conter bases nucleotídicas não naturais ou derivadas, tal como será prontamente apreciado pelos peritos na arte. Tais modificações incluem, por exemplo, marcadores, metilação, substituição de um ou mais nucleótidos de ocorrência natural por um análogo, modificações internucleotídicas tais como 34 86 719 ΕΡ 705 903/ΡΤ ligações sem carga (p.ex., metilfosfonatos, fosfotriésteres, fosfoamidatos, carbamatos, etc.), ligações com carga (p.ex., fosforotioatos, fosforoditioatos, etc.), porções pendentes (p.ex., polipéptidos), intercaladores (p.ex., acridina, psoralen, etc.), quelantes, alquilantes e ligações modificadas (o.ex.. ácidos nucleicos alfa-anoméricos, etc.). Também estão incluídas moléculas sintéticas que imitam polinucleótidos na sua capacidade para se ligarem a uma designada sequência através de pontes de hidrogénio e outras interacções químicas. Tais moléculas são conhecidas na arte e incluem, por exemplo, aquelas em que as ligações fosfato substituem ligações peptídicas na estrutura da molécula. O presente invento proporciona ácidos nucleicos recombinantes compreendendo toda ou parte da região de BRCA1. A construção recombinante pode ser capaz de replicar autonomamente numa célula hospedeira. Alternativamente, a construção recombinante pode ficar integrada no ADN cromossómico da célula hospedeira. Tal polinucleótido recombinante compreende um polinucleótido de origem genómica, em ADNc, semi-sintética ou sintética, o qual, em virtude da sua origem ou manipulação, 1) não está associado a todo ou a parte de um polinucleótido com o qual está associado na natureza; 2) está ligado a um polinucleótido diferente daquele a que está ligado na natureza; ou 3) não ocorre na natureza.

Portanto, são proporcionados por este invento ácidos nucleicos recombinantes compreendendo sequências que de outro modo não ocorrem naturalmente. Embora a sequência de tipo selvagem possa ser empregue, esta será frequentemente alterada, p.ex., através de deleção, substituição ou inserção.

Podem ser pesquisadas bibliotecas de ADNc ou genómicas de vários tipos como fontes naturais dos ácidos nucleicos do presente invento, ou tais ácidos nucleicos podem ser proporcionados através de amplificação das sequências residentes no ADN genómico ou outras fontes naturais, p.ex., por PCR. A escolha de bibliotecas de ADNc corresponde normalmente a uma fonte de tecido a qual é abundante em ARNm para as proteínas desejadas. Normalmente são preferidas bibliotecas fágicas, mas podem ser utilizados outros tipos de bibliotecas. Os clones de uma biblioteca são espalhados sobre placas, transferidos para um substrato para pesquisa, desnaturados e sondados quanto à presença das sequências desejadas. 35 86 719 ΕΡ 705 903/ΡΤ

As sequências de ADN utilizadas neste invento compreenderão normalmente pelo menos cerca de cinco codões (15 nucleótidos), mais habitualmente pelo menos cerca de 7-15 codões, e de preferência, pelo menos cerca de 55 codões. Podem também estar presentes um ou mais intrões. Este número de nucleótidos é normalmente aproximadamente o comprimento mínimo necessário para uma sonda bem sucedida que hibridará especificamente com uma sequência que codifique BRCA1. Técnicas para manipulação de ácidos nucleicos são descritas genericamente, por exemplo, em Sambrook, et a!., 1989 ou Ausubel et a/., 1992. Os reagentes úteis na aplicação de tais técnicas, tais como enzimas de restrição e semelhantes, são amplamente conhecidos na arte e estão comercialmente disponíveis a partir de vendedores tais como New England BioLabs, Boehringer Mannheim, Amersham, Promega Biotec, U.S. Biochemicals, New England Nuclear, e várias outras fontes. As sequências de ácido nucleico recombinantes utilizadas para produzir as proteínas de fusão do presente invento podem ser derivadas de sequências naturais ou sintéticas. Muitas sequências génicas naturais são obteníveis a partir de vários ADNc ou a partir de bibliotecas genómicas utilizando sondas apropriadas. Ver, GenBank, National Institutes of Health. "Região de BRCA1" refere-se a uma porção do cromossoma 17q21 humano limitada pelos marcadores tdj 1 474 e U5R. Esta região contém o locus BRCA1, incluindo o gene BRCA1.

Tal como aqui se utiliza, os termos locus BRCA1", "alelo de BRCA1" e "região de BRCA1" referem-se todos ao ADN de cadeia dupla compreendendo o locus, alelo ou região, bem como qualquer um dos ADN de cadeia simples que compreendem o locus, alelo ou região.

Tal como aqui se utiliza, uma "porção" do locus ou região ou alelo de BRCA1 é definida como possuindo um tamanho mínimo de pelo menos cerca de oito nucleótidos, ou de preferência cerca de 15 nucleótidos, sendo ainda mais preferível pelo menos cerca de 25 nucleótidos, e pode ter um tamanho mínimo de pelo menos cerca de 40 nucleótidos. 36 86 719 ΕΡ 705 903/ΡΤ "Proteína BRCA1" ou "polipéptido BRCA1" referem-se a uma proteína ou polipéptido codificado pelo locus BRCA1, suas variantes ou seus fragmentos. 0 termo "polipéptido" refere-se a um polímero de aminoácidos e seu equivalente e não se refere a um comprimento específico do produto; assim, estão incluídos hõ ueíinição de um polipéptido péptidos, oligopéptidos e proteínas. Este termo também não se refere a, ou exclui, modificações do polipéptido, por exemplo, glicosilações, acetilações, fosforilações, e semelhantes. Estão incluídos na definição, por exemplo, polipéptidos contendo um ou mais análogos de um aminoácido (incluindo, por exemplo, aminoácidos não naturais, etc.), polipéptidos com ligações substituídas bem como outras modificações conhecidas na arte, tanto de ocorrência natural como não natural. Vulgarmente, tais polipéptidos serão pelo menos cerca de 50% homólogos à sequência de BRCA1 nativa, de preferência mais de cerca de 90%, sendo mais preferível pelo menos cerca de 95% homólogos. Também estão incluídas as proteínas codificadas pelo ADN que híbrida sob condições de rigor elevado ou reduzido, com ácidos nucleicos que codificam BRCA1 e polipéptidos ou proteínas intimamente relacionados recuperados por anti-soros para a(s) proteína(s) BRCA1. 0 comprimento das sequências polipeptídicas comparadas quanto à homologia será geralmente de pelo menos cerca de 16 aminoácidos, normalmente pelo menos cerca de 20 resíduos, mais vulgarmente pelo menos cerca de 24 resíduos, tipicamente pelo menos cerca de 28 resíduos e de preferência mais de cerca de 35 resíduos. "Operativamente ligado " refere-se a uma justaposição em que os componentes assim descritos estão numa relação que lhes permite funcionar do modo pretendido. Por exemplo, um promotor está operativamente ligado a uma sequência de codificação se o promotor afectar a sua transcrição ou expressão. "Sondas". Os polimorfismos de polinucleótidos associados aos alelos de BRCA1 que predispõem para certos cancros ou estão associados com a maioria dos cancros são detectados através de hibridação com uma sonda polinucleotídica que forma um híbrido estável com o da sequência alvo, sob condições de hibridação e lavagem rigorosas a moderadamente rigorosas. Se se esperar que as sondas sejam perfeitamente complementares à sequência alvo, serão utilizadas condições rigorosas. 0 rigor da hibridação pode ser reduzido se 37 86 719 ΕΡ 705 903/ΡΤ for esperado algum emparelhamento errado, por exemplo, se forem esperaoas variantes com o resultado de que a sonda não seja completamente complementar. São escolhidas condições que eliminem ligações não específicas/adventícias, isto é, que minimizem o ruído. Uma vez que tais indicações identificam polimorfismos de ADN neutros bem como mutações, estas indicações necessitam de mais análise para se demonstrar a detecção de um alelo de susceptibilidade de BRCA1,

As sondas para os alelos de BRCA1 podem ser derivadas das sequências da região de BRCA1 ou dos seus ADNc. As sondas podem ser de qualquer comprimento adequado, que abranja toda ou uma porção da região de BRCA1, e que permita a hibridação específica com a região de BRCA1. Se a sequência alvo contiver uma sequência idêntica à da sonda, as sondas podem ser curtas, p.ex., no intervalo de cerca de 8-30 pares de bases, uma vez que o híbrido será relativamente estável mesmo sob condições rigorosas. Se se espera algum grau de emparelhamento errado com a sonda, i.e., se se suspeita que a sonda hibridará com uma região variante, pode ser empregue uma sonda maior que hibride com a sequência alvo com a especificidade requerida.

As sondas incluirão um polinucleótido isolado ligado a um marcador ou molécula repórter e podem ser utilizadas para isolar outras sequências polinucleotídicas, possuindo semelhança de sequência, através de métodos padrão. Para técnicas para preparação e marcação de sondas ver, p.ex., Sambrook, et a!., 1989 ou Ausubel et al., 1992. Podem ser seleccionados outros polinucleótidos semelhantes utilizando polinucleótidos homólogos. Alternativamente, podem ser sintetizados ou seleccionados polinucleótidos que codifiquem estes polipéptidos ou polipéptidos semelhantes, através da utilização da redundância no código genético. Podem ser introduzidas várias substituições de codões, p.ex., através de mudanças silenciosas (produzindo deste modo vários locais de restrição) ou para optimizar a expressão para um determinado sistema. Podem ser introduzidas mutações para modificar as propriedades do polipéptido, talvez para mudar as afinidades de ligação ao ligando, as afinidades inter-cadeias, ou a taxa de degradação ou rotatividade do polipéptido.

As sondas compreendendo oligonucleótidos sintéticos ou outros polinucleótidos do presente invento podem ser derivadas de polinucleótidos de cadeia simples ou dupla de ocorrência natural ou recombinantes, ou ser 38 86 719 ΕΡ 705 903/ΡΤ quimicamente sintetizadas. As sondas podem também ser marcadas através de tradução por cortes, reacção de preenchimento de Klenow, ou outros métodos conhecidos na arte. São preferidas como sondas porções da sequência polinucleotídica possuindo pelo menos cerca de oito nucleótidos, normalmente pelo menos cerca de 15 nucleótidos, e menos de cerca de 6 kb, normalmente menos de cerca de 1,0 kb, a partir de uma sequência polinucleotídica que codifique BRCA1. As sondas podem também ser utilizadas para se determinar se o ARNm que codifica BRCA1 está presente numa célula ou tecido. "Modificações proteicas ou fragmentos proteicos" são proporcionados pelo presente invento para polipéptidos BRCA1 ou fragmentos destes que sejam substancialmente homólogos à sequência estrutural primária mas que incluam, p.ex., modificações químicas e bioquímicas in vivo ou in vitro ou que incorporem aminoácidos invulgares. Tais modificações incluem, por exemplo, acetilação, carboxilação, fosforilação, glicosilação, ubiquitinação, marcação, p.ex., com radionuclídeos, e várias modificações enzimáticas, tal como será prontamente notado pelos peritos na arte. Uma variedade de métodos para marcação de polipéptidos e de substituintes ou marcadores úteis para estes fins, são bem conhecidos na arte, e incluem isótopos radioactivos tais como 32P, ligandos que se ligam a anti-ligandos marcados (p.ex., anticorpos), fluoróforos, agentes quimioluminescentes, enzimas e anti-ligandos que podem servir como membros de pares de ligação específica para um ligando marcado. A escolha do marcador depende da sensibilidade requerida, da facilidade de conjugação com o iniciador, de requisitos de estabilidade e instrumentação disponível. Os métodos de marcação de polipéptidos são bem conhecidos na arte. Ver, p.ex., Sambrook, et al., 1989 ou Ausubel et al.r 1992.

Para além de polipéptidos substancialmente completos, o presente invento proporciona fragmentos biologicamente activos dos polipéptidos. As actividades biológicas significativas incluem ligação ao ligando, actividade imunológica e outras actividades biológicas características dos polipéptidos BRCA1. As actividades imunológicas incluem tanto a função imunogénica num sistema imunitário alvo, como a partilha de epítopos imunológicos para ligação, servindo ou como competidor ou como antigénio substituto para um epítopo da proteína BRCA1. Tal como aqui utilizado, "epítopo" refere-se a um determinante 39 86 719 ΕΡ 705 903/ΡΤ antigénico de um polipéptido. Um epítopo pode compreender três aminoácidos numa conformação espacial que seja única para o epítopo. Geralmente, um epítopo consiste em pelo menos cinco destes aminoácidos, e mais usualmente consiste em pelo menos 8-10 destes aminoácidos. Os métodos de determinação da conformação espacial destes aminoácidos são conhecidos na arte.

Para fins imunológicos, podem ser utilizados segmentos polipeptídicos repetidos em cadeia como imunogénios, produzindo-se deste modo proteínas altamente antigénicas. Alternativamente, tais polipéptidos servirão como competidores altamente eficientes para a ligação específica. A produção de anticorpos específicos para polipéptidos BRCA1 ou fragmentos destes é descrita abaixo. O presente invento proporciona também polipéptidos de fusão, compreendendo polipéptidos e fragmentos de BRCA1. Os polipéptidos homólogos podem ser fusões entre duas ou mais sequências polipeptídicas de BRCA1 ou entre as sequências de BRCA1 e uma proteína relacionada. Igualmente, podem ser construídas fusões heterólogas que exibiriam uma combinação de propriedades ou actividades das proteínas derivadas. Por exemplo, o domínio de ligação ao ligando ou outros podem ser "trocados" entre novos polipéptidos ou fragmentos de fusão diferentes. Tais polipéptidos de fusão homólogos ou heterólogos podem apresentar, por exemplo, força ou especificidade de ligação alteradas. Os parceiros de fusão incluem imunoglobulinas, β-galactosidase bacteriana, trpE, proteína A, β-lactamase, alfa-amilase, álcool-desidrogenase e factor alfa de conjugação de leveduras. Ver, p.ex., Godowski et a/., 1988.

As proteínas de fusão serão tipicamente feitas por métodos de ácido nucleico recombinante, tal como descrito abaixo, ou podem ser sintetizadas quimicamente. As técnicas para a síntese de polipéptidos estão descritas, por exemplo, em Merrifield, 1963. "Purificação proteica" refere-se a vários métodos para o isolamento de polipéptidos BRCA1 a partir de outro material biológico, tal como a partir de células transformadas com ácidos nucleicos recombinantes que codifiquem BRCA1, e são bem conhecidos na arte. Por exemplo, tais polipéptidos podem 40 86 719 ΕΡ 705 903/ΡΤ ser purificados por cromatografia de imunoafinidade empregando, p.ex., os anticorpos proporcionados pelo presente invento. Vários métodos de purificação proteica são bem conhecidos na arte e incluem os descritos em Deutscher, 1990 e Scopes, 1982.

Os termos "isolado", "substancialmente puro" e "substancialmente homogéneo" são utilizados alternadamente para descrever uma proteína ou polipéptido que foi separado de componentes que o acompanham no seu estado natural. Uma proteína monomérica é substancialmente pura quando pelo menos cerca de 60 a 75% de uma amostra exibe uma única sequência polipeptídica. Uma proteína substancialmente pura constituirá tipicamente cerca de 60 a 90% p/p de uma amostra proteica, mais usualmente cerca de 95%, e de preferência será mais de cerca de 99% pura. A pureza ou homogeneidade proteica pode ser indicada através de vários meios bem conhecidos na arte, tais como electroforese em gel de poliacrilamida de uma amostra proteica, seguido de visualização de uma única banda polipeptídica após coloração do gel. Para certos fins, pode ser proporcionada uma maior resolução utilizando HPLC ou outros meios bem conhecidos na arte que são utilizados para purificação.

Uma proteína BRCA1 está substancialmente isenta de componentes naturalmente associados quando esta é separada dos contaminantes nativos que a acompanham no seu estado natural. Assim, um polipéptido que é sintetizado quimicamente ou sintetizado num sistema celular diferente da célula da qual tem naturalmente origem, estará substancialmente isento dos componentes que lhe estão naturalmente associados. Uma proteína pode também ser tornada substancialmente isenta de componentes naturalmente associados através de isolamento, utilizando técnicas de purificação proteica bem conhecidas na arte.

Um polipéptido produzido como produto de expressão de uma sequência genética isolada e manipulada é um "polipéptido isolado", tal como aqui se utiliza, mesmo se expresso num tipo celular homólogo. Formas ou moléculas produzidas sinteticamente expressas por células heterólogas são moléculas inerentemente isoladas. "Acido nucleico recombinante" é um ácido nucleico que não é de ocorrência natural, ou que é feito através da combinação artificial de dois

segmentos da sequência de outro modo separados. Esta combinação artificial é frequentemente alcançada através de meios de síntese química ou através da manipulação artificial de segmentos isolados de ácidos nucleicos, p.ex., através de técnicas de engenharia genética. Tal é usualmente feito para substituir um codão por um codão redundante que codifique o mesmo aminoácido ou um aminoácido conservativo, ao mesmo tempo que tipicamente se introduz ou remove um local de reconhecimento da sequência. Alternativamente, é efectuada para unir uns aos outros segmentos de ácido nucleico com funções desejadas para gerar uma combinação desejada de funções. "Sequências reguladoras" refere-se às sequências normalmente dentro dos 100 kb da região de codificação de um locus, mas estas podem também estar mais distantes da região de codificação, as quais afectam a expressão do gene (incluindo a transcrição do gene, e tradução, processamento, estabilidade ou semelhantes do ARN mensageiro). "Homologia ou semelhança substancial". Um ácido nucleico ou fragmento deste é "substancialmente homólogo" (ou "substancialmente semelhante") a outro se, quando optimamente alinhado (com as inserções ou deleções de nucleótidos apropriadas) com o outro ácido nucleico (ou a sua cadeia complementar), existe identidade da sequência nucleotídica em pelo menos cerca de 60% das bases nucleotídicas, usualmente pelo menos cerca de 70%, mais usualmente pelo menos cerca de 80%, de preferência pelo menos cerca de 90%, sendo mais preferível pelo menos cerca de 95-98% das bases nucleotídicas.

Alternativamente, existe homologia (ou semelhança) substancial quando um ácido nucleico ou seu fragmento hibrida com outro ácido nucleico (ou uma cadeia sua complementar) sob condições de hibridação selectivas, com uma cadeia, ou com o seu complemento. Existe selectividade de hibridação quando ocorre hibridação que é substancialmente mais selectiva que uma ausência total de especificidade. Tipicamente, ocorrerá hibridação selectiva quando existir pelo menos cerca de 55% de homologia ao longo de uma extensão de pelo menos 14 nucleótidos, de preferência pelo menos cerca de 65%, sendo mais preferível pelo menos cerca de 75%, e sendo ainda mais preferível pelo menos cerca de 90%. Ver, Kanehisa, 1984. O comprimento da comparação de homologia, tal como descrito, pode ser ao longo de extensões maiores, e em certas

42 86 719 ΕΡ 705 903/ΡΤ concretizações será frequentemente ao longo de uma extensão de pelo menos nove nucleótidos, usualmente pelo menos cerca de 20 nucleótidos, mais usualmente pelo menos cerca de 24 nucleótidos, tipicamente pelo menos cerca de 28 nucleótidos, mais tipicamente pelo menos cerca de 32 nucleótidos, e de preferência pelo menos cerca de 36 ou mais nucleótidos. A hibridação de ácidos nucleicos será afectada por condições tais como concentração salina, temperatura ou solventes orgânicos, em adição à composição de bases, comprimento das cadeias complementares e número de emparelhamentos errados de bases nucleotídicas entre os ácidos nucleicos que hibridam, tal como será prontamente apreciado pelos peritos na arte. Condições de temperatura rigorosas incluirão geralmente temperaturas acima de 30°C, tipicamente acima de 37°C, e de preferência acima de 45°C. Condições salinas rigorosas serão vulgarmente de menos de 1000 mM, tipicamente menos de 500 mM, e de preferência menos de 200 mM. No entanto, a combinação de parâmetros é muito mais importante que a medição de um único qualquer parâmetro. Ver, p.ex., Wetmur & Davidson, 1968.

As sequências-sonda podem também hibridar especificamente com um ADN dúplice sob certas condições para formar uma tríplice ou outros complexos de ADN de ordem superior. A preparação de tais sondas e as condições de hibridação adequadas são bem conhecidas na arte.

Os termos "homologia substancial" ou "identidade substancial", quando se referem a polipéptidos, indicam que o polipéptido ou proteína em questão exibe pelo menos cerca de 30% de identidade com uma proteína de ocorrência natural completa ou uma porção desta, usualmente pelo menos cerca de 70% de igualdade, e de preferência pelo menos cerca de 95% de igualdade. "Função substancialmente semelhante" refere-se à função de um ácido nucleico modificado ou de uma proteína modificada, em relação ao ácido nucleico de BRCA1 de tipo selvagem ou polipéptido BRCA1 de tipo selvagem. O polipéptido modificado será substancialmente homólogo ao polipéptido BRCA1 de tipo selvagem e terá substancialmente a mesma função. 0 polipéptido modificado pode ter uma sequência de aminoácidos alterada e/ou pode conter aminoácidos modificados. Adicionalmente à semelhança de função, o polipéptido modificado pode ter outras propriedades úteis, tais como uma 43 86 719 ΕΡ 705 903/ΡΤ semi-vida mais longa. A semelhança de função (actividade) do polipéptido modificado pode ser substancialmente a mesma que a actividade do polipéptido BRCA1 de tipo selvagem. Alternativamente, a semelhança de função (actividade) do polipéptido modificado pode ser superior à actividade do poiipéptioo tSHUAI de tipo selvagem. O polipéptido modificado é sintetizado utilizando técnicas convencionais, ou é codificado por um ácido nucleico modificado e produzido utilizando técnicas convencionais. 0 ácido nucleico modificado é preparado através de técnicas convencionais. Um ácido nucleico com uma função substancialmente semelhante à função do gene BRCA1 de tipo selvagem produz a proteína modificada descrita acima. A homologia, para polipéptidos, é tipicamente medida utilizando suporte lógico de análise de sequências. Ver, p.ex., o Sequence Analysis Software Package do Genetics Computer Group, University of Wiscosin Biotechnology Center, 910 University Avenue, Madison, Wisconsin 53705. 0 suporte lógico de análise proteica faz coincidir sequências semelhantes utilizando a medida de homologia atribuída a várias substituições, deleções e outras modificações. As substituições conservativas incluem tipicamente substituições dentro dos seguintes grupos: glicina, alanina; valina, isoleucina, leucina; ácido aspártico, ácido glutâmico; asparagina, glutamina; serina, treonina; lisina, arginina; e fenilalanina, tirosina.

Um "fragmento", "porção" ou "segmento" polipeptídico é uma extensão de resíduos de aminoácidos de pelo menos cerca de cinco a sete aminoácidos contíguos, frequentemente pelo menos cerca de sete a nove aminoácidos contíguos, tipicamente pelo menos cerca de nove a 1 3 aminoácidos contíguos e, de preferência, pelo menos cerca de 20 a 30 ou mais aminoácidos contíguos.

Os polipéptidos do presente invento, se forem solúveis, podem ser acoplados com um suporte em fase sólida, p.ex., nitrocelulose, nylon, materiais de enchimento de colunas (p.ex., contas de "Sepharose"), contas magnéticas, lã de vidro, plástico, metal, geles poliméricos, células ou outros substratos. Tais suportes podem tomar a forma, por exemplo, de contas, poços, varetas ou membranas. "Região alvo" refere-se a uma região do ácido nucleico que é amplificada e/ou detectada. 0 termo "sequência alvo" refere-se a uma sequência com a 44 86 719 ΕΡ 705 903/ΡΤ qual uma sonda ou um iniciador forma um híbrido estável sob condições desejadas. A prática do presente invento emprega, a menos que indicado em uuiúrário, xécnicas convencionais de química, biologia molecular, microbiologia, ADN recombinante, genética e imunologia. Ver, p.ex., Maniatis et aí., 1982; Sambrook, et aí., 1989; Ausubel et aí., 1992; Glover, 1985; Anand, 1992; Guthrie & Fink, 1991. Um discussão geral de técnicas e materiais para mapeamento de genes humanos, incluindo o mapeamento do cromossoma humano 17q, é proporcionada, p.ex., em White e Lalouel, 1988.

Preparação de ácidos nucleicos recombinantes ou sintetizados quimicamente; vectores, transformação, células hospedeiras

Podem ser produzidas grandes quantidades de polinucleótidos do presente invento por replicação numa célula hospedeira adequada. Os fragmentos polinucleotídicos naturais ou sintéticos que codificam para um fragmento desejado serão incorporados em construções polinucleotídicas recombinantes, usualmente construções de ADN, capazes de introdução e replicação numa célula procariótica ou eucariótica. Usualmente as construções polinucleotídicas serão adequadas para replicação num hospedeiro unicelular, tal como leveduras ou bactérias, mas também se pode pretender que sejam para introdução em (com e sem integração dentro do genoma) linhas celulares de mamífero ou vegetais em cultura ou outras linhas celulares eucarióticas. A purificação dos ácidos nucleicos produzidos através dos métodos do presente invento está descrita, p.ex., em Sambrook, et aL, 1989 ou Ausubel et aí., 1992.

Os polinucleótidos do presente invento podem também ser produzidos através de síntese química, p.ex., através do método do fosforamidito descrito por Beaucage & Carruthers, 1981 ou do método do triéster de acordo com Matteucci e Carruthers, 1981, e pode ser efectuada em sintetizadores de oligonucleótidos comerciais e automáticos. Um fragmento de cadeia dupla pode ser obtido a partir do produto de cadeia simples da síntese química através ou de síntese da cadeia complementar e hibridação das cadeias uma à outra sob condições apropriadas ou adicionando a cadeia complementar utilizando AND-polimerase com uma sequência iniciadora apropriada. 45 86 719 ΕΡ 705 903/ΡΤ

As construções polinucleotídicas preparadas para introdução num hospedeiro procariótico ou eucariótico podem constituir um sistema de replicação reconhecido pelo hospedeiro, incluindo o fragmento polinucleotídico pretendido que codifica o polipéptido desejado, e de preferência incluirá também sequências reguladoras da iniciação da transcrição e tradução ligadas operativamente ao segmento que codifica o polipéptido. Os vectores de expressão podem incluir, por exemplo, uma origem de replicação ou uma sequência de replicação autónoma (ARS) e sequências de controlo da expressão, um promotor, um estimulador e locais para processamento de informação necessários, tais como locais de ligação a ribossomas, locais de união do ARN, locais de poliadenilação, sequências de terminação da transcrição e sequências estabilizadoras do ARNm. Podem também ser incluídos sinais de secreção, quando apropriado, ou a partir de uma proteína BRCA1 nativa ou a partir de outros receptores ou a partir de polipéptidos segregados, da mesma espécie ou de espécies relacionadas, os quais permitem que a proteína atravesse e/ou se instale em membranas celulares, e assim consiga a sua topologia funcional, ou seja segregada para fora da célula. Tais vectores podem ser preparados através de técnicas recombinantes padrão bem conhecidas na arte e discutidas, por exemplo, em Sambrook, et al., 1 989 ou Ausubel et al., 1 992.

Será seleccionado um promotor apropriado e outras sequências do vector necessárias de forma a serem funcionais no hospedeiro, e podem incluir, quando apropriado, as que estão naturalmente associadas a genes BRCA1. Exemplos de combinações operativas de linhas celulares e vectores de expressão são descritos em Sambrook, et al., 1989 ou Ausubel et a!., 1992; ver também, p.ex., Metzger et al., 1988. Muitos vectores úteis são conhecidos na arte e podem ser obtidos a partir de vendedores tais como Stratagene, New England Biolabs, Promega Biotech, e outros. Promotores tais como trp, lac e promotores fágicos, promotores de ARNt e promotores de enzimas glicolíticas podem ser utilizados em hospedeiros procarióticos. Promotores de leveduras úteis incluem regiões promotoras para metalotioneína, 3-fosfoglicerato-quinase ou outras enzimas glicolíticas tais como enolase ou gliceraldeído-3-fosfato-desidrogenase, enzimas responsáveis pela utilização da maltose e da galactose, e outras. Os vectores e promotores adequados para utilização em expressão em leveduras são ainda descritos em Hitzeman et a/., ΕΡ 73675A. Promotores de mamífero não nativos apropriados podem incluir os promotores precoce e tardio 46 86 719 ΕΡ 705 903/ΡΤ de SV40 (Fiers et a/., 1978) ou promotores derivados do vírus da leucemia de Moloney de murídeo, vírus de tumores de ratinho, vírus do sarcoma de aves, adenovírus II, vírus do papiloma bovino ou polioma. Adicionalmente, a construção pode ser unida a um gene amplificável (p.ex., DHFR) de forma a que pussarn ser feitas múltiplas cópias do gene. Para sequências estimuladoras apropriadas e outras sequências de controlo da expressão, ver também Enhancers and Eukaryotic Gene Expression, Cold Spring Harbor Press, Cold Spring Harbor, New York (1983).

Embora tais vectores de expressão se possam replicar autonomamente, estes podem também ser replicados introduzindo-os no genoma da célula hospedeira, através de métodos bem conhecidos na arte.

Os vectores de expressão e clonagem conterão provavelmente um marcador seleccionável, um gene codificando uma proteína necessária para a sobrevivência ou crescimento de uma célula hospedeira transformada com o vector. A presença deste gene assegura o crescimento apenas das células hospedeiras que expressem as inserções. Genes de selecção típicos codificam proteínas que a) conferem resistência a antibióticos ou outras substâncias tóxicas, p.ex., ampicilina, neomicina, metotrexato, etc.; b) complementam deficiências auxotróficas, ou c) fornecem nutrientes críticos não disponíveis em meios complexos, p.ex., o gene que codifica D-alanina-racemase para BaciHi. A escolha do marcador seleccionável correcto dependerá da célula hospedeira e os marcadores apropriados para diferentes hospedeiros são bem conhecidos na arte.

Os vectores contendo os ácidos nucleicos de interesse podem ser transcritos in vitro, e o ARN resultante introduzido na célula hospedeira através de métodos bem conhecidos, p.ex., por injecção (ver, Kubo et al.r 1988), ou os vectores podem ser introduzidos directamente em células hospedeiras através de métodos bem conhecidos na arte, que variam dependendo do tipo de célula hospedeira, incluindo electroporação; transfecção empregando cloreto de cálcio, cloreto de rubídio, fosfato de cálcio, DEAE-dextrano, ou outras substâncias; bombardeamento de microprojécteis; lipofecção; infecção (quando o vector é um agente infeccioso, tal como um genoma retroviral); e outros métodos. Ver geralmente, Sambrook, et ai, 1989 ou Ausubel et al., 1992. A introdução dos polinucleótidos na célula hospedeira através de qualquer método conhecido na 47 86 719 ΕΡ 705 903/ΡΤ arte, incluindo, inter alia, os acima descritos, será aqui referida como "transformação". Pretende-se que as células nas quais foram introduzidos os ácidos nucleicos acima descritos incluam também a descendência destas células.

Podem ser preparadas grandes quantidades dos ácidos nucleicos e polipéptidos do presente invento expressando os ácidos nucleicos de BRCA1 ou porções destes em vectores ou outros veículos de expressão em células hospedeiras procarióticas ou eucarióticas compatíveis. Os hospedeiros procarióticos mais vulgarmente utilizados são estirpes de Escherichia coli, embora também possam ser utilizados outros procariotas, tais como Baci/lus subtilis ou Pseudomonas. Células de mamífero ou outras células hospedeiras eucarióticas, tais como as de leveduras, fungos filamentosos, plantas, insectos, ou espécies de anfíbios ou aves, podem também ser úteis para a produção das proteínas do presente invento. A propagação de células de mamífero em cultura é per se bem conhecida. Ver, Jakoby e Pastan, 1979. Exemplos de linhas celulares hospedeiras de mamífero vulgarmente utilizadas são as células VERO e HeLa, células de Ovário de Hamster Chinês (CHO) e as linhas celulares WI38, BHK, e COS, ainda que o praticante com perícia notará que outras linhas celulares podem ser apropriadas, p.ex., para proporcionar maior expressão, padrões de glicosilação desejáveis, ou outras características.

Os clones são seleccionados utilizando marcadores consoante o modo de construção do vector. 0 marcador pode estar na mesma molécula de ADN ou numa molécula diferente, de preferência na mesma molécula de ADN. Em hospedeiros procarióticos, o transformante pode ser seleccionado, p.ex., por resistência a ampicilina, tetraciclina ou outros antibióticos. A produção de um determinado produto baseada na sensibilidade à temperatura pode também servir como um marcador apropriado.

As células procarióticas ou eucarióticas transformadas com os polinucleótidos do presente invento serão úteis não só para a produção dos ácidos nucleicos e polipéptidos do presente invento, mas também, por exemplo, no estudo das características de polipéptidos BRCA1.

86 719 ΕΡ 705 903/ΡΤ 48

Sequências polinucleotídicas anti-sentido são úteis na prevenção ou diminuição da expressão do locus BRCA1, tal como será apreciado pelo peritos na arte. Por exemplo, os vectores polinucleotídicos contendo todo ou uma porção do locus BRCA1 ou outras sequências da região de BRCA1 (pai Licuiarmente as que flanqueiam o locus BRCA1) podem ser colocados sob o controlo de um promotor numa orientação anti-sentido e introduzidos numa célula. A expressão de uma tal construção anti-sentido dentro de uma célula interferirá com a transcrição e/ou tradução e/ou replicação de BRCA1.

As sondas e iniciadores baseados nas sequências do gene BRCA1 aqui divulgadas são utilizadas para identificar proteínas e sequências do gene BRCA1 homólogas noutras espécies. Estas proteínas e sequências do gene BRCA1 são utilizadas nos métodos de diagnóstico/prognóstico, terapêuticos e de pesquisa de fármacos aqui descritos para as espécies a partir das quais estas foram isoladas. Métodos de Utilização: Estojos de Diagnose e Diagnóstico com Ácidos Nucleicos

De forma a detectar a presença de um alelo de BRCA1 que predisponha um indivíduo para cancro, uma amostra biológica, tal como sangue, é preparada e analisada quanto à presença ou ausência de alelos de susceptibilidade de BRCA1. De forma a detectar a presença de neoplasia, a progressão em direcção à malignidade de uma lesão percursora, ou como indicador de prognóstico, uma amostra biológica da lesão é preparada e analisada quanto à presença ou ausência de alelos mutantes de BRCA1. Os resultados destes testes e a informação interpretativa são devolvidos ao prestador de cuidados de saúde para comunicação ao indivíduo testado. Tal diagnose pode ser efectuada por laboratórios de diagnóstico, ou, alternativamente, são fabricados e vendidos estojos de diagnóstico a prestadores de cuidados de saúde ou a indivíduos privados para auto-diagnose.

Inicialmente, o método de pesquisa envolve a amplificação das sequências de BRCA1 relevantes. Noutra concretização preferida do invento, o método de pesquisa envolve uma estratégia não baseada em PCR. Tais métodos de pesquisa incluem metodologias de amplificação de marcadores em dois passos as quais são bem conhecidas na arte. Ambas as estratégias de

pesquisa, baseada em PCR e não baseada em PCR, podem detectar sequências alvo com um elevado nível de sensibilidade. O método mais popular utilizado actualmente é a amplificação do alvo. Aqui, a sequência de ácido nucleico alvo é amplificada com polimerases. Um método particularmente preferido que utiliza amplificação conduzida por polimerases é a reacção em cadeia com polimerase (PCR). A reacção em cadeia com polimerase e outros ensaios de amplificação conduzidos por polimerases podem atingir um aumento de mais de um milhão de vezes no número de cópias através da utilização de ciclos de amplificação conduzidos pela polimerase. Uma vez amplificado, o ácido nucleico resultante pode ser sequenciado ou utilizado como substrato para sondas de ADN.

Quando as sondas são utilizadas para detectar a presença das sequências alvo (por exemplo, na pesquisa de susceptibilidade a cancro), a amostra biológica a ser analisada, tal como sangue ou soro, pode ser tratada, se desejado, para extrair os ácidos nucleicos. O ácido nucleico da amostra pode ser preparado de vários modos para facilitar a detecção da sequência alvo; p.ex. desnaturação, digestão de restrição, electroforese ou "dot b/otting". A região alvo do ácido nucleico objecto de análise usualmente tem que ser pelo menos parcíalmente de cadeia simples para formar híbridos com a sequência da sonda que a tem como alvo. Se a sequência for naturalmente de cadeia simples, a desnaturação não será necessária. No entanto, se a sequência for de cadeia dupla, a sequência necessitará provavelmente de ser desnaturada. A desnaturação pode ser efectuada através de várias técnicas conhecidas na arte. O ácido nucleico objecto de análise e a sonda são incubados sob condições que promovam a formação de um híbrido estável da sequência alvo na sonda com a sequência putativa que a tem como alvo no objecto de análise. A região das sondas que é utilizada para se ligar ao objecto de análise pode ser feita completamente complementar à região a atingir do cromossoma humano 17q. Portanto, as condições de elevado rigor são desejáveis de forma a evitar falsos positivos. No entanto, as condições de elevado rigor são utilizadas apenas se as sondas são complementares a regiões do cromossoma que são únicas no genoma. O rigor da hibridação é determinado por vários factores durante a hibridação e durante o procedimento de lavagem, incluindo temperatura, força iónica, composição de bases, comprimento da sonda e

50 86 719 ΕΡ 705 903/ΡΤ concentração de formamida. Estes factores são delineados em, por exemplo, Maniatis et a/., 1982 e Sambrook, et a/., 1989. Em certas circunstâncias, a formação de híbridos de ordens mais elevadas, tais como tríplice, quadrúplice, etc., pode ser desejada para proporcionar o meio de detecção das sequências aivo. A detecção, se houver, do híbrido resultante é usuaimente alcançada através da utilização de sondas marcadas. Alternativamente, a sonda pode ser não marcada, mas pode ser detectável através de ligação específica a um ligando que está marcado, directa ou indirectamente. Os marcadores adequados, e métodos para marcação de sondas e ligandos são conhecidos na arte, e incluem, por exemplo, marcadores radioactivos que podem ser incorporados através de métodos conhecidos (p.ex., tradução por cortes, iniciação aleatória ou fosforilação por quinases), biotina, grupos fluorescentes, grupos quimioluminescentes (p.ex., dioxetanos, particularmente dioxetanos activados), enzimas, anticorpos e semelhantes. As variações deste esquema básico são conhecidas na arte e incluem as variações que facilitam a separação dos híbridos a detectar de materiais estranhos elou que amplificam o sinal da metade marcada. Várias destas variações são revistas em, p.ex., Mathews & Kricka, 1988; Landergren et a!., 1988; Mittlin, 1989; Patente U.S. 4868105 e na Publicação EPO N° 225807.

Tal como observado acima, os ensaios de pesquisa não baseados em PCR são também contemplados neste invento. Um procedimento não baseado em PCR exemplar é proporcionado no Exemplo 11. Este procedimento hibrida uma sonda de ácido nucleico (ou um análogo tal como uma estrutura de metilfosfonato substituindo o fosfodiéster normal) com o alvo de ADN de nível inferior. Esta sonda pode ter uma enzima ligada covalentemente à sonda, de forma a que a ligação covalente não interfira com a especificidade da hibridação. Este complexo conjugado enzima-sonda - ácido nucleico alvo pode então ser isolado do conjugado enzima-sonda livre e é adicionado um substrato para a detecção da enzima. A actividade enzimática é observada como uma mudança na revelação de cor ou libertação luminescente resultando num aumento de 103-106 na sensibilidade. Por exemplo, em relação à preparação de conjugados oligodesoxinucleótido-fosfatase alcalina e sua utilização como sondas de hibridação, ver Jablonski et a!., 1986.

51 86 719 ΕΡ 705 903/ΡΤ

As metodologias de amplificação de marcadores em dois passos são conhecidas na arte. Estes ensaios funcionam com o princípio de que um ligando pequeno (tal como digoxigenina, biotina, ou semelhantes) é ligado a uma sonda de ácido nucleico capaz de se ligar especificamente a BRCA1. Sondas exempiares são proporcionadas na Tabela 9 deste pedido de patente e incluem adicionalmente a sonda de ácido nucleico correspondente às posições nucleotídicas 3631 a 3930 de SEQ ID NO: 1. Sondas específicas para o alelo estão também contempladas no âmbito deste exemplo e os exemplos de sondas específicas para o alelo, incluem sondas que englobam as mutações de predisposição resumidas nas Tabelas 1 1 e 12 deste pedido de patente.

Num exemplo, o ligando pequeno ligado à sonda de ácido nucleico é especificamente reconhecido por um conjugado anticorpo-enzima. Numa concretização deste exemplo, a digoxigenina é ligada à sonda de ácido nucleico. A hibridação é detectada por um conjugado anticorpo-fosfatase alcalina que activa um substrato quimioluminescente. Para métodos para marcação de sondas de ácidos nucleicos de acordo com esta concretização ver Martin et al., 1990. Num segundo exemplo, o ligando pequeno é reconhecido por um segundo conjugado ligando-enzima que é capaz de complexar especificamente com o primeiro ligando. Uma concretização bem conhecida deste exemplo é o tipo de interacções biotina-avidina. Para métodos para marcação de sondas de ácido nucleico e sua utilização em ensaios baseados em biotina-avidina ver Rigby, et al., 1977 e Nguyen et al., 1992. É também contemplado no âmbito deste invento que os ensaios com sondas de ácido nucleico deste invento empregarão uma mistura de sondas de ácido nucleico capazes de detectar BRCA1. Assim, num exemplo para detectar a presença de BRCA1 numa amostra celular, são empregues mais de uma sonda complementares a BRCA1 e em particular o número de sondas diferentes é alternativamente 2, 3 ou 5 sequências-sonda de ácido nucleico diferentes. Noutro exemplo, para detectar a presença de mutações na sequência do gene BRCA1 num doente, são empregues mais de uma sonda complementares a BRCA1 em que a mistura inclui sondas capazes de se ligar a mutações específicas dos alelos identificadas em populações de doentes com alterações em BRCA1. Nesta concretização, pode ser utilizado um número qualquer de sondas, e incluirá de preferência sondas correspondentes às principais mutações do gene identificadas como de predisposição de um indivíduo para

52 86 719 ΕΡ 705 903/ΡΤ cancro da mama. Algumas sondas candidatas contempladas no âmbito do invento incluem sondas que incluem as mutações específicas dos alelos identificadas nas Tabelas 11 e 12 e as que possuem as regiões de BRCA1 correspondentes a SEQ ID NO: 1 tanto a 5' como a 3' do local da mutação. Métodos de Utilização: Estojos de Diagnose e Diagnóstico com Péptidos A condição neoplásica de lesões pode ser também detectada com base na alteração do polipéptido BRCA1 de tipo selvagem. Tais alterações podem ser determinadas através de análise da sequência de acordo com técnicas convencionais. Com maior preferência, são utilizados anticorpos (policlonais ou monoclonais) para detectar diferenças em, ou na ausência de, péptidos BRCA1. Os anticorpos podem ser preparados tal como discutido acima sob o título "Anticorpos" e tal como ainda mostrado nos Exemplos 12 e 13. Outras técnicas para a criação e purificação de anticorpos são bem conhecidas na arte e qualquer uma dessas técnicas pode ser escolhida para alcançar as preparações reivindicadas neste invento. Numa concretização preferida do invento, os anticorpos imunoprecipitarão proteínas BRCA1 a partir da solução bem como reagirão com a proteína BRCA1 em " Western blots" ou imunotransferência de geles de poliacrilamida. Noutra concretização preferida, os anticorpos detectarão proteínas BRCA1 em cortes de tecido em parafina ou congelado, utilizando técnicas de imunocitoquímica.

As concretizações preferidas em relação aos métodos de detecção de BRCA1 ou das suas mutações incluem ensaios de imunossorção com ligação de enzimas (ELISA), radioimunoensaios (RIA), ensaios imunorradiométricos (IRMA) e ensaios imunoenzimáticos (IEMA), incluindo ensaios em sanduíche utilizando anticorpos monoclonais e/ou policlonais. Exemplos de ensaios em sanduíche são descritos por David et al. nas Patentes U.S. Nos 4376110 e 4486530, incorporadas deste modo por referência, e exemplificados no Exemplo 14. Métodos de Utilização: Pesquisa de Fármacos

Este invento é particularmente útil para a pesquisa de compostos utilizando o polipéptido BRCA1 ou um fragmento de ligação deste em qualquer uma de uma variedade de técnicas de pesquisa de fármacos. O polipéptido BRCA1 ou fragmento empregue em tal teste pode estar livre em solução, fixado num suporte sólido ou suportado por uma superfície

53 53 86 719 ΕΡ 705 903/ΡΤ âr^ celular. Um método de pesquisa de fármacos utiliza células hospedeiras eucarióticas ou procarióticas que são estavelmente transformadas com polinucleótidos recombinantes que expressam o polipéptido ou fragmento, de preferência em ensaios de ligação competitiva. Tais células, quer na forma viávei quer fixada, podem ser utilizadas para ensaios de ligação padrão. Pode-se medir, por exemplo, para a formação de complexos entre um polipéptido BRCA1, ou fragmento, e o agente a testar, ou examinar o grau a que a formação de um complexo entre um polipéptido BRCA1, ou fragmento, e um ligando conhecido é influenciada pelo agente a testar.

Um polipéptido do invento pode ser utilizado em métodos de pesquisa de fármacos compreendendo o contacto de um tal agente com um polipéptido BRCA1 ou um fragmento deste e o ensaio (i) quanto à presença de um complexo entre o agente e o polipéptido BRCA1, ou fragmento, ou (ii) quanto à presença de um complexo entre o polipéptido BRCA1, ou fragmento, e um ligando, através de métodos bem conhecidos na arte. Em tais ensaios de ligação competitiva o polipéptido BRCA1, ou fragmento, é tipicamente marcado. 0 polipéptido BRCA1, ou fragmento, livre é separado do que está presente num complexo proteína:proteína, e a quantidade de marcador livre (i.e., não complexado) é uma medida da ligação do agente a testar a BRCA1 ou da sua interferência com a ligação BRCA1 :ligando, respectivamente.

Outra técnica para pesquisa de fármacos proporciona uma pesquisa de alto rendimento de compostos possuindo uma afinidade de ligação adequada para os polipéptidos BRCA1 e está descrita em pormenor em Geysen, pedido PCT publicado WO 84/03564, publicado a 13 de Setembro de 1984. Resumidamente, é sintetizado um grande número de pequenos compostos peptídicos de teste diferentes num substrato sólido, tal como alfinetes de plástico ou qualquer outra superfície. Os compostos peptídicos de teste são feitos reagir com o polipéptido BRCA1 e lavados. O polipéptido BRCA1 ligado é então detectado através de métodos bem conhecidos na arte.

Podem-se revestir directamente placas com o BRCA1 purificado para utilização nas técnicas de pesquisa de fármacos mencionadas anteriormente. No entanto, podem ser utilizados anticorpos não neutralizantes para o polipéptido para capturar anticorpos para imobilizar o polipéptido BRCA1 na fase sólida. 54 86 719 ΕΡ 705 903/ΡΤ

Este invento contempla também a utilização de ensaios de pesquisa de fármacos competitivos nos quais anticorpos neutralizantes capazes de se ligar especificamente ao polipéptido BRCA1 competem com um composto de teste pela ligação ao polipéptido BRCA1 ou fragmentos deste. Deste modo. os anticorpos podem ser utilizados para detectar a presença de qualquer péptido que partilhe um ou mais determinantes antigénicos do polipéptido BRCA1.

Uma outra técnica para pesquisa de fármacos envolve a utilização de linhas celulares ou células hospedeiras eucarióticas (tais como as descritas acima) que possuam um gene BRCA1 não funcional. Estas linhas celulares ou células hospedeiras são deficientes ao nível do polipéptido BRCA1. As linhas celulares ou células hospedeiras são postas a crescer na presença de um composto-fármaco. A taxa de crescimento das células hospedeiras é medida para determinar se o composto é capaz de regular o crescimento das células deficientes em BRCA1. Métodos de Utilização: Concepcão Racional de Fármacos 0 objectivo da concepção racional de fármacos é o de produzir análogos estruturais de polipéptidos biologicamente activos de interesse ou de pequenas moléculas com as quais estes interagem (p.ex., agonistas, antagonistas, inibidores) de modo a dar forma a fármacos que são, por exemplo, formas mais activas ou estáveis do polipéptido, ou que, p.ex., aumentam ou interferem na função de um polipéptido in vivo. Ver, p.ex., Hodgson, 1991. Numa abordagem, determina-se primeiro a estrutura tridimensional de uma proteína de interesse (p.ex., o polipéptido BRCA1) ou, por exemplo, do complexo BRCA1-receptor ou ligando, através de cristalografia de raios X, através de modelação por computador ou mais tipicamente, através de uma combinação de abordagens. Menos frequentemente, pode obter-se informação útil em relação à estrutura de um polipéptido através de modelação baseada na estrutura de proteínas homólogas. Um exemplo de concepção racional de fármacos é o desenvolvimento de inibidores da protease de HIV (Erickson et al., 1990). Adicionalmente, são analisados péptidos (p.ex., polipéptido BRCA1) através de um varrimento com alanina (Wells, 1991). Nesta técnica, um resíduo de aminoácido é substituído por Ala e é determinado o seu efeito na actividade do péptido. Cada um dos resíduos de aminoácidos do péptido é analisado desta forma para determinar as regiões importantes do péptido. 55 86 719 ΕΡ 705 903/ΡΤ É também possível isolar um anticorpo específico para o alvo, seleccionado através de um ensaio funcional, e resolver depois a sua estrutura cristalina. Em princípio, esta abordagem produz um "núcleo de fármaco" sobre o qual pode ser baseada a subsequente concepção do fármaco. É Dossível dispensai iuda a cristalografia proteica criando anticorpos anti-idiotípicos (ant-id) para um anticorpo funcional e farmacologicamente activo. Tal como uma imagem no espelho de uma imagem no espelho, espera-se que o local de ligação dos anti-id seja um análogo do receptor original. O anti-id pode então ser utilizado para identificar e isolar péptidos a partir de bancos de bancos de péptidos produzidos química ou biologicamente. Os péptidos seleccionados actuariam então como "núcleo de fármaco".

Assim, podem-se conceber fármacos que possuam, p.ex., uma melhor actividade ou estabilidade do polipéptido BRCA1 ou que actuem como inibidores, agonistas, antagonistas, etc. da actividade do polipéptido BRCA1. Em virtude da disponibilidade de sequências de BRCA1 clonadas, quantidades suficientes do polipéptido BRCA1 podem tornar-se disponíveis para efectuar estudos analíticos tais como cristalografia de raios X. Adicionalmente, o conhecimento da sequência proteica de BRCA1 aqui proporcionado guiará os que empregarem técnicas de modelação por computador em vez de, ou em adição à cristalografia de raios X. Métodos de Utilização: Terapia Génica E também proporcionado um método de fornecimento da função de BRCA1 de tipo selvagem a uma célula que possua alelos de BRCA1 mutantes. 0 fornecimento de tal função deve suprimir o crescimento neoplásico das células receptoras. 0 gene BRCA1 de tipo selvagem ou uma parte do gene pode ser introduzido na célula num vector de forma a que o gene permaneça extracromossómico. Numa tal situação, o gene será expresso pela célula a partir da sua localização extracromossómica. Se for introduzido e expresso um fragmento do gene numa célula possuindo um alelo de BRCA1 mutante, o fragmento do gene deve codificar uma parte da proteína BRCA1 que é necessária para o crescimento não neoplásico da célula. É mais preferível a situação em que o gene BRCA1 de tipo selvagem, ou uma sua parte, é introduzido na célula mutante de tal forma que este recombine com o gene BRCA1 mutante endógeno presente na célula. Tal recombinação requer um evento de recombinação dupla que resulta na correcção da mutação do gene 56 86 719 ΕΡ 705 903/ΡΤ BRCA1. Os vectores para a introdução de genes tanto para recombinação como para manutenção extracromossómica são conhecidos na arte, e qualquer vector adequado pode ser utilizado. Os métodos para a introdução de ADN em células tais como electroporação, co-precipitação com fosfato de cálcio e transdução virai são connecidos na arte, e a escolha do método é da competência do praticante. As células transformadas com o gene BRCA1 de tipo selvagem podem ser utilizadas como sistemas modelo para estudar a remissão de cancro e os tratamentos com fármacos que promovem tal remissão.

Tal como genericamente discutido acima, o gene BRCA1 ou fragmento, quando aplicável, podem ser empregues em métodos de terapia génica para aumentar a quantidade de produtos de expressão de tais genes em células de cancro. Tal terapia génica é particularmente apropriada para utilização tanto em células cancerosas como pré-cancerosas, nas quais o nível de polipéptido BRCA1 está ausente ou diminuído em comparação com células normais. Pode também ser útil aumentar o nível de expressão de um dado gene BRCA1 mesmo nas células tumorais em que o gene mutante é expresso a um nível "normal", mas onde o produto do gene não é totalmente funcional. A terapia génica seria efectuada de acordo com métodos geralmente aceites, por exemplo, tal como descrito por Friedman, 1991. As células de tumor de um doente seriam primeiro analisadas através dos métodos de diagnóstico acima descritos, para avaliar a produção de polipéptido BRCA1 nas células tumorais. É preparado um vector virai ou plasmídico (ver mais detalhes abaixo), contendo uma cópia do gene BRCA1 ligado aos elementos de controlo da expressão e capaz de replicação dentro das células tumorais. Os vectores adequados são conhecidos, tal como divulgado na Patente U.S. 5252479 e no pedido PCT publicado WO 93/07282. 0 vector é então injectado no doente, ou localmente no local do tumor ou sistemicamente (de forma a alcançar quaisquer células tumorais que possam ter metastizado para outros locais). Se o gene transfectado não for permanentemente incorporado no genoma de cada uma das células tumorais alvo, o tratamento pode ter de ser repetido periodicamente.

Os sistemas de transferência de genes conhecidos na arte podem ser úteis na prática dos métodos de terapia génica do presente invento. Estes incluem métodos de transferência virais e não virais. Têm sido utilizados vários 57 86 719 ΕΡ 705 903/ΡΤ vírus como vectores de transferência de genes, incluindo papovavírus, p.ex., SV40 (Madzak et al., 1992), adenovírus (Berkner, 1992; Berkner et a/., 1988; Gorziglia e Kapikian, 1992; Quantin et al., 1992; Rosenfeld et al., 1992; Wilkinson et al., 1992; Stratford-Perricaudet et a!., 1990), vírus vaccínia (Moss. iyy2), vírus adeno-associados (Muzyczka, 1992; Ohi et al., 1990), vírus de herpes incluindo HSV e EBV (Margolskee, 1992; Johnson et al., 1992; Fink et al., 1992; Breakfield e Geller, 1987; Freese et al., 1990), e retrovírus de origem em aves (Brandyopadhyay e Temin, 1984; Petropoulos et al., 1992), murídeo (Miller, 1992; Miller et al., 1985; Sorge et al., 1984; Mann e Baltimore, 1985; Miller et al., 1988) e origem humana (Shimada et al., 1991; Helseth et al., 1990; Page et al., 1990; Buchschacher e Panganiban, 1992). A maioria dos protocolos de terapia génica humana foi baseada em retrovírus de murídeo desactivados.

Os métodos de transferência de genes não virais conhecidos na arte incluem técnicas químicas tais como co-precipitação com fosfato de cálcio (Graham e van der Eb, 1973; Pellicer et al., 1980); técnicas mecânicas, por exemplo microinjecção (Anderson et al., 1980; Gordon et al., 1980; Brinster et al., 1981; Constantini e Lacy, 1981); transferência mediada por fusão membranar através de lipossomas (Felgner et al., 1987; Wang e Huang, 1989; Kaneda et a!., 1989; Stewart et al., 1992; Nabel et al., 1990; Lim et al., 1992); e absorção directa de ADN e transferência de ADN mediada por receptores (Wolff et aí., 1990; Wu et al., 1991; Zenke et aL, 1990; Wu et al., 1 989b; Wolff et aí., 1991; Wagner et a!., 1 990; Wagner et a!., 1991; Cotten et al., 1990; Curiel et al., 1991a; Curiel et al., 1991b). A transferência de genes mediada por vírus pode ser combinada com transferência directa de genes in vivo utilizando entrega por lipossomas, permitindo que os vectores virais sejam dirigidos às células tumorais e não às células circundantes que não se dividem. Alternativamente, a linha celular produtora do vector retroviral pode ser injectada em tumores (Culver et a!., 1992). A injecção de células produtoras proporcionaria então uma fonte contínua de partículas virais. Esta técnica foi aprovada para utilização em humanos com tumores cerebrais não operáveis.

Numa abordagem que combina métodos biológicos e físicos de transferência de genes, é combinado ADN plasmídico de qualquer tamanho com um anticorpo conjugado com polilisina específico para a proteína hexão do adenovírus, e o complexo resultante é ligado a um vector adenoviral, O

58 86 719 ΕΡ 705 903/ΡΤ complexo trimolecular é então utilizado para infectar células. O vector adenoviral permite a ligação, internalização e degradação eficientes do endossoma antes do ADN acoplado ser danificado. iviostrou-se que os complexos lipossoma/ADN eram capazes de mediar a transferência de genes directa in vivo. Embora em preparações de lipossomas padrão o processo de transferência de genes não seja específico, foram relatadas absorção e expressão localizadas in vivo em depósitos tumorais, por exemplo, após administração directa in situ (Nabel, 1992).

As técnicas de transferência de genes que dirigem o ADN directamente para tecidos da mama e do ovário, p.ex., células epiteliais da mama ou dos ovários, são preferidas. A transferência de genes mediada por receptores, por exemplo, é alcançada através da conjugação de ADN (usualmente na forma de um plasmídeo super-enrolado fechado covalentemente) com um ligando proteico através de polilisina. Os ligandos são escolhidos com base na presença dos receptores de ligando correspondentes na superfície celular do tipo celular/tissular alvo. Um par receptor/ligando apropriado pode incluir o receptor de estrogénio e o seu ligando, estrogénio (e análogos de estrogénio). Estes conjugados ligando-ADN podem ser injectados directamente no sangue se desejado e dirigem-se para o tecido alvo onde ocorre a ligação ao receptor e a internalização do complexo ADN-proteína. Para superar o problema da destruição intracelular do ADN, pode ser incluída a co-infecção com adenovírus para destruir a função do endossoma. A terapia envolve dois passos que podem ser efectuados individualmente ou em conjunto. No primeiro passo, são tratadas fêmeas pré-pubescentes que possuem um alelo de susceptibilidade de BRCA1 com um veículo de entrega de genes de forma a que algumas ou todas as suas células precursoras epiteliais do dueto mamário recebam pelo menos uma cópia adicional de um alelo de BRCA1 normal funcional. Neste passo, os indivíduos tratados têm um risco reduzido de cancro da mama ao ponto do efeito do alelo de susceptibilidade ter sido contrariado pela presença do alelo normal. No segundo passo de uma terapia preventiva, fêmeas jovens predispostas, em particular mulheres que receberam o tratamento terapêutico génico proposto, são sujeitas a terapia hormonal para imitar os efeitos na mama de uma gravidez de tempo completo. 59 86 719 ΕΡ 705 903/ΡΤ Métodos de Utilização: Terapia Peptídica

Os péptidos que têm actividade de BRCA1 podem ser fornecidos a células que possuam alelos de BRCA1 mutantes ou ausentes. A sequência da proteína BRCA1 é divulgada (SEQ ID NO: 2). A proteína pode ser Droduzida através da expressão da sequência de ADNc em bactérias, por exemplo, utilizando vectores de expressão conhecidos. Alternativamente, o polipéptido BRCA1 pode ser extraído de células de mamífero produtoras de BRCA1. Adicionalmente, podem ser empregues as técnicas de química sintética para sintetizar proteína BRCA1. Qualquer uma dessas técnicas pode proporcionar a preparação do presente invento a qual compreende a proteína BRCA1. A preparação é substancialmente isenta de outras proteínas humanas. Isto é conseguido muito rapidamente por síntese num microorganismo ou in vitro.

As moléculas de BRCA1 activas podem ser introduzidas em células por microinjecção ou através da utilização de lipossomas, por exemplo. Alternativamente, algumas moléculas activas podem ser absorvidas pelas células, activamente ou por difusão. A aplicação extracelular do produto do gene BRCA1 pode ser suficiente para afectar o crescimento tumoral. O fornecimento de moléculas com actividade de BRCA1 deve conduzir a uma inversão parcial do estado neoplásico. Outras moléculas com actividade de BRCA1 (por exemplo, péptidos, fármacos ou compostos orgânicos) podem também ser utilizados para efectuarem tal inversão. São também utilizados polipéptidos modificados possuindo uma função substancialmente semelhante para terapia peptídica. Métodos de Utilização: Hospedeiros Transformados

De forma semelhante, podem ser utilizadas células e animais que possuam um alelo de BRCA1 mutante como sistemas modelo para estudar e testar substâncias que tenham potencial como agentes terapêuticos. As células são tipicamente células epiteliais de cultura. Estas podem ser isoladas a partir de indivíduos com mutações de BRCA1, quer somáticas quer da linha germinativa. Alternativamente, a linha celular pode ser modificada para possuir a mutação no alelo de BRCA1, tal como descrito acima. Após uma substância de teste ser aplicada às células, é determinado o fenótipo da célula neoplasicamente transformada. Qualquer característica das células neoplasicamente transformadas pode ser avaliada, incluindo o crescimento independente da ancoragem, a tumorigenicidade em ratinhos nus, a capacidade 60 86 719 ΕΡ 705 903/ΡΤ de invasão das células e a dependência de factores de crescimento. Os ensaios para cada uma destas características são conhecidos na arte.

Os animais para testar agentes terapêuticos podem ser seleccionados após muiagénese de animais inteiros ou após o tratamento de células da linha germinativa ou de zigotos. Tais tratamentos incluem a inserção de alelos de BRCA1 mutantes, usualmente de uma segunda espécie animal, bem como a inserção de genes homólogos destruídos. Alternativamente, o gene ou genes BRCA1 endógenos dos animais podem ser destruídos através de mutação por inserção ou deteção ou outras alterações genéticas utilizando técnicas convencionais (Capecchi, 1989; Valancius e Smithies, 1991; Hasty et a!., 1991; Shinkai et al., 1992; Mombaerts et a/., 1992; Philpott et al., 1992; Snouwaert et al., 1992; Donehower et al., 1992). Após as substâncias de teste terem sido administradas aos animais, tem de ser avaliado o crescimento tumoral. Se a substância de teste evita ou suprime o crescimento de tumores, então a substância de teste é um agente terapêutico candidato para o tratamento dos cancros aqui identificados. Estes modelos animais proporcionam um veículo de teste extremamente importante para potenciais produtos terapêuticos. 0 presente invento é descrito por referência aos seguintes Exemplos, os quais são oferecidos como ilustração e não se pretende que de modo algum limitem o invento. Foram utilizadas técnicas padrão bem conhecidas na arte ou as técnicas especificamente descritas abaixo. EXEMPLO 1

Avaliação e Estudo de Famílias com Probabilidade de Possuírem um Locus de Susceptibilidade para Cancro da Mama Ligado a 17q

Foram avaliadas famílias extensas propensas a cancro de uma população definida que proporciona um grande conjunto de famílias extensas com múltiplos casos de cancro da mama e muitos familiares disponíveis para estudo. 0 grande número de meioses presente nestas grandes famílias proporcionou o poder de detectar se o locus BRCA1 estava a segregar, e aumentou a oportunidade de ocorrência de recombinantes informativos dentro da pequena região em investigação. Isto melhorou amplamente as hipóteses de se estabelecer uma ligação à região de BRCA1 e facilitou grandemente a redução 61 86 719 ΕΡ 705 903/ΡΤ da região de BRCA1 para um tamanho manuseável, o que permite a identificação do próprio locus BRCA1.

Cada família foi alargada a todos os familiares de contacto disponíveis e a rocios os tamiliares de primeiro grau informativos de cada probando ou caso de cancro. Para estas famílias, os casos de cancro da mama adicionais e os indivíduos com cancro noutros locais de interesse (p.ex. ovário) que também apareceram nas famílias foram identificados através dos arquivos ligados ao registo de tumores. Todos os cancros da mama relatados na família que não foram confirmados no Utah Câncer Registry foram investigados. Foram obtidos registos médicos ou certidões de óbito para confirmação de todos os cancros. Cada indivíduo-chave de contacto e todos os indivíduos informativos foram convidados a participar proporcionando uma amostra de sangue a partir da qual foi extraído ADN. Retirámos também amostras do cônjuge e familiares de casos falecidos de forma a que o genótipo dos casos falecidos pudesse ser deduzido a partir dos genótipos dos seus familiares.

Foram seleccionadas dez famílias que tiveram três ou mais casos de cancro com genótipos deduzíveis para estudos de ligação a marcadores de 17q a partir de um conjunto de 29 famílias originalmente avaliadas a partir das bases de dados associadas para um estudo da doença proliferativa da mama e do cancro da mama (Skolnick et al., 1990). O critério para a selecção destas famílias foi a presença de duas irmãs ou de uma mãe e sua filha com cancro da mama. Adicionalmente, foram incluídas duas famílias que têm sido estudadas desde 1980 como parte dos nossos estudos de ligação do cancro da mama (K1001, K9018), seis famílias avaliadas a partir das bases de dados associadas quanto à presença de grupos ("clusters") de cancro da mama e/ou do ovário (K2019, K2073, K2079, K2080, K2039, K2082) e uma família auto-referida com cancro da mama de aparecimento precoce (K2035). Estas famílias foram investigadas e expandidas na nossa clínica do modo acima descrito. A Tabela 1 apresenta as características destas 19 famílias as quais são o objecto dos exemplos subsequentes. Na Tabela 1, são relatados, para cada família, o número total de indivíduos na nossa base de dados, o número de indivíduos tipificados, e a idade mínima, média e máxima aquando do diagnóstico de cancro da mama/ovário. As famílias são organizadas por ordem crescente da idade média aquando do diagnóstico de cancro da mama. Quatro mulheres 62 86 719 ΕΡ 705 903/ΡΤ diagnosticadas com ambos os cancros, da mama conta em ambas as categorias. (Segue Tabela)

86 719 EP 705 903/PT 63

o L. 'CD> O

o Ό O o "O o 1— CD (Λ D Ό to C ra 03 ω CD Ό Q CD "O

x 'CD

T3 'CD

Oto co co

to to CD IV

cn co oo ΙΟ (V LO

CD <-IO IO CD -3- LO , .to et 1 1 CN ΧΙΟ ^ CD i 1 I X— I CN > | ^ I X— ^J· I I I Xtf· i

Descricão das 19 Famílias

CD

E CD O “D O o Ό o c M CD w O Ό σ c CD 03 ra (D T3 Q CD Ό -2 » η o 2 s E - .E Ό

X CD CD^lOx— CNCOx— COCOCOIvCDOCNOx— 00^00 ^co^x^ivLnLDivr^rvcorvrvOTcococooooo

[S.^tlvivoOOCNCNCNOO^tlvOOtOtOlvOOOOCO ^OCOCOOxíxí^xtxíxtxítDintOlDlDtDCD

cx> CO .Çr^OOOO^OCDCNOOxsrx— rvCNtOJVLOCOCNCDx^-^CNCNCNOOOOCNOOCN-cf^iNOxI-IDO^ ^'^t^2cO'vf<D'xtlOrv xd- O O o ^ — rvi _

+ 00 CM CD xtf 00 CN ^ -ei ra <n o o oo to £ x- CD (N <

|V Γν. OT r— x— CN CN CN <D^CDP0^-<D(nsj-C0O x-^x-CNJVCN^x-t-^- CD ^lOCDCNx-^-OCDOOCOlOOCNO^IvCOCNCOrv i_.‘x-- OO^j-CNlOlO^fCNx— OOOO^trvCOtOx— CNOOOO x— CN x— <

o o ΙΟ V 00 LO Γν t— 00 CN X— CN CM O O O (D CD CD CN CN CD x- x- x-

CD >— CN (D O O CN O 00 x- O 00 CD <D O O <D O x- x- CN CN x- CN

00 Γν O <D CD rv X- CN |V 00 O CD CD O O CN x- x— CN CN

Inclui um caso de cancro da mama masculino. + 64 86 719 ΕΡ 705 903/ΡΤ EXEMPLO 2

Seleccão de Famílias Que estão Ligadas ao Cromossoma 17q e Localização de BRCA1 no Intervalo Mfd15-Mfd188

Para cada amostra recolhida nestas 19 famílias, foi extraído o ADN do sangue (ou em dois casos de blocos de tecido impregnado em parafina) utilizando protocolos laboratoriais padrão. A genotipificação neste estudo restringiu-se a marcadores de repetições curtas em cadeia (STR) uma vez que, em geral, estes têm elevada heterozigocidade e os métodos de PCR oferecem uma rápida alternativa quando se utilizam quantidades muito pequenas de ADN. Para auxiliar neste esforço, foram desenvolvidos quatro desses marcadores de STR no cromossoma 17 pesquisando uma biblioteca cosmídica específica do cromossoma quanto a clones positivos para CA. Três destes marcadores localizavam-se no braço longo: (46E6, Easton et a/., 1993); (42D6, Easton et aL, 1993); 26C2 (D17S514, Oliphant et a/., 1991), enquanto que o outro, 12G6 (D17S513, Oliphant et aL, 1991) localizava-se no braço curto próximo do íocus de supressão tumoral p53. Dois destes, 42D6 e 46E6, foram submetidos ao Breast Câncer Linkage Consortium para tipificação de famílias com cancro da mama por investigadores de todo o mundo. As sequências oligonucleotídicas para os marcadores que não foram desenvolvidos no nosso laboratório foram obtidas a partir de relatórios publicados, ou como parte do Breast Câncer Linkage Consortium, ou de outros investigadores. Todas as películas de genotipificação foram classificadas de forma anónima com um marcador de pista padrão utilizado para manter consistente a codificação dos alelos. As amostras-chave nas quatro famílias aqui apresentadas foram submetidas a tipificação em duplicado para todos os marcadores relevantes. Todas as 19 famílias foram tipificadas para dois marcadores polimórficos da repetição CA: 42D6 (D17S588), uma repetição CA isolada no nosso laboratório e Mfd15 (D17S250), uma repetição CA proporcionada por J. Weber (Weber et aL, 1990). Foram utilizadas várias fontes de sondas para criar marcadores genéticos no cromossoma 17, especificamente bibliotecas cosmídicas e de fago lambda do cromossoma 17 criadas a partir de cromossomas ordenados por Los Alamos National Laboratories (van Dilla et aL, 1986).

As classificações de LOP para cada família com estes dois marcadores (42D6, Mfd15) e um terceiro marcador, Mfd188 (D17S579, Hall et aL, 1992), localizado aproximadamente a meio entre estes dois marcadores, foram 65 86 719 ΕΡ 705 903/ΡΤ calculados para dois valores da fracção de recombinação, 0,001 e 0,1. (Para o cálculo das classificações de LOP, ver Oh, 1985). As probabilidades foram avaliadas por computador com o modelo derivado por Claus et al., 1991, o qual assume uma frequência génica estimada de 0,003, um risco de vida em portadores dos genes de cerca de 0,80, e riscos específicos para a idade baseados na população para cancro da mama em não portadores dos genes. As frequências alélicas para os três marcadores utilizadas para os cálculos da classificação de LOP foram calculadas a partir das nossas próprias tipificações laboratoriais de indivíduos não relacionados no painel CEPH (White e Lalouel, 1988). A Tabela 2 mostra os resultados da análise de ligação em pares de cada família com os três marcadores 42D6, Mfd188 e Mfd15. (Segue Tabela)

66 86 719 EP 705 903/PT

Análi se d a L[g acão em Pares das Famílias Recombinação de Mfd1 5 Recombinação de Mfd1 88 Recombinação de 42D6 ÍD17S2501 (D17S579) (D17S5E18) 0,001 0,1 0,001 0,1 0,001 0,1

O 05 C\| f) I'' Γ' CN CO i— 00 CO O O O Ó θ' 1-' o' ó o' o' > I II

oo lo r> (o o in oo cn co in r· o o' o' o' 00 o' o' I I

00 00 o O i- CS Ln 1- 0 0 o o o' o ò" o o o I I CO CN ^í- CD t— T— ^1- σι σι LO o 00 CN LO 00 o to o LO CO CO o Ι Ι CN CN o o o d o' 1 CN Γ-* 1 o' o O 1 o' o' 1 o' CN Ο 1 Ο 1 1 O 1 o' 1 o' o' 1

ο I— o cn o oo r->. 00 2 ® ^ co o o' ó ó ó ó ó I I

(Ο l~ Ο N ΙΩ LO O 2 01 N I- LO 00 ó ó ó ó ó t I I

O Ol IO OO CS ΟΙ γ- 00 O C0 OO CN h» o o' d t-' o' o' d o' I I I

CO O ^ OS ^ 00 ΙΟ 00 00 CS Líl o 'í o' o' os I-' ο' I-' o' l II I

00 l·- 1^ tfl (N z IO O 2 O o' LO o' I I

OOI-COI^r-l·- "t z o — z o' <d Có ó I I

00 LO Γ'' (Q π- τ— <* CS i— 00 O '— o' d oo' o' o' II II Γ» O) O Lí) Ο θ' CS ιψ Ifl OS I- Γ- o' θ' I-' of θ' Ó

01 I— 1— i— 01 ^ 2 Z o tn o' o' o' o' I CO 00 h- I- r- CN MOZ Z ó ó ó ó t

"3- σι cn cn T- oo O CN O o O 00 o' o' o' o' o' o' I I I I I

CO i- CN OO CN N ^ 'd; Ο Ο Ο Φ Ó Ó Ó Ó Ó I-' III) I 00 00 Γ— Τ3 (Ό I— ra α (0 Ό (0 o Q. < < L!_ O i- iíi oo lo r» I- O 00 CN I— CN CN σι ο ο ο ο σι σι I— I— CN CN σι ι— I— i- σι i— cn σι o r-CNOCOi-O σι σι σι d ο σι I- I— I— CN CN I—

o oo r*· ο σ> cn 00 N r- CN C0 ο ο σο σ) o o CN CN t— r- CN CN o JC0 c ¢0 ε (0 u_ 67 Γ 86 719 ΕΡ 705 903/ΡΤ

Utilizando um critério para a ligação a 17q de uma classificação de L0P> 1,0 para pelo menos um locus sob o modelo CASH (Claus et a!., 1991), quatro das 19 famílias pareciam estar ligadas a 17q (K1901, K1925, K2035, K2082). Várias famílias adicionais mostraram alguma evidência de ligação mas nesta aiiura não podiam ser definitivamente atribuídas à categoria das ligadas. Estas incluíam as famílias K1 911, K2073, K2039 e K2080. Três das famílias ligadas a 17q tinham recombinantes informativos nesta região e estas são pormenorizadas abaixo. A Família 2082 é a maior família com cancro da mama ligado a 17q relatada até à data por qualquer grupo. A família contém 20 casos de cancro da mama e dez casos de cancro do ovário. Dois casos tinham ambos cancro da mama e do ovário. A evidência de ligação a 17q para esta família é esmagadora; a classificação de LOP com o haplótipo ligado é superior a 6,0, apesar da existência de três casos de cancro da mama que parecem ser esporádicos, i.e., estes casos não partilham qualquer parte do haplótipo ligado entre Mfd15 e 42D6. Estes três casos esporádicos foram diagnosticados com cancro da mama nas idades de 46, 47 e 54 anos. Em famílias mais pequenas, os cancros esporádicos deste tipo confundem grandemente a análise de ligação e a identificação correcta de recombinantes-chave. O recombinante-chave na Família 2082 é uma mulher que desenvolveu cancro do ovário aos 45 anos cuja mãe e tia tiveram cancro do ovário aos 58 e 66 anos, respectivamente. Ela herdou a porção ligada do haplótipo para ambos Mfd188 e 42D6 ao mesmo tempo que herdou alelos não ligados em Mfd15; este evento recombinante colocou BRCA1 distai em relação a Mfd15. A K1901 é típica de famílias com cancro da mama de aparecimento precoce. A família contém 10 casos de cancro da mama com uma idade média aquando do diagnóstico de 43,5 anos de idade; quatro casos foram diagnosticados antes dos 40 anos. A classificação de LOP para esta família com o marcador 42D6 é de 1,5, resultando numa probabilidade posterior de ligação a 17q de 0,96. O exame de haplótipos nesta família identificou um haplótipo recombinante num portador masculino obrigatório e na sua filha afectada a qual foi diagnosticada com cancro da mama aos 45 anos. O seu alelo ligado para o marcador Mfd15 difere do encontrado em todos os outros casos na família (excepto um caso que não podia ser completamente deduzido a partir dos seus filhos). Os dois haplótipos são idênticos para Mfd188 e 42D6. De forma 68 86 719 ΕΡ 705 903/ΡΤ concordante, os dados da Família 1901 colocariam também o locus BRCA1 distai em relação a Mfd15. A Família 2035 é semelhante a K1901 no fenótipo da doença. A idade* média aquando do diagnóstico para os oito casos de cancro da mama nesta família é de 37 anos. Um caso teve também cancro do ovário aos 60 anos. Os casos de cancro da mama nesta família descendem de duas irmãs as quais não foram afectadas com cancro da mama até à sua morte na oitava década. Cada ramo contém quatro casos de cancro da mama e pelo menos um caso em cada ramo possuindo aparecimento marcadamente precoce. Esta família tem uma classificação de LOP de 2,34 com Mfd15. Os haplótipos que segregam, com cancro da mama, nos dois ramos partilham um alelo idêntico em Mfd15 mas diferem nos loci distais Mfd188 e NM23 (um marcador tipificado como parte do consórcio o qual se localiza imediatamente distai em relação a 42D6 (Hall et a!., 1992)). Embora os dois haplótipos sejam concordantes para o marcador 42D6, é provável que os aleios sejam partilhados idênticos por estado (o mesmo alelo mas derivado de ancestrais diferentes), em vez de idênticos por descendência (derivado de um ancestral comum) uma vez que o alelo partilhado é o segundo alelo mais comum observado neste locus. Em contraste o alelo ligado partilhado em Mfd15 tem uma frequência de 0,04. Este é um recombinante-chave no nosso conjunto de dados uma vez que é o único recombinante no qual BRCA1 segregou com a porção proximal do haplótipo, estabelecendo assim a fronteira distai à região de BRCA1. Para este evento não ser um recombinante-chave é necessário que um segundo gene BRCA1 mutante esteja presente num cônjuge que entre para a família que também partilhe o alelo de Mfd1 5 raro que segrega com cancro da mama em ambos os ramos da família. Este evento tem uma probabilidade de menos de um em mil. A evidência desta família colocou portanto o locus BRCA1 proximal em relação a Mfd188. EXEMPLO 3

Criação de um Mapa da Estrutura Fina e Refinamento da Região de BRCA1 para Mfdl 91 -Mfd188 utilizando Polimorfismos STR Adicionais

De forma a melhorar a caracterização dos nossos recombinantes e definir marcadores de flanqueamento mais próximos, era necessário um mapa denso desta região relativamente pequena no cromossoma 17q. O "chromosome 17 workshop" produziu um mapa de consenso desta região (Figura 1) baseado

86 719 ΕΡ 705 903/ΡΤ 69 numa combinação de estudos de mapeamento genético e físico (Fain, 1992). Este mapa contém tanto polimorfismos STR altamente polimórficos como vários genes expressos não polimórficos. Como este mapa não deu detalhes sobre evidências para esta ordem nem deu nenhuma medida do suporte local para inversões na ordem dos loci adjacentes, vimo-lo como um guia incerto para a obtenção de recursos a serem utilizados para o desenvolvimento de novos marcadores e construção do nosso próprio mapa genético e físico pormenorizado de uma pequena região contendo BRCA1. A nossa abordagem foi a de analisar marcadores de STR existentes proporcionados por outros investigadores e quaisquer marcadores desenvolvidos de novo do nosso laboratório em relação tanto a um painel de pontos de quebra meióticos (genéticos) identificados utilizando ADN das famílias de referência de CEPH como a um painel de híbridos de células somáticas (pontos de quebra físicos) construídos para esta região. Estes marcadores incluíam o 26C2 desenvolvido no nosso laboratório o qual é mapeado proximal em relação a Mfd15, Mfd191 (proporcionado por James Weber), THRA1 (Futreal et al., 1992a), e três polimorfismos gentilmente proporcionados por Dr. Donald Black, NM23 (Hall et al., 1992), SCG40 (D17S181) e 6C1 (D17S293).

Localização genética dos marcadores. De forma a localizar novos marcadores geneticamente na região de interesse, identificámos vários pontos de quebra meióticos-chave na região, tanto no painel de referência de CEPH como na nossa grande família com cancro da mama (K2082). Dada a pequena distância genética nesta região, é provável que exista apenas um conjunto relativamente pequeno de recombinantes que podem ser utilizados para este fim, e é provável que estes agrupem os marcadores em conjuntos. As ordens dos marcadores dentro de cada conjunto apenas podem ser determinadas através de mapeamento físico. No entanto, o número de genotipificações necessário para posicionar um novo marcador é minimizado. Estes pontos de quebra são ilustrados nas Tabelas 3 e 4. Utilizando esta abordagem fomos capazes de ordenar geneticamente os marcadores THRA1, 6C1, SCG40 e Mfd191. Tal como pode ser observado a partir das Tabelas 3 e 4, THRA1 e MFD191 são ambos mapeados dentro da região Mfd15-Mfd188 que identificámos anteriormente como contendo o locus BRCA1. Nas Tabelas 3 e 4, M/P indica um recombinante materno ou paterno. Um "1" indica que o alelo herdado é proveniente do avô, enquanto que "0" indica que é proveniente da avó, e indica que o locus era não tipificado ou não informativo. 70 : 86 719 ΕΡ 705 903/ΡΤ TABELA 3

Recombinantes de CEPH ramma IU M/P Mfd1 5 THRA1 Mfd1 91 Mfd1 88 SCG40 6C1 42D6 13292 4 M 1 1 1 0 0 0 0 13294 4 M 1 1 1 0 0 0 0 13294 6 M 0 0 1 1 - - 1334 3 M 1 1 1 1 1 0 0 1333 4 M 1 1 1 0 - - 0 1333 6 M 0 0 1 1 - - 1 1333 8 P 1 0 0 0 - - 0 1377 8 M 0 - 0 0 0 0 1 TABELA 4 Recombinantes da Família 2082 Família ID M/P Mfd15 Mfd1 91 Mfd188 SCG40 6C1 42D6 75 M 0 1 1 1 - 63 M 0 0 1 1 1 125 M 1 1 1 0 0 40 M 1 1 0 0 0

Análise dos marcadores Mfd15, Mfd188, Mfd191 e THRA1 nas nossas famílias recombinantes. Mfd15, Mfd188, Mfd191 e THRA1 foram tipificados nas nossas famílias recombinantes e examinados quanto a informação adicional para localizar o locus BRCA1. Na Família 1901, o recombinante com Mfd15 foi recombinante para THRA1 mas não informativo para Mfd191, colocando assim BRCA1 distai em relação a THRA1. Em K2082, o recombinante com Mfd15 foi também recombinante com Mfd191, colocando assim o locus BRCA1 distai em relação a Mfd191 (Golgar et a/., 1994). O exame de THRA1 e Mfd191 na Família K2035 não produziu mais informação de localização uma vez que os dois ramos eram concordantes para ambos os marcadores. No entanto, SCG40 e 6C1 apresentaram ambos o mesmo padrão que Mfd188, aumentando assim a nossa confiança na informação de localização proporcionada pelo recombinante de Mfd188 nesta família. O locus BRCA1, ou pelo menos uma porção deste, 86 719 ΕΡ 705 903/ΡΤ 71

fica portanto dentro de um intervalo limitado por Mfd191 no lado proximal e Mfd188 no lado distai. EXEMPLO 4

Desenvolvimento de Recursos Genéticos e Físicos na Região de Interesse

Para aumentar o número de toei altamente polimórficos na região Mfd191-Mfd188, desenvolvemos vários marcadores de STR no nosso laboratório a partir de cosmídeos e YAC que estão mapeados fisicamente na região. Estes marcadores permitiram-nos refinar mais a região.

Foram identificados STR a partir de genes que se sabe estarem na região desejada para identificar os YAC que continham esses loci, os quais foram então utilizados para identificar subclones em cosmídeos, P1 ou BAC. Estes subclones foram então pesquisados quanto à presença de uma repetição CA em cadeia utilizando um oligonucleótido (CA)n (Pharmacia). Foram seleccionados preferencialmente clones com um sinal forte, uma vez que era mais provável que estes representassem repetições CA que tivessem um grande número de repetições e/ou fossem de fidelidade quase perfeita com o padrão (CA)n. Sabe-se que ambas estas características aumentam a probabilidade de polimorfismo (Weber, 1990). Estes clones foram sequenciados directamente a partir do vector para localizar a repetição. Obtivemos uma sequência única num dos lados da repetição CA utilizando um de um conjunto de iniciadores possíveis complementares à extremidade de uma repetição CA, tal como (GT)10T. Com base nesta sequência única, foi feito um iniciador para sequenciar em sentido contrário a repetição na outra direcção, produzindo uma sequência única para a concepção de um segundo iniciador de flanqueamento da repetição CA. Os STR foram então pesquisados quanto a polimorfismo num pequeno grupo de indivíduos não relacionados e testados contra o painel de híbridos para confirmar a sua localização física. Os novos marcadores que satisfizeram estes critérios foram então tipificados num conjunto de 40 indivíduos não relacionados das famílias de Utah e de CEPH para obter frequências alélicas apropriadas para o estudo da população. Muitos dos outros marcadores relatados neste estudo foram testados num grupo menor de indivíduos não relacionados de CEPH para obter de forma semelhante frequências alélicas apropriadas.

86 719 ΕΡ 705 903/ΡΤ 72

Utilizando ο procedimento acima descrito, encontrou-se um total de oito STR polimórficos a partir destes YAC. Dos toei identificados deste modo, quatro eram polimórficos e localizavam-se na região de BRCA1. Quatro marcadores não se localizavam no cromossoma 17, reflectindo a natureza quimérica dos YAC utilizados. Us quatro marcadores que estavam na região foram designados AA1, ED2, 4-7 e YM29. AA1 e ED2 foram desenvolvidos a partir de YAC positivos para o gene RNU2, 4-7 a partir de um YAC EPB3 e YM29 a partir de um cosmídeo que se localizou na região através do painel de híbridos. Uma descrição do número de alelos, heterozigocidade e fonte destes quatro e de todos os outros polimorfismos de STR analisados nas famílias com cancro da mama é dada abaixo na Tabela 5. (Segue Tabela)

86 719ΕΡ 705 903/ΡΤ 73

COI ηη CN

CN “' us < ν \jj υ; ) ί'J *νΓ CN Π Π τ- (Ο t— C0 ιο| r^LOcoco^r-ooooOTOTr-oo^-^-cn θ'- wο Τ3 Φ Ν D Φ 'φ Τ3 ΦυΕ ο (Λ Φ 3Ο

< U CC CD Φ 3U Ο -J Ο Ό(0 C *φο [φ < φο C<φ 3 σ φ 'íl r* r^LOoooicor^oooOr-r^.^-i^p^o 00| ΙΟ CN| CN (Ν OOLOt— OOC\JOOOO^-^-r^<-OT(J)CNj CN r- ,- r- τ- r- OOTOOLOlO^OOCOr^Or^CDr^OCO CN CNT-T-CNT-r-T-CDCNr-CNr-r- CO 00CN00(0C0CNC0O'-OOr-O(D5) CN NCOCNCNCO^-OtNCNOCOCNlOCOr- (Λ -6o.Cc C0ε C0•Mo C0 0) “Ocoα co <D w O O o . 1(0 c co 73 <Λ (0 O _03 CO (/)o73 O C0 u· co Q. V)o LO!<ι _ιι LLII ωι <! Η'

<Λ Φ !θ Ο 'Μ φ Q Ο) CC φ 3 +-1 3 Φ Τ3 C/3 Ο Ο Ό | Ο Ω_ (Λ Φ Ο Τ3 Φ Ο <Λ LU (0 Ό Ο-I—' C ΦΕ Φφ α φ

φ "D Φσ'οο σ.' ’νο ι- Φ Φ X CN 00 0 CD w — 0) CO Ξ OT '2 201 CO W <D O c «e 03 Ou ·σ co O 0) ^ δ ® 0) o 73 co W3 r~.2 5 O -p ο φ φα * * Φ

IO .(-.OCNCNOCQlOO^OOOCO — LOCOOTCHCOí^r^OOCOOOCO o o o' o o' o' o' o' o' ó ó ó ó o ó IO LO 00 LO IO 00

O O «D cr co2 *5 M- Cε a8 §f V) O co 73

2! Γ'' ° (75 CD r» σ> co C0

<D IÓ co — oO d) in o Ό r^ co co O 00 io T- o co CN CN 00 σ> τ— CO co o CN CN CN CN (Λ LO Γ"· 00 CO CO t— 00 00 CD LO CO co co co _o CN i— *— X— T— LO x- LO CN r* Γ— ,— ,— _03 Φ CO < co co CO co co co co co CO co CO co co co (0 c oc Γ'* r-x Γν r» 1^ 1^ r· cn Φ r— X r— τ ΐ— ί T- x— τ \— X- τ— ^— r— O d Q h- Q α Q Q α Q Q Q α Q Q Q Q Q 73

Oc «333CT

io CD LO ω < c T3 OC T3 CN r— co o X Q < < O l·- 1 LU < u (D CN ^· 00 00

O co O) d Q r- O O CN O r-(Λ Ν' (O N LOr-

<3· LLO

CD 00 CN

LOX O O.s> c T3 03'2 I03 C/D CO O £ Número de alelos observados nas amostras de ADN geneticamente independentes utilizadas para o cálculo das frequências alélicas. ** 74 86 719 ΕΡ 705 903/ΡΤ

Os quatro polimorfismos de STR que são mapeados fisicamente na região (4-7, ED2, AA1, YM29) foram analisados no painel de pontos de quebra meióticos mostrado inicialmente nas Tabelas 3 e 4. As Tabelas 6 e 7 contêm os dados relevantes de CEPH e da Família 2082 para a localização destes quatro marcadores. Nas tabelas, M/P indica um recombinante materno ou paterno. Um "1" indica que o alelo herdado é proveniente do avô, enquanto que "0" indica que é proveniente da avó, e indica que o locus era não tipificado ou não informativo. (Segue Tabela) 86 719ΕΡ 705 903/ΡΤ 75

COΩ CN Ο Ο "cf Ο Οοω

I I

CC I— (Γ. σΐ C τ- C ω Τ3 (Λ Ο χ > < ο υ Ζ CC <υ ω σ CD ro "Ο ο Ο ’+-· U0 '<υ C 'σ α> ω CD 0C ο >ω ω Τ3 ο ο (0 ν- CO C Μ <15 C < Ό φ _1 ι_ Q LU Ο 00 <π ι_ ο < Ι Ό I- (0 CL Μ C0 λ- <η Ο ο -Ω α (0 (0 —I Ν ο '•Μ C/3 Ω (Λ Ο <ΰ ζ > (0 ο JZ C Ο (Λ ι C/3 ο <υ "σ +-Ι C > C0 ο C > !ο C α> Ε (Λ ο <υ ο Ω 0) CC 00 00 η

05 CN 05ο Ν <<

CN Q σ> Τ3 < CC I I- LO Τ3 ο ο ο ο ο Ο Ο Γ- Ο Ο ο ο ο Ω CΟ 'Cf CO ω σ ω X 0_ (Ν ^f ~ UJ σ> 05 05 00 00 Ε (J CN CN CN 00 00 <0 00 00 00 00 00 LL. γ— t— Γ— 1333 86 719ΕΡ 705 903/ΡΤ 76

CDQ ο — ΟCDUω ο 00 οο

σ> CN LU CQ < l·- <N 00 0 CN ro 1co LU (0 Ό (Λ 0 +-> c ro c > << o o 0cc

CNΩ LU O t- 05 T3

O LD-O o

00 CO

LO CN O ''t

CN CN 77 86 719 ΕΡ 705 903/ΡΤ A partir de 1333-04 de CEPH, observamos que AA1 e YM29 têm de ficar distais em relação a Mfd191. A partir de 13292, pode ser deduzido que tanto AA1 como ED2 são proximais em relação a 4-7, YM29 e Mfd188. Os recombinantes verificados em K2082 proporcionam alguma informação de ordenação aHirjona!. Três observações independentes (indivíduos número 22, 40 & 63) colocam AA1, ED2, 4-7 e YM29, e Mfd188 distais em relação a Mfd191, enquanto que ID 125 coloca 4-7, YM29 e Mfd188 proximais em relação a SCG40. Não foi obtida qualquer informação genética sobre a ordenação relativa dentro dos dois "clusters" de marcadores AA1/ED2 e 4-7/YM29/Mfd188 a partir da análise dos recombinantes genéticos. Embora a ordenação dos loci em relação aos híbridos que se sabe conterem "hiatos" nos quais podem faltar pequenos pedaços de ADN intersticial humano seja problemática, os padrões dos híbridos indicam que 4-7 fica acima tanto de YM29 como de Mfd188. EXEMPLO 5

Análise Genética das Famílias com Cancro da Mama com os Marcadores AA1, 4-7, ED2 e YM29

Para além das três famílias contendo recombinantes-chave que foram discutidas anteriormente, mostrou-se através da análise dos marcadores de STR recentemente desenvolvidos que a Família K2039 estava ligada à região e contém um recombinante útil. A Tabela 8 define os haplótipos (mostrados na forma codificada) das famílias em termos de alelos marcadores específicos em cada locus e suas respectivas frequências. Na Tabela 8, os alelos estão listados em ordem decrescente de frequência; as frequências dos alelos 1-5 para cada locus são dadas na Tabela 5. Os haplótipos codificados como H são haplótipos associados a BRCA1, P designa um haplótipo H parcial e um R indica um haplótipo recombinante observável. Tal como é evidente na Tabela 8, nem todas as famílias foram tipificadas para todos os marcadores; para além disso, nem todos os indivíduos dentro de uma família foram tipificados para um conjunto idêntico de marcadores, especialmente em K2082. Com uma excepção, apenas são mostrados os haplótipos herdados de membros de uma família afectados ou em risco; os haplótipos dos cônjuges que entraram para a família não são descritos. Assim, num dado relacionamento familiar, o surgimento de haplótipos X e Y indica que ambos os haplótipos do indivíduo afectado/em risco foram observados e nenhum era um haplótipo associado a cancro da mama.

86 719 EP 705 903/PT 78

TABELA 8tipos Ligados a Cancro da Mama Encontrados nas Três Famílias co a CN _ u co o O O ao T3 co V+— Έ 00 z z

CN (Q (N (N z N (N r- CN^^Or^ 00 0000 00 00 "ct ní- rj- >3· <3- <3-

CN 00 CO CN CN σ> CN >

LD oo < O

O) O r— N < <

CN Q LU

LO σ> z z

CO CN CN (N 2 2 (N (N (N <í z z z z z z

tí) 2 OJ <£> 2 Z Φ to co

00 CO CO LO LO Tj-

LO CO 00

'Cj- CN CN

Γ"· LO LO LO 00 00 ''t 'Cf r— <crx (-

LO

LO CN z z z z z

(N CN CN <30 oooooococooor^oooooo oococo

Q. < X E 05 U_ <- CNx cr o σο

CN aoo CN T— CN'— tN CO 'í lí] (O [s Q-Q-OCQCCECCCCCCa; = CN CNx x cr

LO 00o CN 79 86 719 ΕΡ 705 903/ΡΤ

Na Família Κ1901, os novos marcadores não mostraram qualquer recombinação observável com susceptibilidade para cancro da mama, indicando que o evento de recombinação nesta família teve provavelmente lugar entre THRA1 e ED2. Assim, não foi obtida qualquer informação nnva sobre 2 localização de BRCA1 com base no estudo dos quatro novos marcadores nesta família. Na Família 2082 o indivíduo recombinante-chave herdou os alelos ligados para ED2, 4-7, AA1 e YM29, e era recombinante para tdj1474 indicando que o evento de recombinação ocorreu neste indivíduo entre tdj1474 e ED2/AA1.

Existem três haplótipos de interesse na Família K2035, H1, H2 e R2 mostrados na Tabela 8. H1 está presente nos quatro casos e num portador masculino obrigatório descendente do indivíduo 17 enquanto que H2 está presente ou é deduzido em dois casos e dois portadores masculinos obrigatórios em descendentes do indivíduo 10. R2 é idêntico a H2 para os loci entre, e incluindo, Mfd15 e SCG40, mas recombinou entre SCG40 e 42D6. Uma vez que estabelecemos que BRCA1 é proximal em relação a 42D6, esta diferença H2/R2 não adiciona mais informação quanto à localização. H1 e R2 partilham um alelo idêntico em Mfd15, THRA1, AA1 e ED2 mas diferem para os loci que se presume serem distais em relação a ED2, i.e., 4-7, Mfd188, SCG40 e 6C1. Embora os dois haplótipos sejam concordantes para o 5o alelo para o marcador YM29, um marcador que é mapeado fisicamente entre 4-7 e Mdf188, é provável que os alelos sejam partilhados idênticos por estado em vez de idênticos por descendência uma vez que este alelo é o alelo mais comum neste locus com uma frequência estimada em pais de CEPH de 0,42. Em contraste, os alelos ligados partilhados nos loci Mfd15 e ED2 têm frequências de 0,04 e 0,09, respectivamente. Estes partilham também mais alelos comuns em Mfd191 (frequência = 0,52), THRA1 e AA1 (frequência = 0,28). Este é o recombinante-chave no conjunto uma vez que é o único recombinante em que o cancro da mama segregou com a porção proximal do haplótipo, estabelecendo assim a fronteira distai. A evidência desta família coloca portanto o locus BRCA1 proximal em relação a 4-7. O evento de recombinação na Família 2082 que coloca BRCA1 distai em relação a tdj1474 é o único dos quatro eventos descritos que pode ser directamente deduzido; isto é, o genótipo da mãe afectada pode ser deduzido a partir do seu cônjuge e descendência, e o haplótipo recombinante pode ser Γ

86 719 ΕΡ 705 903/ΡΤ 80 observado na sua filha afectada. Nesta família as probabilidades a favor de indivíduos afectados possuindo alelos de susceptibilidade de BRCA1 são extremamente elevadas; as únicas interpretações possíveis dos dados são de que BRCA1 é distai em relação a Mfd191 ou alternativamente que o recomoinante implicado é um caso esporádico de cancro do ovário aos 44 anos. Em vez de um recombinante directamente observável ou deduzido, a interpretação da Família 2035 depende da observação de haplótipos de 17q distintos que segregam, em ramos diferentes e por vezes distantemente relacionados da família. A observação de que porções destes haplótipos têm alelos em comum para alguns marcadores enquanto que diferem noutros marcadores coloca o locus BRCA1 na região partilhada. A confiança nesta colocação depende de vários factores: o parentesco entre os indivíduos portadores dos respectivos haplótipos, a frequência do alelo partilhado, a certeza com que se pode mostrar que os haplótipos segregam, com o locus BRCA1 e a densidade dos marcadores na região que define o haplótipo. No caso da Família 2035, os dois ramos estão intimamente relacionados, e cada um dos ramos tem vários casos de aparecimento precoce que possuem o respectivo haplótipo. Enquanto que dois dos alelos partilhados são comuns, (Mfd191, THRA1), as frequências estimadas dos alelos partilhados em Mfd15, AA1 e ED2 são de 0,04, 0,28 e 0,09, respectivamente. É portanto altamente provável que estes alelos sejam idênticos por descendência (derivados de um ancestral comum) em vez de idênticos por estado (o mesmo alelo mas derivado da população geral). EXEMPLO 6

Estudos de Mapeamento Físico Refinado Colocam o Gene BRCA1 numa Região

Flanqueada por tdj 1 474 e U5R

Desde a sua localização inicial no cromossoma 17q em 1990 (Hall et a/., 1990) tem sido feito um grande esforço para localizar o gene BRCA1 numa região suficientemente pequena que permita a implementação de estratégias de clonagem posicionai eficazes para isolar o gene. O locus BRCA1 foi primeiro localizado no intervalo Mfd15 (D 1 7S250)-42D6 (D17S588) através de análise de ligação em múltiplos pontos (Easton et a/., 1993) no conjunto de dados da colaboração com o Breast Câncer Linkage Consortium que consiste em 214 famílias recolhidos em todo o mundo. Os refinamentos subsequentes da localização basearam-se em eventos recombinantes individuais em famílias 81 86 719 ΕΡ 705 903/ΡΤ específicas. A região THRA1-D1 7S183 foi definida por Bowcock eia/., 1993; e a região THRA1-D17S78 foi definida por Simard et a!., 1993.

Mostrámos ainda que o locus BRCA1 tem que ficar distai em relação ao marcador ívifdiyi (D17S776) (Goldgar et a!., 1994). Sabe-se que este marcador é distai em relação a THRA1 e RARA. A região mais pequena publicada para o locus BRCA1 está assim entre D17S776 e D17S78. Esta região contém ainda aproximadamente 1,5 milhões de bases de ADN, tornando o isolamento e teste de todos os genes na região uma tarefa muito difícil. Empreendemos portanto as tarefas de construir um mapa físico da região, isolar um conjunto de marcadores de STR polimórficos localizados na região e analisar estes novos marcadores num conjunto de famílias informativas para refinar a localização do gene BRCA1 a um intervalo tratável.

Quatro famílias proporcionam evidência genética importante para a localização de BRCA1 numa região suficientemente pequena para a aplicação de estratégias de clonagem posicionai. Duas famílias (K2082, K1901) proporcionam dados relativos à fronteira proximal de BRCA1 e as outras duas (K2035, K1813) fixam a fronteira distai. Estas famílias são discutidas em detalhe abaixo. Foi utilizado um total de 15 marcadores de Repetições Curtas em Cadeia passíveis de ensaio por PCR para refinar esta localização nas famílias estudadas. Estes marcadores incluem DS17S7654, DS17S975, tdj1474 e tdj1239. As sequências dos iniciadores para estes marcadores são proporcionadas em SEQ ID NO: 3 e SEQ ID NO: 4 para DS17S754; em SEQ ID NO:5 e SEQ ID NO: 6 para DS17S975; em SEQ ID NO: 7 e SEQ ID NO:8 para tdj 1474; e em SEQ ID NO: 9 e SEQ ID NO: 10 para tdj1 239.

Família 2082 A Família 2082 é a maior família com cancro da mama/ovário ligado a BRCA1 até hoje estudada. Tem uma classificação de LOP de 8,6, proporcionando uma evidência inequívoca para ligação a 17q. Esta família foi descrita anteriormente e mostrou-se que continha um recombinante crítico colocando BRCA1 distai em relação a Mfd191 (D17S776). Este recombinante ocorreu numa mulher diagnosticada com cancro do ovário aos 45 anos cuja mãe teve cancro do ovário aos 63 anos. A mãe afectada faleceu; no entanto, a partir dos seus filhos, pôde-se deduzir que ela tinha o haplótipo ligado presente nos outros 30 casos ligados na família na região entre Mfd15 e Mfd188. A sua 82 86 719 ΕΡ 705 903/ΡΤ filha afectada recebeu o alelo ligado nos loci ED2, 4-7 e Mfd188, mas recebeu o alelo no cromossoma que não possui BRCA1 em Mfd15 e Mfd191. De forma a localizar melhor este ponto de quebra de recombinação, testámos os membros-chave desta família quanto aos seguintes marcadores derivados de icuuiscs de mapeamento tísico: tdj1474, tdj 1239, CF4, D17S855. Para os marcadores tdj1474 e CF4, a filha afectada não recebeu o alelo ligado. Para o locus STR tdj 1239, no entanto, pôde-se deduzir que a mãe era informativa e que a sua filha recebeu o alelo associado a BRCA1. Nesta família D17S855 não foi informativo. Com base nesta análise, a ordem é centrómero de 17q -Mfd1 91 - 17HSD - CF4 - tdj 1 474 - tdj 1 239 - D17S855 - ED2 - 4-7 - Mfd188 -telómero de 17q. O recombinante descrito acima coloca portanto BRCA1 distai em relação a tdj1474 e o ponto de quebra localiza-se no intervalo entre tdj1474 e tdj 1 239. A única explicação alternativa para os dados nesta família sem ser de que BRCA1 está localizado distai em relação a tdj 1474, é a de que o cancro do ovário presente no indivíduo recombinante é causado por razões independentes do gene BRCA1. Dado que o cancro do ovário diagnosticado antes dos 50 anos é raro, esta explicação alternativa é extremamente improvável.

Família 1901 A Família 1901 é uma família com cancro da mama de aparecimento precoce com 7 casos de cancro da mama diagnosticados antes dos 50 anos, 4 dos quais foram diagnosticados antes dos 40 anos. Adicionalmente, houve três casos de cancro da mama diagnosticados entre os 50 e os 70 anos. Um caso de cancro da mama também teve cancro do ovário aos 61 anos. Esta família tem actualmente uma classificação de LOP de 1,5 com D17S855. Dada esta evidência de ligação e a presença de pelo menos um caso de cancro do ovário, esta família tem uma probabilidade posterior de ser devido a BRCA1 superior a 0,99. Nesta família, a recombinação advém do facto de um indivíduo que é o irmão do caso de cancro do ovário a partir do qual descendem a maioria dos outros casos, apenas partilhar uma porção do haplótipo que co-segrega, com os outros casos na família. No entanto, ele passou este haplótipo parcial à sua filha que desenvolveu cancro da mama aos 44 anos. Se este caso se dever ao gene BRCA1, então a única parte do haplótipo partilhada entre este irmão e a sua irmã pode conter o gene BRCA1. A dificuldade na interpretação deste tipo de informação é a de que enquanto se pode ter certeza dos marcadores que não são partilhados e portanto recombinantes, os marcadores que são concordantes 83 86 719 ΕΡ 705 903/ΡΤ podem ser partilhados por não serem recombinantes ou por o seu progenitor ser homozigótico. Sem os dados genotípicos dos progenitores é impossível discriminar entre estas alternativas. A inspecção do haplótipo em K1901, mostra que este não partilha o alelo ligado em Midi 5 (D17S250), THRA1. CF4 (Di7Si32u) e tdj1474 (17DS1321). Este não partilha o alelo ligado em Mfd191 (D17S776), ED2 (D17S1327), tdjl 239 (D17S1328) e Mfd188 (D17S579). Embora o alelo partilhado em Mfd191 seja relativamente raro (0,07), presumimos que o progenitor era homozigótico uma vez que estes são recombinantes com marcadores localizados próximo em ambos os lados, e um duplo evento de recombinação nesta região seria extremamente improvável. Assim a evidência nesta família colocaria também o locus BRCA1 distai em relação a tdj1474. No entanto, é impossível determinar a fronteira inferior deste ponto de quebra sem informação do genótipo parental. É intrigante que o ponto de quebra recombinante-chave nesta família confirme o resultado na Família 2082. Tal como antes, a informação de localização nesta família é apenas significativa se o cancro da mama se devesse ao gene BRCA1. No entanto, a sua idade relativamente precoce aquando do diagnóstico (44) torna isto muito provável uma vez que o risco de cancro da mama antes dos 45 anos na população em geral é baixo (aproximadamente 1%).

Família 2035

Esta família é semelhante a K1901 no que diz respeito à informação sobre os eventos recombinantes críticos não ser directamente observada mas deduzida a partir da observação de que os dois haplótipos que co-segregam, com o cancro da mama de aparecimento precoce nos dois ramos da família parecem idênticos para marcadores localizados na porção proximal da região de BRCA1 de 17q mas diferem em toei mais distais. Cada um destes dois haplótipos ocorre em pelo menos quatro casos de cancro da mama de aparecimento precoce ou bilateral. A classificação de LOP global com ED2 nesta família é de 2,2 e considerando que existe um caso de cancro do ovário na família (indicando uma probabilidade anterior de ligação a BRCA1 de 80%), a probabilidade posterior resultante desta família estar ligada a BRCA1 é de 0,998. Os haplótipos são idênticos para os marcadores Mfd15, THRA1, Mfd191, ED2, AA1, D17S858 e D17S902. O alelo comum em Mfd15 e ED2 são ambos relativamente raros, indicando que este haplótipo é partilhado idêntico por descendência. Os haplótipos são discordantes, no entanto, para CA375, 4-7 e Mfd188, e mais alguns marcadores distais. Isto indica que o 84 86 719 ΕΡ 705 903/ΡΤ locus BRCA1 deve ficar acima do marcador CA-375. Este marcador localiza-se aproximadamente 50 kb abaixo de D17S78, servindo assim principalmente como confirmação adicional desta fronteira inferior anterior tal como relatado em Simard et a!., (1993).

Família 1813 A Família 1813 é uma família pequena com quatro casos de cancro da mama diagnosticados antes dos 40 anos em que a mãe teve cancro da mama diagnosticado aos 45 anos e cancro do ovário aos 61 anos. Esta situação é de algum modo complicada pelo facto dos quatro casos parecerem ter três pais diferentes, dos quais apenas um foi genotipificado. No entanto, tipificando vários marcadores diferentes na região de BRCA1 bem como marcadores altamente polimórficos noutras partes do genoma, foi determinada a paternidade de todas as crianças na família com um elevado grau de certeza. Esta família produziu uma classificação de LOP de múltiplos pontos máxima de 0,60 com marcadores de 17q e, dado que existe pelo menos um caso de cancro do ovário, resulta numa probabilidade posterior de ser uma família ligada a BRCA1 de 0,93. Esta família contém um evento de recombinação directamente observável no indivíduo 18 (ver Figura 5 em Simard et a/., Human Mol. Genet. 2: 1193-1199 (1993)), que desenvolveu cancro da mama aos 34 anos. O genótipo da sua mãe afectada nos loci de 17q relevantes pode ser deduzido a partir dos seus genótipos, dos genótipos da sua irmã afectada e dos genótipos de três outros irmãos não afectados. 0 indivíduo 18 herda os alelos ligados a BRCA1 para os seguintes /oci: Mfd15, THRA1, D17S800, D17S855, AA1 e D17S931. No entanto, para marcadores abaixo de D17S931, i.e., U5R, vrs31, D17S858 e D17S579, ela herdou os alelos localizados no cromossoma que não possui a doença. A evidência desta família colocaria portanto o locus BRCA1 proximal em relação ao marcador U5R. Devido à sua idade precoce aquando do diagnóstico (34) é extremamente improvável que o cancro do indivíduo recombinante não seja devido ao gene responsável pelos outros casos de cancro da mama/ovário nesta família; a incerteza nesta família advém da nossa de algum modo pequena quantidade de evidências de que o cancro da mama nesta família seja devido a BRCA1 em vez de um segundo locus de susceptibilidade para cancro da mama, ainda não mapeado. 85 86 719 ΕΡ 705 903/ΡΤ

Tamanho da região contendo BRCA1

Com base nos dados genéticos acima descritos em pormenor, o locus BRCA1 tem de estar no intervalo entre os marcadores tdj1474 e U5R, ambos isolados no nosso laboratório. Com base nos mapas físicos mostrados nas Figuras 2 e 3, podemos tentar estimar a distância física entre estes dois loci. São necessários aproximadamente 14 clones de P1 com um tamanho de inserção médio de aproximadamente 80 kb para abranger a região. No entanto, como todos estes P1 se sobrepõem até um determinado grau desconhecido, é muito provável que a região física seja muito inferior a 14 vezes 80 kb. Com base nos mapas de restrição dos clones que cobrem a região, estimamos que o tamanho da região contendo BRCA1 seja de aproximadamente 650 kb. EXEMPLO 7

Identificação de Clones de ADNc Candidatos para o Locus BRCA1 Através de Análise Genómica da Região de Elementos Contíguos

Pesquisa completa da região plausível. O primeiro método para identificar ADNc candidatos, embora seja trabalhoso, utilizou técnicas conhecidas. O método compreendeu a pesquisa de clones cosmídicos e de P1 e BAC nos elementos contíguos para identificar sequências de codificação putativas. Os clones contendo as sequências de codificação putativas foram então utilizados como sondas sobre filtros de bibliotecas de ADNc para identificar os clones de ADNc candidatos para análises futuras. Os clones foram pesquisados quanto a sequências de codificação putativas através de um de dois métodos. "Zoo b/ots". O primeiro método para identificação de sequências de codificação putativas foi a pesquisa dos clones cosmídicos e de P1 quanto a sequências conservadas ao longo da evolução atravessando várias espécies. Esta técnica é referida como "análise de zoo bJot" e é descrita por Monaco, 1986. Especificamente, foram digeridos ADN de vaca, galinha, porco, ratinho e rato com as enzimas de restrição £coRI e Hind\\\ (8 ug de ADN por enzima). Os ADN digeridos foram separados de um dia para o outro num gel a 0,7% a 20 volt durante 16 horas (14 cm de gel) e o ADN foi transferido para membranas de Nylon utilizando técnicas de "Southern blot" padrão. Por exemplo, o filtro de "zoo blot" foi tratado a 65°C com SSC 0,1x, SDS a 0,5% e Tris 0,2 M, pH 8,0, durante 30 minutos e depois bloqueado de um dia para o outro a 42°C em SSC 5x, PEG 8000 a 10%, NaPOa 20 mM, pH 6,8, ADN de 86 86 719 ΕΡ 705 903/ΡΤ

Esperma de Salmão 100 pg/ml, solução de Denhardt 1x, formamida a 50%, SDS a 0,1 % e 2 pg/ml de ADN C0t-1.

Os clones cosmídicos e de P1 a analisar foram digeridos com uma enzima de restrição para libertar o ADN humano do ADN do vector. O ADN foi separado num gel de agarose de 14 cm a 0,5% corrido de um dia para o outro a 20 volt durante 16 horas. As bandas de ADN humano foram cortadas do gel e electroeluídas das bordas do gel a 100 volts durante pelo menos duas horas em tampão Tris-Acetato 0,5x (Maniatis et a/., 1982). O ADN digerido com Not\ eluído (*15 kb a 25 kb) foi então digerido com a enzima de restrição EcoRI para dar fragmentos mais pequenos MD,5 kb a 5,0 kb) os quais se desligam mais facilmente para o passo seguinte de marcação do ADN com radionuclídeos. Os fragmentos de ADN foram marcados através do método de marcação por iniciação aleatória com hexâmeros (Boehringer-Mannheim, Cat. #1004760). O ADN marcado foi precipitado com espermina (adicionar 100 μΙ de TE, 5 μΙ de espermina 0,1 M e 5 μΙ de ADN de esperma de salmão 10 mg/ml) para remover os radionuclídeos não incorporados. O ADN marcado foi então ressuspenso em 100 ul de TE, NaCI 0,5 M a 65°C durante 5 minutos e depois bloqueado com ADN C0t-1 Humano durante 2-4 h conforme as instruções do fabricante (Gibco/BRL, Cat. #5279SA). A sonda C0t-1 bloqueada foi incubada nos filtros de "zoo blot" na solução de bloqueio de um dia para o outro a 42°C. Os filtros foram lavados durante 30 minutos à temperatura ambiente em SSC 2x, SDS a 0,1% e depois no mesmo tampão durante 30 minutos a 55°C. Os filtros foram então expostos 1 a 3 dias a -70°C a película Kodak XAR-5 com um écran intensificador. Assim, os "zoo blots" foram hibridados ou com o banco de fragmentos EcoRI da inserção ou com cada um dos fragmentos individualmente.

Análise de ilhas HTF. 0 segundo método para identificação de cosmídeos para utilizar como sondas nas bibliotecas de ADNc foi a análise de ilhas HTF. Uma vez que o mapa de campo pulsado pode revelar ilhas HTF, os cosmídeos que são mapeados nessas regiões de ilhas HTF foram prioritariamente analisados. As ilhas HTF são segmentos de ADN que contêm uma frequência muito elevada de dinucleótidos CpG não metilados (Tonolio et a!., 1990) e revelam-se pelo agrupamento de locais de restrição de enzimas cujas sequências de reconhecimento incluem dinucleótidos CpG. As enzimas que se sabe serem úteis em análise de ilhas HTF são /)scl, Not\, EssHIl, Eag\, Sacll, Nae\, Nar\, Sma\ e Mlu\ (Anand, 1992). Foi criado um mapa de campo pulsado

86 719 ΕΡ 705 903/ΡΤ 87 utilizando as enzimas ΝοΐI, Λ/ml, Eag\, Sadl e Sal\ e foram encontradas duas ilhas HTF. Estas ilhas localizam-se na extremidade distai da região, sendo uma distai em relação ao locus GP2B e a outra proximal em relação ao mesmo /ocus, ambas fora da região de BRCA1. Os cosmídeos derivados dos YAC aue cohrem estas duas localizações foram analisados para identificar os que continham estes locais de restrição, e assim as ilhas HTF.

Pesquisa de ADNc. É provável que os clones que contêm ilhas HTF ou que mostram hibridação com ADN de outras espécies para além da humana contenham sequências de codificação. 0 ADN humano destes clones foi isolado como uma inserção inteira ou como fragmentos £coRI e marcado tal como descrito acima. O ADN marcado foi utilizado para pesquisar filtros de várias bibliotecas de ADNc sob as mesmas condições que os "zoo blots" excepto que os filtros de ADNc sofreram uma lavagem em condições mais rigorosas, com SSC 0,1 x, SDS a 0,1 % a 65°C durante 30 minutos, duas vezes. A maioria das bibliotecas de ADNc utilizadas até agora nos nossos estudos (bibliotecas de tecido da mama normal, tecido da mama de uma mulher no seu oitavo mês de gravidez e de uma malignidade da mama) foram preparadas em Clonetech, Inc. A biblioteca de ADNc criada a partir de tecido da mama de uma mulher grávida de oito meses está disponível de Clonetech (Cat #HL1037a) no vector Lambda gt-10, e cresceu em células hospedeiras bacterianas C600Hfl. As amostras de tecido da mama normal e de tecido da mama maligno foram isoladas de uma mulher caucasiana de 37 anos de idade e foi enviado um grama de cada tecido para Clonetech para processamento do ARNm e construção da biblioteca de ADNc. As duas últimas bibliotecas foram criadas utilizando tanto iniciação aleatória como com oligo-dT, com selecção por tamanhos dos produtos finais os quais foram então clonados no vector Lambda Zap II, e cresceram na estirpe XL1-blue de bactérias tal como descrito pelo fabricante. Bibliotecas adicionais de ADNc específicas de tecidos incluem cérebro fetal humano (Stratagene, Cat. 936206), testículo humano (Clonetech Cat. HL3024), timo humano (Clonetech Cat. HL1127n), cérebro humano (Clonetech Cat. HL11810), placenta humana (Clonetech Cat. 1075b) e músculo esquelético humano (Clonetech Cat. HL1124b).

As bibliotecas de ADNc foram plaqueadas com as suas células hospedeiras em placas NZCYM e os levantamentos de filtros são feitos em

88 86 719 ΕΡ 705 903/ΡΤ duplicado a partir de cada placa tal como per Maniatis et a/., (1982). 0 ADN (humano) da inserção dos clones genómicos candidatos foi purificado e marcado radioactivamente para uma elevada actividade específica. O ADN radioactivo foi então hibridado com os filtros de ADNc para identificar os ADNr que correspondem aos genes localizados no clone cosmídico candidato. Os ADNc identificados através deste método foram apanhados, replaqueados e pesquisados novamente com a inserção do clone marcada ou o seu ADN fragmento £coRI derivado para verificar o seu estado positivo. Os clones que eram positivos após este segundo ciclo de pesquisa foram então postos a crescer e o seu ADN foi purificado para análise de "Southern blot" e sequenciação. Os clones foram purificados na forma de plasmídeos através de excisão in vivo do plasmídeo a partir do vector Lambda tal como descrito nos protocolos dos fabricantes ou isolados a partir do vector Lambda como um fragmento de restrição e subclonado em vectores plasmídicos. A análise de "Southern blot" foi efectuada em duplicado, uma utilizando o ADN de inserção genómico original como sonda para verificar que a inserção de ADNc contém sequências que hibridam. 0 segundo "blot" foi hibridado com ADN da inserção de ADNc do maior clone de ADNc para identificar que clones representam o mesmo gene. Todos os ADNc que hibridam com o clone genómico e que são únicos foram sequenciados e o ADN foi analisado para determinar se as sequências representam genes conhecidos ou únicos. Todos os clones de ADNc que parecem ser únicos foram ainda analisados como loci BRCA1 candidatos. Especificamente, os clones são hibridados com "Northern blots" para procurar uma expressão específica da mama e expressão diferencial em ARN normal versus de tumor da mama. Estes são também analisados por PCR sobre clones na região de BRCA1 para verificar a sua localização. Para mapear a extensão do locus, são isolados ADNc inteiros e as suas sequências são utilizadas como sondas de PCR nos YAC e nos clones circundantes e que incluem os clones originais de identificação. As fronteiras intrão-exão são depois ainda definidas através da análise das sequências.

Pesquisámos as bibliotecas de ADNc de mama normal, de mama de grávida de 8 meses e de cérebro fetal com fragmentos £coRI positivos em "zoo blots" dos clones cosmídicos, de BAC e P1 na região. Os clones de ADNc de BRCA1 potenciais foram identificados entre as três bibliotecas. Os clones foram 89 86 719 EP 705 903/ΡΤ recolhidos, replaqueados e pesquisados novamente com a sonda original para verificar que eram positivos.

Análise de ADNc seleccionado a partir de híbridos. Os fragmentos de ADNu ubtiaos por selecção directa foram verificados através de hibridação "Southern b/ot" contra o ADN-sonda para verificar que eram originários do elemento contíguo. Os que passaram este teste foram inteiramente sequenciados. O conjunto de sequências de ADN obtidas deste modo foram então verificadas umas contra as outras para se encontrarem clones independentes que se sobrepunham. Por exemplo, os clones 694-65, 1240-1 e 1240-33 foram obtidos independentemente e mostrou-se subsequentemente que derivavam da mesma sequência de ADNc contígua a qual foi chamada EST:489:1.

Análise dos clones candidatos. Um ou mais dos genes candidatos criados a partir de cima foram sequenciados e a informação foi utilizada para identificação e classificação de cada gene expresso. As sequências de ADN foram comparadas com genes conhecidos através de comparações da sequência nucleotídíca e através de tradução em todos os enquadramentos seguida de comparação com sequências de aminoácidos conhecidas. Isto foi alcançado utilizando o suporte lógico Genetic Data Environment (GDE) versão 2.2 e a série de pacotes de suportes lógicos cliente/servidor Basic Local Alignment Search Tool (Blast) (p.ex., BASTN 1.3.13MP), para comparação de sequências contra bases de dados de sequências locais e remotas (p.ex., GenBank), a correr em estações de trabalho Sun SPARC. Foram criadas sequências reconstruídas a partir de colecções de clones de ADNc identificados com os cosmídeos e P1. Todos os genes candidatos que representavam sequências novas foram ainda analisados, quanto ao locus BRCA1 putativo para testar a sua capacidade para serem candidatos.

Pesquisa de mutações. Para pesquisar mutações nas árvores

genealógicas afectadas, foram seguidas duas abordagens diferentes. Primeiro, o ADN genómico isolado de membros da família que se sabia serem portadores do alelo de susceptibilidade de BRCA1 foi utilizado como molde para amplificação das sequências de genes candidatos por PCR. Se os iniciadores de PCR flanqueiam ou se sobrepõem a uma fronteira intrão/exão, o fragmento amplificado será maior que o previsto a partir da sequência de ADNc ou não 90 86 719 ΕΡ 705 903/ΡΤ estará presente na mistura amplificada. Através de uma combinação de tais experiências de amplificação e sequenciação dos clones de P1, BAC ou cosmídicos utilizando o conjunto de iniciadores concebidos é possível estabelecer a estrutura intrão/exão e finalmente obter as sequências de ADN do ADN yenómico a partir das árvores genealógicas.

Uma segunda abordagem que é muito mais rápida se a estrutura intrão/exão do gene candidato for complexa envolve a sequenciação de fragmentos amplificados a partir de ADNc de linfócitos da árvore genealógica. 0 ADNc sintetizado a partir de ARNm de linfócitos extraídos do sangue da árvore genealógica foi utilizado como substrato para amplificação por PCR utilizando o conjunto de iniciadores concebidos. Se o gene candidato for expresso num nível significativo em linfócitos, tais experiências produzem usualmente fragmentos amplificados que podem ser sequenciados directamente sem o conhecimento das junções intrão/exão.

Os produtos de tais reacções de sequenciação foram analisados por electroforese em gel para determinar as posições na sequência que contêm mutações tais como deleções ou inserções, ou substituições de pares de bases que causem alterações de aminoácidos ou outros efeitos prejudiciais.

Qualquer sequência dentro da região de BRCA1 que seja expressa na mama é considerada como sendo um gene candidato para BRCA1. A evidência no sentido de que um dado gene candidato corresponde a BRCA1 advém de uma demonstração de que as famílias das árvores genealógicas contêm alelos deficientes do candidato. EXEMPLO 8 Identificação de BRCA1

Identificação de BRCA1. Utilizando várias estratégias, foi desenvolvido um mapa pormenorizado de transcritos para a região de 600 kb de 17q21 entre D17S1321 e D17S1324. As sequências expressas candidatas foram definidas como sequências de ADN obtidas a partir de: 1) pesquisa directa de bibliotecas de ADNc de mama, cérebro fetal ou linfócitos, 2) selecção de híbridos de ADNc de mama, linfócitos ou ovário, ou 3) sequenciação aleatória de ADN genómico e previsão dos exões codificantes através de XPOUND (Thomas e Skolnick,

91 86 719 ΕΡ 705 903/ΡΤ 1994). Estas sequências expressas em muitos casos foram associadas em elementos contíguos compostos por várias sequências independentemente identificadas. Os genes candidatos podem compreender mais de uma destas sequências expressas candidatas. Foram identificadas sessenta e cinco sequências expressas candidatas dentro desta região através de selecção de híbridos, através de pesquisa directa de bibliotecas de ADNc e através de sequenciação aleatória de subclones de P1. As sequências expressas foram caracterizadas pelo tamanho do transcrito, sequência de ADN, comparação com bases de dados, padrão de expressão, estrutura genómica e, mais importante, análise da sequência de ADN em indivíduos de famílias que segregam susceptibilidade a cancro da mama e do ovário ligada a 17q.

Foram isolados três elementos contíguos independentes de sequências expressas, 1141:1 (649 pb), 694:5 (213 pb) e 754:2 (1079 pb) e mostrou-se eventualmente que representavam porções de BRCA1. Quando foram utilizados EST para estes elementos contíguos como sondas de hibridação para análise de "Northern", foi observado um único transcrito de aproximadamente 7,8 kb em ARNm de mama normal, sugerindo que estes codificam porções diferentes de um único gene. Pesquisas de bibliotecas de ADNc de mama, cérebro fetal, timo, testículo, linfócitos e placenta e experiências de PCR com ARNm de mama ligaram os elementos contíguos 1141:1, 694:5 e 754:2. Experiências de RACE 5' com ARNm de timo, testículo e mama estenderam o elemento contíguo até à extremidade 5' putativa, produzindo uma sequência compósita completa. Foi utilizado PCR e sequenciação directa de P1 e BAC na região para identificar a localização de intrões o que permitiu a determinação de locais dadores e aceitadores de união. Estas três sequências expressas foram fundidas numa única unidade de transcrição que se provou na análise final ser BRCA1. Esta unidade de transcrição localiza-se adjacente a D17S855 no centro da região de 600 kb (Fig. 4). A combinação das sequências obtidas a partir de clones de ADNc, sequências da selecção de híbridos e produtos amplificados por PCR permitiu a construção de um ADNc de BRCA1 compósito completo (SEQ ID NO: 1). A sequência do ADNc de BRCA1 (até ao codão de terminação) foi também depositada no GenBank e foi-lhe atribuído o número de acesso U-14680. Esta sequência depositada é aqui incorporada por referência. O clone de ADNc que mais se estende mais na direcção 3' contém um tracto poli(A) precedido por um 86 719 ΕΡ 705 903/ΡΤ 92

sinal de poliadenilação. A tradução conceptual do ADNc revelou um único enquadramento de leitura aberta longo de 108 quilodaltons (sequência de aminoácidos: SEQ ID NO: 2) com um potencial codão de iniciação flanqueado por sequências semelhantes à sequência de consenso de Kozak (Kozak, 1987). As buscas de Smith-Waterman (Smith e Waterman, 1981) e BLAST (Altschul et aí., 1990) identificaram uma sequência próxima do terminal amino com uma homologia considerável a domínios dedo-de-zinco (Fig. 5). Esta sequência contém resíduos de cisteína e histidina presentes no motivo de consenso dedo-de-zinco C3HC4 e partilha vários outros resíduos com proteínas dedo-de-zinco nas bases de dados. O gene BRCA1 é composto por 23 exões codificantes ordenados ao longo de mais de 100 kb de ADN genómico (Fig. 6). Os "Northern blots" utilizando fragmentos de ADNc de BRCA1 como sondas identificaram um único transcrito de cerca de 7,8 kb, presente mais abundantemente em mama, timo e testículo, e também presente no ovário (Fig. 7). Foram observados quatro produtos de processamento alternativo como clones de ADNc independentes; 3 destes foram detectados em ARNm de mama e 2 no de ovário (Fig. 6). Uma inspecção por PCR a partir de ADNc dos tecidos apoia ainda mais a ideia de que existe uma considerável heterogeneidade próximo da extremidade 5' dos transcritos deste gene; a base molecular para a heterogeneidade envolve a escolha diferencial do primeiro local dador de união, e todas as mudanças detectadas alteram o transcrito na região 5' do codão de iniciação identificado. Detectámos seis potenciais dadores de união alternados nesta região 5' não traduzida, com a deleção mais longa sendo de 1155 pb. A forma predominante da proteína BRCA1 na mama e no ovário não tem o exão 4. A sequência nucleotídica para o exão 4 de BRCA1 é mostrada na SEQ ID NO: 11, com a sequência de aminoácidos prevista mostrada na SEQ ID NO: 12. A sequência 5' adicional do ADN genómico de BRCA1 é exposta na SEQ ID NO: 13. O G na posição 1 representa o potencial local de início no testículo. O A na posição 140 representa o potencial local de início em tecido somático. Existem seis formas de união alternativas desta sequência 5' tal como mostrado na Figura 8. 0 G na posição 356 representa o primeiro local dador de união canónico. O G na posição 444 representa o primeiro local dador de união em dois clones (testículo 1 e testículo 2). O G na posição 889 representa o primeiro local dador de união em timo 3. Um quarto local dador de união é o G na posição 1230. O T na posição 1513 representa o local aceitador de união para todos os dadores de união de cima. Uma quinta forma de união alternativa tem

93 86 719 ΕΡ 705 903/ΡΤ um primeiro local dador de união na posição 349 com um primeiro local aceitador na posição 591 e um segundo local dador de união na posição 889 e um segundo local aceitador na posição 1513. Uma sexta forma alternativa não é processada nesta região 5'. 0 A na posição 1532 é o local de inírio canónico, que aparece na posição 120 de SEQ ID NO: 1. As sequências parciais de ADN genómico determinadas para BRCA1 estão expostas nas Figuras 10A-10H e SEQ ID Números: 14-34. As letras minúsculas (nas Figuras 10A-10H) denotam a sequência de intrões enquanto que as letras maiúsculas denotam a sequência de exões. Intervalos indefinidos dentro dos intrões são designados com vvvvvvvvvvvvv nas Figuras 10A-10H. As uniões intrão/exão são mostradas na Tabela 9. O CAG encontrado na extremidade 5' dos exões 8 e 14 encontra-se em alguns ADNc mas não noutros. Os locais polimórficos conhecidos são mostrados nas Figuras 10A-10H com letras em negrito e sublinhados. Os polimorfismos conhecidos estão listados nas Tabelas 18 e 19. (Segue Tabela)

86 719 EP 705 903/PT 94

Exão Posição da Compri- Fronteiras do Intrão

O «M c 0) E

* 0 (/) CO -Q

Z

< i-M b

< < < ϋ p c ou < ko P <o p < sJ < CJ CJ < y y •M δ 3 < < < < ÇJ E- Γ CJ < P •«4 p O CJ P < r* b < r* b b o < b H P CJ ρ 4 P Ui 3 < 53 t* < < b < CJ lm r* < r* u CJ < CJ p r* r* P h u. < < ρ P P < r* p* < CJ < c < < < 5 O < CJ < < r* - -* *Λ r* <Λ p c> P *« r- < < < < < < < < o Lm P O P < O < < < Lm P r* P Í3 Lm Lm —· < Lm Lm Lm u C3 Cj Lm < Lm Lm r· P Lm k < Lm ϋ '-J c P — < k < -M Lm Lm Lm < r* L- < Lm b k < O — — < CJ < T* w L-> L- < Lm CJ CJ Lm W p < o r- P — p r* ^J J«4 —· O Lm < r* w P Lm μ Lm < C3 M Lm CJ L, Lm < CJ Lm Lm α f" < < j- Lm Lm Lm Lm r* r- r-· L- p Lm < p r» < Lm p < < < T* O Lm Lm H < < < P b < Lm < < P P Lm P o < b r-· < < < P C3 < Lm < < P <

LU cn CS σ\ ^ -η in rj 3

co O σ\ m 4 O (JS m 4 ri Oí « jH r-s m O O Ό <N V0 in ^0 σι UI N \Q .n CD H O > 3 Γ** fN m tj· O <r

LO

o o CN m CN •«n α

- CU <υ co Õ E 0) g l. 0 H— α LU 0 L_ CO 0 *-· E c 0 3 O r— co Q. r· 0) X w 0 ò cu XJ E 2 CO 0 Q cu CO — Ό O α co 0 LU O E ω 0) o <D E c Ό '3 co 2 O 0 * ♦

95 86 719 EP 705 903/PT TABELA 9 (continuação)

co O Q α LUCO (0 03 *03 (Λ (Ό XJ (C T3O ICD O- (/)O Cl

_ M· X) CN 'O XI LO «- co C\ c\ CM 23 (N ,«p n •M* XI XI o * XI XI XI XI x> XI XI XI X) úo 6 U3 xi LO c «* n CN CN m ri r* cn CM X) LO CM 3 T* XI XI XI XI X) XI X XI XI XI

O 103XUJ o XI Ό CO o — CM "3* z Γ-1 (N N CN {M CN J •0 y y u y y u Números das buses em SEQ ID NO: 96 86 719 ΕΡ 705 903/ΡΤ “Blots" de baixo rigor nos quais foi sondado ADN genómico de organismos de diversas proveniências filogenéticas com sequências de BRCA1 sem a região dedo-de-zinco revelaram fragmentos de forte hibridação em humano, macaco, ovelha e porco e sinais de hibridação muito fracns pm roedores. Este resultado indica que, para além do domínio dedo-de-zinco, BRCA1 é conservado apenas num nível moderado ao longo da evolução.

Mutações de BRCA1 da linha germinativa em famílias ligadas a 17q. O teste mais rigoroso para genes BRCA1 candidatos consiste em pesquisar mutações potencialmente disruptivas em indivíduos portadores de famílias que segreguem susceptibilidade a cancro da mama e do ovário ligada a 17q. Tais indivíduos têm de conter alelos BRCA1 que difiram da sequência de tipo selvagem. O conjunto de amostras de ADN utilizado nesta análise consistiu em ADN de indivíduos representando 8 famílias de BRCA1 diferentes (Tabela 10). TABELA 10

DESCRIÇÕES DAS FAMÍLIAS E CLASSIFICAÇÕES DE LOP ASSOCIADAS

Casos Class.

Família Casos (n) Esporádicos1 (n) LOP Marcador(es)

Ma Ma < 50 Ov 2082 31 20 22 7 9,49 D17S1327 2099 22 14 2* 0 2,36 D1 7S800/D17S8552 2035 10 8 1* 0 2,25 D17S1327 1901 10 7 Γ 0 1,50 D17S855 1925 4 3 0 0 0,55 D17S579 1910 5 4 0 0 0,36 D17S579/D1 7S2502 1927 5 4 0 1 -0,44 D17S250 191 1 8 5 0 2 -0,20 D17S250 ‘ Número de mulheres com cancro da mama (diagnosticado antes dos 50 anos) ou cancro do ovário (diagnosticado em qualquer idade) que não partilham o haplótipo ligado a BRCA1 que segrega nos restantes casos da família. ‘Classificação de LOP de múltiplos pontos calculada utilizando ambos os marcadores " A família contém um indivíduo que teve tanto cancro da mama como cancro do ovário; este indivíduo conta como um caso de cancro da mama e como um caso de cancro do ovário. 97 86 719 ΕΡ 705 903/ΡΤ

As classificações de logaritmo das probabilidades (LOP) nestas famílias variam de 9,49 a -0,44 para um conjunto de marcadores em 17q21. Quatro das famílias têm classificações de LOP convincentes para ligação, e 4 têm classificações de LOP reduzidos positivos ou negativos. As últimas famílias foram incluídas porque demonstram partilha do haplótipo no cromossoma 17q21 para pelo menos 3 membros afectados. Para além disso, todas as famílias no conjunto apresentam aparecimento precoce de cancro da mama e 4 das famílias incluem pelo menos um caso de cancro do ovário, ambos característicos de famílias de BRCA1. Uma família, 2082, tem uma incidência quase igual de cancro da mama e do ovário, uma ocorrência invulgar dada a relativa raridade do cancro do ovário na população. Todas as famílias excepto duas foram avaliadas no Utah. K2035 é do Midwest. K2099 é uma família afro-americana do sul dos EUA.

Na pesquisa inicial de mutações de predisposição em BRCA1, foi testado o ADN de um indivíduo que possui o haplótipo de predisposição em cada família. Os 23 exões codificantes e as junções de união associadas foram amplificados a partir de amostras de ADN genómico ou partir de ADNc preparado a partir de ARNm de linfócitos. Quando as sequências de ADN amplificadas foram comparadas com a sequência de tipo selvagem, verificou-se que 4 das 8 amostras das famílias continham variantes da sequência (Tabela 11). TABELA 11

MUTAÇÕES DE PREDISPOSIÇÃO Número da Família Mutação Efeito na Codificação Localização* 2082 C -» T Gin Terminação 4065 1910 C extra desvio de enquadramento 5385 2099 T G Met -» Arg 5443 2035 7 perda do transcrito 1901 deleção de 11 pb desvio de enquadramento 189

Em SEQ ID NO: 1 98 86 719 ΕΡ 705 903/ΡΤ

Todas as quatro sequências variantes são heterozigóticas e cada uma aparece em apenas uma das famílias. A Família 2082 contém uma mutação sem sentido no exão de codificação 10 (Fig. 9A), a Família 1910 contém uma inserção de um único nucleótido no exão de codificação 19 (Fig. 9B), e a Família 2099 contém uma mutação de sentido errado no exão de codificação 20, resultando numa substituição Met-*Arg (Fig. 90. As mutações por desvio de enquadramento e sem sentido são provavelmente disruptivas da função do produto de BRCA1. 0 péptido codificado pelo alelo com desvio de enquadramento na Família 1910 conteria uma sequência de aminoácidos alterada começando a 107 resíduos do terminal C de tipo selvagem. O péptido codificado pelo alelo com desvio de enquadramento na Família 1901 conteria uma sequência de aminoácidos alterada começando no 24° resíduo a partir do terminal N de tipo selvagem. 0 alelo mutante na Família 2082 codificaria uma proteína sem 548 resíduos do terminal C. A substituição de sentido errado observada na Família 2099 é potencialmente disruptiva uma vez que causa a substituição de um pequeno aminoácido hidrófobo (Met) por um resíduo grande com carga (Arg). Foram também identificados onze polimorfismos vulgares, 8 na sequência de codificação e 3 em intrões. 0 indivíduo estudado na Família 2035 contém evidentemente uma mutação reguladora em BRCA1. No seu ADNc, um local polimórfico (A-*G na base 3667) pareceu homozigótico, enquanto que o seu ADN genómico revelou heterozigocidade nesta posição (Fig. 9C). Uma explicação possível para esta observação é a de que o ARNm do seu alelo de BRCA1 mutado está ausente devido a uma mutação que afecta a sua produção ou estabilidade. Esta possibilidade foi ainda explorada examinando 5 locais polimórficos na região de codificação de BRCA1, os quais estão separados por até 3,5 kb no transcrito de BRCA1. Em todos os casos onde o seu ADN genómico parecia heterozigótico para um polimorfismo, o ADNc parecia homozigótico. Em indivíduos de outras famílias e em não portadores do haplótipo na Família 2035, estes locais polimórficos podiam ser observados como heterozigóticos no ADNc, implicando que a amplificação a partir do ADNc não estava desequilibrada a favor de um alelo. Esta análise indica que uma mutação de BRCA1 na Família 2035 ou evita a transcrição ou causa instabilidade ou processamento aberrante do transcrito de BRCA1. 99 86 719 ΕΡ 705 903/ΡΤ

Co-segregacão de mutações de BRCA1 com haplótipos de BRCA1 e análise da frequência na população. Para além da potencial ruptura da função proteica, têm de ser verificados dois critérios para que uma variante da sequência seja qualificada como uma mutação de predisposição candidata. A varianxe tem de: I) estar presente em indivíduos da família que possuam o haplótipo de predisposição de BRCA1 e ausente noutros membros da família, e 2) ser rara na população geral.

Cada mutação foi testada quanto à co-segregação com BRCA1. Para a mutação por desvio de enquadramento na Família 1910, foram sequenciados dois outros portadores do haplótipo e um não portador (Fig. 9B). Apenas os portadores exibiram a mutação por desvio de enquadramento. A mudança de C para T na Família 2082 criou um novo local de restrição AvrW. Foram testados outros portadores e não portadores na família quanto à presença do local de restrição (Fig. 9A). Foi concebido um oligonucleótido específico para o alelo (ASO) para detectar a presença da variante da sequência na Família 2099. Vários indivíduos da família, alguns que se sabe possuírem o haplótipo associado ao alelo de predisposição, e outros que se sabe não possuírem o haplótipo associado, foram pesquisados por ASO para a mutação detectada anteriormente na família. Em cada família, o alelo mutante correspondente foi detectado em indivíduos portadores do haplótipo associado a BRCA1 e não foi detectado nos não portadores. No caso da potencial mutação reguladora observada no indivíduo da Família 2035, o ADNc e ADN genómico dos portadores na família foram comparados quanto a heterozigocidade em locais polimórficos. Em todos os casos, mostrou-se que o alelo extinto na amostra de ADNc estava no cromossoma que transporta o alelo de predisposição de BRCA1 (Fig. 9C).

Para excluir a possibilidade das mutações serem apenas vulgares polimorfismos na população, foram utilizados ASO para cada mutação para pesquisar um conjunto de amostras de ADN normal. As estimativas das frequências génicas em caucasianos basearam-se em amostras aleatórias da população do Utah. As estimativas das frequências génicas em afro-americanos basearam-se em 39 amostras proporcionadas por M. Peracek-Vance provenientes de afro-americanos utilizados nos seus estudos de ligação e em 20 recém-nascidos afro-americanos do Utah. Nenhuma das 4 potenciais mutações de predisposição foi encontrada na população de controlo apropriada, indicando

86 719 ΕΡ 705 903/ΡΤ que estas são raras na população geral. Assim, dois requisitos importantes para alelos de susceptibilidade de BRCA1 foram preenchidos pelas mutações de predisposição candidatas: 1) co-segregação do alelo mutante com a doença, e 2) ausência do alelo mutante em controlos, indicando uma baixa frequência genica na população geral.

Expressão Fenotípica das Mutações de BRCA1. O efeito das mutações na proteína BRCA1 correlaciona-se com diferenças na expressão fenotípica observada nas famílias de BRCA1. A maioria das famílias de BRCA1 têm um risco moderadamente aumentado de cancro do ovário, e um subconjunto mais pequeno tem riscos elevados de cancro do ovário, em comparação com os de cancro da mama (Easton et al., 1993). Três das quatro famílias nas quais foram detectadas mutações de BRCA1 estão na primeira categoria, enquanto que a quarta (K2082) está no grupo de alto risco de cancro do ovário. Uma vez que a mutação sem sentido de BRCA1 verificada em K2082 fica mais próximo do terminal amino que as outras mutações detectadas, poderá esperar-se que tenha um fenótipo diferente. De facto, a mutação da Família 2082 tem uma alta incidência de cancro do ovário e uma idade média mais tardia aquando do diagnóstico de casos de cancro da mama que as outras famílias (Goldgar et a!., 1994). Esta diferença na idade do aparecimento pode dever-se a um desvio na avaliação nas famílias mais pequenas e mais altamente penetrantes ou pode reflectir diferenças específicas de tecido no comportamento das mutações de BRCA1. As outras 3 famílias que segregam mutações de BRCA1 conhecidas têm, em média, um cancro do ovário para cada 10 casos de cancro da mama, mas têm uma proporção elevada de casos de cancro da mama diagnosticados próximo dos 30 anos. A Família 1910, que tem uma mutação por desvio de enquadramento, é digna de nota porque três dos quatro indivíduos afectados tiveram cancro da mama bilateral, e em cada caso o segundo tumor foi diagnosticado a menos de um ano da primeira ocorrência. Também será de esperar que a Família 2035, que segrega uma potencial mutação reguladora de BRCA1, tenha um fenótipo drástico. Oitenta porcento dos casos de cancro da mama nesta família ocorrem antes dos 50 anos. Este número é o mais alto do conjunto, sugerindo um alelo mutante de BRCA1 de elevada penetrância (Tabela 10).

Embora as mutações descritas acima sejam claramente deletérias, causando cancro da mama em mulheres de idades muito jovens, cada uma das 101 86 719 ΕΡ 705 903/ΡΤ quatro famílias com mutações inclui pelo menos uma mulher que possui a mutação e que viveu até aos 80 anos sem desenvolver a malignidade. Será de extrema importância nos estudos que se seguem identificar outros factores genéticos ou ambientais que possam melhorar os efeitos das mutações de

DrlCM I .

Em quatro das oito famílias ligadas a BRCA1 putativas, não se encontraram potenciais mutações de predisposição. Três destas quatro têm classificações de LOP para marcadores ligados a BRCA1 de menos de 0,55. Assim, estas famílias podem na realidade não segregar alelos de predisposição de BRCA1. Alternativamente, as mutações nestas quatro famílias podem estar em regiões de BRCA1 que, por exemplo, afectem o nível de transcrito e portanto escaparam até agora à detecção.

Papel de BRCA1 em Cancro. A maioria dos genes de supressão tumoral identificados até à data dão origem a produtos proteicos que estão ausentes, não são funcionais ou têm função reduzida. A maioria das mutações de TP53 são de sentido errado; mostrou-se que algumas destas produzem moléculas de p53 anormais que interferem com a função do produto de tipo selvagem (Shaulian et a/., 1992; Srivastava et al., 1993). Foi proposto um mecanismo de acção negativo dominante semelhante para alguns alelos de coli-polipose adenomatosa (APC) que produzem moléculas truncadas (Su et al., 1993) e para mutações pontuais no gene do tumor de Wilms (WT1) que alteram a ligação da proteína ao ADN (Little et a/., 1993). A natureza das mutações observadas na sequência de codificação de BRCA1 é consistente com a produção tanto de proteínas negativas dominantes como de proteínas não funcionais. A mutação reguladora deduzida na Família 2035 não pode ser negativa dominante; pelo contrário, esta mutação causa provavelmente a redução ou perda completa da expressão de BRCA1 pelo alelo afectado. A proteína BRCA1 contém um domínio dedo-de-zinco C3HC4, semelhante aos verificados em várias proteínas de ligação ao ADN e implicadas na ligação a ácidos nucleicos dependente de zinco. Os primeiros 180 aminoácidos de BRCA1 contêm cinco vezes mais resíduos básicos que resíduos ácidos. Em contraste, a restante molécula é muito ácida, com um excesso líquido de 70 resíduos ácidos. O excesso de carga negativa concentra-se particularmente perto do terminal C. Assim, uma possibilidade é a de que BRCA1 codifique um factor de 102 86 719 ΕΡ 705 903/ΡΤ transcrição com um domínio de ligação ao ADN N-terminal e um domínio "gota-ácida" transactivador C-terminal. De forma interessante, outro gene de supressão tumoral familiar, WT1, contém também um motivo dedo-de-zinco (Haber et a!., 1990). Muitas mutações de predisposição para cancro em WT1 aiteram os domínios dedo-de-zinco (Little et a/., 1993; Haber et aí., 1990; Little et al., 1992). WT1 codifica um factor de transcrição e o processamento alternativo dos exões que codificam partes do domínio dedo-de-zinco alteram as propriedades de ligação ao ADN de WT1 (Bickmore et al., 1992). Algumas formas de processamento alternativo do ARNm de WT1 geram moléculas que actuam como repressores da transcrição (Drummond et al., 1994). Algumas variantes de processamento de BRCA1 podem alterar o motivo dedo-de-zinco, criando a possibilidade de um mecanismo regulador semelhante ao que ocorre em WT1 se poder aplicar a BRCA1. EXEMPLO 9

Análise de Tumores quanto a Mutações de BRCA1

Para focar a análise em tumores com grande probabilidade de conter mutações de BRCA1, foram tipificados carcinomas primários da mama e do ovário quanto à PDH na região de BRCA1. Foram utilizados três marcadores de repetições simples em cadeia, altamente polimórficos para avaliar a PDH: D17S1323 e D17S855, os quais são intragénicos em relação a BRCA1, e D17S1327, o qual fica aproximadamente 100 kb distai em relação a BRCA1. A frequência de PDH combinada nos casos informativos (i.e., onde a linha germinativa era heterozigótica) foi de 32/72 (44%) para os carcinomas da mama e de 12/21 (57%) para os carcinomas do ovário, consistente com as medições anteriores de PDH na região (Futreal et al., 1992b; Jacobs et al., 1993; Sato et al., 1990; Eccles et al., 1990; Cropp et al., 1994). A análise definiu assim um painel de 32 tumores da mama e 12 tumores do ovário de raças e idades de aparecimento mistas a serem examinados quanto a mutações de BRCA1. A região de codificação completa de 5589 pb e as sequências dos fronteiras intrão/exão do gene foram pesquisadas neste conjunto de tumores através de apenas sequenciação directa ou através de uma combinação de análise de conformação de cadeia simples (SSCA) e sequenciação directa.

Foi encontrado um total de seis mutações, uma num tumor do ovário, quatro em tumores da mama e uma num portador masculino do haplótipo não 103 86 719 ΕΡ 705 903/ΡΤ afectado (Tabela 12). Uma mutação, Glu1541Ter, introduziu um codão de terminação que criaria uma proteína truncada sem 323 aminoácidos no terminal carboxi. Adicionalmente, foram identificadas duas mutações de sentido errado. Estas são Ala1708G!u e Met1775Arg e envolvem substituições de peauenos iesítiuos hiaróíoòos por resíduos com carga. Os doentes 17764 3 19964 são da mesma família. No doente OV24 o nucleótido 2575 foi delecionado e nos doentes 17764 e 19964 foram delecionados os nucleótidos 2993-2996. TABELA 1 2

Mutações de Predisposição

Mudança de Mudança de Idade de História Doente Codão Nucleótido Aminoácido Aparecimento Familiar BT098 1541 GAG -> TAG Glu Terminação 39 - OV24 819 deleção de 1 pb desvio de enquad. 44 - BT106 1708 GCG -► GAG Ala -* Glu 24 -h MC44 1775 ATG AGG Met Arg 42 + 17764 958 deleção de 4 pb desvio de enquad. 31 + 19964 958 deleção de 4 pb desvio de enquad. + *

Portador do haplótipo não afectado, masculino Várias linhas de evidência sugerem que todas as cinco mutações representam alelos de susceptibilidade de BRCA1: (i) todas as mutações estão presentes na linha germinativa; (ii) todas estão ausentes em populações de controlo apropriadas, sugerindo que estas não são polimorfismos vulgares; (iii) cada alelo mutante é mantido no tumor, tal como no caso de tumores de doentes pertencentes a famílias que segregam alelos de susceptibilidade de BRCA1 (Smith et a!., 1992; Kelsell et a!., 1993) (se as mutações representassem polimorfismos neutros, estas deveriam ser mantidas em apenas 50% dos casos); (iv) a idade de aparecimento nos quatro casos de cancro da mama com mutações variou entre os 24 e os 42 anos de idade, consistente com a idade precoce do aparecimento de cancro da mama em indivíduos com susceptibilidade de BRCA1; de forma semelhante, o caso de cancro do ovário 104 86 719 ΕΡ 705 903/ΡΤ foi diagnosticado aos 44, uma idade que está nos 1 3% mais jovens de todos os casos de cancro do ovário; e finalmente, (v) três dos cinco casos têm histórias familiares positivas de cancro da mama ou do ovário encontrados retrospectivamente nos seus reaistns médicos, embora o conjunto de tumores não tivesse sido seleccionado tendo em conta este critério. BT106 foi diagnosticado aos 24 anos com cancro da mama. A sua mãe teve cancro do ovário, o seu pai teve melanoma e a sua avó paterna teve também cancro da mama. A doente MC44, uma afro-americana, teve cancro da mama bilateral aos 42 anos. Esta doente teve uma irmã que morreu de cancro da mama aos 34 anos, outra irmã que morreu de linfoma e um irmão que morreu de cancro do pulmão. A sua mutação (Met1775Arg) foi detectada anteriormente na Família 2099, uma família afro-americana que segrega um alelo de susceptibilidade de BRCA1, e estava ausente nos controlos afro-americanos e caucasianos. A doente MC44, que nós saibamos, não é parente da Família 2099. A detecção de um alelo mutante raro, uma vez numa família de BRCA1 e uma vez na linha germinativa de um caso de cancro da mama de aparecimento precoce aparentemente não relacionado, sugere que a mudança Met1775Arg pode ser uma mutação de predisposição comum em afro-americanos. Colectivamente, estas observações indicam que todas as quatro mutações de BRCA1 em tumores representam alelos de susceptibilidade; não foram detectadas quaisquer mutações somáticas nas amostras analisadas. A pequena quantidade de mutações de BRCA1 somáticas é inesperada, dada a frequência de PDH em 17q e o papel habitual dos genes de susceptibilidade como supressores tumorais na progressão de cancro. Existem três explicações possíveis para este resultado: (i) o nosso procedimento de pesquisa falhou algumas mutações de BRCA1 em sequências de codificação; (ii) as mutações somáticas de BRCA1 estão principalmente fora dos exões codificantes; e (iii) os eventos de PDH em 17q não reflectem mutações somáticas de BRCA1.

Se as mutações somáticas de BRCA1 forem verdadeiramente raras em carcinomas da mama e do ovário, isto terá fortes implicações na biologia de BRCA1. A aparente falta de mutações somáticas de BRCA1 implica que podem existir certas diferenças fundamentais na génese de tumores em portadores de 105 86 719 ΕΡ 705 903/ΡΤ ?" BRCA1 geneticamente predispostos, em comparação com tumores na população geral. Por exemplo, as mutações em BRCA1 podem ter efeito apenas na formação do tumor num estádio específico no desenvolvimento precoce da mama e do ovário. Esta possibilidade é consistente com uma função primária para BRCA1 no cancro da mama pré-menopausa. Tal modelo para o papel de BRCA1 no cancro da mama e do ovário prevê uma interacção entre hormonas reprodutoras e a função de BRCA1. No entanto, não foram descritas quaisquer diferenças clínicas ou patológicas nos tumores da mama e do ovário familiares versus esporádicos, para além da idade de aparecimento (Lynch et al., 1990). Por outro lado, a identificação recente de mutação aumentada de TP53 e instabilidade dos microssatélites em tumores da mama de doentes com uma história familiar de cancro da mama (Glebov et al., 1994) pode reflectir alguma diferença em tumores que surgem em pessoas geneticamente predispostas. O envolvimento de BRCA1 neste fenómeno pode agora ser avaliado directamente. Alternativamente, a falta de mutações somáticas de BRCA1 pode resultar da existência de múltiplos genes que funcionam na mesma via de supressão tumoral que BRCA1, mas que colectivamente representam um alvo mais preferencial para mutação em tumores esporádicos. Uma vez que a mutação de um único elemento numa via genética é geralmente suficiente para a disrupção da via, BRCA1 poderia mutar a uma taxa que é muito inferior à soma das taxas mutacionais dos outros elementos.

Foi realizado no Japão um estudo separado para analisar tumores quanto a mutações de BRCA1. Pesquisou-se, quanto a mutações no BRCA1, um painel de 103 pacientes representando casos de aparecimento precoce (idade <35 anos) (46 pacientes), membros de famílias multiplamente afectadas (12 pacientes), e/ou que tinham desenvolvido cancros da mama bilaterais (59 pacientes). Pesquisaram-se os tumores da mama primários destas pacientes quanto a mutações em exões de codificação de BRCA1 utilizando análise de polimorfismo de conformação da cadeia simples (SSCP). Para o exão 11, que tem 3425 pb de comprimento, os iniciadores de PCR foram concebidos para amplificar onze segmentos que se sobrepõem deste exão, separadamente. Cada um dos outros 22 exões foi amplificado individualmente numa única PCR. Assim, realizaram-se 33 análises de PCR-SSCP para cada caso. Detectaram-se mutações em tumores de quatro pacientes, todas que tinham desenvolvido cancros da mama bilateralmente (Tabela 12A). Uma mutação resultou num desvio de enquadramento devido a uma deleção de 2 pb (deleção de AA) no 106 86 719 ΕΡ 705 903/ΡΤ codão 797. Isto originou uma proteína truncada a que faltavam 1065 aminoácidos no terminal COOH. Uma segunda mutação foi uma mutação sem sentido no codão 1214 devido a uma transversão G—>T do primeiro nucleótido do codão. Isto resulta num codão de terminação prematuro no lugar do ácido giutàmico neste local e resulta numa proteína truncada a que faltam 649 aminoácidos no terminal COOH. Haviam também duas mutações de sentido errado. Uma era uma transição G-»A no primeiro nucleótido do codão 271 que resultou numa substituição Val-»Met. A segunda era no codão 1150 (uma transição C-»T no primeiro nucleótido do codão) que provocou uma substituição Pro-»Ser, uma substituição de um aminoácido não polar hidrófobo por um aminoácido polar não carregado. Verificou-se que todas estas mutações eram mutações da linha germinativa. A idade média do aparecimento nestas quatro pacientes foi de 49. Estes estudos determinaram também um polimorfismo neutro comum em cada uma de C ou T no primeiro nucleótido do codão 771.

TABELA 12A

Mutações de Predisposição

Mudança de

Doente Codão Nucleótido 23 1150 CCT^ TCT 44 1214 GAG-> TAG 98 291 GTG -> ATG 100 797 deleção de 2 pb 5 482-483 deleção de 4 pb 6 856 TAT-» CAT 7 271 GTG-» ATG 8 852 deleção de 1 pb

Mudança de Idade de Aminoácido Aparecimento Pro —► Ser 49 & 64 Glu-»terminação 51 & 51 Vai —» Met 45 & 45 desvio de enquad. 50 & 71 desvio de enquad. 45 Tyr -»· His 54 Vai —» Met 49 & 49 desvio de enquad. 62

Embora as pacientes 98 e 7 apresentem a mesma mutação, não estão relacionadas uma com a outra. EXEMPLO 10 Análise do Gene BRCA1 A estrutura e função do gene BRCA1 são determinadas de acordo com os seguintes métodos. 107 86 719 ΕΡ 705 903/ΡΤ

Estudos Biológicos. São construídos vectores de expressão em mamífero contendo ADNc de BRCA1 e transfectados para células de carcinoma da mama apropriadas com lesões no gene. É utilizado ADNc de BRCA1 de tiDo selvanem bem como ADNc de BRCA1 alterado. O ADNc de BRCA1 alterado pode ser obtido a partir de alelos de BRCA1 alterados ou produzido tal como descrito abaixo. É examinada a reversão fenotípica em culturas (p.ex., morfologia celular, tempo de duplicação, crescimento independente de ancoragem) e em animais (p.ex. tumorigenicidade). Os estudos empregarão ambas as formas do gene, de tipo selvagem e mutante (secção B).

Estudos de Genética Molecular. É efectuada mutagénese in vitro para construir mutantes de deleção e mutantes de sentido errado (através de substituições de pares de bases únicos em codões individuais e "cluster" com carga -» mutagénese de varrimento com alanina). Os mutantes são utilizados em estudos biológicos, bioquímicos e biofísicos.

Estudos do Mecanismo. É examinada a capacidade da proteína BRCA1 para se ligar a sequências de ADN conhecidas e desconhecidas. A sua capacidade para transactivar promotores é analisada através de sistemas de expressão transiente de repórteres em células de mamífero. São utilizados procedimentos convencionais tais como captura de partículas e sistema de dois híbridos de levedura para encontrar e identificar quaisquer parceiros funcionais. A natureza e funções dos parceiros são caracterizadas. Estes parceiros são por sua vez alvos para a identificação de fármacos.

Estudos Estruturais. São produzidas proteínas recombinantes em células de £. coli, levedura, de insecto e/ou de mamífero e são utilizadas em estudos de cristalografia e RMN. É também empregue modelação molecular das proteínas. Estes estudos facilitam a concepção de fármacos derivados da estrutura. EXEMPLO 11

Ensaio em Dois Passos para Detectar a Presença de BRCA1 numa Amostra A amostra do doente é processada de acordo com o método divulgado por Antonarakis et a/., (1985), separada através de um gel de agarose a 1% e transferida para membrana de nylon para análise ''Southern blot". As

86 719 ΕΡ 705 903/ΡΤ membranas são sujeitas a UV para efectuar a ligação cruzada a 150 mJ utilizando um GS Gene Linker (Bio-Rad). A sonda de BRCA1 correspondente à posições nucleotídicas 3631-3930 de SEQ ID NO: 1 é subclonada em pTZ18U. Os fagemídeos são transformados em E. coli MV1190 infectada com o faao ajudante ivi i3Ku/ (Bio-Rad, Richmond, CA). O ADN de cadeia simples é isolado de acordo com procedimentos padrão (ver Sambrook, et al., 1989).

Os "blots" são pré-hibridados durante 15-30 min a 65°C em dodecilssulfato de sódio (SDS) a 7% em NaP04 0,5 M. Os métodos seguem os descritos por Nguyen et aí., 1992. Os “blots" são hibridados de um dia para o outro a 65°C em SDS a 7%, NaP04 0,5 M com 25-50 ng/ml de ADN-sonda de cadeia simples. As lavagens pós-hibridação consistem em duas lavagens de 30 min em SDS a 5%, NaP04 40 mM a 65°C, seguido por duas lavagens de 30 min em SDS a 1 %, NaP04 40 mM a 65°C. A seguir os "blots” são passados por solução salina tamponada com fosfato (pH 6,8) durante 5 min à temperatura ambiente e incubados com caseína a 0,2% em PBS durante 30-60 min à temperatura ambiente e passados por PBS durante 5 min. Os "blots" são então pré-incubados durante 5-10 minutos num banho-maria com agitação a 45°C com tampão de hibridação que consiste em ureia 6 M, NaCI 0,3 M e solução de Denhardt 5x (ver Sambrook, et ai, 1989). 0 tampão é removido e substituído por 50-75 μΙ/cm2 de tampão de hibridação fresco mais 2,5 nM do conjugado oligonucleótido-fosfatase alcalina ligado covalentemente de forma cruzada com a sequência nucleotídica complementar ao local iniciador universal (UP-AP, Bio-Rad). Os “blots" são hibridados durante 20-30 min a 45°C e as lavagens pós-hibridação são incubadas a 45°C como duas lavagens de 10 min em ureia 6 M, citrato salino padrão (SSC) 1x, SDS a 0,1% e uma lavagem de 10 min em SSC 1x, Triton®X-100 a 0,1%. Os “blots” são passados durante 10 min à temperatura ambiente por SSC 1x.

Os “blots" são incubados durante 10 min à temperatura ambiente com agitação no tampão de substrato que consiste em dietanolamina 0,1 M, MgCI2 1 mM, azida de sódio a 0,02%, pH 10,0. Os "blots" individuais são colocados em sacos selados pelo calor com tampão de substrato e AMPPD 0,2 mM (3-(2'-espiroadamantano)-4-metoxi-4-(3'-fosforiloxi)fenil-1,2-dioxetano, sal dissódico, Bio-Rad). Após uma incubação de 20 min à temperatura ambiente com

109 109

86 719 ΕΡ 705 903/ΡΤ agitação, ο excesso de solução de AMPPD é removido. O "blot" é exposto a película de raios X de um dia para o outro. As bandas positivas indicam a presença de BRCA1. EXEMPLO 12

Criação de Anticorpo Policlonal contra BRCA1

Segmentos da sequência de codificação de BRCA1 foram expressos como proteína de fusão em E. co/i. A proteína sobrexpressa foi purificada através de eluição em gel e utilizada para imunizar coelhos e ratinhos utilizando um procedimento semelhante ao descrito por Harlow e Lane, 1988. Mostrou-se que este procedimento cria Ab contra várias outras proteínas (por exemplo, ver Kraemer et a/., 1993).

Resumidamente, foi clonada uma extensão da sequência de codificação de BRCA1 como proteína de fusão no plasmídeo PET5A (Novagen, Inc., Madison, Wl). A sequência incorporada de BRCA1 inclui os aminoácidos correspondentes a #1361-1554 de SEQ ID NO: 2. Após indução com IPTG, verificou-se a sobrexpressão de uma proteína de fusão com o peso molecular esperado através de SDS/PAGE. A proteína de fusão foi purificada a partir do gel por electroeluição. A identificação da proteína como produto de fusão de BRCA1 foi verificada através de sequenciação proteica no terminal N. A seguir, a proteína purificada foi utilizada como imunogénio em coelhos. Os coelhos foram imunizados com 100 ug da proteína em adjuvante de Freund completo e reforçados duas vezes em intervalos de 3 semanas, primeiro com 100 pg de imunogénio em adjuvante de Freund incompleto seguido de 100 pg de imunogénio em PBS. O soro contendo anticorpos é recolhido duas semanas depois.

Este procedimento é repetido para criar anticorpos contra as formas mutantes do gene BRCA1. Estes anticorpos, em conjunto com anticorpos para BRCA1 de tipo selvagem, são utilizados para detectar a presença e o nível relativo das formas mutantes em vários tecidos e fluidos biológicos. 86 719 ΕΡ 705 903/ΡΤ 110 EXEMPLO 13

Criação de Anticorpos Monoclonais Específicos para BRCA1

Os anticorpos monoclonais são criados de acordo com o seguinte protocolo. São imunizados ratinhos com o imunogénio compreendendo BRCA1 intacta ou péptidos BRCA1 (de tipo selvagem ou mutantes) conjugado com hemocíanina de lapa utilizando gluteraldeído ou EDC tal como é bem conhecido. O imunogénio é misturado com um adjuvante. Cada ratinho recebe quatro injecções de 10 a 100 pg de imunogénio e após a quarta injecção são retiradas amostras de sangue dos ratinhos para determinar se o soro contém anticorpo para o imunogénio. O título sérico é determinado por ELISA ou RIA. Os ratinhos com soros indicando a presença de anticorpo para o imunogénio são seleccionados para produção do hibridoma. São removidos os baços dos ratinhos imunizados e é preparada uma única suspensão celular (ver Harlow e Lane, 1988). As fusões celulares são efectuadas essencialmente tal como descrito por Kohler e Milstein, 1975. Resumidamente, são fundidas células de mieloma P3.65.3 (American Type Culture Collection, Rockville, MD) com células do baço imunizadas utilizando polietilenoglicol tal como descrito por Harlow e Lane, 1988. As células são plaqueadas a uma densidade de 2x105 células/poço em placas de cultura de tecidos de 96 poços. Cada um dos poços é examinado quanto ao crescimento e os sobrenadantes dos poços com crescimento são testados quanto à presença de anticorpos específicos para BRCA1 por ELISA ou RIA utilizando a proteína alvo BRCA1 de tipo selvagem ou mutante. As células em poços positivos são expandidas e subclonadas para estabelecer e confirmar a monoclonalidade.

Os clones com as especificidades desejadas são expandidos e postos a crescer como ascitos em ratinhos ou num sistema de fibras ocas para produzir quantidades suficientes de anticorpo para o desenvolvimento da caracterização e ensaios.

86 719 ΕΡ 705 903/ΡΤ 111 EXEMPLO 14

Ensaio Sanduíche para BRCA1 O anticorpo monoclonal é ligado a uma superfície sólida tal como uma piaca, tuDo, conta ou partícula. De preferência, o anticorpo é ligado à superfície do poço de uma placa de ELISA de 96 poços. São adicionados ao anticorpo da fase sólida 100 μΙ de amostra (p.ex., soro, urina, citosol de tecido) contendo o péptido/proteína BRCA1 (de tipo selvagem ou mutante). A amostra é incubada durante 2 h à temperatura ambiente. A seguir o fluido da amostra é decantado e a fase sólida é lavada com tampão para remover o material não ligado. São adicionados à fase sólida 100 μΙ de um segundo anticorpo monoclonal (para um determinante diferente no péptido/proteína BRCA1). Este anticorpo é marcado com uma molécula detectora (p.ex., 125l, enzima, fluoróforo ou um cromóforo) e a fase sólida com o segundo anticorpo é incubada durante 2 h à temperatura ambiente. O segundo anticorpo é decantado e a fase sólida é lavada com tampão para remover o material não ligado. A quantidade de marcador ligado, a qual é proporcional à quantidade de péptido/proteína BRCA1 presente na amostra, é quantificada. São efectuados ensaios separados utilizando anticorpos monoclonais que são específicos para a BRCA1 de tipo selvagem bem como anticorpos monoclonais específicos para cada uma das mutações identificadas em BRCA1. EXEMPLO 1 5

Análise de mutações de BRCA1

As amostras de ADN que foram pesquisadas quanto a mutações de BRCA1 foram extraídas de amostras de sangue ou tumores de pacientes com cancro da mama ou do ovário (ou de portadores conhecidos por análise de haplótipos) que eram participantes de estudos de pesquisa de genética do cancro da mama. Todos os indivíduos assinaram o seu consentimento informado apropriado. Na Tabela 13 apresentam-se detalhes quanto ao número de amostras, critérios de avaliação e método de pesquisa para cada conjunto de amostras pesquisado. 112 t— 86 719ΕΡ 705 903/ΡΤ

Qo- 0 M 3E 0 3 to 0 W 4—' w OE 0 0 3 0c 0 Ui 0 t— αo 0 -0 M 0 CO 0 Ό 0 <O '3CTto 0 α

CM 00 O 00

CM

r}· CM

CM LO

0 CO M· CNI 00 0 3 0 > 0 M Ç Ui to 0 i— α 0 w 0 '0E o 10 o- CJ to 0 3

σο LO <T> 00o o LO o

CM

CM 00 UJ CQ <

C CD 3σ co CD O CD to '3 31 toi 0| QJ 0 T3 O 3 O M '0 0to '3 3" CO 0 α

σ σ σ σ α α α α O 0 < υ LU LU LU LU LU LU LU LU CO CO CO CO CO CO CO CO CO CO < < CO (O α σ α σ LU LU LU LU C/0 C/D C0 C0 a LUco 0 3 0 3 -LU to 0 L_ M to oE 0 0 3 0 0 c 0 35 o 0

O 3 O CJ ΰ 0 Ω. to 0 0 35 "Õ 1 O LO < t/5 _0α E 'to 0 '0 3 0 U 0 3 O 10 CJ- 0E ι- Ο H—c o o 0 3 O '0 COc UJ

Ql <1 <dI ΌΙ col CDi l-l •Ml ooi 0E CD 0 3toi 01 Mlc: 31'Ξol UI

C0 0 w Mto O

to 0 3 O 10 o- o io 0 Q 0ooo 0 oo to 0OOO 0 u.o.o Mc 0 0ooo 0 — o 0 Ό ι- Ο 0 3) ι. o 0 L0 O E 0 > 0 0 > > p p 0 cu CU CU Έ Έ (/) (/) <Λ 0 0 ω £ E £ 0 0 CU U_ U_ Li. _l < LU CM oc cj i 1- u < z z l·- 0 CO Z) 2 c 0Eo 0 u. 0 Q. 0 0 "3 0

> O > o 0 0 0 0 0 0 3 "cõ t— 0 M_0 Έ 0 o 0 V- 0α0 0 t—0 0ooO 0

Z to to .2 ° rE rc 0 U LU CO 1 0

o 3 C 0-QO c 0 o 0

_L 0 .LZ 0 3 O Q. 0 0 0 i— > O > p > O 0 LO 0 0 3 Q. ~0 "0 0 V 0 0 to 0 u. +-» _cu Έ "0 to .2 to 0 CO 0 0 E Έ cu CO 0 to 0 M _0 r— Λ- <— c r~ C 0 0 CD LL 0 LU 0 LU c 0E '0 0 0 α 0 0 3 0

CO O CO 0 CJ 0 3 to o Q. 3 35 CO o 3 1 CD 0 1 00 1 p*— CM 1 1— O r~ C CM r Q. u_ Q Z> z < 0 1 LL. O CM 1 p 7) L· 0 O 0 ’cu c QC 0 0 O í CU -C cu (— z r— CO ». · f- 1- CO D CO CO z X 0) CU 7} c 3 CO < co c0 D h- D Έ > |_ 5 CL H- 2 r-

C 3 Õ O 0 3 0 CJ

< O CO CO CC CJ 0. 0 3 toO M 3 3 O a. toO 3 0 M O 0 i— 3 0 10 CJ· 0 Õ c 0 3 3 0 CO 1σ LUCO CM O 0 0 113 r* r 86 719

EP 705 903/PT

Embora as mutações originais descritas em Miki et aí., 1994, fossem detectadas através de pesquisa de ADNc, utilizaram-se 25 pares de iniciadores de PCR intrónicos para amplificar a sequência de codificação completa e junções de uniões do ADN genómico para a maioria das amostras restantes. Está disponível ao público informação actualizada sobre iniciadores através da ftp anónima em morgan.med.utah.edu no directório pub/BRCA1. Quando possível, testaram-se variações da sequência de ADN quanto a co-segregação com cancro da mama ou do ovário na família. Foram proporcionadas evidências adicionais de um papel causativo de uma sequência variante no cancro provando a ausência da mutação putativa num conjunto de indivíduos de controlo. A pesquisa de mutações específicas previamente identificadas em grandes conjuntos de amostras seleccionadas foi realizada utilizando hibridação ASO. A Tabela 14 descreve muitas das mutações encontradas pesquisando a sequência completa de codificação de BRCA1 bem como os limites intrão/exão e encontrando locais polimórficos no ADN genómico reduzidos para locais monomórficos em ADNc. Encontraram-se duas mutações comuns e examinaram-se as suas frequências em outras amostras por análise de ASO (Tabela 15). As Tabelas 16 e 17 descrevem a distribuição de mutações por tipo e por localização dentro da sequência de codificação de BRCA1, respectivamente. De longe, a maioria das mutações identificadas eram desvios de enquadramento. No global, não se verificou um afastamento estatisticamente significativo de uma distribuição aleatória ao longo da sequência de codificação de BRCA1 (X2 = 2,00, 2 df, p = 0,37) entre as diferentes mutações encontradas na sequência de codificação de BRCA1 até ao presente.

114 86 719 EP 705 903/PT

0 TABELA 14 Mutações identificadas por pesquisa completa de um gene BRCA1 ÇlQQj— ftrnostras Família # Casos Descrição da mutação

00 05 05 05 05 O 05 05 in LO vu 05 cn 05 05 00 00 00 co iro co CO 00 r* r^s r·» L_ i— 'c CN CN 00 00 L_ 0 05 05 05 o l- u. i— 0 ΛΊ 4—' *—> M ro 0 0 0 0 4—* ω 0 0 LU <4—* t T t T T5 -t-J1 t +-* t t t T +-* yf» Ι-l t +-* t cn rn cn rn C35 CN 1 1 •Μ -M 1 0 0^ 1 o 1 1 1 1 to c < ^ < < < CO c CD T3 CO c CO CO .E .E 0) TJ

t t í t O <3> CD <3> CN O < < < < < < < < LO co c L_J T— C_5 Έ Έ UT3 CO f— "05 "Õ5 "0 ~0 "0 "Õ5 c c 0 to (Λ r- T~ O L·. Ό Ό T3 Ό TJ a CD tC c P'· r"* 0 -M "1 lo LO LO LO LO LO LO (/) CD < CO co CN CN «ΞΓ 00 CO CO CO CO CO CO > t "õ3 CN CN "rô "cõ *” r— r— *” *“ O 1- T5 05 05 > > O ί(Ό “O 00 00 CO 00 00 00 00 LO CD O O *- T— O O CN CN CN CN CN CN CN CD t r-s CN CN ps CN CN o JCD X CN CN CN CN CN CN CN LO LO CO *— <— *— LU — — t— CD

'Ct CN O) 0) «- CN co 05 CD 05 05 05 "3· 'Ct 05 CsJ t— <— CN 00 05 CO CO CO 00 00 CO ^ ^ ^ rj- §l c/5 ω ω c/5 co — LL LL LL Ll_ LL- CO C/5 c/5 CL Q_ LC LL 5 C/5 C/5

CO CO C/5 c/5 L. LL 5 5 IL C/5 C/5 CO CO C/5 C/5 U- LL U_ LL. Li. LL. ol rol

CN CM 00 N

CN ^ T- O 00 CN C0 O O O CN 00 O LO 00 LO 00 /"S CO CN CO 00 IO LO O 05 CN CN CN CD CN O CN 05 _l —I —I _l < < < < LU LU LU LU C/5 < v> cr QC QC QC 1— H 1- 1- z Z z z X LU o O o o t- 2 Έ Έ O O O O 00 CN 00

O r* CN

00 LO § 00 c° £ CN 00 I LU o CJ oc tr cr <L>T x o O 5 co *- O < < 2 ^ 05 0- Z C/5 ç/) C/5 C/5 ^C0^L,O h- ^ ^ o z < cc

< LU QC < < < LOco co co -? ω a CL 0. Q_ > 115 86 719 ΕΡ 705 903/ΡΤ ο 10Ο· 03 13 _Ç ’ί-' Cο U Tf < Ο 0C CQ 0 C 0σΕ 3 ω Τ3 03 -1-1 ω ο10 ο 0 0 ΤΟ Ο 10 Ο ’^- ο C0 0 Q. 0 _ç Ο 00 Ο ΟΝ

σ> CN Ρ^ CO 0 ΟΝ ΙΟ σ> CO Ρ* CO Ρ* 0 0 0 τ-1 Μ Τ 0 -4-1 τ Τ < < X d < 0 _c Ρ^ CD "0 Ό 13 Τ3 ο CO 00 03 00 γ— σ> Ο ο W 0Ν ΙΟ ΟΝ d ΟΝ CN ιο ΙΟ CO LO Ρ» ΙΟ Ρ* ιο CO ΟΝ σ> CQ CO Ρ*

ΙΟ ΙΟ ΙΟ τ— 'Cf Tf "Cf 03 00 00 00 00 k_ k- ι- k- 0 0 0 0 4—* +-> 4—< 4—* f t t t 1 (Λ 1 ί υ > Ο U τ— -J 13 C0 13 15 13 Τ3 CN Ό το Τ3 LO C0 CO C0 W. 03 03 ΙΟ Γ* ΙΟ ΙΟ CN Η ΟΝ ΟΝ 03 CO CO CO ΟΝ Τ— ΟΝ ΟΝ CN ΙΟ 00 00 00 00 C0 00 00 ΟΝ 03 Ο 03 Ί- Ι k_ Ο) 0 Ί—· 4—* ΐ t ιη X Tf < CO 0 0 ΙΟ Ό Ό 00 00 Γ— 03 ΟΝ >· 03 Τ— 1- ΟΝ 00 0 ΙΟ CN Ο ιο ιο ιο σοο ΟΝ CO 00 LO ΙΟco σ) CN Ο Ο _0 00οο 0 Μ τ ιο 0 C CD CO 00 00 (Ο Ο το ο 0 0 0 0 Τ t sK 1 k— 0 t Tf Tf Tf CO 1- 0 10 0 0 0 0 Ό Ό T3 T3 03 O ,— IO Tf Tf 10 Tf Tf Tf Tf 0 w p> 00 00 00 Q_ 00 0 +-> Tf τ— CN _3 d ο σι τί ΙΟ Ο τ— τ— ΟΝ ΟΝ ο ο < 3σ w 0 αΐ ο Ωΐ l·- cη c/3υ_ ϋ_ ço (Λ ω

U_ UL co £ c/3 ω c/3 LL ^ LL LL U.

Ο c/5 (/) C/5 C0 ^ LL LL ^ LL

(Λ (Λ W W (/) W LL U_ LL ^ U_ X LLI C0 < l·-

Ο Q 0 0 Τ3 0 Ο C 0 Τ3 >1 0ΐ Ο οι 0 0 <->| =tfe! ο] CN Ο τ— 00 γ- τ— Ο Ο Ρ- Ο Ο Ο

ΙΟ CN CN τ- Ο CN 00 ΙΟ τ- ΟΝ ιο ΟΝ 0 0 iO Ο 0

ΟΝ 00ιο coο ο

CNο 00 CN

Tf 00 00 ΟΝ Ο Tf 00 > Γ"* _ι 0C Ο < C0

Ο 03 T^- O 00 CN QC 03 00 Tf 1 0 00 1 _l CN Tf U 03 < CL 01 01 0Í § 01 cο Ο Τ! 0 Γ* _j _l _l £ < O O < d '— UJ X X CN X < UJ 1 0 1 O < z < QC O O cc 0 cc l·- z X 0 0 X CJ 0 CO co cc 1- z c/3 co C/3 1— z 0 h- 1— z z l·- 0 X X Q_ C/3 > r- 2 cn C/3 > > X CN Ρ* ΙΟ X C/3 ΟIVIΟ Ο I—cη < < LLI LU QC QC I- f-ζ ζο ο

C0<X LU οο Ο<Ν οΖ ι-> cη

Tf Tf Ζ> 86 719ΕΡ 705 903/ΡΤ 116

Ο Ό

< Ο 0C ω <ΰc 0)σι £ σ CD "D Ο Ι(ϋ Ο- (0 D Ο 'ί-1 C Ου Q!£ο CJ ω '5σι (Λ <υ ο XJ o o CU CN Tf CN 03 03 03 03 03 0 CD CD CD co CN CN CN CN CN cu CN CO T— co co CO 00 00 O τ— r— T— — r— r— r— «U σ L_ 0 a) Ή* >N 0 +-» 0 k- 0 k. 0 u 0 k. 0 a o o 4-* I t 4—1 4-* ϊ—* 4-» O 1<D Q. CO < t Tf > O t Tf k_ 0 +-» k_ 0 +-» < CJ <D > I ω t CJ t CJ t CJ t CJ t O u. 03 CO E 0 33 O CD 4—» D CM O ICO O 03 CN "03 Ό Tf CO 13 ~a co Tf 'Cf LO "õ T3 co CN CD "Õ3 T3 CO C (Λ C ffi C 0 C 0 C CN LO 00 CU > 0 V3 £ ra *- CO Tf t— t— co ‘ O CN CN CN CN CN π 3 O 03 00 033 3 0 CO 00 00 00 00 00 a a: 00 k_ 00 o CO CO CO CO CO r T3 2 O 00 < Tf < CD S o LO LO LO LO IO 1- O o X! l(T3 o O ICU 03 CN r» LO CO IO 00 CO CD CD CO co co CN O Í0 O Ό k_ "O <- LO Tf LO Tf 00 CN o LO LO LO LO LO LO O o C/3 ω o CN CN co CO LO o co co r-' Γ'· f'' 00 O O t— Γ— r— r- t— t— 0 c a Ό E "cu CU o O O E ICO r- co LO CD CD co o O o o o 'tf HD X LU r— CN CN CN CN CN CN 0. C O C/3 O • H o O O o» 03 0 O co co co co co CO co CO co co CO CO CO CO CO L_ Φ 4-* 3 H S LL S LL z z LL S LL LL LL LL LL LL S O E 03 σ tn Ο 3 C 6“ 1CU θ' _0 CU Ό Ο ;3 'Ο _0 ο 3 C '6 ο 0 Ρ LU CQ < I- ο QJ (Λ ω σcoο Τ3 CU 3 σ c 03 Τ3 (Λω οο· 03

V) Ο W 03(J >ι ο

CN ο

CN CN Ο 00 co 031 00 ^ 00 ^ί* CN 00 LO Ο

CU 03 T3 > C/3 ' co

CN CN CO CO r— CN CD 03 O CO CD t— T— i— CN 03 LO CO 03 CO 0 . ^ 0 2 C cu cu a.

(/3 ο: Μ οο Ο£ 03 Έο (J

[o x < O tr lu I— ^ l·— Si— 3 co

CN i CC O _l —I CD < < < < 'tf CD LU UJ LU LU CO 7 CC CC cr CC 03 I- 1— 1- l·- < 32 << pr* z z z z CO CO i— o o o O CL S ω S S S CN Tf O LO O rv x 32co ω X & u ¢) 0) O l° — • υ* ca cu > C/3 0Q E1 2 (/) CU u_ a. o *3 ‘o O c E CN 0 específicos alterados (se <3) ou número inserido ou delecionado (se >2) e o aminoácido (responsável pela inserção ou delecão) em que o desvio de enquadramento resulta num sinal de terminação. Os nucleótidos referem-se à sequência de ADNc de BRCA1 no GENBANK com o n° de acesso U-14680.3 A mutação nesta família foi identificada independentemente tanto em Myriad como em University of Pennsylvania Labs.4 A mutação identificada neste tumor foi também encontrada na linha germinativa do indivíduo. 86 719 ΕΡ 705 903/ΡΤ 117 TABELA 15

Frequência de duas mutações de BRCA1 comuns Número Número de mutações encontradas Conjunto estudado 185 dei AG 5382 ins C USC-1 59 4 1 MSK/UT-2 109 3 0 GLASGOW-2 100 não testado 3 GLASGOW-3 100 não testado 2 CRC-OV 250 não testado 1 TABELA 1 6 Frequência observada de diferentes tipos de mutações Número (percentagem) Tipo de mutação Mutações distintas1 Todas as mutações Desvio de enquad. 42 (65) 81(72) Sem sentido 10 (16) 13(12) Sentido errado 9 (14) 14 (12) Outro 3 (5) 5 (4) ' Mutações idênticas são contadas apenas uma vez nesta coluna 2 Cada amostra em que foi identificada uma mutação é contada nesta coluna. TABELA 17

Distribuição de mutações idênticas na sequência de codificação de BRCA1

Aminoácidos

Mutações 1-162 622-1242 1243-1863 distintas 18 23 21

Todas 44 28 39

Encontraram-se mutações em muitas regiões diferentes do gene -encontraram-se mutações fenotipicamente graves tanto na extremidade 5' de BRCA1 como na porção da extremidade 3' do gene. Uma destas mutações encontrada numa família com sete casos de cancro da mama de aparecimento precoce produz uma proteína a que faltam apenas os 10 aminoácidos terminais, indicando que esta região de BRCA1 desempenha um papel no normal funcionamento do gene. É de notar que a grande maioria das alterações no BRCA1 eram mutações de desvio de enquadramento ou sem sentido, resultando num produto proteico instável ou truncado. 118 86 719 ΕΡ 705 903/ΡΤ

Até à data, há duas mutações que parecem ser relativamente comuns no BRCA1. A mutação 5382 ins C do BRCA1 no codão 1756 e a mutação 185 de! AG no codão 23 foram identificadas por sequenciação directa em sete (10%) e oito (12%) dos 68 probandos estudados nos estudos iniciais em que se identificaram as mutações, respectivamente. Em adição a estas mutações comuns, encontraram-se mutações adicionais em mais do que uma família através de uma pesquisa completa do ADNc. Muitos dos probandos pesquisados até à data quanto a mutações de BRCA1 foram seleccionados por terem uma elevada probabilidade anterior de terem estas mutações. Assim, as mutações encontradas neste conjunto podem não ser representativas das que seriam identificadas em outros conjuntos de pacientes. Contudo, as duas mutações de BRCA1 mais frequentes {5382 ins C e 185 dei AG) foram encontradas múltiplas vezes em pesquisas orientadas em conjuntos de probandos que não eram seleccionados por historial familiar ou a que era atribuído um historial familiar mínimo.

Para além das mutações acima mostradas, foram também detectados muitos polimorfismos durante a pesquisa de amostras. Estes polimorfismos estão listados nas Tabelas 18 e 19.

Utilidade Industrial

Tal como descrito previamente acima, o presente invento proporciona materiais e métodos para utilização no teste de alelos de BRCA1 de um indivíduo e uma interpretação da natureza normal ou de predisposição dos alelos. Os indivíduos com risco superior ao normal podem modificar os seus estilos de vida apropriadamente. No caso de BRCA1, o factor de risco não genético mais significativo é o efeito protector de uma gravidez de tempo completo em idade jovem. Portanto, as mulheres em risco podem considerar a gestação em idade jovem ou uma terapia concebida para simular os efeitos hormonais de uma gravidez de tempo completo em idade jovem. As mulheres em alto risco empenhar-se-iam também na detecção precoce e estariam mais altamente motivadas para aprender e praticar o auto-exame da mama. Tais mulheres estariam também altamente motivadas para fazer mamografias periódicas, começando talvez numa idade mais jovem que a população geral. A pesquisa no ovário também podia ser realizada com maior frequência. Métodos de diagnóstico baseados na análise da sequência do locus BRCA1 podiam

também ser aplicados à detecção e classificação de tumores. A análise da sequência podia ser utilizada para diagnosticar lesões percursoras. Com a evolução do método e a acumulação de informação sobre BRCA1 e outros loci causadores, podia tornar-se possível a separação de cancros em benignos e malignos.

As mulheres com cancros da mama podem seguir procedimentos cirúrgicos diferentes se forem predispostas, e portanto se for provável terem mais cancros, do que se não forem predispostas. Podem ser desenvolvidas outras terapias, utilizando péptidos ou moléculas pequenas (concepção racional de fármacos). Os péptidos podem ser o próprio produto do gene em falta ou uma porção do produto do gene em falta. Alternativamente, o agente terapêutico pode ser outra molécula que imite a função do gene deletério, um péptido ou uma molécula não peptídica que procure contrariar o efeito deletério do locus herdado. A terapia pode também ser baseada em genes, através da introdução de um alelo de BRCA1 normal em indivíduos para fazer uma proteína que contrariará o efeito do alelo deletério. Estas terapia génicas podem ter muitas formas e podem ser dirigidas para a prevenção da formação do tumor, cura de um cancro após este ter ocorrido ou impedimento de metástase de um cancro. (Seguem Tabelas)

86 719 ΕΡ 705 903/ΡΤ 120 -0^0 Ξ5 0 55 0 _2 >w 2- £ râ _Ε si -2 Ο < Μ Ο -l<C0_l — (jU<(— <>f—_j — _j CD (3 (J < ococ/i(£ijcoj]r"'^'(j^<c75<pi^^^_^'<^ír)<í 0 w ra J2 0 Όo 10 o- 0 λ— T- QJ < £ CJ < GC 00 0 -T3 0 0 O 0 U X2 ΟυΟΡ(3μυμθμ<κ<Κítíitttttlltít<Ρ<ϋ<(υΙ-υ<υϋυθυ cd /μ Ψ < < O CD O CJ u /tv /tv /|v A. A. A. ^ ^ ▼ 'ψ' N* ▼ CJ O U < < I- < ra CO CD <— τ- O <— 00 r-1 co O co ^ o r^· 00 00 co o ^í* T3 00 CN LO 00 co Ο 00 O 00 CD ^P 00 CO o co ^p co 00 LO "Cp o σ> co CN co CN T— CO CM ” T— O o o CN ira CN 00 CN CN 'Cp 00 1 ^ CN CN 00 ^ 00 CN CN co O o_ Ό c 0 O) o· co LUca < ί α < 0 Ό (Λ 0 iO X 0

(Λ O

o ira T3 O O co LO co CO 00 00 I-co oo 00 M· <—σι r-co r-

<- co CO 00 LO O co τα) 02 ^ o ^p CN T— 327 co co o CO CN CN P'» 1^· /•“V o CO 00 o 00 OO 00 ^ Ico1

0 1 "5 CL

o ira X LU 00 co co co <— CNOOCONOTOOvJ^r^COCDO^-CNOO^LOCOr^OOCDi 000000<— r— <— CNCNCNCNCNCNCNCNCN CNΈΈΈΈΈΈΈΈΈΈΈΈΈΈΈΈΈΈΈΈΈΈ 0-0-Q-CLCLQ_Q.0_Q_Q_Q.Q_Q_QlQ_Q_Q_Q_Q_Q.Q_Q_,

Posição da base como apresentada em SEQ ID NO:1 Número do codão com o exão 4 incluído na região de codificação Posição da base como apresentada em SEQ ID NO:11 (exão 4 sozinho)

121 86 719 EP 705 903/PT o +-> '<u H— LU o O O O O O g Ό g g g g o 'o "o O o CJ ω 0 0 0 0 0 J3 -C -C r* r~ JC C c c C £ c O o o O Õ o o o o o o o co co co (0 CO co 0 0 0 0 0 0 Ό Ό T3 Τ3 T3 T3 O O O O O O g g g g g g o α 'o o 'o 'õ 0 0 0 0 0 0 -C 1~ SZ r~ i~ jz c C C C c ι- o O O O o Ο o o O CJ o O co co CO co co co 0 0 0 0 0 0 T3 Ό T3 T3 T3 Ό O O O O o O g g g g g g 'o o o o υ ’0 0 0 0 0 0 0 r— .c •C JZ JZ JZ Z c C c c c O o O o o o CJ 0 CJ o o o (O co co co co co 0 0 0 0 0 0 T5 T3 T3 n T3 T3 TABELA 19 Polimorfismos em intrões de ADN genómico de BRCA1 ω co cu -Q cu T3 o !CU o· cu k_ 0 < CU CO cu -Q CU Ό O !CU o-co O 0. o *CU +-» c < u A < A 1- o A. < (J A (3 A CJ h- A l·— A U < O < A CD 1— CD $ $ $ 0 Ψ X $ X l·- l__ X $ X $ < X X X X o < o "Ό l·- (D O < 1— O < 1- CD O CJ < o CJ < •'t "vf T* co /—V <cf 00 00 00 t— CN 00 CN 05 LO o 05 05 CN r—· Osl T— CN T- 00 LO T- co CN 00

00 CO 00 CN T- r- CN

CN LO

CN 05 00 'Cf I <35 00 ^ C0 00 CO CU 00 CN Γ" LO C0 00 e CO CO <35 cu o <CU o- CD co c 00 O) co 00 00 rv LO 00 00 00 <35 00 co O ^f <35 00 CO CN 0 00 <cf Τ CO CO Ο CN •M Γ" CN CN <υ o !CU o- 0) </> c

T- T- r- ^ r- CN g '“l *— CN OsJ *— T— CN 00 ϊ- t— CN 00 CO r·*.' 00 00 <35 oo LO LO LO 00 CN LO t— LO co O o o o o O O T— r— ,- r— CN O O r— T— < < < < < < < < < < < < < Έ Έ Έ Έ Έ Έ Έ Q_ Q_ CL CL Q. CL CL CL CL CL CL CL CL CL CL CL CL 0. < o C/5 π Ç3 Ll o α

O θ α o o CJ 03 cn Π3 r>

86 719 ΕΡ 705 903/ΡΤ

122 LISTAGEM DE REFERÊNCIAS

Altschul, SF. et al. (1990). J. Mo/. Biol. 215: 195-197.

American Câncer Society, Câncer Facts & Figures - 1992. (American Câncer Society, Atlanta, GA).

Anand, R. (1992). Techniques for the Ana/ysis of Comp/ex Genomes, (Academic Press).

Anderson, et al. (1980). Proc. Natl. Acad. Sei USA 77:5399-5403.

Anderson, D.E. (1972). J. Natl. Câncer Inst. 48:1029-1034.

Anderson, J.A., et al. (1992). J. Oto/aryngo/ogy 21:321.

Antonarakis, S.E., et al. (1985). New Eng. J. Med. 313:842-848.

Ausubel, F.M., et al. (1992). Current Protoco/s in Molecular Biology, (J. Wiley and Sons, N.Y.)

Beaucage & Carruthers (1981). Tetra. Letts. 22:1859-1862.

Berkner (1992). Curr. Top. MicrobioL Immunol. 158:39-61.

Berkner, et al. (1988). BioTechniques 6:616-629.

Bickmore, W.A., et al. (1992). Science 257:235-7.

Bishop, D.T., et al. (1988). Genet. Epidemiol. 5:151-169.

Bishop, D.T. e Gardner, E.J. (1980). In\ Banburv Reoort 4: Câncer Incidence in Defined Populations (J. Cairns, J.L. Lyon, M. Skolnick, eds.), Cold Spring Harbor Laboratory, Cold Spring Harbor, N.Y,, 309-408.

Botstein, et al. (1980). Am. J. Hum. Genet. 32:314-331.

Bowcock, A.M., et al. (1 993). Am. J Hum. Genet. 52:718.

Brandyopadhyay e Temin (1984). Moí. Cell. Biol. 4:749-754.

Breakfield e Geller (1987). Mol. Neurobiof. 1:337-371.

Brinster, et al. (1981). Cell 27:223-231.

Buchschacher e Panganiban (1992). J. Virol. 66:2731-2739.

Buckler, et al. (1991). Proc. Natl. Acad. Sei. USA 88:40054009. Cannon-AIbright, L., et al. (1994). Câncer Research 54:2378-2385.

Capecchi, M.R. (1989). Science 244:1288.

Cariello (1988). Human Genetics 42:726.

Claus, E., et al. (1991). Am. J. Hum. Genet. 48:232-242.

Conner, B.J., et al. (1983). Proc. Natl. Acad. Sei. USA 80:278-282.

Constantini e Lacy (1981). Nature 294:92-94.

Cotten, et al. (1990). Proc. Natl. Acad. Sei USA 87:40334037.

Cotton, et al. (1988). Proc. Natl. Acad. Sei USA 85:4397.

Cropp, C.S., et al. (1994). Câncer Res. 54:2548-2551.

Culver, et al. (1 992). Science 256:1 550-1 552.

Curiel, et al. (1991a). Proc. Natl. Acad, Sei. USA 88:8850-8854.

Curiel, et al. (1991b). Hum. Gene Ther. 3:147-154.

Deutscher, M. (1990). Meth. Enzymology 182 (Academic Press, San Diego, Cal.).

Donehower, L.A., et al. (1992). Nature 356:21 5.

Drummond, I. A., et al. (1994). Mol. Cell Biol. 14:3800-9.

Easton, D., et al. (1993). Am. J. Hum. Genet. 52:678-701.

Eccles, D.M., et al. (1990). Oncogene 5:1599-1601.

Enhancers and Eurkaryotic Gene Expression, Cold Spring Harbor Press, Cold Spring Harbor, New York (1983).

Erickson, J. et al., (1990). Science 249:527-533.

Fain, P.R. (1992). Cytogen. Cell Genet. 60:178.

Felgner, et al. (1987). Proc. Natl. Acad. Sei USA 84:7413-7417.

86 719 ΕΡ 705 903/ΡΤ 124

Fiers, et al. (1978). Nature 273:113.

Fink, et al. (1992). Hum. Gene Ther. 3:11-19.

Finkelstein, J., et al. (1990). Genomics 7:167-172.

Freese, et al. (1990). Biochem. Pharmacol. 40:2189-2199.

Friedman, T. (1991). jn Therapy for Genetic Diseases, T. Friedman, ed., Oxford University Press, pp. 105-121.

Futreal (1993). Ph.D. Thesis, University of North Carolina, Chapei Hill.

Futreal, A., et al. (1992a). Hum. Mo/ec. Genet. 1:66.

Futreal, P.A., et al. (1992b). Câncer Res. 52:2624-2627.

Glebov, O.K., et al. (1994). Câncer Res. 54:3703-3709.

Glover, D. (1985). DNA Cloning, I e II (Oxford Press).

Go, R.C.P., et al. (1983).7. Natl. Câncer Inst. 71:455-461.

Goding (1986). Monoclonal Antibodies: Principies and Practice, 2aed. (Academic Press, N.Y.).

Godowski, et al. (1988). Science 241:812-816.

Goldgar, D.E., et al. (1994). J. Natl. Can. Inst. 86:3:200-209.

Gordon, et al. (1980). Proc. Natl. Acad. Sei. USA 77:7380-7384.

Gorziglia e Kapikian (1992). J. Virol. 66:44074412.'

Graham e van der Eb (1 973). Viro/ogy 52:456467.

Grompe, M., (1993). Nature Genetics 5:111-117.

Grompe, M., et ai, (1989). Proc. Natl. Acad Sei. USA 86:5855-5892.

Guthrie, G. & Fink, G.R. (1991). Guide to Yeast Genetics and Molecular Bio/ogy (Academic Press).

Haber, D. A., et al. (1990). Ce//61:1 257-69.

Hall, J.M., et al. (1990). Science 250:1684-1689.

& 86 719 ΕΡ 705 903/ΡΤ 125

Hall, J.M., etal. (1992).AmJHum. Genet. 50:1235-1241. w

Hariow & Lane (1988). Antibodies: A Laboratorv Manual (Cold Spring Harbor Laboratory, Cold Spring Harbor, N.Y.

Hasty, P., K., et al. (1991). Nature 350‘.2A3.

Helseth, et al. (1990). J. Virol. 64:2416-2420.

Hodgson, J. (1991). Bio/Techno/ogy 9:19-21.

Huse, et al. (1989). Science 246:1275-1281.

Innis et al. (1990). PCR Protocols: A Guide to Methods and Applications (Academic Press, San Diego, Cal.).

Jablonski, E., et al. (1986). Nuc. Acids fíes. 14:6115-6128.

Jacobs, I.J., et al. (1993). Câncer Res. 53:1218-1221.

Jakoby, W.B. e Pastan, I.H. (eds.) (1979). Cell Culture. Methods in Enzymology, volume 58 (Academic Press, Inc., Harcourt Brace Jovanovich (New York)).

Jeffreys, et al. (1985). Nature 314:67-73.

Johnson, et al. (1992). J. Viro\. 66:2952-2965.

Kamb, A. et al. (1994). Science 264:436-440.

Kandpal, et al. (1990). Nucl. Acids Res. 18:1789-1795.

Kaneda, et al. (1989). J. Biol. Chem. 264:12126-12129.

Kanehisa (1984). Nucl. Acids Res. 12:203-213.

Kelsell,D.P., et al. (1993). Human Mol. Genet. 2:1823-1828.

Kinszler, K.W., et al. (1991). Science 251:1366-1370.

Knudson, A.G. (1993). Nature Genet. 5:103,

Kohler, G. e Milstein, C. (1975). Nature 256:495-497.

Kozak, M. (1987). Nuc/eic Acids Res. 15:8125-8148.

Kraemer, F.B. et al. (1993). J. Lipid Res. 34:663-672. 126 86 719 ΕΡ 705 903/ΡΤ

Kubo,T., etal. (1988). FEBS Letts. 241:119.

Landegren, et al. (1988). Science 242:229.

Lim, et al. (1 992). Circulation 83:2007-2011.

Lindsay, S., et al. (1987). Nature 327:336-368

Litt, et al. (1989). Am. J. Hum. Genet. 44:397-401.

Little, M.H., etal. (1992). Proc. Natl. Acad. Sei USA 89:4791.

Little, M.H., et al. (1993). Hum. Mol. Genet. 2:259.

Lovett, etal. (1991). Proc. Natl. Acad. Sei USA 88:9628-9632.

Lynch, H.T., etal. (1990). Gynecol. Oncol. 36:48-55.

Madzak, etal. (1992). J. Gen. Vlrol. 73:1533-1536.

Malkin, D., etal. (1990). Science 250:1233-1238.

Maniatis. T,, et al. (1982). Molecular Cloning A Laboratory Manual (Cold Spring Harbor Laboratory, Cold Spring Harbor, N.Y.).

Mann e Baltimore (1985). J. Virol. 54:401407.

Margaritte, et al. (1992). Am. J. Hum. Genet. 50:1231-1234.

Margolskee (1 992). Curr. Top. Microbiol. Immunol. 158:67-90.

Martin, R., et al. (1990). BioTechniques 9:762-768.

Matteucci, M.D. e Caruthers, M.H. (1981). J. Am. Chem. Soc. 103:3185.

Matthews & Kricka (1988). Anal. Biochem. 169:1.

Merrifield (1963). J. Am. Chem. Soc. 85:2149-2156.

Mettlin, C., et al. (1990). American Journal of Epidemiology 131:973-983.

Metzger, et al. (1988). Nature 334:31-36.

Miller (1992). Curr. Top. Microbiol. Immunol. 158:1-24.

Miller, etal. (1985). Mol. Cell. Biol. 5:431-437.

Miller, etal. (1988). J. Virol. 62:4337-4345. 127 86 719 ΕΡ 705 903/ΡΤ

Mittlin (1989). Clinicai Chem. 35:1819.

Modrich, P. i'\99'\). Ann. Rev. Genet. 25:229-253.

Mombaerts, P., et al. (1992). Ce//68:869.

Monaco, et al. (1986). Nature 323:646.

Moss (1992). Curr. Top. Microbiol. Immunol. 158:25-38.

Muzyczka (1992). Curr. Top. Microbiol. Immunol. 158:97-123.

Nabel (1992). Hum. Gene Ther. 3:399-410.

Nabel, et al. (1990). Science 249:1285-1288.

Nakamura, et al. (1987). Science 235:1616-1622.

Narod, S.A., et al. (1991). 77?e Lancet 338:82-83.

Newman, B., et al. (1988). Proc. Natl. Acad. Sei. USA 85:3044-3048.

Newton, C.R., Graham, A., Heptinstall, L.E., Powell, S.J., Summers, C.( Kalsheker, N., Smith, J.C., e Markham, A.F. (1989). Nucl. Acids Res. 17:2503-2516.

Nguyen, Q.( et al. (1992). BioTechniques 13:116-123.

Novack, et al. (1986). Proc. Natl. Acad. Sei. USA 83:586.

Oh, J. (1985). Analysis of Human Genetic Linkage, Johns Hopkins University Press, Baltimore, Md, p. 1-216.

Ohi, et ai (1990). Gene 89:279-282.

Oliphant, A., et ai (1991). Nucleic Acid Res. 19:4794.

Oliphant, A., et ai (1991). Nucleic Acid Res. 19:4795.

Orita, et ai (1989). Proc. Natl. Acad. Sei. USA 86:2776-2770.

Page, et ai (1990). J. Viroi 64:5370-5276.

Peilicer, et ai (1980). Science 209:1414-1422.

Petropoulos, et ai (1992). J. Viroi 66:3391-3397.

Philpott, K.L., et ai (1992). Science 256:1448.

Pierce, et al. (1992). Proc. Nati Acad. Sei. USA 89:2056-2060.

Quantin, et ai (1992). Proc. Nati Acad. Sei. USA 89:2581-2584.

Rano & Kidd (1989). Nuci Acids Res. 17:8392.

Rigby, P.W.J., et al. (1977). J. Moi Biol. 113:237-251.

Rosenfeld, et ai (1992). Ce//68:143-1 55.

Sambrook, J., et ai (1989). Molecular Cloning: A Laboratory Manual, 2aEd. (Cold Spring Harbor Laboratory, Cold Spring Harbor, N.Y.).

Sato, T., et ai (1990). Câncer Res. 50:7184-7189.

Scharf (1986). Science 233:1076.

Scopes, R. (1982). Protein Purification: Principies and Practice, (Springer-Verlag, N.Y.).

Shaulian, E„ et ai (1992). Moi Cell Biol. 12:5581-92.

Sheffield, V.C., et ai (1989). Proc. Nati Acad Sei. USA 86:232-236.

Sheffield, V.C., et ai (1991). Am. J. Hum. Genet. 49:699-706.

Shenk, et ai (1975). Proc. Nati Acad. Sei. USA 72:989.

Shimada, et ai (1991). J. Clin. invest. 88:1043-1047.

Shinkai, Y., et ai (1992). Cell 68:855.

Shizuya, H., et ai (1992). Proc. Nati Acad. Sei. USA 89:8794-8797.

Simard, J., et ai (1993). Human Moi Genet. 2:1193-1199.

Skolnick, M.H. e Wallace, B.R. (1988). Genomics 2:273-279.

Skolnick, M.H., et ai (1990). Science 250:1715-1720.

Smith, S.A., et ai (1992). Nature Genetics 2:128-131.

Smith, T.F. e Waterman, M.S. (1981). J. Moi Biol. 147:195-197.

Snouwaert, J.N., et ai (1992). Science 257:1083. 129 86 719 ΕΡ 705 903/ΡΤ

Sorge, et al. (1984). Mol. Ce//. Bio/. 4:1730-1737.

Srivastava, S., et al. (1993). Câncer Res. 53:4452-5.

Sternberg (1990). Proc. Nat/. Acad. Sei. USA 87:103-107.

Sternberg, et al. (1990). The New Bio/ogist 2:151-162.

Stewart, et al. (1992). Hum. Gene Ther. 3:267-275.

Stratford-Perricaudet, et a/. (1990). Hum. Gene Ther. 1:241-256.

Swift, M., et a/. (1991). N. Eng/. J. Med. 325:1831-1836.

Swift, M.( et a/. (1976). Câncer Res. 36:209-215.

Su, L. K., et al. (1993). Câncer Res. 53:2728-31.

Thomas, A. e Skolnick, M.H. (1994). IMA Journal of Mathematics Applied in Medicine e Biology (no prelo).

Tonolio, D., et al. (1990). Cold Spring Harbor Conference.

Valancius, V. & Smithies, 0. (1991). Mol. Cell Biol. 11:1402. van Dilla, et al. (1986). Biotechnology 4:537-552.

Wagner, et al. (1990). Proc. Natl. Acad. Sei. USA 87:3410-3414.

Wagner, et al. (1991). Proc. Natl. Acad. Sei. USA 88:4255-4259.

Wang e Huang (1989). Biochemistry 28:9508-9514.

Warteil, R.M., et al. (1990). Nucl. Acids Res. 18:2699-2705.

Weber, J.L. (1990). Genomics 7:524-530.

Weber e May (1989). Am. J. Hum. Genet. 44:388-396.

Weber, J.L., et al. (1990). Nucleic Acid Res. 18:4640.

Wells, J.A. (1991). Methods in Enzymol. 202:390-411.

Wetmur & Davidson (1968). J. Mol. Biol. 31:349-370.

White, M.B., et a!., (1992). Genomics 12:301-306.

White e Lalouel (1988). Ann. Rev. Genet. 22:259-279. 130 86 719 ΕΡ 705 903/ΡΤ

Wilkinson, et al. (1992). Nucleic Acids Res. 20:2233-2239. Willams e Anderson (1984). Genet. Epidemiol. 1:7-20.

Wolff, et al. (1990). Science 247:1465-1468.

Wolff, et al· (1991). BioTechniques 11:474-485.

Wooster, R., et al· (1994). Science 265:2088.

Wu, et ai. (1989a). Genom/cs 4:560-569.

Wu, et al· (1989b). J. Bioi. Chem. 264:16985-16987.

Wu, et al· (1991). J. Biol. Chem. 266:14338-14342.

Zenke, et al. (1990). Proc. Natl. Acad. Sei. USA 87:3655-3659.

Lista de Patentes e Pedidos de Patente:

Patente US No. 3 817 837 Patente US No. 3 850 752 Patente US No. 3 939 350 Patente US No. 3 996 345 Patente US No. 3 275 149 Patente US No. 4 277 437 Patente US No. 4 366 241 Patente US No. 4 376 110 Patente US No. 4 486 530

Patente US No. 4 683 195

86 719 ΕΡ 705 903/ΡΤ 131

Patente US No. 4 683 202 Patente US No. 4 816 567 Patente US No. 4 868 105 Patente US No. 5 252 479 Publicação EPO No. 225 807

Publicação do pedido de patente europeia n° 0332435

Geysen, H., pedido PCT publicado WO 84/03564, publicado em 13 de Setembro de 1 984

Hitzeman et ai, EP 73 675A

Pedido PCT publicado WO 93/07282 (Segue Listagem de Sequências)

(1) INFORMAÇÃO GERAL (i) RFOIIFRFMTF- (A) NOME: MYRIAD GENETICS INC.

(B) RUA: 300 WAKARA WAY

(C) CIDADE: SALT LAKE CITY

(D) ESTADO: UTAH

(E) PAÍS: ESTADOS UNIDOS DA AMÉRICA (F) CÓDIGO POSTAL: 84108

(A) NOME: CENTRE DU RECHERCHE DU CHUL

(B) RUA: 2705 LAURIER BOULEVARD

(C) CIDADE: SAINTE-FOY

(D) ESTADO: QUEBEC (E) PAÍS: CANADÁ (F) CÓDIGO POSTAL: G1V 4G2

(A) NOME: CÂNCER INSTITUTE

(B) RUA: 1-31-1, KAMI-IKEBUKURO, TOSHIMO-KU

(C) CIDADE: TÓQUIO

(E) PAÍS: JAPÃO (F) CÓDIGO POSTAL: 170

(ii) TÍTULO DO INVENTO: MUTAÇÕES E POLIMORFISMOS IN VIVO NO GENE DE SUSCEPTIBILIDADE AO CANCRO DA MAMA E DO OVÁRIO LIGADO A 1 7q (iii) NÚMERO DE SEQUÊNCIAS: 85 (iv) FORMATO LEGÍVEL EM COMPUTADOR: (A) TIPO DE MEIO: Disquete

(B) COMPUTADOR: compatível com PC IBM

(C) SISTEMA OPERATIVO: PC-DOS/MS-DOS (D) SUPORTE LÓGICO: Patentln Release #1.0, Versão #1.30 (EPO) (2) INFORMAÇÃO PARA SEQ ID NO: 1: (i) CARACTERÍSTICAS DA SEQUÊNCIA: 86 719 ΕΡ 705 903/ΡΤ 133 (A) COMPRIMENTO: 5914 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADNc

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (ix) CARACTERÍSTICA PRINCIPAL:

(A) NOME/CHAVE: CDS (B) LOCALIZAÇÃO: 120..571 1 (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 1: . ..Λ .

Mo r

As .eu Se

jôU

w .sj.

A.G CAG AAA A' Me~ Gin lys Z'. 20

ΤΤλ oaG tgt c leu Glu C*/s P e uys lei AAG TGT GAC Lys Cys Asp

%G T. s .eu 2 G N» .“»AA ttt s Lvs Phe Cvs Me 134 86 719 ΕΡ 705 903/ΡΤ CTG AAA CTT CTC AAC CAG AAG AAA GGG CCT TCA CAG TGT CCT TTA TGT 311 Leu Lys Leu Leu Asn Gin Lys Lvs Gly Pro Ser Gin Cys Pro Leu Cys 50 55 60 AAG AAT GAT ATA ACC AAA AGG AGC CTA CAA GAA AGT ACG AGA TTT AGT 359 Lvs Asn Asp XXô Thr Lys Arg Ser Leu Gin Glu Ser Thr Arg Phe Ser 6 5 70 75 80 CAA CTT GTT GAA GAG CTA TTG AAA ATC ATT TGT GCT TTT CAG CTT GAC 407 Gin Leu Vai Glu Glu Leu Leu Lys Ile Ile Cys Ala Phe Gin Leu Asp 85 90 95 ACA GGT TTG GAG TAT GCA AAC AGC TAT AAT TTT GCA AAA AAG GAA AAT 455 Thr Gly Leu Glu Tyr Ala Asn Ser Tyr Asn Phe Ala Lys Lys Glu Asn 100 105 110 AAC TCT CCT GAA CAT CTA AAA GAT GAA GTT TCT ATC ATC CAA AGT ATG 503 Asn Ser Pro Glu His Leu Lys Asp Glu Vai Ser Ile He Gin Ser Mec 115 120 125 GGC TAC AGA AAC CGT GCC AAA AGA CTT CTA CAG AGT GAA CCC GAA AAT 551 Gly Tyr Arg Asn Arg Ala Lys Arg Leu Leu Gin Ser Glu Pro Glu Asn 12 0 125 140 CC7 TCC TTG CAG GAA /vC — AGT CTC AGT GTC CAA CTC TCT AAC GGA 599 Pro Ser Leu Gin Glu Thr Ser Leu Ser Vai Gin Leu Ser Asn Leu Glv 145 ISO 15 5 150 ACT GTG AG« ACT CTG AGG ACA AAG CAG CGvj ATA CAA CCT CAA AAG ACG 647 Thr Vai níw Thr Leu r g Thr Lys Gin nru lie Gin Pro Gin Lys Thr 165 170 175 TCT GTC TAC ATT GAA TTG GGA GAT TCT GAA GAT ACC GTT AAT 695 Ser Vai Tv'·" Ile Glu Leu Gly Ser Asp Ser Ser Glu Asp Thr Vai Asn 190 185 190 AAG GCA ACT TAT TGC AGT GTG GGA GAT CAA GAA TTG TTA CAA ATC ACC 743 Lvs Ala Thr Tyr Cys Ser Vai Gly Asp Gin Glu Leu Leu Gin Ile Thr ; o; 200 205 CCT CAA GGA ACC AGG GAT GAA ATC AGT TTG GAT TCT GCA AAA AAG GCT 791 Pro Gin Gly Thr Arg Asp Glu lie Ser Leu Asp Ser Ala Lys Lys Ala 210 215 220 GCT TGT GAA t"T"p TCT GAG ACG GAT GTA ACA AAT ACT GAA CAT CAT CAA 839 Ala Cys Glu Phe Ser Glu Thr Asp Vai Thr Asn Thr Glu His His Gin 225 230 235 240 AGT AAT AAT GAT TTG AAC ACC ACT GAG AAG CGT GCA GCT GAG AGG 887 Pro Ser Asn Asn Asp Leu Asn Thr Thr Glu Lys Arg Ala Ala Glu Arg 245 250 255 CAT CCA GAA AAG TAT CAG GGT AGT TCT GTT TCA AAC TTG CAT GTG GAG 935 His Prc Gl u Lys Tyr ^ i _ Gly Ser Ser Vai Ser Asn Leu His Vai Glu 260 265 270 135 86 719 ΕΡ 705 903/ΡΤ

CCA TGT GGC ACA AAT ACT CAT GCC AGC TCA TTA CAG CAT GAG AAC AGC 983 Pro Cys Gly Thr Asn Thr His Ala Ser Ser Leu Gin His Glu Asn Ser 275 230 295 AGT TTA TTA CTC ACT AAA GAC AGA ATG AAT GTA GAA AAG GCT GAA TTC 1031 Ser Leu Leu Leu Thr Lys Asp Arg Mec Asn Vai Glu Lys Ala Glu Phe 290 295 300 TGT AAT AAA AGC AAA CAG CCT GGC TTA GCA AGG AGC CAA CAT AAC AGA 1079 cys Asn Lys Ser Lys Gin Pro Gly Leu Ala Arg Ser Gin His Asn Arg 305 310 315 320 TGG GCT GGA AGT AAG GAA ACA TGT AAT GAT AGG CGG ACT CCC AGC ACA 1127 Trp Ala Gly Ser Lys Glu Thr cys Asn Asp Arg Arg Thr Pro Ser Thr 325 330 335 GAA AAA AAG GTA GAT CTG AAT GCT GAT CCC CTG TGT GAG AGA AAA GAA 117 5 Glu Lys Lys Vai Asp Leu Asn Ala Asp Pro Leu Cys Glu Arg Lys Glu 340 345 350 TGG AA i AAG CAG AAA CTG CCA TGC TCA GAG AAT CCT AGA GAT ACT GAA 1223 Trt: Asn Lys Gin Lys Leu Pro Cys Ser Glu Asn Pro Arg Asp Thr Glu 2 55 *5 £ Q 365 GAT GTT CCT TGG ATA ACA CTA Α/Λ 1 AGC AGC ATT CAG AAA GTT AAT GAG 1271 Asd 7a 1 Pro ,Γ***·η Ile Thr Leu Asn Ser Ser Ile Gin Lys Vai Asn Glu 370 375 380 TGG TTT TCC AGA AGT GAT GAA CTG TTA GGT TCT GAT GAC TCA CAT GAT 1319 Tr*1' PJ^o Ser Arg Ser Asp Glu Leu Leu Gly Ser Asp Asp Ser His Asp 385 390 395 400 GGG GAG TCT GAA TCA AAT GCC AAA GTA GCT GAT GTA TTG GAC GTT CTA 1367 Gly Glu Ser Glu Ser Asn Al a Lys Vai Ala Asp Vai Leu Asp Vai Leu 405 410 415 AAT GAG * í Λ GAT GAA TAT TCT GGT TCT TCA GAG AAA ATA GAC TTA CTG 1415 Asn Glu Vai Asp Glu Tyr Ser Gly Ser Ser Glu Lys Ile Asp Leu Leu 420 425 430 GCC AGT GAT CCT CAT GAG GCT TTA ATA TGT AAA AGT GAA AGA GTT CAC 1463 Ala Ser Asp Pro His Glu Ala Leu Ile Cys Lys Ser Glu Arg Vai His 435 440 445 TCC AAA * 1 GTA GAG AGT AAT ATT GAA GAC AAA ATA TTT GGG AAA ACC 1511 Ser Lys Ser Vai Glu Ser Asn Ile Glu Asp Lys Ile Phe Gly Lys Thr 450 455 460 TAT CGG AAG AAG GCA AGC CTC AAC TTA AGC CAT GTA ACT GAA AAT 1559 Tyr Arg Lys Lys Ala Ser Leu Pro Asn Leu Ser His Vai Thr Glu Asn 4 8 5 470 475 480 CTA ATT ATA GGA GCA TTT GTT ACT GAG CCA CAG ATA ATA CAA GAG CGT 1507 Leu X1 s X X s Gly Ala ?he Vai Thr Glu Pro Gin Ile Ile Gin Glu Arg 485 490 495

86 719 ΕΡ 705 903/ΡΤ 136 ¢-. CCC CTC ACA AAT ?ro Leu Thr Asn 500 CAT CCT GAG GAT His Pro Glu Asd 515 CCT GAA ATG ATA Pro Glu Met Ile 530 GTG ATG AAT ATT Vai Met Asn Ile 545 TCT ATT CAG AAT Ser Ile Gin Asn GAA TCT GCT TTC Glu Ser Ala Pha 530 AAT ATG GAA CTC Asn Mer Glu Leu 595 AAT AGG CTG AGG Asn Arg Leu Arg 510 CTA GTA GTC AGT Leu Vai Vai Ser 525 ATT GAT AGT TGT Ile Asp Ser Cys CAA ATG CCA GTC Gin Met Pro Vai 550 GAA CCT GCA ACT Glu Pro Ala Thr 575 AGT AAA AGA CAT Ser Lys Arg His 590 GCA CCT GGT TCT Ala Pro Giy Ser 705 AAA TTA AAG CGT Lys Leu Lys Arg TTT ATC AAG AAA Phe Ile Lys Lys S20 AAT CAG GGA ACT Asn Gin Giy Thr 535 ACT AAT AGT GGT Thr Asn Ser Giy 550 GAG AAA AAT CCT Glu Lys Asn Pro S 5 3 AAA ACG -AAA GCT Lys Thr Lys Ala AAA AGG AGA CCT Lys Arg Arg Pro 505 GCA GAT TTG GCA Ala Asp Leu Ala AAC CAA ACG GAG Asn Gin Thr Glu 540 CAT GAG AAT AAA His Glu Asn Lys 553 AAC CCA ATA GAA Asn Pro Ile Glu 570 GAA CCT ATA AGC Glu Pro Ile Ser ACA TCA GGC CTT Thr Ser Giy Leu 510 GTT CAA AAG ACT Vai Gin Lys Thr 525 CAG AAT GGT CAA Gin Asn Giy Gin ACA AAA GGT GAT Thr Lys Giy Asp 550 TCA CTC GAA AAA Ser Leu Glu lys 1555 1703 1751 1799 1847 GAA TTA AAT ATC Glu Leu Asn Ile 500 AGG AAG TCT TCT Arg Lys Ser Ser 615 AGA AAT CTA AGC Arg Asn Leu Ser 630 TCT AGC AGT GAA Ser Ser Ser Glu 645 AGG CAC AGC AGA Arg His Ser Arg GGA GCC AAG AAG Giy Ala Lys Lys 680 GAC AGC GAT ACT Asp Ser Asp Thr 595 TTT ACT AAG TGT Phe Thr Lys Cys 710 CAC AAT TCA AAA His Asn Ser Lys ACC AGG CAT ATT Thr Arg His Ile 620 CCA CCT AAT TGT Pro Pro Asn Cys 535 GAG ATA AAG AAA Glu Ile Lys Lys 550 AAC CTA CAA CTC Asn Leu Gin Leu 565 AGT AAC AAG CCA Ser Asn Lys Pro

TTC CCA GAG CTG Phe Pro Glu Leu 700 TCA AAT ACC AGT Ser Asn Thr Ser 71S AGC AGT ATA AGC Ser Ser Ile Ser 590 GCA CCT AAA AAG Ala Pro Lys Lys 50 5 CAT GCG CTT GAA His Ala Leu Glu ACT GAA TTG CAA Thr Glu Leu Gin 540 AAA AAG TAC AAC Lys Lys Tyr Asn 535 ATG GAA GGT AAA Met Glu Giy Lys 670 AAT GAA CAG ACA Asn Glu Gin Thr 685 AAG TTA ACA AAT Lys Leu Thr Asn GAA CTT AAA GAA Glu Leu Lys Glu 720 1895 1943 1991 2039 2087 2135 2133 2231 2279

137 86 719 ΕΡ 705 903/ΡΤ ΤΊΤ GTC AAT CCT AGC CTT CCA AGA GAA GAA AAA GAA GAG AAA CTA GAA 2327 Phe Vai As n Pro Ser Leu Pro Aro Glu Glu Lys Glu Glu Lys Leu Glu 725 730 735 ACA GT7 AAA GTG TCT AAT AAT GCT GAA GAC CCC AAA GAT CTC ATG TTA 2375 Thr Vai T · * c« Ljy 5 Vai Ser Asn Asn Ala Glu Asp Pro Lys Asp Leu Met Leu 740 745 750 AGT GGA GAA AGG GTT ITNHf» * 1 sj CAA ACT GAA AGA TCT GTA GAG AGT AGC AGT 2423 Ser Gly Glu Arg Vai Leu Gin Thr Glu Arg Ser Vai Glu Ser Ser Ser 7 5 5 760 7 5 5 ATT TC A TTG GTA CCT GGT ACT GAT TAT GGC ACT CAG GAA AGT ATC TCG 2471 Ue Ser Leu vai Pro G1 y Thr Asp Tyr Gly Thr Gin Glu Ser Ile Ser 770 775 780 TTA CTG G/-u-v 1 j i. i. AGC ACT CTA GGG AAG GCA AAA ACA GAA CCA AAT AAA 2519 Leu Glu Vai Ser Thr Leu Glv Lys Ala Lys *T*U v Glu Pro Asn Lys 7SS 790 795 800 TGT GTG AGT CAG TGT GCA GCA TTT GAA AAC CCC AAG GGA CTA ATT CAT 2567 Cys Vai Ser Gin Cys Ala Ala Phe Glu Asn Pro Lys Gly Leu Ile His SC 5 910 315 GGT TGT TCC ΑλΑ GAT ΛΛ i AGA AAi GAC ACA GAA GGC TTT AAG i/-v* CCA 2515 G1 y Cys Ser Lys ASC Asr. Arg Asn Asp Thr Glu Gly Phe Lys Tyr Pro 320 S25 830 TTG GGA CAT GAA GTT AAC CAC AGT CGG GAA ACA AGv— nirt GAA ATG GAA 2563 Leu Gly His Glu Vai Asn His Ser Arg Glu Thr Qo — T 1 Λ Glu Mec Glu 333 340 345 GAA AGT vjAA CTT GAT GCT CAG TAi TTG CAG AAT ·* /-ν'_ TTC AAG GTT TCA 2711 Giu Ser Leu Asp Ala Gin Tyr Leu Gin Asn Thr Phe Lys Vai Ser 9 5 0 25 c 360 AAG CGC CAG TCA TTT GCT CCG TTT TCA .AAT CCA GGA AAT GCA GAA GAG 2759 Lys Arg Gin Ser Phe Ala Prc Phe Ser Asn Pro Gly Asn Ala Gin Glu 365 370 375 880 GAA TGT /-*****. JV-Λ ACA *v>*r·/* liU TCT GCC CAC TCT GGG TCC TTA AAG AAA CAA AGT 2907 Glu Cys Ala Thr Phe Ser Ala His Ser Gly Ser Leu Lys Lys Gin Ser 885 390 895 CCA AAA GTC ACT TTT GAA TGT GAA CAA AAG GAA GAA AAT CAA GGA AAG 2955 Pro Lys Vai Thr Phe Glu Cys Glu Gin Lys Glu Glu Asn Gin Gly Lys 900 905 910 AAT GAG AAT ATC AAG CCT X Λ CAG ACA GTT AAT ATC ACT GCA GGC 2903 Asn Glu Ser Asn Ile Lys Pro Vai Gin Thr Vai Asn lis Thr Ala Gly 915 920 92 S TTT CCT GTG GTT GGT CAG AAA GAT .AAG CCA GTT GAT AAT GCC AAA TGT 2951 Phe Pro Vai Vai Gly Gin Lvs Asp Lys Pro Vai Asp Asn Ala Lys Cys 930 935 940 138 86 719 ΕΡ 705 903/ΡΤ AGT ATC » ^ ^ GGA GGC TCT AGG TTT TGT CTA TCA TCT CAG TTC AGA GGC 2999 Ser Ile Lvs Gly Gly Ser Arg Phe Cys Leu Ser Ser Gin Phe Arg Gly 945 950 955 960 AAC GAA ACT GGA CTC ATT ACT CCA AAT AAA CAT GGA CTT TTA CAA AAC 3047 As η Glu Thr Gly Leu Ile Thr Pro Asn Lys His Gly Leu Leu Gin Asn 965 970 975 CCA TAT CGT ATA CCA CCA CTT TTT CCC ATC AAG TCA TTT GTT AAA ACT 3095 Pro Tvr Arg Ile Pro Pro Leu Phe Pro Ile Lys Ser Phe Vai Lvs Thr 980 985 990 AAA TGT AAG AAA AAT CTG CTA GAG GAA AAC TTT GAG GAA CAT TCA ATG 3143 Lys cys Lys Lys Asn Leu Leu Glu Glu Asn Phe Glu Glu His Ser Met 995 1000 1005 7CA CCT GAA AGA GAA ATG GGA • « m GAG AAC ATT CCA AGT ACA GTG AGC 3191 Ser Fro Glu Arg Glu Met Gly Asn Glu Asn Ile Pro Ser Thr Val Ser 1010 101: 102 0 ACA ATT AGC CGT AAT AAC ATT AGA GAA AAT GTT TTT AAA GAA GCC AGC 3239 Thr T 1 a Ca- Arg Asn Asn Ile λ- a Glu Asn Vai Phe Lys Glu Ala Ser :c" 103 r 103: 1040 TCA AGC AAT ATT AAT C-AA GTA GGT TCC AGT ACT ^ ^ ** ΛΛ. GAA GTG GGC TCC 3287 Ser Ser Ile Asn Glu Vai Gly Ser Ser Thr Asn Glu Vai Gly Ser 104 = 1050 105! AGT ATT GAA, ATA GGT TCC AGT GAT GAA .AAC ·*, ***** rt . : CAA GCA GAA CTA 3335 Ser Ile Asr. Glu Ile Gly Ser Ser Asp Glu Asn Ile Gin Ala Glu Leu 1060 1065 1070 GGT AGA AAC AGA GGG CCA AAA TTG AAT GCT ATG CTT AGA TTA GGG GTT 3383 Gly Arg Asn Arg Gly Pro Lys Leu Asn Alâ Met Leu Arg Leu Gly Val 107E 1080 1085 TTG CAA Q/**T* GAG GTC TAT AAA CAA AGT CCT GGA AGT AAT TGT AAG 3431 Leu Gin Pro Glu Vai Tyr Lys Gin Ser Leu Pro Gly Ser Asn Cys Lys 1090 1095 1100 CAT CCT GAA ATA AAA AAG CAA GAA TAT GAA GAA GTA GTT CAG ACT GTT 3479 His Pro Glu Ile Lys Lys Gin Glu Tyr Glu Glu Vai Vai Gin Thr Val 1105 1110 1115 1120 AAT ACA GAT TTC TCT CCA TAT CTG ATT TCA GAT AAC TTA GAA CAG CCT 3527 Asr. Thr Asp Phe Ser Pro Tyr Leu Ile Ser Asp Asr. Leu Glu Gin Pro 1125 1130 1135 ATG GGA AGT AGT CAT GCA TCT CAG GTT TGT TCT GAG ACA GAT GAC 3 575 Mec Gly Ser Ser His AI 3. Ser Gin Vai Cys Ser Glu Thr Pro Asp Asp 1140 1145 1150 CTG TTA z*"* Λ *7* GAT GGT GAA ATA AAG GAA GAT ACT AGT TTT GCT GAA AAT 3623 Leu leu Asp Asp Gly Glu He Lvs Glu Asp Thr Ser Phe Ala Glu Asn 86 719 ΕΡ 705 903/ΡΤ 139

GAC ATT AAG GAA AGT TCT GCT GTT ITT AGC AAA AGC GTC CAG AAA GGA 3671 As? Ile Lys 1170 Glu Ser Ser Ala Vai Phe 1175 Ser Lys Ser Vai 1130 Gin Lys Gly GAG CTT AGC AGG AGT CCT AGC CCT TTC ACC CAT ACA CAT TTG GCT CAG 3715 Glu Leu Ser nas Arg Ser Pro Ser 1190 Pro Phe Thr His Thr 1195 His Leu Ala Gin 1200 GGT TAC CGA AC-A GGG GCC AAG AAA TTA GAG TCC TCA GAA GAG AAC TTA 3 7 S 7 ciy Tyr Arg Arg Gly Ala Lys 1205 Lys Leu Glu 1211 Ser 3 Ser Glu Glu Asn Leu 1215 TCT AGT GAG GAT GAA GAG CTT CCC TGC TTC CAA CAC TTG TTA TTT GGT 3815 Ser Ser Glu Asp Glu 1220 Glu Leu Pro Cys Phe 1225 Gin His Leu Leu Phe 1230 Gly GTA AAC AAT ATA CCT TCT CAG TCT ACT AGG CAT AGC * r* GTT GCT 3863 Lys Vai Asr. 123: Asn Ile 5 Prc Ser Glr. Ser 1240 Thr Arg His Ser Thr 1245 Vai Ala ACC GAG i G i CTG TCT AAG AAC ACA GAG GAG AAT TTA TTA TCA TTG AAG 3 911 Thr Glu Cys 1250 Leu Ser Lvs Asn Thr Glu Glu Asn Leu 12 5% Leu Ser Leu Lys AAT AGC TTA AAT GAC TGC AGT AAC CAG GTA ATA i ivj GCA AAG TCT 3959 Asn Ser Leu 1255 Asn Asp Cys Ser 1270 Asn Gin Vai Ile Leu 1275 Ala Lys Ala Ser 1290 CAG 'J.-wn · CAC CTT AGT GAG r* « ·. r·* -ru-\ .-.'-Λ .AAA TGT rgy GCT TTG 4007 Gin Glu Kis Kis Leu Ser Glu 1235 Glu Thr Lys 12 9C Cys ) Sar Ala Ser Leu Phe 12S5 rr·" TCA CAG TGC AGT GAA TTG GAA GAC TTG ACT GCA AAT ACA AAC ACC 4055 Ser Ser Glr. Cys Ser 1300 Glu Leu Glu Asp 17 0 s Leu Thr Ala Asn Thr 13 1C Asn ) Thr CAG GAT CCT ATT GGT .«.1 *. AAA CAA ATG AGG CAT CAG TCT 4103 Gin As? ?ro Phe Leu 1315 Ile Gly Ser Ser 1220 Lys Gin Mfi t Arg 1325 His Gin Ser GAA AGC CAG GGA GTT GGT CTG AGT GAC AAG GAA TTG GTT TCA GAT GAT 4151 Glu Ser Gin 1330 Gly Vai Gly Leu 1335 Ser Asp Lys Glu Leu 1340 Vai 1 Ser Asp Asp GAA GAA AGA GGA ACG GGC TTG GAA GAA AAT AAT CAA GAA GAG CAA AGC 4199 Glu 1345 Glu Arg Gly Thr Gly Leu 1350 Glu Glu Asn Asn 1355 Gin 1 Glu Glu Gin Ser 1360 ATG GAT TCA AAC TTA GGT GAA GCA GCA TCT GGG TGT GAG AGT GAA ACA 4247 Mec Asp Ser Asn Leu 13 65 Gly Glu Ala Ala Ser 1370 Gly 1 Cys Glu Ser Glu 1375 Thr AGC GTC TCT GAA GAC TGC TCA GGG CTA TCC TCT CAG AGT GAC ATT TTA 4295 Ser Vai Ser Glu As ? Cys Ser Gly Leu Ser Ser Gin Ser Asp Ile Leu 1380 1385 1290 140 86 719 ΕΡ 705 903/ΡΤ ACC ACT CAG CAG AGG GAT ACC ATG CAA CAT AAC CTG ATA AAG CTC CAG 4343 Thr Thr Gin Gin Arg Asp Thr Met Gin His Asn Leu Ile Lys Leu Gin 139 5 1400 1405 CAG GAA ATG GCT GAA CTA GAA GCT GTG TTA GAA CAG CAT GGG AGC CAG 4391 Gin Glu Meu Ala Glu Leu Glu Ala Val Leu Glu Gin His Gly Ser Gin 1410 141. 5 1420 CCT TCT AAC AGC TAC CCT TCC ATC ATA AGT GAC TCT GCC CTT GAG 4439 ?ro Ser Asn Ser Tyr Pro Ser Ile Ile Ser Asp Ser Ser Ala Leu Glu 142! 1430 1435 1440 GAC CTG CGA AAT CCA GAA CAA AGC ACA TCA GAA AAA GCA GTA TTA ACT 4487 Asp Leu Arg Asn Pro Glu Gin Ser Thr Ser Glu Lys Ala Val Leu Thr 1445 1450 145: TCA CAG λΑλ AGT AGT GAA TAC CCT ATA AGC CAG AAT CCA GAA GGC CTT 4535 Ser Gin Lys Ser Ser Glu Tyr Pro Ile Ser Gin Asn Pro Glu Gly Leu 14S0 146: 1470 /r> GCT GAC AAG TTT GAG GTG TCT GCA GAT AGT TCT ACC AGT AAA AAT 4533 Ser Ala Asp Lys Phe Glu Vai Ser Ala Asp Ser Ser Thr Ser Lys Asn 147Í 14 5' '495 AAA C-AA CCA GGA GTG GAA AGG TCA TCC CCT TCT AAA TGC CCA TCA TTA 4631 Lys Glu Pro Giy Val Glu Arg Ser Ser Pro Ser Lys Cys Pro Ser Leu 14 9 C ) 149: ; 1500 L*n i C-AT AGG TGG TAC ATG CAC AGT TGC TCT GGG AGT CTT CAG AAT AGA 4679 Asp Asp Tro Tyr Meu His Ser Cys Ser Gly Ser Leu Gin Asn Arg 1505 1510 ISIS 1520 AAC TAC CCA GAG GAG CTC ATT AAG GTT GTT GAT GTG GAG GAG 4727 Asn Τ'/r Pro Ser Gin Glu Glu Leu He Lys Val Val Asp Val Glu Glu 1525 1530 1535 CAA CAG CTG GAA GAG TCT GGG CCA CAC GAT TTG ACG GAA ACA TCT TAC 4775 Gin Gin Leu Glu Glu Ser Gly Pro His Asp Leu Thr Glu Thr Ser Tyr 1540 1«4 5 1550 TTG CCA AGG CAA GAT CTA GAG GGA ACC ccx TAC CTG GAA TCT GGA ATC 4823 Leu Pro Arg Gin Asp Leu Glu Gly Thr Pro Tyr Leu Glu Ser Gly Ile 1555 1560 1565 AGC CTC 7TC TCT GAT GAC CCT GAA TCT GAT CCT TCT GAA GAC AGA GCC 4871 Ser Leu ?he Ser Asp Asp Pro Glu Ser Asp Pro Ser Glu Asp Arg Ala 1570 1575 15 Θ0 CCA GAG TCA GCT CGT GTT GGC AAC ATA CCA TCA ACC TCT GCA TTG 4919 Pro Glu Ser Ala Arg Val Gly Asn Ile Pro Ser Ser Thr Ser Ala Leu 1S35 1590 159S 1500 AAA GTT ccc CAA TTG AAA GTT OCA GAA TCT GCC CAG AGT CCA GCT GCT 4967 Lys Vai Pro Gin Leu Lys Vai Ala Glu Ser Ala Gin Ser Pro Ala Ala 1605 1610 1615 141 86 719 ΕΡ 705 903/ΡΤ GCT CAT ACT ACT GAT ACT GCT TAT AAT GCA ATG GAA GAA AGT GTG 5015 Ala His Thr Thr Asp Thr Ala Gly Tyr Asn Ala Met Glu Glu Ser Val 1620 1525 1630 AGC * r*r* r* ^ rvCjO \jrvlj AAG CCA GAA TTG ACA GCT TCA ACA GAA AGG GTC AAC AAA 5063 Ser Arg Glu Lys Pro Glu Leu Thr Ala Ser Thr Glu Arg Val Asn Lys 1535 1540 1545 AGA ATG TCC ATG GTG GTG TCT GGC CTG ACC CCA GAA GAA ITT ATG CTC 5111 Arg Met Ser MeC Val Val Ser Gly Leu Thr Pro Glu Glu Phe Met Leu 1550 165: s 1660 GTG TAC AAG TTT GCC AGA AAA CAC CAC ATC ACT TTA ACT AAT CTA ATT 5159 Vai Tyr Lys ?he Ala Arg Lys His His Ile Thr Leu Thr Asn Leu lie 1555 16 7( D 1675 1530 ACT GAA GAG ACT ACT CAT GTT GTT ATG AAA ACA GAT GCT GAG TTT G i G 5207 Thr Glu Glu Thr Thr His Vai Val Met Lys Thr Asp Ala Glu Phe Val 1685 1590 1595 TGT GAA CGG ACA CTG AAA TAT TTT CTA GGA ATT GCG GGA GGA * ^ « ΛηΛ TGG 5255 Cys Glu Arg Thr Leu Lys Tyr Phe Leu Gly Ile Ala Gly Gly Lys Trp •7 η λ 1~C' 1710 GTA GTT AGC TAT TTC TGG GTG ACC CAG ATT λΑΑ GAA AGA AAA ATG 5303 Vai Vai Ser Tyr ?he Trp Vai Thr Gin Ser Ile Lys Glu Arg Lys Met 171: ! 1720 1725 > CTG ^ > «τ' r* ΛΛ x onu CAT GAT »p*T**7 GAA GTC AGA GGA GAT GTG i w AAT AGA 3351 Asn Glu His Asp Phe Glu Vai Arç Gly Asp Va 1 Vai Asn Gly Arg 1730 1731 j 174C > AAC CAC CAA GGT CCA AAG CGA GCA AGA GAA TCC CAG GAC AGA AAG ATC 5399 Asn His Gin Gly Pro Lvs Arg Ala Arg Glu Ser Gin Asp Arg Lys lie 1745 1750 1755 1760 TTC AGG GGG CTA GAA ATC TGT TGC TAT GGG CCC TTC ACC AAC ATG CCC 5447 Phe Arg Gly Leu Glu Zls Cys Cys Tyr Gly Pro Phe Thr Asn Met Pro 175 = ; 177C ) 1775 ACA GAT CAA CTG GAA TGG ATG GTA CAG uiu TGT GGT GCT GTG GTG 5495 Thr Asp Gin Leu Glu Trp Met Vai Gin Leu Cys Gly Ala Ser Vai Val 1780 178 = 1790 AAG GAG CTT TCA TCA TTC ACC CTT GGC ACA GGT GTC CAC CCA ATT GTG 5543 Lys Glu Leu Ser Ser Phe Thr Leu Gly Thr Gly val His Pro Ile Val 1795 1800 130S GTT GTG CAG CCA GAT GCC TGG ACA GAG GAC AAT GGC TTC CAT GCA ATT 5591 Vai val Gin ?ro Asp Ala Tm Thr Glu Asp Asn Gly Phe HiS Ala T *t% 1810 1915 ! 1820 CAG ATG TGT GAG GCA CCT GTG ACC CGA GAG TGG GTG TTG GAC 5639 Gly Gin Me c Cys Glu Ala Prc Val Vai Thr Arg Glu Trp Val Leu Asp

(2) INFORMAÇÃO PARA SEQ ID NO: 2: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 1 864 aminoácidos (B) TIPO: aminoácido (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: proteína (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 2:

Ms U Asp Leu Ser .-vU a Arg Vai a: _ u oí u v a— *2_U Asr Val Zle .-vsr. 1 = τ p -2 Ala Ma C-lr. —ys * * a " ΛΛ * Glu Cys ?rc Zle Cys * au (Z" <. leu T Λ lys 30 Cau rro Vai Ser lys Cys Asp Mia Zle ?’r.e Cys Lys Phe Cys Meu 22 40 *t W Leu Lys leu Leu .•vân U«.U Lys lys Gly Pro Ser Cys Pro leu Cys 2 0 33 S0 Lys Asn Asp Z * e -'U lys Aru Ser Leu Glr Glu Ser Thr .Arr Phe Ser 3 5 <·> — ~ 30 /m 1 Leu Vai Glu Glu * an * an lys ZLe Zle Cvs Ala Phe leu .-vsr 35 90 95 'j«. y leu G ^ ' Tyr λ—a .-vsr Ser Tyr Asn Phe •Ala Lys lys Glu Asn 100 115 110 Asn Ser Pro ^ ,, Mis Leu lys Asp SiU Vai Ser He Zle Gin Ser Meu 115 ' 10 125 31 y Tyr Arg .Arr lys -w 3 leu leu Glu Ser Glu Pro Glu Asr 130 115 140 Prc Ser leu •jlr ler Leu Ser Vai Glu leu Ser Asn leu G . y z ISO 155 15 0

86 719 ΕΡ 705 903/ΡΤ 143

Thr Val Arg Thr Leu Arg Thr Lys Gin Arg Ile Gin Pro Gin Lys Thr 165 170 175 Ser V d i 7yr Ire Gru Leu Gly Ser ASO aer ser Glu Asp Val Asn 130 195 190 Lys Ala Thr Tvt Cys Ser Val Gly Asp Gin Glu Leu Leu Gin Ile Thr 195 200 205 Pro Gin Gly Thr Arg Asp Glu Ile Ser Leu Asp Ser Ala Lys Lys Ala 210 215 220 Ala Cys Glu Phe Ser Glu Thr Asp Val Thr Asn Thr Glu His His Gin 225 230 235 240 Pro Ser Asn Asn Asp Leu Asn Thr Thr Glu Lys Arg Al a Ala Glu Arg 245 250 255 His Prc Glu Lys Tyr Gin Gly Ser Ser Val Ser Asn Leu His Val Glu 2S0 2 6 5 2 7 0 Pro Cys G1 v Ti, Asn Thr His Ala Ser Ser Leu Gin His Glu Asn Ser 2 7 5 15 C 2 o c Ser Leu Leu Leu Thr Lys r\Su λΓ CT Met Asn Val Glu Lys Ala Glu Phe 230 2 5 ξ 3 00 Cys Asn Lys Ser Lys Gin Pro Gly Leu Ala Arg Ser Gin His Asn Arg 305 310 315 320 Trp Ala Gly Ser Lys Glu Thr Cys Asn Asp Arg Arg Thr Pro Ser Thr 325 330 335 Glu Lys Lys Val Asp Leu Asn Ala Asp Pro Leu Cys Glu Arg Lys Glu 3 4 0 3 4 5 350 Tro Asn Lys Gin Lys Leu Pro Cys Ser Glu Asn Arg Asd Thr Glu 355 360 355 Asp Val Pro Trp Ile Thr Leu Asn Ser Ser X Í e Gin Lys Val Asn Glu 370 3 7 S 380 Trp Phe Ser Arg Ser Asp Glu Leu Leu Gly Ser .Asp Asp Ser His Asp 385 390 395 400 Gly Glu Ser Glu Ser Asn Ala Lys Val Ala Asp Val Leu Asp Val Leu 405 410 415 Asn Glu Val Asp Glu Tyr Ser Gly Ser Ser Glu Lys Ile Asp Leu Leu 4 2 0 425 430 Ala Ser Asp Pro His Glu Ala Leu Ile Cys Lys Ser Glu Arg Val His 435 440 445 Ser Lys Ser Val Glu Ser Asn IIa Glu Asp Lys Ile Phe Gly Lys Thr 450 •t 2 2 460 144 86 719 ΕΡ 705 903/ΡΤ

Tvr ^ _ r\— ^ Lys Lys Ala Ser Leu Pro Asn Leu Ser His Val Thr Glu Asn 465 470 475 430 Leu Ile Ile Gly Ala Ph° Val Thr Glu Pro Gin Ile Ile Gin Glu Arg 435 490 495 Pro Leu Thr Asn Lys Leu Lys Arg Lys Arg Arg Pro Thr Ser Gly Leu 500 505 510 His pro Glu Asp Phe Ile Lys Lvs Ala Asp Leu Ala Val Gin Lys Thr 515 520 525 Pro Glu Vja r X L Q Asn Gin Gly Thr Asn Gin Thr Glu Gin Asn Gly Gin 530 535 540 Vai Mec Asn Ile Thr Asn Ser Gly His Glu Asn Lys Thr Lys Gly Asp 545 550 555 550 Ser * i a Gin Asn Glu Lys Asn Prc Asn Pro T 1 o Glu Ser Leu Glu Lys 5 5 5 570 575 51- C a * - — e ^h ° Lvs Thr Lvs ·» 1 -i o Glu r r* * T ' ϋ I e Ser Ser He Ser 580 585 590 Mor Glu 7.pu G1 u ler Tl a Vi 3 Asn Ser Lys 5 3 5 600 505 Asn Arg Leu Arg λΓ- Lys Ser Ser Thr Arg His Ile His Ala Leu Glu 510 615 620 Leu Vai Val Ser Arg Asn Leu Ser Pro Pro As n Cys Thr Glu Leu Gin 6 2 5 530 635 540 T L e Asp Ser Cys Ser Ser Ser Glu Glu Ile Lys Lys Lys Lys Tyr Asn 645 550 65 5 Gin Mor Pro Val Arg His Ser Arg Asn Leu Gin Leu Met Glu Gly Lys o 6 0 665 670 Glu Pro Ala Thr Gly Ala Lys Lvs Ser Asn Lys Pro Asn Glu Gin Thr € 7 5 680 685 Ser Lys Arg His Asp Ser ASD Thr Phe Pro Glu Leu Lys Leu Thr Asn 5 90 595 700 Ala Pro Gly Ser Phe Thr Lys Cys Ser Asn Thr Ser Glu Leu Lys Glu 705 710 715 720 Phe Vai Asn Prc Ser Leu Pro Arg Glu Glu Lys Glu Glu Lys Leu Glu 725 730 735 Thr Vai Lys Val Ser Asn Asn AI 3 Glu Asp Pro Lys Asp Leu Met Leu 740 74 S 750 Ser Giy Glu Arg Val Leu Gin Glu Arg Ser Val Glu Ser Ser Ser 7 5 3 750 7 6 5 145 86 719 ΕΡ 705 903/ΡΤ

Ile Ser Leu Vai Pro Gly Thr Asp Tyr Gly Thr Gin Glu Ser Ile Ser 770 775 780 Leu Leu Glu Vai Ser Thr Leu Gly Lys Ala Lys Thr Glu Pro Asn Lys 785 790 795 800 Cys Vai Ser Gin Cys Ala Ala Phe Glu Asn Pro Lys Gly Leu Ile His 805 810 815 Gly Cys Ser Lys Asp Asn Arg Asn Asp Thr Glu Gly Phe Lys Tyr Pro 820 325 930 Leu Gly His Glu Vai Asn His Ser Arg Glu Thr Ser Ile Glu Met Glu 835 840 845 Glu Ser Glu Leu Asp Ala Gin Tyr Leu Gin Asn Thr Phe Lys Vai Ser 850 855 360 Lvs Arg C-ln Ser Phe Ala Pro Ser Asn Pro Gly Asn Ala Glu Glu 8 5 5 870 8 7 5 330 Glu Cys Ala Thr Phe Ser Al a His Ser Gly Ser Leu Lys Lys Gin Ser 3ΞΞ 590 8 9 5 ?ro Lys Vai Thr Phe Glu Cys Glu Gin V s G.u Guu Asn C-ln Gly Lys 900 905 910 Asn Glu Ser Asn Ile Lys Vai Gin Thr Vai Asn Ile -ru — Ala Gly 915 920 92 5 Dha Pro Vai Vai Gly Gin Lys Asp Lys Pro Vai Asp Asn Ala Lys Cys 930 935 940 Ser Ile Lys Gly Gly Ser 1 ver rt.- 3 Phe Cys Leu Ser Ser Gin Phe Arg Gly 945 950 9 5 5 96 G Asn Glu Thr Gly Leu Ile Thr Pro Asn Lys His Gly Leu Leu Gin Asn 965 970 975 Pro -V -r· > >--r -yr «rs Ile Pro Pro Leu Phe Pro Ile Lys Ser Phe Vai Lys T-u _ 980 985 990 Lvs Cys Lys Lys Asn Leu Leu Glu Glu Asn Phe Glu Glu His Ser Me 0 99 5 1000 1005 Ser Pro Glu Arg Glu Mec Gly Asn Glu Asn Ile Pro Ser Thr Vai Ser 1010 1015 1020 Thr Ile Ser Arg Asn Asn Xβ Arg Glu Asn Vai Phe Lys Glu Ala Ser 1025 103 0 1035 1040 Ser Ser Asn Ile Asn Glu Vai Gly Ser Ser Thr Asn Glu Vai Gly Ser 1045 1050 1055

Ser Ile Asn Glu Ile Gly Ser Ser Asp Glu .Asn Ile Gin Ala Glu Leu 1060 1065 1070 146 86 719 ΕΡ 705 903/ΡΤ

Gly Arg Asn Arg Gly Pro Lys Leu 107 5 108 Leu Gin Pro Glu Vai Tyr Lys Gin 1USU 1095 His Pro Glu Ile Lys Lys Gin Glu 1105 1110 Asn Thr Asd ?he Ser Pro Tyr Leu 1125 Mec Gly Ser Ser His 1140 Ala Ser Gin Leu Leu Asp Asp Gly Glu Ile Lys 113: 11S< Asp Ile Lys Glu Ser Ser Ala Vai 1170 1175 "!'·· 7 β > ' ^ a ** r r ^ a r Pro Ser Pro 11S 5 1190 Gly Tyr Arg Arg Gly Ala Lys Lys 120: Ser Ser Glu Asp Glu Glu Leu Pro 1220 Lys Vai Asr. Asn Ile Pro Ser Gin 1235 124 C Thr Glu Cys Leu Ser Lys Asn Thr 1250 1255 Asn Ser Leu Asn Asp Cys Ser Asn 1253 1270 Gin Glu His His Leu Ser Glu Glu 1235 Ser Ser Gin Cys Ser 1300 Glu Leu Glu Gin Asp Pro Phe Leu Ile Gly Ser 1315 1320 Glu Ser Gin Gly Vai Gly Leu Ser 1330 1335 Glu Glu Arg Gly Thr Gly Leu Glu 1345 1350 Mec Asc Ser Asn Leu Glv Glu .Ala

Asn Ala Met Leu Arg Leu Gly Val 0 1085 Ser Leu Pro Gly Ser Asn Cvs Lys 1100 Tyr Glu Glu Vai Vai Gin Thr Val 111 5 1120 Ile Ser Asp Asn Leu Glu Gin Pro 1130 113! Vai Cvs Ser Glu Thr Pro Asp Asp 1145 1150 Glu Asp Thr Ser Phe Ala Glu Asn 0 1155 Phe Ser Lys Ser Vai Gin Lys Gly 1180 Phe Thr His Thr His Leu Ala Gin 1195 1200 Leu Glu Ser Ser Glu Glu Asn Leu 1210 121; Cys Phe Gin His Leu Leu Phe Gly 122: ! 1230 Ser Thr Arg His Ser Thr Val Ala D 1245 Glu Glu Asn Leu Leu Ser Leu Lys 1260 Gin Vai Ile Leu Al a Lys Ala Ser 1275 12 8 0 Thr Lys Cys Ser Al a Ser Leu Phe 1290 1295 Asp Leu Thr Ala Asn Thr Asn Thr 1305 1310 Ser 1 Lys Gin Met Arg 1325 His Gin Ser Asp Lys Glu Leu Vai Ser Asp Asp 1340 Glu Asn Asn Gin Glu Glu Gin Ser 1355 13 5 0 Ala Ser Gly Cys Glu Ser Glu Thr 1370 1375 1353

Ser Vai Ser Glu Asp Cys Ser Gly Leu Ser Ser Gin Ser Asp Ile Leu 1330 1385 1390 Thr Thr Gin Gin Arg Asp Thr Met Gin His Asn Leu Ile Lys Leu Gin 1 T O c i i ΛΛ « Ί W V 14 05 Gin Glu Met Ala Glu Leu Glu Ais. Val Leu Glu Gin His Gly Ser Gin 1410 1415 1420 Pro Ser Asn Ser Tyr Pro Ser Ile Ile Ser Asp Ser Ser Ala Leu Glu 1425 1430 1435 1440 Asp leu Arg Asn Pro Glu Gin Ser Thr Ser Glu Lys Ala Val Leu Thr 1445 1450 1455 Ser Gin Lys Ser Ser Glu Tyr Pro :i5 Ser Gin Asn Pro Glu Gly Leu 14 5 0 1465 1470 Ser Ala Asp Lys Fhe Glu Val Ser Ala Asp Ser Sei* Thr Ser Lys Asn J. "4 / 3 1480 1-485 lys Glu ?rc G1y Vai Glu Arg Ser Ser Pro Ser Lys Cys Pro Ser Leu 1450 145: ^ 3 ‘w Asp Asp Arg Trp Tyr Met His Ser Cys Ser Gly Ser Leu Gin Asn Arg 1505 13 1C 1 131Ξ 1520 Asn .yr Pro Ser Gin Giu Glu Leu lie Lys Val v 3.1 mS T3 v 31 Glu Glu 1525 15 3 0 1535 Gin Gin Leu Glu Glu Ser Gly Pro His Asp Leu Thr Giu Thr Ser Tyr 1340 1545 1550 Leu Pro Arg Gin Asp Leu Glu Gly Thr Pro Tyr Leu Glu Ser Gly Xis 15 5 5 156 0 156 5 Ser Leu Phe Ser Asp Asp Pro Glu Ser Asp Pro Ser Glu Asp Arg Al a 1370 1575 1580 Pro Giu Ser Ala Arg Vai Gly' Asn Γ10 Pro Ser Ser Thr Ser Ala Leu 1333 13=0 1395 1600 Lys Vai Pro Gin Leu Lys Val Ala Glu Ser Ala Gin Ser Pro Ala Al a 1605 1610 1515 Ala His Thr Thr Asp Thr Ala Gly Tyr Asn Ala Met Glu Glu Ser Vai 1520 1625 1630 Ser Arg Giu Lys Pro Glu Leu Thr Al 3 Ser Thr Glu Arg Val Asn Lys 1535 1S40 1645 .Arg Met Ser Met Vai Val Ser Gly Leu Thr Pro Glu Glu Phe Met Leu 1550 1635 1660 Vai Tyr Lys Phe Ala Arg 1j vS His His lie Thr Leu Thr Asn Leu Xis 15 5 3 1570 1675 1630

(2) INFORMAÇÃO PARA SEQ ID NO: 3: CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 20 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens 149 86 719 ΕΡ 705 903/ΡΤ (vii) FONTE IMEDIATA:

(Β) CLONE: s754 A (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 3: CTAGCCTGGG CAACAAACGA (2) INFORMAÇÃO PARA SEQ ID NO: 4: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 20 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (vii) FONTE IMEDIATA:

(B) CLONE: s754 B (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 4: GCAGGAAGCA GGAATGGAAC (2) INFORMAÇÃO PARA SEQ ID NO: 5: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 20 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(B) CLONE: s975 A

86 719 ΕΡ 705 903/ΡΤ 150 (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 5: TAGGAGATGG ATTATTGGTG

20

(2) INFORMAÇÃO PARA SEQ ID NO: 6: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 20 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (vii) FONTE IMEDIATA: (B) CLONE: s975 B (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 6: AGGCAACTTT GCAATGAGTG 20 (2) INFORMAÇÃO PARA SEQ ID NO: 7: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 22 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (vii) FONTE IMEDIATA: (B) CLONE: tdj1474 A (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 7:

CAGAGTGAGA CCTTGTCTCA AA 22

86 719 ΕΡ 705 903/ΡΤ 151

(2) INFORMAÇÃO PARA SEQ ID NO: 8: < L (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 23 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(B) CLONE: tdj1474 B íxi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 8: TTCTGCAAAC ACCTTAAACT CAG 23 (2) INFORMAÇÃO PARA SEQ ID NO: 9: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 20 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA; NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (vii) FONTE IMEDIATA:

(B) CLONE: tdj 1 239 A (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 9: AACCTGGAAG GCAGAGGTTG 20 (2) INFORMAÇÃO PARA SEQ ID NO: 10: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 21 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear

(ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAI : (A) ORGANISMO: Homo sapiens (vii) FONTE IMEDIATA:

(B) CLONE: tdj 1 239 B (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 10: TCTGTACCTG CTAAGCAGTGG 21 (2) INFORMAÇÃO PARA SEQ ID NO: 11: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 11 1 pares de bases (A) TIPO: ácido nucleico (B) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADNc (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (ix) CARACTERÍSTICA PRINCIPAL:

(A) NOME/CHAVE: CDS (B) LOCALIZAÇÃO: 2..1 11 (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 11 :

-3oC 138Ξ 1,390 139S w · — -ΛΛ Girt nJvZ™ VjGA Leu --Ir. Vai Ala Gly 1900 94 153

86 719 ΕΡ 705 903/ΡΤ (2) INFORMAÇÃO PARA SEQ ID NO: 12: (i) CARACTERISTICAS DA SEQUENCIA: (A) COMPRIMENTO: 36 aminoácídos (B) TIPO: aminoácido /n) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: proteína (xi) DESCRICÃO DA SEQUÊNCIA: SEQ ID NO: 12:

Xcâ 1 Leu Leu Cys Cys "D Pro Ser 'Trp Ser Thr 10 Λάα CVS A.sd Hrs Tyr Cys Cys Leu 20 Thr Pro Arg Leu lys Arg ά D Ser Tyr His Leu Gin Vâ 1 Ala 7 ^ Gly ueu (2) INFORMAÇÃO PARA SEQ ID NO: 13: (i) CARACTERISTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 1 534 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRICÃO DA SEQUÊNCIA: SEQ ID NO: 13:

*agag ggcaggcacg* ttacggcaaa ct^-aggtaga ACTC

• ••Λ'— ^ · CATGGGvjvj AGAC · GGvjj •jv^wGCGC.-iG w.»CGAGAGAC ‘«j **-»*- w‘ '-•w ·—ATCCTCTGA TGTACCTTGA .. ·CjTATTC «GAGAGGGTG ^GGTTTCCGTG GCAACGGAAA AGCGCGGGAA TTACAGATAA .VrTAwv*-- — f* -« /-· <« ******** **^^** ** *, ^ — ***,ψ** ******** · gAUAU · · >_«· j ♦ - * *·

TCAGA7AAC ** GGGCCCCTGC GCTGAGGAGnj GCG^CACCCG — .GCTCCGGvj -λτ AGGTAGT ^CGG 3AAAGGGACA GGGGGCCGAA GTGATGCTCIT GGGG7ACTGG 32 * GcunoAu • -av^ITTCCG AAGCTGACAG A7GGGTA JTC TTTGACGGGG 2GTAGGGGCG jAACCT 12 0 130 240 ICO 350 420 430

(2) INFORMAÇÃO PARA SEQ ID NO: 14: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 1924 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens

(2) INFORMAÇÃO PARA SEQ ID NO: 15: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 631 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 15:

iTAG V- - W - O i :rcAcr: . θ'- - -’.Λ. . .

VCACA ver

v^AAC . . . ν-Λ - Λ Λ . . . · AíV\ * ΛΛ Λ» -Λ. · ΟΛΌ V. L. · . .Λ

G >_ . ^ijAUAU X Λ. yA - . .

-ArtAAGTTGG TTGTJ vT AGTTCC2 (T AAkG 11' Ί^Ι' GA GAGAGAf 420 430 540 ···< ·« fm -w » /— jm m, ^ ^ <m, rr^^m-m ^ . . . . jAUALrt AUlU.wCS.. V .UlwJWv^lj (jV. · UVJAU 1 V3U .AUiUVJWAl^A VTXJW.

CT^CAC

rCGAGT TCAGCGACTC >00 86 719 ΕΡ 705 903/ΡΤ 157 (2) INFORMAÇÃO PARA SEQ ID NO: 16: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 481 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla / PN \ \l->/ ΤΛΠΛΙ Λ/M A 1* lUrULUVJI/i. IMICdl TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 16:

AGC

kCATC

GAG

•-wGrtG AG1 -ΛΛυ :cagt -ACCGrtG o •.-Λ«.-

*TCGAGGC (2) INFORMAÇÃO PARA SEQ ID NO: 17: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 522 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens 86 719 ΕΡ 705 903/ΡΤ 158 (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 17: .-íCAGTAAGCC λ-AGGGATGG' -AAGGTCAGG"! • - Wfc - AUA · s. Λ * . sav. . .A-

T AG TTTAGGT

ΓΤΤΑΤ GCAGCATC - 'J'-. „ „ sj w

CACGTsjCGA- .al.....λλ A.uuv- - w - .λ AGGGCAGTTG TGAGATTA7C TTTTCATGGC *Λ* - * °^”“ * * * -^Λ«-Λ. .>« •..'-.auviA AGGAAGTAAA TTAAATTGTT CGGTC-^1™"”''™* v\CwwA Gu*A*rti^A. * . ---vAGGA TGCTAGGT7TG CAGTAGGAAA AAGTAGAAAT TATTTAATAA CATAGCGTTC CTATAAAA22 ATTCATCAGA ΑΑΑΑ7ΊΤΑ7Α AAAGAG7TTT 7AGCACACAG ΓΑΑΑΤΤΑΤΤ7 CCAAAG7TAT -T-_C7Gj-u->A vjTTTTATGGG CATCTGCCTT ATACAGGTAT 7G (2) INFORMAÇÃO PARA SEQ ID NO: 18: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 465 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 18: GGTAGGC77A AAGGAATGAC AAA«AGTTAC TAA^TCACGG ^CAGCACACG GGTG*A3\* ATGTCAATGA TGTATTGATT ATAGAGG * TCTACTGTTG * «**·»·*✓* .......... mm ^ ^ ,ί··«μ ^^ . i · aLa · >J . · «, *. L. . «fUVWWVJ 1 .Lj A*AA.W\L. . . U/\U · <3 *’C -wvrwnW ΛΛ i . ΛΛ« « « Wiuunuw-.Λ UV\UArVftlj ±Λ -•JAU/i* - .AU A WV\L . . ^ « TGAATATCCC AAGA^7G«CA C7CAAG. • ***^* * *--* * * * * «-*«·**** * * /-· 111*11 ^-t * **» * —· UU*A.U/uVi « w%UU/W\U . . ,UW\L*-Vl.

50 120 130 240 300 350 420 50 120 ISO 240 300 350

(i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 513 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 19:

. ^λλΟΤ( TC (2) INFORMAÇÃO PARA SEQ ID NO: 20: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 6769 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NAO 86 719 ΕΡ 705 903/ΡΤ 160

(vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 20:

A.GA7GGAGA -C- · 7CCCAGCAC7 7CGGGAGGC7 GAGGv-AGwaCA cC7GnjC CAAC A7GGTGAAAC C------- GCACG7ACC7 G7AA7CCCAG C7AC7CGGGA GGCGGAGGCA CAAGAA77GC 7TGAACC7AG

www-GvjvjC vj.AUTAGCTT GCACC7G7AA --άλ777GA GGTCAGGAG7 77 GAGAC GAG C7C7AC 7AAAAA7ACA AAAA77AGC7 GGG7G7GG7G w'-·—. .'ju^uv. jau

WV\CA,«<JU \JV-W\L*vJWVU '>JV3 0\- w J -. GAGAC7C7G - *- ΛΛ··^··<·„η JV., >JLJ0V-JV—-V \J 4CUV. . W. . . , 120 130 240 2 00 3 50 420 GGAGGC CAAG GCGvjGT . w^nw i—.* rtwu « - s^-u-wwa SJUV\« W . OVJ - Caru^vL- ^ w —-w * W - Λν-ΛΛΛΛ -- - «aGu-auGC 430 •G7GGCG7 GCGCA.o-aG 7CCCAGC7CC - - Gvj\j^GGs.7 GAGG-GGGAG GA7 -AC77GA 540 . Ia^uAua 'wn^AUvj - - 'sj\- AGTG*%ACCGA 2CAC2CTCCA GCCTGGGCAA = 00 • Λ w-ηΛ Λ * ΛΛΛΛ . ΛΛΛ .AO . .-\vj - - ν. - <·_ ,“V W“VVJ - AV» jGAAGG-“ .Λ Λ.-J. · -ίΌΌ·-. . . A - .Wl . - . . - · - - vj\. - sJVJVJÍJ - -- -.n - - wj . wv. —.·%. juv.-.nuc «AW-U.-juv. Λ . s- w WAVJ Λ\- - w - w.nc.nu -—.-w vjv. <· * -.vi

ί^,Ά. - «U V -ΛΛΛ ----------- - - ΑΛΑΛΑ - A'«- ΛΛΛΛΛ - - ,wC « - -C - -.Λ·»*1·** 4 sj . AU · W-wA -7W. - A<- - n. JUU AGGC7 s^AGGC AG caGaa7 CA «rvw_ * -aAí\Cs_^.G j; . WwU - -J - GC CGAGA7CA CGCCAC7GCA U - - - ACV--. -J *** --'-AAUnUAW'· AAUA, W-Λ- .-¾. - Λ V·—"V -W - .“V — Λ — — w WWvG · GC7G AJCA- - Λ w%-A,.n.A.

„/\,Λ·Λ,Λ.Λ -Λ- -Λ -Λ- Λ- Λ - Λ- Λ -Λ-Λ - Λ-Α-Α-^-^Λ -A-A.A.U.O Λ-Λ-Λ·Λ-Α- ,λαΟλ.λ.λ.λ .aáwj-aa.a, λ-λ·j«ua*a .λ,λ.λ,λα, A7A7A7A7GT AA7A7A7A7G *GA - Α7Α7Α7 ATA7«riCACAC AGAGAGACA7 A7A7A7G7A7 G7G7G7G7AC ACACACACAC ACAnA* -AGC CAGGCA7AG7 7GCACACGC7 7GG7AGACCC AGC7AC7CAG GAGGC7GAGG GAGwAGAATG 7C77GAAC77 AGGA^^wGnjA Gva ..GCAG7G AGC7GAGA77 GCGCCAC7GC AC7CCAGCC7 GGG7GACAGA GCAGGAC7C7 G7ACACCCCC GAAAACAAAA AAAAAAGTTA ..n.wviG.A. '-aGC77ΤΑΑλ aTaTGCT.aTa T7AA7AC7IC •30 340 300 3 S0 1020 1030 --4 C 1200 1250 1320 1330 1440 1300 -560

(2) INFORMAÇÃO PARA SEQ ID NO: 21: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 4249 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dnnls (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 21:

165 86 719 ΕΡ 705 903/ΡΤ 77A7CAAGAA AGCAGATTTG GCAG77CAAA AGAC7CC7GA AA7GA7AAA7 CAGGGAACTA 1140 r;nr:L ιτγ.γ.τ rj rr a nG x vjvj x u\ i UHIjàAíAAAA 1200 CAAAAGG7GA TTCTATTCAG AA7GAGAAAA A7CC7AACCC AA7AGAA7CA C7CGAAAAAG 1250 AATCTGCTTT CAAAACGAAA GC7GAACC7A 7AAGCAGCAG 7A7AAGCAA7 A7GGAAC7CG 1320 AA7TAAATAT CCACAATTCA AAAGCACC7A AAAAGAA7AG GC7GAGGAGG AAG7C77C7A 13 8 0 CCAGGCATAT TCATGCGCTT GAAC7AG7AG 7CAG7AGAAA 7C7AAGCCCA CC7AATTG7A 1440 C7GAÂ7TGCA AA7TGA7AGT 7G77C7AGCA G7GAAGAGA7 AAAGAAAAAA AAG7ACAACC 1500 AAATGCCAGT CAGGCACAGC AGAAACG7AC AAC7CA7GGA AGG7AAAGAA CC7GCAAC7G ISSO GAGCCrtAGAn GAGTAACAAG CCAAA7GAAC AGACAAG7AA AAGACA7GAC AGCGA7AC77 1520 TCCCAGAGC7 GAAGTTAACA ArtTGv-ACGTG G77C7TTTAC 7AAG7G77CA AA7ACCAG7G 15.9 0 AAC77AAAGA A777GTCAA7 CC7AGCC77C CAAGAGAAGA AAAAGAAGAG AAC7AGAAAC 1740 .rvG i i j-uAAG i G 7C7AA7AATG C7GAAGACCC CAAAGATC7C ATGTTAAGiG GAGAAAGGGT 1900 777GCAAAC7 GAAAGATCTG 7AGAC-AG7AG CAG7A777CA T7GG7ACC7G G7AC7GA77A 1950 i GGCj-iC i CAG GAAAG7A7C7 CG77AC7GGA AG77AGCAC7 CTAGGGAAGG CAAj-LAACriGA 1920 ACCAAA7AAA 7G7G7GAG7C AGTGTGCAGC A777GAAAAC CCCAAGGGAC 7AA77CA7GG 1990 77G77CCAAA GA7AA7AGAA ATGACACAGA AGGCTTi AAG TATCCnTTGG GACATGAAGT 2040 TAACCACAG7 CGGGAAACAA G v—A i. λΟλλ/αΧ GGAAGAAAGi GAACT7GA7G C7CAG7A77T 2100 GCAGAATACA 77CAAGG777 CAAAGCGCCA G7CA777GC7 CCG7777CAA A7CCAGGAAA 2150 7GCAGAAGAG GAA7G7GCAA CA77C7C7GC CCAC7C7GGG 7CC77AAAGA AACAAAG7CC 2220 AAAAG7CACT 777GAA7G7G AACAAAAGGA AGAAAATCAA GGAAAGAA7G AG7C7AA7A7 2290- CAAGCG7G7A CAGACAG77A A7A7CAC7GC AGGC777CC7 G7GG77GG7C AGAAAGA7AA 2340 GCCAGT7GA7 AA7GCCAAA7 G7AG7A7CAA AGGAGGC7C7 AGG7T77G7C 7A7CA7C7CA 2400 GTTCAGAGGC AACGAAAC7G GAC7CA77AC 7CCAAA7AAA CA7GGAC7T7 7ACAAAACCC 2450 A7ATCGTA7A CCACCAC777 77CCCA7CAA G7CA777G77 AAAAC7AAA7 G7AAGAAAAA 2520 7CTGC7AGAG GAAAAC777G AGGAACA77C AA7G7CACC7 GAAAGAGAAA 7GGGAAA7GA 2580 GAACATTCCA AG7ACAG7GA GCACAA77AG CCG7AA7AAC A77AGAGAAA A7G77777AA 2540 AGAAGCCAGC 7CAAGCAA7A 77AA7GAAG7 AGG77CCAG7 AC7AA7GAAG 7GGGC7CCAG 2700 7AT7AATGAA A7AGG7TCCA G7GA7GAAAA CA77CAAGCA GAAC7AGG7A GAi^ACAGAGG 2750 166 86 719 ΕΡ 705 903/ΡΤ GCCAAAATTG AATGCTATGC TTAGATTAGG GGTTTTGCAA CCTGAGGTCT ATAAACAAAG 2320 TCTTCCTGGA AGTAATTGTA AGCATCCTGA AATAAAAAAG CAAGAATATG AAGAAGTAGT 2830 tCAGACTGTT AATACAGATT TCTCTCCATA TC7GATTTCA GATAACTTAG AACAGCCTAT 2940 GGGAAGTAGT CATGCATC7C AGGTTTGTTC TGAGACACC7 GATGACCTGT TAGATGATGG 3000 TGAAATAAAG GAAGATACTA GTTTTGCTGA AAATGACATT AAGGAAAGTT CTGCTGTTTT 3060 TAGCAAAAGC GTCCAGAAAG GAGAGCTTAG CAGGAG7CC7 AGCCC7TTCA CCCATACACA 3120 TT7GGCTCAG GGTTACCGAA GAGGGGCCAA GAAATTAGAG TCCTCAGAAG AGAAC77A7C 3190 TAG7GAGGAT GAAGAGCTTC CCTGCTTCCA ACAC77G77A TTTGGTAAAG TAAACAA7AT 3240 ACCTTCTCAG TCTACTAGGC A7AGCACCG7 TGCTACCGAG TGTCTGTCTA AGAACACAGA 3300 GGAGAAT77A TTATCATTGA AG AAT AG C TT AAATGACTGC AGTAACCAGG ίΑΛ^ηΙ .'ocv. 3350 AAAGGCATC7 CAGGAACATC ACCTTAGTGA GGAAACAAAA TGTTCTGCTA GC77GT777C 3420 TTCACAGTGC AGTGAATTGG AAGAC77GAC TGCAAATACA AACACCCAGG 3480 GATTGGT7C7 7CCAAACAAA TGAGGCATCA GTC7GAAAGC CAGGGAGT7G GTC7GAG7GA 3540 CAAGGAA77G GTTTCAGATG ^ ^ ^ λ 1 unrtCrtrtftlj AGGAACGGGC 77GGAAGAAA ATAA i CAriG A 3600 AG AG CAAAG C ATGGATTCAA rtL - i:rti i GGAACCAGvj T7TTTGTGTT TGCCCCAG7C 3660 TAT7TATAGA AGTGAGCTAA ATGTTTATGC liiiuuoynb CACATTTT AC AAATTTCGAA 3720 GT AT AGTT AA AGGAACTGCT TCTTAAACrr GAAACATGTT CC7CC7AAGG TGcrrrrcAT 3730 AGAAAAAAGT CCTTCACACA GCTAGGACGT CATCT7TGAC «T·/^^ ·» /*·# mm I ΟΛΛ i oAviv- A TTAACA7C77 3340 AATTACTGGT GGACTTACTT CTGGTTTCAT TTTATAAAGC AAATCCCGGT GTCCCAAAGC 3900 AAGGAATTTA ATCATTTTGT GTGACATGAA AGTAAATCGA G7CC7GCCAA TGAGAAGAAA 3960 AAGACACAGC AAG77GCAGC GTTTATAGTC tgcttttaca TCTGAACCTC TGTTTTTGTT 4020 ATTTAAGGTG AAGCAGCATC TGGGTGTGAG AGTGAAACAA GCGTCTCTGA AGAC7GC7CA 4080 GGGCTATCCT CTCAGAGTGA CATTTTAACC ACTCAGGTAA AAAGCGTGTG TGTG7GTGCA 4140 CATGCGTGTG TGTGGTGTCG 77TGCAT7CA GTAGTA7GTA TCCCACATTC TTAGGTTTGC 4200 TGACATCATC TCTTTGAATT AATGGCACAA TTGTTTG7GG TTCATTGTC 4249 86 719 ΕΡ 705 903/ΡΤ 167 (2) INFORMAÇÃO PARA SEQ ID NO: 22: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO- 71 Π nsroc U (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NAO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 22: ΙΛ :tc .-W\ - !7AGG TG-- .gt; ..wU.Λ

(2) INFORMAÇÃO PARA SEQ ID NO: 23: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 473 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear

86 719 ΕΡ 705 903/ΡΤ 168 (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 23: Ό * · θ'*

.GA

AG

AC lG' c ZTTCACAí s - AG'

ή C

7TTCTGC 300

3 o C G. G .G. . ^ · Λ

(2) INFORMAÇÃO PARA SEQ ID NO: 24: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 421 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 24:

169 86 719 ΕΡ 705 903/ΡΤ

GGCGTGATCT CGlTCTwvC

ITCCCAGGTT w-\G—AAT7 T TCCTGCCT' S 0 gcct: 'TAGCTGAGA7 TAC--vG^jv-.iGv - - * (2) INFORMAÇÃO PARA SEQ ID NO: 25: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 997 pares de bases (B) TIPO: ácido nucleico ÍC) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 25:

13C 3 C 0 3 SC 420 480 24 0 SOO SõO 720 730 340

(2) INFORMAÇÃO PARA SEQ ID NO: 26: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 639 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 26:

171 86 719 ΕΡ 705 903/ΡΤ (2) INFORMAÇÃO PARA SEQ ID NO: 27: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 922 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 27:

(i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 867 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 28:

(2) INFORMAÇÃO PARA SEQ ID NO: 29: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 561 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dnnla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 29:

Λ - · V 3AGCGC7773 3GATCATCAA 3AATTAT3CA 3GCC7GCACT 3TGGC73ATA IC7ATAA7' (2) INFORMAÇÃO PARA SEQ ID NO: 30: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 567 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO 86 719 ΕΡ 705 903/ΡΤ 174 (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 30:

-J * - «λ1- * ΟλλΟ . ·—-"J'— — - .-vG * w · _ *_AA, AGGGGGAGGA GAGCCAC7GC GCCTGGCC7G AATGCCTAAA A7A7GACG7G 7C7GC7CCAC ^-T^^TCTGA 7CC7GA7GGG 77G7G777GG 777C777CAG CA7GA77" 3Λ _ - Λ\—.

AAG7CAGAGG ^GA-G.GGaC A/^TGvjA^GAA .*\CwACGArf-iGvj -CCAAAGCGA caC ΛΑΛ«νί;ΛΛΛ« <—TW-vCj · .CrtUl '·*» s TG7A77CCAC 7CCCC777GC AGAGA' GGvjvjG CGv— -» .,CA2TT *GTAAGAC77 A* «^iCn.^-tCA TACACAG7GC 7AGATACTTT CACACAGGIT u1TTT77TCAC 7C77CCA7CC AA7AAG7A77 G7C7C7AC77 TA7GAATGA- A^AACGAAGA GA7TTAGAGA ΛΛ»*- -—"W-Λ - j\ JV- - Ό * - .-v\

130 240 3 G 0 350 420 430 54 C (2) INFORMAÇÃO PARA SEQ ID NO: 31: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 633 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 31: * * w . .C\J« JALtfWV Λυ· JAUA4\JU .W^Uiw·.· .>J ΑΑ.^ηυννίϋ

GaG· .'j\WM,*\Gvj »>,w-u^G^ACA TA*Gx-aC««G .^^G^w^GA7C7 TC JV. . · SJ i. s % ** r~> * .ΛΛ* OW _ « sj » Λ S 0 AG7w%G « G « - C 12Q <»#··<»» * /»**1 » * j « vjaaLauaa 130

TTGG ACT

719 705 903/ΡΤ 175

240 TA7AACTAGA 'TTCw - . 'rrrGAAAGr ctgttttttg aataaaagcc aatattcttt A7C77CAGGG GGCTAGAAa- C7Gí GG\jCCC77CA ccaacatgcc cacaggtaag AGCC7GGGAG .nACGCCAG^.G . .CwiGwvC·* AG s-.. - - «sj;u 77ACA7AG7G GAGTA7TAT.?

7AC7T7G7CC --G wTTCTCArt GnGCA.GAnG cs - GG7TAA7A G77 AGGA 7 ΓC AG - A - G77A7 G7GT7CAGA7 GGCG7TGAGC 7GC7G77AG7 GCC (2) INFORMACAO PARA SEQ ID NO: 32: (i) CARACTERISTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 470 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 32: 300 3S0 420 430 Ξ40 500 53 3

.“V wv

(2) INFORMAÇÃO PARA SEQ ID NO: 33: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 517 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dnnla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 33:

Λ*Λ AC

.G (2) INFORMAÇÃO PARA SEQ ID NO: 34: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 434 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: dupla (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens

86 719 ΕΡ 705 903/ΡΤ 177 (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 34:

CAGT.-iATCCT NAGAACTCA7 ACGACCGGGC CCCTGGAGTC 3NTG27TTNGA GCCTAGTCC2T GGAGAATGAA TTGACACTAA TCTCTGCTTG TGTTCTCTGT CTCGAGCAAT TGGGCAGATG TGTGAGGCAC 'wTGTGGGVjAC CCGAGAGGGG GTGTTGGACA GTGTAGCACT CTACCAGTGC CAGGAGCTGvj ACACCTACCT GATACGCGAG ATCCCCCACA GCGACTACGG ACTGCAGCGA GCCAuAGvs-λ wiGj-í.Gv»w-%CA GwACGCGAAG aatgagctta caaagtggcc tttggaggcg '..'jovjaGv..!» w.«.*\-λ0·../tC-G*CCGG js-GACGAA^. .^GGTGATG.λ ww-'—•^G'—’--'•u .wsnGwftC · . * c\:v_ .λ.ο\- AaGGvGCCGG TAAAGA'""'"jT cggcgtga^g T—TC--CTT jG aaat (2) INFORMAÇÃO PARA SEQ ID NO: 35: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 35: 30 __ 13C 240 300

GATAAATTAA AACTGCGACT GCGCGGCGTG (2) INFORMAÇÃO PARA SEQ ID NO: 36: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens

30 86 719 ΕΡ 705 903/ΡΤ 178

(xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 36: GTAGTAGAGT CCCGGGAAAG GGACAGGGGG (2) INFORMAÇÃO PARA SFQ in Mn; 21\ (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 37: ATATATATAT GTTTTTCTAA TGTGTTAAAG (2) INFORMAÇÃO PARA SEQ ID NO: 38: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 38: GTAAGTCAGC ACAAGAGTGT ATTAATTTGG 30 (2) INFORMAÇÃO PARA SEQ ID NO: 39: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear

86 719 ΕΡ 705 903/ΡΤ 179 (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 39: 30

TTTCTTTTTC TCCCCCCCCT ACCCTGCTAG (2) INFORMAÇÃO PARA SEQ ID NO: 40: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(iv) ANTI-SENTIDO: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 40: 30

GTAAGTTTGA ATGTGTTATG TGGCTCCAATT (2) INFORMAÇÃO PARA SEQ ID NO: 41: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 41:

AGCTACTTTT TTTTTTTTTT TTTGAGACAG 30

(2) INFORMAÇÃO PARA SEQ ID NO: 42: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 42: GTAAGTGCAC ACCACCATAT CCAGCTAAAT 30 (2) INFORMAÇÃO PARA SEQ ID NO: 43: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 43: AATTGTTCTT TCTTTCTTTA TAATTTATAG 30 (2) INFORMAÇÃO PARA SEQ ID NO: 44: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

(A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 44: GTATATAATT TGGTAATGAT GCTAGGTTGP (2) INFORMAÇÃO PARA SEQ ID NO: 45: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 45: GAGTGTGTTT CTCAAACAAT TTAATTTCAG 30 (2) INFORMAÇÃO PARA SEQ ID NO: 46: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 46: GTAAGTGTTG AATATCCCAA GAATGACACT 30 (2) INFORMAÇÃO PARA SEQ ID NO: 47: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear

86 719 ΕΡ 705 903/ΡΤ 182 (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homn sani&nc (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 47: AAACATAATG TTTTCCCTTG TATTTTACAG

30

(2) INFORMAÇÃO PARA SEQ ID NO: 48: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 48: GTAAAACCAT TTGTTTTCTT CTTCTTCTTC 30

(2) INFORMAÇÃO PARA SEQ ID NO: 49: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 49: TGCTTGACTG TTCTTTACCA TACTGTTTAG 30

(i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: aminoácido (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 50: GTAAGGGTCT CAGGTTTTTT AAGTATTTAA 30 (2) INFORMAÇÃO PARA SEQ ID NO: 51: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 51: TGATTTATTT TTTGGGGGGA AATTTTTTAG 30 (2) INFORMAÇÃO PARA SEQ ID NO: 52: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL:

(xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 52: GTGAGTCAAA GAGAACCTTT GTCTATGAAG 30 (2) INFORMAÇÃO PARA SEQ ID NO: 53: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 53: TCTTATTAGG ACTCTGTCTT TTCCCTATAG 30 (2) INFORMAÇÃO PARA SEQ ID NO: 54: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 54: GTAATGGCAA AGTTTGCCAA CTTAACAGGC 30 (2) INFORMAÇÃO PARA SEQ ID NO: 55: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear

185 86 719 ΕΡ 705 903/ΡΤ (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 55 GAGTACCTTG TTATTTTTGT ATATTTTCAG (2) INFORMAÇÃO PARA SEQ ID NO: 56: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 56 GTATTGGAAC CAGGTTTTTG TGTTTGCCCC (2) INFORMAÇÃO PARA SEQ ID NO: 57: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 57

ACATCTGAAC CTCTGTTTTT GTTATTTAAG

86 719 ΕΡ 705 903/ΡΤ 186 (2) INFORMAÇÃO PARA SEQ ID NO: 58: « (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linpar (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 58: AGGTAAAAAG CGTGTGTGTG TGTGCACATG 30 (2) INFORMAÇÃO PARA SEQ ID NO: 59: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 59: CATTTTCTTG GTACCATTTA TCGTTTTTGA 30 (2) INFORMAÇÃO PARA SEQ ID NO: 60: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: aminoácido (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL:

86 719 ΕΡ 705 903/ΡΤ 187 (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 60: GTGTGTATTG TTGGCCAAAC ACTGATATCT 30 U) INFORMAÇÃO PARA SEQ ID NO: 61: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 61: AGTAGATTTG TTTTCTCATT CCATTTAAAG 30 (2) INFORMAÇÃO PARA SEQ ID NO: 62: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 62: GTAAGAAACA TCAATGTAAA GATGCTGTGG 30 (2) INFORMAÇÃO PARA SEQ ID NO: 63: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear

86 719 ΕΡ 705 903/ΡΤ 188 (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo saninn.c (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 63: 30

ATGGTTTTCT CCTTCCATTT ATCTTTCTAG (2) INFORMAÇÃO PARA SEQ ID NO: 64: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 64: GTAATATTTC ATCTGCTGTA TTGGAACAAA 30 (2) INFORMAÇÃO PARA SEQ ID NO: 65: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 65: 30

TGTAAATTAA ACTTCTCCCA TTCCTTTCAG

86 719 ΕΡ 705 903/ΡΤ 189

(2) INFORMAÇÃO PARA SEQ ID NO: 66: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 66: GTGAGTGTAT CCATATGTAT CTCCCTAATG 30 (2) INFORMAÇÃO PARA SEQ ID NO: 67: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 67: ATGATAATGG AATATTTGAT TTAATTTCAG 30 (2) INFORMAÇÃO PARA SEQ ID NO: 68: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO

190 86 719 ΕΡ 705 903/ΡΤ (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 68:

GTATACCAAG AACCTTTACA GAATACCTTG (2) INFORMAÇÃO PARA SEQ ID NO: 69: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 69:

CTAATCCTTT GAGTGTTTTT CATTCTGCAG (2) INFORMAÇÃO PARA SEQ ID NO: 70: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 70:

GTAAGTATAA TACTATTTCT CCCCTCCTCC (2) INFORMAÇÃO PARA SEQ ID NO: 71: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear

86 719 ΕΡ 705 903/ΡΤ 191 (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sanionc (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 71: TGTAACCTGT CTTTTCTATG ATCTCTTTAG

30

(2) INFORMAÇÃO PARA SEQ ID NO: 72: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 72: GTAAGTACTT GATGTTACAA ACTAACCAGA 30

(2) INFORMAÇÃO PARA SEQ ID NO: 73: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 73: TCCTGATGGG TTGTGTTTGG TTTCTTTCAG 30

86 719 ΕΡ 705 903/ΡΤ 192 (2) INFORMAÇÃO PARA SEQ ID NO: 74: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO; 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 74: GTAAAGCTCC CTCCCTCAAG TTGACAAAAA 30 (2) INFORMAÇÃO PARA SEQ ID NO: 75: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 75: CTGTCCCTCT CTCTTCCTCT CTTCTTCCAG 30 (2) INFORMAÇÃO PARA SEQ ID NO: 76: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico) (iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL:

(xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO.: 76: GTAAGAGCCT GGGAGAACCC CAGAGTTCCA 30 (2) INFORMAÇÃO PARA SEQ ID NO: 77: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(íii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 77: AGTGATTTTA CATGTAAATG TCCATTTTAG 30 (2) INFORMAÇÃO PARA SEQ ID NO: 78: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 78: GTAAGTATTG GGTGCCCTGT CAGTGTGGGA 30 (2) INFORMAÇÃO PARA SEQ ID NO: 79: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear

(ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A; CmUANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 79: TTGAATGCTC TTTCCTTCCT GGGGATCCAG 30 (2) INFORMAÇÃO PARA SEQ ID NO: 80: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 80: GTAAGGTGCC TCGCATGTAC CTGTGCTATT 30 (2) INFORMAÇÃO PARA SEQ ID NO: 81: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 30 pares de bases (B) TIPO: ácido nucleico (C) CADEIA: simples (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: ADN (genómico)

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 81: 30

CTAATCTCTG CTTGTGTTCT CTGTCTCCAG

86 719 ΕΡ 705 903/ΡΤ 195 (2) INFORMAÇÃO PARA SEQ ID NO: 82: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 42 aminoácidos (B) TIPO: aminoácido (C) CADEIA: (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: péptido

(iii) HIPOTÉTICA: NÃO (vi) FONTE ORIGINAL: (A) ORGANISMO: Homo sapiens (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 82:

Cys aro i j_e Cys Leu 0 Glu leu lie Asp His lie Phe 20 Cys Lys Phe Cys Lys Giy Pro 0 D Ser Gin C v s Pro Leu 40 (2) INFORMAÇÃO PARA SEQ ID NO: 83: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 45 aminoácidos (B) TIPO: aminoácido (C) CADEIA: (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: péptido

(iii) HIPOTÉTICA: NÃO (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 83:

Lys Glu Pro Vai Ser Thr Lys Cvs 10 15 Mee leu lys Leu Leu Asn Gin Lvs 25 30 Cys Lys

196 86 719 ΕΡ 705 903/ΡΤ (2) INFORMAÇÃO PARA SEQ ID NO: 84: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 41 aminoácidos (B) TIPO: aminoácido (C) CADEIA: (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: péptido

(iii) HIPOTÉTICA: NÃO (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 84:

CvS ?ro lie Cys leu Ase lie t Leu Lys Asr. “ Thr Mec Thr Thr Lys 15 r*. . D leu His Arg 20 Cys Ser Asp Cys Ile o - Vai Thr Ala Leu Ar? Ser --Ly Asn lys Glu Cys Prc Thr Cys 40 Arg (2) INFORMAÇÃO PARA SEQ ID NO: 85: (i) CARACTERÍSTICAS DA SEQUÊNCIA: (A) COMPRIMENTO: 42 aminoácidos (B) TIPO: aminoácido (C) CADEIA: (D) TOPOLOGIA: linear (ii) TIPO DE MOLÉCULA: péptido

(iii) HIPOTÉTICA: NÃO (xi) DESCRIÇÃO DA SEQUÊNCIA: SEQ ID NO: 85:

Cys ?ro V α 1 Cys Leu Gin Vvr Phe Ala Glu ?ro Met Met Leu Gly lis Asn Ile 20 Cys V S Ala Cys Leu A.la Arg Cys Trp G_y 25 2C Cvs Thr Asn C -J Vai Ser Cvs ?ro Gin Cys Arg 40 Lisboa, 16. AGa £001

Por MYRIAD GENETICS, INC., CENTRE DE RECHERCHE DU CHUL e CÂNCER INSTITUTE - O AGENTE OFICIAL -

fng^NTÓNIO JOÂO DA CUNHA FERREIRA Ag. Of. Pr. Ind. Rua das Flores, 74-4.° 1200-195 LISBOA

Claims

86 719 ΕΡ 705 903/ΡΤ 1/8 REIVINDICAÇÕES 120-5708 mutações: 1. Ácido nucieico isolado compreendendo os nucleótidos de SEQ ID NO:1 possuindo uma ou mais das seguintes I 85 ins A - ter 40 185 del AG - ter 39 Cys 64 Arg 926 ins 10 - ter 289 Vai 271 Met II 28 ins A - te^345 1294 del 40 - ter 396 1499 ins A - ter 479 codão 482 del 4 - ter 2080 ins A - ter 672 Gin 667 His 2293 del G - ter 735 2509 del AA - ter 799 Thr 826 Lys 2596 del C - ter 845 codão 852 del í - ter 891 Tyr 856 His 3121 del A - ter 1023 Met 1008 lie 31 66 ins 5 - ter 1025 3447 del 4 - ter 11 1 5 3449 del 4 - ter 111 5 3450 del 4 - ter 1115 Pro 11 50 Ser 3745 del T - ter 1209 Glu 1214 ter Glu 1219 Asp Arg 1 347 Gly 4184 del 4 - ter 1364 Arg 1443 ter 4873 del CA - ter 1620 Met 1628 Vai 86 719 ΕΡ 705 903/ΡΤ 2/8 5085 de! 19 - ter 1670 Thr 1852 Ser ou um seu complemento.
2. Ácido nucleico isolado compreendendo a sequência nucleotídica apresentada na Figura 10 e possuindo delecionada a base 4223A ou um seu complemento.
3. Sonda de ácido nucleico em que a sequência nucleotídica é uma porção de uma sequência de ácido nucleico de acordo com a reivindicação 1 ou 2, em que a referida sequência nucleotídica contém uma das mutações definidas na reivindicação 1 ou 2.
4/8 86 719 ΕΡ 705 903/ΡΤ numa amostra de tecido do referido sujeito em comparação com a sequência nucleotídica apresentada em SEQ ID NO:1 ou uma sua variante alélica do tipo selvagem, indicando a referida alteração uma predisposição para os referidos cancros e sendo seleccionada de entre as seguintes mutações: 185 ins A - ter 40 185 del AG - ter 39 Cys 64 Arg 926 ins 10 - ter 289 Vai 271 Met 1128 ins A - ter 345 1 294 del 40 - ter 396 1499 ins A - ter 479 codão 482 del 4 - ter 2080 ins A - ter 672 Gin 667 His 2293 del G - ter 735 2509 del AA - ter 799 Thr 826 Lys 2596 del C - ter 845 codão 852 del 1 - ter 891 Tyr 856 His 3121 del A - ter 1023 Met 1008 lie 31 66 ins 5 - ter 1025 3447 del 4 - ter 1T1 5 3449 del 4 - ter 1 115 3450 del 4 - ter 111 5 Pro 1150 Ser 3745 del T - ter 1209 Glu 1214 ter Glu 1219 Asp Arg 1347 Gly 4184 del 4 - ter 1364 Arg 1443 ter 4873 del CA - ter 1620 Met 1628 Vai

86 719 ΕΡ 705 903/ΡΤ 5/8 5085 del 19- ter 1670 Thr 1852 Ser ou (b) se existe uma alteração da linha germinativa na sequência genómica do intrãc S do gene BRCA1 numa amostra de tecido do referido sujeito em comparação com a sequência nucleotídica apresentada na Figura 10 ou uma sua variante alélica do tipo selvagem, indicando a referida alteração uma predisposição para os referidos cancros e sendo a mutação 4223 del A.

4. Vector de clonagem replicativo que compreende um ácido nucleico isolado de acordo com qualquer uma das reivindicações 1 a 3 e um replicão operativo numa célula hospedeira para o referido vector.
5. Vector de expressão que compreende um ácido nucleico isolado de acordo com qualquer uma das reivindicações 1 a 3 em que a sequência de codificação para o polipéptido de BRCA1 mutante está operativamente ligado a uma sequência promotora capaz de dirigir a expressão da referida sequência de codificação em células hospedeiras para o referido vector.
6. Células hospedeiras transformadas com um vector de acordo com a reivindicação 4 ou a reivindicação 5.
7. Método para a produção de um polipéptido de BRCA1 mutante em comparação com o polipéptido de BRCA1 possuindo a sequência de aminoácidos apresentada em SEQ ID NO:2 que compreende (i) a cultura de células hospedeiras de acordo com a reivindicação 6 contendo um vector de expressão que codifica o referido polipéptido, em condições adequadas para a produção do referido polipéptido e (ii) a recuperação do referido polipéptido.
8/8 amostra e é determinada a hibridação das sequências amplificadas com uma ou mais sondas de ácido nucleico as quais compreendem uma sequência do gene BRCA1 de tipo selvagem ou uma sequência de um gene BRCA1 mutante tal como definido na reivindicação 16.

8. Método de acordo com a reivindicação 7 que compreende ainda a marcação do polipéptido recuperado. 86 719 ΕΡ 705 903/ΡΤ 3/8
9. Preparação de um polipéptido substancialmente isento de outras proteínas, sendo o referido polipéptido um polipéptido de BRCA1 mutante em comparação com o polipéptido de BRCA1 possuindo a sequência de aminoácidos apresentada em SEQ ID N0:2 que é obtenível por expressão de um ácido nuclcico de aouiuu com a reivindicação 1.
10. Preparação de um polipéptido substancialmente isento de outras proteínas, sendo o referido polipéptido um polipéptido de BRCA1 mutante em comparação com o polipéptido de BRCA1 possuindo a sequência de aminoácidos apresentada em SEQ ID NO:2, que é obtenível por expressão de um ácido nucleico de acordo com a reivindicação 2.
11. Preparação de um polipéptido substancialmente isento de outras proteínas, sendo o referido polipéptido um fragmento antigénico de um polipéptido tal como definido na reivindicação 9 ou 10, contendo o referido fragmento antigénico uma mutação tal como definida na reivindicação 1 ou na reivindicação 2, sendo o referido fragmento antigénico capaz de criar uma resposta imunitária a um polipéptido de BRCA1 mutante de acordo com a reivindicação 9 ou 10.
12. Preparação de acordo com qualquer uma das reivindicações 9 a 11 em que o referido polipéptido está marcado.
13. Proteína de fusão que compreende o polipéptido tal como definido em qualquer uma das reivindicações 9 a 11.
14. Utilização de um polipéptido tal como definido em qualquer uma das reivindicações 9 a 11 e 13, como imunogénio para a produção de anticorpos.
15. Utilização de acordo com a reivindicação 14 em que um ou mais anticorpos produzidos são subsequentemente marcados ou ligados a um suporte sólido.
16. Método para diagnóstico de uma predisposição para cancro da mama e do ovário num sujeito humano que compreende a determinação de (a) se existe uma alteração da linha germinativa na sequência do gene BRCA1
17. Método para diagnóstico de uma lesão na mama ou no ovário num sujeito humano devida a neoplasia associada ao locus do gene BRCA1, que compreende a determinação de (a) se existe uma mutação na sequência do gene BRCA1 numa amostra da referida lesão em comparação com a sequência nucleotídica apresentada em SEQ ID NO:1 ou uma sua variante alélica do tipo selvagem, sendo a referida mutação seleccionada de entre as seguintes mutações: 185 ins A - ter 40 185 del AG - ter 39 Cys 64 Arg 926 ins 10 - ter 289 Vai 271 Met 11 28 ins A - ter 345 1294 del 40 - ter 396 1 499 ins A - ter 479 codão 482 del 4 - ter 2080 ins A - ter 672 Gin 667 His 2293 del G - ter 735 2509 del AA - ter 799 Thr 826 Lys 2596 del C - ter 845 codão 852 dei 1 - ter 891 Tyr 856 His 3121 del A - ter 1023 Met 1008 lie 3166 ins 5 - ter 1025 86 719 ΕΡ 705 903/ΡΤ 6/8 3447 del 4 - ter 111 5 3449 del 4 - ter 111 5 3450 del 4 - ter 111 5 Pro 11 50 Ser 3745 uei 7 - ter i 20y Glu 1 214 ter Glu 1 21 9 Asp Arg 1347 Gly 4184 del 4 - ter 1364 Arg 1443 ter 4873 del CA - ter 1620 Met 1628 Vai 5085 del 19 - ter 1670 Thr 1852 Ser ou (b) se existe uma mutação na sequência do gene BRCA1 numa amostra da referida lesão em comparação com a sequência nucleotídica apresentada na Figura 10 ou uma sua variante alélica do tipo selvagem, sendo a referida mutação 4223 del A.
18. Método de acordo com a reivindicação 16 ou a reivindicação 17 que compreende a análise do ARNm ou da proteína da referida amostra para determinar se está presente um produto de expressão indicativo da expressão de um alelo de BRCA1 mutante.
19. Método de acordo com a reivindicação 18 em que é investigado o ARNm codificado pelo gene BRCA1 na referida amostra.
20. Método de acordo com a reivindicação 19 em que o ARNm da referida amostra é colocado em contacto com uma sonda oligonucleotídica do gene BRCA1 sob condições adequadas para hibridação da referida sonda com um ARN correspondente ao referido gene BRCA1 e é determinada a hibridação da referida sonda.
21. Método de acordo com a reivindicação 1 6 ou a reivindicação 17, em que uma sonda oligonucleotídica do gene BRCA1 é colocada em contacto com ADN genómico isolado da referida amostra sob condições adequadas para 86 719 ΕΡ 705 903/ΡΤ 7/8 hibridação da referida sonda com o referido gene e é determinada a hibridação da referida sonda.
22. Método de acordo com a reivindicação 20 ou a reivindicação 21 sm que a reícriua sunda é uma sonda específica do alelo para um alelo de BRCA1 mutante tal como definido na reivindicação 16.
23. Método de acordo com a reivindicação 16 ou a reivindicação 17 que compreende a determinação se existe uma mutação no gene BRCA1 na referida amostra por observação de desvios na mobilidade electroforética de ADN de cadeia simples da referida amostra em géis de poliacrilamida não desnaturantes.
24. Método de acordo com a reivindicação 16 ou a reivindicação 1 7 em que todo ou parte do gene BRCA1 na referida amostra é amplificado e é determinada a sequência da referida sequência amplificada.
25. Método de acordo com a reivindicação 1 6 ou a reivindicação 17 em que são empregues iniciadores oligonucleotídicos que são específicos para um alelo de BRCA1 mutante tal como definido na reivindicação 16 para determinar se o referido alelo está presente na referida amostra por amplificação de ácido nucleico.
26. Método de acordo com a reivindicação 16 ou a reivindicação 17 em que todo ou parte do gene BRCA1 na referida amostra é clonado para produzir uma sequência clonada e é determinada a sequência da referida sequência clonada.
27. Método de acordo com qualquer uma das reivindicações 16 a 19 que compreende a determinação se existe um emparelhamento errado entre as moléculas (1) de ADN genómico do gene BRCA1 ou de ARNm de BRCA1 isolados da referida amostra, e (2) uma sonda de ácido nucleico complementar ao ADN do gene BRCA1 humano do tipo selvagem, quando as moléculas (1) e (2) são hibridadas uma com a outra para formarem uma dúplice.
28. Método de acordo com qualquer uma das reivindicações de 16 a 19 em que é efectuada a amplificação de sequências do gene BRCA1 na referida

86 719 ΕΡ 705 903/ΡΤ
29. Método de acordo com a reivindicação 1 6 ou a reivindicação 17 que compreende a determinação in situ da hibridação do gene BRCA1 na referida amostra com uma ou mais sondas de ácido nucleico que compreendem uma sequência do gene BRCA1 de tipo selvagem ou uma sequência de um gene BRCA1 mutante tal como definido na reivindicação 16.
30. Ácido nucleico isolado de acordo com a reivindicação 1, em que a referida mutação é seleccionada de entre o grupo que consiste em 1 85 del AG - ter 39 e 1 294 del 40 - ter 396.
31. Sonda de ácido nucleico de acordo com a reivindicação 3, em que a referida mutação é seleccionada de entre o grupo que consiste em 1 85 del AG - ter 39 e 1 294 del 40 - ter 396.
32. Preparação de um polipéptido de acordo com a reivindicação 9, em que a referida mutação é seleccionada de entre o grupo que consiste em 1 85 del AG - ter 39 e 1 294 del 40 - ter 396.
33. Método de acordo com qualquer uma das reivindicações 16 a 29 em que a referida mutação é seleccionada de entre o grupo que consiste em 1 85 del AG - ter 39 e 1 294 del 40 - ter 396. Lisboa, L Λδα 2001 Por MYRIAD GENETICS, INC., CENTRE DE RECHERCHE DU rwi n e CÂNCER INSTITUTE - 0 AGENTE.

^TÃhTÓNIOJOÁO da CUNHA FERREIRA Ag. Ot Pr. Ind.