PT1358458E

PT1358458E - Marcação de defeitos de massa para a determinação de sequências de oligómeros

Info

Publication number: PT1358458E
Application number: PT01270150T
Authority: PT
Inventors: Luke V Schneider; Michael P Hall; Robert Petesch
Original assignee: Target Discovery Inc
Priority date: 2000-10-19
Filing date: 2001-10-19
Publication date: 2012-05-24
Also published as: JP4467589B2; JP4020310B2; WO2002066952A2; US6962818B2; CA2425798A1; CA2426580A1; EP1358458A2; IL155518A; US20020172961A1; EP1358458B1; EP2479578A1; IL155518A0; US8352193B2; ATE552348T1; IL155281A; EP1430436A2; IS6781A; CA2426580C; IL180304A; US20070154900A1

Description

DESCRIÇÃO

MARCAÇÃO DE DEFEITOS DE MASSA PARA A DETERMINAÇÃO DE

SEQUÊNCIAS DE OLIGÓMEROS

REFERÊNCIAS CRUZADAS A PEDIDOS DE PATENTES RELACIONADOS 0 presente pedido de patente reivindica o beneficio do pedido provisório de patente norte-americana da série N°. 60/242.165, registado em 19 de Outubro de 2000, intitulado "Processos para a Determinação das Sequências Terminais de Proteínas e de Péptidos" e do pedido provisório de patente norte-americana da série N°. 60/242.398, registado em 19 de

Outubro de 2000, intitulado "Processos para a Determinação das Sequências Terminais de Proteínas e de Péptidos" com o N°. de registo legal 05265.P001.

ANTECEDENTES DA INVENÇÃO

Muitas moléculas são fragmentadas por meios químicos, eléctricos (feixes de electrões ou colisões induzidas por um campo com moléculas neutras de gás) ou ópticos (lasers de excímeros) em espectrómetros de massa, de modo que as massas dos fragmentos de iões marcados resultantes possam ser usadas para identificar ou reconstruir a molécula original. Noutros exemplos, as moléculas podem ser co-eluídas a partir de processos de separação para serem distinguidas melhor por espectrometria de massa. Nalguns exemplos, liga-se um marcador à molécula parental ou a moléculas específicas, numa mistura, para ajudar a identificar dos iões marcados resultantes ou dos fragmentos de iões, a partir do ruído químico no espectro de massa. Normalmente, esta marcação consiste em elementos ou isótopos de elementos, já contidos 1 na molécula parental. Desta forma, podem verificar-se dois ou mais picos das abundâncias relativas pré-determinadas no espectro de massa e podem ser usados para confirmar a identificação dos fragmentos marcados. Contudo, quando o marcador contém elementos (ou isótopos destes elementos) já contidos na molécula parental ou em outros iões gerados a partir da matriz da amostra ou, que de alguma forma, contaminam a matriz da amostra, um ou mais dos picos dos fragmentos marcados podem sobrepor-se a outros picos de iões não marcados no espectro, confundindo a identificação dos iões marcados.

Historicamente, têm sido amplamente utilizadas técnicas, tais como, a degradação de Edman para a sequenciação de proteínas. Ver, Stark, em: Methods in Enzymology, 25:103-120 (1972); Niall, em: Methods in Enzymology, 27:942-1011 (1973); Gray, em: Methods in Enzymology, 25:121-137 (1972);

Schroeder, em: Methods in Enzymology, 25:138-143 (1972);

Creighton, Proteins: Structures and Molecular Principies (W. H. Freeman, NY, 1984); Niederwieser, em: Methods in

Enzymology, 25:60-99 (1972); e Thiede, et al. FEBS Lett., 357:65-69 (1995). Contudo, a sequenciação por processos de espectrometria de massa (EM) de dissociação induzida por colisão (sequenciação EM/EM) tem evoluído rapidamente e tem provado ser mais rápida e requerer menos proteína do que as técnicas de Edman. Ver, Shevchenko, A., et al., Proc. Natl. Acad. Sei. (EUA), 93: 14440-14445 (1996); Wilm, et al.,

Nature, 379: 466-469 (1996); Mark, J., "Protein structure and Identification with MS/MS", comunicação apresentada nas séries no Seminário PE/Sciex, Protein Characterization and Proteomics: Automated high throughput technologies for drug discovery, Foster City, CA (March, 1998); e Bieman, Methods in Enzymology, 193: 455-479 (1990). 2 A sequenciação por EM consegue-se quer utilizando voltagens mais elevadas na zona de ionização da EM para fragmentar aleatoriamente um único péptido isolado de uma dissolução de uma proteina ou, mais normalmente, por EM em tandem utilizando a dissociação induzida por colisão na zona que retém os iões. Ver, Bieman, ibid. Podem utilizar-se várias técnicas para seleccionar o fragmento de péptido utilizado para sequenciação por EM/EM, incluindo a acumulação de iões dos fragmentos parentais dos péptidos na unidade de quadro da EM (ver, Mark, J. ibid.; Mann, M., comunicação apresentada na conferência IBC Proteomics, Boston, MA (Nov 10- 11, 1997); e Bieman, Methods in Enzymology, 193: 455-479 (1990)), separação electroforética capilar acoplada à detecção por ES-TDV de EM (ver, Aebersold, R. "Proteome analysis: Biological assay or data archive?", comunicação apresentada na conferência IBC Proteomics, Coronado, CA (June 11- 12, 1998) e Smith, et al., em: CRC Handbook of Capillary

Electrophoresis: A Practical Approach, Cap. 8, p 185-206 (CRC Press, Boca Raton, FL, 1994)) ou outras separações cromatográficas em liquido (Niall, H. D., em: Methods in Enzymology, 27: 942-1011 (1973) e Creighton, T. E., Proteins: Structures and Molecular Principies (W. H. Freeman, NY, 1984)). A sequência de aminoácidos do péptido é deduzida das diferenças de peso molecular observadas no modelo de fragmentação de EM resultante do péptido, utilizando as massas associadas, publicadas, com resíduos de aminoácidos individuais na EM (Biemann, K., em: Methods in Enzymology., 193:888 (1990) e têm sido codificadas no algoritmo de sequenciação semiautónoma de péptidos (Hines, et al., J Am Soc Mass Spectrom, 3: 326-336 (1992)).

Por exemplo, no espectro de massa de um péptido de 1.425,7 Da (HSDAVFTDNYTR) isolado numa experiência de EM/EM adquirida num modo de ião positivo, a diferença entre o total 3 do péptido 1.425,7 Da e o maior fragmento de massa que se segue (yn, 1.288,7 Da) é de 137 Da. Isto corresponde à massa esperada de um resíduo de histidina de terminal N, que é clivado na ligação amida. Para este péptido, é possível a sequenciação completa como resultado da geração de iões de fragmentos em grande abundância que correspondem à clivagem do péptido em praticamente todos os resíduos ao longo da estrutura do péptido. Na sequência do péptido citada antes, a geração de um conjunto praticamente completo de iões de fragmentos carregados positivamente, que incluem qualquer uma das extremidades do péptido é o resultado da basicidade de ambos os resíduos dos terminais de N e C. Quando se localiza um resíduo básico no terminal N e/ou no terminal C, a maior parte dos iões produzidos no espectro da dissociação induzida por colisão (DIC) irá conter esse resíduo (ver, Zaia, J., em: Protein and Peptide Analysis by Mass Spectrometry, J.R. Chapman, ed., p. 29-41, Humana Press, Totowa, NJ, 1996; e Johnson, R.S., et al., Mass Spectrom. Ion Processes, 86: 137-154 (1988)) dado que a carga positiva está geralmente localizada no sítio básico. A presenta de um resíduo básico normalmente simplifica o espectro resultante, dado que um sítio básico dirige a fragmentação para uma série limitada de iões filhos específicos. Os péptidos que perdem os resíduos básicos tendem a fragmentar-se numa mistura mais complexa de iões de fragmentos, o que torna a determinação da sequência muito difícil. A sequenciação de ácidos nucleicos tem sido realizada, historicamente, através da síntese de fragmentos de ácidos nucleicos contendo números aleatórios de bases copiadas de uma sequência parental de ácidos nucleicos, tal como os processos definidos por Sanger e Colson, Proc. Natl. Acad. Sei. (EUA), 74: 5463-5467 (1977); e Maxam e Gilbert METHODS IN ENZYMOLOGY, 65: 499-560 (1980). Uma variante no processo 4 descrito por Sanger e Colson utiliza um processo de reacção em cadeia de polimerase (RCP) incompleta para sintetizar os fragmentos de ADN em escada (ver, Nakamaye et al., Nuc. Acids Res., 16 (21): 9947-9959 (1988)). Os processos espectrométricos de massa têm sido desenvolvidos para uma separação mais rápida e multiplexada e para a identificação do ADN em escada, tal como descrito por Koster, patentes norte-americanas U.S. N°s. 5.691.141 e 6.194.144; Monforte et al., patente norte-americana U.S. N°. 5.700.642 e Butler, et al., patente norte-americana U.S. N°. 6.090.558. Nestes processos, os fragmentos de ácidos nucleicos são introduzidos simultaneamente no espectrómetro de massa e a sequência ou o número de "repetições em tandens curtos" são deduzidos das diferenças de massas entre os elementos individuais dos fragmentos de massa em escada sintetizados. Tal como descrito por Koster na patente norte-americana U.S. N°. 6.194.144 é possivel e desejável sequenciar vários ácidos nucleicos simultaneamente, em paralelo, por marcação diferencial dos fragmentos de ácidos nucleicos sintetizados a partir de matrizes de um único ácido nucleico parental, com diferentes marcadores de massas suficientemente únicas. Mesmo utilizando marcadores de massa única, deve-se ter cuidado para evitar a sub-fragmentação dos elementos da sequência em escada durante a ionização ou a transmissão de iões no espectrómetro de massa e para purificar os fragmentos de ácidos nucleicos de outros ácidos nucleicos estranhos e contaminantes que confundem a matriz, de modo a que se possa obter uma sequência não ambigua a partir do espectro de massa resultante.

Os processos de sequenciação de polissacáridos, utilizando os processos de marcação de massas nos espectrómetros de massa já foram descritos por Rademacher et al., na patente de invenção norte-americana U.S. N°. 5 5.100.778 e por Parekh e Prime, na patente de invenção norte-americana U.S. N°. 5.667.984. Nestes processos, liga-se um marcador único de massa a uma amostra purificada de polissacárido, que é em seguida dividida em aliquotas, que se submetem a diferentes regimes de clivagem enzimática e/ou quimolitica, para produzir uma série de fragmentos de oligossacáridos marcados derivados do polissacárido parental. Estes fragmentos são introduzidos, simultaneamente, num espectrómetro de massa e determina-se a sequência de açúcares contida no polissacárido parental a partir da escada de massa resultante, gerada no espectro de massa, a partir dos fragmentos aleatórios de oligossacáridos marcados. Reconhece-se que se pode ter um maior rendimento tratando várias amostra diferentes, simultaneamente, em paralelo, através da utilização de diferentes marcadores de massa ligados a cada uma das amostras parentais únicas de polissacáridos purificados. Novamente deve ter-se cuidado com as amostras de oligossacáridos para evitar a sub-fragmentação no espectro de massa e para purificar os fragmentos marcados a partir de contaminantes de oligossacáridos não marcados para evitar ambiguidades da sequenciação. A identificação da composição de ácidos gordos e a colocação em lipidos pode ser um indicador importante do estado de uma célula. Por exemplo, Oliver e Stringer, Appl.

Environ. Microbiol., 4 : 461 (1984) e Hood et al., Appl. Environ. Microbiol., 52: 788 (1986) relatam ambos uma perda de 99,8 % de fosfolípidos, no esgotamento do Vibrio sp.

Cronan, J. Bacteriol., 95: 2054 (1968) e verificaram um teor de 50 % de fosfotidilglicerol de K-12 de Escherchia coli tinham sido convertidos em cardiolipina, no prazo de duas horas, a partir do inicio do esgotamento do fosfato e que a composição de ácido gordo também se deslocou significativamente. A composição de lipidos da membrana 6 celular é também de interesse médico por causa do seu papel potencial na absorção do fármaco e de metabólitos, ancorando proteínas da transmembrana, reconhecendo vírus das superfícies das células, proliferação do tumor e metástases e doenças arteriais.

Abordagens semelhantes de marcadores de massa já foram descritas para a identificação de componentes individuais de bibliotecas químicas, sintetizadas combinatoriamente, por Sugarman et al., na patente norte-americana U.S. N°. 6.056.926 e por Brenner et al. Proc. Natl. Acad. Sei. (EUA), 89:5381-5383 (1992), em que um único marcador de massa é sintetizado concorrentemente com o composto químico de interesse numa superfície sólida e, mais tarde, utilizado parra identificar as várias etapas de transformação aplicadas à superfície do sólido. Este marcador de massa pode ser identificado após clivagem da superfície do sólido por espectrometria de massa. O limite na dimensão da biblioteca que pode ser produzida por via das abordagens combinatórias é o número de marcadores únicos de massa que podem ser gerados e a capacidade para discriminar estes marcadores a partir dos compostos de interesse.

Ness et al., na patente norte-americana U.S. N°. 6.027.890, Schmidt et al., na patente WO 99/32501 e Aebersold et al., na patente WO 00/11208, descrevem todos os processos para moléculas biológicas com uma marcação diferencial, obtidas de diferentes fontes, com um marcador de massa diferente para cada fonte. As amostras podem então ser combinadas, após a marcação e transformadas em conjunto, através de reacções de separação ou de enriquecimento por afinidade, de tal modo que se assegura que os compostos individuais de cada amostra são tratados de forma idêntica na mistura. As concentrações relativas dos compostos biológicos 7 individuais marcados diferencialmente são então determinadas pelas abundâncias relativas dos marcadores individuais de massa no espectro de massa. As limitações destes processos residem no facto de os marcadores de massa utilizados deverem ser praticamente idênticos em relação a qualquer transformação da mistura da amostra e ionização e transporte dos iões resultantes no espectrómetro de massa. Por esta razão, os marcadores são normalmente escolhidos de forma a serem análogos quimicos (por exemplo, análogos de isótopos estáveis ou simplesmente derivados uns dos outros) . Uma limitação destes processos reside no número de amostras que podem ser misturadas para uma análise paralela única, que está limitada pelo número de derivados do marcador de massa, que podem ser sintetizados com comportamentos de separação praticamente idênticos e eficiências de ionização e transformação. Outra limitação destes processos é a capacidade para distinguir as moléculas marcadas de massa ou os marcadores clivados a partir de biomoléculas não marcadas e os contaminantes da matriz que também podem estar presentes na amostra introduzida no espectrómetro de massa. Esta última limitação muitas vezes significa que a amostra marcada deve ser extensivamente purificada antes da análise espectral de massa e a sub-fragmentação das moléculas marcadas no espectrómetro de massa deve ser evitada.

Schmidt et al., na patente WO 99/32501 (1 de Julho de 1999) descrevem a utilização de flúor em lugar de hidrogénio como elemento distinguível do elemento de defeito de massa nos marcadores de massa cliváveis. A base deste trabalho é a diferença de massa mono-isotópica de 0,009422 amu entre estes dois elementos. Contudo, isto é uma diferença de massa muito pequena que só pode ser resolvida com espectrómetros de massa de alta resolução e em intervalos de massa mais baixos, nestes espectrómetros de massa. A resolução dos espectrómetros de massa depende do intervalo das massas e é normalmente dada em partes por milhão. Por exemplo, os detectores tipicos que utilizam a técnica do "tempo-de-voo", comuns na indústria, têm uma resolução de massa de cerca de 10 amu para uma massa de 1 milhão de amu (10 ppm). Por isso, a diferença comparativa pequena entre massas entre F e H é impossível de resolver acima de uma massa de cerca de 940 amu e, de uma perspectiva prática, a um m/z mais baixo.

Schmidt et al., ainda fazem notar que se pode distinguir o defeito de massa dos hidrocarbonetos perfluorados do dos hidrocarbonetos simples. Por exemplo, a massa mono-isotópica de um marcador de arilo polifluorado com uma estequiometria máxima de CôFs é exactamente de 166, 992015 amu. A massa mono-isotópica do hidrocarboneto mais próximo é de 167,179975, que corresponde a uma estequiometria de C12H23 e a uma diferença de massa facilmente resolúvel de cerca de 1.125 ppm. A massa do marcador alifático polifluorado mínimo é de 68,995209 amu, o que corresponde a uma estequiometria de CF3. A massa do hidrocarboneto mono-isotrópico mais próximo deste é de 69,070425, correspondendo a uma estequiometria de C5H9 e a uma diferença de 1.089 ppm.

Contudo, para moléculas orgânicas que incluem hetero-átomos, tais como, N e O, que são típicos em moléculas biológicas, o defeito da massa de flúor não é facilmente distinguível. Por exemplo, qualquer molécula que contenha uma estequiometria de C3H02 terá uma massa mono-isotópica que é apenas 35 ppm diferente da de CF3, tornando praticamente indistinguível mesmo a 69 amu. Do mesmo modo, qualquer molécula que contenha uma estequiometria mono-isotópica de C7H3O5 é apenas 36 ppm diferente de CeF5 a 167 amu. 9

Quando os isótopos estáveis de C, N e 0 estão incluídos nos cálculos, o defeito de massa de CeF5 reduz-se para um valor indistinguível de 1,4 ppm, quando comparado com uma molécula que contém uma estequiometria de [12C] 4 [13C] 2 [15N] 3 [160] 2 · Do mesmo modo, o defeito de massa para CF3 reduz-se a uns meros 2 9 ppm comparados com uma molécula que contém uma estequiometria de [ 12C] 2 [ 13C] [160] 2 - Como a massa global do marcador aumenta para lá de 200 amu, o defeito de massa introduzido, mesmo com múltiplos flúores, rapidamente se torna indistinguível entre os defeitos de outros heteroátomos e isótopos estáveis. Adicionar ainda mais flúores à molécula não é muitas vezes prático devido às restrições de solubilidade. O problema da desconvulsão geral de picos individuais de interesse, a partir dos dados espectrais complexos da massa, tem sido previamente descrito para misturas complexas de moléculas pequenas (ver, Stein, S. E., "An integrated method for spectrum extraction and compound identification from GC/MS Data", J Am Soc Mass Spect, 10:770-781 (1999) e

Mallard, G.W. e J. Reed, "Automated Mass Spectral Deconvolution & Identification System, AMDIS-User Guide" (US Department of Commerce, Gaithersburg, MD, 1997)) particularmente quando acoplado a processos de separação resolvidos com o tempo (por exemplo, CG/EM e CL/EM). Contudo, estas técnicas não têm sido aplicadas a espectros de fragmentação de biopolímeros (por exemplo, proteína, ácido nucleico e polissacáridos) para fins de determinação da sequência. De facto, estes processos normalmente tentam identificar as espécies químicas intactas e geralmente procuram evitar condições de fragmentação na EM. Também não têm sido associados à identificação de iões de biomoléculas marcados, contendo marcadores de massa única. 10

Estendendo o conceito de simplificação do espectro de DIC de um péptido, por meio da inclusão de uma parte de concentração de carga em qualquer um dos terminais do péptido, alguns autores já demonstraram que ligando uma forte carga positiva ao terminal N se orienta a produção de uma série completa de iões de fragmentos de terminal N de um péptido parental, em experiências de DIC, independentemente da presença ou da ausência de um resíduo básico no terminal N. Ver, Johnson, R.S., et al., Mass Spectrom. Ion Processes, 00 137-154 (1988); Vath, J.E., et al., Fresnius Z Anal. Chem ., 331: 248-252 (1988); Stults, J.T., et al ♦ r Anal. Chem ., 65: 1703-1708 (1993); Zaia, J ., et al., J. Am. Soc. Mass Spectrom., 6: 423-436 (1995); Wagner, D.S., et al.,

Biol. Mass Spectrom., 20: 419-425 (1991); e Huang, Z.-H., et al., Anal. Biochem., 268:3 05-317 (1999). Teoricamente, todos os iões dos fragmentos são produzidos por fragmentação remota da carga, que é dirigida pelo grupo com carga fixa. Ver, Tomer, K.B., et al., J. Am. Chem. Soc., 105: 5487-5488 (1983) .

Os péptidos têm sido marcados com várias classes de grupos de carga fixa, incluindo dimetilalquilamónio, piridínio substituído, fosfónio quaternário e derivados de sulfónio. As características dos marcadores úteis incluem facilidade de síntese, aumento da eficácia da ionização dos péptidos marcados e formação, a partir dos péptidos marcados, de séries de iões de fragmentos específicos com uma fragmentação minima do marcador desfavorável. Zaia (em: Protein and Peptide Analysis by Mass Spectrometry, J.R. Chapman, ed., p. 29-41, Humana Press, Totowa, NJ, 1996) reportou que os marcadores que satisfazem estes critérios incluem os da classe do dimetilalquilamónio e os derivados de fosfónio quaternário. Além disso, tem sido relatado que os derivados de piridínio substituídos são úteis na DIC de 11 elevada energia. Ver, Bures, E.J., et al., Anal. Biochem., 224: 364-372 (1995) e Aebersold, R., et al., em: Protein

Science, p. 494-503 (Cambridge University Press, 1992).

Apesar de algum progresso na metodologia analítica, a identificação de proteínas permanece o principal entrave no campo dos proteómicos. Por exemplo, pode exigir até 18 horas para gerar um marcador da sequência da proteína com o comprimento suficiente para permitir a identificação de uma única proteína purificada a partir da sua prevista sequência genómica (ver, Shevchenko, A., et al., Proc. Natl. Acad. Sei. (EUA), 93: 14440-14445 (1996)). Além disso, emboras se possa atingir uma identificação de proteínas não ambígua por geração de um marcador da sequência da proteína (PST, ver, Clauser, K.R., et al., Proc. Natl. Acad. Sei. (EUA), 92: 5072-5076 (1995) e Li, G., M., et al., Electrophoresis, 18: 391-402 (1997)), existem limitações na eficiência da ionização de péptidos maiores e as proteínas restringem a sensibilidade de detecção intrínseca das técnicas de EM e inibem a utilização e EM para a identificação de proteínas pouco abundantes. Além disso, as limitações na precisão da massa dos detectores de "tempo-de-voo" (TDV) pode também constranger a utilidade dos processos de sequenciação de EM/EM presentemente utilizados, requerendo que as proteínas sejam digeridas por meios proteolíticos e/ou quimiolíticos mais manuseáveis (ver, Ambler, R. P., em: Methods in Enzymology, 25: 143-154 (1972) e Gross, E., em: Methods in Enzymol., 11: 238-255 (1967) antes da sequenciação. Além disso, os algoritmos de sequenciação em escada de EM previamente descritos falham nas proteínas por causa da abundância de fragmentos de péptidos gerados durante a DIC dessas moléculas grandes e pela inabilidade para identificar um ião parental apropriado para iniciar a sequência efectivamente obscura das escadas de massa. 12 Têm sido propostas duas estratégias básicas para a identificação de proteínas por EM após a sua separação de uma mistura de proteínas: D impressão do perfil de massa ("impressão de EM") (ver, James, P., et al., Biochem. Biophys. Res. Commun., 195: 58-64 (1993) e Yates, J.R., et al., Anal. Biochem., 214: 397-408 (1993)); e 2) sequenciação de um ou mais domínios de péptidos por EM/EM ("sequenciação por EM/EM") (ver, Mann, M., comunicação apresentada na conferência IBC Proteomics, Boston, MA (Nov 10-11, 1997); Wilm, M., et al., Nature, 379: 466-469 (1996); e Chait, B.T, et al., Science, 262: 89-92 (1993)). A impressão por EM é conseguida fazendo uma medição precisa das massas de vários péptidos gerados por dissoluções proteolíticas da proteína intacta e pesquisando uma base de dados para encontrar uma proteína conhecida com a impressão de massa do péptido. A sequenciação por EM/EM, envolve a determinação actual de um ou mais PST da proteína por geração de iões de fragmentação específicos da sequência no quádruplo de um instrumento de EM/EM.

Clauser et al., Proc. Natl. Acad. Sei. (EUA), 92: 5072-5076 (1995) sugeriram que as proteínas podem apenas ser identificadas, de forma não ambígua, através da determinação do PTS, que permite uma referência às sequências teóricas determinadas a partir de bases de dados genómicas. Li et al., Electrophoresis, 18: 391-402 (1997) parecem ter provado esta afirmação por meio da verificação de que a identificação fiável de proteínas individuais por impressão por EM degenera à medida que a base de dados de massas de péptidos teóricos comparativos aumenta. Li et al., ibid., referiram que foram apenas capazes de obter mapas de péptidos para as proteínas em maior abundância no gel por causa das limitações de sensibilidade da EM, mesmo se a sua matriz for auxiliada pela metodologia de desabsorção a laser MALDI, que demonstrou 13 melhor sensibilidade de detecção em relação aos processos previamente mencionados. Claramente, as técnicas de sequenciação de proteínas rápidas e com baixo custo e eficácia das patentes WO 02/066952 e PCT/US01/49951 irão melhorar a velocidade e baixar o custo da investigação proteómica. Do mesmo modo, tal como descrito por Koster, a preparação e a purificação dos ácidos nucleicos antes da sequenciação, mesmo por espectrómetros de massa, aumenta o tempo e o custo da sequenciação dos ácidos nucleicos. Para melhorar a capacidade de discriminação do espectrómetro de massa, de tal forma que possam ser determinadas proteínas múltiplas, ácidos nucleicos, polissacáridos ou outras sequências em paralelo ou iões específicos, podem ser diferenciados de material orgânico não marcado, têm uma considerável utilidade em relação aos processos existentes. Miyagi et al. (Rapid Comm. Mass Spectr., 1998, 12: 603-608) descreve um processo para a sequenciação de uma porção terminal de um oligómero que inclui a derivação específica do grupo amino do terminal N, utilizando o éster N- hidroxissuccinimídico do ácido 5-bromonicotínico.

Hobba et al. (J Biol. Chem., 1996, 271: 30529-30536) descreve um processo de análise da estrutura e da função do sítio de ligação do factor de crescimento semelhante à insulina (FCI) da proteína 2 de ligação do factor de crescimento de bovino semelhante à insulina (bIG-FBP-2) por iodação química.

SUMÁRIO DA INVENÇÃO A presente invenção está estabelecida nas reivindicações. 14 A presente invenção tem por objecto a aplicação da marcação de defeitos de massa de uma variedade de moléculas. Como os processos da presente invenção podem ser aplicados durante a dissociação "na fonte" ou induzida por colisão do oligómero num quádruplo, o processo elimina preferencialmente a necessidade de síntese química de fragmentos de oligómeros (por exemplo, de digestão quemolítica ou enzimática ou síntese de fragmentos por sequenciação de Sanger ou RCP). Assim, os processos da presente invenção providenciam tempos de sequenciação de oligómeros que são significativamente reduzidos em relação aos tempos obtidos utilizando outros processos. 0 processo pode ser aplicado como uma melhoria em relação às abordagens mais convencionais das sequenciações de oligómeros, tais como, a sequenciação de péptidos por EM/EM, a sequenciação de Sanger e por RCP por meio de espectrometria de massa (tal como descrito por Koster e Butler et al.) e a sequenciação de polissacáridos, tal como descrita por Rademacher et al. e Parekh et al. Permitindo que um maior número de amostras seja tratado simultaneamente, em paralelo. 0 aumento da capacidade para distinguir um grande número de marcadores, num espectro de massa simples, permite sintetizar ou rastrear bibliotecas combinatórias maiores. Além disso, como os oligómeros a serem sequenciados são altamente fragmentados utilizando os presentes processos, a eficiência da ionização e a volatilidade dos fragmentos resultantes é mais elevada do que as dos oligómeros parentais, levando assim a uma sensibilidade de detecção que é melhor do que a de outros processos.

Num aspecto, a presente invenção tem por objecto um processo para a sequenciação de uma porção terminal de um oligómero ou de um polímero, compreendendo: 15 (a) o contacto do referido oligómero com uma parte de marcação para ligar covalentemente um marcador ao terminal do oligómero e formar um oligómero marcado, compreendendo essa parte de marcação, pelo menos um elemento com um número atómico de 17 a 77, com a condição de que esse elemento ou esses elementos sejam diferentes de enxofre ou fósforo; e que o oligómero não contenha elementos, na sua estrutura, que tenham um número atómico entre 17 e 77, com a excepção do enxofre ou do fósforo, (b) a fragmentação do oligómero marcado utilizando um processo de fragmentação enzimático, quimiolítico ou por espectrometria de massa para produzir fragmentos de oligómeros marcados; e (c) a análise dos fragmentos de oligómeros marcados utilizando um processo de sequenciação por espectrometria de massa ou um algoritmo para determinar a sequência de pelo menos dois elementos monoméricos próximos do marcador.

Num aspecto da presente invenção, quando o oligómero é uma proteina, um péptido ou um ácido nucleico, o processo compreende ainda: (d) a identificação da proteina ou do gene utilizando a sequência de pelo menos dois residuos terminais para pesquisar as sequências previstas numa base de dados com os dados das sequências de genes.

Noutro aspecto, a presente invenção tem por objecto um processo para a sequenciação de uma porção de um oligómero, numa mistura de oligómeros, compreendendo o processo: 16 (a) o contacto da mistura de oligómeros com uma parte de marcação para ligar covalentemente um marcador a um dos terminais do oligómero e formar uma mistura de oligómeros marcados, compreendendo essa parte de marcação pelo menos um elemento com um número atómico de 17 a 77, com a condição de que esse elemento não seja enxofre ou fósforo; e que o oligómero não contenha elementos na sua estrutura que tenham um número atómico entre 17 e 77, com a excepção do enxofre ou do fósforo, (b) a separação dos oligómeros individuais marcados da mistura de oligómeros; e (c) a análise dos oligómeros marcados na etapa (b), por meio de um processo de espectrometria de massa, para determinar a sequência de pelo menos dois resíduos terminais.

Num aspecto descrito da presente invenção, quando o oligómero é uma proteína, o processo compreende ainda: (d) a identificação da proteína por meio da utilização da sequência de pelo menos dois resíduos dos terminais C ou dois resíduos dos terminais N, em combinação com uma coordenada de separação da proteína marcada e a localização do terminal da proteína da sequência para pesquisar possíveis sequências de proteínas a partir de uma base de dados com os dados de sequências de genes.

Ainda noutro aspecto, a presente invenção tem por objecto um processo para a análise da estrutura e da função de um oligómero com uma pluralidade de monómeros, compreendendo o processo: (a) o contacto do oligómero com um reagente de marcação de defeitos de massa para monómeros expostos 17 diferencialmente a um marcador e monómeros não expostos e produzir um oligómero marcado diferencialmente, em que o regente de marcação do defeito de massa compreende pelo menos um elemento com um número atómico entre 17 e 77, que seja diferente de enxofre ou de fósforo; e o oligómero não contenha elementos na sua estrutura, com um número atómico entre 17 e 77, com a excepção do enxofre ou do fósforo, (b) a análise dos oligómeros marcados diferencialmente, por meio de um processo de espectrometria de massa, para determinar as sequências do oligómero que estão expostas na estrutura tridimensional e as sequências do oligómero que não estão expostas na estrutura tridimensional.

Ainda noutro aspecto da presente invenção, o processo pode ser aplicado à determinação quantitativa de biomoléculas marcadas, a partir de misturas, compreendo o processo: (a) o contacto das biomoléculas obtidas a partir de uma amostra com uma parte de marcação para se ligarem covalentemente a um marcador das biomoléculas e formarem uma mistura de biomoléculas marcadas, o contacto de um conjunto similar de biomoléculas obtidas a partir de pelo menos uma amostra com uma parte de marcação ligada covalentemente a um marcador às biomoléculas e formar uma biomolécula marcada, compreendendo a primeira parte de marcação pelo menos um elemento com um número atómico entre 17 e 77 e compreendendo, cada parte de marcação sucessiva, pelo menos, um elemento adicional com um número atómico entre 17 e 77; com a condição que os referidos elementos sejam diferentes de enxofre ou de fósforo; e que a biomolécula não contenha elementos na sua estrutura com um número atómico entre 17 e 77, com excepção do enxofre ou do fósforo; 18 (b) mistura das amostras de biomoléculas marcadas diferencialmente a partir de cada uma das fontes; (c) separação eventual das moléculas por afinidade ou outros meios; e (d) análise das biomoléculas marcadas diferencialmente por um processo de espectrometria de massa, para determinar as quantidades relativas de biomoléculas individuais marcadas ou marcadores clivados a partir das referidas biomoléculas marcadas.

Ainda noutro aspecto da presente invenção, o processo pode ser utilizado para codificar bibliotecas combinatórias, compreendendo o processo: (a) o contacto da superfície sintética com um monómero de marcador para identificar o processo químico ao qual a superfície sintética é (ou será exposta) e formar uma superfície sintética marcada, compreendendo o monómero do marcador pelo menos um elementos com um número atómico entre 17 e 77, (b) eventualmente o contacto da superfície sintética com monómeros sucessivos de marcadores para identificar as subsequentes etapas do processo químico pelo qual a superfície sintética é (ou seja exposta) e a formar uma superfície sintética sucessivamente marcada, compreendendo os monómeros do marcador, pelo menos, um elemento com um número atómico entre 17 e 77, (c) a clivagem dos marcadores de monómeros a partir da superfície sintética quer como uma única molécula marcada multiplamente ou como um conjunto de marcadores individuais, (d) a análise da composição dos marcadores, por um processo de espectrometria de massa, para determinar a história do tratamento químico da superfície. 19

Em cada um dos processos anteriores, a utilização de um algoritmo robusto para a sequenciação dos oligómeros marcados nos terminais dos fragmentos de oligómeros traz vantagens em relação às abordagens convencionais dos algoritmos sequenciais por EM/EM. Uma vantagem particular consiste, por exemplo, na capacidade para sequenciar parcialmente oligómeros de comprimento completo (por exemplo, proteinas ou ácidos nucleicos, tais como, ADN e ARN) sem a necessidade de uma prévia digestão em fragmentos mais pequenos, se as técnicas de fragmentação por espectrometria de massa forem utilizadas para gerar os fragmentos. Outra vantagem é a capacidade de filtrar automaticamente o ruido quimico (por exemplo, oligómeros ou moléculas não marcados e contaminantes orgânicos da matriz) no espectro de massa. Outra vantagem consiste no facto do processo se basear numa auto-iniciação nos defeitos de massa conhecidos do marcador e não requerer qualquer conhecimento da dimensão dos iões parentais ou da composição para determinar a sequência. Outra vantagem consiste no facto de o processo poder ser altamente automatizado. Ainda outra vantagem consiste no facto de resultarem menor ambiguidades da sequência devido à melhoria da precisão da massa absoluta ganha por meio do trabalho feito na extremidade inferior do espectro de massa. Ainda outra vantagem consiste numa melhor eficiência de ionização e na correspondente sensibilidade para a detecção resultar da utilização de condições de ionização mais energéticas e da introdução de uma carga dura ou ionizável nos fragmentos através da adição do marcador. Ainda outra vantagem da introdução de uma carga através do marcador é a capacidade para determinar as sequências parciais dos oligómeros de regiões de um oligómero que pode não conter residuos ionizáveis. É óbvio para os especialistas na matéria que os processos da presente invenção podem ser aplicados para análise sequencial de qualquer polimero orgânico ou para a 20 quantificação relativa de quaisquer moléculas orgânicas entre duas ou mais amostras, com a condição que o marcador do defeito de massa possa ser ligado ao polímero ou às moléculas orgânicas.

BREVE DESCRIÇÃO DOS DESENHOS A FIG. 1 mostra o espectro de massa de glicogénico-fosforilase feito em condições de elevada fragmentação com um potencial do bico-da-fieira de 325 V num espectrómetro de massa Mariner da PE Biosystems. A FIG. 2 mostra um modelo do pico periódico observado a cerca de 1 amu de espaçamento em relação a várias secções de 20 amu do espectro de massa de glicogénio-fosforilase (figura 1). A FIG. 3 mostra a sobreposição de todos os picos da EM com um espaçamento de 1 amu para os dados de fragmentação de glicogénio-fosforilase, a 325 V, no intervalo de 50-550 amu. A FIG. 4 ilustra a energia de ligação nuclear para os elementos da tabela periódica em função do número de massa do isótopo. A FIG. 5 ilustra as estruturas de um certo número de partes de marcação que têm pelo menos um substituinte de bromo. A FIG. 6 ilustra as estruturas de um certo número de partes de marcação que têm pelo menos um substituinte de iodo. A FIG. 7 mostra a estrutura de um oligossacárido superior, do tipo manose, que pode ser sequenciado utilizando os processos indicados no exemplo 1. A FIG. 8A mostra a deconvulsão do espectro de defeito de massa para dissoluções de oligossacáridos superiores do tipo manose, marcados com o marcador 1. A FIG. 8B mostra 21 a deconvulsão do espectro de defeito de massa para dissoluções de oligossacáridos superiores do tipo manose marcados com o marcador 2. A FIG. 8C mostra a deconvulsão do espectro de defeito de massa para dissoluções de oligossacáridos superiores do tipo manose, marcados com o marcador 3. A FIG. 9 mostra a deconvolução do espectro de defeitos de massa para um lipido marcado com o marcador 1 e o marcador 2 (ver exemplo 2). A FIG. 10 ilustra uma estrutura geral para um marcador de defeito de massa fotoclivável, em que Br é o elemento do defeito de massa que está ligado, através do aminoácido (R), à parte remanescente do marcador. A FIG. 11A mostra a deconvolução do espectro de massa de um defeito de massa clarificado por fotografia. A FIG. 11B mostra o espectro resolvido do isótopo de bromo de marcador dos defeitos de massa mono-isotópicos clarificados por fotografia. A FIG. 11C mostra o espectro de massa resolvido do isótopo. A FIG. 12A mostra a resolução de fragmentos de ião b para além do ruido químico no espectro de massa. A FIG. 12B mostra a resolução de fragmentos de ião a, a partir de outro ruido químico, no espectro de massa. A FIG. 12C mostra a resolução de fragmentos do ião d, de outro ruído químico, no espectro de massa. A FIG. 13A mostra os dobletes dos pares de isótopos de bromo de um marcador que estão deslocados do ruído periódico que corresponde às massas do ião b carregado simplesmente. A FIG. 13B mostra os dobletes dos pares de isótopos de bromo que estão deslocados do ruído periódico, que corresponde às massas do ião bl carregado simplesmente, do terminal N da mioglobina marcada. A FIG. 14A e a FIG. 14B mostram os dobletes dos pares de isótopos de bromo que estão deslocados das espécies 22 carregado periódicas que correspondem ao ião ai simplesmente. A FIG. 15A e a FIG. 15B mostram os dobletes dos pares de isótopos de bromo, que estão deslocados das espécies periódicas correspondendo ao ião da2 carregado simplesmente. A FIG. 16 mostra o inicio, a linha de base, o espectro de massa do factor β de mioglobina marcada com 5-Br-3-PAA, fragmentada na fonte, num espectrómetro de massa ESI-TDV. A FIG. 17 mostra o resultado do código do "sequenciador" para determinar a sequência dos primeiros cinco resíduos na mioglobina marcada com 5-Br-3-PAA (SEQ ID N°s. 1 e 2) . A FIG. 18 ilustra uma fórmula geral para um marcador de defeito de massa contendo uma combinação de grupos ionizáveis (Ai....An), elementos de defeitos de massa (Bi....Bn) e uma parte reactiva, anidra, nuclear, succinica (SA) (figura 18A), assim como um esquema global de sintese para um marcador de defeitos de massa { (Ai. . . . An) - (Bi. . . .Bn) - SA} (figura 18B) . A FIG. 19 ilustra uma técnica exemplar de sequenciação utilizando os processos descritos por Sanger em combinação com a estratégia de marcação dada aqui. A FIG. 20 ilustra bases marcadas que podem ser utilizadas nos processos de sequenciação dados aqui. A FIG. 21 ilustra um espectro de massa de ddA*/ddG* (SEQ ID N°. 5) (ver exemplo 18). A FIG. 22 ilustra um espectro de massa de ddT*/ddC* (SEQ ID N°s. 5 e 6) (ver exemplo 18). 23

DESCRIÇÃO DA INVENÇÃO

Definições A menos que seja definido de outra forma, todos os termos técnicos e científicos utilizados aqui, de uma forma geral, têm o mesmo significado que é vulgarmente entendido por um especialista na matéria para os quais esta invenção se destina. Geralmente, a nomenclatura aqui utilizada e os procedimentos de laboratório em biologia molecular, quimica orgânica e quimica das proteínas descritos a seguir são os que são bem conhecidos e normalmente utilizados na técnica. As técnicas-padrão são utilizadas para as sínteses de péptidos. Geralmente, as reacções enzimáticas e as etapas de purificação são realizadas de acordo com as especificações do fabricante. As técnicas e os procedimentos são geralmente realizados de acordo com processos convencionais nesta técnica e com várias referências de tipo geral (ver, de uma forma geral, Sambrook et al. MOLECULAR CLONING: A LABORATORY MANUAL, 2a ed. (1989) Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y., e Methods in Enzymology, Biemann, ed. 193: 295-305, 351-360 e 455-479 (1993)), que são dadas ao longo deste documento. A nomenclatura utilizada aqui e os procedimentos em análises matemáticas e estatísticas, química analítica e sínteses orgânicas descritas a seguir, são os procedimentos conhecidos e utilizados nesta técnica. As técnicas-padrão ou as suas modificações são utilizadas para sínteses químicas e análises químicas. A expressão "defeito de massa" ou "marcador de defeito de massa" refere-se a uma porção de um marcador ou a um marcador completo que providencia uma massa suficiente e distinta para ser identificada rapidamente no espectro de massa da amostra. De acordo com isto, o defeito de massa é 24 normalmente um elemento com um número atómico entre 17 e 77 e, mais especificamente, entre 35 e 63, que seja diferente de enxofre ou fósforo. Os marcadores de defeito de massa mais eficazes para serem utilizadas com produtos químicos orgânicos típicos (mesmo produtos químicos orgânicos compreendendo heteroátomos do grupo 1 e do grupo 2), tais como biomoléculas, incorporam um ou mais elementos com um número atómico de 35 a 63. Exemplos dos defeitos de massa mais preferidos são os elementos bromo, iodo, európio e ítrio.

Tal como se utiliza aqui, o termo "oligómero" refere-se a qualquer polímero de resíduos, em que os resíduos são semelhantes, embora não sejam normalmente idênticos. Geralmente, um oligómero inclui polímeros de ocorrência natural, tais como, proteínas, oligonucleótidos, ácidos nucleicos, oligossacáridos, polissacáridos, lípidos e similares. Oligómero pode também referir-se a um radical livre, polímeros de condensação, aniónicos ou catiónicos, de origem sintética, tal como, mas não se limitando a: acrilatos, metacrilatos, nylons, poliésteres, poli-imidas, borrachas de nitrilo, poliolefinas e copolímeros de bloco ou aleatórios de diferentes monómeros nestas classes de polímeros sintéticos. 0 oligómero que é submetido aos processos analíticos aqui descritos terá um número de resíduos que é normalmente o mesmo número que ocorre naturalmente. Por exemplo, um oligómero que é um oligo-nucleótido pode ter centenas ou mesmo milhares de resíduos. Do mesmo modo, uma proteína terá normalmente cem ou mais resíduos (embora a sequenciação de fragmentos mais pequenos, por exemplo, péptidos, seja também útil). Um oligossacárido terá, normalmente, entre 3 a 100 resíduos de açúcar. Um lípido terá, normalmente, 2 ou 3 resíduos de ácidos gordos. 25

Tal como se utilizam aqui, os termos proteína, péptido e polipéptido referem-se a um polímero de resíduos de aminoácidos. Os termos também se aplicam aos polímeros de aminoácidos em que um ou mais aminoácidos são quimicamente análogos aos aminoácidos correspondentes de ocorrência natural, incluindo os aminoácidos que são modificados por processos pós-tradução (por exemplo, glicosilação e fosforilação). "Proteína", tal como se utiliza aqui, significa qualquer proteína incluindo, mas não se limitando a péptidos, enzimas, glicoproteínas, hormonas, receptores, antigénios, anticorpos, factores de crescimento, etc., sem limitação. Presentemente, as proteínas preferidas incluem as que compreendem pelo menos 25 resíduos de aminoácidos, mais preferencialmente pelo menos 35 resíduos de aminoácidos e, ainda mais preferencialmente, 50 resíduos de aminoácidos. "Péptido" refere-se a um polímero em que os monómeros são aminoácidos e estão ligados através de ligações de amida, alternativamente referidos como um polipéptido. Quando os aminoácidos são α-aminoácidos, pode utilizar-se quer o isómero óptico L ou o isómero óptico D. Além disso, os aminoácidos não naturais, por exemplo, β-alanina, fenil-glicina e homo-arginina estão também incluídos. Os aminoácidos podem ser quer isómeros D ou L. Os isómeros L são geralmente os preferidos. Para uma revisão geral, ver, Spatola, A. F., em CHEMISTRY AND BIOCHEMISTRY OF AMINO ACIDS, PEPTIDES AND PROTEINS, B. Weinstein, eds., Mareei Dekker, New York, p. 267 (1983). "Marcador de sequenciação de proteínas", tal como se utiliza aqui, refere-se a uma série contígua de, pelo menos, dois aminoácidos que representam uma sequência parcial de uma 26 proteína. Um MSP preferido inclui um marcador da presente invenção ou um fragmento de um marcador da presente invenção ou um derivado ionizado de um marcador da presente invenção. A expressão "energia de ligação nuclear" refere-se à disparidade de massa entre as massas nucleares calculadas e reais dos elementos. Define-se como massa equivalente (de acordo com a teoria da relatividade) da energia necessária para separar um núcleo nos seus nucleões isolados constituintes. Ver, Bueche, F., "Principies of Physics" (McGraw-Hill, NY, 1977). 0 termo "deconvolução" define, de uma forma alargada, processos matemáticos e algoritmos para recuperar informação de interesse a partir de dados que contêm tanto o ruído aleatório, como o ruído periódico ou que tenham sido, de alguma forma, obscurecidos pela interacção com processos de recolha electrónicos ou físicos. 0 termo "alquilo" utiliza-se aqui para referir um radical de hidrocarboneto monovalente, ramificado ou não ramificado, saturado ou insaturado, geralmente contendo entre cerca de 1-30 carbonos e, preferencialmente, cerca de 4-20 carbonos e, mais preferencialmente, de 6-18 carbonos. Quando o grupo alquilo tem 1-6 átomos de carbono, é referido como um "alquilo inferior". Os radicais alquilo apropriados incluem, por exemplo, estruturas que contêm um ou mais grupos metileno, metina e/ou metino. As estruturas ramificadas têm um elemento de ramificação similar a i-propilo, t-butilo, i-butilo, 2-etilpropilo, etc. Tal como se utiliza aqui, o termo engloba "alquilos substituídos" e "alquilos cíclicos". "Alquilo substituído" refere-se a um alquilo, tal como acabou de ser descrito, incluindo um ou mais substituintes, 27 tais como, por exemplo, alquilo inferior, arilo, acilo, halogéneo (isto é, halogenoalquilo, por exemplo, CF3), hidroxi, amino, alcoxi, alquilamino, acilamino, tioamido, aciloxi, ariloxi, ariloxialquilo, mercapto, tia, aza, oxo, hidrocarbonetos ciclicos tanto saturados como insaturados, heterociclos e similares. Estes grupos podem estar ligados a qualquer carbono ou substituinte da parte alquilo. Além disso, estes grupos podem estar pendentes ou integrar a cadeia de alquilo. 0 termo "arilo", tal como se utiliza aqui, refere-se a um substituinte aromático, que pode ser um anel aromático simples ou anéis aromáticos múltiplos que se fundem, se ligam covalentemente ou se ligam a um grupo comum, tal como uma parte metileno ou etileno. 0 grupo de ligação comum pode ser um carbonilo, tal como benzofenona. Os anéis aromáticos podem incluir fenilo, naftilo, bifenilo, difenilmetilo e benzofenona, entre outros. 0 termo "arilo" engloba "arilalquilo" e "arilo substituído". "Arilo substituído" refere-se a um arilo tal como acabou de ser descrito, incluindo um ou mais grupos funcionais, tais como alquilo inferior, acilo, halogéneo, alquil-halogéneos (por exemplo, CF3) , hidroxi, amino, alcoxi, alquilamino, acilamino, aciloxi, fenoxi, mercapto e hidrocarbonetos cíclicos tanto saturados como insaturados, que se fundem com os anéis aromáticos, se ligam covalentemente ou se ligam a um grupo comum, tal como uma parte metileno ou etileno. 0 grupo de ligação pode também ser um grupo carbonilo, tal como, em ciclo-hexil-fenil-cetona. A expressão "arilo substituído" engloba "arilalquilo substituído". 28 0 termo "arilalquilo" utiliza-se aqui para referir um subconjunto de "arilo" em que o grupo arilo está ligado a outro grupo por um grupo alquilo, tal como definido aqui. "Arilalquilo substituído" define um subconjunto de "arilo substituído", em que o grupo arilo substituído está ligado ao outro grupo por um grupo alquilo, tal como definido aqui. 0 termo "acilo" utiliza-se para descrever um substituinte de cetona, -C(0)R, em que R representa alquilo ou alquilo substituído, arilo ou arilo substituído, tal como definido aqui. 0 termo "halogéneo" utiliza-se aqui para referir átomos de flúor, bromo, cloro e iodo. A expressão "séries de lantanídeos" refere-se aos elementos da tabela periódica com números atómicos entre 57 e 71. 0 termo "hidroxi" utiliza-se aqui para referir o grupo -OH. 0 termo "amino" utiliza-se para designar -NRR', em que R e R' representam, independentemente, H, alquilo, arilo ou os seus análogos substituídos. "Amino" engloba "alquilamino", indicando aminas secundárias e terciárias e "acilamino" descrevendo o grupo RC(0)NR'. 0 termo "alcoxi" é utilizado aqui para referir o grupo -0R, em que R representa alquilo ou um seu análogo substituído. Os radicais alcoxi apropriados incluem, por exemplo, metoxi, etoxi, t-butoxi, etc. 29

Tal como se utiliza aqui, o termo "ariloxi" indica grupos aromáticos que estão ligados a outro grupo directamente através de um átomo de oxigénio. Este termo engloba partes de "ariloxi substituido" em gue o grupo aromático está substituido, tal como descrito antes, por "arilo substituido". Exemplos de partes de ariloxi incluem fenoxi, fenoxi substituido, benziloxi, fenetiloxi, etc.

Tal como se utiliza agui, "ariloxialquilo" define grupos aromáticos ligados, através de um átomo de oxigénio, a um grupo alquilo, tal como definido aqui. 0 termo "ariloxialquilo" engloba partes de "ariloxialquilo substituido" em que o grupo aromático está substituido tal como descrito para "arilo substituido".

Tal como se utiliza aqui, o termo "mercapto" define partes da estrutura geral -S-R, em que R representa H, alquilo, arilo ou heterociclico, tal como aqui descrito. A expressão "hidrocarboneto ciclico saturado" indica grupos tais como ciclopropilo, ciclobutilo, ciclopentilo, etc. e os análogos substituídos destas estruturas. Estes hidrocarbonetos ciclicos podem ser estruturas de anéis simples ou múltiplos. A expressão "hidrocarboneto ciclico insaturado" é utilizada para descrever um grupo monovalente, não aromático, com pelo menos uma ligação dupla, tal como, ciclopenteno, ciclo-hexeno, etc. e os seus análogos substituídos. Estes hidrocarbonetos cíclicos podem ser estruturas de anéis simples ou múltiplos. 0 termo "heteroarilo", tal como se utiliza aqui, refere-se a anéis aromáticos em que um ou mais átomos de carbono dos 30 anéis aromáticos estão substituídos por um heteroátomo tal como azoto, oxigénio ou enxofre. Heteroarilo refere-se a estruturas que podem ser um anel aromático simples, anéis aromáticos múltiplos ou um ou mais anéis aromáticos acoplados a um ou mais anéis não aromáticos. Nas estruturas que têm múltiplos anéis, os anéis podem estar fundidos, ligados covalentemente ou ligados através de um grupo comum, tal como uma parte metileno ou etileno. 0 grupo de ligação comum pode também ser um carbonilo, tal como em fenil-piridil-cetona. Tal como se utilizam aqui, os anéis, tais como tiofeno, piridina, isoxazol, ftalimida, pirazol, indol, furano, etc. ou análogos fundidos com benzeno destes anéis, são definidos pelo termo "heteroarilo". "Heteroarilalquilo" define um subconjunto de "heteroarilo" em que um grupo alquilo, tal como definido aqui, liga o grupo heteroarilo a outro grupo. "Heteroarilo substituído" refere-se ao heteroarilo, tal como acaba de ser descrito, em que o núcleo de heteroarilo está substituído por um ou mais grupos funcionais, tais como alquilo inferior, acilo, halogéneo, halogenoalquilo (por exemplo, CF3) , hidroxi, amino, alcoxi, alquilamino, acil-amino, aciloxi, mercapto, etc. Assim, os análogos substituídos dos anéis heteroaromáticos, tais como tiofeno, piridina, isoxazol, ftalimida, pirazol, indol, furano, etc. ou análogos fundidos com benzeno destes anéis são definidos pela expressão "heteroarilo substituído". "Heteroarilalquilo substituído" refere-se a um subconjunto de "heteroarilo substituído", tal como descrito antes, em que um grupo alquilo, tal como definido aqui, liga o grupo heteroarilo a outro grupo. 31 0 termo "heterocíclico" é utilizado aqui para descrever um grupo não aromático, monovalente, saturado ou insaturado, com um único anel ou com vários anéis condensados de 1-12 átomos de carbono e de 1-4 heteroátomos seleccionados entre azoto, enxofre ou oxigénio, dentro do anel. Esses heterociclos são, por exemplo, tetra-hidrofurano, morfolina, piperidina, pirrolidina, etc. A expressão "heterociclico substituído", tal como se utiliza aqui, descreve um subconjunto de "heterocíclicos", em que o núcleo do heterociclo está substituído por um ou mais grupos funcionais, tais como, alquilo inferior, acilo, halogéneo, halogenoalquilo (por exemplo, CF3) , hidroxi, amino, alcoxi, alquilamino, acilamino, aciloxi, mercapto, etc. 0 termo "heterociclilalquilo" define um subconjunto de "heterocíclicos" em que um grupo alquilo, tal como definido aqui, liga o grupo heterociclico a outro grupo. 0 termo "quelato" refere-se a uma ligação fortemente associativa de um elemento metálico ou de um ião de um metal a uma molécula praticamente orgânica, através de meios não covalentes. São alternativamente conhecidos como moléculas organometálicas.

Geral A presente invenção tem por objecto um processo de espectrometria de massa para melhorar a distinção de moléculas marcadas e não marcadas ou de fragmentos de moléculas, num espectrómetro de massa. Este processo pode ser utilizado para a determinação de sequências de oligómeros e para a complexidade combinatória acrescida que pode ser 32 discriminada no espectro de massa. 0 presente processo é praticado por meio da marcação do terminal de uma molécula ou de um oligómero com um reagente de marcação, que incorpora um defeito de massa e discriminando as moléculas marcadas com defeitos de massa resultantes das outras moléculas não marcadas ou dos fragmentos de oligómeros não marcados, no espectro de massa.

Numa modalidade, os oligómeros marcados podem ser sequenciados com oligómeros marcados intactos, fragmentados em qualquer zona de ionização de um espectrómetro de massa (por exemplo, fragmentação na fonte) ou nas células de colisão de um instrumento de EM/EM e utilizando um algoritmo matemático para determinar a sequência terminal do oligómero a partir da extremidade marcada. Noutra modalidade, os oligómeros marcados podem ser sintetizados a partir de uma matriz parental ou digeridos quimioliticamente ou enzimaticamente para formar fragmentos que compreendem uma sequenciação em escada dos fragmentos marcados, que estão algoritmicamente identificados no espectro de massa a partir do defeito de massa diferencial do marcador. Os oligómeros marcados e os fragmentos de oligómeros são diferenciados dos oligómeros e dos fragmentos não marcados pelas suas assinaturas de massa únicas no espectro de massa resultante e deconvulsionados a partir de fragmentos de oligómeros não marcados e dos picos associados com a matriz de ionização e oligómeros e fragmentos de contaminação pela sua abundância relativa e/ou pelas suas assinaturas de massa únicas (devido ao defeito de massa). Um sistema de classificação cumulativo é utilizado pelo algoritmo para reforçar a certeza da sequência determinada em resíduos sucessivos da escada de massa. Nalgumas modalidades, este processo é conseguido em menos de 1 min para uma proteína marcada, purificada, 33 originando um processo 500 a 1.000 vezes mais rápido do que as técnicas actuais de sequenciação de proteínas por EM/EM.

Numa modalidade, os oligómeros marcados são altamente fragmentados na EM pela dissociação induzida pela colisão (DIC) . A DIC pode ser conseguida na zona de ionização (por exemplo, na fonte) ou numa célula de colisão através de um elevado impacto energético com gases não oligoméricos introduzidos na zona de colisão. Os marcadores preferidos levam a um aumento da eficiência de ionização e aumentam a volatilidade dos iões dos fragmentos de oligómeros marcados resultantes, relativamente ao oligómero parental, melhorando assim a sensibilidade global de detecção. Os marcadores preferidos conferem uma assinatura de massa única aos fragmentos aos quais estão ligados. Numa modalidade particularmente preferida, a assinatura de massa única pode consistir em um ou mais elementos incorporados no marcador que contém uma energia de ligação nuclear que difere substancialmente da dos elementos associados com os resíduos de oligómeros (por exemplo, C, Η, O, N, P e S) . Noutra modalidade, pode-se utilizar normalmente uma mistura de versões distintas, sob o ponto de vista isotópico, de um marcador, com a abundância relativa dos pares isotópicos resultantes para deconvulsionar picos de interesse no espectro de massa. Noutra modalidade, podem utilizar-se análogos de marcadores que diferem pela adição de uma ou mais unidades de metilo ou de metileno e/ou análogos puros sob o ponto de visto isotópico (por exemplo, D vs. H ou Cl) para distinguir unicamente picos de interesse no espectro de massa. Ainda noutra modalidade, os picos associados com os oligómeros, fragmentos ou iões marcados podem ser deconvulsionados a partir de oligómeros ou fragmentos não marcados por meio do seu deslocamento de massa. A sequência do oligómero ou a sequência do marcador é preferencialmente 34 construída a partir da extremidade de baixo peso molecular do espectro de massa, dando vantagens em relação aos processos anteriores, tais como, uma maior precisão absoluta da massa e uma mais fácil sequenciação. No caso das proteínas, esta vantagem incluirá a resolução dos resíduos Q e K a partir dos fragmentos de péptidos marcados resultantes. A selecção de um marcador apropriado para esta técnica requer considerações sobre vários critérios. Em primeiro lugar, o marcador é preferencialmente suficientemente robusto para sobreviver às condições de fragmentação da EM. Em segundo lugar, o marcador cria preferencialmente também uma assinatura única de massa/carga (m/z) (por exemplo, um defeito de massa) que se pode distinguir de quaisquer fragmentos de oligómeros não marcados gerados a partir de cisões internas da estrutura do oligómero ou a partir de outras moléculas orgânicas não marcadas que podem estar presentes na amostra. Em terceiro lugar, o marcador pode também comportar um grupo ionizável ou permanentemente ionizado para assegurar que a fragmentação produz iões em grande abundância que incluem mesmo resíduos terminais não carregados.

Ao contrário da utilidade limitada de F como elemento de defeito de massa (Schmidt et al. WO 99/32501 (1 de Julho de 1999)), a presente invenção utiliza elementos de defeito de massa que apresentam uma diferença de massa muito maior e assim têm uma utilidade muito mais alargada. Por exemplo, uma única substituição de iodo num grupo arilo cria um defeito de massa de 0,1033 amu mais do que um aumento de 5 vezes em relação às substituições de F de 5-arilo. Um único I num anel de arilo (C6H4I) exibe uma massa mono-isotópica de 202,935777 amu. Isto é 192 ppm diferente da combinação mais próxima de isótopos estáveis e moléculas orgânicas contendo heteroátomos 35 ( [12C]9[15N] [160 ] 5) a 202, 974687 amu. Por isso, uma única substituição de qualquer um dos elementos que exibe um defeito de massa semelhante ao de I (isto é, número atómico entre 35 e 63) irá oriqinar um defeito de massa que se pode discernir (a um nivel de 10 ppm) em relação à massa total de 3.891 amu, para qualquer combinação de heteroátomos orgânicos. Dois desses elementos irão exibir um defeito de massa que se pode distinguir em relação à massa total de 7.782 amu. Três desses elementos irão exibir um defeito de massa que se pode distinguir em relação à massa total de 11.673 amu . Alternativamente, adições simples, duplas e triplas de I (ou um elemento de defeito de massa equivalente) podem ser discriminadas umas das outras em relação a uma massa total de 4.970 amu, num espectro de massa com uma resolução de massa de 10 ppm. A presente invenção incorpora um algoritmo robusto para a identificação de moléculas ou fragmentos marcados com defeitos de massa e a determinação da sequência do oligómero a partir dos fragmentos de oligómeros marcados no espectro de massa. Este algoritmo pesquisa os dados espectrais para todas as sequências possíveis de oligómero partindo apenas da massa do marcador que é conhecida. 0 algoritmo utiliza tanto a proporção entre a massa e a carga dos fragmentos de oligómeros marcados, como a abundância relativa dos picos de EM resultantes, para classificar todas as possíveis sequências de oligómeros. Utiliza-se uma classificação cumulativa (olhando para trás) para eliminar sequências como números sucessivos para certos residuos que são encontradas no espectro de massa. Numa modalidade preferida, o ruido quimico é selectivamente deconvulsionado a partir do espectro de massa, antes da aplicação do algoritmo de sequenciação. Ao contrário dos algoritmos de sequenciação anteriores, o presente algoritmo é robusto porque pode ser implementado sem 36 intervenção humana, quer para definir um ião inicial ou parental ou para identificar ou qualificar picos prospectivos de sequências no espectro de massa. Noutra modalidade, as mais elevadas possibilidades de sequência são classificadas e podem ainda ser qualificadas pela sua existência numa base de dados de sequências possíveis de oligómeros, previstas a partir dos dados da sequência, particularmente uma limitada ao organismo do qual se obteve o oligómero. Noutra modalidade, as mais elevadas possibilidades de sequências classificadas podem ainda ser qualificadas pelas coordenadas de separação do oligómero parental (por exemplo, ponto isoeléctrico e peso molecular de uma proteína) e/ou pela composição do seu monómero. A presente invenção incorpora um ou mais elementos no marcador que tem uma energia de ligação nuclear (muitas vezes também referida como defeito de massa) que move a massa do marcador para uma posição única de massa no espectro que nenhuma outra combinação estequiométrica de outros elementos pode ter. Desta forma, os fragmentos marcados são mais fáceis de distinguir a partir do ruído químico e podem ser detectados com mais precisão quando presentes em abundâncias relativamente baixas e quando presentes em misturas de amostras mais complexas. Além disso, o processo pode ser utilizado para ajudar a identificar fragmentos marcados de mais baixa abundância produzidos por vários processos de ionização (por exemplo, iões d e iões w, produzidos pela fragmentação de proteínas e péptidos). A utilização dos defeitos de massa pode também ser aplicada à quantificação das abundâncias relativas da mesma molécula obtida a partir de duas ou mais fontes num espectro de massa (ver, por exemplo, WO 00/11208, EP1042345A1 e EP979305A1). Utilizando esta metodologia particular, pode-se 37 ligar um marcador a um oligómero que difere de outros marcadores pela substituição de um elemento com um isótopo estável desse elemento, que é adicionado às moléculas de cada fonte. Misturam-se as fontes na sequência da marcação e quantifica-se, no espectro de massa, a abundância relativa das moléculas ou dos marcadores de cada fonte. Utilizam-se os diferentes isótopos unicamente para diferenciar os picos que aparecem para a mesma molécula de cada fonte. A modificação deste processo para incorporar um ou mais elementos de defeito de massa no marcador pode melhorar esta quantificação porque as moléculas marcadas resultantes ou os marcadores serão deslocados de qualquer ruido quimico no espectro de massa resultante. A presente invenção pode ser utilizada em conjunto com processos de sequenciação de proteinas, tais como, a sequenciação em escada da massa invertida (ver, a publicação da PCT WO 00/11208) e outras sequenciações de proteinas por EM, processos de quantificação e de identificação, tais como, os apresentados na patente U.S. N°. 6.027.890 e nas publicações PCT WO 99/32501 e WO 00/11208 . A marcação de defeitos de massa, tal como aqui descrita, pode também ser aplicada a processos de sequenciação de ADN, por EM, conforme sublinhado nas patentes U.S. N°s. 5.700.642, 5.691.141, 6.090.558 e 6.194.144. Ainda mais, a marcação do defeito de massa, tal como aqui descrita, pode ser utilizada para determinar a sequência de polissacáridos (tais como, o modelo de glicosilação de uma proteína). Ver, processos gerais dados nas patentes U.S. N°s. 5.100.778 e 5.667.984.

De uma forma mais alargada, o processo pode ser utilizado para melhorar a identificação (determinação da sequência) ou a quantificação de qualquer polímero de diferentes fontes, quer naturais ou sintéticas, 38 providenciando que um marcador de defeito de massa possa ligar-se covalentemente a um terminal do polímero. A presente invenção também pode ser utilizada para a identificação estrutural ou a quantificação relativa de espécies químicas não poliméricas de diferentes fontes, fornecendo marcadores que se podem ligar covalentemente a estas moléculas. Os exemplos incluem: análise diferencial de aminoácidos (tecidos doentes vs. saudáveis); análise diferencial de nucleótidos; análise diferencial de sacáridos; análise diferencial de ácidos gordos e determinação da estrutura de ácidos gordos insaturados e ramificados; análise de lípidos e determinação estrutural; e aplicações ao controlo de qualidade de nutrientes e marcadores de bibliotecas combinatórias (tal como sublinhado na patente na U.S. N°. 6.056.926 e por Brenner, S. e R. A. Lerner, "Encoded combinatorial chemistry," Proc. Natl. Acad. Sei. (EUA), 89: 5381-5383 (1992)).

Voltando primeiro à marcação de defeitos de massa de ácidos nucleicos (por exemplo, ADN ou ARN) , cada uma das patentes U.S. N°s. 6.090.558 e 6.194.144 descreve como é que o ADN pode ser sequenciado a partir de fragmentos sintetizados que incorporam um único marcador de massa na sequência do iniciador. Pelo contrário, a presente invenção providencia uma marcação utilizando apenas marcadores com um defeito de massa, para distinguir os fragmentos marcados dos fragmentos não marcados e providenciar um processo mais robusto e ainda mais sensível. Outra vantagem da utilização dos marcadores de defeito de massa é o número aumentado dos diferentes ácidos nucleicos que podem ser sequenciados, em paralelo, desta maneira. As vantagens da marcação de defeitos de massa (em relação a um processo mais geral de marcação) não foram descritas em trabalhos anteriores. 39

Do mesmo modo, WO 00/11208, EP1042345A1, EP979305A1 e a patente U.S. N°. 6.027.890, descrevem a utilização de marcadores de massa única para a análise diferencial e a quantificação de moléculas de proteína e ADN entre diferentes fontes. Contudo, cada uma destas referências falha em antecipar ou identificar as vantagens de incorporar um elemento de defeito de massa num marcador de massa única.

Voltando agora para a marcação de oligossacáridos, a patente EP 698218B1 descreve a utilização de hidratos de carbono marcados e a sua utilização em ensaios e as patentes U.S. N°s. 5.100.778 e 5.667.984 descrevem a utilização de marcadores de massa para determinar a sequência de oligossacáridos por EM. Embora as técnicas aí descritas possam ser aplicáveis à marcação com marcadores de massa única, a incorporação de um defeito de massa num marcador, para fins de deslocação dos picos de EM, para regiões de não interferência dos espectros, não foram descritas nem apreciadas. Assim, a aplicação da metodologia de marcação de defeitos de massa aqui descrita providencia processos para identificar a sequência de açúcar de um hidrato de carbono complexo por meio da marcação do hidrato de carbono, tal como descrita na técnica anterior (com uma modificação apropriada para a incorporação de um defeito de massa no marcador) ou por qualquer outro processo disponível para os especialistas na matéria e identificando os fragmentos marcados com defeito de massa no espectrómetro de massa. A estrutura do hidrato de carbono pode ser determinada no seu todo ou em parte por adição de massa dos fragmentos marcados mais pequenos semelhantes aos processos de sequenciação de ADN e proteínas por EM/EM, descritos antes. De novo, a incorporação de um elemento de defeito de massa no marcador tem utilidade para isolar os fragmentos marcados a partir do ruído químico. 40

Voltando em seguida para os lípidos, pode-se determinar a composição e a sequência de ácidos gordos por marcação de ácidos gordos, digeridos enzimaticamente, a partir de uma estrutura de glicidol, em que os diferentes marcadores de defeitos de massa se aplicam como marcadores para diferentes digestões de enzimas que são especificas das sequências.

Note-se que, em cada uma das aplicações, os aminoácidos, os lipidos e os nucleótidos podem ser derivados, por meio de processos geralmente disponíveis para os especialistas na matéria. Se se utilizam marcadores que se distinguem isotopicamente para cada uma desses derivações dessas moléculas obtidas ou extraídas de diferentes amostras, então pode realizar-se a análise de quantificação diferencial por EM. Contudo, em cada exemplo, a incorporação de um elemento de defeito de massa num marcador melhora a capacidade para isolar as moléculas marcadas de outros ruidos químicos no espectro e obtém-se medições de abundância relativa mais precisas. Contudo, não foi antecipado na técnica anterior a incorporação de diferentes números de elementos de defeitos de massa nos marcadores para aumentar o número de amostras que podem ser discriminadas simultaneamente no espectro de massa resultante. Esta metodologia pode também ser aplicada para melhorar o isolamento e a identificação de metabólitos em amostras biológicas (ver, por exemplo, a patente U.S. da série N°. 09/553.424, registada em 19 de Abril de 2000), em que uma mistura de metabólitos, enriquecidos isotopicamente, obtida de uma fonte, é em seguida derivada com um marcador contendo o defeito de massa para facilitar a identificação e a quantificação dos metabólitos enriquecidos isotopicamente, a partir da forma não enriquecida.

Para além da sequenciação e da identificação de oligómeros, a marcação por defeito de massa pode ser 41 utilizada para sondar a estrutura e a função de macro-moléculas, activas sob o ponto de vista biológico (por exemplo, oligómeros, tais como proteinas, ácidos nucleicos e oligossacáridos) . A metodologia da permuta de deutério (ver, Andersen, et al., J. Biol. Chem. 276 (17): 14204-11 (2001)) tem sido utilizada para sondar estruturas de proteina secundárias e de ordem superior e regiões envolvidas na ligação do ligando. As partes que são expostas ao dissolvente e não ficam enterradas ou escondidas por ligandos da ligação, vão permutar hidrogénio por deutério, a uma taxa muito mais rápida, na presença de água deuterizada. A proteólise subsequente da proteina e a análise espectral de massa dos fragmentos proteoliticos deuterados e não deuterados pode fornecer informação sobre quais as partes que estão envolvidas nos elementos específicos deuterais de ordem superior ou nos epítopos de ligação.

Indicam-se aqui processos melhorados em que os elementos de defeito de massa são utilizados para marcar um oligómero ou outra macromolécula, em vez do deutério. Utilizando moléculas pequenas que incorporam elementos com defeitos de massa pode-se atingir grupos reactivos específicos e analisar os modelos de fragmentação, por exemplo, de amostras de proteína intactas ou proteolisadas, pode obter-se informação acerca da estrutura ou da função por meio da pesquisa de produtos que estão marcados simplesmente ou de forma múltipla ou produtos não marcados com o marcador de defeito de massa. Esta informação obtém-se mais rapidamente e inequivocamente pela redução do ruído químico que o marcador de defeito de massa proporciona. Especificamente, pode-se expor uma proteína activa a um marcador de defeito de massa, tal como, o gás de bromo ou de iodo, que atinge os resíduos da proteína 42 tirosina. Os resíduos de tirosina são marcados diferencialmente consoante o seu loci geométrico (isto é, superfície vs. parte escondida) e a sua participação na ligação do ligando. A proteína pode ser fragmentada, com ou sem proteólise prévia e o modelo de marcação da tirosina pode ser facilmente sondado no espectrómetro de massa por meio da pesquisa dos picos que aparecem a partir da incorporação dos átomos de bromo ou de iodo.

Outra área em que a utilização de marcadores de defeito de massa é benéfica é a análise combinatória tanto de moléculas pequenas como de macromoléculas que já não contêm elementos com defeitos de massa (por exemplo, a maior parte dos materiais derivados biologicamente). Nesta aplicação, pode-se sondar uma mistura complexa de entidades (por exemplo, proteínas e péptidos, incluindo anticorpos e enzimas, polissacáridos, polinucleótidos, produtos farmacêuticos ou catalisadores) geradas como uma biblioteca combinatória, quanto à sua actividade e podem-se identificar por meio de elementos de marcação incorporados, tal como descrito na patente U.S. N°. 6.056.926 e por Brenner, S. e R. A. Lerner, Encoded combinatorial chemistry, Proc. Natl. Acad. Sei., 89: 5381-5383 (1992). Aumentando o número de marcadores e utilizando marcadores que incorporam um elemento de defeito de massa, pode-se avaliar uma biblioteca combinatória maior. Estas entidades que têm as características de ligação desejadas vão exibir um deslocamento na massa igual ao do marcador de defeito de massa. Mesmo numa mistura muito complexa, é simples identificar os picos deslocados em resultado do defeito de massa. 43

Descrição das Modalidades

Sequenciação das porções terminais dos oligómeros

Na visão anterior, a presente invenção tem por objecto, num aspecto, um processo para a sequenciação de uma porção terminal de um oligómero, tal como definido na reivindicação 1.

Neste aspecto da presente invenção, o oligómero pode obter-se praticamente de qualquer fonte (por exemplo, amostras de tecido, biópsias, extractos de células e similares). Preferencialmente isola-se o oligómero e purifica-se para que fique isento de componentes de interferência. 0 oligómero isolado pode ser contactado com uma parte de marcação para se ligar covalentemente a um marcador no terminal do oligómero para formar um oligómero marcado, apropriado para análise por meio de processos de fragmentação por espectrometria de massa. Os processos específicos e as condições para a marcação de um oligómero podem ser realizados de acordo com processos estabelecidos, consoante os grupos funcionais presentes no oligómero e os grupos reactivos presentes no agente de marcação. Normalmente, a ligação covalente pode-se fazer, por exemplo, através da formação de ligações, entre o marcador e o oligómero, de amidas, ésteres, ureia, tioureia, dissulfuretos, fosfodiésteres, sulfonatos, iminas e hidrazidas. Nas secções que se seguem dá-se uma discussão mais completa da química de ligação. A fragmentação do oligómero marcado resultante pode ser conseguida por processos por via quimiolítica, enzimática ou por espectrometria de massa. Alternativamente, os fragmentos 44 podem ser gerados por replicação incompleta da molécula parental (por exemplo, sequenciação dos ácidos nucleicos).

No seguimento da fragmentação da amostra de oligómero marcada, analisam-se os fragmentos utilizando um processo de espectrometria de massa para determinar a sequência de, pelo menos, dois, mais preferencialmente, três, ainda mais preferencialmente, quatro, cinco ou seis resíduos do terminal. Em alqumas modalidades, determina-se a sequência de sete ou mais resíduos do terminal. Um processo de espectrometria de massa preferido está descrito nos exemplos que se seguem.

Num grupo de modalidades preferidas, a parte de marcação compreende pelo menos um elemento com um número atómico de 35 a 63, ainda mais preferencialmente, de 39 a 58. Num grupo de modalidades particularmente preferidas, a parte compreende pelo menos um elemento seleccionado entre bromo, iodo, európio e ítrio. Ainda mais preferencialmente, a parte de marcação tem de um a três átomos de bromo ou de iodo.

Os oligómeros preferidos para serem sequenciados, sob este aspecto da presente invenção, incluem uma proteína (ou péptido), um oligonucleótido, um oligossacárido e um lípido. Mais preferencialmente, o oligómero é uma proteína (ou um péptido) ou um oligossacárido.

Num aspecto relacionado, a presente invenção tem por objecto um processo para a sequenciação de uma porção de um oligómero numa mistura de oligómeros, tal como definido na reivindicação 14. A mistura de oligómeros, neste aspecto da presente invenção, pode ser uma mistura de proteínas, uma mistura de 45 oligonucleótidos, uma mistura de oligossacáridos, uma mistura de lipidos e similares e obtém-se, normalmente, a partir de uma fonte biológica, tal como um lisado de células. Alternativamente podem obter-se as amostras a partir de tecidos de animais (doentes ou saudáveis), extractos de plantes, fontes bacterianas, fontes virais e similares. Preferencialmente, a mistura de oligómeros tem de ser purificada para reduzir a quantidade potencial de componentes de interferência utilizando os processos conhecidos na técnica. A marcação dos oligómeros na mistura de oligómeros pode ser realizada, geralmente, tal como foi descrito antes para um único oligómero, utilizando os marcadores descritos com mais detalhe a seguir. A separação dos oligómeros marcados na mistura de oligómeros pode ser feita utilizando processos tais como electroforese por capilaridade, cromatografia liquida de alta resolução (CLAR), electroforese em gel (em todas as suas formas), cromatografia (por exemplo, por exclusão de dimensão, por permuta iónica, etc.) ou cromatografia gasosa, só para nomear alguns. Os oligómeros individuais marcados, separados, obtidos a partir do processo de separação, podem então ser analisados utilizando os processos de espectrometria de massa aqui descritos, para determinar a sequência de, pelo menos, dois resíduos do terminal. Preferencialmente, o processo espectrométrico de massa é o EM ESI-TDV.

Num grupo preferido de modalidades, a parte de marcação compreende, pelo menos, um elemento com um número atómico de 35 a 63, ainda mais preferencialmente, de 39 a 58. Num grupo de modalidades particularmente preferidas, a parte compreende pelo menos um elemento seleccionado entre bromo, iodo, 46 európio e ítrio. Ainda mais preferencialmente, a parte de marcação tem de um a três átomos de bromo ou de iodo.

Num aspecto relacionado, a presente invenção tem por objecto um processo para a sequenciação da porção do terminal de um oligómero, tal como definido na reivindicação 32.

Ainda noutro aspecto relacionado, a presente invenção tem por objecto um processo de sequenciação de uma porção de um oligómero, tal como definido na reivindicação 38.

Nalgumas modalidades preferidas, os oligómeros marcados, fragmentados, são realocados e submetidos a etapas adicionais de marcação e de fragmentação.

Ainda noutro aspecto relacionado, a presente invenção tem por objecto um processo para a sequenciação de uma porção de um oligómero, compreendendo: (a) a preparação de várias aliquotas de uma amostra de oligómero, (b) o contacto do oligómero, em cada alíquota, com uma parte de marcação para se ligar covalentemente a um marcador num terminal do oligómero e formar uma mistura de oligómeros marcados, em que cada alíquota está marcada com um marcador contendo um número diferente de elementos, com um número atómico de 17 a 77, com a condição que os referidos elementos sejam diferentes de enxofre ou fósforo, (c) a fragmentação do oligómero marcado, em cada alíquota, por um processo enzimático ou quimiolítico diferente, (d) a mistura dos produtos da reacção de cada alíquota, 47 (e) a análise da mistura de oligómeros marcados, fragmentados, utilizando um processo de fragmentação por espectrometria de massa, para determinar a sequência de pelo menos dois residuos do terminal.

Numa variante relacionada, a presente invenção tem por objecto um processo para analisar simultaneamente vários produtos da reacção para a determinação das sequências de uma amostra de um oligómero, compreendendo o processo: (a) a preparação de várias aliquotas de uma amostra de oligómero; (b) a fragmentação do oligómero, em cada aliquota, por um processo enzimático ou quimiolitico diferente; (c) o contacto do produto de reacção, em cada aliquota, com uma parte de marcação para se ligar covalentemente a um marcador num terminal dos produtos de reacção e formar uma mistura de produtos de reacção marcados, em que cada aliquota está marcada com um marcador contendo um número diferente de elementos, com um número atómico de 17 a 77, com a condição que os referidos elementos sejam diferentes de enxofre ou fósforo; (d) a mistura dos produtos da reacção marcados de cada aliquota; e (e) a análise das misturas dos produtos de reacção marcados, combinados, da etapa (d) utilizando um processo de espectrometria de massa para determinar a sequência de pelo menos dois monómeros no oligómero.

Numa outra variante, a presente invenção tem por objecto um processo para sequenciar uma pluralidade de oligonucleótidos numa amostra, compreendendo o processo: 48 (a) a marcação de iniciadores sintéticos pelo contacto de cada iniciador com uma parte de marcação, para ligar covalentemente um marcador a um terminal de cada iniciador para formar uma mistura de iniciadores marcados, em que cada iniciador está marcado com um marcador contendo um número diferente de elementos com um número atómico de 17 a 77, com a condição de que os elementos sejam diferentes de enxofre ou fósforo; (b) a adição da matriz da amostra à mistura de iniciadores marcados; (c) a síntese de uma pluralidade de oligómeros marcados a partir da matriz da amostra, por processos enzimáticos ou químicos; e (d) a análise dos oligómeros marcados, sintetizados na etapa (c) utilizando um processo de espectrometria de massa para determinar a sequência da matriz da amostra.

Em cada um destes últimos aspectos e variantes, os marcadores preferidos são os que contêm elementos com números atómicos de 35 a 63, mais preferencialmente de 39 a 58, tal como descrito antes para os aspectos anteriores da presente invenção. Outras modalidades preferidas são aquelas que também já foram aqui descritas.

Proteínas marcadas

A marcação de proteínas com vários agentes, num meio dissolvente, aquoso ou numa mistura de meio dissolvente aquoso/orgânico, é conhecida na técnica e existe disponível uma vasta gama de reagentes e técnicas de marcação úteis na prática da presente invenção, para os especialistas na matéria. Ver, por exemplo, Means et al., CHEMICAL MODIFICATION OF PROTEINS, Holden-Day, San Francisco, 1971; Feeney et al., MODIFICATION OF PROTEINS: FOOD, NUTRITIONAL 49 AND PHARMACOLOGICAL ASPECTS, Advances in Chemistry Series, Vol. 198, American Chemical Society, Washington, D.C., 1982; Feeney et al., FOOD PROTEINS: IMPROVEMENT THROUGH CHEMICAL AND ENZYMATIC MODIFICATION, Advances in Chemistry Series, Vol. 160, American Chemical Society, Washington, D.C., 1977; e Hermanson, BIOCONJUGATE TECHNIQUES, Academic Press, San Diego, 1996. A marcação pode ser realizada e determinam-se os PST para cada uma das extremidades dos terminais N ou C da proteína. Cerca de 59-90 % das proteínas eucarióticas são acetiladas no terminal N (ver, Creighton, T. E., Proteins: Structures and Molecular Principies (W. H. Freeman, NY, 1984) e são assim refractárias à marcação do terminal N. Contudo, o grupo N-acetilo natural dessas proteínas pode algumas vezes ser utilizado como um marcador para os fins da presente invenção, mas apenas quando um ou mais dos aminoácidos, dentro dos 4 resíduos do terminal N, for ionizável (por exemplo, resíduos de lisina, arginina, histidina, ácido aspártico ou ácido glutâmico) ou podem ser derivados para serem ionizáveis (por exemplo, resíduos de tirosina, serina e cisteína). De acordo com isto, indicam-se as estratégias para marcar quer o terminal N, quer o terminal C, para se conseguir o mais elevado grau de capacidade de sequenciação para qualquer proteína. Uma vez seleccionado o marcador, pode-se modificar um algoritmo de deconvolução para pesquisar as massas que correspondem a quaisquer resíduos modificados.

Características dos espectros de fragmentação O espectro de massa (figura 1) é basicamente o número de iões (contagens) que atacam uma placa detectora. O tempo ao fim do qual os iões atacam a placa detectora determina a relação entre a massa e a carga (m/z) dos iões que atacam a 50 placa. A placa detectora é calibrada com moléculas cujo m/z é conhecido. A cada nivel de tempo de rastreio na placa detectora é então atribuído um valor médio de m/z e recolhem-se os iões com proporções de m/z de uma gama definida, que se baseia na configuração particular do instrumento. Geralmente, o intervalo de dimensão coberto por cada nivel de detector varia em função da raiz quadrada do valor m/z do nivel. Isto significa que a precisão absoluta da massa decresce com o aumento de m/z no espectrómetro de massa. 0 ruido num espectrómetro de massa é sempre positivo. Por isso, o sinal é sempre maior ou igual a zero em cada nivel. Várias caracteristicas do espectro de massa de proteínas fragmentadas podem inibir a capacidade para identificar ou apropriadamente classificar a verdadeira sequência da proteína, consoante a força relativa do sinal dos péptidos marcados e eles são deconvulsionados pelo algoritmo da presente invenção. Sendo a força relativa do sinal definida como a abundância relativa de iões do fragmento de péptido marcado, em relação à abundância de outros iões e do ruído do espectro de massa. A principal característica consiste em atacar o primeiro detector que pode carregar o detector causando um deslocamento de base e aumentando a abundância na região acima de cerca de 500 amu. Isto observa-se como um deslocamento de base aparente no espectro de massa (figura 1) . Os estados de carga múltipla da proteína parental podem também contribuir para variações locais de base da mesma maneira, nas posições de m/z acima de cerca de 1.000 amu. Isto observa-se mais claramente na figura 1, nas posições de m/z acima de cerca de 2.000 amu. A segunda característica observada (figura 2) é que as condições de elevada fragmentação (isto é, elevados potenciais de pulverização para a fragmentação na fonte) 51 resultam numa abundância acrescida de iões fragmentados numa massa periódica para posições carregadas no espectrómetro de massa. Numa escala de calibração da massa de 12C, definida como 12,000000, estes fragmentos de proteina formam um modelo caracteristico de picos espaçados uns dos outros de cerca de 1 amu. Em condições de fragmentação altamente eficientes aparece um pico na proximidade de cada espaçamento de 1 amu no espectro de massa. Observa-se que o espaçamento médio de pico para pico varia ligeiramente com a proteina particular que está a ser fragmentada. Acredita-se que isto é devido a ligeiras diferenças da composição elementar da proteina ou dos fragmentos representados pelos picos em cada amu.

Em condições de elevada fragmentação, virtualmente todos os picos do espectro de massa sobrepõem este modelo próximo de 1 amu (figura 3). É esta observação que permite descobrir os aspectos-chave da presente invenção. Em primeiro lugar, dado que a maior parte dos picos sobrepõem este modelo (um modelo análogo deste em estado de carga múltipla), é possivel distinguir facilmente os picos do sinal dos fragmentos marcados que saem deste espaçamento periódico, tal como fragmentos marcados, em que o marcador contém um ou mais elementos com uma energia de ligação nuclear rara. Em segundo lugar, a periodicidade permite a determinação de minimos e máximos locais no espectro de massa, de tal maneira que o espectro pode ser corrigido para o ruido local, permitindo uma melhor determinação da real abundância das contagens, em cada posição de massa/carga, no espectro de massa. Em terceiro lugar, pode-se determinar uma média ou uma forma caracteristica do pico para o ruido espectral não desejado em condições de elevada fragmentação e este ruido ser deconvulsionado ou subtraido do resto do espectro de massa, reduzindo assim a sua contribuição para o algoritmo de classificação e melhorando a confiança da determinação da 52 sequência produzida pelo algoritmo da presente invenção. Um especialista na matéria entenderá que também se podem encontrar outros modelos com uma periodicidade maior nos dados e, do mesmo modo, aplicá-lo para ajudar à deconvolução da sequência para além deste modelo principal exibido.

Marcadores

Tal como se fez notar antes, as considerações que se seguem são relevantes para a selecção de um agente de marcação: i) a massa do marcador é preferencialmente única e preferencialmente desloca as massas dos fragmentos para regiões do espectro com um fundo fraco; ii) o marcador contém preferencialmente cargas positivas ou negativas fixas para dirigir a fragmentação remota da carga nos terminais N ou C; iii) o marcador é preferencialmente robusto nas condições de fragmentação e não sofre fragmentação desfavorável; iv) a química de marcação é preferencialmente eficiente nas condições de um intervalo, particularmente condições de desnaturação, tornando assim a marcação reprodutível e uniforme nos terminais N ou C; v) a proteína marcada permanece, preferencialmente, solúvel no sistema de tampão de EM escolhido; vi) o marcador aumenta preferencialmente a eficiência de ionização do oligómero ou pelo menos não a suprime; e vii) o marcador pode conter uma mistura de duas ou mais espécies distintas isotopicamente para gerar um modelo espectrométrico de massa único em cada posição do fragmento marcado. 53

Tendo em vista os critérios de selecção do marcador, as partes de marcação preferidas são aquelas que têm um componente de aumento de detecção, um componente de assinatura da massa iónica e um grupo funcional reactivo, preferencialmente um que reaja com os terminais C ou N de uma proteina. 0 grupo reactivo pode estar directamente ligado a cada um ou aos outros dois componentes do marcador.

Numa modalidade, utilizam-se os marcadores aos pares para aumentar mais a capacidade de identificar a escada da massa de outros picos no espectro de massa. A utilização de uma mistura de marcadores isotópicos é particularmente apropriada para uma melhor deconvolução dos picos dos fragmentos marcados, dado que pares abundantes de isótopos vão apenas existir para os fragmentos marcados no espectro de massa e os isótopos normalmente exibem eficiências de ionização e fragmentação similares. Os análogos de um marcador que diferem de um ou mais grupos metilo ou metileno ou no estado de carga, também podem ser utilizados. Podem mesmo utilizar-se duas moléculas quimicamente distintas, em situações de marcação dupla, para aumentar a identificação da escada de massa do fragmento marcado. Numa modalidade, marca-se uma única amostra simultaneamente com dois marcadores e gera-se o espectro de massa combinado. Numa modalidade preferida, as amostras duplicadas são marcadas independentemente e misturadas em proporções praticamente semelhantes antes da fragmentação na EM. Uma vantagem desta última modalidade reside na minimização da possibilidade de diluição do sinal quando os residuos laterais são também marcados. Noutra modalidade, marcam-se as amostras duplicadas com marcadores separados, fragmentam-se separadamente na EM e adiciona-se o espectro de massa para formar um espectro virtual marcado duplamente. 54

Ainda noutra modalidade, separa-se o grupo funcional reactivo de um ou de ambos os componentes de aumento de detecção e um componente de assinatura da massa iónica, por meio de um ligante. 0 ligante é concebido, preferencialmente, de tal modo que seja quimicamente estável e inerte e de tal modo que permita uma separação eficiente do grupo reactivo e pelo menos um dos outros dois componentes do marcador. Numa modalidade preferida da presente invenção, o ligante é composto por uma cadeia de hidrocarboneto ou, mais preferencialmente, por uma cadeia de hidrocarboneto ligada a um anel de arilo ou de heteroarilo e, preferencialmente, permite uma separação adicional entre o grupo ionizável e o grupo de ligação.

Como será bem compreendido por um especialista nesta técnica, pode utilizar-se uma variedade de cadeias de hidrocarbonetos e cadeias de hidrocarbonetos modificadas dentro da presente invenção. As cadeias de hidrocarbonetos preferidas que se ligam ao anel de fenilo podem ser encontradas na familia dos alcanos, sendo particularmente preferidos ligantes que variam entre 2 átomos de carbono até 20 átomos de carbono de comprimento. Numa modalidade preferida da presente invenção, o ligante é um fenetilo, amida alifática ou um grupo de amina secundária.

Detecção dos componentes de melhoramento

Um componente de melhoramento da detecção, tal como se utiliza aqui, refere-se a uma porção de uma parte de marcação que facilita a detecção dos fragmentos de proteinas no espectrómetro de massa. De acordo com isto, o componente que aumenta a detecção pode providenciar espécies iónicas carregadas positivamente, nas condições de fragmentação, numa câmara de ionização de um espectrómetro de massa ou o 55 componente pode providenciar espécies iónicas carregadas negativamente, nas condições de fragmentação numa câmara de ionização de um espectrómetro de massa. Para muitos dos componentes de melhoria da detecção, a quantidade de espécies ionizadas presentes dependerá do meio utilizado para solubilizar a proteina. Os componentes de melhoria de detecção preferidos (isto é, as espécies que podem gerar uma carga positiva ou negativa) podem ser classificados em três categorias: 1) componentes que comportam uma carga "pesada", 2) componentes que comportam uma carga "leve" e 3) componentes que não providenciam nenhuma carga mas que estão numa grande proximidade com os residuos de proteina que comportam uma carga "leve".

Os componentes que comportam uma carga "pesada" são arranjos de átomos que estão praticamente ionizados sob todas as condições, independentemente do pH do meio. Os componentes de melhoria de detecção carregados positivamente com uma carga "pesada" incluem, mas não se limitam a grupos tetra-alquilo ou tetra-aril-amónio, tetra-alquilo ou tetra-aril-fosfónio e grupos heterociclilo ou heteroarilo N-alquilados ou N-acilados (por exemplo, piridinio). Os componentes de melhoria de detecção carregados negativamente com uma carga "pesada" incluem, mas não se limitam a grupos de borato de tetra-alquilo ou de tetra-acilo.

Os componentes que comportam cargas "leves" são arranjos de átomos que estão ionizados a um pH acima ou abaixo do seu pKa, respectivamente (isto é, bases e ácidos). Dentro do contexto da presente invenção, cargas positivas "leves" incluem as bases com um pKa superior a 8, preferencialmente, superior a 10 e, ainda mais preferencialmente, superior a 12. No contexto da presente invenção, as cargas negativas "leves" incluem os ácidos com um pKa inferior a 4,5 e, 56 preferencialmente, inferior a 2 e, ainda mais preferencialmente, inferior a 1. Para pKa extremas, as cargas "leves" aproximam-se da classificação como cargas "pesadas". Os componentes de aumento de detecção carregados positivamente com cargas "leves" incluem, mas não se limitam aos Io, 2o e 3o grupos alquil- ou aril-amónio, aos grupos heterociclilo e heteroarilo substituídos e insubstituidos (por exemplo, piridínio), bases de Schiff alquiladas ou ariladas ou grupos de imina e grupos guanidino. Os componentes de aumento da detecção carregados negativamente com cargas "leves" incluem, mas não se limitam a grupos de carboxilato de alquilo ou de arilo, grupos de sulfonato de alquilo ou de arilo e grupos de fosfonatos ou de fosfato de alquilo ou de arilo.

Tanto para os grupos carregados com cargas "pesadas" e "leves", tal como será entendido por um especialista na matéria, os grupos estarão acompanhados por contra-iões de carga oposta. Por exemplo, dentro das várias modalidades, os contra-iões para os grupos carregados positivamente incluem oxianiões de ácidos orgânicos de alquilo inferior (por exemplo, acetato), ácidos orgânicos halogenados (por exemplo, trifluoroacetato) e organo-sulfonatos (por exemplo, sulfonato de N-morfolino-etano). Os contra-iões para os grupos carregados negativamente incluem, por exemplo, catiões de amónio, catiões de alquil- ou aril-amónio e catiões de alquil- ou aril-sulfónio.

Os componentes que são neutros mas estão em grande proximidade com os residuos de proteína que comportam cargas "leves" (por exemplo, lisina, histidina, arginina, ácido glutâmico ou ácido aspártico) podem ser utilizados como componentes de aumento de detecção. Neste caso, o marcador não comporta grupos ionizados ou ionizáveis e o aumento de 57 detecção é dado por uma proximidade do residuo de proteína que comporta a carga. No contexto da presente invenção, define-se grande proximidade como dentro de cerca de 4 resíduos do terminal marcado da proteína e, mais preferencialmente, na proximidade de cerca de 2 resíduos do terminal marcado da proteína. 0 componente de aumento da detecção do marcador pode também ter cargas múltiplas ou ser capaz de ficar carregado com cargas múltiplas. Por exemplo, um marcador com cargas negativas múltiplas pode incorporar uma ou simplesmente espécies carregadas (por exemplo, carboxilato) ou pode incorporar uma ou mais espécies com carga múltipla (por exemplo, fosfato). Num exemplo representativo desta modalidade da presente invenção, uma espécie que comporta múltiplos carboxilatos, tal como, por exemplo, um agente de quelação de poliaminocarboxilato (por exemplo, EDTP, DTPA) está ligada à proteína. Os processos de ligação dos poliaminocarboxilatos às proteínas e a outras espécies são bem conhecidos na técnica. Ver, por exemplo, Meares et al., "Properties of In Vivo Chelate-Tagged Proteins and Polypeptides." em MODIFICATION OF PROTEINS: FOOD, NUTRITIONAL, AND PHARMAC0L0GICAL ASPECTS;" Feeney, et al. , Eds., American Chemical Society, Washington, D.C., 1982, p. 370-387; Kasina et al., Bioconjugate Chem., 9: 108-117 (1998); Song et al., Bioconjugate Chem., 8: 249-255 (1997).

De uma forma semelhante, os marcadores que têm cargas positivas múltiplas podem ser comprados ou preparados utilizando processos acessíveis para os especialistas na matéria. Por exemplo, uma parte de marcação que comporta duas cargas positivas pode ser rapidamente e facilmente preparada a partir de uma diamina (por exemplo, etilenodiamina). Numa via de síntese representativa, a diamina é mono-protegida 58 utilizando processos conhecidos na técnica e parte da amina não protegida é, em seguida, di-alquilada com espécies que comportam uma ou mais cargas positivas (por exemplo, brometo de (2-bromoetil)trimetilamónio) (Aldrich)). A desprotecção, utilizando processos reconhecidos na técnica, origina espécies de marcação reactivas comportando, pelo menos, duas cargas positivas. Muitas dessas vias simples de síntese para multiplicar espécies de marcação carregadas serão evidentes para um especialista na matéria.

Componente de assinatura da massa iónica A componente de assinatura da massa iónica é a porção da parte de marcação que exibe, preferencialmente, uma única assinatura de massa iónica nas análises espectroméricas de massa. A componente de assinatura da massa iónica inclui partes que não se ionizam eficientemente nas condições em que as proteínas se ionizam (por exemplo, composto de carbono aromático), assim como moléculas que se ionizam facilmente nas condições de ionização das proteínas para gerar espécies iónicas com cargas múltiplas. Ambos os tipos de entidades químicas podem ser utilizados para deslocar a assinatura da massa iónica dos aminoácidos e dos péptidos ligados ao marcador (após fragmentação da proteína marcada) no espectro de massa. Como resultado, os aminoácidos e os péptidos marcados distinguem-se facilmente dos aminoácidos e dos péptidos não marcados pelo seu modelo de massa iónica no espectro de massa resultante. Numa modalidade preferida, a componente de assinatura da massa iónica confere uma massa a um fragmento de proteína produzido durante a fragmentação espectrométrica de massa, que não coincide a massa de resíduo para nenhum dos 20 aminoácidos naturais. 59

Na modalidade mais preferida, a componente de massa de assinatura iónica é qualquer elemento que exiba uma energia de ligação nuclear diferente dos principais constituintes da proteína. Os principais constituintes das proteínas são: C, Η, N, 0 e S. Definido energias de ligação nuclear em termos, do padrão de massa 12C =12,000000 (figura 4), os elementos preferidos com assinaturas únicas de massa iónica são os elementos da tabela periódica com números atómicos entre 17 (Cl) e 77 (Ir). Os elementos particularmente preferidos para serem utilizados como componentes de assinatura da massa iónica do marcador incluem elementos com números atómicos entre 35 (Br) e 63 (Eu) . Os elementos mais preferidos para serem utilizados como componentes de assinatura da massa iónica são aqueles com números atómicos entre 39 (Y) e 58 (Ce). Br e Eu são também componentes particularmente preferidos do marcador porque cada um destes elementos exibe dois isótopos estáveis com proporções aproximadamente iguais e energias de ligação nuclear que diferem significativamente do modelo de pico periódico observado para as proteínas fragmentadas no espectrómetro de massa. Os elementos I e Y são também componentes de assinatura de massa iónica particularmente preferidos, porque eles exibem a maior diferença na energia de ligação nuclear a partir dos picos periódicos dos fragmentos de proteína no espectro de massa e porque são facilmente incorporados nos marcadores. Os metais de transição, dentro das listas dos preferidos e mais preferidos elementos únicos de assinatura de massa iónica podem muitas vezes ser incorporados em marcadores como quelatos, similares aos conhecidos Y (Lewis, et al., Bioconjugate Chemistry 5: 565-576 (1994)) e Eu (Zarling, et al., patente de invenção U.S. N°. 5.891.656).

Noutra modalidade, pode-se criar um componente de assinatura de massa iónica utilizando um marcador carregado 60 multiplamente. Esse marcador carregado multiplamente pode incorporar um elemento com uma energia de ligação nuclear diferente ou pode consistir apenas em elementos semelhantes em termos das energias de ligação nuclear aos constituintes principais da proteina. Esses estados de carga podem ser formados com cargas "pesadas" ou "levas" ou uma combinação de cargas "pesadas" e "leves" incorporadas no marcador. Os estados de cargas múltiplas "pesadas" entre 2 e 4 são os preferidos. Um estado de carga múltipla "pesada" de 3 é o mais preferido quando o marcador consiste apenas em elementos com energias de ligação nuclear semelhantes a C, Η, N, 0 e S. Um estado de carga múltipla "pesada" de 2 é o mais preferido quando o marcador contém pelo menos um elemento que exibe uma energia de ligação nuclear diferente da de C, Η, N, 0 e S.

Tal como será entendido por um especialista na matéria, podem aparecer picos do espectro de massa espúrios não apenas da fragmentação dos aminoácidos e dos péptidos não marcados mas também por causa de impurezas na amostra e/ou na matriz. Para aumentar mais a identidade única da assinatura de massa iónica do marcador e para ser capaz de identificar os picos desejados dos fragmentos marcados a partir do "ruído", é preferível deslocar os fragmentos marcados para regiões com menos ruído espectral por meio da optimização da massa do marcador. Por exemplo, é preferível que a massa do marcador gere um ião maior do que 100 amu e inferior a 700 amu. O limite superior da massa do marcador pode ser determinado pela resolução de massa do espectrómetro de massa utilizado. Isto pode ser feito aumentando o peso molecular de um marcador de baixo peso molecular ou aumentando o número de cargas num marcador de alto peso molecular.

Um processo alternativo para providenciar uma assinatura de massa mais única a uma parte de marcação consiste em 61 incorporar isótopos estáveis no marcador (ver, por exemplo, Gygi et al., Nature Biotechnol. 17: 994-999 (1999)). Por exemplo, incorporando oito átomos de deutério numa parte de marcação e marcando a proteína com uma mistura a 50:50 do marcador deuterado e não deuterado, os fragmentos de carga única resultantes, que inclui o marcador, são facilmente identificados como dobletes igualmente intensos; na massa correspondente às espécies com o marcador não deuterado e o outro na massa corresponde às espécies com o marcador deuterado com um espaçamento de 8 amu. Numa modalidade preferida, a diferença de massa é superior a cerca de 1 amu no estado de carga simples. Na modalidade mais preferida, a diferença de massa é de cerca de 4 a cerca de 10 amu no estado de carga simples. A incorporação de múltiplos isótopos dos elementos que exibem energias de ligação nuclear significativamente diferentes de C, Η, N, O e S é a preferida. Os elementos Br e Eu são os mais preferidos porque exibem abundâncias de dois isótopos naturais a cerca de 50:50.

Outro processo para conferir uma assinatura de massa mais única a uma parte de marcação consiste em incorporar uma mistura de substituições de alquilo e/ou de arilo no marcador, de tal modo que o conjunto de picos de fragmento correspondente é facilmente reconhecível no espectro de massa. Por exemplo, a proteína pode ser marcada com uma mistura de um marcador que contém um grupo de trimetil-amónio e o mesmo marcador que contém um grupo de dimetiletil-amónio em lugar do grupo trimetilo-amónio. Esta parte de marcação produz dois picos iónicos de fragmentos para cada aminoácido na sequência que diferem de 14 amu um do outro. Será evidente para os especialistas na matéria que se podem derivar daqui muitas combinações. 62

Grupos reactivos

Um terceiro componente da parte de marcação é um grupo funcional que é reactivo com o grupo amino do terminal N, o grupo amino do terminal C ou outro constituinte do terminal N ou C do aminoácido. 0 grupo funcional reactivo pode estar localizado em qualquer posição no marcador. Por exemplo, o grupo reactivo pode estar localizado num núcleo de arilo ou numa cadeia, tal como, uma cadeia de alquilo ligada a um núcleo de arilo. Quando o grupo reactivo está ligado a uma cadeia de alquilo ou uma cadeia de alquilo substituída, fixada a um núcleo de arilo, o grupo reactivo está preferencialmente localizado na posição terminal de uma cadeia de alquilo. Os grupos reactivos e as classes de reacções úteis na prática da presente invenção são geralmente aquelas que são bem conhecidas na técnica da química dos bio-conjugados. As classes de reacções actualmente favorecidas são aquelas que prosseguem em condições relativamente suaves num meio dissolvente aquoso ou numa mistura de dissolventes aquosos/orgânicos.

As químicas particularmente preferidas que atingem os grupos de amina primária nas proteínas (incluindo o terminal N) incluem, por exemplo: fluoretos de arilo (ver, Sanger, F., Biochem. J., 39:507 (1945); Creighton, T. E., Proteins: Structures and Molecular Principies (W. H. Freeman, NY, 1984); Niederwieser, A., emn: Methods in Enzymology, 25: 60-99 (1972); e Hirs, C.H.W., et al., Arch. Biochem. Biophys., 111: 209-222 (1965)), cloretos de sulfonilo (Gray, W. R., em: Methods in Enzymology, 25: 121-137 (1972)), cianatos (Stark, G. R., em: Methods in Enzymology, 25: 103-120 (1972)), isotiocianatos (Niall, H. D., em: Methods in Enzymology, 27: 63 942-1011 (1973)), imido-ésteres (Galella, G., et al., Can. J. Biochem., 60: 71-80 (1982)), ésteres de N-hidroxi-succinimidilos (Lomant, A.J., et al., J Mol. Biol., 104: 43-261 (1976)), O-acil-isoureias (Lomant, A.J., et al., J. Mol. Biol., 104: 243-261 (1976)), clorocarbonatos e carbonilazidas (Solomons, T.W.G, Organic Chemistry (John Wiley & Sons, NY, 1976), aldeídos (Novotny et al., Anal. Chem., 63: 408 (1991) e Novotny et al., J. Chromatography, 499: 579 (1990)) e halogenetos de alquilos e alcenos activados (Wagner, D.S., et al., Biol Mass Spectrometry, 20: 419-425 (1991)). Exemplos preferidos de constituintes químicos que reagem com os grupos carboxilo das proteínas são os halogenetos de benzilo (Solomons, T.W.G, Organic Chemistry (John Wiley & Sons, NY, 1976); Merrifield, B., Science, 232: 341-347 (1986); e Horton, H. R., et al., Methods in Enzymology, 25: 468 (1972)) e carbodi-imida (Yamada, H., et al., Biochem., 20: 4836-4842)), particularmente se se utiliza N-hidroxissuccinimida estabilizada (ver, Grabarek, Z., et al., Anal. Biochem. 185: 131-135 (1990)). Espera-se que estas duas abordagens de marcação com carboxilo marquem resíduos de aminoácidos contendo carboxilo (por exemplo, aspartato e glutamato) em conjunto com o do terminal C. Estas e outras reacções úteis estão discutidas, por exemplo, em March, ADVANCED ORGANIC CHEMISTRY, 3a Ed., John Wiley & Sons, Nova Iorque, 1985; Hermanson, BIOCONJUGATE TECHNIQUES, Academic Press, San Diego, 1996; e Feeney et al. , MODIFICATION OF PROTEINS; Advances in Chemistry Series, vol. 198, American Chemical Society, Washington, D.C., 1982.

Os grupos funcionais reactivos podem ser escolhidos de tal maneira que não participem ou que não interfiram com as reacções necessárias para a junção do marcador. Alternativamente pode-se proteger um grupo funcional reactivo de participar na reacção por meio da presença de um grupo de 64 protecção. Os especialistas na matéria sabem como proteger um grupo funcional particular de participar na reacção de tal modo que ele não interfira com um conjunto de condições de reacção escolhidas. Para exemplos de grupos de protecção úteis, ver, por exemplo, Greene et al., PROJECTIVE GROUPS IN ORGANIC SYNTHESIS, John Wiley & Sons, Nova Iorque, 1991.

As figuras 5 e 6 mostram as estruturas de uma variedade de partes de marcação com um ou mais átomos de bromo (figura 5) ou de iodo (figura 6) . Os marcadores apropriados incluem ácido 5-bromonicotinico, ácido 6-bromo-2-hidroxi-quinolino-4-carboxilico (BHQC), ácido 6-bromopicolinico, 4-bromo-benzaldeido, assim como outros ácidos aril-carboxilicos substituídos com bromo e disponíveis comercialmente. Ainda outros marcadores podem ser apropriadamente preparados por via da bromação ou da iodação de um ácido aril-carboxílico ou de uma sua forma protegida. Os processos para a bromação e a iodação de compostos aromáticos são bem conhecidos dos especialistas nesta técnica e podem encontrar-se referências para a sua preparação em textos gerais, tais como, March, ADVANCED ORGANIC CHEMISTRY, 4a Ed., John Wiley & Sons. Um especialista na matéria compreenderá ainda que os resíduos de ácidos carboxílicos estão normalmente activados (por exemplo, sob a forma de um éster de NHS) antes do contacto com a proteína. Adicionalmente, o exame dos resíduos de marcação indica que a maioria tem um átomo de azoto ionizável (presentes como um grupo amónio, a um pH abaixo da pKa do ião de amónio) . 0 quadro 1 dá uma descrição não limitativa das partes de marcação úteis nos marcadores da presente invenção. 65

Quadro 1

Marcador genérico de defeito de massa • A - partes que comportam cargas (positivas ou negativas para a ionização por EM. • B - partes que são elementos de defeitos de massa. • C - partes que são grupos reactivos para a ligação a biomoléculas. • As partes A, B e C estão localizadas numa variedade de estruturas aromáticas/alifáticas.

IA. Exemplos de Partes An: -NRR'

R,R'=H, alquilo, aromático R=H, alquilo, aromático, OH, OR', N02, Cl, F... X=N ou outro heterociclo básico

N—R* R,R'=H, alquilo, aromático 0 í| 0 1 1 - -Oè—OH ϋ l\ o t! o NR" R,R',R",R"'=H, alquilo, aromático

** - K NR'R R 1 „ p-OHAh

OH — PRR' - - NRR'R* R,R'=H, alquilo, aromático R,R',R"=alquilo, aromático 66

Quadro 1

Marcador genérico de defeito de massa

Θ - ~ BRR-R' R, R',R" = alquilo, aromático R=H, alquilo, aromático, OH, OR", N02, Cl, F... R'=alquilo, aromático, X=N-, S-, 0- contendo heterociclo R,R'=alquilo, aromático Φ - - SRR'

OH - - -QRR’ R,R'=alquilo, aromático R=H, alquilo, aromático, N02, Cl, F... 1B. Exemplos de Partes Bn:

(Z=Br, I) (R=H, alquilo, aromático, OH, OR', N02, Cl, F...) ---CZ3

1C. Exemplos de

(X=H ou S03H) (Z=Br, L) quelatos de metal (M=Y, La, Ce, Eu...; -5) (X=N, 0, S) (R,R',R",R'''=alquilo, aromático) (Nota: A estrutura quelante pode ser de qualquer dimensão geométrica com qualquer número de átomos de coordenação)

Partes C: -N=C=S 67

Quadro 1

Marcador genérico de defeito de massa -----NJS=STCs===ai

(R=alquilo, aromático) R

(R=H, alquilo, aromático, N02, F, Cl, OH, 01)

----NHR (R=H, alquilo, aromático (ligação aos ácidos carboxilicos activados)

(R=alquilo, aromático) Sínteses

Uma vez seleccionados, o grupo reactivo, o ligante e os grupos ionizáveis ou os componentes iónicos de assinatura de massa, sintetiza-se o composto final utilizando reacções padrão da química orgânica. Um composto preferido utilizado, dentro da presente invenção, é o éster NHS ou o ácido 5-bromo-3-piridilacético (5-Br-3-PAA) ou um agente análogo.

Com a selecção de uma parte de marcação apropriada, as condições para a ligação do marcador à proteína devem assegurar que os terminais N ou C da proteína estão uniformemente marcados e que a proteína marcada permanece solúvel em sistemas de tampão de EM apropriados. Normalmente, 68 a marcação será feita em condições de desnaturação (por exemplo, tensioactivos ou ureia 8M). Também se podem utilizar tensioactivos e a ureia suprimem ambos a ionização por EM e os processos que providenciam uma rápida limpeza e uma transferência da amostra de proteina marcada para um tampão de EM apropriado.

Partes Detectáveis

Noutra modalidade preferida, a proteina é marcada com uma parte que aumenta a sua detectabilidade, por exemplo, nos processos de purificação e separação de proteinas (por exemplo, electroforese). A parte detectável pode ser detectada, por exemplo, por espectroscopia (por exemplo, UV/Vis, fluorescência, ressonância do spin do electrão (RSE), ressonância magnética nuclear (RMN) e similares), detecção de radioisótopos, etc. Quando se detecta a proteina por UV/Vis, é desejável, geralmente, ligar um marcador cromofórico à proteina (por exemplo, fenilo, naftilo, etc.). Do mesmo modo, para a detecção por espectroscopia de fluorescência, liga-se, preferencialmente, um fluoróforo à proteína. Por exemplo, o Quantum Dye™ é um quelato de Eu fluorescente e o éster de succinimidilo e 5-carboxi-2',4',5',7'-tetrabromo-sulfono-fluoresceína é um fluoróforo contendo bromo reactivo do terminal N (comercialmente disponível na Research Organics, com o número de catálogo #0723Q e na Molecular Probes, com o número de catálogo #C-6166, respectivamente). Para a SER, a parte detectável pode ser um radical livre, tal como uma parte que inclui um grupo nitróxido. Quando se detecta a proteína por um processo de RMN, a parte detectável pode ser enriquecida com o núcleo acessível por RMN, tal como, flúor, 13C e similares. 69

Numa modalidade presentemente preferida, a parte detectável é um fluoróforo. Muitos marcadores fluorescentes reactivos estão disponíveis comercialmente, por exemplo, na companhia química SIGMA (Saint Louis, MO) , Molecular Probes (Eugene, OR) , R&D systems (Minneapolis, MN), Pharmacia LKB Biotechnology (Piscataway, NJ) , CLONTECH Laboratories, Inc. (Paio Alto, CA), Chem Genes Corp., Aldrich Chemical Company (Milwaukee, WI), Glen Research, Inc., GIBCO BRL Life Technologies, Inc. (Gaithersburg, MD), Fluka Chemica-Biochemika Analytika (Fluka Chemie AG, Buchs, Suíça) e PE-Applied Biosystems (Foster City, CA) , assim como, muitas outras fontes comerciais conhecidas pelos especialistas. Além disso, os especialistas na matéria reconhecerão a forma de seleccionar um fluoróforo apropriado para uma aplicação particular e, se necessário, disponível comercialmente e se não estiver facilmente disponível comercialmente, serão capazes de sintetizar o fluoróforo necessário de novo ou modificar sinteticamente compostos fluorescentes disponíveis comercialmente para chegar ao marcador fluorescente desejado.

Há muitíssimas orientações práticas disponíveis na literatura para seleccionar um fluoróforo apropriado para um marcador particular, conforme exemplificado pelas seguintes referências: Pesce et al., Eds., FLUORESCENCE SPECTROSCOPY (Mareei Dekker, New York, 1971); White et al., FLUORESCENCE ANALYSIS: A PRACTICAL APPROACH (Mareei Dekker, New York, 1970); e similares. A literatura também inclui referências que dão listas exaustivas de moléculas fluorescentes e cromogénicas e as suas relevantes propriedades ópticas para a escolha de pares de repórteres/atenuadores (ver, por exemplo, Berlman, HANDBOOK OF FLUORESCENCE SPECTRA OF AROMATIC MOLECULES, 2a edição (Academic Press, New York, 1971); Griffiths, COLOUR AND CONSTITUTION OF ORGANIC MOLECULES (Academic Press, Nova Iorque, 1976); Bishop, Ed., INDICATORS 70 (Pergamon Press, Oxford, 1972); Haugland, HANDBOOK OF FLUORESCENT PROBES AND RESEARCH CHEMICALS (Molecular Probes, Eugene, 1992) Pringsheim, FLUORESCENCE AND PHOSPHORESCENCE (Interscience Publishers, Nova Iorque, 1949); e similares. Além disso, há uma extensiva orientação na literatura para derivar moléculas repórteres e atenuantes para a ligação covalente por via de grupos reactivos facilmente disponíveis, que se podem juntar a uma molécula. A diversidade e a utilidade das quimicas disponíveis, para a conjugação de fluoróforos com outras moléculas e superfícies, estão exemplificadas por um corpo extensissimo de literatura sobre a preparação de ácidos nucleicos derivados com fluoróforos. Ver, por exemplo, Haugland (supra); Ullman et al., patente U.S. N°. 3.996.345; Khanna et al., patente U.S. N°. 4.351.760. Assim, está bem dentro das capacidades dos especialistas na matéria a escolha de um par de permuta energética para uma aplicação particular e para conjugar os elementos deste par com uma molécula-sonda, tal como, por exemplo, um pequeno material molecular bioactivo, ácido nucleico, péptidos ou outros polímeros.

Para além dos fluoróforos que se ligam directamente a uma proteína, os fluoróforos podem também ligar-se por meios indirectos. Num exemplo de uma modalidade, uma molécula de ligando (por exemplo, biotina) liga-se, preferencialmente, covalentemente à proteína. O ligando liga-se então a outra molécula (por exemplo, estreptavidina) que ou é inerentemente detectável ou está ligada covalentemente a um sistema de sinal, tal como um composto fluorescente da presente invenção ou a uma enzima que produz um composto fluorescente por conversão de um composto não fluorescente. As enzimas úteis de interesse como marcadores incluem, por exemplo, hidrolases, particularmente, fosfatases, esterases e 71 glicosidases ou oxidases, particularmente, peroxidases. Os compostos fluorescentes incluem fluoresceina e os seus derivados, rodamina e os seus derivados, dansilo, umbeliferona, etc., tal como se discutiu antes. Para uma revisão dos vários sistemas que produzem marcação ou sinal e que podem ser utilizados, ver, a patente U.S. N°. 4.391.904.

Partes fluorescentes detectáveis úteis podem ser produzidas para fluorescer, excitando-as de qualquer forma conhecida na técnica incluindo, por exemplo, com energia da luz ou energia electroquímica (ver, por exemplo, Kulmala et al, Analytica Chimica Acta 386: 1 (1999)). Os meios de detecção de marcadores fluorescentes são bem conhecidos dos especialistas na matéria. Assim, por exemplo, os marcadores fluorescentes podem ser detectados por excitação do fluoróforo com comprimento de onda da luz apropriado e a detecção da fluorescência resultante. A fluorescência pode ser detectada visualmente, por meio de um filme fotográfico, pelo uso de detectores electrónicos, tais como, dispositivos acoplados a uma carga (DAC) ou fotomultiplicadores e similares. Do mesmo modo, os marcadores enzimáticos podem ser detectados providenciando os substratos apropriados para a enzima e a detecção do produto de reacção resultante.

Quanto menos etapas de processo houver entre qualquer técnica de separação e o processo de sequenciação por EM, mais rapidamente essas proteínas podem ser identificadas e mais baixo será o custo da pesquisa proteómica. Os tampões de electroforese típicos (por exemplo, Hochstrasser et al. Anal Biochem., 173: 424 (1988) e 0'Farrel, J Biol. Chem., 250: 4007 (1975)) contêm componentes (por exemplo, tampões de tris(hidroximetil)aminometano e sulfato de dodecilo e sódio), que suprimem a ionização das proteínas no espectrómetro de massa. Estes componentes podem ser substituídos por outros 72 componentes mais voláteis (por exemplo, tampões de sulfonato de mo rfolino-alquilo e tensioactivos efémeros) que não suprimem a ionização na EM. Noutra modalidade, diluem-se as amostras com bicarbonato de amónio ou tampão de acetato de amónio para providenciar uma fonte de protões voláteis para o espectrómetro de massa. Wilm, M. et al., Anal. Chem., 68: 1-8 (1996) . Noutra modalidade, faz-se passar um permutador de tampão através da diálise de fluxo cromatográfico ou tangencial, à medida que a amostra for transportada de fora do processo de preparação para dentro da EM.

Processo de marcação

Nalguns casos, os sais (por exemplo, TRIS e SDS) e a ureia presentes nos tampões de electroforese podem suprimir a ionização das proteínas marcadas e podem gerar iões de massa/carga baixas que confundem potencialmente a análise da sequência. De acordo com isto, os processos de diálise de spin podem ser utilizados para sistemas de tampão de permuta rápida, antes da análise por EM. Alternativamente podem utilizar-se colunas de dessalinização (por exemplo, do tipo ZipTip™ vendidas pela Millipore) para a limpeza da amostra e para a permuta do tampão. As amostras dessalinizadas podem ser novamente suspensas em bicarbonato de amónio 0,1 M, tal como descrito por Wilm e Mann (ver, Wilm, et al., ibid.) com uma adição minima de metanol ou em tampão de acetato de amónio 0,01 M (com ácido fórmico a 0,1 %) , com a adição minima de acetonitrilo, tal como descrito por Mark (ver "Protein structure and Identification with MS/MS", comunicação apresentada na série de seminários PE/Sciex, Protein Characterization and Proteomics: Automated high throughput technologies for drug discovery, Foster City, CA (Março de 1998)). 73

As taxas de acoplamento do composto podem ser ensaiadas para assegurar que o composto é apropriado para a sequenciação dos polipéptidos. Em geral, quanto mais rápidas forem as taxas de acoplamento, mais preferido é o composto. São particularmente preferidas taxas de acoplamento entre 2 e 10 minutos, a 50 °C até 70 °C. Do mesmo modo, são também preferidas taxas de reacção rápidas, porque a exposição da mistura reaccional, ao longo de um período de tempo extenso, pode hidrolisar as ligações dos péptidos ou pode levar a reacções secundárias ineficiente e irreprodutíveis com os resíduos de polipéptido, o que pode complicar a deconvolução espectral da massa.

Noutra modalidade preferida, ligam-se reversivelmente um ou mais componentes de uma mistura de proteínas a um suporte sólido antes de um marcador ser ligado a um polipéptido. Podem utilizar-se vários materiais como suportes sólidos incluindo, por exemplo, numerosas resinas, membranas ou papéis. Estes suportes podem ainda adicionalmente, derivar para incorporar uma funcionalidade clivável. Um certo número de grupos cliváveis que podem ser utilizados para este fim incluem ligações de dissulfuretos (— S — S —), glicol (-CH[OH]-CH[OH]-), azo (-N=N-), sulfona (-SO2-) e éster (-COO-) (ver, Tae, Methods in Enzymology, 91: 580 (1983)). Os suportes que são particularmente preferidos incluem membranas, tais como, Sequelon™ (Milligen/Biosearch, Burlington, Mass.). Os materiais representativos para a construção destes suportes incluem, entre outros, poliestireno, vidro poroso, fluoreto de polivinilidino e poliacrilamida. Em particular, os suportes de poliestireno incluem, entre outros: (1) um poliestireno de (2-aminoetil)-aminometilo (ver, Laursen, J. Am. Chem. Soc. 88: 5344 (1966)); (2) um poliestireno semelhante ao do número (1) com um grupo aril-amino (ver, Laursen, Eur. J. Biochem. 20: 89 (1971)); (3) um poliestireno 74 de amino (ver, Laursen et al., FEBS Lett. 21: 67 (1972)); e (4) um polistireno de trietilenotetramina (ver, Horn et al., FEBS Lett. 36: 285 (1973)). Os suportes de vidro poroso incluem: (1) vidro de 3-aminopropilo (ver, Wachter et al., FEBS Lett. 35: 97 (1973)); e (2) vidro de N-(2-aminoetil)-3-aminopropilo (ver, Bridgen, FEBS Lett. 50: 159 (1975)). A reacção destes suportes derivados de vidro poroso com di-isotiocianato de p-fenileno levam a vidros de isotiocianato activados (ver, Wachter et al., supra). Os suportes à base de poliacrilamida são também úteis, incluindo uma polidimetil-acrilamida de β-alanil-hexametilenodiamina reticulada (ver, Atherton et al., FEBS Lett. 64: 173 (1976)), e uma poliacrilamida de N-amino-etilo (ver, Cavadore et al., FEBS Lett. 66: 155 (1976)).

Um especialista na matéria saberá facilmente utilizar a quimica apropriada para acoplar o polipéptido aos suportes sólidos descritos antes (ver, de forma geral, Machleidt e Wachter, Methods in Enzymology: [29] New Supports in Solid-Phase Sequencing 263-277 (1974) . Os suportes e os processos de acoplamento preferidos incluem a utilização de papel de fibra de vidro de aminofenilo com o acoplamento de EDC (ver, Aebersold et al., Anal. Biochem. 187: 56-65 (1990)); filtros de vidro DITC (ver, Aebersold et al., Biochem. 27: 6860-6867 (1988) e a membrana de fluoreto de polivinilidino (PVDF) (Immobilon P™, Milligen/Biosearch, Burlington, Mass.), em conjunto com a quimica de SequeNet™ (ver, Pappin et al., CURRENT RESEARCH IN PROTEIN CHEMISTRY, Villafranca J. (ed.), p. 191-202, Academic Press, San Diego, 1990)).

Na prática da presente invenção, a ligação do polipéptido ao suporte sólido pode ocorrer quer por interacção covalente ou não covalente entre o polipéptido e o suporte sólido. Para a ligação não covalente do polipéptido 75 ao suporte sólido, escolhe-se o suporte sólido de tal maneira que o polipéptido se ligue ao suporte sólido por interacções não covalentes. Por exemplo, pode-se revestir um suporte sólido de fibra de vidro com polibreno, um sal polimérico de amónio quaternário (ver, Tarr et al., Anal. Biochem., 84: 622 (1978)), para providenciar uma superficie do suporte sólido que não se liga covalentemente ao polipéptido. Outras fases sólidas de absorção apropriadas estão disponiveis comercialmente. Por exemplo, os polipéptidos em solução podem ser imobilizados em polímeros sintéticos, tais como, difluoreto de polivinilidino (PVDF, Immobilon, Millipore Corp., Bedford, Mass.) ou PVDF revestido com uma superfície catiónica (Immobilon CD, Millipore Corp., Bedford, Mass.). Estes suportes podem ser utilizados com ou sem polibreno. Alternativamente, as amostras de polipéptido podem ser preparadas para a sequenciação por meio da extracção do polipéptido directamente da poliacrilamida, por um processo designado por "electroblotting". 0 processo de "electroblotting" elimina o isolamento do polipéptido de outros péptidos que podem estar presentes em solução. As membranas apropriadas para "electroblotting" incluem Immobilon e Immobilon CD (Millipore Corp., Bedford, Mass.).

Mais recentemente têm sido desenvolvidos processos automatizados que permitem que os produtos químicos sejam tratados em polipéptidos imobilizados em suportes sólidos por uma interacção hidrofóbica não covalente. Nesta abordagem, as amostras, em tampões aquosos, que podem conter sais e desnaturantes, são postas em colunas e carregadas à pressão contendo um suporte sólido. 0 polipéptido de ligação é então lavado à pressão para eliminar componentes de interferência, deixando o polipéptido ligado pronto para a marcação (ver, Hewlett-Packard Product Brochure 23-5091-5168E (Nov. 1992) e Horn, patente U.S. N°. 5.918.273 (29 de Junho de 1999). 76 0 polipéptido ligado reage em determinadas condições e durante o tempo suficiente para que ocorra o acoplamento entre os aminoácidos do terminal do polipéptido e a parte da marcação. As propriedades físicas do suporte podem ser seleccionadas para optimizar as condições de reacção para uma parte de marcação específica. Preferencialmente, o acoplamento com os grupos amino do polipéptido ocorre em condições básicas, por exemplo, na presença de uma base orgânica, tal como, trimetilamina ou N-etilmorfolina. Numa modalidade preferida, deixa-se o marcador reagir com o péptido ligado, na presença de N-etilmorfolina em metanol: água a 5 % (75:25 v/v) . Por causa do modo de ligação, do excesso de reagente, a base de acoplamento e os subprodutos da reacção podem ser eliminados por meio de dissolventes de lavagem muito polares, antes da eliminação e da sequenciação do polipéptido marcado, por espectrometria de massa. Há vários reagentes que são apropriados como dissolventes de lavagem, incluindo, por exemplo, metanol, água, misturas de metanol e água ou acetona.

Quando a reacção de marcação se realiza totalmente em fase de solução, submete-se a mistura reaccional, preferencialmente, a um ciclo de purificação, tal como diálise, cromatografia de permeação em gel e similares.

Sequenciação de uma porção de uma proteína

Noutro aspecto, a presente invenção providencia um processo para a sequenciação de uma porção de proteína, numa mistura de proteínas, compreendendo esse processo: (a) o contacto da mistura de proteínas com a parte de marcação do terminal C ou do terminal N para ligar covalentemente um marcador ao terminal C ou N da 77 proteína e formar uma mistura de proteínas marcadas, compreendendo a parte de marcação do terminal C ou do terminal N pelo menos um elemento com um número atómico de 17 a 77, mais preferencialmente, de 35 a 63, com a condição de que esse elemento seja diferente de enxofre; (b) a separação individual das proteínas marcadas da referida mistura de proteínas; e (c) a análise das proteínas marcadas da etapa (b) , por meio de um processo espectrométrico de massa, para determinar a sequência de pelo menos dois resíduos dos terminais C ou dois resíduos dos terminais N.

Num grupo de modalidades, o processo compreende ainda: (d) a identificação da proteína por meio da utilização da sequência de pelo menos dois resíduos dos terminais C ou dois resíduos dos terminais N em combinação com uma coordenada de separação da proteína marcada e a localização do terminal da proteína da sequência para pesquisar potenciais sequências de proteínas a partir de uma base de dados que contém dados de sequências de genes.

Os exemplos preferidos são aqueles que já foram descritos antes para outros aspectos da presente invenção.

Separação

Numa modalidade preferida, o processo de marcação realiza-se numa mistura de proteínas. No seguimento do processo de marcação, a mistura de proteínas é submetida a um processo de separação que, preferencialmente permite a separação da mistura de proteínas em fracções discretas. Cada 78 fracção é preferencialmente enriquecida apenas numa das proteínas marcadas da mistura de proteínas.

Os processos da presente invenção são utilizados para determinar a sequência de um polipéptido. Dentro das modalidades preferidas da presente invenção, o polipéptido marcado é "praticamente puro", o que significa que o polipéptido é cerca de 80 % homogéneo e, preferencialmente, cerca de 99 % homogéneo ou ainda mais homogéneo. Muitos processos bem conhecidos pelos especialistas na matéria podem ser utilizados para purificar o polipéptido antes da determinação da sua sequência de aminoácidos. Exemplos representativos incluem CLAR, cromatografia líquida de alta pressão de fase inversa (CLAR-FI), electroforese em gel, cromatografia ou qualquer um dos numerosos processos de purificação de péptidos (ver, de uma forma geral, as séries nos volumes intituladas METHODS IN PROTEIN SEQUENCE ANALYSIS).

Ainda mais preferida é a utilização da electroforese capilar e, particularmente, a electroforese capilar multidimensional, tal como a descrita nas séries do pedido de patente norte-americana co-pendente, atribuído em comum, com o N°. 09/513.486, intitulado "Protein Separation via Multidimensional Electrophoresis" e registado em 25 de Fevereiro de 2000 (patente U.S. N°. 6.818.112).

Embora os polipéptidos marcados praticamente puros sejam preferencialmente utilizados dentro dos processos aqui descritos, é também possível determinar as sequências das misturas de polipéptidos contendo o mesmo marcador. Em resumo, numa modalidade, utiliza-se um algoritmo para determinar todas as hipóteses de sequências com uma massa calculada igual em relação à massa observada de um dos 79 péptidos na mistura. Ver, Johnson et al., Protein Science 1: 1083-1091 (1992). A estas sequências são então atribuídas figuras de mérito de acordo com a forma como cada uma delas conta para os iões fragmentados no espectro de massa em tandem do péptido, utilizando esses algoritmos e a sequência dos polipéptidos dentro da mistura pode ser facilmente determinada. As misturas de oligómeros utilizadas simultaneamente são marcadas, preferencialmente com marcadores que incorporam diferentes números de elementos de defeitos de massa.

Tal como descrito antes, os processos da presente invenção são particularmente úteis para a identificação de proteínas de uma amostra de tecido saudável ou doente. Num grupo de modalidades, os processos são aplicados tanto a uma mistura de proteínas de uma amostra de tecido saudável como a uma mistura de proteínas de uma amostra de um tecido doente. De acordo com isto, as misturas de proteínas utilizadas neste aspecto da presente invenção podem ser obtidas praticamente de qualquer fonte. Os processos de isolamento de proteínas a partir de amostras de tecidos são bem conhecidos.

No âmbito da presente invenção, o polipéptido com um aminoácido terminal derivado é sequenciado por meio de um espectrómetro de massa. Podem utilizar-se vários espectrómetros de massa dentro da presente invenção. Exemplos representativos incluem espectrómetros de quádruplos triplos, instrumentos do sector magnético (espectrómetro de massa magnético em tandem, JEOL, Peabody, Mass.); espectrómetros de massa de pulverização de iões, Bruins et al., Anal. Chem. 59: 2642-2647 (1987); espectrómetros de massa de electro-pulverização, Fenn et al., Science 246: 64-71 (1989); espectrómetros de massa de desabsorção a laser por tempo de escoamento, Karas et al., Anal. Chem. 60: 2299-2301 (1988) e 80 espectrómetro de massa de ressonância do ciclotrão iónico da transformada de Fourier (Extrel Corp., Pittsburgh, Mass.). Dentro de uma modalidade preferida, utiliza-se um espectrómetro de massa por electro-pulverização (modelo Mariner™, PE Biosystems, Foster City, Califórnia) para fragmentar o polipéptido derivado do terminal e um detector de tempo de escoamento com mais do que 50 ppm de precisão em relação à massa, utilizado para determinar a sequência das massas dos fragmentos marcados.

Um especialista na matéria saberá que a informação sobre a sequência obtida utilizando os processos da presente invenção pode ser combinada com outras caracteristicas da proteina em análise para reduzir ainda mais o número de identidades possíveis da proteina. Assim, numa modalidade preferida, o processo da presente invenção combina informação de um marcador de sequências de proteínas com uma ou mais outras caracteristicas da proteína para identificar a proteína. Os dados que são úteis para complementar os dados da sequência incluem, mas não se limitam, à composição do aminoácido, ao número e à identidade dos resíduos específicos (por exemplo, cisteína), à informação sobre a clivagem, à massa do péptido proteolítico (por exemplo, tríptico) e/ou quimiolítico, à localização sub-celular e às coordenadas de separação (por exemplo, tempo de retenção, pi, coordenadas da electroforese 2-D, etc.). Outras formas caracteristicas de dados de uma proteína em particular serão evidentes para um especialista na matéria. À medida que o corpo das caracteristicas de dados de uma proteína particular se torna mais compreensivo, as proteínas em análise podem ser identificadas utilizando marcadores mais pequenos de sequências de proteínas. 81

Assim, numa primeira modalidade preferida, combina-se a informação respeitante a uma ou mais caracteristicas de uma proteina com informação de um PST de cerca de 4 aminoácidos de comprimento, mais preferencialmente, cerca de 3 aminoácidos de comprimento, mais preferencialmente, cerca de 2 aminoácidos de comprimento e utiliza-se para identificar a proteina.

Algoritmo de seguenciação A presente invenção irá incluir, nalgumas modalidades, a utilização de um algoritmo matemático para a determinação do marcador da sequência de proteínas directamente a partir do espectro de massa das proteínas marcadas fragmentadas. 0 algoritmo pode ser utilizado para determinar um marcador da sequência de proteínas a partir de qualquer um dos terminais da proteína, desde que um marcador de massa única esteja ligado ao terminal a ser sequenciado. 0 espectro de massa inicial, para ser utilizado no algoritmo, pode ser produzido por qualquer espectrómetro de massa, em que uma proteína ou um péptido marcados podem ser fragmentados. 0 espectro de massa de tempo de escoamento é preferido porque dão uma maior precisão da massa em relação a outros sistemas de detecção por espectrómetro de massa. Contudo, podem ser utilizados outros de sistemas de detecção por espectro de massa menos precisos, particularmente se se utiliza um padrão de massa interno, tal como um marcador fragmentado sem nenhum péptido ligado, para melhorar a precisão da massa no espectro de massa resultante. A fragmentação das proteínas pode ser realizada quer por DIC na célula de colisão de um espectrómetro de massa em tandem ou por fragmentação na fonte num electro-pulverizador ou numa fonte de ionização de MALDI. 82 0 algoritmo requer a utilização tanto da posição da massa em relação à carga de um sinal e a sua abundância relativa. Numa modalidade, compara-se a abundância relativa do sinal com as posições de massa em relação à carga imediatamente adjacentes e utiliza-se para quantificar a probabilidade relativa de que esteja presente um pico na posição que interessa da massa em relação à carga. Nesta outra modalidade, as probabilidades relativas de que um pico esteja presente, comparadas entre todas as sequências em competição. Noutra modalidade, o sinal, em cada posição de massa em relação à carga de interesse é comparado directamente com as posições de massa em relação à carga de todas as sequências em comparação. Este último processo está descrito com mais clareza mais à frente. Um especialista na matéria compreenderá que este processo pode ser adaptado de muitas maneiras para dar um sistema semelhante para a classificação das sequências em comparação, com base na abundância relativa do sinal nas posições de massa em relação à carga correlacionadas com cada sequência em comparação. 0 algoritmo consiste ainda num sistema de classificação cumulativo de sequências, em que se combina a abundância relativa dos iões, que faz prever o resultado de cada possível sequência, por produto ou pela soma de produtos, com as abundâncias relativas dos iões que se prevê que resultem dos resíduos subsequentes (equação 1). Desta maneira, as diferenças específicas das sequências na eficiência de ionização ou de fragmentação e a matriz adventícia ou os picos de ruídos das sobreposições, que confundem a atribuição correcta da sequência em cada posição de resíduo da cadeia do polipéptido, podem ser eliminados. A probabilidade de errar na avaliação da sequência numa dada propagação da posição do resíduo para a frente em relação às posições subsequentes dos resíduos é menor do que a que está associada com a verdadeira 83 sequência. A classificação global, para cada possível sequência j, pode ser determinada por:

em Rj,n é a classificação cumulativa dada a qualquer sequência j no resíduo de comprimento n e p±,j é a classificação relativa atribuída à sequência entre os seus pares j com um comprimento de resíduo i. Será evidente para os especialistas nesta técnica que se podem utilizar muitos processos para atribuir uma classificação relativa (p) a cada sequência j para qualquer comprimento de resíduo i, consistente com a comparação das abundâncias relativas dos sinais em cada posição de massa em relação à carga em comparação (in supra). Numa modalidade preferida, a classificação relativa (p) das possibilidades de competição de sequências em cada resíduo comprimento (i) pode ser determinada por auto-escalonamento das possibilidades. Numa variação particular deste processo, a classificação (p) pode ser atribuída com base numa distribuição de probabilidade assumida ou demonstrada, de tal modo que a distribuição de probabilidade normal (gaussiana) ou a distribuição de probabilidade normal logarítmica (poisson) de tal modo que a classificação relativa para cada sequência vai variar entre 0 e 1. Por exemplo,

Pi * NORMDIS

19*

(2) em que; (3) 84 (4) e

Um especialista nesta técnica perceberá que o sinal (Ci,j) correspondente a qualquer sequência j contendo residuos de aminoácido i pode ser determinado por qualquer processo que relacione este sinal de retorno com a abundância de sinal relativa no espectro de massa. A fragmentação induzida pela colisão no espectrómetro de massa pode resultar na produção de mais do que um tipo de ião. Os processos de DIC, num espectrómetro de massa em tandem, normalmente resultam em iões dos tipos a, b e c a partir do terminal N e nos iões x, y e z a partir do terminal C. Além disso, o marcador e alguns residuos de aminoácidos podem conter cargas "leves" que levam à produção de fragmentos de péptidos marcados em mais do que uma das posições de massa/carga no espectro de massa, consoante o número dessas cargas "leves". Numa variação do método, os sinais associados com cada tipo de ião e, possivelmente, com cada estado de carga, podem ser combinados para produzir um sinal cumulativo associado com qualquer uma das sequências j: max max tipos de estados da carga iéoica (5)

Σ £ci,j,k,l k=mm i=l «rtados da carga em que c se determina pelo cálculo de (m/z) de cada tipo de ião (k) e de cada estado de carga (1) e olhando as contagens correspondentes (c±,j,k,i) nos dados do espectro de massa. 85 (6) 0 cálculo da proporção de massa em relação à carga para qualquer resíduo de comprimento i, sequência j, estado de carga k e tipo de ião 1, será determinado a partir da estequiometria e dos possíveis estados de carga dos aminoácidos e de quaisquer marcadores ligados na sequência, por processos previamente descritos (ver, Methods in Enzymology, Biemann, ed. 193: 295-305, 351-360 and 455-479 (1993)) .

Pode-se fazer um certo número de variações ao processo de sequenciação básico descrito. Por exemplo, numa modalidade preferida, o número de estados de carga e os tipos de iões que são utilizados para a determinação do sinal total associado com qualquer sequência, pode restringir-se a subconjuntos particulares, encontrados empiricamente, para serem a maior da parte das vezes associados com o processo de fragmentação. A fragmentação por DIC, num espectrómetro de massa em tandem, preferencialmente origina iões b e iões y em maior abundância e iões c e iões x em menor abundância. Na fragmentação na fonte verificou-se que se originaram apenas iões a, b e y com uma abundância significativa. Nestes casos, o algoritmo pode ser adaptado, preferencialmente, para ignorar os iões cexouc, xe z. A abundância relativa dos iões também parece diminuir para possíveis estados de carga mais elevada dos fragmentos de péptido tanto na DIC como na fragmentação na fonte. Este fenómeno também pode ser uma sequência específica com arginina e outras espécies de carga "leve" de imino tendo uma probabilidade maior de reter uma carga do que outras aminas (por exemplo, resíduos de lisina ou de histidina). Noutra variação, as posições de massa/carga associadas com números mais elevados de estados de carga 86 podem ser ignoradas com base numa sequência especifica, quando se determina o sinal total associado com qualquer sequência j.

Numa variante, podem incorporar-se vários marcadores (tanto isotópicos, como não isotópicos) no algoritmo, utilizando uma abordagem de uma sequenciação dupla. Nesta abordagem definem-se dois quadros de residuos, um para cada tipo de marcador (e quaisquer residuos marcados). 0 algoritmo de sequenciação é então aplicado utilizando, Independentemente, uma tabela de cada residuo, de tal modo que as contagens associadas com o primeiro marcador (Ci,j,k,i) são determinadas, independentemente, a partir das de um segundo marcador (di,j,k,i) . (7) «tijjd =LOOKUp[(m/z)..ki]|Miiit>.....] (8)

Todas as equações 1-6 aplicam-se tanto a c como a d e pode-se definir:

= NORMDIS

(9)

(10) (Π) 87 (12) max max ttpos íte estados da carga íeiika

k=min 1=1 estados da cargo

Multiplicando a probabilidade relativa de cada sequência j obtida com cada marcador, pode-se então obter uma classificação compósita para a sequência. » ft

Esta variação pode ser ainda estendida a mais do que um marcador. Os ficheiros dos espectrómetros de massa utilizados nesta abordagem de marcação múltipla podem ser criados por fragmentação simultânea de uma amostra de proteina contendo uma mistura conhecida de dois ou mais marcadores. Além disso, os dados no espectrómetro de massa das fragmentações separadas, de proteínas marcadas uma única vez, podem ser conjugados para criar um ficheiro virtual de espectrómetro de massa de múltiplos marcadores, para a análise por este processo. Esta variação pode ser utilizada com qualquer tipo de estratégias de marcação múltipla (supra).

Noutra modalidade preferida para os marcadores isotópicos, quer as abundâncias isotópicas naturais ou com marcadores múltiplos, de abundâncias isotópicas relativas conhecidas, o algoritmo pode ser adaptado para qualificar ou classificar os picos das sequências em competição por meio da sua estrutura em relação às abundâncias esperadas das séries isotópicas. Por exemplo, quando dois marcadores, distintos sob o ponto de vista isotópico, são utilizados de uma abundância relativa conhecida β, a proporção entre a massa e a carga de cada sequência pode ser determinada para ambos os isótopos marcados, podendo os correspondentes valores de 88 contagem ser determinados a partir dos dados espectrais de massa e determina-se uma graduação ou probabilidade de coincidência com a abundância esperada (β).

Oligómeros marcados

Embora a presente invenção esteja descrita antes com referência a proteínas marcadas, um especialista na matéria reconhecerá que os marcadores e os processos de marcação usados são adaptáveis à preparação de outros oligómeros marcados (por exemplo, oligonucleótidos marcados, oligossacáridos marcados e similares).

Os ácidos nucleicos podem ser sequenciados através da presente invenção por modificação dos processos descritos por Butler et al., patente U.S. N°. 6.090.558; Moforte et al., patente U.S. N°. 5.700.642; e Koster, patentes U.S. N°s. 6.194.144 e 5.691.141. Preferencialmente, os processos da presente invenção utilizam a sequenciação de Sanger ou os iniciadores da reacção em cadeia de polimerase com marcadores de "defeito de massa" quer na sequência do iniciador, na sequência do alongador ou na sequência do terminador. Os marcadores de "defeito de massa" são os marcadores que incorporam um ou mais elementos com um número atómico entre 17 e 77, mais preferencialmente, entre 35 e 63, com a condição de que os referidos elementos não sejam nem enxofre, nem fósforo. Preferencialmente marca-se quer o marcador quer o terminal para controlar o número de elementos de "defeito de massa" incorporados nos oligómeros de ácidos nucleicos assim produzidos. Alternativamente, as extremidades 3' ou 5' de um ácido nucleico podem ser marcadas com um marcador de "defeito de massa" e o ácido nucleico fragmentado pelo processo descrito por Maxam e Gilbert, Proc. Natl. Acad. Sei. 89 (EUA) 74: 560-564 (1977) originando uma série de fragmentos marcados.

Os oligossacáridos podem ser sequenciados através da presente invenção por meio da modificação dos processos descritos por Parekh et ai., patente U.S. N°. 5.667.984 e

Rademacher et ai., patente U.S. N°. 5.100.778.

Preferencialmente, utilizam-se marcadores de "defeito de massa" reactivos com a redução da extremidade de açúcar. Mais preferencialmente, esses marcadores irão incluir funcionalidades de piridilamino em que o anel de piridinilo está substituído com um a três Br e/ou I. A marcação pode ser realizada antes da hidrólise enzimática selectiva do oligossacárido ou após a hidrólise enzimática. Preferencialmente marca-se um oligossacárido com um marcador de "defeito de massa" antes da hidrólise enzimática e um marcador de "defeito de massa", após a hidrólise enzimática, para diferenciar o açúcar original de redução do terminal.

Marcadores de massa para análise simultânea

Embora a invenção tenha sida descrita antes com referência a oligómeros, um especialista na matéria reconhecerá que os marcadores e os processos de marcação utilizados são adaptáveis à preparação de "marcadores" de massa única para outras amostras (por exemplo, marcadores para bibliotecas combinatórias de quimica, marcadores para metabólitos obtidos a partir de amostras diferentes e similares). Estes processos permitem a análise simultânea e a comparação de várias amostras por espectrometria de massa. 90

Processos para a análise da estrutura e da função

Ainda noutro aspecto, a presente invenção providencia um processo para a análise da estrutura e da função de um oligómero com uma pluralidade de resíduos, tal como definido na reivindicação 23.

Tal como com os processos anteriores, relacionados com a sequenciação, este aspecto da presente invenção pode ser aplicado praticamente a qualquer oligómero (por exemplo, proteínas, ácidos nucleicos, oligossacáridos) com alguma indicação da estrutura tridimensional e/ou função dos resíduos expostos. 0 processo tem uma utilização particular na análise de proteínas.

Do mesmo modo, tal como antes, o reagente de marcação de defeito de massa normalmente contém pelo menos um elemento com um número atómico entre 17 a 77, excluindo o enxofre ou o fósforo. Para estas aplicações, nas quais se deseja informação sobre a estrutura da proteína, o reagente de marcação de defeito de massa pode conter um átomo de fósforo dado que este elemento não está presente nas proteínas (com excepção, obviamente, das proteínas fosforiladas). Preferencialmente, o reagente de marcação de defeito de massa compreende um elemento com o número atómico entre 35 a 63, mais preferencialmente, 39 a 58, excluindo o fósforo ou o enxofre.

Num grupo de modalidades particularmente preferidas, o oligómero é uma proteína e o reagente de marcação compreende quer um átomo de bromo quer um átomo de iodo. Mais preferencialmente, o reagente de marcação é bromo gasoso, que é capaz de marcar, por exemplo, resíduos de tirosina expostos numa proteína dobrada. 91

Noutras modalidades preferidas, o processo de espectrometria de massa utilizado é a EM ESI-TDV.

Outras modalidades e condições preferidas para realizar este aspecto da presente invenção são as descritos antes para a marcação e a sequenciação de oligómeros em geral e de proteínas, em particular.

Processos para a comparação de abundâncias relativas dos analitos

Ainda noutro aspecto, a presente invenção providencia um processo para comparar as abundâncias relativas dos analitos de duas ou mais amostras, tal como definido na reivindicação 45.

As partes de marcação preferidas são as descritas ao longo desta descrição, mais preferencialmente as que têm elementos com números atómicos entre 35 a 63, ainda mais preferencialmente, entre 39 a 58. As amostras podem ser praticamente qualquer amostra biológica originária de um tecido de animal, de plantas ou de extractos de plantas, de amostras bacterianas, de amostras virais e similares.

Processos para a marcação de componentes de uma biblioteca de química

Outra aplicação dos marcadores de defeitos de massa será como marcadores para bibliotecas químicas combinatórias. Um exemplo desta utilização seria a criação de um marcador de defeito de massa simultaneamente com a síntese de uma biblioteca combinatória. Uma síntese típica envolve a construção de uma biblioteca combinatória presa a uma pérola ou a uma superfície de um poço por meio da adição sequencial 92 de diferentes combinações ou diferentes produtos químicos aos poços. Tal como descrito por Brenner e Lerner (Proc. Natl. Acad. Sei (EUA), 89: 5381-5383 (1992)) e Sugarman et al. (patente U.S. N°. 6.056.926, registada em 2 de Maio de 2000), é também possível sintetizar concorrentemente um marcador de massa específico para as etapas de tratamento ou a composição química do produto químico específico durante a síntese da biblioteca de produtos químicos. Esses marcadores podem ser criados pela adição em série de diferentes grupos reactivos a um marcador de raiz. Esse marcador de raiz pode ser uma amina primária. Nesses caso, pode-se adicionar um grupo reactivo à raiz para criar uma amina secundária, em que a massa do grupo reactivo será alterada para representar a identidade química, específica do produto químico ou haverá uma etapa de transformação pela qual a entidade química da biblioteca vai ser exposta. Numa etapa subsequente, poderá adicionar-se um segundo grupo reactivo à amina secundária num marcador de raiz para criar uma amina terciária. Esta massa deste segundo grupo irá representar uma segunda etapa de transformação química ou uma alteração na identidade do produto químico específico na biblioteca combinatória. Uma abordagem semelhante, que permita mais combinações do marcador de raiz, seria a adição em série de várias unidades monoméricas a um marcador de raiz oligomérico (por exemplo, síntese de péptidos de Merrifield).

Contudo, esta abordagem está limitada pelo número de combinações possíveis de marcadores de tal modo que as massas aditivas das adições subsequentes de grupos reactivos não se sobrepõem quando o marcador final é analisado por espectrometria de massa. A presente descrição evita este problema por meio da adição de mais elementos de defeito de massa ao marcador de raiz em crescimento, em cada etapa. Um problema adicional, resolvido por esta descrição, é a 93 capacidade para distinguir o marcador criado para identificar a espécie quimica numa biblioteca combinatória, a partir da massa do próprio produto químico ou da massa de qualquer outro componente que possa estar presente durante uma actividade de rastreio ou de ensaio do produto químico específico da biblioteca. A utilização de defeitos de massa no marcador permite que o marcador seja identificado de uma forma única num espectro de massa quer de produtos químicos quer de uma biblioteca de produtos químicos e quaisquer contaminantes da matriz, originados a partir do ensaio de rastreio.

Tendo em vista o anterior, a presente especificação providencia processos para a utilização de marcadores de defeito de massa para indicar a sequência sintética à qual um elemento da biblioteca de produtos químicos tenha sido exposto durante o decurso da síntese.

Em particular, a presente especificação providencia um processo para a marcação de elementos de bibliotecas de produtos químicos, quer durante a síntese, quer durante o rastreio, compreendendo: (a) o contacto de um marcador de raiz com uma parte de marcação para ligar covalentemente um marcador ao marcador de raiz e formar um marcador marcado, em que a referida parte marcada tem um elemento com um número atómico de 17 a 77, com a condição de que o referido elemento não seja nem enxofre nem fósforo; (b) opcionalmente, o contacto de uma raiz com partes de marcação adicionais para ligar covalentemente os marcadores adicionais ao marcador de raiz e formar um marcador múltiplo marcado, em que a referida parte de marcação tem um elemento com o número atómico de 17 a 94 77, com a condição que o referido elemento seja diferente de enxofre ou fósforo; e (c) a análise do marcador marcado por processos de espectrometria de massa para determinar tanto a sua massa com o número de elemento com o número atómico de 17 a 77, de tal modo que a massa e o número de elementos identifiquem os processos químicos aos quais os produtos químicos específicos da biblioteca foram expostos e a identidade dos produtos químicos da biblioteca.

Os elementos preferidos (por exemplo, elementos de defeito de massa) são os já descritos antes para outros aspectos da presente invenção.

Os processos da presente invenção vão ser ilustrados pelos exemplos que se seguem. Estes exemplos são dados a título de ilustração mas não limitam a invenção reivindicada.

EXEMPLOS

Exemplo 1

Neste exemplo, faz-se a marcação e a sequenciação de um oligossacárido superior do tipo manose (figura 7) . 0 oligossacárido é marcado utilizando processos semelhantes aos descritos em Parekh, et al., patente U.S. N°. 5.667.984. Em resumo, um marcador de defeito de massa (2-amino-6-iodopiridina (marcador 1)) liga-se covalentemente ao terminal de redução do oligossacárido na presença de hidreto de cianoboro e sódio (NaBHsCN) . Este incorpora um único elemento de defeito de massa (iodo) no oligossacárido parental. A adição do elemento de defeito de massa permite que os fragmentos de oligossacáridos marcados se distingam dos 95 fragmentos não marcados e dos iões da matriz no espectro de massa.

Preparam-se então aliquotas de oligossacáridos conjugados com o marcador 1 em tubos de reacção contendo diferentes sacarases (ver quadros 1.1 e 1.2) em tampões de reacção apropriados. Deixam-se as reacções prosseguir até estarem completas e os produtos da reacção resultantes são conjugados, nas extremidades de redução dos fragmentos, acabadas de formar, por meio da reacção com os marcadores de defeitos de massa ilustrados para cada enzima (ver, quadro 1.2), novamente na presença de hidreto de cianoboro e sódio. Cada um dos marcadores 2 e 3 contém diferentes números de elementos de defeitos de massa, permitindo que os fragmentos digeridos se distingam do fragmento terminal do oligossacárido original.

Quadro 1.1

Enzimas de oligossacarase Enzima # Espécies Enzima 1 Aspergillus saitoi α-manosidase I 2 Jack bean a-manosidase 3 Achatina saitoi α-manosidase II 4 Jack bean β-hexosaminidase 5 Prevotella sp. β-hexosaminidase 6 Achatina fulica β-manosidase 7 Streptococcus pneumonae N-acetil-β-hexosaminidase 8 Helix pomatia β-manosidase 96

Quadro 1.2

Reacção e combinações de marcadores Enzima* Acção Marcador de defeito de massa utilizado Nenhuma Nenhuma /==\ Marcador 1 1 Cliva 1 α 2 manoses em qualquer sítio hjh Λ Marcador 2 3 Cliva 1 α 3, 6 manoses em qualquer sítio Cliva 1 α 3 manoses quando ligadas a um açúcar ramificado /“( HjN-& Λ Marcador 3 M *0 número da enzima corresponde à descrição no quadro 1.1

Faz-se a digestão de uma alíquota da mistura reaccional conjugada com o marcador 3 (isto é, digerida com a enzima #3) com a enzima 1. Os terminais de açúcar de redução gerados por esta reacção são em seguida conjugados com o marcador 2, tal como foi descrito previamente.

As aliquotas de todas estas reacções são então misturadas, acidificadas pela adição de uma mistura de ácido acético a 2 %, em metanol, a 50 % v/v e são submetidas à análise de espectro de massa. Por causa da baixa estabilidade do conjugado de acetal em soluções ácidas, realiza-se a análise espectral de massa imediatamente após a acidificação. Alternativamente pode-se submeter uma série diferente de marcadores, que incorporam uma carga pesada (por exemplo, uma série de N-alquil-iodo-piridínio) a uma análise de espectro de massa, sem acidificação. O espectro de massa resultante é deconvulsionado para eliminar qualquer ruido químico que não contenha um pico marcado com defeito de massa, pelos 97 processos da presente invenção. 0 espectro resultante de defeitos de massa deconvulsionados é então rastreado algoritmicamente pelos processos da presente invenção prevendo todas as sequências possíveis de oligossacáridos, que se podem ligar a cada marcador de defeito de massa utilizado. 0 algoritmo de pesquisa calcula a massa para cada combinação ramificada de hexose (Hex) e N-acetilamino-hexose (HexNAC). Cada unidade monomérica de Hex adiciona uma unidade de massa mono-isotópica de 179, 055565 amu ao peso da massa estimada do fragmento. Cada unidade monomérica de HexNAC adiciona uma massa mono-isotópica de 220,082114 amu à massa estimada do fragmento. Há uma perda líquida de (n-1) vezes 17,00274 amu para cada açúcar (n) contido no fragmento. A composição do oligossacárido dos picos que correspondem aos critérios de pesquisa para os marcadores 1, 2 e 3 está ilustrada nas figuras 8A, 8B e 8C, respectivamente. O número de hexoses e de N-acetilamino-hexoses correspondente a estes picos está ilustrado no quadro 1.3.

Quadro 1.3 Número e tipo de hexoses correspondendo aos picos das figuras 1 (A, B e C) Pico Composição HexNAC Hex A 2 1 B 2 5 C 2 9 D 1 E 1 F 2 G 3 98 A escada de massa formada a partir dos fragmentos conjugados com o marcador 1 indica que a maior parte dos açúcares são hexoses. 0 fragmento de massa mais elevada conjugado com o marcador 1 corresponde ao oligossacárido parental. Como resultado, a diferença de massa das quatro hexoses entre o primeiro fragmento conjugado com o marcador 1 e o parental indica a presença de quatro α-manoses, dado que tanto a enzimas 1 como a enzima 3 clivam as α-manoses. Dado que o pico D é o único que corresponde ao conjugado do marcador 2 na figura 8B, quatro da maior parte dos açúcares dos terminais de redução devem ser manoses 1 α 2 ligadas e não pode haver manoses 1 α 2 internas. 0 fragmento seguinte na escada de massa do marcador 1 (P ico A) difere de mais 4 hexoses do fragmento anterior. Isto pode corresponder a uma amostra digerida com a enzima 3. Os únicos fragmentos emparelhados conjugados com o marcador 3 (figura 8C) são E (um fragmento de 1 hexose), F (um fragmento de 2 hexoses) e G (um fragmento de 3 hexoses) . Dado que os picos F e G totalizam 5 hexoses, pelo menos, um destes fragmentos deve conter uma manose ligada a 1 α 2. Dado que a enzima 3 apenas cliva as ligações 1 α 3 e 1 α 6, então, deve haver pelo menos duas manoses separadas ligadas a 1 α 3 e/ou 1 α 6 na estrutura e estas manoses podem estar no interior das 4 manoses ligadas a 1 oí 2. A partir desta informação, pode-se derivar a sequência parcial que se segue: {Ma»4—1 α 2}—{Hex2, Manj—* α 3,6}—{HexNAC2, Hexj}-r em que r indica a extremidade da redução do oligossacárido.

Repete-se este processo com diferentes enzimas do quadro 1.1 até estar completa a determinação da sequência. Por 99 exemplo, a digestão com a enzima 3, seguida da enzima 8, permite a determinação de que a sequência inicial é: —Man—1 β 4—{HNAC2}~r A sequência completa da extremidade de redução do oligossacárido determina-se pela reacção com a enzima 3 seguida da enzima 7.

Exemplo 2

Neste exemplo utiliza-se um marcador de defeito de massa para a identificação da composição de ácidos gordos e do arranjo em lipidos ou a "sequenciação de lípidos". Este exemplo utiliza fosfatidilcolina; contudo, um especialista na matéria saberá que estes métodos, em combinação com processos de separação alternativos, selecções pontuais e de lipase, podem ser aplicados a quaisquer lipidos saponifiçáveis, tal como definido por Lehninger (ver, BIOCHEMISTRY (Worth, NY, 1975)).

Prepara-se um extracto de lípido por via da extracção com éter de peletes de células K-12 de E. coli, utilizando o processo de Hanson e Phillips (ver, MANUAL OF METHODS FOR GENERAL BACTERIOLOGY, p.328, Amer. Soc. Microbiol., Washington, DC, 1981) . Eliminou-se o éter do extracto por evaporação e fez-se uma nova suspensão dos peletes de lipidos num sistema de dissolvente de metanol:clorofórmio:ácido fórmico a 65:25:5 (contendo hidroxitolueno butilado a 0,1 % para inibir a oxidação). Coloca-se metade do volume de cada uma das duas colunas de uma placa HL de silica de cinzel (Altech, Deerfield, IL) e deixa-se secar. Separam-se os líquidos utilizando um sistema de dissolvente descrito por Waters e Huestis, AMPHIPATHIC INTERACTIONS WITH ERYTHROCYTES 100 AND PLATELETS, DOCTORAL DISSERTATION (Stanford University, Stanford, CA, Dept. of Chemistry, 1992). Este processo separa os lípidos dos grupos principiais. Elimina-se uma coluna e expõe-se a vapor de iodo para determinar as posições relativas de cada uma das fracções de lipidos. A matriz de silica foi raspada da região na coluna não desenvolvida correspondente à mancha de fosfatidilcolina e colocu-se num tubo de microcentrifugação.

Os peletes de silica foram novamente suspensos em 100 yL de tampão de reacção de fosfolipase (100 yL), tal como descrito por Cottrell, METH. ENZYMOLOGY, 71: 698 (1981) e foram centrifugados em vórtice vigorosamente. Retirou-se uma aliquota (50 yL) da suspensão de silica para um segundo tubo de microcentrifugação. Tratou-se a primeira aliquota por adição de 1 UI de fosfolipase A2 de Apis mellifera (Sigma-Aldrich, St. Louis, MO), que hidrolisa selectivamente os ácidos gordos em C2. Tratou-se a segunda aliquota pela adição de uma 1 UI de novozima 871 (Sigma-Aldrich, St. Louis, MO), que hidrolisa selectivamente os ácidos gordos em C3 dos fosfoglicéridos. Fez-se a incubação de ambas as misturas reacções, à temperatura ambiente, durante a noite.

As misturas reaccionais evaporam-se até à secagem, em vácuo e foram novamente suspensas em, aproximadamente, 25 yL de diclorometano. Adicionou-se o marcador 1 de defeito de massa (2-amino-5-iodo-piridina) (20 yL de uma solução 1 M em diclorometano) à mistura reaccional de fosforilase A2. Adicionou-se o marcador 2 de defeito de massa (2-amino-3, 5-di-iodo-piridina) (20 yL de uma solução 1 M em diclorometano) à mistura reaccional de novozima 871. Adicionou-se então uma aliquota (20 yL de uma solução 1 M de 1,3-diciclo-hexilcarbodi-imida) a ambos os tubos e incubou-se, durante 2 horas. A carbodi-imida catalisou a conjugação da enzima que 101 liberta ácidos gordos com os marcadores de defeito de massa. Acidificaram-se as misturas reaccionais por meio da adição de ácido fórmico a 1 % (v/v) e misturaram-se imediatamente antes da análise por espectrometria de massa, por meio de uma microspulverização num EM ABI Mariner. 0 ruido quimico foi deconvulsionado a partir do espectro de massa resultante por meio dos algoritmos da presente invenção originando o espectro de massa deconvulsionado ilustrado na figura 9. Determinaram-se as identidades e as abundâncias relativas dos vários ácidos gordos em C2 e C3 na estrutura lipidica de fosfatidilcolina por meio da adição a cada marcador. Os comprimentos das caudas de ácidos gordos naturais ocorrem em múltiplos de várias unidades de -CH2CH2-(28,031300 amu) ou -CH=CH- (26,015650). Adiciona-se a massa de um H (1,007825 amu) a cada um dos comprimentos de cadeia previstos para completar a estequiometria do grupo metilo terminal. Os ácidos gordos ramificados não se podem distinguir dos seus análogos de cadeia simples porque a perda de um hidrogénio da massa, no ponto de ramificação, é recuperada pelo H extra necessário para completar a estequiometria nos terminais da nova ramificação. A abundância relativa dos vários ácidos gordos na posição C2 pode ser estimada a partir das alturas dos picos mono-isotópicos dos vários picos conjugados com o marcador 1 (Ai~>Fi, figura 9) . A abundância relativa dos vários ácidos gordos na posição C3 da fosfatidilcolina pode ser estimada a partir das alturas dos picos mono-isotópicos dos vários picos conjugados com o marcador 2 (A2->F2, figura 9) . Por isso, a sequência média da fosfatidilcolina de E. coli está ilustrada no quadro 2.1. Pode-se obter ainda uma maior resolução da sequência de lipidos através da utilização de uma segunda dimensão de uma cromatograf ia em camada fina ou de outro 102 processo de separação em que se utiliza a hidrofobicidade dos ácidos gordos para resolver os lipidos (ver, por exemplo, Morris, J. Lipid Res., 7: 717-732 (1966)).

Quadro 2.1

Composição da sequência de fosfatidilcolina de E. Coli Pico Ácido gordo Abundância aproximada (%) C3 (Marcador 2) C2 (Marcador 1) A n-dodecanóico 20 10 B n-tetradecanóico 20 30 C palmitoleico - 2 D n-hexadecanóico 37 35 E oleico - 2 F n-octadecanóico 22 20

Exemplo 3

Este exemplo descreve a preparação de marcadores de defeito de massa fotocliváveis com substituintes de bromo ou de iodo. Estes marcadores são úteis para quantificar as abundâncias relativas de biomoléculas (por exemplo, ácidos nucleicos, proteínas ou metabólitos) que podem, de alguma forma, exibir uma ionização baixa ou eficiências de detecção baixas no espectrómetro de massa. 0 marcador de defeito de massa serve como um marcador de substituição para a sua biomolécula conjugada no espectrómetro de massa. As variações da química do terminal providenciam meios para ligar às biomoléculas contendo amina primária, sulfidrilo e ácido carboxílico. A inclusão do elemento de defeito de massa no marcador permite que o marcador seja resolvido de forma não ambígua a partir do ruído químico de sobreposição, que pode estar presente na amostra e incorporam-se duas amostras de um outro marcador, quando diferentes números de elementos de massa são incorporados nos dois marcadores (ver, também, exemplo 1). 103

Em resumo, mistura-se o éter de 4-(tert-butil-dimetilsilil)-fenilborato (FT106), preparado tal como descrito por Schmidt et ai., WO 99/32501 (1 de Julho de 1999) com um dos bromo-fenóis ou iodo-fenóis correspondentes, disponíveis comercialmente, ilustrados no quadro 3.1 para formar os correspondentes precursores do marcador de defeito de massa, bromados ou iodados, utilizando os processos descritos em Schmidt et al., WO 99/32501 (1 de Julho de 1999). Podem inserir-se ligações adicionais de éter de arilo entre FT106 e o grupo arilo com terminal contendo o defeito de massa, através da incorporação de hidroquinona ou de éter de 4,4'-di-hiroxidifenilo, disponíveis comercialmente. Para conseguir isto, reactiva-se o fenol terminal utilizando um terminal de ácido fenil-borónico, pelo mesmo processo utilizado para criar FT106. Da mesma forma, se podem criar éteres de arilo ramificados, por meio da adição e da reactivação de 1,2,4-benzenotriol, disponível comercialmente. O grupo de protecção de silano, terc-butil-dimetilo do percursor do marcador de defeito de massa (PDM1 através de PDM5, quadro 3.1) é eliminado com um excesso molar de fluoreto de trimetilsulfónio em cloreto de metileno ou outros meios apropriados geralmente conhecidos na técnica. O fenol desprotegido correspondente é então acoplado a um ligante de amino bloqueado apropriadamente (ver, por exemplo, GB 98/15163.2 (13 de Julho de 1998)) que, em seguida, é convertido na amina primária, conforme descrito por Schmidt et al. ibid. A amina pode ainda reagir com qualquer fenil-vinil-sulfona apropriada. Exemplos de fenil-vinil-sulfonas apropriadas incluem, mas não se limitam às aminas primárias bloqueadas (ou a um grupo nitro que pode em seguida ser reduzido para uma anilina), ácido carboxílico (por exemplo, éster de trifluoroacetato) ou tiol (por exemplo, uma ligação de dissulfureto) de substituição no anel de fenilo. O 2o 104 grupo amino do ligante reage então com anidrido trifluoro-acético ou cloreto de sulfonilo e metano para tornar o marcador clivável. Finalmente elimina-se o agente de bloqueio pelos processos geralmente reconhecidos na técnica e conjuga-se o marcador de massa foto-clivável com a molécula ou as macromoléculas através de amina livre, ácido carboxilico ou um grupo tiol, por quaisquer processos apropriados de conjugação, geralmente reconhecidos, para originar um marcador de defeito de massa foto-clivável conjugado com a molécula.

Quadro 3.1

105

Quadro 3.1

Exemplo 4

Este exemplo ilustra a utilização de marcadores de massa acoplados por afinidade para uma análise rápida e quantitativa de compostos marcados com defeitos de massa purificados por afinidade, obtidos a partir de diferentes amostras. Neste exemplo, utilizam-se proteínas mas um especialista nesta técnica saberá que este método pode ser aplicado a uma análise para comparação de quaisquer moléculas co-purifiçadas de diferentes amostras. A preparação do marcador começa com qualquer brometo ou iodeto de arilo apropriado, hetero-bifuncional (tal como os exemplos disponíveis comercialmente e ilustrados no quadro 4.1). Também se podem utilizar PDM4 e PDM5 (quadro 3.1). Cada uma destas anilinas pode reagir com um excesso estequiométrico de um éster de N-hidroxissuccimida (NHS) ou um reagente de afinidade, tal como moléculas de NHS- 106 iminobiotina ou biotina disponíveis comercialmente, em acetonitrilo anidro. Faz-se a incubação da mistura reaccional durante pelo menos 2 h, antes da adição de água para hidrolisar qualquer NHS-éster que não tenha reagido. 0 dissolvente evapora-se até à secagem. 0 grupo nitro é então reduzido para uma amina primária utilizando processos padrão, tais como, adição de HC1 diluído com SnCl2, como catalisador. 0 produto da reacção (ver o composto 4.1 a seguir) é purificado por cromatografia de afinidade e evapora-se até à secagem. Faz-se então reagir o grupo amino (produzido por redução do grupo nitro) com outro reticulante apropriado (por exemplo, anidrido iodoacético) ou pode utilizar-se directamente para a ligação de moléculas-alvo contendo ácido carboxílico utilizando a química da carbodi-imida. Também se podem ligar produtos químicos de ligação alternativos, apropriados para a reacção com aminas primárias.

Eventualmente, o grupo amino (ou o segundo terminal de anilina) podem ser prolongados por reacção com polietileno-glicóis hidrogenados e per-deuterados, tal como descrito por Aebersold et al. (patente internacional WO 00/11208 (2 de Março de 2000)) para produzir uma série de marcadores de defeitos de massa que se distinguem isotopicamente para uma marcação diferencial. Do mesmo modo, os materiais iniciais de brometo ou de iodeto de arilo, isotopicamente puros, podem ser utilizados para gerar directamente marcadores de afinidade acoplados a isótopos. 107

0 composto 4.1 ilustra um marcador de afinidade de iminobiotina, marcado com defeito de massa, em que X representa um elemento de defeito de massa (por exemplo, bromo ou iodo) e n representa o número de elementos de defeito de massa. 0 ligante é qualquer ligante químico, que possa ser utilizado para ligar o marcador acoplado por afinidade do defeito de massa a uma molécula-alvo. Exemplos incluem anilina (que pode estar ligada a ácidos carboxílicos através da química da carbodi-imida) , iodoacetamida (formada pela reacção de anilina com anidrido iodoacético) ou azida formada por reacção com ácido nítrico. 108

Quadro 4.1

Para ilustrar a utilização desses marcadores, obtêm-se amostras de plasma do sangue (1 mL) de cada um de dois doentes e colocam-se em tubos separados de micro- centrifugação. Trata-se cada tubo como se segue. As macromoléculas precipitam pela adição de ácido tricloro-acético até a uma concentração final de cerca de 10 % p/v e

faz-se a incubação dos tubos em gelo, durante 20 min. O precipitado é peletizado por centrifugação (14.000 g) e elimina-se o sobrenadante. Secam-se os peletes em vácuo. Os peletes secos são novamente suspensos em 100 microlitros num 109 tampão de digestão tríptico apropriado, contendo 100 UI de tripsina e cloridrato de tris (2-carboxietil)-fosfina a 0,1 % p/v. Faz-se a incubação da solução, durante a noite, a 37 °C.

Preparam-se aliquotas, isotopicamente puras, de MAD1 (marcador de afinidade com defeito de massa 1) com um ligante de iodoacetamida. Adiciona-se uma alíquota (50 microlitros) da dissolução de tripticos da amostra 1 a um tubo de micro-centrifugação contendo 10 mg de [79Br]-MADl. Adiciona-se uma dissolução de tripticos semelhante de uma aliquota de 50 microlitros da amostra 2 a um tubo de microcentrifugação contendo 10 mg de [81Br]-MADl. Faz-se a incubação de ambos os tubos, durante 3 h, antes de se misturarem os conteúdos. As moléculas marcadas por afinidade são purificadas por cromatografia através de uma coluna de afinidade de estreptavidina-agarose (Sigma-Aldrich, St. Louis, MO) seguindo o procedimento recomendado pelo fabricante. A mistura de péptidos marcados recuperada é analisada por meio de um espectrómetro de massa com os picos de defeito de massa deconvulsionados a partir do ruido quimico gerado pelos péptidos não marcados, por meio dos processos da presente invenção. Todos os pares dos picos remanescentes, distintos isotopicamente, foram quantificados quanto à sua abundância relativa.

Exemplo 5

Este exemplo ilustra a utilização de marcadores de massa fotocliváveis em processos de sequenciação.

Utilizando os processos da presente invenção incorporaram-se, especificamente, elementos de defeitos de massa, tais como bromo e európio no componente ajustador do intervalo de peso de um componente fotoclivável, descrito por 110

Ness et al., patente U.S. 6.027.890. O defeito de massa providenciado por estes elementos permite que os fragmentos que contêm os marcadores de defeito de massa sejam deconvulsionados a partir do ruido químico gerado por outras moléculas orgânicas, que possam estar presentes na amostra. Além disso, este exemplo mostra como o uso de algoritmos de deconvolução do emparelhamento de picos, aqui descrito, permite a qualificação de picos de sinal baixo no espectro quando se utilizam elementos de defeito de massa, com abundâncias naturais elevadas de isótopos estáveis. A síntese prossegue tal como descrito no exemplo 5 de Ness et al. ibid., com a excepção de que os compostos com Ri-36 adicionados na etapa H consistem em derivados de bromo-fenilamida de aminoácidos com comprimentos de cadeia variáveis. Os derivados de bromofenilamida prepararam-se da seguinte forma:

Dissolve-se cerca de 5 g de ácido 3-bromobenzóico e 5 g de 1,3-diciclo-hexilcarbodi-imida em 100 mL de tolueno anidro. Preparam-se alíquotas de cerca de 10 mL desta solução para cada um dos 10 frascos de reacção. A cada alíquota de 10 mL, adiciona-se uma quantidade estequiométrica de um dos ésteres de terc-butilo dos aminoácidos do quadro 5.1, relativamente ao ácido bromobenzóico. Adiciona-se a cada tubo um éster de terc-butilo de um aminoácido diferente (preparado por processos-padrão). Deixa-se a reacção prosseguir durante a noite, à temperatura ambiente e elimina-se o éster de terc-butilo que não reagiu, por meio da adição de ácido trifluoro-acético. Elimina-se então o dissolvente por evaporação e purificam-se os derivados de bromofenilamida por CLAR preparativa de fase inversa, utilizando a cromatografia de fase inversa com um gradiente de eluição. 111

Dissolvem-se os derivados de bromofenilamida e faz-se a sua cromatografia utilizando uma fase estacionária de Cs ou Ci8 da marca YMC (dimensões ~25 cm x 6 mm de D.I., 5-15 ym, 120-150 A) e uma fase móvel de gradiente consistindo inicialmente numa mistura de acetonitrilo e/ou metanol com água numa proporção de 50/50; a velocidade do fluxo e o gradiente são ajustados pelo analista para derivados específicos de bromofenilamida. A fase aquosa pode eventualmente ser modificada para conter acetato de amónio 0,1 molar, dietilamina, trietilamina ou hidróxido de amónio para ajudar à solubilidade do analito na fase móvel em casos em que ocorre o aparecimento extremo de caudas ou em que ocorre o alargamento dos picos. A porção orgânica pode eventualmente ser modificada na sua força através da adição de álcool de isopropilo a 1-10 % (em volume) , álcool de di-iso-propilo ou tetra-hidrofurano para efectuar alterações na selectividade entre os constituintes na mistura do analito e permitir o isolamento do material do marcador de bromofenilamida desejado, das suas impurezas. Implementa-se o gradiente por alteração da força total do dissolvente de ~50 % orgânico (em volume), para cerca de 90-100 % orgânico, ao longo de 10 a 20 minutos. O refinamento dos constituintes da fase móvel, da velocidade do fluxo, da potência inicial e final dos dissolventes e a velocidade do gradiente são feitas para cada derivado, tal como seria normalmente feito por um especialista nesta técnica. As fracções do material de bromofenilamida desejado, isoladas, combinam-se e evaporam-se antes da incorporação num marcador de massa.

Este procedimento gera uma série de marcadores com a composição geral ilustrada na figura 10, que podem reagir com qualquer amina primária contendo as moléculas-alvo, através da parte de ácido bloqueada por tetrafluorofenilo. 112

Quadro 5.1

Aminoácidos para serem utilizados na preparação dos componentes de peso

Exemplo 6

Este exemplo ilustra a utilização de um marcador de defeito de massa foto-clivável gerado no exemplo 5 anterior, na determinação da sequência de bradicinina.

Neste exemplo, o ácido 3-bromobenzóico e o marcador de marcação de massa conjugado com alanina estão ligados ao 113 terminal N do péptido bradicinina utilizando processos que são, no geral, reconhecidos na técnica. Diluiu-se o péptido marcado até cerca de 1 ng por microlitro numa solução em volume de acetonitrilo:água:trietilamina a 50:50:1. Injectou-se a solução, a cerca de 1 microlitro por minuto, num espectrómetro de massa Mariner ESI-TDV da Applied Biosystems equipado com uma cabeça-padrão de micro-pulverização e fez-se funcionar num modo de ião negativo. Optimizaram-se os parâmetros da pulverização e do espectrómetro de massa para a mais elevada abundância relativa do estado de carga 3 do oligonucleótido dT6 que podia ser conseguida com uma resolução de pico maior do que 5.000. Dirigiu-se um laser de cor-de-onda montado numa Arpumped (Coherent), que foi afinado para 350 nm, para um marcador entre a ponta da pulverização e a saida do espectrómetro de massa, de tal modo que a pulverização e a amostra ficassem completamente expostas à luz do laser para clivar o marcador de massa. A amostra com o marcador de massa foi analisada por meio da acumulação de 30 rastreios com a duração de 3 segundos. Desconvulsionou-se o ruído químico no espectro de massa utilizando os algoritmos da presente invenção, originando os picos do marcador de defeito de massa (figura 11 A).

Estes picos deconvulsionados foram ainda qualificados em função das abundâncias relativas dos seus pares de isótopos utilizando o algoritmo: jContagens^ - Contagens^ fcontageiiSjjsgjj + Contagens^..^ ) 1- ^pmtagens^ + Contagens^ P= 2

V

A abundância relativa do pico de massa inferior foi substituída por um factor β a partir deste cálculo. O 114 espectro de massa resultante, deconvulsionado e com os picos qualificados da região do marcador de massa estão ilustrados na figura 11B. Finalmente, as séries de isótopos no espectro do factor β (figura 11C) foram ainda deconvulsionadas para um único pico mono-isotópico utilizando algoritmos geralmente conhecidos na técnica, como os implementados no programa informático Data Explorer da BioSpec (versão 4.0, Applied Biosystems, Framingham, MA).

Exemplo 7

Este exemplo ilustra a conjugação de um marcador de defeito de massa, o éster de N-hidroxissuccinimida (NHS) do ácido 5-bromonicotínico, para apoiar a apomioglobina (Mio).

Comprou-se a Mio (grau de sequenciação) (Cat #A8673), o ácido 5-bromonicotínico (5-BrNA) (Cat #228435), o sulfato de dodecilo e sódio (SDS) (Cat #L6026) e a ureia (Cat #U0631) na Sigma-Aldrich e utilizaram-se como matéria-prima. Comprou-se dimetilssulfóxido (DMSO) (Cat #20864) anidro, cloridrato de l-etil-3-(3-dimetilaminopropil)-carbodi-imida (EDC) (Cat #22980)) e NHS (Cat #24500) na Pierce e utilizaram-se como matéria-prima.

Preparou-se o NHS-éster de 5-BrNA in situ dissolvendo 20,8 mg de 5-BrNA, 52,7 mg de NHS e 154,1 mg de EDC, em 0,657 mL de DMSO. Tratou-se rapidamente a amostra com ultra-sons num equipamento de ultra-sons num banho para dissolver rapidamente todos os sólidos. Fez-se a incubação da mistura, durante a noite, a 4 °C. A análise espectral de massa da mistura resultante indicou 93 % de conversão do 5-BrNA no éster de NHS (NHS-5-BrNA) por meio de uma adição-padrão. 115

Desnaturou-se Mio por meio do aquecimento, a 95 °C, durante 20 min, a uma concentração de 5,35 mg/mL, numa solução aquosa de SDS a 5 % (p/v) . Depois de se arrefecer para a temperatura ambiente, diluiu-se Mio para 1,07 mg/mL em tampão de fosfato de sódio 80 mM, a pH 7,0, contendo uma concentração final de SDS a 1 % (p/v) e ureia 6,4 M. Marcou- se Mio com NHS-5-BrNA por meio da adição de 0,353 mL (50 ymole) de NHS-5-BrNA preparado como descrito antes a 2 mL (2,14 mg) da mioglobina desnaturada. Fez-se a incubação da amostra, durante a noite, à temperatura ambiente, no escuro. A amostra foi então prolongadamente dialisada com ácido acético aquoso a 50 % (v/v) para eliminar a ureia e o SDS, que tinham um efeito prejudicial na análise espectral de massa por electro-pulverização. A perda da proteína foi evidente durante a diálise prolongada mas não foi quantificada. No final da diálise, secou-se a amostra completamente num "speed vac" (evaporador rotativo) (Savant).

Exemplo 8

Este exemplo ilustra a geração da sequenciação de espécies iónicas de fragmentos do espectro de massa a partir de mioglobina marcada com 5-BrNA (preparada como descrito no exemplo 7), por IMLS que estão deslocadas do ruído químico periódico.

Preparou-se uma amostra para a espectrometria de massa dissolvendo a mioglobina marcada com 5-BrNA anidra (exemplo 7) em 0,1 mL de uma solução aquosa de acetonitrilo a 50 % contendo 1 % em volume de ácido acético. A proteína marcada foi submetida a uma fragmentação na fonte num espectrómetro de massa de electro-pulverização por tempo de escoamento (Mariner™, PE Biosystems, Inc.), tal como descrito por Schneider et al. (WO 00/63683, 26 de Outubro de 2000). Os 116 parâmetros do espectrómetro de massa foram optimizados e o instrumento foi calibrado imediatamente antes da injecção da amostra, de acordo com as instruções do fabricante. Fez-se a infusão da amostra, continuamente, por uma via de capilaridade de D.I. de 50 ym, na fonte de electro-pulverização, a uma taxa de 1 yL/min. A pulverização potencial foi fixada em 300 V para induzir uma fragmentação na fonte. Acumularam-se os espectros e somaram-se durante 345 s no intervalo de unidades de massa/carga de 50-2.000. O exame dos dados espectrais de massa da matéria-prima mostraram uma clara evidência do ião do tipo b do próprio marcador carregado simplesmente (massa mono-isotópica de 183,94) que estava deslocado -0,15 amu para a esquerda dos picos que faziam parte do ruido periódico comum aparecendo num período de -1 amu (ver figura 12A) . A identidade deste pico foi corroborada pelo aparecimento de um segundo pico (185,94) que estava -2 amu a montante do primeiro pico, o que corresponde ao ião do fragmento marcado que incorpora o isótopo de maior massa de bromo (81Br) . As intensidades relativas destes dois picos eram praticamente equivalentes, reflectindo a abundância natural dos isótopos de bromo de -1:1.

Isto ilustra a utilidade de gerar iões de fragmentos específicos do marcador que incorporam elementos de defeito de massa (por exemplo, bromo) que podem ser resolvidos a partir do ruído químico gerado pelas proteínas (que são compostas por elementos que não exibem fortes defeitos de massa) durante a IMLS.

Os dados espectrais foram examinados quanto à evidência dos picos deslocados dos defeitos de massa, que correspondem a iões de fragmentos do terminal N de mioglobina. O doblete 117 do ião ai carregado simplesmente (glicina) é evidente a 212,97 e 214,96 m/z (ver figura 12B). Além disso, é evidente um doblete correspondente às massas calculadas do ião d2 (glicina-leucina) (284,05 e 286, 05 m/z) (ver figura 12C) . Assim, gera-se a sequenciação dos iões. No geral, a baixa abundância da sequenciação de picos de iões observada com este marcador é o resultado de uma elevada intensidade do ião gerado pelo próprio marcador que está altamente estabilizado pela conjugação do marcador carbonilo com o anel de piridilo (ver figura 12A) . A geração destas espécies altamente conjugadas vai levar a uma clivagem preferencial da ligação da amida do marcador em relação à estrutura da amida da proteina, levando a uma perda significativa dos iões de sequenciação. Como resultado, será preferível separar 0 carbonilo do marcador do anel aromático por meio de um ou mais grupos metileno para tornar a ligação de amida do marcador com uma energia de ligação similar à da estrutura da amida da proteina.

Exemplo 9

Este exemplo ilustra a conjugação de um marcador de defeito de massa, o éster de N-hidroxisuccinimida (NHS) do ácido 5-bromo-3-piridilacético (5-Br-3-PAA), para suportar a apomioglobina (Mio).

Comprou-se o 5-Br-3-PAA (Cat #13579) na Lancaster Synthesis e utilizou-se como matéria-prima. Comprou-se Mio (grau de sequenciação) (Cat #A8673), sulfato de dodecilo e sódio (SDS) (Cat #L6026) e ureia (Cat #U0631) na Sigma-Aldrich e utilizaram-se como matéria-prima. Comprou-se dimetilsulfóxido (DMSO) (Cat #20864) anidro, cloridrato de 1-etil-3-(3-dimetilaminopropil)-carbodi-imida (EDC) (Cat 118 #22980) e NHS (Cat #24500) na Pierce e utilizaram-se como matéria-prima.

Preparou-se o éster de NHS de 5-Br-3-PAA (NHS-5-Br-3-PAA) in situ, dissolvendo 12,7 mg de 5-Br-3-PAA, 7,4 mg de NHS e 12,5 mg de EDC, em 0,235 mL de DMSO. Fez-se a incubação da mistura, durante 24 h, à temperatura ambiente, no escuro. A análise espectral de massa da mistura resultante indicou 53 % de conversão de 5-Br-3-PAA por meio de uma adição padrão. Uma vez que a conversão não estava ainda completa, adicionou-se mais NHS (7,2 mg) e EDC (7,5 mg) e incubou-se durante mais 24 h. A análise espectral de massa da mistura resultante, após este segundo periodo de incubação, indicou 93 % de conversão do material inicial.

Desnaturou-se Mio por aquecimento de 1,89 mg em 0,54 mL de uma solução aquosa de SDS a 5 % (p/v), a 95 °C, durante 20 min. Após o arrefecimento para a temperatura ambiente, adicionou-se à amostra 1,89 mL de ureia 9 M, em tampão de fosfato de sódio 20 mM, a pH 7,0. Adicionou-se à mioglobina desnaturada NHS-5-Br-3-PAA (0,24 mL, concentração final ~19 mM) . Fez-se a incubação da amostra durante a noite, à temperatura ambiente, no escuro. A mistura reaccional foi dializada por centrifugação em função de um tampão de Tris 25 mM, a pH 8,3, contendo SDS a 0,1 % (p/v) para eliminar a ureia e os subprodutos da reacção de NHS-5-Br-3-PAA. O produto final retido (~0,6 mL) que continha a mioglobina marcada foi sujeito a um processo de extracção com clorofórmio para eliminar a SDS ligada (Puchades et al. (1999), Rap. Comm. Mass. Spec. 13, 344-349). Adicionou-se à amostra, 2,4 mL de metanol, 0,6 mL de clorofórmio e 1,8 mL de água. Misturou-se a amostra invertendo o tubo uma vez. Centrifugou-se a amostra (3.743 g, 20 min, temperatura ambiente) para auxiliar a fase de separação e descartou-se a 119 maior parte da camada de topo. Adicionou-se metanol (1,8 mL) à fase inferior remanescente e à proteína que tinha precipitado na interface. Fez-se uma centrifugação vigorosa em vórtice do tubo e a proteína, que tinha precipitado, foi transformada em peletes por centrifugação (3.743 g, 40 min, temperatura ambiente). Decantou-se o sobrenadante e descartou-se e secaram-se os peletes residuais de proteína com uma corrente de azoto gasoso. Fez-se uma nova suspensão da Mio anidra marcada em 0,4 mL de uma solução aquosa a 10 % (v/v) de ácido acético. Mediu-se a concentração da proteína (2,6 mg/mL) por meio de um ensaio de BCA utilizando um padrão de ASB.

Exemplo 10

Este exemplo ilustra a geração da sequenciação de espécies iónicas de fragmentos espectrais com defeitos de massa a partir de mioglobina marcada com 5-Br-3-PAA (preparada no exemplo 9) por IMLS que estava deslocada do ruído químico periódico.

Preparou-se uma amostra para espectrometria de massa dissolvendo a mioglobina (150 yg) marcada com 5-Br-3-PAA, em 0,5 mL de uma solução aquosa de acetonitrilo a 50 %, contendo 1,2 % em volume de ácido acético. Submeteu-se a proteína marcada a uma fragmentação na fonte num espectrómetro de massa de tempo de escoamento e por electro-pulverização (Mariner™, PE Biosystems, Inc.), tal como descrito por Schneider et al. (WO 00/63683, 26 de Outubro de 2000) . Os parâmetros do espectrómetro de massa foram optimizados e o instrumento foi calibrado imediatamente antes da injecção da amostra, de acordo com as recomendações do fabricante. Fez-se a infusão da amostra, continuamente, por via capilar, D.I. de 50 ym, na fonte da electro-pulverização, a uma taxa de 1,2 120 yL/min. 0 potencial de pulverização foi fixado em 225 V para induzir a fragmentação na fonte. Acumularam-se os espectros e somaram-se, durante 180 s, no intervalo de unidades de massa/carga de 50-2.000. O exame dos dados do espectro de massa da matéria-prima mostra uma clara evidência de iões bi-b6 carregados simplesmente derivados do terminal N da mioglobina marcada (figuras 13A-B, figuras 14A e B e figuras 15A e B). Os picos de dobletes que correspondem aos iões b, incorporando quer átomos de 79Br ou átomos de 81Br (reflectindo a abundância natural de bromo de ~50:50) estão deslocados do seu defeito de massa (~0,15) para a esquerda do ruido quimico que é evidente numa frequência periódica de ~1 amu. Assim, ao contrário dos iões limitados de sequenciação que foram produzidos pela mioglobina marcada com 5-BrNA (discutidos nos exemplos 1 e 2), esta mioglobina marcada, com uma unidade interveniente de metileno entre o carbonilo do marcador e o anel de piridina, produz uma escada de massa completa dos iões b através dos primeiros seis residuos do terminal N. Este é o resultado mais provável da ligação da amida de 5-Br-3-PAA ser mais semelhante às ligações da amida da estrutura da proteina, em termos de potencial de clivabilidade, comparado com a de 5-BrNA, que parece ser mais susceptivel à clivagem.

Exemplo 11

Este exemplo descreve um processo para a IMLS da apo-mioglobina marcada com 4-bromobenzaldeido. A marcação do terminal N de proteínas com aldeídos, seguida da estabilização com agentes de redução, resulta em marcadores com ligações de amina secundária. Esta ligação é 121 mais estável, sob o ponto de vista energético, do que a da amida correspondente. Por isso, durante a IMLS, o marcador deve exibir uma fragmentação minima comparada com a das ligações amida do péptido e assim deve produzir uma maior abundância de iões de fragmento de interesse. Além disso, a geração de um sitio básico directamente a partir da química providencia uma parte de carga "leve" que torna desnecessária a incorporação de uma parte carregada, no marcador, antes da ligação. 0 4-bromobenzaldeído está disponível na Sigma-Aldrich. 0 aldeído pode ser adicionado a uma solução aquosa tamponada de mioglobina desnaturada de uma forma semelhante às condições descritas no exemplo 10 para a marcação de mioglobina com éster de NHS do ácido 5-bromonicotínico. Depois de a reacção estar completa, estabiliza-se a mioglobina marcada por redução das iminas geradas com cianoboro-hidreto de sódio. Este agente de redução reduz selectivamente ligações duplas semelhantes a imina e não reduz outros grupos funcionais normalmente encontrados nos péptidos e nas proteínas. A ligação química do marcador resultante é uma amina secundária. Purifica-se então a proteína marcada por diálise ou por filtração em gel. A proteína marcada é dissolvida num sistema de tampão compatível com EM e realiza-se a IMLS da forma descrita no exemplo 10.

Exemplo 12

Este exemplo ilustra a IMLS de ubiquitina marcada com ácido 5-bromonicotínico. A ubiquitina é marcada com ácido 5-bromonicotínico de acordo com o processo estabelecido no exemplo 7 para a apo-mioglobina. A ubiquitina marcada é submetida a uma 122 fragmentação na fonte, no espectrómetro de massa, tal como descrito no exemplo 8 e analisam-se os espectros quanto à presença de iões de fragmentos do terminal N contendo o marcador.

Exemplo 13

Este exemplo ilustra a IMLS da apomioglobina marcada com o ácido 6-bromo-2-hidroxi-quinolino-4-carboxílico (BHQC). 0 éster de NHS de BHQC prepara-se de acordo com o processo descrito no exemplo 7 para a preparação do éster de NHS do ácido 5-bromonicotinico. A apomioglobina é marcada com BHQC utilizando um procedimento semelhante ao descrito no exemplo 7. A apomioglobina marcada é submetida a uma fragmentação na fonte, no espectrómetro de massa, tal como

descrito no exemplo 10. Os dados do espectro de massa são analisados quanto aos iões de fragmentos do terminal N marcados.

Exemplo 14

Este exemplo ilustra a IMLS de ubiquitina marcada com ácido 6-bromo-2-hidroxiquinolino-4-carboxílico (BHQC). A ubiquitina pode ser marcada com BHQC de acordo com o processo estabelecido no exemplo 13 para a apomioglobina. A ubiquitina marcada é então submetida a uma fragmentação na fonte, no espectrómetro de massa, tal como descrito no exemplo 10. Os dados do espectrómetro de massa são em seguida analisados em relação aos iões dos fragmentos do terminal N marcados. 123

Exemplo 15

Este exemplo ilustra a utilização da deconvolução automatizada e dos algoritmos de sequenciação da presente invenção para encontrar a sequência do terminal N de mioglobina marcada com 5-Br-3-PAA, fragmentada na fonte, num espectrómetro de massa ESI-TDV, tal como descrito no exemplo 5.

Os dados originais utilizados para gerar o espectro de massa do exemplo 5 são exportados num formato ASCII a partir de um sistema de aquisição de dados. Determina-se o período natural do ruído químico a partir destes dados iniciais, utilizando o código de "deconvolução" ilustrado no anexo e determina-se que é de 1,000575 amu. Utilizando este período natural, o espectro volta ao cenário de referência (ficheiro de saída *.bsl) para corrigir os erros do instrumento, que são sempre positivos em EM (figura 16). Voltar ao cenário de referência significa que o valor mínimo dos dados em cada bloco de 1,000575 amu de todos os dados é ajustado para zero por meio da subtracção através de cada um dos dados no bloco de dados. O ficheiro dos dados de referência é, em seguida, processado com o "factor beta" de forma a qualificar os picos de defeito de massa (contendo Br) , que devem sempre ter um pico de emparelhamento de [81Br] de 1, 997954 amu a montante do pico de [79Br] (figura 16). O ficheiro resultante *.bfc é então processado através do código "sequenciador" (ver, o pedido de patente co-pendente, registado em 19 de Outubro de 2001, intitulado "Methods for Determining Protein and Peptide Terminal Sequences" N°. de registo legal 05265.P001 (publicação PCT WO 02/061661), com a verdadeira sequência da mioglobina de terminal N (5-Br-3-PAA-GLSDGE; SEQ ID N°. 1) sendo a solução de topo classificada através dos primeiros quatro resíduos. Neste exemplo, o código do "sequenciador" 124 era uma pesquisa limitada pelo primeiro estado de carga dos iões b.

Quando o código "sequenciador" funciona para determinar a sequência dos primeiros cinco residuos, a sequência GLSDW (SEQ ID N°. 8), que origina uma massa teórica de 756, 1993 sobrepõe-se (figura 17) ao pico correspondente à posição de defeito de massa do sexto resíduo da sequência verdadeira (GLSDGE (SEQ ID N°. 9) a 756,1840). Isto resulta na sequência GLSDW (SEQ ID N°. 8) que está classificada no topo, em cinco resíduos. Contudo, quando o "sequenciador" funciona através de seis resíduos, a verdadeira sequência GLSDGE (SEQ ID N°. 9) volta outra vez para o topo da classificação porque GLSDW (SEQ ID N°. 8) falha na propagação de uma sequência concorrente no sexto resíduo. Isto mostra a vantagem de um algoritmo de probabilidade cumulativa.

Exemplo 16

Este exemplo ilustra a síntese de um marcador genérico de defeito de massa que incorpora um elemento de defeito de massa da presente invenção (isto é, bromo), um grupo ionizável (isto é, piridilo) e uma parte de ligação do anidrido succínico para a ligação ao terminal N ou a outro grupo de amina primária ou secundária desejado de um polipéptido ou de outras espécies. Já foi demonstrado que o anidrido sucínico, e ostensivamente os seus derivados, reagem com uma eficiência praticamente quantitativa em relação aos grupos amino do polipéptido (ver, Munchbach et al., Anal. Chem. 72: 4047-4057 (2000)). Outras espécies alifáticas/ aromáticas comparáveis podem ser facilmente sintetizadas e podem conter qualquer combinação de grupos ionizáveis (Ai. . . . An) , elementos de defeito de massa (Bi....Bn) e uma 125 parte reactiva nuclear de anidrido succínico (AS) (ver figura 18a) .

Como exemplo de estratégia, a figura 18b descreve um esquema global de síntese para um marcador de defeito de massa { (Ai. . . . An) - (Bi. . . .Bn)-SA} . Neste esquema, o ácido 5-bromo-3-piridil-acético (Lancaster, Cat #13579) é inicialmente convertido no éster etílico por meio da reacção com etanol, na presença de um catalisador ácido, com eliminação de água. 0 éster resultante é então bromado por reacção com bromo elementar numa solução básica de etóxido de sódio em etanol. Faz-se então reagir, selectivamente, o carbono bromado, num dissolvente orgânico anidro, tal como, tetra-hidrofurano com di-(bromoacetaldeído-dimetil-acetal)-cuprato de lítio, que se prepara por meio da reacção do acetal de bromoacetaldeído e dimetilo, disponível comercialmente (Aldrich, Cat #242500) com lítio, para formar espécies organo-líticas que se convertem no cuprato por reacção com Cu(II)I. Trata-se o produto resultante com ácido aquoso para eliminar a parte de acetal e hidrolisa-se novamente o éster para se obter o ácido livre. O aldeído libertado é oxidado para o ácido carboxílico correspondente por meio de agentes padrão de oxidação (por exemplo, Ag+) e a síntese é completada pela ciclização e a desidratação dos dois grupos de ácido carboxílico gerados, para formar o desejado derivado de anidrido succínico.

Exemplo 17

Este exemplo ilustra a utilização de marcadores de defeito de massa em aplicações de sequenciação de ADN. O esquema apresentado (figura 19) representa um exemplo de uma técnica de sequenciação que utiliza o processo de Sanger; contudo, pode-se aplicar uma metodologia semelhante a outras 126 estratégias de sequenciação de ADN, tais como as estratégias de Maxam-Gilbert ou de RCP ou outras estratégias conhecidas pelos especialistas na matéria.

Em resumo, um plasmido M13, comportando uma sequência de ADN clonada desconhecida (por exemplo, d(GTTACAGGAAAT) (SEQ ID N°. 10) é inicialmente hibridado com uma origem Ml3 do iniciador de replicação (3xd(AGTCACGACGACGTTGT)rA-5' (SEQ ID N°. 4) que está marcado, na extremidade 5', com rA, para produzir o iniciador clivável selectivamente por ARNase (Integrated DNA Technologies, Inc., Coralville, Iowa). Divide-se o volume de reacção em metades e transfere-se para dois tubos. Num tubo, adiciona-se polimerase, dNTP, dGTP e ddATP* marcados com defeitos de massa (ver figura 20A) e ddGTP* (ver figura 20B) . Ao outro tubo, adiciona-se polimerase, dNTP e ddTTP* marcado com defeito de massa (ver figura 20C) e ddCTP* (ver figura 20D). Os ddNTP modificados, ilustrados na figura 20, são exemplos e são preparados de acordo com procedimentos padrão (ver, Kricka, L.J., NONISOTOPIC DNA PROBE TECHNIQUES, Academic Press, New York (1992); Keller, G.H. e Manak, M.M., DNA PROBES, Stockton, New York (1989)). Há muitos outros ddNTP modificados úteis que contêm bases de purina e de pirimidina derivadas com partes de marcador de defeito de massa e separadas por uma grande variedade de reticulantes com diferentes comprimentos e/ou composições. A replicação do ADN e a extensão da cadeia é iniciada pela incubação, a 37 °C. As escadas de massa são produzidas por terminação da cadeia com ddNTP. Uma etapa de desnaturação e clivagem com ARNase no fim da reacção, elimina o produto terminado da cadeia da matriz e liberta o iniciador que pode ser removido selectivamente por hibridação. Dissolvem-se os fragmentos de ADN num tampão compatível com o espectrómetro de massa e fazem-se passar para o espectrómetro de massa ESI-TDV em modo de ião negativo. Os picos 127 correspondentes a uma série de iões com várias cargas, para cada fragmento, são deconvulsionados utilizando algoritmos padrão fornecidos pelo fabricante dos instrumentos (Applied Biosystems) para gerar espectros que contêm apenas as massas com carga zero. Os espectros de carga zero são em seguida tornados centróides utilizando também os algoritmos fornecidos pelo instrumento.

Analisaram-se os dados espectrais de massa como se segue. Fez-se a deconvolução do espectro da amostra contendo ddA* e ddG* e eliminou-se o ruido quimico, deixando apenas os picos que tinham incorporado átomos de bromo ou de iodo (figura 21). 0 espectro da amostra que continha ddT* e ddC* é tratado de uma forma semelhante (figura 22) . Quando se olha para ambos os espectros deconvulsionados, encontra-se o fragmento com a massa mais elevada (4.114,733) no espectro de ddA*/ddG* (figura 21). Este fragmento pode também ser identificado como o fragmento que contém um elemento de massa de iodo, já que não há um par isotópico; por isso, o último nucleótido na sequência "desconhecida" é A. 0 fragmento de massa com a massa mais baixa a seguir é um doblete a 3.695,611 e 3.697,609, que se encontra no espectro de ddT*/ddC* (figura 22). O doblete indica a incorporação de um átomo de bromo e, por isso, o nucleótido seguinte na sequência é T. Repete-se este processo até se encontrar o último pico, neste caso, um pico de singleto a 748,1850 no espectro correspondente de ddT*/ddC*, por isso, é C. Assim, determina-se a sequência ATTTCCTGTAAC (SEQ ID N°. 11) e, quando invertida e os complementos do nucleótido substituídos, determina-se a sequência "desconhecida" GTTACAGGAAAT (SEQ ID N°. 10).

Neste exemplo, faz-se a sequenciação de um segmento de ADN de PM de -4.000 que está dentro das especificações da 128 presente invenção. Dado que a capacidade para distinguir espécies de defeito de massa que incorporam um átomo de defeito de massa se degrada para massas superiores a 5.000, podem sequenciar-se segmentos de ADN maiores do que o do exemplo apresentado aqui, quer utilizando mais elementos de defeito de massa na terminação dos ddNTP ou, alternativamente, utilizando o processo de "iniciadores de amplificação em círculos". Com o processo do "iniciador de amplificação em círculo" pode-se sequenciar um segmento mais pequeno do ADN desejado utilizando o processo anterior e prepara-se um novo iniciador a partir desta sequência deduzida, para continuar a sequenciação ao longo da estrutura helicoidal maior de ADN. No fim, os fragmentos mais pequenos podem ser colocados topo-a-topo para revelar a sequência do ADN desconhecido.

Exemplo 18

Neste exemplo, utilizou-se o marcador de defeito de massa (5-Br-3-PAA) para sequenciar ubiquitina de bovino (Sigma-Aldrich). A ubiquitina foi marcada pelo mesmo processo descrito no exemplo 7 para a mioglobina, excepto no facto de a etapa de marcação da proteína ter sido realizada em acetonitrilo a 100 %. Preparou-se a amostra de ubiquitina marcada e introduziu-se num espectrómetro de massa ESI-TDV, tal como descrito no exemplo 8. Deconvulsionou-se o espectro de massa resultante e sequenciou-se tal como descrito no exemplo 10. A verdadeira sequência do terminal N de ubiquitina (MQIFVK (SEQ ID N°. 12), obtida no GenBank) foi determinada correctamente quando o "sequenciador" realizou um ciclo com dois, três e quatro resíduos. A sequência correcta foi classificada a partir de 19 possibilidades concorrentes no 129 primeiro residuo. A sequência correcta foi também a segunda classificada (para MQIFR; SEQ ID N° . 13) no quinto residuo.

Lisboa, 14 de Maio de 2012. 130

Claims

REIVINDICAÇÕES 1. Processo para a sequenciação de uma porção terminal de um oligómero, caracterizado pelo facto de compreender: (a) o contacto do referido oligómero com uma parte de marcação de defeito de massa para ligar covalentemente a parte de marcação do defeito de massa ao terminal do oligómero e formar um oligómero marcado, compreendendo essa parte de marcação de defeito de massa, pelo menos um elemento com um número atómico de 17 a 77; (b) a fragmentação do referido oligómero marcado utilizando um processo de fragmentação enzimático, quimiolitico ou por espectrometria de massa para produzir fragmentos de oligómeros marcados; e (c) a análise dos referidos fragmentos de oligómeros marcados utilizando um processo de fragmentação por espectrometria de massa para determinar a sequência de pelo menos dois resíduos terminais, com base na energia de ligação nuclear de pelo menos um dos elementos referidos, que confere uma massa única aos referidos fragmentos de oligómeros marcados.
2. Processo, de acordo com a reivindicação 1, caracterizado pelo facto de a referida parte de marcação compreender, pelo menos um elemento com o número atómico 35 a 63.
3. Processo, de acordo com a reivindicação 2, caracterizado pelo facto de a referida parte de marcação compreender, pelo menos um elemento co um número atómico de 39 a 58. 1
4. Processo, de acordo com a reivindicação 2, caracterizado pelo facto de a referida parte de marcação compreender pelo menos um elemento seleccionado no grupo que consiste em bromo, iodo, európio e itrio.
5. Processo, de acordo com a reivindicação 4, caracterizado pelo facto de o referido elemento ser európio.
6. Processo, de acordo com a reivindicação 4, caracterizado pelo facto de o referido elemento ser itrio.
7. Processo, de acordo com a reivindicação 4, caracterizado pelo facto de o referido elemento ser bromo.
8. Processo, de acordo com a reivindicação 4, caracterizado pelo facto de o referido elemento ser iodo.
9. Processo, de acordo com a reivindicação 1, caracterizado pelo facto de o referido oligómero se seleccionar no grupo que consiste em uma proteina, um oligonucleótido, um oligossacárido e um lipido.
10. Processo, de acordo com a reivindicação 9, caracterizado pelo facto de o referido oligómero ser um oligonucleótido.
11. Processo, de acordo com a reivindicação 9, caracterizado pelo facto de a referida sequência ter pelo menos três residuos.
12. Processo, de acordo com a reivindicação 9, caracterizado pelo facto de a referida sequência ter pelo menos quatro residuos.
13. Processo, de acordo com a reivindicação 1, caracterizado pelo facto de vários oligómeros, cada um deles marcado com um número diferente de elementos de defeito de 2 massa, serem misturados antes das referidas etapas de fragmentação ou de análise.
14. Processo para a sequenciação de uma porção de um oligómero numa mistura de oligómeros, caracterizado pelo facto de o referido processo compreender: (a) o contacto da referida mistura de oligómeros com uma parte de marcação de defeito de massa para ligar covalentemente a parte de marcação do defeito de massa ao terminal do referido oligómero e formar uma mistura de oligómeros marcados, compreendendo essa parte de marcação de defeito de massa pelo menos um elemento com um número atómico de 17 a 77; (b) a separação dos oligómeros individuais marcados na referida mistura de oligómeros marcados; e (c) a análise dos referidos oligómeros individuais marcados da etapa (b) , por meio de um processo de espectrometria de massa para determinar a sequência de pelo menos dois resíduos terminais, com base na energia de ligação nuclear de pelo menos um dos elementos referidos, que confere uma massa única aos referidos oligómeros . individuais marcados.
15. Processo, de acordo com a reivindicação 14, caracterizado pelo facto de o referido elemento ter um número atómico de 35 a 63
• 16. Processo, de acordo com a reivindicação 14, caracterizado pelo facto de o referido elemento ter um número atómico de 39 a 58
• 17. Processo, de acordo com a reivindicação 14, caracterizado pelo facto de o referido elemento se 3 seleccionar no grupo que consiste em bromo, iodo, európio e itrio.
18. Processo, de acordo com a reivindicação 14, caracterizado pelo facto de compreender ainda uma etapa antes da etapa (a), de isolamento de um grupo de oligómeros a partir de uma amostra biológica.
19. Processo, de acordo com a reivindicação 18, caracterizado pelo facto de a referida amostra biológica ser uma amostra de um tecido doente.
20. Processo, de acordo com a reivindicação 18, caracterizado pelo facto de a referida amostra biológica ser uma amostra de um tecido saudável.
21. Processo, de acordo com a reivindicação 14, caracterizado pelo facto de a separação ser realizada por meio de pelo menos um dos métodos de electroforese capilar da mistura de oligómeros marcados.
22. Processo, de acordo com a reivindicação 14, caracterizado pelo facto de o referido processo espectrométrico de massa utilizar EM de ESI-TDV.
23. Processo, para a análise da estrutura e da função de um oligómero com vários resíduos, caracterizado pelo facto de o referido processo compreender: (a) o contacto do referido oligómero com um reagente de marcação de defeito de massa para marcar, de maneira diferencial, os resíduos expostos e não expostos e produzir um oligómero marcado diferencialmente, compreendendo esse reagente de marcação de defeito de massa pelo menos um elemento com um número atómico de 17 a 77; e 4 (b) a análise do referido oligómero marcado diferencialmente, por meio de um processo de espectrometria de massa, para determinar as sequências dos referidos oligómeros que estão expostas na estrutura tridimensional e as sequências dos referidos oligómeros que não estão expostas na estruturas tridimensional, com base na energia de ligação nuclear de pelo menos um dos referidos elementos que confere uma massa única ao referido oligómero marcado diferencialmente.
24. Processo, de acordo com a reivindicação 23, caracterizado pelo facto de o referido oligómero ser uma proteína, um ácido nucleico ou um oligossacárido.
25. Processo, de acordo com a reivindicação 23, caracterizado pelo facto de o referido reagente de marcação de defeito de massa compreender pelo menos um elemento com o número atómico de 35 a 63.
26. Processo, de acordo com a reivindicação 23, caracterizado pelo facto de o referido reagente de marcação de defeito de massa ser bromo e o referido oligómero ser uma proteína.
27. Processo, de acordo com a reivindicação 23, caracterizado pelo facto de o referido reagente de marcação de defeito de massa compreender pelo menos um elemento com o número atómico de 39 a 58.
28. Processo, de acordo com a reivindicação 23, caracterizado pelo facto de o referido oligómero marcado diferencialmente ser fragmentado por processos enzimáticos ou quimiolíticos antes da etapa (b). 5
29. Processo, de acordo com a reivindicação 23, caracterizado pelo facto de o referido oligómero ser uma proteína, o referido defeito de massa ser bromo ou iodo e os referidos resíduos expostos compreenderem uma porção dos resíduos de tirosina presentes na referida proteína.
30. Processo, de acordo com a reivindicação 23, caracterizado pelo facto de o referido processo de espectrometria de massa utilizar EM ESI-TDV.
31. Processo, de acordo com a reivindicação 29, caracterizado pelo facto de o referido processo de espectrometria de massa utilizar EM ESI-TDV.
32. Processo para a sequenciação da porção terminal de um oligómero, caracterizado pelo facto de compreender as seguintes operações: (a) o contacto de uma primeira amostra do referido oligómero com um grupo de marcação de defeito de massa para ligar covalentemente o grupo de marcação de defeito de massa à extremidade do oligómero e formar um oligómero marcado, em que o referido grupo de marcação de defeito de massa tem um elemento com o número atómico de 17 a 77; (b) o contacto de uma segunda amostra do referido oligómero com um grupo de marcação de defeito de massa para ligar covalentemente o grupo de marcação de defeito de massa à extremidae do oligómero e formar um oligómero marcado, em que o referido grupo de marcação de defeito de massa tem dois elementos com o número atómico de 17 a 77; 6 (c) eventualmente, a repetição da etapa (b) , de uma a três vezes, com amostras adicionais, em que os referidos grupos de marcação de defeito de massa têm três, quatro ou cinco elementos, respectivamente, com um número atómico entre 17 e 77; (d) a mistura dos oligómeros marcados das etapas (a) a (c) ; (e) a fragmentação dos referidos oligómeros marcados, utilizando um processo de fragmentação enzimático, quimiolitico ou de espectrometria de massa, para produzir os fragmentos de oligómeros marcados; e (f) a análise dos referidos fragmentos de oligómeros marcados, utilizando um processo de fragmentação por espectrometria de massa, para determinar a sequência de pelo menos dois resíduos terminais em função de uma energia de ligação nuclear de um dos referidos elementos ou dos dois, três, quatro ou cinco dos referidos elementos que conferem massa única aos referidos fragmentos de oligómeros marcados.
33. Processo, de acordo com a reivindicação 32, caracterizado pelo facto de cada um dos referidos elementos ter um número atómico de 35 a 63.
34. Processo, de acordo com a reivindicação 32, caracterizado pelo facto de cada um dos referidos elementos ter um número atómico de 39 a 58.
35. Processo, de acordo com a reivindicação 32, caracterizado pelo facto de cada um dos referidos elementos ser seleccionado no grupo que consiste em 7 bromo, iodo, európio e ítrio e o referido oligómero ser uma proteina.
36. Processo, de acordo com a reivindicação 32, caracterizado pelo facto de cada um dos referidos elementos ser seleccionado no grupo que consiste em bromo, iodo, európio e itrio e o referido oligómero ser um oligonucleótido.
37. Processo, de acordo com a reivindicação 32, caracterizado pelo facto de cada um dos referidos elementos ser seleccionado no grupo que consiste em bromo, iodo, európio e itrio e o referido oligómero ser um oligossacárido.
38. Processo para a sequenciação da porção terminal de um oligómero, caracterizado pelo facto de compreender as seguintes operações: (a) a fragmentação de alíquotas do referido oligómero utilizando um ou mais processos específicos de fragmentação enzimática ou quimiolitica, para produzir fragmentos de oligómeros, em que se aplica, a cada aliquota, um processo de fragmentação diferente; (b) o contacto de uma primeira aliquota de fragmentos de oligómero com uma primeira parte de marcação de defeito de massa para ligar covalentemente a referida primeira parte de marcação de defeito de massa aos terminais dos fragmentos dos oligómeros e formar fragmentos de oligómeros marcados, em que a referida primeira parte de marcação de defeito de massa tem um elemento com o número atómico de 17 a 77; 8 (c) eventualmente, o contacto de outras aliquotas de fragmentos de oligómeros com outras partes distintas de marcação de defeito de massa para ligar covalentemente as referidas partes distintas de marcação de defeito de massa aos terminais dos fragmentos dos oligómeros e formar fragmentos de oligómeros marcados, em que as referidas partes distintas de marcação de defeito de massa têm dois ou mais elementos com o número atómico de 17 a 77; (d) eventualmente, a mistura das aliquotas dos fragmentos de oligómeros marcados; e (e) a análise dos referidos fragmentos de oligómeros marcados, utilizando um processo de fragmentação por espectrometria de massa, para determinar a sequência de pelo menos dois residuos do referido oligómero, com base na energia de ligação nuclear de um dos referidos elementos ou dod dois dos referidos elementos ou de mais dos referidos elementos que conferem uma massa única aos referidos fragmentos de oligómeros marcados.
39. Processo, de acordo com a reivindicação 38, caracterizado pelo facto de o referido oligómero ser um lipido.
40. Processo, de acordo com a reivindicação 38, caracterizado pelo facto de o referido oligómero ser uma proteína.
Processo, de acordo com a reivindicação 38, caracterizado pelo facto de o referido oligómero ser um ácido nucleico. 9 41.
42. Processo, de acordo com a reivindicação 38, caracterizado pelo facto de o referido oligómero ser um oligossacárido.
43. Processo, de acordo com a reivindicação 38, caracterizado pelo facto de os referidos elementos terem um número atómico de 35 a 63.
44. Processo, de acordo com a reivindicação 43, caracterizado pelo facto de os referidos elementos terem um número atómico de 39 a 58.
45. Processo para a comparação das abundâncias relativas dos analitos provenientes de duas ou mais amostras, caracterizado pelo facto de compreender as seguintes operações: (a) o contacto dos analitos da primeira amostra com uma parte de marcação de defeito de massa para ligar covalentemente a parte de marcação de defeito de massa aos analitos e formar analitos marcados, em que a referida parte de marcação de defeito de massa tem um elemento com o número atómico de 17 a 77; (b) o contacto dos analitos das amostras subsequentes com partes de marcação de defeito de massa para ligar covalentemente as partes de marcação de defeito de massa aos analitos, em cada amostra, em que as partes de marcação de defeito de massa utilizadas para cada amostra subsequente contêm um elemento adicional com o número atómico de 17 a 77; (c) a mistura das alíquotas dos analitos marcados; e 10 (d) a análise dos referidos fragmentos de oligómeros marcados utilizando um processo de fragmentação por espectrometria de massa, para determinar as abundâncias relativas de um ou mais dos analitos entre as amostras, com base na energia de ligação nuclear de um dos referidos elementos ou de mais do que um dos referidos elementos que conferem uma massa única aos referidos fragmentos de oligómeros marcados.
46. Processo, de acordo com a reivindicação 45, caracterizado pelo facto de os referidos elementos terem um número atómico de 35 a 63.
47. Processo, de acordo com a reivindicação 45, caracterizado pelo facto de os referidos elementos terem um número atómico de 39 a 58.
48. Processo, de acordo com a reivindicação 45, caracterizado pelo facto de pelo menos uma porção da referida parte de marcação da etapa (a) ser um isótopo estável da referida parte de marcação da etapa (b). Lisboa, 14 de Maio de 2012. 11