NO343718B1

NO343718B1 - Fremgangsmåte for diagnose av kreft ved påvisning av tilstedeværelse av en abnormal kromosomstruktur

Info

Publication number: NO343718B1
Application number: NO20083957A
Authority: NO
Inventors: Alexandre Akoulitchev; Aroul Selvam Ramadass; Leonid Leonidovich Nikitenko
Original assignee: Univ Oxford Innovation Ltd
Priority date: 2006-02-17
Filing date: 2008-09-17
Publication date: 2019-05-20
Also published as: CN101384734A; WO2007093819A2; HK1125416A1; ZA200807948B; JP2009526543A; ATE519864T1; EP1991697A2; CA2642331A1; CN101384734B; ES2368767T3; GB0603251D0; WO2007093819A3; NZ571201A; DK1991697T3; EP1991697B1; NO20083957L; US9777327B2; JP5345857B2; US20180080081A1; US11384396B2

Description

Dagens fremgangsmåter for å diagnostisere en sykdom er ofte utilstrekkelige ettersom en egnet markør ikke er tilgjengelig for pålitelig diagnose av en sykdom eller for å fastsette sykdomsstadiet. Dagens tilnærminger omfatter bruk av protein-, mRNA- eller antistoffdeteksjon.

Litteraturen beskriver regulering av gentranskripsjon ved en dynamisk endring mellom kvasi-stabile genløkker dannet ved samposisjonering av to separate områder av et gen, så som CC-markører (Ramadrass A. et al. Poster-sammendrag P037, Transcription UK, Imperial College London, 13-15 april 2005). Eksempler på mRNA og proteinmarkører benyttet for påvisning av kreft kan finnes i artiklene Parnell T.J. et al. “An indigenous suppressor of Hairy-wing insulator separates regulatory domains in Drosophila”, november 2003, Proceedings of the National Academy of Sciences, USA, vol. 100, nr. 23, side 13436-13441, ISSN: 0027-8424, og Galande S., “Chromatin (dis)organization and cancer; BUR-binding proteins as biomarkers for cancer”, 2002, Current Cancer Drug Targets, vol. 2, side 157-190.

Protein-, mRNA- eller antistoffdeteksjon er i mange tilfeller uegnet for diagnose ettersom deteksjon av disse molekylene ikke nøyaktig representerer ekspresjon av genene forbundet med sykdommen. Den stokastiske variasjonen for ekspresjonsnivåene til disse molekylene mellom enkelte celler er betydelige høy, mens halveringstiden varierer vesentlig og kan være svært lav, f.eks. omkring 15 minutter for c-myc-protoonkogenpolypeptid. I tillegg følger deteksjon av disse molekylene kun etterfølgende trinn i rekkefølgen genekspresjon, transkripsjon og translasjon.

Det epigenetiske konformasjonsoppsettet til genet for potensielle gjenoppstartete runder med transkripsjon og ekspresjon gir en mulighet for diagnostikk ved et mye tidligere genekspresjonstadium. Slike konformasjonelle strukturer ser også ut til å være stabile, dvs. ha lang halveringstid, hvilket gjør dem lettere å detektere.

Oppfinnerne har funnet at analyse av kromosomkonformasjon i genomisk DNA kan brukes for diagnose av kreft. Konformasjonen dannes ved assosiasjon eller samposisjonering av fjerntliggende eller ikke-tilgrensende seter i genet. Setene kan være CC-markører (som diskuteres videre nedenfor). Det har vært funnet at endringer i kromosomkonformasjon i forskjellige gener fører til en endring i ekspresjon fra genene, og dermed kan deteksjon av den spesifikke konformasjonen brukes for å detektere abnorm ekspresjon av et gen.

Følgelig sørger oppfinnelsen for en fremgangsmåte for deteksjon eller diagnose av abnorm genekspresjon i et individ, omfattende bestemmelse, i en prøve fra individet, av tilstedeværelse eller fravær av en abnormal kromosomstruktur hvor to separate områder i genet er blitt posisjonert i nærheten av hverandre, for derved å detektere eller diagnostisere om individet har abnorm genekspresjon hvor fremgangsmåten er særpreget ved de trinn som er angitt i den karakteriserende delen av krav 1.

Beskrivelse av tegningene

Figur 1 viser identifikasjon av markørene for RNAPII-transkripsjonelle enheter ved en mønstergjenkjenningsalgoritme. (A) Skjema for innstilling og testing av markørmodellen. Det tas prøver av 422 annoterte humane gener som testes og som gir tilbakemelding i 103 sykluser inntil en konvergerende modell utvikles. Ved 3’ til genene, inkluderte konsensus et tidligere ukjent signal med et multipleksmønster, Checkpoint Charlie, sammen med et veldefinert poly(A)signal og U-rike konsensusseter. (B). Ved 3’-enden av det humane betaglobingenet er CC-markøren (merket med Gaussisk distribusjon) til stede nedstrøms for det U-rike setet og tilsvarer CoTC-setet beskrevet tidligere. Grafen viser et fall i energiverdi (merket i grått) ved CC/CoTC-setet i forhold til den naboliggende sekvensen. (C) På kromosom X i D. Melanogaster, sammenfaller CC-markøren (gaussisk fordeling) med gypsyinsulatoren i 7B2-båndet. Tetthet mav CC-forutsigelser er i samsvar med Su(Hw)-bindingsseter. Tidligere undersøkelser viser gypsy-elementer i kromosombånd 7B2 og 7B8 samposisjonert med dannelse av en sløyfe rundt cut locus.

Figur 2 viser regulert ekspresjon av modellgener. (A) Transkripsjon fra hDHFR-genet reguleres på hoved- og underordnete promotorer på en cellesyklusavhengig måte. I hvilende celler initieres en kort transkript fra den underordnete oppstrømspromotoren. Fluoresensaktivert cellesortering (FACS) av U2OS-celler brukt i forsøkene, dyrket ved tilstedeværelse av 10 % FCS (1) og under kontaktinhibering ved tilstedeværelse av 0,5 % FCS. Prosenten av G0, G2/M-, S- og G1–celler ved hver tilstand er vist i diagrammene. I overenstemmelse med tidligere rapporter, bekrefter ”Northern blot” akkumulering av DHFR mRNA i profilerende celler (bånd 3), sammenlignet med hvilende celler (bånd 4). RT-PCR-sanntidsanalyse av transkripter initiert fra en underordnet promotor i profilerende (bånd 5) og hvilende (bånd 6) celler. De viste verdiene er beregnet fra tre uavhengige forsøk. (B) hCALCRL-transkripter, i full lengde, produseres kun i endotelceller (HMVEC, bånd 1) og ikke i ikke-endotelceller (HEK293T, bånd 2). Korte ikke-kodende transkripter er til stede i begge celletypene som detektert ved en 3’RACE fra første ekson (bånd 3, endotelceller og bånd 4, ikke-endotelceller). Immunokjemi bekrefter at reseptorekspresjon er begrenset in vivo til endotel (svarte piler) og ikke epitel- eller stromalceller (hvite piler).

Figur 3 viser termineringsegenskapene til CC-markørene. (A) Humant DHFR-gen inneholder tre CC-markører (fylte trekanter). Transkripsjonstermineringsegenskapene til markørene ble kartlagt ved RT-PCR, som vist i skjema. Bakoverprimere (reverse primers) (B,C) kommer før eller etter posisjonen av den testete CC-markøren. RT-PCR for CCCHFR-2 ble kartlagt i hvilende celler, ettersom CCDHFR-2 viste regulerende termineringsegenskapene kun under disse betingelsene. Profilene for fri foldingsenergi ved bruk av Zuker-algoritme viser et fall i verdien (merket i grått) for alle tre CC-markørene. (B) Human CALCRL-genstruktur omfatter tre CC-markører (fylte trekanter). CC-markørene i hCALCRL (CCCALCRL-1, CCCALCRL-2 og CCCALCRL-3) viser også potensiell terminering av transkripsjon. En 5’RACE fra første ekson bekrefter at alle transkripter oppstår nedstrøms for CCCALCRL-1, med eventuelle potensielle intergeniske transkripter terminert på en vellykket måte. Beviset for terminert transkripsjon ved CCCALCRL-2 og CCCALCRL-3 ble bekreftet ved 3’RACE. Aksesjonsnumre for RACE-transkripter er vist i klammer. I det nedre panelet viser grafene et fall i fri foldingsenergi (merket i grått) for hver av hCALCRL CC-markørene.

Figur 4 viser kromosomkonformasjonsegenskaper til CC-markører. (A) Den integrerte 3C-undersøkelsen ble utført for CC-setene på hDHFR-genet under profilerende og hvilende betingelser. Kontroller indikerer full avhengighet for undersøkelsen på kryssbinding, restriksjon, ligering, PCR og anrikelse av RNAPII ved immunoutfelling. I profilerende celler eksisterer en romlig nærhet mellom CCDHFR-1 og CCDHFR-3 (bånd 1+3), men ikke mellom CCDHFR-1 og CCDHFR-2 (bånd 1+2) -seter i hDHFR-genet. I hvilende celler er en romlig nærhet også funnet mellom CCDHFR-1 og CCDHFR-2 (bånd 1+2) seter. En skjematisk visning av mulige konformasjoner detektert av 3C-undersøkelsen under undersøkte betingelser. (B) Den integrerte 3C-undersøkelsen ble utført for CC-setene på hCALCRL-genet i endotel- og ikkeendotelcellelinjer. Kontroller viser full avhengighet for undersøkelsen på kryssbinding, restriksjon, ligering, PCR og anrikning av RNAPII ved immunoutfelling. I endotelceller ble en interaksjon funnet mellom CCCALCRL-1, CCCALCRL-2 og CCCALCRL-3 som indikerer en konformasjon som samposisjonerer alle markørene (bånd 1+2 og 1+3, se skjema). I ikke-endotelceller kunne kun en interaksjon mellom CCCALCRL-1 og CCCALCRL-2 (bånd 1+2, se skjema) detekteres, med interaksjon mellom CCCALCRL-1 og CCCALCRL-3, som er unik for produktiv transkripsjon i full lengde i endotelceller.

Figur 5 viser beregninger av Checkpoint Charlie i andre organismer. Modellen, som var innstilt på 422 humane gener, identifiserer CC-markører (røde trekanter) i andre arter. Merk at, i tilfelle med RGF3, skiller en enkel CC-markør to annoterte gener, og fungerer som en 3’-markør for ett gen og 5’-markør for et annet. Eksoner og introner er vist som henholdsvis grønne og grå rektangler. Hele linjer representerer intergeniske sekvenser.

Figur 6 viser prinsippene i kromosomkonformasjonsdeteksjon ved bruk av 3C-undersøkelsen.

Figur 7 viser typebestemmelse av c-myc for å diagnostisere nyrekreft. CC-markører 1 og 2 er plassert rundt P0-promotoren. Samposisjonering av CC1-CC2 fører til dannelse av den lukkete strukturen som isolerer P0 og forhindrer initiering fra P0, men ikke fra P1,2. Analyse av den konformasjonelle samposisjoneringen CC1-CC2 på vevsprøver viser tilstedeværelse av et spesifikt PCR-produkt, og bekrefter eksisterende konformasjon på pasienter med nyrekreft (T1-3), men ikke i normalt vev (N1-3). Alle prøver ble testet uavhengig for tilstedeværelse av stabil konformasjon på urelatert gen, kalsitoninreseptorlignende reseptor (CRLR). Denne konformasjonen er til stede i alt vev og fungerer som en internkontroll for undersøkelsen (merket kontroll).

Figur 8 viser kromosomkonformasjon som viser eggstokkreft med m1h1.

Figur 9 viser konformasjonsderegulering i prostatacellelinjer.

Detaljert beskrivelse av oppfinnelsen

Oppfinnelsen sørger for en fremgangsmåte for deteksjon av abnorm ekspresjon fra et gen basert på bestemmelse av den tredimensjonale strukturen av høyere grad som genet har anlagt, og spesielt basert på posisjonen/mønsteret til de assosierte/ samposisjonerte setene i genet. Fremgangsmåten kan detektere tilstedeværelse eller fravær av samposisjonerte seter, eller en kromosomkonfirmasjon forårsaket av en slik samposisjonering, ved ett eller flere steder i genet. Den normale ekspresjonsformen fra et gen er vanligvis definert som ekspresjon av et produkt (RNA eller polypeptid) i en form og/eller mengde som tillater produktet å utføre sin cellulære/fysiologiske funksjon.

Abnorm ekspresjon kan defineres som en ekspresjonsform hvor et forskjellig produkt utføres (vanligvis som følge av en endring i posisjonen til transkripsjonstermineringen) og/eller mengden av produkt som er uttrykt ved et endret nivå (eller ikke i det hele tatt). Abnorm ekspresjon kan føre til en sykdomstilstand i organismen (slik som hvilken som helst av sykdommene nevnt her), og vil vanligvis føre til en svekkelse av levedyktigheten og/eller funksjonen til cellen eller vevet eller organet hvor den abnorme ekspresjonen forekommer. Abnorm ekspresjon kjennetegnes vanligvis ved ekspresjon av RNA eller protein med økt eller redusert lengde sammenlignet med normalt produkt og/eller ekspresjon av RNA eller protein ved et økt eller redusert nivå sammenlignet med normale ekspresjonsnivåer.

I en foretrukket utførelsesform skjer endringen fra normal til abnorm ekspresjon som følge av en endring i kromosomstrukturen som definert ved CC-markører. Den strukturelle samposisjoneringen av CC-markører definerer vanligvis grensen til transkripsjonsenhetene, og generelt overlegger abnorm ekspresjon til avvikende (forskjellige) grenser på de som er observert i vanlig ekspresjon.

Oppfinnelsen sørger for diagnose av en krefttilstand eller diagnose av kreftstadiet i et individ. Slik kreft er vanligvis én hvor abnorm ekspresjon av ett eller flere gener forekommer. Slik abnorm ekspresjon kan føre til eller bidra til sykdommen. Genet kan være ett som uttrykker et funksjonelt polypeptid eller RNA som ikke er translatert (slik som ikke-kodende RNA-gener og pseudogener). Genene kan uttrykke RNA som har en regulerende rolle.

Genet er fortrinnsvis et proto-onkogen (slik som c-myc) eller et tumorhemmende gen (slik som BRCA1). Genet kan være hvilket som helst av genene angitt i tabell 2. Genet kan være hDHFR, hCALCRL, MLH1, PSA eller BORIS (f.eks. som beskrevet i GenBank aksesjonsnr. NM000791, NM005795, NM000249, NM001030047 eller NM080618). Genet har vanligvis 2, 3 4 eller flere CC-markørsekvenser. Genet kan omfatte en CC-markør i et intron i nærheten av promotoren, vanligvis det første intronet.

Sykdommen er kreft, slik som kreft i nyre, eggstokk, blære, tarm eller prostata. Kreften kan være genetisk relatert, vanligvis forårsaket ved ekspresjon av et endret RNA eller polypeptidprodukt (som definert ovenfor) og/eller forårsaket av ekspresjon av et forskjellig nivå på RNA eller polypeptidprodukt (slik som mangel på ekspresjon av et produkt).

I én utførelsesform blir fremgangsmåten utført for å bestemme kreftstadiet. Fremgangsmåten kan utføres for å bestemme risikoen for progresjon av kreften. Dermed kan fremgangsmåten brukes for å forutsi hastigheten eller alvorligheten av progresjonen av kreften eller svulsten.

Individet som diagnostiseres

Individet som diagnostiseres må ha ett eller flere symptomer av hvilken som helst av sykdomstilstandene nevnt her og/eller ha mistanke om å ha en slik sykdomstilstand. Individet kan ha en risiko for hvilken som helst slik sykdomstilstand, f.eks. som følge av at sykdommen ligger i familiehistorikken eller som følge av miljøpåvirkinger som fører til eller bidrar til utvikling av sykdommen. I tilfellet med kreft i et menneske, må individet være over 40 år, slik som over 50 eller over 60 år. Individet kan være eller ha vært en røyker.

Individet kan være én som har CC-markører (med en forbindelse som definerer kromosomstrukturen) i minst ett gen i sitt genom. Individet er vanligvis et eukaryot, slik som en lavere eller høyere eukaryot. Individet kan være en plante, gjær, insekt, pungdyr, fugl eller pattedyr. Individet er fortrinnsvis et pattedyr, slik som et primat, menneske eller en gnager.

Diagnose

Foreliggende oppfinnelse sørger for en fremgangsmåte for diagnose av abnorm genekspresjon og dermed en fremgangsmåte for diagnose av spesifikke kreftbetingelser. Fremgangsmåten omfatter deteksjon av om det er en abnorm kromosomkonformasjon i DNAet til individet (f.eks. enten direkte ved deteksjon av den faktiske kromosomstrukturen eller indirekte ved bestemmelse av setene for tilhøring/samposisjonering i genet). En slik abnorm konformasjon vil vanligvis omfatte tilstedeværelse av en ny samposisjonering (eller en kombinasjon av samposisjoneringer) ved setene i et gen (hvor de ikke normalt observeres, f.eks. når genet uttrykkes normalt) eller fravær av én eller flere samposisjoneringer (som observeres normalt under normal ekspresjon). Som nevnt ovenfor vil normal konformasjon føre til at genet uttrykker RNA-transkript med en forskjell i sekvens og/eller funksjon og/eller mengde, og forskjellen i ekspresjon kan forårsake eller bidra til kreft i individet. Den abnorme kromosomkonformasjonen kan føre til ekspresjon av en forskjellig spleisevariant.

Hvilken som helst egnet måte kan brukes for å detektere/undersøke kromosomkonformasjon av DNAet som analyseres. Vanligvis vil deteksjonen bestemme posisjonen til minst én sløyfelignende struktur i DNAet i individet. I én utførelsesform kan fremgangsmåten omfatte bestemmelse av tilstedeværelse eller fravær av et gitt samposisjonert par av CC-markører, og derved, f.eks., tillate å trekke slutningen av observert konformasjon er forskjellig fra den normale.

Vanligvis utføres fremgangsmåten in vitro på en prøve fra individet. Prøven omfatter DNA fra individet i en tilstand hvor områder av genomet som er forbundet i naturlig tilstand forblir forbundet i prøven (dvs. den epigenetiske kromosomale tilstanden bevares), f.eks., for assosierte områder med en avstand på mindre enn 5kb, 3kb, 1kb, 500 basepar eller 200 baserpar. Prøven omfatter vanligvis cellene til individet. Prøven vil vanligvis omfatte celler fra et vev som er involvert i diagnosen av sykdommen. Prøven omfatter vanligvis et kroppsfluid fra individet og kan f.eks. tas ved bruk av en sekretprøve tatt med vattpensel, slik som en munnsekretprøve. Prøven er fortrinnsvis én blodprøve eller en frossen prøve. Prøven kan være en biopsi, slik som av en svulst. Fremgangsmåten kan utføres på en enkel celle fra individet.

Prøven blir vanligvis bearbeidet før fremgangsmåten utføres, f.eks. kan DNA-ekstraksjon utføres. DNAet i prøven kan spaltes enten fysisk eller kjemisk (f.eks. ved bruk av et egnet enzym). I én utførelsesform brukes et antistoff som er spesifikk for RNA-polymerase II for å skille DNA fra andre komponenter i cellen.

Kromosomkonformasjon kan detekteres ved bestemmelse av de assosierte sekvensene, som f.eks. danner basen til en sløyfelignende struktur. I en foretrukket utførelsesform blir DNAet utsatt for kryssbinding før en slik bestemmelse. Kryssbindingen vil vanligvis omfatte en kovalent bundet binding for å dannes og blir vanligvis dannet ved å bringes i kontakt med et middel som forårsaker kryssbinding. Et slikt middel kan være et aldehyd, slik som para-formaldehyd, eller D-biotinoyl-εaminokapronsyre-N-hydroravsyreester eller digoksigenin-3-O-metylkarbonyl-εaminokapronsyre-N-hydroksyravsyreester. Paraformaldehyd kan kryssbinde DNA-kjeder som har en avstand på 4 Ångstrøm.

I fremgangsmåten kan setet for samposisjonering bestemmes ved bestemmelse av sekvensene som bringes nærmere ved dannelse av sløyfen. En slik bestemmelse kan utføres ved hvilken som helst egnet metode, og i en foretrukket utførelsesform utføres ved bruk av PCR.

I én utførelsesform brukes kromosomkonformasjonsfangingsprøven, f.eks. som beskrevet i Dekker et al. (2002) Science 295, 1306. I denne undersøkelsen er DNAet kryssbundet (f.eks. som beskrevet nedenfor). Det kryssbundete DNAet spaltes deretter, vanligvis ved restriksjonsspalting, og den spaltede strukturen utsettes for ligering. Ligering vil resultere i at DNA-strengendene, som ble dannet ved spalting, blir ligert sammen. Dermed vil ligering vanligvis resultere i DNA med en ny sekvens (som ikke var til stede i det opprinnelige genet) som omfatter begge sekvensene til de samposisjonerte setene. Deteksjon av den nye sekvensen kan brukes som grunnlag for deteksjon av konformasjonen (dvs. for å detektere tilstedeværelse av samposisjonering ved en bestemt posisjon).

Sekvensen generert ved ligering kan detekteres ved hvilken som helst egnet metode. Den detekteres vanligvis basert på sin sekvens, f.eks. ved bruk av PCR. I én utførelsesform brukes en PCR-reaksjon hvor PCR-primere som blir brukt, binder på hvilken som helst side av ligeringspunket og resulterer i vellykket PCR-reaksjon ved tilstedeværelse av det ligerte produktet, men som ikke resulterer i en vellykket PCR-reaksjon når utført ved tilstedeværelse av et gen som ikke har den relevante strukturen (vanligvis fordi primere blir bundet for langt fra hverandre på gensekvensen og orienteringen av primerne ekskluderer valg av andre produkter (primerne blir valgt i den samme orienteringen for å forhindre avvikende produkter)). I denne utførelsesformen vil et PCR-produkt kun detekteres ved tilstedeværelse av det ligerte produktet (se figur 1). Vanligvis vil PCR-primere binde innenfor 500 basepar av hverandre når det ligerte produktet bindes.

Den ligerte sekvensen kan detekteres/analyseres ved sekvensspesifikk PCR eller ved direkte sekvensering. Deteksjon kan utføres ved bruk av et gelbasert system hvor den ligerte sekvensen kjøres på en gel, og deretter blir gelen farget med en detekterbar forbindelse som binder til polynukleotider. Den ligerte sekvensen kan detekteres ved bruk av en probe, slik som en polynukleotidprobe som binder spesifikt til den ligerte sekvensen.

PCR-produkter som dannes i PCR-reaksjonene nevnt ovenfor, kan detekteres ved hvilken som helst egnet metode, f.eks. ved hvilken som helst egnet metode fra blant metodene nevnt ovenfor for deteksjon av det ligerte produktet.

I én utførelsesform omfatter fremgangsmåten også deteksjon av kromosomstrukturen til et ytterligere gen, som er et vevsspesifikt gen. Deteksjon av strukturen til det ytterligere genet (f.eks. ved hvilken som helst måte beskrevet her) vil tillate bestemmelse av om det ytterligere genet uttrykkes eller ikke, og vil derfor tillate bestemmelse av den vevsspesifikke ekspresjonen. Dette kan bistå i diagnosen av sykdommen.

I én utførelsesform av oppfinnelsen analyseres 2, 3 eller flere gener for å bistå diagnosen. Spesielt i tilfellet med kreftdiagnose, kan analyse av mer enn ett gen som er implisert i å forårsake kreft bistå i bestemmelse av den spesifikke kreften.

I en ytterligere utførelsesform sammenlignes analysen av kromosomstruktur som utføres i henhold til fremgangsmåten ifølge oppfinnelsen med den samme analysen som er utført på en kontrollbiopsi fra sykt vev (slik som kreft/svulst) for å bistå diagnose.

I én utførelsesform utføres fremgangsmåten ifølge oppfinnelsen på en kvantitativ måte for å bestemme forholdet mellom cellene i individet (f.eks. en bestemt in vivo plassering eller i et bestemt vev) som har en abnorm genekspresjon. Dette kan bistå bestemmelse av kreftstadiet.

Sekvenser i genet som er forbundet for å danne kromosomstrukturen

Som nevnt her omfatter fremgangsmåten ifølge oppfinnelsen deteksjon av tilstedeværelse av en kromosomkonformasjon som er dannet ved forbindelse av spesifikke områder i et gen. Slike områder er på det samme kromosomet, og har en avstand som vanligvis er mindre enn 50.000, slik som mindre enn 20.000, 10.000, 5.000, 1.000 eller mindre enn 500 baser. Forbindelsen av sekvensene kan føre til dannelse av en sløyfe/sløyfelignende/topologisk lukket struktur. En fagperson vil forstå hva som menes når det henvises til områder i et gen som er forbundet. Slike områder er nærme nok til å kryssbindes sammen, slik som ved hvilke som helst kryssbindingsmidler nevnt her. De vil derfor vanligvis ha en avstand mellom hverandre i Ångstrømsområdet, slik som, f.eks., mindre en 50 Ångstrøm eller mindre enn 10 Ångstrøm.

Én eller flere av sekvensene som kan være forbundet kan:

-forårsake, regulere eller bidra til transkripsjonsterminering, og/eller

-være CC-markører.

CC-markører har vanligvis en lengde på 1 til 30 nukleotider, f.eks. 5 til 20 eller 10 til 15 baser.

CC-markører kan detekteres i hvilken som helst gitt gensekvens ved bruk av informasjonen i tabell 1. Én av de senere delene nedenfor viser i detalj hvordan CC-markørsekvenser identifiseres. En kort beskrivelse av hvordan informasjonen i tabell 1 brukes er som følger: tabellen viser 4 sett med verdier. For hvert av settene med verdier er en posisjon angitt og posisjonsverdier for hver type nukleotid er gitt i forhold til utgangsposisjonen (i tabell 1 er dette definert som kolonneposisjonen som er i forhold til utgangsposisjonen). Det kan sees at, for det første settet med verdier, er verdier for guanin, cytosin, adenin og tymin gitt for posisjoner 0 til 18. Ved bruk av verdiene i tabell 1 bestemmes en verdi for hver base av en gitt sekvens i forover- og bakoverstrengen. Denne analysen utføres ved å skanne sekvensen fra venstre til høyre og deretter gjenta den på dens komplementære streng. Under skanning er en base ansett som et referansepunkt og verdien for den basen bestemmes ved bruk av posisjonsverdiene til 4 sett med verdier og den relative avstanden mellom verdiene (dvs. for hver base bestemmes en verdi basert på sekvensen rundt den basen som har posisjoner som er definert ved bruk av posisjonstallene i tabell 1). Hvis denne verdien er større enn X (inngangsverdien gitt av brukeren), er det aktuelle baseparet innenfor en CC-markør. Denne fremgangsmåten gjentas for alle basene.

Verdien konverteres vanligvis til en eksponensiell verdi (invers logaritmisk) verdi. I én utførelsesform velges CC-markører som har en invers logaritmisk verdi på mer enn 0,9, slik som mer enn 0,95 eller mer enn 0,99 (beregning av den logaritmiske verdien er beskrevet i større detalj i en senere del).

Oppfinnerne har brukt informasjonen i tabell 1 for å detektere CC-markører i menneske, gjær og bananflue (D.melanogastersekvenser).

Sett for å utføre fremgangsmåten

Oppfinnelsen kan også utføres med et sett for å utføre fremgangsmåten. Settet vil vanligvis omfatte midler for deteksjon av spesifikke sidestilte sekvenser i et gen. Vanligvis vil settet omfatte et primerpar eller probe som kan brukes for å detektere en samposisjonert sekvens (f.eks. ved å detektere et ligert produkt som beskrevet her). Vanligvis vil én eller flere primere og/eller proben omfatte en sekvens som er et fragment av gensekvensen eller av sekvensen som er homolog med gensekven sen (det er innforstått at henvisning til gensekvensen omfatter også den komplementære sekvensen, ettersom én primer selvfølgelig vil binde gensekvensen og den andre primeren vil binde den komplementære sekvensen). En slik gensekvens kan være 5’ til kodingssekensen (f.eks. promotorsekvensen), kodingssekvensen, intronsekvensen eller sekvens 3’ til kodingssekvensen.

Primerne eller proben er vanligvis minst 10, 15, 20 30 eller flere baser lang, og omfatter vanligvis DNA, normalt i form av en enkel streng. Primerne eller probene kan være til stede i isolert form. Primerne eller proben kan ha en opplysende/detekterbar markør. Egnete markører omfatter radioisotoper slik som 32P eller 35S, fluoriserende markører, enzymmarkører eller andre proteinmarkører, slik som biotin.

Settet kan omfatte et kryssbindingsmiddel som er i stand til å kryssbinde DNA, slik som hvilke som helst kryssbindingsmidler nevnt her.

I én utførelsesform er settet for gjennomføring av utførelsesformer av oppfinnelsen hvor kromosomstrukturen til mer enn ett gen blir analysert, slik som 2, 3, 4 eller flere gener. I slike tilfeller kan settet også omfatte primere eller prober for å analysere 2, 3, 4 eller flere forskjellige gener.

Settet kan i tillegg omfatte én eller flere andre reagenser eller instrumenter som gjør det mulig for hvilke som helst av utførelsesformene av fremgangsmåten nevnt ovenfor å utføres. Slike reagenser eller instrumenter omfatter ett eller flere av følgende: en detekterbart markør (slik som en fluorescerende markør), en enzymmarkør for å virke på et polynukleotid (vanligvis en polymerase, restriksjonsenzym, ligase, RNAse H eller et enzym som kan feste en markør på et polynukleotid), egnet(e) buffer(e) (vandige løsninger) for enzymreagenser, en positiv og/eller negativ kontroll, et gelelektroforeseapparat, en måte å isolere DNA fra prøven, en måte å oppnå en prøve fra individet (slik som en vattpinne eller et instrument omfattende en nål) eller en bærer omfattende brønner hvor deteksjonsreaksjoner kan utføres.

Fremgangsmåte for utvelgelse

Oppfinnelsen gir en fremgangsmåte for diagnostisering av kreft ved å identifisere en forbindelse for behandling av abnorm ekspresjon fra et gen omfattende bestemmelse av om et kandidatstoff er i stand til å kunne føre til endring i kromosomstrukturen til genet fra den abnorme strukturen som er antatt under abnorm ekspresjon til normal struktur, for derved å bestemme om kandidatstoffet er i stand til å behandle abnorm ekspresjon. Endringen i kromosomstruktur kan detekteres ved bruk av hvilken som helst egnet fremgangsmåte beskrevet her. Fremgangsmåten kan også utføres for å identifisere forbindelser som kan føre til en endring i ekspresjon fra et gen (f.eks. en endring fra én ekspresjonsmodus til en annen ekspresjonsmodus), ved å igjen bestemme om en kandidatforbindelse kan føre til endringer i genstrukturen.

Fremgangsmåten kan utføres in vitro (inne i eller utenfor en celle). I én utførelsesform utføres fremgangsmåten på en celle, cellekultur, celleekstrakt, vev, organ eller organisme som omfatter genet. Cellen er vanligvis én hvor abnorm ekspresjon av genet observeres.

Fremgangsmåten utføres vanligvis ved kontakt av kandidatstoffet med genet, cellen, cellekulturen, celleekstraktet, vevet, organet eller organismen og bestemme om en endring i normal kromosomstruktur forekommer.

Egnete kandidatstoffer som ble testet i fremgangsmåtene for utvelgelse ovenfor, omfatter antistoffmidler (f.eks. monoklonale og polyklonale antistoffer, enkelkjedete antistoffer, chimere antistoffer og DCR-podete antistoffer). Videre kan kombinatoriske bibliotek, definerte kjemiske identiteter, peptid og peptidmimetikker, oligonukleotider og bibliotek over naturlige midler, slik som fremvisningsbibliotek (f.eks. bakteriofagfremvisningsbibliotek) også testes. Kandidatstoffene kan være kjemiske forbindelser, som vanligvis er utledet fra syntese rundt små molekyler som kan ha hvilke som helst av egenskapene til middelet nevnt her (slik som organiske forbindelser nevnt her). Satser med kandidatstoff kan brukes i innledende utvelgelse/undersøkelse av, f.eks., ti stoffer per reaksjon, og stoffene med satser som viser endring testes hver for seg.

Kunstig fremstilte gener og organismer

Oppfinnelsen kan benytte en fremgangsmåte for å endre ekspresjonsprofilen til et gen omfattende

i) å innføre en CC-markør i genet, og/eller

ii) å fjerne en CC-markør fra et gen, eventuelt ved å innføre 1, 2, 3 eller flere mutasjoner i CC-markøren, hvor hver mutasjon er en addisjon, substitusjon eller delesjon av en nukleotidbase,

hvor minst 50 % av kodingssekvensen til genet forblir uendret i fremgangsmåten.

I én utførelsesform forblir det totale antall CC-markøresekvenser (dvs. funksjonelle CC-markørsekvenser) uendret i fremgangsmåten.

Ved ”fjerning av en CC-markør” er det innforstått at hele CC-markørsekvensen ikke trenger å fjernes, men i stedet kan mutasjoner innføres i CC-markørsekvensen for å gjøre den inaktiv, slik at, i én utførelsesform, den endrete CC-markørsekvensen ikke lenger er i stand til å føre til assosiasjon av regioner i genet.

RNA eller polypeptidproduktet fra genet beholder funksjonell aktivitet eller kan ha en forskjellig aktivitet eller kan ha ingen aktivitet (sammenlignet med produktet fra det ikke kunstig fremstilte genet). Det kunstig fremstilte genet kan være hvilket som helst av genene nevnt her. Det kunstige fremstilte genet kan replikeres og/eller uttrykkes og/eller innføres i en celle.

I fremgangsmåten kan det benyttes et polynukleotid, omfattende en CC-markør, for å endre ekspresjon fra et gen. Et slikt polynukleotid kan brukes for å innføre eller fjerne en CC-markør fra et gen, som i tilfellet med hvilke som helst av de kunstig fremstilte genene beskrevet her. Polynukleotidet er vanligvis et DNA-molekyl. Polynukloetidet kan være i form av en vektor, slik som en viral vektor. Polynukleotidet kan være i form av et transposon.

Homologer

Homologer av polynukleotidsekvenser er vist til her. Slike homologer har vanligvis minst 60 % homologi, fortrinnsvis minst 80 %, 90 %, 95 %, 97 % eller 99 % homologi, f.eks. over et område på minst 15, 20, 30, 100 eller flere tilgrensende nukleotider. Homologien kan beregnes basert på nukleotididentitet (noen ganger vist til som ”hard homologi”).

For eksempel sørger UWGCG pakken for et BESTFIT-program som kan brukes for å beregne homologi (f.eks. brukt som dens normalinnstilling). (Devereux et al.

(1994) Nucleic Acids Research 12, s. 387-395). PILEUP- og BLAST-algoritmene kan brukes for å beregne homologi eller stille opp sekvenser (slik som å identifisere ekvivalente eller tilsvarende sekvenser (vanligvis på deres normalinnstilling), f.eks. som beskrevet i Altschul, S.F. (1993) J Mol Evol 36:290-300; Altschul, S.F. et al. (1990) J Mol Biol 215:403-10.

Programvare for å utføre BLAST-analyse er offentlig tilgjengelig gjennom National Center for Biotechnology Information (http://www.ncbi.nlm.nih.gov/). Denne algoritmen omfatter først å identifisere sekvenspar med høy verdi (HSP) ved å identifisere korte ord med lengde W i utprøvningssekvensen som enten er lik, eller tilfredsstiller, en positiv terskelverdi T når oppstilt med et ord av samme lengde i databasesekvensen. T vises til som naboordterskelverdi (Altschul et al, ovenfor). Disse innledende treffene på naboord fungerer som kimen for å innlede søk for å finne HSPer inneholdende disse. Ordtreffene strekker seg i begge retninger langs hver sekvens så lenge den kumulative oppstillingsverdien kan økes. Forlengelser for ordtreffene i hver retning stanses når: den kumulative oppstillingsverdien faller av med mengden X fra sin maksimale oppnådde verdi; den kumulative verdien blir null eller mindre, som følge av akkumulering av én eller flere restoppstillinger med negativ verdi; eller enden på hver sekvens nås. BLAST-algoritmeparametrene W, T og X bestemmer følsomheten og hastigheten til oppstillingen. BLAST-programmet bruker som normalverdier en ordlengde (W) på 11, BLOSUM62 verdisettingsmatrisen (se Henikoff og Henikoff (1992) Proc. Natl. Acad. Sci. USA 89: 10915-10919) oppstillinger (B) på 50, forventet verdi (E) på 10, M=5, N=4, og en sammenligning av begge strengene.

BLAST-algoritmen utfører en statistisk analyse av likheten mellom to sekvenser; se f.eks. Karlin and Altschul (1993) Proc. Natl. Acad. Sci. USA 90: 5873-5787. Et mål på likheten som er gitt av BLAST-algoritmen er minstesumssannsynlighet (P(N)), som gir en indikasjon av sannsynligheten for at et likhetstreff mellom to polynukleotidsekvenser vil forekomme tilfeldig. For eksempel anses en sekvens å være lignende en annen sekvens hvis den minstesumssannsynligheten i en sammenligning av den første sekvensen til den andre sekvensen er mindre enn ca. 1, fortrinnsvis mindre enn ca. 0,1, mer foretrukket mindre enn ca. 0,01 og mest foretrukket mindre enn ca. 0,001.

Den homologe sekvensen er vanligvis forskjellig med mindre enn 2, 3, 5 eller 8 baser (som kan bære substitusjoner, delesjoner eller innsetninger av nukleotider). Disse endringene kan måles over hvilke som helst av områdene nevnt ovenfor i forhold til å beregne homologi.

Følgende eksempler illustrerer oppfinnelsen:

Bruk av mønstergjenkjenningsanalyse for å undersøke strukturell organisering av gener

Et fremkommende paradigme i eukaryotisk biologi er at de strukturelle aspektene av organisering av kjernen spiller en direkte rolle i transkripsjonsregulering av genene. Fra kromosomområdene til gensløyfene – diverse strukturelle nivåer fremkommer som viktige komponenter av spesifikke transkripsjonsresponser (1-3). Her har vi kombinert to tilnærminger for å identifisere noen av de egenskapene som er implisert i strukturell organisering av transkriberte gener in vivo. Fra anvendt matematikk har vi brukt mønstergjenkjenningsanalyse, basert på den generaliserte lineære modellen og Bayes teori, og brukt denne for å identifisere grensene til RNA-polymerase II (RNAPII) transkripsjonsenheter. Fra molekylær biologi har vi brukt in vivo undersøkelser for å analysere og beskrive spekteret av transkripsjonsaktivitet og den strukturelle subkromosomale domeneorganiseringen ved de setene.

Mønstergjenkjenningsanalyse har vært bredt anvendt i forskjellige fagområder, slik som medisin, teknikk og lingvistikk, hvor bildeanalyse og dataavkoding tillater identifisering av underliggende karakteristiske markører i komplekse systemer. Vi har brukt mønstergjenkjenningsmetodologi for å analysere humant genomdata i forhold til transkripsjonsenhetene, bearbeidet ved RNAPII. Et sett med sekvenser fra 422 manuelt bårete gener på humant kromosom 22 (4) ble brukt for dataidentifikasjon av regulerende signaler. For den aktuelle undersøkelsen, fra alle fremgangsmåtene tilgjengelig for mønstergjenkjenning, har vi funnet Relevance Vector Machine (RVM) (5-6) som den mest vellykkete. RVM-simulatoren bruker et sparsomt Bayesian prinsipp som tar hensyn til avstandsvariasjonen som er observert mellom de regulerende signalene (7). Fra det gitte sekvenssettet, skanner innstilleren for markører som definerer dem og konstruerer en generalisert lineær sannsynlighetsmodell. Senere kan denne ”innstilte” modellen brukes for å klassifisere valgte sekvenser for tilstedeværelse av definerte markører. Derivasjon av denne modellen er basert på betingelsessannsynlighet av Bayes teori gitt nedenfor

hvor dataene representerer settet med DNA-sekvenser. P(data|model) er den ytre sannsynligheten som gir sannsynligheten av en sekvens derivert fra modellen. Den avhenger av sannsynligheten av dataene levert til modellen og sannsynlighetene til modellen og dataene.

Hver markør som definerer egenskapene til sekvensen, x, er gitt som en DNA-vektmatrise relativ til spaltningssetet. Matematisk representeres dette som:

hvor P er en posisjonssannsynlighet og W(x, i ) er en DNA-vektmatrisesannsynlighet for en forskyvning i relativ til spaltningssetet. En kombinasjon av disse markørene brukes deretter for å bygge en generalisert lineær modell:

hvor M er settet med markører som definerer genet og β er vektene (eller viktigheten) av hver markør.

Modellen, som ble innstilt på 422 annoterte humane gener fra kromosom 22, identifiserte tre typer generelle markører ved 3’endene (figur 1A). Tidligere kjente transkripsjonssignaler: poly(A)signal og U-rikt sete nær 3’endene av RNAPII transkriberte gener er to av de tre typene markører identifisert. Dette resultatet validerte vår tilnærming ettersom den entydig bekreftet allerede beskrevne sekvenser funksjonelt angitt i terminering og bearbeiding av 3’enden av mRNA (8-10). Det er interessant at den tredje typen markør identifisert av RVM-innstilleren var tidligere ukjent. Den var plassert ytterligere nedstrøms for det U-rike setet og omfattet flere DNA-vektmatriser. Avstandsvariasjonen i hver type markør ble fanget som en Gaussiks fordeling. Det er interessant at, når modellen ble testet på human kromosom 20 sekvenser, markøren ikke var begrenset til 3’endene, men også til stede ved 5’endene av de annoterte genene. Som følge av forbindelsen av den nylig definerte markøren med grenser langs transkripsjonsenhetene, har vi oppkalt den etter den mest kjente grenseposten i Berlin fra den kalde krigen – en Checkpoint Charlie (CC) markør.

Det er interessant at, i motsetning til poly(A) setet, vi kunne identifisere eventuell forlenget primer sekvenskonsensus for CC-markørene. Dette antyder at vi, gjennom mønstergjenkjenningsanalyse, har identifisert setene som kan dele fellesegenskaper gjennom informasjonen som er kodet i de sekundære og tertiære strukturene til de tilsvarende sekvensene. Faktisk viser sekvensanalyse av CC-markører ved bruk av Zuker-algoritmen (11) lave frie foldingsenergier, som er karakteristisk av høyere sekundære og tertiære strukturer for de tilsvarende transkriptene.

For å bestemme den funksjonelle relevansen til CC-markørene på transkripsjonell regulering, lette vi etter eventuelle eksempler på CC-markører blant allerede definerte regulerende elementer. Det er viktig å nevnt at algoritmen, som var innstilt på humane gener, kunne identifisere CC-markører i eukaryoter over mange arter (figur 5). Vi tilegnet dette den evolusjonært bevarte funksjonen mediert markørstrukturer av høyere grad.

Her presenterer vi to eksempler på CC-markørens funksjonalitet forbundet med transkripsjonell regulering. Det første eksempelet på CC-markøren ble funnet i det humane beta-globingenet, undersøkt grundig for sine egenskaper ved flere laboratorier. Nyere rapporter viste at terminering av transkripsjon i beta-globingenet avhenger ikke bare av gjenkjenning av poly(A)setet, men også det kotranskripsjonelle spaltningssetet (CoTC) videre nedstrøms (7, 12-14). Det er interessant at CoTC-setet sammenfaller med den identifiserte CC-markøren og viser lave foldingsenergier, som nevnt tidligere (figur 1B). Denne observasjonen ikke bare bekrefter den potensielle relevansen CC-markøren har for grensen til det transkriberte genet, men antyder også dens funksjonelle innblanding i mekanismen for regulert transkripsjonell terminering.

Det andre eksempelet på CC-markør var funnet på X-kromosomet til Drosophila melanogaster, hvor den sammenfalt med gypsy-insulatoren i kromosombåndet 7B2 (figur 1C). Gypsy er et velkjent 350 bp insulatorelement, med flere Su(Hw) bindingsseter, som styrer sløyfelignende kromatinnstrukturer av høyere grad (15). Et forsøk som var utført på cut locus i Drosophila, viste to insulatorseter ved kromosombånd 7B2 og 7B8 kommer sammen ved kjernens periferi og danner sløyfe rundt lokus (16) (figur 1c). Lignende organisering av kromatinnfibre mediert ved krysskommunikasjon mellom insulatorer har også vært vist for scs og grensesekvensene til scs (17). Sammen er disse observasjonene i henhold til det faktum at funksjonaliteten til CC-markørene også kan spille en rolle i strukturer av høyere grad, inklusiv subkromosomale domenekonformasjoner, som kunne detektere ved tidligere rapporterte Chromosom Conformation Capture (3C) undersøkelsen (18).

For å validere observasjonene ovenfor, ble en systematisk analyse av CC-markører utført på to regulerte humane gener (figur 2). Begge modellgenene – det cellesyklusregulerte dihydrofolatreduktase (DHFR)-genet (19) og det celletypespesifikke kalsitoninreseptorlignende reseptor (CALCRL)-genet (20-22) – viser alternative måter for regulert transkripsjonell aktivitet. I vår analyse var vi spesielt interesserte i å vite om CC-markører (i) kan begrense området for RNAPII-transkripsjon og (ii) korrelere med eventuelle kromosomale konformasjoner.

Human DHFR (hDHFR) er et cellesyklusregulert gen, regulert fra de underordnete promotorene som ligger oppstrøms og hovedpromotorene som ligger nedstrøms. Genet har en spennvidde på 28,5 kb i kromosom 5 og inneholder 6 eksoner (figur 2A). Uavhengige undersøkelser har vist at hDHFR-ekspresjon fremkalles ved inngangen til en S-fase i cellesyklusen og skrus av i hvilende celler (G0) (figur 2A) (23). Når i G1/S-fasene, drives produktiv transkripsjon av hDHFR-genet fra hovedpromotoren, i hvilende celler, er den transkripsjonelle aktiviteten ikke annulert, men settes over i en alternativ modus – med utgangspunkt fra den underordnete promotoren oppstrøms og termineres aktivt i det andre intronet. Transkriptet fra den underordnete promotoren er ustabil, men kan detekteres i overflod i hvilende celler ved RT-PCR.

hDHFR-genet inneholder tre CC-markører: (i) oppstrøms fra begge promotorene (CCDHFR-1); (ii) i det andre intronet (CCDHFR-2); (iii) nedstrøms fra det funksjonelle poly(A)signalet (CCDHFR-3) (figur 3A). Det er interessant at parallelanalyse avslører flere enn 40 kryptiske poly(A)signaler til stede i det samme genet. Alle tre beskrevne CC-seter viste lav fri foldingsenergi, som er karakteristisk for svært strukturerte enkelstrengsnukleinsyrer (figur 3A). For å fastslå termineringsegenskapene til hver av CC-setene, kvantifiseres rikeligheten av in vivo transkripter ved RT-PCR, omfattende ustabile og sjeldne, oppstrøms og nedstrøms for CC-setene. I alle tre tilfellene fant vi bevis for terminering av transkripter ved CC-seter (figur 3A). Ved CCDHFR-1-setet ble transkripsjonsterminering av sjeldne intergeniske transkripter detektert. I hvilende celler ble det korte ikke-kodende transkriptet terminert ved CCDHFR-2-setet. Et kanonisk AATAAA-sete er også til stede nær CCDHFR-2-setet og den delen av DNA-sekvensen er i overenstemmelse med forskjellige uttrykte sekvensmerker (Expressed Sequence Tags) og cDNAer fra den offentlige databasen. I prolifererende celler anga CCDHFR-3-setet terminering av produktiv transkripsjon nevnt tidligere. Assosiasjon av CCDHFR-3-setet med det funksjonelle poly(A) signalet ligner den tidligere beskrevne korrelasjonen med beta-globingenet.

Det andre foretrukne modellgenet var det celletypespesifikke humane CALCRL-genet (hCALCRL) (figur 2B). Den koder en syv-transmembran G-roteinkoblet reseptor (GPCR). GPCR fra pattedyr utgjør en stor og variert proteinfamilie som har som primærfuksjon å omforme ekstracellulær stimuli til intracellulære signaler. De fleste GPCR viser en respons på endogene signaler (endoGPCR), slik som peptider, lipider, neurotransmittere eller nukleotider. EndoGPCRer er svært konserverte og deres ekspresjonsprofiler er unike og gir tusener av vevs- og cellespesifikke reseptorkombinasjoner for modulering avfysiologiske prosesser. Repertoaret til endoGPCRer omfatter 367 reseptorer i mennesker. Mekanismene som regulerer deres spesifikke ekspresjon og funksjon forblir imidlertid i hovedsak ukjent. EndoGPCR som kodes ved hCALCRL-genet er ansett å være et nøkkelmolekyl i regulering av aktiviteten til medlemmer av kalsitoninfamilien av peptider som spiller viktige roller i cellevekst, celleoverlevelse og cellenavigering. Humant CALCRL-gen (103,15 kb) ligger på kromosom 2 og inneholder femten eksoner og transkriberes i forskjellig humant vev og svulster. hCALCRL-genet transkriberes i sin fulle lengde i endotel- og ikkeendotelceller som vist i ”northern blotting” og immunohistokjemi (figur 2B). I ikkeendotelceller kan imidlertid en ikke-kodende transkript, som termineres i det første intronet, detekteres (figur 2B). Vi anser hCALCRL-genet for å være en god modell for celletypespesifikk regulering av genekspresjon (22).

På lignende måte som hDHFR, kunne CC-markørene detekteres både oppstrøms for promotoren (CCCALCRL-1) og nedstrøms for det funksjonelle poly(A)signalet (CCCAL-

CRL-3) til hCALCRL-genet. En ytterligere tredje CC-markør (CCCALCRL-2) er til stede i det første intronet i genet (figur 3B). En 5’ RACE fra det første eksonet bekrefter at alle transkriptene initieres nedstrøms og ingen oppstrøms for CCCALCRL-1-markøren. Dette antyder at CCCALCRL-1 kanskje kan terminere transkripter som kan interferere med hCALCRL-transkripsjonsenheten. En 3’RACE–analyse bekrefter tilstedeværelse av terminerte transkripter nær CCCALCRL-2 (i det første intronet) og CCCALCRL-3-seter (i et område nedstrøms for spaltningssetet). Alle tre CC-markørsetene viser lav fri foldingsenergi som vist ovenfor (figur 3B). Dermed viser CC-markørene transkripsjonelle termingeringsegenskaper in vivo, både i hDHFR- og hCALCRL-gener.

For å validere den andre foreslåtte egenskapen til CC-markøren, undersøkte vi om de er impliserte i eventuelle spesifikke kromosomale konformasjoner som definert ved 3C-undersøkelsen. Denne undersøkelsen ble utviklet for å overvåke svært fleksible in vivo kromosomale konformasjoner ved å detektere en romlig nærhet mellom fjerntliggende seter omfattet i dannelse av sløyfelignende strukturer. Vi har justert betingelsene for undersøkelsen for å forbedre utbyttet og følsomheten for deteksjon av humane celler (se Materials and Methods). Det er vesentlig at det innledende trinnet til undersøkelsen også omfatter anrikelse av de transkriberte kromosomale kjernene med anti-RNAPII-immunoutfelling (24).

Når analysert for hDHFR-genet, ble setene for CCDHFR-1- og CCDHFR-3-markørene, plassert mer enn 29 kb fra hverandre, funnet å være sidestilte i normale prolifererende celler (figur 4A). Den romlige nærheten mellom disse to setene var svært spesifikk (figur 4A, sammenligne 1+2, 1+3 i prolifererende celler) og avhengig av tilstedeværelse av RNAPII, kryssbinding, restriksjon og PCR (figur 4A, hDHFR-kontroller). Som vist tidligere (figur 3A), viser begge disse setene også transkripsjonelle egenskaper i prolifererende celler.

Endringer i transkripsjonell modus på hDHFR–genet under hvilende betingelser er blant annet forbundet med generering av korte transkripter som terminerer inne i det andre intronet. Det er viktig at hDHFR-genet inneholder en tredje CC-markør plassert ved det samme setet. Tidligere analyse av hDHFR-transkripsjon i hvilende tilstand indikerer at CCDHFR-2-markøren ble aktivert som et termineringssete for det korte ikke-kodende transkriptet (figur 3A). Vi ville derfor undersøke om en annen transkripsjonell modus i hvilende tilstand ville korrelere med alternativ kromosomal konformasjon for CCDHFR-2-markøren. Faktisk, som vist i figur 4A, kan in vivo konformasjon, som samposisjonerer CCDHFR-1- og CCDHFR-2-markørene, detekteres ved 3C-undersøkelse i hvilende celler. Kun lave ivåer av denne konformasjonen ble detektert i populasjonen av prolifererende celler. Det er interessant at den observerte CCDHFR-1:CCDHFR-2–konformasjonen ikke utsletter CCDHFR-1:CCDHFR-3–konformasjonen beskrevet tidligere for de prolifererende cellene. Når karakteren til 3C-underøkelsen tas i betraktning, kan dette resultatet ha flere begrunnelser. Først kan hvilende-spesifikk konformasjon være overlagt på den beholdte CCDHFR-1:CCDHFR-3–konformasjonen. Deretter kan resultatet representere to populasjoner av celler mens de bytter fra én konformasjon til en annen. Det er viktig at CCDHFR-1:CCDHFR-2–konformasjonen var spesifikk for den hvilende transkripsjonsmodusen og i overenstemmelse med området av detekterte transkripter. Vi har derfor detektert for hDHFR-genet in vivo kromosomale konformasjoner kjennetegnet ved romlig nærhet mellom CC-markører. Nærheten mellom CCDHFR-1 og CCDHFR-2-markører var spesifikk for transkripsjonsmodusen beskrevet for den hvilende cellesyklustilstanden.

For å teste om CC-markører deltar i eventuell strukturell ordning forbundet med celletypespesifikk ekspresjon av hCALCRL-genet, undersøkte vi dens konformasjoner i transkripsjonstillatende (endotel, HMVEC) og ikke-tillatende (ikke-endotel, HEK293T) -celler. I HMVEC-celler viser det aktive hCALCRL-genet en konformasjonell profil hvor alle tre CCCALCRL-markører var samposisjonerte, med nærhet mellom CCCALCRL-1:CCCALCRL-2 og CCCALCRL-1:CCCALCRL-3 (figur 4B; data for CCCALCRL2:CCCALCRL-3 er ikke vist). Det er viktig at grensene mellom disse to potensielle sløyfekonformsjonene tilsvarer grensene til de to transkriptene detektert i HMVEC-celler (figur 2B). For å teste om noen av disse konformasjonene er unike for HMVEC-celler, analyserte vi hCALCRL i HEK293T, transkripsjonelt ikke-tillatende celler. Mens vi fremdeles detekterte samposisjonering av CCCALCRL-1 og CCCALCRL-2, var samspillet mellom CCCALCRL-1 og CCCALCRL-3, omfattende den fulle lengden av hCALCRL-genet, ikke lenger til stede (figur 4B). CCCALCRL-1:CCCALCRL-2– konformasjonen forekommer med tilstedeværelse av korte hCALCRL–transkripter som termineres ved det første intronet ved CCCALCRL-2-setet i HEK293T-celler (figur 2B). Dermed er celletypespesifikk ekspresjon av hCALCRL–genet forbundet med unik kromosomal konformasjon, som detektert mellom CCCALCRL-1- og CCCALCRL-3-markører. Det er viktig at denne konformasjonen omfatter full lengde av reproduktive transkripter generert i HMVEC- celler.

Anvendelse av mønstergjenkjenningsanalyse på grensene til 422-annoterte humane gener har identifisert og definert flere markører, omfattende en tidligere ukjent markør implisert i transkripsjonell regulering. Markøren – Checkpoint Charlie, som konsekvent korrelerer med grensene for kodende og ikke-kodende transkripsjonelle enheter i et variert utvalg av arter (se også figur 5), viser svært ordnete sekundære og tertiære strukturer for de tilsvarende transkriptene, forbinder den regulerte termineringen av transkripsjon ved RNAPII in vivo, og styrer dannelsen av tranksripsjonsavhengige alternative kromosomale konformasjoner. Når analysert på de cellesyklusspesifikke hDHFR- og celletypespesifikke hCALCRL-genene, forbindes markøren funksjonelt med de enestående strukturelle konformasjonene av høyere grad, som er karakteristiske for den éne eller den andre av modusene for transkripsjonell aktivitet. De samposisjonerte CC-markørene ikke bare korrelerer med subkromatinstrukturer ladet med RNAPII, men lager også et omriss for grensene til transkriptene syntetisert innenfor de strukturene. Vår data er forenelig med tidligere antydninger om at strukturer av høyere grad er dannet på en transkripsjonsavhengig måte og kan være viktig for transkripsjonell reinitiering.

Transkripsjonell regulering utføres ved forskjellige viktige nivåer ved flere aktiviteter koblet til DNA-sekvensspesifikk rekruttering, kromatinnmodifikasjon og remodellering av CC-markører og medhørende strukturell organisering er tydelig implisert in vivo i etablering av de ytre grensene for forskjellige transkripsjonelle enheter.

Northern blotting

Northern blotting for hDHFR ble utført fra total RNA isolert fra U2OS-celler. Prolifererende celler ble dyrket ved tilstedeværelse av 10 % FCS, mens hvilende celler ble oppnådd under kontaktinhibering ved tilstedeværelse av 0,5 % FCS. Sonder syntetisert ved bruk av en mal omfattende sekvenser mellom fjerde og sjette ekson av hDHFR ble brukt som sonde.

Northern blotting for hCALCRL ble utført som beskrevet tidligere (25). Human CL i full lengde ble RT-PCR-forsterket og klonet i pcDNA 3,1 vektor. Den resulterende vektoren ble sekvensert ved bruk av et Applied Biosystems 377 genetisk analyseinstrument og sekvens ble vurdert opp mot GenBankdatabasen. Innsetningen ble tatt ut og brukt som en mal for å generere sonder.

I begge tilfellene ble sondene merket med 32P-dCTP ved bruk av MegaPrime Labelling Kit (Amersham, UK). Etter hybridisering og kraftig vasking ble blottet utsatt for Hyperfilm (Amersham, UK) og deretter Phosphoscreen. Hybridiseringssignaler ble analysert ved bruk av programvaren ImageQuant.

Fluorescensaktivert cellesortering (FACS)

FACS sortering av U2OS dyrkende og hvilende celler ble utført som beskrevet tidligere (26).

Omvendt transkripsjonspolymerasekjedereaksjon (RT-PCR)

Omvendt transkripsjon PCR, for å bestemme terminering av transkripter i hDHFR, ble utført på total RNA isolert fra U2OS-celler. De følgende forover- og bakoverprimerne ble brukt for CCDHFR-1-, CCDHFR-2- and CCDHFR-3-seter:

CCDHFR-1

Foroverprimer (A): tggggaactgcacaatatga (SEQ ID NO:1)

Bakoverprimer (B): aggggtgcgtcttttaacct (SEQ ID NO:2)

Bakoverprimer (C): ccgcacgtagtaggttctgtc (SEQ ID NO:3)

CCDHFR-2

Foroverprimer (A): ttccagagaatgaccacaacc (SEQ ID NO:4)

Bakoverprimer (B): tgttccttttgatcgtggtg (SEQ ID NO:5)

Foroverprimer (C): tggggtatctaatcccagtttg (SEQ ID NO:6)

CCDHFR-3

Foroverprimer (A): tttggaaaaacccatgaagg (SEQ ID NO:7)

Bakoverprimer (B): caacagtcctgccagttgtt (SEQ ID NO:8)

Bakoverprimer (C): cagggttttggtctgtcacc (SEQ ID NO:9)

RT-PCR ble utført ved bruk av Omniscript Reverse Transcription Kit fra Qiagen, UK.

Hurtig amplifisering (rapid amplifications) av cDNA-ender (RACE)

Race ble utført i hovedsak som beskrevet tidligere (27). Genspesifikke primere ble utformet for 3’- (cagagagtgtcacctcctgctttagg) (SEQ ID NO:10) og 5’-RACE (cccacaagcaaggtgggaaagagtg) (SEQ ID NO:11) basert på den rapporerte sekvensen av humant CALCRL cDNA (28). Transkriptene fra 5’ og 3’ RACE (som terminerer ved første intron) ble sekvensert og innlevert til GenBank-databasen.

Antistoffproduksjon og karakterisering

Polyklonal kaninantistoff LN-1436 ble hevet mot syntetisk peptid tilsvarende residuer 427-461 (HDIENVLLKPENLYN) (SEQ ID NO:12) ved det ekstreme C-terminus i humant CL (hCL)-protein (aksesjonsnumre AAC41994 og AAA62158; kodet av CALCRL-genet). Spesifisiteten til antistoffene ble karakterisert ved immunoblotanalyse av kortvarig uttrykt CL i HEK293T-celler.

Immunocytokjemi

Formalinfikserte, parafininnsatte prøver (n=74) med 20 normale humane vev ble valgt fra arkiverte filer fra The Department of Cellular Pathology, John Radcliffe Hospital, University of Oxford, Oxford, UK. Flere vevsmikromatriser (Multiple tissue microarrays - TMAer) ble fremstilt ved å anskaffe sylindriske kjerner (1,0 mm diameter) for hver prøve plassert i matrisen ved høy tetthet inn i en mottaker TMA-blokk. Antigenutvinningsprosedyren ble utført på 4 µm avvoksete og rehydrerte deler før immunohistokjemi utføres ved bruk av et anti-hCL antistoff LN-1436. Immunohistokjemi ble utført i hovedsak som tidligere beskrevet. Biotinylerte sekundære antistoffer, streptavidinalkalifosfatasekompleks Vectastain ABC-AP Kit og Vector Red deteksjonssystem (alle fra Vector, Burlingame, US) ble brukt. Kontroller omfatter preimmunt kaninserum brukt ved hensiktsmessige konsentrasjoner.

Kromosomkonformasjonfanging (3C)

3C–analyse ble utført som beskrevet tidligere (31) med følgende endringer. Ca 4 × 106 hele celler ble kryssbundete ved å behandle med 2 % formaldehyde ved romtemperatur i 10 minutter. Kryssbindingen ble stoppet med en ekvimolar mengde glysin og celler ble høstet og lysert i hypotonisk buffer (10 mM Tris-HCl [pH7,2], 2 mM MgCl2og 0,5 % Triton X-100). Kjernene ble deretter resuspendert i 10 minutter på is i CSK-buffer (100 mM NaCl, 300 mM sukrose, 10 mM PIPES [pH 6,8], 3mM MgCl2, 10µM leupeptin, 1 mM EGTA, 1,2 mM PMSF and 0,5 % Trion X-100). Suspensjonen ble sentrifugert ved 5000 rpm ved 4 ºC i en Hettich Mikro 22R sentrifuge og pelleten ble behandlet med 2M NaCl. Etter inkubering i 10 minutter på is ble tilstrekkelige mengder vann tilsatt for å redusere NaCl-konsentrasjonen til 150 mM. Denne prøven ble brukt for å uføre RNAPII kromatinnimmunoutfellingsundersøkelse som beskrevet tidligere (32) Kromatinnet som ble immunoutfelt med RNAPII-antistoff (H-224, Santa Cruz Biotechnology Inc., USA) ble deretter utsatt for restriksjon med BglII restriksjonsenzym (New England Biolabs, UK) og ligert med T4 DNA-ligase (Roche, UK). Etter spalting av proteinene med Proteinase K (Roche, UK) og RNA med Ribonuclease A (Sigma, UK), ble DNAet ekstrahert med etanol. PCR-analyse på det ekstraherte DNA-et ble utført ved bruk av spesifikke primere med TakaRa LA TaqTM fra Takara Bio Inc., Japan.

Diagnose av kreft i eggstokk og prostata

MLH1-ekspresjon i normalt vev og eggstokkreftvev (se figur 8)

Svulsthemmende gener spiller en viktig rolle i overlevelse og opprettholdelse av celler. Å stanse svulsthemmere, signalisere uhemmet vekst som fører til kreft. Som et feilsikringssystem gjennomgår celler apoptose når slike signaler for uhemmet vekst detekteres.

En human homolog av Escherichia coli mutL genet, tarmkreft ikke-polypøs type 2 (MLH1), er et slikt gen som koder for et DNA upassende rearasjonsgen. MLH1-signaliserer reparasjonsmekanismen initiert av DNA-skade og setter igang apoptose i svulstceller. Dette genet er funnet i lokus 3p21,3, og akkumulerer forskjellige mutasjoner og modifikasjoner etter hvert som cellen eldes. Én slik forandring, økning i metyleringsnivåer i promotorområdet til MLH1, er blitt forbundet med arvelig ikkepolypøs tarmkreft. I tillegg er det blitt vist at MLH1-alternative spaltningsvarianter er vevsspesifikke og bidrar til fenotypisk variasjon i arvelige kreftformer.

For å se om MLH1-mutasjoninduserte spaltningsvariasjoner er forbundet med eggstokkreft, så vi etter CC-seter som omfattet transkripsjonsenheten. Ved skanning av MLH1-sekvensen fant vi en CC-markør ved det 8. intronet og en annen i 3’UTR dannet grenser til en alternativ spaltningsvariant. 3C-analyse utført på disse to setene viser CC-setene som samposisjoneres kun i normale pasienter. Mens vevs- og fluidprøver tatt fra pasienter med eggstokkreft viser ingen samposisjonering. Dermed kan MLH1 CC-seter brukes som en markør for å kjennetegne eggstokkreft.

Prostatakreft

Tester for diagnostiske markører for prostata ble utført på cellelinjer, og representerte godartete eller sene stadier av svulstvekst. De foretrukne genene var PSA og BORIS.

BORIS- og PSA-ekspresjon i normalt vev og prostatakreftvev (se figur 9)

Et nytt medlem av testikkelkreftgenfamilien, “Brother of the regulator of imprinted sites” (BORIS), er uttrykt kun i spermocytter og ikke i normale somatiske celler. Dens ekspresjon er imidlertid forbundet med flere humane kreftformer omfattende brystkreft og lungekreft. BORIS konkurerer med andre Zn-fingertranskripsjonsindikatorer, CTCF for epigene perturberinger i humant ondartet vev. Dermed bestemte vi oss for å teste forbindelsen mellom BORIS og human prostatakreft (LNCaP).

BORIS har to CC-seter omfattende den definerte transkripsjonsenheten i kromosomalplassering 20q13,31. Ettersom genet er vesentlig uttrykt i ondartet vev, bestemte vi oss for å teste samposisjoneringen av to CC-seter i LNCaP. Fra resultatene, vist i den medfølgende figuren, skjer samposisjonering av CC-seter kun i LNCaP og ikke i humane osteosarkom (U20S) -cellelinjer. Ytterligere bekreftelse ble oppnådd ved å sekvensere PCR-produktet.

Vi vurderte også en annen veletablert prostatakreftdanner, prostataspesifikt antigen (PSA). PSA, kodet ved humant Kallikrein 3 (KLK3) -gen, brukes for diagnose av prostatakreft ved å detektere nivåer av PSA i blod. Her bruker vi imidlertid 3C-teknikken for å se på PSA-genet i humane osteosarkomceller og godartete prostatahyperplasi (BPH1) -cellelinjer. Det kan sees av BORIS at KLK3- transkripsjonsenheten også defineres av to CC-seter, en i 5'UTR og den andre i 3'UTR. Resultatene viser at disse to CC-setene krysskommuniserer kun i BPH1-celler og ikke i U20S.

Dermed kan PSA og BORIS brukes som biomarkører for å identifisere henholdsvis godartete og ondartete prostatakreftceller.

PCR-metoder

MLH1

3C Restriksjonsenzym - BssSI

MLH1-primere

MF3UTR2 TGGTTTTAGCTGGGATGGAG

MF3UTR1 GAGGCAGGCAGATCACTTGT

MREI2 AGAAGATGCAGGCCAACAAT

MREI1 CTCGTAAAGCCCAAGGAGGT

Første runde med PCR-reaksjon

2X buffer I 25 µl

dNTP (2,5 mM) 8 µl

DNA 1 µl

Primere (25 µM)

Forover (MREI2) 1 µl

Bakover (MF3UTR2) 1 µl

TakaRa LA Taq 0,5 µl

Vann 13,5 µl

Total 50 µl

Primere

MREI2 - MF3UTR2

PCR-program

94 ºC - 5 min

94 ºC - 1 min

57 ºC - 1 min i 30 sykluser

72 ºC - 45 sek

72 ºC - 5 min

Forventet produktstørrelse

MREI2 - MF3UTR2 - 527 bp

Andre runde med PCR-reaksjon

2X buffer I 25 µl

dNTP (2,5 mM) 8 µl

DNA 2 µl

Primere (25 µM)

Forover (MREI1) 1 µl

Bakover (MF3UTR1) 1 µl

TakaRa LA Taq 0,5 µl

Vann 12,5 µl

Total 50 µl

Primere

MREI1 - MF3UTR1

Prøver

Ta 48 µl blanding og 2 µl av den respektive PCR-reaksjonen fra 1. runde

PCR program

94 ºC - 5 min

94 ºC - 1 min

59 ºC - 1 min i 25 sykluser

72 ºC - 30 sek

72 ºC - 5 min

Forventet produktstørrelse

MREI1 - MF3UTR1 -325 bp

BORIS

3C Restriksjonsenzym - TaqI

BORIS-primere

BR5UTR4 GGCTGGAATTGCCCTAAAGT BR5UTR3 CCTATGAGGGGGCAGTATCA

BR3UTR2 GCTCTTCCTGCTGGGAAAT BR3UTR1 TACAGGGGTGGAGACAGGTT

Første runde med PCR-reaksjon

2X buffer I 25 µl dNTP (2,5 mM) 8 µl DNA 1 µl Primere (25 µM) Forover (BR5UTR4) 1 µl Bakover (BR3UTR2) 1 µl TakaRa LA Taq 0,5 µl Vann 13,5 µl Total 50 µl

Primere

BR5UTR4 – BR3UTR2

PCR-program

94 ºC - 5 min

94 ºC – 45 sek

57 ºC – 30 sek i 30 sykluser 72 ºC - 25 sek

72 ºC - 5 min

Forventet produktstørrelse

BR5UTR4 – BR3UTR2 – 430 eller 784 bp

Merk: To produktstørrelser er gitt ettersom 3C-restriksjonsenzymet (Taq I) spaltes ved hvilken som helst av de to restriksjonssetene i nærheten av CC-markøren.

Andre runde med PCR-reaksjon

X buffer I 25 µl

dNTP (2,5 mM) 8 µl

DNA 2 µl

Primers (25 µM)

Forover (BR5UTR3) 1 µl

Bakover (BR3UTR1) 1 µl

TakaRa LA Taq 0,5 µl

Vann 12,5 µl

Total 50 µl

Primere

BR5UTR3 - BR3UTR1

Prøver

Ta 48 µl blanding og 2 µl av den respektive PCR-reaksjonen fra 1. runde

PCR-program

94 ºC - 5 min

94 ºC – 45 sek

55 ºC - 30 sek i 25 sykluser

72 ºC - 20 sek

72 ºC - 5 min

Forventet produktstørrelse

BR5UTR3 - BR3UTR1 - 260 eller 564 bp

Merk: Her er to produktstørrelser gitt ettersom 3C-restriksjonsenzymet (Taq I) spaltes ved hvilket som helst av de to restriksjonssetene i nærheten av CC-markøren. Figur 9 viser båndet ved 564 bp, som er blitt bekreftet ved sekvensering.

PSA

3C-restriksjonenzym - TaqI

PSA-primere

PR5UTR2 CGTGATCCACCCATCTCAG

PR5UTR1 CTATTGGGAGACCGAAGCAG

PF3UTR2 GGGAAAGGGAGAAGATGAGG

PF3UTR1 TAGGGGAAGGTTGAGGAAGG

Første runde med PCR-reaksjon

2X buffer I 25 µl

dNTP (2,5 mM) 8 µl

DNA 1 µl

Primere (25 µM)

Forover (PR5UTR2) 1 µl

Bakover (PF3UTR2) 1 µl

TakaRa LA Taq 0,5 µl

Vann 13,5 µl

Total 50 µl

Primere

PR5UTR2 – PF3UTR2

PCR-program

94 ºC - 5 min

94 ºC – 45 sek

61 ºC – 30 sek i 30 sykluser

72 ºC - 25 sek

72 ºC - 5 min

Forventet produktstørrelse

PR5UTR2 – PF3UTR2 – 481 bp

Andre runde med PCR-reaksjon

2X buffer I 25 µl

dNTP (2,5 mM) 8 µl

DNA 2 µl

Primere (25 µM)

Forover (PR5UTR1) 1 µl

Bakover (PF3UTR1) 1 µl

TakaRa LA Taq 0,5 µl

Vann 12,5 µl

Total 50 µl

Primere

PR5UTR1 - PF3UTR1

Prøver

Ta 48 µl blanding og 2 µl av den respektive PCR-reaksjonen fra 1. runde

PCR program

94 ºC - 5 min

94 ºC – 45 sek

61 ºC - 30 sek i 25 sykluser

72 ºC - 20 sek

72 ºC - 5 min

Forventet produktstørrelse

PR5UTR1 - PF3UTR1 - 266 bp

CC-markørdetaljer

MLH1

CC1 - 24367 bp nedstrøms for TSS

TAACCCCAT

CC2 - 57357 bp nedstrøms for TSS

TAACATAA

(Uthevete og understrekete bokstaver representerer en CC-markørsekvens)

I normalt vev uttrykkes genet med alternative transkripter. Én slik transkript begynner ved det 8. intron, hvor CC1 er til stede og avslutter ved CC2-markøren. I eggstokkreftvev nedreguleres genet etterhvert som den akkumulerer mutasjoner, delesjoner og metylering som fører til feil eller ingen transkript. Vi fant samposisjonering av CC1 og CC2 i normalt vev, men ikke i eggstokkreftvev. Dette er forbundet med endring i transkripsjonsmodusen til genet i dette vevet.

BORIS

CC1 - 5282 bp oppstrøms for TSS

CTTTGAAAGC

CC2 - 28038 bp nedstrøms for TSS

AAAATTGCT

(Uthevete og understrekete bokstaver representerer en CC-markørsekvens)

BORIS har to CC-seter, én i 5'UTR og den andre i 3'UTR. I U20S-celler er BORIS-ekspresjon ikke forventet og dermed bør ingen samposisjonering av CC-markører kunne observeres. Derimot utrykkes BORIS i human prostatakreftcellelinje (LNCaP). Vi fant en samposisjonering av CC1 og CC2 i LNCaP og ikke i U20S.

PSA/KLK3

CC1 - 408 bp oppstrøms for TSS

CTGGTCTCAGAGT

CC2 - 5843 bp nedstrøms for TSS

TACTGTGGTTTA

(Uthevete og understrekete bokstaver representerer en CC-markørsekvens)

KLK3 har to CC-seter, én i nærheten av 5'UTR og den andre i 3'UTR. KLK3-ekspresjon er ikke forventet i U20S-celler og dermed kan ingen samposisjonering av CC-markører observeres. Derimot uttrykkes KLK3 i godartet prostatahyperplasicellelinjer (BPH-1) KLK3. Dermed observeres samposisjonering av CC1 og CC2 i BPH-1 og ikke i U20S.

Kildehenvisninger

Referanser

1. P. R. Cook, I. A. Brazell, E. Jost, Journal of Cell Science 22, 303 (Nov, 1976).

2. T. Cremer, C. Cremer, Nat Rev Genet 2, 292 (Apr, 2001).

3. D. Carter, L. Chakalova, C. S. Osborne, Y. F. Dai, P. Fraser, Nature Genetics 32, 623 (Dec, 2002).

4. J. E. Collins et al., Genome Research 13, 27 (Jan, 2003).

5. T. A. Down, T. J. Hubbard, Genome Research 12, 458 (Mar, 2002).

6. M. E. Tipping, Journal of Machine Learning Research 1, 211 (Jun 1, 2001).

7. M. J. Dye, N. J. Proudfoot, Cell 105, 669 (Jun 1, 2001).

8. N. J. Proudfoot, A. Furger, M. J. Dye, Cell 108, 501 (Feb 22, 2002).

9. G. Yeung et al., Molecular and Cellular Biology 18, 276 (Jan, 1998).

10. M. Yonaha, N. J. Proudfoot, EMBO Journal 19, 3770 (Jul 17, 2000).

11. M. Zuker, Nucleic Acids Research 31, 3406 (Jul 1, 2003).

12. A. Teixeira et al., Nature 432, 526 (Nov 25, 2004).

13. S. West, N. Gromak, N. J. Proudfoot, Nature 432, 522 (Nov 25, 2004).

14. M. Kim et al., Nature 432, 517 (Nov 25, 2004).

15. T. I. Gerasimova, V. G. Corces, Cell 92, 511 (Feb 20, 1998).

16. K. Byrd, V. G. Corces, Journal of Cell Biology 162, 565 (August 18, 2003).

17. J. Blanton, M. Gaszner, P. Schedl, Genes and Development 17, 664 (Mar 1, 2003).

18. J. Dekker, K. Rippe, M. Dekker, N. Kleckner, Science 295, 1306 (Feb 15, 2002).

19. J. E. Slansky, P. J. Farnham, Bioessays 18, 55 (Jan, 1996).

20. B. Fluhmann, M. Lauber, W. Lichtensteiger, J. A. Fischer, W. Born, Brain Research 774, 184 (Nov 7, 1997).

21. N. Aiyar et al., Journal of Biological Chemistry 271, 11325 (May 10, 1996).

22. L. L. Nikitenko, D. M. Smith, R. Bicknell, M. C. Rees, FASEB Journal 17, 1499 (Aug, 2003).

23. S. L. Hendrickson, J. S. Wu, L. F. Johnson, Proceedings of the National Academy of Sciences of the United States of America 77, 5140 (Sep, 1980).

24. R. Metivier et al., Cell 115, 751 (Dec 12, 2003).

25. L. L. Nikitenko et al., Molecular Human Reproduction 7, 655 (Jul, 2001).

26. Z. Darzynkiewicz, The Cell Cycle. A Practical Approach. P. Fantes, R. Brooks, Eds. (IRL Press, Oxford, 1993), pp. 45-68.

27. L. L. Nikitenko, D. M. Smith, R. Bicknell, M. C. Rees, FASEB Journal 17, 1499 (Aug, 2003).

28. N. Aiyar et al., Journal of Biological Chemistry 271, 11325 (May 10, 1996).

29. J. Kononen et al., Nature Medicine 4, 844 (Jul, 1998).

30. L. L. Nikitenko, I. Z. MacKenzie, M. C. Rees, R. Bicknell, Molecular Human Reproduction 6, 811 (Sep, 2000).

31. J. Dekker, K. Rippe, M. Dekker, N. Kleckner, Science 295, 1306 (Feb 15, 2002).

32. R. Metivier et al., Cell 115, 751 (Dec 12, 2003).

Beskrivelse av CC-markører og deres deteksjon

Mønstergjenkjenningsanalyse har vært bredt anvendt i forskjellige fagområder, slik som i medisin, teknikk og lingvistikk, hvor bildeanalyse og dataavkoding tillater identifikasjon av underliggende karakteristiske markører i komplekse systemer. Vi har brukt mønstergjenkjenningsmetoder for å analyser data over det humane genomet i forhold til transkripsjonsenhetene, bearbeidet ved RNA polymerase II. Et sett med sekvenser fra 422 manuelt annoterte gener på humant kromosom 22 ble brukt for dataidentifikasjon av regulerende signaler til stede ved grensene til transkripsjonsenhetene. Spesiell oppmerksomhet er viet identifikasjon av signalene ved 3’-enden av transkripsjonsenhetene. Dette viste seg å være funksjonelt relevant ettersom senere forsøk bekreftet at signalene har avslutningsegenskaper in vivo.

Mønsteret funnet ved grensene har flere signaler og representeres i XML-format som forklarer 3 nøkkeltrekk

a. DNA alfabetet til hvert signal som er identifisert

b. Variasjon i posisjon for hvert signal som Gaussisk distribusjonsbredde

c. Avstand mellom hvert signal i et mønster i basepar

Etter hvert som mønster observeres på grensene til transkripsjonsenhetene, kaller vi det “Checkpoint Charlie” (CC)-markør.

CC-markører på en kjent sekvens kan identifiseres ved bruk av et sett med koder som identifiseres som ”Skanner”. Skanneren trenger 3 inngangsdata fra brukeren:

a. Sekvensen som undersøkes

b. Mønsteret i XML-format

c. Strenghetsfaktor (invers logaritmisk verdi) for å utelukke svake CC-markører (normalverdi: f.eks. 0,99)

Skanneren leser DNA inngangsdata og prøver å tilpasse mønstrene i sekvensen. Dette gjøres ved å gå langs DNA-sekvensen ved å ta hver base som referansepunkt. Skanneren begynner med den første basen som referansepunkt og prøver å tilpasse mønsteret definert i XML-formatet. Graden av tilpasning avgjøres ved en verdi. Hvis denne verdien er større enn strenghetsfaktoren gitt av brukeren, ble en CC-markør funnet. Posisjonen til den identifiserte CC-markøren er gitt i et standard GFF-format og skanneren beveger seg til den andre basen i inngangssekvensen.

Denne fremgangsmåten gjentas inntil skanneren leser alle basene på inngangs-DNA og dens komplementære streng.

Sluttresultatet fra denne skanningen for CC-markørmønsteret vil være en tekstfil med potensielle CC-markørplasseringer i inngangssekvensen med sin respektive verdi i GFF-format.

CC-markørdeteksjon

For å illustrere deteksjon av CC-markøren i en gitt sekvens, ta i betraktning følgende sekvens.

ATATTTGTACTATGGCTCTGAATAAATAATAAGGACAGGAAGCCCGGAGAAG-GAGAGTTTTTTTTTTTTTTTGGTACGAGAACTCTCTGTACTATTTTTTCAAC-TTTTCTTTTTCTTTTCTTTTGAGACGGAGTCTTACTCTTCTTGCCCAGGCTGGAGTGCAAT-GGCGCGATCTCGGCTCACTGCAACCTCCACCTCCTGGGTTCAAGTGATTCTCCTGCCT-CAGCCTCCCAAGTAGCTGGGATTACAGGCATGTGCCACCATGCCTGG-CTAATTTTGTATTTTTAGTAGAGATGGGGGTTTCACCATGAGCGCCAGGCTGGTCTT-GAACACCTGACCTCGTGATCCACCTGCCTCGGCCTCCCAAAGTACTGGGACTACAGGTAT-GAGCCACTGTGCCCAGCCGACAAAAC

Gitt denne sekvensen utføres en skanning fra venstre til høyre for å finne CC-markøren. La oss se på den 50. basen (understreket) som vårt referansepunkt. For å bestemme om denne basen er en CC-markør eller ikke, bør settet med 4 vekter, som er beskrevet i tabell 1, tilsvare denne sekvensen. For enkelhets skyld vises et eksempel hvor alle de 4 settene med vekter (også understreket) er til stede.

Som beskrevet tidligere har de 4 settene med vekter en relativ distanse mellom hverandre i forhold til referansepunktet. For eksempel, fra tabell 1 kan det sees at det første settet med vekter begynner ved posisjon 8 i forhold til referansepunktet. Dette første settet med vekter har 19 posisjonsverdier for hver type nukleotid som viser seg ved den posisjonen. For eksempel, for den første posisjonen vil et guanin få en verdi på 0,19 og et tymin vil få en verdi på 0,33. Likeledes, for den andre posisjonen, vil guanin få en verdi på 0,20 og et tymin vil få en verdi på 0,39. Den andre verdien multipliseres med den første. Dette gjentas inntil alle de 19 posisjonsverdiene er avlest og multiplisert med sin foregående verdi.

I vårt eksempel har vi TTTTTTTTTTTTTTTTGGT som begynner ved 8. base i forhold til referansepunktet. Dermed er vår verdi for dette settet med vekter (0,33*0,39*0,34*0,35*0,41…) og så videre.

Denne fremgangsmåten gjentas hver gang for andre tre sett med verdier også, og multipliserer posisjonsverdien med den foregående verdien som hittil var beregnet.

Den endelige verdien fra alle de 4 settene med verdier konverteres til en eksponensiell verdi (invers logaritmisk) verdi, for enkel håndtering. Den logaritmiske verdien er lik 1,0/(1+e-x) hvor X er verdien som oppnås ved fremgangsmåten ovenfor ved å bruke verdiene i tabell 1. Hvis denne logaritmiske verdien er større enn 0,90 (f.eks.) så anses den basen å være en CC-markør. I vårt eksempel ga multiplikasjon av posisjonsverdiene fra alle 4 setene med verdier en invers logaritmisk verdi på 0,99999. Ettersom denne verdien er større enn 0,99, er den 50. basen, A, innenfor CC-markørsekvensen. Analyse av andre baser i sekvensen tillater identifikasjon av sekvensen fra den 41. til den 56. basen som CC-markøren (med en endelig verdi på 0,99968).

Fremgangsmåte brukt i deteksjon av samposisjonering av CC-markører in vivo

Fremgangsmåten beskrevet nedenfor identifiserer brede nøkkeltrinnen i deteksjon av CC-markørsamposisjonering i vevsprøver. Dette er den første utviklete metodologien for å analysere frossent vevsprøve fra pasienter.

● Vevsprøvene skjæres i tynne deler på et objektglass.

● Tilsett 1 ml iskald 1X PBS til objektglasset og vask i 5 minutter.

● Tilsett 0,67 M paraformaldehyd for å kryssbinde protein og DNA.

● Inkuber i 10 minutter ved romtemperatur på en vuggende plattform.

● Tilsett 1M glysin for å bråstanse kryssbindingsreaksjonen.

● Skrot cellene og overfør cellene til eppendorf.

● Sentrifuger ved 13.000 rpm i 1 minutt for å samle cellen ved romtemperatur.

● Fjern overskuddsvæsken og tilsett 1 ml iskald hypotonisk buffer.

● Pipetter cellen et par ganger for å danne en fin cellesuspensjon (om nødvendig foreta en rask omdreining).

● Inkuber på is i 10 minutter for å svelle cellen og få frem kjernen.

● Sentrifuger ved 5.000 rpm i 5 minutter ved 4 ̊C for å samle kjernen.

● Drener overskuddet av cytosol og oppløs kjernepelletten i 1 ml CSK-buffer.

● Inkuber på is i 20 minutter

● Sentrifuger ved 5.000 rpm i 5 minutter ved 4 ̊C for å samle kjernen.

● Drener overskuddsvæsken så mye som mulig og behold pelletten.

● Oppløs kjernepelletten i 2M NaCl (løsningen blir viskøs).

● Inkuber på is i 10 minutter.

● Fortynn prøven med tilstrekkelig vann for å redusere NaCl-konsentrasjonen til 150 mM.

● Tilsett 10 µl Pol II antistoff (H-224) til eppendorfen.

● Inkuber ved 4 ̊C over natten med omrøring eller rotering.

● Ta 30 µl av protein G Sepharoseperleoppslemming for å oppnå omtrent 20 µl tørre perler (skjær av pipettetuppen om nødvendig).

● Sentrifuger ved 2.000 rpm i 3 minutter for å samle perlene.

● Vask to ganger med 1 ml MilliQ-vann og sentrifuger ved 2.000 rpm i 3 minutter for å samle perlene.

● Tilsett 1 ml restriksjonsvaskebuffer til perlene.

● Bland godt og fordel i forskjellige eppendorfer (om nødvendig), vask og sentrifuger ved 2.000 rpm i 3 minutter for å samle perlene.

● Overfør hele innholdet av eppendorfen med perlene og bland godt.

● Inkuber ved 4 ̊C i 1 time med omrøring eller rotasjon.

● Spinn ved 1000 rpm i 3 minutter ved 4 ̊C og fjern overskuddsvæsken.

Overskuddsvæsken kan analyseres for ubundete fraksjoner.

● Tilsett 1 ml restriksjonsvaskebuffer, roter ved 4 ̊C i 5 minutter, sentrifuger ved 2000 rpm i 3 minutter ved 4 ̊C. Fjern overskuddsvæsken.

● Tilsett 1 ml restriksjonsvaskebuffer, roter ved 4 ̊C i 5 minutter, sentrifuger ved 2000 rpm i 3 minutter. Fjern overskuddsvæske.

● Mål perlene og mengdene restriksjonsbuffer som er igjen, tilsett

o Restriksjonsbuffer 1X

o Restriksjonsenzym 30-60 enheter

o Vann variabelt for 100 µl reaksjon

● Spalt DNA ved inkubering ved 37 ̊C over natten.

● Inkuber ved 65 ̊C i 10 minutter for å stanse restriksjonsspalting.

● Tilsett > 200 µg/ml RNase A til bufferen.

● Inkuber ved 37 ̊C i 30 minutter.

● Tilsett 400 µl MillliQ vann og fortynn restriksjonsreaksjonen.

● Tilsett:

o Ligeringsbuffer 1X

o T4 DNA ligase 30 enheter

o Vann variabelt for 100 µl reaksjon

● Inkuber ved 16 ̊C i 4 timer.

● Inkuber ved 65 ̊C over natten for å reversere kryssbindinger.

● Tilsett 450 µg Proteinase K til hver prøve.

● Inkuber ved 42 ̊C i 1 time for å spalte proteiner.

● Tilsett 660 µl fenol, pH 7,9 (lik volum) til hver prøve og virvle.

● Sentrifuger ved 13.000 rpm i 10 minutter.

● Overfør overskuddsvæsken til 1,5 ml eppendorf.

● Tilsett 0,3M NaCl og 0,5 µg glykogen.

● Bland godt og tilsett 1 ml iskald etanol.

● Utfell DNA ved -80 ̊C i 1 time.

● Sentrifuger ved 14.000 rpm i 20 minutter ved 4 ̊C.

● Resuspender DNA-pelletten i 10 µl RNasefritt vann.

● Sett opp en Takaka PCR-reaksjon for hver prøve.

● PCR buffer 1X

● dNTP 200 µM av hver NTP

● DNA 1 µl

● Forover primer 0,5 µM

● Bakover primer 0,5 µM

● TakaRa LA Taq 2,5 enheter

● Vann Variabel for 50 µl reaksjon

● Kjør prøvene i en 2 % agarosegel.

Tabell 1

<?xml version="1.0"?>

- <model>

- <constraint weight="9.722125061947459" nolog="false">

- <positioned pos="8" max="true">

- <weightmatrix reverse="0.0" normalizeByMaximum="false" alphabet="DNA" columns="19">

- <column pos="0">

- <column pos="1">

- <column pos="2">

- <column pos="3">

- <column pos="4">

- <column pos="5">

- <column pos="6">

- <column pos="7">

- <column pos="8">

- <column pos="9">

- <column pos="10">

- <column pos="11">

- <column pos="12">

- <column pos="13">

- <column pos="14">

- <column pos="15">

- <column pos="16">

- <column pos="17">

- <column pos="18">

</weightmatrix>

</positioned>

</constraint>

- <constraint weight="7.430703153194244" nolog="false">

- <positioned pos="-22" max="true">

- <weightmatrix reverse="0.0" normalizeByMaximum="false" alphabet="DNA" columns="5">

- <column pos="0">

- <column pos="1">

- <column pos="2">

</column>

- <column pos="3">

- <column pos="4">

</weightmatrix>

</positioned>

</constraint>

- <constraint weight="20.800433402457763" nolog="false">

- <positioned pos="309" max="false">

- <weightmatrix reverse="0.0" normalizeByMaximum="false" alphabet="DNA" columns="4">

- <column pos="0">

- <column pos="1">

- <column pos="2">

- <column pos="3">

</weightmatrix>

</positioned>

</constraint>

- <constraint weight="13.776783968061828" nolog="false">

- <positioned pos="-29" max="true">

- <weightmatrix reverse="0.0" normalizeByMaximum="false" alphabet="DNA" columns="6">

- <column pos="0">

- <column pos="1">

- <column pos="2">

- <column pos="3">

- <column pos="4">

- <column pos="5">

</weightmatrix

</positioned>

</constraint>

</model>

Claims

Patentkrav

1. Fremgangsmåte for diagnose av kreft ved påvisning av en abnormal genekspresjon i et individ, omfattende å bestemme, i en prøve fra individet, tilstedeværelse av en abnormal kromosomstruktur som er

k a r a k t e r i s e r t v e d

(i) tilstedeværelse av en ny posisjonering som ikke er til stede under normal ekspresjon eller

(ii) fravær av minst en posisjonering som er til stede under normal genekspresjon,

hvor nevnte posisjonering er av to separate områder av et gen, for derved å diagnostisere hvorvidt individet har kreft.

2. Fremgangsmåte ifølge krav 1, hvor nevnte kromosomstruktur er en løkke eller en topologisk lukket struktur.

3. Fremgangsmåte ifølge et hvilket som helst av de foregående krav, hvor to eller flere gener som er forbundet med kreft, analyseres for å tillate diagnose av typen av kreft og/eller minst et av genene som analyseres, er et vevsspesifikt gen som tillater vevet hvor den abnormale ekspresjon inntreffer, å bli identifisert.

4. Fremgangsmåte ifølge et hvilket som helst av de foregående krav, omfattende å påvise kromosom-konformasjon ved å bestemme hvorvidt sekvenser i genet har blitt brakt i samposisjonering ved assosiasjonen av CC-markører i genet og/eller hvor samposisjoneringen påvises ved:

- å kryssbinde samposisjonert DNA fulgt av

- påvisning av det kryssbundne DNA, eventuelt ved hjelp av en sekvensbasert påvisningsmetode,

hvor nevnte CC-markører er 5 til 30 nukleotider lange.

5. Fremgangsmåte ifølge krav 4, hvor, etter kryssbindingen av DNA,

- det kryss-bundne DNA underkastes restriksjonsspalting,

- den spaltede struktur underkastes ligering og

- den ligerte struktur analysers/påvises.

6. Fremgangsmåte ifølge krav 5, hvor analyse av den ligerte struktur omfatter påvisning av en DNA-sekvens som er til stede i den ligerte struktur og som ikke er til stede i genet.

7. Fremgangsmåte ifølge krav 6, hvor DNA-sekvensen som er til stede i ligandstrukturen, påvises ved sekvensering eller ved PCR, hvor eventuelt tilstedeværelsen av ligand-sekvensen påvises ved å bruke en PCR-reaksjon hvor primerne lykkes i å danne et PCR-produkt ved å bruke den ligerte sekvens som et templat, men som ikke amplifikerer gensekvensen under de samme PCR-betingelser.