KR20060130599A - 유전자 태그의 수득 방법 - Google Patents

유전자 태그의 수득 방법 Download PDF

Info

Publication number
KR20060130599A
KR20060130599A KR1020067012895A KR20067012895A KR20060130599A KR 20060130599 A KR20060130599 A KR 20060130599A KR 1020067012895 A KR1020067012895 A KR 1020067012895A KR 20067012895 A KR20067012895 A KR 20067012895A KR 20060130599 A KR20060130599 A KR 20060130599A
Authority
KR
South Korea
Prior art keywords
cdna
tag
gene
primer
sequence
Prior art date
Application number
KR1020067012895A
Other languages
English (en)
Inventor
신이치 하시모토
고지 마츠시마
스미오 스가노
Original Assignee
가부시키가이샤 포스트 게놈 겐큐쇼
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가부시키가이샤 포스트 게놈 겐큐쇼 filed Critical 가부시키가이샤 포스트 게놈 겐큐쇼
Publication of KR20060130599A publication Critical patent/KR20060130599A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6853Nucleic acid amplification reactions using modified primers or templates
    • C12Q1/6855Ligating adaptors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1096Processes for the isolation, preparation or purification of DNA or RNA cDNA Synthesis; Subtracted cDNA library construction, e.g. RT, RT-PCR
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12PFERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
    • C12P19/00Preparation of compounds containing saccharide radicals
    • C12P19/26Preparation of nitrogen-containing carbohydrates
    • C12P19/28N-glycosides
    • C12P19/30Nucleotides
    • C12P19/34Polynucleotides, e.g. nucleic acids, oligoribonucleotides

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Plant Pathology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • General Chemical & Material Sciences (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Peptides Or Proteins (AREA)

Abstract

mRNA의 5' 말단의 염기 서열을 태그로서 생성하기 위한 방법이 제공되었다. 본 발명의 방법은, CAP 구조에 IIs형 제한 효소의 인식 서열을 포함하는 IIs 링커를 연결한 mRNA를 주형으로 하여 cDNA를 합성하는 공정을 포함한다. 이 cDNA에 IIs형 제한 효소를 작용시킴으로써, mRNA의 5' 말단의 염기 서열로 이루어지는 태그가 생성된다. 염기 서열에 의존하지 않고 모든 mRNA로부터 태그를 생성할 수 있다. 본 발명의 태그의 염기 서열 정보에 따라 전사 개시점의 동정 방법이나, 전장 cDNA 합성용 프라이머가 제공된다.

Description

유전자 태그의 수득 방법{Method of obtaining gene tag}
본 발명은 유전자 태그의 수득 방법, 및 유전자 태그의 분석 방법에 관한 것이다.
복수의 세포의 유전자 발현 상태의 비교에 의해 세포를 특징지을 수 있다.즉, 세포의 상태를 유전자의 발현 패턴으로 표현한 세포의 카탈로그를 얻을 수 있다. 이 카탈로그를 이용하여 유전자의 발현 상태로부터 세포를 특정할 수 있다. 반대로, 세포간에 유전자의 발현 패턴을 비교하면, 각 세포에 특징적인 유전자를 골라 낼 수도 있다. 예컨대, 정상인 세포와, 인위적인 처리를 가한 세포 사이에서 유전자의 발현 상태를 비교하면, 인위적인 처리를 가하였을 때 발현 수준이 변화되는 유전자가 발견된다. 이 유전자는, 인위적인 처리 결과로서 발현 수준이 변화된 유전자이다. 마찬가지로, 환자의 세포와 건강한 사람의 세포 사이에서 유전자의 발현 상태를 비교함으로써, 질환에 관련된 유전자를 찾아낼 수도 있다.
이와 같이 하여, 유전자의 발현 상태의 비교에 의해 어떠한 상태에 있는 세포에 발현되어 있는 유전자를 망라하여 분석하고, 그 종류나 발현 수준을 세포 사이에서 비교하는 것을 유전자의 발현 분석(expression analysis)이라 한다. 유전자의 발현 분석을 위한 수법으로는, 복수의 방법이 사용되고 있다.
예컨대, 이하에 나타내는 방법은, cDNA 라이브러리 사이에서 발현 수준이 변화되고 있는 유전자를 단리하기 위해 개발된 방법이다.
디프렌셜 디스플레이법(differencial display)
서브트랙션 라이브러리법(subtraction library)
이러한 방법은 비교적 예전부터 실용화되어 있는 방법이다. 모두 유래가 다른 cDNA 라이브러리의 사이에서, 발현 수준의 다른 유전자를 찾아내기 위한 분석 수법이다. 방대한 유전자의 염기 서열 정보가 축적된 최근에는, 그 염기 서열 정보를 이용한 더욱 효율적인 유전자 발현 분석이 실현되고 있다. 즉, DNA 어레이법이다. DNA 어레이에는, 수만에 달하는 유전자의 프로브가 고밀도로 배치되어 있다. 하나의 DNA 어레이를 이용함으로써, 한 번의 실험 조작으로 수만의 유전자의 발현 상태를 알 수 있다. 인간 유전자의 종류가 3만~4만으로 추측되고 있으므로, DNA 어레이는 인간의 유전자 발현 분석을 강력하게 추진하는 도구로써 널리 보급되고 있다. 또한 DNA 어레이는 치료 표적의 탐색이나, 약제 후보 화합물의 개발에 유용한 것으로 평가되고 있다(Nature Genetics volume 32 supplement pp 547-552, 2002).
그러나, 일반적으로 DNA 어레이를 구성하는 프로브는, 주지의 염기 서열 정보에 따라 디자인되어 있다. 따라서, 알려지지 않은 유전자의 수득에는 적합하지 않은 디바이스이다. 또한, 현재 상업적으로 공급되고 있는 DNA 어레이는 유전자 배열 정보가 충분히 축적된 생물종에 한정된다. 예컨대 Affymetrics사는 다음과 같은 생물종에 대하여 DNA 어레이를 제공하고 있다.
아라비돕시스 탈리아나(Arabidopsis ATH1 Genome Array)
선충(C.elegans Genome Array)
초파리(Drosophila Genome Array)
대장균(E.coli Antisense Genome Array)
인간(Human Genome Focus Array 외)
마우스(Mouse Expression Set 430 외)
녹농균(P.aeruginosa Genome Array)
래트(Rat Expression Set 230 외)
효모(Yeast Genome S98 Array)
DNA 어레이에 의한 기타 생물종의 유전자 발현 분석을 위해서는, 스팟터 등을 이용하여 이용자가 DNA 어레이를 조제하여야 한다. 혹은, 커스텀 어레이의 작성 서비스를 이용할 필요가 있다. 그러나, 유전자 서열표의 축적이 불충분한 생물종에 대해서는 유전자 서열 정보에 따른 DNA 어레이를 준비하기는 어렵다.
미지의 유전자의 수득을 가능하게 하고, 또한 고도로 효율적인 유전자 발현 분석을 가능하게 하는 수법으로, SAGE(Serial analysis of gene expression)이 제안되었다(SCIENCE, Vol.270, 484-487, Oct.20, 1995). SAGE는, 유전자에 고유한 태그를 수득하고, 태그의 염기 서열을 망라하여 분석하는 수법이다. 유전자 태그란, 그 유전자의 명찰로서 이용할 수 있는 유전자의 단편을 말한다. 통상, 10~20 염기 정도가 연속되는 염기 서열이 다른 유전자 사이에서 완전히 일치할 가능성은 그다지 높지 않다. 예컨대 9 염기로 이루어지는 단편에, 이론적으로는 262,144 종류(49) 의 유전자의 식별이 가능하다. 따라서, 이 정도 길이의 단편은 유전자 태그로서 유용하다.
또한 인간 게놈 서열에 있어서, 18~21 염기로 이루어지는 태그 서열 출현 빈도와, 그 태그 서열이 유전자에 고유의 염기 서열일 가능성은 다음과 같이 계산된다.
18: 268,435,456 염기에 1회(89.43%),
19: 1,073,741,824 염기에 1회(97.24%),
20: 4,294,967,296 염기에 1회(99.3%), 및
21: 17,179,869,184 염기에 1회(99.83%).
즉, 이론적으로는, 18 염기의 태그 서열에서 약 90% 이상, 20 염기의 태그 서열로는 약 99% 이상의 확률로 유전자에 고유의 염기 서열이라고 생각할 수 있다. 어떤 유전자에 고유의 염기 서열은 유전자에 유니크한 염기 서열이라 불린다. 또한 게놈에 있어서, 그 출현 빈도가 1로 간주되는 염기 서열은 게놈에 있어서 유니크한 염기 서열이라 불린다.
SAGE에 있어서는, IIs형 제한 효소(Type IIs Endonuclease)의 작용을 이용하고, 유전자 태그가 생성된다. SAGE에 있어서 태그를 생성하는 IIs형 제한 효소는, 태깅 효소라 불린다. II형의 제한 효소가 DNA의 인식 서열 내를 절단하는 반면, IIs형 제한 효소는 인식 서열로부터 떨어진 위치를 절단한다. 인식 서열과 절단 위치 사이의 거리는, 효소에 의해 거의 일정하다. 예컨대, Bsm FI 혹은 FokI는 인식 서열로부터 9~10 염기의 위치에서 DNA를 절단하고, 점착 말단(sticky end)를 남긴 다. 기타 같은 작용을 갖는 IIs형의 제한 효소로서 다음과 같은 효소가 알려져 있다(Szybalski, Gene 40:169, 1985).
BbvI, BbvII, BinI, FokI, HgaI, HphI
MboII, MnlI, SfaNI, TaqII, TthlllII
또한, Mme I라 불리는 IIs형 제한 효소는, 인식 서열(5'-TCCRAC-3')로부터 20 염기 떨어진 위치를 절단한다(Tucholski et al, Gene Vol.157, pp.87-92, 1995). MmeI를 태깅 효소로서 이용하고, 20 염기 길이의 태그를 얻을 수 있는 발현 분석 방법도 공지되어 있다(US Patent 6498013). MmeI를 이용하는 SAGE는, 특히 long SAGE라고도 불린다. 이하에 일반적인 SAGE의 원리를 간단히 정리하였다.
우선, cDNA를 II형 제한 효소로 절단하고, 그 단편을 회수한다. II형 제한 효소의 인식 서열이 4 염기의 경우, 이론적으로는 256 염기(44)의 단편으로 절단된다. 예컨대 NlaIII의 인식 서열은 4 염기이다. cDNA의 5' 말단 혹은 3' 말단을 고상으로 포착해 두면, 절단된 cDNA의 5'측, 혹은 3'측의 단편을 각각 용이하게 회수할 수 있다. 회수된 cDNA는 2개의 반응계로 분할되고, 각 반응계에 대하여 각각 이하의 조작이 행해진다.
회수된 cDNA의 절단 부분에는, 어댑터가 라이게이션된다. 어댑터는, 말단에 PCR 증폭용 프라이머의 염기 서열, 중간에 앵커링 효소의 인식 서열, 그리고 cDNA에 라이게이션되는 말단에 IIs형의 제한 효소(태깅 효소)의 인식 서열이 배치되어 있다. 2개의 별도의 풀로 분할된 cDNA에는 각각 다른 염기 서열 프라이머의 염기 서열을 포함하는 어댑터가 라이게이션된다. 어댑터의 라이게이션 후에 IIs형의 제한 효소를 작용시키면, IIs형 제한 효소는 cDNA의 말단을 인식하고, 거기에서 떨어진 위치를 절단한다. 이렇게 하여, II형 제한 효소에 의해 절단된 부분에서, IIs형 제한 효소에 절단된 부분 까지의 단편으로 이루어지는 태그가 생성된다. 생성된 태그는, 라이게이션된 어댑터를 가지고 있다.
IIs형 제한 효소의 절단에 의해 형성된 태그의 점착 말단(sticky end)는, T4 DNA 폴리머라제에 의해 평활 말단이 된다. 그 후, 상기 2개로 분할된 반응계의 태그는, 각각 평활 말단에서 라이게이션된다. 그 결과, 다른 프라이머 서열을 말단에 배치하여 2개의 태그가 마주 보게 연결된다. 2개의 태그가 연결된 것을 다이 태그라 한다. 다이 태그는 PCR에 의해 증폭되고, 앵커링 효소로 절단된다. 그 결과, PCR의 증폭 산물로부터, 그 양단의 프라이머 서열이 제거된다. 또한 프라이머 서열을 제외한 다이 태그는 서로 연결되어 다이 태그의 콘카테머(concatemer)라 한다. 이렇게 하여 얻어진 콘카테머가 시퀀싱 벡터에 결합된다.
콘카테머의 염기 서열을 분석하면, 복수의 유전자에서 유래하는 유전자 태그의 염기 서열을 동시에 명백히 할 수 있다. 어느 cDNA 라이브러리에서 얻어진 콘카테머의 염기 서열 정보를 집적하면, 이론적으로는, 그 라이브러리를 구성하는 cDNA의 모든 유전자의 태그 정보를 얻을 수 있다. 이렇게 하여 얻어진 태그 정보를 세포 사이에서 비교하면, 용이하게 발현 분석을 할 수 있다.
DNA 어레이에 의한 발현 분석으로는, 염기 서열 정보의 축적이 불가결하다. 그 때문에, 현재 상업적으로 입수 가능한 DNA 어레이는, 인간, 마우스, 혹은 효모 등의 일부의 생물종에 한정되고 있다. 즉, 기타의 많은 생물종에 있어서, DNA 어레이를 사용한 유전자 발현 분석을 하기 위해서는, DNA 어레이를 새로이 작성하여야 한다. 또한 DNA 어레이는, 주지의 염기 서열 정보에 따라 합성된 프로브, 혹은 클로닝된 cDNA를 프로브로서 사용한다. 그 결과, 일반적으로 알려지지 않은 유전자를 찾아내는 것은 어렵다. 반면에 SAGE는, 유전자의 염기 서열 정보의 축적이 불충분한 것은 분석의 장해가 되지 않는다. 또한 프로브를 필요로 하지 않는 SAGE는, 알려지지 않은 유전자의 단리에 유용한 기술이라고 할 수 있다.
그러나 현재 실용화되어 있는 SAGE의 프로토콜에 있어서는, cDNA를 제한 효소로 절단하고, 얻어진 절단 부분에 IIs형 제한 효소의 인식 서열을 포함하는 링커를 연결하고 있다. 따라서, SAGE에 이용되는 제한 효소에는 인식 서열이 짧은 것이 요구된다. 인식 서열이 긴 제한 효소(rare cutter)에서는, 절단되지 않는 cDNA가 많아져 버린다. 이미 알려진 SAGE에 있어서는 제한 효소에서 절단할 수 없는 cDNA에 대해서는 태그가 생성되지 않는다.
예컨대, 4 염기를 인식하는 제한 효소인 NlaIII 등의 제한 효소는, SAGE에 바람직하다고 여겨지고 있다. 이론적으로는, cDNA가 44(=256) 이상의 길이를 가지고 있으면, NlaIII의 인식 서열을 적어도 하나 포함하고 있다고 할 수 있다. 분명히, 256 염기 이하의 전사 산물이 존재할 가능성은 낮을지도 모른다. 그러나 라이브러리를 구성하는 모든 cDNA가 항상 NlaIII의 인식 서열을 포함한다고는 할 수 없다. 즉, 256 염기 이상의 길이를 갖는 cDNA라도, 태그가 생성되지 않을 가능성은 있다. 실제로, 선충의 유전자를 모델로 한 SAGE의 평가에 있어서, NlaIII의 인식 서열을 갖지 않으므로, 태그가 생성되지 않는 유전자가 존재하는 것이 보고되어 있다(Genome Res.2003 Jun.13/6A:1203-15).
또한 이 공정을 거쳐 수득할 수 있는 태그는, cDNA를 구성하는 염기 서열 내의 제한 효소 인식 부위에 인접하는 염기 서열이다. 미지의 유전자에 있어서는, cDNA 중의 어느 곳에 제한 효소 인식 서열이 존재하는지를 미리 예측할 수 없다.즉, 주지의 SAGE에 의해 수득된 태그의 배열 정보는 cDNA의 어느 장소에서 유래하는 것인지를 예측할 수 없는 것이다.
미국 특허 제6498013호는, cDNA의 5'측, 혹은 3'측을 포착함으로써, 각각, 5'측 혹은 3'측의 태그가 얻어지는 것을 개시하고 있다. 그러나 이 공정에 의해 생성되는 태그는, cDNA의 5'측 혹은 3'측에 위치하는 제한 효소(NlaIII)에 인접하는 염기 서열로 이루어져 있다. 다시 말하면, 그것은, cDNA에 포함되는 어떠한 제한 효소 인식 사이트 중, 무엇보다도 5'측 혹은 3'측에 있는 제한 효소(NlaIII)에 인접하는 염기 서열이다. 즉, cDNA의 염기 서열 중 어느 곳을 차지하는 염기 서열인지는 분명하지 않다.
유전자 발현 분석에 있어서는, 태그를 구성하는 염기 서열이 cDNA 중 어디에서 유래하는 것인지는 큰 문제는 되지 않는다. 그러나, 만약 태그의 염기 서열이 cDNA 중 어느 부분을 구성하는 염기 서열인지를 분명히 할 수 있다면 태그의 유용성은 더욱 높아진다.
〔비특허 문헌 1〕 Nature Genetics volume 32 supplement pp 547-552, 2002
〔비특허 문헌 2〕 SCIENCE, Vol.270, 484-487, Oct.20, 1995
〔비특허 문헌 3〕 Szybalski, Gene 40:169, 1985
〔비특허 문헌 4〕 Tucholski et al, Gene Vol.157, pp.87-92, 1995
〔비특허 문헌 5〕 Genome Res.2003 Jun.13/6A:1203-15
〔특허 문헌 1〕 미국 특허 제6498013호
본 발명은, 신규한 원리에 따른 유전자 태그의 수득 방법, 및 유전자 태그의 분석 방법의 제공을 과제로 한다.
먼저 언급한 바와 같이, 현재 실용화되어 있는 SAGE에 있어서는, 제한 효소의 인식 서열에 인접한 염기 서열이 태그로서 생성된다. 이것이 태그의 염기 서열과, cDNA의 전장 배열과의 관계를 알 수 없게 하였다. 또한 제한 효소의 인식 서열을 포함하지 않는 cDNA에 대해서는 태그가 생성되지 않는다고 하는 과제를 남기고 있었다.
본 발명자는, 제한 효소의 인식 서열에 의존하지 않고 태그를 생성할 수 있다면, 이러한 과제를 해소할 수 있다고 생각하였다. 예컨대, mRNA의 5' 말단을 이용하여 태그를 생성한다면, 태그의 염기 서열은 복수의 유용성을 기대할 수 있을 것이다. 따라서, cDNA의 합성 방법으로서 이용되고 있던 CAP 구조에 착안하여 유전자 태그의 수득으로의 응용을 시험해 보았다. 그 결과, mRNA의 5' 말단의 염기 서열 정보를 태그로서 수득할 수 있는 것을 발견하여 본 발명을 완성하였다. 즉 본 발명은 이하의 태그의 수득 방법, 및 본 방법에 의해 수득된 태그의 용도에 관한 것이다.
〔1〕 다음의 공정을 포함하는 진핵 세포의 유전자 태그의 제조 방법:
(1) RNA의 CAP 부위에 IIs형 제한 효소의 인식 서열을 포함하는 RNA 링커를 연결하는 공정,
(2) (1)의 RNA를 주형으로 하여 cDNA를 합성하는 공정, 및
(3) (2)의 cDNA에 RNA 링커에 포함되는 인식 서열을 인식하는 IIs형 제한 효소를 작용시키고, 유전자 태그를 생성하는 공정.
〔2〕 다음의 공정에 의해 cDNA를 합성하는 [1〕에 기재된 방법:
i) RNA의 임의의 영역에 어닐링하는 프라이머에 의해 cDNA의 제1쇄를 합성하는 공정, 및
ii) 제1쇄의 RNA 링커를 주형으로 하여 합성된 영역에 어닐링하는 프라이머에 의해 cDNA의 제2쇄를 합성하여 2쇄 cDNA로 하는 공정.
〔3〕제1쇄의 RNA 링커를 주형으로 하여 합성된 영역에 어닐링하는 프라이머가, 고상에 결합할 수 있는 표지를 갖거나, 또는 고상으로 고정화되어 있고, 상기 고상의 회수에 의해 2쇄 cDNA를 회수하는 공정을 포함하는 〔2〕에 기재된 방법.
〔4〕 IIs형 제한 효소를 작용시키기 전 또는 후에 고상을 회수하는 〔3〕에 기재된 방법.
〔5〕RNA 링커가 II형 제한 효소의 인식 서열을 포함하는 〔1〕에 기재된 방법.
〔6〕유전자 태그의 IIs형 제한 효소의 절단 부위를, 다른 유전자 태그의 IIs형 제한 효소의 절단 부위와 연결시키고, 다이 태그를 생성하는 공정을 포함하는 〔1〕에 기재된 방법.
〔7〕RNA 링커에 어닐링하는 프라이머에 의해 다이 태그를 증폭하는 공정을 포함하는 [6〕에 기재된 방법.
〔8〕유전자 태그의 IIs형 제한 효소의 절단 부위에 임의의 염기 서열을 갖는 어댑터를 연결하고, RNA 링커와, 상기 어댑터에 어닐링하는 프라이머에 의해 유전자 태그를 증폭하는 공정을 포함하는 [1〕에 기재된 방법.
〔9〕〔1〕에 기재된 방법에 의해 생성된 유전자 태그를 복수개 연결하는 공정을 포함하는 유전자 태그의 콘카테머의 제조 방법.
〔10〕〔6〕에 기재된 방법에 의해 생성된 다이 태그를 복수개 연결하는 공정을 포함하는 유전자 태그의 콘카테머의 제조 방법.
〔11〕〔9〕 또는 〔10〕에 기재된 콘카테머의 염기 서열을 결정하는 공정을 포함하는 유전자 태그의 염기 서열 결정 방법.
〔12〕 다음의 요소를 포함하는 유전자 태그의 제조용 시약 키트:
(a) IIs형 제한 효소의 인식 서열을 포함하는 올리고뉴클레오티드로 이루어지는 RNA 링커;
(b) RNA 링커를 RNA의 CAP 부위에 연결하기 위한 시약;
(c) RNA 링커를 주형으로 하여 합성된 cDNA에 어닐링하는 올리고뉴클레오티드로 이루어지는 cDNA 제2쇄 합성용의 프라이머; 및
(d) cDNA 제1쇄 합성용 프라이머.
〔13〕cDNA 제1쇄 합성용 프라이머가, 이하의 i)-iii)로 이루어지는 군에서 선택되는 어느 하나의 프라이머인 〔12〕에 기재된 키트:
I) 랜덤 프라이머,
ii) 올리고 dT 프라이머, 및
iii) 특정의 mRNA에 상보적인 염기 서열을 포함하는 프라이머.
〔14〕 다음의 공정을 포함하는 진핵 세포에서의 유전자의 발현 프로필의 수득 방법:
(1)〔1〕에 기재된 방법에 의해 유전자 태그를 제조하는 공정,
(2) (1)의 유전자 태그의 염기 서열을 결정하는 공정, 및
(3) 결정된 염기 서열과 그 출현 빈도를 대응시킴으로써 발현 프로필을 얻는 공정.
〔15〕〔14〕에 기재된 방법에 의해 수득된 유전자 발현 프로필 정보를 축적한 유전자 발현 프로필의 데이터베이스.
〔16〕〔14〕에 기재된 방법에 의해 다른 종류의 세포의 유전자 발현 프로필을 수득하고, 유전자 발현 프로필을 비교하여 세포간에 발현 빈도가 다른 유전자 태그를 선택하는 공정을 포함하는 유전자 발현 프로필의 분석 방법.
〔17〕 다음의 공정을 포함하는 유전자의 전사 개시점의 결정 방법:
(1)〔1〕에 기재된 방법에 의해 유전자 태그를 제조하는 공정,
(2) (1)의 유전자 태그의 염기 서열을 결정하는 공정, 및
(3) 결정된 염기 서열을 게놈의 염기 서열상에 맵핑하고, 염기 서열이 일치하는 영역을 해당 유전자의 전사 개시점으로 하여 동정하는 공정.
〔18〕cDNA의 제1쇄의 합성을 위한 프라이머가 특정 유전자의 염기 서열로부터 선택된 염기 서열로 이루어지고, 해당 유전자의 전사 개시점을 결정하는 것을 특징으로 하는 〔17〕에 기재된 방법.
〔19〕 다음의 공정에 의해 결정된 염기 서열 또는 그 상보 서열을 포함하는 cDNA를 합성하기 위한 5'측의 프라이머와, cDNA의 임의의 부위에 어닐링하는 3'측의 프라이머를 포함하는 cDNA 합성용 프라이머 세트:
(1)〔1〕에 기재된 방법에 의해 유전자 태그를 제조하는 공정, 및
(2) (1)의 유전자 태그의 염기 서열을 결정하는 공정.
〔20〕3'측 프라이머가 하기의 군에서 선택된 어느 하나의 프라이머인 〔19〕에 기재된 프라이머 세트:
i) 올리고 dT 프라이머,
ii) cDNA의 단편 배열 정보, 및
iii) cDNA의 II형 제한 효소 인식에 인접하는 유전자 태그의 염기 서열 또는 그 상보 서열로 이루어지는 프라이머.
〔21〕 다음의 공정을 포함하는 전장 cDNA의 합성 방법:
a) 다음의 공정에 의해 결정된 염기 서열 또는 그 상보 서열을 포함하는 cDNA를 합성하기 위한 5'측의 프라이머와, 올리고 dT 프라이머로 이루어지는 3'측의 프라이머를 이용하고, RNA 또는 cDNA를 주형으로 하여 상보쇄합성 반응을 하는 공정, 및
(1)〔1〕에 기재된 방법에 의해 유전자 태그를 제조하는 공정, 및
(2) (1)의 유전자 태그의 염기 서열을 결정하는 공정
b) 합성된 DNA를 전장 cDNA로서 회수하는 공정.
〔22〕〔21〕에 기재된 방법에 의해 얻을 수 있는 전장 cDNA.
〔23〕〔22〕에 기재된 전장 cDNA에 의해 코드되는 아미노산 서열을 포함하는 폴리펩티드.
〔24〕〔23〕에 기재된 폴리펩티드를 인식하는 항체.
〔25〕〔22〕에 기재된 전장 cDNA의 코드 영역을 발현 가능하게 유지하는 벡터.
〔26〕〔25〕에 기재된 벡터를 발현 가능하게 유지하는 형질 전환체.
〔27〕〔26〕에 기재된 형질 전환체를 배양하고, 발현 산물을 회수하는 공정을 포함하는 〔23〕에 기재된 폴리펩티드의 제조 방법.
〔28〕이하의 공정을 포함하는 〔23〕에 기재된 폴리펩티드의 제조 방법:
i) 프로모터에 기능적으로 연결된 〔22〕에 기재된 전장 cDNA의 코드 영역을 포함하는 DNA 구축물을 시험관 내 번역을 지지하는 요소와 접촉시키는 공정, 및
ii) 발현 산물을 회수하는 공정.
〔29〕 다음의 공정을 포함하는 mRNA의 5' 말단의 염기 서열을 포함하는 cDNA의 합성 방법:
a) 다음의 공정 (1)-(2)에 의해 결정된 염기 서열 또는 그 상보 서열을 포함하는 cDNA를 합성하기 위한 5'측의 프라이머와, 목적으로 하는 mRNA의 임의의 영역에 대하여 상보적인 염기 서열로 이루어지는 3'측의 프라이머를 사용하고, RNA 또는 cDNA를 주형으로 하여 상보쇄합성 반응을 하는 공정, 및
(1)〔1〕에 기재된 방법에 의해 유전자 태그를 제조하는 공정, 및
(2) (1)의 유전자 태그의 염기 서열을 결정하는 공정
b) 합성된 DNA를 mRNA의 5' 말단의 염기 서열을 포함하는 cDNA로서 회수하는 공정.
〔30〕〔29〕에 기재된 방법에 의해 회수된 cDNA의 염기 서열을 결정하는 공정을 포함하는 mRNA의 5'측의 염기 서열을 결정하는 방법.
본 발명은, mRNA의 5' 말단의 염기 서열을 유전자 태그로서 수득하는 방법을 제공하였다. mRNA의 5' 말단은, 진핵 세포의 mRNA가 모두 갖는 구조이다. 따라서, mRNA의 염기 서열과 상관없이, 원리적으로 모든 유전자로부터 태그를 수득할 수 있다. 한편, 주지의 원리에 따른 SAGE는, 제한 효소 인식 사이트에 인접하는 영역을 태그로서 생성한다. 그 결과, 만약 mRNA를 구성하는 염기 서열에 제한 효소 인식 사이트가 포함되지 않으면, 그 유전자의 태그를 수득할 수 없다. 따라서, 모든 유전자의 태그를 수득할 수 있는 원리를 제공한 점에 있어서, 본 발명의 의의는 크다.
또한 본 발명의 태그의 방법에 의하면, mRNA의 단편으로부터도 유전자의 태그를 수득할 수 있다. 생체 시료에 포함되는 RNA는 복수의 원인에 의해 항상 분해의 위험에 노출되어 있다. 따라서, cDNA의 수득, 혹은 얻어진 cDNA에 따른 복수의의 분석의 결과는, mRNA의 보존 조건에 크게 좌우된다. SAGE법도, mRNA의 구조가 완전히 유지되어 있지 않은 경우에는, 유전자 태그를 수득할 수 없거나, 혹은 태그의 재현성을 잃게 될 가능성이 있다.
그러나 본 발명의 방법에 의하면, mRNA의 5' 말단을 태그로서 수득함으로써 비록 mRNA가 단편화되어 있더라도 5' 말단의 구조만 유지되어 있다면, 바르게 태그를 수득할 수 있다. 따라서, mRNA의 보존 상태의 영향을 잘 받지 않는다. 이 특징은, 유전자의 발현 분석의 신뢰성을 높인다.
또한, 본 발명에 의해 얻을 수 있는 태그의 염기 서열은, mRNA의 5' 말단의 염기 서열로 이루어져 있다. 그 결과, 본 발명에 의해 얻어지는 태그의 염기 서열 정보는 복수의 분야에 응용할 수 있다. 예컨대 이하와 같은 용도는, 본 발명의 태그에 의해 비로소 실현된 용도이다.
- 게놈에 있어서의 전사 개시점의 동정,
- 전장 cDNA의 합성용 프라이머의 제공, 및
- cDNA 라이브러리의 전장율의 평가.
주지의 원리에 따른 SAGE에 의해 얻어진 태그는, mRNA의 어느 영역의 염기 서열인지가 명백하지 않다. 따라서, 이러한 용도로 사용할 수 없다.
본 발명은, 다음의 공정을 포함하는 진핵 세포의 유전자 태그의 제조 방법에 관한 것이다:
(1) RNA의 CAP 부위에 IIs형 제한 효소의 인식 서열을 포함하는 RNA 링커를 연결하는 공정,
(2) (1)의 RNA를 주형으로 하여 cDNA를 합성하는 공정, 및
(3) (2)의 cDNA에 RNA 링커에 포함되는 인식 서열을 인식하는 IIs형 제한 효소를 작용시키고, RNA의 5' 말단 배열로 이루어지는 유전자 태그를 생성하는 공정.
CAP 구조는, 진핵 세포 혹은 진핵 세포에 감염되는 바이러스의 mRNA의 5' 말단에 존재하는 구조이다. 구체적으로는, 7-메틸구아노신이 5'-5'-3 인산 가교를 통하여 mRNA의 5' 말단의 뉴클레오티드에 결합하여 CAP 구조를 구성하고 있다. mRNA는 CAP 구조에 의해 5'-3' 엑소뉴클레아제 활성에 의한 분해로부터 보호되고 있다. 세포 내에서는 역할을 마친 mRNA의 CAP 구조는 디캡핑 효소(decapping enzyme)에 의해 제거된다. 그 결과, CAP 구조를 잃은 mRNA는 5'-3' 엑소뉴클레아제에 의해 분해된다(LaGradeur et al., EMBOJ, 17:1487-1496, 1998). CAP 구조는 RNA 폴리머라제II에 의한 전사 반응 초기의 단계에서 RNA의 5' 말단에 부가되어 있는 것으로 생각되고 있다.
본 발명의 방법은, 이 RNA의 CAP 구조로 RNA 링커를 연결하는 공정을 포함한다. 본 발명에 있어서, RNA는, 진핵 세포에서 유래하는 온갖 RNA를 사용할 수 있다. 보다 구체적으로는, polyA(+) RNA나 총 RNA를 이용할 수 있다. 구체적으로는, 동물, 식물, 효모, 혹은 점균 등의, mRNA에 CAP 구조를 갖는 온갖 생물종에서 유래하는 세포를 이용할 수 있다.
또한, 이러한 진핵 세포에 감염되는 바이러스 유래 RNA도 CAP 구조를 가지고 있다. 따라서 본 발명에 있어서는, 진핵 세포에서 유래한 진핵 세포에 감염, 혹은 도입된 유전자 정보를 전사한 RNA도, 진핵 세포에서 유래하는 RNA에 포함된다. 진핵 세포에 감염된 유전자의 정보란, 예컨대, 바이러스, 비로이드, 혹은 마이코플라즈마와 같은 세포 내 기생체의 유전자 정보가 포함된다. 이러한 유전자 정보는 천연의 것이어도 되고, 인위적으로 구성된 것이어도 된다. 한편, 진핵 세포에 도입된 유전자의 정보란, 벡터 등에 의해 인위적으로 도입된 유전자 정보를 말한다. 예컨대, 본래 CAP 구조를 가지지 않는 것으로 되어 있는 원핵 세포의 유전자라도, 전사 가능한 형태로 진핵 세포에 도입함으로써, CAP 구조를 부여할 수 있다. 이렇게 하여 전사된 RNA도 본 발명에서의 진핵 세포에서 유래하는 RNA에 포함된다.
이러한 세포로부터 RNA를 추출하여 본 발명의 방법으로 이용한다. RNA의 추출 방법은 주지되어 있다. 시판중인 RNA 추출용의 키트를 이용하면 편리하다. 예컨대 RNAeasy(QIAGEN) 등의 시판 키트를 이용하여 고순도의 RNA를 용이하게 얻을 수 있다. RNA의 추출에 대하여 세포의 파괴가 필요한 경우에는, 주지의 방법에 의해 파괴할 수 있다.
본 발명에 있어서, CAP 구조로 연결하는 RNA 링커는, 적어도 IIs형 제한 효소의 인식 서열을 포함하는 올리고뉴클레오티드로 이루어진다. RNA 링커로서 사용하는 올리고뉴클레오티드는 DNA여도 되고 RNA여도 된다. 바람직하게는 RNA 링커는 RNA이다. RNA 링커를 구성하는 염기 서열은, IIs형 제한 효소의 인식 서열을 포함하는 임의의 염기 서열이어도 무방하다. 단, IIs형 제한 효소의 인식 서열은, RNA 링커의 3'말단에 배치하는 것이 바람직하다.
IIs형 제한 효소는, 그 인식 서열을 기준으로 하여 일정 염기수만큼 떨어진 위치를 절단한다. 본 발명은, mRNA의 5' 말단을 태그로서 수득하는 것을 목적으로 하고 있다. 따라서, mRNA의 5' 말단에 되도록 가깝게 인식 서열을 배치하는 것이 바람직하다. RNA 링커를 구성하는 IIs형 제한 효소의 인식 서열은, 분석에 이용하는 IIs형 제한 효소에 맞추어 디자인할 수 있다. 예컨대 MmeI의 인식 서열이 5'-TCCRAC-3'(R = G 또는 A)인 것은 상술한 바 있다. 따라서 RNA 링커는, 3'말단에, 이 염기 서열을 배치하는 것이 바람직하다. 또한 IIs형 제한 효소의 인식 서열은, IIs형 제한 효소가 3'측을 절단하도록 배치한다.
본 발명의 RNA 링커로서 유용한 염기 서열을 이하에 나타낸다. 이 염기 서열은, 3'말단에 배치된 IIs형 제한 효소(MmeI)의 인식 서열(TCCRAC;대문자)에 더하여, II형 제한 효소인 XhoI의 인식 서열(cucgag;밑줄)도 포함하고 있다.
5'-oligo 1(서열 번호:1):
5'-uuuggauuugcuggugcaguacaacuaggcuuaauacucgagUCCGAC-3'
5'-oligo 2(서열 번호:2):
5'-uuucugcucgaauucaagcuucuaacgauguacgcucgagUCCGAC-3'
부가된 XhoI 사이트는, 태그의 연결, 그리고 벡터로의 결합에 이용할 수 있다. 또한, RNA 링커를 구성하는 염기 서열은 태그의 증폭을 위한 프라이머가 어닐하기 위한 영역으로 이용할 수도 있다. 프라이머가 어닐하기 위해서는, 어닐링을 위한 영역이, 적어도 15 염기, 통상 20-50 염기, 예컨대 20-30 염기로 구성되는 것이 바람직하다. 또한 그 구성의 염기는, 프라이머의 융해 온도(Tm)가 통상 60-80℃, 예컨대 65-75℃ 정도를 갖도록 디자인할 수 있다. 프라이머가 어닐하기 위한 염기 서열은 임의이다. 따라서, 예컨대, 상기 Tm을 부여할 수 있는 임의의 염기 서열을 이용할 수 있다.
프라이머가 어닐하기 위한 염기 서열은 임의이다. 또한, 각종의 제한 효소의 인식 서열을 구성하는 영역과, 프라이머를 어닐링하기 위한 영역은, RNA 링커 내에서 중복시킬 수도 있다. 단, 2 종류의 RNA 링커에 대하여 다른 프라이머를 어닐링하는 경우에는 중복되지 않도록 디자인함으로써, 어닐링의 특이성의 향상을 기대할 수 있다.
본 발명에 있어서, RNA 링커는, RNA의 CAP 구조에 연결된다. CAP 구조에 올리고뉴클레오티드를 연결하기 위한 방법은 임의이다. 예컨대 올리고캡핑법은, 본 발명에서의 RNA 링커의 결합을 위한 바람직한 방법이다. 올리고캡핑법은, mRNA의 5'측의 염기 서열을 유지한 cDNA를 합성하기 위해 개발된 방법이었다(Maruyama, K and Sugano, S.:Gene 138:171-174, 1994). 올리고캡핑법에 있어서는, mRNA의 3'말단 poly(A) 서열과, 5' 말단의 CAP 구조에 연결된 RNA 링커의 염기 서열을 이용하여 전장 cDNA의 수득이 실현되고 있다. 5'측의 염기 서열이 불완전한 mRNA는 CAP 구조를 유지하고 있지 않으므로, RNA 링커가 연결되지 않는다. 그 때문에, 올리고캡핑법에 있어서는 전장 cDNA를 특이적으로 수득할 수 있었다.
이하에 올리고캡핑법의 반응 원리를 간단히 설명한다. 우선 mRNA를 박테리아 알카리성 포스파타제(BAP)로 처리하여 CAP 구조를 가지지 않는 RNA의 5' 말단의 인산기를 가수 분해한다. 이 과정에서 CAP 구조를 구비하고 있지 않는 RNA는 5' 말단의 인산기를 잃는다. 즉, 단편화한 RNA 혹은 미토콘드리아 유래의 RNA 등의 5' 말단에 돌출되어 있는 인산기가 제거된다. 이어서 타바코 산성피로포스파타제(TAP)를 작용시킨다. TAP는 CAP 구조의 트리인산 결합을 가수분해한다. 그 결과, CAP 구조를 갖는 RNA에 특이적으로 5' 말단의 인산기를 부여할 수 있다.
BAP 및 TAP 처리한 RNA에는, RNA 링커가 연결된다. RNA 링커의 결합은, 예컨대 T4 RNA 리가제를 이용할 수 있다. T4 RNA 리가제에 의한 라이게이션은 5' 말단의 인산기를 요구한다. 따라서, TAP에 의해 5' 말단 인산기를 얻은 RNA에 대하여 특이적으로 RNA 링커가 연결된다. 이렇게 하여, CAP 구조 특이적으로 RNA 링커를 결합할 수 있다. 또한 RNA를 다루는 반응에 있어서는, 모든 공정을 RNase가 배제된 환경에서 행하는 것이 바람직하다.
올리고 캡핑법에는, 몇몇 변이가 보고되고 있다. 예컨대 CAP 결합 단백질 칼럼을 이용하여 CAP 구조를 갖는 RNA를 정제하는 방법이 알려져 있었다(Edery, L. et al., Mol.Cell Biol.15:3363-3371, 1995). 이 방법을 이용하면, CAP 구조를 갖는 RNA를 고상 위에 포착할 수 있다. 고상을 세정하여 CAP 구조를 갖지 않는 RNA를 제거한 후에 TAP로 처리하면, CAP 구조를 가지고 있는 RNA를 회수할 수 있다. 이렇게 하여 회수된 RNA는 5' 말단에 인산기를 가지므로, 그대로 RNA 링커를 연결할 수 있다. 즉 CAP 결합 단백질을 이용하는 방법은 BAP 처리를 필요로 하지 않는다.
이어서, RNA 링커를 연결한 RNA를 주형으로 하여 cDNA가 합성된다. cDNA를 합성하기 위한 방법은 임의이다. 이하에, cDNA를 합성하기 위한 방법에 대하여 대표적인 방법을 기재한다.
일반적으로 cDNA의 합성은, 제1쇄의 합성과, 제2쇄의 합성 2개의 스텝으로 구성된다. 제1쇄의 합성은 RNA를 주형으로 하여 이용하는 역전사 반응이다. 이에 대하여 제2쇄는, 먼저 합성된 제1쇄 DNA를 주형으로 하는 상보쇄합성 반응에 의해 합성된다. 각각, 반응을 개시하는 프라이머에 의해 특징지어지는 몇몇 반응이 알려져 있다.
본 발명에 있어서, cDNA의 제1쇄는, RNA의 임의의 영역에 어닐링하는 프라이머에 의해 합성할 수 있다. RNA를 주형으로서 역전사 효소 활성을 이용하여 DNA를 합성하는 방법은 주지되어 있다. 구체적으로는 MMLV 유래의 역전사 효소(Reverse transcriptase;RT)나 그 변이체 등을 이용하여 프라이머의 신장 반응에 의해 제1쇄를 합성하는 방법이 주지되어 있다. 역전사 효소의 변이체로는, 역전사 효소가 갖는 RNaseH 활성을 잃게 한 변이체(Superscript II, Gibco BRL)이 시판되어 있다. 또한 TthDNA 폴리머라제와 같이, DNA 합성 효소이면서 RNA를 주형으로 하는 상보쇄합성 반응을 촉매하는 효소도 알려져 있다. 이러한 효소를 이용하면, 제1쇄(RNA template)의 제2쇄(DNA template)를 단일의 효소로 합성할 수도 있다. 이어서 cDNA의 합성을 위한 프라이머에 대하여 기재한다.
먼저 설명한 올리고 캡핑법에 있어서는, 통상, 제1쇄의 합성에는 올리고 dT 프라이머가 이용된다. cDNA의 전장을 합성하기 위해서는, 제1쇄의 3'말단으로부터 합성하여야 하기 때문에, mRNA의 3'말단을 차지하는 poly(A)에 상보적인 염기 서열을 갖는 올리고 dT 프라이머가 이용된다. 본 발명에 있어서도 마찬가지로, 올리고 dT 프라이머를 이용함으로써, 전장 cDNA의 5' 말단을 태그 서열로서 수득할 수 있다.
이에 대하여 본 발명에 있어서는, RNA의 전장이 반드시 필요한 것은 아니다. 본 발명에 있어서는, 태그는 RNA의 5' 말단을 포함하는 약간의 영역에서 수득된다. 따라서 RNA의 5' 말단을 포함하는 영역이 cDNA로서 합성가능하다면, 본 발명에 필요한 cDNA를 얻을 수 있다. 따라서, 예컨대 RNA의 임의의 부분에서 상보쇄를 개시할 수 있는 랜덤 프라이머를 이용하여 제1쇄를 합성할 수 있다. 랜덤 프라이머의 이용에 의해 3'측의 염기 서열이 불완전한 단편이라도, CAP 구조를 갖는 RNA라면 태그를 수득할 수 있다. 랜덤 프라이머는, 보다 폭넓은 RNA로부터 태그를 수득할 수 있다는 점에서, 특히 유전자 발현 분석에 있어서는 유용한 프라이머다.
또한, 제1쇄의 합성에 있어서, 특정 유전자의 염기 서열에 상보적인 염기 서열을 갖는 프라이머를 이용함으로써, 특정 유전자의 태그를 선택적으로 수득할 수도 있다. 예컨대, 부분적인 염기 서열만이 명확하고, 5'측의 염기 서열이 불명확한 유전자에 대하여 본 발명을 이용하여 5' 말단의 태그 서열을 수득할 수 있다. 이를 위해, 제1쇄의 합성시에 명백한 염기 서열로부터 프라이머라고 하는 염기 서열을 선택한다. 이 프라이머는, mRNA의 명백한 영역으로부터 5' 말단에 걸친 영역을 cDNA의 제1쇄로서 생성한다. 프라이머는 특정 유전자의 염기 서열로부터 선택된 것으로 목적하는 유전자 이외의 RNA로부터는 제1쇄가 생성되지 않는다. 그 결과, 태그도 생성되지 않는다.
특정 유전자를 대상으로 하여, 본 발명의 방법에 의해 수득된 유전자 태그에는, 예컨대 다음과 같은 유용성을 기대할 수 있다. 우선 얻어진 유전자 태그의 염기 서열 정보에 따라 그 유전자의 전사 개시점을 명백히 할 수 있다. 전사 개시점은, 전장 cDNA의 수득, 혹은 프로모터의 탐색에 있어서 중요한 정보이다. 예컨대 5'측의 염기 서열이 명백하지 않은 cDNA에 대하여 본 발명의 방법을 이용하여 5'측의 cDNA를 수득할 수 있다. 또는 이미 번역 개시점이 동정되어 있는 유전자라도, 5'측의 비번역 영역(5'UTR)이 완전한 것인지의 여부를, 유전자 태그의 정보에 의해 평가할 수 있다.
또한, 동일한 아미노산 서열을 코드하면서 전사 개시점이 다른 복수의 전사 산물을 부여하는 유전자가 명백히 되어 있다. 어느 유전자를 대상으로 복수의 mRNA 소스에 대하여 본 발명의 유전자 태그를 수득하면, 해당 유전자의 모든 전사 산물의 전사 개시점의 정보를 용이하게 모을 수 있다. 만약 복수종의 유전자 태그가 얻어지면, 해당 유전자에는 전사 개시점의 다른 복수의 전사 산물이 존재할 가능성이 있다. 즉 본 발명은 다음의 공정을 포함하는 전사 개시점이 다른 복수의 전사 산물의 검출 방법을 제공한다:
(1) 본 발명에 따라 유전자 태그를 수득하는 공정으로서, cDNA의 제1쇄의 합성용의 프라이머로 분석해야 하는 유전자에 특이적인 프라이머를 사용하는 공정,
(2) (1)에서 얻어진 유전자 태그의 염기 서열을 비교하는 공정, 및
(3) 복수종의 유전자 태그가 검출되었을 때 전사 개시점이 다른 복수의 전사 산물이 검출되는 공정.
본 발명에 있어서 검출된 복수종의 유전자 태그와, 상기 유전자 특이적 프라이머의 정보를 이용하여 각 전사 산물의 전사 개시점의 염기 서열을 결정할 수 있다. 또한, 본 발명에 따라 각 전사 산물의 발현 수준을 비교할 수도 있다. 즉 본 발명은 다음의 공정을 포함하는 전사 개시점이 다른 복수의 전사 산물의 발현 수준을 비교하는 방법을 제공한다:
(1) 본 발명에 따라 유전자 태그를 수득하는 공정으로서, cDNA의 제1쇄의 합성용 프라이머로 분석해야 하는 유전자에 특이적인 프라이머를 사용하는 공정,
(2) (1)에서 얻어진 유전자 태그의 염기 서열을 비교하는 공정, 및
(3) 각 유전자 태그의 출현 빈도에 따라 전사 개시점이 다른 복수의 전사 산물의 발현 수준으로서 수득하는 공정.
그 밖에, 공통의 염기 서열을 갖는 RNA를 의도적으로 cDNA로서 합성할 수도 있다. 예컨대, 보존성이 높은 단백질의 기능 도메인을 구성하는 아미노산 서열에 대하여, 그것을 코드하면 예측되는 염기 서열을 토대로 제1쇄 합성용의 프라이머를 디자인할 수 있다. 이 프라이머를 사용하여 합성되는 cDNA는 특정 기능의 도메인을 코드하는 유전자의 cDNA일 가능성이 높다. 그 결과, 특정 기능의 도메인을 포함하는 유전자의 태그를 의도적으로 모을 수 있다. 이렇게 하여 수득된 유전자 태그의 발현 수준을 비교함으로써, 특정 기능을 갖는 유전자군의 발현 수준을 비교할 수 있다.
어떻든 본 발명에서 합성되는 cDNA의 제1쇄는 3'말단에 RNA 링커에 상보적인 염기 서열을 가지고 있다. 따라서, 이 영역에 어닐할 수 있는 올리고뉴클레오티드를 이용하면, 용이하게 cDNA의 제2쇄를 합성할 수 있다. 제2쇄의 합성에 앞서 제1쇄의 주형으로서 RNA는 알카리 가수 분해에 의해 제거할 수 있다. 본 발명에 있어서 제2쇄는 적어도 RNA 링커에 포함되는 IIs형의 제한 효소의 인식 서열을 포함하도록 합성되어야 한다. 그러기 위해서는, 예컨대, RNA 링커의 3'말단에 배치된 IIs형 제한 효소의 인식 서열에 해당하는 영역보다 3'측에 있어서 상보쇄합성을 개시할 수 있는 프라이머를 이용할 수 있다. 혹은, IIs형 제한 효소의 인식 서열을 포함하는 프라이머를 이용할 수도 있다.
DNA를 주형으로 하여 프라이머 신장 반응에 따라 상보쇄를 합성하는 방법은 주지이다. 즉, 주형 의존성의 DNA 폴리머라제를 이용하여 상보쇄를 합성하는 방법이 알려져 있다. DNA 폴리머라제로는, T4 DNA 폴리머라제, 혹은 Taq 폴리머라제 등을 사용할 수 있다.
cDNA의 합성으로 사용하는 프라이머는 임의의 염기 서열을 포함할 수 있다. 예컨대 5' 말단측에 제한 효소의 인식 서열을 부가한 프라이머를 이용할 수 있다. 프라이머의 5' 말단에 클로닝사이트를 부여하기 위해 염기 서열을 부가하는 것은 널리 행해지고 있다.
본 발명에 있어서, cDNA의 제2쇄는 고상으로 결합할 수 있는 표지를 갖거나, 또는 고상으로 고정화된 프라이머에 의해 합성할 수 있다. 프라이머를 고상으로 결합함으로써, cDNA의 제2쇄를 고상으로 포착할 수 있다. 고상으로 포착된 cDNA는 용이하게 회수할 수 있다.
프라이머로서 사용하는 올리고뉴클레오티드를 고상으로 결합하기 위한 방법은 임의이다. 예컨대, 크로스 링커를 사용하여 올리고뉴클레오티드의 5' 말단을 플레이트에 공유 결합시키는 방법 등이 주지되었다(미국 특허 5656462). 혹은, 올리고뉴클레오티드를 구성하는 염기에 비오틴과 같은 결합 친화성을 갖는 분자를 도입할 수 있다. 비오틴을 고상화한 아비딘에 결합시킴으로써 올리고뉴클레오티드가 간접적으로 고상으로 포착된다. 올리고뉴클레오티드에서의 결합 친화성 분자의 도입 위치는 제한되지 않는다.
제2쇄의 합성에 의해 2쇄가 된 cDNA는 IIs형 제한 효소로 처리되고, 본 발명에서의 유전자 태그가 생성된다. 이 단계에서 유전자 태그는 RNA 링커로서 부가한 염기 서열에 연결된 상태로 회수할 수 있다. 유전자 태그의 회수를 위해 제2쇄 합성용의 프라이머가 결합되는고상이 이용된다. 즉, 유전자 태그를 결합된 고상으로서 회수된다. 고상은, IIs형 제한 효소를 작용시킨 후, 혹은 전에 회수할 수 있다.
그런데, 본 발명에서의 유전자 태그의 염기 서열을 결정함으로써, RNA의 5' 말단의 염기 서열 정보를 얻을 수 있다. 유전자 태그의 염기 서열을 결정하는 방법은 임의이다. 그러나 대량의 유전자 태그의 염기 서열을 효율적으로 결정하기 위해서는, SAGE의 원리가 유용하다. 즉, 복수의 유전자 태그를 연결시켜 콘카테머로서 콘카테머를 클로닝하고, 복수 태그의 염기 서열을 한번에 결정할 수 있다.
각 유전자 태그의 길이는, 태그의 생성에 사용한 IIs형 제한 효소의 작용에 의해 일정한 것으로 간주된다. 따라서, 콘카테머는, 일정 길이의 유전자 태그의 염기 서열 반복으로 구성되어 있는 것으로 생각된다. 그 때문에, 콘카테머의 염기 서열로부터, 각 태그의 염기 서열 정보를 얻을 수 있다.
태그를 연결하여 콘카테머를 얻기 위한 방법으로서, 몇몇 변이를 나타낼 수 있다. 이하에 그 예를 설명한다. 우선 널리 알려져 있는 SAGE의 원리를 응용한 방법에 대하여 설명하기로 한다. 이 방법에 있어서는, 우선 2개의 유전자 태그를 마주보게 연결시켜 다이 태그(di-tag)를 얻는다. 이 때, 만약 IIs형 제한 효소에 의한 절단 부분이 점착 말단(sticky end)일 때는, 사전에 평활화해 둔다. 평활 말단을 형성하기 위해서는 T4 DNA 폴리머라제를 작용시키면 된다.
이어서, 복수의 다이 태그를 연결하여 콘카테머를 생성한다. 다이 태그를 얻기 위해서는, 같은 cDNA 라이브러리를 2개의 풀로 나누고, 각각의 풀에 대하여 같은 조작으로 유전자 태그를 생성한다. 이어서, 2개의 풀에 유래된 유전자 태그를 서로 연결하여 다이 태그라 한다. 이 때, 유전자 태그는 IIs형 제한 효소에서 절단된 절단 부분에 연결된다. 유전자 태그는 T4 DNA 라이가제 등에 의해 효소적으로 연결할 수 있다.
여기서 얻어지는 다이 태그는 이하의 구조를 가진다.
PCR→
(고상)-[RNA 링커]-[Tag]-[Tag]-[RNA 링커]-(고상)
←PCR
이 단계에서, 다이 태그는 PCR 등의 증폭 방법에 의해 증폭할 수 있다. 2개의 풀 사이에서 RNA 링커의 염기 서열이 상이하도록 해 놓으면, 풀의 다른 태그간에 연결된 다이 태그가 특이적으로 증폭되므로 태그간의 수적인 밸런스의 붕괴를 막을 수 있다. 본 발명에 있어서, 다이 태그의 증폭은 임의이다.
이어서 복수의 다이 태그를 연결하여 콘카테머를 얻는다. 그러기 위해서는, 예컨대 사전에 RNA 링커 내에 제한 효소의 인식 서열을 배치해 놓을 수 있다. 다이 태그를 제한 효소로 소화한 후에 제한 효소의 절단 부위를 라이게이션하면 복수의 다이 태그를 연결할 수 있다. 이렇게 하여 얻어지는 콘카테머의 구조는 다음과 같이 나타낼 수 있다.
..../[Tag][Tag]/[Tag][Tag]/[Tag][Tag]/[Tag][Tag]/....
즉, 2개의 태그를 연결한 다이 태그 "[Tag][Tag]"를 1단위로서, 제한 효소(앵커링 효소)에 의한 절단 부위"/"을 사이에 두고 다이 태그가 연속된 구조이다.
또한, 클로닝용 벡터의 같은 제한 효소 사이트에 콘카테머를 인서트할 수 있다. 이렇게 하여 콘카테머를 인서트로서 가지는 클로닝 벡터를 얻을 수 있다. 클로닝 벡터의 인서트의 염기 서열을 결정함으로써, 그 중에 포함되는 태그의 염기 서열이 명백해진다. 또한 콘카테머의 길이는, 한 번의 시퀀스 반응에서 염기 서열을 결정할 수 있는 정도의 길이인 것이 바람직하다. 예컨대, 500bp 이하, 예컨대 20~400bp, 통상 50~300bp의 범위의 콘카테머를 예시할 수 있다.
다이 태그가 아닌, 태그 단위로 연결한 콘카테머를 얻을 수도 있다. 예컨대, IIs형 제한 효소를 작용시킨 후, 그 절단 부위에 어댑터를 결합할 수 있다. 이 때, 태그는 이하와 같은 구조를 가진다.
PCR→
(고상)-[RNA 링커]-[Tag]-[어댑터]
←PCR
어댑터에 제한 효소 인식 서열을 배치해 두면 다이 태그의 RNA 링커를 소화하는 것과 같은 방법으로 태그의 양단을 제한 효소로 절단할 수 있다. 만약 태그를 증폭하는 경우에는, RNA 링커와 어댑터의 염기 서열을 이용하여 PCR에 의해 증폭할 수도 있다. 어떠한 경우든, 제한 효소로 처리한 태그를 연결하여 콘카테머로 할 수 있다. 콘카테머는, 또한 클로닝 벡터에 결합시키고 그 염기 서열을 명백히 할 수 있다.
IIs형 제한 효소에 의해 잘려지는 태그의 길이는 거의 일정하게 되어 있다. 그러나, 그 길이가 불균일하다면 다이 태그를 구성했을 때, 바른 태그의 염기 서열을 동정할 수 없는 경우가 있다. 다이 태그를 경유하지 않고 콘카테머를 구성하는 경우, 태그의 길이가 불균일하더라도 태그의 염기 서열을 정확하게 결정할 수 있다.
본 발명의 유전자 태그의 수득 방법, 또한 수득된 태그의 염기 서열 결정 방법에 필요한 각종의 시약류는 미리 결합시켜 둔 키트로서 공급할 수 있다. 즉 본 발명은 이하의 요소를 포함하는 유전자 태그의 제조용 시약 키트에 관한 것이다:
(a) IIs형 제한 효소의 인식 서열을 포함하는 올리고뉴클레오티드로 이루어지는 RNA 링커,
(b) RNA 링커를 RNA의 CAP 부위에 연결하기 위한 시약,
(c) RNA 링커를 주형으로 하여 합성된 cDNA에 어닐링하는 올리고뉴클레오티드로 이루어지는 cDNA 제2쇄 합성용 프라이머, 및
(d) cDNA 제1쇄 합성용 프라이머.
본 발명의 키트는 다이 태그나 콘카테머의 조제에 필요한 시약류를 부가적으로 포함할 수 있다. 또한, 이러한 구성 요소의 구체적인 구성은 이미 말한 대로 나와 있다.
본 발명의 키트에 있어서, (d) cDNA 제1쇄 합성용 프라이머로는, 예컨대 이하의 i)-iii) 중 어느 하나에 기재된 프라이머를 이용할 수 있다.
i) 랜덤 프라이머,
ii) 올리고 dT 프라이머, 및
iii) 특정의 mRNA에 상보적인 염기 서열을 포함하는 프라이머.
시료에 포함되는 모든 mRNA를 대상으로 유전자 태그를 제조하는 경우에는, 랜덤 프라이머, 혹은 올리고 dT 프라이머가 이용된다. 특히 랜덤 프라이머는 본 발명에서의 바람직한 프라이머이다. 랜덤 프라이머란, 수십 염기의 길이를 갖는 불특정한 염기 서열로 이루어지는 올리고 뉴클레오티드의 집합체이다. 예컨대 5~20, 통상 8~15 염기 정도의 길이의 올리고 뉴클레오티드가 이용된다. 4 종 염기의 혼합물을 필요한 길이로 순차적으로 연결함으로써 합성된다. 랜덤 프라이머는, 이론적으로는 모든 염기 서열에 대하여 상보적인 염기 서열을 포함하고 있는 것으로 생각할 수 있다.
또는, 특정의 mRNA에 상보적인 염기 서열을 포함하는 프라이머에 의해 본 발명의 키트를 구성할 수도 있다. 특정의 mRNA에 특이적인 프라이머를 이용함으로써, 소정의 유전자의 5' 태그를 특이적으로 제조할 수 있다. 이렇게 하여 얻어지는 태그의 염기 서열 정보를 비교하여, 만약 그 염기 서열에 변이가 검출된 경우에는 해당 유전자의 전사 산물에는 5' 말단의 길이가 다른 복수의 변이체가 존재하는 것이 명백해진다. 따라서, 특정의 mRNA에 상보적인 염기 서열을 포함하는 프라이머에 의해 구성되는 본 발명의 키트는 특정 유전자의 전사 산물의 변이체를 검출하기 위한 키트로서 유용하다.
예컨대, 이하와 같은 요소에 의해 본 발명의 방법을 실시하기 위한 키트를 구성할 수 있다. 각 요소에는 각각의 요소를 이용한 반응에 바람직한 완충액을 첨가할 수도 있다. 또한, 본 발명의 키트에는 유전자 태그의 염기 서열의 분석을 위한 소프트 웨어를 결합할 수도 있다.
RNA 링커를 연결하기 위한 요소:
· BAP
· TAP
· T4 RNA 리가제
· RNA 링커.
cDNA의 합성과 분리를 위한 요소:
· 역전사 효소
· DNA 폴리머라제
· dXTP
· cDNA 제1쇄 합성용 랜덤 프라이머
· cDNA 제2쇄 합성용 5'비오틴화 cDNA 합성용 프라이머
·아비딘 결합 자성 비드.
유전자 태그를 생성하기 위한 요소:
· IIs형 제한 효소.
다이 태그의 생성과 분석을 위한 요소:
· T4 DNA 리가제
· 유전자 태그 증폭용 프라이머
· DNA 폴리머라제
· II형 제한 효소
· 시퀀싱용 벡터
· 벡터를 형질 전환하기 위한 숙주
· 숙주를 배양하기 위한 배양기.
본 발명에 의해 생성되는 콘카테머의 염기 서열 정보의 분석에는, 컴퓨터 소프트웨어를 이용하는 것이 유리하다. 예컨대 이하의 스텝을 실행할 수 있는 소프트웨어를 콘카테머의 염기 서열 정보의 분석에 이용할 수 있다:
시퀀서의 분석 데이터를 읽어들이는 스텝,
읽어들여진 염기 서열 데이터의 태그 이외의 염기 서열 정보를 식별하는 스텝, 및
태그의 염기 서열 정보를 축적하는 스텝.
여기서, 태그 이외의 염기 서열 정보로는, 태그의 형성 과정에서 연결된 RNA 링커나 어댑터 등의 염기 서열 정보를 나타낼 수 있다. 혹은, 클로닝 벡터에서 유래하는 염기 서열이 독해되는 경우가 있을지도 모른다. 어떠한 경우에도, 이들 염기 서열 정보는 이미 명백한 정보이다. 또한, 이들 부가적인 염기 서열 정보와 태그의 염기 서열 정보는 규칙적으로 콘카테머 상에 배치되어 있다. 따라서, 이들 염기 서열과 태그의 염기 서열은 기계적으로 식별할 수 있다.
이이서 태그의 염기 서열과 인식된 염기 서열 정보가 축적된다. 다이 태그를 형성한 경우에는, 안티센스쇄의 염기 서열이 독해되는 경우도 있으므로, 상보 서열 정보도 모두 기록한다. 어댑터를 사용하여 다이 태그를 경유하지 않고 콘카테머를 작성하는 경우에는, 어댑터와 RNA 링커의 클로닝 사이트를 다른 서열이 되도록 디자인한다면 단일 방향으로 클로닝할 수 있다. 이 경우에는, 상보 서열 축적이 필요없다.
이 프로그램에는 부가적인 기능을 더 갖게 할 수 있다. 예컨대, 얻어진 태그의 염기 서열을 비교하여 같은 염기 서열을 하나로 정리하고, 그 출현 빈도를 기록하는 스텝을 실행시킬 수 있다. 또한, 다른 RNA 소스의 태그 정보를 비교하여 출현 빈도가 다른 태그를 추출하는 스텝을 실행시킬 수도 있다.
태그 정보의 비교 대상으로는, 사전에 집적된 데이터베이스의 정보를 이용할 수도 있다. 예컨대, 표준적인 조직이나 세포주에 대하여 사전에 본 발명의 방법에 따라 유전자 태그의 정보를 집적해 둔다. 이 정보를 컴퓨터 네트워크 상에서 공유할 수 있다. 혹은, 상기 시약 키트에 첨부하여 상업적으로 유통시킬 수도 있다.이렇게 하여 입수된 유전자 태그 정보와, 자신이 실험하여 수득한 유전자 태그 정보를 비교할 수도 있다.
본 발명에 의해 전사 산물인 mRNA의 5' 말단의 염기 서열 정보를 얻을 수 있다. 5' 말단의 염기 서열 정보는 유전자 분석에 있어서, 특히 중요한 의미를 갖는다. 예컨대, 본 발명에 의해 얻을 수 있는 5' 말단의 염기 서열 정보를 이하와 같은 용도로 이용할 수 있다.
우선 본 발명은 유전자의 발현 프로필의 수득에 이용할 수 있다. 즉 본 발명은 다음의 공정을 포함하는 진핵 세포에서의 유전자의 발현 프로필의 수득 방법에 관한 것이다:
(1) 본 발명에 따라 유전자 태그를 제조하는 공정,
(2) (1)의 유전자 태그의 염기 서열을 결정하는 공정, 및
(3) 결정된 염기 서열과 그 출현 빈도를 대응시킴으로써 발현 프로필을 얻는 공정.
본 발명에 있어서, (1) 유전자 태그를 제조하는 공정은, 이하의 공정을 함축할 수 있다. 특별한 언급이 없는 한, 이후의 기재에서도 마찬가지로, 「본 발명에 따라 유전자 태그를 제조하는 공정」이란 이하의 공정을 포함한다.
(A) RNA의 CAP 부위에 IIs형 제한 효소의 인식 서열을 포함하는 RNA 링커를 연결하는 공정,
(B) (A)의 RNA를 주형으로 하여 cDNA를 합성하는 공정, 및
(C) (B)의 cDNA에 RNA 링커에 포함되는 인식 서열을 인식하는 IIs형 제한 효소를 작용시켜 유전자 태그를 생성하는 공정.
일반적으로, 발현 프로필이란, 발현 정보를 수반한 유전자 정보의 리스트를 나타낸다. 발현 정보란, 발현 수준을 나타내는 양적인 파라미터이다. 유전자 정보란, 통상 유전자를 특정하기 위한 정보를 말한다. 구체적으로는, 유전자의 염기 서열, 유전자의 명칭, 유전자의 ID 번호 등이 유전자 정보를 구성한다. 리스트를 구성하는 유전자의 수는 임의이다. 또한 그 대상도 한정되지 않는다. 분석의 목적에 따라 필요한 유전자의 정보를 집적하여 발현 프로필이 구성된다.
본 발명에 의하면, CAP 구조를 갖는 RNA로부터, 5' 말단의 염기 서열 정보를 태그 정보로 수득할 수 있다. 또한 그 염기 서열 정보를 대조 확인하여 같은 염기 서열수를 카운트함으로써, 염기 서열 정보와 그 출현 빈도가 대응된다. 이렇게 하여 발현 프로필을 얻을 수 있다.
RNA로서 모든 RNA를 대상으로 하면, 전유전자를 대상으로 하는 발현 프로필을 얻을 수 있다. 본 발명에 있어서는, 특정의 유전자, 혹은 구조적인 공통성을 갖는 일군의 유전자를 대상으로 유전자 태그를 생성할 수도 있다. 이러한 케이스에서는 특정의 유전자, 혹은 일군의 유전자의 발현 프로필이 생성된다.
CAP 구조를 갖는 mRNA란, 세포 중에서 발현되고 있는 mRNA의 전부라고 가정한다면, 본 발명에 의해 얻을 수 있는 발현 프로필은 세포 내의 유전자의 발현 상황을 보다 정확하게 반영하고 있다고 할 수 있다. 본 발명에 있어서, 염기 서열 출현 빈도를 카운트할 때, 분석의 대상이 되는 염기 서열 정보의 총수에서 차지하는 있는 배열 출현 빈도의 상대적인 수를 축적하는 것이 바람직하다. 특히 PCR 등에 증폭된 후의 출현 빈도 정보는 정량적인 의미는 작다. 총수에 대한 비로서 비교하면, 보다 객관적인 평가를 기대할 수 있다.
본 발명에 의해 얻어진 발현 프로필은 데이터베이스로 할 수 있다. 데이터베이스란, 발현 프로필을 구성하는 정보를 기계가 읽을 수 있는 데이터로 축적한 전자 데이터를 말한다. 본 발명의 데이터베이스는 적어도 태그의 염기 서열 정보와, 그에 관련된 출현 빈도 정보를 포함한다. 또한 본 발명의 데이터베이스는 각 염기 서열 정보의 ID 번호, 염기 서열 정보가 얻어진 RNA의 유래를 합하여 기록할 수 있다. 또한, 주지의 유전자 염기 서열 정보와의 관계, 게놈 상으로의 맵핑의 결과 등의 정보를 부가할 수도 있다.
본 발명의 발현 프로필의 데이터베이스는 전자 매체에 보존할 수 있다. 전자 매체로는, 각종의 디스크 장치, 테잎 매체, 혹은 플래쉬 메모리 등을 나타낼 수 있다. 이러한 전자 매체는 네트워크 상에서 공유할 수 있다. 예컨대, 인터넷 상에서 본 발명의 데이터베이스를 공유할 수 있다. 또한, 상기 태그 서열 분석을 위한 소프트 웨어에 인터넷을 통하여 본 발명의 데이터베이스의 정보를 참조하기 위한 기능을 추가할 수도 있다. 혹은 반대로, 본 발명에 따라 생성된 새로운 발현 프로필 정보를 인터넷을 통하여 데이터베이스에 추가할 수도 있다.
본 발명의 발현 프로필을 이용하여 발현 프로필의 분석을 실시할 수 있다. 즉 본 발명은 본 발명에 따라 다른 종류의 세포의 유전자 발현 프로필을 수득하고, 유전자 발현 프로필을 비교하여 세포간에 발현 빈도가 다른 유전자 태그를 선택하는 공정을 포함하는 유전자 발현 프로필의 분석 방법에 관한 것이다. 다른 세포간에 발현 수준이 다른 유전자를 수득하는 분석 방법은 발현 프로필 분석이라 불리고 있다. 이러한 분석에 의해, 예컨대, 질환 등에 관련된 유전자가 수없이 수득되게 되었다. 본 발명의 발현 프로필도 이러한 발현 프로필 분석에 이용할 수 있다.
본 발명의 발현 프로필 분석에 있어서, 분석 대상으로 하는 다른 세포란, 그 유래가 다른 모든 세포를 말한다. 같은 조직에서 유래한 세포라도, 질환의 유무, 인종, 연령, 성별 등 어떠한 조건의 차이가 있는 경우에는 유래가 다른 세포이다. 분석의 목적의 따라, 고려해야 하는 조건이 다르면 유래가 다른 세포이다. 한편, 분석의 목적에 대하여 무시해도 될 정도의 조건의 차이 밖에 찾아낼 수 없는 경우에는, 동일한 세포로 간주된다. 예컨대, 다른 장기, 다른 조직, 혹은 유래나 배양 조건 등이 다른 세포 사이에서 발현 프로필을 비교함으로써, 장기, 조직, 혹은 세포간에 있어서 발현 수준이 높은(또는 낮은) 유전자를 선택할 수 있다. 본 발명을 응용할 수 있는 분석 대상의 조합을 이하에 예시한다.
다른 조직:
성인의 조직과 태아의 조직,
환자의 조직과 건강한 사람의 조직,
남성의 조직과 여성의 조직,
인종이 다른 인간의 조직,
생육 환경이 다른 같은 생물종의 조직.
다른 세포:
같은 세포에 배양 조건이 다른 세포,
같은 배양 조건에서 배양 시간이 다른 세포,
특정한 처리를 한 세포와 그렇지 않은 세포.
보다 구체적으로는, 암 조직과, 정상인 조직 사이에서 발현 프로필을 비교함으로써, 암에 특징적인 유전자 태그를 수득할 수 있다. 혹은, 특히 악성도가 높은 암과, 낮은 암과의 비교에 의해 악성도에 따른 유전자 태그를 특정할 수 있다.
본 발명에 의해 얻어지는 유전자 태그는, mRNA의 5' 말단의 염기 서열 정보를 포함하고 있다. 따라서, 같은 단백질을 코드하는 유전자로서, 5'UTR의 구조가 다른 변이체를 다른 전사 산물로서 발현 프로필에 반영시킬 수 있다. 이 특징은 주지의 SAGE에 의해 얻을 수 있는 태그와 비교하여, 본 발명의 태그가 가지고 있는 큰 장점의 하나이다. 또한 본 발명의 유전자 태그는 태그의 염기 서열 정보 그 자체가 전장 cDNA의 5'측의 프라이머의 염기 서열 정보로서 유용하다. 따라서, 발현 프로필의 분석에 의해 픽업한 태그의 염기 서열 정보에 따라 디자인한 프라이머와, 올리고 dT 프라이머를 이용하면, 즉각 전장 cDNA를 합성할 수 있다. 혹은, mRNA의 임의의 영역에 상보적인 염기 서열을 갖는 프라이머를 조합하면, mRNA의 5'측의 염기 서열을 포함하는 cDNA를 수득할 수 있다. 이 것도 본 발명의 큰 특징이다.
본 발명에 의해 얻을 수 있는 유전자 태그는 전사 산물인 mRNA의 5' 말단의 염기 서열을 포함하고 있다. 따라서, 이 염기 서열을 게놈의 염기 서열 상에 맵핑함으로써, 유전자의 전사 개시점을 동정할 수 있다. 즉 본 발명은, 다음의 공정을 포함하는 유전자의 전사 개시점의 결정 방법에 관한 것이다:
(1) 본 발명의 방법에 따라 유전자 태그를 제조하는 공정,
(2) (1)의 유전자 태그의 염기 서열을 결정하는 공정, 및
(3) 결정된 염기 서열을 게놈의 염기 서열 상에 맵핑하고, 염기 서열이 일치하는 영역을 해당 유전자의 전사 개시점으로 하여 동정하는 공정.
2003년 4월, 인간 게놈 시퀀스 국제 컨소시엄은 인간 게놈의 해독 완료를 발표하였다. 그 결과, 모든 게놈의 99%(28억 3000만 염기쌍)를 99.99%의 정밀도로 커버하는 인간 게놈 정밀 서열을 손에 넣을 수 있었다. 한편, 본 발명은 세포 내에서 전사되고 있는 온갖 mRNA의 5' 말단을 태그로서 생성한다. 따라서, 원리적으로는, 어떠한 세포에서 전사되고 있는 유전자의 거의 모든 전사 개시점을 게놈 상에 맵핑할 수 있다. 게놈 상에 맵핑된 전사 개시점은 전사 조절 영역의 수득에 있어서 중요한 정보이다.
예컨대, 전사 개시점의 상류의 1~2kb의 범위를 클로닝하여 전사 조절 인자의 스크리닝에 이용할 수 있다. 혹은, 이 영역의 염기 서열을 분석함으로써, 전사 조절 영역을 예측할 수도 있다. 보다 구체적으로는, 주지의 전사 인자의 인식 서열이 보존되어 있는 영역을 탐색함으로써 전사 인자의 결합 영역의 예측이 가능하다.
또한 전사 개시점의 맵핑은 유전자 그 자체의 맵핑임에 틀림없다. 즉, 본 발명에서의 태그의 염기 서열 정보의 맵핑의 결과에 따라 유전자의 게놈 상에서의 물리적인 위치 관계를 파악할 수 있다. 현 상태로는, 유전자의 전사 개시점은 질이 높은 전장 cDNA의 염기 서열 정보에 의지하지 않으면 맵핑할 수 없었다. 그런데 본 발명에 의해 얻을 수 있는 태그 정보를 이용한다면 용이하게 전사 개시점을 맵핑할 수 있다. 이와 같이 본 발명에 의해 얻을 수 있는 태그 정보는 전장 cDNA의 성과에 필적하는 가치를 가지고 있고 할 수 있다.
또한 본 발명에 의해 얻을 수 있는 유전자 태그의 염기 서열 정보는, cDNA의 전장율의 평가에 이용할 수 있다. 게놈의 염기 서열이 명백해지는 한편, 세포의 작용을 단백질 수준으로 명백히 하기 위한 다양한 시도가 계속되고 있다. 그러한 수법의 하나로서, 전장 cDNA의 철저한 분석이 있다. 전장 cDNA의 철저한 분석에 있어서는, 어떤 세포에서 발현되고 있는 유전자의 전장이 완벽히 수득되고, 그 구조가 결정된다. 이 때, 수득된 cDNA의 전장성이 높은 것이 중요한 조건이 된다.
우선 첫째, 적어도 ORF를 특정하기 위해, mRNA의 5'측의 염기 서열이 명백히 되어 있을 필요가 있다. 또한, 전사 개시점을 동정하기 위해서는 5' 말단까지 수득 되어 있는 것이 중요하다. 이러한 조건을 충족시키고 있는 것을 확인하기 위해, 자주 얻어진 cDNA의 전장성이 평가된다. cDNA의 전장성이란, mRNA의 5' 말단의 염기 서열을 포함하는 cDNA가 수득된 cDNA 전체의 어느 정도를 차지하고 있는지를 나타내는 파라미터이다.
본 발명의 유전자 태그는 mRNA의 5' 말단의 염기 서열 정보를 제공한다. 따라서, 완벽하게 수득된 cDNA의 염기 서열과, 같은 라이브러리로부터 얻어진 본 발명의 유전자 태그의 염기 서열을 대조 확인함으로써, 각 cDNA의 5' 말단이 mRNA의 5' 말단의 염기 서열을 포함하는지 아닌지를 명백히 할 수 있다. 만약 유전자 태그의 염기 서열의 상당수가 cDNA의 염기 서열 상에 맵핑 가능한 경우에는 수득된 cDNA의 상당수가 전장일 가능성이 높다. 반대로, 유전자 태그와 일치하는 염기 서열을 수득된 cDNA 중에서 찾아낼 수 없는 경우에는, cDNA의 전장성은 낮은 것으로 예측된다.
본 발명에서의 유전자 태그의 염기 서열 정보는, mRNA의 5' 말단의 염기 서열을 포함하는 cDNA의 수득에 이용할 수 있다. 즉 본 발명은, 다음의 공정에 의해 결정된 염기 서열 또는 그 상보 서열을 포함하는 cDNA를 합성하기 위한 5'측의 프라이머와, cDNA의 임의의 부위에 어닐링하는 3'측의 프라이머를 포함하는 cDNA 합성용 프라이머 세트에 관한 것이다:
(1) 본 발명에 따라 유전자 태그를 제조하는 공정, 및
(2) (1)의 유전자 태그의 염기 서열을 결정하는 공정.
본 발명의 프라이머 세트를 구성하는 5'측 프라이머의 염기 서열은, 태그로서 수득된 염기 서열, 또는 그 상보 서열을 포함한다. 태그는 mRNA의 센스 서열, 혹은 안티센스 서열로서 얻어진다. 따라서, 그 상보 서열 혹은, 태그의 염기 서열 그 자체가 cDNA 합성용의 5'측의 프라이머의 염기 서열로서 이용된다. 5'측의 프라이머가 5' 말단에 있어서 상보쇄 합성을 개시하므로, 본 발명의 프라이머 세트에 의해 합성되는 cDNA가 항상 5' 말단의 염기 서열을 포함한다. 또한 태그 서열은 DNA로부터 얻어지므로, 염기 t를 포함한다. 이에 대하여 RNA의 5' 말단 배열은, t에 해당하는 염기가 u임은 말할 필요도 없다.
한편 본 발명의 프라이머 세트를 구성하는 3'측의 프라이머에는 cDNA에 어닐할 수 있는 임의의 프라이머를 이용할 수 있다. 3'측의 프라이머의 선택에 의해 복수의 cDNA를 합성할 수 있다. 본 발명의 프라이머 세트로 이용할 수 있는 3'측의 프라이머로서 예컨대 다음과 같은 프라이머를 나타낼 수 있다.
i) 올리고 dT 프라이머,
ii) cDNA의 단편 서열 정보,
iii) cDNA의 II형 제한 효소 인식에 인접하는 유전자 태그의 염기 서열 또는 그 상보 서열로 이루어지는 프라이머.
우선 올리고 dT 프라이머와의 조합은, 전장 cDNA의 합성에 유용하다. 이어서, cDNA의 단편 서열 정보에 따라 디자인된 3'측 프라이머는, 해당 cDNA의 5'측의 영역을 수득하기 위한 프라이머로서 이용된다. 이러한 목적을 위해서는, 가능한 한 해당 cDNA의 5'측의 염기 서열에 따라, 3'측 프라이머를 디자인하면 된다. cDNA의 단편 정보로는 EST가 포함된다. 또한 복수의 유전자 분석에 의해 cDNA의 단편 정보가 수득된다. 그리고, 단편 정보에 따라 전장의 염기 서열을 결정하는 것을 자주 시험해 볼 수 있다. 예컨대, DNA 어레이의 프로브로서 사용되고 있는 EST의 5'측의 염기 서열의 수득이 필요할 때, 본 발명의 프라이머 세트를 이용하여, 목적으로 하는 영역을 합성할 수 있다. 혹은, PCR 클로닝 등에 의해 수득된 cDNA의 단편으로부터 그 전장의 수득을 시험해 보는 경우도 있다. 본 발명에 있어서, cDNA의 단편 서열 정보란, 특정의 mRNA에 상보적인 염기 서열을 포함하는 프라이머로 정의할 수 있다.
또한, cDNA의 II형 제한 효소 인식에 인접하는 유전자 태그의 염기 서열 또는 그 상보 서열로 이루어지는 프라이머를 3'측 프라이머로서 이용할 수도 있다. 현재 실용화되어 있는 SAGE(SCIENCE, Vol.270, 484-487, Oct.20, 1995)는, cDNA 중에 포함되는 특정의 제한 효소 사이트에 인접하는 영역을 유전자 태그로서 생성한다. 이 태그의 염기 서열 정보에 따라, 유전자 발현 프로필을 분석할 수 있다. 동일한 분석 대상에 대하여, 주지의 분석 방법에 따라 선택된 유전자 태그의 염기 서열 정보를 3'측의 프라이머로서 이용하면, 착안하는 유전자의 상당 부분을 포함하는 cDNA를 합성할 가능성이 있다.
이러한 프라이머 세트 중, 올리고 dT 프라이머와의 조합은, 전장 cDNA를 합성하기 위한 프라이머 세트로서 특히 바람직하다. 전장 cDNA는 전사 개시점의 맵핑에 유용하다. 또한 5'UTR의 구조가 다른 전사 산물의 동정을 위해서는, 적어도 5' 말단을 포함하는 영역의 염기 서열의 결정이 필수이다. 또한, 전장 cDNA는, 통상 수득이 어려운 것으로 되어 있다. 이러한 배경으로부터, 본 발명에 따라 얻어진 유전자 태그 정보를 이용하여 전장 cDNA를 합성하는 것은, 특히 유용성이 크다. 즉 본 발명은 다음의 공정을 포함하는 전장 cDNA의 합성 방법에 관한 것이다:
a) 다음의 공정에 의해 결정된 염기 서열 또는 그 상보 서열을 포함하는 cDNA를 합성하기 위한 5'측의 프라이머와, 올리고 dT 프라이머로 이루어지는 3'측의 프라이머를 사용하여 RNA 혹은 cDNA를 주형으로서 상보쇄 합성 반응을 행하는 공정, 및
1) 본 발명의 방법에 따라 유전자 태그를 제조하는 공정, 및
2) (1)의 유전자 태그의 염기 서열을 결정하는 공정
b) 합성된 DNA를 전장 cDNA로서 회수하는 공정.
목적으로 하는 mRNA를 포함할 가능성이 높은 세포로부터 수득된 RNA를 주형으로 하여, 상기 본 발명의 프라이머 세트를 사용하여 cDNA가 합성된다. 혹은 해당 세포로부터 얻어진 cDNA 라이브러리를 주형으로 하여 이용할 수도 있다. 당업자는, 주어진 프라이머의 염기 서열 정보에 따라 cDNA를 합성할 수 있다. 구체적으로는, RT-PCR 등의 주지의 방법을 이용하여 RNA로부터 목적으로 하는 cDNA를 합성할 수 있다. RNA는 mRNA를 사용하는 것이 바람직하다. 혹은 cDNA 라이브러리를 주형으로 할 때는, PCR에 의해 목적으로 하는 cDNA를 합성할 수 있다. cDNA 라이브러리에는 시판 중인 라이브러리를 사용할 수도 있다.
본 발명은, 이렇게 하여 합성된 전장 cDNA에 관한 것이다. 본 발명에 있어서, 전장 cDNA란, mRNA의 CAP 구조를 포함하는 부분의 염기 서열 정보와, poly(A)를 포함하는 cDNA를 말한다. 본 발명은 또한 본 발명에 따라 합성된 전장 cDNA에 의해 코드되는 폴리펩티드에 관한 것이다. 전장 cDNA의 염기 서열을 분석하고, ORF를 동정할 수 있다. 동정된 ORF에 따라 코드 영역을 발현 벡터에 도입할 수 있다. 본 발명은, 이와 같이 하여 얻을 수 있는 발현 벡터를 포함한다. 해당 발현 벡터를 적당한 발현계에 도입하여 cDNA에 의해 코드되는 폴리펩티드를 조합체로서 발현시키고, 또한 회수할 수 있다.
또한 본 발명의 전장 cDNA의 코드 영역이 코드하는 폴리펩티드는, 시험관 내 번역(in vitro translation)에 의해 조합체로서 발현시키고, 회수할 수 있다. 시험관 내 번역의 방법은 주지이다. 시험관 내 번역은 무세포 단백질 번역이라고도 불리고 있다. 즉, 목적으로 하는 아미노산 서열을 코드하는 DNA를 프로모터에 기능적으로 연결한 구축물을 시험관 내 번역을 지지하는 요소와 접촉시킴으로써 아미노산 서열로 번역할 수 있다. 구축물에는, 터미네이터 등의 전사 조절 영역을 배치할 수도 있다. 시험관 내 번역을 지지하는 요소는, RNA 폴리머라제, 리보 뉴클레오티드 기질, 아미노산, 리보좀, 및 tRNA 등을 포함하는 혼합물이다. 이들 단백질 번역에 필요한 성분이 존재하면, 세포 기능을 이용하지 않고, DNA를 단백질에 번역할 수 있다. RNA 폴리머라제는, 상기 프로모터를 인식하여 그 제어 하의 DNA를 주형으로 하여 mRNA에 전사한다. 전사에는 리보 뉴클레오티드 기질 ATP, GTP, CTP, 및 UTP가 사용된다. 전사된 mRNA는 리보좀에 있어서 폴리펩티드로 번역된다.
시험관 내 번역을 지지하는 요소로서 시판 중인 시험관 내 번역용 키트를 사용할 수 있다. 토끼 망상 적혈구의 용해물(Rabbit Reticulocyte Lysate;RRL), 소맥 배아 추출물(Wheat Germ Extract;WGE), 혹은 대장균의 용해물 등을 이용한 무세포 단백질 번역을 위한 키트가 시판되고 있다. 혹은 전사, 번역 및 에너지 재생에 필요한 약 30의 효소류를 각각 고순도로 정제한 후, 재구성한 시험관 내 전사-번역 시스템도 실현되어(Shimizu et al.(2001) Nature Biotechnology. vol.19, p.751-755), 키트로서 상업적으로 공급되고 있다.
또한 본 발명은, 해당 폴리펩티드를 인식하는 항체에 관한 것이다. 항체는, 예컨대 상기 조합체, 혹은 번역 아미노산 서열로부터 선택된 아미노산 서열로 이루어지는 도메인 펩티드로 면역 동물을 면역함으로써 얻을 수 있다. 면역 동물로부터는 폴리클로날 항체를 회수할 수 있다. 또한, 면역 동물의 항체 생산 세포를 클로닝하여 모노클로날 항체를 얻을 수 있다. 항체 생산 세포를 골수종과 같은 세포주와 융합시켜 하이브리도마로 하여, 목적으로 하는 반응성을 갖는 항체를 생산하는 클론을 스크리닝하기 위한 방법이 주지이다.
도 1은, 본 발명에 따른 유전자 태그의 수득 방법의 예를 나타내는 도면이다. mRNA를 반으로 나누고, mRNA의 CAP 구조를 IIs형 제한효소인 MmeI 및 XhoI 제한 효소 부위를 포함하는 2타입의 합성 올리고 뉴클레오티드로 효소적으로 치환하였다. 이어서, 올리고 캡핑 mRNA를 dT 어댑터 프라이머에 의해 cDNA의 제1쇄로 변환하였다. 제2쇄를, PCR을 사용하여 비오틴 결합 5'프라이머 및 dT 어댑터 프라이머에 의해 합성하였다. 2쇄 cDNA를, 그 인식 부위로부터 20bp 떨어진 곳에서 절단하는 MmeI에 의해 절단하였다. 스트라이크 스트렙토 아비딘 비드에 결합시킴으로써 5'cDNA를 단리한 후, 태그의 2개의 풀을 서로 라이게이션하였다.
도 2는, UniGene 및 DBTSS 서열에서의 mRNA 개시 부위와 비교한 5'SAGE 태그의 거리의 도면이다. 거리는, 상류(-) 및 하류(+)의 뉴클레오티드(x-축)의 수로서 나타낸다. UniGene에서의 mRNA 개시 부위를 0으로 나타낸다. 5'SAGE 태그의 빈도를 y-축에 나타낸다. 각각의 5'SAGE 태그와 그 대응하는 유전자를 배치한 위치의 거리가 짧으면, 5' 태그가 주지의 5' 전사 개시 부위와 거의 일치하는 것을 의미한다. 본 발명자들은, 전사 개시 부위의 그 범위의 차를 조사하기 위해 UniGene 및 DBTSS 데이터베이스를 따로 사용하였다.
도 3은, 5'SAGE 태그와 3'SAGE 태그의 빈도의 스캐터(scatter) 플롯의 도면이다. 5'SAGE 및 3'SAGE로부터 게놈에서의 하나의 자리에 히트한 태그를, 실시예 2의 재료와 방법의 장에 기재하도록 분석하였다. 이 도면에 있어서, 쌍방의 축은 대수로 표기하였다.
이하, 실시예에 따라 본 발명을 더욱 구체적으로 설명한다.
〔실시예 1]
본 발명에 따라, mRNA의 5' 말단의 염기 서열을 포함하는 유전자 태그를 수득할 수 있는 것을 이하의 실험에 의해 확인하였다. 이하의 조작의 개략을 도 1에 나타내었다.
올리고 캡핑법은 Maruyama 및 Sugano(1994)의 방법을 바꾸어 행하였다 (Maruyama, K., Sugano, S., 1994. Oligo-capping: a simple method to replace the cap structure of eukaryotic mRNAs with oligoribo-nucleotides. Gene 138, 171-174.). 5-10μg의 폴리(A)+ RNA를, 100 유닛의 RNasin(Promega)를 첨가한 총액량 100μl의 100mM Tris-HCl(pH8.0) 및 5mM 2-머캅토 에탄올 혼합액 중에서 1.2 유닛의 박테리아 유래 알칼리 포스파타제(BAP;TaKaRa)에 의해 37℃, 40분간 처리하였다. 페놀:클로로포름(1:1) 추출 처리를 2회 하고, 에탄올 침전 처리를 하였다. 얻어진 상기 폴리(A)+ RNA를 100 유닛의 RNasin을 첨가한 총액량 100μl의 50mM 초산 나트륨(pH5.5), 1mM EDTA, 5mM 2-머캅토 에탄올 혼합액 중에서 20 유닛의 타바코 산성피로포스파타제(TAP)에 의해 37℃, 45분간 처리하였다.
페놀:클로로포름 추출 처리 및 에탄올 침전 처리후, 2-4μg의 BAP-TAP 처리 폴리(A)+ RNA를 2개의 풀로 나누고, 각 풀을 RNA 링커(5'-oligo1 및 5'-oligo2)와 각각 라이게이션시켰다. 5'-oligo1 및 5'-oligo2는, 각각 다음의 염기 서열을 갖는 RNA이다. 어떠한 RNA 링커도, XhoI 및 MmeI 인식 서열을 포함한다.
5'-oligo1/서열 번호:1
5'-UUU GGA UUU GCU GGU GCA GUA CAA CUA GGC UUA AUA CUC GAG UCC GAC-3'
5'-oligo2/서열 번호:2
5'-UUU CUG CUC GAA UUC AAG CUU CUA ACG AUG UAC GCU CGA GUC CGA C-3'
250 유닛 RNA ligase(TaKaRa), 및 100 유닛 Rnasin을 하기 조성의 반응 혼합액에 총액량 100μl로 하여, 20℃, 3-16시간 반응시켜 RNA 링커를 라이게이션하였다.
50mM Tris-HCl(pH7.5)
5mM MgCl2,
5mM 2-머캅토 에탄올
0.5 mM ATP
25% PEG8000
cDNA 합성
cDNA의 합성에 대하여, 완전장 cDNA 풍부(enriched) 라이브러리와 5' 말단 cDNA 풍부 라이브러리의 2종의 라이브러리를 합성하였다. 완전장 cDNA 풍부 라이브러리는, 올리고 dT 어댑터 프라이머를 사용하여 poly(A)+ mRNA를 주형으로 하여 합성된 cDNA로 이루어진, 완전장 cDNA가 풍부한 라이브러리이다. 한편, 5' 말단 cDNA 풍부 라이브러리는, cDNA의 합성에 랜덤 어댑터 프라이머를 사용하여 합성된 cDNA로 이루어져 있다. 랜덤 어댑터 프라이머의 사용에 의해 poly(A)를 수반하지 않는 단편으로부터도, cDNA가 합성되고 있다. 이들 2종의 cDNA의 각각에 대하여 유전자 태그의 수득을 시험하였다.
라이게이션되지 않은 RNA 링커를 없앤 후, RNaseH 프리의 역전사 효소(Superscript II, Gibco BRL)에 의해 cDNA를 합성하였다. 완전장 cDNA 풍부 라이브러리를 얻기 위해, 10pmol의 dT 어댑터 프라이머(서열 번호:3)를 2-4μg의 올리고캡 폴리(A)+ RNA를 포함하는 50μl에 더하여 cDNA를 합성하였다.
dT 어댑터 프라이머(서열 번호:3)
5'-GCG GCT GAA GAC GGC CTA TGT GGC CTT TTT TTT TTT TTT TTT-3'
반응 조건은 제조자 권장 방법에 따랐다(42℃, 1시간 인큐베이터).
또한 5' 말단 cDNA 풍부 라이브러리를 얻기 위해, 10pmol의 랜덤 어댑터 프라이머(서열 번호:4)를 사용하여 12℃, 1시간의 인큐베이션을 행하고, 또한 42℃, 1시간 인큐베이션을 행하였다.
랜덤 어댑터 프라이머(서열 번호:4)
5'-GCG GCT GAA GAC GGC CTA TGT GGC CNN NNN NC-3'
cDNA의 증폭
제1쇄 cDNA를 합성한 후, RNA를 15 mM NaOH에서 65℃, 1시간 처리함으로써 분해하였다. 1μg의 올리고캡 폴리(A)+ RNA를 주형으로 하여 합성된 cDNA를, 100μl중에 16pmol의 5' PCR 프라이머 및 3' PCR 프라이머(5'-GCG GCT GAA GAC GGC CTA TGT-3'/서열 번호:7)을 포함하는 XL PCR 키트(Perkin-Elmer)를 이용하여 증폭하였다. 5' PCR 프라이머는, RNA 링커로서 5'oligo-1을 라이게이션한 풀에 대해서는 서열 번호:5의, 또한 5'oligo-2의 풀로는 서열 번호:6의 프라이머를 각각 사용하였다.
5'oligo 1용 5' PCR 프라이머/서열 번호:5
5'비오틴 GGA TTT GCT GGT GCA GTA CAA CTA GGC TTA ATA-3'
5'oligo 2 용 5' PCR 프라이머/서열 번호:6
5'비오틴 CTG CTC GAA TTC AAG CTT CTA ACG ATG TAC G-3'
3' PCR 프라이머(서열 번호:7)
5'-GCG GCT GAA GAC GGC CTA TGT-3'
제1쇄의 합성에 dT-어댑터 프라이머를 프라이머로서 사용한 경우, 94℃ 1분간, 58℃ 1분간 및 72℃ 10분간의 사이클을 5~10회 반복하여 cDNA의 증폭을 행하였다. 또한 제1쇄의 합성으로 랜덤 어댑터 프라이머를 프라이머로서 사용한 경우에는, 94℃ 1분간, 58℃ 1분간 및 72℃ 2분간의 사이클을 10회 반복하여 cDNA의 증폭을 행하였다.
PCR 산물은, 1회의 페놀:클로로포름(1:1) 처리 후, 에탄올 침전 처리를 거쳐, MmeI형 IIs제한 효소(University of Gdansk Center for Technology Transfer, Gdansk Poland)에 의해 처리하였다. 제한 효소 처리는, 총액량 300μl의 10m MHEPES, pH8.0, 2.5mM 초산 칼륨, 5mM 초산 마그네슘, 2mM DTT 및 40μM S-아데노실 메티오닌 혼합액 중에서 40 유닛의 MmeI를 이용하여 37℃, 2.5 시간 행하여였다. 제한 효소 처리된 5' 말단 cDNA 단편은 스트렙토 아비딘으로 코팅된 자성 비드(Dynal, Oslo, Norway)에 결합시켰다. 4 유닛의 T4 DNA 리가제를 첨가한 공급 버퍼를 포함하는 16μl의 반응 용액 중에서 16℃, 2.5 시간 반응시켜 비드에 결합되어 있는 cDNA 단편을 서로 직접 결합시켜 다이 태그를 얻었다.
생성한 다이 태그는 프라이머 5'-GGA TTT GCT GGT GCA GTA CAA CTA GGC-3'(서열 번호:8)및 5'-CTG CTC GAA TTC AAG CTT CTA ACG ATG-3'(서열 번호:9)를 사용하여 PCR에 의해 증폭하였다. PCR 산물을 폴리아크릴아미드겔 전기영동(PAGE)에 의해 확인하고, XhoI에 의해 처리하였다. 다이 태그를 포함하는 밴드를 잘라 내어, 셀프 라이게이션시켜 긴 콘카테머를 형성하게 하였다. 이 콘카테머를 pZero 1.0 (Invitrogen)의 XhoI 부위에 결합시켰다.
M13 정방향 프라이머 및 M13 역방향 프라이머를 사용한 PCR에 의해 콜로니의 스크리닝을 행하였다. 600bp 이상의 인서트를 포함하는 PCR 산물은, Big Dye terminator ver.3을 사용하여, 3730 ABI 자동 DNA 시퀀서(Applied Biosystems, CA)에 의해 서열을 결정하였다. 모든 전기영동도에 대하여, 불명료한 염기의 유무를 확인하기 위하여, 및 오독(misreading)을 수정하기 위해 육안으로 재분석을 행하였다.
각 태그의 출현 빈도를, 그것을 위해 제작한 소프트 웨어로 측정하였다. 분석 결과 얻어진 태그의 염기 서열을 query로서, BLAST 서치(http://www.ncbi.nlm.nih.gov/BLAST/) 및 인간 게놈 데이타베이스(http://www.ncbi.nlm.nih.gov/genome/guide/human/)의 데이터를 검색하였다.
랜덤 어댑터 프라이머에 의해 합성된 5' 말단 cDNA 풍부 라이브러리에서 얻어진 3000 이상의 유전자 태그의 염기 서열을 분석한 결과의 일부를 이하에 정리하였다. 이하의 결과에 있어서는, 유전자 태그의 염기 서열을 기재한 서열 번호에 이어서, 다음 정보를 "/"으로 단락지어 기재하였다. 또한 이들 정보 다음에 행을 바꾸어 히트한 알려진 유전자의 정보(GenBank Accession No.와 애노테이션)를 기재하였다.
- 유전자 태그의 염기 서열
- 얻어진 유전자 태그의 총수에서의 해당 유전자 태그의 출현 빈도
- 유전자 태그의 염기 서열이 히트한 알려진 서열 위치(○:5' 말단에 히트하였다고 생각되는 것, ×: 5' 말단의 염기 서열이 아니라고 생각된 것)
(서열 번호:10)/ACATCTGACCTCATGGAG/27/○
gi|33694637|tpg|BK000408.1|TPA:Human adenovirus type 5, complete genome
(서열 번호:11)/CTCTTTCCTTGCCTAACG/22/○
gi|17981705|ref|NM_001007.2|Homo sapiens ribosomal protein S4, X-linked (RPS4X), mRNA
(서열 번호:12)/TACCTGGTTGATCCTGCC/21/×
(서열 번호:13)/CTTTTCCTGTGGCAGCAG/20/○
gi|16579884|ref|NM_000968.2|Homo sapiens ribosomal protein L4(RPL4), mRNA
(서열 번호:14)/CTCTTCCGCCGTCGTCGC/16/○
Homo sapiens eukaryotic translation elongation factor 2(EEF2), mRNA의 상류
(서열 번호:15)/CTCATTGAACTCGCCTGC/11/○
gi|28338|emb|X04098.1|HSACTCGR Homo sapiens mRNA for cytoskeletal gamma-actin(ACTG1 gene)
(서열 번호:16)/CTGGTTGATCCTGCCAGT/11/×
(서열 번호:17)/CTCAGTCGCCGCTGCCAG/10/○
gi|28338|emb|X04098.1|HSACTCGR Homo sapiens mRNA for cytoskeletal gamma-actin(ACTG1 gene)
(서열 번호:18)/CTTTCACTGCAAGGCGGC/10/○
gi|18314626|gb|BC021993.1|guani nenucleotide binding protein(G protein), beta polypeptide 2-like 1
(서열 번호:19)/ACGCTGTGACAGCCACAC/9/○
NM_005382의 상류
(서열 번호:20)/GTGACAGCCACACGCCCC/9/×
gi|35045|emb|Y00067.1|HSNFM Human gene for neurofilament subunit M(NF-M)
(서열 번호:21)/AACGGCTAGCCTGAGGAG/8/×
gi|188487|gb|M59828.1|HUMMHHSP Human MHC class III HSP70-1 gene(HLA), complete cds
(서열 번호:22)/AGTAGCAGCAGCGCCGGG/8/○
gi|14043071|ref|NM_031243.1|Homo sapiens heterogeneous nuclear ribonucle oprotein A2/B1
(서열 번호:23)/ATTCCTAGTTAAGGCGGC/8/○
gi|5020073|gb|AF146651.1|AF146651 Homo sapiens glyoxalase-I gene, completecds
(서열 번호:24)/AATTGTGTTCGCAGCCGC/7/○
gi|22027640|ref|NM_002107.2|Homo sapiens H3 histone, family 3A(H3F3A), mRNA
(서열 번호:25)/ATATTTCTTACTCTCTCG/7/×
gi|37704377|ref|NR_001564.1|Homo sapiens X(inactive)-specific transcript(XIST) on chromosome X
(서열 번호:26)/CTCAGTCGCCGCTGCCAA/7/○
gi|28338|emb|X04098.1|HSACTCGR Homo sapiens mRNA for cytoskeletal gamma-actin
(서열 번호:27)/AAAACGGCCAGCCTGAGG/6/×
gi|188489|gb|M59830.1|HUMMHHSP2 Human MHC class III HSP70-2 gene(HLA), completecds
(서열 번호:28)/CTCTCTTTCACTGCAAGG/6/○
gi|12652914|gb|BC000214.1|guanine nucleotide binding protein(G protein), beta polypeptide 2-like 1
(서열 번호:29)/AATTTCTACGCGCACCGG/5/○
gi|402305|gb|L24369.1|HUMRPS4A Homo sapiens ribosomal protein S4 gene
(서열 번호:30)/ACCGCCGAGACCGCGTCC/5/○
gi|10437878|dbj|AK025375.1|Homo sapiens ACTB mRNA for mutant beta-actin
(서열 번호:31)/AGACGCAGAGTAGATTGT/5/○
gi|2315183|emb|Z82216.1|HS75N13 Human DNA sequence from clone RP1-75N13 on chromosome Xq21.1,
(서열 번호:32)/AGTTCGATCGGTAGCGGG/5/×
gi|37540535|ref|XM_294582.2|Homo sapiens similar to DNA-binding protein B(LOC347295), mRNA
(서열 번호:33)/AGTTCTCGGGCGTACGGC/5/○
gi|30581134|ref|NM_006306.2|Homo sapiens SMC1 structural maintenance of chromosomes 1-like 1
(서열 번호:34)/AGTTGCTTCAGCGTCCCG/5/○
gi|32487|emb|X15183.1|HSHSP90R Human mRNA for 90-kDa heat-shock protein
(서열 번호:35)/ATTAAACGGTTGCAGGCG/5/×
gi|33239450|ref|NM_182649.1|Homo sapiens proliferating cell nuclear antigen(PCNA)transcript variant2, mRNA
(서열 번호:36)/CCGGCCGGGGGGCGGGCG/5/○
gi|555853|gb|U13369.1|HSU13369 Human ribosomal DNA complete repeating unit
(서열 번호:37)/CCTTTTGGCTCTCTGACC/5/○
gi|15718688|ref|NM_001006.2|Homo sapiens ribosomal protein S3A(RPS3A), mRNA
(서열 번호:38)/CTCAGTACAGCTCCGGCC/5/○
gi|21217408|gb|AC015849.5|Homo sapiens chromosome 17, clone RP11-362K1, complete sequence
(서열 번호:39)/CTCTTTCGGCCGCGCTGG/5/○
gi|461248|dbj|D28421.1|HUMRPL80 Homo sapiens mRNA for ribosomal protein L8 homologue, 5'UTR
얻어진 태그 중 30의 염기 서열 분석의 결과, 73% 이상(22/30)의 태그는, 실제로 cDNA의 5' 말단의 염기 서열이었다. 본 발명에 따라 높은 확률로 mRNA의 5' 말단의 염기 서열을 태그로서 수득할 수 있음이 입증되었다.
〔실시예 2〕
본 발명에 따른 mRNA의 5' 말단의 염기 서열을 포함하는 유전자 태그를 이용한 유전자 발현 분석(이하, 5'SAGE로 기재함)의 결과를 주지의 SAGE법(이하 3'SAGE로 기재함)으로 비교하였다.
재료 및 방법
3'-Long SAGE 라이브러리의 제작
HEK293으로부터 모든 RNA를 단리하고, 전술한 바와 같이 mRNA를 선택하였다(Hashimoto, S.-i., Suzuki, T., Dong, H.-Y., Yamazaki, N. & Matsushima, K. Serial analysis of gene expression in human monocytes and macrophages. Blood 94, 837-844, 1999). 표준의 SAGE 순서를 이하와 같이 변경 사용하여, mRNA 3μg으로 Long SAGE법(Saha, S. et al. Using the transcriptome to annotate the genome. Nat Biotechnol 20, 508-512, 2002)을 수행하였다.
즉, NlaIII 절단 후에, 링커 1A (5'-TTT GGA TTT GCT GGT GCA GTA CAA CTA GGC TTA ATA TCC GAC ATG-3'/서열 번호:40)과 링커 1B(5'-TCG GAT ATT AAG CCT AGT TGT ACT GCA CCA GCA AAT CC C7 아미노 수식-3'/서열 번호:41)을 서로 어닐링 하여 모든 cDNA의 절반에 연결하고, 링커 2A(5'-TTT CTG CTC GAA TTC AAG CTT CTA ACG ATG TAC GTC CGA CAT G-3'/서열 번호:42)와 링커 2B(5'-TCG GAC GTA CAT CGT TAG AAG CTT GAA TTC GAG CAG C7 아미노 수식-3'/서열 번호:43)을 서로 어닐링하여 cDNA의 나머지 절반에 연결하여, MmeI 인식 부위를 포함하는 링커를 3'cDNA말단에 연결하였다. MmeI 타입 IIs 제한 효소(Gdansk 대학 기술 이전 센터(University of Gdansk Center for Technology Transfer), 폴란드, Gdansk)를 이용하여 cDNA로부터 링커 태그 분자를 유리시켰다. 절단은, 300μl의 10mM HEPES, pH8.0, 2.5mM 초산 칼륨, 5mM 초산 마그네슘, 2mM DTT, 및 40μM S-아데노실 메티오닌 중에서 MmeI 40 유닛을 사용하여, 37℃에서 2.5 시간 행하였다. 공급 완충액 중에 T4 DNA 리가제 4 유닛을 포함하는 반응액 16μl 중에서, 링커 1 태그 분자와 링커 태그 2 분자를 16℃에서 2.5 시간 서로 직접 연결시켰다.
유리한 태그를 서로 연결하여 연쇄시키고, pZero 1.0(인비트로겐(Invitrogen))의 SphI 부위에 클로닝하였다. M13 정방향 및 M13 역방향 프라이머를 사용하여 폴리머라제 연쇄 반응법(PCR)에 의해 콜로니를 스크리닝하였다. 600bp를 넘는 삽입 단편을 포함하는 PCR 산물을, BigDye 터미네이터 ver.2에서 시퀀싱하여, 3730 ABI 자동 DNA 시퀀서(어플라이드 바이오 시스템즈(Applied Bio systems), 캘리포니아주)를 이용하여 분석하였다. 전기 영동도는 모두 육안 검사에 의해 다시 분석하고 애매한 염기를 조사하여 오독을 정정하였다. SAGE 2000 소프트웨어(버전 4.12)를 이용하여, 각 태그의 존재량을 정량하였다. 링커 서열, 다른 가능성이 있는 인공 산물, 및 반복적인 다이 태그를 제거한 후, 각 태그를 분석하였다.
5'-SAGE 라이브러리의 제작
일부 변형(Suzuki, Y., Yoshitomo-Nakagawa, K., Maruyama, K., Suyama, A. & Sugano, S. Construction and characterization of a full length-enriched and a 5'end-enriched cDNA library. Gene 200, 149-156, 1997)을 가하여, Maruyama 및 Sugano(Maruyama, K. & Sugano, S. Oligo-capping: a simple method to replace the cap structure of eukaryotic mRNAs with oligoribonucleotides. Gene 138, 171-174, 1994) 에 기재된 바와 같이 올리고 캡핑법을 수행하였다.
즉, RNasin(Promega) 100 유닛을 포함하는 100μl의 100mM Tris-HCl(pH8.0), 5mM 2-머캅토 에탄올 중에서 폴리(A)+ RNA 5~10μg를 세균 유래의 알카리포스파타제(BAP; TaKaRa) 1.2 유닛을 사용하여 37℃에서 40분간 처리하였다. 페놀:클로로포름(1:1)에서 2회 추출하여 에탄올 침전한 후, RNasin 100 유닛을 포함하는 100μl의 50mM 초산 나트륨(pH5.5), 1mM EDTA, 5mM 2-머캅토 에탄올 중에서 폴리(A)+ RNA를 타바코 산성 피로포스파타제(TAP) 20 유닛을 사용하여 37℃에서 45분간 처리하였다. 페놀:클로로포름을 추출하여 에탄올 침전한 후, BAP-TAP 처리한 폴리(A)+ RNA 2~4μg을 2개의 풀로 나누고, XhoI/MmeI 인식 부위를 포함하는 이하의 RNA 링커의 하나를 각 풀에 연결하였다: RNasin 100 유닛을 포함하는 100ml의 50mM Tris-HCl(pH7.5), 5mM MgCl2, 5mM 2-머캅토 에탄올 , 0.5mM ATP, 25% PEG8000 중에서, RNA 리가제(타카라) 250 유닛을 이용하여 5-올리고 1 (5'-UUU GGA UUU GCU GGU GCA GUA CAA CUA GGC UUA AUA CUC GAG UCC GAC -3'/서열 번호:1), 올리고 2(5'-UUU CUG CUC GAA UUC AAG CUU CUA ACG AUG UAC GCU CGA GUC CGA C-3'/서열 번호:2)를 20℃에서 3~16 시간 연결시켰다.
미연결의 5'-올리고를 제거한 후, RNaseH 프리 역전사 효소(Superscript II, Gibco BRL)에서 cDNA를 합성하였다. 5' 말단 농축 cDNA 라이브러리를 제작하기 위해 랜덤 어댑터 프라이머(5'-GCG GCT GAA GAC GGC CTA TGT GGC CNN NNN NC-3'/서열 번호:4) 10pmol을 이용하여 12℃에서 1시간 인큐베이팅하고, 42℃에서 1시간 더 인큐베이팅하였다.
제1쇄를 합성한 후, 15mM NaOH 중에서 65℃에서 1시간 인큐베이팅함으로써 RNA를 분해하였다. 올리고캡 폴리(A)+ RNA 1 mg로부터 제작한 cDNA는 XLPCR 키트(Perkin-Elmer)를 사용하여, 5'(5'비오틴 GGA TTT GCT GGT GCA GTA CAA CTA GGC TTA ATA-3'/서열 번호:5, 또는 5' 비오틴 CTG CTC GAA TTC AAG CTT CTA ACG ATG TAC G-3'/서열 번호:6) 및 3'(5'-GCG GCT GAA GAC GGC CTA TGT-3'/서열 번호:7) PCR 프라이머에 의해 100μl량으로 증폭하였다. 랜덤 어댑터 프라이머에서 신장한 cDNA에 대해서는, 증폭 사이클을 94℃에서 1분간, 58℃에서 1분간, 72℃에서 2분간 10 사이클로 하였다. PCR 산물을 페놀:클로로포름(1:1)에서 한 번 추출하여 에탄올 침전하고, MmeI 타입 IIS 제한 효소(Gdansk 대학 기술 이전 센터, 폴란드, Gdansk)로 절단하였다. 절단은, 300μl의 10mM HEPES, pH 8.0, 2.5mM 초산 칼륨, 5mM 초산 마그네슘, 2mM DTT, 및 40μM S-아데노실 메티오닌 중에서 MmeI 40 유닛을 사용하여 37℃에서 2.5시간 수행하였다.
절단한 5'-말단 cDNA 단편을, 스트렙토아비딘 코팅한 자성 비드(Dynal, 노르 웨이, 오슬로)에 결합시켰다. 비드에 결합한 cDNA 단편을 공급 완충액중에 T4 DNA 리가제 4 유닛을 포함하는 반응액 16μl 중에서 16℃에서 2.5시간, 서로 직렬 연결시켰다. 프라이머 5'-GGA TTT GCT GGT GCA GTA CAA CTA GGC-3'/서열 번호:8 및 5'-CTG CTC GAA TTC AAG CTT CTA ACG ATG-3'/서열 번호:9를 이용하여 PCR하고, 다이 태그를 증폭하였다. PCR 산물은 폴리아크릴아미드겔 전기영동(PAGE)으로 분석하고, XhoI로 절단하였다. 다이 태그를 포함하는 밴드를 잘라내어 자기 연결시켜 긴 콘카테머를 제작하였다. pZero 1.0(인비트로겐)의 XhoI 부위에, 이 콘카테머를 클로닝하였다. M13 정방향 및 M13 역방향 프라이머를 사용하여 PCR에 의해 콜로니를 스크리닝하였다. 600bp를 넘는 삽입 단편을 포함하는 PCR 산물을 BigDye 터미네이터 ver.3으로 시퀀싱하고, 3730 ABI 자동 DNA 시퀀서(어플라이드 바이오 시스템즈, 캘리포니아주)를 사용하여 분석하였다. 전기영동도는 모두 육안 검사에 의해 다시 분석하여 애매한 염기를 조사하여 오독을 정정하였다. SAGE 2000소프트웨어(버젼 4.12)를 사용하여 각 태그의 존재량을 정량하였다.
5'SAGE 태그의 대응 유전자와의 관련성
전사 개시점의 동정에서의 5'SAGE 태그의 유효성을 평가하기 위해, 5'SAGE 태그를 현행 cDNA/EST 데이터베이스와 얼라인하는 것을 피하였다. 그 배열이 항상 전사 개시점으로부터 읽혀진다고는 할 수 없기 때문이다. 대신에, http://alps.gi.k.u-tokyo.ac.jp/에 공개되어 있는 얼라인먼트 프로그램 ALPS를 사용하여, 우리의 5'-태그를 http://genome.ucsc.edu/에서 이용 가능한 인간 게놈서열, NCBI build 34와 얼라인하는 것을 시험하였다. 센스 방향에서 일치한 태그만을 이 분석에서 고려하였다.
이어서, Gene Resource Locator 데이터베이스(Honkura, T., Ogasawara, J., Yamada, T. & Morishita, S. The Gene Resource Locator: gene locus maps for transcriptome analysis. Nucleic Acids Res. 30, 221-225, 2002 URL http://grl.gi.k.u-tokyo.ac.jp/), UniGene(Build 162)(Wheeler, D.L. Database Resources of the National Center for Biotechnology. Nucleic Acids Res. 31, 28-33, 2003 URL ftp://ftp.ncbi.nih.gov/repository/UniGene/) 등의 복수의 리소스에서의 배열 얼라인먼트의 데이터베이스를 이용하여, 각 5'-태그의 얼라인먼트 위치의 근방을 검색하고, 대응하는 전사물을 발견하였다. 주된 문제점은, 레트로트랜스 포지션 및 게놈 중복이 원인으로, 하나의 5'-태그가 상당수가 비코드 영역인 복수의 위치와 얼라인되어 버리는 것이었다. 이 문제는, UniGene 데이터베이스에서 주석이 붙어 있는 유전자 코드 부위를 선택함으로써 해결하였다. 3'-태그는 3'-말단 엑손에 모이는 것이 많은데, 5'-태그는 제1 엑손에 해당될 필요는 없다. 따라서, 각 5'-태그의 얼라인먼트 위치에서 500bp 거리의 범위 내에서 검색을 행하였다.
알려진 5'전사 개시점과의 일치
각 5'SAGE 태그가 얼라인하는 위치와 그 대응하는 유전자간의 거리가 짧은 것부터, 5'-태그는 주지의 5'전사 개시점과 거의 일치하는 것이 시사되었다. 그러나, 거리를 산출하기 위해서는 5'-태그 근방에서는 선택적 스플라이싱이 원인으로 복수의 cDNA/EST 서열 얼라인먼트가 빈번하게 보이는 점에 유의해야 한다. 이 상황 을 해결하고 거리에 고유의 값을 할당하기 위하여, 5'-태그에 가장 가까운 얼라인먼트를 선택하였다. 5'-태그가 대응하는 cDNA의 상류 영역에 위치하는 경우는, 거리는 마이너스라고 정의하였다. 그렇지 않다면, 값은 플러스 또는 제로이다. 특히, 거리 제로와는 완전한 일치를 나타낸다. 전체적인 거리의 분포를 보기 위하여, mRNA 개시점의 -500~+200nt의 5'SAGE 태그 출현율의 총수를 산출하였다. RefSeq, UniGene(GRL) 및 DBTSS 데이터베이스를 따로 사용하고, 전사 개시점을 커버하는 범위의 차이를 보았다.
결과
5'SAGE
전사 개시 부위에 관하여 포괄적인 정보를 얻기 위해, 본 발명자들은 올리고 캡핑법을 사용하여 5'SAGE를 개발하였다. 5'SAGE법은 전사물의 5' 말단에서 유래하는 19~20bp의 태그를 생성하고, 이것을 신속하게 분석하여 게놈 서열 데이터에 ㅁ매치시킬 수 있다. 도 1은, 5'SAGE법의 전략을 나타낸다.
게놈의 맵핑
이 방법을 이용하여 본 발명자들은 시험 세포주로서 HEK293 세포에 있어서 발현된 전사물 25,684개의 특징을 조사하고, 이들을 인간 게놈 서열과 비교하였다. 전체적으로 태그 19,893개가, 다른 태그 13,404개를 표현하는 게놈 서열과 완전히 매치되었다(표 1).
다른 태그 13,404개의 80%(태그 10,706개)가 유일한 위치에 맵핑되었다. 게놈에 있어서 다수의 부위에 매치된 태그는 2개의 유전자좌(loci)에 맵핑된 태그가 11.1%(태그 1483개), 3~99의 유전자좌(loci)에 맵핑된 태그가 8.1%(태그 1090개), 그리고 100 이상의 유전자좌(loci)에 맵핑된 태그는 0.9%(태그 125개)였다. 다수의 게놈좌에 맵핑된 태그는 대부분이 레트로트랜스포존 엘리먼트, 반복 서열, 또는 의사 유전자에 대응된다.
표1
Figure 112006045943308-PCT00001
표1. SAGE 태그와 게놈과의 실험적인 조합(照合)
5'-end SAGE tag to genome: 게놈에 맵핑된 5' SAGE의 태그수
3'-end SAGE tag to genome: 게놈에 맵핑된 3'SAGE의 태그수
Tags mapped to genome(%): 게놈에 맵핑된 태그수(%)
Unique Tags mapped to genome(%): 게놈에 맵핑된 유니크한 태그수(%)
Relative expression level: 상대 발현 수준
#: 18 bp 5'SAGE 태그를 이용하여 게놈에 히트한 태그의 수. 맵핑은 재료와 방법의 장에 기술한 바와 같이 실시하였다. 게놈에 히트하지 않은 태그는 시퀀싱한 태그 25,684개 중 5,791개였다. 상대적 발현 수준은, 라이브러리에 있어서 인정된 전사물 태그의 총수를 다른 태그의 수에 의해 나눔으로써 결정하였다.
##: 20bp 3' SAGE 태그를 이용하여 게놈에 히트한 태그의 수. 맵핑은 재료와 방법의 장에 기술한 바와 같이 실시하였다. 게놈에 히트하지 않은 태그는 시퀀싱한 태그 81,211개 중 27,162개였다.
mRNA 개시 부위로의 맵핑
이어서, 본 발명자들은, 5'SAGE 태그가 mRNA 개시 부위에 매치하는지 여부를 추정하였다. 본 발명자들은, 참고 서열 데이터베이스(RefSeq), 조절 영역에서의 시스 요소 및 얼터너티브 스플라이싱 전사물에 관한 정보를 포함하는 유전자 맵을 구축하는 Gene Resource Locator(GRL), 및 인간 완전장 cDNAs의 계통적인 5' 말단 서 열을 포함하는 DataBase of Transcriptional Start Site(DBTSS)(Suzuki, Y. et al. DBTSS: DataBase of human Transcriptional Start Sites and full-length cDNAs. Nucleic Acids Res 30, 328-331, 2002) 를 포함하는 3개의 데이터베이스를 사용하였다. 도 2는, 거리의 분포를 나타내고, 표 2는, 거리가 짧은 태그의 발생 비율을 나타내며, 본 발명자들의 5'SAGE 태그가 각각의 데이터베이스의 개시 부위 정보와 충분히 일치하는 것을 나타내고 있다. 각각의 데이터베이스에 맵핑된 태그의 85.8%~98.2%가 mRNA 개시 부위의 -500 뉴클레오티드~+200 뉴클레오티드에 맵핑되었다.
특히, 5'SAGE 태그의 23.5~49.3%가 이들 데이터베이스에 있어서 정의된 전사 개시 부위(TSS)의 상류의 영역에 히트한다. 또한, 본 발명자들은 5'SAGE 태그에 의한 TSS 에서의 뉴클레오티드 선택성(nucleotide preference)을 조사하였다. TSS의 뉴클레오티드는 인간 유전자 276개에 있어서의 mRNA 5880개를 이용하여, A(47%), G(28%), C(14%), 및 T(12%)라고 보고되고 있다(Suzuki, Y. et al. Diverse transcriptional initiation revealed by fine, large-scale mapping of mRNA start sites. EMBO Rep 2, 388-393, 2001). 본 발명자들의 데이터는 또한 최초의 뉴클레오티드의 사용에 관하여 매우 유사한 백분율을 나타내었다: A(41%), G(32%), C(17%), 및 T(10%). 아울러 고려한다면, 본 발명자들의 5'SAGE 태그법은, TSS를 정확하게 동정할 수 있다. 데이터는 본 발명자들에게, 정확한 전사 개시 부위 정보를 제공할 뿐만 아니라, 프로모터의 이용을 분석하기 위한 리소스를 제공한다. 흥미로운 것은, 게놈에 매치되지 않은 태그는 본 연구에 있어서 5'SAGE에서의 모든 시퀀 싱 태그의 33%를 차지하였다. 그들 중, 게놈에 매치되지 않은 5'SAGE 태그의 제1의 뉴클레오티드의 39%도 또한 A였다. 게놈에 매치되지 않은 태그의 몇개는, 게놈에서의 단일 뉴클레오티드 변이 또는 결실을 갖는 영역에 히트하는 것으로 간주할 수 있다.
표 2
Figure 112006045943308-PCT00002
표2. 각 데이터베이스에서의 mRNA의 개시 부위와 대응되는 5'SAGE 태그와의 거리
distance from start site of each databese(nt): 각 데이터베이스의 개시점으로부터의 거리(뉴클레오티드)
각 데이터베이스에서의 유전자의 5' 말단으로의 맵핑에 있어서 일치하는 태 그를 도 2에 나타낸 바와 같이 분석하였다.
신규 유전자 또는 애노테이션되어 있지 않은 유전자의 동정
특징을 알지 못하는 유전자를 동정하기 위해 5'SAGE 태그를 게놈 서열, RefSeq, 및 EST 데이터베이스와 비교하였다. 게놈에 있어서 단일의 자리를 갖는 유니크한 태그 10,706개 중, 태그 9,376개를 그 대응하는 UniGene EST에 관련시킬 수 있다(표 3). 또한, 5'SAGE의 유니크한 태그 6,418개는 DBTSS에서의 주지의 유전자에 관련되어 있다. 나머지의 태그(12.4%)는 주지의 유전자의 인트론 내의 영역(5.4%) 또는 특징을 알 수 없는 영역(6.6%)에 매치시켰다. 특징을 알지 못하는 영역에 매치시킨 태그는 주로 2 부위에 히트하였다;
(1) 전혀 특징을 알지 못하는 영역,
(2) 특징을 알지 못하는 EST의 영역
그러한 유전자의 발현에 관한 증거가 있다면, 3'SAGE를 참고함으로써 완전장의 형태의 신규 유전자를 발견하는데 도움이 될 것이다.
표 3
Figure 112006045943308-PCT00003
표 3: 특징지워져 있지 않은 후보 유전자와 엑손의 동정
gene/exon category:유전자/엑손의 분류
Unique tags mapped to genome(tags occurrences): 게놈에 맵핑된 유니크한 태그(태그의 출현 빈도)
Previously annotated: 이미 애노테이션 종료
Known gene: 알려진 유전자
Previously unannotated: 아직 애노테이션 되지 않음
Internal exon(Intron): 내부 엑손(인트론)
genome: 게놈
total: 총수
10,706개가 유니크한 위치에 맵핑되고, 9,376개가 대응되는 UniGene EST에 관련된다.
SAGE는, 전사물량에 따른 정량적 정보를 얻기 위해 사용할 수 있는 매우 강력한 방법이다. 표 4는, HEK 293 세포에서의 전사물 프로필의 5' 말단을 나타낸다. 가장 발현량이 많은 유전자는 neurofilament3(NEF3)으로서 동정되고, 그 발현 빈도는 1.43%이며, 이것에 이어서 복수좌에 히트한 유전자, 및 신장 인자 2였다. NEF3, 열쇼크 70kDa 단백질 1A(heat shock 70kDa protein 1A), 칼레티큘린(calreticulin), 및 이종 핵 리보핵 단백질 H1(heterogeneous nuclear ribonucleoprotein H1)과 같은 몇몇 유전자는, 다른 태그를 나타내었다. 몇몇 유전자는, 다른 TSS로부터 전사된 것이 시사된다. 예컨대, 열쇼크 70kDa 단백질 1A는, 다른 전사 개시 부위 8개로부터 전사된다. 칼레티큘린은, 다른 전사 개시 부위 7개로부터 전사된다. 이러한 결과는, 개개의 전사 개시 부위가 유전자 발현에 관련됨을 시사하고 있다. 또한 표 4에 나타낸 염기 서열의 일부는 먼저 나타낸 실시예 1의 결과 중에도 기재되어 있다. 표 4에는 얻어진 유전자 태그 서열을 게놈 서열과 비교한 결과도 포함되어 있는 반면, 실시예 1에 있어서는 유전자 태그 서열은 게놈 서열과는 비교되어 있지 않다. 그 때문에, 유전자 태그의 염기 서열이 같더라도, 표 4의 Gene의 칼럼에 기재된 내용이 실시예 1에 기재된 애노테이션과 다른 경우가 있다.
표 4
Tag sequence SEQ ID NO. Tag count Related Unigene cluster Related refseq Gene
GCTGTGACAGCCACACGC 44 286 Hs.71346 NM_005382 Homo sapiens neurofilament 3 (150kDa medium) (NEF3), mRNA
CTTTTCCTGTGGCAGCAG 13 171 Multiple hit to genome
CTCTTTCCTTGCCTAACG 11 127 Multiple hit to genome
CTCTTCCGCCGTCGTCGC 14 120 Hs.75309 NM_001961 eukaryotic translation elongation factor 2
TACCTGGTTGATCCTGCC 12 117 Multiple hit to genome
CTGGTTGATCCTGCCAGT 16 89 Multiple hit to genome
AACGGCTAGCCTGAGGAG 21 83 Hs.274402,Hs.75452,Hs.80288 NM_005345,NM_005346 heat shock 70kDa protein 1A
AGTAGCAGCAGCGCCGGG 22 75 Hs.232400 NM_031243,NM_002137 heterogeneous nuclear ribonucleoprotein A2/B1
CTCATTGAACTCGCCTGC 15 68 Multiple hit to genome
GTGACAGCCACACGCCCC 20 66 Hs.71346 NM_005382 Homo sapiens neurofilament 3 (150kDa medium) (NEF3), mRNA
AGTTCGATCGGTAGCGGG 32 57 Multiple hit to genome
ACGCTGTGACAGCCACAC 19 56 Hs.71346 NM_005382 Homo sapiens neurofilament 3 (150kDa medium) (NEF3), mRNA
CTTTTTCGCAACGGGTTT 45 55 Multiple hit to genome
AATTTCTACGCGCACCGG 29 54 Hs.446628 NM_001007 ribosomal protein S4, X-linked
ACCGCCGAGACCGCGTCC 30 53 Hs.426930,Hs.510444 NM_001101 actin, beta
CTTTCACTGCAAGGCGGC 18 52 Hs.5662,Hs.509234 NM_006098 guanine nucleotide binding protein (G protein), beta polypeptide 2-like 1
ATATTTCTTACTCTCTCG 25 48 Homo sapiens X (inactive)-specific transcript (XIST) on chromosome X
CTCAGTCGCCGCTGCCAG 17 43 Hs.14376,Hs.500737 actin, gamma 1
ATTCCTAGTTAAGGCGGC 23 42 Hs.268849 NM_006708 glyoxalase I
AATTGTGTTCGCAGCCGC 24 37 Multiple hit to genome
CCTCCTCATCACACGCCG 46 37 Hs.15589 NM_004774 PPAR binding protein
CTTTCTGCCCGTGGACGC 47 37 Multiple hit to genome
AGTACAGCTCCGGCCGCC 48 35 Hs.402752 NM_003487,NM_139215 TAF15 RNA polymerase II, TATA box binding protein (TBP)-associated factor, 68kDa
CACCTGTTTGCAGGCTGC 49 34 Hs.146550 myosin, heavy polypeptide 9, non-muscle
CTCTCTTTCACTGCAAGG 28 33 Hs.5662,Hs.509234 NM_006098 guanine nucleotide binding protein (G protein), beta polypeptide 2-like 1
AGTTGCTTCAGCGTCCCG 34 30 Hs.446579,Hs.449634 NM_005348 heat shock 90kDa protein 1, alpha
AGTTCTCGGGCGTACGGC 33 29 Hs.211602 NM_006306 SMC1 structural maintenance of chromosomes 1-like 1 (yeast)
GTCCGTACTGCAGAGCCG 50 29 Hs.353170 NM_004343 calreticulin
AAAACGGCCAGCCTGAGG 27 27 Hs.75452 FLJ38698
ATTTCGTCTTAGCCACGC 51 26 Hs.202166 heterogeneous nuclear ribonucleoprotein H1 (H)
AGGCATTGAGGCAGCCAG 52 25 hit to genome
AGTGGGCGGACCGCGCGG 53 25 Hs.192374 NM_003299 tumor rejection antigen (gp96) 1
CCCAATTTCTACGCGCAC 54 25 Hs.446628 NM_001007 ribosomal protein S4, X-linked
CTCGTTGCGCAGTAGTGC 55 25 Hs.380118,Hs.460941 RNA binding motif protein, X-linked
GTGCTGCAGCCGCTGCCG 56 25 Hs.2795 NM_005566 lactate dehydrogenase A
CATTTCGTCTTAGCCACG 57 24 Hs.202166 heterogeneous nuclear ribonucleoprotein H1 (H)
CTCTTTCCCTAAGCAGCC 58 24 Multiple hit to genome
GACTAATTTGTTGGCGGC 59 24 Hs.280311 myosin, heavy polypeptide 10, non-muscle
ACCTCATTCATTTCTACC 60 23 Hs.279806 NM_004396 DEAD (Asp- Glu- Ala-Asp) box polypeptide 5
CCTTTCTGCCCGTGGACG 61 23 Multiple hit to genome
AGTATCTGTGGGTACCCG 62 22 Hs.433455,Hs.331035 NM_001428 enolase 1, (alpha)
CAATTTCTACGCGCACCG 63 22 Hs.446628 NM_001007 ribosomal protein S4, X-linked
GCACACAGCCATCCATCC 64 22 Hs.107600 NM_006158 neurofilament , light polypeptide 68kDa
AGTGACGCGTATTGCCTG 65 19 Hs.75337,Hs.467172 NM_004741 nucleolar and coiled-body phosphoprotein 1
CTCTTTCCAGCCAGCGCC 66 19 Multiple hit to genome
CTTTTCCGCCCGCTCCCC 67 19 Hs.374596 NM_003295 tumor protein, translationally -controlled 1
GCGTCTTGTTCTTGCCTG 68 19 Hs.180909 NM_181696,NM_181697,NM_002574 peroxiredoxin 1
ATATAGAGGCTGGGGGTG 69 18 Hs.427152 high density lipoprotein binding protein (vigilin)
ATTAAACGGTTGCAGGCG 35 18 Hs.78996,Hs.449476 NM_002592 proliferating cell nuclear antigen
CCTTTTGGCTCTCTGACC 37 18 Multiple hit to genome
표 4. HEK293 세포에서의 전사 프로필의 5'말단
Tag 시퀀스: 태그 서열
Tag count: 태그의 계수값
Related Unigene cluster: 관련 Unigene 클러스터
Related refseq: 관련 refseq
Gene: 유전자
HEK 293 세포에 있어서 발현되고 있던 상위 50의 5' 말단 전사물을 열거하였다. 태그 서열은 18-bp의 SAGE 태그를 나타낸다. 태그와 그에 대응되는 Unigene/EST를 나타내었다.
5'와 3'SAGE 태그 발현의 일치
본 발명자들은 또한 5' SAGE의 정밀도를 확인하기 위해, 같은 세포에 있어서 mRNA의 3'-Long SAGE를 시험하였다. 3'-Long SAGE에 있어서, 본 발명자들은, HEK293 세포주에서 발현된 전사물 태그 81,212개의 특징을 조사하였다. 전체에 태그 54,050개가, 다른 태그 15,423개를 표현하는 게놈 서열에 매치되었다(표 1). 다른 태그 15,423개의 75%(태그 11,613개)가 게놈에 있어서 하나의 부위에 매치되었다. 또한, 3'SAGE 태그 8,359개가 UniGene EST에서의 주지의 유전자에 관련되었다(표 3). 게놈에 있어서 다수의 부위에 매치된 태그는 2개의 자리에 매치된 태그가 9%(태그 1395개), 3~99의 자리에 매치된 태그가 13.2%(태그 2,039개), 및 100 이상의 자리에 매치된 태그가 2.4%(태그 376개)였다. 게놈에 있어서 다수의 부위에 매치된 태그의 비율은 5'SAGE와 3'SAGE 사이에서 유사하였다(표 2). 한편, 5'SAGE 태그는 3'SAGE 태그와 비교하여 매우 불균일하였다.
Seha 등도 마찬가지로, 게놈 1개당 10개보다 많은 카피를 나타내는 태그는 게놈 1개당 카피 1개만을 나타내는 태그보다 평균하여 고도로 발현되는 것을 나타내었다(Saha, S. et al.Nat Biotechno] 20, 508-512, 2002). 본 발명자들의 데이터는 또한 3~99좌/게놈에서는, 5'SAGE 및 3'SAGE 라이브러리에서의 다른 분획보다 상대적인 발현 수준이 높음을 증명하였다. 이는 레트로트랜스포지션을 통한 유전자 발현과 유전자 복제와의 상관 메카니즘에 의한다. 2개의 라이브러리 사이의 유사성의 정도를 추정하기 위해, 5'SAGE와 3'-Long SAGE 사이에서 발현된 유전자를 비교하였다.
5' 및 3' 태그는 5' 말단 및 3' 말단으로부터 각각 무작위로 채취하기 때문에, 5'태그가 특정의 완전장 cDNA 배열에 관련될 확률은 3' 태그가 cDNA에 매치될 확률과 일치할 것으로 예상된다. 그러나, 완전장의 cDNA 배열 또는 얼터너티브 스플라이싱 전사물 콜렉션이 불완전하기 때문에, 비록 이들 태그가 같은 코드 영역에서 유래한다고 할지라도, 5'태그와 3'태그 사이에 정확한 일치를 결정하는 것은 간단하지 않다. 하나의 유망한 어프로치는, 엑손을 공유하는 EST 얼라인먼트를 정리하여 유전자 코드좌와 같은 클러스터로서 다루고, 5' 및 3'SAGE 태그를 이들 ㅋ크클러스터 및 그 상류의 영역에 맵핑하고, 5' 및 3'SAGE 태그 발현 사이의 일치를 발견하는 것일 것이다. 이와 같이 하여, 본 발명자들은 각각의 유전자 코드 영역에 관한 3'(횡축) 및 5' 태그(종축)의 쌍의 발생수를 계수하고, 그리고 도 3의 이차원 평면에 모든 쌍을 나타내었다. 발현 패턴의 비교에 의해 대부분의 유전자가 쌍방의 라이브러리에서 유사한 수준으로 발현되는 것이 판명되었다. 그러나, 몇몇 전사물은, 유의적으로 다른 수준으로 발현되고, 5'SAGE와 3'SAGE 라이브러리의 피어슨 상관 계수는 0.36으로 중등도의 유사성을 나타내었다.
상관이 중등도인 이유는, 5'SAGE와 3'SAGE 라이브러리로부터의 빈도의 분산에 의한다. 이하에 유래하는 배열과 같이 이들 태그의 출현에 관하여 몇몇 가능성이 있다.
(1) 5'SAGE 및 3'SAGE에서의 PCR 증폭의 오차
(2) 3'SAGE에 있어서 NlaIII 제한 부위를 점유하는 것으로 예상되는 소수의 유전자
(3) 5'SAGE에 있어서 XhoI 제한 부위를 점유할 것으로 예상되는 소수의 유전ㅈ자
(4) 5'SAGE 및 3'SAGE에서의 mRNA의 미지의 스플라이싱 변종
(5) 다수의 게놈좌에 대한 태그의 히트에 관한 주석 오차, 또는 게놈으로의 EST 주석 오차
본 연구는, 예컨대 HEK 293 세포에 있어서 발현된 유전자의 분획만을 동정하였다. 발현된 유전자의 요지를 상세히 기술하기 위해서는, 다양한 다른 세포 타입 및 환경 조건으로부터의 다수의 태그가 필요할 것이다. 데이터가 축적되면, 5'와 3'SAGE 태그의 발현 일치에 관한 문제가 해결될 가능성이 있다.
고찰
mRNA 개시 부위 (Suzuki, Y. et al. Diverse transcriptional initiation revealed by fine, large-scale mapping of mRNA start sites. EMBO Rep 2, 388-393, 2001) 와 폴리아데닐화 절단 부위 (Pauws, E., van Kampen, A.H., van de Graaf, S.A., de Vijlder, J.J. & Ris-Stalpers, C. Heterogeneity in polyadenylation cleavage sites in mammalian mRNA sequences: implications for SAGE analysis. Nucleic Acids Res 29, 1690-1694, 2001)가 불균일성을 나타내는 것은, 몇몇 연구 그룹에 의해 보고되었다. Shiraki 등은 구축시의 특정 유전자의 TSS의 차를 보고하였지만 (Shiraki, T. et al. Cap analysis gene expression for high-throughput analysis of transcriptional starting point and identification of promoter usage. Proc Natl Acad Sci USA 100, 15776-15781, 2003), 본 발명자들의 데이터는 TSS의 다양성이 세포에 이미 존재함을 나타내고 있다. 또한, 본 발명자들의 데이터는, 5'SAGE 및 3'SAGE법에 의해 TSS와 3'말단 영역의 불균일성에 관한 직접적인 증거를 제공한다.
예컨대, PPAR 결합 단백질은 TSS 1개와 3'SAGE 태그 부위 2개를 가지고, 리보좀 단백질 S4는 TSS 16개와 3'SAGE 태그 부위 1개를 가지며, 칼레티큘린은 TSS 7개와 3'SAGE 태그 부위 1개를 갖는다. 또한, 얼터너티브 mRNA 스프라이는 인간 프로테옴의 복잡성에 매우 중요하게 관여하고 있다. 최근의 게놈 연구에서, 인간 유전자의 40~60%가 얼터너티브 스플라이싱되어 있는 것이 증명되었다 (Modrek, B. & Lee, C. A genomic view of alternative splicing. Nature Genetics 30, 13-19, 2002). 점돌연변이의 15%가 mRNA 스플라이싱 결손에 의해 인간 유전 질환을 일으키는 것으로 추정되었다(Krawczak, M., Reiss, J. & Cooper, D.N. The mutational spectrum of single base-pair substitutions in mRNA splice junctions of human genes: causes and consequences. Hum Genet 90, 41-54, 1992).
Zavolan 들은, 다수의 스플라이스형을 갖는 전사 유닛는 49%가, 얼터너티브 전사 개시의 사용이 최초의 엑손의 얼터너티브 스플라이싱을 수반하는 전사물을 포함하는 것을 보고하였다(Zavolan, M. et al. Impact of alternative initiation, splicing, and termination on the diversity of the mRNA transcripts encoded by the mouse transcriptome. Genome Res 13, 1290-1300, 2003). 본 발명자들은 또한 퍼옥시레독신 4(NM_006406)과 같은 몇몇 유전자의 각각의 mRNA 개시 부위가 mRNA의 다른 스플라이싱 변이체를 나타낼 뿐 아니라, 유전자 발현이 다른량을 나타내는 것을 발견하였다. 이는, 얼터너티브 전사가 얼터너티브 스플라이싱을 자주 유도할 가능성이 있음을 의미한다.
최근, 캡 트래퍼 시스템을 사용하여 전사 개시점을 동정하는 신규 방법이 보고 되고 있었다 (Shiraki, T. et al. Proc Natl Acad Sci USA 100, 15776-15781, 2003). 그러나, mRNA 개시 부위의 맵핑의 동정 효율은, 그 방법에서는 현저하지 않다. 본 발명자들의 연구에서 기술된 5'SAGE법에 의해 TSS를 정확하게 맵핑할 수 있고, 마찬가지로 유전자 발현 빈도를 확립할 수 있다.
결론적으로, 5'SAGE법을 이용하면, 게놈의 주석이 상당히 촉진될 가능성이 있다. 5'SAGE는, 유전자 배열의 a priori 지식에 의존하지 않는 적은 하이 스루풋 발견 어프로치의 하나이므로, 그러한 데이터에 의해 in silico 유전자 예측의 독립된 확인 및 미주석 영역의 동정이 즉시 가능하게 될 것이다. 또한, 5'SAGE법은, 5'UTR/프로모터 영역에 있어서 SNP를 발견하는데 유용할 것이다. 다른 타입의 특이적 mRNA 개시 부위로부터 전사된 유전자를 포괄적으로 동정하면, 인간 게놈의 기능적 복잡성에 대한 설명뿐만 아니라, 암, 면역, 및 신경 질환과 같은 다양한 장애의 진단의 기초에 대하여 새로운 통찰을 얻을 수 있다.
마지막으로, 5' 말단의 다양성을 고려하면, 유전자 발현의 빈도를 결정하기 위해서는, 3'SAGE 보다 5'SAGE를 행하는 것이 더 적당할 것이다.
본 발명은 유전자 태그의 수득에 유용하다. 유전자 태그는, 유전자에 고유한 염기 서열 정보이다. 따라서, 어떠한 유전자 라이브러리에 있어서의 태그의 출현 빈도는, 그 라이브러리를 구성하는 모든 유전자의 발현 상태를 반영하고 있다고 생각된다. 그 때문에, 유전자 태그는 유전자 발현의 분석에 유용하다. 특히 본 발명에 의해 얻을 수 있는 유전자 태그는, 모든 mRNA가 가지고 있는 5' 말단의 구조에 따라 생성된다. 따라서, 본 발명에 의해 생성되는 태그에 따른 유전자 발현의 분석 결과는 더욱 신뢰성이 높다.
또한 본 발명의 태그는 mRNA의 5' 말단 영역의 염기 서열 정보를 포함하고 있다. 따라서, 본 발명에 의해 생성되는 태그의 염기 서열 정보에 따라 게놈에서의 전사 개시점을 동정할 수 있다. 또한 본 발명의 태그의 염기 서열 정보에 따라 디자인된 올리고 뉴클레오티드는 전장 cDNA의 합성용 프라이머로서 이용할 수 있다.
또한 본 명세서에 있어서 인용된 모든 선행 기술 문헌은 참조로서 본 명세서에 편입된다.
SEQUENCE LISTING <110> POST GENOME INSTITUTE CO., LTD. <120> METHOD OF OBTAINING GENE TAG <130> PGI-A0301Y1P <150> JP 2003-402306 <151> 2003-12-01 <150> JP 2004-6630 <151> 2004-01-14 <160> 69 <170> PatentIn version 3.1 <210> 1 <211> 48 <212> RNA <213> Artificial <220> <223> an artificially synthesized RNA linker sequence <400> 1 uuuggauuug cuggugcagu acaacuaggc uuaauacucg aguccgac 48 <210> 2 <211> 46 <212> RNA <213> Artificial <220> <223> an artificially synthesized RNA linker sequence <400> 2 uuucugcucg aauucaagcu ucuaacgaug uacgcucgag uccgac 46 <210> 3 <211> 42 <212> DNA <213> Artificial <220> <223> an artificially synthesized primer sequence <400> 3 gcggctgaag acggcctatg tggccttttt tttttttttt tt 42 <210> 4 <211> 32 <212> DNA <213> Artificial <220> <223> an artificially synthesized primer sequence <220> <221> misc_feature <222> (26)..(31) <223> "n"=a, t, g or c <400> 4 gcggctgaag acggcctatg tggccnnnnn nc 32 <210> 5 <211> 33 <212> DNA <213> Artificial <220> <223> an artificially synthesized primer sequence <220> <221> misc_feature <222> (1)..(1) <223> Label biotin <400> 5 ggatttgctg gtgcagtaca actaggctta ata 33 <210> 6 <211> 31 <212> DNA <213> Artificial <220> <223> an artificially synthesized primer sequence <220> <221> misc_feature <222> (1)..(1) <223> Label biotin <400> 6 ctgctcgaat tcaagcttct aacgatgtac g 31 <210> 7 <211> 21 <212> DNA <213> Artificial <220> <223> an artificially synthesized primer sequence <400> 7 gcggctgaag acggcctatg t 21 <210> 8 <211> 27 <212> DNA <213> Artificial <220> <223> an artificially synthesized primer sequence <400> 8 ggatttgctg gtgcagtaca actaggc 27 <210> 9 <211> 27 <212> DNA <213> Artificial <220> <223> an artificially synthesized primer sequence <400> 9 ctgctcgaat tcaagcttct aacgatg 27 <210> 10 <211> 18 <212> DNA <213> Homo sapiens <400> 10 acatctgacc tcatggag 18 <210> 11 <211> 18 <212> DNA <213> Homo sapiens <400> 11 ctctttcctt gcctaacg 18 <210> 12 <211> 18 <212> DNA <213> Homo sapiens <400> 12 tacctggttg atcctgcc 18 <210> 13 <211> 18 <212> DNA <213> Homo sapiens <400> 13 cttttcctgt ggcagcag 18 <210> 14 <211> 18 <212> DNA <213> Homo sapiens <400> 14 ctcttccgcc gtcgtcgc 18 <210> 15 <211> 18 <212> DNA <213> Homo sapiens <400> 15 ctcattgaac tcgcctgc 18 <210> 16 <211> 18 <212> DNA <213> Homo sapiens <400> 16 ctggttgatc ctgccagt 18 <210> 17 <211> 18 <212> DNA <213> Homo sapiens <400> 17 ctcagtcgcc gctgccag 18 <210> 18 <211> 18 <212> DNA <213> Homo sapiens <400> 18 ctttcactgc aaggcggc 18 <210> 19 <211> 18 <212> DNA <213> Homo sapiens <400> 19 acgctgtgac agccacac 18 <210> 20 <211> 18 <212> DNA <213> Homo sapiens <400> 20 gtgacagcca cacgcccc 18 <210> 21 <211> 18 <212> DNA <213> Homo sapiens <400> 21 aacggctagc ctgaggag 18 <210> 22 <211> 18 <212> DNA <213> Homo sapiens <400> 22 agtagcagca gcgccggg 18 <210> 23 <211> 18 <212> DNA <213> Homo sapiens <400> 23 attcctagtt aaggcggc 18 <210> 24 <211> 18 <212> DNA <213> Homo sapiens <400> 24 aattgtgttc gcagccgc 18 <210> 25 <211> 18 <212> DNA <213> Homo sapiens <400> 25 atatttctta ctctctcg 18 <210> 26 <211> 18 <212> DNA <213> Homo sapiens <400> 26 ctcagtcgcc gctgccaa 18 <210> 27 <211> 18 <212> DNA <213> Homo sapiens <400> 27 aaaacggcca gcctgagg 18 <210> 28 <211> 18 <212> DNA <213> Homo sapiens <400> 28 ctctctttca ctgcaagg 18 <210> 29 <211> 18 <212> DNA <213> Homo sapiens <400> 29 aatttctacg cgcaccgg 18 <210> 30 <211> 18 <212> DNA <213> Homo sapiens <400> 30 accgccgaga ccgcgtcc 18 <210> 31 <211> 18 <212> DNA <213> Homo sapiens <400> 31 agacgcagag tagattgt 18 <210> 32 <211> 18 <212> DNA <213> Homo sapiens <400> 32 agttcgatcg gtagcggg 18 <210> 33 <211> 18 <212> DNA <213> Homo sapiens <400> 33 agttctcggg cgtacggc 18 <210> 34 <211> 18 <212> DNA <213> Homo sapiens <400> 34 agttgcttca gcgtcccg 18 <210> 35 <211> 18 <212> DNA <213> Homo sapiens <400> 35 attaaacggt tgcaggcg 18 <210> 36 <211> 18 <212> DNA <213> Homo sapiens <400> 36 ccggccgggg ggcgggcg 18 <210> 37 <211> 18 <212> DNA <213> Homo sapiens <400> 37 ccttttggct ctctgacc 18 <210> 38 <211> 18 <212> DNA <213> Homo sapiens <400> 38 ctcagtacag ctccggcc 18 <210> 39 <211> 18 <212> DNA <213> Homo sapiens <400> 39 ctctttcggc cgcgctgg 18 <210> 40 <211> 45 <212> DNA <213> Artificial <220> <223> an artificially synthesized DNA linker sequence <400> 40 tttggatttg ctggtgcagt acaactaggc ttaatatccg acatg 45 <210> 41 <211> 38 <212> DNA <213> Artificial <220> <223> an artificially synthesized DNA linker sequence <220> <221> misc_feature <222> (38)..(38) <223> C7-amino-modified <400> 41 tcggatatta agcctagttg tactgcacca gcaaatcc 38 <210> 42 <211> 43 <212> DNA <213> Artificial <220> <223> an artificially synthesized DNA linker sequence <400> 42 tttctgctcg aattcaagct tctaacgatg tacgtccgac atg 43 <210> 43 <211> 36 <212> DNA <213> Artificial <220> <223> an artificially synthesized DNA linker sequence <220> <221> misc_feature <222> (36)..(36) <223> C7-amino-modified <400> 43 tcggacgtac atcgttagaa gcttgaattc gagcag 36 <210> 44 <211> 18 <212> DNA <213> Homo sapiens <400> 44 gctgtgacag ccacacgc 18 <210> 45 <211> 18 <212> DNA <213> Homo sapiens <400> 45 ctttttcgca acgggttt 18 <210> 46 <211> 18 <212> DNA <213> Homo sapiens <400> 46 cctcctcatc acacgccg 18 <210> 47 <211> 18 <212> DNA <213> Homo sapiens <400> 47 ctttctgccc gtggacgc 18 <210> 48 <211> 18 <212> DNA <213> Homo sapiens <400> 48 agtacagctc cggccgcc 18 <210> 49 <211> 18 <212> DNA <213> Homo sapiens <400> 49 cacctgtttg caggctgc 18 <210> 50 <211> 18 <212> DNA <213> Homo sapiens <400> 50 gtccgtactg cagagccg 18 <210> 51 <211> 18 <212> DNA <213> Homo sapiens <400> 51 atttcgtctt agccacgc 18 <210> 52 <211> 18 <212> DNA <213> Homo sapiens <400> 52 aggcattgag gcagccag 18 <210> 53 <211> 18 <212> DNA <213> Homo sapiens <400> 53 agtgggcgga ccgcgcgg 18 <210> 54 <211> 18 <212> DNA <213> Homo sapiens <400> 54 cccaatttct acgcgcac 18 <210> 55 <211> 18 <212> DNA <213> Homo sapiens <400> 55 ctcgttgcgc agtagtgc 18 <210> 56 <211> 18 <212> DNA <213> Homo sapiens <400> 56 gtgctgcagc cgctgccg 18 <210> 57 <211> 18 <212> DNA <213> Homo sapiens <400> 57 catttcgtct tagccacg 18 <210> 58 <211> 18 <212> DNA <213> Homo sapiens <400> 58 ctctttccct aagcagcc 18 <210> 59 <211> 18 <212> DNA <213> Homo sapiens <400> 59 gactaatttg ttggcggc 18 <210> 60 <211> 18 <212> DNA <213> Homo sapiens <400> 60 acctcattca tttctacc 18 <210> 61 <211> 18 <212> DNA <213> Homo sapiens <400> 61 cctttctgcc cgtggacg 18 <210> 62 <211> 18 <212> DNA <213> Homo sapiens <400> 62 agtatctgtg ggtacccg 18 <210> 63 <211> 18 <212> DNA <213> Homo sapiens <400> 63 caatttctac gcgcaccg 18 <210> 64 <211> 18 <212> DNA <213> Homo sapiens <400> 64 gcacacagcc atccatcc 18 <210> 65 <211> 18 <212> DNA <213> Homo sapiens <400> 65 agtgacgcgt attgcctg 18 <210> 66 <211> 18 <212> DNA <213> Homo sapiens <400> 66 ctctttccag ccagcgcc 18 <210> 67 <211> 18 <212> DNA <213> Homo sapiens <400> 67 cttttccgcc cgctcccc 18 <210> 68 <211> 18 <212> DNA <213> Homo sapiens <400> 68 gcgtcttgtt cttgcctg 18 <210> 69 <211> 18 <212> DNA <213> Homo sapiens <400> 69 atatagaggc tgggggtg 18

Claims (30)

  1. 다음의 공정을 포함하는 진핵 세포의 유전자 태그의 제조 방법:
    (1) RNA의 CAP 부위에 IIs형 제한 효소의 인식 서열을 포함하는 RNA 링커를 연결하는 공정,
    (2) (1)의 RNA를 주형으로 하여 cDNA를 합성하는 공정, 및
    (3) (2)의 cDNA에 RNA 링커에 포함되는 인식 서열을 인식하는 IIs형 제한 효소를 작용시키고, 유전자 태그를 생성하는 공정.
  2. 제1항에 있어서, 공정(2)가 다음의 공정에 의해 cDNA를 합성하는 공정을 포함하는 방법:
    i) RNA의 임의의 영역에 어닐링하는 프라이머에 의해 cDNA의 제1쇄를 합성하는 공정, 및
    ii) 제1쇄의 RNA 링커를 주형으로 하여 합성된 영역에 어닐링하는 프라이머에 의해 cDNA의 제2쇄를 합성하여 2쇄 cDNA로 하는 공정.
  3. 제2항에 있어서, 제1쇄의 RNA 링커를 주형으로 하여 합성된 영역에 어닐링하는 프라이머가 고상에 결합할 수 있는 표지를 갖는지, 또는 고상에 고정화되어 있고, 상기 고상의 회수에 의해 2쇄 cDNA를 회수하는 공정을 부가적으로 포함하는 방법.
  4. 제3항에 있어서, IIs형 제한 효소를 작용시키기 전 또는 후에 고상을 회수하는 방법.
  5. 제1항에 있어서, RNA 링커가 II형 제한 효소의 인식 서열을 부가적으로 포함하는 방법.
  6. 제1항에 있어서, 유전자 태그의 IIs형 제한 효소의 절단 부위를 다른 유전자 태그의 IIs형 제한 효소의 절단 부위와 연결시키고, 다이 태그(ditag)를 생성하는 공정을 부가적으로 포함하는 방법.
  7. 제6항에 있어서, RNA 링커에 어닐링하는 프라이머에 의해 다이 태그를 증폭하는 공정을 부가적으로 포함하는 방법.
  8. 제1항에 있어서, 유전자 태그의 IIs형 제한 효소의 절단 부위에 임의의 염기 서열을 갖는 어댑터를 연결하고, RNA 링커와, 상기 어댑터에 어닐링하는 프라이머에 의해 유전자 태그를 증폭하는 공정을 부가적으로 포함하는 방법.
  9. 제1항에 기재된 방법에 의해 생성된 유전자 태그를 복수개 연결하는 공정을 포함하는 유전자 태그의 콘카테머(concatemer)의 제조 방법.
  10. 제6항에 기재된 방법에 의해 생성된 다이 태그를 복수개 연결하는 공정을 포함하는 유전자 태그의 콘카테머의 제조 방법.
  11. 제9항 또는 제10항에 기재된 방법에 의해 제조된 콘카테머의 염기 서열을 결정하는 공정을 포함하는 유전자 태그의 염기 서열 결정 방법.
  12. 다음의 요소를 포함한 유전자 태그의 제조용 시약 키트:
    (a) IIs형 제한 효소의 인식 서열을 포함하는 올리고뉴클레오티드로 이루어지는 RNA 링커,
    (b) RNA 링커를 RNA의 CAP 부위에 연결하기 위한 시약,
    (c) RNA 링커를 주형으로 하여 합성된 cDNA에 어닐링하는 올리고뉴클레오티드로 이루어지는 cDNA 제2쇄 합성용 프라이머, 및
    (d) cDNA 제1쇄 합성용 프라이머.
  13. 제12항에 있어서, cDNA 제1쇄 합성용 프라이머가 이하의 i)-iii)로 이루어지는 군에서 선택되는 어느 하나의 프라이머인 키트:
    i) 랜덤 프라이머,
    ii) 올리고 dT 프라이머, 및
    ii) 특정의 mRNA에 상보적인 염기 서열을 포함하는 프라이머.
  14. 다음의 공정을 포함하는 진핵 세포에서의 유전자의 발현 프로필의 수득 방법:
    (1) 제1항에 기재된 방법에 의해 유전자 태그를 제조하는 공정,
    (2) (1)의 유전자 태그의 염기 서열을 결정하는 공정, 및
    (3) 결정된 염기 서열과 그 출현 빈도를 대응시킴으로써 발현 프로필을 얻는 공정.
  15. 제14항에 기재된 방법에 의해 수득된 유전자 발현 프로필 정보를 축적한 유전자 발현 프로필의 데이터베이스.
  16. 제14항에 기재된 방법에 의해 다른 종류의 세포의 유전자 발현 프로필을 수득하고, 유전자 발현 프로필을 비교하여 세포간에 발현 빈도가 다른 유전자 태그를 선택하는 공정을 포함하는 유전자 발현 프로필의 분석 방법.
  17. 다음의 공정을 포함하는 유전자의 전사 개시점의 결정 방법:
    (1) 제1항에 기재된 방법에 의해 유전자 태그를 제조하는 공정,
    (2) (1)의 유전자 태그의 염기 서열을 결정하는 공정, 및
    (3) 결정된 염기 서열을 게놈의 염기 서열 상에 맵핑하고, 염기 서열이 일치한 영역을 해당 유전자의 전사 개시점으로 동정하는 공정.
  18. 제17항에 있어서, cDNA 제1쇄의 합성을 위한 프라이머가 특정 유전자의 염기 서열로부터 선택된 염기 서열로 이루어지고, 해당 유전자의 전사 개시점을 결정하는 것을 특징으로 하는 방법.
  19. 다음의 공정에 의해 결정된 염기 서열 또는 그 상보 서열을 포함하는 cDNA를 합성하기 위한 5'측의 프라이머와, cDNA의 임의의 부위에 어닐링하는 3'측의 프라이머를 포함한 cDNA 합성용 프라이머 세트:
    (1) 제1항에 기재된 방법에 의해 유전자 태그를 제조하는 공정, 및
    (2) (1)의 유전자 태그의 염기 서열을 결정하는 공정.
  20. 제19항에 있어서, 3'측 프라이머가 하기의 군에서 선택된 어느 하나의 프라이머인 프라이머 세트:
    i) 올리고 dT 프라이머,
    ii) cDNA의 단편 서열 정보, 및
    iii) cDNA의 II형 제한 효소 인식에 인접하는 유전자 태그의 염기 서열 또는 그 상보 서열로 이루어지는 프라이머.
  21. 다음의 공정을 포함하는 전장 cDNA의 합성 방법:
    a) 다음의 공정에 의해 결정된 염기 서열 또는 그 상보 서열을 포함하는 cDNA를 합성하기 위한 5'측의 프라이머와, 올리고 dT 프라이머로 이루어지는 3'측의 프라이머를 사용하고, RNA 또는 cDNA를 주형으로 하여 상보쇄 합성 반응을 수행하는 공정, 및
    (1) 제1항에 기재된 방법에 의해 유전자 태그를 제조하는 공정, 및
    (2) (1)의 유전자 태그의 염기 서열을 결정하는 공정,
    b) 합성된 DNA를 전장 cDNA로서 회수하는 공정.
  22. 제21항에 기재된 방법에 의해 수득된 전장 cDNA.
  23. 제22항에 기재된 전장 cDNA에 의해 코딩되는 아미노산 서열을 포함하는 폴리펩티드.
  24. 제23항에 기재된 폴리펩티드를 인식하는 항체.
  25. 제22항에 기재된 전장 cDNA의 코딩 영역을 발현 가능하게 유지하는 벡터.
  26. 제25항에 기재된 벡터를 발현 가능하게 유지하는 형질 전환체.
  27. 제23항에 있어서, 제26항에 기재된 형질 전환체를 배양하고, 발현 산물을 회수하는 공정을 포함하는 폴리펩티드의 제조 방법.
  28. 제23항에 있어서, 이하의 공정을 포함하는 폴리펩티드의 제조 방법:
    i) 프로모터에 작동가능하게 연결된 제22항에 기재된 전장 cDNA의 코딩 영역을 포함하는 DNA 구축물을 시험관 내 번역을 지지하는 요소와 접촉시키는 공정, 및
    ii) 발현 산물을 회수하는 공정.
  29. 다음의 공정을 포함하는 mRNA의 5' 말단의 염기 서열을 포함하는 cDNA의 합성 방법:
    a) 다음의 공정 (1)-(2)에 의해 결정된 염기 서열 또는 그 상보 서열을 포함하는 cDNA를 합성하기 위한 5'측의 프라이머와, 목적으로 하는 mRNA의 임의의 영역에 대하여 상보적인 염기 서열로 이루어지는 3'측의 프라이머를 사용하고, RNA 또는 cDNA를 주형으로 하여 상보쇄 합성 반응을 수행하는 공정, 및
    (1) 제1항에 기재된 방법에 의해 유전자 태그를 제조하는 공정, 및
    (2) (1)의 유전자 태그의 염기 서열을 결정하는 공정,
    b) 합성된 DNA를 mRNA의 5' 말단의 염기 서열을 포함하는 cDNA로서 회수하는 공정.
  30. 제29항에 기재된 방법에 의해 회수된 cDNA의 염기 서열을 결정하는 공정을 포함하는 mRNA의 5'측의 염기 서열을 결정하는 방법.
KR1020067012895A 2003-12-01 2004-06-04 유전자 태그의 수득 방법 KR20060130599A (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2003402306 2003-12-01
JPJP-P-2003-00402306 2003-12-01
JPJP-P-2004-00006630 2004-01-14
JP2004006630A JP3845416B2 (ja) 2003-12-01 2004-01-14 遺伝子タグの取得方法

Publications (1)

Publication Number Publication Date
KR20060130599A true KR20060130599A (ko) 2006-12-19

Family

ID=34656193

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020067012895A KR20060130599A (ko) 2003-12-01 2004-06-04 유전자 태그의 수득 방법

Country Status (10)

Country Link
US (1) US20090117538A1 (ko)
EP (1) EP1698694A4 (ko)
JP (1) JP3845416B2 (ko)
KR (1) KR20060130599A (ko)
AU (1) AU2004295532A1 (ko)
CA (1) CA2547885A1 (ko)
IL (1) IL175709A0 (ko)
NO (1) NO20063063L (ko)
RU (1) RU2006123468A (ko)
WO (1) WO2005054465A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007028923A (ja) * 2005-07-22 2007-02-08 Post Genome Institute Co Ltd 転写開始部位を含む1本鎖遺伝子タグ群の製造方法
CN101153336B (zh) 2006-09-27 2011-09-07 香港中文大学 检测dna甲基化程度的方法和试剂盒
LT2334812T (lt) * 2008-09-20 2017-04-25 The Board Of Trustees Of The Leland Stanford Junior University Neinvazinis fetalinės aneuploidijos diagnozavimas sekvenavimu
EP2494052A4 (en) * 2009-10-30 2013-08-28 Univ California BACTERIAL METASTRUCTURE AND METHODS OF USE
US20110312503A1 (en) 2010-01-23 2011-12-22 Artemis Health, Inc. Methods of fetal abnormality detection

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5866330A (en) * 1995-09-12 1999-02-02 The Johns Hopkins University School Of Medicine Method for serial analysis of gene expression
WO2002010438A2 (en) * 2000-07-28 2002-02-07 The Johns Hopkins University Serial analysis of transcript expression using long tags
US20050250100A1 (en) * 2002-06-12 2005-11-10 Yoshihide Hayashizaki Method of utilizing the 5'end of transcribed nucleic acid regions for cloning and analysis
GB0228289D0 (en) * 2002-12-04 2003-01-08 Genome Inst Of Singapore Nat U Method

Also Published As

Publication number Publication date
WO2005054465A1 (ja) 2005-06-16
US20090117538A1 (en) 2009-05-07
CA2547885A1 (en) 2005-06-16
NO20063063L (no) 2006-08-31
JP2005185269A (ja) 2005-07-14
IL175709A0 (en) 2006-09-05
AU2004295532A1 (en) 2005-06-16
JP3845416B2 (ja) 2006-11-15
EP1698694A4 (en) 2007-04-04
EP1698694A1 (en) 2006-09-06
RU2006123468A (ru) 2008-01-10

Similar Documents

Publication Publication Date Title
US11814678B2 (en) Universal short adapters for indexing of polynucleotide samples
US11788139B2 (en) Optimal index sequences for multiplex massively parallel sequencing
Swart et al. The Oxytricha trifallax macronuclear genome: a complex eukaryotic genome with 16,000 tiny chromosomes
EP3495498B1 (en) Gene expression analysis in single cells
US8574832B2 (en) Methods for preparing sequencing libraries
CN114174530A (zh) 用于分析核酸的方法和组合物
CN107109698B (zh) Rna stitch测序:用于直接映射细胞中rna:rna相互作用的测定
US20050250100A1 (en) Method of utilizing the 5&#39;end of transcribed nucleic acid regions for cloning and analysis
JP3845416B2 (ja) 遺伝子タグの取得方法
CA3211616A1 (en) Cell barcoding compositions and methods
Emamjomeh et al. Identification, prediction and data analysis of noncoding RNAs: a review
JP2004187606A (ja) 核酸アイソフォームの同定、分析および/またはクローニング方法
Salama The complexity of the mammalian transcriptome
Dalla et al. Discovery of 342 putative new genes from the analysis of 5′-end-sequenced full-length-enriched cDNA human transcripts
JP6417603B2 (ja) Rnaの末端領域に対応する核酸の塩基配列を解読する方法およびdnaエレメントの分析方法
Hung RNA interactome identification by next-generation sequencing (RIINGS): a novel method for identifying microRNA-RNA interactome in exact correspondence
US20030215839A1 (en) Methods and means for identification of gene features
WO2004053160A2 (en) Method to analyze polymeric nucleic acid sequence variations

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid