KR101007346B1 - 표적 mrna와 상보적인 염기서열을 가지는 sirna를 이용하여표적 mrna의 발현을 억제하는 방법 - Google Patents

표적 mrna와 상보적인 염기서열을 가지는 sirna를 이용하여표적 mrna의 발현을 억제하는 방법 Download PDF

Info

Publication number
KR101007346B1
KR101007346B1 KR1020077012736A KR20077012736A KR101007346B1 KR 101007346 B1 KR101007346 B1 KR 101007346B1 KR 1020077012736 A KR1020077012736 A KR 1020077012736A KR 20077012736 A KR20077012736 A KR 20077012736A KR 101007346 B1 KR101007346 B1 KR 101007346B1
Authority
KR
South Korea
Prior art keywords
sirna
binding energy
combination
target mrna
factor
Prior art date
Application number
KR1020077012736A
Other languages
English (en)
Other versions
KR20070094601A (ko
Inventor
최영철
박한오
정소림
김영주
김상수
박성민
김상철
윤규만
최경옥
강효진
Original Assignee
(주)바이오니아
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)바이오니아 filed Critical (주)바이오니아
Publication of KR20070094601A publication Critical patent/KR20070094601A/ko
Application granted granted Critical
Publication of KR101007346B1 publication Critical patent/KR101007346B1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/111General methods applicable to biologically active non-coding nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/14Type of nucleic acid interfering N.A.
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2320/00Applications; Uses
    • C12N2320/10Applications; Uses in screening processes
    • C12N2320/11Applications; Uses in screening processes for the determination of target sites, i.e. of active nucleic acids

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Zoology (AREA)
  • General Engineering & Computer Science (AREA)
  • Wood Science & Technology (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biochemistry (AREA)
  • Plant Pathology (AREA)
  • Microbiology (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 표적 mRNA의 발현을 억제하는 방법에 관한 것으로서, 보다 상세하게는 (1) 임의의 표적 mRNA에 대해 상보적인 nucleotide로 이루어진 모든 조합의 dsRNA 서열에 대해 이중결합 구간의 결합에너지를 구하는 단계; (b) 상기 각 조합의 dsRNA 서열에 대하여, 상기 결합에너지를 네 개의 구간으로 분할한 후 각 구간 사이의 평균 결합에너지 차를 구하고 이를 상대적인 결합에너지 형태의 점수로 환산하는 단계; (c) 상기 각 조합의 dsRNA 서열에 대하여, 상기 환산된 점수를 siRNA의 효율에 영향을 미치는 다른 인자들과 함께 적용하여, 표적 mRNA에 대한 억제 효율이 높을 것으로 예측되는 siRNA를 선별하는 단계; 및 (d) 상기에서 선별된 siRNA를 이용하여 표적 mRNA의 발현을 억제하는 단계를 포함하는 siRNA를 이용하여 표적 mRNA의 발현을 억제하는 방법에 관한 것이다. 본 발명의 방법을 이용하면 연구자나 실험자가 실제로 실험을 해보지 않고서도 미지의 siRNA의 염기서열에 대한 상대적인 결합에너지의 패턴을 분석함으로써 상기 siRNA가 효율적인지 또는 비효율적인지 여부를 판별할 수 있으므로, siRNA의 설계 및 제작 효율을 극대화 시킬 수 있으며, 선별된 siRNA를 이용하여 표적 mRNA의 발현을 효과적으로 억제할 수 있다.

Description

표적 MRNA와 상보적인 염기서열을 가지는 SIRNA를 이용하여 표적 MRNA의 발현을 억제하는 방법{METHOD OF INHIBITING EXPRESSION OF TARGET mRNA USING siRNA CONSISTING OF NUCLEOTIDE SEQUENCE COMPLEMENTARY TO SAID TARGET mRNA}
본 발명은 siRNA를 이용하여 표적 mRNA의 발현을 억제하는 방법에 관한 것으로서, 보다 상세하게는 표적 mRNA의 활성을 억제하는 임의의 siRNA (small interfering RNA) 염기서열의 인접 또는 비인접 구간 사이의 상대적인 결합에너지 패턴을 분석함으로써 최적의 억제 효율을 보일 것으로 예측되는 siRNA를 선별한 후, 상기 siRNA를 이용하여 표적 mRNA의 발현을 억제하는 방법에 관한 것이다.
RNA 간섭(RNA interference 또는 RNAi)은 이중나선 RNA (double-stranded RNA 또는 dsRNA)에 의해 동일한 염기서열을 지닌 목표 mRNA가 세포질에서 분해되는 현상을 말한다. 1998년 Fire와 Mello에 의해 C. elegans(선충)에서 처음 밝혀진 이후 초파리(Drosophila), 트리파노소마(Trypanosoma, 편모충의 일종), 척추동물(vertebrate) 등에서도 RNAi 현상이 일어난다는 것이 보고되었다(Tabara H, Grishok A, Mello CC, Science, 282(5388), 430-1, 1998). 인간의 경우 dsRNA를 세포에 도입할 때 항바이러스성 인터페론 기작(antiviral interferon pathway)이 유발되어 RNAi 효과를 보기가 힘들었는데, 2001년 Elbashir와 Tuschl 등에 의해 21 nt(nucleotide)의 작은 dsRNA를 인간 세포에 도입하는 경우에는 interferon pathway가 유발되지 않고 표적 mRNA를 특이적으로 분해시킨다는 것이 밝혀졌다(Elbashir,S.M., Harborth,J., Lendeckel,W., Yalcin,A., Weber, K., Tuschl,T., Nature, 411, 494-498, 2001; Elbashir,S.M., Lendeckel,W., Tuschl,T., Genes & Dev., 15, 188-200, 2001; Elbashir,S.M., Martinez,J., Patkaniowska,A., Lendeckel,W., Tuschl,T., EMBO J., 20, 6877-6888, 2001). 이후 21 nt의 dsRNA는 small interfering RNA (siRNA)라는 이름으로 새로운 기능유전체학(functional genomics)의 도구로서 각광을 받기 시작하였고, 그 중요성을 인정받아 2002년도 Science 저널에서 small interfering RNA(siRNA와 microRNA)가 Breakthrough of the year 1번으로 선정되게 되었다(Jennifer Couzin, BREAKTHROUGH OF THE YEAR:Small RNAs Make Big Splash, Jennifer Couzin, Science 20 December 2002: 2296-2297).
RNAi는 기존의 안티센스 RNA(antisense RNA)기술에 비해 기능유전체학(functional genomics)과 치료(therapeutics)의 수단으로서 몇 가지 장점을 가지고 있다. 첫째, antisense RNA에서는 효율적인 목표 염기서열을 찾기 위해 많은 수의 antisense RNA를 합성하여 많은 시간과 경비를 들여 실험을 해야 하는데 반해, siRNA의 경우에는 몇몇 알고리즘을 통해 그 효율이 어느 정도 예측 가능해 보다 적은 수의 실험을 통해서도 효율이 높은 siRNA를 찾을 수 있다.
둘째, siRNA(RNAi)는 antisense RNA보다 더 낮은 농도에서 효율적으로 유전자 발현을 억제시킬 수 있다고 알려져 있다. 이는 연구용으로 사용될 때 더 적은 양을 사용할 수 있고, 특히 치료제로 사용될 때 아주 효과적일 수 있음을 의미한다. 셋째, RNAi에 의한 유전자 발현 억제는 생체 내에서 자연적으로 일어나는 기작이면서 그 작용이 매우 특이적이다.
RNAi 실험은 크게 siRNA 디자인(target site selection), 세포 배양실험(cell culture assay, target mRNA의 감소 정량, 효율이 가장 높은 siRNA 선정), 동물 실험(stability, modification, delivery, pharmacokinetics, toxicology) 및 임상실험으로 나눌 수 있으며, 이 중 가장 중요한 것이 효율이 높은 목표 염기서열을 선별하는 방법과 목적하는 조직으로 siRNA를 전달(drug delivery)하는 방법이라고 할 수 있다. 효율이 높은 목표 염기서열을 찾아야 하는 이유는 염기서열마다 siRNA의 효율이 다르고, 특히 고효율의 siRNA 염기서열 찾아야 실험결과가 분명하고 또한 치료제로 사용이 가능하기 때문이다. 목표 염기서열을 찾는 방법으로는 컴퓨터를 이용한 계산방법과 실험적인 방법이 있는데, 실험적인 방법은 주로 목표 mRNA를 in vitro transcription에 의해 만들어 이와 잘 결합하는 염기서열을 찾는 것으로 되어 있다. 그러나 이와 같이 in vitro에서 만들어진 mRNA의 구조는 세포내에서의 구조와 다를 수 있고 또한 세포내에서는 mRNA에 여러 단백질들이 결합할 수 있어 in vitro transcription에 의한 실험에서 얻어진 결과가 실제 결과와 다를 수 있다는 가능성이 있다. 따라서, 효율적인 siRNA를 찾는 알고리즘의 개발은 매우 중요하며, 이는 비효율적인 siRNA 염기서열을 제거시키는 여러 변수들을 고려하여 개발해 낼 수 있다.
전통적으로 siRNA 디자인은 Tuschl rule 등의 방법(S.M. Elbashir, J. Harborth, W. Lendeckel, A. Yalcin, Klaus Weber, T. Tuschl, Nature, 411, 494-498, 2001a; S.M. Elbashir, W. Lendeckel, T. Tuschl, Genes & Dev., 15, 188-200, 2001b; S.M. Elbashir, J. Martinez, A. Patkaniowska, W. Lendeckel, T. Tuschl, EMBO J., 20, 6877-6888, 2001c)에 따라 3'overhang의 형태, GC 함량, 특정염기의 반복, 염기서열내의 SNP(single nucleotide polymorphism), RNA 이차구조(secondary structure), 목표하지 않은 mRNA 염기서열과의 상동성 등을 고려하여 수행되는 것이 일반적이었으나, 최근에는 siRNA의 이중나선을 이루는 부분이 어떤 결합에너지 상태를 하고 있느냐를 고려하여 이를 siRNA 디자인에 반영하는 경향이 있다(Khvorova,A., Reynolds,A., Jayasena,S.D., Cell, 115(4), 505, 2003; Reynolds,A., Leake,D., Boese,Q., Scaringe,S., Marshall,W.S., Khvorova,A., Nat. Biotechnol., 22(3), 326-330, 2004). 결합에너지의 상태를 siRNA 디자인에 반영하는 가장 대표적인 예로는, RISC(RNAi-induced silencing complex)가 dsRNA인 siRNA의 두 가닥 중 어느 쪽과 결합하느냐에 따라 siRNA의 효율에 결정적인 영향을 미치게 된다는 것에 착안하여 5'말단과 3'말단의 에너지 차이를 siRNA 효율 예측에 도입한 것을 들 수 있다(Schwarz DS, Hutvagner G, Du T, Xu Z, Aronin N, Zamore PD., Cell, 115(2), 199-208, 2003, 도 1 참조).
본 발명자들은 그동안 일부분에 대해서만 단편적으로 알려져 있던 siRNA의 효율과 결합에너지 상태 사이의 상관관계를 siRNA의 이중나선을 이루는 전부분에 대해 살펴보았으며, 통계적인 방법을 통해 좀 더 명확하고 정밀하게 고찰하였다. 그 결과, 미지의 siRNA의 상대적인 결합에너지 패턴 분석을 통해 표적 mRNA에 대한 미지의 siRNA의 억제 효율을 미리 예측할 수 있음을 확인하였고, 이렇게 선별된 우수한 억제 효율을 가지는 siRNA를 이용하여 표적 mRNA의 발현을 효과적으로 억제할 수 있음을 밝힘으로써 본 발명을 완성하였다.
기술적 과제
본 발명은 미지의 siRNA의 상대적인 결합에너지 패턴을 분석함으로써 실험을 통하지 않고도 표적 mRNA의 발현을 효과적으로 억제할 수 있는 siRNA들을 선별할 수 있음을 확인하고, 이렇게 선별된 siRNA를 이용하여 표적 mRNA의 발현을 효과적으로 억제할 수 있는 방법을 제공하는 것을 그 목적으로 한다.
이하, 본 발명을 상세히 설명한다.
본 발명의 siRNA를 이용하여 표적 mRNA의 발현을 억제하는 방법은
(1) 임의의 표적 mRNA에 대해 상보적인 n개의 nucleotide로 이루어진 모든 조합의 ds(double strand)RNA 서열을 얻는 단계;
(2) 상기 각 조합의 dsRNA 서열에 대하여, 상보적으로 결합한 부분의 염기서열 중 1-2번째 구간(A)의 평균 결합에너지, 3-7번째 구간(B)의 평균 결합에너지, 8-15번째 구간(C)의 평균 결합에너지 및 16-18번째 구간(D)의 평균 결합에너지 값 EA, EB, EC 및 ED를 각각 구하는 단계;
(3) 상기 각 조합의 dsRNA 서열에 대하여, 상기 (A) 내지 (D)의 각 구간에 대해 하기 식에 의해 Y(A-B), Y(B-C), Y(C-D) 및 Y(A-D) 값을 할당하는 단계로서,
(A-B) 구간에 대해
i)
Figure 112007041119557-pct00001
이면 Y(A-B) = 10점;
ii)
Figure 112007041119557-pct00002
이면 Y(A-B) = 0점,
iii) i)과 ii)의 범위에 모두 속하지 않는 경우에는 Y(A-B) = 5점을 부여하고, 상기와 동일한 방식으로 (B-C), (C-D) 및 (A-D) 구간에 대해 각각 Y(B-C), Y(C-D) 및 Y(A-D) 값을 할당하며,
상기에서, Ei(A-B)는 (A-B) 구간 사이의 구간별 평균에너지의 차의 평균 값,
Si(A-B)는 상기 Ei(A-B)의 분산 값,
Ni는 각각의 siRNA 실험 데이터의 개수,
X(A-B) 는 구간(A)의 평균 결합에너지 EA 와 구간(B)의 평균 결합에너지 EB 간의 차에 해당하는 값이며, X(B-C), X(C-D), X(A-D) 의 경우도 이와 동일하고;
(4) 상기 각 조합의 dsRNA 서열에 대하여, 하기 수학식 4에 의해 Y 값을 할당하는 단계로서,
[수학식 4]
Figure 112007041119557-pct00003
상기에서, W(A-B) 는 (A-B) 구간에 대한 가중치이고;
(5) 상기 각 조합의 dsRNA 서열에 대하여, 하기 수학식 5에 의해 Z 값을 할당하는 단계로서,
[수학식 5]
Figure 112007041119557-pct00004
상기에서, i는 1 내지 n의 자연수이고,
Zi는 표적 mRNA에 대한 siRNA의 억제 효율에 영향을 미치는 각 인자에 대해 부여된 점수로서, 상기 siRNA의 억제 효율에 영향을 미치는 인자는 siRNA의 상대적인 결합에너지를 필수 인자로 포함하는 다양한 인자들 간의 임의의 조합으로, Z1 은 상대적인 결합에너지 점수인 상기 Y이고,
Mi 는 각 인자에 할당된 소정의 최고값이고,
Wi 는 W1 을 기준으로 각 인자에 할당된 소정의 가중치이고;
(6) 상기 각 조합의 dsRNA 서열에 대하여, 단계 5)에서 구한 Z 값을 높은 순서대로 배열한 후, 상위 소정% 내에 해당하는 Z 값을 갖는 dsRNA 서열들을 선택하는 단계; 및
(7) 상기 각 6)에서 선택된 서열의 dsRNA를 이용하여 표적 mRNA의 발현을 억제하는 단계를 포함한다.
상기에서, siRNA는 21 내지 23개의 nucleotide, 바람직하게는 21개의 nucleotide로 구성되는 dsRNA로서, 19 nucloetide의 dsRNA 부분과 양쪽 3'-말단에 1 내지 3 nucleotide, 바람직하게는 2 nucleotide의 overhang 구조를 가지는 형태를 하고 있다(도 3 참조).
본 발명에서는 특정한 표적 mRNA의 발현을 억제하는 siRNA들의 상대적인 결합에너지 패턴을 분석하여 임의의 표적 mRNA에 대한 siRNA의 디자인을 최적화하기 위하여, siRNA 구조상 이중 나선을 이루는 부분의 상대적인 결합에너지 패턴에 따라 이를 점수화하고 체계화였다.
먼저, 어떤 미지의 siRNA가 표적 mRNA에 대해 얼마만큼의 억제 효율을 가질 것인가 하는 문제를 해결하기 위하여, 본 발명자들은 siRNA의 결합에너지 상태와 억제 효율간에 얼마만큼의 상관관계가 있는지를 조사하였다. 여기서 본 발명자들은 siRNA내에 이중나선을 이루는 19nt 부분 중 일부 구간의 절대적인 결합에너지 값이 아니라, 어디까지나 인접 또는 비인접구간 사이의 상대적인 결합에너지 변화량에 초점을 맞추었다(도 2 참조).
본 발명의 바람직한 구현예에 따르면, siRNA를 이용한 유전자 발현 억제 실험데이터는 두개의 해외 저널에 실린 논문, 즉 Khvorova의 논문(Khvorova A, Reynolds A, Jayasena SD, Cell, 115(4), 505, 2003)과 Amarzguioui의 논문(Amarzguioui M, Prydz H, Biochem. Biophys. Res. Commun., 316(4), 1050-8, 2004)으로부터 수집되었다. 상기 Khvorova의 논문에서는 human cyclophilin(hCyPB) 유전자의 193-390번째 염기서열에 해당하는 서열번호 1로 기재되는 염기서열과 firefly luciferase (pGL3) 유전자의 1434-1631번째 염기서열에 해당하는 서열번호 2로 기재되는 염기서열, 및 상기 유전자를 억제하는 siRNA들이 개시되어 있으며, Amarzguioui의 논문에서는 다양한 유전자(AA)를 억제하는 siRNA들이 개시되어 있다. 수집된 데이터로부터 데이터 분석에 사용된 siRNA의 염기서열과 그 siRNA가 어느 정도의 유전자 발현 억제 효과가 있는가 하는 두 가지 정보를 얻었다. 표 1은 Khvorova의 논문에서 수집한 실험데이터의 일부이다. 이렇게 얻어진 염기서열의 정보들을 INN-HB nearest neighbor model을 이용해서 결합에너지에 대한 데이터로 만들었다(Xia T, SantaLucia J Jr, Burkard ME, Kierzek R, Schroeder SJ, Jiao X, Cox C, Turner DH, Biochemistry, 37(42), 14719-35, 1998, 도 3 및 도 4 참조).
표 1
Figure 112007041119557-pct00005
Figure 112007041119557-pct00006
Figure 112007041119557-pct00007
* ; 서열번호 1로 기재되는 염기서열의 designated position에서부터 시작하여 21번째에 해당하는 nucleotide까지의 염기서열을 나타낸다.
도 3을 참조하면, siRNA에는 18개의 결합에너지가 존재한다. 단계 (a)에서 수집한 특정 염기서열을 가진 siRNA의 18개의 결합에너지 패턴과 그 유전자 발현 억제 효율과의 상관관계를 밝히기 위해서는, 먼저 상기 18개의 결합에너지를 어떤 방식으로 구간을 나누어 전체적인 결합에너지의 형태를 볼 것인가 하는 것을 결정하여야 한다. 이를 위하여, 먼저 본 발명자들은 (a)에서 수집된 140개의 siRNA 유전자 발현 억제 실험 데이터 세트에 대하여, 1번부터 18번 위치 각각의 결합에너지에 대해 평균값(mean)을 구한 후, 1번부터 18번까지의 위치를 x축, 결합에너지(-ΔG)를 y축으로 하여 그래프를 그려 보았다.
도 5는 이 결과의 일부이다.
18개의 결합에너지 위치를 어떤 구간으로 나눌 것인가 하는 문제를 해결하기 위해 본 발명자들이 가장 큰 기준으로 삼은 것은, 한 구간과 그 인접구간의 평균 결합에너지의 차가 효율적인 siRNA(90%이상 유전자 억제)와 비효율적인 siRNA(50%미만 유전자 억제) 사이에서 가장 크게 역전되는 현상을 보이도록 구간을 설정하는 것이다. 즉, 구간을 복수 개, 바람직하게는 A, B, C, D의 네 개로 나누고 그 각각의 평균에너지를 EA, EB, EC, ED 라 하는 경우, 효율적인 siRNA와 비효율적인 siRNA의 각 구간별 평균 결합에너지의 차이, 즉 EA-EB, EB-EC, EC-ED 각각의 값이 0에서 가장 멀고, 변화가 가장 심하게 나타나도록 구간을 설정하여야 한다.
이를 위하여, 먼저 siRNA 유전자 발현 억제 실험데이터를 효율적인 것과 비효율적인 것의 두 집단으로 나누고, 1번부터 18번 결합에너지 위치 전부에 대해 각 결합에너지 위치에서 두 집단이 차이가 없다는 귀무가설을 세운 후 이를 t-test를 통해 검증해 보았다. 즉, 여기서 p-value가 0.05 미만으로 나오는 결합에너지 위치는 위의 두 집단에 대해서 유의수준 5%에서 결합에너지의 차이가 나는 위치임을 의미한다. 도 6은 t-test의 결과를 x축을 결합에너지의 위치, y축을 p-value로 하여 나타난 그래프이고, 도 7은 x축을 결합에너지의 위치, y축을 t-value로 해서 부드러운 형태의 곡선으로 나타낸 그래프이다. 상기 t-value는 하기 수학식 1에 의해 계산된다.
[수학식 1]
Figure 112007041119557-pct00008
상기에서,
Figure 112007041119557-pct00009
: 효율적인 집단의 평균 결합에너지;
Figure 112007041119557-pct00010
: 비효율적인 집단의 평균 결합에너지;
Sx : 효율적인 집단의 분산;
Sy : 비효율적인 집단의 분산;
Nx : 효율적인 집단의 변량의 개수;
Ny : 비효율적인 집단의 변량의 개수.
본 발명의 바람직한 구현예에서는 세 가지 데이터 세트가 사용되었다. Khvorova의 논문에서 발췌한 두 종류의 데이터 세트는 pGL3와 hCyPB에 대한 유전자 억제 실험결과를 효율:90%이상 억제, 비효율:50%미만으로 분류해 놓은 것이고, Amarzguioui의 논문에서 발췌한 하나의 데이터 세트는 여러 종류의 유전자에 대하여 복합적으로(AA) 효율:70%이상 억제, 비효율:70%미만으로 분류해 놓은 것이다. Khvorova의 논문에서 유전자 firefly luciferase(pGL3)에 대한 실험결과는 효율적인 것 40개, 비효율적인 것 20개 이고, human cyclophilin(hCyPB)에 대한 실험결과는 효율적인 것 13개, 비효율적인 것 21개이다. Amarzguioui의 논문에서의 실험결과(AA)는 효율적인 것 21개, 비효율적인 것 25개이다.
일단 본 발명자들은 도 7에서 세 개의 데이터 세트의 t-value 변화 형태가 일치하는 패턴으로 나타나는데 주목하였다. 또한 Amarzguioui의 논문6)에서 얻은 데이터 세트는 나머지 두개의 세트에 비해 효율과 비효율의 구분이 조금 더 모호할 것이라는 예상대로, t-value의 변화 폭이 다른 데이터 세트들에 비해 적은 것으로 나타났다. 이는 효율적인 siRNA와 비효율적인 siRNA 사이에는 결합에너지의 형태에 분명히 특수한 구분이 있음을 시사하는 것으로 볼 수 있다.
t-value가 극대 또는 극소값을 가지는 곳, 또는 p-value가 0에 가까워지는 곳은 효율적인 siRNA집단과 비효율적인 집단 사이의 결합에너지의 차이가 인접한 부분에 비해 극단적으로 큰 부분이라고 할 수 있다. 즉, 이 부분을 중심으로 해서 주변 인근을 한 구간으로 잡으면 인접구간들 사이의 결합에너지 편차를 극대화 시킬 수 있다. 또한 t-value가 극대나 극소를 가지지만 두 값의 편차가 크지 않은 점, 즉 p-value가 유의할만한 수준으로 작지 못한 지점들은 그리 변별력이 크지 못한 점으로 취급해 위의 구간선정에 있어 그 후보에서 배제 시킬 수 있다.
본 발명의 바람직한 구현예에서는 이러한 사항들을 바탕으로 도 6의 p-value값을 이용하여 구간의 중심이 되는 위치들을 선정하였다. 이때 다음과 같은 기준을 적용하였다:
① Khovorova의 두 데이터 세트 중 하나 이상의 p-value가 0.1 이하인 위치
② Khovorova의 두 dataset 모두가 0.4 이하인 위치
①과 ②의 기준에 적합한 위치는 모두 다음의 4개가 선정이 되었다: 1번 결합에너지 위치, 5~6번 결합에너지 위치, 14번 결합에너지 위치, 17~18번 결합에너지 위치.
이하의 과정에서는 Khovorova의 두 데이터 세트만을 사용하였다. 이는 Amarzguioui의 데이터 세트의 경우 그룹을 나누는 기준이 Khovorova의 두 데이터 세트와 다르기 때문이기도 하며, 또한 본 발명의 siRNA의 효율을 측정하는 채점 방법이 완성되고 난 후에 그 성능을 테스트하기 위한 목적으로 남겨 둔 것이기도 하다.
다음으로, 이렇게 결정된 네 군데의 위치를 중심으로 그 인근의 어디까지를 한 구간으로 잡을 것인지를 결정한다. 이것을 결정하는 기준은 정해진 구간의 평균 결합에너지를 구하고, 인접한 다른 구간의 결합에너지와의 차를 구한 후, 이 차의 변화를 극대화 시킬 수 있는 것을 선택하도록 하였다. 바람직하게는, 이 이후의 과정은 다음의 두 가지로 나누어서 진행될 수 있다:
(1) 인접한 구간 사이에 빈 공간이 없이 연속적으로 이어지도록 설정하는 경우
(2) 인접한 구간 사이에 빈 공간이 있을 수 있도록 불연속적으로 설정하는 경우
이 두 가지의 경우 모두 다 일장일단이 있다. (1)의 방법은 모든 결합에너지에 대해 그 상태를 살펴 볼 수 있지만, 일부 변별력이 떨어지는 구간을 포함시킴으로써 그 예측력을 떨어뜨릴 수 있다는 단점이 있다. 반면에 (2)의 방법은 변별력이 없는 구간을 제외시킴으로써 그 예측력을 극대화 시킬 수 있지만, 일부 구간이 제외됨으로써 그 위치에 대한 평가가 불가능해진다는 단점이 있다.
(1) 구간의 설정은 바람직하게는 다음과 같이 이루어진다:
①과 ②의 기준을 통해 선정된 네 군데의 위치를 각각 포함하면서 다른 위치의 영역을 침범하지 않는 범위 내에서 전체에 걸쳐 모든 결합에너지의 위치가 포함되도록 A, B, C, D 네 개의 구간으로 나누어 표 2에서 볼 수 있는 20가지의 조합을 만든다.
표 2
Figure 112007041119557-pct00011
여기서 효율적이 siRNA의 개수를 Nf ,비효율적인 siRNA의 개수를 Nn 이라 하고, 효율이 i(효율적인 그룹의 siRNA이면 'f', 비효율적인 그룹의 siRNA면 'n'임)이고 j(1~Nf 또는 1~Nn 중의 수를 값으로 가짐)번째 siRNA가 구간k(A, B, C, D 중의 하나 값을 가짐)에서 가지는 결합에너지 하나당 평균 결합에너지를 Eijk 로 정의한다. 즉, 효율적인 그룹의 3번째 siRNA의 구간 B에서의 결합에너지 하나당 평균에너지는 Ef3B 로 표시된다. 각각의Eijk 를 실험데이터를 이용해서 구한다.
상기에서 구한 각각의 Eijk 를 이용하여 구간 A∼B(Ei(A-B)), B~C(Ei(B-C)), C~D(Ei(C-D)) 사이의 대표가 되는 평균 결합에너지 변화량을 하기 수학식 2에 따라 구한다.
[수학식 2]
Figure 112007041119557-pct00012
상기 수학식 2를 이용하면 Ei(A-B) 과 Ei(C-D) 도 구할 수 있을 것이다. 여기서 Ef(A-B)의 의미는 효율적인 그룹의 siRNA들의 구간 A와 B에서의 결합에너지 위치 하나당 결합에너지를 대표하는 값이라 할 수 있고, En(A-B) 의 경우는 비효율적인 경우의 그것이라 할 수 있을 것이다. 즉, Ef(A-B) -En(A-B) 의 절대값이 커지도록 구간을 잡으면 구간 A와 구간 B에서 효율적인 siRNA 집단과 비효율적인 siRNA 집단의 평균 결합에너지의 차이를 크게 만들 수 있으며, 이를 이용해 구간을 선정할 수 있다. 이는 B~C, C∼D에도 마찬가지로 적용된다. 이를 이용하여 본 발명자들은 Ef(A-B)-En(A-B), Ef(B-C)-En(B-C), Ef(C-D)-En(C-D) 의 절대값이 모두 0.1 이상인 구간의 조합들만을 선정하였다. 본 발명의 바람직한 구현예에서는 모두 네 개의 구간이 선정되었으며, 선정된 구간에 대한 정보는 표 3과 같다.
표 3
Figure 112007041119557-pct00013
선정된 네 개의 구간에 대해서 Ef(A-B) 과 En(A-B), Ef(B-C) 과 En(B-C), Ef(C-D) 과 En(C-D) 사이에서 t-test를 해서 t-value와 p-value를 구해 보았다. 이 과정을 통해 최종적으로 효율적인 siRNA 집단과 비효율적인 siRNA 집단을 가장 잘 구분할 수 있는 한 개의 구간을, 유전자 hCyPB, pGL3의 모든 구간에서 p-value<0.05, t-value>2 의 수준에서 선정하였다. 선정된 구간은 A(1∼2), B(3∼7), C(8∼15), D(16∼18) 구간이다. 이 구간에 대한 각종 정보는 도 8에 나타내었다.
한편, (2)의 구간의 설정은 바람직하게는 다음과 같이 이루어진다:
기본적으로는 (1)에서와 거의 동일한 방법을 사용한다. 다만 (1)과 다르게 불연속적이고 구간들끼리의 겹침을 허용할 것이기 때문에 구간의 너비를 정하는데 있어 다른 방법을 사용한다. 일단 ①과 ②의 기준을 통해서 선정된 4개의 결합에너지 위치를 포함하면서 그 위치에서 ㅁ2 결합에너지 위치 내에서 만들 수 있는 모든 구간의 조합을 만들었으며, 그 결과는 표 4와 같다.
표 4
Figure 112007041119557-pct00014
Figure 112007041119557-pct00015
표 4에서 구간 A, B, C, D 중에서 하나씩을 고르면 필요한 구간의 조합이 이루어진다. 모두 729(=3
Figure 112007041119557-pct00016
9
Figure 112007041119557-pct00017
9
Figure 112007041119557-pct00018
3)가지의 조합이 가능하다. 729가지의 조합 모두에 대해 수학식 2의 방법과 t-test를 통해서 단 하나의 구간의 조합을 선택한다는 것은 적잖은 무리가 있으므로, 바람직하게는 새로운 변수 R(robustness의 약자)을 도입한다. R은 구간 내에 ①과 ②의 기준에 의해 선정된 4군데의 결합에너지 외에 추가로 몇 군데의 결합에너지가 있는가를 나타내는 숫자이다. 예를 들어 구간 A를 1∼2로 정하고 구간 B를 4∼7로 잡는다면, 구간 A의 R값은 1이고 구간 B의 R은 2이다. 또한, 구간 A(1~2)와 구간 B(4∼7)에서 (1)의 Ef(A-B) 처럼 두개의 구간에 대한 R값을 고려해야 할 경우 두 구간 각각의 R값을 합산해서 A~B 구간에 대한 R값은 3으로 선정된다.
표 4에서 보이는 A, B, C, D 구간의 모든 조합에 대해서 (1)에서 언급한 Eijk 를 각각 구했다. 수학식 2로부터 계산되는 Ei(A-B), Ei(B-C), Ei(C-D) 값을 표 4를 통해서 가능한 모든 조합에 대해 구했으며, 각각에 대해 t-test를 실시하여 t-value와 p-value를 구했다. 여기에 상기에서 언급한 R값을 적용했다. 도 9는 특정 R값을 가지는 A∼B, B∼C, C∼D 구간의 조합들 중 p-value가 0.05 미만인 것들의 비율을 그래프로 나타낸 것이다. R값이 증가함에 따라 p-value가 감소하는 경향이 있으므로, p-value의 감소가 급격하게 일어나기 전까지의 R값을 구함으로써 원하는 수준의 p-value를 가지면서 최대한 넓은 범위를 포함시키는 구간을 산출해 낼 수 있다. 도 9의 결과를 보면 R값이 3 또는 4 이하의 값을 가질 때 p-value<0.05인 구간의 비율이 높은 것을 알 수 있다. 따라서, 본 발명의 바람직한 구현예에서는 R=3 또는 4인 값을 가지는 구간들만을 골라 선정될 구간의 후보에 포함시켰다.
최종적인 구간의 결정은 R값과 t-test 결과를 통해 이루어진다. 두개의 구간에서 R값이 3 또는 4이어야 하므로, 양쪽으로 구간추가가 이루어지는 구간 B와 구간 C는 2개의 결합에너지 위치를 더하고, 한쪽으로 구간 추가가 이루어지는 구간 A와 구간 D는 1개의 결합에너지 위치를 더했다. 결과적으로 A~B에서 R=3, B∼C에서 R=4, C∼D에서 R=3의 값을 가지게 된다. 이 조건을 만족하는 구간들의 모든 조합을 만든 후, 이 조합들에 대해 t-test를 실행하여 이 조합들 중에서 p-value가 유난히 낮은 한 개의 구간 조합을 선정하였다. 선정된 구간은 A(1∼2), B(3∼6), C(14∼16), D(16∼18)이다. 이에 대한 정보는 표 5에 나타나 있다.
표 5
Figure 112007041119557-pct00019
본 발명의 바람직한 구현예에서, (1)과 (2)를 통해 선정된 두개의 구간(도 10 참조)은 인접구간과의 상대적인 결합에너지 패턴만을 판별함으로써 선정되었다. 그러나, 비 인접구간 간에도 결합에너지의 차이가 충분히 날 수 있기 때문에, 이를 조금 더 확대하여 A, B, C, D 네 개의 구간의 차로 가능한 모든 조합, A-B, B-C, C-D, A-C, A-D, B-D의 여섯 가지 조합에 대해서 전부 t-test를 다시 실행해 보았으며, 그 결과는 표 6과 같다.
표 6
Figure 112007041119557-pct00020
Figure 112007041119557-pct00021
표 6에서 볼 수 있듯이, A-C, B-D의 구간에서는 서로 큰 차이가 존재하지 않았다. 비 인접구간에서 p-value<0.05의 조건을 만족하는 것은 A-D의 조합이었는데, 여기서 구간 A는 5' 말단, 구간 B는 3' 말단으로 이 두 구간의 결합에너지의 차가 siRNA의 효율에 영향을 미친다는 것은 이미 다른 실험들을 통해서도 잘 알려져 있는 사실이다(Schwarz,D.S., Hutvagner,G., Du,T., Xu,Z., Aronin,N., Zamore,P.D., Cell, 115(2), 199-20, 2003).
본 발명자들은 미지의 siRNA의 상대적인 결합에너지를 점수화하기 위하여 상기에서 수집한 실험데이터와 선정된 구간들을 이용하였다. 먼저 채점 시스템 구축을 위해 상기에서 수집한 데이터 중에 Khvorova의 논문에서 발췌한 두 종류의 데이터 세트, 즉 firefly luciferase(pGL3)와 human cyclophilin(hCyPB)에 대한 두 실험결과를 합쳐서 좀 더 큰 데이터 세트를 만들어 이를 이용하였다. Amarzguioui의 논문에서 발췌한 하나의 데이터 세트는 유전자 발현 억제의 효율을 70%를 기준으로 해서 나눈 것으로, 90% 이상을 효율적, 50% 이하를 비효율적으로 본 Khvorova의 논문의 데이터와 그 분류기준이 틀리다는 점을 감안해 채점 시스템을 구축을 위한 데이터에서 배제시켰다. 이렇게 얻어진 데이터를 효율적인 그룹(유전자 발현 억제 효율 90% 이상, functional, 또는 f)과 비효율적인 그룹(유전자 발현 억제 효율 50% 미만, nonfunctional, 또는 n)의 두개의 서로 다른 집단으로 분류하였다.
이렇게 얻어진 데이터들을 상기 과정을 통해서 얻어진 구간들로 나누고, 수학식 2로부터 Ei(A-B), Ei(B-C), Ei(C-D), Ei(A-D) 값들을 구했다. 이 값들은 각 구간들 사이의 구간별 평균에너지의 차들에 관한 값들을 그룹별로 묶어 평균을 낸 에너지 값을 의미한다. 이 과정에서 각각은 분산값을 가지게 되는데, 이를 Si(A-B), Si(B-C), Si(C-D), Si(A-D) 로 정의한다. 그리고 각각의 siRNA 실험 데이터의 개수를 N로 정의한다. 이때 앞의 과정에서 얻어진 데이터들의 Ei(A-B), Ei(B-C), Ei(C-D), Ei(A-D) 값과 Si(A-B), Si(B-C), Si(C-D), Si(A-D) 값, N 값을 구하고 t-test를 통해 t-value와 p-value를 구해보면 표 7과 같은 값을 가진다.
표 7
Figure 112007041119557-pct00022
Figure 112007041119557-pct00023
표 7에서 볼 수 있듯이, 이 데이터 세트는 모든 구간에서 p-value<0.05 이므로 효율적인 siRNA와 비효율적인 siRNA를 분리해내는 채점 시스템에 사용하기에 큰 무리가 없는 것으로 보인다.
효율적인 siRNA 그룹 내의 특정 siRNA의 구간 A와 구간 B 사이의 평균 결합에너지 차를 Xf(A-B) 라고 한다면, p-value<0.05의 유의수준에서 X는 하기 수학식 3과 같은 범위내에 있다고 할 수 있다.
[수학식 3]
Figure 112007041119557-pct00024
수학식 3은 Xi(A-B), Xi(B-C), Xi(C-D), Xi(A-D) 값들 모두에 대해서 적용할 수 있으며, 이를 통해 각각의 Xi(A-B), Xi(B-C), Xi(C-D), Xi(A-D) 값들이 취할 수 있는 범위들을 구할 수 있다. 이 범위들을 도식화 한 것이 도 11이다.
지금까지의 결과들을 종합해서 미지의 siRNA의 효율을 상대적인 결합에너지 형태를 통해 채점하는 방식은 다음과 같다:
1) 미지의 siRNA의 구간 A-B, B-C, C-D, A-D에서의 평균 결합에너지 값, 즉 X(A-B), X(B-C), X(C-D), X(A-D) 를 구한다.
2) X(A-B) 의 값이 다음 중 어떤 범위에 속하는지 판별하여 다음과 같이 점수를 부여한다:
i)
Figure 112007041119557-pct00025
이면 10점을 부여하고;
ii)
Figure 112007041119557-pct00026
이면 0점을 부여한다.
iii) i)과 ii)의 범위에 모두 속하지 못하면 5점을 부여한다.
X(B-C), X(C-D), X(A-D) 에 대해서도 동일한 방식으로 점수를 부여한다.
각각의 점수를 Y(A-B), Y(B-C), Y(C-D), Y(A-D) 라고 한다.
도 11을 참조하면, 연속적인 구간에 있어서, -0.02<X(A-B)<0.38, -0.29<X(B-C)<-0.01, 0.00<X(C-D)<0.35, 0.07<X(A-D)<0.37의 범위일 때 Y(A-B), Y(B-C), Y(C-D), Y(A-D) = 10점을 부여하고, -0.63<X(A-B)<-0.21, 0.05<X(B-C)<0.44, -0.47<X(C-D)<-0.09, -0.67<X(A-D)<-0.23 의 범위일 때 Y(A-B), Y(B-C), Y(C-D), Y(A-D) = 0점을 부여하고, 그 이외의 범위일 때 Y(A-B), Y(B-C), Y(C-D), Y(A-D) = 5점을 부여한다.
불연속적인 구간에 있어서 0.00<X(A-B)<0.40, -0.41<X(B-C)<-0.01, 0.07<X(C-D)<0.39, 0.07<X(A-D)<0.37의 범위일 때 Y(A-B), Y(B-C), Y(C-D), Y(A-D) = 10점을 부여하고, -0.63<X(A-B)<-0.21, 0.10<X(B-C)<0.51, -0.47<X(C-D)<-0.19, -0.67<X(A-D)<-0.23 의 범위일 때 Y(A-B), Y(B-C), Y(C-D), Y(A-D) = 0점을 부여하고, 그 이외의 범위일 때 Y(A-B), Y(B-C), Y(C-D), Y(A-D) = 5점을 부여한다.
3) Y(A-B), Y(B-C), Y(C-D), Y(A-D) 의 가중치를 갖는 W(A-B), W(B-C), W(C-D), W(A-D) 라고 할 때, 하기 수학식 4를 이용해서 상대적인 결합에너지 형태의 점수 Y를 100점 만점으로 환산하여 구한다.
[수학식 4]
Figure 112007041119557-pct00027
siRNA의 결합에너지 형태의 점수화는 이제 한 가지 문제만을 남겨 두고 있다. W(A-B), W(B-C), W(C-D), W(A-D) 로 명명된 각 구간의 점수에 대한 가중치를 어떻게 설정하는가 하는 문제이다. 가중치의 조합을 최적화하기 위해서, 각 가중치 값을 0에서부터 1까지 0.01 단위로 증가시켜 가면서 이때의 효율적인 siRNA 그룹과 비효율적인 siRNA 그룹사이의 t-value 값을 조사했다. 도 12는 조사한 가중치 조합들을 t-value에 따라 내림차순으로 정리한 다음 그중 최상위 100개를 취해서 이 100개중에 각 가중치 값에 따라서 몇 개씩의 조합이 나타나는지의 분포를 그린 것이다. 분포를 보면 각 가중치마다 효율적인 siRNA 그룹과 비효율적인 siRNA 그룹사이의 t-value 값을 극대화 시킬 수 있는, 즉 두 그룹사이의 결합에너지 변화량의 차를 극대화 시킬 수 있는 위치를 찾을 수 있다. 두 그룹사이의 t-value 값을 극대화시킨 W(A-B), W(B-C), W(C-D), W(A-D) 의 조합은 연속적인 구간의 조합에서는 0.90∼1.00, 0.2∼0.4, 0.2∼0.3 및 0.7∼0.9 이고, 바람직하게는 1.00, 0.37, 0.20, 0.90이며, 불연속적인 구간의 조합에서는 0.5∼0.7, 0.3∼0.5, 0.3∼0.5 및 0.9∼1.0 이고, 바람직하게는 0.65, 0.48, 0.48, 0.90 이다. 각 경우에 있어서 임계치를 벗어나게 되면 t-value 값이 급격하게 떨어지게 되어 채점방법 자체의 변별력이 별 의미없는 수준으로 떨어지게 된다.
마지막 단계로 이렇게 얻어진 상대적인 결합에너지 형태 점수를 다른 인자들(GC 함량, Tm, 절대적인 결합에너지 점수들, 타 mRNA와의 상동성, RNA 이차구조 등)과 어떤 방법을 통해서 결합하여 siRNA의 효율을 종합적으로 예측할 수 있는 시스템을 만드는가를 고려하였다. 기본적으로 상대적인 결합에너지 형태의 점수화와 동일한 방식으로
Figure 112007041119557-pct00028
형태의 선형방정식을 채점방식으로 사용하였다. 각각의 인자에 대해서 매겨진 점수를 Zi(Z1,Z2,Z3, · · · , Zn), 각각의 인자 점수의 만점을 Mi(M1,M2,M3, · · · ,Mn), 각 인자의 효율, 각 점수들에 대한 가중치를 Wi(W1,W2,W3, · · · ,Wn)이라고 하면, 우리가 원하는 siRNA의 효율을 대표하는 점수 Z는 다음의 식과 같이 100점 만점으로 표현할 수 있다.
[수학식 5]
Figure 112007041119557-pct00029
상기에서, i는 1 내지 n의 자연수이고, Z로는 표적 mRNA에 대한 억제 정도에 영향을 미치는 다양한 인자들이 적용될 수 있으며, 이때 상기에서 고려한 상대적인 결합에너지를 필수 인자로 포함하고, 3'-말단 5개 염기 중 A/U의 개수, 1번 위치의 G/C 존재 유무, 19번 위치의 A/U 존재 유무, G/C 함량 정도, Tm, RNA 이차구조, 타 mRNA와의 상동성 등으로 구성된 군으로부터 선택되는 하나 이상의 인자를 선택적인 인자로 포함할 수 있다. 상기 선택적인 인자들은 Z 값을 할당함에 있어서 반드시 포함되어야 하는 요소는 아니며, 상대적인 결합에너지 데이터와 함께 고려할 때 보다 나은 예측 정도를 도출해 낼 수 있는 인자들이 제한없이 포함될 수 있으며, 그 인자들의 조합에 있어서도 특별한 제한이 있는 것은 아니다. 본 발명의 바람직한 구현예에서는 Zi로 하기와 같은 인자들을 선정하였다: Z1 - 상대적인 결합에너지 형태 점수(Y), Z2 - 3'말단 5개 염기 중 A/U의 개수, Z3 - 1번 위치에 G/C 존재유무, Z4 - 19번 위치에 A/U 존재유무, Z5 - G/C 함량 점수. 이때, Mi 값은 각각 다음과 같다: M1 =100, M2 =5, M3 =1, M4 =1, M5 =10.
본 발명의 바람직한 구현예에서는 Z1 은 상기에서 계산한 점수 Y이고, Z2 는 3'말단의 5개의 염기중 A/U 염기의 수이고, Z3 은 5'끝의 염기가 G/C 이면 1 아니면 0점이고, Z4 는 3'끝의 염기가 A/U이면 1 아니면 0점이고, Z5 인 G/C 함량의 경우에는 36 내지 53%의 범위에 있을 경우 10점을 주고 아닌 경우 0점을 주었다.
도 13은 상대적인 결합에너지 형태 점수화의 경우와 같은 방법으로 각 점수들에 대한 가중치 W를 최적화하기 위해 도 12와 같은 형태의 그래프를 그려본 것이다. 이런 과정을 통해서 최적화된 W1, W2, W3, W4, W5 의 조합은 0.9∼1.0, 0.0∼0.2, 0.1∼0.3 및 0.0∼0.2 이고, 바람직하게는 0.90, 0.07, 0.15, 0.19, 0.11 이다.
상기와 같은 과정들을 통해 얻어진 Z값은 미지의 siRNA가 어떤 상대적인 결합에너지 패턴을 가졌는지 판별할 수 있는 지표가 될 수 있으며, 이는 염기서열을 분석하는 것만으로 결합에너지의 상태를 평가해 이를 최적화할 수 있도록 함으로써 siRNA의 설계 및 제작 효율을 극대화 시킬 수 있다.
본 발명의 방법을 통해 표적 mRNA에 대한 미지의 siRNA의 억제 효율이 어느 정도가 될 것인지를 예측하는 것이 가능하며, 억제 효율이 뛰어날 것으로 예상되는 선별된 siRNA, 바람직하게는 상위 10% 내의 Z 값을 가지는 선별된 siRNA를 이용하여 공지된 방법에 따라 표적 mRNA에 처리함으로써 표적 mRNA의 발현을 효과적으로 억제할 수 있다. 상기 수치는 임의적인 값으로서, 후보 siRNA 군의 표본의 크기, 실험 조건 등에 따라 탄력적으로 적용될 수 있다.
도 1은 RISC 효소의 결합 형태에 따라 siRNA의 유전자 발현 억제 효율이 달라짐을 보여주는 개략도이다.
도 2는 siRNA의 유전자 발현 억제 효율과 결합에너지 사이의 상관관계를 점수화 하는 방법을 보여주는 개략도이다.
도 3은 INN-HB nearest neighbor model에서의 siRNA의 결합에너지 분포를 보여주는 개략도이다.
도 4는 INN-HB nearest neighbor model에서의 결합에너지 값을 보여준다.
도 5는 수집된 siRNA 데이터의 위치별 결합에너지의 평균값(mean)을 보여주는 그래프이다:
X축; 1번부터 18번까지의 위치, Y축; 결합에너지(-ΔG)의 평균값,
실선; 유전자 발현 억제 효율이 90% 이상인 경우,
점선; 유전자 발현 억제 효율이 50% 이하인 경우.
도 6은 수집된 siRNA 데이터의 위치별 결합에너지의 t-test 결과를 보여주는 그래프이다:
X축; 1번부터 18번까지의 위치, Y축; p-value,
점선; pGL3 유전자, 실선; hCyPB 유전자,
반점선, Amarzguioui의 논문에서 발췌한 복합 유전자.
도 7은 수집된 siRNA 데이터의 위치별 결합에너지의 t-test 결과를 보여주는 그래프이다:
X축; 1번부터 18번까지의 위치, Y축; t-value,
점선; pGL3 유전자, 실선; hCyPB 유전자,
반점선; Amarzguioui의 논문에서 발췌한 복합 유전자.
도 8은 (1)의 과정을 통해 결합에너지 데이터 분석해 선정된 구간인 A(1~2), B(3~7), C(8~15) 및 D(16∼18)에 대한 각종 정보를 보여주는 그래프이다.
도 9는 특정 R값을 가지는 A~B, B~C, C∼D 구간의 조합들 중 p-value가 0.05 미만인 것들의 비율 분포를 보여주는 그래프이다.
도 10은 (1)과 (2)의 과정을 통해서 선정된 구간을 보여주는 개략도이다.
도 11은 (1)의 과정을 통해 선정된 구간들의 조합인 A∼B, B~C, C~D 및 A~D에서 비효율적인 siRNA와 효율적인 siRNA가 가질 수 있는 평균 결합에너지의 상대적인 차이의 신뢰구간을 표시한 그래프(A) 및 (2)의 과정을 통해 선정된 구간들의 조합인 A~B, B~C, C~D 및 A~D에서 비효율적인 siRNA와 효율적인 siRNA가 가질 수 있는 평균 결합에너지의 상대적인 차이의 신뢰구간을 표시한 그래프(B)이다.
도 12는 상대적인 결합에너지 형태 점수에 있어 가중치(weighting factor)와 t-value의 관계를 보여주는 그래프로서, 가중치들의 조합을 t-value에 따라 내림차순으로 정리한 후 그 중 최상위 100개를 선택해 이들이 각 구간에서 가지는 가중치의 값들의 개수를 그래프로 나타낸 것이다. A는 연속적인 구간 조합에서의, B는 불연속적인 구간 조합에서의 가중치의 분포이다.
도 13은 상대적인 결합에너지 형태 점수화의 경우와 같은 방법으로 각 점수들에 대한 가중치 Wi를 최적화하기 위해 도 12와 같은 형태의 그래프를 그려본 것이다.
발명의 실시를 위한 최선의 형태
이하, 본 발명을 실시예에 의해 상세히 설명한다.
단, 하기 실시예는 본 발명을 예시하기 위한 것일 뿐, 본 발명의 내용이 하기 구현예에 의해 한정되는 것은 아니다.
<실시예 1>종래 siRNA 디자인 방법과의 비교
본 발명의 상대적인 결합에너지 형태 판별을 적용한 siRNA 디자인 최적화 방법이 얼마만큼의 성능을 발휘하는가를 테스트하기 위하여, 종래 siRNA 디자인 방법에 관한 WO2004/045543호 특허(Functional and Hyperfunctional siRNA, 2004년 6월 3일 공개)에 개시되어 있는 채점방법과 비교해 보았다. 상기 특허 내의 여러 알고리즘 중에 개시된 siRNA 효율 채점방식은 하기 수학식 6과 같다.
[수학식 6]
Relative functionality of siRNA = -(GC/3)+(AU15-19)-(Tm20℃)*3-(G13)*3-(C19)+(A19)*2+(A3)+(U10)+(A13)-(U5)-(A11)
Khvorova의 논문과 Amarzguioui의 논문에서 얻어졌던 세 개의 dataset 중에서 상대적인 결합에너지 형태의 점수화 구현에 사용한 Khvorova의 논문에서 발췌한 두개의 dataset을 제외하고 나머지 한 개의 Amarzguioui의 논문에서 발췌한 dataset을 test set으로 하여 두개의 채점방식의 예측력을 비교하였다.
먼저, 두개의 채점 방식을 이용해서 효율적/비효율적 두 그룹에 속한 각각의 siRNA의 점수를 계산했다. 그리고, LDA(Linear discriminant analysis) 및 QDA(Quadratic discriminant analysis)를 통해 임의의 siRNA가 효율적인지 비효율적인지를 얼마나 잘 맞추는지를 계산해 보았다. 상기 값은 바람직하게는 통계 프로그램 R(http://www.R-project.org)을 이용해서 구할 수 있다([1] Richard A. Becker, John M. Chambers, and Allan R. Wilks. The New S Language. Chapman & Hall, London, 1988; [2] John M. Chambers and Trevor J. Hastie. Statistical Models in S. Chapman & Hall, London, 1992; [3] John M. Chambers. Programming with Data. Springer, New York, 1998. ISBN 0-387-98503-4; [4] William N. Venables and Brian D. Ripley. Modern Applied Statistics with S. Fourth Edition. Springer, 2002. ISBN 0-387-95457-0; [5] William N. Venables and Brian D. Ripley. S Programming. Springer, 2000. ISBN 0-387-98966-8; [6] Deborah Nolan and Terry Speed. Stat Labs: Mathematical Statistics Through Applications. Springer Texts in Statistics. Springer, 2000. ISBN 0-387-98974-9; [7] Jose C. Pinheiro and Douglas M. Bates. Mixed-Effects Models in S and S-Plus. Springer, 2000. ISBN 0-387-98957-0; [8] Frank E. Harrell. Regression Modeling Strategies, with Applications to Linear Models, Survival Analysis and Logistic Regression. Springer, 2001. ISBN 0-387-95232-2; [9] Manuel Castejon Limas, Joaquin Ordieres Mere, Fco. Javier de Cos Juez, and Fco. Javier Martinez de Pison Ascacibar. Control de Calidad. Metodologia para el analisis previo a la modelizacion de datos en procesos industriales. Fundamentos teoricos yaplicaciones con R. Servicio de Publicaciones de la Universidad de La Rioja, 2001. ISBN 84-95301-48-2; [10] John Fox. An R and S-Plus Companion to Applied Regression. Sage Publications, Thousand Oaks, CA, USA, 2002. ISBN 0761922792; [11] Peter Dalgaard. Introductory Statistics with R. Springer, 2002. ISBN 0-387-95475-9; [12] Stefano Iacus and Guido Masarotto. Laboratorio di statistica con R. McGraw-Hill, Milano, 2003. ISBN 88-386-6084-0; [13] John Maindonald and John Braun. Data Analysis and Graphics Using R. Cambridge University Press, Cambridge, 2003. ISBN 0-521-81336-0; [14] Giovanni Parmigiani, Elizabeth S. Garrett, Rafael A. Irizarry, and Scott L. Zeger. The Analysis of Gene Expression Data. Springer, New York, 2003. ISBN 0-387-95577-1; [15] Sylvie Huet, Annie Bouvier, Marie-Anne Gruet, and Emmanuel Jolivet. Statistical Tools for Nonlinear Regression. Springer, New York, 2003. ISBN 0-387-40081-8; [16] S. Mase, T. Kamakura, M. Jimbo, and K. Kanefuji. Introduction to Data Science for engineers- Data analysis using free statistical software R (in Japanese). Suuri-Kogaku-sha, Tokyo, April 2004. ISBN 4901683128; [17] Julian J. Faraway. Linear Models with R. Chapman & Hall/CRC, Boca Raton, FL, 2004. ISBN 1-584-88425-8; [18] Richard M. Heiberger and Burt Holland. Statistical Analysis and Data Display: An Intermediate Course with Examples in S-Plus, R, and SAS. Springer Texts in Statistics. Springer, 2004. ISBN 0-387-40270-5; [19] John Verzani. Using R for Introductory Statistics. Chapman & Hall/CRC, Boca Raton, FL, 2005. ISBN 1-584-88450-9; [20] Uwe Ligges. Programmieren mit R. Springer-Verlag, Heidelberg, 2005. ISBN 3-540-20727-9, in German; [21] Fionn Murtagh. Correspondence Analysis and Data Coding with JAVA and R. Chapman & Hall/CRC, Boca Raton, FL, 2005. ISBN 1-584-88528-9; [22] Paul Murrell. R Graphics. Chapman & Hall/CRC, Boca Raton, FL, 2005. ISBN 1-584-88486-X; [23] Michael J. Crawley. Statistics: An Introduction using R. Wiley, 2005. ISBN 0-470-02297-3; [24] Brian S. Everitt. An R and S-Plus Companion to Multivariate Analysis. Springer, 2005. ISBN 1-85233-882-2; [25] Richard C. Deonier, Simon Tavare, and Michael S. Waterman. Computational Genome Analysis: An Introduction. Springer, 2005. ISBN: 0-387-98785-1; [26] Robert Gentleman, Vince Carey, Wolfgang Huber, Rafacel Irizarry, and Sandrine Dudoit, editors. Bioinformatics and Computational Biology Solutions Using R and Bioconductor. Statistics for Biology and Health. Springer, 2005. ISBN: 0-387-25146-4; [27] Terry M. Therneau and Patricia M. Grambsch. Modeling Survival Data: Extending thc Cox Model. Statistics for Biology and Health. Springer, 2000. ISBN: 0-387-98784-3).
Amarzguioui의 논문에서 발췌한 dataset은 Khvorova의 논문의 그것과는 다르 게 효율적/비효율적인 두 그룹을 발현억제효율 70%를 기준으로 나누어 놓았다. 즉, 이 dataset에서 두 채점방식의 예측성공률을 비교하면 그 차이를 더 극명하게 볼 수 있으리라 기대된다. 결과는 표 8과 같다.
표 8
Figure 112007041119557-pct00030
표 8의 결과를 보면 LDA와 QDA의 두 경우 모두 종래 siRNA 효율 채점방식보다 본 발명의 상대적인 결합에너지 형태 채점 방식이 10% 정도 그 예측성공률이 더 높게 나온다는 것을 알 수 있다.
<실시예 2> Survivin 유전자의 발현 억제 실험
본 발명의 상대적인 결합에너지 형태 판별을 적용한 siRNA 디자인 최적화 방법을 통해 survivin 유전자의 발현을 억제할 수 있는 36개의 siRNA를 디자인 한 후 실제로 survivin 유전자의 발현억제 실험을 수행하였다. 이렇게 얻어진 dataset을 발현억제효율 75%를 기준으로 효율적/비효율적의 두 그룹으로 구분하였다. Khvorova의 논문과 Amarzguioui의 논문에서 얻어졌던 세 개의 dataset을 train set으로 하고 survivin dataset을 test set으로 하여 실시예 1에서와 동일한 방식으로 siRNA의 점수를 채점한 뒤 통계 프로그램 R을 이용해서 LDA(Linear discriminant analysis), QDA(Quadratic discriminant analysis)를 통해 임의의 siRNA가 효율적인지 비효율적인지를 얼마나 잘 예측하는지를 계산해 보았다. 그 결과, LDA, QDA의 두 경우 모두 예측 성공률이 0.64로 실시예 1에서 보여줬던 것과 거의 같은 수준의 결과를 보였다(표 9).
표 9
Figure 112007041119557-pct00031
Figure 112007041119557-pct00032
Figure 112007041119557-pct00033
Figure 112007041119557-pct00034
상기에서 살펴본 바와 같이, 본 발명의 방법을 이용하면 연구자나 실험자가 실제로 실험을 해보지 않고서도 미지의 siRNA의 염기서열에 대한 상대적인 결합에너지의 패턴을 분석함으로써 상기 siRNA가 효율적인지 또는 비효율적인지 여부를 신속하게 판별할 수 있으므로, siRNA의 설계 및 제작 효율을 극대화 시킬 수 있으며, 이렇게 선별된 표적 mRNA에 대한 효율이 뛰어난 siRNA를 이용하여 상기 표적 mRNA의 발현을 효과적으로 억제할 수 있다.

Claims (16)

  1. (1) 임의의 표적 mRNA에 대해 상보적인 n개의 nucleotide로 이루어진 모든 조합의 ds(double strand)RNA 서열을 얻는 단계;
    (2) 상기 각 조합의 dsRNA 서열에 대하여, 상보적으로 결합한 부분의 염기서열 중 1-2번째 구간(A)의 평균 결합에너지, 3-7번째 구간(B)의 평균 결합에너지, 8-15번째 구간(C)의 평균 결합에너지 및 16-18번째 구간(D)의 평균 결합에너지 값 EA, EB, EC 및 ED 를 각각 구하는 단계;
    (3) 상기 각 조합의 dsRNA 서열에 대하여, 상기 (A) 내지 (D)의 각 구간에 대해 하기 식에 의해 Y(A-B), Y(B-C), Y(C-D) 및 Y(A-D) 값을 할당하는 단계로서 i) -0.02<EA -EB<0.38, -0.29<EB -EC<-0.01, 0.00<EC -ED<0.35, 0.07<ED -EA<0.37 의 범위일 때 Y(A-B), Y(B-C), Y(C-D), Y(A-D) 는 각각 10점,
    ii) -0.63<EA -EB<-0.21, 0.05<EB -EC<0.44, -0.47<EC -ED <-0.09,-0.67<ED -EA<-0.23 의 범위일 때 Y(A-B), Y(B-C), Y(C-D), Y(A-D) 는 각각 0점,
    iii) i)과 ii)의 범위에 모두 속하지 않는 경우에는 Y(A-B) = 5점을 부여하고;
    (4) 상기 각 조합의 dsRNA 서열에 대하여, 하기 수학식 4에 의해 Y 값을 할당하는 단계로서,
    [수학식 4]
    Figure 112007041119557-pct00035
    상기에서, W(A-B), W(B-C), W(C-D) 및 W(A-D) 는 (A-B), (B-C), (C-D) 및 (A-D) 구간에 대한 가중치로서, 각각 0.90∼1.00, 0.2∼0.4, 0.2∼0.3 및 0.7∼0.9 범위이고,
    (5) 상기 각 조합의 dsRNA 서열에 대하여, 하기 수학식 5에 의해 Z 값을 할당하는 단계로서,
    수학식 5
    Figure 112007041119557-pct00036
    상기에서, i는 1 내지 n의 자연수이고,
    Zi는 표적 mRNA에 대한 siRNA의 억제 효율에 영향을 미치는 각 인자에 대해 부여된 점수로서, 상기 siRNA의 억제 효율에 영향을 미치는 인자는 siRNA의 상대적인 결합에너지를 필수 인자로 포함하는 다양한 인자들 간의 임의의 조합으로, Z1은 상대적인 결합에너지 점수인 상기 Y이고, Mi는 각 인자에 할당된 소정의 최고값이고,
    Wi는 W1을 기준으로 각 인자에 할당된 소정의 가중치이고;
    (6) 상기 각 조합의 dsRNA 서열에 대하여, 단계 5)에서 구한 Z 값을 높은 순서대로 배열한 후, 상위 소정% 내에 해당하는 Z 값을 갖는 dsRNA 서열들을 선택하 는 단계; 및
    (7) 상기 각 6)에서 선택된 서열의 dsRNA를 이용하여 표적 mRNA의 발현을 억제하는 단계를 포함하는, siRNA를 이용하여 표적 mRNA의 발현을 억제하는 방법.
  2. 제 1항에 있어서,
    상기 siRNA는 n이 21인 21 nucleotide의 double strand RNA인 것을 특징으로 하는 방법.
  3. 제 1항 또는 제 2항에 있어서,
    상기 siRNA는 19 nucleotide의 dsRNA 부분과 양쪽 3'-말단에 1 내지 3 nucleotide의 overhang 구조를 가지는 것을 특징으로 하는 방법.
  4. 제 1항에 있어서,
    단계 (4)의 가중치 W(A-B), W(B-C), W(C-D) 및 W(A-D) 는 각각 1.00, 0.37 0.20 및 0.90인 것을 특징으로 하는 방법.
  5. 제 1항에 있어서,
    단계 (5)의 표적 mRNA에 대한 siRNA의 억제 효율에 영향을 미치는 인자는 상대적인 결합에너지를 필수 인자로 포함하고, 3'-말단 5개 염기 중 A/U의 개수, 1번 위치의 G/C 존재 유무, 19번 위치의 A/U 존재 유무, G/C 함량 정도, Tm, RNA 이차구조, 타 mRNA와의 상동성으로 구성된 군으로부터 선택되는 하나 이상의 인자를 선택적인 인자로 포함하는 임의의 조합인 것을 특징으로 하는 방법.
  6. 제 1항 또는 제 5항에 있어서,
    단계 (5)의 상기 수학식 5의 i=5 이고,
    Z1 = 상대적인 결합에너지 점수(Y), Z2 = 3'-말단 5개 염기 중 A/U의 개수에 대해 할당된 점수, Z3 = 1번 위치의 G/C 존재 유무에 대해 할당된 점수, Z4 = 19번 위치의 A/U 존재 유무에 대해 할당된 점수 및 Z5 = G/C 함량 정도에 대해 할당된 점수이고;
    M1 내지 M5 는 각각 100, 5, 1, 1, 10 이고,
    W1 내지 W5 의 각각 0.90, 0.07, 0.15, 0.19, 0.11인 것을 특징으로 하는 방법.
  7. 제 1항에 있어서,
    단계 (5)의 상위 소정%는 상위 10%인 것을 특징으로 하는 방법.
  8. (1) 임의의 표적 mRNA에 대해 상보적인 n개의 nucleotide로 이루어진 모든 조합의 ds(double strand)RNA 서열을 얻는 단계;
    (2) 상기 각 조합의 dsRNA 서열에 대하여, 상보적으로 결합한 부분의 염기서열 중 1-2번째 구간(A)의 평균 결합에너지, 3-6번째 구간(B)의 평균 결합에너지, 14-16번째 구간(C)의 평균 결합에너지 및 16-18번째 구간(D)의 평균 결합에너지 값 EA, EB, EC 및 ED 를 각각 구하는 단계;
    (3) 상기 각 조합의 dsRNA 서열에 대하여, 상기 (A) 내지 (D)의 각 구간에 대해 하기 식에 의해 Y(A-B), Y(B-C), Y(C-D), 및 Y(A-D) 값을 할당하는 단계로서, i)0.00<EA -EB<0.40, -0.41<EB -EC<-0.01, 0.07<EC -ED<0.39, 0.07<ED -EA<0.37 의 범위일 때 Y(A-B), Y(B-C), Y(C-D), Y(A-D) 는 각각 10점,
    ii) -0.63<EA -EB<-0.21, 0.10<EB -EC<0.51, -0.47<EC -ED<-0.19, -0.67<ED -EA<-0.23 의 범위일 때 Y(A-B), Y(B-C), Y(C-D), Y(A-D) 는 각각 0점,
    iii) i)과 ii)의 범위에 모두 속하지 않는 경우에는 Y(A-B) = 5점을 부여하고;
    (4) 상기 각 조합의 dsRNA 서열에 대하여, 하기 수학식 4에 의해 Y 값을 할당하는 단계로서,
    [수학식 4
    Figure 112007041119557-pct00037
    상기에서, W(A-B), W(B-C), W(C-D) 및 W(A-D) 는 (A-B), (B-C), (C-D) 및 (A-D) 구간 에 대한 가중치로서, 각각 0.5∼0.7, 0.3∼0.5, 0.3∼0.5 및 0.9∼1.0 범위이고,
    (5) 상기 각 조합의 dsRNA 서열에 대하여, 하기 수학식 5에 의해 Z 값을 할당하는 단계로서,
    [수학식 5]
    Figure 112007041119557-pct00038
    상기에서, i는 1 내지 n의 자연수이고,
    Zi는 표적 mRNA에 대한 siRNA의 억제 효율에 영향을 미치는 각 인자에 대해 부여된 점수로서, 상기 siRNA의 억제 효율에 영향을 미치는 인자는 siRNA의 상대적인 결합에너지를 필수 인자로 포함하는 다양한 인자들 간의 임의의 조합으로, Z1은 상대적인 결합에너지 점수인 상기 Y이고, Mi는 각 인자에 할당된 소정의 최고값이고,
    Wi는 W1을 기준으로 각 인자에 할당된 소정의 가중치이고;
    (6) 상기 각 조합의 dsRNA 서열에 대하여, 단계 5)에서 구한 Z 값을 높은 순서대로 배열한 후, 상위 소정% 내에 해당하는 Z 값을 갖는 dsRNA 서열들을 선택하는 단계; 및
    (7) 상기 각 6)에서 선택된 서열의 dsRNA를 이용하여 표적 mRNA의 발현을 억제하는 단계를 포함하는, siRNA를 이용하여 표적 mRNA의 발현을 억제하는 방법.
  9. 제 8항에 있어서,
    상기 siRNA는 n이 21인 21 nucleotide의 double strand RNA인 것을 특징으로 하는 방법.
  10. 제 8항 또는 제 9항에 있어서,
    상기 siRNA는 19 nucleotide의 dsRNA 부분과 양쪽 3'-말단에 1 내지 3 nucleotide의 overhang 구조를 가지는 것을 특징으로 하는 방법.
  11. 제 8항에 있어서,
    단계 4의 가중치 W(A-B), W(B-C), W(C-D) 및 W(A-D) 는 각각 0.65, 0.48, 0.48 및 0.90인 것을 특징으로 하는 방법.
  12. 제 8항에 있어서,
    단계 (5)의 표적 mRNA에 대한 siRNA의 억제 효율에 영향을 미치는 인자는 상대적인 결합에너지를 필수 인자로 포함하고, 3'-말단 5개 염기 중 A/U의 개수, 1번 위치의 G/C 존재 유무, 19번 위치의 A/U 존재 유무, G/C 함량 정도, Tm, RNA 이차구조, 타 mRNA와의 상동성으로 구성된 군으로부터 선택되는 하나 이상의 인자를 선택적인 인자로 포함하는 임의의 조합인 것을 특징으로 하는 방법.
  13. 제 8항 또는 제 12항에 있어서,
    단계 (5)의 상기 수학식 5의 i=5 이고,
    Z1 = 상대적인 결합에너지 점수(Y), Z2 = 3'-말단 5개 염기 중 A/U의 개수에 대해 할당된 점수, Z3 = 1번 위치의 G/C 존재 유무에 대해 할당된 점수, Z4 = 19번 위치의 A/U 존재 유무에 대해 할당된 점수 및 Z5 = G/C 함량 정도에 대해 할당된 점수이고;
    M1 내지 M5 는 각각 100, 5, 1, 1, 10 이고,
    W1 내지 W5 의 각각 0.90, 0.07, 0.15, 0.19, 0.11인 것을 특징으로 하는 방법.
  14. 제 8항에 있어서,
    단계 (5)의 상위 소정%는 상위 10%인 것을 특징으로 하는 방법.
  15. (1) 임의의 표적 mRNA에 대해 상보적인 n개의 nucleotids로 이루어진 모든 조합의 ds(double strand)RNA 서열을 얻는 단계;
    (2) 상기 각 조합의 dsRNA 서열에 대하여, 상보적으로 결합한 부분의 염기서열 중 1-2번째 구간(A)의 평균 결합에너지, 3-7번째 구간(B)의 평균 결합에너지, 8-15번째 구간(C)의 평균 결합에너지 및 16-18번째 구간(D)의 평균 결합에너지 값 EA, EB, EC 및 ED 를 각각 구하는 단계;
    (3) 상기 각 조합의 dsRNA 서열에 대하여, 상기 (A) 내지 (D)의 각 구간에 대해 하기 식에 의해 Y(A-B), Y(B-C), Y(C-D) 및 Y(A-D) 값을 할당하는 단계로서 i)-0.02<EA -EB<0.38, -0.29<EB -EC<-0.01, 0.00<EC -ED<0.35, 0.07<ED -EA<0.37 의 범위일 때 Y(A-B), Y(B-C), Y(C-D), Y(A-D) 는 각각 10점,
    ii) -0.63<EA -EB<-0.21, 0.05<EB -EC<0.44, -0.47<EC -ED<-0.09, -0.67<ED -EA<-0.23 의 범위일 때 Y(A-B), Y(B-C), Y(C-D), Y(A-D) 는 각각 0점,
    iii) i)과 ii)의 범위에 모두 속하지 않는 경우에는 Y(A-B) = 5점을 부여하고;
    (4) 상기 각 조합의 dsRNA 서열에 대하여, 하기 수학식 4에 의해 Y 값을 할당하는 단계로서,
    [수학식 4]
    Figure 112007041119557-pct00039
    상기에서, W(A-B), W(B-C), W(C-D) 및 W(A-D) 는 (A-B), (B-C), (C-D) 및 (A-D) 구간에 대한 가중치로서, 각각 0.90∼1.00, 0.2∼0.4, 0.2∼0.3 및 0.7∼0.9 범위이고,
    (5) 상기 각 조합의 dsRNA 서열에 대하여, 하기 수학식 5에 의해 Z 값을 할 당하는 단계로서,
    [수학식 5]
    Figure 112007041119557-pct00040
    상기에서, i는 1 내지 n의 자연수이고,
    Zi는 표적 mRNA에 대한 siRNA의 억제 효율에 영향을 미치는 각 인자에 대해 부여된 점수로서, 상기 siRNA의 억제 효율에 영향을 미치는 인자는 siRNA의 상대적인 결합에너지를 필수 인자로 포함하는 다양한 인자들 간의 임의의 조합으로, Z1 은 상대적인 결합에너지 점수인 상기 Y이고, Mi는 각 인자에 할당된 소정의 최고값이고,
    Wi는 W1을 기준으로 각 인자에 할당된 소정의 가중치이고; 및
    (6) 상기 각 조합의 dsRNA 서열에 대하여, 단계 5)에서 구한 Z 값을 높은 순서대로 배열한 후, 상위 소정% 내에 해당하는 Z 값을 갖는 dsRNA 서열들을 선택하는 단계를 포함하는 siRNA 디자인의 최적화 방법.
  16. (1) 임의의 표적 mRNA에 대해 상보적인 n개의 nucleotide로 이루어진 모든 조합의 ds(double strand)RNA 서열을 얻는 단계;
    (2) 상기 각 조합의 dsRNA 서열에 대하여, 상보적으로 결합한 부분의 염기서 열 중 1-2번째 구간(A)의 평균 결합에너지, 3-6번째 구간(B)의 평균 결합에너지, 14-16번째 구간(C)의 평균 결합에너지 및 16-18번째 구간(D)의 평균 결합에너지 값 EA, EB, EC 및 ED 를 각각 구하는 단계;
    (3) 상기 각 조합의 dsRNA 서열에 대하여, 상기 (A) 내지 (D)의 각 구간에 대해 하기 식에 의해 Y(A-B), Y(B-C), Y(C-D) 및 Y(A-D) 값을 할당하는 단계로서 i) 0.00<EA - EB<0.40, -0.41<EB - EC<-0.01, 0.07<EC - ED<0.39, 0.07<ED - EA<0.37 의 범위일 때, Y(A-B), Y(B-C), Y(C-D), Y(A-D) 는 각각 10점,
    ii) -0.63<EA -EB<-0.21, 0.10<EB -EC<0.51, -0.47<EC -ED<-0.19, -0.67<ED -EA<-0.23 의 범위일 때 Y(A-B), Y(B-C), Y(C-D), Y(A-D) 는 각각 0점,
    iii) i)과 ii)의 범위에 모두 속하지 않는 경우에는 Y(A-B) = 5점을 부여하고;
    (4) 상기 각 조합의 dsRNA 서열에 대하여, 하기 수학식 4에 의해 Y 값을 할당하는 단계로서,
    [수학식 4]
    Figure 112007041119557-pct00041
    상기에서, W(A-B), W(B-C), W(C-D) 및 W(C-D) 는 (A-B), (B-C), (C-D) 및 (A-D) 구간에 대한 가중치로서, 각각 0.5∼0.7, 0.3∼0.5, 0.3∼0.5 및 0.9∼1.0 범위이고,
    (5) 상기 각 조합의 dsRNA 서열에 대하여, 하기 수학식 5에 의해 Z 값을 할 당하는 단계로서,
    [수학식 5]
    Figure 112007041119557-pct00042
    상기에서, i는 1 내지 n의 자연수이고,
    Zi는 표적 mRNA에 대한 siRNA의 억제 효율에 영향을 미치는 각 인자에 대해 부여된 점수로서, 상기 siRNA의 억제 효율에 영향을 미치는 인자는 siRNA의 상대적인 결합에너지를 필수 인자로 포함하는 다양한 인자들 간의 임의의 조합으로, Z1은 상대적인 결합에너지 점수인 상기 Y이고, Mi는 각 인자에 할당된 소정의 최고값이고,
    Wi는 W1을 기준으로 각 인자에 할당된 소정의 가중치이고; 및
    (6) 상기 각 조합의 dsRNA 서열에 대하여, 단계 5)에서 구한 Z값을 높은 순서대로 배열한 후, 상위 소정% 내에 해당하는 Z 값을 갖는 dsRNA 서열들을 선택하는 단계를 포함하는 siRNA 디자인의 최적화 방법.
KR1020077012736A 2004-12-08 2005-12-08 표적 mrna와 상보적인 염기서열을 가지는 sirna를 이용하여표적 mrna의 발현을 억제하는 방법 KR101007346B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR20040103283 2004-12-08
KR1020040103283 2004-12-08
PCT/KR2005/004207 WO2006062369A1 (en) 2004-12-08 2005-12-08 Method of inhibiting expression of target mrna using sirna consisting of nucleotide sequence complementary to said target mrna

Publications (2)

Publication Number Publication Date
KR20070094601A KR20070094601A (ko) 2007-09-20
KR101007346B1 true KR101007346B1 (ko) 2011-01-13

Family

ID=36578152

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077012736A KR101007346B1 (ko) 2004-12-08 2005-12-08 표적 mrna와 상보적인 염기서열을 가지는 sirna를 이용하여표적 mrna의 발현을 억제하는 방법

Country Status (6)

Country Link
US (1) US20090155904A1 (ko)
EP (1) EP1828415A4 (ko)
JP (1) JP4672021B2 (ko)
KR (1) KR101007346B1 (ko)
CN (1) CN101120099B (ko)
WO (1) WO2006062369A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014170786A1 (en) 2013-04-17 2014-10-23 Pfizer Inc. N-piperidin-3-ylbenzamide derivatives for treating cardiovascular diseases
CN105176999A (zh) * 2015-08-13 2015-12-23 吉林大学 抑制survivin基因表达的双链siRNA、其应用及包含其的表达质粒及传递体
CN105063048A (zh) * 2015-08-13 2015-11-18 吉林大学 一种抑制Survivin基因表达的siRNA及其应用
CN112951322B (zh) * 2021-03-08 2023-09-26 深圳市新合生物医疗科技有限公司 一种基于网格搜索的规则权重分配siRNA设计方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1427008A (zh) * 2001-12-14 2003-07-02 殷冬生 设计与选择天然的siRNA作为基因药物的方法及药物配方
US20040002083A1 (en) * 2002-01-29 2004-01-01 Ye Ding Statistical algorithms for folding and target accessibility prediction and design of nucleic acids
JP2006507841A (ja) * 2002-11-14 2006-03-09 ダーマコン, インコーポレイテッド 機能的siRNAおよび超機能的siRNA

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Biochem. Biophys. Res. Commun., Vol.319, No.1, pp.264-274(2004.06.18.) 1부.*

Also Published As

Publication number Publication date
WO2006062369A1 (en) 2006-06-15
KR20070094601A (ko) 2007-09-20
CN101120099A (zh) 2008-02-06
JP2008522613A (ja) 2008-07-03
US20090155904A1 (en) 2009-06-18
EP1828415A4 (en) 2009-07-01
JP4672021B2 (ja) 2011-04-20
CN101120099B (zh) 2010-12-15
EP1828415A1 (en) 2007-09-05

Similar Documents

Publication Publication Date Title
SaeTrom et al. Weighted sequence motifs as an improved seeding step in microRNA target prediction algorithms
Shabalina et al. Computational models with thermodynamic and composition features improve siRNA design
Liu et al. A global identification and analysis of small nucleolar RNAs and possible intermediate-sized non-coding RNAs in Oryza sativa
Vert et al. An accurate and interpretable model for siRNA efficacy prediction
CN1926551B (zh) 用于基因沉默的siRNA的设计方法
Shao et al. Effect of target secondary structure on RNAi efficiency
Lai et al. Computational identification of Drosophila microRNA genes
Ichihara et al. Thermodynamic instability of siRNA duplex is a prerequisite for dependable prediction of siRNA activities
Yano et al. A new role for expressed pseudogenes as ncRNA: regulation of mRNA stability of its homologous coding gene
KR101007346B1 (ko) 표적 mrna와 상보적인 염기서열을 가지는 sirna를 이용하여표적 mrna의 발현을 억제하는 방법
Gredell et al. Impact of target mRNA structure on siRNA silencing efficiency: A large‐scale study
CA2545675A1 (en) Rnai potency prediction method
JP2011004763A (ja) Rna干渉の方法と組成物
Bugnon et al. Secondary structure prediction of long noncoding RNA: review and experimental comparison of existing approaches
Pan et al. siPRED: predicting siRNA efficacy using various characteristic methods
Seligmann Hybridization between mitochondrial heavy strand tDNA and expressed light strand tRNA modulates the function of heavy strand tDNA as light strand replication origin
Liu et al. The effect of regions flanking target site on siRNA potency
Hill et al. Comparing miRNAs and viroids; highly conserved molecular mechanisms for the transmission of genetic information
US20120072123A1 (en) Methods of Predicting The Probability of Modulation of Transcript Levels By RNAI Compounds
Luan et al. Computational predicting novel microRNAs in tomato and validating with RT-PCR
CN110021361A (zh) 一种基于卷积神经网的miRNA靶基因预测方法
KR20090083804A (ko) 표적 아형 mRNA의 선택적 발현 억제를 위한 siRNA서열을 선정하는 방법
Pan et al. Design of an NGS MicroRNA predictor using multilayer hierarchical MapReduce framework
Schlick RNA: The cousin left behind becomes a star
US20090325291A1 (en) METHOD OF PREPARING siRNAs FOR SELECTIVE INHIBITION OF TARGET mRNA ISOTYPES

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20131122

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20141230

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20151208

Year of fee payment: 6