KR100793505B1 - 복수의 표적 mRNA에 적용 가능한 siRNA염기서열을 추출하는 방법 - Google Patents

복수의 표적 mRNA에 적용 가능한 siRNA염기서열을 추출하는 방법 Download PDF

Info

Publication number
KR100793505B1
KR100793505B1 KR1020060048568A KR20060048568A KR100793505B1 KR 100793505 B1 KR100793505 B1 KR 100793505B1 KR 1020060048568 A KR1020060048568 A KR 1020060048568A KR 20060048568 A KR20060048568 A KR 20060048568A KR 100793505 B1 KR100793505 B1 KR 100793505B1
Authority
KR
South Korea
Prior art keywords
keyword
sequences
sequence
target mrna
bases
Prior art date
Application number
KR1020060048568A
Other languages
English (en)
Other versions
KR20070114923A (ko
Inventor
이희란
이휘선
안정현
김유겸
Original Assignee
울산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 울산대학교 산학협력단 filed Critical 울산대학교 산학협력단
Priority to KR1020060048568A priority Critical patent/KR100793505B1/ko
Publication of KR20070114923A publication Critical patent/KR20070114923A/ko
Application granted granted Critical
Publication of KR100793505B1 publication Critical patent/KR100793505B1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing

Abstract

본 발명은 siRNA 염기서열의 추출 방법에 관한 것으로, 키워드 트라이 (keyword trie)를 사용하여 보존된 염기서열을 검색하여 복수의 표적 mRNA에 적용 가능한 siRNA 염기서열을 추출하는 본 발명의 방법은, 상이한 혈청형 (serotype)을 갖는 다양한 종류의 바이러스의 복제를 전반적으로 억제할 수 있는 효과적인 siRNA를 설계하는데 매우 유용하다.

Description

복수의 표적 mRNA에 적용 가능한 siRNA 염기서열을 추출하는 방법 {METHOD FOR EXTRACTING siRNA SEQUENCE APPLICABLE TO MULTIPLE TARGET mRNA SEQUENCES}
도 1은 본 발명에 따른 복수의 표적 mRNA에 적용 가능한 siRNA 염기서열을 추출하는 방법에 따라 siRNA 염기서열을 추출하는 과정을 나타낸 흐름도이고,
도 2는 본 발명에 따라 복수의 표적 mRNA로부터 보존된 서열을 추출하기 위한 키워드 트라이를 나타낸 것이며,
도 3은 상기 도 2의 키워드 트라이에 새로운 키워드들을 추가한 확장된 키워드 트라이를 나타낸 것이다. 이때, 회색으로 표시된 부분은 완전 상동 보존 패턴에 해당한다.
본 발명은 복수의 표적 mRNA에 적용 가능한 siRNA 염기서열을 추출하는 방법에 관한 것이다.
RNA 간섭 (RNA interference, RNAi)은 자연적인 '유전자 발현 억제'과정으로서, 서열 특이적 방법으로 진행된다 (문헌 [Dykxhoorn, D. M. et al., Nat Rev Mol Cell Biol, 4:457-467, 2005; 및 Fire, A. et al., Nature, 391:806-811, 1998] 참조). 이러한 현상은 약 19-23개의 염기를 갖는 siRNA가 RISC (RNA-induced silencing complex)를 통해 상보적인 mRNA의 분해를 유도함으로써 이루어진다 (문헌 [Elbashir, S. M. et al., Nature, 411:494-498, 2001; Fire, A. et al., 상기 문헌; 및 Zamore, P. D. et al., Cell, 101:25-33, 2000] 참조).
RNAi는 발병에 필수적인 바이러스 유전자들을 선택적으로 억제하는데 유용하고, 바이러스의 기본적인 분자 생물학적 특징들을 밝히는데도 사용될 수 있다 (문헌 [Gitlin, L. et al., Nature, 418:430-434, 2002; Schubert, S. et al., J Mol Biol, 346:457-465, 2005; Gitlin, L. et al., J Virol, 77:7159-7165, 2003; 및 Stevenson, M., Nat Rev Immunol, 3:851-858, 2003] 참조). 그러나 바이러스들은 돌연변이 확률이, HIV와 같은 레트로바이러스의 경우 뉴클레오타이드당 10-3 내지 10-4 정도로 높고 (문헌 [Cann, A.J., London: Academic Press, 418:430-434, 1993] 참조), 몇몇 RNA 중합효소들이 교정 (proof-reading) 능력을 가지고 있지만 대부분의 RNA 바이러스들은 돌연변이 확률이 DNA 바이러스들보다 높다. RNAi에 있어서, siRNA의 표적부위에 단 한 개의 돌연변이라도 생기면, RNAi는 실패하게 된다. 이러한 억제 돌연변이를 갖는 탈출 바이러스들의 출현은 siRNA의 장기 효과를 막는 중요한 원인이 된다. 예를 들어, 폴리오바이러스 (poliovirus)는 표적 부위 내, 특히 중심 부위 (central region)와 3′-말단에서 점 돌연변이 (point mutation)를 일으켜 매우 효과적인 siRNA를 탈출하는 것으로 알려져 왔다 (문헌 [Gitlin, L. et al., 상기 문헌; 및 Gitlin, L. et al., J Virol, 79:1027-1035, 2005] 참조). 더욱이, siRNA와 장기간 배양될 경우 siRNA에 의해 더 이상 억제되지 않는 HIV-1 탈출 변이체를 유발하는 것으로 나타났다 (문헌 [Westerhout, E.M. et al., Nucleic Acid Res, 33:796-804, 2005] 참조). 그러므로 연구자들은 바이러스 유전체 내에서 돌연변이 확률이 낮은 표적 부위들을 선별해야 하며, 일반적으로 이러한 부위들은 바이러스 증식에 매우 중요하므로 돌연변이에 과민하기 때문에 다양한 바이러스 균주들 사이에서 보존되고 있는 것으로 추측될 수 있다.
바이러스 유전체들의 보존 부위를 이용하여 siRNA를 설계하기 위해서는 추가의 이점들이 있어야 한다. 바이러스들은 수많은 다른 혈청형을 가지고 있으며, 이들이 다양한 인간 질병을 유발하며, 한 개의 바이러스가 몇몇 다른 종류의 인간 질병에 연관되기도 하고, 몇몇 다른 바이러스들이 동일한 인간 질병의 원인이 되기도 한다. 만약 우리가 siRNA 염기서열과 유사한 바이러스 유전체만을 억제할 수 있는 각 혈청형-특이 siRNA를 설계해서 특정 바이러스 균주에 적용한다면, 이것은 항바이러스 치료법으로서 siRNA를 사용하기 위한 매우 비효율적이고 비실용적인 방법일 것이다. 그러나 만약 우리가 다른 혈청형을 갖는 바이러스들 사이의 보존 부위를 표적으로 하는 siRNA를 설계한다면, 이 siRNA는 다양한 바이러스 혈청형들에 대한 범용적인 항바이러스 제제로서 사용될 수 있을 것이다.
따라서 siRNA 분자를 적절하게 설계하는 것은 효과적인 siRNA 특이적 유전자 억제를 위한 매우 중요한 단계이다. 그러나 가장 최근의 siRNA 소프트웨어들은 단일 유전체 서열에 적용할 수 있는 siRNA를 설계하기 위한 것이므로, 공통의 보존 부위들을 포함할 수 있는 복수의 서열들에 적용할 수 있는 siRNA를 설계하는 것은 불가능하다 (문헌 [Levenkova, N. et al., Bioinfomatics, 20, 430-432, 2004; 및 Wang, L. et al., Bioinfomatics, 20, 1818-1820, 2004] 참조).
이에, 본 발명자들은 복수의 서열들에 적용할 수 있는 siRNA 염기서열을 설계할 수 있는 소프트웨어를 연구한 결과, 이 소프트웨어가 다양한 바이러스 혈청형들에 대한 범용적인 항바이러스 제제로 사용될 수 있는 다른 혈청형을 갖는 바이러스들 사이의 보존 부위를 표적으로 하는 siRNA 염기서열을 설계할 수 있음을 확인함으로써 본 발명을 완성하였다.
본 발명의 목적은 복수의 유전자 서열들로부터 효과적인 siRNA 특이적 유전자 억제를 위한 siRNA 염기서열을 추출하는 방법 및 이를 실현시키기 위한 일련의 명령들을 포함하는 프로그램이 저장된 컴퓨터로 판독 가능한 기록매체를 제공하는 것이다.
상기 목적에 따라, 본 발명은
(a) 복수의 표적 mRNA로부터 하나의 표적 mRNA을 선택하는 단계;
(b) 상기 (a) 단계에서 선택된 표적 mRNA로부터 염기의 개수 m (m
Figure 112006038285815-pat00001
n, n은 상기 로딩된 표적 mRNA의 문자열 수의 최소값)인 서픽스 서열 (suffix sequence)을 키워드 (keyword)로서 생성하는 단계;
(c) 상기 (b) 단계에서 생성한 키워드로 구성된 키워드 트라이 (keyword trie)를 형성하는 단계;
(d) 상기 (a) 단계에서 이미 선택되었던 상기 표적 mRNA 외의 표적 mRNA를 선택하고 이로부터 염기의 수가 m인 서픽스 서열을 키워드로 생성하는 단계;
(e) 상기 (d) 단계에서 생성한 키워드를 상기 키워드 트라이에 추가하되, 이미 키워드 트라이를 구성하고 있는 키워드와 상기 추가되는 키워드를 비교하여 모든 염기가 일치되는 완전 상동 보존 패턴 (complete homology conserved pattern) 이외의 염기 배열은 키 (key) 값에서 제외하는 방법, 또는 일정 부분의 염기서열은 완전히 일치하고 그 외의 서열에 대해서는 일치하지 않는 염기서열의 개수, k (0
Figure 112006038285815-pat00002
k
Figure 112006038285815-pat00003
p, k는 정수, p는 상기 m에서 상기 완전 일치하는 염기서열의 염기 개수를 제한 값)를 검색자가 선택하여 상기 완전히 일치되는 서열의 위치를 기준으로 표적 mRNA의 5' 방향으로 추가적으로 서열을 검색하여 불일치하는 서열의 개수가 k인 불완전 상동 보존 패턴 (incomplete homology conserved pattern) 외의 염기배열은 키 값에서 제외하는 방법에 의해 키워드 트라이를 확장하는 단계;
(f) 이미 선택되었던 표적 mRNA 외의 표적 mRNA가 전부 선택될 때까지 상기 (d) 단계에서 상기 (e) 단계까지를 반복 수행하는 단계;
(g) 상기 (f) 단계에서 형성된 확장된 키워드 트라이를 검색하여 완전 상동 보존 패턴 또는 불완전 상동 보존 패턴을 검색하여 추출하는 단계; 및
(h) 상기 (g) 단계에서 추출된 보존 패턴에 적용 가능한 siRNA 후보군을 선정하는 단계를 포함하는 것을 특징으로 하는, 복수의 표적 mRNA로부터 siRNA 염기서열을 추출하는 방법을 제공한다.
또한, 본 발명은 상기 방법을 실현시키기 위한 일련의 명령들을 포함하는 프로그램이 저장된 컴퓨터로 판독 가능한 기록매체를 제공한다.
이하, 본 발명을 더욱 상세하게 설명한다.
본 발명에서 복수의 표적 mRNA (target mRNA)에 적용 가능한 siRNA 염기서열을 추출하는 방법은 크게 2 단계로 나뉘는 바, 복수의 표적 mRNA에 공통적으로 포함된 특정 길이의 보존패턴을 검출하는 단계 및 상기 추출된 보존패턴에 적용 가능한 siRNA 후보군을 선정하는 단계로 이루어진다. 상기 siRNA 후보군의 선정단계에서는 일정한 생화학적 요건을 충족하는 것들만을 다시 재추출하는 단계를 더 포함할 수 있다. 추출된 siRNA 후보군에 대해서는 듀플렉스 (duplex)의 혼성화 온도 (hybridization temperature) 및 접힌 센스 및 안티센스 가닥들 (folded sense and antisense strands)의 녹는점과 같은 열역학적 데이터를 계산하거나 또는 해당 siRNA에 대한 자료를 인터넷을 통해 전송받는 단계를 더 포함할 수도 있으며, 이러한 단계로 이루어진 흐름도를 도 1에 나타내었다.
이하에서는 각 단계에 대해서 구체적으로 설명한다.
1. 표적 mRNA의 로딩 및 편집 단계
임의의 데이터베이스로부터 목적하는 표적 mRNA를 복수개 선정하여 로딩한다. 로딩된 mRNA 염기서열은 GBFF 뷰어 (Viewer) 등에 의해 편집 될 수 있으며 (단계 100), 이렇게 로딩된 mRNA에 대한 염기서열 등과 같은 정보는 컴퓨터로 판독 가능한 전자적 형태 (예를 들어 확장자가 .mus인 파일)로 저장된다.
2. 복수의 표적 mRNA에서 보존 패턴의 검출 단계
보존 패턴은 서열 모티프 내의 염기가 완전히 동일한 완전 상동 보존 패턴 및 중요한 염기 부분은 일치하고 그 외는 불일치하는 불완전 상동 보존 패턴이 있다. 양쪽 모두 본 발명에서 제시하는 방법에 의하여 추출이 가능한 바, 우선 완전 상동 보존 패턴을 추출하는 방법에 대해서 먼저 설명하도록 한다.
본 단계는 상기 복수의 표적 mRNA로부터 보존 패턴을 보다 신속하게 검출하기 위한 단계로 본 발명의 핵심이다.
본 발명은 주어진 키워드 트라이를 이용하여 보존 패턴을 검출하는 바, 키워드 트라이란 하나의 주어진 텍스트로부터 생성된 모든 키워드를 이용하여 형성된 트라이를 말한다. 트라이 (trie)란 키 (key) 값을 이루는 문자 개수를 레벨로 구성 하는 트리 구조를 말하며, 키 값은 노드 (node)가 모두 포인터로만 구성된 1차원 배열, 즉, 스트링 (string)으로 되어 있다. 따라서 키워드 트라이는 주어진 텍스트로부터 생성된 키워드들을 키 값으로 하여 형성된 트리 구조라고 할 수 있을 것이다.
이때 목적하는 보존 패턴의 염기의 개수를 m이라고 하면, 키워드는 주어진 표적 mRNA로부터 염기의 개수가 m인 서픽스 서열을 형성하는 방법으로 생성된다. 즉, 상기 복수의 표적 mRNA로부터 임의로 하나의 표적 mRNA를 선택한다 (단계 101). 이때 선택된 표적 mRNA의 서열 모티프가 n개의 염기로 이루어 진 것이라고 하고, 보존 패턴의 서열 모티프가 m개의 염기로 이루어진 것이라고 하면, 키워드는 상기 표적 mRNA의 최초의 염기로부터 m번째 염기까지 이루어진 서열 모티프 P1, 두 번째 염기로부터 m+1번째 염기까지 이루어진 서열 모티프 P2, 이러한 방식으로 서열 모티프를 계속 형성하여 최종적으로는 제 n-m+1 번째 염기로부터 n번째 염기로 이루어진 서열 모티프 Pn-m+1 까지 총 n-m+1개를 생성하게 된다 (단계 102). 따라서 생성된 키워드의 집합은 {P1, P2...Pn-m+1}로 구성된다.
이렇게 구성된 키워드로부터 키워드 트라이를 형성한다 (단계 103).
예를 들어, 임의로 선택된 mRNA의 염기서열 S1이 CATGTACG이고 보존 패턴의 염기서열의 수 m=6이라면, n=8이므로 키워드는 모두 3개가 형성되며, P1은 최초의 염기로부터 6번째 염기까지인 CATGTA, P2는 두 번째 염기로부터 7번째 염기까지인 ATGTAC, P3은 세 번째 염기로부터 8번째 염기인 TGTACG가 된다. 이렇게 키워드를 키 값으로 하여 구성한 트라이를 도 2에 나타내었다.
이렇게 키워드 트라이를 형성한 후 다음 단계는 이미 선택되었던 표적 mRNA 외의 다른 표적 mRNA를 선택하고 이로부터 위에서 기술한 방식과 동일한 방식으로 형성한 키워드들을 이미 생성된 키워드 트라이에 추가함에 의해 키워드 트라이를 확장해가는 단계이다.
즉, 상기 로딩되어 저장된 표적 mRNA 중에서 이미 선택되었던 표적 mRNA 외의 표적 mRNA를 선택하고 (단계 104) 이로부터 염기의 수가 m인 서픽스 서열, 즉, 키워드를 위에서 설명한 방법과 동일한 방법에 의해 형성한다 (단계 105).
다음 이러한 키워드들을 새로운 키 값으로 하여 이미 형성된 키워드 트라이에 추가하는 방법에 의하여 키워드 트라이를 확장시켜 나간다. 이때 이미 키워드 트라이에 존재하던 키워드와 완전히 동일한 키워드가 추가되는 경우에는 새로운 스트링을 형성하지 않고 기존의 키워드를 반복하여 사용한다. 도 3에는 첫 번째 선택된 mRNA S1이 CATGTACG이고 두 번째 선택된 mRNA S2가 TATGTACA인 경우에 키워드 트라이를 도시한 것으로서 ATGTAC는 S1 및 S2에 존재하는 키워드로서 완전 상동 보존 패턴에 해당한다.
그런데 이렇게 키워드 트라이를 확장하는 것은 새로운 키워드를 추가할 때 마다 기존의 키워드 트라이에 존재하는 스트링을 추가되는 키워드와 비교하기 위하여 모두 방문해야 하며, 따라서 방문해야하는 스트링이 증가할수록 소요되는 시간 이 길다는 문제점이 있다.
따라서 이러한 문제점을 극복하기 위해서는 키워드 트라이를 확장하는 경우에 이미 키워드 트라이를 구성하고 있는 키워드와 상기 추가되는 키워드를 비교하여 모든 염기가 일치되는 완전 상동 보존 패턴 이외의 염기배열은 키 값에서 제외하는 방법에 의해 키워드 트라이를 확장한다 (단계 106). 이러한 방법에 의하여 서로 불일치하여 완전 상동 보존 패턴이 될 수 없는 키워드들은 확장되는 단계에서 바로 삭제되어 버리므로 키워드 내의 키 값을 이루는 스트링의 수가 감소하게 되어, 새로운 키워드를 추가할 때 소요되는 시간도 역시 그만큼 감소하게 된다. 따라서 보다 빠른 시간 내에 키워드 트라이를 확장할 수 있으며, 최종적으로는 완전 상동 보존 패턴으로 만으로 형성된 일반화된 키워드 트라이를 형성할 수 있게 된다. 결국 완전 상동 보존 패턴의 검색에 소요되는 시간이 현저하게 감소하게 된다.
로딩된 표적 mRNA에 있어, 이미 선택되었던 표적 mRNA 외의 표적 mRNA가 전부 선택될 때까지 (단계 107) 상기에서 기술한 것과 같은 방법으로 키워드를 형성하는 과정과 이를 키워드 트라이에 추가하는 과정을 반복함으로써 로딩된 모든 표적 mRNA로부터 형성된 키워드로 구성된 트라이를 완성할 수 있다. 이렇게 완성된 확장된 키워드 트라이는 키 값이 모든 mRNA에 공통적으로 존재하는 완전 상동 보존 패턴이 된다.
따라서 이러한 일반화된 키워드 트라이로부터 모든 mRNA에 존재하는 것으로 표시된 키워드를 검색함으로써 완전 상동 보존 패턴을 추출해 낼 수 있다 (단계 108).
상기에 기술한 방법에 의해서 추출된 완전 상동 보존 패턴은, 예를 들어 확장자가 xxx.cse인 파일로 저장된다.
한편 보존 패턴에 있어 서열 특성상 중요하다고 판단되는 부분의 서열은 완전히 일치하고 그 외의 서열에 대해서는 일치하지 않는 경우, 즉, 불완전 상동 보존 패턴 (incomplete homology conserved pattern)의 경우에도 이를 siRNA의 후보를 선정하는 데 사용할 수 있는 바, 이러한 불완전 상동 보존 패턴에 대해서도 역시 상기와 같은 방법으로 추출할 수 있다.
최초의 키워드 트라이를 형성하는 방법은 도 1의 단계 100 내지 단계 105와 동일하다.
그 다음 일치하지 않는 서열의 개수, k (0
Figure 112006038285815-pat00004
k
Figure 112006038285815-pat00005
p, k는 정수, p는 상기 m에서 상기 완전 일치하는 염기서열의 염기 개수를 제한 값)를 검색자가 선택한다. 키워드를 추가하는 과정에서 완전히 일치되는 서열의 위치를 기준으로 표적 mRNA의 5' 방향으로 추가적으로 서열을 검색하여 불일치하는 서열의 개수가 k인 불완전 상동 보존 패턴을 검색한 후 이러한 불일치하는 서열의 개수가 k개인 불완전 상동 보존 패턴외의 키워드는 키 값에서 제외하는 방법에 의해 키워드 트라이를 확장한다. 역시 이러한 작업을 위에서 기술한 것과 같이 모든 표적 mRNA에 대해서 수행함으로써 불완전 상동 보존 패턴으로 이루어진 키워드 트라이를 얻게 된다.
상기에 기술한 방법에 의해서 추출된 불완전 상동 보존 패턴은, 예를 들어 확장자가 xxx.pat인 파일로 저장된다. 또한 불완전 상동 보존 패턴은 부가적인 프로세스를 거칠 수도 있으며 이러한 프로세스에 의해 생성된 서열 라이브러리는 예를 들어 xxx.spa로 저장될 수 있다.
이렇게 완전 상동 또는 불완전 상동 보존 패턴을 추출한 이후에는 여기에 대응되는 복수의 siRNA 후보군을 선정할 수 있다.
한편 표적 mRNA가 하나인 경우에는, 예를 들어 젠뱅크 플랫 파일 (GENBANK flat file) 형태로 로딩이 가능하며 상기 단계 101에서 단계 108까지를 거칠 필요가 없이 바로 siRNA 염기서열의 선택 단계로 진행될 것이다.
3. 고효율이 예상되는 후보 siRNA 염기서열의 선택 단계
이렇게 선정된 후보군들 중에서 염기서열의 생화학적 특성을 고려하여 특정 조건을 만족하는 siRNA 염기서열만을 추출한다. 우선적으로 고려할 siRNA의 염기특성은 다음과 같다.
(i) 표적 mRNA의 서열 모티프가 AAN19TT, NAN19TT, AAN19NN, NAN19NN을 포함하는 제 1 조건;
(ii) G 염기 및 C 염기의 수가 전체 염기 수에 대해서 35%에서 52%사이에 존재하는 제 2 조건;
(iii) G 염기가 연속하여 3번을 초과하여 배열되어 있지 않아야 하는 제 3 조건;
(iv) A 또는 T 염기가 연속하여 4번을 초과하여 존재하지 않는 제 4 조건; 및
(v) "A/U" 염기쌍이 위치 15에서 위치 19까지 최소한 3개가 존재하는 제 5 조건.
더 나아가 이렇게 추출된 siRNA 염기서열 중에서 아래 조건을 활용하여 더 우수한 siRNA 염기서열을 추출할 수도 있다. 즉,
(vi) 퓨린이 위치 1에 있는 제 6 조건;
(vii) A 염기가 위치 3에 있는 제 7 조건;
(viii) U염기가 위치 10에 있는 제 8 조건;
(ix) G이외의 염기가 위치 13에 있는 제 9 조건;
(x) A 염기가 위치 19에 있는 제 10 조건;
(xi) G 또는 C가 위치 19에 있는 제 11 조건; 및
(xii) 피리딘이 위치 19에 있는 제 12 조건 중에서 상기 제 6, 7, 8, 10, 및/또는 12의 조건을 만족하는 경우에는 각각 1점을 부가하고, 상기 9 및/또는 11을 부가하는 경우에는 1점을 감하여 최종 합계 후 정렬하여 미리 정해진 기준치 이상인 것만 추출하는 것이다.
이러한 모든 단계를 거쳐 최종적으로 복수의 mRNA에 공통적으로 적용 가능한 siRNA 염기서열이 후보군으로 선택될 수 있을 것이다.
이렇게 선택된 siRNA 염기서열은 파일로 저장되어 표적 mRNA에의 적용 가능 한 siRNA에 관한 정보로서 활용될 것이다.
4. 열역학적 데이터를 부가하는 단계
더 나아가 후보군으로 정해진 siRNA 염기서열에 대해서는 각종 열역학 자료, 예를 들어 듀플렉스의 혼성화 온도 및/또는 접힌 센스 및 안티센스 가닥들의 녹는점을 데이터베이스에 저장된 자료를 바탕으로 계산하여 이를 후보 siRNA 염기서열을 출력할 때 같이 출력하게 할 수도 있을 것이다.
이상에서 살펴본 바와 같이, 본 발명에 따른 siRNA 염기서열의 추출 방법은, 키워드 트라이 (keyword trie)를 사용하여 보존된 염기서열을 검색함으로써 복수의 표적 mRNA에 적용 가능한 siRNA 염기서열을 추출할 수 있으므로, 상이한 혈청형 (serotype)을 갖는 다양한 종류의 바이러스의 복제를 전반적으로 억제할 수 있는 효과적인 siRNA를 설계하는데 매우 유용하다.

Claims (5)

  1. (a) 복수의 표적 mRNA로부터 하나의 표적 mRNA을 선택하는 단계;
    (b) 상기 (a) 단계에서 선택된 표적 mRNA로부터 염기의 개수 m (m
    Figure 112007053015162-pat00006
    n, n은 상기 로딩된 표적 mRNA의 문자열 수의 최소값)인 서픽스 서열 (suffix sequence)을 키워드 (keyword)로서 생성하는 단계;
    (c) 상기 (b) 단계에서 생성한 키워드로 구성된 키워드 트라이 (keyword trie)를 형성하는 단계;
    (d) 상기 (a) 단계에서 이미 선택되었던 상기 표적 mRNA 외의 표적 mRNA를 선택하고 이로부터 염기의 수가 m인 서픽스 서열을 키워드로 생성하는 단계;
    (e) 상기 (d) 단계에서 생성한 키워드를 상기 키워드 트라이에 추가하되, 이미 키워드 트라이를 구성하고 있는 키워드와 상기 추가되는 키워드를 비교하여 모든 염기가 일치되는 완전 상동 보존 패턴 (complete homology conserved pattern) 이외의 염기 배열은 키 (key) 값에서 제외하는 방법, 또는 일정 부분의 염기서열은 완전히 일치하고 그 외의 서열에 대해서는 일치하지 않는 염기서열의 개수, k (0
    Figure 112007053015162-pat00007
    k
    Figure 112007053015162-pat00008
    p, k는 정수, p는 상기 m에서 상기 완전 일치하는 염기서열의 염기 개수를 제한 값)를 검색자가 선택하여 상기 완전히 일치되는 서열의 위치를 기준으로 표적 mRNA의 5' 방향으로 추가적으로 서열을 검색하여 불일치하는 서열의 개수가 k인 불완전 상동 보존 패턴 (incomplete homology conserved pattern) 외의 염기배열은 키 값에서 제외하는 방법에 의해 키워드 트라이를 확장하는 단계;
    (f) 이미 선택되었던 표적 mRNA 외의 표적 mRNA가 전부 선택될 때까지 상기 (d) 단계에서 상기 (e) 단계까지를 반복 수행하는 단계;
    (g) 상기 (f) 단계에서 형성된 확장된 키워드 트라이를 검색하여 완전 상동 보존 패턴 또는 불완전 상동 보존 패턴을 검색하여 추출하는 단계; 및
    (h) 상기 (g) 단계에서 추출된 보존 패턴에 적용 가능한 siRNA 후보군을 선정하는 단계를 포함하는 것을 특징으로 하는, 복수의 표적 mRNA로부터 siRNA 후보 염기서열을 추출하는 방법.
  2. (a) 복수의 표적 mRNA로부터 하나의 표적 mRNA을 선택하는 단계;
    (b) 상기 (a) 단계에서 선택된 표적 mRNA로부터 염기의 개수 m (m
    Figure 112007053015162-pat00012
    n, n은 상기 로딩된 표적 mRNA의 문자열 수의 최소값)인 서픽스 서열 (suffix sequence)을 키워드 (keyword)로서 생성하는 단계;
    (c) 상기 (b) 단계에서 생성한 키워드로 구성된 키워드 트라이 (keyword trie)를 형성하는 단계;
    (d) 상기 (a) 단계에서 이미 선택되었던 상기 표적 mRNA 외의 표적 mRNA를 선택하고 이로부터 염기의 수가 m인 서픽스 서열을 키워드로 생성하는 단계;
    (e) 상기 (d) 단계에서 생성한 키워드를 상기 키워드 트라이에 추가하되, 이미 키워드 트라이를 구성하고 있는 키워드와 상기 추가되는 키워드를 비교하여 모든 염기가 일치되는 완전 상동 보존 패턴 (complete homology conserved pattern) 이외의 염기 배열은 키 (key) 값에서 제외하는 방법, 또는 일정 부분의 염기서열은 완전히 일치하고 그 외의 서열에 대해서는 일치하지 않는 염기서열의 개수, k (0
    Figure 112007053015162-pat00013
    k
    Figure 112007053015162-pat00014
    p, k는 정수, p는 상기 m에서 상기 완전 일치하는 염기서열의 염기 개수를 제한 값)를 검색자가 선택하여 상기 완전히 일치되는 서열의 위치를 기준으로 표적 mRNA의 5' 방향으로 추가적으로 서열을 검색하여 불일치하는 서열의 개수가 k인 불완전 상동 보존 패턴 (incomplete homology conserved pattern) 외의 염기배열은 키 값에서 제외하는 방법에 의해 키워드 트라이를 확장하는 단계;
    (f) 이미 선택되었던 표적 mRNA 외의 표적 mRNA가 전부 선택될 때까지 상기 (d) 단계에서 상기 (e) 단계까지를 반복 수행하는 단계;
    (g) 상기 (f) 단계에서 형성된 확장된 키워드 트라이를 검색하여 완전 상동 보존 패턴 또는 불완전 상동 보존 패턴을 검색하여 추출하는 단계;
    (h) 상기 (g) 단계에서 추출된 보존 패턴에 적용 가능한 siRNA 후보군을 선정하는 단계; 및
    (i) 상기 (h) 단계에서 선정된 siRNA 염기서열 중에서,
    (1) 표적 mRNA의 염기서열 모티프가 AAN19TT, NAN19TT, AAN19NN, NAN19NN을 포함하는 제 1 조건;
    (2) G 염기 및 C 염기의 수가 전체 염기 수에 대해서 35%에서 52%사이에 존재하는 제 2 조건;
    (3) G 염기가 연속하여 3번을 초과하여 배열되어 있지 않아야 하는 제 3 조건;
    (4) A 또는 T 염기가 연속하여 4번을 초과하여 존재하지 않는 제 4 조건; 및
    (5) “A/U” 염기쌍이 위치 15에서 위치 19까지 최소한 3개가 존재하는 제 5 조건을 만족하는 것만을 추출하는 단계를 포함하는 것을 특징으로 하는, 복수의 표적 mRNA로부터 siRNA 염기서열을 추출하는 방법.
  3. 제 2 항에 있어서,
    상기 추출된 siRNA 염기서열 중에서,
    (i) 퓨린이 위치 1에 있는 제 6 조건;
    (ii) A 염기가 위치 3에 있는 제 7 조건;
    (iii) U 염기가 위치 10에 있는 제 8 조건;
    (iv) G 이외의 염기가 위치 13에 있는 제 9 조건;
    (v) A 염기가 위치 19에 있는 제 10 조건;
    (vi) G 또는 C가 위치 19에 있는 제 11 조건; 및
    (vii) 피리딘이 위치 19에 있는 제 12 조건 중에서 상기 제 6, 7, 8, 10 및/또는 12의 조건을 만족하는 경우에는 각각 1점을 부가하고, 상기 9 및/또는 11을 부가하는 경우에는 1점을 감하여 최종 합계 후 정렬하여 미리 정해진 기준치 이상인 것만 추출하는 단계를 추가로 포함하는 것을 특징으로 하는 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 기재된 방법을 실현시키기 위한 일련의 명령들을 포함하는 프로그램이 저장된, 컴퓨터로 판독 가능한 기록매체.
  5. 제 4 항에 있어서,
    추출된 siRNA 후보 염기서열 또는 siRNA 염기서열의 열역학 데이터를 계산하거나 인터넷 웹 서버로부터 전송받는 단계를 추가로 포함하는 프로그램이 저장된, 컴퓨터로 판독 가능한 기록매체.
KR1020060048568A 2006-05-30 2006-05-30 복수의 표적 mRNA에 적용 가능한 siRNA염기서열을 추출하는 방법 KR100793505B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060048568A KR100793505B1 (ko) 2006-05-30 2006-05-30 복수의 표적 mRNA에 적용 가능한 siRNA염기서열을 추출하는 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060048568A KR100793505B1 (ko) 2006-05-30 2006-05-30 복수의 표적 mRNA에 적용 가능한 siRNA염기서열을 추출하는 방법

Publications (2)

Publication Number Publication Date
KR20070114923A KR20070114923A (ko) 2007-12-05
KR100793505B1 true KR100793505B1 (ko) 2008-01-14

Family

ID=39141452

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060048568A KR100793505B1 (ko) 2006-05-30 2006-05-30 복수의 표적 mRNA에 적용 가능한 siRNA염기서열을 추출하는 방법

Country Status (1)

Country Link
KR (1) KR100793505B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120016007A1 (en) * 2009-02-04 2012-01-19 Dong Ki Lee Small interference rna complex with increased intracellular transmission capacity
DE102011009470A1 (de) * 2011-01-21 2012-08-09 Friedrich-Schiller-Universität Jena Biologisch wirksame Nukleotid-Moleküle zur gezielten Abtötung von Zellen, Verwendung derselben sowie Applikationskit
US8493249B2 (en) * 2011-06-03 2013-07-23 Microsoft Corporation Compression match enumeration

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050240352A1 (en) 2004-04-23 2005-10-27 Invitrogen Corporation Online procurement of biologically related products/services using interactive context searching of biological information

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050240352A1 (en) 2004-04-23 2005-10-27 Invitrogen Corporation Online procurement of biologically related products/services using interactive context searching of biological information

Also Published As

Publication number Publication date
KR20070114923A (ko) 2007-12-05

Similar Documents

Publication Publication Date Title
Grybchuk et al. Viral discovery and diversity in trypanosomatid protozoa with a focus on relatives of the human parasite Leishmania
Ganot et al. Spliced-leader RNA trans splicing in a chordate, Oikopleura dioica, with a compact genome
Tuplin et al. Detailed mapping of RNA secondary structures in core and NS5B-encoding region sequences of hepatitis C virus by RNase cleavage and novel bioinformatic prediction methods
Vaish et al. In vitro selection of a purine nucleotide-specific hammerheadlike ribozyme
Riccitelli et al. Computational discovery of folded RNA domains in genomes and in vitro selected libraries
Giguère et al. Elucidation of the structures of all members of the A vsunviroidae family
Dilweg et al. Structural features of an Xrn1-resistant plant virus RNA
KR100793505B1 (ko) 복수의 표적 mRNA에 적용 가능한 siRNA염기서열을 추출하는 방법
Han et al. Structural alignment of pseudoknotted RNA
Tahi et al. Automatic RNA secondary structure prediction with a comparative approach
Rodríguez-Cousiño et al. Yeast positive-stranded virus-like RNA replicons. 20 S and 23 S RNA terminal nucleotide sequences and 3'end secondary structures resemble those of RNA coliphages.
Gultyaev et al. Similarities between the secondary structure of satellite tobacco mosaic virus and tobamovirus RNAs
Horesh et al. A rapid method for detection of putative RNAi target genes in genomic data
Horesh et al. RNAspa: a shortest path approach for comparative prediction of the secondary structure of ncRNA molecules
Larsson et al. De novo search for non-coding RNA genes in the AT-rich genome of Dictyostelium discoideum: performance of Markov-dependent genome feature scoring
Dost et al. Structural alignment of pseudoknotted RNA
Mauri et al. Pattern discovery in RNA secondary structure using affix trees
Kennedy et al. Information, probability, and the abundance of the simplest RNA active sites
Li et al. RGRNA: prediction of RNA secondary structure based on replacement and growth of stems
Churkin et al. Free energy minimization to predict RNA secondary structures and computational RNA design
Dilweg et al. A widespread Xrn1-resistant RNA motif composed of two short hairpins
Yoon et al. Prediction and analysis of human microRNA regulatory modules
Le et al. Finding conserved well-ordered RNA structures in genomic sequences
JPWO2011027869A1 (ja) モチーフ探索方法およびモチーフ探索装置
Dolja Rapid emergence of virus–host mutualism under stress

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120104

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee