KR100295246B1 - Secondary structure prediction method of RNA molecule through growth process simulation - Google Patents

Secondary structure prediction method of RNA molecule through growth process simulation Download PDF

Info

Publication number
KR100295246B1
KR100295246B1 KR1019980042656A KR19980042656A KR100295246B1 KR 100295246 B1 KR100295246 B1 KR 100295246B1 KR 1019980042656 A KR1019980042656 A KR 1019980042656A KR 19980042656 A KR19980042656 A KR 19980042656A KR 100295246 B1 KR100295246 B1 KR 100295246B1
Authority
KR
South Korea
Prior art keywords
helical
secondary structure
structures
rna molecule
reliability
Prior art date
Application number
KR1019980042656A
Other languages
Korean (ko)
Other versions
KR20000025535A (en
Inventor
한경숙
김도형
김홍진
Original Assignee
노건일
학교법인 인하학원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노건일, 학교법인 인하학원 filed Critical 노건일
Priority to KR1019980042656A priority Critical patent/KR100295246B1/en
Publication of KR20000025535A publication Critical patent/KR20000025535A/en
Application granted granted Critical
Publication of KR100295246B1 publication Critical patent/KR100295246B1/en

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 RNA 분자의 이차 구조 모델링 시스템에 있어서 RNA 분자의 이차 구조 예측 방법에 관한 것으로서, 상세하게는 RNA의 이차 구조 형성 과정을 모의실험하고, 이차 구조를 예측하며, 예측된 구조를 시각화하는 성장과정 모의실험을 통한 RNA 분자의 이차 구조 예측 방법에 관한 것이다.The present invention relates to a method for predicting the secondary structure of an RNA molecule in a secondary structure modeling system of an RNA molecule. Specifically, the present invention relates to a method for predicting secondary structure formation, predicting a secondary structure, and visualizing a predicted structure. The present invention relates to a method for predicting secondary structure of RNA molecules through process simulation.

본 발명은 동류성 염기 서열을 분석하고 그 분석 결과를 상호 변화 매트릭스(covariation matrix)로 나타내는 동류성 염기 서열의 분석 및 상호 변화 매트릭스 생성 과정과, 상호 변화 매트릭스에서 잠재적 나선형 구조(helix)를 찾아내어 구조를 만드는 잠재적 나선형 구조 탐색 과정과, RNA 분자의 염기 서열이 자라면서 취하게 되는 중간 구조들을 순서대로 생성시키는 구조 형성 과정 모의실험 및 구조 생성 과정을 수행하여 RNA 분자의 이차 구조를 예측하고, 텍스트 형식의 예측된 이차 구조를 그래픽 형식으로 시각화하는 것이다.The present invention analyzes the homologous sequences and shows the results of the analysis as a covariation matrix and the process of generating the covariate matrix, and finds the potential helix in the interchange matrix. The process of searching for potential helical structures to create structures, followed by structure formation process simulations and structure generation processes that sequentially generate intermediate structures taken as the RNA sequence grows, predicts secondary structure of the RNA molecule, and Visualize the predicted secondary structure of the form in graphical form.

본 발명에 의하면 열역학적·계통발생학적으로 안정되고 구조 형성 과정이 고려된 RNA 분자 이차 구조를 예측할 수 있고, 중간 단계 및 최종 단계에서 예측된 구조의 신뢰되를 정량적으로 나타낼 수 있으며, 구조의 재편성을 허용함으로써 보다 생물학적으로 의미 있는 RNA 분자 이차 구조를 얻을 수 있다.According to the present invention, it is possible to predict an RNA molecule secondary structure that is thermodynamically and phylogenetically stable and the structure forming process is considered, and to quantitatively indicate the reliability of the structure predicted in the intermediate and final stages, and to reorganize the structure. By allowing a more biologically meaningful RNA molecule secondary structure can be obtained.

Description

성장과정 모의실험을 통한 RNA 분자의 이차 구조 예측 방법Secondary structure prediction method of RNA molecule through growth process simulation

본 발명은 RNA 분자의 이차 구조 모델링 시스템에 있어서 RNA 분자의 이차구조 예측 방법에 관한 것으로서, 특히 RNA분자의 이차 구조 형성 과정을 모의실험하여 이차 구조를 예측하며, 예측된 구조를 시각화하는 방법에 관한 것이다.The present invention relates to a method for predicting the secondary structure of an RNA molecule in a secondary structure modeling system of an RNA molecule, and more particularly, to a method for predicting a secondary structure by simulating a secondary structure formation process of an RNA molecule and visualizing the predicted structure. will be.

먼저, 본 발명의 이해를 돕기 위하여 기본이 되는 개념과 용어들을 RNA 분자 이차 구조의 구조 요소를 나타낸 제1도를 참조하여 설명한다.First, in order to help the understanding of the present invention, basic concepts and terms will be described with reference to FIG. 1 showing structural elements of a secondary structure of RNA molecules.

제1도에 도시된 바와 같이 RNA 분자 이차 구조의 구조 요소는 두가닥으로 이루어지는 부분(double-stranded part), 내부 루프(internal loop), 불록한 루프(bulge loop), 다중 루프(multiple loop) 또는 결합되지 않은 종단부(dangling end)와 같은 한 가닥으로 이루어진 부분(single-stranded part)을 가리킨다. 염기 서열에서 연속한 부분(contiguous segment of a base sequence)을 구조 단위(structural unit)라고 하며, 한 구조 요소는 하나 또는 그 이상의 구조 단위들로 구성된다.As shown in FIG. 1, the structural elements of the secondary structure of the RNA molecule may be composed of a double-stranded part, an internal loop, a bulge loop, a multiple loop or It refers to a single-stranded part, such as a dangling end. A contiguous segment of a base sequence is called a structural unit, and one structural element consists of one or more structural units.

여기서, 두가닥으로 이루어지는 부분은 나선형 구조(helix 또는 stem)라고 불리며 염기 쌍들이 두 개 이상 연속적으로 존재하는 부위를 말한다.Here, the two-stranded portion is called a helix or stem and refers to a region where two or more base pairs are continuously present.

내부 루프는 양쪽 가닥에서 다 쌍을 이루지 못해 튀어나온 부분을 말하며, 불룩한 루프는 두 가닥 부분에서 한쪽 가닥에서만 쌍을 이루지 못해 튀어나온 부분을 말한다. 또, 다중 루프는 두 개 이상의 나선형 구조가 연결되는 부위에 있는 한 가닥 부분을 말하고, 결합되지 않은 종단부는 염기 서열의 시작 노는 끝에 있으면서 쌍을 이루지 못한 부분을 말한다.The inner loop is the part that protrudes out of pairs on both strands, and the bulging loop is the part that protrudes out of pairs on only one strand of both strands. In addition, a multi-loop refers to a single stranded portion at a site where two or more helical structures are joined, and an unbound terminal refers to an unpaired portion at the start of the base sequence.

한편, 후술하는 본 발명에서는 동류성 염기 서열의 분석 결과를 상호 변화 매트릭스(covariation matrix)로 나타내는데, 상호 변화 매트릭스의 각 요소(i. j)는 i번째 염기와 j번째 염기와의 관계 BP(i, j)를 나타내며, 관계 BP(i. j)는 다음과 같이 정의된다.On the other hand, in the present invention described below, the analysis results of the homologous nucleotide sequence are represented by a covariation matrix, wherein each element (i. J) of the mutual change matrix is a relationship between the i-th base and the j-th base BP (i , j), and the relationship BP (i. j) is defined as follows.

정밀 비변형 짝(exact-invariant match)은 염기 i와 j가 모든 염기 서열에서 쌍을 이루며 염기 i와 j에 변화가 없는 경우를 말하며, 정밀 변형 짝(exact-variant match)은 염기 i와 j가 모든 염기 서열에서 쌍을 이루며 상호 보강적 염기 변화(compensating base changes)가 있는 경우를 말한다.Exact-invariant matches are cases where bases i and j are paired in all base sequences and there is no change in bases i and j. Exact-variant matches are It refers to the case where there are compensating base changes in pairs in all base sequences.

와블 짝(wobble match)은 염기 i가 대부분의 염기 서열에서 염기 j와 G-U 와블 쌍(wobble pair)을 이루는 경우를 말하며, 비정밀 짝(inexact match)은 염기 i가 모든 염기 서열은 아니지만 대부분의 염기 서열에서 염기 j와 쌍을 이루며 짝을 이루지 않는 빈도가 정해진 값을 넘지 않는 경우를 말한다.A wobble match refers to the case where base i forms a GU wobble pair with base j in most base sequences, and an inexact match indicates that most bases, although base i is not all base sequences. It refers to a case where the frequency of pairing with base j in the sequence does not exceed a predetermined value.

이러한 RNA 분자의 이차 구조는 다각형 디스플레이(polygonal display), 산(mountain), 원형(circle) 또는 반구형(dome)으로 나타낼 수 있는데, 각각은 제2(a)도의 이차구조에 대하여 제2(b)도 내지 제2(e)도에 나타낸 바와 같이 표현된다.The secondary structure of such RNA molecules can be represented by a polygonal display, a mount, a circle, or a hemisphere, each of which has a second structure (b) for the secondary structure of FIG. 2 (a). It is expressed as shown to FIG. 2 (e).

RNA 분자 구조에 대한 연구에 있어서 가장 핵심이 되는 부분은 이차 구조의 예측과 예측된 구조를 시각화하는 작업이라 할 수 있다.The most important part of the study of RNA molecular structure is the task of predicting secondary structure and visualizing the predicted structure.

RNA의 이차 구조를 이론적으로 예측하는 방법들은 열역학적 방법과 계통 발성학적 비교법의 두 가지 유형으로 분류할 수 있으며, 열역학적 방법은 에너지 모델(energy model)과 다이나믹 프로그래밍(dynamic programming) 기법을 이용하여. 최소 또는 최소에 가까운 자유 에너지 값을 갖는 구조를 추정하여 낸다[참조 문헌 1~3].Theoretical predictions of the secondary structure of RNA can be categorized into two types: thermodynamic methods and phylogenetic comparison methods, which use energy models and dynamic programming techniques. A structure having a minimum or near free energy value is estimated (Refs. 1 to 3).

그러나 이 방법은 사용하는 에너지 모델 자체가 불완전하고 부정확하기 때문에 예측되는 구조가 정확하지 않으며, RNA의 염기 서열의 국부적인 변화에도 지나치게 민감하다는 단점이 있다[참조 문헌 4].However, this method has the disadvantage that the predicted structure is not accurate because the energy model itself is incomplete and inaccurate, and is too sensitive to local changes in the base sequence of RNA [Ref. 4].

계통 발생학적 비교법은 동류성 염기 서열을 비교 분석하여 이 염기 서열들에 공통된 구조를 예측하는데, 그 절차 중 상당한 부분이 번거로운 수작업에 의존하고 있다[참조 문헌 5, 6].Phylogenetic comparisons compare and analyze homologous base sequences to predict the structures common to these base sequences, with a significant portion of the procedure relying on cumbersome manual work [Refs. 5, 6].

또한 RNA 분자가 성장함과 거의 동시에 구조를 형성하고, 보다 안정된 형태로 존재하기 위해 구조의 재편성이 계속 일어난다는 실험 결과에 비추어 볼 때[참조 문헌 7], 이 두 방법 모두 개선될 여지가 있다.In addition, in view of the experimental results that the structure of the RNA molecule grows almost simultaneously with the growth and reorganization of the structure to continue to exist in a more stable form (Ref. 7), both methods have room for improvement.

한편, 본 발명자들은 여러 개의 동류성 염기 서열에 공통된 이차구조를 예측하는 휴리스틱(heuristic)을 개발한 바 있다[참조 문헌 4].On the other hand, the present inventors have developed a heuristic for predicting secondary structure common to several homologous base sequences (Ref. 4).

이 휴리스틱에서 이차 구조 예측에 소요되는 시간과 공간 량은 가장 효율적이라고 알려진 Zuker와 Stiegler의 방법[참조 문헌 2]에서 한 개의 염기 서열의 구조를 밝히는데 필요로 하는 시간과 공간 량과 같다.The amount of time and space required for secondary structure prediction in this heuristic is equal to the amount of time and space required to elucidate the structure of one nucleotide sequence in Zuker and Stiegler's method [2], which is known to be the most efficient.

또한 구조 형성 제약 조건(folding constraint)을 전파하는 기능을 갖는 이 방법은 Folder라고 불리는 모델링 시스템으로 구현되었으며, Folder는 각 단계에서 계통 발생학적 열역학적으로 안정된 구조를 추정함으로써 구조 형성의 변화를 모의 실험하는 데에도 적용되었다[참조문헌 8, 9].In addition, this method, which has the function of propagating folding constraints, is implemented with a modeling system called Folder, which simulates changes in structure formation by estimating the phylogenetic thermodynamically stable structure at each step. It was also applied to Dade [Refs. 8, 9].

그러나 이 모의실험 방법은 전(前) 단계의 구조와는 독립적으로 각 중간 구조를 구하기 때문에 구조의 재편성을 허용하기는 하지만 생물학적인 의미가 미약하다. 또한, Folder는 예측된 구조를 그래픽 형식이 아닌 텍스트 형식으로만 보여주고, 생물·생화학 실험실에서 구입하기에는 고가인 웍스테이션(workstation)에서 구현되었기 때문에 RNA를 연구하는 사람들에게 널리 사용되기에는 어려운 문제점이 있다.However, this simulation method obtains each intermediate structure independently of the structure of the previous stages, but allows for the reorganization of the structure, but the biological meaning is weak. In addition, since Folder shows the predicted structure only in text form, not in graphic form, and is implemented in workstations that are expensive to purchase in biological and biochemical laboratories, it is difficult to be widely used for RNA researchers. .

상술한 열역학적 방법과 계통 발생학적 비교법으로 대표되는 기존의 RNA 구조 예측 방법들은 RNA의 구조 형성 과정을 고려하지 않고 최종 구조를 추정하는 것이다. 그러나 RNA 분자의 이차 구조는 그 RNA의 염기 서열이 다 자라기를 기다렸다가 가장 안정된 형태를 취하는 것이 아니라, 염기 서열이 생성됨과 거의 동시에 구조가 형성된다.Existing RNA structure prediction methods represented by the above-described thermodynamic method and phylogenetic comparison method are to estimate the final structure without considering the structure formation process of RNA. The secondary structure of an RNA molecule, however, does not wait for the RNA's base sequence to grow and then assumes the most stable form, but the structure is formed almost simultaneously with the generation of the base sequence.

따라서 구조 형성 과정(folding)의 동력학(kinetics) 측면에서 어려움이 있으면 열역학적 또는 계통 발생학적으로 안정된 형태에 도달하지 못할 수도 있고, RNA 분자의 최종 구조는 일차 구조가 시간이 경과함에 따라 자라면서 형성하게 되는 중간 단계의 구조들에 의해 어느 정도 영향을 받게 된다. 또한 한 구조에서 다른 구조로의 동적인 이동이 어떤 RNA 분자에 있어서는 기능의 중요한 부분일 수도 있다.Thus, difficulties in the kinetics of folding may result in failure to reach thermodynamic or phylogenetically stable forms, and the final structure of RNA molecules may be formed as the primary structure grows over time. It is influenced to some extent by the intermediate structures that are involved. In addition, dynamic transfer from one structure to another may be an important part of function for some RNA molecules.

때문에 이와 같은 RNA 분자의 구조 형성 과정을 모의실험해 보려는 시도가 있었는데 중간 구조의 적합성 여부를 결정하는 기준으로서 자유 에너지가 강조되었다. 그 중 부가적인 접근법(additive approach)이라고 특징 지을 수 있는 방법들은 자유 에너지를 최소로 증가시키면서 형성되고 있는 구조에 이미 존재하는 나선형 구조와 공존할 수 있는, 즉 이들과의 충돌(conflict)이 없는 나선형 구조를 차례로 골라 현 구조에 덧붙이는 방법을 취한다.As a result, attempts have been made to simulate the structure formation of RNA molecules. Free energy is emphasized as a criterion for determining the suitability of intermediate structures. Methods that can be characterized as an additive approach are those that can coexist with the spiral structures already present in the structure being formed with a minimum increase in free energy, i.e. no spirals with them. Choose a structure in turn and add it to the string structure.

이와 같은 구조의 재편성(structure reorganization)을 허용하지 않는 부가적 접근법은 생화학 실험의 관찰과 상반되는 면이 있다.An additional approach that does not allow such a structure reorganization is contrary to the observation of biochemical experiments.

또 이차 구조는 동적 평형 상태에서 존재하는데 염기 서열이 성장하거나 화학적 처리로 잘라지게 되면 보다 안정된 구조를 이루기 위해 기존의 구조는 분해된다.Secondary structures exist in a dynamic equilibrium, but when the base sequence grows or is cut by chemical treatment, existing structures are degraded to achieve a more stable structure.

구조의 재편성을 허용하는 방법이 있기는 하나 이들은 각 중간 단계에서 총 자유 에너지를 최소로 할 수 있는 구조를 구하기 때문에 역시 생물학적 실현 가능성이 미약하다.Although there is a way to allow reorganization of the structure, they are also less biologically feasible because they find a structure that can minimize the total free energy at each intermediate stage.

또 몬테 칼로 방법(Monte Carlo method)-RNA 이차 구조의 형성 과정에서 에너지 값이 낮은 구조를 그 단계에서 형성될 확률이 높은 구조로 선택함으로써 모의 실험하는 방법-을 사용하여 각 단계에서 확률이 가장 높은 구조를 선택하는 방법도 있으나 매우 복잡한 계산을 요하고 작은 RNA 분자에만 적용된다[참조 문헌 10].In addition, the Monte Carlo method is most likely at each stage using the Monte Carlo method, which simulates by selecting a structure with a low energy value as a structure that is likely to be formed at that stage in the formation of an RNA secondary structure. There are also methods for selecting structures, but require very complex calculations and apply only to small RNA molecules [Ref. 10].

최근, 유전자 알고리즘-생태계에서 유기체의 유전자가 번식(breed), 변이(mutation), 교차(crossover) 등을 반복하면서 환경에 최적인 것이 생존하는 형상을 컴퓨터 알고리즘에 의하여 모의실험 하는 방법-을 이용하여 RNA 이차 구조를 예측하거나[참조 문헌 11], RNA의 구조 형성 과정을 모의실험 하는 시도가 있었다[참조 문헌 12].Recently, using a genetic algorithm-a method that simulates by a computer algorithm a shape in which an organism's genes survive optimally in the environment while repeating breeding, mutation, and crossover. Attempts have been made to predict RNA secondary structure (Ref. 11) or to simulate the structure formation process of RNA (Ref. 12).

이와 같은 유전자 알고리즘을 이용한 방법들은 유용한 면이 있으나, 많은 계산량을 필요로 하기 때문에 커다란 분자에 적용하기에는 아직 실용적이지 못하고, 참조 문헌 20의 알고리즘의 경우는 모의실험에 지나치게 많은 시간이 걸린다(예를들어 500개의 염기 서열로 구성된 RNA 분자를 모의실험하는데 20 시간이 소요된다).While these genetic algorithms are useful, they are not practical for large molecules because they require a lot of computation, and the algorithm of Reference 20 takes too much time to simulate (for example, 20 hours to simulate RNA molecules consisting of 500 base sequences).

한편, RNA 이차 구조의 시각화를 위해서 몇몇 드로잉 프로그램이 개발되었다[참조 문헌 13 ∼ 15].On the other hand, several drawing programs have been developed for the visualization of RNA secondary structure (Refs. 13-15).

RNA 이차 구조를 시각화할 때 가장 큰 어려움은 구조의 구성 요소들이 겹치지 않도록 하면서 동시에 전체적인 구조가 간결하게 보이도록 그려야 한다는 것이다. 그러나 큰 RNA 분자일수록 상충되는 상기와 같은 조건을 만족시키는 것이 쉽지 않다. 또한 구조 시각화 시스템의 사용자의 입장에서 생기는 어려운 점 중의 하나는 구조 시각화 시스템과 예측 시스템이 서로 다른 타입의 데이터를 사용하는 경우가 많다는 것이다. 이것은 구조 시각화 시스템이 구조 예측 시스템의 일부분으로서가 아니라 별도의 시스템으로 개발되기 때문인데, 예측 시스템과 시각화 시스템이 서로 다른 컴퓨터에서 운용되는 경우 시스템 사용자의 불편은 더욱 증가한다.The biggest challenge when visualizing an RNA secondary structure is that the components of the structure must be drawn so that the overall structure looks concise while not overlapping. However, the larger the RNA molecule, the more difficult it is to satisfy such conflicting conditions. In addition, one of the difficulties for users of structural visualization systems is that structural visualization systems and prediction systems often use different types of data. This is because the structure visualization system is developed as a separate system rather than as part of the structure prediction system. The inconvenience of the system user is further increased when the prediction system and the visualization system are operated on different computers.

따라서, 일반에 널리 보급되어 있는 IBM PC 호환 기종의 컴퓨터에서 운영 가능하며 염기서열의 국부적인 변화에 민감하지 않고, 에너지 모델을 변형하여 사용할 수 있으며 값의 변경이 가능하고, 또한 수작업을 요구하지 않는 RNA 분자의 이차 구조 예측과 예측된 이차 구조를 시각화할 수 있는 방법에 대한 연구의 필요성이 대두되었다.Therefore, it can be operated on IBM PC compatible computer which is widely used in general, and is not sensitive to local changes in sequencing, and can change energy model, change the value, and do not require manual operation. There is a need for research on the prediction of secondary structure of RNA molecules and how to visualize the predicted secondary structure.

[참조 문헌]REFERENCES

1. Sankoff, D., Kruskal, J. B., Mainville, S., and Cedergren, R. J., “Fast Algorithms to Determine RNA Secondary Structure Containing Multiple Loops,” In Time warps, string edits, and macromolecules: the theory and pracrice of seqence comparison(Sankoff, D., Kruskal, J. B., eds), pp 93-120, Addison-Wesley Publishing Company, 1983.1.Sankoff, D., Kruskal, JB, Mainville, S., and Cedergren, RJ, “Fast Algorithms to Determine RNA Secondary Structure Containing Multiple Loops,” In Time warps, string edits, and macromolecules: the theory and pracrice of seqence comparison (Sankoff, D., Kruskal, JB, eds), pp 93-120, Addison-Wesley Publishing Company, 1983.

2. Zuker, M. and Stiegler, P. “Optimal computer folding of large RNA sequences using thermodynamics and auxiliary information,” Nucleic Acids Res., Vol. 9, No. 1, pp. 133-148, 19812. Zuker, M. and Stiegler, P. “Optimal computer folding of large RNA sequences using thermodynamics and auxiliary information,” Nucleic Acids Res., Vol. 9, No. 1, pp. 133-148, 1981

3. Zuker, M., “On Finding All Folding of an RNA Molecule,” Science, Vol. 244, pp. 48-52, 19893. Zuker, M., “On Finding All Folding of an RNA Molecule,” Science, Vol. 244, pp. 48-52, 1989

4. Han, K. and Kim, H-J., “Prediction of Common Folding Structures of Homologous RNAs,” Nucleic Acids Res., Vol. 21, No. 5, pp. 1251-1257, 19934. Han, K. and Kim, H-J., “Prediction of Common Folding Structures of Homologous RNAs,” Nucleic Acids Res., Vol. 21, No. 5, pp. 1251-1257, 1993

5. Noller, H. F. and Woese, C. R., “Secondary Structure of 16S Ribosomal RNA” Science, vol. 212, No. 4493, pp. 403-411, 1981.5. Noller, H. F. and Woese, C. R., “Secondary Structure of 16S Ribosomal RNA” Science, vol. 212, No. 4493, pp. 403-411, 1981.

6. Noller, H. F., “Structure of Ribosomal RNA” Ann. Rev. Biochem, vol. 53, pp. 119-162, 1984.6. Noller, H. F., “Structure of Ribosomal RNA” Ann. Rev. Biochem, vol. 53, pp. 119-162, 1984.

7. Kramer, F. R. and Mills, D. R., “Secondary structure formation during RNA synthesis,” Nucleic Acids Res., Vol. 9, No. 19, pp. 5109-5124, 1981.7. Kramer, F. R. and Mills, D. R., “Secondary structure formation during RNA synthesis,” Nucleic Acids Res., Vol. 9, No. 19, pp. 5109-5124, 1981.

8. Han, K. and Gelsey, N., “Qualitative Modeling of RNA Structure,” In Proc. of IJCAI-93, pp. 1558-1563, 1993.8. Han, K. and Gelsey, N., “Qualitative Modeling of RNA Structure,” In Proc. of IJCAI-93, pp. 1558-1563, 1993.

9. Kim, H-J. and Han, K., “Automated Modeling of the RNA Folding Process,” Mol. Cells, Vol. 5, pp. 406-412, 1995.9. Kim, H-J. and Han, K., “Automated Modeling of the RNA Folding Process,” Mol. Cells, Vol. 5, pp. 406-412, 1995.

10. Mironov, A., Dyakonova, L. P., and Kister, A., “A Kinetic Approach to the Prediction of RNA Secondary Structures,” J. Biomolecular Structure & Dynamics, Vol. 2, No. 5, pp. 953-962, 1085.10. Mironov, A., Dyakonova, L. P., and Kister, A., “A Kinetic Approach to the Prediction of RNA Secondary Structures,” J. Biomolecular Structure & Dynamics, Vol. 2, No. 5, pp. 953-962, 1085.

11. Benedetti, G. and Morosetti, S., “A genetic algorithm to search for optimal and suboptimal RNA secondary structures,” Biophys. Chem, Vol. 55, pp. 253-259, 1995.11. Benedetti, G. and Morosetti, S., “A genetic algorithm to search for optimal and suboptimal RNA secondary structures,” Biophys. Chem, Vol. 55, pp. 253-259, 1995.

12. Gultyaev, A. P. and van Batenburg, F. H. D., and Pleij, C. W. A., “The Computer Simulation of RNA Folding Pathways using a Genetic Algorithm,” J. Mol. Biol, Vol. 250, pp37-51, 1995.12. Gultyaev, A. P. and van Batenburg, F. H. D., and Pleij, C. W. A., “The Computer Simulation of RNA Folding Pathways using a Genetic Algorithm,” J. Mol. Biol, Vol. 250, pp 37-51, 1995.

13. Muller, G., Gaspin, C. Etienne, A., and Westhof, E., “Automatic display of RNA secondary sturctures,” Comput. Applic. Biosci., Vol. 9, No. 5, pp. 551-561, 1993.13. Muller, G., Gaspin, C. Etienne, A., and Westhof, E., “Automatic display of RNA secondary sturctures,” Comput. Applic. Biosci., Vol. 9, No. 5, pp. 551-561, 1993.

14. Nakaya, A., Taura, K., Yamanoto, K., and Yonezawa, A., “Visualization of RNA secondary structure using highly parallel computers,” Comput. Applic. Biosci., Vol. 12, No. 3, pp. 205-211, 1996.14. Nakaya, A., Taura, K., Yamanoto, K., and Yonezawa, A., “Visualization of RNA secondary structure using highly parallel computers,” Comput. Applic. Biosci., Vol. 12, No. 3, pp. 205-211, 1996.

15. Yamamoto, K. Sakurai, N., and Yoshikura, H., “Graphics of RNA secondary structurd; towards on object-oriented algorithm,” Comput. Applic. Biosci., Vol. 3, pp. 99-103, 1987.15. Yamamoto, K. Sakurai, N., and Yoshikura, H., “Graphics of RNA secondary structurd; towards on object-oriented algorithm, ”Comput. Applic. Biosci., Vol. 3, pp. 99-103, 1987.

상술한 종래의 RNA 분자의 이차 구조 예측 및 시각화 방법의 문제점을 해결하기 위한 본 발명의 목적은 열역학적 계통발생학적으로 안정되고, 구조 형성 과정이 고려된 RNA 분자의 이차 구조를 예측하며, 중간 단계 및 최종 단계에서 예측된 구조의 신뢰도를 정량적으로 나타낼 수 있으며, 성장과정 모의실험을 통한 RNA 분자의 이차 구조 예측 방법을 제공하는데 있다.An object of the present invention for solving the problems of the above-described method for predicting and visualizing secondary structure of the conventional RNA molecule is to predict the secondary structure of the RNA molecule, which is thermodynamically phylogenetically stable and the structure forming process is considered, It is possible to quantitatively represent the reliability of the predicted structure in the final stage, and to provide a method for predicting the secondary structure of RNA molecules through simulation of growth process.

제1도는 RNA 이차 구조의 구성 요소를 나타낸 도.1 shows components of an RNA secondary structure.

제2(a)도 내지 제2(e)도는 RNA 이차 구조의 표현 형태를 나타낸 도.2 (a) to 2 (e) are diagrams showing expression forms of RNA secondary structures.

제3도는 본 발명의 실시예에 따른 입력 데이터의 형식을 나타낸 도.3 is a diagram showing a format of input data according to an embodiment of the present invention.

제4도는 본 발명의 실시예에 따른 출력 형식을 나타낸 도.4 illustrates an output format according to an embodiment of the present invention.

제5도는 본 발명의 실시예에 따른 RNA 분자의 이차 구조를 예측하는 과정을 보인 전체 흐름도.5 is an overall flowchart showing a process of predicting a secondary structure of an RNA molecule according to an embodiment of the present invention.

제6도는 본 발명의 실시예에 따른 RNA 분자 이차 구조의 형성 과정을 모의실험하는 흐름도.6 is a flow chart simulating the formation of the secondary structure of the RNA molecule according to an embodiment of the present invention.

제7도는 본 발명의 실시예에 의해 예측된 RNA 분자 이차 구조의 시각화 과정을 보인 흐름도.7 is a flow chart showing the visualization of the RNA molecule secondary structure predicted by the embodiment of the present invention.

제8도는 제7도의 배치 우선 순위 결정 과정을 보인 흐름도.8 is a flowchart showing a process of determining priority of arrangement of FIG.

제9도는 본 발명의 방법을 이용한 시스템(QFolder)의 레이아웃.9 is a layout of a system QFolder using the method of the present invention.

제10도는 mRNA 5'NTR의 염기 서열의 배열을 나타낸 도.10 is a diagram showing the arrangement of the nucleotide sequence of mRNA 5'NTR.

제11도는 본 발명의 방법을 이용하여 예측한 mRNA 5'NTR의 성장과정 중에 생성되는 중간 구조 및 최종구조를 나타낸 도.Figure 11 shows the intermediate and final structures generated during the growth of mRNA 5'NTR predicted using the method of the present invention.

제12도는 본 발명의 방법을 이용하여 예측한 HIV-1 TAR의 성장과정 중에 생성되는 중간 구조 및 최종 구조를 나타낸 도.Figure 12 illustrates the intermediate and final structures produced during the growth of HIV-1 TAR predicted using the method of the present invention.

제13도는 10개의 HIV-1 TAR 염기서열(HIVNL43, HIVLAI, HIVHXB2R, HIVJRCSF, HIVSF2, HIVNY5CG, HIVCDC4, HIVHAN, HIVRF)에 대한 배열로서 본 발명의 실시예에 따른 RNA 분자의 이차 구조를 예측하는 과정을 설명하기 위한 모의 실험에서의 입력예시도.13 is a process for predicting the secondary structure of an RNA molecule according to an embodiment of the present invention as an arrangement for 10 HIV-1 TAR sequences (HIVNL43, HIVLAI, HIVHXB2R, HIVJRCSF, HIVSF2, HIVNY5CG, HIVCDC4, HIVHAN, HIVRF) Example input from simulation to illustrate

제14도는 제13도에 도시된 배열에 대하여 생성된 상호 변화 매트릭스로서, 동류성 염기서열의 분석 및 상호 변화 매트릭스 생성과정의 결과 예시도.FIG. 14 is a diagram showing the results of the analysis of the homologous sequences and the generation of the mutual change matrix as the mutual change matrix generated for the arrangement shown in FIG.

제15도는 제14도에 도시되어 있는 상호 변화 매트릭스에서 찾은 나선형 구조로 구성되는 중간구조들을 텍스트 폼으로 표현한 것과 그에 따른 각 구조의 신뢰도 예시도.FIG. 15 is a textual representation of intermediate structures consisting of helical structures found in the mutual change matrix shown in FIG. 14 and the resulting reliability of each structure.

본 발명의 성장과정 모의실험을 통한 RNA 분자의 이차 구조 예측 방법은 동류성 염기 서열을 분석하고 그 분석 결과를 i 번째 염기와 j 번째 염기와의 관계 BP(i, j)를 각 요소로 하는 상호 변화 매트릭스로 나타내는 동류성 염기 서열의 분석 및 상호 변화 매트릭스 생성 과정과, 상호 변화 매트릭스에서 잠재적 나선형 구조를 찾아내어 각 나선형 구조마다 시작위치, 끝 위치, 길이, best_helix라고 불리는 전체 구조에서 가장 안정된 헤어핀 루프 나선형 구조를 찾기 위한 스코어 함수(score function) S1 및 나선형 구조의 신뢰도 CF(Certainty Factor)를 계산하고, 잠재적 나선형 구조가 모두 찾아지면, 이들을 끝 위치가 증가하는 순서로 정렬하여 구조를 만드는 잠재적 나선형 구조 탐색 과정과, RNA 분자의 염기 서열이 자라면서 취하게 되는 중간 구조들을 순서대로 생성시키는 구조 형성 과정 모의실험 및 구조 생성 과정으로 이루어지고, 텍스트 형식의 예측된 이차 구조를 그래픽 형식으로 시각화하는 것을 특징으로 한다.Secondary structure prediction method of RNA molecule through growth process simulation of the present invention analyzes the homologous nucleotide sequence and the result of the analysis of the relationship between the i-th base and the j-th base BP (i, j) Analysis of the homologous sequences represented by the change matrix and generation of the change matrix, and finding the potential helical structure from the change matrix, and for each helical structure, the most stable hairpin loop in the starting position, end position, length, and overall structure called best_helix. Score function S1 to find the helical structure and reliability of the helical structure Calculate the reliability factor (CF) and, once all potential helical structures are found, arrange them in order of increasing end position to create the helical structure. Search process and create intermediate structures taken in sequence as the RNA sequence grows Key is characterized in that it comprises a structure forming process simulation and structure generation process, visualize the predicted secondary structure of the text format in a graphical form.

먼저, 예측되는 RNA 분자 이차 구조의 신뢰도에 대해 설명한다.First, the reliability of the predicted RNA molecular secondary structure will be described.

RNA 분자의 구조 형성 과정을 모의실험하고 이를 바탕으로 최종 구조를 예측하는 작업은 많은 불확실성을 내포한다. 이 불확실성은 근본적으로 실제의 구조 형성 과정을 프로그램을 통하여 재생성하기 위해 필요한 정보가 부족하다는 사실에 근거한다. 예를 들면 열역학적 방법에서 의존하는 에너지 모델은 부정확하고 불완전하기 때문에 에너지 모델의 자유 에너지 값이 RNA 구조 형성 과정을 모의실험하기에 유일하고도 충분한 정보가 되리라고 기대할 수 없다.Simulating the structure-forming process of RNA molecules and estimating the final structure based on this involves a lot of uncertainty. This uncertainty is fundamentally based on the fact that there is a lack of information needed to recreate the actual structure-forming process through the program. For example, because energy models that depend on thermodynamic methods are inaccurate and incomplete, we cannot expect the free energy values of the energy models to be the only enough information to simulate the process of RNA structure formation.

따라서, 본 발명은 에너지 모델의 수치를 그대로 사용하지 않고 근사값을 이용하고 구조 형성과정의 동역학적 측면과 동류성 염기 서열의 정보를 고려하여 구조 형성과정을 모의실험하고 이를 바탕으로 최종 구조를 예측함으로써 예측되는 구조의 정확성을 높이고자 한다.Therefore, the present invention simulates the structure formation process by using approximation values without considering numerical values of the energy model and considering the kinetic aspects of the structure formation process and the information of the homologous sequence, and predicts the final structure based thereon. We want to increase the accuracy of the predicted structure.

구체적으로 설명하면 구조 예측에 있어서의 불확실성은 두 단계의 신뢰도로 표현되고 관리된다. 즉, 잠재적인 나선형 구조의 신뢰도 CF(helix)와 잠재적 나선형 구조 중에서 선택된 나선형 구조로 구성되는 중간 구조 및 최종 구조의 신뢰도 CF(structure)로 관리된다.Specifically, uncertainty in structural prediction is expressed and managed with two levels of reliability. That is, it is managed by the reliability CF (structure) of the intermediate structure and the final structure consisting of the helical CF (helix) of the potential helical structure and the helical structure selected from the potential helical structure.

나선형 구조의 신뢰도는 수학식 1과 같이 5개 파라미터의 함수 값으로 정의된다.The reliability of the helical structure is defined as a function value of five parameters as in Equation 1.

[수학식 1][Equation 1]

여기서,here,

L: 나선형 구조의 길이(염기 쌍의 개수로 표시)L: Length of the helical structure (expressed as the number of base pairs)

E: 나선형 구조에서 정밀 변형 짝의 개수E: number of precision strain pairs in helical structure

W: 나선형 구조에서 와블 짝의 개수W: number of wobble pairs in a spiral structure

I: 나선형 구조에서 비정밀 짝의 개수I: number of inexact pairs in the helical structure

H: 나선형 구조에 의하여 형성될 수 있는 헤어핀 루프의 길이이다.H: Length of the hairpin loop which can be formed by the helical structure.

5개 파라미터에 곱해지는 가중치(w1~w5)는 자유 에너지와 동류성 염기 서열의 정보를 바탕으로 결정된다.The weights w 1 to w 5 multiplied by the five parameters are determined based on the information of free energy and homologous nucleotide sequences.

긴 나선형 구조는 짧은 나선형 구조에 비하여 상대적으로 안정적이며, 정밀 변형 짝은 다른 유형의 염기 쌍보다 나선형 구조의 존재에 대한 강한 증거가 된다. 따라서 나선형 구조의 길이(L)와 정밀 변형 짝(E)의 가중치는 나선형 구조의 신뢰도를 계산할 때 양수 값을 갖는다. 와블 짝과 비정밀 짝은 정밀 짝보다 약한 결합이며, 긴 헤어핀 루프는 짧은 헤어핀 루프를 형성하는 나선형 구조에 비해 덜 안정적이다. 그러므로 파라미터 W, I, H에 곱하는 가중치는 음수이다.Long helical structures are relatively stable compared to short helical structures, and precisely modified pairs provide stronger evidence of the existence of helical structures than other types of base pairs. Therefore, the weight L of the helical structure and the weight of the precision strain partner E have a positive value when calculating the reliability of the helical structure. Wobble pairs and coarse pairs are weaker bonds than precision pairs, and long hairpin loops are less stable than helical structures that form short hairpin loops. Therefore, the weights multiplied by the parameters W, I, and H are negative.

한편, 중간구조 및 최종구조에 대한 신뢰도는 다음과 같은 사항을 고려하여 결정된다.On the other hand, the reliability of the intermediate structure and the final structure is determined in consideration of the following.

첫째, 각 단계에서 취하는 구조는 얼마나 안정적인 나선형 구조들로 구성되는가?First, how stable are the spiral structures taken at each stage?

둘째, 한 단계에서 다음 단계의 구조로 변하는 것이 동역학적 측면에서 어느 정도 어려운가?Second, how difficult is it from a dynamic point of view to change from one stage to the next?

셋째, 각 단계에 존재하는 잠재적인 나선형 구조는 어느 정도 많고, 이 중 몇 개나 구조에 포함되는가?Third, how many potential spiral structures exist in each step, and how many of them are included in the structure?

넷째, 각 단계에서 형성되는 구조는 몇 개의 염기를 포함하는가?Fourth, how many bases does the structure formed in each step contain?

따라서, 구조의 신뢰도는 수학식 2와 같이 위의 4가지 사항을 나타내는 파라미터의 함수로 결정된다.Therefore, the reliability of the structure is determined as a function of a parameter representing the above four points, as shown in Equation (2).

[수학식 2][Equation 2]

여기서,: 구조에 포함된 나선형 구조의 신뢰도의 합here, : Sum of the reliability of the helical structure included in the structure

K: 전 단계의 구조로부터 변이될 때의 동역학적 난이도로서 전 단계의 구조에서 해체되는 염기 쌍의 개수K: The number of base pairs that are dissociated in the structure of the previous stage as a dynamic difficulty when mutated from the structure of the previous stage.

R: 구조의 범위에 존재하는 잠재적인 나선헝 구조의 총 개수에 대한 포함된 나선형 구조의 개수의 비율R: The ratio of the number of spiral structures included to the total number of potential spiral structures present in the scope of the structure

S: 구조의 범위에 있는 염기 서열의 길이를 나타낸다.S: The length of the nucleotide sequence in the range of a structure is shown.

구조에 대한 신뢰도를 계산할 때 각 파라미터에 곱해지는 가중치는 구조 형성 과정의 동역학뿐 아니라 자유 에너지와 동류성 염기 서열의 정보를 바탕으로 결정된다. 예를 들면, 높은 신뢰도를 갖는 나선형 구조들로 구성된 구조는 낮은 신뢰도를 갖는 나선형 구조로 구성된 구조보다 상대적으로 더 신뢰할 수 있으므로 이 파라미터에는 양수의 가중치를 지정한다.When calculating the reliability of the structure, the weight multiplied by each parameter is determined based on the information of free energy and homologous sequences as well as the kinetics of the structure formation process. For example, a structure composed of spiral structures with high reliability is relatively more reliable than a structure composed of spiral structures with low reliability, so this parameter is assigned a positive weight.

현 단계의 구조를 형성하기 위하여 전 단계에서 붕괴되어야 하는 염기 쌍이 많으면 동역학적으로 어려운 변이를 의미하므로 신뢰도가 낮아지고, 이에 따라 파라미터 K에는 음수의 가중치를 곱한다. 잠재적인 나선형 구조의 총 개수에 비하여 포함되는 나선형 구조의 개수가 많으면 많을수록 나선형 구조의 결정에 따른 불확실성이 감소하므로 파라미터 R에는 양수 가중치를 곱한다.If there are many base pairs that need to be collapsed in the previous step to form the structure of the current step, it means a difficult kinematic variation, so the reliability is low, and thus the parameter K is multiplied by a negative weight. The larger the number of helical structures included as compared to the total number of potential helical structures, the less uncertainty is due to the determination of the helical structure, so the parameter R is multiplied by a positive weight.

짧은 RNA 분자에 비해 긴 분자의 구조 예측에 더 많은 불확실성이 내포되므로 파라미터 S에는 음수의 가중치를 곱한다. 요약해서 말하면 구조의 신뢰도는 4가지 파라미터의 함수 값으로 산출되는데, 각 파라미터가 취하는 값이 양수이므로 신뢰도를 증가하는 파라미터이면 양수 가중치를 곱하고, 아니면 음수의 가중치를 곱한다. 산출되는 신뢰도의 상한값이나 하한 값은 정해져 있지 않으며, 신뢰도가 큰 구조는 신뢰도가 낮은 구조보다 상대적으로 더 안정적이라 할 수 있다.Parameter S is multiplied by a negative weight because more uncertainty is involved in the prediction of long molecules compared to short RNA molecules. In summary, the reliability of a structure is calculated as a function of four parameters. If the parameter takes a positive value, multiply it by a positive weight if the parameter increases reliability, or a negative weight. The upper limit value or the lower limit value of the calculated reliability is not determined, and a structure having high reliability is relatively more stable than a structure having low reliability.

상술한 9개 파라미터 이외에 본 발명의 모의실험 과정을 제어하는 파라미터가 2개 더 있다. 이들은 잠재적 나선형 구조의 최소 길이와 잠재적 나선형 구조를 찾을 때 허용되는 부당한 짝(mismatch)의 개수를 지정하는데 사용된다.In addition to the nine parameters described above, there are two more parameters controlling the simulation process of the present invention. These are used to specify the minimum length of the potential helical structure and the number of mismatches allowed when looking for the potential helical structure.

후술할 제9도는 이 11개의 파라미터에 대하여 본 발명이 사용하는 기본값(default value)을 보여준다. 이 기본값들의 부호와 상대적인 대소관계는 앞에서 설명한 이유에 의하여 쉽게 결정할 수 있으나, 절대적인 값은 다소 경험적으로 얻어진 것이다.9, which will be described later, shows the default values used by the present invention for these eleven parameters. The sign and relative magnitude of these defaults can be easily determined for the reasons described above, but the absolute values have been obtained somewhat empirically.

감도 분석(sensitivity anal)isis)을 한 결과, 파라미터 값의 부호와 대소 관계가 유지되면 이차 구조의 예측 결과는 파라미터의 절대적인 값에는 민감하지 않은 것으로 밝혀졌다. 제9도의 기본값은 염기 개수 1000개 이하로 구성된 10개 정도의 동류성 염기 서열에 공통된 이차구조를 예측할 때 대체로 만족스러운 결과를 산출하는데 이용되었던 값이다.Sensitivity analisis revealed that the prediction of the secondary structure is not sensitive to the absolute value of the parameter if the sign and magnitude of the parameter value are maintained. The default value of FIG. 9 is a value that was generally used to yield a satisfactory result when predicting a secondary structure common to about 10 homologous base sequences of 1000 bases or less.

이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세하게 설명한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

본 발명에서 구조 형성의 단위는 염기 쌍이 아니라 나선형 구조이다. 모의실험의 각 단계에서 구조에 대한 변화는 전 단계의 구조에 새로운 나선형 구조가 추가되거나 전 단계에 있던 나선형 구조가 새로운 나선형 구조로 대치되는 경우에 생긴다.In the present invention, the unit of structure formation is not a base pair but a helical structure. Changes to the structure at each stage of the simulation occur when new helical structures are added to the previous stage's structure or when the helical structure at the previous stage is replaced by a new spiral structure.

또한 본 발명의 입력은 동류성 염기 서열의 배열(alignment)과 상술한 제어 파라미터의 값이고, 출력으로서 구조 형성 단계에서 취하게 되는 중간 구조들과 그 신뢰도가 산출된다. 이는 제3도 및 제4도에 나타내었다.In addition, the input of the present invention is the alignment of the homologous base sequence and the value of the above-described control parameter, and as the output, the intermediate structures to be taken in the structure forming step and the reliability thereof are calculated. This is shown in FIGS. 3 and 4.

본 발명의 실시예에 따른 RNA 분자의 이차 구조 예측은 제5도에 나타낸 바와 같이 본 발명은 세 과정(P100∼ P300)으로 이루어져 있다.Secondary structure prediction of RNA molecules according to an embodiment of the present invention is shown in Figure 5 the present invention consists of three processes (P100 ~ P300).

즉, 동류성 염기 서열의 분석과 상호 변화 매트릭스 생성 과정과, 잠재적 나선형 구조 탐색 과정과, 구조 형성 과정 모의실험 및 구조 생성 과정으로 이루어진다.In other words, it consists of the analysis of homologous nucleotide sequences, the generation of a mutual change matrix, the discovery of potential helical structures, the simulation of structure formation, and the generation of structures.

첫 번째 과정(P100)에서는 동류성 염기 서열을 분석하고, 그 분석 결과를 상호 변화 매트릭스로 나타내는데, 먼저 아래쪽 삼각 매트릭스를 ‘-’로 채우고, 각각의 염기 쌍(i, j)에 대해 BP(i, j) 관계를 결정한 후, 동류성 염기 서열의 공통 서열(consensus sequence)을 생성한다.In the first process (P100), the homologous nucleotide sequence is analyzed and the result of the analysis is represented by a mutually changing matrix. First, the lower triangular matrix is filled with '-', and BP (i is calculated for each base pair (i, j). , j) after determining the relationship, generates a consensus sequence of homologous base sequences.

상호 변화 매트릭스의 각 요소는 I 번째 염기와 j 번째 염기와의 관계 BP(i, j)로 나타내는데 이 정의는 참조 문헌 4를 따른다.Each element of the mutual change matrix is represented by the relation BP (i, j) between the I-th base and the j-th base, the definition of which follows Reference 4.

상술한 첫 번째 과정(P100)을 제13도 및 제14도를 참조하여 좀 더 구체적으로 설명하면, 우선 동류성 염기 서열의 분석 및 상호 변화 매트릭스 생성과정(P100)에서는 동류성 염기서열을 분석하여 가능한 염기쌍을 찾아내는데, 길이 N인 M개의 동류성 염기 서열의 배열에 대한 분석 결과는 M×N 상호 변화 매트릭스로 나타낼 수 있다. 이때 상호 변화 매트릭스의 각 엔트리(i, j)는 염기서열에서 I번째 염기와 j번째 염기간의 관계 BP(i, j)를 나타내는데, 관계 BP(i, j)는 다음과 같이 정의된다. 이러한 관계 BP(i, j)는 대칭적이므로 매트릭스의 상단 삼각형 부분에만 표시되고, 하단 삼각형 부분은 ‘-’기호로 채워진다.Referring to the first process (P100) described above in more detail with reference to FIGS. 13 and 14, first, in the analysis of the homologous sequence and the process of generating the mutual change matrix (P100), the homologous sequence is analyzed. Finding possible base pairs, the analysis of the arrangement of M homologous base sequences of length N can be represented by the M × N interchange matrix. In this case, each entry (i, j) of the mutual change matrix represents the relationship BP (i, j) between the I-th base and the j-th base in the base sequence, and the relationship BP (i, j) is defined as follows. Since this relationship BP (i, j) is symmetric, it appears only in the upper triangular part of the matrix, and the lower triangular part is filled with the '-' symbol.

1. 염기 i와 j가 모든 염기서열에서 쌍을 이루며 염기 I와 j에 변화가 없으면, BP(i,j)는 exact-invariant match이고(상호 변화 매트릭스에서 o로 표시),1.If bases i and j are paired in all sequences and there is no change in bases I and j, BP (i, j) is an exact-invariant match (denoted by o in the interchange matrix)

2. 염기 I와 j가 모든 염기서열에서 쌍을 이루며 상호 보강적 염기 변화가 있으면, BP(i, j)는 exact-variant match이며(*로 표시),2. If bases I and j are paired in all sequences and there is a mutually complementary base change, BP (i, j) is an exact-variant match (indicated by *),

3. 염기 i가 대부분의 염기서열에서 염기 j와 G-U wobble pair를 이루면, BP(i, j)는 wobble match이고(w로 표시),3. When base i forms a G-U wobble pair with base j in most sequences, BP (i, j) is a wobble match (denoted by w),

4. 염기 i가 모든 염기서열은 아니지만 대부분의 염기서열에서 염기 j와 쌍을 이루며 mismatch의 빈도가 정해진 값을 넘지 않을 때, BP(i, j)는 inexact match이고(+로 표시),4. When base i is not all sequences but pairs with base j in most sequences and the frequency of mismatch does not exceed a predetermined value, BP (i, j) is an inexact match (indicated by +),

5. 염기 i와 j가 쌍을 이루지 못하는 빈도가 정해진 값을 넘을 때, BP(i, j)는 mismatch이다(·로 표시).5. When the frequency at which bases i and j do not pair exceeds a predetermined value, BP (i, j) is mismatch (denoted by.).

제13도에 도시한 입력에 대하여 모의실험 1단계(P100)에서 생성된 상호 변화 매트릭스가 제14도에 도시되어 있다. 제14도의 위 부분은 입력으로 주어진 배열에서 각 줄의 처음을 알리는 ‘#’ 기호가 생략되었고 배열의 마지막 줄에 염기서열(GgUCUCUCUGGUUAGACCAGAUcUGAGccUGGGAGCUCUCUGGCUAaCUAGGGAACC)이 하나 추가되었는데, 이 추가된 염기서열은 10개의 동류성 염기서열에 대한 공통 서열(consensus sequence)이다. 공통 서열에서 대문자로 표기된 염기는 모든 염기서열이 해당 염기를 배열의 그 위치에서 갖고 있다는 의미이고, 소문자로 표기된 임기는 모든 염기가 해당 염기를 갖지는 않지만 그 위치에서 가장 대표적인 염기를 의미한다. 제14도의 아래 부분이 바로 상호 변화 매트릭스이다.The mutual change matrix generated in the simulation step 1 (P100) with respect to the input shown in FIG. 13 is shown in FIG. In the upper part of FIG. 14, the '#' symbol indicating the beginning of each line in the array given as input is omitted, and one base sequence (GgUCUCUCUGGUUAGACCAGAUcUGAGccUGGGAGCUCUCUGGCUAaCUAGGGAACC) is added to the last line of the array. Consensus sequence for the sequence. Capitalized bases in the consensus sequence means that all base sequences have the bases in their positions in the sequence, and lower-term term term means the most representative bases in the bases, although not all bases have the bases. The lower part of Figure 14 is the mutual change matrix.

요약하면, 동류성 염기 서열의 분석 및 상호 변화 매트릭스 생성단계(P100)에서는 다음과 같은 세부 과정을 거쳐 동류성 염기 서열의 공통 서열을 생성한다.In summary, in the analysis of the homologous base sequence and the generation of the mutual change matrix (P100), a consensus sequence of the homologous base sequence is generated through the following detailed process.

① 사용하지 않는 상호 변화 매트릭스의 하단 삼각형을 ‘-’ 기호로 초기화한다.① Initialize the lower triangle of unused mutual change matrix with '-' symbol.

② 상호 변화 매트릭스의 각 엔트리 BP(i,j)의 관계를 결정한다.(2) Determine the relationship of each entry BP (i, j) of the mutual change matrix.

③ 동류성 염기서열에 대한 공통 서열을 결정한다.③ Determine the consensus sequence for homologous base sequence.

한편 본 발명의 두 번째 과정(P200)에서는 상호 변화 매트릭스에서 잠재적 나선형 구조를 찾아내어 구조를 만든다. 잠재적 나선형 구조는 매트릭스에서 상단우편에서 하단 좌편 방향으로 매치 기호들(o, *, w, +)로 구성된 대각선이다.Meanwhile, in the second process P200 of the present invention, a potential spiral structure is found in the mutual change matrix to make a structure. The potential spiral structure is a diagonal of match symbols (o, *, w, +) in the matrix from top to bottom left.

각 나선형 구조마다 시작 위치, 끝 위치, 길이, S1과 CF가 계산되는데, S1은 전체 구조에서 가장 안정된 헤어핀 루프 나선형 구조(best_helix라 불린다)를 찾기 위한 스코어 함수(score function)이며, CF는 나선형 구조의 신뢰도이다.For each helical structure, the starting position, end position, length, S1 and CF are calculated, where S1 is a score function to find the most stable hairpin loop helical structure (called best_helix) in the overall structure, and CF is a helical structure. Is the reliability of.

잠재적인 나선형 구조가 모두 찾아지면, 이들을 끝 위치가 증가하는 순으로 정렬하여서 다음 과정에서 순서대로 검사되도록 한다.Once all potential spiral structures are found, they are sorted in increasing order of their end positions so that they can be examined in order in the next step.

이러한 잠재적 나선형 구조 탐색과정(P200)을 좀 더 상세히 설명하면, 상기 잠재적 나선형 구조 탐색과정(P200)은 다음과 같이 세단계로 세분화된다.The potential spiral structure search process P200 will be described in more detail. The potential spiral structure search process P200 is subdivided into three steps as follows.

첫 단계로서 상호 변화 매트릭스를 분석하여 잠재적 나선형 구조를 찾아내고 각 나선형 구조에 대한 신뢰도를 계산한후, 두 번째 단계로서 찾은 나선형 구조 중에서 가장 신뢰도가 높은 나선형 구조(best_helix)를 결정한다. 이어서 세 번째 단계로서 모든 나선형 구조를 끝 위치에 대한 오름차순으로 정렬한다.The first step is to analyze the mutual change matrix to find potential spiral structures and calculate the reliability for each spiral structure. The second step is to determine the most reliable spiral structure (best_helix) found. The third step is then to align all the spiral structures in ascending order to the end position.

잠재적 나선형 구조는 상술한 바와 같이 상호 변화 매트릭스의 상단 우측에서 하단 좌측 방향으로 매치(match) 기호들(o, *, w, +)로 구성된 대각선이다. 나선형 구조의 최소 길이를 3개의 염기 쌍으로 지정하였을 때, 제14도에서 보이는 상호 변화 매트릭스에서 찾아지는 잠재적 나선형 구조의 개수는 63개이며, 이 63개의 나선형 구조가 모두 가능한 나선형 구조이기는 하지만, 상호 충돌하는 경우가 있어서 하나의 구조에 동시에 존재할 수는 없고, 이 과정을 수작업으로 진행하는 것도 현실적으로 불가능하다. 제14도에 도시된 상호 변화 매트릭스에서 가장 신뢰도가 높은 나선형 구조는 U5CUCUGGUUAG15/C44UAaCUAGGGA54이다. 잠재적인 나선형 구조가 모두 찾아지면 이들의 끝 위치(helix를 구성하는 마지막 염기의 위치)가 증가하는 순으로 정렬하여, 다음 과정에서 순서대로 검사되도록 하면 된다.The potential helical structure is a diagonal of match symbols (o, *, w, +) from the top right to the bottom left direction of the mutual change matrix as described above. Given the minimum length of the helical structure as three base pairs, the number of potential helical structures found in the interchange matrix shown in FIG. 14 is 63, although all of the 63 helical structures are possible helical structures, There are cases where there is a collision, so it cannot exist in one structure at the same time, and it is impossible to carry out this process manually. The most reliable spiral structure in the mutual change matrix shown in FIG. 14 is U 5 CUCUGGUUAG 15 / C 44 UAaCUAGGGA 54 . Once all potential helical structures are found, their end positions (the positions of the last bases that make up the helix) will be sorted in increasing order, and examined in order in the next step.

한편 된 발명의 마지막 과정인 구조 형성 과정 모의실험 및 구조 생성(P300) 과정에서는 RNA 분자의 염기 서열이 자라면서 취하게 되는 중간 구조들을 순서대로 생성하여 텍스트 폼(text form)으로 표현하고 이 구조들의 신뢰도를 계산한다. 새로운 나선형 구조가 특정 단계의 구조에 포함될지의 여부는 그 나선형 구조가 best_helix인지, 기존의 나선형 구조와 공존할 수 있는지, 기존의 나선형 구조와 공존하지 않고 대치할 수 있는지의 여부에 따라 결정된다.On the other hand, in the last step of the invention, the structure formation process simulation and structure generation (P300), intermediate structures that are taken as the base sequence of the RNA molecule grows are sequentially generated and expressed in a text form. Calculate the reliability. Whether or not the new spiral structure is included in the structure of a particular stage depends on whether the spiral structure is best_helix, whether it can coexist with the existing spiral structure or can be replaced without coexisting with the existing spiral structure.

이를 제6도를 참조하여 상세하게 설명하면 다음과 같다.This will be described in detail with reference to FIG. 6 as follows.

먼저, 변수(k,i)를 초기화한다(S301, S302).First, the variables k and i are initialized (S301 and S302).

이어서 정렬된 리스트에 있는 나선형 구조 h(i)를 검사한다.Then check the spiral structure h (i) in the sorted list.

검사한 결과 h(i)가 best_helix이거나, h(i)가 존재하는 나선형 구조들과 충돌하지 않고 공존할 수 있으면 그것을 k 번째 구조에 포함시키고, 그렇지 않고 h(i)가 기존의 나선형 구조를 대치할 만큼 신뢰도가 있으면, 즉 (w6 · CF(h) + w7· #brokenbp) > w6· CF(exisitng helix)이면 k번째 구조에 있는 h(i)와 존재하는 나선형 구조를 교환하고 신뢰도 CF(k번째 구조)를 계산한다(S303~S309).If the test shows that h (i) is best_helix, or if h (i) can coexist without colliding with existing helical structures, it is included in the kth structure, otherwise h (i) replaces the existing helical structure. If there is enough reliability, i.e. (w6 · CF (h) + w 7 · #brokenbp)> w 6 · CF (exisitng helix), exchange the existing helical structure with h (i) in the kth structure (kth structure) is calculated (S303 to S309).

그렇지 않으면 h(i)를 무시한다(S310).Otherwise, h (i) is ignored (S310).

모든 나선형 구조가 검사될 때까지 리스트에 있는 나선형 구조 h(i)를 검사하고, k번째 구조에 변화가 있으면 신뢰도 CF(k번째 구조)의 계산을 반복한다.Examine the helical structure h (i) in the list until all the helical structures have been examined, and repeat the calculation of the reliability CF (kth structure) if there is a change in the kth structure.

두 번째 단계와 마지막 단계에서 나선형 구조의 신뢰도와 분해되는 염기 쌍의 개수에 각각 곱해지는 w6과 w7은 구조의 신뢰도 산출에 이용되는 w6과 w7과 동일한 가중치를 갖는다. 구조 형성의 중간 단계에서 구성된 구조의 신뢰도는 앞서 설명한 방법에 의해 계산된다.In the second and last steps, w 6 and w 7 multiplied by the reliability of the helical structure and the number of base pairs decomposed, respectively, have the same weights as w 6 and w 7 used to calculate the reliability of the structure. The reliability of the structure constructed at the intermediate stage of the structure formation is calculated by the method described above.

제14도에 있는 상호 변화 매트릭스에서 찾은 나선형 구조(helix)로 구성되는 중간구조들을 텍스트 폼으로 표현한 것이 제15도에 도시되어 있다. 이차 구조 표현에 사용되는 염기서열은, 사용자가 동류성 염기서열의 공통 서열 또는 특정 염기서열 중에서 선택할 수 있다. 제15도의 예에서는 10개 동류성 염기서열의 공통 서열이 사용되었다. 각 중간 단계에서 형성되는 구조와 더불어, 수학식 2에 따라 계산된 구조에 대한 신뢰도 값도 명시되어 있다.Figure 15 shows a textual representation of the intermediate structures consisting of the helix found in the Interchange Matrix in FIG. The base sequence used for the secondary structure expression can be selected by the user from the consensus sequence of the homologous sequence or the specific base sequence. In the example of FIG. 15, a consensus sequence of 10 homologous base sequences was used. In addition to the structures formed in each intermediate step, the reliability values for the structures calculated according to Equation 2 are also specified.

상술한 바와 같은 구조 형성 과정 모의실험 및 구조생성과정이 종료되면, 사실상 성장과정 자체에 대한 모의실험은 완료된 것이다.When the structure formation process simulation and the structure generation process as described above are completed, the simulation of the growth process itself is completed.

이하 제7도를 참조하여 예측된 RNA 이차 구조의 시각화 과정에 대하여 설명한다.Hereinafter, a visualization process of the predicted RNA secondary structure will be described with reference to FIG. 7.

본 발명의 실시예에서는 예측된 RNA 이차 구조는 일단 텍스트 형식(괄호 쌍과 염기들)으로 표현된다. 텍스트 형식으로 주어진 이차 구조를 그래픽 형식으로 그리기 위한 단계는 다음과 같다.In an embodiment of the present invention, the predicted RNA secondary structure is once expressed in text form (parentheses pairs and bases). The steps for drawing a given secondary structure in text form in graphical form are:

첫 번째 단계인 전 처리 단계에서는 서열의 처음과 끝이 닫혀 있다는 가정을 만족하도록 처리하고, 불룩한 루프를 내부 루프로 변환하며, 나선형 구조와 나선형 구조가 직접 연결되어 있는 곳에 한 가닥 부분을 삽입한다.In the first step, the preprocessing step, the sequence is processed to satisfy the assumption that the beginning and end of the sequence are closed, converting the bulging loop into an inner loop, and inserting one strand where the helical structure and the helical structure are directly connected.

두 번째 단계에서는 루프간의 연결 관계를 고려하여 배치 우선 순위(positioning priority)를 계산한다.In the second step, the positioning priority is calculated by considering the connection relationship between loops.

마지막 단계에서 모든 루프에 대하여 다음을 반복 수행한다. 나선형 구조는 루프의 위치를 결정하는 단계에서 자동적으로 배치된다.In the last step, repeat the following for all loops. The helical structure is automatically placed in the step of determining the position of the loop.

먼저, 이미 배치된 이차구조의 구성 요소들과 적당한 공간을 유지하며 개 구간을 의미하는 원하는 영역을 탐색한 다음 이어서 루프의 회전 가능한 영역을 결정한다.First, it searches for a desired area, which means the dog section, while maintaining a proper space with the components of the secondary structure already arranged, and then determines the rotatable area of the loop.

이어서 원하는 영역과 회전 가능 영역을 고려하여, 만약 원하는 영역이 회전 가능 영역 내에 존재하는 경우에는 원하는 영역의 방향으로 해당 루프를 배치하고, 그렇지 않고 원하는 영역과 회전 가능 영역이 부분적으로 겹치는 경우이면 이동 가능한 범위 내에서 요구된 영역에 존재하는 방향으로 해당 루프를 배치한다.Then, considering the desired area and the rotatable area, if the desired area is present in the rotatable area, the corresponding loop is arranged in the direction of the desired area, otherwise the movable area can be moved if the desired area and the rotatable area partially overlap each other. Place the loop in the direction that exists in the required area within the range.

이차 구조를 그래픽 형식으로 그리기 위해서 전 처리 단계가 항상 필요한 것은 아니고 결합되지 않은 종단부나 불룩한 루프가 존재하거나 나선형 구조와 나선형 구조가 직접 연결되어 있는 경우에만 아래와 같이 전 처리를 필요로 한다. 이러한 전 처리의 목적은 원래 구성 요소가 아닌 염기(인조 염기)를 추가함으로써 이차 구조를 시각화하기 위한 자료 구조를 갱신하는 과정을 일반화하기 위함이다.The preprocessing step is not always necessary to draw the secondary structure in graphical form, but only if there is an unjoined end or bulging loop, or if the helical structure and the helical structure are directly connected as follows. The purpose of this pretreatment is to generalize the process of updating data structures to visualize secondary structures by adding bases (artificial bases) that are not original components.

1. 결합되지 않은 종단부는 나선형 구조를 추가함으로써 제거한다1. Unbonded terminations are removed by adding a helical structure

예를 들면 ---(((----))) 또는 ---(((----)))---는 (((---(((----)))---)))으로 변경한다.For example, --- (((----))) or --- (((----))) --- is (((--- (((----)))) ---))).

2. 불룩한 루프는 내부 루프로 변경한다.2. Change the bulging loop to an inner loop.

예를 들면, (((((----)))---)))는 (((-(((----)))---)))로 변경된다.For example, ((((((----))) ---))) is changed to (((-(((----))) ---))).

3. 나선형 구조와 나선형 구조가 직접 연결되어 있는 경우가 없도록 한다.3. Make sure that the spiral structure and the spiral structure are not directly connected.

예를 들면 (((----)))(((----)))은 (((----)))-(((----)))로 변경된다.For example, (((----))) (((----))) is changed to (((----)))-(((----))).

나선형 구조와 루프의 스코어를 정하는 기준은 나선형 구조의 경우는 나선형 구조를 이루는 염기 쌍의 개수, 즉 나선형 구조를 이루는 염기의 개수의 1/2이고, 루프는 루프를 이루고 있는 영기의 길이를 1, 염기와 염기 사이의 거리를 1이라고 가정하고 루프를 원이라고 가정하였을 때 계산되는 원의 면적이다.The criterion for determining the score of the helical structure and the loop is that in the case of the helical structure, the number of base pairs forming the helical structure, that is, 1/2 of the number of bases forming the helical structure, and the loop is 1, the length of the reiki of the loop. The area of a circle that is calculated when the distance between the base is 1 and the loop is a circle.

스코어에 따라 이들을 그릴 때의 우선 순위는 제8도에서와 같이 결정한다.The priority in drawing them according to the score is determined as in FIG.

즉, 먼저 나선형 구조와 루프의 스코어를 계산한 다음, 스코어가 가장 높은 루프를 그리기 리스트에 추가한다(S421).That is, first, the score of the spiral structure and the loop is calculated, and then the loop having the highest score is added to the drawing list (S421).

그리기 리스트에 있는 객체와 연결되어 있으면 다른 한쪽 끝에 루프가 연결되어 있는 나선형 구조를 검색한다(S422).If connected to the object in the drawing list, the other end of the spiral structure is connected to the loop is searched (S422).

검색한 결과 그러한 나선형 구조가 존재하지 않으면 그리기 리스트에 있는 객체와 연결되어 있으며 가장 높은 스코어를 가지는 나선형 구조를 검색하여, 찾은 나선형 구조를 그리기 리스트에 추가하고, 그러한 나선형 구조가 존재하면 찾은 나선형 구조와 그것에 연결된 루프를 나선형 구조와 루프의 순서로 그리기 리스트에 추가한다(S423 ~ S426).If the result of the search does not exist, it searches for the spiral with the highest score and is associated with the object in the drawing list, adds the found spiral to the drawing list, and if such a spiral exists, The loop connected to it is added to the drawing list in the order of the spiral structure and the loops (S423 to S426).

상기 단계 S422 ∼ S426은 그리기 리스트의 상부 = 이차 구조 요소의 수(iTopOfDrawList = iNumberOfSecondaryStructure)가 될 때까지 반복하며, 그 결과 내림차순으로 그리기 우선 순위가 결정된다.Steps S422 to S426 are repeated until the top of the drawing list = the number of secondary structure elements (iTopOfDrawList = iNumberOfSecondaryStructure), and as a result, the drawing priorities are determined in descending order.

본 발명에서는 사용자가 사용하기 편한 GUI(Graphical User Interface)와 함께 RNA 이차 구조 그리기, 편집 및 인쇄 기능을 제공한다.The present invention provides a graphical user interface (GUI) that is easy for a user to use to draw, edit, and print RNA secondary structures.

제9도는 본 발명의 전형적인 인터페이스로서 윈도우들의 기능을 우측 상단부터 설명하면 다음과 같다.9 is a typical interface of the present invention and the functions of the windows will be described below from the upper right.

1. 선택(option)1. option

동류성 염기 서열의 배열을 입력 또는 수정하고, 본 발명의 제어 파라미터의 값을 설정할 수 있게 한다.It is possible to input or modify the arrangement of homologous base sequences and to set the values of the control parameters of the present invention.

2. 상호 변화 매트릭스 & 나선형구조2. Mutual change matrix & spiral structure

동류성 염기 서열을 분석한 결과 결정되는 염기 쌍의 관계를 상호 변화 매트릭스로 나타낸다. 이 매트릭스에서 찾아지는 잠재적인 나선형 구조도 보여준다.The relationship between base pairs determined as a result of the analysis of homologous base sequences is shown in a mutual change matrix. The potential spiral structure found in this matrix is also shown.

3. 모의실험 결과3. Simulation Results

시뮬레이션 수행 결과 얻어지는 중간 구조 및 최종 구조를 신뢰도와 함께 텍스트 형식으로 나타낸다.The intermediate and final structures obtained as a result of the simulation are presented in text form with confidence.

4. 시각화4. Visualization

이차 구조를 그래픽 형식으로 보여주고 그 구조를 편집하는 기본 기능(이동, 회전, 확대, 축소, 그룹 등)도 제공한다.It also displays the secondary structure in graphical form and provides basic functions for editing the structure (move, rotate, zoom in, zoom out, group, etc.).

5. 윤곽보기5. Outline view

이차 구조의 염기는 보여주지 않고 전체적인 윤곽을 보여준다.The base of the secondary structure is not shown but the overall outline.

6. 이력(history)6. history

작업의 진행 과정을 보여주고 저장한다.Show and save the progress of your work.

이 윈도우들은 각각 크기변경 또는 스크롤 될 수 있고, 그 내용을 출력하거나 외부 파일로 저장할 수 있다.Each of these windows can be resized or scrolled, and its contents can be output or saved to an external file.

본 발명의 실시예는 Windows 95 환경에서 Borland C++ Builder를 이용하여 구현되었으며, 40Mbyte 이상의 RAM을 가지고 있으면서 Windowrs 95를 운영체제로 갖는 IBM PC 호환 기종에서는 어디서든 수행 가능하다.The embodiment of the present invention has been implemented using Borland C ++ Builder in a Windows 95 environment, and can be performed anywhere in an IBM PC compatible model having Windowrs 95 as an operating system with more than 40Mbytes of RAM.

제10도는 7개의 Bip(binding protein) mRNA의 5' NTR(Non-Translated region) 염기 서열과 2개의 FGF-2(Fibroblast Growth Factor 2) mRNA의 5'NTR 염기 서열이 배열되어 있는 것을 보여 준다. 이 배열의 길이는 간격을 포함하여 156개의 염기이고, BiP 염기 서열간의 유사도(similarity)와 FGF-2 염기 서열간의 유사도 모두 40% 내외로서 동류성 염기 서열치고는 매우 낮은 편이다.FIG. 10 shows that 5 'non-translated region (NTR) base sequences of 7 binding protein (Bip) mRNAs and 5'NTR base sequences of two Fibroblast Growth Factor 2 (FGF-2) mRNAs are arranged. The length of the sequence is 156 bases including the interval, and the similarity between the BiP base sequence and the similarity between the FGF-2 base sequence is about 40%, which is very low compared to the homologous base sequence.

제11도는 제10도에 있는 5'NTR BiP와 5'NTR FGF-2의 배열을 입력받았을 때 본 발명에서 이들에 공통된 이차 구조형성 과정을 모의실험한 결과이다.FIG. 11 is a result of simulating the secondary structure forming process common to the present invention when receiving the arrangement of 5'NTR BiP and 5'NTR FGF-2 in FIG.

염기가 30개 이상 합성되어서야 비로소 나선형 구조가 하나 형성되고(제1단계), 그 이후 새로운 나선형 구조가 매 단계마다 추가됨으로써 제5단계에서 최종 구조가 형성된다. 이 모의실험에서는 중간 구조에 포함되었던 나선형 구조가 다음 단계의 구조를 위해서 해체되는 현상은 보이지 않는다.Only at least 30 bases have been synthesized until a single helical structure is formed (first step), after which a new helical structure is added at every step to form a final structure at the fifth step. In this simulation, the spiral structure included in the intermediate structure is not dismantled for the next structure.

9개의 mRNA 5'NTR 염기 서열을 비교 분석한 결과, 잠재적인 나선형 구조는 모두 6개이고 이들 모두 최종 구조에 함여하는 안정적인 구조 형성과정을 보인다.As a result of comparative analysis of 9 mRNA 5'NTR sequences, there are 6 potential helical structures, all of which show stable structure formation in the final structure.

동류성 염기 서열간의 유사도가 매우 낮음에도 불구하고 본 발명에 따른 모의실험에 의하여 도달한 최종 구조(제6단계의 구조)는 매우 안정적이고, 이 구조는 Le와 Maizes이 여러 종류의 프로그램 사용과 수작업을 통하여 예측한 구조와 일치한다[참조 문헌: Le, S-Y. and Maizes 1. V.,'A comnon RNA structural motif involver in the internal initiation of trnaslation of cellular mRNAs ” Nucleic Acids Res., Vol. 25, No. 2, pp. 362-369, 1997].Although the similarity between homologous base sequences is very low, the final structure reached by the simulation according to the present invention (the structure of the sixth step) is very stable, and this structure is used by Le and Maizes for various types of program and manual work. Consistent with the structure predicted through [Le, SY. and Maizes 1. V., 'A comnon RNA structural motif involver in the internal initiation of trnaslation of cellular mRNAs ”Nucleic Acids Res., Vol. 25, No. 2, pp. 362-369, 1997].

제12도는 10개의 HIV-1 TAR에 공통된 구조 형성 과정을 본 발명에 의해 모의실험한 결과, 즉 제15도에서 예시한 텍스트 폼의 이차 구조를 그래픽 폼으로 표현한 것이다.FIG. 12 is a graphical representation of the secondary structure of the text form illustrated in FIG.

1, 2, 3, 5 단계에서는 새로운 나선형 구조가 추가됨으로써 구조가 형성되고, 4단계에서는 이전단계(3단계)의 구조에 포함되었던 3개의 나선형 구조가 모두 해체되고 새로운 나선형 구조들이 포함됨으로써 구조를 형성한다.In the 1st, 2nd, 3rd, and 5th stages, the structure is formed by the addition of a new helical structure.In the 4th stage, all three helical structures included in the structure of the previous stage (step 3) are dismantled, and the new helical structures are included. Form.

동역학적 측면에서 보았을 때, 3단계에서 4단계로의 변이가 간장 어려운 변이라고 할 수 있다.In terms of dynamics, the transition from step 3 to step 4 is a difficult one.

HIV-1 TAR의 모의실험에 사용된 염기 서열의 배열의 길이는 57 염기로서, mRNA 5'NTR의 배열의 길이인 156 염기의 절반도 안되는 짧은 염기 서열이다. 그러나 TAR의 최종 구조의 신뢰도는 3.57로서 mRNA 5'NTR 최종 구조의 신뢰도 7.74 보다 훨씬 낮다.The length of the base sequence used for the simulation of HIV-1 TAR is 57 bases, which is less than half of the length of 156 bases, which is the length of the mRNA 5'NTR sequence. However, the reliability of the final structure of the TAR is 3.57, which is much lower than the reliability of the mRNA 5'NTR final structure of 7.74.

이것은 본 발명에서 mRNA 5'NTR에 대한 예측한 결과를 TAR에 대해 예측한 결과보다 더 낮은 신뢰도를 갖는 구조가 예측된 이유는 신뢰도 계산에서 다음 요인이 작용하였기 때문이다.This is because in the present invention, a structure having a lower reliability than the result predicted for TAR in the predicted result for mRNA 5′NTR is predicted because the following factors work in the reliability calculation.

1. TAR의 구조 형성 과정 중에는 나선형 구조가 해체되는 일이 발생하였지만 mRNA 5'NTR의 경우에는 나선형 구조가 해체되는 일이 없었다.1. During the formation of the TAR structure, the helical structure was disassembled, but in the case of mRNA 5'NTR, the helical structure was not disassembled.

2. TAR는 잠재적인 나선형 구조 중에서 적은 개수의 나선형 구조가 구조 형성에 참여하지만(63개중 4개) mRNA 5'NTR의 경우에는 잠재적인 나선형 구조 6개 모두 구조에 포함된다.2. In TAR, a small number of potential helical structures participate in the formation (4 of 63), but in the case of mRNA 5'NTR all 6 potential helical structures are included in the structure.

본 발명의 모의실험에서 스텝 크기는 고정적이 아니라 변동적이다. 매단계마다 염기 서열의 범위를 일정한 크기만큼 증가시키면서(예를 들면 염기 10개씩 증가) 수행되는 것이 아니라 포함되는 나선형 구조들의 끝 위치 중에서 가장 큰 것에 의하여 결정된다.In the simulations of the present invention, the step size is not fixed but variable. It is not performed at every step by increasing the extent of the base sequence by a certain size (for example by 10 bases) but rather by the largest of the end positions of the included helical structures.

고정된 스텝 크기 대신 변동적인 스텝 크기를 사용할 때의 이점 중의 하나는 모의실험 결과가 스텝 크기에 의해 달라지지 않는다는 것이다. 이 보다 더 큰 이점은 고정된 스텝 크기를 사용할 때 생기는 사소한 중간 단계들(예를 들면 전 단계의 구조와의 유일한 차이가 기존의 나선형 구조 또는 루프와 길이가 연장되는 구조를 갖는 단계)이 생성되지 않는다는 것이다.One of the advantages of using variable step size instead of fixed step size is that the simulation results do not vary with the step size. A further advantage is that no minor intermediate steps (e.g., a step whose structure differs from the previous helical structure or loop length) are created when using fixed step sizes. It is not.

이상에서 설명한 바와 같이 본 발명에 의하면 열역학적·계통발생학적으로 안정되고 구조 형성 과정이 고려된 RNA 분자 이차 구조를 예측할 수 있고, 중간 단계 및 최종 단계에서 예측된 구조의 신뢰도를 정량적으로 나타낼 수 있으며, 구조의 재편성을 허용함으로써 보다 생물학적으로 의미 있는 RNA 분자 이차 구조를 얻을 수 있으므로 RNA 분자 구조와 그 형성 과정을 연구하는데 유용한 도구로 사용될 수 있다.As described above, according to the present invention, it is possible to predict an RNA molecule secondary structure that is thermodynamically and phylogenetically stable and considering a structure forming process, and can quantitatively indicate the reliability of the structure predicted in the intermediate and final stages. By allowing reorganization of the structure, a more biologically meaningful RNA molecule secondary structure can be obtained, which can be used as a useful tool to study the structure of RNA molecule and its formation process.

또한 일반에 널리 보급된 IBM PC 호환 기종 컴퓨터에서 구현이 가능하므로 누구나 손쉽게 활용할 수 있으며, 예측된 이차 구조를 시각화함에 있어 GUI를 구현함으로써 컴퓨터 사용에 익숙치 않은 사용자도 쉽게 접근하고 활용할 수 있는 효과가 있다.In addition, since it can be implemented on IBM PC compatible models widely used in general, anyone can use it easily, and by implementing the GUI in visualizing the predicted secondary structure, it can be easily accessed and utilized by users unfamiliar with computer use. .

Claims (3)

RNA 분자의 이차 구조 모델링 시스템에 있어서, 입력데이터로부터 동류성 염기 서열을 분석하고 분석된 동류성 염기 서열의 결과를 i번째 염기와 j번째 염기와의 관계인 BP(i, j) 요소들을 가지는 상호 변화 매트릭스로 나타내는 동류성 염기 서열의 분석 및 상호 변화 매트릭스 생성 과정과, 상기 상호 변화 매트릭스에서 잠재적 나선형 구조를 찾아내어 각 나선형 구조마다 시작위치, 끝 위치, 길이, best_helix라고 불리는 전체 구조에서 가장 안정된 헤어핀 루프 나선형 구조를 찾기 위한 스코어 함수 S1 및 나선형 구조의 신뢰도 CF를 계산하고, 잠재적 나선형 구조가 모두 찾아지면 이들을 끝 위치가 증가하는 순서로 정렬하여 구조를 만드는 잠재적 나선형 구조 탐색 과정과, 상기 정렬된 리스트에 있는 나선형 구조 h(i)를 순차적으로 검사하여 검사한 결과 h(i)가 best_helix이거나 h(i)가 존재하는 나선형 구조들과 충돌하지 않고 공존할 수 있으면 그것을 k번째 구조에 포함시키고, 그렇지 않고 h(i)가 기존의 나선형 구조를 대치할 만큼 신뢰도가 있으면 k번째 구조에 있는 h(i)와 존재하는 나선형 구조를 교환하고 k번째 구조에 대한 신뢰도(CF)를 계산하는 방식으로 모든 나선형 구조가 검사될때까지 상기 리스트에 있는 나선형 구조 h(i)를 검사하고 k번째 구조에 변화가 있으면 신뢰도 CF의 계산을 반복하여 RNA 분자의 염기 서열이 자라면서 취하게 되는 중간 구조들을 순서대로 생성시키는 구조 형성 과정 모의실험 및 구조 생성 과정과, 텍스트 형식의 예측된 RNA 이차 구조를 그래픽 형식으로 시각화하는 과정으로 이루어짐을 특징으로 하는 성장과정 모의실험을 통한 RNA 분자의 이차 구조 예측방법.In the secondary structure modeling system of RNA molecule, the analysis of the homologous sequence from the input data and the result of the analyzed homologous sequence are mutually changed with BP (i, j) elements which are the relationship between the i base and the j base. Analysis of homologous sequences represented by matrices and generation of intermutation matrices, and finding the potential helical structures in the mutant matrices and for each helical structure the most stable hairpin loop in the starting position, end position, length, and overall structure called best_helix. Calculate the score function S1 to find the helical structure, and the reliability CF of the helical structure, and, when all potential helical structures are found, sort them in increasing order of their end positions to create the structure, and the sorted list Sequential inspection of the spiral structure h (i) ) Is the best_helix, or if it can coexist without collision with the existing spiral structures, it is included in the k-th structure; otherwise, if the h (i) is reliable enough to replace the existing spiral structure, the k-th Examine the helical structure h (i) in the list above and k until all the helical structures are examined by exchanging the existing helical structure with the h (i) in the structure and calculating the reliability (CF) for the kth structure. If there is a change in the first structure, repeating the calculation of the reliability CF, the structure formation process simulation and structure generation process in which the intermediate structures taken as the nucleotide sequence of the RNA molecule is grown in sequence, and the predicted RNA secondary structure in text form Secondary structure prediction method of the RNA molecule through the growth process simulation, characterized in that consisting of the process of visualizing the graphic form. 제1항에 있어서, 상기 나선형 구조의 신뢰도는 아래의 수학식과 같이 5개 파라미터의 함수 값으로 정의되며, 5개 파라미터에 곱해지는 가중치(w1∼ w5)는 자유 에너지와 동류성 염기 서열의 정보를 바탕으로 결정되는 것을 특징으로 하는 성장 과정 모의실험을 통한 RNA 분자의 이차 구조 예측 방법:The method of claim 1, wherein the reliability of the helical structure is defined as a function value of five parameters as shown in the following equation, the weight (w 1 ~ w 5 ) to be multiplied by the five parameters of the free energy and homologous base sequence Method for predicting secondary structure of RNA molecule through growth process simulation, which is determined based on information: 여기서, L은 나선형 구조의 길이(염기 쌍의 개수로 표시)이고, E는 나선형 구조에서 정밀 변형 짝의 개수이며, W는 나선형 구조에서 와블 짝의 개수이고, I는 나선형 구조에서 비정밀 짝의 개수이며, H는 나선형 구조에 의하여 형성될 수 있는 헤어핀 루프의 길이임.Where L is the length of the helical structure (expressed as the number of base pairs), E is the number of precision strain pairs in the helical structure, W is the number of wobble pairs in the helical structure, and I is the number of coarse pairs in the helical structure. Number, where H is the length of the hairpin loop that can be formed by the helical structure. 제1항에 있어서, 상기 k번째 구조에 대한 신뢰도(CF)는 아래의 수학식과 같이 4개 파라미터의 함수 값으로 정의되며, 4개 파라미터에 곱해지는 가중치(w1∼ w5)는 구조 형성 과정의 동역학뿐 아니라 자유 에너지와 동류성 염기 서열의 정보를 바탕으로 결정되는 것을 특징으로 하는 성장과정 모의실험을 통한 RNA 분자의 이차 구조 예측 방법:The method of claim 1, wherein the reliability CF of the k-th structure is defined as a function value of four parameters as shown in the following equation, and the weights w 1 to w 5 multiplied by four parameters are used to form a structure. Method for predicting secondary structure of RNA molecule through growth process simulation, which is determined based on information of free energy and homologous sequence as well as kinetics of: 여기서,는 구조에 포함된 나선형 구조의 신뢰도의 합이고, K는 전 단계의 구조로부터 변이될 때의 동역학적 난이도로서 전 단계의 구조에서 해체되는 염기 쌍의 개수이며, R은 구조의 범위에 존재하는 잠재적인 나선형 구조의 총 개수에 대한 포함된 나선형 구조의 개수의 비율이고, S는 구조의 범위에 있는 염기 서열의 길이임.here, Is the sum of the reliability of the helical structure included in the structure, K is the dynamic difficulty of transition from the previous stage of structure, the number of base pairs dissociated in the previous stage of structure, and R is the potential to exist in the range of the structure. Is the ratio of the number of helical structures included to the total number of helical structures in which S is the length of the base sequence in the range of the structure.
KR1019980042656A 1998-10-13 1998-10-13 Secondary structure prediction method of RNA molecule through growth process simulation KR100295246B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019980042656A KR100295246B1 (en) 1998-10-13 1998-10-13 Secondary structure prediction method of RNA molecule through growth process simulation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019980042656A KR100295246B1 (en) 1998-10-13 1998-10-13 Secondary structure prediction method of RNA molecule through growth process simulation

Publications (2)

Publication Number Publication Date
KR20000025535A KR20000025535A (en) 2000-05-06
KR100295246B1 true KR100295246B1 (en) 2001-09-17

Family

ID=19553790

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980042656A KR100295246B1 (en) 1998-10-13 1998-10-13 Secondary structure prediction method of RNA molecule through growth process simulation

Country Status (1)

Country Link
KR (1) KR100295246B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE202022101929U1 (en) 2022-04-09 2022-06-02 Pradipta Bhowmick Intelligent system to predict the secondary structure of RNA using foldable neural networks and artificial intelligence

Also Published As

Publication number Publication date
KR20000025535A (en) 2000-05-06

Similar Documents

Publication Publication Date Title
van Helden et al. A web site for the computational analysis of yeast regulatory sequences
Kose et al. Visualizing plant metabolomic correlation networks using clique–metabolite matrices
EP1507216A2 (en) Systems, tools, and methods for viewing textual documents, extracting knowledge therefrom and converting the knowledge into other forms of representation of the knowledge
AU2007236811B2 (en) Method of predicting the secondary structure of RNA, prediction apparatus and prediction program
CN112735514B (en) Training and visualization method and system for neural network extraction regulation and control DNA combination mode
Senin et al. Concurrent assembly planning with genetic algorithms
Morgante et al. Structured motifs search
CN113407185A (en) Compiler optimization option recommendation method based on Bayesian optimization
KR100295246B1 (en) Secondary structure prediction method of RNA molecule through growth process simulation
CN110928261A (en) Distributed estimation scheduling method and system for distributed heterogeneous flow shop
Rechenmann Building and sharing large knowledge bases in molecular genetics
Burks DNA sequence assembly
KR20000036758A (en) A method for establishing database for searching files and a method for searching file by use of the database
Tieng et al. A Hitchhiker's guide to RNA–RNA structure and interaction prediction tools
Cheng et al. Ancestral population genomics with jocx, a coalescent hidden Markov model
CN107273716A (en) A kind of method that skeleton assembling is carried out based on long segment
Griffin et al. Staden: statistical and structural analysis of nucleotide sequences
Peeters et al. Interactive visualization of annotated DNA sequences
Inenaga Pointer-Machine Algorithms for Fully-Online Construction of Suffix Trees and DAWGs on Multiple Strings
Kerdprasop et al. Recognizing DNA splice sites with the frequent pattern mining technique
Onpans et al. Coincidence algorithm for RNA secondary structure prediction with Pseudoknots
Danchin et al. Integrated Genome Informatics
Wong et al. On network tools for network motif finding: a survey study
Oliver et al. 3D-based RNA function prediction tools in rnaglib
Carabedian et al. Inferring extended virtual knowledge from an EPIOS conversion graph of overlapping substructures

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130215

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20140319

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20160401

Year of fee payment: 16

LAPS Lapse due to unpaid annual fee