KR101804655B1 - 생물학적 서열의 유사매듭 구조 판단 장치 및 방법 - Google Patents

생물학적 서열의 유사매듭 구조 판단 장치 및 방법 Download PDF

Info

Publication number
KR101804655B1
KR101804655B1 KR1020160007615A KR20160007615A KR101804655B1 KR 101804655 B1 KR101804655 B1 KR 101804655B1 KR 1020160007615 A KR1020160007615 A KR 1020160007615A KR 20160007615 A KR20160007615 A KR 20160007615A KR 101804655 B1 KR101804655 B1 KR 101804655B1
Authority
KR
South Korea
Prior art keywords
candidate
matching
matching candidate
searching
matched
Prior art date
Application number
KR1020160007615A
Other languages
English (en)
Other versions
KR20170087707A (ko
Inventor
한요섭
조다정
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020160007615A priority Critical patent/KR101804655B1/ko
Publication of KR20170087707A publication Critical patent/KR20170087707A/ko
Application granted granted Critical
Publication of KR101804655B1 publication Critical patent/KR101804655B1/ko

Links

Images

Classifications

    • G06F19/16
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • G06F19/22

Abstract

생물학적 서열의 유사매듭 구조 판단 장치 및 방법이 개시된다. 개시된 장치는, 주어진 생물학적 서열을 전단부화 후단부로 구분하고 상기 전단부로부터 후보 전위부들을 설정하고 상기 후보 전위부들에 매칭되는 매칭 후보 전위부들을 탐색하는 매칭 후보 전위부 탐색부; 상기 후단부로부터 후보 후위부들을 설정하고 상기 후보 후위부들에 매칭되는 매칭 후보 후위부들을 탐색하는 매칭 후보 후위부 탐색부; 및 상기 탐색된 매칭 후보 전위부들 및 매칭 후보 후위부들 중 서로 인접하는 매칭 후보 전위부-매칭 후보 후위부 패어가 존재하는지 여부를 판단하고 인접하는 매칭 후보 전위부-매칭 후보 후위부 패어가 존재할 경우 해당 패어에서 매칭 후보 후위부가 선행하여 위치할 경우 유사 매듭 구조로 판단하는 유사매듭 판단부를 포함한다. 개시된 장치에 의하면, 비교적 간단한 연산으로 주어진 생물학적 서열이 유사매듭 구조인지 여부를 판단할 수 있는 장점이 있다.

Description

생물학적 서열의 유사매듭 구조 판단 장치 및 방법{Device and Method for Determining Pesudo Knot Structure of Biological Sequence}
본 발명의 실시예들은 생물학적 서열이 유사매듭 구조인지 여부를 판단하는 장치 및 방법에 관한 것이다.
생물학 분야에서 DNA 및 RNA와 같은 생물학적 서열이 유사매듭 구조에 해당되는지 여부는 매우 중요한 연구 중 하나로 생물학 전문가 뿐만 아니라 컴퓨터 분야에서도 많은 전문가들이 활발히 연구하고 있는 분야이다.
실제로 유사매듭 구조는 RNA 서열에서 빈번히 존재하고 바이러스를 표현하는 프레임쉬프트 돌연변이와도 연관이 있다. 이러한 이유로 생물학 및 컴퓨터공학 연구자들이 이론적, 실험적 접근을 통해 유사매듭 구조를 탐색하는 기법을 활발히 연구하고 있다.
일반적으로 알려진 유사매듭 구조 판단 방법은 긴 DNA, RNA에서 모든 유사매듭 구조를 찾아내는 방식이다. 그러나, 유사매듭 구조를 모두 찾아내는 데에는 상당한 연산이 소요되며, 모든 유사매듭 구조를 찾아내는 것은 큰 의미가 없는 경우가 대부분이며, 해당 서열이 유사매듭 구조인지 여부에 대한 판단이 중요한 경우가 대부분이다.
본 발명의 일 측면은 비교적 간단한 연산으로 주어진 생물학적 서열이 유사매듭 구조인지 여부를 판단하는 장치 및 방법을 제안하는 것이다.
본 발명의 다른 측면은 오토마타를 동적으로 생성하여 주어진 생물학적 서열이 유사매듭 구조인지 여부를 판단하는 장치 및 방법을 제안하는 것이다.
본 발명의 일 측면에 따르면, 주어진 생물학적 서열을 전단부화 후단부로 구분하고 상기 전단부로부터 후보 전위부들을 설정하고 상기 후보 전위부들에 매칭되는 매칭 후보 전위부들을 탐색하는 매칭 후보 전위부 탐색부; 상기 후단부로부터 후보 후위부들을 설정하고 상기 후보 후위부들에 매칭되는 매칭 후보 후위부들을 탐색하는 매칭 후보 후위부 탐색부; 및 상기 탐색된 매칭 후보 전위부들 및 매칭 후보 후위부들 중 서로 인접하는 매칭 후보 전위부-매칭 후보 후위부 패어가 존재하는지 여부를 판단하고 인접하는 매칭 후보 전위부-매칭 후보 후위부 패어가 존재할 경우 해당 패어에서 매칭 후보 후위부가 선행하여 위치할 경우 유사 매듭 구조로 판단하는 유사매듭 판단부를 포함하는 유사매듭 구조 판단 장치가 제공된다.
상기 매칭 후보 전위부 탐색부는, 상기 매칭 후보 전위부들을 탐색하기 위한 오토 마타를 생성하는 오타마타 생성부; 및 상기 생성된 오토마타를 이용하여 상기 후보 전위부들에 매칭되는 매칭 후보 전위부들이 존재하는지 여부 및 매칭 후보 전위부들의 위치를 탐색하는 탐색부를 포함한다.
상기 매칭 후보 후위부 탐색부는, 상기 매칭 후보 후위부들을 탐색하기 위한 오토마타를 생성하는 오토마타 생성부; 및 상기 생성된 오토마타를 이용하여 상기 후보 전위부들에 매칭되는 매칭 후보 후위부들이 존재하는지 여부 및 매칭 후보 후위부들의 위치를 탐색하는 탐색부를 포함한다.
상기 매칭 후보 전위부 탐색부 및 상기 매칭 후보 후위부 탐색부에서 생성하는 오토마타는 특정 문자가 입력될 경우 상태를 이동하도록 설정된 goto 함수 및 특정 문자 입력에 실패할 경우 특정 상태로 이동하도록 설정된 failure 함수를 포함한다.
상기 매칭 후보 후위부 탐색부는 상기 후단부의 서열을 반전 시키고 상보적으로 변환한 후 후보 후위부들을 설정한다.
상기 생성된 오토마타로는 상기 주어진 생물학적 서열을 반전시키고 상보적으로 변환한 서열이 입력된다.
상기 매칭 후보 후위부 탐색부에서 생성되는 오토마타로는 상기 주어진 서열이 입력된다.
본 발명의 다른 측면에 따르면, 주어진 생물학적 서열을 전단부화 후단부로 구분하고 상기 전단부로부터 후보 전위부들을 설정하고 상기 후보 전위부들에 매칭되는 매칭 후보 전위부들을 탐색하는 단계(a); 상기 후단부로부터 후보 후위부들을 설정하고 상기 후보 후위부들에 매칭되는 매칭 후보 후위부들을 탐색하는 단계(b); 및 상기 탐색된 매칭 후보 전위부들 및 매칭 후보 후위부들 중 서로 인접하는 매칭 후보 전위부-매칭 후보 후위부 패어가 존재하는지 여부를 판단하고 인접하는 매칭 후보 전위부-매칭 후보 후위부 패어가 존재할 경우 해당 패어에서 매칭 후보 후위부가 선행하여 위치할 경우 유사 매듭 구조로 판단하는 단계(c)를 포함하는 유사매듭 구조 판단 방법이 제공된다.
본 발명에 의하면, 비교적 간단한 연산으로 주어진 생물학적 서열이 유사매듭 구조인지 여부를 판단할 수 있는 장점이 있다.
도 1은 유사매듭 구조의 일례를 도시한 도면.
도 2는 본 발명의 일 실시예에 따른 유사매듭 구조 판단 장치의 구조를 도시한 블록도.
도 3은 본 발명의 일 실시예에 따른 매칭 후보 전위부 탐색부(200)의 구조를 도시한 블록도.
도 4는 본 발명의 일 실시예에 따른 매칭 후보 후위부 탐색부의 구조를 도시한 블록도.
도 5는 후보 전위부가 "U", "UC", "UCA", "UCAC", "UCACU" 및 "UCACUG"일 경우 매칭 후보 전위부 탐색을 위한 오토마타를 도시한 도면.
도 6은 본 발명의 일 실시예에 따른 매칭 후보 전위부 탐색부에서 오토마타를 이용하여 매칭 후보 전위부를 탐색하는 동작의 일부를 도시한 도면.
도 7은 도 6으로부터 후속하는 매칭 후보 전위부를 탐색하는 동작을 도시한 도면.
도 8은 도 7로부터 후속하는 매칭 후보 전위부를 탐색하는 동작을 도시한 도면.
도 9는 도 6 내지 도 8의 탐색에 의해 탐색된 매칭 후보 전위부를 도시한 도면.
도 10은 후보 후위부가 "U", "UG", "UGA", "UGAA", "UCAAA" 및 "UCAAAU"일 경우 매칭 후보 후위부 탐색을 위한 오토마타를 도시한 도면.
도 11은 본 발명의 일 실시예에 따른 매칭 후보 후위부 탐색부에서 오타마타를 이용하여 매칭 후보 후위부를 탐색하는 동작의 일부를 도시한 도면.
도 12는 도 11로부터 후속하는 매칭 후보 후위부 탐색부의 동작을 도시한 도면.
도 13은 도 12로부터 후속하는 매칭 후보 후위부 탐색부의 동작을 도시한 도면.
도 14는 도 11 내지 도 13의 탐색에 의해 탐색된 매칭 후보 후위부를 도시한 도면.
도 15는 도 5 내지 도 14에 도시된 단백질 서열에 대해 유사매듭 구조인지 여부를 판단하는 방법을 설명하기 위한 도면.
도 16은 본 발명의 일 실시예에 다른 유사매듭 구조 판단 방법의 전체적인 흐름을 도시한 순서도.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
이하에서, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 유사매듭 구조의 일례를 도시한 도면이다.
도 1을 참조하면, 유사매듭 구조는 전위부, 전위부에 매칭되는 매칭 전위부, 후위부 및 후위부에 매칭되는 매칭 후위부를 포함한다. 유사매듭 구조에서 전위부는 매칭 전위부에 상보적으로 결합되고, 후위부는 매칭 후위부에 상보적으로 결합된다.
또한, 매칭 후위부는 매칭 전위부에 비해 전단에 위치하며, 매칭 전위부와 매칭 후위부는 서로 인접하여 위치한다.
도 1과 같은 구조를 가지는 유사매듭 구조는 결국 매칭되는 패어를 찾는 문제로 귀결될 수 있다. 그런데, 매칭되는 패어를 일일이 탐색하기 위해 기존에는 다이나믹 알고리즘이 주로 이용되었으며, 주어진 생물학적 서열의 길이가 n일 경우 매칭 패어의 탐색 시간은 n2이 소요되어 서열이 길어질수록 탐색 시간이 기아급수적으로 증가하는 문제점이 있었다.
도 2는 본 발명의 일 실시예에 따른 유사매듭 구조 판단 장치의 구조를 도시한 블록도이다.
도 2를 참조하면, 본 발명의 일 실시예에 다른 유사매듭 구조 판단 장치는 매칭 후보 전위부 탐색부(200), 매칭 후보 후위부 탐색부(210) 및 유사매듭 판단부(220)를 포함한다.
본 발명은 다수의 후보 전위부 및 다수의 후보 후위부를 설정한 후 후보 전위부에 매칭되는 매칭 후보 전위부 및 후보 후위부에 매칭되는 매칭 후보 후위부를 탐색하고 탐색된 매칭 후보 전위부 및 매칭 후보 후위부의 배치 상태에 기초하여 유사매듭 구조인지 여부를 판단한다.
본 발명은 매칭 후보 전위부 및 매칭 후보 후위부의 탐색을 위해 오토마타를 생성하며, 생성된 오토마타를 이용하여 탐색을 수행한다.
본 실시예에서는 단백질 서열이 "UCACUGGAUUUCA"인 경우를 예로 하여 유사매듭 구조 판단 장치 및 방법을 설명하기로 한다. 단백질 서열에서 A와 U는 상보적으로 결합하고 C와 G가 상보적으로 결합한다.
매칭 후보 전위부 탐색부(200)는 주어진 생물학적 서열로부터 다수의 후보 전위부를 설정하고 후보 전위부에 매칭되는 매칭 전위부를 탐색하는 기능을 한다.
도 3은 본 발명의 일 실시예에 따른 매칭 후보 전위부 탐색부(200)의 구조를 도시한 블록도로서, 도 3을 참조하여 매칭 후보 전위부 탐색부(200)의 구체적인 구성을 설명한다.
도 3을 참조하면, 본 발명의 일 실시예에 따른 매칭 후보 전위부 탐색부(200)는 후보 전위부 설정부(300), 오토마타 생성부(310) 및 탐색부(320)를 포함한다.
후보 전위부 설정부(300)는 주어진 생물학적 서열로부터 가능한 전위부 후보들을 설정하는 기능을 한다. 본 발명의 일 실시예에 따르면, 후보 전위부 설정부(300)는 주어진 생물학적 서열을 반으로 나누어 전단부와 후단부로 구분하고 전단부의 서열을 이용하여 후보 전위부를 설정한다.
주어진 서열이 "UCACUGGAUUUCA"인 경우, 후보 전위부 설정부(300)는 "U", "UC", "UCA", "UCAC", "UCACU" 및 "UCACUG"를 후보 전위부로 설정할 수 있다. 전체 서열의 길이가 N일 경우 후보 전위부의 개수는
Figure 112016007035512-pat00001
으로 표현될 수 있을 것이다.
오토마타 생성부(310)는 설정된 다수의 후보 전위부들에 매칭되는 매칭 후보 전위부를 탐색하기 위한 오토마타를 생성하는 기능을 한다. 오토마타는 유한한 상태를 가지고 입력을 받아 입력에 따라 일정하게 상태를 전이하여 출력을 내놓는 알고리즘을 의미한다. 오토마타는 컴퓨터 과학 분야에서 널리 알려진 기술이므로 이에 대한 상세한 설명은 생략하기로 한다. 오토마타 생성부(310)는 후보 전위부들에 기초하여 오토마타를 생성한다.
후보 전위부들 중 가장 긴 서열을 가진 후보 전위부는 다른 후보 전위부를 포함하는 형태를 가지고 있으며, 오토마타 생성부(310)는 가장 긴 후보 전위부를 이용하여 탐색을 위한 오토마타를 생성한다.
본 발명의 일 실시예에 따르면, 본 발명의 일 실시예에 따라 생성되는 오토마타는 특정 문자를 입력받을 경우 다른 상태로 이동하도록 지시하는 goto 함수와 특정 문자열의 입력에 실패할 경우 특정 상태로 이동하도록 지시하는 failure 함수를 포함한다.
도 5는 후보 전위부가 "U", "UC", "UCA", "UCAC", "UCACU" 및 "UCACUG"일 경우 매칭 후보 전위부 탐색을 위한 오토마타를 도시한 도면이다.
도 5에서 (a)는 goto 함수를 도시한 도면이며, (b)는 failure 함수를 도시한 도면이다.
도 5의 (a)에서 번호는 상태를 의미하며, 문자는 입력받는 문자를 의미한다. 도 5의 (a)를 참조하면, U, C, A, C, U, G를 읽을 경우 다음 상태로 이동하도록 설정된 goto 함수가 도시되어 있다. 이와 같은 goto 함수는 가장 긴 후보 전위부에 기초한다는 점을 확인할 수 있다.
도 5의 (b)를 참조하면 각 상태에서 원하는 문자열이 입력되지 않을 경우 이동하는 상태 정보가 표시되어 있다. failure 함수는 표의 형태로 표시되어 있으며, 대부분의 경우 최초 상태인 0으로 이동한다. 상태 5의 경우 0이 아닌 1의 상태로 이동하는 것은 불필요하게 처음 상태에서 시작하는 것을 방지하기 위한 것이다.
탐색부(320)는 후보 전위부에 매칭되는 매칭 후보 전이부가 주어진 서열에 존재하는지 여부를 탐색한다. 매칭 전위부는 상보적 형태를 가지기에 매칭 후보 전위부 탐색부(320)는 주어진 서열을 반전시키고 상보적으로 변환한 후 이를 생성된 오토마타에 입력하여 후보 전위부에 매칭되는 매칭 후보 전위부가 존재하는지 여부를 탐색한다.
위의 예와 같이, 주어진 서열이 "UCACUGGAUUUCA"일 경우 반전된 서열은 “ACUUUAGGUCACU”이고, 상보적으로 변환된 서열은 “UGAAAUCCAGUGA”이다.
탐색부(320)는 후보 전위부인 "U", "UC", "UCA", "UCAC", "UCACU" 및 "UCACUG"가 반전 및 상보적으로 변환된 서열인 “UGAAAUCCAGUGA”에 존재하는지 여부 및 존재할 경우 그 위치를 탐색하는 것이다.
매칭되는 후보 전위부가 존재하는지 여부 및 매칭되는 후보 전위부의 위치는 오토마타 생성부(310)에서 생성된 오토마타를 이용하여 탐색된다.
도 6은 본 발명의 일 실시예에 따른 탐색부에서 오토마타를 이용하여 매칭 후보 전위부를 탐색하는 동작의 일부를 도시한 도면이다.
도 6을 참조하면, 반전 및 상보적 변환이 이루어진 “UGAAAUCCAGUGA”를 순차적으로 오토마타에 입력하여 매칭 후보 전위부를 탐색한다.
먼저, U가 입력되며, U는 상태 0을 만족하기에 상태 1로 이동한다. 상태 1에서, 다음 문자인 G를 읽어들이며 이는 상태 1을 만족시키기 위한 C가 아니기 때문에 failure 함수에 의해 다시 상태 0로 이동하게 된다.
첫 번째 문자인 U가 첫 번째 상태를 만족하므로 U는 매칭 후보 전위부 중 하나로 기록된다.
세 번째 문자인 A가 입력되며, 세 번째 문자인 A는 첫 번째 조건인 U를 만족하지 못하므로 다시 상태 0로 이동하게 되며, 이는 네 번째 문자인 A와 다섯 번째 문자인 A에 대해서도 동일하다.
도 7은 도 6으로부터 후속하는 매칭 후보 전위부를 탐색하는 동작을 도시한 도면이다.
도 7을 참조하면, 6번째 문자인 U는 상태 0를 만족하기 때문에 U를 읽고 상태 1로 이동하게 된다. 상태 1로 이동한 후 7번째 문자인 C를 읽어들이며 C는 상태 1의 조건을 만족하는 문자이기에 C를 읽은 후 상태 2로 이동하게 된다.
상태 2로 이동한 후 8번째 문자인 C를 읽어들인다. 상태 2는 A가 입력될 경우 다음 상태로 이동하는 것이기에 상태 2에서 C를 읽어들이게 될 경우 failure 함수에 의해 상태 0로 이동한다.
6번째 문자인 “U”와 6번째와 7번째 문자인 “UC”는 오토마타의 상태 조건을 만족하기에 “U” 및 “UC”가 각각 매칭 후보 전위부로 기록된다.
9번째 문자인 A와 10번째 문자인 G는 모두 상태 0를 만족하는 문자 U가 아니기에 계속 0 상태에 머물게 된다.
도 8은 도 7로부터 후속하는 매칭 후보 전위부를 탐색하는 동작을 도시한 도면이다.
도 8을 참조하면, 11번째 문자인 U가 입력될 경우 상태 1로 이동한다. U를 읽은 후 G를 읽어들이며 이는 상태 1을 만족하는 C가 아니기에 failure 함수에 의해 상태 0으로 이동하게 된다.
13번째 문자인 A를 읽어들이며, 이는 상태 0을 만족하는 U가 아니기에 계속 상태 0에 머물게 된다.
도 9는 도 6 내지 도 8의 탐색에 의해 탐색된 매칭 후보 전위부를 도시한 도면이다. 도 9의 (a)는 반전 및 상보적 변환이 이루어진 문자열에서 매칭 후보 전위부를 도시한 도면이며, 도 9의 (b)는 원 상태로 복귀시킨 문자열에서 매칭 후보 전위부를 도시한 도면이다.
도 9의 (b)를 참조하면, 3번째 문자 “A”, 8번째 문자인 “A”와 7번째 및 8번째 문자인 “GA” 및 13번째 문자인 “A”가 최종적인 매칭 후보 전위부로 탐색된다.
도 4는 본 발명의 일 실시예에 따른 매칭 후보 후위부 탐색부의 구조를 도시한 블록도로서, 도 4를 참조하여 매칭 후보 후위부 탐색부의 구체적인 구성을 설명한다.
도 4를 참조하면, 본 발명의 일 실시예에 따른 매칭 후보 후위부 탐색부는 후보 후위부 설정부(400), 오토마타 생성부(410) 및 탐색부(420)를 포함한다.
후보 후위부 설정부(400)는 주어진 생물학적 서열로부터 가능한 후위부 후보들을 설정하는 기능을 한다. 본 발명의 일 실시예에 따르면, 후보 후위부 설정부(400)는 주어진 생물학적 서열을 반으로 나누어 전단부와 후단부로 구분하고 후단부의 서열을 반전 시키고 상보적으로 변환한 후 후보 후위부를 설정한다.
주어진 예에서 반으로 구분된 후단부는 “ACUUUA”이고 이를 반전시키면 “AUUUCA”이며, 이에 대한 상보적 변환을 수행하면 “UGAAAU”이다.
후보 후위부 설정부(400)는 "U", "UG", "UGA", "UGAA", "UCAAA" 및 "UCAAAU"를 후보 후위부로 설정할 수 있다. 후보 후위부의 개수 역시
Figure 112016007035512-pat00002
으로 표현될 수 있을 것이다.
오토마타 생성부(410)는 설정된 다수의 후보 후위부들에 매칭되는 매칭 후보 후위부를 탐색하기 위한 오토마타를 생성하는 기능을 한다. 오토마타 생성부(310)는 후보 후위부들에 기초하여 오토마타를 생성하며, 후보 후위부들 중 가장 긴 서열을 가진 후보 전위부를 이용하여 탐색을 위한 오토마타를 생성한다.
후보 매칭 후위부를 탐색하기 위한 오토마타의 역시 특정 문자를 입력받을 경우 다른 상태로 이동하도록 지시하는 goto 함수와 특정 문자열의 입력에 실패할 경우 특정 상태로 이동하도록 지시하는 failure 함수를 포함한다.
도 10은 후보 후위부가 "U", "UG", "UGA", "UGAA", "UCAAA" 및 "UCAAAU"일 경우 매칭 후보 후위부 탐색을 위한 오토마타를 도시한 도면이다.
도 10에서 (a)는 goto 함수를 도시한 도면이며, (b)는 failure 함수를 도시한 도면이다.
도 10의 (a)를 참조하면, U, G, A, A, A, U를 읽을 경우 다음 상태로 이동하도록 설정된 goto 함수가 도시되어 있다. 이와 같은 goto 함수는 가장 긴 후보 후위부에 기초한다는 점을 확인할 수 있다.
도 10의 (b)를 참조하면 각 상태에서 원하는 문자열이 입력되지 않을 경우 이동하는 상태 정보가 표시되어 있다. failure 함수는 표의 형태로 표시되어 있으며, 대부분의 경우 최초 상태인 0으로 이동한다. 상태 6의 경우 0이 아닌 1의 상태로 이동하도록 설정되어 있다.
탐색부(420)는 후보 후위부에 매칭되는 매칭 후보 후위부가 주어진 서열에 존재하는지 여부를 탐색한다.
탐색부(420)는 후보 후위부가 주어진 서열에에 존재하는지 여부 및 존재할 경우 그 위치를 탐색하는 것이다.
매칭되는 후보 후위부가 존재하는지 여부 및 매칭되는 후보 후위부의 위치는 오토마타 생성부(410)에서 생성된 오토마타를 이용하여 탐색된다.
도 11은 본 발명의 일 실시예에 따른 매칭 후보 후위부 탐색부에서 오타마타를 이용하여 매칭 후보 후위부를 탐색하는 동작의 일부를 도시한 도면이다.
도 11을 참조하면, 주어진 서열인 “UCACUGGAUUUCA”를 오토마타에 입력하여 매칭 후보 후위부를 탐색한다.
먼저, U가 입력되며, U는 상태 0을 만족하기에 상태 1로 이동한다. 상태 1에서, 다음 문자인 C를 읽어들이며 이는 상태 1을 만족시키기 위한 G가 아니기 때문에 failure 함수에 의해 다시 상태 0로 이동하게 된다.
첫 번째 문자인 U가 첫 번째 상태를 만족하므로 U는 매칭 후보 후위부 중 하나로 기록된다.
세 번째 문자인 A가 입력되며, 세 번째 문자인 A는 첫 번째 조건인 U를 만족하지 못하므로 다시 상태 0로 이동하게 되며, 이는 네 번째 문자인 C에 대해서도 동일하다.
도 12는 도 11로부터 후속하는 매칭 후보 후위부 탐색부의 동작을 도시한 도면이다.
도 12를 참조하면, 5번째 문자인 U는 상태 0를 만족하기에 상태 1로 이동하며, 6번째 문자인 G는 상태 1을 만족하기에 상태 2로 이동하게 된다. 7번째 문자인 G는 상태 2를 만족하는 A가 아니기에 failure 함수에 의해 상태 0로 이동하게 된다. 이때, 상태를 만족하는 “U”와 “UG”는 매칭 후보 후위부로 기록된다.
도 13은 도 12로부터 후속하는 매칭 후보 후위부 탐색부의 동작을 도시한 도면이다.
도 13을 참조하면, 8번째 문자인 A는 U가 아니므로 다시 상태 0로 이동한다. 9번째 문자인 U를 읽어들인 후 상태 1로 이동한다. 상태 1에서 10번째 문자인 U는 상태 1을 만족하는 G가 아니므로 다시 상태 0으로 돌아가며, 상태 0을 만족하기에 다시 상태 1로 천이된다. 11번째 문자 U는 상태 1을 만족하지 않기에 다시 상태 0로 돌아가게 되며 이는 상태 0를 만족하기에 다시 상태 1로 천이되며, 12번째 문자인 C를 읽어드리면 상태 1을 만족하지 않기에 다시 상태 0로 천이된다.
9번째, 10번째 및 11번째 문자 U 각각은 매칭 후보 후위부로 기록된다. 13번째 문자인 A는 상태 0을 만족하지 않기에 계속 상태 0에 머물게 되며 탐색 작업은 종료한다.
도 14는 도 11 내지 도 13의 탐색에 의해 탐색된 매칭 후보 후위부를 도시한 도면이다.
도 14를 참조하면, 첫 번째 문자 “U”, 2번째 문자 “U”, 2번째와 3번째 문자 “UG”, 9번째 문자 “U”, 10번째 문자 “U” 및 11번째 문자 “U”가 매칭 후보 후위부로 선정된다.
다시 도 2를 참조하면, 유사매듭 판단부(220)는 탐색된 매칭 후보 전위부 및 매칭 후보 후위부의 위치에 기초하여 생물학적 서열이 유사매듭 구조인지 여부를 판단한다. 매칭 후보 전위부 및 매칭 후보 후위부 중 적어도 하나의 서로 인접하는 매칭 후보 전위부 및 매칭 후보 후위부 패어가 존재하고 해당 패어에서 매칭 후보 후위부가 매칭 후보 전위부에 비해 선행하여 위치할 경우 유사매듭 판단부는 해당 생물학적 서열이 유사매듭 구조라고 판단한다.
도 15는 도 5 내지 도 14에 도시된 단백질 서열에 대해 유사매듭 구조인지 여부를 판단하는 방법을 설명하기 위한 도면이다.
도 15를 참조하면, 5번째와 6번째 매칭 후보 후위부(
Figure 112016007035512-pat00003
candidate)인 “UG”와 9번째와 7번째와 8번째 매칭 후보 전위부(
Figure 112016007035512-pat00004
candidates)가 서로 인접하며 매칭 후보 후위부가 매칭 후보 전위부보다 선행하여 위치하는 것을 확인할 수 있다. 따라서, 주어진 예의 단백질 서열은 유사매듭 구조에 해당된다.
도 16은 본 발명의 일 실시예에 다른 유사매듭 구조 판단 방법의 전체적인 흐름을 도시한 순서도이다.
도 16을 참조하면, 우선 주어진 생물학적 서열로부터 후보 전위부를 설정한다(단계 1600). 후보 전위부는 생물학적 서열을 반으로 나눈 후 전단부의 서열로부터 설정한다.
후보 전위부를 설정하면 매칭 후보 전위부를 탐색하기 위한 오토마타를 생성하고, 생성된 오토 마타를 이용하여 후보 전위부에 매칭되는 매칭 후보 전위부를 탐색한다(단계 1602). 오타마타로는 주어진 서열을 반전시키고 상보적으로 변환한 서열이 입력된다.
매칭 후보 전위부가 탐색되면, 후보 후위부를 설정한다(단계 1604). 후보 후위부는 주어진 생물학적 서열을 반으로 나눈 후 후단부의 설열을 이용하여 설정할 수 있다. 이때, 주어진 서열을 반전시키고 상보적으로 변환한 후 후보 후위부를 설정한다.
후보 후위부를 설정하면, 매칭 후보 후위부를 탐색하기 위한 오토마타를 생성하고, 생성된 오토 마타를 이용하여 후보 후위부에 매칭되는 매칭 후보 후위부를 탐색한다(단계 1606). 오토마타로는 주어진 서열이 입력된다.
매칭 후보 후위부 및 매칭 후보 전위부가 탐색되면, 유사매듭 구조인지 여부를 판단한다(단계 1608). 앞서 설명한 바와 같이, 매칭 후보 전위부 및 매칭 후보 후위부 중 적어도 하나의 서로 인접하는 매칭 후보 전위부 및 매칭 후보 후위부 패어가 존재하고 해당 패어에서 매칭 후보 후위부가 매칭 후보 전위부에 비해 선행하여 위치할 경우 유사매듭 구조로 판단한다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims (14)

  1. 주어진 생물학적 서열을 반으로 나누어 전단부와 후단부로 구분하고 상기 전단부로부터 후보 전위부들을 설정하고 상기 후보 전위부들에 매칭되는 매칭 후보 전위부들을 탐색하는 매칭 후보 전위부 탐색부;
    상기 후단부로부터 후보 후위부들을 설정하고 상기 후보 후위부들에 매칭되는 매칭 후보 후위부들을 탐색하는 매칭 후보 후위부 탐색부; 및
    상기 탐색된 매칭 후보 전위부들 및 매칭 후보 후위부들 중 서로 인접하는 매칭 후보 전위부-매칭 후보 후위부 패어가 존재하는지 여부를 판단하고 인접하는 매칭 후보 전위부-매칭 후보 후위부 패어가 존재할 경우 해당 패어에서 매칭 후보 후위부가 선행하여 위치할 경우 유사 매듭 구조로 판단하는 유사매듭 판단부를 포함하되,
    상기 매칭 후보 전위부 탐색부 및 상기 매칭 후보 후위부 탐색부는 오토마타를 이용하여 매칭 후보 전위부 및 매칭 후보 후위부를 탐색하는 것을 특징으로 하는 유사매듭 구조 판단 장치.
  2. 제1항에 있어서,
    상기 매칭 후보 전위부 탐색부는,
    상기 매칭 후보 전위부들을 탐색하기 위한 오토 마타를 생성하는 오타마타 생성부; 및
    상기 생성된 오토마타를 이용하여 상기 후보 전위부들에 매칭되는 매칭 후보 전위부들이 존재하는지 여부 및 매칭 후보 전위부들의 위치를 탐색하는 탐색부를 포함하는 것을 특징으로 하는 유사매듭 구조 판단 장치.
  3. 제2항에 있어서,
    상기 매칭 후보 후위부 탐색부는,
    상기 매칭 후보 후위부들을 탐색하기 위한 오토마타를 생성하는 오토마타 생성부; 및
    상기 생성된 오토마타를 이용하여 상기 후보 전위부들에 매칭되는 매칭 후보 후위부들이 존재하는지 여부 및 매칭 후보 후위부들의 위치를 탐색하는 탐색부를 포함하는 것을 특징으로 하는 유사매듭 구조 판단 장치.
  4. 제3항에 있어서,
    상기 매칭 후보 전위부 탐색부 및 상기 매칭 후보 후위부 탐색부에서 생성하는 오토마타는 특정 문자가 입력될 경우 상태를 이동하도록 설정된 goto 함수 및 특정 문자 입력에 실패할 경우 특정 상태로 이동하도록 설정된 failure 함수를 포함하는 것을 특징으로 하는 유사매듭 구조 판단 장치.
  5. 제3항에 있어서,
    상기 매칭 후보 후위부 탐색부는 상기 후단부의 서열을 반전 시키고 상보적으로 변환한 후 후보 후위부들을 설정하는 것을 특징으로 하는 유사매듭 구조 판단 장치.
  6. 제2항에 있어서,
    상기 생성된 오토마타로는 상기 주어진 생물학적 서열을 반전시키고 상보적으로 변환한 서열이 입력되는 것을 특징으로 하는 유사매듭 구조 판단 장치.
  7. 제3항에 있어서,
    상기 매칭 후보 후위부 탐색부에서 생성되는 오토마타로는 상기 주어진 서열이 입력되는 것을 특징으로 하는 유사매듭 구조 판단 장치.
  8. 주어진 생물학적 서열을 반으로 나누어 전단부와 후단부로 구분하고 상기 전단부로부터 후보 전위부들을 설정하고 상기 후보 전위부들에 매칭되는 매칭 후보 전위부들을 탐색하는 단계(a);
    상기 후단부로부터 후보 후위부들을 설정하고 상기 후보 후위부들에 매칭되는 매칭 후보 후위부들을 탐색하는 단계(b); 및
    상기 탐색된 매칭 후보 전위부들 및 매칭 후보 후위부들 중 서로 인접하는 매칭 후보 전위부-매칭 후보 후위부 패어가 존재하는지 여부를 판단하고 인접하는 매칭 후보 전위부-매칭 후보 후위부 패어가 존재할 경우 해당 패어에서 매칭 후보 후위부가 선행하여 위치할 경우 유사 매듭 구조로 판단하는 단계(c)를 포함하되,
    상기 단계 (a) 및 상기 단계 (b)는 오토마타를 이용하여 매칭 후보 전위부 및 매칭 후보 후위부를 탐색하는 것을 특징으로 하는 유사매듭 구조 판단 방법.
  9. 제8항에 있어서,
    상기 단계(a)는,
    상기 매칭 후보 전위부들을 탐색하기 위한 오토 마타를 생성하는 단계; 및
    상기 생성된 오토마타를 이용하여 상기 후보 전위부들에 매칭되는 매칭 후보 전위부들이 존재하는지 여부 및 매칭 후보 전위부들의 위치를 탐색하는 단계를 포함하는 것을 특징으로 하는 유사매듭 구조 판단 방법.
  10. 제9항에 있어서,
    상기 단계(b)는,
    상기 매칭 후보 후위부들을 탐색하기 위한 오토마타를 생성하는 단계; 및
    상기 생성된 오토마타를 이용하여 상기 후보 전위부들에 매칭되는 매칭 후보 후위부들이 존재하는지 여부 및 매칭 후보 후위부들의 위치를 탐색하는 단계를 포함하는 것을 특징으로 하는 유사매듭 구조 판단 방법.
  11. 제10항에 있어서,
    상기 단계(a) 및 상기 단계(b)에서 생성하는 오토마타는 특정 문자가 입력될 경우 상태를 이동하도록 설정된 goto 함수 및 특정 문자 입력에 실패할 경우 특정 상태로 이동하도록 설정된 failure 함수를 포함하는 것을 특징으로 하는 유사매듭 구조 판단 방법.
  12. 제10항에 있어서,
    상기 단계(b)는 상기 후단부의 서열을 반전 시키고 상보적으로 변환한 후 후보 후위부들을 설정하는 것을 특징으로 하는 유사매듭 구조 판단 방법.
  13. 제9항에 있어서,
    상기 생성된 오토마타로는 상기 주어진 생물학적 서열을 반전시키고 상보적으로 변환한 서열이 입력되는 것을 특징으로 하는 유사매듭 구조 판단 방법.
  14. 제10항에 있어서,
    상기 단계(b)에서 생성되는 오토마타로는 상기 주어진 서열이 입력되는 것을 특징으로 하는 유사매듭 구조 판단 방법.


KR1020160007615A 2016-01-21 2016-01-21 생물학적 서열의 유사매듭 구조 판단 장치 및 방법 KR101804655B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160007615A KR101804655B1 (ko) 2016-01-21 2016-01-21 생물학적 서열의 유사매듭 구조 판단 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160007615A KR101804655B1 (ko) 2016-01-21 2016-01-21 생물학적 서열의 유사매듭 구조 판단 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20170087707A KR20170087707A (ko) 2017-07-31
KR101804655B1 true KR101804655B1 (ko) 2018-01-10

Family

ID=59419184

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160007615A KR101804655B1 (ko) 2016-01-21 2016-01-21 생물학적 서열의 유사매듭 구조 판단 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101804655B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102138966B1 (ko) * 2018-02-08 2020-07-28 연세대학교 산학협력단 유사매듭구조 탐색 장치 및 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100735131B1 (ko) 2000-08-23 2007-07-03 다카라 바이오 가부시키가이샤 핵산 증폭 방법
KR101196145B1 (ko) 2012-02-21 2012-10-30 인하대학교 산학협력단 Cuda를 이용한 최장공통비상위문자열 그래프 모델의 병렬 생성 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100735131B1 (ko) 2000-08-23 2007-07-03 다카라 바이오 가부시키가이샤 핵산 증폭 방법
KR101196145B1 (ko) 2012-02-21 2012-10-30 인하대학교 산학협력단 Cuda를 이용한 최장공통비상위문자열 그래프 모델의 병렬 생성 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIWAN 등, ‘A Review on RNA pseudoknot structure prediction techniques’, 2012 International Conference on Computing, Electronics and Electrical Technologies [ICCEET], pp.975-978 (2012)*
박준형 등, ‘단백질 서열과 텍스트 정보 기반 오토마타 종 분류기’, 2007 한국컴퓨터종합학술대회 논문집, Vol.34, No.1(B), pp.9-14 (2007)*

Also Published As

Publication number Publication date
KR20170087707A (ko) 2017-07-31

Similar Documents

Publication Publication Date Title
KR101068678B1 (ko) 스트링들을 검색하기 위한 방법 및 배열
JP2929963B2 (ja) 文書検索装置および単語索引作成方法および文書検索方法
JP5032602B2 (ja) 認識装置
US8134483B2 (en) Data processing apparatus and method
CN105959013A (zh) 利用预先霍夫曼编码决定对匹配字符串或反向指针执行霍夫曼编码程序的硬件数据压缩器
CN106599097B (zh) 海量特征串集合的匹配方法和装置
JP2016134037A (ja) 意味構造検索プログラム、意味構造検索装置、及び意味構造検索方法
CN106027063A (zh) 基于节点字符串匹配机率对散列链进行分类的硬件数据压缩器
KR101804655B1 (ko) 생물학적 서열의 유사매듭 구조 판단 장치 및 방법
JPWO2007116787A1 (ja) Rnaの二次構造予測方法、予測装置及び予測プログラム
KR101790791B1 (ko) 파일 리스트를 추출하여 클라이언트에 표시하는 파일 서버, 클라이언트에 표시하는 방법 및 파일 서버에서 실행가능한 컴퓨터 프로그램
Chang et al. Exploring Sequence Alignment Algorithms on FPGA-based Heterogeneous Architectures.
US20220068435A1 (en) Evaluation method, storage medium, and evaluation device
JP6363581B2 (ja) 入力ブロックのスキャンと同時にソート済みシンボル・リストを維持するハードウェア・データ圧縮器
JP5736589B2 (ja) 数列データ検索装置、数列データ検索方法及びプログラム
KR102138966B1 (ko) 유사매듭구조 탐색 장치 및 방법
CN106022000A (zh) 一种基于压缩和聚类的批量蛋白质同源性搜索方法
JP2008243074A (ja) 文書検索装置、方法及びプログラム
KR20190139227A (ko) K-부정합 검색을 위한 필터를 생성하는 시스템 및 방법
JP2012128672A (ja) 相同性検索装置及びプログラム
JP2014074959A (ja) 近傍探索処理装置及び方法及びプログラム
JP2007179505A (ja) 検索装置、検索システム、検索方法、検索プログラムおよび記録媒体
KR101856293B1 (ko) 회문 정보를 이용하는 패턴 매칭 방법 및 장치
JP5582358B2 (ja) 文書検索システム、文書検索方法、及びプログラム
JP5032557B2 (ja) パターン認識装置およびパターン認識方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right