KR100538451B1 - 분산 컴퓨팅 환경에서의 유전자 및 단백질 유사서열 검색시스템 및 그 방법 - Google Patents

분산 컴퓨팅 환경에서의 유전자 및 단백질 유사서열 검색시스템 및 그 방법 Download PDF

Info

Publication number
KR100538451B1
KR100538451B1 KR10-2004-0010964A KR20040010964A KR100538451B1 KR 100538451 B1 KR100538451 B1 KR 100538451B1 KR 20040010964 A KR20040010964 A KR 20040010964A KR 100538451 B1 KR100538451 B1 KR 100538451B1
Authority
KR
South Korea
Prior art keywords
sequence
gene
database
protein sequence
score
Prior art date
Application number
KR10-2004-0010964A
Other languages
English (en)
Other versions
KR20040036691A (ko
Inventor
이관수
김병진
선충현
Original Assignee
학교법인 한국정보통신학원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 학교법인 한국정보통신학원 filed Critical 학교법인 한국정보통신학원
Publication of KR20040036691A publication Critical patent/KR20040036691A/ko
Application granted granted Critical
Publication of KR100538451B1 publication Critical patent/KR100538451B1/ko

Links

Classifications

    • EFIXED CONSTRUCTIONS
    • E02HYDRAULIC ENGINEERING; FOUNDATIONS; SOIL SHIFTING
    • E02FDREDGING; SOIL-SHIFTING
    • E02F3/00Dredgers; Soil-shifting machines
    • E02F3/04Dredgers; Soil-shifting machines mechanically-driven
    • E02F3/28Dredgers; Soil-shifting machines mechanically-driven with digging tools mounted on a dipper- or bucket-arm, i.e. there is either one arm or a pair of arms, e.g. dippers, buckets
    • E02F3/36Component parts
    • E02F3/40Dippers; Buckets ; Grab devices, e.g. manufacturing processes for buckets, form, geometry or material of buckets
    • E02F3/413Dippers; Buckets ; Grab devices, e.g. manufacturing processes for buckets, form, geometry or material of buckets with grabbing device
    • EFIXED CONSTRUCTIONS
    • E02HYDRAULIC ENGINEERING; FOUNDATIONS; SOIL SHIFTING
    • E02FDREDGING; SOIL-SHIFTING
    • E02F9/00Component parts of dredgers or soil-shifting machines, not restricted to one of the kinds covered by groups E02F3/00 - E02F7/00
    • E02F9/24Safety devices, e.g. for preventing overload
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60YINDEXING SCHEME RELATING TO ASPECTS CROSS-CUTTING VEHICLE TECHNOLOGY
    • B60Y2200/00Type of vehicle
    • B60Y2200/40Special vehicles
    • B60Y2200/41Construction vehicles, e.g. graders, excavators
    • B60Y2200/412Excavators
    • EFIXED CONSTRUCTIONS
    • E02HYDRAULIC ENGINEERING; FOUNDATIONS; SOIL SHIFTING
    • E02FDREDGING; SOIL-SHIFTING
    • E02F3/00Dredgers; Soil-shifting machines
    • E02F3/04Dredgers; Soil-shifting machines mechanically-driven
    • E02F3/28Dredgers; Soil-shifting machines mechanically-driven with digging tools mounted on a dipper- or bucket-arm, i.e. there is either one arm or a pair of arms, e.g. dippers, buckets
    • E02F3/36Component parts
    • E02F3/42Drives for dippers, buckets, dipper-arms or bucket-arms

Landscapes

  • Engineering & Computer Science (AREA)
  • Mining & Mineral Resources (AREA)
  • Civil Engineering (AREA)
  • General Engineering & Computer Science (AREA)
  • Structural Engineering (AREA)
  • Mechanical Engineering (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 분산 컴퓨팅 환경에서의 유전자 및 단백질 유사서열 검색 시스템에 관한 것이다. 본 발명에 따르면 최적의 서열 정렬과 유사도 계산이라는 장점을 가지고 있음에도 매우 긴 연산시간 때문에 단일 컴퓨터에서 거의 사용이 불가능한 다이내믹 알고리즘의 유전자 및 단백질 서열 검색을 분산 컴퓨팅 환경에서 구현함으로써 현실적으로 이용 가능하도록 한다. 이와 같이 하면, 고성능 컴퓨터를 구비하지 않더라도 다이내믹 알고리즘 기반의 유사서열 검색이 가능하다.

Description

분산 컴퓨팅 환경에서의 유전자 및 단백질 유사서열 검색 시스템 및 그 방법{HIGH PERFORMANCE SEQUENCE SEARCHING SYSTEM AND METHOD FOR DNA AND PROTEIN IN DISTRIBUTED COMPUTING ENVIRONMENT}
본 발명은 유전자와 단백질의 유사서열을 검색하는 시스템에 관한 것이다.
유사 서열을 검색하기 위해서는 서열 쌍의 유사도를 계산해야 하며, 먼저 두 서열을 정렬(alignment)할 필요가 있다. 종래의 서열 정렬 기법으로는 다이내믹 프로그래밍 알고리즘(Dynamic programming algorithm, 이하 다이내믹 알고리즘이라고 함)과 휴리스틱 알고리즘(Heuristic algorithm)이 있다.
다이내믹 알고리즘의 예로서 1970년 Needlman과 Wuncsh가 발표한 전역정렬기법(Global alignment)을 비롯하여, 1981년 Smith 와 Waterman의 지역정렬기법 (Local alignment) 및 이를 수정한 많은 유사 기법들이 있다.
다이내믹 알고리즘은 서열 정렬의 최적화 기법이며, 정렬될 수 있는 모든 경우를 다 조사하여 최적의 정렬을 찾는 알고리즘이다. Smith&Waterman의 다이내믹 알고리즘 이후, Gotho는 이를 수정하여 보다 처리 속도가 향상된 연산식을 제안하였다. 뿐만 아니라, 다이내믹 알고리즘을 구현할 때 메모리의 소비를 최적화하기 위해 1994년에는 Chao가 리니어 스페이스(Linear space) 알고리즘을 적용하기도 하였다.
다이내믹 알고리즘은 서열 정렬에 있어서 최적의 해를 도출하지만, 연산시간에 따른 서열 쌍의 길이에 대하여 제한을 받는다. 이는 정렬 및 유사도의 계산이 서열 길이의 제곱에 비례하기 때문이다. 만약 유사서열 검색을 위해 다이내믹 알고리즘을 이용한다면, 데이터베이스의 모든 서열과 유사도를 계산하는데 막대한 시간이 소요될 것이다. 그렇기 때문에 서열 검색을 위해서는 다이내믹 알고리즘이 아닌 휴리스틱 알고리즘이 이용된다.
휴리스틱 알고리즘으로는 1983년 Wilbur, Lipman 등이 개발한 FASTA와 1990년 이후 Altshul 외 다수가 개발한 BLAST가 대표적이다.
FASTA와 BLAST는 서열 정렬이 아닌 서열 검색의 목적으로 개발되었으며, 유사서열 검색의 가장 현실적인 방법으로 널리 사용되고 있다. 휴리스틱 알고리즘은 서열의 유사한 일부분을 찾아 이를 기점으로 서열 정렬을 완성해 나간다. 이러한 과정을 반복하고 통계적 기법을 적용하여 최적의 정렬이 될 가능성이 높은 정렬 쌍을 최적의 정렬 쌍으로 제시한다.
그러나 BLAST 또는 FASTA와 같은 휴리스틱 알고리즘은 다이내믹 알고리즘 보다 정확도가 떨어진다. 따라서, 연구 결과를 보다 정확하게 이끌어 내기 위해서는 서열 검색에 다이내믹 알고리즘을 적용할 필요가 있다. 그런데 다이내믹 알고리즘은 속도가 매우 느려서, 현재와 같은 대용량 서열 분석 작업에 사용하기 어렵다. 뿐만 아니라 이러한 요구를 만족시키기 위해서는 수퍼 컴퓨터가 필요하다.
본 발명이 이루고자 하는 기술적 과제는 분산 컴퓨팅 기법을 적용하여 다이내믹 알고리즘 기법을 서열 검색에 적용하는 시스템 및 방법을 제공하는 것이다.
또한, 본 발명이 이루고자 하는 기술적 과제는 다이내믹 알고리즘을 기반으로 하는 서열 검색과 그 결과에 대한 통계적 분석을 분산 컴퓨팅 그리드 환경에 적합하도록 병렬화하는 시스템 및 방법을 제공하는 것이다.
이러한 과제를 해결하기 위한 본 발명의 특징에 따른 유전자 및 단백질 서열 검색 시스템은 질의 서열을 제시하는 단말 제어 장치; 상기 단말 제어 장치에 접속되어 있으며, 다이내믹 프로그래밍 알고리즘을 이용하여 상기 질의 서열에 대한 유사 서열 검색을 수행하는 복수 개의 단말 장치; 및 다수의 유전자 및 단백질 서열 파일이 저장되어 있으며 상기 단말 장치에 의해 검색되도록 복수 개로 분할된 데이터베이스를 포함한다.
상기 단말장치는 상기 단말 제어 장치에 클러스터 또는 그리드 기반의 병렬 알고리즘에 의하여 접속되며,
상기 데이터베이스는 상기 단말 장치의 개수보다 많거나 같은 수의 데이터베이스 조각으로 분할된다.
또한, 상기 복수의 단말 장치는 각각 범위가 다른 데이터베이스 조각을 검색하며,
상기 복수의 단말 장치가 각각 동시에 유사 서열 검색을 시행한다.
본 발명의 특징에 따른 유전자 및 단백질 서열 검색 방법은 복수 개의 단말 장치와 복수 개의 데이터베이스 조각으로 분할된 데이터베이스를 포함하는 분산 컴퓨팅 환경에서 유전자 및 단백질 서열을 검색하는 방법으로서,
a) 다이내믹 프로그램 알고리즘을 통하여 질의 서열과 선택된 상기 데이터베이스 조각의 모든 서열을 검색하고 유사도를 계산하는 단계; b) 상기 계산된 유사도를 통하여 통계 분석 작업을 수행하는 단계; 및 c) 상기 통계 분석 작업 결과를 유사도가 높은 순서로 정렬하고, 상기 검색된 유사 서열의 리스트와 함께 정해진 디렉토리에 저장하는 단계를 포함한다.
상기 b) 단계는,
i) 상기 질의 서열과 상기 데이터베이스에 저장된 서열들 간의 상동성 점수에 대한 평균과 표준편차를 구하는 단계; ii) 굼벨 분포에 대한 파라미터를 구하는 단계; iii) 상기 상동성 점수를 표준화하는 z 점수를 구하는 단계; iv) 상기 파라미터를 이용하여 상기 z 점수보다 크거나 같은 점수를 가지는 서열이 상기 전체 데이터베이스에서 검색될 확률인 p 값을 구하는 단계; 및 v) 상기 p 값을 이용하여 상기 z 점수와 같은 점수를 가지는 서열이 상기 전체 데이터베이스에서 검색될 확률인 e 값을 구하는 단계를 포함한다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였다. 명세서 전체를 통하여 유사한 부분에 대해서는 동일한 도면 부호를 붙였다.
본 발명에 따른 다이내믹 알고리즘이 적용되는 분산 컴퓨팅 환경은 여러 대의 PC를 물리적 네트워크로 묶어 병렬화하는 PC 클러스터 기법이나 인터넷에 분산된 개인용 컴퓨터(또는 수퍼 컴퓨터 또는 클러스터)를 병렬화하는 그리드(Grid) 기술 등에 의해 구축될 수 있다. 이러한 병렬화 기법은 이미 공지된 기술이므로 상세한 설명을 생략한다.
서열 정렬을 위한 다이내믹 알고리즘은 한 가지 서열에 대한 정렬에 대해서는 순차적으로 계산하는 방식이기 때문에 병렬화가 어렵다. 또한 처리 과정 동안에 컴퓨터들 간에 정보를 주고받아야 하기 때문에 이에 따른 시간적 손실이 매우 크다. 그러므로 본 발명에서는 서열 검색을 위해 컴퓨터들마다 검색 범위를 서로 다르게 할당하는 방식으로 병렬화 한다.
도 1은 본 발명의 실시예에 따른 다이내믹 알고리즘 기반의 유사서열 검색 방법이 적용되는 분산 컴퓨팅 환경을 나타낸 것이다.
도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 분산 컴퓨팅 환경은 단말 제어 장치(100), 단말 장치(200) 및 데이터 베이스 조각(300)를 포함한다.
단말 제어 장치(100)는 유사도 검색의 기준이 되는 질의 서열을 제시하며, 단말 장치(200)는 단말 제어 장치에 접속되어 질의 서열에 대한 유사 서열 검색을 수행한다. 데이터베이스에는 다수의 유전자 및 단백질 서열 파일이 저장되어 있으며, 다이내믹 알고리즘을 기반으로 하는 서열 검색의 병렬화 기법으로 다수의 데이터베이스 조각(300)으로 분할되며, 각각의 데이터베이스 조각(300)은 각각의 단말 장치(200)에 할당한다.
즉, 도 1에 도시된 바와 같이 본 발명의 실시예에 따른 시스템의 데이터베이스는 검색에 참여하는 단말 장치(200)의 수보다 크거나 같은 수의 데이터베이스 조각(300)으로 분할된다.
단말 제어 장치(100)로부터 질의서열이 주어지면, 각각의 분산된 단말 장치(200)에는 질의서열과 검색해야할 데이터베이스의 검색 범위가 할당한다. 분산된 단말 장치(200)는 각각 주어진 검색 범위에 속하는 데이터베이스 조각(300)을 읽어서 서열 검색을 행한다. 복수의 분산된 단말 장치(200)는 서열 검색을 동시에 처리하되 서로 간에는 주고받는 메시지가 없도록 한다. 또한 통계적 처리도 같이 이루어지도록 한다.
이때 분할된 데이터베이스 파일은 물리적 네트워크를 통해 읽혀진다. 또한 한번 참조된 데이터베이스의 조각들은 이를 참조한 컴퓨터뿐만 아니라 다른 컴퓨터에 의해서도 중복 참조되지 않도록 한다.
또한 본 발명의 실시예에 따른 유사 서열 검색은 하나의 프로그램으로서 분산된 단말 장치(200)에서 각각 동시에 실행되지만, 이들은 서로 독립적이며 시간에 비종속적이다.
각각의 컴퓨터에서는 주어진 질의 서열과 선택된 데이터베이스의 서열들을 하나씩 쌍으로 정렬하고 그 유사도를 계산한다. 본 발명의 실시예에서는 정렬 및 유사도 계산 방법으로 Smith&Waterman 알고리즘 보다 연산속도가 빠른 Gotho의 알고리즘과 Linear space 알고리즘을 병합하여 가능한 한 빠르고 최소의 메모리로 작업할 수 있도록 한다. Gotho의 알고리즘과 Linear space 알고리즘을 병합하는 기술은 이미 공지된 기술이므로 설명을 생략한다.
다음, 도 2를 참조하여 본 발명의 실시예에 따른 유사 서열 검색 시스템의 유사 서열 검색 동작에 대하여 자세하게 설명한다.
도 2는 각각의 분산된 단말 장치(200)에서 수행되는 작업의 순서도이다.
도 2에 도시된 바와 같이, 먼저 질의 서열이 주어지면 각각의 분산된 단말 장치(200)는 주어진 데이터베이스 조각(300)에 포함된 모든 서열들에 대하여 질의 서열과의 유사도를 계산한다(S200). 그리고 계산된 유사도를 통하여 통계 분석 작업을 수행한다(S201).
유사도 계산과 통계 분석 작업이 끝나면 정해진 디렉토리에 서열 파일과 리스트 파일이 저장되어 있는지를 확인하고(S202), 저장되어 있지 않으면 유사도를 높은 순위로 정렬(sort)한 후 발견된 유사 서열과 리스트를 정해진 디렉토리에 저장한다(S203).
S202 단계에서 확인한 결과 정해진 디렉토리에 서열 파일과 리스트 파일이 이미 저장되어 있으면, 파일이 잠겨있는지를 확인한다(S204). 파일이 잠겨 있으면 다른 컴퓨터에서 해당 파일을 갱신하고 있는 것으로 판단하여 일정시간 대기한 후(S205) 다시 파일이 잠겨있는지를 확인하는 단계(S204)로 되돌아간다.
S204 단계에서 해당 파일이 잠겨있지 않으면 파일을 갱신하는 동안에 다른 컴퓨터에서 해당 파일을 열지 못하도록 먼저 파일을 잠금 설정한 후(S206), 파일을 열어서 새로 생성한 리스트와 병합한 후 재정렬 함으로써 서열 파일과 리스트 파일을 갱신한다(S207). 파일을 갱신한 후에는 잠금 설정한 파일의 잠금을 해제한다 (S208).
이와 같이, 분산된 단말 장치(200)들을 단말 제어 장치(100)로부터 동일한 질의서열을 받아 동시에 같은 작업을 진행하되, 참조하는 데이터베이스만 다르다. 각각의 컴퓨터에서 진행되는 작업은 서로가 독립적이며 시간에 대해서도 독립적이다. 즉, 작업에 참여하는 컴퓨터 수가 늘어나면 이에 비례하여 작업의 속도도 빨라진다.
다음, 본 발명의 실시예에 따른 유사 서열 검색의 통계적 분석 기법에 대하여 상세하게 설명한다.
주어진 질의서열과 데이터베이스 내의 모든 서열들 간의 상동성 점수는 포아슨(Poison) 분포를 따르는데, 특히 이 분포는 굼벨 분포(Gumbel positive extreme distribution)를 따른다. 상동성 점수는 다음의 수학식 1과 같다.
여기서, λ와 μ는 각각 분포곡선의 크기와 위치를 결정하는 파라미터이다. 이 값들을 결정하기 위해 상동성 점수들의 평균(xmean)과 표준편차(σ)를 구한다. 평균과 표준편차는 다음의 수학식 2에 의해 계산된다.
한편, 분산 컴퓨팅 환경에서 각각의 노드들은 자신이 담당한 데이터베이스 조각(300)에서 얻은 상동성 점수만 존재할 뿐 평균은 모든 컴퓨터의 작업이 끝나기 전에는 알 수 없다. 그렇다고 평균을 구하기 위해 계산된 모든 상동성 점수를 저장하는 것은 메모리 낭비이므로, 메모리 절약을 위하여 표준편차를 구하는 식을 다음의 수학식 3과 같이 변형한다.
컴퓨터들은 서열 정렬이 끝날 때마다 상동성 점수의 누적값과 제곱의 누적값을 계산하며, 자신이 담당한 데이터베이스의 모든 서열 검색을 완료하면 평균과 표준편차를 구해서 지정된 디렉토리에 그 값들을 저장한다. 이때, 만일 해당 디렉토리에 저장된 파일이 이미 존재하면 그 파일을 열어서 자신이 계산한 값들을 누적하여 새로운 평균과 표준편차를 구하고 그 값들을 갱신한다. 이렇게 하여 컴퓨터들의 계산이 완료될 때마다 평균과 표준편차는 계속 갱신된다.
한편, 상동성 점수를 표준화하기 위해서 z점수(z-score)를 다음의 수학식 4와 같이 구한다.
질의 서열과 데이터베이스 안에서의 임의의 서열과의 점수가 주어지면, 그 점수와 같거나 그보다 큰 점수가 전체의 데이터베이스에서 검색될 확률은 p값(p-value)으로 표시한다. p값은 다음의 수학식으로 구한다.
여기서, 필요한 굼벨 분포의 파라미터 λ와 μ는 다음의 수식으로 계산된다.
또한, 전체의 데이터베이스에서 이 점수를 가진 서열(sequence)이 나타날 것으로 예상되는 개수는 e값(e-value)으로 표시하며, e값은 다음의 수학식으로 구한다.
여기서, D는 데이터베이스에 포함된 서열의 개수이다.
도 3은 본 발명의 실시예에 따른 유사 서열 검색 시스템에 따른 GUI 화면을 나타낸 것이다.
도 3에 도시된 바와 같이, 사용자는 먼저 검색하고자 하는 서열을 입력하고 데이터베이스를 선택할 수 있다. 또한, 도 3에서 "Requirements"와 "Rank"는 작업에 참여하는 컴퓨터의 최소/최대 요구사양을 나타내는 것으로 이 값들은 사용자가 변경할 수 있다. "E-mail"에 이메일 주소를 입력하면 작업 결과를 해당 주소로 받을 수 있다.
도 4는 본 발명의 실시예에 따른 유사 서열 검색 및 통계 분석 결과를 나타낸 것으로, 길이가 100자에서 5000자까지의 다양한 질의 서열을 1대의 컴퓨터와 8대의 분산 컴퓨터에서 검색한 결과를 나타낸 것이다.
도 4에 도시된 바와 같이, 서열의 길이에 따라 조금씩 다르지만 평균적으로 8배정도 검색 속도가 향상된 것을 알 수 있다.
이상에서 본 발명의 바람직한 실시예에 대하여 상세하게 설명하였지만 본 발명은 이에 한정되는 것은 아니며, 그 외의 다양한 변경이나 변형이 가능하다.
이상에서 설명한 바와 같이 본 발명에 따르면, 최적의 서열 정렬과 유사도 계산이라는 장점을 가지고 있음에도 매우 긴 연산시간 때문에 단일 컴퓨터에서 거의 사용이 불가능한 다이내믹 알고리즘의 유전자 및 단백질 서열 검색을 pc의 클러스터나 그리드와 같은 분산 컴퓨팅 환경에서 구현함으로써 현실적으로 이용 가능하도록 한다. 또한, 고성능 컴퓨터를 구비하지 않더라도 다이내믹 알고리즘 기반의 유사서열 검색이 가능하다.
도 1은 본 발명의 실시예에 따른 유사서열 검색 시스템의 구성을 나타낸 도이다.
도 2는 본 발명의 실시예에 따른 분산된 단말장치에서 수행되는 작업의 순서도이다.
도 3은 본 발명의 실시예에 따른 유사 서열 검색 시스템에 따른 GUI 화면을 나타낸 도이다.
도 4는 본 발명의 실시예에 따른 유사 서열 검색 및 통계 분석 결과를 나타낸 도이다.

Claims (12)

  1. 질의 서열을 제시하는 단말 제어 장치;
    상기 단말 제어 장치에 접속되어 있으며, 다이내믹 프로그래밍 알고리즘을 이용하여 상기 질의 서열에 대한 유사 서열 검색을 수행하는 복수 개의 단말 장치; 및
    다수의 유전자 및 단백질 서열 파일이 저장되어 있으며 상기 단말 장치에 의해 검색되도록 복수 개로 분할된 데이터베이스
    를 포함하는 유전자 및 단백질 서열 검색 시스템.
  2. 제1항에 있어서,
    상기 단말장치는 상기 단말 제어 장치에 클러스터 또는 그리드 기반의 병렬 알고리즘에 의하여 접속되는
    유전자 및 단백질 서열 검색 시스템.
  3. 제1항에 있어서,
    상기 데이터베이스는 상기 단말 장치의 개수보다 많거나 같은 수의 데이터베이스 조각으로 분할되는 유전자 및 단백질 서열 검색 시스템.
  4. 제1항 또는 제3항에 있어서,
    상기 복수의 단말 장치는 각각 범위가 다른 데이터베이스 조각을 검색하는 유전자 및 단백질 서열 검색 시스템.
  5. 제1항에 있어서,
    상기 복수의 단말 장치가 각각 동시에 유사 서열 검색을 시행하는 유전자 및 단백질 서열 검색 시스템.
  6. 복수 개의 단말 장치와 복수 개의 데이터베이스 조각으로 분할된 데이터베이스를 포함하는 분산 컴퓨팅 환경에서 유전자 및 단백질 서열을 검색하는 방법에 있어서,
    a) 다이내믹 프로그램 알고리즘을 통하여 질의 서열과 선택된 상기 데이터베이스 조각의 모든 서열을 검색하고 유사도를 계산하는 단계;
    b) 상기 계산된 유사도를 통하여 통계 분석 작업을 수행하는 단계; 및
    c) 상기 통계 분석 작업 결과를 유사도가 높은 순서로 정렬하고, 상기 검색된 유사 서열의 리스트와 함께 정해진 디렉토리에 저장하는 단계
    를 포함하는 유전자 및 단백질 서열 검색 방법.
  7. 제6항에 있어서,
    상기 b) 단계는,
    i) 상기 질의 서열과 상기 데이터베이스에 저장된 서열들 간의 상동성 점수에 대한 평균과 표준편차를 구하는 단계;
    ii) 굼벨 분포에 대한 파라미터를 구하는 단계;
    iii) 상기 상동성 점수를 표준화하는 z 점수를 구하는 단계;
    iv) 상기 파라미터를 이용하여 상기 z 점수보다 크거나 같은 점수를 가지는 서열이 상기 전체 데이터베이스에서 검색될 확률인 p 값을 구하는 단계; 및
    v) 상기 p 값을 이용하여 상기 z 점수와 같은 점수를 가지는 서열이 상기 전체 데이터베이스에서 검색될 확률인 e 값을 구하는 단계
    를 포함하는 유전자 및 단백질 서열 검색 방법.
  8. 제7항에 있어서,
    상기 i) 단계에서 표준편차는 다음 식에 의해 계산되는 유전자 및 단백질 서열 검색 방법.
  9. 제7항 또는 제8항에 있어서,
    상기 ii) 단계에서 파라미터는 다음 식에 의해 계산되는 유전자 및 단백질 서열 검색 방법.
  10. 제9항에 있어서,
    상기 iv) 단계에서 p 값은 다음 식에 의해 계산되는 유전자 및 단백질 서열 검색 방법.
  11. 제6항에 있어서,
    상기 c) 단계에서,
    상기 정해진 디렉토리에 이미 저장된 서열 및 리스트 파일이 있으면, 상기 파일을 새로 작성된 리스트와 병합한 후 재정렬하여 상기 파일을 갱신하여 저장하는
    유전자 및 단백질 서열 검색 방법.
  12. 제13항에 있어서,
    상기 c) 단계는,
    상기 파일을 갱신하는 동안 파일을 잠금 상태로 유지하는 유전자 및 단백질 서열 검색 방법.
KR10-2004-0010964A 2003-12-23 2004-02-19 분산 컴퓨팅 환경에서의 유전자 및 단백질 유사서열 검색시스템 및 그 방법 KR100538451B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20030095185 2003-12-23
KR1020030095185 2003-12-23

Publications (2)

Publication Number Publication Date
KR20040036691A KR20040036691A (ko) 2004-04-30
KR100538451B1 true KR100538451B1 (ko) 2005-12-22

Family

ID=37335082

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2004-0010964A KR100538451B1 (ko) 2003-12-23 2004-02-19 분산 컴퓨팅 환경에서의 유전자 및 단백질 유사서열 검색시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR100538451B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101182126B1 (ko) 2010-11-22 2012-09-12 한국과학기술원 단일 차원 군집 분석의 분산처리를 이용한 대용량 데이터의 군집 분석 시스템, 방법 및 이를 위한 기록 매체
KR101332270B1 (ko) * 2012-04-09 2013-11-22 삼성에스디에스 주식회사 유전 정보 관리 장치 및 방법

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100790870B1 (ko) * 2006-03-17 2008-01-03 삼성전자주식회사 유전자 서열 검색 방법 및 장치
KR100989904B1 (ko) * 2009-03-27 2010-10-26 충북대학교 산학협력단 Pc 클러스터 기반 blast 고속 검색을 위한 파티셔닝방법
KR101578246B1 (ko) * 2010-04-02 2015-12-16 충북대학교 산학협력단 고속 서열 분석을 위한 병렬 Intra-Query 라우팅 알고리즘
KR101282798B1 (ko) * 2011-09-08 2013-07-04 한국과학기술정보연구원 생명 정보 분석 파이프라인 처리 시스템 및 방법
US9201916B2 (en) * 2012-06-13 2015-12-01 Infosys Limited Method, system, and computer-readable medium for providing a scalable bio-informatics sequence search on cloud

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101182126B1 (ko) 2010-11-22 2012-09-12 한국과학기술원 단일 차원 군집 분석의 분산처리를 이용한 대용량 데이터의 군집 분석 시스템, 방법 및 이를 위한 기록 매체
KR101332270B1 (ko) * 2012-04-09 2013-11-22 삼성에스디에스 주식회사 유전 정보 관리 장치 및 방법

Also Published As

Publication number Publication date
KR20040036691A (ko) 2004-04-30

Similar Documents

Publication Publication Date Title
US20240096450A1 (en) Systems and methods for adaptive local alignment for graph genomes
CN106295250B (zh) 二代测序短序列快速比对分析方法及装置
Quang et al. EXTREME: an online EM algorithm for motif discovery
WO2015123269A1 (en) System and methods for analyzing sequence data
Ajwani et al. A computational study of external-memory BFS algorithms
JP5183155B2 (ja) 大量配列の一括検索方法及び検索システム
Yelick et al. The parallelism motifs of genomic data analysis
Eghbali et al. Online nearest neighbor search using hamming weight trees
Su et al. Multiple sequence alignment based on a suffix tree and center-star strategy: a linear method for multiple nucleotide sequence alignment on spark parallel framework
KR100538451B1 (ko) 분산 컴퓨팅 환경에서의 유전자 및 단백질 유사서열 검색시스템 및 그 방법
KR20200131733A (ko) 병렬화 가능한 시퀀스 정렬 시스템 및 방법
Sadiq et al. NvPD: novel parallel edit distance algorithm, correctness, and performance evaluation
Ndiaye et al. When less is more: sketching with minimizers in genomics
Wei et al. Comparison of methods for biological sequence clustering
de Armas et al. K-mer Mapping and de Bruijn graphs: the case for velvet fragment assembly
JP3370787B2 (ja) 文字配列検索方法
CN110892401B (zh) 生成用于k个不匹配搜索的过滤器的系统和方法
Mahfouz et al. BIDENS: Iterative density based biclustering algorithm with application to gene expression analysis
Timoshevskaya et al. SAIS-OPT: On the characterization and optimization of the SA-IS algorithm for suffix array construction
Aslanyan LCS algorithm with vector-markers
JP6577922B2 (ja) 検索装置、方法、及びプログラム
Aji et al. Optimizing performance, cost, and sensitivity in pairwise sequence search on a cluster of PlayStations
Jaber et al. A framework for decision tree-based method to index data from large protein sequence databases
KR101479735B1 (ko) Fga 알고리즘을 이용하는 서열 유사도 측정 시스템 및 이를 이용한 서열 유사도 측정 방법
Swensen Improving Adjacency List Storage Methods for Polypeptide Similarity Analysis

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20111129

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee