KR100537636B1 - Apparatus for predicting transcription factor binding sites based on similar sequences and method thereof - Google Patents

Apparatus for predicting transcription factor binding sites based on similar sequences and method thereof Download PDF

Info

Publication number
KR100537636B1
KR100537636B1 KR10-2003-0097044A KR20030097044A KR100537636B1 KR 100537636 B1 KR100537636 B1 KR 100537636B1 KR 20030097044 A KR20030097044 A KR 20030097044A KR 100537636 B1 KR100537636 B1 KR 100537636B1
Authority
KR
South Korea
Prior art keywords
sequence
transcription factor
factor binding
binding site
sequences
Prior art date
Application number
KR10-2003-0097044A
Other languages
Korean (ko)
Other versions
KR20050065884A (en
Inventor
임명은
심정섭
정명근
박선희
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-2003-0097044A priority Critical patent/KR100537636B1/en
Publication of KR20050065884A publication Critical patent/KR20050065884A/en
Application granted granted Critical
Publication of KR100537636B1 publication Critical patent/KR100537636B1/en

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Biomedical Technology (AREA)
  • Organic Chemistry (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Zoology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Microbiology (AREA)
  • Plant Pathology (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그 방법에 관한 것으로, 특히 입력 서열에 대한 전처리 후 접미사 배열을 구성하고 생성된 접미사 배열에 대한 LCP 정보에 의해 여러 서열에서 공통으로 존재하는 서열을 추출하여 국부 정렬 기법을 이용하여 전사인자 결합부위 후보 서열들을 추출함으로써, 전사인자 결합부위 예측에 따른 시간과 비용을 효율적으로 줄일 수 있는 유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그 방법에 관한 것이다.The present invention relates to an apparatus and method for predicting transcription factor binding sites by extracting similar sequences, in particular, constitute a suffix sequence after pre-processing the input sequence, and the LCP information for the generated suffix sequence is present in common in various sequences. Apparatus and method for predicting transcription factor binding site by extracting sequence from the candidate sequence by extracting the sequence and extracting candidate sequences for transcription factor binding site, which can reduce time and cost according to prediction of transcription factor binding site It is about.

본 발명의 유사서열 추출을 통한 전사인자 결합부위 예측 장치는, 입력된 서열들을 전처리, 접미사 배열 생성 및 국부 정렬하여 대상 서열에서 예측된 전사인자 결합부위들을 출력하기 위한 전사인자 결합부위 예측기; 및 상기 전사인자 결합부위 예측기로부터 출력된 전사인자 결합부위 서열들을 저장하기 위한 결합부위 데이터베이스를 포함하여 이루어진다.Transcription factor binding site prediction apparatus through the extraction of the similar sequence, the transcription factor binding site predictor for outputting the transcription factor binding sites predicted in the target sequence by pre-processing, suffix arrangement and local alignment of the input sequence; And a binding site database for storing the transcription factor binding site sequences outputted from the transcription factor binding site predictor.

Description

유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그 방법{Apparatus for predicting transcription factor binding sites based on similar sequences and method thereof}Apparatus for predicting transcription factor binding sites based on similar sequences and method etc.

본 발명은 유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그 방법에 관한 것으로, 특히 입력 서열에 대한 전처리 후 접미사 배열을 구성하고 생성된 접미사 배열에 대한 LCP 정보에 의해 여러 서열에서 공통으로 존재하는 서열을 추출하여 국부 정렬 기법을 이용하여 전사인자 결합부위 후보 서열들을 추출함으로써, 전사인자 결합부위 예측에 따른 시간과 비용을 효율적으로 줄일 수 있는 유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그 방법에 관한 것이다.The present invention relates to an apparatus and method for predicting transcription factor binding sites by extracting similar sequences, in particular, constitute a suffix sequence after pre-processing the input sequence, and the LCP information for the generated suffix sequence is present in common in various sequences. Apparatus and method for predicting transcription factor binding site by extracting sequence from the candidate sequence by extracting the sequence and extracting candidate sequences for transcription factor binding site, which can reduce time and cost according to prediction of transcription factor binding site It is about.

최근에는, 인간 게놈 프로젝트 수행 이후 유전체의 서열이 밝혀지면서 유전자 발현에 관여하는 전사조절인자 관련 분야에 대한 관심이 증대되고 있다. 전사조절에 대한 연구를 통해 유전자의 위치와 기능을 상세히 분석하고, 생체 조건에 따라 유전자의 발현 정도를 살펴봄으로써, 유전자의 다양한 발현 가능성에 대한 연구를 진행할 수 있다. 상기 전사인자 결합부위에 대한 연구는 이미 완료된 인간 염색체 지도와 대용량 실험인 DNA칩에서 얻어진 발현정보들과 더불어 유전자 기능 예측을 위해 매우 중요한 연구 분야이다.Recently, as the genome sequence is revealed after the human genome project, interest in the field of transcriptional regulators involved in gene expression is increasing. By studying the regulation of transcription in detail the location and function of the gene and by looking at the expression level of the gene according to the in vivo, it is possible to study the various expression possibilities of the gene. The transcription factor binding site is a very important research field for predicting gene function along with the completed human chromosome map and expression information obtained from a large-scale experiment DNA chip.

이러한 중요성에도 불구하고, 전사인자의 결합부위가 유전자에 비해 상대적으로 짧고 위치가 일정하지 않기 때문에, 실험실에서의 전사인자 결합부위 예측은 시간과 비용이 많이 소요되며 알려지지 않은 부위에 대한 예측이 어려운 문제점이 있었다.Despite this importance, the transcription factor binding site in the laboratory is time-consuming and expensive and difficult to predict for unknown sites because the binding site of the transcription factor is relatively short and the location is not constant. There was this.

이를 보완하기 위해 in silico 상에서 다양한 접근이 진행되어 왔다. 알려진 일정분야의 데이터로 수리적, 통계적 모델을 만들어서 유사성을 검색하는 'search by signal' 방법과 염기서열 클래스 전체적인 특성으로 예측하는 'search by content' 방법 등이 이에 속한다.Various approaches have been taken on in silico to compensate for this. These include the 'search by signal' method for creating a mathematical and statistical model using known data from a certain field and searching for similarity, and the 'search by content' method for predicting the characteristics of a sequence class.

그러나, 전술한 종래의 생물학적 실험 및 큐레이션을 통한 방법들은 접근 방법이 매우 한정적이며, 알려지지 않은 부위에 대한 예측이 어렵다는 단점을 지닌다. 또한, 통계적 방법이나 특징 기반의 방법들은 시스템의 학습을 위해 다량의 통계적 자료를 필요로 하거나, 염기서열의 특성을 미리 인지하고 있어야 하는 등 사전에 많은 정보를 필요로 하는 문제점이 있다.However, the above-described conventional methods through biological experiments and curation have the disadvantage that the approach is very limited and difficult to predict unknown sites. In addition, statistical methods or feature-based methods require a large amount of statistical data for learning a system, or require a lot of information in advance, such as having to be aware of the characteristics of the sequence in advance.

본 발명은 전술한 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 별도의 학습 과정 없이 빠른 시간 내에 결합 부위를 예측할 수 있도록 염기 서열들이 입력될 경우, 이를 전처리, 접미사 배열 생성 및 국부 정렬을 수행하여 데이터베이스에 저장할 수 있도록 구성된 유사서열 추출을 통한 전사인자 결합부위 예측 장치를 제공하는데 있다.The present invention has been made to solve the above problems, an object of the present invention is to pre-process, suffix sequence generation and local alignment when the base sequence is input to predict the binding site in a short time without a separate learning process The present invention provides an apparatus for predicting a transcription factor binding site by extracting similar sequences configured to be stored in a database.

본 발명의 다른 목적은 입력 서열에 대한 전처리 후 접미사 배열을 구성하고 생성된 접미사 배열에 대한 LCP 정보에 의해 여러 서열에서 공통으로 존재하는 서열을 추출하여 국부 정렬 기법을 이용하여 전사인자 결합부위 후보 서열들을 추출함으로써, 전사인자 결합부위 예측에 따른 시간과 비용을 효율적으로 줄일 수 있는 유사서열 추출을 통한 전사인자 결합부위 예측 방법을 제공하는데 있다.Another object of the present invention is to construct a suffix sequence after pre-processing the input sequence and extract the sequences that are commonly present in the various sequences by LCP information on the generated suffix sequence, and then use a local alignment technique to select transcription factor binding site candidate sequences. The present invention provides a method of predicting a transcription factor binding site by extracting a similar sequence that can efficiently reduce time and cost according to the prediction of the transcription factor binding site.

전술한 목적을 달성하기 위하여 본 발명의 유사서열 추출을 통한 전사인자 결합부위 예측 장치는, 입력된 서열들을 전처리, 접미사 배열 생성 및 국부 정렬하여 대상 서열에서 예측된 전사인자 결합부위들을 출력하기 위한 전사인자 결합부위 예측기; 및 상기 전사인자 결합부위 예측기로부터 출력된 전사인자 결합부위 서열들을 저장하기 위한 결합부위 데이터베이스를 포함하여 이루어진다.In order to achieve the above object, a transcription factor binding site predicting apparatus through the extraction of a similar sequence of the present invention is a transcription for outputting the transcription factor binding sites predicted from a target sequence by pre-processing the input sequences, generating a suffix array and local alignment. Factor binding site predictor; And a binding site database for storing the transcription factor binding site sequences outputted from the transcription factor binding site predictor.

전술한 구성에서, 상기 전사인자 결합부위 예측기는, 상기 입력된 서열들을 하나의 긴 서열로 연결하는 전처리를 수행하기 위한 서열 전처리부; 상기 서열 전처리부로부터 전처리된 전체 서열에 대한 접미사들을 오름차순으로 정렬하고, 상기 정렬된 결과를 배열 형태로 유지하기 위한 접미사 배열 생성처리부; 및 상기 접미사 배열 생성처리부로부터 생성된 접미사 배열의 각 항을 비교하여 LCP 배열을 생성하고, 상기 생성된 LCP 배열내의 LCP 서열들을 기설정된 길이와 비율에 따라 여과시키며, 상기 여과된 각 LCP 서열들과 전체 입력 서열들에 대한 국부 정렬을 수행한 후의 정렬 스코어를 계산하여 그 결과값에 따라 예측된 전사인자 결합부위들을 출력하기 위한 국부 정렬처리부를 포함하여 이루어짐이 바람직하다.In the above-described configuration, the transcription factor binding site predictor may include a sequence preprocessor for performing preprocessing to connect the input sequences into one long sequence; A suffix array generation processing unit for sorting the suffixes for the entire sequence preprocessed from the sequence preprocessor in ascending order and maintaining the sorted result in an array form; And generating each LCP sequence by comparing each term of the suffix array generated from the suffix array generating processor, filtering the LCP sequences in the generated LCP sequence according to a predetermined length and ratio, and filtering each of the filtered LCP sequences. It is preferable to include a local alignment processor for calculating an alignment score after performing local alignment on all input sequences and outputting predicted transcription factor binding sites according to the result.

그리고, 유사서열 추출을 통한 전사인자 결합부위 예측방법에 있어서, (a) 입력된 서열들을 전처리 수행하는 단계; (b) 상기 전처리된 전체 서열에 대해 접미사 배열을 생성하는 단계; (c) 상기 생성된 접미사 배열의 각 항을 비교하여 LCP배열을 생성하는 단계; (d) 상기 생성된 LCP배열의 각 LCP 서열의 길이 및 비율이 기설정된 기준치이상일 경우, 국부 정렬을 이용한 근사 매칭을 수행하는 단계; 및 (e) 상기 국부 정렬된 서열들의 정렬 스코어를 계산하여 기설정된 임계치이상일 경우, 해당 서열을 전사인자 결합부위의 후보로 예측하고, 미리 마련된 데이터베이스에 저장하는 단계를 포함하여 이루어진 것을 특징으로 한다.In addition, a method for predicting transcription factor binding sites by extracting similar sequences, the method comprising: (a) performing pre-processing of input sequences; (b) generating a suffix sequence for the entire pretreated sequence; (c) comparing each term of the generated suffix array to produce an LCP array; (d) performing approximate matching using local alignment when the length and ratio of each LCP sequence of the generated LCP sequence is greater than or equal to a predetermined reference value; And (e) calculating the alignment scores of the locally aligned sequences and predicting the corresponding sequences as candidates for transcription factor binding sites when the alignment scores are greater than or equal to a predetermined threshold value, and storing the sequences in a previously prepared database.

이하 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 상세히 설명한다. 본 실시예는 본 발명의 권리범위를 한정하는 것은 아니고, 단지 예시로 제시된 것이다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. This embodiment is not intended to limit the scope of the invention, but is presented by way of example only.

도 1은 본 발명의 일 실시예에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 장치를 나타낸 전체적인 블록 구성도이다.FIG. 1 is a block diagram illustrating an apparatus for predicting a transcription factor binding site by extracting similar sequences according to an embodiment of the present invention.

도 1에 도시한 바와 같이, 본 발명에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 장치는, 크게 입력 서열(100)을 전처리, 접미사 배열 생성 및 국부 정렬하여 대상 서열에서 예측된 전사인자 결합부위들을 출력하기 위한 전사인자 결합부위 예측기(200) 및 전사인자 결합부위 예측기(200)로부터 출력된 전사인자 결합부위 서열들을 저장하기 위한 결합부위 데이터베이스(300)를 포함하여 이루어진다.As shown in FIG. 1, the apparatus for predicting transcription factor binding sites through the extraction of similar sequences according to the present invention includes pre-treatment of the input sequence 100, generation of a suffix sequence, and local alignment to predict transcription factor binding sites from a target sequence. And a binding site database 300 for storing the transcription factor binding site predictor 200 and the transcription factor binding site sequences output from the transcription factor binding site predictor 200.

전술한 구성에서, 입력 서열(100)은 전사인자 결합부위를 찾을 대상으로 동일한 전사인자 결합부위가 있을 것이라 추측되는 염기 서열들이다.In the above configuration, the input sequence 100 is a nucleotide sequence that is assumed to have the same transcription factor binding site to find a transcription factor binding site.

전사인자 결합부위 예측기(200)는, 상기 입력된 서열들을 하나의 긴 서열로 연결하는 전처리를 수행하기 위한 서열 전처리부(210)와; 서열 전처리부(210)로부터 전처리된 전체 서열에 대한 접미사들을 오름차순으로 정렬하고, 상기 정렬된 결과를 배열 형태로 유지하기 위한 접미사 배열 생성처리부(220)와; 접미사 배열 생성처리부(220)로부터 생성된 접미사 배열의 각 항을 비교하여 LCP 배열을 생성하고, 상기 생성된 LCP 배열내의 LCP 서열의 길이와 비율을 기설정된 기준치와 비교하여 그 결과에 따라 공통 서열을 추출하고, 상기 추출된 공통 서열과 전체 입력 서열에 대한 국부 정렬을 수행한 후, 상기 국부 정렬된 서열들의 정렬 스코어를 계산하여 그 결과값에 따라 예측된 전사인자 결합부위들을 출력하기 위한 국부 정렬처리부(230)로 구성되어 있다.The transcription factor binding site predictor 200 includes a sequence preprocessor 210 for performing preprocessing to connect the input sequences into one long sequence; A suffix array generation processor 220 for sorting the suffixes for the entire sequence preprocessed from the sequence preprocessor 210 in ascending order and maintaining the sorted results in an array form; Comparing the terms of the suffix array generated from the suffix array generation processing unit 220 to generate the LCP sequence, and compares the length and ratio of the LCP sequence in the generated LCP sequence with a predetermined reference value to determine the common sequence according to the result. A local alignment processor for extracting and performing local alignment on the extracted common sequence and the entire input sequence, calculating the alignment scores of the locally aligned sequences, and outputting predicted transcription factor binding sites according to the results 230.

결합부위 데이터베이스(300)에 저장된 전사인자 결합부위는 추후에 미지의 서열이 입력될 경우 그 서열내의 전사인자 결합부위를 탐색하는데 이용될 수 있다.The transcription factor binding site stored in the binding site database 300 may be used to search for transcription factor binding sites in the sequence when an unknown sequence is input later.

이하에는 전술한 구성을 가지는 본 발명의 유사서열 추출을 통한 전사인자 결합부위 예측 방법에 대해서 상세하게 설명한다.Hereinafter, a method of predicting a transcription factor binding site by extracting a similar sequence of the present invention having the above-described configuration will be described in detail.

도 2는 본 발명의 일 실시예에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 방법을 설명하기 위한 전체적인 흐름도이다.2 is an overall flowchart illustrating a method of predicting a transcription factor binding site by extracting similar sequences according to an embodiment of the present invention.

도 2에 도시한 바와 같이, 먼저 단계S100에서는 입력된 서열들을 하나의 긴 서열로 연결하는 전처리 작업을 수행한다. 즉, 상기 전처리 작업은 후술하는 접미사 배열이 단일 서열 내에 존재하는 패턴을 찾기 위한 자료구조이기 때문에, 여러 서열 내에 존재하는 공통된 패턴을 찾기 위해서 필요한 작업이다.As shown in FIG. 2, first, in step S100, a preprocessing operation of connecting input sequences into one long sequence is performed. That is, the preprocessing operation is a necessary operation for finding a common pattern existing in several sequences since the suffix array described later is a data structure for finding a pattern existing in a single sequence.

한편, 상기 연결된 서열과 서열사이에 아스키(ASCII) 문자들로 구성된 특수문자(예컨대, #1, #2,…, #n, 도 3참조)를 삽입한다. 여기서, 상기 특수문자는 상기 연결된 서열 내에서 발견된 패턴이 속하는 입력 서열의 위치를 구분하여 각 패턴이 나타난 서열들의 빈도를 식별하는 역할을 수행한다.Meanwhile, a special character (eg, # 1, # 2, ..., #n, see FIG. 3) consisting of ASCII characters is inserted between the linked sequence and the sequence. Here, the special character serves to identify the frequency of the sequence in which each pattern appears by distinguishing the position of the input sequence to which the pattern found in the linked sequence belongs.

다음, 단계S200에서는 상기 전처리된 전체 서열에 대해 접미사 배열을 생성하는 작업을 수행한다. 여기서, 상기 접미사 배열은 연결된 전체 서열에 대한 접미사들을 오름차순으로 정렬하여 정렬된 결과를 배열 형태로 유지한다(도 4b참조).Next, in step S200, a suffix array is generated for the entire preprocessed sequence. Here, the suffix arrangement sorts the suffixes for all linked sequences in ascending order to maintain the sorted result in an array form (see FIG. 4B).

상기 접미사 배열이 생성되면, 단계S300으로 진행하여 상기 생성된 접미사 배열의 각 항을 비교하여 LCP 배열을 생성한다. 이때, 상기 LCP(Longest Common Prefix)는 접미사 배열의 특정 구간 내에 존재하는 공통이 되는 가장 긴 접두사로 공통 패턴 발견을 위해 서열들을 비교하는 목적으로 활용된다. 따라서, 본 발명의 일실시예에 따른 LCP는 접미사 배열의 인접한 두 항목의 최장 공통 접두사를 의미하는 것으로 한정한다.When the suffix array is generated, the process proceeds to step S300 to compare each term of the generated suffix array to generate an LCP array. In this case, the Longest Common Prefix (LCP) is the longest common prefix that exists in a specific section of the suffix array and is used for comparing sequences for common pattern discovery. Therefore, LCP according to an embodiment of the present invention is limited to meaning the longest common prefix of two adjacent items in the suffix arrangement.

상기 LCP 배열이 생성되면, 각 LCP 서열의 길이와 LCP가 출현한 입력 서열들의 번호를 찾을 수 있다. 이러한 두 인자는 LCP 서열이 결합부위 후보가 되기 위한 가능성이 있는지를 검증하기 위한 인자로 활용된다.Once the LCP sequence is generated, the length of each LCP sequence and the number of input sequences in which the LCP appears can be found. These two factors are used as a factor to verify whether the LCP sequence is likely to be a binding site candidate.

다음, 단계S400에서는 상기 생성된 LCP 배열의 각 LCP 서열의 길이가 기설정된 기준길이(이하,“LEN”라 정의함) 이상인가를 판단하여 이상이 아니면 그대로 종료시키고, 그렇지 않고 각 LCP 서열의 길이가 LEN 이상일 경우에는 단계S500으로 진행하여 상기 생성된 LCP 배열의 각 LCP 서열의 비율이 기설정된 기준비율(이하,“RTO”라 정의함) 이상인가를 판단한다.Next, in step S400, it is determined whether the length of each LCP sequence of the generated LCP sequence is greater than or equal to a predetermined reference length (hereinafter, defined as “LEN”). If LEN is greater than or equal to LEN, the flow proceeds to step S500 to determine whether the ratio of each LCP sequence of the generated LCP sequence is greater than or equal to a predetermined reference ratio (hereinafter, referred to as “RTO”).

여기서, 상기 서열의 길이를 평가인자로 정한 것은 일반적인 결합부위의 길이가 20bp 미만이므로 이를 반영하기 위함이며, 상기 입력 서열들에 대한 출현 비율을 정한 것은 반복되는 패턴이 입력 서열들에서 많이 나타날수록 가능성이 높을 것임을 반영하기 위함이다.Here, the length of the sequence is set as an evaluation factor to reflect the general binding site length is less than 20bp, and the ratio of appearance to the input sequences is more likely as the repeating pattern appears in the input sequences. This is to reflect the high.

본 발명의 검증을 위해 RTO와 LEN을 변화시켜가며 실험하였고, 그 실험 결과는 다음과 같은 표 1을 얻을 수 있다.Experiments with varying RTO and LEN for the verification of the present invention, the experimental results can be obtained in Table 1 as follows.

Positive probability value(PPV)Positive probability value (PPV) bp %bp% 100100 9595 9090 8585 8080 7575 7070 6565 6060 5555 44 30.930.9 30.930.9 30.030.0 35.335.3 29.429.4 29.629.6 30.030.0 30.230.2 27.527.5 27.627.6 55 18.218.2 18.218.2 14.614.6 17.517.5 13.013.0 16.916.9 7.67.6 18.118.1 15.915.9 16.716.7 66 00 00 00 00 15.215.2 14.314.3 13.313.3 13.313.3 10.910.9 12.112.1 77 00 00 00 00 25.025.0 25.025.0 25.025.0 25.025.0 10.410.4 10.010.0 88 00 00 00 00 00 00 00 00 8.68.6 8.28.2 99 00 00 00 00 00 00 00 00 7.37.3 7.37.3

여기서, 전사인자 결합부위 예측 결과를 검증하기 위해서, 예측 되어진 결과에서 실제로 올바른 예측 비율을 나타내는 Positive probability value(PPV)를 계산하여 얻었다(, TP: True positive, FP: False positive).Herein, in order to verify the transcription factor coupling site prediction result, a positive probability value (PPV) representing the correct prediction ratio is obtained from the predicted result. , TP: True positive, FP: False positive).

실제로 추정된 전사인자 결합부위의 길이 LEN이 4bp 이상이면서 RTO가 85% 이상인 경우에서도 30% 이상의 PPV 값을 나타내고 있다. 그러나, LEN을 4bp로 설정항 경우, FP(false positive)의 증가로 인해 실제 실험을 통한 검증이 매우 어려워진다. 프로그램을 수행하여 분석해 본 결과 LEN은 5~7bp 일 경우에 의미 있는 성능을 보였고, RTO는 65 ~ 85%일 경우 적절한 성능을 보이는 것으로 판명되었다.In fact, even if the length of the transcription factor binding site LEN is 4bp or more and the RTO is 85% or more, the PPV value is 30% or more. However, when the LEN is set to 4bp, verification through actual experiments becomes very difficult due to an increase in false positives. As a result of analyzing the program, LEN showed significant performance at 5 ~ 7bp, and RTO showed appropriate performance at 65 ~ 85%.

그러나, 대상 종류에 따라 인자의 최적화된 값을 변경될 여지가 있으며, 입력 데이터 별로 다양한 테스트를 통해 최적화된 인자값을 결정할 수 있을 것이다.However, there is a possibility that the optimized value of the factor may be changed according to the type of object, and the optimized factor value may be determined through various tests for each input data.

한편, 상기 단계S500에서의 판단 결과, 상기 생성된 LCP배열의 각 LCP 서열의 비율이 기설정된 RTO 이상이 아니면 그대로 종료시키고, 그렇지 않고 상기 생성된 LCP 배열의 각 LCP 서열의 비율이 기설정된 RTO 이상일 경우에는 단계S600으로 진행하여 국부 정렬을 이용한 근사 매칭(approximate matching) 기법을 수행한다.On the other hand, as a result of the determination in step S500, if the ratio of each LCP sequence of the generated LCP array is not a predetermined RTO or more terminated as it is, otherwise the ratio of each LCP sequence of the generated LCP sequence is a predetermined RTO or more In the case of step S600, approximate matching using local alignment is performed.

즉, 상기 근사 매칭 기법에서는 여과된 각 LCP 서열들과 전체 입력 서열들에 대한 국부 정렬을 수행하는데, 이는 서열 내 염기의 삽입, 삭제 등에 의해 일어날 수 있는 손실에 의해 발견되지 않은 서열에 대해 국부 정렬을 이용하여 근사 매칭을 수행하여 발견 확률을 높이고자 하는 것이다.That is, the approximate matching technique performs local alignment on each filtered LCP sequence and the entire input sequence, which is local to a sequence that is not found by loss that may occur due to insertion, deletion, or the like, of bases in the sequence. We want to increase the probability of discovery by performing approximate matching using.

다음, 단계S700에서는 상기 국부 정렬된 서열들의 정렬 스코어를 계산하여 기설정된 임계치(threshold) 이상인가를 판단하여 이상이 아니면 그대로 종료시키고, 그렇지 않고 상기 국부 정렬된 서열들의 정렬 스코어를 계산하여 기설정된 임계치 이상일 경우에는 단계S800으로 진행하여 해당 서열을 전사인자 결합부위의 후보로 예측하고, 예측 결과 각 입력 서열별로 존재할 가능성이 높은 결합부위들이 열거되며 추후에 사용하기 위해 결합부위 데이터베이스(300)에 저장한다.Next, in step S700, the alignment score of the locally aligned sequences is calculated to determine whether or not the threshold is greater than or equal to a preset threshold, and if not abnormally terminated, otherwise, the alignment score of the locally aligned sequences is calculated to calculate the alignment score of the locally aligned sequences. In case of abnormality, the process proceeds to step S800, the sequence is predicted as a candidate for transcription factor binding site, and the binding sites that are likely to exist for each input sequence are listed as a result of the prediction, and are stored in the binding site database 300 for later use. .

도 3은 본 발명의 일 실시예에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 방법을 전체적으로 설명하기 위한 도면이다.3 is a view for explaining the overall method of predicting the transcription factor binding site through the extraction of similar sequences in accordance with an embodiment of the present invention.

도 3에 도시한 바와 같이, 입력 서열은 n개의 염기 서열들(A)로써, 이 서열들 내에는 공통의 전사인자 결합부위가 존재하리라고 생각되는 서열들이다. 입력서열들을 전처리 후 연결하면 하나의 긴 서열이 생성된다(B). 각 서열에 대해 특수문자가 삽입되므로 총 n개의 특수문자가 삽입된다.As shown in Fig. 3, the input sequence is n base sequences (A), in which sequences are expected to have a common transcription factor binding site. Concatenation of input sequences after preprocessing yields one long sequence (B). Since a special character is inserted for each sequence, a total of n special characters are inserted.

상기 연결된 서열에 대해 접미사 배열을 생성하면, (C)과 같은 형태의 배열이 생성된다. (C)에서는 전체 배열 중 'AGCTC'라는 공통 접두사를 가지는 서열들에 대한 예를 보인다. 접두사들이 포함된 서열은 특수문자에 의해 어떤 입력 서열에 속하는지 알 수 있다. 즉, 본 도면에서는 입력 서열 번호를 (C)의 오른쪽에 나타내었다. 배열에서 인접한 접두사들을 비교하여 (D)와 같은 LCP 들을 얻을 수 있다.Generating a suffix sequence for the linked sequence produces an array of the same type as (C). (C) shows an example of sequences having a common prefix of 'AGCTC' in the entire array. Sequences with prefixes can be identified by special characters to which input sequence they belong. That is, in this figure, the input sequence number is shown to the right of (C). LCPs like (D) can be obtained by comparing adjacent prefixes in an array.

(C)예의 경우 'AGCTCG'와 'AGCTC' 등이 얻어진다. 그 후 생성된 LCP들에 대해 이들의 길이와 전체 입력 서열에 나타난 빈도수를 얻어 미리 지정된 인자 LEN, RTO와 비교하여(E) 조건을 만족할 경우 국부 정렬을 실행한다.In case (C), 'AGCTCG' and 'AGCTC' are obtained. The generated LCPs are then obtained with their lengths and the frequencies shown in the entire input sequence and compared with the predefined factors LEN, RTO (E) to perform local alignment if the conditions are met.

(F)의 예는 조건을 만족하는 LCP들 중 'AGCTC'에 대한 국부 정렬을 수행하는 모습이다. 여과된 각 LCP들을 대상으로 각각 전체 입력 서열들과의 국부 정렬을 실행한다. 정렬 결과 스코어 값이 임계치 이상일 경우(G) 해당 부분을 결합부위 후보로 선택한다. (H)에서는 LCP 'AGCTC'에 대한 국부 정렬을 수행한 결과 예측된 결합부위 후보들이 굵은 글씨로 표현되었다. 'AGCTC' 이외에 'AGCC', 'AACTC' 등이 발견된 것을 볼 수 있다. 여러 개의 입력 서열로부터 여러 개의 결합부위 서열이 예측될 수 있으며 이들은 결합부위 데이터베이스(300)에 저장된다.An example of (F) shows the local alignment of 'AGCTC' among LCPs satisfying the condition. Each filtered LCP is subjected to local alignment with the entire input sequence, respectively. If the alignment result score value is greater than or equal to the threshold (G), the corresponding part is selected as a candidate for joining sites. In (H), the predicted binding site candidates are shown in bold type after local alignment of LCP 'AGCTC'. In addition to 'AGCTC', 'AGCC' and 'AACTC' can be found. Multiple binding site sequences can be predicted from several input sequences and they are stored in binding site database 300.

도 4a 및 도4b는 본 발명의 일 실시예에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 방법 중 접미사 배열 생성 과정을 설명하기 위한 도면으로서, 도 4a는 본 발명에 적용된 접미사 배열 생성 과정을 설명하기 위한 흐름도이고, 도 4b는 본 발명에 적용된 예제 서열에 대한 접미사 배열 생성 결과를 나타낸 도면이다.4A and 4B are diagrams for describing a suffix array generation process in a method of predicting transcription factor coupling sites through similar sequence extraction according to an embodiment of the present invention, and FIG. 4A illustrates a suffix array generation process applied to the present invention. 4B is a flowchart illustrating a result of generating a suffix array for the example sequence applied to the present invention.

도 4a 및 도 4b에 도시한 바와 같이, 상기 단계S200에서의 접미사 배열 생성을 위한 알고리즘은 Karkkainen 과 Sanders가 2003년에 논문을 통해 소개한 알고리즘이 사용된다.As shown in FIGS. 4A and 4B, the algorithm for generating the suffix array in step S200 uses an algorithm introduced in 2003 by Karkkainen and Sanders.

즉, 상기 알고리즘은 divide and conquer 기법을 이용하여 주어진 문자열에 대한 접미사 배열을 선형시간에 생성하는 알고리즘이다. 이전의 알고리즘이 문자열을 2 부분으로 나누어 각각에 대해 접미사 배열을 생성한 뒤 병합하는 형식인데 반해 본 발명의 알고리즘은 문자열에 mod 연산을 취하여 3부분으로 나누고 2부분에 대해 정렬을 수행한 뒤 1부분을 정렬하고 이를 병합하는 방식으로 이전의 방식에 비해 병합 단계가 매우 단순하다는 이점을 지닌다.In other words, the algorithm generates an array of suffixes for a given string in a linear time using a divide and conquer technique. Whereas the previous algorithm divides the string into two parts and creates a suffix array for each of them, merges them, whereas the algorithm of the present invention takes a mod operation on the string and divides it into three parts and performs a sort on the two parts. Sorting and merging them has the advantage that the merging step is very simple compared to the previous method.

Karkkainen 과 Sanders의 접미사 배열 생성 과정은 도 4a에 표현되어 있으며, 먼저 (I)와 같이 입력서열이 주어지면, 서열의 각 접미사들에 위치를 3으로 나눈 나머지(mod 3 연산 결과)가 2와 0인 위치들에 대해 염기를 세 개씩 묶어서 새로운 서열을 만든다(J). 마지막 부분이 3의 배수가 아닌 경우, 임의 기호 '0'을 수에 맞게 입력한 후 연산을 취한다. 이 기호는 연산에 어떠한 영향도 미치지 않는다. 이렇게 묶인 서열들에 대해 사전 순서대로 정렬하여 번호를 부여한다(K).Karkkainen and Sanders' suffix array generation process is shown in Figure 4a. First, given the input sequence as shown in (I), each of the suffixes in the sequence divided by 3 (mod 3 result) is 2 and 0 Group three bases for the phosphorus positions to form a new sequence (J). If the last part is not a multiple of 3, the random symbol '0' is inputted according to the number and the operation is performed. This symbol has no effect on the operation. The sequences thus bundled are numbered in alphabetical order.

동일한 서열은 같은 번호를 부여하며, 정렬된 서열 내에서 모두 고유한 번호를 가질 때까지 정렬을 반복한다. 고유한 번호를 갖는 배열이 완성된 결과는 (L)과 같다. Mod 3 연산 결과가 0, 2인 위치의 접미사들은 (L)을 통해 쉽게 정렬된다.The same sequence is given the same number and the alignment is repeated until all of the numbers in the aligned sequence have a unique number. The result of an array with a unique number is shown in (L). The suffixes at positions 0 and 2 of the Mod 3 operation are easily ordered via (L).

다음으로 mod 3 연산 결과가 1인 위치의 접미사들을 정렬한다(M). 이는 mod 3 연산 결과가 1인 위치는 mod 3 연산 결과가 2인 위치의 바로 앞이라는 점을 이용하여 쉽게 구할 수 있다. 이제 두 정렬된 배열을 하나로 병합하는 과정을 거치면 전체 접미사 배열을 구할 수 있다(N). (I)에 주어진 서열에 대해 본 알고리즘으로 접미사 배열을 생성한 결과는 도 4b와 같다.Next, sort the suffixes where the result of mod 3 operation is 1 (M). This can be easily obtained by taking advantage of the fact that the mod 3 result is 1 in front of the mod 3 result. Now we can merge the two sorted arrays into one to get the full suffix array (N). The result of generating the suffix array by the present algorithm for the sequence given in (I) is shown in FIG. 4B.

도 5는 본 발명의 일 실시예에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 방법 중 근사 매칭을 위한 국부 정렬을 나타낸 개념도이다.FIG. 5 is a conceptual diagram illustrating a local alignment for approximation matching in a method of predicting transcription factor coupling sites through similar sequence extraction according to an embodiment of the present invention.

도 5에 도시한 바와 같이, 상기 단계S600에서의 국부 정렬은 두 서열 내부에 존재하는 부분 서열의 상동성을 검사하기 위해 사용하는 정렬 방법으로 동적 프로그래밍 기법을 이용한 매트릭스 상에서 스코어에 대해 임계치 혹은 최대값을 기준으로 생성된 자취를 역으로 되짚어가면서 상동성을 검색하는 기법을 말한다. 본 발명에서는 기본적으로 널리 사용되는 Smith Waterman 알고리즘을 이용하였다.As shown in FIG. 5, the local alignment in step S600 is an alignment method used to examine the homology of partial sequences existing within two sequences, and a threshold or maximum value for a score on a matrix using a dynamic programming technique. Refers to a technique for searching for homology by reversing the trace generated based on In the present invention, the widely used Smith Waterman algorithm is basically used.

패턴 발견을 위해 단순 매칭 방법만을 적용할 경우 삽입, 삭제 등이 일어난 경우에 대해 정확한 예측을 할 수 없다. 6개의 입력 서열에서 (O) 서열이 결합부위로 예측되었으나 실제 결합부위의 경우 이 서열에 삽입, 삭제가 일어나 반드시 이 서열과 동일하지 않을 수 있다. 만약, (P) 서열이 결합부위 서열일 경우 단순 매칭에 의한 방법은 무의미한 예측 결과를 산출하게 되는 것이다.If only simple matching method is applied for pattern discovery, accurate prediction about insertion, deletion, etc. cannot be made. Although the (O) sequence was predicted to be a binding site in the six input sequences, the actual binding site may be inserted into or deleted from this sequence, and thus may not necessarily be identical to this sequence. If the sequence (P) is a binding site sequence, the simple matching method will yield meaningless prediction results.

(O) 서열과 입력 서열들에 대해 국부 정렬을 수행하여 상동성이 높은 (P)서열을 결합부위로 예측할 수 있도록 하는 것이 근사 매칭 방법을 이용하여 얻을 수 있는 효과이다.It is an effect that can be obtained using an approximate matching method by performing local alignment on the (O) sequence and the input sequences so that the highly homologous (P) sequence can be predicted as the binding site.

전술한 본 발명에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그 방법에 대한 바람직한 실시예에 대하여 설명하였지만, 본 발명은 이에 한정되는 것이 아니고 특허청구범위와 발명의 상세한 설명 및 첨부한 도면의 범위 안에서 여러 가지로 변형하여 실시하는 것이 가능하고 이 또한 본 발명에 속한다.Although a preferred embodiment of the apparatus and method for predicting transcription factor binding sites by extracting similar sequences according to the present invention has been described above, the present invention is not limited thereto, and the claims and the detailed description of the invention and the accompanying drawings. It is possible to carry out various modifications within the scope of this also belongs to the present invention.

이상에서 설명한 바와 같은 본 발명의 유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그 방법에 따르면, 입력 서열에 대한 전처리 후 접미사 배열을 구성하고 생성된 접미사 배열에 대한 LCP 정보에 의해 여러 서열에서 공통으로 존재하는 서열을 추출하여 국부 정렬 기법을 이용하여 전사인자 결합부위 후보 서열들을 추출함으로써, 대량의 학습 데이터로 학습단계를 거치고 학습된 내용으로 예측을 수행하는 종래의 통계기반 기법에 비해 적은 데이터를 필요로 하며 빠른 수행 결과를 얻을 수 있으며, 전사인자 결합부위 예측에 따른 시간과 비용을 효율적으로 줄일 수 있는 이점이 있다.According to the apparatus and method for predicting transcription factor binding sites by extracting similar sequences of the present invention as described above, the suffix array is constructed after pre-processing the input sequence and is common in various sequences by LCP information on the generated suffix sequence. By extracting the existing sequences and extracting candidate sequences of transcription factor binding sites using local alignment techniques, less data is compared to the conventional statistical method, which undergoes a learning step with a large amount of learning data and predicts the learned contents. It is possible to obtain fast performance results and to reduce the time and cost of predicting the transcription factor binding site.

또한, 본 발명에 의해 예측된 결합 부위 서열들은 전사인자 별로 데이터베이스를 구축함으로써, 후에 알려지지 않은 서열에 대한 결합부위를 예측할 필요가 있을 경우에 유용하게 사용될 수 있는 이점이 있다.In addition, the binding site sequences predicted by the present invention has an advantage that can be useful in the case where it is necessary to predict the binding site for the unknown sequence by establishing a database for each transcription factor.

도 1은 본 발명의 일 실시예에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 장치를 나타낸 전체적인 블록 구성도,1 is an overall block diagram showing an apparatus for predicting a transcription factor binding site by extracting similar sequences according to an embodiment of the present invention;

도 2는 본 발명의 일 실시예에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 방법을 설명하기 위한 전체적인 흐름도,2 is an overall flowchart illustrating a method of predicting a transcription factor binding site by extracting a similar sequence according to an embodiment of the present invention;

도 3은 본 발명의 일 실시예에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 방법을 전체적으로 설명하기 위한 도면,3 is a view for explaining the overall transcription factor binding site prediction method through the extraction of similar sequences in accordance with an embodiment of the present invention,

도 4a 및 도4b는 본 발명의 일 실시예에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 방법 중 접미사 배열 생성 과정을 설명하기 위한 도면으로서, 도 4a는 본 발명에 적용된 접미사 배열 생성 과정을 설명하기 위한 흐름도이고, 도 4b는 본 발명에 적용된 예제 서열에 대한 접미사 배열 생성 결과를 나타낸 도면이다.4A and 4B are diagrams for describing a suffix array generation process in a method of predicting transcription factor coupling sites through similar sequence extraction according to an embodiment of the present invention, and FIG. 4A illustrates a suffix array generation process applied to the present invention. 4B is a flowchart illustrating a result of generating a suffix array for the example sequence applied to the present invention.

도 5는 본 발명의 일 실시예에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 방법 중 근사 매칭을 위한 국부 정렬을 나타낸 개념도이다.FIG. 5 is a conceptual diagram illustrating a local alignment for approximation matching in a method of predicting transcription factor coupling sites through similar sequence extraction according to an embodiment of the present invention.

*** 도면의 주요 부분에 대한 부호 설명 ****** Explanation of symbols on main parts of drawing ***

100 : 입력 서열, 200 : 전사인자 결합부위 예측기,100: input sequence, 200: transcription factor binding site predictor,

210 : 서열 전처리부, 220 : 접미사 배열 생성처리부,210: sequence preprocessor, 220: suffix array generation processor,

230 : 국부 정렬처리부, 300 : 결합부위 데이터베이스(DB)230: local sort processing unit, 300: coupling site database (DB)

Claims (3)

입력된 서열들을 전처리, 접미사 배열 생성 및 국부 정렬하여 대상 서열에서 예측된 전사인자 결합부위들을 출력하기 위한 전사인자 결합부위 예측기; 및A transcription factor binding site predictor for pre-processing the input sequences, generating a suffix array, and locally aligning the predicted transcription factor binding sites in the target sequence; And 상기 전사인자 결합부위 예측기로부터 출력된 전사인자 결합부위 서열들을 저장하기 위한 결합부위 데이터베이스로 이루어진, 유사서열 추출을 통한 전사인자 결합부위 예측 장치.Comprising a binding site database for storing the transcription factor binding site sequences outputted from the transcription factor binding site predictor, apparatus for predicting transcription factor binding sites through the extraction of similar sequences. 제 1항에 있어서, 상기 전사인자 결합부위 예측기는,The method of claim 1, wherein the transcription factor binding site predictor, 상기 입력된 서열들을 하나의 긴 서열로 연결하는 전처리를 수행하기 위한 서열 전처리부;A sequence preprocessor for performing preprocessing to link the input sequences into one long sequence; 상기 서열 전처리부로부터 전처리된 전체 서열에 대한 접미사들을 오름차순으로 정렬하고, 상기 정렬된 결과를 배열 형태로 유지하기 위한 접미사 배열 생성처리부; 및A suffix array generation processing unit for sorting the suffixes for the entire sequence preprocessed from the sequence preprocessor in ascending order and maintaining the sorted result in an array form; And 상기 접미사 배열 생성처리부로부터 생성된 접미사 배열의 각 항을 비교하여 최장 공통 접두사(LCP) 배열을 생성하고, 상기 생성된 최장 공통 접두사(LCP) 배열내의 최장 공통 접두사(LCP) 서열의 길이와 비율을 기설정된 기준치와 비교하여 그 결과에 따라 공통 서열을 추출하고, 상기 추출된 공통 서열과 전체 입력 서열에 대한 국부 정렬을 수행한 후, 상기 국부 정렬된 서열들의 정렬 스코어를 계산하여 그 결과값에 따라 예측된 전사인자 결합부위들을 출력하기 위한 국부 정렬처리부로 이루어진, 것을 특징으로 하는 유사서열 추출을 통한 전사인자 결합부위 예측 장치.Comparing each term of the suffix array generated from the suffix array generation processing unit to generate the longest common prefix (LCP) array, and to determine the length and ratio of the longest common prefix (LCP) sequence in the generated longest common prefix (LCP) array. A common sequence is extracted according to the result compared with a predetermined reference value, local alignment is performed on the extracted common sequence and the entire input sequence, and then the alignment scores of the locally aligned sequences are calculated according to the result. An apparatus for predicting transcription factor binding sites by extracting similar sequences, comprising a local alignment processor for outputting predicted transcription factor coupling sites. 유사서열 추출을 통한 전사인자 결합부위 예측방법에 있어서,In the method of predicting transcription factor binding site by extracting similar sequence, (a) 입력된 서열들을 전처리 수행하는 단계;(a) preprocessing the input sequences; (b) 상기 전처리된 전체 서열에 대해 접미사 배열을 생성하는 단계;(b) generating a suffix sequence for the entire pretreated sequence; (c) 상기 생성된 접미사 배열의 각 항을 비교하여 최장 공통 접두사(LCP) 배열을 생성하는 단계;(c) comparing each term of the generated suffix array to produce a longest common prefix (LCP) array; (d) 상기 생성된 최장 공통 접두사(LCP) 배열의 각 최장 공통 접두사(LCP) 서열의 길이 및 비율이 기설정된 기준치이상일 경우, 국부 정렬을 이용한 근사 매칭을 수행하는 단계; 및(d) performing approximate matching using local alignment when the length and ratio of each longest common prefix (LCP) sequence of the generated longest common prefix (LCP) sequence is greater than or equal to a predetermined reference value; And (e) 상기 국부 정렬된 서열들의 정렬 스코어를 계산하여 기설정된 임계치이상일 경우, 해당 서열을 전사인자 결합부위의 후보로 예측하고, 미리 마련된 데이터베이스에 저장하는 단계를 포함하여 이루어진 것을 특징으로 하는 유사서열 추출을 통한 전사인자 결합부위 예측 방법.(e) calculating an alignment score of the locally aligned sequences, and predicting the sequence as a candidate for a transcription factor binding site when the alignment score is greater than or equal to a predetermined threshold, and storing the sequence in a database prepared in advance. Method of predicting transcription factor binding site by extraction.
KR10-2003-0097044A 2003-12-26 2003-12-26 Apparatus for predicting transcription factor binding sites based on similar sequences and method thereof KR100537636B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2003-0097044A KR100537636B1 (en) 2003-12-26 2003-12-26 Apparatus for predicting transcription factor binding sites based on similar sequences and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2003-0097044A KR100537636B1 (en) 2003-12-26 2003-12-26 Apparatus for predicting transcription factor binding sites based on similar sequences and method thereof

Publications (2)

Publication Number Publication Date
KR20050065884A KR20050065884A (en) 2005-06-30
KR100537636B1 true KR100537636B1 (en) 2005-12-20

Family

ID=37257034

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2003-0097044A KR100537636B1 (en) 2003-12-26 2003-12-26 Apparatus for predicting transcription factor binding sites based on similar sequences and method thereof

Country Status (1)

Country Link
KR (1) KR100537636B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11732381B2 (en) 2020-12-15 2023-08-22 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods to identify transcription factor activation domains and uses thereof

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100813008B1 (en) * 2006-12-06 2008-03-13 한국전자통신연구원 Apparatus and method for predicting gene modules using gene expression data and transcription factor binding information
CN112349349A (en) * 2020-11-06 2021-02-09 西安奥卡云数据科技有限公司 Transcription factor binding site recognition discovery method and device based on Spark Streaming

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030068617A1 (en) * 2001-04-09 2003-04-10 Jorng-Tzong Horng Method for predicting regulatory elements in repetitive sequences using transcription factor binding sites

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030068617A1 (en) * 2001-04-09 2003-04-10 Jorng-Tzong Horng Method for predicting regulatory elements in repetitive sequences using transcription factor binding sites

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Bioinformatics. 2001 Nov;17(11):1019-26 *
Bioinformatics. 2003 Oct;19 Suppl 2:II50-II56 *
In Silico Biol. 1998;1(1):21-8 *
Nucleic Acids Res. 2002 Sep 1;30(17):3809-17 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11732381B2 (en) 2020-12-15 2023-08-22 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods to identify transcription factor activation domains and uses thereof

Also Published As

Publication number Publication date
KR20050065884A (en) 2005-06-30

Similar Documents

Publication Publication Date Title
US6681186B1 (en) System and method for improving the accuracy of DNA sequencing and error probability estimation through application of a mathematical model to the analysis of electropherograms
Sakakibara et al. Stochastic context-free grammers for tRNA modeling
US8095526B2 (en) Efficient retrieval of variable-length character string data
JP3672242B2 (en) PATTERN SEARCH METHOD, PATTERN SEARCH DEVICE, COMPUTER PROGRAM, AND STORAGE MEDIUM
US20110264377A1 (en) Method and system for analysing data sequences
US20140188396A1 (en) Oligomer sequences mapping
CN109545283B (en) Method for constructing phylogenetic tree based on sequence pattern mining algorithm
KR100537636B1 (en) Apparatus for predicting transcription factor binding sites based on similar sequences and method thereof
CN107563148B (en) Ion index-based integral protein identification method and system
CN103294932A (en) Reference sequence processing system and method for analyzing genome sequence
US20040153307A1 (en) Discriminative feature selection for data sequences
Zhang et al. SMOTIF: efficient structured pattern and profile motif search
CN102841988A (en) System and method for matching nucleotide sequence information
Kawulok Approximate string matching for searching DNA sequences
Gupta et al. Genetic algorithm based approach for obtaining alignment of multiple sequences
Kang et al. Mining frequent contiguous sequence patterns in biological sequences
JPH1040257A (en) Character array comparing method and assembling method using it
Psomopoulos et al. A finite state automata based technique for protein classification rules induction
CN114155910B (en) Method for predicting cancer somatic mutation function influence
CN111324638B (en) AR _ TSM-based time sequence motif association rule mining method
Li et al. Seeding with minimized subsequence
Alex et al. Hardware accelerated novel protein identification
JP4568861B2 (en) Gene expression profile comparison device
KR102380935B1 (en) System and method for searching genomic regions
JP2004234297A (en) Biological sequence information processing device

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121129

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20130730

Year of fee payment: 19