KR100753835B1 - 유전자 조절 관계 예측 방법 및 장치 - Google Patents

유전자 조절 관계 예측 방법 및 장치 Download PDF

Info

Publication number
KR100753835B1
KR100753835B1 KR1020060045828A KR20060045828A KR100753835B1 KR 100753835 B1 KR100753835 B1 KR 100753835B1 KR 1020060045828 A KR1020060045828 A KR 1020060045828A KR 20060045828 A KR20060045828 A KR 20060045828A KR 100753835 B1 KR100753835 B1 KR 100753835B1
Authority
KR
South Korea
Prior art keywords
character
gene
trailing
encoding
svm
Prior art date
Application number
KR1020060045828A
Other languages
English (en)
Other versions
KR20070061104A (ko
Inventor
김지은
박선희
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20070061104A publication Critical patent/KR20070061104A/ko
Application granted granted Critical
Publication of KR100753835B1 publication Critical patent/KR100753835B1/ko

Links

Images

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 문자 인코딩 및 SVM 검증을 이용한 유전자 조절 관계 예측 방법 및 장치에 관한 것이다. 본 발명에 따른 유전자 조절 관계 예측 방법은 (a) 각 시점에서의 유전자들의 발현도를 실수 값으로 나타내는 유전자 발현 프로파일 데이터를 이용하여 인접한 두 시점의 유전자 발현도의 변화를 계산하고 상기 변화의 정도를 증가, 일정 및 감소로 분류하고 그에 따라 3 종류의 문자로 인코딩함으로써 각 유전자의 발현 프로파일 데이터를 3 종류의 문자로 구성된 스트링으로 인코딩하는 단계; (b) 상기 유전자 발현도의 증가를 나타내는 문자, 일정을 나타내는 문자 및 감소를 나타내는 문자로 구성된 스트링에 있어서 선행 문자 및 후행 문자의 배열 조합에 따라 상기 3 종류의 문자로 구성된 스트링을 6 종류로 구성된 문자 스트링으로 인코딩하는 단계; 및 (c) 상기 인코딩 된 복수의 6 종류로 구성된 문자 스트링들 중 유전자 조절 관계를 예측하고자 하는 한 쌍의 유전자의 6 종류로 구성된 문자 스트링을 서포트 벡터 머신(SVM)에 입력하여 SVM 검증을 수행하는 단계;를 포함한다. 본 발명에 따르면 마이크로어레이 실험 등으로부터 얻어지는 유전자 발현 프로파일 데이터를 이용하여 유전자 조절 관계를 높은 정확도로 예측할 수 있다.

Description

유전자 조절 관계 예측 방법 및 장치{Method and device for predicting regulatory relationship of genes}
도 1은 본 발명의 바람직한 실시예에 따른 유전자 조절 관계 예측 방법을 도시하는 순서도이다.
도 2는 도 1의 3 종류의 문자 스트링으로 인코딩하는 과정의 바람직한 실시예를 도시하는 순서도이다.
도 3은 도 1의 SVM 검증 과정의 바람직한 실시예를 도시하는 순서도이다.
도 4는 본 발명의 바람직한 실시예에 따른 유전자 조절 관계 예측 장치의 구성을 도시하는 블록도이다.
본 발명은 마이크로어레이 실험 등으로부터 얻어지는 유전자 발현 프로파일 데이터를 이용하여 유전자 조절 관계를 예측하는 방법 및 장치에 관한 것이다.
유전자 조절 관계란 하나의 유전자의 발현이 전사 인자 등을 통해 다른 유전자의 전사 또는 발현을 조절하는 관계를 말한다. 상기 유전자 조절 관계는 포스트 게놈 생물학에서 중심적인 문제이다. 상기 유전자 조절 관계는 유전자 발현 데이 터를 조사함으로써 용이하게 결정될 수 있다고 생각할 수도 있다. 하지만, 상기 유전자 쌍의 발현 시간 추이 사이의 관계는 명확하지 않다.
유전자 조절 관계의 이해는 성장 제어, 세포 주기 진행 및 발생과 같은 기초적인 세포 과정, 및 호르몬 분비 및 세포-세포 커뮤니케이션과 같은 분화된 세포 기능의 이해에 중요하다. 기초적인 수준에 있어서, 전사되는 유전자 및 상기 유전자 전사 시기를 결정한다. 발현을 제어하는 인자의 결정은 다수의 인간 질병에서 보편적인 잘못 조절된 발현에 대한 추가적인 통찰력을 제공할 수 있다.
마이크로어레이 실험을 통해 얻어지는 유전자 프로파일 데이터는 유전자의 발현 양상을 나타내 주며, 조절 관계에 있는 유전자 쌍들은 상기 발현 양상 또한 유사하게 나타난다. 따라서 발현 양상이 유사한 유전자 쌍을 찾으면 그 유전자 쌍은 조절 관계가 있다고 예측할 수 있다.
유전자의 조절 관계를 예측하기 위해서 지금까지 다양한 방법들이 시도되어 왔다. 예컨대, 유전자 프로파일 사이의 유사성을 계산하는 여러 가지 방법들이 제안되었다. 다른 방법으로서, 시간 지연을 고려하여 조절 관계에 있는 유전자 쌍의 관계 패턴을 고찰하는 방법들이 개발되었다. 또한, 상기 분석적인 방법들과는 달리 기계 학습을 통해서 예측하는 방법도 제안되었다.
상기 종래 방법들은 유전자 조절 관계 예측의 정확도를 향상시키기 위한 방향으로 진행되어 왔다. 하지만, 여전히 예측 결과의 False Positive는 높고 True Positive는 낮은 실정이다.
본 발명은 상기 종래 기술의 문제점들을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 높은 정확도로 유전자 조절 관계를 예측할 수 있는 방법을 제공하는 것이다.
본 발명의 다른 목적은 높은 정확도로 유전자 조절 관계를 예측할 수 있는 장치를 제공하는 것이다.
본 발명의 목적을 달성하기 위하여, 본 발명은 (a) 각 시점에서의 유전자들의 발현도를 실수 값으로 나타내는 유전자 발현 프로파일 데이터를 이용하여 인접한 두 시점의 유전자 발현도의 변화를 계산하고 상기 변화의 정도를 증가, 일정 및 감소로 분류하고 그에 따라 3 종류의 문자로 인코딩함으로써 각 유전자의 발현 프로파일 데이터를 3 종류의 문자로 구성된 스트링으로 인코딩하는 단계; (b) 상기 유전자 발현도의 증가를 나타내는 문자, 일정을 나타내는 문자 및 감소를 나타내는 문자로 구성된 스트링에 있어서 선행 문자 및 후행 문자의 배열 조합에 따라 상기 3 종류의 문자로 구성된 스트링을 6 종류로 구성된 문자 스트링으로 인코딩하는 단계; 및 (c) 상기 인코딩 된 복수의 6 종류로 구성된 문자 스트링들 중 유전자 조절 관계를 예측하고자 하는 한 쌍의 유전자의 6 종류로 구성된 문자 스트링을 서포트 벡터 머신(SVM)에 입력하여 SVM 검증을 수행하는 단계를 포함하는 유전자 조절 관계 예측 방법을 제공한다.
본 발명의 일 구체예에 있어서, 상기 변화 정도를 상기 인접한 두 시점의 유전자 발현도의 변화가 0.2 이상인 경우 증가, -0.2 초과 및 0.2 미만인 경우 일정, 및 -0.2 이하인 경우 감소로 분류할 수 있다.
본 발명의 일 구체예에 있어서, 상기 인접한 두 시점의 유전자 발현도가 증가하는 경우 R 문자, 일정한 경우 C 문자, 및 감소하는 경우 F 문자로 인코딩할 수 있다.
본 발명의 일 구체예에 있어서, 상기 6 종류로 구성된 문자 스트링을 인코딩하는 단계는 (b1) 선행 문자가 R인 경우 후행 문자가 R이면 R로, 후행 문자가 C이면 T로, 및 후행 문자가 F이면 M으로 인코딩하는 단계; (b2) 선행 문자가 C인 경우 후행 문자가 R이면 T로, 후행 문자가 C이면 W로, 및 후행 문자가 F이면 S로 인코딩하는 단계; 및 (b3) 선행 문자가 F인 경우 후행 문자가 R이면 V로, 후행 문자가 C이면 S로, 및 후행 문자가 F이면 F로 인코딩하는 단계를 포함하고, 상기 W는 연속하는 C 문자들의 선행 및 후행 문자가 각각 R인 경우 T로, 각각 F인 경우 S로, 각각 R 및 F인 경우 M으로, 및 각각 F 및 R인 경우 V로 인코딩할 수 있다.
본 발명의 일 구체예에 있어서, 상기 SVM 검증 단계는 (c1) 유전자 조절 관계가 존재하는 것으로 검증된 유전자 쌍들의 6 종류로 구성된 문자 스트링으로 구성된 포지티브 학습 세트들을 생성하고 입력하여 SVM을 학습시키는 단계; (c2) 유전자 조절 관계가 존재하지 않는 것으로 검증된 유전자 쌍들의 6 종류로 구성된 문자 스트링으로 구성된 네거티브 학습 세트들을 생성하고 입력하여 SVM을 학습시키는 단계; 및 (c3) 상기 학습된 SVM에 예측하고자 하는 한 쌍의 유전자의 6 종류로 구성된 문자 스트링으로 구성된 테스트 세트를 생성하고 입력하여 상기 한 쌍의 유전자의 조절 관계를 예측하는 단계를 포함할 수 있다.
본 발명의 일 구체예에 있어서, 상기 유전자 조절 관계 예측 방법은 상기 인코딩 단계 이전에 유전자 발현 프로파일 데이터를 전처리하는 단계; 및 상기 전처리된 유전자 발현 프로파일 데이터를 파싱하고 각 시점에서의 실수값으로 변환하는 단계를 추가로 포함할 수 있다.
본 발명의 다른 목적을 달성하기 위하여, 본 발명은 각 시점에서의 유전자들의 발현도를 실수 값으로 나타내는 유전자 발현 프로파일 데이터를 이용하여 인접한 두 시점의 유전자 발현도의 변화를 계산하고 상기 변화의 정도를 증가, 일정 및 감소로 분류하고 그에 따라 3 종류의 문자로 인코딩함으로써 각 유전자의 발현 프로파일 데이터를 3 종류의 문자로 구성된 스트링으로 인코딩하는 일차 인코딩부; 상기 유전자 발현도의 증가를 나타내는 문자, 일정을 나타내는 문자 및 감소를 나타내는 문자로 구성된 스트링에 있어서 선행 문자 및 후행 문자의 배열 조합에 따라 상기 3 종류의 문자로 구성된 스트링을 6 종류로 구성된 문자 스트링으로 인코딩하는 이차 인코딩부; 및 상기 인코딩 된 복수의 6 종류로 구성된 문자 스트링들 중 유전자 조절 관계를 예측하고자 하는 한 쌍의 유전자의 6 종류로 구성된 문자 스트링을 수신하여 SVM 검증을 수행하는 SVM 검증부를 포함하는 유전자 조절 관계 예측 장치를 제공한다.
본 발명의 일 구체예에 있어서, 상기 변화 정도를 상기 인접한 두 시점의 유전자 발현도의 변화가 0.2 이상인 경우 증가, -0.2 초과 및 0.2 미만인 경우 일정, 및 -0.2 이하인 경우 감소로 분류할 수 있다.
본 발명의 일 구체예에 있어서, 상기 인접한 두 시점의 유전자 발현도가 증 가하는 경우 R 문자, 일정한 경우 C 문자, 및 감소하는 경우 F 문자로 인코딩할 수 있다.
본 발명의 일 구체예에 있어서, 상기 이차 인코딩부는 (b1) 선행 문자가 R인 경우 후행 문자가 R이면 R로, 후행 문자가 C이면 T로, 및 후행 문자가 F이면 M으로 인코딩하는 단계; (b2) 선행 문자가 C인 경우 후행 문자가 R이면 T로, 후행 문자가 C이면 W로, 및 후행 문자가 F이면 S로 인코딩하는 단계; 및 (b3) 선행 문자가 F인 경우 후행 문자가 R이면 V로, 후행 문자가 C이면 S로, 및 후행 문자가 F이면 F로 인코딩하는 단계를 수행하고, 상기 W는 연속하는 C 문자들의 선행 및 후행 문자가 각각 R인 경우 T로, 각각 F인 경우 S로, 각각 R 및 F인 경우 M으로, 및 각각 F 및 R인 경우 V로 인코딩할 수 있다.
본 발명의 일 구체예에 있어서, 상기 SVM 검증부는 (c1) 유전자 조절 관계가 존재하는 것으로 검증된 유전자 쌍들의 6 종류로 구성된 문자 스트링으로 구성된 포지티브 학습 세트들을 수신하고 학습하는 단계; (c2) 유전자 조절 관계가 존재하지 않는 것으로 검증된 유전자 쌍들의 6 종류로 구성된 문자 스트링으로 구성된 네거티브 학습 세트들을 수신하고 학습하는 단계; 및 (c3) 상기 학습된 SVM에 예측하고자 하는 한 쌍의 유전자의 6 종류로 구성된 문자 스트링으로 구성된 테스트 세트를 수신하여 상기 한 쌍의 유전자의 조절 관계를 예측하는 단계를 수행할 수 있다.
이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 설명한다.
도 1은 본 발명의 바람직한 실시예에 따른 유전자 조절 관계 예측 방법을 도 시하는 순서도이다.
도 1을 참조하면, 본 발명의 바람직한 실시예에 따른 유전자 조절 관계 예측 방법은 유전자 발현 프로파일 데이터를 전처리 하는 단계(11); 상기 전처리된 데이터를 파싱하고 실수값으로 변환하는 단계(12); 상기 변환된 데이터를 3 종류의 문자 스트링으로 인코딩하는 단계(13); 상기 인코딩 된 스트링을 다시 6 종류의 문자 스트링으로 인코딩 하는 단계(14); 및 상기 인코딩 된 스트링을 입력하여 SVM 검증을 수행하는 단계(15)를 포함한다.
상기 전처리 단계(11)는 마이크로어레이 실험 등으로부터 얻어진 유전자 발현 프로파일 데이터를 컴퓨터에서 분석할 수 있는 형태로 변환하는 과정으로, 예컨대 누락 데이터 값 처리 및 데이터의 정규화 과정을 포함할 수 있다.
상기 파싱 및 실수값 변환 단계(12)는 상기 전처리된 데이터를 컴퓨터에서 다루기 쉬운 자료구조에 저장하기 위해서 수행한다. 그에 의해 유전자 발현 프로파일데이터는 동일한 시점 상에서 실수로 표현된다.
상기 3 종류의 문자로 구성된 스트링으로 인코딩하는 단계(13)는 각 시점에서의 유전자들의 발현도를 실수 값으로 나타내는 유전자 발현 프로파일 데이터를 이용하여 인접한 두 시점의 유전자 발현도의 변화를 계산하고 상기 변화의 정도에 따라 3 종류의 문자로 인코딩하여 각 유전자의 발현 프로파일 데이터를 3 종류의 문자로 구성된 스트링으로 인코딩한다.
상기 인접한 두 시점의 유전자 발현도의 변화 정도를 증가, 일정 및 감소로 분류하는 것이 바람직하다.
도 2는 도 1의 3 종류의 문자 스트링으로 인코딩하는 과정(13)의 바람직한 실시예를 도시하는 순서도이다.
도 2를 참조하면, 각 유전자의 시간에 따른 발현도의 변화를 3 종류의 문자 스트링으로 인코딩하기 위해, 유전자 발현도의 변화, 즉 각 시점에서 인접하는 후행 시점과의 발현도 차이를 계산한다(21).
상기 유전자 발현도의 변화가 0.2 이상인 경우 증가, -0.2 초과 및 0.2 미만인 경우 일정, 및 -0.2 이하인 경우 감소로 분류하고, 상기 증가의 경우 R 문자로(23), 일정한 경우 C로(26), 감소하는 경우 F(25)로 인코딩할 수 있다. 상기 인코딩된 문자는 예시적이며, 그에 한정되는 것은 아니다.
예컨대, 어느 한 유전자의 일정 시간에 따른 발현도가 0, 1, 2, 3, 3.3, 3.4, 3.4, 2.5, 2.1인 경우 RRRRCCFF로 인코딩 된다.
상기와 같이 일차적으로 RCF 인코딩 작업이 수행되면 실수 값으로 표현되었던 유전자 발현 프로파일이 RCF 스트링으로 인코딩된다.
상기 6 종류로 구성된 문자 스트링으로 인코딩하는 단계(14)는 상기 3 종류로 구성된 문자 스트링으로부터 상기 각 유전자의 3 종류의 문자로 구성된 스트링의 문자 배열에 따라 수행된다.
본 발명은 종래의 인코딩 기법을 세분화하여 각 유전자의 발현 양상의 변화 추이에 있어서 기존의 기법이 표현하지 못했던 특징들까지 표현함으로써 조절관계에 관여할 때 보이는 변화추이들을 놓치지 않고 고려할 수 있다.
본 발명의 바람직한 실시예에 있어서, 상기 인코딩 단계(14)는 MVRFST의 6개 의 문자로 구성된 문자 스트링으로 인코딩할 수 있다. RCF 문자 스트링의 배열에 따른 MVRFST 문자 스트링으로의 인코딩의 구체적인 방법을 표 1 및 표 2에 나타내었다. 표 1의 W는 RCF 스트링의 인접 문자만으로는 결정하지 못한 경우로 인접한 2개의 문자 이외에 좌우로 관련된 문자를 보고 결정하는 것으로, 그의 구체적인 방법은 표 2에 나타내었다. 표 2에 있어서, Cn은 C 문자가 n번 반복됨을 의미한다.
<표 1>
후행문자 선행문자 R C F
R R T M
C T W S
F V S F
<표 2>
RCnR FCnF RCnF FCnR
T S M V
예컨대, 어느 한 유전자의 3 종류 문자 스트링이 RCRFFCR인 경우 TTMFST로 인코딩 되고, 상기에서 예로 들었던 RRRRCCFF인 경우 RRRMF로 인코딩 된다. 상기 인코딩된 문자는 예시적이며, 그에 한정되는 것은 아니다.
상기 SVM 검증 단계(15)는 상기 인코딩 된 복수의 6 종류로 구성된 문자 스트링들 중 유전자 조절 관계를 예측하고자 하는 한 쌍의 유전자의 6 종류로 구성된 문자 스트링을 서포트 벡터 머신(SVM)에 입력하여 SVM 검증을 수행한다.
도 3은 도 1의 SVM 검증 과정의 바람직한 실시예를 도시하는 순서도이다.
도 3을 참조하면, 상기 SVM 검증 단계는 (c1) 유전자 조절 관계가 존재하는 것으로 검증된 유전자 쌍들의 6 종류로 구성된 문자 스트링으로 구성된 포지티브 학습 세트들을 생성하고 입력하여 SVM을 학습시키는 단계(31); (c2) 유전자 조절 관계가 존재하지 않는 것으로 검증된 유전자 쌍들의 6 종류로 구성된 문자 스트링으로 구성된 네거티브 학습 세트들을 생성하고 입력하여 SVM을 학습시키는 단계(32); 및 (c3) 상기 학습된 SVM에 예측하고자 하는 한 쌍의 유전자의 6 종류로 구성된 문자 스트링으로 구성된 테스트 세트를 생성하고 입력하여 상기 한 쌍의 유전자의 조절 관계를 예측하는 단계(33)를 포함한다.
상기 SVM 검증 결과 상기 테스트 세트는 상기 포지티브 학습 세트 및 네거티브 학습 세트 중 어느 하나로 분류되고, 그에 따라 상기 예측하고자 하는 한 쌍의 유전자들 사이에 조절 관계가 존재하는지 여부를 높은 정확도로 예측할 수 있다.
도 4는 본 발명의 바람직한 실시예에 따른 유전자 조절 관계 예측 장치의 구성을 도시하는 블록도이다.
도 4를 참조하면, 본 발명에 따른 유전자 조절 관계 예측 장치는 각 시점에서의 유전자들의 발현도를 실수 값으로 나타내는 유전자 발현 프로파일 데이터를 이용하여 인접한 두 시점의 유전자 발현도의 변화를 계산하고 상기 변화의 정도에 따라 3 종류의 문자로 인코딩하여 각 유전자의 발현 프로파일 데이터를 3 종류의 문자로 구성된 스트링으로 인코딩하는 일차 인코딩부(41); 상기 각 유전자의 3 종류의 문자로 구성된 스트링의 문자 배열에 따라 상기 3 종류로 구성된 문자 스트링을 6 종류로 구성된 문자 스트링으로 인코딩하는 이차 인코딩부(42); 및 상기 인코딩 된 복수의 6 종류로 구성된 문자 스트링들 중 유전자 조절 관계를 예측하고자 하는 한 쌍의 유전자의 6 종류로 구성된 문자 스트링을 수신하여 SVM 검증을 수행 하는 SVM 검증부(43)를 포함한다.
상기 일차 인코딩부(41)에 있어서, 상기 인접한 두 시점의 유전자 발현도의 변화 정도를 증가, 일정 및 감소로 분류할 수 있다. 또한, 상기 변화 정도를 상기 인접한 두 시점의 유전자 발현도의 변화가 0.2 이상인 경우 증가, -0.2 초과 및 0.2 미만인 경우 일정, 및 -0.2 이하인 경우 감소로 분류할 수 있다. 또한, 상기 인접한 두 시점의 유전자 발현도가 증가하는 경우 R 문자, 일정한 경우 C 문자, 및 감소하는 경우 F 문자로 인코딩할 수 있다.
상기 이차 인코딩부(42)는 (b1) 선행 문자가 R인 경우 후행 문자가 R이면 R로, 후행 문자가 C이면 T로, 및 후행 문자가 F이면 M으로 인코딩하는 단계; (b2) 선행 문자가 C인 경우 후행 문자가 R이면 T로, 후행 문자가 C이면 W로, 및 후행 문자가 F이면 S로 인코딩하는 단계; 및 (b3) 선행 문자가 F인 경우 후행 문자가 R이면 V로, 후행 문자가 C이면 S로, 및 후행 문자가 F이면 F로 인코딩하는 단계를 수행할 수 있고, 상기 W는 연속하는 C 문자들의 선행 및 후행 문자가 각각 R인 경우 T로, 각각 F인 경우 S로, 각각 R 및 F인 경우 M으로, 및 각각 F 및 R인 경우 V로 인코딩할 수 있다.
상기 SVM 검증부(43)는 (c1) 유전자 조절 관계가 존재하는 것으로 검증된 유전자 쌍들의 6 종류로 구성된 문자 스트링으로 구성된 포지티브 학습 세트들을 수신하고 학습하는 단계; (c2) 유전자 조절 관계가 존재하지 않는 것으로 검증된 유전자 쌍들의 6 종류로 구성된 문자 스트링으로 구성된 네거티브 학습 세트들을 수신하고 학습하는 단계; 및 (c3) 상기 학습된 SVM에 예측하고자 하는 한 쌍의 유전 자의 6 종류로 구성된 문자 스트링으로 구성된 테스트 세트를 수신하여 상기 한 쌍의 유전자의 조절 관계를 예측하는 단계를 수행할 수 있다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이상 도면과 명세서에서 최적 실시예들이 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
상기에서 살펴본 바와 같이, 본 발명에 따르면 마이크로어레이 실험 등으로부터 얻어지는 유전자 발현 프로파일 데이터를 이용하여 유전자 조절 관계를 높은 정확도로 예측할 수 있다.

Claims (11)

  1. (a) 각 시점에서의 유전자들의 발현도를 실수 값으로 나타내는 유전자 발현 프로파일 데이터를 이용하여 인접한 두 시점의 유전자 발현도의 변화를 계산하고 상기 변화의 정도를 증가, 일정 및 감소로 분류하고 그에 따라 3 종류의 문자로 인코딩함으로써 각 유전자의 발현 프로파일 데이터를 3 종류의 문자로 구성된 스트링으로 인코딩하는 단계;
    (b) 상기 유전자 발현도의 증가를 나타내는 문자, 일정을 나타내는 문자 및 감소를 나타내는 문자로 구성된 스트링에 있어서 선행 문자 및 후행 문자의 배열 조합에 따라 상기 3 종류의 문자로 구성된 스트링을 6 종류로 구성된 문자 스트링으로 인코딩하는 단계; 및
    (c) 상기 인코딩 된 복수의 6 종류로 구성된 문자 스트링들 중 유전자 조절 관계를 예측하고자 하는 한 쌍의 유전자의 6 종류로 구성된 문자 스트링을 서포트 벡터 머신(SVM)에 입력하여 SVM 검증을 수행하는 단계를 포함하는 유전자 조절 관계 예측 방법.
  2. 제 1항에 있어서,
    상기 변화 정도를 상기 인접한 두 시점의 유전자 발현도의 변화가 0.2 이상인 경우 증가, -0.2 초과 및 0.2 미만인 경우 일정, 및 -0.2 이하인 경우 감소로 분류하는 것을 특징으로 하는 유전자 조절 관계 예측 방법.
  3. 제 1항에 있어서,
    상기 인접한 두 시점의 유전자 발현도가 증가하는 경우 R 문자, 일정한 경우 C 문자, 및 감소하는 경우 F 문자로 인코딩하는 것을 특징으로 하는 유전자 조절 관계 예측 방법.
  4. 제 3항에 있어서,
    상기 6 종류로 구성된 문자 스트링을 인코딩하는 단계는
    (b1) 선행 문자가 R인 경우 후행 문자가 R이면 R로, 후행 문자가 C이면 T로, 및 후행 문자가 F이면 M으로 인코딩하는 단계;
    (b2) 선행 문자가 C인 경우 후행 문자가 R이면 T로, 후행 문자가 C이면 W로, 및 후행 문자가 F이면 S로 인코딩하는 단계; 및
    (b3) 선행 문자가 F인 경우 후행 문자가 R이면 V로, 후행 문자가 C이면 S로, 및 후행 문자가 F이면 F로 인코딩하는 단계를 포함하고,
    상기 W는 연속하는 C 문자들의 선행 및 후행 문자가 각각 R인 경우 T로, 각각 F인 경우 S로, 각각 R 및 F인 경우 M으로, 및 각각 F 및 R인 경우 V로 인코딩하는 것을 특징으로 하는 유전자 조절 관계 예측 방법.
  5. 제 1항에 있어서,
    상기 SVM 검증 단계는
    (c1) 유전자 조절 관계가 존재하는 것으로 검증된 유전자 쌍들의 6 종류로 구성된 문자 스트링으로 구성된 포지티브 학습 세트들을 생성하고 입력하여 SVM을 학습시키는 단계;
    (c2) 유전자 조절 관계가 존재하지 않는 것으로 검증된 유전자 쌍들의 6 종류로 구성된 문자 스트링으로 구성된 네거티브 학습 세트들을 생성하고 입력하여 SVM을 학습시키는 단계; 및
    (c3) 상기 학습된 SVM에 예측하고자 하는 한 쌍의 유전자의 6 종류로 구성된 문자 스트링으로 구성된 테스트 세트를 생성하고 입력하여 상기 한 쌍의 유전자의 조절 관계를 예측하는 단계를 포함하는 것을 특징으로 하는 유전자 조절 관계 예측 방법.
  6. 제 1항에 있어서,
    상기 인코딩 단계 이전에 유전자 발현 프로파일 데이터를 전처리하는 단계; 및 상기 전처리된 유전자 발현 프로파일 데이터를 파싱하고 각 시점에서의 실수값으로 변환하는 단계를 추가로 포함하는 것을 특징으로 하는 유전자 조절 관계 예측 방법.
  7. 각 시점에서의 유전자들의 발현도를 실수 값으로 나타내는 유전자 발현 프로파일 데이터를 이용하여 인접한 두 시점의 유전자 발현도의 변화를 계산하고 상기 변화의 정도를 증가, 일정 및 감소로 분류하고 그에 따라 3 종류의 문자로 인코딩 함으로써 각 유전자의 발현 프로파일 데이터를 3 종류의 문자로 구성된 스트링으로 인코딩하는 일차 인코딩부;
    상기 유전자 발현도의 증가를 나타내는 문자, 일정을 나타내는 문자 및 감소를 나타내는 문자로 구성된 스트링에 있어서 선행 문자 및 후행 문자의 배열 조합에 따라 상기 3 종류의 문자로 구성된 스트링을 6 종류로 구성된 문자 스트링으로 인코딩하는 이차 인코딩부; 및
    상기 인코딩 된 복수의 6 종류로 구성된 문자 스트링들 중 유전자 조절 관계를 예측하고자 하는 한 쌍의 유전자의 6 종류로 구성된 문자 스트링을 수신하여 SVM 검증을 수행하는 SVM 검증부를 포함하는 유전자 조절 관계 예측 장치.
  8. 제 7항에 있어서,
    상기 변화 정도를 상기 인접한 두 시점의 유전자 발현도의 변화가 0.2 이상인 경우 증가, -0.2 초과 및 0.2 미만인 경우 일정, 및 -0.2 이하인 경우 감소로 분류하는 것을 특징으로 하는 유전자 조절 관계 예측 장치.
  9. 제 7항에 있어서,
    상기 인접한 두 시점의 유전자 발현도가 증가하는 경우 R 문자, 일정한 경우 C 문자, 및 감소하는 경우 F 문자로 인코딩하는 것을 특징으로 하는 유전자 조절 관계 예측 장치.
  10. 제 9항에 있어서,
    상기 이차 인코딩부는
    (b1) 선행 문자가 R인 경우 후행 문자가 R이면 R로, 후행 문자가 C이면 T로, 및 후행 문자가 F이면 M으로 인코딩하는 단계;
    (b2) 선행 문자가 C인 경우 후행 문자가 R이면 T로, 후행 문자가 C이면 W로, 및 후행 문자가 F이면 S로 인코딩하는 단계; 및
    (b3) 선행 문자가 F인 경우 후행 문자가 R이면 V로, 후행 문자가 C이면 S로, 및 후행 문자가 F이면 F로 인코딩하는 단계를 수행하고,
    상기 W는 연속하는 C 문자들의 선행 및 후행 문자가 각각 R인 경우 T로, 각각 F인 경우 S로, 각각 R 및 F인 경우 M으로, 및 각각 F 및 R인 경우 V로 인코딩하는 것을 특징으로 하는 유전자 조절 관계 예측 장치.
  11. 제 7항에 있어서,
    상기 SVM 검증부는
    (c1) 유전자 조절 관계가 존재하는 것으로 검증된 유전자 쌍들의 6 종류로 구성된 문자 스트링으로 구성된 포지티브 학습 세트들을 수신하고 학습하는 단계;
    (c2) 유전자 조절 관계가 존재하지 않는 것으로 검증된 유전자 쌍들의 6 종류로 구성된 문자 스트링으로 구성된 네거티브 학습 세트들을 수신하고 학습하는 단계; 및
    (c3) 상기 학습된 SVM에 예측하고자 하는 한 쌍의 유전자의 6 종류로 구성된 문자 스트링으로 구성된 테스트 세트를 수신하여 상기 한 쌍의 유전자의 조절 관계를 예측하는 단계를 수행하는 것을 특징으로 하는 유전자 조절 관계 예측 장치.
KR1020060045828A 2005-12-08 2006-05-22 유전자 조절 관계 예측 방법 및 장치 KR100753835B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20050119304 2005-12-08
KR1020050119304 2005-12-08

Publications (2)

Publication Number Publication Date
KR20070061104A KR20070061104A (ko) 2007-06-13
KR100753835B1 true KR100753835B1 (ko) 2007-08-31

Family

ID=38357040

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060045828A KR100753835B1 (ko) 2005-12-08 2006-05-22 유전자 조절 관계 예측 방법 및 장치

Country Status (1)

Country Link
KR (1) KR100753835B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855385B (zh) * 2012-07-31 2016-07-06 上海交通大学 一种风力发电短期负荷预测方法
CN105184402B (zh) * 2015-08-31 2018-08-03 国家电网公司 一种基于决策树的个性化用户短期负荷预测算法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003141123A (ja) 2001-10-30 2003-05-16 Mamoru Kato 遺伝子発現量データと遺伝子配列データから、遺伝子間の制御関係を推定するプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004178020A (ja) 2002-11-22 2004-06-24 System Biology Kenkyu Kiko 発現制御関係推定装置、発現制御関係推定方法、プログラム、および、記録媒体
JP2004240975A (ja) 2003-02-03 2004-08-26 Samsung Electronics Co Ltd Dna配列符号化装置及び方法
KR20050096044A (ko) * 2004-03-29 2005-10-05 주식회사 이즈텍 유전자 기능 분석 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003141123A (ja) 2001-10-30 2003-05-16 Mamoru Kato 遺伝子発現量データと遺伝子配列データから、遺伝子間の制御関係を推定するプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004178020A (ja) 2002-11-22 2004-06-24 System Biology Kenkyu Kiko 発現制御関係推定装置、発現制御関係推定方法、プログラム、および、記録媒体
JP2004240975A (ja) 2003-02-03 2004-08-26 Samsung Electronics Co Ltd Dna配列符号化装置及び方法
KR20050096044A (ko) * 2004-03-29 2005-10-05 주식회사 이즈텍 유전자 기능 분석 방법

Also Published As

Publication number Publication date
KR20070061104A (ko) 2007-06-13

Similar Documents

Publication Publication Date Title
CN111626063B (zh) 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统
US5768422A (en) Method for training an adaptive statistical classifier to discriminate against inproper patterns
CN112269868B (zh) 一种基于多任务联合训练的机器阅读理解模型的使用方法
CN108038492A (zh) 一种基于深度学习的感性词向量及情感分类方法
US5796863A (en) Method for training an adaptive statistical classifier to balance unigram prior factors
CN1302427A (zh) 用于说话者认证的模型自适应系统和方法
CN110866113B (zh) 基于稀疏自注意力机制微调伯特模型的文本分类方法
Strauß et al. ICFHR2018 competition on automated text recognition on a READ dataset
CN111477247A (zh) 基于gan的语音对抗样本生成方法
CN110705399A (zh) 一种数学公式自动识别的方法
CN112990196A (zh) 基于超参数搜索和二阶段训练的场景文字识别方法及系统
Leskovec et al. Linear programming boosting for uneven datasets
KR100753835B1 (ko) 유전자 조절 관계 예측 방법 및 장치
WO2021217866A1 (zh) 用于ai智能面试的识别的方法、装置、计算机设备及存储介质
CN117033961A (zh) 一种上下文语境感知的多模态图文分类方法
CN111414473A (zh) 半监督分类方法和系统
CN111209399A (zh) 文本分类方法、装置和电子设备
CN116361655A (zh) 模型训练方法、标准问题的预测方法、装置、设备及介质
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN110781814A (zh) 一种基于高斯混合神经网络模型的信号分类方法、设备及介质
CN113283240B (zh) 共指消解方法及电子设备
CN110427613B (zh) 一种近义词发现方法及其系统、计算机可读存储介质
CN113345420B (zh) 基于萤火虫算法与梯度评估的对抗音频生成方法及系统
CN115659958B (zh) 一种中文拼写错误检查方法
CN110705268B (zh) 基于人工智能的文章主旨提取方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110729

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee