KR100797400B1

KR100797400B1 - 주성분분석 및 자동상관을 이용한 단백질 구조 비교 장치및 그 방법

Info

Publication number: KR100797400B1
Application number: KR1020060121752A
Authority: KR
Inventors: 김대희; 박성희; 박찬용; 박수준; 박선희
Original assignee: 한국전자통신연구원
Priority date: 2006-12-04
Filing date: 2006-12-04
Publication date: 2008-01-28
Also published as: US20080133632A1

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야

본 발명은 주성분분석(PCA) 및 자동상관(Autocorrelation)을 이용한 단백질 구조 비교 장치 및 그 방법에 관한 것임.

2. 발명이 해결하려고 하는 기술적 과제

본 발명은 입력 단백질의 좌표에 대해 주성분분석(PCA : Principal Components Analysis)을 이용하여 대략적인 주축방향을 설정하고, 세밀한 구조 정렬을 위하여 전체 영역을 그리드로 나눈 후 단백질을 해당 영역 안에 위치시켜 박셀(Voxel) 형태로 단백질을 만든 후 비교하려는 단백질과 자동상관(Autocorrelation) 연산을 수행하여 유사도를 산출하기 위한 단백질 구조 비교 장치 및 그 방법을 제공하는데 그 목적이 있음.

3. 발명의 해결방법의 요지

본 발명은, 단백질 구조 비교 장치에 있어서, 외부로부터 질의 단백질을 입력받아 주축을 추출하기 위한 주성분분석(PCA) 연산 수단; 상기 주성분분석(PCA) 연산 수단으로부터 주축 추출 결과를 입력받아 전체 영역을 그리드로 나누어 단백질 포함 여부를 판단하여 박셀(Voxel)을 생성하기 위한 박셀(Voxel) 생성 수단; 및 상기 박셀(Voxel) 생성 수단에서 생성한 단백질 박셀(Voxel) 간의 자동상관(Autocorrelation) 연산을 수행하여 유사도를 산출하기 위한 비교 연산 처리 수단을 포함함.

4. 발명의 중요한 용도

본 발명은 단백질 구조 비교 시스템 등에 이용됨.

단백질 구조 비교, 주성분분석(PCA), 주축방향 추출, 박셀(Voxel) 생성, 자동상관(Autocorrelation), FFT 연산

Description

주성분분석 및 자동상관을 이용한 단백질 구조 비교 장치 및 그 방법{Apparatus and Method for Protein Structure Comparison Using Principal Components Analysis and Autocorrelation}

도 1은 본 발명에 따른 주성분분석(PCA) 및 자동상관(Autocorrelation)을 이용한 단백질 구조 비교 장치의 일실시예 구성도,

도 2a는 본 발명에 따른 주성분분석(PCA) 결과에 의해 구해진 제 1 주축 및 제 2 주축의 일예시도,

도 2b는 본 발명에 따른 도 2a와 모양은 다르나 주축의 방향이 같은 경우의 일예시도,

도 3은 본 발명에 따른 주성분분석(PCA)을 이용한 정렬 과정에 대한 일예시도,

도 4a는 본 발명에 따른 90*90*90 영역의 예시도,

도 4b는 본 발명에 따른 2차원 영역에서의 예시도,

도 5는 본 발명에 따른 자동상관(Autocorrelation) 과정에 대한 일예시도,

도 6은 본 발명에 따른 도 5의 경우에 있어서 최적 정렬의 일예시도,

도 7은 본 발명에 따른 주성분분석(PCA) 및 자동상관(Autocorrelation)을 이 용한 단백질 구조 비교 방법에 대한 일실시예 흐름도이다.

* 도면의 주요 부분에 대한 부호의 설명

110 : 주성분분석(PCA) 연산부 120 : 박셀(Voxel) 생성부

130 : 비교 연산 처리부

본 발명은 단백질 구조가 유사하면 그 유사 구조를 가지는 단백질의 기능이 비슷한 점을 이용하여 단백질들 사이의 구조 유사성을 찾기 위한 단백질 구조 비교 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 단백질 3차원 구조공간상에서 원자들의 집합체인 단백질을 하나의 형태로 간주하여, 이 형태의 특징 추출을 위해 주성분분석(PCA : Principal Components Analysis)을 이용하고, 보다 세밀한 구조 비교를 위해 영역을 그리드로 나눈 후 자동상관(Autocorrelation) 연산을 통해 유사도를 산출하기 위한 단백질 구조 비교 장치 및 그 방법에 관한 것이다.

이러한 유사 단백질 검색을 위해서 지금까지 단백질 구조 비교를 위한 많은 방법이 제안되어 왔다. 3차원 공간상에서 두 단백질의 구조를 비교하는 것은 3차원이라는 특수성 때문에 구조 정렬 문제와 많은 계산량으로 인해서 속도가 느리다는 문제점이 있다.

초기에는 단백질 원자의 위치와 원자들 간의 거리 비교에 따라 유사도 측정을 하였는데, 이러한 초기 방법은 계산량이 너무 많고 에러에 민감한 단점이 있기 때문에, 단백질 알파 탄소의 위치만을 가지고 유사도를 측정하는 방법이 제안되었는데, 그 일예로 "L.Holm, C.Sander"이 1993년에 "Journal of Molecular Biology"에 게재한 제 1 선행논문(Protein Structure Comparison by alignment of distance matrix)이 있다.

일반적으로 단백질 구조 비교는 보통 한 단백질을 구성하는 원자들 간의 거리를 이용하여 비교하는 방식이 이용된다. 상기 제 1 선행논문에서 제시된, "DALI"라는 이름으로 알려진 구조 비교 방식은 거리 행렬(distance matrix)을 이용한 단백질 구조 비교 방식이다. 한 단백질을 구성하는 원자들 간의 거리를 거리 행렬로 표현하고 거리 행렬의 유사성 부분을 찾아서 단백질 구조를 비교하는 방식이다. 여기서, 원자는 잔기(residue)를 대표하는 알파 탄소가 사용된다. 거리 행렬은 한 단백질 원자들 간의 거리를 표현한 행렬로 행과 열에 한 단백질을 이루는 알파 탄소 원자를 위치시키고 각 행렬 원소에는 행과 열의 두 알파 탄소 원자 간의 거리를 계산해 표현해 놓은 정방 행렬이다. 이 행렬은 주대각선 원소가 모두 '0'이며 대칭행렬이다.

다음 과정은, 표현된 행렬의 요소 중에서 작은 단위, 예를 들어 헥사펩티드-헥사펩티드(hexapeptide-hexapeptide) (6X6) 부행렬로 잘게 나눈다. 두 거리 행렬의 부행렬들을 서로 비교해 가면서 일치하는 단위들이 최대가 되도록 합쳐 늘려가는 방식으로 두 단백질 간의 구조를 정렬해 간다. 이 방식의 특징은 최적의 페어와 이즈(pairwise) 단백질 구조 정렬을 해 준다는 점이다.

그러나 상기와 같은 제 1 선행논문의 방식도, 두 단백질 간의 거리를 비교하고 서로 비슷한 행렬의 작은 단위를 확장하여 나가는데 많은 시간이 걸리는 단점이 있다.

한편, 다른 방식으로 단백질 간의 구조 정렬을 위하여 2차 구조와 원자 수준의 거리를 동시에 비교하여 구조를 정렬하는 방식이 제안되었는데, 그 일예로 "Amit P. Singh, Douglas L.Brutlag"이 1997년에 "Proc. Intelligent Systems for Molecular Biology"에 게재한 제 2 선행논문(Hierarchical Protein Structure Superposition using both Secondary Structure and Atomic Representation)이 있다.

상기 제 2 선행논문은 "LOCK"이라는 이름으로 잘 알려진 단백질 구조 정렬 알고리즘을 제시한다. 이 알고리즘은 앞선 연구들이 단백질의 원자 수준에서 구조 정렬을 하는 연구들이었다면, 단백질의 2차 구조 수준과 원자 수준을 함께 고려한 단백질 구조 정렬 알고리즘이다. 제 1 과정으로 단백질 2차 구조를 벡터로 표현하고 7가지의 유사도계산함수(scoring function)를 가지고 두 2차 구조를 비교한다. 그 7가지 값은 최적의 지역 정렬을 위해 동적프로그래밍 알고리즘(dynamic programming algorithm)에서 사용된다. 제 2 과정에서는 제 1 과정에서 2차 구조에 의한 정렬을 유지한 채, 단백질 구조의 원자 좌표를 가지고 원자들의 거리가 최소가 되도록 정렬을 개선시킨다. 이 방법은 2차 구조를 고려하므로 전체적으로 정렬을 한 후 세밀한 정렬을 할 수 있다.

그러나 상기와 같은 제 2 선행논문의 방식도 많은 시간이 걸리는 단점이 있다.

따라서 현재 신속하게 단백질 구조를 비교하여 단백질들 사이의 유사도를 산출할 수 있는 방안이 절실히 요구되고 있다.

본 발명은 상기 문제점을 해결하고 상기 요구에 부응하기 위하여 제안된 것으로, 단백질의 기하학적 특징인 모양을 이용하여 입력 단백질 간의 비슷한 정도를 측정하기 위한 단백질 구조 비교 장치 및 그 방법을 제공하는데 그 목적이 있다.

즉, 본 발명은 입력 단백질의 좌표에 대해 주성분분석(PCA : Principal Components Analysis)을 이용하여 대략적인 주축방향을 설정하고, 세밀한 구조 정렬을 위하여 전체 영역을 그리드로 나눈 후 단백질을 해당 영역 안에 위치시켜 박셀(Voxel) 형태로 단백질을 만든 후 비교하려는 단백질과 자동상관(Autocorrelation) 연산을 수행하여 유사도를 산출하기 위한 단백질 구조 비교 장치 및 그 방법을 제공하는데 그 목적이 있다.

본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

상기 목적을 달성하기 위한 본 발명의 장치는, 단백질 구조 비교 장치에 있어서, 외부로부터 질의 단백질을 입력받아 주축을 추출하기 위한 주성분분석(PCA) 연산 수단; 상기 주성분분석(PCA) 연산 수단으로부터 주축 추출 결과를 입력받아 전체 영역을 그리드로 나누어 단백질 포함 여부를 판단하여 박셀(Voxel)을 생성하기 위한 박셀(Voxel) 생성 수단; 및 상기 박셀(Voxel) 생성 수단에서 생성한 단백질 박셀(Voxel) 간의 자동상관(Autocorrelation) 연산을 수행하여 유사도를 산출하기 위한 비교 연산 처리 수단을 포함한다.

한편, 상기 목적을 달성하기 위한 본 발명의 방법은, 단백질 구조 비교 방법에 있어서, 입력받은 질의 단백질에 대해 주성분분석(PCA)을 통해 주축을 추출하는 주축 추출 단계; 상기 주축 추출 결과에 대한 전체 영역을 그리드로 나누어 단백질 포함 여부를 판단하여 박셀(Voxel)을 생성하는 박셀(Voxel) 생성 단계; 및 상기 생성한 단백질 박셀(Voxel) 간의 자동상관(Autocorrelation) 연산을 수행하여 유사도를 산출하는 유사도 산출 단계를 포함한다.

이처럼, 본 발명은 빠른 단백질 구조 비교를 위해서 주성분분석(PCA)을 이용하여 전체 단백질 형태의 주축을 설정한 후, 주성분분석(PCA)이 지니고 있는 단점을 극복하기 위해 구해진 3개의 주축으로 8가지 형태의 기본 모양을 만들고, 또한 특정 중심점에 대한 주축 형태의 단점을 극복하기 위한 방식으로 자동상관(Autocorrelation)을 사용하여 세밀한 구조 정렬을 할 수 있는 방식을 제안하며, 자동상관(Autocorrelation)의 연산 속도를 줄이기 위해 FFT(Fast Fourier Transform) 방식을 사용한다.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.

도 1은 본 발명에 따른 주성분분석(PCA) 및 자동상관(Autocorrelation)을 이용한 단백질 구조 비교 장치의 일실시예 구성도이다.

도 1에 도시된 바와 같이, 본 발명에 따른 주성분분석(PCA) 및 자동상관(Autocorrelation)을 이용한 단백질 구조 비교 장치는, 외부(사용자)로부터 질의 단백질을 입력받아 주축을 추출하기 위한 주성분분석(PCA) 연산부(110), 상기 주성분분석(PCA) 연산부(110)로부터 주축 추출 결과를 입력받아 전체 영역을 그리드로 나누어 단백질 포함 여부를 판단하여 박셀(Voxel)을 생성하기 위한 박셀(Voxel) 생성부(120), 및 상기 박셀(Voxel) 생성부(120)에서 생성한 단백질 박셀(Voxel) 간의 자동상관(Autocorrelation) 연산을 수행하여 유사도를 산출하기 위한 비교 연산 처리부(130)를 포함한다.

여기서, 상기 주성분분석(PCA) 연산부(110)는 외부(예 : 사용자)로부터 비교를 원하는 두 단백질을 입력받아 상기 입력 단백질에 대한 정보(예 : 좌표 정보 등)를 이용하여 각 단백질의 주축을 추출하여 8가지 방향을 고려한 기본 모양을 생성하여 박셀(Voxel) 생성부(120)로 출력한다.

그러면, 상기 박셀(Voxel) 생성부(120)는 상기 주성분분석(PCA) 연산부(110)로부터의 각 단백질을 포함하는 전체 영역을 그리드로 나눈 후에 단백질의 포함 여부에 따라 각 그리드에 값을 할당하여 박셀(Voxel)을 생성하여 비교 연산 처리부(130)로 출력한다. 여기서, 그리드는 여기서, 그리드는 격자를 뜻하며, 도 4a와 같이 공간을 바둑판 형태로 나누는 것을 의미한다. 그리고 박셀(Voxel)은 도 4a와 같이 격자로 나누어진 제일 작은 육면체의 공간을 의미한다.

그러면, 상기 비교 연산 처리부(130)는 상기 박셀(Voxel) 생성부(120)에서 생성한 두 개의 단백질 박셀(Voxel)에 대해 자동상관(Autocorrelation) 연산을 수행하여 두 단백질의 유사도를 산출한다. 여기서, 자동상관(Autocorrelation)은 입력된 두 개의 단백질 데이터가 얼마나 상관성을 가지고 있는지에 대한 연산을 의미한다. 위의 경우에 있어서의 간단한 예는 1 또는 0의 값을 가지고 있는 같은 위치의 박셀(Voxel)끼리 곱셈연산으로 자동상관을 계산할 수 있다.

다음으로, 상기와 같은 본 발명에 따른 주성분분석 및 자동상관(Autocorrelation)을 이용한 단백질 구조 비교 장치의 구성 및 동작에 대하여 도 2a 내지 도 7을 참조하여 상세히 살펴보면 다음과 같다.

도 2a는 본 발명에 따른 주성분분석(PCA) 결과에 의해 구해진 제 1 주축 및 제 2 주축의 일예시도이다.

도 2a는 본 발명에 따른 주성분분석(PCA : Principal Components Analysis) 결과에 의해 구해진 제 1 주축 및 제 2 주축에 대한 2차원의 일예시도로서, 각각의 PDB(Protein Data Bank) 파일이 입력되면, 각 단백질들에 대한 모든 원자 좌표값에 대해 주성분분석(PCA)을 이용하여 주축이 되는 3개의 벡터를 구한다. 각 단백질의 원자들의 좌표값들로 구성되어 있는 N개(N은 자연수)의 정점을 P₁, P₂, P₃,......, P_N이라 하면, 여기서 P_i=(x_i,y_i,z_i)이다.

상기 정점들의 평균 위치(m)는 다음의 [수학식 1]에 의해 구하고, 3*3의 공분산 행렬 C는 아래의 [수학식 2]에 의해 구한다. 구조 정렬을 위한 변환 행렬 A를 구하기 위해 공분산 행렬 C의 고유벡터를 구한다. 고유벡터를 구하기 위해 아래의 [수학식 3]을 풀어 그 근을 고유값으로 한다. 구해진 고유값을 크기 순서(λ₁>λ₂>λ₃)에 맞게 구한 후 아래의 [수학식 4]에 대입하여 V에 대한 3개의 고유벡터를 구하여 이를 주축으로 삼는다. 또한, 아래의 [수학식 5]에 의해 3*3 변환 행렬 A를 정의하고, 정렬 연산 시에는 아래의 [수학식 6]에 의해 P_i의 모든 위치를 행렬 A로 변환 후 중심점을 원점으로 좌표를 이동하여 정렬 연산을 수행한다.

여기서, N은 정점의 개수이다.

여기서, det는 “determinant”로 행렬식을 의미한다.

도 2b는 본 발명에 따른 도 2a와 모양은 다르나 주축의 방향이 같은 경우의 일예시도이다.

도 2b를 참조하여 살펴보면, 같은 방향의 주축을 가지고 있는 도 2a와 도 2b가 서로 다른 모양이기 때문에 정렬하였을 때 제대로 된 결과가 나오지 않는다. 이와 같은 단점을 보완하기 위해, 상기 [수학식 5]에서 구해진 변환 행렬 A에 서로 직교하는 고유벡터의 특성을 적용하여 아래의 [수학식 7]과 같이 모든 방향의 주축을 고려한 행렬 A₀,A₁,A₂,A₃,A₄,A₅,A₆,A₇을 구한다.

도 3은 본 발명에 따른 주성분분석(PCA)을 이용한 정렬 과정에 대한 일예시도이다.

여기서, 도 3은 주성분분석(PCA)을 통하여 얻어진 주축으로 두 개의 단백질을 서로 정렬시켜 겹쳐 놓은 모습을 나타내고 있다. 주성분분석(PCA)은 항상 자기 자신의 중심점을 기준으로 주축을 생성하는 방식이기 때문에, 도 3에 도시된 바와 같이 각 단백질의 중심점끼리 겹쳐짐을 알 수 있다.

도 4a는 본 발명에 따른 90*90*90 영역의 예시도이다.

여기서, 도 4a는 박셀(Voxel) 연산을 위해서 전체 영역을 90*90*90의 공간으로 나눈 후 단백질의 중심을 원점에 재배치시킨 모습을 나타내고 있다.

도 4b는 본 발명에 따른 2차원 영역에서의 예시도이다.

여기서, 도 4b는 일반적으로 PDB(Protein Data Bank) 파일의 데이터가 차지하는 위치 좌표가 -45 옹스트롱에서 45 옹스트롱까지 이므로 입력 파일의 중심을 원점으로 이동시켰을 때의 2차원 영상을 보여주고 있다. 도 4b에 도시된 바와 같이, 박셀(Voxel) 연산은 90*90*90으로 나누어진 그리드에 단백질을 구성하고 있는 아톰원자들의 지름을 적용하여 그리드로 나누어진 각각의 셀에 단백질의 포함 여부를 확인한 후, 아래의 [수학식 8]과 같이 90*90*90의 셀에 데이터를 적용하면 각 셀마다 0 혹은 1의 값을 가진 박셀(Voxel)이 생성된다.

도 5는 본 발명에 따른 자동상관(Autocorrelation) 과정에 대한 일예시도이고, 도 6은 본 발명에 따른 도 5의 경우에 있어서 최적 정렬의 일예시도이다.

도 5를 참조하여 살펴보면, 전술한 바와 같이 생성된 박셀(Voxel)을 이용하여 각 단백질들 간의 겹쳐진 정도를 파악하는 자동상관(Autocorrelation) 과정을 거치게 되는데, 도 5에 도시된 바와 같이 각 단백질들을 주성분분석(PCA)을 한 후에, 비교하려는 단백질 중심을 나누어진 그리드의 0,0,0에서부터 움직이면서 90*90*90에 이를 때까지의 자동상관(Autocorrelation) 결과를 살펴보면, 단백질들 간의 중심이 일치하지 않는 곳에서 최적의 정렬을 보여주는 것을 알 수 있다. 또한, 도 6을 참조하여 살펴보면, 실제 이의 경우에 있어서는 두 번째 단백질이 뒤집어진 상태에서의 최적의 정렬이므로, 주성분분석(PCA)의 단점인 주축의 방향 및 일정한 중심점의 이동을 통한 미세 비교 정렬 연산을 수행하는 것이다. 또한, 자동상관(Autocorrelation) 연산의 속도 향상을 위해 FFT(Fast Fourier Transform)를 사용하면 아래의 [수학식 9]를 이용하여 자동상관(Autocorrelation) 결과를 얻을 수 있다.

여기서, 기호 "★"는 자동상관(Autocorrelation) 연산을 의미하고, FFT^-1은 역 FFT(Inverse FFT)를 의미하며, G는 FFT(g)의 결과이고, H는 FFT(h)의 결과이다. 그리고 기호 "*"는 켤레 복소수를 의미한다.

도 7은 본 발명에 따른 주성분분석(PCA) 및 자동상관(Autocorrelation)을 이용한 단백질 구조 비교 방법에 대한 일실시예 흐름도이다.

먼저, 단백질의 좌표를 포함하고 있는 PDB(Protein Data Bank) 파일 P와, 상기 PDB 파일 P와 비교하려는 PDB(Protein Data Bank) 파일 Q가 입력되면(700, 701), 각각의 경우에 있어서 주성분분석(PCA)을 통해 고유벡터 (V₁,V₂,V₃)를 구한다(710, 711).

이후, 상기 구한 고유벡터를 이용하여 P의 경우에는 고유벡터의 8방향을 모두 고려하여 8개의 변환 행렬을 구하고(720), Q의 경우에는 최초의 고유벡터를 이용하여 변환 행렬 A를 구한다(721).

이후, P의 경우에 있어서 각 변환 행렬을 단백질 P에 적용하여 원점으로 좌표 이동된 8개의 새로운 좌표의 단백질 P가 얻어지며, 전체 영역을 90*90*90으로 나눈 셀에 상기 얻어진 단백질을 위치시킨 후 단백질원자의 지름을 적용하여 각 원자들의 셀 포함 여부에 따라 1 혹은 0의 값을 할당한다. 이때, 약간이라도 셀에 포함되면 1값을 할당한다(730). 이렇게 하여 8개의 90*90*90 셀을 생성한다. 단백질 Q의 경우에도 마찬가지로 하나의 변환 행렬을 적용하여 90*90*90의 영역에 각 원자들의 셀 포함 여부에 따라 1 혹은 0의 값을 할당한다(731).

상기 "730" 과정을 수행한 후, 각각 이동된 단백질에 대해서 1 혹은 0의 값을 지니고 있는 90*90*90의 셀에 대하여 FFT(Fast Fourier Transform) 연산을 수행한다(740). 마찬가지로 상기 "731" 과정을 수행한 후, 1 혹은 0의 값을 지니고 있는 90*90*90의 셀에 대하여 FFT 연산을 수행하여 그 연산 결과로 나온 각 셀의 복소수 데이터 값에 대해서 허수부의 부호가 바뀐 켤레 복소수 값으로 각 셀에 대입한다(741).

이후, 상기 "740" 과정의 연산 결과로 얻어진 90*90*90 셀의 FFT 연산값과, 상기 "741" 과정의 연산 결과인 90*90*90 셀의 FFT 연산 후 켤레 복소수로 대치한 값에 대해서 서로 같은 위치에 있는 셀을 곱하여 새로운 90*90*90의 셀 데이터를 생성하고, 그 셀 데이터에 대해 역(inverse) FFT를 취하여 그 결과값을 지니고 있는 90*90*90 셀을 생성한다(750).

이때, 상기 "750" 과정을 단백질 P의 8개의 경우에 대해 모두 적용하면 8개의 90*90*90 셀이 만들어지고 이들 각 셀 데이터를 소트하여 최대값을 추출하고, 그때의 셀의 위치와 단백질 P에 적용된 변환 행렬을 구한다(760).

여기서, 상기 "760" 과정에서 구해진 셀의 위치는 단백질 P의 중심점의 이동을 의미하며, 선택된 변환 행렬은 그 변환 행렬을 적용한 고유벡터에 기인하므로 주축의 방향을 적용한 것이다. 따라서 셀의 위치와 변환 행렬을 단백질 P에 적용하여 주성분분석(PCA) 후의 단백질 Q와 서로 정렬하여 90*90*90 셀 중에서 몇 개의 셀이 서로 겹쳐지는지 확인하여 유사도를 산출한다(770).

이때, 입력 단백질이 P와 Q일 때 적용되는 유사도 산출식은 아래의 [수학식 10]과 같다.

만일, 하나의 단백질의 크기가 작아서 다른 단백질에 포함되는 경우가 발생하면 유사도를 판정하기가 곤란해진다. 따라서 이런 경우에는 큰 단백질을 기준으로 겹쳐진 셀의 개수를 구하기 위하여 상기 [수학식 10]과 같이 유사도를 산출한다.

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 롬, 램, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

상기와 같은 본 발명은, 3차원 구조공간상에서 전체 원자들의 위치를 이용하여 주성분분석을 통해 1차 정렬을 하고, 미세 정렬을 위해 각 방향 및 중심점 이동을 고려하여 두 단백질 간의 유사도를 효과적으로 비교할 수 있는 효과가 있다.

즉, 본 발명은 입력 단백질의 좌표에 대해 주성분분석(PCA : Principal Components Analysis)을 이용하여 대략적인 주축방향을 설정하고, 세밀한 구조 정렬을 위하여 전체 영역을 그리드로 나눈 후 단백질을 해당 영역 안에 위치시켜 박셀(Voxel) 형태로 단백질을 만든 후 비교하려는 단백질과 자동상관(Autocorrelation) 연산을 수행하여 효과적으로 유사도를 산출할 수 있는 효과가 있다.

또한, 본 발명은 단백질의 정렬을 위해서 주성분분석(PCA)을 사용하고, 자동상관(Autocorrelation) 과정을 위해 FFT를 사용함으로써, 빠른 구조 비교가 가능한 효과가 있다.

Claims

단백질 구조 비교 장치에 있어서,

외부로부터 질의 단백질을 입력받아 주축을 추출하기 위한 주성분분석(PCA) 연산 수단;

상기 주성분분석(PCA) 연산 수단으로부터 주축 추출 결과를 입력받아 전체 영역을 그리드로 나누어 단백질 포함 여부를 판단하여 박셀(Voxel)을 생성하기 위한 박셀(Voxel) 생성 수단; 및

상기 박셀(Voxel) 생성 수단에서 생성한 단백질 박셀(Voxel) 간의 자동상관(Autocorrelation) 연산을 수행하여 유사도를 산출하기 위한 비교 연산 처리 수단

을 포함하는 주성분분석 및 자동상관을 이용한 단백질 구조 비교 장치.
제 1 항에 있어서,

상기 비교 연산 처리 수단은,

FFT(Fast Fourier Transform) 연산을 사용하여 자동상관(Autocorrelation) 연산을 수행하는 것을 특징으로 하는 주성분분석 및 자동상관을 이용한 단백질 구조 비교 장치.
제 2 항에 있어서,

상기 비교 연산 처리 수단은,

FFT(Fast Fourier Transform) 연산을 사용하여 아래의 [수학식 a]와 같이 자동상관(Autocorrelation) 결과를 얻는 것을 특징으로 하는 주성분분석 및 자동상관을 이용한 단백질 구조 비교 장치.

[수학식 a]

(여기서, 기호 "★"는 자동상관(Autocorrelation) 연산을 의미하고, FFT^-1은 역 FFT(Inverse FFT)를 의미하며, G는 FFT(g)의 결과이고, H는 FFT(h)의 결과이다. 그리고 기호 "*"는 켤레 복소수를 의미한다.)
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

상기 주성분분석(PCA) 연산 수단은,

외부로부터 비교를 원하는 두 단백질을 입력받아 상기 입력 단백질에 대한 정보를 이용하여 각 단백질의 주축을 추출하여 기본 모양을 생성하여 상기 박셀(Voxel) 생성 수단으로 출력하는 것을 특징으로 하는 주성분분석 및 자동상관을 이용한 단백질 구조 비교 장치.
제 4 항에 있어서,

상기 주성분분석(PCA) 연산 수단은,

8가지 방향을 고려한 기본 모양을 생성하여 상기 박셀(Voxel) 생성 수단으로 출력하는 것을 특징으로 하는 주성분분석 및 자동상관을 이용한 단백질 구조 비교 장치.
제 4 항에 있어서,

상기 박셀(Voxel) 생성 수단은,

상기 주성분분석(PCA) 연산 수단으로부터의 각 단백질을 포함하는 전체 영역을 그리드로 나눈 후에 단백질의 포함 여부에 따라 각 그리드에 값을 할당하여 박셀(Voxel)을 생성하여 상기 비교 연산 처리 수단으로 출력하는 것을 특징으로 하는 주성분분석 및 자동상관을 이용한 단백질 구조 비교 장치.
제 6 항에 있어서,

상기 비교 연산 처리 수단은,

아래의 [수학식 b]와 같이 두 단백질(P,Q)의 유사도를 산출하는 것을 특징으로 하는 주성분분석 및 자동상관을 이용한 단백질 구조 비교 장치.

[수학식 b]
단백질 구조 비교 방법에 있어서,

입력받은 질의 단백질에 대해 주성분분석(PCA)을 통해 주축을 추출하는 주축 추출 단계;

상기 주축 추출 결과에 대한 전체 영역을 그리드로 나누어 단백질 포함 여부를 판단하여 박셀(Voxel)을 생성하는 박셀(Voxel) 생성 단계; 및

상기 생성한 단백질 박셀(Voxel) 간의 자동상관(Autocorrelation) 연산을 수행하여 유사도를 산출하는 유사도 산출 단계

를 포함하는 주성분분석 및 자동상관을 이용한 단백질 구조 비교 방법.
제 8 항에 있어서,

상기 유사도 산출 단계는,

FFT(Fast Fourier Transform) 연산을 사용하여 자동상관(Autocorrelation) 연산을 수행하는 것을 특징으로 하는 주성분분석 및 자동상관을 이용한 단백질 구조 비교 방법.
제 9 항에 있어서,

상기 유사도 산출 단계는,

FFT(Fast Fourier Transform) 연산을 사용하여 아래의 [수학식 a]와 같이 자동상관(Autocorrelation) 결과를 얻는 것을 특징으로 하는 주성분분석 및 자동상관을 이용한 단백질 구조 비교 방법.

[수학식 a]

(여기서, 기호 "★"는 자동상관(Autocorrelation) 연산을 의미하고, FFT^-1은 역 FFT(Inverse FFT)를 의미하며, G는 FFT(g)의 결과이고, H는 FFT(h)의 결과이다. 그리고 기호 "*"는 켤레 복소수를 의미한다.)
제 8 항 내지 제 10 항 중 어느 한 항에 있어서,

상기 주축 추출 단계는,

비교를 원하는 두 단백질에 대한 정보를 이용하여 각 단백질의 주축을 추출하여 기본 모양을 생성하는 것을 특징으로 하는 주성분분석 및 자동상관을 이용한 단백질 구조 비교 방법.
제 11 항에 있어서,

상기 주축 추출 단계는,

8가지 방향을 고려한 기본 모양을 생성하는 것을 특징으로 하는 주성분분석 및 자동상관을 이용한 단백질 구조 비교 방법.
제 11 항에 있어서,

상기 박셀(Voxel) 생성 단계는,

상기 주축 추출 결과에 따른 각 단백질을 포함하는 전체 영역을 그리드로 나눈 후에 단백질의 포함 여부에 따라 각 그리드에 값을 할당하여 박셀(Voxel)을 생성하는 것을 특징으로 하는 주성분분석 및 자동상관을 이용한 단백질 구조 비교 방법.
제 13 항에 있어서,

상기 유사도 산출 단계는,

아래의 [수학식 b]와 같이 두 단백질(P,Q)의 유사도를 산출하는 것을 특징으로 하는 주성분분석 및 자동상관을 이용한 단백질 구조 비교 방법.

[수학식 b]