KR100879438B1 - 단백질의 입체 구조 예측 장치 및 예측 방법 - Google Patents

단백질의 입체 구조 예측 장치 및 예측 방법

Info

Publication number
KR100879438B1
KR100879438B1 KR1020047008865A KR20047008865A KR100879438B1 KR 100879438 B1 KR100879438 B1 KR 100879438B1 KR 1020047008865 A KR1020047008865 A KR 1020047008865A KR 20047008865 A KR20047008865 A KR 20047008865A KR 100879438 B1 KR100879438 B1 KR 100879438B1
Authority
KR
South Korea
Prior art keywords
turn
protein
information
amino acid
secondary structure
Prior art date
Application number
KR1020047008865A
Other languages
English (en)
Other versions
KR20040062985A (ko
Inventor
고따 사까이
Original Assignee
후지쯔 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후지쯔 가부시끼가이샤 filed Critical 후지쯔 가부시끼가이샤
Publication of KR20040062985A publication Critical patent/KR20040062985A/ko
Application granted granted Critical
Publication of KR100879438B1 publication Critical patent/KR100879438B1/ko

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Peptides Or Proteins (AREA)

Abstract

본 발명은 턴을 재현함으로써 단백질의 입체 구조를 예측하는 것이다. 아미노산 서열 판독부 (110)은 1차 서열인 아미노산 서열을 판독하고, 2차 구조 예측부 (130)은 그의 2차 구조를 예측한다. 입체 구조 예측부 (200)에서, 턴 형성부 산출 수단 (210)은 예측된 2차 구조 정보를 기초로 하여 턴을 형성하는 아미노산 수를 산출한다. 턴 정보 DB (230)에는, 2차 구조 및 아미노산 수에 상응하게 얻어진 존재 확률이 높은 턴의 구조에 관한 정보가 등록되어 있다. 턴 예측 수단 (220)으로서는 2차 구조 및 산출된 아미노산 수에 대해서 존재 확률이 높은 턴의 구조에 관한 정보를 검색하고, 이 정보를 기초로 하여 턴을 재현한다. 입체 구조 재현 수단 (240)은 재현된 턴을 사용하여 단백질의 입체 구조를 재현한다.

Description

단백질의 입체 구조 예측 장치 및 예측 방법 {Apparatus for Predicting Stereostructure of Protein and Prediction Method}
본 발명은 단백질의 입체 구조 예측 장치 및 예측 방법에 관한 것이며, 특히 단백질을 구성하는 아미노산 서열을 기초로 하여 상기 단백질의 입체 구조를 예측하는 단백질 입체 구조 예측 장치 및 예측 방법에 관한 것이다.
단백질은 20 종의 아미노산이 펩티드 결합으로 결합되어 있는 폴리펩티드이다. 통상적으로, 폴리펩티드는 생체 내 등에서 정교하게 폴딩 (folding)되어 있으며, 단백질의 복잡한 입체 구조는 아미노산 서열로 이루어져 원래는 직쇄형인 폴리펩티드가 폴딩되어 형성되는 것이다.
여기서, 직쇄형 폴리펩티드를 구성하는 아미노산 서열을 단백질의 1차 서열이라 지칭한다. 이것은 어떠한 아미노산이 어떠한 순서로 펩티드 결합하고 있는 지를 나타내는 것으로서, 이러한 서열에 의해 단백질을 구성하는 아미노산 잔기의 종류 또는 배열 방법이 결정된다.
또한, 각 폴리펩티드 쇄에서는 인접한 아미노산 잔기들 사이에 수소 결합이 형성되어 안정적인 특정 구조가 형성되는데, 이것을 2차 구조라고 지칭한다. 이러한 2차 구조에는 α-나선, β-시트 및 턴 (turn)이 있다. 이하에서는, 도면을 참조하면서 2차 구조에 대해서 설명한다. 도 31은 α-나선을 예시한 도면이고, 도 32는 β-시트를 예시한 도면이다. 도 31에 1a 및 1b로 예시한 바와 같은 α-나선은 나선형 구조를 취하며, "α-나선"은 이러한 그의 구조에서 유래한 명칭이다. 또한, 도 32에 2a 및 2b로 나타낸 바와 같은 β-스트랜드라고 지칭되는 쇄가 2개 이상 나란히 배열되면 시트 (또는 종이 또는 면)와 같은 형상을 취하는데, "β-시트"는 이러한 그의 구조에서 유래한 명칭이다. α-나선 또는 β-시트를 연결하는 부분을 턴이라고 지칭하며, 도 31의 예에서 턴 3은 α-나선 (1a)와 α-나선 (1b)를 연결하고 있고, 도 32의 예에서 턴 3은 β-스트랜드 (2a)와 β-스트랜드 (2b)를 연결하고 있다.
또한, 이러한 2차 구조가 복잡하게 조합되거나 폴리펩티드 전체가 폴딩되면, 단백질 고유의 전체 구조가 최종적으로 완성된다. 이것을 3차 구조 (이하, 입체 구조라 지칭함)라고 한다. α-나선 또는 β-시트 등과 같은 국소적인 2차 구조는 턴에 의해서 연결되며 구부러져서, 다양한 입체 구조가 형성된다. 도 31의 예에서는 α-나선 (1a)와 α-나선 (1b)가 턴 3에 의해 연결되어 180° 구부러져서 서로에게 역평행한 구조가 형성되어 있다.
한편, 단백질 입체 구조는 그 단백질이 자신이 보유한 기능을 발휘하는지의 여부와 밀접하게 관련되어 있기 때문에, 단백질의 기능을 이해하기 위해서는 그의 입체 구조를 인식하는 것이 중요하다. 따라서, 약리학 또는 생화학 등과 같이 단백질을 이용하여 연구하는 분야에서는 X선 회절 또는 NMR (핵 자기 공명) 기술을 이용하여 단백질의 입체 구조 분석을 수행해 왔다. 그러나, 이러한 분석 기술에는 비용과 시간이 많이 소요된다는 문제가 있다.
한편, 이러한 분석 기술의 진보와 더불어 많은 입체 구조가 결정되면서 구조적 유사성을 나타내는 단백질이 발견되었기 때문에, 지금까지 얻어진 입체 구조 정보를 기초로 하여 단백질의 입체 구조를 예측하는 여러가지 수법이 고안되어 왔다. 이러한 상황하에서, 현재 특히 주목받고 있는 것이 상동성 모델링 (homology modeling)이라고 지칭되는 방법이다. 예를 들어 문헌 [Lee, R., "Protein Model Building Using Structural Homology", Nature, 356 (1992) pp. 543-544]을 참조한다. 상동성 모델링법에서는, 단백질 1차 서열이 유사하면 그의 입체 구조도 유사하다는 것을 전제로 하여 분석한다. 입체 구조가 이미 알려져 있는 단백질이 등록되어 있는 입체 구조 데이타베이스를 검색하고, 구조 예측을 수행할 단백질의 아미노산 1차 서열이 입체 구조가 이미 알려져 있는 단백질의 아미노산 서열과 유사성이 있으면 그의 입체 구조를 취득하고, 이것을 기초로 하여 원하는 아미노산 서열을 모델링함으로서 그에 상응하는 입체 구조를 예측한다.
그러나, 종래의 상동성 모델링법을 사용한 단백질의 입체 구조 예측법으로는, 입체 구조가 이미 알려져 있는 단백질과 유사한 아미노산 서열을 갖지 않는 단백질의 입체 구조는 예측할 수 없다는 문제가 있다.
상기 설명한 바와 같이, 상동성 모델링법에서는 아미노산 서열이 유사한 경우에는 그의 입체 구조도 유사할 것이라는 점을 기초로, 입체 구조가 알려져 있지 않은 단백질의 입체 구조를 예측한다. 이 때문에, 아미노산 서열이 유사하고 입체 구조가 이미 알려져 있는 단백질이 존재하지 않는 경우에는 해당 단백질의 입체 구조를 예측할 수가 없다. 예를 들어 신규한 아미노산 서열이 발견된 경우에는, 이러한 신규 아미노산 서열을 갖는 단백질의 입체 구조를 예측하는 것이 불가능하다.
최근에는 단백질의 2차 구조 예측 정밀도가 이전에 비하여 개선되었기 때문에, 이러한 2차 구조 예측을 기초로 하여 입체 구조를 예측할 경우에는 해당 단백질 고유의 구조에 따라 α-나선 및 β-스트랜드를 결정할 수 있다. 그러나, 상기 설명한 바와 같이 β-스트랜드로부터 β-시트가 형성되거나 α-나선과 α-나선을 연결하거나 또는 α-나선과 β-시트를 연결할 경우에는 이러한 연결 부분에 턴이라는 구조가 필요하다. 그러나, 턴에 관한 정의는 자유도가 높고 규정하기가 매우 어렵다. 이러한 이유로 인하여, 단백질의 입체 구조를 예측하는 현행 모델링 프로그램에서는 턴에 대하여 규정하거나 그의 구조를 재현할 수가 없다.
도 1은 본 발명의 한 실시양태에 따른 단백질 입체 구조 예측 장치의 구성을 예시한 도면이다.
도 2는 폴리펩티드를 예시한 도면이다.
도 3은 단백질의 입체 구조를 결정하는 파라미터를 예시한 도면이다.
도 4는 아미노산 서열 및 그에 상응하는 2차 구조 정보의 일례이다.
도 5는 턴 구조 정보의 일례이다.
도 6은 턴 구조 정보에 등록된 2 면각 패턴의 일례이다.
도 7은 본 발명의 한 실시양태에 따라 단백질의 입체 구조를 예측하는 순서 전체를 예시한 흐름도이다.
도 8은 턴을 재현하는 처리 순서를 예시한 흐름도이다.
도 9는 β-스트랜드 턴을 재현하는 처리 순서를 예시한 흐름도이다.
도 10은 본 발명의 한 실시양태에 따른 단백질 입체 구조 예측 장치 및 예측 방법에 따라 단백질의 입체 구조를 표시한 일례이다.
도 11은 본 발명의 또다른 실시양태에 따라 턴을 재현하는 처리 순서를 예시한 흐름도이다.
도 12는 본 발명에 따른 단백질의 입체 구조 분석에 사용한 턴의 유형별 분류를 예시한다.
도 13은 180° β-스트랜드 턴의 제1 잔기에 대한 라마찬드란 (Ramachandran) 플롯이다.
도 14는 180° β-스트랜드 턴의 제2 잔기에 대한 라마찬드란 플롯이다.
도 15는 180° β-스트랜드 턴의 제1 잔기에 대한 Ф 및 ψ의 각도 분포도이다.
도 16은 180° β-스트랜드 턴의 제2 잔기에 대한 Ф 및 ψ의 각도 분포도이다.
도 17은 입체 구조 분석에 의해 얻어진 180° β-스트랜드 턴에 대표적인 2 면각의 각도 및 턴 방향 결과를 나타낸다.
도 18은 180° β-스트랜드 턴의 제1 입체 구조를 표시한 일례이다.
도 19는 180° β-스트랜드 턴의 제2 입체 구조를 표시한 일례이다.
도 20은 90° 턴의 제1 잔기에 대한 Ф 및 ψ의 각도 분포도이다.
도 21은 입체 구조 분석에 의해 얻어진 90° β-스트랜드 턴에 대표적인 2 면각의 각도 및 턴 방향 결과를 나타낸다.
도 22는 90° β-스트랜드 턴의 제1 입체 구조를 표시한 일례이다.
도 23는 90° β-스트랜드 턴의 제2 입체 구조를 표시한 일례이다.
도 24는 60° β-스트랜드 턴의 제1 잔기에 대한 Ф 및 ψ의 각도 분포도이다.
도 25는 입체 구조 분석에 의해 얻어진 60° β-스트랜드 턴에서 존재 확률이 높은 φ 및 ψ의 각도를 나타낸다.
도 26은 60° β-스트랜드 턴의 제1 입체 구조를 표시한 일례이다.
도 27은 60° β-스트랜드 턴의 제2 입체 구조를 표시한 일례이다.
도 28은 입체 구조 분석에 의해 얻어진 직쇄 모델에서 존재 확률이 높은 Ф 및 ψ의 각도이다.
도 29는 α-나선 턴의 제1 입체 구조를 표시한 일례이다.
도 30은 α-나선 턴의 제2 입체 구조를 표시한 일례이다.
도 31은 α-나선을 예시한 도면이다.
도 32는 β-시트를 예시한 도면이다.
<발명을 실시하기 위한 최선의 형태>
이하에서는, 본 발명의 실시양태를 도면을 참조하여 설명한다.
도 1은 본 발명의 한 실시양태에 따른 단백질 입체 구조 예측 장치의 구성을 예시한 도면이다.
본 발명에 따른 단백질 입체 구조 예측 장치는 단백질 1차 서열인 아미노산 서열 (이하, 아미노산 서열이라고 함)을 판독하는 아미노산 서열 판독부 (110), 아미노산 서열을 기억하는 아미노산 서열 데이타베이스 (120) (이하, 아미노산 서열 DB라 함), 1차 서열인 아미노산 서열을 기초로 하여 2차 구조를 예측하는 2차 구조 예측부 (130), 단백질의 2차 구조에 관한 정보를 기억하는 단백질 2차 구조 데이타베이스 (140) (이하, 단백질 2차 구조 DB라 함), 단백질의 입체 구조를 예측하는 입체 구조 예측부 (200) 및 재현한 입체 구조를 표시하는 표시부 (310)으로 구성된다.
아미노산 서열 판독부 (110)은, 단백질 1차 서열인 그의 구성 아미노산 서열을 아미노산 서열 DB (120) 등으로부터 판독한다. 이때의 판독 방법은 특별히 한정되지 않는다. 예를 들면, 아미노산 서열 DB (120)에 접속한 통신 네트워크를 통해 원하는 아미노산 서열을 다운로드 받는 방법 등이 있다. 물론, 이용자가 키보드 등의 입력 장치로 아미노산 서열을 입력하거나 플로피 디스켓 (flexible disk) 등의 기록 매체에 기록해 둔 아미노산 서열을 판독하게 할 수도 있다.
아미노산 서열 DB (120)은 단백질의 아미노산 서열이 등록되어 관리되는 데이타베이스이고, 키워드 등으로 검색하면 원하는 아미노산 서열 정보를 인출할 수 있다. 아미노산 서열 DB (120)은 장치 내에 장착될 수도 있고 통신 회선 등에 의해 외부에 설치될 수도 있다. 또한, 등록된 아미노산 서열을 보존 및 관리하는 공공 기관 등의 데이타 뱅크일 수도 있다.
2차 구조 예측부 (130)은 아미노산 서열 판독부 (110)이 판독한 아미노산 서열에 상응하는 2차 구조를 예측한 2차 구조 정보를 취득한다. 예를 들어 단백질의 2차 구조가 등록된 단백질 2차 구조 DB (140)을 검색하고, 1차 서열에 상응하는 2차 구조 정보를 판독한다. 별법으로, 가니어-롭슨법 (Garnier-Robson) 등을 이용하여 2차 구조를 예측함으로써 2차 구조 정보를 생성할 수도 있다. 2차 구조 정보는 아미노산 서열 정보와 함께 입체 구조 예측부 (200)으로 전송된다.
단백질 2차 구조 DB (140)은 단백질의 2차 구조를 예측한 2차 구조 정보가 기록되어 있는 데이타베이스이고, 키워드 등으로 검색하면 원하는 단백질의 2차 구조 정보를 인출할 수 있다. 단백질 2차 구조 DB (140)은 아미노산 서열 DB (120)과 마찬가지로 임의의 형태로 존재한다.
입체 구조 예측부 (200)은 아미노산 서열 정보 및 그에 상응하는 2차 구조 정보에 따라서 단백질의 입체 구조를 예측하는 기능을 하며, 예측되는 입체 구조를 재현한 재현 정보를 생성한다. 재현 정보는 사용하기에 적합한 임의의 형식으로 출력될 수 있다. 예를 들어 표시부 (310)에 출력되는 경우, 예측되는 입체 구조를 표시하기 위한 좌표 등에 표시한 형식으로 출력된다. 또한, 분자 동력학 시뮬레이션 또는 분자 궤도법에 따른 분자 거동 시뮬레이션에서의 입력 구조물로서 사용되는 경우에는, 이용할 시뮬레이션 소프트웨어에 알맞는 형식으로 출력된다. 입체 구조를 예측하는 처리법에 대해서는 후술한다.
표시부 (310)은 재현 정보를 기초로 하여 단백질의 입체 구조를 3차원적으로 표시한다.
여기서는, 입체 구조 예측부 (200)에 대해서 상세하게 설명하기 전에, 단백질의 표시 및 단백질의 입체 구조를 결정하는 파라미터에 대해서 도면을 사용하며 설명한다. 도 2는 폴리펩티드를 예시한 도면이고, 도 3은 단백질의 입체 구조를 결정하는 파라미터를 예시한 도면이다. 아미노산에서는 1개의 탄소 Cα에 카르복실기 (-COOH)와 아미노기 (-NH2)가 결합되어 있으며, 도 2에 예시한 바와 같이 아미노기와 카르복실기에서 물을 제거함으로써 생성되는 결합 (-CO-NH-)을 펩티드 결합이라고 지칭한다. 여러개의 아미노산이 펩티드 결합에 의해서 연결된 것이 폴리펩티드이다. R로 표시한 부분을 측쇄라고 지칭하고, R 이외의 부분을 주쇄라고 지칭한다. 단백질 입체 구조를 예시하는 이후의 도면에서는, 도 2에 표시한 폴리펩티드 주쇄 부분을 리본 또는 끈 등과 같은 형상으로 나타낸다. 또한, β-스트랜드에서는 N 말단에서 C 말단으로 향하는 방향을 화살표로 나타낸다. 한편, 폴리펩티드의 주쇄를 구성하는 6개 원자는 도 3에 예시한 바와 같이 동일 평면 상에 존재한다. 따라서, 단백질의 입체 구조는 각 아미노산에서의 N-Cα 및 Cα-O의 2개 결합의 각도에 의해서 결정된다. 이러한 2개의 2 면각을 각각 파이 (Φ)와 푸싸이 (Ψ)라고 지칭한다.
도 1에 돌아가, 입체 구조 예측부 (200)에 대해서 설명한다. 입체 구조 예측부 (200)은 턴을 형성하는 아미노산 수를 산출하는 턴 형성부 산출 수단 (210), 2 면각 Φ와 Ψ를 할당하는 2 면각 할당 수단인 Φ, Ψ 할당 수단 (221)과 턴 방향을 산출하는 턴 방향 산출 수단 (222)로 이루어진 턴 예측 수단 (220), 턴의 구조에 관한 턴 정보가 기록되어 있는 턴 정보 데이타베이스 (230) (이하, 턴 정보 DB라 함) 및 입체 구조를 재현하는 입체 구조 재현 수단 (240)을 포함한다.
턴 형성부 산출 수단 (210)은 2차 구조를 기초로 하여 턴을 형성하는 턴 형성부의 아미노산 서열을 추출하고, 그의 아미노산 수 (이하, 잔기 수라 함)를 산출한다.
턴 예측 수단 (220)은 턴 형성부 산출 수단 (210)에 의해 산출된 턴을 형성하는 잔기 수 및 2차 구조 정보를 기초로 하여 턴을 재현한다.
턴 예측 수단 (220)의 Φ, Ψ 할당 수단 (221)은, 턴 정보 DB (230)에 등록되어 있는 턴 구조 중에서 턴 형성부 산출 수단 (210)에 의해 산출된 잔기 수를 기초로 할 때 존재할 확률이 높은 턴의 구조에 대한 턴 구조 정보를 취득하고, 이를 기초로 하여 2 면각인 Φ와 Ψ를 할당한다.
턴 예측 수단 (220)의 턴 방향 산출 수단 (222)는, 턴 및 턴의 양측에 존재하는 2차 구조에 따라 결정되는 턴 방향에 대해서 턴 정보 DB (230)을 검색하고 그 결과를 기초로 하여 턴 방향을 결정한다. 이하에서는, 턴 방향을 우측 턴 또는 좌측 턴으로 나타낸다. 좌측 턴에서, 해당 턴의 첫번째 잔기에 있는 Cα의 측쇄가 펩티드 쇄의 신장 방향에 대하여 90° 방향에 있을 경우에 상기 측쇄는 턴의 마지막 잔기의 Cα에 대하여는 270° 방향에 있게 된다. 또한, 우측 턴에서, 해당 턴의 첫번째 잔기에 있는 Cα의 측쇄가 펩티드 쇄의 신장 방향에 대하여 90° 방향에 있을 경우에 상기 측쇄는 턴의 마지막 잔기의 Cα에 대하여는 90° 방향에 있게 된다.
턴 정보 DB (230)은 2차 구조 및 턴을 형성하는 아미노산 수에 상응하게 얻어진 존재 확률이 높은 턴의 구조에 관한 턴 구조 정보를 2차 구조 및 턴을 형성하는 잔기 수와 관련하여 기억한다. 앞서 설명한 바와 같이, 폴리펩티드의 구조는 각 아미노산에서의 2개 파라미터 (Φ와 Ψ)에 의해 좌우된다. β-스트랜드 사이에 존재하는 턴에 대해서, 본 발명의 발명자는 구조가 이미 알려져 있는 단백질의 입체 구조를 분석함으로써 상기 턴을 형성하는 각각의 잔기 수마다 존재할 확률이 높은 Φ와 Ψ의 각도를 규정해 두었다. 또한, 본 발명자는 턴에 이르기까지의 턴 앞쪽 β-스트랜드를 형성하는 잔기 수가 홀수 또는 짝수인지에 따라서 각 턴의 방향을 좌측 턴 또는 우측 턴으로 분류할 수 있음을 발견하였다. 또한, 본 발명자는 턴이 α-나선들을 턴 시키는 경우에는 α-나선과 α-나선 사이에 삽입되는 턴 부분의 잔기 수가 홀수 또는 짝수인지에 따라서 각 턴을 α-나선을 역 방향으로 배향시키는 180° 턴 또는 α-나선을 동일 방향으로 배향시키는 턴으로 분류할 수 있음을 발견하였다. 이러한 발견을 토대로 하여, 2차 구조 및 턴을 형성하는 잔기 수에 상응하게 얻어진 존재 확률이 높은 턴의 구조에 관한 턴 구조 정보 (예컨대 Φ와 Ψ의 각도, 턴 방향 등)을 작성할 수 있다. 턴 구조 정보는 구조가 이미 알려져 있는 단백질을 분석하여 얻어진 것이기 때문에, 미리 턴 구조 정보를 생성하여 데이타베이스에 등록해 두는 것이 바람직하다. 이러한 턴 구조 정보는 턴 정보 DB (230)에서 보존 및 관리된다.
입체 구조 재현 수단 (240)은, 재현된 턴 및 2차 구조 정보를 기초로 하여 단백질의 입체 구조를 재현하고 소정의 형식에 따른 재현 정보를 생성한다. 재현 정보는 그의 이용에 알맞는 임의의 형식으로 출력된다. 이 경우에서, 표시부 (310)을 위해서는 입체 구조를 3차원 좌표에 할당한 재현 정보를 생성한다.
이하에서는, 이러한 구성의 단백질 입체 구조 예측 장치의 동작에 대해서 설명한다.
아미노산 서열 판독부 (110)은 아미노산 서열이 기록 및 보존되어 있는 아미노산 서열 DB (120)으로부터 입체 구조를 예측할 단백질의 아미노산 서열을 판독하고, 이 아미노산 서열을 2차 구조 예측부 (130)으로 전송한다. 2차 구조 예측부 (130)에서는 판독된 아미노산 서열에 상응하는 2차 구조가 단백질 2차 구조 DB (140)에 기억되어 있는지 여부를 검색하고, 기억되어 있는 경우에는 이것을 판독한다. 또한, 기억되어 있지 않거나 또는 필요에 따라서는, 가니어-롭슨법 등을 사용하여 2차 구조를 예측한다. 2차 구조에 관한 2차 구조 정보는 입체 구조 예측부 (200)으로 전송된다.
이하에서는, 아미노산 서열 DB (120)에 저장되어 있는 아미노산 서열 및 단백질 2차 구조 DB (140)에 저장되어 있는 2차 구조 정보에 대해서 구체적인 예를 들어 설명한다. 도 4는 아미노산 서열 및 그에 상응하는 2차 구조 정보의 일례이다. 도 4에서는 PDB 형식으로 예시하였지만 1차 서열 및 그의 2차 구조를 병렬로 기재한 병렬 형식 등과 같은 다른 형식일 수도 있다. 도 4에서 아미노산 서열 (121)은 아미노산의 서열을 나타내고, 각각의 알파벳은 아미노산의 종류를 나타낸다. 또한, 2차 구조 정보 (141)은 아미노산 서열 (121)에 상응하는 2차 구조를 나타내는데, '나선', '시트' 및 '턴' 항목 옆에 기재된 숫자는 아미노산 서열 (121)에서 α-나선 구조, β-시트 구조 및 턴이 존재하는 위치를 각각 지시한다.
입체 구조 예측부 (200)의 턴 형성부 산출 수단 (210)은 턴을 형성하는 턴 형성부의 잔기 수를 산출한다. 턴 예측 수단 (220)에서는 턴의 잔기 수 및 2차 구조 정보를 사용하여 턴을 재현한다. 턴 정보 DB (230)에는 2차 구조 및 잔기 수에 상응하게 얻어진 존재 확률이 높은 턴의 구조에 관한 턴 구조 정보가 미리 등록되어 있다. 도 5는 턴 구조 정보의 일례이고, 도 6은 턴 구조 정보에 등록된 2 면각 패턴의 일례이다.
도 5에 예시한 바와 같이, 턴 구조 정보로는 턴이 존재하는 각 위치마다 상기 턴에서 형성되는 2 면각 (Φ와 Ψ) 및 턴 방향에 관한 규정 등이 등록되어 있다. 이하에서는, β-스트랜드와 β-스트랜드 사이에 존재하는 턴을 β-스트랜드 턴이라고 지칭하고, α-나선과 α-나선 사이에 존재하는 턴을 α-나선 턴이라고 지칭한다. 2 면각은, 턴을 형성하는 잔기 수에 따라 선택가능한 패턴이 정해져 있다.
본 발명의 한 실시양태에서는 역 방향 180° β-스트랜드 턴을 형성하는 잔기 수에 따라 후술하는 입체 구조 분석으로 얻은 Φ와 Ψ를 등록한다. 패턴 1 및 2 각각은 잔기 수가 2개인 180° 턴에서 존재 확률이 가장 높은 Φ와 Ψ의 값이다. 패턴 3, 4 및 5 각각은 잔기 수가 3개인 180° 턴 (각각의 잔기 사이는 90° 턴)에서 존재 확률이 가장 높은 Φ와 Ψ의 값이다. 마찬가지로, 패턴 6은 잔기 수가 4개인 180° 턴 (각각의 잔기 사이는 60° 턴)에서 존재 확률이 가장 높은 Φ와 Ψ의 값이다. 별법으로, 3개 이상의 잔기로 구성된 180° 턴에서는, β-스트랜드와 β-스트랜드의 180° 턴이 턴을 형성하는 첫번째 잔기와 마지막 잔기에서 발생하고 턴을 형성하는 첫번째 잔기와 마지막 잔기 사이의 중간 잔기들은 직쇄형으로 연결된 모델을 생각할 수 있다. 이하에서는, 이러한 턴을 직쇄 모델이라고 지칭한다. 패턴 7 및 8 각각은 직쇄 모델로 구성된 180° 턴에서 존재 확률이 가장 높은 Φ와 Ψ의 값이다.
또한, α-나선 턴 각각의 2 면각은, 각 턴을 형성하는 잔기 수에 상관없이 소정의 Φ와 Ψ (패턴 9)을 취한다고 규정되어 있다. 각 패턴의 Φ와 Ψ의 값은 도 6에 예시한 바와 같이 각각 등록되어 있다.
한편, β-스트랜드 턴 각각의 턴 방향은 턴의 앞쪽, 즉, 턴에 이르기까지의 β-스트랜드 잔기 수가 홀수인 경우에는 좌측 턴이고, 짝수인 경우에는 우측 턴을 취한다고 규정되어 있다. 또한, α-나선 턴에서는, 턴을 형성하는 잔기 수가 홀수인 경우에는 턴 양측의 α-나선들이 역방향으로 배향되고, 짝수인 경우에는 동일 방향으로 배향된다고 규정되어 있다.
이상 설명한 바와 같이, 2차 구조 정보를 기초로 하여, 턴 구조 정보로부터 2 면각 및 턴 방향에 관해 규정된 정보를 추출할 수가 있다. 또한, 기재하지는 않았지만, β-스트랜드와 α-나선 사이에 존재하는 턴 등에 대한 턴 구조 정보도 마찬가지로 등록되어 있다.
턴 예측 수단 (220)의 Φ, Ψ 할당 수단 (221)에서는 2차 구조 정보 및 잔기 수에 대해서 턴 정보 DB (230)을 검색하여, 존재 확률이 높은 2 면각을 취득한다. 유사하게, 이후의 턴 방향 산출 수단 (222)에서도 2차 구조 정보 및 잔기 수를 기초로 턴 정보 DB (230)을 검색하여 턴 방향을 결정한다.
예를 들어 β-스트랜드 턴인 경우, 턴의 잔기 수에 따라 Φ와 Ψ가 규정되어 있으며, 턴에 이르기까지의 턴 앞쪽 β-스트랜드의 잔기 수에 따라서 좌측 턴 또는 우측 턴으로 분류된다. 또한, α-나선 턴인 경우, 소정의 Φ와 Ψ가 규정되어 있으며, 턴의 잔기 수가 홀수개이면 α-나선들이 역방향으로 배향된 턴 (180° 턴)으로 분류되고 짝수개이면 α-나선들이 동일 방향으로 배향된 턴으로 분류된다. α-나선과 β-시트 사이의 턴에 대해서도 유사한 방식으로 Φ와 Ψ가 규정되고 턴 방향이 결정된다. 따라서, 턴 정보 DB (230)의 정보를 기초로 하여 턴 구조를 결정할 수 있다. 입체 구조 재현 수단 (240)은 2차 구조 정보 및 상기에서 결정된 턴을 기초로 하여 입체 구조를 재현하고 소정의 형식에 따른 재현 정보를 생성한다.
이상 설명한 바와 같이, 턴을 재현함으로써 단백질의 입체 구조를 예측할 수 있다. 특히, 상동성 모델링법과는 달리, 미지 구조를 갖는 단백질의 입체 구조를 예측할 수도 있다. 예측된 입체 구조는 분자 동력학 시뮬레이션 또는 분자 궤도법에 따른 분자 거동 시뮬레이션에서의 입력 구조물로서 이용할 수가 있다.
다음으로, 본 발명의 단백질의 입체 구조 예측 방법에 대해서 설명한다. 도 7은 본 발명의 한 실시양태에 따라 단백질의 입체 구조를 예측하는 순서 전체를 예시한 흐름도이다.
[단계 S01]
우선, 아미노산 서열 DB (120)으로부터 1차 서열인 아미노산 서열을 판독한다. 예를 들어 도 4의 아미노산 서열 (121)을 판독한다.
[단계 S02]
이어서, 상기 아미노산 서열에 상응하는 2차 구조 정보가 2차 구조 DB (140)에 존재하는지 여부를 확인한다. 2차 구조 정보가 존재하는 경우에는 단계 S03로 진행하여 처리하고, 존재하지 않는 경우에는 단계 S04로 진행하여 처리한다.
[단계 S03]
2차 구조 정보가 단백질 2차 구조 DB (140)에 존재하는 경우에는 이 데이타베이스로부터 단백질의 2차 구조에 관한 정보를 판독한다. 예를 들어 도 4의 2차 구조 정보 (141)이 판독된다.
[단계 S04]
2차 구조 정보가 존재하지 않는 경우에는, 예를 들어 가니어-롭슨법 등에 따라 단백질 2차 구조를 예측하여 2차 구조 정보를 생성한다.
[단계 S05]
이러한 정보를 기초로 하여 α-나선의 구조 정보를 작성한다.
[단계 S06]
또한, 동일한 방식으로 β-스트랜드의 구조 정보를 작성한다.
여기까지의 처리에 의해, α-나선 및 β-스트랜드의 입체 구조 재현에 필요한 3차원 좌표 정보를 최종적으로 생성한다. α-나선 및 β-스트랜드의 3차원 좌표 정보의 생성에는 공지된 처리 절차를 적절하게 사용한다.
[단계 S07]
다음으로, 2차 구조 정보를 기초로 하여 턴 재현 처리를 수행한다. 턴 재현 처리에 관한 세부 사항에 대해서는 후술할 것이지만, 입체 구조 재현에 필요한 3차원 좌표 정보는 이러한 턴 재현 처리에 의해 생성된다.
상기한 설명에 따른 처리 순서를 실행함으로써, α-나선 구조, β-스트랜드 구조 및 턴 구조의 3차원 좌표 정보가 생성되고, 이들을 합한 입체 구조 정보 (400)이 출력된다.
이어서, 턴 재현 처리에 대해서 설명한다. 도 8은 턴을 재현하는 처리 순서를 예시한 흐름도이다.
턴 재현 처리는 원하는 단백질의 2차 구조 정보가 생성 또는 판독된 후에 개시한다.
[단계 S701]
2차 구조 정보를 기초로 하여, 몇개의 아미노산으로 턴이 생기는 지를 산출한다. 즉, 턴을 형성하는 잔기 수를 산출한다.
[단계 S702]
이어서, 턴이 존재하는 구조를 확인한다. β-스트랜드 턴인 경우에는 단계 S703으로 진행하여 처리시키고, α-나선 턴인 경우에는 단계 S705로 진행하여 처리한다. 이외의 구조에 속하는 턴인 경우에도 유사한 방식으로 분지하여 처리하지만, 여기서는 설명을 생략한다.
[단계 S703]
β-스트랜드 턴인 경우, 단계 S701에서 산출된 턴을 형성하는 잔기 수에 대해서 턴 정보 DB (230)으로부터 φ와 ψ를 검색하고, 선택된 패턴의 φ와 ψ를 할당한다. 예를 들어 도 4에 나타낸 2차 구조 정보 (141)의 β-스트랜드 (62-67)와 β-시트 (70-75) 사이의 턴 (68, 69)에서는 턴의 잔기 수가 2개이기 때문에, 턴 구조 정보에서 잔기 수 2에 상응하는 φ와 ψ가 검색된다 (여기서, 괄호 안의 수는 2차 구조 정보 (141)에 기재된 아미노산의 위치를 나타냄).
[단계 S704]
단계 S703에 이어서, 2차 구조 정보를 기초로 하여 턴에 이르기까지의 턴 앞쪽 β-스트랜드의 잔기 수를 산출하고, 산출된 잔기 수에 대해서 턴 정보 DB (230)을 검색하여 턴 방향을 결정한다. 예를 들어, 단계 S703의 예에서는 β-스트랜드 (62-67)의 잔기 수가 짝수개이기 때문에 턴 방향이 우측 턴으로 규정된다. 또한, 턴 방향은 β-스트랜드의 잔기 수가 홀수 또는 짝수인지에 따라서 좌측 턴 또는 우측 턴으로 규정되기 때문에, 턴 정보 DB (230)을 사용하지 않고도 프로그램을 이용하여 턴 방향을 분류할 수 있다. 단계 S703 및 단계 S704에 의해 β-스트랜드 턴에 대한 2 면각 및 턴 방향이 결정되고, 단계 S706으로 진행시켜 처리한다.
[단계 S705]
α-나선 턴인 경우, 단계 S701에서 산출된 턴을 형성하는 잔기 수에 대해서 턴 정보 DB (230)을 검색하여 턴 방향을 결정한다. 예를 들어, 도 4에 나타낸 2차 구조 정보 (141)의 경우에서는 α-나선 (2-28)과 α-나선 (33-54) 사이에 존재하는 턴 (29-32)의 잔기 수가 짝수개이기 때문에 α-나선 (2-28)과 α-나선 (33-54)는 동일 방향으로 배향된 것으로 규정된다. 또한, 턴 정보 DB (230)으로부터 상응하는 φ와 ψ를 추출한다. β-스트랜드와 마찬가지로, 턴 방향은 턴의 잔기 수가 홀수 또는 짝수인지에 따라서 α-나선을 각각 역방향 또는 동일 방향으로 배향하는 것으로 규정되기 때문에, 턴 정보 DB (230)을 이용하지 않고도 프로그램을 이용하여 턴 방향을 분류할 수 있다. 이로써, α-나선 구조의 턴에 대한 2 면각 및 턴 방향이 결정되고, 단계 S706로 진행시켜 처리한다.
[단계 S706]
이상과 같은 처리를 통해 얻은 φ와 ψ의 값 및 턴 방향을 기초로 하여 3차원 좌표 (입체 구조)를 각 원자에 할당함으로써, 턴 구조가 3차원 좌표에 할당된다.
[단계 S707]
3차원 좌표에 할당된 턴 구조에 대하여 소정의 출력 형식에 맞춘 3차원 좌표 정보를 생성하여 출력한다.
이하에서는, β-스트랜드 턴에 φ와 ψ를 할당 처리하는 단계 S703에 대하여 상세하게 설명한다. 도 9는 β-스트랜드 턴을 재현하는 처리 순서를 예시한 흐름도이다. 검출된 턴이 β-스트랜드 턴인 경우에 처리가 개시된다.
[단계 S7031]
턴을 직쇄 모델로 예측할 것인지의 여부를 판단한다. 예를 들어 턴을 형성하는 잔기 수가 5개를 초과하는 경우에는 직쇄 모델을 사용한다는 등의 조건을 미리 설정해 두고 이 조건에 따라 판단한다. 직쇄 모델을 사용하지 않는 경우에는 단계 S7032로 진행시켜 처리하고, 직쇄 모델을 사용하는 경우에는 단계 S7033으로 진행시켜 처리한다.
[단계 S7032]
직쇄 모델을 사용하지 않는 경우, 턴을 형성하는 잔기 수에 따라서 턴 정보 DB에 등록된 패턴을 선택하고, 그 패턴의 φ와 ψ를 할당하여 처리를 종료한다.
[단계 S7033]
직쇄 모델을 사용하는 경우, 턴을 형성하는 잔기 수가 홀수인지의 여부를 조사한다. 홀수인 경우에는 단계 S7034를 실행하고, 짝수개이면 단계 S7034는 건너뛰고 실행하지 않는다.
[단계 S7034]
턴을 형성하는 잔기 수가 홀수인 경우에는 잔기 수에 1을 더한다. 이것은, 턴을 구성하는 잔기가 지그재그형으로 배열되기 때문에 홀수개 잔기로는 직쇄형 구조가 구성되지 못하기 때문이다.
[단계 S7035]
턴을 형성하는 첫번째 잔기와 마지막 잔기에 패턴 7 또는 패턴 8에 등록된 φ와 ψ를 할당한다.
[단계 S7036]
턴을 형성하는 잔기에서 첫번째 잔기와 마지막 잔기를 제외한 나머지 위치의 잔기에 이들이 직쇄형으로 배열되게 하는 φ와 ψ를 할당한다.
이러한 처리에 의해 β-스트랜드 턴이 몇개 잔기로 구성되는지에 대한 제한없이 턴 구조를 예측할 수가 있게 된다.
표시부 (310)은 앞서 설명한 순서에 의해 생성된 3차원 좌표 정보를 기초로 하여 단백질의 입체 구조를 표시한다. 도 10은 본 발명의 한 실시양태에 따른 단백질 입체 구조 예측 장치 및 예측 방법에 따라 단백질의 입체 구조를 표시한 일례이다. 이전의 도면 설명에서와 마찬가지로, 화살표로 표시된 부분이 β-스트랜드이고 나선형으로 표시된 부분이 α-나선이며 이들을 연결하는 부분이 턴이다.
이와 같이, 턴 구조 정보를 참조하여 φ와 ψ를 규정함으로써 존재 확률이 높은 턴을 예측하기 때문에, 자유도가 높아 종래에는 규정하기 어려웠던 턴을 재현할 수 있다. 본 발명의 입체 구조 예측 방법에서는 2차 구조 정보 및 2차 구조에 상응하여 턴 구조가 등록되어 있는 턴 구조 정보를 기초로 하여 턴 구조를 예측하기 때문에, 미지의 입체 구조를 갖는 아미노산 서열의 단백질에 대해서도 그의 입체 구조를 예측할 수 있다.
상기한 설명에서는 아미노산 서열에서 턴이 존재할 때마다 턴의 구조를 분석했지만, 턴의 재현을 각각의 유형별로 실시할 수도 있다. 도 11은 본 발명의 또다른 실시양태에 따라 턴을 재현하는 처리 순서를 예시한 흐름도이다.
도 8의 경우와 마찬가지로, 도 11의 처리도 2차 구조 정보가 생성된 후에 개시된다.
[단계 S711]
판독된 2차 구조 정보로부터 2개 잔기로 구성된 β-스트랜드 턴에 대한 정보 부분을 추출하고, 상기 추출된 턴에 상응하는 φ와 ψ에 대해서 턴 정보 DB (230)를 검색하여, 턴에 이르기까지의 턴 앞쪽 β-스트랜드의 잔기 수에 따라 턴 방향을 결정하는 처리를 수행한다.
[단계 S712]
판독된 2차 구조 정보로부터 3개 잔기로 구성된 β-스트랜드 턴에 대한 정보 부분을 추출하고, 상기 추출된 턴에 상응하는 φ와 ψ에 대해서 턴 정보 DB (230)를 검색하여, 턴에 이르기까지의 턴 앞쪽 β-스트랜드의 잔기 수에 따라 턴 방향을 결정하는 처리를 수행한다.
[단계 S713]
판독된 2차 구조 정보로부터 4개 잔기로 구성된 β-스트랜드 턴에 대한 정보 부분을 추출하고, 상기 추출된 턴에 상응하는 φ와 ψ에 대해서 턴 정보 DB (230)를 검색하여, 턴에 이르기까지의 턴 앞쪽 β-스트랜드의 잔기 수에 따라 턴 방향을 결정하는 처리를 수행한다.
[단계 S714]
판독된 2차 구조 정보로부터 α-나선 턴에 대한 정보 부분을 추출하고, 상기 추출된 턴에 상응하는 φ와 ψ에 대해서 턴 정보 DB (230)을 검색하여, 턴의 잔기 수에 따라 턴 방향을 결정하는 처리를 수행한다.
이러한 처리 순서에 의해서도 턴 구조를 예측할 수 있다. 여기서는 간단히 설명하기 위해서 직쇄 모델을 이용한 처리법은 생략했지만, 이러한 처리를 추가할 수도 있으며, 예를 들어 단계 S713과 단계 S714 사이에 잔기 수가 5개 이상인 경우에 수행될 처리를 추가할 수 있다.
또한, 상기 설명 중에서 턴 정보 DB (230)에 등록된 턴 구조 정보는 입체 구조가 이미 알려져 있는 단백질을 입체 구조 분석함으로써 얻을 수 있다. 특히, 본 발명의 발명자는 입체 구조 분석을 통해, 자유도가 높아서 종래에는 규정하기 어려웠던, β-스트랜드와 β-스트랜드 사이에 존재하는 β-스트랜드 턴의 2 면각과 턴 방향 및 α-나선과 α-나선 사이에 존재하는 α-나선 턴의 턴 방향에 대한 규정을 발견하는 것에 성공하였다.
이하에서는, 본 발명의 발명자가 수행한, 구조가 이미 알려져 있는 단백질의 입체 구조 분석에 대해서 설명한다. β-스트랜드 턴을 먼저 설명한 후에 α-나선 턴에 대해서 설명한다.
예를 들어 β-스트랜드가 β-시트를 형성하는 경우, β-스트랜드 구조에서는 180° 턴으로서 폴딩된다. 이 경우의 턴에는 2개 이상의 아미노산 잔기가 필요하다. 도 12는 본 발명에 따른 단백질의 입체 구조 분석에 사용한 턴을 유형별로 분류한 것이다. 도 12의 (A)는 턴이 2개 잔기로 구성된 유형, (B)는 턴이 3개 잔기로 구성된 유형, (C)는 턴이 4개 잔기로 구성된 유형을 나타낸다. 도면에서는 턴을 구성하는 잔기를 tn (n = 1, 2, ...)로 나타냈다. 이 도면은 턴의 분류를 설명하기 위한 것이며 실제 구조를 나타내는 것은 아니다. 통상의 턴은 상기한 잔기 수로 구성되는 것이 많기 때문에, 2개 잔기, 3개 잔기 및 4개 잔기로 구성된 턴에 대한 입체 구조 분석을 수행하고 존재 확률이 높은 φ와 ψ를 도출하면, β-스트랜드 턴 대부분의 구조를 예측할 수 있다. 또한, 3개 이상의 잔기로 형성되는 턴은 직쇄 모델로 예측할 수 있다고 설명한 것과 관련하여, 이것은 그러한 턴을 형성하는 잔기들의 첫번째 잔기와 마지막 잔기는 도 12의 (A)로 예시한 2개 잔기로 구성된 유형의 턴에서 첫번째 잔기인 t1과 마지막 잔기인 t2와 같이 구성되고, 나머지 잔기들은 그 사이에서 직쇄형으로 연결된 모델이다.
이하에서는, 각각의 경우에 대해서 수행한 입체 구조 분석에 대해서 설명한다.
입체 구조 분석을 위해, 우선, 단백질의 입체 구조 데이타가 등록되어 관리되는 단백질 입체 구조 데이타 뱅크, 예를 들어 미국 PDB 운영 그룹 RCSB (Research Collaboratory for Structual Bioinfomatics)이 운영하는 PDB (Proetin Data Bank)를 "porin"이라는 키워드를 사용하여 β-스트랜드 구조가 풍부한 β-스트랜드 풍부 단백질 (이하, β-스트랜드 리치 단백질이라 함)에 대해서 검색했다. 인터넷 등을 경유하여 PDB 사이트에 액세스하고 원하는 데이타를 검색한다. 여기서, "porin"이라는 말을 키워드로서 사용하면 138종의 검색예가 검색된다.
이어서, 각각의 유형의 턴에 대해 분석한다. 도 12에서 알 수 있는 바와 같이, (A)에 예시한 유형에서는 2개 잔기가 180° 턴을 구성한다. 이하에서는, 이러한 유형을 180° β-스트랜드 턴이라 지칭한다. 도 12의 (B)에 예시한 유형에서는 3개 잔기가 180° 턴을 구성하여 각 잔기마다 90° 턴을 구성하는 셈이 되는데, 이하에서는 이러한 유형을 90° β-스트랜드 턴이라고 지칭한다. 도 12의 (C)에 예시한 유형에서는 4개 잔기가 180° 턴을 구성하여 각 잔기마다 60° 턴을 구성하는 셈이 되는데, 이하에서는 이러한 유형을 60° β-스트랜드 턴이라고 지칭한다.
이하에서는, 2개 잔기로 구성되는 180° 턴의 경우에 대해서 설명한다. (A) 유형에서와 같이 2개 잔기 턴 (180° β-스트랜드 턴)인 경우와 관련하여, 상기 검색예 중에서 실제로 2개 잔기로 180° 턴이 구성된 부분에 대해서 검색하였다. 180° β-스트랜드 턴의 검색시에, 예를 들어 구조는 프로테인 어드바이저 포 윈 (Protein Adviser for Win) (FQS)으로 조사하고, φ 및 ψ의 각도는 무료 소프트웨어인 DSSP로 조사한다. 여기서는, 2개 잔기로 구성된 180° 턴이 59건 검출되었다. 이어서, 상기 59건의 180° 턴에 대하여 φ 및 ψ의 각도에 따른 라마찬드란 플롯을 작성했다. 라마찬드란 플롯은 종축에 φ, 횡축에 ψ를 취한 평면 상에 각 아미노산의 2 면각 데이타를 작도한 것이다. 실제 단백질에서는 입체 장애로 인해 2 면각의 허용 범위가 제한적이다. 라마찬드란 플롯을 작성하면 이러한 허용 범위를 알 수 있다.
도 13은 180° β-스트랜드 턴의 제1 잔기에 대한 라마찬드란 플롯이다. 또한, 도 14는 180° β-스트랜드 턴의 제2 잔기에 대한 라마찬드란 플롯이다. 이들은 종축에 φ, 횡축에 ψ를 취한 평면 상에, 검색된 59건의 180° 턴의 제1 잔기 및 제2 잔기 각각의 아미노산에 대한 φ 및 ψ의 각도 데이타를 작도한 것이다. 이들 도면으로부터, 데이타가 특정 영역에 집중되어 있음을 알 수 있다. 실제 입체 구조에서는 이 영역의 φ와 ψ를 조합한다.
φ 및 ψ의 각도 분포를 보다 명확히 하기 위해서 제1 잔기와 제2 잔기의 각도 분포도를 작성한다. 도 15는 180° β-스트랜드 턴의 제1 잔기에 대한 φ 및 ψ의 각도 분포도이다. 상기 분포도는 φ 및 ψ 각도 각각의 범위에서 -180°부터 180°까지를 10° 간격의 구역들로 나누고 각 구역에서 φ 및 ψ 각각의 존재 확률을 표시하는데, 여기서 전체 범위 내의 확률 합은 1이 되도록 표준화한 그래프이다. 도 15의 분포도로부터, 180° 턴을 이루는 제1 잔기의 φ는 -60° 및 80° 근방에 주로 분포한다는 것을 알 수 있다. 한편, 180° 턴을 구성하는 제1 잔기의 ψ는 -120° 및 120° 근방에 분포한다는 것을 알 수 있다. 또한, 도 16은 180° β-스트랜드 턴의 제2 잔기에 대한 φ 및 ψ의 각도 분포도이다. 여기서도 마찬가지로, 180° 턴을 이루는 제2 잔기의 φ는 -90° 및 90° 근방에 주로 분포하고 ψ는 60° 근방에 주로 분포한다는 것을 알 수 있다. 이처럼 상기 분포도로부터 180° β-스트랜드 턴에 존재할 확률이 높은 φ 및 ψ의 각도가 얻어진다.
도 17은 입체 구조 분석에 의해 얻어진 180° β-스트랜드 턴에 대표적인 2 면각의 각도 및 턴 방향 결과를 나타낸다.
도 17에서, 결과 A는 제1 잔기의 φ는 -60.0°, ψ가 120.0°이고 제2 잔기의 φ는 90.0°, ψ가 0.0°이며 턴에 이르기까지의 턴 앞쪽 β-스트랜드의 잔기 수가 5개여서 좌측 턴이 일어남을 나타낸다. 도 15 및 도 16으로부터, 이러한 조합의 φ와 ψ가 존재 확률이 높음이 판명된다. 또한, 결과 B는 φ와 ψ의 조합은 결과 A에서와 동일하지만 턴에 이르기까지의 턴 앞쪽 잔기 수가 6개여서 우측 턴이 일어남을 나타낸다. 결과 C는 제1 잔기의 φ가 80.0°, ψ가 -120.0°이고 제2 잔기의 φ가 -90.0°, ψ가 -10.0°이며 턴에 이르기까지의 턴 앞쪽 β-스트랜드의 잔기 수가 5개여서 좌측 턴이 일어남을 나타낸다. 결과 D는 φ와 ψ의 조합은 결과 C에서와 동일하지만 턴에 이르기까지의 턴 앞쪽 잔기 수가 6개여서 우측 턴이 일어남을 나타낸다.
또한, 본 발명의 발명자는 이와 같이 얻어진 결과를 분석하여, β-스트랜드와 β-스트랜드 사이의 턴에서 턴에 이르기까지의 턴 앞쪽 β-스트랜드를 형성하는 잔기가 홀수 또는 짝수인지에 따라서 각각의 턴이 좌측 턴 또는 우측 턴으로 분류된다는 것을 발견하였다.
상기와 같이 규정된 φ와 ψ의 패턴을 턴 정보 DB (230)에 미리 기억시켜 두었다가, 턴 예측 수단 (220)이 이를 이용하여 검색하고 판독하게 하여 턴을 재현한다.
이하에서는, 본 발명에 따른 단백질 입체 구조 예측 장치를 사용하여 이와 같은 분석 결과로 얻어진 존재 확률이 높은 2 면각을 적용한 입체 구조를 표시한 예를 나타낸다.
도 18은 180° β-스트랜드 턴의 제1 입체 구조를 표시한 일례이다. 이것은 도 17에 나타낸 결과 C의 2 면각 및 턴에 이르기까지의 턴 앞쪽 잔기 수 데이타에 따라 표시되는 입체 구조를 표시한 것이다. 화살표로 나타낸 부분은 β-스트랜드 부분을 나타내고, 이것들을 연결하는 부분이 턴 부분을 나타낸다. 이것은 좌측 턴의 일례이다.
마찬가지로, 도 19는 180° β-스트랜드 턴의 제2 입체 구조를 표시한 일례이다. 이것은 도 17에 나타낸 결과 D의 2 면각 및 턴에 이르기까지의 턴 앞쪽 잔기 수 데이타에 따라 표시되는 입체 구조를 표시한 것이다. 도 19의 φ와 ψ는 도 18에서와 동일하지만 우측 턴이 일어나고 있다.
턴 구조 정보로서 데이타베이스에 등록할 경우에는, 우선 분포도에서 얻은 φ 및 ψ의 각도를 본 발명의 단백질의 입체 구조 예측 방법을 사용한 모델링 소프트로 재현하고, 표시 소프트웨어를 사용하여 턴을 실제로 확인한다. 이어서, 턴의 각도를 미세 조정하여 등록할 각도를 결정한다.
이하에서는, 3개 잔기로 구성되는 90° 턴의 경우에 대해서 설명한다. (B)의 90° β-스트랜드 턴의 경우와 관련하여, 138종의 검색예 중에서 실제로 1개 잔기로 90° 턴을 만드는 부분을 검색한다. (A)에서의 180° β-스트랜드 턴의 경우와 유사한 방식에 따라, 1개 잔기로 90° 턴을 만드는 부분이 365건 검출되었다. 이어서, 365건의 φ 및 ψ의 각도에 대하여 라마찬드란 플롯을 작성한다. 또한, φ 및 ψ의 각도 분포를 명확하게 하기 위해서 각도 분포도를 작성한다. 도 20은 90° 턴의 제1 잔기에 대한 φ 및 ψ의 각도 분포도이다. 상기 분포도는 (A)의 180° β-스트랜드 턴의 경우와 유사하게 작도한 것이다. 도 20의 분포도로부터, 90° 턴을 이루는 제1 잔기의 φ는 -60° 내지 -80° 근방 및 90° 근방에 주로 분포한다는 것을 알 수 있다. 한편, 90° 턴을 이루는 제1 잔기의 ψ는 -10°와 130° 근방에 주로 분포한다는 것을 알 수 있다. 이처럼 상기 분포도로부터 90° 턴에 존재할 확률이 높은 φ의 각도가 얻어진다.
도 21은 입체 구조 분석에 의해 얻어진 90° β-스트랜드 턴에 대표적인 2 면각의 각도 및 턴 방향 결과를 나타낸다. 도 21에서, 결과 E는 제1 잔기의 φ가 -59.9°, ψ가 120.0°이고 턴에 이르기까지의 턴 앞쪽 잔기 수가 5개여서 좌측 턴이 일어남을 나타낸다. 결과 F는 제1 잔기의 φ가 -79.9°, ψ가 -10.1°이고 턴에 이르기까지의 턴 앞쪽 잔기 수가 5개의 홀수여서 좌측 턴이 일어남을 나타낸다. 또한, 결과 G는 제1 잔기의 φ가 90.0°, ψ가 -10.0°이고 턴에 이르기까지의 턴 앞쪽 잔기 수가 6개여서 우측 턴이 일어남을 나타낸다.
이하에서는, 본 발명에 따른 단백질 입체 구조 예측 장치를 사용하여, 앞서 설명한 180° β-스트랜드 턴의 경우에서와 유사한 방식에 따른 분석 결과로부터 얻어진 존재 확률이 높은 2 면각을 적용한 입체 구조를 표시한 예를 나타낸다.
도 22는 90° β-스트랜드 턴의 제1 입체 구조를 표시한 일례이다. 이것은 도 21의 결과 E에서 얻어진 φ와 ψ를 사용하여 좌측 턴의 턴 부분을 나타낸 표시 화면의 예이다. 또한, 도 23은 90° β-스트랜드 턴의 제2 입체 구조를 표시한 일례이다. 이것은 도 21의 결과 G에서 얻어진 φ와 ψ를 사용하여 우측 턴의 턴 부분을 나타낸 표시 화면의 예이다.
이하에서는, 4개 잔기로 구성되는 60° β-스트랜드 턴의 경우에 대해서 설명한다. (C)의 60° β-스트랜드 턴의 경우와 관련하여, 138종의 검색예 중에서 실제로 1개 잔기가 60° 턴을 만드는 부분을 검색한다. (A)에서의 180° β-스트랜드 턴의 경우와 유사한 방식에 따라, 1개 잔기로 60° 턴을 만드는 부분이 273건 검출되었다. 이어서, 273건의 φ 및 ψ의 각도에 대하여 라마찬드란 플롯을 작성한다. 이어서, φ 및 ψ의 각도 분포를 명확하게 하기 위해서 각도 분포도를 작성한다.
도 24는 60° β-스트랜드 턴의 제1 잔기에 대한 φ 및 ψ의 각도 분포도이다. 상기 분포도는 (A)의 180° β-스트랜드 턴의 경우와 유사하게 작도한 것이다. 도 24의 분포도로부터, 60° 턴을 이루는 제1 잔기의 φ는 150° 근방에 주로 분포한다는 것을 알 수 있다. 한편, 60° 턴을 이루는 제1 잔기의 ψ는 -75° 근방에 주로 분포한다는 것을 알 수 있다. 이처럼 상기 분포도로부터 60° 턴에 존재할 확률이 높은 φ 및 ψ의 각도가 얻어진다.
도 25는 입체 구조 분석에 의해 얻어진 60° β-스트랜드 턴에서 존재 확률이 높은 φ 및 ψ의 각도이다. 결과 H는 제1 잔기의 φ가 -75.0°, ψ가 150.0°이고 턴에 이르기까지의 턴 앞쪽 잔기 수가 5개의 홀수여서 좌측 턴이 일어남을 나타낸다. 결과 I은 φ와 ψ의 조합은 결과 H와 동일하고 턴에 이르기까지의 턴 앞쪽 잔기 수가 6개여서 우측 턴이 일어난다는 것을 나타내고 있다.
이어서, 본 발명에 따른 단백질 입체 구조 예측 장치를 사용하여, 이와 같은 분석 결과로부터 얻어진 존재 확률이 높은 2 면각을 적용한 입체 구조를 표시한 예를 나타낸다.
도 26은 60° β-스트랜드 턴의 제1 입체 구조를 표시한 일례이다. 이것은 결과 H에서 얻어진 φ와 ψ를 사용하여 60° β-스트랜드 좌측 턴의 턴 부분을 나타낸 표시 화면의 예이다. 또한, 도 27은 60° β-스트랜드 턴의 제2 입체 구조를 표시한 일례이다. 이것은 결과 I에서 얻어진 φ와 ψ를 사용하여 60° β-스트랜드 우측 턴의 턴 부분을 나타낸 표시 화면의 예이다.
이하에서는, 직쇄 모델의 경우에 대해서 설명한다. 본 발명의 발명자는 앞서 설명한 β-스트랜드 턴의 구조에 관한 분석시와 유사한 방식으로 입체 구조를 분석하였다. 직쇄 모델의 경우에서는 (A)의 2개 잔기로 구성된 180° 턴과 유사하게 첫번째 잔기 (2개 잔기 경우의 t1)와 마지막 잔기 (2개 잔기 경우의 t2)에 의해 턴이 형성된다. 또한, 첫번째 잔기와 마지막 잔기 사이에 존재하는 나머지 잔기들는 직쇄형으로 배열된다. 도 28은 입체 구조 분석에 의해 얻어진 직쇄 모델에서 존재 확률이 높은 φ 및 ψ의 각도이다. 결과 J는 첫번째 잔기의 φ가 -60.0°, ψ가 120.0°이고 마지막 잔기의 φ가 90.0°, ψ가 0.0°이며 턴에 이르기까지의 턴 앞쪽 β-스트랜드의 잔기 수가 5개여서 좌측 턴이 일어남을 나타낸다. 또한, 결과 K는 φ와 ψ의 조합은 결과 J에서와 동일하지만, 턴에 이르기까지의 턴 앞쪽 잔기 수가 6개여서 우측 턴이 일어남을 나타낸다. 결과 L은 제1 잔기의 φ가 80.0°, ψ가 -120.0°이고 제2 잔기의 φ가 -90.0°, ψ가 -10.0° 근방이며 턴에 이르기까지의 턴 앞쪽 β-스트랜드의 잔기 수가 5개여서 좌측 턴이 일어남을 나타낸다. 결과 M은 φ와 ψ의 조합은 결과 L에서와 동일하지만 턴에 이르기까지의 턴 앞쪽 잔기 수가 6개여서 우측 턴이 일어난다는 것을 나타낸다.
이하에서는, 180° α-나선 턴의 경우에 대해서 설명한다. 본 발명의 발명자는 앞서 설명한 β-스트랜드 턴의 구조 분석시와 유사한 방식으로 α-나선 구조 중의 180° 턴의 입체 구조를 분석하였다. 그 결과, α-나선 구조의 제1 α-나선과 제2 α-나선 사이의 잔기에서 180° 턴을 이우고자 할 때, 상기 제1 α-나선과 제2 α-나선 사이에 배열된 β-시트 잔기가 홀수개 또는 짝수개인지에 따라 이에 의한 180° 턴 결과가 다음과 같음을 발견하였다:
-잔기 수가 홀수인 경우: 제1 α-나선과 제2 α-나선이 역방향으로 배향됨 (180° 턴).
-잔기 수가 짝수인 경우: 제1 α-나선과 제2 α-나선이 동일 방향으로 배향됨.
실제 α-나선 구조에서 턴을 형성하는 잔기 수는 다양하지만, 턴이 생성된다는 것을 알고 있다면, 상술한 관계로부터 α-나선 턴 구조를 예측하고 재현할 수 있다. 이러한 규정을 이용하여 예측하는, 본 발명에 따른 단백질 입체 구조 예측 장치를 사용하여 α-나선 턴을 표시한 예를 도시한다. 도 29는 α-나선 턴의 제1 입체 구조를 표시한 일례이다. 이것은 턴을 형성하는 잔기 수가 홀수인 경우에 있어서의 α-나선 및 턴을 보이고 있다. 잔기 수가 홀수이기 때문에 α-나선들이 서로 역방향으로 배향된 180° 턴이 형성되어 있다. 또한, 도 30은 α-나선 턴의 제2 입체 구조를 표시한 일례이다. 이것은 턴을 형성하는 잔기 수가 짝수인 경우에 있어서의 α-나선 및 턴을 나타내고 있다. 잔기 수가 짝수이기 때문에, α-나선들을 동일 방향으로 배향하는 턴이 형성된다.
상기한 설명은 턴 정보 DB (230)에 등록된 턴 구조 정보 패턴의 일례를 표시한 것에 불과하며, 본 발명은 이에 한정되지 않는다. 또한, 턴 정보 DB (230)에 등록하는 턴 구조 정보 패턴은 임의적이고, 복수개의 패턴을 등록해 두었다가 임의로 선택할 수도 있으며, 적당한 하나를 선택하여 등록해 두었다가 이것을 사용할 수도 있다.
또한, 상기한 처리 기능은 컴퓨터로 실행할 수 있다. 이러한 경우에는, 단백질 입체 구조 예측 장치가 보유해야 하는 기능을 갖춘 처리 내용을 기술한 프로그램이 제공된다. 이러한 프로그램을 컴퓨터로 실행함으로써, 상기 처리 기능이 컴퓨터 상에서 실현된다. 처리 내용을 기술한 프로그램은 컴퓨터로 판독가능한 기록 매체에 기록되어 있을 수 있다. 컴퓨터로 판독가능한 기록 매체로는 자기 기록 장치, 광 디스크, 광 자기 기록 매체 및 반도체 메모리 등이 있다. 자기 기록 장치로는 하드 디스크 장치 (HDD), 플로피 디스켓 (FD) 및 자기 테이프 등이 있다. 광 디스크로는 DVD (Digital Versatile Disc), DVD-RAM (Random Access Memory), CD-ROM (Compact Disc Read Only Memory) 및 CD-R (Recordable)/RW (ReWritable) 등이 있다. 광 자기 기록 매체로는 MO (Magneto-Optical disk)등이 있다.
프로그램을 유통시키고자 하는 경우에는 예를 들어 그 프로그램이 기록된 DVD, CD-ROM 등의 휴대용 기록 매체를 판매할 수 있다. 별법으로, 프로그램을 서버 컴퓨터의 기억 장치에 저장해 두고, 네트워크를 통해 서버 컴퓨터로부터 다른 컴퓨터로 상기 프로그램을 전송할 수도 있다.
프로그램을 실행하는 컴퓨터는, 예를 들어 휴대용 기록 매체에 기록된 프로그램 또는 서버 컴퓨터로부터 전송된 프로그램을 자신의 기억 장치에 저장한다. 또한, 컴퓨터는 자신의 기억 장치로부터 프로그램을 판독하고 그 프로그램에 따른 처리를 실행한다. 별법으로, 컴퓨터는 휴대용 기록 매체로부터 직접 프로그램을 읽어 내고, 그 프로그램에 따른 처리를 실행할 수도 있다. 또한, 컴퓨터는 서버 컴퓨터로부터 프로그램의 일부가 전송될 때마다, 수취한 부분의 프로그램에 따라 차례대로 처리할 수도 있다.
이상에서 설명한 바와 같이 본 발명의 단백질 입체 구조 예측 장치는 단백질 1차 서열인 아미노산 서열을 판독하여 2차 구조를 예측하거나 또는 데이타베이스로부터 2차 구조를 취득하고 예측된 2차 구조를 기초로 하여 턴을 형성하는 아미노산 수를 산출하여, 2차 구조 및 아미노산 수에 따를 때 존재할 확률이 높은 턴 구조를 취득함으로써 턴을 재현하여 입체 구조를 예측한다.
이와 같이, 2차 구조 및 턴을 형성하는 아미노산 수에 상응하게 얻어진 존재 확률이 높은 턴 구조를 기초로 하여 턴을 예측하기 때문에, 자유도가 높아 종래에는 규정하기 어려웠던 턴을 재현할 수 있다. 따라서, 미지의 입체 구조를 갖는 아미노산 서열의 단백질에 대해서도 그의 입체 구조를 예측할 수 있다.
또한, 본 발명의 단백질의 입체 구조 예측 프로그램을 컴퓨터로 실행시키는 경우, 컴퓨터는 단백질의 아미노산 서열을 판독하고, 2차 구조 정보를 취득한다. 이어서, 컴퓨터는 2차 구조 정보를 기초로 하여 턴을 형성하는 아미노산 수를 산출하고, 산출된 아미노산 수 및 2차 구조 정보에 따를 때 존재할 확률이 높은 턴에 관한 턴 구조 정보를 취득하여 턴을 예측 및 재현하여 단백질의 입체 구조를 예측한다.
이와 같이, 2차 구조로부터 얻어진 턴을 형성하는 아미노산 수 및 2차 구조에 따를 때 존재할 확률이 높은 턴에 관한 턴 구조 정보를 취득하여 턴을 예측한다. 이에 따라서, 자유도가 높아 종래에는 규정하기 어려웠던 턴을 예측하고 재현할 수 있다. 따라서, 미지의 입체 구조를 갖는 아미노산 서열의 단백질에 대해서도 그의 입체 구조를 예측할 수 있다.
전술한 내용은 본 발명의 원리를 단지 예시한 것에 불과하다. 또한, 당업자에게는 다수의 변형 및 변경이 가능하고, 본 발명은 상기에 기재하고 설명한 구성 및 응용예로만 한정되는 것이 아니라 상응하는 모든 변형예 및 균등물이 첨부한 청구의 범위 및 그 균등물에 따른 본 발명의 범위에 속하는 것으로 간주된다.
본 발명은 이러한 문제점을 감안하여 이루어진 것으로서, 턴을 규정함으로써 단백질의 입체 구조를 예측하는 단백질 입체 구조 예측 장치 및 예측 방법을 제공하는 것을 목적으로 한다.
상기한 문제점을 해결하기 위해서, 본 발명은 도 1에 예시한 바와 같은 단백질 입체 구조 예측 장치를 제공한다. 본 발명에 따른 입체 구조 예측 장치에서는 단백질 1차 서열인 아미노산 서열을 판독하고, 아미노산 서열 및 상기 아미노산 서열로부터 예측되는 국소적 2차 구조 정보를 입체 구조 예측부 (200)에 입력한다. 입체 구조 예측부 (200)에서, 턴 형성부 산출 수단 (210)은 상기 2차 구조 정보에 따라 턴을 형성하는 아미노산 서열을 추출하고 여기에 포함된 아미노산 수를 산출한 후, 이 수치를 2차 구조 정보와 함께 턴 예측 수단 (220)으로 전송한다. 턴 예측 수단 (220)은 상기에서 산출된 턴을 구성하는 아미노산 수 및 2차 구조 정보에 따를 때 존재할 확률이 높은 턴에 관한 턴 구조 정보를 취득하고, 이러한 턴 구조 정보를 기초로 하여 턴 부분을 재현한다. 턴의 구조는, 2차 구조 및 턴을 구성하는 아미노산 수에 따라서 몇가지 패턴으로 분류할 수 있는 것으로 밝혀졌다. 턴 구조 정보는 각각의 분류에서 얻은, 존재 확률이 높은 턴의 구조에 관한 정보이다. 따라서, 턴 구조 정보를 사용함으로써 존재 확률이 높은 턴을 재현할 수가 있다. 입체 구조 재현 수단 (240)은 재현된 턴 부분을 이용함으로써 단백질 전체의 입체 구조를 재현하고 소정의 형식에 따른 재현 정보를 생성한다.
또한, 상기한 문제점을 해결하기 위해서, 본 발명은 입체 구조가 이미 알려져 있는 단백질에 대한 입체 구조 정보로부터 2차 구조 정보 및 턴을 형성하는 아미노산 수에 상응하여 존재 확률이 높은 턴에 관한 턴 구조 정보를 추출함으로써 이에 대한 정보를 미리 취득하여 소정의 기억 수단에 저장해 두고; 원하는 단백질의 아미노산 서열 및 그의 2차 구조 정보를 취득하고; 취득된 2차 구조 정보를 기초로 하여 턴을 형성하는 아미노산 수를 산출하고; 취득된 2차 구조 정보 및 턴을 형성하는 아미노산 수에 대해서 턴 구조 정보를 검색함으로써 그에 상응하는 턴 구조 정보를 추출하며; 추출된 턴 구조 정보를 기초로 하여 재현된 턴 부분을 이용함으로써 상기 단백질 전체의 입체 구조를 재현한 재현 정보를 생성하는, 단백질 입체 구조 예측 방법을 제공한다.
본 발명의 상기 및 다른 목적, 특징 및 이점은 본 발명의 바람직한 실시양태를 예시하여 첨부한 도면 및 이에 관한 이하의 설명에 의해 명백해질 것이다.
SEQUENCE LISTING <110> FUJITSU LIMITED <120> APPARATUS AND METHOD FOR PREDICTING THREE-DIMENSIONAL STRUCTURE OF PROTEIN <130> FUP-1468P <140> PCT/JP02/12942 <141> 2002-12-10 <150> JP 2001-375857 <151> 2001-12-10 <160> 1 <170> PatentIn version 3.1 <210> 1 <211> 228 <212> PRT <213> Artificial Sequence <220> <223> Inventor: Sakai, Kohta <220> <221> TURN <222> (29)..(32) <223> 귺�긩�긘�긏긄깛긚궸뢯뙸궥귡��깛 <220> <221> TURN <222> (55)..(61) <223> 귺�긩�긘�긏긄깛긚궸뢯뙸궥귡��깛 <220> <221> TURN <222> (68)..(69) <223> 귺�긩�긘�긏긄깛긚궸뢯뙸궥귡��깛 <400> 1 Thr Gly Arg Pro Glu Trp Ile Trp Leu Ala Leu Gly Thr Ala Leu Met 1 5 10 15 Gly Leu Gly Thr Leu Tyr Phe Leu Val Lys Gly Met Gly Val Ser Asp 20 25 30 Pro Asp Ala Lys Lys Phe Tyr Ala Ile Thr Thr Leu Val Pro Ala Ile 35 40 45 Ala Phe Thr Met Tyr Leu Ser Met Leu Leu Gly Tyr Gly Leu Thr Met 50 55 60 Val Pro Phe Gly Gly Glu Gln Asn Pro Ile Tyr Trp Ala Arg Tyr Ala 65 70 75 80 Asp Trp Leu Phe Thr Thr Pro Leu Leu Leu Leu Asp Leu Ala Leu Leu 85 90 95 Val Asp Ala Asp Gln Gly Thr Ile Leu Ala Leu Val Gly Ala Asp Gly 100 105 110 Ile Met Ile Gly Thr Gly Leu Val Gly Ala Leu Thr Lys Val Tyr Ser 115 120 125 Tyr Arg Phe Val Trp Trp Ala Ile Ser Thr Ala Ala Met Leu Tyr Ile 130 135 140 Leu Tyr Val Leu Phe Phe Gly Phe Thr Ser Lys Ala Glu Ser Met Arg 145 150 155 160 Pro Glu Val Ala Ser Thr Phe Lys Val Leu Arg Asn Val Thr Val Val 165 170 175 Leu Trp Ser Ala Tyr Pro Val Val Trp Leu Ile Gly Ser Glu Gly Ala 180 185 190 Gly Ile Val Pro Leu Asn Ile Glu Thr Leu Leu Phe Met Val Leu Asp 195 200 205 Val Ser Ala Lys Val Gly Phe Gly Leu Ile Leu Leu Arg Ser Arg Ala 210 215 220 Ile Phe Gly Glu 225

Claims (13)

  1. 단백질을 구성하는 아미노산 서열을 기초로 하여 상기 단백질의 입체 구조를 예측하는 단백질 입체 구조 예측 장치에 있어서,
    판독된 단백질 1차 서열인 아미노산 서열 및 상기 아미노산 서열로부터 얻어진 국소적인 2차 구조에 관한 2차 구조 정보를 기초로 하여 턴 (turn)을 형성하는 아미노산 수를 산출하는 턴 형성부 산출 수단,
    입체 구조가 이미 알려져 있는 단백질을 해석하여 얻은, 2차 구조 정보 및 아미노산 수에 대응하는 입체 구조 정보로부터, 상기 턴 형성부 산출 수단에 의해 산출된 상기 2차 구조 및 상기 턴을 형성하는 아미노산 수에 대응하는 턴 구조 정보를 추출하여 취득하고, 상기 턴 구조 정보를 기초로 하여 턴 부분을 재현하는 턴 예측 수단, 및
    재현된 턴 부분을 이용함으로써 상기 단백질의 입체 구조를 재현한 재현 정보를 생성하는 입체 구조 재현 수단
    을 포함하는 것을 특징으로 하는, 단백질 입체 구조 예측 장치.
  2. 제1항에 있어서, 상기 턴 예측 수단이
    상기 입체 구조 정보로부터 2차 구조 정보 및 턴을 형성하는 아미노산 수에 따라 미리 추출해 둔 턴 구조 정보를 상기 2차 구조 및 상기 턴을 형성하는 아미노산 수와 관련하여 기억하는 턴 정보 기억 수단, 및
    상기 턴 형성부 산출 수단에 의해 산출된 2차 구조 및 턴을 형성하는 아미노산 수를 기초로 하여 상기 턴 정보 기억 수단을 검색함으로써 그에 상응하는 턴 구조 정보를 취득하는 검색 수단
    을 포함하는 것을 특징으로 하는, 단백질 입체 구조 예측 장치.
  3. 제2항에 있어서, 상기 턴 정보 기억 수단에는 턴의 양측에 존재하는 2차 구조 및 턴을 형성하는 아미노산 수에 대응하여 펩티드 면이 형성하는 2 면각이 상기 입체 구조 정보로부터 미리 추출되어 기억되어 있고; 상기 검색 수단은 상기 취득된 2차 구조 및 턴을 형성하는 아미노산 수에 대응하는 2 면각에 대해서 상기 턴 정보 기억 수단을 검색하고 해당하는 2 면각을 할당하는 2 면각 할당 수단을 포함하는 것을 특징으로 하는, 단백질 입체 구조 예측 장치.
  4. 제3항에 있어서, 상기 턴 정보 기억 수단에는 β-스트랜드와 β-스트랜드 사이에 존재하는 턴에서 상기 턴을 형성하는 각 아미노산 사이에 소정의 각도의 턴이 형성됨으로써 β-스트랜드의 180° 턴이 형성되는 경우의 2 면각이 상기 입체 구조 정보로부터 추출되어, 턴을 형성하는 아미노산 수에 상응하게 기억되어 있음을 특징으로 하는, 단백질 입체 구조 예측 장치.
  5. 제3항에 있어서, 상기 턴 정보 기억 수단에는 β-스트랜드와 β-스트랜드 사이에 존재하는 턴에서 상기 턴을 구성하는 첫번째 아미노산과 마지막 아미노산에 의해서 β-스트랜드의 180° 턴이 형성되며 상기 첫번째 아미노산과 마지막 아미노산을 제외한 나머지 아미노산들은 직쇄형으로 연결된 구조를 갖는 턴에서의 2 면각이 상기 입체 구조 정보로부터 추출되어, 턴을 형성하는 아미노산 수에 상응하게 기억되어 있음을 특징으로 하는, 단백질 입체 구조 예측 장치.
  6. 제1항에 있어서, 상기 턴 예측 수단이 상기 2차 구조, 또는 상기 2차 구조 및 턴을 형성하는 아미노산 수에 따라 턴의 방향을 규정하는 턴 방향 산출 수단을 추가로 포함하는 것을 특징으로 하는, 단백질 입체 구조 예측 장치.
  7. 제6항에 있어서, 상기 턴 방향 산출 수단이 β-스트랜드와 β-스트랜드 사이에 존재하는 턴의 경우에서 상기 턴에 이르기까지의 턴 앞쪽 β-스트랜드를 형성하는 아미노산 수가 홀수 또는 짝수인지에 따라 턴의 방향을 규정하는 것임을 특징으로 하는, 단백질 입체 구조 예측 장치.
  8. 제6항에 있어서, 상기 턴 방향 산출 수단이 α-나선과 α-나선 사이에 존재하는 턴의 경우에서 상기 턴을 형성하는 아미노산 수가 홀수 또는 짝수인지에 따라 턴의 방향을 규정하는 것임을 특징으로 하는, 단백질 입체 구조 예측 장치.
  9. 단백질을 구성하는 아미노산 서열을 기초로 하여 상기 단백질의 입체 구조를 예측하는 단백질의 입체 구조 예측 방법에 있어서,
    입체 구조가 이미 알려져 있는 단백질을 해석하여 얻은, 2차 구조 및 아미노산 수에 대응하는 입체 구조 정보를 미리 취득하여 소정의 기억 수단에 저장해 두는 단계,
    입체 구조를 예측할 단백질의 1차 서열인 아미노산 서열 및 상기 아미노산 서열로부터 얻어진 국소적인 2차 구조 정보를 기초로 하여 턴을 형성하는 아미노산 수를 산출하는 단계,
    산출된 상기 2차 구조 정보 및 상기 턴을 형성하는 아미노산 수에 대응하는 턴 구조 정보를 추출하는 단계, 및
    추출된 턴 구조 정보를 기초로 하여 재현된 턴 부분을 이용함으로써 상기 단백질의 입체 구조를 재현한 재현 정보를 생성하는 단계
    를 포함하는 것을 특징으로 하는, 단백질의 입체 구조 예측 방법.
  10. 제9항에 있어서, 상기 턴 구조 정보를 추출하는 단계가 구조 예측을 수행할 단백질의 턴 부분을 상기 취득된 2차 구조 정보를 기초로 검색하여, 해당 턴이 검출된 경우에는 그에 상응하는 턴 구조 정보를 추출하는 것임을 특징으로 하는, 단백질의 입체 구조 예측 방법.
  11. 제9항에 있어서, 상기 턴 구조 정보를 추출하는 단계가 구조 예측을 수행할 단백질을 2차 구조 정보 및 턴을 형성하는 아미노산 수에 따라 추출해 둔 턴 구조 정보가 적용되는 턴 부분에 대해서 상기 취득된 2차 구조 정보를 기초로 하여 검색하는 것임을 특징으로 하는, 단백질의 입체 구조 예측 방법.
  12. 삭제
  13. 단백질을 구성하는 아미노산 서열을 기초로 하여 상기 단백질의 입체 구조를 예측하기 위한 컴퓨터용 프로그램을 기록한 컴퓨터-판독가능한 기록 매체로서, 상기 프로그램이 컴퓨터가
    판독된 단백질 1차 서열인 아미노산 서열 및 상기 아미노산 서열로부터 얻어진 국소적인 2차 구조 정보를 기초로 하여 턴을 형성하는 아미노산 수를 산출하는 턴 형성부 산출 수단의 기능,
    입체 구조가 이미 알려져 있는 단백질을 해석하여 얻은, 2차 구조 정보 및 아미노산 수에 대응하는 입체 구조 정보로부터 상기 턴 형성부 산출 수단에 의해 산출된 상기 2차 구조 및 상기 턴을 형성하는 아미노산 수에 대응하는 턴 구조 정보를 추출하여 취득하고, 상기 턴 구조 정보를 기초로 하여 턴 부분을 재현하는 턴 예측 수단의 기능, 및
    재현된 턴 부분을 이용함으로써 상기 단백질의 입체 구조를 재현한 재현 정보를 생성하는 입체 구조 재현 수단의 기능
    을 갖도록 하는 것을 특징으로 하는, 컴퓨터-판독가능한 기록 매체.
KR1020047008865A 2001-12-10 2002-12-10 단백질의 입체 구조 예측 장치 및 예측 방법 KR100879438B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001375857 2001-12-10
JPJP-P-2001-00375857 2001-12-10
PCT/JP2002/012942 WO2003054743A1 (en) 2001-12-10 2002-12-10 Apparatus for predicting stereostructure of protein and prediction method

Publications (2)

Publication Number Publication Date
KR20040062985A KR20040062985A (ko) 2004-07-09
KR100879438B1 true KR100879438B1 (ko) 2009-01-20

Family

ID=19184160

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020047008865A KR100879438B1 (ko) 2001-12-10 2002-12-10 단백질의 입체 구조 예측 장치 및 예측 방법

Country Status (8)

Country Link
US (1) US20050069954A1 (ko)
EP (1) EP1455281B1 (ko)
JP (1) JP4282484B2 (ko)
KR (1) KR100879438B1 (ko)
CN (1) CN100501726C (ko)
AU (1) AU2002354462A1 (ko)
DE (1) DE60227986D1 (ko)
WO (1) WO2003054743A1 (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100592086B1 (ko) * 2004-07-16 2006-06-21 아주대학교산학협력단 적응적인 가중치 보팅 알고리즘을 적용한 단백질 이차구조 예측 방법
CN101647022B (zh) * 2007-01-31 2012-07-18 麦科罗医药科技(武汉)有限公司 描述蛋白质的构象和根据折叠、整体形状与结构序列对其进行评价的方法、系统及装置
CN101294970B (zh) * 2007-04-25 2012-12-05 中国医学科学院基础医学研究所 蛋白质三维结构的预测方法
US7983887B2 (en) 2007-04-27 2011-07-19 Ut-Battelle, Llc Fast computational methods for predicting protein structure from primary amino acid sequence
CN101408911B (zh) * 2008-07-15 2010-06-09 北京科技大学 一类蛋白质二级结构智能预测模型构造技术
KR101091785B1 (ko) * 2010-04-07 2011-12-08 숭실대학교산학협력단 알파탄소의 좌표정보를 이용한 단백질 2차 구조 판별장치 및 방법
US20130338932A1 (en) * 2012-06-13 2013-12-19 Agilent Technologies, Inc. Computational method for mapping peptides to proteins using sequencing data
CN104395900B (zh) 2013-03-15 2017-08-25 北京未名博思生物智能科技开发有限公司 序列比对的空间计数运算方法
WO2015199162A1 (ja) * 2014-06-25 2015-12-30 国立研究開発法人科学技術振興機構 膜タンパク質の熱安定化変異体予測装置、熱安定化変異体予測方法、および、プログラム
CN109448784B (zh) * 2018-08-29 2021-05-18 浙江工业大学 一种基于二面角信息辅助能量函数选择的蛋白质结构预测方法
CN109300501B (zh) * 2018-09-20 2021-02-02 国家卫生健康委科学技术研究所 蛋白质三维结构预测方法及用其构建的预测云平台
EP4002383A3 (en) 2020-11-13 2022-08-03 Tokyo Institute of Technology Information processing device, information processing method, recording medium recording information processing program, and information processing system
JP7057003B1 (ja) 2021-02-26 2022-04-19 国立大学法人東京工業大学 予測装置、学習済みモデルの生成装置、予測方法、学習済みモデルの生成方法、予測プログラム、及び学習済みモデルの生成プログラム
JP7057004B1 (ja) 2021-03-05 2022-04-19 国立大学法人東京工業大学 予測装置、学習済みモデルの生成装置、予測方法、学習済みモデルの生成方法、予測プログラム、及び学習済みモデルの生成プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5265030A (en) * 1990-04-24 1993-11-23 Scripps Clinic And Research Foundation System and method for determining three-dimensional structures of proteins
CA2359889A1 (en) * 1999-01-27 2000-08-03 The Scripps Research Institute Protein modeling tools
US20030083821A1 (en) * 2001-09-28 2003-05-01 Hannah Eric C. Fast secondary structure discovery method for protein folding

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Analytical Biochemistry Vol.286:1-16 (2000) *
Bioinformatics Vol.15(2):131-140 (1999) *
J. Mol. Biol. Vol.259:349-365 (1996) *
J. Peptide Res. Vol.56:250-263 (2000) *

Also Published As

Publication number Publication date
AU2002354462A1 (en) 2003-07-09
EP1455281B1 (en) 2008-07-30
EP1455281A1 (en) 2004-09-08
DE60227986D1 (de) 2008-09-11
JPWO2003054743A1 (ja) 2005-04-28
US20050069954A1 (en) 2005-03-31
WO2003054743A1 (en) 2003-07-03
JP4282484B2 (ja) 2009-06-24
CN1602487A (zh) 2005-03-30
EP1455281A4 (en) 2007-07-11
CN100501726C (zh) 2009-06-17
KR20040062985A (ko) 2004-07-09

Similar Documents

Publication Publication Date Title
KR100879438B1 (ko) 단백질의 입체 구조 예측 장치 및 예측 방법
George et al. SnapDRAGON: a method to delineate protein structural domains from sequence data
Capriotti et al. A neural-network-based method for predicting protein stability changes upon single point mutations
Jiang et al. Bridging the information gap: computational tools for intermediate resolution structure interpretation
Kolodny et al. Small libraries of protein fragments model native protein structures accurately
Zhou et al. Predicting the topology of transmembrane helical proteins using mean burial propensity and a hidden‐Markov‐model‐based method
George et al. Protein domain identification and improved sequence similarity searching using PSI‐BLAST
JP2008516347A (ja) インタロックツリーデータストアの保存および復元
Daras et al. Three-dimensional shape-structure comparison method for protein classification
Li et al. Simplicial edge representation of protein structures and alpha contact potential with confidence measure
JP2005529382A (ja) 共通する蛋白質の表面形状およびその使用
EP2619700B1 (en) System for molecular packing calculations
Taylor Protein structure comparison using SAP
Xu et al. Protein depth calculation and the use for improving accuracy of protein fold recognition
Ramakrishnan et al. Understanding structure-guided variant effect predictions using 3D convolutional neural networks
Lee et al. MetaDTA: meta-learning-based drug-target binding affinity prediction
Lessel et al. Importance of anchor group positioning in protein loop prediction
Comin et al. PROuST: a comparison method of three-dimensional structures of proteins using indexing techniques
Wang et al. Inferring protein-protein interactions using a hybrid genetic algorithm/support vector machine method
Ison et al. Proteins and their shape strings
Guyon et al. Assessing 3D scores for protein structure fragment mining
US20070136003A1 (en) Method and system of verifying protein-protein interaction using protein homology relationship
Guzman-Vega et al. AlphaCRV: A Pipeline for Identifying Accurate Binder Topologies in Mass-Modeling with AlphaFold
US20040171063A1 (en) Local descriptors of protein structure
AU2003239210A1 (en) Methods, systems, and computer program products for representing object relationships in a multidimensional space

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20111216

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20121227

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee