KR100853786B1 - 단백질 동정을 위한 단백질 데이터베이스의 재구성방법 및이를 이용한 단백질 동정 방법 - Google Patents

단백질 동정을 위한 단백질 데이터베이스의 재구성방법 및이를 이용한 단백질 동정 방법 Download PDF

Info

Publication number
KR100853786B1
KR100853786B1 KR1020060065533A KR20060065533A KR100853786B1 KR 100853786 B1 KR100853786 B1 KR 100853786B1 KR 1020060065533 A KR1020060065533 A KR 1020060065533A KR 20060065533 A KR20060065533 A KR 20060065533A KR 100853786 B1 KR100853786 B1 KR 100853786B1
Authority
KR
South Korea
Prior art keywords
protein
database
proteins
sequence
computer
Prior art date
Application number
KR1020060065533A
Other languages
English (en)
Other versions
KR20080006382A (ko
Inventor
권경훈
유종신
Original Assignee
한국기초과학지원연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국기초과학지원연구원 filed Critical 한국기초과학지원연구원
Priority to KR1020060065533A priority Critical patent/KR100853786B1/ko
Priority to PCT/KR2006/003261 priority patent/WO2008007821A1/en
Priority to US12/373,495 priority patent/US8296300B2/en
Publication of KR20080006382A publication Critical patent/KR20080006382A/ko
Application granted granted Critical
Publication of KR100853786B1 publication Critical patent/KR100853786B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

본 발명은 단백질 동정을 위한 단백질 데이터베이스의 재구성 방법 및 이를 이용한 단백질 검색 방법에 대한 것으로, 구체적으로 i) 단백질의 중복을 최소화한 1차 데이터베이스로부터 클러스터링 소프트웨어를 이용하여 일정 유사도 이상을 갖는 단백질 그룹으로 그룹화한 다음, 각각의 단백질 그룹의 서열 정보를 컴퓨터의 기록장치에 독립적으로 저장하는 단계; 및ⅱ) 상기 그룹화된 단백질 그룹에서 대표 단백질을 지정하여 대표 단백질로만 구성된 대표 단백질 데이터베이스(representative protein database)를 구축하여, 서열 정보를 컴퓨터의 기록장치에 저장하는 단계를 포함하는 단백질 서열 데이터베이스의 재구성 방법 및 상기 방법을 이용한 단백질의 동정방법에 관한 것이다. 본 발명의 단백질 검색용 데이터베이스의 재구성 및 이를 이용한 검색 방법은 생체 내에 존재하는 단백질의 상태를 효과적으로 밝혀내는 데 유용하므로, 생체 내에서의 단백질의 기능과 상호작용을 이해하고, 질병 예방 및 진단, 치료하는 방법의 개발 등에 유용하게 이용할 수 있다.
단백질, 질량분석기, 단백질 동정, 데이터베이스, 검색시스템

Description

단백질 동정을 위한 단백질 데이터베이스의 재구성방법 및 이를 이용한 단백질 동정 방법{A method for reconstructing protein database and a method for identifying proteins by using the same method}
도 1은 데이터베이스 A 와 데이터베이스 B에서 유사성을 비교하여 생성한 데이터베이스 구조의 도식화한 도면이다.
도 2는 이 방법에 의해서 그룹에 속해 있는 단백질을 구성하고 있는 펩타이드의 서열들이 밝혀지는 순서를 펩타이드의 관점에서 그린 도식화된 도면이다.
도 3은 이 데이터베이스 시스템으로부터 각 단계에서 동정되는 단백질들의 관계를 도식화한 도면이다.
본 발명은 단백질 동정을 위한 단백질 데이터베이스의 재구성 방법 및 이를 이용한 단백질 검색 방법에 대한 것으로, 보다 상세하게는 보다 효율적인 단백질 동정을 위해 종래의 단백질 데이터베이스를 재구성하는 방법 및 상기 방법을 이용 하여 재구성된 단백질 데이터베이스에 질량분석기를 통해 얻어진 단백질 또는 펩타이드의 질량 스펙트럼을 적용하여 단백질을 동정하는 방법에 관한 것이다.
질량 분석법(mass spectrometry)은 생체고분자(biopolymer)의 분석에 있어서 매우 중요한 분석 방법으로 단백질 데이터베이스 검색(searching) 방법과 결합되어 프로테오믹스(proteomics) 연구에 있어서 핵심 분석 방법으로 사용되고 있다. 질량 스펙트럼으로 단백질을 검색하는 종래의 방법으로는 SEQUEST®(Eng et al ., J. Am. Soc . Mass Spectrom. 5:976?989, 1994; Thermo Electron Corp., USA), Mascot(Perkins et al ., Electrophoresis, 20:3551-3567, 1999; Matrix Science Ltd., USA, http://www.matrixscience.com/search_form_select.html), Sonar(Field, H. I. et al., Proteomics, 2:36-47, 2002; http://knxs.bms.umist.ac.uk/prowl/sonar/sonar_cntrl.html) 및 X!Tandem (Craig et al ., Bioinformatics, 20:1466-1467, 2004; Proteom Software Inc., USA) 등이 현재 가장 널리 쓰이는 소프트웨어이며, 이들은 단백질의 아미노산 서열로 구성한 하나의 데이터베이스로부터 각각의 단백질을 추출하여 가능한 질량 스펙트럼의 패턴을 계산하고 이를 실제 질량 스펙트럼과 비교한다. 또한, 상기와 같은 단백질 검색용 소프트웨어에 채용되는 검색 알고리즘(search algorithm)으로는 MOWSE 알고리즘(Pappin et al ., Curr . Biol . 3:327-332, 1993), SEQUEST 알고리즘(Eng et al ., J. Am . Soc . Mass Spectrom. 5:976-989, 1994) 등이 있다.
그러나, 단백질 관련 정보들이 나날이 축적됨에 따라서 단백질 서열의 데이 터베이스는 폭발적으로 증가하고 있으며, 이 모든 서열들로 데이터베이스를 구성할 경우에는 검색 성능이 떨어져서 실용성을 잃게 된다. 상기 문제점들을 해결하기 위하여 질량 스펙트럼의 데이터베이스 검색에 UniProtKB/SwissProt(Bairoch et al ., Nucleic Acids Res. 33:D154-159, 2005; http://www.ebi.uniprot.org/uniprot-srv/)이나 IPI 데이터베이스(Kersey et al ., Proteomics 4(7):1985-1988, 2004; http://www.ebi.ac.uk/IPI/IPIhelp.html)같은 보다 정제된 서열 데이터베이스를 사용한다. 이들 데이터베이스는 지금까지 알려진 단백질 데이터베이스 중에서 유사한 서열들을 제거하고 대표적인 단백질 서열들만 골라내어 데이터베이스를 구성하였다. 이들은 단백질 서열의 통합 데이터베이스인 미국 국립생명공학정보센터의 NCBI nr 데이터베이스와 비교할 때에 20% 정도의 단백질만을 포함하므로, 이들을 이용한 질량 스펙트럼의 데이터베이스 검색은 매우 효과적이다.
그러나 정제된 서열 데이터베이스의 경우에 대표적인 단백질 서열에 대한 검색 결과는 줄 수 있지만, 이와 유사한 단백질들에 대한 질량 스펙트럼에 대해서는 좋은 검색 결과를 얻기가 어렵다는 단점이 있다. 일반 서열 검색 프로그램의 경우에는 유사한 서열이 데이터베이스에 있기만 하면, 해당 단백질을 찾아낼 수 있지만, 질량 스펙트럼은 펩타이드의 분자량에 의해 해당되는 펩타이드를 찾는 방법을 사용하므로, 서열이 차이가 나는 경우에 원하는 결과를 얻지 못하는 경우가 많다. 그러므로 질량 스펙트럼의 데이터베이스 검색은 실용성을 위해서는 데이터베이스의 크기를 줄여야하지만, 정확한 분석을 위해서는 다양한 서열을 포함하는 데이터베이 스를 사용해야 하는 어려움이 있다. 특히 수식화 단백질의 검색과 같이 단백질 중에서 특정 위치에서의 변화를 분자량으로 찾아내려할 때에는 해당 서열의 존재 여부가 검색 성능에 영향을 미치게 된다. 이에 대한 보완을 위하여 질량 스펙트럼에서 유사한 서열을 계산하는 알고리즘이 제안된바 있다(Creasy et al ., Proteomics 2(10):1426-34, 2002; Kayser et al ., J. Biomol . Tech . 15(4):285-95, 2004). 그러나 이들은 많은 계산 시간을 요하는 작업이며, 결과에 대한 신뢰도의 객관적인 분석이 부족한 실정이다.
이에 본 발명자들은 질량 스펙트럼으로부터 단백질을 찾아내는 데이터베이스 검색 소프트웨어의 성능과 정확도라는 두 가지 요구사항에 부합하는 분석 방법을 고안하고자 예의 연구 노력한 결과, 종래의 단백질 데이터베이스의 구조를 재구성하여 질량 스펙트럼을 검색할 경우, 보다 신속하고 정확하게 단백질을 동정할 수 있음을 확인함으로써, 본 발명을 완성하였다.
본 발명의 목적은 보다 효율적인 단백질 동정을 위해 종래의 단백질 데이터베이스를 재구성하는 방법 및 상기 방법을 이용하여 재구성된 단백질 데이터베이스에 질량분석기를 통해 얻어진 단백질 또는 펩타이드의 질량 스펙트럼을 적용하여 단백질을 동정하는 방법을 제공하는 것이다.
먼저 본 발명을 명확하게 설명하기 위하여 본 명세서에 기재된 용어의 정의를 하기와 같이 설명한다:
클러스터링은 각기 개별 데이터베이스 상의 단백질 서열을 여러 가지 인자를 고려하여 그룹화하는 기술을 말한다.
대표 단백질은 단백질 서열 데이터베이스 중 유사도가 60% 이상인 단백질을 그룹화하여 이를 대표하는 단백질을 말한다.
탠덤 질량 분석은 두 개의 비행시간(Time of flight :TOF) 질량분석 즉 패런트 이온 분리를 위한 저속 TOF1과 프래그먼트 질량 분석을 위한 고속 TOF2를 사용하여 질량을 분석하는 방법이다.
상기 목적을 달성하기 위하여, 본 발명은 단백질 검색용 데이터베이스 구조의 재구성 방법을 제공한다.
아울러, 본 발명은 상기 재구성된 단백질 검색용 데이터베이스를 이용한 단백질 검색 방법을 제공한다.
이하, 본 발명을 상세히 설명한다.
본 발명은 하기의 단계를 포함하는 단백질 검색용 데이터베이스 구조의 재구성 방법을 제공한다:
i) 단백질의 중복을 최소화한 1차 데이터베이스로부터 클러스터링 소프트웨어를 이용하여 일정 유사도 이상을 갖는 단백질 그룹으로 그룹화한 다음, 각각의 단백질 그룹의 서열 정보를 컴퓨터의 기록장치에 독립적으로 저장하는 단계; 및
ⅱ) 상기 그룹화된 단백질 그룹에서 대표 단백질을 지정하여 대표 단백질로만 구성된 대표 단백질 데이터베이스(representative protein database)를 구축하여, 그 서열 정보를 컴퓨터의 기록장치에 저장하는 단계.
상기와 같이 재구성된 대표 단백질 데이터베이스는 단백질 동정에 필요한 최소한의 크기를 갖는 데이터베이스로서 보다 신속한 단백질 동정을 가능하게 한다.
상기 1차 데이터베이스는 IPI 데이터베이스, UniprotKB/Swissprot 데이터베이스 또는 nrdb90 데이터베이스인 것이 바람직하나 이에 특별히 제한되는 것은 아니며, 상기 데이터베이스들은 각각 하기와 같은 인터넷 주소를 통해 다운받을 수 있다:
IPI: ftp://ftp.ebi.ac.uk/pub/databases/IPI/current/
UniprotKB/Swissprot: ftp://ftp.expasy.org/databases/uniprot/
nrdb90: ftp://ftp.ebi.ac.uk/pub/databases/nrdb90/
상기 클러스터링 소프트웨어는 CD-HIT(http://bioinformatics.org/cd-hit/, Li, W. et al ., Bioinformatics 17:282-283, 2001; Li, W. et al , Bioinformatics 18:77-82, 2002), GeneRAGE (http://www.ebi.ac.uk/research/cgg/services/rage/, Enright, A.J. and Ouzounis, C.A., Bioinformatics, 16(5):451-457, 2000), TribeMCL(http://micans.org/mcl/src/, Enright, A.J. et al ., Nucleic Acids Res . 30(7):1575-1584, 2002), 또는 nrdb90( Holm, L., Sander, C., Bioinformatics, 14:423-429, 1998), 인 것이 바람직하나, 특별히 이에 제한되는 것은 아니다.
이 때, 상기 일정 유사도는 60%, 65%, 70%, 75%, 80%, 85%, 90% 또는 95%인 것이 바람직하며, 60%인 것이 더욱 바람직하나 특별히 이에 제한되는 것은 아니다.
본 발명의 데이터베이스 재구성 방법은 하기의 단계를 추가적으로 포함할 수 있다:
ⅲ) 질량분석기를 통해 수득한 특정 시료의 탠덤 질량 스펙트럼을 상기 대표 단백질 데이터베이스를 대상으로 하여, 통상의 서열 검색 알고리즘을 채용한 서열 검색용 소프트웨어를 이용하여 검색한 뒤, 매칭이 된 1차 단백질 목록을 얻는 단계; 및
ⅳ) 상기 1차 단백질 목록과 동일 그룹에 속하는 상기 단계 ⅰ의 단백질 그룹을 모아 2차 데이터베이스를 구축하여, 서열 정보를 컴퓨터의 기록장치에 저장하는 단계.
상기 2차 데이터베이스는 1차 데이터베이스보다는 그 크기가 작으나, 대표 단백질 데이터베이스보다는 좀더 다양한 서열정보가 담겨 있다. 따라서, 상기 대표 단백질 데이터베이스에 유사한 단백질은 있으나, 정확한 서열은 2차 데이터베이스에만 있는 단백질을 동정하는 데에 유용하게 사용될 수 있다.
더 나아가, 본 발명의 단백질 데이터베이스의 재구성 방법은 하기의 단계를 추가적으로 포함할 수 있다:
ⅴ) 질량분석기를 통해 수득한 특정 시료의 탠덤 질량 스펙트럼을 상기 2차 데이터베이스를 대상으로 하여, 통상의 서열 검색 알고리즘을 채용한 서열 검색용 소프트웨어를 이용하여 검색한 뒤, 매칭이 된 2차 단백질 목록을 얻는 단계; 및
ⅵ) 단백질 서열의 다양성이 풍부한 3차 데이터베이스에서 상기 단계 ⅲ에서 수득한 1차 단백질 목록과 관련된 단백질 그룹을 선별한 다음, 상기 단백질 그룹들은 하나로 모아 4차 데이터베이스를 구축하여, 그 서열 정보를 컴퓨터의 기록장치에 저장하는 단계.
아울러, 본 발명의 단백질 데이터 베이스의 재구성 방법은 하기의 단계를 추가적으로 포함할 수 있다:
vii) 질량분석기를 통해 수득한 특정 시료의 탠덤 질량 스펙트럼을 상기 4차 데이터베이스를 대상으로 하여, 통상의 서열 검색 알고리즘을 채용한 서열 검색용 소프트웨어를 이용하여 검색한 뒤, 매칭이 된 3차 단백질 목록을 얻는 단계; 및
viii) 상기 4차 단백질 데이터베이스를 대상으로 하여 통상의 서열 검색 알고리즘에 수식화 조건을 포함하여 서열 검색용 소프트웨어를 이용하여 검색함으로써 매칭이 된 수식화 단백질의 4차 단백질 목록을 얻는 단계; 및
ix) 상기 1차 내지 4차 단백질 목록들을 취합하여 전체 동정 단백질 목록을 작성하고, 검색 결과를 컴퓨터 출력장치에 출력하는 단계.
상기 다양성이 풍부한 3차 데이터베이스에 있어서, 3차 데이터베이스와 대표 데이터베이스인 1차 데이터베이스의 대표 단백질 서열들을 합친 데이터베이스로 clustering software를 실행하면, 그 결과 대표 단백질과 3차 데이터베이스의 단백질들이 섞인 그룹으로 만들어지는데, 대표 단백질들은 상호간에 유사도가 낮은 서열들이므로 서로 다른 그룹에 속하게 되며, 대표 단백질이 포함된 그룹의 3차 데이터베이스 단백질 서열들에 의해 대표 단백질별로 유사한 단백질들로 4차 단백질 서열 그룹을 만들 수 있다. 여기서 4차 단백질 서열은 매우 다양하여 대표 단백질과 유사하지 않은 서열들도 있는데, 이들은 대표 단백질 서열을 포함하지 않은 별도의 그룹으로 이루어진다. 따라서, 4차 데이터베이스의 그룹의 개수는 1차 데이터베이스의 대표 단백질의 개수보다 많다.
시료의 탠덤 질량 스펙트럼을 단백질 수식화를 비롯한 여러 다양한 검색 조건을 사용하여 검색하는 데는 상기 대표 단백질 데이터베이스, 상기 2차 데이터베이스 또는 상기 4차 데이터베이스 모두 사용될 수 있으나, 최종적으로 재구성된 상기 4차 데이터베이스를 사용하는 것이 가장 바람직하다. 상기와 같이 계층적 구조를 갖는 본 발명의 단백질 데이터베이스 재구성 방법에 의하여 재구성된 상기 4차 데이터베이스는 시료에 포함된 단백질들에 대한 데이터베이스로 그 크기가 단백질 서열의 다양성이 풍부한 상기 3차 데이터베이스보다 그 크기가 현저하게 줄어들면서도 서열의 다양성을 최대한으로 보장한다. 따라서, 기본적인 단백질 검색을 1차 내지 4차 데이터베이스로 완료한 후 보다 다양한 검색 조건으로 세부 검색을 수행할 때에는 상기 4차 데이터베이스를 이용하여 실험에서 수득한 탠덤 질량 스펙트럼 에 대한 검색을 수행할 경우, 상기 3차 데이터베이스를 대상으로 직접 서열을 검색하는 것보다, 시간을 획기적으로 단축시킬 수 있으며, 상기 1차 데이터베이스를 통한 검색 결과 동정하지 못하는 단백질을 동정할 수 있다는 장점을 누릴 수 있다.
이때, 상기 단계 ⅱ, ⅳ 및 ⅵ의 서열정보는 FASTA 포맷인 것이 바람직하나 특별히 이에 제한되는 것은 아니다.
상기 단계 ⅱ, ⅳ 및 ⅵ에서의 컴퓨터의 기록장치로는 HDD, FDD, CD-ROM, CD-R, CD-RW, DVD-ROM, DVD-RAM, DVD-RW±, MD(MiniDisk), MMC(MultiMedia Card), SMC(Smart Media Card), Flashmemory, SD(Secure Didital) 카드, CF(CompactFlash) 카드, MemoryStick, 자기테이프 등 다양한 내?외장 기록매체가 사용될 수 있으며, 특별히 이에 제한되는 것은 아니나, HDD를 사용하는 것이 바람직하다.
상기 단계 ⅲ 및 ⅴ에서 사용하는 서열 검색용 소프트웨어는 SEQUEST®(Eng et al ., J. Am . Soc . Mass Spectrom. 5:976-989, 1994; Thermo Electron Corp., USA), TurboSEQUEST®(Eng et al ., J. Am . Soc . Mass Spectrom. 5:976-989, 1994; Thermo Electron Corp., USA), Mascot(Perkins et al ., Electrophoresis, 20:3551-3567, 1999; Matrix Science Ltd., USA, http://www.matrixscience.com/search_form_select.html), Sonar(Field, H. I. et al., Proteomics , 2:36-47, 2002; http://knxs.bms.umist.ac.uk/prowl/sonar/sonar_cntrl.html) 또는 X!Tandem (Craig et al ., Bioinformatics, 20:1466-1467, 2004; Proteome Software Inc., USA)인 것이 바람직하나 특별히 이에 제한되는 것은 아니다.
상기 3차 데이터베이스는 단백질 서열정보가 풍부한 데이터베이스이기만 한다면, 특별히 이에 제한되지는 않으나, NCBI nr 데이터베이스, EST (Expressed Sequence Tag) 데이터베이스 (http://www.ncbi.nlm.nih.gov/dbEST/), 게놈 서열에서 해독한 아미노산 서열 데이터베이스인 것이 바람직하다. 3차 데이터베이스는 단백질 서열정보가 풍부한 여러 데이터베이스들을 연속으로 또는 혼합하여 사용할 수도 있다.
상기 검색용 데이터베이스는 하기와 같이 세 가지의 데이터베이스로 구성된다:
첫째는, 대표 단백질 데이터베이스로서, 단백질 데이터베이스 중에 단백질의 중복을 최소화한 1차 데이터베이스(단백질의 중복을 최소화한 데이터베이스)로부터 유사도가 큰 단백질 서열들을 단백질 그룹으로 분류하고, 각각의 그룹에 대해 대표 단백질을 지정한다. 이렇게 대표 단백질로만 구성된 대표 단백질 데이터베이스는 본 발명의 계층적 데이터베이스 재구성 방법에 있어서 첫 번째 검색 대상이 되는 데이터베이스이다.
둘째는, 상기 대표 단백질 데이터베이스로부터 검색된 단백질과 동일한 그룹에 속하는 1차 데이터베이스 상의 단백질을 모두 모아 구성한 2차 데이터베이스이다. 상기 2차 데이터베이스는 1차 데이터베이스보다는 그 규모가 작으며, 대표 단백질 데이터베이스에서 확보하지 못한 서열 다양성을 일정 정도 담보한다.
셋째는 단백질 서열의 다양성이 풍부한 데이터베이스인 3차 데이터베이스로부터 상기 대표 단백질 데이터베이스로부터 검색된 단백질과 동일한 그룹에 속하는 단백질만을 선별하여 모아놓은 4차 데이터베이스로서, 상기 4차 데이터베이스는 상기 대표 단백질 데이터베이스 및 상기 2차 데이터베이스에서 동정하지 못한 나머지 단백질을 동정하는데 유용하게 사용된다(도 1 참조).
본 발명의 상기 구조적 데이터베이스는 다음과 같은 성격을 가진다. 대표 단백질 데이터베이스는 시료에 존재 가능한 단백질의 대분류를 나타내며, 대표 단백질을 생성하는 데에 사용한 1차 데이터베이스는 가능한 단백질들의 일부를 저장한 데이터베이스이다. 반면 3차 데이터베이스는 단백질들의 가능한 여러 가지 형태들을 모두 포함하는 데이터베이스로, 단백질의 다양성을 반영한다.
한편, 질량분석기는 단백질의 정확한 분석에 매우 중요한 분석 도구로서, 단백질을 가수분해하여 생성된 펩타이드의 분자량 및 이를 다시 분해하여 생성한 조각 이온들의 분자량을 가능한 단백질 서열들과 비교하여 가장 잘 일치하는 단백질 서열을 선택함으로써 단백질 분석시 유용하게 사용된다. 하나의 단백질을 동정하기 위해서는 결과의 신뢰도를 위하여 여러 개의 펩타이드가 동정된 단백질을 최종적으로 선택하는데, 질량 스펙트럼의 불완전성으로 하나의 펩타이드 서열이 잘못 동정 되었을 때에 잘못된 하나의 펩타이드로 단백질을 동정하는 것은 데이터베이스 검색의 신뢰도를 떨어뜨리는 결과를 가져오므로, 결과의 신뢰도를 위하여 2개 혹은 3개 이상의 펩타이드로 동정 된 단백질만을 결과로 사용한다. 본 발명은 서열이 유사한 대표 단백질을 사용하므로, 전체 데이터베이스로 검색을 수행하였을 때 2개 혹은 3개 이상의 펩타이드가 동정 되면 적어도 그 중의 1개 펩타이드는 대표 단백질 서열에 포함될 확률이 매우 크다는 사실에 기초한다. 한편, 질량 스펙트럼과 단백질의 서열을 비교하여 단백질을 동정하는 방법은, 만일 해당하는 펩타이드 서열이 데이터베이스에 존재하지 않는 경우에는 양질의 질량 스펙트럼일지라도 검색 결과를 얻지 못하게 된다. 따라서 우리가 알고 있는 단백질 서열 정보를 모두 데이터베이스로 활용하는 것이 많은 분석 결과를 얻는 데에 도움을 줄 수 있다.
본 발명의 단백질 검색용 데이터베이스를 재구성하는 방법의 경우 기존의 정제된 데이터베이스의 경우에도 유사한 단백질들이 일부분 포함되어 있으므로, 우선 정제된 단백질 데이터베이스로부터 유사한 단백질을 제외한 대표 단백질 데이터베이스를 구성한다. 대표 단백질 데이터베이스를 사용하여 질량 스펙트럼을 검색하면, 전체 데이터베이스에서의 검색보다 적은 개수의 펩타이드 서열이 검색 결과로 얻어진다. 그러나 원래의 데이터베이스에서 여러 개의 펩타이드가 동정 되는 단백질이었다면, 대표 데이터베이스에서 최소한 하나의 펩타이드는 동정 될 것으로 기대한다. 그러므로 대표 단백질 데이터베이스에서 펩타이드 서열을 동정하여 얻은 단백질들을 모은 뒤, 이들과 유사하여 대표 단백질 데이터베이스 구성 시에 제외되었던 단백질들로 다시 서열 데이터베이스를 구성한다. 이렇게 구성된 단백질은 원래의 단백질 데이터베이스보다는 매우 적은 양의 데이터베이스이며, 대표 단백질 데이터베이스에서 선택된 단백질 서열들보다는 많은 양이다. 이러한 데이터베이스로 다시 단백질 검색을 수행하면, 대표 단백질에서는 찾을 수 없었던 펩타이드들을 찾을 수 있다. 한편, NCBI nr 데이터베이스와 같이 여러 개의 중복된 단백질 데이 터베이스에 대해서도 정제된 대표 단백질 중에 펩타이드가 찾아진 단백질들과 유사한 단백질들을 모아서 또다시 단백질 검색을 수행하면, 결국은 중복된 단백질 전체를 사용하여 데이터베이스 검색을 수행한 것과 똑같은 결과를 얻을 수 있으며, 검색에 걸리는 시간은 대폭 단축할 수 있다.
미지 시료의 단백질 검색시 대표 데이터베이스를 사용하지 않는 경우, 수식화된 단백질의 검색이 시간이 오래 걸리며 검색 결과에 대한 신뢰도도 부족하지만, 대표 단백질 검색에 의해서 시료에 들어있는 단백질의 종류를 미리 파악한 뒤에 관련된 수식화를 다양한 서열에 대해 검색할 수 있으므로, 짧은 시간에 정확한 결과를 얻을 수 있다.
상기와 같이 대표 단백질 데이터베이스의 검색으로부터 단백질의 그룹 목록을 얻고, 2차 검색에 의해 그룹 내의 다른 단백질 서열들을 찾아내는 방법으로 펩타이드 서열을 동정한 결과는 단백질의 그룹에 의한 결과 표현 방법을 사용하여 시료의 단백질 조성을 보다 일목요연하게 분석할 수 있다.
아울러, 본 발명은 상기 재구성된 단백질 검색용 데이터베이스를 이용한 단백질 검색 방법을 제공한다.
본 발명은 하기와 같은 단백질 펩타이드 서열 검색 방법을 제공한다:
ⅰ) 생체 시료에서 얻은 단백질을 효소로 가수분해하여 얻은 펩타이드 용액을 크로마토그래피와 탄템 질량분석기를 이용하여 탠덤 질량 스펙트럼을 수득한 후, 이를 단백질 검색용 컴퓨터 시스템에 전송하는 단계;
ⅱ) 상기 전송된 탠덤 질량 스펙트럼을 통상의 단백질 검색용 알고리즘을 이용하여 상기에서 구축된 대표 단백질 데이터베이스로부터 검색한 후 동정된 1차 단백질 목록을 작성하여, 그 서열 정보를 컴퓨터의 기록장치에 저장하는 단계;
ⅲ) 상기 단계 ⅱ에서 동정 되지 않은 탠덤 질량 스펙트럼을 통상의 단백질 검색용 알고리즘을 이용하여 상기에서 구성된 2차 단백질 데이터베이스로부터 검색한 후 동정된 2차 단백질 목록을 작성하여, 그 서열 정보를 컴퓨터의 기록장치에 저장하는 단계;
ⅳ) 상기 단계 ⅱ 및 ⅲ에서 동정 되지 않은 탠덤 질량 스펙트럼을 통상의 단백질 검색용 알고리즘을 이용하여 상기에서 구성된 4차 단백질 데이터베이스로부터 검색한 후 동정 된 3차 단백질 목록을 작성하여 그 서열 정보를 컴퓨터의 기록장치에 저장하는 단계; 및
ⅴ) 상기 1 내지 3차 단백질 목록을 취합하여, 전체 동정 단백질 목록을 작성하여, 검색 결과를 컴퓨터의 출력장치에 출력하는 단계.
더 나아가, 본 발명의 단백질 검색 방법은 하기의 단계를 추가적으로 포함할 수 있다.
ⅵ) 상기에서 구성된 4차 단백질 데이터베이스로부터 통상의 단백질 검색용 알고리즘을 이용하여 검색 조건의 추가로 수식화된 펩타이드 서열을 검색한 후 동정 된 4차 단백질 목록을 작성하여, 그 서열 정보를 컴퓨터의 기록장치에 저장하는 단계; 및
ⅶ) 상기 1 내지 4차 단백질 목록을 취합하여, 전체 동정 단백질 목록을 작성하여, 검색 결과를 컴퓨터의 출력장치에 출력하는 단계를 포함하는 단백질 검색 방법.
상기 단계 ⅰ에서 탠덤 질량 스펙트럼의 전송은 RS-232C 시리얼 버스, 패러럴 버스, 유니버설 시리얼 버스(USB), IEEE1394, 블루투스 등의 각종 버스를 통해 수행될 수 있으며 또는 일단 질량분석기에 장착된 기록장치에 기록된 후, USB 메모리, CD-ROM, 자기테이프, 외장 하드디스크 드라이브와 같은 이동형 저장매체에 옮긴 다음 다시 단백질 검색용 컴퓨터로 옮김으로써 수행될 수 있다.
상기 ⅱ 내지 ⅳ 단계에서 사용되는 단백질 검색용 알고리즘으로는 MOWSE 알고리즘(Pappin et al ., Curr . Biol . 3:327-332, 1993), SEQUEST 알고리즘(Eng et al ., J. Am . Soc . Mass Spectrom. 5: 976?989, 1994)이 사용될 수 있으나, 특별히 이에 제한되는 것은 아니며, 현재까지 공지된 어떠한 단백질 검색용 알고리즘도 사용될 수 있다.
상기 단계 ⅱ 내지 ⅳ의 컴퓨터의 기록장치로는 하드디스크드라이브, 플로피디스크드라이브, CD-ROM, CD-R, CD-RW, DVD-ROM, DVD-RAM, DVD-RW±, MD(MiniDisk), MMC(MultiMedia Card), SMC(Smart Media Card), 플래시메모리, SD(Secure Didital) 카드, CF(CompactFlash) 카드, 메모리스틱, 자기테이프 등 다양한 내?외장 기록매체가 사용될 수 있으며, 특별히 이에 제한되는 것은 아니나, HDD를 사용하는 것이 바람직하다.
또한 ,본 발명은 하기와 같은 탑 다운 방식의 단백질 검색 방법을 제공한다:
ⅰ) 효소 처리하지 않은 온전한 단백질을 FT-ICR 질량분석기로 분석하여 탠덤 질량 스펙트럼을 수득하고 이를 단백질 검색용 컴퓨터 시스템에 전송하는 단계;
ⅱ) 상기에서 구축된 대표 단백질 데이터베이스로 시퀀스 태그(Sequence Tag)을 검색하여 단백질의 일부 서열로부터 가능한 단백질 그룹을 도출하는 단계;
ⅲ) 단계 ⅱ에서 도출된 단백질 그룹으로부터 상기 1차 단백질 데이터베이스와 관련된 그룹만을 선별하여 1차 단백질 목록을 작성하고 2차 단백질 데이터베이스를 구성하는 단계;
ⅳ) 상기 2차 단백질 데이터베이스로부터 통상의 단백질 검색용 알고리즘을 이용하여, 단백질의 분자량과 시퀀스 태그를 동시에 만족하는 단백질을 검색한 후, 동정된 2차 단백질 목록을 작성하고 그 서열 정보를 컴퓨터의 기록장치에 저장하는 단계;
ⅴ) 상기 단계 ⅱ에서 도출된 단백질 그룹으로부터 상기 3차 단백질 데이터베이스와 관련된 그룹만을 선별하여 4차 단백질 데이터베이스를 구성하는 단계;
ⅵ) 상기 4차 단백질 데이터베이스로부터 통상의 단백질 검색용 알고리즘을 이용하여 단백질의 분자량과 시퀀스 태그를 동시에 만족하는 단백질을 검색한 후, 동정된 3차 단백질 목록을 작성하고 그 서열 정보를 컴퓨터의 기록장치에 저장하는 단계; 및
ⅶ) 상기 1차 내지 3차 단백 목록을 취합하여, 전체 동정 단백질 목록을 작성하여, 검색 결과를 컴퓨터의 출력장치에 출력하는 단계.
상기 단계 ⅰ에서 탠덤 질량 스펙트럼의 전송은 RS-232C 시리얼 버스, 패러럴 버스, 유니버설 시리얼 버스(USB), IEEE1394, 블루투스 등의 각종 버스를 통해 수행될 수 있으며 또는 일단 질량분석기에 장착된 기록장치에 기록된 후, USB 메모리, CD-ROM, 자기테이프, 외장 하드디스크 드라이브와 같은 이동형 저장매체에 옮긴 다음 다시 단백질 검색용 컴퓨터로 옮김으로써 수행될 수 있다.
상기 iv 및 ⅵ 단계에서 사용되는 단백질 검색용 알고리즘으로는 Sequence Tag 알고리즘 (Mann M., Wilm M., Anal . Chem . 66(24):4390-4399, 1994), ProSightPTM 알고리즘 (LeDuc et al ., Nucleic Acids Res . 32:W340-345, 2004; Taylor et al ., Anal . Chem ., 75(16):4081-4086, 2003), Mascot 알고리즘(Perkins et al ., Electrophoresis, 20:3551-3567, 1999; Matrix Science Ltd., USA, http://www.matrixscience.com/search_form_select.html)등이 사용될 수 있으나, 특별히 이에 제한되는 것은 아니며, 현재까지 공지된 어떠한 단백질 검색용 알고리즘도 사용될 수 있다.
상기 단계 ⅳ 및 ⅵ의 컴퓨터의 기록장치로는 하드디스크드라이브, 플로피디스크드라이브, CD-ROM, CD-R, CD-RW, DVD-ROM, DVD-RAM, DVD-RW±, MD(MiniDisk), MMC(MultiMedia Card), SMC(Smart Media Card), 플래시메모리, SD(Secure Didital) 카드, CF(CompactFlash) 카드, 메모리스틱, 자기테이프 등 다양한 내?외장 기록매체가 사용될 수 있으며, 특별히 이에 제한되는 것은 아니나, HDD를 사용하는 것이 바람직하다.
더 나아가, 본 발명은 단백질 검색용 컴퓨터 시스템을 제공한다.
본 발명의 단백질 검색용 컴퓨터 시스템은 탠덤 질량 스펙트럼의 입력수단; 서열 중복도가 크지 않은 1차 단백질 데이터베이스; 서열 중복도가 큰 3차 단백질 데이터베이스가 저장되어 있는 기록장치; 상기 1차 단백질 데이터베이스로부터 대표 단백질 데이터베이스를 추출하기 위한 제1그룹화 연산, 상기 입력된 탠덤 질량 스펙트럼을 상기 추출된 대표 단백질 데이터베이스에서 검색하기 위한 제1검색연산, 상기 검색연산 결과로 도출된 1차 단백질 목록과 동일 그룹에 속하는 1차 단백질 데이터베이스의 단백질 그룹을 모아 구성된 2차 단백질 데이터베이스를 구성하기 위한 제2그룹화 연산, 상기 입력된 탠덤 질량 스펙트럼을 상기 2차 데이터베이스에서 검색하기 위한 제2검색연산, 상기 검색연산 결과로 도출된 2차 단백질 목록과 동일 그룹에 속하는 단백질 서열의 다양성이 풍부한 3차 데이터베이스의 단백질 그룹을 모아 구성된 4차 단백질 데이터베이스를 구성하기 위한 제3그룹화 연산, 상기 입력된 탠덤 질량 스펙트럼을 상기 4차 단백질 데이터베이스에서 검색하기 위한 제3검색연산을 포함하는 연산을 수행하는 연산수단; 및 상기 제1내지 제3검색연산 결과에 대한 출력수단으로 구성되어 있다.
더 나아가, 본 발명은 본 발명의 단백질 검색방법을 구현하는 소프트웨어가 기록된 기록매체를 제공한다.
상기 소프트웨어는 C, C+, C++, Visual C, Cobol, Fotran, Basic, Q-Basic, JAVA, Perl 등 다양한 프로그래밍 언어로 작성될 수 있다. 본 발명의 소프트웨어는 본 발명의 기술적 특징 및 당해 소프트웨어를 구현하는 알고리즘만 명징하다면 당업자가 용이하게 프로그래밍할 수 있는 것으로서 구체적인 프로그램 리스트는 요구되지 않는다.
이하, 본 발명을 실시예에 의해 더욱 상세히 설명한다.
단, 하기 실시예는 본 발명을 예시하는 것일 뿐, 본 발명의 내용이 하기 실시예에 의해 한정되는 것은 아니다.
< 실시예 1> 인간 혈장 시료로부터 펩타이드의 분리 및 탠덤 질량 스펙트럼의 획득
인간 혈장 시료를 트립신 효소로 가수분해한 뒤 1차원 전기영동법에 의해 1차원 젤을 얻고 각각의 밴드로부터 Pieper 등이 기술한 바와 같이 다차원 단백질 동정 기술(Multidimensional Protein Identification Technology, MudPIT)로 방법으로 펩타이드를 분리하였다(Pieper, R., et al ., Proteomics, 3: 422-432, 2003). 1차원 젤을 각 밴드를 잘라서 트립신으로 가수분해한 펩타이드 혼합물은 C18, SCX cation exchange materials 로 채워진 micro-capillary column 에 입력되고 이를 통과하여 질량분석기(LTQ/XL Linear Ion Trap Mass Spectrometer, Thermo Electron Corp., USA)를 통해 탠덤 질량 스펙트럼을 수득하였다.
< 실시예 2> 기존의 단백질 검색 알고리즘의 사용 결과
상기 실시예 1에서 수득한 탠덤 질량 스펙트럼을 영국 EBI 연구소로부터 다운로드한 IPI 데이터베이스 중 인간 단백질 데이터베이스인 IPI_Human 단백질 서열 데이터베이스 버전 3.15.1(ftp://ftp.ebi.ac.uk/pub/databases/IPI/current/)을 사용하여 단백질 동정용 소프트웨어(TurboSEQEST® of Bioworks 3.1, Thermo Electron Corp., USA)로 검색한 결과 2,944 개의 단백질이 동정 되었다. 참고적으로 상기 IPI_Human 단백질 서열 데이터베이스 버전 3.15.1은 총 58,099 개의 단백질 서열로 구성되어 있다. 단백질 동정은 전하량 +1의 경우에는 Xcorr 값이 1.9 이상, 전하량 +2의 경우에는 2.2, 전하량 +3의 경우에는 3.75 이상인 펩타이드 서열만을 선택하여 사용하였다. 또한 ΔCn 값은 0.1 이상, RSp 값은 4 이상으로 일반적으로 TurboSEQUEST에서 사용하는 기준 값을 사용하였다.
< 실시예 3> 계층적 데이터베이스 구성 및 이를 이용한 단백질 동정
<3-1>
58,099개의 단백질 서열로 구성된 IPI_human 단백질 서열 데이터베이스를 데이터베이스 클러스터링 소프트웨어(CD-HIT, http://bioinformatics.org/cd-hit/, Li, W. et al ., Bioinformatics 17:282-283, 2001; Li, W. et al , Bioinformatics 18:77-82, 2002)를 이용하여 유사도 60% 이상의 조건으로 그룹화한 뒤, 각 그룹의 대표단백질만 선별하여 대표 단백질 데이터베이스를 구축하였다. 상기 대표 단백질 데이터베이스의 단백질 개수는 24,120 개였다.
<3-2>
상기 대표 단백질 데이터베이스를 이용하여 상기 실시예 2에서 사용한 단백질 동정용 소프트웨어(TurboSEQUESTTM)를 실행한 결과, 상기 실시예 2에서 사용한 질량 스펙트럼 데이터에 대하여 2,136 개의 단백질을 동정할 수 있었으며, 이는 대표 단백질들만으로 73%에 달하는 단백질을 동정할 수 있음을 알 수 있음을 의미한다.
<3-3>
상기 실시예 3-2에서 동정한 단백질들과 관련된 단백질이 IPI_human 데이터베이스에서 6,860 개 존재하였으며, 이들 단백질 서열로 데이터베이스를 재구성하여 상기 단백질 동정용 소프트웨어(TurboSEQUEST®)를 실행한 결과, 총 2,934 개의 단백질이 동정 되었다. 상기 실시예 2에서의 일반 검색 결과와 비교할 때에 10개의 단백질이 적게 동정 되었는데, 이들 중 9 개는 하나의 펩타이드만으로 동정 되어 신뢰도가 낮은 단백질이었고, 나머지 하나의 단백질은 예외적으로 대표 단백질에 포함되지 않은 펩타이드에서만 동정 된 경우였다.
<3-4>
가장 중복도가 높은 데이터베이스인 미국 국립생물정보센터(National Center for Biotechnolgy Information, NCBI)의 nr 데이터베이스의 인간 단백질 데이터베이스(단백질 283,548 개)로부터 상기 실시예 3-2에서 동정한 단백질들과 관련된 단 백질 그룹에 의해 37,927 개의 단백질로 이루어진 데이터베이스를 재구성하여, 상기 단백질 동정용 소프트웨어 (TurboSEQUEST®)를 실행한 결과, 총 4,090개의 단백질이 동정 되었다. 이는 IPI 데이터베이스로 단순하게 검색한 2,944 개와 비교할 때에 39% 더 많은 단백질을 동정한 것이며, 이 단백질들은 기존의 IPI 데이터베이스에서의 단백질들과 종류는 유사하나 서열이 일부분 차이가 있어서 IPI 데이터베이스에서는 찾을 수 없는 단백질들이다. 이렇게 동정된 nr 데이터베이스의 단백질은 IPI 데이터베이스보다 다양한 서열 변화를 포함하는 데이터로서 단백질 변형에 대한 추가조사를 위해 사용할 수 있다.
< 비교예 1> IPI _ Human 데이터베이스 및 NCBI nr 데이터베이스에 대한 단순 검색
데이터베이스 검색결과 동정한 펩타이드 서열에서 단백질을 얻게 되는데, 단백질을 얻는 데에 사용한 펩타이드의 개수에 있어서, IPI 데이터베이스에 의한 단순검색의 경우에는 6,124개가 동정 되었으며, NCBI nr 데이터베이스에서는 6,580 개의 펩타이드가 동 정되어 356개의 펩타이드 서열을 추가로 얻었다. NCBI nr 데이터베이스에서 탠덤 질량 스펙트럼을 검색할 때에 일반적인 방법은 28만여 개에 달하는 단백질 서열을 모두 검색해야 하지만, 본 발명의 계층적 데이터베이스를 이용할 경우, 32,916 개의 단백질 서열만으로도 추가 펩타이드 서열을 얻을 수 있었다. 실제 수행시간을 비교할 때, 본 발명의 계층적 데이터베이스를 이용한 검색방법의 경우 NCBI nr 데이터베이스에 대한 단순 검색시보다 검색시간이 1/3 이하로 감소함을 확인할 수 있었다.
본 발명의 단백질 동정을 위한 단백질 데이터베이스의 재구성방법 및 이를 이용한 단백질 검색 방법은 종래의 단백질 검색방법보다 시간은 대폭 단축시키면서도 검색 결과는 대등하기 때문에, 생체내의 단백질을 신속하고 정확하게 정성, 정량 분석하는 데에 유용하여, 다양한 질병의 진단 및 치료제 개발 등에 응용될 수 있고, 단백질 간의 상호작용, 생체 대사작용 등을 이해하는 데에 유용하게 이용될 수 있다.

Claims (22)

  1. i) 단백질의 중복을 최소화한 1차 데이터베이스로부터 클러스터링 소프트웨어를 이용하여 일정 유사도 이상을 갖는 단백질 그룹으로 그룹화한 다음, 각각의 단백질 그룹의 서열 정보를 컴퓨터의 기록장치에 독립적으로 저장하는 단계; 및
    ⅱ) 상기 클러스터링 소프트웨어를 이용하여 상기 그룹화된 단백질 그룹에서 대표 단백질을 지정하여 대표 단백질로만 구성된 대표 단백질 데이터베이스(representative protein database)를 구축하여, 그 서열 정보를 컴퓨터의 기록장치에 저장하는 단계를 포함하는 단백질 검색용 데이터베이스의 재구성 방법.
  2. 제 1항에 있어서, 1차 데이터베이스는 IPI 데이터베이스, UniprotKB/Swissprot 데이터베이스 또는 nrdb90 데이터베이스인 것을 특징으로 하는 방법.
  3. 제 1항에 있어서, 상기 클러스터링 소프트웨어는 CD-HIT, GeneRAGE , TribeMCL 또는 nrdb90인 것을 특징으로 하는 방법.
  4. 제 1항에 있어서, 유사도는 60%, 65%, 70%, 75%, 80%, 85%, 90% 또는 95%인 것을 특징으로 하는 방법.
  5. 제 1항에 있어서, 유사도는 60%인 것을 특징으로 하는 방법.
  6. 제 1항에 있어서, 하기 단계를 추가적으로 포함하는 것을 특징으로 하는 방법:
    ⅲ) 질량분석기를 통해 수득한 특정 시료의 탠덤 질량 스펙트럼을 상기 대표 단백질 데이터베이스를 대상으로 하여, 서열 검색 알고리즘을 채용한 서열 검색용 소프트웨어를 이용하여 검색한 뒤, 매칭이 된 1차 단백질 목록을 얻는 단계; 및
    ⅳ) 상기 1차 단백질 목록과 동일 그룹에 속하는 상기 단계 ⅰ의 단백질 그룹을 모아 2차 데이터베이스를 구축하여, 서열 정보를 컴퓨터의 기록장치에 저장하는 단계.
  7. 제 6항에 있어서, 하기 단계를 추가적으로 포함하는 것을 특징으로 하는 방법:
    ⅴ) 질량분석기를 통해 수득한 특정 시료의 탠덤 질량 스펙트럼을 상기 2차 데이터베이스를 대상으로 하여, 서열 검색 알고리즘을 채용한 서열 검색용 소프트웨어를 이용하여 검색한 뒤, 매칭이 된 2차 단백질 목록을 얻는 단계; 및
    ⅵ) NCBI nr 데이터베이스, EST 데이터베이스 및 게놈 염기서열에서 해독된 단백질 서열 데이터베이스로 구성된 군으로부터 선택되는 다양성이 풍부한 3차 데이터베이스에서 상기 단계 ⅲ에서 수득한 1차 단백질 목록의 단백질이 속한 단백질 그룹을 선별한 다음, 상기 단백질 그룹들은 하나로 모아 4차 데이터베이스를 구축하여, 그 서열 정보를 컴퓨터의 기록장치에 저장하는 단계.
  8. 제 7항에 있어서, 하기 단계를 추가적으로 포함하는 것을 특징으로 하는 방법:
    ⅶ) 질량분석기를 통해 수득한 특정 시료의 탠덤 질량 스펙트럼을 상기 4차 데이터베이스를 대상으로 하여, 통상의 서열 검색 알고리즘을 채용한 서열 검색용 소프트웨어를 이용하여 검색한 뒤, 매칭이 된 4차 단백질 목록을 얻는 단계;
    ⅷ) 상기 4차 단백질 데이터베이스를 대상으로 하여 수식화 조건에 대한 알고리즘이 추가적으로 포함 서열 검색용 소프트웨어를 이용하여 검색함으로써 매칭이 된 수식화 단백질의 3차 단백질 목록을 얻는 단계; 및
    ⅸ) 상기 1차 내지 3차 단백질 목록들을 취합하여 전체 동정 단백질 목록을 작성하고, 검색 결과를 컴퓨터 출력장치에 출력하는 단계.
  9. 제 6항 또는 제 7항에 있어서, 상기 단계 ⅱ, ⅳ 및 ⅵ의 서열정보는 FASTA 포맷인 것을 특징으로 하는 방법.
  10. 제 6항 또는 제 7항에 있어서, 상기 단계 ⅱ, ⅳ 및 ⅵ에서의 컴퓨터의 기록장치는 HDD, FDD, CD-ROM, CD-R, CD-RW, DVD-ROM, DVD-RAM, DVD-RW±, MD(MiniDisk), MMC(MultiMedia Card), SMC(Smart Media Card), Flashmemory, SD(Secure Didital) 카드, CF(CompactFlash) 카드, MemoryStick 또는 자기테이프인 것을 특징으로 하는 방법.
  11. 제 6항 또는 제 7항에 있어서, 상기 단계 ⅲ 및 ⅴ에서 사용하는 서열 검색용 소프트웨어는 SEQUEST®, TurboSEQUEST®, Mascot, Sonar 또는 X!Tandem인 것을 특징으로 하는 방법.
  12. 삭제
  13. 제 1항 내지 제 8항 중 어느 한 항의 방법으로 재구성된 단백질 검색용 데이터베이스를 이용한 단백질 검색 방법.
  14. 제 13항에 있어서,
    ⅰ) 크로마토그래피와 탄템 질량분석기를 이용하여 생체 시료로부터 수득된탠덤 질량 스펙트럼이 단백질 검색용 컴퓨터 시스템에 전송되는 단계;
    ⅱ) 상기 전송된 탠덤 질량 스펙트럼을 단백질 검색용 알고리즘을 이용하여 1차 데이터베이스로부터 클러스터링 소프트웨어를 이용하여 일정 유사도 이상을 갖는 단백질 그룹으로 그룹화한 후 상기 그룹화된 단백질 그룹에서 지정된 대표 단백질로만 구성된 대표 단백질 데이터베이스로부터 검색한 후 동정 된 1차 단백질 목록을 작성하여, 그 서열 정보를 컴퓨터의 기록장치에 저장하는 단계;
    ⅲ) 상기 단계 ⅱ에서 동정 되지 않은 탠덤 질량 스펙트럼을 단백질 검색용 알고리즘을 이용하여 상기 1차 단백질 목록과 동일 그룹에 속하는 상기 단계 ⅱ의 그룹을 모아 구축된 2차 단백질 데이터베이스로부터 검색한 후 동정된 2차 단백질 목록을 작성하여, 그 서열 정보를 컴퓨터의 기록장치에 저장하는 단계;
    ⅳ) 상기 단계 ⅱ 및 ⅲ에서 동정 되지 않은 탠덤 질량 스펙트럼을 단백질 검색용 알고리즘을 이용하여 NCBI nr 데이터베이스, EST 데이터베이스 및 게놈 염기서열에서 해독된 단백질 서열 데이터베이스로 구성된 군으로부터 선택되는 다양성이 풍부한 3차 데이터베이스에서 상기 단계 ⅱ에서 수득한 1차 단백질 목록의 단백질이 속한 단백질 그룹을 선별한 다음, 상기 단백질 그룹들은 하나로 모아 구축된 4차 단백질 데이터베이스로부터 검색한 후 동정 된 3차 단백질 목록을 작성하여, 그 서열 정보를 컴퓨터의 기록장치에 저장하는 단계; 및
    ⅴ) 상기 1 내지 3차 단백질 목록을 취합하여, 전체 동정 단백질 목록을 작성하여, 검색 결과를 컴퓨터의 출력장치에 출력하는 단계를 포함하는 단백질 검색 방법.
  15. 제 14항에 있어서, 하기 단계를 추가적으로 포함하는 것을 특징으로 하는 방법:
    ⅵ) 상기에서 구성된 4차 단백질 데이터베이스로부터 통상의 단백질 검색용 알고리즘을 이용하여 검색 조건의 추가로 수식화된 펩타이드 서열을 검색한 후 동정된 4차 단백질 목록을 작성하여, 그 서열 정보를 컴퓨터의 기록장치에 저장하는 단계; 및
    ⅶ) 상기 1 내지 4차 단백질 목록을 취합하여, 전체 동정 단백질 목록을 작성하여, 검색 결과를 컴퓨터의 출력장치에 출력하는 단계.
  16. 제 14항에 있어서, 상기 단계 ⅰ에서의 탠덤 질량 스펙트럼의 전송은 RS-232C 시리얼 버스, 패러럴 버스, 유니버설 시리얼 버스(USB), IEEE1394 및 블루투스로 구성되는 군으로부터 선택되는 버스를 통해 수행되거나 질량분석기에 장착된 기록장치에 기록된 후, USB 메모리, CD-ROM, 자기테이프 또는 이동형 저장매체에 옮긴 다음 다시 단백질 검색용 컴퓨터로 옮김으로써 수행되는 것을 특징으로 하는 단백질 검색 방법.
  17. 제 14항에 있어서, 단백질 검색용 알고리즘은 MOWSE 알고리즘 또는 SEQUEST 알고리즘인 것을 특징으로 하는 단백질 검색 방법.
  18. 제 14항에 있어서, 상기 단계 ⅱ 내지 ⅳ의 컴퓨터의 기록장치는 하드디스크드라이브, 플로피디스크드라이브, CD-ROM, CD-R, CD-RW, DVD-ROM, DVD-RAM, DVD-RW±, MD(MiniDisk), MMC(MultiMedia Card), SMC(Smart Media Card), 플래시메모리, SD(Secure Didital) 카드, CF(CompactFlash) 카드, 메모리스틱 또는 자기테이프인 것을 특징으로 하는 단백질 검색 방법.
  19. 제 13항에 있어서,
    ⅰ) FT-ICR 질량분석기로 분석되어 수득된 효소 처리하지 않은 온전한 단백질의 탠덤 질량 스펙트럼이 단백질 검색용 컴퓨터 시스템에 전송되는 단계;
    ⅱ) 상기에서 구축된 대표 단백질 데이터베이스로 시퀀스 태그(Sequence Tag)을 검색하여 단백질의 일부 서열로부터 가능한 단백질 그룹을 도출하는 단계;
    ⅲ) 단계 ⅱ에서 도출된 단백질 그룹으로부터 상기 1차 단백질 데이터베이스에 속한 그룹만을 선별하여 2차 단백질 데이터베이스를 구성하는 단계;
    ⅳ) 상기 2차 단백질 데이터베이스로부터 통상의 단백질 검색용 알고리즘을 이용하여, 단백질의 분자량과 시퀀스 태그를 동시에 만족하는 단백질을 검색한 후, 동정된 2차 단백질 목록을 작성하고 그 서열 정보를 컴퓨터의 기록장치에 저장하는 단계;
    ⅴ) 상기 단계 ⅱ에서 도출된 단백질 그룹으로부터 상기 3차 단백질 데이터베이스에 속한 그룹만을 선별하여 4차 단백질 데이터베이스를 구성하는 단계;
    ⅵ) 상기 4차 단백질 데이터베이스로부터 통상의 단백질 검색용 알고리즘을 이용하여 단백질의 분자량과 시퀀스 태그를 동시에 만족하는 단백질을 검색한 후, 동정 된 3차 단백질 목록을 작성하고 그 서열 정보를 컴퓨터의 기록장치에 저장하는 단계; 및
    ⅶ) 상기 1차 내지 3차 단백질 목록을 취합하여, 전체 동정 단백질 목록을 작성하여, 검색 결과를 컴퓨터의 출력장치에 출력하는 단계를 포함하는 단백질 검색 방법.
  20. 제 19항에 있어서, 탠덤 질량 스펙트럼의 전송은 RS-232C 시리얼 버스, 패러럴 버스, 유니버설 시리얼 버스(USB), IEEE1394 및 블루투스로 구성된 군으로부터 선택되는 버스를 통해 수행되거나, 질량분석기에 장착된 기록장치에 기록된 후, USB 메모리, CD-ROM, 자기테이프 또는 이동형 저장매체에 옮긴 다음 다시 단백질 검색용 컴퓨터로 옮김으로써 수행되는 것을 특징으로 하는 단백질 검색 방법."
  21. 제 19항에 있어서, 상기 iv 및 ⅵ 단계에서 사용되는 단백질 검색용 알고리즘은 Mascot 알고리즘, Sequence Tag 알고리즘 또는 ProSightPTM 알고리즘인 것을 특징으로 하는 단백질 검색 방법.
  22. 제 19항에 있어서, 상기 단계 ⅳ 및 ⅵ의 컴퓨터의 기록장치는 하드디스크드라이브, 플로피디스크드라이브, CD-ROM, CD-R, CD-RW, DVD-ROM, DVD-RAM, DVD-RW±, MD(MiniDisk), MMC(MultiMedia Card), SMC(Smart Media Card), 플래시메모리, SD(Secure Didital) 카드, CF(CompactFlash) 카드, 메모리스틱 또는 자기테이프인 것을 특징으로 하는 단백질 검색 방법.
KR1020060065533A 2006-07-12 2006-07-12 단백질 동정을 위한 단백질 데이터베이스의 재구성방법 및이를 이용한 단백질 동정 방법 KR100853786B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020060065533A KR100853786B1 (ko) 2006-07-12 2006-07-12 단백질 동정을 위한 단백질 데이터베이스의 재구성방법 및이를 이용한 단백질 동정 방법
PCT/KR2006/003261 WO2008007821A1 (en) 2006-07-12 2006-08-18 A method for reconstructing protein database and a method for identifying proteins by using the same method
US12/373,495 US8296300B2 (en) 2006-07-12 2006-08-18 Method for reconstructing protein database and a method for screening proteins by using the same method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060065533A KR100853786B1 (ko) 2006-07-12 2006-07-12 단백질 동정을 위한 단백질 데이터베이스의 재구성방법 및이를 이용한 단백질 동정 방법

Publications (2)

Publication Number Publication Date
KR20080006382A KR20080006382A (ko) 2008-01-16
KR100853786B1 true KR100853786B1 (ko) 2008-08-22

Family

ID=38923373

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060065533A KR100853786B1 (ko) 2006-07-12 2006-07-12 단백질 동정을 위한 단백질 데이터베이스의 재구성방법 및이를 이용한 단백질 동정 방법

Country Status (3)

Country Link
US (1) US8296300B2 (ko)
KR (1) KR100853786B1 (ko)
WO (1) WO2008007821A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012086859A1 (ko) * 2010-12-22 2012-06-28 경상대학교 산학협력단 질량분석기를 이용한 병원체 진단 및 바이오마커 분석
KR101800407B1 (ko) * 2016-04-04 2017-11-22 건국대학교 산학협력단 비단뱀으로부터 분리한 신규한 항균 펩타이드 및 이의 발굴 방법
US10515715B1 (en) 2019-06-25 2019-12-24 Colgate-Palmolive Company Systems and methods for evaluating compositions
CN111243679B (zh) * 2020-01-15 2023-03-31 重庆邮电大学 微生物群落物种多样性数据的存储检索方法
KR102547970B1 (ko) * 2022-12-28 2023-06-26 주식회사 네오젠티씨 질량분석 데이터의 정제 및 데이터베이스화를 위한 방법 및 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050063617A (ko) * 2003-12-22 2005-06-28 한국전자통신연구원 단백질 상호작용 데이터의 기능기반 추상화 방법 및 이를이용한 시각화 방법 및 장치
KR20050072164A (ko) * 2004-01-02 2005-07-11 이원석 단백질 정보 데이터 전처리 장치 및 방법
KR20070060996A (ko) * 2005-12-08 2007-06-13 한국전자통신연구원 단백질 상동성 관계를 이용한 단백질 상호작용 검증 방법및 시스템

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6512981B1 (en) * 1997-05-01 2003-01-28 The Regents Of The University Of California Protein fold recognition using sequence-derived predictions
EA004002B1 (ru) * 2000-03-10 2003-12-25 Дайити Фармасьютикал Ко., Лтд. Способ прогнозирования белок-белковых взаимодействий
WO2003019417A1 (en) * 2001-08-29 2003-03-06 Bioinfomatix Inc. System and method for proteome analysis and data management
AU2002347462A1 (en) * 2001-11-01 2003-05-12 Biobridge Computing Ab A computer system and method using mass spectrometry data and a protein database for identifying unknown proteins
US20040204861A1 (en) * 2003-01-23 2004-10-14 Benner Steven Albert Evolution-based functional proteomics
KR100546779B1 (ko) * 2003-12-24 2006-01-25 한국전자통신연구원 미지 단백질의 구조를 예측하기 위한 방법 및 장치
EP1910959A1 (en) * 2005-07-25 2008-04-16 Metanomics GmbH Means and methods for analyzing a sample by means of chromatography-mass spectrometry

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050063617A (ko) * 2003-12-22 2005-06-28 한국전자통신연구원 단백질 상호작용 데이터의 기능기반 추상화 방법 및 이를이용한 시각화 방법 및 장치
KR20050072164A (ko) * 2004-01-02 2005-07-11 이원석 단백질 정보 데이터 전처리 장치 및 방법
KR20070060996A (ko) * 2005-12-08 2007-06-13 한국전자통신연구원 단백질 상동성 관계를 이용한 단백질 상호작용 검증 방법및 시스템

Also Published As

Publication number Publication date
US8296300B2 (en) 2012-10-23
KR20080006382A (ko) 2008-01-16
US20090319558A1 (en) 2009-12-24
WO2008007821A1 (en) 2008-01-17

Similar Documents

Publication Publication Date Title
Köcher et al. Mass spectrometry–based functional proteomics: from molecular machines to protein networks
Keller et al. Experimental protein mixture for validating tandem mass spectral analysis
James Of genomes and proteomes
US8909481B2 (en) Method of mass spectrometry for identifying polypeptides
Shevchenko et al. Deciphering protein complexes and protein interaction networks by tandem affinity purification and mass spectrometry: analytical perspective
Ahrné et al. Unrestricted identification of modified proteins using MS/MS
US20060008851A1 (en) Methods for rapid and quantitative proteome analysis
Terwilliger et al. Ligand identification using electron-density map correlations
KR100853786B1 (ko) 단백질 동정을 위한 단백질 데이터베이스의 재구성방법 및이를 이용한 단백질 동정 방법
JP2010048825A (ja) 迅速かつ定量的なプロテオーム解析および関連した方法
Stephan et al. Automated reprocessing pipeline for searching heterogeneous mass spectrometric data of the HUPO Brain Proteome Project pilot phase
Chakravarti et al. Informatic tools for proteome profiling
Kertész-Farkas et al. Database searching in mass spectrometry based proteomics
Pathan et al. Unassigned MS/MS spectra: who am i?
Bandeira Spectral networks: a new approach to de novo discovery of protein sequences and posttranslational modifications
McAfee et al. Analyzing proteomes and protein function using graphical comparative analysis of tandem mass spectrometry results
Matthiesen Algorithms for database-dependent search of MS/MS data
Garrels Yeast genomic databases and the challenge of the post-genomic era
Powell et al. Discovery of regulatory molecular events and biomarkers using 2D capillary chromatography and mass spectrometry
Bessant Proteome informatics
KR100856526B1 (ko) 펩티드 질량 지문 추적법을 사용한 알터네이티브스플라이싱 아이소폼을 동정하기 위한 스코어링 알고리즘을포함한 시스템 및 방법과 상기 방법을 수행하기 위한프로그램을 갖는 기록매체
Yoshida et al. Overview of kidney and urine proteome databases
JP4286075B2 (ja) タンパク質同定処理方法
Choong et al. Comparison of different variant sequence types coupled with decoy generation methods used in concatenated target-decoy database searches for proteogenomic research
Martens et al. Algorithms and databases

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120717

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20130801

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee