KR100531207B1 - 단백질 동정시스템 - Google Patents

단백질 동정시스템 Download PDF

Info

Publication number
KR100531207B1
KR100531207B1 KR1020050048124A KR20050048124A KR100531207B1 KR 100531207 B1 KR100531207 B1 KR 100531207B1 KR 1020050048124 A KR1020050048124 A KR 1020050048124A KR 20050048124 A KR20050048124 A KR 20050048124A KR 100531207 B1 KR100531207 B1 KR 100531207B1
Authority
KR
South Korea
Prior art keywords
protein
mass
peptide
module
algorithm
Prior art date
Application number
KR1020050048124A
Other languages
English (en)
Inventor
박진영
정유식
이원형
배강규
Original Assignee
씨비에스소프트주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 씨비에스소프트주식회사 filed Critical 씨비에스소프트주식회사
Priority to KR1020050048124A priority Critical patent/KR100531207B1/ko
Application granted granted Critical
Publication of KR100531207B1 publication Critical patent/KR100531207B1/ko

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6842Proteomic analysis of subsets of protein mixtures with reduced complexity, e.g. membrane proteins, phosphoproteins, organelle proteins

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Hematology (AREA)
  • Immunology (AREA)
  • Biotechnology (AREA)
  • Urology & Nephrology (AREA)
  • Biomedical Technology (AREA)
  • Biochemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Food Science & Technology (AREA)
  • Microbiology (AREA)
  • Cell Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

본 발명은 기존의 단백질 동정을 위한 새로운 하이브리드 알고리즘을 제공함으로써, 기존의 알고리즘에 의해 동정할 수 없었던 단백질을 동정할 수 있는 새로운 형태의 하이브리드 알고리듬을 이용한 단백질 동정시스템을 제공하는 것이다. 본 발명의 단백질 동정시스템은 새로운 하이브리드 알고리즘을 이용할 뿐만아니라 기존의 베이즈 알고리듬 및 마우즈 알고리듬을 병용하여 단백질을 동정할 수 있어 단백질 동정의 정확성을 크게 향상시켰으며, 기존의 공용 단백질 데이터베이스 뿐만아니라 개별데이터베이스를 추가하여 이용할 수 있어 연구의 효율성 및 정확도를 개선하였다.

Description

단백질 동정시스템{Protein Identification System}
본 발명은 단백질체학(proteomics)연구에 필수적인 프로테옴(proteome)분석에 관한 프로그램으로, 특히 생물학 연구방법으로 널리 사용되는 단백질 분리기술들인 이차원 전기이동, 액체 크로마토그래피, 캐필러리 전기이동 등을 포함한 모든 단백질 분리 기술들로 분리한 단백질을 질량분석기로 질량분석하여 얻어진 질량값들을 데이터베이스 상의 참조값들과 대조하여 단백질을 동정하는 방법에 관한 것이다.
프로테옴 연구에 사용되는 기술적인 부분으로는 세포 등 연구대상으로부터 단백질을 추출하는 단계, 단백질추출물들을 분리하는 단계, 분리된 각 단백질들의 전체 또는 부분단편 펩티드들의 질량을 분석하는 단계, 단백질을 동정하는 단계 등으로 이루어져 있다.
단백질을 동정하는 방법들로는 단백질 분해효소들로 가수분해한 후 얻어진 펩티드 단편들을 분석하여 동정하는 상향식 단백질분석법(Bottom up Proteomics)과 한 단백질로부터 가분분해단계 없이 직접 질량분석하여 동정하는 하향식 단백질분석법(Top down Proteomics)이 사용되고 있으며 기존에는 질량분석기의 성능의 한계로 상향식 단백질분석법이 주로 사용되어 왔으나 최근에는 고분해능 질량분석기 등의 개발로 하향식 단백질분석법이 일부 사용되고 있다.
단백질 질량 정보를 이용한 상향식 단백질체학 동정 방법에는
1) 펩티드 질량 지문(Peptide Mass Fingerprinting),
2) 질량/질량 단편 이온 검색(MS/MS Fragment Ion Search), 및
3) 부분 서열 검색(Partial Sequence Search) 등이 있는데,
이 방법들은 분리한 순수단백질을 효소를 이용하여 절단한 다음 질량 분석기(Mass Spectrometer)를 이용하여 분리된 펩티드들의 질량을 측정한 정보나 질량/질량 방식에 의해 얻어낸 단편 이온(Fragment Ion)들의 질량 정보를 데이터베이스에 있는 단백질 서열의 이론적인 질량 값들과 서로 비교함으로써 단백질을 동정하는 방법이다.
기존에 주로 사용되고 있는 단백질 동정 프로그램들은 웹(web)용과 씨/에스(C/S, client/server)용이 있으며 이들은 대부분 실험값에 근거하여 단백질을 동정하는 베이즈(Bayes) 알고리듬과 이론값에 근거하여 단백질을 동정하는 마우즈(MOWSE) 알고리듬을 사용하고 있다.
그러나 상기의 알고리즘을 이용한 스코어링시에는 충분히 신뢰할 만한 단백질의 동정결과를 얻을 수 없어 보다 신뢰성있는 신규의 단백질을 동정할 수 있는 알고리즘의 개발이 요구되고 또한 이를 이용한 단백질 정량 프로그램의 개발과 단백질 동정 시스템의 개발의 필요성이 대두되었으며, 또한 개별 정보 등 특정 기질의 단백질의 경우 공지된 참조데이터베이스를 이용하는 경우 비교데이터가 부족한 경우 효율적인 단백질의 동정이 곤란하므로, 이를 보완할 수 있는 In-House의 개별데이터베이스를 이용할 수 있는 단백질동정시스템의 개발이 점차 요구되고 있다.
따라서, 본 발명은 상기한 종래의 문제점을 해결하기 위하여 안출된 것으로, 단백질체학 연구에 필수적인 단백질 동정법에 있어서 새로운 동정 알고리듬을 개발함으로서 기존의 알고리즘에 의해 얻어질 수 없는 새로운 단백질의 동정방법을 제공한다.
본 발명의 또 다른 목적은 상기 새로운 단백질 정량 알고리즘에 따른 단백질 정량 알고리즘을 이용한 단백질 정량 시스템을 제공한다.
본 발명의 또 다른 목적은 기존의 단백질 동정 프로그램에서는 제공하지 않는 개별 데이터베이스(private DB)의 구축하고 이를 활용할 수있는 새로운 단백질 동정시스템을 제공한다.
본 발명의 새로운 단백질 정량 알고리즘을 이용한 단백질의 동정시스템을 이용하는 경우 기존의 단백질 정량방법에 의해 얻어질 수 없는 보다 향상된 단백질의 동정방법을 제공할 수 있다.
또한 본 발명에 따른 단백질정량 방법 또는 시스템은 기존의 실험값에 근거하여 단백질을 동정하는 베이즈(Bayes) 알고리듬과 이론값에 근거하여 단백질을 동정하는 마우즈(MOWSE) 알고리듬을 병용하여 사용함으로써 기존의 알고리즘에 의해 동정할 수 없었던 단백질을 동정할 수 있는 새로운 단백질 동정시스템을 제공한다.
상기한 목적을 달성하기 위한 본 발명에 따른 단백질 동정 방법는, 단백질 서열 데이터베이스부; 단백질 서열 정보를 이용하여 단백질의 분자량과 등전점을 계산하는 모듈로서 번역 후 변형(Post-translational Modification)이 있을 경우 이를 고려하여 분자량과 등전점을 계산하는 질량 및 등전점 계산 모듈; 효소를 이용하여 단백질을 효소 분해했을 때 생성되는 이론적 펩티드들의 서열과 질량을 계산하는 모듈로서 번역 후 변형과 잘못된 분해(Missed Cleavage)를 고려하여 질량을 계산하고, 단백질을 단백질 분해효소로 가수분해하여 펩티드 단편을 얻는 단백질 분해 모듈; 2차원 겔에서 분해한 스팟의 질량분석(Mass Spectrometry)을 통해 얻은 펩티드의 질량을 이용해 단백질을 동정할 수 있는 모듈로서 단백질을 동정할 때 번역 후 변형이나 잘못된 분해가 있는 경우, 이를 반영할 수 있고, 분류 정보, 단백질 분자량 정보, 단백질 등전점 정보 등을 이용하여 제한검색(restricted search)을 할 수 있으며, 펩티드 질량정보를 이용하여 단백질을 동정할 수 있는 펩티드 질량 지문 모듈; 펩티드 질량 지문을 통한 단백질 동정에 실패하였을 때 질량/질량에 의한 펩티드 단편화(Peptide Fragmentation)을 통해 다양한 이온화물(Ion series)들의 질량 데이터를 얻고 이를 이용해 단백질을 동정할 수 있는 질량/질량 단편 이온 검색 모듈; 질량을 통해 얻은 펩티드의 질량뿐만 아니라 일부 펩티드에 대해 서열정보를 가지고 있을 경우 이를 이용하여 단백질을 동정할 수 있는 부분 서열 검색 모듈을 포함하는 것을 특징으로 하며, 단백질 질량 지문(Private DB 검색용) 분석을 통해 단백질의 서열이 확정되면 결과화면에서 바로 로컬 블라스트피를 수행하여 단백질 동정을 완료할 수 있는 로컬 블라스트피(Local BLASTP) 모듈을 더 포함하는 것이 바람직하다.
본 발명에서는 실험값에 근거하여 단백질을 동정하는 베이즈(Bayes) 알고리듬(수학식 1)과 이론값에 근거하여 단백질을 동정하는 마우즈(MOWSE) 알고리듬(수학식 2)의 장점들만을 합하여 스코어링함으로써 단백질 동정의 정확성을 향상시킨 하이브리드(Hybrid) 알고리듬(수학식 3)을 개발하였다. 단백질 질량 데이터를 이용하여 단백질 동정을 할 경우 동정의 민감도와 특이도는 데이터베이스 검색을 할 때 사용하는 스코어링 알고리듬에 좌우된다. 본 발명에서 사용하는 하이브리드알고리즘을 포함하는 실험값에 근거를 둔 베이즈알고리즘과 이론값에 근거를 둔 마우즈알고리즘 및 본 발명의 상기 두가지의 알고리즘을 결합하고 변형한 새로운 하이브리드알고리즘은 다음과 같다.
(1) 베이즈 알고리듬(Modified Bayes Algorithm)
N : 단백질내의 펩티드의 수(# of peptides in protein)
r : 맞추어진 펩티드의 수(# of peptides matched)
k : 부분서열정보와 맞추어진 펩티드의 수(# of peptides mathed with partial sequence information)
n : 부분서열정보내의 아미노산의 수(# of AA in the partial sequence information)
: 측정된 분자량과 이론적 분자량의 차이(the difference of observed and theoretical MW)
(2) 마우즈 알고리듬(Modified MOWSE Algorithm)
질량 요소(Mass Factor) : 마우즈 질량요소 표로부터 얻어진 상수(A constant obtained from the MOWSE Mass Factor Table)
: 마우즈 질량표로부터 얻어진 단백질 질량(Weight of a protein from the MOWSE Weight Table)
: 단백질의 분자량(Molecular weight of a protein)
r : 맞추어진 펩티드의 수(# of peptides matched)
k : 부분서열정보와 맞추어진 펩티드의 수(# of peptides matched with partial sequence information)
n : 부분서열정보내의 아미노산의 수(# of AA in a partial sequence information)
(3) 하이브리드 알고리듬(Hybrid Algorithm)
질량 요소(Mass Factor) : 마우즈 질량요소 표로부터 얻어진 상수(A constant obtained from the MOWSE Mass Factor Table)
: 마우즈 질량표로부터 얻어진 단백질 질량(Weight of a protein from the MOWSE Weight Table)
: 단백질의 분자량(Molecular weight of a protein)
N : 단백질내의 펩티드의 수(# of peptides in a protein)
r : 맞추어진 펩티드의 수(# of peptides matched)
k : 부분서열정보와 맞추어진 펩티드의 수(# of peptides matched with partial sequence information)
n : 부분서열정보내의 아미노산의 수(# of AA in a partial sequence information)
: 측정된 분자량과 이론적 분자량의 차이(the difference of observed and theoretical MW)
상기의 하이브리드 알고리듬을 표현한 수학식3은 보다 정밀한 동정의 효율을 위하여 상기 수식을 변형하는 변형된 수식을 포함하며 표시된 상수들은 모든 실수들을 사용할 수 있다.
본 발명은 상기의 수학식 3의 본 발명의 하이브리드 알고리즘을 이용하여 스코어링 함으로서 단백질을 동정할 뿐만아니라 베이즈알고리즘과 마우즈알고리즘을 동시에 이용하여 단백질을 동정할 수 있는 단백질 동정용 시스템을 제공한다.(본 발명에서는 이를 “프리즘 피엠에프”라 한다) 도1은 본 발명의 프리즘 피엠에프 시스템의 구조를 나타낸 것으로 크게 단백질 서열 데이터베이스부와 주요모듈부로로 나누어진다.
먼저, 단백질 서열 데이터베이스부에는 인터넷상에 공개된 자료들을 모아 자료화한 참조데이터베이스(reference DB)와 실험자가 개별적으로 얻은 연구정보들을 저장하고 단백질 동정에 활용할 수 있는 개별 데이터베이스(private DB)로 구성되며 이 개별 데이터베이스를 이용할 수 있도록 구성하여 특정 분야에서 보다 충실한 데이터를 가지는 개별 데이터베이스를 이용하여 동정할 수 있도록 하여 정확한 동정이 가능하게 하한 점은 기존의 단백질 동정 프로그램에서는 제공하지 않는 본 발명의 프리즘 피엠에프의 장점이 있다.
또한 데이터베이스부 이외의 주요 모듈부는 단백질의 물리적특성을 얻는 질량 및 등전점 계산 모듈, 단백질을 단백질 분해효소로 가수분해하여 펩티드 단편을 얻는 단백질 분해 모듈, 펩티드 질량정보를 이용하여 단백질을 동정할 수 있는 펩티드 질량 지문 모듈, 질량/질량 단편 이온 검색 모듈, 부분 서열 검색 모듈로 구성되어 있다.
이하는 각 모듈들의 기능을 구체적으로 설명한다.
(1) 질량과 등전점 계산 모듈
단백질 서열 정보를 이용하여 단백질의 분자량과 등전점을 계산하는 모듈로서 번역 후 변형(Post-translational Modification)이 있을 경우 이를 고려하여 분자량과 등전점을 계산한다. (도 2)
(2) 단백질 분해 모듈
효소를 이용하여 단백질을 효소 분해했을 때 생성되는 이론적 펩티드들의 서열과 질량을 계산하는 모듈로서 번역 후 변형과 잘못된 분해(Missed Cleavage)를 고려하여 질량을 계산한다.(도3)
(3) 펩티드 질량 지문 모듈
2차원 겔에서 분해한 스팟의 질량분석(Mass Spectrometry)을 통해 얻은 펩티드의 질량을 이용해 단백질을 동정할 수 있는 모듈로서 단백질을 동정할 때 번역 후 변형이나 잘못된 분해가 있는 경우, 이를 반영할 수 있고, 분류 정보, 단백질 분자량 정보, 단백질 등전점 정보 등을 이용하여 제한검색(restricted search)을 할 수 있다. 또한 스위스 플랏(Swiss-Prot)이나 엔씨비아이엔알(NCBInr)과 같은 공개용 데이터베이스뿐만 아니라 내부(in-house)에 가지고 있는 개별 단백질 서열 데이터베이스도 검색할 수 있다. 즉, 도 4및 도 5에서 수록한 바와 같이, 실험하고자 하는 펩티드의 질량을 입력하고, 단백질 데이터베이스를 선택하고, 효소, 후번역변헝, 잘못된 분해 등의 조건을 설정으로써 단백질데이터베이스내의 모든 단백질에 대하여 비교하여 스코어링 함으로서 최상의 스코어를 선택한다. 또한 상기의 단백질데이터베이스로서 공개용 단백질 서열 데이터베이스, 예를 들어 스위스 플랏이나 엔씨비아이엔알을 검색하여 결과를 얻지 못하였을 때 개별 연구자가 실험적으로 얻은 자료 등을 이용하여 구축한 개별 단백질체(Private Proteome)데이터베이스를 이용하면 더욱 정확한 단백질 동정이 가능하다. 또한 본 발명은 단백질의 질량지문을 이용하여 동정하는 단백질 동정을 위한 알고리즘의 선택을 본 발명의 하이브리드알고리즘으로 수행할 뿐만 아니라, 동시에 베이즈알고리즘및 마우즈 알고리즘을 각각 수행하여 스코어링 함으로써, 기존의 베이즈알고리즘이나 마우즈알고리즘에 의해 동정되지 않는 단백질의 동정도 가능하게 될 뿐만아니라 하이브리드알고리즘에 의해 동정되지 않는 단백질의 동정도 가능하게 되어 단백질 동정의 효율을 증대시킬 수 있다.
(4) 질량/질량 단편 이온 검색(MS/MS Fragment Ion Search) 모듈
질량/질량 단편 이온 검색은 펩티드 질량 지문을 통한 단백질 동정에 실패하였을 때 질량/질량에 의한 펩티드 단편화(Peptide Fragmentation)을 통해 다양한 이온화물(Ion series)들의 질량 데이터를 얻고 이를 이용해 단백질을 동정할 수 있는 모듈이다. 이 모듈에서는 단백질 동정에 필요한 다양한 옵션을 제공하고 있는데 번역 후 변형이나 잘못된 분해가 있는 경우, 이를 반영할 수 있도록 하였고, 분류 정보, 단백질 분자량 정보, 단백질 등전점 정보 등을 이용하여 제한된 검색을 할 수 있도록 함으로써 단백질 동정을 더욱 효과적으로 할 수 있도록 하였다. 그리고 질량 분석기(Mass Spectrometer)의 유형에 맞는 이온화물들의 질량을 계산하여 동정을 할 수 있게 하였고 스위스 플랏이나 엔씨비아이엔알과 같은 공개용 데이터베이스뿐만 아니라 In-house에서 가지고 있는 개별 단백체 서열 데이터베이스도 검색할 수 있도록 한 것에서 본 발명의 특징이 있다(도 6). 도 7은 본 발명의 질량/질량 단편 이온검색모듈의 검색방법을 간략하게 도식화한 것이다. 즉 단백질 분해물 각각에 대하여 데이터베이스에 있는 모든 단백질에 대하여 정합평가를 하여 스코어링함으로써 최상의 스코어를 선택되게 한다.
(5) 부분 서열 검색(Partial Sequence Search) 모듈
질량을 통해 얻은 펩티드의 질량뿐만 아니라 일부 펩티드에 대해 서열정보를 가지고 있을 경우 이를 이용하여 단백질을 동정할 수 있는 모듈이다. 예를 들어 C-말단이나 N-말단의 부분 서열을 알고 있거나 특정 아미노산이나 부분 서열이 펩티드에 존재한다는 것을 알고 있을 경우, 이 모듈을 이용하면 더욱 변별력이 높은 단백질 동정을 할 수가 있다.
(6) 통계학적 검증(Statistical Validation)
임의의 단백질 서열 집단(비교군)을 대상으로 동일 조건의 동정을 수행하고 실험군과 비교군의 스코어를 비교하여 동정 결과의 통계학적 안정성을 준다.
(7) 로컬 블라스트피(Local BLASTP) 모듈
단백질 질량 지문(Private DB 검색용) 분석이나 질량/질량 단편이온검색모듈 또는 부분서열검색모듈을 통해 단백질의 서열이 확정되면 결과화면에서 바로 로컬 블라스트피를 수행하여 단백질 동정을 완료할 수 있다.
본 발명의 프리즘 피엠에프 데이터베이스 구조는 도8과 같다. 주요 데이터베이스로는 단백질의 질량정보를 가지는 공지의 참조데이터베이스와 개별데이터베이스로 구성된 데이터베이스부, 상기 데이터베이스부의 질량정보들과 대조하여 단백질을 동정하며 동정에 필요한 분류정보, 이온의 형태, 번역후 변형 등의 데이터베이스의 정보로 구성되어 단백질의 동정에 활용할 수 있다.
프리즘 피엠에프 기능 구조도는 도 9에 나타내었다. 주요 부분으로는 개별데이터베이스를 생성하고 관리할 수 있는 개별데이터베이스 관리부분, 분자량 및 등전점, 단백질분해효소 정보와 블라스트피를 수행할 수 있는 도구부분, 펩티드 질량 지문 검색부분, 질량/질량 검색부분, 부분서열 검색부분 등으로 구성되어 있어 효율적인 단백질 동정이 가능하다.
이하, 본 발명을 바람직한 실험예에 의거하여 보다 상세히 설명하고자 하나, 이것은 본 발명의 이해를 돕기 위한 것일 뿐 본 발명의 범위를 어떤 식으로든지 제한하고자 하는 것은 아니다.
(실험예 1)
대장균(Escherichia coli)의 단백질을 2차원 전기이동한 결과는 도 10과 같으며 수많은 단백질 중 분리가 양호한 10, 36, 및 40번 스폿을 추출하여 하향식 단백질 동정법을 이용하여 프리즘 피엠에프와 타 단백질 동정 프로그램 3종[프로파운드(Profound), 펩틀덴트(PeptIdent), 매스-피트(Ms-Fit)]을 비교하였다.
동정조건은 아래와 같이 동일하게 적용하였으며 프리즘 피엠에프는 하이브리드 알고리듬을 타 프로그램들은 고유의 알고리듬을 사용하였다.
단백질 동정에 있어서 사용한 조건
분류(Taxonomy) : 대장균
단백질분해효소 : 트립신
잘못된 절단(Missed cleavages) : 1회 허용
질량형식(Mass type) : 단일종 동위원소(Monoisotopic)
질량값(Mass value) : MH+
오차(Tolerance) : 50 ppm
등전점(pI) : 5.2544
등전점 허용범위 : 4.73 ~ 5.78 (10%)
분자량(mw) : 29 킬로달톤(kDa)
분자량 허용범위 : 26.1 ~ 31.9 킬로달톤(10%)
펩티드 단편들의 질량 : 805.4164, 815.490246, 835.466359, 1270.765999, 1401.794158, 1589.739782, 1640.947597, 1753.815814, 1847.909825, 1865.919237, 1881.912245, 1898.902976, 2055.004512, 2090.907126, 2686.422484
동정결과 프리즘 피엠에프는 모노아민옥시다아제를 정확히 동정하였으나 타 프로그램들은 프로파운드만 옥시도리덕타아제로 추정하는 등 15개의 단백질을 제시하였을 뿐 다른 2개의 프로그램들은 단 한 개의 단백질도 동정하지 못하였다. 이러한 결과로 기존의 다른 동정프로그램에서 동정하지 못한 단백질을 동정할 수 있음을 알 수 있었다.
(실험예 2)
사슴의 뿔인 녹용의 성장 및 이와 관련된 신호전달을 연구하기 위하여 단백질체학 연구법으로 연구를 수행한 결과 사슴에 대한 참조데이터베이스가 구축되어 있지 않아 타 단백질 동정 프로그램으로는 동정이 되지 않았다. 따라서 In-house의 개별데이터베이스를 활용하여 프리즘 피엠에프 프로그램으로 단백질 동정을 수행하여 130여개의 단백질을 동정할 수 있어, 본 발명의 프로그램상에서 개별데이터베이스를 이용함으로써 새로운 종에 대한 단백질 연구에 매우 유용함을 보여주었다.
녹용 단백질 동정에 있어서 사용한 조건
분류(Taxonomy) : 포유류
잘못된 절단(Missed cleavages) : 1회 허용
질량형식(Mass type) : 단일종 동위원소(Monoisotopic)
단백질분해효소 : 트립신
질량값(Mass value) : MH+
(오차)Tolerance : 50 ppm
등전점(pI) : 8.0
등전점 허용범위 : 3 ~ 10 (10%)
분자량(mw) : 30 킬로달톤(kDa)
분자량 허용범위 : 무제한
펩티드 단편들의 질량 : 1066.082116, 1081.554279, 1082.05772, 1088.092004, 1097.532463, 1098.03285, 1104.051973, 1117.16083, 1133.064096, 1154.660105, 1259.668126, 1287.712747, 1293.129534, 1296.685409, 1303.705091, 1318.677774, 1331.75646, 1334.652569, 1347.754533, 1356.628324, 1375.774118, 1392.852164, 1419.810718, 1463.794626, 2047.777885, 2076.687027, 2093.084329, 2109.139768, 2163.10639, 2448.835666, 2465.199756, 2469.212951
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 또한 설명하였으나, 본 발명은 상기한 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 기재된 청구범위 내에 있게 된다.
본 발명에 따른 단백질 동정 방법에 의하면, 본 발명은 현재 가장 널리 사용되고 있는 베이즈 알고리듬 및 마우즈 알고리듬의 장점을 살리면서 단점을 극복할 수 있는 새로운 형태의 하이브리드 알고리듬을 개발하였고 이를 활용하여 단백질 동정 프로그램인 프리즘 피엠에프를 개발하였다. 프리즘 피엠에프는 하이브리드 알고리듬 뿐만 아니라 베이즈 알고리듬 및 마우즈 알고리듬을 병용하여 단백질을 동정할 수 있어 정확성을 크게 향상시켰으며 또한 연구자의 연구자료를 저장하고 이를 활용하여 단백질을 동정할 수 있는 개별데이터베이스를 추가하여 이를 이용할 수 있도록 함으로써, 연구의 효율성 및 정확도를 개선하여 포스트게놈시대의 단백질체학 및 관련 연구분야에 유용하게 사용될 수 있다.
도 1은 본 발명의 단백질 동정 시스템인 프리즘 피엠에프시스템 구조도.
도 2는 분자량과 등전점 계산 화면.
도 3은 단백질 분해 화면.
도 4는 펩티드 질량 지문 화면.
도 5는 펩티드 질량 지문의 개략적인 동작을 보여주는 흐름도로서, 색칠 된 곳은 반복처리 되는 구간을 나타낸다.
도 6은 질량/질량 이온 검색 화면.
도 7은 질량/질량 이온 검색의 개략적인 동작을 보여주는 흐름도로서, 색칠 된 곳은 반복처리 되는 구간을 나타낸다.
도 8은 프리즘 피엠에프 데이터베이스 구조도.
도 9는 프리즘 피엠에프 기능 구조도.
도 10은 대장균의 전체단백질을 이차원 전기이동한 사진.

Claims (6)

  1. 실험값에 근거하여 단백질을 동정하는 베이즈(Bayes) 알고리듬과 이론값에 근거하여 단백질을 동정하는 마우즈(MOWSE) 알고리듬을 결합하여 하기의 수학식 3과 같이 스코어링함으로써 단백질 동정의 정확성을 향상시킨 하이브리드(Hybrid) 알고리듬을 이용한 단백질 동정방법.
    (수학식 3)
    Mass Factor : 마우즈 질량요소 표로부터 얻어진 상수
    : 마우즈 질량표로부터 얻어진 단백질 질량
    : 단백질의 분자량
    N : 단백질내의 펩티드의 수
    r : 맞추어진 펩티드의 수
    k : 부분서열정보와 맞추어진 펩티드의 수
    n : 부분서열정보내의 아미노산의 수
    : 측정된 분자량과 이론적 분자량의 차이
  2. 삭제
  3. 단백질 서열 데이터베이스부;
    데이터베이스부로부터 검색된 단백질을 단백질 분해효소로 가수분해하여 펩티드 단편을 얻는 단백질 분해 모듈;
    단백질 분해 모듈에 의한 번역 후 변형(Post-translational Modification)이 있을 경우 이를 고려하여 분자량과 등전점을 계산하는 질량 및 등전점 계산 모듈;
    계산된 펩티드 질량정보를 이용하여 단백질을 동정할 수 있는 펩티드 질량 지문 모듈;
    펩티드 질량 지문 모듈을 통한 단백질 동정에 실패하였을 때 질량/질량에 의한 펩티드 단편화(Peptide Fragmentation)를 통해 다양한 이온화물(Ion series)들의 질량 데이터를 얻고 이를 이용해 단백질을 동정할 수 있도록 하는 질량/질량 단편 이온 검색 모듈;
    펩티드 질량 지문 모듈에 의한 단백질 동정시에 일부 펩티드에 대해 서열정보를 가지고 있을 경우 질량을 통해 얻은 펩티드의 질량과 서열정보를 이용하여 단백질을 동정할 수 있도록 하는 부분 서열 검색 모듈;
    단백질의 서열이 확정되면 단백질 동정을 완료할 수 있는 로컬 블라스트피(Local BLASTP) 모듈;
    을 포함하는 것을 특징으로 하는 제1항의 하이브리드 알고리즘을 이용한 단백질 동정 시스템.
  4. 삭제
  5. 제 3항에 있어서,
    하이브리드 알고리듬을 단백질 분해효소들로 가수분해한 후 얻어진 펩티드 단편들을 분석하여 동정하는 상향식 단백질분석법(Bottom up Proteomics)과 한 단백질로부터 가분분해단계 없이 직접 질량분석하여 동정하는 하향식 단백질분석법(Top down Proteomics)에 적용하는 것을 특징으로 하는 단백질 동정 시스템.
  6. 제 3항에 있어서,
    상기 단백질 서열 데이터 베이스로 실험자가 개별적으로 얻은 연구정보들을 저장하고 이를 단백질 동정에 활용할 수 있는 개별 데이터베이스부를 더 포함하는 것을 특징으로 하는 단백질 동정 시스템.
KR1020050048124A 2005-06-04 2005-06-04 단백질 동정시스템 KR100531207B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020050048124A KR100531207B1 (ko) 2005-06-04 2005-06-04 단백질 동정시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050048124A KR100531207B1 (ko) 2005-06-04 2005-06-04 단백질 동정시스템

Publications (1)

Publication Number Publication Date
KR100531207B1 true KR100531207B1 (ko) 2005-11-29

Family

ID=37306293

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050048124A KR100531207B1 (ko) 2005-06-04 2005-06-04 단백질 동정시스템

Country Status (1)

Country Link
KR (1) KR100531207B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008102922A1 (en) * 2007-02-22 2008-08-28 Korea Basic Science Institute A system of analyzing protein modification with its band position of one-dimensional gel by the mass spectral data analysis and the method of analyzing protein modificatio using thereof
KR100856526B1 (ko) 2008-03-13 2008-09-04 한국생명공학연구원 펩티드 질량 지문 추적법을 사용한 알터네이티브스플라이싱 아이소폼을 동정하기 위한 스코어링 알고리즘을포함한 시스템 및 방법과 상기 방법을 수행하기 위한프로그램을 갖는 기록매체
WO2008151140A2 (en) * 2007-05-31 2008-12-11 The Regents Of The University Of California Method for identifying peptides using tandem mass spectra by dynamically determining the number of peptide reconstructions required
KR100984253B1 (ko) 2007-02-16 2010-09-30 씨비에스바이오사이언스 주식회사 아미노산 서열 변화 예측방법 및 시스템

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100984253B1 (ko) 2007-02-16 2010-09-30 씨비에스바이오사이언스 주식회사 아미노산 서열 변화 예측방법 및 시스템
WO2008102922A1 (en) * 2007-02-22 2008-08-28 Korea Basic Science Institute A system of analyzing protein modification with its band position of one-dimensional gel by the mass spectral data analysis and the method of analyzing protein modificatio using thereof
WO2008151140A2 (en) * 2007-05-31 2008-12-11 The Regents Of The University Of California Method for identifying peptides using tandem mass spectra by dynamically determining the number of peptide reconstructions required
WO2008151140A3 (en) * 2007-05-31 2009-03-05 Univ California Method for identifying peptides using tandem mass spectra by dynamically determining the number of peptide reconstructions required
US8639447B2 (en) 2007-05-31 2014-01-28 The Regents Of The University Of California Method for identifying peptides using tandem mass spectra by dynamically determining the number of peptide reconstructions required
KR100856526B1 (ko) 2008-03-13 2008-09-04 한국생명공학연구원 펩티드 질량 지문 추적법을 사용한 알터네이티브스플라이싱 아이소폼을 동정하기 위한 스코어링 알고리즘을포함한 시스템 및 방법과 상기 방법을 수행하기 위한프로그램을 갖는 기록매체
WO2009113752A1 (en) * 2008-03-13 2009-09-17 Korea Research Institute Of Bioscience And Biotechnology System comprising scoring algorithm and method for identifying alternative splicing isoforms using peptide mass fingerprinting, and recording media having program therefor

Similar Documents

Publication Publication Date Title
Merkley et al. Applications and challenges of forensic proteomics
US6393367B1 (en) Method for evaluating the quality of comparisons between experimental and theoretical mass data
Tanner et al. InsPecT: identification of posttranslationally modified peptides from tandem mass spectra
US10309968B2 (en) Methods and systems for assembly of protein sequences
US20060287834A1 (en) Virtual mass spectrometry
JP5750676B2 (ja) 細胞識別装置及びプログラム
US20120191685A1 (en) Method for identifying peptides and proteins from mass spectrometry data
US20070282537A1 (en) Rapid characterization of post-translationally modified proteins from tandem mass spectra
KR100531207B1 (ko) 단백질 동정시스템
O'Bryon et al. Flying blind, or just flying under the radar? The underappreciated power of de novo methods of mass spectrometric peptide identification
US8412464B1 (en) Methods for detection and identification of cell type
KR100805775B1 (ko) 변형된 폴리펩티드(Modifiedpolypeptide)의 서열 및 변형 정보를 분석하는방법
US20020046002A1 (en) Method to evaluate the quality of database search results and the performance of database search algorithms
WO2006129401A1 (ja) プロテオーム網羅的解析における特異的蛋白質のスクリーニング方法
US11150249B2 (en) Microorganism identification method
JP5874587B2 (ja) アミノ酸配列解析方法及び装置
Yan et al. NovoHCD: de novo peptide sequencing from HCD spectra
US8712695B2 (en) Method, system, and computer program product for scoring theoretical peptides
CN103177198B (zh) 一种蛋白质鉴定方法
WO2001096861A1 (en) System for molecule identification
US20020152033A1 (en) Method for evaluating the quality of database search results by means of expectation value
JP2019185224A (ja) 内在性修飾ペプチドの同定品質評価方法及び装置
US20160275237A1 (en) Amino acid sequence analyzing method and system
WO2004070643A2 (en) Method for predicting protein function
Gandhi et al. Effect of iTRAQ labeling on the relative abundance of peptide fragment ions produced by MALDI-MS/MS

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20111121

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20130521

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee