KR100805777B1 - 질량 스펙트럼 데이터 및 1차원 젤에서의 밴드 위치분석을 포함하는 단백질 수식화 분석 시스템 및 이를이용한 단백질 수식화 분석 방법 - Google Patents

질량 스펙트럼 데이터 및 1차원 젤에서의 밴드 위치분석을 포함하는 단백질 수식화 분석 시스템 및 이를이용한 단백질 수식화 분석 방법 Download PDF

Info

Publication number
KR100805777B1
KR100805777B1 KR1020070017837A KR20070017837A KR100805777B1 KR 100805777 B1 KR100805777 B1 KR 100805777B1 KR 1020070017837 A KR1020070017837 A KR 1020070017837A KR 20070017837 A KR20070017837 A KR 20070017837A KR 100805777 B1 KR100805777 B1 KR 100805777B1
Authority
KR
South Korea
Prior art keywords
protein
peptide
island
peptides
band
Prior art date
Application number
KR1020070017837A
Other languages
English (en)
Inventor
박건욱
권경훈
김진영
유종신
박영목
김승일
Original Assignee
한국기초과학지원연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국기초과학지원연구원 filed Critical 한국기초과학지원연구원
Priority to KR1020070017837A priority Critical patent/KR100805777B1/ko
Priority to PCT/KR2007/000946 priority patent/WO2008102922A1/en
Priority to US12/282,440 priority patent/US20090138206A1/en
Application granted granted Critical
Publication of KR100805777B1 publication Critical patent/KR100805777B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6848Methods of protein analysis involving mass spectrometry
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/004Combinations of spectrometers, tandem spectrometers, e.g. MS/MS, MSn

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Immunology (AREA)
  • Biomedical Technology (AREA)
  • Physics & Mathematics (AREA)
  • Hematology (AREA)
  • Urology & Nephrology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Pathology (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Cell Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

본 발명은 단백질 동정을 위해 단백질 검색 결과를 분석하는 방법에 대한 것으로, 구체적으로 1) 단백질이 포함된 시료를 1차원 젤 전기영동으로 분리한 뒤, 각각의 밴드를 절단하여, 절단된 밴드로부터 단백질을 분리하고, 상기 분리된 단백질을 단백질 절단효소로 절단한 후, 생성된 펩타이드의 탠덤 질량 스펙트럼을 질량분석기를 이용하여 구하는 단계; 2) 질량분석기와 연결된 인터페이스를 통해 입력된 상기 탠덤 질량 스펙트럼을 단백질 서열 데이터베이스와 비교하여 생성된 펩타이드를 동정하는 단계; 3) 상기 밴드의 위치에 따라 상기 동정된 펩타이드의 개수로 분포도를 작성하는 단계; 4) 상기 단계 3)의 분포도에서 가장 펩타이드가 많은 밴드의 펩타이드 개수와 비교하여 펩타이드의 개수가 일정 비율 이하로 판정된 밴드는 노이즈로 처리하여 고려 대상에서 제외하는 단계; 5) 펩타이드 개수의 총합으로 각 밴드에서의 펩타이드 개수를 나누어서 펩타이드 동정 비율을 계산하는 단계; 6) 연속된 밴드에서 펩타이드가 동정된 경우에 이들을 하나의 클러스터로 묶어서, 각 클러스터별로 펩타이드 비율이 최대인 밴드를 대표 밴드 위치로 선택하고 각 클러스터를 아일랜드(island)로 정의하는 단계; 7) 클러스터에서의 펩타이드 비율을 클러스터 내에 포함되는 펩타이드 비율의 총합으로 계산하는 단계; 8) 한 단백질이 분포하는 아일랜드들 중 펩타이드가 가장 많이 동정된 아일랜드의 위치 및 펩타이드 비율로부터 각 아일랜드의 위치 및 펩타이드 비율에 대한 분산도를 계산하는 단계를 포함하는 단백질 수식화 분석 방법에 관한 것으로, 본 발명의 1차원 젤에서의 단백질의 분포 및 단백질의 특성 분석 방법은 수많은 단백질들이 섞여 있는 생물 시료에서 각각의 단백질들의 상태를 정량적으로 분석하여 세포 내에서 단백질들 간의 상호작용 기작을 밝혀내고, 질병 표지자인 단백질을 발견하여 질병을 진단, 치료하는 방법의 개발에 유용하게 이용될 수 있다.
질량분석기, 단백질 동정, 데이터베이스 검색, 1차원 SDS-PAGE, 단백질 수식화 분석 시스템, 단백질 수식화 분석 방법.

Description

질량 스펙트럼 데이터 및 1차원 젤에서의 밴드 위치 분석을 포함하는 단백질 수식화 분석 시스템 및 이를 이용한 단백질 수식화 분석 방법{A system of analyzing protein modification with its band position of one-dimensional gel by the mass spectral data analysis and the method of analyzing protein modification using thereof}
도 1은 생물시료 또는 단백질 혼합물을 1차원 SDS-PAGE 전기영동법으로 분리하고 탠덤 질량분석기로 분석하여 단백질의 수식화를 분석하는 과정을 도식화한 도면이다.
도 2는 단백질의 주요 밴드 위치를 계산하는 과정을 도식화한 도면이다. 
도 3은 단백질 j로 동정된 펩타이드들의 상대적인 분포[I-스코어(Iscore)]를 정의하는 방법을 도식화한 도면이다. 
    n: 아일랜드의 개수;
    xp: 펩타이드가 가장 많이 동정된 아일랜드의 위치;
    yp: 펩타이드가 가장 많이 동정된 아일랜드에서의 펩타이드 비율;
    xi: i번째 아일랜드의 위치; 및
    yi: i번째 아일랜드에서 단백질 j로 동정된 펩타이드 비율.
도 4는 단백질의 위치 분포로부터 해당 당단백질의 밴드 위치와 그 해당 단백질의 일부분이 잘려나간 밴드 위치를 단백질 서열에 대응시킨 예를 도식화한 도면이다.
도 5는 인간 혈청 시료에 대하여 밴드 위치 및 단백질의 정량 분포를 I-스코어(Iscore) 값의 크기에 따라 분류하여 그린 도면이다.  왼쪽에서 오른쪽으로 I-스코어(Iscore)가 커지는 순서로 단백질들을 나열 하였다.  세로방향의 각 점들은 한 단백질이 발견된 밴드의 분포를 표시하며, 점들의 색깔을 동정된 펩타이드 개수가 많으면 적색, 적으면 청색으로 표시하였다.
도 6은 인간 뇌조직 시료에 대하여 밴드 위치 및 단백질의 정량 분포를 I-스코어(Iscore) 값의 크기에 따라 분류하여 그린 도면이다.  왼쪽에서 오른쪽으로 I-스코어(Iscore)가 커지는 순서로 단백질들을 나열 하였다.  세로방향의 각 점들은 한 단백질이 발견된 밴드의 분포를 표시하며, 점들의 색깔을 동정된 펩타이드 개수가 많으면 적색, 적으면 청색으로 표시하였다.
도 7은 슈도모나스 푸티다(Pseudomonas putida) KT2440 박테리아 시료에 대하여 밴드 위치 및 단백질의 정량 분포를 I-스코어(Iscore) 값의 크기에 따라 분류하여 그린 도면이다.  왼쪽에서 오른쪽으로 I-스코어(Iscore)가 커지는 순서로 단백질들을 나열 하였다.  세로방향의 각 점들은 한 단백질이 발견된 밴드의 분포를 표시하며, 점들의 색깔을 동정된 펩타이드 개수가 많으면 적색, 적으면 청색으로 표시하였다.
본 발명은 탠덤 질량 분석(Tandem mass spectrometry)으로부터 단백질을 동정하는 단백질체 분석 분야에서 단백질체에 대한 보다 상세한 정보를 주는 단백질 수식화 분석 방법에 대한 것이다.
생물시료는 수많은 단백질들이 혼합되어 존재하는 상태이며, 1차원 SDS-PAGE 또는 액체 크로마토그래피 등의 방법으로 단백질 또는 단백질을 가수분해하여 얻은 펩타이드들을 분리한 뒤에 질량 분석기를 이용하여 펩타이드의 탠덤 질량 스펙트럼을 얻는다.  단백질 서열 데이터베이스를 사용하면, 각각의 탠덤 질량 스펙트럼에 해당되는 펩타이드의 아미노산 서열을 찾을 수 있으며, 이들을 통합 분석하면 단백질을 동정할 수 있다.  이러한 단백질 검색 과정에는 SEQUEST®(Eng et al ., J. Am . Soc. Mass Spectrom. 5:976-989, 1994; Thermo Electron Corp., USA), Mascot(Perkins et al., Electrophoresis, 20:3551-3567, 1999; Matrix Science Ltd., USA, http://www.matrixscience.com/search_form_select.html), Sonar(Field, H. I. et al., Proteomics, 2:36-47, 2002; http://knxs.bms.umist.ac.uk/prowl/sonar/sonar_cntrl.html), X!Tandem(Craig et al.,  Bioinformatics, 20:1466-1467, 2004; Proteom Software Inc., USA), Phenyx, PeptideProphet(Keller A., et al., Anal. Chem. 2002, 74, 5383-5392), ProteinProphet(Nesvizhskii A.I., et al., Anal. Chem. 2003, 75, 4646-4658), DTASelect(Tabb D. L., et al., Proteome Res. 2002, 1, 21-26) 또는 OMSSA(Syka JE, et al., Proc Natl Acad Sci USA. 2004. Jun 29, 101(26). 9528-33) 등의 소프트웨어를 사용한다.
탠덤 질량 스펙트럼으로 펩타이드의 서열을 검색할 결과로부터 단백질을 동정하는 과정에 있어서 동일 단백질이 서로 다른 1차원 젤 밴드에서 동정되는 경우는 펩타이드 서열의 검색이 틀렸거나 단백질의 양이 유난히 많거나, 단백질이 수식화가 이루어지는 경우에 발생하는데, 현재까지 발표된 단백질체 분석법에서는 이 세 가지 경우를 구분하여 수치화하는 방안이 제시되지 못하였다.
1차원 SDS-PAGE에 의해 단백질을 분리한 실험의 경우에는 1차원 젤의 각 밴드 조각들에 대하여 단백질 동정 결과들을 대응시킬 수 있다.  만일 한 단백질이 수식화에 의해 몇 가지의 다른 분자량을 가진 상태로 시료에서 존재했다면, 그 단백질은 1차원 젤의 여러 밴드에 걸쳐서 발견될 수 있을 것이다.  이 경우에 각각의 단백질의 1차원 젤에서의 밴드 위치를 분석하면 단백질의 수식화 상태에 대한 정량 분석이 가능하다.
기존 특허에 서로 다른 동위원소로 처리된 펩타이드의 질량스펙트럼을 비교 하여 단백질의 정량 분석을 수행(US 2005/0233399)하는 것이 있으나 동위원소 처리에 의한 정량 분석은 동일한 수식화 상태인 단백질의 서로 다른 시료에서의 정량 분석 방법으로, 한 시료 내에서의 단백질의 서로 다른 상태의 정량 분석에는 적용할 수 없다.  표준 시료를 사용하고 특정 단백질에 표지자를 붙여서 질량스펙트럼으로 정량 분석을 하는 것(US 2006/0078960)은 특정 단백질의 정확한 정량 분석의 용도인 표준 시료의 사용으로 표준 시료와 양의 차이가 많이 나는 단백질의 분석이 어려우며, 앞의 특허와 마찬가지로 한 단백질의 상태 분석용으로는 적합하지 않다.  G. W. Park 등은 인간 혈장 시료와 박테리아 시료의 탠덤 질량분석에 의한 단백질 동정 결과를 1차원 SDS-PAGE 에서의 밴드 위치와 비교하여 단백질 동정 결과를 확인하였으나(G. W. Park, et al., Proteomics, 2006, 6, 1121-1132) 이는 각 단백질에서 SDS-PAGE 에서의 밴드 위치 중에 가장 많은 펩타이드가 검출된 밴드만을 고려하였다.  대개의 수식화 단백질은 수식화 되지 않은 상태와 수식화된 상태가 공존한다. Q. R. Ahmad 등이 인체임파양세포(lymphoblastoid cell)에서도 1차원 젤 밴드에 모여 있는 단백질들을 동정하여, 그 중 80%는 수식화 되지 않은 단백질, 20%는 수식화된 단백질로 동정한 것(Q. R. Ahmad, et al., Proteome Science, 2005, 3:6)은 각각의 단백질들에 대하여 가장 많이 나타난 상태만을 분석한 것으로 여러 형태의 단백질 수식화가 함께 존재하는 경우를 수용하지 못하였다. 
따라서 본 발명은 1차원 젤에서의 밴드별 단백질 분포를 통한 단백질의 정량 분석으로 서로 다른 시료 내에서의 정량 분석뿐만 아니라 한 시료 내에서의 단백질 의 서로 다른 상태의 정량 분석에도 적용할 수 있도록 하였으며, 특정 단백질의 정확한 정량 분석에 이용되는 표준 시료를 사용하지 않음으로써 프로테오믹스 실험에서 동정되는 다양한 농도의 단백질에 대한 정량 분석이 가능하도록 하였다.  또한 본 발명은 한 단백질에서 가능한 여러 상태들을 분리하여 분석함으로써 단백질 수식화에 보다 정확한 정보를 제공하고, 각각의 단백질들에 대하여 여러 형태의 단백질 수식화가 함께 존재하는 경우를 분석한다.
이에 본 발명자들은 단백질이 1차원 젤의 몇 군데에서 동시에 동정되는 경우에 데이터베이스 검색 오차에 의한 동정 및 단백질 수식화에 의한 단백질의 분산을 가려내는 분석 방법을 고안하여, 단백질 검색 오차를 최소화하고 시료에서 발생한 단백질 수식화를 밝힘으로써, 본 발명을 완성하였다.
본 발명의 목적은 보다 효율적인 단백질 동정을 위하여 1차원 젤에서의 탠덤 질량 스펙트럼 및 밴드 위치 분석을 통하여 단백질 수식화의 분석 방법을 제공하는 것이다.
용어의 정의
본 발명을 명확하게 설명하기 위하여 본 명세서에 기재된 용어의 정의를 아 래와 같이 설명한다:
1차원 SDS-PAGE(sodium dodecyl sulphate-polyacrylamide gel electrophoresis)는 단백질에 SDS(sodium dodecyl sulphate)를 사용하여 단백질의 분자량에 대한 전하의 비율을 일정하게 만든 다음 폴리아크릴아마이드 젤(polyacrylamide gel)을 사용한 전기영동으로 분자량에 따라 단백질을 분리하는 방법이다.
탠덤 질량 분석은 두 개의 비행시간(Time of flight :TOF) 질량분석 즉 패런트 이온 분리를 위한 저속 TOF1과 프래그먼트 질량 분석을 위한 고속 TOF2를 사용하여 질량을 분석하는 방법이다.
클러스터는 1차원 젤에서 동정된 각각의 단백질을 젤 밴드의 위치에 대하여 동정된 펩타이드의 개수로 분포도를 그릴 때 연속된 밴드에서 펩타이드가 동정된 경우, 이를 하나로 묶은 것을 의미한다.
아일랜드(island)는 각 단백질에서의 상기 클러스터를 지칭한다.  아일랜드의 세기는 클러스터 내에서 해당 단백질로 동정된 펩타이드의 합으로 정의하였고, 아일랜드의 크기는 밴드의 폭을 의미하며, 아일랜드의 위치는 각 밴드에서 계산한 MWcorr(하기 수학식 2)의 중심 값을 의미한다.
분산도는 한 단백질에서 구분되어지는 아일랜드들의 대표 밴드 위치와 펩타이드 비율로부터 정의한 단백질의 분산 정도를 의미하며, 본 발명에서는 이를 특별 히 I-스코어(IScore)로 정의하였다.  이는 각 단백질에서 가장 세기가 큰 아일랜드를 중심으로 다른 아일랜드들의 유클리드 거리(Euclidean distance)를 합하여 계산한 것이다(하기 수학식 1).
상응 분자량(Molecular Weight Correlation, MWcorr)은 당해 단백질의 아미노산 서열로부터 계산되는 이론상 분자량과 1차원 전기영동 이동 위치로부터 환산되는 실험상 분자량의 비율을 의미한다(하기 수학식 2).
발명의 상세한 설명
이하 본 발명을 상세히 설명한다.
상기 목적을 달성하기 위하여, 본 발명은 하기와 같은 수단을 포함하는 단백질 수식화 분석 시스템을 제공한다:
a) 질량분석기로부터 수득된 단백질 포함 시료의 1차원 젤 전기영동의 밴드별 펩타이드 탠덤 질량 스펙트럼(Tandom mass spectrometry) 정보를 전송받을 인터페이스;
b) 상기 펩타이드 탠덤 질량 스펙트럼 정보를 단백질 서열 데이터베이스와 비교하여 펩타이드를 동정하는 펩타이드 동정 수단;
c) 상기 1차원 젤 전기영동의 밴드의 위치에 따라 상기 동정된 펩타이드의 개수로 분포도를 작성하는 펩타이드 분포도 작성 수단;
d) 상기 분포도에서 펩타이드의 개수가 가장 많은 밴드의 펩타이드 개수와 대비하여, 펩타이드의 개수가 일정 비율 이하로 판정된 밴드를 노이즈로 처리하여 제거하는 필터링 수단;
e) 상기 노이즈가 제거된 펩타이드의 개수의 총합으로 각 밴드에서의 펩타이드 개수를 나누어서 펩타이드 동정 비율을 계산하는 펩타이드 동정 비율 연산 수단;
f) 연속된 밴드에서 펩타이드가 동정된 경우 이들을 하나의 클러스터로 묶어서, 각 클러스터별로 펩타이드 비율이 최대인 밴드를 대표 밴드 위치로 선택하고 각 클러스터를 아일랜드로 정의하는 클러스터링 수단;
g) 각 아일랜드에서의 펩타이드의 비율을 아일랜드 내에 포함되는 펩타이드 비율의 총합으로 계산하는 아일랜드 펩타이드 비율 연산 수단;
h) 한 단백질이 분포하는 아일랜드들 중 펩타이드가 가장 많이 동정된 아일랜드의 위치 및 펩타이드 비율로부터 각 아일랜드의 위치 및 펩타이드 비율에 대한 분산도를 계산하는 단백질 분산도 연산 수단; 및
i) 상기 펩타이드 분포도 및 단백질에 따른 상기 분산도를 표시하는 출력수단.
또한 본 발명은 하기의 단계를 포함하는 단백질 수식화 분석 방법을 제공한다:
1) 단백질이 포함된 시료를 1차원 젤 전기영동으로 분리한 뒤, 각각의 밴드를 절단하여, 절단된 밴드로부터 단백질을 분리하고, 상기 분리된 단백질을 단백질 절단효소로 절단한 후, 생성된 펩타이드의 탠덤 질량 스펙트럼을 질량분석기를 이용하여 구하는 단계;
2) 질량분석기와 연결된 인터페이스를 통해 입력된 상기 탠덤 질량 스펙트럼을 단백질 서열 데이터베이스와 비교하여 생성된 펩타이드를 동정하는 단계;
3) 상기 밴드의 위치에 따라 상기 동정된 펩타이드의 개수로 분포도를 작성하는 단계;
4) 상기 단계 3)의 분포도에서 가장 펩타이드가 많은 밴드의 펩타이드 개수와 비교하여 펩타이드의 개수가 일정 비율 이하로 판정된 밴드는 노이즈로 처리하여 고려 대상에서 제외하는 단계;
5) 펩타이드 개수의 총합으로 각 밴드에서의 펩타이드 개수를 나누어서 펩타이드 동정 비율을 계산하는 단계;
6) 연속된 밴드에서 펩타이드가 동정된 경우에 이들을 하나의 클러스터로 묶어서, 각 클러스터별로 펩타이드 비율이 최대인 밴드를 대표 밴드 위치로 선택하고 각 클러스터를 아일랜드(island)로 정의하는 단계;
7) 클러스터에서의 펩타이드 비율을 클러스터 내에 포함되는 펩타이드 비율의 총합으로 계산하는 단계; 및
8) 한 단백질이 분포하는 아일랜드들 중 펩타이드가 가장 많이 동정된 아일랜드의 위치 및 펩타이드 비율로부터 각 아일랜드의 위치 및 펩타이드 비율에 대한 분산도를 계산하는 단계.
이하, 본 발명을 보다 상세히 설명한다.
상기 단백질 분석 시스템에서 a)의 인터페이스는 RSC-232C, 패러럴 포트, 범용 직렬 버스(Universal Serial Bus, USB), IEEE 1394, 블루투스(Bluetooth) 또는 이더넷(Ethernet)인 것이 바람직하나 이에 한정되는 것은 아니다.
상기 단백질 분석 시스템에서 b)의 단백질 서열 데이터베이스는 IPI_Human 단백질 서열 데이터베이스, UniprotKB/Swissprot 데이터베이스 또는 NCBI_nr 데이터베이스인 것이 바람직하나 이에 특별히 제한되는 것은 아니며, 상기 데이터베이스들은 각각 하기와 같은 인터넷 주소를 통해 다운받을 수 있다.  또한 단백질들을 고효율로 동정하기 위해서는 펩타이드 수준에서 잘못된 스펙트럼을 구분하는 것이 무엇보다 중요하므로 신뢰도를 높이기 위하여 이들의 역순 서열 데이터베이스를 함께 이용할 수 있다.
IPI: ftp://ftp.ebi.ac.uk/pub/databases/IPI/current/
UniprotKB/Swissprot: ftp://ftp.expasy.org/databases/uniprot/
NCBI_nr: ftp://ftp.ebi.ac.uk/pub/databases/
상기 단백질 분석 시스템에서 d)의 일정 비율은 가장 펩타이드가 많은 밴드의 펩타이드 개수의 10 %인 것이 바람직하나 특별히 이에 제한되는 것은 아니며, 분산도는 하기 수학식 1로 계산될 수 있다.
        
Figure 112007015640063-pat00001
j: 동정한 단백질 중 j 번째 단백질
p ,у p ): j 번째 단백질의 각 아일랜드의 펩타이드 비율 중에 가장 큰 값을 가지는 아일랜드의 위치 χ p 및 그 아일랜드의 펩타이드 비율 у p .  아일랜드의 위치는 0에서 1까지의 값으로 정규화(normalize)한 값을 사용한다.
i ,у i ): j번째 단백질의 i번째 아일랜드의 위치 χ i 및 펩타이드 비율 у i
상기 단백질 분석 시스템에서 i)의 출력수단은 모니터, 프린터 또는 플로터인 것이 바람직하나 특별히 이에 한정되는 것은 아니다.
상기 단백질 수식화 분석 방법에서 단계 1)의 1차원 전기영동은 SDS(sodium dodecyl sulphate)를 사용하여 단백질의 분자량에 대한 전하의 비율을 일정하게 만든 다음 폴리아크릴아마이드 젤(polyacrylamide gel)을 이용한 SDS-PAGE(sodium dodecyl sulphate-polyacrylamide gel electrophoresis)로 단백질을 분리하는 것이 바람직하다.  본 발명자들은 생물시료 또는 단백질 혼합물의 SDS-PAGE로부터 분리 된 단백질을 트립신(trypsin) 효소로 가수분해 한 후, 탠덤 질량분석에 의해 펩타이드를 동정하였다. 
상기 단백질 수식화 분석 방법에서 단계 1)의 획득한 탠덤 질량 스펙트럼은 인간 단백질 데이터베이스인 IPI_Human 단백질 서열 데이터베이스, UniprotKB/Swissprot 데이터베이스 또는 NCBI_nr 데이터베이스를 이용하여 서열을 분석하는 것이 바람직하나 이에 특별히 제한되는 것은 아니며, 상기와 같은 인터넷 주소를 통해 다운받을 수 있다.  또한 신뢰도를 높이기 위하여 이들의 역순 서열 데이터베이스를 함께 이용할 수 있다.
상기의 서열정보는 FASTA 포맷인 것이 바람직하나 특별히 이에 제한되는 것은 아니며 이는 통상의 서열 검색용 소프트웨어를 이용한 검색으로 단백질을 동정할 수 있다.  상기의 서열 검색용 소프트웨어는 SEQUEST®(Eng et al ., J. Am . Soc . Mass Spectrom. 5:976-989, 1994; Thermo Electron Corp., USA), Mascot(Perkins et al., Electrophoresis, 20:3551-3567, 1999; Matrix Science Ltd., USA, http://www.matrixscience.com/search_form_select.html), Sonar(Field, H. I. et al., Proteomics , 2:36-47, 2002; http://knxs.bms.umist.ac.uk/prowl/sonar/sonar_cntrl.html), X!Tandem(Craig et al.,  Bioinformatics, 20:1466-1467, 2004; Proteom Software Inc., USA), Phenyx, PeptideProphet(Keller A., et al., Anal. Chem. 2002, 74, 5383-5392), ProteinProphet(Nesvizhskii A.I., et al., Anal. Chem. 2003, 75, 4646-4658), DTASelect(Tabb D. L., et al., Proteome Res. 2002, 1, 21-26) 또는 OMSSA(Syka JE, et al., Proc Natl Acad Sci USA. 2004. Jun 29, 101(26). 9528-33) 등이 바람직하나 특별히 이에 제한되는 것은 아니다.
상기 단백질 수식화 분석 방법에서 단계 2)의 인터페이스는 RSC-232C, 패러럴 포트, 범용 직렬 버스(Universal Serial Bus, USB), IEEE 1394, 블루투스(Bluetooth) 또는 이더넷(Ethernet)인 것이 바람직하나 특별히 이에 한정되는 것은 아니다.
상기 단백질 수식화 분석 방법에서 단계 3)의 분포도는 동정된 밴드에 대하여 가장 펩타이드가 많은 밴드에서의 펩타이드 개수가 10 % 이하로 동정된 밴드는 노이즈로 처리하여 고려 대상에서 제외한 후[상기 단계 4)], 펩타이드 개수의 총합으로 각 밴드에서의 펩타이드 개수를 나누어서 펩타이드 동정 비율을 계산하고[상기 단계 5)] 연속된 밴드에서 펩타이드가 동정된 경우에는 이들을 하나의 클러스터로 묶어서, 각 클러스터별로 펩타이드 비율이 최대인 밴드를 대표 밴드 위치로 선택하고 각 클러스터를 아일랜드(island)로 정의[상기 단계 6)]한다.  상기와 같이 정의된 아일랜드는 1차원 젤 상의 복잡한 단백질의 패턴을 간단하게 나타낼 수 있다(도 2 참조).
상기 단계 8)의 분산도는 한 단백질에서 구분되어지는 아일랜드들의 대표 밴드 위치와 펩타이드 비율에 대한 단백질 분산을 의미하며 상기 수학식 1의 I-스코어(IScore; 도 3 참조)로 계산되어지며, 이를 통하여 수식화된 단백질의 정량 분석이 가능하다.  어떤 단백질이 하나의 아일랜드만을 가진다면, I-스코어는 0이 된 다.  하지만 1차원 젤에서 전기영동을 하기 전 어떤 효소에 의하여 잘려지거나 수식화가 일어난 단백질들은 여러 개의 아일랜드를 가지며 I-스코어의 값도 커진다.  그러므로 단백질의 I-스코어는 작은데, 아일랜드의 크기는 크다면 이 단백질은 양이 매우 많음을 나타낸다.  따라서 I-스코어는 단백질이 여러 군데에 분포하면 큰 값을 가지고, 한 군데에 모여 있으면 0의 값을 가지므로 I-스코어를 이용하면, 단백질의 분산 즉 상태 변화를 정량할 수 있다.  대부분의 일반적인 단백질들은 I-스코어는 작고, 아일랜드의 크기도 작아서 좁은 범위의 밴드에 잘 위치되어 있다.
더 나아가, 본 발명의 단백질 수식화 분석 방법은 하기의 단계를 추가적으로 포함할 수 있다:
9) 아일랜드의 분포로부터 단백질 전체에 대한 수식화의 특성을 다른 시료들의 수식화 특성과 비교하는 단계.
상기와 같이 분석한 단백질 수식화 정보(도 1 참조)는 생물시료 또는 단백질 혼합물에서 유전체 정보, 단백질간의 상호작용 정보 및 대사작용 정보들을 검색하기 위한 기본 데이터로 활용될 수 있다.
더 나아가, 본 발명의 단백질 수식화 분석 방법은 하기의 단계를 추가적으로 포함할 수 있다:
9) 각 단백질들의 아일랜드 분포와 해당 단백질에서 이미 알려진 단백질 수식화 정보를 비교하는 단계;
10) 서로 다른 종 또는 서로 다른 시료에서 분산도를 적용하여 얻은 값에 따라 단백질의 분포 성향을 분석하는 단계; 및
11) 단백질 상태 분포를 상응 분자량(Molecular Weight Correlation, MWcorr) 값으로 상기 분산도의 크기에 따라 배열하여 도식화함으로써 전체 단백질의 특성을 파악하여 서로 다른 종 또는 서로 다른 시료에서의 단백질 수식화 양상을 비교하고 특징짓는 단계.
상기 단계 9)의 아일랜드 분포가 만약 아미노산 서열에서 계산한 분자량 보다 크다면, 이미 알려진 단백질 수식화 정보를 통하여 N-당화(N-glycosylation)가 일어났다는 것을 예측할 수 있다(도 4 참조).
상기 단계 9)의 이미 알려진 단백질 수식화 정보는 Swiss-Prot 데이터베이스, NCBI_nr 데이터베이스 또는 UniProt 데이터베이스의 단백질 데이터베이스, 및 SignalP 또는 GlycoSuite와 같은 단백질 수식화 예측 소프트웨어를 이용하여 분석하는 것이 바람직하나 이에 한정되는 것은 아니다.
상기 단계 11)의 MWcorr(Molecular Weight Correlation)는 단백질 분자량을 아미노산 서열에서 계산한 값(MWcal) 및 1차원 젤의 밴드 위치에서 환산한 값(MWexp)에 각각 로그를 취하여 log(MWexp)를 log(MWcal)로 나눈 값으로 하기 수학식 2와 같이 정의된다.  만약 MWcorr의 값이 1이라면, 이는 1차원 젤의 위치에서의 단백질 분자량과 아미노산 서열에서 계산한 단백질 분자량이 같다는 것을 의미하며 MWcorr의 값이 1보다 작다면, 이는 1차원 젤의 위치에서의 단백질 분자량이 아미노산 서열에서 계산한 단백질 분자량 보다 작다는 것을 의미하고 MWcorr의 값이 1보다 크다면, 이는 1차원 젤의 위치에서의 단백질 분자량이 아미노산 서열에서 계산한 단백질 분자량 보다 크다는 것을 의미한다.  MWcorr가 1보다 클 때는 분자량이 큰 단백질과 결합하는 수식화가 일어난 경우가 대부분이며, 1보다 작을 때는 단백질이 잘려져서 분자량이 줄어든 경우가 대부분이다.
각각의 시료에 대하여 I-스코어 값이 작은 단백질에서 I-스코어 값이 큰 단백질까지의 아일랜드의 분포를 그려보면 인간 혈장 시료의 경우에는 MWcorr가 1보다 큰 영역 및 1보다 작은 영역에 많은 단백질들이 흩어지는 양상을 보였고(도 5 참조), 인간 뇌조직 시료에서는 MWcorr가 1보다 큰 경우가 유난히 많게 나타났으며(도 6 참조), 슈도모나스 푸티다(Pseudomonas putida) KT2440 박테리아에서는 MWcorr가 1의 값에 모여 있었다(도 7 참조).
상기에서 정의한 아일랜드와 I-스코어는 1차원 젤에서의 단백질들의 복잡성을 간단하게 나타내므로 MWcorr 값과 함께 시료에서 동정한 단백질들의 맵(도 4 내지 7 참조)을 만들면 선택적 스플라이싱(alternative splicing), 엔도프로테올리틱 공정(endoproteolytic process) 또는 PTM(posttranslational modification)과 같은 흥미 있는 생물학적 의미를 조사할 수 있다.
Figure 112007015640063-pat00002
MWcal; 단백질 분자량을 아미노산 서열에서 계산한 값.
MWexp; 단백질 분자량을 1차원 젤의 위치에서 환산한 값.
이하, 본 발명을 실시예에 의해 상세히 설명한다.
단, 하기 실시예는 본 발명을 예시하는 것일 뿐, 본 발명의 내용이 하기 실시예에 의해 한정되는 것은 아니다.
<실시예 1> 인간 혈장 시료의 단백질 수식화 분석
<1-1> 인간 혈장 시료의 1차원 SDS-PAGE
MAR 친화성 컬럼[MAR column(4.6 × 50 mm2), Agilent]을 사용하여 인간혈장 시료 내에 과량으로 존재하는 단백질을 제거하였다.  제거된 단백질은 알부민(albumin), 이뮤노글로불빈(immunoglobulins; Igs) A 및 G, 헵토글로빈(haptoglobin), 트랜스페린(transferrin) 및 안티트립신(antitrypsin)이다.  이러한 6가지 단백질이 제거된 혈장 시료의 단백질 분리를 위하여 12% 아크릴아마이드(acrylamide) 젤을 이용한 1차원 SDS-PAGE를 수행하였다.  1차원 젤의 한 레 인(lane)의 크기는 세로 18 cm, 가로 1 cm 및 두께 0.1 cm가 되도록 하였다.  인간 혈액 시료 100 ㎍을 젤에 주입하여 100 volt로 약 4 시간 동안 전기영동 하였다.  전기영동이 끝난 후 CBB(Coomassie brilliant blue)로 염색하여 단백질 밴드를 확인하였다.  염색으로 나타난 밴드 분포를 기초로 하여 밴드를 70개로 나누어 추출하였다.
<1-2> 1차원 젤에서의 펩타이드 분리 및 탠덤 질량 스펙트럼의 획득
상기 실시예 <1-1>의 1차원 전기영동(1차원 SDS-PAGE)에 의한 1차원 젤을 얻고 각각의 밴드로부터 Pieper 등(Pieper, R., et al., Proteomics, 3: 422-432, 2003)이 기술한 바와 같이 다차원 단백질 동정 기술(Multidimensional Protein Identification Technology, MudPIT) 방법으로 펩타이드를 분리하였다. 
1차원 젤 상의 70개의 밴드를 각각 잘라서 트립신으로 가수분해한 펩타이드 혼합물을 C18, SCX 양이온 교환 물질(SCX cation exchange materials, Whatman column, UK)이 2 ~ 3 ㎝로 충진된 250 μm tubing(UK)에 입력하고 이를 거친 뒤, 질량분석기(LTQ-FT, Thermo Electron Corp., CA)를 이용하여 탠덤 질량 스펙트럼을 수득하였다.
상기와 같이 획득한 탠덤 질량 스펙트럼을 영국 EBI 연구소로부터 다운로드받은 IPI 데이터베이스 중 인간 단백질 데이터베이스인 IPI_Human 단백질 서열 데이터베이스 버전 3.06(ftp://ftp.ebi.ac.uk/pub/databases/IPI/current/)을 이용하였다.  또한 단백질들을 고효율로 동정하기 위해서는 펩타이드 수준에서 잘못된 스 펙트럼을 구분하는 것이 무엇보다 중요하므로 본 발명자들은 이의 역순 서열 데이터베이스를 이용하여 확실히 잘못된 스펙트럼의 비를 계산하여 에러 비 1%에서 펩타이드를 동정하였다.  그리고 정확한 분자량을 이용하여 분자량 분포(-9.55 ppm ≤ΔM ≤ 15.76 ppm)로 필터링한 펩타이드들로부터 정확성이 높은 단백질을 동정하였다.  단백질 동정은 단백질 동정용 소프트웨어(TurboSEQEST®, Thermo Electron Corp., USA)로 검색하였다.
<1-3> 단백질 수식화의 분석
1차원 젤의 밴드에서 상기와 같이 해당하는 단백질의 펩타이드로 동정된 스펙트럼 수의 분포에서 최대 개수의 10% 미만의 스펙트럼이 동정된 밴드를 제외한 후, 연속된 밴드들을 하나의 클러스터로 정의하였다.  이렇게 하여 구해진 각각의 클러스터를 아일랜드(island)로 정의하였다.  아일랜드의 세기는 클러스터 내에서 해당 단백질로 동정된 펩타이드의 합으로 정의하였고, 아일랜드 크기는 밴드의 폭으로 정의하였으며, 아일랜드의 위치는 각 밴드에서 계산한 MWcorr(상기 수학식 2)의 중심 값으로 정의하였다.
그리고 각 단백질에서 가장 세기가 큰 아일랜드를 중심으로 다른 아일랜드들의 유클리드 거리(Euclidean distance)를 합하여 I-스코어(Iscore, 상기 수학식 1)를 계산하였다.
상기 <1-2>의 IPI_Human 데이터베이스에서 동정한 단백질 중 IIPI00022371.1 Histidine Rich Glycoprotein Precursor의 경우에 아일랜드(도 2)를 계산한 결과 두 개의 아일랜드가 얻어졌으며, 상기의 수학식 1(도 3)로 계산하였더니 0.35의 I-스코어 값을 얻을 수 있었다(도 4). NCBI_nr 단백질 데이터베이스에서 해당 단백질과 유사한 서열의 단백질들을 검색한 결과 두 아일랜드 중 분자량이 작은 아래의 49 kDa의 아일랜드는 전체 아미노산 서열의 중간 부분이 잘려서 생긴 조각에 대한 분자량에 대응되었다.  이때 NCBI_nr에서 검색된 단백질은 "gi|2280514|" 및 "gi|2280514|" 이었다.  각각의 아일랜드의 위치(MWcorr=0.98 및 MWcorr=1.05)는 아미노산 서열에서 계산한 분자량 35,366 Da 및 59,540 Da 보다 큰 값(49 kDa 및 99 kDa)들을 나타냈는데, Swiss-Prot의 단백질 데이터베이스를 참조한 결과 N-당화(N-glycosylation)에 의해 분자량이 증가한 것으로 파악할 수 있었으며, 이는 전사 후 수식(posttranslational modification; PTM)이 일어났음을 의미한다.
< 실시예 2> 서로 다른 생물종에서의 단백질 수식화 비교분석
실시예 1에서 인간 혈장 시료에 대해 실시한 실험과 같은 방법으로 인간 뇌조직 및 슈도모나스 푸티다(Pseudomonas putida) KT2440 박테리아 시료에 대해 단백질 동정 및 아일랜드 분석을 실시하였다.  다른 점은 인간 뇌조직 시료의 경우에는 1차원 젤로부터 40개의 밴드로 분리하고 각 밴드를 트립신으로 처리한 후, Aqua 5μ C18로 10 ㎝ 충진된 융합-실리카 튜브(fused-silica tubing, Phenomenex, USA)만을 이용하여 분리된 펩타이드들을 질량분석기(LT LTQ/MS, Linear Ion Trap Mass Spectrometer, Thermo Electron Corp., USA)를 이용하여 동정하였다.  박테리아 시료의 경우에는 42개의 밴드로 분리하고 트립신으로 가수분해한 펩타이드 혼합물을 C18, SCX 양이온 교환 물질(SCX cation exchange materials, Whatman column, UK)이 2 ~ 3 ㎝로 충진된 250 μm tubing(UK)에 입력하고 이를 거친 뒤, 질량분석기(LT LTQ/MS, Linear Ion Trap Mass Spectrometer, Thermo Electron Corp., USA)를 통해 탠덤 질량 스펙트럼을 수득하였다.
인간 혈장 시료, 인간 뇌 조직 시료 및 슈도모나스 푸티다(Pseudomonas putida) KT2440 박테리아 시료에서 동정된 단백질들의 아일랜드를 각각 분석하여 I-스코어 값을 얻었으며, 상기의 수학식 2와 같이 MWcorr(Molecular Weight Correlation)를 측정하였다.  인간 혈장에서는 482개, 인간 뇌에서는 579개, 박테리아에서는 965개의 단백질을 분석하였다.  인간 혈장 시료의 경우에는 MWcorr가 1보다 큰 영역, 1보다 작은 영역에 많은 단백질들이 흩어지는 양상을 보였다(도 5).  뇌조직 시료에서는 MWcorr가 1보다 큰 경우가 유난히 많이 나타났다(도 6).  박테리아에서는 I-스코어가 작은 경우는 MWcorr가 1의 값에 모여 있으나, I-스코어가 큰 경우에는 조각난 단백질들이 검출되었다(도 7).
본 발명의 질량 스펙트럼 데이터와 1차원 젤에서의 밴드 위치 분석에 의한 단백질 수식화를 파악하는 방법은 종래의 단백질체학에서 단순하게 단백질을 동정 하고 1차원 젤에서의 대표적인 위치만을 분석하는 단계에서 일보 전진하여 1차원 젤에서의 위치 분포를 정량적으로 파악할 수 있는 방법을 제시하여 각 시료에서의 단백질 변화에 대한 정보를 제공하므로 단백질간의 상호작용, 대사경로 규명 및 질병 표지자의 발굴에 유용하게 이용될 수 있다. 

Claims (19)

  1. a) 질량분석기로부터 수득된 단백질 포함 시료의 1차원 젤 전기영동의 밴드별 펩타이드 탠덤 질량 스펙트럼(Tandom mass spectrometry) 정보를 전송받을 인터페이스;
    b) 상기 펩타이드 탠덤 질량 스펙트럼 정보를 단백질 서열 데이터베이스와 비교하여 펩타이드를 동정하는 펩타이드 동정 수단;
    c) 상기 1차원 젤 전기영동의 밴드의 위치에 따라 상기 동정된 펩타이드의 개수로 분포도를 작성하는 펩타이드 분포도 작성 수단;
    d) 상기 분포도에서 펩타이드의 개수가 가장 많은 밴드의 펩타이드 개수와 대비하여, 펩타이드의 개수가 일정 비율 이하로 판정된 밴드를 노이즈로 처리하여 제거하는 필터링 수단;
    e) 상기 노이즈가 제거된 펩타이드의 개수의 총합으로 각 밴드에서의 펩타이드 개수를 나누어서 펩타이드 동정 비율을 계산하는 펩타이드 동정 비율 연산 수단;
    f) 연속된 밴드에서 펩타이드가 동정된 경우 이들을 하나의 클러스터로 묶어서, 각 클러스터별로 펩타이드 비율이 최대인 밴드를 대표 밴드 위치로 선택하고 각 클러스터를 아일랜드로 정의하는 클러스터링 수단;
    g) 각 아일랜드에서의 펩타이드의 비율을 아일랜드 내에 포함되는 펩타이드 비율의 총합으로 계산하는 아일랜드 펩타이드 비율 연산 수단;
    h) 한 단백질이 분포하는 아일랜드들 중 펩타이드가 가장 많이 동정된 아일랜드의 위치 및 펩타이드 비율로부터 각 아일랜드의 위치 및 펩타이드 비율에 대한 분산도를 계산하는 단백질 분산도 연산 수단; 및
    i) 상기 펩타이드 분포도 및 단백질에 따른 상기 분산도를 표시하는 출력수단을 포함하는 단백질 수식화 분석 시스템.
  2. 제 1항에 있어서, 상기 a)의 인터페이스는 RSC-232C, 패러럴 포트, 범용 직렬 버스(Universal Serial Bus, USB), IEEE 1394, 블루투스(Bluetooth) 또는 이더넷(Ethernet)인 것을 특징으로 하는 단백질 수식화 분석 시스템.
  3. 제 1항에 있어서, 상기 b)의 단백질 서열 데이터베이스는 IPI_Human 단백질 서열 데이터베이스, UniprotKB/Swissprot 데이터베이스, NCBI_nr 데이터베이스 및/또는 이들의 역순서열 데이터베이스인 것을 특징으로 하는 단백질 수식화 분석 시스템.
  4. 제 1항에 있어서, 상기 d)의 일정 비율은 가장 펩타이드가 많은 밴드의 펩타이드 개수의 10 %인 것을 특징으로 하는 단백질 수식화 분석 시스템.
  5. 제 1항에 있어서, 상기 h)의 분산도는 하기 수학식 1로 계산되는 것을 특징으로 하는 단백질 수식화 분석 시스템:
    <수학식 1>
    Figure 112007015640063-pat00003
    j: 동정한 단백질 중 j 번째 단백질;
    p , у p ):
    χ p : j번째 단백질의 각 아일랜드의 펩타이드 비율 중에 가장 큰 값을 가지는 아일랜드의 위치,
    у p : j번째 단백질의 각 아일랜드의 펩타이드 비율 중에 가장 큰 값을 가지는 아일랜드의 펩타이드 비율;  
    아일랜드의 위치: 0에서 1까지의 값으로 정규화(normalize)한 값;
    i , у i ):
    χ i : j번째 단백질의 i번째 아일랜드의 위치,
    у i : j번째 단백질의 i번째 아일랜드의 펩타이드 비율.
  6. 제 1항에 있어서, 상기 i)의 출력수단은 모니터, 프린터 또는 플로터인 것을 특징으로 하는 단백질 수식화 분석 시스템.
  7. 1) 단백질이 포함된 시료를 1차원 젤 전기영동으로 분리한 뒤, 각각의 밴드를 절단하여, 절단된 밴드로부터 단백질을 분리하고, 상기 분리된 단백질을 단백질 절단효소로 절단한 후, 생성된 펩타이드의 탠덤 질량 스펙트럼을 질량분석기를 이용하여 구하는 단계;
    2) 질량분석기와 연결된 인터페이스를 통해 입력된 상기 탠덤 질량 스펙트럼을 단백질 서열 데이터베이스와 비교하여 생성된 펩타이드를 동정하는 단계;
    3) 상기 밴드의 위치에 따라 상기 동정된 펩타이드의 개수로 분포도를 작성하는 단계;
    4) 상기 단계 3)의 분포도에서 가장 펩타이드가 많은 밴드의 펩타이드 개수와 비교하여 펩타이드의 개수가 일정 비율 이하로 판정된 밴드는 노이즈로 처리하여 고려 대상에서 제외하는 단계;
    5) 펩타이드 개수의 총합으로 각 밴드에서의 펩타이드 개수를 나누어서 펩타이드 동정 비율을 계산하는 단계;
    6) 연속된 밴드에서 펩타이드가 동정된 경우에 이들을 하나의 클러스터로 묶 어서, 각 클러스터별로 펩타이드 비율이 최대인 밴드를 대표 밴드 위치로 선택하고 각 클러스터를 아일랜드(island)로 정의하는 단계;
    7) 클러스터에서의 펩타이드 비율을 클러스터 내에 포함되는 펩타이드 비율의 총합으로 계산하는 단계; 및
    8) 한 단백질이 분포하는 아일랜드들 중 펩타이드가 가장 많이 동정된 아일랜드의 위치 및 펩타이드 비율로부터 각 아일랜드의 위치 및 펩타이드 비율에 대한 분산도를 계산하는 단계를 포함하는 단백질 수식화 분석 방법.
  8. 제 7항에 있어서,
    9) 아일랜드의 분포로부터 단백질 전체에 대한 수식화의 특성을 다른 시료들의 수식화 특성과 비교하는 단계를 추가적으로 포함하는 단백질 수식화 분석 방법.
  9. 제 7항에 있어서, 상기 단계 1)의 1차원 전기영동은 SDS-PAGE(sodium dodecyl sulphate-polyacrylamide gel electrophoresis)인 것을 특징으로 하는 방법.
  10. 제 7항에 있어서, 상기 단계 2)의 인터페이스는 RSC-232C, 패러럴 포트, 범 용 직렬 버스(Universal Serial Bus, USB), IEEE 1394, 블루투스(Bluetooth) 또는 이더넷(Ethernet)인 것을 특징으로 하는 방법.
  11. 제 7항에 있어서, 상기 단계 2)의 단백질 서열 데이터베이스는 IPI_Human 단백질 서열 데이터베이스, UniprotKB/Swissprot 데이터베이스 또는 NCBI_nr 데이터베이스 및/또는 이들의 역순서열 데이터베이스인 것을 특징으로 하는 방법.
  12. 제 11항에 있어서, 상기 데이터베이스의 서열정보는 FASTA 포맷인 것을 특징으로 하는 방법.
  13. 제 7항에 있어서, 상기 단계 2)의 단백질 동정은 SEQUEST® Mascot, Sonar, X!Tandem, Phenyx, PeptideProphet, ProteinProphet, DTASelect 및 OMSSA로 이루어진 군으로부터 선택되어지는 단백질 동정용 소프트웨어를 통해 수행되는 것을 특징으로 하는 방법.
  14. 제 7항에 있어서, 상기 단계 8)의 분산도는 하기 수학식 1로 표기되는 것을 특징으로 하는 단백질 수식화 분석 방법:
    <수학식 1>
    Figure 112007015640063-pat00004
    j: 동정한 단백질 중 j 번째 단백질;
    p , у p ):
    χ p : j번째 단백질의 각 아일랜드의 펩타이드 비율 중에 가장 큰 값을 가지는 아일랜드의 위치,
    у p : j번째 단백질의 각 아일랜드의 펩타이드 비율 중에 가장 큰 값을 가지는 아일랜드의 펩타이드 비율;  
    아일랜드의 위치: 0에서 1까지의 값으로 정규화(normalize)한 값;
    i , у i ):
    χ i : j번째 단백질의 i번째 아일랜드의 위치,
    у i : j번째 단백질의 i번째 아일랜드의 펩타이드 비율.
  15. 제 7항에 있어서, 하기 단계를 추가적으로 포함하는 것을 특징으로 하는 단백질 수식화 분석 방법:
    9) 각 단백질들의 아일랜드 분포와 해당 단백질에서 이미 알려진 단백질 수식화 정보를 비교하는 단계;
    10) 서로 다른 종 또는 서로 다른 시료에서 분산도를 적용하여 얻은 값에 따라 단백질의 분포 성향을 분석하는 단계; 및
    11) 단백질 상태 분포를 상응 분자량(Molecular Weight Correlation, MWcorr) 값으로 상기 분산도의 크기에 따라 배열하여 도식화함으로써 전체 단백질의 특성을 파악하여 서로 다른 종 또는 서로 다른 시료에서의 단백질 수식화 양상을 비교하고 특징짓는 단계.
  16. 제 15항에 있어서, 상기 단계 9)의 이미 알려진 단백질 수식화 정보는 단백질 서열 데이터베이스를 통해 제공되거나 단백질 수식화 예측 소프트웨어를 이용하여 분석된 결과인 것을 특징으로 하는 방법.
  17. 제 16항에 있어서, 상기 단백질 서열 데이터베이스는 Swiss-Prot 데이터베이스, NCBI nr 데이터베이스 또는 UniProt 데이터베이스인 것을 특징으로 하는 방법.
  18. 제 16항에 있어서, 상기 단백질 수식화 예측 소프트웨어는 SignalP 또는 GlycoSuite인 것을 특징으로 하는 방법.
  19. 제 15항에 있어서, 상기 단계 11)의 상응 분자량은 하기의 수학식 2로 표기되는 것을 특징으로 하는 단백질 수식화 분석 방법:
     < 수학식 2>
    Figure 112007015640063-pat00005
    MWcal: 단백질 분자량을 아미노산 서열에서 계산한 값;
    MWexp: 단백질 분자량을 1차원 젤의 위치에서 환산한 값.
KR1020070017837A 2007-02-22 2007-02-22 질량 스펙트럼 데이터 및 1차원 젤에서의 밴드 위치분석을 포함하는 단백질 수식화 분석 시스템 및 이를이용한 단백질 수식화 분석 방법 KR100805777B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020070017837A KR100805777B1 (ko) 2007-02-22 2007-02-22 질량 스펙트럼 데이터 및 1차원 젤에서의 밴드 위치분석을 포함하는 단백질 수식화 분석 시스템 및 이를이용한 단백질 수식화 분석 방법
PCT/KR2007/000946 WO2008102922A1 (en) 2007-02-22 2007-02-23 A system of analyzing protein modification with its band position of one-dimensional gel by the mass spectral data analysis and the method of analyzing protein modificatio using thereof
US12/282,440 US20090138206A1 (en) 2007-02-22 2007-02-23 System of analyzing protein modification with its band position of one-dimensional gel by the mass spectral data analysis and the method of analyzing protein modification using thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070017837A KR100805777B1 (ko) 2007-02-22 2007-02-22 질량 스펙트럼 데이터 및 1차원 젤에서의 밴드 위치분석을 포함하는 단백질 수식화 분석 시스템 및 이를이용한 단백질 수식화 분석 방법

Publications (1)

Publication Number Publication Date
KR100805777B1 true KR100805777B1 (ko) 2008-02-21

Family

ID=39382799

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070017837A KR100805777B1 (ko) 2007-02-22 2007-02-22 질량 스펙트럼 데이터 및 1차원 젤에서의 밴드 위치분석을 포함하는 단백질 수식화 분석 시스템 및 이를이용한 단백질 수식화 분석 방법

Country Status (3)

Country Link
US (1) US20090138206A1 (ko)
KR (1) KR100805777B1 (ko)
WO (1) WO2008102922A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101004959B1 (ko) 2008-04-23 2011-01-04 씨비에스바이오사이언스 주식회사 2 차원 sds-page 젤 이미지에 대한 정보를 관리하기 위한 시스템 및 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107966569A (zh) * 2017-12-27 2018-04-27 湖北普罗金科技有限公司 一种具有冷却通风功能的蛋白质鉴定工作台

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020102741A1 (en) 2000-11-30 2002-08-01 Awrey Donald E. Methods for systematic identification of protein - protein interactions
US20030059095A1 (en) 2000-09-01 2003-03-27 Anderson Norman G. Reference database
US7045296B2 (en) 2001-05-08 2006-05-16 Applera Corporation Process for analyzing protein samples

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69912444T3 (de) * 1998-08-25 2010-05-06 University Of Washington, Seattle Schnelle quantitative analyse von proteinen oder proteinfunktionen in komplexen gemischen
US6489121B1 (en) * 1999-04-06 2002-12-03 Micromass Limited Methods of identifying peptides and proteins by mass spectrometry
US20060078960A1 (en) * 2004-05-19 2006-04-13 Hunter Christie L Expression quantification using mass spectrometry
KR100665136B1 (ko) * 2004-12-06 2007-01-04 한국전자통신연구원 단백질 기능 예측 장치 및 단백질 기능 예측 방법
KR100531207B1 (ko) * 2005-06-04 2005-11-29 씨비에스소프트주식회사 단백질 동정시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030059095A1 (en) 2000-09-01 2003-03-27 Anderson Norman G. Reference database
US20020102741A1 (en) 2000-11-30 2002-08-01 Awrey Donald E. Methods for systematic identification of protein - protein interactions
US7045296B2 (en) 2001-05-08 2006-05-16 Applera Corporation Process for analyzing protein samples

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101004959B1 (ko) 2008-04-23 2011-01-04 씨비에스바이오사이언스 주식회사 2 차원 sds-page 젤 이미지에 대한 정보를 관리하기 위한 시스템 및 방법

Also Published As

Publication number Publication date
WO2008102922A1 (en) 2008-08-28
US20090138206A1 (en) 2009-05-28

Similar Documents

Publication Publication Date Title
Hochstrasser Proteome in perspective
Jungblut et al. Protein identification from 2‐DE gels by MALDI mass spectrometry
Colantonio et al. The clinical application of proteomics
Baggerman et al. Gel-based versus gel-free proteomics: a review
Lilley et al. All about DIGE: quantification technology for differential-display 2D-gel proteomics
JP4654230B2 (ja) マススペクトル測定方法
Malmström et al. Advances in proteomic workflows for systems biology
Rotilio et al. Proteomics: bases for protein complexity understanding
CN101611313A (zh) 质谱法生物标记测定
Falkner et al. Validated MALDI-TOF/TOF mass spectra for protein standards
De Palma et al. Extraction methods of red blood cell membrane proteins for Multidimensional Protein Identification Technology (MudPIT) analysis
Zhan et al. Revival of 2DE-LC/MS in proteomics and its potential for large-scale study of human proteoforms
Gulcicek et al. Proteomics and the analysis of proteomic data: an overview of current protein‐profiling technologies
JP2006510875A (ja) コンステレーションマッピングおよびそれらの使用
Hale et al. Application of proteomics for discovery of protein biomarkers
KR100805775B1 (ko) 변형된 폴리펩티드(Modifiedpolypeptide)의 서열 및 변형 정보를 분석하는방법
KR100805777B1 (ko) 질량 스펙트럼 데이터 및 1차원 젤에서의 밴드 위치분석을 포함하는 단백질 수식화 분석 시스템 및 이를이용한 단백질 수식화 분석 방법
WO2003014737A1 (en) Quantification of low molecular weight and low abundance proteins using high resolution two-dimensional electrophoresis and mass spectrometry
López Role of proteomics in taxonomy: the Mytilus complex as a model of study
Zheng et al. Proteomics in primary brain tumors
Vaezzadeh et al. Proteomics and opportunities for clinical translation in urological disease
EP1606757A1 (en) Method for comparing proteomes
Fridman et al. The probability distribution for a random match between an experimental-theoretical spectral pair in tandem mass spectrometry
Barnidge et al. Protein expression profiling of CLL B cells using replicate off-line strong cation exchange chromatography and LC–MS/MS
Van den Heuvel et al. Proteomics and neuromuscular diseases: theoretical concept and first results

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120214

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee