KR101427865B1 - Apparatus and method for idendificating protein modification - Google Patents

Apparatus and method for idendificating protein modification Download PDF

Info

Publication number
KR101427865B1
KR101427865B1 KR1020120110597A KR20120110597A KR101427865B1 KR 101427865 B1 KR101427865 B1 KR 101427865B1 KR 1020120110597 A KR1020120110597 A KR 1020120110597A KR 20120110597 A KR20120110597 A KR 20120110597A KR 101427865 B1 KR101427865 B1 KR 101427865B1
Authority
KR
South Korea
Prior art keywords
protein
mass
ion
deformation
protein modification
Prior art date
Application number
KR1020120110597A
Other languages
Korean (ko)
Other versions
KR20130063453A (en
Inventor
이관수
강지용
한영웅
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to US13/691,995 priority Critical patent/US20130144585A1/en
Publication of KR20130063453A publication Critical patent/KR20130063453A/en
Application granted granted Critical
Publication of KR101427865B1 publication Critical patent/KR101427865B1/en

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/04Libraries containing only organic compounds
    • C40B40/10Libraries containing peptides or polypeptides, or derivatives thereof
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/62Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating the ionisation of gases, e.g. aerosols; by investigating electric discharges, e.g. emission of cathode
    • G01N27/622Ion mobility spectrometry
    • G01N27/623Ion mobility spectrometry combined with mass spectrometry
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6848Methods of protein analysis involving mass spectrometry
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Immunology (AREA)
  • Biotechnology (AREA)
  • Biochemistry (AREA)
  • Organic Chemistry (AREA)
  • Medical Informatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Pathology (AREA)
  • Medicinal Chemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Urology & Nephrology (AREA)
  • Hematology (AREA)
  • General Chemical & Material Sciences (AREA)
  • Microbiology (AREA)
  • Cell Biology (AREA)
  • Food Science & Technology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Electrochemistry (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

단백질 변형을 탐색하는 단백질 변형 탐색 장치로서, 펩티드 기반 단백질 변형 서열을 가상 효소로 절단하여 가상 조각 이온들을 생성하고, 가상 조각 이온들의 질량 정보를 포함하는 조각 이온 질량 패턴을 생성하는 조각 이온 질량 패턴 생성부, 단백질 변형의 종류와 질량을 포함하는 단백질 변형 정보를 저장하는 단백질 변형 데이터베이스, 그리고 분석 대상 단백질에서 추출된 조각 이온들의 질량 변화를 기초로 질량 변화가 유사한 조각 이온들을 포함하는 복수의 군집을 추출하고, 복수의 군집을 조합하여 복수의 군집 조합을 생성하며, 상기 조각 이온 질량 패턴과 상기 단백질 변형 정보를 기초로 상기 복수의 군집 조합 중 적어도 하나의 군집 조합에 포함된 적어도 하나의 단백질 변형을 탐색하는 질량변화탐색부를 포함한다.A protein deformation seeking apparatus for exploring a protein deformation, comprising: a device for generating a fragment ion mass pattern, which generates a fragment ion mass pattern including a virtual-fragment ion cutting-out process, A protein modification database storing protein modification information including the type and mass of protein modification, and a plurality of clusters containing fragment ions having similar mass changes based on the mass change of the fragment ions extracted from the protein to be analyzed A plurality of clusters are combined to generate a plurality of cluster combinations, and based on the fragment ion mass pattern and the protein deformation information, at least one protein variant contained in at least one cluster combination among the plurality of cluster combinations is searched And a mass change detector for detecting a mass change.

Description

단백질 변형 탐색 장치 및 방법{APPARATUS AND METHOD FOR IDENDIFICATING PROTEIN MODIFICATION}[0001] APPARATUS AND METHOD FOR IDENDIFICATING PROTEIN MODIFICATION [0002]

본 발명은 단백질 변형 탐색 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for searching for a protein modification.

단백질 변형은 단백질이 유전자에서 시작하여 전사와 번역을 통하여 생성된 이후에 변화가 일어나는 것을 통칭하며, 대표적으로 인산화, 아세틸화, 유비퀴틴화 등이 있다. 단백질 변형은 세포 내 신호전달경로에서 중요한 역할을 수행하는 것으로 밝혀지고 있으며, 특히 펩티드 기반 단백질 변형은 세포 자살 등과 같은 질병 관련 신호전달경로에서 중요한 역할을 하는 것으로 밝혀지고 있다. Protein modification refers to a change in the protein after it has been generated from a gene, through transcription and translation, and is typically phosphorylated, acetylated, ubiquitinated, and the like. Protein modification has been shown to play an important role in intracellular signaling pathways, and peptide-based protein modifications have been shown to play an important role in disease-related signaling pathways such as apoptosis.

유비퀴틴, 유비퀴틴 유사 단백질 변형은 질병과 관련있는 세포 자살이나 신호 전달 메커니즘 등에 깊이 관련되어 있는 것으로 최근 밝혀지고 있기 때문에 이러한 펩티드 기반 단백질 변형은 바이오 마커의 가능성을 가지고 있다고 예측되고 있다. 단백질 변형을 측정하기 위해서는 질량 분석 데이터를 측정하여 분석하게 되는데, 대용량 질량 분석 정보를 종합적으로 분석하여 다양한 단백질 변형을 측정하는 기술의 필요성이 대두되고 있다. 단백질 변형을 종류의 제한이 없이 빠르고 효율적으로 탐색하기 위하여 다양한 시도가 있었으나, 펩티드 기반 단백질 변형의 복잡한 조각 이온 질량을 고려하여 더 나은 효율적인 무제한 단백질 변형 탐색 방법의 필요성이 제기되고 있는 상황이다. Ubiquitin and ubiquitin-like protein modifications have recently been shown to be deeply related to disease-related apoptosis and signal transduction mechanisms, and such peptide-based protein modifications are predicted to have the potential of biomarkers. In order to measure protein deformation, mass spectrometric data are measured and analyzed. There is a need for a technique for measuring various protein deformation by collectively analyzing mass spectrometry information. Although there have been various attempts to search for protein deformation quickly and efficiently without restriction, there is a need for a more efficient and unlimited protein deformation search method considering the complex fragment ion mass of peptide-based protein deformation.

질량 분석(Mass Spectrometry) 데이터로부터 단백질의 변형(Post-Translational Modification)을 탐색하는 기술은 단백질 변형의 중요성이 강조됨에 따라 계속 발전해오고 있다. 가장 먼저 개발된 기술은 제한적인 단백질 변형만을 고려하여 모든 가능한 이론적인 질량 변화를 계산하여 실측 질량값과 대조하는 단백질 변형 탐색 기법이다. 이러한 방법은 단백질 변형 탐색의 계산 복잡도를 낮출 수 있으나 당연하게도 다양한 단백질 변형을 모두 고려할 수 없으며, 이로 인하여 예측하지 못하였던 단백질 변형이 존재하는 경우, 단백질 변형 탐색뿐만 아니라 단백질 동정의 정확성마저 낮아질 위험성이 있다. Mass Spectrometry The technique of searching for the Post-Translational Modification from the data has been evolving as the importance of protein modification has been emphasized. The first developed technique is a protein deformation search method that compares all possible theoretical mass changes with only the limited protein deformation and compares them with the actual mass values. This method can lower the computational complexity of the protein modification search, but naturally it can not consider all of the various protein modifications, and if there is an unexpected protein modification, there is a risk that the protein identification search as well as the protein identification accuracy will be lowered have.

이러한 제한적인 단백질 변형 탐색 기법은 보통 단백질 서열 데이터베이스와 대조하여 단백질을 동정하는 데이터베이스 기반 프로그램들에서 주로 쓰이고 있다. MASCOT, SEQUEST, X!Tandem 등이 대표적인 단백질 변형 검색을 지원하는 데이터베이스 기반 단백질 동정 프로그램이다. This limited protein modification search technique is usually used in database-based programs that identify proteins in contrast to protein sequence databases. MASCOT, SEQUEST, and X! Tandem are database-based protein identification programs that support representative protein variant searches.

다른 방법으로는 de novo 단백질 서열 동정 기법을 활용한 단백질 변형 탐색 기법이 있다. 이 방법을 통하여 단백질 서열 데이터베이스 참조 없이 단백질 질량 분석 결과만 가지고 단백질의 서열을 유추하고 더불어 단백질의 변형까지 제한 없는 탐색을 시도할 수 있다. 그러나 이러한 기법은 계산 복잡도가 높고 단백질 서열 동정이 정확하게 이루어지지 않은 경우에 단백질 변형마저 정확하게 동정할 수 없는 단점이 있다.Another method is protein deformation detection using de novo protein sequence identification. Through this method, protein sequences can be deduced from the protein mass analysis results without reference to the protein sequence database, and the search for unlimited deformation of the protein can be attempted. However, this method has a disadvantage in that it can not accurately identify the protein deformation even when the computational complexity is high and the protein sequence is not correctly identified.

최신의 방법으로는 후보 단백질의 서열로부터 추론된 이론적인 단백질 조각 질량과 실측한 단백질 조각 질량을 비교하는 단백질 변형 탐색 기법이 있다. 이 방법은 무제한 단백질 변형 탐색을 지원할 수 있는 방식이다. P-mod는 조상 단백질 조각의 이온 질량을 이용하여 질량 변화량을 계산하고 이 질량과 일치하는 단백질 변형을 적절한 위치에 적용시키는 방식의 단백질 변형 탐색 알고리즘이다. 이렇게 단백질 변형의 위치를 탐색할 때 p-검정값을 이용하는 것이 P-mod의 가장 큰 특징이다. P-mod는 조상 단백질 조각의 이온 질량이 없으면 단백질 변형을 탐색할 수 없으며, 단백질 변형이 여러 개 존재하는 경우에 그 성능이 급격히 저하하는 단점이 있다. P-mod와 비슷하게, PTM-Explorer는 조상 단백질 조각의 이온 질량 정보를 가지고 이미 알려진 서열을 바탕으로 하여 단백질의 변형을 탐색한다. 이러한 방식은 단백질 변형의 질량의 범위가 제한적이다. The most recent method is a protein modification search technique which compares the theoretical protein fragment mass deduced from the sequence of the candidate protein to the measured protein fragment mass. This is a way to support unlimited protein strain search. P-mod is a protein deformation search algorithm that computes the mass change using an ion mass of an ancestor protein fragment and applies the protein deformation corresponding to the mass to an appropriate position. Thus, using the p-test value when searching for the location of protein deformation is the greatest feature of P-mod. P-mod can not detect protein deformation without ion mass of ancestral protein fragments, and its performance deteriorates rapidly when there are multiple protein degenerations. Similar to P-mod, PTM-Explorer searches for protein modifications based on known sequences with ion mass information of ancestral protein fragments. This approach limits the range of masses of protein modifications.

마지막으로, 펩티드 기반 단백질 변형에 특화된 단백질 변형 탐색 기법이 최근에 발표되고 있다. 유비퀴틴, 유비퀴틴-유사 단백질 등의 펩티드 기반 단백질 변형은 단백질 질량분석을 위하여 단백질을 조각낼 때에 함께 조각나면서 복잡한 조각 이온 질량 패턴을 나타내게 된다. 이러한 복잡한 조각 이온 질량 패턴은 단백질 변형 검색을 어렵게 만들어서 정확도가 떨어지게 하는 효과를 일으키게 된다. 또한 기존의 일반적인 단백질 변형 검색 알고리즘들은 이러한 조각 이온 질량 패턴을 고려하고 있지 않기 때문에, 펩티드 기반 단백질 변형을 잡아내는데 사용하는 단서가 훨씬 적게 된다. SUMmOn은 펩티드 기반 단백질 변형의 조각 이온 질량 패턴을 고려한 알고리즘이지만, 단독으로는 일반적인 단백질 변형을 함께 고려하지 못하는 단점이 있다. 또한 기존의 펩티드 기반 단백질 변형을 검색하는 알고리즘은 조상 이온 질량이 없이는 검색이 불가능하며, 100 달톤 단위 당 1개의 조각 이온 질량만을 우선적으로 고려하므로 정밀한 분석에 한계가 있다. Finally, a protein modification search technique specific to peptide-based protein modification has recently been published. Peptide-based protein modifications such as ubiquitin and ubiquitin-like proteins, when fragmented for protein mass analysis, are fragmented together to reveal complex fragment ion mass patterns. This complicated fragment ion mass pattern makes it difficult to detect protein deformation, resulting in the effect of reducing accuracy. Also, since conventional conventional protein modification search algorithms do not account for this fragment ion mass pattern, much less clues are used to capture peptide-based protein modifications. SUMmOn is an algorithm that takes into account the fragment ion mass pattern of peptide-based protein modification, but it has a disadvantage that it can not consider common protein modifications alone. Also, existing algorithms for searching for peptide-based protein modifications are not searchable without ancillary ion masses, and only one fragment ion mass per 100 daltons unit is considered preferentially, which limits precision analysis.

이와 같이, 기존의 단백질 변형 분석 알고리즘들은 각자 다양한 한계를 지니고 있으며, 대부분의 알고리즘들은 펩티드 기반 단백질 변형을 검색할 수 없다. 또한, 펩티드 기반 단백질 변형 검색에 특화된 알고리즘은 다른 단백질 변형을 동시에 고려할 수 없으며, 조상 이온 질량이 없는 질량 분석 데이터는 검색할 수 없는 등의 한계가 있다. As such, existing protein deformation analysis algorithms each have various limitations, and most algorithms can not detect peptide-based protein modifications. In addition, algorithms specialized in peptide-based protein modification search have limitations such that other protein modifications can not be considered at the same time, and mass spectrometric data without ancestral ion mass can not be retrieved.

본 발명이 해결하고자 하는 과제는 펩티드 기반 단백질 변형으로부터 생성되는 조각 이온 질량 패턴을 고려하여 질량 분석 데이터에 포함되는 단백질 변형의 종류에 제한 없이 펩티드 기반 단백질 변형을 탐색하는 장치와 방법을 제공하는 것이다.It is an object of the present invention to provide an apparatus and a method for searching for a peptide-based protein modification without limitation on the kind of protein modification included in the mass spectrometric data considering the fragment ion mass pattern generated from the peptide-based protein modification.

본 발명의 한 실시예에 따른 단백질 변형을 탐색하는 단백질 변형 탐색 장치로서, 펩티드 기반 단백질 변형 서열을 가상 효소로 절단하여 가상 조각 이온들을 생성하고, 가상 조각 이온들의 질량 정보를 포함하는 조각 이온 질량 패턴을 생성하는 조각 이온 질량 패턴 생성부, 단백질 변형의 종류와 질량을 포함하는 단백질 변형 정보를 저장하는 단백질 변형 데이터베이스, 그리고 분석 대상 단백질에서 추출된 조각 이온들의 질량 변화를 기초로 질량 변화가 유사한 조각 이온들을 포함하는 복수의 군집을 추출하고, 복수의 군집을 조합하여 복수의 군집 조합을 생성하며, 상기 조각 이온 질량 패턴과 상기 단백질 변형 정보를 기초로 상기 복수의 군집 조합 중 적어도 하나의 군집 조합에 포함된 적어도 하나의 단백질 변형을 탐색하는 질량변화탐색부를 포함한다.A protein modification search apparatus for searching for a protein modification according to an embodiment of the present invention includes a step of generating a virtual fragment ion by cutting a peptide-based protein modification sequence into a virtual enzyme and generating a fragment ion mass pattern , A protein deformation database storing protein deformation information including the type and mass of protein deformation, and a protein deformation database for storing mass deformation quantities based on the mass change of the mass fragments extracted from the protein to be analyzed A plurality of clusters are combined to generate a plurality of cluster combinations, and based on the fragment ion mass patterns and the protein deformation information, the plurality of clusters is included in at least one of the plurality of cluster combinations A mass change search unit for searching at least one protein modification .

상기 조각 이온 질량 패턴 생성부는 가상 효소로 상기 펩티드 기반 단백질 변형 서열을 절단하는 가상효소처리부, 상기 가상효소처리부에서 절단된 서열을 기초로 단백질 변형 서열에서 생성될 수 있는 가상 조각 이온들을 생성하는 가상 조각 이온 생성부, 그리고 가상 조각 이온들의 질량을 계산하여, 가상 조각 이온들의 질량 정보를 포함하는 조각 이온 질량 패턴을 생성하는 조각 이온 질량 계산부를 포함할 수 있다.The fragment ion mass pattern generator includes a virtual enzyme processing unit that cleaves the peptide-based protein modification sequence with a virtual enzyme, a virtual fragment processing unit that generates a virtual fragment ion that can be generated in the protein modification sequence based on the cleaved sequence in the virtual enzyme processing unit An ion generating unit, and a scavenging ion mass calculating unit for calculating a mass of the virtual scavenging ions to generate a scavenging ion mass pattern including mass information of the virtual scavenging ions.

상기 조각 이온 질량 패턴은 단백질 변형으로 측정되는 단백질 변형의 b 이온 질량들, 그리고 단백질 변형의 y 이온에 의하여 생성되는 질량 변화들을 포함할 수 있다.The fragment ion mass pattern may include bion masses of protein deformation as measured by protein deformation, and mass changes produced by the y ion of the protein deformation.

상기 질량변화탐색부는 화학적 단백질 변형 그리고 펩티드 기반 단백질 변형을 포함하는 단백질 변형을 탐색할 수 있다.The mass change detection unit can search for a protein modification including a chemical protein modification and a peptide-based protein modification.

본 발명의 다른 실시예에 따른 단백질 변형을 탐색하는 단백질 변형 탐색 장치로서, 분석 대상 단백질의 질량 분석 정보와 펩티드 서열 정보를 기초로 실측 조각 이온 질량과 이론 조각 이온 질량의 질량 변화를 계산하고, 질량 변화가 유사한 조각 이온들을 묶어 복수의 군집을 생성하는 질량 변화 군집 추출부, 복수의 군집을 조합하여 복수의 군집 조합을 생성하고, 각 군집 조합 내의 군집간 질량 변화 차이를 계산하는 질량 변화 군집 조합부, 그리고 단백질 변형 탐색 정보를 이용하여, 각 군집 간 질량 변화 차이에 해당하는 적어도 하나의 단백질 변형을 탐색하는 탐색부를 포함하고, 상기 단백질 변형 탐색 정보는 펩티드 기반 단백질 변형으로 생성된 가상 조각 이온들의 질량 정보를 포함하는 조각 이온 질량 패턴, 그리고 각종 단백질 변형의 종류와 질량을 포함하는 단백질 변형 정보를 포함한다.A protein deformation searching apparatus for searching for a protein deformation according to another embodiment of the present invention is characterized by calculating a mass change of an actual piece ion mass and a theoretical piece ion mass based on mass analysis information and peptide sequence information of a protein to be analyzed, A mass change cluster extracting unit for generating a plurality of clusters by binding fragment ions having similar changes, a mass change cluster combining unit for generating a plurality of cluster combinations by combining a plurality of clusters, and calculating a mass change difference between the clusters in each cluster combination And a search unit searching for at least one protein deformation corresponding to the difference in mass change between the respective clusters using the protein deformation search information, wherein the protein deformation search information includes a mass of the virtual fragment ions generated by the peptide- Information including fragment ion mass patterns, and types of various protein modifications And protein deformation information including mass.

상기 질량 변화 군집 추출부는 상기 질량 분석 정보를 기초로 실측된 상기 실측 조각 이온 질량을 계산하고, 상기 펩티드 서열 정보로부터 이론적으로 계산된 상기 이론 조각 이온 질량을 계산할 수 있다.The mass change cluster extracting unit may calculate the actually measured piece ion mass measured based on the mass analysis information, and calculate the theoretical piece ion mass theoretically calculated from the peptide sequence information.

상기 탐색부는 복수의 군집 조합 중에서, 상기 단백질 변형 탐색 정보와 유사한 군집 간 질량 변화 차이를 가지는 적어도 하나의 후보 군집 조합을 선정할 수 있다.The search unit may select at least one candidate community combination having a mass change difference between the populations similar to the protein modification search information among a plurality of community combinations.

상기 탐색부는 각 후보 군집 조합의 군집 간 질량 변화 차이를 기초로 각 후보 군집 조합의 단백질 변형 정보를 탐색할 수 있다.The search unit can search for the protein deformation information of each candidate community combination based on the difference in mass change between the populations of the respective candidate community combinations.

상기 단백질 변형 탐색 장치는 적어도 하나의 후보 군집 조합 중에서, 상기 분석 대상 단백질의 질량 분석 정보에 유사한 최종 군집 조합을 선정하고, 상기 최종 군집 조합에 해당하는 적어도 하나의 단백질 변형을 출력하는 출력부를 더 포함할 수 있다.The protein modification search apparatus may further include an output unit that selects a final combination of the clusters similar to the mass analysis information of the analysis target protein among the at least one candidate cluster combination and outputs at least one protein variation corresponding to the final combination of clusters can do.

본 발명의 또 다른 실시예에 따른 단백질 변형 탐색 장치가 단백질 변형을 탐색하는 방법으로서, 분석 대상 단백질의 질량 분석 정보와 펩티드 서열 정보를 기초로 분석 대상 단백질을 구성하는 조각 이온들의 질량 변화를 계산하는 단계, 일정 범위 이내에의 질량 변화를 보이는 조각 이온끼리 묶어서 복수의 군집을 추출하는 단계, 복수의 군집을 조합하여 복수의 군집 조합을 생성하는 단계, 그리고 단백질 변형 탐색 정보를 이용하여, 적어도 하나의 군집 조합에 포함된 적어도 하나의 단백질 변형을 탐색하는 단계를 포함하고, 상기 단백질 변형 탐색 정보는 펩티드 기반 단백질 변형으로 생성된 가상 조각 이온들의 질량 정보를 포함하는 조각 이온 질량 패턴, 그리고 각종 단백질 변형의 종류와 질량을 포함하는 단백질 변형 정보를 포함한다.A method for searching for a protein deformation according to another embodiment of the present invention is a method for searching for a protein deformation by calculating mass change of fragment ions constituting a protein to be analyzed based on mass analysis information and peptide sequence information of the protein to be analyzed Extracting a plurality of clusters by binding fragment ions showing a mass change within a predetermined range, generating a plurality of cluster combinations by combining a plurality of clusters, and using at least one cluster Searching for at least one protein modification included in the combination, wherein the protein modification search information includes a fragment ion mass pattern including mass information of the virtual fragment ions generated by the peptide-based protein modification, And protein deformation information including mass.

상기 적어도 하나의 단백질 변형을 탐색하는 단계는 화학적 단백질 변형 그리고 펩티드 기반 단백질 변형 중 적어도 하나의 단백질 변형을 탐색할 수 있다.The step of searching for said at least one protein modification may search for at least one protein modification of a chemical protein modification and a peptide-based protein modification.

상기 적어도 하나의 단백질 변형을 탐색하는 단계는 각 군집 조합 내의 군집간 질량 변화 차이를 계산하고, 상기 단백질 변형 탐색 정보를 기초로 각 군집 간 질량 변화 차이에 해당하는 적어도 하나의 단백질 변형을 탐색할 수 있다.The step of searching for the at least one protein modification may include calculating a difference in mass change between the clusters in each cluster combination and searching for at least one protein variance corresponding to the difference in mass change between the clusters based on the protein variance search information have.

본 발명의 또 다른 실시예에 따른 단백질 변형 탐색 장치가 단백질 변형을 탐색하는 방법으로서, 분석 대상 단백질의 질량 분석 정보와 펩티드 서열 정보를 기초로 실측 조각 이온 질량과 이론 조각 이온 질량의 질량 변화를 계산하는 단계, 질량 변화가 유사한 조각 이온들을 묶어 복수의 군집을 추출하고, 복수의 군집을 조합하여 복수의 군집 조합을 생성하는 단계, 각 군집 조합 내의 군집간 질량 변화 차이를 계산하는 단계, 그리고 단백질 변형 탐색 정보를 기초로 각 군집 간 질량 변화 차이에 해당하는 적어도 하나의 단백질 변형을 탐색하는 단계를 포함하고, 상기 단백질 변형 탐색 정보는 펩티드 기반 단백질 변형으로 생성된 가상 조각 이온들의 질량 정보를 포함하는 조각 이온 질량 패턴, 그리고 각종 단백질 변형의 종류와 질량을 포함하는 단백질 변형 정보를 포함할 수 있다.A method for searching for a protein deformation according to another embodiment of the present invention is a method for searching for a protein deformation by calculating mass change of an actual piece ion mass and a theoretical piece ion mass based on mass analysis information and peptide sequence information of a protein to be analyzed Extracting a plurality of clusters by binding fragment ions having similar mass changes, generating a plurality of cluster combinations by combining a plurality of clusters, calculating a difference in mass change between the clusters in each cluster combination, And searching for at least one protein deformation corresponding to a difference in mass change between the respective clusters based on the search information, wherein the protein deformation search information includes information on mass of the virtual fragment ions generated by the peptide- Ion mass patterns, and types and masses of various protein modifications. It can be modified to include the information.

상기 적어도 하나의 단백질 변형을 탐색하는 단계는 복수의 군집 조합 중에서, 상기 단백질 변형 탐색 정보와 유사한 군집 간 질량 변화 차이를 가지는 적어도 하나의 후보 군집 조합을 선정하는 단계, 각 후보 군집 조합의 군집 간 질량 변화 차이를 기초로 각 후보 군집 조합의 단백질 변형 정보를 탐색하는 단계, 그리고 적어도 하나의 후보 군집 조합 중에서, 상기 분석 대상 단백질의 질량 분석 정보에 유사한 최종 군집 조합을 선정하고, 상기 최종 군집 조합에 해당하는 적어도 하나의 단백질 변형을 출력하는 단계를 포함할 수 있다.Wherein the step of searching for the at least one protein deformation comprises selecting at least one candidate community combination having a mass change difference between clusters similar to the protein deformation search information among a plurality of cluster combinations, Searching for protein deformation information of each candidate community combination on the basis of the difference of the change, and selecting a final combination of the similarities to the mass analysis information of the protein to be analyzed among the at least one candidate community combination, And at least one protein variant that is at least < RTI ID = 0.0 >

본 발명의 실시예에 따르면 기존 단백질 변형 탐색 프로그램들이 제대로 고려하지 못하였던 펩티드 기반 단백질 변형의 조각 이온 질량 패턴을 고려하여 단백질 변형을 탐색하기 때문에 정확한 단백질 변형을 탐색할 수 있다. 본 발명의 실시예에 따르면 다양한 펩티드 기반 단백질 변형을 검색할 수 있다. 본 발명의 실시예에 따르면 인산화나 아세틸화와 같은 화학적 단백질 변형과 함께 유비퀴틴, 유비퀴틴-유사 단백질 등의 펩티드 기반 단백질 변형을 동시에 효율적으로 검색할 수 있다. 또한, 본 발명의 실시예에 따르면 분산 컴퓨팅 환경 하에서 대용량 질량 분석 데이터를 분석하여 특정 단백질 변형이 일어나는 단백질과 그 변형의 위치를 탐색할 수 있다.According to the embodiment of the present invention, accurate protein modification can be searched because the protein modification is searched considering the fragment ion mass pattern of the peptide-based protein modification that the conventional protein modification search programs have not properly considered. According to embodiments of the present invention, various peptide-based protein modifications can be detected. According to the embodiment of the present invention, it is possible to efficiently detect peptide-based protein modification such as ubiquitin and ubiquitin-like protein simultaneously with chemical protein modification such as phosphorylation or acetylation. Also, according to the embodiment of the present invention, mass spectrometry data can be analyzed under a distributed computing environment to search for a protein in which a specific protein deformation occurs and a location of the deformation.

도 1은 본 발명의 한 실시예에 따른 단백질 변형 탐색 장치의 블록도이다.
도 2는 본 발명의 한 실시예에 따른 조각이온 질량 패턴 생성부의 블록도이다.
도 3과 도 4는 본 발명의 한 실시예에 따른 질량 변화를 설명하는 도면이다.
도 5는 본 발명의 한 실시예에 따른 질량변화탐색부의 블록도이다.
도 6은 본 발명의 한 실시예에 따른 단백질 변형 탐색 방법의 흐름도이다.
도 7은 본 발명의 한 실시예에 따른 조각 이온 질량 패턴 생성 방법의 흐름도이다.
도 8은 본 발명의 한 실시예에 따른 질량 변화 군집 조합 방법의 흐름도이다.
도 9는 본 발명의 한 실시예에 따른 질량 변화 군집을 도식화하여 설명하는 도면이다.
도 10은 본 발명의 한 실시예에 따른 질량 변화 군집 조합을 도식화하여 설명하는 도면이다.
도 11은 본 발명의 한 실시예에 따른 단백질 탐색 방법의 흐름도이다.
1 is a block diagram of a protein modification search apparatus according to an embodiment of the present invention.
2 is a block diagram of a fragment ion mass pattern generator according to an embodiment of the present invention.
FIGS. 3 and 4 are views for explaining a mass change according to an embodiment of the present invention.
5 is a block diagram of a mass change detector according to an embodiment of the present invention.
6 is a flowchart of a method of searching for a protein modification according to an embodiment of the present invention.
7 is a flowchart of a method for generating a fragment ion mass pattern according to an embodiment of the present invention.
FIG. 8 is a flowchart of a mass-change cluster combining method according to an embodiment of the present invention.
9 is a diagram illustrating a mass change cluster according to an embodiment of the present invention.
FIG. 10 is a diagram illustrating a mass change cluster combination according to an embodiment of the present invention.
11 is a flowchart of a protein search method according to an embodiment of the present invention.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily carry out the present invention. The present invention may, however, be embodied in many different forms and should not be construed as limited to the embodiments set forth herein. In order to clearly illustrate the present invention, parts not related to the description are omitted, and similar parts are denoted by like reference characters throughout the specification.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.Throughout the specification, when an element is referred to as "comprising ", it means that it can include other elements as well, without excluding other elements unless specifically stated otherwise.

이제 도면을 참고하여 본 발명의 실시예에 따른 단백질 변형 탐색 장치 및 방법에 대해 설명한다.Now, an apparatus and method for searching for a protein modification according to an embodiment of the present invention will be described with reference to the drawings.

도 1은 본 발명의 한 실시예에 따른 단백질 변형 탐색 장치의 블록도이다.1 is a block diagram of a protein modification search apparatus according to an embodiment of the present invention.

도 1을 참고하면, 단백질 변형 탐색 장치(100)는 분석 대상 단백질의 질량 분석 정보와 펩티드 서열 정보를 기초로 단백질 변형 종류를 식별(identification of post-translational modification, PTM)한다. 이를 위해, 단백질 변형 탐색 장치(100)는 단백질 변형 서열 데이터베이스(200), 단백질 변형 데이터베이스(300), 조각이온 질량 패턴 생성부(400), 그리고 단백질변형탐색부(500)를 포함한다. 단백질 변형 탐색 장치(100)는 분산컴퓨팅 기반으로 동작할 수 있다.Referring to FIG. 1, the protein deformation search apparatus 100 identifies a type of protein deformation (PTM) based on mass analysis information and peptide sequence information of a protein to be analyzed. To this end, the protein modification search apparatus 100 includes a protein modification sequence database 200, a protein modification database 300, a fragment ion mass pattern generation unit 400, and a protein modification search unit 500. The protein deformation search apparatus 100 can operate on a distributed computing basis.

단백질 변형 서열 데이터베이스(200)는 펩티드 기반 단백질 변형을 포함하는 각종 단백질 변형들의 서열을 저장한다.Protein variant sequence database 200 stores sequences of various protein variants, including peptide-based protein variants.

단백질 변형 데이터베이스(300)는 각종 단백질 변형 정보를 저장한다. 예를 들면, 단백질 변형 정보는 단백질 변형의 이름, 단백질 변형의 종류, 단백질 변형이 존재 가능한 아미노산 종류, 단백질 변형의 질량을 포함한다.The protein modification database 300 stores various protein modification information. For example, protein modification information includes the name of the protein modification, the type of protein modification, the type of amino acid that the protein modification is capable of, and the mass of the protein modification.

조각이온 질량 패턴 생성부(400)는 단백질 변형 서열 데이터베이스(200)에 저장된 펩티드 기반 단백질 변형 서열을 가상 효소로 절단하여 조각 이온(fragment ion)(앞으로 "가상 조각 이온"이라고 한다)을 생성한다. 조각이온 질량 패턴 생성부(400)는 가상 조각 이온들의 질량을 기초로 조각 이온 질량 패턴을 생성한다. 조각 이온 질량 패턴은 단백질변형탐색부(500)로 제공되어, 펩티드 기반 단백질 변형을 탐색하는데 중요한 단서가 된다.The fragment ion mass pattern generator 400 generates a fragment ion (hereinafter referred to as a "virtual fragment ion") by cutting the peptide-based protein modification sequence stored in the protein modification sequence database 200 into a virtual enzyme. The fragment ion mass pattern generator 400 generates a fragment ion mass pattern based on the mass of the virtual fragment ions. The fragment ion mass pattern is provided to the protein deformation search unit 500, which is an important clue to search for peptide-based protein modifications.

단백질변형탐색부(500)는 분석 대상 단백질의 질량 분석 정보와 펩티드 서열 정보를 입력받는다. 단백질변형탐색부(500)는 질량 분석 정보를 기초로 실측된 실측 조각 이온 질량을 계산하고, 펩티드 서열 정보로부터 이론적으로 계산된 이론 조각 이온 질량을 계산한다. 단백질변형탐색부(500)는 실측 조각 이온 질량과 이론 조각 이온 질량의 차이를 기초로 질량 변화 군집(mass shift class)을 추출한다. 실측 조각 이온 질량과 이론 조각 이온 질량의 차이가 질량 변화(mass shift)이다.The protein modification search unit 500 receives mass analysis information and peptide sequence information of a protein to be analyzed. The protein deformation search unit 500 calculates the actually measured actual fragment ion mass based on the mass analysis information, and calculates the theoretically calculated theoretical fragment ion mass from the peptide sequence information. The protein deformation search unit 500 extracts a mass shift class based on the difference between the actual piece ion mass and the theoretical piece ion mass. The difference between the actual fragment ion mass and the theoretical fragment ion mass is the mass shift.

단백질변형탐색부(500)는 질량 변화 군집을 조합하여 질량 변화 군집 조합(mass shift class set)을 생성한다. 하나의 질량 분석 정보에 단백질 변형이 없을 수도 있고, 한 개의 단백질 변형만 존재할 수도 있으나, 두 개 이상의 단백질 변형이 동시에 존재하는 경우도 있을 수 있다. 또한 펩티드 기반 단백질 변형은 수많은 단백질 변형이 존재하는 것과 유사한 형태로 복잡한 조각 이온 질량 패턴을 생성한다. 따라서, 단백질변형탐색부(500)는 다양한 단백질 변형을 동시에 고려하기 위하여 질량 변화 군집을 임의로 조합하여 다양한 질량 변화 군집을 포함하는 질량 변화 군집 조합을 생성한다. The protein deformation search unit 500 combines the mass change clusters to generate a mass shift class set. One mass-spectrometric information may be free of protein deformation, or there may be only one protein deformation, but there may be more than one protein deformation at the same time. Peptide-based protein modification also produces complex fragment ion mass patterns in a similar fashion to the presence of numerous protein modifications. Therefore, the protein deformation search unit 500 generates a mass change cluster combination including various mass change clusters by arbitrarily combining mass change clusters in order to simultaneously consider various protein modifications.

단백질변형탐색부(500)는 단백질 변형 탐색 정보를 기초로 질량 변화 군집 조합 내의 질량 변화에 해당하는 적어도 하나의 단백질 변형을 탐색한다. 단백질 변형 탐색 정보는 조각 이온 질량 패턴과 단백질 변형 데이터베이스(300)의 각종 단백질 변형 정보를 포함한다.The protein deformation search unit 500 searches for at least one protein deformation corresponding to the mass change in the mass change community combination based on the protein deformation search information. The protein deformation search information includes the fragment ion mass pattern and various protein deformation information of the protein deformation database 300.

단백질 변형 데이터베이스(300)는 펩티드 기반 단백질 변형의 전체 질량만 기록되어 있다. 따라서, 단백질변형탐색부(500)는 단백질 변형 데이터베이스(300)를 통해 단순한 화학적 구조를 지닌 인산화나 아세틸화와 같은 화학적 단백질 변형을 탐색할 수 있다. 그러나, 단백질변형탐색부(500)는 단백질 변형 데이터베이스(300)만으로는 펩티드 기반 단백질 변형이 조각 이온으로 쪼개져서 생성한 다양한 질량 변화 군집을 파악할 수 없다. 따라서, 단백질변형탐색부(500)는 유비퀴틴, 유비퀴틴-유사 단백질 등의 펩티드 기반 단백질 변형을 탐색하기 위한 정보인 조각 이온 질량 패턴과 단백질 변형 데이터베이스(300)를 이용하여 화학적 단백질 변형과 펩티드 기반 단백질 변형을 탐색할 수 있다.The protein modification database 300 only records the total mass of the peptide-based protein modification. Accordingly, the protein modification search unit 500 can search for a chemical protein modification such as phosphorylation or acetylation having a simple chemical structure through the protein modification database 300. However, the protein modification search unit 500 can not grasp the various mass change clusters generated by fragmentation of the peptide-based protein modification into fragment ions by the protein modification database 300 alone. Therefore, the protein modification search unit 500 can use the fragment ion mass pattern and the protein modification database 300, which are information for searching for peptide-based protein modifications such as ubiquitin and ubiquitin-like proteins, to perform chemical protein modification and peptide- . ≪ / RTI >

도 2는 본 발명의 한 실시예에 따른 조각이온 질량 패턴 생성부의 블록도이고, 도 3과 도 4는 본 발명의 한 실시예에 따른 질량 변화를 설명하는 도면이다.FIG. 2 is a block diagram of a fragment ion mass pattern generator according to an embodiment of the present invention, and FIGS. 3 and 4 are diagrams for explaining a mass change according to an embodiment of the present invention.

도 2를 참고하면, 조각이온 질량 패턴 생성부(400)는 가상효소처리부(410), 가상 조각 이온 생성부(430), 그리고 조각 이온 질량 계산부(450)를 포함한다.2, the fragment ion mass pattern generator 400 includes a virtual enzyme processor 410, a virtual fragment ion generator 430, and a fragment ion mass calculator 450.

가상효소처리부(410)는 가상 효소로 단백질 변형 서열 데이터베이스(200)에 저장된 펩티드 기반 단백질 변형 서열을 절단한다. 가상효소처리부(410)는 짧은 서열을 생성한다. 예를 들어, 가상효소처리부(410)는 트립신과 같은 대표적인 단백질 분해 효소들의 단백질 분해 법칙들을 이용하여 펩티드 기반 단백질 변형 서열을 절단한다. 트립신은 아미노산 중에 아르기닌과 라이신을 인지하여 분해하므로, 단백질 서열에서 아르기닌과 라이신 위치를 자른다. 이때, 아르기닌이나 라이신이 있다 해도 항상 그 위치가 분해가 되는 것은 아니므로, 가상효소처리부(410)는 분해되지 않는 경우까지 고려하여 처리할 수 있다.The virtual enzyme processing unit 410 cuts the peptide-based protein strain sequence stored in the protein modification sequence database 200 as a virtual enzyme. The virtual enzyme processing unit 410 generates a short sequence. For example, the virtual enzyme processing unit 410 cuts the peptide-based protein deformation sequence using proteolytic laws of representative proteases such as trypsin. Because trypsin recognizes arginine and lysine in amino acids and breaks it, it cuts the arginine and lysine positions in the protein sequence. At this time, even if arginine or lysine is present, the position is not always decomposed, so that the virtual enzyme processing unit 410 can be processed considering the case where the enzyme is not decomposed.

가상 조각 이온 생성부(430)는 절단된 서열을 기초로 가상 조각 이온들을 생성한다. 조각 이온을 생성할 때에는 특정 아미노산과 상관없이 각 아미노산 위치마다 모두 조각날 수 있으므로, 가상 조각 이온 생성부(430)는 이를 고려하여 처리한다.The virtual fragment ion generating unit 430 generates virtual fragment ions based on the cleaved sequence. When generating fragment ions, the fragment ions may be fragmented at each amino acid position irrespective of a specific amino acid. Therefore, the imaginary fragment ion generator 430 treats the fragment ions considering this.

조각 이온 질량 계산부(450)는 가상 조각 이온의 질량을 계산한다. 즉, 조각 이온 질량 계산부(450)는 조각 이온의 종류와 조각 이온을 구성하고 있는 아미노산 서열에 따라 질량을 계산한다. 조각 이온 질량 계산부(450)는 각 가상 조각 이온의 질량 정보를 포함하는 조각 이온 질량 패턴을 생성한다.The fragment ion mass calculation unit 450 calculates the mass of the virtual fragment ion. That is, the fragment ion mass calculation unit 450 calculates the mass according to the type of fragment ion and the amino acid sequence constituting the fragment ion. The fragment ion mass calculation section 450 generates a fragment ion mass pattern including the mass information of each imaginary fragment ion.

도 3을 참고하면, 서열이 MSKVSFK… 인 단백질의 첫번째 K 위치에, …PRDRVG 서열의 펩티드 기반 단백질 변형 중 하나인 유비퀴틴-유사 단백질(ubiquitin-like proteins, Ubl)이 붙어있는 경우를 예로 들어 설명한다. Referring to FIG. 3, the sequence < RTI ID = 0.0 > MSKVSFK & At the first K position of phosphorus protein, ... (Ubiquitin-like proteins, Ubl), which is one of the peptide-based protein modifications of the PRDRVG sequence.

유비퀴틴-유사 단백질 b 이온은 질량분석기에 의하여 질량이 측정될 때 독립적으로 각 이온들의 질량이 측정된다. 예를 들어, …P 까지의 이온 질량, …PR 까지의 이온 질량, … PRD까지의 이온 질량… 등이 측정된다. 여기서, b 이온은 단백질 서열의 N 말단(N-terminal)에서부터 시작되는 이온이다.The ubiquitin-like protein b ions are measured independently of each other when their mass is measured by a mass spectrometer. E.g, … Ion mass up to P, ... Ion mass up to PR, ... Ion mass up to PRD ... . Here, the b ion is an ion starting from the N-terminal of the protein sequence.

유비퀴틴-유사 단백질 y 이온은 질량분석기에 의하여 질량이 측정될 때 기존단백질의 이온 질량을 다양하게 변화(mass shift)시킨다. 여기서, y 이온은 단백질 서열의 C 말단(C-terminal)에서부터 시작되는 이온이다. The ubiquitin-like protein y ion mass-shifts the ion mass of an existing protein when the mass is measured by a mass spectrometer. Here, the y ion is an ion starting from the C-terminal of the protein sequence.

도 4를 참고하면, M, MS까지의 이온 질량은 질량변화가 일어나지 않으나 MSK부터는 K에 각각 G, VG, RVG… 등의 다양한 유비퀴틴-유사 단백질 y 이온이 모두 붙을 수 있다. 이러한 다양한 질량 변화는 MSK뿐만 아니라 MSKV, MSKVS 등에서도 모두 발생한다. Referring to FIG. 4, the ion mass up to M and MS does not change in mass, but from MSK, G, VG, RVG, Can be attached to various ubiquitin-like proteins. These various mass changes occur not only in MSK but also in MSKV and MSKVS.

이와 같이, 조각 이온 질량 계산부(450)는 단백질 변형 서열에서 생성될 수 있는 가상 조각 이온들의 질량을 종합하여 조각 이온 질량 패턴을 생성한다. 즉, 조각 이온 질량 계산부(450)는 단백질 변형에 의하여 추가로 측정되는 단백질 변형의 b 이온의 이온 질량들, 그리고 단백질 변형의 y 이온에 의하여 생성되는 다양한 질량 변화들을 포함하는 조각 이온 질량 패턴을 생성한다. 따라서, 단백질변형탐색부(500)는 조각 이온 질량 패턴을 통해 유비퀴틴, 유비퀴틴-유사 단백질 등의 펩티드 기반 단백질 변형을 탐색할 수 있다.As described above, the fragment ion mass calculation unit 450 synthesizes the masses of the virtual fragment ions that can be generated in the protein deformation sequence to generate the fragment ion mass pattern. That is, the fragment ion mass calculator 450 calculates the fragment ion mass pattern including the ion masses of the b ion of the protein deformation, which are further measured by protein deformation, and various mass changes produced by the y ion of the protein deformation . Thus, the protein modification search unit 500 can search for peptide-based protein modifications such as ubiquitin, ubiquitin-like protein, and the like through a fragment ion mass pattern.

도 5는 본 발명의 한 실시예에 따른 질량변화탐색부의 블록도이다.5 is a block diagram of a mass change detector according to an embodiment of the present invention.

도 5를 참고하면, 단백질변형탐색부(500)는 질량 변화 군집 추출부(510), 질량 변화 군집 조합부(530), 탐색부(550), 그리고 출력부(570)를 포함한다.5, the protein modification search unit 500 includes a mass change cluster extractor 510, a mass change cluster combination unit 530, a search unit 550, and an output unit 570.

질량 변화 군집 추출부(510)는 분석 대상 단백질의 질량 분석 정보와 펩티드 서열 정보를 입력받는다. 질량 변화 군집 추출부(510)는 질량 분석 정보를 기초로 실측된 실측 조각 이온 질량을 계산하고, 펩티드 서열 정보로부터 이론적으로 계산된 이론 조각 이온 질량을 계산한다. 질량 변화 군집 추출부(510)는 단백질 질량 분석 정보의 형태에 따라 평균 아미노산 질량이나 단일종 동위원소 아미노산 질량을 이용하여 계산한다. 또한, 단백질 질량 분석 정보를 생성할 때에 조각 이온을 생성한 기계의 특성에 따라서 각기 다른 종류의 조각 이온이 생성되기 때문에, 질량 변화 군집 추출부(510)는 이를 고려하여 이론 조각 이온 질량을 계산한다. The mass change cluster extracting unit 510 receives mass analysis information and peptide sequence information of a protein to be analyzed. The mass change cluster extracting unit 510 calculates the measured actual piece ion mass based on the mass analysis information and calculates the theoretical piece ion mass that is theoretically calculated from the peptide sequence information. The mass change cluster extracting unit 510 calculates an average amino acid mass or a single species isotope amino acid mass according to the type of protein mass analysis information. In addition, when generating the protein mass analysis information, different kinds of fragment ions are generated depending on the characteristics of the machine that generated the fragment ions, and therefore, the mass change cluster extracting unit 510 calculates the theoretical fragment ion mass .

질량 변화 군집 추출부(510)는 실측 조각 이온 질량과 이론 조각 이온 질량의 질량 차이, 즉 질량 변화를 계산한다. 이때, 질량 변화 군집 추출부(510)는 모든 실측 조각 이온 질량과 모든 이론 조각 이온 질량의 모든 질량 차이를 계산할 수 있다. 실측 조각 이온 질량과 이론 조각 이온 질량의 질량 차이는 단백질 변형으로 인한 질량 변화의 후보가 될 수 있다. The mass change cluster extractor 510 calculates the mass difference between the actual piece ion mass and the theoretical piece ion mass, that is, the mass change. At this time, the mass change cluster extracting unit 510 can calculate all the mass differences of all actual piece ion masses and all the theoretical piece ion masses. The difference between the actual fragment ion mass and the theoretical fragment ion mass can be a candidate for mass change due to protein deformation.

질량 변화 군집 추출부(510)는 질량 차이가 유사한 조각 이온들을 묶어 질량 변화 군집을 추출한다. 질량 변화 군집으로 묶는 기준은 질량 분석기의 해상도에 따라 결정된다. 질량 변화 군집을 생성함으로 인하여 각각의 질량 변화만으로는 측정하기 어려웠던 단백질 변형으로 인한 질량 변화 후보들을 파악할 수 있게 된다.The mass change cluster extractor 510 extracts mass change clusters by binding fragment ions having similar mass differences. The criterion for binding mass change clusters is determined by the resolution of the mass spectrometer. Mass change clusters can be used to identify mass change candidates due to protein deformation, which were difficult to measure with only mass changes.

질량 변화 군집 조합부(530)는 복수의 질량 변화 군집을 임의로 조합하여 질량 변화 군집 조합을 생성한다. 질량 변화 군집 조합부(530)는 각 질량 변화 군집 조합 내의 질량 변화 군집간의 질량 변화 차이(앞으로 "군집 간 질량 변화 차이"라고 한다)를 계산한다. 질량 변화 군집 조합부(530)는 하나의 질량 변화 군집 조합 내에 포함되어 있는 질량 변화 군집들을 펩티드 서열 순서대로 따라가면서 각각의 질량 차이를 계산한다. 즉, 질량 변화 군집 조합부(530)는 단백질 변형으로 인해 생긴 질량 변화량인지를 파악하기 위해 군집 간 질량 변화 차이를 계산한다. The mass change cluster combination unit 530 generates a mass change cluster combination by arbitrarily combining a plurality of mass change clusters. The mass change cluster combination unit 530 calculates a mass change difference (hereinafter referred to as "inter-cluster mass change difference") between the mass change clusters in each mass change cluster combination. The mass-change-cluster combination unit 530 calculates the mass-difference clusters of the mass-change clusters included in one mass-change cluster combination while following the sequence of the peptide sequences. That is, the mass change cluster combination unit 530 calculates a mass change difference between the clusters in order to determine whether the mass change is caused by the protein deformation.

탐색부(550)는 질량 변화 군집 조합별 군집 간 질량 변화 차이를 기초로 적어도 하나의 단백질 변형을 탐색한다. 이때, 탐색부(550)는 순위가 높은 질량 변화 군집 조합을 우선적으로 이용하여 단백질 변형을 탐색할 수 있다. 왜냐하면, 질량 변화 군집 조합 중에는 실존하지 않을 확률이 높은 질량 변화량이 우연히 포함되는 경우가 있기 때문이다.The search unit 550 searches for at least one protein modification based on the difference in mass change between masses per mass change cluster combination. At this time, the search unit 550 can search for the protein strain by preferentially using the high-ranking mass change cluster combination. This is because, in the combination of mass change clusters, a mass change amount having a high probability of not being present may be included by chance.

탐색부(550)는 단백질 변형 데이터베이스(300)의 단백질 변형 정보 그리고 펩티드 기반 단백질 변형의 조각 이온 질량 패턴을 이용하여 질량 변화 군집 조합의 순위를 계산한다. 탐색부(550)는 질량 변화 군집 조합별 군집 간 질량 변화 차이와 단백질 변형 데이터베이스(300)의 단백질 변형 정보를 비교하고, 질량 변화 군집 조합별 군집 간 질량 변화 차이와 펩티드 기반 단백질 변형의 조각 이온 질량 패턴을 비교한다. 탐색부(550)는 단백질 변형 데이터베이스(300)의 단백질 변형 정보 그리고 펩티드 기반 단백질 변형의 조각 이온 질량 패턴과 유사한 군집 간 질량 변화 차이를 찾는다. 그리고, 탐색부(550)는 유사한 군집 간 질량 변화 차이를 보이는 질량 변화 군집 조합을 찾고, 이 질량 변화 군집 조합에 높은 순위를 부여할 수 있다. 탐색부(550)는 질량 변화량의 분산값과 군집 내에서 일치하는 조각 이온의 개수를 기초로 질량 변화 군집 조합의 순위를 계산할 수 있다.The search unit 550 calculates the rank of the mass change cluster combination using the protein deformation information of the protein deformation database 300 and the fragment ion mass pattern of the peptide-based protein deformation. The search unit 550 compares the mass change in mass between the clusters with the mass change cluster combination and the protein deformation information in the protein deformation database 300, Compare the patterns. The search unit 550 finds the difference in mass change between the clusters similar to the fragment ion mass pattern of the protein deformation information of the protein deformation database 300 and the peptide-based protein deformation. Then, the search unit 550 finds a mass change cluster combination having a similar mass change difference between the clusters, and assigns a high ranking to the mass change cluster combination. The search unit 550 may calculate the rank of the mass change cluster combination based on the dispersion value of the mass change amount and the number of the fragment ions matching in the cluster.

탐색부(550)는 단백질 변형 데이터베이스(300)에 저장된 단백질 변형 정보를 기초로 질량 변화 군집 조합에 포함된 단백질 변형을 검색한다. 이때, 탐색부(550)는 일정 순위 이상의 상위 질량 변화 군집 조합을 대상으로 하여 단백질 변형을 검색한다. 탐색부(550)는 질량 변화 군집 조합의 군집 간 질량 변화 차이와 단백질 변형 데이터베이스(300)에 저장된 단백질 변형의 질량을 비교한다. 탐색부(550)는 군집 간 질량 변화 차이가 단백질 변형의 질량과 일정 범위 이내의 차이를 보이는 경우, 비교에 사용된 단백질 변형과 질량 변화 군집 조합을 매핑하여 저장한다.The search unit 550 searches for protein variance included in the mass change cluster combination based on the protein deformation information stored in the protein deformation database 300. At this time, the search unit 550 searches for an upper mass change cluster combination having a certain rank or more to search for protein strain. The search unit 550 compares the inter-cluster mass change difference of the mass change cluster combination with the mass of the protein deformation stored in the protein deformation database 300. The search unit 550 maps and stores combinations of protein deformation and mass change clusters used in the comparison when the difference in mass change between the clusters shows a difference within a certain range from the mass of the protein deformation.

탐색부(550)는 각 질량 변화 군집 조합과 매핑된 단백질 변형 정보를 수집한다. 단백질 변형 정보는 단백질 변형의 이름, 단백질 변형의 종류, 단백질 변형이 존재 가능한 아미노산 종류, 단백질 변형의 질량 등이 있다.The search unit 550 collects the mapped protein deformation information with each mass change cluster combination. Protein modification information includes the name of the protein modification, the type of protein modification, the type of amino acid the protein modification is capable of, and the mass of the protein modification.

이와 같이, 탐색부(550)는 군집 간 질량 변화 차이를 바탕으로 단백질 변형을 동정(identification)한다.Thus, the search unit 550 identifies protein deformation based on the difference in mass change between the clusters.

출력부(570)는 분석 대상 단백질의 질량 분석 정보에 유사한 최종 질량 변화 군집 조합을 선정한다. 즉, 출력부(570)는 질량 변화 군집 조합으로부터 동정된 단백질 변형을 분석 대상 단백질 서열에 적용하여 이론적인 질량과 실측된 질량 분석 정보를 비교한다. 그리고, 출력부(570)는 질량 비교 결과를 기초로 분석 대상 단백질에 가장 유사한 질량 변화 군집 조합을 선정한다. The output unit 570 selects a final mass change cluster combination similar to the mass analysis information of the analysis target protein. That is, the output unit 570 applies the identified protein strain from the mass-change cluster combination to the protein sequence to be analyzed, and compares the theoretical mass with the measured mass-analysis information. Then, the output unit 570 selects a mass change cluster combination most similar to the analysis target protein based on the mass comparison result.

하나의 질량 변화 군집 조합은 하나의 질량 분석 정보를 완벽히 설명할 수 있어야 한다. 따라서, 이론적으로 계산된 질량 변화 군집 조합의 조각 이온 질량과, 실측된 조각 이온 질량이 얼마나 정확하게 일치하느냐에 따라서 질량 변화 군집 조합의 정확성이 최종적으로 점검될 수 있다.One mass change cluster combination should be able to fully describe one mass spectrometry information. Thus, the accuracy of the mass-change cluster combination can be finally checked, depending on how exactly the theoretically calculated mass of the mass change cluster combination meets the actual mass of the piece ion.

출력부(570)는 최종 질량 변화 군집 조합에 매핑된 단백질 변형 종류와 위치 정보를 출력한다. The output unit 570 outputs the kind of protein strain and position information mapped to the final mass change cluster combination.

이와 같이, 단백질 변형 탐색 장치(100)는 복수의 질량 변화 군집 조합을 생성하고, 분석 대상 단백질의 실측 질량과 유사한 질량 변화 군집 조합을 선정한 후, 유사한 질량 변화 군집 조합으로부터 동정된 단백질 변형을 출력할 수 있다. As described above, the protein deformation search apparatus 100 generates a plurality of mass change cluster combinations, selects a mass change cluster combination similar to the actual mass of the protein to be analyzed, and outputs the identified protein deformation from the similar mass change cluster combination .

도 6은 본 발명의 한 실시예에 따른 단백질 변형 탐색 방법의 흐름도이다.6 is a flowchart of a method of searching for a protein modification according to an embodiment of the present invention.

도 6을 참고하면, 단백질 변형 탐색 장치(100)는 분석 대상 단백질의 질량 분석 정보와 펩티드 서열 정보를 입력받는다(S110).Referring to FIG. 6, the protein modification search apparatus 100 receives mass spectrometry information and peptide sequence information of a protein to be analyzed (S110).

단백질 변형 탐색 장치(100)는 분석 대상 단백질을 구성하는 조각 이온들의 질량 변화를 계산한다(S120). 즉, 단백질 변형 탐색 장치(100)는 질량 분석 정보를 기초로 실측된 실측 조각 이온 질량과 펩티드 서열 정보로부터 이론적으로 계산된 이론 조각 이온 질량의 질량 차이를 계산한다.The protein deformation searching apparatus 100 calculates the mass change of the fragment ions constituting the analysis target protein (S120). That is, the protein deformation search apparatus 100 calculates the mass difference between theoretical fragment ion masses calculated theoretically from actual measured fragment ion masses and peptide sequence information based on the mass analysis information.

단백질 변형 탐색 장치(100)는 일정 범위 이내에의 질량 변화를 보이는 조각 이온끼리 묶어서 복수의 질량 변화 군집을 추출한다(S130).The protein deformation search apparatus 100 extracts a plurality of mass change clusters by binding fragment ions showing a change in mass within a certain range (S130).

단백질 변형 탐색 장치(100)는 복수의 질량 변화 군집을 조합하여 복수의 질량 변화 군집 조합을 생성한다(S140).The protein distortion search apparatus 100 generates a plurality of mass change cluster combinations by combining a plurality of mass change clusters (S140).

단백질 변형 탐색 장치(100)는 펩티드 기반 단백질 변형의 조각 이온 질량 패턴과 단백질 변형의 질량을 포함하는 단백질 변형 정보를 기초로 질량 변화 군집 조합에 포함된 적어도 하나의 단백질 변형을 탐색한다(S150). 따라서, 단백질 변형 탐색 장치(100)는 인산화나 아세틸화와 같은 화학적 단백질 변형뿐만 아니라, 유비퀴틴, 유비퀴틴-유사 단백질 등의 복잡한 펩티드 기반 단백질 변형을 탐색할 수 있다. 또한, 단백질 변형 탐색 장치(100)는 하나의 질량 변화 군집으로 하나의 단백질 변형만을 탐색하는 것이 아니라, 복수의 질량 변화 군집을 조합하여 복수의 단백질 변형을 탐색할 수 있다.The protein modification searcher 100 searches for at least one protein modification included in the mass change cluster combination based on the protein modification information including the fragment ion mass pattern of the peptide-based protein modification and the mass of the protein modification (S150). Thus, the protein modification search apparatus 100 can search for complex peptide-based protein modifications such as ubiquitin, ubiquitin-like proteins as well as chemical protein modifications such as phosphorylation or acetylation. Further, the protein deformation search apparatus 100 can search for a plurality of protein deformation by combining a plurality of mass change clusters, instead of searching for only one protein deformation by one mass change cluster.

도 7은 본 발명의 한 실시예에 따른 조각 이온 질량 패턴 생성 방법의 흐름도이다.7 is a flowchart of a method for generating a fragment ion mass pattern according to an embodiment of the present invention.

도 7을 참고하면, 단백질 변형 탐색 장치(100)는 펩티드 기반 조각 이온 질량 패턴을 기초로 유비퀴틴-유사 단백질 등의 복잡한 펩티드 기반 단백질 변형을 탐색한다.Referring to FIG. 7, the protein modification search apparatus 100 searches for a complex peptide-based protein modification such as a ubiquitin-like protein based on a peptide-based fragment ion mass pattern.

단백질 변형 탐색 장치(100)는 가상 효소로 단백질 변형 서열 데이터베이스(200)에 저장된 펩티드 기반 단백질 변형 서열을 절단한다(S210).The protein modification search apparatus 100 cuts the peptide-based protein modification sequence stored in the protein modification sequence database 200 with a virtual enzyme (S210).

단백질 변형 탐색 장치(100)는 절단된 서열을 기초로 가상 조각 이온들을 생성한다(S220).The protein modification search apparatus 100 generates virtual fragment ions based on the cleaved sequence (S220).

단백질 변형 탐색 장치(100)는 각 가상 조각 이온의 질량 정보를 포함하는 조각 이온 질량 패턴을 생성한다(S230). 조각 이온 질량 패턴은 단백질 변형으로 측정되는 단백질 변형의 b 이온 질량들, 그리고 단백질 변형의 y 이온에 의하여 생성되는 다양한 질량 변화들을 포함한다. 따라서, 단백질 변형 탐색 장치(100)는 조각 이온 질량 패턴을 통해 유비퀴틴, 유비퀴틴-유사 단백질 등의 다양한 펩티드 기반 단백질 변형을 탐색할 수 있다.The protein distortion search apparatus 100 generates a fragment ion mass pattern including mass information of each virtual fragment ion (S230). The fragment ion mass pattern includes bion masses of protein deformation measured by protein deformation, and various mass changes produced by y ions of protein deformation. Thus, the protein modification search apparatus 100 can search for various peptide-based protein modifications such as ubiquitin, ubiquitin-like proteins, and the like through fragment ion mass patterns.

도 8은 본 발명의 한 실시예에 따른 질량 변화 군집 조합 방법의 흐름도이고, 도 9는 본 발명의 한 실시예에 따른 질량 변화 군집을 도식화하여 설명하는 도면이며, 도 10은 본 발명의 한 실시예에 따른 질량 변화 군집 조합을 도식화하여 설명하는 도면이다.FIG. 8 is a flowchart of a method of combining mass change clusters according to an embodiment of the present invention, FIG. 9 is a diagram illustrating a mass change cluster according to an embodiment of the present invention, and FIG. Fig. 3 is a diagram illustrating a mass change cluster combination according to an example.

도 8과 도 9를 참고하면, 단백질 변형 탐색 장치(100)는 실측된 단백질 질량 스펙트럼과 이론적으로 도출된 단백질 질량 스펙트럼을 비교하여 실측 조각 이온 질량과 이론 조각 이온 질량의 질량 차이를 계산한다(S310). Referring to FIGS. 8 and 9, the protein deformation search apparatus 100 compares the measured protein mass spectrum with the theoretically derived protein mass spectrum to calculate the mass difference between the actual piece ion mass and the theoretical piece ion mass (S310 ).

단백질 변형 탐색 장치(100)는 질량 차이가 허용 오차(tolerance) 이내에 있는 조각 이온들을 묶어 질량 변화 군집을 추출한다(S320). The protein deformation detecting apparatus 100 extracts mass change clusters by binding fragment ions whose mass differences are within a tolerance (S320).

도 8과 도 10을 참고하면, 단백질 변형 탐색 장치(100)는 복수의 질량 변화 군집을 조합하여 복수의 질량 변화 군집 조합을 생성한다(S330). Referring to FIGS. 8 and 10, the protein distortion search apparatus 100 generates a plurality of mass change cluster combinations by combining a plurality of mass change clusters (S330).

이와 같이, 단백질 변형 탐색 장치(100)는 복수의 질량 변화 군집을 임의로 조합하여 질량 변화 군집 조합을 생성한다. 그리고, 단백질 변형 탐색 장치(100)는 펩티드 기반 단백질 변형의 조각 이온 질량 패턴과 비교하여 펩티드 기반 단백질 변형의 서열과 동일한 군집 간 질량 변화 차이들을 탐색하여 펩티드 기반 단백질 변형을 동정한다.As described above, the protein deformation search apparatus 100 generates a mass change cluster combination by arbitrarily combining a plurality of mass change clusters. The protein modification search apparatus 100 then identifies peptide-based protein modifications by searching for the same inter-cluster mass change differences as the sequence of the peptide-based protein modification compared to the fragment ion mass pattern of the peptide-based protein modification.

도 11은 본 발명의 한 실시예에 따른 단백질 탐색 방법의 흐름도이다.11 is a flowchart of a protein search method according to an embodiment of the present invention.

도 11을 참고하면, 단백질 변형 탐색 장치(100)는 복수의 질량 변화 군집을 조합하여 복수의 질량 변화 군집 조합을 생성한다(S410).Referring to FIG. 11, the protein distortion search apparatus 100 generates a plurality of mass change cluster combinations by combining a plurality of mass change clusters (S410).

단백질 변형 탐색 장치(100)는 복수의 질량 변화 군집 조합 각각이 가지는 군집 간 질량 변화 차이 중에서, 단백질 변형 데이터베이스(300)의 단백질 변형 정보 그리고 펩티드 기반 단백질 변형의 조각 이온 질량 패턴과 유사한 적어도 하나의 군집 간 질량 변화 차이를 선정한다(S420). 질량 변화 군집 조합별 군집 간 질량 변화 차이와 단백질 변형 데이터베이스(300)의 단백질 변형 정보를 비교하고, 질량 변화 군집 조합별 군집 간 질량 변화 차이와 펩티드 기반 단백질 변형의 조각 이온 질량 패턴을 비교한다.The protein deformation search apparatus 100 may be configured to calculate the protein deformation information of the protein deformation database 300 and at least one population similar to the fragment ion mass pattern of the peptide-based protein deformation among the plurality of mass- A difference in the mass change of the liver is selected (S420). We compare the difference in mass change between masses by mass change cluster and the protein modification information in protein modification database 300 and compare the mass change of mass between masses and the fragment ion mass pattern of peptide based protein modification.

단백질 변형 탐색 장치(100)는 선정한 군집 간 질량 변화 차이를 가지는 질량 변화 군집 조합을 후보 질량 변화 군집 조합으로 선택한다(S430).The protein deformation search apparatus 100 selects a mass change cluster combination having a selected mass difference between the populations by a candidate mass change cluster combination (S430).

단백질 변형 탐색 장치(100)는 단백질 변형 데이터베이스(300)에 저장된 단백질 변형 정보를 기초로 후보 질량 변화 군집 조합에 포함된 단백질 변형을 검색한다(S440). 단백질 변형 탐색 장치(100)는 군집 간 질량 변화 차이가 단백질 변형의 질량과 일정 범위 이내의 차이를 보이는 경우, 비교에 사용된 단백질 변형과 질량 변화 군집 조합을 매핑하여 저장한다.The protein deformation searching apparatus 100 searches for a protein deformation included in the candidate mass change cluster combination based on the protein deformation information stored in the protein deformation database 300 at step S440. The protein deformation search apparatus 100 maps and stores combinations of protein deformation and mass change clusters used for comparison when the difference in mass change between the clusters shows a difference within a certain range from the mass of the protein deformation.

단백질 변형 탐색 장치(100)는 후보 질량 변화 군집 조합 중에서, 분석 대상 단백질의 질량 분석 정보에 유사한 최종 질량 변화 군집 조합을 선정한다(S450).The protein deformation search apparatus 100 selects a final mass change cluster combination similar to the mass analysis information of the protein to be analyzed among the candidate mass change cluster combinations (S450).

단백질 변형 탐색 장치(100)는 최종 질량 변화 군집 조합에 매핑된 단백질 변형 종류와 위치 정보를 출력한다(S460). The protein deformation search apparatus 100 outputs the kind of protein deformation mapped to the final mass change cluster combination and position information (S460).

이와 같이 본 발명의 실시예에 따르면 기존 단백질 변형 탐색 프로그램들이 제대로 고려하지 못하였던 펩티드 기반 단백질 변형의 조각 이온 질량 패턴을 고려하여 단백질 변형을 탐색하기 때문에 정확한 단백질 변형을 탐색할 수 있다. 본 발명의 실시예에 따르면 다양한 펩티드 기반 단백질 변형을 검색할 수 있다. 본 발명의 실시예에 따르면 인산화나 아세틸화와 같은 화학적 단백질 변형과 함께 유비퀴틴, 유비퀴틴-유사 단백질 등의 펩티드 기반 단백질 변형을 동시에 효율적으로 검색할 수 있다. 또한, 본 발명의 실시예에 따르면 분산 컴퓨팅 환경 하에서 대용량 질량 분석 데이터를 분석하여 특정 단백질 변형이 일어나는 단백질과 그 변형의 위치를 탐색할 수 있다.Thus, according to the embodiment of the present invention, it is possible to search for an accurate protein deformation by searching for the protein deformation considering the fragment ion mass pattern of the peptide-based protein deformation which has not been properly considered by the existing protein deformation search programs. According to embodiments of the present invention, various peptide-based protein modifications can be detected. According to the embodiment of the present invention, it is possible to efficiently detect peptide-based protein modification such as ubiquitin and ubiquitin-like protein simultaneously with chemical protein modification such as phosphorylation or acetylation. Also, according to the embodiment of the present invention, mass spectrometry data can be analyzed under a distributed computing environment to search for a protein in which a specific protein deformation occurs and a location of the deformation.

이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.The embodiments of the present invention described above are not implemented only by the apparatus and method, but may be implemented through a program for realizing the function corresponding to the configuration of the embodiment of the present invention or a recording medium on which the program is recorded.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments, It belongs to the scope of right.

Claims (14)

단백질 변형을 탐색하는 단백질 변형 탐색 장치로서,
펩티드 기반 단백질 변형 서열을 가상 효소로 절단하여 가상 조각 이온들을 생성하고, 가상 조각 이온들의 질량 정보를 포함하는 조각 이온 질량 패턴을 생성하는 조각 이온 질량 패턴 생성부,
단백질 변형의 종류와 질량을 포함하는 단백질 변형 정보를 저장하는 단백질 변형 데이터베이스, 그리고
분석 대상 단백질에서 추출된 조각 이온들의 질량 변화를 기초로 질량 변화가 유사한 조각 이온들을 포함하는 복수의 군집을 추출하고, 복수의 군집을 조합하여 복수의 군집 조합을 생성하며, 상기 조각 이온 질량 패턴과 상기 단백질 변형 정보를 기초로 상기 복수의 군집 조합 중 적어도 하나의 군집 조합에 포함된 적어도 하나의 단백질 변형을 탐색하는 단백질변형탐색부를 포함하며,
상기 펩티드 기반 단백질 변형 서열은 유비퀴틴 그리고 유비퀴틴 유사 단백질을 포함하는 단백질 변형의 아미노산 서열이고,
상기 가상 효소는 단백질 분해 법칙에 따라 상기 펩티드 기반 단백질 변형 서열을 가상으로 절단하는 효소이고,
상기 가상 조각 이온은 상기 펩티드 기반 단백질 변형 서열이 상기 가상 효소에 의해 절단된 조각 이온이며,
상기 조각 이온 질량 패턴은 단백질 변형에 의한 조각 이온들의 질량 변화를 나타내는 정보로서, 단백질 변형으로 측정되는 단백질 변형의 b 이온 질량들, 그리고 단백질 변형의 y 이온에 의하여 생성되는 질량 변화들을 포함하고, 상기 b 이온은 단백질 서열의 N 말단(N-terminal)에서부터 시작되는 이온이고, 상기 y 이온은 단백질 서열의 C 말단(C-terminal)에서부터 시작되는 이온인 단백질 변형 탐색 장치.
A protein modification search apparatus for searching for a protein modification,
A fragment ion mass pattern generator for generating a fragment ion mass pattern including information on the mass of the virtual fragment ions, generating a virtual fragment ion by cutting the peptide-based protein modification sequence to a virtual enzyme,
A protein variant database storing protein variant information including the type and mass of protein variants, and
Extracting a plurality of clusters including fragment ions having similar mass changes based on the mass change of the fragment ions extracted from the protein to be analyzed, combining a plurality of clusters to generate a plurality of cluster combinations, And a protein deformation searching unit searching for at least one protein deformation included in at least one community combination among the plurality of community combinations based on the protein deformation information,
The peptide-based protein modification sequence is an amino acid sequence of a protein modification comprising ubiquitin and ubiquitin-like proteins,
The virtual enzyme is an enzyme that virtually cleaves the peptide-based protein modification sequence according to the proteolytic rule,
Wherein the virtual fragment ion is a fragment ion in which the peptide-based protein modification sequence is cleaved by the hypothetical enzyme,
Wherein the fragment ion mass pattern is information indicative of a mass change of the fragment ions due to protein deformation, and includes b ion masses of the protein deformation measured by the protein deformation, and mass changes produced by the y ion of the protein deformation, wherein the b ion is an ion starting from the N-terminal of the protein sequence, and the y ion is an ion starting from the C-terminal of the protein sequence.
제1항에서,
상기 조각 이온 질량 패턴 생성부는
가상 효소로 상기 펩티드 기반 단백질 변형 서열을 절단하는 가상효소처리부,
상기 가상효소처리부에서 절단된 서열을 기초로 단백질 변형 서열에서 생성될 수 있는 가상 조각 이온들을 생성하는 가상 조각 이온 생성부, 그리고
가상 조각 이온들의 질량을 계산하여, 가상 조각 이온들의 질량 정보를 포함하는 조각 이온 질량 패턴을 생성하는 조각 이온 질량 계산부
를 포함하는 단백질 변형 탐색 장치.
The method of claim 1,
The fragment ion mass pattern generation unit
A virtual enzyme processing unit for cleaving the peptide-based protein modification sequence with a virtual enzyme,
A virtual fragment ion generating unit for generating virtual fragment ions that can be generated in the protein modification sequence based on the cleaved sequence in the virtual enzyme processing unit, and
Calculating a mass of the virtual piece ions to generate a piece ion mass pattern including mass information of the virtual piece ions,
Wherein the protein variant search apparatus comprises:
삭제delete 제1항에서,
상기 단백질변형탐색부는
화학적 단백질 변형 그리고 펩티드 기반 단백질 변형을 포함하는 단백질 변형을 탐색하는 단백질 변형 탐색 장치.
The method of claim 1,
The protein modification search unit
A protein modification search apparatus for searching for a protein modification including a chemical protein modification and a peptide-based protein modification.
단백질 변형을 탐색하는 단백질 변형 탐색 장치로서,
분석 대상 단백질의 질량 분석 정보를 기초로 실측 조각 이온 질량과 이론 조각 이온 질량의 질량 변화를 계산하고, 질량 변화가 유사한 조각 이온들을 묶어 복수의 군집을 생성하는 질량 변화 군집 추출부,
복수의 군집을 조합하여 복수의 군집 조합을 생성하고, 각 군집 조합 내의 군집간 질량 변화 차이를 계산하는 질량 변화 군집 조합부, 그리고
단백질 변형 탐색 정보를 이용하여, 각 군집 간 질량 변화 차이에 해당하는 적어도 하나의 단백질 변형을 탐색하는 탐색부를 포함하고,
상기 단백질 변형 탐색 정보는 펩티드 기반 단백질 변형 서열을 기초로 생성된 가상 조각 이온들의 질량 정보를 포함하는 조각 이온 질량 패턴, 그리고 각종 단백질 변형의 종류와 질량을 포함하는 단백질 변형 정보를 포함하며,
상기 실측 조각 이온 질량은 상기 분석 대상 단백질을 질량 분석기에 적용하여 실측한 조각 이온 질량이고,
상기 이론 조각 이온 질량은 상기 분석 대상 단백질의 아미노산 서열 정보로부터 이론적으로 계산하여 획득한 조각 이온 질량이고,
상기 펩티드 기반 단백질 변형 서열은 유비퀴틴 그리고 유비퀴틴 유사 단백질을 포함하는 단백질 변형의 아미노산 서열이고,
상기 가상 조각 이온은 상기 펩티드 기반 단백질 변형 서열이 가상 효소에 의해 절단되어 생성된 조각 이온이며,
상기 가상 효소는 단백질 분해 법칙에 따라 상기 펩티드 기반 단백질 변형 서열을 가상으로 절단하는 효소이고,
상기 조각 이온 질량 패턴은 단백질 변형에 의한 조각 이온들의 질량 변화를 나타내는 정보로서, 단백질 변형으로 측정되는 단백질 변형의 b 이온 질량들, 그리고 단백질 변형의 y 이온에 의하여 생성되는 질량 변화들을 포함하고, 상기 b 이온은 단백질 서열의 N 말단(N-terminal)에서부터 시작되는 이온이고, 상기 y 이온은 단백질 서열의 C 말단(C-terminal)에서부터 시작되는 이온인 단백질 변형 탐색 장치.
A protein modification search apparatus for searching for a protein modification,
A mass change cluster extracting unit for calculating the mass change of the actual piece ion mass and the theoretical piece ion mass based on the mass analysis information of the protein to be analyzed and generating a plurality of clusters by binding fragment ions having similar mass changes,
A mass change cluster combination unit for generating a plurality of cluster combinations by combining a plurality of communities and calculating a difference in mass change between the communities in each community combination, and
And a search unit for searching at least one protein deformation corresponding to the difference in mass change between the respective clusters using the protein deformation search information,
The protein modification search information includes a fragment ion mass pattern including mass information of virtual fragment ions generated based on a peptide-based protein modification sequence, and protein modification information including the kind and mass of various protein modifications,
The actual fragment ion mass is a measured fragment ion mass obtained by applying the protein to be analyzed to a mass spectrometer,
Wherein the theoretical fragment ion mass is the fragment ion mass obtained by theoretically calculating from the amino acid sequence information of the protein to be analyzed,
The peptide-based protein modification sequence is an amino acid sequence of a protein modification comprising ubiquitin and ubiquitin-like proteins,
The virtual fragment ion is a fragment ion generated by cleaving the peptide-based protein modification sequence with a virtual enzyme,
The virtual enzyme is an enzyme that virtually cleaves the peptide-based protein modification sequence according to the proteolytic rule,
Wherein the fragment ion mass pattern is information indicative of a mass change of the fragment ions due to protein deformation, and includes b ion masses of the protein deformation measured by the protein deformation, and mass changes produced by the y ion of the protein deformation, wherein the b ion is an ion starting from the N-terminal of the protein sequence, and the y ion is an ion starting from the C-terminal of the protein sequence.
삭제delete 제5항에서,
상기 탐색부는
복수의 군집 조합 중에서, 상기 단백질 변형 탐색 정보와 유사한 군집 간 질량 변화 차이를 가지는 적어도 하나의 후보 군집 조합을 선정하는 단백질 변형 탐색 장치.
The method of claim 5,
The search unit
And selects at least one candidate community combination having a mass change difference between clusters similar to the protein modification search information among a plurality of cluster combinations.
제7항에서,
상기 탐색부는
각 후보 군집 조합의 군집 간 질량 변화 차이를 기초로 각 후보 군집 조합의 단백질 변형 정보를 탐색하는 단백질 변형 탐색 장치.
8. The method of claim 7,
The search unit
A protein deformation searching apparatus for searching for protein deformation information of each candidate community combination based on the difference in mass change between the populations of each candidate community combination.
제8항에서,
적어도 하나의 후보 군집 조합 중에서, 상기 분석 대상 단백질의 질량 분석 정보에 유사한 최종 군집 조합을 선정하고, 상기 최종 군집 조합에 해당하는 적어도 하나의 단백질 변형을 출력하는 출력부
를 더 포함하는 단백질 변형 탐색 장치.
9. The method of claim 8,
Selecting at least one candidate cluster combination that is similar to mass analysis information of the protein to be analyzed and outputting at least one protein modification corresponding to the final cluster combination;
Further comprising: a protein variant search device.
단백질 변형 탐색 장치가 단백질 변형을 탐색하는 방법으로서,
분석 대상 단백질의 질량 분석 정보를 기초로 분석 대상 단백질을 구성하는 조각 이온들의 질량 변화를 계산하는 단계,
일정 범위 이내에의 질량 변화를 보이는 조각 이온끼리 묶어서 복수의 군집을 추출하는 단계,
복수의 군집을 조합하여 복수의 군집 조합을 생성하는 단계, 그리고
단백질 변형 탐색 정보를 이용하여, 적어도 하나의 군집 조합에 포함된 적어도 하나의 단백질 변형을 탐색하는 단계를 포함하고,
상기 단백질 변형 탐색 정보는 펩티드 기반 단백질 변형으로 생성된 가상 조각 이온들의 질량 정보를 포함하는 조각 이온 질량 패턴, 그리고 각종 단백질 변형의 종류와 질량을 포함하는 단백질 변형 정보를 포함하며,
상기 조각 이온은 상기 분석 대상 단백질이 절단되어 생성된 이온이고,
상기 펩티드 기반 단백질 변형 서열은 유비퀴틴 그리고 유비퀴틴 유사 단백질을 포함하는 단백질 변형의 아미노산 서열이고,
상기 가상 조각 이온은 상기 펩티드 기반 단백질 변형 서열이 가상 효소에 의해 절단되어 생성된 조각 이온이며,
상기 가상 효소는 단백질 분해 법칙에 따라 상기 펩티드 기반 단백질 변형 서열을 가상으로 절단하는 효소이고,
상기 조각 이온 질량 패턴은 단백질 변형에 의한 조각 이온들의 질량 변화를 나타내는 정보로서, 단백질 변형으로 측정되는 단백질 변형의 b 이온 질량들, 그리고 단백질 변형의 y 이온에 의하여 생성되는 질량 변화들을 포함하고, 상기 b 이온은 단백질 서열의 N 말단(N-terminal)에서부터 시작되는 이온이고, 상기 y 이온은 단백질 서열의 C 말단(C-terminal)에서부터 시작되는 이온인 단백질 변형 탐색 방법.
CLAIMS 1. A method for searching for a protein modification,
Calculating a mass change of the fragment ions constituting the protein to be analyzed based on the mass analysis information of the protein to be analyzed,
Extracting a plurality of clusters by binding fragment ions showing a change in mass within a certain range,
Generating a plurality of cluster combinations by combining a plurality of clusters, and
Using the protein modification search information to search for at least one protein modification included in at least one population combination,
The protein modification search information includes a fragment ion mass pattern including mass information of virtual fragment ions generated by peptide-based protein modification, and protein modification information including a kind and mass of various protein modifications,
The fragment ion is an ion generated by cleavage of the protein to be analyzed,
The peptide-based protein modification sequence is an amino acid sequence of a protein modification comprising ubiquitin and ubiquitin-like proteins,
The virtual fragment ion is a fragment ion generated by cleaving the peptide-based protein modification sequence with a virtual enzyme,
The virtual enzyme is an enzyme that virtually cleaves the peptide-based protein modification sequence according to the proteolytic rule,
Wherein the fragment ion mass pattern is information indicative of a mass change of the fragment ions due to protein deformation, and includes b ion masses of the protein deformation measured by the protein deformation, and mass changes produced by the y ion of the protein deformation, wherein the b ion is an ion starting from the N-terminal of the protein sequence, and the y ion is an ion starting from the C-terminal of the protein sequence.
제10항에서,
상기 적어도 하나의 단백질 변형을 탐색하는 단계는
화학적 단백질 변형 그리고 펩티드 기반 단백질 변형 중 적어도 하나의 단백질 변형을 탐색하는 단백질 변형 탐색 방법.
11. The method of claim 10,
The step of searching for said at least one protein modification
A method of searching for a protein variant that searches for at least one protein variant of a chemical protein modification and a peptide-based protein modification.
제10항에서,
상기 적어도 하나의 단백질 변형을 탐색하는 단계는
각 군집 조합 내의 군집간 질량 변화 차이를 계산하고, 상기 단백질 변형 탐색 정보를 기초로 각 군집 간 질량 변화 차이에 해당하는 적어도 하나의 단백질 변형을 탐색하는 단백질 변형 탐색 방법.
11. The method of claim 10,
The step of searching for said at least one protein modification
Calculating a difference in mass change between the clusters in each cluster combination and searching for at least one protein strain corresponding to the difference in mass change between the respective clusters based on the protein deformation search information.
삭제delete 제12항에서,
상기 적어도 하나의 단백질 변형을 탐색하는 단계는
복수의 군집 조합 중에서, 상기 단백질 변형 탐색 정보와 유사한 군집 간 질량 변화 차이를 가지는 적어도 하나의 후보 군집 조합을 선정하는 단계,
각 후보 군집 조합의 군집 간 질량 변화 차이를 기초로 각 후보 군집 조합의 단백질 변형 정보를 탐색하는 단계, 그리고
적어도 하나의 후보 군집 조합 중에서, 상기 분석 대상 단백질의 질량 분석 정보에 유사한 최종 군집 조합을 선정하고, 상기 최종 군집 조합에 해당하는 적어도 하나의 단백질 변형을 출력하는 단계
를 포함하는 단백질 변형 탐색 방법.
The method of claim 12,
The step of searching for said at least one protein modification
Selecting at least one candidate community combination having a mass change difference between clusters similar to the protein modification search information among a plurality of cluster combinations,
Searching the protein deformation information of each candidate community combination based on the difference in mass change between the populations of each candidate community combination, and
Selecting a final cluster combination similar to the mass analysis information of the analysis target protein among at least one candidate cluster combination and outputting at least one protein modification corresponding to the final cluster combination
≪ / RTI >
KR1020120110597A 2011-12-06 2012-10-05 Apparatus and method for idendificating protein modification KR101427865B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US13/691,995 US20130144585A1 (en) 2011-12-06 2012-12-03 Apparatus and method for idendificaton of protein modification

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020110129790 2011-12-06
KR20110129790 2011-12-06

Publications (2)

Publication Number Publication Date
KR20130063453A KR20130063453A (en) 2013-06-14
KR101427865B1 true KR101427865B1 (en) 2014-08-08

Family

ID=48860802

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120110597A KR101427865B1 (en) 2011-12-06 2012-10-05 Apparatus and method for idendificating protein modification

Country Status (1)

Country Link
KR (1) KR101427865B1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005088303A2 (en) 2004-03-05 2005-09-22 The Board Of Trustees Of The University Of Illinois Identification and characterization of proteins using new database search modes
KR100698466B1 (en) 2006-11-30 2007-03-21 한국정보통신대학교 산학협력단 Method of Bottom-Up Protein Modifications Detection using Mass Shift List Table and Program Storage Device
KR100805775B1 (en) 2005-08-08 2008-02-21 한국기초과학지원연구원 An additive scoring method for modified polypeptide
US20100179766A1 (en) 2007-05-31 2010-07-15 The Regents Of The University Of California Method for Identifying Peptides Using Tandem Mass Spectra by Dynamically Determining the Number of Peptide Reconstructions Required

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005088303A2 (en) 2004-03-05 2005-09-22 The Board Of Trustees Of The University Of Illinois Identification and characterization of proteins using new database search modes
KR100805775B1 (en) 2005-08-08 2008-02-21 한국기초과학지원연구원 An additive scoring method for modified polypeptide
KR100698466B1 (en) 2006-11-30 2007-03-21 한국정보통신대학교 산학협력단 Method of Bottom-Up Protein Modifications Detection using Mass Shift List Table and Program Storage Device
US20100179766A1 (en) 2007-05-31 2010-07-15 The Regents Of The University Of California Method for Identifying Peptides Using Tandem Mass Spectra by Dynamically Determining the Number of Peptide Reconstructions Required

Also Published As

Publication number Publication date
KR20130063453A (en) 2013-06-14

Similar Documents

Publication Publication Date Title
Jones et al. Improving sensitivity in proteome studies by analysis of false discovery rates for multiple search engines
JP5750676B2 (en) Cell identification device and program
JP5024390B2 (en) Mass spectrometry system
JP2007287531A (en) Mass spectrometry data analysis method
Sandin et al. An adaptive alignment algorithm for quality-controlled label-free LC-MS
JP6004080B2 (en) Data processing apparatus and data processing method
US10796784B2 (en) Mass spectrometric data analyzing apparatus and analyzing method
US20020046002A1 (en) Method to evaluate the quality of database search results and the performance of database search algorithms
JP5776443B2 (en) Modified protein identification method and identification apparatus using mass spectrometry
JP4841414B2 (en) Amino acid sequence analysis method using mass spectrometry, amino acid sequence analyzer, amino acid sequence analysis program, and recording medium recording the amino acid sequence analysis program
JP6489224B2 (en) Peptide assignment method and peptide assignment system
US20130144585A1 (en) Apparatus and method for idendificaton of protein modification
KR101427865B1 (en) Apparatus and method for idendificating protein modification
US9702882B2 (en) Method and system for analyzing mass spectrometry data
JP6027436B2 (en) Mass spectrometry data analysis method
JP2007010509A (en) Analysis supporting system and method
KR100698466B1 (en) Method of Bottom-Up Protein Modifications Detection using Mass Shift List Table and Program Storage Device
JP5821670B2 (en) Amino acid sequence analysis method and apparatus
JP2017096668A (en) Identification support method and identification support device for living matter derived substance
Tessier Mass Spectra Interpretation and the Interest of SpecFit for Identifying Uncommon Modifications
US20220230708A1 (en) Method for detecting outlier of theoretical masses
Lysiak et al. Interpreting Mass Spectra Differing from Their Peptide Models by Several Modifications
EP2000935A2 (en) Method of processing protein peptide data and system
JP2017129368A (en) Amino acid sequence analysis method and amino acid sequence analysis system
JP2018040572A (en) Peptide assignment method and peptide assignment system

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170725

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180725

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190805

Year of fee payment: 6