KR20150118226A - 아미노산 서열 확인 방법 및 장치 - Google Patents

아미노산 서열 확인 방법 및 장치 Download PDF

Info

Publication number
KR20150118226A
KR20150118226A KR1020140043414A KR20140043414A KR20150118226A KR 20150118226 A KR20150118226 A KR 20150118226A KR 1020140043414 A KR1020140043414 A KR 1020140043414A KR 20140043414 A KR20140043414 A KR 20140043414A KR 20150118226 A KR20150118226 A KR 20150118226A
Authority
KR
South Korea
Prior art keywords
amino acid
accuracy score
calculating
count
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
KR1020140043414A
Other languages
English (en)
Other versions
KR101596391B1 (ko
Inventor
백선종
박재은
이상범
김현식
Original Assignee
한국기초과학지원연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국기초과학지원연구원 filed Critical 한국기초과학지원연구원
Priority to KR1020140043414A priority Critical patent/KR101596391B1/ko
Publication of KR20150118226A publication Critical patent/KR20150118226A/ko
Application granted granted Critical
Publication of KR101596391B1 publication Critical patent/KR101596391B1/ko
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6848Methods of protein analysis involving mass spectrometry

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Urology & Nephrology (AREA)
  • Immunology (AREA)
  • Biomedical Technology (AREA)
  • Hematology (AREA)
  • Cell Biology (AREA)
  • Medicinal Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Microbiology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Food Science & Technology (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

아미노산 서열 확인 방법 및 장치가 개시된다. 단백질의 아미노산 결합들에 각각의 인덱스를 부여하는 단계, 아미노산 결합을 확인하는 탠덤 질량 분석 데이터의 피크 개수를 카운트하여 카운트 값을 산출하는 단계, 산출된 카운트 값을 기초로 각각의 아미노산 결합에 대한 존재를 확인하는 정확도 점수를 산출하는 단계 및 산출된 정확도 점수를 기초로 기 설정된 정확도 점수 미만의 아미노산 결합 부위를 분류하는 단계를 포함한다.

Description

아미노산 서열 확인 방법 및 장치{Amino acid sequence confirmation method and device}
본 발명은 아미노산 서열 확인 방법 및 장치에 관한 것으로, 더 상세하게는 탠덤 질량 분석 데이터를 이용하는 아미노산 서열 확인 방법 및 장치에 관한 것이다.
단백질은 세포 내에서 진행되는 거의 모든 작용에 관여하는 매우 중요한 세포구성 요소이므로, 세포에 존재하는 단백질들에 대한 전반적인 분석과 동정은 세포 및 생물에 있어서 다양한 생명활동을 이해하고, 나아가 새로운 질병치료법을 찾는데 있어서도 매우 중요한 역할을 한다.
프로테옴(proteome)이란 유전체로부터 만들어질 수 있는 모든 단백질의 총체로서, 한 세포 또는 조직에서 특이적인 생리 상태, 병리 상태에 따라 변화하는 동적인 개념이며, 프로테오믹스는 프로테옴을 연구하는 방법과 기술을 의미한다. 즉, 단백질의 성질을 발현, 번역후 변형, 다른 단백질과의 서열 등에 대해 연구함으로써 세포내 변형 과정, 네트워크 형성 과정을 질병의 진행 과정과 연계시켜 총괄적으로 이해하기 위한 연구 분야를 의미한다. 따라서, 단백질을 비롯한 생물학적으로 관련있는 거대 분자의 연구는 계속 진행되고 있다.
예를 들면, 펩티드(peptide) 질량 지문법으로 알려진 기법에서, 질량 분광계는 생물학적 샘플로부터 정제된 단백질을 확인하는데 사용된다. 확인은 정제된 단백질의 단백질 분해 단편의 질량 스펙트럼을 데이터베이스로 종래에 액세스된 주 서열로부터 예측되는 질량과 정합함으로써 수행된다.
충돌 유도 해리(CID) 또는 MALDI 포스트-소스 붕괴(Post-Source Decay, PSD)로부터 얻은 단편 질량 스펙트럼을 사용하여 정제된 단백질을 확인하는 유사한 데이터베이스-마이닝 접근법이 개발되어 왔다. 또한 분리된 단백질의 일부 이상의 새로운 서열 결정을 할 수 있는 질량 분석 기법이 개발되어 왔다.
현재, 단백질을 분석할 수 있는 가장 강력한 방법 중 하나는 탠덤 질량 분석(tandem mass(MS/MS) spectrometry)로 단백질을 보다 작은 질량의 펩티드 상태로 가수 분해한 다음 분석을 수행한다.
즉, 생물시료는 수많은 단백질들이 혼합되어 존재하는 상태이며, 1차원 SDS-PAGE 또는 액체 크로마토그래피 등의 방법으로 단백질 또는 단백질을 가수분해하여 얻은 펩티드들을 분리한 뒤에 질량 분석기를 이용하여 펩티드의 탠덤 질량 스펙트럼을 얻는다. 또한 단백질 서열 데이터 베이스를 사용하면, 각각의 탠덤 질량 스펙트럼에 해당되는 펩티드의 아미노산 서열을 찾을 수 있으며, 이들을 통합 분석하면 단백질을 동정할 수 있다.
그러나 탠덤 질량 분석 데이터로부터 펩티드 단편을 분석하여 아미노산 커버리지(coverage)를 확인하는 “BiopharmaLynx”와 같은 상용 프로그램의 결과를 수동으로 확인하는 과정은 오랜 시간이 소비된다.
한편 실험 데이터를 자동으로 분석할 경우 노이즈 또는 실험 오차 등으로 인해 분석에 오류가 발생할 수 있다. 또한 오류 발생 가능성 때문에 매우 많은 수의 아미노산 배열에 대해 일일이 종래의 프로그램에 의한 결정이 정확한지를 수동으로 확인해야 하는 문제점이 있다.
따라서, 방대한 양의 아미노산 서열 분석 데이터 중에서 신뢰도가 낮아서 확인이 필요한 부분을 알려주는 방법 및 장치가 필요한 실정이다.
한국등록특허 10-0699437은 아미노산 서열 분석 장치 및 방법에 관한 것으로, 단백질의 서열 분석시 서열 태그의 공백 부분에 대한 질량 변이를 이용하여 단백질을 구성하는 아미노산 또는 아미노산에 포함된 복수개의 변형의 종류 및 위치를 빠르고 용이하게 탐색하여 아미노산 서열을 분석할 수 있는 장치 및 방법을 제공한다.
본 발명이 이루고자 하는 기술적 과제는 탠덤 질량 분석으로 수행되는 아미노산 커버리지 결과의 점검을 용이하게 하는 아미노산 서열 확인 방법 및 장치를 제공한다.
본 발명이 이루고자 하는 다른 기술적 과제는 아미노산 서열 커버리지 결과를 확인하는데 소비되는 시간을 줄여주는 아미노산 서열 확인 방법 및 장치를 제공한다.
상기 목적을 달성하기 위하여, 본 발명은,
단백질의 아미노산 결합들에 각각의 인덱스를 부여하는 단계, 상기 아미노산 결합을 확인하는 피크의 개수를 카운트하여 카운트 값을 산출하는 단계, 상기 산출된 카운트 값을 기초로 상기 아미노산 결합에 대한 존재를 확인하는 정확도 점수를 산출하는 단계 및 상기 산출된 정확도 점수를 기초로 기 설정된 정확도 점수 미만의 아미노산 결합 부위를 분류하는 단계를 포함하는 아미노산 서열 확인 방법을 제공한다.
또한, 본 발명은
단백질의 아미노산 배열을 수신받는 입력부, 상기 수신된 아미노산 배열에 대한 결합들에 각각의 인덱스를 부여하고, 상기 아미노산 결합을 확인하는 탠덤 질량 분석 데이터의 피크 개수를 카운트하여 카운트 값을 산출하며, 상기 산출된 카운트 값을 기초로 상기 아미노산 결합에 대한 존재를 확인하는 정확도 점수를 산출하고, 상기 산출된 정확도 점수를 기초로 기 설정된 정확도 점수 미만의 아미노산 결합 부위를 분류하는 제어부를 포함하는 아미노산 서열 확인 장치를 제공한다.
이에 따라, 상기 기재된 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
본 발명에 따른 아미노산 서열 확인 방법 및 장치에 의하면, 탠덤 질량 분석으로 수행되는 아미노산 커버리지 결과의 점검을 용이하게 할 수 있다.
또한 방대한 양의 아미노산 결합 분석 데이터 중에서 신뢰도가 낮아서 확인이 필요한 부분을 알려줄 수 있다.
또한 아미노산 서열 커버리지 결과를 확인하는데 소비되는 시간을 줄여줄 수 있다.
도 1은 본 발명의 일 실시예에 따른 아미노산 서열 확인 방법을 설명하기 위한 순서도이다.
도 2는 도 1의 단계 S110을 상세하게 설명하기 위한 순서도이다.
도 3은 도 1의 단계 S120을 상세하게 설명하기 위한 순서도이다.
도 4는 본 발명의 일 실시예에 따른 아미노산 서열 확인 장치를 설명하기 위한 블록도이다.
도 5는 본 발명의 일 실시예에 따른 탠덤 질량 스펙트럼을 설명하기 위한 그래프이다.
도 6은 본 발명의 다른 실시예에 따른 탠덤 질량 스펙트럼을 설명하기 위한 그래프이다.
도 7은 본 발명의 일 실시예에 따른 카운트 값과 정확도 점수의 상관 관계를 설명하기 위한 그래프이다.
이하 본 발명의 실시예를 첨부된 도면들을 참조하여 상세히 설명할 수 있다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 할 수 있다. 또한 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 당업자에게 자명하거나 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략할 수 있다.
도 1은 본 발명의 일 실시예에 따른 아미노산 서열 확인 방법을 설명하기 위한 순서도이다.
도 1을 참조하면, 아미노산 서열 확인 방법은 탠덤 질량 분석으로 수행하는 아미노산 서열 커버리지 결과의 확인을 용이하게 한다. 아미노산 서열 확인 방법은 탠덤 질량 분석 데이터를 이용하여 펩티드 단편을 분석하여 아미노산 서열 커버리지를 결과를 확인하는데 소비되는 시간을 줄여줄 수 있다.
본 발명의 일 실시예에 따른 아미노산 서열 확인 방법은 하기의 단계로 수행될 수 있다.
아미노산 서열 확인 방법은 단백질의 다수의 아미노산 결합들에 대해 각각의 인덱스(index)를 부여하는 단계(S100), 동일한 인덱스를 가지는 아미노산 결합을 확인하는 피크의 개수를 카운트(count)하여 카운트 값을 산출하는 단계(S110), 산출된 카운트 값을 기초로 상기 아미노산 결합에 대한 존재를 확인하는 정확도 점수를 산출하는 단계(S120) 및 산출된 정확도 점수를 기초로 기 설정된 정확도 점수 미만의 아미노산 결합 부위를 분류하는 단계(S130)를 포함한다.
단계 S100은 탠덤 질량 분석 데이터를 이용하여 얻은 아미노산 결합들에 대해 각각의 인덱스를 부여한다. 상기 탠덤 질량 분석 데이터는 탠덤 분석이 가능한 질량 분석기를 이용하여 시료의 질량과 쪼갠 후의 시료의 질량을 측정하여 산출되는 탠덤 질량 스펙트럼(Tandem Mass Spectrum)을 포함한다. 상기 탠덤 질량 스펙트럼은 하나의 피크(peak)에 아미노산 결합이 1개 또는 2개의 정보를 포함할 수 있다.
단계 S110은 단계 S100에서 산출된 탠덤 질량 스펙트럼을 이용하여 동일한 인덱스를 가지는 아미노산 결합을 확인하는 피크의 개수를 카운트하여 카운트 값을 산출한다.
단계 S110은 산출된 탠덤 질량 스펙트럼의 피크들이 각각의 인덱스 별로 발생 빈도수를 카운트한 카운트 값을 산출한다. 특히, 상기 카운트 값은 정수부 및 소수부를 포함한다.
단계 S120은 단계 S110에서 산출된 카운트 값을 기초로 상기 인덱스에 해당하는 아미노산 결합에 대한 존재를 확인하는 정확도 점수(F)를 산출한다. 상기 산출하는 식은 후술된다. 상기 정확도 점수는 아미노산 서열 커버리지의 정확도를 판단하는 척도를 수치화한 것일 수 있다. 특히, 정확도 점수가 높으면 아미노산 서열의 커버리지에 대한 신뢰도가 높은 것으로 판단할 수 있다.
단계 S120은 카운트 값의 정수부에 대한 정확도 점수 및 카운트 값의 소수부에 대한 정확도 점수를 각각 산출한 후, 합을 한다. 단계 S120은 정수부의 계산과 소수부의 계산을 다른 수학식을 이용하여 산출할 수 있다. 또한 단계 S120에서 산출된 정확도 점수는 0보다 크거나 같고, 1보다는 작다(0≤F<1).
단계 S130은 단계 S120에서 산출된 정확도 점수를 기초로 기 설정된 정확도 점수 미만의 아미노산 결합 부위를 분류한다.
단계 S130은 수동으로 재검토가 요구되는 아미노산 결합 부위를 선별할 수 있다. 단계 S130은 수동으로 재검토할 아미노산 서열 커버리지의 기준이 되는 정확도 점수를 설정할 수 있다. 즉, 상기 기준치의 범위(0≤F<1)인 0보다 크거나 같고, 1보다는 작게 설정할 수 있다. 다만, 바람직하게는 상기 기준되는 정확도 점수는 0.5보다 같거나 크다.
예를 들면, 기준치가 0.5이고, 단계 120에서 산출된 정확도 점수가 0.3인 경우, 재검토가 필요한 커버리지로 분류할 수 있다.
도 2는 도 1의 단계 S110을 상세하게 설명하기 위한 순서도이다.
도 2를 참조하면, 단계 S110은 아미노산 결합을 확인하는 피크의 개수를 카운트하여 아미노산 결합 인덱스 별로 카운트 값을 산출한다. 단계 S110은 탠덤 질량분석 데이터의 피크들에 대한 각각의 인덱스 별로 카운트 값을 산출하는 단계(S200) 및 인덱스 별로 카운트의 합한 값을 산출하는 단계(S210)를 포함한다.
단계 S200은 탠덤 질량 분석 데이터을 이용하여 i번째 아미노산 결합에 대한 확인도(Ci,j)를 산출한다. 상기 탠덤 질량 분석 데이터는 하나의 피크에 아미노산 결합이 1개 또는 2개의 정보를 포함하는 탠덤 질량 스펙트럼을 포함한다.
단계 S200은 탠덤 질량 스펙트럼의 j 피크의 신호강도를 이용하여 i번째 아미노산 결합에 대한 확인도(Ci ,j)를 산출한다. 단계 S200은 수학식 1을 이용하여 아미노산 결합 각각의 인덱스에 대한 확인도를 산출할 수 있다.
Figure pat00001
여기서, Ci ,j는 아미노산 결합 인덱스 i의 확인에 활용되는 현재 피크의 확인도(기여도)를 의미하고, Imax는 피크 강도의 전체 중 가장 큰 피크 강도를 의미하며, Imin는 피크 강도의 전체 중 가장 작은 피크 강도를 의미한다. Ij는 현재 피크의 강도를 의미하고, α는 0보다 크며, 작은 피크 강도의 피크들에 주어지는 중요도를 결정하는 값을 의미한다. 특히, α는 일반적으로 Imin 값을 대입한다.
따라서, 단계 S200은 수학식 1을 기초로 탠덤 질량 스펙트럼의 모든 피크에 대해서 각각의 아미노산 결합 인덱스에 대한 확인도를 산출할 수 있다.
단계 S210은 아미노산 결합의 확인도를 해당 인덱스 별로 합을 하여 산출한다. 즉, 단계 S100에서 부여된 인덱스가 동일한 피크끼리 아미노산 결합의 확인도를 합을 하여 카운트 값을 산출할 수 있다. 따라서, 카운트 값은 정수부 및 소수부를 포함한다.
도 3은 도 1의 단계 S120을 상세하게 설명하기 위한 순서도이다.
도 3을 참조하면, 단계 S120은 아미노산 결합에 대한 존재를 확인하는 정확도 점수를 산출한다. 단계 S120은 카운트 값의 정수부에 대한 정확도 점수를 산출하는 단계(S300), 카운트 값의 소수부에 대한 정확도 점수를 산출하는 단계(S310) 및 카운트 값의 정확도 점수 산출하는 단계(S320)를 포함한다.
단계 S300은 단계 S210에서 산출된 카운트 값의 정수부에 대한 정확도 점수를 산출한다. 단계 S300은 수학식 2를 이용하여 정수부 n에 해당하는 정확도 점수 Fn를 산출할 수 있다.
Figure pat00002
여기서, n은 카운트의 정수부를 의미하고, β는 2 내지 5의 임의의 수를 의미하며, e는 자연수(e=2.71828…)를 의미한다.
단계 S310은 단계 S210에서 산출된 카운트 값의 소수부에 대한 정확도 점수를 산출한다. 단계 S310은 수학식 3을 이용하여 소수부 s에 해당하는 정확도 점수 Fs를 산출할 수 있다.
Figure pat00003
여기서, s는 카운트의 소수부를 의미한다.
단계 S320은 단계 S300에서 산출된 정수부에 대한 정확도 점수 및 단계 S310에서 산출된 소수부에 대한 정확도 점수를 합한다. 단계 S320은 수학식 4을 이용하여 정확도 점수 F를 산출할 수 있다.
Figure pat00004
즉, 정확도 점수(F)는 정수부에 대한 정확도 점수(Fn) 및 소수부에 대한 정확도 점수(Fs)의 합이다.
도 4는 본 발명의 일 실시예에 따른 아미노산 서열 확인 장치를 설명하기 위한 블록도이다.
도 4를 참조하면, 아미노산 서열 확인 장치(1)는 탠덤 질량 분석으로 수행하는 아미노산 커버리지 결과의 확인을 용이하게 할 수 있다. 아미노산 서열 확인 장치(1)는 탠덤 질량 분석 데이터를 이용하여 펩티드 단편을 분석하여 아미노산 커버리지를 결과를 확인하는데 소비되는 시간을 줄여줄 수 있다.
아미노산 서열 확인 장치(1)는 입력부(110), 제어부(120), 출력부(130) 및 저장부(140)를 포함한다.
입력부(110)는 단백질의 탠덤 질량 분석 데이터를 수신받는다. 입력부(110)는 상기 탠덤 질량 분석 데이터에 포함된 탠덤 질량 스펙트럼의 정보를 수신받을 수 있다.
즉, 입력부(110)는 단백질의 아미노산 배열을 수신받을 수 있다.
제어부(120)는 입력부(110)에서 수신된 탠덤 질량 스펙트럼들에 각각의 인덱스를 부여한다. 즉, 제어부(120)는 다수의 아미노산 결합들에 대해 각각의 인덱스를 부여할 수 있다.
제어부(120)는 산출된 탠덤 질량 스펙트럼을 이용하여 동일한 인덱스를 가지는 아미노산 결합을 확인하는 피크의 개수를 카운트하여 카운트 값을 산출한다.
제어부(120)는 산출된 탠덤 질량 스펙트럼의 피크들이 지정하는 각각의 인덱스 별로 발생 빈도수를 카운트한 카운트 값을 산출한다. 특히, 상기 카운트 값은 정수부 및 소수부를 포함한다.
제어부(120)는 산출된 카운트 값을 기초로 상기 인덱스에 해당하는 아미노산 결합에 대한 존재를 확인하는 정확도 점수를 산출한다.
제어부(120)는 카운트 값의 정수부에 대한 정확도 점수 및 카운트 값의 소수부에 대한 정확도 점수를 각각 산출한 후, 합을 한다. 제어부(120)에서 산출된 정확도 점수는 0보다 크거나 같고, 1보다는 작다.
제어부(120)는 산출된 정확도 점수를 기초로 기 설정된 정화도 점수 미만의 아미노산 결합 부위를 분류한다.
제어부(120)는 수동으로 재검토가 요구되는 아미노산 결합 부위를 선별할 수 있다. 제어부(120)는 수동으로 재검토할 아미노산 서열 커버리지의 기준이 되는 정확도 점수를 설정할 수 있다. 즉, 상기 기준되는 정확도 점수는 상기 정확도의 범위인 0보다 크거나 같고, 1보다는 작게 설정할 수 있다. 다만, 바람직하게 제어부(120)는 상기 기준되는 정확도 점수를 0.5보다 같거나 크게 설정할 수 있다.
출력부(130)는 제어부(120)에서 분류된 아미노산 결합에 대한 결과를 출력한다. 더 상세하게는, 출력부(130)는 수동으로 재확인 필요한 아미노산 결합 부위를 출력할 수 있다.
출력부(130)는 액정, 모니터, 프로젝터, 파일 및 프린터 중 적어도 하나일 수 있다.
저장부(140)는 입력부(110)에서 수신된 탠덤 질량 데이터가 저장될 수 있다. 또한 저장부(140)는 제어부(120)에서 산출되는 결과값 및 상기 결과값을 산출하기 위한 연산식이 저장될 수 있다.
도 5는 본 발명의 일 실시예에 따른 탠덤 질량 스펙트럼을 설명하기 위한 그래프이고, 도 6은 본 발명의 다른 실시예에 따른 탠덤 질량 스펙트럼을 설명하기 위한 그래프이다. 더 상세하게는 도 5는 펩티드 [ADYEK]+H+의 탠덤 질량 스펙트럼을 설명하기 위한 그래프이고, 도 6은 펩티드 [ADYEK]+2H+의 탠덤 질량 스펙트럼을 설명하기 위한 그래프이다.
이하, 아미노산 서열 확인 방법을 실시예로 더욱 구체적으로 설명한다. 단 하기 실시예들은 본 발명의 설명을 위한 것일 뿐 본 발명의 범위가 하기 실시예에 의하여 한정되는 것은 아니다.
도 5 및 도 6을 참조하면, 아미노산 서열 확인 방법은 탠덤 질량 분석 데이터를 이용하여 펩티드 'ADYEK'에 대한 분석하였다. 특히, 아미노산 사이의 결합에 대한 인덱스를 A-1-D-2-Y-3-E-4-K 와 같이 4개의 인덱스를 부여하였다.
하기 표 1은 도 5의 각 피크에 해당하는 질량과 전하의 비, 신호강도, 배열, 분해 형태 및 인덱스를 나타낸다.
m/z 신호강도 배열 분해 형태 인덱스
159.076 18 AD a 2
187.071 7 AD b 2
276.155 6 EK y 3
322.140 15 ADY a 3
350.135 21 ADY b 3
408.140 13 DYE b,y 1,4
439.219 20 YEK y 2
451.182 9 ADYE a 4
479.177 10 ADYE b 4
554.246 7 DYEK y 1
하기 표 2는 도 6의 각 피크에 해당하는 질량과 전하의 비, 신호강도, 배열, 분해 형태 및 인덱스를 나타낸다.
m/z 신호강도 배열 분해 형태 인덱스
175.571 14 ADY b 3
204.574 5 DYE b,y 14
220.113 6 YEK y 2
240.092 16 ADYE b 4
따라서, 표 1 및 표 2을 하나로 통합하여 표 3으로 나타낸다. 특히, 각 스펙트럼 피크의 신호강도를 기초로 아미노산 결합의 확인도(Ci,j)를 산출하였다.
더 상세하게는 표 1 및 표 2의 데이터 중 가장 큰 신호강도(Imax)는 21이고, 가장 작은 신호강도(Imin)는 5이다. 따라서, 아미노산 커버리지는 상기 수학식 1을 이용하여 산출하였다. 또한 α는 Imin값을 대입하였다.
m/z 신호강도 전하 배열 분해 형태 인덱스 Ci ,j
159.0764 18 1 AD A 2 0.857
187.0713 7 1 AD B 2 0.333
276.1554 6 1 EK Y 3 0.286
322.1397 15 1 ADY a 3 0.714
350.1347 21 1 ADY b 3 1.000
408.1401 13 1 DYE b,y 1,4 0.619
439.2187 20 1 YEK y 2 0.952
451.1823 9 1 ADYE a 4 0.429
479.1773 10 1 ADYE b 4 0.476
554.2457 7 1 DYEK y 1 0.333
175.571 14 2 ADY b 3 0.667
204.5737 5 2 DYE b,y 1,4 0.238
220.113 6 2 YEK y 2 0.286
240.0923 16 2 ADYE b 4 0.762
산출된 아미노산 커버리지는 해당 인덱스 별로 합을 하여 카운트 값을 산출하였다. 상기 카운트 값은 표 4와 같다.
인덱스 카운트 값
n.s_1 1.190
n.s_2 2.429
n.s_3 2.667
n.s_4 2.524
따라서, 제1 인덱스에 해당하는 카운트의 정수부 n_1 = 1, 소수부 s_1 = 0.190 이며, 마찬가지로, n_2 = 2, s_2 = 0.429, n_3 = 2, s_3 = 0.667, n_4 = 2, s_4 = 0.524가 된다.
표 4의 카운트 값을 기초로 정확도 점수를 산출하였다. 정확도 점수는 정수부 및 소수부를 나누어서 산출하였다.
정수부의 정확도 점수는 수학식 2를 이용하여 정수부 n에 해당하는 F1, F2, F3의 값을 산출하였다. 이 때, β는 3으로 설정하였다.
Figure pat00005

소수부의 정확도 점수는 수학식 3을 이용하여 각 인덱스의 Fs 값을 산출하였다.
Fs _1 = (0.655 - 0.197) × 0.190 = 0.089
Fs _2 = (0.913 - 0.665) × 0.429 = 0.106
Fs _3 = (0.913 - 0.665) × 0.667 = 0.165
Fs _4 = (0.913 - 0.665) × 0.524 = 0.130
따라서, 수학식 4를 이용하여 정확도 점수(F)를 산출하였다.
F1 = 0.197 + 0.089 = 0.286
F2 = 0.665 + 0.106 = 0.771
F3 = 0.665 + 0.165 = 0.830
F4 = 0.665 + 0.130 = 0.795
이번 실시예에서는 수동으로 재검사에 대한 기준이 되는 설정값을 0.5로 지정하였으며, 이로 인해 인덱스 1에 해당하는 부분(A-D 결합)만 수동으로 재검사를 하면 되는 것으로 확인하였다.
도 7은 본 발명의 일 실시예에 따른 카운트 값과 정확도 점수의 상관 관계를 설명하기 위한 그래프이다. 특히 도 7은 β= 3일 때를 나타낸 그래프이다.
도 7을 참조하면, X축은 카운트 값(n.s)를 나타내고, Y축은 정확도 점수(F)를 나타낸다. 따라서, 카운트 값과 정확도 점수의 관계는 카운트 값이 커짐에 따라 정확도 점수가 1에 가까워진다. 카운트 값의 증가에 따라 얼마나 빨리 1에 가까워지는지는 지수 값 β에 따라 달라진다.
그리고 카운트 값이 충분히 커서 정확도 점수가 1에 가까울 때, 그 카운트 값에 해당하는 아미노산 결합은 실험적으로 그 존재가 확인되었다는 것을 의미한다. 또한 카운트 값이 작아서 정확도 점수가 0.5 미만이 되면, 해당하는 아미노산 결합의 존재에 대한 증거가 불확실하므로, 수동으로 재검사를 실시하게 된다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 장치에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 하드디스크, ROM, RAM, CD-ROM, 하드 디스크, 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 이상에서 본 발명의 바람직한 실시예에 대해 도시하고 설명하였으나, 본 발명은 상술한 특정의 바람직한 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.
1: 아미노산 서열 확인 장치
110: 입력부
120: 제어부
130: 출력부
140: 저장부

Claims (10)

  1. 단백질의 아미노산 결합들에 각각의 인덱스(index)를 부여하는 단계;
    상기 아미노산 결합을 확인하는 피크의 개수를 카운트(count)하여 카운트 값을 산출하는 단계;
    상기 산출된 카운트 값을 기초로 상기 아미노산 결합에 대한 존재를 확인하는 정확도 점수를 산출하는 단계; 및
    상기 산출된 정확도 점수를 기초로 기 설정된 정확도 점수 미만의 아미노산 결합 부위를 분류하는 단계;를 포함하는 아미노산 서열 확인 방법.
  2. 제 1항에 있어서,
    상기 인덱스를 부여하는 단계는,
    상기 단백질을 질량 분석한 탠덤 질량 분석(Tandem Mass Spectrometry) 데이터를 이용하는 것을 특징으로 하는 아미노산 서열 확인 방법.
  3. 제 2항에 있어서,
    상기 탠덤 질량 분석 데이터는,
    하나의 피크(peak)에 아미노산 결합이 1개 또는 2개의 정보를 포함하는 탠덤 질량 스펙트럼(Tandem Mass Spectrum)을 포함하는 것을 특징으로 하는 아미노산 서열 확인 방법.
  4. 제 3항에 있어서,
    상기 카운트하여 산출하는 단계는,
    상기 카운트된 아미노산 결합의 피크를 수학식 1을 이용하여 특정 아미노산 결합의 확인도(Ci,j)를 산출하는 것을 특징으로 하는 아미노산 서열 확인 방법:
    [수학식 1]
    Figure pat00006

    여기서, Ci ,j는 아미노산 결합 인덱스 i의 확인에 활용되는 현재 피크의 확인도(기여도)를 의미하고, Imax는 피크 강도의 전체 중 가장 큰 피크 강도를 의미하며, Imin는 피크 강도의 전체 중 가장 작은 피크 강도를 의미한다. Ij는 현재 피크의 강도를 의미하고, α는 0보다 크며, 작은 피크 강도의 피크들에 주어지는 중요도를 결정하는 값을 의미한다.
  5. 제 4항에 있어서,
    상기 카운트하여 산출하는 단계는,
    상기 산출된 아미노산 결합의 확인도를 상기 인덱스 별로 합하여 카운트를 산출하는 것을 특징으로 하는 아미노산 서열 확인 방법.
  6. 제 1항에 있어서,
    상기 정확도 점수를 산출하는 단계는,
    수학식 2를 이용하여 상기 카운트의 정수부에 대한 정확도 점수 및 상기 카운트의 소수부에 대한 정확도 점수를 각각 산출한 후, 합을 하는 것을 특징으로 하는 아미노산 서열 확인 방법:
    [수학식 2]
    Figure pat00007

    여기서, F는 카운트의 정확도 점수를 의미하고, Fn는 카운트의 정수부에 대한 정확도 점수를 의미하며, Fs는 카운트의 소수부에 대한 정확도 점수를 의미한다.
  7. 제 6항에 있어서,
    상기 정확도 점수를 산출하는 단계는,
    상기 카운트의 정수부의 정확도 점수를 수학식 3을 이용하여 산출하는 것을 특징으로 하는 아미노산 서열 확인 방법:
    [수학식 3]
    Figure pat00008

    여기서, n은 카운트의 정수부를 의미하고, β는 2 내지 5의 임의의 수를 의미하며, e는 자연수(e=2.71828…)를 의미한다.
  8. 제 6항에 있어서,
    상기 정확도 점수를 산출하는 단계는,
    상기 카운트의 소수부의 정확도 점수를 수학식 4를 이용하여 산출하는 것을 특징으로 하는 아미노산 서열 확인 방법:
    [수학식 4]
    Figure pat00009

    여기서, s는 카운트의 소수부를 의미한다.
  9. 제 1항 내지 제 8항에 기재된 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  10. 단백질의 아미노산 배열을 수신받는 입력부;
    상기 수신된 아미노산 배열에 대한 결합들에 각각의 인덱스(index)를 부여하고, 상기 아미노산 결합을 확인하는 탠덤 질량분석 데이터의 피크 개수를 카운트(count)하여 카운트 값을 산출하며, 상기 산출된 카운트 값을 기초로 상기 아미노산 결합에 대한 존재를 확인하는 정확도 점수를 산출하고, 상기 산출된 정확도 점수를 기초로 기 설정된 정확도 점수 미만의 아미노산 결합 부위를 분류하는 제어부;를 포함하는 아미노산 서열 확인 장치.

KR1020140043414A 2014-04-11 2014-04-11 아미노산 서열 확인 방법 및 장치 Expired - Fee Related KR101596391B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140043414A KR101596391B1 (ko) 2014-04-11 2014-04-11 아미노산 서열 확인 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140043414A KR101596391B1 (ko) 2014-04-11 2014-04-11 아미노산 서열 확인 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20150118226A true KR20150118226A (ko) 2015-10-22
KR101596391B1 KR101596391B1 (ko) 2016-02-23

Family

ID=54426717

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140043414A Expired - Fee Related KR101596391B1 (ko) 2014-04-11 2014-04-11 아미노산 서열 확인 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101596391B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002031509A2 (en) * 2000-10-11 2002-04-18 Compugen Ltd. Method for determining mass altering moiety in peptides
KR100699437B1 (ko) * 2004-10-25 2007-03-27 김상태 아미노산 서열 분석 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002031509A2 (en) * 2000-10-11 2002-04-18 Compugen Ltd. Method for determining mass altering moiety in peptides
KR100699437B1 (ko) * 2004-10-25 2007-03-27 김상태 아미노산 서열 분석 장치 및 방법

Also Published As

Publication number Publication date
KR101596391B1 (ko) 2016-02-23

Similar Documents

Publication Publication Date Title
Jeong et al. FLASHDeconv: ultrafast, high-quality feature deconvolution for top-down proteomics
US6835927B2 (en) Mass spectrometric quantification of chemical mixture components
Kapp et al. An evaluation, comparison, and accurate benchmarking of several publicly available MS/MS search algorithms: sensitivity and specificity analysis
Ma et al. PEAKS: powerful software for peptide de novo sequencing by tandem mass spectrometry
EP2834835B1 (en) Method and apparatus for improved quantitation by mass spectrometry
US20040143402A1 (en) System and method for scoring peptide matches
EP4102509A1 (en) Method and apparatus for identifying molecular species in a mass spectrum
CN101313215A (zh) 质量分析装置
US10825672B2 (en) Techniques for mass analyzing a complex sample based on nominal mass and mass defect information
CN103884806A (zh) 结合二级质谱和机器学习算法的蛋白质组无标记定量方法
JP4058449B2 (ja) 質量分析方法および質量分析装置
KR101596391B1 (ko) 아미노산 서열 확인 방법 및 장치
Zhang et al. PeakSelect: preprocessing tandem mass spectra for better peptide identification
US11211236B2 (en) Operating a mass spectrometer utilizing a promotion list
Liu et al. DISC: DISulfide linkage Characterization from tandem mass spectra
US20120232805A1 (en) Computerized Amino Acid Composition Enumeration
JP2007121134A (ja) タンデム質量分析システム
JP4651341B2 (ja) マススペクトル測定方法
US10032613B2 (en) Non-parametric methods for mass spectromic relative quantification and analyte differential abundance detection
Song et al. Bioinformatics methods for protein identification using peptide mass fingerprinting
Song et al. Confidence assessment for protein identification by using peptide‐mass fingerprinting data
Yuen SPIDER: reconstructive protein homology search with de novo sequencing tags
Pelikan et al. Efficient peak-labeling algorithms for whole-sample mass spectrometry proteomics
CN115019889A (zh) 化学探针鉴定与评估方法、装置
Straub Enhanced LC-MS/MS proteomic difference testing via integration of peptide ion intensities with spectral counts

Legal Events

Date Code Title Description
A201 Request for examination
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20140411

PA0201 Request for examination
E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20150713

Patent event code: PE09021S01D

PG1501 Laying open of application
E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20160128

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20160216

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20160217

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
FPAY Annual fee payment

Payment date: 20190219

Year of fee payment: 4

PR1001 Payment of annual fee

Payment date: 20190219

Start annual number: 4

End annual number: 4

FPAY Annual fee payment

Payment date: 20200203

Year of fee payment: 5

PR1001 Payment of annual fee

Payment date: 20200203

Start annual number: 5

End annual number: 5

PC1903 Unpaid annual fee

Termination category: Default of registration fee

Termination date: 20211127