KR100858326B1 - 단백질 2-de 젤 이미지 스팟 매칭에서 다중 참조이미지를 사용한 단백질 클래스의 정확도 향상 방법 - Google Patents

단백질 2-de 젤 이미지 스팟 매칭에서 다중 참조이미지를 사용한 단백질 클래스의 정확도 향상 방법 Download PDF

Info

Publication number
KR100858326B1
KR100858326B1 KR1020070016816A KR20070016816A KR100858326B1 KR 100858326 B1 KR100858326 B1 KR 100858326B1 KR 1020070016816 A KR1020070016816 A KR 1020070016816A KR 20070016816 A KR20070016816 A KR 20070016816A KR 100858326 B1 KR100858326 B1 KR 100858326B1
Authority
KR
South Korea
Prior art keywords
pair
protein
protein class
support
pairs
Prior art date
Application number
KR1020070016816A
Other languages
English (en)
Other versions
KR20080076626A (ko
Inventor
이원석
김연화
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020070016816A priority Critical patent/KR100858326B1/ko
Publication of KR20080076626A publication Critical patent/KR20080076626A/ko
Application granted granted Critical
Publication of KR100858326B1 publication Critical patent/KR100858326B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Biomedical Technology (AREA)
  • Urology & Nephrology (AREA)
  • Hematology (AREA)
  • Immunology (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Cell Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 단백질 2-DE 젤 이미지 스팟 매칭에서 다중 참조 이미지를 사용한단 백질 클래스의 정확도 향상 방법에 관한 것으로서, 품질이 좋은 다중 참조 이미지를 선택 사용하여 스팟 매칭을 반복 진행함으로써 패어 트랜잭션 데이터베이스를 구축한 뒤, 구축한 데이터베이스에서 높은 지지도의 단백질 클래스를 제공함으로써, 스팟 매칭의 정확도를 향상시키고, 에러를 효과적으로 제거하여 보다 정확도가 높은 단백질 클래스를 제공할 수 있는 방법에 관한 것이다. 본 발명에서는 지지도가 높은 동일한 단백질 클래스를 생성하기 위하여 스팟 매칭에서 생성된 빈발한 패어를 확장하는 방법을 적용함으로써 생물학적 데이터의 특성에 적합한 효율적인 알고리즘을 선택하여 보다 향상된 성능을 제공할 수 있게 된다.
Figure R1020070016816
단백질체학, 이차원 전기영동, 2-DE, 젤 이미지, 스팟 매칭, 다중 참조 이미지, 단백질 클래스

Description

단백질 2-DE 젤 이미지 스팟 매칭에서 다중 참조 이미지를 사용한 단백질 클래스의 정확도 향상 방법{Protein Class Accuracy Improving Method Using Multiple Reference Images in Protein 2-DE Image Spot-matching Operations}
도 1은 2차원 전기영동 방식에 의하여 생성된 2-DE 젤 이미지의 예를 나타낸 도면,
도 2는 이미지 gr을 참조 이미지로 하고 G-{gr}을 대상 이미지로 하여 스팟 매칭을 진행할 때 패어-교차 연결을 생성하는 과정을 나타낸 도면,
도 3은 본 발명에 따른 단백질 클래스의 정확도 향상을 위한 과정을 나타낸 순서도,
도 4는 본 발명에서 이미지 집합 G={g1,g2,g3,g4}에서 각 이미지를 참조 이미지로 사용하였을 때 생성되는 패어 트랜잭션 데이터베이스에서 순수 패어와 모순 패어 집합의 예를 나타낸 도면,
도 5는 본 발명에서 모든 모순 패어 집합에서 유효한 빈발 1-패어를 찾기 위하여 사용할 수 있는 δ-정제(purification) 알고리즘을 나타낸 도면,
도 6은 본 발명에서 단백질 클래스에서 에러 패어를 제거하는 알고리즘을 나 타낸 도면,
도 7은 본 발명에서 단백질 클래스를 정제하는 예를 나타낸 도면,
도 8은 본 발명에서 단백질 클래스 데이터베이스를 제거한 후 생성된 정제된 단백질 클래스 데이터베이스를 나타낸 도면,
도 9는 본 발명에서 패어 확장 알고리즘을 나타낸 도면,
도 10은 본 발명에서 패어-교차 확장 과정의 예를 나타낸 도면,
도 11은 본 발명에서 2-단계 패어 확장 알고리즘을 나타낸 도면,
도 12는 본 발명에서 2-단계 패어-교차 확장의 예를 나타낸 도면,
도 13은 본 발명에서 수정된 2-단계 패어 확장 알고리즘을 나타낸 도면,
도 14는 참조 이미지 수가 증가할 때 서로 다른 지지도를 가지는 순수 패어 샘플 집합의 CR(Correct Ratio)를 나타낸 도면,
도 15는 모순 패어 집합에서 정제된 패어의 CR(Correct Ratio)를 나타낸 도면,
도 16은 가상 젤 이미지를 참조 이미지로 사용하였을 때 생성된 패어의 수와 다중 참조 이미지를 사용하였을 때 생성된 패어의 수를 비교한 도면,
도 17은 δ-정제(purification)에 의하여 제거되는 패어의 정확도를 나타낸 도면,
도 18은 10개의 참조 이미지를 사용하였을 때 서로 다른 δmin 값에 의해 δ-정제(purification) 알고리즘을 진행하여 생성된 패어를 사용하여 확장시킨 단백질 클래스의 정확도를 나타낸 도면.
본 발명은 단백질 2-DE 젤 이미지 스팟 매칭에서 다중 참조 이미지를 사용한 단백질 클래스의 정확도 향상 방법에 관한 것으로서, 더욱 상세하게는 품질이 좋은 다중 참조 이미지를 선택 사용하여 스팟 매칭을 반복 진행함으로써 패어 트랜잭션 데이터베이스를 구축한 뒤, 구축한 데이터베이스에서 높은 지지도의 단백질 클래스를 제공함으로써, 스팟 매칭의 정확도를 향상시키고, 에러를 효과적으로 제거하여 보다 정확도가 높은 단백질 클래스를 제공할 수 있는 방법에 관한 것이다.
오늘날 유전체학 분야가 발전함에 따라 생물체의 유전적 특성에 기반한 단백질체학 연구가 중요한 관심 이슈로 떠오르고 있다.
단백질체학 연구는 주어진 셀이나 조직, 생물체에 표현된 단백질 프로파일에 대한 조직적인 분석을 다루고 있다. 이러한 단백질체학 연구의 목적은 임의의 조직에서 어떤 단백질이 발견되는지, 특정 조건 하에서 단백질이 어떻게 상호 작용하는 지를 분석하며, 각 단백질이 조직 세포나 생리적인 시스템에서 수행하는 기능을 밝히고, 질병과 연관성이 있는 단백질을 밝혀내는 것이다. 특히, 유전자 명령으로 만들어진 단백질체를 대상으로 특정 조건 하에서 단백질의 기능 이상 및 구조 변형 유무를 규명하고 질병 과정을 추적하는 것이 목표다.
상기한 목적에서, 임의의 조직에서 특정 조건에 따른 단백질의 발현량의 변화 분석은 조직의 기능 장애를 일으키는 단백질의 도출에 있어서 핵심 이슈 중의 하나이다.
단백질 분석에는 2-DE(2-Dimensional Electrophoresis)와 Non-2-DE의 두 가지 기술이 사용되고 있으며, 전자는 전기영동 방식을 사용하여 임의의 조직에서 상이한 단백질들을 동시에 분리하는 방식이다[S. Y. Cho, K.-S. Park, J.E.Shim, M.-S.Kwon, K.H.Joo, W.S.Lee, J.Chang, H.Kim, H.C.Chung, H.O.Kim, Y.-K.Paik, "An integrated proteome database for two-dimensional electrophoreses data analysis and laboratory information management system", Proteomics, 2, 1104-1113, 2002.].
그리고, 후자는 주로 ICAT(Isotope Coded Affinity Tag)[Gygy, S.P., Rist, B., Gerber, S.A., Tureck, F. et al., "Nat. Biotech", 17, 994-999, 1999.]나 MCAT(Mass-Coded Abundance Tagging)[Cagney, G., Emili, E., "Nat. Biotech", 20, 163-170, 2002.], MCAT(Mass Coded Abundance Tag)[Patrick H. O’Farrell. “High Resolution Two-Dimensional Electrophoresis of Proteins”. The journal of biochemical chemistry, Vol.250, No.10, Issue of May 25, pp,400-421, 1975.]와 같은 특정 친화성 태그(affinity tagging)나 LC-MS(Liquid Chromatography-Mass Spectrometry)를 사용하여 조직에 들어 있는 단백질들을 분리하며, 자동화에 유용하고 처리율이 높다.
Non-2-DE 기술이 보다 정확한 결과를 제공하지만, 여전히 2-DE 기술이 가격, 효율성 등으로 인해 단백질의 발현 패턴 분석에 주로 이용되는 기술이다[Celis, J.E., Rasmussen, H.H., Gromov, P., Olsen, E. et al., "Electrophoresis", 16, 2177-2240, 1995; Rabilloud, T., "Proteomics", 2, 3-10, 2002.]. 비록 Non-2-DE 방식이 새롭게 등장하는 기술이기는 하지만, 2-ED 방식이 예전부터 널리 사용되어 왔고 현재도 많은 실험실에서 지속적으로 사용하고 있는 방식으로 비용과 경험 면에서 완전히 새로운 방식으로 대체할 수 없는 기술이다.
2-DE 방법은 조직 내의 단백질을 등전점에 의해 1차원으로 분리하고, 이를 분자량에 의해 2차원으로 분리하는 기법이다. 분리가 끝난 후에는 2-DE 젤 이미지(gel image)가 생성되며, 젤 이미지에서의 하나의 스팟(spot)은 하나의 단백질로 매핑(mapping)된다. 첨부한 도 1은 2차원 전기영동 방식에 의하여 생성된 2-DE 젤 이미지의 예를 나타낸 도면이다.
2차원 전기영동 방식에서 샘플 안에 포함된 단백질들을 그것들의 전기적인 성질에 의하여 x축으로 분리한 다음 단백질의 분자량에 의하여 y축으로 분리하며, 분리된 하나의 2-DE 젤 이미지는 수천 개의 스팟들을 포함한다. 스팟들은 해당 샘플 내에 존재하는 여러 종류의 단백질을 나타낸다. 이와 같이 2-DE의 결과는 평균적으로 1000개 이상의 스팟을 포함하는 2-DE 젤 이미지로 표현되며, 각 스팟은 분리된 단백질을 나타내고, 각 단백질의 발현량은 농도(intensity)라 불리는 척도로 표현된다. 특정 질병에 의해 발현량이 변하는 단백질은 그 질병에 대한 잠재적인 마커 단백질이 될 수 있다.
각 스팟은 그것이 표시하는 단백질의 특성에 의하여 서로 다른 속성값을 가 지며, 하나의 샘플에서 유일한 식별자 spotID를 가진다. 각 스팟은 해당 샘플 내에서의 위치에 따라 좌표값 (x,y)(스팟의 위치 정보로서 이미지상의 X축 및 Y축 좌표 정보임)를 가지며, 크기, 명암도, 모양 등에 의하여 OD(Optical Density), Vol(Volume), %OD, %Vol의 속성값을 가진다. OD 값은 스팟의 절대적인 명암도를 나타내며, Vol은 스팟의 명암도에 의하여 3차원으로 나타냈을 때의 볼륨 값을 의미한다. %OD와 %Vol은 각각 OD와 Vol을 표준화한 값으로, 젤 이미지 내의 모든 스팟의 OD, Vol의 합을 100으로 했을 때 각 스팟의 OD, Vol 값의 백분율을 나타낸 상대적인 값이다.
하나의 2-DE 젤 이미지는 수천 개의 스팟을 포함하고 있기 때문에, 모든 스팟에 대하여 사용자가 직접 일일이 분석을 진행하는 것은 불가능하다. 따라서, 많은 생물학자들은 Melanie, Progenesis, PDQuest 등과 같은 상업용 분석 소프트웨어를 사용하여 이미지에 대한 분석을 진행한다. 모든 2-DE 이미지 분석 소프트웨어는 "스팟 검출"과 "스팟 매칭" 두 가지 과정을 거쳐서 샘플에 포함된 단백질에 대한 분석을 진행할 수 있게 되어 있다.
스팟 검출 과정에서는 Laplacian, Gaussian, smooth-by-diffusion 등 각종 여러 가지 방법으로 이미지에 존재하는 스팟의 모양과 명암을 인식하여 개개의 분리된 스팟을 검출해낸다. 스팟 매칭에서는 스팟 검출 과정을 거친 두 개의 서로 다른 이미지에 존재하는 동일한 스팟들을 연결시킨다. 따라서, 두 이미지의 동일한 단백질을 표시하는 두 스팟은 패어-교차 연결(pair-wise association)이라는 관계를 형성하게 된다.
2-DE 이미지의 "스팟 매칭" 과정에서는 스팟 분리가 잘 되고 에러를 적게 포함한 하나의 이미지를 선택하여 참조 이미지로 사용한다. 선택된 참조 이미지를 기준 이미지로 하여 남은 다른 이미지들을 대상으로 스팟 매칭을 진행하게 된다. 스팟 매칭에서 참조 이미지와 대상 이미지를 매핑하기 위하여 두 이미지 사이의 기준점을 잡아준다. 두 이미지에서 존재하는 서로 같은 위치를 잡아줌으로써 이미지의 찌그러짐 등으로 인하여 스팟 매칭시에 발생할 오류를 잡아줄 수 있는 정보가 제공된다. 이러한 위치는 이미지상의 한 좌표를 나타내는 기준점(Melanie에서 landmark)이나 이미지의 동일한 영역을 나타내는 AOI(Progenesis에서 관심영역)를 설정해 줌으로써 두 이미지의 특정 위치를 동기화시킬 수 있다. 이런 정보들은 스팟 매칭을 진행하기 전에 사용자에 의해서 수동으로 설정하게 된다. 스팟 매칭을 통하여 참조 이미지의 모든 스팟은 자신과 비슷한 위치에 있고 비슷한 속성을 나타내고 있는 대상 이미지의 스팟들과 패어-교차 연결을 형성하게 된다. 따라서, 한 패어-교차 연결에 포함된 두 스팟은 동일한 단백질을 나타낸다.
보편적으로 2-DE 젤 이미지 분석을 위하여 많은 수의 이미지 샘플들을 사용한다. 따라서, 스팟 매칭은 참조 이미지와 모든 대상 이미지들 사이에서 각각 진행되며, 이때 생성된 패어-교차 연결에서 동일한 참조 이미지의 스팟과 패어-교차 연결을 형성한 서로 다른 대상 이미지의 두 스팟은 동일한 단백질로 간주된다. 이에 참조 이미지의 한 스팟과 패어-교차 연결이 발생한 대상 이미지들의 스팟은 하나의 집합을 형성하게 되며, 이 집합에 포함된 모든 스팟은 동일한 종류의 스팟으로 인식된다. 이렇게 형성된 패어-교차 연결의 집합의 최대 수는 참조 이미지에 포함된 스팟의 수와 같다.
이와 같이 단백질체학에서 2-DE는 조직 내의 단백질을 규명하는 단백질 분리 기술로서, 2-DE에 의하여 생성된 단백질 이미지에서 스팟 매칭을 진행하여 상이한 단백질 젤 내에 존재하는 동일한 단백질 클래스(protein class)를 찾을 수 있으며, 동일한 단백질 클래스에 대한 각종 정량 분석을 통하여 특정 질병에 관여하는 단백질, 질병 진행 과정에서 단백질의 발현량 변화, 단백질 사이의 상호 작용을 연구하게 된다. 그러나, 단백질 2-DE 이미지는 실험 환경의 변화에 민감하며, 객체 차이에 의하여 이미지 간의 변화가 크다. 따라서, 스팟 매칭에 의해 제공되는 동일한 단백질 클래스는 먼지, 다른 단백질 스팟을 포함하게 되며, 낮은 정확도를 가지게 된다.
2-DE 젤 이미지 분석에서 스팟 매칭에 의하여 생성된 단백질 클래스의 정확도는 사용자의 선택과 밀접한 관련이 있다. 그것은 사용자가 스팟 매칭을 진행하기 위하여 기준점을 선택하고 참조 이미지를 선택하는 등 중요한 결정을 직접 내리기 때문이다. 특히, 2-DE 젤 이미지는 2차원 전기영동 실험에 존재하는 각종 문제점 및 단백질의 비정형성과 객체 간의 차이, 이미지의 찌그러짐 등으로 인하여 이미지 간의 스팟 매칭이 선택되는 참조 이미지에 따라 상이한 결과를 생성하는 것으로 알려져 있다. 그러므로 스팟 매칭에서 참조 이미지의 선택은 어려운 문제로 나타나게 된다. 이 문제를 해결하기 위하여 Nonlinear Dynamics에서 개발한 소프트웨어 Progenesis에서는 참조 이미지를 선택할 때 여러 개의 이미지를 스팟 속성에 대한 통계에 의해 하나의 가상 참조 이미지를 생성하여 스팟 매칭을 진행하게 된다. 그 러나, 가상 이미지들은 스팟들의 통계를 이용하여 실제적으로 존재하지 않는 2-DE 이미지를 생성하여 참조 이미지로 사용할 수 있기 때문에 스팟 매칭의 정확도를 더 감소시킬 수 있다.
따라서, 본 발명은 상기와 같은 문제점을 해결하기 위하여 발명한 것으로서, 품질이 좋은 다중 참조 이미지를 선택 사용하여 스팟 매칭을 반복 진행함으로써 패어 트랜잭션 데이터베이스를 구축한 뒤, 구축한 데이터베이스에서 높은 지지도의 단백질 클래스를 제공함으로써, 스팟 매칭의 정확도를 향상시키고, 에러를 효과적으로 제거하여 보다 정확도가 높은 단백질 클래스를 제공할 수 있는 방법을 제공하는데 그 목적이 있다.
상기한 목적을 달성하기 위해, 본 발명은, 단백질 2-DE 젤 이미지의 스팟 매칭 과정에서 참조 이미지를 사용하여 단백질 클래스를 생성하는 방법에 있어서,
2-DE 젤 이미지 집합이 주어지면 그로부터 이미지에 포함된 스팟의 수를 품질 척도로 하여 복수의 참조 이미지를 선택함으로써 참조 이미지 집합을 구하는 단계와; 상기 선택된 각 참조 이미지에 대해 독립적으로 스팟 매칭을 진행하여 선택된 모든 참조 이미지에 대해 스팟 매칭을 반복함으로써 패어 트랜젝션 데이터베이스와 단백질 클래스 데이터베이스를 구축하는 단계와; 상기 패어 트랜젝션 데이터 베이스에 포함된 패어들을 δ-정제(purification) 알고리즘에 의해 빈발 1-패어 집합과 에러 1-패어 집합으로 분류하는 단계와; 상기 단백질 클래스 데이터베이스에서 필터링 알고리즘에 따라 에러 1-패어 집합을 필터링하여 단백질 클래스 데이터베이스에서 상기 에러 1-패어 집합의 패어들을 제거하는 단계와; 상기 필터링에 의해 생성된 정제된 단백질 클래스 사이에서 발생한 모순을 제거하는 단계와; 상기 단백질 클래스에서 지지도가 미리 설정된 지지도 임계치인 최소 지지도 이상이 되는 단백질 클래스를 선별하여 추출하는 단계;를 포함하는 것을 특징으로 하는 단백질 2-DE 젤 이미지 스팟 매칭에서 다중 참조 이미지를 사용한 단백질 클래스의 정확도 향상 방법을 제공한다.
그리고, 본 발명은, 단백질 2-DE 젤 이미지의 스팟 매칭 과정에서 참조 이미지를 사용하여 단백질 클래스를 생성하는 방법에 있어서,
2-DE 젤 이미지 집합이 주어지면 그로부터 이미지에 포함된 스팟 수를 품질 척도로 하여 복수의 참조 이미지를 선택함으로써 참조 이미지 집합을 구하는 단계와; 상기 선택된 각 참조 이미지에 대해 독립적으로 스팟 매칭을 진행하여 선택된 모든 참조 이미지에 대해 스팟 매칭을 반복함으로써 패어 트랜젝션 데이터베이스와 단백질 클래스 데이터베이스를 구축하는 단계와; 상기 패어 트랜젝션 데이터베이스에 포함된 패어들을 δ-정제(purification) 알고리즘에 의해 빈발 1-패어 집합과 에러 1-패어 집합으로 분류하는 단계와; 패어 확장 방법으로 상기 빈발 1-패어 집합의 패어들을 확장하는 단계와; 상기 확장 단계에 의해 생성된 정제된 단백질 클래스 사이에서 발생한 모순을 제거하는 단계와; 상기 단백질 클래스에서 지지도가 미리 설정된 지지도 임계치인 최소 지지도 이상이 되는 단백질 클래스를 선별하여 추출하는 단계;를 포함하는 것을 특징으로 하는 단백질 2-DE 젤 이미지 스팟 매칭에서 다중 참조 이미지를 사용한 단백질 클래스의 정확도 향상 방법을 제공한다.
이하, 첨부한 도면을 참조하여 본 발명을 상세히 설명하면 다음과 같다.
본 발명은 단백질 2-DE 젤 이미지 스팟 매칭(spot matching)에서 다중 참조 이미지를 사용한 단백질 클래스(protein class)의 정확도 향상 방법에 관한 것으로서, 다중 참조 이미지를 선택 사용하여 스팟 매칭을 반복 진행함으로써 패어 트랜잭션(pair transaction) 데이터베이스를 구축하고, 구축한 데이터베이스에서 빈발(frequent) 1-패어를 확장하는 2-단계 패어-교차(pair-wise) 확장 알고리즘을 사용하여 정확도가 높은 단백질 클래스를 생성할 수 있도록 한 단백질 클래스의 정확도 향상 방법에 관한 것이다.
즉, 주어진 2-DE 젤 이미지 집합에서 품질이 좋은 여러 개의 참조 이미지를 선택하여 스팟 매칭을 진행한다. 각 참조 이미지에 대하여 하나의 패어 트랜잭션이 생성되며, m개의 참조 이미지를 사용하였을 때 m 개의 트랜잭션을 가지는 데이터베이스를 구성하게 된다. 해당 패어 트랜잭션 데이터베이스에서, 만일 특정 이미지의 스팟이 다른 이미지의 스팟과 패어-교차 연결(pair-wise association)을 형성한 횟수가 빈발하면, 그 두 스팟이 동일한 단백질일 확률이 크다. 따라서, 동일한 단백질일 확률이 큰 패어들을 확장하여 생성한 단백질 클래스의 정확도는 단 하나의 이미지에 의하여 생성된 단백질 클래스의 정확도보다 크게 될 것이다.
이에 따라, 본 발명은, 하나의 참조 이미지만을 사용하여 단백질 클래스를 생성하는 종래 방식의 문제점을 개선하여, 여러 참조 이미지를 사용한 스팟 매칭에 의하여 생성된 데이터베이스에서 지지도가 높은 단백질 클래스를 선택함으로써 단백질 클래스의 정확도를 향상시키고자 한 것이다.
이와 같이 본 발명에서는 품질이 좋은 다중 참조 이미지를 선택 사용하여 스팟 매칭을 반복 진행함으로써 패어 트랜잭션 데이터베이스를 구축한 뒤, 구축한 데이터베이스에서 높은 지지도의 단백질 클래스를 제공함으로써, 스팟 매칭의 정확도를 향상시키고, 에러를 효과적으로 제거하여 보다 정확도가 높은 단백질 클래스를 제공하게 된다.
이하, 본 명세서에서는 본 발명에서 해결하고자 하는 문제에 대해 좀더 상세한 설명을 전개하며, 이어 본 발명에서 제시된 2-단계 패어 확장 알고리즘을 사용하여 단백질 클래스를 생성하는 과정을 상세히 설명하기로 한다. 또한 본 발명자는 제시한 알고리즘의 정확도에 대한 검증을 여러 번의 실험을 통해 진행하였으며, 이에 대한 설명을 기술하기로 한다.
먼저, 본 발명에서 해결하고자 하는 문제에 대해 좀더 상세히 설명하기로 한다.
문제 정의
단백질 2-DE 젤 이미지와 단백질 스팟을 정의하기 위하여 하기 표 1에 있는 정의를 사용한다. n개의 젤 이미지를 포함하고 있는 이미지 집합 G={g1,g2,...,gn} 이 주어졌을 때, 젤 이미지 gr∈G를 참조 이미지로 하고 PA(gr,gj)를 이미지 gr과 gj 사이에 형성된 모든 패어-교차 연결이라고 정의한다. 만일 참조 이미지 gr의 스팟
Figure 112007014761808-pat00001
이 대상 이미지 gi∈G(r≠1)의 스팟
Figure 112007014761808-pat00002
와 패어-교차 연결을 형성한다면 하나의 패어-교차 연결
Figure 112007014761808-pat00003
이 생성된다. 참조 이미지 gr의 스팟
Figure 112007014761808-pat00004
가 서로 다른 두 대상 이미지 gi 및 gj의 두 스팟
Figure 112007014761808-pat00005
Figure 112007014761808-pat00006
와 동시에 패어-교차 연결을 형성한다면, 스팟
Figure 112007014761808-pat00007
Figure 112007014761808-pat00008
는 또 다른 하나의 패어-교차 연결, 즉
Figure 112007014761808-pat00009
를 생성하게 된다. 따라서, 특정 참조 이미지 gr∈G에 대하여 G에 속한 모든 대상 이미지와 생성된 패어-교차 연결 집합을
Figure 112007014761808-pat00010
로 표시할 수 있다.
Figure 112007014761808-pat00011
2-DE 실험에 의하여 생성된 단백질 2-DE 이미지는 먼지, 공기방울 등 이물질이 포함될 수 있다. 기존의 상용 분석 소프트웨어는 각종 에러 스팟 검출 알고리즘을 사용하여 스팟 검출시에 대부분의 이물질을 제거하고 최대한 실제 단백질 스팟들을 검출할 수 있도록 제작되고 있다. 그러나, 에러 제거 알고리즘에 의하여 제거할 수 없는 상당수의 에러들이 스팟 검출 과정에 단백질 스팟으로 인식된다.
첨부한 도 2는 이미지 gr을 참조 이미지로 하고 G-{gr}을 대상 이미지로 하여 스팟 매칭을 진행할 때 패어-교차 연결을 생성하는 과정을 보여주고 있다. 젤 이미지에서 한 스팟은 하나의 특정 단백질을 나타낸다. 따라서, 참조 이미지 gr에 존재하는 모든 스팟은 오직 하나의 대상 이미지 G-{gr}의 스팟과 패어-교차 연결을 형성하여야 한다. 또한 Φ(gr)에 포함되는 모든 패어-교차 연결들은 G에 존재하는 모든 스팟들 사이에서 반드시 일대일 관계를 유지해야 하며, 하기 속성 1에서 그 관계를 정의한다.
[속성 1] 패어-교차 연결의 유일성
두 스팟
Figure 112007014761808-pat00012
Figure 112007014761808-pat00013
이 Φ(gr)에서 하나의 패어-교차 연결
Figure 112007014761808-pat00014
을 형성할 때, 두 스팟은 이미지 gi와 gj의 서로 다른 두 스팟
Figure 112007014761808-pat00015
와 패어-교차 연결을 생성할 수 없다. 즉, Φ(gr)에
Figure 112007014761808-pat00016
가 존재할 경우,
Figure 112007014761808-pat00017
Figure 112007014761808-pat00018
을 동시에 포함할 수 없다.
하기 정의 1에는 단백질 클래스의 정의를 사용하여 서로 다른 이미지 내에 들어 있는 동일한 단백질을 나타내는 스팟의 집합을 나타내고 있다. 젤 이미지 gr을 참조 이미지로 하였을 때 스팟 매칭에 의하여 생성되는 단백질 클래스들의 집합을
Figure 112007014761808-pat00019
로 정의한다. 모든 단백질 클래스는 반드시 하나의 참조 이미지 스팟을 포함하고 있어야 하기 때문에 PS(gr)에 들어 있는 단백질 클래스의 최대 개수는 참조 이미지 gr이 포함하고 있는 스팟 수이다. 따라서, 스팟 매칭의 특성에 의하여 하나의 단백질 클래스는 하기 정리 1과 정리 2를 만족해야 한다. 정리 2는 패어-교차 연결의 유일성에 의하여 유도될 수 있다.
[정의 1] 단백질 클래스
Figure 112007014761808-pat00020
참조 이미지 gr에 의하여 생성된 모든 패어-교차 연결의 집합 Φ(gr)에서 단백질 클래스
Figure 112007014761808-pat00021
는 스팟 참조 이미지 gr의 스팟
Figure 112007014761808-pat00022
와 패어-교차 연결 관계를 가지고 있는 모든 대상 이미지들의 스팟의 집합으로 다음의 수학식 1과 같이 표시할 수 있다.
Figure 112007014761808-pat00023
정의에서 알 수 있듯이 특정 참조 이미지에 의하여 생성된 하나의 단백질 클래스의 스팟은 서로 다른 이미지로부터 선택된 것이다.
[정리 1] 젤 이미지 집합 G={g1,g2,...,gn}이 주어졌을 때, 참조 이미지 gr∈G에 의하여 생성된 모든 패어-교차 연결의 집합 Φ(gr)에서,
Figure 112007014761808-pat00024
은 단백질 클래 스
Figure 112007014761808-pat00025
에 포함되어 있는 스팟의 개수를 표시한다. 만일
Figure 112007014761808-pat00026
일 때, Φ(gr)에서 단백질 클래스
Figure 112007014761808-pat00027
에 의하여 포함될 수 있는 패어-교차 연결의 수는 k(k-1)/2이다.
증명) 단백질 클래스
Figure 112007014761808-pat00028
가 포함하고 있는 스팟 수가 k일 때, 참조 이미지의 스팟
Figure 112007014761808-pat00029
와 (k-1)개의 대상 이미지 스팟들 사이에 (k-1)의 패어-교차 연결이 존재한다는 것을 알 수 있다. 또한 (k-1)개의 대상 이미지에 존재하는 스팟들은 모든 두 스팟들 사이에 패어-교차 연결 관계가 존재하기 때문에 모두 kC2 개의 패어-교차 연결을 생성할 수 있다. 따라서, 단백질 클래스
Figure 112007014761808-pat00030
가 포함할 수 있는 전체 패어-교차 연결의 수는 (k-1) + k-1C2 = kC2 = k(k-1)/2 이다.
[정리 2] 참조 이미지 gr에 의한 스팟 매칭으로 생성된 모든 단백질 클래스는 반드시 공통되는 스팟을 포함하지 않는다. 즉,
Figure 112007014761808-pat00031
이다.
증명) 서로 다른 두 단백질 클래스
Figure 112007014761808-pat00032
Figure 112007014761808-pat00033
가 하나의 공통되는 스팟
Figure 112007014761808-pat00034
을 모두 포함하고 있다고 가정한다. 단백질 클래스의 정의에 의하여 두 패어-교차 연결
Figure 112007014761808-pat00035
은 반드시 Φ(gr)에 포함되어야 한다. 그러나, 이것은 패어-교차 연결의 유일성과 모순이 된다. 따라서, 가정은 성립할 수 없으며, 한 참 조 이미지에 의하여 생성된 임의의 서로 다른 단백질 클래스의 교집합은 공집합이고, 따라서 모든 단백질 클래스는 공통한 부분을 포함할 수 없다.
2-DE 이미지는 동일한 조직임에도 불구하고 객체의 차이와 2-DE 실험의 환경, 실험자의 특성에 의하여 생성된 이미지가 서로 다른 노이즈를 포함하게 되며, 상이한 패턴으로 이미지가 찌그러질 수 있다. 이러한 오류들의 영향을 최소화하기 위하여 전체 이미지 그룹에서 품질이 좋은 이미지들을 선택하여 참조 이미지 그룹을 선택할 필요성이 있다. 그러나, 대부분의 경우에 품질이 좋은 참조 이미지를 선택한다는 것은 아주 어려운 선택이 된다. 이미지들은 서로 다른 종류의 노이즈와 서로 다른 부분 및 다른 패턴의 찌그러짐을 가질 수 있기 때문에 숙련된 사용자라고 할지라도 경험과 주관적인 기준에 의하여 참조 이미지를 선택할 수 있다. 이러한 사용자들의 주관성을 배제하기 위하여 본 발명에서는 2-DE 젤 이미지에 포함된 스팟 수를 이미지 품질의 척도로 사용하여 스팟 수가 많을수록 참조 이미지로 선택되게 한다. 그것은 만일 젤에 포함된 단백질 스팟의 분리가 잘 될수록 그것이 포함하고 있는 스팟의 수도 증가하기 때문이다. 그러나, 스팟의 수가 많을수록 그것에 포함되어 있는 에러 스팟의 수도 증가할 수 있다. 이때, 만일 단 하나의 이미지를 참조 이미지로 하여 스팟 매칭을 진행하면, 많은 수의 에러 스팟들에 의하여 스팟 매칭의 정확도는 감소될 수 있다. 그러나, 각 이미지에 포함된 에러 스팟이 서로 다르기 때문에 에러 스팟에 의하여 형성된 패어-교차 연결이 반복되는 스팟 매칭에서 같은 결과를 가져 올 수가 없다. 이에 따라, 다수의 이미지를 참조 이미지로 선택하여 진행된 스팟 매칭의 결과에서 더 빈발하게 발생된 패어-교차 연결일수록 더 정확한 패어일 확률이 높아지며, 반대로 잘못된 패어-교차 연결일수록 발생하는 빈도가 낮아질 것이다.
선택된 모든 참조 이미지들을 사용하여 스팟 매칭을 반복적으로 수행함으로써 각 참조 이미지에 해당하는 패어-교차 연결을 생성한다. 각 이미지는 서로 다른 노이즈와 상이한 패턴으로 발생하는 이미지 찌그러짐으로 인하여 각 참조 이미지들은 서로 다른 내용의 패어-교차 연결을 포함하게 된다. 그리하여, 패어-교차 연결의 유일성은 더 이상 유효하지 않게 되며, 각 참조 이미지 gr에 의하여 생성된 패어-교차 연결의 집합 Φ(gr)을 하나의 단위로 유지하여 패어 트랜잭션(pair transaction)이라 부른다. 다중 참조 이미지를 사용하여 스팟 매칭을 진행하였을 때, 한 패어-교차 연결이 더 많은 수의 패어 트랜잭션에 포함될 경우에 정확한 패어일 확률이 클 것이다. 그러므로 다중 참조 이미지를 사용한 스팟 매칭을 통하여 각 패어의 확률을 확인함으로써 정확한 패어를 판단할 수 있다.
젤 이미지 집합 G 와 참조 이미지 집합 R={r1,r2,...,rm}(rk∈G, 1≤k≤n, R⊆G)이 주어진다. m개의 패어 트랜잭션을 포함하고 있는 데이터베이스 PD={Φ(r1),Φ(r2),...,Φ(rm)}에서, 패어-교차 연결
Figure 112007014761808-pat00037
은 패어-교차 연결의 유일성을 만족할 때 순수 패어라고 한다. 즉, 데이터베이스 PD에서 만일
Figure 112007014761808-pat00038
이 순수 패어가 되려면 그것이 포함하고 있는 두 스팟
Figure 112007014761808-pat00039
Figure 112007014761808-pat00040
는 오로지 서로 상대방과 패어-교차 연결을 형성한다. 반대로 패어-교차 연결의 유일성을 만족하지 않는 패어는 모순 패어라고 한다.
2-DE 이미지에서 모든 패어-교차 연결은 패어-교차 연결의 유일성을 만족해야 한다. 그러나, 모순 패어는 하나의 스팟이 m개의 스팟 매칭에서 하나 이상의 스팟과 패어-교차 연결을 생성하기 때문에 발생하게 된다. 이러한 매칭 결과는 2-DE이미지가 포함하고 있는 각종 오류 스팟과 이미지의 찌그러짐 현상 때문에 발생하게 된다. 따라서, 매 번의 스팟 매칭에서 항상 동일한 스팟과 매핑되는 패어-교차 연결, 즉 순수 패어가 발생할 확률이 적기 때문에 오류를 포함하고 있는 모순 패어를 정제함으로써 더 많은 정확한 패어를 확보하게 된다. 패어 트랜잭션 데이터베이스 PD에서 한 패어의 지지도는 해당 패어의 출현 빈도를 트랜잭션의 수로 나눈 값이다. 모순 패어에서 지지도가 높은 패어를 선택함으로써 보다 정확한 단백질 클래스를 찾을 수 있다.
위의 설명에서 알 수 있듯이, 다중 참조 이미지를 사용한 스팟 매칭에서 보다 정확한 단백질 클래스를 선택하는 과정은 데이터 마이닝에서 빈발항목집합을 찾는 것과 비슷하다는 것을 알 수 있다. 그러나, 빈발항목을 찾는 다수의 알고리즘들은 다량의 트랜잭션과 상대적으로 적은 수의 항목들을 포함하고 있는 데이터베이스를 대상으로 하고, 그러한 환경에 최적화되었다. 그러나, 본 발명에서 처리하려고 하는 대상 데이터는 생물학적 데이터의 특성에 의하여 적은 수의 트랜잭션과 많은 수의 항목을 포함하고 있기 때문에 기존의 빈발항목 탐색 알고리즘으로 처리하기에는 적합하지 않다. 따라서, 본 발명에서는 처리하고자 하는 생물학적 데이터의 특성에 맞는 알고리즘을 제시하고 있다.
다음으로, 본 발명에서 제시된 2-단계 패어 확장 알고리즘을 사용하여 단백질 클래스를 생성하는 과정을 상세히 설명하기로 한다.
본 발명에서는 2-DE 젤 이미지의 스팟 매칭 과정에서 다중 참조 이미지를 사용하여 정확도가 높은 단백질 클래스를 생성하는 방법을 제시한다. 먼저 분석하려는 이미지 집합에서 이미지 품질이 높은 참조 이미지 그룹을 선택한 뒤, 모든 참조 이미지에 대하여 독립적으로 스팟 매칭을 진행하여 데이터베이스를 생성한다. 생성된 데이터베이스에서 에러 필터링 방법으로 정확한 패어와 에러 패어를 분리한 뒤, 2-단계 확장 방법, 단백질 클래스에서 에러를 제거하는 두 가지 방법으로 정확도가 높은 단백질 클래스를 제공하게 된다. 본 발명자는 본 발명의 방법을 하나의 참조 이미지를 사용하거나 가상 참조 이미지를 사용하는 방법과 비교하여 제시된 두 알고리즘의 적합성을 검증하였는 바, 이는 뒤에서 상세히 설명하기로 한다.
첨부한 도 3은 본 발명에 따른 단백질 클래스의 정확도 향상을 위한 과정을 나타낸 순서도로서, 각 단계에 대해 좀더 상세히 설명하면 다음과 같다. 우선, 2-DE 젤 이미지의 집합 G={g1,g2,...,gn}이 주어지면, 이미지에 포함된 스팟 수를 품질 척도로 하여 품질이 좋은 다수의 참조 이미지를 선택하고, 이로써 참조 이미지 집합 R={r1,r2,...,rm}을 구한다. 이때, 스팟 수가 많은 순서대로 m개의 참조 이미지를 선택한다. 이어 각 참조 이미지 ri에 대하여 스팟 매칭을 진행하여 패어 트랜젝션 데이터베이스 D와 단백질 클래스 데이터베이스 T를 구축한다. 여기서, 각 참 조 이미지에 대해 독립적으로 스팟 매칭을 진행하여 선택된 모든 참조 이미지에 대해 스팟 매칭을 반복한다. 상기와 같이 데이터베이스가 구축되고 나면, 패어 트랜젝션 데이터베이스 D에 포함된 패어들을 δ-정제(purification) 알고리즘을 적용하여 분류하는데, 이때 미리 설정된 필터링 임계치 δmin 및 지지도 임계치 smin을 이용하여 빈발 1-패어 집합 P와 에러 1-패어 집합 E로 분류한다. 이후 다음의 두 가지 방법 중에 선택된 하나의 방법에 의하여 정제된 단백질 클래스를 생성하게 된다. 우선, 하나의 방법으로서, 상기와 같이 패어 트랜젝션 데이터베이스 D의 패어들을 두 집합으로 나눈 뒤에 필터링 알고리즘에 따라 단백질 클래스 데이터베이스 T에서 에러 1-패어 집합 E를 필터링한다. 여기서, 필터링 알고리즘으로 단백질 클래스 분할 알고리즘을 적용하여 E 안에 있는 모든 패어들을 T에서 제거하게 되며, 이러한 필터링 과정에 의해 E 안의 패어들이 제거되어 정제된 단백질 클래스가 생성된다. 다음으로, 다른 방법으로서, 확장 알고리즘을 적용한 패어 확장 방법을 통해 빈발 1-패어 집합 P를 확장하며, 이를 통해 정제된 단백질 클래스가 생성된다. 이때, 확장 알고리즘으로는 패어-교차 확장(pair-wise extension), 2-단계 확장(2-phase extension), 느슨한 2-단계 확장(loosely 2-phase extension) 알고리즘이 적용될 수 있다. 그 다음으로, 정제된 단백질 클래스의 모순을 제거하는 단계를 수행하고, 마지막으로 정제된 단백질 클래스에서 일정 수준 이상으로 지지도가 높은 단백질 클래스를 추출하여 제공하게 된다. 이때, 미리 설정된 단백질 지지도 임계치(최소 지지도) Spmin를 이용하여 지지도가 상기 지지도 임계치 이상이 되는 단백질 클래스 를 선별하여 제공하게 된다. 이상으로 도 3을 참조하여 본 발명에 따른 전체적인 과정을 설명하였는 바, 다음의 설명은 보다 상세화된 설명이다.
다중 참조 이미지를 사용한 단백질 클래스 생성 방법
빈발항목집합을 찾는 문제를 다음과 같이 설명할 수 있다. 항목집합 I={i1,i2,...,in}이 주어졌을 때 D를 트랜잭션의 집합이라고 한다. 각 트랜잭션 T는 항목집합 I의 부분 집합으로 T⊆I의 관계를 가진다. 이때, D에서 특정 항목집합을 포함하고 있는 트랜잭션의 %수가 사용자에 의하여 정의된 최소 지지도 Smin과 같거나 보다 큰 항목집합을 빈발항목집합이라고 한다. 빈발항목집합 중에서 자신을 포함하고 있는 다른 빈발항목집합이 존재하지 않을 때, 해당 빈발항목집합을 최대 빈발항목집합이라고 한다. 기존의 반발항목집합을 설명하는 방식으로 본 발명에서 언급한 데이터 대상을 정의한다. 모든 패어-교차 연결의 집합을 항목집합으로 하고, 한 참조 이미지에 의하여 생성된 패어 트랜잭션 Θ={Φ(r1),Φ(r2),...,Φ(rm)}을 트랜잭션으로 하며, m개의 패어 트랜잭션으로 구성된 데이터베이스를 D라고 한다.
기존의 빈발항목집합 탐색 알고리즘에서는 k-1 번째의 경로(path)에서 찾은 빈발한 (k-1)-항목집합을 사용하여 후보 k-빈발항목집합을 생성한 뒤, 데이터베이스 D에서 검색을 통하여 후보 k-빈발항목집합의 지지도를 계산한 다음, k-빈발항목집합을 결정한다. 따라서, 각 1-항목 사이에는 아무런 연관성이 존재하지 않는다. 그러나, 패어 트랜잭션 데이터베이스 D에서 각 1-항목은 패어-교차 연결이기 때문에, 서로 같은 스팟을 포함하고 있는 1-항목은 서로 연관성이 있다. 또한 패어 트 랜잭션 데이터베이스 상에 있는 모든 빈발한 n-항목집합은 모두 유용한 것이 아닐 수 있다. 그리하여, 아래 정의 2와 정의 3에서는 패어 트랜잭션 데이터베이스에서 유효한 빈발항목집합에 대한 정의를 한다.
[정의 2] 빈발한 1-패어
Figure 112007014761808-pat00041
데이터베이스 D에서 패어-교차 연결의 유일성을 만족하고, 지지도가 Smin과 같거나 큰 패어
Figure 112007014761808-pat00042
를 빈발한 1-패어라고 한다.
패어 트랜잭션 데이터베이스 D에서 유효한 빈발 패어를 찾기 위하여 패어는 반드시 정제 과정을 거쳐야 한다. 빈발한 1-패어를 찾는 것은 데이터베이스 D에서 빈발한 패어 집합을 찾기 위한 과정이 된다.
[정의 3] 빈발한 n-패어 집합
Figure 112007014761808-pat00043
n개의 패어 집합
Figure 112007014761808-pat00044
이 주어졌을 때, |S|을 P에 포함된 모든 스팟의 집합
Figure 112007014761808-pat00045
이 포함하고 있는 스팟의 수라고 한다. 만일 P의 지지도가 Smin와 같거나 보다 크고, S에 포함된 스팟에 의하여 생성된 |S|C2개의 패어를 모두 포함하고 있을 때, 빈발한 n-패어 집합이라고 한다.
전술한 정리 1에서 설명한 바와 같이, 스팟 매칭에 의하여 생성된 패어 트랜잭션 Φ(gr)에는 k(k-1)/2개의 패어-교차 연결이 존재하며, 이러한 패어-교차 연결은 k개의 스팟을 가지는 단백질 클래스를 형성할 수 있다. 따라서, 단백질 클래스 에 해당하는 유효한 빈발한 n-패어 집합을 찾기 위하여, 정리 1의 조건에 대한 검사를 진행하여야 한다.
기존의 빈발항목집합 탐색 알고리즘에서는 k-1 번째의 경로(path)에서 찾은 빈발한 (k-1)-항목집합을 사용하여 후보 k-빈발항목집합을 생성한 뒤, 데이터베이스 D에서 검색을 통하여 후보 k-빈발항목집합의 지지도를 계산한 다음, k-빈발항목집합을 결정한다. 따라서, 각 1-항목 사이에는 아무런 연관성이 존재하지 않는다. 그러나, 패어 트랜잭션 데이터베이스 D에서 각 1-항목은 패어-교차 연결이기 때문에 서로 연관성이 있다. 그리하여, 한 패어는 패어-교차 연결 사이의 연관성을 이용하여 서로 관련되면서 완전성 속성을 만족하는 패어들을 찾아나감으로써 최대 길이를 가지는 n-빈발 패어로 확장할 수 있다. 따라서, 본 발명에서는 2-단계 패어-교차 확장 알고리즘을 사용하되, 1-패어들 사이의 관계와 완전성 속성을 이용하여 단백질 클래스에 해당하는 최대 빈발항목집합을 찾으려고 한다. 단백질 클래스에 해당하는 유효한 빈발항목집합을 찾기 위하여, 그래프 이론에서 사용하는 maximal-clique 개념을 사용하고자 한다. 빈발한 1-패어
Figure 112007014761808-pat00046
에서 각 스팟은 그래프의 정점에 속하고, 패어는 해당 두 스팟을 연결하는 에지(edge)에 해당한다. 그리하여, 하나의 패어 트랜잭션 데이터베이스를 전체 그래프 영역이라고 할 때, 한 maximal-clique는 해당 그래프를 포함하는 슈퍼(super) 그래프가 존재하지 않는 완전 부분 그래프를 의미한다. 본 발명에서 maximal-clique의 개념을 사용하여 빈발한 패어를 확장하는 알고리즘을 도 9에서와 같이 제시한다.
패어 트랜잭션 데이터베이스에서 유효한 빈발 1-패어를 찾기 위하여 1-패어를 순수 패어와 모순 패어로 구분한다. 스팟 매칭 특성에 의하여 m 개의 패어 트랜잭션을 포함한 데이터베이스 D에서 특정 스팟
Figure 112007014761808-pat00047
을 포함하고 있는 패어-교차 연결은 최대 m개이다. 이때, m개의 스팟
Figure 112007014761808-pat00048
을 포함하고 있는 모든 패어-교차 연결이 동일할 때, 즉 m개의 동일한 패어-교차 연결
Figure 112007014761808-pat00049
이 D에 포함되었을 경우
Figure 112007014761808-pat00050
은 순수 패어이고, 그렇지 않은 경우 모순 패어이다. 따라서, 모순 패어는 패어-교차 연결의 유일성을 만족하지 않는다.
패어 트랜잭션 데이터베이스 D에서 서로 다른 이미지에 포함된 두 스팟
Figure 112007014761808-pat00051
Figure 112007014761808-pat00052
이 주어졌을 때 만일 스팟
Figure 112007014761808-pat00053
이 오직 스팟
Figure 112007014761808-pat00054
와 패어-교차 연결을 형성한다면 패어
Figure 112007014761808-pat00055
는 순수 패어이다. 그리고, 서로 같은 스팟을 공유하고 동일한 이미지의 서로 다른 두 스팟을 포함한 두 모순 패어는 서로 모순되는 연관성을 가지게 되면서 모순 패어 그룹을 형성하게 되고, 이를 모순 패어 집합이라고 한다. 따라서, 모든 모순 패어는 여러 그룹의 모순 패어 집합을 형성하게 된다.
첨부한 도 4는 이미지 집합 G={g1,g2,g3,g4}에서 각 이미지를 참조 이미지로 사용하였을 때 생성되는 패어 트랜잭션 데이터베이스에서 순수 패어와 모순 패어 집합의 예를 보여주고 있다. 도 4의 (a)는 패어 트랜잭션 데이터베이스 D를 나타내며, 도 4의 (b)는 D에 포함된 1-패어와 그들의 지지도를 나타낸다. 또한 도 4의 (c)는 순수 패어를 나타내고, 도 4의 (d)는 모순 패어 집합을 나타낸다. 1-패어
Figure 112007014761808-pat00056
Figure 112007014761808-pat00057
가 모순 패어 집합 C1을 형성한 이유는 동일한 스팟
Figure 112007014761808-pat00058
이 같은 이미지의 상이한 두 스팟
Figure 112007014761808-pat00059
Figure 112007014761808-pat00060
와 패어-교차 연결을 형성하였기 때문이다.
모든 모순 패어 집합에서 유효한 빈발 1-패어를 찾기 위하여 첨부한 도 5에 나타낸 바와 같은 δ-정제(purification) 알고리즘을 사용한다.
먼저, 사용자에 의하여 정의되는 최소 지지도 Smin을 만족하는 모든 패어에 대하여 모순 패어 집합을 찾는다(3~8번째 라인). 모순 패어 집합 Ci에서 최대 지지도를 가지는 패어를 Ci.first라 하고, 두 번째로 큰 지지도를 가지는 패어를 Ci.second라 한다. 사용자에 의하여 정의되는 파라메터를 δmin이라 할 때, 다음 조건에 의하여 모순 패어 집합 Ci에 들어 있는 유효한 1-패어를 선택한다.
1) 만일 δ = Ci.first - Ci.second≥δmin이면, Ci.first만 유효한 1-패어로 선택되고 나머지 패어들은 에러 패어 집합 E에 추가된다(11번째 라인).
2) 만일 δ가 δmim보다 작으면, Ci이 포함하고 있는 모든 1-패어들은 에러 패어 집합 E에 추가된다.
버려지게 된다(12번째 라인).
에러 패어 필터링을 통한 단백질 클래스 생성 방법
m개의 이미지를 포함하고 있는 참조 이미지 집합 R의 각 이미지를 참조 이미 지로 선택하여 생성된 단백질 클래스 데이터베이스를
Figure 112007014761808-pat00061
라고 한다. 패어 데이터베이스 D에서 δ-정제(purification) 알고리즘을 사용하여 생성한 에러 패어 집합 E를 사용하여 단백질 클래스 데이터베이스 T가 포함하고 있는 에러 스팟들을 제거할 수 있다.
에러 패어는 해당 패어에 포함된 두 스팟이 동일한 단백질에 속하지 않는다는 것을 의미한다. 따라서, 단백질 클래스는 해당 두 스팟을 동시에 포함할 수 없다. 패어 데이터베이스에서 패어-교차 연결의 유일성은 δ-정제(purification) 알고리즘을 사용하여 에러 패어를 쉽게 찾을 수 있다. 그러나, 최종 목적은 정확도가 높은 단백질 클래스를 생성하는 것이다. 따라서, 이러한 목적을 달성하기 위하여 패어 데이터베이스에서 찾은 에러 패어들을 단백질 클래스 데이터베이스로부터 제거하는 방법을 사용하고자 한다.
첨부한 도 6은 단백질 클래스에서 에러 패어를 제거하는 알고리즘을 나타낸 것이다. 먼저, δ-정제(purification) 알고리즘을 사용하여 패어 트랜젝션 데이터베이스 D에서 에러 패어들을 찾아낸다(첫번째 라인). 모든 에러 패어들을 사용하여 단백질 클래스 데이터베이스 T에 존재하는 에러 스팟을 제거한다(2~6번째 라인). 즉, 에러 패어를 포함하고 있는 단백질 클래스에서 해당 두 스팟이 분리되면서 두 개의 서로 다른 작은 부분으로 분해한다. E의 한 에러 패어
Figure 112007014761808-pat00062
에 대하여 데이터베이스 T에서 해당 패어를 포함하는 모든 단백질 클래스를 찾는다(2,3번째 라인). 해당 두 스팟을 포함하는 특정 단백질 클래스
Figure 112007014761808-pat00063
에서 해당 패어를 제거한다(4번째 라인). 단백질 클래스 p는 해당 에러 패어가 제거되어서 두 개의 더 작은 단백질 클래스, 즉
Figure 112007014761808-pat00064
Figure 112007014761808-pat00065
로 분리된다(5번째 라인). 해당 패어를 포함하는 단백질 클래스 p가 두 부분으로 분리되는 원인은 그 패어 안에 있는 두 스팟이 같은 단백질이 아니기 때문에 하나의 단백질 클래스에 속할 수 없기 때문이다. 새로 생성된 두 단백질 클래스
Figure 112007014761808-pat00066
Figure 112007014761808-pat00067
는 만일 해당 단백질 클래스를 포함하는 더 큰 길이의 단백질 클래스
Figure 112007014761808-pat00068
가 존재하지 않을 때 단백질 클래스 FP에 추가된다. 따라서, 모든 에러 패어
Figure 112007014761808-pat00069
들이 위와 같은 방법으로 반복적(2~6번째 라인)으로 제거되게 되면 스팟
Figure 112007014761808-pat00070
는 단백질 클래스 p의 어떠한 스팟과도 연결되지 않게 된다. 따라서, 스팟
Figure 112007014761808-pat00071
는 최종적으로 단백질 클래스 p에서 제거되며, 새로운 정제된 단백질 클래스
Figure 112007014761808-pat00072
가 생성된다. 모든 에러 패어 E을 단백질 클래스 데이터베이스 T에서 제거 한 후, 생성된 모든 단백질 클래스의 지지도를 계산한다(7,8번째 라인). 특정 단백질 클래스 p의 지지도 sup(p)는 해당 단백질 클래스의 수를 스팟 매치의 횟수로 나눈 값을 의미한다.
첨부한 7은 도 4의 (e)에서 찾은 에러 패어가 단백질 클래스
Figure 112007014761808-pat00073
로부터 제거되는 과정을 보여주고 있다.
Figure 112007014761808-pat00074
가 에러 패어이기 때문에 스팟
Figure 112007014761808-pat00075
Figure 112007014761808-pat00076
는 동일한 단백질에 속하지 않는다. 그러므로 단백질 클래스
Figure 112007014761808-pat00077
는 두 개의 단백질 클래스
Figure 112007014761808-pat00078
Figure 112007014761808-pat00079
로 분해된다. 에러 패어
Figure 112007014761808-pat00080
에 의해서
Figure 112007014761808-pat00081
Figure 112007014761808-pat00082
Figure 112007014761808-pat00083
로 다시 분해된다. 이때 생성된
Figure 112007014761808-pat00084
Figure 112007014761808-pat00085
의 부분 집합이기 때문에 도 7의 (c)에 나타낸 단백질 리스트에 새로운 단백질 클래스로 추가되지 않는다. 마지막 에러 패어
Figure 112007014761808-pat00086
가 제거되면 도 7의 (d)와 같이 스팟
Figure 112007014761808-pat00087
은 기타 스팟과 더 이상 패어-교차 연결을 형성할 수 없어 단백질 클래스
Figure 112007014761808-pat00088
로부터 제거되고,
Figure 112007014761808-pat00089
는 정제를 통한 새로운 단백질 클래스가 된다(8-9번째 라인).
첨부한 도 8은 단백질 클래스 데이터베이스를 제거한 후 생성된 정제된 단백질 클래스 데이터베이스를 나타낸다. 해당 데이터베이스에서 단백질 클래스
Figure 112007014761808-pat00090
의 수는 3으로서, 트랜잭션의 수 4로 나누게 되면 0.75의 지지도를 가지게 된다.
패어 확장을 통한 단백질 클래스 생성 방법
첨부한 도 9는 패어 확장 알고리즘을 나타낸 도면이다. δ-정제(purification) 알고리즘에 의하여 선택된 유효한 빈발 1-패어들을 패어 확장 알 고리즘에 의하여 확장한다. 선택된 모든 빈발 1-패어를 기점으로 하여 확장을 시작하기 때문에 해당 패어의 두 스팟은 확장하려고 하는 단백질 클래스 pc에 포함된다(2,3번째 라인). 단백질 클래스 pc에 포함된 두 스팟
Figure 112007014761808-pat00091
Figure 112007014761808-pat00092
을 각각 시작점으로 하여 확장을 시작한다. 먼저 스팟
Figure 112007014761808-pat00093
으로 확장하기 위하여 스팟
Figure 112007014761808-pat00094
을 포함하고 있는 모든 빈발 1-패어
Figure 112007014761808-pat00095
을 찾는다. 이러한 패어들이 포함하고 있는 스팟 집합을 S라고 하며, S는 단백질 클래스 pc를 확장할 수 있는 스팟들의 집합이 된다. 따라서, S에 있는 모든 스팟은 빈발 1-패어 p를 최대로 확장할 가능하게 할 수 있는 모든 스팟들의 집합이다(2,3번째 라인). S에 있는 모든 스팟에 대하여 포함된 각 스팟을 사용하여 단백질 클래스 pc를 확장한다. 단백질 클래스 pc가 스팟
Figure 112007014761808-pat00096
로 확장되기 위한 조건은 S에 포함된 스팟
Figure 112007014761808-pat00097
가 단백질 클래스 pc에 포함된 모든 스팟과 생성되는 패어가 빈발 1-패어일 때 가능하다. 단백질 클래스 pc가
Figure 112007014761808-pat00098
일 때, 스팟
Figure 112007014761808-pat00099
에 의하여 확장되려면 패어
Figure 112007014761808-pat00100
Figure 112007014761808-pat00101
는 반드시 빈발 1-패어가 되어야 한다. 이때, 하나의 패어라도 빈발한 1-패어가 아니면 빈발 n-패어의 완전성 속성을 위배하기 때문에 해당 스팟으로 확장될 수 없다. 확장이 끝난 단백질 클래스 pc는 자신을 포함하는 슈퍼 항목집합이 없을 경우 빈발 패어 FP에 추가된다. 첨부한 도 10은 패어-교차 확장 과정을 예제로 보여주고 있다.
패어-교차 확장 알고리즘의 제일 큰 문제점은 2-DE 이미지의 수가 증가할 때 기하급수적으로 증가하는 패어 트랜잭션이 포함하고 있는 1-패어의 수이다. 따라 서, 빈발한 1-패어를 찾기 위해 많은 검색 비용이 든다. 이미지 수의 증가는 패어-교차 확장 알고리즘의 성능에 엄청난 영향을 주게 된다. 따라서, 본 발명에서는 상기 패어 확장 알고리즘을 개선하여 2-단계 패어 확장 알고리즘을 제안한다.
첨부한 도 11은 2-단계 패어 확장 알고리즘을 보여주고 있다. 기존 패어 확장 알고리즘과 달리, 패어들을 확장할 때, 빈발한 1-패어들을 각자의 지지도에 의하여 분리하고, 분리된 각 파티션에 대하여 기존 확장 알고리즘을 사용하여 확장한 후, 다시 높은 지지도 순으로 각 파티션들을 하나로 합쳐가게 된다. 빈발 1-패어를 지지도 별로 분리함으로써 확장을 하기 위한 패어 공간을 최소화시키며, 이미 확장된 단백질 클래스 pc에 해당하는 패어 정보를 포함시킴으로써 검색 공간을 점차적으로 줄여나갈 수 있다. 2-DE 스팟 매칭에서 참조 이미지가 증가할 때, 생성되는 1-패어의 지지도 범위도 따라서 증가하기 때문에 빈발한 1-패어는 더 세밀하게 분리된다. 따라서, 하나의 파티션을 확장하기 위한 비용은 이미지 수의 증가에 따라 기하급수적으로 증가하지 않게 된다. 기존의 확장 방법과 같이 δ-정제(purification) 방법에 의하여 빈발한 1-패어를 선택하며, 각 패어의 지지도에 의하여 서로 다른 파티션으로 분리한다. 그리고, 분리된 각 파티션에서의 기존 확장 알고리즘을 사용하여 확장한다(4-5번째 라인). 패어 트랜잭션 데이터베이스에서 높은 지지도를 가지는 패어의 수는 낮은 지지도를 가지는 패어의 수보다 많게 된다. 지지도에 의하여 분리된 각 파티션들은 지지도 순에 의하여 지지도가 높은 파티션부터 확장을 시작하며, 확장된 단백질 클래스 pc는 지지도가 낮은 패어들을 확장하기 위한 기반이 된다. 파티션 별로 확장된 각 파티션들을 연결시킬 때 먼저 지 지도가 높은 파티션을 중심으로 시작하게 된다(6,7번째 라인).
기존 확장 알고리즘과 다른 점은, 함수 part_extention()은 단백질 클래스를 확장할 때 한 파티션을 먼저 확장한 후 새로운 파티션을 추가하여 확장하는 방법으로 단백질 클래스를 확장해 나간다. FPi 와 FPi - 1는 각각 지지도가 si와 si -1인 빈발 1-패어를 확장하여 생성된 단백질 클래스들의 집합이다. 파티션
Figure 112007014761808-pat00102
에 있는 모든 빈발 1-패어
Figure 112007014761808-pat00103
에 대하여, 단백질 클래스 pc에서 스팟
Figure 112007014761808-pat00104
또는
Figure 112007014761808-pat00105
중의 한 스팟을 포함하고 있는 단백질 클래스를 찾아낸다(12번째 라인). 파티션
Figure 112007014761808-pat00106
에 포함된 임의의 빈발 1-패어
Figure 112007014761808-pat00107
는 그 지지도가 파티션
Figure 112007014761808-pat00108
에 포함된 빈발 1-패어의 지지도보다 작기 때문에 두 스팟
Figure 112007014761808-pat00109
Figure 112007014761808-pat00110
는 FPi에 포함된 임의의 단백질 클래스에도 동시에 포함되어 있지 않다. 그러나, FPi에 포함된 단백질 클래스 pc가 이 두 스팟 중의 임의의 한 스팟
Figure 112007014761808-pat00111
을 포함하며, 동시에 pc에서 스팟
Figure 112007014761808-pat00112
을 제외한 모든 스팟과 p의 남은 스팟
Figure 112007014761808-pat00113
이 빈발 1-패어를 만족한다면 단백질 클래스 pc는
Figure 112007014761808-pat00114
로의 확장이 가능하게 된다. 예를 들면, 파티션
Figure 112007014761808-pat00115
에 속하는 빈발 1-패어
Figure 112007014761808-pat00116
와 파티션
Figure 112007014761808-pat00117
에 의하여 확장된 단백질 클래스
Figure 112007014761808-pat00118
에서 만일 패어
Figure 112007014761808-pat00119
3가 파티션
Figure 112007014761808-pat00120
에서 빈발 1-패어일 때 pc는
Figure 112007014761808-pat00121
로 확장된다. 비슷 한 방법으로 분할된 모든 빈발 1-패어의 파티션들은 지지도의 역순으로 확장을 시작하며, 최소 지지도를 가지는 빈발 1-패어들까지 확장하였을 때, FP라고 하는 최대 길이를 가지는 단백질 클래스들의 집합을 생성하게 된다.
첨부한 도 12는 2-단계 패어-교차 확장의 예를 보여주고 있다. 패어 트랜잭션 데이터베이스 D(도 12의 (a))에서 모든 1-패어를 지지도에 의하여 Part[1]과 Part[0.6] 두 파티션으로 나눈다(도 12의 (b)). 그리고, 분해된 두 파티션을 각각 패어-교차 확장 알고리즘을 적용하여 단백질 클래스를 생성한다(도 12의 (c)). Part[0.6]에 포함되면서 단백질 클래스의 확장에 사용되지 않은 패어를 선택하여 FP[1]에 포함된 단백질 클래스를 확장하려고 한다. 먼저 패어
Figure 112007014761808-pat00122
은 FP[1]의 단백질 클래스
Figure 112007014761808-pat00123
의 한 스팟을 포함하고 있기 때문에 확장을 시도한다. 이때, 패어 p에 있는 스팟
Figure 112007014761808-pat00124
와 단백질 클래스
Figure 112007014761808-pat00125
의 두 스팟
Figure 112007014761808-pat00126
이 형성하는 패어
Figure 112007014761808-pat00127
는 모두 빈발 1-패어이기 때문에 단백질 클래스
Figure 112007014761808-pat00128
Figure 112007014761808-pat00129
로 확장되는 것을 볼 수 있다.
위의 알고리즘에서 알 수 있듯이, 단백질 클래스에 한 스팟이 추가되어 더 큰 단백질 클래스로 확장되려면 해당 스팟과 단백질 클래스에 존재하는 모든 스팟이 구성하는 패어가 빈발 1-패어가 되어야 한다. 그러나, 이러한 요구는 단백질 클래스를 확장함에 있어서 너무 엄격한 제한을 요구한다. 예를 들면, 단백질 클래스 P는 길이가 |P+1|인 단백질 클래스로 확장하기 위한 완전성(complete) 조건으로 확 장하려고 하는 스팟이 P와 |P|개의 빈발 1-패어를 형성할 수 있어야 한다. 그러나, |P+1 |≫1 일 때, 확장하려고 하는 스팟은 단백질 클래스의 대부분의 스팟과 빈발 1-패어를 구성할 수 있음에도 불구하고 그중의 단 한 개의 패어가 빈발하지 않으면 해당 단백질 클래스는 확장을 진행할 수 없게 된다. 그러므로 단백질 클래스확장에서 완전성에 대한 요구 제한을 사용자의 설정에 의하여 그 강도를 조절할 수 있게 하기 위하여 Mmin(Minimum missing portion)이라는 파라미터를 두어 확장할 때 완전성 조건을 설정하게 한다. Mmin 파라미터를 사용하기 위하여 먼저 단백질 클래스에서의 미씽 포션(missing portion)을 다음과 같이 정의한다.
[정의 4] 단백질 클래스 확장시의 미씽 포션 (missing portion) Miss(pc,
Figure 112007014761808-pat00130
)
패어 트랜잭션 데이터베이스 D에서 단백질 클래스
Figure 112007014761808-pat00131
와 pc의 한 스팟
Figure 112007014761808-pat00132
을 포함한 패어
Figure 112007014761808-pat00133
가 주어졌을 때, 스팟
Figure 112007014761808-pat00134
와 스팟
Figure 112007014761808-pat00135
을 제외한 pc의 나머지 스팟들로 구성된 n-1개의 패어에서 빈발하지 않는 패어의 수를 m이라고 한다면, 단백질 클래스
Figure 112007014761808-pat00136
Figure 112007014761808-pat00137
로 확장할 때 발생하는 미씽 포션(missing portion)은 m/(n+1)이다.
단백질 클래스를 확장할 때, 만일 사용자에 의하여 정의된 파라미터 Mmin보다 작으면 해당 단백질 클래스는 하나의 스팟을 추가하면서 1로 확장된다. 그렇지 않을 경우, 단백질 클래스는 확장이 불가능하다. 사용자가 Mmin을 보다 작게 설정할수록 완전성에 대한 요구조건은 더 엄격해지며, 0일 때 완전성 조건을 완전하게 적용하게 된다. Mmin의 값이 커질수록 단백질 클래스는 더 큰 길이로 확장이 가능하게 되며, 반대로 생성하게 되는 단백질 클래스의 정확도는 오히려 감소하게 될 것이다. 첨부한 도 13은 해당 완전성 검사를 적용하는 부분에서 Mmin을 사용하는 방법을 보여주고 있으며, 도 11의 알고리즘에서 13, 14번째 라인을 수정한 부분을 보여주고 있다.
예를 들면, 만일 확장된 단백질 클래스
Figure 112007014761808-pat00138
와 빈발 1-패어
Figure 112007014761808-pat00139
가 있을 때, 만일 패어
Figure 112007014761808-pat00140
만이 빈발 1-패어이면
Figure 112007014761808-pat00141
로 확장하기 위한 미씽 포션(missing portion)은 1/5=0.25 이다. 이때, 만일 사용자가 설정한 최대 허용 Mmin이 0.25보다 작다면 해당 단백질 클래스는 엄격하지 않은 조건에 의하여
Figure 112007014761808-pat00142
로 확장된다. 따라서, Mmin을 설정함에 있어서 단백질 클래스는 보다 긴 길이로 확장되게 된다.
한편, 에러 패어 필터링을 통한 단백질 클래스 생성과 단계 패어 확장을 통한 단백질 클래스 생성의 서로 다른 두 가지 방법으로 정제된 단백질 클래스들 사 이에는 또 다른 모순이 발생할 수 있으며, 따라서 본 발명에서는 정제된 단백질 클래스들 사이에서 발생한 모순을 제거하는 단계가 수행된다. 단백질 클래스의 속성에 의하여 서로 다른 단백질 클래스는 동일한 스팟을 공통으로 포함하고 있을 수 없다. 그러므로 본 발명에서는 생성된 단백질 클래스의 모순 제거를 진행하는 방법을 사용하기 위하여 단백질 클래스의 "평균 패어 지지도"를 다음의 정의 5에서 정의한다.
[정의 3] 단백질 클래스 p l 의 평균 패어 지지도
정제된 단백질 클래스
Figure 112007014761808-pat00143
의 평균 패어 지지도는 해당 단백질 클래스가 포함하고 있는 모든 스팟에 의하여 형성된 패어들의 평균 지지도로서 다음의 수학식 4에 해당한다.
Figure 112007014761808-pat00144
Figure 112007014761808-pat00145
는 D에서 빈발 1-패어 의 지지도)
두 개의 정제된 단백질 클래스 pl와 ph가 만일 서로 같은 스팟을 공동으로 포함하고 있다면, 즉
Figure 112007014761808-pat00146
조건이 만족 될 때, 서로 모순이 발생하며, 그 가운데서 다음 조건을 만족하는 한 단백질 클래스를 제거한다.
1) 만일
Figure 112007014761808-pat00147
이면 ph를 제거한다.
2) 만일
Figure 112007014761808-pat00148
이면
Figure 112007014761808-pat00149
일 때, ph를 제거한다.
예를 들면, 두 개의 단백질 클래스
Figure 112007014761808-pat00150
Figure 112007014761808-pat00151
가 있을 때, 두 단백질 클래스가 동일한 스팟
Figure 112007014761808-pat00152
을 포함하고 있다. 즉,
Figure 112007014761808-pat00153
을 만족하지 않는다. 따라서, 하나의 단백질 클래스는 제거되어야 한다. 만일 두 단백질 클래스의 지지도가 같다고 하면, 두 단백질 클래스에 포함된 패어의 평균 지지도를 계산한다.
Figure 112007014761808-pat00154
에 포함된 세 개의 패어
Figure 112007014761808-pat00155
의 지지도가 각각 2, 2, 2 일때 단백질 클래스
Figure 112007014761808-pat00156
의 평균 패어 지지도는
Figure 112007014761808-pat00157
이다. 같은 방법으로
Figure 112007014761808-pat00158
의 평균 패어 지지도를 계산했을 때,
Figure 112007014761808-pat00159
가 된다고 하면 지지도가 작은 단백질 클래스
Figure 112007014761808-pat00160
는 제거된다. 따라서,
Figure 112007014761808-pat00161
가 새로운 정제된 단백질 클래스가 되는 것이다.
다음으로, 본 발명자는 상기와 같이 제시된 본 발명에 따른 알고리즘의 정확도에 대하여 여러 번의 실험을 통해 검증을 진행하였으며, 이에 대한 설명을 기술 하기로 한다.
실험
실험을 통하여 다중 참조 이미지에 의한 스팟 매칭 기법에서 에러 제거의 타당성을 증명하였으며, 실험에서 사용한 데이터는 인간의 간 조직에 대한 단백질 2-DE 이미지 53개이고, 이미지가 포함하고 있는 스팟의 특성은 하기 표 2와 같다. 본 실험에서 본 발명의 방법을 하나의 참조 이미지를 사용하거나 가상 참조 이미지를 사용하는 방법과 비교하여 본 발명에서 제시한 두 알고리즘의 적합성을 검증하였다. 스팟 매칭을 진행하기 위하여 상용 2-DE 이미지 분석 소프트웨어 MelanieⅢ를 사용하였고, 가상 참조 이미지와의 비교 실험을 하기 위하여 Progenesis를 사용하였다.
Figure 112007014761808-pat00162
빈발 1-패어로 구성된 패어 집합 X의 정확도를 측정하기 위하여 Correct Ratio CR(X)를 다음의 수학식 2와 같이 정의한다.
CR(X) = (X에 포함된 정확한 패어 수)/(X에 포함된 전체 패어 수)
실험에서는 53개의 2-DE 젤 이미지에서 총 10개의 품질이 좋은 이미지를 참 조 이미지 그룹으로 선택하였다. 일반적으로 참조 이미지는 숙련된 기술자에 의하여 선택되지만 본 발명에서는 기술자의 주관적인 측면을 배제하기 위하여 이미지가 포함하고 있는 스팟 수를 이미지 품질 측정 기준으로 하여 참조 이미지를 선택하였다. 스팟 매칭에서는 참조 이미지의 스팟을 기준으로 매핑을 진행하기 때문에 참조 이미지가 되기 위하여 최대한 많은 스팟을 포함해야 하며, 실험에서는 스팟 수를 이미지 품질 판단의 객관적 기준으로 정한다. 따라서, 포함하고 있는 스팟이 제일 많은 10개의 이미지가 참조 이미지로 선택되었으며, 참조 이미지의 특성은 하기 표 3과 같다.
Figure 112007014761808-pat00163
첨부한 도 14는 참조 이미지 수가 증가할 때 서로 다른 지지도를 가지는 순수 패어 샘플 집합의 CR(Correct Ratio)를 보여주고 있다. 앞서 언급했던 것과 같이, m 개의 참조 이미지를 사용하여 스팟 매칭을 진행하였을 때, 순수 패어의 지지도는 1/m, 2/m,...,(m-1)/m의 값을 가지게 된다. 실험에서 사용한 참조 이미지 수가 10일 때, 모순 패어들은 0.1, 0.2,...,0.9의 9개의 지지도 값을 가지게 된다. 패어 트랜잭션 데이터베이스에는 수없이 많은 패어가 있기 때문에 정확도 측정을 위하여 랜덤 샘플링 방식을 선택하였다. 각 지지도 값마다 50개의 패어를 샘플로 선택하였으며, 선택된 패어들은 생물학자에 의하여 패어의 정확성 여부를 확인받게 된다.
도 14의 그래프에서 볼 수 있듯이, 순수 패어의 정확도는 지지도가 커질 때 증가한다는 것을 알 수 있다. 또한 동일한 지지도에서 사용한 참조 이미지 수가 많을수록 그 정확도도 높아진다는 것을 알 수 있다. 즉, 참조 이미지가 많을수록 같은 확률에서 더 많은 정확한 패어들을 선택할 수 있다는 것을 알 수 있다.
모순 패어 집합에서 델타 값은 지지도가 제일 큰 두 패어의 지지도의 차이 값이다. 하기 표 4는 하나의 모순 패어 집합에서 발생할 수 있는 지지도가 제일 큰 두 패어의 지지도 값 쌍을 보여준다. 만일 델타 값이 0.1일 때, 발생 가능한 지지도 값은 (0.2,0.1), (0.3,0.2), (0.4,0.3) 그리고 (0.5,0.4)이 된다.
Figure 112007014761808-pat00164
첨부한 도 15는 모순 패어 집합에서 정제된 패어의 CR(Correct Ratio)를 보여준다. 정제된 패어의 지지도는 표 4에서 굵은 글씨체로 표현된 부분의 값을 가진다. 예를 들면, 델타 값이 0.1일 때, 정제된 4가지 가능한 값 0.2, 0.3, 0.4, 0.5를 가지게 된다. Correct ratio CR(정제된 패어)의 값은 샘플 집합이 포함하고 있는 정확한 패어의 수를 전체 패어의 수로 나눈 값을 가지게 된다. 이 값이 클수록 δ-정제(purification) 알고리즘이 정제 과정을 효과적으로 수행했다는 것을 나타낸다. 순수 패어와 마찬가지로 패어 트랜잭션 데이터베이스에는 다량의 정제된 패어가 존재하기 때문에 이 실험에서도 랜덤 샘플링 방식을 선택하여 가기 지지도별 50개의 정제된 패어가 샘플링되었으며, 생물학자에 의하여 그 정확 여부를 확인받게 된다. 그래프에서 알 수 있듯이, 델타 값이 증가할 때 동일한 확률에서 정제된 패어가 나타내는 정확도가 크다는 것을 볼 수 있다. 델타 값이 작아질수록 모순 패어 집합에 포함된 두 패어의 지지도가 비슷하기 때문에 정확한 패어를 구분하기 어려워지게 된다. 다시 말하면 델타 값이 작을수록 지지도가 두 번째로 큰 패어가 정확한 패어가 될 가능성이 크다는 것을 알 수 있다. 또한 델타 값이 동일 할 때 지지도가 큰 정제된 패어의 정확도가 높다는 것을 알 수 있다.
첨부한 도 16은 가상 젤 이미지를 참조 이미지로 사용하였을 때 생성된 패어의 수와 다중 참조 이미지를 사용하였을 때 생성된 패어의 수를 비교하고 있다. Progenesis 소프트웨어는 가상 참조 이미지를 생성할 수 있는 것으로 이번 실험을 위하여 사용되었다. 'avg_gel'은 가상 젤 이미지를 참조 이미지로 사용하였을 때 생성된 패어들의 수를 나타내고, 'multi_ref_순수'와 'multi_ref_pp'는 각각 다중 참조 이미지를 사용하였을 때 생성되는 순수 패어의 수와 정제된 패어의 수를 나타내고 있다. 도 16에서 알 수 있듯이, 가상 젤 이미지를 생성하기 위한 이미지 수가 증가할수록 생성되는 패어의 수는 급격하게 감소하며, 이미지가 5개 이상을 초과할 때 생성된 가상 참조 이미지는 스팟 매칭을 진행할 수 없다는 것을 알 수 있다. 그로부터 통계효과에 의하여 이미지 수가 증가할 때 생성되는 가상 이미지는 각각의 원본 이미지가 가지고 있는 속성을 왜곡하여 나타냄으로써 이미지의 특성을 상실하게 된다는 것을 알 수 있다. 이 그래프에서 더 흥미있는 부분은 다중 참조 이미지를 사용할 때 이미지 수가 10에 가까울수록 생성된 정제된 패어의 개수는 균일하게 증가한다는 것이다. 이것은 참조 이미지 수를 무제한 늘리지 않아도 단백질 클래스의 확장에 필요한 양의 패어를 충분히 제공받을 수 있다는 것을 말해준다.
첨부한 도 17은 δ-정제(purification)에 의하여 제거되는 패어의 정확도를 나타내고 있다. 표 4에서 열거했듯이, 델타가 0.1이고 m이 1일 때, δ-정제(purification)에 의하여 제거되는 패어가 가질 수 있는 지지도는 0.1, 0.2, 0.3, 0.4가 된다. 이 실험에서도 마찬가지로 각 지지도에 대응하는 패어는 50개씩 랜덤 샘플링으로 선택하였으며, 생물학자에 의하여 정확 여부를 확인받는다. correct ratio CR(filtered 패어s)도 기존 실험과 비슷하게 선택된 샘플 집합에서 정확한 패어의 퍼센트 수를 나타낸다. 도 15에서와 같은 이유로, correct ratio가 작을수록 δ-정제(purification)에 의하여 제거된 패어에 에러 패어가 많이 들어 있다는 것을 의미한다. 델타 값이 작아 질수록 더욱 많은 정확한 패어가 에러 패어로 간주되어 제거되기 때문에 correct ratio는 반대로 증가하게 된다.
2-DE 젤 이미지 스팟 매칭에서 δmin는 중요한 파라미터이다. 첨부한 도 18은 10개의 참조 이미지를 사용하였을 때, 서로 다른 δmin 값에 의해 δ-정제(purification)를 진행하여 생성된 패어를 사용하여 확장시킨 단백질 클래스의 정확도를 보여준다. 단백질 클래스의 정확도는 전체 샘플링한 단백질 클래스에서 정확한 단백질 클래스가 차지하고 있는 비율을 나타내며 다음의 수학식 3과 같이 정의된다.
CR(X) = (X에 포함된 정확한 단백질 클래스 수)/(X에 포함된 전체 단백질 클래스 수)
이때, 정확한 단백질 클래스란 에러 스팟을 하나도 포함하고 있는 않은 것을 말한다. 생성된 단백질 클래스의 수가 많기 때문에 역시 랜덤 샘플링을 통하여 50개의 단백질 클래스를 선택하며, 생물학자에 의뢰하여 모든 단백질 클래스의 정확 여부를 판단하게 된다. 도 15에서 볼 수 있듯이, 델타 값이 감소될 때 더 많은 에러 패어가 정확한 패어로 간주되기 때문에 해당 패어를 확장하여 생성한 단백질 클래스의 정확도는 감소하게 된다. 반대로 델타 값이 증가할 때 생성된 단백질 클래스의 정확도가 크게 증가하는 것을 볼 수 있다. 델타 값이 작아질수록 그 정확도는 더 큰 폭으로 감소하게 된다.
이와 같이 하여, 본 발명에서는 단백질 2-DE 젤 이미지 스팟 매칭에서 다중 참조 이미지를 사용하여 정확도가 높은 단백질 클래스를 생성하는 두 가지 방안을 제시하였다. 단백질 2차원 전기영동 분석은 샘플 조직에 들어 있는 단백질들에 대한 분석을 효과적으로 분석할 수 있는 방법이다. 그러나, 2-DE 젤 이미지에 들어 있는 단백질의 비정형성, 객체들 사이의 차이, 각종 노이즈 및 기하학적인 왜곡으로 인하여 하나의 참조 이미지에 의한 스팟 매칭에서 생성된 단백질 클래스는 많은 에러를 포함하고 있다. 따라서, 본 발명에서는 특정 참조 이미지 선택에 의하여 생성되는 단백질 클래스의 영향을 최소화하고 한 번의 스팟 매칭에 의하여 생성되는 오류들을 보정하기 위하여 여러 개의 품질이 좋은 참조 이미지를 사용한다. 여기서, 선택된 모든 참조 이미지에 대하여 스팟 매칭을 독립적으로 진행하여 패어 트랜잭션 데이터베이스 및 단백질 클래스 데이터베이스를 구축하고, 제시된 정제 방법에 의해 패어 트랜잭션 데이터베이스에서 δ-정제(purification) 방법을 사용하여 에러 패어와 정확한 패어를 선별한다. 그리고, 선택된 에러 패어를 단백질 클래스 데이터베이스에서 제거하는 방법 및 정제된 패어를 확장하는 두 가지 방법으로 보다 정제된 단백질 클래스를 생성한다. 이러한 과정을 통해 더욱 신뢰성이 있는 정확도가 높은 단백질 클래스를 얻을 수 있게 된다.
실험에서는 53개의 인간 간 조직에 대한 단백질 2-DE를 상용 이미지분석 소프트웨어 MelanieIII, Progenesis를 통해 생성된 데이터를 사용하여 스팟 매칭을 진행하여 데이터베이스를 구축하였으며, 실험에서 δ값이 증가할 때 정제된 패어의 정확도가 증가하고, 제거된 패어의 정확도가 감소됨을 알 수 있었다. 동시에 정제된 단백질 클래스의 정확도가 증가하였으며, 따라서 2-DE 젤 이미지 스팟 매칭에서 발생하는 에러가 효과적으로 제거될 수 있음을 알 수 있었다.
이상에서 설명한 바와 같이, 본 발명에 따른 다중 참조 이미지를 사용한 단백질 클래스의 정확도 향상 방법에 의하면, 품질이 좋은 다중 참조 이미지를 선택 사용하여 스팟 매칭을 반복 진행함으로써 패어 트랜잭션 데이터베이스를 구축한 뒤, 구축한 데이터베이스에서 높은 지지도의 단백질 클래스를 제공함으로써, 스팟 매칭의 정확도를 향상시킬 수 있고, 에러를 효과적으로 제거하여 보다 정확도가 높은 단백질 클래스를 제공할 수 있게 된다. 특히 다수의 참조 이미지를 선택 사용하기 때문에 더욱 신뢰성 있는 단백질 클래스를 제공할 수 있게 된다.
결국, 단백질 2-DE 젤 이미지로부터 질병 의존 단백질을 도출하는데 있어서 보다 정확한 정량 분석을 진행할 수 있게 된다. 즉, 단백질 분석에서 다수의 참조 이미지를 사용하여 더욱 정확한 단백질 클래스를 생성함으로써, 동일한 단백질 그룹에 대한 각종 정량 분석을 통해 특정 질병에 관여하는 단백질, 질병 진행 과정에서의 단백질 발현량 변화, 단백질 사이의 상호 작용을 연구하는 데 있어서 정확한 결과를 얻을 수 있게 된다.

Claims (14)

  1. 삭제
  2. 삭제
  3. 단백질 2-DE 젤 이미지의 스팟 매칭 과정에서 참조 이미지를 사용하여 단백질 클래스를 생성하는 방법에 있어서,
    2-DE 젤 이미지 집합이 주어지면 그로부터 이미지에 포함된 스팟의 수를 품질 척도로 하여 복수의 참조 이미지를 선택함으로써 참조 이미지 집합을 구하는 단계와;
    상기 선택된 각 참조 이미지에 대해 독립적으로 스팟 매칭을 진행하여 선택된 모든 참조 이미지에 대해 스팟 매칭을 반복함으로써 패어 트랜젝션 데이터베이스와 단백질 클래스 데이터베이스를 구축하는 단계와;
    상기 패어 트랜젝션 데이터베이스에 포함된 패어들에서 각 패어별로 모순 패어 집합을 선택하여 지지도가 제일 큰 두 패어의 지지도 차이가 사용자가 정해놓은 임계치를 만족할 때, 지지도가 제일 큰 패어는 빈발 1-패어 집합, 나머지 패어는 에러 1-패어 집합으로 분류하고, 임계치를 만족하지 못할 때, 전체 모순 패어 집합을 에러 패어로 분류하는 δ-정제(purification) 알고리즘에 의해 빈발 1-패어 집합과 에러 1-패어 집합으로 분류하는 단계와;
    상기 단백질 클래스 데이터베이스에서 에러 패어 필터링 알고리즘에 따라 에어 1-패어 집합에 포함되는 각 패어에 대하여 그것을 포함하는 단백질 클래스를 선택하여 해당 단백질 클래스에서 각각 두 스팟을 제거한 더 작은 두 개의 단백질 클래스로 분해하는 방법으로 필터링하여 단백질 클래스 데이터 베이스에서 상기 에러 1-패어 집합의 패어들을 제거하는 단계와;
    상기 필터링에 의해 생성된 정제된 단백질 클래스 사이에서 서로 동일한 스팟을 포함하는 단백질 클래스에 대하여 지지도를 그것이 단백질 클래스 데이터베이스에서의 출현 빈도를 전체 단백질 클래스의 수로 나눈 값을 지지도라 할 때, 지지도가 제일 큰 단백질 클래스를 선택하거나, 또는 지지도가 같을 경우 평균 패어 지지도가 제일 큰 단백질 클래스를 선택하는 방법으로 단백질 클래스에 발생한 모순을 제거하는 단계와;
    상기 단백질 클래스에서 해당 단백질 클래스의 출현 빈도를 단백질 클래스 데이터베이스에서 단백질 클래스 수로 나눈 값을 지지도라 할 때, 미리 설정된 지지도 임계치인 최소 지지도 이상이 되는 단백질 클래스를 선별하여 추출하는 단계;
    를 포함하며,
    상기 δ-정제 알고리즘에 의해 빈발 1-패어 집합과 에러 1-패어 집합으로 분류하는 단계는,
    상기 패어 트랜젝션 데이터베이스에 포함된 패어들에서 최소 지지도를 만족하는 모든 패어들에 대하여 모순 패어 집합을 찾는 단계와;
    상기 모순 패어 집합에서 최대 지지도를 가지는 패어와 두 번째로 큰 지지도를 가지는 패어의 차이 δ가 미리 설정된 필터링 임계치인 δmin 이상이면 최대 지지도를 가지는 패어를 빈발 1-패어로, 상기 δ가 δmin보다 작으면 상기 모순 패어 집합의 모든 패어를 에러 1-패어로 분류하여, 상기 빈발 1-패어들을 포함하는 빈발 1-패어 집합과 상기 에러 1-패어들을 포함하는 에러 1-패어 집합을 구성하는 단계;
    로 이루어지는 것을 특징으로 하는 단백질 2-DE 젤 이미지 스팟 매칭에서 다중 참조 이미지를 사용한 단백질 클래스의 정확도 향상 방법.
  4. 단백질 2-DE 젤 이미지의 스팟 매칭 과정에서 참조 이미지를 사용하여 단백질 클래스를 생성하는 방법에 있어서,
    2-DE 젤 이미지 집합이 주어지면 그로부터 이미지에 포함된 스팟의 수를 품질 척도로 하여 복수의 참조 이미지를 선택함으로써 참조 이미지 집합을 구하는 단계와;
    상기 선택된 각 참조 이미지에 대해 독립적으로 스팟 매칭을 진행하여 선택된 모든 참조 이미지에 대해 스팟 매칭을 반복함으로써 패어 트랜젝션 데이터베이스와 단백질 클래스 데이터베이스를 구축하는 단계와;
    상기 패어 트랜젝션 데이터베이스에 포함된 패어들에서 각 패어별로 모순 패어 집합을 선택하여 지지도가 제일 큰 두 패어의 지지도 차이가 사용자가 정해놓은 임계치를 만족할 때, 지지도가 제일 큰 패어는 빈발 1-패어 집합, 나머지 패어는 에러 1-패어 집합으로 분류하고, 임계치를 만족하지 못할 때, 전체 모순 패어 집합을 에러 패어로 분류하는 δ-정제(purification) 알고리즘에 의해 빈발 1-패어 집합과 에러 1-패어 집합으로 분류하는 단계와;
    상기 단백질 클래스 데이터베이스에서 에러 패어 필터링 알고리즘에 따라 에어 1-패어 집합에 포함되는 각 패어에 대하여 그것을 포함하는 단백질 클래스를 선택하여 해당 단백질 클래스에서 각각 두 스팟을 제거한 더 작은 두 개의 단백질 클래스로 분해하는 방법으로 필터링하여 단백질 클래스 데이터 베이스에서 상기 에러 1-패어 집합의 패어들을 제거하는 단계와;
    상기 필터링에 의해 생성된 정제된 단백질 클래스 사이에서 서로 동일한 스팟을 포함하는 단백질 클래스에 대하여 지지도를 그것이 단백질 클래스 데이터베이스에서의 출현 빈도를 전체 단백질 클래스의 수로 나눈 값을 지지도라 할 때, 지지도가 제일 큰 단백질 클래스를 선택하거나, 또는 지지도가 같을 경우 평균 패어 지지도가 제일 큰 단백질 클래스를 선택하는 방법으로 단백질 클래스에 발생한 모순을 제거하는 단계와;
    상기 단백질 클래스에서 해당 단백질 클래스의 출현 빈도를 단백질 클래스 데이터베이스에서 단백질 클래스 수로 나눈 값을 지지도라 할 때, 미리 설정된 지지도 임계치인 최소 지지도 이상이 되는 단백질 클래스를 선별하여 추출하는 단계;
    를 포함하며,
    상기 단백질 클래스 데이터베이스에서 필터링 알고리즘에 따라 에러 1-패어 집합을 필터링하는 단계에서 단백질 클래스 분할 알고리즘을 이용하고,
    상기 단백질 클래스 분할 알고리즘에서는,
    에러 패어를 포함하고 있는 단백질 클래스에서 해당 두 스팟이 분리되면서 두 개의 서로 다른 작은 부분으로 분해되되, 상기 에러 1-패어 집합의 한 에러 패어
    Figure 112008022524715-pat00165
    에 대하여 데이터베이스 T에서 해당 패어를 포함하는 모든 단백질 클래스를 찾고, 해당 두 스팟을 포함하는 특정 단백질 클래스
    Figure 112008022524715-pat00166
    에서 해당 패어를 제거하며, 이때 단백질 클래스 p는 해당 에러 패어가 제거되어 두 개의 더 작은 단백질 클래스
    Figure 112008022524715-pat00167
    Figure 112008022524715-pat00168
    로 분리되고, 새로 생성된 두 단백질 클래스
    Figure 112008022524715-pat00169
    Figure 112008022524715-pat00170
    는 해당 단백질 클래스를 포함하는 더 큰 길이의 단백질 클래스
    Figure 112008022524715-pat00171
    가 존재하지 않을 때 단백질 클래스 T에 추가되며, 모든 에러 패어
    Figure 112008022524715-pat00172
    들이 같은 방법으로 반복적으로 제거되게 되면 스팟
    Figure 112008022524715-pat00173
    는 단백질 클래스 p의 어떠한 스팟과도 연결되지 않게 되어 스팟
    Figure 112008022524715-pat00174
    가 최종적으로 단백질 클래스 p에서 제거되고, 새로운 정제된 단백질 클래스
    Figure 112008022524715-pat00175
    가 생성되는 것을 특징으로 하는 단백질 2-DE 젤 이미지 스팟 매칭에서 다중 참조 이미지를 사용한 단백질 클래스의 정확도 향상 방법.
  5. 단백질 2-DE 젤 이미지의 스팟 매칭 과정에서 참조 이미지를 사용하여 단백질 클래스를 생성하는 방법에 있어서,
    2-DE 젤 이미지 집합이 주어지면 그로부터 이미지에 포함된 스팟의 수를 품질 척도로 하여 복수의 참조 이미지를 선택함으로써 참조 이미지 집합을 구하는 단계와;
    상기 선택된 각 참조 이미지에 대해 독립적으로 스팟 매칭을 진행하여 선택된 모든 참조 이미지에 대해 스팟 매칭을 반복함으로써 패어 트랜젝션 데이터베이스와 단백질 클래스 데이터베이스를 구축하는 단계와;
    상기 패어 트랜젝션 데이터베이스에 포함된 패어들에서 각 패어별로 모순 패어 집합을 선택하여 지지도가 제일 큰 두 패어의 지지도 차이가 사용자가 정해놓은 임계치를 만족할 때, 지지도가 제일 큰 패어는 빈발 1-패어 집합, 나머지 패어는 에러 1-패어 집합으로 분류하고, 임계치를 만족하지 못할 때, 전체 모순 패어 집합을 에러 패어로 분류하는 δ-정제(purification) 알고리즘에 의해 빈발 1-패어 집합과 에러 1-패어 집합으로 분류하는 단계와;
    상기 단백질 클래스 데이터베이스에서 에러 패어 필터링 알고리즘에 따라 에어 1-패어 집합에 포함되는 각 패어에 대하여 그것을 포함하는 단백질 클래스를 선택하여 해당 단백질 클래스에서 각각 두 스팟을 제거한 더 작은 두 개의 단백질 클래스로 분해하는 방법으로 필터링하여 단백질 클래스 데이터 베이스에서 상기 에러 1-패어 집합의 패어들을 제거하는 단계와;
    상기 필터링에 의해 생성된 정제된 단백질 클래스 사이에서 서로 동일한 스팟을 포함하는 단백질 클래스에 대하여 지지도를 그것이 단백질 클래스 데이터베이스에서의 출현 빈도를 전체 단백질 클래스의 수로 나눈 값을 지지도라 할 때, 지지도가 제일 큰 단백질 클래스를 선택하거나, 또는 지지도가 같을 경우 평균 패어 지지도가 제일 큰 단백질 클래스를 선택하는 방법으로 단백질 클래스에 발생한 모순을 제거하는 단계와;
    상기 단백질 클래스에서 해당 단백질 클래스의 출현 빈도를 단백질 클래스 데이터베이스에서 단백질 클래스 수로 나눈 값을 지지도라 할 때, 미리 설정된 지지도 임계치인 최소 지지도 이상이 되는 단백질 클래스를 선별하여 추출하는 단계;
    를 포함하며,
    상기 정제된 단백질 클래스의 모순을 제거하는 단계에서는,
    정제된 단백질 클래스
    Figure 112008022524715-pat00176
    의 평균 패어 지지도를 해당 단백질 클래스가 포함하고 있는 모든 스팟에 의하여 형성된 패어들의 평균 지지도로서 하기 식(E)와 같이 정의할 때,
    식(E):
    Figure 112008022524715-pat00177
    는 패어 트랜젝션 데이터베이스에서 빈발 1-패어
    Figure 112008022524715-pat00178
    의 지지도임),
    두 개의 정제된 단백질 클래스 pl와 ph가 만일 서로 같은 스팟을 공동으로 포함하고 있다면,
    Figure 112008022524715-pat00179
    일 경우 ph를 제거하고,
    Figure 112008022524715-pat00180
    이면
    Figure 112008022524715-pat00181
    일 때 ph를 제거하는 것을 특징으로 하는 단백질 2-DE 젤 이미지 스팟 매칭에서 다중 참조 이미지를 사용한 단백질 클래스의 정확도 향상 방법.
  6. 삭제
  7. 삭제
  8. 단백질 2-DE 젤 이미지의 스팟 매칭 과정에서 참조 이미지를 사용하여 단백질 클래스를 생성하는 방법에 있어서,
    2-DE 젤 이미지 집합이 주어지면 그로부터 이미지에 포함된 스팟 수를 품질 척도로 하여 복수의 참조 이미지를 선택함으로써 참조 이미지 집합을 구하는 단계와;
    상기 선택된 각 참조 이미지에 대해 독립적으로 스팟 매칭을 진행하여 선택된 모든 참조 이미지에 대해 스팟 매칭을 반복함으로써 패어 트랜젝션 데이터베이스와 단백질 클래스 데이터베이스를 구축하는 단계와;
    상기 패어 트랜젝션 데이터베이스에 포함된 패어들에서 각 패어별로 모순 패어 집합을 선택하여 지지도가 제일 큰 두 패어의 지지도 차이가 사용자가 정해놓은 임계치를 만족할 때, 지지도가 제일 큰 패어는 빈발 1-패어 집합, 나머지 패어는 에러 1-패어 집합으로 분류하고, 임계치를 만족하지 못할 때, 전체 모순 패어 집합을 에러 패어로 분류하는 δ-정제(purification) 알고리즘에 의해 빈발 1-패어 집합과 에러 1-패어 집합으로 분류하는 단계와;
    단백질 클래스에 포함된 패어의 완전성을 이용하여 상기 δ-정제(purification) 알고리즘에 의하여 정제된 빈발 1-패어를 이용하여 단백질 클래스를 생성하는 패어 확장 방법 및 정제된 빈발 1-패어를 지지도에 의하여 파티션한 후, 각 파티션 별로 패어 확장 방법을 이용하여 확장된 단백질 클래스들을 해당 패어 파티션의 지지도 순으로 연결하는 2-단계 패어 확장 방법으로 상기 빈발 1-패어 집합의 패어들을 확장하는 단계와;
    상기 확장 단계에 의해 생성된 정제된 단백질 클래스 사이에서 서로 동일한 스팟을 포함하는 단백질 클래스에 대하여 지지도를 그것이 단백질 클래스 데이터베이스에서의 출현 빈도를 전체 단백질 클래스의 수로 나눈 값을 지지도라 할 때, 지지도가 제일 큰 단백질 클래스를 선택하거나, 또는 지지도가 같을 경우 평균 패어 지지도가 제일 큰 단백질 클래스를 선택하는 방법으로 단백질 클래스에 발생한 모순을 제거하는 단계와;
    상기 단백질 클래스에서 해당 단백질 클래스의 출현 빈도를 단백질 클래스 데이터베이스에서 단백질 클래스 수로 나눈 값을 지지도라 할 때, 미리 설정된 지지도 임계치인 최소 지지도 이상이 되는 단백질 클래스를 선별하여 추출하는 단계;
    를 포함하며,
    상기 δ-정제 알고리즘에 의해 빈발 1-패어 집합과 에러 1-패어 집합으로 분류하는 단계는,
    상기 패어 트랜젝션 데이터베이스에 포함된 패어들에서 최소 지지도를 만족하는 모든 패어들에 대하여 모순 패어 집합을 찾는 단계와;
    상기 모순 패어 집합에서 최대 지지도를 가지는 패어와 두 번째로 큰 지지도를 가지는 패어의 차이 δ가 미리 설정된 필터링 임계치인 δmin 이상이면 최대 지지도를 가지는 패어를 빈발 1-패어로, 상기 δ가 δmin보다 작으면 상기 모순 패어 집합의 모든 패어를 에러 1-패어로 분류하여, 상기 빈발 1-패어들을 포함하는 빈발 1-패어 집합과 상기 에러 1-패어들을 포함하는 에러 1-패어 집합을 구성하는 단계;
    로 이루어지는 것을 특징으로 하는 단백질 2-DE 젤 이미지 스팟 매칭에서 다중 참조 이미지를 사용한 단백질 클래스의 정확도 향상 방법.
  9. 단백질 2-DE 젤 이미지의 스팟 매칭 과정에서 참조 이미지를 사용하여 단백질 클래스를 생성하는 방법에 있어서,
    2-DE 젤 이미지 집합이 주어지면 그로부터 이미지에 포함된 스팟 수를 품질 척도로 하여 복수의 참조 이미지를 선택함으로써 참조 이미지 집합을 구하는 단계와;
    상기 선택된 각 참조 이미지에 대해 독립적으로 스팟 매칭을 진행하여 선택된 모든 참조 이미지에 대해 스팟 매칭을 반복함으로써 패어 트랜젝션 데이터베이스와 단백질 클래스 데이터베이스를 구축하는 단계와;
    상기 패어 트랜젝션 데이터베이스에 포함된 패어들에서 각 패어별로 모순 패어 집합을 선택하여 지지도가 제일 큰 두 패어의 지지도 차이가 사용자가 정해놓은 임계치를 만족할 때, 지지도가 제일 큰 패어는 빈발 1-패어 집합, 나머지 패어는 에러 1-패어 집합으로 분류하고, 임계치를 만족하지 못할 때, 전체 모순 패어 집합을 에러 패어로 분류하는 δ-정제(purification) 알고리즘에 의해 빈발 1-패어 집합과 에러 1-패어 집합으로 분류하는 단계와;
    단백질 클래스에 포함된 패어의 완전성을 이용하여 상기 δ-정제(purification) 알고리즘에 의하여 정제된 빈발 1-패어를 이용하여 단백질 클래스를 생성하는 패어 확장 방법 및 정제된 빈발 1-패어를 지지도에 의하여 파티션한 후, 각 파티션 별로 패어 확장 방법을 이용하여 확장된 단백질 클래스들을 해당 패어 파티션의 지지도 순으로 연결하는 2-단계 패어 확장 방법으로 상기 빈발 1-패어 집합의 패어들을 확장하는 단계와;
    상기 확장 단계에 의해 생성된 정제된 단백질 클래스 사이에서 서로 동일한 스팟을 포함하는 단백질 클래스에 대하여 지지도를 그것이 단백질 클래스 데이터베이스에서의 출현 빈도를 전체 단백질 클래스의 수로 나눈 값을 지지도라 할 때, 지지도가 제일 큰 단백질 클래스를 선택하거나, 또는 지지도가 같을 경우 평균 패어 지지도가 제일 큰 단백질 클래스를 선택하는 방법으로 단백질 클래스에 발생한 모순을 제거하는 단계와;
    상기 단백질 클래스에서 해당 단백질 클래스의 출현 빈도를 단백질 클래스 데이터베이스에서 단백질 클래스 수로 나눈 값을 지지도라 할 때, 미리 설정된 지지도 임계치인 최소 지지도 이상이 되는 단백질 클래스를 선별하여 추출하는 단계;
    를 포함하며,
    상기 빈발 1-패어 집합을 확장하는 단계에서 상기 빈발 1-패어 집합의 각 패어들을 패어 확장 알고리즘에 의해 확장하고;
    상기 패어 확장 알고리즘에서는,
    모든 빈발 1-패어를 기점으로 확장을 시작하되, 확장하려고 하는 단백질 클래스 pc에 포함된 해당 패어의 두 스팟
    Figure 112008022524715-pat00182
    Figure 112008022524715-pat00183
    을 각각 시작점으로 하여 확장하며, 여기서 먼저 스팟
    Figure 112008022524715-pat00184
    을 포함하고 있는 모든 빈발 1-패어
    Figure 112008022524715-pat00185
    를 찾고, 이러한 패어들이 포함하고 있는 스팟 집합을 S라 할 때 상기 스팟 집합 S에 있는 모든 스팟에 대해 포함된 각 스팟을 사용하여 단백질 클래스를 확장하며, 이어 스팟
    Figure 112008022524715-pat00186
    에 의하여 확장하는 것을 특징으로 하는 단백질 2-DE 젤 이미지 스팟 매칭에서 다중 참조 이미지를 사용한 단백질 클래스의 정확도 향상 방법.
  10. 단백질 2-DE 젤 이미지의 스팟 매칭 과정에서 참조 이미지를 사용하여 단백질 클래스를 생성하는 방법에 있어서,
    2-DE 젤 이미지 집합이 주어지면 그로부터 이미지에 포함된 스팟 수를 품질 척도로 하여 복수의 참조 이미지를 선택함으로써 참조 이미지 집합을 구하는 단계와;
    상기 선택된 각 참조 이미지에 대해 독립적으로 스팟 매칭을 진행하여 선택된 모든 참조 이미지에 대해 스팟 매칭을 반복함으로써 패어 트랜젝션 데이터베이스와 단백질 클래스 데이터베이스를 구축하는 단계와;
    상기 패어 트랜젝션 데이터베이스에 포함된 패어들에서 각 패어별로 모순 패어 집합을 선택하여 지지도가 제일 큰 두 패어의 지지도 차이가 사용자가 정해놓은 임계치를 만족할 때, 지지도가 제일 큰 패어는 빈발 1-패어 집합, 나머지 패어는 에러 1-패어 집합으로 분류하고, 임계치를 만족하지 못할 때, 전체 모순 패어 집합을 에러 패어로 분류하는 δ-정제(purification) 알고리즘에 의해 빈발 1-패어 집합과 에러 1-패어 집합으로 분류하는 단계와;
    단백질 클래스에 포함된 패어의 완전성을 이용하여 상기 δ-정제(purification) 알고리즘에 의하여 정제된 빈발 1-패어를 이용하여 단백질 클래스를 생성하는 패어 확장 방법 및 정제된 빈발 1-패어를 지지도에 의하여 파티션한 후, 각 파티션 별로 패어 확장 방법을 이용하여 확장된 단백질 클래스들을 해당 패어 파티션의 지지도 순으로 연결하는 2-단계 패어 확장 방법으로 상기 빈발 1-패어 집합의 패어들을 확장하는 단계와;
    상기 확장 단계에 의해 생성된 정제된 단백질 클래스 사이에서 서로 동일한 스팟을 포함하는 단백질 클래스에 대하여 지지도를 그것이 단백질 클래스 데이터베이스에서의 출현 빈도를 전체 단백질 클래스의 수로 나눈 값을 지지도라 할 때, 지지도가 제일 큰 단백질 클래스를 선택하거나, 또는 지지도가 같을 경우 평균 패어 지지도가 제일 큰 단백질 클래스를 선택하는 방법으로 단백질 클래스에 발생한 모순을 제거하는 단계와;
    상기 단백질 클래스에서 해당 단백질 클래스의 출현 빈도를 단백질 클래스 데이터베이스에서 단백질 클래스 수로 나눈 값을 지지도라 할 때, 미리 설정된 지지도 임계치인 최소 지지도 이상이 되는 단백질 클래스를 선별하여 추출하는 단계;
    를 포함하며,
    상기 빈발-1 패어 집합을 확장하는 단계에서 상기 빈발 1-패어 집합의 각 패어들을 2-단계 패어 확장 알고리즘에 의해 확장하고;
    상기 2-단계 패어 확장 알고리즘에서는,
    각 패어들을 확장할 때 빈발한 1-패어들을 각자의 지지도에 의하여 파티션들로 분리하고, 분리된 각 파티션에 대하여 패어 확장 알고리즘을 사용하여 확장한 후, 파티션의 지지도 크기 순에 따라 각 파티션을 하나로 합쳐가는 것을 특징으로 하는 단백질 2-DE 젤 이미지 스팟 매칭에서 다중 참조 이미지를 사용한 단백질 클래스의 정확도 향상 방법.
  11. 청구항 10에 있어서,
    상기 2-단계 패어 확장 알고리즘에서 단백질 클래스를 확장할 때 한 파티션을 먼저 확장한 후 새로운 파티션을 추가하여 확장하는 방법으로 단백질 클래스를 확장해 나가는 것을 특징으로 하는 단백질 2-DE 젤 이미지 스팟 매칭에서 다중 참조 이미지를 사용한 단백질 클래스의 정확도 향상 방법.
  12. 청구항 10에 있어서,
    단백질 클래스에 한 스팟이 추가되어 더 큰 단백질 클래스로 확장될 때 해당 스팟과 원래 단백질 클래스에 존재하는 모든 스팟으로 구성된 패어는 빈발 1-패어가 되는 것을 특징으로 하는 단백질 2-DE 젤 이미지 스팟 매칭에서 다중 참조 이미지를 사용한 단백질 클래스의 정확도 향상 방법.
  13. 청구항 10에 있어서,
    패어 트랜잭션 데이터베이스에서 단백질 클래스
    Figure 112007014761808-pat00187
    와 pc의 한 스팟
    Figure 112007014761808-pat00188
    을 포함한 패어
    Figure 112007014761808-pat00189
    가 주어졌을 때, 스팟
    Figure 112007014761808-pat00190
    와 스팟
    Figure 112007014761808-pat00191
    을 제외한 pc의 나머지 스팟들로 구성된 n-1개의 패어에서 빈발하지 않는 패어의 수를 m이라고 한다면, 단백질 클래스
    Figure 112007014761808-pat00192
    Figure 112007014761808-pat00193
    로 확장할 때 발생하는 미씽 포션(missing portion)은 m/(n+1)으로 하는 것을 특징으로 하는 단백질 2-DE 젤 이미지 스팟 매칭에서 다중 참조 이미지를 사용한 단백질 클래스의 정확도 향상 방법.
  14. 단백질 2-DE 젤 이미지의 스팟 매칭 과정에서 참조 이미지를 사용하여 단백질 클래스를 생성하는 방법에 있어서,
    2-DE 젤 이미지 집합이 주어지면 그로부터 이미지에 포함된 스팟 수를 품질 척도로 하여 복수의 참조 이미지를 선택함으로써 참조 이미지 집합을 구하는 단계와;
    상기 선택된 각 참조 이미지에 대해 독립적으로 스팟 매칭을 진행하여 선택된 모든 참조 이미지에 대해 스팟 매칭을 반복함으로써 패어 트랜젝션 데이터베이스와 단백질 클래스 데이터베이스를 구축하는 단계와;
    상기 패어 트랜젝션 데이터베이스에 포함된 패어들에서 각 패어별로 모순 패어 집합을 선택하여 지지도가 제일 큰 두 패어의 지지도 차이가 사용자가 정해놓은 임계치를 만족할 때, 지지도가 제일 큰 패어는 빈발 1-패어 집합, 나머지 패어는 에러 1-패어 집합으로 분류하고, 임계치를 만족하지 못할 때, 전체 모순 패어 집합을 에러 패어로 분류하는 δ-정제(purification) 알고리즘에 의해 빈발 1-패어 집합과 에러 1-패어 집합으로 분류하는 단계와;
    단백질 클래스에 포함된 패어의 완전성을 이용하여 상기 δ-정제(purification) 알고리즘에 의하여 정제된 빈발 1-패어를 이용하여 단백질 클래스를 생성하는 패어 확장 방법 및 정제된 빈발 1-패어를 지지도에 의하여 파티션한 후, 각 파티션 별로 패어 확장 방법을 이용하여 확장된 단백질 클래스들을 해당 패어 파티션의 지지도 순으로 연결하는 2-단계 패어 확장 방법으로 상기 빈발 1-패어 집합의 패어들을 확장하는 단계와;
    상기 확장 단계에 의해 생성된 정제된 단백질 클래스 사이에서 서로 동일한 스팟을 포함하는 단백질 클래스에 대하여 지지도를 그것이 단백질 클래스 데이터베이스에서의 출현 빈도를 전체 단백질 클래스의 수로 나눈 값을 지지도라 할 때, 지지도가 제일 큰 단백질 클래스를 선택하거나, 또는 지지도가 같을 경우 평균 패어 지지도가 제일 큰 단백질 클래스를 선택하는 방법으로 단백질 클래스에 발생한 모순을 제거하는 단계와;
    상기 단백질 클래스에서 해당 단백질 클래스의 출현 빈도를 단백질 클래스 데이터베이스에서 단백질 클래스 수로 나눈 값을 지지도라 할 때, 미리 설정된 지지도 임계치인 최소 지지도 이상이 되는 단백질 클래스를 선별하여 추출하는 단계;
    를 포함하며,
    상기 정제된 단백질 클래스의 모순을 제거하는 단계에서는,
    정제된 단백질 클래스
    Figure 112008022524715-pat00194
    의 평균 패어 지지도를 해당 단백질 클래스가 포함하고 있는 모든 스팟에 의하여 형성된 패어들의 평균 지지도로서 하기 식(E)와 같이 정의할 때,
    식(E):
    Figure 112008022524715-pat00195
    는 패어 트랜젝션 데이터베이스에서 빈발 1-패어
    Figure 112008022524715-pat00196
    의 지지도임),
    두 개의 정제된 단백질 클래스 pl와 ph가 만일 서로 같은 스팟을 공동으로 포함하고 있다면,
    Figure 112008022524715-pat00197
    일 경우 ph를 제거하고,
    Figure 112008022524715-pat00198
    이면
    Figure 112008022524715-pat00199
    일 때 ph를 제거하는 것을 특징으로 하는 단백질 2-DE 젤 이미지 스팟 매칭에서 다중 참조 이미지를 사용한 단백질 클래스의 정확도 향상 방법.
KR1020070016816A 2007-02-16 2007-02-16 단백질 2-de 젤 이미지 스팟 매칭에서 다중 참조이미지를 사용한 단백질 클래스의 정확도 향상 방법 KR100858326B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070016816A KR100858326B1 (ko) 2007-02-16 2007-02-16 단백질 2-de 젤 이미지 스팟 매칭에서 다중 참조이미지를 사용한 단백질 클래스의 정확도 향상 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070016816A KR100858326B1 (ko) 2007-02-16 2007-02-16 단백질 2-de 젤 이미지 스팟 매칭에서 다중 참조이미지를 사용한 단백질 클래스의 정확도 향상 방법

Publications (2)

Publication Number Publication Date
KR20080076626A KR20080076626A (ko) 2008-08-20
KR100858326B1 true KR100858326B1 (ko) 2008-09-17

Family

ID=39879847

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070016816A KR100858326B1 (ko) 2007-02-16 2007-02-16 단백질 2-de 젤 이미지 스팟 매칭에서 다중 참조이미지를 사용한 단백질 클래스의 정확도 향상 방법

Country Status (1)

Country Link
KR (1) KR100858326B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5073963A (en) 1990-05-25 1991-12-17 Arizona Technology Development Corp. Computerized method of matching two-dimensional (2-d) patterns
KR100515347B1 (ko) 2004-01-02 2005-09-15 이원석 단백질 정보 데이터 전처리 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5073963A (en) 1990-05-25 1991-12-17 Arizona Technology Development Corp. Computerized method of matching two-dimensional (2-d) patterns
KR100515347B1 (ko) 2004-01-02 2005-09-15 이원석 단백질 정보 데이터 전처리 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
연세대학교 석사학위 논문 "단백질 2DE 이미지 스팟 매칭에서 확률 기반 정확도 향상 기법" (김연화) 2005. 12.*

Also Published As

Publication number Publication date
KR20080076626A (ko) 2008-08-20

Similar Documents

Publication Publication Date Title
Somarakis et al. ImaCytE: visual exploration of cellular micro-environments for imaging mass cytometry data
Chen et al. Single-cell trajectories reconstruction, exploration and mapping of omics data with STREAM
Shaham et al. Removal of batch effects using distribution-matching residual networks
Xu et al. Identification of cell types from single-cell transcriptomes using a novel clustering method
Sandin et al. Data processing methods and quality control strategies for label-free LC–MS protein quantification
US9354236B2 (en) Method for identifying peptides and proteins from mass spectrometry data
US20030078739A1 (en) Feature list extraction from data sets such as spectra
CN113555062B (zh) 一种用于基因组碱基变异检测的数据分析系统及分析方法
Awan et al. MS-REDUCE: an ultrafast technique for reduction of big mass spectrometry data for high-throughput processing
Cazals et al. Conformational ensembles and sampled energy landscapes: Analysis and comparison
CN112289376A (zh) 一种检测体细胞突变的方法及装置
Haque et al. A common neighbor based technique to detect protein complexes in PPI networks
CN111292807B (zh) 一种单细胞转录组数据中分析双细胞的方法
Kyrilis et al. Detecting protein communities in native cell extracts by machine learning: a structural biologist’s perspective
Ghanat Bari et al. PeakLink: a new peptide peak linking method in LC-MS/MS using wavelet and SVM
KR100858326B1 (ko) 단백질 2-de 젤 이미지 스팟 매칭에서 다중 참조이미지를 사용한 단백질 클래스의 정확도 향상 방법
KR102034271B1 (ko) 유전자 네트워크 구축 장치 및 방법
Supek et al. Enhanced analytical power of SDS‐PAGE using machine learning algorithms
Iravani et al. An Interpretable Deep Learning Approach for Biomarker Detection in LC-MS Proteomics Data
US20100280759A1 (en) Mass spectrometer output analysis tool for identification of proteins
CN103488913A (zh) 一种用于利用测序数据将肽映射到蛋白质的计算方法
Schork et al. Characterization of peptide-protein relationships in protein ambiguity groups via bipartite graphs
KR100883898B1 (ko) 단백질 2-de 젤 이미지에서의 질병 의존 단백질의 도출방법
Macnair et al. Tree‐ensemble analysis assesses presence of multifurcations in single cell data
Wilk et al. On Stability of Feature Selection Based on MALDI Mass Spectrometry Imaging Data and Simulated Biopsy

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130802

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140626

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee