KR20080076446A - 단백질 2-de 젤 이미지에서의 질병 의존 단백질의 도출방법 - Google Patents
단백질 2-de 젤 이미지에서의 질병 의존 단백질의 도출방법 Download PDFInfo
- Publication number
- KR20080076446A KR20080076446A KR1020070016374A KR20070016374A KR20080076446A KR 20080076446 A KR20080076446 A KR 20080076446A KR 1020070016374 A KR1020070016374 A KR 1020070016374A KR 20070016374 A KR20070016374 A KR 20070016374A KR 20080076446 A KR20080076446 A KR 20080076446A
- Authority
- KR
- South Korea
- Prior art keywords
- protein
- change
- pair
- expression
- disease
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/68—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N27/00—Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
- G01N27/26—Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating electrochemical variables; by using electrolysis or electrophoresis
- G01N27/416—Systems
- G01N27/447—Systems using electrophoresis
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Immunology (AREA)
- Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Pathology (AREA)
- General Physics & Mathematics (AREA)
- Biochemistry (AREA)
- Urology & Nephrology (AREA)
- Biomedical Technology (AREA)
- Analytical Chemistry (AREA)
- Hematology (AREA)
- Medicinal Chemistry (AREA)
- Food Science & Technology (AREA)
- Biotechnology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Microbiology (AREA)
- Cell Biology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Electrochemistry (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
본 발명은 단백질 2-DE 젤 이미지에서의 질병 의존 단백질의 도출 방법에 관한 것으로서, 이차원 전기영동(2-Dimensional Electrophoresis; 2-DE) 장치로부터 얻어진 단백질 젤 이미지에서 질병에 의해 발현량이 변화하는 단백질을 보다 효율적이고 효과적으로 도출할 수 있는 질병 의존 단백질의 도출 방법에 관한 것이다.
단백질의 발현량 변화 분석에는 통계적 방법이 많이 이용되고 있으며, 단백질 상용 이미지 분석 소프트웨어에서 제공하는 그래픽을 이용한 방법들도 있으나, 이 방법들은 많은 조직 내에 존재하는 수많은 단백질을 일일이 비교, 분석해야 하는 어려움이 있었다. 본 발명에서는, 단백질의 발현량의 변화를 판단하기 위한 척도로서 종래와 같은 정상에서의 단백질 발현량과 비정상에서의 단백질 발현량의 차이가 아닌 배수를 이용하고, 단백질의 질병 의존 단백질 여부를 판단하기 위한 예외 함수를 이용하여 분석을 수행함으로써, 종래의 통계적 분석 방법에 비해 질병 의존 단백질의 더욱 효율적인 도출이 가능해지고, 종래의 통계적 분석 방법에서 발견되지 않은 질병 의존 단백질을 찾을 수 있는 등 더욱 정확한 분석이 가능해진다.
단백질, 전기영동, 2-DE, 젤 이미지, 질병 의존, 단백질, 예외 함수
Description
도 1은 2-DE 젤 이미지의 예를 나타낸 도면,
도 2는 페어-교차 연결과 페어 단백질 집합의 예를 나타낸 도면,
도 3은 본 발명에서 변화율 임계치 λ에 의한 변화 속성을 나타낸 도면,
도 4는 실제 간암 환자 3명의 샘플로부터 채취된 6개의 젤 이미지에서 단백질 HSP70에 대한 변화 속성의 예를 나타낸 도면,
도 5는 본 발명에서 질병 의존 단백질을 도출하기 위한 주요 단계를 나타낸 도면,
도 6은 본 발명에 따른 알고리즘과 기존의 통계적 분석 방법에 의한 질병 의존 단백질의 의사 결정 메커니즘을 도식화한 도면,
도 7은 종래의 통계적 방법에서 미약한 단백질 발현량 차이를 변화로 인식한 문제점을 나타낸 그래프,
도 8은 통계적 방법의 또 다른 문제점을 보이기 위한 도면,
도 9는 종래의 통계적 방법과 본 발명의 방법에 따라 질병에 의해 발현량이 변한다고 판단되는 질병 의존 단백질의 분포를 나타낸 도면.
본 발명은 단백질 2-DE 젤 이미지에서의 질병 의존 단백질의 도출 방법에 관한 것으로서, 더욱 상세하게는 임의의 질병에 대한 2-DE 젤 이미지에서 질병에 의하여 발현량이 변화하는 단백질을 효율적이고 효과적으로 도출할 수 있는 방법에 관한 것이다.
오늘날 단백질체학 연구는 주어진 셀이나 조직, 생물체에 표현된 단백질 프로파일에 대한 조직적인 분석을 다루고 있다. 이러한 단백질체학 연구의 목적은 임의의 조직에서 어떤 단백질이 발견되는지, 특정 조건 하에서 단백질이 어떻게 상호 작용하는 지를 분석하는 것이다. 특히, 유전자 명령으로 만들어진 단백질체를 대상으로 특정 조건 하에서 단백질의 기능 이상 및 구조 변형 유무를 규명하고 질병 과정을 추적하는 것이 목표다.
상기한 목적에서, 임의의 조직에서 특정 조건에 따른 단백질의 발현량의 변화 분석은 조직의 기능 장애를 일으키는 단백질의 도출에 있어서 핵심 이슈 중의 하나이다.
단백질 분석에는 이차원 전기영동(2-Dimensional Electrophoresis; 2-DE)과 Non-2-DE의 두 가지 기술이 사용되고 있으며, 전자는 전기영동 방식을 사용하여 임의의 조직에서 단백질을 분리하게 된다[S. Y. Cho, K.-S. Park, J.E.Shim, M.- S.Kwon, K.H.Joo, W.S.Lee, J.Chang, H.Kim, H.C.Chung, H.O.Kim, Y.-K.Paik, "An integrated proteome database for two-dimensional electrophoreses data analysis and laboratory information management system", Proteomics, 2, 1104-1113, 2002.].
그리고, 후자는 주로 ICAT(Isotope Coded Affinity Tag)[Gygy, S.P., Rist, B., Gerber, S.A., Tureck, F. et al., "Nat. Biotech", 17, 994-999, 1999.]나 MCAT(Mass-Coded Abundance Tagging)[Cagney, G., Emili, E., "Nat. Biotech", 20, 163-170, 2002.]와 같은 특정 친화성 태그(affinity tagging)나 LC-MS(Liquid Chromatography-Mass Spectrometry)를 사용하며, 자동화에 유용하고 처리율이 높다.
Non-2-DE 기술이 보다 정확한 결과를 제공하지만, 여전히 2-DE 기술이 가격, 효율성 등으로 인해 단백질의 발현 패턴 분석에 주로 이용되는 기술이다[Celis, J.E., Rasmussen, H.H., Gromov, P., Olsen, E. et al., "Electrophoresis", 16, 2177-2240, 1995; Rabilloud, T., "Proteomics", 2, 3-10, 2002.].
2-DE 방법은 조직 내의 단백질을 등전점에 의해 1차원으로 분리하고, 이를 분자량에 의해 2차원으로 분리하는 기법이다. 분리가 끝난 후에는 2-DE 젤 이미지(gel image)가 생성되며, 젤 이미지에서의 하나의 스팟(spot)은 하나의 단백질로 매핑(mapping)된다. 첨부한 도 1은 2-DE 젤 이미지의 예를 나타낸 도면이다.
이와 같이 2-DE의 결과는 평균적으로 1000개 이상의 스팟을 포함하는 2-DE 젤 이미지로 표현된다. 여기서, 각 스팟은 분리된 단백질을 나타내며, 각 단백질의 발현량은 농도(intensity)라 불리는 척도로 표현된다. 특정 질병에 의해 발현량이 변하는 단백질은 그 질병에 대한 잠재적인 마커 단백질이 될 수 있다.
지금까지 HCC(Hepatocellular Carcinoma)와 폐암과 같은 몇몇 질병의 진단을 위한 많은 수의 마커 단백질이 보고되었으나, 각종 질병에 대한 잠재적 마커 단백질의 전체 집합을 찾기 위해서는 많은 작업이 요구되고 있다[K.S.Park, Y.K.Jeon, S.Y.Cho, D.B.Kim, W.S.Lee, Y.-K.Paik. et al., "Composite Analyses of Metabolic Profiles of Proteins That are Differentially Expressed in Hepatocellular Carcinoma", HUPO-The Second Congress of Human Proteome Organization, 2003.].
단백질의 발현량 변화를 검출하기 위한 가장 직관적인 방법은 눈으로 직접 2-DE 젤 이미지를 확인하는 방법이다. 이 방법 외에 통계적 분석 방법이나, Melanie Ⅲ, Progenesis, PDQuest 등과 같은 상용 이미지 분석 소프트웨어 패키지에서 제공하는 그래프를 이용한 시각화 분석 방법을 이용할 수 있다.
통계적 분석 방법은 단백질의 발현량 변화 분석에 대표적으로 사용되는 방법이고, 그래프를 이용한 분석 방법은 상용 이미지 분석 소프트웨어에서 제공하는 분석 툴을 이용하는 방법이다.
통계적 방법의 주된 특징은 두 모집단 간에 차이가 존재할 확률을 구하는 것이다. 여러 샘플에서 추출한 정상 조직과 비정상 조직에 존재하는 다수의 단백질 중에서 발현량의 변화가 있는 단백질을 찾는 통계적 접근 방법에는 다음의 두 가지가 있다. 하나는 정상 조직들 내의 임의의 단백질 집합과 비정상 조직들 내의 해당 단백질 집합의 발현량 변화를 비교하는 방법이고, 다른 하나는 각 샘플에서 추출한 정상 조직 내의 임의의 단백질과 비정상 조직 내의 해당 단백질을 샘플별로 쌍(pair)으로 하여 전체 샘플에서 해당 단백질의 발현량 변화를 비교하는 방법이다.
전자는 독립된 두 군 간의 평균 비교로, Mann-Whitney test, Sign test, Student's t-test등의 통계적 방법을 적용할 수 있다[Gygy, S.P., Rist, B., Gerber, S.A., Tureck, F. et al., "Nat. Biotech", 17, 994-999, 1999.; Cagney, G., Emili, E., "Nat. Biotech", 20, 163-170, 2002.]. 그러나, 단백질 데이터의 특성상 정상 조직에 속하는 임의의 단백질에 해당하는 스팟의 집합과 비정상 조직에 속하는 해당 단백질의 스팟 집합을 평균적으로 비교하기에는 스팟 농도에 있어서 서로 다른 샘플에서 추출한 이미지 간의 변이가 매우 크므로, 이 방법은 적합하지 않다. 즉, 정상 조직에서 추출한 이미지들 내의 스팟들 간의 분산, 또는 비정상 조직에서 추출한 이미지들 내의 스팟들 간의 분산이 크므로 이들을 평균적으로 비교하는 것은 부적합하다.
후자는 한 샘플에서 추출된 정상과 비정상 조직 내의 단백질을 서로 매치하고, 쌍(pair)을 이룬 각 샘플을 모두 매치함에 의해 생성된 쌍을 이룬 두 집단을 비교하는 것으로, Paired t-test방법이 있다. 매치 과정을 통해서 임의의 단백질을 나타내는 각 젤 이미지 내의 스팟들은 일관된 매치 넘버를 갖게 되며, 같은 매치 넘버를 가진 스팟들의 농도값을 이용해 통계적 분석이 이루어진다. 여기서는 실험에 쓰이는 데이터가 정규 분포를 이루지 않으므로, 모집단의 분포가 필요없는 Wilcoxon paired t-test방법이 적합하다. Wilcoxon paired t-test 방법은 쌍을 이룬 단백질의 발현량 차이의 크기를 증감 별로 순위를 취하여 두 집단 간의 변화를 비교하는 것이다[David Arnott, Kathy L. O'Connel, Kathleen L.King, John T.Stults, "An Integrated Approach to Proteome Analysis: Identification of Protein Associated with Cardiac Hypertrophy", Analytical Biochemistry 258, 1-18, 1998.; S.O.Lim, S.-J.Park, W.Kim, S.G.Park, H.-J.Kim, Y.I.Kim, T.-S.Sohn, J.-H.Noh, G.Jung, "Proteome Analysis of Hepatocellular Carcinoma", Biochemical and Biophysical Research Communications 291, , 1031-1037, 2002.].
한편, Melanie Ⅲ와 Progenesis는 잘 알려진 상용 이미지 분석 소프트웨어 패키지이다. 이것들은 발현량이 변하는 단백질의 분석을 위해 앞에서 기술한 Student t-test, Wilcoxon or Mann-Whitney test, Kolmogorov test와 같은 몇몇 통계적 방법을 제공함과 함께 그 외에 다양한 그래픽적 분석 방법을 제공하며, 여기서 다음 세 가지 방법을 기술한다.
첫 번째, 특이한 스팟 그룹에 대한 정보를 나타내는 히스토그램을 제공한다[Gene Bio, Melanie Ⅲ Image Analysis Program Manual]. 히스토그램은 분석 대상 젤 이미지들 내에서 매치된 스팟 집합 별로 농도의 분포를 나타내고, 그래프 내에서 젤 이미지별로 정렬하여 볼 수 있으므로, 정상 조직의 젤 이미지와 비정상 조직의 젤 이미지로 정렬하여 각 스팟 별로 농도 분포의 비교가 가능하다.
두 번째는, 오버래핑 측정(overlapping measure) 방법이다. 이 방법은 주요 경향(central tendency)과 분산(dispersion)의 두 통계 값으로 임의 단백질에 대한 스팟 집합의 요약 정보를 그래프로 나타내고, 차이(gap)라는 척도로 비교 대상이 되는 두 집단 간에 겹치는 정도를 그래프에 나타내어 분석을 돕는다. 주요 경향과 분산은 Melanie에서 제공하는 통계값으로, 주요 경향은 데이터를 나타내는 주요 값들의 범위를 나타내고, 분산은 주요 경향으로부터 데이터가 얼마나 흩어져 있는지를 나타낸다. 따라서, 스팟별로 오버래핑 측정(overlapping measure)을 나타내는 그래프를 이용해 발현량이 변하는 단백질을 찾아낼 수 있다.
마지막으로, Difference Map은 그래픽의 형식으로 젤 이미지를 서로 겹쳐 발현량의 차이를 볼 수 있도록 지원하는 방식이다[NLD, Progenesis Image Analysis Program Manual]. 사용자는 임의의 임계값을 지정하여 임계값 내에서 매치된 스팟들이 증가했는지 또는 감소했는지를 확인할 수 있다. 이 방법에서는 스팟들의 아웃라이어(outlier)를 가능한 한 제거하고, 지정한 임계값에 해당하는 스팟 집합만을 지정하여 분석하는 것이 가능하다.
단백질 젤 이미지 분석과 관련된 특허로서, 본 발명의 발명자는 이차원 전기영동 장치에 의해 생성되는 단백질 젤 이미지를 분석하기 위해 반드시 필요한 기준점을 자동으로 추출하는 방법을 특허 출원한 바 있다(특허등록 제671314호, 2007.01.27). 젤 이미지 분석은 스팟 검출(spot detction)과 스팟 매칭(spot matching)의 두 단계로 나뉜다. 스팟 검출은 젤 이미지에서 하나의 단백질과 부합하는 스팟들을 검출해내는 과정이며, 스팟 매칭은 검출된 스팟을 토대로 동일한 샘플 젤들의 이미지 간의 지리적인 위치가 유사한 스팟들을 동일 단백질로 연계 분석하기 위해 필요한 젤 이미지 분석 과정이다. 단백질 분석에 있어서 스팟 매칭 과정 이 필요한 이유는 특정 질환에 의해 과다하게 발현되거나 또는 발현량이 감소하는 경우에 모든 동일 질환의 샘플에서 발현량의 변화가 유사하다면 질환과 특정 단백질의 발현과의 연관성을 도출할 수 있는데, 발현량의 변화가 유사한지를 확인하는 방법은 동일 질환의 서로 다른 샘플의 스팟 매칭을 통해 동일한 단백질이 어떤 것인지, 그리고 발현량이 어떻게 변화하였는지를 규명하여야 한다. 따라서, 젤 이미지 분석에서 중요한 과정이 스팟 매칭이다. 스팟 매칭 역시 상기 기술된 상용화된 분석 소프트웨어에서 자동 처리되나 스팟 매칭의 정확성 역시 젤 이미지에 내포된 오류에 많은 영향을 받는다. 잘 알려진 젤 이미지 분석 소프트웨어인 Melanie는 스팟 매칭을 위해서 각 이미지에 기준점을 입력하는데, 기준점은 이미지에 고루 분포되어야 하며, 대부분의 이미지에서 나타나는 스팟을 기준점으로 입력해야 한다. 기존 상용 소프트웨어는 모두 분석 전에 사용자 입력을 필요로 하며, 이미지가 추가될 때마다 추가적인 기준점 또는 AOI(Progenesis)의 입력이 요구된다. 이러한 문제점을 해결하기 위하여 상기 특허에서는 사용자가 육안으로 판단하여 수동으로 입력해야 하는 기준점을 자동으로 찾아주는 방법이 개시되어 있다.
한편, 이론적으로 2-DE 젤 이미지의 분석에 있어서, 그래픽을 이용한 분석 방법이나 통계적 방법으로 잠재적 마커 단백질을 도출하는 것이 가능하지만, 하나의 2-DE 젤 이미지에는 평균적으로 천 개 이상의 스팟이 존재하므로 개개의 스팟에 대해 일일이 분석하여 발현량이 변하는 단백질을 도출하기는 어렵다. 신뢰성 있는 결과를 얻기 위해서는 많은 수의 정상과 비정상 조직에서 얻은 2-DE 젤 이미지를 함께 분석할 필요가 있으며, 각 2-DE 젤 이미지에 있는 수천 개 이상의 스팟의 수 를 고려할 때 많은 수의 젤 이미지에 존재하는 각 스팟의 정보를 일일이 분석하는 것은 거의 불가능하다. 따라서, 많은 수의 스팟 정보를 효율적으로 다루기 위해서는 자동화된 질병 의존 단백질의 도출 방법이 필요하다.
따라서, 본 발명은 상기와 같은 문제점을 해결하기 위하여 발명한 것으로서, 단백질의 발현량의 변화를 판단하기 위한 척도로서 종래와 같은 정상에서의 단백질 발현량과 비정상에서의 단백질 발현량의 차이가 아닌 배수를 이용하고, 단백질의 질병 의존 단백질 여부를 판단하기 위한 예외 함수를 이용하여 분석을 수행함으로써, 종래의 통계적 분석 방법에 비해 질병 의존 단백질의 더욱 효율적인 도출이 가능해지고, 종래의 통계적 분석 방법에서 발견되지 않은 질병 의존 단백질을 찾을 수 있는 등 더욱 정확한 분석이 가능해지는 질병 의존 단백질의 도출 방법을 제공하는데 그 목적이 있다.
상기한 목적을 달성하기 위해, 본 발명은, 2-DE 젤 이미지로부터 질병에 의하여 발현량이 변화하는 질병 의존 단백질을 도출하기 위한 방법에 있어서,
정상 조직과 비정상 조직의 2-DE 젤 이미지에서 참조 이미지의 동일 참조 스팟에 연결된 정상 조직의 스팟과 비정상 조직의 스팟을 한 쌍으로 하는 각각의 페어-교차 연결들에 대해서 정상 조직과 비정상 조직의 두 스팟의 발현량을 계산하는 단계와; 상기 각 페어-교차 연결들에 대해서 상기 두 스팟의 발현량을 토대로 변화 속성을 계산하여 부여하는 단계와; 상기 페어-교차 연결들의 집합인 페어 단백질 집합에 대해서 변화 속성을 부여받은 페어-교차 연결들로부터 단백질 발현량의 변화를 분석하기 위한 척도가 되는 단백질의 변화 요약값을 계산하는 단계와; 상기 페어 단백질 집합에 대해서 상기 변화 요약값을 토대로 단백질 발현량의 변화를 분석하기 위한 예외 함수를 이용하여 예외 함수의 결과값을 계산하는 단계와; 상기 예외 함수의 결과값을 미리 설정된 예외 임계치와 비교하여 해당 단백질의 질병 의존 단백질 여부를 판정하는 단계;를 포함하는 것을 특징으로 한다.
바람직하게는, 상기 변화 속성을 계산하여 부여하는 단계는, 미리 설정된 변화율 임계치를 λ라 할 때, 상기 각 페어-교차 연결에서 비정상 조직의 스팟의 발현량이 정상 조직의 스팟의 발현량의 1/λ배 이하이면, 페어-교차 연결의 변화 속성을, 해당 단백질의 발현량이 질병에 의해 일정수준 이상 감소했음을 나타내는 "발현이 억제된 상태(under-expressed)"로 계산하고; 상기 비정상 조직의 스팟의 발현량이 정상 조직의 스팟의 발현량의 1/λ배보다 크고 정상 조직의 스팟의 발현량의 λ배보다 작으면, 페어-교차 연결의 변화 속성을 "발현 변화가 없는 상태(normal-expressed)"로 계산하며; 상기 비정상 조직의 스팟의 발현량이 정상 조직의 스팟의 발현량의 λ배 이상이면, 페어-교차 연결의 변화 속성을, 해당 단백질의 발현량이 질병에 의해 일정수준 이상 증가했음을 나타내는 "발현이 된 상태(over-expressed)"로 계산하는 것을 특징으로 한다.
또한 상기 변화 속성을 계산하여 부여하는 단계는, 상기 각 페어-교차 연결 들에 대해서 상기 두 스팟의 발현량으로부터 발현량의 변화율을 계산한 뒤, 계산된 변화율과 미리 설정된 변화율 임계치 λ를 이용하여 변화 속성을 계산하는 것을 특징으로 한다.
여기서, 상기 변화 속성을 계산하기 위한 변화율은, 상기 비정상 조직의 스팟의 발현량을 정상 조직과 비정상 조직의 두 스팟의 발현량의 합으로 나눈 값으로 계산되는 것을 특징으로 한다.
여기서, 상기 변화 속성은, 상기 변화율이 1/(λ+1) 이하이면 해당 단백질의 발현량이 질병에 의해 일정수준 이상 감소했음을 나타내는 "발현이 억제된 상태(under-expressed)"로, 1/(λ+1)보다 크고 λ/(λ+1)보다 작으면 "발현 변화가 없는 상태(normal-expressed)"로, λ/(λ+1) 이상이면 해당 단백질의 발현량이 질병에 의해 일정수준 이상 증가했음을 나타내는 "발현이 억제된 상태(under-expressed)"로 계산되는 것을 특징으로 한다.
한편, 상기 예외 함수를 이용하여 예외값을 계산하기 위한 페어 단백질 집합의 변화 요약값은 하기 식(E1)로 정의하는 것을 특징으로 한다.
식(E1): 변화 요약값(Pr) = RSr(cu, cn, co]
여기서, r은 참조 스팟 인덱스이고, Pr은 페어 단백질 집합이며, cu, cn, co는 각각 페어 단백질 집합 Pr에서 변화 속성이 "발현이 억제된 상태(under-expressed)", "발현 변화가 없는 상태(normal-expressed)", "발현이 된 상태(over-expressed)"인 페어-교차 연결의 개수임.
그리고, 상기 예외 함수는 하기 식(E2)에 의해 해당 단백질 내의 모든 페어-교차 연결 수에 대한 변화 속성 "발현이 억제된 상태(under-expressed)", "발현 변화가 없는 상태(normal-expressed)" 및 "발현이 된 상태(over-expressed)"인 페어-교차 연결 수의 비율 중에 가장 큰 경향의 비율로서 정의하는 것을 특징으로 한다.
여기서, E(Pr)은 예외 함수, r은 참조 스팟 인덱스, Pr은 페어 단백질 집합, cu, cn, co는 각각 페어 단백질 집합 Pr에서 변화 속성이 "발현이 억제된 상태(under-expressed)", "발현 변화가 없는 상태(normal-expressed)", "발현이 된 상태(over-expressed)"인 페어-교차 연결의 개수임.
이하, 첨부한 도면을 참조하여 본 발명을 상세히 설명하면 다음과 같다.
본 발명은 단백질 2-DE 젤 이미지에서의 질병 의존 단백질의 도출 방법에 관한 것으로서, 단백질 2-DE 젤 이미지에서 특정 질병에 대한 질병 의존 단백질을 보다 효율적이고 효과적으로 도출할 수 있는 개선된 방법을 제시한다. 본 발명자는 질병에 의해 발현량이 변하는 질병 의존 단백질 분석을 위하여 단백질의 발현량 변화 분석에 적합한 예외 지표를 제시하였으며, 이와 함께 종래의 통계적 방법과 비교 실험을 통하여 본 발명의 방법이 통계적 방법과 상호 보완적으로 분석에 활용될 수 있음을 보였다.
임의의 조직에서 어떤 단백질이 발견되는지, 특정 조건 하에서 단백질이 어떻게 상호 작용하는지를 분석하기 위해서, 질병에 대한 단백질의 발현량 변화를 분석하는 것은 중요하며, 이러한 목적 때문에 2-DE 젤 이미지를 통계적으로 또는 시각화를 통해 분석하는 다양한 방법들이 제시되어 왔다. 그러나, 하나의 조직에는 수천 개의 단백질이 포함되어 있기 때문에 이들을 개별적으로 하나씩 분석하는데 한계가 있다. 따라서, 본 발명에서는 임의의 질병에 대한 2-DE 젤 이미지에서 질병에 의해 발현량이 변하는 단백질의 더욱 효율적인 도출 방법을 제시하며, 우선 스팟 데이터 집합으로부터 단백질의 발현량 변화를 나타내는 보다 효과적인 척도를 제시한다. 제시한 척도는 임의 단백질의 발현량이 질병에 의해 일정수준 이상 증가(over-expressed)하였는지, 또는 일정수준 이상 감소(under-expressed)하였는지를 나타낸다. 또한 본 발명에서는 발현량 변화 양상과 정도를 나타내는 지표(indicator)를 제시하며, 예외 탐사를 통한 효과적인 탐색을 위한 방안을 제시한다. 그리고, 실험을 통해서 본 발명에서 제시된 척도와 예외 탐사 방법이 기존의 방법보다 단백질 발현량 분석에 적합함을 확인하였다.
이하, 본 발명을 설명하기에 앞서서 사용하는 용어에 대해서 다음과 같이 정의한다.
단백질 2-DE 젤 이미지
2-DE 젤 이미지 분석 소프트웨어를 통해 2-DE 젤 이미지로부터 스팟을 검출하면, 하나의 2-DE 젤 이미지당 몇천 개의 스팟이 검출된다. 각 스팟은 하나의 단백질에 대응된다. 또한 젤 이미지 내에서 각 스팟을 나타내는 정보로, 좌표값 (x, y)(스팟의 위치 정보로서 이미지상의 X축 및 Y축 좌표 정보임)와 농도 정보 Od(Optical density)(꼭지점에서의 광학적 밀도를 나타내는 것임), Vol(Volume)(특정 값 이상의 범위 위의 부피 정보임), %Od, %Vol 값이 생성된다. %Od와 %Vol은 Od와 Vol을 표준화한 값으로, 젤 이미지 내의 모든 스팟의 Od, Vol의 합을 100으로 했을 때 각 스팟의 Od, Vol 값의 백분율을 나타낸 값이다. Od는 2차원으로 스팟의 절대 농도를 나타낸 값이고, Vol은 3차원의 부피로 스팟의 절대 농도를 나타낸 값이다. 이러한 절대 농도값들은 개개의 이미지가 어떻게 생성되느냐에 따라 값이 달라질 수 있으므로, 하나의 젤 이미지 내의 스팟과 다른 젤 이미지 내의 스팟을 비교하기 위한 표준 척도로는 적합하지 않다. 따라서, 표준화한 %Od나 %Vol 값을 사용하며, 이 값은 해당 스팟에 대응되는 단백질의 발현량을 나타내는 값으로 쓰인다.
정의 1. 단백질의 발현량
동일한 질병에 대해 m명의 환자로부터 m개의 샘플이 주어졌을 때, 정상 조직과 비정상 조직의 페어(pair)로 2m개의 이미지가 얻어지며, 이들은 젤 이미지의 페어 집합 I에 의해 다음의 수학식 1과 같이 표현된다.
젤 이미지와 각 스팟 리스트가 주어졌을 때, 각 젤 이미지 내에서 동일한 단백질에 대응하는 스팟들을 찾기 위해 매칭 과정이 수행된다[Efrat, F.Hoffmann, K.Kriegel, C.Scheultz, C.Wenk, "Geometric Algorithms for the Analysis of 2D-Electrophoresis Gels", In Proceedings of the 5th Annual International Conference on computational Molecular Biology(RECOMB), Seiten 114-123, 2001.].
젤 이미지의 집합에 존재하는 스팟들은 하나의 참조 젤 이미지(reference gel image) 내의 각 스팟과 매치된다. 이때 선정된 하나의 참조 젤 이미지를 R이라 하고, 특정 젤 이미지 G에 존재하는 한 스팟 s를 s∝G라 표기한다.
질병에 의한 단백질의 발현량 변화를 비교하기 위해서, 각 단백질을 구성하는 스팟들을 정상 젤 이미지 내의 스팟들로 구성된 하나의 집합과, 비정상 젤 이미지 내의 스팟들로 구성된 다른 하나의 집합으로 나누어 비교하면 정상과 비정상 그룹을 평균적으로 비교하기에는 젤 이미지들 간에 변이가 크므로 부적합하다. 따라서, 동일 환자로부터 얻은 정상과 비정상 젤 이미지 내의 스팟을 쌍으로 하여 비교해야 하며, 이와 같은 비교를 위해 페어-교차 연결(pair-wise association)로부터 페어 단백질 집합(paired protein set)을 정의한다.
정의 2.
페어
-교차 연결(pair-wise association)
주어진 참조 이미지 R과 하나의 이미지 페어(pair) (Ni,Di)∈I에 대해서, 두 스팟 n∝Ni와 d∝Di가 동일한 참조 스팟 r∝R과 매치되었다면, 페어-교차 연결은 다음의 수학식 2와 같이 정의된다.
페어-교차 연결 pi(r)은 세 개의 스팟 n, d 그리고 r에 의해 구성되어 동일한 단백질을 구성하는 구성원이 된다. 본 발명에서는 동일 단백질의 스팟 그룹을 정의하기 위하여 페어-교차 연결의 집합인 페어 단백질 집합을 다음의 정의 3과 같이 정의한다.
정의 3.
페어
단백질 집합(paired protein set)
주어진 m개의 젤 이미지 페어 집합에서, 페어 단백질 집합 Pr은 동일한 참조 스팟 r과 연결된 모든 m개의 샘플에서의 페어-교차 연결의 집합이며, 다음의 수학식 3과 같이 정의된다.
첨부한 도 2는 이미지 페어 집합 I={(N1,D1),(N2,D2),(N3,D3)}에서의 두 단백질 A와 B의 페어-교차 연결과 페어 단백질 집합의 예를 보여주고 있다.
다음으로, 본 발명에 대하여 사용하는 용어의 정의와 함께 좀더 상세히 설명하기로 한다.
질병 의존 단백질 도출을 위한 예외 탐사
기존의 단백질 발현량 분석 연구에 쓰이는 통계적 방법은 정상에서의 단백질 발현량과 비정상에서의 단백질 발현량의 차(delta)를 이용하므로, 실험상의 외부 변화 요소에서 오는 단백질의 발현량과 관계없는 미약한 발현량 차이도 단백질 발현량의 변화로 취급하게 된다. 그러나, 이러한 미약한 차이를 배제하기 위해서 해당 샘플을 필터링하는 것은 전체 데이터의 특성을 잃게 되는 것이므로 부적절하다.
따라서, 본 발명에서는 단백질의 발현량의 변화를 판단하기 위한 척도로서 차이가 아닌 배수를 이용한다. 하나의 페어-교차 연결 pi(r)=(n,d)에서, 만일 비정상 조직의 스팟 d를 정상 조직의 스팟 n과 비교할 때, 발현량이 상당히 많이 크다면 일반적으로 이 페어-교차 연결 pi(r)은 "발현이 된 상태(over-expressed)"가 되었다고 하며, 이와 반대로 만일 발현량이 상당히 작다면 이 페어-교차 연결 pi(r)은 “발현이 억제된 상태(under-expressed)"가 되었다고 할 수 있다. 이와 같이 각 페어-교차 연결 pi(r)=(n,d)의 발현량에 대한 변화를 측정하기 위해서 본 발명에서는 다음의 수학식 4와 같이 변화율을 정의한다.
여기서, 과 는 각각 페어-교차 연결 pi(r)의 두 스팟 n과 d의 발현량을 의미하며, 페어-교차 연결의 변화율은 비정상 조직의 스팟의 발현량을 정상과 비정상 조직의 두 스팟의 발현량의 합으로 나눈 값이다. 이는 마이크로 어레이 데이터의 분석에서 사용되는 로그비율(log-ratio) 값과 유사하다. 상기 변화율은 0에서 1 사이의 값을 가지며, 정상 조직 내의 단백질의 발현량과 비교하여 '변화율 > 0.5'이면 비정상 조직 내의 단백질의 발현량이 증가했음을 나타내고, '변화율 < 0.5'이면 비정상 조직 내의 단백질의 발현량이 감소했음을 나타낸다. 그러나, 2-DE 실험의 특성상 단백질의 발현량과는 관계가 없는 외부 변화 요소에 의해 젤 이미지 간의 변이가 존재하므로, 단백질 발현량의 미미한 변화는 질병에 의한 변화로 보기 어렵다[David Arnott, Kathy L. O'Connel, Kathleen L.King, John T.Stults].
따라서, 본 발명에서는 각 페어-교차 연결의 "over-exressed" 또는 "발현이 억제된 상태(under-expressed)"와 같은 의미 있는 발현량의 변화가 있음을 판단하기 위한 의미 있는 변화율의 임계치인 λ를 추가로 정의한다. 만일 비정상 조직의 스팟의 발현량이 정상 조직의 스팟의 발현량의 λ배 이상이면 발현량이 일정수준 이상 증가했다고 판단하고, 1/λ배 이하이면 발현량이 일정수준 이상 감소했다고 판단한다. 정의 4에서는 발현량의 변화율에 기반한 페어-교차 연결의 변화 속성을 정의한다.
정의 4. 페어-교차 연결의 발현량의 변화 속성
주어진 페어-교차 연결 pi(r)=(n,d)에서 발현량의 변화 속성은 다음과 같이 정의된다.
pi(r).변화 속성 =“발현이 억제된 상태(under-expressed)" ,
pi(r).변화 속성 =“발현 변화가 없는 상태(normal-expressed)" ,
pi(r).변화 속성 =“발현이 된 상태(over-expressed)" .
첨부한 도 3은 변화율 임계치 λ에 의하여 어떻게 페어-교차 연결의 변화 속성이 결정되는지를 보여주고 있다. 도 3에 나타낸 바와 같이, 변화율이 구간 또는 의 값을 갖게 될 경우, 이 페어-교차 연결은 "발현이 억제된 상태(under-expressed)" 또는 "발현이 된 상태(over-expressed)"가 된다. 실제로 생물학적 분석 실험에 있어서 25% 이내의 발현량 변화는 생물학적으로 중요하지 않다고 판단하기 때문에, 일반적으로 변화율은 적어도 0.45 이하이거나 0.55 이상(λ≥1.24)일 때 변화가 발생했다고 간주한다. 그러므로 대부분의 생물학자들은 변화율 임계치 λ를 1.5 이상으로 설정하는 경우가 대부분이며, 기존 연구에서는 많은 실험들에서 2로 설정되어 수행되었다.
정의 5. 단백질의 발현량 변화를 분석하기 위한 척도
본 발명에서는 주어진 페어 단백질 집합 Pr에 대해서 Pr을 구성하는 페어-교차 연결들의 변화 속성이 하기 수학식 5에 나타낸 변화 요약값으로 표현되며, 이를 단백질 발현량 변화를 분석하기 위한 척도로 사용한다.
여기서, cu, cn, co는 각각 페어 단백질 집합(paired protein class) Pr에 속한 페어-교차 연결 중에 "발현이 억제된 상태(under-expressed)", "발현 변화가 없는 상태(normal-expressed)", "발현이 된 상태(over-expressed)"의 개수를 의미한다.
첨부한 도 4는 실제 간암 환자 3명의 샘플로부터 채취된 6개의 젤 이미지에서 단백질 HSP70에 대한 변화 속성의 예를 보여준다. 단백질 HSP70은 간암에서 발현이 된 상태(over-expressed)의 경향을 갖는 질병 의존 단백질로 밝혀진 바 있으며[Takashima M, Kuramutsu Y, Yokoyama Y, Iizuka N, Toda T, Sakaida I, Okita K, Oka M, Nakamura K, Proteomic profiling of heat shock protein 70 family members as biomarkers for hepatitis C virus-related hepatocellular carcinoma. Proteomics 2003 Dec;3(12):2489-93.], 도 4에서 각 스팟의 발현량은 각 이미지의 우측 하단에 표기하였다. 도 4에서 알 수 있는 바와 같이, 샘플 17번의 경우에 비정상 조직의 스팟이 정상 조직 스팟의 10배 이상 "발현이 된 상태(over-expressed)"로 되었으며, 21번과 23번 샘플도 각각 13배, 7배의 "발현이 된 상태(over-expressed)" 경향의 발현량 차이를 보이고 있다. 그러므로 변화율 임계치 λ가 2일 경우 3개의 "발현이 된 상태(over-expressed)" 페어-교차 연결을 갖게 되며, 이를 변화 요약값으로 표기하면 RS[0,0,3]이 된다.
대부분의 단백질의 변화 요약값은 언더(under), 노멀(normal), 오버(over)의 경향이 불규칙적인 경우가 많으며, 관리단백질(housekeeping proteins)의 경우는 노멀(normal)의 경향을 강하게 띄게 된다. 그러나, 질병 의존 단백질은 대부분의 페어-교차 연결에서 언더(under) 또는 오버(over)로서 동일한 경향의 발현량의 변화를 보일 경우를 의미한다. 이를 본 발명에서는 다른 단백질과 발현 패턴이 다른 '예외'라 지칭한다. 상기 정의 5에서 설명한 변화 요약값을 척도로 단백질의 발현량 변화를 분석하고 단백질의 질병 의존 단백질 여부를 판단하기 위한 예외 함수를 하기 정의 6에서와 같이 정의한다.
정의 6. 단백질의 발현량 변화를 분석하기 예외 함수
주어진 페어 단백질 집합 Pr의 변화 요약값 RSr[cu,cn,co]에 대해서, 예외 함수 E(Pr)은 다음의 수학식 6과 같이 정의한다.
즉, 예외 함수는 해당 단백질 내의 모든 페어-교차 연결 수에 대한 "발현이 억제된 상태(under-expressed)", "발현 변화가 없는 상태(normal-expressed)" 및 "발현이 된 상태(over-expressed)"인 페어-교차 연결 수의 비율 중에 가장 큰 경향의 비율로서 정의한다.
그리고, 본 발명에서는 위의 예외 함수의 결과값이 사용자가 정의한 예외 임계치 τ 이상의 값일 경우에 해당 단백질을 질병 의존 단백질로 판정한다.
이하, 첨부한 도 5는 본 발명에 따른 질병 의존 단백질 도출을 위한 예외 탐사 과정을 나타낸 도면으로서, 질병 의존 단백질을 도출하기 위한 본 발명의 주요 단계를 도 5를 참조하여 설명하면 다음과 같다.
첫 번째 단계로, 정상 조직과 비정상 조직의 2-DE 젤 이미지에서 참조 이미지의 동일 참조 스팟에 연결된 정상 조직의 스팟과 비정상 조직의 스팟을 한 쌍으로 하는 각각의 페어-교차 연결들에 대해서 정상 조직과 비정상 조직의 두 스팟의 발현량을 계산한다.
그리고, 두 번째 단계로, 각 페어-교차 연결들에 대해서 두 스팟의 발현량을 토대로 변화 속성을 계산하여 부여하는데, 이때 모든 페어-교차 연결들에 대해서 변화율을 계산한 뒤 상기 계산된 변화율을 토대로 사용자에 의해 정의된 변화율 임계치 λ를 이용하여 변화 속성을 계산할 수 있다.
상기 변화율은 수학식 4에서 정의한 바와 같고, 또한 상기 변화 속성 판정은 정의 4에서 설명한 바와 같다. 변화 속성의 판정에서, 두 스팟의 발현량과 변화율 임계치 λ를 이용하여 변화 속성을 바로 계산할 수도 있는데, 비정상 조직의 스팟의 발현량()이 정상 조직의 스팟의 발현량()의 1/λ배 이하이면, 페어-교차 연결의 변화 속성은 해당 단백질의 발현량이 질병에 의해 일정수준 이상 감소했음을 나타내는 "발현이 억제된 상태(under-expressed)"가 된다. 반면, 비정상 조직의 스 팟의 발현량()이 정상 조직의 스팟의 발현량()의 λ배 이상이면, 페어-교차 연결의 변화 속성은 해당 단백질의 발현량이 질병에 의해 일정수준 이상 증가했음을 나타내는 "발현이 된 상태(over-expressed)"가 된다. 물론, 변화율(pi(r))을 계산한 뒤, 이 변화율(pi(r))이 구간 , 또는 의 값을 가지는지에 따라 페어-교차 연결의 변화 속성을 "발현이 억제된 상태(under-expressed)", "발현 변화가 없는 상태(normal-expressed)" 또는 "발현이 된 상태(over-expressed)"로 판정할 수 있다.
그리고, 세 번째 단계에서, 변화 속성을 부여받은 페어-교차 연결로부터 각 단백질의 변화 요약값을 계산한다. 변화 요약값은 수학식 5에 의해 계산된다.
이어 계산된 변화 요약값을 토대로 네 번째 단계에서는 수학식 6의 예외 함수를 통해 그 결과값인 예외값을 계산한다.
마지막 다섯 번째 단계에서, 상기와 같이 계산된 예외값을 토대로 사용자에 의해 정의된 예외 임계치 τ에 따라 질병 의존 단백질의 여부가 결정된다. 여기서, 전술한 바와 같이 예외값이 사용자가 정의한 예외 임계치 τ 이상의 값일 경우에 해당 단백질을 질병 의존 단백질로 판정한다.
이하, 상기한 본 발명에 따른 방법과 기존의 통계적 분석 방법을 실험을 통하여 비교하였는 바, 이를 통해 기존의 통계적 분석 방법의 문제점을 확인하였고, 또한 비교 결과를 통해 본 발명의 효과를 확인하였는 바, 이에 대해 설명하면 다음과 같다.
실험 및 결과 분석
실험에서는 하기 표 1에 나타낸 간암 환자 50명의 데이터를 이용하였다. 환자의 질병 관련 조직에서 얻은 정상 조직과 비정상 조직으로부터 2-DE 방법과 2-DE 이미지 분석 소프트웨어를 이용하여 실험 데이터를 추출하였는데, 본 실험에서 2-DE 이미지 분석 소프트웨어로는 Melanie Ⅲ[Gene Bio, Melanie Ⅲ Image Analysis Program Manual 참조]를 이용하였다. 실험에 쓰인 간암 데이터는 스팟 검출과 스팟 매칭 과정으로부터 평균 863개의 스팟이 생성되었으며, 모든 실험은 펜티엄 4 2.4GHz와 메모리 1GB의 사양에서 수행되었으며, 리눅스 8.0에서 PHP를 사용하여 구현되었다.
첨부한 도 6은 본 발명에 따른 알고리즘과 기존의 통계적 분석 방법에 의한 질병 의존 단백질의 의사 결정 메커니즘을 도식화한 도면이다. 도 6에서 는 본 발명에서 제시하는 방법에 의해 발견된 질병 의존 단백질의 집합을 의미하며, 은 기존의 통계 분석 방법에 의해 발견된 질병 의존 단백질의 집합을 의미한다. 다시 말해서, 만일 특정 단백질에 대한 예외 함수 결과값이 예외 임계치 τ보다 클 때 해당 단백질은 의 그룹에 속하게 되며, 만일 특정 단백질에 대한 p-value 값이 유의수준 α 이하일 때 해당 단백질은 의 그룹으로 분류되게 된다. 이때, 두 방법의 측정치인 예외 함수 결과값과 p-value는 모두 0에서 1 사이의 동일한 도메인 범위를 갖게 된다. 그룹 은 두 방법에서 동시에 질병 의존 단백질로 판정한 단백질 집합이며, 그룹 은 두 방법에서 모두 질병 의존 단백질이 아니라고 판정한 단백질 집합을 의미한다. 그룹 는 본 발명의 방법에서는 질병 의존 단백질로 판단하지 않았으나 통계 방법에서는 질병 의존 단백질로 판단한 단백질의 집합을 의미하며, 반대로 그룹 은 통계 방법에서는 질병 의존 단백질로 판단하지 않았으나 본 발명의 방법에서는 질병 의존 단백질로 판단한 단백질 그룹을 의미한다. 앞서 설명한 두 그룹 와 는 두 방법에서 동일한 결과를 보이는 집합이나, 그룹 와 는 두 방법에서 차이를 보이는 결과 집합이다. 실험에서는 이렇게 두 방법에서 차이를 보이는 결과 집합을 중심으로 분석을 수행하였다.
본 발명자는 단백질 발현량 분석에 대표적으로 사용되는 통계적 분석 방법 중 데이터의 특성에 가장 적합한 Wilcoxon paired t-test 방법을 본 발명에서 제시한 예외 지표와 비교 실험하여, 본 발명에서 제시한 척도와 예외 지표가 단백질 발현량 변화 분석에 보다 적합함을 보였다. 통계적 방법의 분석은 통계 분석 툴인 SPSS v12.0을 이용하였다. 그리고, 본 발명에서 제시된 방법을 위해서 단백질의 발현량을 나타내는 값으로는 %Vol 값을 이용하였다. 실제 실험에서는 단백질의 발현량을 나타내는 %Vol의 값이 정상과 비정상 조직의 젤 이미지에서 모두 0.1 이하인 스팟은 단백질로 고려하지 않고 실험 과정상에 발생한 오류(노이즈)로 보아 필터링을 하였다. 실험은 간암 관련 조직에 존재하는 863개의 단백질 중 10개 이상의 환자 조직에서 정상/비정상의 쌍으로 나타나는 단백질 130개에 대해서 수행하였다.
기존의 통계적 방법에는 다음의 두 가지 문제점이 있다. 통계적 방법에서는 정상과 비정상 조직 내의 단백질 발현량 비교에 쓰이는 기준이 발현량의 차이(delta)이므로, 실험상의 외부 변화 요소에서 오는 단백질의 발현량과 관계없는 미약한 발현량 차이도 변화로 취급되는 문제점이 있다. 그러나, 미약한 차이를 배제하기 위해서 해당 샘플을 필터링하는 것은 전체 데이터의 특성을 잃게 되는 것이므로 부적절하다. 따라서, 본 발명에서는 척도인 발현량 변화로서 차이가 아닌 배수를 이용하였다. 또한 기존의 통계적 방법에서는 2-DE 실험의 특성상 실험 샘플들 간의 변이가 크다는 점을 고려하지 않고 단지 발현량의 차이의 크기로 순위를 취하여 통계 값을 구하므로, 다수의 환자 샘플에서 감소하는 경향을 보이는 단백질 발현량이 소수의 샘플에서 큰 차이로 증가하는 경우, 두 경향이 상쇄됨에 의해 해당 단백질은 발현량이 변하는 단백질로 판단되지 않는 문제점이 있다. 본 실험에서는 발현량의 차이를 나타내는 변화 임계값 λ≥1.25로 하여 1.25배 이상의 발현량의 차이가 있는 경우를 변화가 있다고 고려하였다.
첨부한 도 7은 통계적 방법의 첫 번째 단점인, 미약한 단백질 발현량 차이를 변화로 인식한 문제점을 나타낸 그래프이다. 발현량의 차이를 나타내는 변화 임계값 λ를 변화시키면서, 각 단백질 그룹에 속한 단백질 내에서 "발현 변화가 없는 상태(normal-expressed)"로 분류되는 페어-교차 연결의 비율인 의 평균치를 나타낸 것으로, 네 가지 계열 모두 λ값이 증가함에 따라 그 비율이 증가함을 알 수 있다. 그룹과 분석의 대상이 되는 그룹의 경우, 그 비율이 다른 그룹의 데이터에 비해 큼을 알 수 있다. 즉, 실제 질병의 영향에 의한 발현량의 변화로 보기 어려운 미약한 변화가 배수를 이용한 척도에서는 "발현 변화가 없는 상태(normal-expressed)"로 판단되었는데 반해, 통계적 방법에서는 발현량의 변화로 취급된 것이다. 실제 %Vol의 값은 최소 0.01 이하에서 최대 26 이상의 값을 갖는데, 분석에 있어서 평균적으로 10 이상의 %Vol값에 대해 1 ~ 2 정도의 변화는 미미한 변화이지만, 0.1 내외의 %Vol값에 대해 1~ 2 정도의 변화는 큰 변화이다. 그러나, 통계적 분석에서는 이러한 차이를 고려하지 않고 두 값의 차를 이용하므로 문제가 있으며, 따라서 이와 같은 차이를 고려할 수 있도록 두 값 간에 몇 배 차이가 있는지를 척도로 하는 것이 적합하다. 또한 통계적 방법인 경우, 차이에 대한 임계값 설정이 불가능하지만, 본 발명에서 제시된 척도를 사용하면 임계값을 설정하여 질병 외에 실험적인 요인에 의한 미미한 변화는 변화의 범위를 지정하는 것이 가능하다.
첨부한 도 8은 통계적 방법의 두 번째 문제점을 보이기 위한 도면으로서, 그룹 에 해당하는 데이터가 통계적 방법에서는 의미 있는 데이터로 판단되지 않는 이유를 보여주는 것이다. 이 실험은 λ=1.5로 설정하여 실험하였다. 그래프의 y축은 발현량 증감의 상쇄 정도를 로그 눈금 간격으로 나타낸 것이며, 상쇄 정도를 나타내는 계산식은 아래의 수학식 7에 제시하였다. 그래프는 각 그룹별로, 해당 그룹에 해당하는 단백질들에 대해 상쇄 정도의 최소값(Min), 최대값(Max), 평균(Avg), 표준편차(SD)를 이용하여 나타내었다. 하나의 단백질 Pr에 대해 상쇄 정도를 나타낸 척도인 상쇄도 는 아래의 수학식 7과 같다.
즉, 단백질의 발현량 변화 경향이 일정하면 분자와 분모의 값에 큰 차이가 없으므로, 값이 작지만, 단백질이 증가하기도 하고 감소하기 도 하는 경우에는 분자는 커지고 분모는 0에 가까운 값이 되어, 의 값이 커지는 결과가 된다. 위의 척도에 따라, 각 그룹별로 상쇄 정도를 나타낸 것이 도 8이며, 그룹 와 분석 대상이 되는 그룹 의 상쇄 정도가 큼을 알 수 있다. 즉, 통계적 방법에 따른 경우, 소수의 경향에 의해 다수의 경향이 상쇄되어 의미 있는 단백질을 의미 있다고 판단하지 않는 경우가 발생함을 나타낸다. 따라서, 증감 별로 정도에 따른 순위를 이용하는 방법은 부적합하며, 본 발명에서 제시한 척도와 같이 증감 별로 비율을 파악하여 경향을 분석하는 것이 적합하다. 위의 두 실험에 의해 통계적 방법의 단점을 확인할 수 있으며, 본 발명에서 제시한 척도와 예외 지표의 값이 이러한 단점을 해결함에 의해 단백질 발현량 변화 분석에 보다 적합함을 알 수 있다.
첨부한 도 9는 실험에서 사용된 간암 데이터에 대해서 통계 방법인 Wilcoxon paired t-test와 본 발명에서 제시한 방법에 따라 질병에 의해 발현량이 변한다고 판단되는 질병 의존 단백질의 분포를 나타낸 것이다. 도 9에서 그룹은 통계적 방법의 95% 신뢰 구간에서만 발현량이 변한다고 판단되는 단백질을, 그룹은 변화율 임계치 λ값을 2.0으로 하고 예외 임계치 τ의 값을 0.5로 하였을 때 발현량이 변한다고 판단되는 단백질을 나타낸다. 이 결과를 토대로 기존에 규명된 단백질 연구를 조사해 본 결과, 그룹으로 판단된 8개의 단백질 중에서 5개는 간암과 관련된 질병 의존 단백질로 판명되었으며, 그 5개 중 3개는 간암과 아주 밀접한 연관성을 갖는 단백질로 판명되었다. 반면 남은 세 개의 단백질 중에 하나는 관리단백질(housekeeping protein)로 밝혀졌으며, 그 이유는 다른 단백질들에 비해 스팟 매칭이 상대적으로 적게 이루어졌고, 이는 스팟 매칭의 오류로 보여진다. 그리고, 나머지 두 개는 아직까지 학계에 보고되지 않은 단백질이었다. 그러나, 실험에서 우리는 기존의 통계 방법에서 놓칠 수 있는 중요한 단백질을 본 발명에서 제시된 방법에 의해서 찾을 수 있었다.
이상의 설명과 같이 본 발명에서는 예외 탐사 방법을 적용하여 단백질 2-DE 젤 이미지에서 질병 의존 단백질을 효과적으로 도출할 수 있는 방법을 제시하였다.
임의의 조직에서 어떤 단백질이 발견되는지, 특정 조건 하에서 단백질이 어떻게 상호 작용하는지를 분석하기 위해서, 질병에 의한 단백질의 발현량 변화를 분석하는 것은 중요하다. 이러한 목적을 달성하기 위해 2-DE 젤 이미지를 통계적으로 또는 시각화를 통해 분석하는 다양한 방법들이 제시되어 왔다. 그러나, 하나의 조직에는 수천 개의 단백질이 포함되어 있기 때문에 이들을 개별적으로 하나씩 분석하는데 한계가 있다. 따라서, 본 발명에서는 상술한 바와 같은 질병 의존 단백질의 효율적인 도출 방법을 제시하였으며, 우선 단백질의 발현량의 변화를 측정하기 위한 척도로 변화 요약값을 제시하였다. 이 척도는 기존의 통계 방법에서 단점인 미약한 발현량의 변화를 인식하지 못하는 문제와 상쇄 효과 문제를 보완하도록 제시되었다. 본 발명에서 제시된 척도로부터 예외 함수를 통하여 단백질 발현량의 변화가 의미 있는 변화인지를 평가함으로써 최종적으로 각 단백질이 질병 의존 단백질 인지 그렇지 않은지를 판정하게 된다. 그리고, 본 발명에서 제시된 방법의 효과를 증명하기 위하여 상술한 바와 같이 실제 간암 환자 50명의 샘플을 채취하여 생성된 50쌍의 젤 이미지를 사용하여 알고리즘을 비교하였으며, 알고리즘 비교는 대표적인 통계 방법인 Wilcoxon paired t-test와 비교하였고, 그 결과로부터 본 발명의 방법에 의한 경우에 통계 방법에서 발견되지 않은 질병 의존 단백질을 찾을 수 있음을 확인하였다.
이상에서 설명한 바와 같이, 본 발명에 따른 단백질 2-DE 젤 이미지에서의 질병 의존 단백질의 도출 방법에 의하면, 단백질의 발현량의 변화를 측정하기 위한 척도로서 종래와 같은 정상에서의 단백질 발현량과 비정상에서의 단백질 발현량의 차이가 아닌 배수를 이용하고, 단백질의 질병 의존 단백질 여부를 판단하기 위한 예외 함수를 이용하여 분석을 수행함으로써, 종래의 통계적 분석 방법에 비해 질병 의존 단백질의 더욱 효율적인 도출이 가능해지고, 종래의 통계적 분석 방법에서 발견되지 않은 질병 의존 단백질을 찾을 수 있는 등 더욱 정확한 분석이 가능해진다.
이러한 본 발명의 방법은 기존의 통계적인 방법과 상호 보완적으로 분석에 활용될 수 있으며, 또한 단백질 분석을 위한 OLAP 또는 데이터웨어하우스 시스템에서 방대한 양의 단백질 데이터로부터 효과적으로 질병 의존 단백질을 도출하여 질병의 진단과 치료를 위한 마커 단백질의 전체 집합을 얻는데 유용하게 활용될 수 있다.
또한 특정 조건 하에서 질병의 진단과 치료를 위한 마커 단백질의 전체 집합을 얻기 위해서는 자동화된 질병 의존 단백질의 도출 방법이 요구되고 있는 바, 이에 유용하게 활용될 수 있고, 2-DE 단백질 젤 이미지로부터 질병 의존 단백질을 도출하는데 있어 사용자의 불필요한 노력을 줄일 수 있게 된다.
Claims (7)
- 2-DE 젤 이미지로부터 질병에 의하여 발현량이 변화하는 질병 의존 단백질을 도출하기 위한 방법에 있어서,정상 조직과 비정상 조직의 2-DE 젤 이미지에서 참조 이미지의 동일 참조 스팟에 연결된 정상 조직의 스팟과 비정상 조직의 스팟을 한 쌍으로 하는 각각의 페어-교차 연결들에 대해서 정상 조직과 비정상 조직의 두 스팟의 발현량을 계산하는 단계와;상기 각 페어-교차 연결들에 대해서 상기 두 스팟의 발현량을 토대로 변화 속성을 계산하여 부여하는 단계와;상기 페어-교차 연결들의 집합인 페어 단백질 집합에 대해서 변화 속성을 부여받은 페어-교차 연결들로부터 단백질 발현량의 변화를 분석하기 위한 척도가 되는 단백질의 변화 요약값을 계산하는 단계와;상기 페어 단백질 집합에 대해서 상기 변화 요약값을 토대로 단백질 발현량의 변화를 분석하기 위한 예외 함수를 이용하여 예외 함수의 결과값을 계산하는 단계와;상기 예외 함수의 결과값을 미리 설정된 예외 임계치와 비교하여 해당 단백질의 질병 의존 단백질 여부를 판정하는 단계;를 포함하는 것을 특징으로 하는 단백질 2-DE 젤 이미지에서의 질병 의존 단백질의 도출 방법.
- 청구항 1에 있어서,상기 변화 속성을 계산하여 부여하는 단계는,미리 설정된 변화율 임계치를 λ라 할 때,상기 각 페어-교차 연결에서 비정상 조직의 스팟의 발현량이 정상 조직의 스팟의 발현량의 1/λ배 이하이면, 페어-교차 연결의 변화 속성을, 해당 단백질의 발현량이 질병에 의해 일정수준 이상 감소했음을 나타내는 "발현이 억제된 상태(under-expressed)"로 계산하고,상기 비정상 조직의 스팟의 발현량이 정상 조직의 스팟의 발현량의 1/λ배보다 크고 정상 조직의 스팟의 발현량의 λ배보다 작으면, 페어-교차 연결의 변화 속성을 "발현 변화가 없는 상태(normal-expressed)"로 계산하며,상기 비정상 조직의 스팟의 발현량이 정상 조직의 스팟의 발현량의 λ배 이상이면, 페어-교차 연결의 변화 속성을, 해당 단백질의 발현량이 질병에 의해 일정수준 이상 증가했음을 나타내는 "발현이 된 상태(over-expressed)"로 계산하는 것을 특징으로 하는 단백질 2-DE 젤 이미지에서의 질병 의존 단백질의 도출 방법.
- 청구항 1에 있어서,상기 변화 속성을 계산하여 부여하는 단계는,상기 각 페어-교차 연결들에 대해서 상기 두 스팟의 발현량으로부터 발현량의 변화율을 계산한 뒤, 계산된 변화율과 미리 설정된 변화율 임계치 λ를 이용하여 변화 속성을 계산하는 것을 특징으로 하는 단백질 2-DE 젤 이미지에서의 질병 의존 단백질의 도출 방법.
- 청구항 3에 있어서,상기 변화 속성을 계산하기 위한 변화율은,상기 비정상 조직의 스팟의 발현량을 정상 조직과 비정상 조직의 두 스팟의 발현량의 합으로 나눈 값으로 계산되는 것을 특징으로 하는 단백질 2-DE 젤 이미지에서의 질병 의존 단백질의 도출 방법.
- 청구항 3 또는 청구항 4에 있어서,상기 변화 속성은,상기 변화율이 1/(λ+1) 이하이면 해당 단백질의 발현량이 질병에 의해 일정수준 이상 감소했음을 나타내는 "발현이 억제된 상태(under-expressed)"로, 1/(λ+1)보다 크고 λ/(λ+1)보다 작으면 "발현 변화가 없는 상태(normal-expressed)"로, λ/(λ+1) 이상이면 해당 단백질의 발현량이 질병에 의해 일정수준 이상 증가했음을 나타내는 "발현이 억제된 상태(under-expressed)"로 계산되는 것을 특징으 로 하는 단백질 2-DE 젤 이미지에서의 질병 의존 단백질의 도출 방법.
- 청구항 1에 있어서,상기 예외 함수를 이용하여 예외값을 계산하기 위한 페어 단백질 집합의 변화 요약값은 하기 식(E1)로 정의하는 것을 특징으로 하는 단백질 2-DE 젤 이미지에서의 질병 의존 단백질의 도출 방법.식(E1): 변화 요약값(Pr) = RSr(cu, cn, co]여기서, r은 참조 스팟 인덱스이고, Pr은 페어 단백질 집합이며, cu, cn, co는 각각 페어 단백질 집합 Pr에서 변화 속성이 "발현이 억제된 상태(under-expressed)", "발현 변화가 없는 상태(normal-expressed)", "발현이 된 상태(over-expressed)"인 페어-교차 연결의 개수임.
- 청구항 1 또는 청구항 6에 있어서,상기 예외 함수는 하기 식(E2)에 의해 해당 단백질 내의 모든 페어-교차 연결 수에 대한 변화 속성 "발현이 억제된 상태(under-expressed)", "발현 변화가 없는 상태(normal-expressed)" 및 "발현이 된 상태(over-expressed)"인 페어-교차 연결 수의 비율 중에 가장 큰 경향의 비율로서 정의하는 것을 특징으로 하는 단백질 2-DE 젤 이미지에서의 질병 의존 단백질의 도출 방법.여기서, E(Pr)은 예외 함수, r은 참조 스팟 인덱스, Pr은 페어 단백질 집합, cu, cn, co는 각각 페어 단백질 집합 Pr에서 변화 속성이 "발현이 억제된 상태(under-expressed)", "발현 변화가 없는 상태(normal-expressed)", "발현이 된 상태(over-expressed)"인 페어-교차 연결의 개수임.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070016374A KR100883898B1 (ko) | 2007-02-16 | 2007-02-16 | 단백질 2-de 젤 이미지에서의 질병 의존 단백질의 도출방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070016374A KR100883898B1 (ko) | 2007-02-16 | 2007-02-16 | 단백질 2-de 젤 이미지에서의 질병 의존 단백질의 도출방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20080076446A true KR20080076446A (ko) | 2008-08-20 |
KR100883898B1 KR100883898B1 (ko) | 2009-02-17 |
Family
ID=39879698
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070016374A KR100883898B1 (ko) | 2007-02-16 | 2007-02-16 | 단백질 2-de 젤 이미지에서의 질병 의존 단백질의 도출방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100883898B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114220484A (zh) * | 2021-11-17 | 2022-03-22 | 厦门大学 | 一种个体差异表达蛋白质的识别方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2265801C (en) | 1996-09-16 | 2009-04-07 | Stephen J. Fey | Method and apparatus for analyzing images |
KR20020080626A (ko) * | 2001-04-16 | 2002-10-26 | 학교법인연세대학교 | 프로테옴 데이터 제공 장치 및 방법 |
KR20030019682A (ko) * | 2001-08-29 | 2003-03-07 | 바이오인포메틱스 주식회사 | 데이터베이스의 단백질 정량정보를 이용한 단백질 발현프로파일 분석 장치 및 방법 |
KR100671314B1 (ko) * | 2005-02-03 | 2007-01-24 | 연세대학교 산학협력단 | 다차원 클러스터링 알고리즘에 기반한 단백질 젤이미지에서의 기준점 추출 방법 |
-
2007
- 2007-02-16 KR KR1020070016374A patent/KR100883898B1/ko not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114220484A (zh) * | 2021-11-17 | 2022-03-22 | 厦门大学 | 一种个体差异表达蛋白质的识别方法 |
Also Published As
Publication number | Publication date |
---|---|
KR100883898B1 (ko) | 2009-02-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7057913B2 (ja) | ビッグデータ解析方法及び該解析方法を利用した質量分析システム | |
Tsou et al. | IDEAL-Q, an automated tool for label-free quantitation analysis using an efficient peptide alignment approach and spectral data validation | |
Wosniok et al. | A new indirect estimation of reference intervals: truncated minimum chi-square (TMC) approach | |
WO2009126848A2 (en) | Analyzing large data sets using a computer system | |
Branson et al. | A multi-model statistical approach for proteomic spectral count quantitation | |
Chen et al. | Evaluation of cell segmentation methods without reference segmentations | |
Kossowska et al. | Proteomic analysis of serum of workers occupationally exposed to arsenic, cadmium, and lead for biomarker research: a preliminary study | |
Fu et al. | Label-free proteome quantification and evaluation | |
Van Belle et al. | Correlation analysis of two-dimensional gel electrophoretic protein patterns and biological variables | |
KR100883898B1 (ko) | 단백질 2-de 젤 이미지에서의 질병 의존 단백질의 도출방법 | |
Tan et al. | Comparison of four indirect (data mining) approaches to derive within-subject biological variation | |
Devitt et al. | Estimation of low-level components lost through chromatographic separations with finite detection limits | |
Morris et al. | Evaluating the performance of new approaches to spot quantification and differential expression in 2-dimensional gel electrophoresis studies | |
KR102397822B1 (ko) | 염색체 구조의 상태 정보를 이용한 세포 분석 장치 및 방법 | |
Park et al. | Targeted proteomics data interpretation with DeepMRM | |
Maurer | Software analysis of two-dimensional electrophoretic gels in proteomic experiments | |
Chen et al. | Epithelium percentage estimation facilitates epithelial quantitative protein measurement in tissue specimens | |
Krogh et al. | Analysis of DIGE data using a linear mixed model allowing for protein‐specific dye effects | |
Ercan et al. | Hepatocellular carcinoma immune microenvironment analysis: A comprehensive assessment with computational and classical pathology | |
Hoffmann et al. | Identification of Critical Hemodilution by Artificial Intelligence in Bone Marrow Assessed for MRD Analysis in Acute Myeloid Leukemia: The Cinderella Method | |
Erny et al. | Introducing the concept of centergram. A new tool to squeeze data from separation techniques–mass spectrometry couplings | |
KR100858326B1 (ko) | 단백질 2-de 젤 이미지 스팟 매칭에서 다중 참조이미지를 사용한 단백질 클래스의 정확도 향상 방법 | |
Sellers et al. | Feature detection techniques for preprocessing proteomic data | |
Liu et al. | CRSCNV: A cross-model-based statistical approach to detect copy number variations in sequence data | |
Tostengard et al. | A review and evaluation of techniques for improved feature detection in mass spectrometry data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130102 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20140102 Year of fee payment: 6 |
|
LAPS | Lapse due to unpaid annual fee |