KR100515347B1

KR100515347B1 - 단백질 정보 데이터 전처리 장치 및 방법

Info

Publication number: KR100515347B1
Application number: KR10-2004-0000061A
Authority: KR
Inventors: 이원석; 백융기; 심정은; 김단비
Original assignee: 이원석
Priority date: 2004-01-02
Filing date: 2004-01-02
Publication date: 2005-09-15
Also published as: KR20050072164A

Abstract

본 발명은 자동화된 이미지 분석 소프트웨어로부터 산출되는 다양한 단백질에 대한 정보 중 예외 및 오류 가능성이 높은 스팟 데이터를 발견하고 이들을 전체 데이터 집합에서 제거하는 단백질 정보 데이터의 전처리 장치 및 방법에 관한 것이다.

본 발명에 따른 단백질 정보 데이터 전처리 장치는, 시료정보, 분석정보, 임상정보, 이미지 및 스팟 정보들을 종합하여 하나의 프로테옴 데이터베이스로 통합하는 프로테옴 데이터베이스와, 상기 프로테옴 데이터베이스로부터 전처리 대상 데이터를 선정하는 대상데이터선택부와, 선택된 대상 데이터와 통계정보기반필터링의 결과 데이터 및 통계프로파일기반필터링의 결과 데이터 그리고 클러스터링기반필터링의 결과 데이터 및 전처리가 완료된 분석 대상 데이터와 그들의 필터링 내역을 포함하여 데이터를 관리하는 데이터집합관리부와, 상기 통계정보기반필터링 및 통계프로파일기반필터링과 클러스터링기반필터링으로 구성되어 각 필터링의 결과 데이터를 피드백을 통해 각 필터링을 재수행할 수 있도록 하는 데이터 전처리 장치로 이루어지는 것을 특징으로 한다.

본 발명의 다른 특징은, 시료의 기초정보, 상세 정보, 시료 준비 및 분석모듈의 이미지 분석 프로그램을 통한 이미지 분석 정보를 포함하는 프로테옴 데이터베이스에서 단백질 스팟 단위 또는 연구자가 원하는 임의의 단위로 분석하기 위해서 분석의 대상이 되는 데이터를 수집하고 목록을 관리하며 분석 데이터를 수집하는 1단계와, 상기 1단계에서 수집된 스팟 및 스팟군으로 구성된 대상 데이터 집합중 오류에 해당하는 스팟 및 스팟군을 제거하고 임상적으로 특별한 의미를 가질 수 있는 스팟 및 스팟군들에 해당하는 데이터만을 데이터필터링장치에 의해 추출하는 제2단계와, 상기 제2단계의 결과 데이터 집합이 점진적인 전처리 장치를 통해 다시 상기 제2단계의 입력으로 피드백될 수 있도록 하는 제3단계로 이루어지는 단백질 정보 데이터 전처리 방법을 특징으로 한다.

Description

단백질 정보 데이터 전처리 장치 및 방법{Method and system of preprocessing information data of proteome}

본 발명은 자동화된 이미지 분석 소프트웨어로부터 산출되는 다양한 단백질에 대한 정보 중 예외 및 오류 가능성이 높은 스팟 데이터를 발견하고 이들을 전체 데이터 집합에서 제거하는 단백질 정보의 전처리 방법에 관한 것이다.

예외 및 오류는 이미지 분석 소프트웨어에서 단백질에 대응되는 스팟을 검출하고 서로 다른 젤 이미지의 동일 단백질을 찾기 위한 스팟 매칭을 수행하는 과정에서 발생할 수 있으며, 예외 및 오류 가능성이 높은 데이터를 대상 데이터 집합으로부터 제거함으로써 오류율을 낮추고 단백질 스팟 데이터의 정확도를 향상시킬 수 있다.

이차원적 전기 영동장치로부터 비롯된 단백질 젤 이미지의 판별은 젤 상태에서 분리된 단백질에 대해 단백질 검출법을 통해 이를 가시화하고, 이에 대한 2차원적 컴퓨터 이미지를 획득하여 상용화된 단백질 이미지 분석 소프트웨어의 스팟 검출 기능을 이용하여 이미지상의 개개 스팟에 대한 스팟 속성을 파악한다. 일반적으로 한 장의 젤 이미지에서는 최대 수천 개의 스팟이 나타나며 이 스팟들 중에는 두 개 이상의 단백질이 하나의 스팟으로 검출되거나 또는 이미지 생성상의 오류로 인해 단백질이 아님에도 불구하고 스팟으로 검출되는 경우가 있다. 또한 젤 이미지 분석에서 중요한 과정 중 하나가 스팟 매칭이다. 스팟 매칭 역시 상기 상용화된 분석 소프트웨어에서 자동 처리되나 스팟 매칭의 정확성 또한 실험상의 오류에 많은 영향을 받는다.

서로 다른 젤 이미지에서 상대적인 위치와 속성이 동일한 스팟들을 동일 단백질에 대한 스팟군이라 정의한다. 스팟군은 스팟 검출에서 발견된 스팟들중 스팟 매칭을 수행하기 때문에, 잘못 찾아진 스팟에 대해서는 잘못된 스팟 매칭이 이뤄지게 되므로 스팟 매칭 과정에서도 많은 오류가 발생될 수 있다. 이 과정에서 발생된 오류들은 연구자가 육안으로 확인하여 수동적으로 편집해야 하며, 편집 과정은 많은 노력과 시간이 소요된다.

현재, 시료정보, 임상정보, 실험정보 등을 저장, 관리, 운영하는 실험정보 데이터베이스인 LIMS(L뮤, Information Management System)가 미국의 어플라이트 바이오시스템즈(Applied Biosystems)등에서 개발되어 판매되고 있고, 워크베이스(Workbass)라는 프로테옴 데이터베이스가 미국의 바이오-랩(BIO-RAB)사에서 개발되고 있다. 그러나, 이들 데이터베이스는 스팟 정보를 포함하여 단백질과 관련된 프로테옴 정보들을 축적할 뿐 축적된 스팟 정보의 오류를 분석할 수 있는 방법은 제공하지 않기 때문에 해당 데이터베이스에 데이터를 입력하기 전에 데이터에 오류가 없는지를 수동으로 확인해야만 한다. 그러나 데이터베이스에 입력되는 데이터의 방대함으로 인해 수많은 데이터를 일일이 육안으로 확인하고 입력할 수 없는 것이 현실이다.

또한, 이차원적 전기영동법에 따른 단백질의 분획 이미지에 시료정보, 임상정보 등과의 상호 연동 및 분석 과정이 배제된 상태의 단백질 정보(Accession number, Name,MW,pI,Sequence 등)만을 웹을 통해 제공하고 있다. 정보(SWISS 2D-PAGE)로 알려진 단백질의 표준화된 명명법(단백질 별 고유번호 부여) 및 관련 데이터베이스로서 전세계 관련 연구자 및 연구그룹에게 무상으로 제공되고 있는 정보이며, 이들의 데이터 포맷은 단백질에 대한 정보의 표준화 형태를 가지고 있다. 또한 웹(Web)을 통한 이미지 분석 도구로써 NCBI의 Flicker 시스템 내의 마스터(Master) 젤 이미지를 인터넷을 통해 상호 비교 가능하도록 한다.

그러나, 이와 같은 알려진 비교 방법들은 이미 관련 역구자들에 의해 확인된 프로테옴 정보를 제공하기 때문에 새로 생성된 젤 이미지와 스팟 정보에 오류 데이터가 포함되어 있는지를 확인하는 도구는 제공하지 않는다.

결론적으로, 이차원적 전기 영동 장치로부터 비롯된 젤 이미지 및 스팟 정보는 연구자의 오류 데이터 확인 작업이 수작업으로 선행되어야 하며 이는 많은 시간과 비용을 필요로 한다. 비록 이미지 분석 소프트웨어를 통해 분석하고, 웹 기반으로 제공되는 데이터베이스를 이용한다 할지라도, 연구자가 분석 결과를 다시 한번 검토하여 스팟 정보의 정확도를 확보하는 것은 아직 중요한 문제로 남아있다.

따라서 본 발명의 목적은 이차원적 전기 영동 장치로부터 비롯된 단백질 분획 젤 이미지와 스팟 정보에서 분석 결과에 오히려 역효과를 줄 수 있는 예외적이거나 오류인 데이터를 제거하여 분석 결과의 정확도를 향상 시킬 수 있는 단백질 데이터의 전처리 장치 및 방법을 제공하는데 그 목적이 있다.

이러한 목적을 달성하기 위한 본 발명의 단백질 정보 데이터 분석 전처리 장치는,

시료정보, 분석정보, 임상정보, 이미지 및 스팟 정보 등의 서로 다른 특성을 갖는 단백질에 관련된 데이터를 모두 종합하여 하나의 프로테옴 데이터베이스로 통합하는 프로테옴 데이터베이스와,

상기 프로테옴 데이터베이스로부터 전처리 대상 데이터를 선정하는 대상데이터선택부와, 선택된 대상 데이터와 통계정보기반필터링의 결과 데이터 및 통계프로파일기반필터링의 결과 데이터 그리고 클러스터링기반필터링의 결과 데이터 및 전처리가 완료된 분석 대상 데이터와 그들의 필터링 내역을 포함하여 데이터를 관리하는 데이터집합관리부와,

상기 통계정보기반필터링 및 통계프로파일기반필터링과 클러스터링기반필터링으로 구성되어 각 필터링의 결과 데이터를 피드백을 통해 각 필터링을 재수행할 수 있도록 하는 데이터 전처리 장치로 이루어지는 것을 특징으로 한다.

본 발명의 다른 특징은, 시료의 기초정보, 상세 정보, 시료 준비 및 분석모듈의 이미지 분석 프로그램을 통한 이미지 분석 정보를 포함하는 프로테옴 데이터베이스에서 단백질 스팟 단위 또는 연구자가 원하는 임의의 단위로 분석하기 위해서 분석의 대상이 되는 데이터를 수집하고 목록을 관리하며 분석 데이터를 수집하는 1단계와,

상기 1단계에서 수집된 스팟 및 스팟군으로 구성된 대상 데이터 집합중 오류에 해당하는 스팟 및 스팟군을 제거하고 임상적으로 특별한 의미를 가질 수 있는 스팟 및 스팟군들에 해당하는 데이터만을 데이터필터링장치에 의해 추출하는 제2단계와,

상기 제2단계의 결과 데이터 집합이 점진적인 전처리 장치를 통해 다시 상기 제2단계의 입력으로 피드백될 수 있도록 하는 제3단계로 이루어지는 단백질 정보 데이터 분석 전처리 방법을 특징으로 한다.

단백질의 젤 이미지 데이터 분석에 있어서 가장 어려운 문제는 한 젤 이미지당 최대 수천 개 이상의 스팟이 발견되며 소프트웨어를 통해 검출된 이들 스팟에는 많은 오류가 내제되어 있으며, 잘못된 스팟의 검출은 스팟 매칭 결과에도 영향을 준다. 따라서, 이러한 데이터에 대한 분석 결과의 정확도 또한 보장될 수 없다는 문제가 있다. 이를 해결하기 위해 현재는 연구자가 수많은 스팟을 육안으로 확인하여 이미지 분석 소프트웨어를 통해 수작업으로 오류를 제거한다. 본 발명은 이차원적 전기 영동 장치로부터 비롯된 단백질 분획 젤 이미지와 스팟 정보 중에 오류 가능성이 높은 스팟, 스팟군 또는 젤 이미지를 자동적으로 검출하고 제거하는 다양한 전처리 방법과 전처리 결과의 피드백을 통해 다양한 단계로 오류를 점진적으로 제거해나가는 점진적 단백질 분석 장치로 이루어지며, 전처리 방법으로는 통계정보기반필터링, 통계프로파일기반필터링, 클러스터링기반필터링이 있다.

이하, 본 발명의 실시예를 도면을 참고로 설명하면 다음과 같다. 도 1은 본 발명의 실시예에 따른 단백질 정보 데이터 분석 전처리 시스템의 구성도 및 그 흐름도이다. 도 2는 본 발명의 실시예에 따른 분석 대상 데이터를 선정하여 통계 정보 기반 필터링 방법의 전반적인 과정을 나타낸 것이다. 도 3은 본 발명의 실시예에 따른 통계 정보 기반의 필터링 방법인 이미지필터링, 스팟군필터링, 스팟필터링을 각 과정별로 나타낸 것이다. 도 4는 본 발명의 실시예에 따른 분석을 위해 수집된 단백질 스팟 데이터를 통계적으로 분석하여 프로파일을 생성하고, 새로운 분석 대상 데이터를 이미 생성된 프로파일을 이용하여 필터링하는 방법을 흐름도로 나타낸 것이다. 도 5는 본 발명의 실시예에 따른 분석을 위해 수집된 단백질 스팟 데이터를 클러스터링을 통하여 프로파일을 생성하고, 이것을 이용하여 필터링하는 방법을 흐름도로 나타낸 것이다. 도 6은 도 2의 통계적기반필터링 방법을 구현한 화면의 일부를 발췌하여 나타낸 것이다. 도 7은 도 4의 통계프로파일기반필터링 방법을 구현한 화면이다. 도 8은 도 5의 클러스터링기반필터링 방법의 초기화면을 구현한 것이다. 도 9는 본 발명의 실시예에 따른 다차원 등고선 클러스터링을 수행하기 위한 방법을 구현한 화면을 나타낸 것이다. 도 10은 본 발명의 실시예에 따른 다차원 등고선 클러스터링의 결과를 시각화한 화면을 나타낸 것이다. 도 11은 본 발명의 실시예에 따른 필터링의 종류와 임계치 설정을 통해 클러스터링기반필터링의 수행 방법을 구현한 화면을 나타낸 것이다.

본 발명의 실시예에 따른 단백질 정보 데이터 분석 전처리 장치는, 도 1과 같이, 크게 프로테옴 데이터베이스(110), 데이터집합 관리부(120), 데이터 전처리장치(130)으로 구성되어 계속적으로 새로운 젤 이미지 정보를 입력받으면서 전처리 작업을 수행한다. 즉, 상기 프로테옴 데이터베이스(110)는, 시료정보, 분석정보, 임상정보, 이미지 및 스팟 정보 등의 서로 다른 특성을 갖는 단백질에 관련된 데이터를 모두 종합하여 하나의 프로테옴 데이터베이스(110)로 통합한다.

상기 데이터집합관리부(120)는 프로테옴 데이터베이스(110)로부터 전처리 대상 데이터를 선정하는 대상데이터선택부(121)와, 선택된 대상 데이터(122)와 통계정보기반필터링의 결과 데이터(123) 및 통계프로파일기반필터링의 결과 데이터(124) 그리고 클러스터링기반필터링의 결과 데이터(125) 및 전처리가 완료된 분석 대상 데이터(126)와 그들의 필터링 내역을 포함하여 데이터를 관리한다.

상기 데이터 전처리 장치(130)는, 통계정보기반필터링(131) 및 통계프로파일기반필터링(132)과 클러스터링기반필터링(133)으로 구성되어 각 필터링의 결과 데이터를 피드백을 통해 각 필터링을 재수행할 수 있도록 한다.

이와 같이, 대상 데이터 집합은 여러 번 다양한 방법으로 필터링 가능하므로 대상 데이터 집합의 오류를 다양한 각도에서 점진적으로 제거하여 보다 정확도 높은 분석 대상 데이터 집합을 생성할 수 있다. 필터링 결과 대상 데이터 집합은 전처리 결과 분석 모듈(134)을 통해 출력된다. 본 발명에 따른 단백질 정보 데이터 전처리 방법은, 시료의 기초정보, 상세 정보, 시료 준비 및 분석모듈의 이미지 분석 프로그램을 통한 이미지 분석 정보를 포함하는 프로테옴 데이터베이스(110)에서 단백질 스팟 단위 또는 연구자가 원하는 임의의 단위로 분석하기 위해서 분석의 대상이 되는 데이터를 수집하고 목록을 관리하며 분석 데이터를 수집하는 1단계와,

상기 제2단계의 결과 데이터 집합이 점진적인 전처리 장치(130)를 통해 다시 상기 제2단계의 입력으로 피드백될 수 있도록 하는 제3단계로 수행된다.

또한, 상기 제 1 단계는 데이터필터링장치에 의해 스팟 및 스팟군들에 해당하는 데이터를 추출하는 상기 제 2 단계로 보내질 대상 데이터를 선정하기 위한 각 데이터의 집합을 제공하기 위하여 각 데이터 집합의 젤 이미지 개수, 가장 최근에 수행한 필터링의 종류 및 데이터 집합간의 계층 트리 구조를 생성하여 데이터를 수집하고 관리한다.

또한, 상기 제 2 단계는 필터링 대상 데이터 내의 단백질 스팟들의 각 속성의 평균 및 표준편차와 젤 이미지 및 스팟군 내의 스팟의 개수와 같은 통계정보를 통계 기준 값과 비교하여 기준에 미치지 못하는 영역을 제거하여 통계정보기반필터링을 수행하는 제 1 서브단계, 상기 제 1 서브단계의 통계정보기반필터링에서 임계값으로 사용되었던 통계 프로파일과 대상 데이터의 스팟 속성을 비교하여 임계값에 미치지 못하는 스팟들을 제거하는 통계프로파일기반필터링을 수행하는 제 2 서브단계, 상기 제 2 서브단계로부터 등고선 클러스터링을 스팟 필터링 데이터 집합에 적용하여 클러스터 영역에 포함되지 않은 스팟을 제거 또는 채택하여 오류 데이터를 제거하거나 또는 예외 데이터를 채택하여 클러스터링 프로파일을 기반으로 스팟 필터링을 수행하는 제 3 서브단계를 포함한다.

또한, 상기 제 1 서브단계는 단일 이미지 내의 스팟 개수에 따라 해당 이미지를 삭제하는 이미지 필터링 단계, 상기 단계로부터 스팟들로 구성된 필터링 대상 데이터 집합 내의 스팟 속성들의 평균 및 표준편차 등의 다양한 통계치에 의해 오류가능성이 높은 스팟들을 삭제하여 정제된 데이터 집합을 저장하는 스팟 필터링 단계, 상기 스팟 필터링 단계로부터 여러 젤 이미지에서 동일 단백질로 매칭된 스팟군들로 구성된 필터링 대상 데이터 집합에서 각 스팟군에 속하는 스팟의 개수를 이용하여 그 개수가 임의의 임계값에 미치지 못하는 스팟군을 삭제하여 정제된 스팟군만을 저장하는 스팟군 필터링 단계, 상기 각 단계로부터 필터링 대상 별로 필터링 여부에 영향을 미치는 특성들의 통계치(평균과 표준편차 및 빈도수)를 그래프로 표현하고, 연구자가 특성들의 필터링 기준값을 설정하는 단계를 포함하며, 상기 스팟 필터링 단계의 경우 현 시점에 사용된 임계 기준값을 저장하여 프로파일을 생성하는 단계로 이루어질 수 있다.

또한, 상기 제 2 서브단계는, 도 7과 같이, 스팟 필터링 대상 데이터에 포함된 스팟 속성들로부터 필터링에 이용할 스팟 속성을 선택하는 과정, 상기 과정으로부터 생성된 통계 프로파일에서 선택된 스팟 속성과 관련한 프로파일을 선택하는 과정, 상기 과정으로부터 선택된 프로파일과 스팟 필터링 대상 데이터의 각 속성값을 비교하여 기준에 미치지 못하는 스팟을 제거하는 과정으로 이루어질 수 있다.

또한, 상기 제 3 서브단계는, 도 8과 같이, 스팟 필터링 대상 데이터의 각 스팟 속성값들에 대한 다차원 등고선 클러스터링을 통해 프로파일을 생성하는 단계, 상기 단계로부터 생성된 결과 프로파일을 시각적으로 제시하는 단계, 상기 단계로부터 제시된 프로파일을 이용하여 대상 스팟을 필터링하는 단계로 이루어질 수 있다.

또한, 등고선 클러스터링을 통해 프로파일을 생성하는 단계는, 도 9와 같이, 상기 스팟 필터링 대상 데이터들에서 클러스터링을 하기 위한 하나 이상의 스팟 속성을 선택하는 과정과 다차원 등고선 클러스터링에 사용하기 위한 매개 변수를 설정하는 과정, 상기 과정으로부터 등고선 클러스터링 알고리즘을 적용하여 각 데이터의 밀집도를 나타내는 수치값과 각 클러스터의 영역을 나타내는 정보로 구성된 다차원 등고선 클러스터링 프로파일을 구성하는 과정으로 등고선 프로파일을 생성할 수 있다.

또한, 상기 등고선 클러스터링 결과 프로파일을 시각적으로 제시하는 단계는, 도 10과 같이, 막대그래프를 이용하여 클러스터링 대상 데이터들의 분포를 보이고, 구분선으로 클러스터링 대상 데이터들의 등고선 포함관계를 나타냄과 동시에 각 등고선으로 구별되는 클러스터의 특성을 수치로 표현함으로서 연구자로 하여금 필터링 대상 데이터의 분포를 파악할 수 있도록 그 클러스터링 결과를 시각화 할 수 있다.

또한, 상기 등고선 클러스터링 결과 프로파일을 이용하여 스팟 필터링 대상 데이터를 필터링 하는 단계는, 도 11과 같이, 어떠한 등고선 클러스터에도 포함되지 않는 오류 및 예외 데이터인 스팟을 제거하거나 임의의 등고선 클러스터 이내에 존재하여 계속되는 분석에 의미가 없는 것으로 고려되는 스팟을 제거하는 클러스터링 기반으로 데이터를 필터링할 수 있다.

본 발명에 따른 단백질 정보 데이터의 전처리 방법을 구체적으로 설명하면 다음과 같다.

도 2는 통계정보기반필터링 과정의 흐름을 흐름도로 나타낸 것으로써 대상 데이터 집합(210)을 입력 받아 통계기반필터링방법 중 세부 필터링의 종류를 선택하고(220), 대상 데이터 집합에 대해 필터링(230)을 수행하며 필터링 결과의 저장 여부(240)를 확인하여 필터링결과를 저장(241)하여 1차 전처리 결과(242)를 생성하는 예를 나타낸 것이다.

여기서 필요에 따라 현재 필터링에 사용했던 통계 기준값을 프로파일로 저장할 것인지의 여부(250)를 확인 후, 통계프로파일을 저장(251)하여 통계 프로파일(252)을 생성한다. 이 과정 역시 도 1과 마찬가지로 필터링 결과 데이터는 피드백되어 다시 세부 필터링 종류를 선택하여 계속적으로 재 필터링 될 수 있다.

통계정보기반필터링은, 데이터 속성의 평균, 표준편차 또는 데이터의 개수 등의 통계 정보에 의해 데이터의 오류 가능성을 확인하고 오류 가능성이 높은 데이터를 제거하는 과정이므로 대상 데이터 집합의 특성 분포에서 희소한 영역에 존재하는 데이터들을 제거한다.

도 3은 도 2에 나타낸 통계정보기반필터링의 세부 종류를 나타낸 것이다. 통계정보기반필터링(310)은 젤이미지필터링(320), 스팟군필터링(330), 스팟필터링(340)으로 구분되며, 젤이미지필터링(320)은 대상 데이터를 젤 이미지 별로 구분하여 각 젤 이미지 내의 스팟 개수가 연구자가 지정한 임계값 a 이상인가를 확인(321)하여 a에 미치지 못할 경우 해당 젤 이미지는 제대로 단백질의 분리가 되지 않은 것으로 판단하여 대상 데이터 집합에서 해당 젤 이미지의 정보를 삭제(322)한다. 스팟군필터링(330)은 서로 다른 젤 이미지에서 상대적인 위치가 동일한 스팟들의 집합인 스팟군의 스팟 개수가 연구자가 지정한 임계값 β이상인가를 확인(331)하여 β에 미치지 못할 경우 해당 스팟군을 삭제(332)한다.

스팟필터링(340)은 대상 데이터에서 필터링에 사용될 수 있는 가능한 스팟 속성(예를 들면, 스팟의 위치 정보(X,Y), 스팟의 양적 정보(O.D., VOL.,%O.D.%VOL.)와 임상 정보 중 연구자가 필터링에 사용할 속성을 선택(341)하고 그래프의 X,Y축에서 사용할 속성을 지정(343)한다. 이때 각 그래프는 종류별로 사용 가능한 속성이 구분되어 있으며, 특히, 정상적인 조직으로부터 추출한 단백질 젤 이미지 정보와 암 조직과 같은 비정상적인 조직으로부터 추출한 단백질 젤 이미지 정보의 비교를 통해 필터링을 수행할 수 있도록 정상과 비정상으로 스팟의 통계값을 구별하여 두 개의 그래프로 보여주는 페어(pair) 그래프(도 6)와, 정상과 비정상 정보를 구분하지 않고 보여주는 혼합 그래프, 정상과 비정상을 구별하지만 꺽은선 그래프를 이용하여 하나의 그래프에 표현하는 결합 그래프를 제공한다.

그래프를 이용하여 연구자는 도 6과 같이 필터링 할 영역을 선택(344)하여 필터링을 수행한다. 필터링 대상 영역은 그래프를 보고 제거하지 않을 데이터 영역의 최대값과 최소값을 슬라이드 바 또는 직접 입력을 통해 설정할 수 있다. 이미지필터링(320), 스팟군 필터링(330), 스팟필터링(340)을 통해서 필터링 된 데이터는 필터링 결과 저장여부를 확인하여 1차 필터링 데이터로 저장(240)되며, 이때 통계 기반 필터링이 수행되었다는 옵션 정보를 포함한다.

도 4는 분석을 위해 수집된 단백질 스팟 데이터를 통계적으로 분석하여 이 단계에서 생성된 프로파일을 새로운 분석 대상 데이터에 적용함으로써 필터링을 수행하는 통계 프로파일 기반 필터링 방법을 도식적으로 나타낸 것이다. 이를 설명하면, 전처리 대상 데이터 집합에서 필터링할 대상 데이터를 선택(410)하고, 통계 프로파일 기반 필터링 모듈을 선택 하면, 스팟 속성 중 대상 데이터에 존재하는 속성의 목록이 제시된다.

제시된 속성 목록 중에서 직접 필터링할 속성을 선택(420)하고, 다음 단계로 진행하면 이용 가능한 프로파일의 목록이 제시된다(440). 여기서 제시되는 프로파일들은 이전 단계인 통계정보기반필터링 과정에서 생성된 프로파일들(430) 중의 일부이며, 현재 선택된 속성들과 비교하여 현재 필터링 대상인 데이터에 적용 가능한 것들이 전체 프로파일들 중에서 선택되어서 사용자에게 제시되는 것이다.

제시된 프로파일들의 목록은 표로 나타나며, 해당 프로파일 생성에 이용된 속성들과 각 속성의 필터링 기준치에 대한 최대값 및 최소값과 같은 요약정보를 포함한다.

프로파일의 목록으로부터 하나의 프로파일을 선택(450)하면 선택된 프로파일의 상세 정보를 열람(451)할 수 있는데, 표로 제시된 요약 정보를 포함하여 해당 프로파일 생성에 이용된 각 속성들에 대해 필터링 된 후의 평균과 분산이 각 속성별로 제시된다. 사용자는 제시된 프로파일의 목록과 상세 정보를 열람한 후, 적용하고자 하는 프로파일을 선택하여 통계프로파일기반 필터링을 실행(460)하게 된다.

통계프로파일기반필터링은 현재 대상 데이터를 선택된 프로파일의 각 속성값들의 임계값과 비교하여 필터링 하는 것으로, 기준에 미치지 못하는 데이터가 제거된다. 필터링 후 생성된 전처리 결과 데이터는 다음 분석을 위해 저장되며, 이때 통계프로파일기반필터링이 수행되었다는 추가 정보를 포함(470)한다. 이 과정을 수행하는 구현된 화면은 도 7과 같다.

도 5는 분석을 위해 수집된 단백질 스팟 데이터를 각 스팟군 별로 클러스터링을 통하여 프로파일을 생성하고, 이것을 이용하여 필터링하는 클러스터링 기반 필터링 방법을 나타낸 것으로 이를 설명하면, 전처리 대상 데이터 집합에서 필터링 할 대상 데이터를 선택(510)하고, 프로파일을 기반으로 데이터를 필터링하기 위하여 현재 존재하는 프로파일을 이용할지 새로운 프로파일을 생성할 지를 결정(520)하며, 현존하는 프로파일을 이용한다면 해당 프로파일을 선택(530)하고, 새로운 프로파일을 생성한다면 다음 과정을 수행한다.

클러스터링기반필터링에 이용할 프로파일은 다차원 등고선 클러스터링의 결과로, 프로파일은 대상 데이터의 선택된 스팟 속성에 대해서 각 데이터의 밀집도를 나타내는 수치값과 각 데이터가 속한 클러스터를 나타내는 정보로 구성된다. 다차원 클러스터링이란 데이터로부터 추출되는 다양한 스팟 속성이 존재하는 단백질 스팟 데이터로부터 몇 개의 특징만으로 구성되는 클러스터를 생성함으로써 발생 빈도수에 따라 다양하게 분석하기 위해 사용되는 방법으로, 단순히 밀집된 영역에 대한 특성 뿐 아니라, 등고선 레벨에 따른 데이터의 특성을 파악할 수 있으며, 최적의 클러스터를 찾기 위해서 클러스터링 수행을 위한 데이터 개체의 빈도수에 관련된 매개변수의 설정에 대한 노력을 최소화하면서 주어진 데이터로부터 추출된 특징들간에 연관 정도를 쉽게 분석할 수 있다.

이와 같은 다차원 등고선 클러스터링을 수행하기 전에 다음 과정이 선행되어야 한다. 먼저, 대상데이터에 대해 클러스터링하고자 하는 속성을 선택(540)하고, 클러스터링을 위한 매개 변수를 설정(541)한다. 여기서, 매개 변수는 반지름ε(radius)과 개수(MinPts), 그리고 등고선의 경사를 나타내는 ζ값이며, 주어진 ε이내에 적어도 개수(MinPts)개 이상의 개체가 포함되어야 클러스터가 구성되는 밀도 기반 클러스터링의 임계치를 나타내는 변수와 등고선 클러스터링에서 각 등고선의 경계를 정하기 위한 경사의 임계치를 나타내는 변수이다. 이어서 다차원 등고선 클러스터링을 수행(542)하면, 선택된 데이터 속성에 대해서 설정된 매개 변수를 이용한 프로파일이 생성된다.

이렇게 생성된 프로파일은 그래프를 통해 시각적으로 확인(550)할 수 있다. 등고선 클러스터링 알고리즘에 의해 생성된 값은 클러스터링 대상 데이터들의 분포를 보이기 위해 막대 그래프를 이용하여 디스플레이 되며, 각 클러스터는 막대 그래프 아래에 구분선을 이용하여 등고선으로 표현되어 클러스터 영역의 포함관계를 나타낸다. 또한, 각 등고선 클러스터 별로 수치로 표현된 특성을 나타냄으로서 사용자로 하여금 필터링 대상 데이터의 분포를 용이하게 파악할 수 있도록 하는 정보를 제공한다. 상기 과정을 통해 생성된 프로파일 또는 이미 생성된 프로파일 중 선택된 프로파일을 이용하여 다음 두 가지 방법으로 클러스터 범위 내에도 포함되지 않는 오류 및 예외 데이터를 제거하는 방법으로, 등고선 클러스터 구조에서 임의의 클러스터 영역 이내에 존재하는 데이터들만 앞으로 분석에 사용하기 위한 것이다.

두 번째 방법은 밀집도가 높은 클러스터 이내에 존재하여 마커 단백질(maker protein-특정 질병이나 임의의 작용에 의해 발현량이 변하는 단백질)을 분석하는 데에 의미가 없을 것으로 고려되는 데이터를 정제하는 것으로, 수치값으로 나타내어지는 클러스터의 특성을 이용하여 사용자가 정의한 수치값의 범위에 해당하는 데이터를 제거하는 방법이다.

사용자는 두 가지 방법 중 하나의 필터링 방법을 선택하고 변수를 설정(560)하여 클러스터링 기반 필터링 모듈을 수행(570)하게 되며, 정제된 결과 데이터는 다음 분석을 위해 저장되고, 이때 클러스터링 기반 필터링이 수행되었다는 추가 정보를 포함(580)한다.

이 과정을 수행하는 구현된 화면은 도 8 내지 도 11에 제시되어 있다.

도 8은 새프로파일 생성(520)을 할 것인지의 결과에 따른 현존 프로파일 중 택일(530)에 관한 과정을 구현한 것이다. 도 9는 클러스터링 대상 속성의 선택(540)과 클러스터링 매개 변수 설정(541) 그리고 등고선 클러스터링 수행(542)에 관한 과정을 구현한 것이며, 도 10은 클러스터링 결과 시각화(550)를 구현한 것이고, 도 11은 필터링 모드 및 변수 설정(560)과 클러스터링기반필터링 수행(570)의 과정을 구현한 화면이다.

이와 같이 본 발명은 프로테옴 정보 분석에 있어서 이차원적 전기 영동장치로부터 비롯된 단백질 젤 이미지 내의 각 스팟에 대한 지리적 위치 및 양적 정보와 젤 이미지간의 스팟 매칭(matching)에서 생기는 예외 및 오류의 가능성을 발견하여 오류 가능성이 높은 스팟 및 스팟군, 젤 이미지를 제거하는 프로테옴 데이터 전처리 장치 및 방법으로서, 실험자 및 분석자는 실험에서 비롯된 방대한 양의 단백질 스팟 데이터를 임의의 단위로 나누어 관리하고 다양한 방법과 단계로 오류 가능성 정도를 파악하여 분석 가능함에 따라 분석의 대상이 되는 데이터로부터 예외 및 오류인 데이터를 다양한 각도에서 오류가능성에 따라 제거할 수 있는 효과가 있으므로 단백질 데이터 분석의 정확성도 및 신뢰도를 향상 시킬 수 있다.

또한, 연구자가 별도로 육안으로 수작업을 통해 이미지 분석에 소요되는 많은 시간과 노력을 대폭 줄일 수 있게 되며, 육안으로 판별 가능한 이미지의 편차 또는 오차만을 고려한 기존의 분석에 비하여 다양한 기준에 따른 데이터 필터링을 수행함으로써 오차의 판별 기준을 다양화하여 보다 정확하고 세밀한 데이터 분석이 가능하도록 지원할 수 있는 효과가 있다.

또한, 각 분석에 그래프, 도표 등의 다양한 보고서 양식을 통해 포괄적 리뷰를 제공하여, 분석자가 다양한 관점의 분석 결과를 파악하는 것을 용이하게 하는 효과도 있다.

도 1은 본 발명의 실시예에 따른 단백질 정보 데이터 분석 전처리 시스템의 구성도 및 그 흐름도

도 2는 본 발명의 실시예에 따른 분석 대상 데이터를 선정하여 통계 정보 기반 필터링 방법의 전반적인 과정을 나타낸 도면

도 3은 본 발명의 실시예에 따른 통계 정보 기반의 필터링 방법인 이미지필터링, 스팟군필터링, 스팟필터링을 각 과정별로 나타낸 도면

4는 본 발명의 실시예에 따른 분석을 위해 수집된 단백질 스팟 데이터를 통계적으로 분석하여 프로파일을 생성하고, 새로운 분석 대상 데이터를 이미 생성된 프로파일을 이용하여 필터링하는 방법을 흐름도

도 5는 본 발명의 실시예에 따른 분석을 위해 수집된 단백질 스팟 데이터를 클러스터링을 통하여 프로파일을 생성하고, 이것을 이용하여 필터링 하는 방법을 보인 흐름도

도 6은 도 2의 통계적기반필터링 방법을 구현한 화면의 일부를 발췌하여 나타낸 도면

7은 도 4의 통계프로파일기반필터링 방법을 구현한 화면

도 8은 도 5의 클러스터링기반필터링 방법의 초기 화면을 구현한 화면

도 9는 본 발명의 실시예에 따른 다차원 등고선 클러스터링을 수행하기 위한 방법을 구현한 화면

도 10은 본 발명의 실시예에 따른 다차원 등고선 클러스터링의 결과를 시각화한 화면

도 11은 본 발명의 실시예에 따른 필터링의 종류와 임계치 설정을 통해 클러스터링기반필터링의 수행 방법을 구현한 화면

*도면의 주요 부분에 대한 부호의 설명*

110:데이터베이스 120:데이터집합관리부

130:데이터전처리장치 131:통계정보기반필터링

132:통계프로파일기반필터링 133:클러스터링기반필터링

134:결과분석모듈

Claims

이차원적 전기영동법에 따른 단백질의 분획 이미지에 시료정보, 임상정보 등과의 상호 연동 및 분석 과정에 관한 단백질 정보를 제공하기 위한 단백질 정보 데이터 전처리 장치에 있어서,

시료정보, 분석정보, 임상정보, 이미지 및 스팟 정보 등의 서로 다른 특성을 갖는 단백질에 관련된 데이터를 모두 종합하여 하나의 프로테옴 데이터베이스로 통합하는 프로테옴 데이터베이스와,

상기 프로테옴 데이터베이스로부터 전처리 대상 데이터를 선정하는 대상데이터선택부와, 선택된 대상 데이터와 통계정보기반필터링의 결과 데이터 및 통계프로파일기반필터링의 결과 데이터 그리고 클러스터링기반필터링의 결과 데이터 및 전처리가 완료된 분석 대상 데이터와 그들의 필터링 내역을 포함하여 데이터를 관리하는 데이터집합관리부와,

상기 통계정보기반필터링 및 통계프로파일기반필터링과 클러스터링기반필터링으로 구성되어 각 필터링의 결과 데이터를 피드백을 통해 각 필터링을 재수행할 수 있도록 하는 데이터 전처리 장치로 이루어지는 것을 특징으로 하는 단백질 정보 데이터 전처리 장치.
단백질 정보 데이터의 분석을 위한 전처리 방법에 있어서,

시료의 기초정보, 상세 정보, 시료 준비 및 분석모듈의 이미지 분석 프로그램을 통한 이미지 분석 정보를 포함하는 프로테옴 데이터베이스에서 단백질 스팟 단위 또는 연구자가 원하는 임의의 단위로 분석하기 위해서 분석의 대상이 되는 데이터를 수집하고 목록을 관리하며 분석 데이터를 수집하는 1단계와,

상기 1단계에서 수집된 스팟 및 스팟군으로 구성된 대상 데이터 집합중 오류에 해당하는 스팟 및 스팟군을 제거하고 임상적으로 특별한 의미를 가질 수 있는 스팟 및 스팟군들에 해당하는 데이터만을 데이터필터링장치에 의해 추출하는 제2단계와,

상기 제2단계의 결과 데이터 집합이 점진적인 전처리 장치를 통해 다시 상기 제2단계의 입력으로 피드백될 수 있도록 하는 제3단계로 이루어지는 단백질 정보 데이터 전처리 방법.
제 2 항에 있어서,

상기 제 1 단계는 데이터필터링장치에 의해 스팟 및 스팟군들에 해당하는 데이터를 추출하는 상기 제 2 단계로 보내질 대상 데이터를 선정하기 위한 각 데이터의 집합을 제공하기 위하여 각 데이터 집합의 젤 이미지 개수, 가장 최근에 수행한 필터링의 종류 및 데이터 집합간의 계층 트리 구조를 생성하여 데이터를 수집하고 관리 하는 것을 특징으로 하는 단백질 정보 데이터 전처리 방법.
제 2 항에 있어서,

상기 제 2 단계는 필터링 대상 데이터 내의 단백질 스팟들의 각 속성의 평균 및 표준편차와 젤 이미지 및 스팟군 내의 스팟의 개수와 같은 통계정보를 통계 기준 값과 비교하여 기준에 미치지 못하는 영역을 제거하여 통계정보기반필터링을 수행하는 제 1 서브단계와,

상기 제 1 서브단계의 통계정보기반필터링에서 임계값으로 사용되었던 통계 프로파일과 대상 데이터의 스팟 속성을 비교하여 임계값에 미치지 못하는 스팟들을 제거하는 통계프로파일기반필터링을 수행하는 제 2 서브단계와,

상기 제 2 서브단계로부터 등고선 클러스터링을 스팟 필터링 데이터 집합에 적용하여 클러스터 영역에 포함되지 않은 스팟을 제거 또는 채택하여 오류 데이터를 제거하거나 또는 예외 데이터를 채택하여 클러스터링 프로파일을 기반으로 스팟 필터링을 수행하는 제 3 서브단계를 포함하여 이루어진 것을 특징으로 하는 단백질 정보 데이터 전처리 방법.
제 4 항에 있어서,

상기 제 1 서브단계는 단일 이미지 내의 스팟 개수에 따라 해당 이미지를 삭제하는 이미지 필터링 단계와,

상기 단계로부터 스팟들로 구성된 필터링 대상 데이터 집합 내의 스팟 속성들의 평균 및 표준편차 등의 다양한 통계치에 의해 오류가능성이 높은 스팟들을 삭제하여 정제된 데이터 집합을 저장하는 스팟 필터링 단계와,

상기 스팟 필터링 단계로부터 여러 젤 이미지에서 동일 단백질로 매칭된 스팟군들로 구성된 필터링 대상 데이터 집합에서 각 스팟군에 속하는 스팟의 개수를 이용하여 그 개수가 임의의 임계값에 미치지 못하는 스팟군을 삭제하여 정제된 스팟군만을 저장하는 스팟군 필터링 단계와,

상기 각 단계로부터 필터링 대상 별로 필터링 여부에 영향을 미치는 특성들의 통계치(평균과 표준편차 및 빈도수)를 그래프로 표현하고, 연구자가 특성들의 필터링 기준값을 설정하는 단계를 포함하며,

상기 스팟 필터링 단계의 경우 현 시점에 사용된 임계 기준값을 저장하여 프로파일을 생성하는 단계로 이루어지는 것을 특징으로 하는 단백질 정보 데이터 전처리 방법.
제 4 항 또는 제 5 항에 있어서,

상기 제 2 서브단계는 스팟 필터링 대상 데이터에 포함된 스팟 속성들로부터 필터링에 이용할 스팟 속성을 선택하는 과정과,

상기 과정으로부터 생성된 통계 프로파일에서 선택된 스팟 속성과 관련한 프로파일을 선택하는 과정과,

상기 과정으로부터 선택된 프로파일과 스팟 필터링 대상 데이터의 각 속성값을 비교하여 기준에 미치지 못하는 스팟을 제거하는 과정으로 이루어지는 것을 특징으로 하는 단백질 정보 데이터 전처리 방법.
제 4 항에 있어서,

상기 제 3 서브단계는 스팟 필터링 대상 데이터의 각 스팟 속성값들에 대한 다차원 등고선 클러스터링을 통해 프로파일을 생성하는 단계와,

상기 단계로부터 생성된 결과 프로파일을 시각적으로 제시하는 단계와,

상기 단계로부터 제시된 프로파일을 이용하여 대상 스팟을 필터링하는 단계로 이루어지는 것을 특징으로 하는 단백질 정보 데이터 전처리 방법.
제 7 항에 있어서,

상기 등고선 클러스터링을 통해 프로파일을 생성하는 단계는,

상기 스팟 필터링 대상 데이터들에서 클러스터링을 하기 위한 하나 이상의 스팟 속성을 선택하는 과정과 다차원 등고선 클러스터링에 사용하기 위한 매개 변수를 설정하는 과정과,

상기 과정으로부터 등고선 클러스터링 알고리즘을 적용하여 각 데이터의 밀집도를 나타내는 수치값과 각 클러스터의 영역을 나타내는 정보로 구성된 다차원 등고선 클러스터링 프로파일을 구성하는 과정으로 이루어지는 것을 특징으로 하는 단백질 정보 데이터 전처리 방법.
제 7 항에 있어서,

상기 상기 등고선 클러스터링 결과 프로파일을 시각적으로 제시하는 단계는,

막대그래프를 이용하여 클러스터링 대상 데이터들의 분포를 보이고, 구분선으로 클러스터링 대상 데이터들의 등고선 포함관계를 나타냄과 동시에 각 등고선으로 구별되는 클러스터의 특성을 수치로 표현함으로서 연구자로 하여금 필터링 대상 데이터의 분포를 파악할 수 있도록 하는 것을 특징으로 하는 단백질 정보 데이터 전처리 방법.
제 7 항에 있어서,

상기 등고선 클러스터링 결과 프로파일을 이용하여 스팟 필터링 대상 데이터를 필터링 하는 단계는, 어떠한 등고선 클러스터에도 포함되지 않는 오류 및 예외 데이터인 스팟을 제거하거나 임의의 등고선 클러스터 이내에 존재하여 계속되는 분석에 의미가 없는 것으로 고려되는 스팟을 제거하

는 것을 특징으로 하는 단백질 정보 데이터 전처리 방법.