KR20080086563A

KR20080086563A - 수학적 모델을 이용한 펩타이드 서열의 엠 세포 표적 예측시스템 및 방법과 그 프로그램을 저장한 기록매체

Info

Publication number: KR20080086563A
Application number: KR1020070008483A
Authority: KR
Inventors: 정은경; 김준형; 김민경; 이호경; 정동현; 최승훈; 신재민; 윤철희; 강상기; 김민국; 최윤재
Original assignee: 주식회사 인실리코텍
Priority date: 2007-01-26
Filing date: 2007-01-26
Publication date: 2008-09-26
Anticipated expiration: 2027-01-26
Also published as: KR100904220B1

Abstract

본 발명은 수학적 모델을 이용하여 펩타이드 서열의 M 세포 표적을 예측하는 시스템 및 방법과 그 프로그램을 저장한 기록매체에 관한 것이다.

본 발명은 실험기법을 이용하여 M 세포를 표적하는 펩타이드 서열의 표본을 획득하는 단계와; 이들 서열을 근거로 M 세포를 표적하지 않는 펩타이드 서열의 표본을 획득하는 단계와; 상기 획득한 표본 각각을 집합으로 저장한 후 이들을 일정한 비율이 되도록 임의로 추출하여 수학적 모델 훈련용 집합과 수학적 모델 검증용 집합으로 분류하는 단계와; 개별 펩타이드 서열에 표현자 값과 활성값을 부여하는 단계와; 훈련용 펩타이드 집합과 수학적 모델을 이용하여 훈련하는 단계와; 훈련된 수학적 모델을 이용하여 검증용 펩타이드 집합에 대해 M 세포 표적 여부를 예측하는 단계와; 훈련된 수학적 모델을 검증하는 단계로 이루어져 펩타이드의 M 세포 표적 여부를 항상 실험으로 확인하지 않고 프로그램을 저장한 기록매체를 이용하여 미리 예측함으로써 실험으로 소요되는 비용과 시간을 절감할 수 있는 각별한 장점이 있는 유용한 발명이다.

수학적 모델, 펩타이드 서열, 표현자, 활성값, M 세포 표적.

Description

수학적 모델을 이용한 펩타이드 서열의 엠 세포 표적 예측 시스템 및 방법과 그 프로그램을 저장한 기록매체{System, method and program for M cell target prediction of peptide sequence by mathematical model}

도 1은 본 발명에 따른 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측 시스템의 일실시예를 도시한 블록 구성도,

도 2는 본 발명 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법의 일실시예를 도시한 순서도,

도 3은 본 발명 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법의 일실시예를 도시한 순서도,

도 4는 본 발명에서 펩타이드 서열의 M 세포 표적 예측 모델을 재훈련하는 방법의 순서도이다.

〈도면의 주요부분에 대한 부호의 설명〉

10 : 마이크로 컴퓨터 11 : 프로그램 기록매체

12 : CPU 13 : 입출력부

20 : 입력수단 30 : 출력수단

본 발명은 수학적 모델을 이용하여 펩타이드 서열의 M 세포 표적 여부를 예측하는 시스템 및 방법과 그 프로그램을 저장한 기록매체에 관한 것이다.

일반적으로 외부로부터 체내로 병원성 물질이 감염되는 경로는 구강, 호흡 및 생식기도 그리고 피부로 나누어진다. 구강을 통해 소화기 내로 들어온 항원성 물질이 흡수되는 경로로는 페이어스 패치(Peyer's patch)의 낭포 조합 상피(follicle associated epithelium; FAE)에 존재하는 M 세포를 통한 수용체 매개 물질운송기전(receptor mediated endocytosis)과 융모세포(villi)를 구성하는 소장의 상피세포(enterocyte) 간의 밀착결합(tight junction) 사이로 유입되는 경로로 나누어 불 수 있다. 점막면역반응은 체면역반응(systemic immune response)과 달리 장관내로 운반된 거대분자(macromolecules), 미생물(microorganism)을 흡수하여 항원 특이적 면역 반응을 일으켜 최종적으로 소장의 상피세포(enterocyte)를 통과하여 분비형 IgA(secretory IgA)의 분비를 유도한다.

M 세포라는 특화된 세포는 장내에 존재하는 여러 항원을 특이적, 비특이적인 경로로 흡수하여 점막면역반응의 최종산물인 분비형 IgA를 소장의 상피세포를 통해 분비하는데 있어서 중추적인 기능을 담당한다.

콜레라, 장티푸스, 세균성 이질 등의 수인성 전염병과 같이 M 세포를 통과하여 소장의 점막 내로 유입되는 질병의 예방을 위한 백신의 투여에 있어 가장 효율적인 경로는 M 세포를 표적하는 경구투여방식(oral drug delivery)을 이용하여 점 막면역반응(mucosal immune response)을 유도하는 것으로 알려져 있다. 따라서 M 세포에서 특이적인 트랜스사이토시스(transcytosis)를 유도하는 작용기(ligand)를 확보할 수 있다면, 점막면역반응을 활성화시킬 수 있는 효율적인 경구용 백신 전달 시스템에 응용할 수 있다.

경구투여방식은 환자들의 거부감이 적고 숙련된 인력이나 주사기 등 별도의 기구가 필요하지 않기 때문에 투약의 편이성과 복약 순응도가 높다는 측면에서 가장 이상적인 방법이지만, 실용화에 있어서 몇 가지 문제점이 제시되고 있다. 첫째는 물질 크기 상의 제약으로, 단백질계 약물은 거대분자(macromolecule)로 이루어져 생체막 투과에 있어 제한을 가진다. 다음은 생체의 소화기관을 통과하면서 위를 포함한 소화기관에서 분비되는 각종 소화효소의 작용에 의해 활성을 잃게 된다. 이러한 요소를 극복하고 온전한 형태로 소장 내에 도달하더라도 외부물질을 선택적으로 받아들이는 장 상피세포층의 차단에 의해 약물이 체내로 흡수되어 제 기능을 발휘하는 것은 매우 어렵다. 그러므로 경구용 백신 전달 시스템의 상용화를 위해서는 백신의 낮은 흡수율과 소화관 통과 시의 불안정성, 낮은 장점막 투과성 등의 문제점 개선이 선행되어야 한다.

최근 신약 개발에 있어, 펩타이드는 효능이 강력하고 독성 및 부작용이 거의 없으며 인체에 잔류하지 않는 것과 같은 장점으로 인해 새로운 신약을 개발하는데 있어 각광받는 연구물질 중의 하나로서 시장의 비율이 점점 성장하고 있다.

이러한 펩타이드의 장점을 이용하여 M 세포를 표적하는 펩타이드를 선발해 이를 경구용 백신에 적용할 경우 기존의 단백질계 약물 및 백신이 가지고 있는 낮 은 운송효율을 개선할 수 있는 보다 효율적인 방법이 될 수 있다.

종래의 기술은 생체에 직접 펩타이드를 투여하여 M 세포를 표적하는 펩타이드를 찾아내는 방법에 주로 의존하기 때문에 시간적, 경제적 측면에서 상당히 소모적이라고 하는 단점이 있었다.

이러한 실험적인 방법의 단점을 보완하기 위한 방법으로서, 신약 또는 신물질 개발에 있어 구조와 활성간의 상관관계에 대한 정량적 모델을 만드는 것이 실험에 대한 비용을 줄이면서 활성을 미리 예측하는데 있어 매우 유용한 방법 중의 하나로 사용되었다. 그러나 현재까지 이러한 방법론을 적용하여 펩타이드의 M 세포 표적 여부를 미리 예측해 볼 수 있는 프로그램은 개발되어 있지 않다. 그러한 이유로 약물 전달 물질이나 신약 개발에 있어 약물의 효율성을 증대시킬 수 있는 활성 중의 하나인 펩타이드 서열의 M 세포 표적 여부를 예측할 수 있는 기술의 개발이 절실히 요구되고 있는 실정이다.

본 발명은 상기한 실정을 감안하여 발명한 것으로서, 수학적 모델을 이용하여 펩타이드 서열의 M 세포 표적 여부를 예측하는 시스템 및 방법과 그 프로그램을 저장한 기록매체를 제공하여 펩타이드 서열의 M 세포 표적 여부를 예측하고 검증하는 모델을 제시하는데 그 목적이 있다.

상기한 목적을 달성하기 위한 본 발명 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측 시스템은 프로그램 기록매체(11)와 CPU(12) 및 입출력부(13)로 이루어진 마이크로컴퓨터(10)와; 입력수단(12) 및; 출력수단(13)으로 이루어짐 을 특징으로 한다.

상기 프로그램 기록매체(11)는 사용자가 M 세포 표적 여부를 알고자 하는 펩타이드 서열을 입력하면 이를 아미노산 표현자로 변환하는 프로그램과, 훈련된 수학적 모델을 사용하여 M 세포 표적 여부를 예측하는 프로그램을 포함하고, 사용자가 실험기법으로 M 세포 표적 여부 활성값을 획득한 새로운 M 세포 표적 펩타이드 서열을 추가하면, 이를 원래의 M 세포 표적 펩타이드 집합에 추가한 다음 분류하는 프로그램과, 추가된 펩타이드에 표현자 값과 활성값을 부여하는 프로그램과, 훈련용 펩타이드 집합을 이용하여 수학적 모델로 훈련하는 프로그램과, 검증용 펩타이드 집합에 대해 M 세포 표적 여부를 예측할 수 있도록 하는 프로그램과, 훈련된 수학적 모델에 대해 검증하는 프로그램을 포함하는 것을 특징으로 한다.

또한 상기한 목적을 달성하기 위한 본 발명 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적을 예측하는 방법은 실험기법을 이용하여 M 세포를 표적하는 펩타이드 서열의 표본을 획득하는 단계와; 이들 서열을 근거로 M 세포를 표적하지 않는 펩타이드의 서열의 표본을 획득하는 단계와; 상기 획득한 표본 각각을 집합으로 저장한 후 이들을 일정한 비율이 되도록 임의로 추출하여 수학적 모델 훈련용 집합과 수학적 모델 검증용 집합으로 분류하는 단계와; 개별 펩타이드 서열에 표현자 값과 활성값을 부여하는 단계와; 훈련용 펩타이드 집합과 수학적 모델을 이용하여 훈련하는 단계와; 훈련된 수학적 모델을 이용하여 검증용 펩타이드 집합에 대해 M 세포 표적 여부를 예측하는 단계와; 훈련된 수학적 모델을 검증하는 단계로 이루어지는 것을 특징으로 한다.

상기 수학적 모델은 회귀분석법, 기계학습법, 유전자 알고리즘을 이용한 다중 회귀분석법, 유전자 알고리즘을 이용한 편최소제곱법, 주성분 분석을 활용한 편최소제곱법, 주성분 분석을 활용한 다중 회귀분석법을 포함하는 정량적 구조-특성 상관관계 방법인 것을 특징으로 하는 수학적 모델 방법이며, 상기 기계학습법은 신경망, 데이터마이닝, 의사결정트리, 귀납논리, 사례기반 추론, 패턴 인식, 강화 학습, 베이지안 망, 은닉마코프 모델, 확률 문법 방법이고, 특히 신경망 기법인 것을 특징으로 한다.

상기 표현자 값은 분자구조, 아미노산, 펩타이드를 정량적으로 나타낸 것으로, 바이너리 아미노산 표현자, VHSE 아미노산 표현자, Z3 아미노산 표현자, Z5 아미노산 표현자 중 적어도 어느 하나를 포함하는 것을 특징으로 한다.

상기 기계학습 모델을 구축하기 위해 수집되는 데이터는 in vivo , ex vivo , in vitro 실험 중 적어도 어느 하나로부터 얻은 데이터이고, 특히 파지 디스플레이 실험 기법을 이용한 in vivo , ex vivo , in vitro 실험 중 적어도 어느 하나로부터 얻은 데이터인 것을 특징으로 한다. 상기 펩타이드 서열은 2 ~ 12개의 펩타이드, 더 바람직하게는 3 ~ 7개의 펩타이드로 이루어진 서열이며, 본 발명 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법을 적용하는 종은 포유류이며, 특히 사람을 대상으로 한다.

또한 본 발명 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측 프로그램을 저장한 기록매체는 실험 기법을 이용하여 M 세포를 표적하는 펩타이드 서열의 표본을 획득하는 프로세스와; 이들 서열을 근거로 M 세포를 표적하지 않는 펩타 이드 서열의 표본을 획득하는 프로세스와; 상기 획득한 표본 각각을 집합으로 저장한 후 이들을 일정한 비율이 되도록 임의로 추출하여 수학적 모델 훈련용 집합과 수학적 모델 검증용 집합으로 분류하는 프로세스와; 개별 펩타이드 서열에 표현자 값과 활성값을 부여하는 프로세스와; 훈련용 펩타이드 집합과 수학적 모델을 이용하여 훈련하는 프로세스와; 훈련된 수학적 모델을 이용하여 검증용 펩타이드 집합에 대해 M 세포 표적 여부를 예측하는 프로세스와; 훈련된 수학적 모델을 검증하는 프로세스를 포함하는 것을 특징으로 한다.

상기 본 발명의 목적과 특징 및 장점은 첨부 도면 및 다음의 상세한 설명을 참조함으로써 더욱 쉽게 이해될 수 있을 것이다.

이하, 첨부도면을 참조하여 본 발명 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측 시스템 및 방법과 그 프로그램을 저장한 기록매체를 바람직한 실시예로서 상세하게 설명한다.

도 1은 본 발명에 따른 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측 시스템의 일실시예를 도시한 블록 구성도, 도 2는 본 발명 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법의 일실시예를 도시한 순서도로서, 도 2에 도시한 바와 같이 먼저 in vitro M 세포 모델과 파지디스플레이 실험 기법으로 M 세포 표적 펩타이드 서열의 표본(수)을 수집한다(S1단계). 여기서 펩타이드 서열의 길이는 하나의 펩타이드에 있는 아미노산의 수를 의미하며, 펩타이드 서열 길이 7은 아미노산이 7개로 이루어진 펩타이드를 나타낸다. 수집한 펩타이드 서열의 수 는 하기 표 1과 같다.

M 세포 표적 펩타이드 서열의 수

펩타이드 서열 길이	펩타이드 수(개)
펩타이드 서열 길이	M 세포 표적	M 세포 비표적	훈련용	검증용
3	1,225	1,225	1,930	520
4	980	980	1,568	392
5	735	735	1,174	296
6	490	490	782	198
7	245	245	396	94

또한 상기 S1단계에서 사용된 파지디스플레이 펩타이드 라이브러리는 'ph.D.-C7C^TM(New England BioLab.)'으로, 이는 M13 박테리오파지(bacteriophage)의 게놈(genome) 중에서 코트 단백질(coat protein)의 일종인 pⅢ를 생산하는 유전자 말단에 7개의 무작위 아미노산 서열(random amino acid sequence)의 펩타이드(peptide)가 발현되도록 인위적으로 유전자 서열을 삽입한 후, 대장균(E. coli)에 감염시켜 얻은 수억 종 이상의 서로 다른 펩타이드를 발현한 재조합 박테리오파지로 구성되어 있다. 한편, M13 파지에 도입되어 있는 7개의 무작위 아미노산 서열은 양쪽에 cysteine 잔기를 보유하도록 설계되어 펩타이드 발현시 자연적으로 이황화 결합(disulfide bond)을 형성함으로써 고리모양(loop shape)을 이루도록 하여 목적 단백질과 더욱 강한 결합을 유도할 수 있도록 되어 있다.

파지디스플레이 기법은 1.0 X 10¹¹ pfu의 파지 펩타이드 라이브러리(~1,000 copies of individual recombinant phage clone) 중 in vitro M 세포 모델을 대상으로 트랜스사이토시스 분석(transcytosis assay)을 실시하여 유의적으로 높은 트랜스사이토시스(transcytosis) 능력을 가진 펩타이드 서열을 선별하였다.

이와 더불어 임의의 아미노산을 선택하게 하는 프로그램을 이용하여 M 세포 표적 펩타이드 서열의 길이 7에 대한 7개의 아미노산을 뽑아낸 후 실험에서 획득한 M 세포 표적 펩타이드 집합과 비교하여 동일한 서열의 펩타이드가 없는 경우 M 세포 비표적 펩타이드 서열의 집합으로 분류한다(S2단계). 여기서 임의의 아미노산을 선택하게 하는 프로그램은 공지의 프로그램을 이용한다.

다음으로 기계학습 훈련을 위하여 펩타이드 서열의 집합을 분류한다(S3단계). 이 단계(S3단계)에는 M 세포 표적 펩타이드 서열 집합의 수가 M 세포 비표적 펩타이드 서열 집합의 수보다 양이 적기 때문에 두 집합간의 개체수를 동일하게 만드는 과정을 포함한다. 이 단계(S3단계)에서 펩타이드 서열 길이 7의 경우 M 세포 비표적 펩타이드를 표 1에서와 같이 245개 획득하였다.

이어 상기 M 세포 표적 펩타이드 집합에서 임의의 펩타이드 서열을 대략 80% 추출하고, M 세포 비표적 펩타이드 집합에서 임의의 펩타이드 서열을 대략 80% 추출한 다음 이 둘을 모아서 기계학습 훈련용 펩타이드 집합으로 분류한다(S4단계).

상기 S4단계와 마찬가지로 M 세포 표적 펩타이드 집합에서 대략 나머지 20%와 M 세포 비표적 펩타이드 집합에서의 나머지 20%를 모두 모아서 기계학습 검증용 펩타이드 집합으로 분류한다(S5단계).

그 결과 표 1에서와 같이 펩타이드 서열의 길이 7의 경우 기계학습 훈련용 펩타이드의 수는 396개, 기계학습 검증용 펩타이드의 수는 94개 이다.

다음에는 기계학습법을 이용하여 상기 S4단계에서 획득한 기계학습 훈련용 집합으로 M 세포 표적형 펩타이드 예측 모델을 훈련하고 획득하는 단계(S10단계)를 진행한다. 즉, M 세포 표적 펩타이드 집합이 입력되는 순서를 임의로 변경하는 단계로서, M 세포 표적 펩타이드 서열과 M 세포 비표적 펩타이드 서열이 동등한 비율로 번갈아 가면서 기계학습 훈련 과정에 입력값으로 들어갈 수 있도록 기계학습 훈련용 집합의 순서를 조정하여 기계학습 모델 훈련을 위한 입력값으로 입력한다(S11단계).

그 후에는 기계학습 훈련용 집합에 포함된 펩타이드 개별 서열을 아미노산 표현자 값으로 변환한다(S12단계). 여기서 아미노산 표현자 값은 바이너리 아미노산 표현자, VHSE 아미노산 표현자, Z3 아미노산 표현자, Z5 아미노산 표현자 중 적어도 어느 하나를 포함하여 사용하며, 아미노산에 대한 바이너리 아미노산 표현자는 하나의 아미노산에 대해서 19개의 "0"과 하나의 "1"로 구성된 20자리의 수로 표현하고, 20개의 아미노산 각각에 대해서는 "1"의 값이 위치하는 순서가 서로 다르도록 설정한다. 펩타이드 서열 길이 7의 경우 140개의 표현자로 구성되며, M 세포표적 활성값의 경우 M 세포 표적 펩타이드는 0.9로, M 세포 비표적 펩타이드는 0.1로 한다.

이와 같이 기계학습 훈련용 집합에 포함된 펩타이드 개별 서열을 표현자 값으로의 변환은 VHSE 아미노산 표현자를 사용하여서도 변환할 수 있으며, 이에 대해 정의된 값은 하기 표 2와 같다. VHSE 표현자는 하나의 아미노산에 대해서 8개의 표현자로 이루어져 있으며, 이들은 아미노산의 소수성(hydrophobicity), 전자기적(electronic), 입체적(steric) 특성을 나타내는 것으로 알려져 있으며, 펩타이드 서열길이 3의 경우 24개의 입력값으로 구성된다.

VHSE 아미노산 표현자

Amino Acids		VHSE 1	VHSE 2	VHSE 3	VHSE 4	VHSE 5	VHSE 6	VHSE 7	VHSE 8
Ala	A	0.15	-1.11	-1.35	-0.92	0.02	-0.91	0.36	-0.48
Arg	R	-1.47	1.45	1.24	1.27	1.55	1.47	1.30	0.83
Asn	N	-0.99	0.00	-0.37	0.69	-0.55	0.85	0.73	-0.80
Asp	D	-1.15	0.67	-0.41	-0.01	-2.68	1.31	0.03	0.56
Cys	C	0.18	-1.67	-0.46	-0.21	0.00	1.20	-1.61	-0.19
Gln	Q	-0.96	0.12	0.18	0.16	0.09	0.42	-0.20	-0.41
Glu	E	-1.18	0.40	0.10	0.36	-2.16	-0.17	0.91	0.02
Gly	G	-0.20	-1.53	-2.63	2.28	-0.53	-1.18	2.01	-1.34
His	H	-0.43	-0.25	0.37	0.19	0.51	1.28	0.93	0.65
Ile	I	1.27	-0.14	0.30	-1.80	0.30	-1.61	-0.16	-0.13
Leu	L	1.36	0.07	0.26	-0.80	0.22	-1.37	0.08	-0.62
Lys	K	-1.17	0.70	0.70	0.80	1.64	0.67	1.63	0.13
Met	M	1.01	-0.53	0.43	0.00	0.23	0.10	-0.86	-0.68
Phe	F	1.52	0.61	0.96	-0.16	0.25	0.28	-1.33	-0.20
Pro	P	0.22	-0.17	-0.50	0.05	-0.01	-1.34	-0.19	3.56
Ser	S	-0.67	-0.86	-1.07	-0.41	-0.32	0.27	-0.64	0.11
Thr	T	-0.34	-0.51	-0.55	-1.06	-0.06	-0.01	-0.79	0.39
Trp	W	1.50	2.06	1.79	0.75	0.75	-0.13	-1.01	-0.85
Tyr	Y	0.61	1.61	1.17	0.73	0.53	0.25	-0.96	-0.52
Val	V	0.76	-0.92	-0.17	-1.91	0.22	-1.40	-0.24	-0.03

계속하여 기계학습 훈련용 펩타이드 집합에 대한 M 세포 표적 여부의 실험값과 펩타이드 서열에 대한 표현자 값을 입력값으로 사용하여 기계학습 훈련을 실시한다(S13단계). 여기서 기계학습을 위한 방법으로는 신경망(Neural Network), 데이터마이닝(Data Mining), 의사결정 트리(Decision Tree), 사례기반 추론(Case Based Reasoning), 패턴 인식(Pattern Recognition), 강화 학습(Reinforcement Learning)을 사용하며, 예컨대 피드 포워드 신경망을 사용할 경우는 기계학습 훈련용 펩타이드 집합을 사용하여 피드 포워드 신경망 학습 훈련을 실시하는데 기계학습법을 위한 피드 포워드 신경망의 구조는 입력층, 은닉층, 출력층으로 구성되고, 입력층은 입력노드로 구성되어 있으며, 입력 노드의 수는 펩타이드 서열 길이의 수에 표현자값이 갖는 성분의 수를 곱하여 결정되며, 하나의 입력 노드는 하나의 표현자값 성분인 실수 또는 정수이다. 은닉층은 하나로서 0 ~ 3 개의 은닉노드로 구성되며, 출력층은 출력노드로 구성되며 출력노드의 수는 하나이다. 펩타이드 서열 길이 7에 대해 20자리 바이너리 아미노산 표현자를 사용하는 경우 피드 포워드 신경망의 구조는 140개의 입력노드로 구성되고, 각 노드의 입력값은 상기 S12단계에서 만들어진 140개의 표현자값 "0" 또는 "1"이다. 모든 펩타이드 서열 길이에 대한 피드 포워드 신경망의 구조는 은닉층을 사용하지 않고 바로 하나의 출력노드가 있는 출력층으로 구성할 수도 있다.

다음에는 상기 S13 단계의 적절한 기계학습 훈련을 통하여 펩타이드 서열의 M 세포 표적 여부를 예측할 수 있는 M 세포 표적형 펩타이드 예측 모델을 획득한다(S14단계).

이어 상기 S14단계에서 획득한 M 세포 표적형 펩타이드 예측 모델과 상기 S5단계에서 획득한 기계학습 검증용 집합을 이용하여 펩타이드의 M 세포 표적 여부에 대한 예측값을 획득하고 실험값과 비교하여 M 세포 표적형 펩타이드 예측 모델을 검증하고 평가한다(S20단계). 이 S20단계는 S21단계 ~ S24단계로 이루어지며, 즉, 먼저 기계학습 모델 검증을 위한 입력값을 준비한다(S21단계). 이 S21단계에서는 상기 S5단계에서 획득한 기계학습 검증용 집합을 그대로 사용한다.

계속하여 기계학습 검증용 집합에 포함된 펩타이드 개별 서열을 표현자 값으로 변환한다(S22단계). 이때 표현자는 상기 S14단계에서 획득한 M 세포 표적형 펩타이드 예측 모델이 S13단계의 훈련과정에서 사용한 표현자와 반드시 동일한 표현자를 사용한다.

이어 기계학습 검증용 펩타이드 집합으로 펩타이드 서열에 대한 아미노산 표현자 값을 입력값으로 사용하고, M 세포 표적 여부를 예측하기 위하여 상기 S14단계에서 획득한 M 세포 표적형 펩타이드 예측 모델을 획득한다(S23단계).

그 후 기계학습 검증용 집합을 이용하여 M 세포 표적 여부에 대한 예측값을 획득하고 이를 이용하여 상기 S23단계에서 획득한 M 세포 표적형 펩타이드 예측 모델을 검증하고 그 결과를 하기 표 3에 나타냈다(S24단계).

상기 S22단계에서 표현자를 20자리 바이너리 아미노산 표현자로 사용하여 기계학습 모델을 훈련하여 상기 S24단계를 실행하고 그 결과를 하기 표 3에 나타냈다. 피드 포워드 신경망의 입력값 순서를 임의로 변경하여 검증을 3번 실시한 결과 펩타이드 길이 3에 대한 반응자 작용 특성 점수가 훈련용 집합이 0.8678 ±0.0062, 검증용 집합이 0.8609 ±0.0122이 되었다.

M 세포 표적 예측 모델의 검증결과

펩타이드 서열 길이	반응자 작용특성 점수(ROC score)
펩타이드 서열 길이	훈련용(80%)	검증용(20%)
3	0.8678 ±0.0062	0.8609 ±0.0122
4	0.7644 ±0.0025	0.7020 ±0.0155
5	0.7984 ±0.0110	0.7544 ±0.0172
6	0.8571 ±0.0048	0.7248 ±0.0132
7	0.9314 ±0,0101	0.6871 ±0.0064

상기 S22단계에서 표현자를 VHSE 아미노산 표현자로 사용하여 기계학습 모델을 훈련하여 상기 S24단계를 실행하고 그 결과를 하기 표 4에 나타냈다. 피드 포워드신경망의 입력값 순서를 임의로 변경하여 검증을 3번 실시한 결과 펩타이드 길이 3에 대한 반응자 작용 특성 점수가 훈련용 집합이 0.8177 ±0.0079, 검증용 집합이 0.7974 ±0.0187로 되었다.

M 세포 표적 예측 모델의 검증결과

펩타이드 서열 길이	반응자 작용특성 점수(ROC score)
펩타이드 서열 길이	훈련용(80%)	검증용(20%)
3	0.8177 ±0.0079	0.7974 ±0.0187
4	0.7309 ±0.0154	0.7064 ±0.0083
5	0.8067 ±0.0027	0.7449 ±0.0193
6	0.8067 ±0.0027	0.7433 ±0.0205
7	0.8536 ±0,0057	0.6710 ±0.0464

이와 같은 실시예를 통하여 펩타이드 서열에 대해 입력층, 은닉층, 출력층으로 구성된 피드 포워드 인공 신경망 모델이 실제 M 세포 표적 펩타이드와 M 세포 비표적 펩타이드를 구별하였음을 알 수 있다.

도 3은 본 발명 기계학습법을 이용한 새로운 펩타이드 서열의 M 세포 표적 예측방법의 일실시예를 도시한 순서도로서, 먼저 입력수단(20)을 통해 M 세포 표적을 알고자 하는 펩타이드 서열을 입력하여 프로그램 기록매체(11)에 저장한다(S101단계).

다음에 입력된 펩타이드 개별 서열을 도 2의 과정을 통하여 훈련된 예측 모델(S23단계)에서 요구하는 표현자 값으로 변환한다(S102단계).

그 후 훈련된 예측 모델(S23단계)로 구성된 M 세포 표적 예측 모델에 적용한다(S103단계).

M 세포 표적 여부를 알고자 사용자가 입력한 새로운 펩타이드 서열의 M 세포 표적 여부를 출력한다(S104단계).

도 4는 본 발명에 따른 M 세포 표적 예측 모델을 재훈련하는 방법을 나타낸 순서도로서, 우선 M 세포 표적 여부 활성값을 실험기법으로 획득한 새로운 특정 M 세포 표적 펩타이드 서열 및 M 세포 비표적 펩타이드 서열을 입력수단(20)을 통해 프로그램 기록매체(11)에 저장한다(S201단계).

이어 상기한 도 2의 S3단계 ~ S5단계 및 S10단계, S20단계를 수행하여 기계학습 모델을 훈련한 다음 이를 검증하고 기존의 기계학습 모델과의 비교값을 자동화 하여 실행한다(S210단계). 먼저 새로이 입력된 펩타이드 서열이 이미 지정되어 있는 서열과 동일한 것인지를 판명한 후 이들 서열을 활성값에 따라 M 세포 표적 펩타이드 집합과 M 세포 비표적 펩타이드 집합에 추가하여 저장한다(S211단계).

다음에 기존에 저장되어 있는 펩타이드 서열에 새로이 입력된 펩타이드 서열을 추가하여 상기한 도 2의 S3단계의 기계학습 훈련을 위하여 펩타이드 서열 집합을 분류하고, S4단계의 기계학습 훈련용 펩타이드 집합을 획득하며, S5단계의 기계학습 검증용 펩타이드 집합을 획득하고, S10단계의 기계학습법을 이용하여 M 세포 표적형 펩타이드 예측 모델을 훈련하여 획득하며, S20단계의 기계학습법을 이용하여 M 세포 표적형 펩타이드 예측 모델을 검증한다(S212단계).

그 후 기존에 저장되어 있는 M 세포 표적형 펩타이드 예측 모델의 반응자 작용특성 점수와 상기 S212단계에서 획득한 M 세포 표적형 펩타이드 예측 모델의 반응자 작용특성 점수를 비교한다(S213단계).

이어 상기 S213단계에서 계산된 반응자 작용특성 점수를 사용자에게 출력하며 이를 근거로 사용자가 새로이 훈련된 M 세포 표적형 펩타이드 예측 모델을 저장한다(S202단계).

이와 같이 함으로써 사용자가 실험을 통해 새로 획득한 M 세포 표적 펩타이드 서열을 이용하여 수학적 모델 기반의 예측 모델을 재훈련하고 검증할 수 있다.

지금까지 바람직한 실시예로서 본 발명을 설명하였지만 본 발명은 이에 한정되지 않고 발명의 요지를 이탈하지 않는 범위 내에서 다양하게 변형하여 실시할 수 있음은 물론이다.

상기한 바와 같이 본 발명에 의하면, 경구용 백신으로 이용하고자 하는 기존의 단백질계 약물 및 백신이 가지고 있는 낮은 운송효율을 개선하기 위한 M 세포 표적 물질로서의 펩타이드 서열에 대한 M 세포 표적 여부를 항상 실험으로 확인하지 않고 프로그램을 저장한 기록매체를 이용하여 미리 예측함으로써 실험으로 소요되는 비용과 시간을 절감할 수 있는 각별한 장점이 있다.

Claims

프로그램 기록매체(11)와 CPU(12) 및 입출력부(13)로 이루어진 마이크로컴퓨터(10)와; 입력수단(12) 및; 출력수단(13)으로 이루어짐을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측 시스템.
제 1항에 있어서, 상기 프로그램 기록매체(11)가 사용자가 M 세포 표적 여부를 알고자 하는 펩타이드 서열을 입력하면 이를 아미노산 표현자로 변환하는 프로그램과, 훈련된 수학적 모델을 사용하여 M 세포 표적 여부를 예측하는 프로그램을 포함하고, 사용자가 실험기법으로 M 세포 표적 여부 활성값을 획득한 새로운 M 세포 표적 펩타이드 서열을 추가하면, 이를 원래의 M 세포 표적 펩타이드 집합에 추가한 다음 분류하는 프로그램과, 추가된 펩타이드에 표현자 값과 활성값을 부여하는 프로그램과, 훈련용 펩타이드 집합을 이용하여 수학적 모델로 훈련하는 프로그램과, 검증용 펩타이드 집합에 대해 M 세포 표적 여부를 예측할 수 있도록 하는 프로그램과, 훈련된 수학적 모델에 대해 검증하는 프로그램을 포함하는 것을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측 시스템.
실험기법을 이용하여 M 세포를 표적하는 펩타이드 서열의 표본을 획득하는 단계와; 이들 서열을 근거로 M 세포를 표적하지 않는 펩타이드의 서열의 표본을 획득하는 단계와; 상기 획득한 표본 각각을 집합으로 저장한 후 이들을 일정한 비율 이 되도록 임의로 추출하여 수학적 모델 훈련용 집합과 수학적 모델 검증용 집합으로 분류하는 단계와; 개별 펩타이드 서열에 표현자 값과 활성값을 부여하는 단계와; 훈련용 펩타이드 집합과 수학적 모델을 이용하여 훈련하는 단계와; 훈련된 수학적 모델을 이용하여 검증용 펩타이드 집합에 대해 M 세포 표적 여부를 예측하는 단계와; 훈련된 수학적 모델을 검증하는 단계로 이루어지는 것을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법.
제 3항에 있어서, 상기 수학적 모델은 회귀분석법, 기계학습법, 유전자 알고리즘을 이용한 다중 회귀분석법, 유전자 알고리즘을 이용한 편최소제곱법, 주성분 분석을 활용한 편최소제곱법, 주성분 분석을 활용한 다중 회귀분석법을 포함하는 정량적 구조-특성 상관관계 방법인 것을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법.
제 4항에 있어서, 상기 기계학습법은 신경망, 데이터마이닝, 의사결정트리, 귀납논리, 사례기반 추론, 패턴 인식, 강화학습, 베이지안 망, 은닉마코프 모델, 확률 문법 방법인 것을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법.
제 4항에 있어서, 상기 기계학습법은 신경망 기법인 것을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법.
제 3항에 있어서, 상기 표현자 값이 분자구조, 아미노산, 펩타이드를 정량적으로 나타낸 것임을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포표적 예측방법.
제 7항에 있어서, 상기 표현자 값이 바이너리 아미노산 표현자, VHSE 아미노산 표현자, Z3 아미노산 표현자, Z5 아미노산 표현자 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법.
제 3항에 있어서, 상기 수학적 모델을 구축하기 위해 수집되는 데이터가 in vivo, ex vivo , in vitro 실험 중 적어도 어느 하나로부터 얻은 데이터인 것을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법.
제 3항에 있어서, 상기 수학적 모델을 구축하기 위해 수집되는 데이터가 파지 디스플레이 실험 기법을 이용한 in vivo , ex vivo , in vitro 실험 중 적어도 어느 하나로부터 얻은 데이터인 것을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법.
제 3항에 있어서, 상기 펩타이드 서열이 2 ~ 12개의 펩타이드로 이루어진 서 열인 것을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법.
제 3항에 있어서, 상기 펩타이드 서열이 3 ~ 7개의 펩타이드로 이루어진 서

열인 것을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법.
펩타이드 서열의 M 세포 표적 예측방법을 적용하는 종이 포유류인 것을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법.
펩타이드 서열의 M 세포 표적 예측방법을 적용하는 종이 사람인 것을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측방법.
실험 기법을 이용하여 M 세포를 표적하는 펩타이드 서열의 표본을 획득하는 프로세스와; 이들 서열을 근거로 M 세포를 표적하지 않는 펩타이드 서열의 표본을 획득하는 프로세스와; 상기 획득한 표본 각각을 집합으로 저장한 후 이들을 일정한 비율이 되도록 임의로 추출하여 수학적 모델 훈련용 집합과 수학적 모델 검증용 집합으로 분류하는 프로세스와; 개별 펩타이드 서열에 표현자 값과 활성값을 부여하는 프로세스와; 훈련용 펩타이드 집합과 수학적 모델을 이용하여 훈련하는 프로세스와; 훈련된 수학적 모델을 이용하여 검증용 펩타이드 집합에 대해 M 세포 표적 여부를 예측하는 프로세스와; 훈련된 수학적 모델을 검증하는 프로세스를 포함하는 것을 특징으로 하는 수학적 모델을 이용한 펩타이드 서열의 M 세포 표적 예측 프로그램을 저장한 기록매체.