KR20070020215A

KR20070020215A - 치료학적 잠재성을 가진 어드헤신과 어드헤신계 단백질을동정하기 위한 연산 처리 방법

Info

Publication number: KR20070020215A
Application number: KR1020067018206A
Authority: KR
Inventors: 가우라브 사크데바; 카우살 쿠마르; 프레티 제인; 사미르 쿠마르 브라마차리; 스리니바산 라마찬드란
Original assignee: 카운슬 오브 사이언티픽 앤드 인더스트리얼 리서치
Priority date: 2004-02-06
Filing date: 2005-02-07
Publication date: 2007-02-20
Also published as: EP1721283B1; WO2005076010A3; IL177308A0; EP1721283A2; JP2007520718A; US7424370B2; US20050288866A1; KR101178776B1; WO2005076010A2

Abstract

본 발명은 신경 회로망 소프트웨어의 서열을 기초로한 특성들, (i) 아미노산 빈도, (ii) 다중체 빈도, (iii) 디펩티드 빈도, (iv) 전하 구성 및 (v) 소수성 구성을 연산처리하는 단계, 처리한 5가지의 특정 각각에 대한 인공 신경 회로망(ANN)를 훈련하는 단계, 및 어드헤신 및 어드헤신일 가능성(P_ad)이 >0.51인 어드헤신계 단백질을 동정하는 방법을 포함하는, 어드헤신(adhesin)과 어드헤신계 단백질을 동정하기 위한 연산 방법, 상기 방법을 수행하기 위한 컴퓨터 시스템, 및 어드헤신과 어드헤신계 단백질을 코딩하는 유전자 및 단백질에 관한 것이다.

인공 신경 회로망, 단백질 동정

Description

치료학적 잠재성을 가진 어드헤신과 어드헤신계 단백질을 동정하기 위한 연산 처리 방법{COMPUTATIONAL METHOD FOR IDENTIFYING ADHESIN AND ADHESIN-LIKE PROTEINS OF THERAPEUTIC POTENTIAL}

본 발명은 어드헤신 및 어드헤신계 단백질의 동정 방법, 상기 방법을 수행하기 위한 컴퓨터 시스템, 및 어드헤신과 어드헤신계 단백질을 코딩하는 유전자 및 단백질에 관한 것이다.

게놈 서열분석 프로젝트로 다양한 유기체로부터 흥미로운 다수의 단백질 서열이 밝혀졌다. 인간 감염성 병원균에서 유래된 단백질의 완전한 세트에 대한 정보를 이용할 수 있다면 이를 제거하기 위한 새로운 분자적 접근법을 개발할 수 있을 것이다. 미생물 병원균에 의한 성공적인 집락화(colonization)와 이후의 질병 전파에 필수적인 단계는 숙주 세포에 부착하는 능력이다.

미생물 병원균은 성공적인 집락화를 위해 어드헤신(adhesin)이라고 알려진 숙주세포의 표면 수용체, 막 또는 세포외 기질에 대한 부착성을 매개하는 여러가지 단백질을 코딩하고 있다. 과거 수년간 숙주-병원체간의 일차 상호작용 형성에 대한 연구를 통해, 다양한 병원성 미생물에서 광범위한 다수의 어드헤신이 밝혀졌다. 최근에는, 어드헤신의 생합성에 대한 실질적인 정보를 이용할 수 있으며, 어드헤신 인자를 조절할 수 있다. 가장 잘 연구된 세균의 부착 기작들중 한가지는 필리(pili)나 핌브리어(fimbriae) 매개 부착이다. 또한, 수종의 어핌브리어 어드헤신(afimbrial adhesin)이 보고되었다. 또한, 표적 숙주의 수용체에 대해 한정적인 정보가 알려지고 있다(Finlay, B. B. and Falkow, S 1997).

새로운 백신의 개발 방법은 집락화 과정을 방지하기 위하여 어드헤신에 집중되고 있다(Wizemann, et al 1999). 그러나, 특정 어드헤신의 특이적인 기능을 밝히긴 어렵다. 따라서, 어드헤신이나 어드헤신계 단백질을 예측하고, 그것의 기능을 특정화함으로써, 숙주와 병원체간의 상호작용에 대한 분자적 기작을 해독하고, 뿐만 아니라 적합한 실험 모델 시스템에서 테스트 가능한 새로운 백신 제형의 개발을 도울 수 있을 것이다.

가장 연구가 잘된 세균의 부착성에 대한 기작들중 한가지는 필리나 또는 핌브리어에 의한 부착이다. 예를 들면, 대장균(E. coli)의 FimH 및 PapG 어드헤신이 있다(Maurer, L., Orndorff, P. (1987), Bock, K., et al. (1985)). 필리 그룹의 어드헤신의 다른 예로는, 슈도모나스 에어루지노사(Pseudomonas aertigitiosa), 네이세리아 종(Neisseria species), 모락셀라 종(Moraxella species), 장관병원성 대장균(E. coli) 및 비브리오 콜레아(Vibrio cholerae)의 타입 IV 필리가 있다(Sperandio V et al (1996)).

여러가지 어핌프리얼 어드헤신으로는, 헤모필러스 인플루엔자(Haemophilus influenzae)의 HMW 단백질(van Schilfgaarde 2000), 보르데텔라 퍼튜시스(Bordetella pertussis)의 필라멘트형의 헤마글루틴, 퍼탁 틴(pertactin)(Bassinet et al 2000), 헬리코박터 필로리의 BabA(Yu J et al 2002) 및 예르시니아 엔테로콜리티카(Yersinia enterocolitica)의 YadA 어드헤신(Neubauer et al 2000)이 있다. 다른 어드헤신의 타입으로는, 장관병원성 E. coli (EPEC)의 인티민 수용체 단백질(intimin receptor protein, Tir)이 있다(Ide T et al 2003). 그외 어드헤신 클래스로는, 클렙셀라 뉴모니아(Kleibsella pneumoniae)의 MrkD 단백질, 헤모필러스 인플루엔자의 Hia(St Geme et al 2000), 스트렙토코커스 뮤탄스(Streptococcus mutans)의 Ag I/II, 스트렙토코커스 고르도니(Streptococcus gordonii)의 SspA, SspB(Egland et al 2001), 스타필로코커스 아우레우스(Staplzylococcus aureus)의 FnbA, FnbB, 스트렙토코커스 피오게네스(Streptococcus pyogenes)의 SfbI, 단백질 F, 스트렙토코커스 뉴모니아의 PsaA(De et al 2003)가 있다.

백신으로 승인받은 어드헤신의 공지된 예로는, FHA 및 퍼탁틴을 포함하는 백일해의 원인균인 보르데텔라 퍼튜시스에 대한 무세포성 백일해 백신이 있다(Halperin, S et al 2003). FimH의 예방접종을 통한 병원성 대장균(E. coli)에 대한 방어 면역성은 평가중에 있으며(Langermann S et al 2000), 스트렙토코커스 뉴모니아의 PasA는 폐구균성 질환에 대해 가능성 있는 백신 후보물질로 평가받고 있다(Rapola, S et al 2003). BabA 어드헤신에 의한 면역화로, 헬리코박터 필로리에 대한 백신 개발 가능성이 입증된 상태이다(Prinz, C et al 2003). 합성 펩티드 서열인 항-어드헤신 백신 역시 슈도모나스 에어루지노사(Pseudomonas aeruginosa) 감염증에 대한 예방성에 대해 평가중에 있다.

통상적인 실험 방법으로 어드헤신과 어드헤신계 단백질을 스크리닝하는 작업은 어렵고, 많은 시간이 소요되고, 비용도 많이 드는 작업이다. 이의 대안으로서, 상동성 검색으로 용이하게 어드헤신을 동정할 수 있다. 그러나, 이러한 방법은 게놈 구성(Wolf et al 2001)과 대사 경로의 분석(Peregrin-Alvarez et al 2003, Rison et al 2002)에 유용한 것으로, 상동체가 기능적으로 특정화되지 않았거나, 서열 다양성이 높은 경우에는, 기능을 예측하기에는 다소 제한적이다. 이러한 방법을 토대로 단백질의 기능적 역할을 지정하는 것은, 예측한 단백질의 서열들의 약 60%에만 해당되었다(Fraser et al 2000). 따라서, 본 발명자들은 광범위한 계통 발생적 스펙트럼에 속하는 종들에서 어드헤신과 어드헤신계 단백질을 동정하기 위해, 인공 신경 회로망의 저력과 결부시킨 서열의 구성적 특징을 토대로한 비상동적 방법의 개발 가능성을 조사하였다.

20년 전에, 니시카와 등은 구성적 분석을 기초로 단백질을 여러가지 그룹으로 분류하고자 하는 초기 시도를 일부 수행한 바 있다(Nishikawa et al 1983). 기존의 정렬 방식으로 유의성 있는 유사 서열을 동정하는 실패하여, 최근들어, 단백질 서열을 분석하기 위한 목적으로 소프트웨어 프로프서치(PropSearch)가 개발되었다(Hobohm, U. and Sander, C 1995). 프로프서치는 새로운 서열과 데이타베이스의 서열간의 기능적 관련성이나 구조적 관련 가능성을 검출하기 위하여, 단백질 서열의 144가지의 구성적 특징들을 이용한다. 근래, 단백질의 구성적 특성들을 이용하여 세균에서의 분비 단백질을 예측하고, 인공 신경 회로망에서 훈련하여 플라스모듐 팔시파룸(Plasmodium falciparum)에서 에피코플라스트(apicoplast)으로 표적화 된 단백질을 추정하기 위한 소프트웨어를 개발해 오고 있다(Zuegge et al 2001).

Zuegge 등은 20가지의 아미노산의 구성적 특징을 이용하였다. 이들의 목적은 플라스모듐 팔시파룸에서 에피코플라스트로 표적화된 단백질의 특징들을 밝히는 것이다. 이러한 방법은 숙주-병원체간의 상호작용에 참여하는 어드헤신과 어드헤신계 단백질에 촛점을 맞춘 소프트웨어 SPAAN과는 대비된다.

Hobohm과 Sander는 아미노산의 등전위점 및 디펩티드 구성을 포함한 144가지의 구성적 특징들을 사용하여, BLAST와 FASTA와 같은 방법을 기초로한 다른 서열 정렬에 의한 분석법으로는 다루기 어려운 단백질의 추정의 기능적 역할을 가정하였다. Hobohm과 Sander는 SPAAN에서 다룬 어드헤신과 어드헤신계 단백질에 대해선 특별히 논의하지 않았다. 니시카와 등은 최초로 단백질들을 여러가지 기능 그룹으로 분류하고자 시도하였다. 이는 호기심에서 시작된 시도였지만 궁극적으로 세포외 단백질을 세포내 단백질과 구별하기 위한 소프트웨어 개발로 이어졌다. 이러한 작업 역시 SPAAN에서 다룬 어드헤신과 어드헤신계 단백질에 대해선 다루지 않았다.

따라서, 전술한 어느 연구 그룹들도 본 발명의 방법을 생각하지 못하였다. 본 발명의 방법은 새로운 단백질과 이의 유전자 서열을 제공한다.

어드헤신과 어드헤신계 단백질은 숙주-병원체간의 상호작용을 매개한다. 이는 미생물 병원체에 의한 숙주내 집락화에 첫 단계이다. 세계적으로 병원체에서 유래된 어드헤신 단백질을 포함하는 백신 제형의 제작에 집중적으로 시도하고 있다. 면역화가 이루어지면, 숙주는 병원체의 어드헤신에 대한 면역 시스템을 가지게 된다. 병원체와 실제 마주치게 되면, 감시 메카니즘이 이 어드헤신을 인지하고 항원-항체 결합으로 결합한 다음 보체 매개의 일련의 반응과 그외 관련 소거 메카니즘을 통해 병원체를 중화시킨다. 이러한 전략은 백일해에서 성공적으로 적용되고 있으며, 폐렴, 위궤양 및 요도관 감염증의 사례들에서 활발히 수행되고 있다.

발명의 목적

본 발명은 치료학적으로 잠재성을 지닌 어드헤신과 어드헤신계 단백질을 동정하기 위한 연산 방법을 제공하는 것을 목적으로 한다.

또한, 본 발명은 여러가지 병원체에서 독특한 구성적 특징을 가진 단백질을 추정의 어드헤신으로서 스크리닝하는 방법을 제공하는 것을 목적으로 한다.

또한, 본 발명은 예방학적 치료제로서 유용한 추정의 어드헤신 단백질을 코딩하는 유전자의 서열 용도를 제공하는 것을 목적으로 한다.

발명의 개요

본 발명은 소프트웨어 SPAAN의 5가지의 속성 모듈(attribute module), 즉 (i) 아미노산 빈도(amino acid frequency), (ii) 다중체 빈도(multiplet frequency), (iii) 디펩티드 빈도(dipeptide frequency), (iv) 전하 구성(charge composition) 및 (v) 소수성 구성(hydrophobic composition)을 이용하여 단백질의 서열을 토대로 특징들을 연산처리하는 단계, 처리한 5가지의 속성 각각에 대한 인공 신경 회로망을 훈련(training)하는 단계, 및 어드헤신과, 어드헤신일 확률(P_ad)이 >0.51인 어드헤신계 단백질을 동정하는 단계를 포함하는 어드헤신 및 어드헤신계 단백질을 동정하기 위한 연산 방법, 상기 방법을 수행하기 위한 컴퓨터 시스템, 및 어드헤신과 어드헤신계 단백질을 코딩하는 유전자 및 단백질에 관한 것이다.

본 발명의 일예에서, 어드헤신 및 어드헤신계 단백질을 동정하기 위한 연산 방법은,

a. 신경 회로망 소프트웨어의 5가지 속성 모듈을 이용하여 단백질 서열의 서열 속성을 연산처리하는 단계로, 상기 속성은 소프트웨어의 (i) 아미노산 빈도, (ii) 다중체 빈도, (iii) 디펩티드 빈도, (iv) 전하 구성 및 (v) 소수성 구성인 단계,

b. 연산처리한 5가지 속성들 각각에 대해 인공 신경 회로망을 훈련하는 단계; 및

c. 어드헤신과, 어드헤신일 확률값(P_ad)이 >0.51인 어드헤신계 단백질을 동정하는 단계를 포함한다.

본 발명에 따른 방법의 일예로, 단백질 서열은 병원체, 진핵생물 및 다세포성 유기체로부터 수득된다.

본 발명에 따른 방법의 일예로, 상기 단백질 서열은 대장균(E. coli ), 헤모필러스 인플루엔자(Haemophilus influenzae), 헬리코박터 필로리(Helicobacter pylori), 미코플라스마 뉴모니아(Mycoplasma pneumoniae), 미코박테리움 투베르쿨로시스(Mycobacterium tuberculosis), 리켓차 프로와제키(Rickettsiae prowazekii), 포르피로모나스 진저발리스(Porphyromonas gingivalis), 쉬겔라 플렉스네리(Shigella flexneri), 스트렙토코커스 뮤탄스(Streptococcus mutans), 스트렙토코커스 뉴모니아(Streptococcus pneumoniae), 네이세리아 메닌지티디스(Neisseria meningitides), 스트렙토코커스 피오게네스(Streptococcus pyogenes), 트레포네마 팔리듐(Treponema pallidum) 및 중증 급성 호흡기 증후군의 인간 코로나바이러스(Severe Acute Respiratory Syndrome associated human coronavirus, SARS)로 이루어진 군으로부터 선택된 병원체로부터 수득된다.

본 발명의 일예로, 상기 방법은 비-상동성 방법이다.

본 발명의 다른 예로, 상기 방법은 서열의 105가지 구성적 특징을 이용한 방법이다.

본 발명의 다른 예로, 상기 방법은 90% 이상의 민감성을 나타낸다.

본 발명의 다른 예로, 상기 방법은 100%의 특이성을 나타낸다.

본 발명의 다른 예로, 본 발명은 각각의 관련 유기체로부터 어드헤신을 동정하는 방법에 관한 것이다.

본 발명의 다른 예로, 본 발명은 입력층(input layer), 하나의 은닉층(hidden layer)과 출력층(output layer)을 포함하는, 다층의 순방향 토폴로지(multi-layer feed forward topology)를 가지는 신경 회로망에 관한 것이다.

본 발명의 다른 예로, 입력 층의 신경의 수는 각 속성에 대한 데이타 입력 점(point)의 수와 동일하다.

본 발명의 다른 예로 "P_ad"는 5가지의 연산처리된 속성들에 대한 확률값들의 선형 가중 합(weighted linear sum)이다.

본 발명의 다른 예로, 각 연산처리한 회로망은 단백질 서열이 어드헤신일 확률값을 할당(assign)한다.

본 발명의 다른 예로, 본 발명에 따른 방법을 수행하기 위한 컴퓨터 시스템은 CPU(central processing unit), 디스플레이 및 사용자 인터페이스 장치(user interface device)를 포함하며, 상기 CPU는 인공 신경 회로망을 이용하여 여러가지 속성들을 기초로 확률을 제공하는 SPAAN 프로그램과, 상기 CPU에 의해 액세스(access)되는 기억 장치에 저장된 속성을 평가하는 프로그램을 실행하며, 상기 디스플레이 상에는, 사용자의 입력에 따라 상기 CPU가 실행하는 상기 프로그램들의 스크린이 표시되는 것을 특징으로 한다.

본 발명의 다른 예로, 본 발명은 서열번호 385 내지 658의 어드헤신 및 어드헤신계 단백질을 코딩하는 274개의 유전자의 세트에 관한 것이다.

본 발명의 다른 예로, 본 발명은 서열번호 659 내지 763의 어드헤신 및 어드헤신계 단백질을 코딩하는 가정의 105개의 유전자의 세트에 관한 것이다.

본 발명의 다른 예로, 본 발명은 서열번호 1 내지 279의 어드헤신 및 어드헤신계 단백질을 코딩하는 279개의 유전자의 세트에 관한 것이다.

본 발명의 다른 예로, 본 발명은 서열번호 280 내지 384의 어드헤신 및 어드헤신계 단백질을 코딩하는 가정의 105개의 유전자의 세트에 관한 것이다.

본 발명의 다른 예로, 본 발명은 또한 입력층, 은닉층 및 출력층이 이러한 기재 순서대로 연결되어 있는 연산처리 방법을 기초로하는 완전히 연결된 다층 순방향 인공 신경 회로망에 관한 것으로, 각 신경은 이진수(binary digit number)이며 어드헤신이나 어드헤신계 단백질을 동정하기 위해 후속 층의 각 신경과 연결되어 있으며, 그 프로그램은 a) FASTA 형식으로 단백질 서열을 입력하는 단계, b) 단백질 서열의 5가지 구성적 속성을 정량화하여 수치 입력 벡터(numerical input vector)의 합이 105인 속성들 각각에 대한 각각의 수치 입력 벡터를 구하기 위한 다중항(multiplet)에서, 상기 단계 a)의 서열을 A, C, D, H 및 M으로 명명한 5가지 모듈로 처리하는 단계로, 속성 A는 아미노산 조성이며, 속성 C는 전하 구성이며, 속성 D는 20개의 디펩티드(NG, RE, TN, NT, GT, TT, DE, ER, RR, RK, RI, AT, TS, IV, SG, GS, TG, GN, VI 및 HR)의 디펩티드 조성이며, 속성 H는 소수성 구성이며, 속성 M은 아미노산 빈도인 , 처리 단계, c) 시그널을 얻기 위해, 입력 신경 층에서 단계 b)에서 구한 수치 입력 벡터를 처리하는 단계로, 신경의 수는 각 속성에 대한 수치 입력 벡터의 수와 동일한, 처리 단계, d) 시냅스 가중 신호(synaptic weighted signal)을 구하기 위해 은닉층에서 단계 c)로부터 수득한 신호를 처리하는 단계로, 은닉층의 최적 신경의 수는 각 개별적인 회로망의 최적기에서 에러를 최소화하기 위한 실험을 통해 결정되는, 처리 단계, e) 각 회로망 모듈에 의해 단계 a)에서 입력한 각 단백질 서열이 어드헤신일 확률 값을 할당하기 위하여, 단계 d)의 시냅스 가중 신호를 출력층에 전달하는, 단계; f) 단백질 서열이 P_ad 값으로 표시되는 어드헤신일 최종 확률을 연산하기 위해, 단계 e)의 개별적인 확률을 이용하는 단계로, P_ad 값은 단계 e)에서의 개별적인 확률들의 가중 평균이고 예측 강도의 측정치인 관련 상관 비율(associated fraction of correlation)인, 단계를 포함한다.

본 발명의 다른 예로, 입력 신경 층은 105개의 구성적 특성에 해당되는 총 105개의 신경을 포함한다.

본 발명의 다른 예로, 은닉층은 아미노산 빈도에 대해 30개, 다중체 빈도에 대해 28개, 디펩티드 빈도에 대해 28개, 전하 구성에 대해 30개 및 소수성 구성에 대해 30개로 표시된 신경을 포함한다.

본 발명의 다른 예로, 출력층은 각 단백질 서열에 대한 확률 값으로서 출력값을 전달하기 위한 신경들을 포함한다.

신규한 어드헤신의 동정과 이들의 특정화는 숙주와 병원체간의 상호작용을 연구하고 새로운 백신 제형을 테스트하는데 중요하다. 본 발명자들은 단백질 서열의 105가지의 구성적 특징들을 이용하여 어드헤신 단백질을 동정할 수 있는 알고리즘 SPAAN(Software for Prediction of Adhesin and Adhesin-like proteins using Neural Networks)을 개발하기 위해 인공 신경 회로망을 사용하였다. SPAAN은 수종의 세균 종들과 균주들에서 매우 잘 특정화된 어드헤신을 정확하게 추정할 수 있었다. SPAAN은 훈련한 세트에 단백질을 포함하지 않는 테스트 데이타 세트에서 89%의 민감성과 100%의 특이성을 보였다. 상기 소프트웨어로 동정한 추정의 어드헤신은 잠재성있는 예방제로서 제공할 수 있다.

본 발명은 치료적 잠재력을 지닌 어드헤신과 어드헤신계 단백질을 동정하기 위한 새로운 연산처리 방법을 제공한다. 보다 상세하게는, 본 발명은 이러한 어드헤신에 대한 후보 유전자에 관한 것이다. 또한 본 발명은 예방적인 측면과 이들의 기능적 관련성에서의 후보 유전자와 이의 단백질 개발을 선도한다. 이러한 연산처리 방법에는 여러가지 서열 속성들의 계산과, 이후 여러가지 병원체에서 어드헤신 단백질 동정을 유도하는 분석을 수반한다. 따라서, 본 발명은 병원성 유기체에서 어드헤신 단백질의 동정에 유용하다. 여러가지 게놈으로부터 유래된 어드헤신 단백질은 표적화된 유전자 파괴, 마이크로어레이 및 프로테오믹스(proteomics)를 통한 기능적 특정화를 위한 후보물질을 구성한다. 또한, 이러한 단백질들은 예방제 개발에 있어서 추가적인 테스트를 위한 후보물질 세트를 구성한다. 또한, 어드헤신 후보 단백질을 코딩하는 유전자를 제공한다.

본 발명에 따른 방법은 이용한 원리 측면에서 신규하며, 힘들고 시간이 많이 소요되는 기존 방법에 비해 새로운 어드헤신을 동정하기 위한 신경 회로망의 저력을 제공한다. 본 발명에 따른 방법은 서열 정렬이 아닌 단백질들의 구성적 특징을 토대로 한다. 따라서, 이러한 방법은 광범위한 계통발생적 스펙트럼에 속하는 세균으로부터 어드헤신과 어드헤신계 단백질을 동정할 수 있다. 상기 방법에 의한 추정은 독립적인 분석 및 실험을 통해 용이하게 검증가능하다. 본 발명은 현재 전문 인력과 귀중한 시간 등의 필수요건 측면에서 많은 투자가 요구되는, 새로운 예방제 개발을 가속화시킬 수 있는 잠재력을 가지고 있다.

본 발명은 치료적 잠재성이 있는 어드헤신 후보 단백질을 동정하기 위한 연산처리 방법에 관한 것이다. 특히, 본 발명은 병원체의 다른 게놈들에서 어드헤신 단백질을 동정하기 위한 새로운 방법을 개시한다. 이러한 어드헤신 단백질은 예방제 개발에 이용할 수 있다.

따라서, 치료학적인 잠재성이 있는 어드헤신과 어드헤신계 단백질을 동정하기 위한 연산처리 방법은 5가지의 서열 속성들, 즉 아미노산 빈도, 다중체 빈도, 디펩티드 빈도, 전하 구성 및 소수성 구성들에 대해 1-5가지의 구성적 특징을 계산하는 단계 및 단백질의 어드헤신과 비-어드헤신 클래스를 구별하기 위한 특징들을 이용하여 인공 신경 회로망(ANN, Feed Forward Error Back Propagation)을 훈련시키는 단계를 포함한다. 이러한 연산처리 방법은, 쿼리(query) 단백질의 105가지의 구성적 속성을 정량화하는 단계 및 P_ad 값(어드헤신일 확률)으로 이를 어드헤신 또는 비-어드헤신으로 정하는 단계를 포함한다. 본 발명은 병원성 유기체에서 어드헤신과 어드헤신계 단백의 동정에 유용하다. 새롭게 동정된 어드헤신과 어드헤신계 단백질들은 적합한 실험 모델 시스템에서 쉽게 테스트될 수 있는 새로운 예방제 개발을 위한 후보물질을 구성한다. 또한, 어드헤신 및 어드헤신계 후보 단백질을 코딩하는 유전자를 제공한다.

본 발명은 예방제로서 추가적으로 평가하기 위한 어드헤신 및 어드헤신계 후보 단백질과 이들의 코딩 유전자를 제공한다. 본 발명의 방법은 기능 도메인으로 분류된 서열 패턴 대신에 단백질 서열의 속성을 분석하는 것을 토대로한다. 이러한 방법은 서열 관련성에 대해선 거의 의존적이지 않으며, 따라서 관련성이 먼 유기체들로부터 어드헤신을 동정하는 잠재력을 제공한다. 본 발명은 인공 신경 회로망을 이용한 어드헤신 및 어드헤신계 단백질의 추정을 포함하는 연산처리 방법을 제공한다. 어드헤신으로 칭하는 단백질은 다양한 병원체에서 확률이 높은(P_ad 0.51) 것으로 추정된 것으로 확인되었다. 일부 어드헤신 서열들은 항원성이거나 독성과 관련된 단백질과 동일하거나 상동인 것으로 확인되었다. 이러한 방법으로, 다양한 병원성 유기체에 의해 발생되는 질병을 없애기 위한 새로운 백신 제형의 개발시 추가적인 테스트하기 위한 단백질을 동정하여 최종 후보자로 올릴 수 있었다.

표 설명

표 1: SPAAN에 의한 출력 파일의 형식

표 2: 유기체 명칭, 접근 번호, 염기쌍 번호, 공개 일 및 총 단백질 수

표 3: SPAAM을 이용한 다양한 세균성 병원체로부터 매우 잘 특정화된 어드헤신의 추정

표 4: 몇종의 선별한 병원성 유기체의 게놈 스캔에서 SPAAN에 의한 추정 분석

표 5: 표 2에 나열된 게놈에서 SPAAN으로 추정한 새로운 추정 어드헤신의 GI 번호 및 유전자 식별번호(ID)

표 6: 표 2에 나열된 게놈에서 SPAAN으로 추정의 어드헤신으로 추정된 가정의 단백질의 GI 번호 및 유전자 식별번호(ID)

표 7: 세균에서 발견한 198개의 어드헤신 리스트

소프트웨어 프로그램은 C 언어로 작성되었고, 레드 햇 리눅스 8.0 운영 시스템(Red Hat Linux 8.0)에서 작동된다. 컴퓨터 프로그램은 FastA 포멧으로 입력 단백질 서열을 입수하고, 표 형식으로 결과(tabulated output)를 축력한다. 출력 표에는 5가지 모듈들의 각각에 대한 확률 값이 기재된 각 단백질 열, 5가지 모듈들의 가중 평균 확률(Pad)와 입력 서열 파일에서 개시된 단백질의 기능이 포함되어 있다. 이러한 소프트웨어를 SPAAN(A Software for Prediction of Adhesins and Adhesin-like proteins using Neural Networks)이라고 하며, 소프트웨어 저작권을 지불하였다. 이러한 소프트웨어는 다중 모듈을 가지지만, 이들 모듈들의 운용은 통합되고 자동화된다. 사용자는 단지 한가지 명령만 입력하면 된다.

AAcompo. c:

입력: Fasta 포맷의 단백질 서열 파일

출력: 단일 열에 각 단백질에 대한 20개 아미노산의 빈도를 나타낸 파일

charge. c:

입력: Fasta 포맷의 단백질 서열 파일

출력: 하전된 아미노산(R, K, E 및 D)의 빈도와 하전된 아미노산 위치의 모멘트(18차까지)

hdr. c:

입력: Fasta 포맷의 단백질 서열 파일

출력: 소수성과 5차까지의 위치 모멘트를 근거로 만든 5가지 그룹의 아미노산들의 빈도가 표시된 파일

multiplets. c:

입력: Fasta 포맷의 단백질 서열 파일

출력: 20개의 아미노간 각각의 다중체 비율(fractions of multiplet)이 표시된 파일

querydipep.c;

입력: Fasta 포맷의 단백질 서열 파일1.

디펩티드 분석에서 유의적인 디펩티드 리스트가 기재된 파일2.

출력: 입력 파일1.에서 각 단백질에 대한 입력 파일2.에 나열된 디펩티드의 빈도가 기재된 파일

train. c:

입력: 하기 사항이 기재된 파일

1. 입력 및 출력 매개변수의 수

2. 은닉층에서의 노드 수

3. 훈련(training), 검증 및 테스트 데이타 파일 수

4. 학습율(Learning rate), 모멘트 계수

5. 훈련을 위한 최대 사이클 수

출력: 출력은 다음과 같다.

1. 테스트 데이타 세트에 대한 훈련한 신경 회로망의 출력

2. 훈련된 신경 회로망에서 연결 가중치(weight connection) 값

3. 훈련에 대한 일부 기타 정보

recognize. c:

입력: 하기 사항이 기재된 파일

1. 입력 및 출력 매개변수의 수

2. 은닉층에서의 노드 수

3. 쿼리 입력 파일의 명칭

4. 훈련된 신경 회로망에 대한 연결 가중치(weight connection) 값을 포함하는 파일의 명칭

5. 출력 파일의 명칭

출력: 훈련된 신경 회로망에 의해 계산된 쿼리 입력값(query entries) 출력치

standard. c:

입력: Fasta 포맷의 단백질 서열 파일

출력: 서열내 제거된 부분이 줄로 표시된(ew line characters removed lying within a sequence) Fasta 포맷의 단백질 서열 파일

filter. c:

입력: Fasta 포맷의 단백질 서열 파일

출력: 20개의 기존 아미노산 이외의 다른 임의의 아미노산을 함유하며 길이가 짧은(< 50 아미노산) 것을 제외한 입력에서의 단백질 서열 파일

5가지 속성들:

아미노산 빈도

아미노산 빈도 f_i = (i번째 아미노산의 수/1, i - 1...20, 1은 단백질의 길이이다.

다중체 빈도

다중체는 동질중합형 가닥(X)n으로 정의되며, X는 20가지 아미노산들중 어느 하나이고 n은 2보다 큰 정수이다. 모든 다중체를 확인한 후, 다중체내 아미노산의 빈도는 f_i(m) = (다중체로 형성되는 i번째 아미노산의 수/1)로 연산처리된다.

디펩티드 빈도

디펩티드 빈도 (i, j) f_ij = (ij번째 디펩티드의 수)/(디펩티드의 총 수)이며, i, j는 1 내지 20이다.

단백질내 디펩티드 반복은 피브리노겐에 결합하는 스타필로코커스 아우레우스의 세포 표면에 존재하는 클럼핑 인자(clumping facto)의 기능적 발현에 중요한 것으로 확인되었다(Hartford et al 1999). 따라서, 본 발명자들은 디펩티드 빈도 모듈을 포함시켰다. 디펩티드의 총 수는 400이다. 신경 회로망의 최적 훈련을 위해, 연결 가중치의 총수에 대한 입력 벡터의 총수의 비는 과적합(over fitting)하지 않도록 약 2정도이어야 한다 (Andrea et at). 따라서, 본 발명자들은 t-테스트를 이용하여 어드헤신 데이타 세트(469개 단백질, 데이타베이스 구축 참조)에서 빈도가 비-어드헤신 데이타세트(703개의 단백질)의 빈도와 유의적으로 다른 펩티드를 동정하였다. t-테스트의 p-값 순으로 정렬하였을때 상위 20개의 디펩티드의 빈도를 신경 회로망에 입력하였다. 이들 디펩티드는 (단분자 IUPAC-IUB 코드를 이용하여) NG, RE, TN, NT, GT, TT, DE, ER, RR, RK, RI, AT, TS, IV, SG, GS, TG, GN, VI 및 HR이다. 2번째 층에 20개의 디펩티드와 28개의 신경에 대한 빈도 입력시, 총 연결 가중치는 588개이고, 이는 과접합하지 않아야한다는 기준을 만족시킨다.

전하 구성

하전된 아미노산(pH 7.2에서 측쇄가 이온화되는 것으로 생각되는 R, K, E 및 D)의 입력 빈도는 fc = (하전된 아미노산의 수)/1로 나타낸다. 나아가, 소정의 단백질 서열에서, 하전된 아미노산의 분포 특징 정보는 하전된 아미노산의 발생 위치 모메트를 연산처리하여 제공된다. 모멘트는 왜도(skewness)와 첨도(kurtosis, 피크의 날카로움(sharpness))와 같이 분포 패턴을 특정화하므로, 이를 이용하여 서열내 하전된 잔기의 분포 패턴을 나타내었다.

일정한 순서, 'i'의 모멘트를 계산하기 위한 일반식

M_r = 하전된 아미노산 위치의 r차 모멘트

상기 계산식에서,

X_m = 하전된 아미노산의 모든 위치의 평균

X_i = i번째 하전된 아미노산의 위치

N = 서열에서 하전된 아미노산의 수

2 내지 19차 모멘트를 이용하여 하전된 아미노산의 빈도와 단백질 길이와 더불어 총 20개의 입력값으로 구성된 ANN을 훈련하였다. 19차의 상한은 소규모의 어드헤신 및 비-어드헤신 데이타세트에서의 민감도 및 특이도 평가를 토대로 설정하였다. 19 보다 큰 차원의 모멘트는 성능 개선에 유용하지 않다.

소수성 구성

주어진 단백질 서열을 Brendel et al. (43)에 따른 아미노산의 소수성 수치로 디지칼 변환하였다. 아미노산의 5가지 군에 대한 수치는 (K, E, D, R의 경우 -8), (S, T, N, Q의 경우 -4), (P, H의 경우 -2), (A, G, Y, C, W의 경우 +1), (L, V, I, F, M의 경우 +2)이다.

아래 입력값은 그룹 각각에 대해 제공된다.

(a) f_i = (i번 그룹의 수)/(단백질에서 총 수);i는 1 내지 5임

(b) mji = i번 그룹에서의 아미노산의 위치의 j차 모멘트; j는 2 내지 5임

단백질의 소수성 구성을 나타낸 총 25개의 입력값을 신경 회로망에 입력하였다. 모멘트를 이용하는 이론적 설명은 전하 구성 입력 부분에서 설명한 바와 동일하다.

소정의 단백질 서열의 총 105가지 구성적 특성을 모두 취하여, 이들의 어드헤신 특징들을 예측하였다.

소프트웨어 프로프서치는 신규 서열과 데이타베이스의 서열간의 구조적 또는 기능적 관련 가능성을 검사하기 위하여 단백질 서열에 대한 144개의 구성적 특성을 이용한다(Hobohm and Sander 1995). 이러한 방법은 하나 및 두 개의 아미노산 조성, 분자량, 등전위점(단백질 특성 검색 또는 프로프서치)와 같은 여러가지 구성적 특징들의 가중 합으로서 단백질 서열의 비유사성(또는 거리)을 정의한다. 또한, 단백질의 구성적 특정은 세균에서 분비성 단백질을 추정하고, 플라스모듐 팩시파럼에서 아피코플라스트로 표적화된 단백질을 추정하는데 사용되고 있다(Zuegge, et al. 2001). 사용한 방법은 통계적 방법, 기본적인 구성 분석(principal component analysis), 자가-조직성(self-organizing map) 맵 및 지도 신경 회로망(supervised neural network)이다. SPAAN에서, 5가지 모듈, 즉 아미노산 빈도, 다중성 빈도, 디펩티드 빈도, 전하 구성 및 소수성 구성에서 105가지의 구성적 특성을 사용하였다. SPAAN에서 사용한 총 105가지의 특성들중 아미노산 빈도에 대해선 20개, 다중성 빈도에 대해선 20개, 디펩디트 빈도에 대해선 20개(상위 20개의 유의적인 디펩티드를 t-테스트를 토대로 사용하였음), 전하 구성에 대해 20개(하전된 아미노산(R, K, E 및 D)의 빈도 및 2 내지 19차 모멘트), 및 소수성 구성에 대해선 25개(아미노산은 5가지 그룹으로 분류됨 (-8 for K, E, D, R), (-4 for S, T, N, Q), (-2 for P, H), (+1 for A, G, Y, C, W), (+2 for L, V, I, F, M))이다. 총 25 가지의 입력치는 다음으로 구성된다: 각 그룹의 빈도, 2 내지 5차의 각 그룹에서 아니노산의 위치 모멘트).

신경 회로망

순반향 오류 역전파 신경 회로망을 사용하였다. 프로그램은 Department of Computer Science, Colorado State University, Fort Collins, CO 80523, anderson@cs. colostate. edu의 Charles W. Anderson로부터 제공받았다.

신경 회로망 구조

사용한 신경 회로망은 다중층의 순방향 토폴로지이다. 이는 입력층, 하나의 은닉층과 출력층을 포함하고 있다. 이는, 각 신경 i가 다음번째 층의 각 유닛 j와 연결된 '완전히-연결된' 신경 회로망이다(도 1).

각 연결 가중치는 w_ij로 나타낸다. 입력층의 각 신경의 상태 I_i는 입력 데이타로부터 직접 할당되지만 은닉층의 신경 상태는 하기 시그모이드 함수(sigmoid function)에 의해 계산된다.

h_j = 1/(1 + exp - (w_jo + w_ijI_i)),

상기 계산식에서, w_jo는 바이어스 가중치(bias weight)이다.

연산한 출력값과 원하는 출력값간의 오차를 최소하하기 위해, 역전파 알고리즘을 사용하였다. 10000 사이클(epoch)을 반복 수행하였다. 이후, 오류가 최소화된 최상의 시기(epoch)를 동정하였다. 이 시점에서, 회로망은 훈련 세트에 주어진 입력에 대한 대락적인 표적 값을 만든다.

회로망은 선택적으로 각 속성에 대해 훈련된다. 따라서, 5개의 회로망을 제작하였다. 회로도(도 1)는 채택한 처리 절차를 도시한다. 입력 층에서의 신경의 수는 각 속성에 대한 데이타 입력 점의 수와 동일하다(예로, 아미노산 구성 속성의 20개의 입력 벡터에 대해 신경 20개). 은닉층의 신경의 최적 숫자는 각 회로망에 대한 최상의 시기에서 오류를 최소화하기 위한 실험을 통해 결정된다. 연결 가중치의 총수에서 상한은 기존에 제시된 바와 같이 과적합을 막기위해 입력 벡터의 총수의 절반으로 한다(Andrea et al).

개별적인 구성적 속성을 계산하기 위한 컴퓨터 프로그램은 C 언어로 작성되어 있으며, Red Hat 리눅스 버전 7.3 또는 8.0의 PC에서 운용된다. 회로망은 훈련 세트(raining set)에서 훈련시켜, 오류를 확인하고, 역전파를 통한 검증 세트(validate set)로 최적화하였다. 검증 세트는 훈련 세트와는 다르다. 잘 알려진 어드헤신의 수는 많지 않으므로, 본 발명자들은 예비 실행 평가를 위한 테스트 세트로서 '검증 세트'를 자체적으로 사용하였으며, 다음 장에서 설명한 가중 평균 확률(P_ad 값)을 계산하여 관련성을 구하였다. 훈련 세트는 367종의 어드헤신과 580종의 비-어드헤신을 가지고 있다. 검증 세트는 102개의 어드헤신과 123개의 비-어드헤신을 가지고 있다. 어드헤신은 '1'을 할당하고, 비-어드헤신은 '0'을 할당하였다.

추정 과정중에, 회로망에 훈련 세트의 일부분이 아니었던 서열의 신규 데이타를 제공한다. 각 회로망은 주어진 서열이 어드헤신일 확률값을 할당한다. 최종 확률은 다음 장에 설명한 바와 같이 계산된다.

어드헤신일 확률, P_ad 값

쿼리 단백질을 각 속성에 대해 훈련시킨 회로망을 통해 모듈로 처리된다. 따라서, 5가지의 확률 출력값이 얻어진다. 최종 예측은 5개의 모듈의 확률 값들의 가중 선형 합(weighted linear sum)인 아래 계산식으로 계산된다.

P_i = i 모듈에서의 확률,

fc_i = 훈련한 신경 회로망의 i 모듈의 상관성 정도(fraction of correlation of i module of the trained Neural Network)

상기에서, i = A(아미노산 빈도), C(전하 구성), D(디펩티드 빈도), H(소수성 구성) 또는 M(다중체 빈도)

상관성 정도 fc_i는, 예비 평가에서 사용한 테스트 세트상의 훈련시킨 회로망에 의해 정확하게 예측된(P_i _, _어드헤신 > 0. 5 및 P_i _,비- _어드헤신 < 0.5) 총 엔트리 율(fraction of total entries)을 나타낸다(Charles Anderson).

신경 회로망

순방향 오류 역전파 신경 회로망을 사용하였다. 프로그램은 저자(Department of Computer Science, Colorado State University, Fort Collins, CO 80523, anderson@cs. colostate. edu의 Charles W. Anderson)의 동의하에 웹사이트에서 다운받았다.

통계 분석

모든 통계 과정은 마이크로소프트사의 엑셀(Microsoft Corporation Inc. USA)로 수행하였다.

서열 분석

상동성 분석은 CLUSTAL W(Thompson et al 1994), BLAST(Altschul et al 1990), CDD(conserved domain database) 검색(Marchler- Bauer et al 2002)으로 수행하였다.

미생물 병원체의 전체 게놈 서열은 진단제나 백신과 같은 임상 제품 개발에 새로운 기회를 제공한다. 본 발명은 기능적으로 예방제와 관련있는 후보 유전자 및 이로부터 코딩된 단백질 개발을 선도한다.

두 그룹, 즉 어드헤신 및 비-어드헤신의 단백질 서열은 기존 데이트베이스에서 다운받았다(National Centre for Biotechnology Information (NCBI), USA). 5가지의 서열 속성들, 즉 아미노산 구성, 다중체 구성, 디펩티드 구성, 전하 구성 및 소수성 구성하의 총 105가지 구성적 특성들을 C 언어로 작성된 컴퓨터 프로그램으로 계산하였다. 두가지 데이타베이스의 모든 단백질에 대한 속성들을 연산처리하였다. 서열을 기초로한 속성을 이후 이용하여 각 단백질 속성에 대해 인공 신경 회로망을 훈련시켰다. 어드헤신은 숫자 '1'로 할당하고, 비-어드헤신은 숫자 '0'으로 할당한다. 최종적으로, 각각의 훈련시킨 인공 신경망을 사용하여 병원체 감염에 대한 예방제 개발에 유용한 것으로 생각될 수 있는 잠재성이 있는 어드헤신을 동정하였다. 따라서, 본 발명은 치료적 잠재성이 있는 어드헤신 및 비-어드헤신계 단백질을 동정하는 연산 방법을 제공하며, 상기 방법은

1. 단백질 서열에 대해 공적으로 이용가능한 정보로부터 어드헤신 및 비-어드헤신 단백질의 두가지 종합적인 데이타-세트를 준비하는 단계;

2. 어드헤신 및 어드헤신계 단백질에 대해 신경 회로망(SPAAM)을 이용하여 특별히 개발한 소프트웨어를 이용함으로써, 공적으로 이용가능한 단백질 데이타 세트에서, 단백질 서열의 서열을 기초로한 속성들을 수치적으로 계산하는 단계;

3. 선택한 속성에 대한 인공 신경 회로망(ANN)을 훈련시키는 단계;

4. 어드헤신에 적합한 확률 값, "P_ad"를 쿼리 단백질에 할당하여, SPAAN에 훈련한 인공 신경 회로망의 훈련을 보조하고 쿼리 단백질에서 어드헤신계 특성을 동정하는 단계;

5. 병원체의 게놈이 생화학적으로 특정화된 공지의 단백질 서열과 비교하여, 치료제로서 가능성이 있는 단백질 서열을 수치적으로 검증하는 단계를 포함한다.

본 발명의 예에서, 단백질 서열 데이타는 유기체들, 특히 대장균(E. coli), 헤모필러스 인플루엔자, 헬리코박터 필로리, 미코플라스마 뉴모니아, 미코박테리움 투베르쿨로시스, 리켓차 프로와제키, 포르피로모나스 진기발리스, 쉬겔라 플렉스네리, 스트렙토코커스 뮤탄스, 스트렙토코커스 뉴모니아, 네이세리아 메닌지티디스, 스트렙토코커스 피오게네스, 트레포네마 팔리듐, 급성 중중 호흡기 증후군의 코로나바이러스들로부터 취할 수 있으나, 이로 한정되는 것은 아니다.

본 발명의 다른 예는, 치료적 잠재성이 있는 단백질 동정에 사용된 여러가지 서열을 기초로한 속성으로는, 아미노산 구성, 전하 구성, 소수성 구성, 다중체 빈도 및 디펩티드 빈도를 포함한다.

일예로, 비-상동성 어드헤신 단백질 서열은 선택한 병원체에서 치료 제품의 공지 서열의 것과 비교할 수 있다.

본 발명의 예에서, 어드헤신 또는 어드헤신계 단백질의 서열은 본 발명의 방법으로 동정한 표 5 및 6에 기재된 서열 식별번호의 서열을 포함한다.

본 발명의 다른 예로, 컴퓨터 시스템은 CPU(central processing unit), 디스플레이 및 사용자 인터페이스 장치를 포함하며, 상기 CPU는 인공 신경 회로망을 이용하여 여러가지 속성들을 기초로 확률을 제공하는 SPAAN 프로그램과, 상기 CPU에 의해 액세스(access)되는 기억 장치에 저장된 속성을 평가하는 프로그램을 실행하며, 상기 디스플레이 상에는, 사용자의 입력에 따라 상기 CPU가 실행하는 상기 프로그램들의 스크린이 표시된다.

본 발명의 일예에서, 명칭, 균주, NCBI 데이타베이스의 접근 번호 및 그외 상세 사항들과 같은 유기체의 사항들은 표 2에 기재되어 있다.

도 1은 신경 회로망 구조이다.

도 2는 한정된 테스트 데이타 세트를 이용한 SPAAN 평가를 나타낸 것이다.

도 3(a)는 다양한 P_ad 범위를 보인 다수 단백질들의 히스토그램 플롯이다. (b)는 어드헤신들에서의 짝진 서열 관계는 CLUSTAL W로 결정하였고, X축에 나타내었다. (c) 비-어드헤신의 플롯. 데이타는 명확한 정밀 검사에 대한 4 상한 포맷(quadrant format)으로 나타낸다.

본 발명은 예시하기 위한 하기 실시예를 들어 더욱 설명하지만, 어떠한 방식으로도 본 발명의 범위를 한정하는 것으로 해석되어서는 안된다.

실시예 1

SPAAN 운용:

프로그램의 목적은 단백질 서열의 여러가지 서열을 기초로 속성을 수치적으로 계산하기 위한 것이다.

프로그램 작업은 다음과 같다:

http : //www. ncbi. nim. nih. gov에서 수득한 인터넷으로 다운받은 FASTA 형식의 파일을 파일명 <유기체_명칭>.faa으로 저장하고, C 프로그램으로 표준 형식으로 변환한 다음 단백질 서열의 5가지 속성들을 계산하는 다른 C 프로그램에 입력 하였다(총 5개의 모듈들에서 총 105가지의 구성적 특성).

계산한 특성들을 입력치로 5개의 다른 신경 회로망에 입력하였다. 각 훈련된 회로망은 쿼리 단백질이 어드헤신일 확률값을 부여한다. 최종 확률(P_ad)는 이들 5가지의 개별적인 확률들의 가중 평균로 계산된다. 가중치는 5개의 모듈 각각을 시험 운영하는 동안 정확한 예측과의 상관값으로부터 결정된다.

입력/출력 형식:

다운받은 파일과 그것의 형식:

<유기체_명칭>.faa: 주석과 단백질 서열을 저장한 파일

입력 파일 형식:

">gi.vertline."<주석>

예로, >gi.vertline.2314605.vertline.gb.vertlin.AAD08472.vertline.히스티딘 및 글루타민 다량 함유 단백질

>gi.vertline.3261822.vertline.gnl.vertline.PID.vertline.e328405 PE_PGRS

>gi. vertline....

표 1: SPAAN에 의해 제공된 출력 파일의 형식

<유기체_명칭>.out

SN	P_A	P_C	P_D	P_H	P_M	P_ad-값	단백질명
1	0.05683	0.290803	0.441338	0.50304	0.029503	0.260485	>gi.vertline.32454344.vertline.gb.verline.AAP82966.1. vertline.orfla 폴리단백질[SARS 코로나바이러스 홍콩 ZY-2003]
2	0.639235	0.166721	0.054583	0.935385	0.453498	0.462452	>gi.vertline.32454345.vertline.gb.verline.AAP82967.1. vertline.orfla 폴리단백질[SARS 코로나바이러스 홍콩 ZY-2003]
3	0.651111	0.911504	0.438696	0.543944	0.924044	0.690247	>gi.vertline.32454346.vertline.gb.verline.AAP82968.1. vertline.orfla 폴리단백질 [SARS 코로나바이러스 홍콩 ZY-2003]
4	0.464324	0.655003	0.179503	0.000870	0.241573	0.300970	>gi.vertline.32454347.vertline.gb.verline.AAP82969.1. vertline.orfl3a[SARS 코로나바이러스 홍콩 ZY-2003]

상기에서, P_A, P_C, P_D, P_H, P_M은 5개의 신경 회로망의 출력치이다.

실시예 2: 유기체 및 서열 번호

표2: 유기체의 명칭, 접근 번호, 염기쌍 번호, 공개일 및 분석 단백질의 총 수

유기체명	접근번호	염기쌍 수	공개일	단백질 총수
대장균(E. coli) O157 H7	NC_002695	5498450	2001-03-07	5361
H.인플루엔자 Rd	NC_000907	1830138	1996-09-30	1709
H.필로리(H. pylori)J99	NC_000921	1643831	2001-09-10	1491
M.뉴모니아(M. pneumoniae)	NC_000912	816394	2001-04-02	689
M.투베르쿨로시스(M. tuberculosis) H37Rv	NC_000962	4411529	2001-09-07	3927
R.프로와제키(R. prowazekii) 주 Madrid E	NC_000963	1111523	2001-09-10	835
P.진기발리스(P. gingivalis) W83	NC_002950	2343476	2003-09-09	1909
S.플렉스네리(S. flexneri) 2a str. 2457T	NC_004741	4599354	2003-04-23	4072
S.뮤탄스(S. mutans) UA159	NC_004350	2030921	2002-10-25	1960
S.뉴모니아(S. pneumoniae) R6	NC_003098	2038615	2001-09-06	2043
N.메닌지티디스(N. meningitidis) 혈청군 A 주 Z2491	NC_003116	2184406	2001-09-27	2065
S. 피오게네스(S. pyogenes) MGAS8232	NC_003485	1895017	2001-01-31	1845
T.팔리듐(T. pallidum) subsp. 팔리듐 str.Nichols	NC_000919	1138011	2001-09-07	1036
중증 급성 호흡기증후군 관련 코로나바이러스 프랑크프루트1	AY291315	29727	2003-06-11	14
SARS 코로나바이러스HSR1	AY323977	19751	2003-10-15	14
SARS 코로나바이러스 ZJ01	AY297028	29715	2003-05-19	3
SARS 코로나바이러스 TW1	AY291451	29729	2003-05-14	11
SARS 코로나바이러스CUHK_Su10	AY282752	29736	2003-05-07	4
SARS 코로나바이러스	AY278741	29727	2003-08-12	12
SARS 코로나바이러스	NC_004718	29751	2003-09-09	29
SARS 코로나바이러스 Tor2	AY274119	29751	2003-05-16	15
SARS 코로나바이러스 GD01	AY278489	29757	2003-08-18	12
SARS 코로나바이러스 CUHK_W1	AY278554	29736	2003-07-31	11
SARS 코로나바이러스 BJ01	AY278488	29725	2003-05-01	11

실시예 3

다층의 순방향 신경 회로방 구조를 SPAAN에 실행하였다(도 1). FASTA 형식의 주어진 단백질 서열을 일차로 5가지의 모듈들 A, C, D, H 및 M로 처리하여, 구성적 속성들의 5가지 타입으로 정하였다. A: 아미노산 구성, C: 전하 구성, D: 20가지 디펩티드의 디펩티드 구성(NG, RE, TN, NT, GT, TT, DE, ER, RR, RK, RI, AT, TS, IV, SG, GS, TG, GN, VI, HR), H: 소수성 구성, M: 다중체에서의 아미노산 빈도. 나타낸 서열은 E. coli의 FimH 전구체(gi 5524634)의 일부분이다. 이후, 이들 수치 데이타는 입력층의 신경에 입력한다. 화살표의 방향은 데이타 흐름을 나타낸다. 입력층에서 선택된 신경의 갯수는 각 모듈의 수치 입력 벡터의 수와 동일하다. 회로망은 역전파를 통한 검증 세트에서 검출 오류를 최소화하여, 최적으로 훈련한다. 상세한 사항은 방법에 기재되어 있다. 각 회로망 모듈은 해당 속성을 기초로 어드헤신일 수 있는 단백질의 확률값을 할당한다. 어드헤신일 단백질 서열의 최종 확률은, 각각의 확률들의 가중 평균인 P_ad 값이며, 예측성(strength of the prediction)의 측정치인 관련 상관 비율(associated fraction of correlation)이다.

실시예 4

SPAAN은, 훈련 세트의 일부가 아니었던 어드헤신 37종과 비-어드헤신 37종의 테스트 세트를 이용하여 수행하였다. 주어진 역치(threshold)(X 축) 이상의 P_ad 값을 가지는 모든 단백질에 대한 매튜의 상관계수(Mcc, Y 축). 매튜의 상관계수는 아래 계산식으로 환산된다.

상기 계산식에서, TP = 진양성, TN = 진음성, FP = 위양성, FN = 위음성

여기에서, TP는 어드헤신이고, TN은 비-어드헤신이다. 일반적으로, 어드헤 신은 높은 P_ad값을 가지지만, 비-어드헤신은 낮은 P_ad 값을 가진다. 따라서, 역치값 이상의 P_ad 값을 가지는 공지의 어드헤신은 진양성이며, 반면에 역치 이하의 P_ad 값을 가지는 공지 비-어드헤신은 진음성이다. 민감성, Sn은

이고, 특이성 Sp는

이다. 위음성은, 공지의 어드헤신이 선택한 역치값 이하의 P_ad 값을 가지는 경우에 해당된다. 이와 유사하게, 선택한 역치 이상의 P_ad 값을 가지는 공지의 비-어드헤신은 위양성으로 한다. 이론상의 2차(점선) 다차 곡선은 관찰된 곡선(선)과 일치하며, 카를-퍼슨(Karl-Pearson) 상관계수는 R² = 0. 9799이었다. 이론적인 곡선의 최대값(일차 미분계수는 0이되고, 이차 미분계수는 음성임)을 참조예(세로 점선)으로 선별하여, 관찰된 곡선에서 최대값 Mcc = 0.94을 확인하였다. 해당 P_ad 값 역치는 0.51이었다. 이 P_ad 값 역치에서, Sn과 Sp는 각각 0.89 및 1.0이었다. Mcc는 이론적으로 얻을 수 있는 임계값인 1.0과 비교하였을때 어드헤신에 의한 가장 높은 P_ad 값은 0.939였으므로, X 축으로 떨어지지 않는다는 것을 유념하여야 한다.

실시예 5. 다양한 세균성 병원체에서의 공지된 어드헤신의 SPAAN 평가

표 3. SPAAN을 이용한 다양한 세균성 병원체에서의 매우 특정화된 어드헤신의 추정

종	질병	어드헤신^a	숙주 리간드	P_ad 값^b (범위)
대장균(E. coli)	설사	PapG(27) SfaS(5)	α-D-gal(1-4) β-D-Gal-함유성 수용체 α-시알릴-β-2,3-β-갈락토스	0.84-0.76 0.94-0.94
		FimH(63)	D-만노사이드	0.96-0.23^c
		인티민(12)	숙주세포 수용체 Hp90의 티로신-인산화된 형태	0.95-0.78
		PrsG(5)	Gal(알파-4)Gal	0.86-0.85
타입분류가 어려운 헤모필루스 인플루엔자	인플루엔자	HMW1, HMW2	인간 상피세포	0.97
타입분류가 어려운 헤모필루스 인플루엔자	인플루엔자	Hia(8)	인간 결막 세포	0.93-0.90
H.인플루엔자	세균성 수막염^d	HIfE(18)	sialylyganglioside-GM1	0.85-0.73
K.뉴모니아	폐렴	MrkD	타입V 콜라겐	0.82
B.퍼투르시스(B. pertussis)	백일해	FHA	세포표면 글리코접합체상의 황이 결합된 당	0.85
B.퍼투르시스(B. pertussis)	백일해	Pertactin	인테그린스	0.43
Y.엔테로콜리티카 (Y.enterocolitica)	소장결장염	YadA(5)	β₁인테그린스	0.88-0.79
S. 뮤탄스	충치	SpaP(2) PAc	타액의 당단백질 타액의 당단백질	0.88, 0.870.88 0.88
스트렙토코커스 고르도니(Streptococcus gordonii)	구강	SspA(2)	타액의 당단백질	0.85, 0.84
		CshA	파이브로넥틴	0.78
		CshB	파이브로넥틴	0.63
		ScaA	공동-응집	0.71
		SspB(2)	타액의 당단백질	0.85, 0.84
스트렙토코커스 소르비누스(Streptococcus sobrinus)	충치	SpaA PAg(2)	타액의 당단백질 타액의 당단백질	0.89 0.89, 0.73
스트렙토코커스 피오게네스	성홍열	Protein F	파이브로넥틴	0.49
스트렙토코커스 뉴모니아	세균성 폐렴	PsaA(5)	인간 코인두 세포	0.82-0.78
스트렙토코커스 뉴모니아	세균성 폐렴	CbpA^e SpsA PbcA/PspC	테이코산(teichoic acid)의 포스포릴콜린	0.81-0.49
스트렙토코커스 파라산구이스(Streptococcus parasanguis)	판막 심내막염	FimAE	타액의 당단백질 피브린	0.76
스트렙토코커스 산구이스(Streptococcus sanguis)	충치	SsaB	타액의 당단백질	0.71
엔테로코커스 패칼리스	간 질환자에서의엠피마(empyma)	EfaA	미확인	0.83
스타필로코커스 아우레우스	식중독	FnbA FnbB(3)	파이브로넥틴 파이브로넥틴	0.8 0.78, 0.77 0.69
헬리코박터 필로리	소화궤양	BabA(17)	디푸코실화된(difucosylated) 루이스^b 혈액 그룹 항원	0.87-0.68

^a: 여러 균주들에서의 서열 갯수와 분석한 관련 종들의 상동 갯수는 괄호에 기재한다.

^b: 소수점 이하 둘째자리까지 반올림함.

^c: 63개의 FimH 단백질들중, 54종의 E. coli에서, 6종의 시젤라 플렉시네리에서, 2종은 살모넬라 엔테리카에서, 1종은 살모넬라 티피무리움에서 유래된 것이다. 2종의 FimH 단백질을 제외하고는, 나머지들의 P_ad 값은 0.51이다. 나머지 2개(gi numbers: 5524636, 1778448)는 E. coli에서 유래된 것이다. gi: 5524636 단백질은 FimH 전구체라고 기재되어 있지만, 그 과의 다른 일원보다 많이 짧다(129개 아미노산). gi: 1778448 단백질은 E. coli에 상동성을 가지는 살모넬라 티피무리움의 단백질이다.

^d: 그외 질환으로는 유아와 어린이에서의 폐렴, 후두염, 골수염, 관절염(septic arthritis) 및 패혈증을 포함한다.

^e: 어드헤신 CbpA는 또한 다른 명칭 SpsA, PbcA 및 PspC로 알려져 있다. 총 7가지 서열을 분석하였다. 1 PspC 서열을 제외하고는 나머지 모두의 P_ad 값은 0.51이다.

실시예 6

P_ad 0.51에서 비-어드헤신으로부터 어드헤신을 식별하는 SPAAN의 능력(도 3a).

실시예 7

SPAAN의 비-상동성 특징을 어드헤신 및 비-어드헤신 둘다에서 분석하였다(도 3b 및 3c).

도 3(a-c). SPAAN은 비-상동성을 기초로한 소프트웨어이다. 총 130종의 어드헤신과 130종의 비-어드헤신을 분석하여, SPAAN의 예측성능이 서열 관계에 의해 영향을 받을 수 있는지 여부를 분석하였다. (a) 다양한 P_ad 값에서 다수 단백질들의 히스토그램 플롯이다. 불투명 막대는 어드헤신이고, 투명한 막대는 비-어드헤신이다. SPAAN이 어드헤신과 비-어드헤신을 두가지 별개의 결합성 그룹(cohesive group)으로 분리할 수 있음을 유념하여야 한다. (b) 어드헤신들중에서 짝지은 서열 관계를 CLUSTAL W로 결정하고, X 축에 나타내었다. 수치가 높을수록 유사한 쌍임을 나타낸다. 동일한 단백질 쌍에서 P_ad 값에 대한 차이는 Y 축에 나타내었다. 도에서 각 점은 한쌍을 나타낸다. 화살표는 유사성이 높지만, △P_ad가 높은 FimH 계열의 단백질 쌍들을 나타낸다: FimH 단백질들 중 하나(gi: 5524636)는 매우 낮은 P_ad 값을 가지므로, 위음성 단백질의 모든 쌍들은 높은 △P_ad 값을 보였다. 단백질(gi: 5524636)은 동일한 계열의 다른 일원에 비해 매우 길이가 짧다. (c) 비-어드헤신에 대한 도. 데이타는 명확한 조사를 위해, 4등분 형식으로 도면을 작성하였다. CLUSTAL W 수치가 < 20인 단백질 쌍들중에서, 대다수(어드헤신의 경우 82%, 비-어드헤신의 경우 86%)의 △P_ad는 < 0.2이다. 이러한 결과는 SPAAN의 비-상동성 특징을 뒷받침한다.

실시예 8

SPANN에 의한 병원체의 게놈 스캔으로, 매우 잘 알려져 있는 어드헤신과, 새로운 어드헤신 및 어드헤신계 단백질을 동정하였다.

표 4. 소수의 선별한 병원성 유기체의 게놈 스캔에서 SPAAN으로 실시한 예측 분석^a

단백질 클래스	E. coli O157:H7	미코박테리움	SARS 관련 코로나바이러스(11개 주)
P_ad 0.51를 가진 단백질의 총수	575	435	5
공지 어드헤신	17^b	-	-
어드헤신 유사 특성을 가진 추정의 단백질	92^c	105^j	-
어드헤신 유사 특성을 가진 가정의 단백질	22^d	-	-
세포외(extracytoplasmic) 또는 표면에 위치할 것으로 추정되는 단백질	190^e	191^k	5^m
파지 단백질	30^f	-	-
기타	13^g	6^l	-
가정의 단백질	157^h	86^h	-
잘못된 예측	54ⁱ	47ⁱ	-

^a: SPAAN은 일반적으로 훈련가능하다. 본원에서 선택한 3종의 병원체는 현재 고강도 조사가 진행중인 병원체이다. 미코박테리움 투베르쿨로시스는 개발도상국가에서 매우 중요한 균이다.

^b: 핌브리아 어드헤신, AidA-I, 감마 인티민(intimin), 쿨를린(curlin), 전위된 인티민 수용체(translocated intimin receptor), 추정의 어드헤신, 및 수송체, Iha, 프리필린 펩티다제 의존적 단백질 C(prepilin peptidase dependent protein C).

^c: 이들 단백질은 추정되는 기능을 가진 단백질로 기재되어 있다. 이들 서열은 CDD(Conserved domain database, NCBI)와 BLAST 검색으로 분석하였다. 어드헤신 유사 도메인이 이들 단백질들에서 발견되었다.

^d: 이들 단백질은 '가정의'로 기재하였다. 이들 서열은 CDD(Conserved domain database, NCBI)와 BLAST 검색으로 분석하였다. 어드헤신 유사 도메인이 이들 단백질들에서 발견되었다.

^e: 이들 단백질들은 외막, 세포외, 수송체, 표면, 유출, 플라젤라, 세포막 단백질(periplasmic lipoprotein) 및 '가정의'로 기재된 단백질이며, BLAST와 CDD 검색으로 본원에 나열된 시능과의 유사성이 관찰되지 않았다.

^f: 파지 단백질은 아래 기능적 역할을 가진다- 테일 파이버(tail fiber), 헤드 장식(head decoration), DNA 주입, 꼬리, 주캡시드, 숙주 특이성, 엔도라이신(endolysin)

^g : SPAAN으로 추정하였으나 본원에 나열한 클래스로 쉽게 분류되지 않는 단백질은 총괄적으로 '기타'로 구분하였다. 그러나, 이들 단백질들중 일부는 숙주-병원체간의 상호작용에 참여하는 것으로 알려져 있다. 기재된 기능적 역할은 타입III 분비, 항생제 내성, 열 충격, 산 충격, 구조, 텔루르 내성, 터미나제, Hcp-like, Sec-의존적 트랜슬로카제(independent translocase), 특정화되지 않은 핵단백질, HicB-like.

^h : 이들 단백질은 가정으로 기재되어 있다. 이들 단백질을 BLAST와 CDD로 재분석하였으나, 이들 단백질의 어떠한 기능도 동정하지 못하였다.

ⁱ : 이들 단백질은 세포내에서 틀림없이 이루어질 것으로 추정되는 기능적 역할이 기재되어 있다. 따라서, 이들 단백질은 어드헤신이나 또는 어드헤신계 단백질로서 기능할 가능성은 희박할 수 있다. 이에, 이들 단백질 세트는 SPAAN에서 어드헤신이나 어드헤신계로 잘못 추정된 것이다.

^j: 이들 단백질은 PE_PGRS, PE 단백질이다. 일부 보고서(예, Brennan et al.)들에서, PE_PGRS 단백질이 세포 표면에 위치할 수 있으며, 숙주-병원체간의 상호작용을 보조할 수 있을 것으로 시사하고 있다.

^k: 지단백질(lpp, lpq, lpr), PPE, 외막, 표면, 수송체, 분비, 세포막, 세포외, ESAT-6, 펩티도글리칸 결합, 유출, mpt(세포외 도메인 함유) 및 '가정의'로 기재된 단백질이며, BLAST와 CDD 검색으로 본원에 나열된 시능과의 유사성이 관찰되지 않았다.

^l: 이들 단백질은 다음의 기능을 한다- 글루타레독신계 티오클래스퍼라제(glutaredoxin-like thioltransferase), 몰리브데이트 흡수에 관ㄴ여하는 것으로 추정, ATP 합성효소 체인, 설포트래스터라제(sulphotransferase), S.에리트라 로단스계 단백질(erythraea rhodanese-like protein) M296121SERCYSA_5, 미확인된 기능.

^m: 이들 단백질은 항원성을 가지는 스파이크 당단백질이며, nsp2, nsp5, nsp6 및 nsp7이다.

표 5: 표 2에 기재된 게놈에서 SPAAN으로 추정한 신규 어드헤신

(총 수 = 279)

단백질 GI 유전자 ID 단백질 명

수

E. coli 0157:H7

13360742 912619 헴어글루티닌/헤몰리신-관련 단백질

13362986 914770 추정의 수송 시스템의 ATP 결합 성분

13361114 913228 추정의 꼬리(tail) 섬유 단백질

13364757 913676 마이너 핌브리아 서브유닛/D-만노스 특이 어드헤신

13362687 915687 추정의 핌브리아계 단백질

13360856 912599 AidA-I 어드헤신계 단백질

13364140 915374 추정의 핌브리아 단백질

13359793 914435 추정의 인베이신(invasin)

13364768 913650 추정의 인베이신

13364034 915471 감마 인티민

13362703 915668 추정의 DNA 수송 단백질 전구체

13364141 915376 추정의 핌브리아 단백질

13359819 914463 AidA-I 어드헤신계 단백질

13360480 917768 추정의 핌브리아계 단백질

13362692 915681 추정의 핌브리아계 단백질

13362585 916824 추정의 수송 시스템의 ATP 결합 성분

13359881 914526 추정의 플라젤린 구조 단백질

13361579 917311 추정의 타입 I 핌브리아 단백질 전구체

13360880 913991 쿠를린 메이저(curlin major) 서브유닛 CsgA

13364036 915465 전좌된 인티민 수용체 Tir

13360740 912615 추정의 메이저 필린(pilin) 단백질

13361582 917317 수송 시스템의 추정의 ATP 결합 성분과 어드헤신 단백질

13364754 913683 타입1 핌브리아의 방출 및 조립 외막 단백질

13360484 917767 살모넬라 FimH 단백질의 상동체

13364751 913688 메이저 타입1 서브유닛 핌브린

13359597 913742 추정의 핌브리아 단백질

13362550 916787 수송 시스템의 추정의 ATP 결합 성분

13359595 913739 추정의 핌브리아 단백질

13359599 913748 아마 핌브리아 조립에 관여하는 외막 포린(porin) 단백질

13363900 915704 추정의 핌브리아 단백질 전구체

13361575 917307 추정의 핌브리아계 단백질

13364756 913678 핌브리아 형태

13363496 916142 추정의 절단된 핌브리아 단백질

13359601 913761 추정의 핌브리아계 단백질

13364145 915368 추정의 타입1 핌브리아 단백질

13363902 915708 추정의 외막 안내(usher) 단백질 전구체

13361576 917309 추정의 외막 단백질

13361013 913353 추정의 메이저 꼬리(tail) 서브유닛

13364755 913682 핌브리아 형태

13360738 912793 추정의 외막 안내 단백질

13363928 915608 알파-아밀라아제

13363495 916144 추정의 외막 단백질

13362383 916617 추정의 타입1 핌브리아 단백질

13364373 914972 외막 비타민 B12 수용체 단백질 BtuB

13360879 912479 마이너 쿠를린 서브유닛 전구체 CsgB

13360739 912756 추정의 샤페론 단백질

13361574 917314 추정의 핌브리아계 단백질

13361127 913212 외막 프로테아제 전구체

13363210 916442 추정의 지단백질

13361104 913238 메이저 꼬리(tail)단백질

13361709 917446 추정의 메이저 꼬리(tail) 서브유닛

13359725 914366 외막 포어 단백질 PhoE

13360875 913765 쿠를리(curli) 생산 어셈블리/수송 성분 CsgF

13362170 913927 추정의 외막 단백질

13361473 917203 추정의 BigB 유사 단백질

13364025 915286 EspF 단백질

13360081 916982 페릭 엔테로박틴(엔테로켈린), 콜리신 B 및 D용 외막 수용체

13362977 914779 가정의 지단백질

13360351 917632 외막 단백질 X

13360696 914208 추정의 외막 전구체

13361456 917206 추정의 외막 단백질

13361626 917374 추정의 숙주 외막 단백질 전구체

13361698 917449 추정의 외막 단백질

13362186 913421 추정의 외막 단백질 전구체

13362697 915676 장쇄 지방산 수송 단백질 FadL

13360918 914188 플라젤라 후크(hook) 단백질 FlgE

13360737 912506 추정의 외막 단백질

13360342 917629 철 수송을 위한 추정의 외막 수용체

13363396 916248 외막 채널 TolC

13361958 912705 무레인(murein) 합성 전효소의 형성에 있어서 추정 의 스캐폴딩(scaffolding) 단백질

13359921 914566 뉴클레오사이드-특이 채널-형성 단백질 TSX

13360944 913890 철 흡수를 위한 외막 수용체

13359998 914644 추정의 외막 수송 단백질

13363390 916251 추정의 페리크롬 철(ferrichrome iron) 수용체 전구체

13364227 915153 외막 포스폴리파아제A

13361982 912846 추정의 외막 단백질

13360129 917032 마이너 지단백질

13361817 912692 추정의 외막 단백질

13360233 917507 멤브레인 스패닝(spanning) 단백질 TolA

13362837 915218 추정의 외막 지단백질

13362328 912985 추정의 콜라닉산(colanic acid) 생합성 글리코실 트랜스퍼라제

헤모필루스 인플루엔자 Rd

16272254 949521 프레필린(prepilin) 펩티다제 의존적 단백질 D

16272928 950762 면역글로빈 A1 프로테아제

16272129 951072 지단백질

16273251 950616 헤모글로빈 결합 단백질

30995429 950130 혼탁(opacity) 단백질

16272854 949634 보호 표면 항원 D15

16272283 950648 혼탁 관련 단백질

16272604 949701 헤모글로빈 결합 단백질

헬리코박터 필로리 J99

4155101 889167 추정의 액포형성(vacuolating) 세포독소(VacA) 파라로그(paralog)

4154798 890022 추정의 액포형성 세포독소(VacA) 파라로그

4155426 890036 추정의 액포형성 세포독소(VacA) 파라로그

4155390 890075 액포형성 세포독소

4155400 890058 외막 단백질-어드헤신

4155681 889718 추정의 외막 단백질

4155420 890042 외막 단백질/포린

4155775 889799 외막 단백질-어드헤신

4155419 890044 외막 단백질/포린

4154526 889066 추정의 외막 단백질

4154724 889419 추정의 외막 단백질

4155862 890404 추정의 외막 단백질

4156048 889958 추정의 IRON(III) 디사이트레이트 수송 단백질

4154510 889297 추정의 외막 단백질

4155432 889515 추정의 외막 단백질

4155623 889671 추정의 외막 단백질

4155700 889739 추정의 외막 기능

4154740 889426 외막 단백질/포린

4155692 889743 추정의 외막 단백질

4155594 889648 추정의 외막 단백질

4155680 889719 추정의 외막 단백질

4155217 890243 추정의 외막 단백질

4155958 889905 추정의 외막 단백질

4155201 890259 추정의 외막 단백질

4155013 889232 cag 섬 단백질

4154974 889032 추정의 외막 단백질

4155214 890244 추정의 외막 단백질

4154973 889042 외막 단백질

4155344 890115 추정의 외막 단백질

4155099 889160 플라젤린 A

4155023 888978 cag 섬 단백질

4155035 889201 cag 섬 단백질, 세포독소 관련 면역 우성 항원

4155289 890164 뉴라미닐락토오스-결합성 헤마글루티닌 전구체

미코플라스마 뉴모니아

13507881 877207 세포접착에 관여(involved in cytadherence)

1350780 877268 ADP1_MUCPN 어드헤신 P1

13508228 877211 종 특이 지단백질

13508181 877124 종 특이 지단백질

13508179 877071 몰리큐트(mollicute) 특이 지단백질, MG307 상동, M. 제니탈리움 유래

13508178 877118 몰리큐트 특이 지단백질, MG307 상동, M. 제니탈리움 유래

13508176 876797 몰리큐트 특이 지단백질, MG307 상동, M. 제니탈리움 유래

13508175 876848 몰리큐트 특이 지단백질, MG307 상동, M. 제니탈리움 유래

13508106 876953 세포부착에 관여

13508340 877112 포스페이트 결합 단백질 Psts과 유사

미코박테리움 투베르쿨로시스 H37 Rv

15607496 886491 PPE

15607445 886592 PPE

15610644 888270 PE_PGRS

15608588 886605 PE_PGRS

15609627 887941 PE_PGRS

15610643 888256 PE_PGRS

15607718 887725 PE_PGRS

15609054 885362 PPE

15610486 888113 PPE

15610483 888120 PPE

15610479 888033 PPE

15609771 888573 PE_PGRS

15610648 888306 PE_PGRS

15610481 888114 PE_PGRS

15608117 885264 PE_PGRS

15607973 885391 PE_PGRS

15608231 885258 PE_PGRS

15608906 885429 PE_PGRS

15608891 885544 PPE

15609990 888171 PE_PGRS

15609055 885506 PPE

15608227 887094 PE_PGRS

15610524 888151 PE_PGRS

15609490 886003 PPE

15607886 888664 PE_PGRS

15609624 887909 PE_PGRS

15607420 886621 PE_PGRS

15608897 885325 PE_PGRS(wag22)

15608590 886595 PE_PGRS

15609728 887992 PE_PGRS

15608012 885742 PE_PGRS

15608534 886745 PE_PGRS

15608940 885730 PE_PGRS

15607887 888662 PE_PGRS

15609235 888312 PE_PGRS

15610694 887822 PPE

15609533 885517 PE_PGRS

15610480 PE_PGRS

리케치아 프로와제키 주 Madrid E

15604316 883411 세포 표면 항원(sca3)

15604546 883694 세포 표면 항원(sca5)

포르피로모나스 진기발리스 W83

34541453 2551934 헤마글루티닌 단백질 HagA

34540040 2551409 지단백질, 추정

34540364 2552375 세포박 프로테아제, 추정

34541613 2552074 헤마글루티닌 단백질 HagE

34540183 2551891 인터날린-관련 단백질

시겔라 플렉스네리 2a str. 2457T

30065424 1080663 마이너 핌브리아 서브유닛, D-만노스 특이 어드헤신

30062726 1077662 추정의 부착 및 침투 담백질

30063758 1078834 추정의 핌브리아계 단백질

30065431 1080671 메이저 타입1 서브유닛 핌브린(필린)

30063366 1078379 플라젤라 단백질 FliD

30064308 1079668 외막 플루핑(fluffing) 단백질

30062613 1077555 플라젤라 후크 단백질 FlgE

30061954 1076843 가정의 보존적 지단백질

30065173 1080393 추정의 리파제

30065425 1080664 마이너 핌브리아 서브유닛, 폴리펩티드 전구체

30064485 1079637 추정의 핌브리아 단백질

30062615 1077558 플라젤라 기저 소체 L-고리 단백질 FlgH

30064307 1079452 외막 플루핑(fluffing) 단백질

30065601 1080859 추정의 당단백질/수용체

30062118 1077025 추정의 핌브리아계 단백질

30064099 1079223 지단백질

30062616 1077559 플라젤라 기저 소체 P-고리 단백질 FlgI

30063546 1078596 추정의 핌브리아계 단백질

30062940 1077910 추정의 외막 단백질

30065426 1080665 마이너 핌브리아 서브유닛, 전구체 폴리펩티드

30062779 1077721 추정의 외막 단백질

30064194 1079329 추정의 지단백질

30063365 1078378 플라젤린

30062298 1077222 외막 단백질 X

30064968 1080175 추정의 메이저 핌브리아 서브유닛

30061858 1076740 외막 포어 단백질 E(E, Ic, NmpAB)

30062178 1080410 마이너 지단백질

30062479 1077412 추정의 핌브리아계 단백질

30062565 1077506 마이너 쿠를린 전구체

30063880 1078972 추정의 외막 지단백질

30064531 1079686 세포막 단백질

30065033 1080243 추정의 수용체 단백질

스트렙토코커스 뮤탄스 UA159

24378550 1029610 추정의 분비성 항원 GbpB/SagA; 추정의 펩티도글리칸 하이드롤라제

24379087 1028055 세포 표면 항원 SpaP

24380463 1029310 추정의 막 단백질

24379075 1028046 페니실린 결합 단백질 2b

24378955 1027967 페니실린 결합 단백질 1a; 막 카르복시펩티다제

24379801 1028662 글루칸 결합 단백질 C, GbpC

24379528 1029536 가상 단백질; 아마 세포벽 단백질, WapE

24379231 1028158 추정의 글루칸 결합 단백질 D; BglB 유사 단백질

24380488 1029325 가정의 보존적 단백질; 트랜스박 단백질일 가능성

24380291 1029139 추정의 아미노산 결합 단백질

24379432 1028247 추정의 페니실린 결합 단백질, 클래스 C; fmt 유사 단백질

24380047 1028904 추정의 ABC 수송체, 분지 쇄 아미노산 결합 단백질

24378698 1029755 추정의 ABC 수송체, 금속 결합 지단백질; 표면 어드헤신 전구체; 타액 결합 단백질; 지단백질 수용체 LraI(LraI family)

24378708 1029768 추정의 수송 단백질

24379427 1028331 세포벽 조합 단백질 전구체 WapA

24379272 1028196 추정의 아미노산 수송체, 아미노산 결합 단백질

24379641 1028511 추정의 ABC 수송체, 아미노산 결합 단백질

스트렙토코커스 뉴모니아 R6

15902395 934801 콜린 결합 단백질

15902381 934810 콜린 결합 단백질 F

15902165 932894 표면 단백질 pspA 전구체

15904047 934859 콜린 결합 단백질 D

15904036 933487 콜린 결합 단백질 A

15903986 933069 콜린 결합 단백질

15903796 933669 오토리신(N-acetylmuramoyl-L-alanine amidase)

네이세리아 메닌지티디스 Z2491

15794121 907145 추정의 막 단백질

15794144 907168 추정의 표면 피브릴 단백질

15793284 906275 절단된 필린

15793460 906456 IgA-특이적 세린 엔도펩티다제

15793282 906273 핌브리아 단백질 전구체(필린)

15793337 906332 어드헤신

15793253 906243 추정의 지단백질

15794356 907848 추정의 지단백질

15793684 906699 추정의 막 단백질

15793290 906281 절단된 필린

15793283 906274 절단된 필린

15793475 906471 헤모글로빈-헵토글로빈-이용 단백질

15793406 906401 포린, 메이저 외막 단백질 P.I

15794985 907333 어드헤신 MafA2

15794344 907836 추정의 지단백질

15794622 908118 가상 외막 단백질

15793599 906604 필러스-관련 단백질

15793763 906779 추정의 세포막간 공간(periplasmic) 결합 단백질

스트렙토코커스 피오게네스 MGAS8232

19745214 995235 추정의 분비성 단백질

19746570 994224 추정의 페니실린-결합 단백질 1a

19745593 994771 추정의 42 kDa 단백질

19745813 993958 추정의 어드헤신 단백질

19745225 994839 추정의 콜린 결합 단백질

19745828 995250 스트렙토리신 S 관련 단백질

19746229 995021 추정의 메이저 꼬리(tail) 단백질

19746909 994105 추정의 라미닌(laminin) 부착

19745560 995061 추정의 세포를 세포 막(envelope) 프로테아제

트레포네마 팔리듐 subsp. 팔리듐 str. Nichols

15639714 2611034 플라젤라 후크 단백질(flgE)

15639609 2611657 tpr 단백질 J(tprJ)

15639111 2610909 tpr 단백질 C(tprC)

15639125 2610968 tpr 단백질 D(tprD)

SARS 코로나바이러스

31581505 스파이크 단백질 S [SARS 코로나바이러스 프랑크푸 르트1]

32187357 스파이크 단백질 S [SARS 코로나바이러스 HSR1]

32187342 스파이크 당단백질 [SARS 코로나바이러스 ZJ01]

30698329 추정의 스파이크 당단백질 S [SARS 코로나바이러스 TW1]

30421454 추정의 스파이크 당단백질 [SARS 코로나바이러스 CUHK-Su10]

30027620 S 단백질 [SARS 코로나바이러스 어바니]

29836496 1489668 E2 당단백질 전구체, 추정의 스파이크 당단백질 [SARS 코로나바이러스]

30795145 스파이크 당단백질 [SARS 코로나바이러스 Tor2]

31416295 스파이크 당단백질 S [SARS 코로나바이러스 GD01]

30023954 추정의 E2 당단백질 전구체 [SARS 코로나바이러스 CUHK-W1]

30275669 스파이크 당단백질 S [SARS 코로나바이러스 BJ01]

29837498 3C 유사 프로테아제 nsp5-pp1a/pp1ab(3CL-PRO) [SARS 코로나바이러스]

29837501 추정의 nsp8-pp1a/pp1ab [SARS 코로나바이러스]

29838503 추정의 nsp10-pp1a/pp1ab; 이미 생장 인자계 단백질로 알려져 있음 [SARS 코로나바이러스]

29837502 추정의 nsp9-pp1a/pp1ab [SARS 코로나바이러스]

표 6: 표 2에 기재된 게놈에서 SPAAN으로 추정한 가정의 단백질들

(총 수 = 105)

단백질 GI 유전자 ID

수

E. coli 0157:H7

13363955 915578

13360000 914929

13362244 912369

13359999 914888

13361583 917316

13361172 913156

13361131 913207

13359780 914422

13360571 912499

13362197 912893

13362260 912399

13360947 913505

13361464 917196

13361635 917367

13362421 916655

13361463 917195

헤모필루스 인플루엔자 Rd

16272115 951058

30995442 950581

헬리코박터 파일로리 J99

4155526 889586

4155712 889748

4155632 889684

4156035 889468

4155499

미코플라스마 뉴모니아

13507870 877230

13508239 877245

13508109 876868

13508025 877084

13507838 876784

13507883 877183

13507871 877239

13507944 877056

13508241 876750

13507942 877055

13507840 877387

13507867 877242

13508201 877044

13507941 876985

13508114 877397

미코박테리움 투베르쿨로시스 H37Rv

15611014 886198

15610173 887320

15609513 885515

15608094 885411

15610958 886155

15607528 886436

15607678 887473

15609587 885760

15610708 887227

15609526 885246

15911033 886225

15969028 885094

15607730 887771

15609121 885813

15608255 885951

15608409 887039

15609124 885815

15607734 887797

리케치아 프로와제키 주 madrid E

15604649 883964

15604322 883472

15604659 883996

15604417 883217

포르피로모나스 진기발리스 W83

34540233 2551594

시겔라 플렉스네리 2a str. 2457T

30062687 1077638

30062956 1080449

30063681 1078754

30065435 1080675

30063891 1078983

30063211 1078195

30065233 1080463

30064387 1079531

30062638 1077590

30065236 1080466

30061839 1076721

스트렙토코커스 뮤탄스 UA159

24378864 1029452

24380475 1029319

24380237 1029088

24379203 1028139

24380480 1029320

24379275 1029489

24379291 1028216

24379295 1028215

24379804 1028663

24379162 1029417

24378987 1029363

24379179 1028118

24379166 1028107

24378827 1029444

24380216 1029067

스트렙토코커스 뉴모니아 R6

15902140 932867

15903446 934616

15903916 934001

15903848 933609

15902832 934332

15902372 934804

15902152 932889

네이세리아 메닌지티디스 Z2491

15793668 906680

15794714 997603

스트렙토코커스 피오게네스 MGAS8232

19747011 993608

19747024 994165

19747012 994373

19746396 995057

19746651 993824

19745883 995045

19745912 994077

트레포네마 팔리듐 subsp. 팔리듐 str. Nichols

15639844 2611061

15639720 2611059

표7

Papg(E.coli)

12837502

7407210

7407207

7407205

147096

4240529

7407203

42308

7443327

78746

18265934

26111419

26250987

26109826

26249418

13506767

42301

78745

129622

147092

13506906

7407209

147080

281926

7407199

147100

78744

SfaS(E.coli)

477910

264035

42959

134449

96425

FimH(E.coli)

26251208

26111640

5524634

29422425

5524630

29422435

29422415

10946257

29422419

11120564

29422457

11120562

29422459

5524632

29422455

29422453

29422451

29422449

29422447

29422445

29422443

29422437

29422433

29422431

29422429

29422427

29422423

29422421

29422417

729494

1361011

1790775

3599571

29422441

12620398

29422439

5524628

1787779

1742472

1742463

15801636

25321294

12515169

11120566

24051859

24112911

13360484

15800801

15830279

25392018

25500156

12514120

1787173

16128908

16501811

16759519

24051219

24112354

30040724

30062478

6650093

5524636

1778448

17384659

4388530

1389879

15723931

4323336

4323338

4323340

4323342

4323344

4323346

4323348

4689314

PrsG(E.coli)

42523

42529

7443328

7443329

1172645

HMW1(무타입 H. 인플루엔자)

282097

HMW2(무타입 H. 인플루엔자)

5929966

Hia(무타입 H. 인플루엔자)

25359682

25359489

25359709

25359628

25359414

25359389

21536216

25359445

HifE(H. 인플루엔자)

13506868

13506870

13506872

13506874

13506876

3688787

3688790

3688793

2126301

1170264

1170265

533127

535169

3025668

3025670

3025672

3025674

642038

MrkD(K. 뉴모니아)

127307

FHA(B.페르투시스)

17154501

Pertactin(B.페르투시스)

33571840

YadA(Y.엔테로콜리티카)

10955604

4324391

28372996

23630568

32470319

SpaP(S.뮤탄스)

26007028

47267

PAc(S.뮤탄스)

129552

SspA(스트렙토코커스 고르도니)

25990270

1100971

CshA(스트렙토코커스 고르도니)

457707

CshB(스트렙토코커스 고르도니)

18389220

ScaA(스트렙토코커스 고르도니)

310633

ScaB(스트렙토코커스 고르도니)

25055226

3220006

SpaA(스트렙토코커스 소브리누스)

546643

PAg(스트렙토코커스 소브리누스)

217036

47561

단백질 F(스트렙토코커스 피오게네스)

19224134

PsaA(스트렙토코커스 뉴모니아)

18252614

7920456

7920458

7920460

7920462

CbpA^e/SpsA/PbcA/PspC(스트렙토코커스 뉴모니아)

14718654

2425109

2576331

2576333

3153898

9845483

19548141

FimA(스트렙토코커스 파라산구이스)

97883

SsaB(스트렙토코커스 산구이스)

97882

EfaA(엔테로코커스 패칼리스)

493017

FnbA(스타필로코커스 아우레우스)

120457

FnbB(스타필로코커스 아우레우스)

581562

21205592

13702452

BabA(헬리코박터 파일로리)

13309962

13309964

13309966

13309968

13309970

13309972

13309974

13309976

13309978

13309980

13309982

13309984

13309986

13309988

13309990

13309992

13309994

효과:

1. 본 발명은 약물 발견 및 예방제에 매우 중요한 추정의 어드헤신을 발견하는 것을 보조한다.

2. 본 발명은 쿼리 단백질의 상동성은 다른 단백질과 독립적이므로, 고유한 단백질의 접착 특성을 예측하는데 유용하다.

3. 본 발명은 이용하기 간편하다. 출력치를 계산하기 위해, 단지 입력치로 아미노산 서열만 필요할 뿐이다. 접착 특성에 대한 정보를 얻기 위해, 그외 정보가 필요하진 않다.

참조문헌

1. Andrea, T. A., Kalayeh, H. (1991) Applications of neural networks in quantitative structure-activity relationships of dihydrofolate reductase inhibitors. J. Med. Chem. 34, 2824-2836.

2. Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. (1990) Basic local alignment search tool. J Mol Biol. 215 (3), 403-410.

3. Bassinet L, Gueirard P, Maitre B, Housset B, Goujon P, Guiso N. (2000) Role of adhesins and toxins in invasion of human tracheal epithelial cells by Bordetella pertussis. Infect Immun. 68 (4), 1934-1941.

4. Bock, K., et al. (1985). Specificity of binding of a strain of uropathogenic Escherichia coli to Gal alpha 1-4Gal-containing glycosphingolipids. J. Biol. Chem. 260, 8545-8551.

5. Brendel, V., Bucher, P., Nourbakhsh, I. R., Edwin Blaisdell, B., and Karlin, S. (1992) Methods and algorithms for statistical analysis of protein sequences. Proc. Natl. Acad. Sci. USA 89, 2002-2006.

6. Brennan, M. J., Delogu, G., Chen, Y., Bardarov, S., Kriakov, J., Alavi, M., Jacobs, W. R., (2001).

7. Evidence that Mycobacterial PEPGRS proteins are cell surface constituents that influence interactions with other cells. Infect. Immun, 69, 7326-7333.

8. De BK, Woolfitt AR, Barr JR, Daneshvar MI, Sampson JS, Ades EW, Carlone GM. (2003) Analysis of recombinant acylated pneumococcal surface adhesin A of Streptococcus pneumoniae by mass spectrometry. Arch Biochem Biophys. 15, 419 (2), 147-157.

9. Egland PG, Du LD, Kolenbrander PE (2001) Identification of independent Streptococcus gordonii SspA and SspB functions in coaggregation with Actinomyces naeslundii. Infect Immun. 69 (12), 7512-7516

10. Finlay, B. B. and Falkow, S. (1997) Common themes in microbial pathogenicity revisited. Microbiol. Mol. Biol. Rev. 61,136-169,

11. Fraser, C. M., Eisen, J., Fleischmann, R. D., Ketchum, K. A., Peterson, S. (2000) Comparative genomics and understanding of microbial biology. Emerg. Infect. Dis. 6, 505-6512

12. Halperin, S. A., Scheifele, D., Mills, E., Guasparini, R., Humphreys, G., Barreto, L., Smith, B. (2003) Nature, evolution, and appraisal of adverse events and antibody response associated with the fifth consecutive dose of a five- component acellular pertussis-based combination vaccine. Vaccine 21, 2298- 2306.

13. Hartford O, McDevitt D, Foster TJ. (1999) Matrix-binding proteins of Staphylococcus aureus: functional analysis of mutant and hybrid molecules. Microbiology. 145 (Pt 9), 2497-2505.

14. Hobohm, U. and Sander, C. (1995) A sequence property approach to searching protein databases. J. Mol. Biol. 251, 390-399.

15. Ide T, Michgehl S, Knappstein S, Heusipp G, Schmidt MA. (2003) Differential modulation by Ca²⁺ of type III secretion of diffusely adhering enteropathogenic Escherichia coli. Infect Immun. 71 (4), 1725-1732.

16. Langermann S et al. (2000) Vaccination with FimH adhesin protects cynomolgus monkeys from colonization and infection by uropathogenic Escherichia coli. J. Infect. Dis. 181, 774-778.

17. Lowe A. M., Lambert, P. A., Smith, A. W. (1995) Cloning of an Enterococcus faecalis endocarditis antigen: homology with adhesins from some oral streptococci. Infect Immun. 63, 703-706.

18. Maurer, L., Orndorff, P. (1987). Identification and characterization of genes determining receptor binding and pilus length of Escherichia coli type 1 pili. J. Bacteriol. 169,640-645

19. Marchler-Bauer A, Panchenko AR, Shoemaker BA, Thiessen PA, Geer LY, Bryant SH. (2002) CDD: a database of conserved domain alignments with links to domain three-dimensional structure. Nucleic Acids Res. 1, 30 (1), 281-283.

20. Neubauer H, Hensel A, Aleksic S, Meyer H. (2000) Evaluation of a Yersinia adhesion gene (yadA) specific PCR for the identification of enteropathogenic Yersinia enterocolitica. Int J Food Microbiol. 15, 57 (3), 225-227.

21. Nishikawa, K., Kubota, Y. and Ooi, T. (1983) Classification of proteins into groups based on amino acid composition and other characters. II. grouping into four types. J. Biochem. 94, 997-1007.

22. Peregrin-Alvarez, J. M., Tsoka, S., Ouzounis, C. A. (2003) The phylogenetic extent of metabolic enzymes and pathways. Genome Res. 13, 422-427.

23. Prinz, C., Hafsi, N. Voland, P. (2003) Helicobacter pylori virulence factors and the host immune response: implications for therapeutic vaccination. Trends in Microbiol. 11, 134-138.

24. Rapola, S., Jantti, V., Eerola, M., Helena Makela, P., Kayhty, H., Kilpi, T. (2003) Anti-PsaA and the risk of pneumococcal AOM and carriage. Vaccine 21, 3608-3613.

25. Rison. S. C., Teichmann S. A., Thornton J. M. (2002) Homology, pathway distance and chromosomal localization of the small molecule metabolism enzymes in Escherichia coli. J. Mol. Biol. 318, 911-932

26. Sperandio V, Bailey C, Giron JA, DiRita VJ, Silveira WD, Vettore AL, Kaper JB. (1996) Cloning and characterization of the gene encoding the OmpU outer membrane protein of Vibrio cholerae. Infect Immun. 64 (12), 5406-5409.

27. St Geme JW 3rd, Cutter D. (2000) The Haemophilus influenzae Hia adhesin is an autotransporter protein that remains uncleaved at the C terminus and fully cell associated. J Bacteriol. 182 (21), 6005-6013.

28. Thompson, J. D., Higgins, D. G., Gibson, T. J. (1994) CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22, 4673-4680

29. Van Schilfgaarde M, van Ulsen P, Eijk P, Brand M, Stam M, Kouame J, van Alphen L, Dankert J. (2000) Characterization of adherence of nontypeable Haemophilus influenzae to human epithelial cells. Infect Immun. 68 (8), 4658- 4665.

30. Wizemann, T. M., Adamou, J. E., Langermann, S. (1999). Adhesins as targets for vaccine development. Emerg. Infect. Dis. 5, 395-403,

31. Wolf, Y. I., Rogozin, I. B., Kondrashov, A. S., and Koonin, E. V. (2001) Genome alignment, evolution of prokaryotic genome organization and prediction of gene function using genomic context. Genome Res. 11, 356-372

32. Yu J, Leung WK, Go MY, Chan MC, To KF, Ng EK, Chan FK, Ling TK, Chung SC, Sung JJ. (2002) Relationship between Helicobacter pylori babA2 status with gastric epithelial cell turnover and premalignant gastric lesions. Gut. 51 (4), 480-484.

33. Zuegge, J., Ralph, S., Schmuker, M., McFadden, G. I., Schneider, G. (2001) Deciphering apicoplast targeting signals-feature extraction from nuclear- encoded precursors of Plasmodium falciparum apicoplast proteins. Gene 280, 19-26.

Claims

어드헤신 및 어드헤신계 단백질을 동정하기 위한 연산 방법으로서,

a. 신경 회로망 소프트웨어(neural network software)의 5가지 속성 모듈(attribute module)을 이용하여 단백질 서열의 서열 속성을 연산처리하는 단계로서, 상기 속성은 (i) 아미노산 빈도(amino acid frequency), (ii) 다중체 빈도(multiplet frequency), (iii) 디펩티드 빈도(dipeptide frequency), (iv) 전하 구성(charge composition) 및 (v) 소수성 구성(hydrophobic composition)인 연산처리 단계,

b. 연산처리한 5가지 속성들 각각에 대한 인공 신경 회로망을 훈련하는(training) 단계; 및

c. 어드헤신(adhesin)과, 어드헤신일 확률 값(P_ad)이 >0.51인 어드헤신계 단백질을 동정하는 단계;

를 포함하는 연산 방법.
제 1항에 있어서, 상기 단백질 서열은 병원체, 진핵생물 또는 다세포 유기체로부터 수득된 것을 특징으로 하는 연산 방법.
제 1항에 있어서, 상기 단백질 서열은 대장균(E. coli), 헤모필러스 인플루엔자(Haemophilus influenzae), 헬리코박터 필로리(Helicobacter pylori), 미코플라 스마 뉴모니아(Mycoplasma pneumoniae), 미코박테리움 투베르쿨로시스(Mycobacterium tuberculosis), 리켓차 프로와제키(Rickettsiae prowazekii), 포르피로모나스 진저발리스(Porphyromonas gingivalis), 쉬겔라 플렉스네리(Shigella flexneri), 스트렙토코커스 뮤탄스(Streptococcus mutans), 스트렙토코커스 뉴모니아(Streptococcus pneumoniae), 네이세리아 메닌지티디스(Neisseria meningitides), 스트렙토코커스 피오게네스(Streptococcus pyogenes), 트레포네마 팔리듐(Treponema pallidum) 및 중증 급성 호흡기 증후군의 인간 코로나바이러스(Severe Acute Respiratory Syndrome associated human coronavirus, SARS)로 이루어진 군으로부터 선택된 병원체로부터 수득된 것을 특징으로 하는 연산 방법.
제 1항에 있어서, 상기 방법은 비-상동성 방법인 것을 특징으로 하는 연산 방법.
제 1항에 있어서, 상기 방법은 상기 서열의 105가지의 구성적 특성을 이용하는 것을 특징으로 하는 연산 방법.
제 1항에 있어서, 상기 방법의 민감성(sensitivity)은 90% 이상인 것을 특징으로 하는 연산 방법.
제 1항에 있어서, 상기 방법의 특이성(specificity)은 100% 이상인 것을 특 징으로 하는 연산 방법.
제 1항에 있어서, 상기 방법은 관련성이 먼 유기체에서의 어드헤신 동정에 이용되는 것을 특징으로 하는 연산 방법.
제 1항에 있어서, 상기 신경 회로망은 입력층(input layer), 하나의 은닉층(hidden layer)과 출력층(output layer)으로 구성된 다층의 순방향 토폴로지(multi-layer feed forward topology)를 가지는 것을 특징으로 하는 연산 방법.
제 9항에 있어서, 상기 입력층의 신경의 수는 각 속성에 대한 데이타 입력 점 (input data point)의 수와 동일한 것을 특징으로 하는 연산 방법.
제 1항에 있어서, 상기 "P_ad"는 5가지의 연산된 속성들에 대한 확률 값들의 선형 가중 합(weighted linear sum)인 것을 특징으로 하는 연산 방법.
제 1항에 있어서, 각각의 훈련된 회로망은 상기 단백질 서열에 대해 어드헤신일 확률 값을 할당(assign)하는 것을 특징으로 하는 연산 방법.
제 1항의 방법을 수행하기 위한 컴퓨터 시스템으로서,

CPU(central processing unit), 디스플레이 및 사용자 인터페이스 장치를 포 함하며,

상기 CPU는 인공 신경 회로망을 이용하여 여러가지 속성들을 기초로 확률을 제공하는 SPAAN 프로그램과, 상기 CPU에 의해 액세스(access)되는 기억 장치에 저장된 속성을 평가하는 프로그램을 실행하며;

상기 디스플레이 상에는, 사용자의 입력에 따라 상기 CPU가 실행하는 상기 프로그램들의 스크린이 표시되는 것을 특징으로 하는, 컴퓨터 시스템.
서열번호 385 내지 658을 가지며, 어드헤신 및 어드헤신계 단백질을 코딩하는 274개의 유전자의 세트.
서열번호 659 내지 763을 가지며, 어드헤신 및 어드헤신계 단백질을 코딩하는 105개의 가정(hypothetical)의 유전자의 세트.
서열번호 1 내지 279을 가지며, 어드헤신 및 어드헤신계 단백질을 코딩하는 279개의 유전자의 세트.
서열번호 280 내지 384을 가지며, 어드헤신 및 어드헤신계 단백질을 코딩하는 105개의 가정의 유전자의 세트.
제 1항에 따른 연산 처리 방법을 기초로한, 완전히 연결된 다층 순방향 인공 신경 회로망으로서,

상기 회로망은 입력층, 은닉층 및 출력층이 이러한 기재 순서대로 연결되어 있고,

상기 각 신경은 이진수(binary digit number)이며 어드헤신이나 어드헤신계 단백질을 동정하기 위해 후속 층의 각 신경과 연결되어 있으며,

그 프로그램은

a) FASTA 형식으로 단백질 서열을 입력하는 단계;

b) 단백질 서열의 5가지 구성적 속성을 정량화하여 수치 입력 벡터(numerical input vector)의 합이 105인 속성들 각각에 대한 각각의 수치 입력 벡터를 구하기 위한 다중항(multiplet)에서, 상기 단계 a)의 서열을 A, C, D, H 및 M으로 명명한 5가지 모듈로 처리하는 단계로, 속성 A는 아미노산 조성이며, 속성 C는 전하 구성이며, 속성 D는 20개의 디펩티드(NG, RE, TN, NT, GT, TT, DE, ER, RR, RK, RI, AT, TS, IV, SG, GS, TG, GN, VI 및 HR)의 디펩티드 조성이며, 속성 H는 소수성 구성이며, 속성 M은 아미노산 빈도인, 처리 단계;

c) 시그널을 얻기 위해, 입력 신경 층에서 단계 b)에서 구한 수치 입력 벡터를 처리하는 단계로, 신경의 수는 각 속성에 대한 수치 입력 벡터의 수와 동일한, 처리 단계;

d) 시냅스 가중 신호(synaptic weighted signal)을 구하기 위해 은닉층에서 단계 c)로부터 수득한 신호를 처리하는 단계로, 은닉층의 최적 신경의 수는 각 개별적인 회로망의 최적기에서 에러를 최소화하기 위한 실험을 통해 결정되는, 처리 단계;

e) 각 회로망 모듈에 의해 단계 a)에서 입력한 각 단백질 서열이 어드헤신일 확률 값을 할당하기 위하여, 단계 d)의 시냅스 가중 신호를 출력층에 전달하는 단계; 및

f) 단백질 서열이 P_ad 값으로 표시되는 어드헤신일 최종 확률을 연산하기 위해, 단계 e)의 개별적인 확률을 이용하는 단계로, P_ad 값은 단계 e)에서의 개별적인 확률들의 가중 평균이고 예측 강도의 측정치인 관련 상관 비율(associated fraction of correlation)인, 단계를 포함하는 프로그램 단계인, 다층 순방향 인공 신경 회로망.
제 18항에 있어서, 상기 입력층의 신경은 105가지의 구성적 특성에 상응하는 총 105개의 신경을 포함하는 것을 특징으로 하는 다층 순방향 인공 신경 회로망.
제 18항에 있어서, 상기 은닉층은 아미노산 빈도에 대해 30개, 다중체 빈도에 대해 28개, 디펩티드 빈도에 대해 28개, 전하 구성에 대해 30개 및 소수성 구성에 대해 30개로 표시된 신경을 포함하는 것을 특징으로 하는 다층 순방향 인공 신경 회로망.
제 18항에 있어서, 상기 출력층은 각 단백질 서열에 대한 확률 값으로서 출 력치를 전달하기 위한 신경들을 포함하는 것을 특징으로 하는 다층 순방향 인공 신경 회로망.