KR20130023378A

KR20130023378A - 아미노산의 복합 패턴을 확인하는 시스템 및 방법

Info

Publication number: KR20130023378A
Application number: KR1020137002241A
Authority: KR
Inventors: 사무엘 보고치; 엘레노어 에스 보고치
Original assignee: 엘레노어 에스 보고치; 사무엘 보고치
Priority date: 2004-04-28
Filing date: 2005-04-28
Publication date: 2013-03-07
Also published as: NZ550512A; CA2565006A1; WO2005104754A3; AU2005237587A1; HK1100414A1; EP2390804A3; EP1745401A2; SG196773A1; KR101270934B1; KR20060127253A; CN1947122B; JP2007535766A; KR101398851B1; WO2005104754A2; CN1947122A; EP2390804A2; IL178469A0; SG163553A1; EP1745401B1

Abstract

컴퓨터 파일 또는 데이터베이스 내에 저장된 아미노산 서열 내 복합 패턴을 확인하고/또는 위치를 정하는 방법 및 시스템이 개시된다. 본 발명의 관점에 따라 단백질 데이터베이스의 질문을 용이하게 하는 기술이 제공된다. 질문에 응답하여 수신된 단백질 해설을 위해 본 발명의 실시태양은 레플리킨 패턴을 확인하고 위치를 정하는 수신된 단백질 해설을 스캔한다. 레플리킨 패턴은 하기 3가지 특성을 포함하고 그 각각은 본 발명의 실시태양에 의해 인식되는 7～50개 아미노산의 서열로 한정된다: (1) 서열은 두 번째 리신 잔리로부터 6～10개 아미노산 잔기에 위치한 적어도 하나 이상의 리신 잔기를 지니고; (2) 서열은 적어도 하나 이상의 히스티딘 잔기를 지니고; (3) 서열 내 적어도 6% 이상의 아미노산이 리신 잔기이다.

Description

아미노산의 복합 패턴을 확인하는 시스템 및 방법{System and method for identifying complex patterns of amino acids}

본 출원은 2004년 4월 28일 출원된 "아미노산의 복합 패턴을 확인하는 시스템 및 방법"이라는 명칭의 미국 임시 특허 출원 제60/565,847호의 U.S.C. §119(e)에 따른 우선권을 청구한다. 또한 본 출원은 2005년 2월 16일 출원된 "아미노산의 복합 패턴을 확인하는 시스템 및 방법"이라는 명칭의 미국 임시 특허 출원 제60/653,083호의 U.S.C. §119(e)에 따른 우선권을 청구한다. 이 두 임시 출원 모두는 참고문헌으로 포함된다.

더욱이 본 출원은 2001년 10월 26일 출원된 "레플리킨 및 레플리킨-포함 서열의 확인 방법"이라는 명칭의 미국 비-임시 특허 출원 제09/984,057호의 부분연속출원인 2002년 3월 26일 출원된 "신경교종 세포의 빠른 복제 및 인플루엔자 유행병 상의 레플리킨 펩타이드"이라는 명칭의 미국 비-임시 특허 출원 제10/105,232호의 부분연속출원인 2002년 7월 8일 출원된 "레플리킨 펩타이드 및 그의 이용"이라는 명칭의미국 비-임시 특허 출원 제10/189,437호의 부분연속출원이며 이의 우선권을 청구한다. 또한 본 출원은 2004년 6월 4일 출원된 "레플리킨 펩타이드 및 그의 이용"이라는 명칭의 미국 비-임시 특허 출원 제10/860,050호의 부분연속출원이며 이의 우선권을 청구한다.

본 발명은 일반적으로 생물정보학 분야에 관한 것이다. 더욱 상세하게는 본 발명은 뉴클레오타이드 또는 아미노산 서열의 복합 패턴의 확인을 용이하게 하는 기술에 관한 것이다.

잘 알려진 바와 같이 아미노산은 단백질의 빌딩 블록이다. 단백질은 대부분의 세포 구조물을 구성하고 일부 단백질은 세포 반응을 촉진시키는 효소로 작용한다. 20개의 다른 아미노산이 단백질 내에서 발생하는 것으로 알려져 있다. 각 단백질의 특성은 구성하고 있는 아미노산의 정확한 서열에 의해 부분적으로 지시된다.

아미노산 및 단백질의 데이터베이스는 예를 들어 미국 국립 의학 도서관의 National Center for Biotechnology Information(NCBI) 및 Los Alamos National Laboratory의 Influenza Sequence Database를 포함한 다양한 연구 기관에 의해 유지된다. 이들 데이터베이스는 일반적으로 연구자들이 특정 단백질을 검색할 수 있는 가능성을 제공하는 웹 페이지 통한 인터넷을 통해 입수 가능하다. 또한 이들 데이터베이스는 지역 정보 통신망 및 광지역 정보 통신망을 통해 연구자들에게 입수 가능하다. 더욱이 연구자들은 자기 디스크, 광 디스크, 정적 기억장치 및 다양한 당 분야 알려진 다른 디지털 저장 매체와 같은 주변 장치 상에 저장된 아미노산 및 단백질을 직접 입수한다.

아미노산 및 단백질 데이터베이스에서 아미노산은 일반적으로 알파벳 문자로 암호화된다. 도 1은 단백질에서 발생하는 것으로 알려진 각각의 아미노산을 기입하고 국제 순수 및 응용화학 연맹(IUPAC)에 의해 배급된 표준에 따라 아미노산이 데이터베이스 내에서 표기되는 3-문자 약어 및 단일-문자 코드를 제공한다.

제공된 단백질은 아미노산 서열에 의해 기술된다. 예를 들어 도 1에 제공된 단일-문자 코드를 이용하여 일련의 문자 "crvpsgvdla"는 하기 아미노산 서열으로 한정된 단백질에 상응한다: 시스테인, 아르기닌, 발린, 프롤린, 세린, 글리신, 발린, 아스파르트산, 류신 및 알라닌.

단백질 데이터베이스가 특정 기준을 만족시키는 단백질(예를 들어 인간 암 관련 단백질)에 대해 검색되는 경우 단백질 데이터베이스 검색 엔진은 수백 또는 수천개의 매칭 단백질을 확인함으로서 응답한다. 이러한 매칭 단백질 세트는 추가 검색 기준을 보충함으로서 범위가 축소된다. 검색 과정 동안 어떤 지점에서 특정 단백질은 선택되고 조사된다. 도 2에서 출력정보는 인간 암 관련 단백질에 대한 NCBI 검색으로부터 확인된 특정 단백질을 기술한다.

도 2에 나타난 바와 같이 단백질 설명은 다른 확인 인자 중에서 단백질 명칭(머리 및 목의 편평상피세포 암종 내 신규한 세린 상동체의 차별적 발현), 단백질 설명의 저자("Lang, J.C and Schuller, D.E") 및 단백질이 분리된 생물체("호모 사피엔스(Homo sapiens)")와 같은 정보를 기술하는 상세한 정보를 포함한다.

단백질 설명은 단백질을 한정하는 아미노산의 특정 서열을 포함한다. 예를 들어 도 2에서 아미노산 서열 데이터는 "ORIGIN"이라는 단어로 시작되는 출력정보의 섹션에서 단백질의 설명 말단에 나타난다. 본 예에서 첫 번째 몇 개 아미노산은 메티오닌, 티로신, 아르기닌, 프롤린, 아스파르트산, 발린, 발린, 아르기닌, 알라닌 및 아르기닌에 상응하는 "myrpdvvrar"(서열번호: 1)이다.

일부 단백질 설명은 단백질을 한정하는 아미노산 서열이 아닌 핵산 염기 서열을 포함한다. 알려진 바와 같이 3개 핵산 염기 서열(즉, 핵산 염기 삼중자)는 도 3에 나타난 표에 의해 제공된 맵핑에 따른 아미노산에 상응한다. 표에서 확인된 각각의 핵산 염기 삼중자는 특정 아미노산을 나타내거나 상응한다. 예를 들어 핵산 삼중자 GCT(구아닌-시토신-티민)은 아미노산 알라닌에 상응한다. 유사하게는 핵산 삼중자 GCA(구아닌-시토신-아데닌)도 아미노산 알라닌에 상응한다. 또다른 예로서 핵산 삼중자 AAA 및 AAG 각각(각각 아데닌-아데닌-아데닌 및 아데닌-아데닌-구아닌)은 아미노산 리신에 상응한다.

레플리킨 패턴

종전 특허 출원에서 본 발명자들은 "레플리킨(Replikin) 패턴" 또는 간단하게는 "레플리킨"으로 명명된 아미노산 패턴을 확인하고 기술하였다. 레플리킨 패턴은 하기 3가지 특성을 포함한 약 7～50개 인접 아미노산의 서열을 포함한다:

(1) 서열은 두 번째 리신 잔기로부터 6～10개 아미노산 잔기에 위치한 적어도 하나 이상의 리신 잔기를 지니고;

(2) 서열은 적어도 하나 이상의 히스티딘 잔기를 지니고;

(3) 서열은 적어도 6% 이상의 리신 잔기를 지님.

레플리킨은 진균, 효모, 바이러스, 박테리아, 조류 및 암세포 내에서 빠른 복제와 관련된 것으로 나타났다. 이러한 관련에 기반하여 레플리킨은 질병의 지표가 되는 것으로 판단된다. 더욱이 시간 경과에 따른 레플리킨 농도의 증가는 촉발한 질병 발병의 지표가 된다. 예를 들어 지난 세기의 3개 인플루엔자 유행병 (H1N1, H2N2 및 H3N2로 한정된) 각각의 발병 전에 상응하는 인플루엔자 바이러스 내의 레플리킨 농도의 유의적인 증가가 나타났다. H5N1 인플루엔자에 있어서, 도 4는 1997년(E1으로 표시됨), 2001년(E2로 표시됨) 및 2004년(E3으로 표시됨)의 유행병 발병 바로 전에 100개 아미노산 당 레플리킨의 농도의 빠른 증가를 나타낸다. 레플리킨 패턴은 폐, 뇌, 간, 연조직, 침샘, 비인강, 식도, 위, 결장, 직장, 담낭, 유방, 전립선, 자궁, 자궁경부, 방광, 눈의 암, 흑색종 형태, 임파종, 백혈병 및 신장암을 포함한 다양한 질병-관련 단백질에서 발견되었다. 중요하게는 레플리킨 패턴은 정상적인 건강한 인간 게놈에서는 존재하는 않는 것으로 나타난다. 도 5는 다양한 생물체에서 발견된 레플리킨 패턴의 선택된 예를 기입한 것이다.

예를 들어 C형 간염에서 발생한 13개-잔기 패턴 "hyppkpgcivpak"(서열번호: 18)(도 5의 종양 바이러스 카테고리의 마지막에 기입된 것)은 (1) 8개 위치가 떨어진 2개 리신 잔기를 포함하고; (2) 히스티딘 잔기를 포함하고; 리신 잔기의 백분율이 15.4%로 2/13이기 때문에 레플리킨 패턴이다.

아미노산 검색 도구

당분에 알려진 바와 같이 단백질 및 아미노산의 데이터베이스는 다양한 데이터베이스 및 검색 엔진을 이용하여 검색된다. 이들 공개적으로 이용 가능한 도구를 이용하여 아미노산 패턴이 기술되고 많은 다른 생물체에 상응하는 많은 다른 단백질 내에 위치한다. 아미노산 패턴이 기술되는 일부 방법 및 기술이 이용 가능하다. 하나의 통상적인 포맷은 PROSITE 패턴이다. PROSITE 패턴 설명은 하기 규칙에 따라 집합된다:

(1) 아미노산에 대한 표준 국제 순수 및 응용화학 연맹(IUPAC) 1-문자 코드가 사용됨(도 1 참조).

(2) 기호 'x'는 어떠한 아미노산도 수용되는 위치에 대해 사용됨.

(3) 다의성은 대괄호 '[]' 사이에 제공된 위치에 대한 수용가능한 아미노산을 기입함으로서 표시됨. 예를 들어: [ALT]는 알라닌 또는 류신 또는 트레오닌을 의미함.

(4) 또한 다의성은 제공된 위치에서 수용되지 않는 아미노산을 중괄호 '{}' 사이에 기입함으로서 표시됨. 예를 들어: {AM}은 알라닌 및 메티오니을 제외한 아미노산을 의미함.

(5) 패턴 내 각각의 요소는 '-'에 의해 그의 인접부와 분리됨.

(6) 패턴 요소의 반복은 괄호 사이에서 요소 다음에 수치 및 숫자 범위가 뒤따름으로서 표시될 수 있음. 예: x(3)은 x-x-x에 상응하고, x(2,4)는 x-x 또는 x-x-x 또는 x-x-x-x에 상응함.

(7) 패턴이 서열의 N- 또는 C-말단에 제한되는 경우 패턴은 '<' 기호로 시작되거나 각각 '>' 기호로 종결됨.

(8) 주기가 패턴을 종결함.

PROSITE 패턴의 예는 하기를 포함한다:

PA [AC]-x-V-x(4)-{ED}. 본 패턴은 다음과 같이 해석된다: [알라닌 또는 시스테인]-임의-발린-임의-임의-임의-임의-{글루탐산 또는 아스파르트산을 제외한 것}.

PA <A-x-[ST](2)-x(0,1)-V. 서열의 N-말단 내에 존재해야 하는('<') 본 패턴은 다음과 같이 해석된다: 알라닌-임의-[세린 또는 트레오닌]-[세린 또는 트레오닌]-(임의 또는 업음)-발린.

아미노산 서열 패턴을 기술하기 위한 또다른 통상적인 포맷은 컴퓨터 과학자에게 익숙한 정규 표기 포맷이다. 컴퓨터과학에서 정규 표기는 일반적으로 한정된 자동장치가 언어로 암호를 인식하도록 자동으로 구성될 수 있는 문자 패턴을 기술하는데 사용된다. 가능하게는 가장 유명한 정규 표기 검색 도구는 Unix utility grep이다.

아미노산 서열 패턴 설명시 단순화된 정규 표기 능력 세트가 일반적으로 이용된다. 이들 단순한 정규 표기 규칙에 의해 한정된 아미노산 서열 패턴은 외관 및 결과 모두에 대해 PROSITE 패턴과 매우 유사한 관찰을 종결한다. 아미노산 서열에 대한 정규 표기 설명은 하기 규칙에 따라 생성된다:

(1) 아미노산 잔기에 대해 대문자를 사용하고 2개 아미노산 사이에 "-"를 삽입함(필수적이지 않음).

(2) 특정 위치에서 다수의 아미노산의 선택을 위해 "[...]"를 사용함. [LIVM]은 아미노산 L, I, V 또는 M 중의 하나가 그 위치 내에 존재할 수 있음을 의미함.

(3) 아미노산을 배제시키는데 "{...}"를 사용함. 따라서 {CF}는 C 및 F가 그 특정 위치에서 존재하지 않아야 함을 의미함. 일부의 시스템에서 배제 능력은 "^" 문자로 명기될 수 있음. 예를 들어 ^G는 글리신을 제외한 모든 아미노산을 표현하고 [^ILMV]는 I, L, M 및 V를 제외한 아미노산을 표현함.

(4) 어떠한 아미노산도 될 수 있는 위치에 대해 "x" 또는 "X"를 사용함.

(5) 다수의 위치에 대한 n인 숫자인 "(n)"을 사용함. 예를 들어 x(3)은 "xxx"와 동일함.

(6) 다수 또는 변이 가능한 위치에 대해 "(n1,n2)"를 사용함. 따라서 x(1,4)는 "x" 또는 "xx" 또는 "xxx" 또는 "xxxx"를 표현함.

(7) N 또는 C 말단을 매치시키는 패턴을 필요로 하기 위해 패턴의 시작 또는 말단에서 기호 ">"를 사용함. 예를 들어 ">MDEL"(서열번호: 108)은 MDEL(서열번호: 108)로 시작하는 서열만을 발견한다. "DEL>"은 DEL로 끝나는 서열만을 발견한다.

정규 표기, "[LIVM]-[VIC]-x(2)-G-[DENQTA]-x-[GAC]-x(2)-[LIVMFY](4)-x (2)-G"는 위치 1에서 L, I, V 또는 M; 위치 3 및 4에서 임의의 잔기; 위치 5에서 G ... 등을 지닌 17개 아미노산 펩타이드를 나타낸다.

다른 유사한 포맷도 사용된다. 예를 들어 뉴클레오타이드 및 단백질 데이터베이스의 신속한 검색 도구를 제공하는 Basic Local Alignment Search Tool (BLAST)는 인터넷에서 이용 가능한 잘-알려진 시스템이다. BLAST는 3개 포맷의 입력 서열을 수용한다: FASTA 서열 포맷, NCBI 수납 번호 또는 GenBank 서열 번호. 그러나 이들 포맷은 정규 표기 또는 PROSITE 패턴보다 구조면에서 훨씬 더 단순하다. FASTA 포맷의 서열 예는 하기와 같다(서열번호: 3) :

BLAST 시스템의 특징은 유사성 영역을 공유하는 서열 중에 관련성을 검출하기 위해 국부적 정력의 영역에 대해 서열 데이터베이스를 검색하는데 이용되는 서열 비교 알고리즘을 포함한다. 그러나 BLAST 도구는 발견되고 위치할 수 있는 아미노산 서열 구조 측면에서 한정적이다. 예를 들어 BLAST는 레플리킨 펩타이드에 의해 요구되는 두 번재 리신 잔기로부터 6～10개 아미노산 잔기에 위치한 적어도 하나 이상의 리신 잔기를 지닌 서열에 대해 검색하는 것이 가능하지 않다. 또한 BLAST는 "적어도 6% 이상의 리신 잔기"를 지닌 서열과 같은 특정 아미노산의 명기된 백분율 또는 농도를 포함한 아미노산 서열을 검색하는 것도 불가능하다.

레플리킨 검색 도구에 대한 요구

그의 정의에서 나타난 바와 같이 레플리킨 패턴 설명은 아미노산의 단일 선형 서열로 표현될 수 없다. 따라서 결여, 통합 및 농도와 같은 논리적 세트-구성적 실시를 뒤따름으로서 수득된 일련의 순서를 기술하는데 적합한 PROSITE 패턴 및 정규 표기는 레플리킨 패턴을 기술하는데 부적당하다.

아미노산의 선형 서열과 대조적으로 레플리킨 패턴은 단순한 인접 순서를 능가하는 아미노산 특성에 의해 특성화된다. 특히, 레플리킨 패턴은 적어도 6% 이상의 리신 잔기를 포함한다는 요구조건은 레플리킨 패턴 내 리신 잔기의 실제 배치가 매우 제한적이지 않음을 의미한다. 따라서 일반적으로 단순한 PROSITE 패턴 또는 단순한 정규 표기를 이용하여 레플리킨 패턴 설명을 나타내는 것은 불가능하다.

따라서 제공된 아미노산 서열을 스캔하고 레플리킨 패턴의 모든 경우를 확인하는 시스템 및 방법이 당분야에 요구된다. 유사하게는 레플리킨 패턴을 매치시키는 아미노산 서열에 대한 단백질 데이터베이스 및 아미노산 데이터베이스를 검색하는 시스템 및 방법이 당분야에 요구된다. 더욱이 연구잘들이 하기 특성의 바람직한 조합을 포함한 임의로 명기된 아미노산 서열의 위치를 정하는 것을 가능하게 하는 일반화된 검색 도구가 당분야에 요구된다: (1) 두 번째 아미노산 잔기로부터 N 위치 이상 및 M 위치 이하에 위치한 첫 번째 아미노산 잔기; (2) 서열 내 어떠한 곳에도 위치한 세 번째 아미노산 잔기; 및 (3) 서열이 네 번째 아미노산 잔기의 적어도 R 이상의 퍼센트를 포함함. 따라서 선행기술의 단점은 질병 예측 및 치료 관련 연구 분야에서 훨씬 더 명백하다. 질병의 발병을 미리 예측하고(예를 들어 균주-특이적 인플루엔자 유행병을 예측하기 위해) 유사하게는 합성 백신이 단백질 및 아미노산 서열을 검색하는 선행 방법에 의해 종전에 검출 가능하지 않고 장기간 보존된 것으로 발견된 아미노산 서열 또는 아미노산 모티프에 기반하여 고안될 수 있게 하는 시스템이 당분야에 요구된다.

도 1은 아미노산이 국제 순수 및 응용화학 연맹(IUPAC)에 의해 배급된 표준에 따른 단일 알파벳 문자로 암호화될 수 있게 하는 전환표이다.
도 2는 국립생물정보센터(NCBI)에 의해 유지되는 단백질 데이터베이스를 검색함으로서 수득된 인간 암 단백질(서열번호: 4)의 출력정보이다.
도 3은 핵산 염기 삼중자 및 아미노산 사이의 대응을 나타내는 전환표이다.
도 4는 3개 "조류 독감" 유행병의 발발 전 적혈구응집소의 선택된 균주 내 레플리킨 패턴의 농도 상의 빠른 증가를 나타내는 그래프이다.
도 5는 다양한 생물체에서 발견된 레플리킨 패턴의 선택된 예(서열번호: 10, 18, 43 및 48～89)를 나타낸 표이다.
도 6은 본 발명의 실시태양에 따른 아미노산 서열 내 레플리킨 패턴을 확인하는 시스템 및 방법을 통합시킨 컴퓨터 시스템의 고-수준 블록 도표이다.
도 7은 본 발명의 실시태양에 따른 아미노산 서열 내 레플리킨 패턴의 위치를 정하는 일반적 방법을 나타내는 단순한 순서도이다.
도 8은 본 발명의 실시태양에 따른 아미노산 서열 내 다수의 레플리킨-유사 패턴의 위치를 정하는 일반화된 방법을 나타낸 순서도이다.
도 9는 본 발명의 실시태양에 따른 아미노산 서열 내 레플리킨 패턴을 발견하는 절차를 포함한 출처 코드 목록이다.
도 10은 다른 단백질 내에서 실질적으로 고정된 아미노산 위치에서 발생하는 레플리킨 골격을 나타낸 표이다(서열번호: 5～9, 11～17, 19～42, 44～47, 90～107 및 2는 각각 상단에서 하단까지 개시됨).
도 11은 본 발명에 유용한 컴퓨터 시스템 플랫폼의 단순화된 블록 도표이다.

본 발명의 실시태양은 아미노산 서열 내 복합 패턴을 확인하거나 위치를 정하는 시스템 및 방법을 나타낸다. 본 발명의 관점에 따라 의문의 단백질 데이터베이스를 용이하게 하기 위한 기술이 제공된다. 의문에 반응하여 수신된 단백질 설명에 있어서 본 발명의 실시태양은 레플리킨 패턴을 확인하고 위치를 정하기 이해 수신된 단백질 설명을 스캔한다. 실시태양에 따라 레플리킨 패턴은 각각이 본 발명의 실시태양에 의해 인식되는 하기 3가지 특성을 포함한 약 7～50개 인접 아미노산의 서열이다: (1) 서열은 두 번째 리신 잔기로부터 6～10개 아미노산 잔기에 위치한 적어도 하나 이상의 리신 잔기를 지니고; (2) 서열은 적어도 하나 이상의 히스티딘 잔기를 지니고; (3) 서열 내 적어도 6% 이상의 아미노산이 리신 잔기임. 본 발명의 또다른 실시태양은 상세화된 길이 속박을 지닌 복합 아미노산 서열을 확인하거나 위치를 정하는 것이고, 또한 이는 하기 특성의 조합을 포함한다: (1) 두 번째 아미노산 잔기로부터 N 위치 이상 및 M 위치 이하로 떨어져서 위치한 첫 번째 아미노산 잔기; (2) 서열 내에 어떠한 위치에도 존재하는 세 번째 아미노산 잔기; 및 (3) 네 번째 아미노산 잔기의 적어도 R 퍼센트 이상. 또다른 실시태양에 따라 본 발명은 확인된 아미노산 서열의 발생을 계산하고 단백질 내 N 아미노산 당 확인된 아미노산 서열의 수의 본래 절대 수치 또는 비율로서 계산된 발생을 기록한다. 본 발명의 또다른 실시태양은 시간 경과에 따른 제공된 단백질의 변이체 내의 확인된 아미노산 서열 패턴의 진화를 분석하고, 또한 시간 경과에 따른 다수의 다른 단백질에 대한 확인된 아미노산 서열 패턴의 사례들 사이의 유사성 및 차이점을 분석한다. 분석 결과로서 또다른 본 발명의 실시태양은 확인된 아미노산 서열 패턴의 구성 요소가 돌연변이하거나 진화시 시간 경과 및 다른 단백질에 대해 보존된 것으로 나타난 잠재적인 아미노산 골격 구조를 확인한다.

본 발명의 실시태양들은 동반된 도면을 참고로 설명될 것이고, 유사 부분은 유사 참조번호로 나타내고 각 참조번호의 최좌측 숫자는 참조 부분이 먼저 나타난 도면의 도면 번호를 나타낸다.

도 6은 본 발명의 실시태양에 따라 아미노산 서열 내 레플리킨 패턴을 확인하는 시스템 및 방법을 통합시키는 컴퓨터 시스템의 상급 블록 도표이다. 도 6에 나타난 바와 같이 컴퓨터 워크스테이션(workstation) 610은 연구자가 단백질 데이터베이스를 검색하고 선택된 아미노산 패턴에 대한 단백질 해설을 스캔하는 것을 가능하도록 배열된 프로세서 및 메모리를 지닌 컴퓨터이다. 이러한 기능을 달성하기 위해 컴퓨터 워크스테이션 610은 사용자/연구자로부터 단백질 검색 및 아미노산 스캐닝 작업을 수행하는 명령을 수신하는 단백질 및 아미노산 조사 시스템 630을 포함한다. 실시태양에 따라 단백질 및 아미노산 조사 시스템 630은 레플리킨 패턴을 포함한 특정 아미노산 패턴에 대해 검색된 단백질 및 아미노산 서열을 스캔하고 검색하는 아미노산 스캐너 640을 더욱 포함한다. 단백질 및 아미노산 조사 시스템 630은 인터넷을 포함한 네트워크 660 상의 자료로부터 단백질 서열 및 아미노산 서열을 수득하기 위해 네트워크 인터페이스 620과 커뮤니케이트한다. 대안으로, 단백질 및 아미노사 조사 시스템 630은 지역 단백질 데이터베이스 650으로부터 단백질 서열 및 아미노산 서열을 수득한다. 더욱이 단백질 및 아미노사 조사 시스템 630은 키보드 입력과 같은 다른 입력 수단으로부터 단백질 서열 및 아미노산 서열을 직접 수득한다. 또한 단백질 및 아미노사 조사 시스템 630은 네트워크 660 상의 다른 컴퓨터로 결과를 전송하기 위해 네트워크 인터페이스 620과 커뮤니케이트한다.

레플리킨 패턴의 스캐닝

본 발명의 실시태양은 단백질 내 아미노산의 복합 패턴을 확인하는 일반화된 방법 및 시스템을 포함한다. 단백질 및 아미노사 조사 시스템 630에 의해 확인되거나 선택된 어떠한 단백질 정의를 위해 사용자는 아미노산의 다양한 복합 패턴을 검색하도록 본 발명의 실시태양을 지시한다. 아미노산의 하나의 패턴의 예로서 본 발명은 레플리킨 패턴을 포함한 뉴클레오타이드 또는 아미노산 서열의 확인 방법을 제공한다. 도 7은 본 발명의 실시태양에 따른 아미노산의 서열 내 레플리킨 패턴의 위치를 정하는 일반적 방법을 나타내는 단순한 순서도이다. 방법 700은 아미노산 서열이 수득된 후 시작된다. 일반적으로 아미노산 서열은 도 1에 나타난 코드에 따른 알파벳 문자에 따라 표기된다. 그러나 다른 암호화도 본 발명에 의해 계획된다.

도 7을 참고로, 아미노산 서열이 수득되면 서열이 하기 특성을 포함한 아미노산 부분서열(또는 스트링)을 포함한 레플리킨 패턴(710)에 대해 검색된다:

(1) 스트링은 약 7～50개 아미노산을 포함하고;

(2) 스트링은 두 번째 리신 잔기로부터 6～10 위치에 위치한 적어도 하나 이상의 리신 잔기를 포함하고;

(3) 스트링은 적어도 하나 이상의 히스티딘 잔기를 포함하고;

(4) 스트링은 적어도 6% 이상의 리신 잔기를 포함함.

아미노산 스트링이 레플리킨 패턴과 매치하는 것으로 판명되면 스트링은 이에 따라 확인되거나 표시된다(720).

아미노산의 제공된 서열은 레플리킨 패턴에 매치되는 많은 부분서열 또는 스트링을 포함한다. 따라서 레플리킨 패턴은 서로 중복된다. 따라서 아미노산 서열 내 모든 가능한 레플리킨 패턴의 위치를 정하고 확인하기 위해 방법 700은 본래 아미노산 서열 내에 포함된 아미노산의 각 부분서열에 대해 반복적으로 실시된다.

방법 700이 아미노산 서열 내 모든 가능한 레플리킨 패턴을 확인하고 위치를 정하기 위해 반복적으로 실시될 때 본 발명의 실시태양은 수득된 레플리킨 패턴의 수를 계산한다. 레플리킨 총계는 절대수로 기록된다. 더욱이 본 발명의 실시태양은 서열 내 N 아미노산 당 레플리킨 수의 비율을 측정한다. 예를 들어 실시태양은 제공된 단백질이 100개 아미노산 당 6개 레플리킨의 비율을 포함함을 측정한다. 레플리킨 비율은 실험실 실험 및 유행병 증거에 의해 제공된 단백질이 복제하는 비율과 직접 상호 관련된 것으로 나타났다. 단백질의 빠른 복제는 질병 징후이다. 예를 들어 매우 높은 비율이 레플리킨 패턴은 인플루엔자 유해병과 상호 관련되었다. 유사하게는 시간 경과에 따라 단백질에서 관찰된 레플리킨 패턴 총계의 증가도 단백질이 수득된 생물체로부터 유발되는 미래 질병의 징후이다(도 4 참조). 따라서 아미노산 서열 내 레플리킨 패턴을 검출하고 계산할 수 있는 능력은 본 발명의 유의적인 장점이다.

도 7을 참고로, 본 발명의 실시태양은 레플리킨 패턴과 유사한 특성을 나타내는 다른 아미노산 복합 패턴을 확인하고 위치를 정하는 방법 700을 이용한다. 즉, 본 발명의 일부 실시태양이 (1) 아미노산 사이의 거리, (2) 인식된 아미노산 서열의 수용 가능한 길이, (3) 특정 아미노산의 백분율 또는 농도에 대한 정확한 수치를 명기하였으나 이들 정확한 수치는 변화 가능하게 표현된다. 따라서 연구자들은 하기 특성을 지닌 단백질 내 아미노산 서열을 확인하기 위해 본 발명의 실시태양을 이용한다:

(1) 서열은 r최소 내지 r최대 아미노산을 포함하고;

(2) 서열은 두 번째 리신 잔기로부터 rmin 내지 rmax개 아미노산 잔기에 위치한 적어도 하나 이상의 리신 잔기를 포함하고;

(3) 서열은 적어도 하나 이상의 히스티딘 잔기를 포함하고;

(4) 서열은 적어도 k퍼센트 이상의 리신 잔기를 포함함.

도 8은 본 발명의 실시태양에 따른 제공된 아미노산 서열 내 다수의 레플리킨-유사 패턴의 위치를 정하는 일반화된 방법 800을 나타내는 순서도이다. 방법 800은 제공된 서열 내의 첫 번째 리신 잔기의 위치를 정함으로서(810) 시작된다. 이후, 방법 800은 첫 번째 리신 잔기의 k최소 내지 k최대 위치 내에 두 번째 리신 잔기가 존재하는지(820) 여부를 측정한다. 도 8에 나타난 바와 같이 k최소 및 k최대는 첫 번째 및 두 번째 리신 잔기 사이의 거리 상의 한계를 정의한다. 일반적인 레플리킨 패턴에 있어서 k최소는 6과 동일할 것이고 k최대는 10과 동일할 것이다. 그러나 이들 수치는 다른 유사한 패턴을 발견하고자 하는 연구자에 의해 변경된다.

방법 800이 서로 충분히 가까운 2개의 리신 잔기가 확인되면(820) 방법 800은 첫 번째 및 두 번째 리신 잔기 모두의 r최대 위치 내의 존재하는 모든 히스티딘 잔기를 조사한다(830). 방법 800이 일반적인 레플리킨 패턴을 확인하고 위치를 정하기 위해 이용되는 경우 r최대는 일반적으로 50과 동일하게 셋팅될 것이다. 단계 (810) 및 (820)에서 확인된 2개의 리신 잔기의 r최대 위치 내에 존재하는 모든 히스티딘 잔기에 있어서, 방법 800은 첫 번째 리신 잔기, 두 번째 리신 잔기 및 확인된 히스티딘 잔기를 포함하는 최단의 아미노산 잔기 스트링을 구성할 것이다(840). 이후 방법 800은 최단의 스트링 길이가 원하는 범위 내에 존재하는지 여부 - 즉, 적어도 r최소 이상의 아미노산 잔기 및 r최대 이하의 아미노산 잔기를 포함하는지 여부를 측정할 것이다(850). 최종적으로 확인된 아미노산 스트링이 적어도 k퍼센트 이상의 리신 잔기도 포함하는 경우 스트링은 원하는 레플리킨-유사 패턴과 매치되는 것으로 확인될 것이다(870).

또한 도 8을 참고로, 방법 800이 제공된 단일 아미노산 서열로부터 여러 레플리킨-유사 패턴을 확인함은 명백하다. 이는 방법 800이 2개의 확인된 리신 잔기의 r최대 위치 내에 존재하는 하나 이상의 히스티딘 잔기를 조사하기 때문에 발생하는 것이다. 각각의 확인된 히스티딘 잔기는 2개의 리신 잔기와 결합하여 원하는 레플리킨-유사 패턴과 매치된다.

도 8에 나타난 방법의 하나의 실시태양은 도 9에 나타나 있고, 이는 본 발명의 실시태양에 따른 제공된 아미노산 서열 내에 존재하는 모든 레플리킨 패턴을 발견하기 위한 과정을 포함한 자료 코드 목록이다. 도 9에 나타난 "매치" 과정은 "Tcl"로 명명된 해석 쉘(shell) 언어로 프로그램되고 똑바른 형태로 레플리킨을 인식한다. 당분야 알려진 바와 같이 "도구 명령 언어(Tool Command Language)" 또는 Tcl("티클"로 발음)은 유닉스(Unix) 명령 쉘 내에 그 근간을 둔 해석 스크립팅(scripting) 언어이나 이는 네트워크 커뮤니케이션, 인터넷 기능성 및 그래픽 사용자 인터페이스의 빠른 발달에 매우-적당한 추가 능력을 지닌다.

또한 레플리킨 패턴을 인식하는 대안적 방법은 본 발명의 지침에 의해 포함된다. 예를 들어 도 9에 나타난 매치 과정은 자바(Java) 또는 C 또는 C++와 같은 다른 프로그래밍 언어로 실행될 수 있다. 더욱이 레플리킨 인식 알고리즘의 대안적 실시태양은 어떠한 순서로도 레플리킨 패턴의 특성을 확인하고, 또한 순환 기술, 반복 기술, 병렬 처리 기술, 나누어-정복하기(divide-and-conquer) 기술 또는 그의 결합을 이용하여 구성 아미노산 서열 및 부분서열을 횡단한다.

단백질 검색 엔진

도 6에서 본 발명은 단백질 정의를 검색하기 위해 지역적으로 또는 인터넷과 같은 네트워크를 통해 아미노산 및 단백질 데이터베이스를 액세스하고 상호작용하는 검색 엔진을 포함한다. 예를 들어 단백질 및 아미노산 조사 시스템 630은 사용자로부터 단백질 검색 기준을 수용한 후 공급된 검색 기준에 매치되는 단백질 정의를 검색하기 위해 다수의 온-라인 아미노산 및 단백질 데이터베이스 검색 엔진에 액세스한다. 단백질 데이터베이스 검색 기준은 어떠한 온-라인 단백질 또는 아미노산 검색 엔진 내에 유효한 검색 용어를 형성하는 어떠한 텍스트 스트링도 포함한다. 일반적으로 이들 검색 기준은 각각의 특정 단백질을 기술하는 출력정보 내에서 판명되는 텍스트에 관한 것이다. 예를 들어 사용자가 "인플루엔자 타입 A" 검색 기준을 공급하면 본 발명의 실시태양은 이러한 텍스트를 다수의 인터넷 단백질 및 아미노산 검색 엔진에 전송하고 이후 이들 각각은 "인플루엔자 타입 A" 용어를 포함한 데이터베이스 내에서 발견되는 단백질 해설을 답신한다. 아미노산 서열 스캐너 640을 이용하여 각각의 답신된 단백질 해설은 레플리킨 패턴 존재에 대해 스캔된다.

본 발명의 추가 실시태양은 사용자가 다수의 인터넷 검색 엔진을 선택하거나 해제시키고 각각의 선택된 온-라인 단백질 검색 엔진에 대한 본 발명의 검색 기준 및 단백질 검색 능력을 주문 제작하는 것을 가능하게 한다. 더욱이 본 발명의 실시태양은 예를 들어 단백질 정의를 포함한 지역 파일명을 공급함으로서 또는 컴퓨터 소프트웨어로 파라미터를 공급하는 당분야에 알려진 다른 방법에 의해 사용자가 지역 단백질 데이터베이스 650에 액세스하거나 특정 단백질 정의를 직접 공급하는 것을 가능하게 한다.

레플리킨 분석

본 발명의 실시태양은 아미노산 서열 내의 레플리킨 패턴을 확인하고 위치를 정하기 위해서만 이용되지는 않는다. 실시태양은 다른 단백질에서 발생하는 레플리킨 패턴 구조 내의 유사성을 발견하고 분석하거나 시간 경과에 따라 동일한 단백질에서 발생하는 다른 레플리킨 패턴을 분석하는데도 이용된다. 예를 들어 도 10은 1917년부터 2004년까지의 87년간 "조류 독감" 인플루엔자 바이러스에서 보존된 레플리킨 "고정 골격" 구조를 나타내는 표이다. 본 발명의 실시태양은 동일한 단백질의 변이체 내에서 발견되는 레플리킨 패턴을 포함한 단백질 내에서 발견되는 레플리킨 패턴 수를 집합시킨다. 각각의 레플리킨 패턴과 함께 본 발명의 실시태양은 각 단백질이 처음으로 확인된 날짜를 결합시킨다. 연구자에 의해 직접 지시되는 경우 실시태양은 시간 경과에 따라 레플리킨 패턴 내에서 보존되었고 동일한 단백질뿐만 아니라 다른 단백질 내에서도 존재하는 실질적으로 고정된 아미노산 구조를 밝히기 위해 컨텐트, 날짜 또는 다른 기준에 따라 다수의 선택된 레플리킨 패턴을 분류하고 표시한다. 또한 연구자에 의해 지시되는 경우 실시태양은 이러한 고증된 아미노산 구조를 자동으로 확인하기 위해 다수의 선택된 레플리킨 패턴을 비교하는 패턴 분석의 알려진 방법을 이용한다. 예로서 도 10에서 설명된 레플리킨 패턴은 - 본 경우 - 아미노 말단에서 한 벌의 리신 잔기(kk)로 시작하고 카르복실 말단에서 한 벌의 히스티딘 잔기(hh)로 종결되고 8, 10 또는 11 위치에서 리신 잔기를 포함하는 (일반적으로) 29개 아미노산의 매우 고정된 골격 구조를 증명하는 것으로 나타난다. 수년간에 걸친 이러한 골격 구조의 보존은 합성 백신이 신속하고 저비용으로 제조되는 것을 가능하게 한다. 레플리킨 골격 구조가 확인된 후 이러한 백신을 합성하기 위해 연구자는 시간 경과에 따라 보존되고 단백질의 현재 변이체 내에도 존재하는 골격 구조의 요소를 선택한다. 이후 백신은 골격 구조로부터 선택된 요소에 기반하여 제조된다. 이러한 백신이 보존된 골격 구조에 기반하기 때문에 이들은 다년간 유효하고 예상된 발발에 앞서 개발된다.

레플리킨 패턴을 확인하고 위치를 정하는 본 발명의 실시태양뿐만 아니라 레플리킨 자체의 발견은 병원균의 확인에 대한 타겟을 제공할 뿐만 아니라 항-병원균 치료의 개발을 촉진시킨다. 일반적으로 펩타이드의 레플리킨 패밀리의 이해 및 확인은 레플리킨를 포함하는 어떠한 생물체에 대한 효과적인 치료 및 백신의 개발을 가능하게 한다. 특히, 레플리킨의 확인은 인플루엔자 바이러스를 포함한 바이러스의 검출 및 바이러스 백신 개발을 제공한다. 또한 레플리킨 확인은 레플리킨 구조를 타겟하는 치료 및 백신의 개발을 가능하게 하는 것에 추가로 말라리아, 탄저병 및 천연두 바이러스와 같은 다른 병원균의 검출을 제공한다. 레플리킨의 확인에의해 제공된 추가적인 예는 감염성 질환 레플리킨, 암 면역 레플리킨 및 구조 단백질 레플리킨의 검출을 포함한다.

본 발명의 실시태양은 선행기술에서 나타나지 않은 방식으로 아미노산의 중요한 레플리킨 패턴이 인식되고 위치가 정해지고 분석되는 것을 가능하게 한다. 선행기술 능력을 이용하는 경우 연구자는 아미노산 서열을 기재하는 현존하는 기술에 의해 제한되었다. 실제로 이전에는 비-선형 속성을 포함한 아미노산 서열을 명기하는 것이 가능하지 않았기 때문에 선행기술의 한계는 이러한 분야의 연구자를 어느 정도 어려움을 지녔다. 본 발명의 방법 및 실시태양이 개발될 때까지 아미노산 서열의 해설은 서브스트링(substring) 컨텐트 상의 많아야 반복 서브스트링 및 논리적 속박을 포함한 선형 서열에 한정적이다. 본 발명의 실시태양은 선행기술에서 발견되지 않은 도구를 이용하여 신규한 부류의 아미노산 서열이 발견되고 위치가 정해지고 분석되게 하는 것을 가능하게 한다. 이러한 신규한 부류의 아미노산은 특정 아미노산 농도 및 특정 아미노산 사이의 거리 관계와 같은 속성에 의해 특성화된다. 이들 속성은 단순한 인접 순서를 능가하고 따라서 당분야에 알려진 현존 방법에 의해 용이하게 기술되거나 발견되거나 위치가 정해지지 않는다.

전술된 실시태양의 기능성은 프로그램 명령을 실행하는 다양한 컴퓨터 플랫폼 상에 제공된다. 이러한 플랫폼 1100은 도 11의 단순화된 블록 도표에 나타나 있다. 여기서 플랫폼 1100은 프로세서 1160에 의해 거주된 것으로 나타나 있고, 이는 버스 서브시스템 1150을 통해 많은 주변 장치와 커뮤니케이트한다. 이들 주변 장치는 일반적으로 메모리 서브시스템 1110, 네트워크 인터페이스 서브시스템 1170 및 입력/출력(I/O) 유니트 1180을 포함한다. 프로세서 1160은 마이크로프로세서, 디지털 신호 프로세서 및 필드 프로그램 가능한 논리 배열을 포함한 어떠한 다수의 통상적인 프로세싱 시스템도 된다. 일부의 적용에 있어서 플랫폼 1100 내에 다중 프로세서(나타내지 않음)를 제공하는 것이 유리하다. 프로세서(들) 1160은 메모리 서브시스템 1110 내에 저장된 프로그램 명령을 실행시킨다. 메모리 서브시스템 1110은 전기, 자기 또는 광학 메모리 시스템을 포함한 통상의 메모리 회로의 어떠한 결합도 포함한다. 도 11에 나타난 바와 같이 메모리 시스템은 판독 전용 메모리 1120, 무작위 액세스 메모리 1130 및 대량 기억장치 1140을 포함한다. 메모리 서브시스템 1110은 여기서 기술된 다양한 방법을 나타내는 프로그램 명령을 저장할 뿐만 아니라 이들 방법이 작동하는 데이터 아이템도 저장한다. 네트워크 인터페이스 서브시스템 1170은 예를 들어 인터넷을 포함한 커뮤니케이션 네트워크 1190으로의 인터페이스를 포함한 네트워크 외부에 인터페이스를 제공한다. I/O 유니트 1180은 외부 장치와의 커뮤니테이션을 가능하게 하고, 이는 나타나 있지 않다.

본 발명의 일부 실시태양은 여기서 상세하게 서술되고 기술된다. 그러나 본 발명의 변형 및 변경이 본 발명의 정신 및 범위에 위배됨이 없이 본 발명의 지침에 의해 포함됨이 인식될 것이다. 더욱이 본 발명의 지침은 구성 요소의 특정 서열의 확인에 한정적인 연속 선형 분석을 이용하여 이전에 처리되었던 다른 서열-인식 문제점에 개조 가능하다.

<110> BOGOCH, SAMUEL BOGOCH, ELENORE S. <120> SYSTEM AND METHOD FOR IDENTIFYING COMPLEX PATTERNS OF AMINO ACIDS <150> US 60/565,847 <151> 2004-04-28 <150> US 10/860,050 <151> 2004-06-04 <150> US 60/653,083 <151> 2005-02-16 <160> 108 <170> KopatentIn 1.71 <210> 1 <211> 10 <212> PRT <213> Homo sapiens <400> 1 Met Tyr Arg Pro Asp Val Val Arg Ala Arg 1 5 10 <210> 2 <211> 29 <212> PRT <213> Influenza virus <220> <221> MOD_RES <222> (13) <223> Variable amino acid <400> 2 Lys Lys Asn Ser Ala Tyr Pro Thr Ile Lys Arg Ser Xaa Asn Asn Thr 1 5 10 15 Asn His Glu Asp Leu Leu Val Leu Trp Gly Ile His His 20 25 <210> 3 <211> 379 <212> PRT <213> Unknown Organism <220> <221> MOD_RES <222> (322)..(343) <223> Variable amino acid <400> 3 Glu Leu Arg Leu Arg Tyr Cys Ala Pro Ala Gly Phe Ala Leu Leu Lys 1 5 10 15 Cys Asn Asp Ala Asp Tyr Asp Gly Phe Lys Thr Asn Cys Ser Asn Val 20 25 30 Ser Val Val His Cys Thr Asn Leu Met Asn Thr Thr Val Thr Thr Gly 35 40 45 Leu Leu Leu Asn Gly Ser Tyr Ser Glu Asn Arg Thr Gln Ile Trp Gln 50 55 60 Lys His Arg Thr Ser Asn Asp Ser Ala Leu Ile Leu Leu Asn Lys His 65 70 75 80 Tyr Asn Leu Thr Val Thr Cys Lys Arg Pro Gly Asn Lys Thr Val Leu 85 90 95 Pro Val Thr Ile Met Ala Gly Leu Val Phe His Ser Gln Lys Tyr Asn 100 105 110 Leu Arg Leu Arg Gln Ala Trp Cys His Phe Pro Ser Asn Trp Lys Gly 115 120 125 Ala Trp Lys Glu Val Lys Glu Glu Ile Val Asn Leu Pro Lys Glu Arg 130 135 140 Tyr Arg Gly Thr Asn Asp Pro Lys Arg Ile Phe Phe Gln Arg Gln Trp 145 150 155 160 Gly Asp Pro Glu Thr Ala Asn Leu Trp Phe Asn Cys His Gly Glu Phe 165 170 175 Phe Tyr Cys Lys Met Asp Trp Phe Leu Asn Tyr Leu Asn Asn Leu Thr 180 185 190 Val Asp Ala Asp His Asn Glu Cys Lys Asn Thr Ser Gly Thr Lys Ser 195 200 205 Gly Asn Lys Arg Ala Pro Gly Pro Cys Val Gln Arg Thr Tyr Val Ala 210 215 220 Cys His Ile Arg Ser Val Ile Ile Trp Leu Glu Thr Ile Ser Lys Lys 225 230 235 240 Thr Tyr Ala Pro Pro Arg Glu Gly His Leu Glu Cys Thr Ser Thr Val 245 250 255 Thr Gly Met Thr Val Glu Leu Asn Tyr Ile Pro Lys Asn Arg Thr Asn 260 265 270 Val Thr Leu Ser Pro Gln Ile Glu Ser Ile Trp Ala Ala Glu Leu Asp 275 280 285 Arg Tyr Lys Leu Val Glu Ile Thr Pro Ile Gly Phe Ala Pro Thr Glu 290 295 300 Val Arg Arg Tyr Thr Gly Gly His Glu Arg Gln Lys Arg Val Pro Phe 305 310 315 320 Val Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa 325 330 335 Xaa Xaa Xaa Xaa Xaa Xaa Xaa Val Gln Ser Gln His Leu Leu Ala Gly 340 345 350 Ile Leu Gln Gln Gln Lys Asn Leu Leu Ala Ala Val Glu Ala Gln Gln 355 360 365 Gln Met Leu Lys Leu Thr Ile Trp Gly Val Lys 370 375 <210> 4 <211> 422 <212> PRT <213> Homo sapiens <400> 4 Met Tyr Arg Pro Asp Val Val Arg Ala Arg Lys Arg Val Cys Trp Glu 1 5 10 15 Pro Trp Val Ile Gly Leu Val Ile Phe Ile Ser Leu Ile Val Leu Ala 20 25 30 Val Cys Ile Gly Leu Thr Val His Tyr Val Arg Tyr Asn Gln Lys Lys 35 40 45 Thr Tyr Asn Tyr Tyr Ser Thr Leu Ser Phe Thr Thr Asp Lys Leu Tyr 50 55 60 Ala Glu Phe Gly Arg Glu Ala Ser Asn Asn Phe Thr Glu Met Ser Gln 65 70 75 80 Arg Leu Glu Ser Met Val Lys Asn Ala Phe Tyr Lys Ser Pro Leu Arg 85 90 95 Glu Glu Phe Val Lys Ser Gln Val Ile Lys Phe Ser Gln Gln Lys His 100 105 110 Gly Val Leu Ala His Met Leu Leu Ile Cys Arg Phe His Ser Thr Glu 115 120 125 Asp Pro Glu Thr Val Asp Lys Ile Val Gln Leu Val Leu His Glu Lys 130 135 140 Leu Gln Asp Ala Val Gly Pro Pro Lys Val Asp Pro His Ser Val Lys 145 150 155 160 Ile Lys Lys Ile Asn Lys Thr Glu Thr Asp Ser Tyr Leu Asn His Cys 165 170 175 Cys Gly Thr Arg Arg Ser Lys Thr Leu Gly Gln Ser Leu Arg Ile Val 180 185 190 Gly Gly Thr Glu Val Glu Glu Gly Glu Trp Pro Trp Gln Ala Ser Leu 195 200 205 Gln Trp Asp Gly Ser His Arg Cys Gly Ala Thr Leu Ile Asn Ala Thr 210 215 220 Trp Leu Val Ser Ala Ala His Cys Phe Thr Thr Tyr Lys Asn Pro Ala 225 230 235 240 Arg Trp Thr Ala Ser Phe Gly Val Thr Ile Lys Pro Ser Lys Met Lys 245 250 255 Arg Gly Leu Arg Arg Ile Ile Val His Glu Lys Tyr Lys His Pro Ser 260 265 270 His Asp Tyr Asp Ile Ser Leu Ala Glu Leu Ser Ser Pro Val Pro Tyr 275 280 285 Thr Asn Ala Val His Arg Val Cys Leu Pro Asp Ala Ser Tyr Glu Phe 290 295 300 Gln Pro Gly Asp Val Met Phe Val Thr Gly Phe Gly Ala Leu Lys Asn 305 310 315 320 Asp Gly Tyr Ser Gln Asn His Leu Arg Gln Ala Gln Val Thr Leu Ile 325 330 335 Asp Ala Thr Thr Cys Asn Glu Pro Gln Ala Tyr Asn Asp Ala Ile Thr 340 345 350 Pro Arg Met Leu Cys Ala Gly Ser Leu Glu Gly Lys Thr Asp Ala Cys 355 360 365 Gln Gly Asp Ser Gly Gly Pro Leu Val Ser Ser Asp Ala Arg Asp Ile 370 375 380 Trp Tyr Leu Ala Gly Ile Val Ser Trp Gly Asp Glu Cys Ala Lys Pro 385 390 395 400 Asn Lys Pro Gly Val Tyr Thr Arg Val Thr Ala Leu Arg Asp Trp Ile 405 410 415 Thr Ser Lys Thr Gly Ile 420 <210> 5 <211> 29 <212> PRT <213> Influenza virus <400> 5 Lys Lys Gly Thr Ser Tyr Pro Lys Leu Ser Lys Ser Tyr Thr Asn Asn 1 5 10 15 Lys Gly Lys Glu Val Leu Val Leu Trp Gly Val His His 20 25 <210> 6 <211> 29 <212> PRT <213> Influenza virus <400> 6 Lys Lys Gly Ser Ser Tyr Pro Lys Leu Ser Lys Ser Tyr Val Asn Asn 1 5 10 15 Lys Gly Lys Glu Val Leu Val Leu Trp Gly Val His His 20 25 <210> 7 <211> 29 <212> PRT <213> Influenza virus <400> 7 Lys Lys Glu Asn Ser Tyr Pro Lys Leu Ser Lys Ser Tyr Val Asn Asn 1 5 10 15 Lys Gly Lys Glu Val Leu Val Leu Trp Gly Val His His 20 25 <210> 8 <211> 29 <212> PRT <213> Influenza virus <400> 8 Lys Lys Gly Asp Ser Tyr Pro Lys Leu Thr Asn Ser Tyr Val Asn Asn 1 5 10 15 Lys Gly Lys Glu Val Leu Val Leu Trp Gly Val His His 20 25 <210> 9 <211> 29 <212> PRT <213> Influenza virus <400> 9 Lys Lys Gly Thr Ser Tyr Pro Lys Leu Ser Lys Ser Tyr Thr Asn Asn 1 5 10 15 Lys Gly Lys Glu Val Leu Val Leu Trp Gly Val His His 20 25 <210> 10 <211> 9 <212> PRT <213> Mycoplasma pulmonis <400> 10 Lys Lys Glu Lys Thr Thr His Asn Lys 1 5 <210> 11 <211> 29 <212> PRT <213> Influenza virus <400> 11 Lys Lys Gly Thr Ser Tyr Pro Lys Leu Ser Lys Ser Tyr Thr Asn Asn 1 5 10 15 Lys Gly Lys Glu Val Leu Val Leu Trp Gly Val His His 20 25 <210> 12 <211> 29 <212> PRT <213> Influenza virus <400> 12 Lys Lys Gly Asn Ser Tyr Pro Lys Leu Ser Lys Ser Tyr Thr Asn Asn 1 5 10 15 Lys Gly Lys Glu Val Leu Val Ile Trp Gly Val His His 20 25 <210> 13 <211> 29 <212> PRT <213> Influenza virus <400> 13 Lys Lys Gly Asn Ser Tyr Pro Lys Leu Ser Lys Ser Tyr Thr Asn Asn 1 5 10 15 Lys Gly Lys Glu Val Leu Val Ile Trp Gly Val His His 20 25 <210> 14 <211> 29 <212> PRT <213> Influenza virus <400> 14 Lys Lys Gly Thr Ser Tyr Pro Lys Leu Ser Lys Ser Tyr Thr Asn Asn 1 5 10 15 Lys Gly Lys Glu Val Leu Val Leu Trp Gly Val His His 20 25 <210> 15 <211> 29 <212> PRT <213> Influenza virus <400> 15 Lys Lys Gly Asn Ser Tyr Pro Lys Leu Ser Lys Ser Tyr Thr Asn Asn 1 5 10 15 Lys Gly Lys Glu Val Leu Val Ile Trp Gly Val His His 20 25 <210> 16 <211> 29 <212> PRT <213> Influenza virus <400> 16 Lys Lys Gly Thr Ser Tyr Pro Lys Leu Ser Lys Ser Tyr Thr Asn Asn 1 5 10 15 Lys Gly Lys Glu Val Leu Val Leu Trp Gly Val His His 20 25 <210> 17 <211> 29 <212> PRT <213> Influenza virus <400> 17 Lys Lys Gly Thr Ser Tyr Pro Lys Leu Ser Lys Ser Tyr Thr Asn Asn 1 5 10 15 Lys Gly Lys Glu Val Leu Val Leu Trp Gly Val His His 20 25 <210> 18 <211> 13 <212> PRT <213> Hepatitis C virus <400> 18 His Tyr Pro Pro Lys Pro Gly Cys Ile Val Pro Ala Lys 1 5 10 <210> 19 <211> 29 <212> PRT <213> Influenza virus <400> 19 Lys Lys Gly Asn Ser Tyr Pro Lys Leu Ser Lys Ser Tyr Thr Asn Asn 1 5 10 15 Lys Gly Lys Glu Val Leu Val Ile Trp Gly Val His His 20 25 <210> 20 <211> 29 <212> PRT <213> Influenza virus <400> 20 Lys Lys Gly Asn Ser Tyr Pro Lys Leu Ser Lys Ser Tyr Thr Asn Asn 1 5 10 15 Lys Gly Lys Glu Val Leu Val Ile Trp Gly Val His His 20 25 <210> 21 <211> 29 <212> PRT <213> Influenza virus <400> 21 Lys Lys Gly Asn Ser Tyr Pro Lys Leu Ser Lys Ser Tyr Thr Asn Asn 1 5 10 15 Lys Gly Lys Glu Val Leu Val Ile Trp Gly Val His His 20 25 <210> 22 <211> 29 <212> PRT <213> Influenza virus <400> 22 Lys Lys Gly Asp Ser Tyr Pro Lys Leu Ser Lys Ser Tyr Thr Asn Asn 1 5 10 15 Lys Gly Lys Glu Val Leu Val Ile Trp Gly Val His His 20 25 <210> 23 <211> 29 <212> PRT <213> Influenza virus <400> 23 Lys Lys Gly Ser Ser Tyr Pro Lys Leu Ser Lys Ser Tyr Val Asn Asn 1 5 10 15 Lys Gly Lys Glu Val Leu Val Leu Trp Gly Val His His 20 25 <210> 24 <211> 29 <212> PRT <213> Influenza virus <400> 24 Lys Lys Gly Ser Ser Tyr Pro Lys Leu Ser Lys Ser Tyr Val Asn Asn 1 5 10 15 Lys Gly Lys Glu Val Leu Val Leu Trp Gly Val His His 20 25 <210> 25 <211> 29 <212> PRT <213> Influenza virus <400> 25 Lys Lys Gly Asn Ser Tyr Pro Lys Leu Ser Lys Ser Tyr Thr Asn Asn 1 5 10 15 Lys Gly Lys Glu Val Leu Val Ile Trp Gly Val His His 20 25 <210> 26 <211> 29 <212> PRT <213> Influenza virus <400> 26 Lys Lys Gly Asn Ser Tyr Pro Lys Leu Ser Lys Ser Tyr Thr Asn Asn 1 5 10 15 Lys Gly Lys Glu Val Leu Val Ile Trp Gly Val His His 20 25 <210> 27 <211> 29 <212> PRT <213> Influenza virus <400> 27 Lys Lys Gly Asn Ser Tyr Pro Lys Leu Ser Lys Ser Tyr Thr Asn Asn 1 5 10 15 Lys Gly Lys Glu Val Leu Val Ile Trp Gly Val His His 20 25 <210> 28 <211> 29 <212> PRT <213> Influenza virus <400> 28 Lys Lys Gly Asn Ser Tyr Pro Lys Leu Ser Lys Ser Tyr Thr Asn Asn 1 5 10 15 Lys Gly Lys Glu Val Leu Val Ile Trp Gly Val His His 20 25 <210> 29 <211> 29 <212> PRT <213> Influenza virus <400> 29 Lys Lys Gly Asn Ser Tyr Pro Lys Ile Ser Lys Ser Tyr Ile Asn Asn 1 5 10 15 Lys Glu Lys Glu Val Leu Val Leu Trp Gly Ile His His 20 25 <210> 30 <211> 29 <212> PRT <213> Influenza virus <400> 30 Lys Lys Gly Asn Ser Tyr Pro Lys Leu Ser Lys Ser Tyr Ile Asn Asn 1 5 10 15 Lys Lys Lys Glu Val Leu Val Ile Trp Gly Ile His His 20 25 <210> 31 <211> 29 <212> PRT <213> Influenza virus <400> 31 Lys Lys Gly Asn Ser Tyr Pro Lys Leu Ser Lys Ser Tyr Ile Asn Asn 1 5 10 15 Lys Gly Lys Lys Val Leu Val Leu Trp Gly Ile His His 20 25 <210> 32 <211> 29 <212> PRT <213> Influenza virus <400> 32 Lys Lys Gly Thr Ser Tyr Pro Lys Leu Ser Lys Ser Tyr Thr Asn Asn 1 5 10 15 Lys Lys Lys Glu Val Leu Val Leu Trp Gly Val His His 20 25 <210> 33 <211> 28 <212> PRT <213> Influenza virus <400> 33 Lys Asn Gly Leu Tyr Pro Asn Leu Ser Lys Ser Tyr Ala Asn Asn Lys 1 5 10 15 Glu Lys Glu Val Leu Val Leu Trp Gly Val His His 20 25 <210> 34 <211> 28 <212> PRT <213> Influenza virus <400> 34 Lys Asn Gly Leu Tyr Pro Asn Leu Ser Lys Ser Tyr Ala Asn Asn Lys 1 5 10 15 Glu Lys Glu Val Leu Ile Leu Trp Gly Val His His 20 25 <210> 35 <211> 29 <212> PRT <213> Influenza virus <400> 35 Lys Lys Glu Asn Ser Tyr Pro Lys Leu Arg Lys Ser Ile Ile Ile Asn 1 5 10 15 Lys Lys Glu Val Lys Leu Val Ile Trp Gly Ile His His 20 25 <210> 36 <211> 19 <212> PRT <213> Influenza virus <400> 36 Lys Ser Tyr Lys Asn Thr Arg Lys Asp Pro Ala Leu Ile Ile Trp Gly 1 5 10 15 Ile His His <210> 37 <211> 29 <212> PRT <213> Influenza virus <400> 37 Lys Lys Gly Pro Asn Tyr Pro Val Ala Lys Arg Ser Tyr Asn Asn Thr 1 5 10 15 Ser Gly Glu Gln Met Leu Ile Ile Trp Gly Val His His 20 25 <210> 38 <211> 29 <212> PRT <213> Influenza virus <400> 38 Lys Lys Gly Pro Asn Tyr Pro Val Ala Lys Arg Ser Tyr Asn Asn Thr 1 5 10 15 Ser Gly Glu Gln Met Leu Ile Ile Trp Gly Ile His His 20 25 <210> 39 <211> 29 <212> PRT <213> Influenza virus <400> 39 Lys Lys Asn Asn Ala Tyr Pro Thr Ile Lys Arg Thr Tyr Asn Asn Thr 1 5 10 15 Asn Val Glu Asp Leu Leu Ile Leu Trp Gly Ile His His 20 25 <210> 40 <211> 29 <212> PRT <213> Influenza virus <400> 40 Lys Lys Asn Asn Ala Tyr Pro Thr Ile Lys Arg Ser Tyr Ser Asn Thr 1 5 10 15 Asn Gln Glu Asp Leu Leu Val Leu Trp Gly Ile His His 20 25 <210> 41 <211> 29 <212> PRT <213> Influenza virus <400> 41 Lys Lys Asn Asn Ala Tyr Pro Thr Ile Lys Arg Thr Tyr Asn Asn Thr 1 5 10 15 Asn Ile Glu Asp Leu Leu Ile Leu Trp Gly Ile His His 20 25 <210> 42 <211> 29 <212> PRT <213> Influenza virus <400> 42 Lys Lys Asn Asn Ala Tyr Pro Thr Ile Lys Arg Thr Tyr Asn Asn Thr 1 5 10 15 Asn Met Glu Asp Leu Leu Ile Leu Trp Gly Ile His His 20 25 <210> 43 <211> 9 <212> PRT <213> Unknown <220> <223> Description of Unknown Organism: Unknown macrophage infectivity potentiator peptide <400> 43 Lys Val His Phe Phe Gln Leu Lys Lys 1 5 <210> 44 <211> 29 <212> PRT <213> Influenza virus <400> 44 Lys Lys Gly Asn Ala Tyr Pro Thr Ile Lys Arg Thr Tyr Asn Asn Thr 1 5 10 15 Asn Val Glu Asp Leu Leu Ile Leu Trp Gly Ile His His 20 25 <210> 45 <211> 29 <212> PRT <213> Influenza virus <400> 45 Lys Lys Asn Asn Thr Tyr Pro Thr Ile Lys Arg Ser Tyr Asn Asn Thr 1 5 10 15 Asn Gln Glu Asp Leu Leu Ile Leu Trp Gly Ile His His 20 25 <210> 46 <211> 29 <212> PRT <213> Influenza virus <400> 46 Lys Lys Asn Ser Ala Tyr Pro Thr Ile Lys Arg Ser Tyr Asn Asn Thr 1 5 10 15 Asn Gln Glu Asp Leu Leu Val Leu Trp Gly Ile His His 20 25 <210> 47 <211> 29 <212> PRT <213> Influenza virus <400> 47 Lys Lys Asn Ser Ala Tyr Pro Thr Ile Lys Arg Ser Tyr Asn Asn Thr 1 5 10 15 Asn Gln Glu Asp Leu Leu Val Leu Trp Gly Ile His His 20 25 <210> 48 <211> 7 <212> PRT <213> Rous sarcoma virus <400> 48 Lys Lys Leu Arg His Glu Lys 1 5 <210> 49 <211> 7 <212> PRT <213> Avian sarcoma virus <400> 49 Lys Lys Leu Arg His Asp Lys 1 5 <210> 50 <211> 7 <212> PRT <213> Unknown <220> <223> Description of Unknown Organism: Unknown c-yes, colon cancer peptide <400> 50 Lys Lys Leu Arg His Asp Lys 1 5 <210> 51 <211> 7 <212> PRT <213> Avian sarcoma virus <400> 51 Lys Lys Leu Arg His Glu Lys 1 5 <210> 52 <211> 7 <212> PRT <213> Homo sapiens <400> 52 Lys Lys Leu Arg His Glu Lys 1 5 <210> 53 <211> 8 <212> PRT <213> Unknown <220> <223> Description of Unknown Organism: Unknown neuroblastoma oncogene peptide <400> 53 Lys Gln Ala His Glu Leu Ala Lys 1 5 <210> 54 <211> 8 <212> PRT <213> Polyamavirus sp. <400> 54 Lys Thr His Arg Phe Ser Lys His 1 5 <210> 55 <211> 8 <212> PRT <213> Sindbis virus <400> 55 Lys Asn Leu His Glu Lys Ile Lys 1 5 <210> 56 <211> 9 <212> PRT <213> Human papilloamavirus type 71 <400> 56 Lys His Arg Pro Leu Leu Gln Leu Lys 1 5 <210> 57 <211> 7 <212> PRT <213> Unknown <220> <223> Description of Unknown Organism: Unknown v-erbB tumor virus peptide <400> 57 Lys Ser Pro Asn His Val Lys 1 5 <210> 58 <211> 8 <212> PRT <213> Feline sarcoma virus <400> 58 Lys Asn Ile His Leu Glu Lys Lys 1 5 <210> 59 <211> 8 <212> PRT <213> Unknown <220> <223> Description of Unknown Organism: Unknown c-fms myelomonocytic tumor peptide <400> 59 Lys Asn Ile His Leu Glu Lys Lys 1 5 <210> 60 <211> 10 <212> PRT <213> Polyamavirus sp. <400> 60 Lys Pro His Leu Ala Gln Ser Leu Glu Lys 1 5 10 <210> 61 <211> 9 <212> PRT <213> Polyamavirus sp. <400> 61 Lys Gln His Arg Glu Leu Lys Asp Lys 1 5 <210> 62 <211> 9 <212> PRT <213> Polyamavirus sp. <400> 62 Lys Gln His Arg Glu Leu Lys Asp Lys 1 5 <210> 63 <211> 12 <212> PRT <213> Murine leukemia virus <400> 63 Lys Val Pro Val Leu Ile Ser Pro Thr Leu Lys His 1 5 10 <210> 64 <211> 13 <212> PRT <213> Human T-cell lymphotropic virus <400> 64 Lys Ser Leu Leu Leu Glu Val Asp Lys Asp Ile Ser His 1 5 10 <210> 65 <211> 13 <212> PRT <213> Unknown <220> <223> Description of Unknown Organism: Unknown c-kit, GI tumor peptide <400> 65 Lys Ala Gly Ile Thr Ile Met Val Lys Arg Glu Tyr His 1 5 10 <210> 66 <211> 8 <212> PRT <213> Unknown <220> <223> Description of Unknown Organism: Unknown transforming protein myb <400> 66 Lys Ser Gly Lys His Leu Gly Lys 1 5 <210> 67 <211> 9 <212> PRT <213> Unknown <220> <223> Description of Unknown Organism: Unknown transforming protein myc <400> 67 Lys Arg Arg Glu Gln Leu Lys His Lys 1 5 <210> 68 <211> 10 <212> PRT <213> Unknown <220> <223> Description of Unknown Organism: Unknown Ras-related GTP-binding protein <400> 68 Lys Ser Phe Glu Val Ile Lys Val Ile His 1 5 10 <210> 69 <211> 8 <212> PRT <213> Unknown <220> <223> Description of Unknown Organism: Unknown transforming protein ras (teratocarcinoma) <400> 69 Lys Lys Lys His Thr Val Lys Lys 1 5 <210> 70 <211> 9 <212> PRT <213> Unknown <220> <223> Description of Unknown Organism: Unknown TRAF-associated NFkB activator peptide <400> 70 Lys Ala Gln Lys Asp His Leu Ser Lys 1 5 <210> 71 <211> 10 <212> PRT <213> Unknown <220> <223> Description of Unknown Organism: Unknown RFP transforming protein <400> 71 His Leu Lys Arg Val Lys Asp Leu Lys Lys 1 5 10 <210> 72 <211> 11 <212> PRT <213> Unknown <220> <223> Description of Unknown Organism: Unknown transforming protein <400> 72 Lys Tyr Gly Ser Pro Lys His Arg Leu Ile Lys 1 5 10 <210> 73 <211> 13 <212> PRT <213> Papilloma virus type 11 <400> 73 Lys Leu Lys His Ile Leu Gly Lys Ala Arg Phe Ile Lys 1 5 10 <210> 74 <211> 12 <212> PRT <213> Unknown <220> <223> Description of Unknown Organism: Unknown tyrosine kinasc protein <400> 74 Lys Gly Asp His Val Lys His Tyr Lys Ile Arg Lys 1 5 10 <210> 75 <211> 13 <212> PRT <213> Unknown <220> <223> Description of Unknown Organism: Unknown transforming protein <400> 75 Lys Glu Lys Leu Arg Asp Val Met Val Asp Arg His Lys 1 5 10 <210> 76 <211> 15 <212> PRT <213> Unknown <220> <223> Description of Unknown Organism: Unknown transforming protein <400> 76 Lys Leu Gln Ala Arg Gln Gln Gln Leu Leu Lys Lys Ile Glu His 1 5 10 15 <210> 77 <211> 14 <212> PRT <213> Unknown <220> <223> Description of Unknown Organism: Unknown fibroblast growth factor 4 peptide <400> 77 Lys Lys Gly Asn Arg Val Ser Pro Thr Met Lys Val Thr His 1 5 10 <210> 78 <211> 9 <212> PRT <213> Unknown <220> <223> Description of Unknown Organism: Unknown Matrix metalloproteinase 7 peptide <400> 78 Lys Glu Ile Pro Leu His Phe Arg Lys 1 5 <210> 79 <211> 8 <212> PRT <213> Unknown <220> <223> Description of Unknown Organism: Unknown transcription factor 7-like peptide <400> 79 Lys Lys Lys Pro His Ile Lys Lys 1 5 <210> 80 <211> 9 <212> PRT <213> Unknown <220> <223> Description of Unknown Organism: Unknown breast cancer antigen peptide <400> 80 Lys Thr Arg His Asp Pro Leu Ala Lys 1 5 <210> 81 <211> 10 <212> PRT <213> Unknown <220> <223> Description of Unknown Organism: Unknown BRCA-1-Associated protein <400> 81 Lys His His Pro Lys Asp Asn Leu Ile Lys 1 5 10 <210> 82 <211> 10 <212> PRT <213> Unknown <220> <223> Description of Unknown Organism: Unknown autoantigen peptide <400> 82 Lys His Lys Arg Lys Lys Phe Arg Gln Lys 1 5 10 <210> 83 <211> 10 <212> PRT <213> Unknown <220> <223> Description of Unknown Organism: Unknown Glioma Replikin peptide <400> 83 Lys Ala Gly Val Ala Phe Leu His Lys Lys 1 5 10 <210> 84 <211> 10 <212> PRT <213> Unknown <220> <223> Description of Unknown Organism: Unknown ovarian cancer antigen peptide <400> 84 Lys His Lys Arg Lys Lys Phe Arg Gln Lys 1 5 10 <210> 85 <211> 10 <212> PRT <213> Unknown <220> <223> Description of Unknown Organism: Unknown EE L leukemia peptide <400> 85 Lys Lys Lys Ser Lys Lys His Lys Asp Lys 1 5 10 <210> 86 <211> 11 <212> PRT <213> Unknown <220> <223> Description of Unknown Organism: Unknown Poto-oncogene peptide <400> 86 His Lys Ser Glu Lys Pro Ala Leu Pro Arg Lys 1 5 10 <210> 87 <211> 14 <212> PRT <213> Unknown <220> <223> Description of Unknown Organism: Unknown adenomatosis polyposis coli peptide <400> 87 Lys Lys Lys Lys Pro Ser Arg Leu Lys Gly Asp Asn Glu Lys 1 5 10 <210> 88 <211> 16 <212> PRT <213> Unknown <220> <223> Description of Unknown Organism: Unknown gastric cancer transforming protein <400> 88 Lys Thr Lys Lys Gly Asn Arg Val Ser Pro Thr Met Lys Val Thr His 1 5 10 15 <210> 89 <211> 18 <212> PRT <213> Unknown <220> <223> Description of Unknown Organism: Unknown K-RAS 2B transforming protein <400> 89 Lys His Lys Glu Lys Met Ser Lys Asp Gly Lys Lys Lys Lys Lys Lys 1 5 10 15 Ser Lys <210> 90 <211> 29 <212> PRT <213> Influenza virus <400> 90 Lys Lys Asn Ser Ala Tyr Pro Thr Ile Lys Arg Ser Tyr Asn Asn Thr 1 5 10 15 Asn Gln Glu Asp Leu Leu Val Leu Trp Gly Ile His His 20 25 <210> 91 <211> 29 <212> PRT <213> Influenza virus <400> 91 Lys Lys Asn Ser Ala Tyr Pro Thr Ile Lys Arg Ser Tyr Asn Asn Thr 1 5 10 15 Asn Gln Glu Asp Leu Leu Val Leu Trp Gly Ile His His 20 25 <210> 92 <211> 29 <212> PRT <213> Influenza virus <400> 92 Lys Lys Asn Ser Ala Tyr Pro Thr Ile Lys Arg Ser Tyr Asn Asn Thr 1 5 10 15 Asn Gln Glu Asp Leu Leu Val Leu Trp Gly Ile His His 20 25 <210> 93 <211> 29 <212> PRT <213> Influenza virus <400> 93 Lys Lys Asn Ser Ala Tyr Pro Thr Ile Lys Arg Ser Tyr Asn Asn Thr 1 5 10 15 Asn Gln Glu Asp Leu Leu Val Leu Trp Gly Ile His His 20 25 <210> 94 <211> 29 <212> PRT <213> Influenza virus <400> 94 Lys Lys Asn Asn Ala Tyr Pro Thr Ile Lys Arg Ser Tyr Asn Asn Thr 1 5 10 15 Asn Gln Glu Asp Leu Leu Val Leu Trp Gly Ile His His 20 25 <210> 95 <211> 29 <212> PRT <213> Influenza virus <400> 95 Lys Lys Asn Ser Ala Tyr Pro Thr Ile Lys Arg Ser Tyr Asn Asn Thr 1 5 10 15 Asn Gln Glu Asp Leu Leu Val Leu Trp Gly Ile His His 20 25 <210> 96 <211> 29 <212> PRT <213> Influenza virus <400> 96 Lys Lys Asn Ser Thr Tyr Pro Thr Ile Lys Arg Ser Tyr Asn Asn Thr 1 5 10 15 Asn Gln Glu Asp Leu Leu Val Leu Trp Gly Ile His His 20 25 <210> 97 <211> 29 <212> PRT <213> Influenza virus <400> 97 Lys Lys Asn Ser Thr Tyr Pro Thr Ile Lys Arg Ser Tyr Asn Asn Thr 1 5 10 15 Asn Gln Glu Asp Leu Leu Val Leu Trp Gly Ile His His 20 25 <210> 98 <211> 29 <212> PRT <213> Influenza virus <400> 98 Lys Lys Asn Ser Thr Tyr Pro Thr Ile Lys Arg Ser Tyr Asn Asn Thr 1 5 10 15 Asn Gln Glu Asp Leu Leu Val Leu Trp Gly Ile His His 20 25 <210> 99 <211> 29 <212> PRT <213> Influenza virus <400> 99 Lys Lys Asn Ser Thr Tyr Pro Thr Ile Lys Arg Ser Tyr Asn Asn Thr 1 5 10 15 Asn Gln Glu Asp Leu Leu Val Leu Trp Gly Ile His His 20 25 <210> 100 <211> 29 <212> PRT <213> Influenza virus <400> 100 Lys Lys Asn Ser Thr Tyr Pro Thr Ile Lys Arg Ser Tyr Asn Asn Thr 1 5 10 15 Asn Gln Glu Asp Leu Leu Val Leu Trp Gly Ile His His 20 25 <210> 101 <211> 29 <212> PRT <213> Influenza virus <400> 101 Lys Lys Asn Asn Ala Tyr Pro Thr Ile Lys Arg Ser Tyr Asn Asn Thr 1 5 10 15 Asn Gln Glu Asp Leu Leu Val Leu Trp Gly Ile His His 20 25 <210> 102 <211> 29 <212> PRT <213> Influenza virus <400> 102 Lys Lys Asn Ser Thr Tyr Pro Thr Ile Lys Arg Ser Tyr Asn Asn Thr 1 5 10 15 Asn Gln Glu Asp Leu Leu Val Met Trp Gly Ile His His 20 25 <210> 103 <211> 29 <212> PRT <213> Influenza virus <400> 103 Lys Lys Asn Ser Ala Tyr Pro Thr Ile Lys Arg Ser Tyr Asn Asn Thr 1 5 10 15 Asn Gln Glu Asp Leu Leu Val Leu Trp Gly Ile His His 20 25 <210> 104 <211> 29 <212> PRT <213> Influenza virus <400> 104 Lys Lys Asn Ser Thr Tyr Pro Thr Ile Lys Arg Ser Tyr Asn Asn Thr 1 5 10 15 Asn Gln Glu Asp Leu Leu Val Leu Trp Gly Ile His His 20 25 <210> 105 <211> 29 <212> PRT <213> Influenza virus <400> 105 Lys Lys Asn Ser Thr Tyr Pro Thr Ile Lys Arg Ser Tyr Asn Asn Thr 1 5 10 15 Asn Gln Glu Asp Leu Leu Val Leu Trp Gly Ile His His 20 25 <210> 106 <211> 29 <212> PRT <213> Influenza virus <400> 106 Lys Lys Asn Ser Thr Tyr Pro Thr Ile Lys Arg Ser Tyr Asn Asn Thr 1 5 10 15 Asn Gln Glu Asp Leu Leu Val Leu Trp Gly Ile Gln His 20 25 <210> 107 <211> 29 <212> PRT <213> Influenza virus <400> 107 Lys Lys Asn Ser Ala Tyr Pro Ile Ile Lys Arg Ser Tyr Asn Asn Thr 1 5 10 15 Asn Gln Glu Asp Leu Leu Val Leu Trp Gly Ile His His 20 25 <210> 108 <211> 4 <212> PRT <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic peptide <400> 108 Met Asp Glu Leu 1

Claims

ⅰ) 다수의 단백질에서 발생하는 레플리킨 패턴 목록을 조립(assemble)하는 단계; 및 ⅱ) 상기 목록 내 각각의 레플리킨 패턴을 실질적으로 고정된 아미노산 잔기의 패턴으로 골격(scaffold) 구조를 확인하는 단계;로 이루어진 아미노산 골격 구조의 인식 방법에 있어서,
상기 레플리킨 패턴의 인식은
a) 아미노산 잔기의 부분서열 내에 첫 번째 리신 잔기가 두 번째 리신 잔기로부터 6～10번째 아미노산 잔기 위치 이내에 존재하는지 여부를 측정하는 단계;
b) 존재하는 경우 첫 번째 리신 잔기, 두 번째 리신 잔기 및 히스티딘 잔기를 포함하는 아미노산 잔기의 부분서열 내에 7～50개 연속적 아미노산 잔기의 스트링(string)을 확인하는 단계;
c) 상기 스트링 내의 리신 잔기의 백분율을 계산하는 단계; 및
d) 리신 잔기의 백분율이 적어도 6% 이상인 경우 상기 스트링을 레플리킨 패턴으로 인식하는 단계;
를 포함함을 특징으로 하는 아미노산 골격 구조의 인식 방법
제 1항에 있어서, 상기 다수의 단백질은 동일한 단백질의 변이체를 포함함을 특징으로 하는 방법
제 1항에 있어서, 상기 다수의 단백질은 서로 상이한 단백질을 포함함을 특징으로 하는 방법