KR20220100011A

KR20220100011A - 유전자 서열의 식별, 분류, 및/또는 순위를 위한 방법 및 시스템

Info

Publication number: KR20220100011A
Application number: KR1020227019555A
Authority: KR
Inventors: 리차드 코핀; 웨이 키트 림
Original assignee: 리제너론 파마슈티칼스 인코포레이티드
Priority date: 2019-11-12
Filing date: 2020-11-11
Publication date: 2022-07-14
Also published as: EP4059020A1; CA3158742A1; AU2020384498A1; MX2022005698A; WO2021096980A1; JP2023502596A; IL292464A; CN114787928A; US20210142868A1

Abstract

본 개시내용은 게놈 서열 정보의 분석을 위한 방법 및 시스템을 제공한다. 본 개시내용은 그 중에서도, 서열 보존을 특성화하기 위한 방법 및 시스템을 제공한다. 본원에 논의된 바와 같이, 본 개시내용의 특정 방법 및 시스템은 2 개의 정렬된 서열 사이의 적용범위 척도 및 동일성 척도에 기반하여 서열 또는 쌍별 서열 비교에 대한 유사성 점수를 할당하는 것을 포함한다.

Description

유전자 서열의 식별, 분류, 및/또는 순위를 위한 방법 및 시스템

관련 출원에 대한 상호 참조

본 출원은 2020년 3월 23일 출원된 미국 가특허 출원 번호 제62/993,567호, 및 2019년 11월 12일 출원된 미국 가특허 출원 번호 제62/934,323호의 이익을 주장하며, 각각의 개시내용은 그 전문이 본원에 참조로 포함된다.

서열 목록

텍스트 파일 형태의 서열 목록(파일명은 "2010794_2132_SL"이고, 2020년 11월 10일 생성되었으며, 크기는 146,610 바이트임)은 그 전체가 본원에 참조로 포함된다.

게놈 서열분석의 속도 및 효율성은 최근 수십 년 동안 극적으로 증가하여, 막대한 양의 게놈 서열 정보의 수집을 가능하게 한다. 100만 개 초과의 게놈 서열이 공개적으로 접근가능한 데이터베이스에서 이용가능하며, 이 중 대부분은 미생물 게놈이다. 예를 들면, 대략 160,000 개의 게놈 서열이 병원성 코로나바이러스 SARS-CoV-2에 대해 공개적으로 접근가능한 데이터베이스에 기탁되었다. 따라서, 다양한 게놈 서열 정보의 저장소가 증가하고 있다.

게놈 서열 정보의 유용성은 분석 도구의 이용가능성에 의해 제한된다. 분석에 필요한 컴퓨팅 리소스는 서열 데이터의 축적보다 뒤처져 있다. 예를 들어, 치료 및 백신 개발 연구는 종종 병원체 집단의 유전적 다양성을 평가하는 데 실패하여 임상 시험의 실패로 이어진다. 특정 유기체, 서열, 또는 유전자의 다수의 다양한 게놈 서열의 분석을 위한 방법 및 시스템에 대한 필요성을 포함하여, 게놈 서열 정보의 분석을 위한 개선된 방법 및 시스템에 대한 필요성이 있다. 개선된 분석 방법 및 시스템은 치료 개발을 알리고 잠재적으로 임상 결과를 예측하는 데 필요하다. 추가적으로, 게놈 서열 정보를 분석하기 위한 많은 기존 방법은 서열 데이터베이스, 서열 분석 소프트웨어의 작동, 및/또는 데이터 출력의 증류에 대한 전문 지식을 필요로 한다.

본 개시내용은 게놈 서열 정보의 분석을 위한 방법 및 시스템을 제공한다. 미생물 게놈 서열 정보를 포함한 게놈 서열 정보는 예를 들어, 공개적으로 접근가능한 데이터베이스에서 최근 몇 년 동안 급증하였다. 비용 효과적인 고처리량 서열분석 기기 및 멀티플렉스 서열분석 프로토콜의 개발은 게놈 분석의 매력을 넓혀, 전염병 분야를 탈바꿈하였다. 그러나, 공개 데이터베이스에서 이용가능한 게놈 다양성의 폭을 설명하기 보다는, 비교 게놈 분석은 종종 완전히 주석이 달린 스톡 게놈의 작은 편향된 세트에 의해 가이드된다. 이러한 스톡 게놈은 종종 자연적 또는 관련한 다양성의 폭을 나타내는 것으로 수용되지만, 실제로 자연적 집단의 소수 부분을 나타낸다. 예를 들어, 다양한 병원체 단리에 개발된 치료의 적용가능성이 전반적인 임상 효능의 중요한 구성요소인 병원체 연구와 관련하여, 자연적 다양성을 식별, 분석, 및/또는 나타내는 이 문제는 특히 중대하다. 다양한 균주로부터 이용가능한 서열의 활용은 역사적으로 컴퓨팅 기술, 및 다양한 계통에 걸친(예를 들어, 병원체 계통에 걸친) 게놈 주석을 포함하는 잘 선별된 최신 게놈 리소스를 필요로 한다. 적어도 부분적으로 이용가능한 큰 게놈 서열은 이 방식으로 완전히 조립되지 않고/않거나, 이용가능한 게놈 서열(예를 들어, 병원체의 다양한 균주의 서열)은 상반된 방식으로 주석이 달려있기 때문에, 게놈 분석(예를 들어, 종간 또는 종내)은 실제로 복잡하다. 서열분석된 게놈의 수가 크게 증가함에 따라, 분석 및 컴퓨팅 도구에 대한 필요성은 이러한 리소스의 최적화된 활용을 보장하는 중요한 구성요소이다.

본 개시내용의 방법 및 시스템은 그 중에서도 입력 서열 사이의 서열 보존을 특성화하기 위한 방법 및 시스템을 제공한다. 본원에 논의된 바와 같이, 본 개시내용의 특정 방법 및 시스템은 서열 사이의 정렬의 퍼센트 적용범위 및 서열 사이의 변이의 수에 기반하여 다중 서열 비교 후 서열에 대한 유사성 또는 보존 점수의 할당을 포함한다.

특정 구현예에서, 본 개시내용의 방법 및 시스템은 하기 기재된 단계 중 하나 이상을 포함한다. 예를 들어, 특정 구현예에서, 본원에 기재된 방법 및 시스템은 비교 분석에 사용하기 위한 게놈 서열을 획득하기 위해 유기체(예를 들어, 병원체)를 선택하는 제1 단계를 포함한다. 따라서, 특정 구현예에서, 사용자는 관심 서열을 추출하기 위해 게놈(들)에 관한 제1 단계 정보를 표시한다. 제2 단계는 예를 들어, 미국 국립 생물공학 정보 데이터베이스 센터(NCBI)에서 다운로드되는 것과 같이 공개적으로 접근가능한 데이터베이스에서 서열 데이터를 획득하고, 임의적으로 동일하거나 또는 상이한 소스 서열 주석 및/또는 특징 정보에서 획득함으로써, 서열을 제공하는 것을 포함할 수 있다. 또한 서열은 직접 실험 측정, 예를 들어, 물리적 생물학적 샘플을 활용하는 고처리량 서열분석 시스템에서 판독으로부터 제공될 수 있다. 따라서, 특정 구현예에서, 서열은 직접 측정으로 제공되거나, NCBI 데이터베이스에서 다운로드되거나, 또는 둘 다일 수 있다. 서열 및 피쳐(feature) 파일은 NCBI 데이터베이스와 같은 공개적으로 접근가능한 특정 데이터베이스에서 자동으로 다운로드될 수 있다. 제3 단계는 예를 들어, 기본 로컬 정렬 검색 도구(BLAST)에 의한 분석된 서열의 쌍별 비교를 포함할 수 있다. 쌍별 BLAST 분석은 모든 비교된 서열에 걸쳐 각각의 분석된 관심 서열의 서열 다양성 수준을 확립한다. 제4 단계는 예를 들어, 서열 보존과 관련된 정보를 컴파일하는 출력 표를 생성함으로써 모든 쌍별 서열 비교와 관련된 정보를 컴파일하는 것을 포함할 수 있다. 예시적인 표는 특정 서열의 존재 또는 부재, 특정 서열 유전자좌의 다양성 수준, 특정 서열 유전자좌에서 변이 속성, 및/또는 분석된 서열에서 특정 특징인 게놈 좌표에 관한 정보를 포함할 수 있다. 다양한 구현예에서, 분석된 각각의 서열은 각각의 서열이 퍼센트 적용범위 및 서열 변이의 수에 따라 범주화되는 정의된 점수 시스템에 기반하여 유사성 점수가 할당될 수 있다. 예를 들면, 특정 구현예에서, 서열은 표 2에 따라 범주화되고 유사성 점수가 할당될 수 있다. 일부 구현예에서, 코딩 서열은 이어서 분석된 서열로부터 추출되고 번역되어 뉴클레오티드 및 아미노산 정렬을 생성할 수 있다. 임의적인 제5 단계는 컴파일된 서열 보존 정보를 예를 들어, 다양성, 계통 발생(예를 들어, 최대 가능성 또는 간결성 계통 발생), 히트맵, 및/또는 정렬 파일의 그래프 형태로 나타내는 시각적 표시의 생성을 포함할 수 있다. 특정 예에서, 게놈- 및 유전자-기반 계통 발생은 PhyML 또는 QuickTree 프로그램과 같은 계통 발생 소프트웨어를 사용하여 생성되고 분리된 파일에 저장된다.

다양한 구현예에서, 본원에 개시된 방법 및 시스템의 단계는 컴퓨터 프로세서 및 소프트웨어의 사용에 의해 달성된다. 이러한 특정 전용 소프트웨어는 본원에서 R 프로그래밍 언어로 작성된 "Got_Gene"으로 언급된다. Got_Gene은 BLAST 알고리즘 및 R 패키지를 사용하여 서열 세트의 다양성을 식별, 비교, 및 특성화하고, 수천 개의 서열에 걸친 다양성을 분석할 수 있다.

다양한 구현예에서, 이용가능한 게놈 서열(대상 서열, 예를 들어, 참조 서열)의 컬렉션(collection)은 임상적으로 관련된 서열 특징을 식별하기 위해 하나 이상의 사용자-선택 서열(질의 서열(들))과 쌍별 방식으로 비교된다. 다양한 구현예에서, 본 개시내용의 방법 및 시스템은 게놈 서열 정보의 공개적으로 접근가능한 데이터베이스를 포함한 데이터베이스에서 이용가능한 게놈 서열 정보의 컬렉션을 활용한다. 특정 구현예에서, 쌍별 비교는 대상 및 질의 유전자 서열, 예를 들어, 대상 및 질의 코딩 유전자 서열의 쌍별 비교를 포함한다. 특정 구현예에서, 쌍별 비교는 대상 및 질의 서열에 의해 암호화된 단백질의 쌍별 비교를 포함한다.

특정 구현예에서, 본 개시내용의 방법 및 시스템을 사용하여 치료 유용성의 서열 및 서열 특성을 식별할 수 있다. 예를 들어, 본 개시내용의 방법 및 시스템을 사용하여 항-항원 치료 항체와 같은 항-항원 치료제의 개발을 위한 후보 항원(예를 들어, 병원체 항원)을 식별할 수 있다. 일부 구현예에서, 본 개시내용의 방법 및 시스템을 사용하여 후보 백신 항원을 식별할 수 있다. 일부 구현예에서, 본 개시내용의 방법 및 시스템을 사용하여 하나 이상의 특정 유전자 서열(예를 들어, 실험실 병원체 균주의 게놈)이 필적할 만한 유전자 서열(예를 들어, 임상적으로 관련된 병원체 균주의 게놈)의 컬렉션을 나타내는지 여부를 결정할 수 있다. 일부 구현예에서, 본 개시내용의 방법 및 시스템을 사용하여 항생제 내성 마커를 식별할 수 있다. 일부 구현예에서, 본 개시내용의 방법 및 시스템을 사용하여 펩티드 발견 리소스, 예를 들어, 질량 분석 데이터를 질의하는 데 사용하기 위한 예상된 펩티드 및 특성의 목록을 생성할 수 있다. 일부 구현예에서, 본 개시내용의 방법 및 시스템을 사용하여 서열 내에서 다양성 영역을 식별할 수 있다. 일부 구현예에서, 본 개시내용의 방법 및 시스템을 사용하여 예를 들어, 전염병의 임상 이해(예를 들어, 병원체의 확산)를 향상시키기 위한 계통 발생을 생성할 수 있다. 일부 구현예에서, 본 개시내용의 방법 및 시스템을 사용하여 종 사이의 이종상동성 서열을 식별할 수 있다.

본 개시내용의 병원체는 핵산 또는 아미노산 서열(들)을 포함하거나 또는 이를 특징으로 하는 임의의 병원체를 포함할 수 있다. 본 개시내용의 병원체는 원핵생물 병원체 및 진핵생물 병원체를 포함하였다. 본 개시내용의 병원체의 예는 제한 없이 박테리아, 효모, 원생동물, 및 바이러스를 포함한다. 다양한 구현예에서, 본 개시내용의 병원체는 다음으로부터 선택된다: 아시네토박터 바우마니이(Acinetobacter baumannii), 아시네토박터 류오피이(Acinetobacter lwoffii), 아시네토박터 종(Acinetobacter spp.)(예를 들어, 다중약물 내성 아시네토박터(MDR-A)), 방선균류, 아데노바이러스, 아에로모나스 종(Aeromonas spp.), 알칼리게네스 패칼리스(Alcaligenes faecalis), 알칼리게네스 종(Alcaligenes spp.)/아크로모박터 종(Achromobacter spp.), 알칼리게네스 크실로속시단스(Alcaligenes xylosoxidans)(예를 들어, 광범위 베타-락탐분해효소(ESBL)/ 다중약물 내성 그람-음성 유기체(MRGN)), 아르보바이러스, 아스카리스 룸브리코이데스(Ascaris lumbricoides), 아스페르길루스 종(Aspergillus spp.), 아스트로바이러스, 바실루스 안트라시스(Bacillus anthracis), 바실루스 세레우스(Bacillus cereus), 바실루스 서브틸리스(Bacillus subtilis), 박테리오데스 프라길리스(Bacteriodes fragilis), 바르토넬라 퀸타나(Bartonella quintana), 블라스토키스티스 호미니스(Blastocystis hominis), 보르데텔라 페르투시스(Bordetella pertussis), 보렐리아 부르고도르페리(Borrelia burgdorferi), 보렐리아 두토니(Borrelia duttoni), 보렐리아 레쿠렌티스(Borrelia recurrentis), 브레분디모나스 디미누타(Brevundimonas diminuta), 브레분디모나스 베시쿨라리스(Brevundimonas vesicularis), 브루셀라 종(Brucella spp.), 버크홀데리아 세파시아(Burkholderia cepacia)(예를 들어, 다중약물 내성(MDR)), 버크홀데리아 말레이(Burkholderia mallei), 버크홀데리아 슈도말레이(Burkholderia pseudomallei), 캄필로박터 제주니/콜리(Campylobacter jejuni/coli), 칸디다 알비칸스(Candida albicans), 칸디다 아우리스(Candida auris), 칸디다 크루세이(Candida krusei), 칸디다 파라프실로시스(Candida parapsilosis), 치쿤쿠니야 바이러스(CHIKV), 클라미디아 뉴모니애(Chlamydia pneumoniae), 클라미디아 시타시(Chlamydia psittaci), 클라미디아 트라코마티스(Chlamydia trachomatis), 시트로박터 종(Citrobacter spp.), 클로스트리디움 보툴리눔(Clostridium botulinum), 클로스트리디움 디피실(Clostridium difficile), 클로스트리디움 퍼프린겐스(Clostridium perfringens), 클로스트리디움 테타니(Clostridium tetani), 코로나바이러스(예를 들어, 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV); 코로나바이러스 질환(COVID-19)을 유발하는 바이러스인 중증 급성 호흡기 증후군 코로나바이러스　2(SARS-CoV2); 및 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)), 코리네박테리움 디프테리아(Corynebacterium diphtheriae), 코리네박테리움 슈도투베르쿨로시스(Corynebacterium pseudotuberculosis), 코리네박테리움 종(Corynebacterium spp.), 코리네박테리움 울세란스(Corynebacterium ulcerans), 콕시엘라 부르네티이(Coxiella burnetii), 콕삭키바이러스(Coxsackievirus), 크리미안-콩고 출혈열 바이러스, 크립토코쿠스 네오포르만스(Cryptococcus neoformans), 크립토스포리디움 호미니스(Cryptosporidium hominis), 코립토스포리디움 파르붐(Cryptosporidium parvum), 사이클로스포라 카예타넨시스(Cyclospora cayetanensis), 사이토메갈로바이러스, 뎅기 바이러스, 디엔타모에바 프라길리스(Dientamoeba fragilis), 에볼라 바이러스, 에키노코쿠스 종(Echinococcus spp.), 에코바이러스(Echovirus), 엔타모에바 디스파르(Entamoeba dispar), 엔타모에바 히스톨리티카(Entamoeba histolytica), 엔테로박터 애로게네스(Enterobacter aerogenes), 엔테로박터 클로아카(Enterobacter cloacae)(예를 들어, ESBL/MRGN), 엔테로비우스 베르미쿨라리스(Enterobius vermicularis), 엔테로코쿠스 파칼리스(Enterococcus faecalis)(예를 들어, 반코마이신 내성 엔테로코쿠스(VRE)), 엔테로코쿠스 파시움(Enterococcus faecium)(예를 들어, VRE), 엔테로코쿠스 히라(Enterococcus hirae), 에피데르모피톤 종, 엡스타인-바 바이러스, 에스케리키아 콜라이(Escherichia coli)(예를 들어, 장출혈성 이. 콜라이(E. coli)(EHEC), 장병원성 이. 콜라이(EPEC), 장독소성 이 콜라이(ETEC), 장침습성 이. 콜라이(EIEC), 장집적성 이. 콜라이(EAEC), ESBL/MRGN, 분산 부착성 이. 콜라이(DAEC)), 사상충, 구제역 바이러스(FMDV), 프란시엘라 툴라렌시스(Francisella tularensis), 기아르디아 람블리아(Giardia lamblia), 해모필루스 인플루엔자(Haemophilus influenzae), 한타바이러스, 헬리코박터 파일로리(Helicobacter pylori), 연충류(Worms), A형 간염 바이러스, B형 간염 바이러스, C형 간염 바이러스, D형 간염 바이러스, E형 간염 바이러스, 단순 헤르페스 바이러스, 히스토플라스마 캅술라툼(Histoplasma capsulatum), 인간 T- 세포 백혈병 바이러스, 유형 1(HTLV-1), 인간 장바이러스 71, 인간 헤르페스바이러스 6(HHV-6), 인간 헤르페스바이러스 7(HHV-7), 인간 헤르페스바이러스 8(HHV-8), 인간 면역결핍 바이러스, 인간 메타뉴모바이러스, 인간 유두종바이러스, 하이메놀렙시스 나나(Hymenolepsis nana), 인플루엔자 바이러스(예를 들어, A(H1N1), A(H1N1)pdm09, A(H3N2), A(H5N1), A(H5N5), A(H5N6), A(H5N8), A(H7N9), A(H10N8)), 크레브시엘라 그라눌로마티스(Klebsiella granulomatis), 크레브시엘라 옥시토카(Klebsiella oxytoca)(예를 들어, ESBL/MRGN), 크레브시엘라 뉴모니아(Klebsiella pneumoniae) MDR(예를 들어, ESBL/MRGN), 라사 바이러스, 레클레르시아 아데카르복실라타(Leclercia adecarboxylata), 레지오넬라 뉴모필리아(Legionella pneumophila), 네쉬마니아 종(Leishmania spp.), 넵토스피라 인테로간스(Leptospira interrogans), 류코노스톡 슈도메센테로이데스(Leuconostoc pseudomesenteroides), 리스테리아 모노사이토게네스(Listeria monocytogenes), 마르부르그 바이러스, 홍역 바이러스, 멩글라 바이러스, 마이크로코쿠스 루테우스(Micrococcus luteus), 마이크로스포룸 종(Microsporum spp.), 몰루시폭스바이러스, 모락셀라 카타랄리스(Moraxella catarrhalis), 모르가넬라 종(Morganella spp.), 볼거리 바이러스, 마이코박테리움 바실리엔스 종(Mycobacterium basiliense sp. nov.), 마이코박테리움 키메이라(Mycobacterium chimaera), 마이코박테리움 레프레이(Mycobacterium leprae), 마이코박테리움 투베르쿨로시스(Mycobacterium tuberculosis)(예를 들어, MDR), 마이코플라즈마 게니탈리움(Mycoplasma genitalium), 마이코플라즈마 뉴모니아(Mycoplasma pneumoniae), 네글레리아 포울레리(Naegleria fowleri), 네이세리아 메닝기티디스(Neisseria meningitidis), 네이세리아 고노르호애(Neisseria gonorrhoeae), 니파 바이러스, 노로바이러스, 오피스토르키스 비베리니(Opisthorchis viverrini), 오리엔티아 쯔쯔가무시(Orientia tsutsugamushi), 판토에아 아글로메란스(Pantoea agglomerans), 파라코쿠스 이이(Paracoccus yeei), 파라인플루엔자 바이러스, 파보바이러스, 페디쿨루스 후마누스 카피티스(Pediculus humanus capitis), 페디쿨루스 후마누스 코르포리스(Pediculus humanus corporis), 플라스모디움 종(Plasmodium spp.), 뉴모사이스티스 지로베시(Pneumocystis jiroveci), 폴리오바이러스, 폴리오마비루스(Polyomavirus), 프레보텔라 종(Prevotella spp.), 프리온, 프로피오니박테리움 종(Propionibacterium species), 프로테우스 미라빌리스(Proteus mirabilis)(예를 들어, ESBL/MRGN), 프로테우스 불가리스(Proteus vulgaris), 프로비덴시아 리트게리(Providencia rettgeri), 프로비덴시아 스투아르티이(Providencia stuartii), 슈도모나스 애루기노사(Pseudomonas aeruginosa), 슈도모나스 종(Pseudomonas spp.), 광견병 바이러스, 랄스토니아 종(Ralstonia spp.), 호흡기 세포융합 바이러스, 리노바이러스, 리케차 프로와제키(Rickettsia prowazekii), 리케차 타이피(Rickettsia typhi), 로세오모나스 길라르디이(Roseomonas gilardii), 로타바이러스, 풍진 바이러스, 스키스토소마 만소니(Schistosoma mansoni), 살모넬라 엔테리티디스(Salmonella enteritidis), 살모넬라 파라타이피(Salmonella paratyphi), 살모넬라 종(Salmonella spp.), 살모넬라 타이피(Salmonella typhi), 살모넬라 타이피무리움(Salmonella typhimurium), 사르코프테스 스카비에이(Sarcoptes scabiei)(이치 마이트(Itch mite)), 사포바이러스, 세라티아 마르세센스(Serratia marcescens)(예를 들어, ESBL/MRGN), 시겔라 소네이(Shigella sonnei), 스핑고모나스 종(Sphingomonas species), 스타필로코쿠스 아우레우스(Staphylococcus aureus)(예를 들어, 메티실린 내성 에스. 아우레우스(S. aureus) MRSA, 반코마이신 내성 에스. 아우레우스(VRSA)), 스타필로코쿠스 카피티스(Staphylococcus capitis), 스타필로코쿠스 에피더미디스(Staphylococcus epidermidis)(예를 들어, 메티실린 내성 에스. 에피더미디스(S. epidermidis)(MRSE)), 스타필로코쿠스 해몰리티쿠스(Staphylococcus haemolyticus), 스타필로코쿠스 호미니스(Staphylococcus hominis), 스타필로코쿠스 루그두넨시스(Staphylococcus lugdunensis), 스타필로코쿠스 파스테우리(Staphylococcus pasteuri), 스타필로코쿠스 사프로피티쿠스(Staphylococcus saprophyticus), 스테노트로포모나스 말토필리아(Stenotrophomonas maltophilia), 스트렙토코쿠스 뉴모니아(Streptococcus pneumoniae), 스트렙토코쿠스 피오게네스(Streptococcus pyogenes)(예를 들어, PRSP), 스트렙토코쿠스 종(Streptococcus spp.), 스트롱길로이데스 스테르콜라리스(Strongyloides stercoralis), 타니아 솔리움(Taenia solium), TBE 바이러스, 톡소플라스마 곤디이(Toxoplasma gondii), 트레포네마 팔리둠(Treponema pallidum), 트리키넬라 스피랄리스(Trichinella spiralis), 트리코모나스 바기날리스(Trichomonas vaginalis), 트리코파이톤 종(Trichophyton spp.), 트리코스포론 종(Trichosporon spp.), 트리쿠리스 트리키우라(Trichuris trichiura), 트리파노소마 브루세이 감비엔스(Trypanosoma brucei gambiense), 트리파노소마 브루세이 로데시엔스(Trypanosoma brucei rhodesiense), 트리파노소마 크루지(Trypanosoma cruzi), 우수투 바이러스, 우두 바이러스, 수두 대상포진 바이러스, 천연두 바이러스, 비브리오 콜레라(Vibrio cholerae), 웨스트 나일 바이러스(WNV), 황열 바이러스, 예르시니아 엔테로콜리티카(Yersinia enterocolitica), 예르시니아 페스티스(Yersinia pestis), 예르시니아 슈도투베르쿨로시스(Yersinia pseudotuberculosis), 및 지카 바이러스.

적어도 하나의 측면에서, 본 개시내용은 데이터 구조에서 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계; 컴퓨팅 디바이스의 프로세서에 의해, 게놈 서열로부터 코딩 서열을 추출하는 단계; 프로세서에 의해, 동일성 척도 및 적용범위 척도에 따른 코딩 서열을 범주화하되, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하는 것인 단계; 동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하는 단계; 프로세서에 의해, 선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계; 프로세서에 의해, 아미노산 서열을 정렬하는 단계; 정렬된 아미노산 서열의 복수의 부분 각각을 병원체의 상이한 균주 중에서 부분의 보존 수준에 따라 분류하는 단계; 보존된 것으로 분류된 아미노산 서열의 부분을 선택하고, 선택된 보존된 서열을 인간 단백질 서열과 비교하고, 선택된 보존된 서열을 인간 단백질 서열과 동일하거나 또는 동일하지 않은 것으로 추가로 분류하는 단계; 및 인간 단백질 서열과 동일하지 않은 선택된 보존된 서열을 병원체에 대한 요법의 개발에서 후보 항원으로서 범주화하는 단계를 포함하는, 아미노산 서열을 병원체에 대한 요법의 개발에서 후보 항원으로서 인식하기 위한 방법을 포함한다. 다양한 구현예에서, 추출은 예를 들어, 서열 종료점을 선택함으로써, 예를 들어, 서열을 식별, 경계 표시, 또는 단리하는 것을 포함할 수 있다. 다양한 구현예에서, 추출은 하나 이상의 특정 특성 또는 상태, 예를 들어, 코딩 서열로서의 상태를 서열 또는 서열의 부분에 할당하는 것을 포함할 수 있다. 다양한 구현예에서, 추출은 서열, 예컨대 동일성 척도 및 적용범위 척도에 따라 범주화된 서열이 실제로 예를 들어, 주석(예를 들어, 코딩 서열 또는 비-코딩 서열로서 참조의 상응하고/하거나 정렬된 서열의 주석, 및/또는 범주화된 서열의 게놈 위치의 주석)을 관찰함으로써 코딩 서열임을 식별하는 것을 포함할 수 있다. 특정 구현예에서, 데이터 구조는 콘티그(contig)를 포함하며, 여기서 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 것은 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하는 것을 포함한다. 특정 구현예에서, 범주화 단계는 복수의 쌍 각각에 대한 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 쌍 각각의 추출된 코딩 서열 및 참조 서열을 포함한다. 특정 구현예에서, 범주화 단계는 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수이다. 특정 구현예에서, 컴퓨팅 단계는 유사성 척도의 매트릭스를 생성하고 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함한다. 특정 구현예에서, 그래픽 표현은 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함한다. 특정 구현예에서, 동일성 척도는 돌연변이의 수를 포함한다. 특정 구현예에서, 적용범위 척도는 퍼센트 적용범위를 포함한다. 특정 구현예에서, 동일성 척도는 E-값을 계산하는 것을 포함한다. 특정 구현예에서, 선택된 보존된 서열을 후보 항원으로서 범주화하는 것은 선택된 보존된 서열에서 하나 이상의 아미노산 도메인의 존재 또는 부재를 결정하는 것을 추가로 포함한다. 특정 구현예에서, 선택된 보존된 서열을 후보 항원으로서 범주화하는 것은 후보 항원이 병원체의 막 및/또는 세포 벽 내에서 분비되거나 또는 노출되는 단백질에 상응하는지 여부를 결정하는 것을 추가로 포함한다. 특정 구현예에서, 선택된 보존된 서열을 후보 항원으로서 범주화하는 것은 선택된 보존된 서열에서 막관통 도메인의 존재를 결정하는 것을 추가로 포함한다. 특정 구현예에서, 요법은 백신을 포함하고 방법은 면역원성에 대해 후보 항원을 비-임상적으로 평가하는 단계를 추가로 포함한다. 특정 구현예에서, 평가 단계는 후보 항원을 포함하는 폴리펩티드를 동물, 예를 들어, 인간, 비-인간 영장류, 마우스, 또는 래트인 동물에게 투여하는 것을 포함한다. 특정 구현예에서, 요법은 항체 요법을 포함하고, 방법은 후보 항원 상의 에피토프에 특이적으로 결합하는 항체 또는 이의 단편을 생성하는 단계를 추가로 포함한다. 특정 구현예에서, 병원체는 바이러스이다. 특정 구현예에서, 바이러스는 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스이다. 특정 구현예에서, 바이러스는 코로나바이러스이다. 특정 구현예에서, 코로나바이러스는 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)이다. 특정 구현예에서, 병원체는 박테리아이다. 특정 구현예에서, 박테리아는 스타필로코쿠스(Staphylococcus) 종 또는 슈도모나스(Pseudomonas) 종이다. 특정 구현예에서, 방법은 후보 항원을 표적하거나 또는 결합하는 치료제를 생산하는 단계를 포함한다. 특정 구현예에서, 치료제는 항체 또는 억제제이다. 특정 구현예에서, 치료제는 후보 항원을 암호화하는 코딩 서열과 같은 핵산 서열에 상응하는 shRNA 또는 siRNA이다.

적어도 하나의 측면에서, 본 개시내용은 각 대상체에게 치료제를 투여한 후 하나 이상의 대상체로부터 단리된 복수의 완전 또는 부분적 병원체 게놈 서열을 수득하는 단계; 컴퓨팅 디바이스의 프로세서에 의해, 게놈 서열로부터 코딩 서열을 추출하는 단계; 프로세서에 의해, 동일성 척도 및 적용범위 척도에 따른 코딩 서열을 범주화하되, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하는 것인 단계; 동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하는 단계; 프로세서에 의해, 선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계; 프로세서에 의해, 아미노산 서열을 정렬하는 단계; 정렬된 아미노산 서열에서, 참조에서보다 정렬된 아미노산 서열에서 더 빈번한 하나 이상의 아미노산 변이체를 식별하며, 하나 이상의 아미노산 변이체는 하나 이상의 추정 탈출 돌연변이인 단계를 포함하는, 병원체 감염의 치료를 위해 하나 이상의 대상체에게 치료제를 투여한 후 하나 이상의 추정 탈출 돌연변이를 식별하는 방법을 포함한다. 특정 구현예에서, 참조는 표준 병원체 서열을 나타내는 하나 이상의 완전 또는 부분적 병원체 게놈, 병원체의 하나 이상의 임상 균주, 치료제가 투여된 대상체 중 하나 이상으로부터의 병원체의 하나 이상의 초기 샘플, 또는 치료제가 투여되지 않은 대상체로부터의 병원체의 하나 이상의 샘플을 포함한다. 특정 구현예에서, 방법은 추정 탈출 돌연변이 중 하나 이상이 치료제와 참조 폴리펩티드의 결합 친화도를 감소시키는지 여부를 결정하는 단계를 추가로 포함한다. 특정 구현예에서, 데이터 구조는 콘티그를 포함하고, 여기서 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 것은 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하는 것을 포함한다. 특정 구현예에서, 범주화 단계는 복수의 쌍 각각에 대해 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함한다. 특정 구현예에서, 범주화 단계는 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수이다. 특정 구현예에서, 컴퓨팅 단계는 유사성 척도의 매트릭스를 생성하고 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함한다. 특정 구현예에서, 그래픽 표현은 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함한다. 특정 구현예에서, 동일성 척도는 돌연변이의 수를 포함한다. 특정 구현예에서, 적용범위 척도는 퍼센트 적용범위를 포함한다. 특정 구현예에서, 동일성 척도는 E-값을 계산하는 것을 포함한다. 특정 구현예에서, 방법은 병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열; 병원체와 연관된 단백질을 암호화하는 핵산 서열의 보존된 서열; 단백질을 암호화하는 핵산의 비-보존된 서열; 병원체와 연관된 특정 단백질 내의 보존된 도메인; 및 병원체와 연관된 특정 단백질 내의 비-보존된 도메인 중 하나 이상을 평가하는 것을 포함한다. 특정 구현예에서, 아미노산 서열의 각각의 부분은 하나 이상의 아미노산 위치를 포함한다. 특정 구현예에서, 치료제는 항체 또는 억제제이다. 특정 구현예에서, 치료제는 shRNA 또는 siRNA이다. 특정 구현예에서, 병원체는 바이러스이다. 특정 구현예에서, 바이러스는 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스이다. 특정 구현예에서, 바이러스는 코로나바이러스이다. 특정 구현예에서, 코로나바이러스는 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)이다. 특정 구현예에서, 코로나바이러스는 SARS-CoV-2이다. 특정 구현예에서, 방법은 코로나바이러스 스파이크(S) 단백질[예를 들어, MERS, SARS-CoV, 또는 SARS-CoV2 스파이크(S) 단백질] 또는 이의 수용체-결합 도메인(RBD)을 평가하는 것을 포함한다. 특정 구현예에서, 치료제는 항체를 포함한다. 특정 구현예에서, 항체는 SARS-CoV-2에 결합한다. 특정 구현예에서, 항체는 SARS-CoV-2 스파이크 단백질에 결합한다. 특정 구현예에서, 항체는 표 3에 따른 적어도 하나의 항체, 중쇄(HC), 경쇄(LC), 중쇄 가변 영역(HCVR), 경쇄 가변 영역(LCVR), 중쇄 상보성 결정 영역(HCDR), 또는 경쇄 CDR(LCDR)을 포함한다. 특정 구현예에서, 치료제는 COVID-19를 치료하는 치료제를 포함한다. 특정 구현예에서, 치료제는 렘데시비르(remdesivir), 칼레트라(kaletra), 이버멕틴(ivermectin), 타미플루(tamiflu), 아비간(avigan), 콜크라이스(colcrys), 덱사메타손(dexamethasone), 클로로퀸(chloroquine), 하이드록시클로로퀸, 아지트로마이신(azithromycin), il-6 억제제(예를 들어, 토실리주맙(tocilizumab) 및 사릴루맙(sarilumab)), 키나제 억제제(예를 들어, 아칼라브루티닙(acalabrutinib), 이브루티닙(ibrutinib), 자누브루티닙(zanubrutinib), 바리시티닙(baricitinib), 룩솔리티닙(ruxolitinib), 및 토파시티닙(tofacitinib)), 인터페론, 회복기 혈장, SARS-CoV-2 스파이크 단백질에 결합하는 항체(항-SARS-CoV-2-스파이크 단백질 항체), mAb10933(Regeneron), mAb10934(Regeneron), mAb10987(Regeneron), mAb10989(Regeneron), REGN-COV2(Regeneron), LY-CoV555(Eli Lilly), LY-CoV016(Eli Lilly), 및/또는 BNT162b2(Pfizer)를 포함한다. 특정 구현예에서, 병원체는 박테리아이다. 특정 구현예에서, 박테리아는 스타필로코쿠스 종 또는 슈도모나스 종이다. 특정 구현예에서, 방법은 하나 이상의 추정 탈출 돌연변이를 식별한 후, 상이한 치료제를 하나 이상의 대상체에게 투여하는 단계를 포함한다. 특정 구현예에서, 상이한 치료제는 COVID-19를 치료하는 치료제를 포함한다. 특정 구현예에서, 상이한 치료제는 렘데시비르, 칼레트라, 이버멕틴, 타미플루, 아비간, 콜크라이스, 덱사메타손, 클로로퀸, 하이드록시클로로퀸, 아지트로마이신, il-6 억제제(예를 들어, 토실리주맙 및 사릴루맙), 키나제 억제제(예를 들어, 아칼라브루티닙, 이브루티닙, 자누브루티닙, 바리시티닙, 룩솔리티닙, 및 토파시티닙), 인터페론, 회복기 혈장, SARS-CoV-2 스파이크 단백질에 결합하는 항체(항-SARS-CoV-2-스파이크 단백질 항체), mAb10933(Regeneron), mAb10934(Regeneron), mAb10987(Regeneron), mAb10989(Regeneron), REGN-COV2(Regeneron), LY-CoV555(Eli Lilly), LY-CoV016(Eli Lilly), 및/또는 BNT162b2(Pfizer)를 포함한다.

적어도 하나의 측면에서, 본 개시내용은 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계; 컴퓨팅 디바이스의 프로세서에 의해, 게놈 서열로부터 코딩 서열을 추출하는 단계; 프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하되, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하는 것인 단계; 동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하는 단계; 프로세서에 의해, 선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계; 프로세서에 의해, 아미노산 서열을 정렬하는 단계; 정렬된 아미노산 서열의 복수의 부분 각각을 병원체의 상이한 균주 중에서 부분의 변환 수준에 따라 분류하는 단계; 및 정렬된 아미노산 서열의 보존된 부분을 선택하는 단계에 의해 아미노산 서열의 보존된 부분을 선택하는 단계; 및 대상체로부터 단리된 완전 또는 부분적 병원체 게놈 서열이 아미노산 서열의 보존된 부분을 암호화하는 경우 대상체에게 치료제를 투여하되, 상기 치료제는 아미노산 서열의 보존된 부분에 선택적으로 결합하는 것인 단계를 포함하는, 병원체 감염의 치료를 위한 치료제를 이를 필요로 하는 대상체에게 투여하는 방법을 포함한다. 특정 구현예에서, 데이터 구조는 콘티그를 포함하고, 여기서 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 것은 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하는 것을 포함한다. 특정 구현예에서, 범주화 단계는 복수의 쌍 각각에 대해 동일성 척도 및 적용범위 척도를 정량화하는 단계를 포함하며, 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함한다. 특정 구현예에서, 범주화 단계는 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 측도의 함수이다. 특정 구현예에서, 컴퓨팅 단계는 유사성 척도의 매트릭스를 생성하고 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함한다. 특정 구현예에서, 그래픽 표현은 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함한다. 특정 구현예에서, 동일성 척도는 돌연변이의 수를 포함한다. 특정 구현예에서, 적용범위 척도는 퍼센트 적용범위를 포함한다. 특정 구현예에서, 동일성 척도는 E-값을 계산하는 것을 포함한다. 특정 구현예에서, 다음 중 하나 이상을 계산한다: 병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열; 병원체와 연관된 단백질을 암호화하는 핵산 서열의 보존된 서열; 단백질을 암호화하는 핵산의 비-보존된 서열; 병원체와 연관된 특정 단백질 내의 보존된 도메인; 및 병원체와 연관된 특정 단백질 내의 비-보존된 도메인. 특정 구현예에서, 아미노산 서열의 각각의 부분은 하나 이상의 아미노산 위치를 포함한다. 특정 구현예에서, 병원체는 바이러스이다. 특정 구현예에서, 바이러스는 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스이다. 특정 구현예에서, 바이러스는 코로나바이러스이다. 특정 구현예에서, 코로나바이러스는 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)이다. 특정 구현예에서, 코로나바이러스는 SARS-CoV-2이다. 특정 구현예에서, 방법은 코로나바이러스 스파이크(S) 단백질[예를 들어, MERS, SARS-CoV, 또는 SARS-CoV2 스파이크(S) 단백질] 또는 이의 수용체-결합 도메인(RBD)을 평가하는 것을 포함한다. 특정 구현예에서, 치료제는 항체를 포함한다. 특정 구현예에서, 항체는 SARS-CoV-2에 결합한다. 특정 구현예에서, 항체는 SARS-CoV-2 스파이크 단백질에 결합한다. 특정 구현예에서, 항체는 표 3에 따른 적어도 하나의 항체, 중쇄(HC), 경쇄(LC), 중쇄 가변 영역(HCVR), 경쇄 가변 영역(LCVR), 중쇄 상보성 결정 영역(HCDR), 또는 경쇄 CDR(LCDR)을 포함한다. 특정 구현예에서, 치료제는 COVID-19를 치료하는 치료제를 포함한다. 특정 구현예에서, 치료제는 렘데시비르, 칼레트라, 이버멕틴, 타미플루, 아비간, 콜크라이스, 덱사메타손, 클로로퀸, 하이드록시클로로퀸, 아지트로마이신, il-6 억제제(예를 들어, 토실리주맙 및 사릴루맙), 키나제 억제제(예를 들어, 아칼라브루티닙, 이브루티닙, 자누브루티닙, 바리시티닙, 룩솔리티닙, 및 토파시티닙), 인터페론, 회복기 혈장, SARS-CoV-2 스파이크 단백질에 결합하는 항체(항-SARS-CoV-2-스파이크 단백질 항체), mAb10933(Regeneron), mAb10934(Regeneron), mAb10987(Regeneron), mAb10989(Regeneron), REGN-COV2(Regeneron), LY-CoV555(Eli Lilly), LY-CoV016(Eli Lilly), 및/또는 BNT162b2(Pfizer)를 포함한다. 특정 구현예에서, 병원체는 박테리아이다. 특정 구현예에서, 박테리아는 스타필로코쿠스 종 또는 슈도모나스 종이다.

적어도 하나의 측면에서, 본 개시내용은 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계; 컴퓨팅 디바이스의 프로세서에 의해, 게놈 서열로부터 코딩 서열을 추출하는 단계; 프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하되, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하는 것인 단계; 동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하는 단계; 프로세서에 의해, 선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계; 프로세서에 의해, 아미노산 서열을 정렬하는 단계; 정렬된 아미노산 서열의 복수의 부분 각각을 병원체의 상이한 균주 중에서 부분의 보존 수준에 따라 분류하여, 이에 의해 병원체를 나타내는 코딩 서열의 보존된 부분을 식별하는 단계; 및 병원체로 감염된 대상체를 위한 치료로서 보존된 코딩 서열에 결합하는 치료제를 선택하는 단계를 포함하는, 병원체로 감염된 대상체의 치료를 위한 치료제를 선택하는 방법을 포함한다. 특정 구현예에서, 데이터 구조는 콘티그를 포함하고, 여기서 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계는 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하는 것을 포함한다. 특정 구현예에서, 범주화 단계는 복수의 쌍 각각에 대한 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함한다. 특정 구현예에서, 범주화 단계는 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수이다. 특정 구현예에서, 컴퓨팅 단계는 유사성 척도의 매트릭스를 생성하고 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함한다. 특정 구현예에서, 그래픽 표현은 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함한다. 특정 구현예에서, 동일성 척도는 돌연변이의 수를 포함한다. 특정 구현예에서, 적용범위 척도는 퍼센트 적용범위를 포함한다. 특정 구현예에서, 동일성 척도는 E-값을 계산하는 것을 포함한다. 특정 구현예에서, 방법은 병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열; 병원체와 연관된 단백질을 암호화하는 핵산 서열의 보존된 서열; 단백질을 암호화하는 핵산의 비-보존된 서열; 병원체와 연관된 특정 단백질 내의 보존된 도메인; 및 병원체와 연관된 특정 단백질 내의 비-보존된 도메인 중 하나 이상을 계산하는 단계를 포함한다. 특정 구현예에서, 아미노산 서열의 각각의 부분은 하나 이상의 아미노산 위치를 포함한다. 특정 구현예에서, 방법은 백신 또는 이의 구성요소로서 치료제를 비-임상적으로 평가하는 단계를 추가로 포함한다. 특정 구현예에서, 평가 단계는 치료제를 동물, 예를 들어, 인간, 비-인간 영장류, 마우스, 또는 래트인 동물에게 투여하는 것을 포함한다. 특정 구현예에서, 방법은 치료제를 병원체로 감염된 대상체에게 투여하는 것을 추가로 포함한다 특정 구현예에서, 병원체는 바이러스이다. 특정 구현예에서, 바이러스는 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스이다. 특정 구현예에서, 바이러스는 코로나바이러스이다. 특정 구현예에서, 코로나바이러스는 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)이다. 특정 구현예에서, 코로나바이러스는 SARS-CoV-2이다. 특정 구현예에서, 방법은 코로나바이러스 스파이크(S) 단백질[예를 들어, MERS, SARS-CoV, 또는 SARS-CoV2 스파이크(S) 단백질] 또는 이의 수용체-결합 도메인(RBD)을 평가하는 것을 포함한다. 특정 구현예에서, 치료제는 항체를 포함한다. 특정 구현예에서, 항체는 SARS-CoV-2에 결합한다. 특정 구현예에서, 항체는 SARS-CoV-2 스파이크 단백질에 결합한다. 특정 구현예에서, 항체는 표 3에 따른 적어도 하나의 항체, 중쇄(HC), 경쇄(LC), 중쇄 가변 영역(HCVR), 경쇄 가변 영역(LCVR), 중쇄 상보성 결정 영역(HCDR), 또는 경쇄 CDR(LCDR)을 포함한다. 특정 구현예에서, 치료제는 COVID-19를 치료하는 치료제를 포함한다. 특정 구현예에서, 치료제는 렘데시비르, 칼레트라, 이버멕틴, 타미플루, 아비간, 콜크라이스, 덱사메타손, 클로로퀸, 하이드록시클로로퀸, 아지트로마이신, il-6 억제제(예를 들어, 토실리주맙 및 사릴루맙), 키나제 억제제(예를 들어, 아칼라브루티닙, 이브루티닙, 자누브루티닙, 바리시티닙, 룩솔리티닙, 및 토파시티닙), 인터페론, 회복기 혈장, SARS-CoV-2 스파이크 단백질에 결합하는 항체(항-SARS-CoV-2-스파이크 단백질 항체), mAb10933(Regeneron), mAb10934(Regeneron), mAb10987(Regeneron), mAb10989(Regeneron), REGN-COV2(Regeneron), LY-CoV555(Eli Lilly), LY-CoV016(Eli Lilly), 및/또는 BNT162b2(Pfizer)를 포함한다. 특정 구현예에서, 병원체는 박테리아이다. 특정 구현예에서, 박테리아는 스타필로코쿠스 종 또는 슈도모나스 종이다.

적어도 하나의 측면에서, 본 개시내용은 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계; 컴퓨팅 디바이스의 프로세서에 의해, 게놈 서열로부터 코딩 서열을 추출하는 단계; 프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하되, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하는 것인 단계; 동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하는 단계; 프로세서에 의해, 선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계; 프로세서에 의해, 아미노산 서열을 정렬하는 단계; 및 정렬된 아미노산 서열을 사용하여 병원체를 나타내는 아미노산 서열의 하나 이상의 부분의 보존 수준을 식별하는 단계를 포함하는, 병원체를 나타내는 아미노산 서열 부분의 보존을 평가하는 방법을 포함한다. 특정 구현예에서, 부분 중 하나 이상은 병원체에 대한 요법의 개발에서 후보 항원으로서 식별된다. 특정 구현예에서, 데이터 구조는 콘티그를 포함하며, 여기서 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계는 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하는 것을 포함한다. 특정 구현예에서, 범주화 단계는 복수의 쌍 각각에 대한 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함한다. 특정 구현예에서, 범주화 단계는 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수이다. 특정 구현예에서, 컴퓨팅 단계는 유사성 척도의 매트릭스를 생성하고 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함한다. 특정 구현예에서, 그래픽 표현은 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함한다. 특정 구현예에서, 동일성 척도는 돌연변이의 수를 포함한다. 특정 구현예에서, 적용범위 척도는 퍼센트 적용범위를 포함한다. 특정 구현예에서, 동일성 척도는 E-값을 계산하는 것을 포함한다. 특정 구현예에서, 방법은 병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열; 병원체와 연관된 단백질을 암호화하는 핵산 서열의 보존된 서열; 단백질을 암호화하는 핵산의 비-보존된 서열; 병원체와 연관된 특정 단백질 내의 보존된 도메인; 및 병원체와 연관된 특정 단백질 내의 비-보존된 도메인 중 하나 이상을 평가하는 것을 포함한다. 특정 구현예에서, 아미노산 서열의 각각의 부분은 하나 이상의 아미노산 위치를 포함한다. 특정 구현예에서, 병원체는 바이러스이다. 특정 구현예에서, 바이러스는 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스이다. 특정 구현예에서, 바이러스는 코로나바이러스이다. 특정 구현예에서, 코로나바이러스는 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)이다. 특정 구현예에서, 코로나바이러스는 SARS-CoV-2이다. 특정 구현예에서, 게놈 서열은 SARS-CoV-2 게놈 서열이고 참조 서열은 SARS-CoV-2 참조 서열이다. 특정 구현예에서, 방법은 코로나바이러스 스파이크(S) 단백질[예를 들어, MERS, SARS-CoV, 또는 SARS-CoV2 스파이크(S) 단백질] 또는 이의 수용체-결합 도메인(RBD)을 평가하는 것을 포함한다. 특정 구현예에서, 병원체는 박테리아이다. 특정 구현예에서, 박테리아는 스타필로코쿠스 종 또는 슈도모나스 종이다.

적어도 하나의 측면에서, 본 개시내용은 데이터 구조로부터 병원체의 순환 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계; 순환 균주 서열의 하나 이상의 보존된 부분을 식별하는 단계; 단리된 병원체의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계; 및 순환 균주 서열의 식별된 하나 이상의 보존된 부분에 대한 단리된 병원체 서열의 적어도 일부를 비교함으로써 단리된 병원체가 순환 균주를 나타내는지 여부를 식별하는 단계를 포함하는, 단리된 병원체가 순환 균주를 나타내는지 여부를 식별하는 단계를 포함한다. 특정 구현예에서, 순환 균주 서열의 하나 이상의 보존된 부분을 식별하는 단계는 컴퓨팅 디바이스의 프로세서에 의해, 게놈 서열로부터 코딩 서열을 추출하는 단계; 프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하되, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하는 것인 단계; 동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하는 단계; 프로세서에 의해, 선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계; 프로세서에 의해, 아미노산 서열을 정렬하는 단계; 및 정렬된 아미노산 서열의 복수의 부분 각각을 정렬된 아미노산 서열 중에서 부분의 보존 수준에 따라 분류하는 단계를 포함한다. 특정 구현예에서, 데이터 구조는 콘티그를 포함하며, 여기서 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계는 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하는 것을 포함한다. 특정 구현예에서, 범주화 단계는 복수의 쌍 각각에 대한 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함한다. 특정 구현예에서, 범주화 단계는 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 유사성 계산치 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수이다. 특정 구현예에서, 컴퓨팅 단계는 유사성 척도의 매트릭스를 생성하고 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함한다. 특정 구현예에서, 그래픽 표현은 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함한다. 특정 구현예에서, 동일성 척도는 돌연변이의 수를 포함한다. 특정 구현예에서, 적용범위 척도는 퍼센트 적용범위를 포함한다. 특정 구현예에서, 동일성 척도는 E-값을 계산하는 것을 포함한다. 특정 구현예에서, 방법은 병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열; 병원체와 연관된 단백질을 암호화하는 핵산 서열의 보존된 서열; 단백질을 암호화하는 핵산의 비-보존된 서열; 병원체와 연관된 특정 단백질 내의 보존된 도메인; 및 병원체와 연관된 특정 단백질 내의 비-보존된 도메인 중 하나 이상을 평가하는 것을 포함한다. 특정 구현예에서, 아미노산 서열의 각각의 부분은 하나 이상의 아미노산 위치를 포함한다. 특정 구현예에서, 병원체는 바이러스이다. 특정 구현예에서, 바이러스는 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스이다. 특정 구현예에서, 바이러스는 코로나바이러스이다. 특정 구현예에서, 코로나바이러스는 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)이다. 특정 구현예에서, 코로나바이러스는 SARS-CoV-2이다. 특정 구현예에서, 방법은 코로나바이러스 스파이크(S) 단백질[예를 들어, MERS, SARS-CoV, 또는 SARS-CoV2 스파이크(S) 단백질] 또는 이의 수용체-결합 도메인(RBD)을 평가하는 것을 포함한다. 특정 구현예에서, 병원체는 박테리아이다. 특정 구현예에서, 박테리아는 스타필로코쿠스 종 또는 슈도모나스 종이다. 특정 구현예에서, 방법은 단리된 병원체 및/또는 순환 균주의 샘플을 저장(예를 들어, 동결)하는 단계를 추가로 포함한다. 특정 구현예에서, 방법은 단리된 병원체 및/또는 순환 균주로부터 게놈 물질을 단리하는 단계 및/또는 병원체 및/또는 순환 균주로부터 단리된 게놈 물질을 저장(예를 들어, 동결)하는 단계를 추가로 포함한다. 특정 구현예에서, 방법은 단리된 병원체가 순환 균주를 나타내는 경우, 연구(예를 들어, 병원체의 치료를 위한 치료제의 개발을 위한 연구, 임의적으로 여기서 치료제는 예를 들어, shRNA, siRNA, 억제제, 또는 항체일 수 있음)를 위한 균주로서 단리된 병원체를 활용 및/또는 유지하는 단계를 추가로 포함한다.

적어도 하나의 측면에서, 본 개시내용은 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계; 컴퓨팅 디바이스의 프로세서에 의해, 게놈 서열로부터 코딩 서열을 추출하는 단계; 프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하되, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하는 것인 단계; 동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하는 단계; 프로세서에 의해, 선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계; 및 아미노산 서열 또는 이의 부분 중 하나 이상의 질량 대 전하 비를 결정하는 단계를 포함하는, 병원체를 나타내는 펩티드의 질량 대 전하 비를 식별하는 방법을 포함한다. 특정 구현예에서, 데이터 구조는 콘티그를 포함하며, 여기서 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계는 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하는 것을 포함한다. 특정 구현예에서, 범주화 단계는 복수의 쌍 각각에 대한 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함한다. 특정 구현예에서, 범주화 단계는 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수이다. 특정 구현예에서, 컴퓨팅 단계는 유사성 척도의 매트릭스를 생성하고 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함한다. 특정 구현예에서, 그래픽 표현은 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함한다. 특정 구현예에서, 동일성 척도는 돌연변이의 수를 포함한다. 특정 구현예에서, 적용범위 척도는 퍼센트 적용범위를 포함한다. 특정 구현예에서, 동일성 척도는 E-값을 계산하는 것을 포함한다. 특정 구현예에서, 방법은 병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열; 병원체와 연관된 단백질을 암호화하는 핵산 서열의 보존된 서열; 단백질을 암호화하는 핵산의 비-보존된 서열; 병원체와 연관된 특정 단백질 내의 보존된 도메인; 및 병원체와 연관된 특정 단백질 내의 비-보존된 도메인 중 하나 이상을 평가하는 것을 포함한다. 특정 구현예에서, 아미노산 서열의 각각의 부분은 하나 이상의 아미노산 위치를 포함한다. 특정 구현예에서, 병원체는 바이러스이다. 특정 구현예에서, 바이러스는 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스이다. 특정 구현예에서, 바이러스는 코로나바이러스이다. 특정 구현예에서, 코로나바이러스는 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)이다. 특정 구현예에서, 코로나바이러스는 SARS-CoV-2이다. 특정 구현예에서, 방법은 코로나바이러스 스파이크(S) 단백질[예를 들어, MERS, SARS-CoV, 또는 SARS-CoV2 스파이크(S) 단백질] 또는 이의 수용체-결합 도메인(RBD)을 평가하는 것을 포함한다. 특정 구현예에서, 병원체는 박테리아이다. 특정 구현예에서, 박테리아는 스타필로코쿠스 종 또는 슈도모나스 종이다. 특정 구현예에서, 방법은 병원체의 샘플로부터 하나 이상의 폴리펩티드의 질량 분석을 수행하는 단계 및/또는 샘플로부터의 폴리펩티드가 결정된 질량 대 전하 비에 일치하는 질량 대 전하 비를 갖는 아미노산이거나 또는 이를 포함하는지 여부를 결정하는 단계를 추가로 포함한다.

적어도 하나의 측면에서, 본 개시내용은 데이터 구조로부터 병원성 박테리아의 복수의 완전 또는 부분적 플라스미드 서열을 수득하는 단계; 컴퓨팅 디바이스의 프로세서에 의해, 플라스미드 서열로부터 코딩 서열을 추출하는 단계; 프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하되, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하는 것인 단계; 동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하는 단계; 프로세서에 의해, 선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계; 프로세서에 의해, 아미노산 서열을 정렬하는 단계; 정렬된 아미노산 서열의 복수의 부분 각각을 복수의 플라스미드 서열 중에서 부분의 보존 수준에 따라 분류하는 단계; 보존된 것으로 분류된 아미노산 서열의 부분을 선택하는 단계; 및 선택된 보존된 서열을 후보 항생제 내성 마커로서 범주화하는 단계를 포함하는, 아미노산 서열을 후보 항생제 내성 마커로서 식별하는 방법을 포함한다. 특정 구현예에서, 방법은 선택된 서열에서 막관통 도메인의 존재를 포함하는 하나 이상의 추가 기준에 따라 후보 항생제 내성 마커를 후보로서 식별하는 단계를 추가로 포함한다. 특정 구현예에서, 데이터 구조는 콘티그를 포함하며, 여기서 데이터 구조로부터 복수의 완전 또는 부분적 플라스미드 서열을 수득하는 것은 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 플라스미드 서열의 적어도 일부를 생성하는 것을 포함한다. 특정 구현예에서, 범주화 단계는 복수의 쌍 각각에 대한 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함한다. 특정 구현예에서, 범주화 단계는 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수이다. 특정 구현예에서, 컴퓨팅 단계는 유사성 척도의 매트릭스를 생성하고 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함한다. 특정 구현예에서, 그래픽 표현은 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함한다. 특정 구현예에서, 동일성 척도는 돌연변이의 수를 포함한다. 특정 구현예에서, 적용범위 척도는 퍼센트 적용범위를 포함한다. 특정 구현예에서, 동일성 척도는 E-값을 계산하는 것을 포함한다. 특정 구현예에서, 방법은 병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열; 병원체와 연관된 단백질을 암호화하는 핵산 서열의 보존된 서열; 단백질을 암호화하는 핵산의 비-보존된 서열; 병원체와 연관된 특정 단백질 내의 보존된 도메인; 및 병원체와 연관된 특정 단백질 내의 비-보존된 도메인 중 하나 이상을 평가하는 것을 포함한다. 특정 구현예에서, 아미노산 서열의 각각의 부분은 하나 이상의 아미노산 위치를 포함한다. 특정 구현예에서, 박테리아는 스타필로코쿠스 종 또는 슈도모나스 종이다. 특정 구현예에서, 방법은 예를 들어, 하나 이상의 대상체가 병원성 박테리아로 감염된 경우, 후보 항생제 내성 마커의 존재 또는 부재에 대해 하나 이상의 대상체로부터의 하나 이상의 샘플을 스크리닝하는 단계를 추가로 포함한다.

적어도 하나의 측면에서, 본 개시내용은 데이터 구조로부터 병원성 박테리아의 복수의 완전 또는 부분적 플라스미드 서열을 수득하는 단계; 컴퓨팅 디바이스의 프로세서에 의해, 플라스미드 서열로부터 코딩 서열을 추출하는 단계; 프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하되, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하는 것인 단계; 동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하는 단계; 프로세서에 의해, 선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계; 프로세서에 의해, 아미노산 서열을 정렬하는 단계; 및 아미노산 서열의 복수의 부분 각각을 복수의 플라스미드 서열 중에서 부분의 보존 수준에 따라 분류하여, 이에 의해 플라스미드를 나타내는 코딩 서열의 하나 이상의 보존된 부분을 식별하는 단계를 포함하는, 플라스미드를 나타내는 코딩 서열의 하나 이상의 보존된 부분을 식별하는 방법을 포함한다. 특정 구현예에서, 데이터 구조는 콘티그를 포함하며, 여기서 데이터 구조로부터 복수의 완전 또는 부분적 플라스미드 서열을 수득하는 단계는 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 플라스미드 서열의 적어도 일부를 생성하는 것을 포함한다. 특정 구현예에서, 범주화 단계는 복수의 쌍 각각에 대한 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함한다. 특정 구현예에서, 범주화 단계는 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수이다. 특정 구현예에서, 컴퓨팅 단계는 유사성 척도의 매트릭스를 생성하고 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함한다. 특정 구현예에서, 그래픽 표현은 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함한다. 특정 구현예에서, 동일성 척도는 돌연변이의 수를 포함한다. 특정 구현예에서, 적용범위 척도는 퍼센트 적용범위를 포함한다. 특정 구현예에서, 동일성 척도는 E-값을 계산하는 것을 포함한다. 특정 구현예에서, 방법은 병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열; 병원체와 연관된 단백질을 암호화하는 핵산 서열의 보존된 서열; 단백질을 암호화하는 핵산의 비-보존된 서열; 병원체와 연관된 특정 단백질 내의 보존된 도메인; 및 병원체와 연관된 특정 단백질 내의 비-보존된 도메인 중 하나 이상을 평가하는 것을 포함한다. 특정 구현예에서, 아미노산 서열의 각각의 부분은 하나 이상의 아미노산 위치를 포함한다. 특정 구현예에서, 박테리아는 스타필로코쿠스 종 또는 슈도모나스 종이다. 특정 구현예에서, 방법은 예를 들어, 하나 이상의 대상체가 병원성 박테리아로 감염된 경우, 플라스미드를 나타내는 코딩 서열의 보존된 부분의 존재 또는 부재에 대해 하나 이상의 대상체로부터의 하나 이상의 샘플을 스크리닝하는 단계를 추가로 포함한다.

적어도 하나의 측면에서, 본 개시내용은 병원체를 나타내는 코딩 서열의 하나 이상의 보존된 부분을 자동으로 식별하는 시스템을 포함하고, 상기 시스템은 프로세서; 및 프로세서에 대한 명령어(instruction)가 있는 메모리를 포함하며, 명령어는 프로세서에 의해 실행될 때, 프로세서가 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하게 하고; 프로세서에 의해, 게놈 서열로부터 코딩 서열을 추출하게 하고; 프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하게 하며, 여기서 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하고; 동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하게 하고; 프로세서에 의해, 선택된 코딩 서열을 상응하는 아미노산 서열로 변환시키고; 프로세서에 의해, 아미노산 서열을 정렬시키고; 정렬된 아미노산 서열의 복수의 부분 각각을 병원체의 상이한 균주 중에서 부분의 보존 수준에 따라 분류하여, 이에 의해 병원체를 나타내는 코딩 서열의 하나 이상의 보존된 부분을 식별하게 한다. 특정 구현예에서, 명령어는 프로세서에 의해 실행될 때, 프로세서가 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하게 하며, 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수이다. 특정 구현예에서, 명령어는 프로세서에 의해 실행될 때, 프로세서가 유사성 척도의 매트릭스를 생성하고 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하게 한다. 특정 구현예에서, 그래픽 표현은 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함한다. 특정 구현예에서, 데이터 구조는 콘티그를 포함하며, 여기서 명령어는 프로세서에 의해 실행될 때, 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 게놈 서열의 적어도 일부를 생성함으로써 프로세서가 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하게 한다. 특정 구현예에서, 명령어는 프로세서에 의해 실행될 때, 프로세서가 병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열; 병원체와 연관된 단백질을 암호화하는 핵산 서열의 보존된 서열 단백질을 암호화하는 핵산의 비-보존된 서열; 병원체와 연관된 특정 단백질 내의 보존된 도메인; 및 병원체와 연관된 특정 단백질 내의 비-보존된 도메인 중 하나 이상을 평가하게 한다. 특정 구현예에서, 명령어는 프로세서에 의해 실행될 때, 프로세서가 코로나바이러스 스파이크(S) 단백질[예를 들어, MERS, SARS-CoV, 또는 SARS-CoV2 스파이크(S) 단백질] 또는 이의 수용체-결합 도메인(RBD)을 평가하게 한다. 특정 구현예에서, 병원체는 바이러스이다. 특정 구현예에서, 바이러스는 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스이다. 특정 구현예에서, 바이러스는 코로나바이러스이다. 특정 구현예에서, 코로나바이러스는 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)이다. 특정 구현예에서, 코로나바이러스는 SARS-CoV-2이다. 특정 구현예에서, 병원체는 박테리아이다. 특정 구현예에서, 박테리아는 스타필로코쿠스 종 또는 슈도모나스 종이다.

적어도 하나의 측면에서, 본 개시내용은 플라스미드를 나타내는 코딩 서열의 하나 이상의 보존된 부분을 자동으로 식별하는 시스템을 포함하고, 상기 시스템은 프로세서; 및 프로세서에 대한 명령어가 있는 메모리를 포함하며, 명령어는 프로세서에 의해 실행될 때, 프로세서가 데이터 구조로부터 병원성 박테리아의 복수의 완전 또는 부분적 플라스미드 서열을 수득하게 하고; 프로세서에 의해, 플라스미드 서열로부터 코딩 서열을 추출하게 하고; 프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하게 하며, 여기서 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하고; 동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하게 하고; 프로세서에 의해, 선택된 코딩 서열을 상응하는 아미노산 서열로 변환시키고; 프로세서에 의해, 아미노산 서열을 정렬시키고; 아미노산 서열의 복수의 부분 각각을 복수의 플라스미드 서열 중에서 부분의 보존 수준에 따라 분류하여, 이에 의해 플라스미드를 나타내는 코딩 서열의 하나 이상의 보존된 부분을 식별하게 한다. 특정 구현예에서, 명령어는 프로세서에 의해 실행될 때, 프로세서가 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하게 하며, 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수이다. 특정 구현예에서, 명령어는 프로세서에 의해 실행될 때, 프로세서가 유사성 척도의 매트릭스를 생성하고 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하게 한다. 특정 구현예에서, 그래픽 표현은 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함한다. 특정 구현예에서, 데이터 구조는 콘티그를 포함하며, 여기서 명령어는 프로세서에 의해 실행될 때, 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 플라스미드 서열의 적어도 일부를 생성함으로써 프로세서가 병원성 박테리아의 복수의 완전 또는 부분적 플라스미드 서열을 수득하게 한다. 특정 구현예에서, 명령어는 프로세서에 의해 실행될 때, 프로세서가 병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열; 병원체와 연관된 단백질을 암호화하는 핵산 서열의 보존된 서열 단백질을 암호화하는 핵산의 비-보존된 서열; 병원체와 연관된 특정 단백질 내의 보존된 도메인; 및 병원체와 연관된 특정 단백질 내의 비-보존된 도메인 중 하나 이상을 평가하게 한다. 특정 구현예에서, 명령어는 프로세서에 의해 실행될 때, 프로세서가 코로나바이러스 스파이크(S) 단백질[예를 들어, MERS, SARS-CoV, 또는 SARS-CoV2 스파이크(S) 단백질] 또는 이의 수용체-결합 도메인(RBD)을 평가하게 한다. 특정 구현예에서, 병원체는 바이러스이다. 특정 구현예에서, 바이러스는 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스이다. 특정 구현예에서, 바이러스는 코로나바이러스이다. 특정 구현예에서, 코로나바이러스는 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)이다. 특정 구현예에서, 코로나바이러스는 SARS-CoV-2이다. 특정 구현예에서, 병원체는 박테리아이다. 특정 구현예에서, 박테리아는 스타필로코쿠스 종 또는 슈도모나스 종이다.

적어도 하나의 측면에서, 본 개시내용은 병원체 감염의 치료를 위해 하나 이상의 대상체에게 치료제를 투여한 후 하나 이상의 추정 탈출 돌연변이를 식별하는 데 사용하기 위한 치료제를 포함하며, 사용은 각각의 대상체에게 치료제를 투여한 후 하나 이상의 대상체로부터 단리된 복수의 완전 또는 부분적 병원체 게놈 서열을 수득하는 단계; 컴퓨팅 디바이스의 프로세서에 의해, 게놈 서열로부터 코딩 서열을 추출하는 단계; 프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하되, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하는 것인 단계; 동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하는 단계; 프로세서에 의해, 선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계; 프로세서에 의해, 아미노산 서열을 정렬하는 단계; 정렬된 아미노산 서열에서, 참조에서보다 정렬된 아미노산 서열에서 더 빈번한 하나 이상의 아미노산 변이체를 식별하며, 하나 이상의 아미노산 변이체는 하나 이상의 추정 탈출 돌연변이인 단계를 포함한다. 특정 구현예에서, 참조는 표준 병원체 서열을 나타내는 하나 이상의 완전 또는 부분적 병원체 게놈 서열, 병원체의 하나 이상의 임상 균주, 치료제가 투여된 대상체 중 하나 이상으로부터 병원체의 하나 이상의 초기 샘플, 또는 치료제가 투여되지 않은 대상체로부터 병원체의 하나 이상의 샘플을 포함한다. 특정 구현예에서, 사용은 추정 탈출 돌연변이 중 하나 이상이 치료제와 참조 폴리펩티드의 결합 친화도를 감소시키는지 여부를 결정하는 단계를 추가로 포함한다. 특정 구현예에서, 데이터 구조는 콘티그를 포함하며, 여기서 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계는 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하는 것을 포함한다. 특정 구현예에서, 범주화 단계는 복수의 쌍 각각에 대한 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함한다. 특정 구현예에서, 범주화 단계는 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수이다. 특정 구현예에서, 컴퓨팅 단계는 유사성 척도의 매트릭스를 생성하고 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함한다. 특정 구현예에서, 그래픽 표현은 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함한다. 특정 구현예에서, 동일성 척도는 돌연변이의 수를 포함한다. 특정 구현예에서, 적용범위 척도는 퍼센트 적용범위를 포함한다. 특정 구현예에서, 동일성 척도는 E-값을 계산하는 것을 포함한다. 특정 구현예에서, 사용은 병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열; 병원체와 연관된 단백질을 암호화하는 핵산 서열의 보존된 서열; 단백질을 암호화하는 핵산의 비-보존된 서열; 병원체와 연관된 특정 단백질 내의 보존된 도메인; 및 병원체와 연관된 특정 단백질 내의 비-보존된 도메인 중 하나 이상을 평가하는 것을 포함한다. 특정 구현예에서, 아미노산 서열의 각각의 부분은 하나 이상의 아미노산 위치를 포함한다. 특정 구현예에서, 병원체는 바이러스이다. 특정 구현예에서, 바이러스는 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스이다. 특정 구현예에서, 바이러스는 코로나바이러스이다. 특정 구현예에서, 코로나바이러스는 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)이다. 특정 구현예에서, 코로나바이러스는 SARS-CoV-2이다. 특정 구현예에서, 사용은 코로나바이러스 스파이크(S) 단백질[예를 들어, MERS, SARS-CoV, 또는 SARS-CoV2 스파이크(S) 단백질] 또는 이의 수용체-결합 도메인(RBD)을 평가하는 것을 포함한다. 특정 구현예에서, 치료제는 항체를 포함한다. 특정 구현예에서, 항체는 SARS-CoV-2에 결합한다. 특정 구현예에서, 항체는 SARS-CoV-2 스파이크 단백질에 결합한다. 특정 구현예에서, 항체는 표 3에 따른 적어도 하나의 항체, 중쇄(HC), 경쇄(LC), 중쇄 가변 영역(HCVR), 경쇄 가변 영역(LCVR), 중쇄 상보성 결정 영역(HCDR), 또는 경쇄 CDR(LCDR)을 포함한다. 특정 구현예에서, 병원체는 박테리아이다. 특정 구현예에서, 박테리아는 스타필로코쿠스 종 또는 슈도모나스 종이다.

적어도 하나의 측면에서, 본 개시내용은 병원체 감염의 치료에서 사용하기 위한 치료제를 포함하며, 사용은 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계; 컴퓨팅 디바이스의 프로세서에 의해, 게놈 서열로부터 코딩 서열을 추출하는 단계; 프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하되, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하는 것인 단계; 동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하는 단계; 프로세서에 의해, 선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계; 프로세서에 의해, 아미노산 서열을 정렬하는 단계; 정렬된 아미노산 서열의 복수의 부분 각각을 병원체의 상이한 균주 중에서 부분의 보존 수준에 따라 분류하는 단계; 및 정렬된 아미노산 서열의 보존된 부분을 선택하는 단계에 의해 아미노산 서열의 보존된 부분을 선택하는 단계; 및 대상체로부터 단리된 완전 또는 부분적 병원체 게놈 서열이 아미노산 서열의 보존된 부분을 암호화하는 경우 대상체에게 치료제를 투여하되, 상기 치료제는 아미노산 서열의 보존된 부분에 선택적으로 결합하는 것인 단계를 포함한다. 특정 구현예에서, 데이터 구조는 콘티그를 포함하며, 여기서 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계는 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하는 것을 포함한다. 특정 구현예에서, 범주화 단계는 복수의 쌍 각각에 대한 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함한다. 특정 구현예에서, 범주화 단계는 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수이다. 특정 구현예에서, 컴퓨팅 단계는 유사성 척도의 매트릭스를 생성하고 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함한다. 특정 구현예에서, 그래픽 표현은 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함한다. 특정 구현예에서, 동일성 척도는 돌연변이의 수를 포함한다. 특정 구현예에서, 적용범위 척도는 퍼센트 적용범위를 포함한다. 특정 구현예에서, 동일성 척도는 E-값을 계산하는 것을 포함한다. 특정 구현예에서, 병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열; 병원체와 연관된 단백질을 암호화하는 핵산 서열의 보존된 서열; 단백질을 암호화하는 핵산의 비-보존된 서열; 병원체와 연관된 특정 단백질 내의 보존된 도메인; 및 병원체와 연관된 특정 단백질 내의 비-보존된 도메인 중 하나 이상을 평가한다. 특정 구현예에서, 아미노산 서열의 각각의 부분은 하나 이상의 아미노산 위치를 포함한다. 특정 구현예에서, 병원체는 바이러스이다. 특정 구현예에서, 바이러스는 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스이다. 특정 구현예에서, 바이러스는 코로나바이러스이다. 특정 구현예에서, 코로나바이러스는 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)이다. 특정 구현예에서, 코로나바이러스는 SARS-CoV-2이다. 특정 구현예에서, 사용은 코로나바이러스 스파이크(S) 단백질[예를 들어, MERS, SARS-CoV, 또는 SARS-CoV2 스파이크(S) 단백질] 또는 이의 수용체-결합 도메인(RBD)을 평가하는 것을 포함한다. 특정 구현예에서, 치료제는 항체를 포함한다. 특정 구현예에서, 항체는 SARS-CoV-2에 결합한다. 특정 구현예에서, 항체는 SARS-CoV-2 스파이크 단백질에 결합한다. 특정 구현예에서, 항체는 표 3에 따른 적어도 하나의 항체, 중쇄(HC), 경쇄(LC), 중쇄 가변 영역(HCVR), 경쇄 가변 영역(LCVR), 중쇄 상보성 결정 영역(HCDR), 또는 경쇄 CDR(LCDR)을 포함한다. 특정 구현예에서, 병원체는 박테리아이다. 특정 구현예에서, 박테리아는 스타필로코쿠스 종 또는 슈도모나스 종이다.

적어도 하나의 측면에서, 본 개시내용은 병원체 감염의 치료를 위해 하나 이상의 대상체에게 약제를 투여한 후 하나 이상의 추정 탈출 돌연변이를 식별하기 위한 약제의 제조를 위한 치료제의 용도를 포함하며, 용도는 각각의 대상체에게 약제를 투여한 후 하나 이상의 대상체로부터 단리된 복수의 완전 또는 부분적 병원체 게놈 서열을 수득하는 단계; 컴퓨팅 디바이스의 프로세서에 의해, 게놈 서열로부터 코딩 서열을 추출하는 단계; 프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하되, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하는 것인 단계; 동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하는 단계; 프로세서에 의해, 선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계; 프로세서에 의해, 아미노산 서열을 정렬하는 단계; 정렬된 아미노산 서열에서, 참조에서보다 정렬된 아미노산 서열에서 더 빈번한 하나 이상의 아미노산 변이체를 식별하며, 상기 하나 이상의 아미노산 변이체는 하나 이상의 추정 탈출 돌연변이인 단계를 포함한다. 특정 구현예에서, 참조는 표준 병원체 서열을 나타내는 하나 이상의 완전 또는 부분적 병원체 게놈 서열, 병원체의 하나 이상의 임상 균주, 치료제가 투여된 대상체 중 하나 이상으로부터 병원체의 하나 이상의 초기 샘플, 또는 치료제가 투여되지 않은 대상체로부터 병원체의 하나 이상의 샘플을 포함한다. 특정 구현예에서, 용도는 추정 탈출 돌연변이 중 하나 이상이 치료제와 참조 폴리펩티드의 결합 친화도를 감소시키는지 여부를 결정하는 단계를 추가로 포함한다. 특정 구현예에서, 데이터 구조는 콘티그를 포함하며, 여기서 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계는 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하는 것을 포함한다. 특정 구현예에서, 범주화 단계는 복수의 쌍 각각에 대한 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함한다. 특정 구현예에서, 범주화 단계는 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수이다. 특정 구현예에서, 컴퓨팅 단계는 유사성 척도의 매트릭스를 생성하고 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함한다. 특정 구현예에서, 그래픽 표현은 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함한다. 특정 구현예에서, 동일성 척도는 돌연변이의 수를 포함한다. 특정 구현예에서, 적용범위 척도는 퍼센트 적용범위를 포함한다. 특정 구현예에서, 동일성 척도는 E-값을 계산하는 것을 포함한다. 특정 구현예에서, 용도는 병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열; 병원체와 연관된 단백질을 암호화하는 핵산 서열의 보존된 서열; 단백질을 암호화하는 핵산의 비-보존된 서열; 병원체와 연관된 특정 단백질 내의 보존된 도메인; 및 병원체와 연관된 특정 단백질 내의 비-보존된 도메인 중 하나 이상을 평가하는 것을 포함한다. 특정 구현예에서, 아미노산 서열의 각각의 부분은 하나 이상의 아미노산 위치를 포함한다. 특정 구현예에서, 병원체는 바이러스이다. 특정 구현예에서, 바이러스는 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스이다. 특정 구현예에서, 바이러스는 코로나바이러스이다. 특정 구현예에서, 코로나바이러스는 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)이다. 특정 구현예에서, 코로나바이러스는 SARS-CoV-2이다. 특정 구현예에서, 용도는 코로나바이러스 스파이크(S) 단백질[예를 들어, MERS, SARS-CoV, 또는 SARS-CoV2 스파이크(S) 단백질] 또는 이의 수용체-결합 도메인(RBD)을 평가하는 것을 포함한다. 특정 구현예에서, 치료제는 항체를 포함한다. 특정 구현예에서, 항체는 SARS-CoV-2에 결합한다. 특정 구현예에서, 항체는 SARS-CoV-2 스파이크 단백질에 결합한다. 특정 구현예에서, 항체는 표 3에 따른 적어도 하나의 항체, 중쇄(HC), 경쇄(LC), 중쇄 가변 영역(HCVR), 경쇄 가변 영역(LCVR), 중쇄 상보성 결정 영역(HCDR), 또는 경쇄 CDR(LCDR)을 포함한다. 특정 구현예에서, 병원체는 박테리아이다. 특정 구현예에서, 박테리아는 스타필로코쿠스 종 또는 슈도모나스 종이다.

적어도 하나의 측면에서, 본 개시내용은 병원체 감염의 치료를 위한 약제의 제조를 위한 치료제의 용도를 포함하며, 용도는 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계; 컴퓨팅 디바이스의 프로세서에 의해, 게놈 서열로부터 코딩 서열을 추출하는 단계; 프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하되, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하는 것인 단계; 동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하는 단계; 프로세서에 의해, 선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계; 프로세서에 의해, 아미노산 서열을 정렬하는 단계; 정렬된 아미노산 서열의 복수의 부분 각각을 병원체의 상이한 균주 중에서 상기 부분의 보존 수준에 따라 분류하는 단계; 및 정렬된 아미노산 서열의 보존된 부분을 선택하는 단계에 의해 아미노산 서열의 보존된 부분을 선택하는 단계; 및 대상체로부터 단리된 완전 또는 부분적 병원체 게놈 서열이 아미노산 서열의 보존된 부분을 암호화하는 경우 대상체에게 약제를 투여하되, 상기 치료제는 아미노산 서열의 보존된 부분에 선택적으로 결합하는 것인 단계를 포함한다. 특정 구현예에서, 데이터 구조는 콘티그를 포함하며, 여기서 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계는 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하는 것을 포함한다. 특정 구현예에서, 범주화 단계는 복수의 쌍 각각에 대한 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함한다. 특정 구현예에서, 범주화 단계는 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수이다. 특정 구현예에서, 컴퓨팅 단계는 유사성 척도의 매트릭스를 생성하고 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함한다. 특정 구현예에서, 그래픽 표현은 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함한다. 특정 구현예에서, 동일성 척도는 돌연변이의 수를 포함한다. 특정 구현예에서, 적용범위 척도는 퍼센트 적용범위를 포함한다. 특정 구현예에서, 동일성 척도는 E-값을 계산하는 것을 포함한다. 특정 구현예에서, 병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열; 병원체와 연관된 단백질을 암호화하는 핵산 서열의 보존된 서열; 단백질을 암호화하는 핵산의 비-보존된 서열; 병원체와 연관된 특정 단백질 내의 보존된 도메인; 및 병원체와 연관된 특정 단백질 내의 비-보존된 도메인 중 하나 이상을 평가한다. 특정 구현예에서, 아미노산 서열의 각각의 부분은 하나 이상의 아미노산 위치를 포함한다. 특정 구현예에서, 병원체는 바이러스이다. 특정 구현예에서, 바이러스는 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스이다. 특정 구현예에서, 바이러스는 코로나바이러스이다. 특정 구현예에서, 코로나바이러스는 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)이다. 특정 구현예에서, 코로나바이러스는 SARS-CoV-2이다. 특정 구현예에서, 용도는 코로나바이러스 스파이크(S) 단백질[예를 들어, MERS, SARS-CoV, 또는 SARS-CoV2 스파이크(S) 단백질] 또는 이의 수용체-결합 도메인(RBD)을 평가하는 것을 포함한다. 특정 구현예에서, 치료제는 항체를 포함한다. 특정 구현예에서, 항체는 SARS-CoV-2에 결합한다. 특정 구현예에서, 항체는 SARS-CoV-2 스파이크 단백질에 결합한다. 특정 구현예에서, 항체는 표 3에 따른 적어도 하나의 항체, 중쇄(HC), 경쇄(LC), 중쇄 가변 영역(HCVR), 경쇄 가변 영역(LCVR), 중쇄 상보성 결정 영역(HCDR), 또는 경쇄 CDR(LCDR)을 포함한다. 특정 구현예에서, 병원체는 박테리아이다. 특정 구현예에서, 박테리아는 스타필로코쿠스 종 또는 슈도모나스 종이다.

적어도 하나의 측면에서, 본 개시내용은 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계; 컴퓨팅 디바이스의 프로세서에 의해, 게놈 서열로부터 코딩 서열을 추출하는 단계; 코딩 서열을 병원체 에피토프를 암호화하는 참조 서열과 비교하는 단계; 프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하되, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하는 것인 단계; 동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하는 단계; 선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계; 및 병원체의 상이한 균주 중에서 병원체 에피토프의 보존 수준을 결정하는 단계를 포함하는, 항체에 의해 결합된 병원체 에피토프가 보존되어 있는지 여부를 결정하는 방법을 포함한다.

하기 도면으로 구성된 본원에 포함된 도면은 예시적 목적만을 위한 것이며 제한하려는 것은 아니다.
도 1은 예시적 구현예에 따른, 예시적인 서열 분석 작업흐름을 나타내는 개략도이다.
도 2는 본 개시내용의 방법 또는 시스템에 따른 분석을 위해, 공개적으로 접근가능한 데이터베이스로부터 서열을 추출하거나, 또는 서열을 수동으로 제공하는 경우 제공될 예시적인 정보 세트를 나타내는 개략도이다.
도 3은 본 개시내용의 방법 또는 시스템에 따른 분석을 위해 데이터를 폴더로 조직화하는 예시적인 시스템을 나타내는 개략도이다.
도 4는 예시적 구현예에 따른, 하나 이상의 공개적으로 접근가능한 데이터베이스(예를 들어, NCBI)로부터 다운로드된 서열 사본 및/또는 주석 정보의 예시적인 분배를 폴더로 나타내는 개략도이다. 도 4에 나타낸 바와 같이, 다운로드된 서열 및/또는 주석 정보는 참조 서열, 정렬기 데이터베이스, 및 주석 폴더의 3 개 폴더로 복사된다.
도 5는 예시적 구현예에 따른, 예시적인 공개적으로 접근가능한 데이터베이스(NCBI)로부터 서열을 다운로딩 및 큐레이팅하기 위한 예시적인 단계를 나타내는 개략도이다.
도 6은 본 개시내용의 방법 또는 시스템에서 사용하기 위한 질의 서열을 입력하기 위한 예시적인 단계를 나타내는 개략도이다.
도 7은 예시적 구현예에 따른, 질의 서열 폴더 및 정렬기 데이터베이스 폴더에 각각 저장된 질의 서열 및 대상 서열(참조 서열)의 쌍별 BLAST 비교에 대한 예시적인 접근법을 나타내는 개략도이다.
도 8은 예시적 구현예에 따른, 질의 서열 및 대상 서열(참조 서열)의 쌍별 서열 비교를 수행하기 위한 BLAST의 적용에 대한 예시적인 단계를 나타내는 개략도이다.
도 9는 예시적 구현예에 따른, 유전자 출력 표("Got Table")를 생성하기 위한 BLAST 결과, 서열 정보, 및 서열 주석 정보의 예시적인 편집을 나타내는 개략도이다.
도 10은 예시적 구현예에 따른, Got Table에 포함하기 위해 BLAST 결과를 컴파일하는 예시적인 단계를 나타내는 개략도이다.
도 11은 예시적 구현예에 따른, Got Table에 콘티그와 관련된 정보를 컴파일하는 예시적인 단계를 나타내는 개략도이다.
도 12는 예시적 구현예에 따른, 쌍별 비교 후 일치하는 서열을 식별하고, 일치하는 서열의 퍼센트 돌연변이를 계산하고, 공개적으로 접근가능한 데이터베이스(NCBI)에서 이용가능한 피쳐 파일 주석을 컴파일하는 예시적인 단계를 나타내는 개략도이다.
도 13은 예시적 구현예에 따른, Got Table의 예시적인 목차를 나타내는 개략도이다.
도 14는 유사성 점수 값이 퍼센트 적용범위 및 돌연변이의 수에 기반하여 할당된, 예시적 구현예에 따른, 쌍별 비교를 위한 유사성 점수의 매트릭스를 포함하는 각각의 질의 서열에 대한 비교 표를 생성하는 예시적인 단계를 나타내는 개략도이다.
도 15는 예시적 구현예에 따른, 히트맵 또는 막대 플롯에서 유사성 점수를 나타내는 예시적인 단계를 나타내는 개략도이다.
도 16은 추출된 서열이 번역 및 정렬될 수 있는, 예시적 구현예에 따른, 코딩 서열을 추출하는 예시적인 단계를 나타내는 개략도이다. 단계는 콘티그에 대한 예시적인 접근법을 제공한다. 단계는 추출된 서열의 고유 버전의 수 및 빈도를 포함하는 표를 생성하는 예시적인 접근법을 제공한다.
도 17은 예시적 구현예에 따른, 추출된 코딩 서열로부터 계통 발생 생성을 위한 예시적인 접근법을 나타내는 개략도이다.
도 18은 예시적 구현예에 따른, Got Table을 생성하는 예시적인 단계 및 Got Table에 존재하는 데이터로부터 생성될 수 있는 예시적인 출력을 나타내는 개략도이다.
도 19는 NCBI에서 나타내고 본원에 개시된 방법 및 시스템에 따른 분석에 사용하기에 적합한 예시적인 박테리아 게놈을 나타내는 그래프이다.
도 20은 본원에 개시된 바와 같은 예시적인 시스템을 나타내는 개략도이다.
도 21은 감염이 간세포 암종으로 이어질 수 있는 B형 간염 바이러스(HBV)에 의한 인간의 감염을 나타내는 개략도이다.
도 22는 예시적인 HBV 원형 게놈을 나타내는 개략도이다.
도 23은 괄호로 식별된 유전자 S가 있는 예시적인 HVC 원형 게놈을 나타내는 개략도이다.
도 24는 HBV의 유전자형의 예시적인 분포를 나타내는 개략도이다.
도 25는 NCBI와 같은 공개적으로 접근가능한 데이터베이스로부터 수동으로 제공되고/되거나 다운로드된 원형, 선형, 및 단편화 서열을 포함하여, 본 개시내용의 방법 및 시스템에 따른 분석에 적합한 예시적인 서열 구조를 나타내는 개략도이다.
도 26은 예시적 구현예에 따른, 게놈 서열로부터 코딩 서열의 추출을 나타내는 개략도이다. 게놈 서열로부터 추출된 코딩 서열은 게놈 서열에서 다양한 길이 및 방향으로 발견될 수 있다.
도 27은 예시적 구현예에 따른, 질의 코딩 서열 컬렉션으로부터의 단일 코딩 서열과 복수의 입력 게놈 서열 각각의 예시적인 쌍별 BLAST 비교, 예를 들어, 추출된 질의 코딩 서열의 모듬으로부터의 추출된 질의 코딩 서열과 참조 게놈 서열인 복수의 대상 서열 각각의 비교를 나타내는 개략도이다. 적어도 부분적으로 참조 서열과 같은 대상 서열은 뉴클레오티드 서열 및 함량이 다양할 수 있기 때문에, 추출된 질의 서열과 각각의 참조 서열의 정렬은 정렬의 상대적 위치, 적용범위 길이, 및/또는 방향이 다를 수 있다. 일부 구현예에서, 대상 서열 및 참조 서열은 상응하는 서열을 갖는 것으로 밝혀지지 않을 것이다(즉, 비교는 하나 이상의 특정 대상 게놈 서열에서 "히트 없음(no hits)"을 생성할 수 있다). 특정 구현예에서, 코딩 서열은 대상 게놈 서열로부터 추출되며, 각각의 대상 코딩 서열은 하나 이상의 질의 게놈 서열과 비교되고(예를 들어, BLAST에 의해), 하나 이상의 서열 범주화 인자(예를 들어, 적용범위 길이 및 퍼센트 동일성)가 각각의 비교를 위해 결정된다. 다양한 구현예에서, 적용범위 길이 및 퍼센트 동일성이 각각 각각의 임계값보다 더 큰 경우, 상응하는 질의 서열이 추출되고 추가로 분석 또는 평가될 수 있다. 임계값은 각각의 질의 게놈 서열 또는 이의 부분이 참조 서열과 유사한지 여부를 결정하기 위해 적용된다. 본원에 제공된 방법 및 시스템은 완전 게놈을 나타내는 게놈 서열뿐만 아니라 완전 게놈의 하나 이상의 부분을 나타내는 게놈 서열에 적용가능하다.
도 28은 예시적 구현예에 따른, 단일 참조 서열과 복수의 입력 질의 게놈 서열 각각의 쌍별 BLAST 비교, 예를 들어, 복수의 질의 코딩 서열과 참조 게놈 서열인 대상 게놈 서열의 비교 결과의 예시적인 요약을 나타내는 개략도이다. 요약의 1 열은 질의 게놈 서열과 비교된 참조 게놈 서열(B_Lee_1940)을 나타낸다. 특히, 제시된 표는 참조 게놈 서열에서 주석이 달린 특정 알려진 생성물인 헤마글루티닌을 암호화하는 참조 게놈 서열의 특정 유전자에 관한 것이다. 표는 참조 게놈으로부터의 헤마글루티닌 참조 서열을 9 개의 질의 게놈 각각과 비교한 것을 나타낸다. 범주화 인자를 사용하여 헤마글루티닌에 상응하는 서열이 각각의 질의 게놈에 존재하였는지 여부를 결정하였다("유전자 존재" 열에 표시된 바와 같이 예, 아니오, 또는 부분적). 상응하는 질의 서열의 방향("가닥")이 또한 표에 포함되었다. 각각의 비교를 위해, 퍼센트 적용범위, 돌연변이의 수(SNP), 및 정렬 간격이 표에 언급되었다.
도 29는 예시적 구현예에 따른, 4 개의 질의 서열 중 1 개와 비교하여 명시된 수 및 유형의 변이를 갖는 대상 게놈의 수를 각각 나타내는 4 개의 예시적인 플롯을 나타내는 개략도이다.
도 30은 예시적 구현예에 따른, 참조 게놈 서열인 20 개의 예시적인 대상 서열(X 축) 각각과 8 개의 예시적인 질의 코딩 서열 각각 사이의 보존 수준을 나타내는 유사성 점수의 예시적인 히트맵을 나타내는 개략도이다.
도 31은 예시적 구현예에 따른, FluA 동시대 균주에 대한 전체 게놈 계통 발생의 예시적인 제시이다.
도 32는 예시적 구현예에 따른, 직사각형 레이아웃의 예시적인 계통 발생을 나타내는 개략도이다.
도 33은 예시적 구현예에 따른, 극성 레이아웃의 예시적인 계통 발생을 나타내는 개략도이다.
도 34는 예시적 구현예에 따른, 게놈 서열로부터 추출된 예시적인 코딩 서열을 나타내는 개략도이다.
도 35는 예시적 구현예에 따른, 도 34의 예시적인 코딩 서열의 번역을 나타내고, 분석된 게놈 내의 특정 변이체 서열 및 이들의 빈도의 요약을 포함하는 개략도이다.
도 36은 예시적 구현예에 따른, 8 개의 별개의 쌍별-비교된 게놈으로부터 유래된 아미노산 서열의 예시적인 정렬을 나타내는 개략도이다.
도 37은 본원에 기재된 시스템 및 방법을 제공하는 데 사용하기 위한 컴퓨터 네트워크 환경의 개략도이다.
도 38은 본원에 기재된 시스템 및 방법을 구현하는 데 사용될 수 있는 컴퓨팅 디바이스 및 모바일 컴퓨팅 디바이스의 개략도이다.
도 39는 예시적 구현예에 따른, 아미노산 서열을 병원체에 대한 요법의 개발에서 후보 항원으로서 식별하는 예시적인 방법의 블록 흐름도이다.
도 40은 예시적 구현예에 따른, 병원체를 나타내는 코딩 서열의 하나 이상의 보존된 부분을 식별하는 예시적인 방법의 블록 흐름도이다.
도 41은 예시적 구현예에 따른, 단리된 병원체가 순환 균주를 나타내는지 여부를 식별하는 예시적인 방법의 블록 흐름도이다.
도 42는 예시적 구현예에 따른, 아미노산 서열을 후보 항생제 내성 마커로서 식별하는 예시적인 방법의 블록 흐름도이다.
도 43은 예시적 구현예에 따른, 플라스미드를 나타내는 코딩 서열의 하나 이상의 보존된 부분을 식별하는 예시적인 방법의 블록 흐름도이다.
도 44는 예시적 구현예에 따른, 병원체를 나타내는 펩티드의 질량 대 전하 비를 식별하는, 예를 들어, 이러한 병원체를 나타내는 펩티드에 대한 질량 분석 표적을 식별하는 예시적인 방법의 블록 흐름도이다.
도 45는 예시적 구현예에 따른, 아미노산 서열을 병원체에 대한 요법의 개발에서 후보 항원으로서 식별하는 예시적인 방법의 블록 흐름도이다.
도 46은 예시적 구현예에 따른, 아미노산 서열을 후보 항생제 내성 마커로서 식별하는 예시적인 방법의 블록 흐름도이다.
도 47은 SARS-CoV-2와 같은 예시적인 코로나바이러스의 개략도이다. 코로나바이러스 구조는 스파이크 단백질, 외피 단백질, 및 막 당단백질을 포함하나 이에 제한되지 않는 함침된 막관통 단백질을 포함하는 외부 지질 막을 갖는다. 개략도는 뉴클레오캡시드 단백질과 연관된 대표적인 코로나바이러스 RNA 바이러스 게놈을 포함한다.
도 48은 질의 서열 세트에서 대상 서열의 아미노산 보존을 결정하는 방법을 나타내는 개략도이다. 코딩 서열은 질의 및 대상 서열로부터 추출된다. 추출된 질의 코딩 서열 및 추출된 대상 코딩 서열의 쌍별 BLAST 비교가 수행된다. 쌍별 BLAST로부터의 데이터를 사용하여 각각의 쌍별 비교를 위한 퍼센트 동일성, 퍼센트 적용범위, 적용범위 길이, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, E-값, 돌연변이의 수, 및 퍼센트 돌연변이와 같은 범주화 인자를 포함하는 데이터의 표를 생성한다. 그런 다음 BLAST 비교 결과는 하나 이상의 범주화 인자의 임계값에 기반하여 범주화된다. 포함 임계치를 충족하지 않고/않거나, 제외 임계치를 충족하지 않는 범주에서의 비교는 분석에서 제거된다. 나머지 질의 서열은 번역되고 생성된 아미노산 서열은 상응하는 번역된 대상 서열과 정렬된다. 번역된 질의 서열 중에서 번역된 대상 서열의 아미노산 보존은 이러한 정렬에서 평가된다.
도 49는 참조 게놈으로부터 스파이크 코딩 서열의 추출을 예시하는 개략도이다. 추출은 GenBank 파일 주석에 기반하였다.
도 50은 시간 경과에 따른 참조 스파이크 코딩 서열과 BLAST에 의해 비교된 스파이크 코딩 서열의 누적 수를 나타내는 그래프이다. 샘플링된 서열의 날짜 및 수에 의해 제시된 바와 같이, 유럽, 북미, 아시아, 오세아니아, 남미, 및 아프리카에서 단리된 서열을 나타내는 다수의 서열을 획득 및 분석하였다.
도 51은 스파이크 아미노산 서열의 정렬을 예시하는 개략도이다. 돌연변이의 수 및 적용범위 길이에 기반하여 필터링 후 분석을 위해 보유된 코딩 서열을 BLAST에 의해 번역 및 정렬하였다. 그런 다음 정렬된 서열을 검사 및/또는 비교하여 참조 스파이크 단백질 서열의 각각의 정렬된 위치에 존재하는 아미노산의 범위를 식별할 수 있다.
도 52는 분석된 코딩 서열의 아미노산 번역의 정렬에 의해 식별된 아미노산 변이를 부분적으로 예시하는 개략도이다.

게놈 및 플라스미드 서열 정보

본 개시내용의 방법 및 시스템은 게놈 서열 및/또는 플라스미드 서열의 분석을 포함한다. 게놈 서열은 완전 및/또는 부분적 게놈 서열을 포함할 수 있다. 플라스미드 서열은 완전 및/또는 부분적 플라스미드 서열을 포함할 수 있다. 게놈의 크기 및 구조는 유기체마다 상이하다. 예를 들면, 진핵생물 게놈은 전형적으로 복수의 염색체를 포함하고, 원핵생물 게놈은 전형적으로 단일 원형 핵산을 포함한다. 원핵생물은 플라스미드로서 당업계에 알려진 더 작은 독립 분자를 추가로 포함할 수 있다. 플라스미드는 유전자, 예를 들어, 항생제 내성을 부여하는 단백질을 암호화하는 유전자(항생제 내성 마커)를 암호화할 수 있다. 유전자 서열 정보의 하나의 형태에 적용가능한 것으로서 본원에 개시된 다양한 구현예는 다른 형태에도 적용가능하며, 예를 들어, 게놈 서열과 관련하여 개시된 구현예는 플라스미드 서열에도 적용가능할 것이다.

완전 게놈 서열은 유기체의 전체 게놈을 나타내는 단일 서열을 포함할 수 있다. 완전 게놈 서열은 유기체의 전체 게놈 서열을 함께 나타내는 복수의 서열을 포함할 수 있다. 부분적 게놈 서열은 게놈 서열의 연속 핵산 하위집합을 나타내는 임의의 단일 서열을 지칭할 수 있다. 부분적 게놈 서열은 게놈 서열의 연속 핵산 하위집합을 함께 나타내는 복수의 서열을 포함할 수 있다.

다양한 구현예에서, 게놈 서열은 병원체 게놈, 예를 들어, 임의의 병원성 박테리아, 효모, 원생동물, 또는 바이러스의 완전 또는 부분적 게놈의 완전 또는 부분적 서열이다. 예를 들어, 일부 구현예에서, 게놈 서열은 코로나바이러스, 예를 들어, 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)의 게놈의 완전 또는 부분적 서열이다.

완전 플라스미드 서열은 유기체의 전체 게놈을 나타내는 단일 서열을 포함할 수 있다. 완전 플라스미드 서열은 유기체의 전체 게놈을 함께 나타내는 복수의 서열을 포함할 수 있다. 부분적 플라스미드 서열은 플라스미드 서열의 연속 핵산 하위집합을 나타내는 임의의 단일 서열을 지칭할 수 있다. 부분적 플라스미드 서열은 플라스미드 서열의 연속 핵산 하위집합을 함께 나타내는 복수의 서열을 포함할 수 있다.

일부 구현예에서, 더 큰 핵산 서열을 함께 나타내는 개별 서열은 콘티그로서 지칭될 수 있다. 일부 구현예에서, 콘티그는 이들이 나타내는 더 큰 핵산 서열의 서열을 제공하도록 조립될 수 있다.

다양한 구현예에서, 완전 또는 부분적 게놈 서열은 적어도, 예를 들어, 약 1 kb, 5 kb, 10 kb, 50 kb, 100 kb, 500 kb, 1 Mb, 2 Mb, 3 Mb, 4 Mb, 5 Mb, 10 Mb, 20 Mb, 50 Mb, 100 Mb, 500 Mb, 1,000 Mb, 2,000 Mb, 3,000 Mb, 또는 그 이상을 포함할 수 있다. 다양한 구현예에서, 완전 게놈 서열은 관련 유기체의 게놈에 대한 뉴클레오티드의 표준 수와 동일한 뉴클레오티드의 수를 포함할 수 있다. 다양한 구현예에서, 완전 게놈 서열은 관련 유기체의 게놈에 전형적인 뉴클레오티드 수의 범위 내에서 뉴클레오티드의 수를 포함할 수 있다.

다양한 구현예에서, 완전 또는 부분적 플라스미드 서열는 적어도, 예를 들어, 약 1 kb, 5 kb, 10 kb, 50 kb, 100 kb, 200 kb, 또는 그 이상을 포함할 수 있다. 다양한 구현예에서, 완전 플라스미드 서열은 관련 플라스미드의 서열에 대한 뉴클레오티드의 표준 수와 동일한 뉴클레오티드의 수를 포함할 수 있다. 다양한 구현예에서, 완전 게놈 서열은 관련 플라스미드에 전형적인 뉴클레오티드 수의 범위 내에서 뉴클레오티드의 수를 포함할 수 있다.

본 개시내용의 게놈 서열, 또는 플라스미드 서열은 공개적으로 접근가능한 데이터베이스에서 이용가능한 하나 이상의 서열을 포함할 수 있다. 다양한 공개적으로 접근가능한 데이터베이스는 접근가능한 게놈 및 플라스미드 서열 정보를 포함한다(예를 들어, 도 19 참조). 게놈 및/또는 플라스미드 서열 정보의 공개적으로 접근가능한 데이터베이스의 하나의 예는 미국 국립 생물공학 정보 센터(NCBI)의 GenBank이다. 게놈 및/또는 플라스미드 서열 정보의 또 다른 공개적으로 접근가능한 데이터베이스는 유럽 분자 생물학 연구소(EMBL)의 국제 핵산 염기 서열 정보 제휴(INSDC)(ncbi.nlm.nih.gov/sra/의 월드 와이드 웹에서 이용가능), 일본 DNA 데이터뱅크(DDBJ), NCBI이다. 또 다른 예는 1000 게놈 프로젝트이다.

공개적으로 접근가능한 게놈 서열 정보 리소스 확장의 단지 하나의 예를 제공하기 위해, 2010년 8월부터 2017년 8월까지, 공개 데이터베이스는 약 19 개의 스타필로코쿠스 아우레우스 게놈 서열에서 약 4,155 건의 독립 연구에서 유래된 약 48,259 개의 스타필로코쿠스 아우레우스 게놈 서열까지 확장된다. 대부분의 서열 데이터는 INSDC의 일부인 미국 국립 생물공학 정보 센터(NCBI)에서 서열 판독 아카이브에 기탁되어 있다. 에스. 아우레우스 게놈 서열 중, 약 84%(약 42,285 개)는 짧은 DNA 판독 또는 작은 단편을 나타내었다. 나머지 부분(약 7,974 개; 약 16%)은 더 큰 DNA 분절로 조립되었고 약 2%(약 166 개/7,974 개)만 간격이 없고 완전히 주석이 달렸다. 따라서, 완전히 조립되고 주석이 달린 완전 게놈 서열은 NCBI에서 이용가능한 에스. 아우레우스 게놈의 작은 부분을 나타낸다.

본 개시내용의 게놈 서열, 또는 플라스미드 서열은 생물학적 샘플로부터 유래되고 공개적으로 접근가능한 데이터베이스에서 발견되지 않은 서열을 포함할 수 있다. 생물학적 샘플은 예를 들어, 실험실 샘플 또는 임상 샘플을 포함할 수 있다. 게놈 서열, 또는 플라스미드 서열은 예를 들어, 당업계에 알려진 다양한 DNA 서열분석 방법 중 임의의 것(예를 들어, 고처리량 서열분석 및/또는 멀티플렉스 서열분석)에 의해 결정될 수 있다.

데이터 구조는 서열 자체를 포함하여 본 개시내용의 게놈 서열 및/또는 플라스미드 서열에 관한 정보를 포함(예를 들어, 저장)할 수 있다. 따라서, 본 개시내용의 데이터 구조는 제한 없이, 게놈 서열 정보의 공개적으로 접근가능한 데이터베이스, 서열 정보를 포함한 비공개 구조, 고처리량 서열분석 시스템으로부터 직접 입력된 데이터를 포함한 구조, 및 이의 조합을 포함할 수 있다.

이중 가닥 DNA를 나타내는 게놈 서열은 어느 한 가닥의 형태로 제공될 수 있다(때때로 "왓슨" 및 "크릭" 가닥 또는 "5'"및 "3'"가닥으로 지칭됨). 2 개 가닥은 일반적으로 상보적인 것으로 이해되어, 어느 한 가닥의 서열이 다른 가닥의 서열을 설명하도록 한다.

복수의 완전 또는 부분적 게놈 서열 및/또는 플라스미드 서열이 획득되고, 데이터 구조에 포함되고, 당업계에 알려진 다양한 기술에 따라 데이터 구조로부터 수득될 수 있다. 데이터 구조로부터 수득되거나 또는 수득가능한 게놈 서열 및/또는 플라스미드 서열은 기존 기록(예를 들어, 공개 데이터베이스)의 서열 및/또는 샘플의 서열분석에 의해 획득된 서열일 수 있다. 다양한 구현예에서, 데이터 구조는 특정 공급원(예를 들어, 특정 종, 예를 들어, 인간 또는 특정 병원체 정)을 나타내거나 또는 이와 연관된 상이한 서열을 포함할 수 있다. 다양한 구현예에서, 특정 공급원을 나타내거나 또는 이와 연관된 각각의 상이한 서열은 균주로서 지칭될 수 있다. 다양한 구현예에서, 데이터 구조로부터 특정 공급원을 나타내거나 또는 이와 연관된 복수의 서열을 수득하여 수득된 서열이 예를 들어, 본원에 개시된 다양한 방법 및 시스템에 따라 비교 및/또는 대조될 수 있도록 하는 것이 유리하다.

코딩 서열 및 암호화된 아미노산 서열의 추출

본 개시내용의 게놈 및 플라스미드 서열은 코딩 서열을 포함할 수 있다. 다양한 게놈 및 플라스미드는 게놈 또는 플라스미드로부터 발현가능한 단백질의 아미노산을 암호화하는 뉴클레오티드 서열(이 뉴클레오티드 서열은 코딩 서열로서 지칭될 수 있음) 및 서열로부터 발현가능한 단백질의 아미노산을 암호화하지 않는 뉴클레오티드 서열(이 뉴클레오티드 서열은 비-코딩 서열로서 지칭될 수 있음)을 포함한다. 코딩 서열은 코돈으로 지칭된 삼중항으로 판독될 수 있으며, 코돈 각각은 아미노산을 암호화한다. 따라서, 본 개시내용의 코딩 서열은 코돈으로 이루어지고 단백질 또는 이의 일부를 암호화하는 서열이다. 비-코딩 서열(예를 들어, 프로모터 또는 인트론)은 일부 경우에 코딩 서열에 인접하고/하거나 이로 산재되어 있다. 코딩 서열은 제한 없이 아미노산을 암호화하는 연속 및/또는 프레임내 코돈의 수 및/또는 알려진 코딩 서열 또는 코딩 서열에 의해 암호화된 알려진 단백질과 같은 알려진 서열과의 비교를 포함하여 당업계에 알려진 다양한 기술에 의해 비-코딩 서열과 구별될 수 있다. 코딩 서열을 추출(식별 및/또는 단리)하는 다양한 방법은 당업계에 알려져 있다. 코딩 서열을 추출하는 다양한 방법은 다른 특징 중에서, 종결 코돈을 포함하지 않는 연속한 일련의 코돈, 예를 들어, 종결 코돈을 포함하지 않는 연속한 일련의 적어도 약 20, 30, 40, 50, 60, 70, 80, 90, 100, 125, 150, 175, 200, 250, 또는 300 개 또는 그 이상의 코돈을 포함할 수 있는 오픈 리딩 프레임에 대해 제공된 서열을 분석하는 것을 포함한다. 일부 구현예에서, 공개적으로 접근가능한 데이터베이스의 서열은 코딩 서열의 위치를 경계 표시하는 주석 정보와 연관된다. 따라서, 데이터베이스 주석 및 당업계에 알려진 임의의 다양한 방법 중 어느 하나 또는 둘 다를 사용하여 게놈 및 플라스미드 서열로부터 코딩 서열을 추출할 수 있다.

일단 코딩 서열이 추출되면, 코딩 서열에 의해 암호화된 아미노산의 서열은 유전자 코드를 적용함으로써 결정될 수 있다. 정지 코돈이 아닌 각각의 코돈은 특정 아미노산에 상응한다. 유전자 코드는 유기체 간에 상이할 수 있다. 따라서, 게놈 서열 또는 플라스미드 코딩 서열의 공급원 및/또는 맥락에 적절한 유전자 코드는 코딩 서열을 아미노산 서열로 변환할 때 적용될 수 있다. 핵산 서열은 유전자 코드를 적용함으로써 아미노산 서열로 변환되었으며 핵산 서열의 번역으로 지칭될 수 있다.

다른 유전자 코드와 마찬가지로, 인간 유전자 코드는 표 1에서 볼 수 있는 바와 같이 DNA 코돈 표로 나타낼 수 있다. 대부분의 코돈은 특정 아미노산을 암호화하는 반면, 여러 코돈은 임의의 아미노산을 코딩하지 않는 "STOP" 신호를 암호화한다. 표 1은 핵산 및 아미노산 서열을 나타내는 데 적용된 특정 일반 규칙을 포함한다. 핵산 서열과 관련하여, 문자 A, C, G, 및 T는 각각 아데닌(A), 시토신(C), 구아닌(G), 및 티민(T)을 나타낸다. 아미노산 서열과 관련하여, 20 개의 아미노산 각각은 다음과 같이 특정 문자 또는 3 개 문자 세트로 나타낼 수 있다: 알라닌(A; Ala), 아르기닌(R; Arg), 아스파라긴(N; Asn), 아스파르트산(D; Asp), 시스테인(C; Cys), 글루탐산(E; Glu), 글루타민(Q; Gln), 글리신(G; Gly), 히스티딘(H; His), 이소류신(I; Ile), 류신(L; Leu), 리신(K; Lys), 메티오닌(M; Met), 페닐알라닌(F; Phe), 프롤린(P; Pro), 세린(S; Ser), 트레오닌(T; Thr), 트립토판(W; Trp), 티로신(Y; Tyr), 발린(V; Val).

표 1

서열의 쌍별 비교로 생성된 데이터

특정 구현예에서, 본 개시내용의 방법 및 시스템은 서열 사이의 정렬을 특성화하기 위한 측정을 결정하는 것을 포함한다. 측정 예는 퍼센트 동일성, 퍼센트 적용범위, 적용범위 길이, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, E-값, 돌연변이의 수, 퍼센트 돌연변이, 및 계통 발생(예를 들어, 계통 발생 그룹화 및/또는 계통 발생 관계)를 포함하며, 이들 모두는 본원에 보다 상세하게 논의되어 있다. 적용범위 척도(예를 들어, 퍼센트 적용범위 및/또는 적용범위 길이) 및 동일성 척도(예를 들어, 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이)를 둘 다 사용하여 정렬을 특성화하는 것은 예를 들어, 보존 평가에서 적절하게 일치하는 서열을 식별하는 데 사용될 수 있는 많은 수의 쌍별 비교의 효과적이고 효율적으로 달성하는 것으로 밝혀졌다. 쌍별 비교를 사용하여 중합체 서열 사이, 예를 들어, 핵산 서열(예를 들어, DNA 분자 및/또는 RNA 분자) 사이 및/또는 아미노산 서열 사이의 전반적인 관련성을 평가할 수 있다. 본원에 제공된 다양한 방법 및 시스템에서, 쌍별 비교를 사용하여 추출된 코딩 서열 사이의 전반적인 관련성 및/또는 이의 번역을 평가할 수 있다. 일부 구현예에서, 2 개 서열의 쌍별 비교는 질의 서열 및 대상 서열(예를 들어, 참조 서열) 사이에서 이루어지며, 비교는 퍼센트 동일성, 퍼센트 적용범위, 적용범위 길이, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, E-값, 돌연변이의 수, 퍼센트 돌연변이, 및/또는 계통 발생(예를 들어, 계통 발생 그룹화 및/또는 계통 발생 관계) 중 하나 이상, 또는 모두의 정렬 및 결정을 포함한다. 다양한 구현예에서, 참조 서열과 같은 대상 서열은 질의 서열이 비교되는 기준선일 수 있다. 일반적으로, 질의 서열 및 대상 서열은 각각 하나 이상의 서열 컬렉션을 지칭하며, 여기서 질의 서열은 대상 서열과 상별 비교된다. 일부 구현예에서, 질의 서열 및 대상 서열이 동일한 서열을 갖는 한(예를 들어, 질의 서열 및 대상 서열이 서열 모듬과 동일한 구현예에서), 질의 서열은 질의 서열과 비교되지 않고 대상 서열은 대상 서열과 비교되지 않는다. 대상 서열은 참조 서열일 수 있거나 또는 포함할 수 있다. 참조 서열은 예를 들어, 하나 이상의 특정 유전자 또는 이의 부분을 포함하고/하거나 하나 이상의 단백질 또는 이의 부분을 암호화하는 집단, 종, 균주, 유기체 등의 상응하는 완전 또는 부분적 게놈 서열을 나타내는 완전 또는 부분적 게놈 서열일 수 있다. 참조 서열은 제한 없이, 서열 이용가능성, 대중 접근가능성, 역사적 맥락, 규칙, 문헌 목록, 표준 관행, 통계 분석, 실제 고려사항, 또는 사용자 선호도 중 임의의 하나 이상에 기반한 대표적인 서열로서 선택 및/또는 사용될 수 있다. 본원에 개시된 바와 같이, 서열의 쌍별 비교에서 생성된 데이터는 퍼센트 동일성, 퍼센트 적용범위, 적용범위 길이, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, E-값, 돌연변이의 수, 퍼센트 돌연변이, 및/또는 계통 발생(예를 들어, 계통 발생 그룹화 및/또는 계통 발생 관계) 중 하나 이상, 또는 모두를 포함할 수 있으며, 이들 각각은 분석된 서열과 관련하여 별개의 정보를 제공한다.

질의 서열과 참조 서열의 쌍별 비교를 수행하는 데 있어서, 주어진 쌍별 비교에 대한 동일성 측정 및 적용범위 측정 둘 다를 결정한 다음, 예를 들어, 하나 이상의 아미노산 서열 또는 이의 부분의 보존 평가에서 적절하게 필적할 만한 서열 부분을 식별하기 위해 질의 서열(예를 들어, 코딩 서열)을 2 개 이상의 그룹으로 범주화하는 데 두 측정을 사용하는 것이 현저하게 효율적이고 효과적인 것으로 본원에서 밝혀진다. 동일성 측정의 예는 퍼센트 동일성; 퍼센트 동일성/미리 결정된 적용범위 길이; 돌연변이의 수; 및 퍼센트 돌연변이(예를 들어, 단일 뉴클레오티드 다형성 SNP/크기)를 포함한다. 적용범위 측정의 예는 퍼센트 적용범위 및 적용범위 길이를 포함한다.

2 개의 제공된 서열을 정렬하기 위한 방법은 뉴클레오티드 서열에 대한 BLASTN 및 아미노산 서열에 대한 BLASTP, 갭핑 BLAST, 및 PSI-BLAST와 같은 알고리즘 및/또는 상업적으로 이용가능한 컴퓨터 프로그램을 포함한다. 적용범위 척도 및 동일성 척도의 계산은 이러한 정렬 알고리즘 중 하나 이상을 사용하여 2 개 서열(또는 하나 또는 두 서열의 보체)의 정렬을 따를 수 있다. 특정 구현예에서, 간격은 최적의 정렬을 위해 제1 및 제2 서열 중 하나 또는 둘 다에 도입되고, 동일하지 않은 서열은 비교 목적을 위해 무시될 수 있다. 정렬은 최대 수준의 퍼센트 동일성을 달성하기 위해, 일부 구현예에서(예를 들어, 아미노산 서열의 정렬에서), 물리-화학적 특성의 보존을 최대화하기 위해 2 개 이상의 서열의 뉴클레오티드 또는 아미노산 잔기를 일치시키는 과정, 또는 결과를 지칭한다.

정렬 후, 제1 및 제2 서열의 상응하는 위치에 있는 뉴클레오티드 또는 아미노산을 비교할 수 있다. 제1 서열의 위치가 제2 서열의 상응하는 위치와 동일한 잔기(예를 들어, 뉴클레오티드 또는 아미노산)에 의해 점유되면, 분자는 해당 위치에서 동일하다. 2 개 서열 사이의 퍼센트 동일성은 임의적으로 간격의 수, 및 각각의 간격의 길이를 고려하여, 2 개 서열의 최적 정렬을 위해 도입될 필요가 있을 수 있는 서열에 의해 공유된 동일한 위치 수의 함수이다. 따라서, 퍼센트 동일성의 결정은 정렬된 위치의 동일성 또는 비-동일성을 결정하는 것을 필요로 한다. 2 개 서열 사이의 퍼센트 동일성의 결정은 BLAST(기본 로컬 정렬 검색 도구)와 같은 컴퓨팅 알고리즘을 사용하여 성취될 수 있다.

퍼센트 동일성은 정렬된 서열 둘 다에서 동일한 잔기를 갖는 정렬된 서열 내에서 위치의 분율을 표현할 수 있다. 일부 구현예에서, 2 개의 서열은 적어도 약 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 그 이상의 이들의 상응하는 잔기가 관련 서열에 대해 동일한 경우 실질적으로 동일한 것으로 간주된다. 서열은 보존적 치환, 예를 들어, 암호화된 아미노산 서열을 변경하지 않는 뉴클레오티드 치환, 또는 치환된 아미노산이 유사한 구조적 또는 기능적 특성(예를 들어, 소수성, 친수성, 극성, 또는 비-극성 유형 아미노산을 동일한 유형의 상이한 아미노산으로 대체)을 갖는 아미노산 치환에 의해 상이한 경우 실질적으로 유사할 수 있다.

쌍별 비교에서 분석된 각각의 서열은 또한 제2 서열과의 정렬에 의해 포괄된 제1 서열의 퍼센트(즉, 제2 서열과 정렬된 제1 서열의 퍼센트, 이는 적용범위 또는 퍼센트 적용범위로 지칭될 수 있음)에 따라 평가될 수 있다(예를 들어, 질의 서열과 정렬된 대상 서열 길이의 % 또는 대상 서열과 정렬된 질의 서열 길이의 %).

2 개 서열의 정렬은 적용범위 길이 및/또는 퍼센트 적용범위를 생성할 수 있다. 제1 서열 및 제2 서열의 정렬에서, 적용범위 길이는 정렬된 단위(예를 들어, 뉴클레오티드 또는 아미노산)의 수를 지칭한다. 의심의 여지를 피하기 위해, 적용범위 길이를 계산하는 데 있어서, 한 쌍의 상응하는 위치(즉, 제1 서열의 뉴클레오티드 또는 아미노산 및 제2 서열의 상응하는 위치에 있는 뉴클레오티드 또는 아미노산)는 1 단위의 적용범위 길이로 계수된다. 제1 서열 및 제2 서열의 정렬에서, 퍼센트 적용범위는 서열의 정렬에 포함된 질의의 퍼센트를 지칭한다. 퍼센트 적용범위는 정렬된 뉴클레오티드 또는 아미노산이 동일하거나 또는 동일하지 않은지 여부에 관계 없이, 질의 서열의 상응하는 뉴클레오티드 또는 아미노산과 정렬된 대상 서열에서 뉴클레오티드 또는 아미노산의 퍼센트를 지칭할 수 있다. 퍼센트 적용범위는 또한 정렬된 뉴클레오티드 또는 아미노산이 동일하거나 또는 동일하지 않은지 여부에 관계 없이, 대상 서열의 상응하는 뉴클레오티드 또는 아미노산과 정렬된 질의 서열에서 뉴클레오티드 또는 아미노산의 퍼센트를 지칭할 수 있다. 본원에 제공된 다양한 방법 및 시스템에서, 퍼센트 적용범위는 특히 정렬된 뉴클레오티드 또는 아미노산이 동일하거나 또는 동일하지 않은지 여부에 관계 없이, 질의 서열의 상응하는 뉴클레오티드 또는 아미노산과 정렬된 대상 서열에서 뉴클레오티드 또는 아미노산의 퍼센트를 지칭한다. 퍼센트 적용범위는 연속 및 간격 정렬 둘 다에 대해 결정될 수 있다.

다양한 구현예에서, 적어도 퍼센트 동일성은 뉴클레오티드 또는 아미노산의 각각의 정렬된 쌍의 동일성 또는 비-동일성을 결정하기 위해 정렬된 뉴클레오티드 또는 아미노산의 비교에 의해 결정되기 때문에, 서열 간격은 퍼센트 동일성을 감소시키지 않는다. 예시의 목적으로 하나의 예를 제공하기 위해, 80 개 아미노산의 질의 서열이 100 개 아미노산의 대상 서열과 정렬되며, 여기서 대상 서열의 처음 40 개 아미노산은 질의 서열의 처음 40 개 아미노산에 대해 퍼세트 동일성과 정렬되고 대상 서열의 마지막 40 개 아미노산은 질의 서열의 마지막 40 개 아미노산에 대해 퍼센트 동일성으로 정렬되는 경우, 퍼센트 동일성은 100%와 동일할 것이지만 퍼센트 적용범위는 80%일 것이다. 따라서, 일부 구현예에서, 100% 동일성에도 불구하고, 질의 서열은 70% 내지 95% 적용범위의 임계치 범위에 속하는 부분적 또는 "완전성 결여"로서 범주화될 것이다.

다양한 구현예에서, 2 개 서열의 정렬을 사용하여 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성을 결정할 수 있다. 미리 결정된 적용범위 길이는 뉴클레오티드 및/또는 아미노산의 수일 수 있으며, 여기서 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성은 미리 결정된 적용범위 길이와 동일하고/하거나 미리 결정된 적용범위 길이보다 더 큰 길이를 갖는 이의 정렬의 임의의 부분에 대한 질의 서열과 대상 서열 사이의 퍼센트 동일성을 지칭할 수 있다. 의심의 여지를 피하기 위해, 정렬의 부분은 정렬의 뉴클레오티드 또는 아미노산의 임의의 풍분히 긴 하위집합일 수 있어서, 단일 정렬이 분석을 위해 복수의 충분히 긴 부분을 포함할 수 있도록 하며, 부분은 중첩, 비-중첩, 인접, 또는 비-인접할 수 있다. 다양한 구현예에서, 2 개 서열의 정렬에 대한 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성은 정렬의 임의의 충분히 긴 부분과 연관된 가장 높은 퍼센트 동일성으로서 제시될 수 있다.

퍼센트 동일성을 계산하는 다양한 기술은 예상(E) 값을 생성한다. 예를 들면, BLAST를 사용한 퍼센트 동일성의 결정은 E-값을 생성한다. E-값은 정렬이 우연히(예를 들어, 생물학적으로 유의한 유사성의 결과보다) 발생했을 가능성을 나타낸다. E-값은 본질적으로 배경 노이즈의 설명으로 일부 공급원에 의해 기재되었다. E-값이 0에 가까울수록, 정렬은 더 유의하다. E-값은 적어도 부분적으로 정렬의 결정된 퍼센트 동일성 및 정렬의 길이와 관련된다. 대체로, 더 짧고 더 낮은 퍼센트 동일성 정렬은 더 길고 더 높은 퍼센트 동일성 정렬보다 더 높은 E-값을 가질 것이다. E-값을 사용하여 복수의 정렬의 순위를 매길 수 있거나 또는 단독으로 또는 다른 기준과 조합하여 정렬을 범주화하기 위한 유의성 임계치로서 선택될 수 있다.

일부 구현예에서, 쌍별 비교에서 분석된 각각의 질의 서열에 대해, 정렬 내에서 서열 변이의 수는 대상 서열에 대해 결정될 수 있다. 변이는 제1 서열 및 제2 서열의 정렬된 위치 사이에서 상이할 수 있으며, 여기서 서열은 핵산 서열이거나 또는 여기서 서열은 아미노산 서열이다(예를 들어, 질의 서열과 참조 서열과 같은 대상 서열 사이의 차이). 핵산 서열의 변이 또는 아미노산 서열의 변이는 본원에서 돌연변이로 지칭될 수 있다. 핵산 서열의 변이는 단일 뉴클레오티드 다형성("SNP")일 수 있다.

일부 구현예에서, 쌍별 비교에서 분석된 각각의 질의 서열에 대해, 질의 서열과 대상 서열 사이의 서열 변이의 수(즉, 일치하지 않은 질의와 대상 사이의 정렬 내에서 서열 위치의 수)는 "돌연변이의 수"로 지칭될 수 있다. 일부 구현예에서, 쌍별 비교에서 분석된 각각의 질의 서열에 대해, 서열 적용범위 길이의 뉴클레오티드 또는 아미노산 당 서열 변이의 수가 결정될 수 있다. 이 비는 정렬의 길이에 대한 정렬 내에서의 서열 변이 수("퍼센트 돌연변이," 대안적으로 본원에서 "돌연변이/크기"로 지칭되며, 이의 예는 "SNP/크기"임)일 수 있다.

일부 구현예에서, 쌍별 비교의 결과를 사용하여 하나 이상의 게놈, 플라스미드, 유전자, 코딩 서열, 또는 번역된 코딩 서열에 대한 계통 발생을 생성할 수 있다. 일부 구현예에서, 계통 발생은 쌍별 비교에 의해 생성된 퍼센트 동일성 데이터에 기반할 수 있다. 일부 구현예에서, 계통 발생은 쌍별 비교에 의해 생성된 퍼센트 돌연변이 데이터에 기반할 수 있다. 제공된 데이터로부터 계통 발생을 생성하기 위한 도구 및 기술은 당업계에 알려져 있다.

게놈-수준 또는 플라스미드-수준 계통 발생은 가장 보존된 대상 서열에 대한 퍼센트 동일성 또는 퍼센트 돌연변이 쌍별 비교 결과를 사용하여 생성될 수 있다. 예를 들어, 게놈-수준 또는 플라스미드-수준 계통 발생은 보존된 쌍별-비교된 서열(예를 들어, 상위 유전자, 코딩 서열, 또는 번역된 코딩 서열 아미노산 서열)의 약 상위 1, 상위 2, 상위 3, 상위 4, 상위 5, 상위 10, 상위 20, 상위 25, 상위 50, 상위 100, 상위 1%, 상위 2%, 상위 5%, 상위 10%, 상위 15%, 상위 20%, 상위 25%, 또는 상위 50%에 기반할 수 있다. 보존은 예를 들어, 퍼센트 동일성 또는 퍼센트 돌연변이 데이터를 사용하여 쌍별 비교의 결과에 기반하여 순위 매길 수 있다.

퍼센트 동일성, 퍼센트 적용범위, 적용범위 길이, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, E-값, 돌연변이의 수, 및/또는 퍼센트 돌연변이 중 임의의 하나 이상, 또는 모두는 핵산 또는 아미노산 정렬의 전체 길이 또는 이의 하나 이상의 부분을 나타낼 수 있다. 완전 또는 부분적 게놈 서열의 예시적인 부분은 예를 들어, 유전자, 코딩 서열, 개별 뉴클레오티드, 또는 연속 뉴클레오티드 세트(예를 들어, 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 100, 150, 200, 250, 500, 1,000, 1,500, 2,000, 2,500, 3,000, 5,000, 10,000 개, 또는 그 이상의 뉴클레오티드)를 포함할 수 있다. 아미노산 서열의 예시적인 부분은 예를 들어, 단백질, 도메인, 개별 아미노산, 또는 연속 아미노산 세트(예를 들어, 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 100, 150, 200, 250, 300, 350, 400, 450, 또는 500 개, 또는 그 이상의 아미노산)를 포함할 수 있다. 일부 구현예에서, 핵산 서열의 일부는 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 100, 150, 200, 250, 500, 1,000, 1,500, 2,000, 2,500, 또는 3,000 개 뉴클레오티드의 하한치 및 약 50, 100, 150, 200, 250, 500, 1,000, 1,500, 2,000, 2,500, 3,000, 5,000, 10,000 개, 또는 그 이상의 뉴클레오티드의 상한치를 갖는 뉴클레오티드의 수를 포함할 수 있다. 일부 구현예에서, 아미노산 서열의 일부는 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 100, 150, 200, 250, 또는 300 개 아미노산의 하한치 및 약 10, 20, 30, 40, 50, 100, 150, 200, 250, 300, 350, 400, 450, 또는 500 개, 또는 그 이상의 아미노산의 상한치를 갖는 아미노산의 수를 포함할 수 있다. 다양한 구현예에서, 핵산 또는 아미노산의 각각의 중첩 또는 인접한 비-중첩 부분은 개별적으로 분석될 수 있다. 따라서, 제1 및 제2 정렬된 뉴클레오티드 서열은 제1 및 제2 정렬된 서열의 모든 정렬된 뉴클레오티드 사이의 퍼센트 동일성을 나타내는 총 퍼센트 동일성을 가질 수 있고, 제1 및 제2 정렬된 서열의 정렬된 뉴클레오티드의 하위집합 사이의 퍼센트 동일성을 나타내는 하나 이상의 퍼센트 동일성을 가질 수 있다. 제1 및 제2 정렬된 아미노산 서열은 제1 및 제2 정렬된 서열의 모든 정렬된 아미노산 사이의 퍼센트 동일성을 나타내는 총 퍼센트 동일성을 가질 수 있고, 제1 및 제2 정렬된 서열의 정렬된 아미노산의 하위집합 사이의 퍼센트 동일성을 나타내는 하나 이상의 퍼센트 동일성을 가질 수 있다. 정렬된 뉴클레오티드 또는 아미노산의 하위집합의 퍼센트 동일성은 모든 정렬된 뉴클레오티드 또는 아미노산에 대한 총 퍼센트 동일성보다 상이한 퍼센트일 수 있다.

다양한 구현예에서, 퍼센트 동일성, 퍼센트 적용범위, 적용범위 길이, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, E-값, 돌연변이의 수, 및/또는 퍼센트 돌연변이의 임의의 하나 이상, 또는 모두는 그래프 또는 히트맵으로 표시될 수 있다. 다양한 구현예에서, 그래프 또는 히트맵의 적어도 하나의 축은 서열의 쌍별 비교에 포함된 서열을 포함하고 적어도 하나의 추가 축은 서열의 쌍별 비교에 의해 생성된 데이터를 포함한다.

일부 구현예에서, 게놈 서열의 단일 컬렉션 또는 플라스미드 서열의 단일 컬렉션이 분석되며, 여기서 분석된 컬렉션의 모든 구성원은 쌍별 방식으로 비교되어(즉, 단일 컬렉션은 질의 서열 컬렉션 및 참조 서열 컬렉션 둘 다로서 사용됨) 각각의 쌍별 비교의 퍼센트 동일성, 퍼센트 적용범위, 적용범위 길이, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, E-값, 돌연변이의 수, 및/또는 퍼센트 돌연변이를 결정한다. 일부 구현예에서, 게놈 서열 컬렉션 또는 플라스미드 서열 컬렉션이 분석되며, 여기서 분석된 컬렉션의 각각의 구성원은 대상 서열과 비교되어 각각의 비교의 퍼센트 동일성, 퍼센트 적용범위, 적용범위 길이, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, E-값, 돌연변이의 수, 및/또는 퍼센트 돌연변이를 결정한다.

일부 구현예에서, 컬렉션의 각각의 게놈 또는 플라스미드 서열은 동일한 종의 것일 수 있다. 일부 구현예에서, 컬렉션의 각각의 게놈 또는 플라스미드 서열은 동일한 속, 과, 목, 강, 문, 계, 또는 역의 유기체를 나타내는 서열일 수 있거나 또는 포함할 수 있다. 일부 구현예에서, 컬렉션의 각각의 게놈 또는 플라스미드 서열은 동일한 유전자 또는 이의 일부를 나타내는 서열일 수 있거나 또는 포함할 수 있다. 일부 구현예에서, 단일 컬렉션의 각각의 게놈 또는 플라스미드 서열은 동일한 코딩 서열 또는 이의 일부를 나타내는 서열일 수 있거나 또는 포함할 수 있다.

특정 구현예에서, 분석은 2 개의 컬렉션을 포함하며, 이들 각각은 게놈 서열 컬렉션이거나 또는 이들 각각은 플라스미드 서열 컬렉션이다. 이러한 경우 제1 컬렉션은 대상으로 지칭될 수 있고, 제2 컬렉션은 질의로 지칭될 수 있다. 대상 컬렉션 및 질의 컬렉션을 포함한 특정 구현예에서, 질의 컬렉션의 각각의 서열은 대상 컬렉션의 각각의 서열과 쌍별 방식으로 비교되어 각각의 비교의 퍼센트 동일성, 퍼센트 적용범위, 적용범위 길이, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, E-값, 돌연변이의 수, 및/또는 퍼센트 돌연변이를 결정한다.

일부 구현예에서, 분석은 서열의 단일 컬렉션을 포함하고 각각의 서열은 다른 서열과 쌍별 방식으로 비교되어, 적어도 특정 구현예에서, 서열의 단일 컬렉션이 대상 및 질의 둘 다이도록 한다. 분석된 서열이 서열의 단일 컬렉션 또는 대상 및 질의와 같은 다중 컬렉션을 포함하든, 분석에 사용되는 모든 서열은 누적적으로 함께, 또는 임의의 하위집합과 관련하여 입력 서열로서 지칭될 수 있다.

일부 구현예에서, 대상 및/또는 질의의 각각의 게놈 또는 플라스미드 서열은 동일한 종의 것일 수 있다. 일부 구현예에서, 대상 및/또는 질의의 각각의 게놈 또는 플라스미드 서열은 동일한 속, 과, 목, 강, 문, 계, 또는 역의 유기체를 나타내는 서열일 수 있거나 또는 포함한다. 일부 구현예에서, 대상 및/또는 질의의 각각의 게놈 또는 플라스미드 서열은 동일한 유전자 또는 이의 일부를 나타내는 서열일 수 있거나 또는 포함한다. 일부 구현예에서, 대상 및/또는 질의의 각각의 게놈 또는 플라스미드 서열은 동일한 코딩 서열 또는 이의 일부를 나타내는 서열일 수 있거나 또는 포함한다.

일부 구현예에서, 하나 이상, 또는 모든 대상 서열은 동일한 종을 나타낸다는 점에서 하나 이상의 질의 서열에 필적할 만하다. 일부 구현예에서, 하나 이상, 또는 모든 대상 서열은 동일한 속, 과, 목, 강, 문, 계, 또는 역의 유기체로부터 유래한다는 점에서 하나 이상의 질의 서열에 필적할 만하다. 일부 구현예에서, 하나 이상, 또는 모든 대상 서열은 동일한 유전자 또는 이의 일부를 나타낸다는 점에서 하나 이상의 질의 서열에 필적할 만하다. 일부 구현예에서, 하나 이상, 또는 모든 대상 서열은 동일한 코딩 서열 또는 이의 일부를 나타낸다는 점에서 하나 이상의 질의 서열에 필적할 만하다.

일부 구현예에서 하나 이상, 또는 모든 대상 서열은 공개적으로 접근가능한 데이터베이스에서 및/또는 이로부터 이용가능하다. 일부 구현예에서, 하나 이상, 또는 모든 대상 서열은 생물학적 샘플로부터 유래되고 공개적으로 접근가능한 데이터베이스에서 발견되지 않는다. 일부 구현예에서 하나 이상, 또는 모든 질의 서열은 공개적으로 접근가능한 데이터베이스에서 및/또는 이로부터 이용가능하다. 일부 구현예에서, 하나 이상, 또는 모든 질의 서열은 생물학적 샘플로부터 유래되고 공개적으로 접근가능한 데이터베이스에서 발견되지 않는다. 일부 구현예에서 하나 이상, 또는 모든 대상 서열은 공개적으로 접근가능한 데이터베이스에서 및/또는 이로부터 이용가능하고; 하나 이상, 또는 모든 질의 서열은 생물학적 샘플로부터 유래되고 공개적으로 접근가능한 데이터베이스에서 발견되지 않는다.

일부 구현예에서, 초기의 입력 게놈 또는 플라스미드 서열이 비교된다. 특정 구현예에서, 초기의 입력 게놈 또는 플라스미드 서열의 추출된 코딩 서열이 비교된다. 특정 구현예에서, 초기의 입력 게놈 또는 플라스미드 서열의 추출된 코딩 서열의 번역이 비교된다. 따라서, 특정 구현예에서, 초기의 입력 질의 게놈 또는 플라스미드 서열은 초기의 입력 대상 게놈 또는 플라스미드 서열과 쌍별 방식으로 비교된다. 특정 구현예에서, 초기의 입력 질의 게놈 또는 플라스미드 서열의 추출된 코딩 서열은 초기의 입력 대상 게놈 또는 플라스미드 서열의 추출된 코딩 서열과 쌍별 방식으로 비교된다. 특정 구현예에서, 초기의 입력 질의 게놈 또는 플라스미드 서열의 추출된 코딩 서열의 번역은 초기의 입력 대상 게놈 또는 플라스미드 서열의 추출된 코딩 서열의 번역과 쌍별 방식으로 비교된다.

쌍별 비교에 의해 생성된 데이터의 처리: 효율적인 서열 범주화를 위한 다중 서열 범주화 인자의 조합

본 개시내용은 서열을 효율적으로 범주화하기 위해 쌍별 서열 비교로부터 생성된 데이터의 사용을 포함한다. 다양한 구현예에서, 쌍별 서열 비교로부터 생성된 데이터는 퍼센트 동일성, 퍼센트 적용범위, 적용범위 길이, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, E-값, 돌연변이의 수, 퍼센트 돌연변이, 및/또는 계통 발생을 포함하며, 이 중 임의의 것 또는 모두는 개별적으로 또는 조합으로, 예를 들어, 서열 범주화 인자로서 본원에 제시된 조합으로 사용될 수 있다. 따라서, 다양한 구현예에서, 서열은 범주화된 서열 그룹으로 범주화될 수 있으며, 범주화된 서열 그룹은 하나 이상의 범주화 인자에 대한 하나 이상의 임계값에 기반할 수 있다, 다양한 구현예에서, 범주화 인자는 임의의 추가 분석의 목적으로 서열을 필터링하기 위해 (또는 달리 추가 고려사항으로부터 서열을 제외하기 위해) 사용될 수 있으며, 예를 들어, 여기서 필터링은 하나 이상의 범주화 인자의 임계값 및/또는 하나 이상의 범주화된 서열 그룹의 필터링에 기반한다, 역으로, 다양한 구현예에서, 범주화 인자는 추가 분석에 포함하기 위한 서열을 선택하기 위해 사용될 수 있으며, 예를 들어, 여기서 선택은 하나 이상의 범주화 인자의 임계값 및/또는 하나 이상의 범주화된 서열 그룹의 선택에 기반한다, 다양한 구현예에서, 임의적으로 분석된 서열 및/또는 존재하는 경우 이용가능한 주석의 서열과 함께 쌍별 서열 비교로부터 생성된 데이터는 예를 들어, Got Table에서 함께 컴파일될 수 있다.

본원에 개시된 바와 같이, 쌍별 서열 비교는 핵산 코딩 서열(예를 들어, 추출된 코딩 서열)의 비교 또는 아미노산 서열(예를 들어, 추출된 코딩 서열의 번역)의 비교일 수 있다. 따라서, 본 개시내용의 방법 및 시스템에 따라 범주화된 질의 서열은 핵산 코딩 서열(예를 들어, 추출된 코딩 서열) 또는 아미노산 서열(예를 들어, 추출된 코딩 서열의 비교)을 포함할 수 있다.

다양한 구현예에서, 서열은 퍼센트 동일성이 임계값과 동일한지 및/또는 미만인지 여부에 기반하여, 임의의 추가 분석의 목적으로 범주화, 또는 필터링될 수 있다. 다양한 구현예에서, 서열은 퍼센트 동일성이 임계값과 동일한지 및/또는 초과인지 여부에 기반하여, 추가 분석에 포함하기 위해 범주화 또는 선택될 수 있다. 다양한 구현예에서, 예시적인 임계치 퍼센트 동일성은 예를 들어, 적어도 약 75%, 80%, 85%, 90%, 95%, 96%, 97%, 98%, 99%, 또는 100%이거나 또는 이와 동일할 수 있다. 다양한 구현예에서, 임계치 퍼센트 동일성은 예를 들어, 75%, 80%, 85%, 90%, 또는 95%의 하한치 및 예를 들어, 80%, 85%, 90%, 95%, 96%, 97%, 98%, 99%, 또는 100%의 상한치를 갖는 범위 내에 있을 수 있다.

다양한 구현예에서, 서열은 퍼센트 적용범위가 임계값과 동일한지 및/또는 미만인지 여부에 기반하여, 임의의 추가 분석의 목적으로 범주화 또는 필터링될 수 있다. 다양한 구현예에서, 서열은 퍼센트 적용범위가 임계값과 동일한지 및/또는 초과인지 여부에 기반하여, 추가 분석에 포함하기 위해 범주화 또는 선택될 수 있다. 다양한 구현예에서, 예시적인 임계치 퍼센트 적용범위는 예를 들어, 적어도 약 75%, 80%, 85%, 90%, 95%, 96%, 97%, 98%, 99%, 또는 100%이거나 또는 이와 동일할 수 있다. 다양한 구현예에서, 임계치 퍼센트 적용범위는 예를 들어, 75%, 80%, 85%, 90%, 또는 95%의 하한치 및 예를 들어, 80%, 85%, 90%, 95%, 96%, 97%, 98%, 99%, 또는 100%의 상한치를 갖는 범위 내에 있을 수 있다.

다양한 구현예에서, 서열은 적용범위 길이가 임계값과 동일한지 및/또는 미만인지 여부에 기반하여, 임의의 추가 분석의 목적으로 범주화 또는 필터링될 수 있다. 다양한 구현예에서, 서열은 적용범위 길이가 임계값과 동일한지 및/또는 초과인지 여부에 기반하여, 추가 분석에 포함하기 위해 범주화 또는 선택될 수 있다. 다양한 구현예에서, 예시적인 임계치 적용범위 길이는 예를 들어, 적어도 약 20, 25, 30, 35, 40, 45, 50, 75, 100, 125, 150, 175, 또는 200 개 뉴클레오티드 또는 아미노산이거나 또는 이와 동일할 수 있다. 다양한 구현예에서, 임계치 적용범위 길이는 예를 들어, 20, 25, 30, 35, 40, 45, 50, 75, 100, 125, 150, 또는 175 개 뉴클레오티드 또는 아미노산의 하한치 및 예를 들어, 25, 30, 35, 40, 45, 50, 75, 100, 125, 150, 175, 또는 200 개 뉴클레오티드 또는 아미노산의 상한치를 갖는 범위 내에 있을 수 있다.

다양한 구현예에서, 서열은 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성이 임계값과 동일한지 및/또는 미만인지 여부에 기반하여, 임의의 추가 분석의 목적으로 범주화 또는 필터링될 수 있다. 다양한 구현예에서, 서열은 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성이 임계값과 동일한지 및/또는 초과인지 여부에 기반하여, 추가 분석에 포함하기 위해 범주화 또는 선택될 수 있다. 다양한 구현예에서, 미리 결정된 적용범위 길이에 걸친 예시적인 임계치 퍼센트 동일성은 예를 들어, 적어도 약 20, 25, 30, 35, 40, 45, 50, 75, 100, 125, 150, 175, 또는 200 개 뉴클레오티드 또는 아미노산이거나 또는 이와 동일한 미리 결정된 적용범위 길이에 비해 적어도 약 75%, 80%, 85%, 90%, 95%, 96%, 97%, 98%, 99%, 또는 100%이거나 또는 이와 동일한 퍼센트 동일성일 수 있다. 다양한 구현예에서, 미리 결정된 적용범위 길이에 걸친 임계치 퍼센트 동일성은 예를 들어, 75%, 80%, 85%, 90%, 또는 95%의 하한치 및 예를 들어, 80%, 85%, 90%, 95%, 96%, 97%, 98%, 99%, 또는 100%의 상한치를 갖는 범위 내의 퍼센트 동일성을 포함할 수 있고 예를 들어, 20, 25, 30, 35, 40, 45, 50, 75, 100, 125, 150, 또는 175 개 뉴클레오티드 또는 아미노산의 하한치 및 예를 들어, 25, 30, 35, 40, 45, 50, 75, 100, 125, 150, 175, 또는 200 개 뉴클레오티드 또는 아미노산의 상한치를 갖는 범위 내의 적용범위 길이를 포함할 수 있다

다양한 구현예에서, 서열은 E-값이 임계값과 동일한지 및/또는 초과인지 여부에 기반하여 기반하여, 임의의 추가 분석의 목적으로 범주화 또는 필터링될 수 있다. 다양한 구현예에서, 서열은 E-값이 임계값과 동일한지 및/또는 미만인지 여부에 기반하여, 추가 분석에 포함하기 위해 범주화 또는 선택될 수 있다. 다양한 구현예에서, 예시적인 임계치 E-값은 예를 들어, 적어도 약 1e-50, 1e-40, 1e-30, 1e-20, 1e-10, 1e-9, 1e-8, 1e-7, 1e-6, 1e-5, 1e-4, 1e-3, 또는 1e-2이거나 또는 이와 동일할 수 있다. 다양한 구현예에서, 임계치 E-값은 예를 들어, 1e-50, 1e-40, 1e-30, 1e-20, 1e-10, 1e-9, 1e-8, 1e-7, 1e-6, 1e-5, 1e-4, 또는 1e-3의 하한치 및 예를 들어, 1e-40, 1e-30, 1e-20, 1e-10, 1e-9, 1e-8, 1e-7, 1e-6, 1e-5, 1e-4, 1e-3, 또는 1e-2의 상한치를 갖는 범위 내에 있을 수 있다.

다양한 구현예에서, 서열은 돌연변이의 수가 임계값과 동일한지 및/또는 초과인지 여부에 기반하여, 임의의 추가 분석의 목적으로 범주화 또는 필터링될 수 있다. 다양한 구현예에서, 서열은 돌연변이의 수가 임계값과 동일한지 및/또는 미만인지 여부에 기반하여, 추가 분석에 포함하기 위해 범주화 또는 선택될 수 있다. 다양한 구현예에서, 예시적인 임계치 돌연변이의 수는 예를 들어, 적어도 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 35, 40, 45, 또는 50 개이거나 또는 이와 동일할 수 있다. 다양한 구현예에서, 임계치 돌연변이의 수는 예를 들어, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 35, 40, 또는 45 개의 하한치 및 예를 들어, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 35, 40, 45, 또는 50 개의 상한치를 갖는 범위 내에 있을 수 있다.

다양한 구현예에서, 서열은 퍼센트 돌연변이가 임계값과 동일한지 및/또는 초과인지 여부에 기반하여, 임의의 추가 분석의 목적으로 범주화 또는 필터링될 수 있다. 다양한 구현예에서, 서열은 퍼센트 돌연변이가 임계값과 동일한지 및/또는 미만인지 여부에 기반하여, 추가 분석에 포함하기 위해 범주화 또는 선택될 수 있다. 다양한 구현예에서, 예시적인 임계치 퍼센트 돌연변이는 예를 들어, 적어도 약 0%, 1%, 2%, 3%, 4%, 5%, 10%, 15%, 20%, 또는 25%이거나 또는 이와 동일할 수 있다. 다양한 구현예에서, 임계치 퍼센트 돌연변이는 예를 들어, 0%, 1%, 2%, 3%, 4%, 5%, 10%, 15%, 또는 20%의 하한치 및 예를 들어, 1%, 2%, 3%, 4%, 5%, 10%, 15%, 20%, 또는 25%의 상한치를 갖는 범위 내에 있을 수 있다.

다양한 구현예에서, 서열은 계통 발생에 기반하여, 임의의 추가 분석의 목적으로 범주화 또는 필터링될 수 있다. 다양한 구현예에서, 하나 이상의 분기군이 임의의 추가 분석의 목적으로 필터링된다. 다양한 구현예에서, 하나 이상의 분기군이 추가 분석에 포함하기 위해 선택된다.

본 개시내용은 쌍별 서열 비교로부터의 2 개 이상의 범주화 인자에 기반한 서열의 범주화를 포함한다. 다양한 구현예에서, 서열의 범주화는 퍼센트 동일성, 퍼센트 적용범위, 적용범위 길이, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, E-값, 돌연변이의 수, 및/또는 퍼센트 돌연변이로부터 선택된 2 개 이상의 범주화 인자에 기반한다. 본 개시내용은 범주화된 서열 그룹이 2 개 이상의 범주화 인자에 대한 매개변수(예를 들어, 하나 이상의 임계값)에 기반하여 생성된 구현예를 추가로 포함한다. 일부 구현예에서, 각각의 서열 범주는 수치 값이 할당된다. 다양한 구현예에서, 서열 범주에 할당된 수치 값은 질의 서열과 대상 서열 사이의 유사성을 측정하는 하나 이상의 범주화 인자로 추적하는 값일 수 있고/있거나 "유사성 점수"로 지칭될 수 있다. 유사성 점수는 임의의 범위에 걸쳐 임의의 일련의 수치 값을 포함할 수 있지만, 특정 구현예에서 0 내지 1, 0 내지 10, 또는 0 내지 100의 범위를 포함할 수 있다. 유사성 점수의 예는 본원에 제공된다.

다양한 구현예에서, 본 개시내용은 동일성 측정인 제1 범주화 인자 및 적용범위 측정인 제2 범주화 인자를 포함하는 2 개 이상의 범주화 인자에 기반한 서열의 범주화이다. 다양한 구현예에서, 동일성 측정은 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이로부터 선택될 수 있다. 다양한 구현예에서, 적용범위 측정은 퍼센트 적용범위 및 적용범위 길이로부터 선택될 수 있다.

다양한 구현예에서, 쌍별 비교에서 분석된 각각의 서열은 쌍별 비교에서 분석된 각각의 서열이 퍼센트 적용범위 및 서열 변이의 수에 따라 범주화 또는 순위 매겨지는 정의된 점수 시스템에 기반하여 유사성 점수가 할당될 수 있다. 예를 들면, 서열은 하기 표 2에 따라 범주화되고 유사성 점수가 할당될 수 있으며, 여기서 특정 대상 서열과의 쌍별 비교에서 분석된 각각의 질의 서열은 질의 서열과 특정 대상 서열의 비교로부터의 데이터에 기반하여 가장 높은 유사성 점수를 갖는 것에 속하는 구간(bin)에 할당된다:

표 2

표 2의 값은 예를 들어, 표 2의 각각의 값이 용어 "약"을 앞에 두고 있는 것처럼, 제공된 값 주위의 범위를 제공하는 것으로 추가로 이해되어야 한다. 일부 또는 모든 쌍별 비교의 서열에 대한 유사성 점수는 매트릭스, 히트맵, 또는 막대 그래프와 같은 그래프로 표시될 수 있다. 예를 들어, 셀의 열 및 셀의 행을 포함하는 매트릭스 또는 히트맵은 각각의 대상 서열에 대한 열 및 각각의 질의 서열에 대한 행을 포함할 수 있으며, 각각의 셀은 질의 및 대상의 비교에 기반하여 유사성 점수를 표시한다.

일부 구현예에서, 하나 이상의 임계치 기준 또는 값(예를 들어, 임계치 유사성 점수)을 충족하지 못하는 쌍별 서열 비교(및/또는 이의 질의 서열)는 임의의 추가 분석의 목적으로 필터링될 수 있다(또는 달리 추가 고려사항으로부터 제외될 수 있음). 일부 구현예에서, 특정 질의 서열 및 특정 대상 서열(및/또는 연관된 질의 서열)의 쌍별 서열 비교와 연관된 데이터는 데이터가 하나 이상의 임계치 기준 또는 값(예를 들어, 임계치 유사성 점수)를 충족하지 못하는 경우, 임의의 추가 분석의 목적으로 필터링될 수 있다(또는 달리 추가 고려사항으로부터 제외될 수 있음).

일부 구현예에서, 본원에 제시된 바와 같은 하나 이상의 특정 범주화된 서열 그룹에 속하는 쌍별 서열 비교(및/또는 이의 질의 서열 또는 대상 서열)는 임의의 추가 분석의 목적으로 필터링될 수 있다(또는 달리 추가 고려사항으로부터 제외될 수 있음). 일부 구현예에서, 특정 질의 서열 및 특정 대상 서열(및/또는 연관된 질의 서열)의 쌍별 서열 비교와 연관된 데이터는 데이터 및/또는 서열이 하나 이상의 특정 범주화된 서열 그룹에 속하는 경우, 임의의 추가 분석의 목적으로 필터링될 수 있다(또는 달리 추가 고려사항으로부터 제외될 수 있음).

표 2는 유사성 점수에 의해 범주화된 서열 그룹의 필터링을 허용하는 예시적인 범주화 체계를 제공한다. 표 2의 예시적인 범주화 체계에 제시된 바와 같이, 적어도 약 99%의 퍼센트 적용범위를 초래하는 쌍별 비교는 돌연변이의 수가 0인 경우 1의 유사성 점수가 할당되고; 적어도 약 99%의 퍼센트 적용범위를 초래하는 나머지 쌍별 비교는 돌연변이의 수가 약 10 개 미만인 경우 0.95의 유사성 점수가 할당되고; 적어도 약 99%의 퍼센트 적용범위를 초래하는 나머지 쌍별 비교는 돌연변이의 수가 적어도 10 개인 경우 0.8의 유사성 점수가 할당되고; 적어도 약 90%이지만 약 99% 미만인 퍼센트 적용범위를 초래하는 나머지 쌍별 비교는 임의의 돌연변이의 수를 포함하여 0.5의 유사성 점수가 할당되고; 적어도 약 75%이지만 약 90% 미만인 퍼센트 적용범위를 초래하는 나머지 쌍별 비교는 임의의 돌연변이의 수를 포함하여 0.4의 유사성 점수가 할당되고; 적어도 약 0%이지만 약 75% 미만인 퍼센트 적용범위를 초래하는 나머지 쌍별 비교는 임의의 돌연변이의 수를 포함하여 0.3의 유사성 점수가 할당되고; 0%와 동일한 퍼센트 적용범위를 초래하는 나머지 쌍별 비교는 임의의 돌연변이의 수를 포함하여 0의 유사성 점수가 할당된다.

특정 구현예에서, 표 2에 제시된 바와 같이 범주화된(또는 또 다른 조합된 적용범위 및 동일성 척도에 의해 범주화된 바와 같은) 임의의 하나 이상의 서열 비교는 예를 들어, 할당된 유사성 점수가 1 미만, 0.95 미만, 0.8 미만, 0.5 미만, 0.4 미만, 0.3 미만, 또는 0인 서열 비교를 제외하도록 필터링함으로써, 임의의 추가 분석의 목적으로 필터링될 수 있다(또는 달리 추가 고려사항으로부터 제외될 수 있음). 특정 구현예에서, 하나 이상의 임계치는 표 2에 제시된 바와 같은 유사성 점수(또는 적용범위 척도 및 동일성 척도의 조합인 다른 유사성 점수)에 상응하는 범주에 할당되기 전 또는 후(또는 전 및 후 둘 다)에 쌍별 비교에 적용될 수 있다. 특정 구현예에서, 하나 이상의 임계치는 예를 들어, 최소 적용범위 길이, 최소 퍼센트 적용범위, 최대 E-값, 최소 퍼센트 동일성, 적용범위 길이에 걸친 최소 퍼센트 동일성, 최대 돌연변이의 수, 및/또는 최대 퍼센트 돌연변이를 포함할 수 있다. 특정 구현예에서, 하나 이상의 임계치는 표 2에 기반한 필터링에 대한 대안으로서 적용된다. 특정 구현예에서, 하나 이상의 임계치는 예를 들어, 최소 적용범위 길이, 최소 퍼센트 적용범위, 최대 E-값, 최소 퍼센트 동일성, 적용범위 길이에 걸친 최소 퍼센트 동일성, 최대 돌연변이의 수, 및/또는 최대 퍼센트 돌연변이를 포함할 수 있다.

일부 구현예에서, 표 2에 기반한 범주화 및/또는 필터링 이외에 또는 이에 대한 대안으로서, 약 0.001 이하의 E-값을 갖는, 적어도 약 51 개 뉴클레오티드 또는 아미노산의 적용범위 길이에 걸쳐 적어도 약 80% 동일성을 입증하는 쌍별 서열 비교는 추가 분석을 위해 포함될 수 있고/있거나, 약 80% 미만의 동일성 및/또는 약 50 개 이하의 뉴클레오티드 또는 아미노산의 정렬 일치 길이 및/또는 약 0.001 초과의 E-값을 입증하는 쌍별 서열 비교는 분석에서 필터링된다.

표적 특성의 결정 및/또는 표적 특성을 갖는 서열의 선택

다양한 구현예에서, 본 개시내용의 방법 및 시스템은 하나 이상의 서열이 특정 표적 특성을 표시하는지 여부를 결정하고/하거나, 하나 이상의 표적 특성을 갖는 것으로 결정된 서열을 선택하는 데 사용될 수 있다. 본원에 추가로 개시된 바와 같이, 예시적인 표적 특성은 제한 없이, 서열 보존의 표적 수준, 서열 가변성 수준(예를 들어, 서열 모듬에 걸쳐 및/또는 하나 이상의 대상 서열과 비교하여), 또는 계통 발생 그룹화를 포함할 수 있다,

다양한 구현예에서, 범주화 및/또는 필터링 단계는 임의적으로 표적 특성을 갖는 서열의 선택을 포함하여 표적 특성의 분석을 위한 하나 이상의 추가 단계가 이어진다. 핵산 서열(예를 들어, 추출된 코딩 서열)이 비교되고 범주화되고/되거나 필터링된 일부 구현예에서, 표적 특성의 분석은 핵산(예를 들어, 추출된 코딩 서열)을 아미노산 서열로 번역하고 임의적으로 하나 이상의 대상 아미노산 서열에 대한 아미노산 서열의 추가 쌍별 비교를 수행함으로써 수행된다. 핵산 서열(예를 들어, 추출된 코딩 서열)이 비교되고 범주화되고/되거나 필터링된 일부 구현예에서, 표적 특성의 분석은 쌍별 핵산 서열 비교로부터의 데이터 분석에 의해 수행된다. 아미노산 서열이 비교되고 범주화되고/되거나 필터링된 일부 구현예에서, 표적 특성의 분석은 쌍별 아미노산 서열 비교로부터의 데이터 분석에 의해 수행된다.

보존 및/또는 가변성은 게놈, 플라스미드, 유전자, 코딩 서열, 또는 번역된 코딩 서열 아미노산 서열 중 임의의 하나 이상과 관련하여 평가(예를 들어, 측정 또는 결정)될 수 있다. 보존 및/또는 가변성은 코딩 서열의 뉴클레오티드 위치의 하위집합, 예를 들어, 아미노산 도메인을 암호화하는 코딩 서열의 뉴클레오티드 위치의 하위집합과 관련하여 평가될 수 있다. 보존 및/또는 가변성은 코딩 서열 내의 하나 이상의 뉴클레오티드 위치와 관련하여 평가될 수 있다. 보존 및/또는 가변성은 번역된 코딩 서열 아미노산 서열의 아미노산 위치의 하위집합, 예를 들어, 아미노산 도메인을 포함하는 아미노산 위치의 하위집합과 관련하여 평가될 수 있다. 보존 및/또는 가변성은 번역된 코딩 서열 아미노산 서열 내의 하나 이상의 아미노산 위치와 관련하여 평가될 수 있다.

다양한 접근법이 서열 보존 및/또는 가변성의 분석을 위해 사용될 수 있다. 본원에 개시된 바와 같이, 서열 보존 및/또는 가변성은 비교된 서열에 걸쳐 하나 이상의 상응하는 위치에서 뉴클레오티드 또는 아미노산의 동일성 또는 비-동일성 빈도의 척도를 지칭할 수 있다. 적어도 서열 보존 및 서열 가변성이 둘 다 서열 중에서서 유사성 척도인 한, 하나를 측정하는 측정법은 일반적으로 둘 다의 측정에 적용가능하다.

일부 구현예에서, 서열 보존 및/또는 가변성은 퍼센트 돌연변이에 따라 측정될 수 있다. 일부 구현예에서, 서열 보존 및/또는 가변성은 퍼센트 동일성에 따라 측정될 수 있다. 다양한 구현예에서, 보존 및/또는 가변성은 동일성 척도 및 적용범위 척도의 조합에 의해 결정될 수 있다. 예를 들어, 다양한 구현예에서, 서열은 동일성 척도의 임계값 및 적용범위 척도의 임계값 둘 다를 충족하는 경우 보존되는 것으로 식별된다. 일부 구현예에서, 서열 보존 및/또는 가변성은 적용범위 길이 및/또는 퍼센트 적용범위와 조합하여 퍼센트 돌연변이에 따라 측정될 수 있다. 일부 구현예에서, 서열 보존 및/또는 가변성은 적용범위 길이 및/또는 퍼센트 적용범위와 조합하여 퍼센트 동일성에 따라 측정될 수 있다. 일부 구현예에서, 서열 보존 및/또는 가변성은 유사성 점수(예를 들어, 표 2에 예시된 바와 같음)에 따라 측정될 수 있다.

일부 구현예에서, 특정 대상 코딩 서열에 상응하는 서열의 보존은 특정 대상 코딩 서열과 비교하여 각각의 서열의 퍼센트 동일성을 평균냄으로써 결정될 수 있다. 다양한 구현예에서, 높은 보존(낮은 가변성)을 갖는 서열은 적어도 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, 99.5%, 99.6%, 99.7%, 99.8%, 99.9%, 또는 100%인 평균 퍼센트 동일성에 기반하여 선택된다. 일부 구현예에서, 낮은 보존(높은 가변성)을 갖는 서열은 99%, 98%, 97%, 96%, 95%, 94%, 93%, 92%, 91%, 90%, 85%, 80%, 75%, 70%, 65%, 60%, 55%, 50%, 40%, 또는 30% 미만인 평균 퍼센트 동일성에 기반하여 선택된다.

다양한 구현예에서, 서열은 보존 및/또는 가변성의 측정된 수준에 기반하여 선택될 수 있다. 일부 구현예에서, 높은 보존(낮은 가변성)을 갖는 서열은 예를 들어, 보존 척도에 따라 쌍별 비교된 서열을 순서매긴 후, 보존된 쌍별-비교된 서열(예를 들어, 상위 유전자, 코딩 서열, 또는 번역된 코딩 서열 아미노산 서열, 또는 이의 하위집합 또는 부분)의 약 상위 1, 상위 2, 상위 3, 상위 4, 상위 5, 상위 10, 상위 20, 상위 25, 상위 50, 상위 100, 상위 1%, 상위 2%, 상위 5%, 상위 10%, 상위 15%, 상위 20%, 상위 25%, 또는 상위 50%를 선택하여 선택된다. 일부 구현예에서, 낮은 보존(높은 가변성)을 갖는 서열은 예를 들어, 보존 척도에 따라 쌍별 비교된 서열을 순서매긴 후, 보존된 쌍별-비교된 서열(예를 들어, 하위 유전자, 코딩 서열, 번역된 코딩 서열 아미노산 서열, 또는 이의 하위집합 또는 부분)의 약 하위 1, 하위 2, 하위 3, 하위 4, 하위 5, 하위 10, 하위 20, 하위 25, 하위 50, 하위 100, 하위 1%, 하위 2%, 하위 5%, 하위 10%, 하위 15%, 하위 20%, 하위 25%, 또는 하위 50%를 선택하여 선택된다.

다양한 구현예에서, 서열 보존은 계통 발생 분석에 의해 입증된다. 계통 발생 분석을 위한 다양한 방법 및 프로그램은 AncesTree, AliGROOVE, ape, Armadillo Workflow Platform, BAli-Phy, BATWING, BayesPhylogenies, BayesTraits, BEAST, BioNumerics, Bosque, BUCKy, Canopy, CITUP, ClustalW, Dendroscope, EzEditor, fastDNAml, FastTree 2, fitmodel, Geneious, HyPhy, IQPNNI, IQ-TREE　, jModelTest 2, LisBeth, MEGA, Mesquite, MetaPIGA2, Modelgenerator, MOLPHY, MorphoBank, MrBayes, Network, Nona, PAML, ParaPhylo, PartitionFinder, PASTIS, PAUP*, phangorn, Phybase, phyclust, PHYLIP, phyloT, PhyloQuart, PhyloWGS, PhyML, phyx, POY, ProtTest 3, PyCogent, QuickTree, RAxML-HPC, RAxML-NG, SEMPHY, sowhat, SplitsTree, TNT, TOPALi, TreeGen, TreeAlign, Treefinder, TREE-PUZZLE　, T-REX(Webserver)　, UGENE, Winclada, 및 Xrate를 포함한다,

네트워크 환경 및 컴퓨팅 디바이스

도 37에 제시된 바와 같이, 본원에 기재된 바와 같은 시스템, 방법, 및 아키텍처를 제공하는 데 사용하기 위한 네트워크 환경(3700)의 구현이 제시되고 기재된다. 간략한 개요에서, 이제 도 37을 참조하면, 예시적인 클라우드 컴퓨팅 환경(3700)의 블록도가 제시되고 기재된다. 클라우드 컴퓨팅 환경(3700)은 하나 이상의 리소스 공급자(3702a, 3702b, 3702c)(일괄하여, 3702)를 포함할 수 있다. 각각의 리소스 공급자(3702)는 컴퓨팅 리소스를 포함할 수 있다. 일부 구현에서, 컴퓨팅 리소스는 데이터를 처리하는 데 사용되는 임의의 하드웨어 및/또는 소프트웨어를 포함할 수 있다. 예를 들어, 컴퓨팅 리소스는 알고리즘, 컴퓨터 프로그램, 및/또는 컴퓨터 애플리케이션을 실행할 수 있는 하드웨어 및/또는 소프트웨어를 포함할 수 있다. 일부 구현에서, 예시적인 컴퓨팅 리소스는 저장 및 검색 능력을 갖는 애플리케이션 서버 및/또는 데이터베이스를 포함할 수 있다. 각각의 리소스 공급자(3702)는 클라우드 컴퓨팅 환경(3700)에서 임의의 다른 리소스 공급자(3702)에 연결될 수 있다. 일부 구현에서, 리소스 공급자(3702)는 컴퓨터 네트워크(3708)를 가로질러 연결될 수 있다. 각각의 리소스 공급자(3702)는 컴퓨터 네트워크(3708)를 가로질러 하나 이상의 컴퓨팅 디바이스(3704a, 3704b, 3704c)(일괄하여, 3704)에 연결될 수 있다.

클라우드 컴퓨팅 환경(3700)은 리소스 관리자(3706)를 포함할 수 있다. 리소스 관리자(3706)는 컴퓨터 네트워크(3708)를 가로질러 리소스 공급자(3702) 및 컴퓨팅 디바이스(3704)에 연결될 수 있다. 일부 구현에서, 리소스 관리자(3706)는 하나 이상의 리소스 공급자(3702)에 의해 하나 이상의 컴퓨팅 디바이스(3704)에 컴퓨팅 리소스의 제공을 용이하게 할 수 있다. 리소스 관리자(3706)는 특정 컴퓨팅 디바이스(3704)로부터 컴퓨팅 리소스에 대한 요청을 수신할 수 있다. 리소스 관리자(3706)는 컴퓨팅 디바이스(3704)에 의해 요청된 컴퓨팅 리소스를 제공할 수 있는 하나 이상의 리소스 공급자(3702)를 식별할 수 있다. 리소스 관리자(3706)는 리소스 공급자(3702)를 선택하여 컴퓨팅 리소스를 제공할 수 있다. 리소스 관리자(3706)는 리소스 공급자(3702) 및 특정 컴퓨팅 디바이스(3704) 사이의 연결을 용이하게 할 수 있다. 일부 구현에서, 리소스 관리자(3706)는 특정 리소스 공급자(3702) 및 특정 컴퓨팅 디바이스(3704) 사이의 연결을 설정할 수 있다. 일부 구현에서, 리소스 관리자(3706)는 요청된 컴퓨팅 리소스로 특정 컴퓨팅 디바이스(3704)를 특정 리소스 공급자(3702)로 리다이렉션할 수 있다.

도 38은 본 개시내용에 기재된 기술을 구현하는 데 사용될 수 있는 컴퓨팅 디바이스(3800) 및 모바일 컴퓨팅 디바이스(3850)의 예를 나타낸다. 컴퓨팅 디바이스(3800)는 랩탑, 데스크탑, 워크스테이션, 개인 정보 단말기, 서버, 블레이드 서버, 메인프레임, 및 다른 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타내는 것으로 의도된다. 모바일 컴퓨팅 디바이스(3850)는 개인 정보 단말기, 셀룰러 전화, 스마트폰, 및 다른 유사한 컴퓨팅 디바이스와 같은 다양한 형태의 모바일 장치를 나타내는 것으로 의도된다. 여기에 제시된 구성요소, 이의 연결 및 관계, 및 이의 기능은 단지 예시로 여겨지며, 제한하려는 것은 아니다.

컴퓨팅 디바이스(3800)는 프로세서(3802), 메모리(3804), 저장 장치(3806), 메모리(3804) 및 다중 고속 확장 포트(3810)에 연결되는 고속 인터페이스(3808), 및 저속 확장 포트(3814) 및 저장 장치(3806)에 연결되는 저속 인터페이스(3812)를 포함한다. 프로세서(3802), 메모리(3804), 저장 장치(3806), 고속 인터페이스(3808), 고속 확장 포트(3810), 및 저속 인터페이스(3812) 각각은 다양한 버스를 사용하여 상호연결되고, 공통 마더보드에 장착되거나 또는 적절하게 다른 방식으로 장착될 수 있다. 프로세서(3802)는 메모리(3804) 또는 저장 장치(3806)에 저장된 명령어를 포함하여 컴퓨팅 디바이스(3800) 내에서 실행을 위한 명령어를 처리하여 고속 인터페이스(3808)에 연결된 디스플레이(3816)와 같은 외부 입력/출력 장치 상의 GUI에 대한 그래픽 정보를 표시할 수 있다. 다른 구현에서, 다중 프로세서 및/또는 다중 버스는 다중 메모리 및 메모리 유형과 함께 적절하게 사용될 수 있다. 또한, 다중 컴퓨팅 디바이스가 연결될 수 있으며, 각각의 디바이스는 필요한 작업 부분(예를 들어, 서버 뱅크, 블레이드 서버 그룹, 또는 다중-프로세서 시스템)을 제공한다. 따라서, 복수의 기능이 프로세서에 의해 수행되는 것으로 기재되는 경우, 이는 복수의 기능이 임의의 수의 컴퓨팅 디바이스(하나 이상)의 임의의 수의 프로세서(하나 이상)에 의해 수행되는 구현예를 포함한다. 또한, 기능이 프로세서에 의해 수행되는 것으로 기재되는 경우, 이는 기능이 (예를 들어, 분산된 컴퓨팅 시스템에서) 임의의 수의 컴퓨팅 디바이스(하나 이상)의 임의의 수의 프로세서(하나 이상)에 의해 수행되는 구현예를 포함한다.

메모리(3804)는 컴퓨팅 디바이스(3800) 내에 정보를 저장한다. 일부 구현에서, 메모리(3804)는 휘발성 기억 장치 또는 장치들이다. 일부 구현에서, 메모리(3804)는 비-휘발성 기억 장치 또는 장치들이다. 메모리(3804)는 또한 자기 또는 광 디스크와 같은 또 다른 형태의 컴퓨터-판독가능 매체일 수 있다.

저장 장치(3806)는 컴퓨팅 디바이스(3800)에 대한 대용량 저장을 제공할 수 있다. 일부 구현에서, 저장 장치(3806)는 플로피 디스크 장치, 하드 디스크 장치, 광 디스크 장치, 또는 테이프 장치, 플래시 메모리 또는 다른 유사한 솔리드 스테이트 메모리 장치, 또는 저장 영역 네트워크 또는 다른 구성에 장치를 포함하는 장치 어레이와 같은 컴퓨터-판독가능 매체일 수 있거나 또는 이를 함유할 수 있다. 명령어는 정보 캐리어에 저장될 수 있다. 명령어는 하나 이상의 처리 장치(예를 들어, 프로세서(3802))에 의해 실행될 때 상기 기재된 것들과 같은 하나 이상의 방법을 수행한다. 명령어는 또한 컴퓨터- 또는 기계-판독가능 매체(예를 들어, 메모리(3804), 저장 장치(3806), 또는 프로세서(3802) 상의 메모리)와 같은 하나 이상의 저장 장치에 의해 저장될 수 있다.

고속 인터페이스(3808)는 컴퓨팅 디바이스(3800)에 대한 대역폭-집약적 연산을 처리하는 반면, 저속 인터페이스(3812)는 더 낮은 대역폭-집약적 연산을 처리한다. 이러한 기능 할당은 단지 예시이다. 일부 구현에서, 고속 인터페이스(3808)는 메모리(3804), 디스플레이(3816)(예를 들어, 그래픽 프로세서 또는 가속기를 통해), 및 다양한 확장 카드(제시되지 않음)를 수용할 수 있는 고속 확장 포트(3810)에 연결된다. 구현예서, 저속 인터페이스(3812)는 저장 장치(3806) 및 저속 확장 포트(3814)에 연결된다. 다양한 통신 포트(예를 들어, USB, Bluetooth®, 이더넷, 무선 이더넷)를 포함할 수 있는 저속 확장 포트(3814)는 예를 들어, 네트워크 어댑터를 통해 키보드, 포인팅 장치, 스캐너, 또는 스위치 또는 라우터와 같은 네트워크 장치와 같은 하나 이상의 입력/출력 장치에 연결될 수 있다.

컴퓨팅 디바이스(3800)는 도면에 제시된 바와 같이 다수의 상이한 형태로 구현될 수 있다. 예를 들어, 표준 서버(3820)로서, 또는 이러한 서버의 그룹에서 여러 번 구현될 수 있다. 게다가, 랩탑 컴퓨터(3822)와 같은 퍼스널 컴퓨터에서 구현될 수 있다. 또한 랙 서버 시스템(3824)의 일부로 구현될 수 있다. 대안적으로, 컴퓨팅 디바이스(3800)의 구성요소는 모바일 컴퓨팅 디바이스(3850)와 같은 모바일 장치의 다른 구성요소(제시되지 않음)와 조합될 수 있다. 이러한 장치 각각은 컴퓨팅 디바이스(3800) 및 모바일 컴퓨팅 디바이스(3850) 중 하나 이상을 함유할 수 있고, 전체 시스템은 서로 통신하는 다중 컴퓨팅 디바이스로 구성될 수 있다.

모바일 컴퓨팅 디바이스(3850)는 다른 구성요소 중에서 프로세서(3852), 메모리(3864), 디스플레이(3854)와 같은 입력/출력 장치, 통신 인터페이스(3866), 및 트랜스시버(3868)를 포함한다. 모바일 컴퓨팅 디바이스(3850)는 또한 추가 저장을 제공하기 위해 마이크로-드라이브 또는 다른 장치와 같은 저장 장치와 함께 제공될 수 있다. 프로세서(3852), 메모리(3864), 디스플레이(3854), 통신 인터페이스(3866), 및 트랜스시버(3868) 각각은 다양한 버스를 사용하여 상호연결되고, 여러 구성요소는 공통 마더보드 상에 장착되거나 또는 적절하게 다른 방식으로 장착될 수 있다.

프로세서(3852)는 메모리(3864)에 저장된 명령어를 포함하여 모바일 컴퓨팅 디바이스(3850) 내에서 명령어를 실행할 수 있다. 프로세서(3852)는 별개 및 다중 아날로그 및 디지털 프로세서를 포함하는 칩의 칩셋으로 구현될 수 있다. 프로세서(3852)는 예를 들어, 사용자 인터페이스 제어, 모바일 컴퓨팅 디바이스(3850)에 의한 애플리케이션 구동, 및 모바일 컴퓨팅 디바이스(3850)에 의한 무선 통신과 같은 모바일 컴퓨팅 디바이스(3850)의 다른 구성요소의 조정을 제공할 수 있다.

프로세서(3852)는 디스플레이(3854)에 연결된 제어 인터페이스(3858) 및 디스플레이 인터페이스(3856)를 통해 사용자와 통신할 수 있다. 디스플레이(3854)는 예를 들어, TFT(박막 트랜지스터 액정 디스플레이) 디스플레이 또는 OLED(유기 발광 다이오드) 디스플레이, 또는 다른 적절한 디스플레이 기술일 수 있다. 디스플레이 인터페이스(3856)는 사용자에게 그래픽 및 다른 정보를 제시하기 위해 디스플레이(3854)를 구동하는 적절한 회로를 포함할 수 있다. 제어 인터페이스(3858)는 사용자로부터 명령을 수신하고 이를 프로세서(3852)에 제출하기 위해 변환할 수 있다. 게다가, 외부 인터페이스(3862)는 모바일 컴퓨팅 디바이스(3850)와 다른 장치의 근거리 통신을 가능하게 하기 위해 프로세서(3852)와의 통신을 제공할 수 있다. 외부 인터페이스(3862)는 예를 들어, 일부 구현에서 유선 통신, 또는 다른 구현에서 무선 통신을 제공할 수 있고, 다중 인터페이스가 또한 사용될 수 있다.

메모리(3864)는 모바일 컴퓨팅 디바이스(3850) 내에 정보를 저장한다. 메모리(3864)는 컴퓨터-판독가능 매체 또는 매체들, 휘발성 기억 장치 또는 장치들, 또는 비-휘발성 기억 장치 또는 장치들 중 하나 이상으로 구현될 수 있다. 확장 메모리(3874)는 또한 예를 들어, SIMM(단일 인라인 메모리 모듈) 카드 인터페이스를 포함할 수 있는 확장 인터페이스(3872)를 통해 모바일 컴퓨팅 디바이스(3850)에 제공되고 연결될 수 있다. 확장 메모리(3874)는 모바일 컴퓨팅 디바이스(3850)를 위한 여분의 저장 공간을 제공할 수 있거나, 또는 모바일 컴퓨팅 디바이스(3850)를 위한 애플리케이션 또는 다른 정보를 또한 저장할 수 있다. 구체적으로, 확장 메모리(3874)는 상기 기재된 프로세스를 수행 또는 보완하기 위한 명령어를 포함할 수 있고, 보안 정보 또한 포함할 수 있다. 따라서, 예를 들어, 확장 메모리(3874)는 모바일 컴퓨팅 디바이스(3850)를 위한 보안 모듈로서 제공될 수 있고, 모바일 컴퓨팅 디바이스(3850)의 보안 사용을 허용하는 명령어로 프로그램밍될 수 있다. 게다가, 보안 애플리케이션은 해킹할 수 없는 방식으로 SIMM 카드에 식별 정보를 넣는 것과 같이 추가 정보와 함께 SIMM 카드를 통해 제공될 수 있다.

메모리는 하기 논의된 바와 같이 예를 들어, 플래시 메모리 및/또는 NVRAM 메모리(비-휘발성 랜덤 엑세스 메모리)를 포함할 수 있다. 일부 구현에서, 명령어는 정보 케리어에 저장된다. 명령어는 하나 이상의 처리 장치(예를 들어, 프로세서(3852))에 의해 실행될 때 상기 기재된 것들과 같은 하나 이상의 방법을 수행한다. 명령어는 또한 하나 이상의 컴퓨터- 또는 기계-판독가능 매체(예를 들어, 메모리(3864), 확장 메모리(3874), 또는 프로세서(3852) 상의 메모리)와 같은 하나 이상의 저장 장치에 의해 저장될 수 있다. 일부 구현에서, 명령어는 예를 들어, 트랜스시버(3868) 또는 외부 인터페이스(3862)를 가로질러 전파된 신호로 수신될 수 있다.

모바일 컴퓨팅 디바이스(3850)는 필요한 경우 디지털 신호 처리 회로를 포함할 수 있는 통신 인터페이스(3866)를 통해 무선으로 통신할 수 있다. 통신 인터페이스(3866)는 그 중에서도 GSM 음성 호출(이동 통신 세계화 시스템), SMS(단문 메시지 서비스), EMS(이메일 기반 메시지 서비스), 또는 MMS 메시징(멀티미디어 메시징 서비스), CDMA(코드 분할 다중 접속), TDMA(시분할 다중 접속), PDC(퍼스털 디지털 셀룰러), WCDMA(광대역 코드 분할 다중 접속), CDMA2000, 또는 GPRS(일반 패킷 무선 서비스)와 같은 다양한 모드 또는 프로토콜 하에 통신을 제공할 수 있다. 이러한 통신은 예를 들어, 무선 주파수를 사용하는 트랜스시버(3868)를 통해 발생할 수 있다. 게다가, Bluetooth®, Wi-Fi™, 또는 다른 이러한 트랜스시버(제시되지 않음)를 사용하는 것과 같은 단거리 통신이 발생할 수 있다. 게다가, GPS(범지구 위치결정 시스템) 수신기 모듈(3870)은 모바일 컴퓨팅 디바이스(3850)에 추가 탐색- 및 위치-관련 무선 데이터를 제공할 수 있으며, 이는 모바일 컴퓨팅 디바이스(3850)에서 실행하는 애플리캐이션에 의해 적절하게 사용될 수 있다.

모바일 컴퓨팅 디바이스(3850)는 또한 사용자로부터 음성 정보를 수신하고 이를 사용가능한 디지털 정보로 변환할 수 있는 오디오 코덱(3860)을 사용하여 가청가능하게 통신할 수 있다. 오디오 코덱(3860)은 마찬가지로 예를 들어, 모바일 컴퓨팅 디바이스(3850)의 핸드셋에서 스피커를 통해서와 같이 사용자를 위한 가청 사운드를 생성할 수 있다. 이러한 사운드는 음성 전화 통화의 사운드를 포함할 수 있고, 녹음된 사운드(예를 들어, 음성 메시지, 음악 파일 등)를 포함할 수 있고 또한 모바일 컴퓨팅 디바이스(3850)에서 작동하는 애플리케이션에 의해 생성된 사운드를 포함할 수 있다.

모바일 컴퓨팅 디바이스(3850)는 도면에 제시된 바와 같이, 다수의 상이한 형태로 구현될 수 있다. 예를 들어, 셀룰러 전화(3880)로 구현될 수 있다. 또한 스마트폰(3882), 개인 정보 단말기, 또는 다른 유사한 모바일 장치의 일부로 구현될 수 있다.

예시적인 시스템의 특정 구성요소를 포함한 추가의 비제한적인 개략도가 도 20에 제공된다.

여기에 기재된 시스템 및 기술의 다양한 구현은 디지털 전자 회로, 집적 회로, 특별하게 설계된 ASIC(특정 용도용 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이의 조합으로 실현될 수 있다. 이러한 다양한 구현은 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령어를 수신하고, 이에 데이터 및 명령어를 전송하기 위해 연결된 특수용 또는 범용일 수 있는 적어도 하나의 프로그램가능한 프로세서를 포함하는 프로그램가능한 시스템에서 실행가능하고/하거나 해석가능한 하나 이상의 컴퓨터 프로그램에서의 구현을 포함할 수 있다.

이러한 컴퓨터 프로그램(또한 프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드로도 알려짐)은 프로그램가능한 프로세서를 위한 기계 명령어를 포함하고, 고급 절차 및/또는 객체 지향형 프로그래밍 언어, 및/또는 어셈블리/기계 언어에서 구현될 수 있다. 기계-판독가능 매체 및 컴퓨터-판독가능 매체는 기계-판독가능 신호로서 기계 명령어를 수신하는 기계-판독가능 매체를 포함하여, 프로그램가능한 프로세서에 기계 명령어 및/또는 데이터를 제공하는 데 사용되는 컴퓨터 프로그램 제품, 기구 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램가능 논리 장치(PLD))를 지칭할 수 있다. 기계-판독가능 신호는 프로그램가능한 프로세서에 기계 명령어 및/또는 데이터를 제공하는 데 사용되는 신호를 지칭할 수 있다.

특정 구현예에서, 컴퓨터 프로그램은 하나 이상의 기계 학습 모듈을 포함한다. 기계 학습 모듈은 하나 이상의 특정 기계 학습 알고리즘을 구현하는 컴퓨터 구현된 프로세스(예를 들어, 기능)를 지칭할 수 있다. 기계 학습 모듈은 예를 들어, 하나 이상의 인공 신경망을 포함할 수 있다. 특정 구현예에서, 2 개 이상의 기계 학습 모듈은 단일 모듈 및/또는 단일 소프트웨어 애플리케이션으로서 조합 및 구현될 수 있다.　 특정 구현예에서, 2 개 이상의 기계 학습 모듈은 또한 별개로, 예를 들어, 별개 소프트웨어 애플리케이션으로 구현될 수 있다.　 기계 학습 모듈은 소프트웨어 및/또는 하드웨어일 수 있다.　 예를 들어, 기계 학습 모듈은 전체적으로 소프트웨어로서 구현될 수 있거나, 또는 기계 학습 모듈의 특정 기능은 특화된 하드웨어를 통해(예를 들어, 특정 용도용 집적 회로(ASIC)를 통해) 수행될 수 있다.

사용자와의 상호작용을 제공하기 위해, 여기에 기재된 시스템 및 기술은 사용자에게 정보를 표시하기 위한 디스플레이 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터) 및 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙볼)가 있는 컴퓨터에서 구현될 수 있다. 또한 다른 종류의 장치를 사용하여 사용자와의 상호작용을 제공할 수 있으며; 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 감각 피드백(예를 들어, 시각적 피드백, 청각적 피드백, 또는 촉각적 피드백)일 수 있고; 사용자로부터의 입력은 음향, 음성, 또는 촉각 입력을 포함한 임의의 형태로 수신될 수 있다.

여기에 기재된 시스템 및 기술은 백 엔드 구성요소(예를 들어, 데이터 서버)를 포함하거나, 또는 미들웨어 구성요소(예를 들어, 애플리케이션 서버)를 포함하거나, 또는 프론트 엔드 구성요소(예를 들어, 사용자가 여기에 기재된 시스템 및 기술의 구현과 상호작용할 수 있는 것을 통해 그래픽 사용자 인터페이스 또는 웹 브라우저가 있는 클라이언트 컴퓨터), 또는 이러한 백 엔드, 미들웨어, 또는 프론트 엔드 구성요소의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 구성요소는 디지털 데이터 통신의 임의의 형태 또는 매체(예를 들어, 통신망)에 의해 상호연결될 수 있다. 통신망의 예는 근거리망(LAN), 광역망(WAN), 및 인터넷을 포함한다.

컴퓨팅 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고 전형적으로 통신망을 통해 상호작용한다. 클라이언트 및 서버의 관계는 각각의 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램에 의해 발생한다.

다양한 구현예의 블록 흐름도

도 39는 아미노산 서열을 병원체에 대한 요법의 개발에서 후보 항원으로서 식별하는 예시적인 방법의 블록 흐름도(3900)이다. 단계 중 일부 또는 전부는 컴퓨팅 디바이스의 프로세서(예를 들어, 소프트웨어 명령어 실행)에 의해 전체적으로 또는 부분적으로 수행될 수 있다.

단계 3910에서, 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열이 수득(액세스)된다. 서열은 공개 또는 비공개 서열 데이터베이스, 및/또는 새로운 서열분석 판독으로부터 비롯된다. 복수의 서열은 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하도록 병합된 콘티그를 포함할 수 있다.

단계 3920에서, 코딩 서열은 게놈 서열로부터 식별된다. 단계 3930에서, 코딩 서열은 퍼센트 동일성 및 퍼센트 적용범위에 따라 범주화된다. 예를 들어, 질의 코딩 서열 세트 각각이 대상 서열 세트에 대해 비교되는 경우, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도가 비교되며, 여기서 유사성 척도 각각은 (i) 질의 서열과 대상 서열 사이의 퍼센트 동일성 및 (ii) 질의 서열과 대상 서열 사이의 퍼센트 적용범위의 함수이다, 특정 구현예에서, (i) 및 (ii)를 둘 다 수반하는 임계치가 적용된다. 일부 경우에, 돌연변이의 절대(상대에 반대) 수는 "퍼센트 동일성"과 동등한 것으로 간주된다. 질의 서열 세트는 대상 서열 세트와 동일할 수 있거나, 또는 상이한 세트 또는 부분적으로 중첩 세트일 수 있다. 유사성 척도의 매트릭스는 그래픽으로 제공될 수 있다. 예를 들어, 유사성 측정의 히트맵은 그래픽으로 표시될 수 있으며, 예를 들어, 여기서 x 및 y 축은 서열을 나타내고 주어진 x-y 위치에서 강도 및 색상은 상응하는 2 개 서열 사이의 유사성 측정을 나타낸다.

단계 3940에서, 코딩 서열은 아미노산 서열로 변환되고, 단계 3950에서, 아미노산 서열은 정렬된다. 특정 구현예에서, 아미노산 서열은 정렬된 코딩 서열의 딘트(dint)에 의해 정렬된다. 특정 구현예에서, 코딩 서열은 유사성 척도가 컴퓨팅된 후 아미노산 서열로 변환되고, 다른 구현예에서, 코딩 서열은 유사성 척도가 컴퓨팅되기 전에 아미노산 서열로 변환된다(예를 들어, 유사성 척도가 대상 아미노산 서열 세트에 대한 질의 아미노산 서열 세트 각각에 대해 컴퓨팅되는 경우).

단계 3960에서, 아미노산 서열의 정렬된 부분은 단계 3910에서 액세스된 복수의 게놈 서열에 의해 나타낸 병원체의 상이한 균주 중에서 서열 부분의 보존 수준에 따라 분류된다. 고도로 보존되고, 따라서, 단계 3910에서 액세스된 복수의 게놈 서열에 의해 나타낸 병원체의 다양한 균주에 공통인 이러한 서열 부분이 특히 관심사다.

단계 3970에서, 고도로 보존된 것으로서 식별된 각각의 아미노산 서열 부분은 인간 단백질 서열과 동일한지 여부를 결정하기 위해 확인된다. 인간 단백질 서열과 동일한 임의의 고도로 보존된 서열은 독성 문제로 인해 후보 항원으로서 제거된다. 다른 기준이 또한 병원체에 대한 요법의 개발에서 하나 이상의 최종 후보 항원, 예를 들어, 펩티드 신호의 존재, 단백질 주석(또는 이의 존재/부재), 특정 도메인 구조, 및/또는 서열에서 막관통 도메인의 존재를 식별하는 데 적용될 수 있으며, 후자는 후보 항원이 병원체의 막 및/또는 세포 벽 내에 분비되거나 또는 노출되어, 이에 의해 병원체에 대한 치료제로서 잠재적인 가치를 향상시키는 단백질에 상응한지 여부를 나타낼 수 있다. 방법은 추가로 후보 항원을 포함하는 폴리펩티드를 동물에게 투여하는 단계를 포함할 수 있다. 또한, 요법이 백신인 경우, 방법은 면역원성에 대해 후보 항원을 비-임상적으로 평가하는 단계를 포함할 수 있다.

도 40은 병원체를 나타내는 코딩 서열의 하나 이상의 보존된 부분을 식별하는 예시적인 방법의 블록 흐름도(4000)이다. 단계 중 일부 또는 전부는 컴퓨팅 디바이스의 프로세서(예를 들어, 소프트웨어 명령어 실행)에 의해 전체적으로 또는 부분적으로 수행될 수 있다.

단계 4010에서, 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열이 데이터 구조로부터 수득(액세스)된다. 서열은 공개 또는 비공개 서열 데이터베이스, 및/또는 새로운 서열분석 판독으로부터 비롯된다. 복수의 서열은 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하도록 병합된 콘티그를 포함할 수 있다.

단계 4020에서, 코딩 서열은 게놈 서열로부터 식별된다. 단계 4030에서, 코딩 서열은 퍼센트 동일성 및 퍼센트 적용범위에 따라 범주화된다. 예를 들어, 질의 코딩 서열 세트 각각이 대상 서열 세트에 대해 비교되는 경우, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도가 컴퓨팅되며, 여기서 유사성 척도 각각은 (i) 질의 서열과 대상 서열 사이의 퍼센트 동일성 및 (ii) 질의 서열과 대상 서열 사이의 퍼센트 적용범위의 함수이다, 특정 구현예에서, (i) 및 (ii)를 둘 다 수반하는 임계치가 적용된다. 일부 경우에, 돌연변이의 절대(상대에 반대) 수는 "퍼센트 동일성"과 동등한 것으로 간주된다. 질의 서열 세트는 대상 서열 세트와 동일할 수 있거나, 또는 이들은 상이한 세트 또는 부분적으로 중첩 세트일 수 있다. 유사성 척도의 매트릭스는 그래픽으로 제공될 수 있다. 예를 들어, 유사성 측정의 히트맵은 그래픽으로 표시될 수 있으며, 예를 들어, 여기서 x 및 y 축은 서열을 나타내고 주어진 x-y 위치에서 강도 또는 색상은 상응하는 2 개 서열 사이의 유사성 측정을 나타낸다.

단계 4040에서, 코딩 서열은 아미노산 서열로 변환된다. 특정 구현예에서, 코딩 서열은 퍼센트 동일성 및 퍼센트 적용범위에 따라 범주화된 후 아미노산 서열로 변환된다. 다른 구현예에서, 코딩 서열은 퍼센트 동일성 및 퍼센트 적용범위에 따라 범주화되기 전에 아미노산 서열로 변환된다(예를 들어, 유사성 척도가 대상 아미노산 서열 세트에 대한 질의 아미노산 서열 세트 각각에 대해 컴퓨팅되는 경우).

단계 4050에서, 아미노산 서열의 부분은 단계 4010에서 액세스된 복수의 게놈 서열에 의해 나타낸 병원체의 상이한 균주 중에서 서열 부분의 보존 수준에 따라 분류된다. 고도로 보존되고, 따라서, 단계 4010에서 액세스된 복수의 게놈 서열에 의해 나타낸 병원체의 다양한 균주에 공통인 이러한 서열 부분이 특히 관심사다.

도 41은 단리된 병원체가 순환 균주를 나타내는지 여부를 식별하는 예시적인 방법의 블록 흐름도(4100)이다. 단계 중 일부 또는 전부는 컴퓨팅 디바이스의 프로세서(예를 들어, 소프트웨어 명령어 실행)에 의해 전체적으로 또는 부분적으로 수행될 수 있다.

단계 4110에서, 병원체의 순환 균주의 복수의 완전 또는 부분적 게놈 서열이 수득(액세스)된다. 서열은 공개 또는 비공개 서열 데이터베이스, 및/또는 새로운 서열분석 판독으로부터 비롯된다. 복수의 서열은 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하도록 병합된 콘티그를 포함할 수 있다.

단계 4120에서, 순환 균주 서열의 하나 이상의 보존된(예를 들어, 고도로 보존된) 부분이 식별된다. 특정 구현예에서, 순환 균주의 서열은 퍼센트 동일성 및 퍼센트 적용범위에 따라 범주화된다. 예를 들어, 질의 코딩 서열 세트 각각이 대상 서열 세트에 대해 비교되는 경우("질의" 및 "대상" 서열 둘 다가 병원체의 순환 균주의 것인 경우), 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도가 컴퓨팅되며, 여기서 유사성 척도 각각은 (i) 질의 서열과 대상 서열 사이의 퍼센트 동일성 및 (ii) 질의 서열과 대상 서열 사이의 퍼센트 적용범위의 함수이다, 특정 구현예에서, (i) 및 (ii)를 둘 다 수반하는 임계치가 적용된다. 일부 경우에, 돌연변이의 절대(상대에 반대) 수는 "퍼센트 동일성"과 동등한 것으로 간주된다. 질의 서열 세트는 대상 서열 세트와 동일할 수 있거나, 또는 이들은 상이한 세트 또는 부분적으로 중첩 세트일 수 있다. 유사성 척도의 매트릭스는 그래픽으로 제공될 수 있다. 예를 들어, 유사성 측정의 히트맵은 그래픽으로 표시될 수 있으며, 예를 들어, 여기서 x 및 y 축은 서열을 나타내고 주어진 x-y 위치에서 강도 또는 색상은 상응하는 2 개 서열 사이의 유사성 측정을 나타낸다.

단계 4130에서, 단리된 병원체의 복수의 완전 또는 부분적 게놈 서열이 수득(액세스)된다. 예를 들어, 단리된 병원체의 서열은 새로운 서열분석 판독(예를 들어, 감염을 앓고 있는 환자로부터 수득된 생물학적 샘플의 고처리량 서열분석 판독)으로부터 비롯될 수 있다. 특정 구현예에서 이러한 서열은 어떤 부분이 보존되고 단리된 병원체를 적절하게 나타내는지 식별하기 위해 상기과 같이 분석될 수 있다.

단계 4140에서, 단리된 병원체(또는 이의 부분)의 하나 이상의 서열은 단계 4120에서 식별된 순환 균주 서열의 하나 이상의 보존된(예를 들어, 고도로 보존된) 부분에 대해 비교되어, 이에 의해 단리 병원체가 순환 균주를 나타내는지(예를 들어, 이의 발병률에 공통인지) 여부를 식별한다.

도 42는 예시적 구현예에 따른, 아미노산 서열을 후보 항생제 내성 마커로서(예를 들어, 병원성 박테리아에 대한 요법의 개발에서) 식별하는 예시적인 방법의 블록 흐름도이다. 단계 중 일부 또는 전부는 컴퓨팅 디바이스의 프로세서(예를 들어, 소프트웨어 명령어 실행)에 의해 전체적으로 또는 부분적으로 수행될 수 있다.

단계 4210에서, 병원성 박테리아의 복수의 완전 또는 부분적 게놈 서열이 데이터 구조로부터 수득(액세스)된다. 서열은 공개 또는 비공개 서열 데이터베이스, 및/또는 새로운 서열분석 판독으로부터 비롯된다. 복수의 서열은 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하도록 병합된 콘티그를 포함할 수 있다.

단계 4220에서, 코딩 서열은 플라스미드 서열로부터 식별된다. 단계계 4230에서, 코딩 서열은 퍼센트 동일성 및 퍼센트 적용범위에 따라 범주화된다. 예를 들어, 질의 코딩 서열 세트 각각이 대상 서열 세트에 대해 비교되는 경우, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도가 컴퓨팅되며, 여기서 유사성 척도 각각은 (i) 질의 서열과 대상 서열 사이의 퍼센트 동일성 및 (ii) 질의 서열과 대상 서열 사이의 퍼센트 적용범위의 함수이다, 특정 구현예에서, (i) 및 (ii)를 둘 다 수반하는 임계치가 적용된다. 일부 경우에, 돌연변이의 절대(상대에 반대) 수는 "퍼센트 동일성"과 동등한 것으로 간주된다. 질의 서열 세트는 대상 서열 세트와 동일할 수 있거나, 또는 이들은 상이한 세트 또는 부분적으로 중첩 세트일 수 있다. 유사성 척도의 매트릭스는 그래픽으로 제공될 수 있다. 예를 들어, 유사성 측정의 히트맵은 그래픽으로 표시될 수 있으며, 예를 들어, 여기서 x 및 y 축은 서열을 나타내고 주어진 x-y 위치에서 강도 또는 색상은 상응하는 2 개 서열 사이의 유사성 측정을 나타낸다.

단계 4240에서, 코딩 서열은 아미노산 서열로 변환되고, 단계 4250에서, 아미노산 서열은 정렬된다. 특정 구현예에서, 아미노산 서열은 정렬된 코딩 서열의 딘트에 의해 정렬된다. 특정 구현예에서, 코딩 서열은 유사성 척도가 컴퓨팅된 후 아미노산 서열로 변환되고, 다른 구현예에서, 코딩 서열은 유사성 척도가 컴퓨팅되기 전에 아미노산 서열로 변환된다(예를 들어, 유사성 척도가 대상 아미노산 서열 세트에 대한 질의 아미노산 서열 세트 각각에 대해 컴퓨팅된 경우).

단계 4260에서, 아미노산 서열의 정렬된 부분은 단계 4210에서 액세스된 복수의 플라스미드 서열 중에서 서열 부분의 보존 수준에 따라 분류된다. 고도로 보존되고, 따라서, 단계 4210에서 액세스된 복수의 게놈 서열에 의해 나타낸 병원체의 플라스미드에 공통인 이러한 서열 부분이 특히 관심사다.

단계 4270에서, 보존된(예를 들어, 고도로 보존된) 것으로 식별된 하나 이상의 서열 부분은 후보 항생제 내성 마커로서 선택된다. 다른 기준이 또한 후보 항생제 내성 마커, 예를 들어, 펩티드 신호의 존재, 단백질 주석(또는 이의 존재/부재), 특정 도메인 구조, 및/또는 서열에서 막관통 도메인의 존재를 식별하는 데 적용될 수 있다. 방법은 후보 항생제 내성 마커를 포함하는 폴리펩티드를 동물에게 투여하는 단계를 추가로 포함할 수 있다. 또한, 요법이 백신인 경우, 방법은 면역원성에 대해 폴리펩티드를 비-임상적으로 평가하는 단계를 포함할 수 있다.

도 43은 예시적 구현예에 따른, 플라스미드를 나타내는 코딩 서열의 하나 이상의 보존된 부분을 식별하는 예시적인 방법의 블록 흐름도(4300)이다. 단계 중 일부 또는 전부는 컴퓨팅 디바이스의 프로세서(예를 들어, 소프트웨어 명령어 실행)에 의해 전체적으로 또는 부분적으로 수행될 수 있다.

단계 4310에서, 병원성 박테리아의 복수의 완전 또는 부분적 플라스미드 서열이 데이터 구조로부터 수득(액세스)된다. 서열은 공개 또는 비공개 서열 데이터베이스, 및/또는 새로운 서열분석 판독으로부터 비롯된다. 복수의 서열은 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하도록 병합된 콘티그를 포함할 수 있다.

단계 4320에서, 코딩 서열은 플라스미드 서열로부터 식별된다. 단계 4330에서, 코딩 서열은 퍼센트 동일성 및 퍼센트 적용범위에 따라 범주화된다. 예를 들어, 질의 코딩 서열 세트 각각이 대상 서열 세트에 대해 비교되는 경우, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도가 컴퓨팅되며, 여기서 유사성 척도 각각은 (i) 질의 서열과 대상 서열 사이의 퍼센트 동일성 및 (ii) 질의 서열과 대상 서열 사이의 퍼센트 적용범위의 함수이다, 특정 구현예에서, (i) 및 (ii)를 둘 다 수반하는 임계치가 적용된다. 일부 경우에, 돌연변이의 절대(상대에 반대) 수는 "퍼센트 동일성"과 동등한 것으로 간주된다. 질의 서열 세트는 대상 서열 세트와 동일할 수 있거나, 또는 이들은 상이한 세트 또는 부분적으로 중첩 세트일 수 있다. 유사성 척도의 매트릭스는 그래픽으로 제공될 수 있다. 예를 들어, 유사성 측정의 히트맵은 그래픽으로 표시될 수 있으며, 예를 들어, 여기서 x 및 y 축은 서열을 나타내고 주어진 x-y 위치에서 강도 또는 색상은 상응하는 2 개 서열 사이의 유사성 측정을 나타낸다.

단계 4340에서, 코딩 서열은 아미노산 서열로 변환된다. 특정 구현예에서, 코딩 서열은 퍼센트 동일성 및 퍼센트 적용범위에 따라 범주화된 후 아미노산 서열로 변환된다. 다른 구현예에서, 코딩 서열은 퍼센트 동일성 및 퍼센트 적용범위에 따라 범주화되기 전에 아미노산 서열로 변환된다(예를 들어, 유사성 척도가 대상 아미노산 서열 세트에 대한 질의 아미노산 서열 세트 각각에 대해 컴퓨팅된 경우).

단계 4350에서, 아미노산 서열의 부분은 단계 4310에서 액세스된 복수의 플라스미드 서열 중에서 서열 부분의 보존 수준에 따라 분류된다. 고도로 보존되고, 따라서, 단계 4310에서 액세스된 복수의 게놈 서열에 의해 나타낸 병원체의 플라스미드에 공통인 이러한 서열 부분이 특히 관심사다.

도 44는 병원체를 나타내는 펩티드의 질량 대 전하 비를 식별하는, 예를 들어, 이러한 병원체를 나타내는 펩티드에 대한 질량 분석 표적을 식별하는 예시적인 방법의 블록 흐름도이다. 단계 중 일부 또는 전부는 컴퓨팅 디바이스의 프로세서(예를 들어, 소프트웨어 명령어 실행)에 의해 전체적으로 또는 부분적으로 수행될 수 있다.

단계 4410에서, 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열이 수득(액세스)된다. 서열은 공개 또는 비공개 서열 데이터베이스, 및/또는 새로운 서열분석 판독으로부터 비롯된다. 복수의 서열은 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하도록 병합된 콘티그를 포함할 수 있다.

단계 4420에서, 코딩 서열은 게놈 서열로부터 식별되고, 단계 4430에서, 코딩 서열은 아미노산 서열로 변환된다. 단계 4440에서, 아미노산 서열의 하나 이상의 보존된 부분이 식별된다. 예를 들어, 서열은 퍼센트 동일성 및 퍼센트 적용범위에 따라 범주화될 수 있다. 예를 들어, 질의 서열 세트 각각이 대상 서열 세트에 대해 비교되는 경우, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도가 컴퓨팅되며, 여기서 유사성 척도 각각은 (i) 질의 서열과 대상 서열 사이의 퍼센트 동일성 및 (ii) 질의 서열과 대상 서열 사이의 퍼센트 적용범위의 함수이다, 특정 구현예에서, (i) 및 (ii)를 둘 다 수반하는 임계치가 적용된다. 일부 경우에, 돌연변이의 절대(상대에 반대) 수는 "퍼센트 동일성"과 동등한 것으로 간주된다. 질의 서열 세트는 대상 서열 세트와 동일할 수 있거나, 또는 이들은 상이한 세트 또는 부분적으로 중첩 세트일 수 있다. 특정 구현예에서, 코딩 서열은 유사성 척도가 컴퓨팅된 후 아미노산 서열로 변환되고, 다른 구현예에서, 코딩 서열은 유사성 척도가 컴퓨팅되기 전에 아미노산 서열로 변환된다(예를 들어, 유사성 척도가 대상 아미노산 서열 세트에 대한 질의 아미노산 서열 세트 각각에 대해 컴퓨팅된 경우). 유사성 척도의 매트릭스는 그래픽으로 제공될 수 있다. 예를 들어, 유사성 측정의 히트맵은 그래픽으로 표시될 수 있으며, 예를 들어, 여기서 x 및 y 축은 서열을 나타내고 주어진 x-y 위치에서 강도 또는 색상은 상응하는 2 개 서열 사이의 유사성 측정을 나타낸다.

단계 4450에서, 보존된 것으로 식별된 서열 부분 중 하나 이상의 질량 대 전하 비가 결정된다. 이는 예를 들어, 상응하는 병원체를 나타내는 펩티드에 대한 질량 분석 표적을 식별하는 데 유용하여, 질량 분석에 의해 식별될 수 있도록 한다.

도 45는 아미노산 서열을 병원체에 대한 요법의 개발에서 후보 항원으로 식별하는 예시적인 방법의 블록 흐름도이다. 단계 중 일부 또는 전부는 컴퓨팅 디바이스의 프로세서(예를 들어, 소프트웨어 명령어 실행)에 의해 전체적으로 또는 부분적으로 수행될 수 있다.

단계 4510에서, 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열이 수득(액세스)된다. 서열은 공개 또는 비공개 서열 데이터베이스, 및/또는 새로운 서열분석 판독으로부터 비롯된다. 복수의 서열은 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하도록 병합된 콘티그를 포함할 수 있다.

단계 4520에서, 코딩 서열은 게놈 서열로부터 식별된다. 단계 4530에서, 코딩 서열은 퍼센트 동일성 및 퍼센트 적용범위에 따라 범주화된다. 예를 들어, 질의 코딩 서열 세트 각각이 대상 서열 세트에 대해 비교되는 경우, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도가 컴퓨팅되며, 여기서 유사성 척도 각각은 (i) 질의 서열과 대상 서열 사이의 퍼센트 동일성 및 (ii) 질의 서열과 대상 서열 사이의 퍼센트 적용범위의 함수이다, 특정 구현예에서, (i) 및 (ii)를 둘 다 수반하는 임계치가 적용된다. 일부 경우에, 돌연변이의 절대(상대에 반대) 수는 "퍼센트 동일성"과 동등한 것으로 간주된다. 질의 서열 세트는 대상 서열 세트와 동일할 수 있거나, 또는 이들은 상이한 세트 또는 부분적으로 중첩 세트일 수 있다. 유사성 척도의 매트릭스는 그래픽으로 제공될 수 있다. 예를 들어, 유사성 측정의 히트맵은 그래픽으로 표시될 수 있으며, 예를 들어, 여기서 x 및 y 축은 서열을 나타내고 주어진 x-y 위치에서 강도 또는 색상은 상응하는 2 개 서열 사이의 유사성 측정을 나타낸다.

단계 4540에서, 코딩 서열은 아미노산 서열로 변환된다. 특정 구현예에서, 코딩 서열은 유사성 척도가 컴퓨팅된 후 아미노산 서열로 변환되고, 다른 구현예에서, 코딩 서열은 유사성 척도가 컴퓨팅되기 전에 아미노산 서열로 변환된다(예를 들어, 유사성 척도가 대상 아미노산 서열 세트에 대한 질의 아미노산 서열 세트 각각에 대해 컴퓨팅되는 경우).

단계 4550에서, 아미노산 서열의 부분은 단계 4510에서 액세스된 복수의 게놈 서열에 의해 나타낸 병원체의 상이한 균주 중에서 서열 부분의 보존 수준에 따라 분류된다. 고도로 보존되고, 따라서, 단계 4510에서 액세스된 복수의 게놈 서열에 의해 나타낸 병원체의 다양한 균주에 공통인 이러한 서열 부분이 특히 관심사다.

단계 4560에서, 고도로 보존된 것으로 식별된 각각의 아미노산 서열 부분은 인간 단백질 서열과 동일한지 여부를 결정하기 위해 확인된다. 인간 단백질 서열과 동일한 임의의 고도로 보존된 서열은 독성 문제로 인해 후보 항원으로서 제거된다. 다른 기준이 또한 병원체에 대한 요법의 개발에서 하나 이상의 최종 후보 항원, 예를 들어, 펩티드 신호의 존재, 단백질 주석(또는 이의 존재/부재), 특정 도메인 구조, 및/또는 서열에서 막관통 도메인의 존재를 식별하는 데 적용될 수 있으며, 후자는 후보 항원이 병원체의 막 및/또는 세포 벽 내에 분비되거나 또는 노출되어, 이에 의해 병원체에 대한 치료제로서 잠재적인 가치를 향상시키는 단백질에 상응한지 여부를 나타낼 수 있다. 방법은 후보 항원을 포함하는 폴리펩티드를 동물에게 투여하는 단계를 추가로 포함할 수 있다. 또한, 요법이 백신인 경우, 방법은 면역원성에 대해 후보 항원을 비-임상적으로 평가하는 단계를 포함할 수 있다.

도 46은 예시적 구현예에 따른, 아미노산 서열을 후보 항생제 내성 마커로서 식별하는 예시적인 방법의 블록 흐름도(4600)이다. 단계 중 일부 또는 전부는 컴퓨팅 디바이스의 프로세서(예를 들어, 소프트웨어 명령어 실행)에 의해 전체적으로 또는 부분적으로 수행될 수 있다.

단계 4610에서, 병원성 박테리아의 복수의 완전 또는 부분적 게놈 서열이 데이터 구조로부터 수득(액세스)된다. 서열은 공개 또는 비공개 서열 데이터베이스, 및/또는 새로운 서열분석 판독으로부터 비롯된다. 복수의 서열은 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하도록 병합된 콘티그를 포함할 수 있다.

단계 4620에서, 코딩 서열은 플라스미드 서열로부터 식별된다. 단계 4630에서, 코딩 서열은 퍼센트 동일성 및 퍼센트 적용범위에 따라 범주화된다. 예를 들어, 질의 코딩 서열 세트 각각이 대상 서열 세트에 대해 비교되는 경우, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도가 컴퓨팅되며, 여기서 유사성 척도 각각은 (i) 질의 서열과 대상 서열 사이의 퍼센트 동일성 및 (ii) 질의 서열과 대상 서열 사이의 퍼센트 적용범위의 함수이다, 특정 구현예에서, (i) 및 (ii)를 둘 다 수반하는 임계치가 적용된다. 일부 경우에, 돌연변이의 절대(상대에 반대) 수는 "퍼센트 동일성"과 동등한 것으로 간주된다. 질의 서열 세트는 대상 서열 세트와 동일할 수 있거나, 또는 이들은 상이한 세트 또는 부분적으로 중첩 세트일 수 있다. 유사성 척도의 매트릭스는 그래픽으로 제공될 수 있다. 예를 들어, 유사성 측정의 히트맵은 그래픽으로 표시될 수 있으며, 예를 들어, 여기서 x 및 y 축은 서열을 나타내고 주어진 x-y 위치에서 강도 또는 색상은 상응하는 2 개 서열 사이의 유사성 측정을 나타낸다.

단계 4640에서, 코딩 서열은 아미노산 서열로 변환된다. 특정 구현예에서, 코딩 서열은 유사성 척도가 컴퓨팅된 후 아미노산 서열로 변환되고, 다른 구현예에서, 코딩 서열은 유사성 척도가 컴퓨팅되기 전에 아미노산 서열로 변환된다(예를 들어, 유사성 척도가 대상 아미노산 서열 세트에 대한 질의 아미노산 서열 세트 각각에 대해 컴퓨팅되는 경우).

단계 4650에서, 아미노산 서열의 부분은 단계 4610에서 액세스된 복수의 플라스미드 서열 중에서 서열 부분의 보존 수준에 따라 분류된다. 고도로 보존되고, 따라서, 단계 4610에서 액세스된 복수의 게놈 서열에 의해 나타낸 병원체의 플라스미드에 공통인 이러한 서열 부분이 특히 관심사다.

단계 4660에서, 보존된(예를 들어, 고도로 보존된) 것으로 식별된 하나 이상의 서열 부분은 후보 항생제 내성 마커로서 선택된다. 다른 기준이 또한 후보 항생제 내성 마커, 예를 들어, 펩티드 신호의 존재, 단백질 주석(또는 이의 존재/부재), 특정 도메인 구조, 및/또는 서열에서 막관통 도메인의 존재를 식별하는 데 적용될 수 있다. 방법은 후보 항생제 내성 마커를 포함하는 폴리펩티드를 동물에게 투여하는 단계를 추가로 포함할 수 있다. 또한, 요법이 백신인 경우, 방법은 면역원성에 대한 폴리펩티드를 비-임상적으로 평가하는 단계를 포함할 수 있다.

본원에 기재된 상이한 구현의 요소를 조합하여 상기 구체적으로 제시되지 않은 다른 구현을 형성할 수 있다. 요소는 작동에 부정적인 영향을 미치지 않으면서 본원에 기재된 방법, 프로세스, 컴퓨터 프로그램, 데이터베이스 등에서 제외될 수 있다. 다양한 별개의 요소가 하나 이상의 개별 요소에 조합되어 본원에 기재된 기능을 수행할 수 있다.

청구된 발명의 시스템, 아키텍처, 장치, 방법, 및 프로세스는 본원에 기재된 구현예로부터의 정보를 사용하여 개발된 변이 및 적응을 포함하는 것으로 고려된다. 본원에 기재된 시스템, 아키텍처, 장치, 방법, 및 프로세스의 적응 및/또는 변형은 이 설명에 의해 고려되는 바와 같이 수행될 수 있다.

설명 전반에 걸쳐, 물품, 장치, 시스템, 및 아키텍처가 특정 구성요소를 갖거나, 함유하거나, 또는 포함하는 것으로 기재되는 경우, 또는 프로세스 및 방법이 특정 단계를 갖거나, 함유하거나, 또는 포함하는 것으로 기재된 경우, 추가로, 인용된 구성요소로 본질적으로 이루어지거나, 또는 이로 이루어지는 본 발명의 물품, 장치, 시스템, 및 아키텍처가 있고, 인용된 처리 단계로 본질적으로 이루어지거나, 또는 이로 이루어지는 본 발명에 따른 프로세스 및 방법이 있는 것으로 고려된다.

단계의 순서 또는 특정 조치를 수행하기 위한 순서는 발명이 작동가능하게 유지되는 한 중요하지 않음이 이해되어야 한다. 더욱이, 2 개 이상의 단계 또는 조치는 동시에 수행될 수 있다.

예를 들어, 배경 섹션에서 임의의 간행물에 대한 본원의 언급은 간행물이 본원에 제시된 청구범위 중 임의의 것과 관련하여 선행 기술로서 역할을 한다는 것을 인정하는 것은 아니다. 배경 섹션은 명료성의 목적을 위해 제시되고 임의의 청구범위와 관련하여 선행 기술의 설명을 의미하지 않는다.

머리말은 독자의 편의성을 위해 제공되며, 머리말의 존재 및/또는 배치는 본원에 기재된 주제의 범위를 제한하는 것으로 의도되지 않는다.

적용

입력 서열 내의 잔기 사이, 중, 및/또는 하위집합을 특성화하는 본 개시내용의 방법 및 시스템은 다양한 분석적 및 치료적 적용에 유용하다. 서열 보존을 특성화하는 방법 및 시스템의 다양한 용도가 본원에 제공된다. 예를 들면, 본원에 개시된 방법 및 시스템은 예를 들어, 서열 보존 특성에 기반하여 특성화되지 않은 서열의 치료적 관련성을 식별하는 데 사용될 수 있다. 본원에 개시된 방법 및 시스템에 대한 유요성의 비제한적인 예가 제공된다.

항-항원 항체의 선택을 위한 항원의 식별

병원체 종과 같은 특정 종의 예 중에서, 코딩 서열을 포함한 게놈 및 플라스미드 핵산 서열은 달라질 수 있다. 많은 경우에, 특정 종의 구성원으로부터 유래된 핵산 서열의 가변성은 공개적으로 이용가능한 게놈 서열 및/또는 다른 게놈 서열, 이러한 비-공개적 서열분석 데이터의 분석에 의해 밝혀질 수 있다. 공개적으로 접근가능한 데이터베이스에만 기탁된 서열의 수가 지속적으로 증가함에 따라, 증가하고 있는 이질적인 서열 정보량의 성공적인 분석은 점점 더 어려워지고 있다. 본 개시내용의 방법 및 시스템은 입력 서열의 보존 특성을 분석하는 체계적인 방법을 제공함으로써 이 어려움을 해결한다.

병원체 게놈의 보존된 서열은 항-병원체 치료제의 생산에 사용하기 위한 항원의 공급원으로서 병원체 게놈의 비-보존된 서열보다 더 선호될 수 있다. 항원의 식별 및/또는 특성화는 에피토프의 식별 및/또는 특성화일 수 있거나 또는 포함한다. 항원은 에피토프일 수 있거나 또는 포함하며, 항원의 식별에 유용한 것으로서 본원에 개시된 하나 이상의 특성은 에피토프의 식별에 대해 동일하게 유용하다. 적어도 하나의 이유는 관련 병원체 집단 내에서 상대적으로 보존된 서열에 결합하거나 또는 달리 이와 상호작용하는 치료 항체 또는 다른 약물 분자가 필연적으로 병원체 종의 광범위한 구성원에 걸쳐 있으며, 따라서 이로부터 고통받는 환자에서 치료적 이익을 가질 가능성이 더 높을 것이기 때문이다. 따라서, 관련 병원체 집단에서 보존된 본 개시내용의 방법 및 시스템에 의해 식별된 서열은 치료 항체의 개발을 위한 후보 항원 또는 소분자 약물과 같은 다른 치료 양식을 위한 표적으로서 식별된다. 치료 항원에 대한 항체의 개발을 위한 특정 방법은 당업계에 알려져 있고, 단지 하나의 예를 제공하기 위해 항체-생성 유기체를 관심 항원으로 면역화하는 것을 포함할 수 있다.

다양한 구현예에서, 보존된 것으로 식별된 서열은 이차적인 고려사항에 의해 치료적으로 관련된 표적을 식별하기 위해 추가로 좁혀질 수 있다. 하나의 이차적인 고려사항은 식별된 후보 치료 표적이 알려진 인간 서열과 동일한지 여부이다. 식별된 서열이 알려진 인간 서열과 동일한지 여부는 공개적으로 이용가능한 데이터베이스 및 검색 도구를 사용하여 결정될 수 있다. 현재 개시된 방법 및 시스템의 다양한 구현예는 알려진 인간 서열과 동일한 후보 치료 표적의 후보 치료 표적 중에서 (예를 들어, 후보 항원의 목록으로부터) 제거를 포함한다. 알려진 인간 서열과 동일한 서열을 제거하기 위한 적어도 하나의 이유는 이러한 서열을 표적하는 약물(예를 들어, 항체)의 개발이 비-표적 인간 세포 및/또는 단백질과 임상적으로 해롭거나 또는 달리 바람직하지 않은 상호작용을 표시할 수 있기 때문이다.

이차적인 고려사항의 추가 예는 단백질 주석, 기능, 및/또는 단백질 도메인의 존재 또는 부재를 포함한다. 단백질 도메인의 예는 신호 서열, 분비를 유발하거나 또는 이와 연관된 것으로 알려진 도메인, 세포 막 단백질의 특징적인 도메인, 세포 막 또는 세포 벽에서 서열의 세포외 노출을 나타내는 특성, 또는 다른 구조적 특징을 포함한다. 서열의 세포외 노출은 치료제와 서열의 상호작용을 용이하게 하고, 따라서 치료 표적에서 바람직할 수 있는 특성이다.

특정 구현예에서, 상기 정보, 예를 들어, 본원에 제시된 방법을 통한 후보 항원의 식별은 병원체-유발 질환의 치료를 위한 하나 이상의 조성물의 개발(또는 하나 이상의 신규 및/또는 기존 조성물의 식별)에 사용된다. 특정 구현예에서, 다중 약물 조성물(예를 들어, 약물 칵테일)을 수반하는 요법이 식별 및/또는 개발된다. 예를 들어, 본원에 제시된 방법을 사용하여 COVID-19와 같은 병원체-유발 질환의 치료를 위한 약물(예를 들어, 약물 칵테일)에서 사용될 수 있는 최상의 하나 이상의 병원체-중화 항체를 선택할 수 있다. 일부 구현예에서, 약물은 질환에 대한 치료가 아니라, 예를 들어, 백신이 개발될 때까지 감염과 싸우기 위해 인체(예를 들어, 면역 저하 또는 달리 취약한 개인)의 능력을 향상시키기 위한 예를 들어 대유행병에서 사용하기 위한 임시 방편이다. 일부 구현예에서, 약물은 병원체(예를 들어, SARS-CoV2와 같은 바이러스)의 기능을 방해하여 바이러스에 의해 인체에 유발되는 손상을 방지 또는 감소시켜, 예를 들어, 이에 의해 환자가 산소 호흡기 및/또는 다른 호흡기 장치를 사용할 필요성을 감소시킨다. 일부 구현예에서, 약물은 특정 개인 또는 개인의 그룹에 대한 개인맞춤형 치료이다. 특정 구현예에서, 마우스 또는 다른 동물은 병원체-유발 질환의 치료를 위한 조성물의 제조를 위해 사용될 수 있으며, 여기서 본원에 제시된 컴퓨터-구현된 방법을 통해 생성된 정보가 이러한 제조에 사용된다. 예를 들어, 마우스 또는 다른 동물은 하나 이상의 환자에게 제조 및 투여될 수 있는 인간 항체를 생성하기 위해 바이러스(또는 이의 부분)를 주사받을 수 있다. 특정 구현예에서, 바이러스 또는 다른 병원체 서열의 식별로부터 본원에 제시된 방법을 사용한 규모로 제조될 수 있는 항체의 생산까지 진행하는 것이 가능하다.

특정 구현예에서, 본원에 제시된 방법은 단백질을 암호화하는 핵산의 코딩 서열, 단백질을 암호화하는 핵산 서열의 보존된 서열, 단백질을 암호호하는 핵산의 비-보존된 서열(변이를 특징으로 하는 서열), 특정 단백질 내의 보존된 도메인, 및/또는 특정 단백질 내의 비-보존된 도메인(변이를 특징으로 하는 섹션)을 평가하는 데 사용되며, 예를 들어, 여기서 상기 단백질은 병원체와 연관된다. 그런 다음 이러한 평가는 병원체에 의해 유발된 질환을 치료, 예방, 또는 개선하기 위한 항체, 진입 억제제, 백신, 및/또는 다른 치료제의 개발에 사용된다. 예를 들어, 특정 구현예에서, 본원에 제시된 방법을 사용하여 인간 또는 박쥐 안지오텐신-변환 효소 2(ACE2) 수용체와 같은 SARS-CoV2 숙주 세포 상의 수용체에 결합하는 SARS-CoV2 스파이크(S) 단백질 또는 이의 수용체-결합 도메인(RBD)을 평가하여, 숙주 세포, 또는 이를 암호화하는 핵산 서열의 감염을 용이하게 한다. 따라서, 예를 들어, 본 명세서는 SARS-CoV2 바이러스에 의해 유발된 질환, 즉, COVID-19를 치료, 예방, 또는 개선하기 위한 항체, 진입 억제제, 백신, 및/또는 다른 치료제의 개발에 유용한 서열을 식별하기 위해 SARS-CoV2 스파이크(S) 단백질 또는 이의 RBD의 분석을 위해 본원에 제공된 컴퓨터-구현된 방법의 사용을 포함한다.

특정 구현예에서, 본원에 제시된 방법은 SARS-CoV2 스파이크(S) 단백질 또는 이의 수용체-결합 도메인(RBD)을 암호화하는 핵산의 코딩 서열, SARS-CoV2 스파이크(S) 단백질 또는 이의 RBD를 암호화하는 핵산 서열의 보존된 서열, SARS-CoV2 스파이크(S) 단백질 또는 이의 RBD를 암호화하는 핵산의 비-보존된 도메인(변이를 특징으로 하는 서열), 특정 SARS-CoV2 스파이크(S) 단백질 또는 이의 RBD의 보존된 도메인, 및/또는 SARS-CoV2 스파이크(S) 단백질 또는 이의 RBD의 비-보존된 도메인(변이를 특징으로 하는 섹션)을 평가하는 데 사용된다. 특정 구현예에서, 본원에 제시된 방법은 코로나바이러스 스파이크 단백질(예를 들어, MERS 또는 SARS-CoV 스파이크 단백질) 또는 이의 RBD를 암호화하는 핵산의 코딩 서열, 코로나바이러스 스파이크 단백질(예를 들어, MERS 또는 SARS-CoV 스파이크 단백질) 또는 이의 RBD를 암호화하는 핵산 서열의 보존된 서열, 코로나바이러스 스파이크 단백질(예를 들어, MERS 또는 SARS-CoV 스파이크 단백질) 또는 이의 RBD를 암호화하는 핵산의 비-보존된 서열(변이를 특징으로 하는 서열), 특정 코로나바이러스 스파이크 단백질(예를 들어, MERS 또는 SARS-CoV 스파이크 단백질) 또는 이의 RBD의 보존된 도메인, 및/또는 코로나바이러스 스파이크 단백질(예를 들어, MERS 또는 SARS-CoV 스파이크 단백질) 또는 이의 RBD의 비-보존된 도메인(변이를 특징으로 하는 섹션)을 평가하는 데 사용된다.

후보 백신 항원의 식별

백신은 병원체(백신 항원)에 대한 항체의 수용자 생산을 자극하기 위해 투여되는 비-병원성 물질을 포함한다. 백신 항원은 병원체에 의해 제시된 펩티드일 수 있다. 백신 효능은 백신 항원에 반응하여 수용자에 의해 생성된 항체가 수용자가 나중에 감염되는 경우 병원체에 결합할 수 있어야 함을 필요로 한다. 병원체의 균주는 상이할 수 있기 때문에, 백신은 백신 항원이 보존된 서열을 갖거나 또는 이에 의해 암호화되는 경우 병원체 균주의 가장 넓은 범위에 대하여 면역을 제공한다. 항-항원 항체의 선택을 위한 항원의 식별과 관련하여 본원에 개시된 바와 같이, 본 개시내용의 방법 및 시스템은 보존된 병원체 서열을 식별하는 데 사용될 수 있다. 따라서, 본 개시내용의 방법 및 시스템을 사용하여 식별되는 보존된 병원체 서열은 백신 항원 및/또는 후보 백신 항원으로서 활용될 수 있다. 후보 백신 항원은 면역화 및 감염의 임상적으로 적절한 모델에서 검증될 수 있고 예를 들어, 안전성 및 효능에 대해 임상 시험에서 추가로 검증될 수 있다.

대표적인 샘플의 식별

다양한 병원체의 많은 균주가 임상 샘플에 알려져 있거나 또는 존재할 가능성이 있지만, 연구는 종종 실질적 및/또는 역사적 이유로 인해 하나 또는 몇몇 균주에 초점을 맞춘다. 그러나, 치료제 개발에서, 병원체의 임상 샘플, 바람직하게는 많거나 또는 대부분의 임상 샘플을 나타내는 연구 균주의 사용은 광범위한 임상 효능을 갖는 치료제의 발견을 용이하게 한다. 본 개시내용은 하나 이상의 연구 균주의 서열과 다른 균주로부터의 다양한 서열 컬렉션(예를 들어, 다양한 임상 단리물)을 비교하여 하나 이상의 연구 균주의 게놈 보존을 다른 것과 비교하여 특성화 는 데 사용될 수 있는 방법 및 시스템을 제공한다. 연구 균주의 서열 보존은 분석된 연구 균주, 또는 연구 균주 서열이 비교된 균주의 모든 또는 상당한 수를 나타냄을 표시한다. 따라서, 본 개시내용의 방법 및 시스템에 따른 분석에서 보존을 입증하는 연구 균주, 또는 연구 균주 서열은 임상적으로 관련된 연구에 적합하다. 대조적으로, 본 개시내용의 방법 및 시스템에 따른 분석에서 보존을 입증하지 않는 연구 균주, 또는 연구 균주 서열은 임상적으로 관련된 연구에 대한 최적이 아닐 수 있다.

항생제 내성 마커의 식별

증가하는 임상 문제의 대상인 병원성 박테리아의 항생제 내성. 예를 들면, 내성 감염은 사망률을 초래할 가능성이 훨씬 더 높다. 박테리아는 다음 2 가지 주요 경로를 통해 항생제에 대한 내성을 획득한다: 염색체 돌연변이 및 수평적 유전자 전달에 의한 플라스미드와 같은 이동성 유전적 요소의 획득. 플라스미드는 염색체와 독립적으로 복제하는 여분의 게놈 원형 DNA 분자이며 접합에 의해 박테리아 사이에서 수평적으로 이동할 수 있다. 따라서, 플라스미드는 많은 병원체에서 항생제 내성의 전파에 중요한 역할을 한다.

본원에 제공된 방법 및 시스템은 병원성 박테리아의 항체 내성(항체 내성 마커)을 나타내고/내거나 야기하는 유전적 및/또는 아미노산 서열을 식별하는 데 적용될 수 있다. 본원에 제공된 방법 및 시스템은 보존된 서열을 식별하기 위해 플라스미드 서열에 적용될 수 있다. 따라서 플라스미드의 보존된 서열은 후보 항생제 내성 마커로서 식별된다. 더욱이, 플라스미드의 보존된 서열은 플라스미드-부여된 항생제 내성을 파괴하거나 또는 중화하는 치료제의 개발을 위한 후보 표적이다.

질량 분석을 위한 펩티드 발견 리소스의 생성

질량 분석은 정확하게 측정된 질량 대 전하 비에 기반하여 분석된 물질을 식별한다. 펩티드 질량 대 전하 비는 펩티드 서열에 의존한다. 적어도 부분적으로 질량 대 전하 비는 복잡하기 때문에, 질량 분석 분석법은 검출된 질량 대 전하 비를 예상된 질량 대 전하 비 컬렉션에 대해 비교함으로써 펩티드를 식별할 수 있다. 결과적으로, 질량 분석은 예상되지 않은 서열을 식별하지 못할 수 있다. 특정 종의 유기체, 예를 들어, 임상적으로 관련된 병원체 단리물은 게놈 및 프로테옴에서 달라지기 때문에, 다양한 샘플의 분석은 예상되지 않은 펩티드를 식별하지 못하는 능력에 의해 방해받을 수 있다.

본 개시내용의 방법 및 시스템은 관심 종, 예를 들어 임상적으로 관련된 병원체를 나타내는 다양한 게놈의 보존 특성을 분석함으로써 질량 분석을 위한 펩티드 발견 리소스를 제공할 수 있다. 예를 들면, 본 개시내용의 방법 및 시스템에 따른 분석은 질의 질량 분석 데이터에 사용되는 예상된 질량 대 전하 비의 컬렉션을 개정하는 데 사용될 수 있는 서열 다양성 영역을 식별할 수 있다. 따라서, 본 개시내용의 방법 및 시스템에 의해 식별된 다양한 서열의 혼입은 샘플에서 펩티드를 발견하기 위한 예를 들어, 임상적으로 관련된 병원체 펩티드를 발견하기 위한 질량 분석의 힘을 향상시킬 수 있다.

하나의 특정 예를 제공하기 위해, 주요 조직적합성 복합체 I 연관 단백질은 임상적 관련성이 있고, 데이터가 예상된 질량 대 전하 비의 적절한 컬렉션에 기반하여 분석된다면, 질량 분석에 의해 발견될 수 있다. 주요 조직적합성 복합체(인간에서 MHC 또는 HLA)는 모든 유핵 세포의 세포 표면 상에서 발현되고 후천적 면역계에서 T 세포에 항원 제시를 위한 기계로서 작용한다. 이들은 T 림프구(MHC 클래스 I의 경우 CD8⁺ 세포독성 T 림프구(CTL), 및 MHC 클래스 II의 경우 CD4⁺ 헬퍼 T 림프구)에 의한 검사를 위해 세포 표면 상에 처리된 자기 및 외래 단백질(항원)의 펩티드 단편을 표시하는 기능을 한다. 이 과정에서 수반되는 항원을 특성화하는 것은 예를 들어, 치료 항체의 개발을 위한 항원으로서 치료적으로 유용한 표적의 식별에 기여한다. 질량 분석은 MHC-제시 항원을 식별하는 데 사용될 수 있는 기술이다. 그러나, MHC-제시 항원은 질량 분석 분석법이 항원 제시를 검출하도록 설계되지 않은 경우 검출되지 않을 수 있다. 본원에 개시되는 방법 및 시스템은 표적 병원체의 MHC-제시 항원에 대한 질량 분석 데이터를 질의하기 위해 예상된 질량 대 전하 비의 포괄적인 컬렉션을 생성하는 데 사용될 수 있다.

게놈, 유전자, 및 단백질(예를 들어, 항원) 내에서 다양성 영역의 식별

본원에 개시된 바와 같이, 제공된 방법 및 시스템은 게놈, 유전자 및 단백질 내에서 다양성 영역을 식별하는 데 사용될 수 있다. 다양성 영역(다른 영역보다 덜 보존된 영역)은 보다 실질적인 실험실 조작, 예를 들어, 실험실-도입된 서열 변형을 처리할 수 있는 뉴클레오티드 또는 아미노산 위치를 나타낼 수 있다. 특정 생물학적 맥락에서, 서열 다양성의 특성은 예를 들어 면역글로불린의 가변 영역에서의 경우와 같이 생물학적 기능에 중요하다. 다양성 영역은 상대적으로 더 보존된 서열의 분석과 비교하여 동일하거나 또는 더 짧은 기간에 걸쳐 계통 발생 분석에 대한 더 많은 수의 서열 변이를 제공할 수 있으므로, 다양성은 또한 계통 발생 분석에 유용할 수 있는 영역을 나타낼 수 있다. 다양성은 또한 보존된 서열보다 더 최근에 진화 발달에 대한 대상인 서열을 나타낼 수 있다.

전염병-유발 병원체의 계통 발생 생성

본원에 개시된 방법 및 시스템은 계통 발생을 생성하는 데 사용될 수 있다. 계통 발생은 병원체, 예를 들어, 빠르게 진화하는 병원체의 서열 분석에 특이 유용하다. 계통 발생은 인간 면역결핍 바이러스(HIV), 중증 급성 호흡기 증후군(SARS)-연관 코로나바이러스의 기원 및 후속 진화(예를 들어, 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV); 코로나바이러스 질환(COVID-19)을 유발하는 바이러스인 중증 급성 호흡기 증후군 코로나바이러스　2(SARS-CoV2), 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV), 조류 인플루엔자의 진화하는 역학, 및 계절성 및 유행성 인간 인플루엔자 바이러스와 같은 병원체의 분자 역학 및 전파를 기재하는 데 사용될 수 있다. 계통 발생을 사용하여 결정될 수 있는 정보의 예는 신규 병원체 균주의 기원 또는 신규 종에서의 출현에 대한 실제 시간의 추정(신뢰 한계 포함), 병원체 재조합 및 재편성 이벤트, 병원체 전염병에서 집단 크기 변화 비율, 및 병원체가 특정 집단 및 지리적 지역 내에서 어떻게 퍼지고 진화하는지를 포함한다.

게놈 연구는 돌연변이 및 이동성 유전적 요소의 획득이 미생물 클론의 병리에 극적으로 영향을 미칠 수 있음을 확인하였다. 실제로, 약간의 유전적 변화조차도 숙주-병원체 상호작용, 뿐만 아니라 병원체의 항체 인식에 극적인 영향을 미칠 수 있다. 숙주 내에서 진화는 환자 뿐만 아니라, 병원에서 역학적 목적으로 균주에서 관련성을 구별하기 위한 임계치를 설정하는 데 연루된다. 미생물 유전적 다양성, 면역조절, 및 개별 균주에 의한 손상은 극적으로 달라질 수 있다. 따라서, 게놈 수준에서 숙주-병원체 상호작용의 다양성을 고려하기 위해 클론의 폭을 포획하는 프로그램은 미생물 병원체의 생물학에 대한 고유한 이해를 산출할 가능성이 있을 것이다. 그러한 이해는 감염을 예방하고 병원체 관리를 개선하기 위한 보다 효과적인 개인맞춤형 접근법의 개발을 촉진한다.

계통 발생으로부터 수득된 서열-유래 정보는 공공 건강 및 치료적 개입의 설계 및 구현을 도울 수 있다. 예를 들어, HBV에 적용되는 바와 같이, 본 개시내용의 방법 및 시스템은 HBV 계통이 속하는 특정 균주(예를 들어, 실험실 균주)를 결정하고/하거나, HBV 계통에 걸쳐 하나 이상의 HBV 유전자 또는 단백질(예를 들어, HBsAg)의 유전적 다양성을 결정하고/하거나, 자연에 존재하는 HBV 또는 HBV 유전자 또는 단백질(예를 들어, HBsAg)의 유전적 변이체의 수 및 폭을 결정하고/하거나, HBV 게놈 또는 이의 유전적 또는 암호화된 단백질 서열(예를 들어, HBsAg)의 어느 부분이 일반적으로 보존되는지 결정하는 데 사용될 수 있다. 또 다른 예에서, 본원에 개시된 방법 및 시스템은 특정 환자가 감염된 균주 및/또는 이러한 균주의 정의된 유전적 특성 및/또는 특정 환자가 감염된 균주의 항생제 내성 특성을 결정하는 데 사용될 수 있다. 또 다른 예에서, 본원에 개시된 방법 및 시스템은 병원체 게놈, 예를 들어, 에볼라 게놈의 유전적 다양성을 결정하고, 측정된 변이가 임상 파문을 갖는지를 결정하는 데 사용될 수 있다.

이종상동성 유전자의 식별

이종상동체는 공통 조상 DNA 서열로부터 전해지는 상이한 종의 상동 서열이다. 종 간의 비교 유전학은 이종상동체가 종 간에 기능적으로 관련되어 있는 것으로 생각된다는 점에 적어도 부분적으로 기반한다. 상세한 분석이 종종 이종상동체 식별의 정확성을 확립할 수 있지만, 게놈 정보의 벌크 분석은 이종상동체 식별에서 오류를 증가시켰다. 따라서, 주석이 잘못 달린 이종상동체로부터 실제를 구별하는 개선된 방법이 필요하다. 본원에 개시된 바와 같이, 본 개시내용의 방법 및 시스템은 서열 보존을 특성화하는 데 사용될 수 있다. 따라서, 본 개시내용의 방법 및 시스템은 이종상동체 식별의 정확성을 개선하고/하거나, 주석이 잘못 달린 기존 이종상동체를 식별하고 교정하는 데 사용될 수 있다. 본원에 개시된 방법 및 시스템에 따른 이종상동체의 식별은 신규 또는 특성화되지 않은 서열을 이전에 주석 달린 서열과 정렬하고 이전의 주석을 이종상동성 신규 또는 특성화되지 않은 서열에 적용함으로써 신규 또는 특성화되지 않는 서열에 주석을 다는 데 사용될 수 있다.

항체 요법의 선택, 추정 탈출 돌연변이의 식별, 및 개인맞춤형 의약품에 대한 에피토프 서열 변이 평가

다양한 구현예에서, 특정 유전자 또는 단백질, 또는 이의 일부에서 변이를 평가하는 데 유용하다. 예를 들어, 항체 요법의 맥락에서, 항원 및/또는 항체의 에피토프에서 변이를 평가함으로써 다수의 중요한 질문을 해결할 수 있다.

본 명세서의 다양한 구현예는 요법 및/또는 치료제를 포함한다. 다양한 구현예에서, 요법 및/또는 치료제는 작은 간섭 RNA(siRNA) 또는 짧은 헤어핀 RNA(shRNA)일 수 있거나 또는 포함한다. 다양한 구현예에서, 요법 및/또는 치료제는 항체일 수 있거나 또는 포함한다. 다양한 구현예에서, 요법 및/또는 치료제는 COVID-19를 치료하는 요법 및/또는 치료제일 수 있거나 또는 포함한다. COVID-19를 치료하는 예시적인 요법 및/또는 치료제는 렘데시비르, 칼레트라, 이버멕틴, 타미플루, 아비간, 콜크라이스, 덱사메타손, 클로로퀸, 하이드록시클로로퀸, 아지트로마이신, il-6 억제제(예를 들어, 토실리주맙 및 사릴루맙), 키나제 억제제(예를 들어, 아칼라브루티닙, 이브루티닙, 자누브루티닙, 바리시티닙, 룩솔리티닙, 및 토파시티닙), 인터페론, 회복기 혈장, SARS-CoV-2 스파이크 단백질에 결합하는 항체(항-SARS-CoV-2-스파이크 단백질 항체), mAb10933(Regeneron), mAb10934(Regeneron), mAb10987(Regeneron), mAb10989(Regeneron), REGN-COV2(Regeneron), LY-CoV555(Eli Lilly), LY-CoV016(Eli Lilly), 및/또는 BNT162b2(Pfizer)를 포함할 수 있다. 예시적인 항체는 예를 들어, 미국 특허 번호 제10,787,501호에 개시된 바와 같이 COVID-19 요법에 사용하기 위한 SARS-CoV-2의 스파이크 단백질에 결합하는 항체를 포함할 수 있으며, 상기 문헌은 특히 COVID-19 치료 항체 뿐만 아니라 이의 에피토프 및 다른 특성과 관련하여 그 전문이 본원에 참조로 포함된다. 예시적인 항-SARS-CoV-2-스파이크 단백질(SARS-CoV-2-S) 항체 및 항체 서열을 제공하는 미국 특허 번호 제10,787,501호의 표 1은 그 전체가 참조에 의해 구체적으로 포함된다. 또한 하기 표 3을 참조한다:

표 3

표 1의 항체는 이러한 항체의 CDR-H 및 CDR-L, V_H 및 V_L, 또는 HC 및 LC를 각각 포함하는 다중특이적 분자, 예를 들어, 항체 또는 항원-결합 단편을 포함한다(본원에 제시된 바와 같은 이의 변이체 포함).

구현예에서, 다중특이적 분자에 포함될 수 있는 CoV-S에 특이적으로 결합하는 항원-결합 도메인은 다음을 포함한다:

(1)

(i) 표 1에 제시된 CDR-H1, CDR-H2, 및 CDR-H3 아미노산 서열을 포함하는 중쇄 가변 도메인 서열, 및

(ii) 표 1에 제시된 CDR-L1, CDR-L2, 및 CDR-L3 아미노산 서열을 포함하는 경쇄 가변 도메인 서열;

또는,

(2)

(i) 표 1에 제시된 아미노산 서열을 포함하는 중쇄 가변 도메인 서열, 및

(ii) 표 1에 제시된 아미노산 서열을 포함하는 경쇄 가변 도메인 서열;

또는,

(3)

(i) 표 1에 제시된 아미노산 서열을 포함하는 중쇄 면역글로불린 서열, 및

(ii) 표 1에 제시된 아미노산 서열을 포함하는 경쇄 면역글로불린 서열.

다양한 구현예에서, 본 개시내용은 코로나바이러스 스파이크 단백질(CoV-S)에 특이적으로 결합하는 단리된 재조합 항체 또는 이의 항원-결합 단편을 제공하며, 여기서 항체는 다음 특성 중 하나 이상을 갖는다: (a) 약 10^-9 M 미만의 EC₅₀으로 CoV-S에 결합; (b) 코로나바이러스-감염된 동물에게 투여 후, 상기 투여 없이 필적할 만한 코로나바이러스-감염된 동물과 비교하여 상기 코로나바이러스-감염된 동물에서 생존 증가 입증; 및/또는 (c) 표 1의 HCVR과 적어도 약 90% 서열 동일성을 갖는 아미노산 서열을 포함하는 중쇄 가변 영역(HCVR) 내에 함유된 3 개의 중쇄 상보성 결정 영역(CDR)(CDR-H1, CDR-H2, 및 CDR-H3); 및 표 1의 LCVR과 적어도 약 90% 서열 동일성을 갖는 아미노산 서열을 포함하는 경쇄 가변 영역(LCVR) 내에 함유된 3 개의 경쇄 CDR(CDR-L1, CDR-L2, 및 CDR-L3) 포함.

다양한 구현예에서, 스파이크 단백질은 하기 서열(서열번호: 108)에 대해 적어도 80% 동일성(예를 들어, 적어도 80%, 90%, 95%, 96%, 97%, 98%, 99%, 또는 100% 동일성)을 갖는다:

일부 구현예에서, 본 개시내용은 서열번호: 108에 제시된 아미노산 서열을 포함하는 SARS-CoV-2 스파이크 단백질에 결합하는 단리된 항체 또는 이의 항원-결합 단편을 제공하며, 여기서 상기 단리된 항체 또는 항원-결합 단편은 서열번호: 29에 제시된 아미노산 서열을 포함하는 중쇄 가변 영역(HCVR) 내에 함유된 3 개의 중쇄 상보성 결정 영역(CDR)(HCDR1, HCDR2 및 HCDR3), 및 서열번호: 33에 제시된 아미노산 서열을 포함하는 경쇄 가변 영역(LCVR) 내에 함유된 3 개의 경쇄 상보성 결정 영역(CDR)(LCDR1, LCDR2 및 LCDR3)을 포함한다.

일부 구현예에서, HCDR1은 서열번호: 30에 제시된 아미노산 서열을 포함하고, HCDR2는 서열번호: 31에 제시된 아미노산 서열을 포함하고, HCDR3은 서열번호: 32에 제시된 아미노산 서열을 포함하고, LCDR1은 서열번호: 34에 제시된 아미노산 서열을 포함하고, LCDR2는 서열번호: 35에 제시된 아미노산 서열을 포함하고, LCDR3은 서열번호: 36에 제시된 아미노산 서열을 포함한다. 일부 구현예에서, 단리된 항체 또는 이의 항원-결합 단편은 서열번호: 29에 제시된 아미노산 서열을 포함하는 HCVR을 포함한다. 일부 구현예에서, 단리된 항체 또는 이의 항원-결합 단편은 서열번호: 33에 제시된 아미노산 서열을 포함하는 LCVR을 포함한다. 일부 구현예에서, 단리된 항체 또는 이의 항원-결합 단편은 서열번호: 29에 제시된 아미노산 서열을 포함하는 HCVR 및 서열번호: 33에 제시된 아미노산 서열을 포함하는 LCVR을 포함한다.

일부 구현예에서, 본 개시내용은 서열번호: 108에 제시된 아미노산 서열을 포함하는 SARS-CoV-2 스파이크 단백질에 결합하는 단리된 항체를 제공하며, 여기서 상기 단리된 항체는 면역글로불린 불변 영역, 서열번호: 29에 제시된 아미노산 서열을 포함하는 중쇄 가변 영역(HCVR) 내에 함유된 3 개의 중쇄 상보성 결정 영역(CDR)(HCDR1, HCDR2 및 HCDR3), 및 서열번호: 33에 제시된 아미노산 서열을 포함하는 경쇄 가변 영역(LCVR) 내에 함유된 3 개의 경쇄 상보성 결정 영역(CDR)(LCDR1, LCDR2 및 LCDR3)을 포함한다.

일부 구현예에서, HCDR1은 서열번호: 30에 제시된 아미노산 서열을 포함하고, HCDR2는 서열번호: 31에 제시된 아미노산 서열을 포함하고, HCDR3은 서열번호: 32에 제시된 아미노산 서열을 포함하고, LCDR1은 서열번호: 34에 제시된 아미노산 서열을 포함하고, LCDR2는 서열번호: 35에 제시된 아미노산 서열을 포함하고, LCDR3은 서열번호: 36에 제시된 아미노산 서열을 포함한다. 일부 구현예에서, 단리된 항체는 서열번호: 29에 제시된 아미노산 서열을 포함하는 HCVR 및 서열번호: 33에 제시된 아미노산 서열을 포함하는 LCVR를 포함한다. 일부 구현예에서, 단리된 항체는 서열번호: 37에 제시된 아미노산 서열을 포함하는 중쇄 및 서열번호: 38에 제시된 아미노산 서열을 포함하는 경쇄를 포함한다. 일부 경우에, 면역글로불린 불변 영역은 IgG1 불변 영역이다. 일부 경우에, 단리된 항체는 재조합 항체이다. 일부 경우에, 단리된 항체는 다중특이적이다.

일부 구현예에서, 본 개시내용은 상기 또는 본원에 논의된 바와 같은 단리된 항체, 및 약제학적으로 허용되는 담체 또는 희석제를 포함하는 약제학적 조성물을 제공한다.

일부 경우에, 항체 또는 이의 항원-결합 단편은 서열번호: 69에 제시된 아미노산 서열을 포함하는 HCVR 내에 함유된 3 개의 중쇄 CDR(HCDR1, HCDR2 및 HCDR3), 및 서열번호: 73에 제시된 아미노산 서열을 포함하는 LCVR 내에 함유된 3 개의 경쇄 CDR(LCDR1, LCDR2 및 LCDR3)을 포함한다. 일부 경우에, 항체 또는 이의 항원-결합 단편은 서열번호: 70에 제시된 아미노산 서열을 포함하는 HCDR1; 서열번호: 71에 제시된 아미노산 서열을 포함하는 HCDR2; 서열번호: 72에 제시된 아미노산 서열을 포함하는 HCDR3; 서열번호: 74에 제시된 아미노산 서열을 포함하는 LCDR1; 서열번호: 75에 제시된 아미노산 서열을 포함하는 LCDR2; 및 서열번호: 76에 제시된 아미노산 서열을 포함하는 LCDR3을 포함한다. 일부 경우에, 항체 또는 이의 항원-결합 단편은 서열번호: 69에 제시된 아미노산 서열을 포함하는 HCVR 및 서열번호: 73에 제시된 아미노산 서열을 포함하는 LCVR을 포함한다. 일부 경우에, 항체 또는 이의 항원-결합 단편은 서열번호: 77에 제시된 아미노산 서열을 포함하는 중쇄 및 서열번호: 78에 제시된 아미노산 서열을 포함하는 경쇄를 포함한다.

일부 구현예에서, 본 개시내용은 서열번호: 108에 제시된 아미노산 서열을 포함하는 SARS-CoV-2 스파이크 단백질에 결합하는 단리된 항체 또는 이의 항원-결합 단편을 제공하며, 여기서 상기 단리된 항체 또는 항원-결합 단편은 서열번호: 69에 제시된 아미노산 서열을 포함하는 중쇄 가변 영역(HCVR) 내에 함유된 3 개의 중쇄 상보성 결정 영역(CDR)(HCDR1, HCDR2 및 HCDR3), 및 서열번호: 73에 제시된 아미노산 서열을 포함하는 경쇄 가변 영역(LCVR) 내에 함유된 3 개의 경쇄 상보성 결정 영역(CDR)(LCDR1, LCDR2 및 LCDR3)을 포함한다.

일부 구현예에서, HCDR1은 서열번호: 70에 제시된 아미노산 서열을 포함하고, HCDR2는 서열번호: 71에 제시된 아미노산 서열을 포함하고, HCDR3은 서열번호: 72에 제시된 아미노산 서열을 포함하고, LCDR1은 서열번호: 74에 제시된 아미노산 서열을 포함하고, LCDR2는 서열번호: 75에 제시된 아미노산 서열을 포함하고, LCDR3은 서열번호: 76에 제시된 아미노산 서열을 포함한다. 일부 구현예에서, 단리된 항체 또는 이의 항원-결합 단편은 서열번호: 69에 제시된 아미노산 서열을 포함하는 HCVR을 포함한다. 일부 구현예에서, 단리된 항체 또는 이의 항원-결합 단편은 서열번호: 73에 제시된 아미노산 서열을 포함하는 LCVR을 포함한다. 일부 구현예에서, 단리된 항체 또는 이의 항원-결합 단편은 서열번호: 69에 제시된 아미노산 서열을 포함하는 HCVR 및 서열번호: 73에 제시된 아미노산 서열을 포함하는 LCVR을 포함한다.

일부 구현예에서, 본 개시내용은 서열번호: 108에 제시된 아미노산 서열을 포함하는 SARS-CoV-2 스파이크 단백질에 결합하는 단리된 항체를 제공하며, 여기서 상기 단리된 항체는 면역글로불린 불변 영역, 서열번호: 69에 제시된 아미노산 서열을 포함하는 중쇄 가변 영역(HCVR) 내에 함유된 3 개의 중쇄 상보성 결정 영역(CDR)(HCDR1, HCDR2 및 HCDR3), 및 서열번호: 73에 제시된 아미노산 서열을 포함하는 경쇄 가변 영역(LCVR) 내에 함유된 3 개의 경쇄 상보성 결정 영역(CDR)(LCDR1, LCDR2 및 LCDR3)을 포함한다.

일부 구현예에서, HCDR1은 서열번호: 70에 제시된 아미노산 서열을 포함하고, HCDR2는 서열번호: 71에 제시된 아미노산 서열을 포함하고, HCDR3은 서열번호: 72에 제시된 아미노산 서열을 포함하고, LCDR1은 서열번호: 74에 제시된 아미노산 서열을 포함하고, LCDR2는 서열번호: 75에 제시된 아미노산 서열을 포함하고, LCDR3은 서열번호: 76 에 제시된 아미노산 서열을 포함한다. 일부 구현예에서, 단리된 항체는 서열번호: 69에 제시된 아미노산 서열을 포함하는 HCVR 및 서열번호: 73에 제시된 아미노산 서열을 포함하는 LCVR을 포함한다. 일부 구현예에서, 단리된 항체는 서열번호: 77에 제시된 아미노산 서열을 포함하는 중쇄 및 서열번호: 78에 제시된 아미노산 서열을 포함하는 경쇄를 포함한다. 일부 경우에, 면역글로불린 불변 영역은 IgG1 불변 영역이다. 일부 경우에, 단리된 항체는 재조합 항체이다. 일부 경우에, 단리된 항체는 다중특이적이다.

일부 구현예에서, 약제학적 조성물은 제2 치료제를 추가로 포함한다. 일부 경우에, 제2 치료제는 서열번호: 108에 제시된 아미노산 서열을 포함하는 SARS-CoV-2 스파이크 단백질에 결합하는 제2 항체, 또는 이의 항원-결합 단편, 항염증제, 항말라리아제, 및 TMPRSS2에 결합하는 항체 또는 이의 항원-결합 단편으로 이루어진 군으로부터 선택된다.

관심 항체의 에피토프가 알려져 있는 특정 구현예에서, 에피토프의 아미노산에서 변이 빈도는 관심 항체에 의해 결합되거나 또는 결합될 것으로 예상되는 에피토프를 포함하는 대상체의 빈도를 결정하는 데 사용된다. 예를 들어, 임상 맥락에서, 항체의 표적 항원을 암호화하는 게놈은 대상체로부터 단리되고 단리된 게놈이 항체의 에피토프(예를 들어, 항체가 결합하거나 또는 결합할 것으로 예상되는 항원 서열) 또는 상이한 서열(예를 들어, 에피토프에 상응하지만 항체가 결합하거나 또는 결합할 것으로 예상되는 서열이 아닌 서열)을 암호화하는지 여부에 대해 분석될 수 있다. 다수의 별개의 에피토프가 비교되는 경우, 치료 집단에서 더 보존된 에피토프를 표적하는 항체는 일반적으로 치료 집단에서 덜 보존된 에피토프를 표적하는 항체보다 바람직할 수 있다.

치료 항체의 항원, 특히 에피토프에서 변이는 추정 탈출 변이체를 평가하기 위해 항체 요법을 받은 대상체에서 평가될 수 있다. 예를 들어, 항체 요법에 의한 치료적 개입은 개입에 덜 민감한 변이체(탈출 변이체)에 대한 선택적 압력을 초래한다. 탈출 변이체의 하나의 예는 병원체가 항체 요법을 사용한 치료에 덜 민감하게 하는 병원체 게놈 돌연변이에 대한 선택이다. 예를 들면, 병원체 게놈 돌연변이는 항체가 더 이상 그의 표적 항원에 결합하지 않도록 하는 치료 항체의 에피토프에서의 변화일 수 있다. 본 개시내용의 방법 및 시스템은 치료 후 대상체로부터 항체의 표적 항원을 암호화하는 게놈을 단리하고 항원 및/또는 에피토프의 아미노산 서열에서 변이에 대한 서열을 분석함으로써 항체 요법을 받은 대상체에서 추정 탈출 변이체 선택을 평가하는 데 사용될 수 있다. 항체가 결합할 수 있는 대상 서열(예를 들어, 참조 서열)과 비교하여 에피토프에서의 변이는 추정 탈출 변이체로서 식별될 수 있다.

항원 또는 에피토프에서 변이의 분석은 또한 특정 항체 요법을 받지 않은 대상체가 항체 요법에 반응할 가능성이 있는지 여부를 결정하는 데 사용될 수 있다. 항체 요법에 의해 결합되거나 또는 결합될 것으로 예상되는 서열과 일치하는 에피토프 서열을 암호화하는 게놈 서열(예를 들어, 병원체 게놈 서열)을 포함하는 대상체는 항체 요법에 반응할 가능성이 있는 대상체로서 분류될 수 있다. 역으로, 항체 요법에 의해 결합되거나 또는 결합될 것으로 예상되는 서열에 일치하지 않는 에피토프 서열에 상응하는 아미노산을 암호화하는 게놈 서열(예를 들어, 병원체 게놈 서열)을 갖는 대상체는 항체 요법에 반응할 가능성이 없는 대상체로서 분류될 수 있다. 따라서, 본 개시내용의 방법 및 시스템은 항체 요법에 반응할 가능성이 있는 대상체가 그 요법을 사용한 치료를 위해 선택되고 항체 요법에 반응할 가능성이 없는 개체가 그 요법을 사용한 치료를 위해 선택되지 않는 개인맞춤형 의료 적용에 사용될 수 있다.

적용을 위한 예시적 방법 및 시스템

본 개시내용으로부터 이해되는 바와 같이, 여기에 제공된 방법 및 시스템은 질의 서열, 대상 서열, 및/또는 질의 서열과 대상 서열 사이의 쌍별 비교의 분석을 변경함으로써 적어도 부분적으로 다양한 적용에 유용할 수 있다.

다양한 구현예에서, 본 개시내용의 방법 및 시스템은 질의 및 (질의와 상이한 경우) 대상 서열을 수득 및/또는 선택하는 단계; 질의 및 대상 서열로부터 코딩 서열을 추출하는 단계; 모든 질의 추출된 코딩 서열 및 모든 대상 추출된 코딩 서열을 쌍별 비교하여, 각각의 비교를 위한 하나 이상의 범주화 인자(예를 들어, 퍼센트 동일성, 퍼센트 적용범위, 적용범위 길이, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, E-값, 돌연변이의 수, 퍼센트 돌연변이, 및/또는 계통 발생(예를 들어, 계통 발생 그룹화 및/또는 계통 발생 관계))와 관련한 데이터를 생성하는 단계; 비교된 서열을 하나 이상의 범주화 인자에 대한 하나 이상의 임계값에 기반하여 하나 이상의 범주화된 서열 그룹으로 범주화하는 단계(예를 들어, 각각의 범주화된 서열 그룹에 유사성 점수가 할당된 경우); 추가 분석으로부터 하나 이상의 범주화된 서열 그룹을 필터링하고(예를 들어, 유사성 점수 임계치에 기반), 코딩 서열을 아미노산 서열로 번역하는 단계; 번역된 코딩 서열을 정렬하는 단계; 및 하나 이상의 대상 서열 각각에 대한 보존 및/또는 가변성을 결정하는 단계를 포함한다.

다양한 구현예에서, 본 개시내용의 방법 및 시스템은 질의 및 (질의와 상이한 경우) 대상 서열을 수득 및/또는 선택하는 단계; 질의 서열로부터 코딩 서열을 추출하는 단계; 모든 질의 추출된 코딩 서열 및 대상 서열 코딩 서열이 추출되지 않은 형태인 모든 대상 서열을 쌍별 비교하여, 각각의 비교를 위한 하나 이상의 범주화 인자(예를 들어, 퍼센트 동일성, 퍼센트 적용범위, 적용범위 길이, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, E-값, 돌연변이의 수, 퍼센트 돌연변이, 및/또는 계통 발생(예를 들어, 계통 발생 그룹화 및/또는 계통 발생 관계))와 관련한 데이터를 생성하는 단계; 비교된 서열을 하나 이상의 범주화 인자에 대한 하나 이상의 임계값에 기반하여 하나 이상의 범주화된 서열 그룹으로 범주화하는 단계(예를 들어, 각각의 범주화된 서열 그룹에 유사성 점수가 할당된 경우); 추가 분석으로부터 하나 이상의 범주화된 서열 그룹을 필터링하고(예를 들어, 유사성 점수 임계치에 기반), 코딩 서열을 아미노산 서열로 번역하는 단계; 번역된 코딩 서열을 정렬하는 단계; 및 하나 이상의 대상 서열 또는 이의 부분 각각에 대한 보존 및/또는 가변성을 결정하는 단계를 포함한다.

예시적인 개략도는 도 48에 제공된다.

다양한 구현예에서, 본 개시내용의 방법 및 시스템은 질의 및 (질의와 상이한 경우) 대상 서열을 수득 및/또는 선택하는 단계; 질의 및 대상 서열로부터 코딩 서열을 추출하는 단계; 코딩 서열을 아미노산 서열로 번역하는 단계; 모든 질의 번역된 코딩 서열 및 모든 대상 번역된 코딩 서열을 쌍별 비교하여, 각각의 비교를 위한 하나 이상의 범주화 인자(예를 들어, 퍼센트 동일성, 퍼센트 적용범위, 적용범위 길이, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, E-값, 돌연변이의 수, 퍼센트 돌연변이, 및/또는 계통 발생(예를 들어, 계통 발생 그룹화 및/또는 계통 발생 관계))와 관련한 데이터를 생성하는 단계; 비교된 서열을 하나 이상의 범주화 인자에 대한 하나 이상의 임계값에 기반하여 하나 이상의 범주화된 서열 그룹으로 범주화하는 단계(예를 들어, 각각의 범주화된 서열 그룹에 유사성 점수가 할당되는 경우); 추가 분석으로부터 하나 이상의 범주화된 서열 그룹을 필터링하는 단계(예를 들어, 유사성 점수 임계치에 기반); 및 각각의 대상 서열에 대한 보존 및/또는 가변성을 결정하는 단계를 포함한다.

다양한 구현예에서, 코딩 서열의 추출은 참조 게놈 서열의 주석에 기반한다. 참조 게놈 서열의 주석은 코딩 서열의 식별, 경계 표시, 또는 단리를 포함할 수 있다. 주석이 달린 참조 게놈 서열은 공개적으로 접근가능한 데이터베이스에서 이용가능하고/하거나 사용자에 의해 생성 또는 변형될 수 있다. 따라서, 대상 서열이 참조 게놈 서열인 다양한 구현예에서, 질의 코딩 서열의 식별 및/또는 추출은 예를 들어, 참조 게놈 서열에서 코딩 서열의 이용가능하거나 또는 사용자-정의된 주석에 기반할 수 있다. 다양한 구현예에서, 대상 및/또는 질의 게놈 서열의 코딩 서열은 대상 및/또는 질의 게놈 서열을 이의 주석이 달린 참조 게놈 서열 및/또는 코딩 서열에 정렬함으로써 식별 및/또는 추출될 수 있다.

다양한 구현예에서, 질의 및 대상 서열로부터 코딩 서열의 추출은 적어도 약 20, 30, 40, 50, 60, 70, 80, 90, 100, 125, 150, 175, 200, 250, 또는 300 개 또는 그 이상의 아미노산을 암호화하는 연속 프레임내 코돈의 검출에 기반한다.

다양한 구현예에서, 질의 및 대상 서열의 쌍별 비교는 BLAST 알고리즘에 기반한다. 뉴클레오티드 서열에 대한 BLASTN 및 아미노산 서열에 대한 BLASTP, 갭핑 BLAST, 및 PSI-BLAST를 포함한 BLAST 알고리즘은 당업계에 알려져 있다. BLAST 알고리즘은 서열을 정렬하고 제한 없이 퍼센트 동일성, 돌연변이의 수, 퍼센트 돌연변이, 적용범위 길이, 퍼센트 적용범위, 및 E-값을 제공하는 데이터를 포함하여 각각의 정렬에 대한 다양한 데이터를 생성한다.

비교된 서열은 표 2에 제시된 바와 같은 범주화 인자에 따라 범주화될 수 있다. 표 2는 퍼센트 적용범위 및 돌연변이의 수에 기반하여 범주화된 서열 그룹에 유사성 점수를 할당한다. 범주화된 서열 그룹의 형성 후, 특정 임계치 미만의 유사성 점수(예를 들어, 1 미만, 0.95 미만, 또는 0.8 미만의 유사성 점수)를 갖는 범주화된 서열 그룹이 추가 분석으로부터 필터링될 수 있다.

코딩 서열(예를 들어, 코딩 서열의 나머지 범주화된 그룹)은 관련 유전자 코드(예를 들어, 인간 유전자 코드)를 적용함으로써 아미노산 서열로 번역될 수 있다. 번역된 코딩 서열이 정렬될 수 있다. 상기 언급된 바와 같이, 정렬은 BLAST 알고리즘을 사용하여 성취될 수 있다. 그런 다음 서열의 보존 및/또는 가변성이 결정될 수 있다. 본 개시내용의 방법 및 시스템에 제시된 다양한 분석은 아미노산 서열의 정렬 후 필터링 또는 선택을 필요로 하지 않는다. 추가 선택이 부재한 정렬은 가치있는 정보를 제공한다. 예를 들면, 다양한 구현예에서, 아미노산 서열의 정렬은 정렬된 위치에서 보존(예를 들어, 하나 이상의 정렬된 위치 각각에서 참조와 동일한 아미노산을 포함하는 정렬된 서열의 퍼센트) 및 정렬된 위치에서 서열 변이(예를 들어, 각각의 정렬된 위치에서 발생할 수 있는 상이한 아미노산의 수 및 빈도)와 같은 정보를 제공한다. 아미노산 정렬 후 특정 구현예에서 서열이 선택된 정도까지, 예를 들어, 아미노산 서열의 정렬에 의해 생성된 정보에 적용된 기준에 따라 사용자에 의해 선택될 수 있다. 따라서, 다양한 구현예에서, 필터는 아미노산 서열에 적용되지 않으며, 예를 들어, 임계값은 아미노산 서열 또는 이의 일부의 선택에 사용되지 않는다. 일부 구현예에서, 보존 또는 가변 서열은 본원에 개시된 바와 같은 임계치에 기반하여 선택될 수 있다.

보존 및/또는 가변성이 평가되는 다양한 구현예에서, 질의는 제1 서열 컬렉션이고 대상은 제2 상이한 서열 컬렉션이다. 다양한 구현예에서, 질의는 제1 서열 컬렉션이고 대상은 동일한 서열 컬렉션이다. 보존 및/또는 가변성이 평가되는 다양한 구현예에서, 질의는 제1 서열 컬렉션이고 대상은 단일 서열(예를 들어, 관심 서열)이다.

특정 구현예에서, 보존 및/또는 가변성은 쌍별 비교와 관련하여 평가될 수 있으며 여기서 질의는 특정 종(예를 들어, 특정 병원체)의 복수의 유기체로부터의 제1 서열 컬렉션이고 대상은 동일한 서열 컬렉션이다. 다양한 이러한 구현예는 특정 종의 보존된 서열 및/또는 특정 종의 가변 서열을 결정하는 데 사용될 수 있는 쌍별 비교로부터 데이터를 생성할 수 있다. 보존된 서열은 예를 들어, 항체 또는 백신 개발에서 항원 또는 에피토프를 선택 또는 사용할 수 있다. 보존된 서열은 예를 들어, 인간 대상체에서 병원체의 양성 선택, 예를 들어 항생제 내성에 대한 진화적 생존 선택 압력 및/또는 선택 하의 특성일 수 있다. 가변 서열은 예를 들어, 실험실 조작(예를 들어, 유전적 조작)을 위한 표적으로 선택되고/되거나, 계통 발생 분석을 위한 표적으로 선택되고/되거나, 진화적 다양화가 진행되는 서열로 식별될 수 있다. 서열에서의 변이는 또한 예를 들어, 질량 분석 분석법을 위한 가능한 질량을 생성하는 데 사용될 수 있는 가능한 서열(예를 들어, 가능한 아미노산 서열)의 목록 또는 데이터베이스를 생성하는 데 사용될 수 있다.

특정 구현예에서, 보존 및/또는 가변성은 쌍별 비교와 관련하여 평가될 수 있으며 여기서 질의는 특정 종(예를 들어, 특정 병원체)의 복수의 유기체로부터의 서열 컬렉션이고 대상은 특정 균주 또는 유기체로부터의 하나 이상의 서열을 포함한다. 다양한 구현예에서, 질의는 상이한 샘플로부터의 복수의 유기체(예를 들어, 병원체의 복수의 임상 단리물)의 서열을 포함한다. 다양한 구현예에서, 대상은 실험실 균주이다. 특정 구현예에서, 대상 서열과 질의 서열 사이의 측정된 보존 및/또는 가변성은 대상 균주 또는 유기체가 질의 서열을 얼마나 나타내는지를 결정하는 데 사용될 수 있다. 다양한 구현예에서, 대상 균주가 질의 서열을 나타내는지 여부의 결정은 유기체 수준에서 결정되고/되거나 모든 정렬된 서열의 평가에 의해 결정된다. 다양한 구현예에서, 유기체 수준에서 결정은 계통 발생 분석에 기반할 수 있다. 예를 들어, 계통 발생 분석은 클러스터에서 하나 이상의 관심 서열을 식별하고 모든 클러스터의 크기를 결정할 수 있다.

서열에서의 변이는 또한 예를 들어, 질량 분석 분석법을 위해 가능한 질량의 목록 또는 데이터베이스를 생성하는 데 사용될 수 있는 가능한 서열(예를 들어, 가능한 아미노산 서열)의 목록 또는 데이터베이스를 생성하는 데 사용될 수 있다.

하나의 특정 예를 제공하기 위해, 본 개시내용의 방법 및 시스템은 SARS-CoV-2와 같은 바이러스의 서열이 분석되는 다양한 구현예에서 사용될 수 있다. 다양한 구현예에서, SARS-CoV-2 서열의 분석에 본 개시내용의 방법 및 시스템의 적용은 GenBank 수탁 번호 MN908947로 공개적으로 이용가능한 알려진 SARS-CoV-2 참조 게놈 서열과 같은 하나 이상의 참조 SARS-CoV-2 서열을 대상으로서 포함할 수 있다. 일부 구현예에서 대상체는 아미노산 서열을 암호화하는 SARS-CoV-2 참조 게놈 서열의 일부(예를 들어, GenBank 수탁: MN908947의 일부), 예를 들어, SARS-CoV-2 스파이크 단백질 또는 이의 일부(예를 들어, SARS-CoV-2 스파이크 수용체-결합 도메인(RBD))일 수 있거나 또는 포함한다. 다양한 구현예에서, 질의 서열(들)은 복수의 SARS-CoV-2 게놈 서열 또는 이로부터 추출된 코딩 서열일 수 있다. 예를 들어, 적어도 약 120,000 개의 SARS-CoV-2 게놈 서열은 모든 인플루엔자 데이터 공유에 대한 글로벌 구상(GISAID) 데이터베이스(https://www.gisaid.org/)를 통해 이용가능하다. 대체 또는 추가 질의 서열은 감염된 대상체로부터 유래될 수 있다. 코딩 서열은 예를 들어, 도 26에 제시된 일반 개략도에 따라 SARS-CoV-2 게놈 서열로부터 추출될 수 있다. 모든 질의 추출된 코딩 서열 및 모든 대상 추출된 코딩 서열의 쌍별 비교는 도 27에서 발견된 일반 개략도에 예시된 바와 같이 수행될 수 있다. 질의 및 대상 SARS-CoV-2 서열의 쌍별 비교는 각각의 비교를 위한 퍼센트 동일성, 퍼센트 적용범위, 적용범위 길이, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, E-값, 돌연변이의 수, 퍼센트 돌연변이, 및 계통 발생(예를 들어, 계통 발생 그룹화 및/또는 계통 발생 관계를 포함한 범주화 인자와 관련한 데이터를 생성한다. 이러한 데이터는 다양한 추가 분석을 허용한다. 생성된 서열 비교 데이터를 포함한 요약 표는 예를 들어, 범주화 인자의 하위집합을 나타내는 도 28의 표에서 발견된 일반 레이아웃에 의해 예시된 바와 같이 제조될 수 있다. 더욱이, 참조 SARS-CoV-2에 대한 질의 SARS-CoV-2 서열의 각각의 비교는 하나 이상의 범주화 인자에 대한 하나 이상의 임계값에 기반하여 하나 이상의 범주화된 서열 그룹으로 범주화될 수 있다. 일부 구현예에서, 하나 이상의 범주화 인자에 대한 하나 이상의 임계값은 예를 들어, 표 2에 예시된 바와 같은 유사성 점수의 할당에 의해 단일 미터법으로 통합될 수 있다. 일부 구현예에서, 하나 이상의 범주화 인자에 대한(또는 2 개 이상의 이러한 임계치에 기반하여 결정된 유사성 점수에 대한) 임계치는 SARS-CoV-2 서열 비교 결과를 범주로 범주화하는 데 사용될 수 있으며, 여기서 하나 이상의 범주는 참조 서열 또는 이의 부분과 더 유사한 질의 서열을 포함하고 하나 이상의 상이한 범주는 참조 서열 또는 이의 부분과 덜 유사한 질의 서열을 포함한다. 따라서, 다양한 구현예에서, 참조 서열과 더 유사한 서열은 참조 서열 또는 이의 부분과 관련하여 추가 분석을 위해 보유될 수 있고 참조 서열 또는 이의 부분과 덜 유사한 서열은 추가 분석으로부터 제외될 수 있다. 참조 서열 또는 이의 부분과 더 유사한 서열이 질의 게놈 서열에서 발견되는 경우, 해당 참조 서열 또는 이의 부분은 예를 들어, 도 28에 일반적으로 나타낸 바와 같이 질의 게놈 서열에 "존재"하는 것으로 지칭될 수 있다. 보존 및/또는 가변성의 척도는 그래프, 히트맵, 계통 발생, 순위 목록, 및 다른 형식으로 표시될 수 있다(일반적인 예시를 위해, 예를 들어, 도 29-33 참조). 각각의 참조 서열 또는 이의 부분에 대한 나머지 SARS-CoV-2 서열이 번역 및 정렬될 수 있고 정렬된 서열의 아미노산 보존 및/또는 가변성 척도가 결정될 수 있다.

다양한 구현예에서, 핵산 서열의 비교를 위한 BLAST 매개변수는 BLAST 디폴트 값을 사용하거나 또는 표 4에 제공된 임의의 값으로 수행될 수 있다. 다양한 구현예에서, 아미노산 서열의 비교를 위한 BLAST 매개변수는 BLAST 디폴트 값을 사용하거나 또는 표 5에 제공된 임의의 값으로 수행될 수 있다. 임의의 매개변수 또는 매개변수의 조합에 대한 특정 값 세트는 본 개시내용의 시스템 및 방법의 사용에 필요하지 않다.

표 4

핵산 비교 BLASTn 매개변수

표 5

아미노산 비교 BLASTp 매개변수

예시적 구현예

본 개시내용은, 그 중에서도, 하기 예시적인 구현예를 포함한다:

1. 아미노산 서열을 병원체에 대한 요법의 개발에서 후보 항원으로서 식별하는 방법으로서,

데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계;

컴퓨팅 디바이스의 프로세서에 의해, 게놈 서열로부터 코딩 서열을 추출하는 단계;

프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하되, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하는 것인 단계;

동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하는 단계;

프로세서에 의해, 선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계;

프로세서에 의해, 아미노산 서열을 정렬하는 단계;

정렬된 아미노산 서열의 복수의 부분 각각을 병원체의 상이한 균주중에서 상기 부분의 변환 수준에 따라 분류하는 단계;

보존된 것으로 분류된 아미노산 서열의 부분을 선택하고, 선택된 보존된 서열을 인간 단백질 서열과 비교하고, 추가로 선택된 보존된 서열을 인간 단백질 서열과 동일하거나 또는 동일하지 않은 것으로 분류하는 단계; 및

병원체에 대한 요법의 개발에서 후보 항원으로서 인간 단백질 서열과 동일하지 않은 선택된 보존된 서열을 범주화하는 단계를 포함하는, 방법.

2. 구현예 1에 있어서, 상기 데이터 구조가 콘티그를 포함하고, 상기 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계가 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하는 것을 포함하는 것인, 방법.

3. 구현예 1 또는 구현예 2에 있어서, 상기 범주화 단계가 복수의 쌍 각각에 대한 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 상기 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함하는 것인, 방법.

4. 구현예 1 내지 3 중 어느 한 구현예에 있어서, 상기 범주화 단계가 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 상기 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수인, 방법.

5. 구현예 4에 있어서, 상기 컴퓨팅 단계가 상기 유사성 척도의 매트릭스를 생성하고 상기 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함하는 것인, 방법.

6. 구현예 5에 있어서, 상기 그래픽 표현이 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함하는 것인, 방법.

7. 구현예 1 내지 6 중 어느 한 구현예에 있어서, 상기 동일성 척도가 돌연변이의 수를 포함하는 것인, 방법.

8. 구현예 1 내지 7 중 어느 한 구현예에 있어서, 상기 적용범위 척도가 퍼센트 적용범위를 포함하는 것인, 방법.

9. 구현예 1 내지 8 중 어느 한 구현예에 있어서, 상기 동일성 척도가 E-값을 계산하는 것을 포함하는 것인, 방법.

10. 구현예 1 내지 9 중 어느 한 구현예에 있어서, 상기 선택된 보존된 서열을 후보 항원으로서 범주화하는 단계가 선택된 보존된 서열에서 하나 이상의 아미노산 도메인의 존재 또는 부재를 결정하는 것을 추가로 포함하는 것인, 방법.

11. 구현예 1 내지 10 중 어느 한 구현예에 있어서, 상기 선택된 보존된 서열을 후보 항원으로서 범주화하는 단계가 후보 항원이 병원체의 막 및/또는 세포 벽 내에 분비되거나 또는 노출된 단백질에 상응하는지 여부를 결정하는 것을 추가로 포함하는 것인, 방법.

12. 구현예 1 내지 11 중 어느 한 구현예에 있어서, 상기 선택된 보존된 서열을 후보 항원으로서 범주화하는 단계가 선택된 보존된 서열에서 막관통 도메인의 존재를 결정하는 것을 추가로 포함하는 것인, 방법.

13. 구현예 1 내지 12 중 어느 한 구현예에 있어서, 상기 요법이 백신을 포함하고 방법이 면역원성에 대한 후보 항원을 비-임상적으로 평가하는 단계를 추가로 포함하는 것인, 방법.

14. 구현예 13에 있어서, 상기 평가 단계가 후보 항원을 포함하는 폴리펩티드를 동물에게 투여하는 것을 포함하는 것인, 방법.

15. 구현예 1 내지 14 중 어느 한 구현예에 있어서, 상기 요법이 항체 요법을 포함하고, 방법이 후보 항원 상의 에피토프에 특이적으로 결합하는 항체 또는 이의 단편을 생성하는 단계를 추가로 포함하는 것인, 방법.

16. 구현예 1 내지 15 중 어느 한 구현예에 있어서, 상기 병원체가 바이러스인, 방법.

17. 구현예 16에 있어서, 상기 바이러스가 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스인, 방법.

18. 구현예 16에 있어서, 상기 바이러스가 코로나바이러스인, 방법.

19. 구현예 18에 있어서, 상기 코로나바이러스가 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)인, 방법.

20. 구현예 1 내지 15 중 어느 한 구현예에 있어서, 상기 병원체가 박테리아인, 방법.

21. 구현예 20에 있어서, 상기 박테리아가 스타필로코쿠스 종 또는 슈도모나스 종인, 방법.

22. 병원체 감염의 치료를 위해 하나 이상의 대상체에게 치료제를 투여한 후 하나 이상의 추정 탈출 돌연변이를 식별하는 방법으로서,

각각의 대상체에게 치료제를 투여한 후 하나 이상의 대상체로부터 단리된 복수의 완전 또는 부분적 병원체 게놈 서열을 수득하는 단계;

프로세서에 의해, 아미노산 서열을 정렬하는 단계;

정렬된 아미노산 서열에서, 참조에서보다 정렬된 아미노산 서열에서 더 빈번한 하나 이상의 아미노산 변이체를 식별하며, 상기 하나 이상의 아미노산 변이체는 하나 이상의 추정 탈출 돌연변이인 단계를 포함하는, 방법.

23. 구현예 22에 있어서, 상기 참조가 표준 병원체 서열을 나타내는 하나 이상의 완전 또는 부분적 병원체 게놈 서열, 병원체의 하나 이상의 임상 균주, 치료제가 투여된 대상체 중 하나 이상으로부터 병원체의 하나 이상의 초기 샘플, 또는 치료제가 투여되지 않은 대상체로부터 병원체의 하나 이상의 샘플을 포함하는 것인, 방법.

24. 구현예 22 또는 구현예 23에 있어서, 추정 탈출 돌연변이 중 하나 이상이 치료제와 참조 폴리펩티드의 결합 친화도를 감소시키는지 여부를 결정하는 단계를 추가로 포함하는, 방법.

25. 구현예 22 내지 24 중 어느 한 구현예에 있어서, 상기 데이터 구조가 콘티그를 포함하고, 상기 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계가 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하는 것을 포함하는 것인, 방법.

26. 구현예 22 내지 25 중 어느 한 구현예에 있어서, 상기 범주화 단계가 복수의 쌍 각각에 대한 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 상기 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함하는 것인, 방법.

27. 구현예 22 내지 26 중 어느 한 구현예에 있어서, 상기 범주화 단계가 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 상기 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수인, 방법.

28. 구현예 27에 있어서, 상기 컴퓨팅 단계가 상기 유사성 척도의 매트릭스를 생성하고 상기 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함하는 것인, 방법.

29. 구현예 28에 있어서, 상기 그래픽 표현이 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함하는 것인, 방법.

30. 구현예 22 내지 29 중 어느 한 구현예에 있어서, 상기 동일성 척도가 돌연변이의 수를 포함하는 것인, 방법.

31. 구현예 22 내지 30 중 어느 한 구현예에 있어서, 상기 적용범위 척도가 퍼센트 적용범위를 포함하는 것인, 방법.

32. 구현예 22 내지 31 중 어느 한 구현예에 있어서, 상기 동일성 척도가 E-값을 계산하는 것을 포함하는 것인, 방법.

33. 구현예 22 내지 32 중 어느 한 구현예에 있어서, 다음 중 하나 이상을 평가하는 단계를 포함하는, 방법:

병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열;

병원체와 연관된 단백질을 암호화하는 핵산 서열의 보존된 서열;

단백질을 암호화하는 핵산의 비-보존된 서열;

병원체와 연관된 특정 단백질 내의 보존된 도메인; 및

병원체와 연관된 특정 단백질 내의 비-보존된 도메인.

34. 구현예 22 내지 33 중 어느 한 구현예에 있어서, 상기 아미노산 서열의 각각의 부분이 하나 이상의 아미노산 위치를 포함하는 것인, 방법.

35. 구현예 22 내지 34 중 어느 한 구현예에 있어서, 상기 병원체가 바이러스인, 방법.

36. 구현예 35에 있어서, 상기 바이러스가 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스인, 방법.

37. 구현예 35에 있어서, 상기 바이러스가 코로나바이러스인, 방법.

38. 구현예 37에 있어서, 상기 코로나바이러스가 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)인, 방법.

39. 구현예 38에 있어서, 상기 코로나바이러스가 SARS-CoV-2인, 방법.

40. 구현예 22 내지 39 중 어느 한 구현예에 있어서, 코로나바이러스 스파이크 (S) 단백질[예를 들어, MERS, SARS-CoV, 또는 SARS-CoV2 스파이크(S) 단백질] 또는 이의 수용체-결합 도메인(RBD)을 평가하는 단계를 포함하는, 방법.

41. 구현예 22 내지 40 중 어느 한 구현예에 있어서, 상기 치료제가 항체를 포함하는 것인, 방법.

42. 구현예 41에 있어서, 상기 항체가 SARS-CoV-2에 결합하는 것인, 방법.

43. 구현예 42에 있어서, 상기 항체가 SARS-CoV-2 스파이크 단백질에 결합하는 것인, 방법.

44. 구현예 41 내지 43 중 어느 한 구현예에 있어서, 상기 항체가 표 3에 따른 적어도 하나의 항체, 중쇄(HC), 경쇄(LC), 중쇄 가변 영역(HCVR), 경쇄 가변 영역(LCVR), 중쇄 상보성 결정 영역(HCDR), 또는 경쇄 CDR(LCDR)을 포함하는 것인, 방법.

45. 구현예 22 내지 34 중 어느 한 구현예에 있어서, 상기 병원체가 박테리아인, 방법.

46. 구현예 45에 있어서, 상기 박테리아가 스타필로코쿠스 종 또는 슈도모나스 종인, 방법.

47. 병원체 감염의 치료를 위한 치료제를 이를 필요로 하는 대상체에게 투여하는 방법으로서,

다음에 의해 아미노산의 보존된 부분을 선택하는 단계:

프로세서에 의해, 아미노산 서열을 정렬하는 단계;

정렬된 아미노산 서열의 복수의 부분 각각을 병원체의 상이한 균주 중에서 상기 부분의 보존 수준에 따라 분류하는 단계; 및

정렬된 아미노산 서열의 보존된 부분을 선택하는 단계; 및

대상체로부터 단리된 완전 또는 부분적 병원체 게놈 서열이 아미노산 서열의 보존된 부분을 암호화하는 경우 대상체에게 치료제를 투여하되, 상기 치료제는 아미노산 서열의 보존된 부분에 선택적으로 결합하는 것인 단계를 포함하는, 방법.

48. 구현예 47에 있어서, 상기 데이터 구조가 콘티그를 포함하고, 상기 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계가 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하는 것을 포함하는 것인, 방법.

49. 구현예 47 또는 구현예 48에 있어서, 상기 범주화 단계가 복수의 쌍 각각에 대한 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 상기 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함하는 것인, 방법.

50. 구현예 47 내지 49 중 어느 한 구현예에 있어서, 상기 범주화 단계가 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 상기 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수인, 방법.

51. 구현예 50에 있어서, 상기 컴퓨팅 단계가 상기 유사성 척도의 매트릭스를 생성하고 상기 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함하는 것인, 방법.

52. 구현예 51에 있어서, 상기 그래픽 표현이 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함하는 것인, 방법.

53. 구현예 47 내지 52 중 어느 한 구현예에 있어서, 상기 동일성 척도가 돌연변이의 수를 포함하는 것인, 방법.

54. 구현예 47 내지 53 중 어느 한 구현예에 있어서, 상기 적용범위 척도가 퍼센트 적용범위를 포함하는 것인, 방법.

55. 구현예 47 내지 54 중 어느 한 구현예에 있어서, 상기 동일성 척도가 E-값을 계산하는 것을 포함하는 것인, 방법.

56. 구현예 47 내지 55 중 어느 한 구현예에 있어서, 다음 중 하나 이상을 평가하는 단계를 포함하는, 방법:

병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열;

단백질을 암호화하는 핵산의 비-보존된 서열;

병원체와 연관된 특정 단백질 내의 보존된 도메인; 및

병원체와 연관된 특정 단백질 내의 비-보존된 도메인.

57. 구현예 47 내지 56 중 어느 한 구현예에 있어서, 상기 아미노산 서열의 각각의 부분이 하나 이상의 아미노산 위치를 포함하는 것인, 방법.

58. 구현예 47 내지 57 중 어느 한 구현예에 있어서, 상기 병원체가 바이러스인, 방법.

59. 구현예 58에 있어서, 상기 바이러스가 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스인, 방법.

60. 구현예 58에 있어서, 상기 바이러스가 코로나바이러스인, 방법.

61. 구현예 60에 있어서, 상기 코로나바이러스가 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)인, 방법.

62. 구현예 61에 있어서, 상기 코로나바이러스가 SARS-CoV-2인, 방법.

63. 구현예 47 내지 62 중 어느 한 구현예에 있어서, 코로나바이러스 스파이크(S) 단백질[예를 들어, MERS, SARS-CoV, 또는 SARS-CoV2 스파이크(S) 단백질] 또는 이의 수용체-결합 도메인(RBD)을 평가하는 단계를 포함하는, 방법.

64. 구현예 47 내지 63 중 어느 한 구현예에 있어서, 상기 치료제가 항체를 포함하는 것인, 방법.

65. 구현예 64에 있어서, 상기 항체가 SARS-CoV-2에 결합하는 것인, 방법.

66. 구현예 65에 있어서, 상기 항체가 SARS-CoV-2 스파이크 단백질에 결합하는 것인, 방법.

67. 구현예 64 내지 66 중 어느 한 구현예에 있어서, 상기 항체가 표 3에 따른 적어도 하나의 항체, 중쇄(HC), 경쇄(LC), 중쇄 가변 영역(HCVR), 경쇄 가변 영역(LCVR), 중쇄 상보성 결정 영역(HCDR), 또는 경쇄 CDR(LCDR)을 포함하는 것인, 방법.

68. 구현예 47 내지 57 중 어느 한 구현예에 있어서, 상기 병원체가 박테리아인, 방법.

69. 구현예 68에 있어서, 상기 박테리아가 스타필로코쿠스 종 또는 슈도모나스 종인, 방법.

70. 병원체로 감염된 대상체의 치료를 위한 치료제를 선택하는 방법으로서,

프로세서에 의해, 아미노산 서열을 정렬하는 단계;

정렬된 아미노산 서열의 복수의 부분 각각을 병원체의 상이한 균주 중에서 상기 부분의 보존 수준에 따라 분류하여, 이에 의해 병원체를 나타내는 코딩 서열의 보존된 부분을 식별하는 단계; 및

병원체로 감염된 대상체를 위한 치료로서 보존된 코딩 서열에 결합하는 치료제를 선택하는 단계.

71. 구현예 70에 있어서, 상기 데이터 구조가 콘티그를 포함하고, 상기 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계가 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하는 것을 포함하는 것인, 방법.

72. 구현예 70 또는 구현예 71에 있어서, 상기 범주화 단계가 복수의 쌍 각각에 대한 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 상기 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함하는 것인, 방법.

73. 구현예 70 내지 72 중 어느 한 구현예에 있어서, 상기 범주화 단계가 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 상기 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수인, 방법.

74. 구현예 73에 있어서, 상기 컴퓨팅 단계가 상기 유사성 척도의 매트릭스를 생성하고 상기 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함하는 것인, 방법.

75. 구현예 74에 있어서, 상기 그래픽 표현이 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함하는 것인, 방법.

76. 구현예 70 내지 75 중 어느 한 구현예에 있어서, 상기 동일성 척도가 돌연변이의 수를 포함하는 것인, 방법.

77. 구현예 70 내지 76 중 어느 한 구현예에 있어서, 상기 적용범위 척도가 퍼센트 적용범위를 포함하는 것인, 방법.

78. 구현예 70 내지 77 중 어느 한 구현예에 있어서, 상기 동일성 척도가 E-값을 계산하는 것을 포함하는 것인, 방법.

79. 구현예 70 내지 78 중 어느 한 구현예에 있어서, 다음 중 하나 이상을 평가하는 단계를 포함하는, 방법:

병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열;

단백질을 암호화하는 핵산의 비-보존된 서열;

병원체와 연관된 특정 단백질 내의 보존된 도메인; 및

병원체와 연관된 특정 단백질 내의 비-보존된 도메인.

80. 구현예 70 내지 79 중 어느 한 구현예에 있어서, 상기 아미노산 서열의 각각의 부분이 하나 이상의 아미노산 위치를 포함하는 것인, 방법.

81. 구현예 80에 있어서, 상기 방법이 백신 또는 이의 구성요소로서 치료제를 비-임상적으로 평가하는 단계를 추가로 포함하는 것인, 방법.

82. 구현예 81에 있어서, 상기 평가 단계가 치료제를 동물에게 투여하는 것을 포함하는 것인, 방법.

83. 구현예 70 내지 82 중 어느 한 구현예에 있어서, 상기 병원체가 바이러스인, 방법.

84. 구현예 83에 있어서, 상기 바이러스가 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스인, 방법.

85. 구현예 83에 있어서, 상기 바이러스가 코로나바이러스인, 방법.

86. 구현예 85에 있어서, 상기 코로나바이러스가 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)인, 방법.

87. 구현예 86에 있어서, 상기 코로나바이러스가 SARS-CoV-2인, 방법.

88. 구현예 70 내지 87 중 어느 한 구현예에 있어서, 코로나바이러스 스파이크(S) 단백질[예를 들어, MERS, SARS-CoV, 또는 SARS-CoV2 스파이크(S) 단백질] 또는 이의 수용체-결합 도메인(RBD)을 평가하는 단계를 포함하는, 방법.

89. 구현예 70 내지 88 중 어느 한 구현예에 있어서, 상기 치료제가 항체를 포함하는 것인, 방법.

90. 구현예 89에 있어서, 상기 항체가 SARS-CoV-2에 결합하는 것인, 방법.

91. 구현예 90에 있어서, 상기 항체가 SARS-CoV-2 스파이크 단백질에 결합하는 것인, 방법.

92. 구현예 89 내지 91 중 어느 한 구현예에 있어서, 상기 항체가 표 3에 따른 적어도 하나의 항체, 중쇄(HC), 경쇄(LC), 중쇄 가변 영역(HCVR), 경쇄 가변 영역(LCVR), 중쇄 상보성 결정 영역(HCDR), 또는 경쇄 CDR(LCDR)을 포함하는 것인, 방법.

93. 구현예 70 내지 82 중 어느 한 구현예에 있어서, 상기 병원체가 박테리아인, 방법.

94. 구현예 93에 있어서, 상기 박테리아가 스타필로코쿠스 종 또는 슈도모나스 종인, 방법.

95. 병원체를 나타내는 아미노산 서열 부분의 보존을 평가하는 방법으로서,

프로세서에 의해, 아미노산 서열을 정렬하는 단계; 및

정렬된 아미노산 서열을 사용하여 병원체를 나타내는 아미노산 서열의 하나 이상의 부분의 보존 수준을 식별하는 단계를 포함하는, 방법.

96. 구현예 95에 있어서, 상기 부분 중 하나 이상이 병원체에 대한 요법의 개발에서 후보 항원으로서 식별되는 것인, 방법.

97. 구현예 95 또는 구현예 96에 있어서, 상기 데이터 구조가 콘티그를 포함하고, 상기 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계가 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하는 것을 포함하는 것인, 방법.

98. 구현예 95 내지 97 중 어느 한 구현예에 있어서, 상기 범주화 단계가 복수의 쌍 각각에 대한 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 상기 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함하는 것인, 방법.

99. 구현예 95 내지 98 중 어느 한 구현예에 있어서, 상기 범주화 단계가 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 상기 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수인, 방법.

100. 구현예 99에 있어서, 상기 컴퓨팅 단계가 상기 유사성 척도의 매트릭스를 생성하고 상기 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함하는 것인, 방법.

101. 구현예 100에 있어서, 상기 그래픽 표현이 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함하는 것인, 방법.

102. 구현예 95 내지 101 중 어느 한 구현예에 있어서, 상기 동일성 척도가 돌연변이의 수를 포함하는 것인, 방법.

103. 구현예 95 내지 102 중 어느 한 구현예에 있어서, 상기 적용범위 척도가 퍼센트 적용범위를 포함하는 것인, 방법.

104. 구현예 95 내지 103 중 어느 한 구현예에 있어서, 상기 동일성 척도가 E-값을 계산하는 것을 포함하는 것인, 방법.

105. 구현예 95 내지 104 중 어느 한 구현예에 있어서, 다음 중 하나 이상을 평가하는 단계를 포함하는, 방법:

병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열;

단백질을 암호화하는 핵산의 비-보존된 서열;

병원체와 연관된 특정 단백질 내의 보존된 도메인; 및

병원체와 연관된 특정 단백질 내의 비-보존된 도메인.

106. 구현예 95 내지 105 중 어느 한 구현예에 있어서, 상기 아미노산 서열의 각각의 부분이 하나 이상의 아미노산 위치를 포함하는 것인, 방법.

107. 구현예 95 내지 106 중 어느 한 구현예에 있어서, 상기 병원체가 바이러스인, 방법.

108. 구현예 107에 있어서, 상기 바이러스가 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스인, 방법.

109. 구현예 107에 있어서, 상기 바이러스가 코로나바이러스인, 방법.

110. 구현예 109에 있어서, 상기 코로나바이러스가 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)인, 방법.

111. 구현예 110에 있어서, 상기 코로나바이러스가 SARS-CoV-2인, 방법.

112. 구현예 95 내지 111 중 어느 한 구현예에 있어서, 상기 게놈 서열이 SARS-CoV-2 게놈 서열이고 참조 서열이 SARS-CoV-2 참조 서열인, 방법.

113. 구현예 95 내지 112 중 어느 한 구현예에 있어서, 코로나바이러스 스파이크(S) 단백질[예를 들어, MERS, SARS-CoV, 또는 SARS-CoV2 스파이크(S) 단백질] 또는 이의 수용체-결합 도메인(RBD)을 평가하는 단계를 포함하는, 방법.

114. 구현예 95 내지 106 중 어느 한 구현예에 있어서, 상기 병원체가 박테리아인, 방법.

115. 구현예 114에 있어서, 상기 박테리아가 스타필로코쿠스 종 또는 슈도모나스 종인, 방법.

116. 단리된 병원체가 순환 균주를 나타내는지 여부를 식별하는 방법으로서,

데이터 구조로부터 병원체의 순환 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계;

순환 균주의 상기 서열의 하나 이상의 보존된 부분을 식별하는 단계;

단리된 병원체의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계; 및

상기 단리된 병원체의 상기 서열의 적어도 일부를 순환 균주 서열의 식별된 하나 이상의 보존된 부분에 대해 비교함으로써 상기 단리된 병원체가 순환 균주를 나타내는지 여부를 식별하는 단계를 포함하는, 방법.

117. 구현예 116에 있어서, 상기 순환 균주의 상기 서열의 하나 이상의 보존된 부분을 식별하는 단계가

프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하되, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하고;

프로세서에 의해, 아미노산 서열을 정렬하는 단계; 및

정렬된 아미노산 서열의 복수의 부분 각각을 정렬된 아미노산 서열 중에서 상기 부분의 보존 수준에 따라 분류하는 단계를 포함하는 것인, 방법.

118. 구현예 116 또는 구현예 117에 있어서, 상기 데이터 구조가 콘티그를 포함하고, 상기 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계가 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하는 것을 포함하는 것인, 방법.

119. 구현예 116 내지 118 중 어느 한 구현예에 있어서, 상기 범주화 단계가 복수의 쌍 각각에 대한 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 상기 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함하는 것인, 방법.

120. 구현예 116 내지 119 중 어느 한 구현예에 있어서, 상기 범주화 단계가 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 상기 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수인, 방법.

121. 구현예 120에 있어서, 상기 컴퓨팅 단계가 상기 유사성 척도의 매트릭스를 생성하고 상기 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함하는 것인, 방법.

122. 구현예 121에 있어서, 상기 그래픽 표현이 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함하는 것인, 방법.

123. 구현예 116 내지 122 중 어느 한 구현예에 있어서, 상기 동일성 척도가 돌연변이의 수를 포함하는 것인, 방법.

124. 구현예 116 내지 123 중 어느 한 구현예에 있어서, 상기 적용범위 척도가 퍼센트 적용범위를 포함하는 것인, 방법.

125. 구현예 116 내지 124 중 어느 한 구현예에 있어서, 상기 동일성 척도가 E-값을 계산하는 것을 포함하는 것인, 방법.

126. 구현예 116 내지 125 중 어느 한 구현예에 있어서, 다음 중 하나 이상을 평가하는 단계를 포함하는, 방법:

병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열;

단백질을 암호화하는 핵산의 비-보존된 서열;

병원체와 연관된 특정 단백질 내의 보존된 도메인; 및

병원체와 연관된 특정 단백질 내의 비-보존된 도메인.

127. 구현예 116 내지 126 중 어느 한 구현예에 있어서, 상기 아미노산 서열의 각각의 부분이 하나 이상의 아미노산 위치를 포함하는 것인, 방법.

128. 구현예 116 내지 127 중 어느 한 구현예에 있어서, 상기 병원체가 바이러스인, 방법.

129. 구현예 128에 있어서, 상기 바이러스가 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스인, 방법.

130. 구현예 128에 있어서, 상기 바이러스가 코로나바이러스인, 방법.

131. 구현예 130에 있어서, 상기 코로나바이러스가 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)인, 방법.

132. 구현예 131에 있어서, 상기 코로나바이러스가 SARS-CoV-2인, 방법.

133. 구현예 116 내지 132 중 어느 한 구현예에 있어서, 코로나바이러스 스파이크(S) 단백질[예를 들어, MERS, SARS-CoV, 또는 SARS-CoV2 스파이크(S) 단백질] 또는 이의 수용체-결합 도메인(RBD)을 평가하는 단계를 포함하는, 방법.

134. 구현예 116 내지 127 중 어느 한 구현예에 있어서, 상기 병원체가 박테리아인, 방법.

135. 구현예 134에 있어서, 상기 박테리아가 스타필로코쿠스 종 또는 슈도모나스 종인, 방법.

136. 병원체를 나타내는 펩티드의 질량 대 전하 비를 식별하는 방법으로서,

프로세서에 의해, 선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계; 및

아미노산 서열 또는 이의 부분 중 하나 이상의 질량 대 전하 비를 결정하는 단계를 포함하는, 방법.

137. 구현예 136에 있어서, 상기 데이터 구조가 콘티그를 포함하고, 상기 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계가 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하는 것을 포함하는 것인, 방법.

138. 구현예 136 또는 구현예 137에 있어서, 상기 범주화 단계가 복수의 쌍 각각에 대한 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 상기 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함하는 것인, 방법.

139. 구현예 136 내지 138 중 어느 한 구현예에 있어서, 상기 범주화 단계가 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 상기 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수인, 방법.

140. 구현예 139에 있어서, 상기 컴퓨팅 단계가 상기 유사성 척도의 매트릭스를 생성하고 상기 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함하는 것인, 방법.

141. 구현예 140에 있어서, 상기 그래픽 표현이 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함하는 것인, 방법.

142. 구현예 136 내지 141 중 어느 한 구현예에 있어서, 상기 동일성 척도가 돌연변이의 수를 포함하는 것인, 방법.

143. 구현예 136 내지 142 중 어느 한 구현예에 있어서, 상기 적용범위 척도가 퍼센트 적용범위를 포함하는 것인, 방법.

144. 구현예 136 내지 143 중 어느 한 구현예에 있어서, 상기 동일성 척도가 E-값을 계산하는 것을 포함하는 것인, 방법.

145. 구현예 136 내지 144 중 어느 한 구현예에 있어서, 다음 중 하나 이상을 평가하는 단계를 포함하는, 방법:

병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열;

단백질을 암호화하는 핵산의 비-보존된 서열;

병원체와 연관된 특정 단백질 내의 보존된 도메인; 및

병원체와 연관된 특정 단백질 내의 비-보존된 도메인.

146. 구현예 136 내지 145 중 어느 한 구현예에 있어서, 상기 아미노산 서열의 각각의 부분이 하나 이상의 아미노산 위치를 포함하는 것인, 방법.

147. 구현예 136 내지 146 중 어느 한 구현예에 있어서, 상기 병원체가 바이러스인, 방법.

148. 구현예 147에 있어서, 상기 바이러스가 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스인, 방법.

149. 구현예 147에 있어서, 상기 바이러스가 코로나바이러스인, 방법.

150. 구현예 149에 있어서, 상기 코로나바이러스가 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)인,방법.

151. 구현예 150에 있어서, 상기 코로나바이러스가 SARS-CoV-2인, 방법.

152. 구현예 136 내지 151 중 어느 한 구현예에 있어서, 코로나바이러스 스파이크(S) 단백질[예를 들어, MERS, SARS-CoV, 또는 SARS-CoV2 스파이크(S) 단백질] 또는 이의 수용체-결합 도메인(RBD)을 평가하는 단계를 포함하는, 방법.

153. 구현예 136 내지 146 중 어느 한 구현예에 있어서, 상기 병원체가 박테리아인, 방법.

154. 구현예 153에 있어서, 상기 박테리아가 스타필로코쿠스 종 또는 슈도모나스 종인, 방법.

155. 아미노산 서열을 후보 항생제 내성 마커로서 식별하는 방법으로서,

데이터 구조로부터 병원성 박테리아의 복수의 완전 또는 부분적 플라스미드 서열을 수득하는 단계;

컴퓨팅 디바이스의 프로세서에 의해, 플라스미드 서열로부터 코딩 서열을 추출하는 단계;

프로세서에 의해, 아미노산 서열을 정렬하는 단계;

정렬된 아미노산 서열의 복수의 부분 각각을 복수의 플라스미드 서열 중에서 상기 부분의 보존 수준에 따라 분류하는 단계;

보존된 것으로 분류된 아미노산 서열의 부분을 선택하는 단계; 및

선택된 보존된 서열을 후보 항생제 내성 마커로서 범주화하는 단계를 포함하는, 방법.

156. 구현예 155에 있어서, 선택된 서열에서 막관통 도메인의 존재를 포함하는 하나 이상의 추가 기준에 따라 후보 항생제 내성 마커를 후보로서 식별하는 단계를 추가로 포함하는, 방법.

157. 구현예 155 또는 구현예 156에 있어서, 상기 데이터 구조가 콘티그를 포함하고, 상기 데이터 구조로부터 복수의 완전 또는 부분적 플라스미드 서열을 수득하는 단계가 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 플라스미드 서열의 적어도 일부를 생성하는 것을 포함하는 것인, 방법.

158. 구현예 155 내지 157 중 어느 한 구현예에 있어서, 상기 범주화 단계가 복수의 쌍 각각에 대한 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 상기 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함하는 것인, 방법.

159. 구현예 155 내지 158 중 어느 한 구현예에 있어서, 상기 범주화 단계가 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 상기 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수인, 방법.

160. 구현예 159에 있어서, 상기 컴퓨팅 단계가 상기 유사성 척도의 매트릭스를 생성하고 상기 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함하는 것인, 방법.

161. 구현예 160에 있어서, 상기 그래픽 표현이 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함하는 것인, 방법.

162. 구현예 155 내지 161 중 어느 한 구현예에 있어서, 상기 동일성 척도가 돌연변이의 수를 포함하는 것인, 방법.

163. 구현예 155 내지 162 중 어느 한 구현예에 있어서, 상기 적용범위 척도가 퍼센트 적용범위를 포함하는 것인, 방법.

164. 구현예 155 내지 163 중 어느 한 구현예에 있어서, 상기 동일성 척도가 E-값을 계산하는 것을 포함하는 것인, 방법.

165. 구현예 155 내지 164 중 어느 한 구현예에 있어서, 다음 중 하나 이상을 평가하는 단계를 포함하는, 방법:

병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열;

단백질을 암호화하는 핵산의 비-보존된 서열;

병원체와 연관된 특정 단백질 내의 보존된 도메인; 및

병원체와 연관된 특정 단백질 내의 비-보존된 도메인.

166. 구현예 155 내지 165 중 어느 한 구현예에 있어서, 상기 아미노산 서열의 각각의 부분이 하나 이상의 아미노산 위치를 포함하는 것인, 방법.

167. 구현예 155 내지 166 중 어느 한 구현예에 있어서, 상기 박테리아가 스타필로코쿠스 종 또는 슈도모나스 종인, 방법.

168. 플라스미드를 나타내는 코딩 서열의 하나 이상의 보존된 부분을 식별하는 방법으로서,

프로세서에 의해, 아미노산 서열을 정렬하는 단계; 및

아미노산 서열의 복수의 부분 각각을 복수의 플라스미드 서열 중에서 상기 부분의 보존 수준에 따라 분류하여, 이에 의해 플라스미드를 나타내는 코딩 서열의 하나 이상의 보존된 부분을 식별하는 단계를 포함하는, 방법.

169. 구현예 168에 있어서, 상기 데이터 구조가 콘티그를 포함하고, 상기 데이터 구조로부터 복수의 완전 또는 부분적 플라스미드 서열을 수득하는 단계가 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 플라스미드 서열의 적어도 일부를 생성하는 것을 포함하는 것인, 방법.

170. 구현예 168 또는 구현예 169에 있어서, 상기 범주화 단계가 복수의 쌍 각각에 대한 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 상기 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함하는 것인, 방법.

171. 구현예 168 내지 170 중 어느 한 구현예에 있어서, 상기 범주화 단계가 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 상기 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수인, 방법.

172. 구현예 171에 있어서, 상기 컴퓨팅 단계가 상기 유사성 척도의 매트릭스를 생성하고 상기 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함하는 것인, 방법.

173. 구현예 172에 있어서, 상기 그래픽 표현이 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함하는 것인, 방법.

174. 구현예 168 내지 173 중 어느 한 구현예에 있어서, 상기 동일성 척도가 돌연변이의 수를 포함하는 것인, 방법.

175. 구현예 168 내지 174 중 어느 한 구현예에 있어서, 상기 적용범위 척도가 퍼센트 적용범위를 포함하는 것인, 방법.

176. 구현예 168 내지 175 중 어느 한 구현예에 있어서, 상기 동일성 척도가 E-값을 계산하는 것을 포함하는 것인, 방법.

177. 구현예 168 내지 176 중 어느 한 구현예에 있어서, 다음 중 하나 이상을 평가하는 단계를 포함하는, 방법:

병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열;

단백질을 암호화하는 핵산의 비-보존된 서열;

병원체와 연관된 특정 단백질 내의 보존된 도메인; 및

병원체와 연관된 특정 단백질 내의 비-보존된 도메인.

178. 구현예 168 내지 177 중 어느 한 구현예에 있어서, 상기 아미노산 서열의 각각의 부분이 하나 이상의 아미노산 위치를 포함하는 것인, 방법.

179. 구현예 168 내지 178 중 어느 한 구현예에 있어서, 상기 박테리아가 스타필로코쿠스 종 또는 슈도모나스 종인, 방법.

180. 병원체를 나타내는 코딩 서열의 하나 이상의 보존된 부분을 자동으로 식별하는 시스템으로서, 상기 시스템은

프로세서; 및

프로세서에 대한 명령어가 있는 메모리를 포함하며, 명령어는 프로세서에 의해 실행될 때, 프로세서가

데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하게 하고;

프로세서에 의해, 게놈 서열로부터 코딩 서열을 추출하게 하고;

프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하게 하되, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하고;

동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하게 하고;

프로세서에 의해, 선택된 코딩 서열을 상응하는 아미노산 서열로 변환시키고;

프로세서에 의해, 아미노산 서열을 정렬시키고;

정렬된 아미노산 서열의 복수의 부분 각각을 병원체의 상이한 균주 중에서 상기 부분의 보존 수준에 따라 분류하여, 이에 의해 병원체를 나타내는 코딩 서열의 하나 이상의 보존된 부분을 식별하게 하는 것인, 시스템.

181. 구현예 180에 있어서, 상기 명령어가 프로세서에 의해 실행될 때, 프로세서가 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하게 하며, 상기 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수인, 시스템.

182. 구현예 181에 있어서, 상기 명령어가 프로세서에 의해 실행될 때, 프로세서가 상기 유사성 척도의 매트릭스를 생성하고 상기 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하게 하는 것인, 시스템.

183. 구현예 182에 있어서, 상기 그래픽 표현이 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함하는 것인, 시스템.

184. 구현예 180 내지 183 중 어느 한 구현예에 있어서, 상기 데이터 구조가 콘티그를 포함하고, 상기 명령어가 프로세서에 의해 실행될 때, 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 게놈 서열의 적어도 일부를 생성함으로써 프로세서가 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하게 하는 것인, 시스템.

185. 구현예 180 내지 184 중 어느 한 구현예에 있어서, 상기 명령어가 프로세서에 의해 실행될 때, 프로세서가 다음 중 하나 이상을 평가하게 하는 것인, 시스템:

병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열;

병원체와 연관된 단백질을 암호화하는 핵산 서열의 보존된 서열

단백질을 암호화하는 핵산의 비-보존된 서열;

병원체와 연관된 특정 단백질 내의 보존된 도메인; 및

병원체와 연관된 특정 단백질 내의 비-보존된 도메인.

186. 구현예 180 내지 185 중 어느 한 구현예에 있어서, 상기 명령어가 프로세서에 의해 실행될 때, 프로세서가 코로나바이러스 스파이크(S) 단백질[예를 들어, MERS, SARS-CoV, 또는 SARS-CoV2 스파이크(S) 단백질] 또는 이의 수용체-결합 도메인(RBD)을 평가하게 하는 것인, 시스템.

187. 구현예 180 내지 186 중 어느 한 구현예에 있어서, 상기 병원체가 바이러스인, 시스템.

188. 구현예 187에 있어서, 상기 바이러스가 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스인, 시스템.

189. 구현예 187에 있어서, 상기 바이러스가 코로나바이러스인, 시스템.

190. 구현예 189에 있어서, 상기 코로나바이러스가 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)인, 시스템.

191. 구현예 190에 있어서, 상기 코로나바이러스가 SARS-CoV-2인, 시스템.

192. 구현예 180 내지 186 중 어느 한 구현예에 있어서, 상기 병원체가 박테리아인, 시스템.

193. 구현예 192에 있어서, 상기 박테리아가 스타필로코쿠스 종 또는 슈도모나스 종인, 시스템.

194. 플라스미드를 나타내는 코딩 서열의 하나 이상의 보존된 부분을 자동으로 식별하는 시스템으로서, 상기 시스템은

프로세서; 및

데이터 구조로부터 병원성 박테리아의 복수의 완전 또는 부분적 플라스미드 서열을 수득하게 하고;

프로세서에 의해, 플라스미드 서열로부터 코딩 서열을 추출하게 하고;

프로세서에 의해, 아미노산 서열을 정렬시키고;

아미노산 서열의 복수의 부분 각각을 복수의 플라스미드 서열 중에서 상기 부분의 보존 수준에 따라 분류하여, 이에 의해 플라스미드를 나타내는 코딩 서열의 하나 이상의 보존된 부분을 식별하게 하는 것인, 시스템.

195. 구현예 194에 있어서, 상기 명령어가 프로세서에 의해 실행될 때, 프로세서가 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하게 하며, 상기 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수인, 시스템.

196. 구현예 195에 있어서, 상기 명령어가 프로세서에 의해 실행될 때, 프로세서가 상기 유사성 척도의 매트릭스를 생성하고 상기 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하게 하는 것인, 시스템.

197. 구현예 196에 있어서, 상기 그래픽 표현이 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함하는 것인, 시스템.

198. 구현예 194 내지 197 중 어느 한 구현예에 있어서, 상기 데이터 구조가 콘티그를 포함하고, 상기 명령어가 프로세서에 의해 실행될 때, 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 플라스미드 서열의 적어도 일부를 생성함으로써 프로세서가 병원성 박테리아의 복수의 완전 또는 부분적 플라스미드 서열을 수득하게 하는 것인, 시스템.

199. 구현예 194 내지 198 중 어느 한 구현예에 있어서, 상기 명령어가 프로세서에 의해 실행될 때, 프로세서가 다음 중 하나 이상을 평가하게 하는 것인, 시스템:

병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열;

단백질을 암호화하는 핵산의 비-보존된 서열;

병원체와 연관된 특정 단백질 내의 보존된 도메인; 및

병원체와 연관된 특정 단백질 내의 비-보존된 도메인.

200. 구현예 194 내지 199 중 어느 한 구현예에 있어서, 상기 명령어가 프로세서에 의해 실행될 때, 프로세서가 코로나바이러스 스파이크(S) 단백질[예를 들어, MERS, SARS-CoV, 또는 SARS-CoV2 스파이크(S) 단백질] 또는 이의 수용체-결합 도메인(RBD)을 평가하게 하는 것인, 시스템.

201. 구현예 194 내지 200 중 어느 한 구현예에 있어서, 상기 병원체가 바이러스인, 시스템.

202. 구현예 201에 있어서, 상기 바이러스가 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스인, 시스템.

203. 구현예 201에 있어서, 상기 바이러스가 코로나바이러스인, 시스템.

204. 구현예 203에 있어서, 상기 코로나바이러스가 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)인, 시스템.

205. 구현예 204에 있어서, 상기 코로나바이러스가 SARS-CoV-2인, 시스템.

206. 구현예 194 내지 200 중 어느 한 구현예에 있어서, 상기 병원체가 박테리아인, 시스템.

207. 구현예 206에 있어서, 상기 박테리아가 스타필로코쿠스 종 또는 슈도모나스 종인, 시스템.

208. 병원체 감염의 치료를 위해 하나 이상의 대상체에게 치료제를 투여한 후 하나 이상의 추정 탈출 돌연변이를 식별하는 데 사용하기 위한 치료제로서, 상기 사용이

프로세서에 의해, 아미노산 서열을 정렬하는 단계;

정렬된 아미노산 서열에서, 참조에서보다 정렬된 아미노산 서열에서 더 빈번한 하나 이상의 아미노산 변이체를 식별하며, 상기 하나 이상의 아미노산 변이체는 하나 이상의 추정 탈출 돌연변이인 단계를 포함하는, 치료제.

209. 병원체 감염의 치료에 사용하기 위한 치료제로서, 상기 사용이

다음에 의해 아미노산 서열의 보존된 부분을 선택하는 단계:

프로세서에 의해, 아미노산 서열을 정렬하는 단계;

정렬된 아미노산 서열의 보존된 부분을 선택하는 단계; 및

대상체로부터 단리된 완전 또는 부분적 병원체 게놈 서열이 아미노산 서열의 보존된 부분을 암호화하는 경우 대상체에게 치료제를 투여하되, 상기 치료제는 아미노산 서열의 보존된 부분에 선택적으로 결합하는 것인 단계를 포함하는, 치료제.

210. 항체에 의해 결합된 병원체 에피토프가 보존되는지 여부를 결정하는 방법으로서,

코딩 서열을 병원체 에피토프를 암호화하는 참조 서열과 비교하는 단계;

선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계; 및

병원체의 상이한 균주 중에서 병원체 에피토프의 보존 수준을 결정하는 단계를 포함하는, 방법.

210. 병원체 감염의 치료를 위해 하나 이상의 대상체에게 약제를 투여한 후 하나 이상의 추정 탈출 돌연변이를 식별하기 위한 약제의 제조를 위한 치료제의 용도로서, 상기 용도가

각각의 대상체에게 약제를 투여한 후 하나 이상의 대상체로부터 단리된 복수의 완전 또는 부분적 병원체 게놈 서열을 수득하는 단계;

프로세서에 의해, 아미노산 서열을 정렬하는 단계;

정렬된 아미노산 서열에서, 참조에서보다 정렬된 아미노산 서열에서 더 빈번한 하나 이상의 아미노산 변이체를 식별하며, 상기 하나 이상의 아미노산 변이체는 하나 이상의 추정 탈출 돌연변이인 단계를 포함하는 것인, 용도.

211. 병원체 감염의 치료를 위한 약제의 제조를 위한 치료제의 용도로서, 상기 용도가

프로세서에 의해, 아미노산 서열을 정렬하는 단계;

정렬된 아미노산 서열의 보존된 부분을 선택하는 단계; 및

대상체로부터 단리된 완전 또는 부분적 병원체 게놈 서열이 아미노산 서열의 보존된 부분을 암호화하는 경우 대상체에게 약제를 투여하되, 상기 치료제는 아미노산 서열의 보존된 부분에 선택적으로 결합하는 것인 단계를 포함하는 것인, 용도.

실시예

본 실시예는 본 개시내용의 예시적인 방법 및 시스템 및 이의 예시적인 용도를 제공한다. 지난 10 년 동안 가장 빈번하게 서열분석된 종 중에서 많은 병원성인 바이러스 및 박테리아에 대해 서열분석된 게놈의 홍수가 입증되었다. 예를 들면, NCBI 데이터베이스에 존재하는 약 150만 개 초과의 게놈 서열에 대한 하나의 리뷰에 따르면, NCBI 데이터베이스는 약 642,604 개의 진핵생물 게놈 서열, 약 757,524 개의 박테리아 게놈 서열, 및 약 176,471 개의 바이러스 게놈 서열을 포함한다.

연구자들은 일부 경우에 대규모 게놈 데이서세트의 분석이 임상 결과와 역학적으로 상관관계가 있는 병원체 게놈에서의 변화를 입증할 수 있음을 밝혀내었다. 특정 예에서 이러한 상관된 변화는 병원체 표현형에 유의하게 기여할 수 있다. 그러나, 공개적으로 접근가능한 게놈 서열의 수가 매주마다 수천 개의 게놈으로 증가함에 따라, 확장된 서열분석 정보 양을 관리하는 것이 점점 어려워지고 있다. 더욱이, 서열 데이터에 액세스하는 것은 사용자에게 친숙하지 않으며; 데이터를 작업가능한 형태로 번역하는 데 컴퓨팅 기술을 필요로 한다. 본 실시예는 공개적으로 접근가능한 게놈 서열을 추출 및 처리하는 방법 및 시스템을 제공한다. 본원에 제공된 방법 및 시스템은 특히 예를 들어, 낮거나 또는 최소의 사용자 입력으로 공개적으로 접근가능한 게놈 서열의 분석을 수행하는 사용자 친숙한 컴퓨팅 프로그램에 사용가능할 수 있다.

본 실시예는 병원체 표현형, 예를 들어, 숙주-병원체 상호작용에 영향을 미치거나 또는 영향을 미칠 가능성이 있거나, 치료제 개발에 영향을 미치거나, 또는 치료제 개발(예를 들어, 치료 항체의 개발)에 대한 표적을 제공하는 게놈의 특정 특성을 알아내는 공개적으로 이용가능한 게놈 서열의 능력을 입증한다. 본 실시예는 특히 그 중에서도, 치료제 개발에서 사용하는 보존된 서열, 예를 들어, 치료 항체 개발을 위한 항원으로서 식별하는 데 현재 개시된 방법 및 시스템의 유용성을 입증한다. 기존 백신학은 백신 항원의 선택 및 검증을 위해 약 5 내지 약 15 년을 필요로 하고, 게놈 기반 접근법을 사용한 역 백신학은 백신 항원의 선택 및 검증을 위해 약 1 내지 약 2 년을 필요로 할 수 있지만, 본원에 개시된 방법 및 시스템은 백신 개발을 위한 항원을 빠르게 식별할 수 있으며, 예를 들어, 약 1 내지 2 주 내에 백신 항원의 선택 및 검증을 용이하게 한다.

실시예 1: 치료적 관심의 보존된 서열의 식별을 위한 예시적인 방법 및 시스템

본 실시예는 치료적 관심의 보존된 서열의 식별을 위한 예시적인 방법 및 시스템을 제공한다. 본 실시예는 R로 작성된 컴퓨터 프로그램("Got_Gene")을 활용하였으며, 이 프로그램은 수천 개의 입력 게놈 서열을 식별,비교, 및 특성화하기 위해 당업계에 알려진 BLAST 알고리즘 및 전용 R 패키지를 사용하였다. 본원에 개시된 Got_Gene 프로그램은 사용자에게 친숙하고 컴퓨팅 기술을 필요로 하지 않는다. 이는 자동으로 공개 데이터베이스에 신호를 보내어 표, 그래픽 및 시각 형태의 포괄적인 정보 세트를 제공한다.

본 실시예의 프로그램은 약 2,500 개 라인의 코드 및 10 개의 R 패키지를 포함하였다. 본 실시예의 프로그램은 2 내지 4 개의 외부 프로그램을 활용하였다: BLASTn, PhyML 및 QuickTree 중 하나 또는 둘 다, 및, 임의적으로, MegaHit. BLAST 알고리즘은 정렬에 사용되며 예를 들어, ncbi.nlm.nih.gov의 월드 와이드 웹에서 사용가능하고; QuickTree는 계통 발생 분석에 사용되며 예를 들어, HyperText Transfer Protocol github.com/tseemann/quicktree에서 사용가능하고; MegaHit는 서열 조립에 사용되며, 예를 들어 metagenomics.wiki/tools/assembly/megahit의 월드 와이드 웹에서 사용가능하다. 활용되는 R 패키지는 data.table; IRanges; reutils; biofiles; ggplot2; cowplot; RColorBrewer; reshape2; gridExtra; DECIPHER; shiny; colourpicker; 및 plotly를 포함한다.

임의의 특정 예시 또는 설명에 얽매이지 않고, 본 실시예에 사용되는 Got_Gene 프로그램은 다음 5 단계를 포함하는 것으로 볼 수 있다(예를 들어, 도 18 참조):

(1) 먼저, 사용자는 관심 유전자 세트를 추출할 게놈에 관한 정보를 표시한다. 이는 선택 게놈 서열이 Got_Gene 프로그램에서 입력(예를 들어 대상 입력)으로서 사용하기 위해 식별될 수 있다는 점에 기반하여 관심 유기체의 선택을 포함한다. 사용자는 또한 비교 분석에 사용될 질의 서열 목록을 선택할 수 있다.;

(2) 특징 및 서열 파일은 NCBI에서 자동으로 다운로드된다. 이는 예를 들어, NCBI와 같은 공개적으로 접근가능한 데이터베이스에서, 임의적으로 서열 주석 정보와 함께 서열을 포함하는 관련 서열을 다운로드함으로써 입력(예를 들어, 대상 입력) 컬렉션을 포함한다;

(3) 서열(예를 들어, 각각의 질의 서열과 각각의 대상 서열)의 쌍별 BLAST 비교는 모든 게놈 서열에 걸쳐 각각의 관심 유전자의 서열 다양성 수준을 확립하는 데이터를 제공한다;

(4) 서열 다양성 정보(예를 들어, 서열 보존)을 나타내는 데이터는 예를 들어, 생성된 Got Table에서 컴파일된다. Got Table은 각각의 게놈에서 각각의 유전자의 존재 또는 부재, 다양성 수준, 변이 속성 및 게놈 좌표에 관한 정보를 포함한다; 및

(5) Got Table은 컴파일된 서열 다양성 정보를 나타내는 디스플레이(예를 들어, 표, 히트맵, 및/또는 그래프)를 생성하는 데 사용된다. 생성된 디스플레이는 서열 다양성 그래프, 최대 가능성 계통 발생, 및/또는 정렬 파일일 수 있거나 또는 포함한다. 그런 다음 유전자 서열을 모든 게놈으로부터 추출하고 번역하여 뉴클레오티드 및 아미노산 정렬을 생성한다. 각각의 단계를 fasta 파일에 저장한다. 마지막으로, 게놈- 및 유전자-기반 계통 발생을 PhyML 프로그램을 사용하여 생성하고 별도의 파일에 저장한다.

이들 단계는 본원에 제공된 임의의 단계 또는 일련의 단계를 본 개시내용의 방법 및 시스템에 포함하도록 의도되지 않고, 제한, 제거, 또는 필요로 하지 않는다.

도 1에 제공된 바와 같이, 본 발명의 방법 및 시스템은 사용자에 의해 수동으로 제공되거나 또는 서열 데이터베이스로부터 획득되는(Gff, Gbk, Gtf와 같은 특징 정보와 함께) 대상 서열 입력을 포함할 수 있고, 사용자에 의해 수동으로 제공되거나 또는 예를 들어, 새로운 서열분석 데이터(예를 들어, 일루미나(Illumina) 또는 다른 고처리량 서열분석 판독)로부터 조립되는 질의 서열 입력을 포함할 수 있다. 질의 및 대상 서열은 각각의 대상에 대해 각각의 질의과 정렬된다. 생성된 데이터를 사용하여 Got Table을 생성한다. Got table을 사용하여 그래픽(그래프, 히트맵), 서열 정렬, 번역된 서열 정렬, 및 계통 발생 디스플레이(게놈-기반 및/또는 유전자-기반 계통 발생 포함)를 포함한 정보 디스플레이를 생성할 수 있다. 유전자 또는 아미노산 서열은 (i) 가장 보존된 유전자; (ii) 최소로 보존된 유전자(즉, 가장 다양하거나 또는 가장 가변적); (iii) 독성 인자; (iv) 항생제 내성; (v) 인간 서열 상동성; (vi) 분비된 단백질 및/또는 분비 도메인을 포함한 단백질; 및 (vii) 막관통 또는 표면 단백질, 및/또는 막관통 또는 표면 도메인을 포함한 단백질 중 임의의 하나 이상, 또는 전부를 식별함으로써 사용자-명시된 목적을 위해 선택될 수 있다.

방법 또는 시스템의 제1 단계는 하나 이상의 공개적으로 접근가능한 데이터베이스(예를 들어, NCBI)로부터 (이용가능한 경우 주석 정보와 함께) 획득될(예를 들어, 다운로드될) 대상 서열의 특성을 결정하고 하나 이상의 질의 서열이 대상 서열과의 비교를 위해 수동으로 제공될지 여부를 결정하는 것일 수 있다(도 2). Got_Gene 프로그램은 데이터를 조직화 및/또는 저장하기 위한 특정 폴더를 자동으로 생성할 수 있으며, 폴더는 도 3에 제시되어 있다.

방법 또는 시스템의 제2 단계는 여러 Got_Gene 폴더(참조 서열, 정렬기 데이터베이스, 및 주석 폴더)에 복사 및 저장될 수 있는 하나 이상의 공개적으로 접근가능한 데이터베이스로부터 대상 서열 및 주석 정보를 획득하는 것일 수 있다(도 4). 하나 이상의 공개적으로 접근가능한 데이터베이스로부터 서열 및 주석 정보를 획득하는 단계는 도 5에 제공되어 있다. R 패키지 reutils를 사용하여 NCBI 데이터베이스의 서버가 있는 채널을 개방한다. Reutils는 NCBI Entrez 프로그래밍 유틸리티에 대한 인터페이스이고, PubMed, Gen bank, 또는 GEO와 같은 NCBI 데이터베이스와 상호작용하는 시스템에 대한 지원을 제공하며, 프로그래밍 인터페이스의 각각의 함수는 R 함수로 지칭된다.

방법 또는 시스템의 제3 단계는 공개적으로 접근가능한 데이터베이스로부터 질의 서열을 수동으로 제공하거나 또는 질의 서열을 다운로드하는 것일 수 있다(도 6).

방법 또는 시스템의 제4 단계는 질의 서열을 정렬기 데이터베이스 폴더 내의 서열(즉, 대상 서열)과 정렬하는 것일 수 있다(도 7). BLAST를 사용한 정렬 단계는 도 8에 제공되어 있다. 예를 들어, 서열 비교를 위한 BLAST 매개변수는 outfmt '7 std sgi stitle'; 최소 E-값 = 약 0.001; 간격 개방 비용 = 약 5; 간격 확장 비용 = 약 2; 가장 완벽한 일치 길이 = 약 11; 뉴클레오티드 일치에 대한 보상 = 약 2; 뉴클레오티드 불일치에 대한 보상 = - 약 3을 포함할 수 있다(도 8).

방법 또는 시스템의 제5 단계는 Got Table의 생성을 포함할 수 있다. Got Table은 쌍별 서열 비교의 BLAST 결과, 분석된 서열의 서열, 및 이용가능한 주석을 포함할 수 있다(도 9). 특정 비교된 쌍 사이에 일치가 식별되지 않았다는 점에서, 결과가 없는 BLAST 출력은 일치 없는 콘티그를 포함하여 삭제한다. E-값이 약 0.001 초과이거나, 퍼센트 동일성이 약 79% 미만이거나, 또는 적용범위 길이가 약 50 개 미만의 뉴클레오티드인 BLAST 결과도 삭제된다(도 10). 삭제되지 않은 쌍별 서열 비교는 일치라고 한다. 질의가 콘티그를 포함하고 복수의 질의 콘티그가 특정 참조 서열과 중첩 방식으로 일치하는 경우, 분석을 위해 포함된 콘티그를 선별할 필요가 있을 수 있다(도 11). 참조 서열의 쌍별 일치로 유지하도록 질의 콘티그는 선택하는 기준은 도 11(18)에 제공된 것들을 포함할 수 있다. Got Table의 생성에서, 질의는 중첩 콘티그에 의해 포괄된 유전자의 퍼센트가 약 95% 초과인 경우 질의는 참조 서열에 존재하거나, 중첩 콘티그에 의해 포괄된 유전자의 퍼센트가 약 80% 초과인 경우 부분적으로 참조에 존재하거나, 또는 중첩 콘티그에 의해 포괄된 유전자의 퍼센트가 약 79% 미만 또는 약 80% 미만인 경우 참조로부터 부재하는 것으로 간주될 수 있다(도 12). 다른 임계치를 또한 사용할 수 있다. 각각의 나머지 일치에 대해, SNP/크기 비를 계산할 수 있다 (일치의 돌연변이의 수와 일치의 길이 사이의 비)(도 12). 참조 서열의 전체 길이를 포괄하는 단일 콘티그가 선택되고, 질의 서열의 이러한 다중 콘티그가 참조 서열에 대해 존재하는 경우, 참조에 비해 가장 작은 돌연변이를 갖는 콘티그는 유지된다(도 12). 일치된 콘티그가 참조 서열의 전체 길이를 포괄하지 않는 경우, 약 0.5 미만의 SNP/크기 비를 갖는 모든 콘티그가 유지된다(도 12). Got Table은 또한 주석 정보를 통합할 수 있다(도 12). Got Table은 도 13에 제시된 것들을 포함하는 매개변수와 관련한 정보를 포함할 수 있다. 하나의 Got Table은 각각의 질의 서열에 대해 생성된다(도 13).

Got Table을 사용하여 다양한 정보 분석을 생성하고 출력을 표시할 수 있다. 하나의 이러한 출력은 비교 표이다. 비교 표를 생성하기 위해, 모든 참조 서열과 비교하여 각각의 질의 서열에 대한 Got Table에서 발견된 서열 유사성에 대한 정보를 유사성 점수를 변환한다(도 15). 유사성 점수를 질의와 대상 사이의 정렬의 퍼센트 적용범위, 및 질의와 대상 사이의 돌연변이의 수에 기반하여 할당한다. 유사성 점수는 예를 들어, 표 2에 따라 할당될 수 있다(또한 도 14 포함). 유사성 점수는 매트릭스에서 컴파일할 수 있으며, 이 매트릭스는 비교 표이다(도 14). 비교 표에서 발견된 유사성 수는 또한 관련 질의와 각각의 대상 서열 사이의 보존을 나타내는 히트랩으로 제시될 수 있다(도 15).

코딩 서열은 Got Table의 일치 좌표 및 연관 주석에 기반하여 질의 뉴클레오티드 서열에서 식별될 수 있다. 식별된 코딩 서열은 추출 및 번역될 수 있다(도 16). 번역된 서열은 정렬되고 추출된 서열에 대한 Got_Gene 폴더에 저장될 수 있다(도 16). 복수의 질의 콘티그가 참조 코딩 서열과 일치하는 경우, 중첩 콘티그를 단일 일치 서열로 병합한다. 참조 코딩 서열의 경계를 넘어 확장되는 질의 콘티그는 선별을 필요로 할 수 있다(도 16). 각각의 변이체 대상 코딩 서열 번역의 수 및 빈도는 표로 만들 수 있다(도 16). 추출된 서열은 또한 예를 들어, QuickTree를 사용하여 계통 발생적으로 분석될 수 있다(도 17). 개별 유전자에 대한 참조-기반 계통 발생은 참조 뉴클레오티드 서열을 사용하여 생성될 수 있다(도 17). 개별 게놈에 대한 게놈-기반 계통 발생은 모든 질의 서열에 걸쳐 가장 보존된 대상 서열에 기반하여 생성될 수 있으며, 예를 들어, 대상 서열은 함께 약 40,000 개 이하의 뉴클레오티드를 포함한다(도 17).

본 실시예는 본 실시예의 방법 및 시스템이 다양한 치료적 관련 적용에 사용될 수 있음을 입증한다. 이들은 그 중에서도 다음을 포함할 수 있다: (1) 표적화 항체의 임상 잠재력을 예측하기 위해 항원/에피토프의 유전적 보존 결정; (2) 질량 분석에 의한 펩티드 발견을 위한 아미노산 서열 변이체 식별; (3) 유전자/항원 내에서 다양성 영역을 강조하기 위해 서열 추출 및 정렬 생성; (4) 게놈 내에서 다양성/보존 영역 식별; (5) 잠재적 치료제 또는 백신 표적으로서 게놈 내에서 특성화되지 않은 관심 서열 식별; (6) 전염병-유발 병원체의 유전자형을 식별하기 위한 계통 발생 구축; (7) 잘못 주석달린 게놈으로부터 이종상동성 유전자 세트 검색; 및/또는 (8) 역학적 목적을 위해 균주의 관련성 구별.

실시예 2: B형 간염 바이러스의 신규 치료 항원을 식별하기 위한 방법 및 시스템의 사용

본 실시예에서, Got_Gene 프로그램을 사용하여 본원에 기재된 방법 및 시스템에 따라 HCC 종양 상의 MHC-1에 존재하는 신규 B형 간염 바이러스 펩티드를 식별하였다. B형 간염 바이러스(HBV)는 전세계적 건강 문제이며 간세포 암종(HCC)의 주요 원인이다(도 21). 만성 감염이 발생한 사람은 종종 바이러스 복제를 억제하기 위해 뉴클레오시드 유사체로 치료되지만 여전히 HCC의 위험이 고조되어 있다. 감염을 제거하지 못하는 면역계 능력의 주요 기여 인자는 만성 HBV 환자에서 HBV-특이적 T 세포의 수가 감소되고, 남아있는 많은 세포가 고갈된 표현형을 표시한다는 것이다.

종양학 분야에서, T 세포-재지향 항체는 이러한 세포의 표면 상에서 종양-특이적 항원의 이점을 취함으로써 종양 세포를 표적화 및 사멸시키는 공통 접근법이었다. 불행하게도, 감염된/종양 세포의 표면 상에서 발현되는 HBV 단백질은 없다. 그러나, MHC-I과 복합체화된 HBV 펩티드는 세포의 표면 상에 제시된다. 특정한 이전 노력은 MHC-I과 복합체화된 임상적으로 유용한 HBV 펩티드가 세포의 표면 상에 제시된다는 것을 식별하지 못하였다. 예를 들면, HBV+ 환자로부터 HCC 종양 샘플의 분석 시, 세포의 표면 상에 제시된 소수의 HBV 펩티드만이 처음에 질량 분석에 의해 식별되었다. 이는 적어도 부분적으로 이러한 펩티드의 예상된 서열에 관한 제한하였기 때문이었다. 질량 분석 프로토콜은 실험 설정에서 펩티드의 존재를 포획하기 위해 참조 게놈으로부터 유래된 미리 확립된 아미노산 서열 세트를 사용한다. 질량 분석은 펩티드 서열 변이 및 제시된-펩티드와 펩티드가 단일 검출에 극적인 영향을 미칠 수 있음을 식별하는 데 사용되는 참조 서열 사이의 단일 아미노산 변화에 매우 민감하다. 따라서 질량 분석 분석법에 사용될 옳은 참조 서열 세트를 확립하는 것이 중요하다.

본 실시예에 기재된 작업은 MHC-I과 복합체화된 HBV 펩티드가 치료 항체 개발을 위한, 예를 들어, 종양/감염된 세포에 대한 T 세포 반응을 유도하는 항-HBV PiG/CD3 이중특이적 항체의 개발에서 사용하기 위한 신규 후보 HBV 항원으로서 세포의 표면 상에 제시되어 있음을 식별하기 위해 수행되었다.

HBV는 약 4 개 폴리펩티드를 암호화하는 약 7 개 중첩 코딩 서열을 포함하는 약 3.1 kb의 원형 게놈을 갖는다(도 22). 주요 B형 간염 표면 항원(HBsAg) 단백질은 유전자 S에 의해 암호화된다(도 23). HbsAg는 HBV의 표면 항원이며 현재 B형 간염 감염을 나타내는 것으로 알려져 있다. 다양한 HBV 게놈이 전 세계 전반에 걸쳐 발견되고 있으며, 적어도 약 7,108 개의 HBV 게놈 서열이 공개되었다(도 24). Got_Gene에 의한 HBV 게놈의 분석은 원형 서열, 선형 서열, 단편화 서열, DNA 서열, RNA 서열, 데이터베이스 서열, 및 수동으로 제공된 서열을 포함하여 다양한 특성을 갖는 서열을 분석하는 프로그램의 능력을 입증한다(도 25).

본 실시예에서, RNAseq를 여러 HBV 샘플에 대해 수행하였다. 서열 판독을 사용하여 각각의 샘플에 대한 새로운 게놈 바이러스 서열을 구축하였다. 추가 HBV 게놈을 NCBI로부터 다운로드하였다(예를 들어, 도 18 참조). Got_Gene을 사용하여 모든 HBV 게놈으로부터 코딩 서열을 추출하였다(도 26). 모든 질의 HBV 게놈 및 참조 HBV 게놈의 코딩 서열을 BLAST에 의해 쌍별 비교하였다(도 27). 생성된 서열 비교 데이터를 포함하는 요약 표를 제조하였다(도 28). 서열 보존을 그래프(도 29), 히트맵(도 30), 및 계통 발생(도 31 및 32에서 예시적인 계통 발생 디스플레이 참조)에 표시하였다. 추출된 코딩 서열(예를 들어, 도 34 참조)을 아미노산 서열로 번역하였고(예를 들어, 도 35 참조) 아미노산 서열을 정렬하였다(예를 들어, 도 36 참조). 정렬된 아미노산 서열을 보존에 대해 분석하였다(도 36).

본 실시예에서 식별된 아미노산 서열을 상기 질량 분석 분석법 프로토콜에 추가하여 이전에 예상되지 않은 HBV 펩티드의 검출을 가능하게 하였다. 질량 분석 결과를 업데이트된 매개변수에 따라 재분석하였다. 이러한 분석은 감염된 세포의 표면 상에 제시된 신규 펩티드의 발견으로 이어졌다. 이러한 펩티드는 클래스-I 인간 HLA 결합에 대한 혼잡을 나타내어, 이들이 치료제 개발을 위한 유망한 표적이었음을 추가로 뒷받침하므로 특히 관심사였다.

Got_Gene을 또한 사용하여 약 7,000 개의 HBV 게놈에 걸쳐 강력한 HBV 항원의 다양성을 특성화하여 고도로 보존된 에피토프 영역을 식별하였다.

실시예 3: 샘플 게놈과 참조 게놈 모듬 사이의 유사성을 결정하기 위한 방법 및 시스템의 사용

역사적 이유 및 효율성 및 적합성과 관련된 이유에 대해, 실험실 또는 연구 커뮤니티는 종종 관심 유기체의 하나 또는 소수의 특정 균주를 사용하여 실험을 수행할 것이다. 이러한 실험실 균주는 종종 비-실험실 형태를 나타내는 것으로 간주된다(예를 들어, 동일한 유기체의 자연 또는 야생 예). 그러나, 이러한 전형적인 접근법에는 고유한 특정 단점이 있다. 특히, 특정 유기체의 실세계 다양성은 예를 들어, 주어진 실험에서 테스트된 실험실 샘플에 의해 나타낸 다양성보다 훨씬 더 크기 때문에, 반드시 실험실 결과가 관련 유기체 다양성의 전체 범위에 걸쳐 적용가능한 경우는 아니다. 임상 맥락으로부터 예를 제공하기 위해, 병원체의 특정 균주가 실험실 실험에 사용될 수 있지만, 임상 단리물은 실험실 균주에 의해 적절하게 나타낼 수 있거나 또는 나타낼 수 없는 서열의 더 큰 다양성을 나타낸다.

본 개시내용의 방법 및 시스템을 사용하여 제공된 서열(예를 들어, 실험실 균주의 게놈 서열)이 비-실험실 형태 중에서 보존된(또는 그렇지 않은) 서열을 특징으로 하는지 여부를 결정하였다. 따라서, 예를 들면, 본 개시내용의 방법 및 시스템을 적용하여 실험실 병원체 균주가 측정된 서열 보존에 기반하여 병원체의 임상 단리물을 나타내는지 여부를 결정할 수 있다. 이러한 사용은 하나 또는 소수의 실험실 테스트 균주가 더 광범위한 균주 집단을 나타내도록 의도된 실험에서 사용되는 경우(예를 들어, 하나 또는 소수의 병원체 균주가 실험실에서 사용될 수 있지만, 많은 상이한 균주가 임상 적용에 직면할 수 있는 경우) 특히 가치가 크다. 이러한 시나리오에서, 실험실 또는 테스트 균주가 참조 게놈 컬렉션, 예를 들어, 임상 관련성이 있는 게놈 컬렉션을 나타내는 것이 중요할 수 있다.

본 실시예에서, Got_Gene을 사용하여 샘플 게놈 및 참조 게놈 컬렉션의 유사성을 결정할 수 있다. 보다 구체적으로, Got_Gene을 사용하여 스타필로코쿠스 아우레우스의 특정 실험실 균주가 커뮤니티에서 질환을 유발하는 순환 균주를 나타내었음을 확립하였다. Got_Gene을 역학적 목적으로 균주 중에서 관련성을 용이하게 구별하기 위해 게놈-기반 계통 발생을 적용하였다. 슈도모나스 애루기노사 및 인플루엔자 바이러스의 실험실 균주가 임상적으로 관련되어 있는지 여부를 결정하기 위해 동일한 접근법을 성공적으로 적용하였다.

실시예 4: SARS-CoV-2 수용체-결합 도메인의 보존을 평가하기 위한 방법 및 시스템의 사용

코로나바이러스 질환 2019(COVID-19) 전세계 유행병은 그의 병인체인 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2)의 적응 메커니즘을 이해하기 위한 광범위한 노력에 동기를 부여하였다. 결과적으로, 전 세계의 과학자들 및 의료 전문가들은 환자 단리물로부터 SARS-CoV-2 게놈을 서열분석하고 모든 인플루엔자 데이터를 공유하는 국제 계획(GISAID. https://www.gisaid.org)과 같은 선별된 데이터 보고를 통해 전례없는 속도로 결과물을 전파하였다. 이는 전염 패턴을 결정하고 독성 및 질환 중증도와 연관될 수 있는 SARS-CoV-2 변이체를 식별하는 데 유용한 고유한 데이터세트를 제공하였다.

SARS-CoV-2 구조의 개략도는 도 47에 제공되어 있다. 이는 4 개의 구조적 단백질인 뉴클레오시드(N) 단백질, 막(M) 단백질, 스파이크(S) 단백질 및 외피(E) 단백질 및 여러 비-구조적 단백질(nsp)을 포함한다. 캡시드는 바이러스의 단백질 껍질이다. 캡시드 내부에는, 바이러스의 바이러스 단일 양성 가닥 RNA 게놈에 결합된 뉴클레오캡시드가 있다. 코로나바이러스 게놈은 약 30,000 개의 뉴클레오티드를 포함한다. RNA 형태의 게놈 서열은 컴퓨팅 기술 및/또는 분자 생물학 기술을 사용하여 DNA 형태로 용이하게 변환 또는 번역될 수 있다.

복제 틈새를 확립하고 선천성 및 적응성 면역 반응에 대응하기 위해, SARS-CoV-2는 숙주 환경에 적응해야 한다. 적응의 공통 메커니즘은 항원성 변이이며, 여기서 항체에 의해 인식되는 바이러스 표적은 바이러스가 인식, 및 제거를 피하도록 탈출 돌연변이를 발생시킨다. 항원성 변이의 결과는 지속적인 바이러스 감염, 질환의 유행병, 및 회복 후 재감염을 포함할 수 있다. COVID-19 치료 개발의 맥락에서, 신생 돌연변이는 표적의 단백질 구조를 변형시킴으로써 항체 기반-치료의 효능이 틀렸음을 입증할 수 있기 때문에, 항원성 변이가 또한 치료제 효능에 영향을 미친다.

바이러스 스파이크 단백질(S)의 SARS-CoV-2 수용체-결합 도메인(RBD)은 COVID-19 환자 혈청 또는 혈장 샘플에서 강력한 중화 항-S 항체의 주요 표적이다. 따라서, S는 COVID-19의 치료를 위한 항체 개발에서 중요한 표적이다. RBD의 유전적 보존은 적어도 항-S 항체를 포함한 치료와 관련하여 항체-기반 치료 성공을 보장하는 데 중요하다. 이 맥락에서, Got_Gene을 사용하여 RBD의 유전적 다양성을 평가하였다.

2020년 1월 초에 처음으로 SARS-CoV-2 게놈 서열이 보고된 이후, 2020년 10월 기준으로 약 120,000 개의 서열이 GISAID에 기탁되었다(https://www.gisaid.org/). 본 실시예에서, Got_Gene 알고리즘을 사용하여 총 118,728 개의 선별된 게놈 서열로부터 검색된 스파이크-암호화 유전자 서열의 동일성을 추출, 필터링 및 비교하였다. 이 실시예에서, 코딩 서열을 GenBank 파일 주석을 사용하여 참조 SARS-CoV-2 게놈으로부터 추출하였다(도 49의 개략도에 부분적으로 예시됨). 서열 정렬을 위해 BLASTn을 사용하여, 선별된 게놈 서열 및 스파이크 단백질 참조 서열 각각 사이에서 쌍별 비교를 수행하였다. 분석된 질의 서열의 누적 수는 도 50에 그래프로 제시되어 있다. 정렬 후, 스파이크 단백질 참조 서열과 정렬된 코딩 서열을 선별된 게놈 서열로부터 추출하였다. 그런 다음 스파이크 단백질 참조 서열과 정렬된 게놈 서열을 표 2에 제시된 바와 같은 적용범위 길이 및 돌연변이의 수에 기반하여 범주화하였다. 스파이크 단백질 참조 서열과의 비교로부터 할당된 유사성 점수가 0.8 미만인 서열을 추가 분석으로부터 제거하였다. 스파이크 단백질 참조 서열과 정렬된 분석에 남아있는 서열을 아미노산 서열로 번역하였고 아미노산 서열을 BLASTp를 사용하여 정렬하였다(도 51의 개략도에 부분적으로 예시됨). 이 분석은 스파이크 단백질의 각각의 정렬된 위치에 존재하는 아미노산 범위를 식별하게 하였다(도 52의 개략도에 부분적으로 예시됨).

결과는 SARS-CoV-2 스파이크 단백질의 965개의 가변 아미노산 위치 및 총 1782개의 고유한 아미노산 변화 수를 식별하였다. 예상된 바와 같이, 118,728 개의 게놈 중, 대부분의 변이체는 하나의 주어진 게놈(단독 개체)에서만 식별되었다. 그러나, 100개 초과의 균주에 걸쳐 공유된 47 개의 아미노산 변화(높은 빈도 변이체 또는 HFV)를 식별하였다. 스파이크 단백질 내에서 식별된 HFV는 N-말단 및 S2 도메인 내에서 축적되는 것으로 밝혀졌다. RBD는 인간 ACE2 수용체와 직접 상호작용하는 수용체-결합 모티프 내에서 식별된 2 개의 HFV(N439K 및 S477N)을 제외하고 HFV를 할애하였다. 전반적으로, S 단백질은 서열 다양성이 비교적 거의 없음을 나타내었다. 이 연구에 사용되는 118,728 개의 균주 중에서, 7 개의 변이체(L5F, L18F, R21I, A222V, S477N, D614G, 및 D936Y)만이 0.6% 초과의 빈도에서 관찰되었다.

본 실시예의 하나의 유의한 발견은 SARS-CoV-2 에피토프 보존이 이러한 매우 성공적인 인간 병원체에서 예외가 아니라 규칙이라는 강력한 증거이다. SARS-CoV-2 RBD는 COVID-19 환자 혈청 또는 혈장 샘플에서 강력한 중화 항-S 항체의 주요 표적이다. 따라서, 치료 항체에 의해 부과되는 대부분의 선택적 압력은 이 도메인을 표적해야 한다. RBD 보존의 엄밀한 검사는 모든 SARS-CoV-2 균주의 >0.15%에서 전파되는 돌연변이 축적의 증거가 거의 없음을 나타내었다. 여러 RBD 변이체가 순환 SARS-CoV-2 단리물 중에서 식별되었지만, 그들 중 어떤 것도 이 연구에서 측정된 바와 같은 바이러스 집단에서 주목가능한 빈도에 도달하지 않았다. 전체적으로, 이러한 데이터는 순환 SARS-CoV-2에서 RBD-표적화 항체 에피토프의 보존을 시사하며; 따라서 S-기반 치료가 모든 순환 SARS-CoV-2 바이러스에 대해 효과적이어야 하는 이유를 설명한다.

실시예 5: 에피토프 변이를 평가하기 위한 방법 및 시스템의 사용

2019년 후반에 SARS-CoV-2의 출현 및 인간 건강에 대한 후속적인 해로운 영향은 수백만 명의 감염 및 상당한 이환율 및 사망률로 이어졌다. COVID-19 유행병을 막기 위한 노력으로, Regeneron Pharmaceuticals는 SARS-CoV-2 바이러스를 퇴치하기 위해 전용된 단클론 항체의 칵테일을 개발하는 최첨단 기술을 적용하였다(예를 들어, 미국 특허 번호 제10,787,501호를 참조하며, 특히 COVID-19 치료 항체뿐만 아니라 이들의 에피토프 및 다른 특성에 대하여 그 전문이 본원에 참조로 포함된다. 예시적인 항-SARS-CoV-2-스파이크 단백질(SARS-CoV-2-S) 항체 서열을 제공하는 미국 특허 번호 제10,787,501호의 표 1은 구체적으로 그 전체가 참조로 포함된다.). Regeneron은 수백 개의 바이러스-중화 항체를 생성하고 인간 COVID-19 생존자로부터 유사한 성능의 항체를 식별하기 시작하였다. 이러한 항체는 스파이크 단백질의 수용체 결합 도메인(RBD)으로부터 에피토프를 특이적으로 인식하였다.

동일한 항원(예를 들어, SARS-CoV-2 스파이크 단백질)을 표적화하는 개별 항체는 항원 내에서 상이한 구조적 표적(에피토프)을 가질 수 있고 적어도 그러한 이유로 인해 별개의 특성, 예를 들어, 개별 대상체에서 및/또는 대상체 집단에 걸쳐 별개의 임상 성능을 가질 수 있다. 적어도 하나의 접근법에 따르면, 항원의 더 보존된 에피토프에 결합하는 항체는 항원의 덜 보존된 에피토프에 결합하는 항체보다 바람직하여, 임의의 주어진 균주 또는 환자에서, 또는 환자 집단에 걸쳐, 항체가 표적 항원에 효과적으로 결합할 가능성이 더 크고/크거나 치료 효과를 갖도록 한다. 상이한 항체의 수가 이용가능하고 별개의 에피토프에 대한 정보가 이용가능한 경우, 서열 분석을 사용하여 항체가 유리하게 더 보존된 에피토프에 결합하는지를 결정할 수 있다. 본 실시예는 이 추론을 COVID-19의 치료를 위한 항체의 개발에 적용한다. 본 개시내용의 방법 및 시스템을 사용하여 수천 개의 순환 SARS-CoV-2 균주에 걸쳐 복수의 항체의 SARS-CoV-2 에피토프 보존을 평가하였으며, 여기서 더 보존된 에피토프를 표적화하는 항체를 추가 치료 평가를 위해 선택 또는 선호하였다.

수천 개의 게놈에 걸친 에피토프 유전자 서열의 비교 분석은 고유한 참조 게놈에 대한 각각의 게놈 서열의 빠른 쌍별 비교를 가능하게 하는 Got_Gene 알고리즘을 사용하여 수행하였다. 120,000 개 초과의 SARS-CoV-2 선별된 게놈 서열을 모든 인플루엔자 데이터 공유 국제 계획(GISAID) 데이터베이스로부터 추출하였다.

GISAID로부터의 SARS-CoV-2 뉴클레오티드 서열을 Got_Gene 프로그램 내의 BLASTn을 사용하여 SARS-CoV-2 참조 게놈 뉴클레오티드 서열(GenBank 수탁: MN908947)과 정렬하였다. 쌍별 비교를 선별된 게놈 서열과 SARS-CoV-2 참조 게놈 서열 각각 사이에서 수행하였다. 정렬 후, 참조 SARS-CoV-2 게놈의 스파이크 핵산 서열과 정렬된 게놈 서열을 평가하여 스파이크 핵산 서열의 존재를 검증하였다. Got_Gene은 특정 임계치에 따라 스파이크 단백질의 존재, 완전성 결여, 또는 부재에 관한 결정에 기반하여 게놈의 그룹 범주를 생성하였다. 각각의 서열에 대해, 스파이크 단백질을 참조와 비교하여 95% 초과의 퍼센트 적용범위를 생성하는 경우 존재, 참조와 비교하여 70% 초과 95% 미만의 퍼센트 적용범위를 생성하는 경우 부분적으로 존재 또는 완전성 결여, 또는 참조와 비교하여 70% 미만의 퍼센트 적용범위를 생성하는 경우 부재로 식별하였다. 스파이크 단백질 참조 서열과 비교하여 적용범위 길이 >95% 및 퍼센트 동일성 >70%를 생성하는 경우 스파이크 서열의 존재를 검증하였다. 이 임계치에 따라 검증된 서열을 추가 분석을 위해 유지하였고, 다른 모든 것을 제거하였다. Got_Gene은 각각의 선별된 게놈 서열로부터 스파이크 단백질 코딩 서열을 추출하였고 각각의 선별된 게놈 서열로부터의 검증된 이종상동성 스파이크 서열을 아미노산 서열로 번역하였다. 그런 다음 아미노산 서열을 BLASTp를 사용하여 정렬하였고 아미노산 변이체를 식별하였다. 에피토프 위치를 구현하였고 각각의 에피토프에 대한 변이체 빈도를 계산하였다.

실시예 6: 치료된 대상체에서 추정 탈출 변이체의 선택을 평가하기 위한 방법 및 시스템의 사용

본 실시예는 서열 다양성에 대한 자극의 영향, 특히 바이러스 서열 다양성에 대한 바이러스 요법의 영향을 평가하기 위한 본 개시내용의 방법 및 시스템의 사용을 입증한다. 본 실시예는 구체적으로 치료 수용자에서 SARS-CoV-2 서열 다양성에 대한 항체-기반 COVID-19 요법의 영향을 평가하기 위한 본 개시내용의 방법 및 시스템의 사용을 입증한다.

2 개의 강력한 Regeneron 항체(REGN10933 및 REGN10987)는 Regeneron의 REGN-COV2 항체 요법을 형성한다(또한 미국 특허 번호 제10,787,501호를 참조하며, 이는 특히 COVID-19 치료 항체뿐만 아니라 그의 에피토프 및 다른 특성에 대하여 그 전문이 본원에 참조로 포함된다. 예시적인 항-SARS-CoV-2-스파이크 단백질(SARS-CoV-2-S) 항체 서열을 제공하는 미국 특허 번호 제10,787,501호의 표 1은 그 전체가 참조로 구체적으로 포함된다.). 9월에, Regeneron은 275 명의 입원하지 않은 COVID-19 환자에서 바이러스 게놈 서열에 대한 REGN-COV2 항체 칵테일의 효과를 보여주는 초기 임상 데이터를 발표하였다. 이 연구의 한 가지 목표는 REGN-COV2 치료의 치료적 투여 후 환자로부터 SARS-CoV-2 단리물의 추정 탈출 변이체(바이러스가 항체 인식을 피하게 한다는 점에서 바이러스에 유익한 돌연변이)의 선택을 평가하는 것이었다.

본 실시예에서, REGN-COV2 치료를 받은 환자로부터 단리된 바이러스 게놈을 서열분석하였고, Got_Gene 프로그램을 사용하여 단리된 게놈에서 신규 돌연변이를 식별하였다. 서열 정렬을 위해 BLASTn을 사용하여, 단리된 게놈 서열과 스파이크 단백질을 암호화하는 참조 서열 각각 사이에서 쌍별 비교를 수행하였다. 정렬 후, 스파이크 단백질을 암호화하는 참조 서열과 정렬된 서열을 선별된 게놈 서열로부터 질의 코딩 서열로서 추출하였다. 그런 다음 스파이크 단백질 참조 서열과 정렬된 게놈 서열을 표 2에 제시된 바와 같은 적용범위 길이 및 돌연변이 수에 기반하여 범주화하였다. 스파이크 단백질 참조 서열과의 비교에서 할당된 유사성 점수가 0.8 미만인 서열을 추가 분석으로부터 제거하였다. 스파이크 단백질 참조 서열과 정렬된 분석에 남아있는 서열을 아미노산 서열로 번역하였고 아미노산 서열을 BLASTp를 사용하여 정렬하였다. 이 분석은 스파이크 단백질의 각각의 정렬된 위치에 존재하는 아미노산의 범위를 식별하게 하였다. 따라서, Got_Gene을 사용하여 모든 게놈으로부터 스파이크-암호화 유전자 서열을 추출 및 번역하고 이들을 참조 서열과 비교하여 신규 돌연변이가 중화 항체에 의해 인식된 영역에서 아미노산 변화를 야기하는 게놈을 식별하였다. 에피토프 서열 돌연변이는 추정 탈출 변이체일 수 있다. 궁극적으로, 분석은 치료가 모든 환자 샘플에 걸쳐 SARS-CoV-2 S 단백질에서 돌연변이의 출현으로 이어질 수 있는지 평가하였다.

실시예 7: 개인맞춤형 의약품에서 방법 및 시스템의 사용

본 실시예는 본 개시내용의 방법 및 시스템이 관심 치료적 치료에 호의적으로 반응할 가능성이 있는 대상체를 선택하기 위해 사용될 수 있음을 예시한다. 특히, 본 실시예는 환자가 바이러스 감염의 치료를 위한 항체 요법의 투여로부터 이익을 얻을 가능성이 있는지 여부를 결정하기 위해 감염된 환자로부터 바이러스 서열 분석을 개시한다. 예를 들면, Got_Gene 프로그램을 사용하여 치료받지 않은 환자에서 추정 탈출 변이체를 식별할 수 있다. 또한 Got_Gene 프로그램을 사용하여 추정 탈출 가능성이 있는 신규 돌연변이를 식별할 수 있다. 이 경우, Got_Gene을 사용하여 치료받지 않은 환자로부터 단리된 게놈으로부터 스파이크-암호화 유전자 서열을 추출 및 번역하여 실시예 6에 제시된 바와 같이, 스파이크 단백질 참조 서열과 비교하여 스파이크 단백질 돌연변이를 식별한다. 식별된 스파이크 단백질 돌연변이는 치료 효능에 부정적인 영향을 미치는 것으로 알려져 있거나 또는 예상되는 유해한 변이체의 미리 확립된 목록과 비교할 수 있다. 이 분석은 Got_Gene이 환자를 감염 바이러스 균주의 유전적 배경에 기반하여 그룹(치료 취약 대 치료 내성)으로 분류하게 한다.

다른 구현예

본 발명자들은 다수의 구현예를 기재하였지만, 본 발명의 기본 개시내용 및 예가 본원에 기재된 조성물 및 방법을 활용하거나 또는 이에 의해 포함되는 다른 구현예를 제공할 수 있음이 명백하다. 따라서, 이의 범위는 예로서 나타낸 특정 구현예 보다는 개시내용 및 첨부된 청구범위로부터 이해될 수 있는 것에 의해 정의되어야 함이 이해될 것이다.

본원에 언급된 모든 참고문헌은 참조로 본원에 포함된다.

SEQUENCE LISTING <110> REGENERON PHARMACEUTICALS, INC. <120> METHODS AND SYSTEMS FOR IDENTIFYING, CLASSIFYING, AND/OR RANKING GENETIC SEQUENCES <130> 2010794-2132 <140> <141> <150> 62/993,567 <151> 2020-03-23 <150> 62/934,323 <151> 2019-11-12 <160> 108 <170> PatentIn version 3.5 <210> 1 <211> 1751 <212> DNA <213> Unknown <220> <221> source <223> /note="Description of Unknown: HA_1755_bp_B_Lee_1940 sequence" <400> 1 atgaaggcaa taattgtact actcatggta gtaacatcca atgcagaccg aatctgcact 60 gggataacat cttcaaactc acctcatgtg gtcaaaacag ctactcaagg ggaggtcaat 120 gtgactggcg tgataccact gacaacaaca ccaacaaaat cttattttgc aaatctcaaa 180 ggaacaagga ccagagggaa actatgcccg gactgtctca actgtacaga tctggatgtg 240 gccttgggca ggccaatgtg tgtggggacc acaccttctg ctaaagcttc aatactccat 300 gaggtcagac ctgttacatc cgggtgcttt cctataatgc acgacagaac aaaaatcaga 360 caactaccca atcttctcag aggatatgaa aagatcaggt tatcaaccca aaacgttatc 420 gatgcagaaa aagcaccagg aggaccctac agacttggaa cctcaggatc ttgccctaac 480 gctaccagta aaattggatt ttttgcaaca atggcttggg ctgttccaaa ggacaactac 540 aaaaatgcaa cgaacccaca aacagtggaa gtaccataca tttgtacaga aggggaagac 600 caaattactg tttgggggtt tcattcggat aacaaaaccc aaatgaagag cctctatgga 660 gactcaaatc ctcaaaagtt cacctcatct gctaatggag tgaccacaca ttatgtttct 720 cagattggcg acttcccaga tcaaacagaa gacggaggac taccacaaag cggcagaatt 780 gttgttgatt acatggtgca aaaacctggg aaaacaggaa caattgtcta tcaaaggggt 840 gttttgttgc ctcaaaaggt gtggtgcgcg agtggccgga gcaaagtaat aaaagggtca 900 ttgcctttaa ttggtgaagc agattgcctt catgaagaat atggtggatt aaacaaaagc 960 aagccttact acacaggaaa acatgcaaaa gccataggaa attgcccaat atgggtaaaa 1020 acacctttga agcttgccaa tggaaccaaa tatagacctc ctgcaaaact attgaaggaa 1080 aggggtttct tcggagctat tgctggtttc ctagaaggag gatgggaagg aatgattgca 1140 ggttggcacg gatacacatc tcacggagca catggagtgg cagtggcggc agaccttaaa 1200 agtacacaag aagctataaa caagataaca aaaaatctca attctttgag tgaactagaa 1260 gtaaagaacc ttcaaagact aagtggtgcc atggatgaac tccacaacga aatacttgag 1320 ctggatgaaa aagtggatga cctcagagct gacactataa gctcacaaat agaacttgca 1380 gtcttgcttt ccaacgaagg aataataaac agtgaagatg agcatctatt ggcacttgag 1440 agaaaactaa agaaaatgct gggtccctct gctgtagaca taggaaacgg atgcttcgaa 1500 accaaacaca aatgcaacca gacctgctta gacaggatag ctgctggcac ctttaatgca 1560 ggagaatttt ctctccccac ttttgactca ttgaacatta ctgctgcatc tttaaatgat 1620 gatggattgg ataaccatac tatactgctc tattactcaa ctgctgcttc tagtttggct 1680 gtaacattaa tgctagctat ttttattgtt tatatggtct ccagagacaa cgtttcatgc 1740 tccatctgtc t 1751 <210> 2 <211> 1751 <212> DNA <213> Unknown <220> <221> source <223> /note="Description of Unknown: HA_1755_bp_B_Alabama_02_2018 sequence" <400> 2 atgaaggcaa taattgtact actcatggta gtaacatcca atgcagaccg aatctgcact 60 gggataacat cttcaaactc acctcatgtg gtcaaaacag ctactcaagg ggaggtcaat 120 gtgactggcg tgataccact gacaacaaca ccaacaaaat cttattttgc aaatctcaaa 180 ggaacaagga ccagagggaa actgtgcccg gactgtctca attgtacaga tctggatgtg 240 gccttgggca ggccaatgtg tgtggggacc acaccttctg ctaaagcttc aatactccat 300 gaggtcagac ctgttacatc cgggtgcttt cctataatgc acgacagaac aaaaatcaga 360 caactaccca atcttctcag aggatatgaa aagatcaggt tatcaaccca aaacgttatc 420 gatgcagaaa aagcaccagg aggaccctac agacttggaa cctcaggatc ttgccctaac 480 gctaccagta aaattggatt ttttgcaaca atggcttggg ctgttccgaa ggacaactat 540 aaaaatgcaa cgaacccaca aacagtggaa gtaccataca tctgtacaga aggggaagac 600 caaattactg tttgggggtt tcattcggat aacaaaaccc aaatgaagag cctctatgga 660 gactcaaatc ctcaaaagtt cacctcatct gccaatggag tgaccacaca ttatgtttct 720 cagattggcg acttcccaga tcaaacagaa gacggaggac taccacaaag cggcagaatt 780 gttgttgatt acatggtgca aaaacctggg aaaacaggaa caattgtcta tcaaaggggt 840 gttttgttgc ctcaaaaggt gtggtgcgcg agtggcagga gcaaagtaat aaaagggtca 900 ttgcctttaa ttggtgaagc agattgcctt catgaagaat acggtggatt gaacaaaagc 960 aagccttact acacaggaaa acatgcaaaa gccataggaa attgcccaat atgggtaaaa 1020 acacctttga agcttgccaa tggaaccaaa tatagacctc ctgcaaaact attgaaagaa 1080 aggggtttct tcggagctat tgctggtttc ctagaaggag gatgggaagg aatgattgca 1140 ggttggcacg gatacacatc tcacggagca catggagtgg cagtggcggc agaccttaaa 1200 agtacacaag aagctataaa caagataaca aaaaatctca attctttgag tgaactagaa 1260 gtaaagaacc ttcaaagact aagtggtgcc atggatgaac tccacaacga aatacttgag 1320 ctggatgaaa aagtggatga cctcagagct gacactataa gctcacaaat agaacttgca 1380 gtcttgcttt ccaacgaagg aataataaac agtgaagatg agcatctatt ggcacttgag 1440 agaaaactaa agaaaatgct gggtccctct gctgtagaca taggaaacgg atgcttcgaa 1500 accaaacaca aatgcaacca gacctgctta gacaggatag ctgctggcac ctttaatgca 1560 ggagaatttt ctctccccac ttttgactca ttgaacatta ctgctgcatc tttaaatgat 1620 gatggattgg ataaccatac tatactgctc tattactcaa ctgctgcttc tagtttggct 1680 gtaacattaa tgctagctat ttttattgtt tatatggtct ccagagacaa cgtttcatgc 1740 tccatctgtc t 1751 <210> 3 <211> 1751 <212> DNA <213> Unknown <220> <221> source <223> /note="Description of Unknown: HA_1755_bp_B_Alabama_04_2018 sequence" <400> 3 atgaagacaa taattgtact actcatggta gtaacatcca atgcagatcg aatctgcact 60 gggataacat cttcaaactc acctcatgtg gtcaaaacag ctactcaagg ggaggtcaat 120 gtgactggcg tgataccact gacaacaaca ccaacaaaat cttattttgc aaatctcaaa 180 ggaacaagga ccagagggaa actatgcccg gactgtctca actgtacaga tctggatgtg 240 gccttgggca ggccaatgtg tgtggggacc acaccttctg ctaaagcttc aatactccat 300 gaggtcagac ctgttacatc cgggtgcttt cctataatgc acgacagaac aaaaatcaga 360 caactaccca atcttctcag aggatatgaa aagatcaggt tgtcaaccca aaacgttatc 420 gatgcagaaa aagcaccagg aggaccctac agacttggaa cctcaggatc ttgccctaac 480 gctaccagta aaattggatt ttttgcaaca atggcttggg ctgttccaaa ggacaactac 540 aaaaatgcaa cgaacccaca aacagtggaa gtaccataca tttgtacaga aggggaagac 600 caaattactg tttgggggtt ccattcggat aacaaaaccc aaatgaagag cctctatgga 660 gactcaaatc ctcaaaagtt cacctcatct gctaatggag tgaccacaca ttatgtttct 720 cagattggcg acttcccaga tcaaacagaa gacggagggc taccacaaag cggcagaatt 780 gttgttgatt acatggtgca aaaacctggg aaaacaggaa caattgtcta tcaaaggggt 840 gttttgttgc ctcaaaaggt gtggtgcgcg agtggcagga gcaaagtaat aaaagggtca 900 ttgcctttaa ttggtgaagc agattgcctt catgaagaat acggtggatt aaacaaaagc 960 aagccttact acacaggaaa acatgcaaaa gccataggaa attgcccaat atgggtaaaa 1020 acacctttga agcttgctaa tggaaccaaa tatagacctc ctgcaaaact attgaaggaa 1080 aggggtttct tcggagctat tgctggtttc ctagaaggag gatgggaagg aatgattgca 1140 ggctggcacg gatacacatc tcacggagca catggagtgg cagtggcggc agaccttaag 1200 agtacacaag aagctataaa taagataaca aaaaatctca attctttgag tgaactagaa 1260 gtaaagaacc ttcaaagact aagtggtgcc atggatgaac tccacaacga aatactcgag 1320 ctggatgaaa aagtggatga cctcagagct gacactataa gctcacaaat agaacttgca 1380 gtcttgcttt ccaacgaagg aataataaac agtgaagatg agcatctatt ggcacttgag 1440 agaaaactaa agaaaatgct gggtccctct gctgtagaca taggaaacgg atgcttcgaa 1500 accaaacaca aatgcaacca gacctgctta gacaggatag ctgctggcac ctttaatgca 1560 ggagaatttt ctctccccac ttttgactca ttgaacatta ctgctgcatc tttaaatgat 1620 gatggattgg ataaccatac tatactgctc tattactcaa ctgctgcttc tagtttggct 1680 gtaacattaa tgctagctat ttttattgtt tatatggtct ccagagacaa cgtttcatgc 1740 tccatctgtc t 1751 <210> 4 <211> 1751 <212> DNA <213> Unknown <220> <221> source <223> /note="Description of Unknown: HA_1755_bp_B_Alabama_05_2018 sequence" <400> 4 atgaaggcaa taattgtact actcatggta gtaacatcca atgcagaccg aatctgcact 60 gggataacat cttcaaactc acctcatgtg gtcaaaacag ctactcaagg ggaggtcaat 120 gtgactggcg tgataccact gacaacaaca ccaacaaaat cttattttgc aaatctcaaa 180 ggaacaagga ccagagggaa actatgcccg gactgtctca actgtacaga tctggatgtg 240 gccttgggca ggccaatgtg tgtggggacc acaccttctg ctaaagcttc aatactccat 300 gaggtcagac ctgttacatc cgggtgcttt cctataatgc acgacagaac aaaaatcaga 360 caactaccca atcttctcag aggatatgaa aagatcaggt tatcaaccca aaacgttatc 420 gatgcagaaa aagcaccagg aggaccctac agacttggaa cctcaggatc ttgccctaac 480 gctaccagta aaattggatt ttttgcaaca atggcttggg ctgttccaaa ggacaactac 540 aaaaatgcaa cgaacccaca aacagtggaa gtaccataca tttgtacaga aggggaagac 600 caaattactg tttgggggtt tcattcggat aacaaaaccc aaatgaagag cctctatgga 660 gactcaaatc ctcaaaagtt cacctcatct gctaatggag tgaccacaca ttatgtttct 720 cagattggcg acttcccaga tcaaacagaa gacggaggac taccacaaag cggcagaatt 780 gttgttgatt acatggtgca aaaacctggg aaaacaggaa caattgtcta tcaaaggggt 840 gttttgttgc ctcaaaaggt gtggtgcgcg agtggccgga gcaaagtaat aaaagggtca 900 ttgcctttaa ttggtgaagc agattgcctt catgaagaat atggtggatt aaacaaaagc 960 aagccttact acacaggaaa acatgcaaaa gccataggaa attgcccaat atgggtaaaa 1020 acacctttga agcttgccaa tggaaccaaa tatagacctc ctgcaaaact attgaaggaa 1080 aggggtttct tcggagctat tgctggtttc ctagaaggag gatgggaagg aatgattgca 1140 ggttggcacg gatacacatc tcacggagca catggagtgg cagtggcggc agaccttaaa 1200 agtacacaag aagctataaa caagataaca aaaaatctca attctttgag tgaactagaa 1260 gtaaagaacc ttcaaagact aagtggtgcc atggatgaac tccacaacga aataattgag 1320 ctggatgaaa aagtggatga cctcagagct gacactataa gctcacaaat agaacttgca 1380 gtcttgcttt ccaacgaggg aataataaac agtgaagatg agcatctatt ggcacttgag 1440 agaaaactaa agaaaatgct gggtccctct gctgtagaca taggaaacgg atgcttcgaa 1500 accaaacaca aatgcaacca gacctgctta gacaggatag ctgctggcac ctttaatgca 1560 ggagaatttt ctctccccac ttttgactca ttgaacatta ctgctgcatc tttaaatgat 1620 gatgggttgg ataaccatac tatactgctc tattactcaa ctgctgcttc tagtttggct 1680 gtaacattaa tgctagctat ttttattgtt tatatggtct ccagagacaa cgtttcatgc 1740 tccatctgtc t 1751 <210> 5 <211> 584 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: HA_1755_bp_B_Lee_1940 sequence" <400> 5 Met Lys Ala Ile Ile Val Leu Leu Met Val Val Thr Ser Asn Ala Asp 1 5 10 15 Arg Ile Cys Thr Gly Ile Thr Ser Ser Asn Ser Pro His Val Val Lys 20 25 30 Thr Ala Thr Gln Gly Glu Val Asn Val Thr Gly Val Ile Pro Leu Thr 35 40 45 Thr Thr Pro Thr Lys Ser His Phe Ala Asn Leu Lys Gly Thr Gln Thr 50 55 60 Arg Gly Lys Leu Cys Pro Asn Cys Phe Asn Cys Thr Asp Leu Asp Val 65 70 75 80 Ala Leu Gly Arg Pro Lys Cys Met Gly Asn Thr Pro Ser Ala Lys Val 85 90 95 Ser Ile Leu His Glu Val Lys Pro Ala Thr Ser Gly Cys Phe Pro Ile 100 105 110 Met His Asp Arg Thr Lys Ile Arg Gln Leu Pro Asn Leu Leu Arg Gly 115 120 125 Tyr Glu Asn Ile Arg Leu Ser Thr Ser Asn Val Ile Asn Thr Glu Thr 130 135 140 Ala Pro Gly Gly Pro Tyr Lys Val Gly Thr Ser Gly Ser Cys Pro Asn 145 150 155 160 Val Ala Asn Gly Asn Gly Phe Phe Asn Thr Met Ala Trp Val Ile Pro 165 170 175 Lys Asp Asn Asn Lys Thr Ala Ile Asn Pro Val Thr Val Glu Val Pro 180 185 190 Tyr Ile Cys Ser Glu Gly Glu Asp Gln Ile Thr Val Trp Gly Phe His 195 200 205 Ser Asp Asp Lys Thr Gln Met Glu Arg Leu Tyr Gly Asp Ser Asn Pro 210 215 220 Gln Lys Phe Thr Ser Ser Ala Asn Gly Val Thr Thr His Tyr Val Ser 225 230 235 240 Gln Ile Gly Gly Phe Pro Asn Gln Thr Glu Asp Glu Gly Leu Lys Gln 245 250 255 Ser Gly Arg Ile Val Val Asp Tyr Met Val Gln Lys Pro Gly Lys Thr 260 265 270 Gly Thr Ile Val Tyr Gln Arg Gly Ile Leu Leu Pro Gln Lys Val Trp 275 280 285 Cys Ala Ser Gly Arg Ser Lys Val Ile Lys Gly Ser Leu Pro Leu Ile 290 295 300 Gly Glu Ala Asp Cys Leu His Glu Lys Tyr Gly Gly Leu Asn Lys Ser 305 310 315 320 Lys Pro Tyr Tyr Thr Gly Glu His Ala Lys Ala Ile Gly Asn Cys Pro 325 330 335 Ile Trp Val Lys Thr Pro Leu Lys Leu Ala Asn Gly Thr Lys Tyr Arg 340 345 350 Pro Pro Ala Lys Leu Leu Lys Glu Arg Gly Phe Phe Gly Ala Ile Ala 355 360 365 Gly Phe Leu Glu Gly Gly Trp Glu Gly Met Ile Ala Gly Trp His Gly 370 375 380 Tyr Thr Ser His Gly Ala His Gly Val Ala Val Ala Ala Asp Leu Lys 385 390 395 400 Ser Thr Gln Glu Ala Ile Asn Lys Ile Thr Lys Asn Leu Asn Tyr Leu 405 410 415 Ser Glu Leu Glu Val Lys Asn Leu Gln Arg Leu Ser Gly Ala Met Asn 420 425 430 Glu Leu His Asp Glu Ile Leu Glu Leu Asp Glu Lys Val Asp Asp Leu 435 440 445 Arg Ala Asp Thr Ile Ser Ser Gln Ile Glu Leu Ala Val Leu Leu Ser 450 455 460 Asn Glu Gly Ile Ile Asn Ser Glu Asp Glu His Leu Leu Ala Leu Glu 465 470 475 480 Arg Lys Leu Lys Lys Met Leu Gly Pro Ser Ala Val Glu Ile Gly Asn 485 490 495 Gly Cys Phe Glu Thr Lys His Lys Cys Asn Gln Thr Cys Leu Asp Arg 500 505 510 Ile Ala Ala Gly Thr Phe Asn Ala Gly Asp Phe Ser Leu Pro Thr Phe 515 520 525 Asp Ser Leu Asn Ile Thr Ala Ala Ser Leu Asn Asp Asp Gly Leu Asp 530 535 540 Asn His Thr Ile Leu Leu Tyr Tyr Ser Thr Ala Ala Ser Ser Leu Ala 545 550 555 560 Val Thr Leu Met Ile Ala Ile Phe Ile Val Tyr Met Val Ser Arg Asp 565 570 575 Asn Val Ser Cys Ser Ile Cys Leu 580 <210> 6 <211> 583 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: HA_1755_bp_B_Alabama_02_2018 sequence" <400> 6 Met Lys Ala Ile Ile Val Leu Leu Met Val Val Thr Ser Asn Ala Asp 1 5 10 15 Arg Ile Cys Thr Gly Ile Thr Ser Ser Asn Ser Pro His Val Val Lys 20 25 30 Thr Ala Thr Gln Gly Glu Val Asn Val Thr Gly Val Ile Pro Leu Thr 35 40 45 Thr Thr Pro Thr Lys Ser Tyr Phe Ala Asn Leu Lys Gly Thr Arg Thr 50 55 60 Arg Gly Lys Leu Cys Pro Asp Cys Leu Asn Cys Thr Asp Leu Asp Val 65 70 75 80 Ala Leu Gly Arg Pro Met Cys Val Gly Thr Thr Pro Ser Ala Lys Ala 85 90 95 Ser Ile Leu His Glu Val Arg Pro Val Thr Ser Gly Cys Phe Pro Ile 100 105 110 Met His Asp Arg Thr Lys Ile Arg Gln Leu Pro Asn Leu Leu Arg Gly 115 120 125 Tyr Glu Lys Ile Arg Leu Ser Thr Gln Asn Val Ile Asp Ala Glu Lys 130 135 140 Ala Pro Gly Gly Pro Tyr Arg Leu Gly Thr Ser Gly Ser Cys Pro Asn 145 150 155 160 Ala Thr Ser Lys Ile Gly Phe Phe Ala Thr Met Ala Trp Ala Val Pro 165 170 175 Lys Asp Asn Tyr Lys Asn Ala Thr Asn Pro Gln Thr Val Glu Val Pro 180 185 190 Tyr Ile Cys Thr Glu Gly Glu Asp Gln Ile Thr Val Trp Gly Phe His 195 200 205 Ser Asp Asn Lys Thr Gln Met Lys Ser Leu Tyr Gly Asp Ser Asn Pro 210 215 220 Gln Lys Phe Thr Ser Ser Ala Asn Gly Val Thr Thr His Tyr Val Ser 225 230 235 240 Gln Ile Gly Asp Phe Pro Asp Gln Thr Glu Asp Gly Gly Leu Pro Gln 245 250 255 Ser Gly Arg Ile Val Val Asp Tyr Met Val Gln Lys Pro Gly Lys Thr 260 265 270 Gly Thr Ile Val Tyr Gln Arg Gly Val Leu Leu Pro Gln Lys Val Trp 275 280 285 Cys Ala Ser Gly Arg Ser Lys Val Ile Lys Gly Ser Leu Pro Leu Ile 290 295 300 Gly Glu Ala Asp Cys Leu His Glu Glu Tyr Gly Gly Leu Asn Lys Ser 305 310 315 320 Lys Pro Tyr Tyr Thr Gly Lys His Ala Lys Ala Ile Gly Asn Cys Pro 325 330 335 Ile Trp Val Lys Thr Pro Leu Lys Leu Ala Asn Gly Thr Lys Tyr Arg 340 345 350 Pro Pro Ala Lys Leu Leu Lys Glu Arg Gly Phe Phe Gly Ala Ile Ala 355 360 365 Gly Phe Leu Glu Gly Gly Trp Glu Gly Met Ile Ala Gly Trp His Gly 370 375 380 Tyr Thr Ser His Gly Ala His Gly Val Ala Val Ala Ala Asp Leu Lys 385 390 395 400 Ser Thr Gln Glu Ala Ile Asn Lys Ile Thr Lys Asn Leu Asn Ser Leu 405 410 415 Ser Glu Leu Glu Val Lys Asn Leu Gln Arg Leu Ser Gly Ala Met Asp 420 425 430 Glu Leu His Asn Glu Ile Leu Glu Leu Asp Glu Lys Val Asp Asp Leu 435 440 445 Arg Ala Asp Thr Ile Ser Ser Gln Ile Glu Leu Ala Val Leu Leu Ser 450 455 460 Asn Glu Gly Ile Ile Asn Ser Glu Asp Glu His Leu Leu Ala Leu Glu 465 470 475 480 Arg Lys Leu Lys Lys Met Leu Gly Pro Ser Ala Val Asp Ile Gly Asn 485 490 495 Gly Cys Phe Glu Thr Lys His Lys Cys Asn Gln Thr Cys Leu Asp Arg 500 505 510 Ile Ala Ala Gly Thr Phe Asn Ala Gly Glu Phe Ser Leu Pro Thr Phe 515 520 525 Asp Ser Leu Asn Ile Thr Ala Ala Ser Leu Asn Asp Asp Gly Leu Asp 530 535 540 Asn His Thr Ile Leu Leu Tyr Tyr Ser Thr Ala Ala Ser Ser Leu Ala 545 550 555 560 Val Thr Leu Met Leu Ala Ile Phe Ile Val Tyr Met Val Ser Arg Asp 565 570 575 Asn Val Ser Cys Ser Ile Cys 580 <210> 7 <211> 583 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: HA_1755_bp_B_Alabama_04_2018 sequence" <400> 7 Met Lys Thr Ile Ile Val Leu Leu Met Val Val Thr Ser Asn Ala Asp 1 5 10 15 Arg Ile Cys Thr Gly Ile Thr Ser Ser Asn Ser Pro His Val Val Lys 20 25 30 Thr Ala Thr Gln Gly Glu Val Asn Val Thr Gly Val Ile Pro Leu Thr 35 40 45 Thr Thr Pro Thr Lys Ser Tyr Phe Ala Asn Leu Lys Gly Thr Arg Thr 50 55 60 Arg Gly Lys Leu Cys Pro Asp Cys Leu Asn Cys Thr Asp Leu Asp Val 65 70 75 80 Ala Leu Gly Arg Pro Met Cys Val Gly Thr Thr Pro Ser Ala Lys Ala 85 90 95 Ser Ile Leu His Glu Val Arg Pro Val Thr Ser Gly Cys Phe Pro Ile 100 105 110 Met His Asp Arg Thr Lys Ile Arg Gln Leu Pro Asn Leu Leu Arg Gly 115 120 125 Tyr Glu Lys Ile Arg Leu Ser Thr Gln Asn Val Ile Asp Ala Glu Lys 130 135 140 Ala Pro Gly Gly Pro Tyr Arg Leu Gly Thr Ser Gly Ser Cys Pro Asn 145 150 155 160 Ala Thr Ser Lys Ile Gly Phe Phe Ala Thr Met Ala Trp Ala Val Pro 165 170 175 Lys Asp Asn Tyr Lys Asn Ala Thr Asn Pro Gln Thr Val Glu Val Pro 180 185 190 Tyr Ile Cys Thr Glu Gly Glu Asp Gln Ile Thr Val Trp Gly Phe His 195 200 205 Ser Asp Asn Lys Thr Gln Met Lys Ser Leu Tyr Gly Asp Ser Asn Pro 210 215 220 Gln Lys Phe Thr Ser Ser Ala Asn Gly Val Thr Thr His Tyr Val Ser 225 230 235 240 Gln Ile Gly Asp Phe Pro Asp Gln Thr Glu Asp Gly Gly Leu Pro Gln 245 250 255 Ser Gly Arg Ile Val Val Asp Tyr Met Val Gln Lys Pro Gly Lys Thr 260 265 270 Gly Thr Ile Val Tyr Gln Arg Gly Val Leu Leu Pro Gln Lys Val Trp 275 280 285 Cys Ala Ser Gly Arg Ser Lys Val Ile Lys Gly Ser Leu Pro Leu Ile 290 295 300 Gly Glu Ala Asp Cys Leu His Glu Glu Tyr Gly Gly Leu Asn Lys Ser 305 310 315 320 Lys Pro Tyr Tyr Thr Gly Lys His Ala Lys Ala Ile Gly Asn Cys Pro 325 330 335 Ile Trp Val Lys Thr Pro Leu Lys Leu Ala Asn Gly Thr Lys Tyr Arg 340 345 350 Pro Pro Ala Lys Leu Leu Lys Glu Arg Gly Phe Phe Gly Ala Ile Ala 355 360 365 Gly Phe Leu Glu Gly Gly Trp Glu Gly Met Ile Ala Gly Trp His Gly 370 375 380 Tyr Thr Ser His Gly Ala His Gly Val Ala Val Ala Ala Asp Leu Lys 385 390 395 400 Ser Thr Gln Glu Ala Ile Asn Lys Ile Thr Lys Asn Leu Asn Ser Leu 405 410 415 Ser Glu Leu Glu Val Lys Asn Leu Gln Arg Leu Ser Gly Ala Met Asp 420 425 430 Glu Leu His Asn Glu Ile Leu Glu Leu Asp Glu Lys Val Asp Asp Leu 435 440 445 Arg Ala Asp Thr Ile Ser Ser Gln Ile Glu Leu Ala Val Leu Leu Ser 450 455 460 Asn Glu Gly Ile Ile Asn Ser Glu Asp Glu His Leu Leu Ala Leu Glu 465 470 475 480 Arg Lys Leu Lys Lys Met Leu Gly Pro Ser Ala Val Asp Ile Gly Asn 485 490 495 Gly Cys Phe Glu Thr Lys His Lys Cys Asn Gln Thr Cys Leu Asp Arg 500 505 510 Ile Ala Ala Gly Thr Phe Asn Ala Gly Glu Phe Ser Leu Pro Thr Phe 515 520 525 Asp Ser Leu Asn Ile Thr Ala Ala Ser Leu Asn Asp Asp Gly Leu Asp 530 535 540 Asn His Thr Ile Leu Leu Tyr Tyr Ser Thr Ala Ala Ser Ser Leu Ala 545 550 555 560 Val Thr Leu Met Leu Ala Ile Phe Ile Val Tyr Met Val Ser Arg Asp 565 570 575 Asn Val Ser Cys Ser Ile Cys 580 <210> 8 <211> 583 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: HA_1755_bp_B_Alabama_05_2018 sequence" <400> 8 Met Lys Ala Ile Ile Val Leu Leu Met Val Val Thr Ser Asn Ala Asp 1 5 10 15 Arg Ile Cys Thr Gly Ile Thr Ser Ser Asn Ser Pro His Val Val Lys 20 25 30 Thr Ala Thr Gln Gly Glu Val Asn Val Thr Gly Val Ile Pro Leu Thr 35 40 45 Thr Thr Pro Thr Lys Ser Tyr Phe Ala Asn Leu Lys Gly Thr Arg Thr 50 55 60 Arg Gly Lys Leu Cys Pro Asp Cys Leu Asn Cys Thr Asp Leu Asp Val 65 70 75 80 Ala Leu Gly Arg Pro Met Cys Val Gly Thr Thr Pro Ser Ala Lys Ala 85 90 95 Ser Ile Leu His Glu Val Arg Pro Val Thr Ser Gly Cys Phe Pro Ile 100 105 110 Met His Asp Arg Thr Lys Ile Arg Gln Leu Pro Asn Leu Leu Arg Gly 115 120 125 Tyr Glu Lys Ile Arg Leu Ser Thr Gln Asn Val Ile Asp Ala Glu Lys 130 135 140 Ala Pro Gly Gly Pro Tyr Arg Leu Gly Thr Ser Gly Ser Cys Pro Asn 145 150 155 160 Ala Thr Ser Lys Ile Gly Phe Phe Ala Thr Met Ala Trp Ala Val Pro 165 170 175 Lys Asp Asn Tyr Lys Asn Ala Thr Asn Pro Gln Thr Val Glu Val Pro 180 185 190 Tyr Ile Cys Thr Glu Gly Glu Asp Gln Ile Thr Val Trp Gly Phe His 195 200 205 Ser Asp Asn Lys Thr Gln Met Lys Ser Leu Tyr Gly Asp Ser Asn Pro 210 215 220 Gln Lys Phe Thr Ser Ser Ala Asn Gly Val Thr Thr His Tyr Val Ser 225 230 235 240 Gln Ile Gly Asp Phe Pro Asp Gln Thr Glu Asp Gly Gly Leu Pro Gln 245 250 255 Ser Gly Arg Ile Val Val Asp Tyr Met Val Gln Lys Pro Gly Lys Thr 260 265 270 Gly Thr Ile Val Tyr Gln Arg Gly Val Leu Leu Pro Gln Lys Val Trp 275 280 285 Cys Ala Ser Gly Arg Ser Lys Val Ile Lys Gly Ser Leu Pro Leu Ile 290 295 300 Gly Glu Ala Asp Cys Leu His Glu Glu Tyr Gly Gly Leu Asn Lys Ser 305 310 315 320 Lys Pro Tyr Tyr Thr Gly Lys His Ala Lys Ala Ile Gly Asn Cys Pro 325 330 335 Ile Trp Val Lys Thr Pro Leu Lys Leu Ala Asn Gly Thr Lys Tyr Arg 340 345 350 Pro Pro Ala Lys Leu Leu Lys Glu Arg Gly Phe Phe Gly Ala Ile Ala 355 360 365 Gly Phe Leu Glu Gly Gly Trp Glu Gly Met Ile Ala Gly Trp His Gly 370 375 380 Tyr Thr Ser His Gly Ala His Gly Val Ala Val Ala Ala Asp Leu Lys 385 390 395 400 Ser Thr Gln Glu Ala Ile Asn Lys Ile Thr Lys Asn Leu Asn Ser Leu 405 410 415 Ser Glu Leu Glu Val Lys Asn Leu Gln Arg Leu Ser Gly Ala Met Asp 420 425 430 Glu Leu His Asn Glu Ile Ile Glu Leu Asp Glu Lys Val Asp Asp Leu 435 440 445 Arg Ala Asp Thr Ile Ser Ser Gln Ile Glu Leu Ala Val Leu Leu Ser 450 455 460 Asn Glu Gly Ile Ile Asn Ser Glu Asp Glu His Leu Leu Ala Leu Glu 465 470 475 480 Arg Lys Leu Lys Lys Met Leu Gly Pro Ser Ala Val Asp Ile Gly Asn 485 490 495 Gly Cys Phe Glu Thr Lys His Lys Cys Asn Gln Thr Cys Leu Asp Arg 500 505 510 Ile Ala Ala Gly Thr Phe Asn Ala Gly Glu Phe Ser Leu Pro Thr Phe 515 520 525 Asp Ser Leu Asn Ile Thr Ala Ala Ser Leu Asn Asp Asp Gly Leu Asp 530 535 540 Asn His Thr Ile Leu Leu Tyr Tyr Ser Thr Ala Ala Ser Ser Leu Ala 545 550 555 560 Val Thr Leu Met Leu Ala Ile Phe Ile Val Tyr Met Val Ser Arg Asp 565 570 575 Asn Val Ser Cys Ser Ile Cys 580 <210> 9 <211> 14 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: Hepatitis B amino acid sequence" <400> 9 Met Lys Ala Ile Ile Val Leu Leu Met Val Val Thr Ser Asn 1 5 10 <210> 10 <211> 14 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: Hepatitis B amino acid sequence" <400> 10 Met Lys Ala Ile Ile Val Leu Leu Met Val Val Thr Ser Asn 1 5 10 <210> 11 <211> 14 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: Hepatitis B amino acid sequence" <400> 11 Met Lys Ala Ile Ile Val Leu Leu Met Val Val Thr Ser Ser 1 5 10 <210> 12 <211> 14 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: Hepatitis B amino acid sequence" <400> 12 Met Lys Ala Ile Ile Val Leu Leu Met Val Val Thr Ser Asn 1 5 10 <210> 13 <211> 14 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: Hepatitis B amino acid sequence" <400> 13 Met Lys Ala Ile Ile Val Leu Leu Met Val Val Thr Ser Asn 1 5 10 <210> 14 <211> 14 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: Hepatitis B amino acid sequence" <400> 14 Met Lys Ala Ile Ile Val Leu Leu Met Val Val Thr Ser Asn 1 5 10 <210> 15 <211> 14 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: Hepatitis B amino acid sequence" <400> 15 Met Lys Ala Ile Ile Val Leu Leu Met Val Val Thr Ser Asp 1 5 10 <210> 16 <211> 14 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: Hepatitis B amino acid sequence" <400> 16 Met Lys Ala Ile Ile Val Leu Leu Met Val Val Thr Ser Asn 1 5 10 <210> 17 <211> 14 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: Hepatitis B amino acid sequence" <400> 17 Met Lys Ala Ile Ile Val Leu Leu Met Val Val Thr Ser Asn 1 5 10 <210> 18 <211> 14 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: Hepatitis B amino acid sequence" <400> 18 Met Lys Ala Ile Ile Val Leu Leu Met Val Val Thr Ser Asn 1 5 10 <210> 19 <211> 14 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: Hepatitis B amino acid sequence" <400> 19 Met Lys Ala Ile Ile Val Leu Leu Met Val Val Thr Ser Asn 1 5 10 <210> 20 <211> 14 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: Hepatitis B amino acid sequence" <400> 20 Met Lys Ala Ile Ile Val Leu Leu Met Val Val Thr Ser Asn 1 5 10 <210> 21 <211> 584 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: Lee/1940 sequence" <400> 21 Met Lys Ala Ile Ile Val Leu Leu Met Val Val Thr Ser Asn Ala Asp 1 5 10 15 Arg Ile Cys Thr Gly Ile Thr Ser Ser Asn Ser Pro His Val Val Lys 20 25 30 Thr Ala Thr Gln Gly Glu Val Asn Val Thr Gly Val Ile Pro Leu Thr 35 40 45 Thr Thr Pro Thr Lys Ser His Phe Ala Asn Leu Lys Gly Thr Gln Thr 50 55 60 Arg Gly Lys Leu Cys Pro Asn Cys Phe Asn Cys Thr Asp Leu Asp Val 65 70 75 80 Ala Leu Gly Arg Pro Lys Cys Met Gly Asn Thr Pro Ser Ala Lys Val 85 90 95 Ser Ile Leu His Glu Val Lys Pro Ala Thr Ser Gly Cys Phe Pro Ile 100 105 110 Met His Asp Arg Thr Lys Ile Arg Gln Leu Pro Asn Leu Leu Arg Gly 115 120 125 Tyr Glu Asn Ile Arg Leu Ser Thr Ser Asn Val Ile Asn Thr Glu Thr 130 135 140 Ala Pro Gly Gly Pro Tyr Lys Val Gly Thr Ser Gly Ser Cys Pro Asn 145 150 155 160 Val Ala Asn Gly Asn Gly Phe Phe Asn Thr Met Ala Trp Val Ile Pro 165 170 175 Lys Asp Asn Asn Lys Thr Ala Ile Asn Pro Val Thr Val Glu Val Pro 180 185 190 Tyr Ile Cys Ser Glu Gly Glu Asp Gln Ile Thr Val Trp Gly Phe His 195 200 205 Ser Asp Asp Lys Thr Gln Met Glu Arg Leu Tyr Gly Asp Ser Asn Pro 210 215 220 Gln Lys Phe Thr Ser Ser Ala Asn Gly Val Thr Thr His Tyr Val Ser 225 230 235 240 Gln Ile Gly Gly Phe Pro Asn Gln Thr Glu Asp Glu Gly Leu Lys Gln 245 250 255 Ser Gly Arg Ile Val Val Asp Tyr Met Val Gln Lys Pro Gly Lys Thr 260 265 270 Gly Thr Ile Val Tyr Gln Arg Gly Ile Leu Leu Pro Gln Lys Val Trp 275 280 285 Cys Ala Ser Gly Arg Ser Lys Val Ile Lys Gly Ser Leu Pro Leu Ile 290 295 300 Gly Glu Ala Asp Cys Leu His Glu Lys Tyr Gly Gly Leu Asn Lys Ser 305 310 315 320 Lys Pro Tyr Tyr Thr Gly Glu His Ala Lys Ala Ile Gly Asn Cys Pro 325 330 335 Ile Trp Val Lys Thr Pro Leu Lys Leu Ala Asn Gly Thr Lys Tyr Arg 340 345 350 Pro Pro Ala Lys Leu Leu Lys Glu Arg Gly Phe Phe Gly Ala Ile Ala 355 360 365 Gly Phe Leu Glu Gly Gly Trp Glu Gly Met Ile Ala Gly Trp His Gly 370 375 380 Tyr Thr Ser His Gly Ala His Gly Val Ala Val Ala Ala Asp Leu Lys 385 390 395 400 Ser Thr Gln Glu Ala Ile Asn Lys Ile Thr Lys Asn Leu Asn Tyr Leu 405 410 415 Ser Glu Leu Glu Val Lys Asn Leu Gln Arg Leu Ser Gly Ala Met Asn 420 425 430 Glu Leu His Asp Glu Ile Leu Glu Leu Asp Glu Lys Val Asp Asp Leu 435 440 445 Arg Ala Asp Thr Ile Ser Ser Gln Ile Glu Leu Ala Val Leu Leu Ser 450 455 460 Asn Glu Gly Ile Ile Asn Ser Glu Asp Glu His Leu Leu Ala Leu Glu 465 470 475 480 Arg Lys Leu Lys Lys Met Leu Gly Pro Ser Ala Val Glu Ile Gly Asn 485 490 495 Gly Cys Phe Glu Thr Lys His Lys Cys Asn Gln Thr Cys Leu Asp Arg 500 505 510 Ile Ala Ala Gly Thr Phe Asn Ala Gly Asp Phe Ser Leu Pro Thr Phe 515 520 525 Asp Ser Leu Asn Ile Thr Ala Ala Ser Leu Asn Asp Asp Gly Leu Asp 530 535 540 Asn His Thr Ile Leu Leu Tyr Tyr Ser Thr Ala Ala Ser Ser Leu Ala 545 550 555 560 Val Thr Leu Met Ile Ala Ile Phe Ile Val Tyr Met Val Ser Arg Asp 565 570 575 Asn Val Ser Cys Ser Ile Cys Leu 580 <210> 22 <211> 345 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: Russia/1960 sequence" <400> 22 Asp Arg Ile Cys Thr Gly Ile Thr Ser Ser Asn Ser Pro His Val Val 1 5 10 15 Lys Thr Ala Thr Gln Gly Glu Val Asn Val Thr Gly Val Ile Pro Leu 20 25 30 Thr Thr Thr Pro Thr Lys Ser His Phe Ala Asn Leu Lys Gly Thr Gln 35 40 45 Thr Arg Gly Lys Leu Cys Pro Asn Cys Leu Asn Cys Thr Asp Leu Asp 50 55 60 Val Ala Leu Gly Arg Pro Lys Cys Ser Gly Thr Ile Pro Ser Ala Lys 65 70 75 80 Val Ser Ile Leu His Glu Val Lys Pro Val Thr Ser Gly Cys Phe Pro 85 90 95 Ile Met His Asp Arg Thr Lys Ile Arg Gln Leu Pro Asn Leu Leu Arg 100 105 110 Gly Tyr Glu Asn Ile Arg Leu Ser Thr Arg Asn Val Ile Asn Ala Glu 115 120 125 Thr Ala Pro Gly Gly Pro Tyr Thr Val Gly Thr Ser Gly Ser Cys Pro 130 135 140 Asn Val Thr Asn Gly Lys Gly Phe Phe Glu Thr Met Ala Trp Ala Val 145 150 155 160 Pro Lys Asn Lys Asn Lys Thr Ala Thr Asn Pro Leu Thr Val Glu Val 165 170 175 Pro Tyr Ile Cys Thr Lys Gly Glu Asp Gln Ile Thr Val Trp Gly Phe 180 185 190 His Ser Asp Asp Glu Thr Gln Met Val Ile Leu Tyr Gly Asp Ser Lys 195 200 205 Pro Gln Lys Phe Thr Ser Ser Ala Asn Gly Val Thr Thr His Tyr Val 210 215 220 Ser Gln Ile Gly Gly Phe Pro Asn Gln Thr Glu Asp Glu Gly Leu Lys 225 230 235 240 Gln Ser Gly Arg Ile Val Val Asp Tyr Ile Val Gln Lys Pro Gly Lys 245 250 255 Thr Gly Thr Ile Val Tyr Gln Arg Gly Val Leu Leu Pro Gln Lys Val 260 265 270 Trp Cys Ala Ser Gly Arg Ser Lys Val Ile Lys Gly Ser Leu Pro Leu 275 280 285 Ile Gly Glu Ala Asp Cys Leu His Glu Lys Tyr Gly Gly Leu Asn Lys 290 295 300 Ser Lys Pro Tyr Tyr Thr Gly Glu His Ala Lys Ala Ile Gly Asn Cys 305 310 315 320 Pro Ile Trp Val Lys Thr Pro Leu Lys Leu Ala Asn Gly Thr Lys Tyr 325 330 335 Arg Pro Pro Ala Lys Leu Leu Lys Glu 340 345 <210> 23 <211> 581 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: HongKong/1972 sequence" <400> 23 Met Lys Ala Ile Ile Val Leu Leu Met Val Val Thr Ser Asn Ala Asp 1 5 10 15 Arg Ile Cys Thr Gly Ile Thr Ser Ser Asn Ser Pro His Val Val Lys 20 25 30 Thr Ala Thr Gln Gly Glu Val Asn Val Thr Gly Val Ile Pro Leu Thr 35 40 45 Thr Thr Pro Thr Lys Ser His Phe Ala Asn Leu Lys Gly Thr Gln Thr 50 55 60 Arg Gly Lys Leu Cys Pro Asn Cys Leu Asn Cys Thr Asp Leu Asp Val 65 70 75 80 Ala Leu Gly Arg Pro Lys Cys Met Gly Thr Ile Pro Ser Ala Lys Ala 85 90 95 Ser Ile Leu His Glu Val Lys Pro Val Thr Ser Gly Cys Phe Pro Ile 100 105 110 Met His Asp Arg Thr Lys Ile Arg Gln Leu Pro Asn Leu Leu Arg Gly 115 120 125 Tyr Glu Asn Ile Arg Leu Ser Ala Arg Asn Val Ile Asn Ala Glu Thr 130 135 140 Ala Pro Gly Gly Pro Tyr Ile Val Gly Ile Ser Gly Ser Cys Pro Asn 145 150 155 160 Val Thr Asn Gly Asn Gly Phe Phe Ala Thr Met Ala Trp Ala Val Pro 165 170 175 Lys Asn Lys Thr Ala Thr Asn Pro Leu Thr Val Glu Val Pro Tyr Ile 180 185 190 Cys Ala Lys Gly Glu Asp Gln Ile Thr Val Trp Gly Phe His Ser Asp 195 200 205 Asn Glu Ile Gln Met Val Lys Leu Tyr Gly Asp Ser Lys Pro Gln Lys 210 215 220 Phe Thr Ser Ser Ala Asn Gly Val Thr Thr His Tyr Val Ser Gln Ile 225 230 235 240 Gly Gly Phe Pro Asn Gln Ala Glu Asp Glu Gly Leu Pro Gln Ser Gly 245 250 255 Arg Ile Val Val Asp Tyr Met Val Gln Lys Pro Gly Lys Thr Gly Thr 260 265 270 Ile Ala Tyr Gln Arg Gly Val Leu Leu Pro Gln Lys Val Trp Cys Ala 275 280 285 Ser Gly Arg Ser Lys Val Ile Lys Gly Ser Leu Pro Leu Ile Gly Glu 290 295 300 Ala Asp Cys Leu His Glu Lys Tyr Gly Gly Leu Asn Lys Ser Lys Pro 305 310 315 320 Tyr Tyr Thr Gly Glu His Ala Lys Ala Ile Gly Asn Cys Pro Ile Trp 325 330 335 Val Lys Thr Pro Leu Lys Leu Ala Asn Gly Thr Lys Tyr Arg Pro Pro 340 345 350 Ala Lys Leu Leu Lys Glu Arg Gly Phe Phe Gly Ala Ile Ala Gly Phe 355 360 365 Leu Glu Gly Gly Trp Glu Gly Met Ile Ala Gly Trp His Gly Tyr Thr 370 375 380 Ser His Gly Ala His Gly Val Ala Val Ala Ala Asp Leu Lys Ser Thr 385 390 395 400 Gln Glu Ala Ile Asn Lys Ile Thr Lys Asn Leu Asn Ser Leu Ser Glu 405 410 415 Leu Glu Val Lys Asn Leu Gln Arg Leu Ser Gly Ala Met Asp Glu Leu 420 425 430 His Asn Glu Ile Leu Glu Leu Asp Glu Lys Val Asp Asp Leu Arg Ala 435 440 445 Asp Thr Ile Ser Ser Gln Ile Glu Leu Ala Val Leu Leu Ser Asn Glu 450 455 460 Gly Ile Ile Asn Ser Glu Asp Glu His Leu Leu Ala Leu Glu Arg Lys 465 470 475 480 Leu Lys Lys Met Leu Gly Pro Ser Ala Val Asp Ile Gly Asn Gly Cys 485 490 495 Phe Glu Thr Lys His Lys Cys Asn Gln Thr Cys Leu Asp Arg Ile Ala 500 505 510 Ala Gly Thr Phe Asn Ala Gly Glu Phe Ser Leu Pro Thr Phe Asp Ser 515 520 525 Leu Asn Ile Thr Ala Ala Ser Leu Asn Asp Asp Gly Leu Asp Asn His 530 535 540 Thr Ile Leu Leu Tyr Tyr Ser Thr Ala Ala Ser Ser Leu Ala Val Thr 545 550 555 560 Leu Met Ile Ala Ile Phe Ile Val Tyr Met Val Ser Arg Asp Asn Val 565 570 575 Ser Cys Ser Ile Cys 580 <210> 24 <211> 582 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: Singapore/1979 sequence" <400> 24 Met Lys Ala Ile Ile Val Leu Leu Met Val Val Thr Ser Asn Ala Asp 1 5 10 15 Arg Ile Cys Thr Gly Ile Thr Ser Ser Asn Ser Pro His Val Val Lys 20 25 30 Thr Ala Thr Gln Gly Glu Val Asn Val Thr Gly Val Ile Pro Leu Thr 35 40 45 Thr Thr Pro Thr Lys Ser His Phe Ala Asn Leu Lys Gly Thr Lys Thr 50 55 60 Arg Gly Lys Leu Cys Pro Asn Cys Leu Asn Cys Thr Asp Leu Asp Val 65 70 75 80 Ala Leu Gly Arg Pro Lys Cys Met Gly Thr Ile Pro Ser Ala Lys Ala 85 90 95 Ser Ile Leu His Glu Val Lys Pro Val Thr Ser Gly Cys Phe Pro Ile 100 105 110 Met His Asp Arg Thr Lys Ile Arg Gln Leu Pro Asn Leu Leu Arg Gly 115 120 125 Tyr Glu Asn Ile Arg Leu Ser Thr Arg Asn Val Ile Asn Ala Glu Arg 130 135 140 Ala Pro Gly Gly Pro Tyr Ile Ile Gly Thr Ser Gly Ser Cys Pro Asn 145 150 155 160 Val Thr Asn Gly Asn Gly Phe Phe Ala Thr Met Ala Trp Ala Val Pro 165 170 175 Lys Asp Asn Lys Thr Ala Thr Asn Pro Leu Thr Val Glu Val Pro Tyr 180 185 190 Ile Cys Thr Lys Gly Glu Asp Gln Ile Thr Val Trp Gly Phe His Ser 195 200 205 Asp Thr Glu Thr Gln Met Val Lys Leu Tyr Gly Asp Ser Lys Pro Gln 210 215 220 Lys Phe Thr Ser Ser Ala Asn Gly Val Thr Thr His Tyr Val Ser Gln 225 230 235 240 Ile Gly Gly Phe Pro Asn Gln Thr Glu Asp Gly Gly Leu Pro Gln Ser 245 250 255 Gly Arg Ile Val Val Asp Tyr Met Val Gln Lys Pro Gly Lys Thr Gly 260 265 270 Thr Ile Val Tyr Gln Arg Gly Val Leu Leu Pro Gln Lys Val Trp Cys 275 280 285 Ala Ser Gly Arg Ser Lys Val Ile Lys Gly Ser Leu Pro Leu Ile Gly 290 295 300 Glu Ala Asp Cys Leu His Glu Lys Tyr Gly Gly Leu Asn Lys Ser Lys 305 310 315 320 Pro Tyr Tyr Thr Gly Glu His Ala Lys Ala Ile Gly Asn Cys Pro Ile 325 330 335 Trp Val Lys Thr Pro Leu Lys Leu Ala Asn Gly Thr Lys Tyr Arg Pro 340 345 350 Pro Ala Lys Leu Leu Lys Glu Arg Gly Phe Phe Gly Ala Ile Ala Gly 355 360 365 Phe Leu Glu Gly Gly Trp Glu Gly Met Ile Ala Gly Trp His Gly Tyr 370 375 380 Thr Ser His Gly Ala His Gly Val Ala Val Ala Ala Asp Leu Lys Ser 385 390 395 400 Thr Gln Glu Ala Ile Asn Lys Ile Thr Lys Asn Leu Asn Ser Leu Ser 405 410 415 Glu Leu Glu Val Lys Asn Leu Gln Arg Leu Ser Gly Ala Met Asp Glu 420 425 430 Leu His Asn Glu Ile Leu Glu Leu Asp Glu Lys Val Asp Asp Leu Arg 435 440 445 Ala Asp Thr Ile Ser Ser Gln Ile Glu Leu Ala Val Leu Leu Ser Asn 450 455 460 Glu Gly Ile Ile Asn Ser Glu Asp Glu His Leu Leu Ala Leu Glu Arg 465 470 475 480 Lys Leu Lys Lys Met Leu Gly Pro Ser Ala Val Asp Ile Gly Asn Gly 485 490 495 Cys Phe Glu Thr Lys His Lys Cys Asn Gln Thr Cys Leu Asp Arg Ile 500 505 510 Ala Ala Gly Thr Phe Asn Ala Gly Glu Phe Ser Leu Pro Thr Phe Asp 515 520 525 Ser Leu Asn Ile Thr Ala Ala Ser Leu Asn Asp Asp Gly Leu Asp Asn 530 535 540 His Thr Ile Leu Leu Tyr Tyr Ser Thr Ala Ala Ser Ser Leu Ala Val 545 550 555 560 Thr Leu Met Ile Ala Ile Phe Ile Val Tyr Met Val Ser Arg Asp Asn 565 570 575 Val Ser Cys Ser Ile Cys 580 <210> 25 <211> 582 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: Yamagata/1988 sequence" <400> 25 Met Lys Ala Ile Ile Val Leu Leu Met Val Val Thr Ser Asn Ala Asp 1 5 10 15 Arg Ile Cys Thr Gly Ile Thr Ser Ser Asn Ser Pro His Val Val Lys 20 25 30 Thr Ala Thr Gln Gly Glu Val Asn Val Thr Gly Val Ile Pro Leu Thr 35 40 45 Thr Thr Pro Thr Lys Ser His Phe Ala Asn Leu Lys Gly Thr Lys Thr 50 55 60 Arg Gly Lys Leu Cys Pro Asn Cys Leu Asn Cys Thr Asp Leu Asp Val 65 70 75 80 Ala Leu Gly Arg Pro Met Cys Met Gly Thr Ile Pro Ser Ala Lys Ala 85 90 95 Ser Ile Leu His Glu Val Arg Pro Val Thr Ser Gly Cys Phe Pro Ile 100 105 110 Met His Asp Arg Thr Lys Ile Arg Gln Leu Pro Asn Leu Leu Arg Gly 115 120 125 Tyr Glu Asn Ile Arg Leu Ser Thr His Asn Val Ile Asn Ala Glu Arg 130 135 140 Ala Pro Gly Gly Pro Tyr Arg Leu Gly Thr Ser Gly Ser Cys Pro Asn 145 150 155 160 Val Thr Ser Arg Asn Gly Phe Phe Ala Thr Met Ala Trp Ala Val Pro 165 170 175 Arg Asp Asn Lys Thr Ala Thr Asn Pro Leu Thr Val Glu Val Pro Tyr 180 185 190 Ile Cys Thr Lys Gly Glu Asp Gln Ile Thr Val Trp Gly Phe His Ser 195 200 205 Asp Asp Lys Thr Gln Met Lys Asn Leu Tyr Gly Asp Ser Asn Pro Gln 210 215 220 Lys Phe Thr Ser Ser Ala Asn Gly Val Thr Thr His Tyr Val Ser Gln 225 230 235 240 Ile Gly Asp Phe Pro Asn Gln Thr Glu Asp Gly Gly Leu Pro Gln Ser 245 250 255 Gly Arg Ile Val Val Asp Tyr Met Val Gln Lys Pro Gly Lys Thr Gly 260 265 270 Thr Ile Val Tyr Gln Arg Gly Val Leu Leu Pro Gln Lys Val Trp Cys 275 280 285 Ala Ser Gly Arg Ser Lys Val Ile Lys Gly Ser Leu Pro Leu Ile Gly 290 295 300 Glu Ala Asp Cys Leu His Glu Lys Tyr Gly Gly Leu Asn Lys Ser Lys 305 310 315 320 Pro Tyr Tyr Thr Gly Glu His Ala Lys Ala Ile Gly Asn Cys Pro Ile 325 330 335 Trp Val Lys Thr Pro Leu Lys Leu Ala Asn Gly Thr Lys Tyr Arg Pro 340 345 350 Pro Ala Lys Leu Leu Lys Glu Arg Gly Phe Phe Gly Ala Ile Ala Gly 355 360 365 Phe Leu Glu Gly Gly Trp Glu Gly Met Ile Ala Gly Trp His Gly Tyr 370 375 380 Thr Ser His Gly Ala His Gly Val Ala Val Ala Ala Asp Leu Lys Ser 385 390 395 400 Thr Gln Glu Ala Ile Asn Lys Ile Thr Lys Asn Leu Asn Ser Leu Ser 405 410 415 Glu Leu Glu Val Lys Asn Leu Gln Arg Leu Ser Gly Ala Met Asp Glu 420 425 430 Leu His Asn Glu Ile Leu Glu Leu Asp Glu Lys Val Asp Asp Leu Arg 435 440 445 Ala Asp Thr Ile Ser Ser Gln Ile Glu Leu Ala Val Leu Leu Ser Asn 450 455 460 Glu Gly Ile Ile Asn Ser Glu Asp Glu His Leu Leu Ala Leu Glu Arg 465 470 475 480 Lys Leu Lys Lys Met Leu Gly Pro Ser Ala Val Asp Ile Gly Asn Gly 485 490 495 Cys Phe Glu Thr Lys His Lys Cys Asn Gln Thr Cys Leu Asp Arg Ile 500 505 510 Ala Ala Gly Thr Phe Asn Ala Gly Glu Phe Ser Leu Pro Thr Phe Asp 515 520 525 Ser Leu Asn Ile Thr Ala Ala Ser Leu Asn Asp Asp Gly Leu Asp Asn 530 535 540 His Thr Ile Leu Leu Tyr Tyr Ser Thr Ala Ala Ser Ser Leu Ala Val 545 550 555 560 Thr Leu Met Ile Ala Ile Phe Ile Val Tyr Met Val Ser Arg Asp Asn 565 570 575 Val Ser Cys Ser Ile Cys 580 <210> 26 <211> 584 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: Malaysia/2004 sequence" <220> <221> MOD_RES <222> (214)..(214) <223> Any amino acid <400> 26 Met Lys Ala Ile Ile Val Leu Leu Met Val Val Thr Ser Asn Ala Asp 1 5 10 15 Arg Ile Cys Thr Gly Ile Thr Ser Ser Asn Ser Pro His Val Val Lys 20 25 30 Thr Ala Thr Gln Gly Glu Val Asn Val Thr Gly Val Ile Pro Leu Thr 35 40 45 Thr Thr Pro Thr Lys Ser His Phe Ala Asn Leu Lys Gly Thr Glu Thr 50 55 60 Arg Gly Lys Leu Cys Pro Lys Cys Leu Asn Cys Thr Asp Leu Asp Val 65 70 75 80 Ala Leu Gly Arg Pro Lys Cys Thr Gly Asn Ile Pro Ser Ala Arg Val 85 90 95 Ser Ile Leu His Glu Val Arg Pro Val Thr Ser Gly Cys Phe Pro Ile 100 105 110 Met His Asp Arg Thr Lys Ile Arg Gln Leu Pro Asn Leu Leu Arg Gly 115 120 125 Tyr Glu His Ile Arg Leu Ser Thr His Asn Val Ile Asn Ala Glu Asn 130 135 140 Ala Pro Gly Gly Pro Tyr Lys Ile Gly Thr Ser Gly Ser Cys Pro Asn 145 150 155 160 Val Thr Asn Gly Asn Gly Phe Phe Ala Thr Met Ala Trp Ala Val Pro 165 170 175 Lys Asn Asp Asn Asn Lys Thr Ala Thr Asn Ser Leu Thr Ile Glu Val 180 185 190 Pro Tyr Ile Cys Thr Glu Gly Glu Asp Gln Ile Thr Val Trp Gly Phe 195 200 205 His Ser Asp Asn Glu Xaa Gln Met Ala Lys Leu Tyr Gly Asp Ser Lys 210 215 220 Pro Gln Lys Phe Thr Ser Ser Ala Asn Gly Val Thr Thr His Tyr Val 225 230 235 240 Ser Gln Ile Gly Gly Phe Pro Asn Gln Thr Glu Asp Gly Gly Leu Pro 245 250 255 Gln Ser Gly Arg Ile Val Val Asp Tyr Met Val Gln Lys Ser Gly Lys 260 265 270 Thr Gly Thr Ile Thr Tyr Gln Arg Gly Ile Leu Leu Pro Gln Lys Val 275 280 285 Trp Cys Ala Ser Gly Arg Ser Lys Val Ile Lys Gly Ser Leu Pro Leu 290 295 300 Ile Gly Glu Ala Asp Cys Leu His Glu Lys Tyr Gly Gly Leu Asn Lys 305 310 315 320 Ser Lys Pro Tyr Tyr Thr Gly Glu His Ala Lys Ala Ile Gly Asn Cys 325 330 335 Pro Ile Trp Val Lys Thr Pro Leu Lys Leu Ala Asn Gly Thr Lys Tyr 340 345 350 Arg Pro Pro Ala Lys Leu Leu Lys Glu Arg Gly Phe Phe Gly Ala Ile 355 360 365 Ala Gly Phe Leu Glu Gly Gly Trp Glu Gly Met Ile Ala Gly Trp His 370 375 380 Gly Tyr Thr Ser His Gly Ala His Gly Val Ala Val Ala Ala Asp Leu 385 390 395 400 Lys Ser Thr Gln Glu Ala Ile Asn Lys Ile Thr Lys Asn Leu Asn Ser 405 410 415 Leu Ser Glu Leu Glu Val Lys Asn Leu Gln Arg Leu Ser Gly Ala Met 420 425 430 Asp Glu Leu His Asn Glu Ile Leu Glu Leu Asp Glu Lys Val Asp Asp 435 440 445 Leu Arg Ala Asp Thr Ile Ser Ser Gln Ile Glu Leu Ala Val Leu Leu 450 455 460 Ser Asn Glu Gly Ile Ile Asn Ser Glu Asp Glu His Leu Leu Ala Leu 465 470 475 480 Glu Arg Lys Leu Lys Lys Met Leu Gly Pro Ser Ala Val Glu Ile Gly 485 490 495 Asn Gly Cys Phe Glu Thr Lys His Lys Cys Asn Gln Thr Cys Leu Asp 500 505 510 Arg Ile Ala Ala Gly Thr Phe Asp Ala Gly Glu Phe Ser Leu Pro Thr 515 520 525 Phe Asp Ser Leu Asn Ile Thr Ala Ala Ser Leu Asn Asp Asp Gly Leu 530 535 540 Asp Asn His Thr Ile Leu Leu Tyr Tyr Ser Thr Ala Ala Ser Ser Leu 545 550 555 560 Ala Val Thr Leu Met Ile Ala Ile Phe Val Val Tyr Met Val Ser Arg 565 570 575 Asp Asn Val Ser Cys Ser Ile Cys 580 <210> 27 <211> 583 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: Florida/2006 sequence" <400> 27 Met Lys Ala Ile Ile Val Leu Leu Met Val Val Thr Ser Asn Ala Asp 1 5 10 15 Arg Ile Cys Thr Gly Ile Thr Ser Ser Asn Ser Pro His Val Val Lys 20 25 30 Thr Ala Thr Gln Gly Glu Val Asn Val Thr Gly Val Ile Pro Leu Thr 35 40 45 Thr Thr Pro Thr Lys Ser Tyr Phe Ala Asn Leu Lys Gly Thr Arg Thr 50 55 60 Arg Gly Lys Leu Cys Pro Asp Cys Leu Asn Cys Thr Asp Leu Asp Val 65 70 75 80 Ala Leu Gly Arg Pro Met Cys Val Gly Thr Thr Pro Ser Ala Lys Ala 85 90 95 Ser Ile Leu His Glu Val Lys Pro Val Thr Ser Gly Cys Phe Pro Ile 100 105 110 Met His Asp Arg Thr Lys Ile Arg Gln Leu Pro Asn Leu Leu Arg Gly 115 120 125 Tyr Glu Asn Ile Arg Leu Ser Thr Gln Asn Val Ile Asp Ala Glu Lys 130 135 140 Ala Pro Gly Gly Pro Tyr Arg Leu Gly Thr Ser Gly Ser Cys Pro Asn 145 150 155 160 Ala Thr Ser Lys Ser Gly Phe Phe Ala Thr Met Ala Trp Ala Val Pro 165 170 175 Lys Asp Asn Asn Lys Asn Ala Thr Asn Pro Leu Thr Val Glu Val Pro 180 185 190 Tyr Ile Cys Thr Glu Gly Glu Asp Gln Ile Thr Val Trp Gly Phe His 195 200 205 Ser Asp Asp Lys Thr Gln Met Lys Asn Leu Tyr Gly Asp Ser Asn Pro 210 215 220 Gln Lys Phe Thr Ser Ser Ala Asn Gly Val Thr Thr His Tyr Val Ser 225 230 235 240 Gln Ile Gly Ser Phe Pro Asp Gln Thr Glu Asp Gly Gly Leu Pro Gln 245 250 255 Ser Gly Arg Ile Val Val Asp Tyr Met Met Gln Lys Pro Gly Lys Thr 260 265 270 Gly Thr Ile Val Tyr Gln Arg Gly Val Leu Leu Pro Gln Lys Val Trp 275 280 285 Cys Ala Ser Gly Arg Ser Lys Val Ile Lys Gly Ser Leu Pro Leu Ile 290 295 300 Gly Glu Ala Asp Cys Leu His Glu Lys Tyr Gly Gly Leu Asn Lys Ser 305 310 315 320 Lys Pro Tyr Tyr Thr Gly Glu His Ala Lys Ala Ile Gly Asn Cys Pro 325 330 335 Ile Trp Val Lys Thr Pro Leu Lys Leu Ala Asn Gly Thr Lys Tyr Arg 340 345 350 Pro Pro Ala Lys Leu Leu Lys Glu Arg Gly Phe Phe Gly Ala Ile Ala 355 360 365 Gly Phe Leu Glu Gly Gly Trp Glu Gly Met Ile Ala Gly Trp His Gly 370 375 380 Tyr Thr Ser His Gly Ala His Gly Val Ala Val Ala Ala Asp Leu Lys 385 390 395 400 Ser Thr Gln Glu Ala Ile Asn Lys Ile Thr Lys Asn Leu Asn Ser Leu 405 410 415 Ser Glu Leu Glu Val Lys Asn Leu Gln Arg Leu Ser Gly Ala Met Asp 420 425 430 Glu Leu His Asn Glu Ile Leu Glu Leu Asp Glu Lys Val Asp Asp Leu 435 440 445 Arg Ala Asp Thr Ile Ser Ser Gln Ile Glu Leu Ala Val Leu Leu Ser 450 455 460 Asn Glu Gly Ile Ile Asn Ser Glu Asp Glu His Leu Leu Ala Leu Glu 465 470 475 480 Arg Lys Leu Lys Lys Met Leu Gly Pro Ser Ala Val Glu Ile Gly Asn 485 490 495 Gly Cys Phe Glu Thr Lys His Lys Cys Asn Gln Thr Cys Leu Asp Arg 500 505 510 Ile Ala Ala Gly Thr Phe Asn Ala Gly Glu Phe Ser Leu Pro Thr Phe 515 520 525 Asp Ser Leu Asn Ile Thr Ala Ala Ser Leu Asn Asp Asp Gly Leu Asp 530 535 540 Asn His Thr Ile Leu Leu Tyr Tyr Ser Thr Ala Ala Ser Ser Leu Ala 545 550 555 560 Val Thr Leu Met Leu Ala Ile Phe Ile Val Tyr Met Val Ser Arg Asp 565 570 575 Asn Val Ser Cys Ser Ile Cys 580 <210> 28 <211> 585 <212> PRT <213> Unknown <220> <221> source <223> /note="Description of Unknown: FluB/2018 & 2019 consensus sequence " <400> 28 Met Lys Ala Ile Ile Val Leu Leu Met Val Val Thr Ser Asn Ala Asp 1 5 10 15 Arg Ile Cys Thr Gly Ile Thr Ser Ser Asn Ser Pro His Val Val Lys 20 25 30 Thr Ala Thr Gln Gly Glu Val Asn Val Thr Gly Val Ile Pro Leu Thr 35 40 45 Thr Thr Pro Thr Lys Ser Tyr Phe Ala Asn Leu Lys Gly Thr Arg Thr 50 55 60 Arg Gly Lys Leu Cys Pro Asp Cys Leu Asn Cys Thr Asp Leu Asp Val 65 70 75 80 Ala Leu Gly Arg Pro Met Cys Val Gly Thr Thr Pro Ser Ala Lys Ala 85 90 95 Ser Ile Leu His Glu Val Arg Pro Val Thr Ser Gly Cys Phe Pro Ile 100 105 110 Met His Asp Arg Thr Lys Ile Arg Gln Leu Pro Asn Leu Leu Arg Gly 115 120 125 Tyr Glu Lys Ile Arg Leu Ser Thr Gln Asn Val Ile Asp Ala Glu Lys 130 135 140 Ala Pro Gly Gly Pro Tyr Arg Leu Gly Thr Ser Gly Ser Cys Pro Asn 145 150 155 160 Ala Thr Ser Lys Ile Gly Phe Phe Ala Thr Met Ala Trp Ala Val Pro 165 170 175 Lys Asp Asn Lys Tyr Lys Asn Ala Thr Asn Pro Gln Thr Val Glu Val 180 185 190 Pro Tyr Ile Cys Thr Glu Gly Glu Asp Gln Ile Thr Val Trp Gly Phe 195 200 205 His Ser Asp Asn Lys Thr Gln Met Lys Ser Leu Tyr Gly Asp Ser Asn 210 215 220 Pro Gln Lys Phe Thr Ser Ser Ala Asn Gly Val Thr Thr His Tyr Val 225 230 235 240 Ser Gln Ile Gly Asp Phe Pro Asp Gln Thr Glu Asp Gly Gly Leu Pro 245 250 255 Gln Ser Gly Arg Ile Val Val Asp Tyr Met Val Gln Lys Pro Gly Lys 260 265 270 Thr Gly Thr Ile Val Tyr Gln Arg Gly Val Leu Leu Pro Gln Lys Val 275 280 285 Trp Cys Ala Ser Gly Arg Ser Lys Val Ile Lys Gly Ser Leu Pro Leu 290 295 300 Ile Gly Glu Ala Asp Cys Leu His Glu Glu Tyr Gly Gly Leu Asn Lys 305 310 315 320 Ser Lys Pro Tyr Tyr Thr Gly Lys His Ala Lys Ala Ile Gly Asn Cys 325 330 335 Pro Ile Trp Val Lys Thr Pro Leu Lys Leu Ala Asn Gly Thr Lys Tyr 340 345 350 Arg Pro Pro Ala Lys Leu Leu Lys Glu Arg Gly Phe Phe Gly Ala Ile 355 360 365 Ala Gly Phe Leu Glu Gly Gly Trp Glu Gly Met Ile Ala Gly Trp His 370 375 380 Gly Tyr Thr Ser His Gly Ala His Gly Val Ala Val Ala Ala Asp Leu 385 390 395 400 Lys Ser Thr Gln Glu Ala Ile Asn Lys Ile Thr Lys Asn Leu Asn Ser 405 410 415 Leu Ser Glu Leu Glu Val Lys Asn Leu Gln Arg Leu Ser Gly Ala Met 420 425 430 Asp Glu Leu His Asn Glu Ile Leu Glu Leu Asp Glu Lys Val Asp Asp 435 440 445 Leu Arg Ala Asp Thr Ile Ser Ser Gln Ile Glu Leu Ala Val Leu Leu 450 455 460 Ser Asn Glu Gly Ile Ile Asn Ser Glu Asp Glu His Leu Leu Ala Leu 465 470 475 480 Glu Arg Lys Leu Lys Lys Met Leu Gly Pro Ser Ala Val Asp Ile Gly 485 490 495 Asn Gly Cys Phe Glu Thr Lys His Lys Cys Asn Gln Thr Cys Leu Asp 500 505 510 Arg Ile Ala Ala Gly Thr Phe Asn Ala Gly Glu Phe Ser Leu Pro Thr 515 520 525 Phe Asp Ser Leu Asn Ile Thr Ala Ala Ser Leu Asn Asp Asp Gly Leu 530 535 540 Asp Asn His Thr Ile Leu Leu Tyr Tyr Ser Thr Ala Ala Ser Ser Leu 545 550 555 560 Ala Val Thr Leu Met Leu Ala Ile Phe Ile Val Tyr Met Val Ser Arg 565 570 575 Asp Asn Val Ser Cys Ser Ile Cys Leu 580 585 <210> 29 <211> 120 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 29 Gln Val Gln Leu Val Glu Ser Gly Gly Gly Leu Val Lys Pro Gly Gly 1 5 10 15 Ser Leu Arg Leu Ser Cys Ala Ala Ser Gly Phe Thr Phe Ser Asp Tyr 20 25 30 Tyr Met Ser Trp Ile Arg Gln Ala Pro Gly Lys Gly Leu Glu Trp Val 35 40 45 Ser Tyr Ile Thr Tyr Ser Gly Ser Thr Ile Tyr Tyr Ala Asp Ser Val 50 55 60 Lys Gly Arg Phe Thr Ile Ser Arg Asp Asn Ala Lys Ser Ser Leu Tyr 65 70 75 80 Leu Gln Met Asn Ser Leu Arg Ala Glu Asp Thr Ala Val Tyr Tyr Cys 85 90 95 Ala Arg Asp Arg Gly Thr Thr Met Val Pro Phe Asp Tyr Trp Gly Gln 100 105 110 Gly Thr Leu Val Thr Val Ser Ser 115 120 <210> 30 <211> 8 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 30 Gly Phe Thr Phe Ser Asp Tyr Tyr 1 5 <210> 31 <211> 8 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 31 Ile Thr Tyr Ser Gly Ser Thr Ile 1 5 <210> 32 <211> 13 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 32 Ala Arg Asp Arg Gly Thr Thr Met Val Pro Phe Asp Tyr 1 5 10 <210> 33 <211> 107 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 33 Asp Ile Gln Met Thr Gln Ser Pro Ser Ser Leu Ser Ala Ser Val Gly 1 5 10 15 Asp Arg Val Thr Ile Thr Cys Gln Ala Ser Gln Asp Ile Thr Asn Tyr 20 25 30 Leu Asn Trp Tyr Gln Gln Lys Pro Gly Lys Ala Pro Lys Leu Leu Ile 35 40 45 Tyr Ala Ala Ser Asn Leu Glu Thr Gly Val Pro Ser Arg Phe Ser Gly 50 55 60 Ser Gly Ser Gly Thr Asp Phe Thr Phe Thr Ile Ser Gly Leu Gln Pro 65 70 75 80 Glu Asp Ile Ala Thr Tyr Tyr Cys Gln Gln Tyr Asp Asn Leu Pro Leu 85 90 95 Thr Phe Gly Gly Gly Thr Lys Val Glu Ile Lys 100 105 <210> 34 <211> 6 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 34 Gln Asp Ile Thr Asn Tyr 1 5 <210> 35 <211> 3 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 35 Ala Ala Ser 1 <210> 36 <211> 9 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 36 Gln Gln Tyr Asp Asn Leu Pro Leu Thr 1 5 <210> 37 <211> 450 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 37 Gln Val Gln Leu Val Glu Ser Gly Gly Gly Leu Val Lys Pro Gly Gly 1 5 10 15 Ser Leu Arg Leu Ser Cys Ala Ala Ser Gly Phe Thr Phe Ser Asp Tyr 20 25 30 Tyr Met Ser Trp Ile Arg Gln Ala Pro Gly Lys Gly Leu Glu Trp Val 35 40 45 Ser Tyr Ile Thr Tyr Ser Gly Ser Thr Ile Tyr Tyr Ala Asp Ser Val 50 55 60 Lys Gly Arg Phe Thr Ile Ser Arg Asp Asn Ala Lys Ser Ser Leu Tyr 65 70 75 80 Leu Gln Met Asn Ser Leu Arg Ala Glu Asp Thr Ala Val Tyr Tyr Cys 85 90 95 Ala Arg Asp Arg Gly Thr Thr Met Val Pro Phe Asp Tyr Trp Gly Gln 100 105 110 Gly Thr Leu Val Thr Val Ser Ser Ala Ser Thr Lys Gly Pro Ser Val 115 120 125 Phe Pro Leu Ala Pro Ser Ser Lys Ser Thr Ser Gly Gly Thr Ala Ala 130 135 140 Leu Gly Cys Leu Val Lys Asp Tyr Phe Pro Glu Pro Val Thr Val Ser 145 150 155 160 Trp Asn Ser Gly Ala Leu Thr Ser Gly Val His Thr Phe Pro Ala Val 165 170 175 Leu Gln Ser Ser Gly Leu Tyr Ser Leu Ser Ser Val Val Thr Val Pro 180 185 190 Ser Ser Ser Leu Gly Thr Gln Thr Tyr Ile Cys Asn Val Asn His Lys 195 200 205 Pro Ser Asn Thr Lys Val Asp Lys Lys Val Glu Pro Lys Ser Cys Asp 210 215 220 Lys Thr His Thr Cys Pro Pro Cys Pro Ala Pro Glu Leu Leu Gly Gly 225 230 235 240 Pro Ser Val Phe Leu Phe Pro Pro Lys Pro Lys Asp Thr Leu Met Ile 245 250 255 Ser Arg Thr Pro Glu Val Thr Cys Val Val Val Asp Val Ser His Glu 260 265 270 Asp Pro Glu Val Lys Phe Asn Trp Tyr Val Asp Gly Val Glu Val His 275 280 285 Asn Ala Lys Thr Lys Pro Arg Glu Glu Gln Tyr Asn Ser Thr Tyr Arg 290 295 300 Val Val Ser Val Leu Thr Val Leu His Gln Asp Trp Leu Asn Gly Lys 305 310 315 320 Glu Tyr Lys Cys Lys Val Ser Asn Lys Ala Leu Pro Ala Pro Ile Glu 325 330 335 Lys Thr Ile Ser Lys Ala Lys Gly Gln Pro Arg Glu Pro Gln Val Tyr 340 345 350 Thr Leu Pro Pro Ser Arg Asp Glu Leu Thr Lys Asn Gln Val Ser Leu 355 360 365 Thr Cys Leu Val Lys Gly Phe Tyr Pro Ser Asp Ile Ala Val Glu Trp 370 375 380 Glu Ser Asn Gly Gln Pro Glu Asn Asn Tyr Lys Thr Thr Pro Pro Val 385 390 395 400 Leu Asp Ser Asp Gly Ser Phe Phe Leu Tyr Ser Lys Leu Thr Val Asp 405 410 415 Lys Ser Arg Trp Gln Gln Gly Asn Val Phe Ser Cys Ser Val Met His 420 425 430 Glu Ala Leu His Asn His Tyr Thr Gln Lys Ser Leu Ser Leu Ser Pro 435 440 445 Gly Lys 450 <210> 38 <211> 214 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 38 Asp Ile Gln Met Thr Gln Ser Pro Ser Ser Leu Ser Ala Ser Val Gly 1 5 10 15 Asp Arg Val Thr Ile Thr Cys Gln Ala Ser Gln Asp Ile Thr Asn Tyr 20 25 30 Leu Asn Trp Tyr Gln Gln Lys Pro Gly Lys Ala Pro Lys Leu Leu Ile 35 40 45 Tyr Ala Ala Ser Asn Leu Glu Thr Gly Val Pro Ser Arg Phe Ser Gly 50 55 60 Ser Gly Ser Gly Thr Asp Phe Thr Phe Thr Ile Ser Gly Leu Gln Pro 65 70 75 80 Glu Asp Ile Ala Thr Tyr Tyr Cys Gln Gln Tyr Asp Asn Leu Pro Leu 85 90 95 Thr Phe Gly Gly Gly Thr Lys Val Glu Ile Lys Arg Thr Val Ala Ala 100 105 110 Pro Ser Val Phe Ile Phe Pro Pro Ser Asp Glu Gln Leu Lys Ser Gly 115 120 125 Thr Ala Ser Val Val Cys Leu Leu Asn Asn Phe Tyr Pro Arg Glu Ala 130 135 140 Lys Val Gln Trp Lys Val Asp Asn Ala Leu Gln Ser Gly Asn Ser Gln 145 150 155 160 Glu Ser Val Thr Glu Gln Asp Ser Lys Asp Ser Thr Tyr Ser Leu Ser 165 170 175 Ser Thr Leu Thr Leu Ser Lys Ala Asp Tyr Glu Lys His Lys Val Tyr 180 185 190 Ala Cys Glu Val Thr His Gln Gly Leu Ser Ser Pro Val Thr Lys Ser 195 200 205 Phe Asn Arg Gly Glu Cys 210 <210> 39 <211> 360 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 39 caggtgcagc tggtggagtc tgggggaggc ttggtcaagc ctggagggtc cctgagactc 60 tcctgtgcag cctctggatt caccttcagt gactactaca tgagctggat ccgccaggct 120 ccagggaagg ggctggagtg ggtttcatac attacttata gtggtagtac catatactac 180 gcagactctg tgaagggccg attcaccatc tccagggaca acgccaagag ctcactgtat 240 ctgcaaatga acagcctgag agccgaggac acggccgtgt attactgtgc gagagatcgc 300 ggtacaacta tggtcccctt tgactactgg ggccagggaa ccctggtcac cgtctcctca 360 <210> 40 <211> 24 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 40 ggattcacct tcagtgacta ctac 24 <210> 41 <211> 24 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 41 attacttata gtggtagtac cata 24 <210> 42 <211> 39 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 42 gcgagagatc gcggtacaac tatggtcccc tttgactac 39 <210> 43 <211> 321 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 43 gacatccaga tgacccagtc tccatcctcc ctgtctgcat ctgtaggaga cagagtcacc 60 atcacttgcc aggcgagtca ggacattacc aactatttaa attggtatca gcagaaacca 120 gggaaagccc ctaagctcct gatctacgct gcatccaatt tggaaacagg ggtcccatca 180 aggttcagtg gaagtggatc tgggacagat tttactttca ccatcagcgg cctgcagcct 240 gaagatattg caacatatta ctgtcaacag tatgataatc tccctctcac tttcggcgga 300 gggaccaagg tggagatcaa a 321 <210> 44 <211> 18 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 44 caggacatta ccaactat 18 <210> 45 <211> 9 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 45 gctgcatcc 9 <210> 46 <211> 27 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 46 caacagtatg ataatctccc tctcact 27 <210> 47 <211> 1353 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 47 caggtgcagc tggtggagtc tgggggaggc ttggtcaagc ctggagggtc cctgagactc 60 tcctgtgcag cctctggatt caccttcagt gactactaca tgagctggat ccgccaggct 120 ccagggaagg ggctggagtg ggtttcatac attacttata gtggtagtac catatactac 180 gcagactctg tgaagggccg attcaccatc tccagggaca acgccaagag ctcactgtat 240 ctgcaaatga acagcctgag agccgaggac acggccgtgt attactgtgc gagagatcgc 300 ggtacaacta tggtcccctt tgactactgg ggccagggaa ccctggtcac cgtctcctca 360 gcctccacca agggcccatc ggtcttcccc ctggcaccct cctccaagag cacctctggg 420 ggcacagcgg ccctgggctg cctggtcaag gactacttcc ccgaaccggt gacggtgtcg 480 tggaactcag gcgccctgac cagcggcgtg cacaccttcc cggctgtcct acagtcctca 540 ggactctact ccctcagcag cgtggtgacc gtgccctcca gcagcttggg cacccagacc 600 tacatctgca acgtgaatca caagcccagc aacaccaagg tggacaagaa agttgagccc 660 aaatcttgtg acaaaactca cacatgccca ccgtgcccag cacctgaact cctgggggga 720 ccgtcagtct tcctcttccc cccaaaaccc aaggacaccc tcatgatctc ccggacccct 780 gaggtcacat gcgtggtggt ggacgtgagc cacgaagacc ctgaggtcaa gttcaactgg 840 tacgtggacg gcgtggaggt gcataatgcc aagacaaagc cgcgggagga gcagtacaac 900 agcacgtacc gtgtggtcag cgtcctcacc gtcctgcacc aggactggct gaatggcaag 960 gagtacaagt gcaaggtctc caacaaagcc ctcccagccc ccatcgagaa aaccatctcc 1020 aaagccaaag ggcagccccg agaaccacag gtgtacaccc tgcccccatc ccgggatgag 1080 ctgaccaaga accaggtcag cctgacctgc ctggtcaaag gcttctatcc cagcgacatc 1140 gccgtggagt gggagagcaa tgggcagccg gagaacaact acaagaccac gcctcccgtg 1200 ctggactccg acggctcctt cttcctctac agcaagctca ccgtggacaa gagcaggtgg 1260 cagcagggga acgtcttctc atgctccgtg atgcatgagg ctctgcacaa ccactacacg 1320 cagaagtccc tctccctgtc tccgggtaaa tga 1353 <210> 48 <211> 645 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 48 gacatccaga tgacccagtc tccatcctcc ctgtctgcat ctgtaggaga cagagtcacc 60 atcacttgcc aggcgagtca ggacattacc aactatttaa attggtatca gcagaaacca 120 gggaaagccc ctaagctcct gatctacgct gcatccaatt tggaaacagg ggtcccatca 180 aggttcagtg gaagtggatc tgggacagat tttactttca ccatcagcgg cctgcagcct 240 gaagatattg caacatatta ctgtcaacag tatgataatc tccctctcac tttcggcgga 300 gggaccaagg tggagatcaa acgaactgtg gctgcaccat ctgtcttcat cttcccgcca 360 tctgatgagc agttgaaatc tggaactgcc tctgttgtgt gcctgctgaa taacttctat 420 cccagagagg ccaaagtaca gtggaaggtg gataacgccc tccaatcggg taactcccag 480 gagagtgtca cagagcagga cagcaaggac agcacctaca gcctcagcag caccctgacg 540 ctgagcaaag cagactacga gaaacacaaa gtctacgcct gcgaagtcac ccatcagggc 600 ctgagctcgc ccgtcacaaa gagcttcaac aggggagagt gttag 645 <210> 49 <211> 120 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 49 Glu Val Gln Leu Val Glu Ser Gly Gly Gly Leu Val Lys Pro Gly Gly 1 5 10 15 Ser Leu Arg Leu Ser Cys Ala Ala Ser Gly Ile Thr Phe Ser Asn Ala 20 25 30 Trp Met Ser Trp Val Arg Gln Ala Pro Gly Lys Gly Leu Glu Trp Val 35 40 45 Gly Arg Ile Lys Ser Lys Thr Asp Gly Gly Thr Thr Asp Tyr Ala Ala 50 55 60 Pro Val Lys Gly Arg Phe Thr Ile Ser Arg Asp Asp Ser Lys Asn Thr 65 70 75 80 Leu Tyr Leu Gln Met Asn Ser Leu Lys Thr Glu Asp Thr Ala Val Tyr 85 90 95 Tyr Cys Thr Thr Ala Arg Trp Asp Trp Tyr Phe Asp Leu Trp Gly Arg 100 105 110 Gly Thr Leu Val Thr Val Ser Ser 115 120 <210> 50 <211> 8 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 50 Gly Ile Thr Phe Ser Asn Ala Trp 1 5 <210> 51 <211> 10 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 51 Ile Lys Ser Lys Thr Asp Gly Gly Thr Thr 1 5 10 <210> 52 <211> 11 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 52 Thr Thr Ala Arg Trp Asp Trp Tyr Phe Asp Leu 1 5 10 <210> 53 <211> 107 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 53 Asp Ile Gln Met Thr Gln Ser Pro Ser Ser Leu Ser Ala Ser Val Gly 1 5 10 15 Asp Arg Val Thr Ile Thr Cys Gln Ala Ser Gln Asp Ile Trp Asn Tyr 20 25 30 Ile Asn Trp Tyr Gln Gln Lys Pro Gly Lys Ala Pro Lys Leu Leu Ile 35 40 45 Tyr Asp Ala Ser Asn Leu Lys Thr Gly Val Pro Ser Arg Phe Ser Gly 50 55 60 Ser Gly Ser Gly Thr Asp Phe Thr Phe Thr Ile Ser Ser Leu Gln Pro 65 70 75 80 Glu Asp Ile Ala Thr Tyr Tyr Cys Gln Gln His Asp Asp Leu Pro Pro 85 90 95 Thr Phe Gly Gln Gly Thr Lys Val Glu Ile Lys 100 105 <210> 54 <211> 6 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 54 Gln Asp Ile Trp Asn Tyr 1 5 <210> 55 <211> 3 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 55 Asp Ala Ser 1 <210> 56 <211> 9 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 56 Gln Gln His Asp Asp Leu Pro Pro Thr 1 5 <210> 57 <211> 450 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 57 Glu Val Gln Leu Val Glu Ser Gly Gly Gly Leu Val Lys Pro Gly Gly 1 5 10 15 Ser Leu Arg Leu Ser Cys Ala Ala Ser Gly Ile Thr Phe Ser Asn Ala 20 25 30 Trp Met Ser Trp Val Arg Gln Ala Pro Gly Lys Gly Leu Glu Trp Val 35 40 45 Gly Arg Ile Lys Ser Lys Thr Asp Gly Gly Thr Thr Asp Tyr Ala Ala 50 55 60 Pro Val Lys Gly Arg Phe Thr Ile Ser Arg Asp Asp Ser Lys Asn Thr 65 70 75 80 Leu Tyr Leu Gln Met Asn Ser Leu Lys Thr Glu Asp Thr Ala Val Tyr 85 90 95 Tyr Cys Thr Thr Ala Arg Trp Asp Trp Tyr Phe Asp Leu Trp Gly Arg 100 105 110 Gly Thr Leu Val Thr Val Ser Ser Ala Ser Thr Lys Gly Pro Ser Val 115 120 125 Phe Pro Leu Ala Pro Ser Ser Lys Ser Thr Ser Gly Gly Thr Ala Ala 130 135 140 Leu Gly Cys Leu Val Lys Asp Tyr Phe Pro Glu Pro Val Thr Val Ser 145 150 155 160 Trp Asn Ser Gly Ala Leu Thr Ser Gly Val His Thr Phe Pro Ala Val 165 170 175 Leu Gln Ser Ser Gly Leu Tyr Ser Leu Ser Ser Val Val Thr Val Pro 180 185 190 Ser Ser Ser Leu Gly Thr Gln Thr Tyr Ile Cys Asn Val Asn His Lys 195 200 205 Pro Ser Asn Thr Lys Val Asp Lys Lys Val Glu Pro Lys Ser Cys Asp 210 215 220 Lys Thr His Thr Cys Pro Pro Cys Pro Ala Pro Glu Leu Leu Gly Gly 225 230 235 240 Pro Ser Val Phe Leu Phe Pro Pro Lys Pro Lys Asp Thr Leu Met Ile 245 250 255 Ser Arg Thr Pro Glu Val Thr Cys Val Val Val Asp Val Ser His Glu 260 265 270 Asp Pro Glu Val Lys Phe Asn Trp Tyr Val Asp Gly Val Glu Val His 275 280 285 Asn Ala Lys Thr Lys Pro Arg Glu Glu Gln Tyr Asn Ser Thr Tyr Arg 290 295 300 Val Val Ser Val Leu Thr Val Leu His Gln Asp Trp Leu Asn Gly Lys 305 310 315 320 Glu Tyr Lys Cys Lys Val Ser Asn Lys Ala Leu Pro Ala Pro Ile Glu 325 330 335 Lys Thr Ile Ser Lys Ala Lys Gly Gln Pro Arg Glu Pro Gln Val Tyr 340 345 350 Thr Leu Pro Pro Ser Arg Asp Glu Leu Thr Lys Asn Gln Val Ser Leu 355 360 365 Thr Cys Leu Val Lys Gly Phe Tyr Pro Ser Asp Ile Ala Val Glu Trp 370 375 380 Glu Ser Asn Gly Gln Pro Glu Asn Asn Tyr Lys Thr Thr Pro Pro Val 385 390 395 400 Leu Asp Ser Asp Gly Ser Phe Phe Leu Tyr Ser Lys Leu Thr Val Asp 405 410 415 Lys Ser Arg Trp Gln Gln Gly Asn Val Phe Ser Cys Ser Val Met His 420 425 430 Glu Ala Leu His Asn His Tyr Thr Gln Lys Ser Leu Ser Leu Ser Pro 435 440 445 Gly Lys 450 <210> 58 <211> 214 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 58 Asp Ile Gln Met Thr Gln Ser Pro Ser Ser Leu Ser Ala Ser Val Gly 1 5 10 15 Asp Arg Val Thr Ile Thr Cys Gln Ala Ser Gln Asp Ile Trp Asn Tyr 20 25 30 Ile Asn Trp Tyr Gln Gln Lys Pro Gly Lys Ala Pro Lys Leu Leu Ile 35 40 45 Tyr Asp Ala Ser Asn Leu Lys Thr Gly Val Pro Ser Arg Phe Ser Gly 50 55 60 Ser Gly Ser Gly Thr Asp Phe Thr Phe Thr Ile Ser Ser Leu Gln Pro 65 70 75 80 Glu Asp Ile Ala Thr Tyr Tyr Cys Gln Gln His Asp Asp Leu Pro Pro 85 90 95 Thr Phe Gly Gln Gly Thr Lys Val Glu Ile Lys Arg Thr Val Ala Ala 100 105 110 Pro Ser Val Phe Ile Phe Pro Pro Ser Asp Glu Gln Leu Lys Ser Gly 115 120 125 Thr Ala Ser Val Val Cys Leu Leu Asn Asn Phe Tyr Pro Arg Glu Ala 130 135 140 Lys Val Gln Trp Lys Val Asp Asn Ala Leu Gln Ser Gly Asn Ser Gln 145 150 155 160 Glu Ser Val Thr Glu Gln Asp Ser Lys Asp Ser Thr Tyr Ser Leu Ser 165 170 175 Ser Thr Leu Thr Leu Ser Lys Ala Asp Tyr Glu Lys His Lys Val Tyr 180 185 190 Ala Cys Glu Val Thr His Gln Gly Leu Ser Ser Pro Val Thr Lys Ser 195 200 205 Phe Asn Arg Gly Glu Cys 210 <210> 59 <211> 360 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 59 gaggtgcagc tggtggagtc tgggggaggc ttggtaaagc ctggggggtc ccttagactc 60 tcctgtgcag cctctggaat cactttcagt aacgcctgga tgagttgggt ccgccaggct 120 ccagggaagg ggctggagtg ggttggccgt attaaaagca aaactgatgg tgggacaaca 180 gactacgccg cacccgtgaa aggcagattc accatctcaa gagatgattc aaaaaacacg 240 ctgtatctac aaatgaacag cctgaaaacc gaggacacag ccgtgtatta ctgtaccaca 300 gcgaggtggg actggtactt cgatctctgg ggccgtggca ccctggtcac tgtctcctca 360 <210> 60 <211> 24 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 60 ggaatcactt tcagtaacgc ctgg 24 <210> 61 <211> 30 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 61 attaaaagca aaactgatgg tgggacaaca 30 <210> 62 <211> 33 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 62 accacagcga ggtgggactg gtacttcgat ctc 33 <210> 63 <211> 321 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 63 gacatccaga tgacccagtc tccatcctcc ctgtctgcat ctgtaggaga cagagtcacc 60 atcacttgcc aggcgagtca ggacatttgg aattatataa attggtatca gcagaaacca 120 gggaaggccc ctaagctcct gatctacgat gcatccaatt tgaaaacagg ggtcccatca 180 aggttcagtg gaagtggatc tgggacagat tttactttca ccatcagcag cctgcagcct 240 gaagatattg caacatatta ctgtcaacag catgatgatc tccctccgac cttcggccaa 300 gggaccaagg tggaaatcaa a 321 <210> 64 <211> 18 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 64 caggacattt ggaattat 18 <210> 65 <211> 9 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 65 gatgcatcc 9 <210> 66 <211> 27 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 66 caacagcatg atgatctccc tccgacc 27 <210> 67 <211> 1353 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 67 gaggtgcagc tggtggagtc tgggggaggc ttggtaaagc ctggggggtc ccttagactc 60 tcctgtgcag cctctggaat cactttcagt aacgcctgga tgagttgggt ccgccaggct 120 ccagggaagg ggctggagtg ggttggccgt attaaaagca aaactgatgg tgggacaaca 180 gactacgccg cacccgtgaa aggcagattc accatctcaa gagatgattc aaaaaacacg 240 ctgtatctac aaatgaacag cctgaaaacc gaggacacag ccgtgtatta ctgtaccaca 300 gcgaggtggg actggtactt cgatctctgg ggccgtggca ccctggtcac tgtctcctca 360 gcctccacca agggcccatc ggtcttcccc ctggcaccct cctccaagag cacctctggg 420 ggcacagcgg ccctgggctg cctggtcaag gactacttcc ccgaaccggt gacggtgtcg 480 tggaactcag gcgccctgac cagcggcgtg cacaccttcc cggctgtcct acagtcctca 540 ggactctact ccctcagcag cgtggtgacc gtgccctcca gcagcttggg cacccagacc 600 tacatctgca acgtgaatca caagcccagc aacaccaagg tggacaagaa agttgagccc 660 aaatcttgtg acaaaactca cacatgccca ccgtgcccag cacctgaact cctgggggga 720 ccgtcagtct tcctcttccc cccaaaaccc aaggacaccc tcatgatctc ccggacccct 780 gaggtcacat gcgtggtggt ggacgtgagc cacgaagacc ctgaggtcaa gttcaactgg 840 tacgtggacg gcgtggaggt gcataatgcc aagacaaagc cgcgggagga gcagtacaac 900 agcacgtacc gtgtggtcag cgtcctcacc gtcctgcacc aggactggct gaatggcaag 960 gagtacaagt gcaaggtctc caacaaagcc ctcccagccc ccatcgagaa aaccatctcc 1020 aaagccaaag ggcagccccg agaaccacag gtgtacaccc tgcccccatc ccgggatgag 1080 ctgaccaaga accaggtcag cctgacctgc ctggtcaaag gcttctatcc cagcgacatc 1140 gccgtggagt gggagagcaa tgggcagccg gagaacaact acaagaccac gcctcccgtg 1200 ctggactccg acggctcctt cttcctctac agcaagctca ccgtggacaa gagcaggtgg 1260 cagcagggga acgtcttctc atgctccgtg atgcatgagg ctctgcacaa ccactacacg 1320 cagaagtccc tctccctgtc tccgggtaaa tga 1353 <210> 68 <211> 645 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 68 gacatccaga tgacccagtc tccatcctcc ctgtctgcat ctgtaggaga cagagtcacc 60 atcacttgcc aggcgagtca ggacatttgg aattatataa attggtatca gcagaaacca 120 gggaaggccc ctaagctcct gatctacgat gcatccaatt tgaaaacagg ggtcccatca 180 aggttcagtg gaagtggatc tgggacagat tttactttca ccatcagcag cctgcagcct 240 gaagatattg caacatatta ctgtcaacag catgatgatc tccctccgac cttcggccaa 300 gggaccaagg tggaaatcaa acgaactgtg gctgcaccat ctgtcttcat cttcccgcca 360 tctgatgagc agttgaaatc tggaactgcc tctgttgtgt gcctgctgaa taacttctat 420 cccagagagg ccaaagtaca gtggaaggtg gataacgccc tccaatcggg taactcccag 480 gagagtgtca cagagcagga cagcaaggac agcacctaca gcctcagcag caccctgacg 540 ctgagcaaag cagactacga gaaacacaaa gtctacgcct gcgaagtcac ccatcagggc 600 ctgagctcgc ccgtcacaaa gagcttcaac aggggagagt gttag 645 <210> 69 <211> 120 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 69 Gln Val Gln Leu Val Glu Ser Gly Gly Gly Val Val Gln Pro Gly Arg 1 5 10 15 Ser Leu Arg Leu Ser Cys Ala Ala Ser Gly Phe Thr Phe Ser Asn Tyr 20 25 30 Ala Met Tyr Trp Val Arg Gln Ala Pro Gly Lys Gly Leu Glu Trp Val 35 40 45 Ala Val Ile Ser Tyr Asp Gly Ser Asn Lys Tyr Tyr Ala Asp Ser Val 50 55 60 Lys Gly Arg Phe Thr Ile Ser Arg Asp Asn Ser Lys Asn Thr Leu Tyr 65 70 75 80 Leu Gln Met Asn Ser Leu Arg Thr Glu Asp Thr Ala Val Tyr Tyr Cys 85 90 95 Ala Ser Gly Ser Asp Tyr Gly Asp Tyr Leu Leu Val Tyr Trp Gly Gln 100 105 110 Gly Thr Leu Val Thr Val Ser Ser 115 120 <210> 70 <211> 8 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 70 Gly Phe Thr Phe Ser Asn Tyr Ala 1 5 <210> 71 <211> 8 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 71 Ile Ser Tyr Asp Gly Ser Asn Lys 1 5 <210> 72 <211> 13 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 72 Ala Ser Gly Ser Asp Tyr Gly Asp Tyr Leu Leu Val Tyr 1 5 10 <210> 73 <211> 110 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 73 Gln Ser Ala Leu Thr Gln Pro Ala Ser Val Ser Gly Ser Pro Gly Gln 1 5 10 15 Ser Ile Thr Ile Ser Cys Thr Gly Thr Ser Ser Asp Val Gly Gly Tyr 20 25 30 Asn Tyr Val Ser Trp Tyr Gln Gln His Pro Gly Lys Ala Pro Lys Leu 35 40 45 Met Ile Tyr Asp Val Ser Lys Arg Pro Ser Gly Val Ser Asn Arg Phe 50 55 60 Ser Gly Ser Lys Ser Gly Asn Thr Ala Ser Leu Thr Ile Ser Gly Leu 65 70 75 80 Gln Ser Glu Asp Glu Ala Asp Tyr Tyr Cys Asn Ser Leu Thr Ser Ile 85 90 95 Ser Thr Trp Val Phe Gly Gly Gly Thr Lys Leu Thr Val Leu 100 105 110 <210> 74 <211> 9 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 74 Ser Ser Asp Val Gly Gly Tyr Asn Tyr 1 5 <210> 75 <211> 3 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 75 Asp Val Ser 1 <210> 76 <211> 10 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 76 Asn Ser Leu Thr Ser Ile Ser Thr Trp Val 1 5 10 <210> 77 <211> 450 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 77 Gln Val Gln Leu Val Glu Ser Gly Gly Gly Val Val Gln Pro Gly Arg 1 5 10 15 Ser Leu Arg Leu Ser Cys Ala Ala Ser Gly Phe Thr Phe Ser Asn Tyr 20 25 30 Ala Met Tyr Trp Val Arg Gln Ala Pro Gly Lys Gly Leu Glu Trp Val 35 40 45 Ala Val Ile Ser Tyr Asp Gly Ser Asn Lys Tyr Tyr Ala Asp Ser Val 50 55 60 Lys Gly Arg Phe Thr Ile Ser Arg Asp Asn Ser Lys Asn Thr Leu Tyr 65 70 75 80 Leu Gln Met Asn Ser Leu Arg Thr Glu Asp Thr Ala Val Tyr Tyr Cys 85 90 95 Ala Ser Gly Ser Asp Tyr Gly Asp Tyr Leu Leu Val Tyr Trp Gly Gln 100 105 110 Gly Thr Leu Val Thr Val Ser Ser Ala Ser Thr Lys Gly Pro Ser Val 115 120 125 Phe Pro Leu Ala Pro Ser Ser Lys Ser Thr Ser Gly Gly Thr Ala Ala 130 135 140 Leu Gly Cys Leu Val Lys Asp Tyr Phe Pro Glu Pro Val Thr Val Ser 145 150 155 160 Trp Asn Ser Gly Ala Leu Thr Ser Gly Val His Thr Phe Pro Ala Val 165 170 175 Leu Gln Ser Ser Gly Leu Tyr Ser Leu Ser Ser Val Val Thr Val Pro 180 185 190 Ser Ser Ser Leu Gly Thr Gln Thr Tyr Ile Cys Asn Val Asn His Lys 195 200 205 Pro Ser Asn Thr Lys Val Asp Lys Lys Val Glu Pro Lys Ser Cys Asp 210 215 220 Lys Thr His Thr Cys Pro Pro Cys Pro Ala Pro Glu Leu Leu Gly Gly 225 230 235 240 Pro Ser Val Phe Leu Phe Pro Pro Lys Pro Lys Asp Thr Leu Met Ile 245 250 255 Ser Arg Thr Pro Glu Val Thr Cys Val Val Val Asp Val Ser His Glu 260 265 270 Asp Pro Glu Val Lys Phe Asn Trp Tyr Val Asp Gly Val Glu Val His 275 280 285 Asn Ala Lys Thr Lys Pro Arg Glu Glu Gln Tyr Asn Ser Thr Tyr Arg 290 295 300 Val Val Ser Val Leu Thr Val Leu His Gln Asp Trp Leu Asn Gly Lys 305 310 315 320 Glu Tyr Lys Cys Lys Val Ser Asn Lys Ala Leu Pro Ala Pro Ile Glu 325 330 335 Lys Thr Ile Ser Lys Ala Lys Gly Gln Pro Arg Glu Pro Gln Val Tyr 340 345 350 Thr Leu Pro Pro Ser Arg Asp Glu Leu Thr Lys Asn Gln Val Ser Leu 355 360 365 Thr Cys Leu Val Lys Gly Phe Tyr Pro Ser Asp Ile Ala Val Glu Trp 370 375 380 Glu Ser Asn Gly Gln Pro Glu Asn Asn Tyr Lys Thr Thr Pro Pro Val 385 390 395 400 Leu Asp Ser Asp Gly Ser Phe Phe Leu Tyr Ser Lys Leu Thr Val Asp 405 410 415 Lys Ser Arg Trp Gln Gln Gly Asn Val Phe Ser Cys Ser Val Met His 420 425 430 Glu Ala Leu His Asn His Tyr Thr Gln Lys Ser Leu Ser Leu Ser Pro 435 440 445 Gly Lys 450 <210> 78 <211> 216 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 78 Gln Ser Ala Leu Thr Gln Pro Ala Ser Val Ser Gly Ser Pro Gly Gln 1 5 10 15 Ser Ile Thr Ile Ser Cys Thr Gly Thr Ser Ser Asp Val Gly Gly Tyr 20 25 30 Asn Tyr Val Ser Trp Tyr Gln Gln His Pro Gly Lys Ala Pro Lys Leu 35 40 45 Met Ile Tyr Asp Val Ser Lys Arg Pro Ser Gly Val Ser Asn Arg Phe 50 55 60 Ser Gly Ser Lys Ser Gly Asn Thr Ala Ser Leu Thr Ile Ser Gly Leu 65 70 75 80 Gln Ser Glu Asp Glu Ala Asp Tyr Tyr Cys Asn Ser Leu Thr Ser Ile 85 90 95 Ser Thr Trp Val Phe Gly Gly Gly Thr Lys Leu Thr Val Leu Gly Gln 100 105 110 Pro Lys Ala Ala Pro Ser Val Thr Leu Phe Pro Pro Ser Ser Glu Glu 115 120 125 Leu Gln Ala Asn Lys Ala Thr Leu Val Cys Leu Ile Ser Asp Phe Tyr 130 135 140 Pro Gly Ala Val Thr Val Ala Trp Lys Ala Asp Ser Ser Pro Val Lys 145 150 155 160 Ala Gly Val Glu Thr Thr Thr Pro Ser Lys Gln Ser Asn Asn Lys Tyr 165 170 175 Ala Ala Ser Ser Tyr Leu Ser Leu Thr Pro Glu Gln Trp Lys Ser His 180 185 190 Arg Ser Tyr Ser Cys Gln Val Thr His Glu Gly Ser Thr Val Glu Lys 195 200 205 Thr Val Ala Pro Thr Glu Cys Ser 210 215 <210> 79 <211> 360 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 79 caggtgcagc tggtggagtc tgggggaggc gtggtccagc ctgggaggtc cctgagactc 60 tcctgtgcag cctctggatt caccttcagt aactatgcta tgtactgggt ccgccaggct 120 ccaggcaagg ggctggagtg ggtggcagtt atatcatatg atggaagtaa taaatactat 180 gcagactccg tgaagggccg attcaccatc tccagagaca attccaagaa cacgctgtat 240 ctgcaaatga acagcctgag aactgaggac acggctgtgt attactgtgc gagtggctcc 300 gactacggtg actacttatt ggtttactgg ggccagggaa ccctggtcac cgtctcctca 360 <210> 80 <211> 24 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 80 ggattcacct tcagtaacta tgct 24 <210> 81 <211> 24 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 81 atatcatatg atggaagtaa taaa 24 <210> 82 <211> 39 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 82 gcgagtggct ccgactacgg tgactactta ttggtttac 39 <210> 83 <211> 330 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 83 cagtctgccc tgactcagcc tgcctccgtg tctgggtctc ctggacagtc gatcaccatc 60 tcctgcactg gaaccagcag tgacgttggt ggttataact atgtctcctg gtaccaacaa 120 cacccaggca aagcccccaa actcatgatt tatgatgtca gtaagcggcc ctcaggggtt 180 tctaatcgct tctctggctc caagtctggc aacacggcct ccctgaccat ctctgggctc 240 cagtctgagg acgaggctga ttattactgc aactctttga caagcatcag cacttgggtg 300 ttcggcggag ggaccaagct gaccgtccta 330 <210> 84 <211> 27 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 84 agcagtgacg ttggtggtta taactat 27 <210> 85 <211> 9 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 85 gatgtcagt 9 <210> 86 <211> 30 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 86 aactctttga caagcatcag cacttgggtg 30 <210> 87 <211> 1353 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 87 caggtgcagc tggtggagtc tgggggaggc gtggtccagc ctgggaggtc cctgagactc 60 tcctgtgcag cctctggatt caccttcagt aactatgcta tgtactgggt ccgccaggct 120 ccaggcaagg ggctggagtg ggtggcagtt atatcatatg atggaagtaa taaatactat 180 gcagactccg tgaagggccg attcaccatc tccagagaca attccaagaa cacgctgtat 240 ctgcaaatga acagcctgag aactgaggac acggctgtgt attactgtgc gagtggctcc 300 gactacggtg actacttatt ggtttactgg ggccagggaa ccctggtcac cgtctcctca 360 gcctccacca agggcccatc ggtcttcccc ctggcaccct cctccaagag cacctctggg 420 ggcacagcgg ccctgggctg cctggtcaag gactacttcc ccgaaccggt gacggtgtcg 480 tggaactcag gcgccctgac cagcggcgtg cacaccttcc cggctgtcct acagtcctca 540 ggactctact ccctcagcag cgtggtgacc gtgccctcca gcagcttggg cacccagacc 600 tacatctgca acgtgaatca caagcccagc aacaccaagg tggacaagaa agttgagccc 660 aaatcttgtg acaaaactca cacatgccca ccgtgcccag cacctgaact cctgggggga 720 ccgtcagtct tcctcttccc cccaaaaccc aaggacaccc tcatgatctc ccggacccct 780 gaggtcacat gcgtggtggt ggacgtgagc cacgaagacc ctgaggtcaa gttcaactgg 840 tacgtggacg gcgtggaggt gcataatgcc aagacaaagc cgcgggagga gcagtacaac 900 agcacgtacc gtgtggtcag cgtcctcacc gtcctgcacc aggactggct gaatggcaag 960 gagtacaagt gcaaggtctc caacaaagcc ctcccagccc ccatcgagaa aaccatctcc 1020 aaagccaaag ggcagccccg agaaccacag gtgtacaccc tgcccccatc ccgggatgag 1080 ctgaccaaga accaggtcag cctgacctgc ctggtcaaag gcttctatcc cagcgacatc 1140 gccgtggagt gggagagcaa tgggcagccg gagaacaact acaagaccac gcctcccgtg 1200 ctggactccg acggctcctt cttcctctac agcaagctca ccgtggacaa gagcaggtgg 1260 cagcagggga acgtcttctc atgctccgtg atgcatgagg ctctgcacaa ccactacacg 1320 cagaagtccc tctccctgtc tccgggtaaa tga 1353 <210> 88 <211> 651 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 88 cagtctgccc tgactcagcc tgcctccgtg tctgggtctc ctggacagtc gatcaccatc 60 tcctgcactg gaaccagcag tgacgttggt ggttataact atgtctcctg gtaccaacaa 120 cacccaggca aagcccccaa actcatgatt tatgatgtca gtaagcggcc ctcaggggtt 180 tctaatcgct tctctggctc caagtctggc aacacggcct ccctgaccat ctctgggctc 240 cagtctgagg acgaggctga ttattactgc aactctttga caagcatcag cacttgggtg 300 ttcggcggag ggaccaagct gaccgtccta ggccagccca aggccgcccc ctccgtgacc 360 ctgttccccc cctcctccga ggagctgcag gccaacaagg ccaccctggt gtgcctgatc 420 tccgacttct accccggcgc cgtgaccgtg gcctggaagg ccgactcctc ccccgtgaag 480 gccggcgtgg agaccaccac cccctccaag cagtccaaca acaagtacgc cgcctcctcc 540 tacctgtccc tgacccccga gcagtggaag tcccaccggt cctactcctg ccaggtgacc 600 cacgagggct ccaccgtgga gaagaccgtg gcccccaccg agtgctcctg a 651 <210> 89 <211> 123 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 89 Gln Val Gln Leu Val Gln Ser Gly Ala Glu Val Lys Lys Pro Gly Ala 1 5 10 15 Ser Val Lys Val Ser Cys Lys Ala Ser Gly Tyr Ile Phe Thr Gly Tyr 20 25 30 Tyr Met His Trp Val Arg Gln Ala Pro Gly Gln Gly Leu Glu Trp Met 35 40 45 Gly Trp Ile Asn Pro Asn Ser Gly Gly Ala Asn Tyr Ala Gln Lys Phe 50 55 60 Gln Gly Arg Val Thr Leu Thr Arg Asp Thr Ser Ile Thr Thr Val Tyr 65 70 75 80 Met Glu Leu Ser Arg Leu Arg Phe Asp Asp Thr Ala Val Tyr Tyr Cys 85 90 95 Ala Arg Gly Ser Arg Tyr Asp Trp Asn Gln Asn Asn Trp Phe Asp Pro 100 105 110 Trp Gly Gln Gly Thr Leu Val Thr Val Ser Ser 115 120 <210> 90 <211> 8 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 90 Gly Tyr Ile Phe Thr Gly Tyr Tyr 1 5 <210> 91 <211> 8 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 91 Ile Asn Pro Asn Ser Gly Gly Ala 1 5 <210> 92 <211> 16 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 92 Ala Arg Gly Ser Arg Tyr Asp Trp Asn Gln Asn Asn Trp Phe Asp Pro 1 5 10 15 <210> 93 <211> 110 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 93 Gln Ser Ala Leu Thr Gln Pro Ala Ser Val Ser Gly Ser Pro Gly Gln 1 5 10 15 Ser Ile Thr Ile Ser Cys Thr Gly Thr Ser Ser Asp Val Gly Thr Tyr 20 25 30 Asn Tyr Val Ser Trp Tyr Gln Gln His Pro Gly Lys Ala Pro Lys Leu 35 40 45 Met Ile Phe Asp Val Ser Asn Arg Pro Ser Gly Val Ser Asp Arg Phe 50 55 60 Ser Gly Ser Lys Ser Gly Asn Thr Ala Ser Leu Thr Ile Ser Gly Leu 65 70 75 80 Gln Ala Glu Asp Glu Ala Asp Tyr Tyr Cys Ser Ser Phe Thr Thr Ser 85 90 95 Ser Thr Val Val Phe Gly Gly Gly Thr Lys Leu Thr Val Leu 100 105 110 <210> 94 <211> 9 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 94 Ser Ser Asp Val Gly Thr Tyr Asn Tyr 1 5 <210> 95 <211> 10 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 95 Ser Ser Phe Thr Thr Ser Ser Thr Val Val 1 5 10 <210> 96 <211> 453 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 96 Gln Val Gln Leu Val Gln Ser Gly Ala Glu Val Lys Lys Pro Gly Ala 1 5 10 15 Ser Val Lys Val Ser Cys Lys Ala Ser Gly Tyr Ile Phe Thr Gly Tyr 20 25 30 Tyr Met His Trp Val Arg Gln Ala Pro Gly Gln Gly Leu Glu Trp Met 35 40 45 Gly Trp Ile Asn Pro Asn Ser Gly Gly Ala Asn Tyr Ala Gln Lys Phe 50 55 60 Gln Gly Arg Val Thr Leu Thr Arg Asp Thr Ser Ile Thr Thr Val Tyr 65 70 75 80 Met Glu Leu Ser Arg Leu Arg Phe Asp Asp Thr Ala Val Tyr Tyr Cys 85 90 95 Ala Arg Gly Ser Arg Tyr Asp Trp Asn Gln Asn Asn Trp Phe Asp Pro 100 105 110 Trp Gly Gln Gly Thr Leu Val Thr Val Ser Ser Ala Ser Thr Lys Gly 115 120 125 Pro Ser Val Phe Pro Leu Ala Pro Ser Ser Lys Ser Thr Ser Gly Gly 130 135 140 Thr Ala Ala Leu Gly Cys Leu Val Lys Asp Tyr Phe Pro Glu Pro Val 145 150 155 160 Thr Val Ser Trp Asn Ser Gly Ala Leu Thr Ser Gly Val His Thr Phe 165 170 175 Pro Ala Val Leu Gln Ser Ser Gly Leu Tyr Ser Leu Ser Ser Val Val 180 185 190 Thr Val Pro Ser Ser Ser Leu Gly Thr Gln Thr Tyr Ile Cys Asn Val 195 200 205 Asn His Lys Pro Ser Asn Thr Lys Val Asp Lys Lys Val Glu Pro Lys 210 215 220 Ser Cys Asp Lys Thr His Thr Cys Pro Pro Cys Pro Ala Pro Glu Leu 225 230 235 240 Leu Gly Gly Pro Ser Val Phe Leu Phe Pro Pro Lys Pro Lys Asp Thr 245 250 255 Leu Met Ile Ser Arg Thr Pro Glu Val Thr Cys Val Val Val Asp Val 260 265 270 Ser His Glu Asp Pro Glu Val Lys Phe Asn Trp Tyr Val Asp Gly Val 275 280 285 Glu Val His Asn Ala Lys Thr Lys Pro Arg Glu Glu Gln Tyr Asn Ser 290 295 300 Thr Tyr Arg Val Val Ser Val Leu Thr Val Leu His Gln Asp Trp Leu 305 310 315 320 Asn Gly Lys Glu Tyr Lys Cys Lys Val Ser Asn Lys Ala Leu Pro Ala 325 330 335 Pro Ile Glu Lys Thr Ile Ser Lys Ala Lys Gly Gln Pro Arg Glu Pro 340 345 350 Gln Val Tyr Thr Leu Pro Pro Ser Arg Asp Glu Leu Thr Lys Asn Gln 355 360 365 Val Ser Leu Thr Cys Leu Val Lys Gly Phe Tyr Pro Ser Asp Ile Ala 370 375 380 Val Glu Trp Glu Ser Asn Gly Gln Pro Glu Asn Asn Tyr Lys Thr Thr 385 390 395 400 Pro Pro Val Leu Asp Ser Asp Gly Ser Phe Phe Leu Tyr Ser Lys Leu 405 410 415 Thr Val Asp Lys Ser Arg Trp Gln Gln Gly Asn Val Phe Ser Cys Ser 420 425 430 Val Met His Glu Ala Leu His Asn His Tyr Thr Gln Lys Ser Leu Ser 435 440 445 Leu Ser Pro Gly Lys 450 <210> 97 <211> 216 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 97 Gln Ser Ala Leu Thr Gln Pro Ala Ser Val Ser Gly Ser Pro Gly Gln 1 5 10 15 Ser Ile Thr Ile Ser Cys Thr Gly Thr Ser Ser Asp Val Gly Thr Tyr 20 25 30 Asn Tyr Val Ser Trp Tyr Gln Gln His Pro Gly Lys Ala Pro Lys Leu 35 40 45 Met Ile Phe Asp Val Ser Asn Arg Pro Ser Gly Val Ser Asp Arg Phe 50 55 60 Ser Gly Ser Lys Ser Gly Asn Thr Ala Ser Leu Thr Ile Ser Gly Leu 65 70 75 80 Gln Ala Glu Asp Glu Ala Asp Tyr Tyr Cys Ser Ser Phe Thr Thr Ser 85 90 95 Ser Thr Val Val Phe Gly Gly Gly Thr Lys Leu Thr Val Leu Gly Gln 100 105 110 Pro Lys Ala Ala Pro Ser Val Thr Leu Phe Pro Pro Ser Ser Glu Glu 115 120 125 Leu Gln Ala Asn Lys Ala Thr Leu Val Cys Leu Ile Ser Asp Phe Tyr 130 135 140 Pro Gly Ala Val Thr Val Ala Trp Lys Ala Asp Ser Ser Pro Val Lys 145 150 155 160 Ala Gly Val Glu Thr Thr Thr Pro Ser Lys Gln Ser Asn Asn Lys Tyr 165 170 175 Ala Ala Ser Ser Tyr Leu Ser Leu Thr Pro Glu Gln Trp Lys Ser His 180 185 190 Arg Ser Tyr Ser Cys Gln Val Thr His Glu Gly Ser Thr Val Glu Lys 195 200 205 Thr Val Ala Pro Thr Glu Cys Ser 210 215 <210> 98 <211> 369 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 98 caggtgcagc tggtgcagtc tggggctgag gtgaagaagc ctggggcctc agtgaaggtc 60 tcctgcaagg cttctggata catcttcacc ggctactata tgcactgggt gcgacaggcc 120 cctggacagg ggcttgagtg gatgggatgg atcaacccta acagtggtgg cgcaaactat 180 gcacagaagt ttcagggcag ggtcaccctg accagggaca cgtccatcac cacagtctac 240 atggaactga gcaggctgag atttgacgac acggccgtgt attactgtgc gagaggatcc 300 cggtatgact ggaaccagaa caactggttc gacccctggg gccagggaac cctggtcacc 360 gtctcctca 369 <210> 99 <211> 24 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 99 ggatacatct tcaccggcta ctat 24 <210> 100 <211> 24 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 100 atcaacccta acagtggtgg cgca 24 <210> 101 <211> 48 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 101 gcgagaggat cccggtatga ctggaaccag aacaactggt tcgacccc 48 <210> 102 <211> 330 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 102 cagtctgccc tgactcagcc tgcctccgtg tctgggtctc ctggacagtc gatcaccatc 60 tcctgcactg gaaccagcag tgacgttggt acttataact atgtctcctg gtaccaacaa 120 cacccaggca aagcccccaa actcatgatt tttgatgtca gtaatcggcc ctcaggggtt 180 tctgatcgct tctctggctc caagtctggc aacacggcct ccctgaccat ctctgggctc 240 caggctgagg acgaggctga ttattactgc agctcattta caaccagcag cactgtggtt 300 ttcggcggag ggaccaagct gaccgtccta 330 <210> 103 <211> 27 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 103 agcagtgacg ttggtactta taactat 27 <210> 104 <211> 9 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 104 gatgtcagt 9 <210> 105 <211> 30 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 105 agctcattta caaccagcag cactgtggtt 30 <210> 106 <211> 1362 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 106 caggtgcagc tggtgcagtc tggggctgag gtgaagaagc ctggggcctc agtgaaggtc 60 tcctgcaagg cttctggata catcttcacc ggctactata tgcactgggt gcgacaggcc 120 cctggacagg ggcttgagtg gatgggatgg atcaacccta acagtggtgg cgcaaactat 180 gcacagaagt ttcagggcag ggtcaccctg accagggaca cgtccatcac cacagtctac 240 atggaactga gcaggctgag atttgacgac acggccgtgt attactgtgc gagaggatcc 300 cggtatgact ggaaccagaa caactggttc gacccctggg gccagggaac cctggtcacc 360 gtctcctcag cctccaccaa gggcccatcg gtcttccccc tggcaccctc ctccaagagc 420 acctctgggg gcacagcggc cctgggctgc ctggtcaagg actacttccc cgaaccggtg 480 acggtgtcgt ggaactcagg cgccctgacc agcggcgtgc acaccttccc ggctgtccta 540 cagtcctcag gactctactc cctcagcagc gtggtgaccg tgccctccag cagcttgggc 600 acccagacct acatctgcaa cgtgaatcac aagcccagca acaccaaggt ggacaagaaa 660 gttgagccca aatcttgtga caaaactcac acatgcccac cgtgcccagc acctgaactc 720 ctggggggac cgtcagtctt cctcttcccc ccaaaaccca aggacaccct catgatctcc 780 cggacccctg aggtcacatg cgtggtggtg gacgtgagcc acgaagaccc tgaggtcaag 840 ttcaactggt acgtggacgg cgtggaggtg cataatgcca agacaaagcc gcgggaggag 900 cagtacaaca gcacgtaccg tgtggtcagc gtcctcaccg tcctgcacca ggactggctg 960 aatggcaagg agtacaagtg caaggtctcc aacaaagccc tcccagcccc catcgagaaa 1020 accatctcca aagccaaagg gcagccccga gaaccacagg tgtacaccct gcccccatcc 1080 cgggatgagc tgaccaagaa ccaggtcagc ctgacctgcc tggtcaaagg cttctatccc 1140 agcgacatcg ccgtggagtg ggagagcaat gggcagccgg agaacaacta caagaccacg 1200 cctcccgtgc tggactccga cggctccttc ttcctctaca gcaagctcac cgtggacaag 1260 agcaggtggc agcaggggaa cgtcttctca tgctccgtga tgcatgaggc tctgcacaac 1320 cactacacgc agaagtccct ctccctgtct ccgggtaaat ga 1362 <210> 107 <211> 651 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 107 cagtctgccc tgactcagcc tgcctccgtg tctgggtctc ctggacagtc gatcaccatc 60 tcctgcactg gaaccagcag tgacgttggt acttataact atgtctcctg gtaccaacaa 120 cacccaggca aagcccccaa actcatgatt tttgatgtca gtaatcggcc ctcaggggtt 180 tctgatcgct tctctggctc caagtctggc aacacggcct ccctgaccat ctctgggctc 240 caggctgagg acgaggctga ttattactgc agctcattta caaccagcag cactgtggtt 300 ttcggcggag ggaccaagct gaccgtccta ggccagccca aggccgcccc ctccgtgacc 360 ctgttccccc cctcctccga ggagctgcag gccaacaagg ccaccctggt gtgcctgatc 420 tccgacttct accccggcgc cgtgaccgtg gcctggaagg ccgactcctc ccccgtgaag 480 gccggcgtgg agaccaccac cccctccaag cagtccaaca acaagtacgc cgcctcctcc 540 tacctgtccc tgacccccga gcagtggaag tcccaccggt cctactcctg ccaggtgacc 600 cacgagggct ccaccgtgga gaagaccgtg gcccccaccg agtgctcctg a 651 <210> 108 <211> 1273 <212> PRT <213> Severe acute respiratory syndrome coronavirus 2 <400> 108 Met Phe Val Phe Leu Val Leu Leu Pro Leu Val Ser Ser Gln Cys Val 1 5 10 15 Asn Leu Thr Thr Arg Thr Gln Leu Pro Pro Ala Tyr Thr Asn Ser Phe 20 25 30 Thr Arg Gly Val Tyr Tyr Pro Asp Lys Val Phe Arg Ser Ser Val Leu 35 40 45 His Ser Thr Gln Asp Leu Phe Leu Pro Phe Phe Ser Asn Val Thr Trp 50 55 60 Phe His Ala Ile His Val Ser Gly Thr Asn Gly Thr Lys Arg Phe Asp 65 70 75 80 Asn Pro Val Leu Pro Phe Asn Asp Gly Val Tyr Phe Ala Ser Thr Glu 85 90 95 Lys Ser Asn Ile Ile Arg Gly Trp Ile Phe Gly Thr Thr Leu Asp Ser 100 105 110 Lys Thr Gln Ser Leu Leu Ile Val Asn Asn Ala Thr Asn Val Val Ile 115 120 125 Lys Val Cys Glu Phe Gln Phe Cys Asn Asp Pro Phe Leu Gly Val Tyr 130 135 140 Tyr His Lys Asn Asn Lys Ser Trp Met Glu Ser Glu Phe Arg Val Tyr 145 150 155 160 Ser Ser Ala Asn Asn Cys Thr Phe Glu Tyr Val Ser Gln Pro Phe Leu 165 170 175 Met Asp Leu Glu Gly Lys Gln Gly Asn Phe Lys Asn Leu Arg Glu Phe 180 185 190 Val Phe Lys Asn Ile Asp Gly Tyr Phe Lys Ile Tyr Ser Lys His Thr 195 200 205 Pro Ile Asn Leu Val Arg Asp Leu Pro Gln Gly Phe Ser Ala Leu Glu 210 215 220 Pro Leu Val Asp Leu Pro Ile Gly Ile Asn Ile Thr Arg Phe Gln Thr 225 230 235 240 Leu Leu Ala Leu His Arg Ser Tyr Leu Thr Pro Gly Asp Ser Ser Ser 245 250 255 Gly Trp Thr Ala Gly Ala Ala Ala Tyr Tyr Val Gly Tyr Leu Gln Pro 260 265 270 Arg Thr Phe Leu Leu Lys Tyr Asn Glu Asn Gly Thr Ile Thr Asp Ala 275 280 285 Val Asp Cys Ala Leu Asp Pro Leu Ser Glu Thr Lys Cys Thr Leu Lys 290 295 300 Ser Phe Thr Val Glu Lys Gly Ile Tyr Gln Thr Ser Asn Phe Arg Val 305 310 315 320 Gln Pro Thr Glu Ser Ile Val Arg Phe Pro Asn Ile Thr Asn Leu Cys 325 330 335 Pro Phe Gly Glu Val Phe Asn Ala Thr Arg Phe Ala Ser Val Tyr Ala 340 345 350 Trp Asn Arg Lys Arg Ile Ser Asn Cys Val Ala Asp Tyr Ser Val Leu 355 360 365 Tyr Asn Ser Ala Ser Phe Ser Thr Phe Lys Cys Tyr Gly Val Ser Pro 370 375 380 Thr Lys Leu Asn Asp Leu Cys Phe Thr Asn Val Tyr Ala Asp Ser Phe 385 390 395 400 Val Ile Arg Gly Asp Glu Val Arg Gln Ile Ala Pro Gly Gln Thr Gly 405 410 415 Lys Ile Ala Asp Tyr Asn Tyr Lys Leu Pro Asp Asp Phe Thr Gly Cys 420 425 430 Val Ile Ala Trp Asn Ser Asn Asn Leu Asp Ser Lys Val Gly Gly Asn 435 440 445 Tyr Asn Tyr Leu Tyr Arg Leu Phe Arg Lys Ser Asn Leu Lys Pro Phe 450 455 460 Glu Arg Asp Ile Ser Thr Glu Ile Tyr Gln Ala Gly Ser Thr Pro Cys 465 470 475 480 Asn Gly Val Glu Gly Phe Asn Cys Tyr Phe Pro Leu Gln Ser Tyr Gly 485 490 495 Phe Gln Pro Thr Asn Gly Val Gly Tyr Gln Pro Tyr Arg Val Val Val 500 505 510 Leu Ser Phe Glu Leu Leu His Ala Pro Ala Thr Val Cys Gly Pro Lys 515 520 525 Lys Ser Thr Asn Leu Val Lys Asn Lys Cys Val Asn Phe Asn Phe Asn 530 535 540 Gly Leu Thr Gly Thr Gly Val Leu Thr Glu Ser Asn Lys Lys Phe Leu 545 550 555 560 Pro Phe Gln Gln Phe Gly Arg Asp Ile Ala Asp Thr Thr Asp Ala Val 565 570 575 Arg Asp Pro Gln Thr Leu Glu Ile Leu Asp Ile Thr Pro Cys Ser Phe 580 585 590 Gly Gly Val Ser Val Ile Thr Pro Gly Thr Asn Thr Ser Asn Gln Val 595 600 605 Ala Val Leu Tyr Gln Asp Val Asn Cys Thr Glu Val Pro Val Ala Ile 610 615 620 His Ala Asp Gln Leu Thr Pro Thr Trp Arg Val Tyr Ser Thr Gly Ser 625 630 635 640 Asn Val Phe Gln Thr Arg Ala Gly Cys Leu Ile Gly Ala Glu His Val 645 650 655 Asn Asn Ser Tyr Glu Cys Asp Ile Pro Ile Gly Ala Gly Ile Cys Ala 660 665 670 Ser Tyr Gln Thr Gln Thr Asn Ser Pro Arg Arg Ala Arg Ser Val Ala 675 680 685 Ser Gln Ser Ile Ile Ala Tyr Thr Met Ser Leu Gly Ala Glu Asn Ser 690 695 700 Val Ala Tyr Ser Asn Asn Ser Ile Ala Ile Pro Thr Asn Phe Thr Ile 705 710 715 720 Ser Val Thr Thr Glu Ile Leu Pro Val Ser Met Thr Lys Thr Ser Val 725 730 735 Asp Cys Thr Met Tyr Ile Cys Gly Asp Ser Thr Glu Cys Ser Asn Leu 740 745 750 Leu Leu Gln Tyr Gly Ser Phe Cys Thr Gln Leu Asn Arg Ala Leu Thr 755 760 765 Gly Ile Ala Val Glu Gln Asp Lys Asn Thr Gln Glu Val Phe Ala Gln 770 775 780 Val Lys Gln Ile Tyr Lys Thr Pro Pro Ile Lys Asp Phe Gly Gly Phe 785 790 795 800 Asn Phe Ser Gln Ile Leu Pro Asp Pro Ser Lys Pro Ser Lys Arg Ser 805 810 815 Phe Ile Glu Asp Leu Leu Phe Asn Lys Val Thr Leu Ala Asp Ala Gly 820 825 830 Phe Ile Lys Gln Tyr Gly Asp Cys Leu Gly Asp Ile Ala Ala Arg Asp 835 840 845 Leu Ile Cys Ala Gln Lys Phe Asn Gly Leu Thr Val Leu Pro Pro Leu 850 855 860 Leu Thr Asp Glu Met Ile Ala Gln Tyr Thr Ser Ala Leu Leu Ala Gly 865 870 875 880 Thr Ile Thr Ser Gly Trp Thr Phe Gly Ala Gly Ala Ala Leu Gln Ile 885 890 895 Pro Phe Ala Met Gln Met Ala Tyr Arg Phe Asn Gly Ile Gly Val Thr 900 905 910 Gln Asn Val Leu Tyr Glu Asn Gln Lys Leu Ile Ala Asn Gln Phe Asn 915 920 925 Ser Ala Ile Gly Lys Ile Gln Asp Ser Leu Ser Ser Thr Ala Ser Ala 930 935 940 Leu Gly Lys Leu Gln Asp Val Val Asn Gln Asn Ala Gln Ala Leu Asn 945 950 955 960 Thr Leu Val Lys Gln Leu Ser Ser Asn Phe Gly Ala Ile Ser Ser Val 965 970 975 Leu Asn Asp Ile Leu Ser Arg Leu Asp Lys Val Glu Ala Glu Val Gln 980 985 990 Ile Asp Arg Leu Ile Thr Gly Arg Leu Gln Ser Leu Gln Thr Tyr Val 995 1000 1005 Thr Gln Gln Leu Ile Arg Ala Ala Glu Ile Arg Ala Ser Ala Asn 1010 1015 1020 Leu Ala Ala Thr Lys Met Ser Glu Cys Val Leu Gly Gln Ser Lys 1025 1030 1035 Arg Val Asp Phe Cys Gly Lys Gly Tyr His Leu Met Ser Phe Pro 1040 1045 1050 Gln Ser Ala Pro His Gly Val Val Phe Leu His Val Thr Tyr Val 1055 1060 1065 Pro Ala Gln Glu Lys Asn Phe Thr Thr Ala Pro Ala Ile Cys His 1070 1075 1080 Asp Gly Lys Ala His Phe Pro Arg Glu Gly Val Phe Val Ser Asn 1085 1090 1095 Gly Thr His Trp Phe Val Thr Gln Arg Asn Phe Tyr Glu Pro Gln 1100 1105 1110 Ile Ile Thr Thr Asp Asn Thr Phe Val Ser Gly Asn Cys Asp Val 1115 1120 1125 Val Ile Gly Ile Val Asn Asn Thr Val Tyr Asp Pro Leu Gln Pro 1130 1135 1140 Glu Leu Asp Ser Phe Lys Glu Glu Leu Asp Lys Tyr Phe Lys Asn 1145 1150 1155 His Thr Ser Pro Asp Val Asp Leu Gly Asp Ile Ser Gly Ile Asn 1160 1165 1170 Ala Ser Val Val Asn Ile Gln Lys Glu Ile Asp Arg Leu Asn Glu 1175 1180 1185 Val Ala Lys Asn Leu Asn Glu Ser Leu Ile Asp Leu Gln Glu Leu 1190 1195 1200 Gly Lys Tyr Glu Gln Tyr Ile Lys Trp Pro Trp Tyr Ile Trp Leu 1205 1210 1215 Gly Phe Ile Ala Gly Leu Ile Ala Ile Val Met Val Thr Ile Met 1220 1225 1230 Leu Cys Cys Met Thr Ser Cys Cys Ser Cys Leu Lys Gly Cys Cys 1235 1240 1245 Ser Cys Gly Ser Cys Cys Lys Phe Asp Glu Asp Asp Ser Glu Pro 1250 1255 1260 Val Leu Lys Gly Val Lys Leu His Tyr Thr 1265 1270

Claims

아미노산 서열을 병원체에 대한 요법의 개발에서 후보 항원으로서 식별하는 방법으로서,
데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계;
컴퓨팅 디바이스의 프로세서에 의해, 게놈 서열로부터 코딩 서열을 추출하는 단계;
프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하는 단계로서, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하는 것인, 단계;
동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하는 단계;
상기 프로세서에 의해, 상기 선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계;
상기 프로세서에 의해, 상기 아미노산 서열을 정렬하는 단계;
상기 정렬된 아미노산 서열의 복수의 부분 각각을 병원체의 상이한 균주중에서 상기 부분의 변환 수준에 따라 분류하는 단계;
보존된 것으로 분류된 아미노산 서열의 부분을 선택하고, 선택된 보존된 서열을 인간 단백질 서열과 비교하고, 추가로 선택된 보존된 서열을 인간 단백질 서열과 동일하거나 또는 동일하지 않은 것으로 분류하는 단계; 및
상기 병원체에 대한 요법의 개발에서 후보 항원으로서 인간 단백질 서열과 동일하지 않은 선택된 보존된 서열을 범주화하는 단계를 포함하는, 방법.
제1항에 있어서, 상기 데이터 구조가 콘티그를 포함하고, 상기 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계가 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하는 것을 포함하는 것인, 방법.
제1항 또는 제2항에 있어서, 상기 범주화 단계가 복수의 쌍 각각에 대한 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 상기 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함하는 것인, 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 범주화 단계가 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 상기 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수인, 방법.
제4항에 있어서, 상기 컴퓨팅 단계가 상기 유사성 척도의 매트릭스를 생성하고 상기 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함하는 것인, 방법.
제5항에 있어서, 상기 그래픽 표현이 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함하는 것인, 방법.
제1항 내지 제6항 중 어느 한 항에 있어서, 상기 동일성 척도가 돌연변이의 수를 포함하는 것인, 방법.
제1항 내지 제7항 중 어느 한 항에 있어서, 상기 적용범위 척도가 퍼센트 적용범위를 포함하는 것인, 방법.
제1항 내지 제8항 중 어느 한 항에 있어서, 상기 동일성 척도가 E-값을 계산하는 것을 포함하는 것인, 방법.
제1항 내지 제9항 중 어느 한 항에 있어서, 상기 선택된 보존된 서열을 후보 항원으로서 범주화하는 단계가 선택된 보존된 서열에서 하나 이상의 아미노산 도메인의 존재 또는 부재를 결정하는 것을 추가로 포함하는 것인, 방법.
제1항 내지 제10항 중 어느 한 항에 있어서, 상기 선택된 보존된 서열을 후보 항원으로서 범주화하는 단계가 후보 항원이 병원체의 막 및/또는 세포 벽 내에 분비되거나 또는 노출된 단백질에 상응하는지 여부를 결정하는 것을 추가로 포함하는 것인, 방법.
제1항 내지 제11항 중 어느 한 항에 있어서, 상기 선택된 보존된 서열을 후보 항원으로서 범주화하는 단계가 선택된 보존된 서열에서 막관통 도메인의 존재를 결정하는 것을 추가로 포함하는 것인, 방법.
제1항 내지 제12항 중 어느 한 항에 있어서, 상기 요법이 백신을 포함하고 상기 방법이 면역원성에 대한 후보 항원을 비-임상적으로 평가하는 단계를 추가로 포함하는 것인, 방법.
제13항에 있어서, 상기 평가 단계가 후보 항원을 포함하는 폴리펩티드를 동물에게 투여하는 것을 포함하는 것인, 방법.
제1항 내지 제14항 중 어느 한 항에 있어서, 상기 요법이 항체 요법을 포함하고, 상기 방법이 후보 항원 상의 에피토프에 특이적으로 결합하는 항체 또는 이의 단편을 생성하는 단계를 추가로 포함하는 것인, 방법.
제1항 내지 제15항 중 어느 한 항에 있어서, 상기 병원체가 바이러스인, 방법.
제16항에 있어서, 상기 바이러스가 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스인, 방법.
제16항에 있어서, 상기 바이러스가 코로나바이러스인, 방법.
제18항에 있어서, 상기 코로나바이러스가 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)인, 방법.
제1항 내지 제15항 중 어느 한 항에 있어서, 상기 병원체가 박테리아인, 방법.
제20항에 있어서, 상기 박테리아가 스타필로코쿠스 종 또는 슈도모나스 종인, 방법.
병원체 감염의 치료를 위해 하나 이상의 대상체에게 치료제를 투여한 후 하나 이상의 추정 탈출 돌연변이를 식별하는 방법으로서,
각각의 대상체에게 치료제를 투여한 후 하나 이상의 대상체로부터 단리된 복수의 완전 또는 부분적 병원체 게놈 서열을 수득하는 단계;
컴퓨팅 디바이스의 프로세서에 의해, 상기 게놈 서열로부터 코딩 서열을 추출하는 단계;
상기 프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하는 단계로서, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하는 것인, 단계;
동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하는 단계;
상기 프로세서에 의해, 상기 선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계;
상기 프로세서에 의해, 상기 아미노산 서열을 정렬하는 단계;
상기 정렬된 아미노산 서열에서, 참조에서보다 정렬된 아미노산 서열에서 더 빈번한 하나 이상의 아미노산 변이체를 식별하며, 상기 하나 이상의 아미노산 변이체는 하나 이상의 추정 탈출 돌연변이인 단계를 포함하는, 방법.
제22항에 있어서, 상기 참조가 표준 병원체 서열을 나타내는 하나 이상의 완전 또는 부분적 병원체 게놈 서열, 병원체의 하나 이상의 임상 균주, 치료제가 투여된 대상체 중 하나 이상으로부터 병원체의 하나 이상의 초기 샘플, 또는 치료제가 투여되지 않은 대상체로부터 병원체의 하나 이상의 샘플을 포함하는 것인, 방법.
제22항 또는 제23항에 있어서, 상기 추정 탈출 돌연변이 중 하나 이상이 치료제와 참조 폴리펩티드의 결합 친화도를 감소시키는지 여부를 결정하는 단계를 추가로 포함하는, 방법.
제22항 내지 제24항 중 어느 한 항에 있어서, 상기 데이터 구조가 콘티그를 포함하고, 상기 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계가 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하는 것을 포함하는 것인, 방법.
제22항 내지 제25항 중 어느 한 항에 있어서, 상기 범주화 단계가 복수의 쌍 각각에 대한 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 상기 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함하는 것인, 방법.
제22항 내지 제26항 중 어느 한 항에 있어서, 상기 범주화 단계가 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 상기 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수인, 방법.
제27항에 있어서, 상기 컴퓨팅 단계가 상기 유사성 척도의 매트릭스를 생성하고 상기 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함하는 것인, 방법.
제28항에 있어서, 상기 그래픽 표현이 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함하는 것인, 방법.
제22항 내지 제29항 중 어느 한 항에 있어서, 상기 동일성 척도가 돌연변이의 수를 포함하는 것인, 방법.
제22항 내지 제30항 중 어느 한 항에 있어서, 상기 적용범위 척도가 퍼센트 적용범위를 포함하는 것인, 방법.
제22항 내지 제31항 중 어느 한 항에 있어서, 상기 동일성 척도가 E-값을 계산하는 것을 포함하는 것인, 방법.
제22항 내지 제32항 중 어느 한 항에 있어서, 다음 중 하나 이상을 평가하는 단계를 포함하는, 방법:
상기 병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열;
상기 병원체와 연관된 단백질을 암호화하는 핵산 서열의 보존된 서열;
단백질을 암호화하는 핵산의 비-보존된 서열;
상기 병원체와 연관된 특정 단백질 내의 보존된 도메인; 및
상기 병원체와 연관된 특정 단백질 내의 비-보존된 도메인.
제22항 내지 제33항 중 어느 한 항에 있어서, 상기 아미노산 서열의 각각의 부분이 하나 이상의 아미노산 위치를 포함하는 것인, 방법.
제22항 내지 제34항 중 어느 한 항에 있어서, 상기 병원체가 바이러스인, 방법.
제35항에 있어서, 상기 바이러스가 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스인, 방법.
제35항에 있어서, 상기 바이러스가 코로나바이러스인, 방법.
제37항에 있어서, 상기 코로나바이러스가 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)인, 방법.
제38항에 있어서, 상기 코로나바이러스가 SARS-CoV-2인, 방법.
제22항 내지 제39항 중 어느 한 항에 있어서, 코로나바이러스 스파이크(S) 단백질[예를 들어, MERS, SARS-CoV, 또는 SARS-CoV2 스파이크(S) 단백질] 또는 이의 수용체-결합 도메인(RBD)을 평가하는 단계를 포함하는, 방법.
제22항 내지 제40항 중 어느 한 항에 있어서, 상기 치료제가 항체를 포함하는 것인, 방법.
제41항에 있어서, 상기 항체가 SARS-CoV-2에 결합하는 것인, 방법.
제42항에 있어서, 상기 항체가 SARS-CoV-2 스파이크 단백질에 결합하는 것인, 방법.
제41항 내지 제43항 중 어느 한 항에 있어서, 상기 항체가 표 3에 따른 적어도 하나의 항체, 중쇄(HC), 경쇄(LC), 중쇄 가변 영역(HCVR), 경쇄 가변 영역(LCVR), 중쇄 상보성 결정 영역(HCDR), 또는 경쇄 CDR(LCDR)을 포함하는 것인, 방법.
제22항 내지 제34항 중 어느 한 항에 있어서, 상기 병원체가 박테리아인, 방법.
제45항에 있어서, 상기 박테리아가 스타필로코쿠스 종 또는 슈도모나스 종인, 방법.
병원체 감염의 치료를 위한 치료제를 이를 필요로 하는 대상체에게 투여하는 방법으로서,
데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계;
컴퓨팅 디바이스의 프로세서에 의해, 게놈 서열로부터 코딩 서열을 추출하는 단계;
프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하는 단계로서, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하는 것인, 단계;
동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하는 단계;
프로세서에 의해, 선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계;
프로세서에 의해, 아미노산 서열을 정렬하는 단계;
정렬된 아미노산 서열의 복수의 부분 각각을 병원체의 상이한 균주 중에서 상기 부분의 보존 수준에 따라 분류하는 단계; 및
정렬된 아미노산 서열의 보존된 부분을 선택하는 단계
에 의해 아미노산 서열의 보존된 부분을 선택하는 단계: 및
대상체로부터 단리된 완전 또는 부분적 병원체 게놈 서열이 아미노산 서열의 보존된 부분을 암호화하는 경우 대상체에게 치료제를 투여하는 단계로서, 상기 치료제는 아미노산 서열의 보존된 부분에 선택적으로 결합하는 것인, 단계를 포함하는, 방법.
제47항에 있어서, 상기 데이터 구조가 콘티그를 포함하고, 상기 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계가 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하는 것을 포함하는 것인, 방법.
제47항 또는 제48항에 있어서, 상기 범주화 단계가 복수의 쌍 각각에 대한 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 상기 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함하는 것인, 방법.
제47항 내지 제49항 중 어느 한 항에 있어서, 상기 범주화 단계가 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 상기 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수인, 방법.
제50항에 있어서, 상기 컴퓨팅 단계가 상기 유사성 척도의 매트릭스를 생성하고 상기 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함하는 것인, 방법.
제51항에 있어서, 상기 그래픽 표현이 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함하는 것인, 방법.
제47항 내지 제52항 중 어느 한 항에 있어서, 상기 동일성 척도가 돌연변이의 수를 포함하는 것인, 방법.
제47항 내지 제53항 중 어느 한 항에 있어서, 상기 적용범위 척도가 퍼센트 적용범위를 포함하는 것인, 방법.
제47항 내지 제54항 중 어느 한 항에 있어서, 상기 동일성 척도가 E-값을 계산하는 것을 포함하는 것인, 방법.
제47항 내지 제55항 중 어느 한 항에 있어서, 다음 중 하나 이상을 평가하는 단계를 포함하는, 방법:
상기 병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열;
상기 병원체와 연관된 단백질을 암호화하는 핵산 서열의 보존된 서열;
단백질을 암호화하는 핵산의 비-보존된 서열;
상기 병원체와 연관된 특정 단백질 내의 보존된 도메인; 및
상기 병원체와 연관된 특정 단백질 내의 비-보존된 도메인.
제47항 내지 제56항 중 어느 한 항에 있어서, 상기 아미노산 서열의 각각의 부분이 하나 이상의 아미노산 위치를 포함하는 것인, 방법.
제47항 내지 제57항 중 어느 한 항에 있어서, 상기 병원체가 바이러스인, 방법.
제58항에 있어서, 상기 바이러스가 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스인, 방법.
제58항에 있어서, 상기 바이러스가 코로나바이러스인, 방법.
제60항에 있어서, 상기 코로나바이러스가 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)인, 방법.
제61항에 있어서, 상기 코로나바이러스가 SARS-CoV-2인, 방법.
제47항 내지 제62항 중 어느 한 항에 있어서, 코로나바이러스 스파이크(S) 단백질[예를 들어, MERS, SARS-CoV, 또는 SARS-CoV2 스파이크(S) 단백질] 또는 이의 수용체-결합 도메인(RBD)을 평가하는 단계를 포함하는, 방법.
제47항 내지 제63항 중 어느 한 항에 있어서, 상기 치료제가 항체를 포함하는 것인, 방법.
제64항에 있어서, 상기 항체가 SARS-CoV-2에 결합하는 것인, 방법.
제65항에 있어서, 상기 항체가 SARS-CoV-2 스파이크 단백질에 결합하는 것인, 방법.
제64항 내지 제66항 중 어느 한 항에 있어서, 상기 항체가 표 3에 따른 적어도 하나의 항체, 중쇄(HC), 경쇄(LC), 중쇄 가변 영역(HCVR), 경쇄 가변 영역(LCVR), 중쇄 상보성 결정 영역(HCDR), 또는 경쇄 CDR(LCDR)을 포함하는 것인, 방법.
제47항 내지 제57항 중 어느 한 항에 있어서, 상기 병원체가 박테리아인, 방법.
제68항에 있어서, 상기 박테리아가 스타필로코쿠스 종 또는 슈도모나스 종인, 방법.
병원체로 감염된 대상체의 치료를 위한 치료제를 선택하는 방법으로서,
데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계;
컴퓨팅 디바이스의 프로세서에 의해, 상기 게놈 서열로부터 코딩 서열을 추출하는 단계;
상기 프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하는 단계로서, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하는 것인 단계;
상기 동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하는 단계;
상기 프로세서에 의해, 상기 선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계;
상기 프로세서에 의해, 상기 아미노산 서열을 정렬하는 단계;
상기 정렬된 아미노산 서열의 복수의 부분 각각을 병원체의 상이한 균주 중에서 상기 부분의 보존 수준에 따라 분류하여, 이에 의해 병원체를 나타내는 코딩 서열의 보존된 부분을 식별하는 단계; 및
상기 병원체로 감염된 대상체를 위한 치료로서 보존된 코딩 서열에 결합하는 치료제를 선택하는 단계를 포함하는 방법.
제70항에 있어서, 상기 데이터 구조가 콘티그를 포함하고, 상기 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계가 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하는 것을 포함하는 것인, 방법.
제70항 또는 제71항에 있어서, 상기 범주화 단계가 복수의 쌍 각각에 대한 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 상기 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함하는 것인, 방법.
제70항 내지 제72항 중 어느 한 항에 있어서, 상기 범주화 단계가 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 상기 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수인, 방법.
제73항에 있어서, 상기 컴퓨팅 단계가 상기 유사성 척도의 매트릭스를 생성하고 상기 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함하는 것인, 방법.
제74항에 있어서, 상기 그래픽 표현이 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함하는 것인, 방법.
제70항 내지 제75항 중 어느 한 항에 있어서, 상기 동일성 척도가 돌연변이의 수를 포함하는 것인, 방법.
제70항 내지 제76항 중 어느 한 항에 있어서, 상기 적용범위 척도가 퍼센트 적용범위를 포함하는 것인, 방법.
제70항 내지 제77항 중 어느 한 항에 있어서, 상기 동일성 척도가 E-값을 계산하는 것을 포함하는 것인, 방법.
제70항 내지 제78항 중 어느 한 항에 있어서, 다음 중 하나 이상을 평가하는 단계를 포함하는, 방법:
상기 병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열;
상기 병원체와 연관된 단백질을 암호화하는 핵산 서열의 보존된 서열;
단백질을 암호화하는 핵산의 비-보존된 서열;
상기 병원체와 연관된 특정 단백질 내의 보존된 도메인; 및
상기 병원체와 연관된 특정 단백질 내의 비-보존된 도메인.
제70항 내지 제79항 중 어느 한 항에 있어서, 상기 아미노산 서열의 각각의 부분이 하나 이상의 아미노산 위치를 포함하는 것인, 방법.
제80항에 있어서, 상기 방법이 백신 또는 이의 구성요소로서 치료제를 비-임상적으로 평가하는 단계를 추가로 포함하는 것인, 방법.
제81항에 있어서, 상기 평가 단계가 치료제를 동물에게 투여하는 것을 포함하는 것인, 방법.
제70항 내지 제82항 중 어느 한 항에 있어서, 상기 병원체가 바이러스인, 방법.
제83항에 있어서, 상기 바이러스가 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스인, 방법.
제83항에 있어서, 상기 바이러스가 코로나바이러스인, 방법.
제85항에 있어서, 상기 코로나바이러스가 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)인, 방법.
제86항에 있어서, 상기 코로나바이러스가 SARS-CoV-2인, 방법.
제70항 내지 제87항 중 어느 한 항에 있어서, 코로나바이러스 스파이크(S) 단백질[예를 들어, MERS, SARS-CoV, 또는 SARS-CoV2 스파이크(S) 단백질] 또는 이의 수용체-결합 도메인(RBD)을 평가하는 단계를 포함하는, 방법.
제70항 내지 제88항 중 어느 한 항에 있어서, 상기 치료제가 항체를 포함하는 것인, 방법.
제89항에 있어서, 상기 항체가 SARS-CoV-2에 결합하는 것인, 방법.
제90항에 있어서, 상기 항체가 SARS-CoV-2 스파이크 단백질에 결합하는 것인, 방법.
제89항 내지 제91항 중 어느 한 항에 있어서, 상기 항체가 표 3에 따른 적어도 하나의 항체, 중쇄(HC), 경쇄(LC), 중쇄 가변 영역(HCVR), 경쇄 가변 영역(LCVR), 중쇄 상보성 결정 영역(HCDR), 또는 경쇄 CDR(LCDR)을 포함하는 것인, 방법.
제70항 내지 제82항 중 어느 한 항에 있어서, 상기 병원체가 박테리아인, 방법.
제93항에 있어서, 상기 박테리아가 스타필로코쿠스 종 또는 슈도모나스 종인, 방법.
병원체를 나타내는 아미노산 서열 부분의 보존을 평가하는 방법으로서,
데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계;
컴퓨팅 디바이스의 프로세서에 의해, 상기 게놈 서열로부터 코딩 서열을 추출하는 단계;
상기 프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하는 단계로서, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하는 것인 단계;
상기 동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하는 단계;
상기 프로세서에 의해, 상기 선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계;
상기 프로세서에 의해, 상기 아미노산 서열을 정렬하는 단계; 및
상기 정렬된 아미노산 서열을 사용하여 병원체를 나타내는 아미노산 서열의 하나 이상의 부분의 보존 수준을 식별하는 단계를 포함하는, 방법.
제95항에 있어서, 상기 부분 중 하나 이상이 병원체에 대한 요법의 개발에서 후보 항원으로서 식별되는 것인, 방법.
제95항 또는 제96항에 있어서, 상기 데이터 구조가 콘티그를 포함하고, 상기 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계가 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하는 것을 포함하는 것인, 방법.
제95항 내지 제97항 중 어느 한 항에 있어서, 상기 범주화 단계가 복수의 쌍 각각에 대한 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 상기 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함하는 것인, 방법.
제95항 내지 제98항 중 어느 한 항에 있어서, 상기 범주화 단계가 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 상기 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수인, 방법.
제99항에 있어서, 상기 컴퓨팅 단계가 상기 유사성 척도의 매트릭스를 생성하고 상기 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함하는 것인, 방법.
제100항에 있어서, 상기 그래픽 표현이 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함하는 것인, 방법.
제95항 내지 제101항 중 어느 한 항에 있어서, 상기 동일성 척도가 돌연변이의 수를 포함하는 것인, 방법.
제95항 내지 제102항 중 어느 한 항에 있어서, 상기 적용범위 척도가 퍼센트 적용범위를 포함하는 것인, 방법.
제95항 내지 제103항 중 어느 한 항에 있어서, 상기 동일성 척도가 E-값을 계산하는 것을 포함하는 것인, 방법.
제95항 내지 제104항 중 어느 한 항에 있어서, 다음 중 하나 이상을 평가하는 단계를 포함하는, 방법:
상기 병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열;
상기 병원체와 연관된 단백질을 암호화하는 핵산 서열의 보존된 서열;
단백질을 암호화하는 핵산의 비-보존된 서열;
상기 병원체와 연관된 특정 단백질 내의 보존된 도메인; 및
상기 병원체와 연관된 특정 단백질 내의 비-보존된 도메인.
제95항 내지 제105항 중 어느 한 항에 있어서, 상기 아미노산 서열의 각각의 부분이 하나 이상의 아미노산 위치를 포함하는 것인, 방법.
제95항 내지 제106항 중 어느 한 항에 있어서, 상기 병원체가 바이러스인, 방법.
제107항에 있어서, 상기 바이러스가 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스인, 방법.
제107항에 있어서, 상기 바이러스가 코로나바이러스인, 방법.
제109항에 있어서, 상기 코로나바이러스가 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)인, 방법.
제110항에 있어서, 상기 코로나바이러스가 SARS-CoV-2인, 방법.
제95항 내지 제111항 중 어느 한 항에 있어서, 상기 게놈 서열이 SARS-CoV-2 게놈 서열이고 참조 서열이 SARS-CoV-2 참조 서열인, 방법.
제95항 내지 제112항 중 어느 한 항에 있어서, 코로나바이러스 스파이크(S) 단백질[예를 들어, MERS, SARS-CoV, 또는 SARS-CoV2 스파이크(S) 단백질] 또는 이의 수용체-결합 도메인(RBD)을 평가하는 단계를 포함하는, 방법.
제95항 내지 제106항 중 어느 한 항에 있어서, 상기 병원체가 박테리아인, 방법.
제114항에 있어서, 상기 박테리아가 스타필로코쿠스 종 또는 슈도모나스 종인, 방법.
단리된 병원체가 순환 균주를 나타내는지 여부를 식별하는 방법으로서,
데이터 구조로부터 병원체의 순환 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계;
상기 순환 균주의 상기 서열의 하나 이상의 보존된 부분을 식별하는 단계;
상기 단리된 병원체의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계; 및
상기 단리된 병원체의 상기 서열의 적어도 일부를 순환 균주 서열의 식별된 하나 이상의 보존된 부분에 대해 비교함으로써 상기 단리된 병원체가 순환 균주를 나타내는지 여부를 식별하는 단계를 포함하는, 방법.
제116항에 있어서, 상기 순환 균주의 상기 서열의 하나 이상의 보존된 부분을 식별하는 단계가
컴퓨팅 디바이스의 프로세서에 의해, 게놈 서열로부터 코딩 서열을 추출하는 단계;
상기 프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하는 단계로서, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하는 것인 단계;
상기 동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하는 단계;
상기 프로세서에 의해, 상기 선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계;
상기 프로세서에 의해, 상기 아미노산 서열을 정렬하는 단계; 및
상기 정렬된 아미노산 서열의 복수의 부분 각각을 정렬된 아미노산 서열 중에서 상기 부분의 보존 수준에 따라 분류하는 단계를 포함하는 것인, 방법.
제116항 또는 제117항에 있어서, 상기 데이터 구조가 콘티그를 포함하고, 상기 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계가 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하는 것을 포함하는 것인, 방법.
제116항 내지 제118항 중 어느 한 항에 있어서, 상기 범주화 단계가 복수의 쌍 각각에 대한 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 상기 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함하는 것인, 방법.
제116항 내지 제119항 중 어느 한 항에 있어서, 상기 범주화 단계가 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 상기 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수인, 방법.
제120항에 있어서, 상기 컴퓨팅 단계가 상기 유사성 척도의 매트릭스를 생성하고 상기 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함하는 것인, 방법.
제121항에 있어서, 상기 그래픽 표현이 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함하는 것인, 방법.
제116항 내지 제122항 중 어느 한 항에 있어서, 상기 동일성 척도가 돌연변이의 수를 포함하는 것인, 방법.
제116항 내지 제123항 중 어느 한 항에 있어서, 상기 적용범위 척도가 퍼센트 적용범위를 포함하는 것인, 방법.
제116항 내지 제124항 중 어느 한 항에 있어서, 상기 동일성 척도가 E-값을 계산하는 것을 포함하는 것인, 방법.
제116항 내지 제125항 중 어느 한 항에 있어서, 다음 중 하나 이상을 평가하는 단계를 포함하는, 방법:
상기 병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열;
상기 병원체와 연관된 단백질을 암호화하는 핵산 서열의 보존된 서열;
단백질을 암호화하는 핵산의 비-보존된 서열;
상기 병원체와 연관된 특정 단백질 내의 보존된 도메인; 및
상기 병원체와 연관된 특정 단백질 내의 비-보존된 도메인.
제116항 내지 제126항 중 어느 한 항에 있어서, 상기 아미노산 서열의 각각의 부분이 하나 이상의 아미노산 위치를 포함하는 것인, 방법.
제116항 내지 제127항 중 어느 한 항에 있어서, 상기 병원체가 바이러스인, 방법.
제128항에 있어서, 상기 바이러스가 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스인, 방법.
제128항에 있어서, 상기 바이러스가 코로나바이러스인, 방법.
제130항에 있어서, 상기 코로나바이러스가 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)인, 방법.
제131항에 있어서, 상기 코로나바이러스가 SARS-CoV-2인, 방법.
제116항 내지 제132항 중 어느 한 항에 있어서, 코로나바이러스 스파이크(S) 단백질[예를 들어, MERS, SARS-CoV, 또는 SARS-CoV2 스파이크(S) 단백질] 또는 이의 수용체-결합 도메인(RBD)을 평가하는 단계를 포함하는, 방법.
제116항 내지 제127항 중 어느 한 항에 있어서, 상기 병원체가 박테리아인, 방법.
제134항에 있어서, 상기 박테리아가 스타필로코쿠스 종 또는 슈도모나스 종인, 방법.
병원체를 나타내는 펩티드의 질량 대 전하 비를 식별하는 방법으로서,
데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계;
컴퓨팅 디바이스의 프로세서에 의해, 상기 게놈 서열로부터 코딩 서열을 추출하는 단계;
상기 프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하는 단계로서, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하는 것인 단계;
상기 동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하는 단계;
상기 프로세서에 의해, 상기 선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계; 및
상기 아미노산 서열 또는 이의 부분 중 하나 이상의 질량 대 전하 비를 결정하는 단계를 포함하는, 방법.
제136항에 있어서, 상기 데이터 구조가 콘티그를 포함하고, 상기 데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계가 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 게놈 서열의 적어도 일부를 생성하는 것을 포함하는 것인, 방법.
제136항 또는 제137항에 있어서, 상기 범주화 단계가 복수의 쌍 각각에 대한 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 상기 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함하는 것인, 방법.
제136항 내지 제138항 중 어느 한 항에 있어서, 상기 범주화 단계가 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 상기 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수인, 방법.
제139항에 있어서, 상기 컴퓨팅 단계가 상기 유사성 척도의 매트릭스를 생성하고 상기 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함하는 것인, 방법.
제140항에 있어서, 상기 그래픽 표현이 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함하는 것인, 방법.
제136항 내지 제141항 중 어느 한 항에 있어서, 상기 동일성 척도가 돌연변이의 수를 포함하는 것인, 방법.
제136항 내지 제142항 중 어느 한 항에 있어서, 상기 적용범위 척도가 퍼센트 적용범위를 포함하는 것인, 방법.
제136항 내지 제143항 중 어느 한 항에 있어서, 상기 동일성 척도가 E-값을 계산하는 것을 포함하는 것인, 방법.
제136항 내지 제144항 중 어느 한 항에 있어서, 다음 중 하나 이상을 평가하는 단계를 포함하는, 방법:
상기 병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열;
상기 병원체와 연관된 단백질을 암호화하는 핵산 서열의 보존된 서열;
단백질을 암호화하는 핵산의 비-보존된 서열;
상기 병원체와 연관된 특정 단백질 내의 보존된 도메인; 및
상기 병원체와 연관된 특정 단백질 내의 비-보존된 도메인.
제136항 내지 제145항 중 어느 한 항에 있어서, 상기 아미노산 서열의 각각의 부분이 하나 이상의 아미노산 위치를 포함하는 것인, 방법.
제136항 내지 제146항 중 어느 한 항에 있어서, 상기 병원체가 바이러스인, 방법.
제147항에 있어서, 상기 바이러스가 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스인, 방법.
제147항에 있어서, 상기 바이러스가 코로나바이러스인, 방법.
제149항에 있어서, 상기 코로나바이러스가 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)인,방법.
제150항에 있어서, 상기 코로나바이러스가 SARS-CoV-2인, 방법.
제136항 내지 제151항 중 어느 한 항에 있어서, 코로나바이러스 스파이크(S) 단백질[예를 들어, MERS, SARS-CoV, 또는 SARS-CoV2 스파이크(S) 단백질] 또는 이의 수용체-결합 도메인(RBD)을 평가하는 단계를 포함하는, 방법.
제136항 내지 제146항 중 어느 한 항에 있어서, 상기 병원체가 박테리아인, 방법.
제153항에 있어서, 상기 박테리아가 스타필로코쿠스 종 또는 슈도모나스 종인, 방법.
아미노산 서열을 후보 항생제 내성 마커로서 식별하는 방법으로서,
데이터 구조로부터 병원성 박테리아의 복수의 완전 또는 부분적 플라스미드 서열을 수득하는 단계;
컴퓨팅 디바이스의 프로세서에 의해, 플라스미드 서열로부터 코딩 서열을 추출하는 단계;
상기 프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하는 단계로서, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하는 것인 단계;
상기 동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하는 단계;
상기 프로세서에 의해, 상기 선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계;
프로세서에 의해, 아미노산 서열을 정렬하는 단계;
상기 정렬된 아미노산 서열의 복수의 부분 각각을 복수의 플라스미드 서열 중에서 상기 부분의 보존 수준에 따라 분류하는 단계;
상기 보존된 것으로 분류된 아미노산 서열의 부분을 선택하는 단계; 및
선택된 보존된 서열을 후보 항생제 내성 마커로서 범주화하는 단계를 포함하는, 방법.
제155항에 있어서, 선택된 서열에서 막관통 도메인의 존재를 포함하는 하나 이상의 추가 기준에 따라 후보 항생제 내성 마커를 후보로서 식별하는 단계를 추가로 포함하는, 방법.
제155항 또는 제156항에 있어서, 상기 데이터 구조가 콘티그를 포함하고, 상기 데이터 구조로부터 복수의 완전 또는 부분적 플라스미드 서열을 수득하는 단계가 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 플라스미드 서열의 적어도 일부를 생성하는 것을 포함하는 것인, 방법.
제155항 내지 제157항 중 어느 한 항에 있어서, 상기 범주화 단계가 복수의 쌍 각각에 대한 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 상기 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함하는 것인, 방법.
제155항 내지 제158항 중 어느 한 항에 있어서, 상기 범주화 단계가 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 상기 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수인, 방법.
제159항에 있어서, 상기 컴퓨팅 단계가 상기 유사성 척도의 매트릭스를 생성하고 상기 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함하는 것인, 방법.
제160항에 있어서, 상기 그래픽 표현이 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함하는 것인, 방법.
제155항 내지 제161항 중 어느 한 항에 있어서, 상기 동일성 척도가 돌연변이의 수를 포함하는 것인, 방법.
제155항 내지 제162항 중 어느 한 항에 있어서, 상기 적용범위 척도가 퍼센트 적용범위를 포함하는 것인, 방법.
제155항 내지 제163항 중 어느 한 항에 있어서, 상기 동일성 척도가 E-값을 계산하는 것을 포함하는 것인, 방법.
제155항 내지 제164항 중 어느 한 항에 있어서, 다음 중 하나 이상을 평가하는 단계를 포함하는, 방법:
상기 병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열;
상기 병원체와 연관된 단백질을 암호화하는 핵산 서열의 보존된 서열;
단백질을 암호화하는 핵산의 비-보존된 서열;
상기 병원체와 연관된 특정 단백질 내의 보존된 도메인; 및
상기 병원체와 연관된 특정 단백질 내의 비-보존된 도메인.
제155항 내지 제165항 중 어느 한 항에 있어서, 상기 아미노산 서열의 각각의 부분이 하나 이상의 아미노산 위치를 포함하는 것인, 방법.
제155항 내지 제166항 중 어느 한 항에 있어서, 상기 박테리아가 스타필로코쿠스 종 또는 슈도모나스 종인, 방법.
플라스미드를 나타내는 코딩 서열의 하나 이상의 보존된 부분을 식별하는 방법으로서,
데이터 구조로부터 병원성 박테리아의 복수의 완전 또는 부분적 플라스미드 서열을 수득하는 단계;
컴퓨팅 디바이스의 프로세서에 의해, 상기 플라스미드 서열로부터 코딩 서열을 추출하는 단계;
상기 프로세서에 의해, 상기 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하는 단계로서, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하는 것인 단계;
상기 동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하는 단계;
상기 프로세서에 의해, 상기 선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계;
상기 프로세서에 의해, 상기 아미노산 서열을 정렬하는 단계; 및
상기 아미노산 서열의 복수의 부분 각각을 복수의 플라스미드 서열 중에서 상기 부분의 보존 수준에 따라 분류하여, 이에 의해 플라스미드를 나타내는 코딩 서열의 하나 이상의 보존된 부분을 식별하는 단계를 포함하는, 방법.
제168항에 있어서, 상기 데이터 구조가 콘티그를 포함하고, 상기 데이터 구조로부터 복수의 완전 또는 부분적 플라스미드 서열을 수득하는 단계가 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 플라스미드 서열의 적어도 일부를 생성하는 것을 포함하는 것인, 방법.
제168항 또는 제169항에 있어서, 상기 범주화 단계가 복수의 쌍 각각에 대한 동일성 척도 및 적용범위 척도를 정량화하는 것을 포함하며, 상기 쌍 각각은 추출된 코딩 서열 및 참조 서열을 포함하는 것인, 방법.
제168항 내지 제170항 중 어느 한 항에 있어서, 상기 범주화 단계가 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하는 것을 포함하며, 상기 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수인, 방법.
제171항에 있어서, 상기 컴퓨팅 단계가 상기 유사성 척도의 매트릭스를 생성하고 상기 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하는 것을 포함하는 것인, 방법.
제172항에 있어서, 상기 그래픽 표현이 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함하는 것인, 방법.
제168항 내지 제173항 중 어느 한 항에 있어서, 상기 동일성 척도가 돌연변이의 수를 포함하는 것인, 방법.
제168항 내지 제174항 중 어느 한 항에 있어서, 상기 적용범위 척도가 퍼센트 적용범위를 포함하는 것인, 방법.
제168항 내지 제175항 중 어느 한 항에 있어서, 상기 동일성 척도가 E-값을 계산하는 것을 포함하는 것인, 방법.
제168항 내지 제176항 중 어느 한 항에 있어서, 다음 중 하나 이상을 평가하는 단계를 포함하는, 방법:
상기 병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열;
상기 병원체와 연관된 단백질을 암호화하는 핵산 서열의 보존된 서열;
단백질을 암호화하는 핵산의 비-보존된 서열;
상기 병원체와 연관된 특정 단백질 내의 보존된 도메인; 및
상기 병원체와 연관된 특정 단백질 내의 비-보존된 도메인.
제168항 내지 제177항 중 어느 한 항에 있어서, 상기 아미노산 서열의 각각의 부분이 하나 이상의 아미노산 위치를 포함하는 것인, 방법.
제168항 내지 제178항 중 어느 한 항에 있어서, 상기 박테리아가 스타필로코쿠스 종 또는 슈도모나스 종인, 방법.
병원체를 나타내는 코딩 서열의 하나 이상의 보존된 부분을 자동으로 식별하는 시스템으로서, 상기 시스템이
프로세서; 및
프로세서에 대한 명령어가 있는 메모리를 포함하며, 상기 명령어는 프로세서에 의해 실행될 때, 프로세서가
데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하게 하고;
상기 프로세서에 의해, 상기 게놈 서열로부터 코딩 서열을 추출하게 하고;
상기 프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하게 하되, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하고;
상기 동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하게 하고;
상기 프로세서에 의해, 상기 선택된 코딩 서열을 상응하는 아미노산 서열로 변환시키고;
상기 프로세서에 의해, 상기 아미노산 서열을 정렬시키고;
상기 정렬된 아미노산 서열의 복수의 부분 각각을 병원체의 상이한 균주 중에서 상기 부분의 보존 수준에 따라 분류하여, 이에 의해 병원체를 나타내는 코딩 서열의 하나 이상의 보존된 부분을 식별하게 하는 것인, 시스템.
제180항에 있어서, 상기 명령어가 프로세서에 의해 실행될 때, 프로세서가 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하게 하며, 상기 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수인, 시스템.
제181항에 있어서, 상기 명령어가 프로세서에 의해 실행될 때, 프로세서가 상기 유사성 척도의 매트릭스를 생성하고 상기 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하게 하는 것인, 시스템.
제182항에 있어서, 상기 그래픽 표현이 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함하는 것인, 시스템.
제180항 내지 제183항 중 어느 한 항에 있어서, 상기 데이터 구조가 콘티그를 포함하고, 상기 명령어가 프로세서에 의해 실행될 때, 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 게놈 서열의 적어도 일부를 생성함으로써 프로세서가 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하게 하는 것인, 시스템.
제180항 내지 제184항 중 어느 한 항에 있어서, 상기 명령어가 프로세서에 의해 실행될 때, 프로세서가 다음 중 하나 이상을 평가하게 하는, 시스템:
상기 병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열;
상기 병원체와 연관된 단백질을 암호화하는 핵산 서열의 보존된 서열
단백질을 암호화하는 핵산의 비-보존된 서열;
상기 병원체와 연관된 특정 단백질 내의 보존된 도메인; 및
상기 병원체와 연관된 특정 단백질 내의 비-보존된 도메인.
제180항 내지 제185항 중 어느 한 항에 있어서, 상기 명령어가 프로세서에 의해 실행될 때, 프로세서가 코로나바이러스 스파이크(S) 단백질[예를 들어, MERS, SARS-CoV, 또는 SARS-CoV2 스파이크(S) 단백질] 또는 이의 수용체-결합 도메인(RBD)을 평가하게 하는 것인, 시스템.
제180항 내지 제186항 중 어느 한 항에 있어서, 상기 병원체가 바이러스인, 시스템.
제187항에 있어서, 상기 바이러스가 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스인, 시스템.
제187항에 있어서, 상기 바이러스가 코로나바이러스인, 시스템.
제189항에 있어서, 상기 코로나바이러스가 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)인, 시스템.
제190항에 있어서, 상기 코로나바이러스가 SARS-CoV-2인, 시스템.
제180항 내지 제186항 중 어느 한 항에 있어서, 상기 병원체가 박테리아인, 시스템.
제192항에 있어서, 상기 박테리아가 스타필로코쿠스 종 또는 슈도모나스 종인, 시스템.
플라스미드를 나타내는 코딩 서열의 하나 이상의 보존된 부분을 자동으로 식별하는 시스템으로서, 상기 시스템이
프로세서; 및
상기 프로세서에 대한 명령어가 있는 메모리를 포함하며, 상기 명령어는 프로세서에 의해 실행될 때, 프로세서가
데이터 구조로부터 병원성 박테리아의 복수의 완전 또는 부분적 플라스미드 서열을 수득하게 하고;
상기 프로세서에 의해, 상기 플라스미드 서열로부터 코딩 서열을 추출하게 하고;
상기 프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하게 하되, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하고;
상기 동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하게 하고;
상기 프로세서에 의해, 상기 선택된 코딩 서열을 상응하는 아미노산 서열로 변환시키고;
상기 프로세서에 의해, 상기 아미노산 서열을 정렬시키고;
상기 아미노산 서열의 복수의 부분 각각을 복수의 플라스미드 서열 중에서 상기 부분의 보존 수준에 따라 분류하여, 이에 의해 플라스미드를 나타내는 코딩 서열의 하나 이상의 보존된 부분을 식별하게 하는 것인, 시스템.
제194항에 있어서, 상기 명령어가 프로세서에 의해 실행될 때, 프로세서가 대상 서열 세트에 대한 질의 코딩 서열 세트 각각에 대해, 질의 코딩 서열과 각각의 대상 서열 사이의 유사성 척도를 컴퓨팅하게 하며, 상기 유사성 척도 각각은 질의 서열과 대상 서열 사이의 동일성 척도 및 질의 서열과 대상 서열 사이의 적용범위 척도의 함수인, 시스템.
제195항에 있어서, 상기 명령어가 프로세서에 의해 실행될 때, 프로세서가 상기 유사성 척도의 매트릭스를 생성하고 상기 매트릭스의 그래픽 표현을 제공하여, 이에 의해 질의 서열과 대상 서열 사이의 보존 수준을 표시하게 하는 것인, 시스템.
제196항에 있어서, 상기 그래픽 표현이 히트맵, 그래프, 및 계통 발생 중 하나 이상을 포함하는 것인, 시스템.
제194항 내지 제197항 중 어느 한 항에 있어서, 상기 데이터 구조가 콘티그를 포함하고, 상기 명령어가 프로세서에 의해 실행될 때, 프로세서에 의해, 중첩 콘티그를 병합하여 완전 또는 부분적 플라스미드 서열의 적어도 일부를 생성함으로써 프로세서가 병원성 박테리아의 복수의 완전 또는 부분적 플라스미드 서열을 수득하게 하는 것인, 시스템.
제194항 내지 제198항 중 어느 한 항에 있어서, 상기 명령어가 프로세서에 의해 실행될 때, 프로세서가 다음 중 하나 이상을 평가하게 하는 것인, 시스템:
상기 병원체와 연관된 단백질을 암호화하는 핵산의 코딩 서열;
상기 병원체와 연관된 단백질을 암호화하는 핵산 서열의 보존된 서열;
단백질을 암호화하는 핵산의 비-보존된 서열;
상기 병원체와 연관된 특정 단백질 내의 보존된 도메인; 및
상기 병원체와 연관된 특정 단백질 내의 비-보존된 도메인.
제194항 내지 제199항 중 어느 한 항에 있어서, 상기 명령어가 프로세서에 의해 실행될 때, 프로세서가 코로나바이러스 스파이크(S) 단백질[예를 들어, MERS, SARS-CoV, 또는 SARS-CoV2 스파이크(S) 단백질] 또는 이의 수용체-결합 도메인(RBD)을 평가하게 하는 것인, 시스템.
제194항 내지 제200항 중 어느 한 항에 있어서, 상기 병원체가 바이러스인, 시스템.
제201항에 있어서, 상기 바이러스가 메티실린 내성 스타필로코쿠스 아우레우스(MRSA), B형 간염 바이러스(HBV), 인플루엔자, 또는 에볼라 바이러스인, 시스템.
제201항에 있어서, 상기 바이러스가 코로나바이러스인, 시스템.
제203항에 있어서, 상기 코로나바이러스가 중증 급성 호흡기 증후군-연관 코로나바이러스(SARS-CoV), 중증 급성 호흡기 증후군 코로나바이러스 2(SARS-CoV-2), 또는 중동 호흡기 증후군-연관 코로나바이러스(MERS-CoV)인, 시스템.
제204항에 있어서, 상기 코로나바이러스가 SARS-CoV-2인, 시스템.
제194항 내지 제200항 중 어느 한 항에 있어서, 상기 병원체가 박테리아인, 시스템.
제206항에 있어서, 상기 박테리아가 스타필로코쿠스 종 또는 슈도모나스 종인, 시스템.
병원체 감염의 치료를 위해 하나 이상의 대상체에게 치료제를 투여한 후 하나 이상의 추정 탈출 돌연변이를 식별하는 데 사용하기 위한 치료제로서, 상기 사용이
각각의 대상체에게 치료제를 투여한 후 하나 이상의 대상체로부터 단리된 복수의 완전 또는 부분적 병원체 게놈 서열을 수득하는 단계;
컴퓨팅 디바이스의 프로세서에 의해, 게놈 서열로부터 코딩 서열을 추출하는 단계;
상기 프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하는 단계로서, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하는 것인 단계;
상기 동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하는 단계;
상기 프로세서에 의해, 상기 선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계;
상기 프로세서에 의해, 상기 아미노산 서열을 정렬하는 단계;
상기 정렬된 아미노산 서열에서, 참조에서보다 정렬된 아미노산 서열에서 더 빈번한 하나 이상의 아미노산 변이체를 식별하며, 상기 하나 이상의 아미노산 변이체가 하나 이상의 추정 탈출 돌연변이인 단계를 포함하는 것인, 치료제.
병원체 감염의 치료에 사용하기 위한 치료제로서, 상기 사용이
다음에 의해 아미노산 서열의 보존된 부분을 선택하는 단계:
데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계;
컴퓨팅 디바이스의 프로세서에 의해, 상기 게놈 서열로부터 코딩 서열을 추출하는 단계;
상기 프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하는 단계로서, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하ㄴ는 것인 단계;
상기 동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하는 단계;
상기 프로세서에 의해, 상기 선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계;
상기 프로세서에 의해, 상기 아미노산 서열을 정렬하는 단계;
상기 정렬된 아미노산 서열의 복수의 부분 각각을 병원체의 상이한 균주 중에서 상기 부분의 보존 수준에 따라 분류하는 단계; 및
상기 정렬된 아미노산 서열의 보존된 부분을 선택하는 단계; 및
대상체로부터 단리된 완전 또는 부분적 병원체 게놈 서열이 아미노산 서열의 보존된 부분을 암호화하는 경우 대상체에게 치료제를 투여하되, 상기 치료제는 아미노산 서열의 보존된 부분에 선택적으로 결합하는 것인 단계를 포함하는 것인, 치료제.
병원체 감염의 치료를 위해 하나 이상의 대상체에게 약제를 투여한 후 하나 이상의 추정 탈출 돌연변이를 식별하기 위한 약제의 제조를 위한 치료제의 용도로서, 상기 용도가
각각의 대상체에게 약제를 투여한 후 하나 이상의 대상체로부터 단리된 복수의 완전 또는 부분적 병원체 게놈 서열을 수득하는 단계;
컴퓨팅 디바이스의 프로세서에 의해, 게놈 서열로부터 코딩 서열을 추출하는 단계;
상기 프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하는 단계로서, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하는 것인 단계;
상기 동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하는 단계;
상기 프로세서에 의해, 상기 선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계;
상기 프로세서에 의해, 상기 아미노산 서열을 정렬하는 단계;
상기 정렬된 아미노산 서열에서, 참조에서보다 정렬된 아미노산 서열에서 더 빈번한 하나 이상의 아미노산 변이체를 식별하며, 상기 하나 이상의 아미노산 변이체는 하나 이상의 추정 탈출 돌연변이인 단계를 포함하는 것인, 용도.
병원체 감염의 치료를 위한 약제의 제조를 위한 치료제의 용도로서, 상기 용도가
다음에 의해 아미노산 서열의 보존된 부분을 선택하는 단계:
데이터 구조로부터 병원체의 상이한 균주의 복수의 완전 또는 부분적 게놈 서열을 수득하는 단계;
컴퓨팅 디바이스의 프로세서에 의해, 게놈 서열로부터 코딩 서열을 추출하는 단계;
상기 프로세서에 의해, 동일성 척도 및 적용범위 척도에 따라 코딩 서열을 범주화하는 단계로서, 상기 동일성 척도는 퍼센트 동일성, 미리 결정된 적용범위 길이에 걸친 퍼센트 동일성, 돌연변이의 수, 및 퍼센트 돌연변이 중 하나 이상을 포함하고, 상기 적용범위 척도는 퍼센트 적용범위 및 적용범위 길이 중 하나 이상을 포함하는 것인 단계;
상기 동일성 척도 및 적용범위 척도에 따라 범주화된 코딩 서열 중에서 코딩 서열을 선택하는 단계;
상기 프로세서에 의해, 상기 선택된 코딩 서열을 상응하는 아미노산 서열로 변환하는 단계;
상기 프로세서에 의해, 상기 아미노산 서열을 정렬하는 단계;
상기 정렬된 아미노산 서열의 복수의 부분 각각을 병원체의 상이한 균주 중에서 상기 부분의 보존 수준에 따라 분류하는 단계; 및
상기 정렬된 아미노산 서열의 보존된 부분을 선택하는 단계; 및
대상체로부터 단리된 완전 또는 부분적 병원체 게놈 서열이 아미노산 서열의 보존된 부분을 암호화하는 경우 대상체에게 약제를 투여하되, 상기 치료제는 아미노산 서열의 보존된 부분에 선택적으로 결합하는 것인 단계를 포함하는 것인, 용도.