KR20180093910A

KR20180093910A - 집합적 좌표 바이어싱에 의한 잘못 접힌 단백질 에피토프를 예측하기 위한 시스템 및 방법

Info

Publication number: KR20180093910A
Application number: KR1020187015912A
Authority: KR
Inventors: 스티븐 사무엘 플로트킨
Original assignee: 더 유니버시티 오브 브리티쉬 콜롬비아
Priority date: 2015-11-09
Filing date: 2016-11-09
Publication date: 2018-08-22
Also published as: EP3374906B1; EP3374906A1; JP6952351B2; CA3004593A1; HK1259338A1; CN108475298A; DK3374906T3; US11756650B2; EP3374906A4; WO2017079836A1; US20180330045A1; JP2018538254A

Abstract

단백질에서 후보 에피토프를 예측하는 방법으로서, 상기 방법은 다음 단계를 포함한다:
형태 샘플링 엔진을 제공하는 단계; 형태 샘플링 엔진과 함께 사용하기에 적합하고 고유 구조를 포함하는 단백질 모델을 획득하는 단계; 집합적 좌표 바이어스를 상기 단백질 모델에 적용하는 단계로서, 상기 집합적 좌표 바이어스는 상기 형태 샘플링 엔진으로 인해 상기 단백질 모델을 그의 고유 구조로부터 업데이트된 구조로 적어도 부분적으로 펼쳐지도록 강제하고, 상기 집합적 좌표 바이어스는 단백질 모델의 적어도 실질적인 일부분에 전역적으로 적용되며, 단백질 모델의 실질적인 일부분에서 펼침과정이 일어나는 부분에 대해 공평해지는 단계; 및 하나 이상의 후보 에피토프가 국부적인 펼침과정의 표시를 나타내는 경우, 하나 이상의 후보 에피토프를 동정하기 위해 상기 업데이트된 구조를 분석하는 단계.

Description

집합적 좌표 바이어싱에 의한 잘못 접힌 단백질 에피토프를 예측하기 위한 시스템 및 방법

관련 출원

본 출원은 다음 미국 출원의 우선권의 이익을 청구하며:

ㆍ 2015년 11월 9일에 출원된 제62/253044호;

ㆍ 2016년 2월 1일에 출원된 제62/289893호;

ㆍ 2016년 3월 17일에 출원된 제62/309765호;

ㆍ 2016년 5월 4일에 출원된 제62/331925호;

ㆍ 2016년 6월 20일에 출원된 제62/352346호;

ㆍ 2016년 7월 18일에 출원된 제62/363566호;

ㆍ 2016년 7월 22일에 출원된 제62/365634호; 및

ㆍ 2016년 9월 12일에 출원된 제62/393615호,

이들 모두는 본원에 참고로 포함된다.

기술분야

본 발명은 잘못 접힌 단백질 에피토프, 보다 정확하게 펼침과정-특이적 단백질 에피토프(unfolding-specific protein epitopes)의 예측에 관한 것이다. 펼침과정-특이적 에피토프는 단백질이 그의 구조중 적어도 일부를 상실했을 때 발생할 수 있다. 잘못 접힌 단백질은 상기 에피토프를 나타낼 수 있지만, 적당하게 접힌 단백질은 상기 에피토프를 나타내지 않을 것이다. 특정 구현예는 단백질(또는 펩타이드-집합체) 상에 집합적 좌표 바이어스(collective coordinate bias)(예를 들어, 전역으로 부과된 집합적 좌표 바이어스)를 부가하여 단백질(또는 펩타이드-집합체)를 펼쳐지도록 강제하는 분자-역학-기반 시뮬레이션을 진행하는 단계; 및 시뮬레이션으로부터 얻은 부분적으로 비 구조화된 단백질(또는 펩타이드 집합체) 내의 펼쳐진 영역의 검출에 기초하여 펼쳐진 단백질 에피토프를 예측하는 단계를 포함하는, 잘못 접힌 단백질 에피토프를 예측하는 방법을 제공한다.

예시적인 구현예가 도면의 참조된 도면에 도시되어있다. 본 명세서에 개시된 구현예 및 도면은 제한적인 것이라기 보다는 예시적인 것으로 간주되어야 한다.
도 1은 특정 구현예에 따른 잘못 접힌 후보 단백질 에피토프를 예측하기 위한 컴퓨터-기반 또는 컴퓨터-구현 방법을 개략적으로 도시한다.
도 2는 예시적인 접촉에 대한 식(1) 접촉 함수 Q _ij (r) 대 거리(r)의 플롯을 도시한다.
도 3은 도 1의 방법을 사용하여 시뮬레이트된 것으로, Q(t)의 플롯 및 Aβ 아밀로이드의 전형적인 바이어싱 시뮬레이션을 위한 평탄한 또는 선형(예를 들어, 일정한 변화율) 표적 집합적 좌표 곡선인, Q _c (t) 대 시간을 도시한다.
도 4a는 3배 대칭 Aβ 구조 2M4J의 하나의 단량체에 대해, 그의 초기 구조의 80%로 바이어싱된 경우, 서열의 각 잔기에 대한 잔기 지수의 함수로서 그들의 초기 구조의 용매-접근가능성 표면적(SASA)와 비교하여, 아미노산의 측쇄의 SASA의 변화의 플롯을 도시한다. 플롯의 각 곡선은 이 단량체에 대한 별개의 바이어싱 시뮬레이션에 해당한다. 도 4b는 각 사슬에 대한 주어진 세그먼트(예를 들어, 잔기 23 내지 28)가 독립적으로 고려되고, 각각의 시뮬레이션 실행이 독립적으로 고려되는 예시적인 집합 구조에 대한 도 1의 방법의 분석을 개략적으로 도시한다.
도 5a, 5b 및 5c(집합적으로 도 5)는 시뮬레이션 결과를 분석하여 도 1의 방법에 사용될 수 있거나, 특정 구현예에 따른 후보 에피토프 예측 방법에 사용될 수 있는 집합 시스템을 포함하는 단백질 내의 후보 에피토프를 식별하는 방법을 개략적으로 도시한다.
도 6a-6d(집합적으로 도 6)은 잠재적 후보 에피토프의 분석 및 특정 구현예에 따른 도 1의 방법에서 적용된 바이어싱 프로세스의 생산량에 기초한 후보 에피토프의 예측을 설명하는, 상이한 Aβ 피브릴 구조에 대한 여러개의 "파이어플롯(fireplot)"을 도시한다.
도 7은 3배 대칭 구조인 2M4J에 대해 바이어싱 동안 및 바이어싱 이후의 여러 시간 기간에 대한 파이어플롯(fireplot)을 도시한다. 도 7a는 4ns를 중심으로 한 1ns 시간 창(time window)에 해당하며; 이와 유사하게, 도 7b는 8ns를 중심으로 한 1ns 시간 창에 해당하며; 도 7c, 12ns; 도 7d, 16ns; 및 도 7e, 20ns를 중심으로 한다. 시스템은 단지 Q=0.6(도 3 참조)으로 바이어싱되므로, 패널(7d 및 7e) 모두는 Q=0.6에 대응한다.
도 8은 본원에 기술된 다수의 단백질에 대한 다수의 예측된 에피토프를 도시한다.
도 9는 3개의 상이한 Aβ 피브릴 구조(도 9의 열(column)에 상응함)에 대한 SASA의 변화(상부 행) 및 손실된 접촉 수(하부 행)에 기초한 파이어플롯의 비교를 도시한다.
도 10은 초기 Q의 0.8로 바이어싱한 후 3배 대칭 Aβ 구조 2M4J의 렌더링(rendering)이다.
도 11은 초기 Q의 0.6으로 바이어싱한 후 3배 대칭 Aβ 구조 2M4J의 렌더링이다.
도 12는 초기 Q의 0.8로 바이어싱한 후의 Aβ42 구조 2MXU의 렌더링이다.
도 13은 초기 Q의 약 0.8로 바이어싱한 후 2배 대칭 Aβ40 구조 2LMN의 렌더링이다.
도 14는 상기 방법에 대한 다수의 상이한 개선점에 대한 파이어플롯을 도시한다.
도 15는 특정 구현예에 따라 본원에 기술된 방법들 중 임의의 방법 및 본원에 기술된 방법들 중 임의의 단계들을 실시하는데 사용될 수 있는 컴퓨터 시스템의 개략도이다.
도 16은 특정 구현예에 따른 도 5c의 방법의 일부로서 도 6a 파이어플롯으로부터 후보 에피토프 및 하위-에피토프의 제거를 도시하는 일련의 플롯이다.
도 17a는 특정 구현예에 따라 도 1의 방법에 적용된 바이어싱 프로세스의 생산량에 기초하여 잠재적 후보 에피토프의 분석 및 후보 에피토프의 예측을 도시한 SOD1에 대한 파이어플롯이다. 도 17b는 Q=0.65에서의 도 17a SOD1의 바이어싱된 앙상블의 예시적인 표현이다. 후보 에피토프는 어두운 음영으로 도시된다.

이하의 설명 전체에 걸쳐, 당업자에게 보다 완전한 이해를 제공하기 위해 구체적인 세부사항이 개시된다. 그러나, 잘 알려진 엘리먼트들은 본 개시를 불필요하게 불명료하게 하는 것을 피하기 위해 상세하게 도시되거나 기술되지 않을 수도 있다. 따라서, 본 발명의 상세한 설명 및 도면들은 제한적인 의미보다는 예시적인 것으로 간주되어야 한다.

본원의 양태는 잘못 접힌 단백질 에피토프의 예측을 위한 방법 및 시스템을 제공한다. 단백질 또는 펩타이드 집합체는 각각 전형적으로 소위 고유(native) 구조 또는 피브릴 구조를 나타낸다. 본 명세서는 문맥으로부터 명백할 때 고유 구조와 "고유 구조"로서의 피브릴 구조 모두를 언급한다. 전형적으로, 단백질의 고유 구조는 단백질의 다양한 부분들 사이의 상호작용(접촉(contacts)이라고 함)에 의해 안정화된다. 특정 구현예는 단백질(또는 펩타이드-집합체)에 집합적 좌표 바이어스를 부과하여 단백질 또는 펩타이드-집합체가 펼쳐지도록 하는 분자-역학-기반 시뮬레이션을 실시하는 단계를 포함하는 펼침과정-특이적 단백질 에피토프를 예측하는 방법을 제공한다. 본 명세서 및 첨부된 청구범위에서, 문맥이 달리 지시하지 않는 한, 단백질 또는 펩타이드 집합체에 대응하는 집합적 좌표(또는 집합적 변수)는 단백질 또는 펩타이드 집합체에 대응하는 분자-역학 기반 모델의 복수의 파라미터/변수에 기초한 변수이다. 집합적 좌표는 고려중인 단백질 또는 펩타이드 집합체에 대해 전역적(global)일 수 있다. 본 명세서 및 첨부된 청구범위에서, 문맥이 달리 지시하지 않는 한, 전역 집합적 좌표(또는 간결하게는, 전역 좌표)는 원자, 1차 서열내 원자의 위치(들), 특정 원자의 2차 구조 등과 관련된 기하학적/공간적 기준에 기반을 둔 단백질 또는 펩타이드 집합체의 실질적인 일부분의 임의의 하위 부분에 상응하는 파라미터/변수의 선택, 가중 등 없이, 단백질 또는 펩타이드 집합체의 적어도 실질적인 일부분에 상응하는 모델(예를 들어, 분자-역학적 기반 모델)의 원자들과 관련된 파라미터들/변수들에 의존하는 집합적 좌표를 지칭한다. 단백질 또는 펩타이드 집합체의 실질적인 일부분은 단백질 또는 펩타이드 집합체의 적당한 경계 조건(예를 들어, 가장자리 잔기 또는 가장자리 펩타이드 사슬)에 적용하기 위해 모든 단백질 또는 펩타이드 집합체를 포함하거나, 경계 구조를 제외한 모든 것을 포함할 수 있다. 전역 집합적 좌표의 비-제한적 예는 고유 구조의 해당 위치에 대한 단백질 구조 내의 모든 알파-탄소 원자의 위치에서의 평균 제곱근 편차(root mean squared deviation, RMSD)를 포함한다. 전역적보다는 국부적인 집합적 좌표의 두 가지 비-제한적 예는 다음과 같다: 1) 단백질의 소수성 핵내에만 존재하는 모든 알파-탄소 원자의 위치에서의 RMSD, 2) 2차 구조의 회전 영역에 있는 알파-탄소만의 RMSD. 이 두 가지 예들은 모두 고유한 또는 피브릴 구조의 선택 부분 또는 부분 집합에 대한 선험적 정보를 고려한 원자 선택에 대한 추가 제한 조건을 가지고 있지만, 위의 전역 좌표는 고유 구조의 하위-부분에 임의의 선험적 바이어스된 가중을 사용하지 않는다.

단백질 또는 펩타이드 집합체가 펼쳐지도록 강제하는 집합적 좌표 바이어스를 부과한 후에, 본 발명의 일부 양태에 따른 방법은 시뮬레이션으로부터 얻은 부분적으로 구조화되지 않은(즉, 선천적으로 구조화되지 않은 또는 피브릴 구조화되지 않은) 단백질 또는 펩타이드 집합체의 펼쳐진 영역의 검출에 기초하여 펼쳐진 단백질 에피토프를 예측하는 단계를 포함한다. 일부 구현예에서, 전역적으로 적용되는 집합적 좌표 바이어스는 단백질 또는 펩타이드 집합체가 고유 구조내에서보다 적거나 상이한 접촉를 갖도록 강제하는 반면, 단백질은 전역적으로 적용되는 집합적 좌표 바이어스에 반응하여 자체 펼쳐진(비-고유) 구조를 채택할 수 있게 하거나, 영역에서 붕괴된 단백질 시스템에 의해 고유하지 않은 접촉(non-native contacts)이 채택되지 않는다면, 단백질의 에너지 기능에 의해 선호되는 일부 영역에서 접히지 않게 된다.

본원의 일부 양태는 고유 구조 또는 집합 구조로부터 부분적인 국소 전개를 나타내는 단백질 또는 펩타이드 사슬에 고유한 하나 이상의 에피토프를 동정하기 위한 컴퓨터-기반 시스템 및 방법을 제공한다. 이해되는 바와 같이, 집합체 구조(펩타이드 집합체 또는 피브릴이라고도 지칭됨)는 (예를 들어, 비교적 고농도로) 집합하는, 가능한 단백질을 포함하는 복수의(예를 들어, 3, 5, 10, 100 또는 1000개의) 펩타이드 사슬을 포함한다. 집합체 구조를 형성하는 개개의 펩타이드 사슬은 자체 고유 구조를 가질 수도 있고 가지지 않을 수도 있지만, 집합체 구조는 전형적으로 포함된 펩타이드 사슬, 펩타이드 사슬이 집합되는 조건 및 가능하게는 확률론적 요인, 예컨대 비-제한적인 예로, 개별 펩타이드 사슬의 무작위 배위에 따라 달라질 수 있는 하나 이상의 "고유한" 피브릴 구조를 가진다. 본 명세서 및 첨부된 청구범위에서, 문맥이 달리 지시하지 않는 한, 단백질, 펩타이드-집합체, 피브릴 및 집합체 구조는 본원에서 단백질로 지칭될 수 있으며, 단백질, 펩타이드-집합체, 피브릴 및/또는 집합체 구조의 고유 구조는 보편성을 잃지 않는 고유 구조로 지칭될 수 있다.

본 발명의 일부 양태 및 구현예에 따르면, 외부에서 적용된 (표적) 집합적 좌표를 바이어싱(예를 들어, 증가, 감소 또는 그렇지않으면 변화 또는 조작)함으로써 단백질의 분자 역학-기반 또는 몬테-카를로 샘플링-기반 모델이 그의 고유 구조로부터 부분적으로, 무질서로 유도되는 방법이 제공된다. 일부 양태 또는 구현예에서, 집합적 좌표는 전역 집합적 좌표이다. 일부 양태 또는 구현예에서, 집합적 좌표는 고유 구조에 대한 유사성 정도 및/또는 고유 구조로부터의 편차 정도의 (예를 들어, 기능과 연관되고, 정량화할 수 있고, 배치할 수 있거나, 그렇지 않으면 그의 지표인) 지표이다. 전역 집합적 좌표의 비-제한적인 예는 다음에 기반을 둔 변수를 포함한다: 고유 구조의 접촉들 중에서 임의의 특정 단백질 구조의 단백질(또는 펩타이드 집합체)의 중(비-수소) 원자들 사이의 안정화 상호작용(접촉)의 수; 고유 구조의 수소 원자 사이의 접촉 중에서 임의의 특정 단백질 구조의 수소 원자들 사이의 안정화 상호작용(접촉)의 수; 고유 구조의 중원자들간의 거리와 관련하여, 특정 단백질 구조의 모든 중원자들간의 거리; 알파 탄소 원자의 위치를 통해 정의된 바와 같은, 특정 단백질의 고유 구조의 RMSD에 대한 특정 단백질 구조의 평균 제곱근 구조 편차(RMSD); 중원자의 위치를 통해 정의된 바와 같은, 특정 단백질의 고유 구조에 대한 특정 단백질 구조의 RMSD; 특정 단백질의 고유 구조에 대한 특정 단백질 구조의 총 용매 접근가능 표면적(SASA); 단백질의 고유 구조내 골격 수소결합의 수 중에서 특정 단백질 구조내 골격 수소 결합의 수; 상기의 조합; 및/또는 기타 등.

본 발명의 일부 양태 및 구현예는 외부적으로 적용된 (표적) 집합적 좌표를 바이어싱하는 단계 및 단백질의 분자 역학-기반 모델을 강제하여 그 구조를 바이어싱된 표적 집합적 좌표에 일치하도록 재조직하는 단계를 포함한다. 분자 역학-기반 모델을 강제하여 바이어싱된 표적 집합적 좌표에 일치하도록 구조를 재조직하는 단계는, 예를 들어 비용 함수(바이어싱 포텐셜 함수라고도 함)를 최소화하도록 분자 역학-기반 모델을 강제함으로써 수행될 수 있으며, 여기서 비용 함수는 실제 집합적 좌표(분자 역학-기반 모델로부터 결정됨)와 바이어싱된 표적 집합적 좌표 사이의 차이에 의존할 수 있다. 분자 역학-기반 모델이 바이어싱된 표적 집합적 좌표에 일치하도록 그의 구조를 재조직하도록 강제하는 단계는 바이어싱 포텐셜을 적용 또는 부과하거나, 집합적 좌표 바이어스를 적용 또는 부과하는 단계로 지칭될 수 있다.

적용된 바이어싱 포텐셜이 전역 집합적 좌표에 기초하는 경우, 단백질은 전형적으로 그의 고유 구조를 균질하게 잃지 않지만, 대신 열역학적으로 가장 무질서하기 쉬운 특정 영역(들)에서 그의 고유 구조(즉, 펼침과정, 및 가능하게는 잘못 접힘)를 상실할 것이다. 상기 영역(들)은 단백질의 다른 영역에 비해 비교적 약한 안정화의 자유 에너지를 갖는 영역(들)에 상응할 수 있다. 전역 바이어싱 포텐셜의 적용시 무질서한 영역(들)은 잘못 접힘-특이적 또는 펼침과정-특이적 에피토프, 즉 상기 영역(들)에 대한 고유 구조의 부재하에만 존재하는 (예를 들어, 펼쳐지거나 잘못 접힌 구조에 존재하지만, 그의 고유 구조는 존재하지 않는) 에피토프를 포함할 수 있다.

본 발명의 양태는 구조적 단백질 모델을 그들의 고유 구조와 상이한 부분적으로 펼쳐진 구조를 나타내도록 변형시키는 단백질의 구조 모델에 집합적 좌표 바이어스를 적용하는 단계를 포함한다. 집합적 좌표 바이어스에 기초한 변형은 바이어스 및 상응하는 변형이 단백질 모델의 실질적인 일부분에서 펼침과정이 발생하는 곳에서 공정한 방식으로 단백질 모델의 적어도 실질적인 일부분에 전역적으로 적용될 수 있다. 이어서, 변형된(부분적으로 펼쳐진) 구조 단백질 모델이 분석되어, 국부적인 펼침과정의 표시를 검출하고, 후보 에피토프가 국부적인 펼침과정의 표시를 나타내는 후보 에피토프를 동정할 수 있다.

본원의 양태는 알츠하이머 병, ALS, 트랜스티레틴 아밀로이드 다발신경병증을 포함하는 다양한 아밀로이드형성, 신경변성 질환에 대한 잘못접힘-특이적 또는 부가적으로 또는 대안적으로, 올리고머-특이적 에피토프 뿐만 아니라 상피 성장 인자 수용체(EGFR), 사멸 수용체 및 분화 단백질의 클러스터와 같은 세포 표면 수용체를 포함하는, 부분적으로 펼쳐진, 암세포-특이적 에피토프를 예측하기 위한 시스템 및 방법을 제공한다. 노화된 또는 파괴된 Aβ 피브릴에서 본원에 개시된 시스템 및 방법에 따라 예측된 특정 및 비-제한적인 예시 에피토프는 제한없이 다음을 포함한다: 잔기 13-18 또는 서열 HHQKLV; 잔기 6-9 또는 서열 HDSG, 잔기 13-16 또는 서열 HHQK, 잔기 15-18 또는 QKLV, 잔기 21-24 또는 AEDV 및 잔기 37-40(특히 Aβ42) 또는 GGVV. 항체는 그들의 서열 동일성 및 그들의 형태에 기초하여 상기 에피토프를 표적으로 할 것이다. 고유 구조 또는 피브릴로부터 펼쳐진 1차 서열의 세그먼트는 고유 구조 또는 피브릴과 관련하여 상응하는 세그먼트와 구조적으로 구별된다. 상기 영역을 표적으로 하는 항체는 고유 구조 또는 피브릴로 발생하지 않을 것이지만, 펼쳐진 구조적 앙상블을 모방한 상기 1차 서열의 펩타이드 스캐폴드로 발생될 것이다. (즉, 외부 섭동시에 피브릴로부터 펼쳐진 기준에 기초하여 선택되는) 펼침과정-특이적 에피토프에 결합하는 항체는 고유 구조적 형태와 관련하여 에피토프에 결합하지 않을 것이지만, 구조화되지 않을 경우 에피토프에 오로지 결합할 것이다. 항체가 환형 펩타이드로 생성되면, 펩타이드 사슬의 펼쳐진 단량체 형태에 대해 선택적으로, 예를 들어 단량체 Aβ42에 대해 선택적으로 될 수 있다.

신경변성 및 전신성 아밀로이드-관련 질환 모두에 연루된 일부 잘못 접힌 단백질은 비-제한적 예로, 트랜스티레틴, β2-마이크로글로불린 및 수퍼옥사이드 디스뮤타아제를 포함하는 상당한 정도의 고유 구조를 갖는 피브릴을 나타내는 것으로 보인다. 상당한 정도의 적절하게 접혀지고 추정된 고유 구조를 가진 피브릴의 상기 표현은 전역적 단백질 펼침과정보다는 국부적인 단백질 펼침과정이 상기 질병에 중요한 역할을 할 수 있음을 시사한다.

다른 신경변성 질환은 알츠하이머 병의 Aβ 펩타이드 및 파킨슨 병의 α-시누클레인과 같은 본질적으로 무질서화된 펩타이드의 집합을 포함하는 것으로 보인다. 그러나, Aβ 펩타이드를 주로 포함하는 플라크(즉, 피브릴 집합체) 및 τ-단백질을 주로 포함하는 신경피브릴 엉킴은 치매를 전혀 나타내지 않은 대부분의 개체에서 고령으로 발생한다. 한편, Aβ 시드를 함유하는 묽은 뇌 추출물(dilute brain extract)을 마우스에 뇌내 주사하면, 플라크 침착 및 대뇌 Aβ 혈관병증을 포함하는, 알츠하이머 병의 표현형 증상을 유도하는 것으로 관찰되었다. 상기 증거는 다양한 크기와 다형성 구조의 올리고머를 함유할 수 있는 Aβ의 이종 혈청의 독성을 나타내지만, 자체적으로 작용하는 큰 피브릴의 비교적 불활성인 기능을 나타낸다. 상기 발견은 피브릴보다는 프리온 단백질의 올리고머가 가장 감염성이 높은 것으로 밝혀진 프리온 생물학의 결과와 일치한다. 큰 피브릴은 Aβ 펩타이드를 격리함으로써 보호적인 역할을 할 수 있다.

그러나 Aβ 모노머의 존재하에, 피브릴은 올리고머 성장 및 확산을 위한 핵 형성(nucleation) 기질로서 작용할 수 있다. 이 "2차 핵 형성" 과정은 Aβ 단량체 또는 피브릴 단편화 사이의 직접적인 핵 형성보다 더 중요한, S-방사성표지된 펩타이드를 독성 올리고머 종의 우성 공급원으로 사용하는 키네틱 연구에 의해 발견되었다. 상기 증거를 종합하면 피브릴이 올리고머화를 촉매하는 성향을 갖는 상호작용 부위를 나타낼 수 있지만 이것은 변형-특이적일 수 있으며, 정상적인 환자에는 존재하지 않는 선택적 피브릴 표면이 노출되어 단량체와의 비정상적인 상호작용을 가질 수 있는 (즉, 단량체에 제공되는) 경우에만 발생할 수 있다는 사실을 시사한다. 낮은 pH, 염증 동안 존재하는 삼투물질 또는 산화적 손상과 같은 환경 문제로 인해 더 약하게-안정한 부위에 노출될 수 있는 피브릴을 파괴시킬 수 있다. 상기 약하게-안정한 영역을 예측하고, 상기 예측을 사용하여 표적을 설정할 수 있는 치료법을 합리적으로 설계하는 데 관심이 있다.

암의 맥락에서, 단백질의 돌연변이 또는 결실-유도된 잘못 접힘은 프로아폽토틱(pro-apoptotic) 경로에 관련된 단백질을 불안정화시키거나 성장인자와 같은 세포-표면 단백질의 기능을 변경시켜 이들이 구성적으로 활동적이 되도록 함으로써 역할을 할 수 있다는 몇 가지 증거가 있다. 분자 밀집, 낮은 pH 및 활성 산소 종의 존재는 모두 단백질 구조를 불안정화시킬 비정상적인 환경에 기여하여 신생물 세포의 단백질을 보다 빈번한 구조적 파괴를 일으키는 경향이 있다.

신생물의 맥락에서 잘못 접힌 단백질은 암 세포-선택적 항원 표적을 나타낼 수 있으며; 고유한 단백질에 대한 것보다는 상기 표적에 대한 항체는 건강한 조직에서 접힌 단백질(들)의 의도하지 않은 표적화로 인한 원하지 않는 부작용을 피할 수 있다. 예를 들어 EGFR에 대한 고유한 항체 치료법은 건강한 조직에서 EGF 신호전달에 길항할 수 있는데: EGFR 억제제를 투여받은 환자의 대다수(45 내지 100%)는 구진농포성 발진이 발생하고, 더 적은 부분은 손톱주위염 및 점막염을 일으키며, 더 적은 수는 피부 병변의 생명을 위협하는 중복 감염과 함께 심한 반응을 일으킨다. 이상적인 항체-기반 항종양제는 정상 조직에서 EGFR을 절약하면서 종양 조직에서 EGFR 신호전달을 선택적으로 길항하여 상기 부작용을 피할 수 있다.

알츠하이머 병의 맥락에서, 위의 증거들은 2차 핵 생성 또는 Aβ 단량체의 모집 부위를 위한 "핫스팟(hot-spots)"으로 작용할 수 있는 Aβ 피브릴의 국부적으로 무질서한 영역의 예측에 대한 일반적인 욕구를 자극한다. 피브릴에서 분열될 가능성이 있는 영역은 독성이 있는 올리고머 종류에서 수동적으로 노출된 영역에 대한 좋은 후보가 될 수 있다. 또한 자연적으로 접힌 단백질이 집합될 때 상당한 정도의 고유 구조를 유지할 수 있다는 사실은 무질서가 발생하기 쉽고, 그로 인해 그의 고유 구조를 상실한, 자연적으로 접힌 구조에서 영역의 예측을 유도하고, 분자간 자연적이지않은 상호작용을 위한 후보 영역으로서 작용할 수 있다. 암의 맥락에서, 종양 세포의 비정상적인 환경의 파괴적인 영향은 소분자 또는 항체 요법을 위한 암세포 특이적 표적으로 작용할 수 있는, 암에서 비정상적으로 조절되는 단백질의 국부적으로 무질서한 영역을 예측하는 동기를 제공한다.

본원의 양태는 무질서를 일으키기 쉬운 인접 단백질 영역(에피토프)을 예측하는 컴퓨터-기반 시스템 및 방법을 제공한다. 부분적으로-파괴된 Aβ 피브릴에 기초한 특정 예시적 에피토프 예측은 하기에 보다 상세하게 설명된다.

비-제한적 예로 CHARMM(Chemistry at HARvard Macromolecular Mechanics, http://www.charmm.org/) 및/또는 기타 등과 같은 예를 들어, 분자-역학 모델(분자 역학 엔진으로도 알려져 있음)을 사용하여 양자-역학적으로 파라미터화된 역장은 이제 실험적으로 접힌 단백질 구조를 새로 재현할 만큼(즉, 단백질을 접을 만큼) 충분히 정확하다. 양자 화학 컴퓨터 표현에 의해 파라미터화된 단백질을 접는데 사용되는 역장은 단백질의 각 고유 구조 근방 또는 주위에서 가장 정확한 경향이 있다. 본 발명의 일부 구현예는 본원에 기술된 기술을 상기 상황(즉, 고유 구조 근방 또는 주위) 또는 상기 고유 구조(예를 들어, 열운동을 갖는 고유 구조)로부터의 부분 구조 섭동과 관련하여 적용한다. 따라서, 분자 역학 모델에 사용되며, 상기 구현예에서 사용된 공지된 역장은 그들의 유효 범위 내에서 적용된다.

본원의 양태는 단백질 영역이 그 고유 구조로부터 구조적으로 벗어나는 국부적인 펼침과정 반응을 특징으로 한다. 본 발명의 양태는 구조적 단백질의 분자 역학에 기초한 모델에 (비정상적 환경 대기열에 기초한) 도전을 부과하여, 이에 응답하여 단백질이 펼쳐지거나 잘못 접히기 시작한다. 상기 기술을 수행하기 위해, 본 발명의 양태는 본 명세서에서 집합적 좌표 바이어싱으로 지칭되는 기술을 사용하며, 이 기술은 외부적으로 적용된 (표적) 집합적 좌표를 바이어싱(예를 들어, 증가, 감소 또는 달리 변경 또는 조작)하여, 분자 역학 기반 단백질 모델에 대응하는 바이어싱 포텐셜을 적용하는 단계를 포함한다. 일단 단백질이 접히지 않기 시작하면, 본 발명의 일부 양태에 따른 방법은 부분적으로 구조화되지않은 단백질의 펼쳐진 영역의 검출에 기초하여 펼쳐진 단백질 에피토프를 예측하는 단계를 포함한다.

도 1은 특정 구현예에 따라 후보 에피토프(52)(예를 들어, 펼쳐진 후보 에피토프)를 예측하기 위한 컴퓨터-기반 또는 컴퓨터-구현 방법(10)을 도시한다. 상기 방법(10)은 방법(10)을 수행하기 위해 사용될 수 있는 모델링 파라미터 입력을 얻는 단계를 포함하는 블록(20)에서 시작된다. 예를 들어, 도시된 구현예에서, 블록(20) 모델링 파라미터 입력은 제한없이, 고유 구조 모델(22), 원자 역장(24) 및 집합적 좌표 바이어스 파라미터(26)를 포함한다. 상기 모델링 파라미터 입력(22, 24, 26)은 일반적으로 임의의 적당한 소스로부터 임의의 적당한 기술에 의해 얻어질 수 있다. 일부 구현예에서, 모델링 파라미터 입력(22, 24, 26)의 일부 또는 전부는 사용자에 의해 (예를 들어, 그래픽 사용자 인터페이스, 커맨드 라인 인터페이스, 네트워크 인터페이스, I/O 인터페이스 또는 다른 적합한 인터페이스(예를 들어, 적합한 분자 역학 엔진 소프트웨어 및/또는 기타 등)를 통해) 방법(10)을 실시하는 컴퓨터에 제공될 수 있다. 일부 구현예에서, 방법(10)은 소프트웨어 및/또는 하드웨어를 포함하는 좀더 종합적인 컴퓨터-기반 분자 역학 엔진의 일부일 수 있으며, 모델링 파라미터 입력(22, 24, 26)의 일부 또는 전부는 다른 경로들(도시되지 않음)의 분자 역학 엔진에 의해 측정될 수 있다. 일부 구현예에서, 모델링 파라미터 입력(22, 24, 26)의 일부 또는 전부는 방법(10)을 실시하는 컴퓨터와 통신하는 컴퓨터상에서 구현되는 외부 시스템(예를 들어, 분자 역학 시스템, 데이터베이스 및/또는 기타 등)에 의해 제공될 수 있다. 일부 구현예에서, 모델링 파라미터 입력(22, 24, 26)의 일부는 (예를 들어, 도 1에 명확히 도시되지 않은 방법(10)의 단계에서) 다른 모델링 파라미터 입력(22, 24, 26)으로부터 도출될 수 있다.

도시된 구현예에서, 블록(20)은 상기 방법에 적용될 단백질의 구조 모델(22)(예를 들어, 특정 질병과 관련이 있거나 그렇지 않으면 고려될 수 있는 단백질)을 얻는 단계를 포함한다. 구조 모델(22)은 블록(30)(이하에 보다 상세히 설명됨)을 실시하는 분자 역학 엔진과 함께 사용하기에 적합한 대상 단백질의 컴퓨터 표현을 포함할 수 있다. 구조 모델(22) 및 그의 관련 컴퓨터 표현은 고려중인 단백질 내의 원자 핵의 물리적 좌표(예를 들어, x, y 및 z 물리적 위치)를 (적당한 방식으로) 지정할 수 있다. 본 명세서 및 첨부된 청구범위에서, 문맥이 달리 지시하지 않는 한, 단백질(예를 들어, 방법(10)에서 고려중인 단백질)에 적용될 때의 용어 구조는 단백질내 원자 핵의 일부 또는 전부의 물리적 좌표(예를 들어, x, y 및 z 물리적 위치들) 및/또는 상기 물리적 좌표의 일부 컴퓨터 표현에 해당하는 것으로 이해되어야 한다. 블록(20) 모델링 파라미터 입력의 일부로서 얻어지는 구조 모델(22)은 블록(25)에서 수행된 시뮬레이션에 의해 집합적 좌표 바이어스의 대상이 될 수 있는, 고려중인 단백질에 대한 "고유" 구조를 제공, 지시 또는 표현하여 이하에 보다 상세히 기술되는 바와 같이, 업데이트된 구조 모델(32)을 제공한다. 구조 모델(22)은 실험적으로 결정된 핵 좌표의 세트를 포함할 수 있거나, 계산적으로 결정될 수 있다. 일부 구현예에서, 구조 모델(22)은 단백질 데이터 뱅크(PDB, 예컨대, www.rcsb.org에서 이용가능한 것)로부터 얻어질 수 있다. 일부 구현예에서, 블록(20) 모델링 파라미터 입력의 일부로서 얻어진 구조 모델(22)은 적당하게 접힌 고유 단백질 구조의 컴퓨터-기반 표현을 포함할 수 있거나, 잘못 접히고 집합된 피브릴 구조의 컴퓨터-기반 표현을 포함할 수 있다. 구조 모델(22)은 집합 구조(예를 들어, 피브릴)를 형성할 수 있는 단일 단백질 사슬 또는 다수의 펩타이드 사슬을 포함할 수 있다. 상기 기술한 바와 같이, 간결성을 위해, 방법(10)에 적용되는 단백질 및 집합된 구조는 일반성의 손실없이, 본 명세서 및 첨부된 청구범위에서 단백질 또는 단백질들로서 언급될 수 있다.

블록(20)은 또한 고려중인 단백질과 관련된 원자 역장(24)의 컴퓨터 표현을 얻는 단계를 포함한다. 상기 원자 역장(24)은 구조 모델(22) 및/또는, 블록(30)을 실시하는 분자 역학 엔진의 컴퓨터 표현의 형태와 함께 사용되도록 구성될 수 있다. 역장(24)은 CHARMM에 의해 제공된 것과 같은 파라미터화 역장 모델 또는 OPLS(액체 시뮬레이션을 위한 최적화 포텐셜), GROMOS(www.gromos.net) 및/또는 기타 등과 같은 유사한 역장 모델을 포함할 수 있으며, 이들은 단백질 구조를 시뮬레이션하기 위해 해당 분자 역학 엔진에 의해 사용가능하다. 일부 구현예에서, 구조 모델(22) 및 원자 역장(24)은 통합될 수 있다.

도시된 구현예에서, 블록(20)은 또한 이하에 보다 상세하게 기술되는 블록(25) 시뮬레이션 루프동안 외부적으로 적용된 표적 집합적 좌표가 어떻게 바이어스(예를 들어, 증가, 감소 또는 다르게 변경 또는 조작)될 것인지를 기술하는 집합적 좌표 및/또는 시뮬레이션 파라미터(26)를 얻는 단계를 포함한다. 예를 들어, 상기 집합적 좌표 바이어스 파라미터(26)는 표적 집합적 좌표의 변화율, 표적 집합적 좌표의 변화의 진폭, 표적 집합적 좌표의 최대 및/또는 최소값, 바이어싱 포텐셜 함수의 다른 파라미터, 예컨대 비-제한적인 예로서, 후술하는 포텐셜 함수의 강성도(또는 "스프링-상수") k 및/또는 기타 등을 명시할 수 있다. 파라미터(26)는 부가적으로 또는 대안적으로, 블록(25)에서 수행될 시뮬레이션의 다른 시뮬레이션 파라미터, 예컨대 비-제한적인 예로서, 시뮬레이션의 지속 시간 및/또는 시간 단계 이산화 종류, 시뮬레이션 지속 시간 및/또는 기타 등을 포함할 수 있다. 일부 구현예에서, 시뮬레이션은 이미 탐색된 것들과 유사한 불이익 형태(penalizing conformation)를 포함하는 메타동력을 사용하여 단백질을 펼쳐지도록 강제할 수 있으며 - 예를 들어, Bonomi et al. PLUMED: A portable plugin for free-energy calculations with molecular dynamics, Computer Physics Communications 180 (2009) 1961-1972를 참조하며, 이는 이후에 참고문헌으로 통합된다. 일부 구현예에서, 메타동력의 파라미터는 시뮬레이션 파라미터(26)의 일부일 수 있다.

블록(20)에서 모델링 파라미터 입력을 얻은 후에, 방법(10)은 기술된 구현예에서와 같이, 블록(30 및 40)을 포함하는 시뮬레이션 루프(25)로 진행한다. 일부 구현예에서, 도 1에 도시된 블록(50) 분석 단계는 루프(25)의 전체 또는 부분 내부에서 수행될 수 있다. 루프(25) 시뮬레이션은 분자 역학 엔진에 의해 구현될 수 있으며, 펨토초(즉, 1fs=10^-15초) 또는 심지어 펨토초의 수분에 따른 시간 단계를 포함하는 컴퓨터-구현된 이산 시간 시뮬레이션을 포함할 수 있다. 루프(25) 시뮬레이션은 적당한 컴퓨터 또는 복수의 컴퓨터상에서 실행되는 소프트웨어 분자 역학 엔진에 의해 구현될 수 있다. 다수의 소프트웨어 분자 역학 엔진이 당 분야에 공지되어 있다. 특정 일 구현예에서, 블록(25) 루프는 공개적으로-이용가능한 소프트웨어 패키지인 GROMACS 및 PLUMED를 사용하여 수행되며, 때때로 업데이트된다. 블록(25) 시뮬레이션 루프의 일부로서, 집합적 좌표 바이어스 포텐셜이 단백질에 인가되어, 고려중인 단백질의 업데이트된 구조 모델(업데이트된 형태라고도 함)(32)을 생성하도록 블록(20)에서 입력으로서 얻어지는 구조 모델(22)의 변형을 강제한다. 또한, 고려중인 단백질의 구조 모델은 블록(25) 시뮬레이션의 각 시간 단계동안 변형되어 단백질의 업데이트된 구조 모델(또는 형태)(32)을 생성한다. 구체적으로, 단백질의 구조(즉, 단백질의 원자 핵의 물리적 좌표의 컴퓨터 표현)는 각 시간 단계 동안 변형되어 업데이트된 구조 모델(32)을 생성한다.

이하에 보다 상세히 기술되는 바와 같이, 루프(25) 시뮬레이션은 고려중인 단백질에 집합적 좌표 바이어스를 적용하는 단계 및 일련의 시간 단계에 걸쳐 단백질을 관찰하는 단계를 포함한다. 전체 집합적 좌표는 바이어스될 때 고려중인 단백질에 전역적으로 불안정화하는 영향을 가하여 고유 구조의 손실을 유도하는 원자 위치(예를 들어, 핵의 물리적 좌표) 및/또는 에너지의 임의의 적합한 기능을 포함할 수 있다. 전역 집합적 좌표의 비-제한적인 예들은 위에 기술되었다.

업데이트된 구조 모델(들)(32)(또한, 형태(들)(32)이라고도 함)은 루프(25)의 하나 이상의 반복 이후에 고려중인 단백질의 컴퓨터 표현의 변형된 구조(들)을 지칭할 수 있다. 일부 구현예에서, 루프(25)의 각각의 반복에서 (예를 들어, 각각의 시간 단계) 새로운 형태(32)가 생성되며, 이 경우 도 1에 도시된 형태(들)(32)은 실제로 다수의 형태(32)를 포함할 수 있다. 일부 구현예에서, 루프(25)는 또한, 각 반복에서(예를 들어 각 시간 단계마다) 집합적 좌표 출력(34)을 생성한다. 임의의 형태(32)에 대한 집합적 좌표 출력(34)은 현재 시간 단계 및/또는 이전 시간 단계의 업데이트된 구조 모델(32)에 기초하여, 각 시간 단계마다 결정될 수 있다. 집합적 좌표 출력(34)은 (외부적으로 적용된 "표적" 집합적 좌표와 대조적으로) 특정 시간 단계에 고려중인 단백질의 "실제" 집합적 좌표를 포함할 수 있다. 일부 구현예에서, 임의의 시간 단계 또는 임의의 대응하는 형태(32)에 대한 집합적 좌표 출력(34)은 그 형태(32)에 대해 존재하는 고유 구조의 정도 또는 그 형태(932)에 대해 존재하는 고유 구조(예를 들어, 펼침과정)의 정도의 결핍의 기능 및/또는 달리 지표와 상관되는 파라미터를 포함할 수 있다. 일부 구현예에서, 집합적 좌표 출력(34)은 스칼라(scalar)이다. 예를 들어, 집합적 좌표 출력(34)은 [0,1]의 범위 내에 있을 수 있어, 완전히 고유 구조(예를 들어, 블록(20)에서의 PDB로부터 고유 구조 모델(22)로서 얻어진 구조)가 1의 전역 좌표 출력(34)을 가질 수 있는 반면, 전역적으로 펼쳐진, 랜덤 코일 구조에서, 집합적 좌표 출력(34)은 0 또는 그 부근의 값을 가질 수 있다.

방법(10) 및 루프(25)에서 사용되거나 본원에 기술된 집합적 좌표 바이어싱 방법은 펼침과정이 일어나는 (단백질 구조내) 방법 또는 위치를 명시하지 않으면서 후보 단백질로부터 전역적 펼침과정의 특정 레벨을 요구(적어도 허용가능한 임계치 내에서 근사하도록)하는데 사용될 수 있다. 예를 들어, 집합적 좌표는 전역 집합적 좌표일 수 있으므로, 고려중인 단백질을 바이어싱시키는데 사용될 때 전역 집합적 좌표는 단지 표적 집합적 좌표를 추적하기 위해 단백질이 전역적 펼침과정을 달성하는 반면 단백질이 임의의 국부 전역적 펼침과정을 채택하여 전역적 목표를 달성할 것을 주로 요구한다. 단백질이 말하자면 30% 펼쳐지도록 (그리고 그에 따라서 70% 접히도록) 요구함으로써, 방법(10)은 부분적으로-무질서한 30%로 제한된 평형 단백질 구조로부터 결과를 분석하고 그 결과를 도출하는데 사용될 수 있다. 집합적 좌표 바이어스가 전역적(예를 들어, 30% 무질서가 있는 구조를 향한)인 경우, 전역 집합적 좌표 바이어스는 30% 무질서 제약을 만족시키기 위해 단백질이 국부적으로 무질서하게될 수 있는 위치 또는 방법을 명시하지 않는다. 무질서의 영역(들)은 단백질의 내부 에너지 함수 또는 역장(즉, 단백질의 컴퓨터 기반 모델 표현에 기초한) 및 단백질이 집합적 좌표 바이어스 제약 조건을 충족시키는 요건에 기초하여 단백질에 의해 채택될 수 있다. 이하에 보다 상세히 설명되는 바와 같이, 무질서가 발생하기 쉬운(예를 들어, 설명된 구현예에서의 국부적인 펼침과정 징후(54)로부터 결정될 수 있는) 단백질의 국소화된 영역 또는 "핫 스폿(hot-spot)"은 블록(50)에서 분석되어, 방법(10) 후보 에피토프 예측(52)을 제공할 수 있다. 상기 방법(10) 후보 에피토프(52)는 치료제가 설계될 수 있는 항원 표적으로서 작용할 수 있다.

방법(10)에 기초한 후보 에피토프 예측(52)은 루프(25) 시뮬레이션을 위해 사용된 입력-기반 필드(24) 및 컴퓨터-기반 모델 표현(22)만큼 정확할 수 있다. 위에서 언급한 바와 같이, 분산 컴퓨팅 또는 맞춤 슈퍼컴퓨터는 이제 방법(10)에 대한 블록(20) 입력으로서 사용되는 역장 모델(24) 및 컴퓨터-기반 모델 표현(22)의 정확성을 지원하는, 상기 역장을 사용하여 단백질을 정확하게 접을 수 있다.

입력 컴퓨터-기반 구조 모델(22)(예를 들어, 블록(20)에서 PDB로부터 얻어 짐)은 단백질의 모든 원자에 대한 3차원 좌표의 세트를 포함할 수 있다. 입력 컴퓨터-기반 구조 모델(22)이 고유 구조 모델인 경우, 이는 고유한 접촉들(본 명세서에서 초기 접촉라고도 함)의 세트를 정의한다. 초기 접촉의 세트는 서로의 임계 거리(예를 들어, 4.8Å 또는 일부 다른 적당한 거리) 내에 있는 핵을 갖는 고유 구조 모델(22)의 모든(또는 세트의) 중(수소 이외의) 원자 쌍을 포함하도록 정의될 수 있다. 약 100개 아미노산의 길이의 1차 서열을 갖는 단백질에 대한 전형적인 PDB 고유 구조(22)는 전형적으로 약 2000개의 초기 접촉 또는 그 부근을 가질 수 있다. 일부 구현예에서, 접촉의 수는 방법(10)에서 사용된 전역 집합적 좌표를 나타낼 수 있다. 상기 구현예에서, 초기 접촉의 수는 (시뮬레이션 루프(25)의 임의의 반복 이전에) 고려중인 단백질의 실제 집합적 좌표의 초기 값을 나타낼 수 있다.

일부 구현예에서, 입력 단백질 구조(22)는 루프(25)내 엄격하게 고유한 구조를 사용하기보다는 선택적 평형화 프로세스(23)(도 1에서 점선으로 도시됨)을 사용하여 평형화될 수 있다. 평형화 프로세스(23)는 고려중인 단백질이 당 분야의 종사자들에게 잘 알려진 통상적인 열역학 변수에 의해 특징화되는 외부 환경에서 평형을 이룰 수 있게 하는 시뮬레이션을 포함할 수 있다. 상기 열역학적 변수는 일정한 개수의 입자, 일정한 압력 및 일정한 온도 등을 포함할 수 있지만, 이에 한정되는 것은 아니다. 추가적으로 또는 대안적으로, 일정한 수의 입자, 일정한 시스템 부피, 및 일정한 온도 및/또는 기타 등으로 평형화 프로세스(23)가 달성될 수 있다. 단백질이 시뮬레이션 루프(25)를 시작하기 전에 블록(23)에서 평형화되는 경우, 고려중인 단백질 및 시뮬레이션 루프(25)의 제1 반복에 대한 입력에 대한 초기 접촉를 결정하기 위해, (입력 단백질 구조(22) 또는 실제 고유 구조에 부가하여 또는 대안으로) 평형 구조(즉, 평형 구조의 컴퓨터 표현)가 사용될 수 있다. 전형적으로, 일부 약하게 안정한 접촉이 블록(23) 평형 프로세스 동안의 열 변동으로 인해 간단하게 파괴될 수 있으므로, 평형 단백질은 (PDB 고유 구조와 비교하여) 약간 더 적은 수의 초기 접촉를 가질 수 있다. 일부 구현예에서, 블록(23) 평형 프로세스는 사용되지 않는다. 일부 구현예에서, 블록(20)에서 얻어진 입력 구조 모델(22)은 이미 평형 상태이다. 문맥에 달리 규정되어 있지 않는 한, 본 명세서에 기술된 고유 구조에 대한 언급은 평형 구조를 포함하는 것으로 간주될 수 있다. 구조가 평형화되는 경우, 방법(10)의 나머지 부분에서 사용된 고유 구조(22)는 허용되는 배좌 공간내 확률론적 변화를 수용하기 위해 다수의 시간 단계(예를 들어, 열 평형 상태의 단백질에 관한 확률적 앙상블)에 대한 적당한 평균화에 의해 블록(20) 내에서 얻어질 수 있다. 문맥에 달리 명시되어 있지 않는 한, 평형 단백질의 고유 구조에 대한 언급은 상기 평균 고유 구조를 지칭할 수 있다.

일부 구현예에서, 다중 사슬(예를 들어, 집합된 구조)을 포함하는 단백질의 경우, 방법(10)(도 1)은 초기 접촉 수의 결정 및/또는 집합적 좌표 출력(34)(즉, 시뮬레이션 루프(25)의 각각의 반복에서 집합적 좌표의 실제 값)의 결정에서 사슬간 및 사슬내 접촉 모두를 포함할 수 있다.

일부 구현예에서, 방법(10)은 루프(25) 시뮬레이션 동안 단백질이 펼쳐지도록 강제하는데 사용된 집합적 좌표에 대한 기초로서 접촉 세트(또는 접촉 세트의 표현)를 사용한다. 보다 구체적으로, 일부 구현예에서, 단백질을 바이어싱하기 위해 사용되는 집합적 좌표는 초기 접촉의 세트 중에서 접촉의 수를 포함한다. 집합적 좌표로서 접촉 세트의 표현을 사용하는 예시적인 구현예는 집합적 좌표가 다른 형태를 가질 수 있다는 일반성의 손실없이 이하에 설명된다. 루프(25) 시뮬레이션을 위한 초기 접촉 세트의 표현은 블록(20)에서 얻어진 고려중인 단백질의 입력(예를 들어, 고유) 구조 모델(22) 및/또는 블록(23) 평형 프로세스의 출력으로서 얻어진 고려중인 단백질의 평형 버전으로부터 생성될 수 있다. 임의의 이후 시간 단계에서 초기 접촉 세트(및 대응하는 집합적 좌표 출력(34) 또는 집합적 좌표의 실제 값) 사이의 접촉 수의 표시는 유사한 방식으로 상기 업데이트된 구조 모델(32)로부터 결정될 수 있다. 고려중인 단백질 구조에서 각 중원자 쌍(ij에 의해 지수됨)에 대해, 방법(10)은 고유 접촉 함수 Q _ij ( r)의 사용을 포함할 수 있다. 일부 구현예에서, 접촉 함수 Q _ij (r)는 쌍 ij의 원자 사이의 거리 r _ij 및 원자 쌍 ij의 함수를 포함할 수 있다. 특정 일 구현예에서, 접촉 함수 Q _ij (r)는 하기 식 1을 갖는다:

(식 1)

상기 식 1에서, r _ij 는 고려중인 단백질에서 원자 i와 j의 핵 사이의 거리이다. 다른 식(1) 파라미터 r ₀ , n 및 m은 적당하게 선택된 상수일 수 있다. 일부 구현예에서, m>n이다. 특정 일 구현예에서, r ₀ =4.8Å(옹스트롬), n=6, 및 m=12이다. 도 2는 예시적인 접촉에 대한 식(1) 접촉 함수 Q _ij (r) 대 거리 r의 플롯을 도시한다. 이하에 보다 상세히 설명하는 바와 같이, 완만한 형태의 접촉 함수 Q _ij (r)는 포텐셜 함수 V를 공식화하는데 사용될 수 있는 집합적 좌표 Q를 허용하며, 여기서 포텐셜 함수 V는 분자 역학 엔진에 의해 차례로 사용될 수 있는 힘으로 편리하게 전환될 수 있다. Q _ij (r)는 항상 1보다 작기 때문에(r → 0과 같이 점근적으로 1에 가까워짐), 합계 Q=

(고려중인 단백질 구조의 모든 원자 쌍에 대한 합계)는 거의 항상 고유 구조의 총 접촉 수보다 적다. 접촉 세트를 정의하는 데 사용되는 구조 모델은 초기 구조라고 할 수 있으며, 이 구조의 접촉에 대한 합계는

로 지칭될 수 있다. 열적 변동 또는 바이어싱 힘 때문에, 이 초기 구조로부터 벗어난 상태는 일반적으로 초기 접촉의 일부가 1보다 작다. 실제로, 원자의 모든 쌍 ij에 대해 Q _ij 를 계산할 필요는 없을 수 있으며, 예를 들어, 임계화 프로세스는 매우 멀리 떨어져있는 원자들의 일부 쌍들 ij에 대해 Q _ij =0을 설정하는데 사용될 수 있다. 상술한 바와 같이, 일부 구현예에서 집단 배위는 단백질 내의 모든 원자보다는 중원자 및/또는 특정 중원자에 기초할 수 있다. 예를 들어, 집합적 좌표는 단백질의 모든 탄소 원자 또는 단백질의 모든 알파 탄소 원자를 기반으로 할 수 있다.

도 2에 도시된 식 1과 유사한 함수 형태 및/또는 함수 특징을 갖는 많은 함수들이 있다. 방법(10)은 접촉 함수 Q _ij (r)로서 임의의 상기 함수를 사용할 수 있다(예를 들어, r이 0에서 ∽로 갈수록 함수가 1에서 0으로 가고, r ₀ 의 특성 길이 규모를 갖는 경우). (예를 들어, 식 1에서) r ₀ , n, 및 m에 대한 파라미터는 단백질 내의 물리적 수소 결합 상호작용의 근사 범위를 갖는 연속 함수를 특성화하도록 선택될 수 있다.

일부 구현예는 이하에 보다 상세히 설명되는 바와 같이 루프(25) 시뮬레이션동안 Q _ij 의 함수로 바이어싱 포텐셜을 적용하는 것이 바람직할 수 있고, 이 경우 상기 포텐셜이 개별 원자 위치에 힘(예를 들어, 포텐셜의 미분)으로 구현되기 때문에, (예를 들어, Heaviside 또는 이산 스텝 함수보다는) 연속 접촉 함수(예를 들어, 식 1 접촉 함수)를 사용하여 접촉를 가중할 수 있다. 따라서, 일부 구현예들에서, Q _ij 는 잘 정의된 도함수를 갖는 r의 미분가능 함수인 것이 바람직하다. 일부 구현예에서, Heaviside 스텝 함수 또는 스텝 함수에 대한 다수의 스텝 변화와 같은 이산 함수가 고유 접촉를 기술하기 위해 사용될 수 있다. 상기 공식은 일반적으로 원자간 상호작용을 위한 계단식 포텐셜 함수를 사용하는, 이산 분자-역학(DMD) 시뮬레이션 프로토콜에 적합할 수 있다.

중원자(비-수소 원자) 사이의 쌍방향 거리의 세트{r _ij }에 의해 특징화되는 임의의 구조에 대한 실제 집합적 좌표 Q(예를 들어, 방법(10)에서의 집합적 좌표 출력(34))는 하기 식 2에 의해 특징화될 수 있다:

(식 2)

상기 식 2에서, Q _ij 는 식 1에 제공되며, 합

은 입력(예를 들어, 고유한) 구조 모델(22) 또는 고유 구조(22) 자체의 원자 쌍에 대해 이루어진다. 상기 식 2에서 "초기 값(initial)"은 합계가 초기 고유 구조(일반적으로 적당하게 접힌 구조 또는 피브릴 구조의 PDB 모델)에 있는 상기 접촉에 대해서만임을 나타낸다. 상기 식 2에 기술된 구현예에서, 식 2의 분모에서의 양은 입력(예를 들어, 고유) 구조 모델(22) 또는 평형 구조에서 Q _ij 값의 열 평균이고, 식 2의 분자에서의 양은 (예를 들어, 블록(25) 루프의 각 반복에서 얻어진 업데이트된 구조 모델(32)의) 임의의 구조에서 Q _ij 의 합계이다. 분모의 괄호 <...>는 고유한 상태의 평형(열) 평균, 즉 고유한 PDB 구조에서 시작하는 분자 역학 시뮬레이션을 실행할 때 열적으로-점유된 구조를 나타낸다. 식 2의 양 Q는 전형적으로 0과 1 사이의 수이다.

다른 측정기준(metrics)(예를 들어, 식 2 이외의 측정기준 및/또는 접촉 이외의 기준에 기초한 측정기준)은 고유 구조로부터의 무질서 정도를 특성화하기 위해 부가적으로 또는 대안적으로 가능하며, 일부 구현예에서 결과적으로 집합적 좌표(예를 들어, 전역 집합적 좌표)로서 사용될 수 있다. 상기 측정기준은 예를 들어, 고유 구조 모델(22)에 대한 업데이트된 구조 모델(32)의 평균 제곱근 편차(RMSD), 고유 구조(22)의 회전운동 반경에 대한 업데이트된 구조 모델(32)의 회전운동 반경, 고유 구조(22)내 골격 수소결합 중으로부터 상기 업데이트된 구조 모델(32)의 골격 수소 결합의 수, 고유 구조(22)의 SASA에 대한 상기 업데이트된 구조 모델(32)의 총 용매-접근가능성 표면적(SASA), 문헌(C. J. Camacho and D. Thirumalai. Kinetics and thermodynamics of folding in model proteins. Proc. Natl. Acad. Sci. USA, 90(13):6369-6372, 1 July 1993)(이후에 본원에 참고문헌으로 통합됨)에 기술된 구조적 중첩 함수, 문헌(A. Das, B. K. Sin, A. R. Mohazab, and S. S. Plotkin, Unfolded protein ensembles, folding trajectories, and refolding rate prediction. J. Chem. Phys., 139(12):121925, 2013)(이후에 본원에 참고문헌으로 통합됨)에 기술된 고유 구조로부터 일반화된 유클리디안 거리, 상기 파라미터 중 하나 이상의 함수 및/또는 기타 등을 포함할 수 있다. 일부 구현예에서, 바이어싱 시뮬레이션(예를 들어, 시뮬레이션 루프(25)) 내에서 사용되는 상기 집합적 좌표 각각은 스칼라 Q로 표현될 수 있다. 간략하게 하기 위해, 이 설명은 단일 집합적 좌표의 사용을 언급한다. 그러나, 문맥상 달리 명시하지 않는 한, 집합적 좌표에 대한 언급은 복수 집합적 좌표의 조합의 가능성을 포함하도록 이해되어야 한다.

일부 구현예에서, 방법(10)의 루프(25)는 일련의 시간 단계에 대한 바이어스 포텐셜을 하기 식 3과 같은 형태의 시간-의존적인 포텐셜로서 나타내는(assert) 것을 포함한다:

(식 3)

상기 식 3에서, Q _c ( t)는 사용자-지정될 수 있고 집합적 좌표/시뮬레이션 파라미터(26)의 일부일 수 있는 표적 집합적 좌표이고, Q는 임의의 주어진 시간 단계에서 업데이트된 구조 모델의 실제 집합적 좌표이다. 식 3 포텐셜 함수가 스프링의 포텐셜 에너지 함수의 출현을 갖는 것을 관찰할 수 있는데, 여기서 파라미터 k는 스프링 상수와 유사하다. 또한, k>0일 때, 실제 집합적 좌표 Q가 표적 집합적 좌표 Q _c (t)와 상이한 경우, 식 3 포텐셜 함수는 증가한다는 것을 관찰할 수 있다. 루프(25) 시뮬레이션은 실제 집합적 좌표 Q가 표적 집합적 좌표 Q _c (t)를 추적하는 것을 보장하기 위해 포텐셜 함수를 최소화하는 단계(예를 들어, 식 3을 최소화하는 단계)를 포함할 수 있다. 일부 구현예에서, 실제 집합적 좌표 Q와 표적 집합적 좌표 Q _c (t) 사이의 차이를 불이익(penalizing)하는 다른 형태를 갖는 포텐셜 함수는 식 3에 추가적으로 또는 대신에 사용될 수 있다. 식 3 및 유사한 특성을 갖는 다른 포텐셜 함수가 본원에 기술된 집합적 좌표 중 하나에 사용될 수 있다.

일부 구현예에서, 표적 집합적 좌표 Q _c (t)는 입력(예를 들어, 고유한) 구조에 대한 Q 값(통상적으로 1이거나, 1에 가깝다)에서 시작하여 시간에 따라 감소하는 시간 함수를 포함할 수 있다. 일부 구현예에서, Q _c (t)는 집합적 좌표/시뮬레이션 파라미터(들)(26)에 의해 소정의 적당한 레벨로 특정될 수 있는 비율로 선형적으로 감소할 수 있다. 일반적으로, 표적 집합적 좌표 Q _c (t)의 특성은 집합적 좌표/시뮬레이션 파라미터(들)(26)에 따라 특정되거나 그렇지않으면 구성될 수 있다. 시간의 함수로서 표적 집합적 좌표 Q _c (t)의 예시적인 펼침과정 궤적, 및 시간의 합수로서 고려중인 단백질의 실제 집합적 좌표 Q(예를 들어, 각 시간 단계에 대한 집합적 좌표 출력(34))가 도 3에 도시된다. 보다 구체적으로, 도 3은 예시적인 실제 집합적 좌표 Q(t)(예를 들어, 방법(10)을 사용하여 시뮬레이션된 바와 같은 집합적 좌표 출력(34)) 및 Aβ 아밀로이드의 전형적인 바이어싱 시뮬레이션을 위한 시간에 대한 평활한 표적 집합적 좌표 곡선(각 시간 단계에서 출력 집합적 좌표(34)에 의해 제공될 수 있는 Q _c (t)(102))의 플롯을 도시한다.

식 3의 포텐셜 V(Q,t)는 이 포텐셜을 고려중인 단백질의 총 에너지에 가함으로써 (루프(25)의 블록(30)에서) 구현될 수 있다. 단백질은 그의 자유 에너지를 최소화하려고 시도할 것이지만, 그렇게 하는 데는 시간이 걸릴 것이며; 이것은 도 3에 나타난 단백질의 표적 집합적 좌표 Q _c ( t)(102)와 실제 집합적 좌표 Q(t)(34) 사이의 지체의 하나의 이유이다. 도 3에 나타난 지연의 또 다른 이유는 고려중인 단백질이 본래의 구조로부터 교란될 때 존재하는 0이 아닌 잔류력이 존재하기 때문이며, 이는 포텐셜 V의 존재하에 표적 집합적 좌표 Q _c (t)와 약간 상이한 단백질의 실제 집합적 좌표 Q34의 새로운 평형값의 차이를 초래한다.

표적 집합적 좌표 Q _c (102)의 감소 속도가 너무 빠르면, 고려중인 단백질을 특징화하는 실제 집합적 좌표 Q(34)의 값은 표적 집합적 좌표 Q _c (102)의 값으로부터 실질적으로 벗어날 수 있고, V(Q,t)로 인한 단백질에 대한 섭동은 매우 비-평형한 펼침과정 프로세스를 유도할 것이다. 일부 구현예에서는 단백질이 펼침과정에 따라 준-평형(단열) 프로세스를 유지하려고 시도한다. 일부 구현예에서, 표적 집합적 좌표 Q _c (t)(102)에 대한 감소율은 실제 집합적 좌표 Q(34)가 표적 Q _c (102)와 너무 크게 다르지 않은 조건에 의해 결정될 수 있다. 상기 느린(단열) 섭동은 단백질에 내재된 안정화력보다 훨씬 큰 섭동력에 대한 반응보다는, 고려중인 단백질 내에서의 상호작용에 의해 주로 지배되는 펼침과정 프로세스를 양산한다. 도 3의 실시예에서, 표적 집합적 좌표 Q _c (102)는 전형적으로 0.4 내지 0.8의 범위일 수 있는 최종 목표 값(104)까지 일련의 시간 단계에 걸쳐 감소된다. 일부 구현예에서, 이 최종 표적 Q _c 값(104)은 0.5 내지 0.7의 범위에 있다.

식 3에서 상수 k의 값을 설정하는데 약간의 자유도가 있다. 일부 구현예에서, 이 값 k는 표적 집합적 좌표 Q _c 가 변화하는 속도에 따라 2×10⁴내지 1×10⁵kJ/mol의 범위로 설정될 수 있다. 일부 구현예에서, 이 값 k는 4×10⁴ 내지 8×10⁴ kJ/mol의 범위로 설정될 수 있다. 예시적인 일 구현예에서, k는 k=6×10⁴kJ/mol로 설정되고, Q _c 가 15 나노초 당 약 0.4의 비율로 변화할때, (Q _c 가 약 0.02의 Q-Q _c 의 값을 수득하는) 표적 집합적 좌표 Q _c (102)로부터 실제 집합적 좌표 Q(34)의 작은 편차를 제공한다(도 3 참조). 바이어싱 속도가 느릴수록(즉, 표적 집합적 좌표(100)의 변화속도가 느릴수록), 수용가능한 k의 값은 작아진다. 시스템이 표적 Q _c (t)로부터 벗어날 때 적당한 에너지 비용을 적용함으로써, k의 값은 약 0.02의 Q-Q _c 와 같은 편차 Q-Q _c 에 대한 작은 수를 제공하도록 선택될 수 있다. 상수 k가 너무 작으면, Q는 Q _c 에서 너무 크게 벗어나는 경향이 있을 반면; k가 너무 크면, 식 3의 포텐셜 V( Q,t)의 최소 편차로부터 심지어 작은 편차에 의해 유도된 큰 인공적인 힘 때문에 시스템은 에너지적으로 불안정해질 것이다.

고려중인 주어진 단백질에 대해, 일부 구현예는 방법(10) 시뮬레이션을 다수 회(또는 적어도 루프(25) 다수 시간) 실시하는 단계를 포함하며, 여기서 각각의 바이어싱 시뮬레이션은 독립적이다. 이것은 블록(45)에 의해 도 1에 도시되어 있으며, 블록(45)은 또 다른 독립적인 실행을 수행할지 여부에 관한 질의를 포함한다. 블록(45) 질의가 긍정적이면, 방법(10)은 시뮬레이션 루프(25)를 다시 수행하기 위해 루프 백(loop back)한다. 도시된 구현예에서, 방법(10)은 블록(20)으로 루프 백하지만, 이는 반드시 필요한 것은 아니다. 일부 구현예에서, 방법(100)은 다른 기능 블록으로 루프 백할 수 있다. 이하에 보다 상세히 설명되는 바와 같이, 독립적인 바이어싱 시뮬레이션(런(run)이라고도 함)의 수는 임의의 주어진 시뮬레이션에서 노광되는(즉, 접히지 않는) 것으로 관찰되는 폴리머 영역이 실제로 다수의 시뮬레이션에 지속적으로 노출되는 것을 보장하도록 도움을 줄 수 있고, 특정한 확률론적 분자 역학 시뮬레이션에서 드문 임의 변동의 결과가 아니다. 따라서, 일부 구현예는 독립적인 시뮬레이션의 수에 대한 적어도 중요한 분율 f(fraction)이 바이어싱시 영역의 펼침과정(예를 들어, 노출 증가)의 하나 이상의 표시를 나타내는 단백질 영역(잠재적 후보 에피토프 예측(52))을 고려한다.

일부 구현예에서, 분율 f는 0.8보다 크게 선택된다. 일부 구현예에서, 분율 f는 0.85보다 크게 선택된다. 특정 일 구현예에서, 분율 f는 에피토프를 나타내는 8개의 시뮬레이션 중 7개, 에피토프를 나타내는 9개의 시뮬레이션 중 8개, 또는 에피토프를 나타내는 10개의 시뮬레이션 중 9개에 대응하는, f=0.87로 선택된다. 독립적인 시뮬레이션의 수는 일반적으로 8개 이상일 수 있지만, 반드시 필요한 것은 아니다.

고려중인 단백질이 하기 기술된 Aβ 피브릴과 같은 집합된 피브릴 구조를 포함할때, 소정의 시뮬레이션에서, 영역이 임의의 단량체(임의의 펩타이드 사슬)에서 하나 이상의 펼침과정 표시를 나타내는 경우, 영역이 에피토프인 것으로 간주될 수 있으며, 상기 에피토프가 시뮬레이션의 분율 g에서 확실하게 노출되는 것으로 밝혀졌다. 일부 구현예에서, 분율 g는 0.8보다 크게 선택된다. 일부 구현예에서, 분율 g은 0.85보다 크게 선택된다. 특정 일 구현예에서, 분율 g는 g=0.87로 선택된다.

블록(45) 질의가 부정적이면, 방법(10)은 블록(50)으로 진행한다. 블록(50)은 후보 에피토프를 동정하기 위한 노력으로 블록(25) 시뮬레이션(예를 들어, 시뮬레이션 루프(25)를 통한 각 반복 또는 진행)의 시뮬레이션 결과를 분석하는 단계를 포함한다. 도 1의 구현예에서, 블록(50)은 블록(25) 시뮬레이션 루프의 출력을 실시하는 것으로 도시되어있다. 이것은 필요하지 않다. 일부 구현예들에서, 블록(50)의 일부 또는 전부는 시뮬레이션 루프(25) 내에서 수행될 수 있다.

도 4a 및 도 4b는 방법(100)에 적용될 수 있는 예시적인 집합 구조에 대한 예시적인 시뮬레이션 결과 데이터를 도시한다. 특히, 도 4a는 표적 집합적 좌표(Q _c )로 바이어싱될 때 용매 접근가능성 표면적(SASA)의 변화를 도시하며, 이는 3배 대칭 Aβ 구조 2M4J의 사슬 B에 대한 초기 Q 대 잔기 지수의 0.8이며, 도 4b는 각 사슬에 대한 주어진 세그먼트(예컨대, 잔기 23 내지 28)는 독립적으로 고려되며, 각 시뮬레이션 런이 독립적으로 고려되는 경우 도 4의 방법을 예시적인 집합된 구조로 적용하는 것을 개략적으로 도시한다. 도 4b 데이터는 Aβ40의 시뮬레이션 데이터로, 3개의 펩타이드 사슬과 3개의 시뮬레이션만이 명확한 설명을 위해 도시되었다. 도 4a, 도 4b, 도 5a, 도 5b 및 도 5c에 도시된 방법의 특정 경우에, 블록(50) 후보 에피토프 선택 프로세스에 사용된 데이터는 시뮬레이션 루프(25)의 각 수행에 대해, 집합적 좌표 바이어스 후 적당한 시간이 고려중인 시스템이 평형에 이르게 하는 최종 수준에 도달했다. 식 1 내지 식 3에 의해 기술된 집합적 좌표 바이어스의 특정 경우에, 블록(50) 후보 에피토프 선택 프로세스에 사용된 데이터는 Q _c 가 그의 최종 수준에 도달한 후, 적당한 시간(예를 들어, 20-200ns의 순서로)을 얻을 수 있었다(도 3 참조).

도 4a는 10개의 독립적인 시뮬레이션을 위해, 초기 구조의 80%로 바이어싱한 후, 3배 대칭 Aβ 구조 2M4J의 하나의 펩타이드 사슬에 대한 잔기 지수의 함수로서 각 잔기에 대한 용매-접근가능성 표면적(SASA)의 변화의 예시적인 플롯을 도시한다. 각각의 도 4a 추적은 하나의 시뮬레이션(또는 런)의 결과를 보여준다. 도 4a 플롯의 X-축은 예시된 펩타이드 사슬에 대한 아미노산(또는 잔기) 지수가다. SASA는 H₂O에 접근가능성 표면적을 나타낸다. 도 4a 플롯의 Y-축은 (고려중인 단백질의 초기 구조(22)와 비교되는) 각각의 독립적인 시뮬레이션에서 업데이트된 구조(32)(도 1)에 대한 SASA의 변화(ΔSASA)이다. 포지티브 ΔSASA는 관련 잔기 지수의 영역에서 펼침과정을 나타내는 것으로 간주될 수 있다. 이 ΔSASA 파라미터는 시뮬레이션 루프(25)에서 결정된 업데이트된 구조 모델(32) 및/또는 업데이트된 구조 모델(32)의 초기 구조 모델(22)(도 1 참조)과의 비교에 적어도 부분적으로 기초하여 블록(50)에서 생성될 수 있는 국부적인 펼침과정 표시(54)의 비-제한적인 예이며, 국부적인(예를 들어, 잔기 당) 기준으로 결정될 수 있다. 일부 구현예에서, 후보 에피토프(52)의 예측을 돕기 위해 국부적으로(예를 들어, 잔기 기준 당) 블록(50)에서 추가의 또는 대안적인 국부 펼침과정 표시(54)가 결정 및/또는 분석될 수 있다. 상기 국부적 펼침과정 표시(54)는 시뮬레이션 루프(25)에서 결정된 업데이트된 구조 모델(32) 및/또는 초기 구조 모델(22)에 대한 업데이트된 구조 모델(32)의 비교에 기초할 수 있다. 비-제한적인 예로서, 상기 추가의 또는 대안적인 국부적인 펼침과정 표시(54)는: (업데이트된 구조 모델(32)과 초기 구조 모델(22)을 비교할 때) 각 잔기에 대한 손실된 접촉의 수, 주어진 형태 앙상블에서 잔기가 맡는 동작이 얼마나 많은지의 표현인, 각 잔기에 대한 고유 구조 모델(22)에 대한 업데이트된 구조 모델(32)의 평균 제곱근 변동(RMSF), (업데이트된 구조 모델(32)과 초기 구조 모델(22)를 비교할 때) 각 잔기에 대한 손실된 골격 수소 결합의 수, (업데이트된 구조 모델(32)과 초기 구조 모델(22)를 비교할 때) 각 잔기에 대한 상호작용의 포텐셜 에너지, 상기 파라미터들의 조합 및/또는 기타 등을 포함할 수 있다.

초기 구조의 80%(예를 들어, Q _c =0.8Q _initial )의 집합적 좌표 바이어싱에서 도 4a의 실시예의 경우, 본 발명자들은 신뢰성있게 증가된 SASA로 나타나는 2개의 영역: 잔기 14-17 및 잔기 25-30을 볼 수 있다. 도 4a에 도시된 구현예에서, 측쇄 표면 노출의 변화만이 도시되므로, 모든 글리신 잔기는 반드시 SASA의 변화가 0이지만, 예측에 불이익을 주지 않는다. 다른 구현예는 글리신 잔기의 골격의 SASA 변화를 카운트한다. 방법(100)(도 4)의 예시적인 구현예를 포함하는 일부 구현예에 있어서, 블록(50) 분석은 10개의 독립적인 런의 적당한 임계 분율 f가 노출의 증가를 나타내는 영역(예를 들어, ΔSASA>0)에 대해 검색하며, 이 플롯에서 영역은 잔기 14 내지 17 및 25 내지 30이다.

도 4b는 3개의 동일한 펩타이드 사슬(도 4b에서의 열에 의해 표시된 바와 같은 사슬 A, 사슬 B 및 사슬 C; 각 펩타이드 사슬 - 본원에서는 "사슬"로 언급됨 - 예를 들어, 피브릴내 복제 Aβ 펩타이드일 수 있음)의 예시적인 집합 구조(여기서는 PDB 2M4J로부터 취함)에 대한 예시적인 결과를 도시하며, 상기 바이어싱 시뮬레이션이 3회(도 4b의 행에 의해 표시된 바와 같이 런(Run)1, 런2 및 런3) 복제되었다. 도 4b의 각 열은 동일한 펩타이드 사슬을 나타내지만, 다른 시뮬레이션 수행에서는 다른 펩타이드 사슬이 아닌 각 행이 동일한 시뮬레이션 런을 나타낸다. 도 4b의 플롯의 하부 3×3 어레이는 잔기 23-28로 구성된 잔기의 특정 그룹에 대한 "확대(zoom-in)"이다. 잔기의 전체 범위는 시뮬레이션 수행 1을 위해, 도 4b의 상단에 나타낸다. 각각의 도 4b 플롯의 X-축은 잔기 지수(예를 들어, 아미노산 지수)를 포함한다. 각각의 도 4b 플롯의 Y-축은 (고려중인 사슬의 초기 구조와 비교하여) 각 잔기 지수에 해당하는 용매 접근가능성 표면적의 변화(ΔSASA)를 나타낸다. 도 4b의 가로축을 가로지르는 3개의 사슬 각각에 대해, 상단 플롯은 첫 번째 독립적인 시뮬레이션("수행 1(run 1)")의 경우 잔기 지수 범위 1-40에 대한 ΔSASA를 보여 주며, 상단에서 두 번째 플롯은 수행 1의 지수 23-28에 대한 ΔSASA의 세부사항을 보여주고, 상단에서 세 번째 플롯은 두 번째 시뮬레이션("수행 2")의 지수 23-28에 대한 ΔSASA의 세부사항을 보여주며, 하단의 플롯은 세번째 시뮬레이션("수행 3")에서 지수 23-28에 대한 ΔSASA의 세부사항을 보여준다.

주어진 사슬 세그먼트(본원에서 잔기 23 내지 28)에 대해, 각각의 사슬(즉, 도 4b의 각 열)은 독립적으로 분석된다. 도시된 구현예에서, 각 수행(즉, 도 4b의 각 행 2, 3 및 4)에 대해, 관심의 펩타이드 서열의 모든 잔기가 바이어싱때 양의 ΔSASA를 갖는 하나 이상의 사슬이 존재한다면 에피토프가 동정될 수 있다. 도 4b의 도면에서 주어진 런에 대해 이 기준을 만족시키는 사슬 세그먼트는 굵게 표시되어 있는 반면(수행 1행의 가운데 패널, 수행 2행의 왼쪽 패널 및 수행 3행의 중간 및 오른쪽 패널), 기준을 만족시키지 않는 것은 더 얇은 선이다. 도 4b의 데이터는 PDB 구조 2M4J에서 시작하는 Aβ-40로부터의 시뮬레이션 데이터이며, 명확성을 위해 표시된 3개의 사슬과 3개의 시뮬레이션만 있다. 도 4b의 예는 잠재적 후보 에피토프로서 또는 더 큰 잠재적 후보 에피토프의 일부로서 에피토프 그룹이 어떻게 선택될 지를 보여주는데, 이는 모든 시뮬레이션 수행에서 적어도 하나의 사슬에서, 또는 보다 일반적으로는 보다 큰 시뮬레이션 수행 횟수의 적당한 임계 분율 f와 같거나 그 이상으로 노출되기 때문이다.

상술한 바와 같이, 주어진 시뮬레이션에 대한 ΔSASA는 본원에 기술된 시뮬레이션 방법에 따라 에피토프를 동정하는데 사용될 수 있는 단지 하나의 국부적인 펼침과정 표시(54)(도 1)를 나타낸다. 일부 구현예에서, 에피토프를 동정하는데 사용될 수 있는 다른 추가의 또는 대안적인 국부적인 펼침과정 표시(54)는 제한없이, (업데이트된 구조 모델(32)을 초기 구조 모델(22)과 비교할 때) 각 잔기에 대한 손실된 접촉의 수, 주어진 형태 앙상블에서 잔기가 맡는 동작이 얼마나 많은지의 표현인, 각 잔기에 대한 고유 구조 모델(22)에 대한 업데이트된 구조 모델(32)의 평균 제곱근 변동(RMSF), (업데이트된 구조 모델(32)과 초기 구조 모델(22)를 비교할 때) 각 잔기에 대한 손실된 골격 수소 결합의 수, (업데이트된 구조 모델(32)과 초기 구조 모델(22)를 비교할 때) 각 잔기에 대한 상호작용의 포텐셜 에너지, 상기 파라미터들의 조합 및/또는 기타 등을 포함할 수 있다. 상기 국부적 펼침과정 표시(54)는 시뮬레이션 루프(25)에서 결정된 업데이트된 구조 모델(32) 및/또는 초기 구조 모델(22)에 대한 업데이트된 구조 모델(32)의 비교에 기반을 둘 수 있다. 확률적 열 변동에 대한 감수성을 줄이기 위해 국부적 펼침과정 표시(54)는 표적 집합적 좌표가 최종 값에 도달한 후에 복수의 시간 단계에 걸쳐 평균화될 수 있다. 국부적 펼침과정 표시(54)의 상기 평균화는 표적 집합적 좌표가 최종 값에 도달한 후에 발생하기 때문에, 국부적 펼침과정 표시(54)의 상기 평균은 평형 평균화로 지칭될 수 있다. 문맥이 달리 지시하지 않는 한, 국부적인 펼침과정 표시(54)에 대한 언급은 국부적 펼침과정 표시(54)가 평형 평균화될 가능성을 포함하는 것으로 이해되어야한다.

상기한 바와 같이, Aβ 펩타이드는 여러 상이한 다형성 형태로 집합하는 경향이 있다. 다형성은 피브릴 형태와 올리고머 구조의 앙상블 모두에 존재한다.

본원에 기술된 다수의 실시예 결과는 다수의 Aβ 피브릴 계통에 대한 결과를 나타내며, 그 각각은 그 자체의 형태를 갖는다: 9개의 Aβ-40 펩타이드(또는 단량체)(PDB 엔트리 2M4J)의 3배 대칭 구조, 12개의 Aβ-40 단량체(PDB 엔트리 2LMN)의 2배 대칭 구조, 12개의 Aβ-42 단량체(PDB 엔트리 2MXU; 무질서 N-말단 잔기 1-10이 이 구조 모델에 첨가됨)의 단일-사슬, 평행의 정식 등록(in-register) 구조), 및 18개의 Aβ-40 모노머(PDB 엔트리 2LMP; 무질서 N-말단 잔기 1-8이 이 구조 모델에 첨가됨)의 3배 대칭 구조. 2가지 추가적인 계산 분석이 수행되었으며, 하나는 N-말단에 무질서 잔기 1 내지 8을 첨가함으로써 구조 2LMN 상에서 수행되며(이들은 PDB 구조에서 빠져 있음), 한 분석은 피브릴을 따라 상부 및 하부 단량체를 제한함으로써 그의 구조화 형태내에 남고, 중간 10개의 단량체들을 무질서하게 허용함으로써 구조 2MXU 상에서 수행된다. 시뮬레이션은 각각의 초기 구조에 대하여 (방법(10)의 루프(25) 및 문헌(K. Vanommeslaeghe, E. Hatcher, C. Acharya, S. Kundu, S. Zhong, J. Shim, E. Darian, O. Guvench, P. Lopes, I. Vorobyov, and A. D. Mackerell. Charmm general force field: A force field for drug-like molecules compatible with the charmm all-atom additive biological force fields. Journal of Computational Chemistry, 31(4):671-690, 2010; and P. Bjelkmar, P. Larsson, M. A. Cuendet, B. Hess, and E. Lindahl. Implementation of the CHARMM force field in GROMACS: analysis of protein stability effects from correlation maps, virtual interaction sites, and water models. J. Chem. Theo. Comp., 6:459-466, 2010)(이후에 본원에 참고문헌으로 통합됨)에 기술된 CHARMM 역장 파라미터를 사용하여) TIP3P 물에 의해 실시되었다. 시뮬레이션은 0.1M NaCl의 농도를 포함하였다. 5ns 동안 각 시스템을 평형화하고, 이 시간동안 Q를 측정하여 Q _c (t=0)의 초기 값을 제공하였다.

달리 명시하지 않는 한, 바이어싱 포텐셜의 중심은 15ns의 시간주기 동안 원래 값의 0.6으로 이동하였고, 이 기간 동안 초기에 존재하는 구조의 양은 상기 기술한 바와 같이 체계적으로 원래 값의 약 60%로 감소되었다. 초기 에피토프 예측의 한 세트에 대해, 본 발명자들은 초기 구조 Q(t= 0)의 약 71%에 해당하는 구조를 분석하였으며, - 예를 들어, 집합적 좌표 Q는 초기 집합적 좌표의 약 0.71에 대응한다. 위에서 논의한 바와 같이, 고려중인 단백질은 일반적으로 약 100ns의 시간 창 동안 초기 구조의 71%를 갖도록 제한되었다.

고려중인 각 단백질에 대해, 9 또는 10(또는 일부 다른 적당한 수)의 독립적 수행은 분자 역학 엔진의 온도조절기 난수 생성기의 무작위 시딩을 포함하는 각각의 독립적 런으로 수행될 수 있다. 9 또는 10(또는 일부 다른 적당한 수)의 독립적 런을 수행하면, 예상되는 에피토프가 진짜이며, 희귀하거나 임의의 발생이 아닌 것을 보증할 수 있다. 상기 논의된 바와 같이, 일부 구현예는 임의의 사슬이 모든 런의 분율 f(예를 들어, f>0.87)로 에피토프를 노출시키는 경우 잠재적 후보 에피토프로서 에피토프를 동정하는 단계를 포함한다. 고려중인 단백질의 진화를 바이어싱하고 시뮬레이션한 후에(블록(30)), 일부 구현예는 SASA(또는 본원에서 논의된 펼침과정의 다른 적당한 측정)의 변화를 바이어싱 후 초기 구조로부터 앙상블 구조까지 비교함으로써 각 잔기가 펼쳐진 정도를 확인함으로써 결과를 분석하는 단계를 포함한다. SASA를 사용하는 구현예에서, 일부 상기 구현예는 글리신 잔기(글리신의 경우)를 제외한 모든 잔기에 측쇄 표면적을 사용할 수 있고, 일부 구현예는 총 잔기 표면적(글리신의 경우 골격 표면적에 해당)을 사용할 수 있다.

단백질 데이터뱅크(PDB)(http://www.rcsb.org)에 포함된 Aβ 구조 및 발명자가 조사한 실증적 시스템 사이의 한 가지 차이점은 PDB 구조가 반드시 모든 사슬 잔기를 포함하지 않는다는 것이며; 이는 일부 잔기가 실증적으로 결정된 시스템에서 불규칙적이어서 신뢰할 수 있는 좌표가 PDB 구조의 일부로 기탁될 수 없기 때문이다. PDB ID 2LMN 및 PDB ID 2LMP에 상응하는 구조는 각 단량체에 대해 잔기 9-40만을 함유하고, 잔기 1-8로 이루어진 N-말단 영역을 결실하고, PDB 2MXU에 상응하는 구조는 각 단량체에 대해 잔기 11-42만을 함유하며, N-말단 잔기 1-10이 결실되어있다. PDB 2M4J는 각 단량체에 대해 40개 모든 잔기를 함유한다. 결실된 N-말단 영역을 갖는 PDB 구조에 대해, 일부 구현예는 무질서한 N-말단 영역이 PDB 구조에 명시적으로 첨가되는 시스템으로부터 최종 에피토프 예측을 하게 하는 단계를 포함할 수 있다. 무질서한 N-말단 꼬리의 존재는 나머지가 정렬된 단백질 또는 피브릴인 중합체의 입체 비-교차 엔트로피로 인해, 구조의 나머지 부분에 무질서한 말단 영역을 연결시키는 중합성 엔트로피 비용이 있기 때문에 잠재적으로 중요한 효과가 될 수 있다. 상기 이유로 N-말단이 없는 모델을 사용하는 2LMN의 N-말단 영역에 대한 예측은 다소 지나치게 강조될 수 있다.

도 5a, 5b 및 5c는 일부 구현예에서 블록(50)의 일부로서 사용될 수 있는 단백질 내의 에피토프를 동정하기 위해 시뮬레이션 결과를 분석하는 방법(100)을 개략적으로 도시한다. 도 5a, 도 5b 및 도 5c는 고려중인 단백질이 복수의 펩타이드 사슬을 포함하는 집합 구조인 경우 블록(50)의 일부로서 사용될 수 있는 방법(100)의 특정 예를 도시한다.

도 5a는 도 4b와 관련하여 기술된 상술된 과정의 일반화인 방법(100)의 일부분(102)를 도시한다. 방법(100)의 일부분(102)은 간결성을 위해 방법(102)으로 지칭될 수 있다. 도 5a의 방법(102)의 절차는 각각의 독립적인 시뮬레이션(즉, 각각의 런)에 대해 한번 수행될 수 있고, 각 수행 내에서 각 펩타이드에 대해 한 번 수행될 수 있다. 고려중인 단백질이 단일 사슬을 포함하는 경우, 방법(102)은 각각의 독립적인 런마다 한번 수행될 수 있음을 이해할 것이다. 도시된 구현예에서, 방법(102)은 시뮬레이션 루프(25)(도 1)에서 결정된 업데이트된 구조 모델들(32)로부터 도 4b의 아래쪽 9개의 플롯들에 도시된 매트릭스 유형을 얻는 방법을 설명한다. 도 4b가 특정 잔기 그룹(도 4b의 실시예에서 잔기 23-28)에 대한 ΔSASA 플롯의 매트릭스를 도시하고, 도 4b의 매트릭스가 다수의 독립적인 런 및 집합 구조내의 다수의 사슬에 걸쳐 있다는 것을 알 수 있다. 유사하게, 도 5a에 도시된 방법(102)은 복수의 잔기 그룹들 중에서 각 그룹에 대한 매트릭스의 생성을 초래할 수 있다. 일반적으로 이들 그룹은 서로 다른 크기(창 크기라고도 할 수 있음)를 가질 수 있다.

방법(102)은 블록(105)에서 시작하고, 이는 현재 수행 및 현재 사슬에서의 각 잔기에 대한 국부적인 펼침과정 표시(54)를 결정하는 단계를 포함한다. 상술한 바와 같이, 국부적 펼침과정 표시는 블록(25) 시뮬레이션 루프에서 결정된 업데이트된 구조 모델(32)에 기초하여 결정될 수 있다. 도 5a의 구현예의 방법(102)의 특별한 경우에, 사용되는 국부적인 펼침과정 표시는 일반성의 손실없이 ΔSASA이다. 그후, 방법(102)은 창 크기 파라미터를 초기화하는 단계를 포함하는 블록(110)으로 진행한다. 후속 반복들에서, 블록(110)은 창 크기 파라미터를 증가시키는 단계를 포함할 수 있다. 블록(110) 창 크기 파라미터는 방법(102)의 특정 반복에서 양의 ΔSASA가 존재하는지 여부를 결정하기 위해 고려되는 그룹의 크기(즉, 잔기의 수)를 나타낸다. 도 4b의 예에서, 고려되는 잔기는 6의 창 크기에 해당하는 잔기 23-28이었다. 이하에 보다 상세히 설명되는 바와 같이, 각 창 크기는 도 6에 도시된 파이어플롯 매트릭스의 행을 나타낼 수 있다.

그후 방법(102)은 블록(120)으로 진행하여, 현재의 펩타이드 사슬의 잔기 지수가 각 그룹이 현재의 창 크기와 동일한 잔기의 수를 갖는 다수의 그룹으로 분석된다. 블록(110) 창 크기가 더 큰, (소정의 잔기 지수를 갖는) 소정의 사슬에 대해, 블록(120) 그룹의 수는 더 적을 것이며, 그 반대도 마찬가지이다. 그후, 방법(102)은 블록(130)으로 진행하며, 이는 그룹 지수 카운터를 초기화(첫번째 반복) 또는 증가(후속 반복)한다. 그룹 지수 카운터는 또한 창 위치 또는 창 위치 지수로 지칭될 수 있다.

방법(102)은 블록(140)으로 진행하며, 블록(140)은 현재 그룹이 그룹 내의 모든 잔기에 대해 ΔSASA>0을 갖는지 여부에 대한 질의를 포함한다. 블록(140) 질의가 긍정이면, 방법(102)은 블록(150)으로 진행하여 블록(170)에서 종료하기 전에 긍정 결과가 현재 그룹에 대해 기록된다. 일부 구현예에서, 반드시는 아니지만, 상기 정보는 블록(105)에서 사용가능하므로, 블록(150)은 현재 그룹에 속하는 잔기의 ΔSASAs 및/또는 현재 그룹에 속하는 잔기의 ΔSASAs의 누적 합계를 기록하는 단계를 포함할 수 있다. 블록(140) 질의가 부정적이면, 방법(102)은 블록(160)으로 진행하고, 블록(170)에서 종료되기 전에 부정적인 결과가 현재 그룹에 대해 기록된다. 블록(170)은 현재 그룹이 현재 사슬의 마지막 그룹인지 여부에 대한 질의를 포함한다. 현재 그룹이 마지막 그룹이 아닌 경우, 방법(102)은 블록(130)으로 루프 백하며, 여기서 그룹 지수는 다른 반복을 위해 증가된다. 블록(170) 질의가 긍정이면, 그후 방법(102)은 현재 창 크기가 고려될 최대 창 크기인지 여부에 대한 질의를 포함하는 블록(180)으로 진행한다. 일부 구현예에서, 최대 창 크기는 12개 잔기로 설정된다. 일부 구현예에서, 이 최대 창 크기는 10개 잔기일 수 있다. 현재 창 크기가 최대 창 크기가 아닌 경우, 방법(102)은 블록(110)으로 루프 백하며, 여기서 창 크기는 다른 반복을 위해 증가된다.

현재 창 크기가 최대 창 크기라면, 방법(102)은 결론을 내리고, 이하에 보다 상세하게 기술되는 도 5b의 방법(202)으로 진행한다. 방법(102)의 결론에서, 방법(100)은 특정 사슬 및 특정 런에 대해, 그룹에 대한 펼침과정을 나타내는 국부적인 펼침과정 표시(54)를 나타내는 다양한 다른 크기의 다수의 잔기 그룹을 결정한다(예를 들어, 특정 일 구현예의 경우, 그룹 내의 모든 잔기에 대해 ΔSASA>0). 상기 기술한 바와 같이, 방법(102)은 고려중인 단백질의 각 사슬에 대해 한번 수행될 수 있고, 다양한 펩타이드 사슬 및 다양한 독립적인 시뮬레이션 런에 걸쳐 다양한 잔기 그룹에 대한 유사한 정보를 생성하기 위한 고려중인 단백질에 대한 각 시뮬레이션 런마다 한번 수행될 수 있다. 각 사슬 및 각 독립적인 런에 대해 방법(102)을 수행한 후에, 방법(102)은 복수의 잔기 그룹들 각각에 대해 도 4b에 도시된 것과 유사한 데이터의 매트릭스를 생성할 수 있고(즉, 다수의 사슬 및 다수의 런에 걸친 매트릭스), 각 복수의 잔기 그룹들에 대해, 및 국부적 펼침과정의 표시를 그룹이 나타내는지 여부를 식별할 수 있다는 것을 이해할 것이다.

각 수행 및 각 펩타이드 사슬에 대한 방법(102)의 실행의 결론에서, 방법(100)은 도 5b에 도시된 방법(100)의 일부분(202)으로 진행할 수 있다. 방법(100)의 일부분(202)은 간결성을 위해 방법(202)으로 지칭될 수 있다. 상기 기술한 바와 같이, 일부 구현예는 독립적인 시뮬레이션의 수에 대한 적어도 중요한 분율(f)이 바이어싱시에 그룹의 펼침과정(예를 들어, 노출 증가)의 하나 이상의 표시를 나타내는 단백질 잔기의 그룹(잠재적 후보 에피토프 예측치(52))을 고려할 수 있다. 위에서 논의된 바와 같이, 고려중인 단백질이 집합 구조인 경우, 주어진 시뮬레이션에서, 잔기의 그룹이 펼침과정(예를 들어, 노출)의 하나 이상의 표시를 나타내면, 잔기의 그룹이 잠재적 후보 에피토프로 간주될 수 있으며, 임의의 단량체(펩타이드 사슬 중 임의의 것)에 존재하며, 상기 에피토프는 시뮬레이션의 분율 g에서 확실하게 노출되는 것으로 밝혀졌다. 도 4b에 도시된 예시적인 잔기 그룹에서, 이는 독립적인 총 수행 수의 분율 g에 걸쳐 펩타이드 사슬 중 임의의 것에서 펼침과정의 표시를 나타내었는데, 도 4b의 사슬(A, B 및 C) 중 적어도 하나는 총 독립적 수행 횟수의 적어도 분율 g에서 고려중인 그룹에 대해 0보다 큰 ΔSASA를 나타냈다. 예시된 구현예에서, 방법(202)은 상기 임계 프로세스를 설명하고, 도 6의 "파이어플롯"에 예시된 데이터 유형을 얻는 방법을 기술한다.

방법(202)은 (첫번째 반복에서) 초기화하는 단계 및 (다른 반복들에서) 그룹 지수(index)을 증가시키는 단계를 포함하는 블록(210)에서 시작한다. 블록(210) 그룹 지수는 방법(102)에서 데이터가 얻어지는 잔기 그룹 중 하나를 지칭할 수 있다. 그 다음, 방법(202)은 수행 지수를 (첫번째 반복에서) 초기화하는 단계 및 (후속 반복에서) 증가하는 블록 220으로 진행한다. 블록(220) 수행 지수(run index)은 독립적 런들 중 특정 하나를 나타낼 수 있다. 그 후, 방법(202)은 블록(230)으로 진행하며, 상기 블록은 현재 수행 및 현재 그룹에 대해, 현재 그룹 내의 모든 잔기에 대해 ΔSASA>0을 갖는 적어도 하나의 사슬이 있는지 여부를 질의하는 단계를 포함한다. 이 블록(230) 질의는 블록(150)(도 5a)에 기록된 긍정의 결과를 갖는, 현재의 수행 및 현재의 그룹에 대해 적어도 하나의 사슬이 있는지 여부를 질의하는 것과 동일하다. 고려중인 단백질이 집합 구조가 아닌 경우, 블록(230) 질의는 현재 수행 및 현재 그룹에 대해 고려중인 단백질이 현재 그룹의 모든 잔기에 대해 ΔSASA>0인지 여부를 고려할 수 있다. 블록(230) 질의가 긍정이면, 방법(202)은 블록(250)에서 끝나기 전에 펼침과정 카운터를 증가시키는 단계를 포함하는 블록(240)으로 이동한다. 블록(230) 질의가 부정이면, 방법(202)은 펼침과정 카운터를 증가시키지 않으면서 블록(250)으로 직접 이동한다.

블록(250)은 현재의 수행이 마지막 수행인지 여부에 대한 질의를 포함한다. 그렇지 않다면, 방법(202)는 수행 지수가 다른 반복 이전에 증가되는 블록(220)으로 루프 백한다. 블록(250) 질의가 긍정이면, 방법(202)은 현재 잔기 그룹이 독립적인 런의 충분한 분율 f, g에서 잠재적 후보 에피토프로 표시되는지 여부에 대한 질의를 포함하는 블록(260)으로 진행한다. 이 분율 f, g는 구성가능한 파라미터일 수 있다. 본원의 다른 곳에서 논의된 바와 같이, 일부 구현예는 독립적인 시뮬레이션의 수에 대한 적어도 중요한 분율 f이 바이어싱때 그룹의 펼침과정의 하나 이상의 표시를 나타내는 단백질 잔기의 그룹(잠재적 후보 에피토프 예측(52)임)을 고려할 수 있다(예를 들어, 그룹 내의 모든 잔기에 대해 ΔSASA>0). 위에서 논의된 바와 같이, 고려중인 단백질이 집합체 구조인 경우, 주어진 시뮬레이션에서, 잔기의 그룹이 펩타이드 사슬 중 임의의 하나에서 펼침과정의 하나 이상의 표시를 나타내는 경우, 잔기의 그룹은 잠재적 후보 에피토프로 간주될 수 있으며(예를 들어, 그룹 내의 모든 잔기에 대해 ΔSASA>0), 상기 에피토프는 시뮬레이션의 분율 g에서 확실하게 노출되는 것으로 밝혀졌다. 블록(260) 질의가 부정이면, 방법(202)은 현재 그룹이 최종 그룹인지 여부에 대한 질의를 포함하는 블록(280)으로 진행한다. 블록(280) 질의가 부정인 경우, 방법(202)은 블록(210)으로 루프 백하고, 그룹 지수는 방법(202)의 다른 반복 전에 증가된다. 블록(260) 질의가 긍정이면, 현재 그룹은 잠재적 후보 에피토프인 것으로 고려될 수 있으며, 및 방법(202)은 블록(270)으로 진행한다.

블록(270)은 도 6의 "파이어플롯"에 도시된 유형의 데이터(누적된 국부적 펼침과정 표시(272))를 포함하는 데이터 구조를 생성하는 단계를 포함한다. 특정 그룹(즉, 방법(202)의 현재 그룹)에 대해 블록(270)은 그룹 내의 모든 잔기가 국부적인 펼침과정을 나타내는 국부적인 펼침과정 표시(54)를 나타내는 그룹의 모든 경우에 대해 조합된 국부적인 펼침과정 표시(272)를 누적시키는 단계를 포함할 수 있다. 예를 들어, 국부적 펼침과정 표시(54)가 ΔSASA인 경우, 블록(270)은 그룹내 각 잔기가 ΔSASA>0를 나타내는 그룹의 모든 경우에 대해, 조합된(예를 들어, 가산되거나 평균된) ΔSASA를 포함하는 조합된 국부적 펼침과정 표시(272)를 누적시키는 단계를 포함할 수 있다(방법(202)내 현재 그룹에 대해). 누적되거나 조합된 국부적인 펼침과정 표시(272)(그룹에 의해 지수됨)는 도 6의 파이어플롯에 도시된 데이터 구조를 제공하기 위해 사용되는 데이터의 유형이며, 이하에서 더 상세하게 설명된다. 특정 그룹에 대해, 생성된 블록(270) 데이터는 그룹 길이 또는 창 크기(즉, 그룹 내의 잔기 수) 및 그룹 잔기 기준과 함께 누적된 국부적인 펼침과정 표시(272)를 포함할 수 있다. 일부 구현예에서, 그룹 잔기 기준은 그룹의 중간 잔기를 포함할 수 있다. 일부 구현예에서, 그룹 내의 잔기의 수가 짝수인 경우, 그룹의 중간 바로 아래의 지수를 갖는 잔기가 그룹 잔기 기준으로 선택되는 경우의 관습이 채택된다. 일부 구현예에서, 그룹 잔기 기준을 할당하기 위해 상이한 관습이 채택될 수 있다. 예를 들어, 그룹에서 가장 낮은 지수를 가진 잔기가 그룹 잔기 기준으로 선택될 수 있는 경우 관습이 채택될 수 있다.

결국, 방법(202)은 (블록(260) NO 브랜치를 통해 또는 블록(270)을 통해) 블록(280)으로 진행한다. 블록(280) 질의가 긍정이면, 방법(202)이 완료된다.

상기 기술한 바와 같이, 방법(202)에 의해 생성된 데이터 구조는 도 6에 도시된 예시적인 파이어플롯과 같은 파이어플롯의 형태로 나타낼 수 있다. 도 6a 내지 도 6d는 PDB 구조 2MXU(도 6d)에 대한 예측에 덧붙여 본 개시 내용(도 6a 내지 도 6c)에서 고려된 3개의 예시적인 피브릴 계통(PDB 2M4J, 2LMN 및 2MXU)에 대한 에피토프 예측을 제공하는 몇개의 "파이어플롯"을 도시하며, 피브릴 말단 상의 2개의 캡 단량체가 펼쳐지도록 제약된다. 이 도 6d 제약은 긴 피브릴의 경우 존재하는 경계 조건을 모방한다. 도 6의 플롯의 X-축은 그룹 잔기 참조의 잔기 지수를 나타낸다. 방법(202)의 블록(270)과 관련하여 상술한 바와 같이, 일부 구현예들에서, 대응하는 잔기 그룹의 중심 잔기는 그룹 잔기 참조로 간주된다. 도 6 파이어플롯에 표시된 각 직사각형은 기본 잔기 그룹을 나타내는 그룹 잔기 참조이다. 도 6 플롯의 Y-축은 대응하는 그룹의 서열 길이(즉, 그룹 또는 잠재적 후보 에피토프의 잔기 수/창 크기)를 나타낸다. 도 6 플롯의 측면에 도시된 범례에 의해 지시된 바와 같이, 도 6 플롯의 그레이-스케일 음영은 동정된 그룹에 대한 누적된 국부적인 펼침과정 표시(272)를 나타낸다. 도시된 도 6 구현예의 경우, 이 누적된 국부적인 펼침과정 표시는 각 그룹의 잔기에 대한 ΔSASA의 합을 포함한다. 도 6 플롯은 모두 Q _c =0.71의 집합적 좌표 목표 값에 대해 보여준다. 에피토프 예측을 위해 Q _c 의 다른 값이 사용될 수 있으며 - 비슷한 결과를 얻는 경향이 있다(예를 들어, Q의 여러 값에서 "파이어플롯"을 보여주는 도 7 참조. 아래 두 패널은 Q의 같은 값에서 두개의 다른 평형 시간을 보여준다).

방법(202)(도 5b)의 실행 결론에서, 방법(100)은 도 5c에 도시된 방법(100)의 일부분(302)으로 진행할 수 있다. 방법(100)의 일부분(302)은 간결성을 위해 방법(302)으로 지칭될 수 있다. 방법(302)은 최종 후보 에피토프(52)(도 1)를 예측하기 위해 도 6 파이어플롯에 의해 표현된 형태의 데이터 구조를 이용하는 단계를 포함한다. 도 6에 도시된 파이어플롯의 경우, 최종 후보 에피토프(52)는 도 8 및 하기 표 1에 도시된다.

방법(302)은 창 크기를 (제1 반복에서) 최대 창 크기로 초기화하는 단계 및 후속 반복에서 창 크기를 감소시키는 단계를 포함하는 블록(310)에서 시작한다. 일부 구현예에서, 최대 창 크기는 길이가 12개 잔기 길이로 설정되며, 이는 방법(302)에 의해 예측된 후보 에피토프가 12개 잔기의 가능한 최대 길이를 가질 것을 의미한다. 일부 구현예에서, 최대 창 크기는 길이가 10개 잔기로 설정된다. 후보 에피토프가 10 또는 12개 잔기보다 길 수 있는 것으로 예상되거나 발견되면, 최대 창 크기는 적절하게 보다 큰 수로 설정될 수 있다. 방법(302)의 초반부에 창 크기를 최대 창 크기로 초기화하는 것은 방법(302)이 도 6 파이어플롯의 Y-축의 상단에서 그 탐색을 시작한다는 것을 의미한다. 블록(302) 후에, 방법(300)은 블록(320)으로 진행하며, 이는 방법(302)이 히트를 찾는 특정 창 크기에서 (즉, 도 6 파이어플롯의 가로 행에 걸쳐) 그룹 잔기 참조(도 6 파이어플롯의 직사각형)를 가로질러 스캔할 수 있게 하는 잔기 지수를 (첫번째 반복에서) 초기화하고, (이후 반복에서) 증가시키는 단계를 포함하며, 상기 그룹 잔기 참조는 0이 아닌 누적된 국부적인 펼침과정 표시를 갖는다.

블록(320)에서 잔기 지수를 초기화한 후, 방법(302)은 블록(330)으로 진행하며, 상기 블록(330)은 누적된 국부적인 펼침과정 표시(272)가 현재의 잔기 지수 및 현재 창 크기에 대해 0보다 큰지 여부에 대한 질의를 포함한다. 국부적 펼침과정 표시(54)가 ΔSASA인 특정 구현예에서, 블록(330) 질의는 누적된 ΔSASA가 현재의 잔기 지수 및 현재 창 크기에 대해 0보다 큰지 여부에 대한 질의를 포함할 수 있다. 긍정의 블록(330) 질의는 도 6 파이어플롯의 특정 행(창 크기) 및 열(잔기 지수)에서 직사각형의 존재에 대응한다. 도 6a에 도시된 파이어플롯 데이터 구조의 예시 경우를 고려하면, 창 크기 7 및 잔기 지수 26, 즉, (잔기 지수,크기)=(26,7)에 대한 제1 긍정의 블록(330) 질의가 발생할 것이다. 그룹 잔기 참조가 하부 그룹의 중간 잔기에 상응하는 관례(도 6에서 사용됨)에 대해, 이 긍정의 블록(330) 질의와 관련된 그룹(후보 에피토프)은 잔기 23-29를 포함한다.

블록(330) 질의가 긍정이면, 방법(302)은 블록(340)으로 진행하여, 블록(330)의 아래에 있는 잔기 그룹 "히트"가 확인되어, 방법(10)(도 1)에 의해 예측된 후보 에피토프(52)로서 기록된다. 도 6a의 예에서, 이 블록(340) 후보 에피토프(52)(즉, (잔기 지수,크기)=(26,7))는 표 1(하기)에 도시되어 있으며, 구조 2M4J에 대하여 도 8에 도시된 가장 긴 후보 에피토프 도 6a에서 고려된다.

방법(302)은 블록(340)에 기록된 후보 에피토프(52) 및 블록(340)에 기록된 후보 에피토프(52) 내에 있는 모든 하위-에피토프를 추가로 고려하여 제거하는 단계를 포함하는 블록(350)으로 진행한다. 도시된 도 6a 실시예의 경우, 블록(350)은 도 6a로부터 블록(340)(즉, (잔기 지수,크기)=(26,7)에서의 7개 잔기 에피토프)에 기록된 후보 에피토프(52)를 제거하는 단계를 포함할 수 있다.

블록(350)은 또한 블록(340) 후보 에피토프(52) 내에 있는 하위-에피토프를 제거하는 단계를 포함한다. 도 6a 파이어플롯의 경우에, (잔기 지수,크기)=(26,7)의 제1 블록(340) 후보 에피토프는 잔기 23, 24, 25, 26, 27, 28 및 29를 포함한다. 따라서, 블록(350)에서 제거될 (26,7)의 하위-에피토프는 (25,6) 및 (26,6)에 직사각형을 포함하며, 잔기 23, 24, 25, 26, 27, 28 및 24, 25, 26, 27, 28, 29에 각각 대응하며, (잔기 지수,크기)=(26,7)에 있는 제1 블록(340) 내에 있다. 제1 블록(340) 후보 에피토프(52)가 (잔기 지수,크기)=(26,7)에 있는 도 6a의 경우에 블록(350)의 일부로서 제거되는 다른 하위-에피토프는 (25,5), (26,5), (27,5), (24,4), (25,4), (26,4), (27,4), (23,2), (24,2), (25,2), (26,2), (27,2), (28,2), (23,1), (24,1), (25,1), (26,1), (27,1), (28,1) 및 (29,1)을 포함한다. 도 6a 파이어플롯에 대한 제1 블록(340) 후보 에피토프(52)에 대한 하위-에피토프(즉, 후보 에피토프(26,7))의 블록(350) 제거는 도 16 플롯(A)를 도 16 플롯(B)와 비교함으로써 도 16에 도시되어 있다. 이들 2개의 플롯을 비교하는 것은 (26,7)에서 블록(340) 후보 에피토프(52)의 크기와 동일한 염기 길이를 갖는 원추형 영역으로부터 하위-에피토프의 제거를 보여준다.

블록(350)에서 후보 에피토프(52) 및 하위-에피토프를 제거한 후, 방법(302)은 블록(360)으로 진행하며, 이는 현재 잔기 지수가 최종 잔기 지수(예를 들어, 도 6 파이어플롯의 행에서 마지막 잔기)인지 여부에 대한 질의를 포함한다. 블록(360) 질의가 부정이면, 그후 방법(302)은 블록(320)으로 루프 백하며, 여기서 잔기 지수는 다른 반복을 위해 증가된다. 블록(360) 질의가 긍정이면, 방법(302)은 블록(370)으로 진행하며, 이는 창 크기가 마지막 창 크기(예를 들어, 도 6 파이어플롯에서 고려되는 최하단 행)인지 여부에 대한 질의를 포함한다. 통상적으로, 방법(302)에서 고려해야할 가장 작은 창은 3이거나 길이의 잔기일 것이다. 블록(370) 질의가 부정이면, 방법(302)은 다른 반복(즉, 도 6 파이어플롯의 더 낮은 행에 대한 스캔)을 위해 창 크기가 감소되는 블록(310)으로 루프 백한다. 블록(370) 질의가 긍정이면, 그후 방법(302)은 종료되고, 블록(340) 후보 에피토프(52)는 도 1의 블록(50) 및 방법(10)에 의해 예측된 후보 에피토프(52)로서 출력된다.

상기 방법에 의해, 방법(302)은 그룹 잔기 기준이 0이 아닌 축적된 국부적인 펼침과정 표시(272)를 나타내는 직사각형을 찾는 도 6 파이어플롯의 상부로부터 한 행씩 아래로 스캐닝하는 단계를 포함한다. 각 블록(340) 후보 에피토프(52)의 결정에 의해, 후보 에피토프(52) 및 상응하는 하위-에피토프는 추가의 고려에서 제거된다. 상기 기술한 바와 같이, 도 16의 플롯(B)는 (26,7)에서의 제1 후보 에피토프(52) 및 그의 하위-에피토프를 제거한 후의 도 6a 파이어플롯을 도시한다. 방법(302)은 추가 후보 에피토프(52)에 대해 도 16의 파이어플롯(B)를 계속 관찰한다. 블록(330) 질의가 긍정인, 다음 후보 에피토프(52)는 (잔기 지수, 크기)=(27,6)이며, 도 16의 플롯(B)를 참조한다. 이 후보 에피토프(균등한 잔기 길이의 그룹에 대하여, 중심 바로 아래의 지수를 갖는 잔기가 그룹 잔기 기준으로서 선택되는 관례에 따라 잔기 25, 26, 27, 28, 29 및 30에 상응함)는 도 8 및 표 1에 도시되어 있다. 이 후보 에피토프(52) 및 그의 하위-에피토프의 제거는 도 16의 플롯(C)에 도시되어있다.

방법(302)은 추가의 후보 에피토프에 대해 도 16의 플롯(C) 스캐닝을 계속한다. 도 6 파이어플롯의 하단 데이터에서의 여러 이웃하는 그룹이 동일한 길이(예를 들어, 동일한 y-축 높이)를 갖는다면, 상기 각 그룹은 후보 에피토프 예측(52)으로서 선택될 수 있다. 도 6a 파이어플롯의 경우, 2개의 인접한 에피토프는 잔기 5-9 및 6-10에 상응하는 (잔기 지수,크기)=(7,5) 및 (8,5)에 존재한다. 이것은 본질적으로 잔기 5-10에 의해 한정된 전체 영역이 양호한 후보 에피토프(52)일 수 있음을 의미한다. 또한, 도 6a의 경우, 잔기 14-17 및 36-39를 포함하는 2개의 4-잔기 길이 에피토프가 나타난다. 다른 피브릴 계통에 대한 에피토프는 도 6 플롯과 다른 데이터 구조와 유사하게 구성될 수 있다. 도 8 및 표 1은 도 6 파이어플롯에 도시된 구조물에 대해 방법(10)에 의해 예측된 후보 에피토프(52)의 전체 목록을 나타낸다. 예측된 에피토프는 길이가 감소함에 따라 먼저 분류되며, 최단 예측은 3개 잔기이고, 잔기 지수 N-말단 내지 C-말단이다.

도 6a-6d의 파이어플롯에 대응하는 에피토프 예측은 각 Aβ 피브릴 형태론에 대해 표 1에서 이루어지며, 즉 기술된 방법들을 사용한 도 6a-6d에서의 파이어플롯의 분석을 사용하여 표 1에 열거된 에피토프를 생성한다.

(표 1) 도 6a-6d 파이어플롯에 도시되고, Q=0.71의 바이어스에 해당하는 구조에 대한 예측된 에피토프. 그들은 가장 긴 에피토프 예측으로부터 가장 짧은 에피토프 예측으로 순서가 정해진 후, N-말단에서 C-말단까지 동일한 길이의 에피토프에 대해 순서가 정해진다.

표 2는 본 발명자가 고려한 다수의 다른 구조에 대한 예측된 에피토프를 나타낸다.

(표 2) 발명자에 의해 고려된 다수의 다른 구조에 대한 예측된 에피토프.

도 7은 다양한 레벨의 바이어싱(예를 들어, 표적 집합적 좌표의 다양한 최종 레벨)에 대한 도 6과 유사한 파이어플롯을 도시하고, 도 7a는 Q=0.8을 도시하고, 도 7b는 Q=0.73을 도시하고, 도 7c는 Q=0.67을 도시하고, 도 7d는 Q=0.6을 도시하며), 각 플롯 위에 표시된 특정 최종 바이어싱 레벨(Q)을 보여준다. 도 7은 예측된 에피토프의 일반적인 구조가 바이어싱의 정도에 크게 의존하지 않는다는 것을 입증한다. 도 7d 및 도 7e는 최종 평형 시간이 에피토프 예측에 유의한 영향을 미치지 않는다는 것을 보여준다. 예를 들어, 16 ns의 평형화 후(도 7d), 잔기 8을 중심으로 하는 길이 4의 에피토프가 예측되고(DSGY), 20 ns 동안 평형화 후(도 7e), 잔기 8을 중심으로 하는 길이 5의 에피토프가 예측된다(HDSGY). 열 변동은 미래의 시간에서 하나의 잔기의 순서로 에피토프의 크기를 감소시키거나 증가시킬 수 있다. 마찬가지로, 16 ns 동안 평형화 후(도 7d), 잔기 26을 중심으로 하는 길이 7의 에피토프가 예측되고(DVGSNKG), 반면 20 ns 동안 평형화 후(도 7e), 길이 6의 2개의 에피토프가 예측되고, 하나는 잔기 25를 중심으로 하고(DVGSNK), 나머지는 잔기 27을 중심으로 한다(GSNKGA). 2개의 서로 다른 평형 시간에서의 예측은 강한 중첩을 가지며, 임의의 열 변동과 일치한다.

본원에 기술된 방법에 의해 예측된 후보 에피토프(52)는 실험적으로 고려되는 다양한 피브릴 모델에 대해 플롯될 수 있고, 나타나는 트렌드가 관찰된다(도 8 참조). 도 8의 분석은 이전에 실험적으로 지지된 여러 Aβ 에피토프를 산출한다. 대략 잔기 25-30을 포함하는 것으로 예측되는 강한 지속적인 에피토프가 있다. 이는 이 영역에 대한 이전의 예측과 일치하며, 문헌(N. R. Cashman, Oligomer-specific amyloid beta epitope and antibodies, 09 2011)을 참조한다. 도 8 및 표 1 및 2에 나타낸 후보 에피토프의 추가 검증은 2016년 7월 22일 출원된 미국 특허 출원번호 제62/365634호 및 2016년 9월 12일 출원된 제62/393615호에 기술되어있다.

본원에서 고려되는 단일 전장 구조인 2M4J의 경우, N-말단 영역은 대략 잔기 5-10 사이의 에피토프 예측으로서 나타난다. 고-친화성 다중클론 항체는 잔기 5-11로 구성된 영역으로 생성되었으며, 상기 항체는 또한 플라크에 결합하여 신경 병리를 감소시키는 것으로 관찰되었으며, 문헌(Fr

d

rique Bard, Robin Barbour, Catherine Cannon, Robert Carretto, Michael Fox, Dora Games, Teresa Guido, Kathleen Hoenow, Kang Hu, Kelly Johnson-Wood, Karen Khan, Dora Kholodenko, Celeste Lee, Mike Lee, Ruth Motter, Minh Nguyen, Amanda Reed, Dale Schenk, Pearl Tang, Nicki Vasquez, Peter Seubert, and Ted Yednock. Epitope and isotype specificities of antibodies to b-amyloid peptide for protection against Alzheimer's disease-like neuropathology. Proc . Natl . Acad . Sci. USA, 100(4):2023-2028, 2003)을 참조한다.

새로운 컨센서스-기반 에피토프는 도 8에서 나타나, 계통간에 상당히 일정하게 나타나며, 대략 잔기 13-18 또는 서열 HHQKLV로 구성된다. 이 에피토프는 원형화(circularization)되어 올리고머에 대한 구조적 선택성을 조사할 수 있다. 올리고머-특이적 선택성을 촉진시키기 위한 원형화에 부가하여, 에피토프는 단백질 스캐폴드에 이식되어 특정 형태의 에피토프를 제공할 수 있다. 단백질 스캐폴드는 단백질 구조와 관련하여 형태 안정화를 촉진한다. 상기 에피토프/스캐폴드는 구조-특이적 혈청 제제 및/또는 병리 형태의 에피토프에 대한 구조 특이성을 갖는 항체를 유도하는 면역원으로서 작용할 수 있다.

무질서 또는 노출의 척도(국부적인 펼침과정 표시(54))로서 SASA를 사용하는 것에 부가하여 또는 SASA를 사용하는 것의 대안으로서, 일부 구현예는 (고유 구조(22)의 접촉들 중에서) 접촉의 손실을 국부적인 펼침과정 표시(54)로서 고려하는 단계를 포함할 수 있다. 이 접근법에서, 바이어싱 시뮬레이션은 동일하지만 블록(50) 분석은 약간 다를 수 있다. 에피토프가 각 시뮬레이션에서 적어도 하나의 사슬에 대해 ΔSASAn 각각의 잔기를 증가시키는 것을 요구함으로써 후보 에피토프를 평가하는 대신에, 상기 구현예는 에피토프가 (고유 구조(22) 내의 접촉 중에서) 각 시뮬레이션에서 적어도 하나의 사슬에 대한 각 잔기에 대한 접촉를 감소시키도록 요구함으로써 후보 에피토프를 평가하는 단계를 포함할 수 있다. 실제로, 일부 구현예는 임계값을 설정하여 각 잔기가 (고유 구조(22)의 접촉들 중에서) 접촉의 수를 감소시킬뿐만 아니라 변화가 어떤 값, 전형적으로 ~0.5-1 접촉/원자보다 커야한다. 도 9는 다수의 단백질(도 9 열에 해당)의 각각에 대하여 SASA의 변화(상단 행)와 손실된 접촉 수(하단 행)를 기반으로 한 파이어플롯 비교를 보여준다. 2MXU에 대한 바이어싱 레벨은 상단 패널에서 Q=0.67이고, 하단 패널에서 Q=0.6임을 주목한다. Q를 사용하여 예측된 가장 긴 에피토프는 길이 9의 에피토프 AEDVGSNKG 및 2개의 길이 6의 에피토프 EVHHQK, VHHQKL이다. 이들은 특정 계통에 대한 표 1의 에피토프, 특히: DVGSNKG, EDVGSN, QKLVF, HHQK 및 AEDV와 잘 중첩된다.

본 발명자는 전체 수의 잔기의 부분 집합을 선택하고, N-말단 영역을 부가하지 않는 잠재적인 효과를 조사하였다. 일부 구현예에서, 시뮬레이션 파라미터는 기본적으로 양성 전하의 하나의 양성자 단위를 N-말단 잔기에 할당하지만, 전하-전하 반발은 N-말단 영역에서의 무질서를 강화시킬 수 있다. 도 14는 방법에 대한 다양한 개선점과 각 효과의 중요성을 비교한다. 특히 도 14 플롯은 하전되지 않은 N-말단을 갖는 구조(NH ₃ ⁺ 대신 NH₂, 중간 패널), 및 다시 부가된 N-말단 잔기 1-10을 갖는 구조(왼쪽 패널)의 경우 변형없이 PDB 구조(오른쪽 패널)에서 시작되는 파이어플롯을 도시한다. 위에서 설명한 바와 같이, 많은 분자 역학 시뮬레이션에서 N-말단의 기본 처리는 양성 전하를 띤 NH ₃ ⁺ 기이다. 상기 양전하는 사슬의 N-말단 사이에 추가적인 반발을 일으킬 것이며, 실제 시스템에서 말단은 다른 곳, 대략 10개 잔기 일찍 위치한다.

도 10은 초기 Q의 0.8로 바이어싱한 후 3배 대칭성 Aβ 구조 2M4J의 렌더링이다. (화살표 101, 103에 의해) 강조 표시된 영역은 도 4a에서 예측된 영역이다: 사슬 B에서, 측쇄(화살표 101)에 대하여 밝은 음영 리커리쉬(licorice) 렌더링에서 잔기 13 내지 19 및 측쇄(화살표 103)에 대하여 더 어두운 음영 리커리쉬 렌더링에서 잔기 25 내지 29. 더 강한 바이어싱(더 낮은 최종 Q)에서, 피브릴 단량체는 분리되어 열리기 시작한다(도 11 참조). 바이어싱에 우선적으로 노출된 잔기 12-17을 가질 것으로 예측되는 도 10의 사슬은 모두 2M4J 구조에서 3개의 층의 말단 층에 있다

구조 2M4J의 잔기 25 내지 29는 원래의 구조에서 2개의 β 시트 사이의 턴(trun)을 형성한다. 이 영역은 인접한 사슬의 N-말단 영역과의 접촉를 파괴함으로써 노출된다(도 10). 최종 타겟 집합적 좌표 바이어스 값은 피브릴을 파괴하기에 충분히 감소될 수 있다. 도 7은 최종 타겟 집합적 바이어싱 좌표에 대한 예측의 견고함을 도시한다. 도 11은 3배 구조를 0.8이 아니라 초기 Q의 0.6으로 바이어싱함으로써 단백질을 상당히 왜곡시키고, 인접 사슬의 C-말단과의 모든 접촉를 상실하는, 잔기 25-29의 턴의 상대 노출을 증가시킨다는 것을 보여준다. 그러나 이것은 역시 더 낮은 바이어싱 수준에서 예측된 에피토프이기 때문에 에피토프 예측을 변화시키지 않는다.

Aβ42 구조 2MXU는 말단 단량체와 중간 단량체의 차이점을 조사할 수 있는, 길이가 12개 단량체인 피브릴이다. PDB 구조에서 누락된 잔기 1 내지 10은 재구성되고 추가되었다. 본 발명자는 2MXU 구조의 말단 단량체가 도 12에서 볼 수 있는 중간 단량체를 훨씬 더 손상시키는 경향이 있다는 것을 발견했다. 도 12는 초기 Q의 0.8로 바이어싱한 후 Aβ42 구조 2MXU의 렌더링이며, 피브릴로부터 분리되는 말단 단량체를 나타낸다. 이것은 엔드-캡 무질서/단편화의 과정을 보여준다. 실제 피브릴은 이 시스템에서보다 많은 단량체로 구성될 수 있기 때문에, 이 문제는 일부 구현예에서 단부 상의 사슬(사슬 A 및 L)을 구속하고 바이어싱 시뮬레이션을 반복함으로써 해결되었다.

PDB 2LMN에 대한 초기 구조 상에 중첩된 무질서한 구조의 스냅샷이 도 13에 도시되어있다. 이 2-배 대칭 구조에 대하여, 본 발명자는 예측된 에피토프로 나타나고있는, 측쇄에 대한 리커리쉬 렌더링을 사용하여 잔기 11-16 및 25-28을 다시 관찰한다. 도 13은 초기 Q의 약 0.8로 바이어싱한 후 2-배 대칭 Aβ40 구조 2LMN의 렌더링을 나타낸다. 무질서한 구성은 초기 구성에 중첩된다. 강조표시된 측쇄를 갖는 영역은 J 및 K 사슬, 잔기 11 내지 16(어두운 음영, 105) 및 B, D, F, I 사슬, 잔기 25-28(밝은 음영, 107)에 해당한다.

본원에 기술된 방법은 단일-사슬 단백질에 적용될 수 있다. 일례의 실험에서, 본원에 기술된 방법을 금속이 없지만 시스테인 57과 146 사이에 이황화물 결합을 함유하는 슈퍼옥사이드 디스뮤타아제 1(SOD1)을 구성하는 시스템에 적용하였다. 단백질은 총 접촉 수에 대응하는 전역 좌표 상에서 바이어싱되었으며, 표적 집합적 좌표는 Q _c =0.65의 값으로 감소되었다. 그 후 단백질을 Q _c =0.65로 유지하고, 이어서 90ns 동안 평형시켰다. 스냅 샷은 20 ps마다 기록되었으며, 각 잔기에 대한 ΔSASA는 4500 구성의 이 앙상블에서 측정되었다. 파이어플롯의 기초가 되는 데이터 구조를 구축하기 위한 도 5에 설명된 절차(방법 102, 202)를 수행하여 도 17a를 얻었다. 도 5c의 절차(방법 302)에 따라, 파이어플롯 데이터 구조로부터 예측된 대응하는 에피토프를 표 3에 나타낸다. 이들 에피토프는 Q _c =0.65로 바이어싱된 앙상블로부터의 스냅 샷에 중첩된 도 17b의 어두운 음영으로 도시되어있다.

(표 3) SOD1에서 본원에 기술된 방법을 구현하기 위한 후보 에피토프.

도 15는 특정 구현예에 따라 본원에 기술된 방법들 중 임의의 방법 및 본원에 기술된 방법들 중 임의의 단계들을 실시하는데 사용될 수 있는 시스템(500)의 개략도이다. 도시된 구현예의 시스템(500)은 프로세서(504)에 액세스가능한 적당한 소프트웨어(명시적으로 열거되지 않음)를 차례로 실행할 수 있는 하나 이상의 프로세서(504)를 포함할 수 있는 하나 이상의 컴퓨터(502)를 포함한다. 상기 소프트웨어가 컴퓨터(502)(및 특히 프로세서(504))에 의해 실시되는 경우, 컴퓨터(502) 및/또는 프로세서(504)는 본원에 기술된 방법들 중 임의의 방법 및 본원에 기술된 임의의 방법의 단계들을 수행할 수 있다. 예시된 구현예에서, 컴퓨터(502)는 사용자(506)와의 상호작용을 위한 선택적 사용자 인터페이스(510)을 제공한다. 하드웨어 관점에서, 사용자 인터페이스(510)는 사용자(506)가 정보를 컴퓨터(502)에 입력할 수 있는 하나 이상의 입력 장치(508) 및 정보가 사용자(506)에게 출력될 수 있는 하나 이상의 출력 장치(512)를 포함한다. 일반적으로, 입력 장치(508) 및 출력 장치(512)는 도 15의 도시된 구현예에 도시된 장치에 제한되지 않는다. 일반적으로, 입력 장치(508) 및 출력 장치(512)는 컴퓨터(502)와 상호작용하기에 적당한 임의의 적당한 입력 및/또는 출력 장치를 포함할 수 있다. 사용자 인터페이스(510)는 또한 상기 소프트웨어가 컴퓨터(502) 및/또는 그의 프로세서(504)에 의해 실행될 때 소프트웨어에 의해 부분적으로 제공될 수 있다. 도시된 구현예에서, 컴퓨터(502)는 또한, 액세스가능한 메모리 장치(518) 상의 데이터와 접속하기 위해 (및/또는 데이터를 저장하기 위해) 연결된다. 도시된 구현예에서, 컴퓨터(502)는 또한 통신 인터페이스(514)에 의해 LAN 및/또는 WAN 네트워크(516)에 연결되어, 네트워크된 장치(도시되지 않음)로부터의 데이터 액세스, 및/또는 네트워크화된 장치로의 데이터의 통신을 가능하게 한다.

입력은 임의의 입력 장치(508)에 의한, 액세스가능한 메모리(518)로부터, 네트워크(516)로부터, 또는 임의의 다른 적당한 입력 메카니즘을 제한없이 포함하는 임의의 입력 메카니즘을 통해 컴퓨터(502)에 의해 수득될 수 있다. 출력들은 임의의 출력 장치(512)에 의한, 액세스가능한 메모리(518)로부터, 네트워크(516)에, 또는 임의의 다른 적당한 출력 메카니즘을 제한없이 포함하는 임의의 출력 메카니즘을 통해 컴퓨터(502)로부터 출력될 수 있다. 상기 기술한 바와 같이, 도 15는 본 명세서에 기술된 방법을 구현하기에 적합한 컴퓨터-기반 시스템(500)의 특정 구현예의 주요 개략적인 도면이다. 적합한 시스템은 도 15의 개략도에 도시된 특정 유형으로 제한되지 않으며, 적당한 구성 엘리먼트(예를 들어, 입력 및 출력 장치)는 도 15의 개략도에 도시된 것으로 제한되지 않는다.

본원에 설명된 방법은 하나 이상의 프로세서 및/또는 하나 이상의 적합한 프로세서를 포함하는 컴퓨터에 의해 구현될 수 있으며, 이는 일부 구현예에서는 적당한 컴퓨터 시스템의 컴포넌트를 포함할 수 있다. 비-제한적인 예로서, 상기 프로세서는 컴퓨터-기반 자동 계약 평가 시스템의 일부를 포함할 수 있다. 일반적으로, 상기 프로세서는 임의의 적당한 프로세서, 예컨대 예를 들어, 적당하게 구성된 컴퓨터, 마이크로프로세서, 마이크로컨트롤러, 디지털 신호 프로세서, 필드-프로그래머블 게이트 어레이(FPGA), 다른 유형의 프로그램가능한 논리 장치, 상기 기술한 다수, 상기의 조합 및/또는 기타 등을 포함할 수 있다. 상기 프로세서는 프로세서에 액세스가능한 컴퓨터-판독가능 메모리 및/또는 프로세서에 필수적인 컴퓨터-판독가능 메모리에 저장될 수 있는 소프트웨어에 액세스할 수 있다. 프로세서는 상기 소프트웨어 명령을 판독 및 실행하도록 구성될 수 있으며, 프로세서에 의해 실행될 때, 상기 소프트웨어는 프로세서로 인해 본원에 기술된 기능들 중 일부를 구현하게할 수 있다.

본 발명의 특정 구현예는 프로세서로 인해 컨트롤러를 구현하고 및/또는 본 발명의 방법을 수행하게 하는 소프트웨어 명령을 실행하는 컴퓨터 프로세서를 포함한다. 예를 들어, 컴퓨터 시스템의 하나 이상의 프로세서는 프로세서에 액세스가능한 프로그램 메모리로부터 검색된 소프트웨어 명령을 실행함으로써 본원에 기술된 컨트롤러 및/또는 방법에서 데이터 처리 단계를 구현할 수 있다. 본 발명은 또한 프로그램 제품의 형태로 제공될 수 있다. 프로그램 제품은 데이터 프로세서에 의해 실행될 때 데이터 프로세서로 인해 컨트롤러를 구현하고 및/또는 본 발명의 방법을 실행하게 하는 명령을 포함하는 컴퓨터-판독가능 신호 세트를 운반하는 임의의 매체를 포함할 수 있다. 본 발명에 따른 프로그램 제품은 매우 다양한 형태 중 임의의 형태일 수 있다. 프로그램 제품은 예를 들어 물리적(비-일시적) 매체, 예컨대 플로피 디스켓을 포함하는 자기 데이터 저장 매체, 하드 디스크 드라이브, CD ROM, DVD를 포함하는 광학 데이터 저장 매체, ROM을 포함하는 전자 데이터 저장 매체, 플래시 RAM 등을 포함할 수 있다. 설명서는 암호화된 형식 및/또는 압축된 형식으로 프로그램 제품에 존재할 수 있다.

컴포넌트(예를 들어, 소프트웨어 모듈, 컨트롤러, 프로세서, 어셈블리, 디바이스, 컴포넌트, 회로 등)가 상기 언급된 경우, 달리 지시되지 않는 한, 그 컴포넌트에 대한 언급("수단"에 대한 언급 포함)은 도시된 예시적인 구현예에서 기능을 실시하는 개시된 구조와 구조적으로 균등하지 않은 컴포넌트를 포함하여, 기술된 컴포넌트의 기능을 실시하는(즉, 기능적으로 균등한) 임의의 컴포넌트를 해당 컴포넌트의 등가물로서 포함하는 것으로서 해석되어야한다.

용어 해석

문맥이 달리 명확히 요구하지 않는 한, 상세한 설명 및 청구범위에 걸쳐:

서로 다른 방향으로 및/또는 공간 및/또는 각도로 서로 오프셋될 수 있으며;

ㆍ "포함하다", "포함하는" 등은 배타적인 또는 철저한 의미와는 반대되는 포괄적인 의미; 말하자면, "포함하지만, 이에 제한되지 않음"의 의미로 해석되어야 하며;

ㆍ "연결된", "결합된" 또는 그의 임의의 변형은 둘 이상의 엘리먼트들 간의 직접 또는 간접적인 임의의 연결 또는 결합을 의미하며; 엘리먼트들 간의 결합 또는 연결은 물리적, 논리적 또는 이들의 조합일 수 있으며; 일체로 형성된 엘리먼트는 연결되거나 결합되는 것으로 간주될 수 있으며;

ㆍ 본 명세서에 기술하기 위해 사용될때 "본원에", "상기", "이하에" 및 이와 유사한 용어는 본 명세서 전체를 언급할 것이며, 본 명세서의 임의의 특정 일부분을 언급하지 않으며;

ㆍ 2개 이상의 항목 목록과 관련하여 "또는"은 다음과 같은 단어 해석을 모두 포함하며: 목록의 임의의 항목, 목록의 모든 항목 및 목록의 항목의 임의의 조합;

ㆍ 단수 형태는 또한, 임의의 적당한 복수형의 의미를 포함한다.

본 발명의 구현예는 특별히 설계된 하드웨어, 구성가능한 하드웨어, 본원에 상세히 설명된 방법의 하나 이상의 단계 및/또는 이들 중 둘 이상의 조합을 수행하도록 구체적으로 프로그래밍, 구성 또는 구축된 데이터 프로세서, 특수 목적 컴퓨터 또는 데이터 프로세서상에서 실행될 수 있는 소프트웨어(임의로 "펌웨어"를 포함할 수 있음)를 제공함으로써 구성되는 프로그램가능 데이터 프로세서를 사용하여 구현될 수 있다. 특별히 설계된 하드웨어의 예는: 논리 회로, 주문형 집적 회로("ASIC"), 대규모 집적 회로("LSI"), 초대형 집적 회로("VLSI") 등이다. 구성가능한 하드웨어의 예는: 프로그래머블 어레이 로직("PAL"), 프로그래머블 로직 어레이("PLA") 및 필드 프로그래머블 게이트 어레이("FPGA")와 같은 하나 이상의 프로그래머블 로직 디바이스이다. 프로그래머블 데이터 프로세서의 예는: 마이크로 프로세서, 디지털 신호 프로세서("DSP"), 내장 프로세서, 그래픽 프로세서, 수학 코-프로세서, 범용 컴퓨터, 서버 컴퓨터, 클라우드 컴퓨터, 메인프레임 컴퓨터, 컴퓨터 워크스테이션 등이다. 예를 들어, 장치를 위한 컴퓨터 시스템 내의 하나 이상의 데이터 프로세서는 프로세서에 액세스가능한 프로그램 메모리에서 소프트웨어 명령을 실행함으로써 본원에 기술된 방법을 구현할 수 있다.

프로세싱은 중앙화되거나 분산될 수 있다. 프로세싱이 분산되는 경우, 소프트웨어 및/또는 데이터를 포함하는 정보는 중앙집중식으로 유지되거나 분산될 수 있다. 상기 정보는 근거리 통신망(LAN), 광역 통신망(WAN), 또는 인터넷, 유선 또는 무선 데이터 링크, 전자기 신호 또는 다른 데이터 통신 채널과 같은 통신 네트워크를 통해 상이한 기능 유닛들간에 교환될 수 있다.

예를 들어, 프로세스들 또는 블록들이 주어진 순서로 제공되는 동안, 대안적인 예들은 단계들을 갖는 루틴을 수행하거나, 블록들을 갖는 시스템을 상이한 순서로 수행할 수 있으며, 일부 프로세스들 또는 블록들은 삭제, 이동, 추가, 서브분할, 조합 및/또는 수정되어, 대안 또는 하위조합을 제공할 수 있다. 이들 프로세스들 또는 블록들 각각은 다양한 상이한 방식들로 구현될 수 있다. 또한, 프로세스 또는 블록이 때때로 직렬로 실시되는 것으로 도시되어 있지만, 상기 프로세스 또는 블록은 대신에 병렬로 수행되거나, 상이한 시간에 수행될 수도 있다.

또한, 엘리먼트는 순차적으로 실시되는 것으로 도시되어 있지만, 대신에 동시에 또는 상이한 순서로 수행될 수 있다. 따라서, 이하의 청구범위는 의도된 범위 내에 있는 상기 모든 변형을 포함하는 것으로 해석되는 것으로 의도된다.

본 발명의 구현예들은 또한 프로그램 제품의 형태로 제공될 수 있다. 프로그램 제품은 데이터 프로세서에 의해 실행될 때 데이터 프로세서로 인해 본 발명의 방법을 실행하게 하는 컴퓨터-판독가능 명령 세트를 운반하는 임의의 비-일시적인 매체를 포함할 수 있다. 본 발명에 따른 프로그램 제품은 다양한 형태 중 임의의 형태일 수 있다. 프로그램 제품은 예를 들어, 플로피 디스켓을 포함하는 자기 데이터 저장 매체, 하드 디스크 드라이브, CD ROM, DVD를 포함하는 광학 데이터 저장 매체, ROM을 포함하는 전자 데이터 저장 매체, 플래시 RAM, EPROM, 하드와이어드 또는 사전 프로그램된 칩들(예를 들어, EEPROM 반도체 칩들), 나노기술 메모리 등과 같은 비-일시적 매체를 포함할 수 있다. 프로그램 제품상의 컴퓨터-판독가능 신호는 선택적으로 압축되거나 암호화될 수 있다.

일부 구현예에서, 본 발명은 소프트웨어로 구현될 수 있다. 보다 명확하게 하기 위해, "소프트웨어"는 프로세서상에서 실행되는 임의의 명령어를 포함하며, 펌웨어, 상주 소프트웨어, 마이크로코드 등을 포함할 수 있다(그러나 이에 한정되는 것은 아니다). 프로세싱 하드웨어 및 소프트웨어 모두는 당업자에게 공지된 바와 같이 전체적으로 또는 부분적으로 중앙 집중화되거나 분산(또는 이들의 조합)될 수 있다. 예를 들어, 소프트웨어 및 다른 모듈은 로컬 메모리를 통해, 네트워크를 통해, 분산 컴퓨팅 환경에서 브라우저 또는 다른 애플리케이션을 통해, 또는 상기 기술된 목적에 적당한 다른 수단을 통해 액세스가능할 수 있다.

컴포넌트(예를 들어, 소프트웨어 모듈, 프로세서, 어셈블리, 디바이스, 회로 등)가 상기 언급된 경우, 달리 지시되지 않는 한, 그 컴포넌트에 대한 언급("수단"에 대한 언급 포함)은 본 발명의 도시된 예시적인 구현예에서 기능을 실시하는 개시된 구조와 구조적으로 균등하지 않은 컴포넌트를 포함하여, 기술된 컴포넌트의 기능을 실시하는(즉, 기능적으로 균등한) 임의의 컴포넌트를 해당 컴포넌트의 등가물로서 포함하는 것으로서 해석되어야한다.

데이터베이스의 레코드, 필드, 엔트리 및/또는 다른 엘리먼트가 상기 언급되는 경우, 달리 지시되지 않는 한, 상기 언급은 복수의 레코드, 필드, 엔트리 및/또는 다른 엘리먼트를 포함하는 것으로 적당하게 해석되어야 한다. 상기 언급은 하나 이상의 레코드, 필드, 엔트리 및/또는 다른 엘리먼트의 일부분을 포함하는 것으로 적당하게 해석되어야 한다. 예를 들어, 데이터베이스 내의 복수의 "물리적" 레코드(즉, 데이터베이스의 구조로 코딩된 레코드)는 복수의 물리적 레코드가 논리적 레코드에서 제외된 정보를 포함하더라도 상기 상세한 설명 및 이하의 청구범위의 목적을 위한 하나의 "논리적" 레코드로 간주될 수 있다.

시스템, 방법 및 장치의 특정 예가 본 설명의 목적으로 본원에 기술되었다. 이것들은 단지 예일뿐이다. 본 명세서에 제공된 기술은 상기 기술한 예시 시스템 이외의 시스템에 적용될 수 있다. 본 발명의 실시 내에서 많은 변경, 수정, 추가, 생략 및 치환이 가능하다. 본 발명은 특징, 엘리먼트 및/또는 동작을 균등한 특징, 엘리먼트 및/또는 동작으로 대체함으로써; 상이한 구현예들로부터의 특징들, 엘리먼트들 및/또는 동작들을 혼합 및 매칭함으로써; 본원에 기술된 구현예로부터의 특징, 엘리먼트 및/또는 동작을 다른 기술의 특징, 엘리먼트 및/또는 동작과 조합함으로써; 및/또는 기술된 구현예들로부터 특징, 엘리먼트 및/또는 동작을 조합하는 것을 생략함으로써, 획득되는 변형을 포함하는, 당업자에게 분명한 기술된 구현예들에 대한 변형을 포함한다.

다수의 예시적인 양태들 및 구현예들이 상기에서 설명되었지만, 당업자들은 특정 변형, 치환, 부가 및 서브-조합을 인식할 것이다. 예를 들어:

ㆍ일부 구현예에서, 고려중인 단백질은 고유 접촉를 사용하기보다는 용매-접근가능성 표면적(SASA)을 사용함으로써 고유 구조를 잃도록 바이어싱될 수 있다.

ㆍ일부 구현예에서, 바이어싱 결과를 분석하는 단계(예를 들어, 블록(50))는 일단 표면적(SASA)의 증가 또는 손실의 대안에 추가하여 또는 그 대안으로서 일단 바이어싱된 다이나믹스에서 가장 중요한 증가를 갖는 영역을 측정하는 단계를 포함할 수 있으며, 영역이 구조적으로 붕괴되어 있고, 비-고유 상호작용에 참여하기 쉬운 영역을 나타낼 수도 있다. 증가된 역학의 상기 측정의 예는 아미노산의 평균 제곱근 변동(RMSF)을 포함할 수 있다.

ㆍ일부 구현예는 바이어싱때 특정 아미노산 서열의 포텐셜 에너지 손실의 직접적인 계산 측정을 포함하며, 바이어싱때 구조적 변화를 위한 프록시로서 작용할 수 있다.

ㆍ일부 구현예는 고유 구조의 골격 수소 결합 중에서 손실된 골격 수소 결합의 측정을 포함할 수 있으며, 바이어싱에 대한 집합적 좌표 또는 국부적 펼침과정의 후속 표시(예를 들어, 고유 구조의 국부적 손실)로서 작용할 수 있다.

ㆍ상기 기술한 구현예는 바이어스의 적용시 단백질 구조의 변화를 시뮬레이션하기 위해 분자 역학 엔진을 사용한다. 일부 구현예에서, 몬테 카를로 다이내믹 엔진은 분자 역학 엔진에 추가로 또는 대안으로 사용될 수 있다. 분자 역학 엔진 및 몬테 카를로 역학 엔진 중 하나 또는 둘다는 본 명세서에서 단백질 또는 집합된 피브릴 구조에 대한 형태 샘플링 엔진으로 지칭될 수 있다.

ㆍ일부 구현예에서, 고려중인 단백질은 고유 SASA에 대한 SASA 또는 고유 접촉 중에서 접촉의 수와 같은 순서 파라미터에 기초한 바이어스 포텐셜을 인가하는 것에 추가로 또는 대안으로 메타 다이나믹스를 사용함으로써 고유 구조를 잃도록 바이어싱될 수 있다.

특정 비-제한적인 예시적인 구현예의 단계들 및 방법들의 세부사항을 도시하는 의사 코드(pseudocode)가 이하에 설명된다:

방법 102, 202에 대응하는 의사 코드(도 5a 및 도 5b)

% ΔSASA 결정/기록

각 수행(run)에 대해, 1 <수행< Nruns % Nruns는 일반적으로 10으로 설정됨

각 사슬에 대해, 1 < 사슬 < Nchains % 시뮬레이션된 피브릴의 사슬 수

각 res에 대해, 1 < r < Nres

< SASA >(res, run, chain)를 계산한다 % 각 수행에서, 각 사슬의 각 잔기 res에 대한 ΔSASA는 용매 접근가능성 표면적의 변화이며, <..>는 시스템을 위한 구성의 스냅 샷에 대한 평형 평균을 나타낸다. 전형적인 100ns 시뮬레이션의 20 ps마다 스냅 샷은 100ns/20ps=5000 스냅샷을 제공한다. 이 양은 이후 평형 평균으로 이해되므로, <ΔSASA> ≡ ΔSASA가 된다.

res에 대하여 종료

사슬에 대하여 종료

각 수행 마다 별도의 데이터 파일에 ΔSASA를 쓴다; % 형식은 2열이다: 첫 번째 열=res, 두 번째 열은 ΔSASA이다. 사슬 j의 위치, 파일의 잔기 k는 행 Nres*j+k에 의해 주어진다. % 각 파일은 여러 사슬을 포함함

수행 종료 % ΔSASA 종료 결정/기록

% 모든 수행으로부터의 모든 데이터 파일을 입력으로 읽어들인 후, ΔSASA는 크기가 3D 직사각형인 매트릭스임(Nrun x Nchain x Nres)

% 각 창 위치 wp, 창 크기 ws에 대한 ΔSASA 값으로 구성된 파이어플롯에 대해 새 매트릭스 DSASAwindowed를 정의한다.

DSASAwindowed(wp , ws )= 0 all wp , ws % 여기서 wp는 창 위치 1 < wp < Nres(여기서 루프 값은 이 위치의 하위집합에 할당됨)이고, ws는 이하에 정의된 창 크기 1 < ws < wsmax이다.

% DSASAwindowed의 크기는 Nres x wsmax이며; 이하의 루프는 1:Nres로부터 수행되지 않으며; 이하의 루프 외부의 엘리먼트는 절대로 0에서 변경되지 않는다.

% 최대 창 크기 wsmax를 추측한다; 전형적으로 약 12개의 아미노산/잔기이다. 최대 창 크기에는 0개의 "히트"가 있을 것이다. 즉, 이하에 정의된 대로 0이 성공한다. 이것은 본 발명에서 생산되는 파이어플롯의 피크보다 위에 있는 창 크기로 종결하는 것을 의미한다.

fmin = the minimum fraction for success을 설정한다. % 이것은 국부적인 펼침과정을 확률적으로 확증하지 않기 위한 기회에 의해 몇 번 수행을 허용한다. 본 발명자들은 일반적으로 Nruns=10 수행을 구현하기 때문에 이 값을 0.9로 취했으므로, 10회 중 9회 이상 런하면 국부적인 펼침과정 "히트"가 발생해야 하며, 국부적인 펼침과정 "히트"는 창에서의 모든 잔기들에 대한 SASA 노출이 증가한다는 것을 의미한다.

% "파이어플롯" 데이터 구조를 구축한다

% 루프 아래로의 입력은 ΔSASA(res, run, chain), 크기 배열(Nres x Nrun x Nchain)

window size ws = 1: wsmax의 경우 % 예를 들어 창 크기가 wsmax일 때까지 증가하며; wsmax는 총 사슬 길이 Nres이거나 표면 영역의 증가를 나타내는 임의의 인접한 스트랜드보다 큰 것으로 예상되는 창 크기일 수 있으며; 실제로 wsmax는 12로 설정될 수 있다)

% 이하에 정의된 빌드(Build)_파이어플롯 함수를 구현하면, 창 중심 위치 = wp

DSASAwindowed (:, ws ) = Build-fireplot function( ΔSASA (res, run, chain), ws, fmin); % 빌드_파이어플롯 함수는 길이 Nres의 벡터를 반환하고, 2D 어레이를 이 벡터로 채운다.

창 크기에 대한 종료

DSASAwindowed(wp, ws)를 파일에 쓴다 % 각 단백질 또는 피브릴 모델에 대해 파일에 쓰여진 Nres x wsmax의 어레이

% 상기 루프로부터의 출력은 고유 단백질 또는 피브릴 모델에 대한 크기 Nres x wsmax의 배열인 DSASAwindowed(wp, ws)이다.

% 상기 의사 코드에서 빌드_파이어플롯 함수 호출:

Build_fireplot function를 시작한다 % 상기 루프에서 상기 루프내 함수(ΔSASA(res, run, chain), ws, fmin)가 다음과 같이 정의된다.

DSASAwindowed( :, ws )=0; % 출력 DSASAwindowed를 Nres 0의 벡터로 초기화한다.

count(:,:)=0; % 이것은 크기 Nres x Nrun의 1과 0의 Boolean 매트릭스로, 빌드_파이어플롯 함수 내에서만 사용되어 fmin 기준을 체크한다

run = 1:Nruns의 경우 % 도 4b의 예에서 Nruns=3 및 Nchains=3

window centre position wp = wpmin: wpmax %(여기서 wpmin=round(ws/2)는 주어진 창 크기 ws에 대한 초기 창 위치이다. 예를 들어, ws가 7이면 wpmin은 4이며, 3.5 직후의 정수로 정의되며, 반면, ws=6인 경우, wpmin=3; wpmax = Nres-(ws-wpmin))

chain = 1:Nchains의 경우

if((wp,ws)로 정의된 창의 모든 res에 대해), ΔSASA (res, run, chain) > 0,

% 도 4b에서 (런, 사슬) = (1,2),(2,1),(3,2) 및 (3,3)에 대해 진실인 경우,

그때

DSASAwindowed(wp , ws ) = Δ SASA( res, run, chain)의 크기 ws의 창에서 res에 대한 합계;

count( wp,run )=1;

ΔSASA>0 인 경우 종료

사슬에 대하여 종료

wp에 대하여 종료 % 임의의 히트에 대해 주어진 하나의 수행에서 모든 위치의 모든 사슬을 체크했다.

수행에 대하여 종료 % DSASAwindowed(wp,ws)는 이제 사슬을 통해 합쳐졌고 수행도 끝났으며, 즉 도 4b에서, 4개의 패널로부터의 SASA, (run, chain)=(1,2),(2,1),(3,2) 및 (3,3)이 모두 합산된다. 도 4b에서, 적어도 하나의 사슬에 대해 매 수행마다 히트가 있었기 때문에, 도시된 창 위치에서의 count(wp,run)는 [1 1 1]의 벡터이다.

% 해당 DSASA(wp, ws0)=0으로 설정되지 않았다면, 수행 횟수가 fmin 분율 요구사항을 만족하는지(9/10 런에 count=1이 표시되는지) 체크한다.

starting_element=floor((1- fmin )* Nruns )+1; % 에피토프가 나타나야 하는 수행 횟수를 설정하는 배열 시작 엘리먼트. fmin=0.9 및 Nruns=10의 경우, 여기서는 시작_엘리먼트=2이고, 에피토프는 엘리먼트 2 내지 10에 나타나야한다.

wp=1:Nres의 경우

countsort= sort(count( wp ,:)) % count(wp,:)는 길이 Nruns가 1과 0인 벡터이며, 예를 들어, [1 1 0 0 1 1 0 1 1 1]; sort(count(wp,:))는 이것을 [0 0 0 1 1 1 1 1 1 1]로 바꾸며; 0은 에피토프 예측이 없음을 나타내며(즉, 세그먼트(wp, ws) 내의 모든 잔기가 SASA를 증가시키지 않음), 1은 에피토프가 예측된 것을 나타낸다(즉, 세그먼트(wp, ws) 내의 모든 잔기가 증가된 SASA를 가짐).

(any( countsort (starting_element:end) == 0))의 경우 % (첫번째 (시작_엘리먼트-1)이 상황(시작_엘리먼트-1이 예측을 놓칠 수 있음을 의미)을 수행하고; countsort 매트릭스의 남은 엘리먼트(즉, countsort(ss:end))의 경우, 임의의 엘리먼트가 0(ss-1 이상의 수행은 예측을 놓친 것임을 의미)인 경우, 본 발명자는 해당 DSASAwindowed(wp,ws)=0으로 설정할 것이다:

DSASAwindowed ( wp,ws )=0; % DSASAwindowed에서 0 엘리먼트는 매트릭스가 해당 위치의 에피토프를 예측하지 못한다는 것을 의미한다. 이 지점에서 이 매트릭스에 SASA의 0이 아닌 합계가 있더라도, 수행 임계값 기준에 도달하지 않으면 그 값은 0으로 재설정된다.

종료인 경우

wp의 경우 종료

DSASAwindowed(wp, ws)로 복귀; % DSASAwindowed(:,ws0)로 복귀한다.

Build_fireplot function 종료한다

방법(302)(도 5c)에 대응하는 의사 코드

% 파이어플롯 데이터 구조를 사용하여 후보 에피토프를 예측한다

% (위로부터의) 입력은 DSASAwindowedTotal(wp,ws), 즉 파이어플롯에 있는 데이터이다.

ws = wmax -1:3의 경우 % 창 크기를 그의 최대 값(예를 들어, 도 6a의 wsmax=11)으로부터 최소 3으로 감소시킨다. 본 발명자들은 길이 3 이상의 에피토프를 고려한다. 이것은 임의적이며, 4로 감소될 수 있다. 에피토프 길이가 짧을수록 그것은 더 일반적으로 프로테옴(proteome)에 나타날 것이며, 오프-경로 표적을 겪을 가능성이 커진다. 3의 길이를 취하는 것은 에피토프가 단백질 내에서 잘 정의된 표적을 제공하기에 충분히 짧지만, 서열 동일성 및 형태의 관점에서 프로테옴 내에서 비교적 고유할만큼 충분히 길다.

wp =1:Nres의 경우

( wp가 히트임 )인 경우 % 즉, 창 위치 wp에 대해 DSASAwindowedTotal (wp,ws)> 0의 값이 있는 경우.

에피토프(wp , ws ) 를 기록한다 % 예를 들어, 도 6a에서 1차 히트는 (wp=26 ws=7) 또는 위치 26에 중심을 둔 길이 7의 에피토프에 대응할 것이며: [23 24 25 26 27 28 29]; 따라서 잔기 23-29는 표 1에서 2M4J에 대해 가장 긴 에피토프이며, DVGSNKG에 상응하는 2M4J에 대해 도 8에서 가장 긴 수평 상자로 표현된다.

문제의 에피토프 내에 있는 모든 하위- 에피토프를 제거하면

% 도 6a의 파이어플롯에서 하기 좌표의 직사각형을 제거하는 것과 같다: 제거(26,7)

% 그 다음 (25,6) 및 (26,6)(이들은 길이 7 에피토프 내의 모든 하위-에피토프, 즉 23-28 및 24-29를 만든다)

% 그 다음 (25,5)(26,5)(27,5)(이들은 모두 길이 7 에피토프 내에 있는 하위-에피토프를 만든다)

% 그 다음 (24,4)(25,4)(26,4)(27,4)

% 그 다음 (24,3)(25,3)(26,3)(27,3)(28,3)

% 그 다음 (23,2)(24,2)(25,2)(26,2)(27,2)(28,2)

% 그다음 마지막으로 (23,1)(24,1)(25,1)(26,1)(27,1)(28,1)(29,1)

% 대응하는 "제거된 콘(ablated cone)"이 있는 플롯은 도 16에서 (A)→(B)로부터의 전환에서 있다. 본 발명자는 길이 4의 에피토프까지 절제 과정을 계속할 때, 더 많은 에피토프, 가능하게는 중복되는 것을 발견한다.

wp가 히트인 경우 종료

wp인 경우 종료

ws인 경우 종료

% 도 6a에서, 2M4J는 1차 제거 후, - 다음에 발명자가 남기는 가장 큰 에피토프는 (27,6) 또는 에피토프[25 26 27 28 29 30]이다(표 1의 잔기 25-30, 이는 1차 에피토프와 중첩된다)

% 본 발명자들은 도 16(B) →(C)의 전환으로부터 해당 콘이 제거된 것을 볼 수 있다.

% 본 발명자들은 3의 에피토프 길이까지 및 이를 포함하는 제거 과정을 반복한다.

% 결과는 길이가 3 이상인 에피토프 예측 세트이다.

% 상기 에피토프는 표 1 및 도 8에 제공된다.

Claims

단백질에서 하나 이상의 후보 에피토프의 컴퓨터-기반 예측을 위한 방법으로서, 상기 방법은:
컴퓨터-시스템 상에 형태 샘플링(conformational sampling) 엔진을 제공하는 단계;
상기 컴퓨터 시스템에서, 상기 형태 샘플링 엔진과 함께 사용하기에 적합한 단백질 모델을 획득하는 단계로서, 상기 얻어진 단백질 모델은 고유 구조를 포함하는 단계;
상기 컴퓨터 시스템에 의해 집합적 좌표 바이어스를 상기 단백질 모델에 적용하는 단계로서, 집합적 좌표 바이어스는 상기 형태 샘플링 엔진으로 인해 상기 단백질 모델을 그의 고유 구조로부터 업데이트된 구조로 적어도 부분적으로 펼쳐지도록 차례로 강제하고, 상기 집합적 좌표 바이어스는 상기 단백질 모델의 적어도 실질적인 일부분에 전역적으로 적용되며, 상기 단백질 모델의 실질적인 일부분에서 펼침과정(unfolding)이 일어나는 부분에 대해 공평해지는 단계;
하나 이상의 후보 에피토프를 동정하기 위해 상기 업데이트된 구조를 상기 컴퓨터 시스템에 의해 분석하는 단계로서, 상기 하나 이상의 후보 에피토프가 국부적인 펼침과정의 표시를 나타내는 단계
를 포함하는, 방법.
청구항 1 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질 모델을 획득하는 단계는 상기 단백질 모델의 데이터베이스로부터 상기 단백질 모델을 획득하는 단계를 포함하는, 방법.
청구항 1 또는 2 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질 모델을 획득하는 단계는 상기 단백질 모델에 대한 제1 구조를 획득하는 단계 및 그후, 상기 컴퓨터 시스템에 의해 상기 단백질 모델에 대한 제1 구조를 변형시켜 단백질 모델의 고유 구조를 생성하는 단계를 포함하는, 방법.
청구항 3 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질 모델에 대한 제1 구조를 변형시켜 단백질 모델의 고유 구조를 생성하는 단계는 상기 단백질 모델 상에서 평형화 시뮬레이션을 상기 컴퓨터 시스템에 의해 실시하는 단계로서, 상기 평형화 시뮬레이션이 제1 구조와 함께 시작하는 단계, 및 제1 구조를 변형시켜 고유 구조를 생성시키는 단계를 포함하는, 방법.
청구항 4 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질 모델 상에서 평형화 시뮬레이션을 실시하는 단계는 일정 수의 입자, 일정한 압력 및 일정한 온도 중 하나 이상에 의해 특징화된 모델 환경으로 상기 제1 구조를 갖는 단백질 모델을 적용시키는 단계를 포함하는, 방법.
청구항 3 내지 5 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질 모델에 대한 제1 구조를 변형시켜 단백질 모델에 대한 고유 구조를 생성시키는 단계는 하나 이상의 누락 잔기를 제1 구조에 부가하여, 고유 구조를 생성시키는 단계로서, 상기 고유 구조는 전장(full length) 일차 서열에 대응하는, 단계를 포함하는, 방법.
청구항 1 내지 6 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질 모델에 집합적 좌표 바이어스를 적용시키는 단계는 상기 컴퓨터 시스템에 의해 복수의 시간 단계에 걸쳐 상기 단백질 모델에 대한 이산 시간 시뮬레이션을 실시하는 단계로서, 상기 이산 시간(discrete time) 시뮬레이션은 상기 단백질 모델에 대한 고유 구조로 시작하고, 복수의 시간 단계들 중 각각의 특정 시간 단계에서 특정 시간 단계에 대한 상기 단백질 모델에 대하여 대응하는 업데이트 된 구조를 생성하는 단계를 포함하는, 방법.
청구항 7 또는 본원의 임의의 다른 청구항에 있어서, 상기 복수의 시간 단계에 걸쳐 상기 단백질 모델에 대한 상기 이산 시간 시뮬레이션을 실시하는 단계는, 상기 형태 샘플링 엔진으로 인해 상기 단백질 모델의 구조적 변화를 강제하도록 하는 단계로서, 상기 구조적 변화는 복수의 시간 단계에 걸쳐 표적 집합적 좌표를 추적하기 위해 상기 단백질 모델에 대한 상기 업데이트된 구조로부터 결정된 실제 집합적 좌표를 요구함으로써 결정되는 단계를 포함하는, 방법.
청구항 8 또는 본원의 임의의 다른 청구항에 있어서, 상기 복수의 시간 단계에 걸쳐 표적 집합적 좌표를 추적하기 위해 상기 단백질에 대한 상기 업데이트된 구조로부터 결정된 실제 집합적 좌표를 요구하는 단계는 상기 복수의 시간 단계 중 각 특정 시간 단계에서, 특정 시간 단계에 대한 표적 집합적 좌표를 추적하기 위해 특정 시간 단계에서 상기 단백질에 대한 업데이트된 구조로부터 결정된 실제 집합적 좌표를 요구하는 단계를 포함하는, 방법.
청구항 8 또는 9 또는 본원의 임의의 다른 청구항에 있어서, 상기 복수의 시간 단계에 걸쳐 표적 집합적 좌표를 추적하기 위해 특정 시간 단계에서 상기 단백질에 대한 업데이트된 구조로부터 결정된 실제 집합적 좌표를 요구하는 단계는 상기 컴퓨터 시스템에 의해, 포텐셜 에너지 함수를 최소화하는 단계로서, 상기 포텐셜 에너지 함수는 단백질 모델의 임의의 구조에 대한 실제 집합적 좌표와 표적 집합적 좌표 사이의 차이를 나타내는 측정기준(metric)에 따라, 적어도 부분적으로 좌우되는 단계를 포함하는, 방법.
청구항 10 또는 본원의 임의의 다른 청구항에 있어서, 상기 포텐셜 에너지 함수를 최소화하는 단계는 상기 복수의 시간 단계 중에서 각 특정 시간 단계에서의 포텐셜 에너지 함수를 최소화하는 단계를 포함하는, 방법.
청구항 10 또는 11 또는 본원의 임의의 다른 청구항에 있어서, 상기 포텐셜 에너지 함수는 하기 식의 형태를 포함하는 방법:

상기 식에서, Q _c (t)는 표적 집합적 좌표이고, Q는 단백질 모델의 임의의 구조에 대한 실제 집합적 좌표이며, k는 설정가능한 상수이다.
청구항 10 내지 12 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 상기 포텐셜 에너지 함수는 상기 단백질 모델에 내재되거나, 또는 연관된 분자 역학적 힘에 의존하는, 방법.
청구항 10 내지 13 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 상기 포텐셜 에너지 함수를 최소화하는 단계는 상기 단백질 모델에 내재되거나, 또는 연관된 분자 역학적 힘에 기초하여 부여된 제약으로 적용되는 상기 포텐셜 에너지 함수를 최소화하는 단계를 포함하는, 방법.
청구항 8 또는 9 또는 본원의 임의의 다른 청구항에 있어서, 상기 복수의 시간 단계에 걸쳐 표적 집합적 좌표를 추적하기 위해 단백질에 대한 업데이트된 구조로부터 결정된 실제 집합적 좌표를 요구하는 단계는 상기 컴퓨터 시스템에 의해, 포텐셜 에너지 함수에 적용되는 단백질 모델의 자유 에너지를 최소화하는 단계로서, 상기 포텐셜 에너지 함수는 단백질 모델의 임의의 구조에 대한 실제 집합적 좌표와 표적 집합적 좌표 사이의 차이를 나타내는 측정기준에 따라, 적어도 부분적으로 좌우되는 단계를 포함하는, 방법.
청구항 8 내지 15 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 상기 이산 시간 시뮬레이션의 복수의 시간 단계에 걸쳐, 상기 표적 집합적 좌표는 고유 구조와 관련된 실제 집합적 좌표의 값과 동일한 초기 표적 집합적 좌표 값에서 시작하고, 제1 하위-복수(sub-plurality)의 시간 단계에 걸쳐 최종 표적 집합적 좌표 값으로 변경한 후 제2 복수의 시간 단계에 대한 최종 표적 집합적 좌표 값에 머무는, 방법.
청구항 16 또는 본원의 임의의 다른 청구항에 있어서, 상기 이산 시간 시뮬레이션의 복수의 시간 단계에 걸쳐, 상기 표적 집합적 좌표는 시간이 경과함에 따라 완만하게 변화하는, 방법.
청구항 16 또는 본원의 임의의 다른 청구항에 있어서, 상기 표적 집합적 좌표는 초기 표적 집합적 좌표 값과 최종 표적 집합적 좌표 값 사이에서 시간이 경과함에 따라 일정한 속도로 변화하는, 방법.
청구항 8 내지 18 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질 모델에 대한 임의의 업데이트된 구조에 대하여 결정된 실제 집합적 좌표는 상기 단백질 모델의 실질적 일부분의 고유 구조와 관련하여(relative to) 단백질 모델의 실질적인 일부분의 업데이트된 구조의 전역적 펼침과정을 표시하는 측정기준을 포함하는, 방법.
청구항 19 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질 모델에 대한 임의의 업데이트된 구조에 대하여 결정된 실제 집합적 좌표는 상기 단백질 모델의 실질적인 일부분의 고유 구조에 있는 중원자들(heavy atoms) 사이의 접촉(contacts) 중에서, 상기 단백질 모델의 실질적인 일부분의 업데이트된 구조 내의 중원자들 사이의 접촉 수에 적어도 부분적으로 기초하는, 방법.
청구항 19 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질 모델에 대한 임의의 업데이트된 구조에 대하여 결정된 실제 집합적 좌표는 상기 단백질 모델의 실질적인 일부분의 고유 구조에 있는 중원자들 사이의 접촉 중에서, 상기 단백질 모델의 실질적인 일부분의 업데이트된 구조 내의 중원자들 사이의 접촉 수를 근사화하는 접촉 함수에 적어도 부분적으로 기초하는, 방법.
청구항 21 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질 모델의 실질적인 일부분의 고유 구조의 접촉들로부터의 각각의 접촉에 대해, 상기 접촉 함수는 하기 형태를 갖는 방법:

상기 식에서, r _ij 는 단백질 모델에서 원자 i와 j의 핵 사이의 거리이며, r ₀ , n 및 m은 적당하게 선택된 상수이다.
청구항 19 내지 22 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질 모델에 대한 임의의 업데이트된 구조에 대해 결정된 실제 집합적 좌표는 상기 단백질 모델의 실질적인 일부분의 고유 구조에 있는 수소원자들 사이의 접촉들 중에서 단백질 모델의 실질적인 일부분의 업데이트된 구조 내의 수소원자들 사이의 접촉 수에 적어도 부분적으로 기초하는, 방법.
청구항 19 내지 23 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질 모델에 대한 임의의 업데이트된 구조에 대해 결정된 실제 집합적 좌표는 상기 단백질 모델의 실질적인 일부분의 고유 구조에 있는 중원자들 사이의 거리와 관련하여, 상기 단백질 모델의 실질적인 일부분의 업데이트된 구조 내의 중원자들 사이의 거리에 적어도 부분적으로 기초하는, 방법.
청구항 19 내지 24 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질 모델에 대한 임의의 업데이트된 구조에 대해 결정된 실제 집합적 좌표는 상기 단백질 모델의 실질적인 일부분의 고유 구조의 평균 제곱근 구조 편차(root mean squared structural deviation, RMSD)와 관련하여, 상기 단백질 모델의 실질적인 일부분의 업데이트된 구조내의 RMSD에 적어도 부분적으로 기초하며, 상기 RMSD는 상기 단백질 모델의 실질적인 일부분의 알파 탄소 원자 및 단백질 모델의 실질적인 일부분의 중원자 중 적어도 하나의 위치를 통해 특징지워지는, 방법.
청구항 19 내지 25 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질 모델에 대한 임의의 업데이트된 구조에 대해 결정된 실제 집합적 좌표는 상기 단백질 모델의 실질적인 일부분의 고유 구조의 용매 접근가능성 표면적(solvent accessible surface area, SASA)와 관련하여 상기 단백질 모델의 실질적인 일부분의 업데이트된 구조의 총 SASA에 적어도 부분적으로 기초하는, 방법.
청구항 19 내지 26 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질 모델에 대한 임의의 업데이트된 구조에 대해 결정된 실제 집합적 좌표는 상기 단백질 모델의 실질적인 일부분의 고유 구조내의 골격 수소결합으로부터 상기 단백질 모델의 실질적인 일부분의 업데이트된 구조내의 골격 수소결합의 수에 적어도 부분적으로 기초하는, 방법.
청구항 19 내지 27 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질 모델에 대한 임의의 업데이트된 구조에 대해 결정된 실제 집합적 좌표는 상기 단백질 모델의 실질적인 일부분의 고유 구조의 회전운동 반경(radius of gyration)와 관련하여 상기 단백질 모델의 실질적인 일부분의 업데이트된 구조의 회전운동 반경에 적어도 부분적으로 기초하는, 방법.
청구항 19 내지 28 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질 모델에 대한 임의의 업데이트된 구조에 대해 결정된 실제 집합적 좌표는 상기 단백질 모델의 실질적인 일부분의 고유 구조의 구조적 중첩 함수와 관련하여 상기 단백질 모델의 실질적인 일부분의 업데이트된 구조의 구조적 중첩 함수에 적어도 부분적으로 기초하는, 방법.
청구항 19 내지 29 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질 모델에 대한 임의의 업데이트된 구조에 대해 결정된 실제 집합적 좌표는 상기 단백질 모델의 실질적인 일부분의 고유 구조로부터 단백질 모델의 실질적인 일부분의 업데이트된 구조의 일반화된 유클리디안 거리에 적어도 부분적으로 기초하는, 방법.
청구항 1 내지 30 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 하나 이상의 독립적인 수행(runs)에서 상기 단백질 모델에 상기 집합적 좌표 바이어스를 적용하는 단계를 반복하는 단계를 포함하는, 방법.
청구항 31 또는 본원의 임의의 다른 청구항에 있어서, 복수의 독립적인 수행에서 단백질 모델에 상기 집합적 좌표 바이어스를 적용하는 단계를 반복하는 단계를 포함하는, 방법.
청구항 31 또는 32 또는 본원의 임의의 다른 청구항에 있어서, 각각의 수행의 경우, 상기 컴퓨터 시스템에 의해, 그리고 상기 단백질 모델에 대한 업데이트된 구조 내의 복수의 잔기 중에서 각 잔기에 대해, 상기 잔기에서 단백질의 펼침과정을 나타내는 측정기준을 제공하는 국부적 펼침과정 지표를 측정하는 단계를 포함하는, 방법.
청구항 33 또는 본원의 임의의 다른 청구항에 있어서, 상기 컴퓨터 시스템에 의해, 수행에 의해 및 잔기에 의해 지수(index)된 매트릭스 데이터 구조를 생성하는 단계를 포함하며, 상기 매트릭스 데이터 구조는 각 수행 및 상기 복수의 잔기로부터의 각 잔기에 대해, 대응하는 국부적 펼침과정 지표를 위한 값을 포함하는, 방법.
청구항 33 또는 34 또는 본원의 임의의 다른 청구항에 있어서, 복수의 잔기들로부터 각 수행 및 각 잔기에 대하여, 단백질 모델에 대한 복수의 업데이트된 구조들에 대한 평균에 기초한 국부적 펼침과정 지표를 결정하는 단계를 포함하는, 방법.
청구항 35 또는 본원의 임의의 다른 청구항에 있어서, 복수의 잔기들로부터 각 수행 및 각 잔기에 대하여, 상기 적용된 집합적 좌표 바이어스가 평균이 측정되는 동안, 복수의 업데이트된 구조들에 대하여 일정한 것인, 방법.
청구항 33 내지 36 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질 모델에 대한 업데이트된 구조내 복수의 잔기들로부터 각 수행 및 각 잔기에 대해, 상기 국부적인 펼침과정 지표는 상기 단백질 모델의 고유 구조에 있는 잔기에 대한 용매 접근가능성 표면적(SASA)와 관련하여 상기 단백질 모델의 업데이트된 구조내의 잔기에 대한 SASA의 변화에 적어도 부분적으로 기초하는, 방법.
청구항 33 내지 37 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질 모델에 대한 업데이트된 구조내 복수의 잔기들로부터 각 수행 및 각 잔기에 대해, 상기 국부적인 펼침과정 지표는 상기 단백질 모델의 고유 구조에 있는 잔기에 대한 원자들 사이의 복수의 접촉 중에서, 상기 단백질 모델의 업데이트된 구조 모델내 잔기에 대한 원자들 사이의 상실된 접촉 수에 적어도 부분적으로 기초하는, 방법.
청구항 33 내지 38 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질 모델에 대한 업데이트된 구조내 복수의 잔기들로부터 각 수행 및 각 잔기에 대해, 상기 국부적인 펼침과정 지표는 상기 단백질 모델에 대한 고유 구조를 위한 잔기의 평균 제곱근 변동(RMSF)와 관련하여 상기 단백질 모델의 업데이트된 구조 모델에 대한 잔기의 RMSF에 적어도 부분적으로 기초하는, 방법.
청구항 33 내지 39 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질 모델에 대한 업데이트된 구조내 복수의 잔기들로부터 각 수행 및 각 잔기에 대해, 상기 국부적인 펼침과정 지표는 상기 단백질 모델에 대한 고유 구조의 잔기내 복수의 수소결합으로부터 단백질 모델의 업데이트된 구조 모델의 잔기내 상실된 골격 수소 결합의 수에 적어도 부분적으로 기초하는, 방법.
청구항 33 내지 40 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질 모델에 대한 업데이트된 구조내 복수의 잔기들로부터 각 수행 및 각 잔기에 대해, 상기 국부적인 펼침과정 지표는 상기 단백질 모델에 대한 고유 구조내의 잔기에 대한 상호작용의 포텐셜 에너지와 관련하여 상기 단백질 모델의 업데이트된 구조 모델내의 잔기에 대한 상호작용의 포텐셜 에너지에 적어도 부분적으로 기초하는, 방법.
청구항 33 내지 41 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 각 수행에 대해, 상기 하나 이상의 후보 에피토프를 동정하기 위해 상기 업데이트된 구조를 분석하는 단계는 상기 컴퓨터 시스템에 의해 상기 단백질 모델에 대한 상기 업데이트된 구조를 복수의 잔기 그룹으로 문장 분석(parsing)하는 단계, 및 각 그룹의 경우, 그룹에 대한 국부적 펼침과정 표시를 상기 컴퓨터 시스템에 의해 그룹 펼침과정 평가에 적용하는 단계를 포함하며, 상기 그룹 펼침과정 평가는 그룹 내의 잔기의 적당한 임계 분율보다 많거나 전체가 펼침과정을 나타내는 국부적인 펼침과정 표시를 갖는 경우, 상기 그룹에 대한 긍정적인 펼침과정 평가 결과를 보상(returning)하는, 방법.
청구항 42 또는 본원의 임의의 다른 청구항에 있어서, 임의의 하나의 국부적 지표가 펼침과정을 나타내는지 여부를 평가하는 단계는, 상기 컴퓨터 시스템에 의해, 상기 하나의 국부적인 지표를 임계화 과정에 적용하는 단계를 포함하는, 방법
청구항 42 또는 43 또는 본원의 임의의 다른 청구항에 있어서, 상기 복수의 그룹은 다양한 창 크기를 포함하고, 특정 그룹의 창 크기는 상기 특정 그룹 내의 잔기 수를 지칭하는, 방법
청구항 42 내지 44 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 상기 복수의 그룹 중 일부가 공통 잔기를 포함하는, 방법.
청구항 42 내지 45 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 상기 복수의 그룹은 복수의 그룹 세트를 포함하며, 상기 그룹의 각 세트는 공통 창 크기를 가지며, 상기 그룹의 각 세트는 상기 복수의 잔기내 모든 잔기들을 포함하는, 방법.
청구항 42 내지 46 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질 모델에 대한 업데이트 된 구조에서의 복수의 잔기로부터 각 수행 및 각 잔기에 대해, 상기 국부적 펼침과정 지표는 상기 단백질 모델의 고유 구조에 있는 잔기에 대한 용매 접근가능성 표면적(SASA)와 관련하여 상기 단백질 모델의 업데이트된 구조내의 잔기에 대한 SASA의 변화에 적어도 부분적으로 기초하고, 상기 그룹에 대한 국부적인 펼침과정 지표를 그룹 펼침과정 평가에 적용하는 단계는, 상기 그룹내 잔기의 적당한 임계 분율보다 크거나 또는 전체가 0보다 큰 SASA의 변화(ΔSASA> 0)를 갖는 경우, 상기 그룹에 대한 긍정적인 결과를 보상하는 단계를 포함하는, 방법.
청구항 42 내지 47 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 총 수행 횟수의 임계 분율(f)보다 크거나 같은 수행 횟수에 대해 긍정적인 펼침과정 평가 결과를 나타내는 잔기 그룹을 상기 컴퓨터 시스템에 의해 결정하는 단계에 기초하여, 복수의 잔기 그룹의 각각에 대해, 상기 컴퓨터 시스템에 의해, 잔기의 그룹을 잠재적 후보 에피토프로 간주하는 단계를 포함하는, 방법.
청구항 48 또는 본원의 임의의 다른 청구항에 있어서, 각 잠재적 후보 에피토프에 대해, 상기 잠재적 후보 에피토프에 대응하는 잔기의 그룹에서의 잔기에 대한 국부적인 펼침과정 표시를 누적하는 단계를 포함하는, 방법.
청구항 49 또는 본원의 임의의 다른 청구항에 있어서, 상기 잔기 그룹 내의 잔기에 대한 국부적인 펼침과정 표시를 누적하는 단계가 모든 수행에 걸쳐 실시되는, 방법.
청구항 49 또는 50 또는 본원의 임의의 다른 청구항에 있어서, 각 잠재적 후보 에피토프에 대한 상기 누적된 국부적인 펼침과정 표시는 상기 잠재적 후보 에피토프의 강도를 나타내는, 방법.
청구항 48 내지 51 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 상기 컴퓨터 시스템에 의해, 창 크기 및 그룹 잔기 기준에 의해 지수화된 매트릭스 데이터 구조를 생성하는 단계를 포함하고, 상기 매트릭스 데이터 구조 내의 각 엔트리는 잠재적 후보 에피토프, 잠재적 후보 에피토프를 구성하는 잔기 및 선택적으로 잠재적 후보 에피토프를 구성하는 잔기에 대한 누적된 국부적인 펼침과정 표시를 포함하는, 방법.
청구항 48 내지 52 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 잠재적 후보 에피토프 중에서 제1 후보 에피토프를 동정하는 단계를 포함하고, 상기 제1 후보 에피토프를 동정하는 단계는, 가장 큰 창 크기를 갖는 잠재적 후보 에피토프를 제1 후보 에피토프로 선택하는 단계를 포함하는, 방법.
청구항 53 또는 본원의 임의의 다른 청구항에 있어서, 상기 제1 후보 에피토프를 동정한 후, 상기 잠재적 후보 에피토프 중에서 상기 제1 후보 에피토프 및 상기 제1 에피토프의 하위-에피토프를 제거하여, 후보 에피토프로서의 추가 고려를 위하여 잠재적 후보 에피토프의 감소된 세트를 얻는 단계를 포함하며, 상기 제1 에피토프의 하위-에피토프는 제1 후보 에피토프보다 작고 제1 후보 에피토프에도 또한 포함된 잔기만을 포함하는 에피토프 그룹을 포함하는, 방법.
청구항 54 또는 본원의 임의의 다른 청구항에 있어서, 잠재적 후보 에피토프의 감소된 세트에서 가장 큰 창 크기가 임계 최소 크기보다 작거나 같아질 때까지,
다음을 반복하는 단계를 포함하는, 방법:
상기 잠재적 후보 에피토프의 감소된 세트 중에서 다음 후보 에피토프를 동정하는 단계로서, 상기 다음 후보 에피토프를 동정하는 단계는 상기 잠재적 후보 에피토프의 감소된 세트에서 가장 큰 창 크기를 갖는 잠재적 후보 에피토프를 다음 후보 에피토프로 선택하는 단계를 포함하는 단계; 및
상기 잠재적 후보 에피토프의 감소된 세트 중에서 다음 후보 에피토프 및 다음 후보 에피토프의 하위-에피토프를 제거하는 단계로서, 상기 다음 에피토프의 하위-에피토프는 다음 후보 에피토프보다 작고 다음 후보 에피토프에 포함되는 잔기만을 포함하는 에피토프 그룹을 포함하는 단계.
.
청구항 1 내지 55 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질이 집합 구조이고, 상기 고유 구조가 상기 집합된 구조의 펩타이드 사슬에 의해 나타나는 고유 구조를 포함하는, 방법.
청구항 33 내지 41 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질이 집합된 구조이고, 상기 고유 구조가 집합된 구조의 펩타이드 사슬에 의해 나타나는 고유 구조를 포함하며, 각 수행에 대해, 상기 하나 이상의 후보 에피토프를 동정하기 위해 상기 업데이트된 구조를 분석하는 단계는, 상기 컴퓨터 시스템에 의해, 상기 단백질 모델에 대한 상기 업데이트된 구조를 복수의 잔기 그룹으로 문장 분석하는 단계, 및 각 그룹에 대해 컴퓨터 시스템에 의해 그룹에 대한 국부적인 펼침과정 표시를 그룹 펼침과정 평가에 적용하는 단계를 포함하며, 상기 그룹 펼침과정 평가는, 그룹 내의 잔기의 적당한 임계 분율보다 크거나 또는 전체가 집합된 구조내 임의의 펩타이드 사슬에 대한 펼침과정을 나타내는 국부적인 펼침과정 표시를 갖는 경우 상기 그룹에 대한 긍정적인 펼침과정 평가 결과를 보상하는, 방법.
청구항 57 또는 본원의 임의의 다른 청구항에 있어서, 청구항 43 내지 55 중 어느 한 항의 임의의 특징들, 특징들의 조합 또는 특징들의 하위-조합을 포함하는, 방법.
청구항 1 내지 55 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질이 추정의 접힌 구조(putative folded structure)를 갖는 단일 사슬 폴리펩타이드인, 방법.
청구항 1 내지 59 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질 모델의 실질적인 일부분은 모든 단백질 모델을 포함하는, 방법.
청구항 1 내지 60 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질 모델의 실질적인 일부분은 경계 구조를 제외하고 모든 단백질 모델을 포함하는, 방법.
청구항 1 내지 61 중 어느 한 항 또는 본원의 임의의 다른 청구항에 있어서, 상기 단백질은 집합된 구조이고, 상기 단백질 모델의 실질적인 일부분은 상기 집합된 구조의 말단에 있는 경계 펩타이드 사슬을 제외하고 상기 집합된 구조에 대응하는 모든 단백질 모델을 포함하는, 방법.
단백질에서 하나 이상의 후보 에피토프의 컴퓨터-기반 예측을 위한 시스템으로서, 다음을 포함하는 방법을 수행하기 위해 구성된 하나 이상의 컴퓨터를 포함하는, 시스템:
컴퓨터 시스템 상에 형태 샘플링 엔진을 제공하는 단계;
상기 컴퓨터 시스템에서, 형태 샘플링 엔진과 함께 사용하기에 적합한 단백질 모델을 획득하는 단계로서, 상기 획득한 단백질 모델이 고유 구조를 포함하는 단계;
상기 컴퓨터 시스템에 의해, 집합적 좌표 바이어스를 상기 단백질 모델에 적용하여, 상기 집합적 좌표 바이어스가 상기 형태 샘플링 엔진으로 인해 상기 단백질 모델을 그의 고유 구조로부터 업데이트된 구조로 적어도 부분적으로 펼쳐지도록 차례로 강제하는 단계로서, 상기 집합적 좌표 바이어스가 상기 단백질 모델의 적어도 실질적인 일부분에 전역적으로 적용되며, 상기 단백질 모델의 실질적인 일부분에서 펼침과정이 일어나는 부분에 대해 공평해지는, 단계;
상기 하나 이상의 후보 에피토프를 동정하기 위해 상기 업데이트된 구조를 상기 컴퓨터 시스템에 의해 분석하는 단계로서, 상기 하나 이상의 후보 에피토프가 국부적인 펼침과정의 표시를 나타내는 단계.
청구항 63 또는 본원의 임의의 다른 청구항에 있어서, 본원의 임의의 다른 청구항 중 어느 한 항의 임의의 특징들, 특징들의 조합 또는 특징들의 하위-조합을 포함하는, 시스템.
컴퓨터 시스템에 의해 수행될 때 상기 컴퓨터 시스템으로 인해 청구항 1 내지 62 중 어느 한 항의 방법을 실시하도록 하는 비-일시적 컴퓨터-판독가능한 명령을 포함하는 컴퓨터 프로그램 제품.
본원에 기술되고/되거나 본 명세서에 첨부된 도면에 도시된 임의의 특징들, 특징들의 조합 또는 특징들의 하위-조합을 포함하는 방법.
본원에 기술되고/되거나 본 명세서에 첨부된 도면에 도시된 임의의 특징들, 특징들의 조합 또는 특징들의 하위-조합을 포함하는 시스템.