KR20060123159A - 분자 배열과 결합에 관한 분석 방법과 장치 - Google Patents
분자 배열과 결합에 관한 분석 방법과 장치 Download PDFInfo
- Publication number
- KR20060123159A KR20060123159A KR1020067009457A KR20067009457A KR20060123159A KR 20060123159 A KR20060123159 A KR 20060123159A KR 1020067009457 A KR1020067009457 A KR 1020067009457A KR 20067009457 A KR20067009457 A KR 20067009457A KR 20060123159 A KR20060123159 A KR 20060123159A
- Authority
- KR
- South Korea
- Prior art keywords
- molecular
- affinity
- data
- calculation
- engine
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N31/00—Investigating or analysing non-biological materials by the use of the chemical methods specified in the subgroup; Apparatus specially adapted for such methods
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N37/00—Details not covered by any other group of this subclass
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06G—ANALOGUE COMPUTERS
- G06G7/00—Devices in which the computing operation is performed by varying electric or magnetic quantities
- G06G7/48—Analogue computers for specific processes, systems or devices, e.g. simulators
- G06G7/58—Analogue computers for specific processes, systems or devices, e.g. simulators for chemical processes ; for physico-chemical processes; for metallurgical processes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- General Physics & Mathematics (AREA)
- Pharmacology & Pharmacy (AREA)
- Biochemistry (AREA)
- Medicinal Chemistry (AREA)
- Pathology (AREA)
- Computer Hardware Design (AREA)
- Analytical Chemistry (AREA)
- Immunology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- General Chemical & Material Sciences (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
분자 배열의 두개 이상의 분자적 하위 집합들을 위한 친화력 함수의 효과적인 계산을 위한 방법 및 기제가 설명되었다. 그 방법은 다양한 친화력 함수 계산을 수행하기 위해 복수적인 평행적 파이프라인들을 이용한다. 그 방법은 또한 계산 기제에 이용 가능한 처리 용량 그리고 데이터 대역폭의 이용을 최대화하기 위하여 평행한 친화력 엔진들의 통합을 위한 계획을 포함한다. 그 방법은 더 나아가 데이터 경로 스케쥴에 따라 하나 이상의 데이터 블록으로서 각각의 친화력 엔진에 대하여 분자적 설명 어구 데이터의 배분을 위한 계획을 포함한다. 그 방법은 또한 분자 조합의 분석의 맥락에서 복수적인 분자 배열을 위한 친화력 함수를 계산하는데 이용될 수 있다.
Description
관련 신청 건에 대한 상호 참조
본 신청은 2003년 10월 14일자로 "분자결합계산처리에 최적화된 하드웨어 시스템" 이라는 제목으로 신청된 미국조건부신청 번호60/511,387 의 비 조건부 신청으로 우선권을 주장하며 모든 목적의 참조를 할 수 있도록 그 전체 내용을 여기에 편입하여 놓았다.
본 특허신청서 기재 설명은 다음과 같이 공동으로 위임 특허신청 또는 특허를 받은 것과 관련된 것이다.
미국 특허 No. _____ [미국 특허신청 No. _____, 같은 날 대리인 문서번호 No. 021986-000710US로, "분자 불할 방법과 장치" 란 제목으로 신청된 ] (이하 "Ahuja I" 라 칭함); 및
이들 특허신청 또는 특허의 각각의 기재 설명은 모든 목적으로든 참조할 수 있도록 여기에 편입하여 놓았다.
본 발명은 일반적으로는 생명 정보학, 단백질 체학, 분자 모델링, 컴퓨터 분자 디자인(CAMD)에 관련되는 것이고, 그리고 좀 더 전문적으로는 컴퓨터 약품 설계 (CADD) 와 분자결합의 컴퓨터상의 모델링에 관련된 것이다.
전통적으로 약을 발견하는 과정과 그런 과정이 갖는 여러 한계에 관하여 설명하는 것은 본 발명을 이해하는 데에 도움이 될 것이다
어떤 생물학적인 조건을 처치하거나 치료하는 신약을 발견하는 데에는 오랜 기간과 많은 경비가 드는 과정으로 대표적으로는 한 가지 약 당 평균 12년에다 $8 억 달러가 들며 어떤 경우에는 15년까지 또는 완성하는 데에 $10억 달러나 든다.
한 가지 약을 발견하는 과정의 목표라는 것은 보통은 생체 중합체인(biopolymer) 한 유기체 내에서 한 개 또는 그 이상의 다른 생체분자(즉 약이 겨냥하는 "목표")의 기능에 영향을 끼치는 화합물 또는 리겐드 (배위자-ligand) 생체분자 즉 결합자를 찾아내서 그 특성을 정하는 것이다. 여기서 바이오 폴리머란 용어는 한 개 또는 그 이상의 단백질, 핵산 (DNA 나 RNA), 일련의 펩티드 나 뉴클레오티드 혹은 그 의 어느 부분이나 조각으로 구성되는 고분자를 참조하는 말이다. 여기서 생체분자라 함은 한 개 또는 그 이상의 바이오폴리머, 탄수화물, 호르몬, 또는 합성제, 의약품, 약품 유사물, 또는 자연 화합물과 그의 어느 부분이나 조각등 제한 없이 포함한 무기화합물이든 유기화합물이든 기타 분자나 화합물 등으로 구성되는 화학적 실체를 참조하는 말이다.
목표 분자란 대표적으로 소위 질병에 관련된 목표 단백질 이나 핵산으로서, 환자의 질병이나 기타 장애를 치료하는 데에 도움을 주기 위하여 기능이나 구조 및 화학적인 활동성에 변화를 주려고 하는 대상인 것이다. 다른 경우 에는 병의 원인 이 되는 유기체내에서 발견되는 바이러스나 박테리아 또는 기생충 같은 생체분자로서 약의 영향을 받으면 감염성 유기체의 생존이나 활동에 변화를 끼치고자 하는 목표이다. 또 다른 경우에 목표가 되는 것은 암 세포 같은 그러한 결함이 있거나 해로운 생체분자 이다. 그밖에 또 다른 경우에 목표가 되는 것은 알레르기 반응을 유발하거나 기타 바람직하지 않은 면역학적 또는 생물학적 반작용을 유발하는 환경에서 오는 항원 이거나 화학 제제이다.
리건드(ligand:배위자) 란 효능이나 낮은 독성 세포 삼투성 용해성 화학적 및 신진대사 상의 안정성 등 의 있어서 바람직한 약과 유사한 성질을 가진 작은 분자의 약이나 화합물이다. 다른 경우에 리건드는 단백질 기반 또는 펩티드 기반의 주산된 약물 또는 심지어 다 성숙한 단백질 같은 그러한 생물학적인 것이 될 수도 있다. 또 다른 경우에는 리건드는 목표 효소의 확학적으로 작용을 받는 물질일 수 도 있다. 리건드는 심지어 목표의 공유결합체일 수도 있고 사실상 그 단백질의 한 부분 즉 제2구조 성분 단백질, 효소 활성 부위를 포함하는 단백질 영역이거나 활성부위 근처의 단백질, 적절한 단백질 제4기 구조 등의 단백질 하위 단위일 수도 있다.
발명의 배경을 논하는 이후 문장을 통하여 달리 특별히 구분한 경우를 제외하고는 (가능한) 분자 결합이란 한 개의 리건드 와 한 개의 목표로 생각하기로 하며 리건드와 목표는 별개의 화학적인 실체인 것으로 하고 그리고 리건드는 화합물이고 한편 목표는 대표적으로 생물학적인 단백질(돌연변이나 또는 야생의)인 것으로 한다. 목표로서 핵산 (DNA 와 RNA 둘 다) 의 빈도는 유전자 치료와 병원균 미생 물학 분야에서의 발전에 따라서 앞으로는 증가할 것으로 보인다는 점에 유의해야 한다. 또한 "분자 복합체" 란 용어는 목표와 리건드가 적절한 (종종 수성) 환경에서 서로 작용할 때에 결합된 상태를 참조하는 것으로 한다. "잠재적인" 분자 복합체란 낮은 확률로 발생할 수는 있지만 그러므로 정상적인 조건하에서는 실제로 형성될 수도 있고 아닐 수도 있는 결합상태를 참조하는 것으로 한다.
약제 발견 과정 그 자체는 대표적으로 네 가지 다른 하위 과정을 포함하고 있다: (1) 목표 타당성 평가 (2) 선도체 생성과 최적화 (3) 임상 이전 시험 과 (4) 임상 시험 및 승인
목표 타당성 평가는 질병과 관련성이 있는 하나 또는 그 이상의 목표를 결정하는 것을 포함하며 보통 완성하는 데에 2년 반이 걸린다. 목표 타당성 평가의 결과에는 어느 유기체 내에 목표 분자가 존재하고 활동하는 것이 처치와 치료 방법을 찾고자 하는 어 떤 병을 일으키거나 악화시키거나 또는 촉진시키는 등의 어떤 효과에 원인이 되거나 영향을 끼치는 지를 결정하는 것이 포함된다. 어떤 경우에는 그 목표에 대하여 자연적인 결합체나 효소의 작용을 받는 물질이 실험적 방법을 통하여 결정되는 수도 있다.
선도체 생성은 대표적으로 선도 화합물 즉 목표 분자에 결합 할 수 있고 활성 작용 불활성작용 촉매작용 또는 목표의 기능을 억제하여서 목표의 효과를 변경시킬 수 있는 리건드를 찾아내는 것을 포함하며 이 경우에 그 선도체는 약으로 활용하는 과정에서 사용되는 적합한 후보 리건드 라고 볼 수 있다. 선도체의 최적화는 원하는 목표에 결합하는 친화력을 증가시키고 작용부위 선택성을 증가시키며 또 한 기본적인 문제인 독성, 용해성 및 신진대사에 관하여 표명하기 위하여 리건드 후보들을 화학적 및 구조적으로 정제하는 과정을 포함한다. 선도체 생성과 선도체 최적화를 합하여 대표적으로 대략 완성하는데 3년이 소요되며 한 개 또는 그 이상의 화학적으로 다른 선도체인 경우에는 좀 더 심사숙고 할 결과가 되는 수도 있다.
임상전 시험에서는 선정된 선도체에 대하여 약물의 흡수성, 배포, 신진대사, 배설, 독성, 부작용 및 필요 복용량 등 각종 약물생체반응학 적인 인자들을 시험하는 데에 생화학적인 평가 분석과 동물 모델이 사용된다. 이러한 임상전 시험은 대략 1 년 이 걸린다. 임상 전 시험 기간이 끝난 다음에 임상 시험과 승인을 받는 데에 또한 6년 내지 8년 혹은 그 이상이 걸리며 그 기간 동안에 후보 약품이 인간을 대상으로 안전성과 효과를 시험 받게 된다.
합리적인 약품 디자인은 효과적인 선도체 후보를 생성하고 최적화하는 기획을 위한 기반으로서 일반적으로 약품의 목표(구조-기반) 및 또는 그들의 자연적인 리건드 (리건드-기반) 에 관한 구조적 정보를 이용한다. 구조 기반의 합리적인 약품 기획은 일반적으로 목표의 구조에 관한 3차원 모델을 이용한다. 목표 단백질이나 핵산에 있어서 그러한 구조는 X-레이 결정학 / 핵자기공명 또는 기타 측정 과정의 결과로서도 가능하고 또는 동족 모델링, 단백질 모티브 와 보전 영역 분석, 그리고 또는 단백질 폴딩 이나 핵산 동량체의 컴퓨터 모델링이 결과로서도 가능하다. 모델로 구성된 구조는 예를 들면 GPCR(G protein-coupled receptor) 과 이온 체널등 수 많은 세포막에 관련된 목표 단백질을 고려해 볼 때에 흔히 가능한 모든 것이다. 리건드의 구조는 유사한 방법으로 생성될 수 있거나 또는 리건드가생물학적 중 합체가 아닌 경우에 기초적인 물리학과 화학의 원리를 이용한 이미 알려진 2차원적인 화학적 표기 방식으로부터 처음부터 구성될 수도 있을 것이다.
합리적인 약품 디자인은 목표 리건드 분자 상호작용 과 선도체 최적화와의 결합에 관한 컴퓨터를 이용한 모델링 에서부터, 얻고자 하는 약과 유사한 생물학적 특성의 컴퓨터를 이용한 예측에 이르기까지의 범위에서 여러 가지 컴퓨터상의 요소를 이용하는 것을 통합할 수 있을 것이다. 합리적인 약품 디자인과 관련하여 컴퓨터 모델링의 이용은 때로는 생물학 시험실의 이른바 "습식(wet)" 실험과 그와 유사한 일에 시간과 경비를 낭비하는 것을 피함으로써 소요되는 기간을 줄이고 약품 연구와 개발의 초점과 효과를 개선하려는 바람이 널리 퍼졌다.
선도체 생성과 관련하여 목표 리건드 분자 결합의 컴퓨터 모델링은 화합물 목록을 컴퓨터상으로 걸러내는 방대한 작업 (즉 라이브러리 스크리닝) 을 포함할 수도 있다. 그 목록은 가상으로 생성될 수도 있고 한 개 또는 그 이상의 화합물 구조 데이터베이스로 저장되었거나 또는 화합물 화학과 유기합성을 통하여서, 의도하는 목표 분자에 관한 생체활동 (혹은 그와 유사한 방법)을 컴퓨터상으로 예측하는 것에 근거하여 선정된 리건드의 부분 집합을 컴퓨터의 방법을 이용하여 순위를 배열함으로써 구성된 것일 수도 있다.
본 문에서 "결합 모드" 라는 용어는 결합상태나 또는 결합에너지의 최소한 근접한 (즉 결합 친화력이 최대한 인) 상태에 있는 잠재적인 분자 복합체의 3차원 분자구조를 참조하는 것이며 여기서 "결합 에너지" (때로는 "결합 자유 에너지" 란 말로 바꾸어 쓸 수도 있고 또는 개념상 정반대되는 "결합 친화력" 이라는 말로도 바꾸어 쓸 수 있는) 라는 용어는 분자 시스템에 있어서 잠재적인 분자 복합체를 형성할 때에 즉 리건드와 목표가 결합되지 않은 상태에서 (잠재적으로) 결합된 상태로 전환할 때의 자유 에너지의 변화를 참조하는 것이다. "시스템 자세(system 포즈)" 라는 용어도 결합 모드를 참조하는 데에 사용된다. 여기서 자유 에너지란 용어는 구성 원자들 간의 물리학적인 상호작용의 결과 및 분자 결합과 그 자체 ( 즉 분자 상호간 및 분자내 상호 작용) 와 그들을 둘러싼 주위와의 상호작용의 결과로서의 엔탈피 및 엔트로피 두 가지 다를 참조하는 것이다. 자유 에너지의 실례는 정역학적 평형상태의 표준 앙상블 또는 대 정준앙상블에서 보게 되는 자유 에너지이다.
일반적으로 주어진 목표-리건드 쌍의 선택적인 결합 자유 에너지는, 사실은 결합 자유에너지란 (추정상의) 복합체의 앙상블을 설명해주는 것이지 한 개의 결합된 모드를 말하는 것은 아니지만, 화학적인 평형상태에 있는 두 개의 분자간에 결합하거나 잠재적인 분자 복합체를 형성할 가능성에 직접적으로 상호 관련이 있다.
그러나 컴퓨터를 이용한 모델링에서는 자유에너지의 변화는 최소 에너지에 상응하는 한 개의 구조에 지배를 받는 것으로 상정한다. 이것은 분명히 굳은 결합 (pK ~ 0.1 내지 10 나노미터) 에서는 진실이지만 그러나 약한 경우에는 (pK~10 내지 100 나노미터) 의심스럽다. 구조를 지배하고 있는 것은 보통 결합 모드라고 한다. 관련된 시스템의 상태가 에너지란 관점에서 거의 쇄태한 상태일 때에는 어떤 경우에는 한 가지 이상의 대체 결합 모드를 고려할 필요가 있을 수도 있다.
결합 친화력은 약을 발견하고 합리적인 약품 디자인을 하는 데에 직접적인 관심사이다. 왜냐하면 생물학적인 과정 또는 효소 접촉 반응의 한 부분인 단백질과 생물학적인 과정 혹은 효소 접촉반응의 수정을 목표로 추구하는 약품 후보자 같은 그러한 두 개의 분자의 상호작용은 종종 약품 후보가 그의 목적에 얼마나 쓸모가 있는지를 보여주는 데에 도움이 되기 때문이다. 더 나아가서 결합 모드가 결정될 수 있으면 목표에 대한 약의 작용을 더 잘 이해할 수 있다. 그러한 이해는 예를 들면 리건드의 하나나 또는 그 이상의 특성을 좀 더 수정하여 그의 효력( 목표에 관련된), 결합 특이성 (기타 목표 생체폴리머와 관련한) 또는 기타 화학적 및 신진대사상의 특성을 개선하게 되는 경우에는 유용할 수도 있는 것이다.
목표 분자와 리건드 간의 친화력을 측정하거나 예상하기 위한 여러 가지 실험실의 방법이 있다. 종종 목표가 먼저 분리되고 그런 다음 리건드와 시험관 속에서 혼합되어 고도의 영상과 결합되어 무수한 생화학적 및 기능적인 실험에서와 같이 그렇게 분자 상호작용이 실험적으로 평가된다. 그렇지만 그러한 방법은 목표를 분리하는 것이 간단하고 리건드가 만들기 간단하고 그리고 분자 상호작용이 쉽게 측정될 수 있을 때에는 가장 쓸모가 있지만 그러나 목표가 쉽사리 분리될 수 없고, 분리작업이 생물학적인 과정이나 질병의 효소 접촉반응과 간섭이 일어나거나, 리건드가 충분한 량으로 합성하기가 어렵거나 또는 특정한 목표나 리건드가 제대로 앞서서 특성을 나타내지 못하는 때에는 더욱 문제가 많게 된다. 후자의 경우에는 목표와 리건드와 의 모든 가능한 결합에 대하여 수 천 또는 수 백만 번의 실험이 필요할 수도 있으며 그 실험 방법을 이용하는 것이 실현 불가능 하게 된다.
한편 이러한 병목현상을 해결하기 위한 여러 번의 시도가 맨 먼저는 목표 (또는 단백질 계와 같은 그러한 관련된 목표에 까지) 에 관하여 다양한 화학적 및 생물학적인 특성에 관한 특수한 지식을 이용하여 이루어졌으며 실험과정에서 요구되는 결합의 숫자를 줄이기 위하여 한 개나 그 이상의 이미 알려진 목표에 대한 자연적인 결합자나 효소의 작용을 받는 물질에 관한 지식도 이용하였지만 이런 것은 아직도 실용적이지 못 하였으며 대부분의 경우 너무 경비가 드는 것이었다. 실제로 실험실에서 결합 분자를 설정하고 실험결과를 측정하는 대신에 다른 한가지 접근 방법은 컴퓨터를 이용하여 두 개 또는 그 이상의 분자들 간의 (즉 컴퓨터 상으로 분자결합 모델화된) 상호작용을 시뮬레이션하고 특성화하는 것이다. 분자결합과 상호작용을 평가하기 위하여 컴퓨터의 방법을 이용하는 것은 구조 기반이든, 리건드 기반이든 또는 양자 다 이든 간에 보통 한 가지나 또는 그 이상의 합리적인 약품 다자인과 단계와 관련되어 있다.
주어진 목표-리건드 쌍에 대한 가능한 분자 결합의 본성 과 또는 그 가능성을 컴퓨터상으로 모델링 할 때에 결합 모드와 친화성을 실제 컴퓨터상으로 예측하는 것은 통례상 두 부분으로 수행된다: (a) "독킹(docking)", 컴퓨터 시스템이 리건드와 목표의 선택적인 결합 모드를 예측하려고 하는 부분과 (b) "스코어링(scoring)", 컴퓨터 시스템이 컴퓨터로 결합한 모드와 관련하여 결합 친화력 평가를 정밀하게 하려고 하는 부분이 그것이다. 목록을 걸러내는 과정에서도 스코어링은 목표 분자에 대한 어느 한 리건드 대 다른 리건드의 상대적인 결합 친화력을 예측하는 데에 이용될 수도 있으며 그리하여 리건드들을 우선 순위로 정열하고 결합 가능성을 지정한다.
도킹은 본질적으로 결정론 적이든 확률추정적이건 간에 바람직한 친화력을 가진 한 개 또는 그 이상의 시스템 포즈(포즈)를 찾아보려는 의도를 가지고 탐색하거나 기능을 최적화하는 알고리슴을 포함하고 있다. 스코어링은 한 가지 친화력 기능을 좀 더 정밀하게 평가하는 과정을 포함할 수가 있는데 ,이 경우에 친화력은 한 개 또는 그 이상의 분자역학 기반의, 양자 역학 기반의 또는 지식기반 의 즉 스코어링 함수 수식을 결합하여 나타내게 된다. 각각의 스코어링 함수들은 그들 자체가 각종 수식을 이용한 보다 견고한 총체적 일치 스코어링 체계를 형성하는 데에 결부되어 있을 수도 있다. 실제로 오늘날 컴퓨터를 이용한 약품 다자인과 관련하여 여러 가지 상이한 독킹 전략과 스코어링 체계가 채택되고 있다.
어떠한 컴퓨터를 이요한 방법을 선택하던지 간에 분자 모델들과 고유한 숫자 알고리슴 양자의 컴퓨터사의 복잡성과 각 각의 분자 결합을 처리하기 위하여 배정되어야만 하는 컴퓨터 자원 (시간, CPU의 개수, 시뮬레이션의 숫자) 의 량 사이에는 속성상 어쩔 수 없는 타협이 있게 마련이다. 예를 들자면 개방된 물 분자로 둘러싸인 두 개의 분자의 고도로 지능화된 분자역학 시뮬레이션(MD)은 몇 조 번이 넘는 단계로 전개시키면 가능한 분자 결합 모델링에서 비교적 높은 정확도에 이를 수 있지만 그 결과로 생기는 컴퓨터 비용 (즉 시간과 컴퓨터 전력) 은 너무나도 엄청나서 그러한 시뮬레이션은 아주 적은 분자결합 이외로는 이용하기가 어려운 것이다. 그 반면에 분자 상호작용을 표현하는 비교적 원시적인 모델을 다중의 때로는 오류가 있는 모델링 지름길과 대략 추측과 결합하여 사용하면 비교적 받아드릴 만한 컴퓨팅 비용에 결과를 얻을 수 있지만 그러나 모델링의 정확성과 예측 능력의 면에서 언제나 상당한 품질이 저하된 실행을 초래한다. 지금으로서는 어느 한 목표 단백질에 대한 약품 후보의 목록을 점검하는 과정 조차도 현재의 컴퓨터 시스템을 사용해서는 필요한 정확성을 기하는 데에 너무나 오랜 시간이 걸린다.
일반적으로 본 발명은 컴퓨터를 이용한 방법을 통하여 분자 상호작용에 관하여 효과적이고 정확한 결정과 특성 규명에 관련된 것이다. 여기서 분자 상호작용의 결정과 특성규명 ( 그에 관해서는 컴퓨터를 이용한 도킹과 스코어링이 유일한 한 부분이다) 에는 가능한 분자 복합체를 형성할 가능성 예측, 두 개의 분자의( 또는 그 이상의) 결합 친화력이나 결합 에너지 산출, 목표와 리건드 쌍에 대한 결합 모드 (또는 추가적인 대체 모드들)의 예측, 또는 목표 분자와 예측된 생체활동에 근거하여 일련의 리건드들을 우선 순위로 배열하는 것 등을 포함할 수도 있다. 이하 본문을 통하여 친화력 ( 또는 그와 동등한 것)은 일반적으로 하나의 객관적인 수학 함수 (즉 한 '친화력' 함수) 로 모델화 될 것이며 목표와 리건드 분자들 사이의 적절한 분자 상호작용에 기초를 이루는 물리학적 및 화학적 특성을 대략 규명하게 될 것이며 이것은 비록 다른 가능한 구체적인 것이 존재하여 (그 중 몇 가지에 대하여는 상세한 설명에서 논하게 되겠지만) 그 중 친화력 함수라는 것이 분자 상호작용에 관련된 다양한 양적 또는 질적인 측정의 한 가지가 될 수도 있기는 한 것이다.
요약하면 약품 발견 과정에 있어서 최적의 상태나 배치 즉 두 개의 분자 또는 분자들의 부분에 대한 결합 모드와 결합 에너지를 속히 효과적으로 인식하는 것은 바람직한 것이다. 효율성은 약품을 발견하는 경로에 대하여 특히 선도체 생성과 선도체 최적화 단계에 있어서 관련이 있는 것이며 그 약품 발견 경로에서는 기대되는 후보약품을 좀 더 분석하도록 하기에 앞서서 목표와 리건드 분자 의 가능한 수 백만 가지의 결합에 대하여 결합 모드와 결합 친화력을 정확이 예측하는 것이 바람직한 것이다. 분자결합을 타당한 정확성을 갖추고 컴퓨터로 보델링 하기위한 보다 효과적인 시스템과 방법이 필요하다는 것은 분명하다.
참조와 이전 기술
본 발명 분야에 있어서 이전의 기술을 비중 있게 문서화 하였다: 다음은 그것을 요약한 것이다.
Dews [1]는 약품 발견의 현재 상태에 관한 우수한 개관을 제공하고 있다. [2] 에서 Abagyan 과 Totrov 는 고효율 도킹과 스코어링에 관한 설명과 그 응용을 보여준다. Lamb et al. [3] 은 단백질 족에 대하여 디자인하고 독킹하며 다중 순열조합식 목록을 가상 스크리닝하는 것에 관하여 일반적인 접근을 가르쳐주고 있으며 끝으로 Waskowyez et al. [4]는 여러 대의 컴퓨터를 사용하여 특정한 목표에 대한 광범위한 리건드를 특정 컴퓨터에 리건드 그룹을 지정함으로써 가상 스크리닝 작업을 가속화시키는 것을 설명한다.
[1] J. Drews, "Drug Discovery: A Historical perspective", Science, 287, 19601964 (2000).
[2] Ruben Abagyan and Maxim Totrov, "High-throughput docking for lead generation", Current Opinion in Chemical Biology, Vol. 5, 375382 (2001).
[3] Lamb, M. L., Burdick, K. W., Toba, S., Young, M. M., Skillman, A. G. et al., "Design, docking, and evaluation of multiple libraries against multiple targets", Proteins, Vol. 42, 296318 (2001).
[4] Waszkowycz, B., Perkins, T.D.J., Sykes, R.A., Li, J., "Large-scale virtual screening for discovering leads in the postgenomic era", IBM Systems Journal, Vol. 40, No. 2 (2001).
현재 독킹 시뮬레이션을 수행하는 데에 이용되고 있는 소프트웨어 도구에 관해서는 수 많은 실례가 있다. 이들 방법은 컴퓨터를 이용한 기술을 광범위하게 포함하고 있으며 (a) 고체 패턴 매칭 알고리슴의 이용, 기하학적으로 잘게 구분하기, 포스 클러스터링, 또는 그래프 패턴 매칭을 사용한 표면의 상관성에 근거를 둔 것 b) 증분 구성 또는 place 와 join 이라는 연산자를 포함한 단편 기반의 방법 c) Monte Carlo 의 사용을 포함한 확률 추적 최적화 방법, 유전자 (흉내낸) 알고리슴을 시뮬레이션한 것 d) 분자역학 시뮬레이션 또는 e) 그로부터 유도된 다양한 변종의 전략 등의 이용을 포함한다.
초기의 소프트웨어 도구는 DOCK [5][6][6] 이라고 하는 일종의 그라프 기반 고체 패턴 매칭 알고리슴으로 1982년 (v.1.0) UCSF 에서 개발된 것이며 현재 버전 v5.0 까지 있다. (증분 구성을 포함하는 확장 판도 있다.) 기타 그라프 기반의 패턴 매칭 알고리슴의 보기로는 CLIX [8] (교대로 GRID[9]를 사용), FLOG [10] 및 LIGIN [11] 이 있다.
[5] Shoichet, B.K., Bodian, D.L. and Kuntz, I.D., "Molecular docking using shape descriptors", J Comp Chem, Vol. 13 No. 3, 380397 (1992).
[6] Meng, E.C., Gschwend, D.A., Blaney, J.M., and I.D. Kuntz, "Orientational sampling and rigid-body minimization in molecular docking", Proteins: Structure, Function, and Genetics, Vol. 17, 266278 (1993).
[7] Ewing, T. J. A. and Kuntz, I. D., "Critical Evaluation of Search Algorithms for Automated Molecular Docking and Database Screening", J. Computational Chemistry, Vol. 18 No. 9, 11751189 (1997).
[8] Lawrence, M.C. and Davis, P.C.; "CLIX: A Search Algorithm for Finding Novel Ligands Capable of Binding Proteins of Known Three-Dimensional Structure", Proteins, Vol. 12, 3141 (1992).
[9] Kastenholz, M. A., Pastor, M., Cruciani, G., Haaksma, E. E. J., Fox, T., "GRID/CPCA: A new computational tool to design selective ligands", J. Medicinal Chemistry, Vol. 43, 30333044 (2000).
[10] Miller, M. D., Kearsley, S. K., Underwood, D. J. and Sheridan, R. P., "FLOG: a system to select 'quasi-flexible' ligands complementary to a receptor of known three-dimensional structure", J. Computer-Aided Molecular Design, Vol. 8 No.2, 153174 (1994).
[11] Sobolev, V., Wade, R. C., Vriend, G. and Edelman, M., "Molecular docking using surface complementarity", Proteins, Vol. 25, 120129 (1996).
또 다른 고체 페턴 매칭 도킹 소프트웨어로 FTDOCK [12] 및 HEX [13]의 형상기반 상관관계 방법, Fischer et al . [14]의 기하학적 해싱 또는 Rarey et al. [15]의 포즈 크러스터링 등이 포함된다.
[12] Aloy, P., Moont, G., Gabb, H. A., Querol, E., Aviles, F. X., and Sternberg, M. J. E., "Modeling Protein Docking using Shape Complementarity, Electrostatics and Biochemical Information,"Proteins: Structure, Function, and Genetics, Vol. 33, 535549 (1998).
[13] Ritchie, D. W. and Kemp. G. J. L., "Fast Computation, Rotation, and Comparison of Low Resolution Spherical Harmonic Molecular Surfaces", Proteins: Structure, Function, and Genetics, Vol. 39, 178194 (2000).
[14] Fischer, D., Norel, R., Wolfson, H. and Nussinov, R., "Surface motifs by a computer vision technique: searches, detection, and implications for proteinligand recognition", Proteins, Vol. 16, 278292 (1993).
[15] Rarey, M., Wefing, S., and Lengauer, T., "Placement of medium-sized molecular fragments into active sites of proteins", J. Computer-Aided Molecular Design, Vol. 10, 4154 (1996).
일반적으로 고체 패턴 매칭 알고리슴은 목표와 리건드가 둘 다 고체(즉 유연성이 없다) 라고 가정하므로 작고 단단한 분자(혹은 분자의 조각)가 잘 정의되고 거의 단단하고 활동적인 장소인 하나의 단백질에 도킹하는 데에 적합할 것이다. 그러므로 이런 등급의 도킹 도구는 새로운 리건드 디자인, 순열 조합식 목록 디자인, 또는 리건드당 다수의 컨포머(conformer)를 포함하는 분자 목록의 곧장 고체 스크리닝을 하는 데에 적합할 것이다.
증분 구성에 기반을 둔 도킹 소프트웨어 도구에는 FlexX [16][17] from Tripos (licensed from EMBL), Hammerhead [18], DOCK v4.0 [6] (as an option), and the nongreedy, backtracking algorithm of Leach et al. [19]. 등이 포함 되어 있다. 새로운 리건드 디자인에 관련된 증분 구성을 사용한 프로그램으로는 LUDI [20] (from Accelrys) and GrowMol [21]. place and join전략에 기반을 둔 도킹 소프트웨어 도구에는 DesJarlais et al. [22].가 포함됨
[16] Kramer, B., Rarey, M. and Lengauer, T., "Evaluation of the FlexX incremental construction algorithm for proteinligand docking", Proteins, Vol. 37, 228241 (1999).
[17] Rarey, M., Kramer, B., Lengauer, T., and Klebe, G., " A Fast Flexible Docking Method Using An Incremental Construction Algorithm", J. Mol. Biol., Vol. 261, 470489 (1996).
[18] Welch, W., Ruppert, J. and Jain, A. N., "Hammerhead: Fast, fully automated docking of flexible ligands to protein binding sites", Chemical Biology, Vol. 3, 449462 (1996).
[19] Leach, A.R., Kuntz, I.D., "Conformational Analysis of Flexible Ligands in Macromolecular Receptor Sites", J. Comp. Chem., Vol. 13, 730748 (1992).
[20] Bohm, H. J., "The computer program LUDI: a new method for the de novo design of enzyme inhibitors", J. Computer-Aided Molecular Design, Vol. 6, 6178 (1992).
[21] Bohacek, R. S. and McMartin, C., "Multiple Highly Diverse Structures Complementary to Enzyme Binding Sites: Results of Extensive Application of a de Novo Design Method Incorporating Combinatorial Growth", J. American Chemical Society, Vol. 116, 55605571 (1994).
[22] DesJarlais, R.L., Sheridan, R.P., Dixon, J.S., Kuntz, I.D., and Venkataraghavan, R., "Docking Flexible Ligands to Macromolecular Receptors by Molecular Shape", J. Med. Chem., Vol. 29, 21492153 (1986).
증분 구성 알고리슴은 유연성있는 리건드들이 단단한 목표 분자에 잘 특성이 알려진 활동적인 위치에 도킹하는 모델에 사용될 수 있을 것이다. 그들은 유연성있는 리건드들의 하나 또는 그 이상의 목표에 대하여 목록을 스크리닝 할 때에 사용될 수도 있을 것이다. 그들은 종종 비교적 컴퓨터 점유율이 적지만 그들의 확률적으로 최적화에 근거한 여러 경쟁자들 보다는 결과적으로 덜 정확하다. 그렇지만FlexX 조차도한 개의 목표-리건드 결합을 처리하는 데에 1-2 분이 소요되니 아직도 컴퓨터상으로는 목록의 크기에 따라서는 (즉 수 천만 또는 그 이상의 화합물) 부담이 될것이다. 증분 구성 알고리슴은 컴퓨팅하는 동안에 만나게되는 각기 다른 시스템 포스(포즈)를 평가하고 등급을 메기는 데에 종종 하나 또는 그 이상의 스코어링 기능을 구사한다. 최근에FlexX 는 어떤 활성 사이트 회전체(rotamer)의 사용자 정의된 앙상불을 이용하여 목표분자의 활성 사이트의 유연성을 밝히는데에 까지 확장 되었다 FlexX[23].
[23] Claussen, H., Buning, C., Rarey, M., and Lengauer, T., "FlexE: Efficient Molecular Docking Considering Protein Structure Variations", J. Molecular Biology, Vol. 308, 377395 (2001).
확률적인 최적화에 기반을둔 컴퓨테이셔널 도킹 소프트웨어 도구들에는모두 몬테칼로 방법에 의거한 ICM [24](MolSoft), GLIDE [25] (Schrodinger), 및 LigandFit [26] ( Accelrys), 그리고 모의적 가열냉각에 의거한 AutoDock v.2.5 [27](Scripps Institute) 등이 포함된다. 또한 기타 유전학적 또는 메메틱알고리즘에 기초한 GOLD [28][29], DARWIN [30], 및 AutoDock v.3.0 [31](Scripps) 등이 있다.
[24] Abagyan, R.A., Totrov, M.M., and Kuznetsov, D.N., "Biased probability Monte Carlo conformational searches and electrostatic calculations for peptides and proteins", J. Comp. Chem., Vol. 15, 488506 (1994).
[25] Halgren, T.A., Murphy, R.B., Friesner, R.A., Beard, H.S., Frye, L.L., Pollard, W.T., and Banks, J.L., "Glide: a new approach for rapid, accurate docking and scoring. 2. Enrichment factors in database screening", J Med Chem., Vol. 47 No. 7, 17501759, (2004).
[26] Luty, B. A., Wasserman, Z. R., Stouten, P. F. W., Hodge, C. N., Zacharias, M., and McCammon, J. A., "Molecular Mechanics/Grid Method for the Evaluation of LigandReceptor Interactions", J. Comp. Chem., Vol.16, 454464 (1995).
[27] Goodsell, D. S. and Olson, A. J., "Automated Docking of Substrates to Proteins by Simulated Annealing", Proteins: Structure, Function, and Genetics, Vol. 8, 195202 (1990).
[28] Jones, G., Willett, P. and Glen, R. C., "Molecular Recognition of Receptor Sites using a Genetic Algorithm with a Description of Desolvation", J. Mol. Biol., Vol. 245, 4353 (1995).
[29] Jones, G., Willett, P., Glen, R. C., Leach, A., and Taylor, R., "Development and Validation of a Genetic Algorithm for Flexible Docking", J. Mol. Biol., Vol. 267, 727748 (1997).
[30] Taylor, J.S. and Burnett, R. M., Proteins, Vol. 41, 173191 (2000).
[31] Morris,G. M., Goodsell, D. S., Halliday, R. S., Huey, R., Hart, W. E., Belew, R. K. and Olson, A. J., "Automated Docking Using a Lamarckian Genetic Algorithm and an Empirical Binding Free Energy Function", J. Comp. Chem., Vol. 19, 16391662 (1998).
확률적 최적화 기반의 방법은 유연성있는 리건드들이 목표 분자에 도킹하는 모델이 사용될 수 있을 것이다. 그들은 일반적으로 분자-역학-기반의 친화력 함수 수식을 이용하며 한 개 또는 그 이상의 바람직한 최소시스템 에너지를 탐색하는 데에 각종 전략을 구사한다. 그들은 종종 좀 더 집중적으로 컴퓨팅하며 그렇지만 그 들의 증분구조 경쟁자 보다는 비교적 튼튼하다. 그들은 본질적으로 확률추측적이므로 달리 실행하거나 시뮬레이션 하면 다른 예측 결과가 나올 수도 있다. 전통적으로 확률추정 최적화를 이용한 대부분의 도킹 소프트웨어 도구는 목표가 거의 단단한 것으로 상정한다. (즉 소소 결합을 제공자와 활성화된 사이트에 있는 받아드리는 그룹은 회전할 수 있다) 왜냐하면 만약 그렇지 않다면 결합이 복합성은 급격히 증가하여 문제를 합당한 시간 내에 해결해내기 어렵게 할 것이기 때문이다.
분자 역학 시뮬레이션이 컴퓨터를 이용하여 목표-리건드 결합을 모델링 하는 데에 사용되어 왔다. Di Nola et al. [32] and Luty et al. [16] (along with Monte Carlo). 에서 제시된 수단에 포함되어 있다. 원리상으로 분자 역학 시뮬레이션은 단백질의 신축성을 임의의 정도까지 모델링 할 수 있다. 그 반면에 그들은 많은 정밀하게 가공된 수치와 시간 스텝을 요구하며 그래서 때로는 아주 시간낭비적이다. ( 한 건 실행에 목표 리건드 결합당 여러 시간 또는 심지어 여러 날) 그들은 또한 종종 타당한 비적을 선택하는 데에 사용자가 개입하여 작용하기를 요구한다. 선도체를 발견하는 데에 분자 역학 시뮬레이션을 사용하는 것은 그러므로 소수의 기대되는 선도체 후보의 특성을 그려내는 예정된 복합체의 국지적으로 최소화 하는 데에 더 적합하다.
[32] Di Nola, A., Berendsen, H. J. C., and Roccatano, D., "Molecular Dynamics Simulation of the Docking of Substrates to Proteins", Proteins, Vol. 19, 174182 (1994).
합 방법은 선택된 저 에너지 리건드 구조를 빠르게 스크리닝 하기 위하여 고 체 패턴 매칭 기술 사용을 포함할 수 있으며 이어서 서바이빙 포스의 몬테카르로식 비틀림 최적화와 끝으로 유연성있는 단백질 활성 부위와 관련된 얼마 않되게 선택한 리건드 구조의 분자역학적인 정밀작업 까지도 이용한다 이러한 타입의 독킹 소프트웨어 전략의 한 실례가 Wang et al. [33]이다.
[33] Wang, J., Kollman, P. A. and Kuntz, I. D., Proteins, Vol. 36, 119 (1999).
스코아링 함수를 소프트웨어로 실행하여 목표-리건드 친화력을 산정하는 데에 이용하고 목록 스크린에 따라서 각각 다른 리건드들을 우선 순위로 정렬하며, 결합 모드를 예측하기 위하여 중간의 도킹 포스에 등급을 정하는 데에 이용된다. 스코어링 함수는 전통적으로 세 가지 구별되는 범주에 나뉜다. a) 경험적인 스코어링 함수 b) 분자역학 기반의 수식 또는 (c) 지식 기반의 스코어링 함수 혹은 거기서 유도된 혼합 구조
경험적으로 유도된 스코어링 함수 (목표-리건드 결합에 적용과 같은) 는 QSAR (quantitative structure-activity relationship) 연구에서 종종 이용되는 선형 자유에너지 관계에 의하여 처음으로 영감을 받게 된 것이다. 그 초기의 실례는 B?hm et al. [20][34] (used in LUDI) 이다. 기타 경험적인 스코어링 함수는 SCORE [35] (used in FlexX), ChemScore [36], PLP [37], Fresno [38], and GlideScore v.2.0+ [39] (modified form of ChemScore, used by GLIDE) 을 포함한다.
[34] B?hm, H.J., "The Development of a simple empirical scoring function to estimate the binding constant for a proteinligand complex of known three-dimensional structure", J. Comput-Aided Mol. Des., Vol. 8, 243256 (1994).
[35] Wang, R., Gao, Y. and Lai, L., "A new empirical method for estimating the binding affinity of a proteinligand complex.", J. Molecular Modeling, Vol. 4, 379 (1998).
[36] Eldridge, M. D., Murray, C. W., Auton, T. R., Paolini, G. V., and Mee, R. P., "Empirical scoring functions: I. The development of a fast empirical scoring function to estimate the binding affinity of ligands in receptor complexes", J. Computer-Aided Molecular Design, Vol. 11, 425445 (1997).
[37] Gelhaar, D. K., Bouzida, D.; Rejto, P. A., In "Rational Drug Design: Novel Methodology and Practical Applications", Parrill, L., Reddy, M. R., Ed.; American Chemical Society: Washington, D.C., pp. 292311 (1999).
[38] Rognan D., Lauemoller S. L., Holm A., Buus S., Schinke V., J. Medicinal Chemistry, Vol. 42, 46504658 (1999).
[39] Halgren, T.A.,Murphy, R.B., Friesner, R.A., Beard, H.S., Frye, L.L., Pollard, W.T., and Banks, J.L., "Glide: a new approach for rapid, accurate docking and scoring. 2. Enrichment factors in database screening", J Med Chem., Vol. 47 No. 7, 17501759 (2004).
일반적으로 경험적인 스코어링 함수는 오늘날에 사용되는 대부분의 스코어링 함수로 구성되어 있으며 특히 대단위 화합물 목록 스크리닝에 관하여서는 그러하다. 기본 전제는 경험적인 에너지 모델의 선형 결합을 측정하는 것이며 각각을 관련 무게 수치로 곱하여 그 각각은 한 세트의 상호작용 요소 중에 한 가지를 나타내면서 (소위) 마스터 스코어링 방정식으로 표시되는데 여기에서 이른바 방정식은 분자 결합의 결합 자유 에너지를 대략적으로 잘 나타내려는 것이다. 무게 수자 인수는 목표 리건드 복합체의 훈련용 세트에 대하여 구성된 실험상의 결합 자유 에너지 데이터에 맞춤으로서 구할 수 있다.
분자 역학 기반의 스코어링 함수는 처음에 AMBER [40][41], OPLS [42], MMFF [43], and CHARMM [44] 같은 분자역학 힘의 장에 관한 분자 모델링에서 이용하기 위하여 개발 되었다. 분자역학 기반의 스코어링 함수들 의 실례는 DOCK v.4.0 (based on AMBER) [6] 의 화학적 및 에너지 기반 스코어링 함수 둘 다를 포함하고 있고 그 목적 함수는 GOLD [28][29], AutoDock v.3.0 [31] (with empirical weights), and FLOG [10]. 에서 이용되었다.
[40] Pearlman, D.A., Case, D.A., Caldwell, J.C., Ross, W.S., Cheatham III, T.E., Ferguson, D.M., Seibel, G.L., Singh, U.C., Weiner, P., Kollman, P.A. AMBER 4.1, University of California, San Francisco (1995).
[41] Cornell, W. D., Cieplak, P., Bayly, C. I., Goulg, I. R., Merz, K. M., Ferguson, D. M., Spellmeyer, D. C., Fox, T., Caldwell, J. W., Kollman, P. A., "A second-generation force field for the simulation of proteins, nucleic acids, and organic molecules", J. American Chemical Society, Vol. 117, 51795197 (1995).
[42] Jorgensen, W. L., & Tirado-Rives, J., J. American Chemical Society, Vol. 110, 16571666 (1988).
[43] Halgren, T. A., "Merck Molecular Force Field. I. Basis, Form, Scope, Parameterization, and Performance of MMFF94", J. Comp. Chem., Vol. 17, 490519 (1996).
[44] Brooks, B. R., Bruccoleri, R. E., Olafson, B. D., States, D. J., Swaminathan, S. and Karplus, M., "CHARMM: A Program for Macromolecular Energy, Minimization, and Dynamics Calculations", J. Comp. Chem., Vol. 4, 187217 (1983).
일반적으로 분자역학기반 스코어링 함수는 많은 확률추측 최적화 기반의 도킹 프로그램에 의하여 이용되는 목적함수와 밀접하게 닮을 수 있다. 그러한 함수들은 각종 속성 (즉 전하, 질량, vdW 반경, 원자가표 평형상수 등) 에 대하여 하나 또는 그 이상의 분자 역학적 힘의 장을 기반으로 하여 (즉 AMBER, MMFF, OPLS 등) 대표적으로 원자 (또는 화학적으로 그룹) 레벨로 된 각종 매개 변수를 요구한다. 어떤 경우에는 리건드에 대한 관련 매개 변수가 즉 MOPAC [45], AMPAC [46] or AMSOL [47] 를 사용하여 지정된 리건드의 부부적인 전하 처럼 다른 분자모델링 소프트웨어 패키지에 기반들 두고 지정되는 수가 있다. 그들은 또한 분자내부의 상호작용( 즉 분자 자체의 에너지) 을 포함할 수도 있고 뿐만 아니라 정전기학 같은 원 거리 상호작용도 포함한다. 어떤 경우에는 energy term 이 시험대상 리건드 목표 복합체를 대생성하기 위하여 최적화된 무게 숫자를 통하여 다시 수행될 수도 있다.
[45] Stewart, J. J. P., Quantum Chemistry Program Exchange, Vol. 10:86 (1990).
[46] Liotard, D. A., Healy, E. F., Ruiz, J. M., and Dewar, M. J. S., Quantum Chemistry Program Exchange no. 506, QCPE Bulletin, Vol. 9: 123 (1989).
[47] AMSOLversion 6.5.1 by G. D. Hawkins, D. J. Giesen, G. C. Lynch, C. C. Chambers, I. Rossi, J. W. Storer, J. Li, D. Rinaldi, D. A. Liotard, C. J. Cramer, and D. G. Truhlar, University of Minnesota, Minneapolis (1997).
지식기반의 스코어링 함수들은 처음에 모델일 액체에 대한 정역학의 포텐시얼 평균힘에 의하여 영감을 받은 것이었다. 실예는 DrugScore [48], PMF [49], and BLEEP [50].에 포함되어 있다.
[48] Gohlke, H., Hendlich, M. and Klebe, G., "Knowledge-based Scoring Function to Predict ProteinLigand Interactions", J. Mol. Biol., Vol. 295, 337356 (2000).
[49] Muegge, I. and Martin, Y.C., "A general and fast scoring function for proteinligand interactions a simplified potential approach.", J. Med. Chem., Vol. 42, 791804 (1999).
[50] Mitchell, J. B. O., Laskowski, R. A., Alex, A. and Thornton, J. M., "BLEEP Potential of Mean Force Describing ProteinLigand Interactions II. Calculation of Binding Energies and Comparison with Experimental Data", J. Comp. Chem., Vol. 20, 11651176 (1999).
일반적으로 지식기반의 스코어링 함수는 친화력 함수의 분할을 필요로 하지는 않는다. 그러나 관련된 분자 복합체의 3차원 구조의 방대한 데이터베이스 의 사용을 필요로 한다. 또한 보통은 알려진 실험상의 결합 친화력을 가진 분자 복합체의 일련의 데이터 셋에 대하여 물러설 필요는 없다. 이들 방법은 주어진 거리에 있는 두 개의 원자 사이에 바람직한 작용이 많으면 많을 수록 부피가 있는 불규칙한 매체에서의 기대치에 비례하여 그 만큼 도 발생 빈도가 커진다는 가정을 기본으로 하고 있는 것이다. 이러한 구조를 때로는 '역 Boltzman' 구조라고도 부르기도 하는데 그러나 실은 국부적인 존재와 고분자에서 최적화된 구조 그리고 단백질 폴드의 거리에 의존하는 쌍 모양을 선호하는 분포는 엄격히 말해서 Bolzman 일 필요는 없는 것이다. 또한 다른 분자 서술자 즉 용매화 효과를 추정하기 위한 용제를 알아 볼 수 있는 표면적 에 근거한 싱글 프리퍼런스라는 개념을 도입할 수도 있을 것이다.
혼합 스코어링 함수는 분명히 타입이 구별되는 하나 또는 그 이상의 스코어링 함수의 혼합일 수 있다. 한 가지 실례는 VALIDATE [51] 인데 이것은 분자-역학 / 경험적인 혼합 함수 이다. 또 다른 스코어링 함수의 결합도 총체적인 합의 스코어링이란 개념에 포함될 수도 있을 것이며 그 속에서 다중 함수는 각각의 분자 결합에 대하여 산정될 수 있을 것이며 일련의 규칙이나 통계학적인 기준 즉 각 스코 어링 함수의 순위 표에서 상위 10% 에 들게 발생한다든지 ( 교차점기반), 또는 최고 평균 순위 (평균치기반) 등 에 기초하여 어떤 총체적인 결정의 형태가 만들어질 수 있을 것이다. 총체적 스코어링에 관한 한 가지 유용한 검토 논의가 Bissantz et al. [52]. 에서 발결 될 수 있을 것이다.
[51] Head, R. D., Smythe, M. L., Oprea, T. I., Waller, C. L., Green, S. M. and Marshall, G. R., "VALIDATE: A New Method for Receptor-Based Prediction of Binding Affinities of Novel Ligand", J. American Chemical Society, Vol.118, 39593969 (1996).
[52] Bissantz, C., Folkers, G., Rognan, D., "Protein-based virtual screening of chemical databases. 1. Evaluation of different docking/scoring combinations", J Med Chem, Vol. 43, 47594767 (2000).
그러나 현재로는 목표-리건드 분자 결합의 모델링을 위하여 필요한 정도로 정확하고 오늘날의 약품 발견에서 요구되는 만큼 빠른 속도로 처리하여 잠재적인 약품 후보들을 효과적으로 광범위하게 스크리닝을 해주는 어떤 컴퓨터 도구도 없다.
구조 데이터베이스와 관련하여 목표 단백질과 화합물 두 가지에 대한 구조적 및 화학적인 정보를 디지털 표현 방식으로 보여주는 각종 파일 형식들이 있다. 그 예가 the pdb, mol2 (from Tripos), and the SMILES 포멧s 에 포함되어 있다.
[53] Westbrook, J. and Fitzgerald, P. M. (2003): Structural Bioinformatics, P. E. Bourne and H. Weissig (editors). Hoboken, NJ, John Wiley & Sons, Inc. pp. 161179.
[54] http://www.tripos.com/custResources/mol2Files/
[55] http://www.daylight.com/dayhtml/smiles/smiles-intro.html
[56] Clark, M.,Cramer, R.D., Opdenbosch, N. V., "Validation of the General Purpose Tripos 5.2 Force Field", J. Comp. Chem., Vol. 10, 9821012 (1989).
[57] http://www2.chemie.uni-erlangen.de/software/corina/index.html
잠재적인 분자 복합체를 형성하는 데에 있어서 포함되는 총 정전기 에너지를 측정하는 문제에 대한 논의는 Gilson et al. [58] 에서 찾아 볼 수 있다.
고전 역학의 분야에서 정전기 포텐시알을 컴퓨터로 푸는 것은 거리에 의존하는 유전체 함수를 포함한 그러한 단순한 수식에서부터 [59] Poisson-Boltzman 방정식의 해[60][61], 2차 효과, 일반적으로 비 선형적인 것, 타원형 편미분 방정식을 포함하는 것 같은 좀 더 복잡한 수식에 이르기까지이다
정전기적 용해모델을 시도하는 고전적 형식주의에는 일반적인 Born 용매화 모델에 의거한 방법들 [62][63], 접근가능한 추가 용매 또는 분해된 용량을 통한 반응 면적 효과의 대표를 포함하는 방법 [64][65][66], 또는 분자 동적 시뮬레이션의 문맥에서의 용해액의 명시적인 대표를 통한 방법 [67][68][69] 등이 포함된다. 정전기적 상호작용의 양성분자적 기계적인 처리의 방대한 검토는 Labanowksi et al. [70]에서 찾을수 있다.
[58] Gilson, M. K., and Honig, B., "Calculation of the Total Electrostatic Energy of a Macromolecular System: Solvation Energies, Binding Energies, and Conformational Analysis", Proteins, Vol. 4, 718 (1988).
[59] Mehler, E.L. and Solmajer, T., "Electrostatic effects in proteins: comparison of dielectric and charge models" Protein Engineering, Vol. 4, 903910 (1991).
[60] Holst, M., Baker, N., and Wang, F., "Adaptive Multilevel Finite Element Solution of the Poisson-Boltzmann Equations I. Algorithms and Examples", J. Comp. Chem., Vol. 21, No. 15, 13191342 (2000).
[61] Nicholls, A., andHonig, B., "A Rapid Finite Difference Algorithm, Utilizing Successive Over-Relaxation to Solve Poisson-Boltzmann Equation", J. Comp. Chem., Vol. 12, No. 4, 435445 (1991)
[62] Still, W. C., Tempczyk, A., Hawley, R. C. and Hendrickson, T., "A General Treatment of Solvation for Molecular Mechanics", J. Am. Chem. Soc., Vol. 112, 61276129 (1990).
[63] Ghosh, A., Rapp, C. S., and Friesner, R. A., "A Generalized Born Model Based on Surface Integral Formulation", J. Physical Chemistry B., Vol. 102,1098310 (1988).
[64] Eisenberg, D., and McLachlan, A. D., "Solvation Energy in Protein Folding and Binding", Nature, Vol. 31, 3086 (1986).
[65] Privalov, P. L., and Makhatadze, G. I., "Contribution of hydration to protein folding thermodynamics", J. Mol. Bio., Vol. 232, 660679 (1993).
[66] Stouten, P. F. W., Fr?mmel, C., Nakamura, H., and Sander, C., "An effective solvation term based on atomic occupancies for use in protein simulations", Molecular Simulation, Vol. 10, No. 26, 97120 (1993).
[67] Bash, P., Singh, U. C., Langridge, R., and Kollman, P., "Free Energy Calculation by Computer Simulation", Science, Vol. 236, 564 (1987).
[68] Jorgensen, W. L., Briggs, J. M., and Contreras, M. L., "Relative Partition Coefficients for Organic Solutes from Fluid Simulations", J. Phys. Chem., Vol. 94, 16831686 (1990).
[69] Jackson, R. M., Gabb, H. A., and Sternberg, M. J. E., "Rapid Refinement of Protein Interfaces Incorporating Solvation: Application to the Docking Problem", J. Mol. Biol., Vol. 276, 265285 (1998).
[70] Labanowski and J. Andzelm, editors, "Density Functional Methods in Chemistry", Springer-Verlag, New York (1991).
발명의 요약
본 발명의 면모는 분자 재배열의 두 개 또는 그 이상의 분자 부분 집합에 대한 친화력 함수를 효과적으로 컴퓨팅하기 위한 방법과 장치에 관한 것이며 거기에서 어느 한 개 또는 양쪽 분자 부분 집합은 복수의 병렬 파이프라인으로 구성된 계 산 수단을 근거로 하여 분자 라이브러리에서 선택된 복수의 분자 부분 집합에서 선정된 것이다. 발명의 또 다른 면모는 계산 수단으로 가능한 처리능력을 최대한 이용하기 위하여 병렬 친화력 파이프라인의 동기화에 관한 것이다. 발명의 또 다른 면모는 데이터 경로 배치 수단 사용에 관련된 것인데 분자 서술자 데이터를 데이터 경로 스케줄에 따른 한 개 또는 그 이상의 데이터 불럭으로 각각의 친화력 엔진에 배분하는 것이다. 본 발명에 관한 좀 더 구체적인 것은 분자결합의 분석에 관련하여 발명을 이용하는데 관련하여 논의하게 될 것이며 한 개 또는 그 이상의 입력 환경 배치로부터 새로운 배치의 효과적인 생성을 제공하는 것을 포함하여 복수의 친화력 함수 컴퓨팅을 복수의 장치 배치에 대하여 하고 그에 따라서 다음 분석을 위하여 처리된 배치 환경을 선택하고 뿐만 아니라 탐색하고 최적화하는 전략과 관련하여 발명을 반복적으로 이용하는 것을 포함한 여러 가지 구체적인 것을 논하게 될 것이다. 더 나아가서 하드웨어 장치에 관련된 발명의 효과적인 실행에 관하여 본 발명의 각종 구체적인 것이 논의될 것이다.
도면의 간단한 설명
첨부한 도면에 관하여 생각해 볼 때에 상세한 설명에 참조하여 더 잘 이해하게 될 것이므로 발명에 대한 좀 더 복합적인 평가와 거기에서 오는 여러 가지 이점들을 쉽게 얻게 될 것이다.
Fig 1. 은 분자 컴포메이션이 구조에 가능한 변화에 관련된 컨포메이션 상 자유의 정도에 관한 몇 가지 예를 보인 것이다.
Fig 2a,2b,및 2c 는 메토트렉세이트 를 각각 2-D 구조로 나타내 보인 것으로 ball 과 stick은 메토트렉세이트 의 컨포메이션을 나타낸 것이며 또 다른 메토트렉세이트 의 컨포메이션은 자유도 의 2도 비틀림 변화에 의하여 Fig. 2b에 나타낸 것과는 다르다.
Fig. 3a, 3b, 및 3c 는 각각 메토트렉세이트 의 한 포즈 의 ball과 stick 을 나타낸 것이며 구면 3D 좌표로 배열된 직교좌표가 첨부되어 있는 것이고, 평행이동과 고체회전 두 가지를 한 후의 다른 메토트렉세이트 의 한 포즈 의 ball 과 stick 을 나타낸 것이며, 끝으로 컨포메이션에 변화를 포함한 또 다른 메토트렉세이트 의 한 포즈 의 ball 과 stick 을 나타낸 것이다.
Figs. 4a, 4b, 와 4c는 메토트렉세이트 와 단백질 다이하이드로폴레이트 환원효소의 특징을 나타내 보이는 분자결합의 배치 예를 보이는 것으로 Fig. 4a 는 메토트렉세이트 의 한 포즈 의 ball 과 stick 을 나타내고 그리고 단백질 다이하이드로폴레이트 환원효소의 한 포즈를 활성 위치와 연관된 용제의 볼 수 있는 표면의 부분을 나타낸 것이고 Fig. 4b는 단백질은 같은 포즈 (Fig. a 처럼) 지만 메토트렉세이트는 다른 포즈 인 모습을 보인 다른 배치를 나타낸 것이고 끝으로 Fig.4c는 또 다른 배치인데 그러나 이번에는 단백질과 메토트렉세이트 둘 다 다른 포즈 를 보이는 것이다.
Fig.5 는 메토트렉세이트 분자와 관련된 자유도 의 복수의 비틀림 정도를 예시한 것이며
Figs. 6a, 6b, 와 6c 는 각각 메토트렉세이트 의 한 포즈 를 pdb-포멧 으로 된 파일 형식으로 디지털로 보인 것이고, 같은 포즈 의 메토트렉세이트 를 mol2 포 멧 으로된 파일 형식으로 디지털로 나타낸 것이고 그리고 메토트렉세이트 원자와 Amber96 힘의 장에 따라서 지정된 화학결합에 대한 한 세트의 물리학적인 descriptors 를 file listing 한 것이다.
Fig. 7 은 본 발명에 관련된 것으로 분자결합의 분석에 대한 모델링 시스템의 구체적인 도식의 하나 이고
Fig. 8은 배치 modele의 구체적인 상세한 도식으로 배치 데이터 트랜스포메이션 엔진과 친화력 계산기인데, 본 발명과 관련된 분자 결합 분석을 위한 모델링 시스템의 한 부분이 된다.
Fig. 9a 는 두 개의 병렬 파이프 라인을 갖춘 친화력 엔진의 구체화된 보기의 도면으로 그 중 하나는 정전기 컴퓨팅을 전적으로 맡고 다른 하나는 vdW 컴퓨팅을 맡아서 파이프라인, 병렬처리, 그리고 동기화의 개념을 시범적으로 보이기 위한 것이다.
Fig. 9b는 수정된 하모닉벤딩 포텐시아에 따라서 분자 배치에 있어서의 하나 또는 그 이상의 결합 각도의 변화와 관련된 분자간의 장력 에너지를 효과적인 파이프라인으로 컴퓨팅 하기 위한 화학결합 기반의 친화력 엔진의 구체화된 보기의 도면
Fig.10 은 두 개의 별개의 데이터 경로, 병렬로 작동하며 계산 수단과 누적계산 수단 나타내며 두 개 그룹의 친화력 엔진, 데이터 경고 배치 수단을 포함한 배치 모델러의 한 부분의 구체화된 보기의 도면이며 그러하여 파이프라인 동기화의 개념을 시범적으로 보이도록 한 것이다.
본 발명은 본 특허신청 설명을 읽은 후에는 분명해 지는 바와 같이 여러 가지 응용 법이 있다. 본 발명에 따른 컴퓨터 시스템의 구체전인 것을 설명함에 있어서는 단지 몇 가지 가능한 변형만 설명될 것이다. 기타 응용이나 변형은 본 기술에 포함된 하나의 정상적인 기능으로 분명하게 될 것이므로 본 발명은 실례와 같이 좁은 의미로 해석되어서는 안되며 오히려 첨부된 주장과 일치하여 해석되어야 할 것이다.
발명의 구체적인 것은 이제 실례를 드는 방법으로 설명될 것이지만 제한 적인 것은 아니다. 본 발명은 광범위한 유용성이 있는 것이어서 여러 가지 다른 맥락으로 상용될 수 있다는 점을 이해하여야 한다.
분자의 부분 집합은 분자의 구성 요소의 전체이거나 또는 부분이며, 여기서 구성요소는 한 개의 원자나 결합자, 원자들과 또는 결합자의 집합, 아미노산 찌거기, 뉴클레오티드 등 일수도 있다. 분자의 부분 집합은 한 개의 분자, 한 개 분자의 부분, 한 개 또는 그 이상의 분자들로 구성된 화합물 (또는 기타 생물 반응을 하는 매체), 단백질, 한 개 또는 그 이상의 단백질의 부분 집합이거나 영역, 핵산, 한 개 또는 그 이상의 펩티드 또는 한 개 또는 그 이상의 올리고뉴글레오티드 를 포함 할 수도 있다. 다른 구체적인 것으로 분자의 부분 집합에는 하나 또는 그 이상의 이온, 개개의 원자, 또는 소금과 같은 그러한 단순한 분자의 전체 또는 그의 부분, 가스 분자, 물 분자, 기, 또는 알코올, 에스테르, 케톤, 단순한 설탕등등 같은 유기화합물 분자를 포함할 수도 있다. 또 다른 구체적인 것 분자의 부분 집합에는 유기 분자들과 그 찌꺼기, 뉴클레오티드, 함수탄소, 무기분자들 그리고 기타 합성제, 의약품, 유사약품, 또는 자연 화합물등을 포함한 화학적으로 활성적인 것들을 포함할 수도 있다.
또 다른 구체적인 것 속에는 분자의 부분 집합이 이미 결합되어 있거나 또는 목표에 한 개 또는 그 이상의 공유결합으로 붙어 있는 것일 수도 있다. 또 다른 구체적인 것 속에는 분자의 부분 집합이 단백질의 제3차 구조를 형성하는 2차 구조 원소들 또는 단백질의 4차 구조의 하위 단위 와 같은 그러한 사실상 한 개 또는 그 이상의 목표의 구조적 성분을 포함할 수도 있다. 또 다른 구체적인 것 속에는 분자의 부분 집합이 한 개 또는 그 이상의 목표 분자의 부분, 한 활성 부위의 전체나 부분을 포함하는 단백질 영역 같은 것, 하나 또는 그 이상의 단백질 찌꺼기에 근접성에 근거하여 선택된 하나 또는 그 이상의 공간적으로 연결된 단백질 구조의 부분집합, 또는 심지어 연결되지는 않은 단백질 부분 집합이지만 촉매 성질이 있거나 각종 분자 상호작용 때문에 관심이 있는 단백질 표면 잔유물을 포함 할 수 있다. 또 다른 구체적인 것 속에는 분자의 부분 집합은 기존 분자 복합체 전체나 부분 두 개나 또는 그 이상의 가른 분자 부분 집합 사이의 분자 결합을 의미하는 것 , 예를 들면 한 개의 활성화된 단백질이나 또는 다른 자리 입체성 효과로 (allosterially) 묶여있는 단백질 같은 것을 포함할 수 있다.
한 개의 분자 결합은 (때로는 단순히 결합이라고 한다.) 잠재적으로 결합된 것일 수도 있고, 분자 복합체를 형성한 것일 수도 있으며 또는 보통 특수한 물리학적, 화학적 또는 생물학적 환경에서 달리 서로 상호작용을 하는 것일 수도 있는, 두 개 또는 그 이상의 분자 부분 집합의 집합체이다. 결합이란 최소한 두 개 또는 그 이상의 상호작용하는 분자 부분 집합의 동일체라고 말할 수 있다.
앞으로 나올 여러 보기와 설명에서 분자 결합은 두 개의 분자 부분 집합의 대표적인 시나리오를 나타내는 것으로, 거기에서 리건드 생체분자(일차 분자 부분집합)은 목표 생체분자 (보통 생체고분자 이차 분자 부분집합)와 상호 작용한다. 그러므로 분자 결합에 관한 대표적인 분석은 하나의 리건드가 목표 분자와 특정한 환경에서 상호작용을 할 것인가 그리고 어느 정도로 할 것인가를 결정하기 위한 탐구이다. 달리 표기한 바가 없는 한 그러한 보기와 설명은 보다 일반적으로 분자 결합에 적용할 수 있다는 점을 이해하여야 한 것이다. 거기에서 두 개 이상의 분자 부분집합이 서로 결합하거나 상호 작용하고 하나 또는 그 이상의 목표 분자 와/또는 하나 또는 그 이상의 리건드가 또는 심지어 특정한 환경과 관련되는 그러한 기타 분자 까지도 전체 또는 부분으로 나타난다.
한 보기로 본 발명의 구체적인 하나의 내용에서 분자 결합은 리건드 (즉 목표-리건드 쌍) 와 상호 작용하는 목표를 나타낼 수 있다 거기에서 하나의 분자 부분 집합은 단백질에서 그리고 다른 집합은 리건드에서 유래한 것이다. 좀 더 구체적으로 설명하면 분자 결합은 한 목표-리건드 쌍을 나타내는 수 있는데 여기서 한 분자 부분 집합은 전체 리건드 생체분자이고 그러나 다른 분자 부분 집합은 하나 또는 그 이상의 관련된 활성 부위를 포함하고 있는 목표 생체고분자의 한 부분인 것이다.
그러나 또 다른 구체적인 내용에서 분자 결합은 두 개 이상의 분자 부분 집합의 특성을 보이는 수가 있다. 하나는 목표 (전체 또는 부분)을 나타내고 다른 둘은 마치 경쟁관계에 있는 열역학 평형상태의 경우에 단백질의 가능한 억제인자와 자연적인 결합인자 사이에서와 같이, 두 개의 분명히 다른 리건드에 상응하면서 동시에 동일한 목표와 상호 작용을 한다. 그러나 또 다른 구체적인 내용에서는 분자 결합이 한 개가 리건드 생체분자와 경쟁관계에 있는 두 개의 목표 분자의 모습을 보이는 그런 식으로 전술한 보기가 뒤집히는 수도 있다.
또 다른 보기로서 어느 한 구체적 설명에서는 분자 결합이 단백질 대 단백질의 상호작용을 나타내는 수도 있는데 거기에서는 두 개의 분자 부분집합이 있어서 각자가 전체를 나타내거나 또는 한 단백질의 관련된 한 부분을 나타내기도 한다. 좀 더 구체적으로는 분자 결합은 단백질 대 단백질의 상호 작용을 나타낼 수도 있지만 그러나 현재는 각자가 적절하게 한 개의 단백질 영역을 나타내면서 잠정적으로 두 개 이상의 분자 부분 집합을 나타내는 것이다.
또 다른 보기로서 분자 결합은 두 개의 분자 부분 집합의 특성을 보일 수도 있다. 목표-리건드 쌍을 나타내면서 그러나 추가 분자 부분집합은 상호작용과 관련하여 다른 원자나 분자 (헤테로 원자 또는 헤테로 분자)를 나타내기도 한다. 그것은 마치 ,그러나 그에 제한되지 않고, 하나 또는 그 이상의 촉매나 구조적 금속 이온 처럼, 하나 또는 그 이상의 질서정연한 결합된 또는 구조적인 물 분자, 하나 또는 그 이상의 소금 분자, 또는 심지어 각종 액체나 탄수화물, 산, 염기, mRNA, ATP/ADP 등등 과 같다. 또 다른 구체적인 설명에서 분자결합은 두 개의 분자 부분 집합의 특성을 보이기도 하는데 목표-리건드 쌍을 나타내지만 그러나 또한 하나 또는 그 이상의 추가된 분자 부분집합은 세포막의 전체나 한 부분, 지방질 두 겹층의 한 부분과 같은, 세포핵 막 등 또는 미토콘드리온, 리보솜, 엔도플라스믹 리티굴럼 등과 같다.
또 다른 구체적인 설명에서 분자 결합은 두 개 또는 그 이상의 분자의 부분 집합의 특성을 보일 수 있는데 한 개나 또는 그 이상의 분자 부분 집합은 한 분자 복합체의 여러 부분을 나태내면서 다른 부분집합은 점유되지 않은 활성 부위에서 그 분자 복합체와 상호 작용하는 리건드를 나타낸다. 그 것은 마치 단백질이 다른자리입체성 활성체(allosteric activator) 와 복합체가 되거나 또는 단백질이 다수의 별개의 활성 부위를 포함하고 있는 것과 같다.
또 다른 구체적인 설명에서 분자 결합은 두 개 또는 그 이상의 분자의 부분 집합의 특성을 보일 수 있는데 단백질 연쇄고리나 또는 4원수의 단백질 구조처럼 비 공유 결합으로 상호 작용하는 하위단위를 나타낸다. 또 다른 구체적인 설명에서 분자 결합은 두 개 또는 그 이상의 분자의 부분 집합의 특성을 보일 수 있는데 예를 들면 단백질의 폴딩(folding)이나 돌연변이에 의하여 유발된 폴리펩티드 체인의 3차 구조처럼 제이구조 원소들과 상호작용을 하는 단백질을 나타낼 수도 있다.
분자 부분집합은 마치 어떤 수의 가능한 물리적 및/또는 화학적 인자에 의하여 지배되는 것 처럼 다른 환경에서는 다르게 상호작용을 하는 듯이 보인다 그러한 인자에는 그러나 그에 한정하지 않고, 온도, pH, 압력, 화학적 포텐시얼, 막 삼투성, 용해도, 분극성 ( 용질 및 용매), 점성, 전도성, 유전성 강도, 상(가스, 액체, 또는 고체), 전이 또는 혼합, 대전 과/또는 여러가지 높은 다극 모멘트 간의 정전기적 포텐시얼, 경계면 간의 표면장력, 주변환경 용제 속에 들어있는 이온이나 염 등등 이 있다. 서로 다른 주변환경도 (아마도) 장소의 분자 부분 집합이 예를 들자면 위장의 구역이라든지 혈류라든지 생체 밖의 실험실 시험관 안에서 간에서 세포막에서 세포질에서 종양에서 등등 상호작용하는 부의의 위치에 따라서도 특징 지을 수 있을 것이다.
본 발명의 한 가지 구체적인 것으로 분자 결합은 환경의 정의를 포함할 수 있을 것이다. 그러한 두 가지 서로 다른 분자 결합은 그렇다면 같은 세트의 상호작용하는 분자 부분집합으로 구성될 것이며 ( 즉 목표-리건드 쌍) 그러나 다른 환경과는 그렇지 않을 것이다. 한가지 보기로 한 개의 분자 결합이 거의 진공인 기체 상태에서는 목표 단백질-리건드 의 특성을 보일 것이다. 다른 분자 결합에 대하여 같은 목표 단백질-리건드 쌍을 용제에 둘러싸인 속에 집어넣어 액체상태로 있게 할 수 도 있을 것이다. 또 다른 분자 결합에 대하여 같은 목표 단백질-리건드 쌍을 X-레이 결정학 실험에서처럼 크리스털 격자 안에다 달아 놓을 수도 있을 것이다.
이후의 여러 본보기와 설명에서 분자 결합은 목표-리건드 쌍의 서로간의 상호작용이 위생학적 pH 에서 수성 용제 환경에서 이루어 지는 전형적인 시나리오를 나타낼 것이다. 여기서 용제라는 용어는 일반적으로 다수의 원자, 이온, 및/또는 단순 분자 (즉 물, 소금, 설탕)를 참조하는 것이다. 어느 한 구체적 설명에서 용제는 한 개 또는 그 이상의 용제 분자 부분 집합으로 나타내는 수가 있다. 또 다른 구체적 설명에서는 적절히 계속하여 언급하지 않은 용매화 모델은 용제를 나타내는 것일 수도 있다.
또 다른 설명에서는 분자 결합이 그 자신과 주위의 용제와 상호작용하는 단지 한 가지 분자의 부분집합을 의미하는 것일 수도 있는데, 이것은 한 개 또는 그 이상의 최선의 에너지 분자 컨포머를 결정한다거나 또는 단백질의 경우에 한 개 또는 그 이상의 바람직한 폴더를 결정할 때에 그렇다. 그러한 시나리오 에서는 두 개의 다른 분자 결합이 서로 다른 환경에서 동일한 한 개의 분자 부분집합을 나타낼 수도 있다. 그러한 설명에서는 환경은 표준 분자 결합과 관련된 이차 분자 부분집합에 대하여 일종의 대행자처럼 보일 수 있다. 이것은 어느 분자에 대하여 그리고 한 분자의 부분이 그 자신과 하는 다른 상호작용에 대하여 최적의 포즈를 결정하는 데에 유용하다.
이미 언급한 바와 같이 분자 결합의 대표적인 분석은 리건드가 목표 분자와 특정한 환경에서 상호작용을 할 것인가 그리고 하면 어느 정도 인가를 결정하기 위하여 탐구하는 것이다. 다른 설명에서 각각 다른 리건드에 상응하면서, 예를 들면 분자 라이브러리에서 (가상적 또는 다른 방법으로) 선정 되고 , 같은 목표 분자와 같은 환경에서 결부된, 목표와 결합하거나 그렇지 않으면 반응하였을지 모르는 한 개 또는 그 이상의 리건드를 찾아내기 위하여, 또는 심지어 목표 단백질의 활성 부위를 좀더 달 특성을 짓기 위한 것 등등, 분석은 수 많은 분자 결합을 포함할 수 있다. 그러한 경우에 관련된 생체활동에 관한 상대적인 비교를 얻기 위하여 각 분자 결합에 대하여 점수나 순위를 지정할 필요가 있을 것이다.
각 목표-리건드 쌍이 개별적인 하나의 결합인 그러한 시나리오 에서는 만약 하나의 목표에 대하여 시험할 N 개의 리건드가 있다면 N 개의 분자결합이 분석에 포함된다. 충분한 광범위의 분자 라이브러리를 위해서는 한 개의 목표 단백질에 대하여 수 백만이 넘는 가능한 분자 결합 분석이 필요할 것이다.
그러나 또 다른 설명에서 분석은 저장될 수 있고 분자 결합의 숫자가 많은 것은 목표 분자가 많은 것을 나타내며 각각은 동일한 리건드 생체분자와 같은 환경에서 결합한다. 또 다른 설명에서 분자결합은 동시에 반응하는 다수의 리건드와 /또는 목표를 나타낼 수 있고 즉 하나의 목표-리건드 쌍 보다 많이 나타낼 수 있으며 그리고 또한 이전에 논한 바와 같이 여러 가지 이종 원자나 분자를 포함할 수도 있다.
주어진 분자 부분집합의 구조가 각각 다른 기하학적인 상태라고 상정할 수 있다는 뜻은 분자 부분집합 내의 원자와 결합자 및/또는 화학적 기(基)가 변할 수 있다는 것을 의미한다. 이러한 종류의 분자 부분집합의 구조 변화는 이후 형태(conformation) 에서 상세히 설명하게 될 것이다. 앞으로 여러 가지 보기와 설명에 있어서 대부분의 공유결합은 형태가 변하는 중에서도 보존된다 즉 결합은 끊어지거나 형성되지 않는다고 가정할 것이다. 비록 이황화물 결합이나 수소결합 그리고 소금의 브릿지와 같은 그러한 다른 화학적 결합에 대하여는 경우가 다르지만. 그러나 본 발명은 결합이 쉽사리 깨지거나 새로 형성되는 화학적 반응에도 똑 같이 잘 적용된다는 사실은 본 기술이 가지고 있는 분명히 하나의 뛰어난 기능이라고 할 것이다. 그 이유는 특정한 분자 결합을 분석하는 동안에 분자 부분집합의 응고나 분할 두 가지 다 허용하고 직접진행하기 때문이다.
동일한 분자 부분집합에서 두 가지 서로 다른 형태가 결과로 나타날 수 있는데 이것은 결합 길이의 상대적인 변화, 결합 각도, 결합 비틀림 ( 적절 부적절 둘 다), 또는 기타 링 변형 (즉 링 코너 회전운동, 링 후크 접힘 등)과 같은 그러한 보다 복합적인 변화 등으로 인한 것이다. 두 가지 형태간의 차이는 부분 집합에 있어서 단 한 개 원자의 위치 변화처럼 미묘하여(지역적) 포착하기 어려운 경우도 있고 서로 분명히 다른 단백질 폴드(fold) 나 다수의 활성 잔재에 대한 곁 사슬의 변화 (lateral chain) 처럼 전반적으로 클 수도 있다. 기하학적으로 가능한 몇 가지 형태상의 변화는 일반적으로 물리학적으로 실현될 수 없다. 왜냐하면 그런 것들은 구성 원자나 기가 바람직 하지 않은 원자공간적인 충돌의 결과로 생기기 때문이다. 허용되는 형태상의 변화는 일반적으로 자유도 의 정도로 나타낸다.
Fig. 1 은 분자의 형태 변화와 관련된 몇 가지 표준 자유도 정도의 보기를 도표로 보인 것이다. 아이템 102 는 화학적 결합 신축 즉 두 이웃하는 원자 104와 106 사이에서 결합 길이 변화를 보여준다. 항목 110 은 결합 각도가 굽은 예 즉 세 개의 연속되는 원자 112,123 및 115 의 결합 각도의 변화를 보여준다. 항목 120 은 적당한 비틀림의 예를 보여준다. 즉 원자 122 와 123 사이에 결합 둘레를 회전하는 것, 또는 동등하게 원자 121,122,123 으로 정의되는 평면과 122,123,124로 정의되는 평면 사이의 이면각의 변화. 이 보기에서 적당한 비틀림이란 원자 125, 126 이, 그들 자신과 원자 123과 124에 대하여 상대적인 거리를 보존하기 위하여, 원자 123과 124 사이에 유사하게 회전을 할 것이라고 가정한 것이다
계속하여 Fig. 1 에서 항목 140 은 부적당한 비틀림의 한 예를 보여준다. 즉 원자 141,142 그리고 143으로 정의되는 평면과 141,142,및 144로 정의되는 평면 사이의 양면 각도가 변하였다. 항목 150 은 원자 151,152,153,154,155,156으로 정의된 비 방향족 동소고리 의 book-holding 변환을 보이는 것이다. 이 경우에 변환은 원자 151,152,153및 154로 정의되는 평면과 151,156,155및 154로 정의되는 평면 사이의 각도의 변화를 반영한다. 끝으로 항목 160 은 같은 비 방향족 동소고리의 코너 플래핑 (corner-flapping) 변환을 보이는 것이다. 그러나 지금은 변환이 원자 151,152,153,156 및 155로 정의되는 평면과 원자 155,154및 153으로 정의되는 평면 사이의 각도의 변화를 반영하고 있다.
기타 형태상의 자유도 의 정도가 가능하다cis 와 trans 모드 사이의 교환 (그에 한하지 않고) 같은 그런 것으로, 하나 또는 그 이상의 손 대칭 중심에서의 변화, 다른 입체 이성체 반사, 또는 좀 더 복잡한 링의 디포메이션 특히 장세대형인 것 등. 그러나 분자 형태에 있어서의 공유 결합을 끊거나 형성하지 않는 많은 (거의 모든 것이 아니면) 변화는 하나 또는 그 이상의 Fig. 1 의 명단에서 앞에서 언급한 자유도의 정도로 분해될 수 있다.
여러 경우에 자유도의 정도는 또한 관련된 원자와 결합의 허용된 운동을 구속하는 것을 반영하는 강제력을 가지고 있다. 그러한 강제력은 자연에 의하거나 또는 화학적인 결합을 하이브리드화한 상태에 의하여, 문제의 구조상의 변화와 관련된 에너지 랜드스케이프, 또는 심지어 기타 제이 구조원소나 단백질 구조 모티브 또는 각종 이종 원자나 분자의 존재 같은 그러한 다른 좀 더 정교한 것으로도 동기가 주어질 수 있다.
여러 가지 이후의 보기와 설명에서 분자 부분집합의 형태는 주로 적절하고 부적절한 비틀림에 대한 하나 또는 그 이상의 자유도 정도와 관련된 것일 것이다. 왜냐하면 여러 시스템에 있어서 표준 리건드와 목표에 있어서의 대부분의 화학적인 결합의 결합 길이와 결합 각도는 결합의 비 결합과 결합 상태 사이에서 그다지 현저하게 변하지 않는 것이기 때문이다. 화학적 기의 구조적인 불안과 관련된 가장 그럴듯한 예외는 링의 순환이다 (특히 장세대형의). 그렇지만 여러 설명에 있어서 분자 형태는 자유도의 비틀림 정도에만 한정될 필요는 없는 것이다.
Fig. 2b. 는 화학분자식 C20H22N8O5 와 Fig. 2a. 에서 나타낸2-D 화학적인 표현은 메토트렉세이트 분자 200의 형태 205의 ball and stick 렌더링을 보여주는 것이다. 거기서 나타낸 분자 부분집합은 원자 220과 결합 230의 집합으로 구성되어 있다. 항목 213으로 나타낸 바와 같이 작고 검은 원자는 탄소 원자를 나타낸다. 가늘고 흰 원자는 항목 216으로 나타낸 바와 같이 수소 원자를 나타낸다. 거기서 약간 크고 어두운 색갈은 (항목 210) 산소 원자이고 약간 크고 흰 원자 (항목 229) 는 질소 원자 이다. 계속하여 Fig. 2a 에서 항목 223은 벤젠 링 (C6H4) 을 나타낸 것이고 항목 225는 카보옥실기 (COO-)를 포함하고 있는 고리를, 그리고 항목 227은 메칠 기(CH3)를 포함하고 있는 또 하나의 고리이다. 항목 223은 벤젠 링 223을 메칠기 227을 포함하고 있는 에스테를 기에 연결하는 공유 결합을 나타낸다. 항목 235는 탄소 원자 213을 카보옥실 기 225에 연결하는 공유결합을 나타낸다. 끝으로 항목 237은 메칠기 227을 질소원자 229에 연결하는 공유결합이다.
Fig. 2c 는 같은 메토트렉세이트 분자 200 의 또 다른 형태 260 의 ball and stick 렌더링을 보여주는 것이다. Fig. 2b 와 2c 는 에서의 형태는 결합 235 와 237에 대한 자유도 의 비틀림 정도에 지정된 비틀림 각도 값만 다른 것이며 그리하여 상대적으로 나머지 분자에 비하여 원자와 그리고 메칠기 (227) 과 카보옥실 기(225) 의 결합에 대하여 다른 위치에 있는 결과가 되었다.
주어진 분자 부분 집합의 형태는 전체적인 코디네이트 시스템과 관련하여 상이한 기하학적 상태로 변환되거나 회전하였다. 분자 부분집합의 형태의 이런 종류의 변화는 이후 포즈 라는 자세한 설명에서 참조될 것이다.
Fig. 3c 는 메토트렉세이트 분자의 형태 300을 보여주는 것이다. 항복 320 (검은 색)은 전체적인 직교좌표 시스템 즉 (x,y,z) 를 정의하는 3차원 좌표축을 보이는 것이다. 항목 340 (희색) 은 분자에 첨부한 지역적인 직교좌표 프레임 (x'y'z')을 보여주는 것인데 그 것은 전체적인 직교좌표 축 320 과 현재 일직선으로 정렬되어 있다. Fig. 3b 는 상이한 포즈 로 있는 동일한 형태 300 을 보여주는 것이다. 지금은 그 분자가 전체적인 직교좌표 320 의 x 축을 따라서 옮겨졌으며 그에 첨부된 직교좌표 프레임 340 은 축 320 에 대하여 각도 (a, b, c) 로 회전되었다. 형태 300의 이동과 회전이 모든 원자들에 대하여 균일하게 적용되어서 한 원자와 결합의 다른 것에 대한 상대적인 위치가 변하지 않았음에 유의해야 한다.
형태를 정의할 때에 원자와 결합의 위치를 나타내는 데에 사용되는 좌표 시스템의 정의는 중요하지 않다. 그 이유는 한 분자의 부분 집합에 있어서 형태는 구성 원자와 결합의 상대적인 위치에 관련되기 때문이며 그러한 여하한 적합한 좌표 시스템도 선택될 수 있기 때문이다. 그렇지만 포즈 를 고려할 때에는 좌표시스템의 본성이 원자와 결합의 위치를 그려내어 주고 다른 분자 부분 집합과 심지어 주위의 성분들을 포함하여 분자결합의 모든 다른 부분에 까지 나타내어 줄 것이다. 더구나 좌표 시스템의 선택은 이동과 회전을 일으키는 오퍼레이터를 어떻게 정의할 것인지를 결정하게 되고 그것들이 주어진 형태에 어떻게 작용할 것인지를 결정하게 된다. 대표적인 좌표시스템 의 보기는 직교좌표, 원통 좌표, 그리고 구면 극좌표의 보기 이다. 대표적인 선택은 분자 질량의 중심점 즉 重心에다 지역 직교좌표 틀 (또는 그와 동등한 것)을 첨부하는 것이다.
하나의 분자 부분집합에 대하여 두 가지 서로 다른 포즈 동일한 형태를 가지지만 그러나 그들의 상대적인 이동과 회전에서만 다를 수가 있다. 그러한 포즈는 고체 변환에 의해서만 다르다고 말할 수 있다. 그와 반면에 두 가지 포즈가 그들의 형태에 있어서만 다르고 그러나 이동과 배향이라는 의미에서는 (즉 두 포즈 에 대하여 첨부된 지역적 직교좌표 틀이 무게 중심에 첨부되었을 때) 하등 차이가 없는 수도 있다. 물론 두 포즈는 전체적인 좌표시스템에 대하여서는 형태나 이동 배향 모두에 있어서 변화 때문에 다를 수가 있다. Fig. 3c 는 메토트렉세이트 분자가 형태나 이동 배향 모두에 있어서 변화 때문에 서로 다른 포즈에 있는 그러한 경우를 보여주는 것이다.
전통적으로 이동과 형태의 배향과 결부된 자유도 정도에는 총 여섯 등급이 있는데, 셋은 이동 (즉 중점 혹은 질량의 중심점의 이동이고) 셋은 배향 (즉 Euler 각도) 에 대한 것이다.
하나의 분자 결합이 특수한 환경에서는 두 가지 또는 그 이상의 분자 부분집합을 포함할 수 있으므로 배치 (configuration) 란 용어는 이후부터 설명에서 모든 구성 분자의 부분집합의 합동 포즈를 나타내는 것으로 사용하게 될 것이다. 그러므로 하나의 분자 결합의 특별한 배치는 선택된 좌표시스템과 관련하여 일반적으로 모든 분자 부분집합의 모든 구성 성분의 한 세트의 위치를 설명하는 것이며 서로에 대한 주변환경의 모든 구성요소들을 설명하는 것이다.
Fig. 4a 는 ball and stick 을 나타낸 분자결합의 배치를 보여주는 것으로 화학요법 약품 메토트렉세이트 400 (리건드) 과 단백질 다이하이드로폴레이트 환원효소420 (목표) 의 한 부분을 용제로 접근할 수 있는 표면(어두운 회색)을 통하여 표현된 것이다. Fig. 4b 는 같은 분자결합의 다은 배치를 보여주는 것으로 동일한 메토트렉세이트 리건드 400 에 대하여 다른 포즈 440를 보여주고 그리고 목표 단백질 420에 대하여 같은 포즈를 취한다. Fig. 4c는 동일한 분자 결합에 대하여 아직 다른 배치를 보이지만 그러나 이제는 리건드 400 와 목표단백질에 420 두 가지 모두에 대하여 각각 다른 포즈 (460 과 480) 를 취하는 것을 보여준다. Fig. 4c 에서 여러 활성 부위 찌꺼기들을 재 정돈 한 형태 변화의 결과로 활성부위에 있는 홈(groove) 이 변한 것에 유의하기 바란다.
분자 결합을 분석할 때에 각각의 상호작용하는 분자 부분집합에 대하여 많은 서로 다른 포즈 를 나타내는 많은 여러 가지 배치를 평가해 볼 필요가 있을 것이다. 한 예로서 Figs. 4a-4c 에서 설명한 분자 결합을 생각해 보기로 하자. 이 보기에서 잠시 단백질은 고정된 채로 남아있고 리건드는 여러 가지 포즈를 취한다고 가정해 보자. 또한 메토트렉세이트 리건드는 몇 가지 적당한 비틀림을 통하여서만 그 형태를 변하고 그리고 연결 길이, 연결 각도 그리고 링의 기하학적 요소는 분석하는 동안에 고정된 채로 남아 있다고 가정해보자.
Fig. 5 는 메토트렉세이트 리건드의 2-D ball-and-stick 표현 (항목 500) 을 보여주는 것으로 적당한 비틀림을 나타내며 허용된 정도의자유도 에 대한 주석도 보여준다. 항목505, 510. 515, 520, 525, 530, 535, 540, 545, 550 은 허용된 자유도 의 비틀림 정도를 나타내며 (여기서 두 연결 570 과 575 는 삼방정계의 평면 질소기들을 헤테로 고리 링585 와 연결하고 있고 아마이드 연결 590은 평면성을 유지하기 위하여 관련된 바람직한 에너지론적 이유로 움직일 수가 없는 것으로 가정하자) 이것은 자유도 6 정도에 자유도 10 비틀림 정도를 추가하여 목표 단백질에 대한 리건드의 상대적인 이동과 배향을 설명해 준다.
현재의 보기에서 만약 비틀림이 전체 범위 -180° 에서 +180° 를 초과하여10°의 분리된 단계를 나타낸다면 그 단백질이 활성 부위의 부피는 대략 10³?이고 리건드의 이동이 0.5° 단계로 쌤플링 될 때에 그리고 배향을 기술하는 세 Euler 각도도 10° 단계로 쌤플링 한다면 아마 6 x 10²³ 가지 이상의 결합에 대한 배치가 가능할 것이다. 물론 그런 포즈의 대부분이 별로 또는 전혀 물리학적으로 실현 가능성이 없는 것이다. 왜냐하면 그들은 매우 에너지가 넘치고 불안정하여 입자 공간에서 리건드가 그 자신 또는 단백질과 충돌해 버리는 것 때문에도 그렇고 또 한편으로는 어떤 것을 바람직한 상호작용을 형성할 만큼 단백질에 충분히 접근하지 못하기 때문이다. 그렇지만 현재의 보기는 내포하고 있는 가능한 배치 수가 엄청나다는 것을 그래도 보여준 셈이라고 할 것이다.
대표적으로 그러한 결합을 분석할 때에 처리 프로그램은 모든 가능한 배치를 평가하려고 들지 않고 어떤 지름 길을 택할 것이고 그 대신 한 가지 또는 그 이상의 가능한 결합 모드와 연관된 배치가 이번의 분석 받는 부분집합에서 개략적으로 바람직한 배치를 나타낼 것이라는 전제로 합리적인 부분집합을 효과적이고 지능적으로 실행할 것이다. 물론 결합에다 배치의 복잡함을 더 추가하는 것은, 자유도 정도의 쌤플링을 더 정밀하게 하거나 또는 단백질이 형태 변화를 고려하다거나 하는 그러한, 또한 활성 부위 곁사들 잔유물들과 관련한 하나 또는 그 이상의 비틀림 자유도 정도 에 상응하는 쌤플 같은 그러한 것은 단지 가능한 배치의 숫자를 더 늘릴 뿐이다.
대표적으로 각각 구별되는 배치를 나타내는 적당한 분자 디스크립터(서술자)가 한 가지 배치를 다른 것과 구분하기 위하여 사용될 것이다. 분자 디스크립터는 a) 화학적 디스크립터 (즉 원소, 원자 타입, 화학적 기, 잔유물, 결합 타입, 혼성화 상태, 이혼화 상태, 호변이상태, 손대칭성, 입체화학, 양성자첨가반응, 수소결합 공여 또는 수용 능력, 방향성 등등) b) 물리학적 디스크립터 ( 즉 전하, 정신 부분적 모두 다, 질량, 극분리성, 이온화 에너지, 특성상의 크기와 각종 매개변수, 용해도, 결합의 기하학적인 변형에 대한 결합 에너지에 관련된 평형 결합의 매개변수들 등) c) 기하학적인 디스크립터 ( 즉 원자자리표, 결합벡터, 결합 길이, 결합 각도, 결합 비틀림, 링에 대한 적절한 구조적 디스크립터, 분자 표면과 부피에 대한 디스크립터, 용제가 접근할 수 있는 표면과 용제 배제 부피 등등) d) 환경적인 디스크립터 (즉 온도, pH, 이온 강도, 압력 등)
화학적인 디스크립터는 한 두 가지 규칙을 적용에 근거하거나 또는 유기 ( 또는 적절한 경우에는 무기) 화학에서 화학 구조를 나타내는 개념에 근거하여 지정되어야 하며 적어도 원소 타입, 결합 연결성 (즉 어떤 비수소 원자들이 서로 연결되는지) 같은 기본적인 구조적 정보를 규정하여야 하며 그러나 어떤 형식의 좌표 정보도 포함하여야 할 것이다. 그러한 화학적인 구조는 저장하여 여러 가지 다른 데이터 표현양식으로 받을 수 있을 것이다. 한 가지 데이터 표현 의 보기, 비록 많은 다른 사람들도 가능하겠지만, 는 PDB 파일이다. PDB 파일 형식에 관한 상세한 내용은 Westbrook et al. [53] 에서 찾어볼 수 있을 것이다. 화학적인 디스크립터를 지정하는 데에 이용할 수 있는 현재 가능한 소프트웨어 프로그램은 SYBYLTM from Tripos, ChimeraTM from UCSF, and WhatIfTM (for proteins) 등이 있다. 화학적 디스크립터를 정확하게 바로 지정하는 데에는 추가적으로 손대칭 중앙 과 입체 화학 혹은 심지어 이온화 상태의 지정에 관련된 기대되는 pH 같은 환경 인수 입력도 포함할 수 있을 것이다.
Fig. 6a 는 Fig. 5 에서 설명한 메토트렉세이트 리건드 형태에 대한 화학적 구조의 pdb 파일 표현전시 600를 보이고 있는데 일반 헤더 610 와 원자 타입과 좌표정보로 구성된 섹션 620, 그리고 결합 연결성 정보에 관한 섹션 625를 포함하고 있다. 헤더 섹션에는 610 어떤 주석이나 기타 분자와 그 형태에 관한 인식, 소스, 또는 특성에 관한 기타 정보를 포함할 수 있을 것이다. 섹션은 620 메토트렉세이트 의 33 개의 모든 비 수소 원자의 명단을 보이고 있으며 각 원자에 대하여 화학적인 타입과 (즉 원자 원소) 그리고 세 개의 공간 좌표를 포함하고 있다. 실예를 들어보면 원자 6에 대한 줄은 그것이 질소 원자이고 이름은 NA4 이며 화합물 (또는 단백질인 경우 잔유물) 에서 이름은 MTX 이며 체인에서는 A 화합물 (또는 자유물) ID 1 (x, y, z) 좌표에서는 특수한 직교좌표 시스템에서 (20,821, 57,440, 21,075) 이다. 화합물 또는 잔유물 이름 필드는 생체고분자에 있어서의 아미노산 또는 핵산 잔유물 들과 더 적절하게 될 수 있다는 점에 유의할 것.
PDB 파일 600 의 섹션 625 는, 때로는 PDB 파일의 연결 기록이라고 부르는데, 각각의 원자에 관련된 연결 명단을 설명하고 있다. 예를 들면, 이 섹션의 첫 번째 줄은 원자 1은 원자 (2) 와 (12) 하고 결합되어 있음을 보여주고, 두 번째 줄은 원자2 가 원자 (1) , (3), 그리고 (4) 와 결합된 것을 보여준다. 이 보기에서 수소는 빠졌으며 각 원자에 대한 그런 결합 연결은 완전한 것이 아니란 점에 유의하여야 할 것이다. 물론 PDB 파일의 완전한 다양한 기능은 수소 원자들의 위치가 이미 지정되어 있다면 나타내는 것도 가능하지만 그러나 대개의 경우에 화학적인 구조가 실험적인 관찰에서 오는 곳에서는 수소의 위치가 아주 불분명하거나 몽땅 빠지게 된다.
Fig. 6b 는 Tripos mol2 파일을 보여주는데 Fig. 6a 에서 나타낸 메토트렉세이트 에 대한 형태를 입력하기 위하여 각종 구조적 화학적 정보를 포함하고 있다. 컬럼 630 은 각 원자에 대한 인덱스를 목록으로 보인다. 컬럼 633 은 각각의 원자에 대한 ( 아마도 특유한 것이 아닌) 한 원자 이름을 리스트하고 컬럼 635, 637과 639는 각 원자에 대하여 내부좌표 시스템으로 각각 x, y, z 좌표를 리스트 하고 컬럼 640은 각 원자에 대하여 Trios force field [56]에 따른 SYBYL 원자 타입을 리스트 하는데 이것은 혼성화 상태, 화학적 타입, 결합 연결성, 수소 결합 능력, 방향성, 그리고 어떤 경우에는 화학적 기 등에 대한 정보를 코드화 한다. 컬럼 642 와 645는 잔유물 ID 와 각 원자에 대한 잔유물 이름을 리스트 한다. (단백질, 핵산 등등) 센션 650 은 분자 부분집합에 있는 모든 결합을 리스트 한다. 컬럼 691은 각 결합에 대한 결합 인덱스를 리스트 한다. 컬럼 653 와 653은 결합으로 연결된 두 개의 원자의 원자 인덱스 들이고 그리고 커럼 655는 결합 타입인데 단결합 이중, 삼중, 비편재화된, 아미드, 방향성, 기타 차별화되는 공유결합. 다른 설명에서 그러한 정보는 비공유 결합 이라 나타내는데 소금 브릿지나 수소 결합 같은 그런 것이다. 이 보기에서 유의할 점은 이번에는 수소 원자가 포함되었다는 점이다.
이 보기에서 화학적인 디스크립터를 지명한 결과로 수소 원자가 이번에는 포함 되었다는 것에 유의하여야 한다. (그리고 이경우 그들의 대략의 위치가 예상된다.) 이 보기에서, 표현된 원자 타입은 혼성화 상태, 화학적 타입, 결합 연결성, 수소결합 능력, 방향성, 그리고 어떤 경우에 화학적 기 등에 대한 코드화된 정보를 포함하고 있다. 더군다나 이온화 상태는 일반적으로는 원자 타입의 결합과 수소첨가에 의해서 참조될 수 있는 것이다. 다른 보기들은 고립 쌍에 관련된 데이터 까지도 포함할 수 있다.
물리학적 디스크립터는 한 개 또는 그 이사의 화학적 디스크립터에 달렸으며 대표적으로 원자 와/또는 결합에 관한 것이지만 그러나 또한 화학적 기나 잔유물 등에 의해서도 특징 지어지기도 한다. 물리학적 디스크립터의 값은 AMBER[40][41], OPLS[42], MMFF[43], 그리고 CHARMM[44] 같은 분자 역학 힘의 장과 관련하여 한 개 또는 그 이상의 매개변수 셋트에 따라서 지명된다. 어떤 물리학적 디스크립터는 Mopac[45] 나 AMPAC[46] 에 의한 부분 대전 지명 같은 그러한 하나 또는 그 이상의 분자 모델링 소프트웨어 패키지를 이용하여 지명되는 수도 있다. 모델화될 에너지 상호작용의 선택은 물리학적 디스크립터의 타입과 형식을 대표적으로 적어 넣는데 이것은 주어진 분자 결합에 대한 친화력을 컴퓨팅 하기 위하여 각 분자 부분집합에 대하여 결정되어야만 하는 것이다.
Fig. 6c 는 Figs. 5, 6a, 및 6b 에 상응하는 메토트렉세이트 리건드에 대하여 Amber96 힘의 장 (부분 대전에 대해서는Mopac v7.0과 공동으로) 에 의하여 지정된 물리학적 디스크립터의 작은 부분을 포함하고 있다. 섹션 660은 원자의 물리학적인 디스크립터를 설명하고 있는데 대전에 관하것은(컬럼 662), 질량은 (컬럼 663), vdW 반경(컬럼 664), 그리고vdW well depth(컬럼 665) 동일한 원자이름(컬럼 661) 원래 Fig. 6a 에서 리스트 되었다. 섹션 670 은 Fig. 5 에서 설명한 열개의 허용된 결합 비틀림에 관한 연결 물리학적 디스크립터를 설명하고 있다. 여기에서 컴럼 672, 674, 676, 그리고 678 은 양면 대전에 관련된 장력에너지를 추정하는데에 이용되는 일반화된 Pitzer 포테시아에 대한 표준 수자로된 매개변수를 의미한다.
기하학적인 디스크립터는 하나 또는 그 이상의 분자 결합의 구성요소의 구조를 설명하는 데에 관련된 것이다. 이것은, 그러나 제한하지 않고, 좌표 또는 기타 점에 관한 공간적인 정보 원자의 중심, 각종 결합을 나타내는 벡터, 여러 가지 화학 기들을 나타내는 평면, 개별 원자의 치수와 놓인 상태, 용질과 용매의 매개를 나타내는 3-D 표면, 용질의 점유를 나타내는 용적, 상호작용 장의 이산화(離散化) 또는 3-D 용적측정 그리드상의 포텐시아를 나타내는 공간 3-D 함수 (즉 프로브 그리드 맵 [26][31], 미분방정식솔버에 대한 mesh 등) 또는 구조, 표면, 그리고/ 또는 용적 ( 즉 구면조화 래디얼 기반 함수 Ritchie et al. [13]) 을 대략 나타내기 위한 적당한 기하학적 기반의 함수들을 포함할 수 있다.
기하학적인 디스크립터는 또한 하나 또는 그 이상의 기하 변수( 즉 각도, 토션, 길이 등) 들을 포함할 수 있어서 하나 또는 그 이상의 다른 포즈 와 관련된 허용된 정도의자유도 을 나타내며 이것은 Fig. 1 과 함께 설명하였던 자유도 의 컴포메이션 정도와 같은 그런 것이다.
몇 가지 기하학적인 디스크립터는, 예를 들면, 점, 실제 값은 좌표 시스템의 선택에 달렸지만 벡터, 평면, 구, 처럼 자연적인 표현을 가지고 있다. 표면, 부피, 그리드 맵, 또는 기초 함수들 같은 다른 것들은 저장의 필요성, 원하는 레벨의 정확도, 그리고 표현하게 되는 대상의 성질에 따라서 다양한 표현을 가질 수 있다. 한 예로, 표면은 일련의 정상적인 표면으로 또는 각종 기초 표면을 덧 붙인 집합으로도 나타낼 수 있다. 부피는 3-D 비트맵의 점유로 나타낼 수도 있고 공이나 다각형 같은 그러한 단순한 기하학적 대상들의 연합으로도 표현될 수 있다.
기하학적인 디스크립터는 자유도 의 구조적 정도와 결부되어 계속적인 변수일 수도 분리된 변수 일 수도 있으며 기본 구조상 또는 원기왕성을 고려하여 하나나 또는 그 이상의 억압이 가해질 수도 있으며 분자 부분집합에 대한 내부 좌표시스템을 선택하는 데에 의존할 수도 있다. 그러한 디스크립터는 특별히 중요성이 있다. 왜냐하면 그들은 동일한 분자나 결합 (즉 형태, 포즈, 배치) 의 두 개의 다른 기하학적 상태를 구별하는 기하학적인 변환(혹은 운전자) 을 말해주기 때문이다.
어떤 설명에서는 각종 기하학적 디스크립터가 입력의 구조적 데이터에서 유도된다. 예를 들면 Fig. 6b (그리고 6a 도) 는 이미 메토트렉세이트 리건드 에 대한 입력 구조를 위한 공간 좌표를 보이고 있다. 결합 벡터는 섹션 620 의 공간 좌표와 섹션 625 의 연결 기록 두 가지를 이용하여 쉽게 유도될 수 있다. 결합 각도는 결합 벡터에서 유도될 수 있다. 적다한 또는 부적당한 비틀림과 관련된 양면 각은 연속적인 결합 벡터들에 의하여 정의되는 두 개의 평면으로부터 유도된다.
환경 디스크립터는 분자 결합을 위하여 활동하는 예정된 장소에 따라서 변하는 것으로 기대된다. 환경 디스크립터는 시스템 내에서의 여러 위치들 사이에서 변하는 삼차원 함수를 나타낼 수 있을 것이며 하나나 또는 그 이상의 둘러싸인 조건의 적절한 선택을 필요로할 것이다. 용제 매체 선택은 둘 중 어느 것을 배제하고 (즉 물 쌍극자 시뮬레이션 [67][68][69]) 또는 (일반화된 Born [62][63], Poisson Bo;tzmann 방정식[60][61]) 을 내포하여주어진 분자결합의 분석과 관련하여 컴퓨터 처리의 복잡성을 현저하게 변하게 할 수 있다.
특별한 배치에 부착된 분자디스크립터는 이후 부터는 나머지 문장 전체를 통하여 배치레코드 이라는 용어로 될 것이다. 분자 부분집합의 동일한 분자결합에 관련된 두 개의 배치레코드 동일한 물리학적인 환경에서 적어도 하나의 기하학적 디스크립터를 포함하는 점에서는 다르다. 두 개의 다른 분자 결합 (동일한 환경에서라도) 과 관련된 두 개의 배치 레코드는 하나 또는 그 이상의 화학적인 그리고 물리학적인 디스크립터 뿐만 아니라 기하학적인 디스크립터에 있어서도 다른 점을 나타낼 것으로 예상된다. 하나의 분자 레코드는 분자 부분집합 하나에 대한 디스크립터에 관한 배치레코드의 그 부분을 참조하는 데에 사용될 것이다.
분자 결합의 분석을 위한 출발 점으로 삼기 위하여 각 분자 부분집합이 입력 분자 레코드와 함께 공급될 것이고 때때로 분자 부분집합의 초기 포즈 에 대한 기하학적 디스트립터를 포함할 것이다. 한 구현에서 초기 포즈 는 3-D (또는 어떤 경우에는2-D) 화학적인 구조입력에서 유도되어 초기 형태에서 생성될 수 있을 것이다. 대표적으로 그러한 입력 구조는 실험이나 또는 이전의 분자 모델링 과/또는 형태 분석의 결과로 유래할 수 있다. 이전의 분자 모델링과 형태 분석은 단백질 스테딩 (threading) 을 포함할 수 있으며, 에너지 기반의 형태 최소화 (즉 분자역학 시뮬레이션, 확률적 최적화 등) , 또는 2-D, 3-D 구조 변환도구를 포함할 수 있다. (즉 CORNA[57]) 다른 구현에서는 입력 구조가 다양한 기하학적 디스크립터의 랜덤(무작위) 값 지정에 의하여 랜덤하게 생성될 수도 있을 것이다. 각 분자 부분집합에 대한 초기 포즈 는 전체적인 이동 과/또는 배향 변수의 랜덤지정에 의하여 생성될 수 있다. 대표적으로 분자 결합의 분석을 위한 방법들은 확률적 최적화에 근거하여 종종 최적화를 시작하기 전에 하나 또는 그 이상의 기하학적 디스크립터들이 몇 가지 랜덤 지정 형식을 포함하게 된다. 다른 구현에서는 초기 포즈 는 하나 또는 그 이상의 입력 분자 레코드에 상응하여 개개의 분자 부분집합의 (혹은 결합 전체까지도) 다른 이전의 분자 모델링으로부터 상호작용 처리의 한 부분으로서 결과가 나올 수 있다.
분자 라이브러리를 처리할 때에는 가능한 수 백만 심지어 수 십억의 다른 분자 결합을 분석하여야 할 필요가 있을 수 있으며 그 각각은 가능한 수 백만 심지어 수 십억 번의 시스템 배치 사정을 필요로 할 것이다. 각각의 시스템 배치의 효과적인 심사의 부분으로 다른 형태, 포즈 를 효과적으로 생성하는 방법을 이용하는 것과 분자 결합의 배치, 그리고 관련된 분자의 저장 과 배치 레코드 저장을 위한 방법을 이용하는 것이 바람직 하다.
어떤 구현에서 효과적인 구성 혹은 구조적인 시스템 배치 수정은 한 세트의 기하학적인 디스크립터에 의하여 특징지어진 하나 또는 그 이사의 기하학적 운전자를 응용하여 수행될 수 있을 것이다. 대표적으로 분자결합을 분석하는 동안에 방문 하였던 배치의 순서와 숫자는 종종 탐색 선태과 최적화 방법 사용으로 기록시킬 수 있다. 한 구현에서 방문하였던 (아마도 명령하였던) 배치의 집합은 분석하는 동안에 각 분자 부분집합에 대한 입력 구조에 관하여 분자레코드를 구성하면서 처음의 배치에서부터 시작할 수 있을 것이다. 선택된 기하학적 연산자들이 하나 또는 그 이상의배치를 생성하는 데에 순차적이든(즉 몬테가를로 구조에서 state trajectory), 병렬방식이든(즉 유전자 알고리슴에서 개체군 집단처럼) 이용될 수 있을 것이다.
어느 한 구현에서 이것은 하나 또는 그 이상의 자유도 정도의 램덤 변화를 통하여 수행될 수 있을 것이다.
다른 구현에서 이것은 Fig.1 에서 윤곽을 보였던 것 처럼 하나 또는 그 이상의 자유도 정도에 상응하는 연합 또는 순차적 변환을 응용하여 수행될 수 있을 것이다. 그러나 또 다른 구현에서 이것은 유전 알고리슴에서 교차결합하는 것과 같은 그러한 다른 운전자에 근거 하고 있거나 또는 정적 에너지 차이에 근거한 작극을 받은 담금질 또는 기타 Monte Carlo 기반의 방법에 관련된 확률적인 다양한 변화에 근거하고 있을 수도 있다
그러한 기하학적인 운전자 사용은 기하학적 다른 배치와 관련된 분자레코드의 부분으로서 디스크립터의 저장에 심각한 충격을 가지고 있을수 있다. 예를 들자면, 유일한세트의 공간 좌표를 저장하는 대신에 각각의 원자에 대하여 오로지 한가지 템 플레이트에 대한 배치를 저장할 수가 있다. (즉 최초의 또는 랜덤화한 배치 또는 다른 표준 변형) 그리고 모든 관련된 기하학적 스크립터에 대한 템플레이트가 일련의 기하학적인 운전자를 이용하여 입자 배치 속으로 이동한 것만을 순수하게 나타내는 값을 기록한다.
한가지 보기로, 어느 구현에서는 별도의 PDB 레코드를 통하여 Fig. 2c 에서 묘사된 형태에 관한 기하학적인 디스크립터를 표현하지 않고, Fig. 2b 에서 묘사한 형태와 관련하여 각각 연결의 이면각도235와 237 에서의 변화에 상응하는 두 개의 구분되는PDB 기록을 요구하지않고 Fig. 2c 형태를 나타내기 위하여 두 개의 비틀림 각도 값과 연결되어 원래의 PDB 기록을 사용하는 것이 더 효과적일 지도 모른다. 대신에 또 다른 구현에서는 그래도 모든 원자의 좌표를 분명하게 저장하는 것이 실용적일 수 있다. 표면과 부피에 관한 있는 그대로의 분명한 표현은 (분석에 필요하다면) 적당한 기하학적인 변환을 사용하지 않으면 저장하는 데에 매우 비싼 경비가 들 것이다.
한 구현에서는 물리학적인 디스크립터가 종종기본적으로 원자와 결합과 연관되어서 그리하여 대표적으로 동일한 환경에서 동일한 분자 결합에 대한 다른 배치들 간에는변하지 않으므로 그 너무 분량이 많은 데이터를 별도의 저장장치에 배치하는 것과는 반대로 한 두 개의 검색 표에 저장하여 예를 들면원자나 연결 인덱스로 찾아볼 수 있게 한다면 더욱 편리할 것이다.
또 다른 구현에서는 같은 논리가 동일한 환경에서 동일한 분자 결합에 대하여 다른 배치들 사이에서 어떤 화학적인 디스크립터의 과대한 저장량을 감소시키는 데에 사용될 수 있다. 모델링하는 관련된 프로그램의 세련성에 따라서 환경 디스크립터에 대한 저장에 필요한 량은 아주 작은 것에서부터 ( 즉 내포된 용매의 모델을 설명하는 상수 세트) 매우 큰 범위까지 있을 수 있다. (즉 있는 그대로 포함시키는 용매화 구조에 있어서3-D함수의 공간상의 다양한 변형을 나타내는 고밀도 그리드)
어느 구현에 있어서 분자 레코드들은 하나 이상의 파일 레코드로서 기록할 수 있는 매체상에다 저장할 수 있다. 또 다른 구현에서는 분자 레코드는 하나 이상의 데이터베이스에서의 레코드나 엔드리로 즉 관계형 데이터베이스에서 하나 이상의 테이블의 줄로 나타낼 수 있으며 또는 객체지향적인 데이터베이스에서 하나 이사의 요소로 표현될 수도 있다. 또 다른 구현에서 배치 레코드는 한 세트의 분자 레코드와 그에 상응하는 분자 부분집합의 단순한 직접적인 연합으로 나타낼 수 있다.
그러나 또 다른 구현에서 배치 레코드는 배치 스코어나 기타 질적 혹은 양적 측정과 같은 그러한 특별한 시스템 배치의 평가의 결과에 관한 추가 정보로 보충될 수 있다. 다른 구현에서 분자와 배치 레코드의 데이터 표현에 있어서 과도한 정보를 제거하고 보다 효과적인 저장 과/또는 데이터 접근을 허락하기 위하여 규정이 만들 졌다. 또 다른 구현에서 디스크립터 데이터는 ( 특히 기하학적 및 화학적) 하나 또는 그 이상의 특별한 메모리 배치 구조에 효과적인 컴퓨터 작업이 편하게 되도록 Ahuja I 에서 설명한 분자 표현 파티션과 일치하게 저장된다. 그러나 또 다른 구현에서 디스크립터 데이터는 각종 기타 표준 데이터 구조에 리스트, 트리구조, 해시(암호화)테이블, 유향그라프, 또는 그들의 혼합체, 또는 분자 그라프 구조 같은 심지어 좀 더 특별화된 메모리 배치 구조를 포함하여 저장한다.
일찍이 언급한 바와 같이 결합 친화력의 평가 또는 결합 에너지는 전형적으로 분자 결합을 분석할 때에 관심사이다. 이것은 종종 친화력 함수의 컴퓨터처리로 수행되는데 그 함수는 상응하는 분자 배치 내에서 상호작용을 하는 분자 부분집합의 본성에 의존하는 것이다. 친화력 함수는 분자 부분집합 간의 상호작용, 각 분자 부분집합의 그 자신과의 상호작용, 또는 분자 부분집합의 그들의 주변환경과의 상호작용을 나타낼 수 있다. 주어진 분자결합의 배치에 대한 친화력 함수의 계산은 보통 결합에 관한 여러 가지 화학적 물리학적 및 기하학적 / 구조적 특성을 말해주는 한 세트의 분자 디스크립터를 포함할 것이며 그리하여 다수의 분자 레고드를 구성하거나 혹은 하나의 배치 레코드를 구성할 것이다. 몇몇 구현에서 친화력 함수는 수학적 함수일 수도 있고 또는 한 분자 시스템의 결합 친화력, 결합 에너지, 혹은 자유에너지 같은 한 개 또는 그 이상의 에너지를 나타내는 스코어 일수도 있다. 또 다른 구현에서 친화력 함수는 기타 상보성 모습 측정, 스코어, QSAR,(quantitative structure activity relationship) 예보, 결합상수, 반응률 또는 확률 같은 것을 포함(그러나 제한하지 않고)하며 질적인 측정을 나타낼 수도 있다. 또 다른 구현에서 친화력 함수는 등급, 범주화, 또는 기타 분류 (즉 항시 반응, 민감 반응, 별로 반응 없음 등) 각종 질적인 측정을 타나낼 수 있다.
친화력 함수는 종종 하나 또는 그 이상의 친화력 요소를 구성하는데 이것은 그 결합에 대한 친화력 수치나 스코어를 생성하기 위하여 어떤 패션에 축적되었거나 구성된 것이다. 어떤 구현에서 친화력 요소는 하나 또는 그 이상의 상호작용 타입, 친화력 공식화 그리고 관련된 컴퓨터 전략이 결합으로 특징지어질 수도 있다.
한 구현에서 하나의 친화력 함수를 형성하기 위한 친화력 요소의 구성은 각각의 성분의 바로 합이다. 다른 구현에서 그 구성은 친화력 요소들의 선형 결합이 될 수 있으며 각각의 요소가 우선 누적되기 전에 상응하는 무게와 곱하여 진다. 또 다른 구현에서 구성은 친화력 요소의 일반화된 함수일 수 있다. (잠정적으로 비선형). 또 다른 구현에서 친화력 요소의 구성은 결정에 기초를 둘 수 있다. 즉 만약 그리고 만약에 값이 어떤 경계 값 보다 클 때에만 하나의 요소를 포함하다. 또 다른 구현에서 구성은 결합 친화력 또는 그와 동등한 것의 실험적 측정으로 훈련된 셋의 분자결합에 근거한 쇠퇴의 결과로서 결정될 수 있다. 또 다른 구현에서 구성성분은 신경망조직이나 서포트 벡터 머신 사용 같은 그러한 패턴 인식 방법을 통하여 역학적으로 결정될 수 있다.
여기서 상호작용 타입이란 용어는 하나 또는 그 이상의 분자 부분집합이 그 자신과 (분자내) 또는 다른 분자와 (분자간) 또는 주변환경 요소들과 (환경적) 물리학적 또는 화학적 상호작용하는 것을 말한다. 상호 작용하는 타입은 자연에 있어서 엔탈피 일수도 엔트로피 일 수도 있으며 비결합 또는 결합 상호작용을 반영할 수도 있다. 비결합 상호작용 타입의 예는 정전기 상호작용, vdW (또는 분산) 시간변환 쌍극자 모멘트 간의 상호작용 (종종 입체 상보성에 관한), 겹쳐지는 원자궤도 간의 단거리 반발력, 수소 결합, 금속 이온 코디네이션에 연루된 상호작용, 또는 하나 또는 그 이상의 정렬된 또는 구조적인 물과의 상호작용 등을 포함한다 (제한적이지 않고). 비결합 상호작용 타입의 다른 보기에는 하나 또는 그 이상의 용매화 효과 정전기적 탈용매작용 (자기반응 필드극성효과, 유전성 매체내에서의 용제기반의 이온 분위기에서 용제 걸러내기), 물밀침성 효과, 空洞 에너지, 표면장력 등이 포함된다.
결합 상호작용 보기에는 평형 결합 길이, 각도, 비틀림 등의 찌그러짐과 관련된 분자내부 장력, 또는 시스-트란스 모드 사이의 에너지 갭 또는 하나 또는 그 이상의 키럴 중심의 키럴성질의 변화와 관련된 에너지 미분 등이 포함된다. 엔트로피 기반의 상호작용의 보기는 결합할 때 분자 부분집합의 형태 엔트로피의 상실 (단백질 곁고리에 대한 회전이성체 엔트로피의 상실을 포함하여) 또는 하나 또는 그 이상의 정열된 물을 플어주어서 얻는 바람직한 엔트로피 획득을 포함한다. 기타 좀 더 색다른 상호작용 타입에는 pi-pi stcking, 전하 이동, 또는 기타 양자역학적인 현상이 포함된다.
친화력 공식이라는 용어는 여기서 분자결합과 관련된 배치를 위한 주어진 상호작용 타입에 대하여 대략의 량적인 값을 산출하기 위하여 사용되는 에너지 모델을 참조하는 것이다. 대표적으로 그 중에서 선택하게되는 주어진 상호작용 타입에 대하여 많은 여러 가지 상이한 친화력 공식이 있다. 친화력 공식의 선택은 주어진 상호작용 타입의 량적인 추정과 관련하여 오류이 량에 영향을 줄 수 있다. 친화력 공식의 선택에는 또한 매우 서로 다른 레벨의 모델링 기술의 정교함과 컴퓨터작업 상의 복잡성이 관련될 수 있다. 주어진 친화력 공식은 계산하기 위하여 하나 또는 그 이상의 분자 디스크립터를 필요로 할 것이다. 주어진 상호작용 타입에 대한 두 개의 다른 친화력 공식은 매우 다른 분자 디스크립터 셋을 필요로 할 것이며 반면에 그렇지 않은 다른 것은 다수의 분자 디스트립터를 공유할 것이다.
예를 들면 정전기적인 상호작용은 Coulomb 의 법칙의 수정된 형식의 사용을 포함하고 거리에 의존하는 유전성 함수 ([59] 에서 설명된 그러한 것 처럼) 각 분자 부분집합에 있는 원자의 중심에 적절한 힘의 장을 사용하여 지정된 한 세트의 부분 대전에 적용하는 것처럼 하나의 친화력 공식에 따라서 모델화 될 수 있을 것이다. 또 다른 보기에서 정전기와 정전기 탈 용매작용 둘의 상호작용은 용질 속에 심어 넣은 크기가 각 원자의 vdW 반경에 의하여 정의되고 그리고 용질 구는 동질의 유전체 매체 속에 놓고 물은 Gilson et al.[58] 에서 설명한 바와 같이 이온을 포함한 공기를 포함하고 있는 구형 공동 점 대전을 가정하고 Poisoon-Bltzman 방정식의 (선형 또는 비성형) [60][61] 해를 관련시켜서 친화력 공식에 따라서 모델화될 수 있을 것이다. 대안으로 정전기 상호작용은 각 분자 부분집합에 대한 전자의 바닥상태에 관한 양자역학적인 해에 근거하여 모델화 될 수 있다. 대부분의 시나리오에서 거리-의존적인 유전적인 수정된Coulomb 공식은 컴퓨팅 하는 데에 비용이 싸게 들지만 그러나 Poisson-Boltzmann 기반의 공식보다 덜 정확하고 완전한 양자역학적인 해는 말할 것도 없다.
추가 보기로 vdW 상호작용은 친화력 공식에 따라 일반화된 Lennard-Jones 포텐시아의 사용에 근거하여 또는 대안으로 공간의 상보성 스코어에 근거하여 Ritchie et al. [13] 에서 요점을 말한바와 같이 모델화 될 수 있다. 수소 결합 상호작용은 친화력 공식에 따라서 10-12 Lennard-Jones 포텐시아 angular weighing 함수 [31] 또는 부분 대전을 rescaling 하여서 그리고 Amber 힘의 장[40][41] 에서 발견되는 것과 같은 그러한 수소 결합 공여자와 수용자 원자의 vdW 반경 등으로 모델화 될 수 있다. 물 밀침성 효과는 친화력 공식에 따라서 Stouten et al. [66] 의 조각 볼륨 접근에 근거하여 또는 Eisenberg et al.[64] 의 용제접근표면 지역 기반의 형식에 근거하여 모델화 될 수 있다. 양면 각의 변화와 관련된 분자내부의 장력은 Pitzer 포텐시아의 이용에 근거하여 또는 역 Gauss 비틀림 구속에 의하여 모델화 될 수 있다. 아직 또 하나의 보기로 Poisson-Boltzmann 기반의 공식을 사용 대신에 어느 한 배치에 대한 정전기 탈용매작용은 친화력 공식을 통하여 일반화된 Born 추정 [62][63]의 한 변형 이용에 근거하여 모델화 될 수 있을 것이다.
여기에서 컴퓨터 사용의 전략이란 용어는 하나 또는 그 이상의 상호작용 타입에 대하여 주어진 친화력 공식을 량적으로 평가하기 위하여 사용되는 컴퓨터 계산 기술을 참조하는 것이다. 컴퓨터 사용 전략의 선택은 가능한 컴퓨터 시스템, 장치들, 수단 과/또는 방법, 가능한 메모리 용량 그리고/또는 시간의 속박 등에 의하여 영향을 받을 것이다.
동일한 친화력 공식에 대한 서로 다른 컴퓨터 전략의 예로 목표-리건드 결합에 대한 정전기의 상호작용을 생각해보자. 거기서 거리에 의존하는 유전적 수정된 Coulomb 친화력 공식은 컴퓨터 이용 전략에 따라서 단백질과 리건드를 가로질러 모든 가능한 쌍의 부분 대전 사이의 쌍모양의 계산의 직접적인 합산을 포함시킬 것이다. 한 개의 리건드에 대하여 100 개의 원자 그리고 한 개의 단백질에 대하여 3000 개의 원자 이것은 수많은 별개의 분자내부의 쌍은 말할 것도 없고 분자간의 거리에서 300K 의 계산이 필요하게 될 것이다.
한 가지 대안으로서의 컴퓨터 이용의 전략은 probe grid map 추정을 이용하는 대신에 단백질상의 소스 대전과 관련된 정전기 포텐시얼 함수를 계산하여 단백질을 둘러싸고 있는 3-D 좌표 위치를 저장된다. 그다음 각 리건드 대전에 대하여 상응하는 정전기 포텐시얼 값이 메모리 (또는 저장장치) 로부터 액세스 되어 직접 대전과 포텐시얼의 곱이 리건드 상의 모들 대적에 누적된다. 이것은 현저하게 컴퓨터 이용하는 노력을 특히나 수많은 분자 결합이 같은 목표 단백질에 다른 리건드를 보여주는 분자 라이브러리를 스크린닝 하는 것과 관련하여 감소시켜준다. 물론probe gird map 추론은 포텐시얼 함수의 변화에 관한 오류 수자를 줄이기 위하여 당당한 저장공간을 필요로 할 것이다.
더구나 그러한 추정은 단백질의 소스 전하가 다른 배치 사이에서 위치를 변경하지 않을 때에만 적합한 것이다. 유연한 결합 포켓을 보이는 목표 단백질에 대한 대안은 혼합 컴퓨터이용 전략이다. Luty et.al. [26] 요약을 설명한 것 처럼 Pair-wise 전략은 이동 소스 대전을 포함하는 단백질의 부분에 대하여 사용하고 probe grid map 전략은 단백질의 나머지에 대하여 사용하는 것이다.
일반적으로 각기 다른 여러 가지 컴퓨터 이용 전략이 다른 상호작용 타입에 대한 친화력 공식에 사용될 수 있다. 한 편으로는 컴퓨터 전략은 친화력 공식의 본성 또는 문제의 상호작용 타입에 의하여 제한을 받는다. 예를 들면 하나는 분자간의 정전기적 상호작용의 평가에 대하여 전략적으로 적합하고 그대신 연결된 상호작용의 분자내부 장력 요소를 컴퓨팅 하는 데는 적합하지 못하다.
쌍 모양의 (원자의 쌍 간의 상호작용) 또는 map 에 또는 포텐시얼 필드 (즉 한 원자와 포텐시얼 장과) 계산에 근거하는 그러한 것 들과는 다른 타입의 컴퓨터 전략이 있다. 예를 들면, 용제가 제외된 부피의(Still et. al.[62]) 용적 적분의 계산이나 용제가 접근한 표면 넓이(Ghosh et. al.[63])에 대한 표면적분 계산에 근거한 일반화된Born 용매화 모델이 그 것이다. 또 다른 보기로는 연결된 상호작용에 대한 각종 공식이 관련된 좌표와 결합 디스크립터를 포함한 적절한 데이터 구조를 나타내면서 컴퓨터 이용 전략에 따라서 평가 된다는 것이다.
요약하면 친화력 함수는 친화력 요소의 구성이며 그 각각은 상호작용 타입, 친화력 공식 및 컴퓨터 전략의 결합에 상응하는 것이다. 친화력 요소는 하나 또는 그 이사의 분자 부분집합의 전체 또는 부분에 대한 상호작용을 나타내는 것이다. 예를 들면, 두 개의 친화력 요소는 같은 상호작용 타입을 타나내지만 그들 친화력의 공식과 /또는 그들의 컴퓨터 이용 전략에 있어서는 다른 것이다. 각각의 분명히 다른 분자 배치는 주어진 분자 결합으로 친화력 소요에 대해서는 양적으로는 서로 다른 결과를 만들어 내며 그리하여 상응하는 다른 친화력 함수를 산출한다. 한 구현에서 분자 결합의 분석은 친화력 함수에 대하여는 최선의 값을 갖는 배치의 결정에 근거할 수도 있다. 다른 구현에서는 친화력 함수에 대하여 분자 배치에 상응하는 하나 또는 그 이상의 가능한 결합 모드를 가진 다중의 알맞는 값이 고려될 수 있다. 또 다른 구현에서는 다중 친화력 함수가 하나 또는 그 이상의 분자 결합의 배치상에서 컴퓨팅 될 수 있으며 그들을 연합한 고려에 근거한 어떤 결정이나 행동에 관하여 컴퓨팅 될 수 있다, 예를 들면 각 분자 결합에 대한 적은 한정된 수의 배치에 관한 총체적인 동의로 스코어링하는 시나리오와 같은 그런 것이다.
Fig. 7 은 분자 결합 분석을 위한 모델링 시스템 702 을 보여주고 있다. 보인 바와 같이 배치 모델기 702는 하나 또는 그 이상의 배치 레코드 706 를 받아드리며, 하나 또는 그 이상의 분자 부분집합에 대한 입력 분자결합 데이터베이스 704 로부터 입력 구조를 위하여 식별사항과 분자 디스크립터를 포함하고 있다. 위치 모델러 702는 배치 데이터 변환 엔진 708 과 친화력 계산기 709, 그리고 디스크립터 데이터 저장장치 720으로 구성되어 있다. 배치 모델러 702로부터 나온 결과는 배치 결과 레코드 711 의 결과 데이터베이스 710 에 대한 출력이다.
모델링 시스템 700 은 한 개 또는그 이상의 분자 결합을 결정하고 특징을 정하는 데에 이용된다. 어떤 구현에서는 이것은 가능한 분자 복합의 형성 같은 것의 예측, 또는 그로부터의 대용품, 결합 친화력의 계산, 또는 어떤 환경에 있어서의 분자 부분집합 간의 결합 에너지, 분자 결합에 대한 결합 모드 예측 (또는 추가 대안 모드 까지), 또는 분자 부분집합(즉 리건드) 모음의 예상되는 목표분자 부분집합과의 생체활동성에 근거하여 우선 순위 메김, 그리하여 컴퓨터를 이용한 목표-리건드 도킹과 스코어링도 포함하게 될 것이다. 대표적인 작동에서 많은 분자 결합과 각각이 많은 여러 다른 분자 배치들이 모델화될 수 있다. 가능한 전체 배치의 수는 방대할 것이므로 모델링 시스템은 모델링 실행 과정 동안에 배치의 부분 집합을 쌤플링 할 것이며 그 쌤플링한 부분집합 조차도 아직 매우 크므로 (즉 결합당 수 백만 또는 수 십억 가지 배치) 그래서 배치 쌤플링을 위한 선택 전략이 한 가지 또는 그 이상의 탐색 과 또는 최적화 기술에 의하여 지정된다. ( 즉 급강하, 켤레그라디언트법, 수정 Newton 법, Monte Carlo, 시뮬레이션 으로 된 복원법, 유전자식 또는 휴내내기 알고리슴, 폭력적 쌤플링, 패턴 맞추기, 증분 구성, 조각 맞추기 등등) 친화력 함수는 각각 방문하였던 배치에 대하여 평가되고 하나 이상의 배치에 대한 결과는 저장 매체에 기록된다.
분자 결합은 그런 다음에 배치 결과 세트의 검사에 의하여 상응하는 컴퓨터로 처리된 친화력 함수 값을 포함하여 사정을 받는다. 한 개의 분자 결합에 대한 컴퓨터 처리의 한 사이클이 완료되면 다음 분자 결합의 모델링이 계속된다. 어느 모델링 시스템 700의 구현에서는 여러 개의 분자 결합이 순차적으로 하는 것과는 반대로 병렬로 처리되기도 한다.
한 구현에서 모델링 시스템 700 은 전용 마이크로프로세서 ASIC 또는 FPGA 상에서 실행되기도 한다. 다른 구현에서는 모델링 시스템 700 이 하나 또는 그 이상의 전자장치 속에 넣은 다중 보드 에서 실행되기도 한다. 또 다른 구현에서는 모델링 시스템 700 이 하나 또는 그 이상의 마이크로프로세서, ASIC, 또는 FPGA 를 하나 또는 그 이상의 보드에 포함하고 있고 그 장치들이 네트워크를 통하여 연결되어 있는 다중 장치에 결쳐서 실행되기도 한다.
어떤 구현에서는 모델링 시스템 700이 분석에 의하여 사용되기도 하고 생산되기도 하는 각종 필요한 데이터 요소를 저장하기 위하여 하나 또는 그 이사의 저장 매체 장치를 포함하고 있기도 하다. 대안으로, 어떤 구현에서는, 저장 매체 장치 일부 또는 전부가 외부 장소에 위치하고 그러나 네트워크로 연결되거나 또는 다른 방법으로모델링 시스템 700 과 연결되어 있다.
어떤 구현에서는 데이터베이스 700 에서의 결과레코드가 배치 셀렉터 712 에 속하게 되어 그 동안에 하나 또는 그 이상의 배치가 각종 선택 기준에 근거하여 선택될 수 있으며 그런 다음에 좀 더 정밀한 조사를 위하여 배치 모델러 702로 다시 보내진다( 아마도 다른 가동 조건에서) (즉 피드백 사이클) 그러한 구현에서 분자 배치는 배치 모델러 792 에 선택된 배치 레코드 714 의 형식으로된 입력으로 전송된다.
또 다른 구현에서 배치 선택기 702 는 배치데이터 변환 엔진에 지시를 보내서 하나 또는 그 이상의 새로운 배치를 구성하는 방법을 지시하고 배치 모델러 702에 의하여 이어서 모델링 되도록 한다. 예를 들어, 만약 배치 모델러가 주어진 목료-리건드 쌍에 대하여 열 개의 목표-리건드 배치를 모델화 하여 그 중에 두 개의 배치가 다른 8개 보다 현저하게 높은 친화력 평가를 받았다면 그 다음에 배치 셀렉터 712 는 배치 데이터 변환 셀렉터 엔진 712 에게 이후의 추가 배치를 구성하는 방법 (즉 목표와 리건드의 포즈) 을 지시하는 즉 두 개의 최상위 점수를 배치하는 것과 구조적으로 유사하게, 명령을 생성할 수가 있을 것이며 그런 다음에 이어서 나머지 배치가 모델러 702 에 의하려 처리될 것이다. 어떤 구현에서 전송된 명령어는 재지정된 배치로부터의 구성에 관한 것일 수도 있고 반면에 다른 경우에는 원래의 입력 참조 배치로 부터의 구성에 관한 것일 수도 있다.
어떤 구현에서는 분자 결합의 분석이 일단 완성되면 (즉 모든 원하는 배치가 사정을 받았으면) 결합 후속처리장치 716 이 이용되어 데이터베이스 710으로부터 하나 또는 그 이상의 배치 결과 레코드를 선택하여 그 결합에 대한 하나 또는 그 이상의 결합 스코어, 결합 요약, 결합 등급 등등 같은 질적 또는 양적 측정을 생성하여, 그 결과 결합 측정치들은 결합 결과 데이터베이스 718에 저장한다. 어느 구현에서는 다수의 높은 친화력 배치가 결합 후속처리장치 716 에 보내져서 한 세트의 결합 결과 측정치들이 결합 결과 데이터베이스 718 에 기록된다. 다른 구현에서 결합 후속처리장치 에서 사용될 복수의 배치 선택은 하나 또는 그 이상의 thresholds (걸러내는 한계값) 또는 의사결정기반의 기준과 관련된다.
추가 구현에서, 선택된 배치는 또한 구조적 다양성, 또는 대안으로, 구조적 유사성 (즉 배치 상호간의rmsd 심사, 구조기반 크러스터링 이나 niching 전략 사용 등)을 기반으로 선정된 것이다. 또 다른 구현에서 결합 측정은 결합결과 데이터메이스 718 로 출력되어 데이터베이스 710에 저장된 방대한 수의 배치 결과 레코드 중에서 쌔플링되어 각종 통계학적인 분석을 받는다. 다른 구현에서, 쌤플링 그 자체의 선택은 통계학적 방법 (즉 주 구성요소 분석, 다차워적 클러스터링, 다변량 회귀 등) 또는 패턴 맞추기 방법 에 근거하고 있다. ( 즉 신경망 네트워크, 벡터지원머신 등).
또 다른 구현에서 데이터베이스 718 에 저장된 결합 결과 레코드는 연관된 결합 측정을 포함하지 않을 수도 있다. 그러나 데이터베이스 718 에 저장된 일부 또는 모든 각종 결합레코드는 예상되는 결합 모드 또는 기타 대신할만한 것, 분자 결합에 대한 높은 친화력 (아마도 구조적으로 다양한) 모드 등을 포함할 것이다.
다른 구현에서, 결합 후처리장치 716은 동적으로 (즉 on-the-fly 방식으로) 결합 결과 데이터베이스 710 에 대하여 분자 결합 분석과 관련하여 배치 결과 레코드가 가능하도록 적용될 수 있다. 또 다른 구현에서 결합 후처리장치 716은 결합에 문제점이 있는 데이터베이스에 저장된 배치 전부 또는 일 부분의 소팅된 리스트로 저장하기 위하여 상이한 배합들을 순위를 메기는 데에 사용될 수도 있을 것이다. 또 다른 구현에서 배치 모델러 702 가 데이터베이스 718 에 저장대 놓은 분자 결힙의 완전한 분석을 반영하는 최종적인 결합 결과 레코드가 일단 나오면 데이터베이스 710에 있는 일부 또는 전체 배치 레코드는 가능한 한 많은 다른 분자결합을 연관시켜서 걸러내는 라이브러리의 저장공간을 확보하기 위하여 제거되거나 지워질 수 있다. 대안으로 어떤 형식의 폐품 수집 또는 그와 동등한 것은 어느 구현에서 이용될 수도 있고 빈약한 친화력의 배치 레코드는 데이터베이스 710 에서 동적으로 제거될 수도 있다.
한 구현에서 분자결합 레코드 데이터베이스 704는 하나 또는 그 이상의 분자레코드 데이터베이스 (즉 보통 파일, 관계형, 객체지향 등) 나 파일 시스템을 구성할 수 있고 배치 모델러 702 는 결합의 각각의 분자 부분집합 입력 구조에 상응하는 입력 분자 레코드를 받는다. 그리고 아마도 관련된 환경에 대한 한 세트의 환경 디스크립터도 받을 것이다. 다른 구현에서 목표 단백질- 리건트 분자 결합에서 분자결합 레코드 데이터베이스 704는 입력 목표 레코드 데이터베이스로 대체되고 하나의 입력 리건드 (또는 약품 후보) 레코드 데이터베이스로 된다. 추가 구현에서 입력 목표 분자 레코트는 에너지를 최소화하여, 또는 모델-구성 3-D 단백질 구조등에서, 경험적으로 도출될 수도 있다. (즉 X-레이 결정학, NMR 등), 다른 구현에서 입력 리건드 분자레코드는 에너지 최소화를 또는 랜덤화된 3-D 구조, 또는 2-D 화학적 표현에서 변환되어 3-D 구조로 또는 심지어 분리된 리건드의 저에너지 컨포머의 보기로도 비추어진다. 또 다른 구현에서 입력 리건드 분자 레코드는 자연적으로 존재하는 화합물 또는 심지어 가상으로 생성된 화합물과도 상응하며 합성할 수 있는 것도 되지 않는 것도 있다.
한 구현에서 배치 데이터 변환 엔진 708은 하나 또는 그 이상의 입력 분자 배치를 기하학적 디스크립터에 의하여 특징 지어진 각종 기하학적인 연산자들을 응용하여 한 개 또는 그 이상의 다른 새로운 배치로 변환할 수 있다. 분자 배치를 새로운 변형들로 변환하는 것은 unery 작업실행으로 (즉 유전자 알고리슴에서 돌연변이 operator처럼 한 입력 배치에 작용하는), binary 작업실행으로 (즉 유전자 알고리슴에서 바이너리 크로스 오버처럼 두 개의 입력 배치에 작용하는) 또는 n-ary 작업실행 (즉 배치의 개체군에 근거한 변환 operator처럼 다수의 입력 배치에 작용하는) 또는 그들의 결함. 다른 구현에서 분자 배치를 새로운 변형들로 변환하는 것은 하나의 배치에서 다수의 새로운 배치가 생기는 결과로 될 수 있다. 마치 예를 들면, 유전자 알고리슴에서 사용하는 적합한 (종종 램덤화된) 초기 개체군 구성과 같은 것. 어떤 구현에서는 배치 데이터 변환 엔진 708 은 내부로부터 하나 또는 그 이상의 전혀 새로운 배치를 기하학적인 디스크립터 입력을 필요로 하지 않고 입력 분자결합 데이터베이스 704 에서 구성할 수가 있다. 디록 다른 타입의 분자 디스크립터는 그래도 필요하겠지만.
어느 구현에서 이미 논의한 바와 같이 분자 결합 분석 과정에서 변환을 통하여 생성된 배치는 배치 모델러 702 의 모델링 처리를 가동시키기 위하여 사용되는 탐색과 최적화 기술로 지정된 스케줄과 쌤플링에 따라서 결정될 수 있다. 어떤 구현에서 탐색 전략이나 최적화 기술은 반복적인 프로세스 일 것이며 거기에서 입력 배치로부터 하나 또는 그 이상의 배치가 생성되고 그 다음에 친화력이 각각의 배치에 대하여 계산되고 친화력과 구조에 근거하여 결정이 이루너지고 그 새로운 셋의 배치가 다음 반복을 위한 입력 종자로 사용되며 그 처리과정은 지정된 반복 회수가 완성될 때 까지 계속되어서 배치 모델러 702 혹은 다른 변환 기준이 충족될 때까지 계속된다. 그러한 구현에서 입력 분자결합 데이터베이스 704에 있는 데이터에서 얻어지고 유도된 입력 위치 레코드 706 는 그 반복 처리 과정을 (즉 펌프시동) 시작(또는 reset도) 하는 데에 만 역할을 한다.
어떤 구현에서 탐색 전략이나 최적화 기술은 본질적으로 추측적인 것으로 이것은 분자 결합 분석 중에 방문했던 배치 셋이 약간의 랜덤 요소를 포함할 수도 있으며 그리하여 아마도 배치 모델러 702의 다른 실행 사이에서는 같은 분자 결합에 적용해도 다르게 나올 것이라는 것을 의미하는 것이다. 여기서 실행(run) 이란 동일한 분자 결합 분석을 위한 두 개의 서로 다른 시작 (아마 반복작업) 컴퓨팅 사이클을 참조하는 것이다. 어떤 구현에서 결합 후처리장치 716 은 그이 결과나 결정을 데이터베이스 710 에 저장되어있는 배치결과레코드에 기초를 두고 있지만 그러나 다른 실행에서 얻은 것이다.
어떤 구현에서 배치 데이터 변환 엔진 708은 새로운 배치를Monte Carlo 기법의 주어진 반복과 관련된 하나의 새로운 가능한 상태처럼 순차적으로 생산하여 그들을 친화력 계산기 709에게 순차적인 방식으로 먹여 넣을 것이다. 다른 구현에서, 배치 데이터 변환 엔진 708은 복수의 새 배치를 병렬로 생산하며, 주어진 유전자 알고리슴의 반복과 관련된 개체집단처럼, 그들을 병렬로 친화력 계산기 709로 보낸다.
다른 구현에서 배치 데이터 변환 엔진 708은 추가 배치는 생성하지 않고 그 대신 배치 모델러 702가 독자적으로, 예를 들면 모델링 시스템 700의 알려진 분자 배치의 세트의 스코어링과 관련된 어떤 용도처럼, 입력 분자 결합 데이터베이스 704 에서 나온 입력 배치 레코드를 가동할 수 있다. 그러한 구현에서 배치 데이터 모델러 702 는 탐색이나 최적화 전략을 포함하지 않을 수도 있으며 그 대신 하나하나 열거된 입력배치 레코드의 친화력계산 실행에 이용된다.
어떤 구현에서 주어진 분자 결합의 배치에 관한 여러 가지 디스크립터 데이터는 하나 또는 그 이상의 디스크립터 구성요소 데이터 저장장치 720 에 하나 또는 그 이상의 저장 (또는 메로리) 할당 수단, 배치 모델러 702에 의하여 실행될 컴퓨팅 사이클 동안에 효과적인 액세스와 저장을 위한 구조 또는 장치에 저장되거나 캐시화 된다. 어떤 구현에서 디스크립터 데이터 저장장치 720은 각각의 분자 부분집합 속에서 원자, 결함, 기, 잔유물, 등등에 지정된 화학적 또는 물리학적 디스크립터들을 포함하고 있으며 심지어 환경 디스크립터 까지도 포함하고 있을 것이다. 또 다른 구현에서 주어진 분자 결합에 대하여 모든 배치에 공통인 디스크립터 데이터가 하나 또는 그 이상의 탐색 테이블에서 저장 배치 수단을 통하여 간결하게 표현되어 있다. 예를 들면 종종 많은 물리학적 및 화학적 디르크립터들이 다른 결합의 배치에 대하여 하나 또는 그 이상의 기하학적 디스크립터는 아니지만 동일할 수도 있다.
또 다른 구현에서 디스크립터 데이터 저장장치 720은 또한 배치에 대하여 지정된 저장장치 배치 수단을 통하여 하나 또는 그 이상의 저장포맷으로 정리된 관련된 기하학적인 디스크립터를 포함하고 있다. 보기로 그러한 포맷은 레코드와 유사한 pdb 나 mol2 포맷을 포함한다. 추가로 보기는 각종 Ahuja I 에서 보인 바와 같이 분자표현과 관련된 그러한 데이터 구조가 포함된다. 좀 더 보기로서, 아마도 원자와 결합에 대한 저장된 디스크립터 가 하나 또는 그 이상의 명단이나 배열에 있는 개개이 노드를 나타낼 것이고 또는 대안으로 각각 트리나 디렉토리식 그라프의 노드나 엣지를 나타낼 수 있을 것이다.
입력 배치 레코드 706의 전체 나 부분 , 가능하다면, 배치 셀렉터 712에 의하여 선정된 배치레코드 714 가 디스크립터 데이터 저장장치 720의 저장 배치 수단에서 사용되는 데이터 표현으로 변환될 것이다. 스크립처 데이터 저장장치 720 에 포함된 데이터 구조물은 배치 데이터 변환 엔진 708 또는 친화력 계산기 709가 사용하기 위하여 읽혀질 수 (즉 액세스될 수) 있을 것이며 실행중간에 개입이나 위치 모델러 702에 의한 한 사이클의 컴퓨터작업이 실행되는 동안에 읽혀질 수도 있을 것이다. 관련된 디스크립터 데이터 저장장치720에 대한 레이아웃과 액세스패턴은 배치 데이터 변환 엔진 708 뿐만 아니라 친화력 계산기 709의 필요에 달린 것 같다.
친화력 계산기 709는 하나 또는 그 이상의 처리 (즉 친화력) 엔진을 포함하며 거기서 각각의 친화력 엔진은 이전에 상호작용 타입, 친화력 공식, 그리고 컴퓨터사용 전략에 관하여 정의된 하나 또는 그 이상의 친화력 요소들에 관한 계산 실행에 전념하게 된다. 어떤 구현에서는 다른 친화력 엔진들이 각각 유일한 친화력 요소에 지정된다. 다른 구현에서 하나 또는 그 이상의 친화력 엔진이 복수의 친화력 요소들을 처리의 유사성에 따라서 컴퓨팅 한다. 또 다른 구현에서는 다른 친화력 엔진들이 함께 구룹지어서 또는 배열하여서 캐쉬(cache) 구조를 개선하거나 각종 관련된 데이터 통로에 대한 밴드폭 요구사항, 또는 라우팅 요구사항 등을 줄이기 위하여 요청되는 입력 데이터의 부분을 공유하는 편리한 점을 이용한다.
예를 들면, 어느 구현에서, 정전기적 및 vdW 상호작용 두 가지에 대한 친화력 요소들은 저장된 사전생성된 porbe grid maps 를 이용하는 현장 기반의 컴퓨터 이용 전략돠 결부되어 같은 친화력 엔진상에서 컴퓨팅될 수 있으며 거기에서 그 엔진은 두 가지 타입의 probe grid maps 에 접근할 필요를 요구하게 되며 두 개의 다른 상호작용에 대한 친화력 공식에서 평가하는데 사용될 각종 숫자적인 매개변수를 요구하게 된다. 다른 보기로, 수소결합과 vdW 상호작용 두 가지에 대한 친화력 요소는 친화력 공식을 사용하여 pair 기반 컴퓨터 이용 전략에 따라서 컴퓨팅된 일반화된 Lennard-Jones 포텐시얼 성능을 보이며 동일한 친화력 엔진상에서 컴퓨팅 될 수 있다. 대안적인 구현에서, 동일한 두 개의 친화력 요소들이 두 대의 다른 친화력 엔진을 사용하여 그러나 관련된 공간 좌표와 관련된 화학적 또는 물리학적 디스크립터 의 부분 집합 같은 입력 데이터를 공유하기 위하여 함께 그룹으로 컴퓨팅 될 수 있다.
대표적으로 한 개의 처리과정 파이프라인은 일련의 처리과정의 요소들 또는 엔진으로 정의되며 그 것은 예를 들면 공장에서의 조립과정처럼, 여러 단계로 과업이 실행된다. 각 처리 요소는 입력을 받아드리고 그의 외부 버퍼에 저장되어 있는 출력을 생산해낸다. 한 파이프라인 에서 각 처리 요소의 출력은 다음 처리 요소의 입력이 되므로 이것은 한 처리 요소의 출력 버퍼가 다음 처리 요소가 입력 버퍼가 됨을 의미한다. 한 파이프라인은 처리 요소들이 병렬로 작업하는 것을 허용하므로 그리하여 각 입력이 전부 다 처리된 이후에 다음 입력에 대한 컴퓨터작업이 시작되는 것 보다 더 효과적이다. 처음 처리하는 요소에서는 파이프라인 내에서 종종 하나 또는 그 이상의 저정장치나 캐쉬 또는 심지어 다른 상류의 처리과정 파이프라인에서 입력 데이터를 받아 드린다. 마찬가지로 최후의 처리과정 요소 출력 데이터는 하나 또는 그 이상의 저장장치 또는 캐쉬 또는 다른 하류 처리과정 피이프라인으로 출력한다.
한 파이프라인 내의 처리 요소는 파이프라인 단계와 관련되어 있다. 한 피이프라인 단계가 그의 입력에서 출력을 생산해 내려고 잡는 시간의 량을 파이프라인 간격이라고 정의한다. 여기서 한 파이프라인 단계 간격은 사이클 단위로 (또는 클럭사이클) 측정되는데 거기서 한 사이클은 컴퓨터 장치에 의하여 인식되는 기본적인 시간 주기이다. 한 사이클은 일반적으로 시스템 클럭률로 결정된다. (그러니까 클럭사이클).
파이프라인으로 입력하는 단계는 파이프라인 단계 간격의 시작에서 읽혀진다. 파이프라인에서 입력 데이터는 간격이 시작되는 단계에서 읽혀질 수 있다고 개대되며, 그 이전이 아니다. 마찬가지로 파이프라인으로 부터의 출력은 다 단계 간격 끝에서만 가능하다고 예상된며 그 이전이 아니다. 만약 그 대신 한 파이프라인 단계가 그 처리를 시작하기 전에 전 단계 출력을 고려하는 것 때문에 어느 정도의 시간을 기다려야만 한다면 그 기다리는 시간을 파이프라인 stall (막힘) 이란 용어로 표현하며 처리 요소가 stall 하는동안idle (공회전상태) 말하는데 그 이유는 한 세트의 데이터에 그의 출력을 생산해 내었지만 그러나 읽히기 시작하지 않았고 전 단계에 의하여 생산된 다음 입력세트의 처리도 시작되지 않았기 때문이다.
한 파이프라인이 (시작 시에) 최초의 처리 요소가 첫 입력 데이터를 받고 마지막 처리 요소가 최초의 출력 데이터를 생성하는 사이에 걸린 전체 시간과 관련하여 대기시간을 갖게 되는 것은 자연스러운 것이다. 일단 대기 기간이 지나면 모든 파이프라인 단계는 규칙적으로 계속하여 데이터를 처리하며 그 파이프라인은 안정된 상태에 도달 하였다고 말한다.
잘 설계된 파이프라인에서는 파이프라인 간격은 파이프라인 stall 이 최소이거나 또는 없고 그리고 각 처리 요소가 (거의) 일단 파이프라인이 안정된 상태에 도달하면 최대한으로 이용되는 그런 상태에서 선정된 것이다. 최대한의 활용에 도달하려면 파이프라인은 보다 높은 latency 와 단계들을 조 더 잘 동기화 하여서 파이프라인 내의 어떤 단계에서도 다른 입력이 서로 간섭을 하지 않도록 보다 구조적인 복잡성을 필요로 한다. 그에 따라서 각 단계가 입력을 받는 스케줄, 각종 가동 실행 그리고 출력 결과가 파이프라인 내에서 다음 단계로 파이프 라인 단계 간격 내에 가는 것을 여기서 파이프라인 스케줄이라고 한다.
두 개의 파이프라인을 만약 그들이 병렬로 가동하면 병렬파이프라인 이라고 하는 것이다. 즉 한 파이프라인은 한 셋의 입력을 처리하고 다른 파이프 라인은 동시에 같은 처리를 하거나 또는 다른 셋의 입력을 처리하는 것이다. 첫 번째 처리 요소의 각 파이프라인에 있는 입력 버퍼는 다를 수도 있고 또는 사실상 겹쳐시거나 저장장치를 공유할 수 있다. 마찬가지로 각 파이프라인의 마지막 단계의 출력 버퍼는 다를 수도 있고 또는 사실상 겹쳐저서 저장장치를 공유할 수도 있다. 대표적으로 입력 데이터는 각 파이프라인에 의하여 데이터 블록이나 데이터 패스 배치 수단 또는 그와 동등한 것에 의하여 정렬된 부분으로 제공된다. 이에 관하여서는 이후에 논할 것이다.
두 개의 병렬 파이프라인은 만약 각 파이프라인이 각각 그들의 입력 데이터의 할당 부분에 대한 결과를 실질적으로 동시에 생성해 내면 동기화되었다고 말한다. 여기서 실질적으로 동시라는 용어는 두 개의 병렬 파이프라인이 간에 동기화가 뒤처지는 것이 비교적 작을 시간 간격이라는 것을 의미하며 종종 사이클 (클럭) 단위로 측정되며 거기서 동기화 lag 이란 비교하여 빠른 쪽의 파이프라인의 결과의 출력 대 늦은 파이프라인의 결과 출력 간의 시가 간격이다. 만약 동기 lag 이 0 이라면 두 병렬 파이프라인은 완전히 동기화되었다고 말해진다. 만약 동기화 lag이 결과를 생산하는 가장 느린 파이프라인이 걸린 시간에 대하여 클럭 사이클 용어로 작거나 또는상대적인 비율의 용어로 작으면 두 병렬 파이프라인은 거의 동기화되었다고 말해진다.
두 개의 파이프라인 설계에 따라서 동기화의 성질은 개별적인 입력 데이터 블록에 또는 데이터 블록의 흐름 또는 그로 인한 다른 부분에 적용된다. 동기화 (거의 또는 완전) 는 파이프라인을 가로 지르는 처리 요구의 균형, 한쪽 또는 양쪽 파이프라인의 좀더 내적으로 병렬화하는 것, 또는 비교적 빠른 파이프라인에서 작은 내적인 대기를 도입하는 것, 후자는 선택은 별로 효과도 적고 심지어 바람직하지도 않지만, 등에 의하여 달성된다. 동기화에 대하여 자세한 보기는 Fig.10 관련하여 논의할 것이다.
친화력 계산기 709의 논의로 돌아가서, 어떤 구현에서, 복수의 친화력 엔진은 그 처리를 병렬로 실행할 수 있으며 또는 순차적으로 또는 복합적으로 할 수도 있다. 어떤 구현에서, 복수의 친화력 엔진은 동기화된 병렬 파이프라인으로 배열될 수 있으며 그리하여 친화력 계산이 각 엔진에 의하여 입력 데이터의 부분에 대하여 실질적으로 동시에 완료될 수 있을 것이다. 또한 각종 구현에서, 가능하다면, 다른 친화력 요소들이 같은 엔진 상에서 컴퓨팅되어 순차적이든 또는 병렬식이든 실행될 수 있을 것이다.
어떤 구현에서는, 친화력 계산을 친화력 엔진의 뱅크에 걸쳐서 실질적으로 동시에 실행되고 완료 수 있도록 하기 위하여 특별히 파이프라인과 관련하여 서로 다른 친화력 엔진들이 서로 다른 량의 논리, gate, 회로, dye area, 기타 처리 요소 등을 요구하며 다른 클럭 주파수 같은 다른 구조, 다른 캐시 구성, 다른 부품 배치 또는 심지어, 예를 들자면, FPGA cell vs. DSP vs. 작은 SAIC 같은 다른 매체 사용도 요구하게 될 것이다. 일반적으로 주어진 친화력 요소에 대한 계산은 규모가 크면 클수록 복잡하면 복잡할수록 그 친화력 엔진을 사용하는 데에 다른 친화력 엔진에 관련한 시간 균형을 고려하여 더 많은 전력을 필요로 할 것이다. 이에 관해서는 Figs. 9a, 9b 및 10 에 묘사된 보기에 관한 설명에서 좀 더 상세히 논할 것이다.
친화력 계산기 709 는 또한 하나 또는 그 이상의 친화력 특성의 저장 수단에 따른 친화력 엔진의 가동에 대하여 데이터 특성 저장부품을 포함할 것이다. 한 구현에서 이것은 grid maps, 또는 하나 또는 그 이사의 필드 기반 친화력 요소와 관련된 포텐시얼 함수 저장장치를 포함할 것이다. 다른 구현에서 그러한 친화력 특성 데이터 저장장치는 각종 수치 매개상수, 상수, 또는 타색 테이블, 하나 또는 그 이상의 수학 함수 또는 수식 등을 포함할 것이다. 친화력 계산기 709는 또한 배치 데이터 변환 엔진 708에 의하여 생성된 배치 데이터 뿐만 아니라 그러한 친화력 특성 데이터를 액세스 하고 제공하기 위한 적합한 데이터 경로 배치 수단을 포함할 것이다. 어떤 구현에서 포함된 데이터 경로 배치 수단은 또한 복수의 친화력 엔진의 운영 스케줄에 대한 책임이 있다. 어떤 구현에서 포함된 배치 수단은 또한 친화력 엔진의 뱅크에 지정되고 컴퓨터적으로 균형된 방식으로 지정된 덩어리로 데이터를 제공하는 처리 파이프라인의 동기성을 유지하는 책임이 있다.
배치 모델러 702의 보다 상세한 논의는 배치 데이터 변환 엔진 708, 친화력 엔진 709, 그리고 디스크립터 데이터 저장장치 720 을 포함하여 Fig. 8 과 관련하여 후에 제시될 것이다.
어떤 구현에서, 배치 결과 레코드 711은 배치에 대하여 평가된 친화력 함수에 (즉 친화력 측정) 관련된 수량 측정을 포함 한다. 어떤 구현에서, 이것은 스코어 이다. 다른 구현에서는 이것이 확률일 수도 있다. 다른 구현에서는 엔탈피일 수도 있다. 또 다른 구현에서 이것은 각종 열역학적 앙상블과 이다.(즉 캐논, 마이크로개논, 대캐논 등등) 또 다른 구현에서 이것은 포센시의 측정, 또는 생체작용이다. 다른 구혀에서는 배치결과 레코드 711은 배치에 대하여 평가된 친화력 함수에 관련된 질적인 측정을 포함할 수 있다. 한 구현에서 이것은 등급일 수 있다. 다른 구현에서는 이것은 범주화 작업일 수도 있다. (즉 가난, 약한, 강한 등) 또 다른 구현에서는 이것이 단순히 활동적 또는 비활동적 같은 통과 실패 측정일 수도 있다.
많은 구현에서 배치 결과 레코드 711은 또한 그 자체동일성을 지정하기 위하여 사용되는 정보를 포함할 수도 있고 친화력 측정에 상응하는 배치의 본성을 포함할 수도 있다. 하나 또는 그 이사의 관련된 화학적 및 물리학적 디스크립터 뿐만 아니라 상호작용하는 분자 부분집합의 동일성에 추가하여 배치의 기하학적인 상태에 주석을 달거나 아니면 표현할 필요가 있다. 기하학적인 변환에 관하여 전에 논하였던 바와 같이 어떤 구현에서 이것은 한 셋의 기하학적 디스크립터들의 기록 또는 각각의 분자 부분집합에 대한 자유도의 정도와 관련된 상태 변수를 연관시킬 수도 있다. 그러한 기하학적인 디스크립터 세트 ( 아마도 템플레이트 지식과 일치하여 또는 각 분자 부분집합에 대한 입력구조 참조) 는 하나의 배치 택(tag) 이나 라벨로 쓰이는 그리하여 한 방분 하였던 배치를 다른 것과 구분하는 역할을 할 것이다. 예를 들면 고체 배치변화와 관련하여 유일한 값 6 degree 자유도 는 적절한 배치 라벨이 될 수도 있을 것이다. ( 만약 이경우에 분자 부분집합 어디에도 형태상의 변경이 없다면). 그렇지만 보델링 시스템 700을 사용할 때에는 배치 스코어링에 관한 어떤 구현에 아마도 친화력 측정만 요구될 것이다.
분자 배열 선별기712에 의해 진행된 선택은 친화력 함수 값, 각 배열의 구조를 설명하는 일련의 기하학적 설명 어구, 혹은 배열 기록에 첨부된 다른 다양한 설명 어구 데이터에 근거한다. 또한, 일부 구현체들에서, 분자 배열 선별기712는 결과 데이터베이스에 저장된 많은 분자 배열 기록들에 대한 더 많은 분석을 위한 수단들을 처리하는 분자 배열 결과들을 포함할 수도 있기 때문에, 분자 배열 선별기에 의해 채택된 선택 범주들은 추가적인 처리의 결과에 근거하여 결정을 내릴 수 있다. 일부 구현체들에서, 분자 배열 선별기 712는 특정한 분자 배열을 더 많은 컴퓨터 계산을 위해 모델링 시스템 702로 다시 제출하기 위해 다양한 선택 범주들을 이용할 수 있다.
하나의 구현체에서, 선택 범주는 하나 이상의 질적 친화력 척도에 근거한 연쇄의 경과 혹은 다른 결정 기제에 입각한 것일 수 있다. 또 다른 구현체에서, 선택 범주는 하나 이상의 양적 친화력 척도에 근거하여 연쇄 혹은 다른 결정 기제에 근거한 것일 수 있다. 또 다른 구현체에서, 분자 배열 선별기 712는 친화력 함수가 많은 표본화 된 분자 배열을 위해 평가될 때까지 기다리며, 그것들의 상응하는 친화력 척도들에 의해 그것들을 등급화하고, 그리고 나서 X가 0과 100 사이에서 선택된 숫자일 때 최상의X%를 선택한다.
그러나 또 다른 구현체에서, 선택 범주는 이미 언급한 분자 배열 결과 처리 수단에 의해 제공된 것처럼, 복수적인 분자 배열에 대한 수단, 매체, 방식, 혹은 다양한 다른 막대그래프에 근거한 통계의 계산에 의해 유도된 양적 연쇄의 적용에 근거한다. 그러나 또 다른 구현체에서, 선택 범주와 관련하여 분자 배열 결과 처리 수단에 대한 더 많은 분석은 주요한 구성요소 분석, 다차원적 클러스터링, Bayesian 필터들, 다변수의 회귀 분석 등을 포함하여(그러나 거기에 국한되어 있는 것은 아니다), 데이터710에 저장된 복수적인 분자 배열 기록들에 대한 다른 통계적 분석에 근거할 수 있다. 그러나 다른 구현체에서, 선택 범주와 관련되어 있는 분자 배열 결과 처리 수단에 대한 더 많은 분석은 신경 네트워크의 이용, 지지 벡터 기기, 숨겨진 Markov 모델 등을 포함하여(그러나 거기에 국한되어 있는 것은 아니다), 데이터 베이스 710에 저장된 많은 다른 분자 배열 결과 기록들에 대한 다양한 패턴 일치 분석에 근거할 수 있다. 그러나 또 다른 구현체에서, 선택 범주와 관련하여 분자 배열 결과 처리 수단에 대한 더 많은 분석은 클러스터 구성 요소들의 친화력 함수 값들에 근거한 클러스터 대표자들을 등급화하고 그리고/혹은 선택하기에 앞서 구조적 유사성에 근거한 복수적 분자 배열의 클러스터링에 근거한 것일 수 있다.
분자 배열 모형기702가 분자 배열 표본화를 위한 유전적 혹은 유추 연산방식을 채택하는 또 다른 구현체에서, 분자 배열 선별기 712는 상응하는 친화력 척도들과 많은 다른 분자 배열을 나타내는 많은 수의 분자 배열 결과 기록들을 검증할 수 있으며, 나머지와 관련하여 각 분자 배열의 적합성에 근거하여 선별 기기를 적용할 수 있다. 분자 배열 모형기 702가 분자 배열 표본화를 위한 시뮬레이티드 가열냉각 혹은Monte Carlo 기반 접근법을 채택하는 또 다른 구현체에서, 분자 배열 선별기 712는 상응하는 친화력 척도들과 함께 다른 분자 배열을 나타내는 많은 수의 분자 배열 결과 기록들을 검증할 수 있으며, 친화력 척도들을 이용하여 하나 이상의 확률 분포에 근거한 선택을 할 수 있다.
어떤 구현체들에서, 분자 배열 데이터 변형 엔진 708은 분자 배열 선별기 712로부터 특정한 재 제출된 분자 배열을 수용할 수 있으며, 그것들을 새로운 사이클의 모델링 컴퓨터 계산을 시작하는 인풋으로 이용할 수 있다. 다시 한번, 이것은 재 제출된 선택된 분자 배열 기록 714에 근거한 하나 이상의 새로운 분자배열의 생성(변형을 통해 혹은 최초의 구성을 통해)을 수반할 수 있다. 예를 들어, 특정한 분자 배열이 분자 배열 선별기 712에 의한 높은 친화력에 근거한 데이터베이스 710으로부터 선택된다면, 분자 배열 데이터 변형 엔진 708은 분자 조합의 발생 가능한 분자 배열 공간의 부분을 더 잘 조사하기 위하여 구조적으로 유사한(즉, 각 분자 하위집합에 대한 유사하지만 약간은 다른 포즈) 복합적인 분자 배열을 생성할 수 있다.
다른 구현체들에서, 선별된 분자 배열 기록 714의 재제출에 의해 유발된 새로운 사이클의 모델링 컴퓨터 계산은 다른 일련의 조건들 하에서 분자 배열 모형기 702의 작동을 포함할 수 있거나 혹은 다른 일련의 컨트롤 매개변수를 이용하는 것은 포함할 수 있다. 다른 구현체들에서, 선택된 분자 배열 기록기714는 다른 친화력 계산의 이용 혹은 다른 조사 혹은 최적화 전략의 이용을 포함하여, 분자 배열 모형기 702의 다른 변수를 이용하는 새로운 사이클의 모델링 컴퓨터 계산을 시작할 수 있다.
그림 8은 도킹, 스코어링, 혹은 분자 라이브러리 스크리닝과 관련된 하나의 구현체에 따라 더 자세하게 분자 배열 모형기 702를 설명한다.
여기에서 항목 802는 그림 7과 관련하여 설명된 것처럼, 인풋 분자 조합 데이터베이스로부터 혹은 분자 배열 선별기 혹은 둘 모두로부터 얻은 인풋 분자 배열 기록을 말한다. 인풋 분자 배열 기록 802는 분자 배열 기록 컨버터 804로 전달된다. 분자 배열 기록 컨버터 804는 입력되는 기록들을 인풋 설명 어구 데이터 저장소 806의 하나 이상의 구성요소와 관련된 저장 수단에서 이용되는 분자 설명으로 전환한다. 분자 배열 데이터 컨버터는 또한 인풋 분자 배열 데이터를 잃어버리거나 혹은 그것으로부터 직접적으로 가져오게 된 모든 설명 어구들의 할당을 책임지고 있다. 여기에서 인풋 설명어구 데이터 저장소 806은 네 가지 구성 요소, 즉 인풋 화학적 설명어구 데이터 저장소 808, 인풋 물리적 설명어구 데이터 저장소810, 인풋 환경적 설명어구 데이터 저장소 812, 그리고 다양한 기하학적 설명어구를 포함하는 인풋 구조적 데이터 저장소 814 등으로 나누어져 있다. 하나의 구현체에서, 적절한 화학적, 물리적, 그리고 환경적 설명 어구들은 동일한 분자 조합의 다른 분자 배열들에 대해 변화하지 않고 유지될 것이지만, 새로운 조합을 분석할 때 업데이트 될 필요가 있을 것이다. 또한 일부 구현체들에서, 저장소 814에 있는 인풋 구조적 데이터들은 분자 배열 데이터 변형 엔진 816을 위한 원인으로 작용할 각각의 분자 하위집합에 대하여 하나 이상의 최초의 포즈들을 설명하는 기하학적 설명어구들을 포함한다.
분자 배열 데이터 변형 엔진 816은 분자 조합의 하나 이상의 분자 배열을 생성하기 위해 인풋 설명어구 데이터 저장소 806에 저장된 데이터에 접근하며, 분자 배열 데이터 저장소 818에서 저장 배치 수단을 통해 각 분자 배열을 저장한다. 그것은 하나의 구현체에 대해 Ahuja I.에서 보여준 분자 설명 분할과 관련하여 논의된 것들과 같이 특수화된 분자 그래프 데이터 구조들을 특징적으로 나타낼 것이다. 분자 배열 데이터 변형 엔진 816이 분자 배열 데이터 저장소 818을 읽을 수도 쓸수도 있다는 사실을 주지하라. 인풋 설명어구 데이터 저장소 806과 분자 배열 데이터 저장소 818의 네 가지 구성 요소들은 그림 7(즉 항목 720)과 관련하여 앞서 논의한 설명어구 데이터 저장을 구성한다. 하나의 구현체에서, 인풋 설명어구 데이터 저장소806과 분자배열 데이터 저장소 818은 SRAM 저장물의 저장소로 기능한다.
하나의 구현체에서, 분자배열 데이터 저장소818은, 다른 것들이 여전히 생성중일 때, 하류부분 처리가 저장된 분자 배열에서 작동할 수 있도록 하기 위해 하나 이상의 이중-완충기억 저장물로서 수행하거나 그것을 포함한다. 또한 하나의 구현체에서, 단일한 분자 배열에서 각각의 분자 하위집합에 상응하는 데이터는 효과적인 파이프라인 작용을 보장하기 위해 고정된 최대 사이즈의 데이터 블록에서 데이터 저장소818로부터 읽을 수 있거나 기록될 수 있다. 또한, 복합적인 다른 분자 배열로부터 가져온 데이터 블록들은 잠복기를 줄이기 위하여 병행하여 동시에 읽혀지거나 쓰여질 수 있다.
분자 배열 데이터 변형 엔진 816은 변형 엔진 816의 일부로 포함된 검색 혹은 최적화 전략에 따라 새로운 그 이상의 분자 배열을 생성하기 위하여 하나 이상의 분자 배열을 포함하는 저장소 818에 있는 분자 배열 데이터의 하위 집합을 다시 읽을 수 있다. 하나의 구현체에서, 분자 배열 데이터 변형 엔진 816은 또한 확률론적인 검색 혹은 최적화 전략에 따라 분자 배열들을 구성하거나 변형하기 위하여 하나 이상의 무작위적인 수 생성기들을 이용할 수 있다.
친화력 계산기 820은 그림 8의 음영 부분에 의해 확인된 것처럼 복합적인 구성 요소들을 포함한다. 하나의 구성요소는 처리(혹은 친화력) 엔진 826의 저장소와 연결된 데이터 경로 822의 복수성에 대한 데이터의 배분을 다루는 데이터 경로 배분기821이다. 데이터경로 배분기821은 분자 배열 데이터 저장소 818로부터 분자 배열 데이터를 읽어 내며, 일부 구현체들에서, 데이터는 분자 배열 데이터 변형 엔진 816에 의해 만들어진 데이터 접근과 관련하여 논의된 것과 유사한 방식으로 데이터 블록에서 분자 배열 데이터 저장소 818로부터 접근 가능하다.
하나의 구현체에서, 데이터 경로 배분기 821은 데이터를 데이터 블록에 있는 친화력 엔진 826으로 분배한다. 데이터 블록은 저장소 818로부터 읽어낸 하나 이상의 분자 배열 데이터 블록과 관련된 데이터의 모든 부분 혹은 일부분의 선택과 재배치 모두를 포함할 수 있다. 데이터 블록의 구조(즉 그것이 어떤 데이터를 포함하는지 그리고 그것이 어떻게 메모리에 배치되는지)는 그것의 최종적 친화력 엔진에 의해 수행된 계산의 특성에 달려 있다. 데이터 블록은 연속적으로 혹은 병행하여 하나 이상의 친화력 엔진에 제출될 수 있다. 일부 구현체들에 따르면, 데이터 블록은 하나 이상의 분자 배열을 가로질러 하나 이상의 분자 하위집합과 관련된 정보를 포함할 수 있다. 다른 구현체들에서 데이터 블록은 너무 작아서 각각의 데이터 블록은 단지 하나의 값만을 포함한다. 두개의 데이터 블록들은 의도적인 친화력 엔진의 요구를 충족시키기 위해 가능하면 다르게 배치될 수도 있지만, 공통적인 정보를 포함할 수 있다. 친화력 계산기의 다른 구성 요소들을 위해 준비된 데이터 블록들은 다른 친화력 구성 요소들을 가로질러 다른 데이터 그리고 대역폭 요건 때문에 다르게 배치되거나 조직화될 수 있다. 일부 구현체들에서, 하나 이상의 데이터 블록들은 데이터 경로 배분 수단에 의해 지정된 것처럼 데이터 경로 스케쥴에 따라 친화력 엔진으로 전도된다. 여기에서 데이터 경로 스케쥴이라는 용어는 데이터 블록을 친화력 엔진으로 전도하고 전달하기 위한 일시적 도식을 말한다. 하나의 구현체에서, 데이터 경로 스케쥴은 교통 스케쥴과 유사할 수 있지만, 여기에서 대신에 교통은 데이터 블록에 의해 설명되며, 도로는 데이터 경로에 의해 설명되고, 목적지는 친화력 엔진에 의해 설명된다. 하나의 구현체에서, 데이터 경로 스케쥴은 현재 마스터 시계에 따라 본질적으로 동시에 나타날 수 있다. 또 다른 구현체에서, 데이터 경로 스케쥴은 신호변경 프로토콜에 따라서 본질적으로 동시적이지 않을 수도 있다. 여기에서 친화력 엔진은 다음 인풋 데이터 블록을 위해 준비된 데이터 경로 배분 수산을 알려줄 수 있다.
하나의 예로서, 만약 단백질이 고정된 상태로 남아 있고, 메소트렉세이트 리건드의 유연성이 여섯 개의 딱딱한 신체와 열 개의 비틀어진 정도의 자유에 근거하고 있다면, 그림4a-4c에서 특징적으로 나타난 조합을 위한 6 1023 가지 이상의분자 배열이 있다고 평가될 수 있는 그림 5의 메소트렉세이트 리건드를 고려해보자. 실용적이지는 않지만, 분자 배열 데이터 변형 엔진 816이 맹목적인 힘 검색에서 모든 6 1023 가지의 분자 배열을 생성하는 것이 가능하지만, 분자 배열 데이터 변형 엔진 816이 분자 조합의 분석 과정에 대한 발생 가능한 분자 배열 공간의 하위 집합을 생성하는 것을 결정할 것 같다. 비록 이것이 여전히 수백만개의 그리고 심지어 수십 억 개의 개별적인 분자 배열을 포함하고 있지만.
평가되는 분자 배열의 집합은 분자 배열 데이터 저장소 818에 개별적으로 저장될 수 있고, 혹은 아무리 배열되어 있다 하더라도, 하류부분 처리를 위해 의도된 데이터 블록들의 연쇄를 각각 특징적으로 나타내는 하나 이상의 평행하게 된 흐름들로 데이터 경로 배분기 821에 의해 확산될 복합적인 분자 배열을 특징적으로 나타내는 응집된 설명으로 제시될 수 있다. 예를 들어, 분자 배열 데이터 변형 엔진 816은 모든 분자 배열 데이터의 응집을 나타내는 데이터 블록들을 한번에 백가지의 분자 배열로부터 분자 배열 데이터 저장소 818로 보낼 수도 있다. 그러나, 그 예에 이어서, 데이터 경로 배분기 821은 저장소 818로부터 분자 배열 데이터를 추출할 수도 있으며, 데이터 블록들의 집합을 형성할 수도 있다. 각각의 블록은 하나의 분자 하위 집합으로부터 백가지 원자 하위집합을 포함한다. 대체적 예로서, 각각의 데이터 블록은 분자 배열 데이터 저장소 818에 이미 저장된 열 가지 다른 분자 배열로부터 얻은 두 가지 분자 하위 집합으로부터 세가지 특징적인 백가지-원자 하위 집합까지 나타낼 수 있다.
전형적으로, 데이터 경로 배분기 821은 데이터 블록을 각각의 친화력 엔진으로 병행하여 보냄으로써 가능한 완전하게 데이터 경로 822의 복수성을 유지하려고 할 것이다. 개별적인 데이터 블록이 데이터 경로를 따라 최종 목적지 친화력 엔진으로 전도되는 비율은 그것의 상응하는 데이터 경로와 관련된 데이터 대역폭에 의존할 것이며, 최종 목적지 친화력 엔진의 처리 수행에 의존할 것이다. 하나 이상의 데이터 블록의 배치, 크기, 그리고 스케쥴은 동력학적으로 배열될 수 있으며, 따라서 다른 분자적 하위집합을 특징적으로 나타내는 다른 분자 조합들에 적용될 수도 있으며, 혹은 동일한 분자 조합에 대한 다른 분석을 위한 것은 분자 배열 모형기 702의 다른 반복적 사이클과 관련될 수도 있다.
일부 구현체들에서, 데이터 경로 배분기 821은 파이프라인 칸이 거의 없는 혹은 아예 없는 빈틈이 없는 파이프라인 스케쥴에 따라 최종 목적지 친화력 엔진 826에 보내기 위하여 저장 배분 수단에 따라 하나 이상의 데이터 블록들을 저장한다. 하나의 구현체에서, 이러한 저장 도식은SRAM에 근거하여 하나 이상의 투여된 이중-완충 저장소를 특징적으로 나타낼 수 있다. 그러나 또 다른 구현체에서의 또 다른 변화에서, 일부 혹은 모든 데이터 저장소들은 분자 배열 모형기의 ASIC 수행에서 직면하게 되는 것과 같은 잠재적 데이터 경로 전달 문제들을 완화하기 위하여 리지스터 파일들을 이용하여 수행될 수 있다.
데이터 경로 배분기 821은 또한 하나 이상의 친화력 엔진 826의 작동에 특정한 데이터를 포함하는 하나 이상의 투여 된 친화력 데이터 저장소 824와 연결되어 있다. 예를 들어, 친화력 데이터 저장소 824는 하나 이상의 잠재적 영역 함수의 데이터 설명, 검사 그리드 맵, 점유 3-D 그리드 등을 포함할 수 있다. 친화력 데이터 저장소 824는 또한 다양한 수적 상수, 수학적 함수 룩업 표(예를 들어, 다항식, 삼각법, 대주, 혹은 특별한 함수 룩업 표), 혹은 다른 친화력-특유의 매개변수 혹은 표로 만들어진 함수 등을 포함할 수 있다. 일부 구현체들에서, 친화력 데이터 저장소 824는 DRAM(표준 파일 I/O가 매우 느릴 수 있기 때문에)에 있는 대용량 데이터 구성을 저장할 수 있으나, 반면에 룩업 표와 매개변수와 같은 더 작은 데이터 실체들은 SRAM 저장소에 저장된다. 일부 구현체들에서, 데이터 경로 배분기 821은 다양한 설명된 저장소 혹은 연결된 저장소에 대한 데이터 접근을 읽거나 쓰는 것을 통제하는 하나 이상의 투여 된 메모리 콘트롤러를 포함할 수 있다.
데이터 경로 822 자체는 데이터 경로 배분기 821에 의해 다양한 의도된 친화력 엔진 826으로 보내진 데이터 블록을 전달하고 운반하는 책임을 지고 있다. 일부 구현체들에서, 다른 데이터 경로들은 최종 목적지 친화력 엔진들의 요구에 따라 그리고 운반된 데이터 블록들의 크기에 따라 다른 데이터 대역폭을 가지고 있다.
그림 7의 친화력 계산기 709와 관련하여 앞서 논의한 대로, 친화력 엔진 826의 저장소는 처리 엔진의 집합이며, 각 엔진은 하나 이상의 친화력 구성 요소들과 관련된 친화력 계산을 수행하는데 기여한다. 그림 8에서, 친화력 엔진 826의 저장소는 생략이 828과 829 사이에 배치된 다른 (N-3) 친화력 엔진들을 설명하는 827(첫번째 엔진), 828(두 번째 엔진), 829(N번째 엔진)에 의해 설명된 N 개의 개별적인 친화력 엔진들로 이루어져 있다. 하나의 구현체에서, 데이터 경로 배분기 821에 투여 된 데이터 경로들은 각각의 개별적인 친화력 엔진을 연결한다. 각각의 친화력 엔진이 그것의 계산을 끝마칠 때, 그 결과들은 친화력 구성요소 축적기 830에 제공된다. 하나의 구현체에서, 친화력 엔진 826의 저장소는 데이터 경로 배분기 821에 의해 데이터 경로 822의 집합으로 보내진 배분된 데이터 블록의 흐름을 동시에 받으면서 동시에 작동한다. 데이터 경로 배분기 821은 모든 측정된 분자 배열에 대하여 친화력 함수의 모든 친화력 구성 요소들의 계산을 완성하는데 필요로 하는 만큼의 많은 데이터 블록들을 전달한다.
일부 구현체들에서, 각각의 친화력 엔진은 또한 데이터 경로 배분기 821로부터 하나 이상의 안으로 향하는 데이터 블록을 적절하게 저장하기 위해서 하나 이상의 내부 메모리 저장소를 포함할 수 있다. 하나의 구현체에서, 이러한 내부 인풋 저장소들은 읽고 쓰는 것을 위해 이중으로 완충 될 수 있으며, SRAM 혹은 리지스터 파일 혹은 일부 조합에서 수행될 수 있다.
그림 7의 친화력 계산기 709와 관련하여 앞에서 설명한 것처럼, 그리고 그 구현체에 따라, 그림 8에서 사진으로 제시된 각각의 친화력 엔진 은 하나 이상의 관련된 친화력 구성 요소들의 컴퓨터 계산에 투여 되거나 혹은 대신에 하나 이상의 공통적인 데이터 경로들 그리고 가능하다면 하나 이상의 공통된 내부 인풋 저장소들 혹은 부분들을 공유하는 친화력 엔진들의 그룹들을 반영할 수 있으며, 따라서 이용 가능한 데이터 대역폭을 더 효율적으로 이용할 수 있다. 일부 구현체들에서, 각각의 친화력 엔진 826은 하나 이상의 처리 단계들을 포함하는 처리 파이프라인을 설명하며, 여기에서 각각의 단계는 빈틈이 없는 파이프라인 스케쥴에 따라 파이프라인 내부에 있는 인풋 데이터 블록의 부분들에 대한 일련의 계산을 수행한다.
이 개념은 그림 9a에서 가장 잘 설명되어 있다. 그림 9a는 각각 vdW와 정전기학적 상호작용과 관련된, 그리고 영역-기반 컴퓨터 계산 전략을 이용하는 두 가지 친화력 구성 요소들을 계산하는데 투여 된 친화력 엔진 900에 대한 도식적 개관을 보여준다. 이 예에서, 친화력 엔진은 화살표 902에서 제시한대로, DRAM에 있는 검사 그리드 맵에 저장된 모든 필요한 잠재적 함수 데이터에 대해 접근한다. 또한 이 예에서, 친화력 엔진은 또한 검사 그리드 맵 근사값을 이용한 저장된 잠재적 영역에 의해 영향을 받은 원자들의 집합을 포함하는 데이터 블록을 가지고 있는 내부 인풋 SRAM 저장소 904를 포함한다.
이 예에서, 친화력 엔진 900의 처리는 각각 vdW와 정전기학적 상호작용에 대하여 두 가지 다른 파이프라인들 906과 914로 나누어진다. 각각의 파이프라인은 각각 계산(즉 파이프라인 단계)의 일부에 상응하는 하나 이상의 처리 요소들을 포함한다. 이 예에서, vdW 파이프라인과 관련된 7가지 단계(907단계에서 913단계까지)들이 있으며, 정전기학적 파이프라인에 대한 4가지 단계(915단계에서 918단계까지)들이 있다. 이 경우에, 양 파이프라인에 있는 단일한 단계와 연관된 모든 처리 요소들은 한번에 10개 원자들의 블록에 대한 계산의 일부를 계산하며, 이전 단계에서 인풋을 받아들이고, 다음 단계로 중간 결과들을 아웃풋한다(첫번째 및 마지막 단계를 제외하고). 또한, 906 파이프라인과 914 파이프라인 모두 동시에 기능 할 것이다.
두 가지 파이프라인의 작동을 설명할 때, 단지 907단계와 915단계만이 최초에 처리된10개 원자의 첫번째 집합에만 동시에 작동한다는 점을 생각하라. 907단계가 첫번째 과정을 끝내고 908단계로 데이터를 아웃풋 한다고 가정해 보라. 그것은 이후에 그 자체의 작동을 시작한다. 반면에907은 10개 원자의 다음 집합에 계산을 시작한다. 어떤 지점에서 915 단계가 첫번째 집합의 계산을 끝내고 데이터를 916단계로 보낸다. 그것은 이후에 915가 다음 집합의10개 원자에 대해 작동을 시작할 때 그 자체의 계산을 시작한다. 각 단계가 끝났을 때, 그것은 데이터를 파이프라인에 있는 다음 단계로 보내며, 그 이후에 다음 데이터 집합의 10개 원자를 위한 자체적인 계산으로 이동한다. 각 파이프라인에 있는 마지막 단계가 끝났을 때, 두 파이프라인 906과 914의 최종 결과들은 화살표 919와 920에 의해 제시된 적절한 저장소 혹은 축적기로 보내진다.
각 파이프라인이 불변 상태에서 작동하도록 유지하는데 이용 가능한 10개 원자들의 많은 데이터 블록들이 있다는 점을 가정해 볼 때, 결국 양 경로에 있는 모든 파이프라인 단계들이 완전히 작동 가능하다.
전형적인 목적은 불변 상태에서 작동할 때 각 처리 유닛이 항상 완전히 작동가능하고 틈이 없는 방식으로 파이프라인을 디자인하는 것이다. 첫번째 집합의10개 원자들에 대한 파이프라인에서 첫번째 단계의 시작과 동일한 파이프라인에 있는 마지막 단계로부터 첫번째 집합의 10개 원자들에 상응하는 첫번째 집합의 결과들의 아웃풋 사이의 시간 간격은 사실 특정한 파이프라인에 대한 파이프라인의 잠복기이다.
그림 9a에 있는 친화력 엔진 900의 예에서, 파이프라인이 불변의, 완전히 작동 가능한 상태에서 흐르도록 유지하기 위하여, 내부 인풋 SRAM 저장소 904는 이중-완충 될 수 있으며, 그것은 10개 원자들의 데이터 블록들이 현재 데이터 블록의 일부로 첫번째 (읽을 수 있는 완충제)로부터 읽을 수 있을 때, 다음 데이터 블록에 상응하는 10 개 원자들의 새로운 데이터 블록들이 두 번째 (쓸 수 있는) 완충제에서 불변하게 구성될 수 있으며, 따라서 첫번째 데이터 블록이 완전히 두 가지 906 파이프라인과 914 파이프라인에 의해 처리될 때, 두 번째 완충기는 나아갈 준비를 하며, 두 가지 완충기들의 읽고 쓸 수 있는 최종 목적지가 변경되고, 각 파이프라인에 있는 최초 단계는 새로운 데이터 블록으로부터 10개 원자의 데이터 블록에 대한 계산을 시작한다. 유사한 효율성을 유발하는 도식을 저장하는 많은 다른 표준 구현체들이 존재한다.
친화력 엔진의 일부 구현체들에서, 그림 9a의 906과 914와 같이 포함되어 있는 파이프라인들은 동시에 작동할 수 있으며, 각각 일제히 작동하는 하나 이상의 투여 된 처리 유닛들을 포함할 수 있다. 여기에서 각 파이프라인에 있는 각각의 투여 된 처리 유닛은 다음과 같은 계산 장치들(투여 된 마이크로프로세서, FPGAs, ASICs, 하드웨어 보드, DSPs, 혹은 특정 조합) 중 한가지로 물리적으로 수행될 수 있다.
친화력 엔진에 있는 파이프라인 단계들의 또 다른 예로서, Ebend = C1·Kθ·(θ-θ0)2·[1-C2·(θ-θ0)4]에서, C1과 C2가 불변이며, K 과 0 이 포함된 전자 공유 결합의 유형에 근거한 분자-역학 힘 영역에 의해 배분된 물리적 설명어구일 때, 그리고 이 두 가지 관련성 있는 결합 벡터들에 의해 정의된 각인, 공식에 따라 결합 각도 변화들과 관련된 분자 내부의 변형 에너지에 연관된 친화력 구성요소를 계산하는 결합-기반 친화력 엔진 950을 설명하는 그림 9b를 고려해보자. 그림 9b에서, 첫번째 파이프라인 단계 955는 투여된 추가물을 이용한 주어진 결합 쌍에 대한 양(0)을 계산하는 책임을 지고 있다. 두 번째 파이프라인 단계 960은 (0)2 을 형성하는 투여 된 배율기를 포함할 수 있으며, 세 번째 단계 970은 두 번째 단계 960의 결과에 근거하여 (0)4 을 구성할 수 있다. 이 지점에서, 파이프라인은 분기하기 때문에, 974단계는 C1K(0)2 을 계산하지만, 다른 978단계는 동시에 [1C2(0)4]을 계산한다. 이러한 두 가지 분기들로부터 가져온 결과들은 주어진 결합 쌍에 대한 Ebend 에 대한 최종적인 값을 형성하기 위하여 투여 된 배율기를 특징적으로 나타내는 최종적인 980단계에 의해 재결합될 수 있다. 960단계의 투여 된 배율기가 현재 결합 쌍에 대해 (0)2 을 배가 시키는 반면에, 950단계의 투여 된 추가물은 다음 쌍에 대한 (0 )을 계산할 수 있다. 파이프라인 단계들은 하나의 단계가 끝났을 때, 다음 단계가 새로운 중간 결과들을 받을 준비가 되도록 하기 위해 컴퓨터 계산에 따른 용량과 힘에 따라 배분된다. 이 예에서, 배율기들을 특징적으로 나타내는 단계들은 단지 추가만을 특징적으로 나타내는 첫번째 단계와 비교할 때 하나의 시간 사이클 당 더 많은 컴퓨터 계산에 따른 근육을 필요로 할 것 같다.
그림 9a (혹은 9b)에 있는 개별적인 친화력 엔진과 관련하여 이미 논의한, 파이프라이닝의 구현체들은 구성 요소들의 일부분 혹은 모든 부분에 대한 분자 배열 모형기에 적용하기 위해 확장될 수 있다. 예를 들어, 분자 배열 데이터 변형 엔진 816이 하나 이상의 데이터 블록을 생성하는 것을 끝마치고 그것들을 분자 배열 데이터 저장소 818로 보낼 때, 데이터 경로 배분기 821은 충분히 디자인된 데이터 대역폭을 가진 데이터 경로 822로 하강하는 하나 이상의 데이터 블록을 준비하거나 그것들을 친화력 엔진 826의 저장소로 전달할 수 있다. 그 동안 분자 배열 데이터 변형 엔진 816은 다음 분자 배열 데이터 블록을 생성하기 위해 작동한다. 또한, 데이터 경로 배분기822가 현재의 데이터 블록을 완충시키고 그리고/혹은 전달하는 동안, 친화력 엔진 826의 저장소는 내부 인풋 메모리 저장소로의 현재의 데이터 블록을 동시에 받아들이면서 데이터 블록의 이전 사이클에 대하여 친화력 구성 요소들을 처리할 수 있다. 일부 구현체들에서, 분자 배열 데이터와 친화력 데이터 블록들 모두 하나 이상의 분자 하위집합으로부터 그리고 그 이상의 분자 배열로부터 나온 데이터를 특징적으로 나타낼 수 있다. 그림 8에서 설명된 분자 배열 모형기에 대하여 다양한 파이프라인 전략들을 특징적으로 나타내는 많은 복합적인 다양한 구현체들이 존재할 수 있다.
친화력 엔진의 일부 구현체들에서, 각 파이프라인과 관련된 단계들에 대한 처리 자원들이 배분될 수 있으며, 따라서 파이프라인들은 평행 파이프라인과 관련하여 이미 정의한대로 실제로 동시에 데이터의 동일한 비율에 대하여 동시에 결과를 생성하는데 동시에 일어날 수 있다. 하나의 예로서, 그림 9a에서 설명한 친화력 엔진 900을 다시 한번 고려해 보고, 각 데이터 경로에 있는 모든 단계들이 동일한 수의 계산을 특징적으로 나타낸다고 가정해보자. 파이프라인 906은 7가지 단계를 포함하고, 914 파이프라인은 단지 4개의 단계만을 포함하고 있기 때문에, 만약 두 파이프라인에 있는 단계들이 유사한 처리 수행능력과 용량을 가진 처리 단위들을 특징적으로 나타낸다면, 정전기학 영역-기반 친화력 구성요소와 관련된914 파이프라인은 vdW 영역-기반 대응부 파이프라인 906보다 더 빨리 주어진 10개 원자의 데이터 집합에 대한 계산을 끝낼 것이다.
하나의 구현체에서, 두 파이프 라인 중 더 빠른 것은, 이 경우에914, 다음 데이터 집합에 대한 계산을 시작하기 전에 현재의 데이터 집합에 대한 계산을 끝낸 후 시간 간격을 기다릴 수 있으며, 이 경우에 10개의 인풋 원자들의 다음 집합이 처리되며, 따라서 두 처리 파이프라인들은 다음 데이터 집합에 대해 동시에(혹은 거의 동시에) 계산을 시작한다. 그러나, 이것은 두 파이프 라인 중 더 빠른 것에 대한 잠복기의 시작을 의미하며, 그 파이프라인들 중 하나는 가능한 것보다 완전히 그리고 따라서 더 낮게 효율적으로 작동하지 않는다.
대안적 구현체들에서, 복합적인 파이프라인들은 각 파이프라인을 가로질러 처리 요건들을 비교 평가함으로써 (거의 혹은 완벽하게) 통합된다. 그림 9a의 경우에, 이것은 더 많은 그리고/혹은 더 빠른 처리 단위들을 더 낮은 파이프라인에 투여하는 것을 의미한다. 예를 들어, 하나의 구현체에서, 양 파이프라인에 있는 모든 단계들에 대한 계산 수행 능력의 동등성을 가정해 볼 때, 906 파이프라인에 대한 처리 유닛들은 1.75번의 비율로 작동하여 시간이 넘을 수 있기 때문에, 인풋 데이터 집합이 양 파이프라인에 의해 동일한 시간에 수용된다면, 906 파이프라인의 7가지 파이프라인 단계들은 914 파이프라인의 4가지 단계와 동일한 시간에 결과를 생성할 수 있다. 추가적인 예로서, 대안적 구현체에서, 906 파이프라인에 포함되어 있는 하나 이상의 처리 단위들은 한 단위 타임(예를 들어 시간 사이클 혹은 동등한) 당 더 많은 계산을 수행하도록 디자인될 수 있기 때문에, 2가지 파이프라인들이 통합될 수 있다. 칩 혹은 FPGA에 대한 수행을 특징적으로 나타내는 구현체들에서, 이것은 더 많은 염료 영역, 더 많은 논리 게이트, 더 많은 처리 세포들 등을 더 많은 계산 강화 파이프라인에 있는 처리 단위에 투여하는 것을 의미한다. 물론, 대안적 구현체들은 더 낮은 계산 강화 파이프라인에 있는 다양한 처리 단위들의 속도를 낮추는 것을 포함한다. 이러한 구현체들은 주어진 친화력 엔진에서 두 가지 이상의 파이프라인으로 확장될 수 있다.
데이터 블록에 대한 한가지 이상의 친화력 구성 요소들의 계산과 관련된 결과들의 일부 혹은 전체가 그림 8에 있는 개별적인 친화력 엔진 827부터 829까지에 의해 생성될 때, 그 결과들은 그림 8에 있는 친화력 구성요소 축적기 830에 의해 설명된 친화력 축적 수단으로 보내진다. 친화력 축적 수단은 하나 이상의 분자 배열을 위해 친화력 함수의 측정을 완벽하게 만드는 구성요소 값들의 구성을 책임지고 있다. 하나의 구현체에서, 구성요소 값들의 구성은 각 친화력 함수 구성 요소들에 적용된 수적 단위들을 포함하는 직선적 조합이다.
그림 7의 친화력 계산기 709와 관련하여 이미 논의한 대로, (선호되는 것을 포함하여) 일부 구현체들에서 저장소826을 가로지르는 친화력 엔진의 평행한 작동이 통합되며, 따라서 결과들을 실제로 동일한 시기에 친화력 구성요소 축적기 840으로 전달한다.
하나의 구현체에서 친화력 구성요소 축적기 830은 각 친화력 엔진으로부터 동시에 친화력 구성요소 결과들을 받을 수 있으며, 하나 이상의 통합된 블록의 데이터들에 상응하는 축적된 친화력 함수 값들이 실제 동시에 축적기 830에 의해 생성되는 방식으로 작동할 수 있다. 그러나 다른 구현체들에서, 축적기 830은 하나 이상의 선택적 이중-완충 인풋 저장소들을 포함할 수 있기 때문에, 축적기 830은 친화력 엔진들이 다음 분자 배열과 관련된 데이터들의 다음 부분에서 작동하는 동안 하나의 분자 배열과 관련된 구성요소 데이터들에 대해 파이프라인 형식으로 작동할 수 있다. 그러나 다른 구현체들에서, 친화력 구성요소 축적기 830은 동시에 하나 이상의 분자 배열을 위한 친화력 함수들을 축적할 수 있다.
각 파이프라인을 가로지르는 처리 요건들의 균형을 맞춤으로써 복합적인 파이프라인들의 통합과 관련한 다양한 구현체들을 더 설명하기 위하여, 우리는 분자 배열 혹은 조합을 처리할 때, 각각의 친화력 엔진이 틈이 없이 유지되도록 하기 위해 혹은 대안적으로 잠복기가 줄어들도록 하기 위해 내부 친화력 엔진 파이프라인과는 반대되는 것으로 친화력 엔진을 가로질러 처리 요건들의 균형을 맞추기 위해 설비가 만들어지는, 그림 10에서 설명한 파이프라인과 비슷한 것으로 그림 8의 개별적인 친화력 엔진을 볼 수 있다.
그림 10에서, 데이터 경로 배분기1004에 의해 설명된 데이터 경로 배분 수단은 항목 1006과 1016에서 설명된 두 그룹의 친화력 엔진 각각에 대한 적절한 인풋 데이터를 포함하는 데이터 블록들의 지출을 규정한다. 이 예에서, 친화력 엔진 1006의 첫번째 그룹은 분자 내 vdW(1010)의 쌍-방식 계산을 위한 두 가지 분리된 엔진들과 분자 하위 집합들 사이의 수소 결합(1012) 상호작용을 포함한다. 친화력 엔진 1016의 두 번째 그룹은 검사 그리드 맵 근사값에 근거하여 분배내 정전기학적(1020)인 상호작용의 영역-기반 계산을 위한 하나의 엔진만을 포함한다.
이 예에서 축적 수단은 완전한 친화력 함수 값을 구성하는 최종 축적기 1040 뿐만 아니라 각 그룹의 친화력 엔진들에 투여 된 일련의 개별적인 중간 축적기들 1014와 1022를 포함한다. 모든 친화력 엔진들은 배분과 축적 수단과 관련하여 파이프라인에서 작동하며, 따라서 하나의 데이터 블록이 처리될 때, 다음 데이터 블록이 각 그룹의 친화력 엔진에 지정된 인풋 저장소로 전달된다.
이 예에서, 친화력 엔진 1006의 첫번째 그룹으로 보내진 단일한 데이터 블록 1002는 분자 조합의10가지 다른 분자 배열(즉 두 가지 집합의100 X 10 원자들, 각각의 집합은 하나의 분자 하위집합에 상응한다)을 위한 각 분자 하위집합으로부터 100개의 원자 까지에 대하여 적절한 설명 어구 데이터를 포함한다. 친화력 엔진 1016의 두 번째 그룹으로 보내진 단일한 데이터 블록 1003은 분자 조합의 10가지 다른 분자 배열에 대하여 하나의 분자 하위집합으로부터 100가지의 근원이 없는 원자들(여기에서 근원이 없는 원자들은 다른 분자 하위집합에서 정전기학적인 잠재적 영역-기반 단일-원천 충전의 영향 하에 있다)까지에 대하여 적절한 설명어구 데이터들을 포함한다.
그림 10에서 설명된 현재의 예를 단순화시키기 위하여, 친화력 엔진의 한 그룹 내에서 각 엔진에 의해 수행된 작동 계산 비용이 동일하다고 가정해 보자(예를 들어 계산 비용은vdw 엔진1010과 수소 결합 엔진 1012에 대해 동일하다). 데이터 블록 1002에 대한 계산을 완벽하게 하기 위해, 분자내 vdw 엔진 1010과 분자간 수소 결합 엔진 1012는 각각 10 (100 100) 쌍을 처리해야 한다. 이 예에서, 엔진 1010 혹은 1012에서 한 쌍에 대한 작동 비용은 Q이고, 따라서 각 엔진에 대한 전체 비용은 NQ Q라고 하자. 여기에서 NQ = 106 은 데이터 블록 1002에서 처리된 쌍의 수이다. 이제 데이터 블록 1003에 대한 계산을 완성하기 위해, 영역-기반 정전기학 엔진 1020은 10X100 원자들을 처리해야 한다. 이 예에서, 엔진 1020에서 한 원자에 대한 작동 비용이P라고 할 때, 엔진에 대한 전체 비용은 NP P이며, 여기에서 NP = 103은 데이터 블록 1003에서 처리된 원자들의 수이다.
실제 동일한 시간에 친화력 엔진의 세 그룹들을 위한 인풋 데이터 블록을 위한 결과들을 산출하기 위하여(즉, 친화력 엔진을 가로지르는 통합화), 양 NQ Q 와 NP P a가 거의 동일하다는 것, 즉 그것들의 상대적 비율이 거의 단일하다는 것이 요구된다. 전형적으로 이것은 다양한 엔진들의 속도를 늘리거나 줄이기 위해 따라서 엔진들을 가로지르는 로드의 균형을 맞추기 위해 조치가 취해지지 않는다면 나타날 수 있는 경우가 아니다. 예를 들어, 만약 Q=40 시간 사이클이고, P=200 시간 사이클이며, NQ = 106 이고 NP = 103 이라면, 우리는 친화력 엔진들의 첫번째 그룹이 두 번째 그룹보다 200배 더 느리다는 것을 알게 된다.
이것이 연속적 추가물 그리고 복합물의 수에 의해 제한될 때, vdW(910)과 수소 결합(912) 엔진에서 원자들의 쌍에 대해 개별적인 결과를 생성해내는 시간 Q를 줄일 가능성을 없을 것이다. 반면에, 친화력 엔진 1020을 줄이기 위해 P를 증가시키는 것은 매우 쉬울 것이다. 예를 들어, 만약 P가 DRAM 혹은 등가의 저장소로부터 정전기학적인 잠재적 데이터를 검색하는 접근 시간에 의해 지배된다면, B의 요소에 의한 접근 시간을 줄이는 것이 가능할 것이며, 여기에서 B > 1면, 영역-기반 친화력 엔진 1020은 1/B 의 최초의 비율로 작동한다. 즉 친화력 엔진들의 두 번째 그룹에 대한 각각의 결과는 산출하는데 B*P 사이클을 요구한다.그러나, 만약 현재의 수적 예시에 대하여 B=10이라면, 이것은 친화력 엔진 1006의 첫번째 그룹이 두 번째 그룹보다 전체에서 20배 정도 느릴 것이다.
또 다른 대안은 개별적인 쌍-방식의 계산에 투여 된 파이프라인을 처리하는 미세하게 만들어진 병행진화를 이용함으로써 친화력 엔진 1006의 첫번째 그룹에서 데이터 블록 1002의 전체 계산 시간을 줄이는 것이다. 하나의 쌍을 처리하는데 필요한 개별적인 시간 Q가 쉽게 감소될 수 없다는 점을 가정해 보자. 대신에, vdW 쌍-방식 친화력 엔진 1010(그리고 또한 수소 결합 엔진 1012)이 A > 1 다른 파이프라인들을 포함할 수 있으며, 각각의 파이프라인은 Q 시간 사이클에서 한 쌍에 대해 결과들을 산출한다. 따라서 Q 시간 사이클에서, A 쌍들이 처리되는 반면에, 단지 Q/(B P) 원자들은 Q 사이클에서 친화력 엔진 1020(B의 요소가 이 예에서 엔진 1020으로 도입된 앞서 언급한 감속 요인이었다는 점을 주지하라)에서 처리된다. 만약 [(NQ Q) / A] 와 [(NP B P)] 사이의 비율이 단일(혹은 단일체에 매우 가까운)하다면, 두 가지 친화력 엔진들은 통합될 것이라는 점을 고려해야 하며, 즉 이것은 두 가지 엔진들이 실제로 동시에 인풋 데이터 블록을 위해 결과들을 산출한다는 것을 의미한다.
우리의 현재의 예를 위해서, 만약 Q = 40 시간 사이클이며, P = 200 시간 사이클이고, NQ = 106이며, 그리고NP = 103 이라면, A=20 인 특징적인 병행적 파이프라인들을 포함하는 각각에 대하여 친화력 엔진 1010과 1012를 디자인 하는 것은 실제로 동시에(즉 통합된) 각 인풋 데이터 블록에 대하여 결과를 산출하는 친화력 엔진들의 양 그룹들을 낳을 것이다. 다른 예에서, Q = 25 시간 사이클이고, P = 80 시간 사이클이며, NQ = 106, 그리고NP = 103 이 된다. 만약 A=40 이고 B=12.5이라면, 친화력 엔진들의 두 그룹들은 다시 한번 통합된다.
대안적 구현체들은 개별적 파이프라인 단계들을 감소시키는 것 그리고 하나의 엔진 당 더 많은 개별적인 파이프 라인들을 가지는 것의 이용법을 포함한다. 이것을 더 잘 설명하기 위하여, 이전의 예를 다시 한번 점검해 보자. A=40이고 B=12.5인 것 대신에, 우리는 A=80이고, 추가적으로 두 가지 중 한가지 요소에 의해 친화력 엔진들의 첫번째 그룹에서 각 파이프라인 단계를 줄이고, 여전히 통합을 유지할 수 있다. 다른 구현체들에서, 동일한 방법론이 친화력 엔진들의 추가적 그룹들을 통합하기 위하여, 즉 첫번째 및 두 번째 그룹들과 관련하여 엔진들의 세 번째 그룹의 균형을 맞추기 위하여 적용될 수 있다. 일부 구현체들에서, 동일한 방법론이 그 그룹 내에서 생성된 결과들을 통합하기 위하여 엔진들의 한 그룹 내에서 개별적인 친화력 엔진들에 적용될 수 있다. 하나의 구현체에서, 유사한 방법들이 각 친화력 엔진, 혹은 대안적으로 친화력 엔진들의 그룹들에 투여 된 축적기들의 집합을 가로질러 통합을 유지하는데 이용된다.
하나의 구현체에서, 친화력 계산기 709의 구성 요소들과 관련하여 그림 10에서 설명된 친화력 엔진들의 통합이 완벽하게 통합될 것이다. 즉 통합의 갭이 없을 것이다. 또 다른 구현체에서, 친화력 계산기 709의 구성 요소들과 관련하여 그림 10에서 설명된 친화력 엔진들의 통합이 거의 통합되어 결과들은 실체적으로 동일한 시간에 인풋 데이터 블록으로부터 생성될 것이다. 일부 구현체들에서, 실체적으로 동일한 시간은 1 밀리세컨드보다 낮게 혹은 동일하게 통합 갭에서의 제한을 동일하게 만들 것이다. 왜냐하면, 그렇지 않으면, 높은 수준의 충실성과 같은 통합을 보장하기 위하여 파이프라인의 건축 혹은 디자인에서 설비가 만들어 지지 않는다면, 다양한 분자 하위 집합에 대하여 친화력 함수를 계산하는 계산 플랫폼 혹은 장치에 대하여 통합 갭이 1 밀리세컨드보다 낮기를 예측하는 것이 일반적으로 불가능하기 때문이다. 다른 구현체들에서, 실체적으로 동일한 시간은 계산 플랫폼 혹은 장치에 의해 인식된 근본적인 시간의 기간과 관련하여 10가지 시간 사이클보다 낮은 혹은 동일한 통합 갭에 대한 제한을 동등하게 만들 수 있다. 그러나 다른 구현체들에서, 실체적으로 동일한 시간은 복합적인 평행한 파이프라인에서 발생하는 가장 많은 파이프라인 단계 간격의 통합적 수보다 낮은 혹은 그것과 동등한 통합 갭에 대한 제한과 일치할 것이다. 더 많은 구현체들에서 통합적 수는 단일체 만큼 작을 수 있다. 그러나 다른 구현체들에서, 실체적으로 동일한 시간은 인풋 데이터 블록으로부터 생성된 아웃풋 결과들을 완성하기 위하여 가장 느린 파이프라인에 의해 채택된 시간의 50%보다 낮은 혹은 그것과 동일한 통합 갭에 대한 제한과 동등할 수 있다.
그림 8로 되돌아가서, 일부 구현체들에서, 축적기 830에 의해 설명된 축적 수단과 관련하여 친화력 엔진 826의 복수성을 가로질러 생성된 친화력 결과들의 통합은 개별적인 인풋 데이터 블록들에 대해 강화될 수 있다. 다른 구현체들에서, 친화력 결과들의 통합은 단일한 분자 배열과 관련된 친화력 구성 요소들의 전체 혹은 부분의 계산을 완성하는데 필요한 데이터 블록들의 연쇄 혹은 흐름의 일부 혹은 전체의 과정을 거쳐 강화될 수 있다. 그러나 복합적인 분자 배열과 관련된 데이터에 대한 평행적 친화력을 계산을 특징으로 하는 구현체들에서, 결과 통합의 강화는 복합적인 상응하는 분자 배열들과 관련하여 친화력 구성 요소들의 전체 혹은 부분들의 계산을 완성하는데 필요한 데이터 블록들의 흐름을 거쳐 적용될 수 있다. 그러나 또 다른 구현체에서, 분자 조합과 관련된 친화력 구성 요소들의 전체 혹은 부분에 대하여 계산의 완성에 근거하여 결과들이 통합된다. 다른 구현체들에서, 통합은 친화력 엔진들의 저장소로부터 축적 수단에 의해 축적을 위한 친화력 구성요소 결과들의 수용에 적용될 수 있다. 일부 구현체들에서, 이것은 다른 분자적 하위 집합을 특징으로 하는 다른 분자적 조합들을 위한 통합을 유지하기 위하여, 개별적인 친화력 엔진과 같은 하나 이상의 계산 구성 요소들과 관련하여 데이터 대역폭의 동력학적 배분 그리고 처리 자료 및 용량을 포함할 수 있다.
데이터 블록에 대한 축적된 친화력 함수 값들의 일부 혹은 전체가 그림 8에 있는 축적기 830에 의해 생성되면, 그 결과들은 결과물 필터 840으로 제시될 수 있다. 결과물 필터 840은 특정한 분자 배열이 그림 7의 결과물 데이터베이스 710에 저장되는지 그렇지 않은지를 결정하는 인풋 친화력 함수 값 척도들에 근거하여 다양한 결정 혹은 선택에 적용할 수 있다. 원칙적으로, 특정한 분자 배열은 결합 친화력을 거의 혹은 전혀 설명할 수 없을 수 있으며, 따라서 상응하는 분자 배열은 더 이상의 분석에서 흥미가 사라질 수 있으며, 따라서 이러한 쓸모없는 친화력 분자 배열을 걸러내는 것이 이상적일 수 있다. 일부 구현체들에서, 결과물 필터는 분자배열 선택기 712와 관련하여 이미 논의한 것처럼 하나 이상의 구현체들과 유사한 선택 범주를 적용할 수 있다.
일부
구현체들과
관련하여 이미
논의한대로
, 분자 배열 결과들이 결과물 데이터베이스 710에 저장된다면, 분자 배열 선택기 712는 반복적 사이클의 일부로서 분자 배열 데이터
모형기702로
다시 제출하기 위해 하나 이상의 분자 배열 결과물 기록들을 선택하는데 이용될 수 있다. 이러한 반복적인 루프를 특징적으로 나타내는
구현체들의
예들은 가장 가파른 하강과 같은 하나 이상의 검색 그리고/혹은 최적화 기술들의 이용, 접합 기울기, 변경된 뉴턴의 방식,
Monte
Carlo
,
시뮬레이티드
가열 냉각, 유전적 혹은 모방적 연산, 맹목적 힘 표본화, 패턴 일치 등을 포함하는 분자 배열 데이터
모형기
702의
구현체들에
국한된 것은 아니지만, 그것들을 포함한다.
반복을 포함하는 이러한 구현체들을 요약할 때, 분자배열 기록들은 반복적 사이클이 시작할 때 분자배열 데이터 모형기 702에 인풋 될 수 있으며, 이후에 하나 이상의 새로운 분자 배열을 생성하기 위해서 하나 이상의 분자 배열 변형에 종속된다. 일련의 분자 배열(오래된 그리고 새로운 분자배열을 포함하여)은 각 분자 배열에 대하여 친화력 함수를 생성하기 위하여 친화력 계산기 709로 제출된다. 결정들(예를 들어 필터링, 선택 등)은 결과로 생겨나는 분자배열 결과물 기록들과 관련하여 만들어지고, 현재 반복적인 사이클에서 측정된 분자배열의 하위집합이 선택되며, 새로운 반복적 사이클의 계산을 시작하기 위해 분자 배열 데이터 모형기 702로 다시 제출된다. 그 과정은 특정한 종결적 상황이 충족될 때까지 계속된다. 상황을 종결 시키는 예들은 예상된 분자 배열의 이미 결정된 수에 도달하는 것, 반복의 이미 결정된 수에 도달하는 것, 혹은 특정한 연쇄보다 더 나은 친화력으로 많은 분자 배열을 달성하는 것을 포함하지만, 그것들에 국한되어 있는 것은 아니다.
위에서 이미 논의된 것처럼, 검색 그리고/혹은 최적화 전략의 선택은 분자 배열 선택기 712의 특성 뿐만 아니라 분자 배열 표본화 도식 혹은 스케쥴(즉 새로운 분자배열의 구성)의 특성을 설명한다. 모델링 시스템 700은 두 가지 분자적 하위 집합들이 딱딱한 신체에 따라 서로에 대해 상대적으로, 즉 두 가지 분자적 하위 집합들의 상대적 번역과 시작과 관련된 여섯 가지 정도의 자유에 상대적으로 움직이는 곳에서 분자적 조합을 분석하기 위해 이용될 수 있다. 이 예에서, 여섯 가지 정도의 자유는 분자간 분리 거리, 첫번째 분자적 하위집합을 위한 세 가지 Euler 각도들(즉 회전, 정점, 그리고 편요각) 그리고 두 번째 분자적 하위 집합을 위한 두 가지 Euler 각도들(즉 정점과 편요각)을 나타낸다. 이 예에서, 분자 배열 모형기 702에 의해 채택된 검색 전략은 규칙적인 표본화 도식에 따라 여섯 가지 차원의 분자 배열 공간을 표본화하는 맹목적인 힘의 검색의 그것이다.
현재의 예를 위해, 각 하위 집합에 대한 정점과 편요각들은 단위 구의 표면에 있는 일련의 규칙적으로 공간화 된 지점들로 표본화 되고, 분자가 분리 거리는 각 분자 하위집합의 중심들을 연결하는 선에서 규칙적으로 공간화된 간격에 의해 표본화 되며, 첫번째 분자적 하위집합의 회전 각도가 원의 원주에서 규칙적으로 공간화 된 간격들에 의해 표본화 된다고 생각해 보자. 이 예에서, 맹목적 힘 검색 전략은 앞에서 언급한 세가지 표본화 도식의 결과로 나타난 Cartesian 산물의 각 상태(혹은 요소)를 만들고 측정할 것이다. 분리 거리에 대하여 20가지 반지름 표본 지점들, 두 번째 분자적 하위집합의 회적 각도에 대하여 100가지 각도 표본 지점들, 그리고 각 분자 하위집합의 정점 및 편요각 Euler 각도들의 쌍에 대하여 1000가지 표본 지점들을 고려해 볼 때, 이것은 분자 배열 모형기 702에 의해 만들어진 전체 50억 개의 분자 배열에 달한다.
펌프를 주입시키기 위해, 인풋 참조 분자배열은 그림 8의 분자 배열 데이터 변형 엔진 818에 제출되며, 이것은 차례로, 표본화 스케쥴에 따라, 첫번째 표본화 된 분자 배열을 낳는다. 이러한 분자 배열은 이 예에서 세가지 친화력 엔진들을 포함하는 친화력 계산기709에 의해 분석을 위해 제출된다. 이 예에서, 첫번째 엔진은 Coulombic 에너지 모델을 위해 영역 기반 계산 전략(예를 들어, 두 번째 분자 하위집합에 있는 원천 충전으로부터 만들어진 검사 그리드 맵 근사값)에 따라서 두 가지 분자적 하위 집합들 사이의 분자간 정전기학적 상호작용의 계산에 투여 된다. 두 번째 엔진은 12-6 Lennard Jones 잠재성에 대하여 쌍-방식 계산 전략에 따라서 두 가지 분자적 하위 집합들 사이의 분자간 vdW 상호 작용들의 계산에 투여 된다. 세 번째 엔진은 변경된 12-10 Lennard Jones 잠재성에 대하여 쌍-방식의 계산 전략에 따라서 두 가지 분자간 하위 집합들 사이의 분자간 수소 결합 상호작용의 계산에 투여된다.
이 예에서, 각 분자적 하위집합으로부터 100개의 원자까지 포함하는 데이터 블록들은 Ahuja I에서 나타난 분자 설명 분리에 따라 배분되며, 이후에 친화력 엔진으로 제출된다. 쌍-방식 기반 엔진(두 번째 그리고 세 번째)의 경우에, 각 엔진은 한번에 두 가지 데이터 블록을 수용하며, 한가지는 각 분자적 하위집합의 경우에 가능하다. 반면에, 영역-기반의 첫번째 엔진은 두 번째 분자적 하위집합에 의해 생성된 정전기학적 잠재성의 영향 하에서 첫번째 분자적 하위집합의 100개의 원자까지 설명하는 유일한 하나의 데이터 블록을 수용한다. 친화력 엔진들은 서로 동시에 작동하며, 데이터 경로 배분기 821로부터 받은 그것들의 인풋 및 축적기 830에 대한 친화력 구성요소 아웃풋들과 관련해서 뿐만 아니라 그것들의 내부 계산과 관련하여 파이프라인으로 구성된다. 더구나, 그것들은 그렇게 통합되기 때문에, 각 데이터 블록에 대한 그것들의 친화력 구성요소 결과들은 완성되어 실체적으로 동시에 축적기830으로 보내지며, 여기에서 통합은 엔진의 저장소를 가로질러 계산 및 대역폭 용량의 균형을 맞추기 위하여 각 친화력 엔진의 적절한 디자인에 의해 달성된다.
이 예에서, 친화력 함수 값은 축적기 830에 축적되며, 결과물 필터 840에서 양적 친화력 연쇄에 종속된다. 통과 값은 분자 배열 결과물 기록이 분자 배열 결과물 데이터베이스 710에 저장될 것이라는 점을 의미한다. 전체 계산 사이클은 이제 새로운 반복 혹은 계산 사이클을 시작하며, 여기에서 분자 배열 데이터 변형 엔진은 또 다른 새로운 표본화 된 분자배열을 생성하며, 친화력 함수 값이 계산되고, 연결된 친화력 값 및 결과물 기록이 저장된다. 반복적인 과정이 앞서 언급한 맹목적 힘 표본화 스케쥴에 따라 모든 표본화 된 분자 배열이 이루어질 때까지 계속된다. 결과물 데이터베이스 710은 두 가지 분자적 하위 집합들 사이의 방식을 연결하는데 유리하게 작용하는 높은 친화력을 가진 분자 배열을 증명하기 위하여 더 분석될 수 있다.
이 예의 확장에서, 한번에 하나의 분자 배열에 작동하는 것 대신에, 이 표본 구현체에 상응하는 분자 배열 데이터 모형기는 복합적인 분자 배열을 동시에 처리할 수 있다. 이것은 특히 유전적 연산과 같은 검색 최적화 전략을 특징으로 하는 구현체에 적절하다. 여기에서 분자 배열 집단은 크로스오버와 변화 작동기의 적용을 통한 각 반복 기간 동안 분자배열 데이터 변형엔진에서 구성된다. 그 집단은 이제 축적된 친화력 함수에 근거하여 최적 척도를 만들기 위해 친화력 구성요소 엔진들의 저장소에 의해 연속적으로 분석되며, 분자배열 선별기 712는 다음 반복을 위해 분자 배열 데이터 변형 엔진을 작동하기 위하여 다양한 선택 작동기들을 적용한다. 분명히 이러한 표본 구현체들은 다양한 상호작용에 상응하는 다른 배치들 그리고 다양한 친화력 엔진들을 포함하기 위해 쉽게 확장된다.
요약하자면, 모델링 시스템 700은 분자적 조합에 대한 분석의 일환으로써, 분자 배열의 두 가지 이상의 분자적 하위 집합들 사이의 친화력 함수를 효과적으로 계산하는 방법을 설명한다. 여기에서 분자적 조합에 대한 분석은 잠재적 분자 복합체의 형성의 가능성에 대한 예시, 혹은 대체, 하나의 환경에서 분자적 하위 집합들 사이의 결합 친화력 혹은 결합 에너지에 대한 평가, 분자적 조합을 위한 결합 방식(혹은 추가적 대안 방식들)의 예상, 혹은 대상 분자 하위집합과의 예상된 대생물 작용에 근거한 분자적 하위 집합들(예를 들어 리건드)의 집합의 등급 우선 결정 등을 포함하지만, 거기에 국한되어 있는 것은 아니며, 따라서 또한 컴퓨터 계산에 의한 대상-리건드 도킹 및 스코어링과 관련된 이용법을 포함한다.
모델링 시스템 700은 각 표본화 된 분자 배열과 관련된 하나 이상의 분자 설명 어구들의 배분을 위한 인풋 수단, 각 표본화 된 분자 배열과 관련된 분자 설명어구 데이터의 디지털식 저장을 위한 저장 수단, 하나 이상의 친화력 처리 엔진을 설명하는 계산 수단의 복수성, 분자 배열을 위한 하나 이상의 친화력 구성 요소들에 계산에 투여 된 각 엔진, 계산 수단의 복수성에 저장 수단을 연결하는 계산 수단의 복수성으로의 분자적 설명어구의 전달에 대한 데이터 경로들의 복수성, 데이터 경로들의 복수성에 대한 분자적 설명어구 데이터의 배분을 위한 데이터 경로 배분 수단, 그리고 마지막으로 계산 수단의 복수성에 의해 생성된 인풋 친화력 구성요소 데이터에 근거하여 친화력 함수 값을 축적하는 축적 수단을 포함한다.
다양한 구현체들에 따라서, 인풋 수단은 인풋 분자 조합 데이터 베이스(혹은 대상-리건드 조합의 분석을 위한 동등하게 분리된 대상 및 리건드 데이터베이스), 인풋 분자배열 기록들의 복수성, 그리고 인풋 분자배열 기록들의 다양한 분자적 설명으로의 전환을 위한 분자배열 기록 컨버터 등을 포함한다. 저장 수단은 하나 이상의 저장소에서 화학적, 물리적, 기하학적/구조적, 그리고 환경적 설명어구들을 포함하는 다양한 설명 어구 데이터에 대한 하나 이상의 저장 구성 요소들(즉 SRAM, DRAM, 리지스터 파일 등), 혹은 하나 이상의 저장 매체 장치들(하드 드라이브, 메모리 스틱, 컴퓨터 기록 가능한 매체 등)을 포함한다. 저장 수단은 또한 수적 매개변수, 불변계수, 함수 룩업 표, 혹은 하나 이상의 영역-기반 친화력 구성 요소들과 관련된 그리드 맵 혹은 잠재적 함수들의 저장 등을 포함한 친화력 함수들의 계산과 관련된 다양한 데이터의 저장을 위해 제공될 수 있다.
계산 수단의 복수성은 각각 하나 이상의 친화력 구성 요소들의 계산에 투여 된 하나 이상의 친화력 엔진들을 포함할 수 있다. 다양한 구현체들에 따르면, 친화력 엔진들은 각각 복수적인 데이터 경로들을 따라 전달되는 데이터를 수용하고 동시에 작동시키는 하나 이상의 처리 파이프라인을 포함한다. 일부 구현체들에서 다른 친화력 엔진들은 각각의 특정한 친화력 구성 요소들에 배분될 수 있지만, 다른 구현체들에서, 하나 이상의 친화력 엔진들은 전형적으로 처리 요건들의 유사성에 근거하여 복합적인 친화력 구성 요소들을 계산할 수 있다. 그러나 다른 구현체들에서, 다른 친화력 엔진들은 저장을 향상시키고 데이터 대역폭을 줄이기 위해 공통적인 데이터 블록들을 이용하기 위해 그룹화 될 수 있거나 그렇지 않으면 배치될 수 있다. 전형적으로, 설명어구 데이터는 하나 이상의 데이터 블록으로 각각의 친화력 엔진으로 배분되며, 데이터 경로 배분 수단에 의해 선결된 데이터 경로 스케쥴에 따라서 각각의 친화력 엔진으로 전달된다. 일부 구현체들에서, 데이터 블록들은 메모리 저장, 데이터 대역폭, 그리고 전달 및 친화력 처리 요건 모두를 포함하는 다양한 건축상의 요건에 따라 구성되고 스케쥴이 구성되는 다양한 분자적 설명의 하나의 이상의 부분을 나타낸다. 개별적 친화력 구성요소 값(혹은 결과들)들은 파이프라인의 형식으로 축적 수단에 전형적으로 제출되며, 여기에서 축적 수단은 이미 선결된 친화력 구성 규칙에 따라 각각의 표본화 된 분자적 배열에 대한 친화력 함수 값을 구성하는데 투여 된 하나 이상의 축적기들을 포함한다. 일부 구현체들에서, 계산 수단과 축적 수단은 복합적인 분자 배열을 동시에 처리할 수 있으며, 다른 구현체들에서, 인풋 데이터 블록들은 하나 이상의 분자적 배열로부터 하나 이상의 분자적 하위 집합의 부분 혹은 모든 것과 연관된 설명 어구 데이터를 포함할 수 있다. 다른 구현체들에서, 하나 이상의 친화력 엔진들은 그것의 전체성에서 분자적 하위집합을 위한 것이든 혹은 하나 이상의 특정한 부분을 위한 것이든, 각 분자적 하위집합의 처리에 투여 될 수 있다.
일부 구현체들에서, 계산 수단의 친화력 처리 엔진들은 그렇게 통합될 수 있기 때문에, 축적 수단은 실체적으로 동시에 각 계산 수단으로부터 그것의 인풋들을 받거나 받을 것으로 예상된다. 그림 10의 맥락에서 이미 논의한 대로, 그러한 통합은 완벽하거나 대신 거의 완벽해 질 수 있다. 더구나, 실체적으로 동시에라는 용어는 친화력 엔진을 가로지르는 통합 갭의 양에 대한 제한을 암시한다. 통합 갭의 제한의 크기와 관련된 구현체의 몇몇 예들은 이미 그림 10의 맥락에서 논의되었다.
분자적 배열의 복수성(예를 들어, 가상 스크린, 도킹, 스코어링 등)에 대한 분자적 하위 집합들을 위한 친화력 함수의 계산을 포함하는 분자적 조합의 분석과 관련된 모델링 시스템 700의 구현체들에서, 모델링 시스템 700은 하나 이상의 인풋 참조 분자 배열에 근거한 분자적 배열의 복수성의 구성 그리고/혹은 변형에 대한 수단을 위한 분자 배열 생성 수단을 포함한다. 일부 구현체들에서, 새로운 분자 배열은 일련의 기하학적 설명어구들에 의해 특징적으로 설명된 다양한 기하학적 설명어구들의 적용에 의해 구성될 수 있다.
이미 논의한대로, 일부 구현체들에서, 분자 조합의 분석 과정 동안 변형을 통해 생성된 분자 배열의 집합은 분자 배열 모형기 702의 모델링 과정을 이끄는 데 이용되는 하나 이상의 검색 그리고/혹은 최적화 기술에 의해 특징화 된 스케쥴 혹은 표본화 도식에 따라 결정될 수 있다. 작동기들의 예들은 유전적 연산-기반 검색 혹은 최적화 전략과 관련되어 이용된 변화(단일성) 그리고 크로스오버(이중성) 작동기들, Monte Carlo 혹은 시뮬레이티드 가열냉각-기반의 검색 혹은 최적화 전략과 관련하여 이용된 무작위적으로 생성된(가능하면 한쪽으로 치우친 확률 분포) 상태 작동기, 혹은 분자적 하위 집합의 상태를 설명하는 하나 이상의 변형적 혹은 고정된 신체 정도의 자유에 상응하는 다양한 분자적 변형 혹은 구조적 변화의 결정주의적 적용 등을 포함한다. 분자 배열 생성 수단은 연속적으로(즉 한번에 하나씩 새로운 분자 배열들을 구성할 수 있다. 즉 연속적 방식으로 계산 수단에 제출된 데이터를 생성한다. 대안적으로, 분자 배열 생성 수단은 동시에 복합적인 새로운 분자 배열을 구성할 수 있으며, 그것들을 동시에 계산 수단에 제출한다.
분자 배열의 복수성을 위한 분자적 하위 집합에 대한 친화력 함수의 계산을 포함하는 분자적 조합의 분석을 고려한 모델링 시스템 700의 구현체들에서, 모델링 시스템700은 분자 배열의 복수성에 상응하는 하나 이상의 친화력 함수 값들을 포함하여 복수적인 상응 분자 배열 기록들의 디지털식 저장을 위한 결과물 저장 수단을 포함할 수 있다.
추가적으로 모델링 시스템 700은 또한 결과물 저장 수단에 저장된 복수적인 분자 배열 기록들에 적용된 선택 범주에 따라 하나 이상의 분자 배열의 선택을 위한 분자 배열 선택 수단을 포함할 수 있다. 분자 배열 선택 수단은 또한 결과물 데이터베이스에 저장된 복수적인 분자배열 기록물들에 대한 분석을 위해 분자 배열 결과물 처리 수단을 이용할 수 있으며, 따라서, 분자 배열 선택 수단에 의해 채택된 선택 범주는 추가적인 처리의 결과물에 근거하여 그것들의 결정을 내릴 수 있다. 선택 범주의 다양한 구현체들 및 분자 배열 결과물 처리 수단은 이미 앞서 논의했다.
모델링 시스템 700의 구현체에서, 분자 배열 선택 수단에 의해 결정된 선별된 분자 배열은 인풋과 같은 선별된 분자 배열을 이용하여 분자 배열 생성 수단 및 새로운 분자 배열 구성으로 다시 제출될 수 있다. 새로운 분자 배열은 분자 배열 선택보다 앞선 친화력 계산을 포함하여 새로운 사이클의 분자 배열 모델링에 종속될 수 있으며, 특정한 최종적 상태를 반복하는 반복적 과정이 달성된다. 분자 조합의 분석의 맥락에서 분자 배열 모형기의 반복적 작동과 관련한 구현체들 또한 앞서 논의되었다.
분자 조합의 분석과 모델링을 위한 새로운 시스템이 다양한 분자 배열을 위한 두개 이상의 분자적 하위 집합들 사이에 친화력 함수의 효과적인 파이프라인 방식의 계산에 근거하여 설명되었다. 위의 설명은 구체적이며, 제한적인 것이 아니다. 발명의 많은 변화들이 이 발표의 리뷰에 대해 기법상 기술에서 명백하게 될 것이다. 발명의 범주는, 따라서, 위의 설명에 대한 참조로 인해 결정된 것이 아니라, 대신에 등가적인 것들의 전체적 범위를 따라 추가적인 주장에 대한 참조로 결정되어야 한다.
Claims (41)
- 분자 배열의 두개 이상의 분자적 하위 집합들 사이의 친화력 함수를 계산하기 위한 계산 시스템을 이용하기 위한 방법으로서,분자 배열과 관련된 하나 이상의 분자 설명 어구들을 분자적 하위 집합으로 배분하는 단계 (여기에서 각각의 분자적 설명어구는 분자적 하위 집합을 나타냄);분자적 배열과 관련된 분자 설명어구 데이터를 저장하는 단계;분자 배열을 위한 하나 이상의 친화력 구성 요소들의 계산에 투여된 하나 이상의 친화력 처리 엔진들을 나타내는 복수의 계산 수단을 이용하는 단계 (여기에서 각각의 엔진은 하나 이상의 처리 파이프라인을 포함함);분자적 설명 어구 데이터를 계산 수단의 복수성을 전달하기 위하여 복수의 계산 수단으로 설명 어구 데이터 저장을 전달하는 데이터 경로의 복수성을 이용하는 단계;분자적 설명어구 데이터를 복수적인 데이터 경로에 배분하기 위하여 데이터 경로 배분 수단을 이용하는 단계; 및복수의 계산 수단에 의해 생성된 친화력 구성요소 결과물에 근거하여 친화력 함수 값을 축적하는 축적 수단을 이용하는 단계를 포함하는 방법.
- 제1항에 있어서, 계산 수단의 친화력 처리 엔진들이 통합되기 때문에, 축적 수단은 실체적으로 동일한 시간에 각 계산 수단으로부터 인풋을 받거나 받을 것으로 예상되는 것인 방법.
- 제2항에 있어서, 실체적으로 동일한 시간은 1 밀리세컨드보다 낮거나 동일한 통합 갭에 대한 제한과 동일한 것인 방법.
- 제2항에 있어서, 실체적으로 동일한 시간은 계산 시스템의 10가지 시간 사이클보다 낮거나 동등한 통합 갭에 대한 제한과 동등한 것인 방법.
- 제2항에 있어서, 실체적으로 동일한 시간은 계산 수단을 가로지르는 가장 큰 파이프라인 단계 간격 보다 낮거나 동일한 통합 갭에 대한 제한과 동등한 것인 방법.
- 제2항에 있어서, 실체적으로 동일한 시간은 데이터 경로 배분 수단으로부터 받은 인풋 데이터의 선결된 양을 완벽하게 처리하기 위하여 계산 수단의 가장 느린 파이프라인에 의해 선택된 시간의 선결된 비율보다 낮거나 동일한 통합 갭에 대한 제한과 동등한 것인 방법.
- 제6항에 있어서, 실체적으로 동일한 시간은 데이터 경로 배분 수단으로부터 받은 인풋 데이터의 선결된 양을 완벽하게 처리하기 위하여 계산 수단의 가장 느린 파이프라인에 의해 채택된 시간의 50% 보다 낮거나 동등한 통합 갭에 대한 제한과 동등한 것인 방법.
- 제1항에 있어서, 분자적 설명 어구들은 분자적 하위 집합들과 관련된 하나 이상의 화학적 설명어구들을 포함하는 것인 방법.
- 제1항에 있어서, 분자적 설명어구들은 분자적 하위 집합들과 관련된 하나 이상의 물리적 설명 어구들을 포함하는 것인 방법.
- 제1항에 있어서, 분자적 설명어구들은 분자적 배열과 관련된 하나 이상의 기하학적 설명 어구들을 포함하는 것인 방법.
- 제1항에 있어서, 분자적 설명어구들은 분자적 배열과 관련된 하나 이상의 환경적 설명어구들을 포함하는 것인 방법.
- 제1항에 있어서, 두 개 이상의 분자적 하위 집합들은 분자의 하나 이상의 부분 그리고 그것을 둘러싼 환경을 나타내며, 여기에서 분자는 그 자체와 상호작용하고 그것을 둘러싼 환경과 상호작용하며, 여기에서 친화력 함수는 하나의 분자의 다양한 상태를 위해 계산된 것인 방법.
- 제1항에 있어서, 계산 시스템은 복수적 분자 배열을 위한 복수적 친화력 함수들의 계산을 포함하는 분자적 조합의 분석의 일환으로 이용된 것인 방법.
- 제13항에 있어서, 시스템은 하나 이상의 인풋 참조 분자 배열에 근거한 복수적인 분자 배열의 구성 그리고/혹은 변형을 위한 분자 배열 생성 수단을 포함하는 것인 방법.
- 제13항에 있어서, 시스템은 복합적인 분자 배열을 위한 친화력 함수를 동시에 계산할 수 있는 것인 방법.
- 제13항에 있어서, 시스템은 하나 이상의 친화력 함수 값들을 포함하여, 복수적 분자 배열 기록들의 디지털식 저장을 위한 결과물 저장 수단을 포함하며, 각각의 분자 배열 기록은 복수의 분자 배열 중 하나에 상응하는 것인 방법.
- 제16항에 있어서, 시스템은 결과물 저장 수단에 저장된 복수적 분자 배열 기록들에 적용된 선택 범주에 따라 하나 이상의 분자적 배열의 선택을 위한 분자 배열 선택 수단을 포함하는 것인 방법.
- 제17항에 있어서, 선택 범주는 각각의 분자 배열의 친화력 함수 값에 적용된 것과 같은 결정 연쇄의 이용을 포함하는 것인 방법.
- 제18항에 있어서, 결정 연쇄는 복수적 분자 배열을 위해 생성된 친화력 함수 값의 관찰된 통계에 따라 선별적으로 결정된 것인 방법.
- 제17항에 있어서, 최고의 친화력 함수 값을 가진 분자 배열이 선택된 것인 방법.
- 제17항에 있어서, 분자 배열 기록은 그것들의 친화력 값에 의해 등급화 되며, 복수적인 최고 등급의 분자 배열이 선별된 것인 방법.
- 제17항에 있어서, 확률 혹은 최적 값은 하나 이상의 친화력 함수 값에 따라 확률 분포 혹은 다른 함수에 근거하여 각각의 분자 배열에 배분되며, 분자 배열은 확률 혹은 최적 값에 근거하여 확률론적으로 선별된 것인 방법.
- 제17항에 있어서, 분자 배열 기록의 선별은 친화력 함수 값 그리고 다른 분자 배열에 대한 구조적 유사성에 근거한 것인 방법.
- 제17항에 있어서, 선별된 분자 배열은 분자 생성 수단에 다시 제출될 수 있으며, 새로운 분자 배열은 인풋과 같이 선별된 분자 배열을 이용하여 분자 배열 생성 수단에 의해 구성된 것인 방법.
- 제24항에 있어서, 새로운 분자 배열은 친화력 함수 계산 그리고 분자 배열 선별의 다른 사이클에 종속되며, 반복적 과정은 특정한 종결적 상황이 달성될 때까지 반복된 것인 방법.
- 제17항에 있어서, 분자 배열 선별 수단은 일련의 지침들을 하나 이상의 새로운 분자적 배열이 어떻게 하나 이상의 저장된 분자 배열로부터 구성되는 지와 관련하여 분자 배열 생성 수단으로 전달되는 것인 방법.
- 제26항에 있어서, 새로운 분자 배열은 친화력 함수 계산과 분자 배열 선택의 다른 사이클에 종속되며, 그 반복적 과정은 특정한 종결적 상황이 될 때까지 반복된 것인 방법.
- 제1항에 있어서, 인풋 수단은 분자 역학 힘 영역 혹은 다른 유사한 분자 매개 변수 집합으로부터 선결된 수적 매개 변수들을 추출함으로써 분자 배열과 관련된 하나 이상의 분자 설명 어구들을 배분하는 것인 방법.
- 제1항에 있어서, 데이터 경로 배분 수단은 하나 이상의 데이터 블록들에 따라 복수의 데이터 경로들을 가로질러 데이터를 계산 수단으로 전달하는 것인 방법.
- 제29항에 있어서, 데이터 블록은 데이터 블록 경계가 분자 설명의 부분과 일치하도록 결정되는 것인 방법.
- 제29항에 있어서, 데이터 블록들은 데이터 경로 스케쥴에 따라 복수적인 데이터 경로들을 가로질러 계산 수단으로 전환되는 것인 방법.
- 제31항에 있어서, 데이터 경로 스케쥴은 본질적으로 동시적인 것인 방법.
- 제1항에 있어서, 데이터 경로 스케쥴은 본질적으로 비동시적인 것인 방법.
- 제1항에 있어서, 계산 시스템은 복수적인 분자 배열을 위한 복수적인 친화력 함수의 계산을 포함하는 분자 배열에 대한 분석의 일환으로 이용되며, 여기에서 데이터 경로 배분 수단은 복수의 데이터 경로를 가로질러 데이터를 다른 분자 배열로부터 인풋 데이터의 일부분을 포함하는 하나 이상의 데이터 블록들에 따라 계산 수단으로 전달하는 것인 방법.
- 제1항에 있어서, 축적 수단은 중간적 축적 값을 산출하기 위하여 투여된 축적기가 각각의 친화력 엔진을 위해 제공되고 분자 배열을 위한 친화력 함수 값이 이러한 중간적 축적 값들로부터 구성되도록 하기 위해 복수의 축적기로 분리된 것인 방법.
- 제1항에 있어서, 계산 수단은 각각의 엔진이 하나 즉 오직 하나의 친화력 구성요소의 계산에 투여되기 위하여 복수의 친화력 엔진들을 포함하는 것인 방법.
- 제1항에 있어서, 계산 수단은 각각의 엔진이 단 하나의 친화력 상호작용 유형을 포함하는 친화력 계산에 투여 되도록 하기 위하여 복수의 친화력 엔진들을 포함하는 것인 방법.
- 제1항에 있어서, 계산 수단은 각각의 엔진이 단 하나의 친화력 공식을 포함하는 친화력 계산에 투여 되도록 하기 위해 복수의 친화력 엔진들을 포함하는 것인 방법.
- 제1항에 있어서, 계산 수단은 각각의 엔진이 단 하나의 친화력 계산 전략을 포함하는 하나의 친화력 계산에 투여 되도록 하기 위해 복수의 친화력 엔진들을 포함하는 것인 방법.
- 제1항에 있어서, 계산 수단은 각 엔진이 하나의 분자 하위 집합의 부분들 혹은 모두를 위해 친화력 계산에 투여 되도록 하기 위해 복수적인 친화력 엔진들을 포함하는 것인 방법.
- 제1항에 있어서, 계산 시스템은 계산 플랫폼, 투여 된 하드웨어, 펌 웨어, 혹은 조합을 수행하는 소프트웨어를 포함하여 하나 이상의 일반적 목적의 프로그램 가능한 컴퓨터를 포함하는 것인 방법.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US51138703P | 2003-10-14 | 2003-10-14 | |
US60/511,387 | 2003-10-14 | ||
PCT/US2004/033816 WO2005038429A2 (en) | 2003-10-14 | 2004-10-14 | Method and apparatus for analysis of molecular configurations and combinations |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20060123159A true KR20060123159A (ko) | 2006-12-01 |
KR101129126B1 KR101129126B1 (ko) | 2012-06-01 |
Family
ID=34465224
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020067009457A KR101129126B1 (ko) | 2003-10-14 | 2004-10-14 | 분자 배열과 결합에 관한 분석 방법과 장치 |
Country Status (8)
Country | Link |
---|---|
US (2) | US8036867B2 (ko) |
EP (2) | EP1673607A4 (ko) |
JP (1) | JP4934428B2 (ko) |
KR (1) | KR101129126B1 (ko) |
CN (1) | CN1886659B (ko) |
CA (1) | CA2542446C (ko) |
DK (1) | DK2381382T3 (ko) |
WO (1) | WO2005038429A2 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140190610A1 (en) * | 2011-08-10 | 2014-07-10 | Sumitomo Rubber Industries, Ltd. | Pneumatic tire |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7395253B2 (en) | 2001-06-18 | 2008-07-01 | Wisconsin Alumni Research Foundation | Lagrangian support vector machine |
US7421417B2 (en) * | 2003-08-28 | 2008-09-02 | Wisconsin Alumni Research Foundation | Input feature and kernel selection for support vector machine classification |
US7908313B2 (en) * | 2004-07-21 | 2011-03-15 | The Mathworks, Inc. | Instrument-based distributed computing systems |
US7454659B1 (en) * | 2004-08-24 | 2008-11-18 | The Mathworks, Inc. | Distributed systems in test environments |
US7212951B1 (en) * | 2004-08-25 | 2007-05-01 | Tripos, Inc. | Method for characterizing and analyzing 3-D shapes of molecules utilizing steric multiplets |
US20070016374A1 (en) * | 2005-07-14 | 2007-01-18 | Locus Pharmaceuticals, Inc. | Method, system, and computer program product for identifying binding conformations of chemical fragments and biological molecules |
US7880738B2 (en) | 2005-07-14 | 2011-02-01 | Molsoft Llc | Structured documents and systems, methods and computer programs for creating, producing and displaying three dimensional objects and other related information in those structured documents |
US8396671B2 (en) | 2006-02-16 | 2013-03-12 | Microsoft Corporation | Cluster modeling, and learning cluster specific parameters of an adaptive double threading model |
US20070192033A1 (en) | 2006-02-16 | 2007-08-16 | Microsoft Corporation | Molecular interaction predictors |
US8706421B2 (en) * | 2006-02-16 | 2014-04-22 | Microsoft Corporation | Shift-invariant predictions |
US7739091B2 (en) * | 2006-03-23 | 2010-06-15 | The Research Foundation Of State University Of New York | Method for estimating protein-protein binding affinities |
JP4887909B2 (ja) * | 2006-05-30 | 2012-02-29 | 株式会社日立製作所 | シミュレーション用パラメータ決定方法 |
US20090259607A1 (en) * | 2006-11-24 | 2009-10-15 | Hiroaki Fukunishi | System, method, and program for evaluating performance of intermolecular interaction predicting apparatus |
US8121797B2 (en) | 2007-01-12 | 2012-02-21 | Microsoft Corporation | T-cell epitope prediction |
ES2704743T3 (es) * | 2007-05-14 | 2019-03-19 | Schroedinger Llc | Función de puntuación de la afinidad de unión que incluye un factor para los entornos del grupo del anillo |
DE102008005062B4 (de) * | 2008-01-18 | 2011-12-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Bestimmen einer pharmazeutischen Aktivität eines Moleküls |
US11152081B2 (en) * | 2008-02-05 | 2021-10-19 | Zymeworks Inc. | Methods for determining correlated residues in a protein or other biopolymer using molecular dynamics |
US7890480B2 (en) * | 2008-02-11 | 2011-02-15 | International Business Machines Corporation | Processing of deterministic user-defined functions using multiple corresponding hash tables |
US8559662B2 (en) * | 2008-05-06 | 2013-10-15 | Starkey Laboratories, Inc. | Genetic algorithms with subjective input for hearing assistance devices |
US8359283B2 (en) * | 2009-08-31 | 2013-01-22 | Starkey Laboratories, Inc. | Genetic algorithms with robust rank estimation for hearing assistance devices |
US8589130B2 (en) * | 2009-11-11 | 2013-11-19 | Schlumberger Technology Corporation | Method of selecting additives for oil recovery |
US8912820B2 (en) * | 2010-04-02 | 2014-12-16 | Tabula, Inc. | System and method for reducing reconfiguration power |
EP2558850B1 (en) * | 2010-04-15 | 2017-03-08 | Micromass UK Limited | Ion mobility method and apparatus for identifying a sample compound |
CN102043864A (zh) * | 2010-12-30 | 2011-05-04 | 中山大学 | 中药心血管毒性分析的计算机操作方法及其系统 |
US9858395B2 (en) * | 2011-05-23 | 2018-01-02 | Schrodinger, Llc | Binding affinity scoring with penalty for breaking conjugation between aromatic ligand groups |
US10332619B2 (en) | 2014-10-13 | 2019-06-25 | Samsung Electronics Co., Ltd. | Methods and apparatus for in silico prediction of chemical reactions |
WO2016178972A2 (en) * | 2015-05-01 | 2016-11-10 | Schrodinger, Llc | Physics-based computational methods for predicting compound solubility |
US9805159B2 (en) * | 2015-07-02 | 2017-10-31 | Neuroinitiative, Llc | Simulation environment for experimental design |
US10768935B2 (en) * | 2015-10-29 | 2020-09-08 | Intel Corporation | Boosting local memory performance in processor graphics |
EP4446765A2 (en) * | 2016-06-02 | 2024-10-16 | Koninklijke Philips N.V. | Dixon-type water-fat separation mr imaging |
EP3481389A1 (en) * | 2016-07-05 | 2019-05-15 | Akamara Therapeutics, Inc. | Evaluation and optimization of supramolecular therapeutics |
US10430395B2 (en) | 2017-03-01 | 2019-10-01 | International Business Machines Corporation | Iterative widening search for designing chemical compounds |
EP3659146A4 (en) | 2017-07-25 | 2021-04-21 | University of Massachusetts Medical School | PROCESS FOR SURVEYING AT LEAST ONE PROTEIN BINDING SITE |
CN107423570B (zh) * | 2017-08-02 | 2021-01-08 | 南昌立德生物技术有限公司 | 快速准确计算蛋白酶与药物分子之间亲和自由能的算法 |
US11443834B2 (en) | 2018-05-09 | 2022-09-13 | Shenzhen Jingtai Technology Co., Ltd. | Automatic conformation analysis method for quasi-drug organic molecules |
CN109346135A (zh) * | 2018-09-27 | 2019-02-15 | 大连大学 | 一种通过深度学习计算水分子能量的方法 |
US20200128880A1 (en) | 2018-10-30 | 2020-04-30 | R.J. Reynolds Tobacco Company | Smoking article cartridge |
CN110146453B (zh) * | 2019-04-30 | 2020-06-12 | 东华大学 | 染料的筛选方法 |
KR102209526B1 (ko) * | 2019-10-21 | 2021-02-01 | 주식회사 스탠다임 | 병렬 연산을 통한 단백질-리간드 상호 작용 분석 방법 및 장치 |
JPWO2021251413A1 (ko) * | 2020-06-09 | 2021-12-16 | ||
WO2022032044A2 (en) * | 2020-08-05 | 2022-02-10 | Quantori Llc | Multi-reference poly-conformational computational methods for de-novo design, optimization, and repositioning of pharmaceutical compounds |
US20230352123A1 (en) * | 2020-08-18 | 2023-11-02 | Nnaisense, Sa | Automatic design of molecules having specific desirable characteristics |
CN112162640B (zh) * | 2020-10-13 | 2022-10-25 | 深圳晶泰科技有限公司 | 晶体显示方法及系统 |
CN112885415B (zh) * | 2021-01-22 | 2024-02-06 | 中国科学院生态环境研究中心 | 基于分子表面点云的雌激素活性快速筛查方法 |
JP2024511077A (ja) * | 2021-03-19 | 2024-03-12 | ディ.イー.ショー リサーチ,エルエルシー | 多体シミュレーション |
CN113421610B (zh) * | 2021-07-01 | 2023-10-20 | 北京望石智慧科技有限公司 | 一种分子叠合构象确定方法、装置以及存储介质 |
US20240296918A1 (en) * | 2021-09-28 | 2024-09-05 | D.E. Shaw Research, Llc | Joint Generation of a Molecular Graph and Three-Dimensional Geometry |
WO2024063584A1 (ko) * | 2022-09-21 | 2024-03-28 | (주)신테카바이오 | 인공지능 신약 플랫폼의 중심원자 벡터 기반 단백질-리간드 간 결합구조 분석 방법 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3648253A (en) * | 1969-12-10 | 1972-03-07 | Ibm | Program scheduler for processing systems |
US5095264A (en) * | 1990-09-12 | 1992-03-10 | Sundstrand Data Control, Inc. | Frequency counter and method of counting frequency of a signal to minimize effects of duty cycle modulation |
US5404454A (en) * | 1991-02-28 | 1995-04-04 | Dell Usa, L.P. | Method for interleaving computer disk data input-out transfers with permuted buffer addressing |
JP3528990B2 (ja) * | 1995-04-14 | 2004-05-24 | 富士ゼロックス株式会社 | 多体問題用計算装置 |
US6154643A (en) * | 1997-12-17 | 2000-11-28 | Nortel Networks Limited | Band with provisioning in a telecommunications system having radio links |
US6608514B1 (en) * | 1999-02-23 | 2003-08-19 | Kabushiki Kaisha Toshiba | Clock signal generator circuit and semiconductor integrated circuit with the same circuit |
US6477558B1 (en) * | 1999-05-17 | 2002-11-05 | Schlumberger Resource Management Systems, Inc. | System for performing load management |
WO2002063479A1 (en) * | 2001-02-02 | 2002-08-15 | Datasynapse, Inc. | Distributed computing system |
US6832162B2 (en) * | 2001-02-16 | 2004-12-14 | The Trustees Of Princeton University | Methods of ab initio prediction of α helices, β sheets, and polypeptide tertiary structures |
DE60229788D1 (de) * | 2002-03-26 | 2008-12-18 | Council Scient Ind Res | Verfahren und system zum erstellen von optimalen modellen für dreidimensionale, molekulare strukturen |
-
2004
- 2004-10-14 CN CN2004800351905A patent/CN1886659B/zh not_active Expired - Fee Related
- 2004-10-14 EP EP04795035A patent/EP1673607A4/en not_active Ceased
- 2004-10-14 JP JP2006535635A patent/JP4934428B2/ja not_active Expired - Fee Related
- 2004-10-14 WO PCT/US2004/033816 patent/WO2005038429A2/en active Application Filing
- 2004-10-14 US US10/967,085 patent/US8036867B2/en not_active Expired - Fee Related
- 2004-10-14 DK DK11158741.6T patent/DK2381382T3/en active
- 2004-10-14 KR KR1020067009457A patent/KR101129126B1/ko active IP Right Grant
- 2004-10-14 EP EP11158741.6A patent/EP2381382B1/en not_active Expired - Lifetime
- 2004-10-14 CA CA2542446A patent/CA2542446C/en not_active Expired - Fee Related
-
2011
- 2011-10-04 US US13/253,035 patent/US20120116742A1/en not_active Abandoned
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140190610A1 (en) * | 2011-08-10 | 2014-07-10 | Sumitomo Rubber Industries, Ltd. | Pneumatic tire |
US9381776B2 (en) * | 2011-08-10 | 2016-07-05 | Sumitomo Rubber Industries, Ltd. | Pneumatic tire |
Also Published As
Publication number | Publication date |
---|---|
KR101129126B1 (ko) | 2012-06-01 |
CN1886659A (zh) | 2006-12-27 |
CA2542446A1 (en) | 2005-04-28 |
US8036867B2 (en) | 2011-10-11 |
JP2007508643A (ja) | 2007-04-05 |
DK2381382T3 (en) | 2018-03-05 |
US20050119837A1 (en) | 2005-06-02 |
EP2381382B1 (en) | 2017-12-06 |
CA2542446C (en) | 2014-07-15 |
EP2381382A1 (en) | 2011-10-26 |
JP4934428B2 (ja) | 2012-05-16 |
WO2005038429A2 (en) | 2005-04-28 |
US20120116742A1 (en) | 2012-05-10 |
WO2005038429A3 (en) | 2006-06-08 |
EP1673607A4 (en) | 2009-05-20 |
CN1886659B (zh) | 2010-05-26 |
EP1673607A2 (en) | 2006-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101129126B1 (ko) | 분자 배열과 결합에 관한 분석 방법과 장치 | |
KR101239466B1 (ko) | 분자 분해를 위한 방법 및 장치 | |
US7890313B2 (en) | Method and apparatus for analysis of molecular combination based on computations of shape complementarity using basis expansions | |
McNutt et al. | Improving ΔΔg predictions with a multitask convolutional Siamese network | |
Verissimo et al. | Designing drugs when there is low data availability: one-shot learning and other approaches to face the issues of a long-term concern | |
Gorgulla et al. | Virtualflow 2.0-the next generation drug discovery platform enabling adaptive screens of 69 billion molecules | |
Guterres et al. | CHARMM-GUI-Based Induced Fit Docking Workflow to Generate Reliable Protein–Ligand Binding Modes | |
US6970790B2 (en) | Method and apparatus for analysis of molecular combination based on computational estimation of electrostatic affinity using basis expansions | |
Ghemtio et al. | Recent trends and applications in 3D virtual screening | |
US20040015299A1 (en) | Clustering conformational variants of molecules and methods of use thereof | |
Ahmed et al. | FASTDock: A Pipeline for Allosteric Drug Discovery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20150820 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20151230 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20161229 Year of fee payment: 6 |