KR20040079900A - 약리작용단의 규명 방법 - Google Patents

약리작용단의 규명 방법 Download PDF

Info

Publication number
KR20040079900A
KR20040079900A KR10-2004-7007357A KR20047007357A KR20040079900A KR 20040079900 A KR20040079900 A KR 20040079900A KR 20047007357 A KR20047007357 A KR 20047007357A KR 20040079900 A KR20040079900 A KR 20040079900A
Authority
KR
South Korea
Prior art keywords
variables
variable
effect
tuple
assigned
Prior art date
Application number
KR10-2004-7007357A
Other languages
English (en)
Inventor
안드레아스 슈페르트
Original Assignee
바이엘 테크놀로지 서비시즈 게엠베하
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 바이엘 테크놀로지 서비시즈 게엠베하 filed Critical 바이엘 테크놀로지 서비시즈 게엠베하
Publication of KR20040079900A publication Critical patent/KR20040079900A/ko

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Hematology (AREA)
  • Chemical & Material Sciences (AREA)
  • Urology & Nephrology (AREA)
  • Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Biomedical Technology (AREA)
  • Microbiology (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Cell Biology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Saccharide Compounds (AREA)

Abstract

각각 다수의 변수(V1, V2, ..., Vn)를 갖는 물질의 기술어를 입력하고, 이 기술어와 연관된 결과(Rp)를 입력하는 단계; 변수 쌍에 대해 이진 변동값을 결정하는 단계; 변수 쌍(Vi,Vj)을, 이 변수 쌍의 이진 변동값이 2인 경우에, 정확히 2개의 변수를 갖는 약리작용단의 활성 개체에 배정하는 단계; 변수의 3-터플(Vi,Vj, Vk)에 대해 삼진 변동값을 결정하는 단계; 이 삼진 변동값으로부터, 둘 이상의 변수를 갖는 공통의 활성 개체에 배정되기 위한 변수 쌍 후보를 결정하고, 변수 쌍 후보가 공통의 활성 개체에 할당될 때, 공통의 활성 개체와는 다른 활성 개체에 할당되어야 할 변수를 함유하는 각 변수 쌍 후보를 위한 다수의 변수들을 결정하는 단계; 공통의 활성 개체를 규명하기 위한 다수의 변수들의 모순 없는 클러스터를 결정하는 단계를 갖는, 분자 약리작용단을 규명하기 위한 방법 및 컴퓨터 시스템에 관한 것이다.

Description

약리작용단의 규명 방법{METHOD FOR THE IDENTIFICATION OF PHARMACOPHORES}
본 발명은 분자 약리작용단(pharmacophore)의 규명 방법, 상응하는 컴퓨터 프로그램 및 컴퓨터 시스템에 관한 것이다.
실험 데이타로부터 분자 약리작용단을 찾아내는 것은 신규한 활성물질을 찾아내는데 있어서 결정적인 단계이다. 종래 기술에서는, 물질 라이브러리(substance library)의 수많은 정의된 물질들과, 목표물이라고 칭해지는 사전 정의된 목표 물질의 반응을 검사함으로써, 실험 데이타를 수득하는 것이 그 자체로 공지되어 있다. 물질 라이브러리의 물질은 목표물과의 반응에 따라 분류된다. 이들을 분류하는 가능한 방법중 하나가 이진 분류법, 즉 예를 들면 반응이 일어나지 않으면 "0"이라고 하고 반응이 일어나면 "1"이라고 하는 것이다.
활성물질을 개발하기 위해서는, 개개의 물질들의 분류로부터 얻어진 약리학적으로 관련있는 아단위(약리작용단) 및 그의 화학구조를 규명하는 것이 결정적이다. 이는 화학적으로 잘 정의된, 응집된 분자 아단위인 선두(lead) 구조라고 칭해지는 것을 규명함을 포함한다. 목표물과의 반응 능력과 관련된 분자 아단위를 약리작용단이라고 하며, 특히 선두 구조라고 한다. 아단위의 기여가 반응을 촉진하는지 저해하는지를 논하는 것은 여기에서 타당하지 않다. 약리작용단이 반드시 응집된 분자 아단위를 형성할 필요는 없다. 공간적으로 분리된 분자 아단위들이 협동적으로 효과에 기여하는 일이 완벽하게 가능하다.
생물학적 또는 화학적 기술어 또는 분자구조는 입력벡터에 코드화된다. 효과 프로필은 분자구조에 의존하는, 사전에 공지되지 않은 함수이다. 이러한 이유로, 이 함수는 지금부터 구조/효과 관계(SER)라고 칭해진다. 약리작용단을, 입력 변수의 효과 기여와, 공동으로 SER을 형성하는 적은 수의 효과 개체(entity)를 연결함으로써, 그의 함수 형태로부터 유도할 수 있다(문헌[J.Bajorath, "Selected Concepts and Investigations in Compound Classification, Molecular Descriptor Analysis, and Virtual Screening", J.Chem.In.Comput.Sci., 2001, 41, 233-2459]을 참조).
약리작용단을 규명하면, 활성물질을 그의 체계적 변동에 의해 최적화할 수 있다. 규명된 약리작용단을 체계적으로 최적화하는 확립된 방법이 존재한다.
상이한 방법들의 조합을 약리작용단의 규명에 사용한다.
(1) 분자 구조의 구조적 부분집단(지문(fingerprint))의 정의 및 개개의 분자구조의 화학적 및/또는 생물학적 기술어의 결정. 기술어는 분자-특이 화학적 변수(예를 들면 산도, OH기의 개수, 등) 또는 생물학적 변수(예를 들면 독성)이다. 지문은 이진 문자열 형태로 코드화된다. 여기서 문자열상의 각 위치는 분자 부분집단을 나타낸다. 상응하는 부분집단이 분자구조에 존재하는 경우에 문자열상의 각 위치에 1을 설정하고, 그렇지 않다면 0을 설정한다. 경험상, 분자 부분집단의 선택이 약리작용단의 규명에 중요하며 현재 연구의 주제임이 밝혀졌다(미국특허 제 6,240,374 호 및 미국특허 제 6,208,942 호를 참조). 지문과 관련해서, 부분집단의 존재 뿐만 아니라, 분자의 화학구조내에서 그들의 관계를 코드화할 수 있다. 그러나, 최적의 일반적으로 유용한 지문의 개발은 약리작용단의 규명과 동일하며 아직 달성되지 않고 있다.
(2) 데이타 축소법을 지문에 적용한다. 그 중 가장 통상적인 것은 주요성분분석법(PCA) 및 클러스터(cluster)법이다. 그 결과, 매우 긴 문자열이 상당히 축소되며, 약리작용단 규명 문제의 복잡성도 감소한다. 이러한 목적을 위해 존재하는 모든 방법들이 경험적이고 효과 구조에 대해 어떠한 정보도 함유하지 않기 때문에, 효과와 관련있는 정보들이 축소 작업 동안에 제거될 위험이 있다. 이를 체계적으로 피하는 방법이 존재하지 않는다.
(3) 지문/기술어와 약리학적 효과 사이의 구조/효과 관례를 찾아내기 위해서, 확립된 데이타 마이닝(mining)법을 (축소된) 데이타 레코드에 적용한다.
가장 통상적인 방법은 의사결정트리(decision tree), 연관규칙(association rule), 신경망(neural network)이다.
의사결정트리와 연관규칙의 경우, 가능한 한 적은 변수를 사용하여 구조/효과 관계를 서술하려는데에 조합된 방법을 사용한다. 따라서 이러한 방법을, 효과와 관련된 구조적 변수와 효과와 관련되지 않은 구조적 변수를 서로 분리하는데에 사용할 수 있다. 이와 관련해서, 원칙적으로는 다른 구조적 변수들의 할당값과는 상관없이 효과에 긍정적 또는 부정적 기여를 하는 효과 개체만을 관련있다고 규명할 수 있다는 단점이 있다. 다수의 효과 개체들 사이에서 상호작용이 일어나는 흔한 경우에서는, 총 효과가 항상 촉진되거나 약화되는 경우에만 그것을 규명할 수있다.
구조적 화학적 이유로 효과 개체들 사이에서 복잡한 상호작용이 일어나는 모든 경우에서, 상기 상호작용을 전술된 방법으로는 규명할 수가 없다. 이 경우에서는 효과 개체를 형성하는 구조적 변수들의 그룹화를 감지할 수가 없다. 이 방법의 추가의 단점은 효과 개체들 사이의 복잡한 다단계 상호작용을 근본적으로 감지할 수 있다는 것이다.
의사결정트리 및 연관규칙과는 대조적으로, 신경망은 존재하는 데이타에 대해 "기억에 의해(by heart)" SER을 학습한다. 이 방법은 수많은 변수들의 복잡한 상호작용들을 올바르게 맵핑(mapping) 할 수 있다. 이것의 결정적 단점은 형식적인 SER만을 제공할 수 있다는 점이다. SER의 함수 구조화에 대한 명백한 정보를 얻을 수 없다. 그 결과, 약리작용단의 규명에 대한 그의 기여는 SER의 간결한 표현 뿐만 아니라 측정된 변수 할당값들 사이의 내삽(interpolation)을 허용하는 것으로 제한된다. 신경망은, 그의 설계상, SER의 구조화에 직접 기여할 수가 없다. 따라서 약리작용단의 화학적으로 타당한 규명은 매우 제한된 정도로만 가능하다. 두번째 단점은 신경망의 높은 수준의 유연성은, 존재하는 고차원적 데이타 레코드의 경우, 신경망에 의한 예측의 신뢰도가 과잉적합(overfitting)으로 인해 크게 감소하는 상황으로 이끈다는 것이다.
선행 지식의 명백한 통합을 허용하고 추가로 데이타로부터 SER의 함수 구조에 대한 정보를 생성하는 방법이 알려져 있지 않다.
한편으로는, 근래에 선행 지식을 구조화 하이브리드(hybrid) 모델 형태의 신경망 구조로 명백하게 통합할 수 있게 하고, 그 결과 얻어진 복잡한 관계들의 모델링의 증가된 효율을 증명할 수 있게 되었다(문헌[A.Schuppert, Extrapolability of Structured Hybrid Models: a Key to Optimization of Complex Processes, in: Proceedings of EquaDiff 99, Fiedler, Groeger, Sprekels Eds., World Scientific Publishing, 2000]을 참조).
구조화 하이브리드 모델은 사전 정의된 SER의 함수 구조에 따라 서로 연결된 신경망을 포함한다. 이어서 신경망으로서 시행되는 효과 개체는, 존재하는 데이타에 대해 비구조화 신경망과 유사하게 학습된다. 그 결과 과잉적합의 문제가 크게 감소할 수 있음을 볼 수 있었다. 또한, 구조화 하이브리드 모델은, 순수 신경망에서는 원칙적으로 불가능했던 데이타의 외삽을 허용한다.
탐색중인 SER의 함수 구조가 사전에 알려져 있지 않는 한, 구조화 하이브리드 모델링을 약리작용단 규명에 적용할 수가 없다. 이는 일반적으로 그렇지 않기 때문에, 구조화 하이브리드 모델의 사용을 위한 상응하는 전제조건이 충족되지 않는다. 대조적으로, SER의 함수 구조의 규명은 약리작용단의 탐색에 있어서 실로 결정적인 요소이다.
그러나 현재까지도, 이용가능한 데이타로부터 SER의 함수 구조의 역-결정을 수행할 수가 없었다. 따라서 종래 기술에서는, 주어진 목표물을 위한 약리작용단을 규명하는 신뢰할만한 방법이 없다.
따라서 본 발명의 목적은 분자 약리작용단의 규명 방법 뿐만 아니라 상응하는 컴퓨터 프로그램 및 컴퓨터 시스템을 제공하는 것이다.
본 발명이 근거를 두고 있는 목적은 각각 독립항에 의해 달성된다. 본 발명의 바람직한 실시양태는 종속항에서 정의된다.
본 발명을 적용하기에 유리한 분야는 약리학적 효과 분석을 위한 분자 약리작용단의 규명이다. 특히 본 발명은 약리학적 활성물질의 개발을 훨씬 더 빠르게 함과 동시에 비용도 상당히 절감하게 한다.
본 발명의 특별한 장점은 측정된 구조/효과 데이타로부터 SER의 함수 구조를 직접 규명하도록 허용한다는 점이다.
본 발명의 한 바람직한 실시양태에 따르면, 각 데이타 레코드의 효과를 이진 표현할 수 있도록(즉 "불활성" 상태 또는 "활성" 상태) 데이타를 분류할 수 있다고 가정한다. 본 발명의 추가의 바람직한 실시양태에 따르면, 마찬가지로 약리작용단의 각 효과 개체도 딱 두가지 상태, 즉 "효과적" 및 "불활성"이라고 가정한다. 여기서 효과 개체는 "블랙박스"로서 간주된다.
본 발명의 추가의 바람직한 실시양태에 따르면, 효과는 셋 이상의 부류로 나누어지고 코드화된다. 이진 코드화와 비교해 보면, 이 실시양태는 "불활성"과 "활성"의 구분 뿐만 아니라, 평가에 관련된 활성을 여러 등급으로 나누는 것도 허용한다. 따라서, 각 효과 개체에 대해서 셋 이상의 상태를 허용할 수 있다.
본 발명은, 데이타내 불변(nonvariant) 셋트의 정확하게 정의된 시스템이 SER의 각 함수 구조와 연관되어 있다는 것이 구조화 하이브리드 모델의 특성이라는 인식에 근거를 두고 있다. 본 발명에 따르는 방법은 (아마도 존재하는) 불변 셋트를 데이타로부터 걸러서 그로부터 SER을 재구성한다는 것에 근거를 두고 있다(구조화 하이브리드 모델은 그 자체로 공지되어 있다. 문헌[A.Schuppert, Extrapolability of Structured Hybrid Models: a Key to Optimization of Complex Processes, in: Proceedings of EquaDiff 99, Fiedler, Groeger, Sprekels Eds., World Scientific Publishing, 2000]을 참조).
딱 두가지 상태(즉 "활성" 및 "불활성")만을 취할 수 있는 효과 개체의 경우, 각 효과 개체의 입력 변수의 할당값의 클러스터링이 반드시 존재하기 때문에 모든 경우에서 효과 개체의 출력은 관련 변수중 하나의 모든 할당값에 대해 "0"이고, 다른 변수들의 모든 할당값에 대해서는 항상 "1"이다. 입력 변수의 할당값의 강제 클러스터링은 SER내 불변 셋트의 존재를 직접 유도한다.
본 발명의 특별한 장점은 SER의 함수 구조가, 특히 SER이 트리 구조일 때, SER의 불변 셋트의 사전 정의된 시스템으로부터 재구성될 수 있다는 점이다. 본 발명에 따르는 방법은, SER의 함수 구조를 계산하기 위해서, 개개의 효과 개체의 입력 및 출력 관계의 정확한 할당값의 명백한 계산도, 모든 가능한 함수 구조의 조합된 변동도 필요로 하지 않는다. 이 때문에, 본 발명에 따르는 방법은 특히 효율적이고, 복잡한 문제조차도 비교적 덜 복잡한 계산에 의해 해결할 수 있게 한다.
본 발명의 바람직한 예시적 실시양태를 도면을 참조로 아래에서 보다 자세히 설명할 것이다.
도 1은 약리학적 구조/효과 관계의 규명 방법에 대한 기본 설명이고,
도 2는 약리작용단의 형식적 구조의 예이고,
도 3은 구조화 하이브리드 모델의 예이고,
도 4는 각각 이진 입/출력 거동을 갖는, 효과 개체로 구성된 구조/효과 관계의 예이고,
도 5는 기술어의 상이한 변동값의 계산을 보여주는 흐름도이고,
도 6은 효과 개체의 규명을 보여주는 흐름도이고,
도 7은 물질 라이브러리의 물질을 목표 분자상에서 실험적으로 결정하는 방법의 흐름도이고,
도 8은 물질 라이브러리의 물질의 기술어 및 실험적으로 결정된 반응을 수록한 테이블이고,
도 9는 이진 변동값을 결정하는 실시양태의 흐름도이고,
도 10은 도 9에 따르는 이진 변동값의 결정을 보여주는 테이블이고,
도 11은 삼진 변동값의 결정을 보여주는 흐름도이고,
도 12는 구조/효과 관계의 추가의 예이고,
도 13은 공통의 활성 개체에 배정되기 위한 변수 쌍 후보의 테이블 및, 모순 없는(conflict-free) 클러스터를 갖는 변수 쌍 후보를 위한 변수 셋트의 테이블이다.
도 1은 본 발명이 근거를 두는, 특히 약리학적 용도를 위한, 규명 방법을 설명한다. 데이타베이스(1)는 물질 라이브러리의 물질의 기술어를 함유한다. 여기서 기술어는 바람직하게는 이진 코드화되며, 물질의 구조를 기술한다. 이러한 기술어는 지문이라고도 한다. 이러한 지문은 그 자체로 종래 기술에 공지되어 있다(문헌[J.Bajorath, Selected Concepts and Investigations in Compound Classification, Molecular Descriptor Analysis, and Virtual Screening, J.Chem.In.Comput.Sci., 2001, 41, 233-245]을 참조).
데이타베이스(1)의 기술어는 데이타베이스(1)의 출력 변수에서 벡터 x로서 사용되며, (결정될) 구조/효과 관계 SER(x)의 효과 메카니즘에 의해 효과 프로필상에 맵핑된다. 효과 프로필은 데이타베이스(2)에 저장된, 실험적으로 결정된 데이타를 포함한다. 효과 프로필을 결정하기 위해서, 각 개별 기술어에 대해서, 각각의 물질이 목표 분자(목표물이라고 함)와 반응하는지 안 하는지 결정하는 실험을 한다.
따라서 목표 분자를 사용하여, 기술어에 의해 효과 프로필상에 기술되는 물질의 Y=SER(x) 맵핑을 수행한다. 이어서 규명 문제를, SER의 입력 및 출력 변수로부터, 즉 기술어 및 효과 프로필로부터, SER 구조에 대해 추론을 끌어낸다.
SER은 도 2에 따라 약리작용단으로서 칭해지는 것으로서 표현될 수 있다. 약리작용단은 하나 이상의 선두 구조들을 포함할 수 있다.
도 2는 효과 개체(4, 5, 6 및 7)를 갖는 약리작용단(3)을 보여준다. 효과 개체(4)는 입력 변수로서 변수 V1, V3, V4및 V5를 갖는다. 효과 개체(5)는 입력 변수로서 변수 V6, V7및 V8를 갖는다. 효과 개체(6)는 입력 변수로서 변수 V9및 V10을 갖는다. 효과 개체(4, 5 및 6)는 각각 효과 개체(7)의 입력 변수와 연결된 출력 변수를 갖는다. 효과 개체(7)의 출력 변수는 총 효과(즉 "활성" 또는"불활성")를 나타낸다.
도 3은 "구조화 하이브리드 모델"의 전형적인 구축의 예이다. 입력 변수와 출력 변수간의 함수 관계는 도 3의 관계 그래프에 의해 제공되어 있다. 검은색 직사각형은 양적으로 공지되지 않은 함수를 나타내는 반면, 흰색 직사각형은 양적으로 알려진 관계를 나타낸다. 구조화 하이브리드 모델링의 장점을 활용할 수 있게 하기 위해서, 모델이 공지된 관계(백색 직사각형)를 함유할 필요는 전혀 없다. 이러한 인식은 목표물과 관련해 결정된 기술어 및 효과 프로필로부터 SER을 자동 배치하기 위한 본 발명에 의해 활용된다.
도 4는 개개의 효과 개체가 각각 두 가지의 상태(즉 각각 "활성" 또는 "불활성"에 상응하는 "0" 또는 "1")만을 취할 수 있는, 본 발명의 추가의 바람직한 예시적 실시양태를 보여준다.
도 5는 본 발명에 따르는 방법의 실시양태의 흐름도이다. 효과 프로필을 결정하기 위한 물질 라이브러리의 물질의 기술어가 단계(50)에서 제공된다. 이는 균일한 길이 n을 갖는 상응하는 분자 구조의 이진 기술어를 포함하는 화일 형태로 일어난다.
활성 또는 불활성 분자의 그룹에의 배정은, 검사될 효과에 대해 각 분자 구조에 대해, 사전에 결정된다. 이러한 배정은 효과 프로필의 형태로서 제공된다. 단계(50)에서 제공된 이진 기술어는 단계(51)에서 다양화된다(diversified)(즉, 각 효과에 배정된다). 다양화란 여기서는 특정 길이의 기술어의 각 가능한 이진 문자열에 대해 연관된 효과를 알 필요가 있음을 뜻한다.
주어진 데이타의 경우 그렇지가 않다면, 분자 구조가 비교적 적은 정도로 변동하게 하면서 데이타 레코드를 개개의 클러스터에 클러스터링하거나 신경망을 사용하여 내삽함으로써, 다양화를 데이타 전처리 단계에서 인위적으로 수행해야 한다. 클러스터링은 각 클러스터내의 모든 분자 구조가 비교적 짧은 길이 m<n의 이진 문자열에 의해 기술될 수 있도록 한다. 개개의 클러스터내에서는, 총체적 통합보다는 다양화를 달성하기가 더 쉽다. 다양화를 달성하는 추가의 가능한 방법은 상관된 부분문자열(substring)을 이진 기술어로부터 체계적으로 제거하는 것이다.
단계(51)에서의 다양화 후, 단계(52, 53 및 54)에서는 이진, 삼진 및 단변량 변동값을 계산한다. 이는 데이타 셋트내 불변 그룹의 완벽한 시스템이 계산되는 것을 허용한다. 여기서 이진 기술어 문자열의 변수 Vi,Vj로 이루어진 모든 터플이 형성된다. 각 터플 Vi,Vj의 경우, 두 변수는 다음과 같이 계산된다.
이진 변동값 v2(i,j)를 계산하려면, (a) 변수(i,j)((0,0),(0,1),(1,0),(1,1))의 모든 4개의 할당값에 대해 다른 변수들의 모든 각 조합에 대해 전체 시스템의 효과를 탐색한다. (b) (i,j)의 할당값 사이의 효과 구조의 상관값 cor(k,l), k,l=1...4를, 전체 시스템의 효과가 잔류 변수들이 모두 변동하는 가운데에서 두 할당값에 대해 항상 동일한 경우 할당값(예를 들면 (0,0))을 또다른 할당값(예를 들면 (0,1))과 상관시킴으로써, 계산한다. 오류를 함유하는 데이타 레코드에서, 정확한 동일성은 요구되지 않고 오히려 잔류 변수들의 변동값에서의 효과가 동일하다는 사전 정의된 가능성이 요구된다. 이어서 기술된 바와 같이, 할당값 k가 할당값 l과 상관된 경우, cor(k,l)을 정확하게 1이라고 설정하고, 그렇지 않다면 cor(k,l)을 0으로 설정한다. (c) 다음 단계에서는, 각 클러스터가 서로 상관된 할당값만을 함유하도록 공지된 방법을 사용해서, 할당값을 클러스터링한다. (d) 이진 변동값 v2(i,j)는 결정된 클러스터의 개수이다.
삼진 변동값 v3(i,j;k)를 다음 알고리듬에 따라 계산한다.
(a) 잔류 변수들의 모든 각 변동값에 대한 효과를, 변수 터플(i,j)(i,j=l,...,n)의 4개의 할당값 및 추가의 변수 k의 2개의 할당값에 대해 탐색한다. (b) 각 터플(i,j) 및 잔류 변수들의 모든 변동값에 대해서, 변수 k의 할당값이 0에서 1로 갑자기 증가할 때 효과가 어떻게 변하는지를 검사한다. 효과가 변수(i,j)의 할당값에 의존하는 경우, (i,j)의 할당값에서 효과의 동일한 그룹화가 k=0 및 k=1의 경우 존재하는지의 여부를 검사한다. (c) 삼진 변동값 v3(i,j;k)는 잔류 변수의 모든 변동값의 개수인데, k=0 및 k=1인 두 경우에서, 효과는 변수(i,j)의 할당값에 의존하고, 각 경우에 k=0 및 k=1인 효과에 대해 (i,j) 할당값에서 상이한 그룹화가 일어난다.
또한, 변수 k가 0에서 1로 변하는 경우 효과가 변하는 잔류 변수의 변동값 개수를 나타내는 변동값 vl(k)를 계산한다.
도 6은 절차가 단계(52, 53 및 54)로부터 어떻게 계속되는지를 보여준다.
SER의 함수 구조를 이진 및 삼진 변동값 v2(i,j) 및 v3(i,j;k)를 사용하여 명백하게 규명할 수 있다. 이를 위해서는, 우선 무관(irrelevant) 변수들을 규명한다(단계(55)). 효과에 어떤 영향도 주지 않는 변수들을 무관 변수라고 한다.이들을 vl(k)을 사용하여 즉시 규명할 수 있다.
vl(k)=0이면, 변수 k는 무관 변수로 간주된다.
모든 무관 변수들을 입력 문자열에서 제거한다. 이어서(단계(56)), 이미 터플로서 2-변수 효과 개체(2-EE)를 형성하는 변수 터플을 규명한다.
어떠한 무관 성분도 함유하지 않는 변수 터플(i,j)은, v2(i,j)=2인 경우, 2-EE를 형성한다. 이어서 2-EE에 아직 포함되지 않은 모든 변수들에 대해, 이들이 보다 복잡한 효과 개체에 포함되는지를 검사한다(단계(57)).
이를 위해서, 다음 알고리듬에 따라 절차를 계속한다.
(a) 모든 (i,j)의 경우, 연관된 삼진 변동값 v3(i,j;k), k=1,...,n를 사용하여 v3(i,j;k)=0이 적용되는 변수 k의 셋트 Mk(i,j)를 탐색한다.
(b) 이어서 각 연관된 클러스터 요소들이 동일한 Mk(i,j) 셋트를 갖는 (i,j) 터플로 이루어진 모든 클러스터를 탐색한다.
(c) 동일한 클러스터에 속하는 터플에서 발생되는 모든 변수들은 하나의 효과 개체를 형성한다.
이 알고리듬은 무관 변수들을 측정 데이타로부터 규명되도록 허용할 뿐만 아니라 SER의 함수 구조를 직접 결정하도록 허용한다.
잡음(noise)을 함유하는 데이타의 경우, 즉 분자 구조에의 효과 배정이 실패할 수 있는 경우, 다음과 같이 알고리듬을 변형함으로써 목적을 달성한다.
단계(55)에서, v1=0, v2=2 및 v3=0인지는 더 이상 검사하지 않고 오히려 오류 대역(fault bandwidth)을 허용한다. 다시 말해 v1이 사전 정의된 한계 v1_crit보다 작다면, 그 변수를 무관한 것으로 간주한다. 2-EE의 규명에 있어서 오류의 보상은 이미 알고리듬의 규명을 설명할 때 하였다. 복잡한 효과 개체의 규명에 있어서는, 단계(a)에서, v3(i,j;k)가 사전 정의된 값 v3_crit보다 작게 하는 Mk(i,j)의 모든 k 변수를 설정하는 방식으로, 오류의 보상을 수행한다.
이러한 알고리듬은 SER의 함수 구조를 데이타로부터 직접 구축하는 직접법이다. 가능한 구조를 데이타와의 상용성에 대해 시험하는 간접법과는 대조적으로, 직접법은 임계 변수 v1_crit, v2_crit 및 v3_crit의 최적 선택이, 그 결과가 일관성이 있어야 한다는 사실에 의해 뒷받침된다는 장점을 갖는다. 이는 (1) 모든 변수들이 하나의 효과 개체에 정확하게 배정되거나 무관 변수로서 정의되어야 하며, (2) 배정에는 어떤 겹침도 있어서는 안 됨을 뜻한다.
모든 시험은 미리, 일관된 구조로 이끄는 변수가 선택될 때, 올바른 구조가 항상 형성됨을 보여주었다. 따라서 일관성의 검사는 발견된 SER의 함수 구조의 타당성을 검사하는 유력한 시험이다.
도 6의 흐름도의 단계(58)에서는, 규명된 효과 개체의 일관성을 검사한다. 이들이 일관성이 없으면, 단계(59)에서 측정 오류를 보상하기 위한 보정 변수의 선택을 조정한다. 이어서 단계(55) 및/또는 단계(56) 및/또는 단계(57)를 다시 수행하고, 상응하는 결과를 단계(58)에서 일관성 시험에 다시 적용한다. 이들이 일관성이 있으면, 효과 개체의 규명이 끝난 것이다.
본 발명에 따르는 방법의 바람직한 예시적 실시양태를 도 7 내지 도 11을 참조하여 아래에 보다 자세하게 설명할 것이다.
도 7은 우선 이 방법을 수행하는데 요구되는 실험 데이타를 수득하는 절차를 도시한다. 도 7의 방법을, 자동 실험실 기기를 사용해 주로 완전히 자동적으로 수행할 수 있다.
단계(70)에서, 우선 인덱스 p를 초기화(즉 p=0)한다.
단계(71)에서는, 물질 라이브러리의 물질 Sp에 대한 기술어를 판독하기 위해서, 기술어 데이타베이스(도 1의 데이타베이스(1)을 참조)에 접근한다. 전반적으로, q 기술어의 셋트가 데이타베이스에 존재한다.
단계(72)에서는, 상응하는 물질 Sp가 목표 분자와 반응하는지 안 하는지를, 즉 특정 효과를 나타내는지 안 나타내는지를 실험적으로 검사한다. 반응이 일어나면, 물질 Sp의 기술어에 대한 데이타필드 Rp를 단계(73)에서 1로 설정하고, 그렇지 않으면 단계(74)에서 데이타필드 Rp을 0으로 설정한다.
이어서, 단계(75)에서는 인덱스 p의 값을 증가시킨다. 이어서 증가된 인덱스에 대해서, 즉 다음 물질에 대해서, 단계(71, 72 및 73 또는 74)를 다시 수행한다.
실험적으로 결정된 결과, 즉 효과 프로필을 도 8에서 테이블 80에 집계한다. 테이블 80은 각 물질 S1, S2, ... , Sp에 대한 변수 V1, V2, V3, ... , Vn의 기술어를 포함한다. 또한, 이러한 기술어들은 각각, 반응이 실험에서 일어나는지 아닌지를 이진 코드화된 형태에서 규정하는 데이타필드 Rp를 배정받는다. 0 또는 1인 데이타필드 R1은 상응하게, 물질 S1이 실험에서 목표물과 반응하는지 안 하는지에 따라 테이블 80의 첫번째 행의 물질 S1에 대한 기술어에 배정된다. 따라서 테이블 80은 다양화된 데이타를 함유한다(도 5의 단계(51)를 참조).
도 9는 이진 변동값을 계산하는 방법의 실시양태의 흐름도를 보여준다(도 9의 단계(52)를 참조).
단계(90)에서, 우선 변수 Vi및 Vj(여기서 i≠j)의 모든 가능한 2-터플을 형성한다. 따라서 각각 n개의 변수 V1, V2, V3, ... , Vn를 갖는 이진 기술어를 사용하는 경우, 상이한 변수 Vi및 Vj의 모든 가능한 쌍을 결정한다.
단계(91)에서는 단계(90)에서 결정된 각각의 2-터플에 대해 테이블을 작성한다. 이러한 테이블의 구조를 도 10에 도시한다.
도 10은 변수 Vi및 Vj의 모든 가능한 할당값들이 열 인덱스로서 사용되는 테이블 100을 보여준다. 이진 기술어를 사용한다면, 두 변수 Vi및 Vj의 경우, 네 가지의 상이한 할당값 쌍들, 즉 (0,0), (0,1), (1,0), (1,1)이 있다. 도 10에 도시된 테이블 100의 예는 변수 Vi, Vj(여기서 i=1이고 j=2이다)의 2-터플에 관한 것이다.
잔류 변수들의 가능한 할당값이 테이블 100의 행 인덱스로서 사용된다. 본원에서는 i와 동일하지 않고 j와 동일하지 않은 인덱스를 갖는 모든 변수를 잔류변수라고 칭한다. 따라서 도 10에서 고려된 예시적인 경우에서는, 잔류 변수 V3, V4, ... , Vn이 존재한다. 따라서 이러한 잔류 변수들의 특정 할당값은 테이블 100에서 각 행에 배정된다.
이어서 테이블 100의 특정 행렬의 셀의 내용물을 다음과 같이 수득한다.
각 행의 잔류 변수의 할당값 및 각 열의 2-터플 Vi, Vj의 할당값의 경우, 변수 V1, V2, ... , Vn의 할당값에 대한 데이타필드 Rp의 값을 결정하기 위해서 테이블 80(도 8을 참조)에 접근한다. 이어서 데이타필드 mRp의 값을 테이블 100의 각 셀로 옮긴다.
도 10의 테이블 100에 상응하는 테이블을 도 9의 단계(91)에서 각 2-터플 Vi, Vj에 대해 작성한 후, 상이한 열의 개수를 단계(92)에서 각 테이블에 대해 결정한다.
단계(93)에서는, 각 테이블에 대해서, 고려되는 테이블의 상이한 열의 개수가 1인지 아닌지, 즉 변수의 특정 2-터플 Vi, Vj에 배정된 테이블이 동일한 열로만 이루어졌는지를 검사한다. 만약 그러하다면, 단계(94)에서 각 변수 Vi, Vj가 무관하다는 것이 명백해진다.
그렇지 않다면, 고려되는 테이블에 대해서, 상이한 열의 개수가 2인지를 검사한다. 만약 그러하다면, 단계(96)에서 각 변수 Vi및 Vj가 정확히 2개의 입력 변수를 갖는 활성 개체에 속한다는 것이 명백해진다.
그렇지 않다면, 단계(97)에서 삼진 변동값을 형성한다. 단계(93) 및, 경우에 따라, 단계(95)를, 가능하다면 이러한 시점에서 무관 변수들을 제거하거나 변수들을 정확히 2개의 입력 변수를 갖는 활성 개체에 배정하기 위해서, 단계(91)에서 작성된 모든 테이블에 대해서 수행한다. 이러한 방식으로 이미 무관한 것으로 간주되어 제거된 변수, 또는 정확히 2개의 입력 변수를 갖는 활성 개체에 배정된 변수의 경우, 단계(97)의 삼진 변동값을 결정할 필요는 없다. 따라서 단계(97)에서 필요한 것은, 단계(94)에서 무관한 것으로 간주되어 제거되지도 않고 단계(96)에서 정확히 2개의 입력 변수를 갖는 활성 개체에 배정되지도 않은 변수들에 대해서, 삼진 변동값을 결정하는 것이 전부이다.
도 11은 삼진 변동값을 결정하는 실시양태를 보여준다(도 9의 단계(97)를 참조).
단계(110)에서, 테이블 100(도 10을 참조)의 형태의 테이블을, 각 2-터플 Vi, Vj, 특히 "0"인 변수 Vk의 할당값에 대해 작성한다. 이러한 테이블을 모든 3-터플 Vi,Vj및 Vk(Vk는 항상 0에 할당됨)에 대해서 작성한다.
단계(111)에서는 각 터플 Vi,Vj에 대한 상응하는 테이블(특히 Vk의 할당값=1)을 작성한다.
단계(112)에서는, 특정 터플 Vi,Vj의 경우, 즉 특정한 i 및 j의 경우, 두 상응하는 테이블, 즉 Vk=0인 테이블(단계(110)) 및 Vk=1인 테이블(단계(111))가 동일한지를 검사한다. 만약 그러하다면, 단계(113)에서 변수 Vk를 무관한 것으로 간주하여 제거할 수 있다.
그 반대라면, 단계(114)에서는 각 경우에 고려되는 두 테이블에 대해 열 관계를 결정한다. 열 관계를 결정하는 방법은 테이블의 특정 열에 대해서, 열의 요소들과 동일한 테이블의 상이한 열의 동일한 행의 상응하는 요소들 사이에 어떤 관계가 있는지, 즉 이러한 요소 쌍이 동일성(identity) 관계인지 또는 비-동일성 관계인지를 규정하는 것이다. 각 테이블의 모든 열에 대해서, 단계(114)에서 각 테이블에 대해 동일성 또는 비-동일성의 관계를 결정한다.
단계(115)에서는, 변수의 동일한 2-터플 Vi,Vj에 속하는 Vk=0 및 Vk=1의 테이블 쌍의 열 관계가 동일한지를 검사한다. 만약 그렇지 않다면, 단계(116)에서 단정적인 결론을 내리기는 불가능하다. 만약 그러하다면, 단계(117)에서 변수 Vi및 Vj는 동일한 활성 개체에 배정되기 위한 변수 쌍 후보가 되며, 활성 개체는 2개 이상의 변수를 갖는 활성 개체일 수가 있다. 또한 단계(117)에서, 변수 Vi,Vj가 적용가능한 변수 쌍 후보일 경우, 변수 Vk는 변수 Vi및 Vj의 활성 개체와 상이한 활성 개체에 속해야 한다.
도 11의 방법에 의해 변수 쌍 후보 Vi및 Vj의 리스트 뿐만 아니라 각 변수쌍 후보를 위한 변수 Vk의 셋트(각각의 변수 쌍 후보가 적용가능하다면, 변수 Vk는 또다른 활성 개체에 배정된다)가 수득된다. 각각 특정 변수 쌍 후보에 배정된 변수 Vk의 셋트들의 통합 셋트에서, 변수들의 동일한 셋트의 모순 없는 클러스터가 탐색된다. 이어서 이로부터 직접, 탐색되는 약리작용단의 구조를 얻는다.
도 12는 도 11의 방법을 특정 경우에 적용함으로써 얻은 상응하는 결과를 보여준다. 특정한 경우에서, 360개의 관련 삼진 변동값을 1024개의 데이타 레코드로부터 추출하였다. 데이타 레코드의 각 기술어는 수많은 10종의 상이한 변수들(V1, V2, ..., V10)을 갖고, 변수 V2는 무관한 것으로 규명되었다. 변수 V9및 V10는 정확히 2개의 변수를 갖는 하나의 활성 개체에 속하는 것으로 규명되었다(도 9의 단계(96)를 참조).
무관 변수들 및 2-활성 개체의 변수를 제거하고 나면, 변수 쌍 Vi및 Vj은 후보로서 남는 잔류 관련 변수 터플이 된다. 이것이 도 12의 위쪽 테이블에 명시되어 있다.
도 12의 아래쪽 테이블에서, 도 2의 위쪽 테이블의 상응하는 행, 즉 특정 변수 쌍 후보 Vi,Vj에 속하는 변수 Vk의 셋트가 각 행에 주어진다. 도 12의 아래쪽 테이블에서, 0은 항상 빈 공간을 가리킨다. 잔류 변수의 분포는, 아래쪽 테이블 MK(i,j)로부터, 효과 개체 2: 1 3 4 5, 효과 개체 3: 6 7 8로서 규명되었다.
상응하는 클러스터를 도 12의 테이블에서 "x"라고 표시한다. 이 클러스터에상응하는, 활성 개체(4, 5, 6 및 7)를 갖는 약리작용단이 도 13에 도시되어 있다. 활성 개체의 할당값은 변수 V1, V3, V4및 V5로부터 유래된 것임을 도 12의 위쪽 테이블에서 명백히 알 수 있으며, 활성 개체(5)의 할당값은 셋트 Mk(i,j)에 대해 형성된 클러스터에 기인한 것이다. 변수 V9및 V10는 정확히 2개의 입력 변수를 갖는 활성 개체에 배정되며, 변수 V2는 총 효과, 즉 활성 개체(7)의 출력에 영향을 미치지 못하기 때문에 어떤 활성 개체에도 배정되지 않는다.
도면부호의 목록
데이타베이스 1
데이타베이스 2
약리작용단 3
효과 개체 4
효과 개체 5
효과 개체 6
효과 개체 7
테이블 80
테이블 100

Claims (14)

  1. 각각 다수의 변수(V1, V2, ..., Vn)를 갖는 물질의 기술어를 입력하고, 이 기술어에 배정되는 효과(Rp)를 입력하는 단계;
    변수의 2-터플에 대해 이진 변동값을 결정하는 단계;
    변수 쌍(Vi,Vj)을, 이 변수 쌍의 이진 변동값이 2인 경우에 정확히 2개의 변수를 갖는 약리작용단의 활성 개체에 배정하는 단계;
    변수의 3-터플(Vi,Vj, Vk)에 대해 삼진 변동값을 결정하는 단계;
    이 삼진 변동값으로부터 둘 이상의 변수를 갖는 공통의 활성 개체에 배정되기 위한 변수 쌍 후보를 결정하고, 변수 쌍 후보가 공통의 활성 개체에 배정될 때, 공통의 활성 개체 외의 활성 개체에 배정되어야 할 변수를 함유하는, 각 변수 쌍 후보를 위한 변수 셋트를 결정하는 단계;
    공통의 활성 개체를 규명하기 위한 변수 셋트의 모순 없는 클러스터를 결정하는 단계를 갖는, 약리작용단의 규명 방법.
  2. 제 1 항에 있어서, 기술어가 물질 라이브러리의 이진 기술어인 방법.
  3. 제 1 항 또는 제 2 항에 있어서, 이진 기술어에서 데이타 압축을 수행하는 단계를 갖는 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서, 효과가, 목표 분자상에서 각각 기술어에 배정된 물질의 효과이고, 효과가 바람직하게는 이진 코드화되는 방법.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서, 이진 변동값을 결정하고, 정확히 2개의 변수를 갖는 활성 개체에 변수 쌍을 배정하기 위해서,
    변수의 2-터플(Vi,Vj)을 형성하는 단계;
    각 2-터플에 대한 효과, 잔류 변수의 순열, 및 변수의 2-터플의 가능한 할당값을 테이블 인덱스로서 사용하는 테이블을 작성하는 단계;
    2-터플에 배정되는 각 테이블의 상이한 열의 개수를 결정하는 단계;
    상응하는 테이블의 상이한 열의 개수가 2인 경우, 변수의 2-터플을 한 쌍의 변수로서, 정확히 2개의 변수를 갖는 활성 개체에 배정하는 단계를 수행하는 방법.
  6. 제 5 항에 있어서, 상응하는 테이블의 상이한 열의 개수가 1인 경우, 2-터플의 변수들을 무관하다고 간주하여 제거하는 방법.
  7. 제 5 항 또는 제 6 항에 있어서, 상이한 열의 개수가 3 이상인 테이블인 경우에만 삼진 변동값을 결정하는 방법.
  8. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서, 삼진 변동값을 결정하고, 공통의 활성 개체에 배정되기 위한 변수 쌍 후보를 결정하기 위해서,
    변수의 2-터플(Vi, Vj) 및 추가의 변수(Vk)의 제 1 효과에 대한 제 1 테이블을 작성하는 단계;
    변수의 2-터플(Vi, Vj) 및 추가의 변수(Vk)의 제 2 효과에 대한 제 2 테이블을 작성하는 단계;
    상응하는 제 1 테이블 및 제 2 테이블과 추가의 변수의 상이한 효과와의 열 관계를 결정하는 단계;
    동일한 열 관계를 갖는 상응하는 제 1 테이블과 제 2 테이블로부터 변수 쌍 후보 및 변수 셋트를 결정하는 단계를 수행하는 방법.
  9. 제 8 항에 있어서, 이러한 추가의 변수의 제 1 테이블과 제 2 테이블이 본질적으로 동일한 경우, 추가의 변수를 무관한 것으로 간주하여 제거하는 방법.
  10. 제 8 항 또는 제 9 항에 있어서, 모순 없는 변수 쌍 후보의 변수 셋트가 모순 없는 클러스터내에서 동일한 방법.
  11. 제 1 항 내지 제 10 항 중 어느 한 항에 있어서, 무관 변수를 제거하기 위해서, 허용(tolerance)을 용인하여 이진 변동값 및/또는 삼진 변동값을 형성하는 방법.
  12. 제 1 항 내지 제 11 항 중 어느 한 항에 있어서, 모순 없는 해법을 형성하는 자동 허용 한계를, 삼차원 변수 공간을 탐색함을 근거로 하여 선택하는 방법.
  13. 제 1 항 내지 제 12 항 중 어느 한 항에서 청구된 방법을 수행하기 위한 프로그래밍 수단을 갖는 컴퓨터 프로그램 제품.
  14. 제 1 항 내지 제 12 항 중 어느 한 항에서 청구된 방법을 수행하기 위한 수단을 갖는 컴퓨터 시스템.
KR10-2004-7007357A 2001-11-15 2002-11-11 약리작용단의 규명 방법 KR20040079900A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE10156245A DE10156245A1 (de) 2001-11-15 2001-11-15 Verfahren zur Identifikation von Pharmakophoren
DE10156245.4 2001-11-15
PCT/EP2002/012549 WO2003042702A2 (de) 2001-11-15 2002-11-11 Verfahren zur identifikation von pharmakophoren

Publications (1)

Publication Number Publication Date
KR20040079900A true KR20040079900A (ko) 2004-09-16

Family

ID=7705933

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2004-7007357A KR20040079900A (ko) 2001-11-15 2002-11-11 약리작용단의 규명 방법

Country Status (14)

Country Link
US (1) US20050038607A1 (ko)
EP (1) EP1451750B1 (ko)
JP (1) JP2005509937A (ko)
KR (1) KR20040079900A (ko)
CN (1) CN1585955A (ko)
AT (1) ATE345537T1 (ko)
BR (1) BR0214107A (ko)
CA (1) CA2473593A1 (ko)
DE (2) DE10156245A1 (ko)
DK (1) DK1451750T3 (ko)
ES (1) ES2274103T3 (ko)
MX (1) MXPA04004549A (ko)
RU (1) RU2004117920A (ko)
WO (1) WO2003042702A2 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8236849B2 (en) * 2008-10-15 2012-08-07 Ohio Northern University Model for glutamate racemase inhibitors and glutamate racemase antibacterial agents

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5463564A (en) * 1994-09-16 1995-10-31 3-Dimensional Pharmaceuticals, Inc. System and method of automatically generating chemical compounds with desired properties
JP2001507675A (ja) * 1996-11-04 2001-06-12 3―ディメンショナル ファーマシューティカルズ インコーポレイテッド 所望の特性を有する化合物を識別するシステム、方法、コンピュータ・プログラム製品
US6323852B1 (en) * 1999-01-04 2001-11-27 Leadscope, Inc. Method of analyzing organizing and visualizing chemical data with feature hierarchy
EP1163613A1 (en) * 1999-02-19 2001-12-19 Bioreason, Inc. Method and system for artificial intelligence directed lead discovery through multi-domain clustering

Also Published As

Publication number Publication date
WO2003042702A3 (de) 2004-05-06
US20050038607A1 (en) 2005-02-17
JP2005509937A (ja) 2005-04-14
BR0214107A (pt) 2004-12-21
WO2003042702A2 (de) 2003-05-22
ATE345537T1 (de) 2006-12-15
DE50208732D1 (de) 2006-12-28
CN1585955A (zh) 2005-02-23
EP1451750B1 (de) 2006-11-15
CA2473593A1 (en) 2003-05-22
EP1451750A2 (de) 2004-09-01
MXPA04004549A (es) 2005-03-07
DK1451750T3 (da) 2007-03-19
ES2274103T3 (es) 2007-05-16
DE10156245A1 (de) 2003-06-05
RU2004117920A (ru) 2006-01-10

Similar Documents

Publication Publication Date Title
Liang et al. Seml: A semantic LSTM model for software defect prediction
Durham et al. PREDICTD parallel epigenomics data imputation with cloud-based tensor decomposition
The et al. MaRaCluster: A fragment rarity metric for clustering fragment spectra in shotgun proteomics
US20240055071A1 (en) Artificial intelligence-based compound processing method and apparatus, device, storage medium, and computer program product
CN113903409B (zh) 一种分子数据处理方法、模型构建与预测方法及相关装置
CN114822698B (zh) 一种基于知识推理的生物学大样本数据集分析方法及系统
Shu et al. Performance assessment of kernel density clustering for gene expression profile data
Sequeira et al. ProPythia: a python automated platform for the classification of proteins using machine learning
JP2003530651A (ja) 生物学的/製薬学的スクリーニング実験においてアウトライヤーを検出する方法および装置
CN117349151A (zh) 一种基于聚类的测试用例优先级排序方法、装置及存储介质
Batsoyol et al. P-massive: a real-time search engine for a multi-terabyte mass spectrometry database
CN115147020B (zh) 装修数据处理方法、装置、设备及存储介质
Paul et al. Machine learning assisted HPC workload trace generation for leadership scale storage systems
CN115798626A (zh) 基于深度学习的Vocs组分分子质谱图预测方法、装置和存储介质
KR20040079900A (ko) 약리작용단의 규명 방법
CN116525019A (zh) 一种Vocs挥发性有机物组分分析方法、装置和存储介质
Stockfisch Partially unified multiple property recursive partitioning (PUMP-RP): a new method for predicting and understanding drug selectivity
Papetti et al. Barcode demultiplexing of nanopore sequencing raw signals by unsupervised machine learning
Hassan et al. Dimensionality reduction methods for extracting functional networks from large‐scale CRISPR screens
Abouabdallah et al. Does clustering of DNA barcodes agree with botanical classification directly at high taxonomic levels? Trees in French Guiana as a case study
Park et al. Transfer learning compensates limited data, batch-effects, and technical heterogeneity in single-cell sequencing
Pei et al. Feature vector clustering molecular pairs in computer simulations
Maji et al. Neural network tree for identification of splice junction and protein coding region in DNA
Bonetta Valentino et al. Machine learning using neural networks for metabolomic pathway analyses
Chin et al. Optimized local protein structure with support vector machine to predict protein secondary structure

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid