KR20090019019A - 분류화의 발견적 방법 - Google Patents

분류화의 발견적 방법 Download PDF

Info

Publication number
KR20090019019A
KR20090019019A KR1020097002829A KR20097002829A KR20090019019A KR 20090019019 A KR20090019019 A KR 20090019019A KR 1020097002829 A KR1020097002829 A KR 1020097002829A KR 20097002829 A KR20097002829 A KR 20097002829A KR 20090019019 A KR20090019019 A KR 20090019019A
Authority
KR
South Korea
Prior art keywords
data
state
vector
vectors
algorithm
Prior art date
Application number
KR1020097002829A
Other languages
English (en)
Other versions
KR101047575B1 (ko
Inventor
벤 히트
Original Assignee
코렐로직 시스템즈, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코렐로직 시스템즈, 인크. filed Critical 코렐로직 시스템즈, 인크.
Publication of KR20090019019A publication Critical patent/KR20090019019A/ko
Application granted granted Critical
Publication of KR101047575B1 publication Critical patent/KR101047575B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S706/00Data processing: artificial intelligence
    • Y10S706/90Fuzzy logic
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S706/00Data processing: artificial intelligence
    • Y10S706/902Application using ai with detail of the ai system
    • Y10S706/932Mathematics, science, or engineering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Threshing Machine Elements (AREA)
  • Image Analysis (AREA)
  • Electrotherapy Devices (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)
  • Separation By Low-Temperature Treatments (AREA)
  • Investigating Or Analyzing Materials By The Use Of Ultrasonic Waves (AREA)

Abstract

본 발명은 객체들을 분류하기 위한 발견적인 알고리즘에 관한 것이다. 제1 습득 알고리즘은 각 객체와 관련된 데이터 스트림을 추상화하는데 사용되는 유전자 알고리즘과 상기 객체를 분류하고 유전자 알고리즘의 염색체 적합성을 측정하는데 사용되는 패턴 인식 알고리즘으로 구성되어 있다. 상기 습득 알고리즘은 트레이닝 데이터 세트에 적용된다. 상기 습득 알고리즘은 분류 알고리즘을 발생하며, 상기 분류 알고리즘은 알려지지 않은 객체들을 분류하고 카테고리화하는데 사용된다. 본 발명은 텍스트나 의료 샘플을 분류하거나 다른 금융 시장의 가격 변동에 근거하여 금융 시장의 움직임을 예상하거나 현재 일어나는 실패를 탐지하기 위해 복잡한 프로세스 처리 상태를 감시하는 영역에서 유용하게 사용된다.

Description

분류화의 발견적 방법{HEURISTIC METHOD OF CLASSIFICATION}
본 발명은 문서와 같은 문자열, 주식 시장의 가격 변동, 유전자 칩에서 mRNA의 교배(hybridzation)에 의해 탐지되는 조직의 셀들에 있는 서로 다른 유전자들의 표현 레벨 또는 질량 분석기(mass spectroscopy)에 의해 탐지되는 샘플에 있는 서로 다른 단백질들의 양과 같은 수 데이터의 열들이나 테이블들로 표현될 수 있는 객체(object)들을 분석하고 분류하는 방법에 관한 것이다. 보다 구체적으로, 본 발명은 분류되어야 하는 객체들의 클래스의 사전-분류된 예들로 구성되는 습득 데이터 세트로부터 분류 알고리즘이 생성되고 확인되는 일반적인 방법에 관한 것이다. 상기 사전-분류된 예들은 문서의 경우에는 읽음으로써, 주식 시장의 경우에는 이전의 경험에 의해 또는 생물학적 데이터의 경우에는 병리학적인(pathological) 검사에 의해 분류될 수 있다. 그 다음에 상기 분류 알고리즘은 이전에 분류되지 않은 예들을 분류하는데 사용될 수 있다. 그러한 알고리즘들은 일반적으로 데이터 마이닝 기법들(data mining techniques)로 호칭된다. 다변량 선형 회귀(multivariate linear regression)와 비선형 피드-포워드 신경망(non linear feed-forward neural network)과 같이 보다 일반적으로 적용되는 데이터 마이닝 기법들은 본질적인 단점을 가지며, 즉 그들은 정적이고 데이터 스트림에서의 새로운 이벤트를 인식할 수 없다. 따라서, 새로운 이벤트들이 종종 잘못 분류되기도 한다. 본 발명은 데이터 스트림에서 새로운 이벤트들을 인식할 수 있는 적응형 메커니즘을 통한 상기와 같은 단점에 대한 해결책에 관한 것이다.
본 출원은 이하 참고로 통합되어 있는, 2000년 6월 19일에 출원된 출원번호 60/212,404를 35 U.S.C. sec 119(e)(1)하에서 우선권을 주장한다.
본 발명은 유전적 알고리즘(genetic algorithm)들과 자기 조직 적응형 패턴 인식 알고리즘(self organing adaptive pattern recognition algorithm)들을 사용한다. 유전적 알고리즘은 존.에이치.홀랜드 교수가 처음으로 설명하였다(J.H.Holland, Adaptation in Natural and Artificial Systems, MIT Press 1992 또한 미국 특허 제 4,697,242 및 4,881,178 참조). 패턴 인식을 위한 유전적 알고리즘의 사용은 미국 특허 제5,136,686호(칼럼87)에 설명되어 있다.
자기 조직 패턴 인식은 코호넨에 의해 설명되었다(T.Kohonen, SelfOrganizing and Associative Memory, 8 series in information Sciences, Springer Verlag, 1984; Kohonen,T, Self-organizing Maps, Springer Verlag, Heidelberg 1997). 적응형 패턴 인식에서의 자기 조직 맵들의 사용은 메사추세츠공과대학(MIT)의 리차드 립만 박사에 의해 설명되어 있다.
본 발명은 두 개의 관련된 발견적(heuristic) 알고리즘들, 즉 분류 알고리즘(classifying algorithm)과 습득 알고리즘(learning algorithm)으로 구성되어 있으며, 상기 알고리즘들은 분류 방법들 및 습득 방법들을 구현하기 위해 이용된다. 분류 알고리즘의 파라미터들은 습득 알고리즘을 트레이닝 또는 습득 데이터 세트에 적용함으로써 결정된다. 트레이닝 데이터 세트는 각 아이템이 이미 분류되어 있는 데이터 세트이다. 이하의 방법이 디지털 컴퓨터에 대한 참조없이 설명되어 있지만, 당업자는 본 발명이 컴퓨터 소프트웨어에 의해 실현된다는 것을 이해할 것이다. 임의의 범용 컴퓨터가 사용될 수 있으며; 상기 방법에 따른 계산들은 과도하게 광범위한 것은 아니다. 병렬 프로세싱 능력을 가지고 있는 컴퓨터들이 본 발명을 위해 사용될 수 있지만, 그러한 프로세싱 능력들이 본 발명의 습득 알고리즘의 실제적인 사용에 있어서 필수적인 것은 아니다. 상기 분류 알고리즘은 단지 최소한의 계산만을 요구한다.
본 발명의 분류 방법은 객체와 관련된 데이터 스트림에 따라 객체들을 분류한다. 본 발명의 각 객체는 데이터 스트림에 의해 특성화되며, 상기 데이터 스트림은 적어도 약 100개의 데이터 포인트들인 큰 수이며, 10000개 이상의 데이터 포인트들일 수 있다. 데이터 스트림은 동일한 타입의 객체의 상이한 샘플들의 데이터 스트림들에 있는 각 데이텀(datum)이 서로에 대하여 상관되도록 허용하는 방식으로 생성된다.
객체들의 예들은 텍스트들, 금융 시장의 흐름 또는 복잡한 프로세싱 설비의 동작의 예측과 관련된 시간상의 포인트들, 및 의료 진단을 위한 생물학적 샘플들을 포함한다. 이러한 객체들의 상기 관련된 데이터 스트림들은 텍스트에서 트라이그램(trigram)의 분배, 거래되는 주식이나 상품들의 당일 변화들, 정재소(oil refinery)와 같은 프로세싱 설비에서의 다수의 압력, 온도 및 플로우 판독(flow reading)들에 대한 순간적인 기록들, 및 샘플에서 발견된 단백질들의 일정한 서브세트에 대한 질량 스펙트럼 또는 서로 다른 테스트 폴리뉴클레오티드(polynucleotides)의 어레이에 대한 mRNA 교배(hybridization)의 강도이다.
따라서, 일반적으로 본 발명은 객체들을 수 개의 카테고리 중에서 하나로 분류하고자 할 때마다 사용될 수 있으며(상기 카테고리는 전형적으로 2개 또는 3개의 카테고리이다), 상기 객체들은 예컨대 수천개의 데이터 포인트들인 대량의 데이터와 관련된다. 용어 "객체(Object)"는 객체가 특정한 샘플들과 같은 유형의 객체들, 기록들이나 텍스트들과 같은 무형의 객체, 및 복잡한 프로세싱 설비에서의 적절하지 않은 이벤트보다 시간상으로 이전의 순간 또는 외국 통화 가격의 변동과 같은 완전히 추상적인 객체를 집합적으로 지칭하기 때문에 이하에서 객체들이 특별한 의미를 가진다는 것을 나타내기 위해 대문자로 표시된다.
상기 분류 방법의 제 1 단계는 객체 벡터(즉, 분류될 객체와 관련된 데이터 스트림들로부터 획득되는 (4에서 100사이, 보다 일반적으로는 5에서 30사이에 있는) 적은 개수의 데이터 포인트들 또는 스케일러(scaler)들의 정렬된 세트)의 계산이다. 데이터 스트림을 객체 벡터로 변환하는 것은 "추상화(abstraction)"라고 정의된다. 가장 간단한 추상화 프로세스는 데이터 스트림의 다수의 포인트들을 선택 하는 것이다. 그러나, 원칙적으로 추상화 프로세스는 데이터 스트림의 임의의 기능을 통해 수행될 수 있다. 이하의 실시예들에서, 추상화는 데이터 스트림으로부터의 적은 개수의 특정한 강도들의 선택에 의해 수행된다.
일 실시예에서, 상기 분류화 방법의 제 2 단계는 상기 벡터들이 존재하는 데이터 클러스터(data cluster)를 결정하는 것이다. 데이터 클러스터들은 벡터 공간에서 고정된 사이즈의 논-오버래핑 "초구체(hyperspheres)"의 고차원 동급(multidimensional equivalents)인 수학적인 구조이다. 각각의 데이터 클러스터의 위치 및 관련된 분류 또는 "상태(status)"는 트레이닝 데이터 세트로부터 습득 알고리즘에 의해 결정된다. 각각의 데이터 클러스터의 범위(extent) 및 사이즈와 벡터 공간(vector space)의 차원(dimention) 수는 상기 습득 알고리즘을 운영하기 전에 운영자에 의한 루틴 실험에 대하여 설정된다. 만약 상기 벡터가 알려진 데이터 클러스터 내에 있으면, 상기 객체는 상기 클러스터와 관련된 상기 분류로부터 주어진다. 가장 간단한 실시예들에서, 벡터 공간의 차원 수는 추상화 프로세스에서 선택된 데이터 포인트들의 수와 동일하다. 그러나, 대안적으로 객체 벡터의 각각의 스케일러는 상기 데이터 스트림의 다수의 데이터 포인트들을 사용하여 계산될 수 있다. 만약 객체 벡터가 임의의 알려진 클러스터 외부에 존재하면, 분류화는 이형성(atypia) 또는 이형적인(atypical) 샘플로부터 만들어질 수 있다.
선택적인 실시예에서, 초구체로서의 각각의 데이터 클러스터의 정의는 삭제되고 상기 제2 단계는 매칭(match) 파라미터 ρ=∑(min(|Ii|,|Wi|)/∑|Wi|)를 계산함으로써 수행되는데, 여기서 Ii는 객체 벡터의 스케일러들이며, Wi은 미리 형성된 분류화 벡터의 중심(centroid)의 스케일러들이다. 매칭 파라미터 ρ는 또한 정규화된 "퍼지(fuzzy)" AND로 호칭된다. 그 다음에 객체는 이러한 메트릭에 의해 가장 유사한 미리 형성된 벡터의 분류에 따라서 분류화된다. 매칭 파라미터는 상기 객체 벡터와 상기 미리 형성된 벡터가 동일하며 다른 모든 경우들에서 1보다 작은 경우에 매칭 파라미터는 1이다.
습득 알고리즘은 알려진 수학적 기법들의 조합 및 두 개의 미리-설정된 파라미터들을 이용함으로써 추상화 프로세스의 세부사항들 및 데이터 클러스터들의 식별을 결정한다. 사용자는 벡터 공간의 차원 수와 상기 데이터 클러스터의 사이즈 또는 대안적으로 "퍼지 AND" 매칭 파라미터 ρ의 최소 수용가능한 레벨을 미리 설정한다. 이하 사용되는 "데이터 클러스터(data cluster)"라는 용어는 유클리드 메트릭(Eulidean metric)을 사용하는 초구체와 "퍼지 AND" 메트릭을 사용하는 미리 형성된 분류화 벡터들 모두를 지칭한다.
전형적으로, 데이터 클러스터들이 존재하는 벡터 공간은 정규화된 벡터 공간이며, 따라서 각 차원의 강도의 변화는 일정하다. 따라서, 유클리드 메트릭을 사용하는 상기 데이터 클러스터의 표현된 사이즈는 상기 클러스터 내에 있는 벡터들 간의 최소 퍼센트의 유사성으로 표현될 수 있다.
일 실시예에서, 습득 알고리즘은 대중적인 유전적 소프트웨어의 서로 다른 두 개의 타입을 결합함으로써 실현될 수 있는데, 상기 소프트웨어는 서로 다른 사 람에 의해 개발되었으며, 해당 분야에서 잘 알려져 있다: (1) 데이터 스트림의 추상화를 제어하는 최적의 논리적 염색체(logical chromosome)를 식별하기 위해 논리적인 염색체들의 세트를 처리하는 유전적 알고리즘(J.H.Holland, Adaptation in Natural and Artificial Systems, MIT Press 1992)(논리적 염색체라는 용어는 유전적 습득 알고리즘의 논리적 동작들이 재생산, 선택, 재조합 및 변종(mutation)과 유사하기 때문에 유전적 습득 알고리즘들과 관련하여 사용된다. 물론, DNA 또는 다른 것에서 논리적 염색체에 대한 생물학적 실시예는 존재하지 않는다. 본 발명의 유전적 습득 알고리즘은 순수하게 계산 장치들이며, 생물학-기반 정보 처리를 위한 방식들과 혼동되어서는 안된다.) 및 (2) 그룹 1 소프트웨어, Greenbelt MD로부터 사용이 가능하고, 논리적인 염색체에 의해 발생된 벡터들의 임의의 세트에 근거하여 데이터 클러스터의 세트를 식별하는 적응형 자기-조직 패턴 인식 시스템(T.Kohonen, SelfOrganizing and Associative Memory, 8 series in information Sciences, Springer Verlag, 1984; Kohonen,T, Self-organizing Maps, Springer Verlag, Heidelberg 1997). 구체적으로, 적응형 패턴 인식 소프트웨어는 동종 데이터 클러스터들(즉, 단지 하나의 클러스터 타입을 가지는 습득 세트의 벡터들을 포함하는 클러스터들)에 존재하는 벡터들의 수를 최대화한다.
유전적 알고리즘을 사용하기 위해, 각 논리적 염색체에는 "적합성(fitness)"이 할당되어야한다. 각각의 논리적 염색체의 적합성은 상기 염색체에 대한 데이터 클러스터들의 최상의 세트의 동종 클러스터들에 존재하는 트레이닝 데이터 세트에 있는 벡터들의 수에 의해 결정된다. 따라서, 본 발명의 습득 알고리즘은 최상의 논리적 염색체를 식별하는 유전적 알고리즘과 동종의 클러스터들에 존재하는 샘플 벡터들의 수에 근거하여 적합성 계산 및 데이터 클러스터들의 최상의 세트를 발생시키는 적응형 패턴 인식 알고리즘을 결합한다. 본 발명의 광범위한 실시예에서, 본 발명의 습득 알고리즘은 유전적 알고리즘, 패턴 인식 알고리즘 및 상기 유전적 알고리즘을 제어하기 위해 상기 패턴 인식 알고리즘의 출력의 동종성(homogeneity)을 측정하는 적합성 함수 사용의 조합으로 구성된다.
혼란을 피하기 위해, 데이터 클러스터들의 수는 카테고리들의 수보다 더 클 수 있다는 것을 유의하도록 한다. 이하 예들의 분류 알고리즘들은 객체들을 두 개의 카테고리들(예를 들어, 문서들을 관심있는 문서와 관심없는 문서들로 분류하거나, 임상 샘플들을 양성과 음성으로 분류한다)로 분류한다. 그러나, 이러한 분류화 알고리즘들은 분류화를 수행하기 위해 복수의 데이터 클러스터들을 사용한다. 객체가 시간상의 포인트일 때, 분류화 알고리즘은 두 개보다 많은 카테고리들을 사용할 수 있다. 예를 들어, 본 발명이 외국 환율의 예측자로서 이용된다면, 상승, 하락 및 이들의 혼합된 전망에 상응하는 3자 구성 방식이 적절할 것이다. 다시, 그러한 3자 구성 분류 알고리즘은 3개보다 많은 데이터 클러스터들을 가지도록 예상될 것이다.
본 발명을 실시하기 위해, 통상의 당업자는 습득 알고리즘을 사용함으로써 분류 알고리즘을 개발하여야 한다. 임의의 발견적 방법으로, 임의의 통상의 실험이 요구된다. 습득 알고리즘을 사용하기 위해, 통상의 당업자는 트레이닝 데이터 세트와 두 개의 파라미터들, 즉 차원의 수와 데이터 클러스터 사이즈를 실험적으로 최상이 되도록 하여야 한다.
비록 상기 벡터에서의 차원들의 수에 대한 절대적이거나 또는 고유한 상한선이 존재하지 않더라도, 상기 습득 알고리즘 자체는 각각의 구현에서 차원들의 수를 고유하게 제한한다. 만약 상기 차원들의 수가 너무 적거나 또는 상기 클러스터의 사이즈가 너무 크면, 상기 습득 알고리즘은 수용할 수 있는 정도의 동종성(homogeneity)을 가지는 모든 샘플들을 정확히 분류하는 임의의 논리적 염색체를 발생하지 못한다. 반대로, 차원들의 수가 너무 클 수 있다. 그러한 상황에서, 상기 습득 알고리즘은 초기 상기 습득 처리에서 최대 가능 적합성을 가지고 있는 많은 논리적인 염색체를 발생하며, 따라서 단지 실패된 선택들만이 존재한다. 유사하게, 상기 데이터 클러스터의 사이즈가 너무 작으면, 상기 클러스터들의 수는 상기 트레이닝 데이터 세트의 샘플들의 수에 접근한다는 것이 발견되며, 당업자는 많은 수의 논리적 염색체들이 완벽한 동종 데이터 클러스터의 세트를 산출한다는 것을 알 수 있을 것이다.
비록 상기 전술한 것은 차원의 수와 알고리즘을 분류하는 데이터 클러스터의 사이즈를 선택하기 위한 가이드를 제공하지만, 분류 알고리즘의 성능의 진정한 테스트는 트레이닝 데이터 세트의 상기 데이터 스트림과 독립적인 데이터 스트림을 정확히 분류하는 능력이라는 것을 이해할 수 있을 것이다. 따라서, 당업자는 습득 데이터 세트의 일부분은 상기 목적상 수용할 수 있는 에러율을 가지고 작동하는 상기 분류화 알고리즘을 증명하는데 할당되어야 한다는 것을 이해할 수 있다. 본 발 명의 상기 특정 구성요소들은 아래에서 보다 자세히 설명되어 있다.
A. 데이터 스트림과 객체 타입들(The Data Stream and Types of Object)
객체들의 분류와 관련된 데이터 스트림 발생은 이하 설명되는 문제의 본질에 의존하고 있다. 상기 일반적인 원칙들은 이하의 예에서 설명되어 있다.
문서(document): 일실시예에서, 본 발명은 컴퓨터에 의한 문서 분류에 대한 방법을 제공한다. 예를 들어, 각각의 문서를 모두 검토하기에 너무 많은 수의 문서들로 구성된 데이터베이스로부터 관심있는 문서들을 수집하기를 원할 수 있다. 이러한 환경에서, 본 발명은 관심있는 문서들을 포함하고 있을 것 같은 데이터베이스의 서브세트를 식별하기 위한 컴퓨터화된 알고리즘을 제공한다. 각 문서는 객체이며, 각 문서에 대한 상기 데이터 스트림은 공간과 구두점을 제거한 후 문서에서 발견되는 17576(263) 3개의 문자 조합들(트라이그램) 각각의 주파수를 나타내는 히스토그램으로 구성되어 있다. 대안적으로, 자음의 9261개의 트라이그램들의 히스토그램은 상기 문서로부터 모음을 더 제거한 후에 준비될 수 있다. 트레이닝 데이터 세트는 사용자의 필요에 따라 "관심있는" 또는 "관심없는"으로 분류된 적절한 문서들의 샘플로 구성된다.
금융 시장(financial market): 금융시장은 외부 이벤트에 반응하며, 상응하는 경향에 서로 관련되어 있다; 예를 들어, 환율은 투자 기회에 영향을 받는다. 그러나, 각 이벤트에 대한 응답의 방향과 범위는 예상하기 곤란할 수 있다. 일 실시예에서, 본 발명은 다른 금융시장의 가격 움직임에 근거하여 금융시장의 가격에 대한 컴퓨터화된 예상 알고리즘을 제공한다. 시간의 각각의 포인트, 예를 들어 시간적인 간격들은 객체이며, 시간 동안의 데이터 스트림은 예를 들어, 달러나 파운드의 거래량이 관심의 대상인 뉴욕이나 런던 주식거래소와 같이 관련 국가의 주요 주식 시장들에서 일반적인 거래 증권의 가격 변화의 히스토그램으로 구성되어 있다. 상기 트레이닝 데이터 세트는 달러:파운드 레이트의 상승 또는 하락에 선행하는 것으로 분류된 그러한 가격의 변화에 대한 히스토리 기록으로 구성된다.
프로세싱 설비들(Processing Facilities): 정유소, 유전(oil field) 또는 석유화학 공장과 같은 복잡한 프로세싱 설비에서, 다수의 밸브들의 압력, 온도, 플로우(flow) 및 상태와 다른 제어들(집합적으로 "상태 값들")은 계속해서 모니터링되고 기록된다. 부적절한 이벤트가 결정적인 실패가 되기 전에 현재 일어나고 있는 부적절한 이벤트를 탐지할 필요가 있다. 본 발명은 시간의 각 포인트를 매우 위험한 또는 통상의 위험 시간 포인트로 분류하는 컴퓨터화된 알고리즘을 제공한다. 상기 데이터 스트림은 시간의 각 포인트에 대한 상태 값으로 구성되어 있다. 상기 트레이닝 데이터 세트는 언투어드(untoward) 이벤트에 선행하거나 또는 정규적인 동작에 선행하는 것으로 분류된 상태 값들의 히스토리 기록으로 구성된다.
의료 진단(Medical Diagnosis): 본 발명은 의료 진단, 예를 들어 혈청(serum)이나 혈장(plasma)의 분석과 같은 의료 진단을 위한 조직 샘플 분석에 사용될 수 있다. 상기 데이터 스트림은 천개 당 적어도 하나의 부분(중요한 숫자 3자리(three significant figure))으로 정량화(quantify)될 수 있는 2000개 또는 더 많은 측정들을 출력하는 조직 샘플의 임의의 재생산적인 물리적 분석일 수 있다. 단백질의 비행 시간 질량 스펙트라(time of flight mass spectra)는 본 발명의 실시를 위해 특히 적절하다. 보다 구체적으로, 매트릭스 보조 레이저 탈착(desorption) 이온화 비행시간(MALDI-TOF) 및 표면 강화 레이저 탈착 이온화 비행시간(SELDI-TOF) 분광기. 일반적으로 WO 00/49410을 참고하도록 한다.
상기 데이터 스트림은 또한 분자 무게와 같은 단일 차수의 파라미터에 의해 고유하게 구성되지 않고 임의의 차수를 가지는 측정들을 포함한다. 따라서, 2000개 이상의 유전자들의 표현 레벨들을 동시에 측정하는 DNA 마이크로어레이(microarray) 데이터는 상기 조직 샘플이 생체검사 표본(biopsy specimen)일 때, 데이터 스트림으로 사용될 수 있으며, 상기 데이터 스트림의 각 유전자들의 차수는 임의적이라는 것을 인식하게 된다.
본 발명이 특히 가치가 있는 특별한 질병들은 초기 진단이 중요하지만, 증상(symptom)의 부존재에 기인한 기술적인 어려움이 있는 경우에 발생하며, 상기 질병은 병리 조직의 생리 활동에 기인한 혈청에서 탐지할 수 있는 차이점들을 발생할 것이라 생각된다. 악성 질병들을 초기에 진단하는 것이 본 발명의 주요한 목적이다. 상기 활용 예는 난소암의 진단과 유사한 시도가 수행된 것과 같이 전립선암의 진단을 설명하고 있다.
본 발명의 방법을 사용하여 환자 샘플로부터의 단일 데이터 스트림이 다수의 진단들을 위해 분석될 수 있다는 것에 유의하도록 한다. 그러한 다수의 분석들에 대한 상기 추가적인 비용은 각 진단에 대한 상기 특정 단계들이 계산적인 단계들이기 때문에 크지 않을 것이다.
B. 추상적인 처리와 논리적인 염색체(The Abstraction Process and Logical Chromosome)
본 발명의 처리를 분류하는 제1 단계는 상기 데이터 스트림을 특성 벡터로 변환하거나 추상화하는 것이다. 상기 데이터는 전체 피크에 임의의 값 1.0을 할당하고 모든 다른 포인트들에게는 주어진 분수(fractional) 값을 할당함으로써 추상화 이전에 편하게 정규화(normalize)될 수 있다. 데이터 스트림의 가장 간단한 추상화는 작은 수의 데이터 포인트들의 선택을 포함한다. 당업자는 간격에서의 평균 또는 보다 복잡한 합 또는 선택된 원형(prototype) 데이터 포인트들로부터의 소정의 거리에 있는 데이터 포인트들 사이의 차이와 같은 복수의 포인트들에 대한 보다 복잡한 함수가 사용될 수 있다. 데이터 스트림의 강도 값에 대한 상기 함수가 또한 사용될 수 있으며, 사용 예에서 설명된 상기 간단한 추상화와 동등한 함수로 생각된다.
당업자는 임의의 포인트들에 순간적인 기울기를 취함으로써 추상화가 본 발명에서 작용하는지를 통상의 실험을 통해 결정될 수 있다는 것을 이해할 수 있을 것이다. 따라서, 상기 설명된 사용 예들의 통상적인 사용가능한 변형들은 본 발명의 범위에 속한다.
본 발명의 특징은 특성 벡터를 계산하는데 사용되는 데이터 포인트들을 결정하기 위해 유전적 알고리즘을 사용하는 것이다. 명명학(nomenclature)에서, 선택된 특정 포인트들의 리스트는 논리적인 염색체(logical chromosome)라고 명명된다. 상기 논리적인 염색체는 특성 벡터의 차원과 같은 많은 유전자를 포함하고 있다. 염색체의 유전자가 복제되지 않는다면, 적절한 수의 데이터 포인트들의 어느 일정한 세트는 논리적 염색체일 수 있다. 유전자의 차수는 본 발명에서 중요하지 않다.
당업자는 유전적 알고리즘이 2개의 조건들을 만족하는 경우에 사용될 수 있다는 것을 이해할 수 있을 것이다. 문제에 대한 특정한 해결책은 고정된 사이즈의 분리된 구성요소의 스트링 또는 세트에 의해 표현될 수 있을 것이며, 상기 구성요소는 수 또는 문자일 수 있으며, 상기 스트링은 재결합되어 또 다른 해결을 생산한다. 또한, 각 해결의 관련된 장점에 관한 숫자값, 적합함(fitness)을 계산할 수 있어야 한다. 이러한 환경에서, 유전적 알고리즘의 상세한 것은 해결된 상기 문제와 관련되지 않았다. 따라서, 본 발명에서, 통상적인 유전적 알고리즘 소프트웨어가 사용될 수 있다. 아르곤 국가 연구소(Argonne National Laboratory)로부터 이용가능한, PGAPack 라이브러리들에 있는 알고리즘들이 적절하다. 임의의 특정한 논리적인 염색체의 적합성 계산은 아래에서 설명된다.
제 1 예시적인 예는 100개의 문서들의 전체에 관한 것으로, 상기 문서들은 랜덤하게 46개 문서들의 트레이닝 세트와 54개 문서들의 테스팅 세트로 나누어진다. 상기 문서들은 전술학(The Art of War) 책과 금융 타임스의 기사들에서 선택된 문서들, 유니온 연설 문구로 구성된다. 각 문서에 대한 트라이그램의 분배가 계산된다. 25차원의 벡터 공간과 각 차원에서 0.35배의 범위 값에 있는 데이터 클러스터 사이즈가 선택된다. 상기 유전적 알고리즘은 1500개의 랜덤으로 선택된 논리적 염색체로 초기화된다. 상기 알고리즘이 발전할수록, 보다 적절한 논리적인 염색체들이 복제되고, 보다 덜 적절한 염색체들은 종료된다. 염색체와 돌연변이 사이의 재결합이 존재하며, 돌연변이는 염색체 구성요소의 랜덤한 교환으로 발생한다. 논리적 염색체의 초기 선택된 것들이 랜덤한 것은 본 발명의 본질적인 특징이 아니다. 비록, 그러한 기술들이 또한 부적절한 초기화 바이어스를 소개하더라도, 최상위 변위성을 가지고 있는 상기 데이터 포인트들을 식별하기 위해 데이터 스트림의 전체 세트에 대한 일정한 시사(prescreening)가 활용될 수 있다. 당업자는 염색체들의 초기 세트, 돌연변이 레이트 및 유전적 알고리즘에 대한 다른 경계 조건들이 이러한 기능에 결정적이지 않다는 것을 이해할 것이다.
C. 패턴 인식 처리 및 적합성 점수의 발생(The Pattern Recognition Process and Fitness Score Generation)
유전적 알고리즘에 의해 발생된 각 논리적인 알고리즘의 적합성 점수가 계산된다. 상기 적합성 점수의 계산은 테스트되는 각 논리적 염색체를 위해 발생된 데이터 클러스터들의 최적의 세트를 요구한다. 데이터 클러스터들은 간단히 트레이닝 데이터 세트의 객체 벡터들이 존재하는 벡터 공간의 부피들이다. 데이터 클러스터들의 최적의 세트를 발생하는 방법은 본 발명에 결정적이지 않으며 아래에서 고려될 것이다. 그러나, 데이터 클러스터 맵을 생성하기 위해 어떤 방법이 사용되더라도, 상기 맵은 다음의 규칙에 의해 제한을 받을 것이다: 각각의 데이터 클러스터는 상기 데이터 클러스터에 있는 데이터 포인트들의 중심에 위치해야하며, 어떤 두 개의 데이터 클러스터들도 서로 겹치지 않으며, 상기 정규화된 벡터 공간에 있는 각각의 클러스터의 차원은 상기 맵의 생성 이전에 고정될 것이다.
상기 데이터 클러스터의 사이즈는 상기 트레이닝 프로세스 동안에 사용자에 의해 설정된다. 상기 사이즈를 너무 크게 설정하는 것은 상기 전체 트레이닝 세트를 성공적으로 분류할 수 있는 어떤 염색체를 발견할 수 없도록 하며, 반대로 상기 사이즈를 너무 작게 하는 것은 상기 트레이닝 세트에서 데이터 포인트들의 수가 궁극적인 데이터 클러스터의 세트에 있는 클러스터의 수에 도달하도록 한다. 보다 중요한 것은, 데이터 클러스터의 사이즈를 너무 작게 설정하는 것은 이하 설명되는 오버피팅(overfitting)을 초래한다.
상기 데이터 클러스터의 사이즈를 정의하는데 사용되는 상기 방법은 본 발명의 일부이다. 상기 클러스터의 사이즈는 데이터 클러스터의 임의의 두 개의 구성원 사이의 유클리드 거리(Euclidean distance)(제곱들의 루트(root)의 합)의 동치(equilvalent)의 최대치에 의해 정의될 수 있다. 90%의 유사성의 요구에 상응하는 데이터 클러스터 사이즈는 상기 데이터 스트림이 SELDI-TOF 질량 분석기 데이터에 의해 발생할 때, 본 발명에 적절하다. 다소 큰 데이터 클러스터들은 텍스트들의 분류를 위해 유용한 것으로 알려져 있다. 수학적으로, 90% 유사성은 어느 일정한 클러스터의 두 구성원 사이의 거리가 정규화된 벡터 공간의 두 포인트 사이의 최대 거리의 0.1배 보다 작게 함으로써 정의된다. 이러한 계산을 위해, 상기 벡터 공간은 정규화되며, 트레이닝 데이터 세트 내에 있는 벡터들의 각각의 스케일러의 범위는 0.0과 1.0 사이이다. 따라서, 벡터 공간에서 임의의 두 개의 벡터들 사이의 정규화된 최대 가능 거리는 루트 N이며, 여기서 N은 차원의 수이다. 각 클러스터의 유클리드 지름은 0.1x 루트(N)이다.
벡터 공간의 특정한 정규화(normalization)는 상기 방법의 결정적인 특징이 아니다. 전술한 방법은 계산의 편이를 위해 선택되었다. 대안적인 정규화는 각 차원을 상기 범위로 스케일링하는 것이 아니라 각 차원이 동일한 분산(variance)을 가지도록 스케일링함으로써 달성될 수 있다. 벡터 곱 메트릭들과 같은 논-유클리드 메트릭들이 사용될 수 있다.
당업자는 데이터 스트림 내에 있는 값들의 분포가 로그정규적(log normal)이며 정규적으로 분포되지 않으면, 데이터 스트림이 로가리듬(logarithmic) 형태로 변환될 수 있다는 것을 인식할 것이다.
논리적인 염색체에 대한 데이터 클러스터의 최적의 세트가 일단 발생되면, 각 염색체에 대한 적합성 점수가 계산될 수 있다. 본 발명을 위해, 상기 염색체의 적합성 점수는 동종인 클러스터(즉, 단일 분류를 가지고 있는 샘플들로부터의 특성 벡터들을 포함하고 있는 클러스터들)들에 존재하는 트레이닝 데이터 세트의 벡터 수에 거의 상응한다. 보다 정확하게, 상기 적합성 점수는 각 클러스터에 동종 점수를 할당함으로써 계산되는데, 상기 동종 점수는 동종 클러스터에 대해서는 0.0으로 악성과 양성 샘플 벡터 수와 동일한 수를 가지고 있는 클러스터에 대해서는 0.5로 변화한다. 상기 염색체의 적합성 점수는 상기 데이터 클러스터의 평균 적합성 점수이다. 따라서, 적합성 점수가 0.0일 때 가장 적합하다. 더 많은 데이터 클러스터를 발생하는 논리적인 염색체로의 바이어스가 존재하는데, 데이터를 할당하는데 동일한 수의 에러들을 가지고 있는 두 개의 논리적인 염색체일 때, 더 많은 수의 클러스터들을 발생하는 염색체는 더 적은 평균 동종 점수를 가질 것이며, 따라 서 더 좋은 적합성 점수를 가질 것이다.
자가-조직(self-organizing) 맵을 사용하여 생성하기 위한 공용으로 사용가능한 소프트웨어는 여러 개의 명칭들이 주어져 있는데, 하나는 "리드 클러스터 맵(Lead Cluster Map)"이며 그룹 1 소프트웨어(그린벨트, MD)로부터의 모델 1로서 사용가능한 유전자 소프트웨어에 의해 구현될 수 있다.
본 발명의 대안적인 실시예는 논-유클리드 메트릭을 활용하여 상기 데이터 클러스터의 경계들을 설정한다. 메트릭은 벡터 공간에서 거리를 측정하는 방법과 관련된다. 본 발명의 대안적인 메트릭은 상기 설명한 것과 같이 정규화된 "퍼지 AND"에 근거할 수 있다. 상기 "퍼지 AND" 메트릭에 근거한 적응형 패턴 인식 알고리즘을 실현하는 소프트웨어는 퍼지 ARTMAP라는 이름으로 보스턴 대학에서 개발하였다.
D. 특정 실시예의 설명과 증명(Description and Verification of Specific Embodiments)
당업자는 전체 트레이닝 데이터 세트의 동종 데이터 클러스터들로의 할당이 분류 알고리즘이 허용가능한 정확도 레벨로 효과적으로 작동한다는 것을 그 자체적으로 증명하지 않는다는 것을 이해할 것이다. 따라서, 습득 알고리즘에 의해 발생된 상기 분류 알고리즘의 값은 상기 트레이닝 데이터 세트 이외의 데이터 세트를 정렬하는 그것의 능력에 의해 테스트되어야 한다. 습득 알고리즘이 단지 테스트 데이터 세트를 할당하는 상기 트레이닝 데이터 세트를 성공적으로 할당하는 분류 알고리즘을 발생할 때, 상기 트레이닝 데이터는 습득 알고리즘에 의해 오버피팅된 다고 말해진다. 오버피팅은 차원의 수가 너무 많을 때 및/또는 상기 데이터 클러스터의 사이즈가 너무 작을 때에 발생한다.
문서의 클러스터화 (Document Clustering): 문서(텍스트)의 클러스터화는 넓은 범위의 직업들에 있어서 관심의 대상이다. 이들은 법률, 의학 및 지적인 공동체들을 포함한다. 불린(Boolean) 기반 서치 및 검색 방법들은 현재의 텍스트 자료 제작의 엄격함(rigor)에 직면할 때 부적절하다고 증명되었다. 게다가, 불린 서치들은 관념적인 정보를 획득하지 않는다.
상기 문제에 대한 제안된 접근은 어느 정도 개념적인 정보를 수치해석에 의해 분석할 수 있는 방식으로 추출하는 것이다. 이러한 방법은 트라이그램들 및 기록된 이들의 발생 빈도의 수집으로서 문서를 코딩하는 것이다. 트라이그램은 AFV, KLF, OID 등과 같은 어느 일정한 세 개의 문자의 조합이다. 따라서, 263 개의 트라이그램이 존재한다. 공백(white space)과 구두점은 포함되지 않는다. 문서는 상기 문서로부터의 텍스트 스트리밍의 초기로부터 시작하는 트라이그램들의 특정한 세트로 분할되어 표시될 수 있다. 상기 문서로부터의 트라이그램들의 결과적인 세트와 이들의 빈도들은 특징적이다. 만약 세트에 있는 문서들이 유사한 트라이그램 세트들과 빈도들을 가지고 있으면, 이들은 동일한 주제와 관련될 가능성이 크다. 이것은 특히 트라이그램의 특정 서브세트만이 검사되고 카운트되면 더욱 그러하다. 질문은 어떤 트라이그램 세트가 어느 개념을 설명하고 있는가이다. 본 발명에 따른 습득 알고리즘은 상기 질문에 대답할 수 있다.
파이낸셜 타임즈(Financial Times), 아트 오브 워(The Art of War) 및 대통령의 연두교서(State of the Union Address) 컬렉션으로부터의 100개의 영어 문서들의 전집(corpus)이 컴파일되었다. 상기 전집은 랜덤하게 트레이닝 및 테스트 코피(corpi)로 분할된다. 모든 문서들은 0 또는 1의 값을 할당받았으며, 여기서 0은 바람직하지 않은 것을 나타내며, 1은 바람직한 것을 나타낸다. 상기 습득 알고리즘은 상기 트라이그램을 통해 서치하였고 두 개의 분류들의 문서들로 구별하는 트라이그램들의 세트를 식별하였다. 상기 결과 모델은 공간에서 허용되는 0.35 최대 거리에서 결정 경계 세트를 가지는 25개의 차원들에 있었다. 상기 분류화 알고리즘은 17,576개의 가용 트라이그램들 중 단 25개만을 활용한다. 테스트에서 테이블의 결과가 구해진다.
실제 분류 0 1 전체
할당된 분류 0 22 2 24
1 6 24 30
전체 28 26 54
테이블: 혼란(confusion) 매트릭스. 실제 값은 수직적으로 판독되며, 본 발명에 따른 알고리즘의 결과들은 수평적으로 판독된다.
상기 결과는 관심있는 26개의 문서중에서 24개의 문서들이 정확히 식별되며 관심없는 26개의 문서 중에서 22개의 문서가 가려지거나 또는 거절된다는 것을 보여주고 있다.
생물학적인 상태들의 평가(Evaluation of Biological States): 상기 설명된 습득 알고리즘은 55명의 환자 혈청 샘플들의 SELDI-TOF 질량 스펙트라(MS)를 사용 하는 전립선암에 대한 분류화를 개발하기 위해 사용되었으며, 환자 중 30명은 생체 진단 전립선암과 4.0 ng/ml 보다 큰 전립선 혈청 항체(PSA) 레벨들을 가지고 있으며, 정상인 25명의 환자는 1ng/ml 아래의 레벨들을 가지고 있었다. 상기 MS 데이터는 7개의 분자 무게값들의 선택에 의해 추상화되었다.
상기 트레이닝 데이터 세트에 있는 각 벡터를 동종 데이터 클러스터에 할당하는 클러스터 맵이 생성되었다. 상기 클러스터 맵은 34개의 클러스터를 포함하고 있는데, 17개는 양성이고, 17개는 악성이다. 테이블1은 상기 맵의 각 데이터 클러스터의 위치와 각 클러스터에 할당된 트레이닝 세트의 샘플 수를 보여주고 있다.
상기 분류화 알고리즘은 상기 트레이닝 데이터 세트로부터 제외된 231개의 샘플들을 사용하여 테스트되었다. 다양한 임상학적 그리고 병리학적 진단들을 가지고 있는 환자들로부터의 샘플들의 6개의 세트들이 사용되었다. 상기 임상학적 및 병리학적 설명과 상기 알고리즘 결과들은 다음과 같다: 1) PSA>4 ng/ml과 생체 검사로 증명된 암을 가지고 있는 24명의 환자들 - 22명은 질병(diseased) 데이터 클러스터들로 매핑되고, 2명은 어느 클러스터로도 매핑되지 않음 -; 2) 6명의 정상인들 - 전원이 건강(healthy) 클러스터들로 매핑됨 -; 3) 양성 전립선 비대증(BPH) 또는 전립선염과 PSA<4ng/ml을 가지는 39명 - 7명은 질병 데이터 클러스터들로 매핑되고, 아무도 건강 데이터 클러스터들로 매핑되지 않으며, 32명은 어느 데이터 클러스터로도 매핑되지 않음 -; 4) BPH 또는 전립선염과 PSA>4 및 PSA<10 ng/ml를 가지는 139명 - 42명은 질병 데이터 클러스터들로 매핑되고, 2명은 건강 데이터 클러스터들로 매핑되고, 95명은 어느 데이터 클러스터로도 매핑되지 않음 -; 5) BPH 또는 전립선염과 PSA>10 ng/ml을 가지는 19명 - 9명은 질병 데이터 클러스터들로 매핑되고, 아무도 건강 데이터 클러스터들로 매핑되지 않으며, 10명은 어느 데이터 클러스터로도 매핑되지 않음 -. 데이터의 6번째 세트는 생체 검사 증명된 암종과 PSA > 10 ng/ml을 가지고 있는 환자들로부터의 이전 그리고 이후 전립선 절제술 샘플들을 취하여 개발되었다. 예상되는 바과 같이 7개의 수술전 샘플들 각각은 질병 데이터 세트로 할당되었다. 그러나, PSA 레벨들이 1ng/ml 아래로 떨어졌던 시점에서, 수술 6주 후에 취해진 샘플 중 어느 것도 임의의 데이터 세트로 할당가능하지 않았다.
상기 전술한 테스트의 결과를 평가할 때, 4-10 ng/ml의 PSA와 양성 생체 검사 진단을 가지고 있는 환자들에서의 숨겨진 암종의 비율이 약 30%라는 것을 기억하여야 한다. 그리하여, 증가된 PSA를 가지나 암에 대한 조직 진단이 없었던 환자들의 18%에서 47%가 이것과 일치한다는 사실은 암종의 존재를 정확하게 예측한다.

Claims (28)

  1. 제 1 상태 또는 상기 제 1 상태와 상이한 제 2 상태로서 생물학적(biological) 샘플을 분류하기 위한 모델을 생성하기 위한 방법으로서,
    상기 제 1 상태로 알려진 세트 및 상기 제 2 상태로 알려진 세트의 각각의 생물학적 샘플로부터 얻어지는 데이터 스트링을 획득하는 단계;
    습득(learning) 알고리즘을 이용하여 각각의 데이터 스트링으로부터 데이터 엘리먼트들을 선택하는 단계;
    벡터 공간에 있는 벡터들의 제 1 세트 및 벡터들의 제 2 세트의 위치들을 결정하는 단계 - 상기 벡터들의 제 1 세트의 각각의 벡터는 상기 제 1 상태로 알려진 생물학적 샘플로부터 얻어지는 데이터 엘리먼트들에 대응하며, 상기 벡터들의 제 2 세트의 각각의 벡터는 상기 제 2 상태로 알려진 생물학적 샘플로부터 얻어지는 데이터 엘리먼트들에 대응함 -; 및
    상기 벡터 공간 내에 배치된 적어도 하나의 클러스터를 포함하는 생물학적 샘플들을 분류하기 위해 수용가능한 모델을 식별하는 단계 - 상기 클러스터는 상기 벡터들의 제 1 세트의 벡터들 중 적어도 하나를 포함하며 생물학적 샘플을 분류하기 위한 목적을 위해 상기 제 1 상태와 관련됨 - 를 포함하는 방법.
  2. 제1항에 있어서, 상기 습득 알고리즘은 유전적(genetic) 알고리즘인 것을 특징으로 하는 방법.
  3. 제1항에 있어서, 상기 생물학적 샘플은 혈청(serum), 혈장(plasma) 및 생체검사 표본(biopsy specimen)을 포함하는 생물학적 샘플들의 그룹으로부터 선택되는 것을 특징으로 하는 방법.
  4. 제1항에 있어서, 상기 모델을 식별하는 단계는 패턴 인식 알고리즘을 이용하는 것을 특징으로 하는 방법.
  5. 제1항에 있어서, 상기 데이터 스트링들은 (a) 질량 분석(mass spectrometry) 데이터, (b) 교배(hybridzation) 데이터, (c) 유전자 표현(gene expression) 데이터 및 (d) 마이크로어레이(microarray) 데이터를 포함하는 그룹으로부터 선택된 타입을 가지는 것을 특징으로 하는 방법.
  6. 제1항에 있어서, 생물학적 샘플들을 분류하기 위한 상기 모델의 수용가능성(acceptability)은 상기 클러스터의 동종성(homogeneity)에 기반하는 것을 특징으로 하는 방법.
  7. 청구항 제1항의 방법을 이용하는 모델을 구성하기 위한 명령들을 포함하는 컴퓨터-판독가능 매체.
  8. 다수의 데이터 스트링들을 사용하여 객체들에 대한 분류 패턴을 생성하는 방법으로서, 각각의 데이터 스트링은 분류될 다수의 객체들 중 하나와 관련되며, 상기 방법은,
    습득 알고리즘을 이용하여 각각의 데이터 스트링으로부터 데이터 엘리먼트들의 세트를 선택하는 단계;
    패턴 인식 알고리즘을 이용하여 상기 데이터 엘리먼트들의 세트를 분류하는 단계; 및
    상기 객체들을 분류하기 위해 수용가능한 분류 패턴이 생성될 때까지 각각의 데이터 스트링으로부터 선택된 데이터 엘리먼트들의 상이한 세트를 사용하여 상기 선택하는 단계 및 상기 분류하는 단계를 반복하는 단계를 포함하는 방법.
  9. 제8항에 있어서, 상기 습득 알고리즘은 유전적 알고리즘인 것을 특징으로 하는 방법.
  10. 제8항에 있어서, 상기 데이터 스트링들은 하이-스루풋(high-throughput) 어세이(assay)에 의해 생성되는 것을 특징으로 하는 방법.
  11. 제8항에 있어서, 상기 데이터 스트링들은 (a) 질량 분석 데이터, (b) 교배 데이터, (c) 유전자 표현 데이터 및 (d) 마이크로어레이 데이터, (e) 금융 데이터, (f) 주식 시장 데이터, (g) 텍스트, (h) 통화 환율들 및 (i) 프로세싱 공장 제어 상태 값들을 포함하는 그룹으로부터 선택된 타입을 가지는 것을 특징으로 하는 방법.
  12. 제8항에 있어서, 상기 객체들은 제 1 상태 또는 제 2 상태를 가지는 것으로 알려져 있으며 상기 모델은 상태에 의해 객체들을 분류하는 것을 특징으로 하는 방법.
  13. 제8항에 있어서, 상기 객체들은 생물학적 샘플들인 것을 특징으로 하는 방법.
  14. 제13항에 있어서, 샘플의 분류는 의료 진단 및 병리학(pathology)을 포함하는 그룹으로부터 선택된 상태에 대한 정보를 제공하는 것을 특징으로 하는 방법.
  15. 제13항에 있어서, 상기 샘플은 혈청, 혈장 및 생체검사 표본을 포함하는 생물학적 샘플들의 그룹으로부터 선택되는 것을 특징으로 하는 방법.
  16. 제8항에 있어서, 상기 패턴 인식 알고리즘은 적응형 패턴 인식 알고리즘인 것을 특징으로 하는 방법.
  17. 제16항에 있어서, 상기 패턴 인식 알고리즘은 데이터 포인트들의 세트와 관 련된 다수의 클러스터들을 가지는 클러스터 맵을 생성하는 것을 특징으로 하는 방법.
  18. 제17항에 있어서, 상기 객체들을 분류하기 위한 모델로서 그룹핑(grouping)의 수용가능성은 상기 클러스터 맵에 있는 클러스터들의 동종성에 기반하는 것을 특징으로 하는 방법.
  19. 제18항에 있어서, 상기 모델은 최상의 리드 클러스터 맵(Lead Cluster Map)인 것을 특징으로 하는 방법.
  20. 제19항에 있어서, 상기 클러스터 맵의 동종성이 미리 결정된 허용 한도 내에 있으면 상기 그룹핑은 상기 객체들을 분류하기 위한 모델로서 수용가능한 것을 특징으로 하는 방법.
  21. 제19항에 있어서, 상기 클러스터 맵은,
    데이터 포인트들의 각각의 세트에 대한 벡터를 계산하는 단계; 및
    상기 벡터들을 벡터 공간에 매핑하는 단계에 의해 생성되는 것을 특징으로 하는 방법.
  22. 제21항에 있어서, 가장 인접한 미리 존재하는 중심으로부터 상기 벡터들의 적어도 하나의 거리가 미리 결정된 임계 거리 내에 있는지 여부를 결정하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  23. 제22항에 있어서, 상기 거리가 상기 미리 결정된 임계 거리 내에 있으면 상기 벡터를 상기 미리 존재하는 중심과 관련된 클러스터로 할당하는 단계를 더 포함하며, 상기 벡터를 할당하는 단계는 상기 벡터의 위치에 보다 근접하게 상기 미리 존재하는 중심의 위치를 조절하는 단계를 포함하는 것을 특징으로 하는 방법.
  24. 제22항에 있어서, 상기 거리가 미리 결정된 임계 차이를 초과하면 상기 벡터 공간에 있는 상기 벡터의 위치에 기반하여 새로운 중심을 정의하는 단계 및 상기 거리가 상기 임계 차이보다 짧으면 상기 벡터를 상기 미리 존재하는 중심과 관련된 클러스터로 할당하는 단계를 포함하는 것을 특징으로 하는 방법.
  25. 청구항 제8항의 방법을 이용하여 모델을 구성하기 위한 명령들을 포함하는 컴퓨터-판독가능 매체.
  26. 적어도 제 1 상태 및 상기 제 1 상태와 상이한 제 2 상태 중 하나로서 객체들을 분류하도록 형성된 모델을 구성하는 방법으로서,
    다수의 데이터 스트링들을 수신하는 단계 - 각각의 데이터 스트링은 상기 제 1 상태 또는 상기 제 2 상태로 알려진 객체로부터 획득됨 -;
    상기 다수의 데이터 스트링들 각각의 데이터에 대응하는 변수들의 제 1 세트를 선택하는 단계;
    상기 변수들의 제 1 세트를 사용하여 상기 다수의 데이터 스트링들 각각에 대한 벡터를 계산하는 단계;
    상기 변수들의 제 1 세트를 사용하여 계산된 벡터들에 가장 적합한 적어도 두 개의 데이터 클러스터들 각각의 제 1 벡터 공간에 있는 위치를 찾는 단계;
    상기 적어도 두 개의 데이터 클러스터들의 상기 제 1 벡터 공간에 있는 상기 위치들을 제공하는 단계;
    상기 변수들의 제 1 세트를 사용하여 계산된 벡터들에 가장 적합한 상기 적어도 두 개의 데이터 클러스터들에 대한 가변성을 결정하는 단계;
    상기 변수들의 제 1 세트를 사용하여 계산된 벡터들에 가장 적합한 상기 적어도 두 개의 데이터 클러스터들의 상기 가변성이 수용가능한 허용 한도 내에 있는지 여부를 결정하는 단계;
    상기 변수들의 제 1 세트를 사용하여 계산된 벡터들에 가장 적합한 상기 적어도 두 개의 데이터 클러스터들의 상기 가변성이 상기 수용가능한 허용 한도 내에 있지 않다고 결정되면,
    상기 변수들의 제 1 세트와 상이한 변수들의 제 2 세트를 선택하기 위해 유전적 알고리즘을 이용하고,
    상기 변수들의 제 2 세트를 사용하여 상기 다수의 데이터 스트링들 각각에 대한 벡터를 계산하고,
    상기 변수들의 제 2 세트를 사용하여 계산된 벡터들에 가장 적합한 적어도 두 개의 데이터 클러스터들 각각의 제 2 벡터 공간에 있는 위치를 찾고,
    상기 변수들의 제 2 세트를 사용하여 계산된 벡터들에 가장 적합한 상기 적어도 두 개의 데이터 클러스터들에 대한 가변성을 결정하고,
    상기 변수들의 제 2 세트를 사용하여 계산된 벡터들에 가장 적합한 상기 적어도 두 개의 데이터 클러스터들에 대한 상기 가변성이 수용가능한 허용 한도 내에 있는지 여부를 결정하고, 그리고
    상기 변수들의 제 2 세트를 사용하여 계산된 벡터들에 가장 적합한 상기 적어도 두 개의 데이터 클러스터들의 상기 가변성이 상기 수용가능한 허용 한도 내에 있다고 결정되면, 상기 변수들의 제 2 세트를 사용하여 계산된 벡터들에 가장 적합한 상기 적어도 두 개의 데이터 클러스터들의 상기 제 2 벡터 공간에 있는 위치들을 제공하는 단계를 포함하는 방법.
  27. 청구항 제26항의 방법을 이용하여 적어도 제 1 상태 및 상기 제 1 상태와 상이한 제 2 상태 중 하나로서 객체들을 분류하도록 형성된 모델을 구성하기 위한 명령들을 포함하는 컴퓨터-판독가능 매체.
  28. 제26항에 있어서, 상기 데이터 스트링들은 (a) 질량 분석 데이터, (b) 교배 데이터, (c) 유전자 표현 데이터 및 (d) 마이크로어레이 데이터, (e) 금융 데이터, (f) 주식 시장 데이터, (g) 텍스트, (h) 통화 환율들 및 (i) 프로세싱 공장 제어 상태 값들을 포함하는 그룹으로부터 선택된 타입을 가지는 것을 특징으로 하는 방법.
KR1020097002829A 2000-06-19 2001-06-19 분류화의 발견적 방법 KR101047575B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US21240400P 2000-06-19 2000-06-19
US60/212,404 2000-06-19
PCT/US2001/019376 WO2001099043A1 (en) 2000-06-19 2001-06-19 Heuristic method of classification

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020027017015A Division KR20030051435A (ko) 2000-06-19 2001-06-19 분류화의 발견적 방법

Publications (2)

Publication Number Publication Date
KR20090019019A true KR20090019019A (ko) 2009-02-24
KR101047575B1 KR101047575B1 (ko) 2011-07-13

Family

ID=22790864

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020097002829A KR101047575B1 (ko) 2000-06-19 2001-06-19 분류화의 발견적 방법
KR1020027017015A KR20030051435A (ko) 2000-06-19 2001-06-19 분류화의 발견적 방법

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020027017015A KR20030051435A (ko) 2000-06-19 2001-06-19 분류화의 발견적 방법

Country Status (19)

Country Link
US (3) US7096206B2 (ko)
EP (1) EP1292912B1 (ko)
JP (1) JP2003536179A (ko)
KR (2) KR101047575B1 (ko)
CN (2) CN1741036A (ko)
AT (1) ATE406627T1 (ko)
AU (1) AU2001269877A1 (ko)
BR (1) BR0111742A (ko)
CA (1) CA2411906A1 (ko)
DE (1) DE60135549D1 (ko)
EA (1) EA006272B1 (ko)
HK (1) HK1059494A1 (ko)
IL (1) IL153189A0 (ko)
MX (1) MXPA02012167A (ko)
NO (1) NO20026087L (ko)
NZ (1) NZ522859A (ko)
SG (1) SG143055A1 (ko)
WO (1) WO2001099043A1 (ko)
ZA (1) ZA200209845B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101139913B1 (ko) * 2009-11-25 2012-04-30 한국 한의학 연구원 판정불능집단을 함께 분류하는 패턴 분류방법

Families Citing this family (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6993186B1 (en) * 1997-12-29 2006-01-31 Glickman Jeff B Energy minimization for classification, pattern recognition, sensor fusion, data compression, network reconstruction and signal processing
WO2001094616A1 (en) * 2000-06-02 2001-12-13 Large Scale Proteomics Corp. Protein markers for pharmaceuticals and related toxicity
CN1741036A (zh) 2000-06-19 2006-03-01 科雷洛吉克系统公司 构造分类属于不同状态的生物样本的模型的方法
US6925389B2 (en) * 2000-07-18 2005-08-02 Correlogic Systems, Inc., Process for discriminating between biological states based on hidden patterns from biological data
US6539102B1 (en) * 2000-09-01 2003-03-25 Large Scale Proteomics Reference database
US6980674B2 (en) * 2000-09-01 2005-12-27 Large Scale Proteomics Corp. Reference database
AU2002241535B2 (en) * 2000-11-16 2006-05-18 Ciphergen Biosystems, Inc. Method for analyzing mass spectra
US20030009293A1 (en) * 2001-01-09 2003-01-09 Anderson Norman G. Reference database
US7370021B2 (en) * 2002-03-15 2008-05-06 Pacific Edge Biotechnology Ltd. Medical applications of adaptive learning systems using gene expression data
US7756804B2 (en) * 2002-05-10 2010-07-13 Oracle International Corporation Automated model building and evaluation for data mining system
AU2003268031A1 (en) 2002-07-29 2004-02-16 Correlogic Systems, Inc. Quality assurance/quality control for electrospray ionization processes
US7321364B2 (en) * 2003-05-19 2008-01-22 Raytheon Company Automated translation of high order complex geometry from a CAD model into a surface based combinatorial geometry format
US7337154B2 (en) * 2003-05-19 2008-02-26 Raytheon Company Method for solving the binary minimization problem and a variant thereof
SG145705A1 (en) * 2003-08-01 2008-09-29 Correlogic Systems Inc Multiple high-resolution serum proteomic features for ovarian cancer detection
JP4774534B2 (ja) * 2003-12-11 2011-09-14 アングーク ファーマシューティカル カンパニー,リミティド 集中化適応モデル及び遠隔操作サンプルプロセッシングの使用を介した生物学的状態の診断方法
US8798937B2 (en) 2004-02-10 2014-08-05 Koninklijke Philips N.V. Methods for optimizing and using medical diagnostic classifiers based on genetic algorithms
US20050209785A1 (en) * 2004-02-27 2005-09-22 Wells Martin D Systems and methods for disease diagnosis
WO2005086068A2 (en) * 2004-02-27 2005-09-15 Aureon Laboratories, Inc. Methods and systems for predicting occurrence of an event
US20050198182A1 (en) * 2004-03-02 2005-09-08 Prakash Vipul V. Method and apparatus to use a genetic algorithm to generate an improved statistical model
US7733339B2 (en) * 2004-05-04 2010-06-08 Raytheon Company System and method for partitioning CAD models of parts into simpler sub-parts for analysis of physical characteristics of the parts
US8527442B2 (en) * 2004-05-14 2013-09-03 Lawrence Fu Method for predicting citation counts
US8275772B2 (en) * 2004-05-14 2012-09-25 Yin Aphinyanaphongs Content and quality assessment method and apparatus for quality searching
US7379939B2 (en) * 2004-06-30 2008-05-27 International Business Machines Corporation Methods for dynamic classification of data in evolving data stream
US20060036566A1 (en) * 2004-08-12 2006-02-16 Simske Steven J Index extraction from documents
US8805803B2 (en) * 2004-08-12 2014-08-12 Hewlett-Packard Development Company, L.P. Index extraction from documents
US7545986B2 (en) * 2004-09-16 2009-06-09 The United States Of America As Represented By The Secretary Of The Navy Adaptive resampling classifier method and apparatus
WO2007053170A2 (en) * 2005-02-09 2007-05-10 Correlogic Systems, Inc. Identification of bacteria and spores
US7370039B2 (en) * 2005-04-05 2008-05-06 International Business Machines Corporation Method and system for optimizing configuration classification of software
US20080312514A1 (en) * 2005-05-12 2008-12-18 Mansfield Brian C Serum Patterns Predictive of Breast Cancer
WO2007010439A1 (en) * 2005-07-21 2007-01-25 Koninklijke Philips Electronics, N.V. Method and apparatus for subset selection with preference maximization
WO2007017770A1 (en) 2005-08-05 2007-02-15 Koninklijke Philips Electronics, N.V. Search space coverage with dynamic gene distribution
AU2006279437A1 (en) * 2005-08-15 2007-02-22 University Of Southern California Method and system for integrated asset management utilizing multi-level modeling of oil field assets
GB2430772A (en) * 2005-10-01 2007-04-04 Knowledge Support Systems Ltd User interface method and apparatus
US7539653B2 (en) * 2005-10-07 2009-05-26 Xerox Corporation Document clustering
US7853869B2 (en) * 2005-12-14 2010-12-14 Microsoft Corporation Creation of semantic objects for providing logical structure to markup language representations of documents
US7736905B2 (en) * 2006-03-31 2010-06-15 Biodesix, Inc. Method and system for determining whether a drug will be effective on a patient with a disease
US7478075B2 (en) * 2006-04-11 2009-01-13 Sun Microsystems, Inc. Reducing the size of a training set for classification
US20070260568A1 (en) 2006-04-21 2007-11-08 International Business Machines Corporation System and method of mining time-changing data streams using a dynamic rule classifier having low granularity
WO2008025093A1 (en) * 2006-09-01 2008-03-06 Innovative Dairy Products Pty Ltd Whole genome based genetic evaluation and selection process
RU2473555C2 (ru) * 2006-12-19 2013-01-27 ДжинГоу, Инк. Новые способы функционального анализа большого количества экспериментальных данных и групп генов, идентифицированных из указанных данных
WO2008100941A2 (en) * 2007-02-12 2008-08-21 Correlogic Systems Inc. A method for calibrating an analytical instrument
US20080208646A1 (en) * 2007-02-28 2008-08-28 Thompson Ralph E Method for increasing productivity and safety in the mining and heavy construction industries
CA2684217C (en) * 2007-04-13 2016-12-13 Sequenom, Inc. Comparative sequence analysis processes and systems
JP2010532484A (ja) * 2007-06-29 2010-10-07 コレロジック システムズ,インコーポレイテッド 卵巣癌のための予測マーカー
US8046322B2 (en) * 2007-08-07 2011-10-25 The Boeing Company Methods and framework for constraint-based activity mining (CMAP)
US20090049856A1 (en) * 2007-08-20 2009-02-26 Honeywell International Inc. Working fluid of a blend of 1,1,1,3,3-pentafluoropane, 1,1,1,2,3,3-hexafluoropropane, and 1,1,1,2-tetrafluoroethane and method and apparatus for using
WO2009052404A1 (en) * 2007-10-17 2009-04-23 Lockheed Martin Corporation Hybrid heuristic national airspace flight path optimization
US20090112645A1 (en) * 2007-10-25 2009-04-30 Lockheed Martin Corporation Multi objective national airspace collaborative optimization
US8311960B1 (en) * 2009-03-31 2012-11-13 Emc Corporation Interactive semi-supervised machine learning for classification
US10475529B2 (en) 2011-07-19 2019-11-12 Optiscan Biomedical Corporation Method and apparatus for analyte measurements using calibration sets
US8583571B2 (en) * 2009-07-30 2013-11-12 Marchex, Inc. Facility for reconciliation of business records using genetic algorithms
US8139822B2 (en) * 2009-08-28 2012-03-20 Allen Joseph Selner Designation of a characteristic of a physical capability by motion analysis, systems and methods
US8370386B1 (en) 2009-11-03 2013-02-05 The Boeing Company Methods and systems for template driven data mining task editing
US9009156B1 (en) * 2009-11-10 2015-04-14 Hrl Laboratories, Llc System for automatic data clustering utilizing bio-inspired computing models
KR101556726B1 (ko) * 2010-02-24 2015-10-02 바이오디식스, 인크. 질량스펙트럼 분석을 이용한 치료제 투여를 위한 암 환자 선별
JP5165021B2 (ja) * 2010-05-11 2013-03-21 ヤフー株式会社 カテゴリ処理装置及び方法
CN102184193A (zh) * 2011-04-19 2011-09-14 无锡永中软件有限公司 与通用公办软件兼容的快速文档处理方法
JP5821767B2 (ja) * 2012-04-20 2015-11-24 株式会社島津製作所 クロマトグラフタンデム四重極型質量分析装置
US9798918B2 (en) * 2012-10-05 2017-10-24 Cireca Theranostics, Llc Method and system for analyzing biological specimens by spectral imaging
CN104798105B (zh) * 2012-11-20 2019-06-07 皇家飞利浦有限公司 采用图像纹理特征的集成表型
US8855968B1 (en) * 2012-12-10 2014-10-07 Timothy Lynn Gillis Analytical evaluation tool for continuous process plants
US8467988B1 (en) * 2013-01-02 2013-06-18 Biodesix, Inc. Method and system for validation of mass spectrometer machine performance
US9471662B2 (en) 2013-06-24 2016-10-18 Sap Se Homogeneity evaluation of datasets
CN103632164B (zh) * 2013-11-25 2017-03-01 西北工业大学 基于kap样本优化的knn卷钢图片数据的卷刚状态分类识别方法
CN105654100A (zh) * 2014-10-30 2016-06-08 诺基亚技术有限公司 利用计算装置识别对象的方法、装置以及电子设备
US11657447B1 (en) * 2015-02-27 2023-05-23 Intuit Inc. Transaction-based verification of income and employment
CN105373832B (zh) * 2015-10-14 2018-10-30 江苏师范大学 基于并行遗传算法的交易规则参数优化方法
US10496996B2 (en) * 2016-06-23 2019-12-03 Capital One Services, Llc Neural network systems and methods for generating distributed representations of electronic transaction information
CN106404441B (zh) * 2016-09-22 2018-11-06 宁波大学 一种基于非线性相似度指标的故障分类诊断方法
EP3575813B1 (en) * 2018-05-30 2022-06-29 Siemens Healthcare GmbH Quantitative mapping of a magnetic resonance imaging parameter by data-driven signal-model learning
CN108877947B (zh) * 2018-06-01 2021-10-15 重庆大学 基于迭代均值聚类的深度样本学习方法
EP4047519A1 (en) 2021-02-22 2022-08-24 Carl Zeiss Vision International GmbH Devices and methods for processing eyeglass prescriptions
EP4101367A1 (en) 2021-06-09 2022-12-14 Carl Zeiss Vision International GmbH Method and device for determining a visual performance
US20230282353A1 (en) * 2021-12-29 2023-09-07 AiOnco, Inc. Multitier classification scheme for comprehensive determination of cancer presence and type based on analysis of genetic information and systems for implementing the same
CN114623693B (zh) * 2022-04-13 2024-01-30 深圳市佳运通电子有限公司 用于油田上下游站加热炉智能外输温度的控制方法
CN116304114B (zh) * 2023-05-11 2023-08-04 青岛市黄岛区中心医院 基于外科护理的智能数据处理方法及系统
CN117688354B (zh) * 2024-02-01 2024-04-26 中国标准化研究院 一种基于进化算法的文本特征选择方法及系统

Family Cites Families (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3935562A (en) 1974-02-22 1976-01-27 Stephens Richard G Pattern recognition method and apparatus
US4075475A (en) * 1976-05-03 1978-02-21 Chemetron Corporation Programmed thermal degradation-mass spectrometry analysis method facilitating identification of a biological specimen
US4122518A (en) * 1976-05-17 1978-10-24 The United States Of America As Represented By The Administrator Of The National Aeronautics & Space Administration Automated clinical system for chromosome analysis
US4697242A (en) 1984-06-11 1987-09-29 Holland John H Adaptive computing system capable of learning and discovery
GB2187035A (en) 1986-01-27 1987-08-26 Eric James Sjoberg Pyrolysis mass spectrometer disease diagnosis aid
US4881178A (en) 1987-05-07 1989-11-14 The Regents Of The University Of Michigan Method of controlling a classifier system
US5697369A (en) * 1988-12-22 1997-12-16 Biofield Corp. Method and apparatus for disease, injury and bodily condition screening or sensing
WO1991014990A1 (en) 1990-03-28 1991-10-03 Koza John R Non-linear genetic algorithms for solving problems by finding a fit composition of functions
US5210412A (en) 1991-01-31 1993-05-11 Wayne State University Method for analyzing an organic sample
US5784162A (en) 1993-08-18 1998-07-21 Applied Spectral Imaging Ltd. Spectral bio-imaging methods for biological research, medical diagnostics and therapy
DE69218912T2 (de) 1991-08-28 1997-10-09 Becton Dickinson Co Schwerkraftsattraktionsmaschine zur anpassungsfähigen autoclusterbildung n-dimensionaler datenströme
US5632957A (en) 1993-11-01 1997-05-27 Nanogen Molecular biological diagnostic systems including electrodes
RU2038598C1 (ru) 1992-07-06 1995-06-27 Шапиро Светлана Борисовна Способ уринодиагностики заболеваний почек
US6114114A (en) * 1992-07-17 2000-09-05 Incyte Pharmaceuticals, Inc. Comparative gene transcript analysis
JPH08502865A (ja) 1992-09-01 1996-03-26 アプル・コンピュータ・インコーポレーテッド 改良されたベクトルの量子化
US5790761A (en) * 1992-12-11 1998-08-04 Heseltine; Gary L. Method and apparatus for the diagnosis of colorectal cancer
DE69432791T2 (de) * 1993-05-28 2004-06-03 Baylor College Of Medicine, Houston Verfahren und massenspektrometer zur desorption und ionisierung von analyten
US5995645A (en) 1993-08-18 1999-11-30 Applied Spectral Imaging Ltd. Method of cancer cell detection
US5352613A (en) 1993-10-07 1994-10-04 Tafas Triantafillos P Cytological screening method
US5553616A (en) * 1993-11-30 1996-09-10 Florida Institute Of Technology Determination of concentrations of biological substances using raman spectroscopy and artificial neural network discriminator
US6025128A (en) * 1994-09-29 2000-02-15 The University Of Tulsa Prediction of prostate cancer progression by analysis of selected predictive parameters
WO1996012187A1 (en) 1994-10-13 1996-04-25 Horus Therapeutics, Inc. Computer assisted methods for diagnosing diseases
US5848177A (en) 1994-12-29 1998-12-08 Board Of Trustees Operating Michigan State University Method and system for detection of biological materials using fractal dimensions
GB2301897B (en) * 1995-06-08 1999-05-26 Univ Wales Aberystwyth The Composition analysis
KR100197580B1 (ko) 1995-09-13 1999-06-15 이민화 무선 통신망을 이용한 실시간 생체신호모니터링시스템
US5716825A (en) * 1995-11-01 1998-02-10 Hewlett Packard Company Integrated nucleic acid analysis system for MALDI-TOF MS
US5687716A (en) * 1995-11-15 1997-11-18 Kaufmann; Peter Selective differentiating diagnostic process based on broad data bases
DE19543020A1 (de) 1995-11-18 1997-05-22 Boehringer Mannheim Gmbh Verfahren und Vorrichtung zur Bestimmung von analytischen Daten über das Innere einer streuenden Matrix
SE9602545L (sv) 1996-06-25 1997-12-26 Michael Mecklenburg Metod för att diskriminera komplexa biologiska prover
US5839438A (en) * 1996-09-10 1998-11-24 Neuralmed, Inc. Computer-based neural network system and method for medical diagnosis and interpretation
US6571227B1 (en) 1996-11-04 2003-05-27 3-Dimensional Pharmaceuticals, Inc. Method, system and computer program product for non-linear mapping of multi-dimensional data
AU732397B2 (en) 1996-11-04 2001-04-26 3-Dimensional Pharmaceuticals, Inc. System, method and computer program product for identifying chemical compounds having desired properties
CA2270132A1 (en) * 1996-11-06 1998-05-14 Sequenom, Inc. Dna diagnostics based on mass spectrometry
WO1998043182A1 (en) * 1997-03-24 1998-10-01 Queen's University At Kingston Coincidence detection method, products and apparatus
US5905258A (en) * 1997-06-02 1999-05-18 Advanced Research & Techology Institute Hybrid ion mobility and mass spectrometer
NZ516848A (en) * 1997-06-20 2004-03-26 Ciphergen Biosystems Inc Retentate chromatography apparatus with applications in biology and medicine
US6081797A (en) 1997-07-09 2000-06-27 American Heuristics Corporation Adaptive temporal correlation network
US5974412A (en) * 1997-09-24 1999-10-26 Sapient Health Network Intelligent query system for automatically indexing information in a database and automatically categorizing users
CN1295668A (zh) 1998-02-13 2001-05-16 牛津糖科学(英国)有限公司 用于肝细胞癌诊断的方法和组合物
GB9805477D0 (en) 1998-03-13 1998-05-13 Oxford Glycosciences Limited Methods and compositions for diagnosis of rheumatoid arthritis
US6128608A (en) * 1998-05-01 2000-10-03 Barnhill Technologies, Llc Enhancing knowledge discovery using multiple support vector machines
US6723564B2 (en) * 1998-05-07 2004-04-20 Sequenom, Inc. IR MALDI mass spectrometry of nucleic acids using liquid matrices
CN1702459A (zh) 1998-05-09 2005-11-30 伊康尼西斯公司 用于包括胎儿细胞的计算机所控制的稀少细胞的基于诊断的方法和装置
US6311163B1 (en) 1998-10-26 2001-10-30 David M. Sheehan Prescription-controlled data collection system and method
US5989824A (en) 1998-11-04 1999-11-23 Mesosystems Technology, Inc. Apparatus and method for lysing bacterial spores to facilitate their identification
AU772680B2 (en) 1999-02-16 2004-05-06 Government of The United States of America, as represented by The Secretary Department of Health & Human Services, The National Institutes of Health, The LCM (Laser capture microdissection) for cellular protein analysis
GB9905817D0 (en) 1999-03-12 1999-05-05 Oxford Glycosciences Uk Ltd Methods
US6631333B1 (en) * 1999-05-10 2003-10-07 California Institute Of Technology Methods for remote characterization of an odor
US6329652B1 (en) * 1999-07-28 2001-12-11 Eastman Kodak Company Method for comparison of similar samples in liquid chromatography/mass spectrometry
US6615199B1 (en) * 1999-08-31 2003-09-02 Accenture, Llp Abstraction factory in a base services pattern environment
WO2001020043A1 (en) 1999-09-17 2001-03-22 Affymetrix, Inc. Method of cluster analysis of gene expression profiles
WO2001031579A2 (en) 1999-10-27 2001-05-03 Barnhill Technologies, Llc Methods and devices for identifying patterns in biological patterns
WO2001031580A2 (en) 1999-10-27 2001-05-03 Biowulf Technologies, Llc Methods and devices for identifying patterns in biological systems
DE10021737C2 (de) 2000-05-04 2002-10-17 Hermann Haller Verfahren und Vorrichtung zur qualitativen und/oder quantitativen Bestimmung eines Protein- und/oder Peptidmusters einer Flüssigkeitsprobe, die dem menschlichen oder tierischen Körper entnommen wird
CN1741036A (zh) 2000-06-19 2006-03-01 科雷洛吉克系统公司 构造分类属于不同状态的生物样本的模型的方法
US6680203B2 (en) * 2000-07-10 2004-01-20 Esperion Therapeutics, Inc. Fourier transform mass spectrometry of complex biological samples
WO2002007064A2 (en) 2000-07-17 2002-01-24 Labnetics, Inc. Method and apparatus for the processing of remotely collected electronic information characterizing properties of biological entities
US6925389B2 (en) * 2000-07-18 2005-08-02 Correlogic Systems, Inc., Process for discriminating between biological states based on hidden patterns from biological data
AU2002241535B2 (en) 2000-11-16 2006-05-18 Ciphergen Biosystems, Inc. Method for analyzing mass spectra
ATE496343T1 (de) 2001-01-24 2011-02-15 Health Discovery Corp Verfahren zum identifizieren von mustern in biologischen systemen und deren anwendungen
KR20030074773A (ko) 2001-02-01 2003-09-19 싸이퍼젠 바이오시스템즈, 인코포레이티드 탠덤 질량 분광계에 의한 단백질 확인, 특성화 및 서열결정을 위한 개선된 방법
AU2002314715B2 (en) * 2001-02-16 2006-07-27 Ciphergen Biosystems, Inc. Method for correlating gene expression profiles with protein expression profiles
US20030077616A1 (en) * 2001-04-19 2003-04-24 Ciphergen Biosystems, Inc. Biomolecule characterization using mass spectrometry and affinity tags
US20020160420A1 (en) 2001-04-30 2002-10-31 George Jackowski Process for diagnosis of physiological conditions by characterization of proteomic materials
WO2003014735A1 (en) 2001-08-03 2003-02-20 General Hospital Corporation System, process and diagnostic arrangement establishing and monitoring medication doses for patients
IL160324A0 (en) 2001-08-13 2004-07-25 Beyond Genomics Inc Method and system for profiling biological systems
US20020193950A1 (en) * 2002-02-25 2002-12-19 Gavin Edward J. Method for analyzing mass spectra
AU2003268031A1 (en) 2002-07-29 2004-02-16 Correlogic Systems, Inc. Quality assurance/quality control for electrospray ionization processes
JP4585167B2 (ja) 2002-11-29 2010-11-24 東芝医用システムエンジニアリング株式会社 X線コンピュータ断層撮影システム
US7311665B2 (en) 2003-05-19 2007-12-25 Alcohol Monitoring Systems, Inc. Bio-information sensor monitoring system and method
SG145705A1 (en) 2003-08-01 2008-09-29 Correlogic Systems Inc Multiple high-resolution serum proteomic features for ovarian cancer detection
JP4774534B2 (ja) 2003-12-11 2011-09-14 アングーク ファーマシューティカル カンパニー,リミティド 集中化適応モデル及び遠隔操作サンプルプロセッシングの使用を介した生物学的状態の診断方法
IL163061A (en) 2004-07-15 2007-07-24 Meddynamics Ltd System and method for administration of on-line healthcare
WO2007053170A2 (en) 2005-02-09 2007-05-10 Correlogic Systems, Inc. Identification of bacteria and spores

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101139913B1 (ko) * 2009-11-25 2012-04-30 한국 한의학 연구원 판정불능집단을 함께 분류하는 패턴 분류방법

Also Published As

Publication number Publication date
HK1059494A1 (en) 2004-07-02
US20060112041A1 (en) 2006-05-25
ATE406627T1 (de) 2008-09-15
JP2003536179A (ja) 2003-12-02
BR0111742A (pt) 2004-02-03
US20020046198A1 (en) 2002-04-18
NO20026087L (no) 2003-02-13
NO20026087D0 (no) 2002-12-18
CN1741036A (zh) 2006-03-01
EP1292912A1 (en) 2003-03-19
EA200300035A1 (ru) 2003-10-30
KR101047575B1 (ko) 2011-07-13
MXPA02012167A (es) 2004-08-19
CA2411906A1 (en) 2001-12-27
US7499891B2 (en) 2009-03-03
WO2001099043A1 (en) 2001-12-27
SG143055A1 (en) 2008-06-27
US7096206B2 (en) 2006-08-22
AU2001269877A1 (en) 2002-01-02
EA006272B1 (ru) 2005-10-27
CN1249620C (zh) 2006-04-05
US20070185824A1 (en) 2007-08-09
KR20030051435A (ko) 2003-06-25
ZA200209845B (en) 2003-10-21
NZ522859A (en) 2005-08-26
EP1292912B1 (en) 2008-08-27
CN1446344A (zh) 2003-10-01
IL153189A0 (en) 2003-06-24
DE60135549D1 (de) 2008-10-09
US7240038B2 (en) 2007-07-03

Similar Documents

Publication Publication Date Title
KR101047575B1 (ko) 분류화의 발견적 방법
Tan et al. Ensemble machine learning on gene expression data for cancer classification
US20020095260A1 (en) Methods for efficiently mining broad data sets for biological markers
US20030004402A1 (en) Process for discriminating between biological states based on hidden patterns from biological data
JP4138486B2 (ja) データに含まれる複数の特徴の分類方法
US7991223B2 (en) Method for training of supervised prototype neural gas networks and their use in mass spectrometry
Qiu et al. Genomic processing for cancer classification and prediction-Abroad review of the recent advances in model-based genomoric and proteomic signal processing for cancer detection
Shen et al. A novel weighted combination method for feature selection using fuzzy sets
NZ539429A (en) Heuristic method of classification
Shadid et al. Prediction of heart disease using data mining techniques: A Case study
Leung et al. Gene selection for brain cancer classification
Huiqing Effective use of data mining technologies on biological and clinical data
Boulesteix Dimension reduction and classification with high-dimensional microarray data
Jiang et al. Generation of comprehensible hypotheses from gene expression data
Alshalalfah et al. Cancer class prediction: two stage clustering approach to identify informative genes
KR20220111847A (ko) 복합 생체 표지 네트워크 기반 질병 위험도 진단 방법
Shiang et al. PRINCOMP, CLUSTER, DISCRIM in SAS® 9.2
Saravanan et al. ARTIFICIAL INTELLIGENCE USING CANCER PREDICTION SYSTEM
GRAHAM Pattern recognition: classification of
Edyta Winciorek From Gene Expression to Expression Cartography Correspondence Analysis Application in Class Comparison Studies
Bamgbade Disease Profiling of High-Dimensional
Coşgun New approach to unsupervısed based classıfıcatıon on mıcroarray data
Liang An Introduction to Ambiguity and Instability: New Merit Criteria for Evaluating Classification Performance
Lee Discrimination and Classification

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
N231 Notification of change of applicant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140704

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee