KR20230172608A - 표면 식별을 위한 원자힘 현미경 - Google Patents

표면 식별을 위한 원자힘 현미경 Download PDF

Info

Publication number
KR20230172608A
KR20230172608A KR1020237042280A KR20237042280A KR20230172608A KR 20230172608 A KR20230172608 A KR 20230172608A KR 1020237042280 A KR1020237042280 A KR 1020237042280A KR 20237042280 A KR20237042280 A KR 20237042280A KR 20230172608 A KR20230172608 A KR 20230172608A
Authority
KR
South Korea
Prior art keywords
cells
images
database
patient
parameters
Prior art date
Application number
KR1020237042280A
Other languages
English (en)
Inventor
이고르 소코로브
미로스 밀즈코빅
Original Assignee
트러스티즈 오브 터프츠 칼리지
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 트러스티즈 오브 터프츠 칼리지 filed Critical 트러스티즈 오브 터프츠 칼리지
Publication of KR20230172608A publication Critical patent/KR20230172608A/ko

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01QSCANNING-PROBE TECHNIQUES OR APPARATUS; APPLICATIONS OF SCANNING-PROBE TECHNIQUES, e.g. SCANNING PROBE MICROSCOPY [SPM]
    • G01Q30/00Auxiliary means serving to assist or improve the scanning probe techniques or apparatus, e.g. display or data processing devices
    • G01Q30/04Display or data processing devices
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/483Physical analysis of biological material
    • G01N33/487Physical analysis of biological material of liquid biological material
    • G01N33/493Physical analysis of biological material of liquid biological material urine
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57484Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites
    • G01N33/57488Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites involving compounds identifable in body fluids
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01QSCANNING-PROBE TECHNIQUES OR APPARATUS; APPLICATIONS OF SCANNING-PROBE TECHNIQUES, e.g. SCANNING PROBE MICROSCOPY [SPM]
    • G01Q60/00Particular types of SPM [Scanning Probe Microscopy] or microscopes; Essential components thereof
    • G01Q60/24AFM [Atomic Force Microscopy] or apparatus therefor, e.g. AFM probes
    • G01Q60/32AC mode
    • G01Q60/34Tapping mode
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01QSCANNING-PROBE TECHNIQUES OR APPARATUS; APPLICATIONS OF SCANNING-PROBE TECHNIQUES, e.g. SCANNING PROBE MICROSCOPY [SPM]
    • G01Q60/00Particular types of SPM [Scanning Probe Microscopy] or microscopes; Essential components thereof
    • G01Q60/24AFM [Atomic Force Microscopy] or apparatus therefor, e.g. AFM probes
    • G01Q60/38Probes, their manufacture, or their related instrumentation, e.g. holders
    • G01Q60/42Functionalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/97Determining parameters from multiple pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Urology & Nephrology (AREA)
  • Immunology (AREA)
  • Chemical & Material Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Hematology (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Food Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Cell Biology (AREA)
  • Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Biotechnology (AREA)
  • Power Engineering (AREA)
  • Biophysics (AREA)
  • Microbiology (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)

Abstract

방법은 원자힘 현미경을 사용하여, 표면들과 연관된 이미지들의 세트를 획득하는 단계, 및 이미지들에 적용되는 기계-학습 알고리즘을 사용하여, 표면들을 분류하는 단계를 포함한다. 특정 예로서, 분류는, 이미지들을 직접 사용하는 대신 이미지들로부터 도출된 표면 파라미터들에 의존하는 방식으로, 수행될 수 있다.

Description

표면 식별을 위한 원자힘 현미경{Atomic-force microscopy for identification of surfaces}
본 출원은, 그 내용들이 참조로서 여기에 포함되는, 미국 임시 출원 제62/756, 958호의 2018년 11월 7일자 우선일 및 미국 임시 출원 제62/772,327호의 2018년 11월 28일자 우선일의 이익을 주장한다.
본 발명은 표면의 특징들을 사용하여 그 표면을 분류 또는 식별하는 것, 특히 특징들을 사용하여 생물학적 세포들(biological cells)을 식별 또는 분류하는 것과 관련하여, 원자힘 현미경(atomic force microscopy) 및 기계 학습(machine learning)의 사용에 관한 것이다.
원자힘 현미경에서, 캔틸레버(cantilever)의 팁(tip)에 부착된 프로브(probe)는 샘플의 표면을 스캔한다. 일 작동 모드에서, 프로브는 스캔할 때 표면을 두드린다. 프로브가 샘플을 스캔할 때, 프로브가 샘플에 가하는 로딩 힘(loading force)과 연관된 힘 벡터(force vector)의 크기와 방향을 제어할 수 있다.
평형 위치로부터의 캔틸레버의 편향(deflection)은, 많은 양의 정보가 추출될 수 있는 신호를 제공한다. 일 예로, 로딩 힘 또는 캔틸레버의 편향을 일정하게 유지함으로써, 샘플의 다양한 지점들에서 샘플의 토폴로지(topology)를 구할 수 있다. 그리고, 각 지점에서 수집된 값들은, 행(row)과 열(column)이 2차원 좌표계에서 지점의 위치를 식별하고, 행과 열의 값이 그 지점에서 측정된 특성(property)를 나타내는, 어레이(array)로 구조화된다(organized). 이에 따라, 결과로 초래된(resulting) 어레이의 숫자들(array)은 맵(map)으로 보여 질 수 있다. 이를 통해, 맵 상의 각 지점이 그 지점에서 샘플의 표면의 일부 특성을 나타내는 샘플의 맵을 만들 수 있다. 일부 예들에서, 특성은 일부 기준 평면(reference plane)의 위 또는 아래의 표면의 높이이다.
그러나, 표면 높이의 이미지는 스캔할 때 기록될 수 있는 유일한 이미지는 아니다. 캔틸레버의 편향은, 표면의 상이한 특성의 맵인 각 이미지로, 샘플 표면의 다수의 이미지들을 수집하는 데 사용될 수 있다. 이러한 특성들 중 몇 가지의 예들로는, 프로브와 표면 사이의 접착력(adhesion), 표면의 강성(stiffness), 및 점탄성(viscoelastic) 에너지 손실이 있다.
본 발명은, 원자힘 현미경에 의해 얻은 다차원 이미지들을 사용하여 표면을 식별하고, 표면을 여러 클래스들(classes) 중 하나로 분류하기 위해 이들 이미지들로부터의 정보를 사용하기 위한 방법을 제공한다. 본 발명에 따르면, 공간 차원(spatial dimensions)에 대응하는 차원들 중 두 개와 두 개의 공간 차원들에 의해 식별되는 좌표에 존재하는 상이한 물리적 및 공간적 특성들에 대응하는 추가 차원들을 갖는 표면의 다차원 이미지를 얻을 수 있다. 일부 실시예들에서, 차원들은 래터럴 차원들(lateral dimensions)이다.
제기되는 질문은, 이러한 상이한 물리적 및 공간적 특성들을 표면의 식별 및 분류를 위해 선택하고 사용하는 방법이다. 본 발명에 따르면, 표면의 식별 및 분류를 위해 사용될 특성들은 미리 결정되지 않는다. 이들은 이미지들의 데이터베이스와 해당하는 클래스들에 적용되는 기계 학습(machine learning) 결과에 기반하여, 계산된다. 이들은 학습된다. 특히, 이들은 기계 학습에 의해 학습된다.
본 발명의 실시예들 중에는, 표면의 상이한 특성들에 대응하는 상이한 맵들을 획득하기 위해 원자힘 현미경을 사용하고, 샘플 표면을 식별 또는 분류하기 위해, 이들 맵들의 조합들 또는 이들 맵들로부터 도출된 파라미터들을 사용하는 것을 포함하는 것들이 있다. 이러한 방법은, 잘 정의된 클래스들에 속하는 표면들의 예들에 대한 원자힘 현미경 이미지들을 기록하고, 이러한 원자힘 현미경 맵들이 이들이 속하는 클래스들과 연관되는 데이터베이스를 형성하고, 예를 들어 결정 트리(decision tree) 또는 뉴럴 네트워크(neural network) 또는 이들의 조합을 구축함으로써, 분류 방법을 학습하는 데 사용되는 훈련(training) 데이터를 가지고 데이터 베이스를 훈련 및 테스트(testing) 데이터로 분할하여, 표면들의 분류 방법을 학습하기 위해, 이렇게 얻은 원자힘 현미경 맵들과 이들의 조합들을 사용하고, 및 이렇게 학습된 분류가 주어진 효율성(effectiveness) 임계값을 통과하기에 충분히 효율적인지 확인하기 위해, 테스트 데이터를 사용하는 것을 포함한다.
다른 실시예는, 원자힘 현미경에 의해 제공되는 맵들을 표면 파라미터들의 세트(set)로 축소시키는 것을 포함하고, 그 값들은 이들의 특성들을 그에 대한 입력들로 사용하는 수학적 함수들 또는 알고리즘들에 의해 정의된다. 바람직한 실예(practice)에서, 각 맵 또는 이미지는 표면을 분류 또는 식별하기 위해 다른 표면 파라미터들과 함께 사용될 수 있는 표면 파라미터들을 생성한다. 이러한 실시예들에서, 이러한 표면 파라미터들에 기반하여, 분류하는 분류기(classifier)가 존재한다. 그러나, 분류기 자체는 미리 결정되지 않는다. 상술된 바와 같이, 기계-학습 절차를 통해 학습된다.
방법은 표면의 본질(nature)에 대해 인식 불가능하다. 예를 들어, 그림들 또는 화폐의 표면들을 분류하거나 위조품들을 찾기 위해 출생 증명서들이나 여권들과 같은 문서들을 보호하는 방법을 사용할 수 있다. 그런데, 다양한 장애들을 식별하기 위해, 세포들의 표면들 또는 생체의 다른 부분들을 분류하는 데 동일한 방법을 사용할 수도 있다. 예를 들어, 다양한 암들은 특정 표면 시그니처들(signatures)을 갖는 셀들을 갖는다. 따라서, 방법은 다양한 종류들의 암들을 검출하는 데 사용될 수 있다.
제기되는 어려움은 실제를 검사할 세포들을 얻는 것이다. 어떤 경우들에서, 침습적(invasive) 절차가 필요하다. 그러나, 신체에서 자연적으로 분리되거나 최소한의 침습만으로도 신체로부터 추출될 수 있는 특정 종류들의 세포들이 있다. 일 예는, 자궁 경부 세포 검사(Pap smear test)에서 자궁 경부의 표면을 부드럽게 긁는 것이다. 자연적으로 분리되는 세포들 중에는 방광을 포함하는 요로로부터의 세포들이 있다. 따라서, 방법은 방광경 검사와 같은 침습적이고 비싼 절차 없이, 이러한 세포들을 검사하고 방광암을 검출하는 데 사용될 수 있다.
본 발명은, 예를 들어, 서브-공진 태핑 모드(sub-resonance tapping mode)를 사용할 때, 물리적 특성들의 다차원 어레이를 생성할 수 있는 원자힘 현미경을 사용하는 것을 특징으로 한다. 일부 실예들에서, 이미지들의 세트를 획득하는 것은, 체액들에서 수집된 세포들의 표면들에 대해 나노스케일 해상도의 스캐닝을 수행하기 위해, 모드에서 원자힘 현미경을 사용하고, 원자힘 현미경 스캐닝 절차에서 얻은 데이터를 샘플이 암을 가진 환자(이하에서, “암에 걸린 환자”로 지칭됨)로부터 기인될 확률에 대한 인디케이션(indication)을 제공하는 기계 학습 시스템에 제공하는 것을 포함한다. 방법은 세포들을 그 표면 특성들에 기반하여 분류하는 데 일반적으로 적용 가능하다.
방광암과 관련하여 설명되지만, 여기에 개시된 방법들 및 시스템들은 침습적 생검(biopsy)없이도 세포들 또는 체액이 분석을 위해 이용 가능한 다른 암들의 검출에 적용 가능하다. 예로는, 상부 요로암, 요도암, 결장암 및 기타 위장암들, 자궁 경부암들, 호흡 소화암들, 및 유사한 특성들을 갖는 기타 암들이 있다.
더욱이, 여기에 설명된 방법들은 암 이외의 세포 이상들을 검출할 뿐 아니라 다양한 약물들에 대한 세포 반응을 모니터링하는데 적용 가능하다. 또한, 여기에 설명된 방법들은 모든 타입의 표면들을 생물에서 도출된 것인지 또는 무생물에서 도출된 것인지 분류 및 식별하는 데 유용하다. 필요한 것은, 원자힘 현미경에 의해 스캔되기 쉬운 표면이어야 한다는 것이다.
예를 들어, 여기에 기술된 방법은, 화폐, 주권들, 신분증들, 또는 그림들과 같은 예술 작품들의 위조품들을 포함하는 위조품들을 검출하는 데 사용될 수 있다.
일 양태에서, 본 발명은 환자로부터 얻은 복수의 세포들의 각각에 대한 이미지들의 세트를 획득하기 위해, 원자힘 현미경을 사용하고, 표면 파라미터 맵들을 구하기 위해, 이미지들을 처리하며, 세포들을 이미지들에 적용되는 기계-학습 알고리즘을 사용하여, 암에 걸린 또는 암이 없는 환자에서 기인된 것으로 분류하는 것을 특징으로 한다.
실시예들 중에는, 현미경이 서브-공진 태핑 모드에서 사용되는 것들이 있다. 다른 실시예들에서, 현미경은 링잉 모드(ringing mode)에서 사용된다.
다른 양태에서, 본 발명은 원자힘 현미경을 사용하여, 표면들과 연관된 이미지들의 세트를 획득하고, 표면 파라미터 맵들을 획득하기 위해, 이미지들을 처리하고, 이미지들에 적용되는 기계-학습 알고리즘을 사용하여, 표면들을 분류하는 것을 특징으로 한다.
이러한 실예들 중에는, 표면들을 방광 세포들의 표면들로 선택하고, 그 세포들이 암에 걸린 환자 또는 암이 없는 환자로부터 기인된 것으로 분류하는 것을 포함하는 것들이 있다.
다른 양태에서, 본 발명은, 표면들과 연관된 이미지들의 세트를 획득하기 위해, 원자힘 현미경을 사용하는 단계, 이미지들을 조합하는 단계, 및 조합된 이미지들에 적용되는 기계-학습 방법을 사용하여, 표면들을 분류하는 단계를 포함하는 방법을 특징으로 한다.
방법은, 수행될 원자힘 현미경이 필요하고, 인간의 마음은 기계가 아니므로, 인간의 마음은 기계-학습 방법을 수행할 수 없기 때문에, 연필과 종이의 유무와 관계없이 인간의 마음으로 수행될 수 없다. 또한, 방법은 기술적 효과, 즉 기술적 특성들에 기반한 표면들의 분류를 달성하기 위해, 비추상적인 방식으로 수행된다. 추상적 및/또는 비기술적 방식으로 방법을 수행하는 방법에 대한 설명은, 비추상적 및 기술적 구현이 아닌 모든 것을 커버하는 것으로 청구범위를 오해하는 것을 방지하기 위해, 의도적으로 생략하였다.
일부 실예들에서, 이미지들은 세포들의 이미지들이다. 이들 중에는, 셀들의 이미지가 아티팩트(artifact)를 가짐을 자동으로 검출하는 단계, 및 이미지가 표면들을 분류하기 위해 사용되는 것을 배제시키는 단계를 더 포함하는 실예들, 및 샘플의 이미지를 파티션들(partitions)로 분할하는 단계(portioning), 각 파티션에 대한 표면 파라미터들을 구하는 단계, 및 세포의 표면 파라미터를 각 파티션에 대한 표면 파라미터들의 중간값(median)으로 정의하는 단계를 포함하는 실예들이 있다.
또한, 일부 실예들은, 표면 파라미터들을 구하기 위해, 이미지들을 처리하는 단계, 및 표면 파라미터들에 적어도 부분적으로 기반하여, 표면들을 분류하기 위해, 기계 학습을 사용하는 단계를 포함한다. 이들 중에는, 표면 파라미터들의 서브세트(subset)를 정의하는 단계를 더 포함하는 실예들이 있다. 이러한 실예들에서, 표변 파라미터들의 서브세트를 정의하는 단계는, 표면 파라미터들 사이의 상관도(correlation)를 결정하는 단계, 상관된(correlated) 파라미터들의 세트를 식별하기 위해, 상관도를 임계값과 비교하는 단계, 및 상관된 파라미터들의 세트의 서브세트를 표면 파라미터들의 서브세트에 포함시키는 단계(including)를 포함한다. 또한, 이들 중에는, 표면 파라미터들의 서브세트를 정의하는 단계, 및 서브세트에 기반하여, 데이터베이스를 생성하는 단계를 더 포함하는 실예들이 있다. 이러한 실예들에서, 표면 파라미터들의 서브세트를 정의하는 단계는, 표면 파라미터들 사이의 상관도 매트릭스(correlation matrix)를 결정하는 단계를 포함하고, 상관도 매트릭스를 결정하는 단계는 시뮬레이션된(simulated) 표면들을 생성하는 단계를 포함한다. 또한, 이러한 실예들 중에는, 표면 파라미터들의 서브세트를 정의하는 단계, 및 서브세트에 기반하여, 데이터베이스를 생성하는 단계를 포함하는 것들이 있다. 이러한 실예들에서, 표면 파라미터들의 서브세트를 정의하는 단계는, 동일한 샘플로부터의 동일한 종류의 상이한 표면 파라미터들을 조합하는 단계를 포함한다.
또한, 실예들은, 이미지들의 세트를 획득하는 것이 링잉 모드에서 멀티-채널 원자힘 현미경을 사용하는 것을 포함하고, 원자힘 현미경의 각 채널은 표면들의 대응하는 표면 특성을 나타내는 정보를 제공하는 것들을 포함한다.
또한, 본 발명의 실예들 중에는, 표면들을 서브젝트(subject)의 소변(urine)으로부터 수집된 세포들의 표면으로 선택하는 단계, 및 세포들을 암을 나태는 것 또는 암을 나타내지 않는 것으로 분류하는 단계를 포함하는 것들이 있다.
현미경을 사용하는 다양한 방법들이 본 발명의 범위를 벗어나지 않고, 이용 가능하다. 이들은, 멀티-채널 원자힘 현미경을 사용하는 단계 - 각 채널은 표면의 표면 특성에 대응함 -, 서브-공진 태핑 모드에서 원자힘 현미경을 사용하는 단계, 및 다수의 채널들의 정보를 획득하는 것과 관련하여 원자힘 현미경을 사용하는 단계 - 채널들의 각각은 표면의 상이한 표면 특성에 대응함 -, 채널들에 의해 제공되는 정보를 압축하는 단계, 및 압축된 정보로부터, 압축된 데이터베이스를 구성하는 단계를 포함한다.
멀티-채널 원자힘 현미경에 의존하는 본 발명의 실예들 중에는, 채널들에 의해 제공되는 정보에 기반하여, 제1 데이터베이스를 형성하는 단계, 및 다양한 방법들 중 하나로 압축된 데이터베이스의 구성을 수행하는 단계를 포함하는 것들이 있다. 이들 중에는, 제1 데이터베이스를 제1 데이터베이스보다 더 낮은 차원수(dimensionality)의 부분 공간(subspace)으로 투영하는 단계를 포함하고, 투영은 압축 데이터베이스를 정의하고, 압축된 데이터베이스는 제1 데이터베이스보다 더 적은 차원수를 갖는 것들이 있다. 또한, 이들 중에는, 제1 데이터베이스로부터 압축된 데이터베이스를 도출하는 단계를 포함하고, 압축된 데이터베이스는 제1 데이터베이스보다 더 적은 인덱스들(indices)을 갖는 것들이 있다. 예를 들어, 이는, 제1 데이터베이스의 하나 이상의 인덱스들에 대응하는 하나 이상의 슬라이스들(slices)을 따라 제1 데이터베이스로부터의 정보를 조합하는 텐서 합들(tensor sums)을 생성하기 위해, 텐서 덧셈(tensor addition)을 수행하는 단계, 및 텐서 합들을 사용하여, 압축된 데이터베이스를 형성하는 단계에 의해, 수행될 수 있다.
본 발명의 일부 실예들에서, 제1 데이터베이스로부터 압축된 데이터베이스를 도출하는 단계는, 제1 데이터베이스로부터의 값들의 서브세트를 정의하는 단계 - 값들의 각각은 제1 데이터베이스의 대응하는 엘리먼트(element)를 나타냄 -, 값들의 서브세트의 값들로부터 압축된 값을 도출하는 단계, 및 제1 데이터베이스로부터의 대응하는 엘리먼트들을 압축된 값으로 나타내는 단계를 포함하고, 압축된 값을 도출하는 단계는, 값들의 서브세트의 값들을 합산하는 단계(summing)를 포함한다. 합산은, 제1 데이터베이스의 대응하는 인덱스들에 대응하는 하나 이상의 슬라이스들을 따라 제1 데이터베이스로부터의 값들을 조합하는 텐서 합들을 생성하기 위해, 텐서 덧셈을 수행하는 단계, 및 텐서 합들을 사용하여, 압축된 데이터베이스를 형성하는 단계를 포함하여, 다양한 방법들로 수행될 수 있다.
또한, 본 발명의 실예들은, 압축된 데이터베이스가 제1 데이터베이스로부터의 값들의 서브세트를 정의하는 단계 - 값들의 각각은 제1 데이터베이스의 대응하는 엘리먼트를 나타냄 -, 값들의 서브세트의 값들로부터 압축된 값을 도출하는 단계, 및 제1 데이터베이스로부터의 대응하는 엘리먼트들을 압축된 값을 나타내는 단계에 의해, 제1 데이터베이스로부터 도출되며, 압축된 값을 도출하는 단계는, 예를 들어, 산술 평균(arithmetic average) 또는 기하학적 평균(geometric average)을 구하여, 값들의 서브세트의 값들을 평균하는 단계(averaging)를 포함하는 것들을 포함한다.
또한, 본 발명의 실예들 중에는, 제1 데이터베이스로부터 압축된 데이터베이스를 도출하는 단계가 제1 데이터베이스로부터의 값들의 서브세트를 정의하는 단계 - 값들의 각각은 제1 데이터베이스의 대응하는 엘리먼트를 나타냄 -, 값들의 서브세트의 값들로부터 압축된 값을 도출하는 단계, 및 제1 데이터베이스로부터의 대응하는 엘리먼트들을 압축된 값으로 나타내는 단계를 포함하고, 압축된 값이 값들의 서브세트의 값들의 최대값 또는 최소값 중 하나인 것들이 있다.
다른 실시예들에서, 제1 데이터베이스로부터 압축된 데이터베이스를 도출하는 단계는, 제1 데이터베이스로부터의 값들의 서브세트를 정의하는 단계 - 값들의 각각은 제1 데이터베이스의 대응하는 엘리먼트를 나타냄 -, 값들의 서브세트의 값들로부터 압축된 값을 도출하는 단계, 및 제1 데이터베이스로부터의 대응하는 엘리먼트들을 압축된 값으로 나타내는 단계를 포함하고, 압축된 값을 도출하는 단계는 표면-파라미터 세트를 구하기 위해, 표면-파라미터 추출기(extractor)를 통해, 제1 데이터베이스로부터의 정보를 통과시키는 단계(passing)를 포함한다. 이들 중에는, 표면-파라미터 세트를 나타내는 표면 파라미터들을 도출된 이미지들의 표면적들(surface areas)과 무관하도록 정규화하는 단계를 포함하는 실예들, 및 표면 파라미터를 동일한 차원의 다른 파라미터로 나누는 단계(dividing)를 포함하는 실예들이 있다.
다른 실예들은, 샘플의 이미지가 아티팩트를 가짐을 자동으로 검출하는 단계, 및 이미지가 표면들을 분류하기 위해 사용되는 것을 자동으로 배제시키는 단계를 포함한다.
또 다른 실예들은, 샘플의 이미지를 파티션들로 분할하는 단계, 각 파티션에 대한 표면 파라미터들을 구하는 단계, 및 세포의 표면 파라미터를 각 파티션에 대한 표면 파라미터들의 중간값으로 정의하는 단계를 포함한다.
본 발명의 일부 실예들은, 표면 파라미터들을 구하기 위해, 이미지들을 처리하는 단계, 및 표면 파라미터들에 적어도 부분적으로 기반하여, 그리고 외부에서 도출된 파라미터들로부터, 표면들을 분류하기 위해, 기계 학습을 사용하는 단계를 포함한다. 이들 중에는, 표면들이 수집된 샘플들로부터 도출된 바디들(bodies)의 표면들이고, 샘플들 중 적어도 하나는 바디들이 없는 바디-프리(body-free) 샘플인 실예들이 있다. 이러한 실예들에서, 방법은, 바디-프리 샘플로부터 바디들의 부재(absence)를 나타내는 데이터를 포함하도록, 외부에서 도출된 파라미터들을 선택하는 단계를 더 포함한다. 바디-프리 샘플을 포함하는 실예들 중에는, 인공(artificial) 표면 파라미터를 바디-프리 샘플에 할당하는 단계를 포함하는 것들이 있다. 일부 실예들에서, 표면들은 환자로부터 구해진 샘플들로부터 도출된 세포들의 표면들이다. 이들 중에는, 환자가 특정 질환을 가질 확률(probability)을 나타내는 데이터를 포함하도록, 외부에서 도출된 파라미터들을 선택하는 단계를 포함하는 실예들이 있다. 확률을 나타내는 이러한 데이터들의 예들로는, 환자의 나이, 환자의 흡연 습관들, 및 환자의 가족력이 있다.
다양한 기계-학습 방법들이 사용될 수 있다. 이들은, 랜덤 포레스트 방법(Random Forest Method), 익스트림 랜덤 포레스트 방법(Extremely Randomized Forest Method), 그래디언트 부스팅 트리(Gradient Boosting Trees)의 방법, 뉴럴 네트워크의 사용, 결정 트리의 방법, 및 이들의 조합들을 포함한다.
일부 실시예들에서, 표면들은 환자로부터의 세포들 중 복수의 제1 세포들의 표면들이고, 세포들 중 복수의 제2 세포들은 암에 걸린 환자로부터 기인된 것으로 분류되고, 세포들 중 복수의 제3 세포들은 암이 없는 환자로부터 기인된 것으로 분류된다. 이러한 방법들은, 제1 세포들에 대한 제2 세포들의 비율이 미리 결정된 임계값을 초과하면, 환자를 암으로 진단하는 단계를 포함한다.
일부 실예들에서, 원자힘 현미경은 캔틸레버, 및 캔틸레버의 원위 단부에 배치된 프로브를 포함한다. 캔틸레버는 공진 주파수를 갖는다. 이러한 실예들에서, 원자 힘 현미경을 사용하는 단계는, 프로브와 표면 사이의 거리가 공진 주파수보다 더 작은 주파수에서 진동하도록(oscillate) 하는 단계를 포함한다.
일부 실예들에서, 원자힘 현미경을 사용하는 단계는, 샘플 표면의 상이한 물리적 특성들에 대응하는 다수의 채널들의 정보를 출력하도록 구성된 현미경을 사용하는 단계를 포함한다.
다른 실예들은, 표면 파라미터들을 획득하기 위해, 이미지들을 처리하는 단계, 및 표면 파라미터들에 적어도 부분적으로 기반하여, 그리고 외부에서 도출된 파라미터들로부터, 표면들을 분류하기 위해, 기계 학습을 사용하는 단계를 포함한다. 이러한 실시예들에서, 표면들은 환자로부터 구해진 샘플들로부터 도출된 세포들의 표면들이고, 샘플들 중 적어도 하나는 환자로부터의 세포들이 없는 세포-프리(cell-free) 샘플이다. 이러한 실예들에서, 방법은, 세포-프리 샘플로부터 세포들의 부재를 나타내는 데이터를 포함하도록, 외부에서 도출된 파라미터들을 선택하는 단계를 더 포함한다. 이러한 실예들 중에는, 인공 표면 파라미터를 세포-프리 샘플에 할당하는 단계를 더 포함하는 것들이 있다.
다른 양태에서, 본 발명은 원자힘 현미경 및 처리 시스템을 포함하는 장치를 특징으로 한다. 원자힘 현미경은 표면들과 연관된 이미지들을 획득한다. 처리 시스템은 원자힘 현미경으로부터 이미지들을 나타내는 신호를 수신하고, 이미지들을 조합한다. 처리 시스템은 기계-학습 모듈, 및 기계-학습 모듈로부터 분류를 위한 기초를 학습한 후에, 미지의(unknown) 샘플을 분류하는 분류기(classifier)를 포함한다.
일부 실시예들에서, 처리 시스템은 표면 파라미터들을 구하기 위해, 이미지들을 처리하고, 표면 파라미터들에 적어도 부분적으로 기반하여, 표면 파라미터들을 분류하기 위해, 기계-학습 모듈을 사용하도록 구성된다. 이들 중에는, 원자힘 현미경이 멀티-채널 원자힘 현미경을 포함하고, 원자힘 현미경의 각 채널은 표면들의 표면 특성에 대응하는 실시예들이 있다. 또한, 이들 중에는, 채널들에 의해 제공되는 정보를 압축하고, 압축된 정보로부터 압축된 데이터베이스를 구성하는 압축기(condenser)를 포함하는 실시예들이 있다.
또한, 압축된 데이터베이스를 포함하는 실시예들은, 분류기가 압축된 데이터베이스에 기반하여, 미지의 샘플을 분류하는 것들을 포함한다.
다양한 압축기들이 압축된 데이터베이스를 구성하기 위해 이용 가능하다. 이들 중에는, 제1 데이터베이스를 제1 데이터베이스보다 더 낮은 차원수의 부분 공간으로 투영하여, 압축된 데이터베이스를 구성하는 압축기들이 있다. 이러한 투영은 제1 데이터베이스보다 더 적은 차원수를 갖는 압축된 데이터베이스를 정의한다.
여기에 사용된 바와 같이, “원자힘 현미경”, “AFM”, “스캐닝 프로브 현미경” 및 “SPM”은 동의어로 간주되어야 한다.
본 명세서에 설명된 방법들은 비추상적 방법들이다. 따라서, 청구범위는 비추상적 구현들에만 적용될 수 있다. 여기에 사용된 바와 같이, “비추상적”은 본 출원의 제출 당시 35 USC 101의 요건들을 준수함을 의미하는 것으로 간주된다.
본 발명의 이들 및 다른 특징들은 이하의 상세한 설명 및 첨부된 도면으로부터 명백해질 것이다.
도 1은 일 예의 원자힘 현미경에 대한 개략도를 도시한다;
도 2는 도 1의 처리 시스템에 대한 추가 상세도를 도시한다;
도 3은 도 1 및 도 2에 도시된 원자힘 현미경 및 처리 시스템에 의해 수행되는 진단 방법을 도시한다;
도 4는 도 1에 도시된 원자힘 현미경에 내장된 광학 현미경을 통과하는 뷰를 도시한다;
도 5는 도 1의 원자힘 현미경에 의해 획득된 방광 세포들의 맵을 도시한다;
도 6은 도 2의 처리 시스템에서 데이터베이스와 기계-학습 모듈 사이의 상호작용들을 상세하게 도시한다;
도 7은 초기의 큰 데이터베이스를 더 작은 차원의 압축된 데이터베이스로 압축하는 것을 상세하게 도시하고, 도 2의 처리 시스템에서 압축된 데이터베이스와 기계-학습 모듈 사이의 상호작용들을 상세하게 도시한다;
도 8은 상이한 표면 파라미터들 사이의 상관도를 평가하는 것과 관련하여 사용되는 시뮬레이션된 표면들의 예들을 도시한다;
도 9는 두 개의 표면 파라미터들에 대한 중요도 계수(importance coefficient)에 대한 히스토그램 플롯(histogram plot)을 도시한다;
도 10은 이진 트리(binary tree)를 도시한다;
도 11은 분류를 위해 필요한 데이터 구조에 적응된 기계-학습 방법을 도시한다;
도 12는 세포 표면의 오염 가능성으로 인한 아티팩트들의 대표적인 예를 도시한다;
도 13은 상관된 임계값에 대한 표면 파라미터들의 수의 의존성을 도시한다;
도 14는 랜덤 포레스트 방법 내에서 계산된 높이 및 접착력 특성들에 대한 표면 파라미터들의 중요도 계층(hierarchy)을 도시한다;
도 15는 조합된 채널들의 높이와 접착력에 대해 랜덤 포레스트 방법을 사용하는 계산된 훈련 및 테스트 데이터베이스 사이의 표면 파라미터들의 상이한 수들 및 데이터의 상이한 할당들에 대한 정확도(accuracy)를 도시한다;
도 16은 조합된 채널들의 높이 및 접착력에 대해 랜덤 포레스트 방법을 사용하는 수신기 작동 특성들(receiver operating characteristics)을 도시한다;
도 17은 도 16과 유사나, 도 16에서 데이터를 생성하는 데 사용되는 절차의 신뢰성(reliability)을 확인하기 위해 인공 데이터를 사용한 플롯을 도시한다;
도 18은 도 17의 수신기 작동 특성들 아래의 영역을 도시한다;
도 19는 환자 당 다섯 개의 세포들과 암에 걸린 환자로부터 기인된 것으로 식별되어야 하는 두 개의 세포들을 사용하는 경우(N=5, M=2), 조합된 채널들의 높이 및 접착력에 대해 랜덤 포레스트 방법을 사용하는 훈련 데이터와 테스트 데이터 사이의 표면 파라미터들의 상이한 수들과 데이터를 할당하는 상이한 방법들에 대한 정확도를 도시한다;
도 20은 환자 당 다섯 개의 세포들과 암에 걸린 환자로부터 기인된 것으로 식별되어야 하는 두 개의 세포들을 사용하는 경우(N=5, M=2), 조합된 채널들의 높이와 접착력에 대해 랜덤 포레스트 방법을 사용하는 계산된 수신기 작동 특성들을 도시한다; 그리고
도 21은 두 개의 개별 채널들 - 하나는 높이에 대한 것이고, 다른 하나는 접착력에 대한 것임 -에 대한 암 진단과 관련된 오류 매트릭스(confusion matrix)의 통계를 보여주는 표이다.
도 1은, 프로브(14)가 부착된 캔틸레버(12)를 지지하는 스캐너(10)를 갖는 원자힘 현미경(8)을 도시하고 있다. 이에 따라, 프로브(14)는 스캐너(10)로부터 캔틸레버링된다(cantilevered). 스캐너(10)는 샘플의 표면(16)의 기준 평면에 평행한 스캐닝 방향을 따라, 프로브(14)를 이동시킨다. 이렇게 함으로써, 스캐너(10)가 샘플의 표면(16)의 영역을 스캔한다. 스캐너는 스캐닝 방향으로 프로브(14)를 이동시키면서, 샘플 표면(16)의 기준 평면에 수직인 수직 방향으로 이동시킨다. 이는, 프로브(14)로부터 표면(16)까지의 거리를 변화시킨다.
프로브(14)는 일반적으로 캔틸레버(12)의 반사 부분(reflective portion)에 결합된다. 이러한 반사 부분은 레이저(22)에 의해 제공된 조명 빔(illumination beam)(20)을 반사시킨다. 캔틸레버(12)의 이러한 반사 부분은 여기서, 거울(mirror)로 지칭될 것이다. 반사된 빔(24)은 거울(18)에서 광 검출기(photodetector)(26)로 이동하며, 그 출력은 프로세서(processor)(28)에 연결된다. 일부 실시예들에서, 프로세서(28)는 표면의 물리적 또는 기하학적 특성들에 기반하여 표면 파라미터들에 대한 실시간 계산을 허용하기 위해, FPGA 전자 장치들(electronics)을 포함한다.
프로브(14)의 이동은 거울(18)의 이동으로 변환되고, 그 결과, 광 검출기(26)의 상이한 부분들이 반사된 빔(24)에 의해 조명된다. 이는, 프로브 이동을 나타내는 프로브 신호(30)를 초래한다. 프로세서(28)는 후술되는 방법을 사용하여, 프로브 신호(30)에 기반하여 특정 표면 파라미터들을 계산하고, 그 결과들(33)을 저장 매체(32)로 출력한다. 이러한 결과들(33)은 여기에 설명되는 어떤 표면 파라미터들을 나타내는 데이터를 포함한다.
스캐너(10)는 프로세서(28)에 연결되고, 스캐너 위치를 나타내는 스캐너 신호(34)를 프로세서(28)에 제공한다. 이러한 스캐너 신호(34)는 표면 파라미터들을 계산하는 데 사용하기 위해 이용 가능하다.
도 2는 처리 시스템(28)을 상세하게 도시하고 있다. 처리 시스템(28)은 인버터(inverter)(62)에 연결된 AC 소스(60)를 갖는 전원(power supply)(58)를 특징으로 한다. 전원(58)은 후술되는 다양한 컴포넌트들을 작동시키기 위해 전력을 제공한다. 처리 시스템은 방열기(heat radiator)(64)를 더 포함한다.
바람직한 실시예에서, 처리 시스템(28)은 사람이 그 작동을 제어할 수 있게 하는 사용자 인터페이스(66)를 더 포함한다.
처리 시스템(28)은 프로브 신호와 스캐너 신호들을 수신하고, 이들을 버스(bus)(72)에 배치하기 위한 제1 및 제2 A/D 변환기들(converters)(68, 70)을 더 포함한다. 또한, 프로그램 저장 섹션(74), 작업 메모리(76), 및 CPU 레지스터들(78)이 버스(72)에 연결된다. 프로그램 저장 매체(74)로부터의 명령어들(instructions)(75)을 실행하기 위한 CPU(80)는 레지스터들(78)과 ALU(82) 둘 다에 연결된다. 비일시적 컴퓨터-판독 가능 매체는 이러한 명령어들(75)을 저장한다. 실행될 때, 명령어들(75)은, 처리 시스템(28)이 제1 및 제2 A/D 변환기들(68, 70)을 통해 수신된 입력들에 기반하여 상술된 파라미터들 중 어떤 것을 계산하게 한다.
도 6에 가장 잘 도시된 바와 같이, 처리 시스템(28)은 기계-학습 모듈(84), 및 훈련 데이터(87)와 테스트 데이터(89)를 포함하는 데이터베이스(86)를 더 포함한다. 기계-학습 모듈(84)은 여기에 설명되는 방법을 구현하기 위해, 훈련 데이터(87)와 테스트 데이터(89)를 사용한다.
특정 예의 처리 시스템(28)은 이미징 서비스들의 특성들 및/또는 상술된 표면 파라미터들의 값들을 결정하기 위해 구성되는 회로를 포함하는 FPGA 전자 장치들을 포함할 수 있다.
도 3은 이미지들을 획득하고, 기계-학습 모듈(84)에 제공하여, 이미지들을 사용하여 샘플을 특징짓도록 하기 위해, 원자힘 현미경(8)을 사용하는 프로세스를 도시하고 있다. 도 3에 도시된 프로세스는 환자로부터 소변(88)을 획득하는 단계, 및 소변(88)으로 분리된 세포들(90)을 준비하는 단계를 포함한다. 이들은 스캔한 후에, 원자힘 현미경(8)은 데이터베이스(86)에 저장하기 위한 방광 세포들(90)의 이미지들을 제공한다.
각 이미지는 어레이이며, 어레이의 각 엘리먼트가 표면(16)의 특성을 나타낸다. 어레이의 위치는 샘플의 표면(16)의 공간 위치에 대응한다. 따라서, 이미지는 그 특성에 대응하는 맵을 정의한다. 이러한 맵은, 토양도(soil map)가 지구 표면의 상이한 위치들에서의 상이한 토양 특성들을 보여주는 것과 거의 동일한 방식으로, 샘플의 표면(16)의 상이한 위치들에서의 그 특성의 값들을 보여준다. 이러한 특성은 “매핑된(mapped) 특성”으로 지칭될 것이다.
일부 경우들에서, 매핑된 특성들은 물리적 특성들이다. 다른 경우들에서, 특성들은 기하학적 특성들이다. 기하학적 특성의 일 예로는, 표면(16)의 높이가 있다. 물리적 특성들의 예들로는, 표면의 접착력, 강성, 및 표면(16)과의 접촉과 연관된 에너지 손실이 있다.
멀티-채널 원자힘 현미경(8)은 동시에 상이한 특성들을 매핑할 수 있는 기능을 갖는다. 각 매핑된 특성은 현미경(8)의 상이한 “채널”에 대응한다. 따라서, 이미지는 다차원 이미지 어레이 M(k)로 간주될 수 있으며, 여기서, 채널 인덱스 k는 간격 [1, K] 내 정수이고, 여기서, K는 채널들의 수이다.
서브-공진 태핑 모드에 사용될 때, 멀티-채널 원자힘 현미경(8)은 다음의 특성들: 높이, 접착력, 변형(deformation), 강성, 점탄성, 피드백 오류를 매핑할 수 있다. 이는 여섯 개의 채널들을 초래하며, 이들의 각각은 여섯 개의 매핑된 특성들에 대응한다. 링잉 모드에서 사용될 때, 원자힘 현미경(8)은, 이전의 여섯 개의 특성들에 더하여, 예를 들어, 다음의 추가 특성들: 복원된(restored) 접착력, 접착력 높이, 분리(disconnection) 높이, 풀-오프 넥(pull-off neck) 높이, 분리 거리, 분리 에너지 손실, 동적 크리프 위상 시프트(dynamic creep phase shift), 및 제로-힘(zero-force) 높이 중 하나 이상을 매핑할 수 있다. 이는, 이러한 예에서, 총 열 네 개의 채널들을 초래하며, 이들의 각각은 열 네 개의 매핑된 특성들 중 하나에 대응한다.
스캐너(10)는 기준 평면 상에 개별 픽셀들을 정의한다. 각 픽셀에서, 현미경의 프로브(14)는 측정을 한다. 편의상, 평면 상의 픽셀들은 직교 좌표들(Cartesian coordinates)(xi, yi)로 정의될 수 있다. 그 픽셀에서 측정된 k 번째 채널의 값은 zij (k)이다. 이로 인해, k 번째 채널의 맵 또는 이미지를 나타내는 이미지 어레이는 하기 수학식과 같이 나타낼 수 있다.
여기서, “i”및 “j”는 각각 간격들 [1, Ni] 및 [1, Nj] 내 정수들이고, 여기서, Ni 및 Nj는 각각 x 및 y 방향들로 이미지를 기록하는 데 이용될 수 있는 픽셀들의 수이다. Ni 및 Nj의 값들은 상이할 수 있다. 그러나, 여기에 설명된 방법들은 그러한 차이에 크게 의존하지 않는다. 따라서, 설명을 위해, Ni=Nj=N이다.
샘플의 이미지 어레이의 엘리먼트들의 수는 채널들의 수와 픽셀들의 수의 곱(product)일 수 있다. 비교적 균일한(homogeneous) 표면(16)의 경우, 표면(16)의 한 영역만 스캔하면 된다. 그러나, 더 이질적인(heterogenous) 표면(16)의 경우, 표면(16)의 하나 이상의 영역을 스캔하는 것이 바람직하다. 비유하자면, 항구의 수면을 조사하고 싶다면, 다른 영역들은 어쨌든 비슷할 가능성이 높기 때문에, 한 영역만 스캔하면 된다. 이에 반해, 항구가 있는 도시의 표면을 조사하고 싶다면, 다수의 영역들을 스캔하는 것이 현명할 것이다.
이로 인해, 어레이는 스캔되는 특정 영역을 식별하기 위해, 다른 인덱스를 획득한다. 이는, 어레이의 차원수(dimensionality)를 증가시킨다. 따라서, 이미지 어레이는 하기 수학식과 같이 표현된다.
여기서, 스캔-영역(scanned-region) 인덱스 s는 샘플 내에서 특정 스캔 영역을 식별하는 간격 [1, S] 내 정수이다. 이로 인해, 특정 샘플에 대한 이미지 어레이의 엘리먼트의 수가 스캔 영역들의 수와 동일한 비율(factor)로 증가한다.
바람직하게는, 이러한 스캔 영역들의 수는 샘플 전체를 나타낼 만큼 충분히 크다. 적절한 수의 스캔 영역들에 수렴하는 한 가지 방법은, 두 개의 스캔 영역들 사이의 편차 분포를 비교하는 것이다. 스캔 영역들의 수를 늘려도 통계적으로 유의미한 방법으로 변경되지 않는 경우, 스캔 영역들의 수는 표면 전체를 나타내는 데 적합할 수 있다. 다른 방법은, 합리적인 테스트 시간으로 간주되는 시간을 각 스캔 영역을 스캔하는 데 필요한 시간으로 나누고, 그 몫을 영역들의 수로 사용하는 것이다.
일부 경우들에서, 스캔 영역들의 각각을 파티션들로 분할하는 것이 유용하다. 각 스캔 영역에 이러한 파티션들이 P 개 있는 경우, 어레이는 하기 수학식과 같이 정의될 수 있다.
[수학식 2a]
여기서, 파티션 인덱스 p는 간격 [1, P] 내 정수이다. 정사각형의 스캔 영역의 경우, 정사각형을 네 개의 정사각형의 파티션들로 나누고, 이에 따라, P를 4로 설정하는 것이 편리하다.
스캔 영역을 파티션들로 나누는 기능은 이미지 아티팩트들을 배제시키는 유용한 방법을 제공한다. 이는, 생물학적 세포들(90)의 검사를 위해 특히 중요하다. 이는, 검사를 위한 세포들(90)을 준비하는 프로세스가 아티팩트들을 쉽게 도일할 수 있기 때문이다. 이러한 아티팩트들은 어떤 분석에서 배제되어야 한다. 이를 통해, 하나의 파티션을 나머지들과 비교하여, 배제될만큼 크게 벗어나는 것을 식별할 수 있다.
한편, 새로운 인덱스의 추가는 어레이의 차원수를 더 증가시킨다.
원자힘 현미경(8)에 의해 획득된 이미지 어레이들 M(k,s)에 기반하여 샘플이 속하는 클래스를 식별하기 위해, 기계-학습 모듈(84)은, 특정 클래스들C(l)에 속하는 것으로 선험적으로 알려진 표면들의 이미지를 포함하는 적합한 데이터베이스(86)를 구축하는 데 부분적으로 의존한다. 이러한 데이터베이스(86)는 하기 수학식과 같이 표현될 수 있다.
[수학식 2b]
여기서, k는 특성 또는 채널을 나타내는 채널 인덱스이고, s는 특정 스캔 영역을 식별하는 스캔-영역 인덱스이고, p는 s 번째 스캔 영역의 특정 파티션을 나타내는 파티션 인덱스이고, n은 특정 샘플을 식별하는 샘플 인덱스이며, l은 L 개의 클래스들의 세트에서 특정 클래스를 식별하는 클래스 인덱스이다. 따라서, 어레이의 전체 사이즈는 클래스들의 수, 샘플들의 수, 스캔 영역들의 수, 스캔 영역 당 파티션들의 수, 및 채널들의 수의 곱이다.
도 3은 환자들을 두 개의 클래스들, 즉 암에 걸린 클래스 및 암이 없는 클래스 중 하나로 분류하기 위해, 소변(88)에서 회수된 생물학적 세포들(90)의 표면들을 검사하는 데, 서브-공진 태핑을 사용하여 작동되는 원자힘 현미경(8) 및 기계-학습 모듈(84)을 사용하는 것을 특징으로 하는 진단 방법(10)을 도시하고 있다. 두 개의 클래스들이 있으므로, L=2이다.
바람직한 실예는 원심 분리, 중력 침전, 또는 여과를 사용하여 세포들(90)을 수집한 다음, 세포들(90)을 고정하고, 동결 건조 또는 준임계(subcritical) 건조하는 것을 포함한다.
도시된 예에서, 원자힘 현미경(8)은 Bruker, Inc.)에서 구현된 PeakForce QMN과 같은 서브-공진 태핑 모드들과 NanoScience Solutions, LLC에서 구현된 것과 같은 링잉 모드들 둘 다를 사용하여 작동되었다. 두 모드들 모두 높이와 접착력 채널들을 기록할 수 있다. 그러나, 링잉 모드는 훨씬 더 빠른 이미지 수집 모드이다. 상술된 바와 같이, 이러한 모드들은 많은 채널들을 동시에 기록할 수 있다. 그러나, 여기에 설명된 실험에서는, 오직 두 개의 채널들 만이 사용된다.
도 4는 원자힘 현미경의 캔틸레버(12)를 상술된 바와 같이 환자로부터 획득되어 준비된 세포(90)와 함께 도시하고 있다. 원자힘 현미경(8)에 결합된 광학 현미경을 통해 통과하는 뷰를 나타낸다.
도 5는 제1 및 제2 맵 쌍들(92, 94)을 도시하고 있다. 제1 맵 쌍(92)은 암이 없는 환자로부터의 세포(90)의 맵들을 도시하고 있다. 제2 맵 쌍(94)은 암에 걸린 환자로부터의 세포(90)의 맵들을 도시하고 있다. 도시된 맵들은 양쪽 차원들에서 512 픽셀들의 해상도로 일 측면이 10 마이크로미터인 정사각형 스캔 영역에 대한 것들이다. 스캔 속도는 PeakForce QMN 모드와 같은 서브-공진 태핑 모드에서 스캔할 때 0.1 Hz였고, 링잉 모드에서 스캔할 때, 0.4 Hz였다. 스캔 중 최대 힘(peak force)은 5 나노뉴턴이다.
이제 도 6을 참조하면, 기계-학습 모듈(84)은 데이터베이스(86)에 기반하여, 후보 분류기(100)를 훈련시킨다. 특정 기계 학습 방법은, 기계 학습 방법들의 패밀리, 예컨대 결정 트리, 뉴럴 네트워크, 또는 이들의 조합으로부터 선택될 수 있다.
도 6 및 도 7에 도시된 방법들은, 데이터베이스(86)를 훈련 데이터(87) 및 테스트 데이터(89)로 분할하는 것으로 시작한다. 이는, 데이터베이스(86)의 데이터 중 얼마나 많은 양이 훈련 데이터(87)로 들어 가야하고, 얼마나 많은 양이 테스트 데이터(89)로 들어가야 하는 가에 대한 질문을 제기한다.
일부 실시예들에서, 데이터베이스(86)의 50 %는 훈련 데이터(87)로 들어가고, 나머지 50 %는 테스트 데이터(89)로 들어간다. 다른 실시예들에서, 데이터베이스(86)의 60 %는 훈련 데이터(87)로 들어가고, 나머지 40 %는 테스트 데이터(89)로 들어간다. 또 다른 실시예에서, 데이터베이스(86)의 70 %는 훈련 데이터(87)로 들어가고, 나머지 30 %는 테스트 데이터(89)로 들어간다. 또 다른 실시예에서, 데이터베이스(86)의 80 %는 훈련 데이터(87)로 들어가고, 나머지 20 %는 테스트 데이터(89)로 들어간다. 후보 분류기(100)는 본질적으로 분할에 사용되는 비율과 무관해야 한다.
도 3에 도시된 예에서, 10 개의 방광 세포들(90)이 각 환자에 대해 수집되었다. 암의 존재는 침습적 생검들 및 조직 병리학을 포함하는 표준 임상 방법들을 사용하여 확인되었다. 이러한 방법들은 두 클래스들이 잘 정의된 것으로 간주되기에 충분히 신뢰할 수 있다. 그 결과, 도 6에 도시된 데이터베이스(86)가 하기 수학식과 같이 표현될 수 있다.
여기서, Ndata1은 제1 클래스에 있는 환자들의 수이고, Ndata2는 제2 클래스에 있는 환자들의 수이며, 1과 10 사이에 포함된 전체수인 s는 단일 환자에서 수집된 10 개의 세포들 중 특정 하나를 식별한다. Ndata1 및 Ndata2가 같을 필요는 없다.
데이터베이스(86)를 훈련 데이터(87)와 테스트 데이터(89) 사이에서 분할할 때, 동일한 샘플 {M(k;1;p), M(k;2;p)..M(k;S;p)}에서 상이한 스캔 영역들에 대한 이미지 어레이들이 훈련 데이터(87)와 테스트 데이터(89) 사이에서 나뉘는 것을 피하는 것이 중요하다. 이러한 규칙의 위반은 샘플에 대한 훈련과 테스트를 초래한다. 이는, 분류기를 독립적인 새로운 샘플들에 적용할 때 재현할 수 없는 방식으로, 분류기의 효율성을 인공적으로 끌어올릴 것이다.
기계-학습 모듈(84)은 후보 분류기(100)를 구축하기 위해, 훈련 데이터(98)를 사용한다. 분류기(100)의 타입에 따라, 훈련 데이터(87)는 학습 트리, 결정 트리, 트리의 부트스트랩(bootstrap), 뉴럴 네트워크, 또는 이들의 조합일 수 있다. 하기 수학식에서 “AI”로 표현되는 분류기(100)는 특정 샘플 n이 특정 클래스 l에 속할 확률을 출력한다.
[수학식 3a]
여기서, Probn (k;s;p)(l)은 Mn (k;s;p)로 정의되는 이미지 또는 채널이 클래스 C(l)에 속할 확률이다.
구축된 후에, 검증 모듈(verification module)(102)은, 후보 분류기(100)가 실제로 충분히 효율적인지를 검증하기 위해, 테스트 데이터(89)를 사용한다. 여기에 설명된 실시예에서, 검증 모듈(102)은 수신기 작동 특성들 및 오류 매트릭스에 적어도 부분적으로 기반하여 효율성을 평가한다. 후보 분류기(100)의 강건성(robustness)은, 데이터베이스(86)에 대해 무작위 분할을 반복하여 상이한 테스트 데이터(89)와 훈련 데이터(87)를 생성한 다음, 분류 절차를 수행하여 어떤 차이가 있는지 확인함으로써, 검증되었다.
후보 분류기(100)가 충분히 효율적이지 않은 것으로 판명되면, 기계-학습 모듈(84)은 훈련 프로세스의 파라미터들을 변경하고, 새로운 후보 분류기(100)를 생성한다. 이러한 사이클은, 기계-학습 모듈(84)이 결국 원하는 임계값의 효율성에 이른 후보 분류기(100)를 제공할 때까지 계속된다.
적합한 분류기(100)를 구축하는 프로세스는, 샘플 n과 연관된 하나 이상의 확률 값이 있을 때 발생하는 계산 부하에 의해 어느 정도 방해를 받는다. 사실 상, 이미지 어레이의 다차원 본질로 인해, 어느 하나의 샘플에 대해, 처리할 K·S·P 확률들 Probn (k;s;p)(l)이 있을 것이다. 이러한 대규모 데이터베이스에 대해 필요한 계산 부하는 비현실적으로 높을 것이다.
이러한 대규모의 데이터 어레이들을 다루는 다른 장애물은, 분류기들의 합리적인 훈련을 제공하는 데 사용되는 많은 수의 샘플들이다. 결정 트리를 구축할 때, 경험 상 샘플들의 수가 데이터베이스의 차원보다 적어도 6 배 더 커야 한다. 원자힘 현미경은 비교적 느린 기술이기 때문에, 합리적인 분류기를 구축하기에 충분한 샘플을 얻는 것은 비현실적이다.
도 7에 도시된 바와 같은 압축기(104)는 상술된 어려움을 해결한다. 압축기(104)는 특정 채널에 의해 제공되는 정보를 그 채널에 대한 정보를 구현하는 표면 파라미터들의 공간으로 압축한다. 압축기(104)는 데이터베이스(86)를 수신하고, 압축된 데이터베이스(106)를 생성한다. 사실 상, 이것은, 상당한 높은 차원의 공간에 있는 다차원 매트릭스를 훨씬 적은 차원수의 매트릭스로 투영하기에 이른다.
압축기(104)는 다양한 데이터베이스-축소 절차들 중 어느 하나를 수행한다. 이들 중에는, 여기에 설명된 데이터베이스-축소 절차들 중 하나 이상을 조합하는 절차들이 있다. 이들은 공통적으로 데이터의 세트로부터, 그 세트에 구현된 정보의 적어도 일부를 구현하는 표면 파라미터들을 도출한다.
일부 실예들에서, 압축기(104)는 제1 데이터베이스-축소 절차를 수행한다. 이 제1 데이터베이스-축소 절차는, 샘플을 분류하는 데 유용하도록 들어간, 어레이들로부터의 다양한 측면들의 정보를 보존하는 객체(object)를 생성하는 방식으로, 각 이미지가 본직적으로 다른 어레이들과 조합될 수 있는 배열이라는 점에 의존한다. 예를 들어, 텐서 덧셈 “”은 인덱스들 중 하나에 대응하는 슬라이드를 따라 이미지들의 세트 Mn (k;s;p)를 조합하는 데 사용될 수 있다.
일 특정 구현에서, 슬라이스는 인덱스 k에 대응한다. 이 경우, 이미지들의 텐서 합은 다음과 같이 주어진다.
따라서, 기계-학습을 위해 사용되는 압축된 데이터베이스(106)의 각 엘리먼트는 하기 수학식과 같다.
[수학식 3-1]
이러한 특정 예는 K의 팩터(factor)만큼 데이터베이스(86)의 차원수를 축소시킨다. 따라서, 분류기(100)는 하기의 수학식과 같이 확률을 정의한다.
나머지 인덱스들에 대해서도 유사한 절차를 수행할 수 있다. 궁극적으로, 하기 수학식과 같다.
여기서, “”는 인덱스들 k, s, p에 대한 텐서 합산(summation)를 나타낸다.
다른 실예들에서, 압축기(104)는 대신에 제2 데이터베이스-축소 절차를 수행한다. 이 제2 데이터베이스-축소 절차는 인덱스들 k, s, p의 각각에 대해 개별적인 또는 이들의 조합에 대한 기하학적 또는 산술 평균에 의존한다. 제2 절차를 수행하는 특정 방법들의 예들로는, 하기 수학식들과 같은 모든 인덱스들 k, s, p에 대한 평균 절차들이 있다.
[수학식 3-2]
[수학식 3-3]
[수학식 3-4]
[수학식 3-5]
또 다른 실예들에서, 압축기(104)는 대신에 제3 데이터베이스-축소 절차를 수행한다. 이 제3 데이터베이스-축소 절차는 전체 시리즈 중 최고 또는 최저 확률을 특정 인덱스에 할당하는 것에 의존한다. 예를 들어, 스캔-영역 인덱스 s를 고려하면, 하기 수학식들과 같은 관계들 중 하나를 사용할 수 있다.
[수학식 3-6]
[수학식 3-7]
궁극적으로, 모든 인덱스들이 이러한 방법들로 축소되는 경우, 하기 수학식들 중 하나와 같다.
[수학식 3-8]
[수학식 3-9]
일부 실예들에서, 압축기(104)는, 표면-파라미터 세트 Pnm (k,s)를 구하기 위해, 표면-파라미터 추출기 Am을 통해 각 이미지를 통과시켜, 데이터베이스 Dn (l;s)의 차원수를 감소시킨다. 이는, 하기 수학식과 같이 표현될 수 있다.
여기서, 표면-파라미터 인덱스 m은 간격 [1, M] 내 정수이고, 채널 인덱스 k는 맵이 높이, 접착력, 강성, 또는 일부 다른 물리적 또는 기하학적 파라미터를 나타내는지 여부를 식별하고, 샘플 인덱스 n은 샘플을 식별하고, 스캔-영역 인덱스 s는 샘플에서 특정 스캔 영역을 식별하며, 파티션 인덱스 p는 스캔 영역 내에서 특정 파티션을 식별한다. 이러한 절차는 다차원 텐서 Mn (k;s;p)를 표면-파라미터 벡터 Pnm (k;s;p)로 나타내는 간결한 방법을 제공한다.
표면-파라미터 벡터는 분류의 기초로 사용할 수 있도록 도출된 채널에 대한 충분한 잔여 정보를 포함한다. 그러나, 채널에 의해 제공되는 이미지보다 훨씬 더 작다. 따라서, 표면-파라미터 벡터에 의존하는 분류 절차는 훨씬 낮은 계산 부하를 유지하지만 이에 대응하는 정확도 손실은 없다.
다양한 표면 파라미터들이 채널에서 추출될 수 있다. 이들은 리프니스 평균(roughness average), 평균 제곱근(root mean square), 표면 왜곡(surface skew), 표면 첨도(surface kurtosis), 피크-피크(peak-peak), 십점 높이(ten-point height), 최대 밸리 깊이(maximum valley depth), 최대 피크 높이(maximum peak height), 평균 값(mean value), 평균 정상 곡률(mean summit curvature), 텍스처 인덱스(texture index), 평균 제곱근 그래디언트(root mean square gradient), 면적 평균 제곱근 슬로프(area root mean square slope), 표면적 비율(surface area ratio), 투영된 면적(projected area), 표면적(surface area), 표면 베어링 지수(surface bearing index), 코어 유체 보유 지수(core fluid retention index), 밸리 유체 보유 지수, 감소된 정상 높이, 코어 리프니스 깊이, 감소된 밸리 깊이, 베어링 곡선의 1 - h % 높이 간격들, 정상 밀도(density of summits), 텍스처 방향, 텍스처 방향 인덱스, 우세 방사형 파장 길이(dominant radial wave length), 방사형 파장 인덱스, 평균 반파장, 프랙탈 차원(fractal dimension), 20 %의(at 20 %) 상관 길이(correlation length), 37 %의 상관 길이, 20 %의 텍스처 종횡비(texture aspect ratio), 및 37 %의 텍스처 종횡비를 포함한다.
표면 파라미터들의 리스트는 알고리즘들 또는 수학적 공식들을 도입하여, 더 확장될 수 있다. 예를 들어, 각 파라미터를 표면적의 함수로 나눔으로써, 상이한 셀들에 대해 상이할 수 있는 이미지의 표면 영역으로 표면 파라미터들을 정규화할 수 있다.
여기에 설명된 예는 세개의 표면 파라미터들: 밸리 유체 보유 지수(“Svi”), 표면적 비율(“Sdr”) 및 표면적(“S3A”)에 의존한다.
밸리 유체 보유 지수는 밸리 존(valley zone)에 큰 보이드들(voids)이 있음을 나타내는 표면 파라미터이다. 이는, 하기 수학식과 같이 정의된다.
여기서, N은 x 방향의 픽셀들의 수이고, M은 y 방향의 픽셀들의 수이고, V(hx)는 베어링 면적 비율 곡선(bearing area ratio curve) 위와 수평선 hx아래의 보이드 영역(void area)이며, Sq는 하기 수학식과 같이 정의되는 평균 제곱근(RMS)이다.
표면적 비율(“Sdr”)은 투영된 x, y 평면의 면적에 대한 계면(interfacial) 표면적의 증분(increment)을 나타내는 표면 파라미터이다. 이러한 표면 파라미터는 하기 수학식과 같이 정의된다.
표면적(“S3A”)는 하기 수학식과 같이 정의된다.
원자힘 현미경(8)에 의해 제공되는 이미지들로 상술된 세 개의 표면 파라미터들의 각각을 계산하기 위해, 세포의 각 이미지가 먼저 네 개의 파티션들로 분할되었고, 이러한 경우, 5 마이크로미터의 측면들을 갖는 정사각형의 사분면들(quadrants)이 있었다. 따라서, 각 세포들은 각 사분면에 대해 하나씩, 네 개의 표면 파라미터들의 세트들을 생성한다.
세포에서 아티팩터들의 존재는 세 개의 상이한 방법들 중 어느 하나로 해결될 수 있다.
첫 번째 방법은, 조작자(operator)가 세포들을 아티팩트들에 대해 검사하고, 하나 이상의 아티팩트들을 갖는 세포를 추가 처리에서 배제시키는 것이다. 이는, 아티팩트들을 식별하기 위해, 사람의 개입을 필요로 한다.
두 번째 방식은, 아티팩트를 인식하고 아티팩트를 포함하는 세포를 자동으로 배제시킬 수 있는 아티팩트-인식 모듈을 제공하는 것이다. 이는, 절차를 더 조작자-독립적으로 만든다.
세 번째 방법은, 평균값들 대신에, 각 세포에 대한 파라미터들의 중간값을 사용하는 것이다. 여기서 설명된 결과들은, 중간값이 평균값 대신에 사용되었을 때, 거의 변하지 않았다.
동일한 예의 두 개의 클래스들을 사용하여, 압축된 데이터베이스(106)는 하기 수학식과 같이 보여 질 것이다.
다른 실시예들에서, 이러한 파라미터들이 원자힘 현미경의 이미지들과 직접 관련되지 않더라도, 상이한 클래스들을 구별하는 것을 돕도록 추가 파라미터들을 할당할 수 있다.
예를 들어, 방광암을 검출하고자 할 때, 소변(88)의 하나 이상의 샘플들이 세포(90)를 갖지 않을 가능성이 매우 높다. 이러한 결과를 고려하는 편리한 방법은, 참(true) 또는 거짓(false)인 새로운 “세포 없음(no cell)”파라미터를 추가하는 것이다. 이러한 파라미터를 수용하기 위해 데이터 구조를 변경하는 것을 피하기 위해, “참”으로 설정된 “세포 없음”을 갖는 세포는, 통계적 결과들을 왜곡하는 것을 방지하기 위해 선택된 표면 파라미터들에 대한 인공(artificial) 값들을 수신한다.
다른 예로서, 표면 파라미터들과 관련이 없지만 분류와 관련이 있는 다른 팩터들이 있다. 이들은 환자들의 특성들, 예컨대 연령, 흡연, 및 가족력을 포함하며, 이들 모두는 그 환자가 방광암을 가질 확률과 관련이 있을 수 있다. 이러한 파라미터들은 데이터 구조의 수정을 피하기 위해, "세포 없음" 파라미터와 유사한 방식으로 포함될 수 있다.
데이터베이스(86)의 사이즈를 축소시키기 위해, 표면 파라미터들을 사용하는 또 다른 방법들이 있다.
이러한 절차는 서로 충분히 상관되는 표면 파라미터들을 배제시키는 것이다. 일부 표면 파라미터들은 다양한 다른 파라미터들에 크게 의존한다. 따라서, 서로 상관된 표면 파라미터들을 포함함으로써, 추가 정보가 거의 제공되지 않는다. 이러한 중복 표면 파라미터들은 거의 페널티(penalty)없이 제거될 수 있다.
표면 파라미터들 사이의 상관도 매트릭스를 찾는 한 가지 방법은, 도 8에 도시된 예들과 같이, 시뮬레이션된 표면들을 생성하는 것이다. 원자힘 현미경(8)으로 이미징된 다양한 샘플 표면들은 상이한 표면 파라미터들 사이의 상관도를 식별하기 위해 사용될 수도 있다.
기계-학습 모듈(84)는 입력들의 본질에 대해 인식 불가능하다. 따라서, 이미지 어레이에서 작동하는 것으로 표시되지만, 대신 표면-파라미터 벡터에서 완벽하게 작동할 수 있다. 따라서, 동일한 기계-학습 모듈(84)은 특정 표면-파라미터 벡터가 특정 클래스에 속할 확률을 결정하는 데, 즉 Probn (k;s;p)(l)=AI(Pn (k;s;p)|C(l))을 평가하는 데, 사용할 수 있다.
따라서, 다차원 이미지 어레이 Mn (k;s;p)를 표면-파라미터 벡터 Pnm (k;s;p)로 축소한 후에, 다차원 이미지 어레이 Mn (k;s;p)를 표면-파라미터 벡터 Pnm (k;s;p)로 대체한 다음, 기계-학습 모듈(84)이 분류를 위해 어떤 표면 파라미터들이 중요한지 및 세포들을 분류하기 위해 이들을 어떻게 사용할 것인지를 학습할 수 있다.
특정 표면 파라미터들은 서로 연관되어 있기 때문에, 차원수가 더 축소될 수 있다. 이는, 텐서 합산 없이 수행될 수 있다. 대신에, 이러한 축소는 상이한 이미지들로부터 동일한 파라미터들을 직접 조작하여, 수행될 수 있다.
상기의 수학식 3-1 내지 수학식 3-9로 식별된 데이터베이스-축소 절차들에 의존한 방법들 외에도, 동일한 샘플에서 동일한 종류의 상이한 표면 파라미터들을 조합하는 분류기(100)를 사용할 수도 있다. 공식적으로, 이러한 타입의 분류기(100)는 하기 수학식과 같이 표현될 수 있다.
여기서, Pn=F(Pnm (k;s;p))이고, 여기서, F(Pnm (k;s;p))는 표면-파라미터 인덱스 m에 의해 식별되고, 샘플 인덱스 n에 의해 식별된 샘플에 속하는 상이한 표면 파라미터들의 조합이다.
관련된 분류기(100)는 동일한 특성들의 이미지들에서 동일한 샘플 n의 동일한 종류 m의 상이한 파라미터들을 조합하는 것이다. 이러한 분류기(100)는 하기 수학식과 같이 표현될 수 있다.
여기서, Pnm (k)=F(Pnm (k;s;p))이고, F(Pnm (k;s;p))는 샘플 인덱스 n에 의해 식별된 샘플의 동일한 표면-파라미터 인덱스 m에 의해 식별되고, 채널 인덱스 k에 의해 식별된 채널로부터 식별된 상이한 표면 파라미터들의 조합이다.
다른 분류기(100)는 모든 파라미터들을 조합하지 않지만, 대신 하나의 인덱스로 표면 파라미터들을 조합하는 것이다. 이러한 분류기(100)는 동일한 이미지의 전체 시리즈의 파티션들 p에 하나의 표면 파라미터를 할당한다. 이러한 분류기(100)는 하기 수학식과 같이 표현된다.
여기서, Pnm (k;s)=F(Pnm (k;s;p))이고, F(Pnm (k;s;p))는 표면 파라미터들의 조합이며, 그 예들로는, 파티션 인덱스에 대한 Pnm (k;s;p)의 통계 분포와 연관된 파라미터가 있다. 예들로는, 하기 수학식 13과 같은 평균 및 하기 수학식 14와 같은 중간값이 있다.
각 환자로부터의 다수의 세포들을 이미징하는 방광암 검출과 관련하여 사용될 때, 분류기(100)는 평균 또는 중간값에 의존한다. 그러나, 중간값은 아티팩트들에 덜 민감하기 때문에, 분류기(100)는 평균 보다는 중간값에 의존하는 것이 바람직하다.
여기서 설명된 특정 실시예에서, 기계-학습 모듈(84)은 다양한 기계-학습 방법들을 구현한다. 그러나, 다수의 파라미터들에 직면할 때, 기계-학습 모듈(84)은 쉽게 과잉-훈련(over-trained)될 수 있다. 따라서, 과잉-훈련의 경향이 가장 적은 세 가지 방법들, 즉 랜덤 포레스트 방법, 익스트림 랜덤 포레스트 방법, 및 그래디언트 부스팅 트리의 방법을 사용하는 것이 유용하다.
랜덤 포레스트 방법 및 익스트림 랜덤 포레스트 방법은 부트스트랩 비지도(unsupervised) 방법들이다. 그래디언트 부스팅 트리의 방법은 트리를 구축하는 지도 방법이다. 변수 랭킹(variable ranking), 분류기 훈련, 및 유효성 검사(validation)는 SCIKIT-LEARN Python 기계-학습 패키지(버전 0.17.1)의 적절한 분류기 함수들을 사용하여 수행되었다.
랜덤 포레스트 및 익스트림 랜덤 포레스트 방법들은 많은 분류 트리들의 성장을 기반으로 한다. 각 분류 트리는 일부 분류를 예측한다. 그러나, 모든 트리들의 보트들(votes)은 최종 분류를 정의한다. 트리들은 훈련 데이터(87)에서 성장된다. 전형적인 데이터베이스(86)에서, 모든 데이터의 70 %는 훈련 데이터(87)에 있고, 나머지는 테스트 데이터(89)에 있다. 여기에 설명된 실험들에서, 분류기들(100)이 데이터베이스(86)가 분할된 방식에 민감하지 않도록, 훈련 데이터(87)와 테스트 데이터(89)의 분할은 무작위적이고 여러 번 반복되었다.
각 분기 노드(branching node)는 원래의 표면 파라미터들의 임의로 선택된 서브세트에 의존한다. 여기에 설명된 방법들에서, 원래의 표면 파라미터들의 선택된 서브세트의 엘리먼트들의 수는 원래 제공되는 표면 파라미터들의 수의 제곱근(square root)이다.
그리고, 표면 파라미터들의 임의로 선택된 서브세트가 주어지면, 트리 브랜치들의 최상의 분할을 식별하는 것에 의해, 학습 프로세스가 진행된다. 기계-학습 모듈(84)은 분류 오류의 추정에 기반한 분할 임계값을 기반으로 한다. 각 파라미터는 훈련 데이터(87)의 가장 일반적으로 발생하는 클래스와 관련하여, 파라미터 영역에 할당된다. 이러한 실예들에서, 기계-학습 모듈(84)은 분류 오류를 가장 일반적인 클래스에 속하지 않는 영역의 훈련 데이터(87)의 일부로 정의한다.
여기서, pmk는 m 번째 영역에 있고 k 번째 클래스에 속하는 훈련 데이터(87)의 비율을 나타낸다. 그러나, 실제 사용을 위해, 수학식 1은 트리가 과도하게 성장하는 것을 피하기에 충분히 민감하지 않다. 그 결과, 기계-학습 모듈(84)은 두 개의 다른 측정들, 즉 지니 인덱스(Gini index) 및 교차-엔트로피(cross-entropy)에 의존한다.
모든 K 개의 클래스들의 분산(variance) 측정인 지니 인덱스는 하기 수학식과 같이 정의된다.
지니 인덱스는, pmk의 모든 값들이 0 또는 1(unity)에 가깝게 유지될 때, 작게 유지된다. 그 결과, 지니 인덱스는 특정 노드가 단일 클래스의 샘플들을 대부분 포함하는 정도(extent)를 측정한다. 이는, “노드 순도(node purity)”의 정도로 지칭된다. 따라서, 과도한 성장을 방지하기 위해, 각 트리는 지니 인덱스가 클래스들을 완전히 분리할 때까지만 성장한다. 이는, 두 개의 하위(descendant) 노드들이 상위(parent) 노드보다 더 적은 지니 인덱스를 생성할 때, 발생한다. 이러한 랜덤 포레스트 방법들에서는, 성장하는 브랜치들을 잘라내지 않는다.
노드 순도에 대한 메트릭(metric)도 제공하는 교차-엔트로피는 하기 수학식과 같이 정의된다.
지니 인덱스와 유사하게, 교차-엔트로피는, pmk의 모든 값들이 0에 가까울 때, 작다. 이는 퓨어 노드(pure node)를 나타낸다.
또한, 지니 인덱스는 각 표면 파라미터의 중요도를 나타내는 “중요도 계수”를 구하는 방법을 제공한다. 이러한 각 측정은, 변수들의 각각에 대한 트리 노드들에 지니 인덱스의 감소의 모든 값들을 추가하고, 모든 트리들에 대해 평균하는 것에 기인된다.
도 9에 도시된 히스토그램들은 평균으로부터 1-표준-편차만큼 벗어난 정도를 나타내기 위해 오차 막대들이 있는 중요도 계수들에 대한 평균 값들을 나타낸다. 이러한 중요도 계수들은 특정 채널에서 도출될 수 있는 다양한 표면 파라미터들에 대응한다. 따라서, 첫 번째 행의 히스토그램들은 특징 “높이”를 측정하는 채널에서 도출될 수 있는 표면 파라미터들을 나타내고, 두 번째 행의 표면 파라미터들은 특징 “접착력”을 측정하는 채널에서 도출될 수 있는 표면 파라미터들을 나타낸다. 니모닉(mnemonic) 디바이스가 특징들의 이름을 지정하는 데 사용되었으며, “높이” 채널에서 도출될 수 있는 모든 표면 파라미터들의 이름은 “h”로 시작하고, “접착력” 채널로부터 도출될 수 있는 모든 표면 파라미터들의 이름은 “a”로 시작한다.
따라서, 첫 번째 행에서, 첫 번째 열의 패널(panel)은 기계-학습 모듈(84)이 랜덤 포레스트 방법을 사용할 때 “높이” 채널로부터 도출된 표면 파라미터들의 중요도 계수들을 나타내고, 두 번째 열의 패널은 기계-학습 모듈(84)이 익스트림 랜덤 포레스트 방법을 사용할 때 “높이” 채널로부터 도출된 표면 파라미터들의 중요도 계수들을 나타내며, 세 번째 열의 패널은 기계-학습 모듈(84)이 그래디언트 부스팅 트리의 방법을 사용할 때 “높이” 채널로부터 도출된 표면 파라미터들의 중요도 계수들을 나타낸다.
이와 유사하게, 두 번째 행에서, 첫 번째 열의 패널은 기계-학습 모듈(84)이 랜덤 포레스트 방법을 사용할 때 “접착력” 채널로부터 도출된 표면 파라미터들의 중요도 계수들을 나타내고, 두 번째 열의 패널은 기계-학습 모듈(84)이 익스트림 랜덤 포레스트 방법을 사용할 때 “접착력” 채널로부터 도출된 표면 파라미터들의 중요도 계수들을 나타내며, 세 번째 열의 패널은 기계-학습 모듈(84)이 그래디언트 부스팅 트리의 방법을 사용할 때 “접착력” 채널로부터 도출된 표면 파라미터들의 중요도 계수들을 나타낸다.
도 9의 히스토그램들은 샘플을 정확하게 분류하는 데 가장 도움이 되는 표면 파라미터들을 선택하는 지능적인 방법을 제공한다. 예를 들어, 기계-학습 모듈(84)이 높이를 측정하는 채널로부터 두 개의 표면 파라미터들만을 선택하도록 강제된 경우, 아마도 “h_Sy”및 “h_Std”를 선택하는 것을 피할 수 있지만, 대신에 “h_Ssc”및 “h_Sfd”를 선택하는 것을 선호할 수 있다.
도 9의 중요도 계수들은 100 개의 트리들과 300 개의 트리들 사이에서 사용하는 데 도달하였다. 원래의 표면 파라미터들의 선택된 서브세트에서 엘리먼트들의 최대 수는 원래 제공되는 표면 파라미터들의 수의 제곱근이었고, 지니 인덱스는 분류 오류를 평가하기 위한 기초를 제공했다. 동일한 행의 히스토그램들을 비교하면, 기계-학습 절차의 선택이 특정 표면 파라미터들의 중요도에 큰 차이를 만들지 않음이 분명하다.
도 10은 부트스트랩 방법들에 사용된 100 개 내지 300 개의 트리들의 앙상블(ensemble)로부터의 이진 트리의 예를 도시하고 있다. 첫 번째 분할에서, 분할 값이 15.0001인 네 번째 변수 “X[4]”가 선택되었다. 이는, 0.4992의 지니 인덱스를 생성했고, 73 개의 샘플들을 30 개 및 43 개의 샘플들을 각각 갖는 두 개의 빈들(bins)로 분할했다.
두 번째 레벨의 분할에서, 좌측 노드를 보면, 분할 값이 14.8059인 여섯 번째 변수 “X[6]”가 선택되었고, 이는 0.2778의 지니 인덱스를 생성했고, 30 개의 샘플들(클래스 1의 다섯 개, 클래스 2의 25 개)을 27 개 및 3 개의 샘플들을 각각 갖는 두 개의 빈들로 분할했다. 트리 노드가 0의 지니 인덱스를 갖고, 이에 따라, 두 개의 클래스들 중 하나만의 존재를 나타낼 때까지, 분할은 계속된다.
분할의 선택에 있어서, 익스트림 랜덤 트리(Extremely Randomized Trees)의 방법은 랜덤 포레스트와 상이하다. 지니 인덱스를 사용하여 최적의 파라미터 및 분할 조합을 계산하는 대신에, 랜덤 포레스트 방법의 경우와 같이, 익스트림 랜덤 트리의 방법을 사용하는 기계-학습 모듈(84)은 파라미터 경험적 범위(parameter empirical range)에서 각 파라미터 값을 임의로 선택한다. 이러한 임의의 선택들이 제로 지니 인덱스를 갖는 퓨어 노드에 결국 수렴하는 것을 보장하기 위해, 기계-학습 모듈(84)은 현재 트리가 선택되는 선택된 변수들의 세트의 임의의 균일 분할들(uniform splits) 중에서 최상의 분할만을 선택한다.
일부 실예들에서, 기계-학습 모듈(84)은 그래디언트 부스팅 트리의 방법을 구현한다. 이러한 경우에, 기계-학습 모듈(84)은 트리들의 시리즈를 구축하고, 이들의 각각은 일부 비용 함수에 대해 수렴한다. 기계-학습 모듈(84)은, 예컨대 평균 제곱 오차(mean squared error)를 최소화하여, 정확한 예측으로부터의 편차를 최소화하기 위해, 각 후속(subsequent) 트리를 구축한다. 일부 경우들에서, 기계-학습 모듈(84)은 이러한 타입의 회귀(regression)를 위해, 프리드만(Frieman) 프로세스에 의존한다. 이러한 회귀 프로세스의 적합한 구현은 “SCIKIT-LEARN PYTHON" 패키지에 구현된 바와 같은 루틴 “TREEBOOST”를 사용하여 수행될 수 있다.
그래디언트 부스팅 트리의 방법은 퓨어 노드들에 대한 기준이 없기 때문에, 기계-학습 모듈(84)은 트리의 사이즈를 미리 정의한다. 대안적으로, 기계-학습 모듈(84)은 개별 회귀들의 수를 제한하여, 트리의 최대 깊이를 제한한다.
발생하는 어려움은 미리 정의된 사이즈들로 구축된 트리들이 쉽게 과적합될 수 있다는 것이다. 이러한 어려움의 영향을 최소화하기 위해, 기계-학습 모듈(84)은 부스팅 반복 횟수와 같은 양들에 제약 조건들을 부과하거나, 예컨대 무차원 학습률 파라미터를 사용하여 반복률을 약화시키는 것이 바람직하다. 대안적인 실예들에서, 기계-학습 모듈(84)은 트리 상에서, 터미널(terminal) 노드들, 또는 리프들(leaves)의 최소 수를 제한한다.
SCIKIT-LEARN PYTHON 패키지에 의존하는, 여기에 설명된 구현들에서, 기계-학습 모듈(84)은 리프들의 최소 수를 1로 설정하고, 최대 깊이를 3으로 설정한다. 인간 서브젝트들로부터 수집된 방광 세포들이 분류되어야 하는, 여기에 설명된 적용에서, 기계-학습 모듈(84)은 0.1의 비정상적으로 낮은 학습률을 선택함으로써, 학습 능력을 다시 조절했다. 결과적으로 느린 학습 절차는 적은 수의 인간 서브젝트들, 따라서 적은 수의 샘플들로 인한 분산을 감소시킨다.
훈련 데이터(87)와 테스트 데이터(89)를 생성할 때, 세트들 {M(k;1;p), M(k;2;p)…M(k;S;p)}를 훈련 데이터(87)와 테스트 데이터(89) 사이에서 나누는 것을 피하는 것이 중요하다. 도 11에 개시된 절차는 이것을 피한다.
방광 세포들(90)을 분류하는 특정 구현에서, 각 환자는 여러 개의 세포들을 제공했으며, 각 세포(90)의 이미지는 네 개의 파티션들로 나뉘었다. 인간 관찰자는 아티팩트들을 발견하기 위해 파티션들을 시각적으로 검사했으며, 그 중 두 개는 도 12에서 볼 수 있다. 아티팩트가 파티션에 존재하는 것으로 확인되면, 이미지를 검사한 사람은 그 파티션을 무시되어야 할 것으로 플래그를 지정한다.
이 프로세스는 많은 세포들(90)이 관련될 때, 지루해질 수 있다. 수학식 10으로 표현된 분류기(100)를 사용하고 네 개의 파티션들의 중간값을 취함으로써, 이 프로세스를 자동화할 수 있다. 이는, 아티팩트의 기여도를 상당히 희석시킨다.
기계-학습 모듈(84)은, 그 데이터의 S %가 훈련 데이터(87)에 있고, 100-S %가 테스트 데이터(98)에 있도록, 데이터베이스(86)를 임의로 분할한다. 실험들은 S를 50 %, 60 %, 및 70 %로 설정하여, 수행되었다. 동일한 개인의 상이한 세포들(90) 사이의 상관도로부터 발생할 수 있는 인공적인 과잉 훈련을 방지하기 위한, 기계-학습 모듈(84)은 동일한 개인으로부터의 데이터를 훈련 데이터(87) 또는 테스트 데이터(98)에서 완전히 유지하는 방식으로 데이터베이스(86)를 분할한다.
기계-학습 모듈(84)은, 압축기(104)가 분류를 위해 의존될 표면 파라미터들의 수를 더 축소시키도록 한다. 일부 실예들에서, 압축기(104)는 각각의 지니 인덱스들에 기반하여 특정 채널 내의 표면 파라미터들을 랭크화하고, 그 채널에 대한 일부 수 Mp의 최상의 파라미터들을 유지함으로써, 그렇게 한다. 일부 실예들에서, 최상의 파라미터들은 분리력(segregation power)에 대한 능력과 다른 표면 파라미터들과의 낮은 상관도에 기반하여, 선택된다. 예를 들어, 파라미터 간 상관도 임계값을 변경함으로써, 분류를 위해 의존될 표면 파라미터들의 수가 변경될 수 있다.
도 13은 상관도 계수의 임계값을 변경하는 것이 랜덤 포레스트 방법을 사용하여 선택된 표면 파라미터들의 수에 어떤 영향을 미치는지 도시하고 있으며, 가장 좌측의 패널은 높이 채널에서 이용 가능한 표면 파라미터들에 대응하고, 가운데 패널은 접착력 채널에서 이용 가능한 표면 파라미터들에 대응한다. 수직 스케일로의 변경에서 명백한 바와 같이, 가장 우측의 패널은 높이 채널과 접착력 채널의 조합을 나타낸다. 비록 도 13은 랜덤 포레스트 방법으로 특정되지만, 다른 방법들도 유사한 곡선들을 갖는다.
트리들이 훈련되면, 테스트 데이터(98)에 대해 정확하게 분류하는 능력을 테스트하거나, 대안적으로, 미지의(unknown) 샘플들을 분류하는 데 사용하는 것이 적절하다. 분류 프로세스는 트리 보팅(voting)의 결과를 얻고, 그 결과를 샘플이 속하는 클래스를 나타내는 확률의 기초로 사용하는 것을 포함한다. 그리고, 이러한 결과는 허용 가능한 오차를 기반으로 설정된 분류기 임계값과 비교된다. 이 분류기 임계값은 전형적으로 수신기 작동 특성을 구축하는 과정에서 다양하게 만들어 진다.
한 실험에서, 소변(88)의 샘플들은 25 명의 암에 걸린 환자들 및 43 명의 암이 없는 환자들로부터 수집되었다. TURBT에 의해 정의된 바에 따라, 암에 걸린 환자들 중, 14 명은 낮은 등급이었고, 7 명은 높은 등급이었다. 암이 없는 환자들은 건강했거나, 과거에 암에 걸렸었다. 원자힘 현미경(8)에 결합된 광학 현미경을 사용하여, 인간 관찰자는 세포들로 보이는 둥근 객체들을 임의로 선택했다.
데이터베이스는 수학식 14에 언급된 데이터-축소 프로세스를 사용하여 더 축소되었다. 따라서, 결과적으로 생성기(generator)(100)는 Pnm (k;s)=median{Pmn (k;s;p)}이었고, 여기서, p는 각 이미지의 네 개의 파티션들에 대응하는 1과 4 사이의 정수이다. 결과적으로 압축된 데이터베이스는 두 개의 클래스들을 갖고, 하기 수학식과 같이 표현될 수 있다.
환자 당 적어도 다섯 개의 세포들이 이미징되었다. 단순성을 위해, 두 개의 특성들만, 즉 높이 및 접착력이 고려되었다.
도 14는 랜덤 포레스트 방법 내에서 계산된 높이 및 접착력 특성들에 대한 표면 파라미터들의 중요도 계층을 도시하고 있다. 도면은, 평균에 대한 하나의 표준 편차를 나타내는 오차 막대와 함께 중요도 계수들의 평균들을 보여준다. 데이터베이스(86)는 훈련 데이터(87)와 테스트 데이터(89)로 1,000번 무작위로 분할되었다.
높이 및 접착력에 대한 매핑된 특성들은, 기본적으로 표면 파라미터들의 벡터들에 적용되는 데이터-축소 방법(수학식 3-1)인, 텐서 덧셈을 통해 조합되었다. 관련 텐서 덧셈 연산은 하기 수학식과 같이 표현된다.
도 9의 경우와 같이, 도 14의 각 표면 파라미터는 그 이름으로 표면 파라미터의 표준 이름을 갖지만, 그 이름이 도출된 매핑된 특성을 나타내는 문자(letter)가 앞에 붙는다. 예를 들어, “a_Sds”는 접착력 특성의 이미지에서 도출된 “Sds”파라미터를 의미한다.
랜덤 포레스트 방법에 대한 적합한 통계적 성능 메트릭은 수신기 작동 특성 및 오류 매트릭스를 검사하는 것에 기인한다. 수신기 작동 특성은 민감도(sensitivity) 및 특이성(specificity)의 범위를 정의하는 것을 허용한다. 민감도의 범위는 세포가 암에 걸린 환자에서 기인된 것으로 분류할 때의 “정확도(accuracy)”에 대응하는 반면, 특이성은 세포가 암이 없는 환자에서 기인된 것으로 분류할 때의 “정확도”에 대응한다. 수신기 작동 특성은 수신기 작동 특성을 특이성의 범위 및 민감도의 범위를 하기 수학식과 같이 정의하는 데 사용할 수 있게 한다.
여기서, TN, TP, FP, FN은 각각 참 음성(true negative), 참 양성(true positive), 거짓 양성(false positive), 및 거짓 음성(false negative)를 나타낸다.
도 15는 세 개의 상이한 곡선들을 도시하고 있고, 이들의 각각은 상이한 수들의 표면 파라미터들을 고려하여 달성된 정확도를 보여주며, 상술된 바와 같이 상이한 자기-상관도(self-correlation) 임계값들 및 중요도 계수들을 선택하는 것에 기반하여, 표면 파라미터들이 선택되었다.
도 15의 세 개의 상이한 곡선들의 각각은 훈련 데이터(87)와 테스트 데이터(89) 사이의 1,000 번의 무작위 분할들을 통해 도달되었다. 곡선들은 각 세트에 대한 데이터의 할당에서 상이하다. 첫 번째 곡선은 데이터의 70 %가 훈련 데이터(87)에 할당되고 30 %가 테스트 데이터(89)에 할당되는 것에 해당한다. 두 번째 곡선은 데이터의 60 %가 훈련 데이터(87)에 할당되고 40 %가 테스트 데이터(89)에 할당되는 것에 해당한다. 그리고, 세 번째 곡선은 훈련 데이터(87)와 테스트 데이터(89) 사이의 균등 분할에 해당한다.
도 15의 검사로부터, 특정 임계값 분할에 거의 의존하지 않는다는 것이 명백하다. 이는, 기계-학습 모듈(84)에 의해 수행된 절차의 강건성을 나타낸다.
도 16은 수신기 작동 특성들의 패밀리를 도시하고 있다. 도 16에 도시된 특성들의 패밀리에서 개별 수신기 작동 특성은 데이터베이스(86)를 훈련 데이터(87)와 테스트 데이터(89)로 200 번의 상이한 무작위 분할들로부터 발생했다.
각 수신기 작동 특성은 두 개의 클래스들 사이에서 분류하고자 할 때, 상이한 임계값들에 대한 민감도와 특이성을 보여준다. 도 16의 플롯을 양분하는 대각선은 동전을 뒤집음으로써 분류하는 분류기에 이른다. 따라서, 수신기 작동 특성이 도 16에 도시된 대각선에 가까울수록, 분류기는 분류에 더 취약하다. 곡선들이 대각선에서 멀리 떨어져 있고 개별 곡선들 사이의 변동이 거의 없다는 사실은, 분류기의 효율성과 훈련 데이터(87)와 테스트 데이터(89)에 대한 특정 선택에 대한 둔감함(insensitivity)을 모두 시사한다.
수신기 작동 특성을 구성할 때, 특정 확률 값이 한 클래스에 해당하는지 또는 다른 클래스에 해당하는지 정의하는 임계값은 자유 파라미터(free parameter)이다. 이 파라미터에 대한 선택은 민감도와 특이성 둘 다를 제어한다. 각 수신기 작동 특성에 대해, 제1 클래스에 있어야 하는 샘플을 제2 클래스로 분류하는 최소 오차에 해당하는 지점이 존재하며, 그 반대의 경우도 마찬가지이다. 이는, 단일 채널을 사용할 때 사용되는 세 개의 기계-학습 방법들의 각각에 대해, 도 21에 도시되어 있다.
도 21에 도시된 각 행은 수집된 세포들에 대한 특정 수(N)와 진단을 위해 임계값으로 사용된 더 작은 수(M)로 특징지어 진다. 각 행에 대해, 두 개의 채널들, 즉 높이 및 접착력이 고려되었다. 사용된 세 개의 기계-학습 방법들의 각각에 대해, 표는 데이터베이스의 70 %가 훈련 데이터에 할당되도록 하는, 훈련 데이터와 테스트 데이터로의 데이터베이스의 1,000 번의 무작위 분할들에 대한 평균 AUC 및 정확도를 도시하고 있다. 정확도는 분류에서 최소 오류와 연관된다. 도 21의 각 행은 민감도와 특이성도 보여준다.
원칙적으로, 민감도 및 특이성은 민감도와 특이성이 동일한 균형점 주위에서 정의될 수 있다. 인간 서브젝트들의 제한된 수로 인해, 이 균형점이 어디에 있는지 정확하게 정의하기는 어렵다. 따라서, 도 21에서, 동일함에 대한 요구 사항이 완화되고, 민감도와 특이성 사이의 차이의 크기가 선택된 값보다 더 작아야 하는 균형 범위가 정의되었으며, 이는 도 21에서 5 % 였다.
수신기 작동 특성을 계산하기 위해, 10 개의 표면 파라미터들이 사용되었다. 도 15에 명백한 바와 같이, 더 많은 표면 파라미터들을 추가해도, 정확도가 크게 향상되지 않는 체감(diminishing returns) 지점이 있다. 도 15에 따르면, 80 %의 비교적 높은 정확도를 달성하기 위해, 8 내지 10 개의 신중하게 선택된 표면 파라미터들만을 사용하는 것으로 충분하다. 상위 10 개의 표면 파라미터들은 분류기(100)의 민감도, 특이성 및 정확도를 포함하는 수신기 작동 특성 및 오류 매트릭스의 통계적 거동을 특성화하기 위해 고려되었다.
세포를 암이 없는 환자 또는 암에 걸린 환자에 기인하는 것으로 분류하는 프로세스는 그 세포에 대해 구해진 확률을 그 확률을 획득하는 데 사용된 절차의 모든 반복들에 대해 평균하는 것에 의존한다. 이것은 하기 수학식과 같이 표현된다.
여기서, 분류기 AI는 훈련 데이터베이스(87)에서 개발된 기계 학습 방법들을 사용하여 개발되었다. 이 절차에 따르면, 클래스 1이 암 세포를 나타내는 것으로 가정하면, Probn (l)이 수신기 작동 특성으로부터 구해진 특정 임계값을 초과하는 경우, 세포가 암에 걸린 환자에 기인된 것으로 식별된다.
도 18 및 도 19에 도시된 데이터의 정확성을 확인하기 위해, 도 19 및 도 20에 사용된 것과 동일한 절차로 대조군 실험이 수행되었지만, 분류될 샘플들은 암 세포들과 건강한 세포들로 균등하게 분할되었다. 도 17 및 도 18은 1,000 번의 무작위 분류 선택을 보여준다. 정확도가 예측들과 일치하는 53 % ± 10 %로 떨어졌음이 분명하다. 이는, 도 19 및 도 20에 도시된 데이터의 신뢰성뿐 아니라 기계-학습 방법이 지나치게 많은 파라미터들을 처리하기 위해 만들어질 때 발생하는 일반적인 문제인 과잉 학습에 대한 분류기의 저항(resistance)을 시사한다.
대안적인 분류 방법은, 환자의 진단을 수립하기 위해, 하나 이상의 세포에 의존한다. 이는, 높은 샘플링 오류로 인한 강건성 부족을 방지한다. 더욱이, 이는, 소변(88)에서 찾은 세포가 실제로 방광 자체에서 온 것인 지 확신할 수 없기 때문에 발생되는 오류를 방지한다. 요로의 다른 부분들은 세포들을 완벽하게 분리할 수 있다. 또한, 소변(88)은 요로의 다른 부분들로부터의 박리된 상피 세포들과 같은 다른 세포들의 모음을 포함할 수 있다. 이러한 분류 방법은, 분류된 세포들의 총 수 N으로부터 나온, 암에 걸린 환자로부터 기인된 것으로 분류된 세포들의 수 M가 미리 정의된 값 이상인 경우, 환자를 암으로 진단하는 것을 포함한다. 이는, N=M=1인 경우로 상술된 경우의 일반화이다.
N 개의 세포들에 대한 확률들에 기반하여 암을 가질 확률은 수학식 3-2 내지 수학식 3-9 또는 수학식 10 내지 수학식 14의 알고리즘들을 사용하여 할당될 수 있다. N 개의 테스트된 세포들을 암 환자(클래스 1)로부터 기인한 것으로 분류할 확률을 정의하는 바람직한 절차는 하기 수학식과 같다.
여기서, 분류기 AI는 훈련 데이터베이스(87)로부터 개발된다.
도 19 및 도 20은 도 15 및 도 16과 유사한 강건성의 정확도 및 수신기 작동 특성들을 도시하고 있으나, 이 경우, N=5이고 M=2이다. 이러한 방법의 정확도는 94 %에 도달할 수 있음을 알 수 있다. 상술된 무작위 테스트는 수신기 동작 특성 고선들 아래의 영역에 대해 50 ± 22 %를 보여준다(1,000 번의 무작위 진단 세트들의 선택의 결과). 이는, 과잉 훈련의 부족을 의미한다.
다중 N 및 M에 대한 오류 매트릭스의 계산 결과들은 두 개의 단일 채널들(높이 및 접착력)에 대해 예시된 도 20에 도시되어 있다. 조합된 채널들의 강건성은 단일 채널들을 기반으로 하는 진단에 비해 더 좋다.
상술된 절차는 암이 없는 환자들을 분류하는 데 적용될 수도 있다. 이러한 경우, 상술된 확률들은 세포가 암이 없는 환자에 속할 확률들이다.
본 발명과 그의 바람직한 실시예를 설명하였지만, 새로운 것이 주장되고 특허로 확보되는 것은 다음과 같다.

Claims (14)

  1. 환자의 방광암을 검출하는 방법에 있어서,
    상기 환자로부터 소변 샘플을 획득하는 단계;
    상기 소변 샘플로부터 하나 이상의 세포들을 수집하는 단계;
    제1 세트의 이미지들을 획득하기 위해 원자힘 현미경으로 상기 소변 샘플로부터 수집된 하나 이상의 세포들을 스캐닝하는 단계; 및
    기계-학습 알고리즘을 이용하여, 상기 제1 세트의 이미지들을 제2 세트의 이미지들에 대해 비교하는 단계
    를 포함하고,
    상기 제2 세트의 이미지들은 방광암에 걸린 것으로 알려진 자로부터 수집된 세포들의 이미지들을 포함하는, 환자의 방광암을 검출하는 방법.
  2. 제1항에 있어서,
    상기 소변 샘플로부터 하나 이상의 세포들을 수집하는 단계는,
    하나 이상의 방광 세포들을 수집하는 단계
    를 포함하는, 환자의 방광암을 검출하는 방법.
  3. 제1항에 있어서,
    상기 제1 세트의 이미지들은 상기 소변 샘플로부터 수집된 하나 이상의 세포들의 표면들과 연관되어 있는, 환자의 방광암을 검출하는 방법.
  4. 제1항에 있어서,
    상기 제1 세트의 이미지들의 각 이미지는 상기 소변 샘플로부터 수집된 하나 이상의 세포들로부터의 최대 하나의 세포의 이미지인, 환자의 방광암을 검출하는 방법.
  5. 제1항에 있어서,
    상기 제2 세트의 이미지들은 방광암에 걸린 것으로 알려진 자로부터의 소변으로부터 추출된 세포들을 스캐닝함으로써 획득되는, 환자의 방광암을 검출하는 방법.
  6. 제1항에 있어서,
    상기 제2 세트의 이미지들은 방광암에 걸린 것으로 알려진 자의 소변으로부터 추출된 세포들의 표면들의 이미지들을 포함하는, 환자의 방광암을 검출하는 방법.
  7. 제1항에 있어서,
    상기 제2 세트의 이미지들은 방광암에 걸린 것으로 알려진 자의 소변으로부터 추출된 세포들을 스캐닝함으로써 획득되고, 상기 제2 세트의 이미지들의 각 이미지는 따라서 추출된 상기 세포들 중 최대 하나의 이미지인, 환자의 방광암을 검출하는 방법.
  8. 제1항에 있어서,
    상기 제2 세트의 이미지들은 방광암에 걸린 것으로 알려진 자의 소변으로부터 추출된 하나 이상의 세포들의 표면들의 이미지들을 포함하고, 상기 제2 세트의 이미지들의 각 이미지는 따라서 추출된 상기 세포들 중 최대 하나의 표면의 이미지인, 환자의 방광암을 검출하는 방법.
  9. 제1항에 있어서,
    상기 제1 세트의 이미지들은 상기 소변 샘플로부터 수집된 세포들 중 하나 이상의 표면들과 연관되어 있고, 상기 원자힘 현미경은 상기 소변 샘플로부터 수집된 하나 이상의 세포들의 표면들의 복수의 표면 특성들 중 각 하나에 대한 정보를 제공하는, 환자의 방광암을 검출하는 방법.
  10. 제1항에 있어서,
    상기 제2 세트의 이미지들은 방광암에 걸린 것으로 알려진 자로부터 추출된 하나 이상의 세포들의 표면들의 이미지들을 포함하고, 상기 원자힘 현미경은 따라서 추출된 상기 세포들의 표면들의 복수의 표면 특성들 중 각 하나에 대한 정보를 제공하는, 환자의 방광암을 검출하는 방법.
  11. 제1항에 있어서,
    상기 소변 샘플로부터 하나 이상의 세포들을 수집하는 단계는,
    상기 소변 샘플로부터 적어도 5개의 세포들을 수집하는 단계
    를 포함하는, 환자의 방광암을 검출하는 방법.
  12. 제1항에 있어서,
    상기 소변 샘플로부터 하나 이상의 세포들을 수집하는 단계는,
    적어도 5개의 방광 세포들을 수집하는 단계
    를 포함하는, 환자의 방광암을 검출하는 방법.
  13. 제1항에 있어서,
    상기 소변 샘플로부터 수집된 하나 이상의 세포들을 스캐닝하는 단계는,
    서브-공진 태핑 모드에서 상기 원자힘 현미경을 동작시키는 단계
    를 포함하는, 환자의 방광암을 검출하는 방법.
  14. 제1항에 있어서,
    상기 소변 샘플로부터 수집된 하나 이상의 세포들을 스캐닝하는 단계는,
    링잉 모드에서 상기 원자힘 현미경을 동작시키는 단계
    를 포함하는, 환자의 방광암을 검출하는 방법.
KR1020237042280A 2018-11-07 2019-11-07 표면 식별을 위한 원자힘 현미경 KR20230172608A (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201862756958P 2018-11-07 2018-11-07
US62/756,958 2018-11-07
US201862772327P 2018-11-28 2018-11-28
US62/772,327 2018-11-28
PCT/US2019/060225 WO2020097302A1 (en) 2018-11-07 2019-11-07 Atomic-force microscopy for identification of surfaces
KR1020217016837A KR102613720B1 (ko) 2018-11-07 2019-11-07 표면 식별을 위한 원자힘 현미경

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020217016837A Division KR102613720B1 (ko) 2018-11-07 2019-11-07 표면 식별을 위한 원자힘 현미경

Publications (1)

Publication Number Publication Date
KR20230172608A true KR20230172608A (ko) 2023-12-22

Family

ID=70612174

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020217016837A KR102613720B1 (ko) 2018-11-07 2019-11-07 표면 식별을 위한 원자힘 현미경
KR1020237042280A KR20230172608A (ko) 2018-11-07 2019-11-07 표면 식별을 위한 원자힘 현미경

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020217016837A KR102613720B1 (ko) 2018-11-07 2019-11-07 표면 식별을 위한 원자힘 현미경

Country Status (8)

Country Link
US (3) US11506683B2 (ko)
EP (1) EP3877823A4 (ko)
JP (2) JP7339337B2 (ko)
KR (2) KR102613720B1 (ko)
CN (1) CN113272860A (ko)
AU (1) AU2019374820A1 (ko)
CA (2) CA3118950C (ko)
WO (1) WO2020097302A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102613720B1 (ko) * 2018-11-07 2023-12-13 트러스티즈 오브 터프츠 칼리지 표면 식별을 위한 원자힘 현미경
WO2022258084A1 (en) 2021-07-13 2022-12-15 Ceske Vysoke Uceni Technicke V Praze A method of examining a sample in an atomic force microscope
TWI783684B (zh) 2021-09-15 2022-11-11 國立成功大學 檢測磁性分布的方法
KR20230105832A (ko) 2022-01-05 2023-07-12 전북대학교산학협력단 원자힘 현미경용 수정진동자 캔틸레버 및 프로브
KR20230126264A (ko) * 2022-02-21 2023-08-30 가톨릭대학교 산학협력단 오가노이드 선별 장치 및 방법

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6922482B1 (en) * 1999-06-15 2005-07-26 Applied Materials, Inc. Hybrid invariant adaptive automatic defect classification
US20080026410A1 (en) 2004-12-02 2008-01-31 Antonia Vlahou Biomarkers for Bladder Cancer
KR100794516B1 (ko) * 2007-12-03 2008-01-14 한국정보통신대학교 산학협력단 사례 기반 기계학습 추론을 이용한 질환 진단 및 검사 항목선정 시스템 및 방법
RU2010151919A (ru) 2008-05-20 2012-06-27 Зе Реджентс Оф Зе Юниверсити Оф Калифорния (Us) Анализ ex vivo клеток с целью детектирования болезненного состояния и выбора и мониторинга терапевтического агента
WO2013028807A2 (en) * 2011-08-22 2013-02-28 Somalogic, Inc. Renal cell carcinoma biomarkers and uses thereof
US9904866B1 (en) 2012-06-21 2018-02-27 Amazon Technologies, Inc. Architectures for object recognition
WO2015017798A2 (en) 2013-08-02 2015-02-05 CRIXlabs, Inc. Method and system for predicting spatial and temporal distributions of therapeutic substance carriers
EP3063289B1 (en) * 2013-10-28 2020-01-08 Molecular Devices, LLC Method and system for classifying and identifying individual cells in a microscopy image
JP6767966B2 (ja) * 2014-04-09 2020-10-14 エントルピー インコーポレーテッドEntrupy Inc. 微視的差異からの機械学習を使用する物体の真贋鑑定
AU2015331579A1 (en) * 2014-10-17 2017-05-25 Cireca Theranostics, Llc Methods and systems for classifying biological samples, including optimization of analyses and use of correlation
WO2016198535A1 (en) 2015-06-11 2016-12-15 Riethmüller Christoph In vitro method for quantifying nano-objects of mammalian skin cells
CN109564617B (zh) * 2016-06-13 2023-09-26 纳诺利弗股份有限公司 表征和成像微观物体的方法
FR3062214B1 (fr) * 2017-01-20 2022-10-21 Centre Nat Rech Scient Sonde pour microscope a force atomique equipe d'un resonateur optomecanique, et microscope a force atomique comportant une telle sonde
JP6675433B2 (ja) * 2018-04-25 2020-04-01 信越化学工業株式会社 欠陥分類方法、フォトマスクブランクの選別方法、およびマスクブランクの製造方法
KR102613720B1 (ko) * 2018-11-07 2023-12-13 트러스티즈 오브 터프츠 칼리지 표면 식별을 위한 원자힘 현미경

Also Published As

Publication number Publication date
EP3877823A1 (en) 2021-09-15
CN113272860A (zh) 2021-08-17
US20220003798A1 (en) 2022-01-06
JP2022507112A (ja) 2022-01-18
JP2023159339A (ja) 2023-10-31
JP7339337B2 (ja) 2023-09-05
US20240012022A1 (en) 2024-01-11
US11796564B2 (en) 2023-10-24
AU2019374820A1 (en) 2021-06-24
US20230058610A1 (en) 2023-02-23
JP7478292B2 (ja) 2024-05-02
US11506683B2 (en) 2022-11-22
CA3118950A1 (en) 2020-05-14
CA3118950C (en) 2024-01-09
KR20210103468A (ko) 2021-08-23
CA3221066A1 (en) 2020-05-14
EP3877823A4 (en) 2022-07-27
WO2020097302A1 (en) 2020-05-14
KR102613720B1 (ko) 2023-12-13

Similar Documents

Publication Publication Date Title
KR102613720B1 (ko) 표면 식별을 위한 원자힘 현미경
KR101812406B1 (ko) 피부질환 진단 방법 및 피부질환 진단 시스템
US20060036372A1 (en) Method and apparatus for tissue modeling
US8687879B2 (en) Method and apparatus for generating special-purpose image analysis algorithms
JP3947109B2 (ja) コンピュータ利用画像分析
Jaworek-Korjakowska et al. Automatic classification of specific melanocytic lesions using artificial intelligence
US20120184840A1 (en) Automated Measurement of Brain Injury Indices Using Brain CT Images, Injury Data, and Machine Learning
CN110503635B (zh) 一种基于异构数据融合网络的手骨x光片骨龄评估方法
CN113610808B (zh) 基于个体脑连接图的群体脑图谱个体化方法、系统和设备
CN116188423B (zh) 基于病理切片高光谱图像的超像素稀疏解混检测方法
CN112614126A (zh) 基于机器学习的磁共振图像脑区划分方法、系统和装置
US20190258846A1 (en) Three-Dimensional Cell and Tissue Image Analysis For Cellular And Sub-Cellular Morphological Modeling And Classification
CN111833321B (zh) 一种调窗优化增强的颅内出血检测模型及其构建方法
CN115457334A (zh) 静息态功能磁共振影像数据分类方法、系统及相关产品
Don et al. A new approach for mammogram image classification using fractal properties
Karnowski et al. Automatic detection of retina disease: Robustness to image quality and localization of anatomy structure
IT201800005163A1 (it) Sistema di rilevamento di masse tumorali basato sulla risonanza magnetica per immagini
Paz Arbaizar Deep-learning based prediction of clinical outcomes in FSHD patients from muscle ultrasound images acquired at multiple locations
Cheeseman A Critical Examination of Two Specific Approaches Used to Characterize Medical Images: i) Projection-based Descriptors for Image Retrieval and ii) Estimating Fractal Dimensions of Discrete Sets
Ghazi et al. Neighborhood Feature Extraction and Haralick Attributes for Medical Image Analysis: Application to Breast Cancer Mammography Image
Ruchi et al. Classification of Lumbar Disc Disorder from MRI and CT images using Iterative Differential Approach
Dessouky et al. Statistical Analysis of Alzheimer’s disease images
اسراء عبد الله حسين علي الدليمي Medical Images Classification by using Artificial Intelligence Techniques
CN117911313A (zh) 多特征融合的腮腺肿物分类方法、系统及电子设备
Zhang et al. A study of shape distributions for estimating histologic grade

Legal Events

Date Code Title Description
A107 Divisional application of patent
A302 Request for accelerated examination
E902 Notification of reason for refusal