KR20170118032A

KR20170118032A - 분석의 최적화 및 상관관계의 사용을 포함하는 생체 시료들을 분류하기 위한 방법 및 시스템

Info

Publication number: KR20170118032A
Application number: KR1020177013212A
Authority: KR
Inventors: 스탠리 에이치. 레미스제브스키; 클레이 엠. 톰슨; 씬잉 무; 멕스 디엠; 아이세굴 에르긴; 마크 콘
Original assignee: 시레카 테라노스틱스, 엘엘씨
Priority date: 2014-10-17
Filing date: 2015-10-19
Publication date: 2017-10-24
Also published as: US20160110584A1; AU2015331579A1; WO2016061586A1; JP2018502275A; US10043054B2; HK1243207A1; EP3207499A1; EP3207499A4

Abstract

생체 시료의 이미지를 수신하는 단계, 하나 이상의 알고리즘들을 이미지에 적용하는 단계, 이미지에 적용된 하나 이상의 알고리즘들의 결과에 근거하여 생체 시료의 분류를 생성하는 단계, 표시(presentation) 매체를 통하여 표시되도록 생체 시료의 분류를 전송하는 단계를 포함하는 생체 시료를 분류하는 방법들, 시스템들 및 장치들. 방법들, 시스템들, 및 장치들은 또한 하나의 플랫폼과 다른 플랫폼 또는 하나의 머신과 다른 머신또는 동일한 머신의 다른 지점들을 비교하도록 하는 데이터 마스터 참조 및/또는 다른 상관분석/변형 특성들을 개발하기 위한 특성들을 포함한다.

Description

분석의 최적화 및 상관분석의 사용을 포함하는 생체 시료들을 분류하기 위한 방법 및 시스템 {METHODS AND SYSTEMS FOR CLASSIFYING BIOLOGICAL SAMPLES, INCLUDING OPTIMIZATION OF ANALYSES AND USE OF CORRELATION}

본 발명은 2014. 10. 17 자로 출원된 미국 예비 특허 출원 번호 62/065421호의 발명의 명칭 “적외선 분광 조직병리학에 의한 페의 악성 및 양성 종양들의 분류”를 우선권 주장하여 출원한다.

본 출원은 2012. 10. 5 자로 출원된 미국 특허 출원 번호 13/645,970 “분광 이미징에 의한 생체 표본의 분석을 위한 방법 및 시스템”을 우선권 주장하는 2010. 6. 25 자로 출원된 미국 특허 출원 번호 61/358,606 “분광 조직병리학을 통한 조직병리학 표본들의 디지털 염색”; 2011. 10. 5 자로 출원된 미국 특허 출원 번호 61/543,604 “분광 이미징에 의한 표본들의 분석을 위한 방법” 을 우선권 주장하는 2012. 10. 5 자로 출원된 미국 특허 출원 번호 13/645,970 “분광 이미징에 의한 생체 표본의 분석을 위한 방법 및 시스템”; 2011. 10. 17 자로 출원된 미국 특허 출원 번호 61/543,604 “의학적 질환들을 식별하기 위한 분광 데이터를 분석하기 위한 방법 및 시스템”; 미국 특허 번호 9,025,850의 연속 부분 출원인 2015. 9. 8 자로 발행된 미국 특허 번호 9,129,371 “분광 이미징에 의한 생체 표본들의 분석을 위한 방법”; 국제 출원일 2009. 5. 29의 PCT 특허 출원 번호 PCT/US2009/045681 “세포 장애를 검출하기 위하여 유용한 세포 스펙트럼들의 재구성 방법”에 근거하고, 미국 예비 특허 출원 번호 61/056,955 “분광 매핑 데이터로부터 세포 스펙트럼들을 재구성하는 방법”을 우선권 주장 출원하는 2013. 4. 23 자로 발행된 미국 특허 번호 8,428,320 “세포 장애를 검출하기 위하여 유용한 세포 스펙트럼들의 재구성 방법”; 2010. 4. 9자로 출원된 미국 예비 특허 출원 번호 61/322,642 “조정가능한 레이저-기반 적외선 이미징 시스템 및 그 사용 방법”에 근거하고, 2014. 8. 26 자로 발행된 미국 특허 번호 8,816,279 “조정가능한 레이저-기반 적외선 이미징 시스템 및 그 사용 방법”; 및 2013. 3. 19자로 출원된 미국 예비 특허 출원 번호 61/803,376 “의학적 진단을 위한 인간 세포들 및 조직들의 적외선 및 라만 마이크로-분광 이미징”에 근거하고, 2014. 3. 19 자로 출원된 미국 특허 출원 번호 14/219,984 “분광 이미징에 의한 생체 표본들의 분석을 위한 방법 및 시스템”; 및 2015. 8. 12 자로 출원된 미국 예비 특허 출원 번호 62/204,340 “생체 표본의 이미지 내에서 세포 서브타입들을 식별하기 위한 방법 및 시스템”;과 관련한 주제를 포함한다. 위의 출원들은 그 전체가 여기에 참조된다.

본 발명은 생체 시료를 분류하는 시스템들 및 방법들에 관한 것이다. 보다 상세하게는, 상기 시스템들 및 방법들은 생체 시료의 이미지를 수신하고, 자료 저장소로부터 하나 이상의 알고리즘들을 상기 이미지에 적용하고, 및/또는, 상기 이미지에 적용된 하나 이상의 알고리즘들의 결과에 근거하여 생체 시료의 분류를 생성하고, 및/또는 디스플레이 또는 다른 매체에 표시하기 위하여 상기 분류를 전송하는 것을 포함한다.

또한, 상기 시스템들 및 방법들은 하나의 플랫폼 또는 머신으로부터의 데이터 세트들을 다른 플랫폼 또는 머신의 것들과 비교하거나, 또는 동일한 머신의 서로 다른 지점들로부터의 데이터 세트들을 다른 것들과 비교하도록 하는 데이터 마스터 참조를 개발하기 위한 특성들 및/또는 다른 상관분석/변형(translation) 특성들을 포함할 수 있다.

현재의 기술에 존재하는 문제중 하나는 생체 시료들 내의 결함의 검출과 분석적 결과들을 의사로 전달하는 것을 향상시키는 방법들 및 시스템들이 부족하다는 것이다.

관련 기술에서, 다수의 질병들은 핵 및 분자 형태학의 검사를 수반하고, 패턴을 염색하는(staining pattern) 고전적인 세포병리학(cytopathology) 및 조직병리학(histopathology) 방법들을 사용하여 진단될 수 있다. 일반적으로, 이러한 진단은 생체 시료 내의 최대 10,000개의 세포들을 검사하고, 이상(abnormal) 가능성 있는 대략 10 내지 50개의 세포들 또는 작은 섹션을 찾는 것으로부터 발생한다. 이와 같이 찾는 것은 샘플 내의 세포들의 시각적인 미시적(microscopic) 검사(inspection)의 주관단계해석(subjective interpretation)에 근거한다.

전통적인 세포학은 파파니콜로(Papanicolaou)가 일반적으로 “Pap” 테스트로 알려진 테스트에 의하여 자궁경부 질환의 시작을 모니터링 하기 위한 방법을 소개한 지난 세기의 중반 정도로 추정된다. 이 테스트를 위하여, 스패튤라(spatula) 또는 브러쉬를 사용하여 세포들이 박리되고, 검사를 위하여 현미경 슬라이드 상에 놓여진다.

검사의 독창적인 실시에 있어서, 박리 브러쉬는 현미경 슬라이드 상에 도말되고, 이를 “Pap 도말(smear)”이라 한다.

결과적으로, 세포들은 헤마톡실린-에오신(H&E, hematoxylin/eosin) 또는 Pap 도말(H&E와 다른 대비염색제(counterstain)들을 포함하는)로 염색되고, 저전력 현미경을 사용하여 세포학자(cytologist) 또는 세포병리기사(cyto-technician)에 의하여 시각적으로 검사된다.

이러한 샘플들의 미시적 관점은 종종 세포들의 응집(clumping)과 세포 잔해들 및 혈액 기반 세포들(적혈구(erythrocytes) 및 백혈구/림프구(leukocytes/lymphocytes))에 의한 오염을 보여준다. 따라서, 원래의 “Pap-테스트”는 매우 높은 비율의 허위양성(false-positive) 및 허위음성(false-negative) 진단들을 갖는다. 현대의, 액체-기반 방법들(예를 들어, 세포-원심분리(cyto-centrifugation), ThinPrep® 또는 Surepath® 방법들)은 세포 응집을 제거함으로써, 그리고, 세포 타입들의 교락(confounding)을 제거함으로써 향상된 세포 샘플들을 제공받을 수 있다.

그러나, 비록, 현미경 슬라이드 상의 박리된 세포 샘플들의 준비를 위한 방법들이 상당히 향상되었다 하더라도, 관련 분야의 진단 단계는 여전히 기본적으로 시각적 검사와 세포학자들의 메모리 안의 데이터 베이스와 결과들의 비교에 의존한다. 따라서, 진단은 여전히 근본적으로(inherently) 주관적으로 이루어지고 낮은 관찰자간(inter- observer) 및 관찰자안(intra-observer)의 재현성(reproducibility)과 관련이 있다. 이런 상황을 완화시키기 위하여, 다른 관련 기술은 세포들을 시각적으로 검사하는 세포학자들을 돕기 위한 자동화된 가시광 이미지 분석 시스템들을 소개하였다. 그러나, 비정형성(atypia) 및 저급의 이형성(dysplasia)간의 차이가 극단적으로 까다롭기(difficult) 때문에, 이러한 관련 기술의 자동 이미지 기반 방법들은 세포학자들의 실질적인 책임 부담을 충분히 감소시키지 못했다.

종래의 조직병리학에서 박리된 개별 세포들 보다는, 조직 섹션들이 조직의 적절한 염색 후 현미경을 사용하여 병리학자들에 의하여 검사된다. 이상(abnormality)들을 검출하기 위하여 병리학자들은 총 조직 아키텍처(gross tissue architecture), 세포 형태학(cell morphology), 핵 형태학(nuclear morphology), 세포핵에서 세포질 비율(nucleus-to-cytoplasm ratio), 염색질 분포(chromatin distribution), 유사분열상(mitotic figures)의 제공 등에 주목한다. 이러한 기준들은 형태학 기반이기 때문에, 그들의 해석은 항상 어느정도 주관적으로 이루질 것이다. 면역조직화학(Immuno-histochemical) 및 다른 최근의 방법들은 병리학자들의 조직 진단상의 주관적인 평가를 증가시키는데(augment) 종종 사용된다.

분광(spectral)법들은 생체검사로부터 사용가능한 조직 섹션들을 조직병리학적으로 진단하는 관련 기술에 적용되어 왔다. 분광 조직병리학(SHP, Spectral Histopathology)으로 일컬어지는 이러한 접근을 위한 데이터 수집은 분광 세포병리학(SCP, Spectral Cytopathology)을 위하여 사용되는 동일한 분광 방법론을 사용하여 수행될 수 있다.

관련 분야의 몇몇 방법들에서는, 간섭(interference) 패턴을 생성하기 위하여 간섭계(interferometer)와 같은 기기를 사용하여 광대역 적외선 또는 다른 광 출력이 샘플(예를 들어, 조직 샘플)로 전송된다. 반사된 및/또는 전송된 광은 일반적으로 간섭 패턴으로서 검출된다. 이후, 각 샘플 픽셀과 관련한 분광 정보를 획득하기 위하여 검출된 패턴 상에서 고속 푸리에 변환(FFT, Fast Fourier Transform)이 수행될 수 있다. 결과 정보는 픽셀 스펙트럼으로서 나타난다.

관련된 기술 절차를 기반으로 하는 FFT의 한가지 한계는 광대역 적외선 스펙트럼 방출(emission)을 사용하기 때문에 각 밴드 패스 내의 유닛 시간당 사용가능한 방사성(radiative) 에너지의 양이 매우 낮을 수 있다는 것이다. 따라서, 일반적으로 이러한 접근을 위하여 사용가능한 데이터는 근본적으로 노이즈 제한으로 이루어진다. 또한, 수신된 데이터를 백그라운드 노이즈로부터 구별하기 위하여 예를 들어, 이와 같은 낮은 레벨의 에너지가 사용가능할때, 고감도 액체 질소 냉각 검출기(냉각이 백그라운드 IR 간섭 효과를 완화시키는)와 같은 고 감도(sensitivity) 기기들이 사용되어야 한다. 관련 분야의 시스템들의 다른 단점들은 높은 비용, 높은 공간사용(footprint), 및 높은 에너지 사용을 발생할 수 있다는데 있다.

예를 들어, 조직 샘플들과 질병 및/또는 상태의 진단, 예후(prognosis), 치료(therapies) 및/또는 예측을 위한 질병들의 분류와 같은 목적을 위한 다른 샘플들을 이미징하는데 사용하기 위한 IR 및/또는 다른 유사한 전송방법들을 전송하고 검출하기 위한 향상된 장치들, 방법들 및 시스템들을 위한 기술 분야에 충족되지 못한 요구사항들이 남아있다.

본 발명은 생체 시료를 분류하기 위한 시스템들 및 방법들에 관한 것이다. 시스템들 및 방법들은 생체 시료의 이미지를 수신하는 단계, 하나 이상의 알고리즘들을 이미지에 적용하는 단계, 이미지에 적용된 하나 이상의 알고리즘들의 결과에 근거하여 생체 시료의 분류를 생성하는 단계를 포함할 수 있다. 시스템들 및 방법들은 표시(presentation) 매체를 통하여 표시되도록 생체 시료의 분류를 전송하는 단계를 포함할 수 있다. 또한, 시스템들 및 방법들은 하나의 플랫폼과 다른 플랫폼 또는 하나의 머신과 다른 머신또는 동일한 머신의 다른 지점들을 비교하도록 하는 데이터 마스터 참조 및/또는 다른 상관분석/변형 특성들을 개발하기 위한 특성들을 포함할 수 있다.

보다 상세하게는, 예를 들어, 본 발명의 바람직한 실시예는 인접한(contiguous) 및 또는 산재된(scattered) 픽셀들로 임계값(threshold)을 적용하는 것을 포함하는 트레이닝 세트와 관련한 다양한 특성들을 제공한다. 이와 관련하여, 후술하는 바와 같이, 환자들과 픽셀들의 최적의 최소량을 선택함으로써 질병과 조직 타입 분류들을 적절히 대표하도록 데이터세트들을 트레이닝하기 위하여 “최소 룰”이 적용될 수 있다. 또한, “최소 룰”이 적용된 이후에 다중클래스 분류 알고리즘 내의 클래스의 균형을 위하여 오버샘플링(oversampling) 룰이 적용될 수 있다. 추가로, 예측 콜(call)을 생성할 때 주어진 예측된 픽셀들의 임계량을 설정(set)하기 위하여 “최소 검출” 룰이 적용될 수 있다.

본 발명의 다른 실시예에서, 정확도를 향상시키거나 저하시키도록 또는 특이성을 증가시키면서 민감성(sensitivity)을 낮추도록 정확도를 조정하기 위하여 확률 임계값(probability threshold)이 적용될 수 있다.

본 발명의 또 다른 실시예에서, 역치값들, 확률들(probabilities), 및/또는 낮게 표시된(underrepresented) 데이터의 오버샘플링을 적용하여 이질성(heterogeneity)을 보고하는 것과 관련한다. 본 발명의 바람직한 실시예에 따라, 복잡한 조직 분석이 달성될 수 있다.

본 발명은 트레이닝 세트 구성요소(composition)가 알고리즘의 정확도에 매우 큰 영향을 미친다는 사실을 나타내는것과 관련이 있다. 일관성, 계산의 효율성(예를 들어, 시간의 사용) 및 알고리즘 성능을 향상시키기 위하여, 다른 장점들 중에서도, 클래스를 위한 대표적 구성요소를 달성(achieve)하도록 최소의 트레이닝 세트 크기가 선택될 수 있다. 본 발명의 관점에 따른 한가지 접근은 특성 개수를 조절하도록 최적의 트레이닝 세트 크기를 설정하고, 대응하는 수행 이득(performance gain) 없이 추가적인 특성들을 포함하는 바람직하게 요구되는 최소 개수의 특성들을 갖는 특성 개수의 기능으로서 선택된 트레이닝 세트의 강건성을 보여주는 이것(this)을 보고하는데 있다. 다른 방법은 픽셀들의 개수를 통하여 강건성(robustness)을 보여주는 것과, 대표된 환자들의 수를 보여줌으로써 강건성을 보여주는 방법이 있다. 또한, 세가지 방법들이 조합될 수 있다.

본 발명의 또 다른 실시예는 임상(clinical)용으로서 하나의 알고리즘을 다른 알고리즘과 비교할 경우, 트레이닝 세트 메트릭스(metrics)를 디스플레이 하는 것을 포함한다. 예를 들어, 본 발명의 실시예에서 트레이닝 세트들의 정확도는 타당성 및 검증 메트릭스와 함께 보고될 수 있다. 예를 들어, 정확도는 대(versus) 환자/샘플 카운트, 대 픽셀 카운트 및 대 특성 카운트로 보고될 수 있다. 또한, 통계적 메트릭스 및 데이터 세트 속성들(attributes)을 포함하는 그래픽적인 보고가 생성될 수 있다. 알고리즘들, 모델들 및 다른 분석들에 의하여 출력된 보고된 값들에 대한 기여(contribution) 및 청구(claim)들 뿐만 아니라, 물질(substance)과 픽셀 레벨 위치를 상세히 나타내기 위하여 제공될 수 있는 주석들(annotations)과 이미지들의 소스를 포함하는 데이터의 소스는 이와같은 리포트 내에서 보여질 수 있다.

본 발명의 일 실시예에 따른 모델들, 알고리즘들, 주석들, 트레이닝 및/또는 테스트 세트들은 결과들과 주장(claim)들의 타당성에 추가적인 가중치(weight)를 제공하기 위하여, 그리고 예를 들어, 분류 또는 이미지들의 수집 정확도의 신뢰 레벨 출력과 같은 출력을 직접 사용하기 위하여, 타당성 소스와 함께 분류되고(labeled) 및/또는 종류가 구별될(branded) 수 있다. 또한, 주석이 달린 데이터는 임상 데이터가 알고리즘 트레이닝하기 위하여 사용되었고, 및/또는 빌드 모델들이 미확인 샘플들을 분류하기 위하여 또는 샘플들의 집단의 구성을 특징짓기(characterize)위하여 사용된 경우에 사용자로 하여금 결과들을 평가(place)하도록 하기 위한 참조로서 제공될 수 있다. 주석 데이터는 이름 또는 기관 협회에 의하여 키 오피니언 리더(key opinion leaders)를 나타내는 것에 의하여 값들과 신뢰도를 향상시킬 수 있다. 이 방법으로, 참조 데이터의 시각적/공간적 표현과 주석에 사용된 라벨 소스 또는 샘플 소스의 명칭 협회의 조합은 예측 소스와 클래스 협회의 양적인 그리고 객관적인 검증을 제공할 수 있다.

본 발명의 바람직한 실시예에 따르면, 샘플 수집은 특정 협회들 및/또는 재산들을 위한 큐레이션된(curated) 집단으로서 제공될 수 있다. 예를 들어, 집단은 환자들, 샘플들, 및/또는 결과들의 임상 트라이얼 수집을 나타낼 수 있다. 본 발명에 따른 방법들과 시스템들은 이질성을 식별할 수 있고, 복잡한 조직을 공간적으로, 객관적으로, 그리고, 양적으로 샘플 내에서 그리고 분석을 위한 집단으로서 모여진 샘플들의 모음들 내에서 특징지어질 수 있다.

본 발명의 다른 실시예는 샘플 내에서 고립될 수 있는 괴사를 검출하는 것과 특히 관련이 있다. 본 발명의 바람직한 실시예에 따르면, 괴사는 특정 방법에 의하여 식별되고, 암 세포의 존재 또는 세포 죽음을 야기하는 치료에 반응할 수 있는 결합 조직을 포함하는 말기 단계(later stage) 질병 질환들의 지표로서 사용될 수 있다.

본 발명의 또 다른 실시예는 면역 세포 활동 및/또는 응답, 염증성 질환들 및 분비(secretion)들을 검출하기 위한 방법들 및 시스템들을 포함한다. 이 방법들 및 시스템들의 실시예들은 양성, 암 및 염증성 질환들 간의 분화를 위하여 사용될 수 있다. 이러한 질환들이 다양한 요인들을 가질 수 있기 때문에, 예를 들어, 질병 질환을 나타내는 인접 세포들로부터의 분비, 면역 세포 활동 변화, 또는 질병 질환 및/또는 치료에 대한 면역 응답과 같은 것들이 적용된다.

본 발명의 또 다른 실시예는 종양 미세환경 특성화 및/또는 검출과 관련한다. 미세환경들은 환자 치료를 타게팅하는데 중요하고, 화학적 변화들을 검출하는데 사용할 경우, 약 설계, 임상 트라이얼 평가, 및 치료를 위한 응답을 평가하는데 도움을 줄 수 있다. 유사하게, 예를 들어, 샘플 내의 종양 내의 미세환경은 예후 질환을 나타낼 수 있다. 본 발명의 관점은 마이크로환경들의 이러한 특성들에 민감한 방법들 및 시스템들을 제공한다.

본 발명의 다른 실시예는 데이터베이스 또는 다른 질병 질환들, 조직 타입들 및 분광 특성들의 저장수로부터 내보내질 수 있는 픽셀들의 주석 내의 향상과 관련이 있다. 따라서, 데이터베이스 또는 다른 저장소는 예를 들어, 예측, 상관분석 및 리포트를 생성하는데 사용될 수 있는 이후의 분류자들, 트레이닝 및 테스트 데이터세트들을 위한 정보 허브로서 제공된다.

본 발명의 다른 실시예는 IR 분광 데이터를 적용하는 경우 테스트하기 위한 방법들 및 시스템들에 관한 것이다. 테스트 및 분석을 위한 이러한 방법들 및 시스템들은 몇몇 단계들에서 적용될 수 있다. 이 단계들은 픽셀(최저), 질병 타입 또는 서브타입(매체(medium)), 및 전체-샘플 및 전체 이미지(최고)를 포함한다. 미확인된 샘플들은 하나 또는 전체 레벨들과 비교될 수 있다. 비교 방법들 및 시스템들은 예를 들어, 알고리즘들, 모델들(알고리즘들의 수집), 및/또는 상관 분석(예를 들어, 클러스터 분석)을 사용하여 수행될 수 있다.

본 발명의 다른 실시예는 분류 성능의 함수로서 증가된 또는 감소된 분광 해상도(예를 들어, 버리기(binning) 또는 버리지 않기(unbinning)에 의한)를 제공하기 위한 방법들 및 시스템들에 관한 것이다. 몇몇 실시예들에서, 분광 해상도는 성능을 증가시킬 수 있는 가변 요소로서 제공된다. 예를 들어, 신호 대 노이즈를 향상시키는 반면 분광 해상도를 감소시키는 것은 예측 머신 알고리즘들을 트레이닝 하기 위한 데이터세트 또는 상관 분석에 사용하기 위한 데이터세트의 분류를 향상시키기 위한 방법을 제공할 수 있다. 이 실시예에서, 상기 방법은 특성 표현을 최적화하기 위하여 그리고 특성들의 최소 수를 확립하기 위하여 사용된 작업 데이터세트를 제공하기 위하여 2차 도함수 분석을 적용한다. 가공되지 않은(raw) 데이터(이차 도함수 분석과는 반대로) 역시 유사한 방법으로 사용가능하다.

본 발명의 다른 실시예는 성능을 최적화하고 계산 시간을 최소화하기 위하여 최소 픽셀 카운트를 확립하기 위한 방법들 및 시스템들과 관련이 있다. 보다 최적의 데이터세트들(예를 들어, 바람직한 비용, 시간 및 결과를 달성하는 데이터세트들)을 확립하기 위한 다른 접근은 요구된 픽셀들의 수를 최소화(예를 들어, 전체 양 보다 적은 몇몇 수량)하는 것을 포함한다. 예를 들어, 20,000 픽셀들 대신 2000 픽셀들이 사용된 일 실시예의 분석들은 분석 성능 안정기(plateau)를 생성하기에 충분할 수 있다. 또한, 최적화 결정들과 데이터 품질이 시각적으로 표시되고, 예측 내의 신뢰성과 사용자에 의하여 수신된 분류 결과들을 보다 향상시키기 위하여 리포트의 부분으로서 포함될 수 있는 경우, 성능의 향상들이 이루어질 수 있다.

본 발명의 다른 실시예는 다수의 관련 구조 내에서 “키 필드”으로서, 그리고 독립 ”황금 표준”으로서 작용하기 위한 IR 분광 특성을 사용하는 것을 포함한다. 화학적 및 생화학적 이미지들에 대응하는 IR 데이터세트들은 예측 및 공간적으로 데이터 마이닝(mining)하기 위하여 그리고 지표 및 “황금 표준” 이미지들을 상관분석으로서 사용하는 이후의 도메인들을 위하여 제공될 수 있다. 황금 표준들은 예를 들어, H&E, IHC(Immunohistochemistry), ISH(In-situ-hybridization), MALDI 및/또는 영역 LMD(laser micro-dissection)를 포함할 수 있다. 이러한 황금 표준 IR 데이터세트들은 게놈 및 단백질체(proteomic) 분석, 분자 분석, 및 공간적으로 분해된(resolved) MALDI를 위한 입력으로서 제공될 수 있다. 결과들을 샘플 내의 매핑 영역들에 의하여 근본적으로 수확된 IR 픽셀들과 연결짓는 것에 의하여 공간적 리포트 내에 도출될 수 있는 비-공간적 분석(차세대 시퀀싱, PCR 및 다른 분자 테스트들)의 결과들을 생성하기 위하여 역 매핑이 실시될 수 있다.

본 발명의 다른 실시예에서, 조직 마이크로 어레이(TMAs)들이 약학적 연구, 약 개발, 임상 트라이얼 관리, 및 결과 분석을 위한 기본 연구 포맷으로서 사용될 수 있다. TMA의 사용에 따른 장점들은 단일 슬라이드 상의 다양한 질병 질환들, 환자들 및/또는 샘플들의 적용가능성을 포함한다. 이러한 방법들은 가상 TMA(이미지들과 결과들의 가상 어레이들)들을 생성하기 위하여 사용된 데이터베이스로부터 추출된 데이터 세트들을 통한 유사성 및 차이 분석을 위한 큰 집단들을 빠르게 분석하기 위하여 적용될 수 있으며, 집단들은 샘플들 내의 그리고 샘플들 간의 분석(예를 들어, 미국 특허 출원 번호 62/204,340에 기술된 방법들 및 시스템들을 사용하여)에 사용될 수 있다. 또한, 가중치가 예를 들어, 이질성과 조직 복잡성이 요인들인 다중클래스 분석 내의 변수에 적용될 수 있고, 감도 및 특이성 요소들은 중요성 가중치를 적용함으로써, 감소되거나 강조될 수 있다. 이 접근은 예를 들어, 정확도 계산 및/또는 보고된 결과의 특정 결과들을 포함하거나 제외하는 것을 나타내도록 양성 또는 음성 값들을 적용하는 것을 포함한다.

본 발명의 다른 실시예는 샘플들 내의 그리고 샘플들 간의 질병 상태들, 타입들 및 조직 특성들의 임상적 표현을 정의하고 기술하기 위한 사용을 위한 IR 특성들의 표준화를 가능하게 하도록 데이터 마스터 참조 및/또는 상관분석/변형 알고리즘 또는 한 플랫폼에서 다른 플랫폼 또는 한 머신에서 다른 머신 또는 동일한 머신의 다른 지점들의 데이터세트들을 동일화(equating) 시키는 다른 함수를 개발하기 위한 특성들을 포함한다. 예를 들어, 임상적 결정-제조(decision-making)에 영향을 미치도록 샘플로부터 획득된 IR 바이오마커는 독립 가변 플랫폼들 및 머신들의 표준화 및 제조의 토대(basis)로서 사용될 수 있다. 이와 관련하여, 방법들 및 시스템들은 플랫폼(개별 기구 서플라이어 메이크(make) 및 모델) 및 데이터를 획득하기 위하여 사용된 머신의 기구 데이터 독립을 만들기 위한 다양한 특성들을 포함할 수 있다. 방법들 및 시스템들은 예를 들어, 기구가 일반적 사용 및 노화에 의하여 변화한 경우, 성능 파라미터들을 설정하는데 사용된, 그리고, 파라미터 변화들을 통하여 쉽게 다루어지지 않은 변화들을 조정하는데 사용된 피드백을 제공함으로써, 단일 기구 상의 데이터 품질을 유지하기 위하여 사용될 수 있다.

본 발명의 일 실시예에서, 현재 참조 표준은 유리 기질 상에 놓인 금 코팅 상에 놓인 (deposited) Paralyne-C의 사용이다. 기질은 적용가능한 연구실 질환들에 알맞은 임의의 적절한 물질을 포함할 수 있다. 예를 들어, 기질은 금속을 포함할 수 있다. 대안으로, 참조의 자언적 특성으로서 분광 특성의 긴 재생가능성이 달성되도록 생물학적 또는 다른 합성 물질이 사용될 수 있다.

다른 장점들 중에서, 출력에 영향을 주는 검출기 기술이 이러한 방법들 및 시스템들을 통하여 다루어질 수 있다. 일 실시예에서, 이러한 표준화를 위한 방법은 1) 데이터 수집; 2) 머신 특정 공간적 데이터 치료; 3) 가공되지 않은 데이터 준비 및/또는 사전처리된 데이터 준비; 4) 데이터베이스 또는 다른 데이터 저장소에 추가된 데이터; 5) 일반화하도록 또는 제1 소스로부터의 데이터를 알려진 파라미터들을 갖는 제2 소스로부터 획득된 데이터와 유사하게 형성하도록 다르게 데이터를 조정하도록 적용된 데이터 호환 함수; 6) 데이터 유사성 메트릭스가 계산된다(예를 들어, 바이너리 상관분석, 클러스터 멤버쉽 검증); 7) 리포트/자동 수락/거부가 생성된다; 8)조정된 데이터는 샘플의 분석과 같은 곳에 사용될 수 있다.

본 발명의 다른 실시예에서, 데이터 호환 함수는 플랫폼/머신 A 및 플랫폼 머신 B를 위한 표준 참조 데이터 세트를 사용하여 데이터 세트 A 및 B를 위하여 얻어진다. 데이터는 데이터 호환 함수를 적용한 이후의 분석을 위하여 머신 A로부터 머신 B 및/또는 기타에 의하여 생성될 수 있는 데이터와 유사하게 데이터를 조정하도록 합쳐지거나 조합될 수 있다. 이와 관련하여, 데이터 변형 수행을 식별하기 위하여 바이너리 비교가 적용될 수 있다. 또한, 플랫폼 및 머신의 선형 효과들 뿐만 아닌 비-선형 효과들이 적절한 호환 함수에 의하여 처리될 수 있다. 본 발명의 바람직한 실시예에서, 플랫폼들, 머신들 및 연구소들 간의 결과들의 광범위한 채택, 사용 및 재생가능성은 이 방법들 및 시스템들의 다양한 특성들에 따른 데이터 호환 함수를 사용함으로써 달성될 수 있다. 이러한 채택은 예를 들어, 분석될 생체 시료의 머신 및 플랫폼 독립성에 기인하는 국부적 변화를 특징짓는데 참조 분광 표준을 사용함으로써 허용될 수 있다. 또한, 예를 들어, 해상도 차이들과 같은, 다른 광학 요소들이 이러한 방법들 및 시스템들에 의하여, 예를 들어, 잘못 매치된(mismatched) 기구 플랫폼들과 머신들 간의 이미지 등록 및 보간(interpolation)에 의하여 유사하게 다루어질 수 있다.

본 발명의 변경사항들과 관련한 추가적인 장점들과 진보적 특성들은 이하의 기술된 사항의 일부인 것으로 간주될 것이다. 그리고, 이하의 기술된 사항들은 해당 기술분야의 기술자들에 의한 검토 또는 내재하는 사상의 학습을 통하여 보다 적합하게 이해될 것이다.

도 1은 본 발명의 바람직한 실시예에 따른 분광 이미징에 의하여 생체 시료를 분석하는 방법을 나타내는 플로우차트이다.
도 2는 본 발명의 바람직한 실시예에 따른 의사에게 진단 정보를 제공하는 방법의 단계들을 나타내는 플로우차트이다.
도 3은 본 발명의 바람직한 실시예에 따른 질병 또는 상태의 진단, 예후, 및/또는 예측 분류를 제공하기 위한 생물학적 표본으로부터의 분광 데이터세트를 분석하기 위한 방법의 흐름을 일 예로서 나타낸다.
도 4a 및 4b는 본 발명의 바람직한 실시예에 따른 IR 이미지 데이터를 전처리(preprocessing[전처리])하기 위한 방법의 흐름을 일 예로서 나타낸다.
도 5a는 본 발명의 바람직한 실시예에 따른 일 예의 참(true) 이미지(실제의 주석)의 컬러 복사본(Photostat)이다. 도 5b는 본 발명의 바람직한 실시예에 따른 SHP 예측 이미지의 일 예의 컬러 복사본이다. 도 5c는 본 발명의 바람직한 실시예에 따른 신뢰 예측 이미지의 일 예의 컬러 복사본이다.
도 6a는 본 발명의 바람직한 실시예에 따른 병리학 기반의 주석에 근거한 트루 이미지의 일 예의 컬러 복사본이다.
도 6b는 본 발명의 바람직한 실시예에 따른 예측 이미지의 일 예의 컬러 복사본이다.
도 6c는 본 발명의 바람직한 실시예에 따른 예측 이미지에 적용되어온 진 양성(true positive)/진 음성(true negative) 및 위 양성(false positive)/위 양성 분석 후의 일 예의 이미지의 컬러 복사본이다.
도 7은 본 발명의 바람직한 실시예에 따른 일 예의 트루 이미지의 컬러 복사본이다.
도 8은 본 발명의 바람직한 실시예에 따른 특정 조직 상태들, 클래스들 또는 서브타입을 나타낼 수 있는 폐암의 분류를 결정하기 위한 일 실시예의 룰 세트를 나타낸다.
도 9는 본 발명의 바람직한 실시예에 따른 다른 조직 클래스의 중적외선 스펙트럼의 예 들의 그래프를 제공한다.
도 10은 본 발명의 바람직한 실시예에 따른 “초분광(hyperSpectral) 데이터세트들” 또는 “분광 초입방체(hypercube)”로서 획득된 적외선 분광 이미지의 그래프를 나타낸다.
도 11은 본 발명의 바람직한 실시예에 따른 조직 점(spot)들의 HCA 기반 수도-컬러(pseudo-color) 이미지를 나타낸다. 여기에서 중간열은 염색된 조직 점을 나타내고, 좌측열은 대응하는 시각적 이미지를 나타내며, 우측열은 가시적(visible) 이미지와 적외선 이미지들의 반투명 오버레이를 나타낸다.
도 12는 도 11의 상단(top) 열에서 ADC 샘플의 일부분을 확대하여 나타낸다.
도 13은 본 발명의 바람직한 실시예에 따른 트레이닝 세트 내의 환자 수의 함수로서 정확도 및 신뢰도 구간의 시뮬레이션 그래프를 나타낸다.
도 14a 및 14b는 본 발명의 바람직한 실시예에 따른 주어진 분광 클래스(도 14a)내의 모든 분광 벡터들을 위한 주성분분석(PCA, principal component analysis) ‘스코어 플롯(scores plot)’의 그래프를 나타내고, 각각의 환자를 위한 대략 95%의 신뢰도 타원들로 도시된 동일한 정보(도 14b)를 나타낸다.
도 15는 본 발명의 바람직한 실시예에 따른 H&E 염색된 조직 점들을 매우 투명하게 나타낸 컬러 복사본이다. 여기에서 제1행(A, B)는 SCLC와 함께 진단된 조직 점, 괴사(necrosis) 및 SqCC(C, D) 점, 및 몇몇 오분류(misclassification)(E, F) 조직 점을 위한 트루(true) 및 예측된 결과를 나타낸다.
도 16은 본 발명의 바람직한 실시예에 따른 종종 낮은 플랫(Platt) 확률(probability)들을 나타내는 트루 이미지 및 오분류 영역들을 나타낸 컬러 복사본이다.
도 17은 본 발명의 바람직한 실시예에 따른 양성 종양(benign[양성] tumor)의 예들을 나타내는 컬러 복사본이다.
도 18a, 18b, 및 18c는 H&E 염색된 조직 점, 조직 점의 대표적인 HCA-기반 수도 컬러 이미지, 및 특정 조직 점을 위한 주석 절차의 결과의 합성(composite) 시각적 이미지를 나타내는 컬러 복사본들을 포함한다.
도 19는 본 발명의 바람직한 실시예에 따른 조직 샘플의 분석 및 분류 방법, 그리고 관련된 활동을 나타내는 다이어그램을 포함한다.
도 20은 본 발명의 바람직한 실시예에 따른 특성 개수의 함수로서 r-SVM 분류의 정확도를 나타내는 그래프이다.
도 21은 본 발명의 바람직한 실시예에 따른 주어진 정확도(청색 자취) 및 환자 수를 위한 신뢰도 구간(녹색 자취)을 나타내는 그래프 (a)와, 트레이닝 세트 내의 환자들의 수의 함수로서 5-클래스 SVM 분류자의 신뢰도 구간 및 정확도의 시뮬레이션 결과를 나타내는 그래프 (b)를 나타낸다.
도 22는 본 발명의 바람직한 실시예에 따른 다른 괴사 및 암 클래스들을 위한 테스트 세트로부터의 세가지 다른 라벨 이미지들의 결과들을 나타내는 복사본을 포함한다.
도 23은 본 발명의 바람직한 실시예에 따른 (a) 괴사와 함께 SqCC로서 진단된 H&E 염색된 조직 스포트와, (b) SHP 라벨 이미지(옅은 청색 및 녹색) 및 주석 영역들(밝은 녹색 및 청색)의 시각적 현미경 사진의 복사본을 포함한다.
도 24는 본 발명의 바람직한 실시예에 따른 바이어스 보정 모듈(bias correction module)의 추가 특성과 함께 질병 또는 상태의 진단, 예후, 및/또는 예측 분류를 제공하기 위하여 생체 표본으로부터 분광 데이터세트를 분석하기 위한 방법의 일 실시예를 나타낸다.
도 25는 본 발명의 바람직한 실시예에 따른 전처리 모듈과 통신하는 바이어스 보정 모듈과 관련한 다양한 실시예들을 나타낸다.
도 26은 본 발명의 바람직한 실시예에 따른 다른 시간들에서 또는 다른 조건들 하에서 머신들 간 또는 단일 머신의 정보를 분석 및/또는 상관분석(correlating)하기 위한 방법의 흐름을 나타내는 다이어그램이다.
도 27은 본 발명의 바람직한 실시예에 따른 예를 들어, 정보를 분석 또는 상관분석하기 위하여 다른 시간들에서 또는 다른 조건들 하에서 머신들 중 또는 단일 머신을 위한 도 25의 바이어스 수집 모듈의 다양한 적용 관점들을 나타낸다.
도 28은 도 24 내지 27 및 이와 관련하여 기술된 다양한 데이터 세트들로부터의 데이터를 수집하거나 또는 상관분석하고, 비교가능하게 만들거나 또는 호환가능하게 만들기 위한 실시예들을 나타내는 다이어그램을 포함한다.
도 29는 본 발명의 바람직한 실시예와 관련하여 사용하기 위한 컴퓨터 시스템의 다양한 특성들을 나타낸다.
도 30은 본 발명의 바람직한 실시예와 관련하여 사용하기 위한 일 실시예의 컴퓨터 시스템을 나타낸다.

본 발명은 조직 샘플로부터 분석적인 데이터 및/또는 의학적 진단을 제공하기 위한 방법들, 시스템들, 및 장치들을 포함한다. 이와 관련하여, 본 발명은 특히, 생체 시료를 분류하고, 생체 시료의 이미지를 수신하고, 데이터 저장소로부터의 하나 이상의 알고리즘들을 이미지에 적용하고, 이미지에 적용된 하나 이상의 알고리즘들의 결과에 근거하여 생체 시료의 분류를 생성하고, 디스플레이 또는 다른 수단에 표시하기 위하여 분류를 전송하는 시스템들 및 방법들과 관련이 있다. 또한, 상기 시스템들 및 방법들은 하나의 플랫폼으로부터 다른 플랫폼의, 또는 하나의 머신으로부터 다른 머신의 또는 동일한 머신의 다른 지점들의 데이터 세트들을 비교 가능하게 하는 데이터 마스터 참조 및/또는 다른 상관분석/변형 특성들을 개발하기 위한 특성들을 포함할 수 있다.

본 발명은 일반적으로 의학적 진단을 제공하거나 및/또는 다른 목적들을 위한 분광 이미징에 의한 생물학적 표본들을 분석하기 위한 방법에 관한 것이다. 생물학적 표본들은 수술 방법들, 생체 검사들, 및 배양된 샘플들에 의하여 획득된 의학적 표본들이 될 수 있다. 상기 방법은 생물학적 표본들의 분광 및 시각적 이미지들을 획득하고, 예를 들어, 세포 이상들, 암 발병 전(pre-cancerous)의 세포들, 및 암 세포들을 검출하기 위하여 상기 이미지들을 등록하는 것을 포함한다. 상기 생물학적 표본들은 조직 또는 세포 샘플들을 포함할 수 있으나, 몇몇 적용들을 위하여 조직 샘플들이 바람직할 수 있다. 이 방법은 염증(inflammation), 괴사(necrosis), 및 세포자멸(apoptosis)을 포함하는 비-암 효과들(non-cancerous effects) 뿐만 아니라, 흉부(breast), 자궁(uterine), 신장(renal), 고환(testicular), 난소(ovarian), 또는 전립선(prostate) 암, 소세포 폐암(small cell lung carcinoma), 비-소세포 페암(non-small cell lung carcinoma), 및 악성 흑색종(melanoma)을 포함하는 이상 또는 암 또는 다른 장애(disorders)들을 식별할 수 있으며, 상기 나열한 것들에 한정하는 것은 아니다.

본 발명의 바람직한 실시에에 따른 방법은 도 1의 플로우차트에 도시된다. 도 1에 도시된 바와 같이, 본 발명에 따른 방법은 생물학적 섹션을 획득하는 단계(301), 생물학적 섹션의 분광 이미지를 획득하는 단계(302), 동일한 생물학적 섹션의 시각적 이미지를 획득하는 단계(303), 및 이미지 등록을 수행하는 단계(304)를 포함한다. 등록된 이미지는 선택적으로 트레이닝(305)을 받을 수 있고, 의학적 진단이 획득될 수 있다(306).

도 2는 본 발명의 바람직한 실시예에 따른 분석 데이터 및/또는 의학적 진단을 제공하기 위한 방법의 높은 단계 플로우차트를 나타낸다. 도 2에서 본 발명의 바람직한 실시예에 따른 방법은 생체 시료를 획득하는 단계(S402)를 포함할 수 있다. 상기 샘플은 의사에 의하여 획득될 수 있다. 상기 샘플은 예를 들어, 생체 검사들로부터의 조직의 마이크로톰 섹션(microtome section), 박리된 세포들의 샘플로부터의 세포의 침전물(deposit), 또는 세침흡인(FNA, Fine Needle Aspiration)을 포함한다.

다양한 세포들 또는 조직들이 검사될 수 있다. 이러한 세포들은 상피세포들을 포함하는 박리된 세포들을 포함할 수 있다. 샘플이 획득된 후, 상기 방법은 샘플로부터 분광 데이터를 획득하는 단계(S404)를 포함할 수 있다. 본 발명의 바람직한 실시예에 따르면, 분광 데이터는 관련된 미국 특허 번호 제 8,816,279에 기술된 가변 레이저 기반 적외선 이미징 시스템 방법을 통하여 의사에 의하여 획득될 수 있다. 상기 데이터는 예를 들어, 코히어런트 전송(coherent transmission) 소스로서 IR 스펙트럼 가변 레이저를 사용함으로써 획득될 수 있다. 상기 가변 레이저로부터의 IR 전송의 파장은 별개의 단계들에서 흥미있는(of interest) 스펙트럼에 걸쳐(across) 변화될 수 있다. 그리고, 스펙트럼에 걸쳐 전송된 및/또는 반사된 전송들이 검출되고 분석에 사용될 수 있다. 또한, 상기 데이터는 글로바(globar)와 같은 비-레이저 기반 광원, 또는 다른 광대역 광원을 사용하는 상업적인 푸리에 변환 적외분광법(FTIR, Fourier transform infrared spectroscopy) 시스템으로부터 획득될 수 있다.

본 발명의 바람직한 실시예에 따른 일 예의 레이저는 대략 6 내지 10 μm 사이에서 IR 파장 출력을 변화시킬 수 있는 QCL이다. 전송된 및/또는 반사된 IR 파장 이미지 정보를 검출하기 위하여 검출기(detector)가 사용될 수 있다. 작동에 있어, 최소 배율(minimal magnification)과 함께, QCL로부터의 빔 출력이 30 x 30 μm 검출기에 의한 검출을 위하여 10 x 10 μm의 범위 내에서 샘플의 각 영역을 적절히 비출(illuminate) 수 있다.

본 발명의 일 실시예에서, 상기 QCL의 빔은 적외선 빔이 상기 샘플과 상호작용하는 적외선 반사 또는 전달 슬라이드 상의 거시적 지점(macroscopic spot)(대략 지름5 내지 8 mm)의 조명(illumination)을 제공하기 위하여 광학적으로 조절된다. 반사된 또는 전달된 적외선 빔은 적절한 이미지 광학(optics)을 통하여 픽셀 크기가 회절 한계(diffraction limit)보다 작은 완전히 비춰진 영역을 표본조사하는(samples) 적외선 검출기로 투영된다(projected).

조직 또는 세포들의 복셀(voxel)들의 적외선 스펙트럼은 샘플 복셀의 전체적인 화학 또는 생화학적 구성의 스냅샷(snapshot)을 나타낸다. 이러한 적외선 스펙트럼은 단계 S404 에서 획득된 분광 데이터이다. 비록, 위에서 단계 S404에서 어떻게 그리고 어떤 분광 데이터가 획득되는지에 대하여 요약하여 제공하였다 하더라도, 데이터의 획득을 포함하는 단계들의 보다 상세한 실시예는 미국 특허 번호 8,816,279에 제공된다.

분광 데이터에 추가로, S404는 동일한 생체 시료의 시각적 이미지를 수집하는 것을 포함할 수 있다. 샘플의 시각적 이미지는 일반적으로 병리학 연구실들에서 사용되는 것과 같은 표준 시각 현미경을 사용하여 획득될 수 있다. 현미경은 현미경의 시계(field of view)를 디지털적으로 캡쳐하는 고해상도 디지털 카메라와 연결될 수 있다. 이러한 디지털 실시간 이미지는 샘플의 표준 미시적 시야에 근거하여 이루어질 수 있으며, 조직 아키텍처, 세포 형태학, 및 패턴 염색을 나타내도록 이루어질 수 있다. 상기 이미지는 예를 들어, 헤마톡실린-에오신(H&E, hematoxylin and eosin) 및/또는 다른 면역조직화학물질(immunohistochemicals) 등으로 염색되거나, 또는 염색되지 않을 수 있다.

또한, 상술한 데이터에 추가로, S404는 임상 데이터를 획득하는 단계를 더 포함할 수 있다. 임상 데이터는 어떤 타입의 세포들이 샘플 내에서 보여질 것인지, 신체의 어떤 부분에서 샘플이 채취되었는지, 그리고, 어떤 타입의 질병 또는 상태가 다른 진단에서 보여질 것인지에 대한 정보를 포함할 수 있다.

의사에 의하여 예를 들어, 분광 데이터, 시각 이미지, 및 임상 데이터 등과 같은 모든 데이터가 획득된 후, 상기 방법은 분석기(analyzer)로 상기 데이터를 전송하는 단계를 포함할 수 있다. 예를 들어, 상기 분석기는 전송된 데이터를 수신하기 위하여 작동가능한 수신 모듈을 가질 수 있다. 상기 데이터는 컴퓨터, 모바일 폰, PDA 등과 같은 데이터의 전송이 가능한 전기 장치로 자동 또는 수동으로 입력될 수 있다. 본 발명의 바람직한 실시예에서, 상기 분석기는 상기 데이터를 분석하기 위한 적절한 알고리즘들을 갖는 원격지에 위치된 컴퓨터를 포함할 수 있다. 상기 분석기는 상기 데이터가 입력되는 전기 장치로서 동일 근거리 통신망(local area network)내에 위치된 컴퓨터를 포함하거나, 또는 상기 데이터가 입력되는 동일한 전기 장치로 이루어질 수 있다(예를 들어, 의사는 상기 데이터를 분석하는 장치로 상기 데이터를 직접 입력할 수 있다). 상기 분석기가 전기 장치로부터 원격에 위치된 경우, 상기 데이터는 근거리 통신망 또는 인터넷을 통하여 로컬 컴퓨터로 전기적으로 전송하는 방법들과 같은 공지의 방법을 통하여 상기 분석기로 전송될 수 있다. 상기 분석기로 상기 데이터를 통신하기 위한 네트워크 레이아웃 및 시스템은 도 26 및 도 27과 관련하여 보다 상세히 기술된다.

의사가 의사 단(end)에서 데이터를 획득하고 상기 데이터를 원격의 분석기로 전송하는 대신에, 상기 샘플은 그 자체로(itself) 상기 분석기로 전송될 수 있다. 예를 들어, 상기 분석기는 상기 샘플을 수신하도록 동작가능한 수신 모듈을 가질 수 있다. 물리적(physical) 샘플이 상기 분석기로 전송된 경우, 상기 분석기를 작동시키는 의사는 분광 데이터를 대신 획득할 수 있다. 이 경우, 생체 시료는 분광 데이터가 전송되는것 대신 원격의 분석기로 물리적으로 전송될 수 있다. 그러나, 적용 가능한 경우 의사는 여전히 임상 데이터를 제공할 수 있다.

요구된 모든 데이터가 분석기에 의하여 획득된 이후, 상기 방법은 분석기를 통하여 상기 데이터를 특정 화학적 구성성분들의 존재 및/또는 양을 나타내는 이미지 또는 다른 포멧으로 재구축하기 위한 처리를 수행하는 단계(S408)를 포함할 수 있다. 데이터를 재구축하기 위한 처리 단계를 포함하는 상세 설명은 미국 특허 번호 9,025,850에 보다 상세히 제공되었다.

'850 특허에서 설명된 바와 같이, 처리 단계들을 따를때 흑백 또는 수도-흑백(pseudo-grayscale) 이미지로 이루어질 수 있는 이미지가 생성될 수 있다. '850 특허는 상기 처리 방법이 어떻게 S404에서 수집된 분광 데이터 내에 포함된 화학적 정보에 단독으로(solely) 또는 주로(primarily) 근거한 생체 시료의 이미지를 제공하는지를 설명한다. '850특허는 또한 상기 샘플의 시각적 이미지가 디지털적으로 염색된 흑백 또는 수도-흑백 분광 이미지와 함께 어떻게 등록될 수 있는지를 더 설명한다. 이미지 등록은 다른 데이터의 세트들을 하나의 좌표계(coordinate system)로 변환하거나 매칭하는 절차이다. 이미지 등록은 공간적으로(spatially) 제1이미지를 제2이미지와 정렬하도록 공간적으로 매칭하거나 변환하는 것을 포함한다. 등록 방법이 '850 특허에 기술된 바를 따르는 경우, 결과 데이터는 분광 데이터 내의 관심 지점(point of interest)이 시각적 샘플 내의 지점에 대응하게 한다. 상기 데이터는 의사가 예를 들어, 컴퓨터 프로그램을 통하여 분광 이미지의 일부를 선택하게 하고, 시각적 이미지의 대응하는 영역을 볼 수 있게 한다. 상기 데이터는 생체 시료를 분석할 때, 생체 시료의 고 민감성 생화학 함량(content)을 반영하는 분광 이미지를 신뢰할 수 있도록 한다.

대안으로, 상기 데이터는 이미지의 생성 없이 진단을 제공하기 위한 컴퓨터 알고리즘을 통한 진단에 적합한 포맷으로 재구축될 수 있다.

S408을 완료한 후, 상기 방법은 분석 데이터, 이미지 및/또는 등록된 이미지를 선택적으로 의사에게 접근가능한 시스템을 통하여 의사로 반환하는 단계(S410)를 포함할 수 있다. 예를 들어, 시스템은 의사가 본래 상기 데이터를 전송하는데 사용하는 것과 동일한 장치로 이루어질 수 있다. 상기 데이터, 이미지, 및/또는 등록된 이미지(예를 들어, 샘플 정보)는 예를 들어, 이하 기술되는 컴퓨터 네트워크를 통하여 전기적으로 전송될 수 있다. 이러한 작업(operation)은 예를 들어, email로 샘플 정보를 전송하거나, 또는, 상기 샘플 정보가 업로드된 어카운트로 의사가 로그인(logged)하면 상기 샘플 정보로의 접근을 제공하는 것을 포함할 수 있다. 의사가 시스템에서 상기 샘플 정보를 획득하면, 상기 의사는 질병 또는 상태를 진단하기 위하여 예를 들어 컴퓨터 소프트웨어를 사용하여 상기 정보를 검사할 수 있다.

본 발명의 다른 실시예에서, 이미지 및/또는 등록된 이미지를 의사에게 반환하는 단계 대신에 또는 추가로, 상기 데이터는 질병 또는 상태의 진단을 위하여 더 처리된다(S412). 예를 들어, '850 특허에 설명된 바와 같이, 등록된 이미지는 진단을 제공하기 위한 컴퓨터 알고리즘들을 통하여 분석될 수 있다. 이 절차는 상기 샘플 정보가 분석되기 전 알고리즘을 개발하도록 활용된 트레이닝 세트를 사용하는 것을 포함할 수 있다. 상기 트레이닝 세트는 특정 질병들 또는 상태들과 관련한 분광 데이터를 포함한다. 상기 트레이닝 세트는 보관될(archived) 수 있고, 컴퓨터 알고리즘은 사용가능한 트레이닝 세트에 근거하여 개발될 수 있다.

본 발명의 바람직한 실시예에서, 의사는 진단을 획득하기 위하여 컴퓨터 시스템을 통한 하나 이상의 알고리즘들을 사용하는 선택사항을 가진다. 예를 들어, 의사가 등록된 이미지를 포함하는 컴퓨터 시스템에 접근하는 경우, 상기 의사는 특화된 치료소(clinics)들 또는 연구실들에 의하여 제공된 트레이닝 데이터에 근거하여 알고리즘들을 선택할 수 있다. 상기 컴퓨터 시스템은 상기 생체 시료를 위한 진단을 획득하기 위하여 사용하는 알고리즘들을 선택할 수 있는 선택 모듈을 가질 수 있다. 상기 선택 모듈은 예를 들어, 상기 알고리즘들의 선택을 보조하기 위한 사용자 도움(user assistance) 또는 입력 파라미터들을 수신할 수 있다. 예를 들어, 만일 의사가 폐암 세포들을 포함하는 것으로 의심되는 생체 시료를 제출했고, 특정 치료소가 다양한 폐암 샘플들에 근거하여 트레이닝 세트 및/또는 알고리즘을 이미 개발한 경우, 상기 의사는 상기 치료소의 폐암 트레이닝 세트 및/또는 알고리즘을 사용하여 상기 생체 시료를 실행하도록 선택할 수 있다. 선택적으로, 상기 의사는 동일한 타입의 질병 또는 컨디션을 위한 다른 알고리즘들 또는 다른 질병들을 위한 다른 알고리즘들을 포함하는다른 트레이닝 세트들로부터 개발된 다수의 알고리즘들을 실행하도록 선택할 수 있다. 예를 들어, 상기 컴퓨터 시스템은 상기 생체 시료에 적용된 알고리즘들의 결과에 근거하여 생체 시료를 위한 진단을 생성하도록 작동하는 생성 모듈을 가질 수 있다. 다른 실시예에서, 샘플 내에 어떤 타입의 질병이 존재하는지를 나타내는 선행 표시(prior indication)가 존재하지 않은 경우, 사용가능한 모든 알고리즘들 전부 실행될 수 있다. 일 실시예에서, 상기 처리 단계가 윈격지에서 발생함에도 불구하고, 의사는 의사의 시스템 상에서 알고리즘들에 접근하고 선택할 수 있다.

S408의 처리 단계는 추가적인 비교 데이터 분석을 포함할 수 있다. 예를 들어, 상기 샘플이 분석된 이후, 상기 시스템은 차후의 샘플들이 비교될 수 있도록 요구된 샘플 정보를 저장할 수 있다. 임의의 특정 샘플의 결과들은 이러한 시스템 내에 저장된 모든 다른 샘플들의 결과들에 대하여 비교될 수 있다. 몇몇 실시예들에서, 임의의 요구된 샘플 정보는, 예를 들어, 사전에 특정 의사로부터 분석된 다른 샘플들에 대해서만, 또는 특정 환자로부터의 샘플들에 대해서만 비교될 수 있다. 선택적으로, 상기 의사는 샘플 결과들이 지난 결과들과 다른(inconsistent) 경우 알려질(alerted)수 있으며, 이 경우, 상기 결과들과 함께 알림(notification)이 전송될 수 있다. 비교 분석은 다른 의사 및/또는 다른 치료소 또는 연구소들로부터의 샘플들에 대하여 수행될 수 있다. 선택적으로, 비교 분석 절차는 원격지에서 발생할 수 있다.

진단 및/또는 다른 관련 샘플 정보가 의사에게 제공될 수 있다. 예를 들어, 상기 시스템은 생체 시료를 위한 진단 및/또는 다른 관련 샘플 정보를 의사에게 전송하도록 작동하는 전송 모듈을 포함할 수 있다. 상기 의사는 의사의 시스템을 통하여 진단에 접근할 수 있다. 본 발명의 일 실시예에서, 바람직하게는, 샘플 질병의 표시(예를 들어, 퍼센트 값) 및/또는 샘플의 어느 부분이 질병이 있는지, 그리고 어떤 타입의 질명이 존재하는지를 포함하는 진단만이 전송된다. 본 발명의 다른 실시예에서, 이미지 및/또는 등록된 이미지가 진단 정보와 함께 제공된다. 추가적인 샘플 정보는 실행된 다양한 알고리즘들에 근거한 통계적 분석 및 다른 데이터를 포함할 수 있다. 전술한 바와 같이, 진단 정보의 전송은 예를 들어, 이하에 기술된 컴퓨터 시스템을 통하여 실행될 수 있다. 의사로의 결과들의 전송은 의사에게 결과들이 사용가능하다는 것을 알리는 것을 포함할 수 있다.

의사가 상기 데이터를 수신한 이후, 및/또는 상기 데이터에 접근하도록 알림을 받은 이후, 의사는 결과들을 검토할 수 있다(S414). 결과들이 검토된 이후, 샘플에 대하여 추가적인 알고리즘들이 실행되어야 하는지 결정될 수 있다. 예를 들어, 의사가 진단을 확실히 결정하지 못하는 경우, 또는, 의사가 이미 수행된 알고리즘들을 만족하지 않는 경우, 보다 정확한 진단을 제공하기 위하여 추가적인 알고리즘들이 실행되어야 할지에 대한 결정이 이루어질 수 있다. 추가적인 알고리즘이 실행되어야 할 지에 대한 결정이 이루어진 경우, 상기 방법은 추가적인 진단 활동을 수행하는 단계(S416)를 포함할 수 있다. S416에서 컴퓨터 시스템을 사용하여 다른 특화된 치료소 또는 연구소들에 의하여 생성된 동일한 질병 또는 상태를 위한 알고리즘들 및/또는 추가적인 질병들 또는 상태들을 위한 알고리즘들과 같은 다른 알고리즘들이 의사에 의하여 선택될 수 있다. S414 및 S416은 의사가 진단에 만족할 때 까지 반복될 수 있다. 의사가 진단에 만족하면, 상기 방법은 S418을 선택적으로 실시할 수 있고, 의사는 방법에서 획득된 정보에 근거하여 환자를 치료할 수 있다.

도 3을 참조하면, 도시된 바는 본 발명의 바람직한 실시예에 따른, 질병 또는 상태의 진단, 예후, 및/또는 예측 분류를 제공하기 위하여 생체 표본을 분석하기 위한 보다 구체적인 방법 흐름(100)의 다양한 특성들의 다른 예를 나타낸다. 방법(100)은 본 발명의 바람직한 실시예에 따른 암의 부-분류(sub-classification)들을 식별하기 위하여 사용될 수 있다. 추가로, 방법(100)은 암 병변과 관련한 정상 조직의 구별(예를 들어, 암 병변 근위(proximal)의 정상 조직 및 암 병변으로부터 먼 위치의 정상 조직의 구별)에 사용될 수 있다.

상기 방법은 생체 시료들을 수신하는 단계(102)를 포함할 수 있다. 이러한 생체 시료들은 인간 또는 동물 등의 개인(individual)의 조직 또는 세포 물질(cellular material)을 포함할 수 있다. 일 실시예에서, 시스템은 생체 시료를 수신하도록 동작하는 수신 모듈을 가질 수 있다. 다른 실시예에서, 시스템은 생체 시료에 대응하는 데이터를 수신할 수 있다. 예를 들어, 개인은 생체 시료에 대응하는 데이터를 시스템에 제공할 수 있다. 방법은 생체 시료의 분광 이미지를 생성하는 단계(104)를 포함할 수 있다. 도 3에 도시된 바와 같이, 방법은 전처리단계를 포함하고, 시스템에 의하여 사용되기 위한 타입 데이터베이스 또는 타입 데이터의 다른 저장소의 개발에 사용한다.

도 4a 및 4b는 본 발명의 바람직한 실시예에 따른 전처리를 위한 일 실시예의 방법 흐름(500)을 나타낸다. 방법은 초기(initial) IR 이미지 데이터를 로딩하는 단계(502)를 포함한다. 예를 들어, 시스템은 시스템에 의하여 수신된 및/또는 시스템 내에 사전에 저장된 IR 이미지 데이터를 로딩할 수 있다. 이 실시예에서, 시스템은 수신된 IR 이미지 데이터를 흡광도(absorbance) 유닛들로 컨버팅 하고 분광 파라미터들을 계산한다.

방법은 버린(binned) 데이터를 선택하는 단계(504) 및 데이터세트를 저장하는 단계(506)를 포함할 수 있다. 이 실시예에서, 시스템은 픽셀들의 수를 줄이기 위하여 이미지를 버릴(bin) 수 있다. 픽셀들의 수를 저감하는 것은, 예를 들어, 노이즈 측면에서 신호를 향상시키거나 또는 데이터 내의 다른 특성들을 향상시킬 수 있다. 예를 들어, 시스템은 2x2 버림(binning) 옵션들을 사용하여 이미지 파일을 로딩할 수 있다. 추가로, 시스템은 데이터세트를 데이터 저장소에 저장할 수 있다.

방법은 임의의 오프셋을 제거하는 단계(508) 및 데이터를 선택 범위 내의 최소로 조정하는 단계(510)를 포함할 수 있다. 예를 들어, 시스템은 범위 내의 주파수들(frequencies)로 데이터를 처리함으로써 분광 데이터로부터 임의의 기준선 오프셋을 제거할 수 있다.

방법은 선택 범위들에 걸쳐 적분(integrating)함으로써 흑백 이미지를 생성하는 단계(512)를 포함할 수 있다. 이 실시예에서, 시스템은 특정 한계들 사이의 분광 강도(intensities)을 적분함으로써 흑백 이미지 데이터세트를 생성할 수 있다. 예를 들어, 흑백 이미지는 이미지에 임의의 필터들이 적용되기 전에 현저한 적외선 강도와 함께 픽셀들이 보여질 수 있게 한다.

방법은 또한 수증기 보정(water vapor correction)을 로딩하는 단계(516)를 더 포함한다. 예를 들어, 시스템은 분광 이미지 데이터 내에 수증기 효과들을 보정하기 위하여 스펙트럼에 적용하기 위하여 수증기 보정 정보를 로딩할 수 있다.

방법은 수증기 보정을 적용하는 단계(514) 및 데이터세트를 저장하는 단계(518)를 포함할 수 있다. 이 실시예에서, 시스템은 잔류 수(residual water) 진동-회전(vib-rotational) 기여도(contribution)를 보정하기 위하여 곱셈 신호 보정(MSC, Multiplicative Signal Correction)을 사용할 수 있다.

방법은 노이즈 참조를 제공하는 단계(520) 및 데이터세트를 저장하는 단계(522)를 포함할 수 있다. 이 실시예에서, 시스템은 이미지 데이터세트를 노이즈와 신호 영역들로 분리시킬 수 있다. 예를 들어, 시스템은 흑백 이미지의 검은색 영역들을 노이즈 영역으로 할당하고, 흑백의 음영(shades)들을 신호 영역으로 할당할 수 있다. 이 실시예에서, 노이즈 및 신호 영역들의 분리는 두개의 제한 파장들 간의 임의의 분광 특성의 적분(integration)에 근거하여 이루어질 수 있다. 적분값이 신호 내의 최소값을 초과하는 범위 내에 존재할 때, 노이즈 스펙트럼은 적분 강도(integrated intensity)가 두개의 특화된 제한들 사이에 존재하는 것으로 정의될 수 있다.

방법은 다변량(multivariate) 노이즈 저감을 적용하는 단계(524)를 포함할 수 있다. 예를 들어, 시스템은 스펙트럼의 고유 벡터들이 노이즈 기여도들을 저감하게 하고, 고유벡터들의 합으로서 데이터세트의 신호 스펙트럼을 재구축하게 하도록 사용될 수 있는 노이즈 스펙트럼 상에서 주성분분석(PCA, principal component analysis)을 수행할 수 있다.

방법은 전체 범위 신호 형태(signal shape) 및 파워(power)를 확인하는 단계(530)를 포함할 수 있다. 방법은 “배드” 데이터(예를 들어, 최소값과 최대값 사이 범ㅂ위를 벗어난 데이터)를 거부(reject)하는 단계(532) 및 데이터세트를 저장하는 단계(534)를 포함할 수 있다. 이 실시예에서, 시스템은 신호의 형태 및 파워를 확인하기 위하여 하나 이상의 퀄리티 테스트를 수행할 수 있다. 퀄리티 테스트들은 피크 주파수 위치, 밴드 형태, 총 신호 강도, 및 밴드 영역 비(ratio)를 포함할 수 있으나, 이에 한정하는 것은 아니다. 이 실시예에서, 시스템은 피크 주파수에 근거하여 퀄리티 테스트를 수행할 수 있다. 다른 실시예에서, 시스템은 퀄리티 테스트를 특정 한계들 사이의 적분에 의한 총 분광 적분 강도에 근거하여 수행할 수 있다. 적분 강도는 특정 최소값과 특정 최대값 사이로 떨어뜨리기(fall) 위하여 요구된다. 다른 실시예에서, 시스템은 특정 한계들 내의 분광 적분 강도에 근거하여 퀄리티 테스트를 수행할 수 있다. 적분 강도들은 특정 최소값과 특정 최대값 사이로 떨어뜨리기(fall) 위하여 요구된다. 일 실시예에서, 시스템은 특정 한계들 사이를 적분하는 것에 의한 아미드(amide) I 및 아미드 II 밴드들 사이의 피크 영역 비에 근거하여 퀄리티 테스트를 수행할 수 있다. 일 실시예를 실시함에 있어서, 강도 비(intensity ratio)는 특정 최소값과 특정 최대값 사이에 존재하도록 요구될 수 있다.

또한, 방법은 지역 신호를 노이즈로 보고하는 단계(536) 및 신호를 노이즈 값들로 저장하는 단계(538)를 포함할 수 있다. 시스템은 상기 신호를 데이터의 노이즈로 계산하기 위한 입력을 수신할 수 있다. 입력들은 예를 들어, 이득(interest)의 기준선 영역의 좌측 및 우측 마진(margin)들, 이득의 신호 영역의 좌측 및 우측 마진들, 및 이득의 노이즈 영역의 좌측 및 우측 마진들을 포함할 수 있다.

방법은 또한 클래스 분리를 위한 신호를 향상시키는 단계(560) 및 데이터세트를 저장하는 단계(562)를 더 포함할 수 있다. 이 실시예에서, 시스템은 예를 들어, 윈도우 폭, 오더(order) 및 도함수를 평활화(smooth) 하기 위하여 평활화 도함수(smoothing derivative)를 적용할 수 있다. 시스템은 또한 클래스 분리를 위한 신호를 향상시키기 위하여 정규화(normalization)를 적용할 수 있다.

방법은 위상 보정(phase correction)을 위한 이익 영역을 선택하는 단계 및 데이터세트를 저장하는 단계(566)를 포함할 수 있다. 예를 들어, 시스템은 특정 값들 사이의 이익의 분광 영역을 확장하고, 위상 보정을 위한 이익의 분광 영역을 선택할 수 있다.

방법은 이익의 선택된 영역 상에서 위상 보정을 수행하는 단계(568)를 포함할 수 있다. 위상 보정은 예를 들어, 512 데이터 포인트 2차 도함수 스펙트럼 벡터를 유한 힐베르트 변환(finite Hilbert transform)(생략된(truncated) FFT)과 실제 및 가상 부분들로 나누는 것에 의하여 변환하는 단계를 포함할 수 있다. 이 실시예에서, 시스템은 좌표 변환을 수행할 수 있고, 새로운 분광 백터가 생성될 수 있다. 시스템은 보정된 스펙트럼들과 같은 값들의 범위 사이의 최고(highest) 주파수 참조 피크와 함께 위상 보정된 시험(trial) 스펙트럼들을 선택할 수 있다. 위상 보정은 미국 특허 번호 9,025,850에 보다 상세히 기술되었다.

또한, 방법은 분류자를 위한 이익 영역을 선택하는 단계(574)를 포함할 수 있다. 예를 들어, 시스템은 값들의 범위 사이의 이익 영역을 확장할 수 있다.

또한, 방법은 정규화(normalization)를 적용하는 단계(574)를 포함할 수 있다. 정규화는 벡터 정규화, 표준 정규 변량(standard normal variate), 및 다수의 영역(region)들을 포함할 수 있으나, 이에 한정하는 것은 아니다. 시스템은 이익 영역에 정규화를 적용할 수 있다.

방법은 클러스터링(clustering) 단계(576)를 포함할 수 있다. 예를 들어, 시스템은 클러스터링을 수행할 수 있다.

방법은 클러스터 이미지를 생성하고(578), 데이터세트를 저장할(580) 수 있다. 시스템은 클러스터 이미지들을 생성하고 저장할 수 있다.

방법은 클러스터 이미지들을 생성하기 위한 다른 메트릭스들(582)을 포함할 수 있다. 이것들은 상관분석(correlating) 및 거리 계산들을 포함한다. 방법은 타당성(validation) 리포트를 생성하는 단계(589)를 포함할 수 있다. 예를 들어, 시스템은 클러스터링 메트릭스를 생성하고, 상기 클러스터 이미지를 알려진 참조들로 상관분석할 수 있다. 클러스터링 메트릭스는 k-means 클러스터링 및 위계적 군집 분석(HCA, hierarchical cluster analysis)을 포함하나, 이에 한정하는 것은 아니다. 또한, 시스템은 타당성 리포트를 생성할 수 있다.

도 3을 참조하면, 생체 표본을 분석하기 위한 방법은 주석(annotation) 절차 중 임상 정보를 수신하는 단계(110)를 더 포함할 수 있다. 이 실시예에서, 시스템은 의사, 환자의 전기적 의학 기록, 또는 임상 데이터를 포함할 수 있는 데이터 저장소와 같은 다른 데이터 소스로부터 임상 정보를 수신할 수 있다. 임상 정보는 예를 들어, 샘플 내에 주로 존재하는 세포들의 타입, 샘플이 채취된 신체의 부분, 그리고 진단 중에 주로 나타나는 질병 또는 상태의 타입을 포함하는 진단 및/또는 예후(prognoses)와 관련할 수 있는 어떠한 정보라도 포함할 수 있다. 또한, 임상 정보는 현재의 기술분야서 수용된 관례를 위한 임상 “황금 표준(gold standard)”를 포함할 수 있다. 예를 들어, 임상 “황금 표준”는 생체 시료들 상에 염색제(stains)들을 사용하는 것을 포함할 수 있다. 상기 염색제들은 예를 들어, 면역조직화학(IHC, immuno-histochemical) 염색제들 및 패널(panel)들, 헤마톡실린(hematoxylin) 염색제, 에오신 염색제, 및 파파니콜로 염색제들과 같은 염색제들을 포함할 수 있으나, 이에 한정하는 것은 아니다. 추가로, 임상 “황금 표준”는 패턴 염색들을 포함하는 생체 시료 내의 특성들을 측정하고 식별하기 위하여 현미경을 사용하는 단계를 더 포함할 수 있다.

또한, 방법은 IR 이미지를 위한 주석 정보를 수신하는 단계(108)을 포함할 수 있다. 주석 정보는 예를 들어, 샘플 내에 주로 존재하는 세포들 및/또는 조직들의 타입의 특성들과 상관분석되는 생화학 용법(signature)들; 샘플의 염색 등급들; 강도(intensities)들; 분자 마커 상태(예를 들어, IHC 염색제의 분자 마커 상태); 샘플이 채취된 신체의 부분; 및/또는 주어진 질병 또는 상태의 타입을 포함하는 진단들과 관련이 있을 수 있는 데이터와 같은 선택된 주석 영역과 관련한 적절한 임상 데이터를 포함할 수 있으나, 이에 한정하는 것은 아니다. 또한, 주석 정보는 샘플의 시각적 이미지 상의 측정가능한 임의의 양상(aspect)들과 관련이 있을 수 있다. 또한, 주석 정보는 예를 들어, 타임 스탬프(예를 들어, 주석이 생성된 날짜 및/또는 시간), 부모 파일 주석 식별자 정보(예를 들어, 주석이 주석 세트의 부분인지 여부), 사용자 정보(예를 들어, 주석을 생성한 사용자의 이름), 클러스터 정보, 클러스터 스펙트럼 픽셀 정보, 클러스터 레벨 정보, 및 선택된 영역 내의 픽셀들의 수, 등의 주석과 관련한 기타 정보들을 포함할 수 있다. 시스템은 상기 주석 정보를 의사와 같은 사용자로부터 수신할 수 있다는 것에 유의해야 한다.

일 실시예에서, 사용자는 등록된 분광 이미지의 주석 영역을 선택할 수 있고, 선택된 영역을 위한 주석 정보를 제공할 수 있다. 사용자는 질병 및/또는 상태의 생화학 용법에 대응하는 등록된 이미지의 영역을 선택하도록 시스템을 사용할 수 있다. 예를 들어, 사용자는 분광 이미지의 픽셀들의 스펙트럼이 일반적으로 균일하게 이루어지는(예를 들어, 분광 이미지의 영역 내의 색이 대부분 동일한 색으로 이루어지는) 것으로 나타나는 분광 이미지 내의 영역 주변에 경계(boundary)를 위치시킬 수 있다. 경계는 질병 또는 상태의 생화학 용법과 관련한 분광 이미지 내의 다수의 픽셀들을 식별할 수 있다. 다른 실시예에서, 사용자는 하나 이상의 시각적 이미지의 속성들 또는 특성들에 근거하여 주석 영역을 선택할 수 있다. 따라서, 주석 영역은 생체 시료의 생화학 상태들 뿐만 아니라, 생체 시료의 다양한 시각적 속성들에 대응할 수 있다. 주석 영역들은 미국 특허 번호 9,129,371에 보다 상세히 기술되었다. 사용자는 질병 또는 상태의 생화학 용법에 대응하지 않는 등록된 분광 이미지의 주석 영역을 선택할 수 있다는 것에 유의하여야 한다.

다른 실시예에서, 미국 특허 출원 번호 13/645,970에 보다 상세히 기술된 바와 같이, 시스템은 선택된 주석 영역을 위한 주석 정보를 자동으로 또는 그 외의 방법(예를 들어, 몇몇 사용자 도움 또는 입력 파라미터들과 함께)으로 제공할 수 있다. 예를 들어, 시스템은 선택된 영역을 위한 주석이 생성된 날짜 및 시간을 클러스터 정보와 함께 제공할 수 있다. 또한, 시스템은 자동으로 또는 그 외의 방법으로 등록된 분광 이미지의 주석 영역을 선택할 수 있고 선택된 주석 영역을 위한 임상 데이터(예를 들어, 진단 및/또는 예후와 관련하여 이루어질 수 있는 데이터, 및 질병 또는 상태의 분류들)를 제공할 수 있다.

일 실시예에서, 시스템은 분광 이미지의 클러스터 레벨들 중 일부 또는 전부를 검토할 수 있고, 픽셀들의 분광 클러스터들이 상대적으로 균일한(예를 들어, 사전결정된 파라미터 당(per), 유사한 스펙트럼을 갖는 픽셀들의 동질(homogeneous)의 분광 클러스터) 클러스터 레벨을 식별할 수 있다. 일 실시예에서, 시스템은 단일 색깔로서 각각의 동질의 분광 클러스터를 제공(예를 들어, 하나의 클러스터를 청색 그리고 다른 클러스터를 적색)할 수 있다. 시스템은 식별된 클러스터를 분광 이미지의 선택된 주석 영역을 위한 클러스터 레벨과 비교할 수 있으며, 시스템이 매치가 발생한 것으로 결정한 경우, 상기 시스템은 다른 레벨 또는 클러스터 레벨이 주석 영역을 위하여 선택되지 않아야 한다는 것을 결정할 수 있다.

방법은 트루 이미지를 생성하는 단계(112)를 포함할 수 있다. 트루 이미지는 예를 들어, 주석 영역을 포함할 수 있는 생체 시료의 시각적 이미지가 될 수 있다. 샘플의 시각적 이미지는 일반적으로 병리학 연구소들에서 사용되는 타입과 같은 표준 시각적 현미경을 사용하여 획득될 수 있다. 현미경은 현미경의 시야를 디지털적으로 캠쳐할 수 있는 고해상도 디지털 카메라와 연결될 수 있다. 이 디지털 실시간 이미지는 샘플의 표준 미시적 시야에 근거하여 이루어질 수 있고, 조직 구조, 세포 형태학, 및 패턴 염색을 나타내도록 이루어질 수 있다. 이미지는 예를 들어, 헤마톡실린-에오신(H&E, hematoxylin and eosin) 및/또는 다른 구성성분들, 면역조직화학물들, 제자리부합법(ISH, Insitu-hybridization) 등으로 염색되거나, 또는 염색되지 않을 수 있다.

트루 이미지의 예들이 도 5a, 도 6a, 및 도 7에 도시된다. 도 5a 및 도 7은 생체 시료 내에 주석이 달린(annotated) 선암(ADC, Adenocarcinoma) 암 영역을 포함하는 이미지를 나타낸다. 예를 들어, 상기 이미지의 어두운 청색 영역은 의사 또는 다른 사용자가 생체 시료 내에서 ADC를 식별한 생체 시료의 주석 영역들을 나타낸다. 또한, 도 6a는 생체 시료 내의 ADC 식별된 영역(예를 들어, 이미지의 청색 영역)과 함께 전체 생체 시료의 트루 이미지를 나타낸다.

도 3으로 돌아가서, 방법은 분류 모델을 생성하는 단계 및 분류자 알고리즘을 트레이닝하는 단계(114)를 포함할 수 있다. 시스템은 미국 특허 출원 번호 13/645,970에 보다 상세하게 기술된 바와 같이, 질병 또는 상태의 진단, 예후, 및/또는 예측 분류를 제공하기 위한 알고리즘들을 트레이닝하기 위하여 사용될 수 있다. 또한, 시스템은 미국 특허 출원 번호 13/645,970에 보다 상세히 기술된 바와 같이, 질병을 진단하기 위한 하나 이상의 분류 모델들을 형성하기 위하여 사용될 수 있다. 일 실시예에서, 데이터 저장소는 한 세트의 열거된(listed) 조직 또는 세포 클래스들을 포함할 수 있다. 클래스들은 예를 들어, 전문가적 견해들, 그룹 결정들, 및/또는 개별 및 기관의 표준들을 반영하기 위하여 얻어지고 열거될 수 있다. 따라서, 생체 시료를 위한 진단 및/또는 예후 또는 예측 분석을 제공하기 위하여 사용된 알고리즘들은 기관으로부터 기관 및 개인들간으로 달라질 수 있는 전문가적 관습들(expert practice) 및 표준들을 실시하도록 트레이닝될 수 있다.

예를 들어, 시스템은 트레이닝을 위한 하나 이상의 파라미터들과 특정 질병, 상태, 특성 상태, 및/또는 클래스를 대표하는 생물학 용법을 상관분석하도록 이루어질 수 있는 검사 특성(testing feature)들과 함께 쿼리를 수신할 수 있다. 파라미터들은 질병 또는 상태 타입(예를 들어, 폐암 또는 신장암), 세포 또는 조직 클래스, 조작 타입, 질병 상태, 분류 레벨, 분광 클래스, 및 조직 위치, 기타 파라미터들 등을 포함할 수 있으나, 이에 한정하는 것은 아니다. 일 실시예에서, 시스템은 쿼리 및 파라미터들을 시스템의 사용자로부터 수신할 수 있다. 다른 실시예에서, 시스템은 특정 질병 또는 상태에 초점을 맞추기 위하여 사용될 수 있는 파라미터들을 자동으로 또는 다른 방법으로 결정할 수 있다. 따라서, 트레이닝 및 테스트 특성들은 수신된 파라미터들에 근거하여 사용자화될 수 있다.

시스템은 검사 특성들을 트레이닝하기 위한 파라미터들에 대응하는 데이터 저장소 내에 저장된 시각적 및 분광 이미지들로부터 픽셀들을 추출할 수 있다. 예를 들어, 시스템은 데이터 적절한 주석 정보 및/또는 주석이 달린 이미지들에 대응하는 메타-데이터와 함께 저장소 내에 저장된 주석이 달린 이미지들에 접근할 수 있다. 시스템은 주석 정보 및/또는 주석이 달린 이미지들의 메타-데이터와 쿼리의 파라미터들을 비교할 수 있다. 파라미터들과 주석 정보 및/또는 메타-데이터간의 매치가 발생함에 따라, 예를 들어, 시스템은 상기 파라미터들과 관련한 시각적 및 분광 이미지들의 픽셀들을 추출할 수 있고, 데이터의 트레이닝 세트들을 형성할 수 있다. 트레이닝 데이터를 위하여 추출된 픽셀들은 다른 세포들 또는 조직들 및/또는 조직 타입들로부터의 픽셀들을 포함할 수 있다. 다른 조직 타입들로부터 추출된 픽셀들은 다른 검사 특성들의 부분으로서 저장될 수 있음에 유의하여야 한다. 따라서, 다른 조직 타입으로부터의 픽셀들이 다른 검사 특성에 할당될 수 있는데 반하여, 예를 들어, 동일한 조직 타입으로부터의 픽셀들은 단일 검사 특성에 할당될 수 있다. 또한, 트레이닝 데이터는 특정 질병들 및/또는 상태들, 및/또는 예를 들어, 세포 또는 조직 타입들(총괄하여 “클래스”)과 관련된 분광 데이터를 포함할 수 있다. 따라서, 시스템은 질병 또는 상태의 진단, 예후, 및/또는 예측 분석을 제공하기 위하여 트레이닝 특성들을 위하여 제공된 파라미터들에 근거하여 질병 또는 상태의 중요한(meaningful) 표시를 제공할 수 있는 시각적 및 분광 이미지들의 픽셀들을 추출할 수 있다.

검증 테스트는 데이터의 트레이닝 세트 상의 퀄리티 테스트들 및 특성 선택 테스트들을 포함할 수 있으나, 이에 한정하는 것은 아니다. 일 실시예에서, 시스템은 방법론 또는 알고리즘의 정확도를 검증하기 위하여 데이터의 검사 세트와 함께 데이터의 트레이닝 세트에 의하여 생성된 방법론(예를 들어, 알고리즘)을 활용할 수 있다. 데이터의 검사 세트는 특정 질병 또는 상태를 수용하지 않는 생체 시료과 함께 특정 질병 또는 상태를 수용하는 생체 시료를 포함할 수 있다.

시스템은 예를 들어, 어떤 알고리즘이 특정 질병 또는 상태를 수용한 생체 시료과 특정 질병 또는 상태를 수용하지 않는 생체 시료를 정확히 식별하는지 결정하는 것에 의하여 알고리즘의 정확도를 검증할 수 있다. 알고리즘이 생체 시료가 질병 또는 상태를 수용하는지 그리고 생체 시료가 질병 또는 상태를 수용하지 않는지 정확하게 식별가능한 경우, 시스템은 알고리즘의 정확도가 높은 것으로 결정할 수 있다. 그러나, 알고리즘이 생체 시료가 질병 또는 상태를 수용하는지 그리고 생체 시료가 질병 또는 상태를 수용하지 않는지 정확하게 식별가능하지 못한 경우, 시스템은 알고리즘의 정확도가 낮은 것으로 결정할 수 있다. 일 실시예에서, 알고리즘의 결과들은 상기 알고리즘이 생체 시료들을 정확하게 식별하는지에 대한 확률을 나타낼 수 있는 인덱스 값에 대하여 비교될 수 있다. 임계(threshold) 레벨 아래의 인덱스 값은 알고리즘이 생체 시료들을 정확히 식별했는지에 대한 낮은 확률을 나타내는데 반하여, 임계(threshold) 레벨을 넘어선 인덱스 값들은 알고리즘이 생체 시료들을 정확히 식별했는지에 대한 높은 확률을 나타낼 수 있다.

예를 들어, 시스템이 알고리즘의 정확도가 낮은 것으로 결정함에 따라, 상기 시스템은 데이터의 트레이닝 세트를 개선(refine)할 수 있다. 시스템은 예를 들어, 알고리즘의 통계적 관련 성능(performance)의 가능성을 증가시키기 위하여 픽셀들의 수를 증가 및/또는 감소시킬 수 있다. 데이터의 트레이닝 세트를 위하여 요구되는 픽셀들의 수는 예를 들어, 알고리즘이 진단을 시도하고 및/또는 세포 또는 조직 클래스가 선택되는 질병 또는 상태의 타입에 근거하여 달라질 수 있다.

시스템이 알고리즘의 정확도가 높은 것으로 결정함에 따라, 시스템은 검사 특성들에 근거하여 특정 질병을 위한 진단, 예후, 및/또는 예측 분석을 제공하기 위한 하나 이상의 트레이닝된 알고리즘들을 생성할 수 있다. 다수의 알고리즘들은 수신된 파라미터들에 근거하여 이러한 진단, 예후, 및/또는 예측 분석을 제공하기 위하여 생성될 수 있다는 것에 유의하여야 한다. 예를 들어, 각각의 알고리즘이 특정 타입의 폐암을 진단하도록 트레이닝된 다수의 알고리즘들이, 질병 또는 특성 상태의 생화학 용법 대표(representative) , 및 질병의 클래스에 상관분석되고 연결될 수 있는 다른 파라미터들에 근거하여 폐암을 진단하기 위하여 트레이닝될 수 있다.

예를 들어, 시스템은 하나 이상의 트레이닝된 알고리즘들을, 주석이 달린 분광 및 시각적 이미지들, 주석 정보 및/또는 메타-데이터를 수용하는 데이터 저장소 내에 저장할 수 있다.

또한, 시스템은 미국 특허 출원 번호 13/645,970에 보다 상세히 기술된 바와 같이, 질병들을 진단하기 위한 하나 이상의 분류 모델들을 형성하기 위하여 사용될 수 있다. 예를 들어, 시스템은 암을 진단하기 위한 단일 모델을 형성하기 위하여 다른 형태의 암(예를 들어, 폐암, 흉부함, 신장암)을 진단하기 위한 다양한 알고리즘들을 결합할(combine) 수 있다. 분류 모델들은 서브-모델들을 포함할 수 있다는 것에 유의하여야 한다. 따라서, 암을 진단하기 분류 모델은 다양한 형태의 암(예를 들어, 폐암, 흉부함, 신장암)을 진단하기 위한 서브-모델들을 가질 수 있다. 또한, 서브-모델들은 서브-모델들을 더 포함할 수 있다. 일 예와 같이, 폐암을 진단하기 위한 모델은 생체 시료 내에 존재할 수 있는 폐암의 타입을 식별하기 위한 다수의 서브 모델들을 가질 수 있다.

일 실시예에서, 시스템은 양성, 소세포 폐암(SCLC, Small Cell Lung cancer), 선암(ADC, adenocarcinoma), 편평 상피암(SQCC, Squamous Carcinoma), 및 대세포 폐암(LCLC, Large Cell Lung cancer)과 같은, 주된 암 타입들과 양성(benign)을 식별함으로써 폐암의 서브-분류(sub-typing)를 수행할 수 있다. 시스템은 암의 주요 타입의 서브-타입들과 서브-타입들의 서브-타입들을 더 식별할 수 있다. 서브-타입들은 유형(lepidic), 선형(Acinar), 유두상, 미세유두상(Micropapillary), 고체형(solid)을 포함할 수 있으나, 이에 한정하는 것은 아니다. 일 실시예에서, 시스템은 식별된 서브타입들 및 타입들을 사용하여 질병을 진단하기 위한 하나 이상의 분류 모델들을 생성할 수 있다. 예를 들어, 시스템은 분류 모델들 내의 암의 클래스들로서 서브타입들과 타입들을 분류할 수 있다.

암의 클래스들은 생체 시료의 진단에 사용될 수 있다. 또한, 암의 클래스들은 치료 모집단(therapy population)들과 관련이 있을 수 있다. 치료 모집단들은 예를 들어, 질병 상태를 위한 적절한 치료들을 포함할 수 있다. 예를 들어, 클래스들은 질병 상태를 위한 특정 치료에 대응하는 환자 모집단과 관련이 있을 수 있다. 따라서, 시스템은 클래스 또는 서브-클래스 내에 식별된 질병을 다루기 위한 적절한 치료(예를 들어, 동반 진단 양상(companion diagnostic modality)으로서, 그리고, 문학 데이터 마이닝(literature data mining)과 관련하여)들을 위한 추천을 제공하기 위하여 분류 모델들을 사용할 수 있다.

추가로, 시스템은 정상 조직(예를 들어, 관련 질병이 없는 것으로 추정되는 조직)으로부터 질병 타입들과 서브-타입들을 구별할 수 있다. 시스템은 예를 들어, 생체 시료의 이질성을 구별하기 위하여 클래스들을 사용할 수 있다.

시스템이 암의 다양한 타입들 및 서브-타입들을 식별하면, 시스템은 또한 타입들 및 서브-타입들의 변종(variant)들을 식별할 수 있다. 변종들은 점액(mucinous) 선암, 콜로이드성(colloidal), 태아(fetal)(저등급 및 고등급), 및 장(enteric)과 같은 임의의 암 타입들 및 조직학 서브타입들과 함께 발생할 수 있는 변경유전자(modifier)들을 포함할 수 있다. 일 실시예에서, 시스템은 분류 모델들 내의 클래스들로서 변종들을 분류할 수 있다.

도 8은 본 발명의 바람직한 실시예에 따른 양성 및 악성 종양들의 분류의 일 예를 나타낸다. 도 8은 과오종(Hamartoma)의 폐(Lung/Pulmonary) 양성 병변들, 유육종증(Sarcoidosis)(육아종(granuloma)) 및 기질화 폐렴(Organizing Pneumonia) 타입들(청색) 클러스터 분리 대 폐암 종양 정상(normal) 타입들(적색)의 서브-분류의 일 예를 도시한다. 1402는 SHP에 의하여 분리된 양성의 서브-분류의 일 예를 나타낸다. 1404는 괴사, 케라틴 펄(keratin pearl), 및 유형의 서브-분류의 일 예를 도시한다. 1406은 SHP에 의하여 자동적으로 분류된 편평(Squamous) 등급의 일 예를 도시한다. 1408은 선암의 서브-분류를 나타낸다.

시스템은 분류 모델 내에 방법론들(예를 들어, 알고리즘들)을 적용하기 위한 명령을 결정하기 위한 룰 세트를 확립할 수 있다. 또한, 시스템은 알고리즘들이 사용될 때 구속(constraint)들을 위치시키기 위한 룰 세트를 확립할 수 있다. 상기 룰 세트는 예를 들어, 질병들 및/또는 모델들을 형성하기 위하여 서로 결합된 알고리즘들의 수에 근거하여 달라질 수 있다는 것에 유의하여야 한다. 시스템이 모델들을 위한 룰 세트를 확립함에 따라, 시스템은 특정 질병을 진단하기 위한 하나 이상의 모델들을 생성할 수 있다. 상술한 방법들에 더하여, 특정 질병 또는 상태를 위한 분류 모델을 생성하기 위한 다양한 다른 방법들이 사용될 수 있다는 것에 유의하여야 한다.

분류 모델 내에 알고리즘들을 적용하기 위한 일 실시예의 룰 세트는 변화(variation) 감소 명령, 결정된 위계적 군집 분석(HCA, hierarchical cluster analysis)의 사용, 또는 다른 클러스터링/분할 방법들을 포함할 수 있다. HCA의 일 예는 미국 특허 번호 9,025,850에 보다 상세히 기술되었다. '850특허에 기술된 바와 같이, HCA는 다양한 유사성들에 의하여 서로 그룹화되는 세포 및 조직들을 식별한다. HCA에 근거하여, 가장 효과적인 반복(iterations) 명령, 또는 변화 감소 명령이 결정될 수 있다. 즉, 계층/변화 감소 명령의 반복은 HCA에 의하여 제공된 데이터 내의 최소에서 최대(least to greatest) 변화에 근거하여 확립될 수 있다. HCA를 사용함에 따라, 예를 들어, 변화를 제거하고, 식별의 정확도를 향상시키기 위하여 어떤 조직 또는 세포의 클래스가 분류(labeled)되어야 하는지, 그리고, 차후의(subsequent) 데이터 서브세트 내에 포함되지 않아야 하는지 데이터 내의 유사성 또는 변화에 근거하여 결정될 수 있다.

도 8은 본 발명의 바람직한 실시예에 따른 폐암의 분류를 결정하기 위한 일 예의 룰 세트를 나타낸다. 여기에서 1402, 1404, 1406, 및 1408은 특정 조직 상태들, 클래스 또는 서브-타입들을 나타낼 수 있다. 작동에 있어, 의사 또는 다른 사용자가 샘플이 기록된 조직 또는 세포 클래스들 중 하나를 포함하고 있는지 알고자 하는 경우, 상술한 방법이 적용될 수 있다. 즉, 요구된 결과에 도달할 때 까지 도시된 바와 같이, 반복 절차가 반복될 수 있다. 예를 들어, 의사는 일반적인 암 세포들을 위하여, 또는 특정 타입의 암을 위하여 샘플을 검사하도록 선택할 수 있다. 검사된 질환들은 임상 데이터(예를 들어, 어떤 질환이 주로 존재하는지)에 근거하여 이루어지거나, 다양한 질환들에 대한 "블라인드(blindly)" 테스트에 의하여 이루어질 수 있다. 여기에 기술된 방법은 진단의 정확도를 향상시키고, 특히, 어떤 질환들이 주로 존재하는지에 대한 정보가 조금 존재하거나, 없는 경우에 정확도를 향상시킨다. 또한, 여기에 기술된 방법은 질병 또는 질환의 예후 및/또는 예측 분류들을 위하여 사용될 수 있다.

도 3으로 돌아가서, 방법은 예측 이미지들을 생성하는 단계(116)을 더 포함할 수 있다. 시스템은 하나 이상의 분류 모델들 및/또는 분류 모델들을 사용하도록 트레이닝된 하나 이상의 분류자 알고리즘들을 트루 이미지에 적용하고, 예측 이미지를 생성할 수 있다. 또한, 시스템은 생체 시료에 하나 이상의 분류 모델들 및/또는 분류자 알고리즘들을 적용할 수 있다.

방법은 신뢰 예측 이미지들을 생성하는 단계(126)를 포함할 수 있다. 신뢰 예측 이미지들은 암의 특정 클래스 또는 서브-클래스가 예측 이미지 내에 존재할 수 있는 신뢰 레벨을 나타내는 신뢰값을 포함할 수 있다. 예를 들어, 높은 신뢰값은 예측 이미지 내에 하나 이상의 질병들이 존재하는 것을 나타낼 수 있다. 또한, 높은 신뢰 값은 특정 질병이 더 발달한 것을 나타낼 수 있다. 예를 들어, 시스템은 예측 이미지로부터 스펙트럼을 분석할 수 있고, 스펙트럼 신호가 암의 클래스의 중심에 인접한 경우, 신뢰 레벨이 높음일 수 있다. 추가로, 예측 이미지로부터의 스펙트럼이 순수한(pure) 신호(예를 들어, 신호가 다른 스펙트럼들과 섞이지 않은)의 경우, 신뢰 레벨이 높음일 수 있다.

일 실시예에서, 낮은 신뢰값은 예를 들어, 예측 이미지 내에 하나 이상의 질병들이 존재할 수 있다는 것을 나타낼 수 있다. 예를 들어, 시스템은 스펙트럼 신호를 분석할 수 있고 신호가 암의 클래스의 중심과 얼마나 가까운지 결정할 수 있다. 예를 들어, 암의 클래스 내에 존재할 수 있으나, 클래스의 중심으로부터 멀리 벗어난 신호들은(예를 들어, 경계상에 존재하거나, 또는 클래스를 위한 스펙트럼의 주변부(fringe) 상에 존재하는) 다른 암의 클래스와 함께 겹쳐질 수 있다. 따라서, 암의 특정 클래스가 생체 시료 내에 존재할 수 있는 신뢰 레벨은 낮을 수 있다. 추가로, 클래스의 중심으로부터 멀리 벗어난 신호들은 샘플이 새로운 암의 클래스, 암의 다른 타입, 또는 암의 다른 서브-타입을 포함하고 있음을 나타낼 수 있다. 낮은 신뢰값은 질병이 발전하지 않았음을 나타낼 수 있거나, 및/또는 질병의 타입이 다른 것을 나타낼 수 있다.

일 실시예에서, 신뢰값은 예를 들어, 1 내지 10의 범위 내의 수로 이루어질 수 있다. 여기에서 1은 신뢰가 낮거나 없는 값, 10은 신뢰가 높은 값다. 다른 실시예에서, 신뢰값은 0 과 1 사이의 수로 이루어질 수 있다. 여기에서 0은 신뢰가 없는 값, 1은 신뢰가 높은 값이다. 일 실시예에서, 시스템은 신뢰값을 계산하기 위한 하나 이상의 예측 계산들을 사용할 수 있다. 예측 계산들은 플랫 분리 평면(Platt Separation Plane), 랜덤 포레스트(Random Forest). 베이지안 A-사전 추정(Baysian A-Priori Estimates), 인공신경회로망(Artificial Neural Networks), 및 LDA를 포함할 수 있으나, 이에 한정하는 것은 아니다. 신뢰값을 계산하기 위하여 다양한 예측 계산들이 사용될 수 있음에 유의하여야 한다.

일 실시예에서, 시스템은 예측 이미지 내에 도시된 각 클래스 또는 서브-클래스를 위한 신뢰값을 오버레이(overlay) 할 수 있고, 신뢰값을 나타내는 신뢰 예측 이미지를 생성할 수 있다. 예를 들어, 신뢰값은 바이너리 방식(binary manner), 예를 들어, 낮은 신뢰값을 표시하기 위하여 이미지에 흰 점이 추가되고, 높은 신뢰값을 위해서는 이미지에 추가되는 정보가 없는 것으로 표시될 수 있다.

다른 실시예는 신뢰 레벨을 표시하기 위하여 컬러 스케일(color scale)을 포함할 수 있다. 밝은 그림자의 색 또는 흰색은 낮은 신뢰값을 표시하고, 단색이 높은 신뢰값을 표시할 수 있다.

도 3을 참조하면, 방법은 신뢰값들과 함께 예측 리포트를 생성하는 단계(128)를 포함할 수 있다. 예측 리포트는 생체 시료 내에서 식별된 암의 클래스 및 서브-클래스들을 식별할 수 있고, 예측 이미지 내에 암의 특정 클래스 또는 서브-클래스가 존재할 수 있는 신뢰 레벨을 나타내는 신뢰값을 제공할 수 있다. 예측 리포트는 예를 들어, 도 5a 내지 5c 및 도 7에 도시된 바와 같이, 트루 이미지들, 예측 이미지들, 및 신뢰 이미지들을 포함할 수 있다.

도 3을 참조하면, 방법은 트루 이미지 및 예측 이미지 사이에서 다른 분석을 수행하는 단계(118)를 더 포함할 수 있다. 일 실시예에서, 시스템은 생체 시료의 트루 이미지를 동일한 생체 시료의 예측 이미지와 비교하고, 상기 트루 이미지와 상기 예측 이미지 사이에 존재할 수 있는 임의의 차이점을 결정할 수 있다. 차이점 분석은 예를 들어, 트루 이미지와 예측 이미지의 텍스쳐들을 비교하는 것, 트루 이미지와 예측 이미지를 비교하는 것, 분광 변화들을 비교하는 것(예를 들어, 얼마나 스펙트럼들이 변했는지, 넓은 변화), 공간적 집약성(locality) 차이점들을 식별하는 것(예를 들어, 차이점의 영역들이 하나의 영역 내에서 동일한 색의 큰 영역을 만들기 위하여 서로 클러스터화될 수 있는, 차이점의 영역들이 서로 다른 색으로 퍼질 수 있는), IHC 마커들(예를 들어, + 또는 -), 분자 마커들(예를 들어, + 또는 -), 조직병리학, 및 다른 적절한 메타 데이터 또는 임상 데이터(예를 들어, 환자 정보)들을 포함할 수 있으나, 이에 한정하는 것은 아니다. 일 실시예에서, 시스템은 차이점을 위한 설명 없이, 트루 이미지와 다른 예측 이미지의 영역들을 식별하기 위하여 하나 이상의 상술한 차이점 분석들을 예측 이미지로 적용할 수 있다. 예측 이미지로 보다 많은 차이점 분석들을 적용함으로써, 차이점들의 식별 가능성이 높을 수록 암의 새로운 클래스로 이루어질 수 있다.

예를 들어, 시스템은 도 5a에 도시된 트루 이미지와 도 5b에 도시된 예측 이미지를 비교할 수 있고, 어떠한 차이점들이 도시되었는지 결정할 수 있다. 예를 들어, 도 5a 내의 트루 이미지는 편평 암(squamous cancer)을 수용하는 생체 시료를 나타낸다(예를 들어, 생체 시료는 청색이다). 예측 이미지는 편평 암(청색 샘플)과 선암(adenocarcionoma)(진홍색(magenta) 샘플)을 모두 수용하는 생체 시료를 나타낸다. 시스템은 도 5b 내의 예측 이미지의 진홍색 영역들이 트루 이미지 내의 동일 영역들과 다른 것으로 결정할 수 있다.

도 3으로 돌아가서, 방법은 새로운 클래스로 이익 픽셀 영역을 할당하는 단계(120)를 포함할 수 있다. 일 실시예에서, 시스템은 이익 픽셀들의 영역을 위한 주석 영역을 생성할 수 있고, 다른 분석에 근거하여 주석 영역을 새로운 클래스로 할당할 수 있다. 예를 들어, 시스템은 도 5b의 예측 이미지의 진홍색 영역들이 도 5a의 트루 이미지 내의 동일한 영역으로부터 다르다는 것을 결정할 수 있고, 새로운 클래스로 할당하기 위하여 상기 예측 이미지의 진홍색 영역들 주변에 주석 영역들을 생성할 수 있다. 도 3의 방법은 전문 의료진(medical professional)이 이미지로 예를 들어, 생체 시료가 새로운 클래스를 수용하는지 여부를 나타내는 주석을 제공할 수 있는 주석으로 진행할 수 있다.

도 3의 방법은 이익의 진 양성 영역 또는 이익의 진 음성 영역을 결정하는 단계(122)를 포함할 수 있다. 예를 들어, 시스템은 진 양성 영역 또는 이익의 진 음성 영역을 포함하는 비교 이미지의 픽셀들을 식별할 수 있다. 진 양성 영역은 예를 들어, 트루 이미지가 트루 이미지 내에 암의 클래스가 존재하는 것으로 나타내는(예를 들어, 전문 의료진이 암의 클래스로 트루 이미지에 주석을 단 경우), 그리고, 예측 이미지의 스펙트럼이 예측 이미지 내에 암의 클래스가 존재하는 것으로 나타내는 비교 이미지의 영역을 포함할 수 있다. 진 음성 영역은 예를 들어, 트루 이미지가 트루 이미지 내에 암의 클래스가 존재하지 않는 것으로 나타내는(예를 들어, 전문 의료진이 트루 이미지 내에 암의 클래스가 존재하지 않는 것으로 주석을 단 경우), 그리고, 예측 이미지의 스펙트럼이 예측 이미지 내에 암의 클래스가 존재하지 않는 것으로 나타내는 비교 이미지의 영역을 포함할 수 있다.

진 양성 영역과 함께 예측 이미지의 일 예가 도 6b에 도시된다. 예를 들어, 도 6a는 청색 영역들 내에 식별된 SqCC+와 함께 생체 시료의 트루 이미지를 나타낸다. 도 6b는 예측 이미지가 트루 이미지 내에서 식별된 것과 동일한 영역들 내에서 SqCC+를 식별하는 진 양성 영역들과 함께, 도 6a에서 식별된 것과 동일한 생체 시료를 위한 예측 이미지를 나타낸다. 예를 들어, 예측 이미지 내의 청색 영역들은 트루 이미지 내의 청색 영역들에 대응할 수 있다.

도 3으로 돌아가서, 방법은 임의의 이익의 위 양성 영역과 임의의 이익의 위 음성 영역을 결정하는 단계(124)를 포함할 수 있다. 일 실시예에서, 시스템은 이익의 위 양성 영역 또는 이익의 위 음성 영역을 포함하는 비교 이미지의 픽셀들을 식별할 수 있다. 이익의 위 양성 영역은 예를 들어, 트루 이미지가 암의 클래스가 트루 이미지 내에 존재하지 않는 것을 나타내고, 예측 이미지의 스펙트럼들이 예측 이미지 내에 암의 클래스가 존재하는 것을 나타내는 비교 이미지 내의 영역을 포함할 수 있다. 이익의 위 음성 영역은 예를 들어, 트루 이미지가 암의 클래스가 트루 이미지 내에 존재하는 것을 나타내고, 예측 이미지의 스펙트럼들이 예측 이미지 내에 암의 클래스가 존재하지 않는 것을 나타내는 비교 이미지 내의 영역을 포함할 수 있다.

위 음성 영역을 갖는 예측 이미지가 도 6c에 도시된다. 예를 들어, 도 6c는 도 6a에 도시된 것과 동일한 생체 시료를 위한 예측 이미지를 나타낼 수 있다. 도 6c 내에 도시된 위 양성 영역들은 생체 시료들 내에 괴사가 존재할 수 있음을 나타내는 녹색 영역들을 포함할 수 있으며, 도 6a의 트루 이미지에서 동일한 영역은 SqCC+만을 도시하고 있다.

도 3으로 돌아가서, 방법은 신뢰값들에 근거하여 신뢰 예측 이미지 내의 이익 영역을 선택하는 단계(130)를 더 포함할 수 있다. 이익 영역은 샘플 내의 고 분화된(well differentiated), 그러나, 생체 시료 내에서 식별된 클래스 또는 서브-클래스의 타입을 위한 낮은 신뢰 레벨이 존재할 수 있는 영역들을 포함할 수 있다. 또한, 이익의 영역은 샘플 내의 저 분화된(well differentiated), 그러나, 스펙트럼 신호 내에 높은 신뢰 레벨이 존재할 수 있는 영역들을 포함할 수 있다. 예를 들어, 이익 영역은 이미지의 저 분화된 영역 내에 위치된 트루 이미지로부터 다른 클래스를 위한 강한 스펙트럼 신호를 나타내는 다수의 컬러 픽셀들을 포함할 수 있다. 일 실시예에서, 시스템은 식별된 이익의 위 음성 영역들과 이익의 위 양성 영역들을 수신할 수 있고, 원형, 그리드, 경계선, 또는 다른 경계 형태들과 같은 경계를 이익 영역의 주위에 삽입함으로써 이익 영역을 식별할 수 있다.

방법은 새로운 클래스로 이익 영역 픽셀들을 할당하는 단계(132)를 더 포함할 수 있다. 시스템은 이익 영역 픽셀들을 위한 주석 영역을 생성하고, 상기 주석 영역을 새로운 클래스 또는 서브-클래스로 할당할 수 있다. 방법은 전문 의료진이 이미지에 생체 시료가 새로운 클래스를 포함하고 있을 수 있다는 것을 나타내는 주석을 제공할 수 있는 주석을 다는 절차(108)를 진행하거나, 또는 다른 방법론(예를 들어, 알고리즘)이 적용될 수 있다.

따라서, 신뢰 이미지들은 생체 시료의 진단, 예후, 및/또는 예측 분류를 제공하는 단계를 보조하기 위하여 부수적으로 사용될 수 있다. 또한, 신뢰 이미지들은 생체 시료의 현미해부(micro-dissection)를 위한 이익 영역들을 드라이브(drive)하기 위하여 사용될 수 있다. 예를 들어, 신뢰 이미지 내에서 식별된 이익 영역들은 생체 시료의 유전자 발현(gene expression) 내의 변화들을 식별하기 위하여 사용될 수 있다.

여기에 기술된 본 발명의 관점은 암 또는 비-암(non-cancerous)의 어떠한 특정 세포 또는 조직 클래스를 위해서라도 적용가능한 범위 내에 있다. 반복 처리(process)가 적용되는 경우, 가장 정확한 결과들은 첫번째 반복(iteration)이 광범위의 세포 또는 조직 클래스를 위한 오리지널 표본 데이터 세트를 분석하고, 각각의 그 다음의 반복이 더 좁은 세포 또는 조직 클래스를 위한 표본 데이터 서브세트 결과를 분석할 때 달성될 수 있다. 데이터의 어떤 부분이 특정 질환과 관련이 있는지를 나타내기 위하여 임의의 주어진 반복의 결과가 제공되거나 출력될 수 있다는 것은 여기에 기술된 범위 내에 있다. 예를 들어, 첫번째 반복이 암 분석인 경우, 방법은 암 데이터의 두번째 반복을 진행할 수 있으나, 비-암인 것으로 발견된 데이터의 부분과 관련한 정보를 제공하거나 출력할 수 있다.

향상들 및 새로운 개발들

전술한 바와 같이, 본 발명은 생체 시료의 분류 시스템 및 방법들과 관련이 있다. 시스템 및 방법들은 생체 시료의 이미지를 수신하는 단계와 데이터 저장소로부터 하나 이상의 알고리즘들을 이미지로 적용하는 단계를 포함할 수 있다. 시스템 및 방법들은 이미지에 적용된 하나 이상의 알고리즘들의 결과에 근거하여 생체 시료의 분류를 생성할 수 있다. 시스템 및 방법들은 디스플레이 또는 다른 수단을 통하여 표시하기 위하여 분류를 전송하는 단계를 포함할 수 있다. 또한, 시스템 및 방법들은 하나의 플랫폼으로부터 다른 플랫폼으로, 또는 하나의 머신으로부터 다른 머신으로, 또는 동일한 머신의 다른 지점에서 데이터 세트들을 비교 가능하게 하기 위한 데이터 마스터 참조 및/또는 다른 상관분석/변형 특성들을 개발하기 위한 특성들을 포함할 수 있다.

보다 상세하게는, 예를 들어, 본 발명의 바람직한 실시예는 인접한 및/또는 산재한 픽셀들로 임계값을 적용하는 것을 포함할 수 있는 트레이닝 세트들과 관련한 다양한 특성들을 제공한다. 이와 관련하여, 후술할 “최소 룰”은 환자들과 픽셀들의 최적의 최소량을 선택함으로써, 질병 및 조직 타입 클래스들을 적절히 나타내기 위한 트레이닝 데이터세트들로 적용될 수 있다. 또한, 오버샘플링 룰이 상기 “최소 룰”이 적용된 이후 다중클래스 분류 알고리즘들 내의 클래스들의 균형을 유지하기(balance) 위하여 적용될 수 있다. 추가로, 예측 콜(prediction call)을 만들(making) 때 존재하는 예측된 픽셀들의 임계량을 설정하기 위하여 “최소 검출” 룰이 적용될 수 있다.

본 발명의 다른 실시예에서, 정확도를 향상 또는 저하시키도록 조절하거나, 또는 특이성 등을 증대시키면서 민감도를 낮추도록 조절하기 위하여 확률 임계값이 적용될 수 있다.

본 발명의 다른 실시예는 임계값들, 가능성들, 및/또는 적게표시된 데이터의 오버샘플링을 적용함으로써 이질성을 보고하는 것과 관련이 있다.

본 발명은 트레이닝 세트 구성이 알고리즘들의 정확도에 있어 큰 효과를 갖는다는 사실과 관련이 있다. 일관성, 계산 효율(예를 들어, 사용 시간), 및 알고리즘 성능의 향상을 제공하기 위하여, 다른 장점들 중에서 최소 트레이닝 세트 크기가 클래스를 위한 대표 구성을 달성하기 위하여 선택될 수 있다. 본 발명의 바람직한 실시예의 한가지 접근은 특성 개수를 제어하고, 성능 이득(gain)들 없이 추가적 특성들을 포함하는 것을 넘어 바람직하게 요구되는 특성들의 최소 개수와 함께 특성 개수의 함수로서 선택된 트레이닝 세트의 강건성을 보여주는 이것(this)을 보고하도록 최적 트레이닝 세트 크기를 설정하는 것이다. 다른 방법은 픽셀들의 개수에 의하여 강건성을 나타내는 방법이 있고, 다른 방버은 대표된 환자들의 수로 나타내는 방법이 있다. 모든 세가지 방법들은 조합될 수 있다.

본 발명의 다른 실시예는 임상적 사용을 위하여 하나의 알고리즘을 다른 알고리즘과 비교할 때 트레이닝 세트를 표시하는 것을 포함한다. 예를 들어, 본 발명의 바람직한 실시예에서, 트레이닝 세트들의 정확도는 타당성 및 검증 메트릭스들과 함께 보고될 수 있다. 예를 들어, 정확도는 환자/샘플 카운트, 픽셀 카운트 및 특성 카운트에 대하여 보고될 수 있다. 또한, 통계적 메트릭스들 및 데이터 세트 속성들을 포함하는 그래픽 리포트가 생성될 수 있다. 알고리즘들, 모델들 및 다른 분석들에 의하여 출력된 보고된 값들에 대한 기여(contribution) 및 청구(claim)들 뿐만 아니라, 물질(substance)과 픽셀 레벨 위치를 상세히 나타내기 위하여 제공될 수 있는 주석들(annotations)과 이미지들의 소스를 포함하는 데이터의 소스는 이와같은 리포트 내에서 보여질 수 있다.

다른 장점들 중에서, 출력에 영향을 주는 검출기 기술이 이러한 방법들 및 시스템들을 통하여 다루어질 수 있다. 일 실시예에서, 이러한 표준화를 위한 방법은 1) 데이터 수집; 2) 머신 특정 공간적 데이터 치료; 3) 가공되지 않은 데이터 준비 및/또는 사전처리된 데이터 준비; 4)데이터베이스 또는 다른 데이터 저장소에 추가된 데이터; 5) 일반화하도록 또는 제1 소스로부터의 데이터를 알려진 파라미터들을 갖는 제2 소스로부터 획득된 데이터와 유사하게 형성하도록 다르게 데이터를 조정하도록 적용된 데이터 호환 함수; 6) 데이터 유사성 메트릭스가 계산된다(예를 들어, 바이너리 상관분석, 클러스터 멤버쉽 검증); 7) 리포트/자동 수락/거부가 생성된다; 8)조정된 데이터는 샘플의 분석과 같은 곳에 사용될 수 있다.

상술한 다양한 특성들의 관점에서, 본 발명의 바람직한 실시예에 따른 이하의 실시예 및 검사 결과들은 괴사의 분석과 관련한 특성에 대하여 기술된다. SHP의 작용 메커니즘은 세포들의 생화학 요소들의 생물물리학 및 분광(spectroscopic) 특성들로부터 이해될 수 있다. 모든 분자들 ?작은 무기물 또는 매우 큰 생화학물(biochemical ones)들? 은 예측가능한 그리고 완전히 이해된 방식의 적외선 방사(infrared radiation)에 대응한다. 적외선 방사는 분자들의 특정 “핑거프린트”인 상대적으로 복잡하게 이루어진 “적외선 스펙트럼들”을 생성하기 위하여 특정 적외선 “색”(파장들)에서 분자 진동에 의하여 흡수된다. 따라서, 개별 세포, 또는 조직 픽셀로부터 수집된 적외선 스펙트럼들은 모든 분자들의 개별 핑거프린트 스펙트럼들의 중첩(superposition)이다.

생체분자(biomolecule)들의 적외선 분광 특성들은 형태(conformation)(형상), 수화(hydration), 산화(oxidation) 상태 및 많은 다른 물리적 효과들에 의하여 영향을 받는다. 예를 들어, 단백질이 다른 2차 또는 3차 구조들 내에서 발견된 경우, 즉, 변성된(denatured), 침전된(precipitated) 또는 수화된/건조된(hydrated/dehydrated) 경우, 동일한 단백질이 다른 적외선 분광 패턴들을 나타낼 수 있다는 것은 알려진 사항이다. 세포자멸 및 괴사에서, 단백질들은 그들의 태생적(native) 구조로부터 미접힘된다(unfold). 부분적으로 미접힘된 단백질들은 주로 베타-시트(β-sheet) 구조의 응집체를 형성하려는 경향이 있고, 침전하려는 경향이 있거나, 또는 용해되지 않도록 이루어질 수 있다. 태생적 단백질 구조로부터 미접힘된 응집체로의 변화는 적외선 분광 패턴들 내의 막대한 변화를 야기한다; 따라서, 이 변화는 쉽게 관찰된다. 결과적으로 SHP는 괴사를 검출하기 위한 고 감도 툴(tool)이다.

SHP에 의하여 검출될 수 있는 질병의 다른 분광 마커들은 대사체(metabolome) 내의 변화들, 또는 지질(lopids) 또는 점액질(mucous), 등 내의 변화들과 관련이 있다. 이러한 변화들은 적외선 스펙트럼의 몇몇 영역들에서 관찰된다: 예를 들어, 탄수화물 대사물질들 및 점액소(mucin)와 같은 당단백질(glycoprotein)들은 이러한 단백질 백본(protein backbone)으로부터 잘(well) 분리된 진동을 갖는다. 이러한 모든 용법들의, 단백질 분광 영역 내의 변화들은 SHP를 위하여 가장 중요할 수 있다. 이 중요성은, 단백질들이 가장 풍부한 세포 요소들이고, 세포들 및 조직들의 건조중량의 대략 65%를 포함한다는 사실에 의한 것일 수 있다. 또한, 단백질 구성의 변화들은 적외선 스펙트럼들 내의 단백질-특유의 밴드들 내에서 관찰된 분광 패턴을 변화시키는 경향이 있다. 도 9에 다른 조직 클래스들의 중-적외선 스펙트럼들의 예들이 제공된다. 도 9에서, 상단부의 곡선은 표피의 편평 조직을 반영하고, 중단부 곡선은 섬유-결합 조직(fibre-connective tissue)을 반영하며; 하단부 곡선은 베타-림프구를 나타낸다. 세가지 스펙트럼 커브들은 선명도(clarity)를 위한 흡광도(y축)을 따르는 오프셋이다.

특히, 적외선 스펙트럼 내에서 대략 1650 cm-1 (6.06 μm)으로 관찰된 단백질들의 “아미드 I” 진동은 단백질 구조의 가장 고감도의 표시자이다. 도 9에 도시된 분광 표시(plot)들 내에서, 흡수된 빛의 양(흡광도)는 cm-1와 같은 역수 장치(unit)들로 측정된 파장(또는 파수(wavenumber))의 역(inverse)에 대하여 세로축 상에 표시된다. 도 9에 “단백질 아미드 I”로 표기된 분광 영역은 도 9에 도시된 세가지 조직 타입들을 위한 유사한 분광 특성들을 나타내나, 네가지 주요 단백질 구조들, 알파-나선(α-helical), 베타-시트, 반전(turn), 비정형(disordered) 및 다른 나선 구조들의 특성들과는 매우 다르다. 이 구조적 감도는 단백질들의 구조 내의 변화들에 민감한 고도로 비편재화된(delocalized) 진동 상태들(“엑시톤(exciton)” 상태로 알려진)을 생성하는 개별 펩타이드 결합들(peptide linkages)(주로 C=0인 펩타이드 결합의 신축(bond stretching) 움직임)의 원거리의(long range) 쌍극성 결합(dipolar coupling)에 의하여 이루어진다.

도 9는 몇몇 다른 조직 타입들의 대표적인 적외선 스펙트럼들을 표사한다. 상단부의 자취(trace)는 C-O 신축(stretching) 및 C-O-H 변형 움직임들에 의거하여 1000 과 1200 cm-1사이에서 세개의 급격하게 변하는 흡수 피크(sharp absorption peaks)를 나타내는 글리코겐을 축적하는 것으로 알려진 편평 조직의 표피 레이어로부터 이루어진다. 이러한 피크(peak)들은 “아미드 I” 및 “아미드 II” 영역들로 구성된 단백질 분광 특성들 상에 중첩되고, 몇몇 피크들은 단백질 사이드 그룹(protein side group)들에 기인한다.

도 9의 중단부의 자취는 Pro-Pro-Xxx 시퀀스들을 반복하는 삼중 나선 단백질(triple-helical protein)인 콜라겐의 분광 특성들에 의하여 특징을 갖는 결합 조직의 적외선 스펙트럼을 묘사한다. 콜라겐은 스펙트럼을 2차 도함수들(후술함)로 변환함으로써 더 향상될 수 있는 1000 내지 1250 cm-1의 분광 영역에서 매우 특유한 적외선 흡수 패턴을 나타낸다. 마지막으로, 하단부의 자취는 다른 자취들에서 관찰된 단백질 피크들에 더하여 뚜렷한 핵 특성들을 나타내는 베타 림프구와 같은 대사적으로 높은 활성 세포들의 적외선 특징(infrared signature)를 나타낸다. 일반적으로, 조직 타입들 간의 분광 차이점들은 도 9에 도시된 것들보다 매우 작고, 검출 및 해석을 위해서 수학적 절차들이 요구된다. 상술한 괴사를 예외로 하고, 정상 상태에서 암 상태로 전이될 경우, 세포 내에 큰 구조적(conformational) 변화들이 발생할 가능성은 낮다. 그러나, 단백질 연구들이 보여주듯이, 풍부한 단백질들은 다른 구조적 모티프(motif)들과 함께 변화될 가능성이 크고, 전체적인 단백질 구성 내의 이러한 변화는 적외선 분광학(spectroscopy)에 의하여 샘플링된다. 분광 측정물들의 감도를 향상시키기 위하여, 관찰된 스펙트럼들은 그들의 2차 도함수들로 컨버팅될 수 있다; 이러한 절차는 피크들의 폭을 줄이고(collapse), 어깨들(shoulder) 및 굴절들(deflections)의 표현을 향상시킨다. 이 방법으로, 단백질 구성 내의 극미한 변화(minute change)는 삭제될 수 있다. 이러한 구조적 변화들은, 일반적으로, 적외선 분광학 방법에 의하여 단일 단백질의 상향 및 하향 조절(regulation)과 연결되지 않을 수 있으나, 그것들은 총 세포 구성의 스냅샷을 수용하고 그 안에서 변하는 분광 엔벨로프들 내의 변화들에 의하여 그들 스스로 나타난다.

따라서, SHP는 유전자학(proteomic), 대사체학(metabolomics), 및 유전체학(genomic) 변화들을 위한 분리 분광 "밴드" 내의 세포 또는 조직 점 내의 평균화된 구조적 변화의 통합된 시야를 제공한다. 정상 조직 타입들 간의 분광 변화들, 정상과 암 조직들 사이의 분광 변화들은 클래스 표시자들로서 분광 정보를 활용하기 위하여 디코딩 될 필요가 있을 수 있다. 이론상으로는, 이 디코딩은 임의의 몇몇 접근방법들에 의하여 성취될 수 있다. 한가지 접근은 예를 들어, 분명하게 정의된 암 타입들을 갖는 영역들을 선택하고, 임의의 미확인 샘플 스펙트럼을 모든 암 참조 스펙트럼들에 대하여 연속하여 비교함으로써 분류하는 것에 의한 암 참조 스펙트럼들의 정의(definition)를 포함할 수 있다. 일치한 참조 스펙트럼은 분류 결과를 결정할 수 있다. 다른 접근은 관측된 스펙트럼들을 몇몇 단백질들, 핵산들, 당류, 등과 같은 몇몇 "기저 분광(basis spectra)"의 조합들로 분해하는 것을 포함할 수 있다. 이 방법은 분광 분해 내의 참조 복합 스펙트럼(reference compound spectrum)의 누락(omission)이 예측하지 못한 그리고 잘못된 결과들을 생성할 수 있다는 단점을 가지고 있을 수 있다. 다른 예의 접근에서, 자가-학습 수학적 알고리즘들이 분광 변화들과 이와 관련한 질병들을 반복하여 찾아내도록 트레이닝될 수 있다. 이 접근은 후술하도록 한다. 이 방법은 이 알고리즘들이 요구된 결과와 함께 상관분석된 중요한 분광 차이점들을 위한 트레이닝 스펙트럼들을 스캔한다는 장점을 가질 수 있다. 결과와 함께 낮은 상관분석된 분광 영역들은 무시될 수 있다. 이 알고리즘들을 주의하여 트레이닝하고, 머신 러닝 및 바이오-인포매틱스의 확립된 룰들을 적용함으로써, 신뢰성이 높고 재생가능한 알고리즘들이 확립될 수 있다.

여기에 기술된 모든 분광학적 연구들은 적외선 방사 쪽으로 반사하되, 거의 전적으로 가시광선에 투명한 '저 방사율(low emissivity, low-e)' 슬라이드들 상에서 수행될 수 있다; 따라서, 적외선 데이터 획득을 위하여 , 그리고, 적절한 염색 이후에, 전통적인 조직병리학을 위한 가시적 이미지 획득을 위하여 동일한 조직 섹션이 사용될 수 있다. 가시적 그리고 적외선 이미지들이 동일한 샘플로부터 획득된다는 사실은 두개의 이미지들의 정확한 등록을 허용한다. 이 단계는 이 방법의 실시예 내의 분광 특성들의 정확한 주석을 위하여 필요하다. 분광 데이터의 획득을 위한 슬라이드들은 표준 절차들을 사용하여 비-파라핀화되고(de-paraffinized), 사용되지 않을 때에는 건조기(desiccator) 내에 유지될 수 있다.

도 10에 도시된 바와 같이, 적외선 분광 이미지들은 "초분광 데이터세트들" 또는 "분광 초입방체"로서 획득된다. 개념적으로, 각 조직 샘플은 가장자리에서 대략 6.25 μm 로 측정되는 수천개의 개별 픽셀들로 나뉜다. 각 픽셀로부터 대략 2.5 μm (4000 cm-1) 와 14.28 gm (700 cm-1) 사이의 파장 범위 내의 전체 적외선 스펙트럼이 수집될 수 있다. 따라서, 대략 1.8 mm의 지름 조직 점을 위한 가공되지 않은 분광 초입방체는 2 cm-1의 일정한 가로좌표 이격거리(spacing)에서 각각 1650 강도 데이터 포인트들을 수용하는 거의 100,000 픽셀 스펙트럼들을 포함할 수 있다. 이 분광 벡터들의 800 내지 1800 cm-1 사이의 "핑거프린트" 영역이 예를 들어, 조직 분류를 위하여 사용될 수 있다.

각 조직 점을 위한 적외선 분광 초입방체들은 퍼킨엘머(쉘톤, CT, USA) 모델 스펙트럼원/스포트라이트 400 이미징 적외선 마이크로-분광기(micro-spectrometer)를 사용하여 수집된다. 이 기구는 16 요소 극저온(cryogenically) 냉각된 적외선 HgCdTe 검출기 어레이를 포함한다; 따라서, 16 픽셀들로부터의 스펙트럼들이 동시에 수집된다. 데이터 수집 및 저장은 각 조직 점에 대하여 대략 1시간이 요구된다. 현미경의 광학 경로를 포함하는 전체 기구는 대기의 수증기 간섭들을 저감하기 위하여 건조 공기(이슬점이 -40° 인)로 소거된다(purged).

적외선 데이터 수집 이후, 조직 섹션들은 헤마톡실린/에오신(H&E)을 사용하여, 그리고, 표준화 및 인증된 방법들을 따라 염색된다(도 11 참조). 봉입(coverslipping) 이후, 조직 섹션들은 선형 스테핑 모터(0.1 μm 해상도)와 함께 컴퓨터-제어 현미경 스테이지에 장착된 올림푸스(센터 밸리, PA) BX51 현미경을 사용하여 이미징된다. 이미지들은 큐이미징(Qimaging)(서레이, BC, 캐나다) 모델 QICAM 고해상도 디지털 카메라를 통하여 획득된다. 현미경은 미디어 사이버네틱스 [로크빌, MD, USA] 이미지 프로 플러스 소프트웨어를 사용하여 작동된다. 조직 점들은 병리학적 해석을 위한 충분히 높은 공간적 해상도에서 큰 모자이크 시각 이미지 데이터 파일들을 생성하는 20x 배율에서 이미징된다. 시각적 및 적외선 현미경 관찰을 위한 슬라이드 위치의 등록은 특정 현미경 테이블 내의 위치들이 0.1 mm의 정확도로 판독 및 등록되는 세개의 레티클(reticle)들과 함께 장착된 특수하게 디자인되고 제조된 슬라이드 홀더에 슬라이드를 마운팅시킴으로써 도움을 받을 수 있다.

각 조직 점은 이하와 같이 사전-처리된 대략 105 의 개별 픽셀 스펙트럼들을 생산했다. 먼저, 초분광 데이터 입방체들의 크기가 더 나은 신호대잡음비(signal-to-noise ratio)를 갖되, 큰 픽셀 크기는 가장자리에서 12.5μm 인 새로운 스펙트럼에 네개의 개별 픽셀 스펙트럼들을 공동-추가(co-adding)함으로써 4개의 요인으로 인하여 저감된다. 노이즈, 수증기 및 공명(resonance) Mie(R-Mie) 스캐터링(위상 보정 알고리즘을 통한)와 같은 기여도(contribution)들을 교락시키기(confounding) 위하여 조직 점 당 대략 25,000 픽셀들의 결과 세트가 수정된다. 풍부한 단백질의 특정 변화들을 향한 분광 방법들의 감도를 향상시키기 위하여, 넓은 그리고 종종 비구조화된 가공되지 않은 스펙트럼들은 이차 도함수들로 변환된다. 이 절차는 분광 밴드들의 반값폭(half width)을 줄이는 것으로 알려져 있고, 따라서, 다른 종양 타입들을 분류하기 위한 능력을 제공하는 더 나은 차별적 파워를 ]제공한다. 이러한 이차 도함수 스펙트럼들은 SHP 실험에서 획득된 주요 정보이고, 주어진 과제는 병리학적 진단들과 함께 분광 정보를 디코딩하고 상관분석하는 것이다.

각 조직 점들을 위한 사전 처리된 초분광 데이터세트들은 차후에 위계적 군집 분석(HCA)에 의하여 수도-컬러 이미지들로 변환된다. 이 접근은 데이터세트들 내의 반복 패턴들을 추출하는 방법을 제공한다; 이 특정 어플리케이션 내에서, HCA는 데이터세트를 고 분광 유사성 및 동질성 그룹들로 분할하기 위하여, 그리고, 이 그룹들을 수도-컬러 디스플레이들로서 제공하기 위하여 사용된다. 조직 점들의 대표적인 HCA-기반 수도-컬러 이미지들이 도 11에 도시된다(중앙 열), 여기에서 좌측행은 대응하는 염색된 조직 점의 가시적 이미지를 나타낸다. 중앙 열 내의 HCA 이미지들에서 동일한 색의 영역들은 유사한 스펙트럼들을 나타낸다. 도 11의 시각적 검사는 IR 수도-컬러 이미지와 H&E-염색된 이미지들 사이의 공간적 관련성(correspondence)을 즉시 드러낸다. 이 관련성은 더 높은 배율의 시각적 이미지에서 보다 자명해진다: 도 12는 도 11의 상단 열 내에 보여진 ADC 샘플의 일부를 확대하여 나타낸다. 도 12에서, 적외선 수도-컬러 맵 내의 적색 영역들은 H&E 염색된 시각적 이미지 내에서 분홍색으로 나타난 결합조직 내에서 조직 영역들을 진하게 나타낸다. 이 적색 영역들은 주석 단계 내의 ADC 조직 클래스로부터 제외되며, 상세 사항은 후술한다.

전술한 사전-분할 단계는 병리학자로부터의 어떠한 입력도 요구하지 않는 다는 점에서 볼 때, 완전히 비지도(unsupervised)된다. HCA 이미지들은 분광 특성들에 의한 조직 구성내의 차이점들을 검출하기 위한 적외선 분광 이미징의 고유한 능력을 나타낸다. 방법 내의 이러한 점에서, 진단 정보 없이 적외선 이미지들로부터 사용가능하다; 진단 및/또는 예후의 능력들을 달성하기 위하여, 명백하게 정의된 조직 타입들 및 질병 상태들의 영역들이 도 11에 도시된 이미지들로부터 식별될 수 있다. 그 후에, 알고리즘들이 병리학 진단들과 함께 분광 특성들과 관련하여 트레이닝된 이러한 영역들과 관련한 스펙트럼들이 추출되고 데이터베이스로 입력될 수 있다. 이 단계는 “주석”으로서 참조되고, 이하 상세히 기술된다. 그 후에, 알려지지 않은 데이터세트들은 질병-특화된 분광 특성들의 발생을 위하여 분석될 수 있다.

주석 절차는 H&E 염색된 시각적 이미지들로부터 분명하게 할당가능한 조직 영역들을 수도-컬러 적외선 이미지의 대응하는 영역들과 함께 상관분석할 수 있고, 적외선 이미지들 내의 선택된 영역들로부터 스펙트럼들의 추출을 허용할 수 있다. 따라서, 가시적 및 적외선 이미지들의 반투명 오버레이가 조직 특성들이 여전히 감지될 수 있도록 하되, HCA 클러스터들에 대응하는 컬러 배경 상에 디스플레이될 수 있도록 이미지 등록 방법들을 사용하여 생성될 수 있다(예를 들어, 자동적으로). 이 작업은 조직 마이크로어레이 점들 또는 큰 생체검사 조직 섹션들을 위한 것과 동일하게 수행될 수 있다. 이 클러스터 내에, 병리학자와 같은 전문가는 질병이 있거나 정상 조직 타입의 가장 대표적인 조직학적 영역들을 나타내는 영역들을 선택할 수 있다. 각 영역은 질병 상태 또는 조직 타입들을 식별한 코드와 함께 태그될(tagged) 수 있다. 이 결과는 도 11의 우측 열에 도시된다. 도 11에서, ADC를 나타내고 병리학자에 의하여 선택된 영역들은 보라색으로 도시되고, 여기에서 선택된 괴사 조직 영역들은 녹색으로 도시된다. SCLC 샘플 내에서, 주석이 달린 SCLC 영역들은 노란색으로 도시된다. 주석 소프트웨어 단 하나의 HCA 클러스터와 관련하는 병리학자에 의하여 선택된 각각의 인접한 영역을 알아내고, 하나의 선택된 영역 내에 다수(majority) 할당된 것으로 확인되지 않은 픽셀들을 제거한다. 도 11 의 선택된 영역들의 수는 주석이 달린 조직 점이 대표적이고, 평균 대략 350 세포들에 대응하여 각 조직 점을 위한 대략 1400 픽셀 스펙트럼들이 얻어진다(yielded). 이 후 평가는 세포의 크기의 추정(대략 25 μm의 지름) 및 응집된 픽셀 크기(가장자리에서 12.5 μm)에 근거하여 이루어진다.

대략 550,000의 주석이 달린 픽셀들의 데이터세트(하기의 표 I 참조) 내에, 각 픽셀 스펙트럼은 고유하게 정의되고, 조직 마이크로-어레이 명칭(예를 들어, LC706), 특정 섹션, 행 및 열(예를 들어 C3)에 의하여 식별된 roquf 조직 영역, 및 픽셀 스펙트럼의 좌표(coordinate)를 추적가능하도록 이루어진다. 이 실시예에서, 이 좌표는 픽셀 X, Y 어드레스와 픽셀 크기에 의하여 고유하게 정의된다. 픽셀 X, Y 어드레스는 슬라이드 홀더 내의 레티클 위치들에 대하여 참조된다. 또한, 각 주석이 달린 픽셀 스펙트럼은 병리학 진단을 식별한 코드와 함께 태그된다. 따라서, 어떠한 픽셀 스펙트럼이라도 이동되고 추적될 수 있고, 주석을 위하여 사용된 시각적 이미지의 대응 영역과 비교될 수 있다.

표 I. 전체 데이터세트 내의 픽셀 스펙트럼들의 수, 처리된 스펙트럼들 및 주석이 달린 스펙트럼들
총 스펙트럼들:	~ 39 x 10⁶(388 점들, ~ 100,000 점 당 스펙트럼)
처리된 스펙트럼들:	4 x 10⁶ 픽셀 스펙트럼들 (2x2 픽셀 평균 및 블랭크 픽셀의 제거)
주석이 달린 스펙트럼들:	5.5 x 10⁵ 스펙트럼들
주석 영역들:	9.3 x 10³ 주석 영역들
주석 영역들/점:	24 24 영역/점 (평균)
픽셀들/주석 영역:	60 60 픽셀들 (평균)
메인 조직 타입들:	168 (54 악성, 114 정상 클래스들)

일반적으로 뚜렷한 진단은 주석을 다는 병리학자들로부터 본 발명의 바람직한 실시예에 따른 방법들을 통하여 획득된 진단과 일치된다. 주석은 그래프 파티셔닝 방법을 사용하여, 유사 분석에 의해 차후에 26 주요 조직 타입들/질병 클래스들로 결합되는 160 클래스들 이상의 픽셀 스펙트럼들의 결과를 냈다(yield). 이 그래프들은 어떤 클래스들이 클래스들 사이의 연결을 최소화함에 따라 큰 그룹들로 결합될 수 있다는 것과 매우 밀접하게 관련되었는지를 명백하게 나타낸다. 이 그룹들은 그룹 A (10 정상 조직 타입들); 그룹 B: (괴사 ADC, 괴사 SqCC, 및 케라틴 펄); 그룹 C: (SCLC 및 괴사 SCLC); 그룹 D: SqCC (3 등급들) 및 그룹 E: ADC (8 서브-타입들)로 여기에 기술되었다.

모든 계산들은 64 비트의 윈도우 운영 시스템으로 동작하는 12 코어 인텔 프로세서 및 56 기가바이트의 메모리가 장착된 델 워크스테이션 상에서 수행된다. 이 워크스테이션은 20 테라바이트의 하드 드라이브 공간과 클라우드 백업이 이루어지는 서버와 연결된다. 모든 계산들은 본 발명의 바람직한 실시예에 따라 개발된 스크립트들을 사용하는 버전 R2013.b (수학작업, 나틱스, MA)의 매트랩(MATLAB) 내에서 수행된다. 스크립트들 및 입력 데이터-세트들은 각 연구가 뚜렷한 목적, 결과 및 데이터 서브세트들을 기여하는(contributing)것에 따라 정의된 각각의 “연구들”이 수행되도록 저장된다.

최종 알고리즘 및 사용 절차의 가장 핵심적인 특성들은 아래와 같이 요약된다:

- 재현성(reproducibility)이 높고 작업 모드의 이해가 보다 쉽기 때문에 서포트 벡터 머신들이 분류 작업을 위하여 사용된다.

- 501 이차 도함수 데이터 포인트(800 내지 1800 cm-1 범위의 신장(spanning))의 전체 분광 벡터가 분류를 위하여 사용된다. 800 cm-1이하 범위는 전체적인 정확도에 기여하지 않으며 무시된다. 특성의 선택(즉, 800 내지 1800 cm-1 범위내의 특정 분광 특성들을 제거하는)은 분류 정확도를 감소시켰고 적용되지 않았다.

- 질병 또는 조직 타입 클래스 당(per) 2000 픽셀 스펙트럼이 알고리즘 트레이닝을 위하여 랜덤하게 선택된다. 분류 정확도는 더 많은 픽셀 스펙트럼들을 사용하는 것으로부터 향상되지 않으나, 계산 시간을 현저히 증가시켰다. 클래스들중 하나에 2000 보다 적은 스펙트럼들이 존재했다면, ‘오버샘플링’이 적용되었다: 더 큰 클래스들 내의 스펙트럼 수를 저감하는(‘언더샘플링’)것 대신에, 오버샘플링에서, 스펙트럼들은 트레이닝 세트 내에서 반복적으로 사용되었다.

- 최종 SVM은 레이디얼 커널(radial kernel) 또는 기저 함수(basis function)(rbf)를 사용하였다. 두개의 파라미터들, “c” (오분류 에러 상의 페널티 중량(penalty weight)) 및 “γ” (레이디얼 기저 커널(radial basis kernel)의 폭)는 γ 를 0.000061 (214) 내지 0.031 (2-5) 에서, 그리고, c를 0.0625 (2-4) 내지 32 (25) 에서 변화시킴에 따라 최적화된다. 이 접근은 위에 열거된 5개의 주요 클래스들 내의 대략 190,500 트레이닝 스펙트럼들 및 48,600 테스트 스펙트럼들로 구성된 벤치마크 데이터 세트를 위한 92.4 ± 0.85 %의 정확도를 획득한 최적화된 SVM을 도출했다. 위의 중요 항목에서 보여진 바와 같이, 10,000 스펙트럼들은 이러한 데이터세트들로부터 랜덤하게 선택된다: 반복된 트레이닝/테스트 절차들은 기대 신뢰 구간 한계들 내에 놓인 것으로 발견된 결과들을 얻었다.

확신 구간들(CI, Confident interval)은 이하와 같이 계산된다. 10개의 독립 SVM 트레이닝 및 테스트 실행(run)들은 전체 트레이닝 데이터세트로부터 10,000개의 트레이닝 스펙트럼들을 랜덤하게 선택함으로써 수행된다. 이러한 10,000개의 트레이닝 스펙트럼들은 5개의 이익의 클래스들(NOR, NECR, SCLC, SqCC 및 ADC)로부터 클래스당 2000 스펙트럼들과 함께 선택된다. 2000개의 스펙트럼들에 기여한 환자들의 수는 30 내지 135로 변화되나, 트레이닝 세트의 크기는 10,000에서 일정하게 고정된다. 이 시뮬레이션의 결과는 도 13에 도시된다. 전체적인 정확도는 기대한 바와 같이, 트레이닝 세트 내의 환자들의 수의 증가와 같이 85 내지 90% 이상으로 증가했고, 10개의 독립적인 실행들을 위한 정확도 내의 스캐터는 대략 5배로 감소했다. CI들은 또한 분석적 방법들에 의하여 획득되고, 시뮬레이션들과 매우 일치한다.

도 13은 본 발명의 바람직한 실시예에 따른 정확도 및 신뢰 구간의 시뮬레이션 그래프를 트레이닝 세트 내의 환자 수의 함수로서 나타낸다. 그래프 내의 각 기호는 표시된 환자들의 수로부터 랜덤하게 선택된 10,000개의 픽셀 스펙트럼들을 위한 하나의 트레이닝/테스트 결과를 나타낸다.

또한, 이러한 시뮬레이션 결과들은 주석 방법이 종종 조직 동질성의 샘플링 및 환자 대 환자 분산(variance)을 생성하는 각 주석이 달린 점을 위한 수백 또는 수천 개별 픽셀 스펙트럼들을 얻는다는 것을 시사한다. 이 결과는 환자당 하나의 데이터 포인트를 얻고, SHP에서, 각 환자들을 위하여 수천개의 데이터 포인트들이 생성되는 다른 암 진단 방법들과 대조적이다.

마지막으로, 데이터는 표준 SVM들 및 확률-기반 Platt-SVM들을 사용하여 분석된다. 후자에서, 분류자는 픽셀이 대략 90% 확률로 클래스 A와 관련이 있고, 여기에서 대략 10% 이하의 확률의 픽셀이 대부분 주로 클래스 B와 관련이 있는(대략 90%의 확률) 확률 한계(예를 들어, 0.1 및 0.9)들을 보고한다. 0.1과 0.9 사이의 픽셀들은 “분류불가능”으로 간주된다. 이 접근은 분류된 픽셀 스펙트럼들의 총 수를 감소시키나, 나머지들이 정확하게 분류될 가능성을 증가시킨다.

연구의 전체적인 목적은 정상(NOR) 및 질병 조직의 신뢰성 있는 차이, 괴사(NECR)와 암 조직들 간의 차이, 그리고, 소세포 폐암(SCLC)와 비-소세포 암(NSCLC)의 차이의 확인을 포함한다. 또한, 후자의 카테고리는 자체적으로 몇몇 등급들 및/또는 서브클래스들을 갖는 편평 세포 폐암(SqCC)과 선암(ADC)으로 구별되었다.

분광 클래스들 내의 이질성은 주어진 분광 클래스(좌측 패널) 내의 모든 분광 벡터들을 위한 주성분분석(PCA) ‘스코어 플롯(scores plot)’, 각 환자를 위한 대략 95%의 신뢰도 타원에 의하여 표시된 동일한 정보, 및 타원체의 중심을 나타내는 도 14a 및 14b의 검사에 의하여 이해될 수 있다. 명백하게, 이 클래스를 위하여, 한명의 환자는 다른 7명의 환자들과 비교하여 크게 다른 분광 특성들을 나타낸다. 한명의 떨어진(outlying) 환자가 SHP에 의하여 검출된 조금 다른 질병 프로파일을 나타내는지 여부, 또는 주석들이 두개의 다른 질병 단계들을 동일한 클래스 내에 위치시키는지의 여부는 분명하지 않다.

낮은 신호 대 노이즈 비율(signal-to-noise ratio)을 갖는 픽셀 스펙트럼들(도 12의 HCA 플롯 내의 검은색 영역들로 도시됨)을 제거하는 것을 제외하고, 모든 스펙트럼들은 이하의 경고문(caveat)과 함께 트레이닝 및 타당성 서브세트들에 포힘된다: 분석되기 전에 최소한 셋 이상의 환자들과 400 픽셀 스펙트럼들이 조직 클래스 내에 나타나야 함

대략 550,000의 주석이 달린 픽셀 스펙트럼들(표 I 참조)의, 219,422가 173명의 환자들로부터 트레니잉 세트 내에 존재하고, 256,729가 196명의 환자들로부터 테스트 세트 내에 존재한다. 이 픽셀 스펙트럼들의 216,767는 충분한 환자들/픽셀들이 클래스들 내에 표시된 26개의 서브타입들 내에 존재하고(위의 기준들 참조), 246,725는 테스트 세트 내에 존재한다(표 II 참조). 트레이닝 세트와 테스트 세트 모두 주석이 달린 영역들로부터 존재한다는 것에 유의하여야 한다; 즉, 블라인드 테스트 세트로부터의 데이터는 전술한 바와 같이 처리되고 주석이 달린다. 그러나, 이 데이터들은 데이터의 오버-피팅(over-fitting)을 회피하기 위하여 분류 알고리즘의 트레이닝 절차에 절대 사용되지 않는다. 블라인드 데이터세트들 역시 분류자의 정확도가 평가될 수 있도록 처리되고 주석이 달린다.

표 II: 트레이닝 및 테스팅 데이터세트들의 요약

	Number of patients	Number of anno- tated pixel spectra	Number of annotated pixels in 26 major classes
Training	173	219,422	216,767
Test	196	256,729	246,725

이 실시예를 위한 데이터세트의 분석에 세가지 다른 접근방법이 사용될 수 있다. 한가지 접근방법은 “픽셀-기반” 테스트로 참조된다. 여기에서 알고리즘은 전술한 바와 같이, 2000개의 픽셀 스펙트럼들과 함께 전술한 조직 타입들의 5개의 주요 클래스들(그룹 A 내지 E)로 나뉘는 각 26개의 서브그룹들로부터 트레이닝된다. 26개의 조직 클래스들 중 하나의 스펙트럼 개수가 2000보다 적으면, 위의 최종 알고리즘에서 기술된 바와 같이 오버샘플링 계획이 적용된다. 이 테스트는 주석을 단 의사에 의하여 주어진 진단과 함께 테스트 세트 내의 환자들로부터 모든 주석이 달린 영역들의 전반적인 일치(agreement)를 샘플링한다.

분석의 두번째 접근방법은 “완전 점 테스트”로 참조된다. 이 테스트에서, SHP 진단들 상이의 동의와 전체 점 진단들이 결정된다. 여기에, 두드러진 SHP 암 예측이 병리학 진단들과 일치하도록, 그리고, 이 진단을 검증하기 위하여 최소한 400 픽셀들 이상(100 세포들)이 SHP에 의하여 검출되도록 하는 기준이 설정된다. 따라서, 이 테스트는 SHP가 암 샘플을 놓치지 않았다는 것과 주요 암 타입을 제대로 진단한다는 것을 확인했다.

마지막 접근 방법은 “완전 점 테스트”의 결과들의 이미지 기반 표시이다. 여기에서, 각 환자 샘플을 위한 주석이 달린 영역들 간의 일치(agreement)가 후술할 “라벨 이미지”를 통하여 SHP 예측과 비교된다.

이 테스트는 26개의 서브그룹들 내의 52,000 개의 트레이닝 스펙트럼들의 랜덤 선택과 함께 10회 수행된다. 테스트 세트 내의 스펙트럼들을 분류하기 위하여 각 트레이닝 모델을 사용함으로써 확립된 안정된 정확도는 데이터세트 내의 분산을 적절히 샘플링한 트레이닝 스펙트럼들을 나타내는 연속적인 실행들을 위하여 대략 1% 이하로 변화한다. 26개의 서브그룹들의 결과들은 그후에 그 결과들이 표 III에 도시된 주요 5 클래스들과 결합된다.

표 III. 테스트 데이터세트를 위한 픽셀-기반 감도, 특이성 및 안정된 정확도

Class	Sensitivity	Specificity[특이성]	Balanced accuracy[정확도]
Normal Necrosis[괴사] SCLC SqCC ADC	98.0%	97.2%	97.6%
	78.8%	83.9%	81.4%
	95.9%	82.8%	89.4%
	83.2%	86.0%	84.6%
	82.2%	84.0%	83.1%

안정된 정확도 분류의 평균은 87.2%이다. 특히, SHP가 많은 괴사 픽셀들을 SCLC로 진단한 SCLC 및 괴사를 갖는 샘플들의 경우, 불일치의 주요 소스는 저감도를 갖는 괴사의 분류로 나타난다. 이 결과는 내부(interior)에 심각한 저산소증(hypoxia)을 나타낼 수 있는 고형종(solid tumor) 내에 도출된 한편으로는 괴사와 다른 한편으로는 괴사를 갖는 SCLC간의 차이가 얼마나 뚜렷한지에 대한 의문을 야기한다.

평균 안정된 정확도(balanced accuracy)는 Platt-SVM 접근방법을 실시함으로써 상당히 향상될 수 있다. 낮은 확률 픽셀들을 제거함으로써(Platt 임계값을 0.75로 증가시킴으로써), 분류된 픽셀들의 수를 256,729에서 202,579로 줄임(18%의 픽셀 수 감소)과 동시에, 안정된 정확도는 87.2%에서 91% 이상으로 향상될 수 있다. Platt 임계값이 0.9로 증가하는 경우, 안정된 정확도는 93.2%로 증가하고, 진단된 픽셀들이 191,608개로 부수적으로 감소한다(픽셀 개수의 22.4%의 감소). 낮은 확률의 픽셀들은 두가지 이유들에 의하여 주로 나타난다: 조직의 가장자리에서의 낮은 신호 대 노이즈 데이터와 분광 분석의 통계적 중요성이 감소된 조직 서브클래스들 중 일부에서의 낮은 환자 수.

몇몇 복사 조직 점들이 동일한 환자로부터 제거된 이후 설정된 완전 점 테스트 내에 총 188명의 환자 샘플들이 포함된다. 전술한 바와 같이, 이 테스트는 진단 결과들로부터의 주요 진단 카테고리가 이 진단과 일치하는 최소 400개의 픽셀들과 함께 적절히 재생산되는 것을 요구 한다. 표 IV 내지 VII는 이 분석들중 몇몇으로부터의 요약된 결과들이다: 전체적인 데이터세트의 큰 크기 때문에, 각 클래스의 단 10개의 점들이 보고된다. 표 IV ? VI 에서, 치하의 포맷을 따른다. 행 1은 전술한 조직 점 식별자를 포함한다. 다음의 5개의 열들은 SHP에 의하여 진단된 픽셀 스펙트럼들의 수를 나열한다. 여기에서 적색 배경은 정상, 녹색은 괴사, 노란색은 SCLC, 청색은 SqCC, 및 보라색은 ADC 진단들을 의미한다. 7번째 열은 진단 결과들을 나타내고, 마지막 열은 SHP/병리학 상관분석을 나타낸다. 여기에서 TN은 진음성, TP는 진 양성, FN은 위음성, FP는 위 양성 결과들을 표기한다. 표 IV에서 예를 들어, 샘플 점 LC701_A001_0408는 조직 점 상에 불규칙하게 산재한 33 개의 NECR과 73개의 ADC 오진(misdiagnoses)을 갖고, 400 픽셀 임계값 밑으로 떨어진다. 따라서, 이 조직 점은 병리학 결과들에 따라 진 음성으로 진단되었다.

표 IV: 정상 조직 샘플들을 위한 부분적인 완전 점 결과

'LC701_A001_0201'	2206	2	1	0	0	NOR	TN
'LC701_A001_0204'	1313	0	0	0	0	NOR	TN
'LC701_A001_0205'	2570	0	2	0	2	NOR	TN
'LC701_A001_0206'	2808	0	0	0	0	NOR	TN
'LC701_A001_0207'	1255	4	0	0	3	NOR	TN
'LC701_A001_0208'	763	0	0	0	1	NOR	TN
'LC701_A001_0303'	718	0	0	0	0	NOR	TN
'LC701_A001_0406'	429	0	0	0	1	NOR	TN
'LC701_A001_0408'	3641	33	0	1	73	NOR	TN
'LC701_A001_0503'	1712	0	6	0	0	NOR	TN

표 V. SCLC 조직 샘플들을 위한 부분적인 완전 점 결과

'LC703_A001_0501'	858 00	0	69	9	1	SCLC	TP
'LC703_A001_0502'	69	13	3657	1	441	SCLC	TP
'LC703_A001_0108'	26	24	4496	15	0	SCLC	TP
'LC703_A001_0308'	414	1	5420	0	0	SCLC	TP
'LC703_A001_0408'	69	1	5983	1	2	SCLC	TP
'LC703_A001_0409'	14	5	7318	454	8	SCLC	TP
'LC703_A001_0509'	167	0	5891	0	0	SCLC	TP
'LC811_A072_0606'	26	0	1403	0	0	SCLC	TP
'LC811_A072_0609'	3	3	4006	1	1234	SCLC	TP
'LC811_A072_0610'	0	258	595	0	369	SCLC	TP

표 VI. 완전 점 분류 결과

'LC701_A001_0105'	3768	0	512	5	178	NOR	FP
'LC702_A001_0401'	773	113	5091	9339	42	ADC/NECR	FN
'LC702_A001_0404'	538	166	8695	2156	42	ADC/NECR	FN
'LC702_A001_0204'	2707	65	5523	1552	3646	ADC/NECR	FN
'LC811_A072_0307'	0	48	374	73	471	SqCC	FN
'LC704_A001_0304'	58	4622	1	374	428	SqCC/NECR	FN
'LC702_A001_0106'	123	2	8116	8	2	SCLC/NECR	FN
'LC702_A001_0303'	905	0	5264	0	1	SCLC/NECR	FN
'LC702_A001_0503'	1236	32	10360	6	10	SCLC/NECR	FN

유사하게, 표 V는 10개의 대표 샘플들을 SCLC와 함께 나열하였다. 4번째 열은 엔트리들(entries)의 대부분을 포함한다. 두번째 열 엔트리들은 오분류들이 아니지만, 병리학자들에 의하여 정상인 것과같이 진단되었다. 예를 들어, 점 LC811_A072_0610는 258개의 NECR 픽셀들과 369개의 ADC 픽셀들을 나열한다: 두가지 모두 400개 이하이고, SCLC 카운트가 595이기 때문에, 샘플은 TP로 카테고리화되었다.

마지막으로, 표 VI는 모든 오분류된(FP 및 FN) 조직 점들을 열거한다. 오분류들의 총 개수, 9/188 또는 4.8%은 매우 작다; 그러나, 이 숫자들은 경계사례(borderline case)들이다. FP 진단들, 예를 들어, LC701_A001_0105 은 픽셀들의 다수가 정상으로 적절히 식별되었으나, SCLC 오분류들의 개수(512)가 400개의 픽셀 스펙트럼들의 임계값을 초과하였다. 유사하게, 표 VI 내의 마지막 세개의 엔트리들은 다수가 암으로 정확하게 식별되었으나, 괴사 픽셀들의 상당한 부분(sizeable fraction)을 검출하는데 실패하였다. 이 결과는 SHP가 혼합된 NECR/SCLC 샘플들 내의 괴사를 과소평가하려는 경향이 있다는 것을 나타내는 전술한 의견과 일치한다. 또한, 표 VI는 또한 괴사가 혼합된 NECL/ADC의 경우에 몇몇 장애들(difficulties)을 보여주는 것을 나타낸다. 표 VII는 감도 및 특이성과 관련한 완전 점 결과들의 요약을 나타낸다. 여기에 도 VIIIA는 표 VI에 나열된 9개의 모든 분류들을 위한 완전 점 테스트의 감도 및 특이성을 제공하고, 표 VIIB는 샘플 LC702_A001_0106, LC702_A001_0303 및 LC702_A001_0503(표 VI 참조)이 암이 정확히 식별됨에 따라 진 양성으로서 포함된 경우의 감도 및 특이성을 나열한다.

표 VII A					표 VII B
완전 점 분석들의 감도 및 특이성은 각각 SCLC가 정확하게 분석되나 괴사가 누락된 샘플들을 각각 포함하고 제외한다.
Cancer	148	8	94.9%	Sensitivity	Cancer	151	5	96.8%	Sensitivity
Normal	1	31	96.9%	Specificity[특이성]	Normal	1	31	69.9%	Specificity[특이성]

분광학 및 생화학 관점들로부터, 괴사는 세포 구조 및 생화학 구조 내에 주요한 변화를 제공한다: 단백질 구조 내의 변화들은 아미드 I 분광 영역(섹션 B 참조)을 왜곡하고, 따라서 심하게(severely) 작은 변화들은, ADC와 SqCC를 구별하는 것과 같이 압도될(overwhelmed) 수 있다.

다음으로 논의된 라벨 이미지들은 상술한 결과들의 그래픽 표현이다. 이 표현들의 예들이 도 15에 도시된다. 도 15에서, 좌측 열의 이미지들은 전술된 동일 색 스키마(scheme) (적색: 정상, 녹색: 괴사, 노란색: SCLC, 청색 SqCC 및 보라색: ADC) 내에 중첩된 주석이 달린 영역들과 함께, H&E 염색된 조직 점들의 높은 투명한 시야를 표현한다. 이 주석들은 금본위, 또는 ‘트루’ 값으로 간주된다. 우측 열의 이미지들은 동일한 컬러 스키마의 SHP 예측들을 나타낸다. 첫번째 열(A, B)는 SCLC와 함께 진단된 조직 점을 위한 트루 및 예측된 결과를 나타낸다; 일치는 훌륭하고, 단지 적은 영역(화살표)만이 오분류되었다. 유사하게, 괴사 및 SqCC(C, D) 점은 SHP에 의하여 그 전체가 정확하게 분류되었다. 이 두 샘플들은 SHP 예측들의 전체적인 품질을 대표하고, 테스트 세트 내의 주요 점들은 SHP에 의하여 정확하게 예측된다.

도 15의 패널 E 및 F는 몇몇 분류들과 함께 조직 점을 나타낸다. 여기에, 괴사로 진단된 영역들은 일반적으로 SHP에 의하여 잘 예측되나, ADC 영역들의 일부는 ADC와 SqCC 또는 ASC와 괴사의 혼합물로서 예측된다. 한편, 여기에 도시된 이미지들은 저조하게(poorly) 분화되고 향상된 ADC 및 Sqcc의 경우특히, 괴사에 의하여 동반되는 경우들 간에서 주로 발생하는 대표적인 SHP 오분류들이다. 적은 점들이 SqCC와 ADC 사이에서 오진된다; 그러나, 악성 샘플이 정상으로 분류되지는 않는다.

도 16은 종종 낮은 Platt 확률들을 나타내는 분류의 영역들을 나타낸다. 도 16의 패널 A는 ‘트루’ 주석을 나타내고, 패널 B는 SHP 예측을 나타낸다. 두 영역들에서 괴사(녹색)는 SHP에서 누락(miss)되었고(비록 SHP 이미지 내에서 중앙의 괴사 점이 약한 녹색 픽셀들을 나타낸다 하더라도), 많은 SqCC 픽셀들이 ADC로 오분류되었다. 패널 C는 흰색 픽셀들에 의하여 표시된 바와 같이, 낮은 신뢰도와 함께 생성된 다수의 오분류를 나타낸다. 오분류들과 낮은 확률 분류들은 괴사의 존재가 ADC 대 SqCC 분류의 정확도를 절충(compromised)시키는 분광 특성의 가장 중요한 특징이 된다는 사실에 따라 이루어질 수 있는 괴사 영역의 근처에서 발생된다.

양성 병변들은 완전히 아날로그적인 방법으로 분석된다. H&E-염색된 섹션들의 이미지들과 그들의 대응하는 HCA 이미지들은 전술한 바와 같이 주석이 달린다. 도 17은 ‘기질화 폐렴(organizing pneumonia)’ 및 ‘과오종(hamartoma)’으로 진단된 양성 종양들의 두가지 실시예들을 나타낸다. 주석이 달린 영역의 픽셀 스펙트럼들은 정상 조직들의 조직 데이터 베이스들로 통합되고, 20개의 새로운 조직 타입들에 기여된다(contributed); 추가로, 암 조직 점들의 비-암 영역들로 발견된 정상 조직 타입들의 다수는 양성 병변 내에 발견된다.

비-악성 종양들로부터의 조직 타입들은 이러한 악성 종양들로부터 쉽게 구별될 수 있다. 도 8은 악성과 비-악성 병변들로부터의 클래스 평균 스펙트럼들이 쉽게 구별될 수 있다는 것을 암 클래스들(적색)으로부터 잘 분리된 모든 양성 클래스들(청색)과 함께 보여주는 HCA-기반 계통도를 보여준다. 또한, 이 그래프는 비지도 HCA 클러스터들 암 스펙트럼들을 병리학 표준들에 의하여 매우 잘 묘사한다: 모든 괴사 조직 클래스들은 하나의 클러스터 내에서 함께 발견되고, SqCC 및 SCLC는 ADC로부터 분화된다. 트레이닝된 LOOVC-기반 SVM 분류자는 악성 병변들로부터 양성을 99%의 정확도로 분리한다.

암 환자들의 정상 조직들과 양성 병변들을 가진 환자들의 정상 조직들 간의 분광 차(difference)들 또한 검토되었다. 이것을 완료하기 위하여, 암, 양성 및 염증성(inflammatory) 샘플들 내에서 발견된 동일한 정상 조직 타입들이 추출되었다: 조직 클래스 ‘암 인접 조직 내의 혈관벽’은 41명의 환자들의 13,356 픽셀 스펙트럼들이 포함되었다. 여기에서 대응하는 클래스 ‘양성 샘플들 내의 혈관벽’은 56명의 환자들의 9,825 픽셀 스펙트럼들이 포함되었다. 유사하게, 표 VII에서 결합 조직 클래스들은 암 인접 조직 내의 128,485 픽셀과 양성 및 염증성 샘플들의 3,806 픽셀을 포함했다. (암 인접 결합 조직의 경우에서 하나 이상의 조직 클래스를 기부할 수 있었다는 것에 유의해야 한다: 따라서, 나열된 환자들의 수는 트레이닝 및 테스트 세트 내의 환자들의 수를 초과한다)

표 VIII. 암-인접 및 양성 및 염증 병변-인접 조직 타입들의 차이

	Blood vessel wall	Connective tissue[결합 조직]s
Cancer-adjacent tissues	13,356 (41)	128,485 (369)
benign[양성] and inflammatory lesion[병변]-adjacent tissues	9,825 (56)	3,806 (14)
Accuracy[정확도]	90.3%	88.9%

계산은 환자들과 픽셀 스펙트럼들의 수의 차이(discrepancy) (특히, 결합 조직의 경우에서)가 픽셀-기반의 분류자를 보증하지(warrant) 않는 것으로 느껴졌기 때문에, 환자-기반 LOOCV(leave-one-out cross validation) 상에서 수행되었다. LOOCV는 이러한 조직 타입들의 차이를 위하여 매우 인상적인 정확도를 생성하였다.

이런 결과들은 암 근접 및 양성 및 염증 병변-근접 조직들의 동일한 조직 타입들은 중요한 분광차들을 나타낸다는 것을 시사한다. 이러한 차이들을 위한 아래의 메커니즘들은 이 예에서는 불명확하였다. 그러나, 몇몇 가능한 설명들이 존재한다:

1. 암 세포들로부터 정상 조직 주변으로 물질(substance)들의 누출(leakage) 및/또는 분비(secretion).

2. 암-인접 정상 조직 내에 위치된 세포들 내의 병리조직학적 검사에 의하여 검출가능한 형태적 이상들을 내에 아직 도출되지 않은 이른 분자 변화들(필드 종양화(field cancerization)의 결과로).

3. 암-인접 정상 조직내의 면역 세포들의 주화성(chemotaxis)를 포함하는 호스트 응답-관련 변화들

SHP는 이러한 변화들에 특히 민감하게 이루어진다: X-레이 및 (싱크로트론-기반) 적외선 마이크로-분광학적 연구의 조합이 암들의 인근의 메탈로-프로티나제(metallo-proteinase)들이 암에 인접한 감지하기 힘든 분광 변화들에 원인이될 수 있다는 사실을 시사했다. 이 관찰은 절제술(resection)의 차이(margins)의 검출 및 정의(definition)에 지대한 영향을 가져올 결과들과, 전이(metastasis) 형성 메커니즘을 가질 수 있다.

이하는 본 발명의 바람직한 실시예에 따른 다른 실시예와 테스트 결과들을 제공한다.

이 실시예 및 테스트 내의 데이터는 이 예를 위하여 특별히 준비된 상업적 조직 마이크로-어레이들(TMA들)로부터 얻는다. 이러한 TMA들 내에서, 몇몇 환자들은 한번 이상 표현된다(represented). 이 샘플들은 동일한 환자들의 샘플들에 의한 알고리즘들의 트레이닝 및 테스트를 회피하도록 제거된다. 또한, 양성 폐 종양들의 샘플들은 병리학 부서, 기관의 허가를 받은 메사추세츠 의학 대학교(University of Massachusetts Medical School)의 저장소들로부터 얻는다. 모든 샘플들은 FFPE(formalin-fixed, paraffin embedded) 조직 블록들로부터 이루어진다. 이 예는 TMA 포맷의 정상 및 암 조직 샘플들을 포함하는 이러한 연구의 일부를 다룬다.

TMA들은 이 연구의 목표에 맞게 결합된다.

1. 정상(NOR) 형태의 암 폐 조직의 차이

2. 폐암을 소세포 폐암의 폐암과 비-소세포 폐암으로 분류

3. NSCLC를 선암(ADC)과 편평 세포암(SqCC)으로 더 분류

4. ADC를 임상적 관련성(relevance)의 몇몇 서브-클래스들로 분류

이러한 목표들에 근거하여, 5개의 TMA들은 80개의 정상 조직(암 조직의 생체검사를 하지 않은 암 환자들의), ADC, SqCC 및 SCLC 환자들의 29개의 괴사 조직, 및 61개의 SCLC, 89개의 SqCC 및 129개의 ADC 경우들의 총 388 샘플들을 포함하는 US Biomax, Inc.(Rockville, MD) 에서 결집된다. 각 조직 점은 대략 1.8 mm의 지름으로 측정되었고, “환자들”로 여기에 참조될 것이다. 이 TMA 샘플은 LC701 내지 LC706로 번호가 매겨진다. 각 TMA로부터, 섹션 A001, A002 및 A003으로 참조된 세개의 조직 섹션들이 구입되었다. 섹션 A002는 표준 현미경 슬라이드상에 고정되고, 파라핀제거되고(de-paraffinized), 염색되며, 덮개가 덮힌다(coverslipped). 다른 두개의 섹션들은 ‘low -e’ 슬라이드 상에 고정되고(섹션 2.3 참조), 파라핀-내장된 샘플들로서 배달된다.

위에 열거된 조직 점들의 번호는 샘플들의 총 개수를 증가시키기 위하여 그리고 획득된 결과들이 TMA 준비와 샘플들의 연령(age)에 독립적이라는 것을 입증하기 위하여 이 연구에 포함된 다른 TMA의 샘플들(LC811, 또한 US Biomax, Inc.로부터)을 포함한다.

분광 데이터 수집을 위한 슬라이드들은 표준 절차를 사용하여 파라핀 제거되었고, 사용되지 않는 경우, 건조기(desiccator) 내에 유지된다. 데이터 수집을 반복하기 대략 6개월 전 파라핀 제거되었던 LC811 조직 점들을 제외하고, 고유의 데이터가 파라핀 제거된 이후 몇일 내로 수집되었다; 그러나, 오래된 샘플들의 분광 질(Spectral quality)의 식별가능한(discernible) 열화(degradation)는 관측되지 않았다.

이 실시예에 따른 단계들의 블럭 다이어그램이 도 19에 도시된다. 여기에 보고된 모든 분광학적 연구들은 적외선 방사를 전반사하고, 가시광선에 거의 완전히 투명한 '낮은 방사율(low-e)' 슬라이드들(케블리 테크놀로지스, 체스터-필드, OH) 상에서 실시된다: 따라서, 동일한 샘플이 적외선 데이터 수집과, 적절한 염색 후 전통적인 조직병리학을 위하여 사용될 수 있다. 동일한 샘플로부터 가시적 및 적외선 이미지들이 획득된다는 사실은 두 이미지들의 정확한 등록을 허용한다. 이 단계는 결국, 픽셀 스펙트럼들과 주석이 달린 조직 특성들의 추적가능성을 보장하는 분광 특성들의 정확한 주석(섹션 2.5)을 위하여 필요하다.

이 반사 슬라이드들 상의 적외선 측정물들의 문제는 반사 표면상의 존재하는 전자기파의 발생으로인한 것으로 확인되었다. 그러나, 차후의 시뮬레이션들은 높은 수의 조리개(numeric aperture) 물체들을 사용하는 경우, 강도 인위구조(artifact)가 최소화된 결과를 나타내는 것으로 나타났다. 또한, 가공되지 않은(raw) 강도(intensity)들과 국부적인 정규화 보다는, 분광 도함수들을 사용하 이러한 효과들이 최소화될 수 있다.

적외선 분광 데이터는 조직의 각 평방 밀리미터 당 25,600 픽셀 스펙트럼을 야기하는 퍼킨엘머(PerkinElmer)(쉘톤, CT, USA) 모델 스펙트럼원/스포트라이트 400 이미징 적외선 마이크로-분광기를 사용하여 가장자리에서 6.25 μm 의 픽셀들로부터 획득된다. 각 픽셀을 위하여, 수집된 분광 벡터는 대략 700에서 4000cm-1의 파수(wave-number) 범위를 커버한다. 대략 800 과 1800 cm-1 (2 cm-1 의 데이터 포인트 이격된) 사이의 501개의 강도 데이터 포인트들이 통계 분석을 위하여 사용되었다. "분광 데이터 입방체"는 각 픽셀의 좌표를 포함하고, 적외선 스펙트럼은 이 픽셀들과 관련이 있다.

각 조직점은 이하와 같이, 조직 점들의 수도-컬러 이미지들을 획득하기 위하여 SPP(분광 프리-프로세서(Spectral pre-processor), 도 19 참조)로 여기에 참조된 루틴을 통하여 사전-처리된 대략 105의 개별 픽셀 스펙트럼들을 생성했다. 먼저, 분광 데이터 입방체들의 크기는 네개의 개별 픽셀 스펙트럼들을 더 나은 신호 대 노이즈 비율을 갖는 새로운 스펙트럼으로 추가하는 것에 의한 네개의 요인에 의하여 저감되었으나, 큰 픽셀 크기는 가장자리에서 12.5 μm이다. 노이즈, 수증기 및 공명(resonance) Mie(R-Mie) 스캐터링(위상 보정 알고리즘을 통한)와 같은 기여도(contribution)들을 교락시키기(confounding) 위하여 조직 점 당 대략 25,000 픽셀들의 결과 세트가 수정된다. 풍부한 단백질의 특정 변화들을 향한 분광 방법들의 감도를 향상시키기 위하여, 넓은 그리고 종종 비구조화된 가공되지 않은 스펙트럼들은 이차 도함수들로 변환된다. 이 절차는 분광 밴드들의 반값폭(half width)을 줄이는 것으로 알려져 있고, 따라서, 다른 종양 타입들을 분류하기 위한 능력을 제공하는 더 나은 차별적 파워를 제공한다. 이러한 이차 도함수 스펙트럼들은 SHP 실험에서 획득된 주요 정보이고, 주어진 과제는 병리학적 진단들과 함께 분광 정보를 디코딩하고 상관분석하는 것이다.

이것은 관리되지 않은 "위계적 군집 분석"(HCA)을 사용하여 사전 처리된 데이터세트들을 수도-컬러 이미지들로 변환함으로써 달성되었다: 즉, 이 단계에서는 병리학자들로부터의 입력이 사용되지 않았다. 대표적인 HCA 기반의 조직점의 수도-컬러 이미지는 도 18b에 도시된다. 도 18b에서, 동일 색상의 영역들은 유사한 스펙트럼들을 표시한다. 도 18a 및 18b의 시각적 검사는 IR 수도-컬러 이미지와 H&E-염색된 이미지 사이의 관련성을 즉시 드러낸다. 이 관련성은 시각적 이미지의 고 배율에서 더욱 표명(pronounced) 되고, 세포 세부사항(cellular detail)은 HCA 이미지의 대응하는 특성들과 함께 종종 식별되고 상관분석될 수 있다. 도 18b에 보여진 4-클러스터 레벨에서, 괴사(회색), 선암(청색 및 녹색) 및 내피(적색)이 명확히 구별된다. 이하 기술되는 바와 같이, HCA 이미지들 내에 나타내어진 영역들은 "주석"으로 참조된 단계의 조직 병리학과 상관분석되었다.

적외선 데이터 수집 이후, 조직 섹션들은 메사추세츠 의학 대학교(University of Massachusetts Medical School)의 병리학 부서에서 헤마톡실린/에오신(H&E)과 아래의 표준화된 그리고 입증된 방법들을 사용하여 염색된다. 봉입(coverslipping) 이후, 조직 섹션들은 선형 스테핑 모터(0.1 μm 해상도)와 함께 컴퓨터-제어 현미경 스테이지에 장착된 올림푸스(센터 밸리, PA) BX51 현미경을 사용하여 이미징된다. 이미지들은 큐이미징(Qimaging)(서레이, BC, 캐나다) 모델 QICAM 고해상도 디지털 카메라를 통하여 획득된다. 현미경은 미디어 사이버네틱스 [로크빌, MD, USA] 이미지 프로 플러스 소프트웨어를 사용하여 작동된다. 조직 점들은 병리학적 해석을 위한 충분히 높은 공간적 해상도에서 큰 모자이크 시각 이미지 데이터 파일들을 생성하는 20x 배율에서 이미징된다. 도 18a는 H&E 염색된 조직 점의 합성 시각 이미지를 묘사한다. 도 18a와 도 18b의 비교는 조직 타입들과 명백히 규정된 질병이 시각적 병리학에 의하여 검출된 특성들과 직접 대응하여 적외선 이미징함으로써 검출되었다는 것을 보여준다.

시각적 및 적외선 현미경 관찰을 위한 슬라이드 위치의 등록은 특정 현미경 테이블 내의 위치들이 0.1 mm의 정확도로 판독 및 등록되는 세개의 레티클(reticle)들과 함께 장착된 특수하게 디자인되고 제조된 슬라이드 홀더에 슬라이드를 마운팅시킴으로써 도움을 받을 수 있다.

주석 절차는 H&E 염색된 시각적 이미지들의 분명하게 할당가능한 조직 영역들을 수도-컬러 적외선 이미지의 대응하는 영역들과 상관분석한다. 이를 위하여, 조직 특성들이 여전히 감지될 수 있으나, HCA 클러스터들에 대응하는 컬러 배경에 디스플레이되도록 두 이미지들의 등록된 반투명 오버레이를 생성한 소프트웨어(주석 소프트웨어로 참조됨; 도 19 참조)가 생성되었다. 두 이미지들은 적외선 및 시각적 현미경들 상에서 수집된 레티클 좌표들을 사용하여 서로와 관련하여 등록된다. 차후에, 두 이미지들간의 차이의 최소자승오차(least square error)를 최소화하는 강체(이미지) 변형의 파라미터들을 최적화함으로써 좋은(fine) 등록이 달성되었다.

차후에, 참가한 병리학자들은 예를 들어, 가장 대표적인 질병 영역들, 또는 정상 조직 타입들인 진단 이익(interest) 영역을 선택했다. 차후에, 주석 소프트웨어는 균일한 클러스터 멤버쉽을 위한 선택된 영역들을 선택했고, 하나의 선택된 영역 내의 다수 할당(assignment)과 일치하지 않는 픽셀들을 제거했다. 특정 조직 점을 위한 주석 절차의 결과는 도 18c에 도시되었다. 도 18c에 도시된 바와 같이, 보라색 영역들이 고형(solid) 점액 선암을 위한 원형(prototypical)으로 여겨지는데 반하여, 괴사로 인한 네개의 녹색 영역들이 식별되었다. 도 18c 내의 선택된 영역들의 개수는 주석이 달린 조직 점을 위하여 대표적으로 이루어지고, 각 조직 점을 위해 대략 350 세포들에 대응하여 평균적으로 대략 1400 픽셀 스펙트럼들이 얻어진다. 후자의 평가는 세포들의 크기(대략 25 μm의 지름) 및 응집된 픽셀 크기(가장자리에서 12.5 μm)를 평가하는것에 근거하여 이루어졌다.

병리학자에 의하여 선택된 영역들로부터의 픽셀 스펙트럼들은 스펙트럼들의 추적가능한 데이터베이스로 입력되었다; 다른 환자들의 픽셀 스펙트럼 (그러나, 동일한 조직 코드와 함께 )은 조직 클래스들로 결합된다. 표 IX는 픽셀 스펙트럼들의 총 개수와 연구를 위하여 달린 주석들을 요약한다.

표 IX. 전체 데이터세트 내의 픽셀 스펙트럼, 처리된 스펙트럼 및 주석이 달린 스펙트럼의 수
Total spectra:	~39 x 10⁶ (388 spots, ~ 100,000 spectra per spot)
Processed spectra:	4 x 10⁶ pixel spectra (2x2 pixel averaging and elimination of blank pixels)
Annotated spectra:	5.5 x 10³ spectra (see Table 11)
Annotation[주석] regions:	9.3 x 10³ annotation[주석] regions (see Table II)
Annotation[주석] regions/spot:	24 regions/spot (average)
Pixels /annotation[주석] region:	60 pixels (average)
Main tissue types:	168 (54 malignant [악성], 114 normal classes)

대략 550,000의 주석이 달린 픽셀들의 데이터세트 (표 IX 참조) 내에서, 각 픽셀 스펙트럼은 고유하게 식별되고 조작 마이크로-어레이 명칭(예를 들어, LC706), 특정 섹션(예를 들어, A001, 섹션 2.1 참조), 행과 열에 의하여 식별된 개별 조직 점(예를 들어, C 3), 및 픽셀 스펙트럼의 좌표로 추적가능하도록 이루어진다. 이 좌표는 픽셀 X, Y 어드레스 및 픽셀 크기에 의하여 고유하게 정의되었다. 픽셀 X, Y 어드레스는 슬라이드 홀더 내의 레티클 위치들에 대하여 참조되었다(전술한 사항 참조). 추가로, 각 주석이 달린 픽셀 스펙트럼은 병리학 진단을 식별했던 코드와 함께 태그되었다. 따라서, 임의의 픽셀 스펙트럼은 이전되고(relocated) 추적될 수 있으며, 주석을 위하여 사용되었던 시각적 이미지의 대응하는 영역과 비교될 수 있다. 주석이 달린 픽셀들의 내보내기(export) 및 데이터베이스 내의 그것들의 통합은 "TracDat"으로 참조된 소프트웨어를 사용하여 달성될 수 있다(도 19 참조).

주석이 달린 영역으로부터 또는 조직 점의 남아있는 것들로부터의 모든 전-처리된 픽셀 스펙트럼들은 차후에 상업적 소프트웨어 "파일메이커 프로" [Filemaker, Inc., Santa Clara, CA]에 의하여 생성된

데이터베이스에 저장되고, 이것으로부터 스펙트럼들이 쿼리들을 통하여 알고리즘들의 트레이닝 및 테스트에 사용되었던 데이터세트들로 보내질 수 있다. 픽셀 스펙트럼들은 질병 또는 조직 타입 코드, 환자 ID, 점 위치, 등에 의하여 쿼리될(queried) 수 있는 특정 데이터세트 내에 포함된다. 주석이 달린 스펙트럼들의 내보내기 절차는 "TracDat"으로 참조된 소프트웨어에 의하여 수행되었다. 도 19는 이미지 수집, 전-처리, 주석, 및 추적가능한 데이터베이스 구축을 포함하는 이 예의 실시를 위한 전체적인 절차 흐름을 묘사한다. 이 절차는 각 픽셀 스펙트럼의 완전한 추적능력(traceability)과 주석 단계에 의하여 결정된 의학 코드와 그것의 결합을 알아낸다(ascertain)는 것에 유의하여야 한다. 데이터베이스는 차후의 분류자 트레이닝을 위한, 또는 미확인 샘플 상의 예측 리포트를 생성하기 위한 정보 허브(hub)로서 제공된다.

전술한 바와 같이, 이 실시예의 초점은 이 연구에 사용된 통계적 방법들 및 메트릭스들의 논의가 폐암들을 위한 SHP의 분류 잠재력(potential)을 시사하는데 있다. 여기에 보고된 대부분의 작업은 188명의 환자들의 데이터 서브세트 상에서 수행되었다; 데이터세트의 나머지(200명 환자들의 샘플들)는 "아치형(vaulted)" 데이터세트로서 참조된 완전한 블라인드 테스트 세트로서 유지된다. 이 실시예의 다른 초점은 비-아치형 데이터베이스에 적용되었던 몇몇 머신 러닝 알고리즘들(MLA, 또는 "머신들")의 평가, 및 다양한 프로시져들의 민감성들(sensitivities) 및 특별함들(specificities)의 평가를 위한 테스트들과 메트릭스들의 개발에 있었다. 일반적으로, 다변량 통계적 테스트들이 이하 기술되는 "픽셀-기반", "환자-기반" 또는 "이미지-기반" 방식으로 수행되었다. MLA의 평가는 이 접근이 가장 큰 데이터세트들을 허용할 수 있고(이하 참조), 따라서, 최고의 MLA의평가 정확도를 보여주기 때문에 대부분 픽셀-기반 레벨에서 수행되었다.

모든 계산들은 64 비트의 윈도우 운영 시스템으로 동작하는 12 코어 인텔 프로세서 및 56 기가바이트의 메모리가 장착된 델 워크스테이션 상에서 수행된다. 이 워크스테이션은 20 테라바이트의 하드 드라이브 공간과 100%의 로컬 및 아마존 S3 클라우드 백업과 연결된다. 모든 계산들은 SVN 서버 상의 완전한 리비전 히스토리 제어와 함께 내부적으로 개발된 스크립트들을 사용하는 버전 R2013.b (수학작업, 나틱스, MA)의 매트랩(MATLAB) 내에서 수행된다.

전체 데이터세트의 구성요소가 표 X A, X B, 및 X C에 도시된다. 표 X A 및 X B(표 X C와 같이) 내의 총 환자 수는 연구의 환자 수를 초과한다; 이것은 대부분의 환자들을 위하여 괴사 및 정상 조직 타입들을 포함하는 최소한 두가지 이상, 종종 세가지 진단 클래스들이 제공된다는 사실에 의한 것이다. 따라서, 표 X A, X B, 및 X C의 환자 수는 연구의 총 환자들 보다는 각 클래스에 기여한 환자들의 수를 반영한다. 차후에, 3명의 환자들 보다 적은 환자들 또는 50 픽셀들 보다 적은 픽셀들을 갖는 조직 서브타입들이 연구로부터 탈락된다.

전술한 바와 같이, 여기에 보고된 결과들은 전체 데이터세트의 서브세트로부터 획득되었다. 이 서브세트들은 188명의 환자들의 데이터를 획득했고, 각각 대략 125,000 스펙트럼들을 포함하는 서브-트레이닝과 서브-테스트 세트로 더 나뉘었다. MLA 수행의 평가는 "아치형" 데이터세트의 블라인드 특성이 유지되도록 이러한 서브세트들 상에서 수행되었다. 이 아치형 데이터세트는 본래 200개의 환자 샘플들을 포함하였고, 개별적으로 서브-트레이닝 세트와 서브-테스트 세트 상에서 수행된 분류자의 트레이닝 및 테스트에 사용되지 않았다. 따라서, 아치형 데이터는 이후에 그리고 서브-트레이닝과 서브-테스트 데이터세트들에서 획득된 것과 매우 유사한 정확도가 나타날 때까지 사용되지 않았다.

서브 트레이닝 및 서브-테스트 데이터세트들이 긴 계산 시간이 필요한 대략 125,000 픽셀 스펙트럼들을 포함함에 따라, 적은 벤치마크 데이터 세트들이 생성되었다. 예를 들어, '벤치마크' 데이터세트로서 참조된 안정된 데이터세트가 다양한 MLA의 검사에 사용되었다(이하 참조). 이 데이터세트들은 달성되었던 데이터베이스 쿼리에 의하여 전체 데이터세트로부터 생성되었다. 트레이닝 및 테스트를 위하여, 사전 설정된 수의 픽셀 스펙트럼들이 안정된 트레이닝 클래스들로부터 랜덤으로 선택되었다.

비록, 분광 방법들에 의하여 원핵 세포(prokaryotic cell)들의 다중-클래스 식별이 흔한일이 되었다 하더라도, 큰 다중-분류 연구가 복잡한 조직들을 위하여 수행되지 않았다. 이 실시예의 목표는 정상(NOR)과 질병 조직간의 신뢰성있는 차이, 괴사(NECK)와 암 조직간의 차이, 소세포 폐암(SCLC)과 비-소세포 폐암(NSCLC)간의 차이를 생성하는 것을 포함했다. 또한, 후자의 카테고리는 스스로 몇몇 등급들 및/또는 서브클래스들을 갖는 편평세포 폐암(SqCC)와 선암(ADC)으로 구별되었다.

표 X A. 전체 데이터세트 내의 주석이 달린 영역들, 픽셀 스펙트럼들 및 병리학 조직 클래스들에 기여한 환자들의 수(병리학 조직 타입 만)

Annotated Regions	Pixel Spectra	Number of patients	Description
1	60	1	Lung/ADC/Acinar[선형]/mixed mucinous[점액] & non-mucinous[점액]
734	35516	39	Lung/ADC/Acinar[선형]/mucinous[점액]
503	17484	27	Lung/ADC/Acinar[선형]/non-mucinous[점액]
24	1324	3	Lung/ADC/Colloid/mucinous[점액]
1	189	1	Lung/ADC/Lepidic[유형]/mixed mucinous[점액] & non-mucinous[점액]
140	5980	9	Lung/ADC/Lepidic[유형]/mucinous[점액]
166	6258	8	Lung/ADC/Lepidic[유형]/non-mucinous[점액]
99	4189	10	Lung/ADC/Micro-Papillary[유두상]/mucinous[점액]
58	1056	3	Lung/ADC/Micro-Papillary[유두상]/non-mucinous[점액]
18	3279	2	Lung/ADC/Other/non-mucinous[점액]
1	142	1	Lung/ADC/Papillary[유두상]/mixed mucinous[점액] & non-mucinous[점액]
160	18704	11	Lung/ADC/Papillary[유두상]/mucinous[점액]
68	3419	7	Lung/ADC/Papillary[유두상]/non-mucinous[점액]
503	38335	29	Lung/ADC/Solid/mucinous[점액]
355	26476	18	Lung/ADC/Solid/non-mucinous[점액]
20	4777	3	Lung/SqCC/Basaloid/grade 1
37	5494	4	Lung/SqCC/Basaloid/grade 2
266	31802	23	Lung/SqCC/Other/grade 1
484	58749	40	Lung/SqCC/Other/grade 2
418	48030	31	Lung/SqCC/Other/grade 3
1465	77685	70	Lung/SCLC/Other/

284	34913	41	Lung/Necrosis[괴사]/necrotic ADC
322	20913	29	Lung/Necrosis[괴사]/necrotic SCLC
462	32722	56	Lung/Necrosis[괴사]/necrotic SqCC

111	5769	17	Lung/Keratin Pearl

22	197	3	Lung/Macrophages/Non-mucinous[점액]

6722	483462	486	26 pathological[병리학] Tissues Types

표 X B. 전체 데이터세트 내의 주석이 달린 영역들, 픽셀 스펙트럼들 및 정상 조직 클래스들에 기여한 환자들의 수(정상 조직 타입들)

Annotated Regions	Pixel Spectra	Number of patients	Description
45	1602	10	Lung/Conn.Tiss/Black Carbon Pigment
24	2341	8	Lung/Conn.Tiss /Dense CT/abundance[풍부한] of Fibroblast
4	514	3	Lung/Conn.Tiss /Dense CT/abundance[풍부한] of Lymphoid Cells
22	925	3	Lung/Conn.Tiss /Loose CT/abundance[풍부한] of Fibroblast
1	112	1	Lung/Conn.Tiss /Loose CT/abundance[풍부한] of Lymphoid Cells
2	130	1	Lung/Conn.Tiss /Loose CT/Other
836	23336	59	Lung/Alveolar/Normal histomorphology[형태학])
342	5552	43	Lung/Alveolar/Wall thickened by fibrosis
632	12667	56	Lung/Alveolar/Wall with congested capillaries
11	140	4	Lung/Bronchiole/Wall Adventitia
27	481	7	Lung/Bronchiole/Wall Columnar Epithelium
4	151	1	Lung/Bronchiole/Wall Cuboidal Epithelium
8	156	4	Lung/Bronchiole/Wall Muscle
202	3097	37	Lung/Blood/Red Blood Cell (Erythorocyte)
3	107	1	Lung/Blood/WBC - Lymphocytes[림프구]
63	1854	16	Lung/Blood Plasma/Plasma (with Fibrinogen)
4	35	2	Lung/Blood Plasma/Serum (without Fibrinogen)
92	1751	24	Lung/Blood Plasma/Serum with Blood Cells
60	2363	15	Lung/Blood Vessel/Wall Adventitia
13	287	3	Lung/Blood Vessel/Wall Endothelium
202	7301	41	Lung/Blood Vessel/Wall Muscle

2597	64902	339	21 Normal Tissue Types

표 X C. 주석이 달린 영역들, 픽셀 스펙트럼들 및 환자의 기여도의 총 수

	Annotated Regions	Pixel Spectra	Number of patients
pathological[병리학] Tissue Types	6722	483462	486
Normal Tis- sue Types	2597	64902	339

Total	9319	548364	825

표 XI A. MLA 비교(5011)를 위한 가공되지 않은 트레이닝 및 테스트 데이터 세트들의 예

Annot'ed Regions	Pixel Spectra	Number patients	Description
Training
281	12572	15	Lung/ADC/Acinar[선형]/muc. & non-muc.
63	2809	4	Lung/ADC/Lepidic[유형]/muc. & non-muc.
13	247	4	Lung/ADC/micro-Papillary[유두상]
33	2762	3	Lung/ADC/papill./muc. & non-muc.
179	10568	10	Lung/ADC/solid/muc. & non-muc.	Sum ADC= 28958
25	907	5	Lung/keratinpPearl
20	1647	1	Lung/SqCC/basaloid
54	4830	5	Lung/SqCC/grade 1
122	12066	12	Lung/SqCC/grade 2
83	5942	7	Lung/SqCC/grade 3	Sum SqCC= 25392
Testing
301	12252	17	Lung/ADC/Acinar[선형]/muc. & non-muc.
84	2562	5	Lung/ADC/Lepidic[유형]/muc. & non-muc.
24	331	5	Lung/ADC/micro-Papillary[유두상]
85	5259	5	Lung/ADC/papill./muc. & non-mucs
196	10400	10	Lung/ADC/solid/muc. & non-muc.	Sum ADC= 30804
9	1124	3	Lung/keratin pearl
18	3578	2	Lung/SqCC/basaloid
56	7978	6	Lung/SqCC/grade 1
104	13850	8	Lung/SqCC/grade 2
130	12828	8	Lung/SqCC/grade 3	Sum SqCC= 39358

이 실시예를 위한 데이터세트는 막대한 분광 변화들(예를 들어, NECR)을 나타낸 픽셀 스펙트럼들을 포함했고, 여기에서 다른 것들은 대단히 작은 분광 변화들(몇몇 ADC 서브클래스들과 같은)을 나타내었다. 그러나, 사용된 ANN은 연속적인 실행들의 분류 정확도의 상대적으로 큰 변화를 나타내었다; 따라서, 다양한 분류 알고리즘들의 체계적인 비교는 이하와 같이 실시되었다.

예비 작업(preliminary work)은 NSCLC의 SqCC로의 분류를 나타내었고, ADC는 가장 어려운 주요 분류과제였다; 따라서, 데이터세트들의 균형 방법들 뿐만 아니라 몇몇 MLA들의 수행은 이러한 분류 과제를 위하여 평가되었다. 따라서, 벤치마크 트레이닝과 테스트 세트들은 서브-트레이닝 및 서브-테스트 세트들로부터 구축되었다. 이 데이터세트들의 조합이 표 XI A와 XI B에 도시된다. 표 XI A는 ADC와 SqCC의 모든 서브클래스들/등급들을 선택하기 위한 자동 데이터베이스 쿼리의 결과의 일 예 이다. 환자들의 수, 주석 영역들 및 픽셀 스펙트럼들의 카운트는 테이블 내에 주어진다.

다양한 MLA들의 평가를 위하여, 픽셀들 뿐만 아니라 환자들에 대하여 안정된 트레이닝 데이터세트를 갖는 것이 바람직하다. 표 XI A 내의 (안정되지 않은) 환자 수는 트레이닝 및 테스트 세트들이 모든 클래스들 안의 환자들의 수와 동일해질 때 까지 환자들을 랜덤하게 삭제함으로써 안정되었다. 총 환자수가 홀수(odd)인 경우, 클래스들 내의 환자들의 수는 하나 정도의 차이가 나도록 허용되었다, 표 XI B 참조.

표 XI B. MLA 비교(S001)를 위한 안정된 트레이닝 및 테스트 데이터세트들의 예

Annot'ed Regions	Pixel Spectra	Number patients	Description
Training
281	12572	15	Lung/ADC/Acinar[선형]/muc. & non-muc.
63	2809	4	Lung/ADC/Lepidic[유형]/muc. & non-muc.
13	247	4	Lung/ADC/micro-Papillary[유두상]
33	2762	3	Lung/ADC/papill./muc. & non-muc.
169	9829	9	Lung/ADC/solid/muc. & non-muc.	Sum ADC= 28219
14	728	3	Lung/keratinpPearl
20	2306	1	Lung/SqCC/basaloid
54	6763	5	Lung/SqCC/grade 1
85	10100	9	Lung/SqCC/grade 2
83	8320	7	Lung/SqCC/grade 3	Sum SqCC= 28217
Testing
234	13187	15	Lung/ADC/Acinar[선형]/muc. & non-muc.
78	3013	4	Lung/ADC/Iepidic/muc. & non-muc.
17	346	4	Lung/ADC/micro-Papillary[유두상]
48	4166	3	Lung/ADC/papill./muc. & non-mucs
196	13635	10	Lung/ADC/solid/muc. & non-muc.	Sum ADC= 34347
9	1124	3	Lung/keratin pearl
8	2127	1	Lung/SqCC/basaloid
49	6316	5	Lung/SqCC/grade 1
104	13850	8	Lung/SqCC/grade 2
111	10937	7	Lung/SqCC/grade 3	Sum SqCC= 34354

이러한 환자들을 제거하는 것은, 그러나, 서브클래스들 내의 픽셀 스펙트럼들의 수의 차이를 만들었다. 이 결과는 데이터세트들의 오버샘플링에 의하여 다루어졌다. 오버샘플링과 언더샘플링은 이하 기술된 바와 같이, 일반적으로 통계적 분석에 사용되는 방법들이다.

두개의 클래스 문제의 경우(클래스 A와 B), 샘플들의 숫자(스펙트럼들) nA와 nB 는 nA > nB로 다르고, 데이터세트들을 안정시키기 위한 두가지 방법들이 있다. 오버샘플링으로 참조되는 한가지 방법에서, 그룹 A의 모든 nA 스펙트럼들이 사용되고, 클래스 B 내의 데이터는 nA ? nB일 때 까지 반복 사용된다. 언더샘플링에서, 스펙트럼들은 nA ? nB [24]가 되도록 그룹 A로부터 랜덤하게 선택된다. 언더샘플링은 클래스 A 내의 이질성의 부분이 랜덤 선택 절차에 의해서 무시된다는 단점을 가지고 있지만, 오버샘플링에서는 데이터가 생략되지 않고 더 작은 데이터세트가 반복적으로 사용된다. 데이터 분석을 위하여 SVM 분류자들이 사용되는 경우, 오버샘플링이 데이터를 분리시키는 초평면(hyperplane)의 일면 상의 더 많은 데이터를 생성하는 것과 같이 시각화될 수 있으나, 이 추가적인 데이터는 이 초평면의 위치 및 지향에 어떠한 영향을 미치지 않는다. 반면, 언더샘플링에서 데이터의 생략은 저감된 샘플 이질성으로 인하여 초평면에 영향을 미칠 수 있다. 실험적으로, 오버샘플링이 일반적으로 언더샘플링보다 더 수행된다는 것이 발견되었다; 따라서, 각 클래스 내의 스펙트럼들의 수는 오버샘플링에 의하여 같아졌다. S011 단계의 결과 안정된 트레이닝 및 테스트 세트들이 표 XI B에 도시된다. 표 XI B에 도시된 바와 같이, 트레이닝 및 테스트 세트 내의 환자들의 수는 동일하고(전술한 바와 같이, 환자들의 홀수는 무시), ADC 및 SqCC 클래스들의 스펙트럼들의 수는 오버샘플링과 같아졌다.

여기에 보고된 SVM들은, 검사된 벤치마크 데이터세트들을 위한 계층적 바이너리 분류자들 보다는 다중-분류자로서 사용된 경우에, 이전에 사용하려고 한 계층적(hierarchical) ANN 분류자들 보다 더 잘 수행된다. 이 결과는 다중-분류자가 분류를 위한 광범위한 선택사항들을 가지고 있는 반면, 각각의 바이너리 분류자는 단 두개의 선택사항이 가능하다는 사실에 의하여 시각화될 수 있다. 몇몇 벤치마크 데이터세트들은 특정 과제들을 위한 최적화와 MLA들의 테스트를 허용하도록 생성되었다.

이 실시예의 코스 중, MLA들의 몇몇 타입들이 분광 데이터를 분류하도록 그들의 적합성을 위하여 검사되었다. 이전의 80-환자 연구는 MLA 선택에 인공신경 회로망(ANNs, artificial neural networks)을 사용하였다. 그 차후의 결과들에서, - 비록 그들의 평균 정확도가 다른 MLA들의 그것보다 조금 높았다 하더라도 - 이 결과들은 컴퓨터 시간과 관련하여 보다 비용이 많이 든다는 것을 입증하였다. 부분적으로, 이 결과는 ANN이 요구된 출력들과 함께 입력 분광 특성들을 연결하는 랜덤화된 무게 메트릭스와 함께 분석을 시작한다는 사실에 의거하여 이루어진다. 이 랜덤화된 초기 단계는 10개의 독립 트라이얼(trial) 실행들의 평균을 요구하는 출력 정확도 내의 변이를 유발하였다. 이 단계는 보다 안정적이고 재생가능한 것으로 입증된 SVM(support vector machine)을 사용하여 피할 수 있다. SVMs 과 ANNs에 추가로, RF(random forest), NB(naive Bayes) 및 KNN(k-nearest neighbor) 분류 알고리즘들이 동일한 벤치마크 데이터세트들 상에서 사용될 수 있다. 이 MLA들의 전체적인 정확도는 표 XI에 도시된 벤치마크 세트에 적용된 것과 같이, 표 XII에 도시된다. 여기에 나열된 MLA들은 이 지점에서는 최적화되지 않았다; 예를 들어, MLA들의 기본 설정이 사용되었다.

비록, 최적화되지 않은 ANN이 SVM들을 약간 능가한다 하더라도, 빠른 처리 시간, 높은 재생가능성, 과학계에서의 광범위한 수용(acceptance), 및 잘 알려진 작동 모드의 이유로 후자가 선택되었다. 반면, ANN들에서 작동 모드 -입력과 출력간의 연결성- 는 어느정도 더 랜덤이고 재생하기 어렵다.

표 XII. 벤치마크 연구에 사용된 MLA의 정확도

MLA	Accuracy[정확도]
SVM (Ikf)	87.4%
SVM (qkf)	86.8%
ANN	88.1%	SVM: support vector machine; lkf: linear kernel function; qkf: quadratic kernel function; ANN: artificial neural network; RF: random forests; KNN: k=nearest neighbors; NB: naive Bayes
RF	85.0%
KNN	78.1%
NB	76.7%

추가(further) 평가 이후, rbf(radial kernel or basis function)와 함께 SVM이 분류를 위하여 사용되었다. rbf의 경우, 두개의 파라미터들, “c” (오분류 에러 상의 페널티 중량(penalty weight)) 및 “γ” (레이디얼 기저 커널(radial basis kernel)의 폭)는 γ 를 0.000061 (214) 내지 0.031 (2-5) 에서, 그리고, c를 0.0625 (2-4) 내지 32 (25) 에서 변화시킴에 따라 최적화된다. 이 접근은 픽셀 기반 상의 대략 190,500 트레이닝 스펙트럼들 및 48,600 테스트 스펙트럼들(S014 트레이닝/테스트 데이터세트들)과 LOOCV 환자 레벨 상의 94.0 ± 2.6 %로 구성된 벤치마크 데이터 세트를 위한 92.4 ± 0.85 %의 정확도를 획득한 최적화된 SVM을 도출했다. 신뢰 한계들을 추정하는 방법 뿐만 아니라, 픽셀-기반과 LOOCV 계산들 간의 차이들은 후술된다.

특성 선택은 때때로 교락(confounding) 특성들을 제거함으로써 분류 정확도를 증명할 수 있다. 따라서, 특성 선택은 MATLAB내에 저감된 SVM("r-SVM") 실행을 사용하여 주어진 실시예에서 실시되었다. 여기에 특성들의 수는 510 이차 도함수 강도 포인트(2 cm-1 의 데이터 포인트 이격과 함께 1800 내지 800 cm-1 범위 내의)에서 50 특성들 이하로 감소되었다, 도 20 참조. 이 절차는 대략 35 특성들에서는 가파르게 감소되는, 분류 정확도의 점진적인(gradual) 감소를 도출했다. 501과 100 특성들간의 점진적인 정확도의 감소는 분광 벡터들 내의 모든 특성들의 사용이 유리하다는 것을 시사하였다. 분광기의 분광 해상도(4 cm-1, 또는 대략 2 데이터 포인트들)와 2차 도함수 밴드들의 내재한 선 폭(inherent line width)(> 15 cm-1, 또는 대략 7 데이터 포인트들)은 501 강도 포인트들의 대략 70 데이터 포인트들 만이 선형적으로 독립이라는 것을 결정한다. MLA의 정확도가 특성들의 이러한 한계를 초과하여 증가하기 때문에, 알고리즘은 밴드 형상 내의 경미한 변이들을 검출하고 그것을 분류에 사용할 수 있다. 또한, 특성들의 다수는 노이즈의 도입으로 인하여 정확도를 감소시키지 않는다. 기대된 바와 같이, 정확도 대 특성 수의 구성 내의 변이(노이즈)는 특성들의 높은 번호로 감소된다.

포함된 픽셀 스펙트럼들 수의 분류 정확도의 의존성(dependence)은 광범위의 입력들을 허용하기 위하여 충분한 다수의 각각의 픽셀 스펙트럼들을 갖는 트레이닝 및 테스트 세트들을 사용하여 검사되었다. 따라서, 표 XI B에 삽입된 S011과 S014를 위하여, 일정한 환자 카운트에서 1,000 내지 20,000개의 랜덤하게 선택된 스펙트럼들과 함께 전체 서브-트레이닝 및 서브-테스트 세트들이 사용되었다. 표 XII에 요약된 이 결과들은 안정된 정확도의 안정상태 유지(plateau)가 이 데이터세트를 위한 대략 1000 픽셀 스펙트럼들에, 또는 이전에 도달했다는 것과, 이 수의 증가는 정확도의 이득 없이 계산 시간을 막대하게 증가시킨다는 것을 시사한다.

표 XIII. 트레이닝을 위하여 사용된 픽셀 스펙트럼들의 수의 안정된 정확도의 의존성(S014)

Number of Pixels	Balanced Accu- racy (Pixel-based)	Balanced Accuracy (Patient-based)
1000	88.60%	89.30%
2000	90.60%	90.30%
5000	90.00%	90.20%
10000	90.60%	90.60%
15000	90.80%	90.80%
20000	90.80%	90.80%

통계적인 분석에 있어서, 표준 오류와 관련하여 정의된 신뢰 구간(CL)을 포함하는 것은 일반적이다. 주어진 실시예에서, 신뢰 구간을 위한 추정(estimate)은 두가지 방법으로 획득되었다. 도 21b는 분류 클래스(2000) 당 입력 스펙트럼의 일정한 레벨에서 트레이닝 세트 내의 환자들의 수를 변화시키는 것과, 전체 트레이닝 데이터-세트로부터 랜덤하게 선택된 10,000개의 트레이닝 스펙트럼에 의한 10개의 독립 SVM 트레이닝 및 테스트 실행들을 수행하는 것에 의한 신뢰 한계들의 시뮬레이션을 통하여 획득된 결과들을 나타낸다. 이 10,000개의 트레이닝 스펙트럼들은 클래스 당 2000개의 스펙트럼들과 함께 5개의 클래스들(NOR, NECR, SCLC, SqCC 및 ADC)로부터 랜덤하게 선택되었다. 전체 트레이닝 세트의 크기는 환자들의 수가 증가한 것과 같이 증가했으나, 트레이닝 세트 내에 사용된 스펙트럼들의 수는 일정하게(10,000) 유지되었다. 도 21b에서 보이는 바와 같이, 전체 정확도는 기대된 바와 같이 트레이닝 세트 내의 환자들의 수가 증가한 바와 같이 85% 에서 95% 이상으로 증가하였고, 10개의 독립적인 실행들을 위한 정확도 내의 스캐터는 대략 5배로 감소했다. CI들은 또한 분석적 방법들에 의하여 획득되고, 시뮬레이션들과 매우 일치한다.

이 결과는 감도 및 표준 에러를 위한 분석적 표현을 사용하여 모델링될 수 있다. 95%의 신뢰 구간(CI)은 아래와 같이 주어진다.

여기에서, S는 측정 감도, SE는 표준 에러이고, n은 샘플 수 이다. 감도와 환자들의 수의 함수로서의 이러한 신뢰 구간의 구성(plot)은 도 21a에 주어진다.

감도(청색선)는 안정된 정확도로부터 도21b로부터 측정되었다. 도 21a의 녹색선은 신뢰 구간을 나타낸다. 예측된 신뢰 구간의 형상 및 규모의 유사성과 시뮬레이션들의 결과는 데이터세트가 환자들 간의 분산(variance)을 정확하게 재현(reproduce)한다는 것과, 클래스당 선택된 픽셀들 수(2000)가 각 클래스를 적절히 나타내기에 충분하다는 것을 시사한다.

이 시뮬레이션의 결과들은 또한 각 주석이 달린 점들을 위한 수백 또는 수천의 개별 픽셀 스펙트럼들을 종종 획득하는 전술된 주석 방법이 조직 동질성과 환자 대 환자 분산의 대표 샘플링을 생성한다는 것을 시사한다. 이 결과는, SHP와는 다르게 환자당 하나의 데이터 포인트를 획득하는 다른 암 진단 방법들과 대조적으로, 각 환자를 위한 주어진 실시예와 함께 생성된 수천개의 데이터 포인트들이 생성된다. 또한, 이 결과들은 스펙트럼들의 랜덤 선택의 반복이 단 한명의 병리학자(바이오맥스의 수술 병리학자에 추가로)가 샘플들을 검토/주석 함에 따른 충격을 감소시킬 수 있다는 것을 보여준다; 즉, 픽셀 스펙트럼의 랜덤 선택의 반복은 다른 병리학자들의 이질성의 규모와 비교할 수 있는 트레이닝 세트 내의 이질성을 생성한다.

전술한 바와 같이, 서브-테스트 세트는 서브-트레이닝 세트 상에서 트레이닝된 SVM5에 의하여 분석되었다. 173명의 환자들을 포함하는 이 데이터세트들과 함께, 서브-트레이닝 세트의 구성이 표 XIV에 도시된다. 전술한 바와 같이, 대부분의 점들의 주석이 두개 또는 세개의 조직 클래스들 내에서 도출되기 때문에, 표XIV에 나열된 환자들의 수는 환자 샘플들의 수를 초과한다. 서브-테스트 세트는 환자들의 번호들과 관련하여 유사한 구성을 갖는다. 이 데이터세트들은 여기에 테스트 1 내지 4로 참조된 네가지 다른 방법으로 분석되었다. 테스트 1은 전체적인 픽셀-기반 분석이다; 즉, 분류되어야 할 주석 그룹들로부터의 모든 펙셀들이 픽셀 스펙트럼들이 알고리즘의 트레이닝을 위하여 랜덤하게 선택된 5개의 안정된 데이터 세트들로 조합되었다. 테스트 1은 누적(cumulative) 및 비-누적 방법으로 수행되었다. 전자에서, 하나의 클래스, 예를 들어, SCLC는 모든 다른 클래스들의 조합된 데이터세트에 대하여 검사되었고, 비-누적 테스트에서, 각 단계들 후에 남아있는 픽셀 스펙트럼들과 환자들의 수는 이전 단계에서 분류된 픽셀 스펙트럼들의 수에 의하여 감소되었다.

표 XIV. S010 서브 트레이닝 세트의 구성

Annotated Regions	Number of Pixel Spectra	Number of patients	Description
197	9700	10	Lung/ADC/Acinar[선형]/mucinous[점액] group
84	2872	5	Lung/ADC/Acinar[선형]/non-mucinous[점액]
14	879	2	Lung/ADC/Lepidic[유형]/mucinous[점액] group
49	1929	2	Lung/ADC/Lepidic[유형]/non-mucinous[점액]
13	247	4	Lung/ADC/Micro-Papillary[유두상] group
10	1383	2	Lung/ADC/Papillary[유두상]/mucinous[점액] group
23	1379	1	Lung/ADC/Papillary[유두상]/non-mucinous[점액]
113	7007	7	Lung/ADC/Solid/mucinous[점액]
66	3561	3	Lung/ADC/Solid/non-mucinous[점액]
350	15689	17	Lung/SCLC/Other/grade 4
20	1647	1	Lung/SqCC/Basaloid group
54	4830	5	Lung/SqCC/Other/grade 1
122	12066	12	Lung/SqCC/Other/grade 2
83	5942	7	Lung/SqCC/Other/grade 3
108	9785	12	Lung/Necrosis[괴사]/necrotic ADC
159	11615	13	Lung/Necrosis[괴사]/necrotic SCLC
140	6903	16	Lung/Necrosis[괴사]/necrotic SqCC
306	8073	20	Lung/Alveolar/Normal (histomorphologically)
99	1368	18	Lung/Alveolar/Wall thickened by fibrosis
220	4026	19	Lung/Alveolar/Wall with congested capillaries
45	656	12	Lung/Blood Cells group
14	110	3	Lung/Blood Plasma/Plasma (with Fibrinogen)
29	388	10	Lung/Blood Plasma/Serum group
14	357	6	Lung/Blood Vessel/Wall group
78	2238	13	Lung/Blood Vessel/Wall Muscle
6	228	2	Lung/Bronchiole/Wall Columnar Epithelium
9	155	4	Lung/Bronchiole group
25	1171	3	Lung/Connective tissue[결합 조직]/Black Carbon Pigment
26	1439	8	Lung/Connective tissue[결합 조직] group
25	907	5	Lung/Keratin Pearl/Epithelial Pearl
2501	118550

테스트 2는 LOOCV(leave-one-out cross validation) 방법론에 근거하여 이루어졌다. 이 실시예에서, 데이터는 테스트 1에서와 같이 픽셀-기반 상에서 분석되었으나, "테스트 세트"는 트레이닝에 사용되지 않은 데이터세트 내의 한명의 환자이다.

테스트 3은 US Biomax로부터의 병리학 진단에 대한 환자 대 환자 레벨 상의 SHP의 정확도를 평가하기 위하여 수행되었다. 이 테스트를 위하여, 병리학 진단들과함께 "일치"와 "불일치"를 정의하는 룰(rule)들이 생성되어야 했다. 이 룰들은 후술된다.

테스트 4는 병리학자들의 주석과 비교된 SHP 진단의 그래픽 렌더링이다.

비-누적 픽셀-기반 테스트의 결과들은 표XV A에 도시된다. 테스트 절차의 순서는 예를 들어, 암 대 정상에서 SqCC 대 ADC로와 같이 표에 주어진다. 모든 분류 단계들의 조합된 정확도는 93.2% 이다.

표 XV A. 서브-테스트 세트(S010) 내의 픽셀 스펙트럼들의 비-누적 픽셀-기반 분류

Classification[분류]	Average accuracy[정확도]
Cancer vs. Normal	98.3%
SCLC vs. Not SCLC	92.4%
Necrosis[괴사] vs. Not	94.7%
SqCC vs. ADC	87.5%

누적 픽셀-기반 테스트의 결과들은 표XV B에 도시된다. 주어진 실시예에서, 모든 다른 클래스들에 대한 총 진 양성(TP), 진 음성(TN), 위 양성(FP), 및 위 음성(FN) 분류는 총 120,145 픽셀 스펙트럼들을 포함하는 서브-테스트 데이터세트들을 위하여 나열된다. 누적 테스트의 전체 정확도 92.5%는 순차 진행(step-wise) 정확도와 유사했다. 두가지 경우들에서, 정상 조직의 스펙트럼들로부터 분광학적으로 크게 다른 모든 질병 상태들(예를 들어, 괴사 뿐만 아니라 모든 암 클래스들)을 나타내는 암 대 정상의 분류가 가장 높은 정확도를 갖는다는 동일한 경향(trend)이 관측되었다. 이 차이들은 아미드 I 영역 내의 보다 복잡한 패턴 뿐만 아니라 핵산 분광 엔벨로프들 내의 변화들을 종종 포함한다. 괴사의 분류는 두번째로 높은 정확도를 갖는다; 분류는 변질 및 침전된 단백질들의 분광 특성들인 아미드 I 매니폴드(manifold) 내의 대략 ca. 1635 cm-1의 이차 도함수 내의 추가적인 밴드의 존재에 의하여 이해될 수 있다.

표 XV B. 서브-테스트 세트(S010) 내의 픽셀 스펙트럼들의 누적 픽셀-기반 분류

	Normal	SCLC	Necrosis[괴사]	SqCC	ADC
true_positives	7665	18510	14771	32653	24021
false_positives	1989	1328	4051	7147	8010
true_negatives	110427	93073	99584	73640	81331
false_negatives	64	7234	1739	6705	6783
accuracy[정확도]	98.3%	92.9%	95.2%	88.5%	87.7%

SCLC는 비-누적 및 누적 테스트들에서 각각 92.4% 및 92.9% 의 정확도로 검출되었다. 마지막으로, SqCC와 ADC 간의 차이(discrimination)는 87%의 정확도를 달성하였다. 또한, 분류는 종래의 조직병리학, 특히, 열악하게(pooly) 분화된 암종(carcinomas)의 경우 수행하기 가장 어렵다. 또한, 이 두개의 암 타입들은 SHP 분류 뿐만아니라 주석 절차를 악화시키는 혼합된 아데노-편평 상피암(adeno-Squamous Carcinoma)으로서 발생할 수 있다.

ADC 그룹의 암 서브-분류 역시 수행되었다. 선형, 유형, 고체형, 유두상 및 마이크로-유두상 서브-클래스들의 평균 클래스 스펙트럼들의 관리되지 않은 분석은 이 클래스들이 폐암 연구를 위한 국제적 협회(IASLC, International Association for the Study of Lung Cancer) 카테고리들, 즉, 낮은 등급(100% 5년 생존), 중간 등급(80% 내지 90% 5년 생존), 및 높은 등급(60% 내지 70% 5년 생존)에 따라 나뉘는 것을 나타내었다. ADC 서브타입들을 차별화 하기 위한 목적을 위한 그 다음의 SVM 분류자는 대략 90%의 전체적인 정확도를 달성하였다.

픽셀-기반 LOOCV는 173명의 환자들의 전체적인 서브-트레이닝 세트 상에서 수행되었다. (매우 시간을 소비하는) LOOCV는 위의 표 XV A에 보고된 것과 거의 동일한 표 XVI에 도시된 분류 정확도를 획득하였다. LOOCV는 데이터세트들의 크기가 작은 경우, 분류자의 트레이닝이 거의 전체 데이터세트를 위하여 수행되었기 때문에 의학적 통계들에 흔히 사용된다. LOOCV 결과들이 데이터세트의 50:50 분할의 결과와 거의 동일하다는 사실은 환자의 수가 통계적으로 중요한 결과를 확인하는데 충분하다는 것을 나타낸다.

위의 논의는 황금 표준이 병리학자들에 의한 주석인 픽셀 스펙트럼을 근거로 하는 결과들을 나타냈다. 따라서, 주석이 달린 픽셀들 만이 이 테스트에 포함되었고, 표 IX에 도시된 바와 같이, 주석이 달린 픽셀들은 수집된 전체 데이터의 상대적으로 작은 부분(fraction)(대략 14%)을 나타내었다. SHP가 각 조직 영역의 다수(majority)를 적절히 진단하였는지 판단하기 위하여, 조직 점 내의 모든 픽셀들을 사용한 그리고 황금 표준으로서 바이오맥스 진단을 사용한 다른 테스트 절차가 수립되었다.

표 XVI. 조합된 서브-트레이닝 및 서브-테스트 데이터세트들의 리브-원-아웃 크로스 타당성 결과들

Classification[분류]	Average Accuracy[정확도]	Number of Patients
Cancer vs. Normal	98.60%	174
SCLC vs. Not SCLC	95.50%	134
Necrosis[괴사] vs. Not	94.20%	99
SqCC vs. ADC	86.40%	99

완전한 샘플들 상의 다중-분류자의 수행을 결정하기 위하여, 서브-검사 세트 내의 94개의 조직 점들 각각의 모든 픽셀 스펙트럼들이 다중-분류자를 통하여 실행되었다. 이 접근은 주석이 달리거나 달리지 않은 조직 점 내의 모든 픽셀 스펙트럼을 위한 분류를 생성하였다. 각 점은 이하와 같이 5 개의 주요 클래스들을 위하여 할당된 클래스 번호들 이다(1-정상, 2-SCLC, 3-괴사, 4-SqCC 및 5-ADC). 양성 클래스 번호는 그것의 SHP 예측이 주요 바이오맥스 병리학에 일치하는 경우 픽셀 스펙트럼에 할당되었고, 음성 클래스 번호는 다르게 할당되었다. 따라서, 음성 번호(-1)는 바이오맥스에 의하여 암으로 진단된 조직 점 내의 정상 조직 영역들 내의 픽셀들에 할당될 것이다. 유사하게, 음성 값(-3)은 괴사가 바이오맥스 진단에서 명확하게 식별되지 않은 경우, 암 점(cancerous spot) 내의 괴사 영역들에 할당되나, +3의 번호는 바이오맥스에 의하여 괴사로 진단된 암 점의 동등한 영역을 위하여 할당될 것이다. 이 단계는 표XVII에 요약된 바와 같이, SHP와 함께 TMA 내에서 발견된 모든 주요 바이오맥스 진단들의 상관분석 내에서 도출된다.

표 XVII. SHP 상관분석으로의 바이오맥스 병리학

Biomax pathology[병리학]	Classification[분류] rule*	Label
Normal (cancer adjacent)	[ 1]	Normal (no cancers or necrosis[괴사])
SCLC	[-1 2 -3 -4 -5]	SCLC with optional normal
SCLC (undifferentiate[분화된]d)	[-1 2 -3 -4 -5]	SCLC with optional normal, necrosis[괴사], SqCC or ADC
SCLC with necrosis[괴사]'	[-1 2 3 -4 -5]	SCLC with optional normal, necrosis[괴사], SqCC or ADC
SqCC	[-1 -2 -3 4 -5]	SqCC with optional normal
SqCC with necroosis	[-1 -2 3 4 -5]	SqCC and necrosis[괴사] with optional normal
ADC	[-1 -2 -3 -4 5]	ADC with optional other classes
ADC with necrosis[괴사]	[-1 -2 3 -4 5]	ADC and necrosis[괴사] with optional normal
ADC (mucinous[점액])	[-1 -2 -3 -4 5]	ADC with optional normal
ADC (Papillary[유두상])	[-1 -2 -3 -4 5]	ADC with optional normal

*최소한 하나의 양성 분류가 요구된다. 음성은 선택가능하다.

전체 점 분석을 위한 이하의 룰들이 수립되었다.

- 픽셀들의 임계값(이하 참조)은 임의의 클래스가 중요한 것으로 간주되기 전에 요구되었다.

- 최소한 하나 이상의 양성 클래스 값이 주어진 조직 점을 위하여 존재하도록 요구되었다; 즉, 주요 바이오맥스 진단에 대응하는 조직 클래스가 SHP 결과 내에 임계값을 초과하는 픽셀 수와 함께 나타나야 한다.

- 음성 값들을 갖는 클래스들은 선택적이고, "비-매치"의 트리거링(triggering) 없이 점 내에 주어질 수 있다(예를 들어, 암 점 내의 정상 영역들); 그러나, '음성' 클래스들 중 하나의 픽셀 스펙트럼들의 수가 임계값과 주요 '양성' 진단 클래스를 초과하는 경우, "비-매치"가 해당 점을 위하여 기록되었다.

임계값들은 모든 클래스들을 위하여 적용되었고, 200 내지 2000 픽셀 스펙트럼들 사이에서 변화된다. 400 픽셀 스펙트럼들의 임계값을 위하여 , 방법의 최적 수행이 실현되었다. 처리된 데이터의 공간적 해상도에서, 400 픽셀들은 대략 200 μm x 200의 영역 내의 대략 100개의 세포들에 대응한다. 이 접근은 가시적 현미경의 20x의 배율의 시야 영역에 거의 대응하고, 시야 영역 내의 100개의 암 세포들은 암의 존재에 대한 병리학자들의 응답을 분명히 트리거링(trigger) 할 것이다. 낮은 임계값은 특이성 비용(expense)에서 SHP 분류의 감도를 증가시킨다. 이 전에 점 분석 결과들이 표 XVIII에 도시된다.

표 XVII. 전체 점 분류 결과들

	Normal	NOT Normal		SCLC	NOT SCLC		Necrosis[괴사]	NOT Necr.
Normal	45	2	SCLC	22	1	Necrosis[괴사]	37	4
NOT Normal	0	47	NOT SCLC	0	71	NOT Necr.	0	53
Sensitivity	95.7%	100.0%	sensitivity	95.7%	100.0%	sensitivity	90.2%	100.0%
Specificity[특이성]	100.0%	95.7%	specificity[특이성]	100.0%	95.7%	specificity[특이성]	100.0%	90.2%
accuracy[정확도]	97.9%	97.9%	accuracy[정확도]	98.9%	98.9%	accuracy[정확도]	95.7%	95.7%

	SqCC	NOT SqCC		ADC	NOT ADC
SqCC	41	0	ADC	53	1
NOT SqCC	0	53	NOT ADC	0	40
sensitivity	100.0%	100.0%	sensitivity	98.2%	100.0%
specificity[특이성]	100.0%	100.0%	specificity[특이성]	100.0%	98.2%
accuracy[정확도]	100.0%	100.0%	accuracy[정확도]	98.9%	98.9%

분류 결과들의 그래픽 묘사는 일정하지 않거나, 또는 명확한 답이 존재하지 않는 몇몇 생체 검사들의 진단을 위한 보조적 도구로서 병리학자들에 의하여 사용될 수 있기 때문에 가치가 있다. 도 22는 다른 괴사 및 암 클래스들을 위한 테스트 세트로부터의 세가지 다른 라벨-이미지들의 결과들을 나타낸다. 좌측 열 패널들은 조직 점들의 H&E 염색된 이미지들을 나타내고, 두번째 열 패널들은 병리학자들에 의하여 주석이 달리고, 컬러 코드(이하의 상세 설명 참조)에 의하여 적절한 진단을 묘사하는 영역들을 나타내며, 세번째 열은 동일한 컬러 코드로 묘사된 SHP 예측을 나타낸다. 최 우측 열은 위 양성 및 위 음성 SHP 진단들을 적색으로 나타낸다. 도 22에 사용된 컬러 코드는 아래와 같다: 적색: 괴사, 노란색: SCLC; 청색: SqCC; 보라색; ADC; 적색: 미분류. 도 22에 도시된 결과들은 이러한 라벨 이미지 접근에 의하여 획득된 대표적 결과들을 나타내고, 일치한 성질(quality of agreement)은 분석된 점들의 다수를 나타낸다. 세번째 열의 결과들, 예를 들어, 픽셀-기반의 SHP 예측은 블라인드 방식으로 획득되었다: 분석된 점들의 데이터세트들은 SHP 결과들의 참-거짓 결정(true-false decision)이 표현되도록 사전처리되고 주석이 달렸다; 그러나, 이 점들은 분류자의 트레이닝에 사용되지 않았고, 블라인드 방법으로 분석되었다. 따라서, 이미지들의 두번째와 세번째 열 간에 나타나는 일치는 분류자가 다른 암 타입들을 구별하기 위한 능력을 정확히 나타낸다. 세번째와 네번째 열 이미지들에 보여진 오분류들은 주로 조직들의 가장자리에서 발생하고, 따라서, 거의 대부분 픽셀 스펙트럼들의 열악한 신호 품질에 의하여 발생한다는 것에 유의하여야 한다. 물론, US 바이오맥스 병리학과 SHP 예측이 불일치한 몇몇 조직 점들이 존재한다; 이것들에서, 그것은 암의 존재 또는 부재가 아닌 항상 적절히 예측되지 않은 암 타입이다.

본 발명의 다른 실시예가 샘플들 내의 그리고 샘플들 간의 질병 상태들, 타입들 및 조직 특성들 임상 표현을 정의하고 기술하기 위하여 사용하기 위한 IR 특성들의 표준화를 가능하게 하도록 하나의 플랫폼과 다른 플랫폼 또는 하나의 머신과 다른 머신 또는 동일 머신의 다른 지점들로부터 데이터 세트들의 동일화(equating)를 가능하게 하는 데이터 마스터 참조 및/또는 상관분석/변형 알고리즘 또는 다른 함수를 개발하기 위한 특성들과 관련하여 기술될 것이다.

도 23b는 병리학자들에 의하여 선택된 주석 영역들의 오버레이(밝은 녹색)를 나타내고, SHP에 의하여 획득된 전체 점 라벨 이미지들을 나타낸다. 이 이미지는 병리학자에 의하여 선택된 영역들과 전체 질병 영역들 간의 일치(agreement)를 나타낸다. 도 23a는 주석 절차에서 병리학자에 의하여 사용된 대응하는 HCA 클러스터 이미지를 나타낸다. 병리학자에 의하여 선택된 주석 영역들의 동질성은 시각적 이미지와 HCA 이미지의 오버레이에 임계적으로(critically) 의존하고, 도 23a 및 23b는 데이터베이스들의 수립을 위하여 개발된 주석 절차(procedure)가 매우 구체적이고 동질의 데이터베이스를 생성한다는 것을 나타낸다. 이 특정 이미지는 왜 SHP 결과들이 받아들여진 전통적인 조직병리학의 진단 정확도 레벨에서 기대된 것 보다 더 정확한 것으로 여겨지는지를 시사한다: 여기에 보고된 알고리즘들은 한명 이상의 병리학자가 동의한 매우 신중하게 선택된 질병 영역들을 포함하는 데이터세트들 상에서 트레이닝되었다. 선택된 영역들은 질병 타입/단계를 위한 전형적인 것으로 간주될 수 있고, 따라서, MLA가 다른 샘플들로부터 이러한 대표적인 스펙트럼들 내의 특정 순환하는 특성들을 검출할 수 있게 한다.

총 194명의 환자들의 아치형 데이터세트는 훌륭한 정확도를 획득하였다. 이 데이터세트가 전술된 테스트 3 절차를 사용하여 전체 트레이닝 세트 상에서 트레이닝된 알고리즘에 의하여 분석된 경우, 단 9명의 환자들이 오분류되었다(한명은 위양성 그리고 8명은 위음성). 위음성들 중, 암이 정확하게 예측된 세명의 환자들이 존재하나, 괴사 공동-진단(co-diagnosis)은 SHP에 의하여 누락되었다. 따라서, 194개에서 나온 단 5명의 환자 샘플들에서 SHP가 틀린 암 진단을 생성하였다; 이것은 97%의 전체 암 검출 정확도에 대응한다. 모든 5개의 위 음성 진단들에서, SHP는 암을 검출했으나, 암은 US 바이오맥스 레벨에서 진단되지 않았다: 바이오맥스에 의하여 괴사를 갖는 ADC와 같이 진단된 세명의 환자들은 SHP에 의하여 괴사를 갖는 ADC로 할당되었고(적은 확률의 SqCC와 함께), 하나의 SqCC 샘플이 ADC로 할당되었다. 이러한 오진단 경우들의 최종 재평가가 수행중이다.

도 24는 다른 기구들을 사용하는 연구실들에서 수집된 데이터세트들을 호환할 수 있는 도 3의 시스템(100)의 실시예의 변경된 실시예를 나타낸다. 구체적으로, 전술한 바와 같이, 분광 조직병리학(SHP)에서, 생체 검사들로부터의 조직 샘플들(예를 들어, 생체 시료들(101a))은 높은 충실도(fidelity)와 함께 조직의 특성들을 해부학적 및 병리학적으로 복사하는 조직 샘플의 적외선 수도-컬러 이미지들을 생성하도록 적외선 마이크로 분광학을 사용하여 분석될 수 있다. 그러나, 조직 샘플의 적외선 수도-컬러 이미지들은 어떠한 수의 방법들 및/또는 장비들을 사용하여 생성될 수 있다. 예를 들어, 몇몇 실시예들에서, 단일 조직 샘플이 제조사 A에 의하여 제조된 적외선 이미징 시스템을 사용하여 먼저 분석되고, 제조사 B에 의하여 제조된 적외선 이미징 시스템을 사용하여 두번째로 분석될 수 있다. 이미지들이 수집된 장비 및/또는 환경의 변화에 따라, 첫번째와 두번째 적외선 이미징 시스템들 각각은 동일한 생체 시료의 다른 분광 이미지들을 생성할 수 있다. 이러한 변화들은 다른 이미징 시스템 또는 기구들이 분광 이미지를 생성할 때 분광 벡터들 내의 다른 픽셀 크기와 데이터 포인트 이격(spacing)을 사용할 수 있다는 사실에 기인할 수 있다.

따라서, 다른 적외선 이미징 마이크로-분광기들을 사용하여, 예를 들어, 주어진 실시예에서 분석될 생체 시료의 독립으로 이루어진 다른 머신들 및 플랫폼들의 차이에 기인하는 차이를 식별하기 위하여 참조 분광 표준을 사용함으로써(예를 들어, 참조 샘플(101b)의 정보에 근거하여), 분광 이미지들과 관련한 데이터를 처리하도록 구성된 바이어스 보정 모듈(103)을 사용하여 다른 연구소들로부터 도출될 수 있는 것들과 비교가능한 또는 알맞은(compatable) 정보를 만들기 위하여 정확한 편차(deviation), 상관분석, 또는 다른 정보가 만들어진다. 바이어스 보정 장비(103)는 2-단계 절차를 사용하여 편차들을 조정할 수 있다: (1) 다수의 이미지 생성 머신(들)(예를 들어, 다른 적외선 이미징 마이크로-분광기들)에 의하여 수집된 이미지들 내의 기준선 차이를 확립(establishing)하는 단계; 및 (2) 식별된 차이들을 기록(account)하기 위하여 이미지 생성 머신(들)에 의하여 수집된 생체 시료들의 그 다음의 이미지들로 데이터 호환 함수(funtion)를 적용하는 단계. 다양한 관점의 절차들이 도 3을 참조하여 기술된다.

도 25는 바이어스 보정 모듈(103)이 전처리 모듈(106)과 통신하는 실시예를 나타낸다. 몇몇 실시예들에서, 바이어스 보정 모듈(103)과 전처리 모듈(106)은 도 24와 관련하여 전술된 바이어스 보정 모듈(103)과 전처리 모듈(106)의 일 예가 될 수 있다.

도 25로 돌아가서, 바이어스 조정 모듈(103)은 분광 이미지 수집 모듈(1104)와 참조 이미지 모듈(1106)을 포함할 수 있다. 몇몇 실시예들에서, 생체 시료 또는 비-생체 시료에 근거하여 이루어질 수 있는 알려진 참조와 함께 제1 적외선 이미징 시스템을 사용하여 분광 이미지 사이의 기준선 차 들을 식별하는 것은 제1 이미지 생성 머신으(예를 들어, 제1 연구소의 적외선 이미징 마이크로-분광기)로부터 분광 이미지를 수신하기 위하여 분광 이미지 수집 모듈(1104)를 사용하는 것과 분광 이미지를 참조 이미지 모듈(1106)에 의하여 수집된 참조 이미지와 비교하는 것을 포함할 수 있다. 몇몇 실시예들에서, 참조 이미지 모듈(1106)은 제2 이미지 생성 머신(예를 들어, 마스터 적외선 이미징 마이크로-분광기들)을 사용하여 제1이미지 생성 머신에 의하여 사용된 바와 같이, 동일한 참조 배경 기질(substrate)과 함께 수집될 수 있다. 몇몇 실시예들에서, 분광 이미지는 참조 샘플을 사용하여 수집될 수 있다. 참조 샘플은 생체 시료 또는 참조 생화학 용법을 제공하기 위하여 선택된 특정 화학 구성과 함께 설계된 샘플로 이루어질 수 있다.

분광 이미지를 분광 이미지 수집 모듈(1104)로부터 그리고 참조 이미지를 참조 이미지 모듈(1106)으로부터 수신함에 따라, 이미지 분석 모듈(1108)은 각각의 이미지들과 관련한 두개의 데이터세트들의 바이너리(binary) 비교를 수행할 수 있다. 바이너리 비교는 선형 변환 또는 비선형 변환이 될 수 있다. 비교는 호환 함수를 생성하기 위하여 사용될 수 있다. 변환과 도출된 호환 함수는 특성 및/또는 파장번호(wavenumber)의 함수가 될 수 있다. 호환 함수는 예를 들어, 흡광도 또는 강도의 함수가 될 수 있다. 구체적으로, 이미지 분석 모듈(1108)은 적외선 데이터세트들로부터의 각각의 분광 이미지들과 참조 이미지들의 흑백 이미지들을 각 픽셀 스펙트럼을 데이터세트 내에 통합하고, 도출된 강도를 픽셀 스펙트럼의 좌표들로 표시될 수 있는 흑백 값(gray scale value)으로 변환함으로써 구축할 수 있다. 몇몇 실시예들에서, 도출된 흑백 적외선 이미지들은 이미지 상의 다수의 식별가능한 특성들(예를 들어, 크랙 또는 보이드)을 선택함으로써 거칠게(coarsely) 등록될 수 있다. 이미지들 상의 임의의 두 지점들이 서로에 대응하도록 두 이미지들이 등록되면(예를 들어, 분광 이미지와 참조 이미지), 이미지 분석 모듈(1108)은 두 이미지들 간의 유사성과 차이(contrast)들을 식별할 수 있다. 일 실시예에서, 이미지 분석 모듈(1108)은 분광 이미지와 관련된 제1 데이터세트와 참조 이미지와 관련된 제2 데이터세트 간의 픽셀 대 픽셀 차이의 절대값(absolute value)을 표시할(plot) 수 있다. 유사하게, 두 이미지들 간의 유사성들은 두 데이터세트들의 각 분광 벡터 SA 및 SB에 의한 픽셀 대 픽셀 상관분석 계수(CAB)에 의하여 평가될 수 있다. 몇몇 실시예들에서, 파라미터 "A"는 분광 이미지와 관련한 데이터세트를 나타낼 수 있고, 파라미터 "B"는 참조 이미지와 관련할 수 있다. 따라서, 이미지 분석 모듈(1108)에 의하여 식별된 차이들과 유사성들은 이후의 참조를 위하여 마스터 참조 데이터베이스(1110)에 저장될 수 있다. 구체적으로, 이미지 생성 머신(들) 간의 기준선 차이들이 식별되면, 전처리 모듈(106)이 각각의 이미지 생성 머신(들)과 관련한 서명 정보에 접근 가능하도록 이루어질 수 있고, 분석될 생체 시료에 독립적인 다른 머신들 및 플랫폼들에 기인하는 임의의 바이어스 및/또는 차이를 보정하기 위하여 다른 장비들 각각에 특별한 기능을 제공하도록 이루어질 수 있다.

2-단계 절치의 두번째 부분과 관련하여, 차후에 제1 이미지 생성 머신에 의하여 수집된 생체 시료의 이미지를 수신함에 따라, 전처리 모듈(106)은 생체 시료 이미지에 적용될 수 있는 보정 계수(correction factor)를 식별하기 위하여 도 25의 마스터 참조 데이터베이스에 접근할 수 있다. 구체적으로, 전처리 모듈(106)은 제1 이미지 생성 머신와 관련한 저장된 서명 정보에 근거하여 데이터 호환 함수를 생체 시료 이미지에 적용할 수 있고, 제1 이미지 생성 머신에 기인하는 바이어스 및/또는 차이를 보정하기 위하여 수정된 생체 시료 이미지 및/또는 수정된 데이터세트를 생성할 수 있다. 몇몇 실시예들에서, 데이터 호환 함수의 적용은 생체 시료 이미지의 모든 데이터세트들을 마스터 적외선 임징 시스템의 픽셀 크기에 대응하는 데이터 포인트 이격 및 픽셀 크기로 변환하기 위하여 3차원 보간(interpolation) 함수를 사용하는 것을 포함할 수 있다. 추가로 또는 대안으로, 데이터 호환 함수 및/또는 보정 계수를 생체 시료 이미지로 적용하는 것은 위상 보정 및 벡터 정규화를 생체 시료 이미지에 적용하는 것을 포함할 수 있다.

따라서, 몇몇 실시예들에서, 바이어스 보정 모듈(103)과 전처리 모듈(106)의 조합은 데이터세트들을 다른 장비 타입들(또는 동일 장비로부터 다른 횟수로(times))로부터 수집 가능하게 할 수 있고, 분광 정보가 생체 시료 이미지를 수집하는데 사용한 장비 타입에 독립적으로 이루어지도록 상호변환될 수 있다.

도 26은 본 발명의 바람직한 실시예에 따른, 머신들로부터 또는 단일 머신의 다른 횟수에서 또는 다른 상태들 하에서 정보를 분석 및/또는 상관분석하는 방법의 흐름을 나타내는 다이어그램이다. 도 26에 도시된 바와 같이, 도 24의 바이어스 보정 모듈로부터의 정보 및/또는 도 24의 생체 시료 및/또는 참조 샘플로부터의 정보를 포함하는 다양한 정보들은 보정되거나 또는 다르게 상관분석되거나, 비교가능하게 만들어지거나, 또는 호환가능하게 만들어질 수 있다. 예를 들어, 도 26의 열(1)에 도시된 바와 같이, 보정되거나 또는 다르게 상관분석되거나, 비교가능하게 만들어지거나, 또는 호환가능하게 만들어질 수 있는 정보는 두개의 다른 머신들, 머신 A와 머신 B로부터 획득될 수 있고, 참조 샘플과 관련한 정보는 이러한 목적을 위하여 사용될 수 있다.

도 27은 본 발명의 바람직한 실시예에 따른 도 25의 바이어스 보정 모듈의 적용의 머신들로부터 또는 단일 머신의 다른 횟수에서 또는 다른 상태들 하에서 정보를 분석 또는 상관분석하기 위한 것과 같은 다양한 실시예를 나타낸다. 도 27에 도시된 바와 같이, 데이터 세트 A는 예를 들어, 제1 머신을 위한 제1 생체 시료과 관련한 데이터를 포함할 수 있고, 데이터 세트 B는 예를 들어, 제2 머신을 위한 제2 생체 시료과 관련한 데이터를 포함할 수 있다. 대안으로, 데이터 세트 A는 예를 들어, 단일 머신을 위한 최초의 단일 생체 시료과 관련한 데이터를 포함할 수 있고, 데이터 세트 B는 예를 들어, 단일 머신을 위한 두번??의 단일 생체 시료과 관련한 데이터를 포함할 수 있다.

도 27에 도시된 바와 같이, 도출된 데이터 세트 A와 B는 참조 또는 표준 이미지를 위한 참조 관련 데이터(예를 들어, 데이터세트 A와 관련한 제1 머신 및 데이터세트 B와 관련한 제2 머신을 위한 참조/표준 이미지를 위한 비교 데이터) 뿐만 아니라 각각의 대응하는 생체 시료 정보 A 및 B와 관련하는 데이터를 포함할 수 있다. 호환 함수는 데이터 세트 A와 데이터 세트 B와 관련한 머신과 관련하여 생성된 참조 이미지 정보의 비교에 근거하여 생성될 수 있다. 도출된 호환 함수는 데이터 세트 A와 데이터 세트 B로부터의 데이터를 예를 들어, 보정하거나 또는 다르게 상관분석하거나, 비교가능하게 만들거나, 또는 호환가능하게 만드는 더 많은 사용을 위하여 데이터 세트 A와 데이터 세트 B에 적용될 수 있다.

도 28은 각각 도 24 내지 27과 관련하여 여기에서 논의된 다양한 데이터 세트들로부터의 데이터를 보정하거나 또는 다르게 상관분석하거나, 비교가능하게 만들거나, 또는 호환가능하게 만들기 위한 실시예들을 나타내는 다이어그램을 포함한다. 도 28에 도시된 바와 같이, 다른 연구소들(예를 들어, "LAB 1" 및 "LAB 2")는 이미지들(예를 들어, 각각 소스 I 과 II, III 과 IV)를 생성하기 위한 다수의 소스들(예를 들어, 장비)을 가질 수 있다. 이 소스들은 예를 들어, 샘플 A 내지 C로부터 이미지들을 생성할 수 있다. 샘플들은 생물학적이거나 비-생물학적일 수 있다. 데이터 소스는 분광학적이거나 비-분광학적일 수 있다. 표준 이미지는 표준 이미지 I 내지 IV를 생성하기 위하여 각 소스들과 함께 사용될 수 있다. 도 24 내지 27의 다양한 실시예의 적용가능성과 관련 설명은 실시예들을 사용하여 기술된다.

도 24 내지 27과 관련 설명에 근거하여, 도 28의 실시예 내에서 소스들 및/또는 샘플들 내의 차이들이 발생할 수 있는 다양한 상황들이 다양한 데이터 세트들로부터의 데이터를 보정하거나 또는 다르게 상관분석하거나, 비교가능하게 만들거나, 또는 호환가능하게 만들기 위한 요구를 야기할 수 있다는 것은 쉽게 이해될 수 있다. 제1실시예에서, 샘플 A는 소스 I 상의 LAB 2 내에서 이미지화(imaged)되었고, LAB 2 소스 III와 비교가능하게 만들어져야 한다. 호환 함수는 Ref. 이미지 I.1 및 Ref. 이미지 III.1.을 위한 바이어스 보정 모듈의 작동을 적용함으로써 얻어질 수 있다.

제2실시예에서, 샘플 B는 소스 II 상의 LAB 1 내에서 이미지화(imaged)되었고, LAB 2 소스 IV와 비교가능하게 만들어져야 한다. 호환 함수는 Ref. 이미지 I.1 와 소스 IV를 위한 참조 이미지를 사용하여 얻어진다. 샘플 B, LAB 2, 소스 IV와 관련된 참조 이미지가 없다는 점에 유의하여야 한다. 따라서, 데이터-머신 호환 함수는 데이터 세트 연관성(assocatiation)에 의하여 직접적으로 수립될 수 없다. 표준 이미지 IV는 사용가능하고, 데이터 세트와 직접적으로 관련되지 않는다. 이 이미지(표준 이미지 IV)는 LAB 1과 2 그리고 머신 I 과 IV간의 각각의 샘플 B를 위한 표준-머신 호환 함수를 얻는데 사용될 수 있다.

제3실시예에서, 샘플 C는 소스 III 상의 LAB 2 내에서 이미지화(imaged)되었고, 분석 결과들은 샘플 A와 함께 소스 I 상에서 LAB 1에서 수행된 연구와 비교가능하게 만들어져야 한다. 호환 함수는 Ref. 이미지 III.2 및 Ref. 이미지 I.1을 사용함으로써 얻어질 수 있다.

제4실시예에서, 샘플 D는 소스 III 상의 LAB 2 내에서 이미지화(imaged)되었고, 분석 결과들은 샘플 B와 함께 소스 III 상에서 LAB 2에서 수행된 연구와 비교가능하게 만들어져야 한다. 호환 함수는 Ref. 이미지 III.2를 사용함으로써 얻어질 수 있다. 데이터가 동일한 머신으로부터 그리고 동일한 참조 이미지와 관련하여 이루어지기 때문에, 비록 시간 경과과로 인하여 변형이 발생할 수 있다 하더라도(예를 들어, 소스 III를 위한 머신 이동) 데이터는 호환가능하다.

제5실시예에서, LAB 1과 LAB 2의 데이터를 결합하는 것이 바람직하다. LAB 1은 데이터의 획득을 위하여 사용된 머신들과 관련한 참조 이미지 및 표준 이미지와 관련하여 LAB 2로부터 전송된 데이터를 요청한다. 데이터는 머신 이동이 발생한 경우, LAB 2로부터의 데이터를 위한 참조 및 표준 이미지들을 비교함으로써 검증을 위하여 체크된다. 참조 및/또는 표준 이미지들은 호환 함수들을 얻기 위하여 사용된다.

도 29는 본 발명의 바람직한 실시예와 함께 사용되기 위한 일 실시예의 컴퓨터 시스템(2000)의 다양한 특성들을 나타낸다. 도 29에 도시된 바와 같이, 컴퓨터 시스템(2000)은 요청자(requestor)/의사 또는 다른 사용자(2060, 2068), 또는 요청자/의사의 대표에 의하여 개인용 컴퓨터(PC). 미니컴퓨터, 메인프레임 컴퓨터, 마이크로 컴퓨터, 전화기, PDA(personal digital assistant), 또는 프로세서와 입력 기능을 갖는 다른 장치와 같은 터미널(2042, 2068)을 통하여 사용된다. 서버 모델은 예를 들어, PC, 미니컴퓨터, 메인프레임 컴퓨터, 마이크로컴퓨터, 또는 프로세서와 데이터를 위한 저장소를 갖거나 또는 데이터의 저장소에 접근할 수 있는 다른 장치를 포함한다. 서버(2043)는 예를 들어, 진단, 예후, 및/또는 예측 분석에 사용을 위한 트레이닝 세트들 및/또는 알고리즘들과 같은, 질병-기반의 데이터의 저장소와 접근가능하도록 이루어질 수 있다.

전술된 데이터들은 예를 들어, 인터넷과 같은 네트워크(2044)를 통하여 의사와 SHP 시스템(또는 다른 유저)들 사이에서 전송될 수 있고, 분석가(analyst)(2060, 2062)와 서버(2043) 사이에서 전송될 수 있다. 통신은 유선, 무선, 또는 광섬유(fiberoptic) 연결과 같은 연결수단들(2045, 2046, 및 2064)을 통하여 이루어질 수 있다.

본 발명의 실시예들은 하드웨어, 소프트웨어 또는 그 조합을 사용하여 실시될 수 있고, 하나 이상의 컴퓨터 시스템들 또는 다른 프로세싱 시스템들 내에서 실시될 수 있다. 본 발명의 일 실시예에서, 하나 이상의 컴퓨터 시스템들이 여기에 기술된 기능들을 수행하는데 사용될 수 있다. 이러한 컴퓨터 시스템(1900)의 예가 도 30에 도시된다.

컴퓨터 시스템(1900)은 프로세서(1904)와 같은 하나 이상의 프로세서들을 포함한다. 프로세서(1904)는 통신 인프라스트럭쳐(1906)(예를 들어, 통신 버스, 크로스-오버 바, 또는 네트워크)와 연결된다. 다양한 소프트웨어 양상들이 이 실시예의 컴퓨터 시스템에 관하여 기술된다. 이 설명을 읽은 후, 해당 기술 분야의 기술자들은 어떻게 본 발명의 실시예를 다른 컴퓨터 시스템들 및/또는 아키텍쳐들을 사용하여 실시할 지 쉽게 이해할 것이다.

컴퓨터 시스템(1900)은 디스플레이 유닛(1930) 상에 디스플레이하기 위한 그래픽, 텍스트 및 다른 통신 인프라스트럭쳐(1906)으로부터의 데이터(또는 미도시된 프레임 버퍼로부터의)를 포워딩하는 디스플레이 인터페이스(1902)를 포함할 수 있다. 컴퓨터 시스템(1900)은 또한 메인 메모리(1908), 바람직하게는 RAM(random access memory)를 포함하고, 세컨더리 메모리(1910)을 포함할 수 있다. 세컨더리 메모리(1910)는 예를 들어, 하드 디스크 드라이브(1912) 및/또는 플로피 디스크 드라이브, 마그네틱 테이프 드라이브, 광학 디스크 드라이브, 등을 대표하는 제거가능한 저장 드라이브(1914)를 포함할 수 있다. 제거가능한 저장 드라이브(1914)는 잘 알려진 방법으로 제거가능한 저장 유닛(1918)로부터 읽거나 및/또는 쓸 수 있다. 제거가능한 저장 유닛(1918)은 제거가능한 저장 드라이브(1914)에 의하여 읽고 쓰는 플로피 디스크 드라이브, 마그네틱 테이프 드라이브, 광학 디스크 드라이브, 등을 대표한다. 제거가능한 저장 유닛(2018)은 컴퓨터 소프트웨어 및/또는 데이터를 저장한 컴퓨터 사용가능 저장 수단을 포함한다.

대안의 실시예에서, 세컨더리 메모리(1910)는 컴퓨터 시스템(1900)에 로딩되기 위한 컴퓨터 프로그램들 또는 다른 명령들을 허용하는 다른 유사한 장치들을 포함할 수 있다. 이러한 장치들은 예를 들어, 제거가능한 저장 유닛(1922)과 인터페이스(2920)을 포함할 수 있다. 이러한 실시예들은 프로그램 카트리지 및 카트리지 인터페이스(비디오 게임 장치들에서 발견할 수 있는), 제거가능한 메모리 칩(EPROM(erasable programmable read only memory), 또는 PROM(programmable read only memory)과 같은) 및 관련된 소켄, 및 소프트웨어 및 데이터의 제거가능한 저장 유닛(1922)로부터 컴퓨터 시스템(1900)으로의 전송을 허용하는 다른 제거가능한 저장 유닛들(1922) 및 인터페이스들(1920)을 포함할 수 있다.

컴퓨터 시스템(1900)은 또한 통신 인터페이스(1924)를 포함할 수 있다. 통신 인터페이스(1924)는 소프트웨어 및 데이터를 컴퓨터 시스템(1900)과 외부 장치들 사이에서 전송될 수 있도록 한다. 통신 인터페이스(1924)의 예는 모뎀, 네트워크 인터페이스(이더넷 카드와 같은), 통신 포트, PCMCIA(Personal Computer Memory Card International Association) 슬롯 및 카드, 등을 포함할 수 있다. 통신 인터페이스(1924)를 통하여 전송되는 소프트웨어 및 데이터는 전기적, 전자기적, 광학 또는 통신 인터페이스(1924)에서 수신될 수 있는 다른 신호들로 이루어질 수 있는 신호(1928)들의 형태로 이루어진다. 이 신호들(1928)은 통신 경로(예를 들어, 채널)(1926)을 통하여 통신 인터페이스(1924)로 제공된다. 이 경로(1926)는 신호들(1928)을 운반하고, 와이어 또는 케이블, 광섬유, 전화선, 무선 연결, 무선 주파수(RF) 연결 및/또는 다른 통신 채널들을 사용하여 실시될 수 있다. 이 문서에서, "컴퓨터 프로그램 매체" 및 "컴퓨터 사용가능 매체"의 표기는 제거가능한 저장 드라이브(1914), 하드 디스크 드라이브(1912)에 설치된 하드 디스크, 및 신호들(1928)과 같은 매체를 일반적으로 나타내도록 사용되었다. 이 컴퓨터 프로그램 제품들은 컴퓨터 시스템(1900)으로 소프트웨어를 제공한다. 본 발명의 실시예들은 이러한 컴퓨터 프로그램 제품들과 관련이 있다.

컴퓨터 프로그램들(또한 컴퓨터 제어 로직으로 참조됨)은 메인 메모리(1908) 및/또는 세컨더리 메모리(1910)에 저장된다. 컴퓨터 프로그램들은 또한 통신 인터페이스(2024)를 통하여 수신될 수 있다. 이러한 컴퓨터 프로그램들은 실행시 컴퓨터 시스템(1900)으로 하여금 여기에 기술된 본 발명의 바람직한 실시예에 따른 특성들을 수행하도록 한다. 특히, 컴퓨터 프로그램들은 실행시 프로세서(1904)가 이러한 특성들을 수행하도록 한다. 따라서, 이러한 컴퓨터 프로그램들은 컴퓨터 시스템(1900)의 컨트롤러를 나타낸다.

본 발명의 다른 실시예는 소프트웨어를 사용한다. 소프트웨어는 컴퓨터 프로그램 제품에 저장될 수 있고, 제거가능한 저장 드라이브(1914), 하드 드라이브(1912), 또는 통신 인터페이스(1924)를 사용하여 컴퓨터 시스템(1900)내에 로딩될 수 있다. 제어 로직(소프트웨어)는 프로세서(1904)에 의하여 실행시 프로세서(1904)가 여기에 기술된 기능들을 수행하도록 한다. 다른 실시예에서, 기본적으로 ASICs(application specific integrated circuits)와 같은 하드웨어 요소들을 사용하는 하드웨어를 사용한다. 여기에 기술된 기능들을 수행하기 위한 하드웨어 상태 머신의 적용은 해당 기술분야의 기술자에게 쉽게 이해될 수 있다.

본 발명의 또 다른 실시예에서, 하드웨어와 소프트웨어의 조합이 사용된다.

Claims

생체 시료를 분류하는 방법에 있어서,
생체 시료의 이미지를 수신하는 단계;
데이터 저장소 내의 정보에 근거하여 데이터의 임계값을 최적화하는 것을 포함하는 하나 이상의 알고리즘들을 이미지에 적용하는 단계;
프로세서를 통하여 이미지에 적용된 하나 이상의 알고리즘들의 결과에 근거하여 생체 시료의 분류를 생성하는 단계; 및
표시(presentation) 매체를 통하여 표시되도록 생체 시료의 분류를 전송하는 단계;
를 포함하는 것을 특징으로 하는 생체 시료를 분류하는 방법.
제 1항에 있어서,
데이터의 임계값을 최적화하는 단계는,
대상들(subjects) 또는 픽셀들의 최적화된 최소 개수를 선택하는 단계를 포함하는 것을 특징으로 하는 생체 시료를 분류하는 방법.
제 1항에 있어서,
하나 이상의 알고리즘들은 다수의 분류들을 포함하고,
데이터의 임계값을 최적화하는 단계는,
다수의 분류들을 안정화하도록 오버샘플링을 적용하는 단계를 포함하는 것을 특징으로 하는 생체 시료를 분류하는 방법.
제 1항에 있어서,
데이터의 임계값을 최적화하는 단계는,
픽셀들을 위한 최소 검출 임계값(minimum detection threshold)을 적용하는 단계를 포함하는 것을 특징으로 하는 생체 시료를 분류하는 방법.
제 1항에 있어서,
데이터의 임계값을 최적화하는 단계는,
정확도를 변경하거나 또는 감도 및 특이성을 변경하기 위하여 가능성 임계값을 적용하는 단계를 포함하는 것을 특징으로 하는 생체 시료를 분류하는 방법.
제 1항에 있어서,
데이터의 임계값의 최적화와 관련한 이질성 데이터를 보고하는 단계;
를 더 포함하는 것을 특징으로 하는 생체 시료를 분류하는 방법.
제 1항에 있어서,
데이터의 임계값을 최적화 하는 단계는,
데이터와 관련한 분광 해상도를 증가시키거나 감소시키는 단계를 포함하는 것을 특징으로 하는 생체 시료를 분류하는 방법.
생체 시료를 분류하는 방법에 있어서,
생체 시료의 이미지를 수신하는 단계;
데이터 저장소 내의 정보에 근거하여 최소 트레이닝 세트 크기를 선택하는 것을 포함하는 하나 이상의 알고리즘들을 프로세서를 통하여 이미지에 적용하는 단계;
프로세서를 통하여 이미지에 적용된 하나 이상의 알고리즘들의 결과에 근거하여 생체 시료의 분류를 생성하는 단계; 및
표시(presentation) 매체를 통하여 표시되도록 생체 시료의 분류를 전송하는 단계;
를 포함하는 것을 특징으로 하는 생체 시료를 분류하는 방법.
제 8항에 있어서,
하나 이상의 알고리즘들은 분류와 관련하여 이루어지고,
최소 트레이닝 세트 크기는 분류를 위한 대표 구성을 달성하도록 선택되는 것을 특징으로 하는 생체 시료를 분류하는 방법.
제 8항에 있어서,
트레이닝 세트는 하나 이상의 특성들을 포함하고,
최소 트레이닝 세트 크기는
하나 이상의 특성들의 수를 최소화 하도록 선택되는 것을 특징으로 하는 생체 시료를 분류하는 방법.
제 8항에 있어서,
하나 이상의 알고리즘들은 트레이닝 세트 크기를 형성하는 하나 이상의 트레이닝 세트들에 근거하여 변하고,
하나 이상의 트레이닝 세트들 각각을 위한 메트릭스에 관한 정보를 생성하는 단계;
를 더 포함하는 것을 특징으로 하는 생체 시료를 분류하는 방법.
제 11항에 있어서,
하나 이상의 적용된 알고리즘들과 다른 최소한 하나 이상의 알고리즘을 위한 메트릭스에 관한 정보를 생성하는 단계;
를 더 포함하는 것을 특징으로 하는 생체 시료를 분류하는 방법.
제 8항에 있어서,
데이터 저장소로부터 사용된 데이터의 소스에 대한 라벨 정보를 제공하는 단계;
를 더 포함하는 것을 특징으로 하는 생체 시료를 분류하는 방법.
생체 시료를 분류하는 방법에 있어서,
생체 시료의 이미지를 수신하는 단계;
데이터 저장소 내의 정보에 근거하여 집단(cohort)을 선택하는 것을 포함하는 하나 이상의 알고리즘들을 프로세서를 통하여 이미지에 적용하는 단계;
프로세서를 통하여 이미지에 적용된 하나 이상의 알고리즘들의 결과에 근거하여 생체 시료의 분류를 생성하는 단계; 및
표시(presentation) 매체를 통하여 표시되도록 생체 시료의 분류를 전송하는 단계;
를 포함하는 것을 특징으로 하는 생체 시료를 분류하는 방법.
제 14항에 있어서,
집단은 환자들, 샘플들, 및 결과들로 이루어진 그룹으로부터 최소한 하나 이상 선택된 모음(collection)을 대표하는 것을 특징으로 하는 생체 시료를 분류하는 방법.
제 15항에 있어서,
가중치가 환자들, 샘플들, 및 결과들로 이루어진 그룹으로부터 최소한 하나 이상 선택된 하나 이상에 가중치가 적용되는 것을 특징으로 하는 생체 시료를 분류하는 방법.
분광 조직병리학(SHP) 반사율(reflectance) 적외선 마이크로-분광 이미지들의 플랫폼 독립을 수립하기 위한 방법에 있어서,
제1 이미지 생성 머신으로부터 분광 이미지를 처음으로 수신하는 단계;
분광 이미지에 근거하여 제1 이미지 생성 머신의 특성(signature) 정보를 식별하기 위하여 프로세서를 통하여 분광 이미지를 분석하는 단계; 및
제1 이미지 생성 머신과 관련한 특성 정보를 마스터 참조 데이터베이스에 저장하는 단계;
를 포함하는 것을 특징으로 하는 분광 조직병리학(SHP) 반사율 적외선 마이크로-분광 이미지들의 플랫폼 독립을 수립하기 위한 방법.
제 17항에 있어서,
분광 이미지에 근거하여 제1 이미지 생성 머신의 특성(signature) 정보를 식별하기 위하여 분광 이미지를 분석하는 단계는,
제1 이미지 생성 머신에 의하여 수집된 분광 이미지를 제2 이미지 생성 머신에 의하여 수집된 참조 이미지와 비교하는 단계; 및
분광 이미지와 관련된 제1 데이터세트와, 참조 이미지와 관련된 제2 데이터세트 간의 픽셀-대-픽셀 차를 식별하는 단계;
를 더 포함하는 것을 특징으로 하는 분광 조직병리학(SHP) 반사율 적외선 마이크로-분광 이미지들의 플랫폼 독립을 수립하기 위한 방법.
제 17항에 있어서,
분광 이미지에 근거하여 제1 이미지 생성 머신의 특성(signature) 정보를 식별하기 위하여 분광 이미지를 분석하는 단계는,
제1 이미지 생성 머신에 의하여 최초로 수집된 분광 이미지를 제1 이미지 생성 머신에 의하여 두번째로 수집된 참조 이미지와 비교하는 단계; 및
분광 이미지와 관련된 제1 데이터세트와, 제1 이미지 생성 머신에 의하여 두번째로 수집된 이미지와 관련한 제2 데이터세트 간의 픽셀-대-픽셀 차를 식별하는 단계;
를 더 포함하는 것을 특징으로 하는 분광 조직병리학(SHP) 반사율 적외선 마이크로-분광 이미지들의 플랫폼 독립을 수립하기 위한 방법.
제 19항에 있어서,
분광 이미지와 관련된 제1 데이터세트와 참조 이미지와 관련된 제2 데이터세트간의 차이에 근거하여 보정 계수(correction factor)를 분광 이미지에 적용하는 단계;
를 더 포함하는 것을 특징으로 하는 분광 조직병리학(SHP) 반사율 적외선 마이크로-분광 이미지들의 플랫폼 독립을 수립하기 위한 방법.
제 18항에 있어서,
제1 이미지 생성 머신으로부터 두번째로 수집된 생체 시료 이미지를 수신하는 단계;
제1 이미지 생성 머신과 관련되어 저장된 특성 정보에 근거하여 데이터 호환 함수를 상체 샘플 이미지에 적용하는 단계; 및
데이터 호환 함수를 생체 시료 이미지로 적용함으로써 수정된 생체 시료 이미지를 생성하는 단계;
를 더 포함하는 것을 특징으로 하는 분광 조직병리학(SHP) 반사율 적외선 마이크로-분광 이미지들의 플랫폼 독립을 수립하기 위한 방법.
생체 시료를 분류하기 위한 시스템에 있어서,
프로세서와 통신하는 메모리를 포함하고,
상기 메모리와 프로세서는,
생체 시료의 이미지를 수신하고;
데이터의 임계값을 최적화하는 것을 포함하는 하나 이상의 알고리즘들을 데이터 저장소 내의 정보에 근거하여 이미지에 적용하고;
생체 시료의 분류를 이미지에 적용된 하나 이상의 알고리즘들의 결과에 근거하여 생성하고; 및
표시(presentation) 매체를 통하여 표시되도록 생체 시료의 분류를 전송하도록 협동하여 구성되는 것을 특징으로 하는 생체 시료를 분류하기 위한 시스템.
생체 시료를 분류하기 위한 시스템에 있어서,
프로세서와 통신하는 메모리를 포함하고,
상기 메모리와 프로세서는,
생체 시료의 이미지를 수신하고;
최소 트레이닝 세트 크기를 선택하는 것을 포함하는 하나 이상의 알고리즘들을 데이터 저장소 내의 정보에 근거하여 이미지에 적용하고;
생체 시료의 분류를 이미지에 적용된 하나 이상의 알고리즘들의 결과에 근거하여 생성하고; 및
표시(presentation) 매체를 통하여 표시되도록 생체 시료의 분류를 전송하도록 협동하여 구성되는 것을 특징으로 하는 생체 시료를 분류하기 위한 시스템.
분광 조직병리학(SHP) 반사율(reflectance) 적외선 마이크로-분광 이미지들의 플랫폼 독립을 수립하기 위한 시스템에 있어서,
프로세서와 통신하는 메모리를 포함하고,
상기 메모리와 프로세서는,
제1 이미지 생성 머신으로부터 분광 이미지를 처음으로 수신하고
분광 이미지에 근거하여 제1 이미지 생성 머신의 특성(signature) 정보를 식별하기 위하여 분광 이미지를 분석하고; 및
제1 이미지 생성 머신과 관련한 특성 정보를 마스터 참조 데이터베이스에 저장하도록 협동하여 구성되는 것을 특징으로 하는 분광 조직병리학(SHP) 반사율 적외선 마이크로-분광 이미지들의 플랫폼 독립을 수립하기 위한 시스템.
제 24항에 있어서,
메모리와 프로세서는,
제1 이미지 생성 머신에 의하여 수집된 분광 이미지를 제2 이미지 생성 머신에 의하여 수집된 참조 이미지와 비교하고; 및
분광 이미지와 관련된 제1 데이터세트와, 참조 이미지와 관련된 제2 데이터세트 간의 픽셀-대-픽셀 차를 식별하도록 협동하여 더 구성되는 것을 특징으로 하는 분광 조직병리학(SHP) 반사율 적외선 마이크로-분광 이미지들의 플랫폼 독립을 수립하기 위한 시스템.
제 24항에 있어서,
메모리와 프로세서는,
제1 이미지 생성 머신에 의하여 최초로 수집된 분광 이미지를 제1 이미지 생성 머신에 의하여 두번째로 수집된 참조 이미지와 비교하고; 및
분광 이미지와 관련된 제1 데이터세트와, 제1 이미지 생성 머신에 의하여 두번째로 수집된 이미지와 관련한 제2 데이터세트 간의 픽셀-대-픽셀 차를 식별 식별하도록 협동하여 더 구성되는 것을 특징으로 하는 분광 조직병리학(SHP) 반사율 적외선 마이크로-분광 이미지들의 플랫폼 독립을 수립하기 위한 시스템.
생체 시료를 분류하기 위한 시스템에 있어서,
생체 시료의 이미지를 수신하기 위한 수신 모듈;
데이터 저장소 내의 정보에 근거하여 데이터의 임계값을 최적화하는 것을 포함하는 하나 이상의 알고리즘들을 이미지에 적용하는 선택 모듈;
이미지에 적용된 하나 이상의 알고리즘들의 결과에 근거하여 생체 시료의 분류를 생성하기 위한 생성 모듈;
표시(presentation) 매체를 통하여 표시되도록 생체 시료의 분류를 전송하는 전송 모듈;
을 포함하는 것을 특징으로 하는 생체 시료를 분류하기 위한 시스템.
생체 시료를 분류하기 위한 시스템에 있어서,
생체 시료의 이미지를 수신하기 위한 수신 모듈;
데이터 저장소 내의 정보에 근거하여 최소 트레이닝 세트 크기를 선택하는 것을 포함하는 하나 이상의 알고리즘들을 이미지에 적용하는 선택 모듈;
이미지에 적용된 하나 이상의 알고리즘들의 결과에 근거하여 생체 시료의 분류를 생성하기 위한 생성 모듈;
표시(presentation) 매체를 통하여 표시되도록 생체 시료의 분류를 전송하는 전송 모듈;
을 포함하는 것을 특징으로 하는 생체 시료를 분류하기 위한 시스템.
생체 시료를 분류하기 위한 시스템에 있어서,
생체 시료의 이미지를 수신하기 위한 수신 모듈;
데이터 저장소 내의 정보에 근거하여 집단을 선택하는 것을 포함하는 하나 이상의 알고리즘들을 이미지에 적용하는 선택 모듈;
이미지에 적용된 하나 이상의 알고리즘들의 결과에 근거하여 생체 시료의 분류를 생성하기 위한 생성 모듈;
표시(presentation) 매체를 통하여 표시되도록 생체 시료의 분류를 전송하는 전송 모듈;
을 포함하는 것을 특징으로 하는 생체 시료를 분류하기 위한 시스템.
분광 조직병리학(SHP) 반사율(reflectance) 적외선 마이크로-분광 이미지들의 플랫폼 독립을 수립하기 위한 시스템에 있어서,
제1 이미지 생성 머신으로부터 분광 이미지를 처음으로 수신하는 수신 모듈; 및
분광 이미지에 근거하여 제1 이미지 생성 머신의 특성(signature) 정보를 식별하기 위하여 프로세서를 통하여 분광 이미지를 분석하고, 제1 이미지 생성 머신과 관련한 특성 정보를 마스터 참조 데이터베이스에 저장하는 바이어스 보정 모듈;
을 포함하는 것을 특징으로 하는 분광 조직병리학(SHP) 반사율 적외선 마이크로-분광 이미지들의 플랫폼 독립을 수립하기 위한 시스템.
컴퓨터 프로그램 제품에 있어서,
컴퓨터-판독가능 매체를 포함하고,
컴퓨터-판독가능 매체는,
컴퓨터가 생체 시료의 이미지를 수신하도록 하기 위한 최소한 하나의 제1명령;
컴퓨터가 데이터의 임계값을 최적화하는 것을 포함하는 하나 이상의 알고리즘들을 데이터 저장소 내의 정보에 근거하여 이미지에 적용하도록 하는 최소한 하나의 제2명령;
컴퓨터가 생체 시료의 분류를 이미지에 적용된 하나 이상의 알고리즘들의 결과에 근거하여 생성하도록 하는 최소한 하나의 제3명령; 및
컴퓨터가 표시(presentation) 매체를 통하여 표시되도록 생체 시료의 분류를 전송하도록 하는 최소한 하나의 제4명령을 포함하는 것을 특징으로 하는 컴퓨터 프로그램 제품.
컴퓨터 프로그램 제품에 있어서,
컴퓨터-판독가능 매체를 포함하고,
컴퓨터-판독가능 매체는,
컴퓨터가 생체 시료의 이미지를 수신하도록 하기 위한 최소한 하나의 제1명령;
컴퓨터가 최소 트레이닝 세트 크기를 선택하는 것을 포함하는 하나 이상의 알고리즘들을 데이터 저장소 내의 정보에 근거하여 이미지에 적용하도록 하는 최소한 하나의 제2명령;
컴퓨터가 생체 시료의 분류를 이미지에 적용된 하나 이상의 알고리즘들의 결과에 근거하여 생성하도록 하는 최소한 하나의 제3명령; 및
컴퓨터가 표시(presentation) 매체를 통하여 표시되도록 생체 시료의 분류를 전송하도록 하는 최소한 하나의 제4명령을 포함하는 것을 특징으로 하는 컴퓨터 프로그램 제품.
컴퓨터 프로그램 제품에 있어서,
컴퓨터-판독가능 매체를 포함하고,
컴퓨터-판독가능 매체는,
컴퓨터가 생체 시료의 이미지를 수신하도록 하기 위한 최소한 하나의 제1명령;
컴퓨터가 집단을 선택하는 것을 포함하는 하나 이상의 알고리즘들을 데이터 저장소 내의 정보에 근거하여 이미지에 적용하도록 하는 최소한 하나의 제2명령;
컴퓨터가 생체 시료의 분류를 이미지에 적용된 하나 이상의 알고리즘들의 결과에 근거하여 생성하도록 하는 최소한 하나의 제3명령; 및
컴퓨터가 표시(presentation) 매체를 통하여 표시되도록 생체 시료의 분류를 전송하도록 하는 최소한 하나의 제4명령을 포함하는 것을 특징으로 하는 컴퓨터 프로그램 제품.
제 33항에 있어서,
표시 매체는 디스플레이인 것을 특징으로 하는 컴퓨터 프로그램 제품.
컴퓨터 프로그램 제품에 있어서,
컴퓨터-판독가능 매체를 포함하고,
컴퓨터-판독가능 매체는,
컴퓨터가 제1 이미지 생성 머신으로부터 분광 이미지를 처음으로 수신하도록 하기 위한 최소한 하나의 제1명령;
컴퓨터가 분광 이미지에 근거하여 제1 이미지 생성 머신의 특성(signature) 정보를 식별하기 위하여 프로세서를 통하여 분광 이미지를 분석하도록 하는 최소한 하나의 제2명령; 및
컴퓨터가 제1 이미지 생성 머신과 관련한 특성 정보를 마스터 참조 데이터베이스에 저장하도록 하는 최소한 하나의 제3명령을 포함하는 것을 특징으로 하는 컴퓨터 프로그램 제품.