KR102170297B1 - 조직병리체학 데이터의 해석 정보를 제공하는 방법 및 시스템 - Google Patents

조직병리체학 데이터의 해석 정보를 제공하는 방법 및 시스템 Download PDF

Info

Publication number
KR102170297B1
KR102170297B1 KR1020190168111A KR20190168111A KR102170297B1 KR 102170297 B1 KR102170297 B1 KR 102170297B1 KR 1020190168111 A KR1020190168111 A KR 1020190168111A KR 20190168111 A KR20190168111 A KR 20190168111A KR 102170297 B1 KR102170297 B1 KR 102170297B1
Authority
KR
South Korea
Prior art keywords
gene
information
data
module
histopathology
Prior art date
Application number
KR1020190168111A
Other languages
English (en)
Inventor
이정훈
Original Assignee
주식회사 루닛
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 루닛 filed Critical 주식회사 루닛
Priority to KR1020190168111A priority Critical patent/KR102170297B1/ko
Priority to US16/832,142 priority patent/US20210183524A1/en
Application granted granted Critical
Publication of KR102170297B1 publication Critical patent/KR102170297B1/ko
Priority to PCT/KR2020/018348 priority patent/WO2021125744A1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/20ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/60ICT specially adapted for the handling or processing of medical references relating to pathologies
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Physiology (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

적어도 하나의 프로세서에 의해 동작하는 컴퓨팅 장치의 동작 방법으로서, 환자들의 슬라이드 이미지들로부터 분석된 조직병리체학 데이터(pathomics) 샘플들, 그리고 상기 환자들의 유전자 샘플들을 입력받는 단계, 상기 유전자 샘플들에 포함된 유전자 정보를 그룹핑하여 복수의 유전자 모듈들을 생성하는 단계, 각 유전자 모듈에 유의하게 농축된(enriched) 데이터베이스들의 정보를 해당 유전자 모듈에 어노테이션하는 단계, 상기 조직병리체학 데이터 샘플들을 대표하는 복수의 개별 조직병리체학 데이터와 상기 복수의 유전자 모듈들의 일대일 상관 관계값을 기초로, 상기 복수의 개별 조직병리체학 데이터와 상기 복수의 유전자 모듈의 연결 관계를 추출하는 단계, 그리고 각 유전자 모듈에 어노테이션된 정보를 해당 유전자 모듈에 연결된 개별 조직병리체학 데이터에 연결하는 단계를 포함한다.

Description

조직병리체학 데이터의 해석 정보를 제공하는 방법 및 시스템{METHOD AND SYSTEM FOR PROVIDING INTERPRETATION INFORMATION ON PATHOMICS DATA}
본 발명은 디지털병리(Digital Pathology)에 관한 것이다.
mRNA나 단백질(protein) 등의 다양한 분자(Molecular) 마커를 통해, 환자의 질병 여부, 질병 상태 등을 알아내기 위한 연구가 진행되고 있다. 최근에는 질병 상태를 더 정확하고 일관되게 판별할 수 있는 바이오마커를 찾기 위해, 질병 상태별 다양한 오믹스 데이터를 활용하여 특이적 패턴을 보이는 분자 마커 발굴이 연구되고 있다.
한편, 병리학(Pathology)은 병을 일으킨 신체의 조직이나 기관의 기질적 변화 및 기능적 변화를 연구하는 학문이다. 병리학은 인체로부터 채취된 조직이나 세포를 유리슬라이드에 얹어서 광학현미경으로 관찰하는 전통적인 병리에서 디지털 병리(Digital Pathology)로 빠르게 변화하고 있다.
디지털 병리(Digital Pathology)는 유리슬라이드를 디지털 이미지로 변환하고, 디지털 이미지를 분석, 보관, 관리하는 체계를 의미한다. 유리슬라이드를 디지털 이미지로 변환하는 방법은, 유리슬라이드 내용의 일부 또는 전부를 높은 배율로 스캐닝하여 디지털화하는 전체슬라이드이미징(whole slide imaging, WSI) 방식이 사용될 수 있다.
전체슬라이드이미징을 통해 얻는 슬라이드 이미지는 세포단위에서 볼 수 있는 다량의 시각적 정보를 제공하므로, 진단의학의 중요 데이터로 사용된다. 최근 Lunit SCOPE와 같은 인공지능 병리 분석기가 개발되었고, 이를 통해 슬라이드 이미지를 분석할 경우, 조직 세포의 포괄적인 분석이 가능하고, 그 동안 활용되지 못했던 대량의 데이터를 활용 가능한 형태로 생성할 수 있다. 특히, Lunit SCOPE는 슬라이드 이미지로부터, 세포의 분류, 조직의 분류, 구조의 분류를 통해 "Pathomics"라는 데이터를 생성할 수 있다. Pathomics는 Pathology slide 이미지에서 나오는 모든 조직학적 요소(histologic component)의 정보를 담고 있는 조직병리체학 데이터를 의미한다. 조직병리체학 분석을 통해 슬라이드 이미지에서 추출된 특징들(features)은 예후예측, 항암제의 반응성 예측, 임상결정을 위한 바이오마커로 사용될 수 있다.
한편, 조직병리체학 데이터가 많은 정보를 담고 있더라도, 임상에서 사용되기 위해서는 생물학적 및/또는 의학적으로 설명 및 해석이 가능해야 한다. 하지만, 지금까지 조직병리체학 기술은 슬라이드 이미지에서 추출된 결과물(조직병리체학 데이터)을 생물학 및 의학 기반으로 해석하고, 슬라이드 이미지에서 추출된 결과물이 가지는 생물학적 의미와 의학적 의미를 제공하지 않는다. 따라서, 사용자는 인공지능 슬라이드 이미지 분석기에서 추출된 특징들을 이해하기 어려울 수 있다. 또한, 슬라이드 이미지에서 추출된 특징이 가지는 생물학적 정보와 의학적 정보의 부재로, 인공지능 병리 분석기의 신뢰도 평가 수단이 마련되지 못하는 한계가 있다.
한국등록특허 10-1889722 악성 종양 진단 방법 및 장치
해결하고자 하는 과제는 슬라이드 이미지로부터 추출되는 조직병리체학 데이터(Pathomics data)의 생물학적 및/또는 의학적 해석 정보를 제공하는 방법 및 시스템을 제공하는 것이다.
해결하고자 하는 과제는 조직병리체학 데이터와 모듈화된 유전자 정보 사이의 관련성을 분석하고, 조직병리체학 데이터에 관련된 유전자 모듈의 기능(function)을 이용하여 조직병리체학 데이터의 생물학적 및/또는 의학적 해석 정보를 제공하는 방법 및 시스템을 제공하는 것이다.
해결하고자 하는 과제는 조직병리체학 데이터의 생물학적 및/또는 의학적 해석 정보를 시각적으로 표시하는 방법 및 시스템을 제공하는 것이다.
한 실시예에 따라 적어도 하나의 프로세서에 의해 동작하는 컴퓨팅 장치의 동작 방법으로서, 환자들의 슬라이드 이미지들로부터 분석된 조직병리체학 데이터(pathomics) 샘플들, 그리고 상기 환자들의 유전자 샘플들을 입력받는 단계, 상기 유전자 샘플들에 포함된 유전자 정보를 그룹핑하여 복수의 유전자 모듈들을 생성하는 단계, 각 유전자 모듈에 유의하게 농축된(enriched) 데이터베이스들의 정보를 해당 유전자 모듈에 어노테이션하는 단계, 상기 조직병리체학 데이터 샘플들을 대표하는 복수의 개별 조직병리체학 데이터와 상기 복수의 유전자 모듈들의 일대일 상관 관계값을 기초로, 상기 복수의 개별 조직병리체학 데이터와 상기 복수의 유전자 모듈의 연결 관계를 추출하는 단계, 그리고 각 유전자 모듈에 어노테이션된 정보를 해당 유전자 모듈에 연결된 개별 조직병리체학 데이터에 연결하는 단계를 포함한다.
상기 복수의 유전자 모듈들을 생성하는 단계는 상기 유전자 샘플들에 포함된 RNA들 및/또는 단백질들의 상관관계를 기초로, 상기 RNA들 및/또는 단백질들을 상기 복수의 유전자 모듈들로 모듈화할 수 있다.
각 유전자 샘플은 상기 RNA들 및/또는 단백질들을 전사체 분석 방법 및/또는 단백질체 분석 방법으로 측정한 정량 데이터를 포함할 수 있다.
상기 데이터베이스들은 생물학적으로 발견된 유전자와 기능(function)의 관계정보, 경로 및 상호작용(interaction) 정보를 포함하는 유전자 특성 정보, 그리고 의약학 정보를 제공하는 데이터베이스들 중에서 선택될 수 있다.
상기 어노테이션하는 단계는 농축분석(Enrichment Analysis)을 통해 상기 각 유전자 모듈에 유의하게 농축된 상기 데이터베이스들의 정보를 결정할 수 있다.
상기 연결 관계를 추출하는 단계는 상기 각 유전자 모듈의 값을 지정된 방식으로 축약하고, 축약된 각 유전자 모듈의 값을 이용하여 각 유전자 모듈과 각 개별 조직병리체학 데이터의 관계 유무를 결정할 수 있다.
상기 동작 방법은 상기 각 유전자 모듈에 어노테이션된 정보를 해당 유전자 모듈에 연결된 개별 조직병리체학 데이터의 해석 정보로 제공하는 단계를 더 포함할 수 있다.
상기 개별 조직병리체학 데이터는 병리 이미지의 세포 정보 및 구조 정보를 나타내는 파라미터이고, 상기 개별 조직병리체학 데이터의 값은 상기 조직병리체학 데이터 샘플들에서 해당 파라미터가 가지는 정량 데이터의 대표값으로 결정될 수 있다.
한 실시예에 따른 컴퓨팅 장치로서, 메모리, 그리고 상기 메모리에 로드된 프로그램의 명령들(instructions)을 실행하는 적어도 하나의 프로세서를 포함하고, 상기 프로세서는, 환자들의 유전자 정보를 그룹핑하여 복수의 유전자 모듈들을 생성하고, 상기 복수의 유전자 모듈들 중에서 조직병리체학 데이터와 상관 관계가 있는 유전자 모듈을 결정하며, 각 유전자 모듈에 유의하게 농축된(enriched) 데이터베이스들의 정보를 해당 유전자 모듈과 상관 관계가 있는 조직병리체학 데이터에 연결한다. 상기 조직병리체학 데이터는 병리 이미지들의 세포 정보 및 구조 정보를 나타내는 파라미터들로 구성되고, 각 파라미터는 정량 데이터로 표현되며, 상기 병리 이미지들은 상기 유전자 정보를 제공한 상기 환자들로부터 획득된 정보이다.
상기 프로세서는 상기 유전자 정보에 포함된 RNA들 및/또는 단백질들의 상관관계를 기초로, 상기 RNA들 및/또는 단백질들을 상기 복수의 유전자 모듈들로 모듈화할 수 있다.
상기 프로세서는 농축분석(Enrichment Analysis)을 통해, 상기 각 유전자 모듈에서 유의하게 농축된 상기 데이터베이스들의 정보를 결정할 수 있다.
상기 프로세서는 상기 각 유전자 모듈의 값을 지정된 방식으로 축약하고, 축약된 각 유전자 모듈의 값을 이용하여 각 유전자 모듈과 상기 조직병리체학 데이터에 포함된 개별 조직병리체학 데이터의 상관 관계값을 계산하고, 상기 상관 관계값이 임계값 이상인 유전자 모듈과 개별 조직병리체학 데이터의 관계를 형성할 수 있다.
상기 프로세서는 상기 각 유전자 모듈에 유의하게 농축된 데이터베이스들의 정보를 해당 유전자 모듈에 어노테이션하고, 각 유전자 모듈에 어노테이션된 정보를 해당 유전자 모듈에 연결된 조직병리체학 데이터의 해석 정보로 제공할 수 있다.
한 실시예에 따라 컴퓨팅 장치에 의해 실행되고, 컴퓨터 판독 가능한 저장매체에 저장되는 프로그램으로서, 환자들의 유전자 정보를 그룹핑하여 복수의 유전자 모듈들을 생성하는 단계, 각 유전자 모듈에서 유의하게 농축된(enriched) 데이터베이스들의 정보를 해당 유전자 모듈에 어노테이션하는 단계, 조직병리체학 데이터와 상기 복수의 유전자 모듈들의 상관 관계값을 기초로, 상기 조직병리체학 데이터와 상관 관계가 있는 유전자 모듈을 결정하는 단계, 그리고 상기 상관 관계값을 기초로 추출된 상기 조직병리체학 데이터와 상기 복수의 유전자 모듈들의 연결 관계, 그리고 각 유전자 모듈에 어노테이션된 정보를 저장하는 단계를 실행하는 명령들을 포함한다. 상기 조직병리체학 데이터는 병리 이미지들의 세포 정보 및 구조 정보를 나타내는 파라미터들로 구성되고, 각 파라미터는 정량 데이터로 표현되며, 상기 병리 이미지들은 상기 유전자 정보를 제공한 상기 환자들로부터 획득된 정보일 수 있다.
상기 어노테이션하는 단계는 농축분석(Enrichment Analysis)을 통해, 각 유전자 모듈에서 유의하게 농축된 상기 데이터베이스들의 정보를 결정하고, 각 유전자 모듈에 유의하게 농축된 데이터베이스들의 정보를 해당 유전자 모듈에 어노테이션하는 것을 특징으로 할 수 있다.
상기 프로그램은 상기 조직병리체학 데이터와 상기 복수의 유전자 모듈들의 연결 관계를 기초로 상기 각 유전자 모듈에 어노테이션된 정보를 상기 조직병리체학 데이터의 해석 정보로 제공하는 단계를 실행하는 명령들을 더 포함할 수 있다.
실시예에 따르면 슬라이드 이미지에서 추출된 조직병리체학 데이터에 대한 해석 정보를 제공함으로써, 조직병리체학 데이터의 생물학적 의미와 의학적 의미를 해석하고 추론할 수 있다.
실시예에 따르면 생물학적 및/또는 의학적 해석이 가능한 조직병리체학 데이터의 활용성을 높일 수 있고, 슬라이드 이미지로부터 추출된 특징들의 해석을 통해 예후예측, 항암제의 반응성 예측, 임상결정을 위한 바이오마커 발굴에 기여할 수 있다.
실시예에 따르면 조직병리체학 데이터와 이에 연결된 생물학적 및/또는 의학적 정보를 제공함으로써, 인공지능 병리 분석기의 성능에 대한 신뢰 근거를 제공할 수 있다.
도 1은 한 실시예에 따른 인공지능 병리 분석기를 설명하는 도면이다.
도 2는 한 실시예에 따른 조직병리체학 데이터의 해석 정보를 제공하는 시스템의 구성도이다.
도 3은 한 실시예에 따른 조직병리체학 데이터와 유전자 모듈 연결을 위한 관계 분석 결과의 예시이다.
도 4는 한 실시예에 따른 조직병리체학 데이터와 유전자 모듈의 연결 관계를 시각적으로 나타낸 도면이다.
도 5와 도 6은 black 컬러명으로 코드화된 유전자 모듈에 대한 농축분석 결과의 예시이다.
도 7과 도 8은 yellow 컬러명으로 코드화된 유전자 모듈에 대한 농축분석 결과의 예시이다.
도 9는 한 실시예에 따른 해석 정보가 시각적으로 표시되는 인터페이스 화면의 예시이다.
도 10은 한 실시예에 따른 조직병리체학 데이터의 해석 정보 제공 방법의 흐름도이다.
도 11은 한 실시예에 따른 컴퓨팅 장치의 하드웨어 구성도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
지금까지 조직병리체학 데이터(주로, 세포 수)를 해석하기 위한 연구는 주로, 단일 유전자와의 상관관계 분석을 통해 조직병리체학 데이터의 의미를 추론하는 연구가 대부분인데, 상관성을 정의하기 위해 임의의 많은 조건들을 사용하고 있다. 그런데, 조직병리체학 데이터와 유전자의 상관관계 분석은 다음과 같은 문제가 있다. 첫째, 약 2만개에 해당되는 유전자들 중, 연관된 유전자를 정의할 수 있는 임계값 설정이 어렵다. 둘째, 조직병리체학 데이터에 존재하는 각 tissue type/cell type에 따라 생성되는 변수들에 대해 생물학적인 의미를 부여하기 어려워, 결국 tissue type/cell type 세포를 해석할 수 없다. 셋째, 기존에 알려진 질병 메커니즘, 약물반응성 등의 clinical knowledge를 조직병리체학 데이터에 연관짓기 어렵다.
다음에서, 다양한 종류의 조직병리체학 데이터를 유전자 정보에 연관시키고, 이를 통해 다양한 조직병리체학 데이터에 생물학적 및/또는 의학적 해석 정보를 어노테이션하는 방법에 대해 설명한다. 먼저, 생물학적 및/또는 의학적 해석 정보를 어노테이션하는 데 이용될 수 있는 일부 데이터베이스에 대해 설명한다.
Gene Ontology의 생물학적 과정 용어(Biological Process term)가 이용될 수 있다. 생물학적 과정은 유기체가 특정 생물학적 목적을 달성하도록 유전적으로 프로그램된 과정을 뜻한다. 생물학적 과정은 예를 들어 세포 분열로 인해, 단일 모세포에서부터 두 개의 딸 세포가 생성되기까지의 전체 과정이다.
Gene Ontology의 분자 기능 용어(Molecular function term)가 이용될 수 있다. 분자 기능 용어는, 분자 수준에서 발생할 수 있는 촉매 작용, 결합, 생물학적 활성, 속도 등을 조절하는 모든 과정에 해당되는 기능들을 서술한다.
KEGG Pathway는 분자들의 상호 작용, 반응 그리고 그들의 관계 네트워크에 관한 지식들에 대하여 설명하는 경로지도를 그린 데이터베이스이다. KEGG Pathway는 대표적으로 7가지에 해당되는 생물/의학적 메커니즘을 pathway map 형태로 제공한다. KEGG Pathway는 Metabolism, Genetic information processing, Environmental information processing, Cellular processes, Organismal systems, Human diseases, Drug development에 대한 내용을 담고 있으며, 각 category 아래 하위집합에 대하여 분자 네트워크의 pathway map을 포함한다.
BIOCARTA는 분자들의 상호 작용, 반응 등의 관계에 대한 데이터베이스이다. BIOCARTA는 KEGG Pathway처럼, 분자들간의 관계를 통해 특정 메커니즘을 소개하는 데이터베이스이다.
GAD(Genetic Association Database)는 질병과 유전체의 관계데이터베이스이다. GAD는 공개된 유전자 연관 연구의 데이터베이스로서, 인간 유전자 연관 연구 (Human-genetic association studies)를 위해 질병, 유전체, 유전자, 변이에 대한 생물/의학적 정보를 담는 데이터베이스이다. 따라서 유전자단위로 정보를 축약하여, 질병과 유전자의 관계로 데이터베이스를 변형할 수 있고, 최종적으로 본 발명의 결과물인 모듈과 기능 농축분석(functional enrichment analysis)을 수행할 수 있다.
OMIM(Online Mendelian Inheritance in Man)은 인간 유전자 및 유전자 장애 데이터베이스이다. OMIM은 Mendelian disease와 같이, 유전적으로 발생하는 모든 질병에 관한 정보를 담는 데이터베이스고, 질병과 Module, 그리고 Module과 histologic component와의 상관관계를 통하여 질병과 histologic component의 관계를 정의할 수 있다.
UniProt Keywords는 단백질과 관계된 키워드들에 대한 데이터베이스이다. UniProt Keywords는 단백질에 대하여 데이터베이스로 구축 되어있는 키워드에는 10가지의 하위 분류가 존재하는데 그 종류는 Biological process, Cellular component, Coding sequence diversity, Developmental stage, Disease, Domain, Ligand, Molecular function, Post-translational modification, Technical term 이다. 각 단백질은 유전자의 산물로, 다수의 단백질을 특정 유전자로 축약할 수 있다. 즉 UnitProt 키워드는 특정 유전자를 설명하는 키워드로 치환할 수 있는데, 이를 통해 모듈과의 기능 농축분석을 수행할 수 있다.
UniProt Tissue specificity는 세포 또는 다세포 유기체의 조직에서 mRNA 또는 단백질 수준에서 유전자의 발현에 대한 정보를 제공하는 데이터베이스이다. UniProt Tissue specificity는 유전자가 발현하는 특정한 Tissue에 대한 정보를 담는 데이터베이스로, 각 모듈이 특별히 발현되는 조직에 대한 정보를 얻을 수 있다.
도 1은 한 실시예에 따른 인공지능 병리 분석기를 설명하는 도면이다.
도 1을 참고하면, 인공지능 병리 분석기(10)는 진단 대상 조직을 전체슬라이드이미징(whole slide imaging, WSI) 기술로 스캐닝한 슬라이드 이미지(1)를 입력받고, 슬라이드 이미지(1)로부터 각종 조직병리체학 데이터(Pathomics data)(2)를 추출하도록 학습된 컴퓨팅 장치이다. 슬라이드 이미지(1)는 환자의 원발성 종양으로부터 생체 검사나 수술을 통해 얻은 조직의 단면을 나타내고, 병리 이미지라고 부를 수 있다. 조직병리체학 데이터(2)는 인공지능 병리 분석기(10)에서 슬라이드 이미지(1)의 세포 분류, 조직 분류, 구조 분류를 통해 획득된 정보를 포함한다.
슬라이드 이미지는 인공지능 병리 분석기(10)의 입력 조건에 맞게 제작된다. 슬라이드 이미지는 유리슬라이드를 전체슬라이드이미징을 통해 디지털 이미지로 변환한 것이다. 유리슬라이드 제작을 위한 생검 방법은 다양할 수 있고, 예를 들면, Needle biopsy, Surgical biopsy, Aspiration biopsy, Skin biopsy, Prostate biopsy, Kidney biopsy, Liver biopsy, Bone marrow biopsy, Bone biopsy, CT-guided biopsy, Ultrasound-guided biopsy 등으로 생검 방법에 제한이 없다.
인공지능 병리 분석기(10)는 다양한 종류의 슬라이드 이미지들로 학습되고, 다양한 암 종류에 대한 인공지능 분석 데이터 그리고 추출된 특징들을 개수/총량 등으로 수치화한 정량 데이터를 조직병리체학 데이터로 출력할 수 있다. 예를 들면, 조직병리체학 데이터는 암 상피(cancer epithelial) 및 암 기질(cancer stroma)에 위치한 면역세포(Lymphoplasma cell)의 수, 암 상피(cancer epithelial) 및 암 기질(cancer stroma)의 총량 등으로 수치화될 수 있다.
구체적으로, 조직병리체학 데이터는 암 상피(cancer epithelial), 암 기질(cancer stroma), 정상 상피(normal epithelial), 정상 기질(normal stroma), 괴사(necrosis), 지방(fat), 배경(background) 등의 슬라이드 이미지 내 지역정보에 대한 특징을 포함할 수 있다. 조직병리체학 데이터는 슬라이드 이미지 내 세포들을 구조적/조직적으로 분류한 세포 분류 데이터, 그리고 수치화된 정량 데이터를 포함할 수 있다. 세포의 종류는 예를 들면, 퇴행성 및 괴사성 종양 세포(Degenerated & necrotic tumor cell), 내피 세포 및 혈관 주위 세포(Endothelial cell and pericyte), 유사분열세포(Mitosis), 대식세포(Macrophage), 임파선세포(Lymphoplasma cell), 섬유아세포(Fibroblast) 등으로 다양할 수 있다. 조직병리체학 데이터는 특정 암 종류에 대한 특징을 포함할 수 있고, 예를 들면, 유방암 세포의 비정상을 나타내는 핵 등급 1(Nuclear grade 1), 핵 등급 2(Nuclear grade 2), 핵 등급 3(Nuclear grade 3), 튜블 형성 수(Tubule formation count), 튜블 형성 영역(Tubule formation area), 유관상피내암 수[DCIS(ductal carcinoma in situ) count], 유관상피내암 영역(DCIS area) 등의 특징을 포함할 수 있다. 이외에도 조직병리체학 데이터는 신경 수(Nerve count), 신경 영역(Nerve area) 혈관 수(Blood vessel count), 혈관 영역(Blood vessel area) 등을 포함할 수 있다.
인공지능 병리 분석기(10)는 이미지로부터 유의미한 특징들(features)을 추출할 수 있는 기계 학습 모델을 통해 구현될 수 있다. 인공지능 병리 분석기(10)는 진단 종류(예를 들면, 암 종류)에 따라 별도로 학습된 모델들을 포함할 수 있다. 예를 들면, 인공지능 병리 분석기(10)는 컨볼루션 뉴럴 네트워크(Convolutional neural network), 그래프 뉴럴 네트워크(Graph neural network) 등 딥러닝(Deep learning) 기반 학습 모델로 구현될 수 있다. 또는, 인공지능 병리 분석기(10)는 서포트벡터머신(support vector machine, SVM), 랜덤포레스트(Random Forest), 회귀 모델(Regression) 등 상대적으로 간단한 분류 모델로 구현될 수 있다. 당연히, 인공지능 병리 분석기(10)는 다양한 기계 학습 모델들이 결합되어 구현될 수 있다.
도 2는 한 실시예에 따른 조직병리체학 데이터의 해석 정보를 제공하는 시스템의 구성도이다.
도 2를 참고하면, 조직병리체학 데이터의 해석 정보를 제공하는 시스템(간단히, "해석 정보 제공 시스템"이라고 부른다)(100)은 슬라이드 이미지로부터 추출되는 조직병리체학 데이터의 생물학적 및/또는 의학적 해석 정보를 제공한다. 해석 정보 제공 시스템(100)은 도 1의 인공지능 병리 분석기(10)를 포함할 수 있으나, 설명에서는 인공지능 병리 분석기(10)로부터 출력된 조직병리체학 데이터를 입력받는 것으로 설명한다. 해석 정보 제공 시스템(100)은 인공지능 병리 분석기(10)와 독립적으로 동작하고, 다양한 종류의 외부 인공지능 병리 분석기와 연동하여 외부 인공지능 병리 분석기에 대한 해석 정보를 제공할 수 있다.
해석 정보 제공 시스템(100)은 조직병리체학 데이터 관리기(110), 유전자 정보 관리기(120), 유전자 모듈 생성기(130), 조직병리체학 데이터와 유전자 모듈 연결기(간단히, "연결기"라고 부른다)(150), 그리고 해석 정보 생성기(170)를 포함한다. 설명을 위해, 조직병리체학 데이터 관리기(110), 유전자 정보 관리기(120), 유전자 모듈 생성기(130), 연결기(150), 그리고 해석 정보 생성기(170)로 명명하여 부르나, 이들은 적어도 하나의 프로세서에 의해 동작하는 컴퓨팅 장치이다. 여기서, 조직병리체학 데이터 관리기(110), 유전자 정보 관리기(120), 유전자 모듈 생성기(130), 연결기(150), 그리고 해석 정보 생성기(170)는 하나의 컴퓨팅 장치에 구현되거나, 별도의 컴퓨팅 장치에 분산 구현될 수 있다. 별도의 컴퓨팅 장치에 분산 구현된 경우, 통신 인터페이스를 통해 서로 통신할 수 있다. 컴퓨팅 장치는 본 발명을 수행하도록 작성된 소프트웨어 프로그램을 실행할 수 있는 장치이면 충분하다.
해석 정보 제공 시스템(100)은 유전자 모듈 생성기(130), 연결기(150), 그리고 해석 정보 생성기(170)에서 요구되는 각종 데이터베이스(200)와 연동한다. 각종 데이터베이스(200)는 지식 데이터베이스(knowledge database) 및 문헌(literature) 데이터베이스를 포함한다. 각종 데이터베이스는 생물학적으로 발견된 유전자와 기능(function)의 관계정보, 경로 및 상호작용(interaction) 정보 등의 유전자 특성 정보를 포함하는 생물학적 데이터베이스, 그리고 생화학, 의학, 약학 등 의료 분야에서 활용되는 의학적 데이터베이스 등을 포함할 수 있다.
유전자 특성 정보를 제공하는 생물학적 데이터베이스는 예를 들어, Protein-protein interaction(PPI) Network, gene co-expression network, gene regulatory network, metabolic network, system biology database, protein-protein interaction database, gene ontology database, gene-gene interaction database, synthetic biology database, genetic interaction database, GSEA(gene set enrichment analysis), KEGG Pathway, BIOCARTA, UniProt Keywords, UniProt Tissue specificity 등을 포함할 수 있다.
의학적 데이터베이스는 바이오메디컬(Biomedical) 분야에서 활용되는 데이터베이스일 수 있고, 예를 들어, chemical interaction database, disease-gene database, gene-drug database, gene-phenotype database, pharmaco-genomics database, gene-pharmacokinetic database, gene-pharmacodynamics database, drug-drug database, biological pathway database, UniProt protein database, protein domain, protein interaction, tissue expression, GAD(Genetic Association Database), OMIM(Online Mendelian Inheritance in Man) 등을 포함할 수 있다. 의학적 데이터베이스는 유전자 및 단백질을 군집화할 수 있는 지식 데이터베이스 및 문헌을 포함할 수 있다.
이외에도, 데이터베이스는, Uniprot Sequence Feature (UP_SEQ_FEATURE), NCBI's COG database (COG_ONTOLOGY), PUBMED Literature ID, REACTOME Pathways, Biological Biochemical Image Database (BBID), EMBL-EBI InterPro, EMBL-EBI IntAct, Simple Modular Architecture Research Tool (SMART), Protein Information Resource (PIR), BIOGRID Database 등이 이용될 수 있다.
해석 정보 제공 시스템(100)은 환자의 조직병리체학 데이터(2)와 유전자 정보(3)가 페어링된 분석 데이터를 입력받는다. 조직병리체학 데이터(2)는 조직병리체학 데이터 관리기(110)로 입력되는 원시(raw) 데이터이다. 유전자 정보(3)는 유전자 정보 관리기(120)로 입력되는 원시(raw) 데이터이다.
조직병리체학 데이터(2)는 도 1과 같이, 환자의 슬라이드 이미지(1)를 입력받은 인공지능 병리 분석기(10)로부터 출력된 데이터이다. 이렇게, 해석 정보 제공 시스템(100)은 다수의 환자들의 샘플들을 입력받는데, 조직병리체학 데이터 샘플과 유전자 정보 샘플이 페어링되어 있다. 해석 정보 제공 시스템(100)은 환자군 코호트(patients cohort)의 조직병리체학 데이터와 유전자 정보를 입력받는다고 가정한다. 환자군 코호트는 특정 질병으로 진단받은 환자 집단을 의미하고, 동종 질환 환자들의 조직병리체학 데이터와 유전자 정보가 사용된다.
유전자 정보(3)는 전사체, 단백질체 등으로 정량되는 생물 정보이다. 예를 들면, 유전자 정보(3)는 유전자의 발현 산물들인 RNA 정보 및/또는 단백질(protein) 정보를 포함하고, 설명에서는 RNA와 단백질을 구분하여 설명하지 않을 수 있다. 유전자 정보(3)는 RNA 및/또는 단백질의 정량데이터를 포함할 수 있다. 유전자 정보 관리기(120)가 유전자 모듈 생성기(130)의 입력 조건에 맞게 유전자 정보를 생성하거나, 입력된 유전자 정보를 수정할 수 있다. 유전자 정보(3)는 유전자 모듈 생성기(130)에 의해 특정 기능을 가지는 유전자/단백질 집합으로 생성될 수 있다.
RNA의 정량데이터는 유전자가 mRNA 상태로 발현된 양을 수치적으로 측정한 데이터일 수 있다. RNA 정량데이터는 발현된 RNA를 측정하는 전사체 분석 방법(transcriptomics)으로 얻을 수 있다. 전사체 분석 방법으로 예를 들면, PCR(Polymerase chain reaction), qPCR(Real-time PCR), Microarray, NGS RNA sequencing, Targeted RNA seqeuencing 등이 사용될 수 있다.
단백질 정량데이터는 기능을 갖는 단백질의 발현을 수치적으로 측정한 데이터이다. 단백질 정량데이터는 단백질체 분석 방법(proteomics)으로 얻을 수 있다. 단백질체 분석 방법으로 예를 들면, Reverse Phase Protein Array(RPPA), Mass Spectrometry, protein 정량을 위한 blotting 기법 등이 사용될 수 있다.
조직병리체학 데이터(2)는 슬라이드 이미지에 포함된 조직 및 세포 정보를 수치적으로 정량화한 데이터를 포함한다. 즉, 조직병리체학 데이터는 세포, 조직, 구조에서 카운트된 세포 수나 픽셀 수 등으로 정량화된 값이다.
Lunit SCOPE에서 출력되는 조직병리체학 데이터는 예를 들면, 표 1과 같이, 코드화되어 있을 수 있다. CE는 암 상피(cancer epithelial), CS는 암 기질(cancer stroma)을 의미할 수 있다. 각 코드는 조직/세포의 명칭을 줄여서 만들어질 수 있다. 예를 들면, CE는 Cancer epithelium, CS는 Cancer stroma, NE는 Normal epithelium, NS는 Normal stroma, N는 Necrosis, F는 Fat, PC는 Endothelial cell and pericyte, MTS는 Mitosis, MA는 Macrophage, TIL는 Lymphoplasma cell, FB는 Fibroblast, N1는 Nuclear grade 1, N2는 Nuclear grade 2, N3는 Nuclear grade 3, TB는 Tubule formation, DCIS는 DCIS (Ductal carcinoma in situ), NV는 Nerve, BV는 Blood Vessel를 의미한다. PER는 Percentage, DEN은 Density를 의미한다. 각 코드를 통해 데이터들이 어떤 의미를 지니는지 해석할 수 있다.
NO Pathomics 설명
P1 CE_PER 전체 이미지 영역에 존재하는 세포 수에 대한 Cancer epithelium에 해당하는 세포의 Percentage
P2 CS_PER 전체 이미지 영역에 존재하는 세포 수에 대한 Cancer stroma에 해당하는 세포의 Percentage
P3 NE_PER 전체 이미지 영역에 존재하는 세포 수에 대한 Normal epithelium에 해당하는 세포의 Percentage
P4 NS_PER 전체 이미지 영역에 존재하는 세포 수에 대한 Normal stroma에 해당하는 세포의 Percentage
P5 CE_PC_PER Cancer epithelium영역에 존재하는 세포 중 Endothelial cell and pericyte 타입의 세포의 Percentage
P6 CE_PC_DEN Cancer epithelium영역에 존재하는 세포 중 Endothelial cell and pericyte 타입의 세포의 Density
P7 CS_PC_PER Cancer stroma영역에 존재하는 세포 중 Endothelial cell and pericyte 타입의 세포의 Percentage
P8 CS_PC_DEN Cancer stroma영역에 존재하는 세포 중 Endothelial cell and pericyte 타입의 세포의 Density
P9 NE_PC_PER Normal epithelium영역에 존재하는 세포 중 Endothelial cell and pericyte 타입의 세포의 Percentage
P10 NE_PC_DEN Normal epithelium영역에 존재하는 세포 중 Endothelial cell and pericyte 타입의 세포의 Density
P11 NS_PC_PER Normal stroma영역에 존재하는 세포 중 Endothelial cell and pericyte 타입의 세포의 Percentage
P12 NS_PC_DEN Normal stroma영역에 존재하는 세포 중 Endothelial cell and pericyte 타입의 세포의 Density
P13 CE_MTS_PER Cancer epithelium영역 내에 존재하는 Mitosis 상태에 있는 세포의 Percentage
P14 CE_MTS_DEN Cancer epithelium영역 내에 존재하는 Mitosis 상태에 있는 세포의 Density
P15 CS_MTS_PER Cancer stroma영역 내에 존재하는 Mitosis 상태에 있는 세포의 Percentage
P16 CS_MTS_DEN Cancer stroma영역 내에 존재하는 Mitosis 상태에 있는 세포의 Density
P17 NE_MTS_PER Normal epithelium영역 내에 존재하는 Mitosis 상태에 있는 세포의 Percentage
P18 NE_MTS_DEN Normal epithelium영역 내에 존재하는 Mitosis 상태에 있는 세포의 Density
P19 NS_MTS_PER Normal stroma영역 내에 존재하는 Mitosis 상태에 있는 세포의 Percentage
P20 NS_MTS_DEN Normal stroma영역 내에 존재하는 Mitosis 상태에 있는 세포의 Density
P21 CE_MA_PER Cancer epithelium영역 내에 존재하는 Macrophage 타입 세포의 Percentage
P22 CE_MA_DEN Cancer epithelium영역 내에 존재하는 Macrophage 타입 세포의 Density
P23 CS_MA_PER Cancer stroma영역 내에 존재하는 Macrophage 타입 세포의 Percentage
P24 CS_MA_DEN Cancer stroma영역 내에 존재하는 Macrophage 타입 세포의 Density
P25 NE_MA_PER Normal epithelium영역 내에 존재하는 Macrophage 타입 세포의 Percentage
P26 NE_MA_DEN Normal epithelium영역 내에 존재하는 Macrophage 타입 세포의 Density
P27 NS_MA_PER Normal stroma영역 내에 존재하는 Macrophage 타입 세포의 Percentage
P28 NS_MA_DEN Normal stroma영역 내에 존재하는 Macrophage 타입 세포의 Density
P29 CE_TIL_PER Cancer epithelium영역 내에 존재하는 Lymphoplasma cell 타입 세포의 Percentage
P30 CE_TIL_DEN Cancer epithelium영역 내에 존재하는 Lymphoplasma cell 타입 세포의 Density
P31 CS_TIL_PER Cancer stroma영역 내에 존재하는 Lymphoplasma cell 타입 세포의 Percentage
P32 CS_TIL_DEN Cancer stroma영역 내에 존재하는 Lymphoplasma cell 타입 세포의 Density
P33 NE_TIL_PER Normal epithelium영역 내에 존재하는 Lymphoplasma cell 타입 세포의 Percentage
P34 NE_TIL_DEN Normal epithelium영역 내에 존재하는 Lymphoplasma cell 타입 세포의 Density
P35 NS_TIL_PER Normal stroma영역 내에 존재하는 Lymphoplasma cell 타입 세포의 Percentage
P36 NS_TIL_DEN Normal stroma영역 내에 존재하는 Lymphoplasma cell 타입 세포의 Density
P37 CE_FB_PER Cancer epithelium영역 내에 존재하는 Fibroblast 타입 세포의 Percentage
P38 CE_FB_DEN Cancer epithelium영역 내에 존재하는 Fibroblast 타입 세포의 Density
P39 CS_FB_PER Cancer stroma영역 내에 존재하는 Fibroblast 타입 세포의 Percentage
P40 CS_FB_DEN Cancer stroma영역 내에 존재하는 Fibroblast 타입 세포의 Density
P41 NE_FB_PER Normal epithelium영역 내에 존재하는 Fibroblast 타입 세포의 Percentage
P42 NE_FB_DEN Normal epithelium영역 내에 존재하는 Fibroblast 타입 세포의 Density
P43 NS_FB_PER Normal stroma영역 내에 존재하는 Fibroblast 타입 세포의 Percentage
P44 NS_FB_DEN Normal stroma영역 내에 존재하는 Fibroblast 타입 세포의 Density
P45 CE_N1_PER Cancer epithelium영역 내에 존재하는 Nuclear grade 1 상태인 세포의 Percentage
P46 CE_N1_DEN Cancer epithelium영역 내에 존재하는 Nuclear grade 1 상태인 세포의 Density
P47 CE_N2_PER Cancer epithelium영역 내에 존재하는 Nuclear grade 2 상태인 세포의 Percentage
P48 CE_N2_DEN Cancer epithelium영역 내에 존재하는 Nuclear grade 2 상태인 세포의 Density
P49 CE_N3_PER Cancer epithelium영역 내에 존재하는 Nuclear grade 3 상태인 세포의 Percentage
P50 CE_N3_DEN Cancer epithelium영역 내에 존재하는 Nuclear grade 3 상태인 세포의 Density
P51 CE_TB_DEN_CNT Cancer epithelium영역 내에 존재하는 Tubule formation 티슈 타입의 세포 수에 대한 Density
P52 CE_TB_DEN_AREA Cancer epithelium영역 내에 존재하는 Tubule formation 티슈 타입의 세포 영역에 대한 Density
P53 CE_DCIS_DEN_CNT Cancer epithelium영역 내에 존재하는 Ductal carcinoma in situ (DCIS) 티슈 타입의 세포 수에 대한 Density
P54 CE_DCIS_DEN_AREA Cancer epithelium영역 내에 존재하는 Ductal carcinoma in situ (DCIS) 티슈 타입의 세포 영역에 대한 Density
P55 CE_BV_DEN_CNT Cancer epithelium영역 내에 존재하는 Blood vessel에 해당하는 세포 수의 Density
P56 CE_BV_DEN_AREA Cancer epithelium영역 내에 존재하는 Blood vessel에 해당하는 세포 영역의 Density
P57 CS_BV_DEN_CNT Cancer stroma영역 내에 존재하는 Blood vessel에 해당하는 세포 수의 Density
P58 CS_BV_DEN_AREA Cancer stroma영역 내에 존재하는 Blood vessel에 해당하는 세포 영역의 Density
P59 NE_BV_DEN_CNT Normal epithelium영역 내에 존재하는 Blood vessel에 해당하는 세포 수의 Density
P60 NE_BV_DEN_AREA Normal epithelium영역 내에 존재하는 Blood vessel에 해당하는 세포 영역의 Density
P61 NS_BV_DEN_CNT Normal stroma영역 내에 존재하는 Blood vessel에 해당하는 세포 수의 Density
P62 NS_BV_DEN_AREA Normal stroma영역 내에 존재하는 Blood vessel에 해당하는 세포 영역의 Density
P63 N1_PER 전체 이미지 영역에 존재하는 세포 수에 대한 Nuclear grade 1 상태인 세포의 Percentage
P64 N2_PER 전체 이미지 영역에 존재하는 세포 수에 대한 Nuclear grade 2 상태인 세포의 Percentage
P65 N3_PER 전체 이미지 영역에 존재하는 세포 수에 대한 Nuclear grade 3 상태인 세포의 Percentage
다음에서, 조직병리체학 데이터 관리기(110)에 대해 설명한다.
조직병리체학 데이터 관리기(110)는 입력된 조직병리체학 원시(raw) 데이터(2)를 전처리하고, 전처리한 조직병리체학 데이터를 저장한다.
조직병리체학 데이터 관리기(110)는 조직병리체학 데이터를 구성하는 파라미터들을 조직 정보와 세포 정보로 분류하고, 조직 정보와 세포 정보의 관계 테이블을 기초로, 각 조직병리체학 데이터에서, 조직에서 존재할 수 없는 세포 종류나 발견되지 않는 특성의 정보의 정량 데이터를 제거할 수 있다.
예를 들면, 조직 정보와 세포 정보의 관계 테이블은 표 2와 같이 조직과 세포의 관계 행렬로 구성되고, 각 조직에서 제거되어야 하는 세포 정보가 매핑되어 있다. 표 2에서, 조직 정보는, 가로축에 기재되고, CE는 Cancer epithelium, CS는 Cancer stroma, NE는 Normal epithelium, NS는 Normal stroma, N는 Necrosis, F는 Fat을 의미한다. 표 2에서, 세포 정보는, 세로축에 기재되고, PC는 Endothelial cell and pericyte, MTS는 Mitosis, MA는 Macrophage, TIL는 Lymphoplasma cell, FB는 Fibroblast, N1는 Nuclear grade 1, N2는 Nuclear grade 2, N3는 Nuclear grade 3, TB는 Tubule formation, DCIS는 DCIS (Ductal carcinoma in situ), NV는 Nerve, BV는 Blood Vessel를 의미한다.
조직
세포
CE CS NE NS N F
PC x x
MTS x x
MA x x
TIL x x
FB x x
N1 x x x x x
N2 x x x x x
N3 x x x x x
TB x x x x x
DCIS x x x x x
NV x x x x x x
BV x x
지방 조직에는 Cancer cell이 매우 드물며, nuclear grade에 대한 정보가 annotation된 세포의 수는 잘못되었거나, 혹은 암종의 특성을 예측하는데 전혀 도움이 되지 않는다. 따라서, 조직병리체학 데이터 관리기(110)는 표 2를 참고하여, 각 조직병리체학 원시 데이터에서 지방 조직(F)에 세포 특성(PC, MTS,..., BV) 값이 카운트되어 있으면, 해당 값을 제거한다. 조직병리체학 데이터 관리기(110)는 지방 조직(F)과 마찬가지로, 각 조직병리체학 원시 데이터에서 분류된 조직들(CE, CS, NE, NS, N)에 존재하는 제거 대상 세포 특성 값이 카운트되어 있으면, 해당 값을 제거한다.
또한, 조직병리체학 데이터 관리기(110)는 조직병리체학 원시 데이터에서 카운트 값이 적은 파라미터를 제거할 수 있다. 정량 데이터인 조직병리체학 데이터에서, 매우 작은 값은 편차가 큰 fold로 인하여 통계분석에 영향을 주기 때문에, 조직병리체학 데이터 관리기(110)는 의미없는 분포 또는 적은 값을 가지는 세포 특성의 값을 필터링한다. 조직병리체학 데이터 관리기(110)는 예를 들면, CPM(Count Per Million) 방식으로, 전체 샘플에서 이상치에 해당되는 세포 특성을 찾을 수 있다.
조직병리체학 데이터 관리기(110)는 각 조직병리체학 원시 데이터(2)를 전처리한 조직병리체학 데이터를 이용하여, 조직병리체학 데이터를 구성하는 개별 데이터의 대표값을 계산한다. 개별 조직병리체학 데이터는 특정 세포나 조직의 수, 또는 특정 세포나 조직의 픽셀 수로서, 예를 들면, PC(Endothelial cell and pericyte), MTS(Mitosis)일 수 있다. 개별 조직병리체학 데이터는 간단히 조직병리체학 데이터를 구성하는 단일 파라미터일 수 있고, 설명에서는 p(Pathomics) 특성 또는 p 특성 세포라고 부를 수 있다.
복수의 샘플들(예를 들면, K개의 샘플들)이 조직병리체학 데이터 관리기(110)로 입력된다고 가정한다. 그러면, 조직병리체학 데이터 관리기(110)는 p특성별로 K개의 샘플을 대표하는 대표값을 계산한다.
조직병리체학 데이터 관리기(110)가 p특성별 대표값을 계산하는 방법은 다양할 수 있다. 예를 들면, 조직병리체학 데이터 관리기(110)는 Relative Log Cell-count(RLC) 기반의 데이터 Normalization 기법을 사용할 수 있다. K개의 샘플들 중 k샘플에서 기대되는(expected) p특성 값 E[Ypk]은 수학식 1과 같이 정의될 수 있다.
Figure 112019129957210-pat00001
수학식 1에서, Ypk는 k샘플(병리이미지)에서 측정된 p특성 세포의 count level이고, E[Ypk]는 Ypk로부터 기대되는 p특성 세포의 분포이다. Nk는 k샘플에서 측정된 전체 세포 또는 픽셀의 count level이다.
Figure 112019129957210-pat00002
는 정답이자 알 수 없는 k샘플에 대한 p특성 세포의 실제 count level이고, Sk는 k샘플에 대한 전체 세포의 실제 count level이다.
K개의 샘플들을 대표하는 기준값(pseudo-reference) Yp RLC은 수학식 2와 같이 정의될 수 있다. 수학식 2에서, r은 Biological replicate이다. 수학식 2에서, Xprk 는 k샘플의 p특성 및 r에 대한 수(count)이다.
Figure 112019129957210-pat00003
조직병리체학 데이터 관리기(110)는 p특성 값(Xprk)을 스케일링 값(scaling factor, Yp RLC)으로 나누어, p특성 값을 정규화(normalization)할 수 있다. 스케일링 값은 정량 데이터의 분포를 정규화하는 역할을 한다.
조직병리체학 데이터 관리기(110)는 정규화된 p특성 대표값에 Log2()를 취함으로써, 정량 데이터(count data)가 왼쪽으로 꼬리가 긴 특성(left skewed)을 없앨 수 있다.
이와 같은 절차를 통해, 조직병리체학 데이터 관리기(110)는 K개 샘플들의 조직병리체학 데이터를 대표하는, 조직병리체학 대표 데이터(4)를 생성한다. 조직병리체학 대표 데이터(4)는 p특성들의 집합으로 표현될 수 있고, 각 p특성은 대표 값을 가진다. 대표 값은 정량 데이터이다.
다음에서, 유전자 정보 관리기(120)에 대해 설명한다.
유전자 정보 관리기(120)는 전체 유전자 샘플들 중에서, 저발현 유전자를 제거할 수 있다. 유전자 정보 관리기(120)는 CPM(Count Per Million) 방식으로, 전체 샘플에서 이상치에 해당되는 세포 특성을 찾을 수 있다. 어느 유전자의 CPM값이 1보다 작은 경우가, 전체 샘플들 중 절반 이상이 된다면 이 유전자를 저발현 유전자로 정의하여 제외할 수 있다. 즉, 정량 데이터인 유전자 정보(예를 들면, RNA sequence)에서, 매우 작은 값이 통계분석에 영향을 주기 때문에 분석 적에 해당 값을 필터링한다. k번째 샘플의 g유전자의 CPM(Cgk)은 수학식 3과 같이 정의될 수 있다.
Figure 112019129957210-pat00004
수학식 3에서, Ygk는 k샘플에서의 g유전자의 리드 수(read count) 이고,
Figure 112019129957210-pat00005
는 k샘플에서의 g 유전자의 Expression level이다.
유전자 정보 관리기(120)는 복수의 샘플들(예를 들면, K개의 샘플들)로부터 유전자 정보를 추출한다. 임의의 특정 유전자를 g유전자라고 설명한다. 유전자 정보 관리기(120)가 g유전자 정보를 계산하는 방법은 다양할 수 있다.
유전자 정보 관리기(120)가 g유전자 정보를 계산하기 위해 데이터를 정규화하는 방법은 다양할 수 있고, 예를 들면, Relative Log-Expression(RLE) 기반의 데이터 Normalization 기법과, Trimmed mean of M value 기반의 Normalization 기법 중 적어도 하나를 사용할 수 있다.
한 실시예에 따르면, 유전자 정보 관리기(120)는 Relative Log-Expression(RLE) 기반의 데이터 Normalization 기법을 사용할 수 있다. K개의 샘플들 중 k샘플에서 기대되는(expected) g유전자 값 E[Ygk]은 수학식 4와 같이 정의될 수 있다. Ygk는 k샘플에서 측정된 g유전자의 리드 수로서, 일부의 시퀀스 리드 수(sequence read count)에 불과하므로, Ygk로부터 실제 g유전자 값(expression value), E[Ygk]를 예측할 수 있다.
Figure 112019129957210-pat00006
수학식 4에서, Lg는 g유전자의 길이이고, Nk는 k샘플에서 측정된 전체 유전자의 리드 수이다.
K개의 샘플들을 대표하는 기준값(pseudo-reference), Yg RLE은 수학식 5과 같이 정의될 수 있다. 수학식 5에서, r은 Biological replicate이다. 수학식 5에서, Xgrk는 k샘플에서, g유전자 및 r에 대한 리드 수(read count)이다.
Figure 112019129957210-pat00007
유전자 정보 관리기(120)는 g유전자 값 Xgrk을 스케일링 값(scaling factor, Yg RLE)으로 나누어, g유전자 값의 분포를 정규화(normalization)할 수 있다. 스케일링 값은 정량 데이터의 분포를 정규화하는 역할을 한다.
다른 실시예에 따르면, 유전자 정보 관리기(120)는 Trimmed mean of M value 기반의 Normalization 기법을 사용할 수 있다. 유전자 정보 중, RNA-sequencing 데이터는 리드들(reads)로 구성되는데, 유전자 샘플의 크기가 다르고, 유전자별로 library composition이 다르다. 따라서, 유전자 정보 관리기(120)는 유전자 샘플의 크기를 정규화할 수 있다.
먼저, 유전자 정보 관리기(120)는 K개의 샘플들 중에서, 기준 샘플 K' (Reference sample)을 선택한다. 유전자 정보 관리기(120)는 모든 샘플 K에 대하여, 기준 샘플 K'에 대한 log-fold에 해당하는 M 값(M-value) Mg를 구한다. Mg는 예를 들면, 수학식 6과 같이 정의될 수 있다.
Figure 112019129957210-pat00008
유전자 정보 관리기(120)는 기준 샘플 K'과 k번째 샘플의 기하 평균(geometric mean)에 해당하는 A 값(A-value) Ag를 구한다. Ag는 예를 들면, 수학식 7과 같이 정의될 수 있다. A 값(A-value)는 Absolute expression level로 정의될 수 있다.
Figure 112019129957210-pat00009
log fold change인 M-value Mg는 바이어스된 유전자(biased gene)를 찾기 위한 기준 값이고, 기하 평균인 A-value Ag는 고/저 발현 유전자를 찾기 위한 기준 값이다. 유전자 정보 관리기(120)는 M-value의 상위/하위 30%의 유전자와, A-value의 상위/하위 5% 유전자들을 제거하고, 남는 유전자들을 통해 유전자 샘플의 크기를 정규화하는 스케일링 값을 결정할 수 있다. 즉, 유전자 정보 관리기(120)는 절사 평균(trimmed mean)을 이용하여 스케일링 값을 결정하고, 스케일링 값으로 유전자 샘플의 크기(library size)를 나눠서, 각 유전자 샘플의 크기를 정규화할 수 있다.
유전자 정보 관리기(120)가 데이터를 정규화하는 두 가지 방법을 예로 들어 설명했는데, Relative Log-Expression(RLE) 기반의 데이터 Normalization 기법과, Trimmed mean of M value 기반의 Normalization 기법은 독립 변수의 수에 따라 선택될 수 있다. 독립 변수가 적은 데이터에 대해서는 RLE 기반의 데이터 Normalization 기법이 사용될 수 있고, 독립 변수가 많아서 이상치에 의해 영향을 받는 데이터는 Trimmed mean of M value 기반의 Normalization 기법이 사용될 수 있다.
이와 같은 절차를 통해, 유전자 정보 관리기(120)는 K개 샘플들의 유전자 정보로부터 유전자 정보(5)를 생성한다. 유전자 정보는 g유전자들의 집합으로 표현될 수 있다.
다음에서, 유전자 모듈 생성기(130)에 대해 설명한다.
유전자 모듈 생성기(130)는 유전자 정보 관리기(120)에서 생성된 유전자 정보(5)를 입력받는다. 유전자 모듈 생성기(130)는 유전자 정보(5)에 포함된 RNA들 및/또는 단백질들의 정량데이터를 이용하여 유전자 정보(5)에 관련된 적어도 하나의 유전자 모듈을 생성한다. 유전자 모듈은 상관관계가 있는 유전자들이 포함된 그룹 또는 동일유사 기능의 유전자들이 포함된 그룹이다. 한편, 유전자 모듈은 단일 RNA/단일 단백질로 구성될 수 있다. 유전자 모듈 생성기(130)는 각 유전자 모듈에 포함된 다중의 유전자들에 주석(annotation)된 생물학적 및/또는 의학적 정보를 통해 해당 유전자 모듈의 생물학적 및/또는 의학적 의미를 부여할 수 있다.
유전자 모듈은 다양하게 생성될 수 있다. 한 실시예에 따르면, 유전자 모듈 생성기(130)는 통계적 기법 기반으로 유전자 정보(5)에 포함된 데이터들의 상관 관계 네트워크(correlation network)를 신생합성기술(De-novo)로 탐색함으로써, 상관관계가 있는 유전자들을 동일 그룹으로 모듈화할 수 있다. 다른 실시예에 따르면, 유전자 모듈 생성기(130)는 비지도 기계 학습(unsupervised machine learning) 기반으로 상관관계가 있는 유전자들을 추출하고, 추출된 유전자들을 동일 그룹으로 모듈화할 수 있다. 또 다른 실시예에 따르면, 유전자 모듈 생성기(130)는 외부 데이터베이스에서 정의된 유전자 기능 그룹을 사용할 수 있다. 즉, 미리 정의된 기능 그룹들로 복수의 유전자 모듈들이 존재하고, 유전자 모듈 생성기(130)는 복수의 유전자 모듈들 중에서, 유전자 정보(5)에 포함된 유전자들이 포함되는 적어도 하나의 유전자 모듈을 추출할 수 있다.
다음에서, 상관 관계 네트워크(correlation network)를 통해 유전자 모듈을 추출하는 방법에 대해 예를 들어 설명한다.
먼저, 유전자 모듈 생성기(130)는 유전자 정보(5)에 포함된 유전자들의 상호 작용을 기초로, 유전자들을 연결한 상관 관계 네트워크를 생성한다. 상관 관계 네트워크의 노드(node)는 유전자이고, 에지(edge)는 연결된 유전자간의 상호 작용을 의미한다. 모든 유전자들 간의 상호 작용은 두 유전자 간의 pairwise-correlation으로 결정될 수 있다. 예를 들면, Pearson's correlation coefficient이나, Sperman's rank coefficient, Kendall tau rank correlation 등의 Rank correlation으로, 유전자간 상호 작용(의존성)을 확인할 수 있다.
Figure 112019129957210-pat00010
(i, j는 유전자의 index)는 β에 thresholding된 유전자들의 상관관계를 나타내는 값으로서, 전체 유전자의 수가 n일 때, n개 유전자들의 상호 작용은 n×n 행렬로 계산될 수 있다.
유전자 모듈 생성기(130)는 상관 관계 네트워크에서 같은 기능의 유전자들을 군집합으로 묶는다. Topological overlap 값이 큰 유전자나 단백질이 같은 기능을 가질 확률이 높다고 알려져 있으므로, 유전자 모듈 생성기(130)는 상관 관계 네트워크에서 Topological overlap 값을 계산하여 같은 기능의 유전자들을 추출할 수 있다. Topological overlap 값은 두 유전자 간의 상호연결 값(interconnectedness)에 해당한다. i 및 j 유전자의 Topological overlap 값 tij는 수학식 8과 같이 계산될 수 있다.
Figure 112019129957210-pat00011
수학식 8에서, i=j인 경우 a=1이고, N1(i)는 i 유전자와 직접적으로 연결된 유전자들(i 유전자 노드로부터 거리가 1인 유전자 노드들)을 의미하고, | · | 는 포함된 유전자들의 수를 의미한다.
유전자 모듈 생성기(130)는 Topological overlap 값을 이용하여, 같은 기능을 가질 확률이 높은 유전자들을 군집합으로 묶어, 유전자 모듈을 생성한다. 이때, 유전자 모듈 생성기(130)는 Topological overlap으로 획득한 두 유전자 간의 상호연결 값(tij)을 기초로, 두 유전자 간의 거리(distance,Dij)를 계산하고, 거리를 기초로 유전자들에 대한 계층적 클러스터링을 한다. 클러스터링을 통해 복수의 유전자 모듈들이 생성될 수 있다. 클러스터링은 K-means, Consensus clustering 등 다양한 기법이 적용될 수 있다.
유전자 모듈 생성기(130)는 복수의 유전자 모듈들의 대표 정보를 추출한다. 유전자 모듈 생성기(130)는 주성분분석(Principal Component Analysis, PCA)을 이용하여, 각 유전자 모듈에 존재하는 유전자들을 대표하는 대표 정보를 추출할 수 있다. 각 유전자 모듈의 대표 정보는 First PCA vector일 수 있고, 이를 각 유전자 모듈의 고유유전자(eigengene)로 정의할 수 있다.
유전자 모듈 생성기(130)는 유전자 정보(5)에 관련된 복수의 유전자 모듈들이 결정되면, 기능 농축분석(functional enrichment analysis)을 통해, 각 유전자 모듈에 유의하게 농축된 생물학적 기능들을 결정한다. 또한, 유전자 모듈 생성기(130)는 유전자 정보(5)에 관련된 복수의 유전자 모듈들이 결정되면, 접근 가능한 데이터베이스 및 문헌을 참조하여, 각 유전자 모듈을 설명하는 생물학적 정보, 의학적 정보를 추가할 수 있다.
먼저, 유전자 모듈 생성기(130)는 외부 데이터베이스에 정의된 기능들 중에서, 각 유전자 모듈의 대표 정보가 유의하게 농축된 특정 기능을 추출할 수 있다. 유전자 모듈 생성기(130)는 유전자세트농축분석(Gene Set Enrichment Analysis, GSEA)을 이용할 수 있다. 예를 들면, 유전자 모듈 생성기(130)는 외부 데이터베이스인 gene ontology(GO)와 KEGG(Kyoto Encyclopedia of Genes and Genomes) 중에서, 어느 유전자 모듈이 유의하게 농축된 gene ontology(GO)의 기능들(예를 들면, immune response, immune system process 등)과 KEGG 기능들(예를 들면, Cytokine-cytokine receptor interaction 등)을 추출한다.
유전자 모듈 생성기(130)는 각 유전자 모듈에 대응하여 추출한 특정 기능의 연관(association)을 유의성 검정할 수 있다. 유의성 검정은 예를 들면, 피셔의 정확 검정(Fisher's exact test), 카이제곱 검정(chi square test), 코크란 검정(cochran test) 등이 사용될 수 있다. 유전자 모듈 생성기(130)는 각 유전자 모듈에 대응하여 추출한 기능들이 복수인 경우, 복수의 기능들을 해당 유전자 모듈에 어노테이션하되, 우선적으로 표시되는 대표 기능을 설정할 수 있다.
복수의 유전자 모듈들은 예를 들면, 표 3과 같이, 컬러명으로 코드화될 수 있으며, 기능 정보가 매핑될 수 있다.
NO 유전자 모듈 분류된 유전자 정보
(예시)
기능
M1 Black SPNS2, FAM153A, RRN3P1, ZNF57, BHLHE22, NCF1C, SCML4, LILRB1, GM2A, SYAP1 immune response, immune system process, regulation of immune system process, defense response, leukocyte activation
M2 Yellow MYLK2, FBXO43, GDPD2, GOLT1B, WHAMML2, NHLH2, CABLES2, PBK, CEP152, LAMB2 mitotic cell cycle, mitotic cell cycle process, cell cycle, cell cycle process, chromosome organization
M3 Yellowgreen IFI44, HSH2D, IL22RA1, STAT2, RTP4, OASL, TRAFD1, IFIT1, ISG15, DHX58 response to virus, defense response to virus, innate immune response, type I interferon signaling pathway, cellular response to type I interferon
M4 Magenta COL11A2, HIF3A, KRT81, ITGB8, C4BPA, EPHB1, XDH, SYNM, KLK8, IFFO2 tissue development, single-multicellular organism process, anatomical structure development, epidermis development, multicellular organismal process
M5 Lightgreen GPR176, LPHN2, PCDH18, CDKL1, STL, ENTPD1, FILIP1, ITGAV, UTRN, KLF12 homophilic cell adhesion via plasma membrane adhesion molecules, cell-cell adhesion via plasma-membrane adhesion molecules, movement of cell or subcellular component, vasculature development, blood vessel development
M6 Pink MTMR11, CHST6, FILIP1L, F13A1, ABCG4, FNDC4, ISM1, LPAR1, ANAPC5, CCBE1 extracellular matrix organization, extracellular structure organization, multicellular organism development, single-multicellular organism process, system development
M7 Cyan SEMA3G, HTR2B, ABCB1, PRELP, ARHGAP6, CAPN11, ZCCHC24, DNASE1L3, HOXA7, GNAL single-multicellular organism process, vasculature development, circulatory system development, cardiovascular system development, blood vessel development
M8 Violet KY, SPOCK3, PIK3C2G, TNS4, CLDN19, TRPM3, KLHL29, ALX4, TP53AIP1, TEPP anterograde trans-synaptic signaling, synaptic signaling, trans-synaptic signaling, chemical synaptic transmission, nervous system development
M9 darkslateblue HIST2H2BA, HIST1H3G, HIST1H2BG, HIST1H1E, HIST1H4H, HIST1H1D, HIST1H2BE, HIST1H2BH, HIST1H2BD, HIST1H1C Systemic lupus erythematosus, nucleosome organization, nucleosome assembly, chromatin assembly or disassembly, Alcoholism
M10 Orange TMEM196, RPS4Y1, GCG, MOGAT3, UGT2A3, REG1B, APOA2, CDH9, NCRNA00230B, ST8SIA3 regulation of wound healing, regulation of response to wounding, inorganic anion transport, negative regulation of wound healing, triglyceride metabolic process
M11 Blue PBXIP1, RNF13, PRKCZ, DDAH2, ZNF273, UBTF, CC2D1A, BBC3, SFTPD, USF2 cellular metabolic process, metabolic process, cellular macromolecule metabolic process, primary metabolic process, organic substance metabolic process
M12 Darkturquoise NEU1, PPP1R11, YIF1B, CCDC86, MRPS18A, UQCRFS1, RTN4IP1, MRPS22, GNL1, WDR77 cellular nitrogen compound metabolic process, mitochondrial translation, mitochondrial translational elongation, mitochondrial translational termination, gene expression
M13 royalblue RPL36, EEF2, RPL15, HNRNPA1, EIF3M, RPS14, RPS27, RPL14, RPS11, RPL10 SRP-dependent cotranslational protein targeting to membrane, cotranslational protein targeting to membrane, protein targeting to ER, establishment of protein localization to endoplasmic reticulum, nuclear-transcribed mRNA catabolic process, nonsense-mediated decay
M14 Brown ATL2, PVRL1, ILDR1, NCRNA00094, ARL14, NUAK2, FAM47E, TMEM144, LRGUK, KATNA1 ion transport, transmembrane transport, ion transmembrane transport, cell projection organization, cell projection morphogenesis
M15 Darkgrey FAM171A2, TMED8, ZNF20, MAGED1, VEZT, DTNB, ARHGEF3, CYP2D6, FBXO17, SNX14 protein localization, cellular localization, establishment of localization in cell, protein transport, organic substance transport
M16 bisque4 DUSP1, TRIB1, EGR4, GADD45B, KLF4, CYR61, HBEGF, HAS1, PPP1R15A, NR4A1 positive regulation of cellular process, cellular response to chemical stimulus, negative regulation of cellular metabolic process, regulation of cellular macromolecule biosynthetic process, positive regulation of cellular metabolic process
다음에서, 연결기(150)에 대해 설명한다.
연결기(150)는 조직병리체학 대표 데이터와 복수의 유전자 모듈들의 관계를 추출한다. 조직병리체학 대표 데이터와 복수의 유전자 모듈들의 관계는 다양한 방법으로 추출될 수 있다. 여기서, 조직병리체학 대표 데이터는 복수의 개별 조직병리체학 데이터로 구성되고, 각 개별 조직병리체학 데이터의 값은 복수 샘플들의 대표 값을 가진다.
연결기(150)는 유전자 모듈들의 대표 정보와, 조직병리체학 대표 데이터의 상관 관계를 계산할 수 있다. 이때, 유전자 모듈들의 대표 정보는 지정된 방식으로 축약된 정보이고, 각 유전자 모듈에 포함된 유전자들의 평균값 분석, 주성분분석(PCA), 군집중심분석(Centroid), 고유유전자(EigenGene) 등 다양한 통계적 방법을 통해, 축약될 수 있다. 연결기(150)는 Pearson, Spearman, kendall 등의 상관관계 기법을 통해, 상관 관계를 계산할 수 있다.
연결기(150)는 개별 조직병리체학 데이터와 각 유전자 모듈의 일대일 관계값과 임계값(예를 들면, p-value)을 비교하여, 개별 조직병리체학 데이터와 각 유전자 모듈의 관계 유무를 결정할 수 있다. 연결기(150)는 상관 관계로 계산된 관계값 이외에도, 비지도 클러스터링 기법을 통해 개별 조직병리체학 데이터와 각 유전자 모듈의 관계 유무를 결정할 수 있다. 비지도 클러스터링 기법은 예를 들면, Hierarchical clustering, consensus clustering, non-negative matrix factorization 등일 수 있다.
연결기(150)는 예를 들면, 개별 조직병리체학 데이터 CE_TIL_DEN 및 CS_TIL_DEN는 면역 관련 기능(Immune response &immune system process)이 대응된 유전자 모듈(예를 들면, black 컬러명으로 코드화)과 양성 관계(예를 들면, 관계값 0.42, 0.35)가 있다고 결정할 수 있다. 그리고, 연결기(150)는 개별 조직병리체학 데이터 CE_TIL_DEN 및 CS_TIL_DEN에 면역 관련 기능(Immune response & immune system process)이 대응된 유전자 모듈을 연결한다. 개별 조직병리체학 데이터는 복수의 유전자 모듈들에 연결될 수 있다.
다음에서, 해석 정보 생성기(170)에 대해 설명한다.
해석 정보 생성기(170)는 연결기(150)로부터 개별 조직병리체학 데이터와 각 유전자 모듈의 연결 관계를 입력받는다. 그리고, 해석 정보 생성기(170)는 유전자 모듈 생성기(130)에서 유전자 모듈에 대응하여 추출한 생물학적 기능 정보와 의학적 설명 정보를 참조한다. 해석 정보 생성기(170)는 유전자 모듈에 대응하여 추출한 생물학적 기능 정보와 의학적 설명 정보를 개별 조직병리체학 데이터의 해석 정보로 매핑한다. 해석 정보 생성기(170)는 조직병리체학 데이터와 연관/상관된 유전자 모듈의 생물학적 및/또는 의학적 정보를 통해, 병리 슬라이드로부터 추출된 조직병리체학 데이터의 의미를 유전체/단백질체에 주석된 정보로 해석할 수 있는 수단을 제공한다.
해석 정보 생성기(170)는 디지털 병리 데이터, 유전자 모듈, 그리고 생물학 및/또는 의학 관련 해석 정보를 시각화한 인터페이스 화면을 제공할 수 있다.
도 3은 한 실시예에 따른 조직병리체학 데이터와 유전자 모듈 연결을 위한 관계 분석 결과의 예시이고, 도 4는 한 실시예에 따른 조직병리체학 데이터와 유전자 모듈의 연결 관계를 시각적으로 나타낸 도면이다.
도 3을 참고하면, 연결기(150)는 각 유전자 모듈의 값과 개별 조직병리체학 데이터의 일대일 관계값을 계산한다. 관계값은 양성 또는 음성 관계를 나타낼 수 있다. 연결기(150)는 관계 분석 결과(20)를 인터페이스 화면에 표시할 수 있다. 관계 분석 결과(20)는 조직병리체학 데이터와, 전사체 유전자들로 구성된 유전자 모듈들의 대표 정보(예를 들면, Eigenvector)와의 상관 분석 결과이다. 관계 분석 결과(20)에서, 열(Column)은 조직병리체학 데이터고, 행(Row)은 임의 컬러로 명명된 TCGA 전사체 데이터로부터 얻을 수 있는 유전자 모듈들이다. 관계 분석 결과(20)에서, 각 셀은 피어슨 상관분석을 통해 유의한 상관 관계를 가지는 조직병리체학 데이터-유전자모듈에 대해서만 표시될 수 있다. 상관 관계는 양의 상관 관계와 음의 상관 관계를 가지는 데이터들에 대해서 분석될 수 있다.
관계 분석 결과(20)를 참고하면, 디지털 병리 데이터 중 CE_TIL_DEN, CS_TIL_DEN은 black 컬러명으로 코드화된 모듈과 양성 관계(예를 들면, 관계값 0.42, 0.35)가 있다고 판단된다.
관계 분석 결과(20)를 참고하면, 디지털 병리 데이터 중 CE_FB_DEN은 Lightgreen, Pink, bisque4, Cyan 등의 컬러명으로 코드화된 모듈과 양성 관계가 있고, yellow 컬러명으로 코드화된 모듈과 음성 관계가 있다.
컬러명으로 코드화된 각 유전자 모듈은, 해당 유전자 모듈에서 유의하게 농축된(enriched) 기능 정보, 그리고 각 유전자 모듈을 설명하는 의학적 정보가 어노테이션되어 있다.
예를 들면, black 컬러명으로 코드화된 유전자 모듈은 gene ontology의 Immune response &immune system process 기능이 어노테이션될 수 있다.
Lightgreen 컬러명으로 코드화된 유전자 모듈은 gene ontology의 Vessel development 기능이 어노테이션될 수 있다. Pink 컬러명으로 코드화된 유전자 모듈은 gene ontology의 혈관 생성 관련 기능인 Angiogenesis & blood vessel development이 어노테이션될 수 있다.
bisque4 컬러명으로 코드화된 유전자 모듈은 gene ontology의 cellular process metabolic process 기능이 어노테이션될 수 있다. Cyan 컬러명으로 코드화된 유전자 모듈은 gene ontology의 Extracellular matrix organization 기능이 어노테이션될 수 있다.
Saddlebrown으로 코드화된 유전자 모듈은 gene ontology의 protein folding & metabolic process 기능이 어노테이션될 수 있다.
yellow 컬러명으로 코드화된 유전자 모듈은 gene ontology의 세포 생성 관련 기능인 Cell cycle, Nuclear division, DNA replication이 어노테이션될 수 있다.
도 4를 참고하면, 조직병리체학 데이터(세로 축, Y축)와 유전자 모듈(가로 축, X축)의 연결 관계가 시각적으로 표시될 수 있다. 상관 관계의 범위는 -0.542 ~ 0.491 값을 가진다. 조직병리체학 데이터는 histologic component일 수 있다.
도 4에서, Y축 상에서 근처에 존재하는 개별 조직병리체학 데이터는 비슷한 의미를 지니고, 서로 높은 상관성을 보인다고 해석할 수 있다. X축 상에서 근처에 존재하는 각 유전자 모듈은 비슷한 유전자 발현 패턴을 가진다고 해석할 수 있다.
도 5와 도 6은 black 컬러명으로 코드화된 유전자 모듈에 대한 농축분석(Enrichment Analysis) 결과의 예시이다.
도 5를 참고하면, black 컬러명으로 코드화된 유전자 모듈을 gene ontology와 KEGG pathway에 대해 농축분석한 결과(30)의 예시이다. 카테고리는 데이터베이스를 의미하고, GOTERM_BP_ALL은 Gene Ontology의 생물학적 과정 용어(Biological Process term) 데이터베이스이고, KEGG_PATHWAY는 KEGG pathway 데이터베이스이다.
농축분석 결과(30)는 black 컬러명으로 코드화된 유전자 모듈과 강한 연관성을 가지는 생물학적 및/또는 의학적 정보들에 대한 막대 그림으로 제공될 수 있다.
농축분석 결과(30)는 FDR(false discovery rate) 값으로 계산될 수 있다. black 컬러명으로 코드화된 유전자 모듈은 면역 관련된 기능인 gene ontology의 Immune response, Immune system process와 관련성이 높고, 추가적으로 regulation of immune system process, defense response와 관련되어 있으며, KEGG pathway의 cytokine-cytokine receptor interaction, hematopoietic cell lineage, allograft rejection 등과 관련된 것으로 어노테이션될 수 있다.
도 6을 참고하면, 해석 정보 생성기(170)는, 도 5의 GOTERM_BP_ALL와 KEGG_PATHWAY 이외의 다양한 데이터베이스들(카테고리)에 대해서도, black 컬러명으로 코드화된 유전자 모듈의 농축분석 결과(31)를 제공할 수 있다.
이와 같이, 해석 정보 생성기(170)는 black 컬러명으로 코드화된 유전자 모듈이, Gene Ontology와 KEGG Pathway 등의 데이터베이스에서, 면역반응, 세포의 방어반응, 면역 시스템의 조절, T 세포의 활성화 등 전반적으로 면역활동과 매우 유의하게 연관된 결과를 제공한다.
실제로, black 컬러명으로 코드화된 유전자 모듈은 인간의 면역체계를 담당하는 중요한 유전자들이 몰려있는 유전자 모듈이다. 또한, 도 3을 참고하면, black 컬러명으로 코드화된 유전자 모듈은, Cancer epithelium과 Cancer stroma 영역에 존재하는 면역세포(Lymphoplasma)를 나타내는 조직병리체학 데이터(CE_TIL_DEN, CS_TIL_DEN)와 높은 상관 관계를 보이는 것을 알 수 있다. 이를 통해, 조직병리체학 데이터에서 면역세포와 관련된 파라미터(개별 조직병리체학 데이터)는 면역적 특성의 유전자 모듈과 관련이 있다는 사실을 확인할 수 있다.
도 7과 도 8은 yellow 컬러명으로 코드화된 유전자 모듈에 대한 농축분석 결과의 예시이다.
도 7을 참고하면, yellow 컬러명으로 코드화된 유전자 모듈을 gene ontology와 KEGG pathway에 대해 농축분석한 결과(32)의 예시이다. 카테고리는 데이터베이스를 의미하고, GOTERM_BP_ALL은 생물학적 과정 용어(Biological Process term) 데이터베이스이고, KEGG_PATHWAY는 KEGG pathway 데이터베이스이다.
농축분석 결과(32)는 yellow 컬러명으로 코드화된 유전자 모듈과 강한 연관성을 가지는 생물학적 및/또는 의학적 정보들에 대한 막대 그림으로 제공될 수 있다.
농축분석 결과(32)는 FDR(false discovery rate) 값으로 계산될 수 있다. yellow 컬러명으로 코드화된 유전자 모듈은 gene ontology의 mitotic cell cycle, mitotic cell cycle process, cell cycle, cell cycle process, DNA replication과 관련되고, KEGG pathway의 DNA replication, cell cycle과 관련된 것으로 어노테이션될 수 있다.
도 8을 참고하면, 해석 정보 생성기(170)는, 도 7의 GOTERM_BP_ALL와 KEGG_PATHWAY 이외의 다양한 데이터베이스들(카테고리)에 대해서도, black 컬러명으로 코드화된 유전자 모듈의 농축분석 결과(34)를 제공할 수 있다.
이와 같이, 해석 정보 생성기(170)는 yellow 컬러명으로 코드화된 유전자 모듈이, Gene Ontology와 KEGG Pathway 등의 데이터베이스에서, 세포의 분열, 세포분열의 순환, 세포핵의 분열 등 암세포에서 가장 중요한 세포 분열과 매우 유의하게 연관된 결과를 제공한다.
실제로, yellow 컬러명으로 코드화된 유전자 모듈은 세포 분열 관련 유전자들이 몰려있는 유전자 모듈이다. 또한, 도 3을 참고하면, yellow 컬러명으로 코드화된 유전자 모듈은, Cancer epithelium의 영역을 나타내는 조직병리체학 데이터(CE_PER, CE_PC_PER)와 높은 상관 관계를 보이는 것을 알 수 있다. 이는, 암 상피세포의 면적이 클수록, 생물학적으로 암세포의 분열과 관련된 특성을 지니는 유전자/전사체의 발현이 높아진다는 것을 나타낸다. 이를 통해, 조직병리체학 데이터에서 암세포 영역과 관련된 파라미터(개별 조직병리체학 데이터)는 암세포 분열 특성의 유전자 모듈과 관련이 있다는 사실을 확인할 수 있다.
구체적으로, yellow 컬러명으로 코드화된 유전자 모듈과 데이터베이스들의 농축분석 결과를 살펴본다.
Gene Ontology의 생물학적 과정 용어(Biological Process term)에서, yellow 유전자 모듈에 관련되어 있는 Cell cycle은 cellular process라는 Term에 속한 biological process이고, cellular process에는 cell cycle 이외에도 cell activation, cell adhesion molecule production, cell communication, cell cycle checkpoint 등이 존재한다. cell cycle term에는 cell cycle process, meiotic cell cycle, regulation of cell cycle 등이 존재하며, 더 하위 그룹의 biological process term도 존재한다. 이처럼 Biological process term들을 통해, 병리 이미지에서의 암세포 분포, 성질, 밀도 등의 조직병리체학 데이터의 생물학적 의미가 설명될 수 있다.
KEGG Pathway에서, yellow 유전자 모듈에 관련되어 있는 Cell cycle은 Cellular processes 하위의 Cell growth and death에 속해 있다. 이를 통해, 질병의 메커니즘과 세포의 대사 등 다양한 정보와, 조직병리체학 데이터의 histologic component의 관계가 설명될 수 있다.
BIOCARTA에서, yellow 유전자 모듈에 관련되어 있는 Biocarta term은 CDK Regulation of DNA Replication, Cell Cycle: G2/M Checkpoint, Role of BRCA1, BRCA2 and ATR in Cancer Susceptibility 등이다. DNA replication과 Cell cycle은 Gene Ontology와 KEGG Pathway에서도 반복되는 결과이다. BRCA1, BRCA2는 유방암에서 아주 중요하게 여겨지는 유전자들인데, 유방암 환자의 surgical biopsy 데이터를 활용하여 histologic component를 추출한 조직병리체학 데이터와 상관관계 있다는 점에서, BRCA1/2 유전자에 대한 암의 상관성이 설명되는 의미있는 결과이다.
GAD(Genetic Association Database)에서, yellow 유전자 모듈에 관련되어 있는 GAD term은 Breast-cancer이다. yellow 유전자 모듈에 관련되어 있는 조직병리체학 데이터는 Cancer epithelium에 전반적으로 속한 파라미터들(Mitosis, Degenerated & necrotic tumor cell, macrophage, Nuclear grade 3, ductal carcinoma in situ (DCIS) 등)이다. 유방암 환자의 surgical biopsy 데이터를 활용하여 histologic component를 추출한 조직병리체학 데이터에 대해, Breast-cancer가 가장 유의한 (p-value= 1.54E-21) GAD term으로 추출된 유의미한 결과이다.
OMIM에서, yellow 유전자 모듈에 관련되어 있는 term이 "Breast cancer, susceptibility to"이다. 유방암 환자의 surgical biopsy 데이터를 활용하여 histologic component를 추출한 조직병리체학 데이터가, breast cancer 질병과 유의한 관계임이 설명될 수 있다.
yellow 유전자 모듈에 관련된 UnitProt Keywords는 Cell cycle, Nucleus, Cell division, Mitosis 등이고, 이는 Breast cancer의 Cancer epithelium 영역과 연관된 Term이므로, 기존에 알려진 지식을 모사하는 것으로 볼 수 있다.
UniProt Tissue specificity에서, yellow 유전자 모듈에 관련된 term은 Epithelium에 해당되는 tissue이다. yellow 유전자 모듈이 Cancer의 epithelium 영역과 아주 연관되어 있으므로, epithelium이 유의하게 관련된 tissue가 추출된 것은 매우 중요한 결과이다.
도 9는 한 실시예에 따른 해석 정보가 시각적으로 표시되는 인터페이스 화면의 예시이다.
도 9을 참고하면, 해석 정보 생성기(170)는 환자의 조직병리체학 데이터와 연관된 유전자 모듈을 표시하고, 유전자 모듈에 어노테이션된 해석 정보를 인터페이스 화면(40)에 제공할 수 있다. 해석 정보는 생물학적 정보인 기능 정보, 의학적 정보인 설명 정보 등을 포함할 수 있다.
인터페이스 화면(40)은 유전자 모듈을 기준으로 조직병리체학 데이터를 표시할 수 있고, 조직병리체학 데이터를 기준으로 연관된 유전자 모듈을 표시할 수 있다. 또한, 해석 정보 생성기(170)는 유전자 모듈들 간의 계층 구조 정보를 기초로 유전자 모듈들을 계층적으로 표시하여 조직병리체학 데이터와 관련된 해석 정보의 이해를 높일 수 있다. 인터페이스 화면(40) 표 2와 같이 유전자 모듈들에 임의의 컬러를 부여하고, 거리를 통해 Circos plot으로 시각화한 화면일 수 있다. 인터페이스 화면(40)은 도 3에서 유의한 상관 관계를 가지는 조직병리체학 데이터-유전자모듈의 관계를 시각적으로 나타낸 것이다. 인터페이스 화면(40)은 각 유전자 모듈이 가지는 대표적인 생물학적 및/또는 의학적 정보와 함께, 해당 유전자 모듈과 상관관계를 가지는 조직병리체학 데이터를 제공할 수 있다.
인터페이스 화면(40)은, black 컬러명으로 코드화된 유전자 모듈에 어노테이션된 면역 관련 기능(Immune response &immune system process)을 표시하는데, 개별 조직병리체학 데이터(CE_TIL_DEN, CS_TIL_DEN 등)와 양성 관계라는 정보를 함께 표시할 수 있다.
따라서, 면역세포(Lymphoplasma cell)의 수에 관련된 개별 조직병리체학 데이터(CE_TIL_DEN, CS_TIL_DEN 등)이 면역 관련 기능(Immune response &immune system process)과 연관됨을 해석할 수 있다. 또한, 양성 관계로부터, 슬라이드 이미지에서 암 상피(cancer epithelial)나 암 기질(cancer stroma)에 위치한 면역세포의 수가 많을수록, 면역에 대한 반응성이 활성화된다는 사실이 추론될 수 있다. 이는 병리학적으로 해석할 수 있는 면역세포의 수와 생물학적 및/또는 의학적으로 해석할 수 있는 세포의 면역반응의 연관성에 일치하는 추론이다. 따라서, 이러한 해석 정보의 일치도를 기초로, 인공지능 병리 분석기(10)의 분석 결과에 대한 신뢰도가 평가될 수 있다.
인터페이스 화면(40)은, yellow 컬러명으로 코드화된 유전자 모듈에 어노테이션된 Cell cycle, Nuclear division, DNA replication 기능을 표시하는데, 예를 들면, CE_MA_DEN, CS_MA_DEN, CE_PER 등과 양성 관계라는 정보, 그리고 CE_FB_DEN과 음성 관계라는 정보를 함께 표시할 수 있다.
따라서, 슬라이드 이미지에서 Cancer 영역이 많은 환자는 생물학적으로 Cell cycle이 빨라 암세포가 빠르게 분열하고 Aggressive한 성질을 지닌 것으로 해석할 수 있다. 이는 암세포의 분열이 빨라지면 종양의 크기가 빠르게 크며, 슬라이드 이미지에서 해당되는 부분이 많이 발견될 수 밖에 없으므로, 병리학적 해석과 일치한다. 따라서 병리학적으로 해석할 수 있는 종양의 크기, 그리고 생물학적인 cell cycle이라는 특성이 관계 있는 특성임이 검증될 수 있다.
도 10은 한 실시예에 따른 조직병리체학 데이터의 해석 정보 제공 방법의 흐름도이다.
도 10을 참고하면, 해석 정보 제공 시스템(100)은 환자들의 슬라이드 이미지들로부터 분석된 조직병리체학 데이터 샘플들을 입력받는다(S110). 조직병리체학 데이터 샘플은 슬라이드 이미지의 암 상피(cancer epithelial) 및 암 기질(cancer stroma)에 위치한 면역세포의 수, 암 상피(cancer epithelial) 및 암 기질(cancer stroma)의 총량 등으로 슬라이드 이미지의 특징들을 수치화한 정량 데이터를 포함한다. 조직병리체학 데이터 샘플은 인공지능 병리 분석기(10)로부터 입력받은 원시 데이터 일 수 있다.
해석 정보 제공 시스템(100)은 슬라이드 이미지들을 제공한 환자들의 유전자 샘플들을 입력받는다(S120). 각 유전자 샘플은 유전자의 발현 산물들인 RNA 정보 및/또는 단백질 정보를 포함하고, RNA 및/또는 단백질의 발현 정보를 포함할 수 있다. 유전자 샘플은 전사체 분석 방법(transcriptomics)으로 측정된 RNA 발현 데이터나, 단백질체 분석 방법(proteomics)으로 측정된 단백직 발현 데이터를 포함할 수 있다.
해석 정보 제공 시스템(100)은 조직병리체학 데이터 샘플들을 대표하는 조직병리체학 대표 데이터를 생성한다(S130). 해석 정보 제공 시스템(100)은 조직병리체학 데이터 샘플들에 포함된 정량 데이터를 이용하여, 조직병리체학 데이터를 구성하는 개별 조직병리체학 데이터(p특성)의 대표값을 계산한다. 해석 정보 제공 시스템(100)은 예를 들면, Relative Log Cell-count(RLC) 기반의 데이터 Normalization 기법을 사용하여, K개의 샘플들을 대표하는 p특성 값을 결정할 수 있다.
해석 정보 제공 시스템(100)은 유전자 샘플들로부터 유전자 정보를 생성한다(S140). 해석 정보 제공 시스템(100)은 유전자 샘플들에 포함된 정량 데이터를 이용하여, 유전자 정보를 구성하는 개별 유전자(g유전자)의 정량 데이터를 계산할 수 있다. 해석 정보 제공 시스템(100)은 예를 들면, Relative Log-Expression(RLE) 기반의 데이터 Normalization 기법이나, Trimmed mean of M value 기반의 Normalization 기법 사용하여, K개의 샘플들로부터 유전자 정보를 결정할 수 있다.
해석 정보 제공 시스템(100)은 유전자정보에 포함된 RNA들 및/또는 단백질들의 상관 관계를 기초로, 유전자 정보(3)에 포함된 RNA들 및/또는 단백질들을 그룹핑하여 복수의 유전자 모듈들을 생성한다(S150). 해석 정보 제공 시스템(100)은 통계적 기법 기반으로 유전자 대표 정보에 포함된 데이터들의 상관 관계 네트워크(correlation network)를 신생합성기술(De-novo)로 탐색하거나, 비지도 기계 학습(unsupervised machine learning) 기반으로 상관관계를 분석할 수 있다.
해석 정보 제공 시스템(100)은 외부 데이터베이스들에 정의된 기능들 중에서, 각 유전자 모듈에서 유의하게 농축된(enriched) 정보들을 결정하고, 각 유전자 모듈에 결정한 정보들을 어노테이션한다(S160). 외부 데이터베이스는 생물학적으로 발견된 유전자와 기능의 관계정보, 경로 및 상호작용(interaction) 정보 등의 유전자 특성 정보를 포함하는 생물학적 데이터베이스, 그리고 생화학, 의학, 약학 등 의료 분야에서 활용되는 의학적 데이터베이스 등을 포함할 수 있다. 해석 정보 제공 시스템(100)은 유전자세트농축분석(Gene Set Enrichment Analysis, GSEA)을 이용할 수 있다. 해석 정보 제공 시스템(100)은 각 유전자 모듈에 대응하여 추출한 기능의 연관(association)을 유의성 검정할 수 있다. 해석 정보 제공 시스템(100)은 각 유전자 모듈에서 유의하게 농출된 기능들을 생물학적 정보로 어노테이션하되, 기능에 연관된 의학적 정보를 함께 어노테이션할 수 있다.
해석 정보 제공 시스템(100)은 조직병리체학 대표 데이터에 포함된 개별 조직병리체학 데이터와, 각 유전자 모듈의 일대일 관계값(상관 관계값)을 계산한다(S170). 해석 정보 제공 시스템(100)은 도 3과 같이, 개별 조직병리체학 데이터와 각 유전자 모듈의 일대일 관계값을 계산할 수 있다. 해석 정보 제공 시스템(100)은 각 유전자 모듈의 값을 지정된 방식으로 축약한 후, 개별 조직병리체학 데이터와의 관계를 계산할 수 있다.
해석 정보 제공 시스템(100)은 개별 조직병리체학 데이터와의 관계값이 임계값 이상인 유전자 모듈을 해당 개별 조직병리체학 데이터에 연결한다(S180). 예를 들면, 해석 정보 제공 시스템(100)은 개별 조직병리체학 데이터 CE_TIL_DEN 및 CS_TIL_DEN와의 관계값이 임계값 이상인 유전자 모듈(black 컬러명)을 CE_TIL_DEN, CS_TIL_DEN에 연결할 수 있다. 여기서, black 컬러명으로 코드화된 유전자 모듈은 적어도 하나의 기능(Immune response & immune system process), 그리고 기능에 관련된 의학적 정보가 어노테이션되어 있는 유전자 모듈일 수 있다.
해석 정보 제공 시스템(100)은 연결된 개별 조직병리체학 데이터와 유전자 모듈, 그리고 유전자 모듈에 어노테이션된 정보를 인터페이스 화면에 제공한다(S190). 어노테이션된 정보는 개별 조직병리체학 데이터의 해석 정보로 사용될 수 있다.
이와 같이, 도 10에서 설명한 순서는 설계에 따라 변경될 수 있고, 순차적으로 또는 병렬적으로 단계가 진행될 수 있다.
도 11은 한 실시예에 따른 컴퓨팅 장치의 하드웨어 구성도이다.
도 11을 참고하면, 해석 정보 제공 시스템(100)은 적어도 하나의 프로세서에 의해 동작하는 컴퓨팅 장치(300)에서, 본 발명의 동작을 실행하도록 기술된 명령들(instructions)이 포함된 프로그램을 실행한다. 프로그램은 컴퓨터 판독가능한 저장매체에 저장될 수 있고, 유통될 수 있다.
컴퓨팅 장치(300)의 하드웨어는 적어도 하나의 프로세서(310), 메모리(330), 스토리지(350), 통신 인터페이스(370)을 포함할 수 있고, 버스를 통해 연결될 수 있다. 이외에도 입력 장치 및 출력 장치 등의 하드웨어가 포함될 수 있다. 컴퓨팅 장치(300)는 프로그램을 구동할 수 있는 운영 체제를 비롯한 각종 소프트웨어가 탑재될 수 있다.
프로세서(310)는 컴퓨팅 장치(300)의 동작을 제어하는 장치로서, 프로그램에 포함된 명령들을 처리하는 다양한 형태의 프로세서일 수 있고, 예를 들면, CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 등 일 수 있다. 메모리(330)는 본 발명의 동작을 실행하도록 기술된 명령들이 프로세서(310)에 의해 처리되도록 해당 프로그램을 로드한다. 메모리(330)는 예를 들면, ROM(read only memory), RAM(random access memory) 등 일 수 있다. 스토리지(350)는 본 발명의 동작을 실행하는데 요구되는 각종 데이터, 프로그램 등을 저장한다. 통신 인터페이스(370)는 유/무선 통신 모듈일 수 있다.
이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (16)

  1. 적어도 하나의 프로세서에 의해 동작하는 컴퓨팅 장치의 동작 방법으로서,
    환자들의 슬라이드 이미지들로부터 분석된 조직병리체학 데이터(pathomics) 샘플들, 그리고 상기 환자들의 유전자 샘플들을 입력받는 단계,
    상기 유전자 샘플들에 포함된 유전자 정보를 그룹핑하여 복수의 유전자 모듈들을 생성하는 단계,
    각 유전자 모듈에 유의하게 농축된(enriched) 데이터베이스들의 정보를 해당 유전자 모듈에 어노테이션하는 단계,
    상기 조직병리체학 데이터 샘플들을 대표하는 복수의 개별 조직병리체학 데이터와 상기 복수의 유전자 모듈들의 일대일 상관 관계값을 기초로, 상기 복수의 개별 조직병리체학 데이터와 상기 복수의 유전자 모듈의 연결 관계를 추출하는 단계,
    각 유전자 모듈에 어노테이션된 정보를 해당 유전자 모듈에 연결된 개별 조직병리체학 데이터에 연결하는 단계, 그리고
    상기 각 유전자 모듈에 어노테이션된 정보를 해당 유전자 모듈에 연결된 개별 조직병리체학 데이터의 해석 정보로 제공하는 단계를 포함하며,
    상기 조직병리체학 데이터 샘플들은 상기 슬라이드 병리 이미지들을 입력받은 인공지능 병리 분석기로부터 획득되고, 해당 슬라이드 이미지의 세포 정보 및 구조 정보 중 적어도 하나를 나타내는 복수의 파라미터들로 구성되며, 각 파라미터는 정량 데이터로 표현되는, 동작 방법.
  2. 제1항에서,
    상기 복수의 유전자 모듈들을 생성하는 단계는
    상기 유전자 샘플들에 포함된 RNA들 및/또는 단백질들의 상관관계를 기초로, 상기 RNA들 및/또는 단백질들을 상기 복수의 유전자 모듈들로 모듈화하는, 동작 방법.
  3. 제2항에서,
    각 유전자 샘플은 상기 RNA들 및/또는 단백질들을 전사체 분석 방법 및/또는 단백질체 분석 방법으로 측정한 정량 데이터를 포함하는, 동작 방법.
  4. 제1항에서,
    상기 데이터베이스들은
    생물학적으로 발견된 유전자와 기능(function)의 관계정보, 경로 및 상호작용(interaction) 정보를 포함하는 유전자 특성 정보, 그리고 의약학 정보를 제공하는 데이터베이스들 중에서 선택되는, 동작 방법.
  5. 제1항에서,
    상기 어노테이션하는 단계는
    농축분석(Enrichment Analysis)을 통해 상기 각 유전자 모듈에 유의하게 농축된 상기 데이터베이스들의 정보를 결정하는, 동작 방법.
  6. 제1항에서,
    상기 연결 관계를 추출하는 단계는
    상기 각 유전자 모듈의 값을 지정된 방식으로 축약하고, 축약된 각 유전자 모듈의 값을 이용하여 각 유전자 모듈과 각 개별 조직병리체학 데이터의 관계 유무를 결정하는, 동작 방법.
  7. 삭제
  8. 제1항에서,
    상기 개별 조직병리체학 데이터는 병리 이미지의 세포 정보 및 구조 정보를 나타내는 파라미터이고,
    상기 개별 조직병리체학 데이터의 값은 상기 조직병리체학 데이터 샘플들에서 해당 파라미터가 가지는 정량 데이터의 대표값으로 결정되는, 동작 방법.
  9. 컴퓨팅 장치로서,
    메모리, 그리고
    상기 메모리에 로드된 프로그램의 명령들(instructions)을 실행하는 적어도 하나의 프로세서를 포함하고,
    상기 프로세서는,
    환자들의 유전자 정보를 그룹핑하여 복수의 유전자 모듈들을 생성하고, 상기 복수의 유전자 모듈들 중에서 조직병리체학 데이터와 상관 관계가 있는 유전자 모듈을 결정하며, 각 유전자 모듈에 유의하게 농축된(enriched) 데이터베이스들의 정보를 해당 유전자 모듈과 상관 관계가 있는 조직병리체학 데이터에 연결하고, 상기 각 유전자 모듈에 유의하게 농축된 데이터베이스들의 정보를 해당 유전자 모듈에 어노테이션하고, 각 유전자 모듈에 어노테이션된 정보를 해당 유전자 모듈에 연결된 조직병리체학 데이터의 해석 정보로 제공하며,
    상기 조직병리체학 데이터는 병리 이미지들을 입력받은 인공지능 병리 분석기로부터 획득되고, 상기 병리 이미지들의 세포 정보 및 구조 정보 중 적어도 하나를 나타내는 복수의 파라미터들로 구성되고, 각 파라미터는 정량 데이터로 표현되며,
    상기 병리 이미지들은 상기 유전자 정보를 제공한 상기 환자들로부터 획득된 정보인, 컴퓨팅 장치.
  10. 제9항에서,
    상기 프로세서는
    상기 유전자 정보에 포함된 RNA들 및/또는 단백질들의 상관관계를 기초로, 상기 RNA들 및/또는 단백질들을 상기 복수의 유전자 모듈들로 모듈화하는, 컴퓨팅 장치.
  11. 제9항에서,
    상기 프로세서는
    농축분석(Enrichment Analysis)을 통해, 상기 각 유전자 모듈에서 유의하게 농축된 상기 데이터베이스들의 정보를 결정하는, 컴퓨팅 장치.
  12. 제9항에서,
    상기 프로세서는
    상기 각 유전자 모듈의 값을 지정된 방식으로 축약하고, 축약된 각 유전자 모듈의 값을 이용하여 각 유전자 모듈과 상기 조직병리체학 데이터에 포함된 개별 조직병리체학 데이터의 상관 관계값을 계산하고, 상기 상관 관계값이 임계값 이상인 유전자 모듈과 개별 조직병리체학 데이터의 관계를 형성하는, 컴퓨팅 장치.
  13. 삭제
  14. 컴퓨팅 장치에 의해 실행되고, 컴퓨터 판독 가능한 저장매체에 저장되는 프로그램으로서,
    환자들의 유전자 정보를 그룹핑하여 복수의 유전자 모듈들을 생성하는 단계,
    각 유전자 모듈에서 유의하게 농축된(enriched) 데이터베이스들의 정보를 해당 유전자 모듈에 어노테이션하는 단계,
    조직병리체학 데이터와 상기 복수의 유전자 모듈들의 상관 관계값을 기초로, 상기 조직병리체학 데이터와 상관 관계가 있는 유전자 모듈을 결정하는 단계,
    상기 상관 관계값을 기초로 추출된 상기 조직병리체학 데이터와 상기 복수의 유전자 모듈들의 연결 관계, 그리고 각 유전자 모듈에 어노테이션된 정보를 저장하는 단계, 그리고
    상기 조직병리체학 데이터와 상기 복수의 유전자 모듈들의 연결 관계를 기초로 상기 각 유전자 모듈에 어노테이션된 정보를 상기 조직병리체학 데이터의 해석 정보로 제공하는 단계
    를 실행하는 명령들을 포함하며,
    상기 조직병리체학 데이터는 병리 이미지들을 입력받은 인공지능 병리 분석기로부터 획득되되고, 상기 병리 이미지들의 세포 정보 및 구조 정보 중 적어도 하나를 나타내는 복수의 파라미터들로 구성되고, 각 파라미터는 정량 데이터로 표현되며,
    상기 병리 이미지들은 상기 유전자 정보를 제공한 상기 환자들로부터 획득된 정보인, 프로그램.
  15. 제14항에서,
    상기 어노테이션하는 단계는
    농축분석(Enrichment Analysis)을 통해, 각 유전자 모듈에서 유의하게 농축된 상기 데이터베이스들의 정보를 결정하고, 각 유전자 모듈에 유의하게 농축된 데이터베이스들의 정보를 해당 유전자 모듈에 어노테이션하는 것을 특징으로 하는, 프로그램.
  16. 삭제
KR1020190168111A 2019-12-16 2019-12-16 조직병리체학 데이터의 해석 정보를 제공하는 방법 및 시스템 KR102170297B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020190168111A KR102170297B1 (ko) 2019-12-16 2019-12-16 조직병리체학 데이터의 해석 정보를 제공하는 방법 및 시스템
US16/832,142 US20210183524A1 (en) 2019-12-16 2020-03-27 Method and system for providing interpretation information on pathomics data
PCT/KR2020/018348 WO2021125744A1 (en) 2019-12-16 2020-12-15 Method and system for providing interpretation information on pathomics data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190168111A KR102170297B1 (ko) 2019-12-16 2019-12-16 조직병리체학 데이터의 해석 정보를 제공하는 방법 및 시스템

Publications (1)

Publication Number Publication Date
KR102170297B1 true KR102170297B1 (ko) 2020-10-26

Family

ID=73006100

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190168111A KR102170297B1 (ko) 2019-12-16 2019-12-16 조직병리체학 데이터의 해석 정보를 제공하는 방법 및 시스템

Country Status (3)

Country Link
US (1) US20210183524A1 (ko)
KR (1) KR102170297B1 (ko)
WO (1) WO2021125744A1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112907555A (zh) * 2021-03-11 2021-06-04 中国科学院深圳先进技术研究院 一种基于影像基因组学的生存预测方法和系统
WO2021125744A1 (en) * 2019-12-16 2021-06-24 Lunit Inc. Method and system for providing interpretation information on pathomics data
WO2023167448A1 (ko) * 2022-03-03 2023-09-07 주식회사 루닛 병리 슬라이드 이미지를 분석하는 방법 및 장치
WO2023195564A1 (ko) * 2022-04-06 2023-10-12 주식회사 포트래이 공간전사체정보 분석장치 및 이를 이용한 분석방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101889722B1 (ko) 2017-02-10 2018-08-20 주식회사 루닛 악성 종양 진단 방법 및 장치

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6714925B1 (en) * 1999-05-01 2004-03-30 Barnhill Technologies, Llc System for identifying patterns in biological data using a distributed network
US6871171B1 (en) * 2000-10-19 2005-03-22 Optimata Ltd. System and methods for optimized drug delivery and progression of diseased and normal cells
US20050033556A1 (en) * 2003-08-06 2005-02-10 Olympus Corporation Diagnostic apparatus and diagnostic system on which the diagnostic apparatus is mounted
US9734285B2 (en) * 2010-05-20 2017-08-15 General Electric Company Anatomy map navigator systems and methods of use
EP3661559A1 (en) * 2017-08-01 2020-06-10 Deutsches Krebsforschungszentrum Stiftung des Öffentlichen Rechts Combination of midh1 inhibitors and dna hypomethylating agents (hma)
US20200222538A1 (en) * 2019-01-15 2020-07-16 International Business Machines Corporation Automated techniques for identifying optimal combinations of drugs
KR102170297B1 (ko) * 2019-12-16 2020-10-26 주식회사 루닛 조직병리체학 데이터의 해석 정보를 제공하는 방법 및 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101889722B1 (ko) 2017-02-10 2018-08-20 주식회사 루닛 악성 종양 진단 방법 및 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
J. Kong 외, "Machine-based Morphologic Analysis of Glioblastoma Using Whole-Slide Pathology Images Uncovers Clinically Relevant Molecular Correlates", PLOS ONE, 8권, 11호, 2013.11.* *
K-H. Yu 외, "Association of Omics Features with Histopathology Patterns in Lung Adenocarcinoma", Cell Systems 5, pp.620-627, 2017.12.27.* *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021125744A1 (en) * 2019-12-16 2021-06-24 Lunit Inc. Method and system for providing interpretation information on pathomics data
CN112907555A (zh) * 2021-03-11 2021-06-04 中国科学院深圳先进技术研究院 一种基于影像基因组学的生存预测方法和系统
WO2023167448A1 (ko) * 2022-03-03 2023-09-07 주식회사 루닛 병리 슬라이드 이미지를 분석하는 방법 및 장치
WO2023195564A1 (ko) * 2022-04-06 2023-10-12 주식회사 포트래이 공간전사체정보 분석장치 및 이를 이용한 분석방법

Also Published As

Publication number Publication date
WO2021125744A1 (en) 2021-06-24
US20210183524A1 (en) 2021-06-17

Similar Documents

Publication Publication Date Title
KR102170297B1 (ko) 조직병리체학 데이터의 해석 정보를 제공하는 방법 및 시스템
US9639659B2 (en) Ancestral-specific reference genomes and uses in identifying a candidate for a clinical trial
Lobley et al. Inferring function using patterns of native disorder in proteins
Alhamdoosh et al. Easy and efficient ensemble gene set testing with EGSEA
Leach et al. Biomedical discovery acceleration, with applications to craniofacial development
Wang et al. DeepDRK: a deep learning framework for drug repurposing through kernel-based multi-omics integration
Guo et al. Towards a holistic, yet gene‐centered analysis of gene expression profiles: a case study of human lung cancers
Canozo et al. Cell-type modeling in spatial transcriptomics data elucidates spatially variable colocalization and communication between cell-types in mouse brain
WO2016118771A1 (en) System and method for drug target and biomarker discovery and diagnosis using a multidimensional multiscale module map
Simsek et al. Leukemia Sub-Type Classification by Using Machine Learning Techniques on Gene Expression
Cazares et al. maxATAC: Genome-scale transcription-factor binding prediction from ATAC-seq with deep neural networks
Sealfon et al. Machine learning methods to model multicellular complexity and tissue specificity
CN117422704A (zh) 一种基于多模态数据的癌症预测方法、系统及设备
Jeitziner et al. Two-Tier Mapper, an unbiased topology-based clustering method for enhanced global gene expression analysis
Jin et al. CellDrift: inferring perturbation responses in temporally sampled single-cell data
Fronza et al. A graph based framework to model virus integration sites
WO2021105005A1 (en) Method and system for phenotypic profile similarity analysis used in diagnosis and ranking of disease-driving factors
Li et al. Navigating the landscapes of spatial transcriptomics: How computational methods guide the way
Wang et al. Decoding transcriptional regulation via a human gene expression predictor
Cao Dimensional reconstruction of psychotic disorders through multi-task learning
Gulko Joint Inference of Human Genomic Function and Selective Pressure
Xu et al. A comprehensive benchmarking with interpretation and operational guidance for the hierarchy of topologically associating domains
Mooney et al. 9.1 The Problem of Handling Biological Information–275
Andersson Computational methods for analysis of spatial transcriptomics data: An exploration of the spatial gene expression landscape
Singh et al. Can Big Data Analytics Recapitulate Biology? A Survey of Multi-omics Data Integration Approaches

Legal Events

Date Code Title Description
GRNT Written decision to grant