KR102483745B1 - 공간전사체정보 분석장치 및 이를 이용한 분석방법 - Google Patents

공간전사체정보 분석장치 및 이를 이용한 분석방법 Download PDF

Info

Publication number
KR102483745B1
KR102483745B1 KR1020220042884A KR20220042884A KR102483745B1 KR 102483745 B1 KR102483745 B1 KR 102483745B1 KR 1020220042884 A KR1020220042884 A KR 1020220042884A KR 20220042884 A KR20220042884 A KR 20220042884A KR 102483745 B1 KR102483745 B1 KR 102483745B1
Authority
KR
South Korea
Prior art keywords
spatial
information
transcript
data
spots
Prior art date
Application number
KR1020220042884A
Other languages
English (en)
Inventor
서미경
이대승
최홍윤
Original Assignee
주식회사 포트래이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 포트래이 filed Critical 주식회사 포트래이
Priority to KR1020220042884A priority Critical patent/KR102483745B1/ko
Priority to PCT/KR2022/005223 priority patent/WO2023195564A1/ko
Application granted granted Critical
Publication of KR102483745B1 publication Critical patent/KR102483745B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 공간전사체정보 분석장치 및 이를 이용한 공간전사체정보 분석방법에 관한 것으로서, 조직이미지(TI) 상 전사체정보가 없는 빈 공간이 보간되도록 공간전사체정보를 재구성한 재구성데이터를 이용한 공간전사체정보 분석장치 및 이를 이용한 공간전사체정보 분석방법에 관한 것이다.
본 발명은, 조직이미지(TI) 상 이격된 복수의 스팟(P1, …, PN)들의 위치정보와 상기 복수의 스팟(P1, …, PN)들 마다 대응되는 전사체정보(R1, …, RN)로 구성된 공간전사체데이터를 수신하는 정보수신부(110)와; 상기 전사체정보(R1, …, RN)가 없는 상기 복수의 스팟(P1, …, PN)들 사이 빈 공간이 보간되도록 상기 공간전사체데이터를 재구성한 재구성데이터를 산출하는 데이터재구성부(120)와; 상기 재구성데이터를 기초로 유전자발현패턴을 분석하는 전사체정보분석부(130);를 포함하는 것을 특징으로 하는 공간전사체정보 분석장치(100)를 개시한다.

Description

공간전사체정보 분석장치 및 이를 이용한 분석방법{Spatial transcriptome analysis apparatus and method using the same}
본 발명은 공간전사체정보 분석장치 및 이를 이용한 분석방법에 관한 것으로서, 조직이미지 상 전사체정보가 없는 빈 공간이 보간되도록 공간전사체정보를 재구성한 재구성데이터를 이용한 분석장치 및 이를 이용한 분석방법에 관한 것이다.
공간전사체데이터는 공간에 따른 위치정보와 전사체정보(유전자들의 발현정보)를 담은 데이터의 총합을 지칭한다. 공간전사체데이터는 수백에서 수만개의 스팟으로 구성된 데이터로, 상기 스팟은 조직의 아주 작은 부분을 의미한다. 즉, 공간전사체데이터는 조직의 위치 정보와 해당 조직의 유전자들의 발현정보로 구성된 데이터이다.
공간전사체데이터는 수만가지의 유전자 발현정보에 대해 수천-수만 가지의 작은 공간적 영역(스팟) 별 데이터가 분석되어야 하며, 스팟들의 위치정보까지 더해져 있어 적절한 분석 방법이 요구된다.
또한 전사체정보를 가지는 스팟 사이의 간격은 모두 채워진 것이 아니어서 전사체정보가 없는 빈 공간에 대한 유전자발현 정보는 헤아릴 수 없어 생물학적 이해 및 시각적 해석에 제한이 있는 실정이다.
이에 더하여, 서로 다른 공간상에 위치하는 다른 조직이나 여러 조직 샘플들 사이의 유전자 발현정보를 비교할 때 샘플 간의 위치와 모양이 동일하지 않기 때문에 여러 농도처리를 한 약물 데이터, 발달진행과정 데이터, 조건이 다른 데이터 등 비교분석을 할 때 어려움이 있다.
따라서 공간적으로 비슷한 패턴을 보이는 유전자군을 선별하거나 서로 다른 조직 간의 유전자발현의 양상 비교를 가능하게 하는 공간전사체데이터 분석기술의 필요성이 크다.
본 발명의 목적은, 상기와 같은 문제점 및 필요성을 인식하여, 공간전사체정보가 없는 스팟 사이 빈 공간의 정보를 유추하여 공간 상 비슷한 발현패턴을 보이는 유전자셋을 선별하거나 서로 다른 조직 간의 유전자발현의 양상 비교가 용이하게 할 수 있는 공간전사체정보 분석장치 및 이를 이용한 공간전사체정보 분석방법을 제공하는데 있다.
본 발명은 상기와 같은 본 발명의 목적을 달성하기 위하여 창출된 것으로서, 조직이미지(TI) 상 이격된 복수의 스팟(P1, …, PN)들의 위치정보와 상기 복수의 스팟(P1, …, PN)들 마다 대응되는 전사체정보(R1, …, RN)로 구성된 공간전사체데이터를 수신하는 정보수신부(110)와; 상기 전사체정보(R1, …, RN)가 없는 상기 복수의 스팟(P1, …, PN)들 사이 빈 공간이 보간되도록 상기 공간전사체데이터를 재구성한 재구성데이터를 산출하는 데이터재구성부(120)와; 상기 재구성데이터를 기초로 유전자발현패턴을 분석하는 전사체정보분석부(130);를 포함하는 공간전사체정보 분석장치(100)를 개시한다.
상기 전사체정보(R1, …, RN)는 복수의 전사체(A1, …, AM)들 각각의 발현량에 대한 정보를 포함할 수 있다.
상기 유전자발현패턴은, 상기 조직이미지(TI)와 동일한 조직의 유전자발현패턴 또는 다른 조직의 유전자발현패턴일 수 있다.
상기 재구성데이터는, 상기 복수의 전사체(A1, …, AM)들 각각에 대해 상기 발현량이 상기 복수의 스팟(P1, …, PN)들의 중앙좌표(C1, …, CN)를 중심으로 연속확률분포를 따라 분포되는 것으로 가정하여 재구성된 전사체분포정보를 포함할 수 있다.
상기 연속확률분포는, 상기 중앙좌표(C1, …, CN)를 중앙값으로 하고 미리 설정된 분산값을 가지는 정규분포일 수 있다.
상기 공간전사체정보분석장치(100)는, 상기 전사체분포정보로부터 상기 복수의 전사체(A1, …, AM)들의 공간상 분포를 시각화한 2차원이미지(T1, …, TK)를 생성하는 이미지생성부(140)를 추가로 포함할 수 있다.
상기 전사체정보분석부(130)는, 상기 재구성데이터의 특성값을 추출하는 특성추출부(132)와, 상기 특성값의 유사도를 기준으로 상기 재구성데이터를 군집화한 클러스터(CLT)를 생성하는 군집화부(134)를 포함할 수 있다.
상기 특성추출부(132)는, 상기 재구성데이터를 저차원데이터로 축소하여 상기 특성값을 추출할 수 있다.
상기 특성추출부(132)는, 상기 재구성데이터를 저차원데이터로 압축하는 인공신경망모델을 포함할 수 있다.
상기 인공신경망모델은, 상기 재구성데이터를 학습데이터로 할 수 있다.
상기 특성값은 상기 저차원데이터로 표현되는 잠재벡터값일 수 있다.
상기 군집화부(134)는, 비지도학습 기반의 군집화알고리즘을 이용해 군집화를 수행할 수 있다.
상기 군집화부(134)는, 상기 클러스터(CLT)에 연관된 유전자셋(G)을 도출할 수 있다.
상기 군집화부(134)는, 상기 클러스터(CLT)의 실루엣값 및 상관계수 중 적어도 어느 하나를 기초로 상기 유전자셋(G)에 포함될 유전자를 최종 선별할 수 있다.
상기 이미지생성부(140)는, 서로 다른 조직이미지(TI)들 각각에 대해 상기 2차원이미지(T1, …, TK)를 생성할 수 있다.
상기 공간전사체정보분석장치(100)는, 상기 2차원이미지(T1, …, TK)에 대해 공간정규화를 수행하여 공간정규화이미지(S1, …, SK)를 생성하는 공간정규화부(150)를 추가로 포함할 수 있다.
상기 전사체정보분석부(130)는, 상기 서로 다른 조직이미지(TI)들에 대해 상기 공간정규화이미지(S1, …, SK)를 상호 비교하여 상기 서로 다른 조직이미지(TI)들 사이의 유전자발현패턴을 비교 분석할 수 있다.
다른 측면에서 본 발명은 공간전사체정보분석장치(100)와; 상기 공간전사체정보 분석장치(100)와 네트워크를 통해 연결되는 사용자단말(300)을 포함하는 것을 특징으로 하는 공간전사체정보 분석시스템(1000)을 개시한다.
다른 측면에서 본 발명은 공간전사체정보 분석장치(100)를 이용한 공간전사체정보 분석방법을 개시한다.
다른 측면에서 본 발명은 공간전사체정보 분석방법을 수행하기 위한 컴퓨터 실행가능한 공간전사체정보 분석프로그램을 개시한다.
다른 측면에서 본 발명은 조직이미지(TI) 상 이격된 복수의 스팟(P1, …, PN)들의 위치정보와 상기 복수의 스팟(P1, …, PN)들 마다 대응되는 전사체정보(R1, …, RN)로 구성된 공간전사체데이터를 재구성한 재구성데이터를 이용해 전사체분포에 대한 2차원이미지(T1, …, TK)를 생성하는 이미지생성장치(200)를 개시한다.
상기 재구성데이터는, 상기 복수의 전사체(A1, …, AM)들 각각의 발현량이 상기 복수의 스팟(P1, …, PN)들의 중앙좌표(C1, …, CN)를 중심으로 연속확률분포를 따라 분포되는 것으로 가정하여 재구성된 전사체분포정보를 포함할 수 있다.
다른 측면에서 본 발명은 2차원이미지생성장치(200)에서 생성된 상기 2차원이미지(T1, …, TK)를 이용해 공간상 유사한 분포를 가지는 유전자를 추출하는 유전자스크리닝방법을 개시한다.
다른 측면에서 본 발명은 2차원이미지생성장치(200)에서 서로 다른 조직의 조직이미지(TI)에 대해 생성된 상기 2차원이미지(T1, …, TK)를 대비해 상기 서로 다른 조직의 조직이미지(TI) 사이의 유전자발현패턴을 비교 분석하는 조직간 유전자발현 비교분석방법을 개시한다.
본 발명에 따른 공간전사체정보 분석장치 및 이를 이용한 분석방법은, 전사체정보가 없는 스팟 사이 빈 공간의 정보를 유추하여 공간 상 비슷한 발현패턴을 보이는 유전자셋을 선별하거나 서로 다른 조직 간의 유전자발현의 양상 비교가 용이하게 할 수 있고, 이를 통해 더 나은 생물학적 및 기능적 이해와 새로운 통찰력을 제공할 수 있는 이점이 있다.
구체적으로 본 발명은, 조직내 유전자발현 및 공간정보를 바탕으로 전사체정보가 없는 빈 공간에서 유전자 발현값을 유추하여, 전사체분포정보(유전자발현패턴)에 대한 2차원이미지를 생성할 수 있고, 또한 공간적으로 유사하게 분포하는 유전자들을 찾아내고 원하는 유전자 또는 특성으로부터 비슷한 발현패턴을 보이는 유전자들을 선택할 수 있다.
또한, 본 발명은 이를 통해 특정 원하는 타겟 물질 또는 분자와 공간적으로 연관된 유전적 정보를 획득하거나 또는 서로 다른 조직간 비교를 위해 2차원이미지로 영상화한 전사체분포정보(유전자발현패턴)를 서로 다른 공간상 존재하는 조직을 정규화 함으로써 서로 다른 조직간 비교를 가능하게 할 수 있다.
더 나아가, 본 발명은 질병 또는 약제 등에 의한 전사체분포정보(유전자발현패턴)의 변화를 서로 다른 조직 간에도 비교할 수 있는 방법으로 활용할 수 있고, 다양한 병태생리 연구 및 신약개발에 활발하게 활용되고 응용될 수 있다.
도 1은, 본 발명의 일 실시예에 따른 공간전사체정보 분석시스템을 보여주는 개념도이다.
도 2는, 도 1의 공간전사체정보 분석장치를 보여주는 블록도이다.
도 3은, 도 1의 공간전사체정보 분석시스템에서 수행되는 공간전사체정보 분석방법을 보여주는 플로우차트이다.
도 4는, 공간전사체데이터를 구성하는 스팟을 보여주는 개념도이다.
도 5는, 공간전사체데이터를 종래 방식으로 시각화한 시각화이미지를 보여주는 도면이다.
도 6은, 도 2의 공간전사체정보 분석장치에서 재구성데이터를 군집화하는 과정을 설명하는 도면이다.
도 7은, 공간전사체데이터를 재구성데이터로 재구성하는 원리를 설명하는 도면이다.
도 8은, 재구성데이터를 시각화한 시각화이미지를 보여주는 도면이다.
도 9는, 재구성데이터의 특성값의 유사도를 기준으로 군집화된 유전자를 보여주는 도면이다.
도 10은, 군집화된 유전자셋의 공간 상 발현패턴을 이미지화한 도면이다.
도 11은, 시뮬레이션 유전자셋과 비교하여 군집화된 유전자셋에서의 유전자 간 상관관계 평가를 도시한 그래프이다.
도 12는, 시뮬레이션 유전자셋과 비교하여 군집화된 유전자셋의 분별력 평가를 도시한 그래프이다.
도 13a 및 도 13b는, 해부학 상 조직의 섬유조직의 전달경로(fiber tract)와 해당 공간영역과 일치하는 유전자셋(G)의 2차원이미지들을 보여주는 도면이다.
도 14는, 조직의 분자적 병리학적 특징 및 기능과 관련되어 추출된 유전자들의 2차원이미지들을 보여주는 도면이다.
도 15는, 조직 공간 상 유전자 발현패턴이 유사한 군집(Cluster)이 구분되도록 도시한 도면이다.
도 16은, 도 15의 군집의 특성을 나타내는 주요 유전자(들)에 대해 생성된 2차원이미지를 보여주는 도면이다.
도 17a 및 도 17b는, 서로 다른 5개의 조직의 2차원이미지에 대한 공간정규화를 시행한 정규화이미지를 보여주는 도면이다.
도 18a은, 노출된 헴 농도가 다른 5개의 조직의 유전자 발현패턴을 보여주는 정규화이미지이며, 도 18b는 도 18a의 정규화이미지의 픽셀 값으로 상관관계를 분석하여 선별된 공간적으로 유사한 유전자셋을 보여주는 도면이다.
이하 본 발명에 따른 공간전사체정보 분석시스템(1000)에 관하여 첨부된 도면을 참조하여 설명하면 다음과 같다.
상기 공간전사체정보 분석시스템(1000)은 공간전사체정보를 이용해 공간전사체정보를 이용해 전사체분포에 대한 2차원이미지를 생성하거나, 공간전사체정보를 이용해 조직의 유전자발현패턴을 분석하거나 또는 서로 다른 조직 간 유전자발현패턴을 비교 분석하기 위한 시스템일 수 있다.
예로서, 본 발명에 따른 공간전사체정보 분석시스템(1000)은, 도 1에 도시된 바와 같이, 사용자단말(300)과, 상기 사용자단말(300)과 네트워크를 통해 연결되며, 공간전사체정보를 이용해 공간전사체정보를 이용해 전사체분포에 대한 2차원이미지를 생성하는 이미지생성장치(200)를 포함할 수 있다.
상기 사용자단말(300)은, 후술하는 이미지생성장치(200)와 네트워크를 통해 연결되는 컴퓨팅 장치에 해당하고, 예를 들어, 데스크톱, 노트북, 태블릿 PC 또는 스마트폰으로 구현될 수 있으며, 이미지생성장치(200)와 네트워크 연결을 위한 네트워크 인터페이스 및 사용자입출력을 위한 사용자입력/출력 인터페이스를 포함할 수 있다.
예로서, 상기 사용자단말(300)은, 모바일 단말에 해당할 수 있고, 이미지생성장치(200)와 셀룰러 통신 또는 와이파이 통신을 통해 연결될 수 있다.
다른 예로서, 상기 사용자단말(300)은, 데스크톱에 해당할 수 있고, 이미지생성장치(200)와 인터넷을 통해 연결될 수 있다.
상기 이미지생성장치(200)는, 사용자단말(300)과 네트워크를 통해 연결되며, 상기 사용자단말(300)로부터의 요청이나 명령을 수신하거나 또는 사용자단말(300)로 요청이나 명령을 송신할 수 있으며, 조직이미지(TI) 상 이격된 복수의 스팟(P1, …, PN)들의 위치정보와 상기 복수의 스팟(P1, …, PN)들 마다 대응되는 전사체정보(R1, …, RN)로 구성된 공간전사체데이터를 재구성한 재구성데이터를 이용해 전사체분포에 대한 2차원이미지(T1, …, TK)를 생성하기 위한 서버로서 다양한 구성이 가능하다.
상기 공간전사체데이터는, 도 4에 도시된 바와 같이, 조직이미지(TI) 상 이격된 복수의 스팟(P1, …, PN)들의 위치정보와 상기 복수의 스팟(P1, …, PN, N은 자연수로서 스팟의 총 개수)들 마다 대응되는 전사체정보(R1, …, RN)로 구성된 전체 데이터일 수 있다.
상기 스팟(P1, …, PN)은, 조직이미지(TI) 상 작은 영역을 의미하며 각 스팟(P1, …, PN)에 유전자 발현정보로서 전사체정보(R1, …, RN)가 각각 대응될 수 있다.
공간전사체데이터 = {(Pn, Rn)|1≤n≤N, N은 자연수로서 스팟의 총 개수}
여기서, 전사체정보(R1, …, RN)는, 복수의 전사체(A1, …, AM, M은 전사체 총 개수)들 각각의 발현량에 대한 정보를 포함할 수 있다. 여기서, 각 전사체(A1, …, AM) 발현량에 대한 정보는 각 유전자 발현량에 대한 정보일 수 있다.
상기 복수의 스팟(P1, …, PN)들은 서로 이격되어 있고 스팟(P1, …, PN) 사이 사이는 전사체정보(R1, …, RN)가 없는 빈 공간(V, 영역)일 수 있다.
즉, 스팟(P1, …, PN) 사이 빈 공간(V)에서의 전사체정보(R1, …, RN)는 알 수 없기 때문에 공간전사체데이터를 이용한 생물학적 이해 및 시각적 해석에 제한이 발생된다.
도 5는 각 스팟(P1, …, PN)의 중점 주변으로 원(육각형 등의 다각형도 가능)을 그리고 전사체 발현량(유전자 발현량)에 따라 색상이나 농도를 달리 하여 공간전사체데이터를 이미지로 시각화한 도면으로, 종래 기술을 통해 공간전사체데이터를 시각화하는 방식으로 생성된 것이다.
스팟(P1, …, PN) 사이에는 전사체 발현량(유전자 발현량)에 대한 정보가 없으므로, 이미지 관점에서는 희박하게(sparse) 분포되는 데이터이다.
상기 재구성데이터는, 공간전사체데이터를 재구성한 데이터로, 전사체정보(R1, …, RN)가 없는 상기 복수의 스팟(P1, …, PN)들 사이 빈 공간(V)이 보간되도록 재구성된 데이터일 수 있다.
상기 공간전사체데이터를 재구성데이터로 재구성하는 원리는, 상기 복수의 스팟(P1, …, PN)들 사이 빈 공간(V)의 전사체정보를 유추하는 것이다.
예로서, 상기 재구성데이터는, 상기 복수의 전사체(A1, …, AM)들 각각의 발현량이 상기 복수의 스팟(P1, …, PN)들의 중앙좌표(C1, …, CN)를 중심으로 연속확률분포를 따라 분포되는 것으로 가정하여 재구성된 데이터일 수 있다.
상기 재구성데이터는 전사체분포정보를 포함할 수 있는데, 전사체분포정보란 각 전사체(A1, …, AM)의 발현량(유전자 발현량)을 의미할 수 있다.
상기 복수의 전사체(A1, …, AM)들의 발현량이 상기 복수의 스팟(P1, …, PN)들의 중앙좌표(C1, …, CN)를 중심으로 연속확률분포를 따라 분포되는 것으로 가정하고, 각 스팟(P1, …, PN)에 대해 모두 합산하면 각 전사체(A1, …, AM) 별 전사체분포정보가 재구성데이터로서 얻어질 수 있다.
상기 연속확률분포는, 상기 중앙좌표(C1, …, CN)를 중앙값으로 하고 미리 설정된 분산값을 가지는 정규분포일 수 있으나, 이에 한정되는 것은 아니다.
도 7은 공간전사체데이터를 재구성데이터로 재구성하는 원리를 보여주는 모식도로서, 재구성데이터는 이미지 관점에서 연속적으로 분포되는 데이터일 수 있다. 도 7을 참조하면, 특정 스팟(Pn)에서 나오는 전사체 발현량(유전자 발현량)이 확률적으로 공간상 연속확률분포(ex, 정규분포)를 따른다고 가정(즉, 스팟(Pn)의 중앙좌표(Cn) 로부터 멀어질수록 스팟(Pn)에서 획득한 전사체 발현량(유전자 발현량)이 떨어진다고 가정)하고 모든 스팟(P1, …, PN)에 대해 이를 더하는 과정을 통해, 희소한 좌표로 구성된 공간전사체데이터를 밀집한 2차원 행렬로 재구성하여 이미지를 획득할 수 있음을 알 수 있다.
상기 이미지생성장치(200)는, 전사체 발현량(유전자 발현량)에 따라 색상이나 농도를 달리 하여 재구성데이터를 시각화한 2차원이미지(T1, …, TK, K는 2차원이미지의 개수)를 생성할 수 있다. 전사체(유전자) 1개당 하나의 2차원이미지가 만들어질 수 있고, 2만개 이상의 유전자 각각에 대하여 2차원 이미지로 나타날 수 있다.
즉, 상기 2차원이미지(T1, …, TK)는, 각 전사체(A1, …, AM) 마다 생성될 수 있다. 예로서, M개의 전사체(A1, …, AM)에 대해 각각 대응되는 M개의 2차원이미지(T1, …, TM)가 생성될 수 있다. 하나의 2차원이미지(T1, …, TM)가 여러 개의 전사체(A1, …, AM)에 대한 전사체분포정보를 포함하는 실시예도 가능함은 물론이다.
도 8은, 상기 이미지생성장치(200)에서 생성된 2차원이미지의 일 예로서, 전사체 발현량(유전자 발현량)에 따라 위치 별 색상이나 농도를 달리 하여 재구성데이터를 2차원 이미지로 시각화한 도면이다. 특히, 도 8은 도 5에서의 공간전사체데이터를 재구성한 재구성데이터를 시각화한 2차원이미지(T1, …, TK)이며, 전사체 발현량(유전자 발현량)을 픽셀단위의 2차원 행렬형태로 나타내어 이미지로 표현한 결과를 보여준다.
본 발명을 통한 방법을 통해 스팟(P1, …, PN)의 전사체정보(유전자발현 정보)가 2차원 공간상에서 확률분포값으로 나타난다는 가정을 통해 2차원 공간으로 재구성하게 될 경우 도 5의 이미지가 도 8 과 같은 2차원 이미지로 재구성되어 나타날 수 있는 것이다.
상기 이미지생성장치(200)를 통해 생성된 2차원이미지(T1, …, TK)는 연속적인 전사체분포정보를 가지고 있기 때문에, 조직의 생물학적 이해 및 시각적 해석에 효과적으로 활용될 수 있다.
상기 이미지생성장치(200)는, 2차원이미지(T1, …, TK)를 생성하기 위해 외부의 데이터베이스(DB) 또는 사용자단말(300)로부터 재구성데이터를 전달받거나, 또는 공간전사체데이터를 재구성데이터로 재구성할 수 있다.
본 발명에서 공간전사체데이터를 재구성데이터로 재구성하여 2차원이미지를 생성하는 것은 공간전사체데이터를 다차원이미지 수준으로 데이터 구조를 변경한다는 것을 의미한다. 이를 통해 전사체분포정보(유전자 발현정보)에 대한 군집화와 서로 다른 조직에 대한 공간적 비교를 가능하게 하는 방법이 제시될 수 있고, 기존 해결되지 못한 문제를 풀 수 있는 기반기술을 제공할 수 있다. 즉, 본 발명은 공간전사체데이터 생산 및 분석기술을 가지고 있는 기업뿐만 아니라, 도출된 후보 물질 (마커)을 이용하여 신약을 개발할 수 있는 기업에 모두 유용한 기술이 될 수 있다는 측면에서 매우 유용하다.
활용 예로서, 상기 2차원이미지생성장치(200)에서 생성된 상기 2차원이미지(T1, …, TK)는 공간상 유사한 분포를 가지는 유전자를 추출하는 유전자스크리닝에 활용될 수 있다. 즉, 본 발명은 수만개의 2차원이미지에 대해 유사한 이미지, 즉 유사한 공간 유전자 발현을 갖는 유전자끼리 클러스터링 할 수 있는 방법으로 이어질 수 있다.
상기 2차원이미지생성장치(200)에서 생성된 상기 2차원이미지(T1, …, TK)를 이용해 수행되는 유전자스크리닝방법은, 2차원이미지생성장치(200)에서 생성된 2차원이미지(T1, …, TK)들을 이용해 공간상 유사한 분포를 가지는 유전자를 추출하는 방법이다.
보다 구체적으로 상기 유전자스크리닝방법은, 2차원이미지(T1, …, TK)들의 특성값을 추출하는 특성값 추출단계와, 상기 특성값의 유사도를 기준으로 군집화하여 클러스터(CLT)를 생성하는 군집화단계와, 클러스터(CLT)에 연관된 유전자셋(G)을 도출하는 유전자추출단계를 포함할 수 있다.
상기 특성값은 2차원이미지(T1, …, TK)들의 이미지특성을 보여주는 것으로, 상기 재구성데이터를 저차원데이터로 축소한 데이터일 수 있으며, 예로서, 차원축소알고리즘(PCA, LDA 등) 또는 인공신경망모델(ANN)을 이용해 추출될 수 있다.
상기 인공신경망모델(ANN)은 재구성데이터를 학습데이터로 비지도 방식으로 훈련되어 2차원이미지(T1, …, TK)들에 대한 특성값을 출력할 수 있는 인공신경망모델(ANN)일 수 있다.
예로서, 상기 인공신경망모델(ANN)은 상기 재구성데이터를 저차원데이터로 압축하는 제1신경망(ANNa)과 압축된 저차원데이터를 원본차원으로 복원하여 상기 재구성데이터를 출력하는 제2신경망(ANNb)을 포함할 수 있다.
이때, 상기 특성값은 상기 저차원데이터로 표현되는 잠재벡터값일 수 있다.
상기 군집화단계는, 비지도학습 기반의 군집화알고리즘을 이용해 군집화를 수행하는 단계로서, 다양한 군집화알고리즘이 활용될 수 있다.
예로서, 상기 군집화알고리즘은, K-mean clustering, ISODATA, Mean shift, Gaussian Mixture Model, DBSCAN, Self-organizing Map 등 다양한 비지도학습 기반 알고리즘이 가능하다. 이때, 최적의 클러스터 개수는 종래 알려진 다양한 기법으로 산출될 수 있다.
일 실시예로서, 상기 군집화알고리즘이 K-mean clustering인 경우, 최적의 클러스터 개수는 엘보우 기법, 실루엣 기법, 손실함수 등 다양한 기법이 활용될 수 있고, 특정 방법에 한정되지 않는다.
상기 군집화알고리즘을 통해, 상기 2차원이미지(T1, …, TK)들을 군집화한 적어도 1개 이상의 클러스터(CLT)가 생성될 수 있다.
상기 유전자추출단계는 클러스터(CLT)에 연관된 유전자셋(G)을 도출하는 단계로서, 여기서 유전자셋(G)이란 동일한 클러스터(CLT)에 속하는 2차원이미지(T1, …, TK)와 연관된 유전자(전사체(A1, …, AM))들의 집합을 의미할 수 있다.
동일한 클러스터(CLT)에서 도출된 유전자셋(G)에 속하는 유전자(전사체(A1, …, AM))들은 공간 상 분포패턴이 유사한 유전자들로서 해부학적/병리학적/기능적 유사성을 가지는 유전자들로 이해될 수 있다.
또한, 상기 유전자추출단계는 클러스터(CLT)에 대한 평가지표를 기초로 상기 유전자셋(G)에 포함될 유전자를 최종 선별하는 단계를 추가로 포함할 수 있다.
상기 평가지표는, 클러스터(CLT)에 대한 유효성 지표(클러스터링의 품질을 정량화 하기 위한 지표)로서, 클러스터(CLT) 내 데이터들이 뭉쳐진 정도, 클러스터(CLT) 간 분리된 정도, 클러스터(CLT) 내 연결성을 평가할 수 있는 수단으로 실루엣값이나 상관계수 등 다양한 지표가 활용될 수 있다.
평가지표는 좀 더 공간적 분포가 유사한 유전자(전사체)를 도출하기 위한 최적화 수단으로, 예로서 실루엣(silhouette) 값을 계산하여 양의 값을 지니는 유전자(전사체)만을 클러스터(CLT)에 포함시킬 수 있다.
또한, 상기 유전자추출단계는, 유전자 발현량(전사체 발현량)을 활용하기 위하여 클러스터(CLT) 내의 유전자 쌍의 상관관계를 상관계수를 계산하여 측정하는 단계를 더 포함할 수 있다.
예로서, 상관계수를 스피어만 상관계수(Spearman correlation coefficient)로 계산하여 상관계수 r>0.1과 p-value<0.001을 만족하는 전사체(유전자)를 선별하여 최종적으로 클러스터별 유전자셋(G)을 도출할 수 있다.
여기서 유전자셋(G)의 최적화 단계에서 사용되는 통계학적 유의차는 통상적으로 사용되고 있는 통계학적 컷오프를 기준으로 할 수 있다. 예를 들어, 통계학적 유의차는 0.05, 0.01, 0.005, 0.001 보다 적거나 이와 등가의 p-value일 수 있다.
관련하여 도 9는, 각 유전자(전사체)에 대한 2차원이미지(T1, …, TK)들의 특성값(잠재백터값)을 2차원으로 축소하여 특성값이 유사한 몇 개의 클러스터(CLT)로 군집화된 그룹을 시각화한 그림(tSNE)을 나타낸다.
도 10은, 도 9에서 동일한 클러스터(CLT)에 속하여 클러스터(CLT)의 대표이미지와 공간 상 분포패턴이 유사한 유전자들(예로서, ACTA2, DES, IGHA2, MYH11)의 공간 상 분포패턴을 시각화한 이미지를 나타낸다.
도 11은, 시뮬레이션 유전자셋과 비교하여 클러스터(CLT) 내의 유전자셋(G)에서의 유전자 간 상관관계 평가를 도시한 그래프이다.
도 11에서 시뮬레이션은 가장 편차가 큰 2000개의 유전자셋(폐의 정상조직의 분할정보(segmentation annotation)가 있는 공간전사체데이터를 사용하여 스팟 간에 가장 편차가 큰 2000개의 유전자를 추출함)에서 시작한다. 본 발명에 따라 도출된 7개의 각 클러스터(CLT)의 유전자의 총 수만큼 해당 클러스터(CLT)별로 임의의 유전자셋을 만들어 진행하였다. 저차원데이터로 압축된 특성값을 군집화하여 공간적 분포가 유사한 유전자(전사체)를 찾아낸 유전자셋(G)과 시뮬레이션하여 임의로 뽑은 유전자셋과의 클러스터(CLT) 내 유전자쌍의 상관관계를 비교하였을 때, 본 발명에 따라 도출된 유전자셋(G)이 클러스터(CLT) 내 유전자(전사체)들의 상관관계가 더 높음을 보여주었다. 이는 본 발명에 따라 도출된 유전자셋(G)이 공간적으로 비슷한 발현패턴을 가지고 있음을 보여주는 것이다.
도 12는 도 11의 시뮬레이션 유전자셋과 비교하여 클러스터(CLT) 내 유전자셋(G)의 분별력을 평가한 결과를 도시한 것이다. 도 12는 유전자셋을 하나의 시그니처(signature)로 간주하여 모든 스팟에 대해 각 유전자셋 별 시그니처 스코어를 계산하고 이미 알고 있는 분할 정보에 대해 분산분석(ANOVA) 검정으로 평균제곱(MS)과 F 비율값을 계산하였다. 본 발명에 따라 도출된 유전자셋(G)의 시그니처 스코어와 시뮬레이션된 유전자셋들에 대해 시그니처 스코어를 비교했을 때 본 발명에 따라 도출된 유전자셋(G)의 시그니처 스코어가 시뮬레이션된 유전자셋의 시그니처 스코어에 비해 분할된 영역들을 더 잘 분별할 수 있는 것을 볼 수 있다. 따라서 본 발명에 따라 도출된 유전자셋(G)은 공간적 분포패턴이 유사한 유전자(전사체)이자 생물학적 구조 또는 기능에 고도로 농축된 유전자셋임을 알 수 있다.
도 13a 내지 도 13b는, 본 발명을 이용해 유전자(전사체) 별 공간상 분포패턴을 2차원이미지화 한 후 유사한 분포패턴을 가지는 유전자들을 추출하여 해부학적 및 기능적 특징과 관련된 유전자셋(G)을 선별한 사례를 도시한 것이다.
먼저, 도 13a에 도시된 영역은 스팟들의 전사체데이터를 바탕으로 클러스터링 하였을 때 마우스 뇌의 섬유조직의 전달경로(fiber tract)를 포함하는 백질영역이 추출된 결과이다. 도 13b는 본 발명에 따른 공간적 분포패턴이 유사한 유전자를 도출하는 유전자스크리닝방법을 도 13a의 마우스 뇌의 공간전사체 데이터에 적용한 것으로, 그 결과 하나의 클러스터(CLT)에 해당하는 유전자셋(G)에 속하는 유전자들의 발현패턴이 도 13a의 마우스 뇌의 섬유조직의 전달경로(fiber tract)를 포함하는 백질영역과 일치하였다. 또한 해당 유전자셋(G)에서 유전자 온톨로지 분석을 진행하였을 때 수초화(Myelination) 관련 유전자군(GO:0042552)이 확인되었다.
따라서 본 발명을 통해 도출된 유전자셋(G)은 마우스 뇌의 특정 공간영역과 일치하였으며, 해당 유전자들의 특징은 마우스 뇌의 해부학적 영역인 섬유조직의 전달경로에서 발현되는 수초화 기능 관련 유전자들에 해당하는 것을 볼 수 있다.
이를 통해 본 발명을 사용하여 도출된 공간적 분포가 유사한 유전자셋(G)은 해부학적 구조 및 기능적 특징과 관련된 유전자셋(G)이 농축되어 있는 것을 확인할 수 있다.
도 14는 본 발명을 이용해 유전자(전사체) 별 공간상 분포패턴을 2차원이미지화 한 후 유사한 분포패턴을 가지는 유전자들을 추출하여 병리학적 및 기능적 특징과 관련된 유전자셋(G)을 선별한 사례를 도시한 것이다.
도 14는 공개된 데이터인 마우스 뇌의 공간전사체데이터(Buzzi et al., 2021)를 사용하였고, 이 공간전사체데이터는 마우스 뇌를 헴(heme)의 여러 가지 농도에 따라 노출시킨 후, 헴 노출과 같은 분자적 병리학적 특징을 설명해줄 수 있는 유전자셋이 공개되어 있다.
마우스 뇌의 공간전사체데이터를 사용하여 본 발명에 따른 유전자스크리닝방법으로 공간적 분포패턴 유사한 유전자셋(G)을 추출하였고, 하나의 클러스터(CLT)의 유전자셋(G)에서 Buzzi가 제시한 헴 노출 시그니처 상위 20개의 유전자 중 15개의 유전자가 추출된 것을 확인하였다. 따라서 본 발명을 사용하여 도출된 공간적 분포가 유사한 유전자셋(G)은 분자적 병리학적 및 기능적 특징을 가진 유전자셋(G)으로 활용될 수 있음을 알 수 있다.
다른 예로서, 상기 2차원이미지생성장치(200)에서 생성된 상기 2차원이미지(T1, …, TK)는 서로 다른 조직의 조직이미지(TI) 사이의 유전자발현패턴을 비교 분석하는 조직간 유전자발현 비교분석에 활용될 수 있다.
상기 2차원이미지생성장치(200)에서 생성된 상기 2차원이미지(T1, …, TK)를 이용해 수행되는 조직간 유전자발현 비교분석방법은, 2차원이미지생성장치(200)에서 생성된 2차원이미지(T1, …, TK)들을 이용해 서로 다른 조직의 조직이미지(TI) 사이의 유전자발현패턴을 비교 분석하는 방법이다.
보다 구체적으로 상기 조직간 유전자발현 비교분석방법은, 서로 다른 조직이미지(TI)들 각각에 대해 생성된 2차원이미지(T1, …, TK)들에 대해 공간정규화를 수행하여 공간정규화이미지(S1, …, SK)를 생성하는 공간정규화단계와, 서로 다른 조직이미지(TI)들에 대해 상기 공간정규화이미지(S1, …, SK)를 상호 비교하여 상기 서로 다른 조직이미지(TI)들 사이의 유전자발현패턴을 각 픽셀마다 비교 분석하는 비교분석단계를 포함할 수 있다.
여기서 상기 2차원이미지(T1, …, TK)는, 재구성데이터를 이용해 공간 상 분포패턴을 시각화한 이미지로서, 특정 유전자(전사체)에 대한 공간 상 분포패턴을 시각화한 이미지이거나 또는 공간 상 분포패턴이 유사한 군집에 속하는 유전자들의 발현량을 합산한 분포패턴을 시각화한 이미지일 수 있다.
여기서, 상기 공간 상 분포패턴이 유사한 군집에 속하는 유전자들은 공간전사체데이터를 구성하는 스팟(P1, …, PN)이 군집화된 후 군집화된 스팟(P1, …, PN)의 특성을 나타내는 주요 유전자로 선정된 유전자이거나 또는 상술한 유전자스크리닝방법에 의해 추출된 유사한 공간상 분포 패턴을 가지는 유전자일 수 있다.
도 15는 공간 상 유전자 발현패턴이 유사한 군집이 구분되도록 도시한 것이고, 도 16은 도 15의 군집의 특성을 나타내는 주요 유전자(들)에 대해 생성된 2차원이미지(T1, …, TK)로서, 서로 다른 4개의 조직 각각에 대해 생성되는 2차원이미지(T1, …, TK)를 도시한 것이다.
도 16는 서로 다른 4개의 조직에 대한 2차원이미지(T1, …, TK)이기 때문에, 상호 공간적 비교가 어려우나, 본 발명은 2차원이미지(T1, …, TK) 사이의 상호 비교가 가능하도록 정규화 함으로써 서로 다른 조직간 비교가 가능해질 수 있다.
상기 2차원이미지(T1, …, TK)에 대한 공간정규화는 특정 방법으로 제한되지 않으며, 예로서 symmetric image normalization method (SyN)가 적용될 수 있다.
도 17a는 서로 다른 5개의 조직에 대한 2차원이미지(T1, …, TK)를 각각 정규화하여 생성된 정규화이미지(S1, …, SK)를 도시한 것으로, 정규화를 통해 서로 다른 5개의 조직을 각 픽셀 마다 상호 비교 분석할 수 있음을 알 수 있다.
도 17b 또한 도 17a의 서로 다른 5개의 조직의 2차원이미지(T1, …, TK)를 정규화한 정규화이미지(S1, …, SK)로서 이를 통해 단일 유전자 또는 유전자셋에 대한 조직 간 상호 발현패턴 비교분석이 가능해질 수 있다.
도 18a는 경우 헴 농도에 따라 노출된 서로 다른 5개의 마우스 뇌의 공간전사체 데이터를(Buzzi et al., 2021) 사용한 것이다. 도 18a 또한 공간정규화를 통해 서로 다른 공간에 있는 공간전사체데이터 비교할 수 있음을 보여주는 도면이다.
도 18a를 통해 서로 다른 공간에 있고 노출된 헴 농도가 다른 5개의 조직(Sham, Heme 50, Heme 125, Heme 500, Heme 1000)에 대해 헴에 해당하는 Hmox1 유전자의 공간적 발현 분포 및 상호간 발현 분포의 차이를 확인할 수 있고. 헴 노출 시그니처의 상위 유전자인 Hmox1, Mt2, Timp1, S100a6를 보았을 때 Buzzi et al.이 언급한 패턴을 5개의 서로 다른 마우스 뇌 데이터에서 확인할 수 있었다.
본 발명에 따른 조직간 유전자발현 비교분석방법은, 서로 다른 조직의 정규화이미지(S1, …, SK)를 각 픽셀마다 비교함으로써 서로 다른 조직의 공간 상 유전자 발현패턴을 비교 분석할 수 있다.
또한, 도 18b를 참조하면, 도 18a에서 헴 노출 시그니처의 상위 유전자인 Hmox1, Mt2, Timp1, S100a6들의 정규화이미지(S1, …, SK)의 픽셀 값을 이용하여 피어슨 상관계수로 상관관계 분석을 수행한 결과 P-value <0.05로 유의하며 R >0.3 이상인 것으로 확인되었다. 이는 정규화이미지(S1, …, SK)(또는 2차원이미지(T1, …, TK))의 픽셀 값의 상관계수를 활용하여 공간적으로 유사한 분포패턴을 보이는 유전자셋을 선별할 수 있음을 보여준다. 즉, 공간적 유사하게 분포하는 유전자군을 선별하기 위해 픽셀(pixel) 값을 사용하여 상관계수를 구하고 유의한 수준의 p 값과 R값으로 컷오프할 수 있다.
상술한 유전자스크리닝방법은 및 조직간 유전자발현 비교분석방법은 별도의 컴퓨팅장치에서 수행되거나 또는 상술한 2차원이미지생성장치(200)에서 수행될 수 있다.
또한, 상술한 2차원이미지생성방법, 유전자스크리닝방법 및 조직간 유전자발현 비교분석방법은 컴퓨터에서 실행 가능한 프로그램으로 구현될 수 있음은 물론이다.
다른 예로서, 본 발명에 따른 공간전사체정보 분석시스템(1000)은, 도 1에 도시된 바와 같이, 사용자단말(300)과, 상기 사용자단말(300)과 네트워크를 통해 연결되는 공간전사체정보 분석장치(100)를 포함할 수 있다.
상기 공간전사체정보 분석장치(100)는, 상술한 2차원이미지생성방법, 유전자스크리닝방법 및 조직간 유전자발현 비교분석방법 중 적어도 하나 이상의 분석방법을 수행하기 위한 분석장치로서, 공간전사체정보에 대한 통합분석이 가능한 시스템을 제공할 수 있다.
도 2에 도시된 바와 같이, 상기 공간전사체정보 분석장치(100)는, 조직이미지(TI) 상 이격된 복수의 스팟(P1, …, PN)들의 위치정보와 상기 복수의 스팟(P1, …, PN)들 마다 대응되는 전사체정보(R1, …, RN)로 구성된 공간전사체데이터를 수신하는 정보수신부(110)와, 상기 전사체정보(R1, …, RN)가 없는 상기 복수의 스팟(P1, …, PN)들 사이 빈 공간이 보간되도록 상기 공간전사체데이터를 재구성한 재구성데이터를 산출하는 데이터재구성부(120)와, 상기 재구성데이터를 기초로 유전자발현패턴을 분석하는 전사체정보분석부(130)를 포함할 수 있다.
상기 정보수신부(110)는, 공간전사체데이터를 수신하기 위한 구성으로 다양한 구성이 가능하며, 사용자단말(300)로부터 공간전사체데이터를 수신하거나 또는 별도의 데이터베이스(DB, 400)로부터 공간전사체데이터를 수신할 수 있다. 상기 정보수신부(110)는 공간전사체데이터 수신뿐만 아니라 사용자단말(300)로부터의 명령이나 요청을 수신하는 기능도 수행할 수 있다.
상기 데이터재구성부(120)는, 상기 전사체정보(R1, …, RN)가 없는 상기 복수의 스팟(P1, …, PN)들 사이 빈 공간이 보간되도록 상기 공간전사체데이터를 재구성한 재구성데이터를 산출하기 위한 구성으로 다양한 구성이 가능하다.
상기 재구성데이터를 산출하는 원리에 대해서는 앞서 2차원이미지생성장치(200)를 설명하며 상세히 기술하였으므로, 중첩되는 부분에 대해서는 생략하기로 한다.
상기 전사체정보분석부(130)는, 재구성데이터를 기초로 유전자발현패턴을 분석하는 구성으로 다양한 구성이 가능하다.
상기 전사체정보분석부(130)는 재구성데이터를 이용해 조직 내 유전자발현패턴을 분석하거나 또는 서로 다른 조직들 사이의 유전자발현패턴을 비교 분석할 수 있다.
즉, 여기서 유전자발현패턴이란 동일한 조직의 유전자발현패턴이거나 또는 다른 조직의 유전자발현패턴일 수 있다.
상기 전사체정보분석부(130)는, 도 2를 참조하면, 재구성데이터의 특성값을 추출하는 특성추출부(132)와, 특성값의 유사도를 기준으로 상기 재구성데이터를 군집화한 클러스터(CLT)를 생성하는 군집화부(134)를 포함할 수 있다.
예로서, 상기 특성추출부(132)는, 상기 재구성데이터를 저차원데이터로 축소하여 상기 특성값을 추출할 수 있다.
예로서, 상기 특성추출부(132)는, 상기 재구성데이터를 저차원데이터로 축소하는 차원축소알고리즘을 이용해 상기 특성값을 추출할 수 있다.
상기 차원축소알고리즘은, 특정 알고리즘에 한정되지 않으며, 예로서 PCA(Principal Component Analysis), LDA(Linear Discriminant Analysis) 등을 포함할 수 있다.
다른 예로서, 도 6을 참조하면, 상기 특성추출부(132)는 상기 재구성데이터의 특성값을 추출하는 특성추출기로서, 재구성데이터를 저차원데이터로 압축하는 인공신경망모델(ANN)을 포함할 수 있다.
상기 특성값은 상기 저차원데이터로 표현되는 잠재벡터값일 수 있다.
상기 군집화부(134)는, 비지도학습 기반의 군집화알고리즘을 이용해 군집화를 수행할 수 있고, 상기 클러스터(CLT)에 연관된 유전자셋(G)을 도출할 수 있다.
또한, 상기 군집화부(134)는, 상기 클러스터(CLT)의 실루엣값 및 상관계수 중 적어도 어느 하나를 기초로 상기 유전자셋(G)에 포함될 유전자를 최종 선별할 수 있다.
한편, 상기 공간전사체정보 분석장치(100)는, 재구성데이터의 전사체분포정보로부터 상기 복수의 전사체(A1, …, AM)들의 공간상 분포를 시각화한 2차원이미지(T1, …, TK)를 생성하는 이미지생성부(140)를 추가로 포함할 수 있다.
상기 이미지생성부(140)는 상기 복수의 전사체(A1, …, AM)들의 공간상 분포를 시각화하기 위한 구성으로, 재구성데이터 만으로도 유전자발현패턴 분석이 가능하고 시각화 이미지가 불필요한 경우도 가능하므로, 이 경우 이미지생성부(140)는 생략될 수 있음은 물론이다.
여기서 이미지생성부(140)는 앞서 상세히 설명한 2차원이미지생성장치(200)와 동일하거나 유사하게 구성될 수 있으므로, 중첩되는 범위에서 자세한 설명은 생략하도록 한다.
서로 다른 조직 사이의 유전자발현패턴에 대한 비교분석이 필요한 경우, 상기 이미지생성부(140)는, 서로 다른 조직이미지(TI)들 각각에 대해 상기 2차원이미지(T1, …, TK)를 생성할 수 있다.
이때, 상기 공간전사체정보분석장치(100)는, 상기 2차원이미지(T1, …, TK)에 대해 공간정규화를 수행하여 공간정규화이미지(S1, …, SK)를 생성하는 공간정규화부(150)를 추가로 포함할 수 있다.
상기 공간정규화부(150)는 상기 2차원이미지(T1, …, TK)에 대해 공간정규화를 수행하여 공간정규화이미지(S1, …, SK)를 생성하기 위한 구성으로 다양한 구성이 가능하며, 상기 2차원이미지(T1, …, TK)에 대한 공간정규화는 특정 방법으로 제한되지 않는다. 예로서 공간정규화 방법으로, symmetric image normalization method (SyN)가 적용될 수 있다.
이때, 상기 전사체정보분석부(130)는, 상기 서로 다른 조직이미지(TI)들에 대해 상기 공간정규화이미지(S1, …, SK)를 상호 비교하여 상기 서로 다른 조직이미지(TI)들 사이의 유전자발현패턴을 각 픽셀마다 비교 분석할 수 있다.
상기 공간정규화부(150)를 통한 2차원이미지 공간정규화 방식 및 전사체정보분석부(130)를 통한 유전자발현패턴 비교분석 방법에 대해서는 앞서 조직간 유전자발현 비교분석방법에서 상세히 설명한 바 중첩되는 범위에서 자세한 설명은 생략한다.
또한, 상기 공간전사체정보 분석장치(100)는, 유전자발현패턴 분석 결과를 데이터베이스(DB, 400) 또는 사용자단말(300)로 송신하기 위한 정보송신부(160)를 더 포함할 수 있다.
상술한 공간전사체정보 분석장치(100)는 공간전사체데이터를 재구성데이터로 재구성하여 분석하는 방법을 제공하기 위한 장치로서, 상기 공간전사체정보 분석장치(100)는 재구성데이터를 이용한 통합적인 공간전사체정보 분석수단을 제공할 수 있다.
즉, 상기 공간전사체정보 분석장치(100)를 이용한 공간전사체정보 분석방법은, 재구성데이터를 이용하는 2차원이미지생성방법, 유전자스크리닝방법, 및 조직 간 유전자발현 비교분석방법 중 적어도 하나를 포함할 수 있다.
도 3을 참조하면, 일 예로서, 본 발명에 따른 공간전사체 분석방법은, 2차원이미지생성방법이며, 공간전사체데이터를 수신하는 수신단계(S301)와, 공간전사체데이터를 재구성데이터로 재구성하는 데이터재구성단계(S302)와, 재구성데이터를 이용해 전사체 분포정보(유전자 분포정보)를 시각화한 2차원이미지를 생성하는 2차원이미지생성단계(S302)를 포함할 수 있다.
또한, 다른 예로서, 본 발명에 따른 공간전사체 분석방법은, 유전자스크리닝방법이며, 공간전사체데이터를 수신하는 수신단계(S301)와, 공간전사체데이터를 재구성데이터로 재구성하는 데이터재구성단계(S302)와, 재구성데이터를 이용해 공간상 유사한 분포를 가지는 유전자를 추출하는 유전자추출단계(S304)를 포함할 수 있다. 이때, 상기 유전자스크리닝방법은, 재구성데이터를 이용해 전사체 분포정보(유전자 분포정보)를 시각화한 2차원이미지(T1, …, TK)를 생성하는 2차원이미지생성단계(S302)를 추가로 포함할 수 있다.
또한, 다른 예로서, 본 발명에 따른 공간전사체 분석방법은, 조직 간 유전자발현 비교분석방법이며, 서로 다른 조직이미지(TI) 각각에 대해 공간전사체데이터를 수신하는 수신단계(S301)와, 공간전사체데이터를 재구성데이터로 재구성하는 데이터재구성단계(S302)와, 서로 다른 조직이미지(TI)들 각각에 대해 상기 2차원이미지(T1, …, TK)를 생성하는 2차원이미지생성단계(S302)와, 상기 2차원이미지(T1, …, TK)에 대해 공간정규화를 수행하여 공간정규화이미지(S1, …, SK)를 생성하는 공간정규화단계와, 서로 다른 조직이미지(TI)들에 대해 공간정규화이미지(S1, …, SK)를 상호 비교하여 상기 서로 다른 조직이미지(TI)들 사이의 유전자발현패턴을 각 픽셀마다 비교 분석하는 비교분석단계(S305)를 포함할 수 있다.
상술한 공간전사체정보 분석장치(100)를 이용해 수행되는 공간전사체정보 분석방법은 컴퓨터 실행가능한 공간전사체정보 분석프로그램을 통해 구현될 수 있다.
이상은 본 발명에 의해 구현될 수 있는 바람직한 실시예의 일부에 관하여 설명한 것에 불과하므로, 주지된 바와 같이 본 발명의 범위는 위의 실시예에 한정되어 해석되어서는 안 될 것이며, 위에서 설명된 본 발명의 기술적 사상과 그 근본을 함께하는 기술적 사상은 모두 본 발명의 범위에 포함된다고 할 것이다.
100: 공간전사체정보 분석장치
200: 2차원이미지생성장치
300: 사용자단말

Claims (20)

  1. 조직이미지(TI) 상 이격된 복수의 스팟(P1, …, PN)들의 위치정보와 상기 복수의 스팟(P1, …, PN)들 마다 대응되는 전사체정보(R1, …, RN)로 구성된 공간전사체데이터를 수신하는 정보수신부(110)와;
    상기 전사체정보(R1, …, RN)가 없는 상기 복수의 스팟(P1, …, PN)들 사이 빈 공간이 보간되도록 상기 공간전사체데이터를 재구성한 재구성데이터를 산출하는 데이터재구성부(120)와;
    상기 재구성데이터를 기초로 유전자발현패턴을 분석하는 전사체정보분석부(130);를 포함하며,
    상기 전사체정보(R1, …, RN)는 복수의 전사체(A1, …, AM)들 각각의 발현량에 대한 정보를 포함하며,
    상기 재구성데이터는, 상기 복수의 전사체(A1, …, AM)들 각각에 대해 상기 발현량이 상기 복수의 스팟(P1, …, PN)들의 중앙좌표(C1, …, CN)를 중심으로 연속확률분포를 따라 분포되는 것으로 가정하고, 각 스팟(P1, …, PN)에 대해 모두 합산하여 각 전사체(A1, …, AM) 별 재구성된 전사체분포정보를 포함하며,
    상기 연속확률분포는, 상기 중앙좌표(C1, …, CN)를 중앙값으로 하고 미리 설정된 분산값을 가지는 정규분포이며,
    상기 전사체정보분석부(130)는, 상기 재구성데이터의 특성값을 추출하는 특성추출부(132)와, 상기 특성값의 유사도를 기준으로 상기 재구성데이터를 군집화한 클러스터(CLT)를 생성하는 군집화부(134)를 포함하는 것을 특징으로 하는 공간전사체정보 분석장치(100).
  2. 청구항 1에 있어서,
    상기 유전자발현패턴은, 상기 조직이미지와 동일한 조직의 유전자발현패턴 또는 다른 조직의 유전자발현패턴인 것을 특징으로 하는 공간전사체정보 분석장치(100).
  3. 삭제
  4. 삭제
  5. 청구항 1에 있어서,
    상기 공간전사체정보분석장치(100)는, 상기 전사체분포정보로부터 상기 복수의 전사체(A1, …, AM)들의 공간상 분포를 시각화한 2차원이미지(T1, …, TK)를 생성하는 이미지생성부(140)를 추가로 포함하는 것을 특징으로 하는 공간전사체정보 분석장치(100).
  6. 삭제
  7. 청구항 1에 있어서,
    상기 특성추출부(132)는, 상기 재구성데이터를 저차원데이터로 축소하여 상기 특성값을 추출하는 것을 특징으로 하는 공간전사체정보 분석장치(100).
  8. 청구항 1에 있어서,
    상기 특성추출부(132)는, 상기 재구성데이터를 저차원데이터로 압축하는 인공신경망모델을 포함하며,
    상기 인공신경망모델은, 상기 재구성데이터를 학습데이터로 하며,
    상기 특성값은 상기 저차원데이터로 표현되는 잠재벡터값이며,
    상기 군집화부(134)는, 비지도학습 기반의 군집화알고리즘을 이용해 군집화를 수행하는 것을 특징으로 하는 공간전사체정보분석장치(100).
  9. 삭제
  10. 삭제
  11. 청구항 1에 있어서,
    상기 군집화부(134)는, 상기 클러스터(CLT)에 연관된 유전자셋(G)을 도출하는 것을 특징으로 하는 공간전사체정보 분석장치(100).
  12. 청구항 11에 있어서,
    상기 군집화부(134)는, 상기 클러스터(CLT)의 실루엣값 및 상관계수 중 적어도 어느 하나를 기초로 상기 유전자셋(G)에 포함될 유전자를 최종 선별하는 것을 특징으로 하는 공간전사체정보 분석장치(100).
  13. 조직이미지(TI) 상 이격된 복수의 스팟(P1, …, PN)들의 위치정보와 상기 복수의 스팟(P1, …, PN)들 마다 대응되는 전사체정보(R1, …, RN)로 구성된 공간전사체데이터를 수신하는 정보수신부(110)와;
    상기 전사체정보(R1, …, RN)가 없는 상기 복수의 스팟(P1, …, PN)들 사이 빈 공간이 보간되도록 상기 공간전사체데이터를 재구성한 재구성데이터를 산출하는 데이터재구성부(120)와;
    상기 재구성데이터를 기초로 유전자발현패턴을 분석하는 전사체정보분석부(130);를 포함하며,
    상기 전사체정보(R1, …, RN)는 복수의 전사체(A1, …, AM)들 각각의 발현량에 대한 정보를 포함하며,
    상기 재구성데이터는, 상기 복수의 전사체(A1, …, AM)들 각각에 대해 상기 발현량이 상기 복수의 스팟(P1, …, PN)들의 중앙좌표(C1, …, CN)를 중심으로 연속확률분포를 따라 분포되는 것으로 가정하고, 각 스팟(P1, …, PN)에 대해 모두 합산하여 각 전사체(A1, …, AM) 별 재구성된 전사체분포정보를 포함하며,
    상기 연속확률분포는, 상기 중앙좌표(C1, …, CN)를 중앙값으로 하고 미리 설정된 분산값을 가지는 정규분포이며,
    상기 전사체분포정보로부터 상기 복수의 전사체(A1, …, AM)들의 공간상 분포를 시각화한 2차원이미지(T1, …, TK)를 생성하는 이미지생성부(140)를 추가로 포함하며,
    상기 이미지생성부(140)는, 서로 다른 조직이미지(TI)들 각각에 대해 상기 2차원이미지(T1, …, TK)를 생성하며,
    상호 공간적 비교가 픽셀 수준에서 가능하도록 상기 2차원이미지(T1, …, TK)에 대해 공간정규화를 수행하여 공간정규화이미지(S1, …, SK)를 생성하는 공간정규화부(150)를 추가로 포함하며,
    상기 전사체정보분석부(130)는, 상기 서로 다른 조직이미지(TI)들에 대해 상기 공간정규화이미지(S1, …, SK)를 상호 비교하여 상기 서로 다른 조직이미지(TI)들 사이의 유전자발현의 공간적 패턴을 비교 분석하는 것을 특징으로 하는 공간전사체정보 분석장치(100).
  14. 청구항 1 내지 2, 청구항 5, 청구항 7 내지 8, 및 청구항 11 내지 청구항 13 중 어느 하나의 항에 따른 공간전사체정보분석장치(100)와;
    상기 공간전사체정보 분석장치(100)와 네트워크를 통해 연결되는 사용자단말(300)을 포함하는 것을 특징으로 하는 공간전사체정보 분석시스템(1000).
  15. 청구항 1 내지 2, 청구항 5, 청구항 7 내지 8, 및 청구항 11 내지 청구항 13 중 어느 하나의 항에 따른 공간전사체정보 분석장치(100)를 이용한 공간전사체정보 분석방법.
  16. 청구항 15에 따른 공간전사체정보 분석방법을 수행하기 위한 컴퓨터 실행가능한 기록매체에 저장된 공간전사체정보 분석프로그램.
  17. 조직이미지(TI) 상 이격된 복수의 스팟(P1, …, PN)들의 위치정보와 상기 복수의 스팟(P1, …, PN)들 마다 대응되는 전사체정보(R1, …, RN)로 구성된 공간전사체데이터를 재구성한 재구성데이터를 이용해 전사체분포에 대한 2차원이미지(T1, …, TK)를 생성하는 이미지생성장치(200)로서,
    상기 전사체정보(R1, …, RN)는 복수의 전사체(A1, …, AM)들 각각의 발현량에 대한 정보를 포함하며,
    상기 재구성데이터는, 상기 전사체정보(R1, …, RN)가 없는 상기 복수의 스팟(P1, …, PN)들 사이 빈 공간이 보간되도록 재구성된 데이터이며,
    상기 재구성데이터는, 상기 복수의 전사체(A1, …, AM)들 각각에 대해 상기 발현량이 상기 복수의 스팟(P1, …, PN)들의 중앙좌표(C1, …, CN)를 중심으로 연속확률분포를 따라 분포되는 것으로 가정하고, 각 스팟(P1, …, PN)에 대해 모두 합산하여 각 전사체(A1, …, AM) 별 재구성된 전사체분포정보를 포함하며,
    상기 연속확률분포는, 상기 중앙좌표(C1, …, CN)를 중앙값으로 하고 미리 설정된 분산값을 가지는 정규분포인 것을 특징으로 하는 2차원이미지생성장치(200).
  18. 삭제
  19. 청구항 17에 따른 2차원이미지생성장치(200)에서 생성된 상기 2차원이미지(T1, …, TK)를 이용해 공간상 유사한 분포를 가지는 유전자를 추출하는 유전자스크리닝방법.
  20. 청구항 17에 따른 2차원이미지생성장치(200)에서 서로 다른 조직의 조직이미지(TI)에 대해 생성된 상기 2차원이미지(T1, …, TK)를 대비해 상기 서로 다른 조직의 조직이미지(TI) 사이의 유전자발현의 공간적 패턴을 비교 분석하는 조직간 유전자발현 비교분석방법.
KR1020220042884A 2022-04-06 2022-04-06 공간전사체정보 분석장치 및 이를 이용한 분석방법 KR102483745B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020220042884A KR102483745B1 (ko) 2022-04-06 2022-04-06 공간전사체정보 분석장치 및 이를 이용한 분석방법
PCT/KR2022/005223 WO2023195564A1 (ko) 2022-04-06 2022-04-11 공간전사체정보 분석장치 및 이를 이용한 분석방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220042884A KR102483745B1 (ko) 2022-04-06 2022-04-06 공간전사체정보 분석장치 및 이를 이용한 분석방법

Publications (1)

Publication Number Publication Date
KR102483745B1 true KR102483745B1 (ko) 2023-01-04

Family

ID=84924945

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220042884A KR102483745B1 (ko) 2022-04-06 2022-04-06 공간전사체정보 분석장치 및 이를 이용한 분석방법

Country Status (2)

Country Link
KR (1) KR102483745B1 (ko)
WO (1) WO2023195564A1 (ko)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220033484A (ko) * 2019-06-14 2022-03-16 바이오 래드 래버러토리스 인코오포레이티드 자동화된 단일 세포 처리 및 분석을 위한 시스템 및 방법
KR102170297B1 (ko) * 2019-12-16 2020-10-26 주식회사 루닛 조직병리체학 데이터의 해석 정보를 제공하는 방법 및 시스템
US11783916B2 (en) * 2019-12-17 2023-10-10 Applied Materials, Inc. System and method for acquisition and processing of multiplexed fluorescence in-situ hybridization images

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Kangning Dong 외, Deciphering spatial domains from spatially resolved transcriptomics with an adaptive graph attention auto-encoder, NATURE COMMUNICATIONS, 2022.04.01., Vol.13, No.1739, pp.1-12.* *
Ludvig Bergenstrahle 외, Super-resolved spatial transcriptomics by deep data fusion, Nature Biotechnology, 2021.11.29., Vol.40, pp.476-479.* *
Shiquan Sun 외, Nature Methods, 2020.01.27., Vol.17, pp.193-200. *
Taku Monjo 외, Scientific Reports, 2022.03.08., Vol.12, No.4133, pp.1-11. *
Valentine Svensson 외, Nature Methods, 2018.03.19., Vol.15, No.5, pp.343-348. *

Also Published As

Publication number Publication date
WO2023195564A1 (ko) 2023-10-12

Similar Documents

Publication Publication Date Title
US11376441B2 (en) Systems and methods for finding regions of in interest in hematoxylin and eosin (HandE) stained tissue images and quantifying intratumor cellular spatial heterogeneity in multiplexed/hyperplexed fluorescence tissue
Putra et al. Enhanced skin condition prediction through machine learning using dynamic training and testing augmentation
Lai et al. A hierarchical evolutionary algorithm for automatic medical image segmentation
Urbanowicz et al. An analysis pipeline with statistical and visualization-guided knowledge discovery for michigan-style learning classifier systems
CN110419057A (zh) 用于确定分段的混合式主动机器学习系统和方法
Chang et al. Define and visualize pathological architectures of human tissues from spatially resolved transcriptomics using deep learning
CN113764034A (zh) 基因组序列中潜在bgc的预测方法、装置、设备及介质
Scrucca Clustering multivariate spatial data based on local measures of spatial autocorrelation
CN114496099A (zh) 细胞功能注释方法、装置、设备及介质
CN114550169A (zh) 细胞分类模型的训练方法、装置、设备及介质
Kovalev et al. Biomedical image recognition in pulmonology and oncology with the use of deep learning
Li et al. Explainable human‐in‐the‐loop healthcare image information quality assessment and selection
KR102483745B1 (ko) 공간전사체정보 분석장치 및 이를 이용한 분석방법
CN116541841A (zh) 一种恶意软件的分类方法,分类装置以及存储介质
KR20220144132A (ko) 음수 미포함 행렬 분해를 이용한 마이크로바이옴 데이터로부터의 미생물 상호작용 네트워크 분석 방법
Andani et al. Multi-V-Stain: Multiplexed Virtual Staining of Histopathology Whole-Slide Images
Wang et al. An explainable coarse-to-fine survival analysis method on multi-center whole slide images
Bhate Towards semantic representations of tissue organization from high-parameter imaging data
Wang et al. Missing-value imputation and in-silico region detection for spatially resolved transcriptomics
Ramakrishnan et al. DNA microarray data classification via Haralick’s parameters
Chen et al. Recovering single-cell expression profiles from spatial transcriptomics with scResolve
Krishnamurthy A Deep Learning Method for Comparing Hi-C Data
Gong et al. RGAST: Relational Graph Attention Network for Spatial Transcriptome Analysis
KR20230132387A (ko) 그래프 딥 러닝에 기반한 전체 슬라이드 이미지의 병리학 패턴 분석 방법 및 장치
Andreassen Melanoma prognosis prediction using image processing and machine learning

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant