KR102405732B1 - 세포 클러스터링 방법 및 장치 - Google Patents

세포 클러스터링 방법 및 장치 Download PDF

Info

Publication number
KR102405732B1
KR102405732B1 KR1020190107734A KR20190107734A KR102405732B1 KR 102405732 B1 KR102405732 B1 KR 102405732B1 KR 1020190107734 A KR1020190107734 A KR 1020190107734A KR 20190107734 A KR20190107734 A KR 20190107734A KR 102405732 B1 KR102405732 B1 KR 102405732B1
Authority
KR
South Korea
Prior art keywords
cell
gene
genes
expression level
cells
Prior art date
Application number
KR1020190107734A
Other languages
English (en)
Other versions
KR20210026654A (ko
Inventor
정현두
Original Assignee
조선대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 조선대학교 산학협력단 filed Critical 조선대학교 산학협력단
Priority to KR1020190107734A priority Critical patent/KR102405732B1/ko
Publication of KR20210026654A publication Critical patent/KR20210026654A/ko
Application granted granted Critical
Publication of KR102405732B1 publication Critical patent/KR102405732B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 세포간 유사성을 측정하기 위한 기준이 되는 특정 유전자 세트를 선택하고, 선택된 유전자 세트를 이용한 복수의 유사성 측정을 기반으로 하는 효과적인 단일 세포 클러스터링 방법 및 단일 세포 클러스터링 장치에 관한 것이다.

Description

세포 클러스터링 방법 및 장치{METHOD AND APPRATUS FOR CELL CLUSTERING}
본 발명은 간단하고 효과적인 방법으로 유사한 세포를 클러스터링 할 수 있는 세포 클러스터링 방법 및 장치에 관한 것이다.
단일 세포 RNA 서열분석(Single cell RNA Sequencing) 기술은 개별 세포에서 높은 처리량으로 유전자 발현을 측정하는 효과적인 수단을 제공했다. 조직에 포함된 세포들의 평균 유전자 발현만을 측정하는 차세대 서열분석(Next-Generation Sequencing)과 비교하여 개별 세포에서 유전자 발현을 측정할 수 있다는 것은 단일 세포 RNA 서열분석의 이점이다.
단일 세포 RNA 서열분석 기술은 세포 분화 과정, 유전자 조절 관계 및 다양한 세포 유형의 기본 이질성과 같은 복잡한 생물학적 메커니즘을 이해하고 해독하여 새로운 약물의 개발을 가속화하고 복잡한 질병에 대한 치료 효과를 높일 수 있는 혁신적인 기술을 제공한다.
한편, 단일 세포 RNA 서열분석 기술은 개별 세포에서의 유전자 발현을 측정할 수 있으나, 세포 유형에 대한 어떠한 정보도 제공하지 않는다. 따라서, 단일 세포 RNA 서열분석 데이터를 분석하기 위해 세포 유형의 정확한 분류가 필요하며, FACS (fluorescence-activated cell sorting)와 같은 실험 방법을 통해 세포 유형을 식별 할 수 있지만, 비용과 시간과 같은 막대한 양의 자원이 필요하다.
단일 세포 클러스터링 알고리즘(single cell clustering algorithm)과 같은 컴퓨터를 이용한 수단은 실험 방법을 대체하여 세포의 유형을 식별하기 위한 유망한 대안책이다.
세포 간 유사성의 정확한 분석은 세포의 일관된 그룹을 만들 수 있는 정확한 단일 세포 클러스터링(single cell clustering)을 얻기 위한 중추적 인 역할을 한다. 미가공 단일 세포 RNA 서열분석에서 동일한 세포 유형을 정확하게 클러스터링하기 위해서 여러가지 단일 세포 클러스터링 알고리즘이 제안되었다.
세포 간 유사성을 측정하기 위해 세포의 모든 유전자가 이용될 수 있으나, 더 많은 계산이 필요하며, 더 많은 수의 유전자를 사용하는 분류가 항상 향상된 성능을 보장하지는 않는다. 이를 해결하기 위해 최적의 유전자(optimal gene)를 선택하여 세포간 유사성을 측정하려는 시도가 있으나, 최적의 유전자를 선택하는 것은 계산의 복잡성 문제가 있으며, 드롭아웃 (dropout)으로 인해 일부 세포에서는 실제로 최적의 유전자 발현을 관찰할 수 없을 수 있는 문제가 있다.
따라서, 세포간 유사성을 측정하기 위한 간단하고 효과적인 방법에 대한 연구가 필요한 실정이다.
Duo A, Robinson MD and Soneson C. A systematic performance evaluation of clustering methods for single-cell RNA-seq data [version 2; referees: 2 approved] F1000Research 2018, 7:1141 (doi: 10.12688/f1000research.15666.2)
본 발명은 세포 클러스터링 방법을 제공하는 것을 목적으로 한다.
본 발명의 다른 목적은 세포 클러스터링 장치를 제공함에 있다.
1. 클러스터링 대상이 되는 복수개의 세포에서 발현 정도가 나머지 유전자들에 비해 높은 유전자를 복수개 선택하는 제1 단계;
상기 선택된 복수개의 유전자 중 나머지 유전자들에 비해 그 발현 정도의 분산이 큰 유전자를 복수개 선택하는 제2 단계; 및
상기 제2 단계에서 선택된 유전자들 중 적어도 일부 유전자의 발현 정도를 기준으로 클러스터링 대상이 되는 복수개의 세포의 유사성을 측정하여 클러스터링하는 제3 단계;를 포함하는 세포 클러스터링 방법.
2. 위 1에 있어서, 상기 제1 또는 제2 단계에서 상기 발현 정도는 각 세포에서의 발현량의 평균값인, 세포 클러스터링 방법.
3. 위 1에 있어서, 상기 제1 단계에서 각 세포에서의 발현량의 평균 값이 기 결정된 순위 이내인 유전자를 적어도 하나 선택하는 것인, 세포 클러스터링 방법.
4. 위 1에 있어서, 상기 제1 단계에서 하기 수학식 1을 만족하는 유전자를 선택하는 것인, 세포 클러스터링 방법
[수학식 1]
각 세포에서의 발현량의 평균값 ≥ 클러스터링 대상이 되는 복수개의 세포의 전체 유전자 각각의 각 세포에서의 발현량 평균값의 중위값.
5. 위 1에 있어서, 상기 제2 단계에서 각 세포에서의 발현 정도의 분산이 기 결정된 순위 이내인 유전자를 적어도 하나 선택하는 것인, 세포 클러스터링 방법.
6. 위 1에 있어서, 상기 제2 단계에서 그 발현 정도의 분산이 상위 20% 이내인 유전자 중 적어도 하나를 선택하는 것인, 세포 클러스터링 방법.
7. 위 1에 있어서, 상기 제3 단계는 복수 회 수행되는 것이고,
상기 제3 단계는 복수의 클러스터링으로부터 얻어진 복수의 결과의 합계를 구하는 것을 더 포함하는 세포 클러스터링 방법.
8. 클러스터링 대상이 되는 복수개의 세포에서 발현되는 복수의 유전자 서열이 입력되는 데이터 입력부;
상기 데이터 입력부에 입력된 유전자 서열 중 그 발현 정도가 나머지 유전자들에 비해 높은 유전자들을 복수개 선별하는 제1 유전자 선별부;
상기 제1 유전자 선별부에서 선별된 유전자 중 나머지 유전자들에 비해 그 발현 정도의 분산이 큰 유전자를 복수개 선별하는 제2 유전자 선별부; 및
상기 제2 유전자 선별부에서 선별된 복수개의 유전자 중 적어도 일부의 발현 정도를 기준으로 클러스터링 대상이 되는 복수개의 세포들의 유사성을 측정하여 클러스터링하는 클러스터링부;를 포함하는
세포 클러스터링 장치.
9. 위 8에 있어서, 상기 제1 유전자 선별부 또는 상기 제2 유전자 선별부에서 상기 발현 정도는 각 세포에서의 발현량의 평균값인, 세포 클러스터링 장치.
10. 위 8에 있어서, 상기 제1 유전자 선별부는 각 세포에서의 발현량의 평균 값이 기 결정된 순위 이내인 유전자를 적어도 하나 선별하는 세포 클러스터링 장치.
11. 위 8에 있어서, 상기 제1 유전자 선별부는 하기 수학식 1을 만족하는 유전자를 선별하는 세포 클러스터링 장치,
[수학식 1]
각 세포에서의 발현량의 평균값 ≥ 클러스터링 대상이 되는 복수개의 세포의 전체 유전자 각각의 각 세포에서 발현량의 평균값들의 중위값.
12. 위 8에 있어서, 상기 제2 유전자 선별부는 각 세포에서의 발현 정도의 분산이 기 결정된 순위 이내인 유전자를 적어도 하나 선별하는 세포 클러스터링 장치.
13. 위 8에 있어서, 상기 제2 유전자 선별부는 그 발현량의 분산이 상위 20% 이내인 유전자 중 적어도 하나를 선별하는 세포 클러스터링 장치.
14. 위 8에 있어서, 상기 클러스터링부는 복수의 클러스터링을 수행하고, 복수의 클러스터링으로부터 얻어진 복수의 결과의 합계를 구하는, 세포 클러스터링 장치.
본 발명은 간단하고 쉬운 방법으로 유사성 기준이 되는 포텐셜 유전자 세트를 선택하고 세포간 유사성을 측정함으로써 효과적으로 세포를 클러스터링 할 수 있으며, 생물학적 실험 없이 효과적으로 세포 유형을 식별할 수 있다.
도 1은 일 실시예에 따른 세포 클러스터링 알고리즘을 나타낸다.
도 2는 일 실시예에 따른 세포 클러스터링 장치를 나타낸다.
도 3은 선택된 단일 세포 RNA 서열분석 데이터에 대한 저차원 시각화 결과를 나타낸다.
도 4는 실제 세포 유형의 레이블을 이용한 클러스터링 결과의 순도를 평가한 것을 나타낸다.
도 5는 실제 세포 유형의 레이블을 이용한 클러스터링 결과의 Jaccard index를 평가한 것을 나타낸다.
도 6은 실제 세포 유형의 레이블을 이용한 클러스터링 결과의 adjusted rand index를 평가한 것을 나타낸다.
도 7은 실제 세포 유형의 레이블을 이용한 클러스터링 결과의 normalized mutual information을 평가한 것을 나타낸다.
도 8은 일 실시예에 따른 세포 클러스터링 방법의 각 단계를 도식화한 것이다.
본 발명은 클러스터링 대상이 되는 복수개의 세포에서 발현 정도가 나머지 유전자들에 비해 높은 유전자를 복수개 선택하는 제1 단계; 상기 선택된 복수개의 유전자 중 나머지 유전자들에 비해 그 발현 정도의 분산이 큰 유전자를 복수개 선택하는 제2 단계; 및 상기 제2 단계에서 선택된 유전자들 중 적어도 일부 유전자의 발현 정도를 기준으로 클러스터링 대상이 되는 복수개의 세포들의 유사성을 측정하여 클러스터링하는 제3 단계;를 포함하는 세포 클러스터링 방법을 제공한다.
제1 단계는 클러스터링 대상이 되는 복수개의 세포의 RNA 서열분석 데이터에 포함된 유전자들 중, 발현 정도가 나머지 유전자들 보다 높은 유전자를 복수개 선택하는 단계일 수 있다. 상기 RNA 서열분석 데이터는 정규화된 데이터일 수 있다. 제1 단계에서, 클러스터링 대상이 되는 세포는 예를 들어, 50 내지 100, 100 내지 1000, 1000 내지 10000, 10000 내지 100000 개일 수 있으나, 이에 제한되지 않는다.
제1 단계에서, 상기 클러스터링 대상이 되는 복수개의 세포의 RNA 서열분석 데이터에 포함된 유전자는 클러스터링 대상이 되는 세포 중 일부 세포에서만 발현되는 것일 수 있고, 클러스터링 대상이 되는 세포 전부에서 발현되는 것일 수도 있다.
제1 단계는 클러스터링 대상이 되는 복수개의 세포의 RNA 서열분석 데이터에 포함된 유전자들 중 발현 정도가 상대적으로 높은 유전자를 선택하는 것을 목적으로 한다. 상기 발현 정도는 특정 유전자의 각 세포에서의 발현량의 합계 또는 특정 유전자의 각 세포에서의 발현량의 평균값일 수 있으며, 바람직하게는 특정 유전자의 각 세포에서의 발현량의 평균값일 수 있으나, 이에 제한되는 것은 아니다.
예를 들어, 제1 단계는 클러스터링 대상이 되는 복수개 각 세포에서의 발현량의 총 합이 기 결정된 발현량 이상에 포함되는 유전자를 적어도 하나 선택하는 것일 수 있다.
다른 예를 들어, 제1 단계는 클러스터링 대상이 되는 복수개 각 세포에서의 발현량의 평균값이 기 결정된 발현량 이상에 포함되는 유전자를 적어도 하나 선택하는 것일 수 있다.
또 다른 예를 들어, 제1 단계는 클러스터링 대상이 되는 복수개 각 세포에서의 발현량의 총 합이 기 결정된 순위 이내에 포함되는 유전자를 적어도 하나 선택하는 것일 수 있다.
또 다른 예를 들어, 제1 단계는 클러스터링 대상이 되는 복수개 각 세포에서의 발현량의 평균값이 기 결정된 순위 이내에 포함되는 유전자를 적어도 하나 선택하는 것일 수 있다. 상기 기 결정된 순위는 전체 유전자 중 상위 10%, 상위 15%, 상위 20%, 상위 25%, 상위 30%, 상위 35%, 상위 40%, 상위 45%, 상위 50%, 상위 55%, 상위 60%, 상위 65%, 상위 70%, 상위 75%, 상위 80%, 상위 85%, 상위 90%, 상위 95% 일 수 있으며, 바람직하게는 상위 50% 일 수 있으나, 이에 제한되는 것은 아니다.
기 결정된 발현량 또는 기 결정된 순위 이내에 포함되는 유전자를 선택하는 것은 기 결정된 발현량 또는 기결정된 순위 이내에 포함된 유전자들 중 하나 이상을 무작위로 선택할 수 있는 것을 의미할 수 있다.
일 예로, 제1 단계는 복수개 각 세포에서의 발현량의 평균값이 클러스터링 대상이 되는 복수개의 세포에서 발현되는 전체 유전자 각각의 각 세포에서 발현량의 평균값들의 중위값 이상에 포함되는 유전자를 무작위로 적어도 하나 선택하는 것일 수 있다.
제1 단계는 하기 수학식 1을 만족하는 유전자를 선택하는 것일 수 있다:
[수학식 1]
각 세포에서의 발현량의 평균값 ≥ 클러스터링 대상이 되는 복수개의 세포의 전체 유전자 각각의 각 세포에서 발현량의 평균값들의 중위값.
제1 단계는 하기 수학식 4의 함수를 만족하는 유전자를 선택하는 것일 수 있다:
[수학식 4]
F= {gi|μ(gi)≥ μt},
상기 μ(gi)는 유전자 gi의 각 세포에서의 발현량의 평균값이고, 상기 μt는 클러스터링 대상이 되는 복수개의 세포의 전체 유전자 각각의 각 세포에서의 발현량 평균값의 중위값이다.
제1 단계에서는 클러스터링 대상이 되는 복수개의 세포에서 발현되는 전체 유전자 중 70 내지 1%, 60 내지 10%, 50 내지 20% 또는 40 내지 30% 를 선택하는 것일 수 있으며, 이에 제한되지 않는다.
제2 단계는 상기 제1 단계에서 선택되는 복수개 유전자들 중, 클러스터링 대상이 되는 전체 세포들에 대해 발현 정도의 분산이 큰 유전자를 복수개 선택하는 것을 목적으로 한다.
제2 단계에서 "발현 정도의 분산이 크다"는 것은 특정 유전자의 발현 정도가 클러스터링 대상이 되는 세포들 전체에서 골고루 분포되지 않고 일부에만 편중되거나, 세포별로 발현량 차이가 큰 것을 의미할 수 있다.
또한, 발현 정도의 분산이 크다는 것은 발현 정도의 분산이 절대적인 값 이상인 것일 수 도 있으며, 상대적으로 다른 유전자들에 비해 큰 값을 나타내는 것일 수 도 있다. 다만, 상기 절대적인 값은 특정한 값으로 제한되지 않고 적절하게 선택할 수 있다.
본 발명 세포 클러스터링 방법은 각 세포에서 유전자의 발현 정도를 기준으로 유사성을 추정하는 것인바, 클러스터링 대상이 되는 모든 세포에서의 발현 정도가 비슷한 유전자(분산이 작은 유전자)를 선택하면 효율적인 세포 클러스터링이 어려워지는 문제가 생길 수 있어, 이를 해결하고자 발현 정도의 분산이 큰 유전자를 선택하는 제2 단계를 포함하는 클러스터링 방법을 이용하는 것이다.
제2 단계에서 상기 발현 정도는 특정 유전자의 각 세포에서의 발현량의 평균값일 수 있으나, 이에 제한되는 것은 아니다.
제2 단계는 발현 정도의 분산이 기 결정된 순위 이내에 포함되는 유전자를 적어도 하나 선택하는 것일 수 있다. 상기 기 결정된 순위는 전체 유전자 중 상위 10%, 상위 15%, 상위 20%, 상위 25%, 상위 30%, 상위 35%, 상위 40%, 상위 45%, 상위 50%, 상위 55%, 상위 60%, 상위 65%, 상위 70%, 상위 75%, 상위 80%, 상위 85%, 상위 90% 또는 상위 95% 일 수 있으며, 바람직하게는 상위 20% 일 수 있으나, 이에 제한되는 것은 아니다.
분산이 기 결정된 순위 이내에 포함되는 유전자를 선택하는 것은 순위 이내에 포함된 유전자들 중 하나 이상을 무작위로 선택할 수 있는 것을 의미할 수 있다.
제2 단계에서는 제1 단계에서 선택된 전체 유전자 중 70 내지 1%, 60 내지 10%, 50 내지 20% 또는 40 내지 30% 를 선택하는 것일 수 있으나, 이에 제한되지 않는다.
제3 단계는 상기 제2 단계에서 선택되는 복수개 유전자들 중, 적어도 일부 유전자의 발현 정도를 기준으로 클러스터링 대상이 되는 복수개의 세포들의 유사성을 측정하여 클러스터링 하는 것일 수 있다. 즉, 제3 단계에서 클러스터링 기준이 되는 유전자는 제2 단계에서 선택된 복수개 유전자 전부 또는 일부 일 수 있다.
제3 단계는 제2 단계에서 선택되는 복수개 유전자들 전부 또는 그 중 일부를 무작위로 선별하여, 무작위로 선별된 일부 유전자의 발현 정도를 기준으로 기준으로 클러스터링 대상이 되는 복수개의 세포들의 유사성을 측정하여 클러스터링 하는 것일 수 있다.
예를 들어, 제3 단계는 제2 단계에서 선택된 복수개 유전자 전체 개수를 기준으로 10 내지 90%, 20 내지 80%, 30 내지 70% 또는 40 내지 60%의 유전자를 무작위로 선별하여, 선별된 유전자들의 발현 정도를 기준으로 클러스터링 하는 것일 수 있다.
상기 발현 정도는 특정 유전자의 발현량일 수 있으나, 이에 제한되는 것은 아니다.
상기 발현 정도를 기준으로 클러스터링 하는 것은 클러스터링 대상이 되는 각 세포마다 제2 단계에서 선별된 유전자들의 발현 정도를 비교하여, 발현 정도가 유사한 세포끼리 클러스터링 하는 것을 의미할 수 있다. 이에 의해 각 유전자 발현 패턴이 유사한 세포들끼리 묶일 수 있다.
제3 단계에서 세포들의 유사성 측정은 종래 알려진 유사성 측정 방법을 이용할 수 있다. 예를 들어, 제3 단계에서 세포들의 유사성 측정은 Jaccard 유사성, 상관도(Correlation), PCA, UMAP, t-SNE를 이용한 저차원 표현법상에서 Euclidean거리, Manhattan 거리 중 하나 이상을 이용할 수 있으나, 이에 제한되는 것은 아니다.
상기 제3 단계는 제2 단계에서 선별된 복수개 유전자들 중 전부 또는 일부를 무작위로 선별하고, 무작위로 선별된 일부 유전자의 발현 정도를 기준으로 기준으로 클러스터링 대상이 되는 복수개의 세포들의 유사성을 측정하여 클러스터링 하는 것을 반복적으로 수행하는 것일 수 있으며, 예를 들어, 10 내지 1000, 50 내지 950, 100 내지 900, 150 내지 850, 200 내지 800, 250 내지 750, 300 내지 700, 350 내지 650, 400 내지 600, 450 내지 550 회 수행하는 것일 수 있으나, 이에 제한되지 않는다. 상기 제3 단계의 적절한 수행 횟수는 상기 제2 단계에서 선택된 유전자의 수, 클러스터링 대상이 되는 세포의 수 또는 세포의 종류 등 다양한 요소에 의해 달라질 수 있으며, 통상의 기술자가 실험 조건에 따라 적절히 선택할 수 있다.
전술한 바와 같이, 상기 제3 단계가 복수번 반복되는 경우, 제3 단계는 이들에 의해 얻어진 클러스터링 데이터를 결합하는 것을 더 포함할 수 있다. 상기 클러스터링 데이터를 결합하는 것은, 도 8의 (c) 단계 또는 실시예 실험 방법 3에서 랜덤 샘플링에 대한 유사성 측정값을 집계하여 앙상블 유사성 측정값을 얻는 것일 수 있으나, 이에 제한되지 않는다.
본 발명 세포 클러스터링 방법은 상기 제3 단계의 클러스터링에 의해 얻어진 복수의 클러스터 중 유사성이 높은 클러스터들을 하나의 클러스터로 다시 결합시키는 제4 단계를 더 포함할 수 있다.
상기 제4 단계는 상기 제3 단계에서 분류된 복수의 클러스터들을 대상으로 추가적인 유사성 측정을 통해 유사성이 높은 클러스터들을 하나의 클러스터로 만드는 것일 수 있다.
또한, 제4 단계는 유사성이 있어 하나의 클러스터로 분류되어야 하는 세포들이 복수의 클러스터들로 잘못 나누어진 경우, 추가적인 유사성 측정을 통해 잘못 분류된 복수의 클러스터들을 다시 결합하는 것일 수 있다.
상기 제4 단계는 상기 제3 단계에서 얻어진 복수의 클러스터 중 하나를 다시 복수개의 클러스터로 추가 분류하는 것일 수 있다.
상기 제4 단계는 상기 제3 단계에서 유사 세포로 분류된 것으로부터 추가적으로 유사성이 있는 세포들로만 클러스터를 만드는 것일 수 있다.
제4 단계에서 유사성 측정은 전술한 바와 같이 Jaccard 유사성, 상관도(Correlation), PCA, UMAP, t-SNE를 이용한 저차원 표현법상에서 Euclidean거리, Manhattan 거리 중 하나 이상을 이용할 수 있으나, 이에 제한되는 것은 아니다.
상기 제4 단계는 전술한 제1 단계 내지 제3 단계를 반복하는 것일 수도 있고, 공지된 클러스터링 방법으로 추가 클러스터링 하는 것 일 수도 있다. 예를 들어, 상기 제4 단계는 Louvain 알고리즘을 이용해 추가 클러스터링 하는 것일 수 있으나, 이에 제한되지 않는다.
도 8은 전술한 세포 클러스터링 방법의 일 예를 도식화한 것으로, 도 8의 (a) 단계는 상기 제1 단계 및 상기 제2 단계를 포함할 수 있으며, 도 8의 (b) 단계는 상기 제3 단계를 포함할 수 있으며, 도 8의 (c) 단계는 상기 제4 단계를 포함할 수 있고, 도 8의 (d) 단계는 상기 제5 단계를 포함할 수 있다.
또한, 본 발명은 클러스터링 대상이 되는 복수개의 세포에서 발현되는 복수의 유전자 서열이 입력되는 데이터 입력부; 상기 데이터 입력부에 입력된 유전자 서열 중 그 발현 정도가 나머지 유전자들에 비해 높은 유전자들을 복수개 선별하는 제1 유전자 선별부; 상기 제1 유전자 선별부에서 선별된 유전자 중 나머지 유전자들에 비해 그 발현 정도의 분산이 큰 유전자를 복수개 선별하는 제2 유전자 선별부; 및 상기 제2 유전자 선별부에서 선별된 복수개의 유전자 중 적어도 일부의 발현 정도를 기준으로 클러스터링 대상이 되는 복수개의 세포들의 유사성을 측정하여 클러스터링하는 클러스터링부;를 포함하는 세포 클러스터링 장치를 제공한다.
데이터 입력부에 입력되는 복수의 유전자 서열은 클러스터링 대상이 되는 복수개의 세포의 RNA 서열분석 데이터일 수 있으나, 이에 제한되는 것은 아니다. 상기 RNA 서열분석 데이터는 정규화된 데이터일 수 있다.
상기 클러스터링 대상이 되는 복수개의 세포는 예를 들어, 50 내지 100, 100 내지 1000, 1000 내지 10000, 10000 내지 100000 개일 수 있으나, 이에 제한되지 않는다.
데이터 입력부에 입력되는 상기 복수의 유전자 서열은 클러스터링 대상이 되는 복수개의 세포 중 일부 세포에서만 발현되는 것일 수 있고, 클러스터링 대상이 되는 복수개의 세포 전부에서 발현되는 것일 수도 있다.
제1 유전자 선별부는 상기 데이터 입력부에 입력된 유전자 서열 중 발현 정도가 높은 유전자를 선별하는 것을 목적으로 한다.
상기 발현 정도는 특정 유전자의 각 세포에서의 발현량의 합계 또는 특정 유전자의 각 세포에서의 발현량의 평균값일 수 있으며, 바람직하게는 특정 유전자의 각 세포에서의 발현량의 평균값일 수 있으나, 이에 제한되는 것은 아니다.
예를 들어, 제1 유전자 선별부는 클러스터링 대상이 되는 복수개 각 세포에서의 발현량의 총 값이 기 결정된 발현량 이상에 포함되는 유전자를 적어도 하나 선택하는 것일 수 있다.
다른 예를 들어, 제1 유전자 선별부는 클러스터링 대상이 되는 복수개 각 세포에서의 발현량의 평균값이 기 결정된 발현량 이상에 포함되는 유전자를 적어도 하나 선택하는 것일 수 있다.
또 다른 예를 들어, 제1 유전자 선별부는 클러스터링 대상이 되는 복수개 각 세포에서의 발현량의 총 합이 기 결정된 순위 이내에 포함되는 유전자를 적어도 하나 선택하는 것일 수 있다.
또 다른 예를 들어, 제1 유전자 선별부는 클러스터링 대상이 되는 복수개 각 세포에서의 발현량의 평균값이 기 결정된 순위 이내에 포함되는 유전자를 적어도 하나 선택하는 것일 수 있다. 상기 기 결정된 순위는 전체 유전자 중 상위 10%, 상위 15%, 상위 20%, 상위 25%, 상위 30%, 상위 35%, 상위 40%, 상위 45%, 상위 50%, 상위 55%, 상위 60%, 상위 65%, 상위 70%, 상위 75%, 상위 80%, 상위 85%, 상위 90%, 상위 95% 일 수 있으며, 바람직하게는 상위 50% 일 수 있으나, 이에 제한되는 것은 아니다.
기 결정된 발현량 또는 기 결정된 순위 이내에 포함되는 유전자를 선택하는 것은 기 결정된 발현량 또는 기결정된 순위 이내에 포함된 유전자들 중 하나 이상을 무작위로 선택할 수 있는 것을 의미할 수 있다.
일 예로, 제1 유전자 선별부는 복수개 각 세포에서의 발현량의 평균값이 클러스터링 대상이 되는 복수개의 세포의 전체 유전자 각각의 각 세포에서 발현량의 평균값들의 중위값 이상에 포함되는 유전자를 무작위로 적어도 하나 선택하는 것일 수 있다.
제1 유전자 선별부는 하기 수학식 1을 만족하는 유전자를 선택하는 것일 수 있다:
[수학식 1]
각 세포에서의 발현량의 평균값 ≥ 클러스터링 대상이 되는 복수개의 세포의 전체 유전자 각각의 각 세포에서 발현량의 평균값들의 중위값.
제1 유전자 선별부는 하기 수학식 4의 함수를 만족하는 유전자를 선택하는 것일 수 있다:
[수학식 4]
F= {gi|μ(gi)≥ μt},
상기 μ(gi)는 유전자 gi의 각 세포에서의 발현량의 평균값이고, 상기 μt는 클러스터링 대상이 되는 복수개의 세포의 전체 유전자 각각의 각 세포에서의 발현량 평균값의 중위값이다.
제1 유전자 선별부에서 선별되는 복수개 유전자는 데이터 입력부에 입력된 전체 유전자 중 70 내지 1%, 60 내지 10%, 50 내지 20% 또는 40 내지 30% 를 선택하는 것일 수 있으나, 이에 제한되지 않는다.
제2 유전자 선별부는 상기 제1 유전자 선별부에서 선택되는 복수개 유전자들 중, 클러스터링 대상이 되는 전체 세포들에 대해 발현 정도의 분산이 큰 유전자를 선별하는 것을 목적으로 한다.
제2 유전자 선별부에서 “발현 정도의 분산이 크다”는 것은 특정 유전자의 발현 정도가 클러스터링 대상이 되는 세포들 전체에서 골고루 분포되지 않고 일부에만 편중되는 것을 의미할 수 있다. 또한, 발현 정도의 분산이 크다는 것은 발현 정도의 분산이 절대적인 값 이상인 것일 수 도 있으며, 상대적으로 다른 유전자들에 비해 큰 값을 나타내는 것일 수 도 있다. 다만, 상기 절대적인 값은 특정한 값으로 제한되지 않고 적절하게 선택할 수 있다.
본 발명 장치에 의한 세포 클러스터링은 각 세포에서 유전자의 발현 정도를 기준으로 유사성을 추정하여 클러스터링 하는 것인바, 클러스터링 대상이 되는 모든 세포에서의 발현 정도가 비슷한 유전자(분산이 작은 유전자)를 선택하면 효율적인 세포 클러스터링이 어려워지는 문제가 발생할 수 있어, 이를 해결하고자 발현 정도의 분산이 큰 유전자를 선택하는제 2 유전자 선별부를 포함하는 장치를 이용하는 것이다.
상기 발현 정도는 특정 유전자의 각 세포에서의 발현량의 합계 또는 특정 유전자의 각 세포에서의 발현량의 평균값일 수 있으며, 바람직하게는 특정 유전자의 각 세포에서의 발현량의 평균값일 수 있으나, 이에 제한되는 것은 아니다.
제2 유전자 선별부는 발현 정도의 분산이 기 결정된 순위 이내에 포함되는 유전자를 적어도 하나 선택할 수 있다. 상기 기 결정된 순위는 상기 제1 유전자 선별부에 의해 선별된 전체 유전자 개수 중 상위 10%, 상위 15%, 상위 20%, 상위 25%, 상위 30%, 상위 35%, 상위 40%, 상위 45%, 상위 50%, 상위 55%, 상위 60%, 상위 65%, 상위 70%, 상위 75%, 상위 80%, 상위 85%, 상위 90% 또는 상위 95% 일 수 있으며, 바람직하게는 상위 20% 일 수 있으나, 이에 제한되는 것은 아니다.
분산이 기 결정된 순위 이내에 포함되는 유전자를 선택하는 것은 순위 이내에 포함된 유전자들 중 하나 이상을 무작위로 선택할 수 있는 것을 의미할 수 있다.
제2 유전자 선별부에서는 제1 유전자 선별부에서 선별된 유전자 중 70 내지 1%, 60 내지 10%, 50 내지 20% 또는 40 내지 30% 를 선택하는 것일 수 있으나, 이에 제한되지 않는다.
클러스터링부는 상기 제2 유전자 선별부에서 선별된 복수개 유전자들 중 적어도 일부 유전자의 발현 정도를 기준으로 클러스터링 대상이 되는 복수개의 세포들의 유사성을 측정하여 클러스터링 할 수 있다. 즉, 클러스터링부의 클러스터링 기준이 되는 유전자는 제2 유전자 선별부에서 선별된 복수개 유전자 전부 또는 일부일 수 있다.
클러스터링부는 제2 유전자 선별부에서 선별된 복수개 유전자들 중 전부 또는 일부를 무작위로 선별하여, 무작위로 선별된 일부 유전자의 발현 정도를 기준으로 기준으로 클러스터링 대상이 되는 복수개의 세포들의 유사성을 측정하여 클러스터링 할 수 있다.
예를 들어, 클러스터링부는 제2 유전자 선별부에서 선별된 복수개 유전자 전체 개수를 기준으로 10 내지 90%, 20 내지 80%, 30 내지 70% 또는 40 내지 60%의 유전자를 무작위로 선별하여, 선별된 유전자들의 발현 정도를 기준으로 클러스터링 할 수 있다.
상기 발현 정도는 특정 유전자의 발현량일 수 있으나, 이에 제한되는 것은 아니다.
클러스터링부는 종래 알려진 유사성 측정 방법을 이용해 세포간 유사성 측정을 할 수 있다. 예를 들어, 세포간 유사성 측정은 Jaccard 유사성, 상관도(Correlation), PCA, UMAP, t-SNE를 이용한 저차원 표현법상에서 Euclidean거리, Manhattan 거리 중 하나 이상을 이용할 수 있으나, 이에 제한되는 것은 아니다.
상기 클러스터링부는 제2 유전자 선별부에서 선별된 복수개 유전자들 중 전부 또는 일부를 무작위로 선별하고, 무작위로 선별된 일부 유전자의 발현 정도를 기준으로 기준으로 클러스터링 대상이 되는 복수개의 세포들의 유사성을 측정하여 클러스터링 하는 것을 반복적으로 수행 할 수 있으며, 예를 들어, 10 내지 1000, 50 내지 950, 100 내지 900, 150 내지 850, 200 내지 800, 250 내지 750, 300 내지 700, 350 내지 650, 400 내지 600, 450 내지 550 회 수행할 수 있으나, 이에 제한되지 않는다. 적절한 수행 횟수는 상기 제2 유전자 선별부에서 선별된 유전자의 수, 클러스터링 대상이 되는 세포의 수 또는 세포의 종류 등 다양한 요소에 의해 달라질 수 있으며, 실험 조건에 따라 적절히 설정될 수 있다.
전술한 바와 같이, 상기 클러스터링부가 제2 유전자 선별부에서 선별된 복수개 유전자들 중 전부 또는 일부를 무작위로 선별하고, 무작위로 선별된 일부 유전자의 발현 정도를 기준으로 기준으로 클러스터링 대상이 되는 복수개의 세포들의 유사성을 측정하여 클러스터링하는 것을 복수번 반복하는 경우, 클러스터링부는 복수의 클러스터링으로부터 얻어진 복수의 데이터를 결합할 수 있다.
상기 복수의 데이터를 결합하는 것은, 도 8의 (c) 단계 또는 실시예 실험 방법 3에서 랜덤 샘플링에 대한 유사성 측정값을 집계하여 앙상블 유사성 측정값을 얻는 것일 수 있으나, 이에 제한되지 않는다.
본 발명 클러스터링부는 복수의 클러스터링 후 얻어진 복수의 클러스터 중 유사성이 높은 클러스터들을 하나의 클러스터로 다시 결합시키는 것을 추가적으로 할 수 있다.
클러스터링부는 클러스터링에 의해 얻어진 데이터에 포함된 복수의 클러스터들을 대상으로 추가적인 유사성 측정을 통해 유사성이 높은 클러스터들을 하나의 클러스터로 만드는 것을 더 할 수 있다. 또한, 클러스터링부는 유사성이 있어 하나의 클러스터로 분류되어야 하는 세포들이 복수의 클러스터들로 잘못 나누어진 경우, 잘못 분류된 복수의 클러스터들을 다시 결합하는 것을 더 할 수 있다.
클러스터링부는 클러스터링에 의해 얻어진 데이터에 포함된 복수의 클러스터 중 하나를 다시 복수개의 클러스터로 추가 분류 하는 것을 더 할 수 있다. 또한, 클러스터링부는 클러스터링에 의해 유사 세포로 분류된 것으로부터 추가적으로 유사성이 있는 세포들로만 클러스터를 만드는 것을 더 할 수 있다.
이 때, 상기 유사성 측정은 Jaccard 유사성, 상관도(Correlation), PCA, UMAP, t-SNE를 이용한 저차원 표현법상에서 Euclidean거리, Manhattan 거리 중 하나 이상을 이용할 수 있으나, 이에 제한되는 것은 아니다.
도 2는 전술한 세포 클러스터링 장치의 일 예를 도식화한 것이나, 본 발명 세포 클러스터링 장치는 도 2에 나타난 구성 중 일부 구성이 생략된 것일 수 있으며, 다른 구성이 더 추가된 것일 수 있다.
본 발명 "~부" 의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미할 수 있다. 예를 들어, 상기 용어들은 FPGA(field-programmable gate array) / ASIC(application specific integrated circuit) 등 적어도 하나의 하드웨어, 메모리에 저장된 적어도 하나의 소프트웨어 또는 프로세서에 의하여 처리되는 적어도 하나의 프로세스를 의미할 수 있다.
상기 제1 유전자 선별부, 상기 제2 유전자 선별부, 상기 클러스터링부, 상기 샘플링부는, 전술하는 동작 및 후술하는 동작을 수행하는 프로그램을 저장하는 적어도 하나의 메모리 및 저장된 프로그램을 실행하는 적어도 하나의 프로세서를 포함할 수 있다.
이하, 본 발명을 구체적으로 설명하기 위해 실시예를 들어 상세하게 설명하기로 한다.
실험 방법
1. 단일 세포 RNA 서열분석 데이터 정규화
MⅹN 차원의 행렬 X로 표현될 수 있는 단일 세포 RNA 서열분석 데이터가 있다고 가정하였다(M: 발현된 유전자의 수, N: 세포의 수). 행렬 X의 각 값은 반드시 읽기 카운트(Read Count)일 필요는 없지만, 유전자 발현에 대한 상대적인 값은 허용 될 수 있다.
유전자 발현에 대한 인공적인 편향을 제거하기 위해, cpm(counts per million)으로 라이브러리의 크기를 정규화하였고, 매우 큰 값의 압도적인 영향을 줄이기 위해 로그 변환을 수행하였다.
정규화 된 단일 세포 RNA 서열 분석 데이터 매트릭스 Xn은 하기 수학식 2와 같다
[수학식 2]
Figure 112019089767540-pat00001
.
2. 세포간 유사성 측정 기준이 되는 포텐셜 유전자 세트(F) 선택
세포 대 세포 유사성을 정확하게 측정하기 위해, 동일한 유형의 세포가 유사한 유전자 발현 패턴을 가질 수 있다고 가정하여, 각 세포 사이의 유전자 발현을 비교하여 유사성을 계산하였다.
본 발명자들은 단일 세포 RNA 서열분석 데이터들로부터 하기 두 가지 조건을 충족하는 포텐셜 유전자들을 선택하였고, 선택된 복수의 유전자들을 포텐셜 유전자 세트(potential gene set)라 표현하였다:
(조건 1) 상대적으로 높은 평균 발현량,
(조건 2) 클러스터링 대상이 되는 세포 전체에 대하여 상대적으로 높은 분산.
상기 조건을 충족하는 포텐셜 유전자를 선택하기 위해, 각 유전자에 대한 발현량 평균 및 분산, 즉, 정규화된 행렬 Xn 각 행 마다의 평균 및 분산(row-wise mean and variance)을 계산하였고, 각 유전자의 발현량 평균값의 중간 정도의 값(중위값)을 선택하였다.
발현량이 높은 유전자는 하기 세트(F)로 제공되었다: F={gi| μ(gi)≥μt}, μ(gi)는 i번째 유전자 gi의 평균 발현량이고, μt는 모든 유전자의 평균 발현량의 중위값이다.
그 후, 상기 F에 해당하는 유전자를 분산에 따라 정렬하고, 분산이 큰 상위 20%의 유전자를 선별하여 최종적으로 포텐셜 유전자 세트를 얻었다.
3. 서브 유전자 세트(f) 랜덤 샘플링을 통한 세포간 유사성 측정
전술한 방법에 의해 얻은, 포텐셜 유전자 세트(F)의 일부인 서브 유전자 세트(f)를 랜덤하게 샘플링하였고, 이를 세포간 유사성 측정을 위한 특징으로 사용하였다.
서브 유전자 세트(f)를 이용하여 선형 및 비선형 차원 축소를 통해 세포간 유사성을 측정하였다. 상이한 특징을 가지는 유전자 서브 세트를 이용한 차원 축소는, 저 차원 공간에서 세포 간 거리 차이를 유발할 수 있지만, 유사성이 높은 세포들은 서로 밀접하게 위치할 가능성이 더 높다.
선형 차원 축소를 위해 PCA(principal component analysis)을 사용하였고, 비선형 차원 축소를 위해 UMAP을 사용하였다.
PCA(principal component analysis)와 UMAP를 통해 얻어진 인접 행렬(adjacency matrix)의 요소별 합계(element-wise sum)를 통해 상기 임의로 샘플링된 서브 유전자 세트(f)에 대한 세포간 유사성 측정값을 얻었다. 그 후, 유사성 측정값을 이중 확률 행렬(Double stochastic matrix)로 만들었다. 이중 확률 행렬 (Double stochastic matrix)은 특수한 형태의 정사각 행렬로, 각 열과 행의 합은 1과 같으며 보다 균형 잡히고 정확한 네트워크 분석 결과를 이끌어 낼 수 있다.
전술한 포텐셜 유전자 세트(F)로부터 서브 유전자 세트(f)를 임의로 샘플링하고, PCA 및 UMAP을 이용해 세포간 유사성 측정하여 합계를 구한 후, 이중 확률 행렬을 구하는 것은 복수 번(L번) 반복하였다.
L 번의 모든 랜덤 샘플링에 대한 유사성 측정값의 이중 확률 행렬을 집계함으로써 앙상블 유사성 측정(ensemble similarity measurement) 값을 얻을 수 있었다.
4. 세포간 유사성 측정 네트워크-기반 클러스터링(network-based clustering) 을 통한 단일 세포 클러스터링
단일 세포 클러스터링 결과를 얻기 위해, 네트워크-기반 클러스터링 방법을 채택하였다. 먼저, 전술한 방법에 의해 얻은 앙상블 유사성 측정값(ensemble similarity measurement)에 Louvain 알고리즘을 적용하여 초기 클러스터 결과를 얻었다.
실험을 통해, 앙상블 유사성 측정값에 대한 Louvain 알고리즘이 동일한 세포 유형(cell type)을 다수의 클러스터로 분리하고, 단일 멤버로만 구성된 단일 클러스터(singleton clusters)를 생성하는 것을 확인하였다.
보다 더 정확한 클러스터링 결과를 얻기 위해, 실제로 동일한 세포 유형에 포함된 단일 클러스터를 병합해야 되며, 이를 위해 앙상블 유사성 측정 값에서 단일 클러스터에 있는 세포와 인접 노드(neighboring nodes) 사이의 앙상블 유사성(ensemble similarity)의 평균을 계산하였다. 그 후, 단일 클러스터를 최대 평균 유사성 점수(maximum average similarity scores)를 가진 클러스터에 병합하였다.
단일 클러스터를 제거한 후, 동일한 세포 유형으로 분류 할 수 있는 다른 클러스터를 병합하기 위해 하기 수학식 3으로 표현된 분리 점수(separation score)를 이용하였다.
[수학식 3]
Figure 112019089767540-pat00002
, 상기 p(Xi,Yi)는 두 군집 X 및 Y에서 i 번째 유전자에 대한 Welch의 t-test를 통해 계산 된 p-value이다.
모든 군집의 분리 점수를 계산하였고, 군집 수가 실제 군집의 수가 될 때까지 두 군집을 최소 분리 점수와 반복적으로 병합하였다.
즉, 상기 실시예들에 따르면, i) 세포에 걸쳐 잘 발현되고 분산이 높은 포텐셜 유전자 세트를 선택하고, ii) 포텐셜 유전자의 하위 유전자 세트를 임의로 샘플링하고, 샘플링 된 서브 세트에 기초한 선형 및 비선형 차원 감소 방법을 통해 세포간 유사성을 추정하며(상기 ii는 복수 번 수행될 수 있음), iii) 무작위 샘플링에 기반한 복수번의 세포간 유사성 측정을 통해 앙상블 세포 유사성 네트워트 (ensemble cell similarity network)를 얻었고, 앙상블 세포 유사성 네트워트를 통한 네트워크 기반 클러스터링 알고리즘을 통해 단일 세포 클러스터링 결과를 얻을 수 있었다.
도 1은 전술한 단일 세포 클러스터링 알고리즘(scCLUE)의 pseudo code를 나타낸다.
실험 결과
1. 실험 대상 데이터 세트(Datasets)
본 발명 단일 세포 클러스터링 알고리즘의 성능을 평가하기 위해, 하기 8 개의 단일 세포 RNA 서열분석 데이터 세트를 이용했다:
(1) Buettner et al. 는 마우스 배아 줄기 세포의 단일 세포 RNA 서열분석 데이터를 제공하였으며, 상기 데이터는 상이한 세포주기 단계(G1, G2M 및 S phase)에 대한 유전자 발현 프로파일을 포함한다.
(2) Darmanis et al. 는 인간 뇌에 대한 단일 세포 RNA 서열분석 데이터를 제공하였으며, 상기 데이터로부터 뉴런과 성상 세포 사이의 중간 단계로 간주 될 수있는 '하이브리드'유형으로 분류 된 세포 유형을 제거하였다.
(3) Chu et al. 는 인간 배아 줄기 세포를 위한 단일 세포 서열분석을 제공하였다.
또한, 내배엽의 세포 분화에 대한 시계열 데이터를 제공하였다. 시계열 데이터는 chu_time으로 표시했다.
(4) Deng et al. 는 1-세포, 2-세포, 4-세포, 8-세포 및 16-세포 상태로부터 마우스 및 서열화 된 세포의 초기 발생을 제공하였다.
(5) Usoskin 데이터는 마우스 감각 뉴런에 대한 단일 세포 RNA 서열분석 데이터를 포함하며, 여기에서 펩티드성 통각 수용체(peptidergic nociceptors; PEP), 비 펩타이드성 통각 수용체(non-peptidergic nociceptors; NP), 신경 필라멘트 함유(neurofilament containing; NF) 및 티로신 하이드록실라아제 함유(tyrosine hydroxylase containing; TH)에 대한 유전자 발현을 포함한다.
(6) Zeisel et al. 는 마우스 체성 감각 피질(mouse somatosensory cortex)과 해마 CA1 영역(hippocampal CA1 region)에 대규모 단일 세포 RNA 서열분석을 제공했다. Zeisel 데이터의 세포는 47 개의 서브 클래스(sub-class)로 분류 될 수 있지만, 우리는 주요 세포 유형만을 사용하였다: 중간뉴런(interneurons), 미세 아교 세포(microglia), 희돌기교세포(oligodendrocytes), 피라미드 CA1(pyramidal CA1), 성상 세포(astrocytes), 내피(endothelial), 피라미드 SS 뉴런(pyramidal SS neurons).
(7) kolodziejczyk 데이터 세트는 다른 클러스터 조건 하에서 9 개의 다른 실험에 대한 704 mESC를 포함하였다.
세포 및 세포 유형의 수는 하기 표 1에 요약되어있다.
Figure 112019089767540-pat00003
2. 성능 측정
외부 정보, 즉, 세포 유형에 대한 실제 레이블(true labels)과 생물학적 분석(biological analysis)을 통해 클러스터링 결과의 품질을 평가했습니다.
외부 정보를 사용하여 클러스터링 결과의 품질을 평가하기 위해, 세포 유형에 대한 보고 된 true labels를 사용하였고, 하기 4 가지 성능 지표(순도, JCCI (Jaccard index), ARI (adjusted rand index) 및 NMI (normalized mutual information)를 계산하였다.
다음으로 생물학적 분석을 통해 군집 결과의 품질을 평가하였다.
이 평가에서 클러스터링 알고리즘이 정확한 결과 (즉, 실제 세포 유형에 대한 동일한 세포 유형 예측)를 산출하는 경우, 예측 된 세포 유형 레이블(predicted cell type labels)을 사용한 differential analysis가 실제 세포 유형 레이블(true cell type labels)를 사용하여 동일한 differential analysis 결과를 이끌어 낼 수 있다고 가정하였다.
가정에 기초하여, 본 발명자들은 관심있는 세포에서 고도로 발현되고 나머지 세포에서는 거의 발현되지 않는, 각 세포 유형에 대해 DEG (differentially expressed genes)를 확인 하였다.
단일 세포 RNA 서열분석 데이터를 분석하기 위해 정확성(precision)과 recall의 측면에서 균형 잡힌 성능을 보여주는 edgeR을 사용했다. 대조군 vs 실험군을 edgeR의 입력 매개 변수로 설계하기 위해, 각 논문에 의해 보고 된 실제 세포 유형 레이블을 이용하였다.
그런 다음 조정 된 p-value 값이 0.05보다 큰 DEG를 제거하였고, log2 fold change가 1.5보다 큰 DEG를 유지하였다. 마지막으로 각 세포 유형에 대한 모든 DEG를 병합하였고, 이 리스트를 기본 정보로 활용하였다.
각 알고리즘의 예측 된 세포 유형 레이블을 기반으로, 각 단일 클러스터링 알고리즘에 의해 예측 된 세포 유형 레이블을 사용하여 DEG를 식별하고 정밀도(precision), recall 및 F 점수(F-scores)를 비교하는 동일한 절차를 수행하였다.
3. 각 알고리즘에 대한 파라미터 설정
pcCLReduce, Seurat, SIMLR, TSCAN 및 CIDR와 같은 최첨단 단일 셀 클러스터링 알고리즘과 본 발명 단일 세포 클러스터링 알고리즘 scCLUE의 성능을 비교하였다.
또한, k-means 클러스터링이 이어진 UMAP애 의한 클러스터링 결과를 포함 시켰다. k-means 클러스터링을 얻기 위해, 우리는 군집의 실제 수를 파라미터 k로 사용하였다.
pcaReduce의 경우 nbt 파라미터를 1로 설정하였고, 초기 차원의 파라미터는 실제 군집(true clusters)의 수를 사용하였다. 'M'모드와 'S'모드로 pcaReduce를 테스트하였다. Seurat(version 3.0)를 실행하기 위해, 기능 선택에 대한 옵션만 vst로 설정하였고, PBMC 3K 데이터 클러스터링에 대한 Suerat tutorial에서 권장하는 다른 설정에 대한 기본 파라미터를 사용하였다. SIMLR의 경우 기본 매개 변수를 사용했지만, 클러스터링 결과를 얻기 위해 실제 수의 클러스터가 제공되었다. TSCAN 및 CIDR의 경우 기본 파라미터를 활용하였다. 각 방법에 대해 R 구현을 활용하였다.
본 발명 알고리즘 scCLUE를 실행하기 위해 15 개의 주요 구성 요소를 사용하여 Pearson 상관 관계를 계산하였고, 30 개의 임의의 기능 샘플링을 수행하였다. 30 개의 랜덤 피처 샘플링 중 15 개의 랜덤 피처 샘플링에 5 개의 가장 가까운 이웃을 사용하였고 나머지 15 개의 랜덤 피처 샘플링에 10 개의 가장 가까운 이웃의 KNN 네트워크를 사용하여 KNN 네트워크를 구성하였다. 12 개의 코어와 128GB의 메모리를 가진 Intel Xeon 프로세서 (2.6GHz)가 설치된 Linux 서버에서 모든 실험을 수행하였다.
4. 단일 세포 클러스터링 결과의 저차원 시각화
먼저 각 단일 세포 클러스터링 알고리즘의 저차원 시각화 결과(low-dimensional visualization results)를 비교하였다. 실제 레이블 이 있는 시각화와 비교하여, 클러스터링 결과의 정확성을 평가하는 직관적인 방법을 제공한다.
저차원 시각화를 위해, 저차원 공간에서 각각의 단일 세포를 표현하기 위해 t-SNE를 활용했다. 그런 다음 예측 된 세포 유형 레이블을 사용하여, 각 방법에 대한 클러스터링 결과를 강조 표시하였다. 색상 레이블(color label)은 세포 유형을 나타내며 단일 시각화 결과에만 유효하므로, 다른 클러스터링 알고리즘에서 나타나는 동일한 색상이 동일한 세포 유형을 보장하지는 않는다.
도 3에 따르면, Usoskin 데이터의 경우 pcaReduce는 동일한 세포 유형을 다른 클러스터로 나누고, 다른 세포 유형을 동일한 클러스터링으로 병합하였다. Kolodziejczyk 데이터의 경우 SIMLR는 UMAP + kmeans 클러스터링 결과와 다른 세포 유형에 대해 동일한 레이블을 명확하게 할당하였다. 전반적으로 scCLUE를 통해 예측 된 레이블을 사용한 시각화 결과는 true label을 사용한 시각화와 대응되게 높은 것으로 나타났으며, PCA와 UMAP을 통한 시각화 결과가 유사하다는 것을 확인하였다.
5. true label을 통한 단일 세포 클러스터링의 평가
단일 세포 클러스터링의 주요 목표는, 마커 유전자 식별 및 다른 세포 유형에 대한 pseudo-time ordering과 같은 생물학적 분석의 심층 분석에 활용 할 수 있는 일관된 그룹을 만드는 것이다.
클러스터링 결과의 일관성을 평가하기 위해 각 알고리즘의 순도 점수를 비교하였다. Usoskin 데이터를 제외하고, 본 발명 scCLUE는 가장 높은 순도 점수를 달성했으며, 이는 예측 된 클러스터의 대부분 세포 유형이 동일한 세포 유형을 가짐을 의미한다(도 4 참조). 균일 한 세포를 갖는 일관된 클러스터링은 마커 유전자 식별 및 각 세포 유형에 대한 유전자 조절 네트워크를 추론하는 것과 같은 신뢰할 수 있는 분석 결과를 이끌어 낼 수 있다. 그러나, 단일 세포 클러스터링 알고리즘이 더 큰 클러스터를 만드는 경향이 있을 때 더 높은 순도 스코어가 쉽게 달성 될 수 있기 때문에 순도는 편향 될 수 있다.
군집의 크기를 고려하기 위해 Jaccard 지수를 사용하여 예측 군집 레이블의 품질을 평가하였다. CIDR과 Suerat는 각각 Buettener와 Usoskin 데이터에서 비교할만한 결과를 보여 주지만. Jaccard 지수는 그다지 인상적이지 않았다. 본 발명 scCLUE와 SIMLR은 가장 많은 데이터에 대해 가장 높은 Jaccard 지수를 보였으며, 두 방법 모두 정확하게 예측 된 레이블 수가 많고 잘못 분류 된 셀 수가 적다는 것을 의미한다 (도 5 참조). Jccard index는 클러스터링 결과의 크기 요소를 반영 할 수 있는 반면, 다른 세포 유형에 대해 다른 클러스터링 레이블에 지정된 실제 음수(true negatives)를 고려하지 않지만, 각 클러스터링 결과에 대해 조정 된 rand index를 비교하였다.
본 발명 scCLUE는 Buettner 및 Kolodziejczyk 데이터 세트에 대한 다른 클러스터링 알고리즘에 대해 더 큰 차이를 보여주었으며, Darmanis 및 Zeisel 데이터 세트에 대한 다른 클러스터링 알고리즘에 대한 명확한 간격을 달성하였다 (도 6 참조).
본 발명 scCLUE의 정규화 된 상호 정보(normalized mutual information; NMI)는 모든 데이터 세트에서 이전 결과와 유사한 경향을 나타냈다(도 7 참조).
전체적으로, 실제 세포 유형 레이블(true cell type label)을 사용한 평가에 기초하여, 제안 된 방법이 더 정확하게 예측 된 레이블의 수와 더 적은 수의 잘못된 분류를 식별함으로써 개선된 클러스터링 결과를 달성했음을 검증하였다.
6. 예측된 클러스터링 레이블을 기반으로 한 DEG 비교
많은 생물 정보학 연구에서 정상 그룹과 질병(또는 돌연변이) 그룹의 차이점을 밝히는 데 활용할 수 있는 차등 분석(differential analysis)을 수행한다. 단일 세포 RNA 서열분석은 개별 세포에서 유전자 발현의 맞춤형 프로파일링을 가능하게하므로, 차등 분석을 더욱 강력하게 하여 상이한 세포 유형에서 유전자 조절 관계의 이질성(heterogeneity)과 역학(dynamics)을 발견 할 수 있다.
차등 분석의 기본 첫 단계는 각 세포 유형의 특정한 특성을 특성화 할 수 있는 차등 발현 유전자를 확인하는 것이다. 각 단일 셀 클러스터링 알고리즘에 의해 실제 및 예측 셀 유형 레이블을 사용 하여 차등 분석 결과 간의 일치를 확인하였다.
선형 모델(즉, edgeR의 glmFit 및 glmLRT 함수)을 사용하여 DEG를 식별하였다.
하기 표 2는 세포 유형에 따른 각 알고리즘의 단일 세포 클러스터링 알고리즘의 정밀도(precision)를 나타내며, DEG에 대한 기본 정보는 실제 세포 유형 레이블을 사용한 차등 분석을 통해 얻어지며, 예측 된 세포 유형 레이블을 사용하여 식별된 DEG를 비교하였다. 하기 표 2의 각 행에서 가장 높은 값은 굵은 글씨로 표시하였다.
Figure 112019089767540-pat00004
상기 표 2에 나타난 바와 같이, 본 발명 scCLUE는 Chu, Chu_time 및 Kolodziejczyk 데이터 세트에 대해 가장 높은 정밀도를 보여주었다.
실제로 SIMLR은 Darmanis 및 Deng 데이터 세트의 최고 정밀도를 달성하였고, TSCAN은 Usoskin 데이터의 최고 정밀도를 기록하였지만. 제안된 scCLUE 방법과 이러한 알고리즘 사이의 차이는 무시할 만한 것이다.
또한, 제안 된 scCLUE의 정확도는 Buettner 및 Deng 데이터 세트를 제외하고 80 % 이상이다. 제안 된 scCLUE로 식별된 대부분의 DEG는 실제 레이블을 사용하여 식별 된 DEG와 대응된다.
다음으로, 우리는 각 알고리즘의 recall을 비교했으며, 하기 표 3에 단일 셀 클러스터링 알고리즘의 리콜을 나타내었다. DEG에 대한 기본 정보는 실제 세포 유형 레이블을 사용한 차등 분석을 통해 얻어졌으며, 예측 된 셀 유형 레이블을 사용하여 식별된 DEG를 비교하였다. 하기 표 3의 각 행에서 가장 높은 값은 굵은 글씨로 표시하였다.
Figure 112019089767540-pat00005
상기 표 3은 본 발명 scCLUE는 Zeisel 데이터를 제외하고 가장 높은 recall을 달성함으로써, 가장 많은 수의 true positives를 식별하였다.
TSCAN은 Usoskin 및 Zeisel 데이터 세트에 대해 가장 높은 정밀도를 보여 주지만, 다른 알고리즘에 비해 recall은 우수하지 않았으며, 이는 TSCAN에 의해 예측 된 클러스터링 레이블을 통해 식별 된 DEG가 많은 true positives를 놓칠 수 있다는 것을 의미한다.
마지막으로, scCLUE가 다른 알고리즘들과 명확한 차이를 보여줌으로써, 가장 높은 F-measurement를 달성하는 것을 확인하였으며, 이는 하기 표 4에 나타내었다.
Figure 112019089767540-pat00006
이 결과는, scCLUE에 의해 얻어진 예측된 레이블에 의해 식별된 DEG가 실제 세포 유형 레이블을 사용하여 식별된 DEG에 일치하게 높고, scCLUE가 차등 분석을 위해 정확하고 신뢰할 수 있는 결과를 도출 할 수 있다는 것을 나타냈다.
본 발명자들은, 다양한 단일 세포 RNA 서열분석 데이터 세트를 통해 본 발명 scCLUE가 일관되고 정확한 클러스터링 결과를 제공 할 수 있음을 입증하였다.
본 발명은 포텐셜 유전자 세트를 선택하고, 이로부터 하위 유전자 세트를 랜덤하게 샘플링하여 세포간 유사성을 반복적으로 측정하여 세포를 클러스터링 하는 것으로, 최적의 유전자 선택(optimal gene selection)을 통해 클러스터링 하는 종래 기술에 비해서, 본 발명을 이용하면 간단하고 효과적으로 세포를 클러스터링 할 수 있다.

Claims (14)

  1. 클러스터링 대상이 되는 복수개의 세포 중 적어도 하나의 세포에서 발현되는 유전자 중에서 그 발현 정도가 나머지 유전자들에 비해 높은 유전자를 복수개 선택하는 제1 단계;
    상기 선택된 복수개의 유전자 중 나머지 유전자들에 비해 그 발현 정도의 분산이 큰 유전자를 복수개 선택하는 제2 단계;
    상기 제2 단계에서 선택된 유전자들로 구성된 포텐셜 유전자 세트에서 임의로 선택된 복수개의 유전자로 구성된 서브 유전자 세트를 수득하고, 상기 서브 유전자 세트를 이루는 유전자들의 발현 정도를 기준으로 클러스터링 대상이 되는 복수개의 세포들의 유사성을 측정하여 클러스터링하여 세포간의 유사성을 나타내는 세포간 유사성 네트워크를 구축하는 제3 단계; 및
    상기 제3 단계를 복수회 수행하여 복수개의 상이한 서브 유전자 세트를 기준으로 구축된 복수개의 유사성 네트워크를 획득하고, 상기 복수개의 유사성 네트워크 전체에서 미리 설정된 값 이상으로 클러스터된 세포들을 선별하여 최종 세포 클러스터를 얻는 제 4 단계;를 포함하고,
    상기 제1 단계는 하기 수학식 1을 만족하는 유전자를 복수개 선택하는 것이고
    [수학식 1]
    각 세포에서의 발현량의 평균값 ≥ 클러스터링 대상이 되는 복수개의 세포 중 적어도 하나의 세포에서 발현되는 유전자 각각의 각 세포에서 발현량의 평균값들의 중위값,
    상기 제2 단계는 상기 클러스터링 대상이 되는 복수개의 세포에서의 발현 정도의 분산이 기 결정된 순위 이내인 유전자를 적어도 하나 선택하는 것인 세포 클러스터링 방법.
  2. 청구항 1에 있어서, 상기 제1 또는 제2 단계에서 상기 발현 정도는 각 세포에서의 발현량의 평균값인, 세포 클러스터링 방법.
  3. 청구항 1에 있어서, 상기 제1 단계에서 각 세포에서의 발현량의 평균 값이 기 결정된 순위 이내인 유전자를 적어도 하나 선택하는 것인, 세포 클러스터링 방법.
  4. 삭제
  5. 삭제
  6. 청구항 1에 있어서, 상기 제2 단계에서 그 발현 정도의 분산이 상위 20% 이내인 유전자 중 적어도 하나를 선택하는 것인, 세포 클러스터링 방법.
  7. 삭제
  8. 클러스터링 대상이 되는 복수개의 세포 중 적어도 하나의 세포에서 발현되는 복수의 유전자 서열이 입력되는 데이터 입력부;
    상기 데이터 입력부에 입력된 유전자 서열 중 그 발현 정도가 나머지 유전자들에 비해 높은 유전자들을 복수개 선별하는 제1 유전자 선별부;
    상기 제1 유전자 선별부에서 선별된 유전자 중 나머지 유전자들에 비해 그 발현 정도의 분산이 큰 유전자를 복수개 선별하는 제2 유전자 선별부; 및
    상기 제2 유전자 선별부에서 선별된 유전자들로 구성된 포텐셜 유전자 세트에서 임의로 선택된 복수개 유전자로 구성된 서브 유전자 세트를 수득하고, 상기 서브 유전자 세트를 이루는 유전자들의 발현 정도를 기준으로 클러스터링 대상이 되는 복수개의 세포들의 유사성을 측정하여 클러스터링하여 세포간의 유사성을 나타내는 세포간 유사성 네트워크를 구축하는 클러스터링부;를 포함하고,
    상기 제1 유전자 선별부는 하기 수학식 1을 만족하는 유전자를 선별하는 것이고,
    [수학식 1]
    각 세포에서의 발현량의 평균값 ≥ 클러스터링 대상이 되는 복수개의 세포 중 적어도 하나의 세포에서 발현되는 유전자 각각의 각 세포에서 발현량의 평균값들의 중위값,
    상기 제2 유전자 선별부는 각 세포에서의 발현 정도의 분산이 기 결정된 순위 이내인 유전자를 적어도 하나 선별하는 것이고,
    상기 클러스터링부에서 복수회의 클러스터링을 수행하여 복수개의 상이한 서브 유전자 세트를 기준으로 구축된 복수개의 유사성 네트워크를 획득하고, 상기 복수개의 유사성 네트워크 전체에서 미리 설정된 값 이상으로 클러스터된 세포들을 선별하여 최종 세포 클러스터를 얻는, 세포 클러스터링 장치.
  9. 청구항 8에 있어서, 상기 제1 유전자 선별부 또는 상기 제2 유전자 선별부에서 상기 발현 정도는 각 세포에서의 발현량의 평균값인, 세포 클러스터링 장치.
  10. 청구항 8에 있어서, 상기 제1 유전자 선별부는 각 세포에서의 발현량의 평균 값이 기 결정된 순위 이내인 유전자를 적어도 하나 선별하는 세포 클러스터링 장치.
  11. 삭제
  12. 삭제
  13. 청구항 8에 있어서, 상기 제2 유전자 선별부는 그 발현량의 분산이 상위 20% 이내인 유전자 중 적어도 하나를 선별하는 세포 클러스터링 장치.
  14. 삭제
KR1020190107734A 2019-08-30 2019-08-30 세포 클러스터링 방법 및 장치 KR102405732B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190107734A KR102405732B1 (ko) 2019-08-30 2019-08-30 세포 클러스터링 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190107734A KR102405732B1 (ko) 2019-08-30 2019-08-30 세포 클러스터링 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20210026654A KR20210026654A (ko) 2021-03-10
KR102405732B1 true KR102405732B1 (ko) 2022-06-03

Family

ID=75148836

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190107734A KR102405732B1 (ko) 2019-08-30 2019-08-30 세포 클러스터링 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102405732B1 (ko)

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Grace X.Y. Zheng 외, Massively parallel digital transcriptional profiling of single cells, Nature Communications, 2017.01.16., Vol.8, No.14049, pp1-12.*
Itamar Kanter 외, Applications of community detection algorithms to large biological datasets, bioRxiv, 2019.02.17., pp1-16.*
Xiaoshu Zhu 외, A Hybrid Clustering Algorithm for Identifying Cell Types from Single-Cell RNA-Seq Data, Genes, 2019.01.29., Vol.10, No.98, pp.1-17.

Also Published As

Publication number Publication date
KR20210026654A (ko) 2021-03-10

Similar Documents

Publication Publication Date Title
Duò et al. A systematic performance evaluation of clustering methods for single-cell RNA-seq data
CN112466404B (zh) 一种宏基因组重叠群无监督聚类方法及系统
Jeong et al. PRIME: a probabilistic imputation method to reduce dropout effects in single-cell RNA sequencing
CN116564409A (zh) 基于机器学习的转移性乳腺癌转录组测序数据识别方法
Zhen et al. A review and performance evaluation of clustering frameworks for single-cell Hi-C data
JP2023546645A (ja) シングルセルゲノミクスデータセットからの細胞のサブサンプリング方法及びシステム
KR102405732B1 (ko) 세포 클러스터링 방법 및 장치
Jeong et al. Effective single-cell clustering through ensemble feature selection and similarity measurements
Ranek et al. DELVE: feature selection for preserving biological trajectories in single-cell data
Mohammadi et al. Multi-resolution single-cell state characterization via joint archetypal/network analysis
Oh et al. Hybrid clustering of single-cell gene expression and spatial information via integrated NMF and k-means
Mohammed et al. Detection of Genes Patterns with an Enhanced Partitioning-Based DBSCAN Algorithm
US20160378914A1 (en) Method of and apparatus for identifying phenotype-specific gene network using gene expression data
Mohammed et al. Enhanced determination of gene groups based on optimal kernel PCA with hierarchical clustering algorithm
Mao et al. Interpretable factors in scrna-seq data with disentangled generative models
CN110766087A (zh) 一种基于离差最大化法改进k-means的提高数据聚类质量的方法
Cahuantzi et al. Unsupervised identification of significant lineages of SARS-CoV-2 through scalable machine learning methods
Padma et al. A modified algorithm for clustering based on particle swarm optimization and K-means
Khaledian et al. A study of pclust settings: obtaining accurate cluster results
US20240266002A1 (en) Chromosome based cancer diagnosis
Gliozzo Network-based methods for outcome prediction in the" sample space"
Zand Network-Based Unsupervised Machine Learning for Single Cell Data Analysis
Jourdan et al. Discovery of genetic and environmental interactions in disease data using evolutionary computation
Brenerman et al. Random Forest Factorization Reveals Latent Structure in Single Cell RNA Sequencing Data
Bergmans et al. TITAN: A Toolbox for Information-Theoretic Analysis of Molecular Networks

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E90F Notification of reason for final refusal
AMND Amendment
E601 Decision to refuse application
E801 Decision on dismissal of amendment
X091 Application refused [patent]
AMND Amendment
GRNT Written decision to grant
X701 Decision to grant (after re-examination)