KR20220069943A

KR20220069943A - 단일 세포 rna-seq 데이터 처리

Info

Publication number: KR20220069943A
Application number: KR1020227009239A
Authority: KR
Inventors: 거라인더 싱 애트월; 웨이 킷 림; 루오우 장
Original assignee: 리제너론 파아마슈티컬스, 인크.
Priority date: 2019-09-25
Filing date: 2020-09-25
Publication date: 2022-05-27
Also published as: CA3154621A1; US20210090686A1; EP4035163A1; CN114424287A; WO2021062198A1; JP2022548960A; AU2020356582A1

Abstract

노이즈 규칙화 과정을 적용하여 유전자-유전자 상관관계 아티팩트를 감소시킴으로써 유전자-유전자 상관관계를 드러내기 위한 단일 세포 유전자 발현 데이터의 처리 방법에 관한 것이다. 본 출원의 컴퓨터-시행 방법은 정규화 또는 귀속을 위해 유전자 발현 데이터를 처리하고, 정규화 또는 귀속된 유전자 발현 데이터에 노이즈 규칙화 과정을 적용하고, 유전자-유전자 상관관계 계산 과정을 적용하여 상관 유전자 쌍을 얻는 것을 포함한다. 발현 매트릭스에서 세포 내 유전자의 발현 값을 기반으로 한 랜덤 노이즈를 추가하여 노이즈 규칙화된 발현 매트릭스를 얻는다.

Description

단일 세포 RNA-SEQ 데이터 처리

본 발명은 일반적으로 노이즈 규칙화 과정을 적용함으로써 유전자-유전자 상관관계에 대한 유전자 발현 데이터를 처리하기 위한 방법 및 시스템에 관한 것이다.

벌크 세포의 마이크로어레이 및 RNA 시퀀싱으로부터 얻은 유전자 발현 데이터는 유전자 네트워크 구축을 위한 유전자-유전자 상관관계를 추론하는 데 성공적으로 사용되었지만 (Ballouz et al., Guidance for RNA-seq co-expression network construction and analysis: safety in numbers. Bioinformatics, 2015. 31(13): p. 2123-2130), 발현 데이터의 분석 결과는 세포 풀에 걸친 평균 유전자 발현을 측정하는 것으로 제한된다. 단일 세포 RNA 시퀀싱 (scRNA-seq) 기술의 가용성은 단일 세포 분해능 수준으로 유전자 발현을 프로파일링하는 것을 가능하게 하고, 이에 따라 표면적으로 균질한 세포 집단 내의 이질성을 상세분석하여 벌크 발현 프로파일에 가려진 숨겨진 유전자-유전자 상관관계를 드러내는 것을 가능하게 한다 (Kolodziejczyk et al., The Technology and Biology of Single-Cell RNA Sequencing. Molecular Cell, 2015. 58(4): p. 610-620; Papalexi et al., Single-cell RNA sequencing to explore immune cell heterogeneity. Nature Reviews Immunology, 2018. 18(1): p. 35).

그러나, 드롭아웃 이벤트 및 높은 수준의 노이즈와 같은 기술적 한계로 인해 scRNA-seq 데이터를 처리하는 데 어려움이 있다. scRNA-seq 데이터 처리에서 낮은 효율로 인해 유발되는 노이즈를 완화하고 실제 발현 수준을 추정하기 위해 다양한 접근이 채택되었다. scRNA-seq 데이터 분석의 첫 번째 단계로 수많은 데이터 전처리 방법이 제안되었다. 이들 데이터 전처리 방법은 위양성 유전자-유전자 상관관계 도입과 같이 유전자-유전자 상관 관계 추론 및 후속 유전자 공동-발현 네트워크 구축에 영향을 미칠 수 있다.

유전자-유전자 상관관계를 추론하고 유전자 네트워크를 추가로 구축하기 위해 유전자-유전자 상관관계 아티팩트(artifact)를 효율적으로 감소시킬 수 있는, scRNA-seq 데이터의 처리를 위한 방법 및 시스템에 대한 필요성이 존재함을 인지할 것이다.

요약

scRNA-seq 데이터의 가용성은 단일 세포 분해능 수준으로 유전자 발현을 프로파일링함으로써 균질한 세포 집단 내의 이질성을 상세분석하여 숨겨진 유전자-유전자 상호작용을 드러내는 것을 가능하게 한다. scRNA-seq 데이터 처리에서의 어려움은 드롭아웃 (검출되지 않은 유전자 발현) 및 높은 노이즈 (변동)와 같은 기술적 제한에 기인할 수 있다. scRNA-seq 데이터 처리에서 노이즈를 완화하여 실제 발현 수준을 추정하기 위해 데이터 전처리 방법이 채택되었다. 그러나, 이들 데이터 전처리 방법은 위양성 유전자-유전자 상관관계를 도입함으로써 유전자-유전자 상관관계 추론에 영향을 미칠 수 있다.

본 출원은 유전자-유전자 상관관계 아티팩트를 감소시키기 위해 노이즈 규칙화 과정을 적용함으로써 유전자-유전자 상관관계를 드러내기 위한 유전자 발현 데이터를 처리하는 방법 및 시스템을 제공한다. 본 개시내용은 또한, 정규화 또는 귀속(imputation)을 위해 유전자 발현 데이터를 처리하고, 정규화 또는 귀속된 유전자 발현 데이터에 노이즈 규칙화 과정을 적용하고, 유전자-유전자 상관관계 계산 과정을 적용하여 상관 유전자 쌍을 얻는 것을 포함하는, 유전자-유전자 상관관계에 대한 데이터 처리의 개선 방법을 제공한다. 일부 예시적 구현예에서, 유전자 발현 데이터는 단일 세포 유전자 발현 데이터이다. 일부 예시적 구현예에서, 노이즈 규칙화 과정은 발현 매트릭스에서 세포 내 유전자의 발현 값에 랜덤 노이즈를 추가하는 것을 포함하고, 랜덤 노이즈는 유전자의 발현 수준에 의해 결정된다.

일부 예시적 구현예에서, 랜덤 노이즈는 하기에 의해 결정된다: (1) 발현 매트릭스에서 모든 세포에 걸친 유전자의 발현 분포를 결정함, (2) 유전자의 발현 수준의 약 0.1 내지 약 20 백분위수를 최대 노이즈 수준으로 취함, (3) 균일 분포 하에 0 내지 최대 노이즈 수준 범위의 난수를 생성함, 또한 (4) 발현 매트릭스에서 세포 내 유전자의 발현 값에 난수를 추가하여 노이즈 규칙화된 발현 매트릭스를 얻음.

일부 예시적 구현예에서, 랜덤 노이즈는 하기에 의해 결정된다: (1) 발현 매트릭스에서 모든 세포에 걸친 유전자의 발현 분포를 결정함, (2) 유전자의 발현 수준의 1 백분위수를 최대 노이즈 수준으로 취함, (3) 균일 분포 하에 0 내지 최대 노이즈 수준 범위의 난수를 생성함, 또한 (4) 발현 매트릭스에서 세포 내 유전자의 발현 값에 난수를 추가하여 노이즈 규칙화된 발현 매트릭스를 얻음.

일부 예시적 구현예에서, 유전자-유전자 상관관계 계산 과정은 세포 클러스터로 수행된다. 일부 예시적 구현예에서, 총 고유 분자 식별자 정규화 (NormUMI), 규칙화 음의 이항 회귀 (NBR), 딥 카운트 오토인코더 네트워크 (DCA), 세포의 마르코프 친화도-기반 그래프 귀속 (MAGIC), 또는 발현 복구를 통한 단일-세포 분석 (SAVER)이 정규화 및 귀속을 위해 유전자 발현 데이터를 처리하는 데 사용된다. 일부 예시적 구현예에서, 본 출원의 유전자-유전자 상관관계에 대한 데이터 처리의 개선 방법은, 상관 유전자 쌍과 연관된 유전자 발현 데이터를 풍부화하고/거나 상관 유전자 쌍을 기반으로 하여 유전자-유전자 상관관계 네트워크를 구축하는 것을 추가로 포함하며, 여기서 유전자-유전자 상관관계 네트워크는 세포 유형-특이적이다. 일부 예시적 구현예에서, 본 출원의 방법은 분자 상호작용의 맵핑, 생물학적 이벤트를 조사하기 위한 실험 디자인의 안내, 바이오마커의 발견, 비교 네트워크 분석의 안내, 약물 디자인의 안내, 세포의 건강 및 질환 상태 비교에 의한 유전자-유전자 상호작용의 변화의 식별, 약물 개발 안내, 유전자의 전사 조절의 예측, 약물 효율의 개선, 또는 약물 내성 인자의 식별을 위해 유전자-유전자 상관관계 네트워크를 사용하는 것을 추가로 포함한다.

본 개시내용은, 적어도 부분적으로, 본 출원의 유전자-유전자 상관관계에 대한 데이터 처리의 개선 방법을 사용하여 얻어지는 상관 유전자 쌍을 기반으로 하여 구축되며, 여기서 방법은 정규화 또는 귀속을 위해 유전자 발현 데이터를 처리하고; 정규화 또는 귀속된 유전자 발현 데이터에 노이즈 규칙화 과정을 적용하고; 유전자-유전자 상관관계 계산 과정을 적용하여 상관 유전자 쌍을 얻는 것을 포함하는 것인, 유전자-유전자 상관관계 네트워크를 제공한다.

본 개시내용은, 적어도 부분적으로, 유전자 발현 데이터를 검색하고; 정규화 또는 귀속을 위해 유전자 발현 데이터를 처리하고, 정규화 또는 귀속된 유전자 발현 데이터에 노이즈 규칙화 과정을 적용하고, 유전자-유전자 상관관계 계산 과정을 적용하여 상관 유전자 쌍을 얻고, 상관 유전자 쌍을 기반으로 하여 유전자-유전자 상관관계 네트워크를 구축하는 것을 포함하며, 여기서 유전자-유전자 상관관계 네트워크는 세포-특이적인 것인, 유전자-유전자 상관관계에 대한 데이터 처리를 위한 컴퓨터-시행 방법을 제공한다. 일부 예시적 구현예에서, 유전자 발현 데이터는 단일 세포 유전자 발현 데이터이다. 일부 예시적 구현예에서, 노이즈 규칙화 과정은 발현 매트릭스에서 세포 내 유전자의 발현 값에 랜덤 노이즈를 추가하는 것을 포함하고, 랜덤 노이즈는 유전자의 발현 수준에 의해 결정된다.

일부 예시적 구현예에서, 유전자-유전자 상관관계 계산 과정은 세포 클러스터로 수행된다. 일부 예시적 구현예에서, 총 고유 분자 식별자 정규화 (NormUMI), 규칙화 음의 이항 회귀 (NBR), 딥 카운트 오토인코더 네트워크 (DCA), 세포의 마르코프 친화도-기반 그래프 귀속 (MAGIC), 또는 발현 복구를 통한 단일-세포 분석 (SAVER)이 정규화 및 귀속을 위해 유전자 발현 데이터를 처리하는 데 사용된다.

일부 예시적 구현예에서, 본 출원의 유전자-유전자 상관관계에 대한 데이터 처리를 위한 컴퓨터-시행 방법은 상관 유전자 쌍과 연관된 유전자 발현 데이터를 풍부화하는 것을 추가로 포함한다. 일부 예시적 구현예에서, 본 출원의 컴퓨터-시행 방법은 분자 상호작용의 맵핑, 생물학적 이벤트를 조사하기 위한 실험 디자인의 안내, 바이오마커의 발견, 비교 네트워크 분석의 안내, 약물 디자인의 안내, 세포의 건강 및 질환 상태 비교에 의한 유전자-유전자 상호작용의 변화의 식별, 약물 개발 안내, 유전자의 전사 조절의 예측, 약물 효율의 개선, 또는 약물 내성 인자의 식별을 위해 유전자-유전자 상관관계 네트워크를 사용하는 것을 추가로 포함한다.

본 개시내용은, 적어도 부분적으로, 유전자 발현 데이터를 저장하도록 구성된 데이터베이스; 지시를 저장하도록 구성된 메모리; 메모리와 커플링된 적어도 하나의 프로세서; 및 유전자-유전자 상관관계에 대한 데이터 처리와 관련된 쿼리를 수신하고 상관 유전자 쌍 및 구축된 유전자-유전자 상관관계 네트워크의 결과를 표시할 수 있는 사용자 인터페이스를 포함하며, 여기서 적어도 하나의 프로세서는, 유전자 발현 데이터를 검색하고, 정규화 또는 귀속을 위해 유전자 발현 데이터를 처리하고, 정규화 또는 귀속된 유전자 발현 데이터에 노이즈 규칙화 과정을 적용하고, 유전자-유전자 상관관계 계산 과정을 적용하여 상관 유전자 쌍을 얻고, 상관 유전자 쌍을 기반으로 하여 유전자-유전자 상관관계 네트워크를 구축하도록 구성된 것인, 유전자-유전자 상관관계에 대한 데이터 처리를 위한 컴퓨터-기반 시스템을 제공한다. 일부 예시적 구현예에서, 유전자 발현 데이터는 단일 세포 유전자 발현 데이터이고, 유전자-유전자 상관관계 네트워크는 세포 유형-특이적이다. 일부 예시적 구현예에서, 노이즈 규칙화 과정은 발현 매트릭스에서 세포 내 유전자의 발현 값에 랜덤 노이즈를 추가하는 것을 포함하고, 랜덤 노이즈는 유전자의 발현 수준에 의해 결정된다.

일부 예시적 구현예에서, 유전자-유전자 상관관계 계산 과정은 세포 클러스터로 수행된다. 일부 예시적 구현예에서, 총 고유 분자 식별자 정규화 (NormUMI), 규칙화 음의 이항 회귀 (NBR), 딥 카운트 오토인코더 네트워크 (DCA), 세포의 마르코프 친화도-기반 그래프 귀속 (MAGIC), 또는 발현 복구를 통한 단일-세포 분석 (SAVER)이 정규화 및 귀속을 위해 유전자 발현 데이터를 처리하는 데 사용된다. 일부 예시적 구현예에서, 적어도 하나의 프로세서는 상관 유전자 쌍과 연관된 유전자 발현 데이터를 풍부화하도록 추가로 구성된다.

일부 예시적 구현예에서, 적어도 하나의 프로세서는, 분자 상호작용의 맵핑, 생물학적 이벤트를 조사하기 위한 실험 디자인의 안내, 바이오마커의 발견, 비교 네트워크 분석의 안내, 약물 디자인의 안내, 세포의 건강 및 질환 상태 비교에 의한 유전자-유전자 상호작용의 변화의 식별, 약물 개발 안내, 유전자의 전사 조절의 예측, 약물 효율의 개선, 또는 약물 내성 인자의 식별을 위해 유전자-유전자 상관관계 네트워크에 대해 유전자-유전자 상관관계 네트워크를 활용하도록 추가로 구성된다.

본 발명의 이들, 및 다른 측면은 하기 설명 및 첨부 도면과 함께 고려될 때 더 잘 인지되고 이해될 것이다. 하기 설명은 다양한 구현예 및 그의 수많은 구체적 세부사항을 나타내지만, 제한이 아니라 예시의 방식으로 제공된다. 많은 대체, 변형, 추가, 또는 재배열이 본 발명의 범위 내에서 이루어질 수 있다.

도 1은 예시적 구현예에 따른 데이터베이스, 메모리, 적어도 하나의 프로세서 및 사용자 인터페이스를 포함하는, 개선된 유전자-유전자 상관관계를 위한 데이터 처리를 위한 컴퓨터 기반 시스템에 대한 다이어그램을 나타낸다.
도 2는 예시적 구현예에 따른 정규화 또는 귀속된 유전자 발현 데이터에 노이즈 규칙화 과정을 적용하기 위한 순서도를 나타낸다.
도 3은 예시적 구현예에 따른 다양한 데이터 전처리 방법에 대한 벤치마킹 데이터세트로서 사용된 인간 세포 아틀라스 프리뷰 데이터세트(Human Cell Atlas Preview Datasets)로부터의 골수 scRNA-seq 데이터를 나타낸다. 전체 데이터세트는 모든 주요 면역 세포 유형을 포함하는 21개의 세포 클러스터로 그룹화될 수 있는 378,000개의 골수 세포를 함유한다.
도 4는 예시적 구현예에 따른 벤치마킹 프레임워크의 개요를 나타낸다. 예시적 구현예에 따라, 단일 세포 발현 데이터 매트릭스, 예를 들어 골수 단일 세포 발현 데이터에 5개의 대표적 데이터 전처리 방법, 예를 들어, NormUMI, NBR, DCA, MAGIC, 및 SAVER을 적용하였다. 루트 1은 결과 매트릭스로부터 직접 계산된 유전자-유전자 상관관계를 나타낸다. 루트 2는 노이즈 규칙화 단계의 추가를 나타내며, 여기서는 유전자-유전자 상관관계 계산으로의 진행 전에 발현 매트릭스에 유전자 발현 수준에 의해 결정된 랜덤 노이즈 (적색 영역)가 적용되었다. 단백질-단백질 상호작용 (PPI)에서의 도출된 유전자-유전자 상관관계의 풍부화 및 방법간의 일관성이 평가되었다.
도 5a-5d는 예시적 구현예에 따라 scRNA-seq 데이터를 처리하기 위해 5개의 데이터 전처리 방법이 사용되었을 때 아티팩트의 관찰을 나타낸다. 도 5a는 예시적 구현예에 따른 이들 방법 사이에서 상관관계의 분포가 상이하였음을 보여준다. 라인은 중앙값을 나타낸다.
도 5b는 예시적 구현예에 따른 각각의 방법에 대한 단백질-단백질 상호작용에서의 상위 상관 유전자 쌍의 풍부화를 나타낸다. X축은 상위 n개의 유전자 쌍을 나타낸다. Y축은 STRING 단백질-단백질 상호작용 (PPI) 데이터베이스에서 나타나는 n개의 유전자 쌍의 분율을 나타낸다.
도 5c는 예시적 구현예에 따른 고도 상관 유전자 쌍의 추론에 있어 방법간의 낮은 일관성이 존재하였음을 나타낸다.
도 5d는 예시적 구현예에 따른 랜덤 샘플링된 유전자 쌍의 풍부화를 나타낸다.
도 6은, 예시적 구현예에 따른 상이한 데이터 전처리 방법 적용 후, MB21D1 및 OGT의 유전자 쌍, 예를 들어, 음성 유전자 대조군 쌍의 발현 값의 산점도를 나타낸다. 5개의 대표적 데이터 전처리 방법, 예를 들어, NormUMI, NBR, DCA, MAGIC, 및 SAVER이 분석에서 적용되었다.
도 7a-7c는, 예시적 구현예에 따른, 5개의 대표적 전처리 방법, 예를 들어, NormUMI, NBR, DCA, MAGIC, 또는 SAVER에 대한 허위(spurious) 상관관계를 감소시키기 위한 노이즈 규칙화의 적용 결과를 나타낸다. 도 7a는 예시적 구현예에 따른 각각의 방법에 대한 노이즈 규칙화 적용 후 상관관계 분포의 결과를 나타낸다. 상이한 색은 상이한 방법을 나타낸다.
도 7b는 예시적 구현예에 따른 노이즈 규칙화 적용 후 단백질-단백질 상호작용에서의 상위 상관 유전자 쌍의 풍부화를 나타낸다. X축은 상위 n개의 유전자 쌍을 나타낸다. Y축은 STRING 단백질-단백질 상호작용 (PPI) 데이터베이스에서 나타나는 n개의 유전자 쌍의 분율을 나타낸다. 상이한 색은 상이한 방법을 나타낸다. 실선의 에러 바는 10회 반복을 기반으로 한 99% 신뢰 구간을 나타낸다.
도 7c는 예시적 구현예에 따른 고도 상관 유전자 쌍의 추론에 있어 노이즈 규칙화의 적용 후 방법간의 일관성을 나타낸다.
도 8a-8c는 예시적 구현예에 따른 scRNA-seq 데이터로부터 추론된 유전자-유전자 상관관계 네트워크를 나타낸다. 도 8a 및 도 8b는 예시적 구현예에 따른 노이즈 규칙화 적용 전과 후에 구축된 상관관계 네트워크에서 각각의 유전자의 Degree 및 Pagerank의 비교를 나타낸다.
도 8c는 예시적 구현예에 따른 정제된 유전자-유전자 상관관계를 갖는 네트워크 구축을 나타낸다. NBR 및 노이즈 규칙화 적용에 의해 scRNA-seq 데이터가 처리되었다. 단백질-단백질 상호작용에서 존재하지 않았던 링크는 제거되었다.
도 9는 예시적 구현예에 따른 노이즈 규칙화 적용 전과 후의 리액톰(Reactome) 경로에서의 상위 상관 유전자 쌍의 풍부화를 나타낸다. X축은 상위 n개의 유전자 쌍을 나타낸다. Y축은 리액톰 데이터베이스에서 동일한 경로에서 나타나는 n개의 유전자 쌍의 분율을 나타낸다. 파선 및 실선은 각각 노이즈 규칙화 적용 전과 후를 나타낸다.
도 10은 예시적 구현예에 따른 상이한 백분위수에서 최대 노이즈를 시험함으로써 최적 노이즈 수준을 결정한 결과를 나타낸다.
도 11은 예시적 구현예에 따른 유전자 발현 수준의 약 0 내지 1 백분위수 범위의 랜덤 노이즈의 생성 및 발현 매트릭스에 대한 랜덤 노이즈의 추가를 나타낸다.

상세한 설명

고-처리량 유전자 발현 데이터의 가용성으로 인해, 예를 들어, 데이터를 초점의 중심에 배치하는 것에 의한 통계적 관점을 가정하여, 유전자 발현 데이터로부터의 통계적 추론을 통해 대규모로 유전자 조절 네트워크를 구축할 수 있다. 다양한 통계적 네트워크 추론 방법, 예를 들어, 추론 알고리즘이 상호작용 추정에 사용되었다. 추론된 유전자 조절 네트워크는 유전자-유전자 상호작용, 또는 복합체에서 잠재적인 단백질-단백질 상호작용과 같은, 조절자와 그의 잠재적 표적 사이의 조절 상호작용에 관한 정보를 제공한다. 이들 추론된 네트워크는 대규모 유전자 발현 데이터로부터 얻어진 분자 상호작용의 통계적으로 유의한 예측을 나타낸다 (Emmert-Streib et al., Gene regulatory networks and their applications: understanding biological and medical problems in terms of networks. Frontiers in Cell and Developmental Biology, 2014. 2(38)).

추론된 유전자 조절 네트워크는 분자 상호작용의 인과관계 맵으로서의 역할, 실험 디자인의 안내, 바이오마커의 발견, 비교 네트워크 분석의 안내, 또는 약물 디자인의 안내와 같은 생물학적 및 생물의학적 문제를 해결하도록 돕기 위해 사용될 수 있다 (Emmert-Streib et al.). 추가로, 구축된 네트워크는 하류 상호작용을 식별하고 추가의 하류 분석을 수행하기 위한 안내, 예컨대 세포의 건강 및 질환 상태 비교에 의한 유전자-유전자 상호작용의 변화의 식별을 제공하기 위해 사용될 수 있고, 이는 약물 개발을 위해 잠재적으로 시간을 절약할 수 있다.

추론된 유전자 조절 네트워크는 분자 상호작용에 대한 새로운 생물학적 가설을 도출하거나 유전자의 전사 조절을 예측하는 것과 같은 분자 상호작용의 인과관계 맵으로서 역할을 함으로써 생물학적 및 생물의학적 문제를 해결하도록 돕기 위해 사용될 수 있다. 이 정보는, 예측된 링크가 분자간의 실제 물리적 결합 이벤트에 상응하는 것으로 상정되기 때문에, 생물학적 이벤트를 조사하기 위해 실험실 실험을 안내하기 위해 사용될 수 있다. 추가로, 이들 추론된 네트워크는 진단, 예측, 또는 예후 목적을 위한 바이오마커를 발견하거나 연구하기 위해 사용될 수 있다. 예를 들어, 암은 개별 유전자보다는 다양한 경로와 관련된 복잡한 장애이기 때문에, 네트워크-기반 바이오마커가 암의 진단 목적을 위한 통계적 수단으로서 사용될 수 있다. 또한, 더 많은 추론된 유전자 조절 네트워크가 이용가능하게 되면, 상이한 생리학적 또는 질환 상태에 걸친 유전자-유전자 상호작용의 변화를 이해하기 위해 비교 네트워크 분석을 안내하는 것이 가능할 것이다 (Emmert-Streib et al.). 결과적으로, 이들 추론된 네트워크는 약물 효율의 개선 또는 약물 내성 인자의 식별과 같은 합리적인 약물의 보다 효율적인 디자인을 안내할 수 있다.

유전자-유전자 공동-발현 네트워크는, 단일 세포 RNA 시퀀싱 (scRNA-seq) 데이터로부터 추론된 것과 같은, 유전자 발현 데이터로부터 추론된 유전자-유전자 상관관계로부터 구축된 유전자 조절 네트워크로서 간주될 수 있다. 유전자-유전자 공동-발현 네트워크는 상이한 생리학적, 질환 또는 치료 조건으로부터 구축될 수 있다. 상이한 조건 하에 구축된 유전자-유전자 공동-발현 네트워크를 비교하면 상이한 생리학적 또는 질환 조건에 걸친 유전자 상호작용 변화를 이해하여 상이한 조건 하에 이러한 표현형을 분석할 수 있을 것이다. 예를 들어, 두 유전자의 발현은 하나의 세포 유형에서는 고도로 상관될 수 있지만, 다른 세포 유형에서는 관련이 없을 수 있다. scRNA-seq 데이터는 이질적인 세포 집단에서 상이한 세포 유형의 전체 전사체를 편향 없이 포착할 수 있으며, 이는 특정 세포 유형에 특이적인 유전자-유전자 상관관계를 드러낼 수 있다.

유전자 발현은 전사 인자 및 신호화 분자의 네트워크에 의해 조절된다. scRNA-seq 데이터는 분화의 동력학을 드러내고 유전자 전사를 정량화함으로써 세포 및 조직 이질성을 이해하는 데 중요한 정보를 제공할 수 있는데, 이는 각각의 세포가 생물학적 이벤트의 다양한 유형 또는 단계를 나타내는 독립적 정체이기 때문이다. 유전자간의 상관된 발현, 특히 공동-발현은 시각화 및 해석을 위한 네트워크를 축적하기 위해 정보를 줄 수 있다 (Stuart et al., A Gene-Coexpression Network for Global Discovery of Conserved Genetic Modules. Science, 2003. 302(5643): p. 249-255). scRNA-seq 데이터의 분석은 각각의 세포를 상이한 세포 유형 또는 계통으로 범주화하여 상이한 맥락 하에 생물학적 과정에 대한 이해를 개선시킬 수 있기 때문에, 이는 생물학적 발견을 촉진할 수 있다. 따라서, 단일 세포 발현 데이터로부터 드러난 유전자-유전자 상관관계는 세포 유형 특이적 모듈을 밝히는 보다 포괄적인 네트워크를 구축할 가능성을 갖는다.

단일 세포 데이터에 특별히 맞춤화된 상관관계 계측은 scRNA-seq 데이터를 분석하여 다양한 장기 및 질환 조건 하에 대규모 조절 네트워크를 추론하기 위해 개발되었다. 유전자의 생물학적 관련성에 대한 비-편향 정량화는 그래프 이론 도구를 사용하여 장기 기능의 핵심 역할 및 질환의 동인을 정확히 보여주도록 컴퓨터계산되었다. (Iacono et al., Single-cell transcriptomics unveils gene regulatory network plasticity. Genome Biology, 2019. 20(1): p. 110). 게놈-규모 유전적 상호작용 맵은 합성 유전적 상호작용에 대하여 유전자-유전자 쌍을 검사함으로써 구축되었다. 유전적 상호작용 프로파일을 기반으로 한 네트워크는 일관된 서브세트에서 유사한 생물학적 과정을 클러스터링함으로써 기능적 맵을 드러내며, 여기서 고도로 상관된 프로파일은 유전자 기능을 정의하기 위한 특정 경로를 묘사한다 (Costanzo, M., et al., The Genetic Landscape of a Cell. Science, 2010. 327(5964): p. 425-431).

그러나, 드롭아웃 이벤트 (예를 들어, scRNA-seq에 의해 검출불가능한 유전자 발현), 높은 수준의 노이즈 (변동), 및 매우 큰 데이터 부피와 같은 기술적 제한으로 인해 scRNA-seq 데이터를 활용하는 데 어려움이 있다. 추가로, 각각의 세포에 존재하는 전사체의 작은 부분만이 scRNA-seq에서 시퀀싱되고, 이는 저발현 및 중등도 발현 유전자의 신뢰성 없는 정량화로 이어진다. 유전자 집단의 90%를 초과하는 것과 같은 대부분의 유전자는, 낮은 포착 및 시퀀싱 효율로 인해 판독 카운트가 0이거나 낮다. 관찰된 0 카운트의 대부분은 진정한 0 발현을 반영하지만, 카운트의 상당한 부분은 기술적 한계에 기인할 수 있다 (Huang et al., SAVER: gene expression recovery for single-cell RNA sequencing. Nature Methods, 2018. 15(7): p. 539-542). 추가로, 관찰된 시퀀싱 깊이는 세포마다 크게 다를 수 있다. 시퀀싱 동안 세포 용해, 역전사 효율, 및 분자 샘플링의 변동 또한 가변성에 기여할 수 있다 (Hicks et al., Missing data and technical variability in single-cell RNA-sequencing experiments. Biostatistics, 2017. 19(4): p. 562-578).

발현 정규화 및 드롭아웃 귀속을 포함한, 낮은 효율로 인해 유발되는 노이즈를 완화하고 scRNA-seq 데이터 처리에서 실제 발현 수준을 추정하기 위한 다양한 데이터 전처리 방법이 채택되었다. 실제 생물학적 신호를 보존하면서 기술 노이즈를 제거하기 위해 데이터 정규화가 종종 요구된다. scRNA-seq의 높은 드롭아웃 비율은 전사체 검출에서 기술적인 한계로 인해 0 카운트를 갖는 유전자의 높은 비율을 지칭한다 (Svensson et al., Power analysis of single-cell RNA-sequencing experiments. Nature Methods, 2017. 14: p. 381; Ziegenhain et al., Comparative Analysis of Single-Cell RNA Sequencing Methods. Molecular Cell, 2017. 65(4): p. 631-643.e4). 실제 유전자 발현을 복구하기 위해 드롭아웃을 취급하기 위해, 세포 클러스터링, 차등 발현 유전자의 검출, 및 궤적 분석 등의 다양한 데이터 귀속 방법을 사용하여 scRNA-seq 데이터를 전처리할 수 있다 (Tian et al., Benchmarking single cell RNA-sequencing analysis pipelines using mixture control experiments. Nature Methods, 2019. 16(6): p. 479-487).

이들 방법은 유전자-유전자 상관관계를 측정하기 위해 유전자 네트워크를 역조작하도록 디자인되기 때문에, 잘못된 유전자-유전자 상관관계에 관한 귀속 방법을 적용하는 데 어려움이 있다. 앤드류스(Andrews) 등은 소규모 시뮬레이션 데이터세트에 대해 여러 귀속 방법을 시험하였고, 드롭아웃 귀속이 위양성 유전자-유전자 상관관계를 생성함을 발견하였다 (Andrews, T. and M. Hemberg, False signals induced by single-cell imputation [version 1; peer review: 4 approved with reservations]. F1000Research, 2018, 7(1740)). 데이터 전처리를 위한 일부 대표적인 scRNA-seq 정규화/귀속 방법은 데이터 오버-스무딩 또는 오버-핏팅으로 인해 허위 또는 과장된 상관관계를 도입함으로써 유전자-유전자 상관관계 추론에 영향을 미친다. 이들 방법은 공동-발현될 것으로 예상되지 않는 유전자 쌍에 대한 상관관계 아티팩트를 도입할 수 있다. 잘못된 신호 및 상관관계 아티팩트가 데이터 처리에 도입될 수 있기 때문에, 이들 방법에서 최고 상관관계를 갖는 얻어진 유전자 쌍은 단백질-단백질 상호작용에서 약한 풍부화를 가질 수 있다.

기계 학습에서, 특정 조건 하에 데이터에 노이즈를 추가하면 오버핏팅을 감소시킴으로써 결과의 강건성을 증가시킬 수 있다 (Bishop, Training with noise is equivalent to Tikhonov regularization. Neural computation, 1995. 7(1): p. 108-116; Neelakantan et al., Adding gradient noise improves learning for very deep networks. arXiv preprint arXiv:1511.06807, 2015; Smilkov et al., Smoothgrad: removing noise by adding noise. arXiv preprint arXiv:1706.03825, 2017).

본 개시내용은, 유전자-유전자 상관관계를 추론하고 유전자 네트워크를 추가로 구축하기 위해 유전자-유전자 상관관계 아티팩트를 효율적으로 감소시킬 수 있는 신규한 노이즈 규칙화 방법을 활용하는 scRNA-seq 데이터 처리를 위한 방법 및 시스템을 제공함으로써 상기 언급된 요구를 만족시키는 방법 및 시스템을 제공한다. 본 출원의 노이즈 규칙화 방법을 적용한 후에 도출된 유전자-유전자 상관관계를 사용하여 유전자 공동-발현 네트워크를 구축할 수 있다. 네트워크 구축의 신뢰성을 확인하기 위해 결과 네트워크를 여러 수준에서 검증하였다. 추론된 생물학적 네트워크의 품질을 단백질-단백질 상호작용 데이터베이스에서 공지된 상호작용을 사용하여 평가하였다.

일부 예시적 구현예에서, 본 출원의 노이즈 규칙화 방법은 각각의 유전자의 발현 수준에 대하여 균일 분포된 노이즈를 추가함으로써 전처리된 scRNA-seq 데이터를 처리하기 위해 시행된다. 본 출원의 노이즈 규칙화 방법을 추가함으로써 얻어진 유전자-유전자 상관관계는 유전자-유전자 상관관계에서 아티팩트를 감소시킴으로써 유전자 공동-발현 네트워크를 재구축하기 위해 사용될 수 있다. 일부 예시적 구현예에서, 여러 공지된 세포 모듈, 예컨대 면역 세포 모듈이 성공적으로 드러났는데, 이는 본 출원의 노이즈 규칙화 방법의 부재 하에는 볼 수 없었다. 일부 예시적 구현예에서, 본 출원의 노이즈 규칙화 방법이 추가되었을 때, 세포 유형 마커 유전자는 네트워크 위상(topological) 특성에서 더 높은 등급, 예를 들어, Degree 및 Pagerank의 더 높은 값을 받았으며, 이는 이들 각각의 세포 클러스터에서 그의 핵심 역할을 정확히 보여준다. 본 출원의 노이즈 규칙화 방법은 발현 데이터의 오버-스무딩 또는 오버-핏팅을 감소시킴으로써 데이터 처리의 강건성을 증가시키는 이점을 제공한다.

일부 예시적 구현예에서, 본 출원은, 정규화 또는 귀속을 위해 유전자 발현 데이터를 처리하고; 정규화 또는 귀속된 유전자 발현 데이터에 노이즈 규칙화 과정을 적용하고; 유전자-유전자 상관관계 계산 과정을 적용하여 상관 유전자 쌍을 얻는 것을 포함하는, 유전자-유전자 상관관계에 대한 데이터 처리의 개선을 위한 컴퓨터-시행 방법을 제공한다. 일부 예시적 구현예에서, 본 출원은, 유전자 발현 데이터를 저장하도록 구성된 데이터베이스; 지시를 저장하도록 구성된 메모리; 메모리와 커플링된 적어도 하나의 프로세서; 및 유전자-유전자 상관관계에 대한 데이터 처리와 관련된 쿼리를 수신하고 상관 유전자 쌍 및 구축된 유전자-유전자 상관관계 네트워크의 결과를 표시할 수 있는 사용자 인터페이스를 포함하며, 여기서 적어도 하나의 프로세서는, 유전자 발현 데이터를 검색하고, 정규화 또는 귀속을 위해 유전자 발현 데이터를 처리하고, 정규화 또는 귀속된 유전자 발현 데이터에 노이즈 규칙화 과정을 적용하고, 유전자-유전자 상관관계 계산 과정을 적용하여 상관 유전자 쌍을 얻고, 상관 유전자 쌍을 기반으로 하여 유전자-유전자 상관관계 네트워크를 얻도록 구성된 것인, 유전자-유전자 상관관계에 대한 데이터 처리를 위한 컴퓨터-기반 시스템을 제공한다.

도 1에 나타낸 바와 같이, 유전자-유전자 상관관계에 대한 데이터 처리를 위한 본 출원의 예시적 컴퓨터-기반 시스템은 하나 이상의 데이터베이스, 하나 이상의 프로세서를 포함하는 중앙 처리 장치 (CPU), 지시의 저장을 위한 CPU에 커플링된 메모리 및 사용자 인터페이스를 포함한다. 일부 예시적 구현예에서, 본 출원의 컴퓨터-기반 시스템은 데이터 정규화 또는 귀속 및 다양한 보고를 위한 알고리즘을 추가로 포함한다. 일부 예시적 구현예에서, 데이터베이스는 유전자 발현 데이터, 게놈 데이터 또는 단백질-단백질 상호작용 데이터를 포함한다. 일부 예시적 구현예에서, 사용자 인터페이스는 데이터 처리를 위한 쿼리를 수신하고, 상관 유전자 쌍을 표시하거나 유전자-유전자 상관관계 네트워크를 표시할 수 있다.

일부 예시적 구현예에서, 세포 j에서 유전자 i의 발현 값은 V로 나타내고, 랜덤 노이즈는 하기에 의해 결정될 수 있다: (i) 다양한 데이터 전처리 방법 적용 후에 유전자 i의 발현 분포를 계산함, (ii) M으로 나타낸 유전자 i의 발현 값의 1 백분위수를 결정하고, 여기서 M은 노이즈 수준의 최대값으로서 사용될 것임, 또한 (iii) 0 내지 M 범위의 균일 분포된 난수를 생성하고, 이 난수를 V에 추가함.

일부 예시적 구현예에서, 랜덤 노이즈가 생성되고, 이것이 V, 예를 들어, 특정 방법에 의해 처리된 발현 매트릭스에서 세포 j에서 유전자 i의 발현 값에 추가되고, 여기서 랜덤 노이즈는 하기에 의해 결정된다: (1) 모든 세포에 걸친 유전자 i의 발현 분포를 결정함, (2) 유전자 i 발현의 1 백분위수를 M으로 나타낸 최대 노이즈 수준으로 취함, (3) M이 0인 경우, 0.1을 최대 노이즈 수준으로서 사용함, (4) 균일 분포 하에 0 내지 M 범위의 난수를 생성함, 또한 (5) 난수를 V에 추가하여 노이즈 규칙화된 발현 매트릭스를 얻음.

일부 예시적 구현예에서, 노이즈 규칙화 과정은 특정 scRNA-seq 전처리 방법에 의해 처리된 발현 매트릭스를 얻는 것을 포함하며, 여기서 이 발현 매트릭스는 m개의 세포에서 n개의 유전자의 발현을 함유하였다. V가 세포 j에서 유전자 i의 발현 값이라고 가정하여, 랜덤 노이즈가 생성되고, 이것이 V에 추가되고, 여기서 랜덤 노이즈는 하기 절차에 의해 결정된다: (1) 모든 세포에 걸친 유전자 i의 발현 분포를 결정함, (2) 유전자 i의 발현 분포로부터 제1 백분위수를, M으로 나타낸 유전자 i에 대한 최대 노이즈 수준으로 취하고, 여기서 M이 최소값 m보다 작은 경우, m이 최대 노이즈 수준으로서 사용될 것임, (3) 균일 분포 하에 0 내지 M 범위의 난수를 생성함, (4) V에 이 난수를 추가하여 노이즈 규칙화된 발현 값을 얻음, 또한 (5) 발현 매트릭스에서 모든 항목에 대하여 이 절차를 반복함, 이는 도 2의 예시적 순서도에 나타낸 바와 같음.

본원에 개시된 예시적 구현예는 정규화 또는 귀속된 유전자 발현 데이터에 노이즈 규칙화 과정을 적용함으로써 유전자-유전자 상관관계에 대한 유전자 발현 데이터 처리의 개선을 위한 컴퓨터-시행 방법을 제공함으로써 상기 언급된 요구를 만족시킨다.

일부 예시적 구현예에서는, 정규화 또는 귀속된 유전자 발현 데이터에 노이즈 규칙화 과정을 적용함으로써 유전자-유전자 상관관계에 대한 유전자 발현 데이터 처리의 개선을 위한 컴퓨터-시행 방법이 제공된다. 이들은 유전자-유전자 상관관계를 추론하고 유전자 네트워크를 추가로 구축하기 위해 유전자-유전자 상관관계 아티팩트를 효율적으로 감소시키는 것에 대한 오랫동안 느껴온 필요를 만족시킨다.

용어 "a"는 "적어도 하나"를 의미하는 것으로 이해되어야 하며; 용어 "약" 및 "대략"은 당업자에 의해 이해되는 바와 같이 표준 변동을 허용하는 것으로 이해되어야 하고; 범위가 제공되는 경우, 끝점이 포함된다.

본원에서 사용되는 바와 같이, 용어 "포함하다(include)", "포함하다(includes)" 및 "포함하는(including)"은 비-제한적인 것으로 의미하며, 각각 "포함하다(comprise)", "포함하다(comprises)" 및 "포함하는(comprising)"을 의미하는 것으로 이해된다.

일부 예시적 구현예에서, 본 개시내용은, 정규화 또는 귀속을 위해 유전자 발현 데이터를 처리하고; 정규화 또는 귀속된 유전자 발현 데이터에 노이즈 규칙화 과정을 적용하고; 유전자-유전자 상관관계 계산 과정을 적용하여 상관 유전자 쌍을 얻는 것을 포함하는, 유전자-유전자 상관관계에 대한 데이터 처리의 개선을 위한 컴퓨터-시행 방법을 제공한다. 일부 예시적 구현예에서, 노이즈 규칙화 과정은 유전자-유전자 상관관계 계산 과정의 적용 전에 적용된다. 일부 예시적 구현예에서, 유전자 발현 데이터는 단일 세포 유전자 발현 데이터이다.

본원에서 사용되는 바와 같이, 용어 "유전자-유전자 상관관계"는 샘플에 걸쳐 유사한 발현 패턴을 나타내는 유전자의 쌍을 지칭한다. 두 유전자가 공동-발현되는 경우, 이들 두 유전자의 발현 수준은 함께 상승하고 강하한다. 공동-발현 유전자는 종종 동일한 생물학적 경로에 관여되거나, 통상적으로 동일한 전사 인자에 의해 조절되거나, 또는 다른 경우에는 기능적으로 관련된다.

본원에서 사용되는 바와 같이, 용어 "정규화"는 조정된 값을 정렬하거나 특정 분포에 핏팅하기 위해 조정을 추가하는 것을 포함한 중복성을 감소시키고 데이터 무결성을 개선시키기 위해 데이터 세트를 조직화하는 과정을 지칭한다. 정규화 과정은 시스템적 변동 (예를 들어 실험 조건, 기계 파라미터의 가변성)을 제거하고 샘플에 걸쳐 비-편향 비교를 가능하게 할 수 있다.

본원에서 사용되는 바와 같이, 용어 "귀속"은 누락 데이터를 치환된 값으로 대체하는 과정을 의미한다. 누락 데이터는, 예를 들어, 결과의 대표성에 영향을 줄 수 있는 효율 감소를 창출함으로써 상당한 양의 편향을 도입하는 문제를 일으킬 수 있다. 귀속은, 표준 기술을 사용한 데이터 세트의 분석을 가능하게 할 수 있는, 다른 이용가능한 정보를 기반으로 한 추정 값으로 누락 데이터를 치환하는 과정을 포함한다.

예시적 구현예

본원에 개시된 구현예는 정규화 또는 귀속된 유전자 발현 데이터에 노이즈 규칙화 과정을 적용하는 것에 의한 유전자-유전자 상관관계에 대한 유전자 발현 데이터 처리의 개선 방법을 제공한다.

일부 예시적 구현예에서, 본 개시내용은, 정규화 또는 귀속을 위해 scRNA-seq 데이터를 처리하고; 정규화 또는 귀속된 유전자 발현 데이터에 노이즈 규칙화 과정을 적용하고; 유전자-유전자 상관관계 계산 과정을 적용하여 상관 유전자 쌍을 얻는 것을 포함하며, 여기서 노이즈 규칙화 과정은 발현 매트릭스에서 세포 내 유전자의 발현 값에 랜덤 노이즈를 추가하는 것을 포함하는 것인, 유전자-유전자 상관관계 아티팩트를 감소시키는 데이터 처리의 개선 방법을 제공한다.

일부 특정 예시적 구현예에서, 랜덤 노이즈는 하기에 의해 결정되며: (1) 발현 매트릭스에서 모든 세포에 걸친 유전자의 발현 분포를 결정함, (2) 유전자의 발현 수준의 약 0.1 내지 약 20 백분위수, 약 0.1 백분위수, 약 0.5 백분위수, 약 1 백분위수, 약 1.5 백분위수, 약 2 백분위수, 약 3 백분위수, 약 4 백분위수, 약 5 백분위수, 약 7 백분위수, 약 10 백분위수, 약 15 백분위수, 약 20 백분위수, 또는 약 25 백분위수를 최대 노이즈 수준으로 취함, (3) 균일 분포 하에 0 내지 최대 노이즈 수준 범위의 난수를 생성함, 또한 (4) 발현 매트릭스에서 세포 내 유전자의 발현 값에 난수를 추가하여 노이즈 규칙화된 발현 매트릭스를 얻음, 여기서 본 출원의 컴퓨터-시행 방법은 상관 유전자 쌍을 기반으로 하여 유전자-유전자 상관관계 네트워크를 구축하는 것을 추가로 포함한다.

일부 예시적 구현예에서, 본 출원의 컴퓨터-시행 방법은 분자 상호작용의 맵핑, 생물학적 이벤트를 조사하기 위한 실험 디자인의 안내, 바이오마커의 발견, 비교 네트워크 분석의 안내, 약물 디자인의 안내, 세포의 건강 및 질환 상태 비교에 의한 유전자-유전자 상호작용의 변화의 식별, 약물 개발 안내, 유전자의 전사 조절의 예측, 약물 효율의 개선, 약물 내성 인자의 식별, 추가의 하류 분석을 수행하기 위한 안내 제공, 분자 상호작용에 대한 신규한 생물학적 가설의 도출, 암에 대한 진단 목적을 위한 통계적 수단의 제공, 상이한 생리학적 또는 질환 조건에 걸친 유전자-유전자 상호작용의 변화를 이해하기 위한 비교 네트워크 분석의 안내, 상이한 조건 하에 특정 표현형을 분석하기 위한 유전자 상호작용 변화의 이해, 유전자 전사의 정량화를 위한 분화의 동력학 표출, 또는 진단, 예측, 또는 예후 목적을 위한 바이오마커 발견을 위해 유전자-유전자 상관관계 네트워크를 사용하는 것을 추가로 포함한다.

방법 또는 시스템은 유전자-유전자 상관관계에 대한 유전자 발현 데이터의 처리의 개선을 위한 상기 언급된 방법 또는 시스템 중 임의의 것으로 제한되지 않음을 이해한다. 숫자 및/또는 문자로 본원에 제공된 바와 같은 방법 단계의 연속적인 라벨링은 방법 또는 그의 임의의 구현예를 특정 지시된 순서로 제한하도록 의도되지 않는다. 특허, 특허 출원, 공개된 특허 출원, 수탁 번호, 기술 기사 및 학술 기사를 포함한 다양한 간행물이 명세서 전반에 걸쳐 인용된다. 이들 인용된 참고문헌 각각은 그 전체가 모든 목적을 위해 본원에 참고로 포함된다. 달리 설명되지 않는 한, 본원에서 사용되는 모든 기술 및 과학 용어는 본 발명이 속하는 기술분야에서 통상의 기술을 가진 자가 통상적으로 이해하는 것과 동일한 의미를 갖는다.

본 개시내용은 본 개시내용을 보다 상세하게 설명하기 위해 제공되는 하기 실시예를 참조하여 보다 완전히 이해될 것이다. 이들은 예시하도록 의도되며 본 개시의 범위를 제한하는 것으로 해석되어서는 안 된다.

실시예

데이터베이스 및 방법

scRNA-seq 데이터세트를 얻음

골수 scRNA-seq 데이터를 인간 세포 아틀라스 데이터 포털(Human Cell Atlas Data Portal) (https://preview.data.humancellatlas.org/)로부터 검색하였다. 검색된 데이터세트는 10X 플랫폼에 의한 378,000개 면역세포에 대한 프로파일링 데이터를 함유한다. 컴퓨터계산 부담을 줄이기 위해, 근원 데이터세트로부터 50,000개의 세포를 랜덤 샘플링하였다. 이어서, 100개 (0.2%) 미만의 세포에서 발현된 유전자를 추가로 걸러냈다. 출력에서, 12,600개의 유전자가 최종 벤치마킹 데이터세트에 남아 있었다. 클러스터링 또는 차원 감소와 같은 단일 세포 분석은 Seurat R 패키지 버전 3.0을 사용하여 수행되었다.

데이터 정규화 또는 귀속

여러 방법을 데이터 정규화 또는 귀속을 위한 데이터 전처리에서 적용하였고, 이는 총 고유 분자 식별자 정규화 (NormUMI), 규칙화 음의 이항 회귀 (NBR; Hafemeister et al., Normalization and variance stabilization of single-cell RNA-seq data using regularized negative binomial regression. bioRxiv, 2019: p. 576827), a deep count autoencoder (DCA) network (Eraslan et al., Single-cell RNA-seq denoising using a deep count autoencoder. Nature Communications, 2019. 10(1): p. 390), 세포의 마르코프 친화도-기반 그래프 귀속 (MAGIC; van Dijk, et al., Recovering Gene Interactions from Single-Cell Data Using Data Diffusion. Cell, 2018. 174(3): p. 716-729.e27), 또는 발현 복구를 통한 단일-세포 분석 (SAVER; Huang et al.)을 포함한다. NBR, SAVER 및 DCA를 도구 지시에 따라 디폴트 파라미터로 실행하였다. MAGIC은 하기 파라미터로 실행하였다: 주성분 수 npca=30, 마르코프 친화 매트릭스의 거듭제곱 t=6 및 최근접 이웃 수 k=30. NormUMI 및 NBR은 정규화 방법이다. DCA, MAGIC 및 SAVER 방법은 귀속 방법이다.

유전자-유전자 상관관계 계산

각각의 유전자 쌍의 스피어만 상관관계를, 각각 클러스터 0 내지 클러스터 9와 같은, 각각의 클러스터에서 세포 내에서 계산하였다. 유전자가 해당 클러스터에서 1%의 세포 또는 50개 세포 중 큰 쪽 초과의 세포에서 발현되는 경우, 유전자가 하나의 클러스터에서 발현된 것으로 간주될 것이다. 하나의 클러스터에서 유전자 쌍의 상관관계는, 두 유전자 모두가 클러스터에서 발현될 때, 유효 상관관계로 간주되었다. 10개의 클러스터 (클러스터 0-9)에 걸쳐 최고 유효 상관관계가 주어진 유전자 쌍에 대한 최종 상관관계로 기록되었다.

단백질-단백질 상호작용에 따른 데이터 풍부화

인간 단백질-단백질 상호작용 (PPI) 데이터를 STRING 데이터베이스로부터 검색하였다 (http://string-db.org) (Szklarczyk, et al., STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research, 2014. 43(D1): p. D447-D452). 유전자 쌍을 각각의 방법에 대하여 스피어만 상관 계수에 의해 등급화하였다. 이어서, 높은 등급을 갖는 유전자 쌍 (상위 n개의 유전자 쌍)을 취하고, 단백질-단백질 상호작용 데이터베이스에서 나타나는 쌍의 분율을 카운팅하였다.

노이즈 규칙화

노이즈 규칙화를 데이터 처리에 적용하였다. 유전자 발현 수준에 의해 결정된 랜덤 노이즈를 상관관계 계산으로의 진행 전에 발현 매트릭스에 추가한다. 랜덤 노이즈를 생성하고 V, 예를 들어, 특정 방법에 의해 처리된 발현 매트릭스에서 세포 j에서 유전자 i의 발현 값에 추가한다. 랜덤 노이즈를 하기에 의해 생성한다: (1) 모든 세포에 걸친 유전자 i의 발현 분포를 결정함, (2) 유전자 i 발현의 1 백분위수를 M으로 나타낸 최대 노이즈 수준으로 취함, (3) M이 0인 경우, 0.1을 최대 노이즈 수준으로서 사용함, (4) 균일 분포 하에 0 내지 M 범위의 난수를 생성함, 또한 (5) 난수를 V에 추가하여 노이즈 규칙화된 발현 매트릭스를 얻음.

네트워크 구축

각각의 유전자 쌍의 스피어만 상관관계를 각각의 클러스터에서 세포 내에서 계산하였다. 각각의 클러스터 내에서, 유전자 쌍을 그의 스피어만 상관관계에 의해 등급화하였다. 하우스키핑 유전자는 기본적인 세포 기능을 위해 필요하기 때문에, 이들은 조직 유형 또는 세포 유형에 관계 없이 모든 세포에서 발현될 것으로 예상된다. 세포 유형-특이적 상호작용 모듈을 구축하기 위해, 하우스키핑 유전자를 네트워크 구축으로부터 제거하였다. 제거된 하우스키핑 유전자의 목록은 아이젠버그(Eisenberg) 등으로부터 얻은 하우스키핑 유전자 목록을 포함하였다 (Eisenberg et al., Human housekeeping genes, revisited. Trends in Genetics, 2013. 29(10): p. 569-574). 추가로, 전형적인 하우스키핑 유전자, 예컨대 ACTB, B2M, 및 리보솜, TCA, 리액톰으로부터의 세포골격 유전자, 및 mtDNA 인코딩 유전자를 제거된 하우스키핑 유전자의 목록에 추가하였다. 하우스키핑 유전자 제거 후, 각각의 클러스터로부터 상위 1,000위 등급의 유전자 쌍을 취하고, 함께 사용하여 드래프트 네트워크를 구축하였다. 네트워크에서 각각의 노드의 중요성을 크사르디(Csardi) 등에 따른 igraph R 패키지를 사용하여 Degree 및 Pagerank의 값에 의해 측정하였다 (Csardi et al., The igraph software package for complex network research. InterJournal, Complex Systems, 2006. 1695(5): p. 1-9). 이어서, STRING 데이터베이스에서 단백질-단백질 상호작용을 참조하지 않은 링크를 제거함으로써 네트워크를 정리하였다. 최종 네트워크를 섀넌(Shannon) 등에 따른 사이코스케이프(Cytoscape) (Shannon et al., Cytoscape: A Software Environment for Integrated Models of Biomolecular Interaction Networks. Genome Research, 2003. 13(11): p. 2498-2504)와 함께 오노(Ono) 등에 따른 R 패키지 RCy3 (Ono et al., CyREST: Turbocharging Cytoscape Access for External Tools via a RESTful API. F1000Research, 2015. 4: p. 478-478)을 사용하여 시각화하였다. 애그(

gg) 등에 따른 EntOptLayout 사이코스케이프 플러그-인을 사용하여 네트워크 레이아웃을 생성하였다. (

gg et al., The EntOptLayout Cytoscape plug-in for the efficient visualization of major protein complexes in protein-protein interaction and signaling networks. Bioinformatics, 2019).

실시예 1. 대표적 정규화/귀속 방법을 사용한 데이터 전처리

여러 대표적 정규화/귀속 방법이 유전자-유전자 상관 관계 추론에 미치는 그들의 영향에 초점을 맞춰 벤치마킹되었다. 글로벌 스케일링 정규화 방법은 전체 발현에 의한 각각의 세포에 대한 유전자 발현의 정규화를 통해 최소한의 데이터 조작을 가졌다. 로그 변환 및 z-점수 스케일링은 등급화-기반 상관관계를 변화시키지 않을 것이기 때문에, 이 방법에는 통상적으로 로그 변환 및 z-점수 스케일링이 뒤따르고; 단지 총 UMI 정규화만이 비교에 포함되었다 (NormUMI로서 언급됨). scRNA-seq 데이터의 분산을 정규화하고 안정화시키기 위해 "규칙화 음의 이항 회귀"를 활용하는 프레임워크 (NBR로서 언급됨)가 포함되었고, 이는 생물학적 이질성을 보존하면서 기술적 노이즈의 영향을 제거할 수 있다. 상이한 귀속 방법론 범주를 나타내는 3개의 추가 방법이 또한 포함되었고, 이는 예를 들어 하기와 같다: (i) MAGIC - 유사한 세포에 걸친 공유 정보를 이용하여 노이즈-제거하고 드롭아웃 값을 채우는 데이터 스무딩 접근; (ii) SAVER - 음의 이항 분포 가정 하에 각각의 유전자의 발현을 모델링하고 실제 발현의 사후 분포를 출력하는 모델 기반 접근; 및 (iii) DCA - scRNA-seq 데이터의 복잡성 및 비-선형성을 포착하고 유전자 발현을 재구축하는 딥 러닝 기반 오토인코더.

이들 5개의 예시적 정규화/귀속 방법, 예를 들어, NormUMI, NBR, DCA, MAGIC, 및 SAVER을, 전처리 방법으로부터 도출된 유전자-유전자 상관관계를 비교함으로써 인간 세포 아틀라스 프로젝트(Human Cell Atlas Project) (Regev et al., The Human Cell Atlas. eLife, 2017. 6: p. e27041)로부터의 골수 scRNA-seq 데이터 상에 적용하였다. NormUMI를 제외하고, 다른 4개 방법은 공동-발현될 것으로 예상되지 않는 유전자 쌍에 대한 상관관계 아티팩트를 도입함으로써 유전자-유전자 상관관계의 눈에 띄는 과장을 나타냈다. 이들 방법으로부터 최고 상관관계를 갖는 유전자 쌍은 단백질-단백질 상호작용에서 약한 풍부화를 가졌으며, 이는 데이터 전처리에 잘못된 신호 및 상관관계 아티팩트가 도입될 수 있음을 시사한다. 오버-스무딩 또는 오버-핏팅으로 인해 데이터 전처리에 의해 잘못된 신호가 도입될 수 있다.

실시예 2. 단일 세포에서 유전자-유전자 상관관계의 계산

인간 세포 아틀라스 프리뷰 데이터세트로부터의 실제 골수 scRNA-seq 데이터를 다양한 데이터 전처리 방법에 대한 벤치마킹 데이터세트 (Regev et al.)로서 사용하였다. 전체 데이터세트는 모든 주요 면역 세포 유형을 포함하는 도 3 및 표 1에 나타낸 바와 같은 21개 세포 클러스터로 그룹화될 수 있는 378,000개의 골수 세포를 함유하였다. 근원 데이터세트로부터의 50,000개 세포를 랜덤 샘플링하였다. 0.2% (100개 세포) 미만에서 발현된 유전자를 이 서브세트에서 배제하였다. 최종 데이터세트는 12,600개 유전자를 함유하였고, 7,900만개 초과의 가능한 유전자 쌍이 생성되었다.

도 4는 벤치마킹 프레임워크의 개요를 나타낸다. 5개의 대표적 데이터 전처리 방법, 예를 들어, NormUMI, NBR, DCA, MAGIC, 및 SAVER을, 도 4에 나타낸 바와 같이, 단일 세포 발현 데이터 매트릭스, 예를 들어, 골수 단일 세포 발현 데이터에 적용하였다. 유전자-유전자 상관관계를 결과 매트릭스로부터 직접 계산하였다 (루트 1로 나타냄). 단백질-단백질 상호작용에서의 도출된 유전자-유전자 상관관계의 풍부화 및 방법간의 일관성을 평가하였다. 데이터 전처리 절차는 인위적인 상관관계를 도입할 수 있음이 발견되었다. 노이즈 규칙화 단계 (루트 2로 나타냄)를 도입하였고, 여기서는 상관관계 계산으로의 진행 전에 발현 매트릭스에 유전자 발현 수준에 의해 결정된 랜덤 노이즈 (적색 영역)를 적용하였다. 이 노이즈 규칙화 단계는 허위 상관관계를 효과적으로 감소시켰고, 정제된 유전자-유전자 상관관계 계측을 사용하여 유전자 공동-발현 네트워크를 구축할 수 있었다.

두 유전자의 발현은 하나의 세포 유형에서는 고도로 상관될 수 있지만, 다른 세포 유형에서는 관련이 없을 수 있다. 상이한 세포 유형에 걸친 유전자-유전자 상관관계를 포착하기 위해, CD4 T 세포, CD8 T 세포, 자연 킬러 세포, B 세포, pre-B 세포, CD14+ 단핵구, FCGR3A+ 단핵구, 적혈구, 과립구-대식세포 전구체 및 조혈 줄기 세포를 포함하는, 벤치마킹 데이터세트에서 10개의 가장 큰 클러스터, 예를 들어, 클러스터 당 500개 초과의 세포 내에서 유전자-유전자 스피어만 상관관계를 계산하였다 (도 3 및 도 4). 각각의 유전자 쌍에 대해, 10개 클러스터 중 최고 상관관계를 최종 상관관계로 기록하였다.

실시예 3. 데이터 전처리 방법을 사용한 아티팩트의 관찰

5개의 대표적 데이터 전처리 방법, 예를 들어, NormUMI, NBR, DCA, MAGIC, 및 SAVER을 인간 세포 아틀라스 프로젝트로부터의 골수 scRNA-seq 데이터 상에 적용하였다. 상이한 방법에 의해 처리된 5개의 상이한 데이터 매트릭스에서 전체 유전자-유전자 상관관계의 분포를 비교하였다. 대부분의 유전자 쌍은 임의의 연관을 가질 것으로 예상되지 않았기 때문에, 상관관계 분포는 0에서 피크가 될 것으로 예상되었다. NormUMI는 도 5a에 나타낸 바와 같이 0에서 피크를 갖는 상관관계 분포를 생성하였다. 그러나, 다른 4개 방법은 도 5a에 나타낸 바와 같이 스피어만 상관 계수 측면에서 훨씬 더 높은 중앙값 상관관계를 생성하였다 (NormUMI ρ=0.023, NBR ρ=0.839, MAGIC ρ=0.789, DCA ρ=0.770, SAVER ρ=0.166).

특정 데이터 전처리 방법 적용 후 더 높은 상관관계가 두 유전자 사이의 기능적 또는 물리적 상호작용의 더 높은 기회를 반영하는지의 여부를 드러내기 위해, 두 유전자 사이의 상호작용에 접근하였다. 공동-발현된 유전자에 의해 인코딩된 단백질은 랜덤 단백질 쌍보다 더 빈번히 서로 상호작용하고 있다. 결과적으로 더 높은 상관 관계가 사실이면, 공동-발현된 유전자는 단백질-단백질 상호작용 데이터베이스에서 상대적으로 더 높은 풍부화를 가져야 하는 반면, 허위 상관관계는 풍부화를 희석해야 한다. 5,772,157개의 상호작용하는 유전자 쌍을 함유하는 STRING 데이터베이스 (Szklarczyk et al.)를 사용하여 상위-등급 공동-발현 유전자 쌍에서 단백질-단백질 상호작용 풍부화를 평가하였다. 각각의 방법으로부터 상위 유전자 쌍 (상관관계 등급화에 의함)을 선택하였다. STRING 데이터베이스와 중복되는 이들 쌍의 분율을 도 5b에 나타낸 바와 같이 계산하였다. 결과는 NormUMI가 상위 100개 및 10,000개 유전자 쌍에서 각각 STRING과 80% 및 47% 중복으로 최고 단백질-단백질 상호작용 풍부화를 가졌음을 나타내었다. 대조적으로, NBR로부터의 상위 유전자 쌍은 STRING과 예상보다 낮은 중복 (<2%)을 가졌지만, MAGIC 및 DCA는 11% 내지 22% 범위의 유사한 단백질-단백질 상호작용 풍부화를 가졌다. SAVER가 상대적으로 좋은 결과를 나타내었지만, 풍부화는 NormUMI의 것의 단지 절반이었다.

유전자 쌍을 랜덤 샘플링하였고, 랜덤 쌍을 PPI와 중복시켜 배경 풍부화 수준을 추정하였다 (도 5d). 추정된 배경 풍부화 수준은 약 3.6%였고, 이는 NBR의 PPI 풍부화가 배경보다 훨씬 낮았음을 나타낸다. 이 간단한 방법은 유전자 공동-발현과의 물리적 상호작용과 직접 관련되지만, 결과는 또한 모든 데이터 전처리 방법에 대해 동일한 가정이 이루어진다는 점에서 데이터 전처리 방법간의 유용한 비교를 제공한다.

도 5a-5c는, 데이터 전처리 방법을 사용하여 유전자 발현 데이터를 처리하였을 때, 허위 유전자-유전자 상관관계와 같은 아티팩트의 관찰 결과를 나타낸다. 상관관계의 분포는 도 5a에 나타낸 바와 같이 이들 방법 사이에서 상이하였다. NormUMI는 0에 가까운 중심을 갖는 분포를 가졌지만, NBR, DCA 및 MAGIC는 명백한 과장된 상관관계 분포를 나타내었다. 라인은 중앙값을 나타낸다. 도 5b는 각각의 방법에 대한 단백질-단백질 상호작용에서 상위 상관 유전자 쌍의 풍부화를 나타낸다. X축은 상위 n개의 유전자 쌍을 나타낸다. Y축은 STRING 단백질-단백질 상호작용 데이터베이스에서 나타나는 n개의 유전자 쌍의 분율을 나타낸다. NormUMI가 최고 풍부화를 가졌고, SAVER, MAGIC, DCA 및 NBR이 그 뒤를 이었다. 도 5c는 고도 상관 유전자 쌍을 추론하는 데 있어 방법간에 낮은 일관성이 존재하였음을 보여준다. 하부 삼각형은 방법간의 상위 5000개 유전자 쌍의 중복을 나타낸다. 이 최고 중복은 NormUMI와 DCA 사이에서 나타났다. 30개의 유전자 쌍만이 두 방법 모두에서 상위 5,000위 등급을 가졌다. 상부 삼각형은 방법간 공유 쌍의 정확한 등급을 비교한 것이고, 이는 낮은 일치를 보여준다.

5개의 데이터 전처리 절차로부터 도출된 고도 상관 유전자 쌍의 일관성을 비교하였다. 각각의 방법으로부터 상위 5,000개 유전자 쌍의 쌍별 비교를 수행하였다. 결과는 방법간 유전자 쌍의 중복이 최소였음을 나타내었다. 예를 들어, 상위 5,000쌍 중에서 단지 하나의 유전자 쌍만이 NormUMI 및 NBR에 의해 공유되었다. 최고 중복은 NormUMI와 DCA 사이에서 나타났고, 이는 두 방법에 의해 공유된 단지 30개의 유전자 쌍을 보여주었다 (도 5c의 하부 삼각형). 각각의 방법에서 중복 쌍의 등급을 추가로 비교하였다. 결과는 이들 방법에 따라 잘 정의된 또는 명확한 관계가 존재하지 않았음을 나타내었다 (도 5c의 상부 삼각형). 이 접근 방식이 완전한 정량적 결과를 제공하지는 않았지만, 이는 이들 데이터 전처리 방법으로부터 도출된 높은 상관관계가 아티팩트일 가능성이 있었음을 나타내었다.

실시예 4. 음성 대조군 유전자 쌍으로서의 관련 없는 유전자

음성 대조군 유전자 쌍을 사용하여 허위 상관관계의 잠재적 원인을 조사하였다. 음성 대조군 유전자 쌍은 하기 기준에 의해 정의되었다: (i) 두 유전자는 STRING 데이터베이스에서 상호작용하는 쌍으로 나타나지 않아야 함. (ii) 두 유전자는 임의의 유전자 온톨로지(ontology) (GO) 텀(term)을 공유하지 않아야 함 (Ashburner et al., Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nature genetics, 2000. 25(1): p. 25-29; The　Gene　Ontology　Consortium, The Gene Ontology Resource: 20 years and still going strong. Nucleic Acids Research, 2018. 47(D1): p. D330-D338); 및 (iii) 두 유전자는 동일한 염색체 상에 있지 않아야 함.

상이한 데이터 전처리 방법 적용 후, MB21D1 및 OGT의 유전자 쌍, 예를 들어, 음성 유전자 대조군 쌍의 발현 값의 산점도가 도 6에 나타나 있다. 이들 두 유전자의 상관관계를 나타내는 기존 증거는 존재하지 않았다. 클러스터 2에서 6534개 세포 중 3개만이 근원 발현 매트릭스에서 두 유전자에서 0이 아닌 발현 값을 가졌다. 5개의 대표적 데이터 전처리 방법, 예를 들어, NormUMI, NBR, DCA, MAGIC, 및 SAVER을 분석에 적용하였다 . 음성 대조군 유전자 쌍, MB21D1 및 OGT 중 하나는 세포 클러스터 #2에서 NBR (ρ=0.843), DCA (ρ=0.828), 또는 MAGIC (ρ=0.739) 처리 방법 적용 후 높은 상관관계를 가졌다. 시각화는 이들 상관관계 아티팩트가 데이터 오버-스무딩에 의해 야기될 수 있음을 시사하였다.

5개 방법 중, NormUMI가 원시 데이터로부터 0 카운트로 남아 있는 유일한 방법이었다. NormUMI를 사용한 분석에서, 6,534개 세포 중 6,110개 세포 (93.5%)는 두 유전자 모두에서 0 값을 가졌고, 3개 세포 (0.04%)는 두 유전자 모두에서 0이 아닌 값을 가졌으며, 1.3% 및 5.2% 세포는 각각 MB21D1 및 OGT에 대해 0이 아닌 값을 가졌다. 다른 4개 방법은 근원 발현 매트릭스로부터 0을 크게 변경시켰다. 이들 절차 적용 후, 모든 처리된 데이터는, 특히 근원 데이터의 "이중 0 영역"에서, 어느 정도 오버-스무딩을 나타내었고, 이는 도 6에 나타낸 바와 같은 상관관계 아티팩트를 창출하였다. NBR은 귀속 방법이 아니며 단지 0 값을 최소한으로 이동시켰지만, 세포마다 상이한 조정된 크기로 인해 인위적인 등급 상관관계가 도입되었다.

실시예 5. 허위 상관관계를 감소시키기 위한 노이즈 규칙화 방법의 적용

허위 상관관계를 감소시키기 위해 노이즈 규칙화 방법을 적용하였다. 랜덤 노이즈를 전처리 방법, 예를 들어, NormUMI, NBR, DCA, MAGIC, 및 SAVER에 의해 처리된 발현 매트릭스에서 모든 단일 항목에 추가하였다. 예로서, 세포 j에서 유전자 i의 발현 값을 V로 나타낸다. 노이즈는 하기 단계에 의해 생성되었다: (i) 다양한 데이터 전처리 방법 적용 후에 유전자 i의 발현 분포를 계산함; (ii) M으로 나타낸 유전자 i의 발현 값의 1 백분위수를 결정하고, M은 노이즈 수준의 최대값으로서 사용될 것임; 또한 (iii) 0 내지 M 범위의 균일 분포된 난수를 생성하고, 이 난수를 V에 추가함.

각각의 전처리 방법에 이 노이즈 규칙화 방법을 적용한 후, 유전자-유전자 상관관계를 다시 컴퓨터계산하였다. 도 7a는 예시적 구현예에 따른 각각의 방법에 대한 노이즈 규칙화 적용 후 스피어만 상관관계 분석, 예를 들어 상관관계 분포의 결과를 나타낸다. 상이한 색은 상이한 방법을 나타낸다. 결과는, 상관관계 중앙값이 상관관계의 분포와 관련하여 도 7a에 나타낸 바와 같이 5개 방법 모두에서 0을 향해 이동됨을 보여주고, 이는 노이즈 규칙화의 적용으로 인한 상관관계 과장의 감소를 나타낸다.

도 7b는 예시적 구현예에 따른 노이즈 규칙화 적용 후 단백질-단백질 상호작용에서의 상위 상관 유전자 쌍의 풍부화를 나타낸다. X축은 상위 n개의 유전자 쌍을 나타낸다. Y축은 STRING 단백질-단백질 상호작용 데이터베이스에서 나타나는 n개의 유전자 쌍의 분율을 나타낸다. 상이한 색은 상이한 방법을 나타낸다. 실선의 에러 바는 10회 반복을 기반으로 한 99% 신뢰 구간을 나타낸다. 모든 방법에서 상위 상관 유전자에서 단백질-단백질 상호작용 풍부화의 상당한 개선이 존재하였다. NBR은 이전에 단백질-단백질 상호작용에서 최저 풍부화를 가졌다. 그러나, 노이즈 규칙화 방법 적용 후, NBR은 단백질-단백질 상호작용에서 최고 풍부화를 나타낸다. NBR에서 상위 100, 1,000 및 10,000개의 상관 유전자 쌍에서, 유전자 쌍의 99.0%, 96.8% 및 67.7%가 단백질-단백질 상호작용 데이터베이스에서 나타날 수 있고, 이는 각각 99.0-, 50.9- 및 31.6배 개선에 상응한다. DCA는 평균적으로 이전 결과에서 약 12%의 단백질-단백질 상호작용 풍부화를 가졌다. 노이즈 규칙화 후, DCA는 상위 100개 쌍에서 약 97.6%, 상위 10,000개 쌍에서 약 55.8% 풍부화를 가졌고, 이는 약 5배 개선에 상응한다. 이전에 최고 풍부화를 나타내었던 NormUMI는 또한 약 1.1 내지 1.3배 개선을 가졌다. 노이즈 규칙화의 이들 결과가 강건하고 재현가능한지의 여부를 시험하기 위해, 절차를 상이한 랜덤 시드로 10회 반복하여 랜덤 노이즈를 생성하였다. 단백질-단백질 상호작용 풍부화 성능은 각각의 반복 사이에서 안정적이었다. 대부분의 지점에서 NBR의 표준 편차는 0.1% 미만이었다 (도 7b에서 에러 바는 99% 신뢰 구간을 나타냄).

도 7c는 고도 상관 유전자 쌍의 추론에서 노이즈 규칙화 적용 후 방법간의 일관성을 나타낸다. 상이한 방법 사이에 더 많은 중복 유전자 쌍이 존재하였다. 상위 5,000개 유전자 쌍 중, NormUMI와 NBR 사이에는 2,851개 (57%) 중복 쌍이 존재하였고 (도 7c 하부 삼각형), 중복 유전자 쌍 사이에 유의한 상관 관계가 존재하였다 (스피어만 상관관계 = 0.50, P 값 = 1.77e-181, 도 7c 상부 삼각형). 다른 방법들 사이에서도, 특히 높은 등급의 유전자 사이에서, 약간의 일치를 나타내었다. 도 5c에 나타낸 바와 같은 노이즈 규칙화를 적용하지 않고 생성된 결과 비교에서, 도 7c에 나타낸 바와 같이 상이한 방법간에 더 높은 일치가 존재하였다. 예를 들어, 노이즈 규칙화 적용 후 NormUMI와 NBR간에 50% 초과의 유전자 쌍이 공유되었다.

실시예 6. scRNA-seq 데이터로부터 추론된 유전자-유전자 상관관계 네트워크

scRNA-seq로부터 드러난 유전자-유전자 상관관계를 사용하여 세포 유형 특이적 모듈을 밝히는 보다 포괄적인 네트워크를 재구축할 수 있다. 이전 실시예에 기재된 바와 같은 본 출원의 NBR 및 노이즈 규칙화의 조합은 모든 방법 사이에서 최고 단백질-단백질 상호작용 풍부화를 생성하였다. 따라서, 이전 실시예에 기재된 바와 같은 scRNA-seq 데이터에 본 출원의 NBR 및 노이즈 규칙화를 적용함으로써 도출된 유전자-유전자 상관관계를 사용하여 유전자-유전자 상관관계 네트워크를 재구축할 수 있었다.

하우스-키핑 유전자는 전형적으로 기본적 및 일반적 세포 기능을 반영하기 때문에, 세포 유형 특이적 상호작용에 더 초점을 맞추기 위해, 하우스-키핑 유전자 관여 링크를 네트워크 구축으로부터 제거하였다. 최고 상관관계를 갖는 상위 1,000개 유전자 쌍을 각각의 클러스터 (클러스터 #0 내지 클러스터 #9)로부터 취하여 네트워크를 재구축하였다. 그래프 이론으로부터의 두 알고리즘, Degree, Pagerank를 사용하여 네트워크에서 각각의 유전자의 중요성을 측정하였다. 네트워크에서 유전자의 Degree의 값은 유전자가 갖는 링크 (상호작용)의 수와 동일하다 (Bondy et al., Graph Theory. 2008: Springer Publishing Company, Incorporated. 654). 중요 유전자는 더 많은 유전자와 연결되는 경향이 있고, 따라서 중요 유전자는 상대적으로 더 높은 Degree 값을 가져야 한다. 링크의 양에 추가로, Pagerank는 유전자의 전반적 인기도를 측정함으로써 유전자에 대한 링크의 품질을 평가하는 것으로 간주된다 (Page et al., The PageRank citation ranking: Bringing order to the web. 1999, Stanford InfoLab).

노이즈 규칙화 없이 구축된 네트워크에 비해, 노이즈 규칙화의 추가와 함께 구축된 네트워크는 위상 구조에서 생물학적 기능을 더 잘 나타낼 수 있다. 또한, 보다 높은 Degree 또는 Pagerank의 값을 갖는 유전자는 또한 면역 시스템에서 중요한 기능을 갖는 경향이 있다. 예를 들어, LYZ, CD79B 및 NKG7은 각각 단핵구, B 세포 및 자연 킬러 세포에 대한 중요한 마커 유전자이다. 이들 세 유전자는 노이즈 규칙화를 사용하는 네트워크에서 높은 Pagerank 및 Degree 값을 가졌다. 대조적으로, CD79B 및 NKG7은, 도 8a 및 도 8b에 나타낸 바와 같이 노이즈 규칙화가 적용되지 않은 경우, 네트워크에 전혀 존재하지 않았다. 또한, 공지된 단백질-단백질 상호작용 정보를 사용하여 네트워크를 추가로 정제하였다 (Cheng et al., Inferring Transcriptional Interactions by the Optimal Integration of ChIP-chip and Knock-out Data. Bioinformatics and biology insights, 2009. 3: p. 129-140; Sayyed-Ahmad et al., Transcriptional regulatory network refinement and quantification through kinetic modeling, gene expression microarray data and information theory. BMC Bioinformatics, 2007. 8(1): p. 20). STRING 단백질-단백질 상호작용 데이터베이스에서 나타날 수 있는 유전자-유전자 상관관계만이 유지되었다. 이어서, EntOptLayout (

gg et al.)이 적용되었다. EntOptLayout은 네트워크에서 상이한 모듈의 효율적인 시각화를 제공하는 네트워크 알고리즘이다.

최종 네트워크는 도 8c에 나타낸 바와 같이 벤치마킹 데이터세트에서 세포 유형과 매칭되는 여러 세포 유형 관련 모듈을 드러내었다. 네트워크는 명확한 면역 세포 유형 관련 모듈을 형성하였다. 예를 들어, 상부-우측 모서리는 B 세포 및 pre-B 세포 모듈을 나타내었으며, CD78A 및 CD79B는 보다 높은 Pagerank 등급을 받았다 (도 8c의 노드 크기). 유사하게, 하부-우측 코너는 자연 킬러 세포 모듈을 나타내었고, 중간-우측 영역은 T 세포 뿐만 아니라 세포독성 CD8 T 세포로부터 자연 킬러 세포로의 전이를 나타내었다. 결과는, 노이즈 규칙화 시행 후, scRNA-seq 데이터를 사용하여 생물학에서 존재하는 네트워크를 더 잘 반영하는 유전자-유전자 공동-발현 네트워크를 재구축할 수 있음을 입증하였다.

도 8a-8c는 scRNA-seq 데이터로부터 추론된 유전자-유전자 상관관계 네트워크를 나타낸다. 도 8a 및 도 8b는 노이즈 규칙화의 적용 전과 후에 구축된 상관관계 네트워크에서 각각의 유전자의 Degree 및 Pagerank의 비교를 나타낸다. 다른 네트워크에서는 부재하는, 하나의 네트워크에 존재하는 유전자에는 비-제시 네트워크에서 0 값이 할당되었다. 세포 유형 마커 유전자, 예컨대 NKG7, CD79B, 또는 HBB는 노이즈 규칙화 후 비교적 더 높은 Degree 및 Pagerank를 가졌다. 도 8c는 정제된 유전자-유전자 상관관계를 갖는 네트워크 구축을 나타낸다. NBR 및 노이즈 규칙화를 적용함으로써 scRNA-seq 데이터를 처리하였다. 또한, 단백질-단백질 상호작용에서 존재하지 않았던 링크를 제거하였다. 도 8c에 나타낸 바와 같이, 노드 크기는 유전자의 Pagerank에 비례한다. 세포 유형 마커 유전자, 예컨대 CD79A, CD79B, NKG7, GNLY, LYZ, 또는 STMN1은 높은 Pagerank를 갖고, 이는 상이한 세포 유형에서의 이들의 중요성을 나타낸다. 세포 유형 관련 유전자는 또한 세포 유형 특이적 모듈을 형성하였다. 도 9는 노이즈 규칙화 적용 전과 후의 리액톰 경로에서의 상위 상관 유전자 쌍의 풍부화를 나타낸다. X축은 상위 n개의 유전자 쌍을 나타낸다. Y축은 리액톰 데이터베이스에서 동일한 경로에서 나타나는 n개의 유전자 쌍의 분율을 나타낸다. 파선 및 실선은 각각 노이즈 규칙화 적용 전과 후를 나타낸다.

실시예 7. 최적 노이즈 수준의 결정

노이즈 규칙화 동안 추가되는 최적 노이즈 수준을 각각의 유전자의 발현 수준과 관련하여 결정하였다. 각각의 유전자의 발현 수준의 0.1, 1, 2, 5, 10, 또는 20 백분위수 등의 상이한 노이즈 수준을 5개의 대표적 데이터 전처리 방법, 예를 들어, NormUMI, NBR, DCA, MAGIC, 및 SAVER을 적용함으로써 시험하였다. 결과는, 도 10에 나타낸 바와 같이 1 백분위수가 모든 5개 방법에 걸쳐 가장 높은 단백질-단백질 상호작용 풍부화를 최적으로 생성하였음을 나타낸다. 이어서, 유전자 발현 수준의 약 0 내지 1 백분위수 범위의 랜덤 노이즈가 생성되었고, 이를 도 11에 나타낸 바와 같이 발현 매트릭스에 추가하였다. 이 노이즈 규칙화 과정은 보다 신뢰성 있는 유전자-유전자 관계를 생성함으로써 상위 유전자 쌍 사이의 잘못된 상관관계를 현저히 감소시켰다.

도 11에 나타낸 바와 같이, 노이즈 규칙화 과정은 특정 scRNA-seq 전처리 방법에 의해 처리된 발현 매트릭스를 얻는 것을 포함하였고, 여기서 이 발현 매트릭스는 m개의 세포에서 n개의 유전자의 발현을 함유하였다. V가 세포 j에서 유전자 i의 발현 값이라고 가정하여, 랜덤 노이즈가 하기 절차에 의해 생성되고 V에 추가될 것이다: (1) 모든 세포에 걸친 유전자 i의 발현 분포를 결정함; (2) 유전자 i의 발현 분포로부터 제1 백분위수를, M으로 나타낸 유전자 i에 대한 최대 노이즈 수준으로 취함 (M이 최소값 m보다 작은 경우, m이 최대 노이즈 수준으로서 사용될 것임); (3) 균일 분포 하에 0 내지 M 범위의 난수를 생성함; (4) V에 이 난수를 추가하여 노이즈 규칙화된 발현 값을 얻음; 또한 (5) 발현 매트릭스에서 모든 항목에 대하여 이 절차를 반복함.

Claims

정규화 또는 귀속을 위해 유전자 발현 데이터를 처리하고;
정규화 또는 귀속된 유전자 발현 데이터에 노이즈 규칙화 과정을 적용하고;
유전자-유전자 상관관계 계산 과정을 적용하여 상관 유전자 쌍을 얻는 것
을 포함하는, 유전자-유전자 상관관계에 대한 데이터 처리의 개선 방법.
제1항에 있어서, 유전자 발현 데이터가 단일 세포 유전자 발현 데이터인 방법.
제1항에 있어서, 노이즈 규칙화 과정이 발현 매트릭스에서 세포 내 유전자의 발현 값에 랜덤 노이즈를 추가하는 것을 포함하는 것인 방법.
제3항에 있어서, 랜덤 노이즈가 유전자의 발현 수준에 의해 결정되는 것인 방법.
제3항에 있어서, 랜덤 노이즈가
발현 매트릭스에서 모든 세포에 걸친 유전자의 발현 분포를 결정하고;
유전자의 발현 수준의 약 0.1 내지 약 20 백분위수를 최대 노이즈 수준으로 취하고;
균일 분포 하에 0 내지 최대 노이즈 수준 범위의 난수를 생성하고; 그리고
발현 매트릭스에서 세포 내 유전자의 발현 값에 난수를 추가하여 노이즈 규칙화된 발현 매트릭스를 얻음으로써 결정되는 것인, 방법.
제3항에 있어서, 랜덤 노이즈가
발현 매트릭스에서 모든 세포에 걸친 유전자의 발현 분포를 결정하고;
유전자의 발현 수준의 1 백분위수를 최대 노이즈 수준으로 취하고; x
균일 분포 하에 0 내지 최대 노이즈 수준 범위의 난수를 생성하고; 그리고
발현 매트릭스에서 세포 내 유전자의 발현 값에 난수를 추가하여 노이즈 규칙화된 발현 매트릭스를 얻음으로써 결정되는 것인, 방법.
제1항에 있어서, 유전자-유전자 상관관계 계산 과정을 세포 클러스터 내에서 수행하는 것인, 방법.
제1항에 있어서, 상관 유전자 쌍과 연관된 유전자 발현 데이터를 풍부화하는 것을 추가로 포함하는 것인, 방법.
제1항 또는 제3항 또는 제4항 또는 제5항 또는 제6항에 있어서, 총 고유 분자 식별자 정규화 (NormUMI), 규칙화 음의 이항 회귀 (NBR), 딥 카운트 오토인코더 네트워크 (DCA), 세포의 마르코프 친화도-기반 그래프 귀속 (MAGIC), 또는 발현 복구를 통한 단일-세포 분석 (SAVER)이 정규화 또는 귀속을 위해 유전자 발현 데이터를 처리하는 데 사용되는 것인, 방법.
제1항 또는 제3항 또는 제4항 또는 제5항 또는 제6항에 있어서, 상관 유전자 쌍을 기반으로 하여 유전자-유전자 상관관계 네트워크를 구축하는 것을 추가로 포함하는 것인, 방법.
제10항에 있어서, 유전자-유전자 상관관계 네트워크가 세포 유형-특이적인 것인, 방법.
제10항에 있어서, 분자 상호작용의 맵핑, 생물학적 이벤트를 조사하기 위한 실험 디자인의 안내, 바이오마커의 발견, 비교 네트워크 분석의 안내, 약물 디자인의 안내, 세포의 건강 및 질환 상태 비교에 의한 유전자-유전자 상호작용의 변화의 식별, 약물 개발 안내, 유전자의 전사 조절의 예측, 약물 효율의 개선 또는 약물 내성 인자의 식별을 위해 유전자-유전자 상관관계 네트워크를 사용하는 것을 추가로 포함하는 것인, 방법.
유전자-유전자 상관관계 네트워크로서, 상기 네트워크가 상관 유전자 쌍을 기반으로 하여 구축되며, 상관 유전자 쌍은 제1항의 방법을 사용하여 얻어지는 것인, 유전자-유전자 상관관계 네트워크.
유전자 발현 데이터를 검색하고;
정규화 또는 귀속을 위해 유전자 발현 데이터를 처리하고;
정규화 또는 귀속된 유전자 발현 데이터에 노이즈 규칙화 과정을 적용하고;
유전자-유전자 상관관계 계산 과정을 적용하여 상관 유전자 쌍을 얻고; 그리고
상관 유전자 쌍을 기반으로 하여 유전자-유전자 상관관계 네트워크를 구축하는 것을 포함하는, 유전자-유전자 상관관계에 대한 데이터 처리를 위한 컴퓨터-시행 방법.
제14항에 있어서, 유전자 발현 데이터가 단일 세포 유전자 발현 데이터인, 방법.
제14항에 있어서, 노이즈 규칙화 과정이 발현 매트릭스에서 세포 내 유전자의 발현 값에 랜덤 노이즈를 추가하는 것을 포함하는 것인, 방법.
제16항에 있어서, 랜덤 노이즈가 유전자의 발현 수준에 의해 결정되는 것인, 방법.
제16항에 있어서, 랜덤 노이즈가
발현 매트릭스에서 모든 세포에 걸친 유전자의 발현 분포를 결정하고;
유전자의 발현 수준의 약 0.1 내지 약 20 백분위수를 최대 노이즈 수준으로 취하고;
균일 분포 하에 0 내지 최대 노이즈 수준 범위의 난수를 생성하고; 그리고
발현 매트릭스에서 세포 내 유전자의 발현 값에 난수를 추가하여 노이즈 규칙화된 발현 매트릭스를 얻음으로써 결정되는 것인, 방법.
제16항에 있어서, 랜덤 노이즈가
발현 매트릭스에서 모든 세포에 걸친 유전자의 발현 분포를 결정하고;
유전자의 발현 수준의 1 백분위수를 최대 노이즈 수준으로 취하고;
균일 분포 하에 0 내지 최대 노이즈 수준 범위의 난수를 생성하고; 그리고
발현 매트릭스에서 세포 내 유전자의 발현 값에 난수를 추가하여 노이즈 규칙화된 발현 매트릭스를 얻음으로써 결정되는 것인, 방법.
제14항에 있어서, 유전자-유전자 상관관계 계산 과정을 세포 클러스터 내에서 수행하는 것인, 방법.
제14항에 있어서, 상관 유전자 쌍과 연관된 유전자 발현 데이터를 풍부화하는 것을 추가로 포함하는 것인, 방법.
제14항 또는 제16항 또는 제17항 또는 제18항 또는 제19항에 있어서, 총 고유 분자 식별자 정규화 (NormUMI), 규칙화 음의 이항 회귀 (NBR), 딥 카운트 오토인코더 네트워크 (DCA), 세포의 마르코프 친화도-기반 그래프 귀속 (MAGIC), 또는 발현 복구를 통한 단일-세포 분석 (SAVER)이 정규화 및 귀속을 위해 유전자 발현 데이터를 처리하는 데 사용되는 것인, 방법.
제14항에 있어서, 유전자-유전자 상관관계 네트워크가 세포 유형-특이적인 것인, 방법.
제14항 또는 제16항 또는 제17항 또는 제18항 또는 제19항에 있어서, 분자 상호작용의 맵핑, 생물학적 이벤트를 조사하기 위한 실험 디자인의 안내, 바이오마커의 발견, 비교 네트워크 분석의 안내, 약물 디자인의 안내, 세포의 건강 및 질환 상태 비교에 의한 유전자-유전자 상호작용의 변화의 식별, 약물 개발 안내, 유전자의 전사 조절의 예측, 약물 효율의 개선 또는 약물 내성 인자의 식별을 위해 유전자-유전자 상관관계 네트워크를 사용하는 것을 추가로 포함하는 것인, 방법.
유전자-유전자 네트워크의 생성을 위한 시스템으로서,
유전자 발현 데이터를 저장하도록 구성된 데이터베이스;
지시를 저장하도록 구성된 메모리;
메모리와 커플링된 적어도 하나의 프로세서로서, 여기서 적어도 하나의 프로세서는,
유전자 발현 데이터를 검색하고,
정규화 또는 귀속을 위해 유전자 발현 데이터를 처리하고,
정규화 또는 귀속된 유전자 발현 데이터에 노이즈 규칙화 과정을 적용하고,
유전자-유전자 상관관계 계산 과정을 적용하여 상관 유전자 쌍을 얻고, 그리고
상관 유전자 쌍을 기반으로 하여 유전자-유전자 상관관계 네트워크를 구축하는 것을 위한 지시를 실행하도록 구성되는, 메모리와 커플링된 적어도 하나의 프로세서; 및
프로세서에 커플링되고, 유전자-유전자 상관관계에 대한 쿼리를 수신하고 상관 유전자 쌍 및 구축된 유전자-유전자 상관관계 네트워크의 결과를 표시할 수 있는 사용자 인터페이스를 포함하는 것인, 시스템.
제25항에 있어서, 유전자 발현 데이터가 단일 세포 유전자 발현 데이터인 것인, 시스템.
제25항에 있어서, 노이즈 규칙화 과정이 발현 매트릭스에서 세포 내 유전자의 발현 값에 랜덤 노이즈를 추가하는 것을 포함하는 것인, 시스템.
제27항에 있어서, 랜덤 노이즈가 유전자의 발현 수준에 의해 결정되는 것인, 시스템.
제27항에 있어서, 랜덤 노이즈가
발현 매트릭스에서 모든 세포에 걸친 유전자의 발현 분포를 결정하고;
유전자의 발현 수준의 약 0.1 내지 약 20 백분위수를 최대 노이즈 수준으로 취하고;
균일 분포 하에 0 내지 최대 노이즈 수준 범위의 난수를 생성하고; 그리고
발현 매트릭스에서 세포 내 유전자의 발현 값에 난수를 추가하여 노이즈 규칙화된 발현 매트릭스를 얻음으로써 결정되는 것인, 시스템.
제27항에 있어서, 랜덤 노이즈가
발현 매트릭스에서 모든 세포에 걸친 유전자의 발현 분포를 결정하고;
유전자의 발현 수준의 1 백분위수를 최대 노이즈 수준으로 취하고;
균일 분포 하에 0 내지 최대 노이즈 수준 범위의 난수를 생성하고; 그리고
발현 매트릭스에서 세포 내 유전자의 발현 값에 난수를 추가하여 노이즈 규칙화된 발현 매트릭스를 얻음으로써 결정되는 것인, 시스템..
제25항에 있어서, 유전자-유전자 상관관계 계산 과정이 세포 클러스터로 수행되는 것인, 시스템.
제25항에 있어서, 적어도 하나의 프로세서가 상관 유전자 쌍과 연관된 유전자 발현 데이터를 풍부화하도록 추가로 구성된 것인, 시스템.
제25항 또는 제27항 또는 제28항 또는 제29항 또는 제30항에 있어서, 총 고유 분자 식별자 정규화 (NormUMI), 규칙화 음의 이항 회귀 (NBR), 딥 카운트 오토인코더 네트워크 (DCA), 세포의 마르코프 친화도-기반 그래프 귀속 (MAGIC), 또는 발현 복구를 통한 단일-세포 분석 (SAVER)이 정규화 또는 귀속을 위해 유전자 발현 데이터를 처리하는 데 사용되는 것인, 시스템.
제25항에 있어서, 유전자-유전자 상관관계 네트워크가 세포 유형-특이적인 것인, 시스템.
제25항 또는 제27항 또는 제28항 또는 제29항 또는 제30항에 있어서, 적어도 하나의 프로세서가 분자 상호작용의 맵핑, 생물학적 이벤트를 조사하기 위한 실험 디자인의 안내, 바이오마커의 발견, 비교 네트워크 분석의 안내, 약물 디자인의 안내, 세포의 건강 및 질환 상태 비교에 의한 유전자-유전자 상호작용의 변화의 식별, 약물 개발 안내, 유전자의 전사 조절의 예측, 약물 효율의 개선 또는 약물 내성 인자의 식별을 위해 유전자-유전자 상관관계 네트워크를 활용하도록 추가로 구성된 것인, 시스템.