WO2023008673A1

WO2023008673A1 - 머신러닝 기반 비알코올성 지방간염 판별용 복합 마커 및 이의 용도

Info

Publication number: WO2023008673A1
Application number: PCT/KR2022/002773
Authority: WO
Inventors: 유경현; 박종훈; 오수민; 성노현; 이연수; 이용선; 한상영; 백양현
Original assignee: 숙명여자대학교산학협력단; 서울대학교 산학협력단; 국립암센터; 의료법인 온그룹의료재단
Priority date: 2021-07-30
Filing date: 2022-02-25
Publication date: 2023-02-02
Also published as: KR20230019038A

Abstract

본 발명은 만성간질환 진단용 바이오마커 조성물에 관한 것으로, 지방간 환자와 비알콜성지방간염 환자 사이에서 발현의 차이를 나타내는 유전자들을 바이오마커로 선별하기 위해, DEG(differentially expressed gene) 기법을 통해 선별된 유전자들과 특징부 세트(feature set)로 선별된 유전자들을 추합하여 정밀도(accuracy)가 높은 CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6 유전자 세트를 선별하고, 환자군 기반의 데이터 임상모델에서 선별된 유전자 세트로 지방간 및 비알콜성지방간염을 높은 정확도로 구분할 수 있음을 확인함으로써, CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6으로 구성된 유전자 세트를 만성간질환 및 비알콜성지방간염의 진단을 위한 바이오마커로 제공된다.

Description

머신러닝 기반 비알코올성 지방간염 판별용 복합 마커 및 이의 용도

본 발명은 만성간질환 진단용 바이오마커 조성물에 관한 것이다.

지방간 또는 지방간증(steatosis)은 간세포 속에 지방이 축적된 상태를 말하며, 정상 간은 지방이 차지하는 비율이 5% 정도인데, 이보다 많은 지방이 축적된 상태를 지방간이라고 한다. 지방간이 악화되어 간세포 속의 지방 덩어리가 커지면 핵을 포함한 세포의 중요한 구성성분이 한 쪽으로 밀려나 간세포의 기능이 저하되고, 세포 내에 축적된 지방으로 인하여 팽창된 간세포들이 간세포 사이에 있는 미세혈관과 임파선을 압박하여 간 내의 혈액과 임파액 순환에 장애를 일으킨다. 이렇게 되면 간세포는 산소와 영양공급을 적절히 제공받을 수 없어 간기능이 저하된다.

비알코올성 지방간 질환(non-alcoholic fatty liver disease; NAFLD)은 만성 간질환 중에서 가장 흔한 질환으로 과도한 알코올 섭취 없이 간세포 내에 지방이 축적되는 상태를 의미한다. 비알코올성 지방간 질환은 비만 유병률의 증가와 더불어 서구뿐만 아니라 국내에서도 유병률이 급격하게 증가하고 있으며, 제2형 당뇨병, 비만 및 대사증후군과 밀접하게 연관되어 있다. 지역마다 다소 빈도의 차이는 있으나, 전 세계적으로 적게는 6.3%, 많게는 33%, 평균 약 20%의 환자가 발병된 것으로 보고되어져 있으며, 이중 일부 환자에서는 비알코올성 지방간염(nonalcoholic steatohepatitis; NASH)의 단계를 거쳐 간경변 또는 간암과 같은 말기 간질환으로 진행되는 것으로 밝혀져 지방간증에서 비알코올성 지방간염으로의 예후를 예측하는 기술에 대한 관심이 매우 높은 실정이다. 비알코올성 지방간염으로의 발병 기전은 아직까지 완전히 규명되지 않았지만, 최근 지방 침착, 염증 반응, 유전적 요인 등 다양한 요인들이 서로 연관되어 있는 것으로 보고되고 있다.

비알코올성 지방간 질환의 치료로는 식이요법 및 운동요법 등이 있으며, 약물 치료로는 비타민 E, 인슐린 감각제(insulin sensitizer), 우르소데옥시콜산(ursodeoxycholic acid; UCDA), 스타틴(statin) 등이 시도되고 있다. 그러나, 상기 약물의 효과는 의학적으로 확실히 증명된 것은 아니며, 현재까지 비알코올성 지방간 질환에 대한 공인된 약제는 없는 실정이다. 더불어, 식이요법 및 운동요법 등을 통하여 증상을 개선해야 하지만 환자가 이를 실천하지 못하는 경우가 많다. 따라서 지방간증에서 비알코올성 지방간염으로 정확히 진단할 수 있는 바이오마커의 개발에 대한 연구가 필요한 실정이다.

본 발명의 목적은 만성간질환 진단용 바이오마커 조성물을 제공하는 데에 있다.

본 발명의 다른 목적은 만성간질환 진단용 조성물을 제공하는 데에 있다.

본 발명의 또 다른 목적은 만성간질환 진단용 키트를 제공하는 데에 있다.

본 발명의 또 다른 목적은 만성간질환 진단을 위한 정보 제공 방법을 제공하는 것이다.

본 발명은 CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6으로 이루어진 군에서 선택된 어느 하나 이상의 단백질 또는 이를 코딩하는 유전자를 유효성분으로 포함하는 만성간질환 진단용 바이오마커 조성물을 제공한다.

또한, 본 발명은 CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6으로 이루어진 군에서 선택된 어느 하나 이상의 단백질 또는 이를 코딩하는 유전자의 발현 수준을 측정할 수 있는 제제를 유효성분으로 포함하는 만성간질환 진단용 조성물을 제공한다.

또한, 본 발명은 상기 바이오마커 조성물을 포함하는 만성간질환 진단용 키트를 제공한다.

또한, 본 발명은 (a) 만성간질환 환자에서 분리된 시료로부터 CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6으로 이루어진 군에서 선택된 어느 하나 이상의 단백질의 발현 수준 또는 이를 코딩하는 유전자의 mRNA 발현 수준을 측정하는 단계; (b) 상기 단백질의 발현 수준 또는 이를 코딩하는 유전자의 mRNA 발현 수준을 대조군 시료와 비교하는 단계; 및 (c) 상기 단백질의 발현 수준 또는 이를 코딩하는 유전자의 mRNA 발현 수준이 대조군 시료보다 높은 경우, 만성간질환으로 진단될 가능성이 높은 것으로 판단하는 단계를 포함하는 만성간질환 진단을 위한 정보 제공 방법을 제공한다.

본 발명에 따르면, 지방간 환자와 비알콜성지방간염 환자 사이에서 발현의 차이를 나타내는 유전자들을 바이오마커로 선별하기 위해, DEG(differentially expressed gene) 기법을 통해 선별된 유전자들과 특징부 세트(feature set)로 선별된 유전자들을 추합하여 정밀도(accuracy)가 높은 CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6 유전자 세트를 선별하고, 환자군 기반의 데이터 임상모델에서 선별된 유전자 세트로 지방간 및 비알콜성지방간염을 높은 정확도로 구분할 수 있음을 확인함으로써, CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6으로 구성된 유전자 세트를 만성간질환 및 비알콜성지방간염의 진단을 위한 바이오마커로 제공될 수 있다.

도 1은 지방간(steatosis) 및 비알콜성지방간염(non-alcoholic steatohepatitis, NASH)에서 발현의 차이를 나타내는 유전자를 DEG(differentially expressed gene)로 선별한 결과이다.

도 2는 지방간(steatosis) 및 비알콜성지방간염(non-alcoholic steatohepatitis, NASH)에서 발현의 차이를 나타내는 유전자를 머신러닝 기법인 특징제거(feature elimination) 기법으로 선별한 결과이다.

도 3은 지방간(steatosis) 및 비알콜성지방간염(non-alcoholic steatohepatitis, NASH)에서 발현의 차이를 나타내는 DEG(differentially expressed gene)와 특징부 세트(feature set)에 교차되는 64개의 특징유전자(feature genes)를 선별한 결과이다.

도 4는 상기 선별된 64개의 특징유전자(feature genes)들 중에서 정밀도(accuracy) 값이 높은 유전자들을 선별한 결과이다.

도 5는 상기 선별된 64개의 특징유전자(feature genes)들 중에서 정밀도(accuracy) 값이 높은 유전자 세트를 선별한 결과이다.

본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

수치 범위는 상기 범위에 정의된 수치를 포함한다. 본 명세서에 걸쳐 주어진 모든 최대의 수치 제한은 낮은 수치 제한이 명확히 쓰여 있는 것처럼 모든 더 낮은 수치 제한을 포함한다. 본 명세서에 걸쳐 주어진 모든 최소의 수치 제한은 더 높은 수치 제한이 명확히 쓰여 있는 것처럼 모든 더 높은 수치 제한을 포함한다. 본 명세서에 걸쳐 주어진 모든 수치 제한은 더 좁은 수치 제한이 명확히 쓰여 있는 것처럼, 더 넓은 수치 범위 내의 더 좋은 모든 수치 범위를 포함할 것이다.

이하, 본 발명을 보다 상세하게 설명한다.

상기 단백질의 발현 수준을 측정할 수 있는 제제는 단백질에 특이적으로 결합하는 항체, 펩타이드, 앱타머 또는 화합물, 상기 유전자의 발현 수준을 측정할 수 있는 제제는 유전자에 특이적으로 결합하는 프라이머 또는 프로브일 수 있으나, 이에 제한되는 것은 아니다.

상기 만성간질환은 지방간 또는 비알코올성지방간염일 수 있으나, 이에 제한되는 것은 아니다. 상기 비알코올성 지방간염은 F3 및 F4 단계일 수 있다.

본 발명에서 사용된 용어 "프라이머"는 짧은 자유 3-말단 수산화기(free 3'-hydroxyl group)를 가지는 핵산 서열로 상보적인 템플레이트(template)와 염기쌍을 형성할 수 있고 템플레이트 가닥 복사를 위한 시작 지점으로서 작용하는 짧은 핵산 서열을 말한다. 프라이머는 적절한 완충용액 및 온도에서 중합반응을 위한 시약(즉, DNA 폴리머라제 또는 역전사효소) 및 상이한 4가지의 뉴클레오사이드 트리포스페이트의 존재 하에서 DNA 합성을 개시할 수 있다. PCR 조건, 센스 및 안티센스 프라이머의 길이는 당업계에 공지된 기술에 따라 적절히 선택될 수 있다.

본 발명에서 사용된 용어 "프로브"는 mRNA 외 특이적으로 결합을 이룰 수 있는 짧게는 수 염기 내지 길게는 수백 염기에 해당하는 RNA 또는 DNA 등의 핵산 단편을 의미하며 라벨링되어 있어서 특정 mRNA의 존재 유무, 발현량을 확인할 수 있다. 프로브는 올리고뉴클레오타이드(oligonucleotide) 프로브, 단쇄 DNA(single strand DNA) 프로브, 이중쇄 DNA(double strand DNA) 프로브, RNA 프로브 등의 형태로 제작될 수 있다. 적절한 프로브의 선택 및 혼성화 조건은 당해 기술 분야에 공지된 기술에 따라 적절히 선택할 수 있다.

본 발명에서 사용된 용어 "항체"는 당해 기술분야에 공지된 용어로서 항원성 부위에 대하여 지시되는 특이적인 면역 글로불린을 의미한다. 본 발명에서의 항체는 본 발명의 Gnpat에 대해 특이적으로 결합하는 항체를 의미하며, 당해 기술분야의 통상적인 방법에 따라 항체를 제조할 수 있다. 상기 항체의 형태는 폴리클로날 항체 또는 모노클로날 항체를 포함하며, 모든 면역글로불린 항체가 포함된다. 상기 항체는 2개의 전체 길이의 경쇄 및 2개의 전체 길이의 중쇄를 갖는 완전한 형태를 의미한다. 또한, 상기 항체는 인간화 항체 등의 특수 항체도 포함된다.

본 발명에서 사용된 용어 "펩타이드"는 표적 물질에 대한 결합력 높은 장점이 있으며, 열/화학 처리시에도 변성이 일어나지 않는다. 또한, 분자 크기가 작기 때문에 다른 단백질에 붙여서 융합 단백질로의 이용이 가능하다. 구체적으로 고분자 단백질 체인에 붙여서 이용이 가능하므로 진단 키트 및 약물전달 물질로 이용될 수 있다.

본 발명에서 사용된 용어 "앱타머"는 그 자체로 안정된 삼차 구조를 가지면서 표적 분자에 높은 친화성과 특이성으로 결합할 수 있는 특징을 가진 특별한종류의 단일 가닥 핵산(DNA, RNA 또는 변형핵산)으로 구성된 폴리뉴클레오티드의 일종을 의미한다. 상술한 바와 같이, 앱타머는 항체와 동일하게 항원성 물질에 특이적으로 결합할 수 있으면서도, 단백질보다 안정성이 높고, 구조가 간단하며, 합성이 용이한 폴리뉴클레오티드로 구성되어 있으므로, 항체를 대체하여 사용될 수 있다.

본 발명의 키트는 바이오마커 성분에 특이적으로 결합하는 항체, 기질과의 반응에 의해서 발색하는 표지체가 접합된 2차 항체 접합체(conjugate), 상기 표지체와 발색 반응할 발색 기질 용액, 세척액 및 효소 반응 정지액 등을 포함할 수 있으며, 사용되는 시약 성분을 포함하는 다수의 별도 패키징 또는 컴파트먼트로 제작될 수 있다.

본 발명에서 사용된 용어 "환자에서 분리된 시료"는 상기 단백질 또는 유전자의 발현 수준에 있어서 대조군과 차이가 나는 조직, 세포, 전혈, 혈청, 혈장, 타액, 객담, 뇌척수액, 또는 뇨와 같은 시료를 포함할 수 있고, 보다 상세하게는 간 조직, 간세포일 수 있지만, 이에 한정되는 것은 아니다.

상세하게는, 상기 mRNA 발현 수준을 측정하는 방법은 RT-PCR, 경쟁적 RT-PCR(Competitive RT-PCR), 실시간 RT-PCR(Real-time RT-PCR), RNase 보호 분석법(RPA; RNase protection assay), 노던 블롯팅(Northern blotting) 및 DNA 칩을 이용하지만, 이에 한정되는 것은 아니다.

보다 구체적으로, 상기 단백질 발현 수준을 측정하는 방법은 웨스턴 블롯(Wetsern blot), 방사성면역분석(Radioimmunoassay; RIA), 방사면역확산법(radioimmunodiffusion), 오우크테로니(Ouchterlony) 면역 확산법, 로케이트(rocket) 면역전기영동, 조직면역염색, 면역침전 분석법(Immunoprecipitation assay), 보체고정분석법(Complement Fixation Assay), FACS, 단백질 칩 및 ELISA 분석을 이용하지만, 이에 한정되는 것은 아니다.

이하, 본 발명의 이해를 돕기 위하여 실시예를 들어 상세하게 설명하기로 한다. 다만 하기의 실시예는 본 발명의 내용을 예시하는 것일 뿐 본 발명의 범위가 하기 실시예에 한정되는 것은 아니다. 본 발명의 실시예는 당업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해 제공되는 것이다.

실시예 1: DEG(differentially expressed gene)로 바이오마커 선별

비알콜성지방간염 진단을 위한 바이오마커를 발굴하기 위해, 지방간(steatosis) 환자 60명 및 비알콜성지방간염(non-alcoholic steatohepatitis, NASH) 환자 73명으로부터 조직검사를 통해 간 조직을 채취하였다. Trizol을 이용하여 total RNA를 분리하였다. 그 후, Illumina의 Truseq Stranded Total RNA LT Sample Prep Kit를 사용하여 시퀀싱 library를 구축하고, Novaseq 6000을 사용하여 시퀀싱을 진행하였다. RNA-seq의 raw data로는 FASTQ 파일을 확보하여 Trim Galore를 통한 시퀀싱 데이터의 품질 확인 및 낮은 품질의 read와 adapter sequence를 제거하였으며, STAR alignmnet tool을 이용하여 인간지놈 (human genome)에 mapping하였다. 이 후에 Picard mark duplication tool을 이용하여 duplication이 제거된 bam 파일을 확보하였으며 이 파일로부터 전사체에 매핑된 read count를 추출하였다. 이후 DESeq2를 통하여 지방간 환자와 비알콜성지방간염 환자에서의 유전자 발현량을 정량화하고 차이를 비교하여 발현량이 달라지는 유전자를 선별하였다. 발현이 변화하는 유전자를 정의하기 위하여 먼저 각 그룹에서 평균 정량화된 발현량이 1이상(normalized read counts >=1)인 유전자, 두 그룹 간 차이가 p-value 0.05 이하인 경우를 유의미한 것으로 설정하였다. 도 1에 나타난 바와 같이, 두 그룹의 발현량의 차이가 1.3배(fold change >= |1.3|) 이상 존재하고 평균 값은 표준편차 이상(average >= standard deviation)으로 샘플 간의 차이가 적은 유전자를 differential expressed genes (DEGs)로 선별한 결과, 총 1393개의 유전자, 질병의 진행에 따라 비알콜성지방간염에서 증가하는 748개와 감소하는 유전자 645개를 발굴하였다.

실시예 2: 특징부 세트(feature set)로 바이오마커 선별

머신러닝 기법 중에서 특징제거(feature elimination) 기법을 이용하여 분류 모델을 설립하고, 전사체의 정량화된 발현값을 이용하여 상기 실시예 1에서 선별된 유전자들 중에서 비알콜성지방간염에 특이적인 유전자 세트를 선정하였다. 먼저 26,000 여개의 공지된 mRNA를 대상으로 발현량의 평균을 입력하여 지방간 환자 그룹과 비알콜성지방간염 환자 그룹에서 모두 1 미만인 유전자들을 제거하엿다. 13,000여개의 유전자를 이용하여 분류 모델 학습에 중요하게 사용되지 않은 특징부(feature)를 반복적으로 제거하는 과정을 통해 분류 모델에 적합한 특징을 선별하였다.

1. 해당 과정에서 특징부(feature)가 분류 모델에 얼마나 중요한지를 판단하기 위하여 SVM 모델을 이용하여 분류 모델을 학습하고 구축된 모델과의 연관성이 낮은 특징부(feature)를 제거하였다.

2. 검증(validation) 과정을 수행하였다.

3. 1,500개 미만의 특징부(feature)가 남을 때까지 위 과정을 반복하여 분류 모델을 디자인하고, 특징부 세트(feature set)를 선별하였다. 그 결과 하나의 분류 모델과 1,500개 미만의 특징부(features)로 구성된 세트를 설정하였다.

4. 이렇게 얻은 1,500여개의 특징부(features)를 대상으로 SVM의 parameter 옵션 값을 조정하여 좀 더 정확도가 높은 모델로 튜닝 과정을 거쳐 하나의 분류 모델기를 완성하였다.

도 2에 나타난 바와 같이, 앞의 1~4 과정을 반복하여 서로 다른 특징부 세트(feature set)을 갖는 20개의 분류 모델을 구축하였다. 구축한 20개의 모델 중 검증을 통하여 정밀도(accuracy)가 0.8이상인 16개 모델을 선별하였으며, 16개 모델 모두에서 공통적으로 포함되어 있는 203개의 특징유전자(feature genes)를 선별하였다.

실시예 3: 비알콜성지방간염 진단용 바이오마커 선별

지방간 환자 그룹과 비알콜성지방간염 환자 그룹에서 상기 실시예 1에서 특이적으로 선별된 1,393개의 유전자와 상기 실시예 2에서 특징 선별(feature selection) 과정을 통해 선별된 203개의 유전자를 비교하여 상기 두 그룹을 구분할 수 있는 64개의 특징유전자(feature genes)를 선벌하였다(도 3). 선별된 64개의 특징유전자들 중에서 최소한의 유전자로 두 그룹을 구분할 수 있는 가장 효율전인 유전자 세트를 선별하기 위해, 통계 기반의 분류 모델인 선형 회귀 모델(linear regression model)을 이용하여 가장 적합한 유전자 세트를 선별하였다. 먼저 각각의 유전자를 하나의 선형 회귀 모델에 적용하여 정밀도(accuracy)를 산출하였을 때, 가장 정밀도(accuracy)가 높은 유전자를 선별하고, 해당 유전자와 나머지 유전자들을 하나하나 매칭시켜 2개의 유전자를 하나의 세트로 적용하여 정밀도(accuracy)를 산출하고, 그 중 가장 높은 정밀도(accuracy)를 갖는 세트를 선별하는 방식으로 유전자 세트를 선별하였다. 또한 상기의 방법으로 반복적으로 선별되지 않은 유전자를 선별된 유전자 세트에 추가하여 특징 유전자 세트를 추가하기에 가장 적합한 유전자를 선별하는 과정을 수행하였다.

NO.	유전자명	정밀도	NO.	유전자명	정밀도	NO.	유전자명	정밀도
1	CAPG	0.82	23	BCAT1	0.714	45	RGS2	0.639
2	MCM6	0.812	24	CCND1	0.714	46	RGS5	0.639
3	AJUBA	0.797	25	CEBPD	0.714	47	SERPINA3	0.639
4	CLDN7	0.797	26	JUNB	0.714	48	CLDN4	0.632
5	HS3ST2	0.797	27	WIPI1	0.714	49	LINC00939	0.632
6	NALCN	0.789	28	LHFPL2	0.699	50	LOC730101	0.632
7	ABCC4	0.774	29	CEBPB	0.692	51	ZBTB16	0.632
8	MCM2	0.774	30	CILP	0.692	52	ANKRD36BP2	0.624
9	GPNMB	0.767	31	NR0B2	0.684	53	KCNK5	0.624
10	TM4SF19	0.767	32	RORAAS1	0.684	54	PPP1R1A	0.624
11	LOC101928304	0.759	33	DNAJC12	0.677	55	MAGOH2P	0.617
12	PLA2G7	0.759	34	MEOX2	0.677	56	TIMD4	0.617
13	TREM2	0.759	35	RNASE6	0.669	57	USP43	0.617
14	DHRS9	0.752	36	GUCA2B	0.662	58	FCGR2C	0.609
15	FABP5	0.752	37	HIST1H4L	0.662	59	GNAO1	0.594
16	HYAL3	0.752	38	ERRFI1	0.654	60	HSPA7	0.594
17	SPP1	0.752	39	GPC4	0.654	61	POU6F2	0.594
18	LPL	0.744	40	HNRNPA1P33	0.654	62	TSC22D3	0.594
19	ANXA2	0.737	41	JUN	0.654	63	C1QC	0.549
20	FABP4	0.729	42	LOC727896	0.654	64	KLHL41	0.549
21	LGALS3	0.729	43	SFRP5	0.654
22	FXYD2	0.722	44	ZFP36	0.654

상기 표 1 및 도 4에 나타난 바와 같이, CAPG가 가장 높은 정밀도(accuracy) 값을 나타냈으며, 그 다음으로는 MCM6, AJUBA, CLDN7등으로 확인되었다. CAPG와 함께 선형 회귀 모델에서 특징부로 사용되었을 때, 정밀도가 가장 높은 유전자 세트를 하기 표 2와 같이 선별하였다. 이후 다른 유전자를 추가하여 반복적으로 가장 높은 유전자 세트를 하기 표 3과 같이 CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6 유전자 세트를 선별하고, 정밀도(accuracy) 값이 0.955로 가장 높게 나타나는 것을 확인하였다. 이후 8개의 유전자까지 특징부를 늘려 최적의 유전자 세트를 하기 표 4와 같이 선별하여 정밀도(accuracy) 값이 변화하지 않는 것을 확인하였다.

NO.	유전자 세트	정밀도	NO.	유전자 세트	정밀도
1	CAPG+HYAL3	0.887	33	CAPG+SFRP5	0.82
2	CAPG+AJUBA	0.872	34	CAPG+SPP1	0.82
3	CAPG+JUN	0.865	35	CAPG+TIMD4	0.82
4	CAPG+MCM6	0.865	36	CAPG+ABCC4	0.812
5	CAPG+RGS2	0.865	37	CAPG+CLDN4	0.812
6	CAPG+JUNB	0.857	38	CAPG+CLDN7	0.812
7	CAPG+CEBPD	0.85	39	CAPG+GPNMB	0.812
8	CAPG+CCND1	0.842	40	CAPG+KCNK5	0.812
9	CAPG+LOC727896	0.842	41	CAPG+LHFPL2	0.812
10	CAPG+MCM2	0.842	42	CAPG+LINC00939	0.812
11	CAPG+RORAAS1	0.842	43	CAPG+LOC730101	0.812
12	CAPG+HS3ST2	0.835	44	CAPG+NALCN	0.812
13	CAPG+SERPINA3	0.835	45	CAPG+PLA2G7	0.812
14	CAPG+ZFP36	0.835	46	CAPG+TREM2	0.812
15	CAPG+CILP	0.827	47	CAPG+USP43	0.812
16	CAPG+ERRFI1	0.827	48	CAPG+ANKRD36BP2	0.805
17	CAPG+FABP5	0.827	49	CAPG+BCAT1	0.805
18	CAPG+GUCA2B	0.827	50	CAPG+DNAJC12	0.805
19	CAPG+LGALS3	0.827	51	CAPG+FCGR2C	0.805
20	CAPG+POU6F2	0.827	52	CAPG+GNAO1	0.805
21	CAPG+PPP1R1A	0.827	53	CAPG+GPC4	0.805
22	CAPG+WIPI1	0.827	54	CAPG+HIST1H4L	0.805
23	CAPG+ZBTB16	0.827	55	CAPG+LOC101928304	0.805
24	CAPG+ANXA2	0.82	56	CAPG+NR0B2	0.805
25	CAPG+C1QC	0.82	57	CAPG+RGS5	0.805
26	CAPG+DHRS9	0.82	58	CAPG+RNASE6	0.805
27	CAPG+FABP4	0.82	59	CAPG+TM4SF19	0.797
28	CAPG+HSPA7	0.82	60	CAPG+FXYD2	0.789
29	CAPG+KLHL41	0.82	61	CAPG+HNRNPA1P33	0.789
30	CAPG+LPL	0.82	62	CAPG+TSC22D3	0.789
31	CAPG+MAGOH2P	0.82	63	CAPG+CEBPB	0.782
32	CAPG+MEOX2	0.82

유전자 수	유전자 세트	정밀도
1	CAPG	0.820
2	CAPG+HYAL3	0.887
3	CAPG+HYAL3+WIPI1	0.902
4	CAPG+HYAL3+WIPI1+TREM2	0.932
5	CAPG+HYAL3+WIPI1+TREM2+SPP1	0.940
6	CAPG+HYAL3+WIPI1+TREM2+SPP1+RNASE6	0.955

유전자 수	유전자 세트	정밀도
6	CAPG+HYAL3+WIPI1+TREM2+SPP1+RNASE6	0.9549
7	CAPG+HYAL3+WIPI1+TREM2+SPP1+RNASE6+BCAT1	0.9549
7	CAPG+HYAL3+WIPI1+TREM2+SPP1+RNASE6+FABP5	0.9549
7	CAPG+HYAL3+WIPI1+TREM2+SPP1+RNASE6+HIST1H4L	0.9549
7	CAPG+HYAL3+WIPI1+TREM2+SPP1+RNASE6+HSPA7	0.9549
7	CAPG+HYAL3+WIPI1+TREM2+SPP1+RNASE6+LOC730101	0.9549
7	CAPG+HYAL3+WIPI1+TREM2+SPP1+RNASE6+MCM2	0.9549
7	CAPG+HYAL3+WIPI1+TREM2+SPP1+RNASE6+MEOX2	0.9549
7	CAPG+HYAL3+WIPI1+TREM2+SPP1+RNASE6+RGS5	0.9549
7	CAPG+HYAL3+WIPI1+TREM2+SPP1+RNASE6+SFRP5	0.9549
8	CAPG+HYAL3+WIPI1+TREM2+SPP1+RNASE6+SFRP5+BCAT1	0.9549
8	CAPG+HYAL3+WIPI1+TREM2+SPP1+RNASE6+SFRP5+FABP5	0.9549
8	CAPG+HYAL3+WIPI1+TREM2+SPP1+RNASE6+SFRP5+HIST1H4L	0.9549

상기 결과는 도 5에 나타난 바와 같이, CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6의 6개의 유전자 세트가 가장 최소의 유전자수로 가장 최대의 효율로 비알콜성지방간염 환자 그룹을 분류하는 것을 입증한다.

실시예 4: 임상 모델에 적용

상기 선별된 CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6의 6개의 유전자 세트가 알콜성지방간염 환자 그룹을 분류하기 적합한 바이오마커임을 확인하기 위해, 샘플링 데이터 및 다른 환자군 데이터 세트에서도 효율적인지 확인하였다. 미국립보건원 내의 데이터 센터(GEO; https://www.ncbi.nlm.nih.gov/geo/)를 통하여 공개된 데이터 중, 지방간과 비알코올성지방간염 데이터가 구분된 세트 GSE135251 (GEO data link; https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE135251; pubmed paper link; https://pubmed.ncbi.nlm.nih.gov/33762733/)을 활용하으며, GSE135251의 샘플의 세부 단계 정보는 하기 표 5와 같다.

분류군	단계	샘플수
정상(control)		10
지방간(NAFL)		51
비알코올성지방간염(NASH)	F0-F1	34
	F2	53
	F3	54
	F4	14
전체		216

선별된 CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6의 6개의 유전자 세트를 이용하여 선형 회귀 모델을 구형하였을 때에, 하기 표 6와 같이 각 질환이 분류되는 것을 확인하였다. 지방간과 비알코올성지방간염의 단계를 구분하는 정확도는 0.77로 나타났으며, 정상 대비 지방간, 비알코올성지방간염을 모두 포함한 간질환 환자를 구분하였을 때의 정확도는 0.954로 상당히 높은 수준으로 나타났다. 특히, 정상과 비알코올성지방간염을 구분하는 데에 있어서는 정확도가 0.967로 높은 정확도를 나타냈다.

	ACC
지방간 vs 지방간염	0.772
정상 vs 간질환	0.954
정상 vs 지방간	0.869
정상 vs 지방간염	0.967

실시예 5: 임상 환자에 적용

상기 선별된 CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6의 6개의 유전자들이 실제 임상환자에게서 발현이 유의미하게 차이가 나는 지 검증하기 위해, 환자군의 시료로 qPCR을 수행하고 그 결과를 통계적으로 검증했다. Steatosis 환자 43명과 NASH 환자 57명의 실험 결과로 t-test를 수행하였을 때, 하기 표 7과 같은 결과가 도출되어 대부분의 유전자들이 통계적으로 유의하게 두 환자군에서 발현 차이가 나는 것을 검증했다. (WIPI1과 RNASE6의 경우에는 p-value가 0.05보다 약간 높으나 이는 검증 환자군 수가 상대적으로 적은 것에 기인하여, 검증대상을 늘릴 경우 통계적으로 유의하게 될 것으로 보인다)

	CAPG	HYAL3	WIPI1	TREM2	SPP1	RNASE6
p-value (Steatosis vs NASH)	0.00146	0.000077	0.06500	0.00086	0.00096	0.05868

이상으로 본 발명 내용의 특정한 부분을 상세히 기술하였는 바, 당업계의 통상의 지식을 가진 자에게 있어서, 이러한 구체적 기술은 단지 바람직한 실시양태일 뿐이며, 이에 의해 본 발명의 범위가 제한되는 것이 아닌 점은 명백하다. 즉, 본 발명의 실질적인 범위는 첨부된 청구항들과 그것들의 등가물에 의하여 정의된다.

Claims

CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6으로 이루어진 군에서 선택된 어느 하나 이상의 단백질 또는 이를 코딩하는 유전자를 유효성분으로 포함하는 만성간질환 진단용 바이오마커 조성물.
CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6으로 이루어진 군에서 선택된 어느 하나 이상의 단백질 또는 이를 코딩하는 유전자의 발현 수준을 측정할 수 있는 제제를 유효성분으로 포함하는 만성간질환 진단용 조성물.
제2항에 있어서, 상기 단백질의 발현 수준을 측정할 수 있는 제제는 단백질에 특이적으로 결합하는 항체, 펩타이드, 앱타머 또는 화합물, 상기 유전자의 발현 수준을 측정할 수 있는 제제는 유전자에 특이적으로 결합하는 프라이머 또는 프로브인 것을 특징으로 하는 만성간질환 진단용 조성물.
제2항에 있어서, 상기 만성간질환은 지방간 또는 비알코올성지방간염인 것을 특징으로 하는 만성간질환 진단용 조성물.
제4항에 있어서, 상기 비알코올성 지방간염은 F3 및 F4 단계인 것을 특징으로 하는 만성간질환 진단용 조성물.
제1항의 조성물을 포함하는 만성간질환 진단용 키트.
(a) 만성간질환 환자에서 분리된 시료로부터 CAPG, HYAL3, WIPI1, TREM2, SPP1, 및 RNASE6으로 이루어진 군에서 선택된 어느 하나 이상의 단백질의 발현 수준 또는 이를 코딩하는 유전자의 mRNA 발현 수준을 측정하는 단계;

(b) 상기 단백질의 발현 수준 또는 이를 코딩하는 유전자의 mRNA 발현 수준을 대조군 시료와 비교하는 단계; 및

(c) 상기 단백질의 발현 수준 또는 이를 코딩하는 유전자의 mRNA 발현 수준이 대조군 시료보다 높은 경우, 만성간질환으로 진단될 가능성이 높은 것으로 판단하는 단계를 포함하는 만성간질환 진단을 위한 정보 제공 방법.