KR102490338B1 - 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법 - Google Patents

질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법 Download PDF

Info

Publication number
KR102490338B1
KR102490338B1 KR1020210038389A KR20210038389A KR102490338B1 KR 102490338 B1 KR102490338 B1 KR 102490338B1 KR 1020210038389 A KR1020210038389 A KR 1020210038389A KR 20210038389 A KR20210038389 A KR 20210038389A KR 102490338 B1 KR102490338 B1 KR 102490338B1
Authority
KR
South Korea
Prior art keywords
gene
new drug
analyzing
drug target
disease
Prior art date
Application number
KR1020210038389A
Other languages
English (en)
Other versions
KR20210119334A (ko
Inventor
최철수
오현희
정성원
Original Assignee
(의료)길의료재단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (의료)길의료재단 filed Critical (의료)길의료재단
Publication of KR20210119334A publication Critical patent/KR20210119334A/ko
Application granted granted Critical
Publication of KR102490338B1 publication Critical patent/KR102490338B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

본 발명은 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법에 관한 것으로, 본 발명은 신약개발의 단계 중 혁신신약 타겟 발굴에 특화되어 있으며, 질환탐색이 이루어져야 하는 타겟 발굴 단계에서 다양한 질병의 원인 유전자를 발굴하고, 해당 유전자의 약물학적 조절 가능성을 평가할 수 있는 새로운 방법을 제공하며, 본 발명은 신약개발 단계에서 비용절감 및 기간 단축, 임상 성공률을 높일 수 있는 효과를 가진다. 또한 본 발명은 글로벌신약, first in class 신약을 개발에 필요한 unmet need를 극복하는 국내외 유일의 타겟 발굴 플랫폼으로서의 중요한 의의를 가진다.

Description

질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법{METHOD FOR PREDICTION OF DRUG TARGET GENE FOR TREATING AND PREVENTING DISEASES}
본 발명은 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법에 관한 것이다.
신약은 개발에 성공하기만 하면 특허의 보호 하에서 수십 년간 전 세계 시장에 독점 판매가 가능하여 단일 제품으로 막대한 이익을 창출해 낼 수 있다. 그러나 이러한 막대한 이익을 창출해 낼 수 있는 신약이 탄생하기까지는 수조 원의 비용이 필요하며, 장기간의 개발 연구 기간이 소요된다는 점에서 많은 제약회사가 어려움을 겪고 있다.
현재 글로벌 의약품 시장은 지금 초기 단계 파이프라인의 고갈 위기로 이를 돌파하기 위하여 글로벌 제약사는 혁신 신약, 신약개발 프로세스 개선 및 가치의 극대화를 위한 혁신?융합형 플랫폼 기술개발을 위한 투자를 지속하고 있다.
국내의 경우 규제강화, 정부의 지속적인 약값 인하 등의 정책으로 제네릭 중심 제약사업이 한계점에 도달하고 있어 글로벌 수준의 혁신 신약 파이프라인의 양적/질적 확보를 위한 R&D 가속화가 요구되고 있다.
일반적으로 신약 개발은 타겟 및 후보물질 탐색(Discovery and Development), 비임상시험(Preclinical Research), 임상시험(Clinical Research), NDA FDA Review, 판매 및 판매 후 임상 FDA Post-Market Safety Monitoring의 5단계로 이루진다.
신약 개발의 첫 번째 단계인 후보물질 탐색과정은 질환을 일으키는 원인을 분석하고 약의 작용점인 타겟(target)을 정하는 것이다. 여기서 어떠한 타겟과 효과적인 후보물질은 선택하는지에 따라서 신약 개발 비용과 시간이 결정된다.
특히 타겟 발굴 영역은 질환에 대한 이해와 전문성이 요구되는 단계로, 현재까지 인공지능을 활용한 신약개발 타겟 발굴은 글로벌 제약사도 M&A 영역으로 남겨두고 있고, 인공지능 관련 기업도 접근이 용이하지 않다.
따라서, 최근 신규 타겟 발굴, 약물 가상 탐색, 신약 재창출(Drug Repositioning), 독성 및 부작용 예측, 약물 기전(drug mode-of-action), 정밀의료를 위한 환자 세분화(patient stratification) 등 신약 개발의 전 과정에 걸쳐 바이오 빅데이터 분석 및 인공지능 기술을 도입하려는 시도가 계속되고 있다.
대한민국 공개특허 제10-2018-0058648호
이에 본 발명자는 빅데이터를 활용하여 혁신신약 타겟(후보 유전자) 발굴하고 특정 질병과의 연계성 및 지식 기반의 약물화 가능성을 예측할 수 있는 신약 타겟 유전자 예측 방법을 개발하였으며, 본 명세서를 통하여 구체적으로 개시된다.
상기 기술적 과제를 해결하고자, 본 발명의 일 실시예에 따르면, 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법을 제공하며, 상기 방법은
(1) 유전자 결손 마우스의 표현형을 분석하여 타겟 유전자를 선별하는 단계;
(2) 하기의 비순차적인 단계에 의하여 상기 선별된 유전자에 대한 신약 타겟으로서의 가능성을 평가하는 단계;
- 상기 선별된 유전자와 질병과의 관련성을 분석하는 단계;
- 상기 선별된 유전자로부터 코딩되는 단백질의 표적 약물 개발 동향을 분석하는 단계;
- 상기 선별된 유전자로부터 코딩되는 단백질의 생물학적 활성을 분석하는 단계;
- 인간에서 상기 선별된 유전자의 발현 양상을 분석하는 단계;
- 상기 선별된 유전자와 관련된 문헌 정보를 분석하는 단계;
- 상기 선별된 유전자 결손시 나타나는 부작용을 분석하는 단계;및
(3) 상기 평가 결과를 종합하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따르면, 상기 단계 (1)의 타겟 유전자를 선별하는 단계는 국제 마우스 표현형 컨소시엄 데이터베이스로부터 정성적 또는 정량적 표현형의 변화가 p<0.0001 또는 %change>10%인 유전자를 선별하는 단계를 포함할 수 있으나, 이에 제한되지 않는다.
본 발명의 일 실시예에 따르면, 상기 질병과의 관련성은 마우스 게놈 정보학 또는 오픈 타깃 플랫폼 데이터베이스로부터 선별한 질병 관련 용어를 이용하여 평가할 수 있으나, 이에 제한되지 않는다.
본 발명의 일 실시예에 따르면, 상기 선별된 유전자로부터 코딩되는 단백질의 표적 약물 개발 동향을 분석하는 단계는 표적 약물의 후보물질 개수, 관련 문헌의 기록생성일, 물질의 종류, 관련 적응증 또는 임상개발단계 항목에 의하여 평가하는 단계를 포함할 수 있으나, 이에 제한되지 않는다.
본 발명의 일 실시예에 따르면, 상기 선별된 유전자로부터 코딩되는 단백질의 생물학적 활성을 분석하는 단계는 상기 선별된 유전자로부터 코딩되는 단백질의 기능이 알려져 있는지 여부, 해당 단백질이 포함되어 있는 스트링 네트워크의 유무 및 해당 단백질의 상위 또는 하위 신호 전달 물질과의 신호전달경로의 유무 항목에 의하여 평가하는 단계를 포함할 수 있으나, 이에 제한되지 않는다.
본 발명의 일 실시예에 따르면, 인간에서 상기 선별된 유전자의 발현 양상을 분석하는 단계는 인간에서 발현되는 조직의 종류 및 발현 산물에 의하여 평가하는 단계를 포함할 수 있으나, 이에 제한되지 않는다.
본 발명의 일 실시예에 따르면, 상기 선별된 유전자와 관련된 문헌 정보를 분석하는 단계는 관련 문헌의 개수, 발행 연도, 생물학 관련성 및 피인용 지수(impact factor) 항목에 의하여 평가하는 단계를 포함할 수 있으나, 이에 제한되지 않는다.
본 발명의 일 실시예에 따르면, 상기 선별된 유전자 결손시 나타나는 부작용을 분석하는 단계는 상기 유전자 결손 마우스 표현형 정보로부터 심혈관계, 호흡기계, 중추신경계의 기능적 표현형 및 발암성 관련성 존재 유무에 의하여 평가하는 단계를 포함할 수 있으나, 이에 제한되지 않는다.
본 발명의 일 실시예에 따르면, 상기 선별된 유전자에 대한 신약 타겟으로서의 가능성을 평가하는 단계는 상기 선별된 유전자의 임상 유용성 및 임상 유전체를 분석하는 단계를 더 포함할 수 있으나, 이에 제한되지 않는다.
본 발명의 일 실시예에 따르면, 상기 선별된 유전자의 임상 유용성 분석 단계는 환자의 조직에서 유전자 발형 양상과 마우스 표현형 개수에 의하여 평가하는 단계를 포함할 수 있으나, 이에 제한되지 않는다.
본 발명의 일 실시예에 따르면, 상기 선별된 유전자의 임상 유전체 분석 단계는 데이터베이스에서 제공하는 단일염기이형성(Single nucleotide polymorphism; SNP)과 사람의 표현형의 관련성을 분석하는 단계를 포함할 수 있으나, 이에 제한되지 않는다.
본 발명의 일 실시예에 따르면, 상기 평가 결과를 종합하는 단계는 상기 단계 (2)의 각 단계에 의하여 평가된 점수를 모두 합하여 최종 점수를 도출하는 단계를 포함할 수 있으나, 이에 제한되지 않는다.
본 발명의 일 실시예에 따르면, 상기 질병은 대사질환일 수 있으나, 이에 제한되지 않는다.
본 발명은 신약개발의 단계 중 혁신신약 타겟 발굴에 특화되어 있으며, 질환탐색이 이루어져야 하는 타겟 발굴 단계에서 다양한 질병의 원인 유전자를 발굴하고, 해당 유전자의 약물학적 조절 가능성을 평가할 수 있는 새로운 방법을 제공하며, 본 발명은 신약개발 단계에서 비용절감 및 기간 단축, 임상 성공률을 높일 수 있는 효과를 가진다. 또한 본 발명은 글로벌신약, first in class 신약을 개발에 필요한 unmet need를 극복하는 국내외 유일의 타겟 발굴 플랫폼으로서의 중요한 의의를 가진다.
도 1은 본 발명의 대사질환 신약 타겟 유전자 예측 방법의 순서도를 개략적으로 나타내는 그림이다.
도 2는 IMPC 10.1 및 MGI 6.14에서 추출한 KO마우스 유전자를 나타내는 그림이다.
도 3은 대사성 표현형 용어집을 이용하여 대사성 유전자를 선발한 결과를 나타내는 그림이다.
도 4는 안전성 약리 부작용이 없는 대사성 유전자를 선발한 결과를 나타내는 그림이다.
도 5는 코딩된 단백질의 종류와 허가된 의약품의 표적 단백질 종류의 비교한 결과를 나타낸 그림이다.
도 6 및 도 7은 대사성 표현형을 유도하는 유전자의 정성적 분석 결과를 나타내는 그래프이다.
도 8은 유전자의 기능, 참여 네트워크 및 신호전달 경로의 주석을 분석한 결과를 나타내는 그림이다.
도 9는 자연어 처리 기반의 유전자-질환 상관성 분석 결과를 나타내는 그래프이다.
도 10은 대사성 유전자의 약물 개발 동향 분석 결과를 나타내는 그래프이다.
도 11은 대사질환 환자의 조직에서 대사성 유전자의 발현 값을 나타내는 그림이다.
도 12는 대사성 유전자의 사람 전장유전체 결과와의 비교 분석 결과를 나타내는 그래프이다.
본 발명은 유전자 결손 마우스의 표현형을 분석하여 질병과 관련된 표현형 변화가 인정되는 유전자를 선별하는 단계를 포함하는 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법을 제공한다.
상기 신약 타겟 유전자 예측 방법은 유전자 결손 마우스의 표현형을 분석하여 타겟 유전자를 선별하는 단계를 포함한다.
이후 상기 선별된 유전자와 질병과의 관련성을 분석하는 단계; 상기 선별된 유전자로부터 코딩되는 단백질의 표적 약물 개발 동향을 분석하는 단계; 상기 선별된 유전자로부터 코딩되는 단백질의 생물학적 활성을 분석하는 단계; 인간에서 상기 선별된 유전자의 발현 양상을 분석하는 단계; 상기 선별된 유전자와 관련된 문헌 정보를 분석하는 단계; 상기 선별된 유전자 결손시 나타나는 부작용을 분석하는 단계에 의하여 신약 타겟으로서의 가능성을 평가한다.
상기 유전자 결손 마우스의 표현형을 분석 단계는 국제 마우스 표현형 컨소시엄(IMPC, International Mouse Phenotyping Consortium), 마우스 게놈 정보학(MGI, Mouse Genome Informatics) 또는 오픈 타깃 플랫폼(OTP, Open target platform)의 데이터베이스를 이용하여 수행될 수 있으나, 이에 한정되는 것은 아니다.
상기 유전자 결손 마우스의 표현형을 분석 단계는 상기 국제 마우스 표현형 컨소시엄(IMPC) 및 마우스 게놈 정보학(MGI) 데이터베이스로부터 정성적 또는 정량적 표현형의 변화가 p<0.0001 또는 %change>10%인 유전자를 선별하였다.
상기 선별된 유전자에 대하여 질병과의 관련성을 평가할 수 있으며, 이는 포유류의 표현형 용어집(Mammalian phenotype terms)을 참고하여 마우스 게놈 정보학 또는 오픈 타깃 플랫폼 데이터베이스에서 선별한 대사성 표현형 용어(Metabolic term)의 개수, 분류, 방향성 등을 이용하여 평가할 수 있다.
구체적으로 첫 번째로 임상적으로 의의가 높은 285개의 대사 용어(Metabolic term)를 결정하고, 임상에서 질환 개념으로 체조성(Body composition), 포도당 항상성(Glucose homeostasis), 이상지질혈증(Dyslipidemia), 비알콜성지방간증(Non-alcoholic fatty liver disease; NAFLD)과 같이 4개의 카테고리(Category)로 분류한 후, 상기 대사 용어(Metabolic term)와 카테고리를 많이 포함하는 것부터 순서대로 나열하고 1순위에 100점, 최하순위에 1점을 부여하고 전체 순위에 균등하게 점수를 구간화하였다(Score-1).
두 번째로 결정된 285개의 대사성 표현형 용어는 (1) 질병의 극복 또는 대사기능의 개선과 (2) 질병의 악화 또는 대사기능의 저하와 같이 2가지 방향으로 구분하여 방향성으로 정의하였다. 방향성은 상기 선별된 유전자와 질병과의 관련성을 이해하고, 그 결과에 따라 치료제 개발 전략에서 길항제(antagonist) 또는 작용제(agonist)에 개발에 대한 결정할 수 있는 정보를 제공하기 때문에 2가지 방향 중 어느 한쪽으로 편중되는 경우 높은 점수로 평가되도록 순위를 부여하였다. 방향성(
Figure 112022098699111-pat00026
), 방향성의 교란 값을 보완하기 위한 보완 값(complication score)(
Figure 112022098699111-pat00027
), 방향성의 합(
Figure 112022098699111-pat00028
)을 통계적 구간화를 통해 구간화하여 평가(Score-2) 한 후, 점수는 66% Score-1 + 34% Score-2로 계산하여 평가하는 것을 특징으로 한다.
구체적으로 선별된 유전자와 관련된 285개의 대사성 표현형 용어 중 질병의 극복 또는 대사기능의 개선에 해당하는 용어를 선별하고, 그 용어의 개수를 X1으로 정의하였다.
또한 선별된 유전자와 관련된 285개의 대사성 표현형 용어 중 질병의 악화 또는 대사기능의 저하에 해당하는 용어를 선별하고, 그 용어의 개수를 X2로 정의하였다.
상기 정의된 X1 및 X2의 방향성 값, 보완 값 및 방향성의 합을 계산하고, 방향성의 값은 71 이상; 51 ~ 71; 34 ~ 50; 26 ~ 33; 1 ~ 25로 구분하여 우선순위를 부여하였으며, 각각의 구간을 다시 보완 값이 0, 1, 2, 3, 4 이상으로 재분류하여 우선순위를 부여하였다. 또한 상기 재분류된 구간을 다시 방향성의 합이 7 이상, 5 ~ 7, 4, 3, 2로 재분류하고 우선순위를 부여하고, 최종적으로 방향성의 값이 71 이상이고 보완 값이 0이고 방향성의 합이 7 이상인 경우를 1순위로 지정하고 최하 순위(방향성의 값이 1 ~ 25이고 보완 값이 4이고 방향성의 합이 2)까지 순서대로 순위를 나열하였다. 그리고 1순위에 100점, 최하순위에 1점을 부여하고 전체 순위에 균등하게 점수를 구간화하였다.
상기 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법은 상기 선별된 유전자로부터 코딩되는 단백질의 표적 약물 개발 동향을 분석하는 단계를 포함할 수 있다.
상기 선별된 유전자로부터 코딩되는 단백질의 표적 약물 개발 동향을 분석하는 단계는 인테그리티 분석 도구(https://integrity.clarivate.com/integrity/xmlxsl)의 데이터베이스로부터 수행될 수 있으나, 이에 한정되는 것은 아니다.
상기 선별된 유전자로부터 코딩되는 단백질의 표적 약물 개발 동향을 분석하는 단계는 상기 선별된 유전자로부터 코딩되는 단백질에 대한 표적 약물의 후보물질 개수, 관련 문헌의 기록생성일, 물질의 종류, 관련 적응증 또는 임상개발단계 항목에 의하여 평가하는 것을 특징으로 한다.
상기 선별된 유전자로부터 코딩되는 단백질의 표적 약물 개발 동향은 [표 1]과 같이 분류하고 평가하였다.
순위 후보물질 개수 기록생성일 물질의 종류 적응증 개발단계
1 N > 0 YR < 10 Small molecule Non-metabolic Preclinical
2 N > 0 YR < 10 Biologics Metabolic Preclinical
3 N > 0 YR < 10 Small molecule Non-metabolic Clinical
4 N = 0 N/D N/D N/D N/D
5 N > 0 YR < 10 Small molecule Metabolic Preclinical
6 N > 0 YR < 10 Biologics Metabolic Preclinical
7 N > 0 YR < 10 Biologics Metabolic Clinical
8 N > 0 YR >= 10 Small molecule Non-metabolic Preclinical
9 N > 0 YR >= 10 Biologics Non-metabolic Preclinical
10 N > 0 YR >= 10 Biologics Metabolic Preclinical
11 N > 0 YR >= 10 Small molecule Metabolic Preclinical
12 N > 0 YR >= 10 Biologics Non-metabolic Clinical
13 N > 0 YR >= 10 Small molecule Metabolic Clinical
* N/A: 정보 없음, YR = year, Small molecule = 저분자화합물, Biologics = 생물학적 제제, Metabolic = 대사질환 적응증, Non-metabolic = 비대사질환 적응증, Preclinical = 전임상개발단계, Clinical = 임상개발단계
구체적으로 관련 문헌의 기록생성일은 기록생성일로부터 평가 시점까지의 기간을 10년 이상 및 10년 미만으로 분류하고, 기록생성일이 짧은 유전자에 대하여 높은 점수를 부여할 수 있다.
상기 물질의 종류는 저분자 합성 화합물 및 생물학적 제제로 분류하였으며, 구체적으로 상기 저분자 합성 화합물은 화학합성에 의해 만들어지는 저분자량(대략 분자량 1,000 이하)의 화합물을 지칭하고, 생물학적 제제는 일명 바이오의약품으로 유전자 재조합에 의해 제조된 재조합 단백질, 백신, 진단 및 항체의약품 등을 포함하며, 세포배양 같은 생물공정을 이용하여 제조될 수 있는 제제를 의미한다.
상기 적응증은 비만 및 당뇨를 포함하는 대사질환 적응증 및 비만 및 당뇨를 제외한 비대사질환 적응증으로 분류하고, 임상개발단계는 전임상개발단계 및 임상개발단계로 분류할 수 있으나 이에 제한되는 것은 아니다.
후보물질 개수가 존재하고, 관련 문헌의 기록생성일이 10년 미만이고, 비대사질환 적용증과 관련된 경우와 현재 임상개발단계가 전임상단계인 경우에 가장 높은 점수를 부여할 수 있다.
선별된 유전자로부터 코딩되는 단백질의 표적 약물 개발 동향이 존재하지 않는 경우(N=0)에는 오히려 신약으로 개발될 가능성이 큰 것으로 판단되어 상대적으로 높은 점수를 부여할 수 있다.
따라서 상기 [표 1]과 같이 순위를 부여하고 1순위에 100점, 최하순위에 1점을 부여하고 전체 순위에 균등하게 점수를 구간화하였다.
상기 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법은 상기 선별된 유전자로부터 코딩되는 단백질의 생물학적 활성을 분석하는 단계를 더 포함할 수 있다.
상기 선별된 유전자로부터 코딩되는 단백질의 기능, 세포 내 네트워크 및 신호 전달 경로를 분석하는 단계는 KEGG pathway(https://www.genome.jp/kegg/pathway.html), 유니프로트(UniProt, https://www.uniprot.org/), 메타코어(MetaCore. https://portal.genego.com/) 또는 스트링(String, https://string-db.org/)의 데이터베이스로부터 수행될 수 있으나, 이에 한정되는 것은 아니다.
구체적으로, 상기 선별된 유전자로부터 코딩되는 단백질의 생물학적 활성을 분석하는 단계는 상기 선별된 유전자로부터 코딩되는 단백질의 기능이 알려져 있는지 여부, 해당 단백질이 포함되어 있는 스트링 네트워크의 유무, 해당 단백질의 상위 또는 하위 신호 전달 물질과의 신호전달경로의 유무 항목에 의하여 평가하는 것을 특징으로 한다.
상기 선별된 유전자로부터 코딩되는 단백질의 신호 전달 경로는 [표 2]와 같이 분류하고 평가하였다.
선별된 유전자로부터 코딩되는 단백질의 기능은 해당 유전자로부터 코딩되는 단백질에 관련된 기능이 논문에 의한 공개 유무에 따라 분류하였다.
스트링이란 예측되거나 잘 알려진 Protein-Protein 상호작용에 대한 정보를 담고 있는 database로, 선별된 유전자로부터 코딩되는 단백질이 포함되어 있는 스트링 네트워크가 존재하는지 여부에 따라 분류하였다.
신호전달이란 신호전달물질이 수용체에 결합하여 2차 신호전달물질, 예를 들어 아미노산, 펩티드, 단백질, 지방산, 지질, 뉴클레오티드 등을 발생시켜 세포의 활동을 조절하는 방법을 의미하며, 선별된 유전자로부터 코딩되는 단백질의 상위 또는 하위 신호 전달 물질에 대한 효과가 특정되었는지 여부에 따라 분류하였다.
상기 기능, 스트링 네트워크 및 신호전달경로가 모두 밝혀져 있는 경우 가장 높은 점수를 부여하였으며, 기능, 스트링 네트워크 및 신호전달경로 순서로 가중치를 높게 부여하여 8개의 카테고리에 순위를 지정하였다. 예를 들어 스트링 네트워크 및 신호전달경로가 밝혀져 있는 유전자의 경우 기능 및 스트링 네트워크가 밝혀져 있는 유전자보다 신약 타겟으로서의 가능성을 높게 평가 하였다.
따라서 기능, 스트링 네트워크 및 신호전달경로가 모두 밝혀져 있는 경우 1순위로 지정하고 최하 순위(기능, 스트링 네트워크 및 신호전달경로가 모두 밝혀지지 않은 경우)까지 순서대로 순위를 지정하였다. 그리고 1순위에 100점, 최하순위에 1점을 부여하고 전체 순위에 균등하게 점수를 구간화하였다.
상기 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법은 인간과 전임상 검증을 위하여 마우스에서 상기 선별된 유전자의 발현 양상을 분석하는 단계를 더 포함할 수 있다.
상기 선별된 유전자의 발현 양상을 분석하는 단계는 사람 유전자는 지텍스 포탈(Gtex portal, https://gtexportal.org/home/), 마우스 유전자는 바이오지피에스(http://biogps.org/#goto=welcome), 사람 단백질 아틀라스(https://www.proteinatlas.org/)의 데이터베이스로부터 수행될 수 있으나, 이에 한정되는 것은 아니다.
상기 선별된 유전자의 발현 양상을 분석하는 단계는 인간과 마우스에서 발현되는 조직의 종류 및 발현 산물의 종류 항목에 의하여 평가하는 것을 특징으로 한다.
발현 조직과 발현 산물, 발현양에 대한 기준, 선택된 기관(organ)과 조직(tissue)에 대한 정의는 표 2와 같다.
  Human protein Human mRNA Mouse mRNA
데이터베이스 Protein ATLAS GTEx BioGPS
Metabolic tissue 정의 Liver, adipose, muscle tissues Liver, adipose tissue, muscle, hypothalamus Liver, adipose tissue, muscle, hypothalamus
Intestine 정의 Gastrointestinal tract Gastrointestinal tract Gastrointestinal tract
Pan-tissue 정의 all target organ all target organ all target organ
CNS 정의 Brain Brain (hypotalamus 제외) Brain (hypotalamus 제외)
발현(expression)양 기준 발현되는 모든 조직, 유무 > maximum 값의 50% > maximum 값의 50%
Target organ (개수) 12 14 13
Target tissue (개수) 27 34 30
구체적으로 상기 조직의 종류는 대사성 질환과 관련된 간, 지방조직, 근육, 시상하부는 대사성 질환 관련 조직(Metabolic tissue), 위장관 조직(Intestine), 전체 조직 발현(Pan-tissue) 및 중추신경 조직 발현(CNS) 등 4개로 분류하고, 발현 유무를 다음과 같이 순차적 점수화에 반영하였다; 1) metabolic tissue, 2) metabolic tissue + intestine, 3) intestine, 4) metabolic tissue + intestine + CNS, 4) CNS를 제외한 Pan-tissue, 5) metabolic tissue + CNS, 5) metabolic tissue + intestine + CNS, 6) intestine + CNS, 7) CNS를 포함한 Pan-tissue, 8) only CNS. 상기 발현 산물의 종류는 Protein Atlas (Human protein), GTEx (Human mRNA), BioGPS (Mouse mRNA)와 같이 사람과 마우스의 단백질 및 RNA로 분류하고, 발현여부를 다음과 같이 순차적 점수화에 반영하였다; 1) Human protein + Human mRNA + Mouse mRNA, 2) Human protein + Human mRNA, 3) Human protein + Mouse mRNA, 4) Human protein, 5) Human mRNA + Mouse mRNA, 6) Human mRNA, 7) Mouse mRNA. 부작용증으로 해석하는 신경 조직 발현(CNS)은 Human protein 정보만 사용하였다.
따라서 발현 조직과 발현 산물을 조합하여 상기 1순위(metabolic tissue 및 Human protein + Human mRNA + Mouse mRNA)에 100점, 최하순위(CNS를 포함한 Pan-tissue 및 Mouse mRNA)에 1점, CNS에만 발현되는 것에 0점을 부여하고 전체 순위에 균등하게 점수를 구간화 하였다.
본 발명의 또 다른 실시예에서, 상기 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법은 상기 선별된 유전자와 관련된 문헌 정보를 분석하는 단계를 더 포함할 수 있다.
상기 선별된 유전자와 관련된 문헌 정보를 분석하는 단계는 다중 문헌 검색 도구(https://pubmatrix.irp.nia.nih.gov/cgi-bin/index.pl), 오픈 타깃 플랫폼(https://www.targetvalidation.org/) 또는 미국 국립생물정보센터(https://www.ncbi.nlm.nih.gov/mesh)의 데이터베이스로부터 수행될 수 있으나, 이에 제한되는 것은 아니다.
유전자와 관련된 문헌인지 여부는 문헌에 관련 유전자가 포함되어 있는지 여부로 구별하였다. 구체적으로 PubMed(pibmed.ncbi.nlm.nih.gov)에서 출판된 SCI(E) 논문 중 최근 20년 이내 논문의 초록(abstract)에 상기 유전자가 포함되어 있는 논문을 상기 유전자와 관련된 논문으로 선별하였다.
상기 선별된 유전자와 관련된 문헌 정보를 분석하는 단계는 관련 문헌의 개수, 발행 연도, 생물학 관련성 및 피인용 지수(impact factor) 항목에 의하여 평가하는 것을 특징으로 한다.
상기 선별된 유전자와 관련된 문헌 정보는 생물학 관련성, 문헌의 발행 연도, 문헌의 개수 및 IF에 의하여 분류하고 평가하였다.
상기 생물학 관련성은 논문의 주제 및 내용이 특정 질환, 유전자 기능 등 직접적인 생물학의 범주에 들어오는 경우 생물학 관련 문헌(biology)으로, 전장유전체 등 간접적인 생물학의 범주에 들어오는 경우 비생물학 관련 문헌(non-biol)로 분류할 수 있으며, 상기 생물학 관련 문헌으로 분류된 경우에 비생물학 관련 문헌으로 분류된 경우에 비하여 우선 순위를 부여할 수 있다.
상기 생물학 관련성으로 분류한 후 문헌의 발행 연도로 분리하여 우선순위를 부여하였다. 상기 문헌 발행 연도는 선별된 논문 중 가장 오래된 문헌의 발행 연도가 10년 이하인지, 10년 초과인지로 분류하고, 10년이 초과된 경우보다는 10년 이하인 경우에 우선순위를 부여할 수 있다.
상기 문헌 발행 연도로 분리한 후, 상기 문헌의 개수를 30개 이하, 31 ~ 100개, 101개 이상으로 분류하여 신규성과 과학적 근거를 평가하고, 상기 문헌의 개수가 적을수록 우선 순위를 부여할 수 있다.
상기 문헌의 개수로 분류한 이후에는 선별된 유전자와 관련된 문헌의 피인용지수(Impact factor, IF)로 다시 분류하였으며, 선별된 유전자와 관련된 문헌의 피인용지수(Impact factor, IF)가 3 미만, 3 이상 10 미만, 10 이상으로 분류하고, 상기 피인용지수가 높을수록 높은 점수를 부여하였다. 상기 피인용지수는 선별된 논문이 여러 개인 경우에 그 평균일 수 있고 또는 피인용지수가 가장 높은 문헌의 피인용지수이다.
따라서 생물학 관련성이 있고, 문헌의 발행 연도가 10년 이하이고, 관련 문헌의 개수가 30개 이하이고, 피인용지수(Impact factor, IF) 10 이상인 카테고리를 1순위로 지정하고 최하 순위까지 순서대로 순위를 지정하였다. 그리고 1순위에 100점, 최하순위에 1점을 부여하고 전체 순위에 균등하게 점수를 구간화하였다.
상기 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법은 상기 유전자 결손 마우스의 표현형으로부터 상기 선별된 유전자에 의한 부작용을 분석하는 단계를 더 포함할 수 있다.
상기 유전자 결손 마우스의 표현형으로부터 상기 선별된 유전자에 의한 부작용을 분석하는 단계는 상기 유전자 결손 마우스 표현형 정보로부터 심혈관계, 호흡기계, 중추신경계의 기능적 표현형 중 어느 하나 및 출판된 논문에서 MeSH(Medical Subject Headings, www.ncbi.nlm.nih.gov > NCBI > Literature) term을 기준으로 발암성 관련성 존재 유무에 의하여 평가하는 것을 특징으로 한다.
상기 선별된 유전자에 의한 부작용은 중추신경계, 심혈관계 및 호흡기계 각각에서 기능적 표현형이 존재하는 경우 1, 존재하지 않는 경우 0으로 정의하고, 발암 관련성 MeSH term이 존재하는 경우 1, 존재하지 않는 경우 0으로 정의한 후 중추신경계, 심혈관계 및 호흡기계 중 어느 하나와 관련된 기능적 부작용의 개수를 0 ~ 3으로 분류하고, 이를 다시 발암 관련성 부작용의 개수 0 ~ 1로 재분류하여, 어떠한 부작용이 존재하지 않는 경우에 가장 높은 순서를 부여하였다.
중추신경계, 심혈관계 및 호흡기계 중 어느 하나와 관련된 기능적 부작용의 개수 0이고 발암 관련성 부작용의 개수가 0인 카테고리를 1순위로 지정하고 최하 순위(중추신경계, 심혈관계 및 호흡기계와 관련된 기능적 부작용이 모두 존재하고, 발암 관련성 MeSH term이 존재하는 경우)까지 순서대로 순위를 지정하였다. 그리고 1순위에 100점, 최하순위에 1점을 부여하고 전체 순위에 균등하게 점수를 구간화하였다.
상기 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법은 상기 유전자와 관련된 임상 유용성(human relevance) 및 임상유전체 결과를 분석하는 단계를 더 포함할 수 있다.
상기 선별된 유전자의 임상 유용성 및 임상유전체 결과를 분석하는 단계는 정성원 교수님 논문 중 대사성 질환 환자군의 간, 근육, 지방조직에서 유전자의 발현량 분석 데이터(Implications of publicly available genomic data resources in searching for therapeutic targets of obesity and type 2 diabetes. Exp Mol Med. 2018 Apr 20;50(4):1-13. PMID: 29674722), DIAGRAM (DIAbetes Genetics Replication And Meta-analysis, http://diagram-consortium.org/downloads.html), GIANT (Genetic Investigation of ANthropometric Traits, http://portals.broadinstitute.org/collaboration/giant/index.php/GIANT_consortium_data_files), GLGC (Global Lipids Genetics Consortium Results, http://csg.sph.umich.edu/willer/public/lipids2013/), MAGIC (Meta-Analyses of Glucose and Insulin-related traits Consortium, https://www.magicinvestigators.org/downloads/), Identification of type 2 diabetes loci in 433,540 East Asian individuals (Nature volume 582, pages240-245, 2020)의 데이터베이스로부터 수행될 수 있으나, 이에 한정되는 것은 아니다.
선별된 상기 유전자의 임상 유용성(human relevance) 분석은 대사성 질환 환자의 조직에서 유전자 발현 값을 분석하는 것으로 비만 환자군, 비만 및 당뇨병을 가지고 있는 환자군에서 대사성 질환과 관련된 조직인 간, 근육 지방조직에서 정상인과 비교하여 상기 유전자의 발현양 변화를 상기 유전자 결손 마우스의 표현형과 비교하여 분석하는 것을 특징으로 한다.
상기 선별된 유전자의 간, 근육 지방조직에서 발현 결과의 정의는 정상인과 비교하여 비만 환자군과 비만 및 당뇨병 환자군의 유전자의 발현양이 증가하거나 감소하는지 여부와 상기 선별된 유전자의 마우스 표현형 용어의 개수로 분류할 수 있다.
구체적으로, 환자군과 조직이 조합된 6개의 집단(비만환자군의 간, 비만환자군의 근육, 비만환자군의 지방조직, 비만 및 당뇨병 환자군의 간, 비만 및 당뇨병 환자군의 근육, 비만 및 당뇨병 환자군의 지방조직)에서 정상인과 비교하여 상기 유전자의 발현양 변화(증가하거나 또는 감소) 여부를 1 ~ 6개로 분류하고(비만환자군의 간에서만 변화가 있는 경우 1, 6개 집단에서 모두 변화가 있는 경우 6), 이를 각각 상기 유전자 결손 마우스의 표현형 용어의 개수가 7개 이상, 5 ~ 7개, 4개, 3개, 2개, 1개, 0개로 재분류하였다.
구체적으로 상기 유전자의 발현양 변화가 0인 경우에는 순위에서 제외하였으며(0 순위), 상기 유전자의 발현양이 1이면서 상기 유전자 결손 마우스의 표현형 용어의 개수가 0일 경우에는 최하 순위를 부여하였다.
상기 유전자의 발현양 변화가 6이면서 상기 유전자 결손 마우스의 표현형 용어의 개수가 7개 이상인 카테고리를 1순위로 지정하고 최하 순위까지 순서대로 순위를 지정하였다. 그리고 1순위에 100점, 최하순위에 1점을 부여하고 전체 순위에 균등하게 점수를 구간화하였다.
선별된 상기 유전자의 임상유전체 분석은 대사성 질환과 관련된 유전자의 전장유전체 결과를 비교 분석하는 것으로 대사성표현형은 11개(T2D susceptibility, HDL, cholesterol, LDL cholesterol, total cholesterol, triglyceride, fasting glucose, fasting insulin, insulin sensitivity index, insulin secretion, Body mass index, East Asian T2D susceptibility)가 선택되었는데, 2형 당뇨병에 대한 감수성(T2D susceptibility)은 DIAGRAM 데이터베이스를 활용하였고, 혈중 지질 표현형(HDL, LDL, total cholesterol, triglyceride)은 GLGC 데이터베이스를 활용하였고, 포도당과 인슐린 관련 표현형(fasting glucose, fasting insulin, insulin sensitivity index, insulin secretion)은 MAGIC 데이터베이스를 활용하였고, 체조성(Body mass index)은 GIANT 데이터베이스를 활용하였고, 동아시아인의 2형 당뇨병에 대한 감수성(East Asian T2D susceptibility)은 2020년 발표된 Nature 논문을 활용하였다.
상기 각각의 데이터베이스에서 제공하는 단일염기이형성(Single nucleotide polymorphism; SNP)과 대사성 표현형의 상관성은 통계 값을 기준으로 p-값이 0.05 이하인 경우 상기 선별된 유전자와 대사성 표현형의 유의적인 상관성을 인정하였다.
따라서 대사성 표현형의 개수가 11개인 카테고리를 1순위로 지정하고 최하 순위(대사성 표현형의 개수가 0개)까지 순서대로 순위를 지정하였다. 그리고 1순위에 100점, 최하순위에 1점을 부여하고 전체 순위에 균등하게 점수를 구간화하였다.
상기 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법은 상기 각 단계에 의하여 평가된 점수를 모두 합하여 최종 점수를 도출하는 단계를 더 포함할 수 있으며, 상기 최종 점수가 높은 유전자에 질병의 치료 및 예방을 위한 신약 타겟 유전자로서의 우선 순위를 부여할 수 있다.
본 발명의 또 다른 실시예에서, 상기 질병은 대사성 질환이고, 상기 대사성 질환은 당뇨병, 비만, 지방간, 지방간염, 이상지질혈증 또는 대사증후군 중 어느 하나인 것을 특징으로 한다.
이하, 실시예를 통해 본 발명을 보다 구체적으로 설명한다. 그러나 이들 예는 본 발명의 이해를 돕기 위한 것일 뿐 어떠한 의미로든 본 발명의 범위가 이들 예로 한정되는 것은 아니다.
실시예
1. 유전자 결손 마우스 표현형 분석을 통한 대사질환 원인 유전자 선별
당뇨병, 비만, 고혈압증, 고지혈증 등 대사질환 원인 유전자를 발견하기 위하여, 국제 마우스 표현형 컨소시엄(IMPC)(https://www.mousephenotype.org/), 마우스 게놈 정보학(MGI)(http://www.informatics.jax.org/) 데이터베이스로부터 유전자 결손 마우스 표현형 정보를 분석하였다.
유전자 결손 후 정성적 또는 정량적(p < 0.001) 표현형 변화가 인정된 유전자를 선발하였다.
도 2를 참고하면, 총 1,099,794개의 대립유전자 중 단백질을 코딩하는 유전자는 IMPC에서 4,070개, MGI에서 10,719개를 확인하였고, 이중 3,608개 유전자는 두개의 데이터베이스에서 공통적으로 관찰되었다.
2. 대사성 표현형 용어집을 이용한 대사성 유전자의 선발
포유류 표현형 용어집(http://www.informatics.jax.org/vocab/mp_ontology)에서 임상적으로 의의가 높은 대사성 표현형 용어집을 제작하였다.
포유류의 표현형 용어집(Mammalian phenotype terms)을 참고하여 임상적으로 의의가 높은 체조성(Body composition) 용어 158개, 포도당 항상성(Glucose homeostasis) 용어 82개, 이상지질혈증(Dyslipidemia) 용어 30개와 비알콜성지방간증(Non-alcoholic fatty liver disease; NAFLD) 용어 15개를 작성하고, 대사성 표현형 용어집을 완성하였다(도 3).
대사성 표현형 용어집을 이용하여 IMPC 및 MGI에서 확인된 단백질 코딩 유전자의 KO마우스 표현형 결과와 비교하여 결손 시 대사성 표현형이 관찰되는 유전자 4,363개를 확인하였다.
3. 약리 부작용이 없는 대사성 유전자의 선발
심혈관계(Cardiovascular system; CV), 중추신경계(Central nervous system; CNS) 및 호흡기계(Respiratory systems; Respir)의 기능적 이상에 해당하는 포유류 표현형 용어를 분석하고 각각 54개, 266개, 그리고 68개의 부작용 표현형 용어를 완성하였다.
벤다이어그램 분석을 통해 안전성 약리 부작용을 갖는 대사성 유전자를 확인한 결과, 762개의 유전자는 결손 시 1개 이상의 안전성 약리 부작용을 나타내는 것으로 관찰되었다(도 4).
반면, 733개의 대사성 유전자는 안전성 약리 부작용이 관찰되지 않았다. 안전성 약리 부작용이 관찰되지 않은 유전자(Adverse effect negative; AE(-))와 안전성 약리 부작용이 1개 이상 관찰된 유전자(AE(+))의 유전자 집합 농축 분석 (Gene set enrichment analysis; GSEA)을 수행한 결과, 안전성 약리 부작용이 관찰되지 않은 유전자는 퍼옥시좀 증식체 활성화 수용체 신호전달경로(Peroxisome proliferator-activated receptor(PPAR) signaling pathway, q = 9.69E-24)와 지방산 대사(Fatty acid metabolism, q = 4.22E-10) 기능에 유의적으로 기여하며, 안전성 약리 부작용이 관찰된 유전자는 신경 활성 리간드 수용체 상호 작용(Neuroactive ligand receptor interaction, q = 2.32E-07)과 칼슘 신호전달경로(Calcium signaling, q = 3.36E-17) 등에 유의적으로 기여하고 있음이 확인되었다.
4. 코딩된 단백질의 종류와 허가된 의약품의 표적 단백질 종류의 비교
대사성 유전자 중 허가된 의약품이 없는 신규 유전자 4,136개를 확인하고, 각각의 유전자가 코딩하는 단백질 종류를 분석한 결과, 결합 단백질(Binding protein)를 코딩하는 유전자 1,365개, 리간드(Ligand)를 코딩하는 유전자 192개, 그리고 수용체(Receptor)를 코딩하는 유전자 184개 등을 확인하였다(도 5).
미국 식품의약품안전처(US FDA)에서 기허가한 의약품의 표적 단백질 종류를 분석한 결과, 수용체 및 리간드 등이 전체 의약품 표적의 34%로 우점하는 것을 관찰하였고, 따라서, 해당 단백질 종류가 신약 개발 가능성이 높은 표적으로 분류되었다.
신규 대사성 유전자 중 G단백 결합 수용체(GPCR)을 코딩하는 유전자 122개, 수용체를 코딩하는 유전자 184개와 리간드를 코딩하는 유전자 192개를 우선 순위화하여 대사성 질환의 신규 타깃 가능성을 분석하였다.
5. 대사성 표현형을 유도하는 유전자의 정성적 분석
최초 IMPC 및 MGI 데이터베이스에서 추출한 14,789개의 KO마우스 유전자 중 도 3에서 언급된 대사성 표현형이 관찰된 유전자 4,363개를 확인하였다. 이 중 IMPC 데이터베이스에서 826개의 대사성 유전자를 확인하였고, MGI에서 2,564개의 대사성 유전자를 확인하였고, 두 데이터베이스에서 973개의 대사성 유전자를 공통적으로 확인하였다.
확인된 대사성 표현형과 해당 대사성 표현형을 유도하는 유전자의 빈도를 히스토그램으로 표현하였다. 도 6을 참고하면, 왼쪽 그래프는 IMPC 데이터베이스를 이용한 대사성 표현형 유전자의 빈도 분석을 나타내고, 우측 그래프는 MGI 데이터베이스를 이용한 대사성 표현형 유전자의 빈도 분석을 나타낸다.
가로축은 각각의 대사성 표현형 용어를 나타내고 세로축은 해당 대사성 표현형을 유도하는 유전자의 빈도를 나타내고, 파란색 그래프는 대사성 표현형별 유전자의 빈도를 나타내고, 빨간색 그래프는 이를 누적하여 나타낸다.
6. 대사성 표현형을 유도하는 유전자의 정량적 분석
IMPC 데이터베이스로부터 추출한 KO마우스의 대사성 표현형 정보를 12개의 대사성 표현형 지표로 구분하여 표현형 변화 구간별(%change) 유전자 빈도로 표현하였다.
대사성 표현형은 혈중 콜레스테롤(Cholesterol; CHOL), 중성지질(Triglyceride; TG), 자유 지방산(Free fatty acid; FFA), 저밀도 지단백질(Low density lipoprotein; LDL), 고밀도 지단백질(High density lipoprotein), 체중(Body weight; BW), 근육량(Lean mass), 지방량(Fat mass), 인슐린 농도(Insulin level), 내당능(Glucose tolerance), 포도당 농도(Glucose level)과 공백혈당(Fasting glucose level)의 변화량을 구분하여 나타내었다.
각각의 대사성 표현형은 정상 마우스와 비교하여 10% 이상의 표현형 값 변화와 p = 0.0001의 통계적 유의성을 기준으로 분석한 후, 생물학적 및 통계적 유의성이 인정된 대사성 유전자 1,799개를 확인하였다(도 7).
7. 유전자의 기능, 참여 네트워크 및 신호전달 경로의 주석 분석
HUGO에서 추출한 사람의 전체 유전자 19,296개와 UniProt에서 추출한 기능이 명시된 유전자 16,421개, STRING에서 추출한 네트워크 참여 유전자 16,066개, 그리고 KEGG에서 추출한 신호전달경로 참여 유전자 5,241개를 벤다이어그램으로 분석한 결과, 2,033개의 유전자는 기능, 참여 네트워크, 그리고 신호전달경로에 대한 정보가 없는 것으로 확인되었고, 기능, 참여 네트워크, 그리고 신호전달경로에 대한 정보가 모두 있는 유전자는 4,679개로 확인되었다(도 8).
유전자의 기능, 참여 네트워크 및 신호전달경로 정보의 가용성에 따라 유전자의 빈도를 히스토그램으로 나타내었다. 이러한 분석 결과는, 신규 대사성 유전자와의 비교 분석을 통해 해당 유전자의 기능, 참여 네트워크 및 신호전달경로를 이해하는 기초 정보를 제공하였다.
8. 자연어 처리 기반의 유전자-질환 상관성 분석
2형 당뇨, 비만, 지질대사이상 및 비알콜성지방간증과 선발된 대사성 유전자의 문헌적 상관적 분석을 위해 자연어 처리(Natural language process; NLP) 기반의 문헌 분석을 수행하였고, 총 1,495개의 대사성 유전자는 평균 0.01937의 문헌 기반 유전자-대사질환 상관성을 나타내었다.
도 5의 결과와 유사하게, 신약개발 가능성이 높은 리간드, 수용체 및 G단백 결합 수용체를 코딩하는 유전자의 문헌 기반 유전자-대사질환 상관성은 각각 0.04669, 0.03539, 그리고 0.0315로 평균적인 유전자-대사질환 상관성 보다 높게 관찰되었다(도 9).
9. 대사성 유전자의 약물 개발 동향
도5 및 도9의 결과를 토대로 신약개발 가능성이 높은 리간드, 수용체 및 G단백 결합 수용체를 코딩하는 유전자의 약물 개발 동향을 분석한 결과, 카이네이즈 활성을 갖는 수용체(Receptor linked with kinase activity; RTK)를 코딩하는 대사성 유전자는 모두 비임상(Preclinical) 및 임상(Clinical) 단계의 약물 개발 동향이 확인되어 신규성을 확인할 수 없었다.
반면, 리간드(Ligand)를 코딩하는 유전자 110개 중 54개, G단백 결합 수용체(GPCR)를 코딩하는 71개의 유전자 중 48개, 그리고 수용체(Receptor)를 코딩하는 108개의 유전자 중 71개는 비임상 또는 약물 개발 동향이 보고된 바 없어 신규성을 인정할 수 있었다.
도 10을 참고하면, 파란색 그래프는 각각의 유전자별로 비임상 단계까지 개발 중인 약물 개수를 나타내고, 빨간색 그래프는 임상 이후 단계의 약물 개수를 나타낸다. 좌측 가로축은 비임상 단계까지의 약물 개수를 나타내고, 우측 가로축은 임상 이후 단계의 약물 개수를 나타낸다.
10. 대사질환 환자의 조직에서 대사성 유전자의 발현 값
비만 환자의 조직에서 대사성 유전자의 발현 값을 정상인의 조직과 비교한 결과, 비만 환자의 지방조직에서 170개의 유전자, 간 조직에서 195개의 유전자, 그리고 골격근조직에서 287개의 유전자가 정상인과 상이한 mRNA 발현 값이 관찰되었다.
그리고 비만과 2형 당뇨를 동시에 갖는 환자의 조직에서 동일한 분석을 수행한 결과, 지방조직에서 257개의 유전자, 간 조직에서 138개의 유전자, 그리고 골격근조직에서 283개의 유전자가 정상인과 상이한 mRNA를 발현량을 나타내었다. 환자와 정상인의 유전자 발현 값은 FDR로 보정한 p = 0.05의 수준에서 통계적 유의성을 확인하였다.
써코스 그래프는 각각의 환자군에서 대사성 유전자의 발현 값을 나타낸다(도 11). 제1층은 대표적인 대사성 유전자의 심볼을 나타내고, 제2층은 염색체 번호를 나타내고, 제3층은 지방조직에서의 발현 값을 나타내고, 제4층은 간 조직에서의 발현 값을 나타내고, 제5층은 골격근조직에서의 발현 값을 나타낸다. 조직별 발현 값은 적색선을 중심으로 증가 또는 감소치를 점으로 표현하였다. 이를 통해 KO마우스 표현형 분석을 통해 확인한 대사성 유전자의 임상적 의의를 확보하였다.
11. 대사성 유전자의 사람 전장유전체 결과와의 비교 분석
KO마우스 표현형 분석을 통해 선발한 대사성 유전자를 대사성 표현형별로 수집한 사람의 전장유전체 결과와 비교 분석하였다. 2형 당뇨병에 대한 감수성은 DIAGRAM 데이터베이스를 활용하였고, 혈중 지질 표현형은 GLGC 데이터베이스를 활용하였고, 포도당과 인슐린 관련 표현형은 MAGIC 데이터베이스를 활용하였고, 체조성은 GIANT 데이터베이스를 활용하였다.
각각의 데이터베이스에서 제공하는 단일염기이형성(Single nucleotide polymorphism; SNP)과 대사성 표현형의 상관성은 (-)로그 전환된 p-값으로 표현하였다. 대사성 표현형과 유의적인 상관성이 인정된 이형성 단일염기는 유전자 심볼로 주석 변환한 후 대사성 유전자와 비교 분석하여 KO마우스 표현형 분석을 통해 확인한 대사성 유전자의 임상 유전체적 의의를 확인하였다.
12. 당뇨병 치료를 위한 타겟 유전자 발굴
DPP4 억제제는 이미 시판된 당뇨병 치료제의 혁신신약(first-in-class)으로 2006년에 시장에 판매된 이후 시장 점유율이 높은 치료제 중 하나이다. 본 발명자는 DPP4 억제제를 본 발명의 알고리즘을 이용하여 개발 당시의 시점과 현재 시점에서의 점수를 계산하고 비교하였다.
전임상 개발 초기 시점 (2000년) 현재 시점(2020년)
표현형 79 79
신호전달경로 57 57
개발동향 96 35
문헌 정보 15 9
유전자 발현 양상 89 89
부작용 100 46
임상 유용성 28 28
합계 464 343
비교 결과 현재 시점의 점수보다 전임상 개발 당시 시점(2000년)의 점수가 높게 분석되었다. 현재 시점의 점수가 낮은 이유는 이미 개발되었기 때문으로 지금의 알고리즘에서는 당연히 점수가 낮게 제시되는 것이 타당하고, 이러한 결과는 과거 개발 시점에서는 first-in-class를 위한 신규성(novelty)를 잘 반영하는 것이기 때문에 점수가 잘 반영된 것을 확인할 수 있다.
또한 본 발명자는 세계 10 이내의 글로벌 제약사(Pfizer, Gilead Sciences, Ionis Pharmaceuticals)에 의해 지방간염 치료제 혁신신약으로 임상 2상 개발중인 타겟인 ACC2와 DGAT2의 전임상 개발 당시 시점의 환경에서 점수를 계산하였다.
ACC2
(전임상 개발 초기 시점)
DGAT2
(전임상 개발 초기 시점)
표현형 90 79
신호전달경로 100 100
개발동향 100 100
문헌 정보 56 29
유전자 발현 양상 88 96
부작용 86 100
임상 유용성 31 18
합계 551 522
평가 결과 개발중인 타겟인 ACC2와 DGAT2 모두 500점 이상의 높은 점수가 측정되는 것을 확인할 수 있었다.
따라서 본 발명의 신약 타겟 유전자 예측 방법은 first-in-class 신약 개발의 혁신타겟을 발굴하고 제시하는데 특화된 기능을 확인 할 수 있다.

Claims (24)

  1. 컴퓨터 상에서 수행되는 신약 타겟 유전자 예측 방법에 있어서, 상기 방법은
    (1) 유전자 결손 마우스의 표현형을 분석하여 타겟 유전자를 선별하는 단계;
    (2) 하기의 비순차적인 단계에 의하여 상기 선별된 유전자에 대한 신약 타겟으로서의 가능성을 평가하는 단계;
    - 상기 선별된 유전자와 질병과의 관련성을 분석하는 단계, 여기서, 상기 질병과의 관련성은 하기의 식에 의하여 계산된 방향성 값, 보완 값 및 방향성의 합으로 평가함,
    [방향성 값]
    Figure 112022098699111-pat00029
    ,
    [보완 값]
    Figure 112022098699111-pat00030
    ,
    [방향성의 합]
    Figure 112022098699111-pat00031
    ,
    여기서, X1은 질병의 극복에 해당하는 용어의 개수이고, X2는 질병의 악화에 해당하는 용어의 개수임;
    - 상기 선별된 유전자로부터 코딩되는 단백질의 표적 약물 개발 동향을 분석하는 단계;
    - 상기 선별된 유전자로부터 코딩되는 단백질의 생물학적 활성을 분석하는 단계;
    - 인간에서 상기 선별된 유전자의 발현 양상을 분석하는 단계;
    - 상기 선별된 유전자와 관련된 문헌 정보를 분석하는 단계;
    - 상기 선별된 유전자 결손시 나타나는 부작용을 분석하는 단계;및
    (3) 상기 평가 결과를 종합하는 단계를 포함하는 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법.
  2. 제1항에 있어서,
    상기 타겟 유전자를 선별하는 단계는 국제 마우스 표현형 컨소시엄 데이터베이스로부터 정성적 또는 정량적 표현형의 변화가 p<0.0001 또는 %change>10%인 유전자를 선별하는 단계를 포함하는 신약 타겟 유전자 예측 방법.
  3. 제1항에 있어서,
    상기 질병과의 관련성은 마우스 게놈 정보학 또는 오픈 타깃 플랫폼 데이터베이스로부터 질병 관련 용어를 선별하여 평가하는 신약 타겟 유전자 예측 방법.
  4. 제1항에 있어서,
    상기 선별된 유전자로부터 코딩되는 단백질의 표적 약물 개발 동향을 분석하는 단계는 표적 약물의 후보물질 개수, 관련 문헌의 기록생성일, 물질의 종류, 관련 적응증 또는 임상개발단계 항목에 의하여 평가하는 단계를 포함하는 신약 타겟 유전자 예측 방법.
  5. 제4항에 있어서,
    상기 관련 문헌의 기록생성일 항목은 기록생성일로부터 평가 시점까지의 기간을 10년 이상 및 10년 미만으로 분류하고, 상기 기록생성일이 짧은 유전자에 대하여 높은 점수를 부여하여 평가하는 신약 타겟 유전자 예측 방법.
  6. 제4항에 있어서,
    상기 물질의 종류 항목은 분자량 1000 Da 이하의 저분자 합성 화합물 및 생물학적 제제로 분류하여 평가하는 신약 타겟 유전자 예측 방법.
  7. 제4항에 있어서,
    질병이 대사질환인 경우, 상기 관련 적응증 항목은 비만 및 당뇨를 포함하는 대사질환 적응증 및 비만 및 당뇨를 포함하지 않는 비대사질환 적응증으로 분류하여 평가하는 신약 타겟 유전자 예측 방법.
  8. 제4항에 있어서,
    상기 임상개발단계 항목은 전임상개발단계 및 임상개발단계로 분류하여 평가하는 신약 타겟 유전자 예측 방법.
  9. 제1항에 있어서,
    상기 선별된 유전자로부터 코딩되는 단백질의 생물학적 활성을 분석하는 단계는 상기 선별된 유전자로부터 코딩되는 단백질의 기능이 알려져 있는지 여부, 해당 단백질이 포함되어 있는 스트링 네트워크의 유무 및 해당 단백질의 상위 또는 하위 신호 전달 물질과의 신호전달경로의 유무 항목에 의하여 평가하는 단계를 포함하는 신약 타겟 유전자 예측 방법.
  10. 제9항에 있어서,
    상기 단백질의 기능, 스트링 네트워크 및 신호전달경로가 모두 밝혀져 있는 경우 가장 높은 점수를 부여하고; 그 다음 단백질의 기능, 스트링 네트워크, 신호전달경로 순서로 가중치를 높게 부여하여 평가하는 신약 타겟 유전자 예측 방법.
  11. 제1항에 있어서,
    인간에서 상기 선별된 유전자의 발현 양상을 분석하는 단계는 인간에서 발현되는 조직의 종류 및 발현 산물에 의하여 평가하는 단계를 포함하는 신약 타겟 유전자 예측 방법.
  12. 제11항에 있어서,
    질병이 대사질환인 경우, 상기 조직의 종류는 대사성 질환 관련 조직, 위장관 조직, 전체 조직 및 중추신경 조직으로 분류하여 평가하는 신약 타겟 유전자 예측 방법.
  13. 제11항에 있어서,
    상기 발현 산물은 사람과 마우스의 단백질 및 RNA로 분류하여 평가하는 신약 타겟 유전자 예측 방법.
  14. 제1항에 있어서,
    상기 선별된 유전자와 관련된 문헌 정보를 분석하는 단계는 관련 문헌의 개수, 발행 연도, 생물학 관련성 및 피인용 지수(impact factor) 항목에 의하여 평가하는 단계를 포함하는 신약 타겟 유전자 예측 방법.
  15. 제14항에 있어서,
    상기 관련 문헌의 개수 항목은 30개 이하, 31 ~ 100개, 101개 이상으로 분류하여 평가하는 신약 타겟 유전자 예측 방법.
  16. 제14항에 있어서,
    상기 발행 연도 항목은 문헌의 발행 연도가 10년 이하인지, 10년 초과인지로 분류하여 평가하는 신약 타겟 유전자 예측 방법.
  17. 제14항에 있어서,
    상기 생물학 관련성 항목은 관련 문헌의 주제 및 내용이 생물학 관련 문헌인지 비생물학 관련 문헌인지 분류하여 평가하는 신약 타겟 유전자 예측 방법.
  18. 제14항에 있어서,
    상기 문헌의 피인용 지수는 3 미만, 3 이상 10 미만, 10 이상으로 분류하여 평가하는 신약 타겟 유전자 예측 방법.
  19. 제1항에 있어서,
    상기 선별된 유전자 결손시 나타나는 부작용을 분석하는 단계는 상기 유전자 결손 마우스 표현형 정보로부터 심혈관계, 호흡기계, 중추신경계의 기능적 표현형 및 발암성 관련성 존재 유무에 의하여 평가하는 단계를 포함하는 신약 타겟 유전자 예측 방법.
  20. 제1항에 있어서,
    상기 선별된 유전자에 대한 신약 타겟으로서의 가능성을 평가하는 단계는 상기 선별된 유전자의 임상 유용성 및 임상 유전체를 분석하는 단계를 더 포함하는 신약 타겟 유전자 예측 방법.
  21. 제20항에 있어서,
    상기 선별된 유전자의 임상 유용성 분석 단계는 환자의 조직에서 유전자 발형 양상과 마우스 표현형 개수에 의하여 평가하는 단계를 포함하는 신약 타겟 유전자 예측 방법.
  22. 제20항에 있어서,
    상기 선별된 유전자의 임상 유전체 분석 단계는 데이터베이스에서 제공하는 단일염기이형성(Single nucleotide polymorphism; SNP)과 사람의 표현형과의 관련성을 분석하는 단계를 포함하는 신약 타겟 유전자 예측 방법.
  23. 제1항에 있어서,
    상기 평가 결과를 종합하는 단계는 상기 단계 (2)의 각 단계에 의하여 평가된 점수를 모두 합하여 최종 점수를 도출하는 단계를 포함하는 신약 타겟 유전자 예측 방법.
  24. 제1항에 있어서,
    상기 질병은 대사질환인 신약 타겟 유전자 예측 방법.
KR1020210038389A 2020-03-24 2021-03-24 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법 KR102490338B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200035709 2020-03-24
KR20200035709 2020-03-24

Publications (2)

Publication Number Publication Date
KR20210119334A KR20210119334A (ko) 2021-10-05
KR102490338B1 true KR102490338B1 (ko) 2023-01-19

Family

ID=78077834

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210038389A KR102490338B1 (ko) 2020-03-24 2021-03-24 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법

Country Status (1)

Country Link
KR (1) KR102490338B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230006171A (ko) * 2021-07-02 2023-01-10 (의료)길의료재단 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101046689B1 (ko) * 2008-08-14 2011-07-06 한국기초과학지원연구원 유전자 온톨로지 트리를 이용한 생물학적 시료의 유전자 발현 패턴 시각화 및 분석 장치 및 그 방법
KR101147693B1 (ko) * 2008-12-19 2012-05-22 한국생명공학연구원 약물 반응과 관련된 유전 정보를 이용한 임상시험 대상 선정장치
KR20160144065A (ko) * 2015-06-08 2016-12-16 한국과학기술원 질병유전자 발현 특징을 이용한 약물 재창출 예측 시스템 및 방법
KR101950717B1 (ko) * 2016-11-23 2019-02-21 주식회사 젠큐릭스 유방암 환자의 화학치료 유용성 예측 방법
WO2018097635A1 (ko) 2016-11-24 2018-05-31 한양대학교 산학협력단 비구조-구조 전이 부위를 표적으로 하는 신약 후보 물질 발굴 방법 및 신약 후보 물질 발굴 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Daejin Hyung 외, TarGo: network based target gene selection system for human disease related mouse models, Laboratory Animal Research, 2019.11.13., Vol.2019, No.23, pp1-7.*
Yunxia Wang 외, Therapeutic target database 2020: enriched resource for facilitating research and early development of targeted therapeutics, Nucleic Acids Research, 2019.11.06., Vol.48, ppD1031-D1041.*

Also Published As

Publication number Publication date
KR20210119334A (ko) 2021-10-05

Similar Documents

Publication Publication Date Title
Lam et al. Comparative genetic architectures of schizophrenia in East Asian and European populations
Locke et al. Exome sequencing of Finnish isolates enhances rare-variant association power
Chen et al. Autosomal dominant familial dyskinesia and facial myokymia: single exome sequencing identifies a mutation in adenylyl cyclase 5
Ban et al. Identification of type 2 diabetes-associated combination of SNPs using support vector machine
Ghazalpour et al. Genomic analysis of metabolic pathway gene expression in mice
KR20180132727A (ko) 유전자 변이체 표현형 분석 시스템 및 사용 방법
Yang et al. Harvesting candidate genes responsible for serious adverse drug reactions from a chemical-protein interactome
US8843356B2 (en) Computer systems and methods for associating genes with traits using cross species data
JP2003521024A (ja) ハプロタイプデータの入手および使用のための方法
Elbers et al. A strategy to search for common obesity and type 2 diabetes genes
JP2005516310A (ja) 遺伝子を特定し、形質に関連する経路を明らかにするコンピュータ・システムおよび方法
US20210158894A1 (en) Processes for Genetic and Clinical Data Evaluation and Classification of Complex Human Traits
Johansson et al. Precision medicine in complex diseases—Molecular subgrouping for improved prediction and treatment stratification
KR102490338B1 (ko) 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법
Pang et al. Identification of target genes in hypertension and left ventricular remodeling
Juang et al. Rare variants discovery by extensive whole-genome sequencing of the Han Chinese population in Taiwan: Applications to cardiovascular medicine
Chicco et al. A brief survey of tools for genomic regions enrichment analysis
KR102085169B1 (ko) 개인 유전체 맵 기반 맞춤의학 분석 시스템 및 이를 이용한 분석 방법
Arbeev et al. Genetics of physiological dysregulation: findings from the long life family study using joint models
Gadbery et al. Integrating structural and evolutionary data to interpret variation and pathogenicity in adapter protein complex 4
KR102041504B1 (ko) 환자 계층화를 위한 맞춤의학 분석 플랫폼
KR20230006171A (ko) 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법
Fang et al. An automated multi-modal graph-based pipeline for mouse genetic discovery
Tusnády et al. LeishMANIAdb: a comparative resource for Leishmania proteins
KR102041497B1 (ko) 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법

Legal Events

Date Code Title Description
E90F Notification of reason for final refusal
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant