KR20230006171A

KR20230006171A - 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법

Info

Publication number: KR20230006171A
Application number: KR1020210087028A
Authority: KR
Inventors: 최철수; 오현희; 정성원
Original assignee: (의료)길의료재단; 가천대학교 산학협력단
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2023-01-10
Also published as: WO2023277423A1

Abstract

본 발명은 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법에 관한 것으로, 본 발명은 신약개발의 단계 중 혁신신약 타겟 발굴에 특화되어 있으며, 질환탐색이 이루어져야 하는 타겟 발굴 단계에서 다양한 질병의 원인 유전자를 발굴하고, 해당 유전자의 약물학적 조절 가능성을 평가할 수 있는 새로운 방법을 제공하며, 본 발명은 신약개발 단계에서 비용절감 및 기간 단축, 임상 성공률을 높일 수 있는 효과를 가진다. 또한 본 발명은 글로벌신약, first in class 신약을 개발에 필요한 unmet need를 극복하는 국내외 유일의 타겟 발굴 플랫폼으로서의 중요한 의의를 가진다.

Description

질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법{METHOD FOR PREDICTION OF DRUG TARGET GENE FOR TREATING AND PREVENTING DISEASES}

본 발명은 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법에 관한 것이다.

신약은 개발에 성공하기만 하면 특허의 보호 하에서 수십 년간 전 세계 시장에 독점 판매가 가능하여 단일 제품으로 막대한 이익을 창출해 낼 수 있다. 그러나 이러한 막대한 이익을 창출해 낼 수 있는 신약이 탄생하기까지는 수조 원의 비용이 필요하며, 장기간의 개발 연구 기간이 소요된다는 점에서 많은 제약회사가 어려움을 겪고 있다.

현재 글로벌 의약품 시장은 지금 초기 단계 파이프라인의 고갈 위기로 이를 돌파하기 위하여 글로벌 제약사는 혁신 신약, 신약개발 프로세스 개선 및 가치의 극대화를 위한 혁신?융합형 플랫폼 기술개발을 위한 투자를 지속하고 있다.

국내의 경우 규제강화, 정부의 지속적인 약값 인하 등의 정책으로 제네릭 중심 제약사업이 한계점에 도달하고 있어 글로벌 수준의 혁신 신약 파이프라인의 양적/질적 확보를 위한 R&D 가속화가 요구되고 있다.

일반적으로 신약 개발은 타겟 및 후보물질 탐색(Discovery and Development), 비임상시험(Preclinical Research), 임상시험(Clinical Research), NDA FDA Review, 판매 및 판매 후 임상 FDA Post-Market Safety Monitoring의 5단계로 이루진다.

신약 개발의 첫 번째 단계인 후보물질 탐색과정은 질환을 일으키는 원인을 분석하고 약의 작용점인 타겟(target)을 정하는 것이다. 여기서 어떠한 타겟과 효과적인 후보물질은 선택하는지에 따라서 신약 개발 비용과 시간이 결정된다.

특히 타겟 발굴 영역은 질환에 대한 이해와 전문성이 요구되는 단계로, 현재까지 인공지능을 활용한 신약개발 타겟 발굴은 글로벌 제약사도 M&A 영역으로 남겨두고 있고, 인공지능 관련 기업도 접근이 용이하지 않다.

따라서, 최근 신규 타겟 발굴, 약물 가상 탐색, 신약 재창출(Drug Repositioning), 독성 및 부작용 예측, 약물 기전(drug mode-of-action), 정밀의료를 위한 환자 세분화(patient stratification) 등 신약 개발의 전 과정에 걸쳐 바이오 빅데이터 분석 및 인공지능 기술을 도입하려는 시도가 계속되고 있다.

대한민국 공개특허 제10-2018-0058648호

이에 본 발명자는 빅데이터를 활용하여 혁신신약 타겟(후보 유전자) 발굴하고 특정 질병과의 연계성 및 지식 기반의 약물화 가능성을 예측할 수 있는 신약 타겟 유전자 예측 방법을 개발하였으며, 본 명세서를 통하여 구체적으로 개시된다.

상기 기술적 과제를 해결하고자, 본 발명의 일 실시예에 따르면, 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법을 제공하며, 상기 방법은

(1) 유전자 결손 마우스의 표현형을 분석하여 타겟 유전자를 선별하는 단계;

(2) 하기의 비순차적인 단계에 의하여 상기 선별된 유전자에 대한 신약 타겟으로서의 가능성을 평가하는 단계;

- 상기 선별된 유전자와 질병과의 관련성을 분석하는 단계;

- 상기 선별된 유전자로부터 코딩되는 단백질의 표적 약물 개발 동향을 분석하는 단계;

- 상기 선별된 유전자로부터 코딩되는 단백질의 생물학적 활성을 분석하는 단계;

- 인간에서 상기 선별된 유전자의 발현 양상을 분석하는 단계;

- 상기 선별된 유전자와 관련된 문헌 정보를 분석하는 단계;

- 상기 선별된 유전자 결손시 나타나는 부작용을 분석하는 단계;및

(3) 상기 평가 결과를 종합하는 단계를 포함할 수 있다.

본 발명의 일 실시예에 따르면, 상기 단계 (1)의 타겟 유전자를 선별하는 단계는 국제 마우스 표현형 컨소시엄 데이터베이스로부터 정성적 또는 정량적 표현형의 변화가 p<0.0001 또는 %change>10%인 유전자를 선별하는 단계를 포함할 수 있으나, 이에 제한되지 않는다.

본 발명의 일 실시예에 따르면, 상기 질병과의 관련성은 마우스 게놈 정보학 또는 오픈 타깃 플랫폼 데이터베이스로부터 선별한 질병 관련 용어를 이용하여 평가할 수 있으나, 이에 제한되지 않는다.

본 발명의 일 실시예에 따르면, 상기 선별된 유전자로부터 코딩되는 단백질의 표적 약물 개발 동향을 분석하는 단계는 표적 약물의 후보물질 개수, 관련 문헌의 기록생성일, 물질의 종류, 관련 적응증 또는 임상개발단계 항목에 의하여 평가하는 단계를 포함할 수 있으나, 이에 제한되지 않는다.

본 발명의 일 실시예에 따르면, 상기 선별된 유전자로부터 코딩되는 단백질의 생물학적 활성을 분석하는 단계는 상기 선별된 유전자로부터 코딩되는 단백질의 기능이 알려져 있는지 여부, 해당 단백질이 포함되어 있는 스트링 네트워크의 유무 및 해당 단백질의 상위 또는 하위 신호 전달 물질과의 신호전달경로의 유무 항목에 의하여 평가하는 단계를 포함할 수 있으나, 이에 제한되지 않는다.

본 발명의 일 실시예에 따르면, 인간에서 상기 선별된 유전자의 발현 양상을 분석하는 단계는 인간에서 발현되는 조직의 종류 및 발현 산물에 의하여 평가하는 단계를 포함할 수 있으나, 이에 제한되지 않는다.

본 발명의 일 실시예에 따르면, 상기 선별된 유전자와 관련된 문헌 정보를 분석하는 단계는 관련 문헌의 개수, 발행 연도, 생물학 관련성 및 피인용 지수(impact factor) 항목에 의하여 평가하는 단계를 포함할 수 있으나, 이에 제한되지 않는다.

본 발명의 일 실시예에 따르면, 상기 선별된 유전자 결손시 나타나는 부작용을 분석하는 단계는 상기 유전자 결손 마우스 표현형 정보로부터 심혈관계, 호흡기계, 중추신경계의 기능적 표현형 및 발암성 관련성 존재 유무에 의하여 평가하는 단계를 포함할 수 있으나, 이에 제한되지 않는다.

본 발명의 일 실시예에 따르면, 상기 선별된 유전자에 대한 신약 타겟으로서의 가능성을 평가하는 단계는 상기 선별된 유전자의 임상 유용성 및 임상 유전체를 분석하는 단계를 더 포함할 수 있으나, 이에 제한되지 않는다.

본 발명의 일 실시예에 따르면, 상기 선별된 유전자의 임상 유용성 분석 단계는 환자의 조직에서 유전자 발형 양상과 마우스 표현형 개수에 의하여 평가하는 단계를 포함할 수 있으나, 이에 제한되지 않는다.

본 발명의 일 실시예에 따르면, 상기 선별된 유전자의 임상 유전체 분석 단계는 데이터베이스에서 제공하는 단일염기이형성(Single nucleotide polymorphism; SNP)과 사람의 표현형의 관련성을 분석하는 단계를 포함할 수 있으나, 이에 제한되지 않는다.

본 발명의 일 실시예에 따르면, 상기 평가 결과를 종합하는 단계는 상기 단계 (2)의 각 단계에 의하여 평가된 점수를 모두 합하여 최종 점수를 도출하는 단계를 포함할 수 있으나, 이에 제한되지 않는다.

본 발명의 일 실시예에 따르면, 상기 질병은 대사질환일 수 있으나, 이에 제한되지 않는다.

본 발명은 신약개발의 단계 중 혁신신약 타겟 발굴에 특화되어 있으며, 질환탐색이 이루어져야 하는 타겟 발굴 단계에서 다양한 질병의 원인 유전자를 발굴하고, 해당 유전자의 약물학적 조절 가능성을 평가할 수 있는 새로운 방법을 제공하며, 본 발명은 신약개발 단계에서 비용절감 및 기간 단축, 임상 성공률을 높일 수 있는 효과를 가진다. 또한 본 발명은 글로벌신약, first in class 신약을 개발에 필요한 unmet need를 극복하는 국내외 유일의 타겟 발굴 플랫폼으로서의 중요한 의의를 가진다.

도 1은 본 발명의 대사질환 신약 타겟 유전자 예측 방법의 순서도를 개략적으로 나타내는 그림이다.
도 2는 IMPC 10.1 및 MGI 6.14에서 추출한 KO마우스 유전자를 나타내는 그림이다.
도 3은 대사성 표현형 용어집을 이용하여 대사성 유전자를 선발한 결과를 나타내는 그림이다.
도 4는 안전성 약리 부작용이 없는 대사성 유전자를 선발한 결과를 나타내는 그림이다.
도 5는 코딩된 단백질의 종류와 허가된 의약품의 표적 단백질 종류의 비교한 결과를 나타낸 그림이다.
도 6 및 도 7은 대사성 표현형을 유도하는 유전자의 정성적 분석 결과를 나타내는 그래프이다.
도 8은 유전자의 기능, 참여 네트워크 및 신호전달 경로의 주석을 분석한 결과를 나타내는 그림이다.
도 9는 자연어 처리 기반의 유전자-질환 상관성 분석 결과를 나타내는 그래프이다.
도 10은 대사성 유전자의 약물 개발 동향 분석 결과를 나타내는 그래프이다.
도 11은 대사질환 환자의 조직에서 대사성 유전자의 발현 값을 나타내는 그림이다.
도 12는 대사성 유전자의 사람 전장유전체 결과와의 비교 분석 결과를 나타내는 그래프이다.

본 발명은 유전자 결손 마우스의 표현형을 분석하여 질병과 관련된 표현형 변화가 인정되는 유전자를 선별하는 단계를 포함하는 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법을 제공한다.

상기 신약 타겟 유전자 예측 방법은 유전자 결손 마우스의 표현형을 분석하여 타겟 유전자를 선별하는 단계를 포함한다.

이후 상기 선별된 유전자와 질병과의 관련성을 분석하는 단계; 상기 선별된 유전자로부터 코딩되는 단백질의 표적 약물 개발 동향을 분석하는 단계; 상기 선별된 유전자로부터 코딩되는 단백질의 생물학적 활성을 분석하는 단계; 인간에서 상기 선별된 유전자의 발현 양상을 분석하는 단계; 상기 선별된 유전자와 관련된 문헌 정보를 분석하는 단계; 상기 선별된 유전자 결손시 나타나는 부작용을 분석하는 단계에 의하여 신약 타겟으로서의 가능성을 평가한다.

상기 유전자 결손 마우스의 표현형을 분석 단계는 국제 마우스 표현형 컨소시엄(IMPC, International Mouse Phenotyping Consortium), 마우스 게놈 정보학(MGI, Mouse Genome Informatics) 또는 오픈 타깃 플랫폼(OTP, Open target platform)의 데이터베이스를 이용하여 수행될 수 있으나, 이에 한정되는 것은 아니다.

상기 유전자 결손 마우스의 표현형을 분석 단계는 상기 국제 마우스 표현형 컨소시엄(IMPC) 및 마우스 게놈 정보학(MGI) 데이터베이스로부터 정성적 또는 정량적 표현형의 변화가 p<0.0001 또는 %change>10%인 유전자를 선별하였다.

상기 선별된 유전자에 대하여 질병과의 관련성을 평가할 수 있으며, 이는 포유류의 표현형 용어집(Mammalian phenotype terms)을 참고하여 마우스 게놈 정보학 또는 오픈 타깃 플랫폼 데이터베이스에서 선별한 대사성 표현형 용어(Metabolic term)의 개수, 분류, 방향성 등을 이용하여 평가할 수 있다.

카테고리	대사 용어(MP terms)
체조성(Body composition)	abnormal adipose tissue morphology; increased brown adipose tissue amount; increased white adipose tissue amount; abnormal adipose tissue distribution; abnormal muscle regeneration; abnormal body weight; increased body weight; obese; decreased body weight; abnormal grip strength; abnormal intestinal glucose absorption; abnormal brown adipose tissue amount; decreased brown adipose tissue amount; abnormal white adipose tissue amount; decreased white adipose tissue amount; abnormal exercise endurance; increased circulating ketone body level; abnormal white adipose tissue morphology; abnormal brown adipose tissue morphology; abnormal circulating ketone body level; decreased circulating ketone body level; abnormal lean body mass; increased lean body mass; decreased lean body mass; abnormal respiratory quotient; increased energy expenditure; decreased energy expenditure; increased oxygen consumption; decreased oxygen consumption; abnormal food intake; abnormal energy expenditure; abnormal body composition; abnormal adipose tissue amount; abnormal percent body fat/body weight; increased percent body fat/body weight; decreased percent body fat/body weight; increased susceptibility to diet-induced obesity; decreased susceptibility to diet-induced obesity; abnormal adipose tissue physiology; abnormal white adipose tissue physiology; abnormal mitochondrial physiology; increased fat cell size; abnormal lipolysis; impaired lipolysis; enhanced lipolysis; decreased subcutaneous adipose tissue amount; decreased abdominal adipose tissue amount; decreased total fat pad weight; increased total fat pad weight; increased carbon dioxide production; decreased carbon dioxide production; increased basal metabolism; increased white fat cell size; increased brown fat cell size; abnormal white fat cell lipid droplet size; increased white fat cell lipid droplet size; decreased white fat cell lipid droplet size; increased brown fat cell lipid droplet size; decreased brown fat cell lipid droplet size; increased brown fat cell number; decreased brown fat cell number; abnormal white fat cell number; increased white fat cell number; decreased white fat cell number; abnormal white fat cell size; decreased white fat cell size; decreased brown fat cell size; decreased fat cell size; decreased gonadal fat pad weight; increased gonadal fat pad weight; increased abdominal fat pad weight; decreased abdominal fat pad weight; increased epididymal fat pad weight; decreased epididymal fat pad weight; increased femoral fat pad weight; decreased femoral fat pad weight; increased inguinal fat pad weight; decreased inguinal fat pad weight; increased interscapular fat pad weight; decreased interscapular fat pad weight; increased mesenteric fat pad weight; decreased mesenteric fat pad weight; increased parametrial fat pad weight; decreased parametrial fat pad weight; increased renal fat pad weight; decreased renal fat pad weight; increased retroperitoneal fat pad weight; decreased retroperitoneal fat pad weight; abnormal skeletal muscle satellite cell proliferation; increased total body fat amount; decreased total body fat amount; increased omental fat pad weight; decreased omental fat pad weight; increased grip strength; decreased grip strength; increased respiratory quotient; decreased respiratory quotient; increased subcutaneous adipose tissue amount; abnormal lipid oxidation; abnormal fatty acid beta-oxidation; abnormal fatty acid oxidation; abnormal respiratory electron transport chain; abnormal mitochondrial ATP synthesis coupled electron transport; abnormal aerobic respiration; abnormal adaptive thermogenesis; impaired adaptive thermogenesis; abnormal adipose tissue development; lipodystrophy; abnormal circulating ghrelin level; increased circulating ghrelin level; decreased circulating ghrelin level; increased mitochondria number; decreased mitochondria number; increased mitochondria size; decreased mitochondria size; abnormal brown adipose tissue physiology; abnormal brown adipose tissue thermogenesis; abnormal myoblast differentiation; increased food intake; decreased food intake; enhanced exercise endurance; abnormal myofibroblast differentiation; impaired myofibroblast differentiation; abnormal body fat mass; impaired muscle regeneration; improved muscle regeneration; abnormal skeletal muscle regeneration; impaired skeletal muscle regeneration; increased intestinal glucose absorption; decreased intestinal glucose absorption; increased body fat mass; decreased body fat mass; abnormal white adipose tissue mass; increased white adipose tissue mass; decreased white adipose tissue mass; abnormal brown adipose tissue mass; decreased brown adipose tissue mass; increased brown adipose tissue mass; increased fatty acid oxidation; decreased fatty acid oxidation; increased fatty acid beta-oxidation; decreased fatty acid beta-oxidation; abnormal total fat pad weight; decreased basal metabolism; abnormal endoplasmic reticulum stress; increased endoplasmic reticulum stress; increased abdominal adipose tissue amount; abnormal mitochondrial biogenesis; browned white adipose tissue morphology; abnormal circulating free fatty acids level; increased circulating free fatty acid level; decreased circulating free fatty acid level; abnormal glycerol level; decreased glycerol level; increased glycerol level; decreased circulating glycerol level; increased circulating glycerol level; abnormal circulating glycerol level
이상지질혈증(Dyslipidemia)	abnormal circulating cholesterol level; abnormal circulating LDL cholesterol level; increased circulating LDL cholesterol level; decreased circulating LDL cholesterol level; abnormal circulating HDL cholesterol level; decreased circulating HDL cholesterol level; abnormal triglyceride level; abnormal lipid level; hyperlipidemia; increased circulating triglyceride level; increased circulating HDL cholesterol level; abnormal lipid homeostasis; decreased susceptibility to hyperlipidemia; decreased circulating triglyceride level; abnormal cholesterol level; abnormal circulating lipid level; increased circulating VLDL triglyceride level; decreased circulating VLDL triglyceride level; increased cholesterol level; decreased cholesterol level; abnormal circulating VLDL cholesterol level; increased circulating VLDL cholesterol level; decreased circulating VLDL cholesterol level; increased circulating cholesterol level; decreased circulating cholesterol level; increased triglyceride level; decreased triglyceride level; abnormal circulating lipoprotein level; abnormal circulating triglyceride level; abnormal lipid metabolism
포도당항상성(Glucose homeostasis)	abnormal circulating glucose level; hypoglycemia; hyperglycemia; abnormal circulating insulin level; abnormal glucose homeostasis; increased circulating insulin level; abnormal circulating glucagon level; decreased circulating glucagon level; increased glucagon secretion; decreased glucagon secretion; increased circulating glucagon level; abnormal glycogen catabolism; increased glycogen catabolism rate; decreased glycogen catabolism rate; decreased circulating insulin level; increased insulin sensitivity; increased insulin secretion; decreased insulin secretion; decreased pancreatic beta cell number; abnormal gluconeogenesis; abnormal pancreatic beta cell physiology; abnormal insulin secretion; abnormal glucagon secretion; increased pancreatic beta cell number; abnormal insulin clearance; decreased cellular glucose uptake; increased cellular glucose import; abnormal muscle cell glucose uptake; abnormal adipocyte glucose uptake; abnormal glucose tolerance; improved glucose tolerance; impaired glucose tolerance; insulin resistance; abnormal glycogen level; abnormal glycogen homeostasis; decreased glycogen level; increased glycogen level; increased circulating glucose level; decreased circulating glucose level; abnormal glycosylated hemoglobin level; decreased glycosylated hemoglobin level; increased glycosylated hemoglobin level; abnormal circulating pancreatic peptide level; abnormal pancreatic somatostatin secretion; abnormal pancreatic beta cell mass; increased pancreatic beta cell mass; decreased pancreatic beta cell mass; abnormal pancreatic beta cell differentiation; abnormal circulating fructosamine level; increased circulating fructosamine level; decreased circulating fructosamine level; decreased liver glycogen level; decreased skeletal muscle glycogen level; increased liver glycogen level; increased skeletal muscle glycogen level; abnormal pancreatic beta cell proliferation; increased pancreatic beta cell proliferation; decreased pancreatic beta cell proliferation; abnormal liver glycogen level; abnormal carbohydrate metabolism; abnormal fasting circulating glucose level; decreased fasting circulating glucose level; increased fasting circulating glucose level; abnormal muscle glycogen level; abnormal skeletal muscle glycogen level; abnormal pancreatic beta cell apoptosis; increased pancreatic beta cell apoptosis; decreased pancreatic beta cell apoptosis; abnormal susceptibility to non-insulin-dependent diabetes; increased susceptibility to non-insulin-dependent diabetes; decreased susceptibility to non-insulin-dependent diabetes; increased susceptibility to diet-induced non-insulin dependent diabetes; decreased susceptibility to diet-induced non-insulin dependent diabetes; abnormal susceptibility to diet-induced non-insulin dependent diabetes; abnormal hepatic glucose production; increased hepatic glucose production; decreased hepatic glucose production; abnormal pancreatic beta cell number; increased adipocyte glucose uptake; decreased adipocyte glucose uptake; increased muscle cell glucose uptake; decreased muscle cell glucose uptake
비알콜성지방간증(NAFLD)	abnormal circulating aspartate transaminase level; abnormal liver morphology; abnormal circulating alanine transaminase level; decreased susceptibility to hepatic steatosis; increased circulating alanine transaminase level; decreased circulating alanine transaminase level; decreased liver function; increased circulating aspartate transaminase level; decreased circulating aspartate transaminase level; increased liver triglyceride level; decreased liver triglyceride level; decreased liver cholesterol level; increased liver cholesterol level; abnormal liver cholesterol level; abnormal liver triglyceride level

구체적으로 첫번째로 임상적으로 의의가 높은 285개의 대사 용어(Metabolic term)를 상기 [표 1]과 같이 결정하고, 임상에서 질환 개념으로 체조성(Body composition), 포도당 항상성(Glucose homeostasis), 이상지질혈증(Dyslipidemia), 비알콜성지방간증(Non-alcoholic fatty liver disease; NAFLD)과 같이 4개의 카테고리(Category)로 분류한 후, 상기 대사 용어(Metabolic term)와 카테고리를 많이 포함하는 것부터 순서대로 나열하고 1순위에 100점, 최하순위에 1점을 부여하고 전체 순위에 균등하게 점수를 [표 2]와 같이 구간화하였다(Score-1).

대사 용어 수	카테고리 수	점수(Score_1)
>=5	4	100
	3	91
	2	82
	1	73
3,4	4	64
	3	55
	2	45
	1	36
2	2	27
2	1	18
1	1	9
0	0	0

두 번째로 결정된 285개의 대사성 표현형 용어는 (1) 질병의 극복 또는 대사기능의 개선과 (2) 질병의 악화 또는 대사기능의 저하와 같이 2가지 방향으로 구분하여 방향성으로 정의하였다. 방향성은 상기 선별된 유전자와 질병과의 관련성을 이해하고, 그 결과에 따라 치료제 개발 전략에서 길항제(antagonist) 또는 작용제(agonist)에 개발에 대한 결정할 수 있는 정보를 제공하기 때문에 2가지 방향 중 어느 한쪽으로 편중되는 경우 높은 점수로 평가되도록 순위를 부여하였다. 방향성(

), 방향성의 교란 값을 보완하기 위한 보완 값(complication score)(

), 방향성의 합(

)을 통계적 구간화를 통해 구간화하여 평가(Score-2) 한 후, 점수는 66% Score-1 + 34% Score-2로 계산하여 평가하는 것을 특징으로 한다.

구체적으로 선별된 유전자와 관련된 285개의 대사성 표현형 용어 중 질병의 극복 또는 대사기능의 개선에 해당하는 용어를 선별하고, 용어를 선별하고, X1을 [개수 × (+1)]로 정의하였다.

또한 선별된 유전자와 관련된 285개의 대사성 표현형 용어 중 질병의 악화 또는 대사기능의 저하에 해당하는 용어를 선별하고, X2를 [개수 × (-1)]로 정의하였다.

상기 정의된 X1 및 X2의 방향성 값, 보완값 및 방향성의 합을 계산하고, 방향성의 값은 71이상; 51 ~ 71; 34 ~ 50; 26 ~ 33; 1 ~ 25으로 구분하여 우선순위를 6부터 1까지 부여하였으며, 각각의 구간을 다시 보완값이 0, 1, 2, 3, 4이상으로 재분류하여 우선순위를 부여하였다. 또한 상기 재분류된 구간을 다시 방향성의 합이 5, 4, 3, 2, 5로 재분류하고 우선순위를 부여하고, 최종적으로 방향성의 값이 71이상이고 보완값이 0이고 방향성의 합이 7이상인 경우를 1순위로 지정하고 최하 순위(방향성의 값이 1 ~ 25이고 보완값이 4이고 방향성의 합이 2)까지 순서대로 순위를 나열하였다. 그리고 1순위에 100점, 최하순위에 1점을 부여하고 전체 순위에 균등하게 점수를 [표 3]과 같이 구간화하였다.

방향성	보완값	방향성의 합	점수(Score_2)
6	0	5	100
		4	79
		3	66
		2	65
		1	65
	1	5	97
		4	77
		3	64
		2	63
		1	63
	2	5	93
		4	74
		3	61
		2	61
		1	60
	3	5	90
		4	71
		3	59
		2	59
		1	58
	4	5	87
		4	69
		3	57
		2	56
		1	56
5	0	5	83
		4	66
		3	55
		2	54
		1	54
	1	5	80
		4	63
		3	52
		2	52
		1	52
	2	5	77
		4	61
		3	50
		2	50
		1	49
	3	5	73
		4	58
		3	48
		2	48
		1	47
	4	5	70
		4	55
		3	46
		2	45
		1	45
4	0	5	67
		4	53
		3	44
		2	43
		1	43
	1	5	63
		4	50
		3	41
		2	41
		1	40
	2	5	60
		4	47
		3	39
		2	39
		1	38
	3	5	57
		4	45
		3	37
		2	36
		1	36
	4	5	53
		4	42
		3	35
		2	34
		1	34
3	0	5	50
		4	39
		3	32
		2	32
		1	32
	1	5	47
		4	37
		3	30
		2	30
		1	29
	2	5	43
		4	34
		3	28
		2	28
		1	27
	3	5	40
		4	31
		3	26
		2	25
		1	25
	4	5	37
		4	29
		3	24
		2	23
		1	23
2	0	5	33
		4	26
		3	21
		2	21
		1	20
	1	5	30
		4	23
		3	19
		2	19
		1	18
	2	5	27
		4	21
		3	17
		2	16
		1	16
	3	5	23
		4	18
		3	15
		2	14
		1	14
	4	5	20
		4	15
		3	12
		2	12
		1	12
1	0	5	17
		4	13
		3	10
		2	10
		1	9
	1	5	13
		4	10
		3	8
		2	8
		1	7
	2	5	10
		4	7
		3	6
		2	5
		1	5
	3	5	7
		4	5
		3	4
		2	3
		1	3
	4	5	3
		4	2
		3	1
		2	1
		1	0

상기 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법은 상기 선별된 유전자로부터 코딩되는 단백질의 표적 약물 개발 동향을 분석하는 단계를 포함할 수 있다.

상기 선별된 유전자로부터 코딩되는 단백질의 표적 약물 개발 동향을 분석하는 단계는 인테그리티 분석 도구(https://integrity.clarivate.com/integrity/xmlxsl)의 데이터베이스로부터 수행될 수 있으나, 이에 한정되는 것은 아니다.

상기 선별된 유전자로부터 코딩되는 단백질의 표적 약물 개발 동향을 분석하는 단계는 상기 선별된 유전자로부터 코딩되는 단백질에 대한 표적 약물의 후보물질 개수, 관련 문헌의 기록생성일, 물질의 종류, 관련 적응증 또는 임상개발단계 항목에 의하여 평가하는 것을 특징으로 한다.

상기 선별된 유전자로부터 코딩되는 단백질의 표적 약물 개발 동향은 [표 4]와 같이 분류하고 평가하였다.

순위	후보물질 개수	기록생성일	물질의 종류	적응증	개발단계	점수
1	N > 0	YR < 10	Small molecule	Non-metabolic	Preclinical	100
2	N > 0	YR < 10	Biologics	Metabolic	Preclinical	92
3	N > 0	YR < 10	Small molecule	Non-metabolic	Clinical	83
4	N = 0	N/D	N/D	N/D	N/D	75
5	N > 0	YR < 10	Small molecule	Metabolic	Preclinical	67
6	N > 0	YR < 10	Biologics	Metabolic	Preclinical	58
7	N > 0	YR < 10	Biologics	Metabolic	Clinical	50
8	N > 0	YR >= 10	Small molecule	Non-metabolic	Preclinical	42
9	N > 0	YR >= 10	Biologics	Non-metabolic	Preclinical	33
10	N > 0	YR >= 10	Biologics	Metabolic	Preclinical	25
11	N > 0	YR >= 10	Small molecule	Metabolic	Preclinical	17
12	N > 0	YR >= 10	Biologics	Non-metabolic	Clinical	8
13	N > 0	YR >= 10	Small molecule	Metabolic	Clinical	0

* N/A: 정보 없음, YR = year, Small molecule = 저분자화합물, Biologics = 생물학적제제, Metabolic = 대사질환 적응증, Non-metabolic = 비대사질환 적응증, Preclinical = 전임상개발단계, Clinical = 임상개발단계

구체적으로 관련 문헌의 기록생성일은 기록생성일로부터 평가 시점까지의 기간을 10년 이상 및 10년 미만으로 분류하고, 기록생성일이 짧은 유전자에 대하여 높은 점수를 부여할 수 있다.

상기 물질의 종류는 저분자 합성 화합물 및 생물학적제제로 분류하였으며, 구체적으로 상기 저분자 합성 화합물은 화학합성에 의해 만들어지는 저분자량(대략 분자량 1,000 이하)의 화합물을 지칭하고, 생물학적제제는 일명 바이오의약품으로 유전자 재조합에 의해 제조된 재조합 단백질, 백신, 진단 및 항체의약품 등을 포함하며, 세포배양 같은 생물공정을 이용하여 제조될 수 있는 제제를 의미한다.

상기 적응증은 비만 및 당뇨를 포함하는 대사질환 적응증 및 비만 및 당뇨를 제외한 비대사질환 적응증으로 분류하고, 임상개발단계는 전임상개발단계 및 임상개발단계로 분류할 수 있으나 이에 제한되는 것은 아니다.

후보물질 개수가 존재하고, 관련 문헌의 기록생성일이 10년 미만이고, 비대사질환 적용증과 관련된 경우와 현재 임상개발단계가 전임상단계인 경우에 가장 높은 점수를 부여할 수 있다.

선별된 유전자로부터 코딩되는 단백질의 표적 약물 개발 동향이 존재하지 않는 경우(N=0)에는 오히려 신약으로 개발될 가능성이 큰 것으로 판단되어 상대적으로 높은 점수를 부여할 수 있다.

따라서 상기 [표 4]와 같이 순위를 부여하고 1순위에 100점, 최하순위에 1점을 부여하고 전체 순위에 균등하게 점수를 구간화하였다.

상기 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법은 상기 선별된 유전자로부터 코딩되는 단백질의 생물학적 활성을 분석하는 단계를 더 포함할 수 있다.

상기 선별된 유전자로부터 코딩되는 단백질의 기능, 세포내 네트워크 및 신호 전달 경로를 분석하는 단계는 KEGG pathway(https://www.genome.jp/kegg/pathway.html), 유니프로트(UniProt, https://www.uniprot.org/), 메타코어(MetaCore. https://portal.genego.com/) 또는 스트링(String, https://string-db.org/)의 데이터베이스로부터 수행될 수 있으나, 이에 한정되는 것은 아니다.

구체적으로, 상기 선별된 유전자로부터 코딩되는 단백질의 생물학적 활성을 분석하는 단계는 상기 선별된 유전자로부터 코딩되는 단백질의 기능이 알려져 있는지 여부, 해당 단백질이 포함되어 있는 스트링 네트워크의 유무, 해당 단백질의 상위 또는 하위 신호 전달 물질과의 신호전달경로의 유무 항목에 의하여 평가하는 것을 특징으로 한다.

상기 선별된 유전자로부터 코딩되는 단백질의 신호 전달 경로는 [표 5]와 같이 분류하고 평가하였다.

기능	스트링 네트워크	신호 전달 경로	Score
Available	Available	Available	100
N/A	Available	Available	86
Available	N/A	Available	71
Available	Available	N/A	57
N/A	N/A	Available	43
N/A	Available	N/A	29
Available	N/A	N/A	14
N/A	N/A	N/A	0

선별된 유전자로부터 코딩되는 단백질의 기능은 해당 유전자로부터 코딩되는 단백질에 관련된 기능이 논문에 의한 공개 유무에 따라 분류하였다.

스트링이란 예측되거나 잘 알려진 Protein-Protein 상호작용에 대한 정보를 담고 있는 database로, 선별된 유전자로부터 코딩되는 단백질이 포함되어 있는 스트링 네트워크가 존재하는지 여부에 따라 분류하였다.

신호전달이란 신호전달물질이 수용체에 결합하여 2차 신호전달물질, 예를 들어 아미노산, 펩티드, 단백질, 지방산, 지질, 뉴클레오티드 등을 발생시켜 세포의 활동을 조절하는 방법을 의미하며, 선별된 유전자로부터 코딩되는 단백질의 상위 또는 하위 신호 전달 물질에 대한 효과가 특정되었는지 여부에 따라 분류하였다.

상기 기능, 스트링 네트워크 및 신호전달경로가 모두 밝혀져 있는 경우 가장 높은 점수를 부여하였으며, 기능, 스트링 네트워크 및 신호전달경로 순서로 가중치를 높게 부여하여 8개의 카테고리에 순위를 지정하였다. 예를 들어 스트링 네트워크 및 신호전달경로가 밝혀져 있는 유전자의 경우 기능 및 스트링 네트워크가 밝혀져 있는 유전자보다 신약 타겟으로서의 가능성을 높게 평가 하였다.

따라서 기능, 스트링 네트워크 및 신호전달경로가 모두 밝혀져 있는 경우 1순위로 지정하고 최하 순위(기능, 스트링 네트워크 및 신호전달경로가 모두 밝혀지지 않은 경우)까지 순서대로 순위를 지정하였다. 그리고 1순위에 100점, 최하순위에 1점을 부여하고 전체 순위에 균등하게 점수를 구간화하였다.

상기 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법은 인간과 전임상 검증을 위하여 마우스에서 상기 선별된 유전자의 발현 양상을 분석하는 단계를 더 포함할 수 있다.

상기 선별된 유전자의 발현 양상을 분석하는 단계는 사람 유전자는 지텍스 포탈(Gtex portal, https://gtexportal.org/home/), 마우스 유전자는 바이오지피에스(http://biogps.org/#goto=welcome), 사람 단백질 아틀라스(https://www.proteinatlas.org/)의 데이터베이스로부터 수행될 수 있으나, 이에 한정되는 것은 아니다.

상기 선별된 유전자의 발현 양상을 분석하는 단계는 인간과 마우스에서 발현되는 조직의 종류 및 발현산물의 종류 항목에 의하여 평가하는 것을 특징으로 한다.

발현 조직과 발현산물, 발현양에 대한 기준, 선택된 기관(organ)과 조직(tissue)에 대한 정의는 [표 6]과 같다.

	Protein ATLAS (Human protein)	GTEx (Human mRNA)	BioGPS (Mouse mRNA)
Metabolic tissue 정의	Liver, adipose, muscle tissues	Liver, adipose tissue, muscle, hypothalamus	Liver, adipose tissue, muscle, hypothalamus
Intestine 정의	Gastrointestinal tract	Gastrointestinal tract	Gastrointestinal tract
Pan-tissue 정의	all target organ	all target organ	all target organ
CNS 정의	Brain	Brain (hypotalamus 제외)	Brain (hypotalamus 제외)
발현(expression)양 기준	발현되는 모든 조직, 유무	> maximum 값의 50%	> maximum 값의 50%
Target organ (개수)	12	14	13
Target tissue (개수)	27	34	30

구체적으로 상기 조직의 종류는 대사성질환과 관련된 간, 지방조직, 근육, 시상하부는 대사성질환 관련 조직(Metabolic tissue), 위장관 조직(Intestine), 전체 조직 발현(Pan-tissue) 및 중추신경 조직 발현(CNS) 등 4개로 분류하고, 발현 유무를 다음과 같이 순차적 점수화에 반영하였다; 1) metabolic tissue, 2) metabolic tissue + intestine, 3) intestine, 4) metabolic tissue + intestine + CNS, 4) CNS를 제외한 Pan-tissue, 5) metabolic tissue + CNS, 5) metabolic tissue + intestine + CNS, 6) intestine + CNS, 7) CNS를 포함한 Pan-tissue, 8) only CNS. 상기 발현산물의 종류는 Protein Atlas (Human protein), GTEx (Human mRNA), BioGPS (Mouse mRNA)와 같이 사람과 마우스의 단백질 및 RNA로 분류하고, 발현여부를 다음과 같이 순차적 점수화에 반영하였다; 1) Human protein + Human mRNA + Mouse mRNA, 2) Human protein + Human mRNA, 3) Human protein + Mouse mRNA, 4) Human protein, 5) Human mRNA + Mouse mRNA, 6) Human mRNA, 7) Mouse mRNA. 부작용증으로 해석하는 신경 조직 발현(CNS)은 Human protein 정보만 사용하였다.

따라서 발현조직과 발현산물을 조합하여 상기 1순위(metabolic tissue 및 Human protein + Human mRNA + Mouse mRNA)에 100점, 최하순위(CNS를 포함한 Pan-tissue 및 Mouse mRNA)에 1점, CNS에만 발현되는 것에 0점을 부여하고 전체 순위에 균등하게 점수를 [표 7]과 같이 구간화 하였다.

Metabolic tissue			Intestine			+pan			+CNS			점수 (100)
Human Protein	Human mRNA	Mouse mRNA	Human Protein	Human mRNA	Mouse mRNA	Human Protein	Human mRNA	Mouse mRNA	Human Protein	Human mRNA	Mouse mRNA	점수 (100)
1	1	1										100.00
1	1											99.55
1	1							1				99.10
1		1										98.64
1		1					1					98.19
1												97.74
1							1					97.29
1								1				96.83
1							1	1				96.38
	1	1										95.93
	1	1				1						95.48
	1											95.02
	1					1						94.57
	1							1				94.12
	1					1		1				93.67
		1										93.21
		1				1						92.76
		1					1					92.31
		1				1	1					91.86
1	1	1	1	1	1							91.40
1	1	1	1	1								90.95
1	1	1	1		1							90.50
1	1	1	1									90.05
1	1	1		1	1							89.59
1	1	1		1								89.14
1	1	1			1							88.69
1	1		1	1	1							88.24
1	1		1	1								87.78
1	1		1	1				1				87.33
1	1		1		1							86.88
1	1		1									86.43
1	1		1					1				85.97
1	1			1	1							85.52
1	1			1								85.07
1	1			1				1				84.62
1	1				1							84.16
1		1	1	1	1							83.71
1		1	1	1								83.26
1		1	1		1							82.81
1		1	1		1		1					82.35
1		1	1									81.90
1		1	1				1					81.45
1		1		1	1							81.00
1		1		1								80.54
1		1			1							80.09
1		1			1		1					79.64
1			1	1	1							79.19
1			1	1								78.73
1			1	1				1				78.28
1			1		1							77.83
1			1		1		1					77.38
1			1									76.92
1			1				1					76.47
1			1					1				76.02
1			1				1	1				75.57
1				1	1							75.11
1				1								74.66
1				1				1				74.21
1					1							73.76
1					1		1					73.30
	1	1	1	1	1							72.85
	1	1	1	1								72.40
	1	1	1		1							71.95
	1	1	1									71.49
	1	1		1	1							71.04
	1	1		1	1	1						70.59
	1	1		1								70.14
	1	1		1		1						69.68
	1	1			1							69.23
	1	1			1	1						68.78
	1		1	1	1							68.33
	1		1	1								67.87
	1		1	1				1				67.42
	1		1		1							66.97
	1		1									66.52
	1		1					1				66.06
	1			1	1							65.61
	1			1	1	1						65.16
	1			1								64.71
	1			1		1						64.25
	1			1				1				63.80
	1			1		1		1				63.35
	1				1							62.90
	1				1	1						62.44
		1	1	1	1							61.99
		1	1	1								61.54
		1	1		1							61.09
		1	1		1		1					60.63
		1	1									60.18
		1	1				1					59.73
		1		1	1							59.28
		1		1	1	1						58.82
		1		1								58.37
		1		1		1						57.92
		1			1							57.47
		1			1	1						57.01
		1			1		1					56.56
		1			1	1	1					56.11
						1	1	1				55.66
						1	1					55.20
						1		1				54.75
						1						54.30
							1	1				53.85
							1					53.39
								1				52.94
1	1	1							1			52.49
1	1								1			52.04
1	1							1	1			51.58
1		1							1			51.13
1		1					1		1			50.68
1									1			50.23
1							1		1			49.77
1									1	0		49.32
1								1	1	0		48.87
	1	1							1			48.42
	1								1			47.96
	1							1	1			47.51
		1							1			47.06
		1					1		1			46.61
1	1	1	1	1	1				1			46.15
1	1	1	1	1					1			45.70
1	1	1	1		1				1			45.25
1	1	1	1						1			44.80
1	1	1		1	1				1			44.34
1	1	1		1					1			43.89
1	1	1			1				1			43.44
1	1		1	1	1				1			42.99
1	1		1	1					1			42.53
1	1		1	1				1	1			42.08
1	1		1		1				1			41.63
1	1		1						1			41.18
1	1		1					1	1			40.72
1	1			1	1				1			40.27
1	1			1					1			39.82
1	1			1				1	1			39.37
1	1				1				1			38.91
1		1	1	1	1				1			38.46
1		1	1	1					1			38.01
1		1	1		1				1			37.10
1		1	1		1		1		1			36.65
1		1	1						1			36.20
1		1	1				1		1			35.75
1		1		1	1				1			35.29
1		1		1					1			34.84
1		1			1				1			34.39
1		1			1		1		1			33.94
1			1	1	1				1			33.48
1			1	1					1			33.03
1			1	1				1	1			32.58
1			1		1				1			32.13
1			1		1		1		1			31.67
1			1						1			31.22
1			1				1		1			30.77
1			1					1	1			30.32
1			1				1	1	1			29.86
1				1	1				1			29.41
1				1					1			28.96
1				1				1	1			28.51
1					1				1			28.05
1					1		1		1			27.60
	1	1	1	1	1				1			27.15
	1	1	1	1					1			26.70
	1	1	1		1				1			26.24
	1	1	1						1			25.79
	1	1		1	1				1			25.34
	1	1		1					1			24.89
	1	1			1				1			24.43
	1		1	1	1				1			23.98
	1		1	1					1			23.53
	1		1		1				1			23.08
	1		1						1			22.62
	1		1					1	1			22.17
	1			1	1				1			21.72
	1			1					1			21.27
	1			1				1	1			20.81
	1				1				1			20.36
		1	1	1	1				1			19.91
		1	1	1					1			19.46
		1	1		1				1			19.00
		1	1		1		1		1			18.55
		1	1						1			18.10
		1	1				1		1			17.65
		1		1	1				1			17.19
		1		1					1			16.74
		1			1				1			16.29
		1			1		1		1			15.84
			1	1	1							15.38
			1	1								14.93
			1	1				1				14.48
			1		1							14.03
			1		1		1					13.57
				1	1							13.12
				1	1	1						12.67
			1									12.22
			1					1				11.76
			1				1					11.31
			1				1	1				10.86
				1								10.41
				1				1				9.95
				1		1						9.50
				1		1		1				9.05
					1							8.60
					1		1					8.14
					1	1						7.69
					1	1	1					7.24
			1	1	1				1			6.79
			1	1					1			6.33
			1	1				1	1			5.88
			1		1				1			5.43
			1		1		1		1			4.98
			1						1			4.52
			1				1		1			4.07
			1					1	1			3.62
				1	1				1			3.17
				1					1			2.71
				1				1	1			2.26
					1				1			1.81
					1		1		1			1.36
							1	1	1			0.90
								1	1			0.45
									1			0.00
												0.00

본 발명의 또 다른 실시예에서, 상기 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법은 상기 선별된 유전자와 관련된 문헌 정보를 분석하는 단계를 더 포함할 수 있다.

상기 선별된 유전자와 관련된 문헌 정보를 분석하는 단계는 다중 문헌 검색 도구(https://pubmatrix.irp.nia.nih.gov/cgi-bin/index.pl), 오픈 타깃 플랫폼(https://www.targetvalidation.org/) 또는 미국 국립생물정보센터(https://www.ncbi.nlm.nih.gov/mesh)의 데이터베이스로부터 수행될 수 있으나, 이에 제한되는 것은 아니다.

유전자와 관련된 문헌인지 여부는 문헌에 관련 유전자가 포함되어 있는지 여부로 구별하였다. 구체적으로 PubMed(pibmed.ncbi.nlm.nih.gov)에서 출판된 SCI(E) 논문 중 최근 20년 이내 논문의 초록(abstract)에 상기 유전자가 포함되어 있는 논문을 상기 유전자와 관련된 논문으로 선별하였다.

상기 선별된 유전자와 관련된 문헌 정보를 분석하는 단계는 관련 문헌의 개수, 발행 연도, 생물학 관련성 및 피인용 지수(impact factor) 항목에 의하여 평가하는 것을 특징으로 한다.

상기 선별된 유전자와 관련된 문헌 정보는 생물학 관련성, 문헌의 발행 연도, 문헌의 개수 및 IF에 의하여 분류하고 평가하였다.

상기 생물학 관련성은 논문의 주제 및 내용이 특정 질환, 유전자 기능 등 직접적인 생물학의 범주에 들어오는 경우 생물학 관련 문헌(biology)으로, 전장유전체 등 간접적인 생물학의 범주에 들어오는 경우 비생물학 관련 문헌(non-biol)로 분류할 수 있으며, 상기 생물학 관련 문헌으로 분류된 경우에 비생물학 관련 문헌으로 분류된 경우에 비하여 우선 순위를 부여할 수 있다.

상기 생물학 관련성으로 분류한 후 문헌의 발행 연도로 분리하여 우선순위를 부여하였다. 상기 문헌 발행 연도는 선별된 논문 중 가장 오래된 문헌의 발행 연도가 10년 이하인지, 10년 초과인지로 분류하고, 10년이 초과된 경우보다는 10년 이하인 경우에 우선순위를 부여할 수 있다.

상기 문헌 발행 연도로 분리한 후, 상기 문헌의 개수를 30개 이하, 31 ~ 100개, 101개 이상으로 분류하여 신규성과 과학적 근거를 평가하고, 상기 문헌의 개수가 적을수록 우선 순위를 부여할 수 있다.

상기 문헌의 개수로 분류한 이후에는 선별된 유전자와 관련된 문헌의 피인용지수(Impact factor, IF)로 다시 분류하였으며, 선별된 유전자와 관련된 문헌의 피인용지수(Impact factor, IF)가 3 미만, 3 이상 10 미만, 10 이상으로 분류하고, 상기 피인용지수가 높을수록 높은 점수를 부여하였다. 상기 피인용지수는 선별된 논문이 여러 개인 경우에 그 평균일 수 있고 또는 피인용지수가 가장 높은 문헌의 피인용지수이다.

따라서 생물학 관련성이 있고, 문헌의 발행 연도가 10년 이하이고, 관련 문헌의 개수가 30개 이하이고, 피인용지수(Impact factor, IF) 10 이상인 카테고리를 1순위로 지정하고 최하 순위까지 순서대로 순위를 지정하였다. 그리고 1순위에 100점, 최하순위에 1점을 부여하고 전체 순위에 균등하게 점수를 [표 8]과 같이 구간화하였다.

순위	문헌의 개수	발행 연도	생물학 관련성	IF	점수
1	=< 30	=< 10	Biol	>= 10	100
2	=< 30	=< 10	Biol	3 =< IF < 10	97
3	=< 30	=< 10	Biol	<3	94
4	30 < Count =< 100	=< 10	Biol	>= 10	91
5	30 < Count =< 100	=< 10	Biol	3 =< IF < 10	89
6	30 < Count =< 100	=< 10	Biol	<3	86
7	> 100	=< 10	Biol	>= 10	83
8	> 100	=< 10	Biol	3 =< IF < 10	80
9	> 100	=< 10	Biol	<3	77
10	=< 30	> 10	Biol	>= 10	74
11	=< 30	> 10	Biol	3 =< IF < 10	71
12	=< 30	> 10	Biol	<3	69
13	30 < Count =< 100	> 10	Biol	>= 10	66
14	30 < Count =< 100	> 10	Biol	3 =< IF < 10	63
15	30 < Count =< 100	> 10	Biol	<3	60
16	> 100	> 10	Biol	>= 10	57
17	> 100	> 10	Biol	3 =< IF < 10	54
18	> 100	> 10	Biol	<3	51
19	=< 30	=< 10	Non-biol	>= 10	49
20	=< 30	=< 10	Non-biol	3 =< IF < 10	46
21	=< 30	=< 10	Non-biol	<3	43
22	30 < Count =< 100	=< 10	Non-biol	>= 10	40
23	30 < Count =< 100	=< 10	Non-biol	3 =< IF < 10	37
24	30 < Count =< 100	=< 10	Non-biol	<3	34
25	> 100	=< 10	Non-biol	>= 10	31
26	> 100	=< 10	Non-biol	3 =< IF < 10	29
27	> 100	=< 10	Non-biol	<3	26
28	=< 30	> 10	Non-biol	>= 10	23
29	=< 30	> 10	Non-biol	3 =< IF < 10	20
30	=< 30	> 10	Non-biol	<3	17
31	30 < Count =< 100	> 10	Non-biol	>= 10	14
32	30 < Count =< 100	> 10	Non-biol	3 =< IF < 10	11
33	30 < Count =< 100	> 10	Non-biol	<3	9
34	> 100	> 10	Non-biol	>= 10	6
35	> 100	> 10	Non-biol	3 =< IF < 10	3
36	> 100	> 10	Non-biol	<3	0

상기 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법은 상기 유전자 결손 마우스의 표현형으로부터 상기 선별된 유전자에 의한 부작용을 분석하는 단계를 더 포함할 수 있다.

상기 유전자 결손 마우스의 표현형으로부터 상기 선별된 유전자에 의한 부작용을 분석하는 단계는 상기 유전자 결손 마우스 표현형 정보로부터 심혈관계, 호흡기계, 중추신경계의 기능적 표현형 중 어느 하나 및 출판된 논문에서 MeSH(Medical Subject Headings, www.ncbi.nlm.nih.gov > NCBI > Literature) term을 기준으로 발암성 관련성 존재 유무에 의하여 평가하는 것을 특징으로 한다.

상기 선별된 유전자에 의한 부작용은 중추신경계, 심혈관계 및 호흡기계 각각에서 기능적 표현형이 존재하는 경우 1, 존재하지 않는 경우 0으로 정의하고, 발암 관련성 MeSH term이 존재하는 경우 1, 존재하지 않는 경우 0으로 정의한 후 중추신경계, 심혈관계 및 호흡기계 중 어느 하나와 관련된 기능적 부작용의 개수를 0 ~ 3으로 분류하고, 이를 다시 발암 관련성 부작용의 개수 0 ~ 1로 재분류하여, 어떠한 부작용이 존재하지 않는 경우에 가장 높은 순서를 부여하였다.

중추신경계, 심혈관계 및 호흡기계 중 어느 하나와 관련된 기능적 부작용의 개수 0 이고 발암 관련성 부작용의 개수가 0 인 카테고리를 1순위로 지정하고 최하 순위(중추신경계, 심혈관계 및 호흡기계와 관련된 기능적 부작용이 모두 존재하고, 발암 관련성 MeSH term이 존재하는 경우)까지 순서대로 순위를 지정하였다. 그리고 1순위에 100점, 최하순위에 1점을 부여하고 전체 순위에 균등하게 점수를 [표 9]와 같이 구간화하였다.

순위	Safety_Sum (CNS, CV, Respir)	Cancer	Weight	Score	Score (0-100)
1	0	0	1.5	10.5	100
2	0	1	1.5	9	86
3	1	0	1.2	6	57
4	1	1	1.2	4.8	46
5	2	0	1	3	29
6	2	1	1	2	19
7	3	0	1	1	10
8	3	1	1	0	0

상기 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법은 상기 유전자와 관련된 임상 유용성(human relevance) 및 임상유전체 결과를 분석하는 단계를 더 포함할 수 있다.

상기 선별된 유전자의 임상 유용성 및 임상유전체 결과를 분석하는 단계는 정성원 교수님 논문 중 대사성 질환 환자군의 간, 근육, 지방조직에서 유전자의 발현량 분석 데이터(Implications of publicly available genomic data resources in searching for therapeutic targets of obesity and type 2 diabetes. Exp Mol Med. 2018 Apr 20;50(4):1-13. PMID: 29674722), DIAGRAM (DIAbetes Genetics Replication And Meta-analysis, http://diagram-consortium.org/downloads.html), GIANT (Genetic Investigation of ANthropometric Traits, http://portals.broadinstitute.org/collaboration/giant/index.php/GIANT_consortium_data_files), GLGC (Global Lipids Genetics Consortium Results, http://csg.sph.umich.edu/willer/public/lipids2013/), MAGIC (Meta-Analyses of Glucose and Insulin-related traits Consortium, https://www.magicinvestigators.org/downloads/), Identification of type 2 diabetes loci in 433,540 East Asian individuals (Nature volume 582, pages240-245, 2020)의 데이터베이스로부터 수행될 수 있으나, 이에 한정되는 것은 아니다.

선별된 상기 유전자의 임상 유용성(human relevance) 분석은 대사성 질환 환자의 조직에서 유전자 발현 값을 분석하는 것으로 비만 환자군, 비만 및 당뇨병을 가지고 있는 환자군에서 대사성 질환과 관련된 조직인 간, 근육 지방조직에서 정상인과 비교하여 상기 유전자의 발현양 변화를 상기 유전자 결손 마우스의 표현형과 비교하여 분석하는 것을 특징으로 한다.

상기 선별된 유전자의 간, 근육 지방조직에서 발현 결과의 정의는 정상인과 비교하여 비만 환자군과 비만 및 당뇨병 환자군의 유전자의 발현양이 증가하거나 감소하는지 여부와 상기 선별된 유전자의 마우스 표현형 용어의 개수로 분류할 수 있다.

구체적으로, 환자군과 조직이 조합된 6개의 집단(비만환자군의 간, 비만환자군의 근육, 비만환자군의 지방조직, 비만 및 당뇨병 환자군의 간, 비만 및 당뇨병 환자군의 근육, 비만 및 당뇨병 환자군의 지방조직)에서 정상인과 비교하여 상기 유전자의 발현양 변화(증가하거나 또는 감소) 여부를 1 ~ 6개로 분류하고(비만환자군의 간에서만 변화가 있는 경우 1, 6개 집단에서 모두 변화가 있는 경우 6), 이를 각각 상기 유전자 결손 마우스의 표현형 용어의 개수가 7개 이상, 5 ~ 7개, 4개, 3개, 2개, 1개, 0개로 재분류하였다.

구체적으로 상기 유전자의 발현양 변화가 0인 경우에는 순위에서 제외하였으며(0 순위), 상기 유전자의 발현양이 1이면서 상기 유전자 결손 마우스의 표현형 용어의 개수가 0일 경우에는 최하 순위를 부여하였다.

상기 유전자의 발현양 변화가 6이면서 상기 유전자 결손 마우스의 표현형 용어의 개수가 7개 이상인 카테고리를 1순위로 지정하고 최하 순위까지 순서대로 순위를 지정하였다. 그리고 1순위에 100점, 최하순위에 1점을 부여하고 전체 순위에 균등하게 점수를 [표 10]과 같이 구간화하였다.

순위	Count of Tissue expression	Direction : Mouse MP term_Count	weight	점수
1	6	>7	54.6	100
2		5-7	53.3	98
3		4	44	81
4		3	39	71
5		2	38	70
6		1	37	68
7	5	>7	46.8	86
8		5-7	45.5	83
9		4	37.4	68
10		3	33	60
11		2	32	59
12		1	31	57
13	4	>7	39	71
14		5-7	37.7	69
15		4	30.8	56
16		3	27	49
17		2	26	48
18		1	25	46
19	3	>7	26.4	48
20		5-7	25.3	46
21		4	22	40
22		3	21	38
23		2	20	37
24		1	19	35
25	2	>7	19.8	36
26		5-7	18.7	34
27		4	16	29
28		3	15	27
29		2	14	26
30		1	13	24
31	1	>7	13.2	24
32		5-7	12.1	22
33		4	10	18
34		3	9	16
35		2	8	15
36		1	7	13
37	6	0	6	11
38	5	0	6	11
39	4	0	6	11
40	3	0	5	9
41	2	0	5	9
42	1	0	5	9
43	0	>7	0	1
44		5-7	0	1
45		4	0	1
46		3	0	1
47		2	0	1
48		1	0	1

선별된 상기 유전자의 임상유전체 분석은 대사성 질환과 관련된 유전자의 전장유전체 결과를 비교 분석하는 것으로 대사성표현형은 11개(T2D susceptibility, HDL, cholesterol, LDL cholesterol, total cholesterol, triglyceride, fasting glucose, fasting insulin, insulin sensitivity index, insulin secretion, Body mass index, East Asian T2D susceptibility)가 선택되었는데, 2형 당뇨병에 대한 감수성(T2D susceptibility)은 DIAGRAM 데이터베이스를 활용하였고, 혈중 지질 표현형(HDL, LDL, total cholesterol, triglyceride)은 GLGC 데이터베이스를 활용하였고, 포도당과 인슐린 관련 표현형(fasting glucose, fasting insulin, insulin sensitivity index, insulin secretion)은 MAGIC 데이터베이스를 활용하였고, 체조성(Body mass index)은 GIANT 데이터베이스를 활용하였고, 동아시아인의 2형 당뇨병에 대한 감수성(East Asian T2D susceptibility)은 2020년 발표된 Nature 논문을 활용하였다.

상기 각각의 데이터베이스에서 제공하는 단일염기이형성(Single nucleotide polymorphism; SNP)과 대사성 표현형의 상관성은 통계 값을 기준으로 p-값이 0.05 이하인 경우 상기 선별된 유전자와 대사성 표현형의 유의적인 상관성을 인정하였다.

따라서 대사성 표현형의 개수가 11개인 카테고리를 1순위로 지정하고 최하 순위(대사성 표현형의 개수가 0개)까지 순서대로 순위를 지정하였다. 그리고 1순위에 100점, 최하순위에 1점을 부여하고 전체 순위에 균등하게 점수를 [표 11]과 같이 구간화하였다.

순위	Metabolic phenotype	점수
1	11	100
2	10	91
3	9	82
4	8	73
5	7	64
6	6	55
7	5	45
8	4	36
9	3	27
10	2	18
11	1	9
12	0	0

상기 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법은 상기 각 단계에 의하여 평가된 점수를 모두 합하여 최종 점수를 도출하는 단계를 더 포함할 수 있으며, 상기 최종 점수가 높은 유전자에 질병의 치료 및 예방을 위한 신약 타겟 유전자로서의 우선 순위를 부여할 수 있다.

본 발명의 또 다른 실시예에서, 상기 질병은 대사성 질환이고, 상기 대사성 질환은 당뇨병, 비만, 지방간, 지방간염, 이상지질혈증 또는 대사증후군 중 어느 하나인 것을 특징으로 한다.

이하, 실시예를 통해 본 발명을 보다 구체적으로 설명한다. 그러나 이들 예는 본 발명의 이해를 돕기 위한 것일 뿐 어떠한 의미로든 본 발명의 범위가 이들 예로 한정되는 것은 아니다.

실시예

1. 유전자 결손 마우스 표현형 분석을 통한 대사질환 원인 유전자 선별

당뇨병, 비만, 고혈압증, 고지혈증 등 대사질환 원인 유전자를 발견하기 위하여, 국제 마우스 표현형 컨소시엄(IMPC)(https://www.mousephenotype.org/), 마우스 게놈 정보학(MGI)(http://www.informatics.jax.org/) 데이터베이스로부터 유전자 결손 마우스 표현형 정보를 분석하였다.

유전자 결손 후 정성적 또는 정량적(p < 0.001) 표현형 변화가 인정된 유전자를 선발하였다.

도 2를 참고하면, 총 1,099,794개의 대립유전자 중 단백질을 코딩하는 유전자는 IMPC에서 4,070개, MGI에서 10,719개를 확인하였고, 이중 3,608개 유전자는 두개의 데이터베이스에서 공통적으로 관찰되었다.

2. 대사성 표현형 용어집을 이용한 대사성 유전자의 선발

포유류 표현형 용어집(http://www.informatics.jax.org/vocab/mp_ontology)에서 임상적으로 의의가 높은 대사성 표현형 용어집을 제작하였다.

포유류의 표현형 용어집(Mammalian phenotype terms)을 참고하여 임상적으로 의의가 높은 체조성(Body composition) 용어 158개, 포도당 항상성(Glucose homeostasis) 용어 82개, 이상지질혈증(Dyslipidemia) 용어 30개와 비알콜성지방간증(Non-alcoholic fatty liver disease; NAFLD) 용어 15개를 작성하고, 대사성 표현형 용어집을 완성하였다(도 3).

대사성 표현형 용어집을 이용하여 IMPC 및 MGI에서 확인된 단백질 코딩 유전자의 KO마우스 표현형 결과와 비교하여 결손 시 대사성 표현형이 관찰되는 유전자 4,363개를 확인하였다.

3. 약리 부작용이 없는 대사성 유전자의 선발

심혈관계(Cardiovascular system; CV), 중추신경계(Central nervous system; CNS) 및 호흡기계(Respiratory systems; Respir)의 기능적 이상에 해당하는 포유류 표현형 용어를 분석하고 각각 54개, 266개, 그리고 68개의 부작용 표현형 용어를 완성하였다.

벤다이어그램 분석을 통해 안전성 약리 부작용을 갖는 대사성 유전자를 확인한 결과, 762개의 유전자는 결손 시 1개 이상의 안전성 약리 부작용을 나타내는 것으로 관찰되었다(도 4).

반면, 733개의 대사성 유전자는 안전성 약리 부작용이 관찰되지 않았다. 안전성 약리 부작용이 관찰되지 않은 유전자(Adverse effect negative; AE(-))와 안전성 약리 부작용이 1개 이상 관찰된 유전자(AE(+))의 유전자 집합 농축 분석 (Gene set enrichment analysis; GSEA)을 수행한 결과, 안전성 약리 부작용이 관찰되지 않은 유전자는 퍼옥시좀 증식체 활성화 수용체 신호전달경로(Peroxisome proliferator-activated receptor(PPAR) signaling pathway, q = 9.69E-24)와 지방산 대사(Fatty acid metabolism, q = 4.22E-10) 기능에 유의적으로 기여하며, 안전성 약리 부작용이 관찰된 유전자는 신경 활성 리간드 수용체 상호 작용(Neuroactive ligand receptor interaction, q = 2.32E-07)과 칼슘 신호전달경로(Calcium signaling, q = 3.36E-17) 등에 유의적으로 기여하고 있음이 확인되었다.

4. 코딩된 단백질의 종류와 허가된 의약품의 표적 단백질 종류의 비교

대사성 유전자 중 허가된 의약품이 없는 신규 유전자 4,136개를 확인하고, 각각의 유전자가 코딩하는 단백질 종류를 분석한 결과, 결합 단백질(Binding protein)를 코딩하는 유전자 1,365개, 리간드(Ligand)를 코딩하는 유전자 192개, 그리고 수용체(Receptor)를 코딩하는 유전자 184개 등을 확인하였다(도 5).

미국 식품의약품안전처(US FDA)에서 기허가한 의약품의 표적 단백질 종류를 분석한 결과, 수용체 및 리간드 등이 전체 의약품 표적의 34%로 우점하는 것을 관찰하였고, 따라서, 해당 단백질 종류가 신약 개발 가능성이 높은 표적으로 분류되었다.

신규 대사성 유전자 중 G단백 결합 수용체(GPCR)을 코딩하는 유전자 122개, 수용체를 코딩하는 유전자 184개와 리간드를 코딩하는 유전자 192개를 우선 순위화하여 대사성 질환의 신규 타깃 가능성을 분석하였다.

5. 대사성 표현형을 유도하는 유전자의 정성적 분석

최초 IMPC 및 MGI 데이터베이스에서 추출한 14,789개의 KO마우스 유전자 중 도 3에서 언급된 대사성 표현형이 관찰된 유전자 4,363개를 확인하였다. 이 중 IMPC 데이터베이스에서 826개의 대사성 유전자를 확인하였고, MGI에서 2,564개의 대사성 유전자를 확인하였고, 두 데이터베이스에서 973개의 대사성 유전자를 공통적으로 확인하였다.

확인된 대사성 표현형과 해당 대사성 표현형을 유도하는 유전자의 빈도를 히스토그램으로 표현하였다. 도 6을 참고하면, 왼쪽 그래프는 IMPC 데이터베이스를 이용한 대사성 표현형 유전자의 빈도 분석을 나타내고, 우측 그래프는 MGI 데이터베이스를 이용한 대사성 표현형 유전자의 빈도 분석을 나타낸다.

가로축은 각각의 대사성 표현형 용어를 나타내고 세로축은 해당 대사성 표현형을 유도하는 유전자의 빈도를 나타내고, 파란색 그래프는 대사성 표현형별 유전자의 빈도를 나타내고, 빨간색 그래프는 이를 누적하여 나타낸다.

6. 대사성 표현형을 유도하는 유전자의 정량적 분석

IMPC 데이터베이스로부터 추출한 KO마우스의 대사성 표현형 정보를 12개의 대사성 표현형 지표로 구분하여 표현형 변화 구간별(%change) 유전자 빈도로 표현하였다.

대사성 표현형은 혈중 콜레스테롤(Cholesterol; CHOL), 중성지질(Triglyceride; TG), 자유 지방산(Free fatty acid; FFA), 저밀도 지단백질(Low density lipoprotein; LDL), 고밀도 지단백질(High density lipoprotein), 체중(Body weight; BW), 근육량(Lean mass), 지방량(Fat mass), 인슐린 농도(Insulin level), 내당능(Glucose tolerance), 포도당 농도(Glucose level)과 공백혈당(Fasting glucose level)의 변화량을 구분하여 나타내었다.

각각의 대사성 표현형은 정상 마우스와 비교하여 10% 이상의 표현형 값 변화와 p = 0.0001의 통계적 유의성을 기준으로 분석한 후, 생물학적 및 통계적 유의성이 인정된 대사성 유전자 1,799개를 확인하였다(도 7).

7. 유전자의 기능, 참여 네트워크 및 신호전달 경로의 주석 분석

HUGO에서 추출한 사람의 전체 유전자 19,296개와 UniProt에서 추출한 기능이 명시된 유전자 16,421개, STRING에서 추출한 네트워크 참여 유전자 16,066개, 그리고 KEGG에서 추출한 신호전달경로 참여 유전자 5,241개를 벤다이어그램으로 분석한 결과, 2,033개의 유전자는 기능, 참여 네트워크, 그리고 신호전달경로에 대한 정보가 없는 것으로 확인되었고, 기능, 참여 네트워크, 그리고 신호전달경로에 대한 정보가 모두 있는 유전자는 4,679개로 확인되었다(도 8).

유전자의 기능, 참여 네트워크 및 신호전달경로 정보의 가용성에 따라 유전자의 빈도를 히스토그램으로 나타내었다. 이러한 분석 결과는, 신규 대사성 유전자와의 비교 분석을 통해 해당 유전자의 기능, 참여 네트워크 및 신호전달경로를 이해하는 기초 정보를 제공하였다.

8. 자연어 처리 기반의 유전자-질환 상관성 분석

2형 당뇨, 비만, 지질대사이상 및 비알콜성지방간증과 선발된 대사성 유전자의 문헌적 상관적 분석을 위해 자연어 처리(Natural language process; NLP) 기반의 문헌 분석을 수행하였고, 총 1,495개의 대사성 유전자는 평균 0.01937의 문헌 기반 유전자-대사질환 상관성을 나타내었다.

도 5의 결과와 유사하게, 신약개발 가능성이 높은 리간드, 수용체 및 G단백 결합 수용체를 코딩하는 유전자의 문헌 기반 유전자-대사질환 상관성은 각각 0.04669, 0.03539, 그리고 0.0315로 평균적인 유전자-대사질환 상관성 보다 높게 관찰되었다(도 9).

9. 대사성 유전자의 약물 개발 동향

도5 및 도9의 결과를 토대로 신약개발 가능성이 높은 리간드, 수용체 및 G단백 결합 수용체를 코딩하는 유전자의 약물 개발 동향을 분석한 결과, 카이네이즈 활성을 갖는 수용체(Receptor linked with kinase activity; RTK)를 코딩하는 대사성 유전자는 모두 비임상(Preclinical) 및 임상(Clinical) 단계의 약물 개발 동향이 확인되어 신규성을 확인할 수 없었다.

반면, 리간드(Ligand)를 코딩하는 유전자 110개 중 54개, G단백 결합 수용체(GPCR)를 코딩하는 71개의 유전자 중 48개, 그리고 수용체(Receptor)를 코딩하는 108개의 유전자 중 71개는 비임상 또는 약물 개발 동향이 보고된 바 없어 신규성을 인정할 수 있었다.

도 10을 참고하면, 파란색 그래프는 각각의 유전자별로 비임상 단계까지 개발 중인 약물 개수를 나타내고, 빨간색 그래프는 임상 이후 단계의 약물 개수를 나타낸다. 좌측 가로축은 비임상 단계까지의 약물 개수를 나타내고, 우측 가로축은 임상 이후 단계의 약물 개수를 나타낸다.

10. 대사질환 환자의 조직에서 대사성 유전자의 발현 값

비만 환자의 조직에서 대사성 유전자의 발현 값을 정상인의 조직과 비교한 결과, 비만 환자의 지방조직에서 170개의 유전자, 간 조직에서 195개의 유전자, 그리고 골격근조직에서 287개의 유전자가 정상인과 상이한 mRNA 발현 값이 관찰되었다.

그리고 비만과 2형 당뇨를 동시에 갖는 환자의 조직에서 동일한 분석을 수행한 결과, 지방조직에서 257개의 유전자, 간 조직에서 138개의 유전자, 그리고 골격근조직에서 283개의 유전자가 정상인과 상이한 mRNA를 발현량을 나타내었다. 환자와 정상인의 유전자 발현 값은 FDR로 보정한 p = 0.05의 수준에서 통계적 유의성을 확인하였다.

써코스 그래프는 각각의 환자군에서 대사성 유전자의 발현 값을 나타낸다(도 11). 제1층은 대표적인 대사성 유전자의 심볼을 나타내고, 제2층은 염색체 번호를 나타내고, 제3층은 지방조직에서의 발현 값을 나타내고, 제4층은 간 조직에서의 발현 값을 나타내고, 제5층은 골격근조직에서의 발현 값을 나타낸다. 조직별 발현 값은 적색선을 중심으로 증가 또는 감소치를 점으로 표현하였다. 이를 통해 KO마우스 표현형 분석을 통해 확인한 대사성 유전자의 임상적 의의를 확보하였다.

11. 대사성 유전자의 사람 전장유전체 결과와의 비교 분석

KO마우스 표현형 분석을 통해 선발한 대사성 유전자를 대사성 표현형별로 수집한 사람의 전장유전체 결과와 비교 분석하였다. 2형 당뇨병에 대한 감수성은 DIAGRAM 데이터베이스를 활용하였고, 혈중 지질 표현형은 GLGC 데이터베이스를 활용하였고, 포도당과 인슐린 관련 표현형은 MAGIC 데이터베이스를 활용하였고, 체조성은 GIANT 데이터베이스를 활용하였다.

각각의 데이터베이스에서 제공하는 단일염기이형성(Single nucleotide polymorphism; SNP)과 대사성 표현형의 상관성은 (-)로그 전환된 p-값으로 표현하였다. 대사성 표현형과 유의적인 상관성이 인정된 이형성 단일염기는 유전자 심볼로 주석 변환한 후 대사성 유전자와 비교 분석하여 KO마우스 표현형 분석을 통해 확인한 대사성 유전자의 임상 유전체적 의의를 확인하였다.

12. 당뇨병 치료를 위한 타겟 유전자 발굴

DPP4 억제제는 이미 시판된 당뇨병 치료제의 혁신신약(first-in-class)으로 2006년에 시장에 판매된 이후 시장 점유율이 높은 치료제 중 하나이다. 본 발명자는 DPP4 억제제를 본 발명의 알고리즘을 이용하여 개발 당시의 시점과 현재 시점에서의 점수를 계산하고 비교하였다.

	전임상 개발 초기 시점 (2000년)	현재 시점(2020년)
표현형	79	79
신호전달경로	57	57
개발동향	96	35
문헌 정보	15	9
유전자 발현 양상	89	89
부작용	100	46
임상 유용성	28	28
합계	464	343

비교 결과 현재 시점의 점수보다 전임상 개발 당시 시점(2000년)의 점수가 높게 분석되었다. 현재 시점의 점수가 낮은 이유는 이미 개발되었기 때문으로 지금의 알고리즘에서는 당연히 점수가 낮게 제시되는 것이 타당하고, 이러한 결과는 과거 개발 시점에서는 first-in-class를 위한 신규성(novelty)를 잘 반영하는 것이기 때문에 점수가 잘 반영된 것을 확인할 수 있다.

또한 본 발명자는 세계 10 이내의 글로벌 제약사(Pfizer, Gilead Sciences, Ionis Pharmaceuticals)에 의해 지방간염 치료제 혁신신약으로 임상 2상 개발중인 타겟인 ACC2와 DGAT2의 전임상 개발 당시 시점의 환경에서 점수를 계산하였다.

	ACC2 (전임상 개발 초기 시점)	DGAT2 (전임상 개발 초기 시점)
표현형	90	79
신호전달경로	100	100
개발동향	100	100
문헌 정보	56	29
유전자 발현 양상	88	96
부작용	86	100
임상 유용성	31	18
합계	551	522

평가 결과 개발중인 타겟인 ACC2와 DGAT2 모두 500점 이상의 높은 점수가 측정되는 것을 확인할 수 있었다.

따라서 본 발명의 신약 타겟 유전자 예측 방법은 first-in-class 신약 개발의 혁신타겟을 발굴하고 제시하는데 특화된 기능을 확인할 수 있다.

Claims

(1) 유전자 결손 마우스의 표현형을 분석하여 타겟 유전자를 선별하는 단계;
(2) 하기의 비순차적인 단계에 의하여 상기 선별된 유전자에 대한 신약 타겟으로서의 가능성을 평가하는 단계;
- 상기 선별된 유전자와 질병과의 관련성을 분석하는 단계;
- 상기 선별된 유전자로부터 코딩되는 단백질의 표적 약물 개발 동향을 분석하는 단계;
- 상기 선별된 유전자로부터 코딩되는 단백질의 생물학적 활성을 분석하는 단계;
- 인간에서 상기 선별된 유전자의 발현 양상을 분석하는 단계;
- 상기 선별된 유전자와 관련된 문헌 정보를 분석하는 단계;
- 상기 선별된 유전자 결손시 나타나는 부작용을 분석하는 단계;및
(3) 상기 평가 결과를 종합하는 단계를 포함하는 질병의 치료 및 예방을 위한 신약 타겟 유전자 예측 방법.
제1항에 있어서,
상기 타겟 유전자를 선별하는 단계는 국제 마우스 표현형 컨소시엄 데이터베이스로부터 정성적 또는 정량적 표현형의 변화가 p<0.0001 또는 %change>10%인 유전자를 선별하는 단계를 포함하는 신약 타겟 유전자 예측 방법.
제1항에 있어서,
상기 질병과의 관련성은 마우스 게놈 정보학 또는 오픈 타깃 플랫폼 데이터베이스로부터 선별한 질병 관련 용어를 선별하고, 이러한 용어를 많이 포함하는지 여부를 평가하는 신약 타겟 유전자 예측 방법.
제1항에 있어서,
상기 선별된 유전자로부터 코딩되는 단백질의 표적 약물 개발 동향을 분석하는 단계는 표적 약물의 후보물질 개수, 관련 문헌의 기록생성일, 물질의 종류, 관련 적응증 또는 임상개발단계 항목에 의하여 평가하는 단계를 포함하는 신약 타겟 유전자 예측 방법.
제1항에 있어서,
상기 선별된 유전자로부터 코딩되는 단백질의 생물학적 활성을 분석하는 단계는 상기 선별된 유전자로부터 코딩되는 단백질의 기능이 알려져 있는지 여부, 해당 단백질이 포함되어 있는 스트링 네트워크의 유무 및 해당 단백질의 상위 또는 하위 신호 전달 물질과의 신호전달경로의 유무 항목에 의하여 평가하는 단계를 포함하는 신약 타겟 유전자 예측 방법.
제1항에 있어서,
인간에서 상기 선별된 유전자의 발현 양상을 분석하는 단계는 인간에서 발현되는 조직의 종류 및 발현 산물에 의하여 평가하는 단계를 포함하는 신약 타겟 유전자 예측 방법.
제1항에 있어서,
상기 선별된 유전자와 관련된 문헌 정보를 분석하는 단계는 관련 문헌의 개수, 발행 연도, 생물학 관련성 및 피인용 지수(impact factor) 항목에 의하여 평가하는 단계를 포함하는 신약 타겟 유전자 예측 방법.
제1항에 있어서,
상기 선별된 유전자 결손시 나타나는 부작용을 분석하는 단계는 상기 유전자 결손 마우스 표현형 정보로부터 심혈관계, 호흡기계, 중추신경계의 기능적 표현형 및 발암성 관련성 존재 유무에 의하여 평가하는 단계를 포함하는 신약 타겟 유전자 예측 방법.
제1항에 있어서,
상기 선별된 유전자에 대한 신약 타겟으로서의 가능성을 평가하는 단계는 상기 선별된 유전자의 임상 유용성 및 임상 유전체를 분석하는 단계를 더 포함하는 신약 타겟 유전자 예측 방법.
제9항에 있어서,
상기 선별된 유전자의 임상 유용성 분석 단계는 환자의 조직에서 유전자 발형 양상과 마우스 표현형 개수에 의하여 평가하는 단계를 포함하는 신약 타겟 유전자 예측 방법.
제9항에 있어서,
상기 선별된 유전자의 임상 유전체 분석 단계는 데이터베이스에서 제공하는 단일염기이형성(Single nucleotide polymorphism; SNP)과 사람의 표현형과의 관련성을 분석하는 단계를 포함하는 신약 타겟 유전자 예측 방법.
제1항에 있어서,
상기 평가 결과를 종합하는 단계는 상기 단계 (2)의 각 단계에 의하여 평가된 점수를 모두 합하여 최종 점수를 도출하는 단계를 포함하는 신약 타겟 유전자 예측 방법.
제1항에 있어서,
상기 질병은 대사질환인 신약 타겟 유전자 예측 방법.