KR102204509B1 - 기계학습을 이용한 유전자 변이의 병원성 예측 시스템 - Google Patents
기계학습을 이용한 유전자 변이의 병원성 예측 시스템 Download PDFInfo
- Publication number
- KR102204509B1 KR102204509B1 KR1020200121299A KR20200121299A KR102204509B1 KR 102204509 B1 KR102204509 B1 KR 102204509B1 KR 1020200121299 A KR1020200121299 A KR 1020200121299A KR 20200121299 A KR20200121299 A KR 20200121299A KR 102204509 B1 KR102204509 B1 KR 102204509B1
- Authority
- KR
- South Korea
- Prior art keywords
- data
- protein sequence
- pathogenicity
- machine learning
- sequence
- Prior art date
Links
- 230000007918 pathogenicity Effects 0.000 title claims abstract description 52
- 238000010801 machine learning Methods 0.000 title claims abstract description 28
- 230000008826 genomic mutation Effects 0.000 title 1
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 119
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 116
- 230000004927 fusion Effects 0.000 claims abstract description 37
- 230000035772 mutation Effects 0.000 claims abstract description 33
- 238000013528 artificial neural network Methods 0.000 claims abstract description 25
- 150000001413 amino acids Chemical class 0.000 claims description 27
- 238000013135 deep learning Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 19
- 238000000034 method Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 12
- 238000002887 multiple sequence alignment Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000001717 pathogenic effect Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 21
- 239000013598 vector Substances 0.000 description 13
- 206010064571 Gene mutation Diseases 0.000 description 7
- 230000007614 genetic variation Effects 0.000 description 4
- 238000003754 machining Methods 0.000 description 4
- 108010021466 Mutant Proteins Proteins 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 239000002773 nucleotide Substances 0.000 description 3
- 125000003729 nucleotide group Chemical group 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000002864 sequence alignment Methods 0.000 description 3
- 102000008300 Mutant Proteins Human genes 0.000 description 2
- 125000003275 alpha amino acid group Chemical group 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 206010069754 Acquired gene mutation Diseases 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 208000035977 Rare disease Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000037439 somatic mutation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Biotechnology (AREA)
- Software Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Physics (AREA)
- Chemical & Material Sciences (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Computational Linguistics (AREA)
- Genetics & Genomics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
도 2는 본 발명의 일 실시예에 따른, 단백질 서열 정보를 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른, 임베딩 기법을 이용하여 단백질 서열 특징을 나타내는 단백질 서열 데이터를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른, 다중 서열 정열을 이용하여 진화적 보존 특징을 나타내는 진화적 보존 데이터를 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 제1 특징추출부가 자연상태 서열 데이터로부터 서열 특징을 추출하여 제1 가공데이터를 생성하는 것을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 제1 특징추출부가 진화적 보존 데이터로부터 서열 특징을 추출하여 제3 가공데이터를 생성하는 것을 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른 융합데이터 생성부가 가공데이터를 이용하여 융합데이터를 생성하는 것을 설명하기 위한 도면이다.
도 8은 본 발명의 일 실시예에 따른 제2 특징추출부가 융합데이터를 이용하여 비교데이터를 생성하는 것을 설명하기 위한 도면이다.
도 9는 본 발명의 일 실시예에 따른 병원성 판단부의 개략적인 구성을 도시한 블록도이다.
도 10은 본 발명의 일 실시예에 따른 비교데이터 생성부가 제1 비교데이터와 제2 비교데이터를 결합하여 제3 비교데이터를 생성하는 것을 설명하기 위한 도면이다.
도 11은 본 발명의 일 실시예에 따른 차이점 추출부가 제3 비교데이터를 이용하여 차이점데이터를 생성하는 것을 설명하기 위한 도면이다.
도 12는 본 발명의 일 실시예에 따른 표시부가 차이점데이터로부터 병원성 점수를 표시하는 것을 설명하기 위한 도면이다.
12: 유전자 변이 단백질 서열 데이터 20: 진화적 보존 데이터
30: 가공데이터 31: 제1 가공데이터
32: 제2 가공데이터 33: 제3 가공데이터
40: 융합데이터 41: 제1 융합데이터
42: 제2 융합데이터 50: 비교데이터
51: 제1 비교데이터 52: 제2 비교데이터
53: 제3 비교데이터 60: 차이점데이터
70: 병원성 점수 100: 단백질 서열 데이터 생성부
200: 진화적 보존 데이터 생성부 300: 제1 특징 추출부
400: 융합데이터 생성부 500: 제2 특징 추출부
600: 병원성 판단부
1000: 기계 학습을 이용한 유전자 변이의 병원성 예측 시스템
Claims (10)
- 자연상태 단백질(wild-type protein) 서열 정보로부터 단백질 서열 특징을 추출하여 자연상태 단백질 서열 데이터를 생성하고, 유전자 변이가 포함된 변이형 단백질(mutant-type protein) 서열 정보로부터 단백질 서열 특징을 추출하여 유전자 변이 단백질 서열 데이터를 생성하는 단백질 서열 데이터 생성부;
상기 자연상태 단백질 서열 정보와 다수의 유사 단백질 서열 정보로부터 다중 서열 정렬(MSA; Multiple Sequence Alignment)을 이용하여 진화적 보존 특징이 포함되어 있는 진화적 보존 데이터를 생성하는 진화적 보존 데이터 생성부;
딥러닝 네트워크를 이용하여 상기 자연상태 단백질 서열 데이터로부터 서열 특징을 추출하여 제1 가공데이터를 생성하고, 상기 유전자 변이 단백질 서열 데이터로부터 서열 특징을 추출하여 제2 가공데이터를 생성하고, 상기 진화적 보존 데이터로부터 서열 특징을 추출하여 제3 가공데이터를 생성하는 제1 특징추출부;
상기 제1 가공데이터와 상기 제3 가공데이터를 융합하여 제1 융합데이터를 생성하고, 상기 제2 가공데이터와 상기 제3 가공데이터를 융합하여 제2 융합데이터를 생성하는 융합데이터 생성부;
딥러닝 네트워크를 이용하여 상기 제1 융합데이터로부터 서열 특징을 추출하여 제1 비교데이터를 생성하고, 상기 제2 융합데이터로부터 서열 특징을 추출하여 제2 비교데이터를 생성하는 제2 특징추출부; 및
인공 신경망 네트워크를 이용하여 상기 제1 비교데이터와 상기 제2 비교데이터를 학습하여 유전자 변이의 병원성을 판단하는 병원성 판단부를 포함하는 기계학습을 이용한 유전자 변이의 병원성 예측 시스템. - 삭제
- 제1항에 있어서,
상기 단백질 서열 데이터 생성부는 임베딩(embedding) 기법을 이용하여단백질 서열 특징을 추출하는 것을 특징으로 하는 기계학습을 이용한 유전자 변이의 병원성 예측 시스템. - 제1항에 있어서,
상기 진화적 보존 데이터 생성부는 해당 잔기(residue)에서 발견된 아미노산의 빈도로 진화적 보존 특징을 나타내는 것을 특징으로 하는 기계학습을 이용한 유전자 변이의 병원성 예측 시스템. - 제1항에 있어서,
상기 다중 서열 정렬은 BLAST 알고리즘 또는 HHBLits 알고리즘에 의해 수행되는 것을 특징으로 하는 기계학습을 이용한 유전자 변이의 병원성 예측 시스템. - 제1항에 있어서,
상기 진화적 보존 데이터는 21 X N 차원 행렬이고,
21은 자연계에서 발현되는 아미노산 종류의 수이고, N은 입력 단백질의 서열 길이인 것을 특징으로 하는 기계학습을 이용한 유전자 변이의 병원성 예측 시스템. - 제1항에 있어서,
자연상태 단백질과 유사 단백질의 유사도는 아미노산 동일성(identity)과 서열 일치 범위(coverage)로 판단하는 것을 특징으로 하는 기계학습을 이용한 유전자 변이의 병원성 예측 시스템. - 제1항에 있어서,
상기 딥러닝 네트워크는 CNN, RNN, Transformer, GRU, LSTM, BERT, 또는 XLNET 중 어느 하나인 것을 특징으로 하는 기계학습을 이용한 유전자 변이의 병원성 예측 시스템. - 제1항에 있어서,
상기 병원성 판단부는,
상기 제1 비교데이터와 상기 제2 비교데이터를 결합한 제3 비교데이터를 생성하는 비교데이터 생성부;
인공 신경망 네트워크(ANN)를 이용하여 상기 제3 비교데이터로부터 상기 제1 비교데이터와 상기 제2 비교데이터의 차이점을 추출하여 차이점데이터를 생성하는 차이점 추출부; 및
인공 신경망 네트워크(ANN)를 이용하여 활성화 함수(activation function)을 통해 병원성을 가질 가능성을 0부터 1사이의 병원성 점수로 표시하는 표시부를 포함하는 기계학습을 이용한 유전자 변이의 병원성 예측 시스템. - 제9항에 있어서,
상기 활성화 함수(activation function)는 소프트맥스 함수(softmax function) 또는 시그모이드 함수(sigmoid function)인 것을 특징으로 하는 기계학습을 이용한 유전자 변이의 병원성 예측 시스템.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200121299A KR102204509B1 (ko) | 2020-09-21 | 2020-09-21 | 기계학습을 이용한 유전자 변이의 병원성 예측 시스템 |
PCT/KR2021/007301 WO2022059886A1 (ko) | 2020-09-21 | 2021-06-10 | 기계학습을 이용한 유전자 변이의 병원성 예측 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200121299A KR102204509B1 (ko) | 2020-09-21 | 2020-09-21 | 기계학습을 이용한 유전자 변이의 병원성 예측 시스템 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102204509B1 true KR102204509B1 (ko) | 2021-01-19 |
Family
ID=74237193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200121299A KR102204509B1 (ko) | 2020-09-21 | 2020-09-21 | 기계학습을 이용한 유전자 변이의 병원성 예측 시스템 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR102204509B1 (ko) |
WO (1) | WO2022059886A1 (ko) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022059886A1 (ko) * | 2020-09-21 | 2022-03-24 | 주식회사 쓰리빌리언 | 기계학습을 이용한 유전자 변이의 병원성 예측 시스템 |
WO2022245042A1 (ko) * | 2021-05-17 | 2022-11-24 | (주)제이엘케이 | 의료 데이터의 전처리를 통한 의료 데이터베이스 구축 시스템 및 동작 방법 |
CN117238365A (zh) * | 2023-08-24 | 2023-12-15 | 深圳爱湾医学检验实验室 | 基于高通量测序技术的新生儿遗传病早筛方法及装置 |
KR102670658B1 (ko) | 2023-09-26 | 2024-06-03 | 어업회사법인주식회사블루젠 | 유전자형 데이터를 활용한 넙치 원산지 예측 방법 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118571309A (zh) * | 2024-04-16 | 2024-08-30 | 四川大学华西医院 | 抗生素耐药基因或毒力因子的基因预测或分类方法、装置、设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2016284455A1 (en) * | 2015-06-22 | 2017-11-23 | Myriad Women's Health, Inc. | Methods of predicting pathogenicity of genetic sequence variants |
AU2018359624A1 (en) * | 2017-10-31 | 2020-04-30 | Ge Healthcare Limited | Medical system for diagnosing cognitive disease pathology and/or outcome |
EP3745406A1 (en) * | 2018-07-07 | 2020-12-02 | Tata Consultancy Services Limited | System and method for predicting effect of genomic variations on pre-mrna splicing |
KR102204509B1 (ko) * | 2020-09-21 | 2021-01-19 | 주식회사 쓰리빌리언 | 기계학습을 이용한 유전자 변이의 병원성 예측 시스템 |
-
2020
- 2020-09-21 KR KR1020200121299A patent/KR102204509B1/ko active IP Right Grant
-
2021
- 2021-06-10 WO PCT/KR2021/007301 patent/WO2022059886A1/ko active Application Filing
Non-Patent Citations (2)
Title |
---|
J. Pei, "Mutation severity spectrum of rare alleles in the human genome is predictive of disease type", PLOS Computational Biology, 2020.05.15.* * |
P. Kumar 외, "Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm", Nature Protocols, 4권, 8호, pp.1073-1082, 2009.* * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022059886A1 (ko) * | 2020-09-21 | 2022-03-24 | 주식회사 쓰리빌리언 | 기계학습을 이용한 유전자 변이의 병원성 예측 시스템 |
WO2022245042A1 (ko) * | 2021-05-17 | 2022-11-24 | (주)제이엘케이 | 의료 데이터의 전처리를 통한 의료 데이터베이스 구축 시스템 및 동작 방법 |
CN117238365A (zh) * | 2023-08-24 | 2023-12-15 | 深圳爱湾医学检验实验室 | 基于高通量测序技术的新生儿遗传病早筛方法及装置 |
KR102670658B1 (ko) | 2023-09-26 | 2024-06-03 | 어업회사법인주식회사블루젠 | 유전자형 데이터를 활용한 넙치 원산지 예측 방법 |
Also Published As
Publication number | Publication date |
---|---|
WO2022059886A1 (ko) | 2022-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102204509B1 (ko) | 기계학습을 이용한 유전자 변이의 병원성 예측 시스템 | |
US11023806B2 (en) | Learning apparatus, identifying apparatus, learning and identifying system, and recording medium | |
CN109447096B (zh) | 一种基于机器学习的扫视路径预测方法和装置 | |
CN108009405A (zh) | 一种基于机器学习技术预测细菌外膜蛋白质的方法 | |
KR102387887B1 (ko) | 인공지능 학습을 위한 클린 라벨 데이터 정제 장치 | |
CN117393042A (zh) | 一种预测错义突变致病性的分析方法 | |
CN117576079A (zh) | 一种工业产品表面异常检测方法、装置及系统 | |
Amilpur et al. | Edeepssp: explainable deep neural networks for exact splice sites prediction | |
Zhang et al. | Application of the alphafold2 protein prediction algorithm based on artificial intelligence | |
Korekata et al. | Switching head-tail funnel UNITER for dual referring expression comprehension with fetch-and-carry tasks | |
Li et al. | Snowball: Iterative model evolution and confident sample discovery for semi-supervised learning on very small labeled datasets | |
JP4213034B2 (ja) | タンパク質のドメインリンカー領域の予測方法 | |
Tan et al. | Protein representation learning with sequence information embedding: Does it always lead to a better performance? | |
Yang et al. | Prediction of CRISPR-Cas9 off-target activities with mismatches and indels based on hybrid neural network | |
JP7290354B2 (ja) | 知識移転を用いた遺伝子変異の病原性予測システム | |
Bai et al. | A unified deep learning model for protein structure prediction | |
Gao et al. | SNEFER: Stopping the negative effect of noisy labels adaptively in facial expression recognition | |
KR101565005B1 (ko) | 비음수 행렬 3-요소분해를 이용한 질병 및 질병 연관 유전자를 예측하는 예측장치 및 방법 | |
Thakur et al. | Machine learning and deep learning for intelligent and smart applications | |
Li et al. | Learned model composition with critical sample look-ahead for semi-supervised learning on small sets of labeled samples | |
Wang et al. | TODO-Net: Temporally observed domain contrastive network for 3-D early action prediction | |
CN112784927B (zh) | 一种基于在线学习的半自动图像标注方法 | |
Taju et al. | Using deep learning with position specific scoring matrices to identify efflux proteins in membrane and transport proteins | |
KR102166070B1 (ko) | 유전자 가위 효과를 분석하는 방법 및 장치 | |
Peng et al. | Noise robust learning with hard example aware for pathological image classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20200921 |
|
PA0201 | Request for examination | ||
PA0302 | Request for accelerated examination |
Patent event date: 20200923 Patent event code: PA03022R01D Comment text: Request for Accelerated Examination Patent event date: 20200921 Patent event code: PA03021R01I Comment text: Patent Application |
|
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20201123 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20210105 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20210113 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20210113 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20231101 Start annual number: 4 End annual number: 4 |