TWI783699B - 一種判別源自不同個體之基因的方法及其深度學習模型 - Google Patents

一種判別源自不同個體之基因的方法及其深度學習模型 Download PDF

Info

Publication number
TWI783699B
TWI783699B TW110135954A TW110135954A TWI783699B TW I783699 B TWI783699 B TW I783699B TW 110135954 A TW110135954 A TW 110135954A TW 110135954 A TW110135954 A TW 110135954A TW I783699 B TWI783699 B TW I783699B
Authority
TW
Taiwan
Prior art keywords
layer
information
sequencing information
gene sequencing
input
Prior art date
Application number
TW110135954A
Other languages
English (en)
Other versions
TW202232502A (zh
Inventor
蔡孟勳
莊曜宇
華筱玲
日南 潘
Original Assignee
國立臺灣大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 國立臺灣大學 filed Critical 國立臺灣大學
Publication of TW202232502A publication Critical patent/TW202232502A/zh
Application granted granted Critical
Publication of TWI783699B publication Critical patent/TWI783699B/zh

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Chemical & Material Sciences (AREA)
  • Computing Systems (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本發明係關於一種判別源自不同個體之基因的方法。特別地,該方法包含次世代基因定序資訊的處理程序和應用深度學習模型對該次世代基因定序資訊進行定序資訊的分類,藉此判別該次世代基因定序資訊中源自不同個體之基因

Description

一種判別源自不同個體之基因的方法及其深度學習模 型
本發明係關於一種判別源自不同個體之基因的方法。特別地,該方法包含次世代基因定序資訊的處理程序(data processing)和應用深度學習模型(deep learning model)對該次世代基因定序資訊進行定序資訊的分類,藉此判別該次世代基因定序資訊中源自不同個體之基因。
在生物技術研究領域,高通量資訊分析技術在生物影像分析,如病灶影像分析等雖有相當的進展,但是在基因定序資訊分析的應用上仍有很大的限制,主要是因為基因定序資訊複雜度高,鹼基長度的資訊量又很大,導致後續資訊處理和結果解讀都相當困難。習知的生物資訊分析技術和處理模型無法克服以上缺點,且已有的分析預測方法的判別正確度和精確度都很差,無法廣泛應用在基因資訊分析的技術領域,特別是需要高度精準化的法醫鑑識領域。
鑒於上述,在基因資訊分析領域,特別是定序資訊的分析技術,仍亟待需要研發建立一創新的定序資訊分析方法,藉以克服上述的困難,突破基因定序資訊分析鑑別的技術瓶頸。
基於前述的技術背景,為了突破基因定序資訊分析技術的瓶頸,並且符合產業的需求,本發明提供了一種判別源自不同個體之基因的方法。特別地,本發明係應用一次世代基因定序(NGS)資訊處理程序(data processing)和深度學習模型(deep learning model)對該次世代基因定序資訊進行定序資訊的分類,得到該次世代基因定序資訊中源自不同個體之基因資訊,藉此判別該次世代基因定序資訊中源自不同個體的基因。
具體地,本發明所述的次世代基因定序資訊或定序資訊係為序列讀取(sequence reads)資訊。
具體地,本發明是一判別源自不同個體之基因的方法,其步驟包含執行一次世代基因定序資訊處理程序,該次世代基因定序資訊處理程序輸出複數個稀疏矩陣,該稀疏矩陣是一位有效編碼的序列讀取;和執行一分類程序,該分類程序係輸入該複數個稀疏矩陣至一深度學習模型,藉由該深度學習模型對該複數個稀疏矩陣進行分類,得到該次世代基因定序資訊中源自不同個體之基因資訊,藉此判別該次世代基因定序資訊中的源自不同個體之基因。較佳的,輸入至深度學習模型的稀疏矩陣是包含至少4個具有相同鹼基長度或不同鹼基長度的一位有效編碼的序列讀取的組合。
具體地,該次世代基因定序資訊處理程序的步驟依序包含:對原始待分析的次世代基因定序資訊進行品質管理,藉 此篩選符合本發明方法的定序資訊;移除該定序資訊的轉接子(adapter)資訊;執行滑動窗口法得到修整鹼基數後之定序資訊;進行該修整鹼基數後之定序資訊的品質管理;對該修整鹼基數後之定序資訊進行定位(mapping);進行定位後的定序資訊排序並建立BAM索引檔;;使用Pysam模組搜尋該BAM索引檔中的基因定序資訊;執行反向互補法增加該定位的基因定序資訊的資訊量;執行編碼程序(encoding);執行降維程序和最後輸出稀疏矩陣,該稀疏矩陣是一位有效編碼的序列讀取。根據以上步驟所得到的稀疏矩陣,其包含的序列讀取資訊已充分擷取了初始的次世代基因定序資訊中的核心資訊量,特別適用於本發明之深度學習模型的訓練、資訊分類和確效(validation),藉此建立正確度大於90%的深度學習模型的架構。
具體地,本發明所述的深度學習模型是一卷積神經網路(CNN),其中該卷積神經網路的最終隱藏層負責對上述的稀疏矩陣進行分類,得到該次世代基因定序資訊中源自不同個體之基因資訊,藉此判別該次世代基因定序資訊中源自不同個體的基因。較佳的,該卷積神經網路是一維卷積神經網路(1-dimensional deep neural network/DCNN)
更具體地,上述的滑動窗口法、輸入一包含至少4個具有相同鹼基長度或不同鹼基長度的一位有效編碼的序列讀取組合和深度學習模型的運算分類使本發明的判別源自不同個體之基因的方法的正確度大於90%,克服了既有機器學習方法的缺陷, 所以能應用在鑑別法醫檢體中的源自不同個體之基因資訊或生物檢體中的源自不同個體之基因資訊,並能區別出定序資訊中的序列讀取差異,達到鑑別該次世代基因定序資訊中的主要貢獻者資訊和次要貢獻者資訊的目的。
綜上所述,本發明提供的判別源自不同個體之基因的方法係以滑動窗口法對原始次世代基因定序資訊進行鹼基數修整,得到優化的修整鹼基數之定序資訊後,經過定位、排序、建立BAM索引檔、Pysam搜尋、反向互補法增加資訊量和編碼運算等步驟後輸出稀疏矩陣,然後輸入包含至少4個相同鹼基長度或不同鹼基長度的序列讀取組合的稀疏矩陣至本發明的經訓練和確效的深度學習模型進行運算和資訊分類,最後得到該次世代基因定序資訊中源自不同個體之基因資訊,藉此判別源自不同個體之基因。
〔圖1〕本發明判別源自不同個體之基因的方法步驟流程圖。
〔圖2〕本發明次世代基因定序資訊處理程序的步驟流程圖。
〔圖3〕本發明的次世代基因定序資訊處理程序和深度學習模型組織圖。
〔圖4〕本發明滑動窗口法修整序列鹼基長度的示意圖。
〔圖5〕本發明的序列讀取輸入策略和深度學習模型方法的效果示意圖。
〔圖6〕本發明深度學習模型訓練的混淆矩陣圖。
〔圖7〕本發明方法應用在乳癌三陰性(TNBC)和Lumina A亞型分類的精確度-召回率曲線圖和受試者操作特徵曲線圖。
以下以實施例說明本發明,但並不因此限定本發明之範圍,只要不脫離本發明之要旨,熟悉本技藝者瞭解在不脫離本發明的意圖及範圍下可進行各種變形或變更。
根據前述發明內容,創新地,本發明之技術特徵係使用滑動窗口法(sliding window method)對待分類或分析的次世代基因定序(NGS)資訊中的序列讀取鹼基長度先進行了修整(trimming),然後藉由運算處理程序輸出至少一個稀疏矩陣(sparse matrix),該稀疏矩陣是一位有效編碼(one-hot encoder)的序列讀取(sequencing reads),最後經過經訓練和確效的深度學習模型(deep learning model)的運算分類得到該次世代基因定序資訊中的源自不同個體之基因資訊。特別地,上述程序使本發明方法的正確度大於90%,克服了既有機器學習方法的缺陷,所以能應用在鑑別法醫檢體中的源自不同個體之基因資訊或生物檢體中的源自不同個體之基因資訊,並能鑑別出定序資訊中的微小差異。
於一實施例,本發明提供一種判別源自不同個體之基因的方法,其步驟包含執行一次世代基因定序資訊處理程序,該次世代基因定序資訊處理程序輸出複數個稀疏矩陣,該稀疏矩陣是一位有效編碼的序列讀取;和執行一分類程序,該分類程序 係輸入該複數個稀疏矩陣至一經訓練和確效的深度學習模型,藉由該經訓練和確效的深度學習模型對該複數個稀疏矩陣進行分類,得到該次世代基因定序資訊中源自不同個體之基因資訊,藉此判別該次世代基因定序資訊中的源自不同個體之基因。較佳的,輸入至深度學習模型的稀疏矩陣包含至少4個具有相同鹼基長度或不同鹼基長度的一位有效編碼的序列讀取的組合。
於一具體實施例,所述的次世代基因定序資訊處理程序至少包含如下九個步驟。
步驟一:移除原始次世代基因定序資訊的轉接子資訊,藉此得到一基因定序資訊。
步驟二:以滑動窗口法進行步驟一得到的基因定序資訊中的鹼基數的數目修整,藉此產出複數個修整鹼基數之基因定序資訊。
步驟三:使用Phred33體系對該修整鹼基數之基因定序資訊進行資訊的品質管制,該Phred33體系的品質管制評分標準設定為28,當Phred33體系的評分低於28時,該修整鹼基數之基因定序資訊的鹼基長度設定為200bp;或所有鹼基長度為100bp的該修整鹼基數之基因定序資訊皆符合上述之品質管制。
步驟四:以人類參考基因體GRCh38對該修整鹼基數之基因定序資訊進行定位,藉此得到定位的基因定序資訊。
步驟五:對該定位的基因定序資訊進行排序並建立一BAM索引檔。
步驟六:使用Pysam模組搜尋該BAM索引檔中的基因定序資訊。
步驟七:執行反向互補法增加該BAM索引檔中的基因定序資訊的資訊量。
步驟八:對步驟七增加的該BAM索引檔中的基因定序資訊的資訊量進行整數編碼程序藉此得到一基因定序編碼資訊。
步驟九:對步驟八的基因定序編碼資訊進行降維程序,藉此輸出至少一個稀疏矩陣,該稀疏矩陣是一位有效編碼的序列讀取。較佳的,輸入至深度學習模型的該稀疏矩陣包含至少4個具有相同鹼基長度或不同鹼基長度的一位有效編碼的序列讀取的組合。
於一代表實施例,請參照圖1,本發明方法的流程依序包含:提供一待分析/分類的次世代基因定序資訊;進行該次世代基因定序資訊處理程序;輸出複數個稀疏矩陣;輸入該複數個稀疏矩陣至經訓練和確效的深度學習模型;執行分類程序的運算;和輸出該分類程序的運算結果,藉由該運算結果得到該次世代基因定序資訊中源自不同個體之基因資訊,藉此判別該次世代基因定序資訊中的源自不同個體之基因。
於另一代表實施例,請參照圖2,本發明的次世代基因定序資訊處理程序的步驟依序包含:對於原始待分析的定序資訊進行品質管理,藉此篩選符合本發明方法效用的定序資訊;移 除該定序資訊的轉接子(adapter)資訊;執行滑動窗口法得到修整鹼基數後之定序資訊;進行程序中的資訊品質管理;對該修整鹼基數後之定序資訊進行定位(mapping);進行定位後之定序資訊排序並建立BAM索引檔;;使用Pysam模組搜尋該BAM索引檔的基因定序資訊;執行反向互補法增加該BAM索引檔的基因定序資訊的資訊量;執行整數編碼程序(encoding);執行降維程序和最後輸出稀疏矩陣,該稀疏矩陣是一位有效編碼的序列讀取。根據此實施例所得到的稀疏矩陣,其所包含的序列讀取已充分擷取了初始待分析的次世代基因定序資訊中的核心資訊量,特別適用於本發明之深度學習模型的訓練、分類運算和確效(Validation),藉此建立正確度大於90%的深度學習模型的架構。
於另一具體實施例,上述的建立BAM索引檔步驟可以優先執行,然後再以人類參考基因體GRCh38對該BAM索引檔中的修整鹼基數之基因定序資訊進行定位,藉此得到定位的基因定序資訊。
於一具體實施例,該次世代基因定序資訊處理程序還包含執行一原始次世代基因定序資訊的品質管理,該品質管理的查核方法係包含以下兩種方式。
方式一:當該原始次世代基因定序資訊是雙邊定序資訊時,使用Phred33體系進行該資訊的品質管理,若該Phred33體系的評分小於15,判定該原始次世代基因定序資訊的鹼基數必須進行數目修整。
方式二:當該原始次世代基因定序資訊的鹼基閥值小於3時,判定該原始次世代基因定序資訊的鹼基數必須進行數目修整。
於一具體實施例,該整數編碼程序係將定序資訊中的序列鹼基A、T、C和G以整數編碼器編碼成對應的整數碼,再經過降維程序(dimension reduction)後轉換成對應的稀疏矩陣,該稀疏矩陣是一位有效編碼的序列讀取,該一位有效編碼的序列讀取的鹼基長度範圍在70~200bp。該降維程序的功效在於減少後續在深度學習模型時所需的訓練時間並提升該深度學習模型的運算效能。
於一具體實施例,上述方法還包含對該深度學習模型的訓練和確校程序,其步驟包含使用一包含複數個已知源自不同個體的基因定序資訊訓練和驗證該深度學習模型的正確度和精準度;且該深度學習模型的正確度大於90%。
於一具體實施例,請參照圖3(A),本發明的次世代基因定序資訊處理程序的步驟依序包含:提供一原始待分析的定序資訊,此定序資訊係指序列讀取(illummina raw data),以FastQC軟件進行該待分析的定序資訊品質管理,藉此篩選符合本發明方法品管查核的定序資訊;以Trimmomatic軟件移除該定序資訊的轉接子(adapter)資訊;以Trimmomatic軟件執行滑動窗口法,藉此得到修整鹼基數後之定序資訊;以FastQC軟件進行修整鹼基數後之定序資訊之品質管理;以KART軟件對該修整鹼基數後之定序資訊 進行定位(mapping);以Samtools軟件進行該定位後之定序資訊排序並建立BAM索引檔;使用Pysam模組搜尋BAM索引檔中已經過定位的定序資訊;以BioSeq軟件執行反向互補法增加該定位的定序資訊的資訊量;執行整數編碼程序(sequencing encoding to integer);執行降維程序和最後輸出稀疏矩陣(encoding data to sparse matrix),該稀疏矩陣是一位有效編碼(One-hot encoder)的序列讀取。根據此實施例所得到的稀疏矩陣,其所包含的序列讀取已充分擷取了初始待分析的次世代基因定序資訊中的核心資訊量。
於一具體實施例,本發明之深度學習模型是一卷積神經網路,請參照圖3(B),其運算架構包含第一卷積層,該第一卷積層包含複數個卷積運算區(Conv1、Conv2、Conv3、Conv4和Conv5)、第一批量標準化層(BN)、第二卷積層,該第二卷積層包含複數個卷積運算區(Conv6、Conv7、Conv8、Conv9和Conv10)、第二批量標準化層(BN)、第一最大池化層,該一最大池化層包含複數個池化運算區(MP1、MP2、MP3、MP4和MP5)、第一融合層(Concatenate)、第二最大池化層(MP6)、第一平坦層(Flatten)、第二融合層(Concatenate)、第三批量標準化層(BN)、第一隱藏層(Hidden layer)、第四批量標準化層(BN)和第二隱藏層(Hidden layer)。該第一卷積層對該稀疏矩陣進行運算,其運算結果輸入至對應的第一批量標準層;該第一批量標準化層的運算結果輸入至對應的第二卷積層;該第二卷積層的運算結果輸入至對應的第二 批量標準層;該第二批量標準化層的運算結果輸入至對應的第一最大池化層;該第一最大池化層的運算結果輸入至對應的第一融合層;該第一融合層的運算結果輸入至對應的第二最大池化層;該第二最大池化層的運算結果輸入至對應的第一平坦層;該第一平坦層的運算結果輸入至對應的第二融合層;該第二融合層的運算結果輸入至對應的第三批量標準化層;該第三批量標準化層的運算結果輸入至對應的第一隱藏層;該第一隱藏層的運算結果輸入至對應的第四批量標準化層;該第四批量標準化層的運算結果輸入至對應的第二隱藏層;該第二隱藏層的運算結果係為該複數個稀疏矩陣的分類資訊,和上述的第一卷積層和第二卷積層包含數量為32~512的濾波器。
於一具體實施例,一位有效編碼的序列讀取輸入至上述的第一卷積層,該第一卷積層包含數量為32~512的濾波器,其運算後的結果輸入到第一批量標準化層進行資訊運算,以第二卷積層處理該第一批量標準化層的運算結果,所得到的結果輸入到第二批量標準化層進行運算,其運算結果輸入到第一最大池化層,所有第一最大池化層的運算結果彙整輸入到第一融合層,依序經過第二最大池化層運算和第一平坦化層運算後,進行第一次融合化層運算,再經第三批量標準化層運算處理後,其運算結果輸入到第一隱藏層,其具有1024個運算神經元,該第一隱藏層的運算結果經第四批量標準化層運算後,輸入結果到第二隱藏層,並以SoftMax軟件進行運算和最終的資訊分類。
於另一實施例,本發明之深度學習模型的效能評估包含正確度,精確度、召回率和F1-評分;其計算公式如下所述。
正確度(Accuracy)的計算公式。
Figure 110135954-A0305-02-0014-1
精確度(Precision)的計算公式。
Figure 110135954-A0305-02-0014-2
召回率(Recall)的計算公式。
Figure 110135954-A0305-02-0014-3
F1評分(F1-score)的計算公式。
Figure 110135954-A0305-02-0014-4
於一實施例,待分析的次世代基因定序資訊藉由資訊處理程序轉換成對應的稀疏矩陣,該稀疏矩陣包含該待分析的次世代基因定序資訊之所有的鹼基編碼資訊。較佳的,輸入至深度學習模型的稀疏矩陣是包含至少4個具有相同鹼基長度或不同鹼基長度的一位有效編碼的序列讀取的組合。
於一實施例,該序列讀取或待分析的次世代基因定序資訊藉由滑動窗口法修整鹼基數長度,設定的鹼基數長度範圍是70~200bp,藉此控制其資訊品質,當該鹼基數長度超過200bp時,Phred33體系的評分小於15,判定需要進行鹼基數長度的修整(trimming)。於一具體實施例,以滑動窗口法修整後得到的鹼基數 長度是100bp時,經轉換成對應的稀疏矩陣並以本發明之深度學習模型進行機器學習,該深度學習模型判別的正確度是0.39,精確度是0.39,召回率是0.39,F1評分是0.38。於另一具體實施例,當以滑動窗口法修整後得到的鹼基數長度是70bp時,經轉換成對應的稀疏矩陣並以本發明之深度學習模型進行機器學習,該深度學習模型判別的正確度是0.36,精確度是0.37,召回率是0.36,F1評分是0.35。於一較佳實施例,當以滑動窗口法修整後得到的鹼基數長度分別是150bp和200bp時,經轉換成對應的稀疏矩陣並以本發明之深度學習模型進行機器學習,該深度學習模型的正確度分別是0.57和0.67,精確度分別是0.59和0.67,召回率分別是0.57和0.67,F1評分分別是0.57和0.66。據此證實經由滑動窗口法修整的不同鹼基數長度所轉換的對應稀疏矩陣對本發明的深度學習模型的判別效能起到了關鍵作用。
於一較佳實施例,請參照圖4,上述滑動窗口法的執行方式包含(1)移除該原始基因定序資訊的末端鹼基數,藉此得到由5’端起算包含0~100鹼基數的第一修整鹼基數之基因定序資訊;(2)移除原始基因定序資訊由5’端起算的前25個鹼基數和第125個鹼基數後之末端鹼基數,藉此得到由5’端起算包含26~125鹼基數的第二修整鹼基數之基因定序資訊;(3)移除原始基因定序資訊由5’端起算的前50個鹼基數和第150個鹼基數後之末端鹼基數,藉此得到由5’端起算包含51~150鹼基數的第三修整鹼基數之基因定序資訊;和(4)移除基因定序資訊由5’端起算的前100個鹼基數和第 200個鹼基數後之末端鹼基數,藉此得到由5’端起算包含101~200鹼基數的第四修整鹼基數之基因定序資訊。
於另一較佳實施例,本發明輸入深度學習模型進行訓練和分類的稀疏矩陣(一位有效序列讀取)是一包含相同鹼基長度或不同鹼基長度的一位有效序列讀取的組合,本發明創新地藉此策略提升上述的深度學習模型的分類效能,其中該組合包含,但不限於以下組合:100bp和150bp;100bp和200bp;150bp和200bp;70bp和100bp和150bp;100bp、150bp和200bp;以及100bp、100bp、100bp和100bp。經過測試驗證後,150bp和200bp組合訓練的深度學習模型的正確度是0.91,精確度是0.91,召回率是0.91,F1評分是0.91;以100bp和150bp和200bp的組合訓練的深度學習模型的正確度是0.96,精確度是0.96,召回率是0.96,F1評分是0.96;較佳的,以100bp、100bp、100bp和100bp組合訓練的深度學習模型的正確度是0.97,精確度是0.97,召回率是0.97,F1評分是0.97。據此,輸入包含相同鹼基長度或不同鹼基長度組合資訊的稀疏矩陣能有效地提高本發明深度學習模型應用在定序資訊分類的正確度、精確度、召回率和F1評分;較佳的,請參照圖5,輸入至深度學習模型的鹼基長度組合是包含4個100bp的序列讀取的組合。測試數據如表1和圖6所示。圖6的混淆矩陣圖係為使用10種不同的序列讀取模式(A)~(J)對本發明的深度學習模型進行訓練,其中(A)表示序列讀取的鹼基長度為70bps;(B)表示序列讀取的鹼基長度為100bps;(C)表示序列讀取的鹼基長度為 150bps;(D)表示序列讀取的鹼基長度為200bps;(E)表示鹼基長度為100bps和150bps的序列讀取的組合;(F)表示鹼基長度為100bps和200bps的的序列讀取組合;(G)表示鹼基長度為150bps和200bps的序列讀取的組合;(H)表示鹼基長度為70bps、100bps和150bps的序列讀取的組合;(I)表示鹼基長度為100bps、150bps和200bps的序列讀取的組合;和(J)表示4個鹼基長度為100bps的序列讀取的輸入組合,根據圖6所示,明顯的,當同時輸入4個鹼基長度為100bps的序列讀取對本發明的深度學習模型進行訓練或分類時,可以得到超過0.95以上的正確度、精確度、召回率和F1評分。
Figure 110135954-A0305-02-0017-5
於另一實施例,本發明的深度學習模型進一步應用在法醫鑑識領域的基因定序資訊的分類。具體的,以包含具有3個已知不同個體基因的序列資訊測試驗證本發明的深度學習模型和分類方法的效果,以前述內容所述的滑動窗口法和訓練學習法進行機器學習,證明本發明的深度學習模型成功地判別具有3個已知 不同個體基因的序列資訊中的基因序列差異,其正確度達到85~95%。於一較佳實施例,當上述具有3個已知不同個體基因的序列資訊的個別序列資訊混合比例是1:1:1時,本發明的深度學習模型判別源自不同個體之基因的正確度範圍是0.9~0.997。更進一步的,當其混合比例範圍是9:1:1或9:9:1時,本發明的深度學習模型和分類方法也能準確的判別其個別基因資訊的差異。
於一具體實施例,本發明準備一包含20個不同基因的序列資訊,並以該序列資訊測試本發明的深度學習模型和判別源自不同個體之基因的方法的正確度。本發明的深度學習模型和方法成功從該20個不同基因中鑑識分別出13個主要的基因序列。於另一實施例,測試的序列資訊包含的個別序列資訊的混合比例分別是1:9和1:39,本發明的深度學習模型和方法100%成功地鑑別出其中的主要貢獻者和次要貢獻者的基因序列資訊,測試結果如表2。換言之,本發明的深度學習模型和判別源自不同個體之基因方法能夠鑑別出定序資訊中的主要貢獻者和次要貢獻者的基因序列資訊,然後再分別和已知基因序列資訊比對,達到鑑別精準化的目的。
Figure 110135954-A0305-02-0018-6
** 表示本發明的深度學習模型成功鑑別主要貢獻者和次要貢獻者
於一實施例,根據表3和表4,使用人工混合3個個體的定序資訊,得到一人工混合定序資訊,然後以該人工混合定序資訊對本發明的深度學習模型和方法做測試和驗證,其中有一組人工混合定序資訊是2個主要定序資訊和1個次要定序資訊的混合,另一組則是1個主要定序資訊和2個次要定序資訊的混合。上述次要定序資訊學習訓練的基數分別是34,500和20,000。根據測試,本發明的深度學習模型和方法的誤差率很低,約等於3%,此相當於用1,993,376個序列讀取對本發明的深度學習模型進行訓練,並同時完成6個分類,每個分類包含59,801個序列讀取,每一個類別估計的平均錯誤序列讀取數目是9,966。上述的數目包含正互補的序列讀取數目。
Figure 110135954-A0305-02-0019-7
Figure 110135954-A0305-02-0020-8
Figure 110135954-A0305-02-0020-9
於另一實施例,本發明能從混合的定序資訊中判別 主要定序資訊和次要定序資訊。藉由移除轉接子資訊和鹼基長度之修整程序。在1:9混合比例的定序資訊中,次要的序列讀取數是9,701到14,334。在1:39混合比例的定序資訊中,次要的序列讀取數是9,917到15,667。具體序列讀取數據如表5所示。其中混合比例從28.8%到53.9%。在1:9和1:39混合比例的定序資訊中,本發明100%成功判別定序資訊中的主要貢獻者;1:9混合比例的定序資訊中成功判別80%的次要貢獻者;1:39混合比例的定序資訊中成功判別50%的次要貢獻者。
Figure 110135954-A0305-02-0021-10
次世代基因定序技術能提供大量的基因體資訊,於 一實施例,本發明的深度學習模型和分類方法應用在法醫鑑識領域,藉由STR(short tandem repeat短片段重複序列)標記和SNP單核苷酸多態性標記資訊的訓練和學習,本發明可應用在判別檢體中源自不同個體之基因。另一方面,本發明藉由對全外顯子定序資料(WES)的訓練和學習,能夠判別乳癌的基因型態,如Luminal、Basal、和HER2亞型,或Luminal A、Luminal B、HER2和basal亞型(PAM50);或高風險和低風險亞型。本發明深度學習模型和方法也成功從次世代基因定序資訊中100%地區別乳癌三陰性(TNBC)和Luminal A。據此,本發明成功從次世代基因定序資訊中判別不同的乳癌亞型,具體結果如表6所示和圖7所示。根據圖7,乳癌三陰性和Luminal A的精確度-召回率曲線面積分別是0.871和0.829;受試者操作特徵(ROC)曲線的面積是0.85。
Figure 110135954-A0305-02-0022-11
於另一實施例,本發明可應用在腫瘤循環 DNA(ctDNA)的序列讀取的資訊分析。一般而言,癌症患者的ctDNA對於正常細胞cfDNA(cell-free DNA)的比例範圍是0.1%~90%。因此,如何在個人檢體中判別ctDNA和cfDNA相當困難,但藉由本發明的學習模型和判別源自不同個體基因的方法能夠有效的區別ctDNA和cfDNA的序列資訊。
以上雖以特定範例說明本發明,但並不因此限定本發明之範圍,只要不脫離本發明之要旨,熟悉本技藝者瞭解在不脫離本發明的意圖及範圍下可進行各種變形或變更。此外,摘要部分和標題僅是用來輔助專利文件搜尋之用,並非用來限制本發明之權利範圍。

Claims (4)

  1. 一種判別源自不同個體之基因的方法,其包含執行一次世代基因定序資訊處理程序和一分類程序,該次世代基因定序資訊處理程序包含如下步驟:一、執行一原始次世代基因定序資訊的品質管理步驟,該品質管理步驟的查核方法係為:(1)當該原始次世代基因定序資訊是雙邊定序資訊時,使用Phred33體系進行該資訊的品質管理,若該Phred33體系的評分小於15,判定該原始次世代基因定序資訊的鹼基數必須進行數目修整;或(2)當該原始次世代基因定序資訊的鹼基閥值小於3時,判定該原始次世代基因定序資訊的鹼基數必須進行數目修整;二、移除該原始次世代基因定序資訊的轉接子資訊,藉此得到一基因定序資訊;三、以滑動窗口法進行步驟二得到的基因定序資訊中的鹼基數的數目修整,藉此產出複數個修整鹼基數之基因定序資訊;四、使用Phred33體系對該修整鹼基數之基因定序資訊進行品質管制,該Phred33體系的品質管制評分標準設定為28,當Phred33體系的評分低於28時,該修整鹼基數之基因定序資訊 的鹼基長度設定為200bp;或所有鹼基長度為100bp的該修整鹼基數之基因定序資訊皆符合上述之品質管制;五、以人類參考基因體GRCh38對該修整鹼基數之基因定序資訊進行定位,藉此得到定位的基因定序資訊;六、對該定位的基因定序資訊進行排序並建立一BAM索引檔;七、使用Pysam模組搜尋該BAM索引檔中的基因定序資訊;八、執行反向互補法增加該BAM索引檔中的基因定序資訊的資訊量;九、對步驟八增加的基因定序資訊的資訊量進行整數編碼程序藉此得到一基因定序編碼資訊;和十、對步驟九的基因定序編碼資訊進行降維程序,藉此輸出複數個稀疏矩陣,該稀疏矩陣是一位有效編碼的序列讀取;和該分類程序係輸入該複數個稀疏矩陣至一深度學習模型,藉由該深度學習模型對該複數個稀疏矩陣進行分類,藉此判別該原始次世代基因定序資訊中的源自不同個體之基因。
  2. 如請求項1所述的判別源自不同個體之基因的方法,該深度學習模型是一卷積神經網路,其運算架構包含第一卷積層、第一批量標準化層、第二卷積層、第二批量標準化層、第一最大池化層、第一融合層、第二最大池化層、第一平坦層、第二融合層、第三批量標準化層、第一隱藏層、第四批量標準化層和第二隱藏層; 該第一卷積層對該稀疏矩陣進行運算,其運算結果輸入至對應的第一批量標準層;該第一批量標準化層的運算結果輸入至對應的第二卷積層;該第二卷積層的運算結果輸入至對應的第二批量標準層;該第二批量標準化層的運算結果輸入至對應的第一最大池化層;該第一最大池化層的運算結果輸入至對應的第一融合層;該第一融合層的運算結果輸入至對應的第二最大池化層;該第二最大池化層的運算結果輸入至對應的第一平坦層;該第一平坦層的運算結果輸入至對應的第二融合層;該第二融合層的運算結果輸入至對應的第三批量標準化層;該第三批量標準化層的運算結果輸入至對應的第一隱藏層;該第一隱藏層的運算結果輸入至對應的第四批量標準化層;該第四批量標準化層的運算結果輸入至對應的第二隱藏層;該第二隱藏層的運算結果係為該複數個稀疏矩陣的分類資訊,和上述的第一卷積層和第二卷積層包含數量為32~512的濾波器。
  3. 如請求項1所述的判別源自不同個體之基因的方法,其步驟還包含對該深度學習模型的確校程序,其步驟包含使用一包含複數個已知源自不同個體的基因定序資訊驗證該深度學習模型的正確度和精準度;且該深度學習模型的正確度大於90%。
  4. 如請求項1所述的判別源自不同個體之基因的方法,係用於鑑別法醫檢體中的源自不同個體之基因或生物檢體中的源自不同個體之基因。
TW110135954A 2021-02-09 2021-09-24 一種判別源自不同個體之基因的方法及其深度學習模型 TWI783699B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202163147520P 2021-02-09 2021-02-09
US63/147,520 2021-02-09

Publications (2)

Publication Number Publication Date
TW202232502A TW202232502A (zh) 2022-08-16
TWI783699B true TWI783699B (zh) 2022-11-11

Family

ID=82703984

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110135954A TWI783699B (zh) 2021-02-09 2021-09-24 一種判別源自不同個體之基因的方法及其深度學習模型

Country Status (2)

Country Link
US (1) US20220254450A1 (zh)
TW (1) TWI783699B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116417068B (zh) * 2023-02-03 2024-01-16 中国人民解放军军事科学院军事医学研究院 一种基于深度学习预测工程化核酸序列实验室来源的方法、系统及装置
CN116364195B (zh) * 2023-05-10 2023-10-13 浙大城市学院 一种基于预训练模型的微生物遗传序列表型预测方法
CN116805514B (zh) * 2023-08-25 2023-11-21 鲁东大学 一种基于深度学习的dna序列功能预测方法
CN117409965A (zh) * 2023-09-28 2024-01-16 江苏先声医学诊断有限公司 适用于亚洲her2阳性乳腺癌患者风险预测系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180276339A1 (en) * 2017-01-06 2018-09-27 Mantra Bio, Inc. System and method for algorithmic extracellular vesicle population discovery and characterization
CN111105032A (zh) * 2019-11-28 2020-05-05 华南师范大学 基于gan的染色体结构异常检测方法、系统及存储介质
US20200152289A1 (en) * 2018-11-09 2020-05-14 The Broad Institute, Inc. Compressed sensing for screening and tissue imaging
US20200271749A1 (en) * 2015-07-17 2020-08-27 Origin Wireless, Inc. Method, apparatus, and system for wireless tracking with graph-based particle filtering
WO2020198704A1 (en) * 2019-03-28 2020-10-01 Phase Genomics, Inc. Systems and methods for karyotyping by sequencing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200271749A1 (en) * 2015-07-17 2020-08-27 Origin Wireless, Inc. Method, apparatus, and system for wireless tracking with graph-based particle filtering
US20180276339A1 (en) * 2017-01-06 2018-09-27 Mantra Bio, Inc. System and method for algorithmic extracellular vesicle population discovery and characterization
US20200152289A1 (en) * 2018-11-09 2020-05-14 The Broad Institute, Inc. Compressed sensing for screening and tissue imaging
WO2020198704A1 (en) * 2019-03-28 2020-10-01 Phase Genomics, Inc. Systems and methods for karyotyping by sequencing
CN111105032A (zh) * 2019-11-28 2020-05-05 华南师范大学 基于gan的染色体结构异常检测方法、系统及存储介质

Also Published As

Publication number Publication date
TW202232502A (zh) 2022-08-16
US20220254450A1 (en) 2022-08-11

Similar Documents

Publication Publication Date Title
TWI783699B (zh) 一種判別源自不同個體之基因的方法及其深度學習模型
CN110800063B (zh) 使用无细胞dna片段大小检测肿瘤相关变体
CN106980763B (zh) 一种基于基因突变频率的癌症驱动基因的筛选方法
CN113436684B (zh) 一种癌症分类和特征基因选择方法
US20220277811A1 (en) Detecting False Positive Variant Calls In Next-Generation Sequencing
CN111778353B (zh) 用于鉴定普通小麦品种的snp分子标记以及snp分子标记检测方法
CN112908414A (zh) 一种大规模单细胞分型方法、系统及存储介质
CN111748633A (zh) 一种特征miRNA表达谱组合及头颈鳞状细胞癌早期预测方法
CN112037863B (zh) 一种早期nsclc预后预测系统
CN111763738A (zh) 一种特征mRNA表达谱组合及肝癌早期预测方法
CN107977550A (zh) 一种基于压缩的快速分析致病基因算法
CN116364179A (zh) 结直肠癌预后标志物筛选系统及方法、结直肠癌预后风险评估系统
Bull et al. Extended correlation functions for spatial analysis of multiplex imaging data
CN108595914A (zh) 一种烟草线粒体rna编辑位点高精度预测方法
CN108220445A (zh) 一种评价三阴性乳腺癌风险评估方法
CN114242158B (zh) ctDNA单核苷酸变异位点检测方法、装置、存储介质及设备
US20220415443A1 (en) Machine-learning model for generating confidence classifications for genomic coordinates
CN113308545A (zh) 一种基于dna甲基化的浸润性神经胶质瘤的分类装置
CN111876485A (zh) 一种特征mRNA表达谱组合及头颈鳞状细胞癌早期预测方法
CN107075510A (zh) 基因表达数据的跨平台转换
Fajriyah A study of convolution models for background correction of BeadArrays
Patruno Computational strategies for single-cell multi-omics data analysis and integration
CN111944901A (zh) 一种特征mRNA表达谱组合及肾乳头状细胞癌早期预测方法
CN117594125A (zh) 一种基于双端rna-s的融合基因检测方法
CN117577197A (zh) 一种基于免疫微环境的结直肠癌预后标记基因及其筛选方法、预后预测模型及其构建方法