TWI748263B - 一種基因變異辨識方法、裝置和儲存介質 - Google Patents

一種基因變異辨識方法、裝置和儲存介質 Download PDF

Info

Publication number
TWI748263B
TWI748263B TW108137265A TW108137265A TWI748263B TW I748263 B TWI748263 B TW I748263B TW 108137265 A TW108137265 A TW 108137265A TW 108137265 A TW108137265 A TW 108137265A TW I748263 B TWI748263 B TW I748263B
Authority
TW
Taiwan
Prior art keywords
gene
sequence
site
fragment
mutation
Prior art date
Application number
TW108137265A
Other languages
English (en)
Other versions
TW202036582A (zh
Inventor
胡志強
Original Assignee
大陸商北京市商湯科技開發有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商北京市商湯科技開發有限公司 filed Critical 大陸商北京市商湯科技開發有限公司
Publication of TW202036582A publication Critical patent/TW202036582A/zh
Application granted granted Critical
Publication of TWI748263B publication Critical patent/TWI748263B/zh

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1093General methods of preparing gene libraries, not provided for in other subgroups
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1082Preparation or screening gene libraries by chromosomal integration of polynucleotide sequences, HR-, site-specific-recombination, transposons, viral vectors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/04Libraries containing only organic compounds
    • C40B40/06Libraries containing nucleotides or polynucleotides, or derivatives thereof
    • C40B40/08Libraries containing RNA or DNA which encodes proteins, e.g. gene libraries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Organic Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Physiology (AREA)
  • Immunology (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)

Abstract

一種基因變異辨識方法,包含以下步驟:獲取一基因變異候選位點對應的至少一基因定序閱讀片段;根據該至少一基因定序閱讀片段的屬性訊息,確定該基因變異候選位點的序列特徵和非序列特徵,其中,該序列特徵為與位點的位置相關的特徵;以及基於該序列特徵和該非序列特徵,對該基因變異候選位點的基因變異進行辨識。本發明實施例能將基因的序列特徵和非序列特徵相結合,更加全面地分析基因變異位點的特徵,增強基因變異辨識的準確性。

Description

一種基因變異辨識方法、裝置和儲存介質
本發明涉及電腦技術領域,尤其涉及一種基因變異辨識方法、裝置和儲存介質。
隨著生物技術的發展,透過基因定序技術可以測定人類基因的序列,基因序列的分析可以作為進一步基因研究和改造的基礎。目前,基因的二代定序技術相比於一代定序技術而言,極大地提升了基因定序的效率,降低了基因定序的成本,並且保持了基因定序的準確性。第一代定序技術如果完成一個人類基因組的定序可能需要三年的時間,而使用二代定序技術則可以將時間縮短為僅僅一周。
因此,本發明的目的,即在提供一種基因變異辨識方法。
於是,本發明基因變異辨識方法,包含以下步驟:
獲取基因變異候選位點對應的至少一基因定序閱讀片段;
根據該至少一基因定序閱讀片段的屬性訊息,確定該基因變異候選位點的序列特徵和非序列特徵,其中,該序列特徵為與位點的位置相關的特徵;及
基於該序列特徵和該非序列特徵,對該基因變異候選位點的基因變異進行辨識。
本發明的功效在於:提供獲取基因變異候選位點對應的至少一基因定序閱讀片段,可以根據該至少一基因定序閱讀片段的屬性訊息,確定基因變異候選位點的序列特徵和非序列特徵,從而可以基於確定的序列特徵和非序列特徵對基因變異候選位點的基因變異進行辨識。這裡,序列特徵可以是與位點的位置相關的特徵,非序列特徵可以是與位點的位置不相關的特徵,從而在基因變異辨識過程中,可以將基因的序列特徵和非序列特徵相結合,更加全面地分析基因變異位點的特徵,篩掉生殖系基因變異以及由於雜訊和錯誤帶來的干擾,更好地對基因變異進行辨識,增強基因變異辨識的準確性。
以下將參考附圖詳細說明本公開的各種示例性實施例、特徵和方面。附圖中相同的附圖示記表示功能相同或相似的元件。儘管在附圖中示出了實施例的各種方面,但是除非特別指出,不必按比例繪製附圖。
在這裡專用的詞“示例性”意為“用作例子、實施例或說明性”。這裡作為“示例性”所說明的任何實施例不必解釋為優於或好於其它實施例。
另外,為了更好的說明本發明,在下文的具體實施模式中給出了眾多的具體細節。本領域技術人員應當理解,沒有某些具體細節,本發明同樣可以實施。在一些實例中,對於本領域技術人員熟知的方法、手段、元件和電路未作詳細描述,以便於凸顯本發明的主旨。
本發明實施例提供的基因變異辨識方法,可以獲取基因變異候選位點對應的至少一個基因定序閱讀片段,從而可以根據至少一個基因定序閱讀片段對基因變異候選位點的基因變異進行辨識。在基因變異辨識過程中,可以根據至少一個基因定序閱讀片段的序列屬性訊息生成序列特徵,根據至少一個基因定序閱讀片段的非序列屬性訊息生成非序列特徵,然後可以透過序列特徵和非序列特徵對基因變異候選位點的基因變異進行辨識,從而可以整合至少一個基因定序閱讀片段的序列屬性訊息和非序列屬性訊息,更加全面地利用基因定序閱讀片段的序列屬性訊息。
在相關技術中,通常是利用支援向量機、隨機森林等現有機器學習方法進行基因變異辨識,這種模式雖然實現簡單,但難以利用基因變異候選位點附近基因序列的序列屬性訊息,基因變異辨識的效果在基因數據量增加到一定程度之後會陷入瓶頸。還有一些相關技術採用深度學習方法,利用神經網路對基因變異進行辨識。但是,神經網路難以整合基因序列的非序列訊息,無法對基因數據進行更加全面地分析。在本發明實施例中,在基因變異辨識過程中可以利用由多模態訊息整合的神經網路模型提取基因變異候選位點的序列特徵和非序列特徵,從而可以綜合基因序列的序列屬性訊息和非序列屬性訊息,更加全面地對基因數據進行分析,篩掉生殖系基因變異以及由於雜訊和錯誤帶來的干擾,更好地對基因變異進行辨識。下述實施例將會對基因變異辨識過程作詳細說明。
圖1展示出根據本發明一實施例的基因變異辨識方法的流程圖。該基因變異辨識方法可以由基因變異辨識裝置或其它處理設備執行,其中,基因變異辨識裝置可以為用戶設備(User Equipment,UE)、移動設備、用戶終端設備、終端設備、蜂巢式行動電話、無線電話、個人數位助理(Personal Digital Assistant,PDA)、手持設備、計算設備、車載設備、可穿戴設備等,或者,基因變異辨識裝置可以為伺服器。在一些可能的實現模式中,該基因變異辨識方法可以透過處理器調用儲存器中儲存的電腦可讀指令的模式來實現。
如圖1所示,該基因變異辨識方法包括︰
步驟11,獲取基因變異候選位點對應的至少一個基因定序閱讀片段。
在本發明實施例中,基因變異辨識裝置可以獲取由基因定序得到的基因定序閱讀片段,然後在基因定序得到的基因定序閱讀片段中,獲取基因變異候選位點對應的至少一個基因定序閱讀片段。這裡的基因定序閱讀片段可以理解為經過基因定序後標注有基因類型的基因序列,每個基因定序閱讀片段的長度可以相同也可以不同。在長度不同的情況下,每個基因定序閱讀片段的長度可以在預設長度範圍內,從而可以保證每個基因定序閱讀片段的長度比較接近。基因類型可以理解為鹼基類型,基因類型可以包括胞嘧啶(C)、鳥嘌呤(G)、腺嘌呤(A)、胸腺嘧啶(T),從而基因定序閱讀片段可以是包括AGCT的基因序列。這裡的基因變異候選位點可以是基因序列存在異常的位點。基因序列的位點可以表示基因序列的位置,針對每個位點,可以存在至少一個基因定序閱讀片段,亦即,在同一個位點可以存在由基因定序得到的至少一個基因定序閱讀片段。相應地,基因變異候選位點對應至少一個基因定序閱讀片段,其中,這至少一個基因定序閱讀片段都在這一位點上出現異常。基因變異候選位點可以為至少一個,每個基因變異候選位點可以對應至少一個基因定序閱讀片段。為了便於理解,本發明實施例以一個基因變異候選位點進行說明。
步驟12,根據該至少一個基因定序閱讀片段的屬性訊息,確定該基因變異候選位點的序列特徵和非序列特徵,其中,該序列特徵為與位點的位置相關的特徵。
在本發明實施例中,在獲取基因變異候選位點對應的至少一個基因定序閱讀片段之後,可以提取該基因變異候選位點對應的至少一個基因定序閱讀片段的屬性訊息,並根據提取的屬性訊息生成該基因變異候選位點的序列特徵和非序列特徵。屬性訊息可以包括序列屬性訊息和非序列屬性訊息。序列屬性訊息可以是與位點的位置相關的表徵基因定序閱讀片段的基因屬性的訊息。非序列屬性訊息可以是不受到位點的位置限制並且可以表徵基因屬性的訊息。在提取屬性訊息時,可以隨機選擇該基因候選位點對應的若干個基因定序閱讀片段,提取隨機選擇的若干個基因定序閱讀片段的屬性訊息;還可以提取該基因候選位點對應的每個基因定序閱讀片段的屬性訊息。
在提取序列屬性訊息時,可以提取至少一個基因定序閱讀片段在該基因變異候選位點的序列屬性訊息,還可以提取至少一個基因定序閱讀片段在該基因變異候選位點附近位點的序列屬性訊息。在確定基因變異候選位點的序列特徵時,可以利用帶有卷積層和池化層的神經網路模型,對基因變異候選位點對應的至少一個基因定序閱讀片段提取基因變異候選位點的序列特徵。該神經網路模型可以包括兩個分支架構,其中一個分支可以提取基因定序閱讀片段的序列特徵,該分支可以包括卷積層和池化層;另一個分支可以提取基因定序閱讀片段的非序列特徵。該神經網路模型從而可以整合多種模態訊息(序列屬性訊息和非序列屬性訊息),對基因變異候選位點的基因變異進行辨識。在確定基因變異候選位點的非序列特徵時,可以利用上述神經網路模型,由該神經網路模型的另一個分支提取至少一個基因定序閱讀片段的非序列特徵,該分支架構可以包括全連接層,全連接層可以用於提取不受位置限制的非序列特徵。
步驟13,基於該序列特徵和該非序列特徵,對該基因變異候選位點的基因變異進行辨識。
在本發明實施模式中,在確定基因變異候選位點的序列特徵和非序列特徵之後,可將序列特徵和非序列特徵進行融合,對該基因變異候選位點的基因變異進行辨識,例如,可以利用上述神經網路模型判斷該基因變異候選位點的基因是否變異,或者,該基因變異候選位點的基因是否是由於雜訊等原因而導致的基因序列異常。
本發明實施例中可以根據基因變異候選位點的序列特徵和非序列特徵對基因變異候選位點的基因變異進行辨識,從而可以更加全面地對基因定序數據進行分析。在對基因變異候選位點的基因變異進行辨識時,首先需要獲取基因變異候選位點對應的至少一個基因定序閱讀片段。本發明實例還提供了一種獲取基因變異候選位點對應的至少一個基因定序閱讀片段的過程。
圖2展示出根據本發明一實施例的獲取基因變異候選位點對應的至少一個基因定序閱讀片段的流程圖。在一種可能的實現模式中,獲取基因變異候選位點對應的至少一個基因定序閱讀片段,可以包括以下步驟︰
步驟111,獲取由體細胞基因進行基因定序得到的基因定序閱讀片段。
透過體細胞基因進行基因定序可以得到至少一個基因定序閱讀片段,基因定序閱讀片段可以是對體細胞基因進行基因類型標注的序列。體細胞基因在進行基因定序之後,不僅可以得到基因定序閱讀片段中每個基因的基因類型,還可以得到基因定序閱讀片段中每個基因所在位點的基因位置訊息。同一個位點可以對應至少一個基因定序閱讀片段。
在一種可能的實現模式中,透過體細胞基因進行基因定序可以得到至少一個基因定序閱讀片段,可以對基因定序得到的基因定序閱讀片段進行預處理,這裡的預處理模式可以包括交叉污染篩選、定序品質篩選、比對品質篩選、閱讀片段長度異常篩選等。透過預處理,可以篩選掉交叉污染的基因定序閱讀片段,以及篩選掉定序品質和比對品質較低、閱讀片段長度異常的基因定序閱讀片段。
步驟112,將該基因定序閱讀片段的基因序列與參考基因組的基因序列進行比對,得到比對結果。
在本發明實施例中,在獲取由體細胞基因進行基因定序得到的基因定序閱讀片段之後,可以將獲取的基因定序閱讀片段的基因序列與相同位點的參考基因組的基因序列的進行比對,得到對比結果。舉例來說,可以將每個進行基因定序得到的基因定序閱讀片段與相同位點的參考基因組的基因序列進行對比,確定基因定序閱讀片段的基因序列與參考基因組的基因序列不同的位點。還可以將具有相同位點的至少一個基因定序閱讀片段與相同位點的參考基因組的基因序列進行對比,確定至少一個基因定序閱讀片段的基因序列與參考基因組的基因序列不同的位點。
步驟113,根據該比對結果確定該體細胞基因的基因存在異常的基因變異候選位點。
在本發明實施例中,可以根據比對結果確定基因定序閱讀片段與參考基因組的基因序列不同的位點,如果該位點對應的至少一個基因定序閱讀片段中,在該位點發送變異的基因定序閱讀片段的比例大於預設比例,則可以確定該位點為基因變異候選位點,否則,可以認為該位點不是基因變異候選位點。基因定序閱讀片段在該位點與參考基因組的基因序列不同,可能是因為定序錯誤導致的不同,透過這種模式,可以減少由於基因定序失誤引起的基因序列異常現象。
步驟114,獲取該基因變異候選位點對應的至少一個基因定序閱讀片段。
在本發明實施例中,在確定基因變異候選位點之後,可以獲取基因變異候選位點對應的至少一個基因定序閱讀片段。其中,每個基因變異候選位點對應的至少一個基因定序閱讀片段,在該基因變異候選位點的基因序列與相同位點的參考基因組的基因序列可以不同。這裡的基因變異候選位點可以為至少一個。
透過上述獲取基因變異候選位點對應的至少一個基因定序閱讀片段的過程,不僅可以較為準確地確定基因變異候選位點,還可以在基因定序得到的基因定序閱讀片段中確定基因變異候選位點對應的至少一個基因定序閱讀片段。
本發明實施例中可以根據基因變異候選位點對應的至少一個基因定序閱讀片段的序列屬性訊息,確定該基因變異候選位點的序列特徵,從而在對基因變異候選位點的基因變異進行辨識時,可以考慮基因變異候選位點所對應的至少一個基因定序閱讀片段的序列屬性。下面透過一示例對確定基因變異候選位點的序列特徵的過程進行詳細說明。
圖3示出根據本發明一實施例的基因變異候選位點的序列特徵過程的流程圖。如圖3所示,上述步驟12可以包括以下步驟:
步驟121a,根據該基因變異候選位點的基因位置訊息,確定該基因變異候選位點所在的預設位點區間;
步驟122a,獲取該至少一個基因定序閱讀片段在該預設位點區間中每個位點的序列屬性訊息,其中,該序列屬性訊息為與位點的位置相關的表徵基因屬性的訊息;
步驟123a,根據該預設位點區間中每個位點的序列屬性訊息,生成該基因變異候選位點的序列特徵。
在本發明實施例的示例中,對於每一個基因變異候選位點可以存在至少一個基因定序閱讀片段。為了提升基因變異辨識的準確度,不僅可以考慮該基因變異候選位點的序列屬性訊息,還可以考慮該基因變異候選位點附近的位點的序列屬性訊息。在確定基因變異候選位點的序列特徵時,可以根據基因變異候選位點的基因位置訊息,確定該基因變異候選位點所在的預設位點區間,例如,可以將基因變異候選位點前後150個鹼基對的區間作為基因變異候選位點所在的預設位點區間。然後可以針對該預設位點區間內的每個位點,獲取至少一個基因定序閱讀片段在該位點的序列屬性訊息,由該位點的序列屬性訊息可以生成該位點對應序列特徵。序列特徵可以用序列特徵向量進行表示。由基因變異候選位點所在預設位點區間中至少一個位點對應的至少一個序列特徵向量,可以形成基因變異候選位點的序列特徵矩陣。舉例來說,若基因變異候選位點所在預設位點區間包括3個位點b1、b2、b3,3個位點對應的序列特徵向量分別為a1、a2、a3,基因變異候選位點的序列特徵矩陣為[a1 a2 a3],其中,a1、a2、a3的序列特徵分別對應b1、b2、b3的序列屬性訊息。
序列屬性訊息可以包括但不限於︰參考基因組的基因類型;每種基因類型的基因數量;每種基因類型的缺失基因數量;每種基因類型的插入基因數量。參考基因組的基因類型可以是參考基因組在基因變異候選位點的基因類型。每種基因類型的基因數量可以是至少一個基因定序閱讀片段在該基因變異候選位點每種基因類型的基因數量,例如,該基因變異候選位點對應5個基因定序閱讀片段,每個基因定序閱讀片段在該基因變異候選位點的基因類型分別為︰A、C、C、G、G,則每種基因類型的基因數量分別為︰A為1個;C為2個;G為2個。每種基因類型的缺失基因數量可以是至少一個基因定序閱讀片段在該基因變異候選位點每種基因類型的缺失基因數量,例如,每個基因定序閱讀片段在該基因變異候選位點缺失的基因類型分別為︰A、C、C、G、G,則每種基因類型的缺失基因數量分別為︰A為1個;C為2個;G為2個。每種基因類型的插入基因數量可以是至少一個基因定序閱讀片段在該基因變異候選位點每種基因類型的插入基因數量,例如,每個基因定序閱讀片段在該基因變異候選位點插入的基因類型分別為︰A、C、C、G、G,則每種基因類型的插入基因數量分別為︰A為1個;C為2個;G為2個。
在一種可能的實現模式中,在獲取至少一個基因定序閱讀片段在預設位點區間中每個位點的序列屬性訊息時,可以針對該預設位點區間中的每個位點,確定至少一個基因定序閱讀片段在該位點的基因類型,並統計該位點所對應的每種基因類型的基因數量,從而可以確定基因變異候選位點對應的至少一個基因定序閱讀片段,在該位點每種基因類型的基因數量。
在一種可能的實現模式中,在獲取至少一個基因定序閱讀片段在預設位點區間中每個位點的序列屬性訊息時,可以根據每個基因定序閱讀片段的基因序列與參考基因組的基因序列進行比對的比對結果,針對該預設位點區間中的每個位點,確定每個基因定序閱讀片段在該位點的缺失基因的基因類型,並統計至少一個基因定序閱讀片段在該位點上每種基因類型的缺失基因數量,從而可以確定基因變異候選位點對應的至少一個基因定序閱讀片段,在該位點每種基因類型的缺失基因數量。
在一種可能的實現模式中,在獲取至少一個基因定序閱讀片段在預設位點區間中每個位點的序列屬性訊息時,可以根據每個基因定序閱讀片段的基因序列與參考基因組的基因序列進行比對的比對結果,針對該預設位點區間中的每個位點,確定每個基因定序閱讀片段在該位點的缺失基因的基因類型,並統計至少一個基因定序閱讀片段在該位點上每種基因類型的插入基因數量,從而可以確定基因變異候選位點對應的至少一個基因定序閱讀片段,在該位點每種基因類型的插入基因數量。
舉例來說,假設序列屬性訊息包括參考基因組的基因類型、每種基因類型的基因數量、每種基因類型的缺失基因數量、每種基因類型的插入基因數量,在確定基因變異候選位點的序列特徵時,可以針對基因變異候選位點所在的預設位點區間中的每一個位點,提取基因變異候選位點對應的至少一個基因定序閱讀片段在該位點的上述四個訊息,例如,基因變異候選位點對應的5個基因定序閱讀片段,針對預預設位點區間中的某一位點,可以分別確定參考基因組在該位點的基因類型、5個基因定序閱讀片段在該位點各基因類型的基因數量、5個基因定序閱讀片段在該位點各基因類型的缺失基因數量和5個基因定序閱讀片段在該位點各基因類型的插入基因數量。然後綜合該位點對應的至少一個序列屬性訊息,可以得到該位點的序列特徵。基因變異候選位點的序列特徵可以包括預設位點區間中每個位點的序列特徵。
本發明實施例的示例中不僅在對基因變異候選位點的基因變異進行辨識時,考慮了基因變異候選位點所對應的至少一個基因定序閱讀片段的序列屬性,還考慮了至少一個基因定序閱讀片段的非序列屬性。下面透過一示例對確定基因變異候選位點的非序列特徵的過程進行詳細說明。
圖4示出根據本公開一實施例的基因變異候選位點的非序列特徵過程的流程圖。如圖4所示,上述步驟12可以包括以下步驟︰
步驟121b,獲取該至少一個基因定序閱讀片段的非序列屬性訊息,其中,該非序列屬性訊息為與位點的位置不相關的表徵基因屬性的訊息;
步驟122b,根據該至少一個基因定序閱讀片段的非序列屬性訊息,生成該基因變異候選位點的非序列特徵。
在本公開實施例的示例中,為了提升基因變異辨識的準確度,不僅可以考慮至少一個基因定序閱讀片段的序列屬性訊息,還可以考慮至少一個基因定序閱讀片段的非序列屬性訊息。這裡,非序列訊息可以包括以下至少一種訊息︰對比品質;正負鏈偏好;基因定序閱讀片段長度;邊緣偏好。在確定基因變異候選位點的非序列特徵時,可以獲取至少一個基因屬性序列閱讀片段的非序列屬性訊息,然後由獲取的非序列屬性訊息生成基因變異候選位點的非序列特徵。
在一種可能的實現模式中,在根據該至少一個基因定序閱讀片段的非序列屬性訊息,確定該基因變異候選位點的非序列特徵時,可以根據每個基因定序閱讀片段中每個位點的對比品質,確定每個基因定序閱讀片段的對比品質,然後根據每個基因定序閱讀片段的對比品質,確定該基因變異候選位點對應的非序列特徵。這裡,對比品質可以用於表徵基因定序閱讀片段中每個基因序列的基因定序的準確性,如果某個基因序列的對比品質低於預設值,則可以認為該基因序列由基因定序得到的基因類型不準確,從而可以將對比品質作為判斷基因變異候選位點的基因是否發生變異的一個參考原素。舉例來說,基因變異候選位點對應至少一個基因定序閱讀片段,則可以根據每個基因序列的對比品質,確定每個基因定序閱讀片段的對比品質,以一個基因定序閱讀片段舉例,可以將該基因定序閱讀片段所包括的基因序列的對比品質的平均值或者中間值,作為該基因定序閱讀片段的對比品質,還可以在該基因定序閱讀片段隨機選擇至少一個基因序列,將選擇的至少一個基因序列對比品質的平均值或者中間值作為該基因定序閱讀片段的對比品質。然後由每個基因定序閱讀片段的對比品質得到該基因變異候選位點對應的對比品質,例如,計算該基因變異候選位點對應的至少一個基因定序閱讀片段對比品質的平均值或者均值,得到該基因變異候選位點對應的對比品質,從而可以根據該基因變異候選位點對應的對比品質確定基因變異候選位點對應的非序列特徵。
在一種可能的實現模式中,在根據至少一個基因定序閱讀片段的非序列屬性訊息,確定基因變異候選位點的非序列特徵時,可以根據每個基因定序閱讀片段所屬基因鏈的正負鏈訊息,確定至少一個基因定序閱讀片段所屬基因鏈的正負鏈比例,然後根據確定的正負鏈比例,確定基因變異候選位點對應的非序列特徵。正負鏈偏好可以是基因定序閱讀片段所屬基因鏈中正鏈和負鏈的比例,基因鏈可以包括正鏈和負鏈,其中,正鏈可以是與核糖核酸(RNA)的鹼基序列相同的去氧核糖核酸(DNA)單鏈,負鏈可以是與核糖核酸(RNA)的鹼基序列互補的去氧核糖核酸(DNA)單鏈。舉例來說,基因變異候選位點對應5個基因定序閱讀片段,其中,3個基因定序閱讀片段對應基因鏈的正鏈,2個基因定序閱讀片段對應基因鏈的負鏈,則正負鏈偏好可以是3:2。
在一種可能的實現模式中,在根據至少一個基因定序閱讀片段的非序列屬性訊息,確定基因變異候選位點的非序列特徵時,可以根據每個基因定序閱讀片段的基因定序閱讀片段長度,確定基因變異候選位點的非序列特徵。基因定序閱讀片段長度可以是每個基因定序閱讀片段所具有鹼基序列的長度,舉例來說,一個基因定序閱讀片段包括4個鹼基序列,則該基因定序閱讀片段的長度為4,可以由每個基因定序閱讀片段長度確定基因變異候選位點的非序列特徵,還可以由至少一個基因定序閱讀片段長度的中間值或者平均值確定基因變異候選位點的非序列特徵。
在一種可能的實現模式中,在根據至少一個基因定序閱讀片段的非序列屬性訊息,確定基因變異候選位點的非序列特徵時,可以根據每個基因定序閱讀片段的邊緣偏好,確定基因變異候選位點的非序列特徵。這裡,邊緣偏好可以是某一位點在基因定序閱讀片段中位於邊緣位置與中間位置的比例。舉例來說,可以將基因定序閱讀片段平均分為3段,其中,基因定序閱讀片段兩端的2段可以作為邊緣位置,基因定序閱讀片段中間的1段可以作為中間位置,基因變異候選位點對應5個基因定序閱讀片段,基因變異候選位點如果位於其中3個基因定序閱讀片段的邊緣位置,位於其中2個基因定序閱讀片段的中間位置,該基因變異候選位點的邊緣偏好可以為3:2。相應地,可以由基因變異候選位點在每個基因定序閱讀片段的邊緣偏好,確定基因變異候選位點的非序列特徵,還可以由至少一個基因定序閱讀片段所對應的邊緣偏好的中間值或者平均值,確定基因變異候選位點的非序列特徵。
透過上述模式,可以針對至少一個基因定序閱讀片段在基因變異候選位點的非序列屬性訊息生成基因變異候選位點的非序列特徵,從而可以在基因變異辨識時考慮基因變異候選位點的非序列特徵度特徵,使基因變異辨識更加準確。在確定非序列特徵時,可以是由非序列屬性訊息中任意至少一個訊息的組合生成至少一個基因定序閱讀片段的非序列特徵。
下面透過一示例對基因變異候選位點的基因變異進行辨識的過程進行說明。
圖5示出根據本公開一實施例的辨識基因變異候選位點的基因變異過程的流程圖。如圖5所示,上述步驟13可以包括以下步驟︰
步驟131,將該序列特徵和該非序列特徵進行特徵整合,得到該基因變異候選位點的整合特徵;
步驟132,基於該基因變異候選位點的整合特徵,對該基因變異候選位點的基因變異進行辨識。
在本發明實施例中,在確定基因變異候選位點的序列特徵和非序列維度特徵之後,可以利用神經網路模型對序列特徵和非序列特徵進行特徵整合,將序列特徵形成的序列特徵矩陣與非序列特徵形成的非序列特徵矩陣合成為一個特徵矩陣,得到由整合特徵形成的整合特徵矩陣,然後利用神經網路模型根據該整合特徵矩陣對變異候選位點的基因變異進行辨識。透過這種模式,可以利用神經網路模型整合基因變異候選位點對應的序列屬性訊息和非序列屬性訊息,從而可以更加全面地對基因定序數據進行分析,使基因變異辨識更加準確。在訓練過程中,可以選取存在單核苷酸多型性(Single Nucleotide Polymorphism,SNP)的基因定序閱讀片段、存在插入/缺失(Insertion/Deletion,InDel)的基因定序閱讀片段作為訓練樣本,從而訓練後得到的基因變異辨識模型可以有效地對SNP、InDel的基因變異進行辨識。
在一種可能的實現模式中,根據該基因變異候選位點的整合特徵,對該基因變異候選位點的基因變異進行辨識,可以包括︰根據該基因變異候選位點的整合特徵,得到該基因變異候選位點的基因發生變異的變異值;在該變異值大於或等於預設閾值的情況下,確定該基因變異候選位點的基因存在變異。這裡,基因發生變異的變異值可以是表徵該基因變異候選位點發生變異的可能性,例如,變異值越大,該基因變異候選位點發生變異的可能性越大。可以利用上述神經網路對二維特徵進行處理得到變異值,並根據變異值判斷基因變異候選位點的基因是否存在變異。在一種可能的實現模式中,變異值可以在0至1之間。預設閾值可以根據應用場景進行設定,例如,0.3、0.5,如果變異值大於預設閾值,則可以認為該基因變異候選位點的基因發生變異,否則,可以為該基因變異候選位點的基因未發生變異。
本發明實施例中可以利用神經網路模型對基因變異候選位點的基因變異進行辨識,該神經網路模型可以提取基因變異候選位點的序列特徵和非序列特徵。本公開實施例還提供了一種神經網路模型的架構。
圖6示出根據本公開一實施例的神經網路模型的方塊圖。如圖6所示,神經網路模型可以包括兩個分支架構,第一分支和第二分支。第一分支可以用於提取基因變異候選位點對應的至少一個基因定序閱讀片段的序列特徵,第一分支可以包括卷積層和池化層。第二分支可以用於提取基因變異候選位點對應的至少一個基因定序閱讀片段的非序列特徵,第二分支可以包括全連接層。神經網路模型提取基因變異候選位點的序列特徵和非序列特徵之後,可以將序列特徵和非序列特徵進行整合,例如,將序列特徵的序列特徵矩陣與非序列特徵的非序列特徵矩陣進行拼接,得到整合特徵的整合特徵矩陣,然後再經過全連接層可以得到基因變異候選位點的變異值。
本公開實施例透過提取基因變異候選位點對應的至少一個基因定序閱讀片段的序列屬性訊息和非序列屬性訊息,利用對序列屬性訊息和非序列屬性訊息整合的整合特徵對基因變異進行辨識,從而綜合考慮基因變異候選位點對應的序列屬性訊息和非序列屬性訊息,更加全面地分析基因定序訊息,更好地對基因候選位點的基因變異進行辨識,篩掉生殖系基因變異以及由於雜訊和錯誤帶來的干擾,提升基因變異辨識的準確率。
本領域技術人員可以理解,在具體實施模式的上述方法中,各步驟的撰寫順序並不意味著嚴格的執行順序而對實施過程構成任何限定,各步驟的具體執行順序應當以其功能和可能的內在邏輯確定。
圖7示出根據本發明實施例的基因變異辨識裝置的方塊圖,如圖7所示,該基因變異辨識裝置包括︰
獲取模組71,用於獲取基因變異候選位點對應的至少一個基因定序閱讀片段;
確定模組72,用於根據該至少一個基因定序閱讀片段的屬性訊息,確定該基因變異候選位點的序列特徵和非序列特徵,其中,該序列特徵為與位點的位置相關的特徵;
辨識模組73,用於基於該序列特徵和該非序列特徵,對該基因變異候選位點的基因變異進行辨識。
在一種可能的實現模式中,該屬性訊息包括序列屬性訊息;該確定模組72,包括︰
第一確定子模組,用於根據該基因變異候選位點的基因位置訊息,確定該基因變異候選位點所在的預設位點區間;
第一獲取子模組,用於獲取該至少一個基因定序閱讀片段在該預設位點區間中每個位點的序列屬性訊息;其中,該序列屬性訊息為與位點的位置相關的表徵基因屬性的訊息;
第一生成子模組,用於根據該預設位點區間中每個位點的序列屬性訊息,生成該基因變異候選位點的序列特徵。
在一種可能的實現模式中,該第一獲取子模組,具體用於確定該至少一個基因定序閱讀片段在該每個位點的基因類型;統計該每個位點對應的每種基因類型的基因數量。
在一種可能的實現模式中,該第一獲取子模組,具體用於根據每個基因定序閱讀片段的基因序列與參考基因組的基因序列進行比對的比對結果,確定每個基因定序閱讀片段在該每個位點的缺失基因的基因類型;統計該至少一個基因定序閱讀片段在該每個位點上每種基因類型的缺失基因數量。
在一種可能的實現模式中,該第一獲取子模組,具體用於根據每個基因定序閱讀片段的基因序列與參考基因組的基因序列進行比對的比對結果,確定每個基因定序閱讀片段在該每個位點的插入基因的基因類型;統計該至少一個基因定序閱讀片段在該每個位點上每種基因類型的插入基因數量。
在一種可能的實現模式中,該序列屬性訊息包括以下至少一種訊息︰
參考基因的基因類型、每種基因類型的基因數量、每種基因類型的缺失基因數量,及每種基因類型的插入基因數量。
在一種可能的實現模式中,該屬性訊息包括非序列屬性訊息;該確定模組,包括︰
第二獲取子模組,用於獲取該至少一個基因定序閱讀片段的非序列屬性訊息,其中,該非序列屬性訊息為與位點的位置不相關的表徵基因屬性的訊息;
第二確定子模組,用於根據該至少一個基因定序閱讀片段的非序列屬性訊息,確定該基因變異候選位點的非序列特徵。
在一種可能的實現模式中,該非序列訊息包括以下至少一種訊息︰
對比品質、正負鏈偏好、基因定序閱讀片段長度,及邊緣偏好。
在一種可能的實現模式中,該第二確定子模組,具體用於根據每個基因定序閱讀片段中每個位點的對比品質,確定每個基因定序閱讀片段的對比品質,其中,該對比品質用於表徵基因定序閱讀片段中每個基因序列的基因定序的準確性;根據每個基因定序閱讀片段的對比品質,確定該基因變異候選位點對應的非序列特徵。
在一種可能的實現模式中,該第二確定子模組,具體用於根據每個基因定序閱讀片段所屬基因鏈的正負鏈訊息,確定該至少一個基因定序閱讀片段所屬基因鏈的正負鏈比例;根據該正負鏈比例,確定該基因變異候選位點對應的非序列特徵。
在一種可能的實現模式中,該辨識模組73,包括︰
整合子模組,具體用於將該序列特徵和該非序列特徵進行特徵整合,得到該基因變異候選位點的整合特徵;
辨識子模組,用於基於該基因變異候選位點的整合特徵,對該基因變異候選位點的基因變異進行辨識。
在一種可能的實現模式中,該辨識子模組,具體用於根據該基因變異候選位點的整合特徵,得到該基因變異候選位點的基因發生變異的變異值;在該變異值大於或等於預設閾值的情況下,確定該基因變異候選位點的基因存在變異。
在一種可能的實現模式中,該獲取模組71,具體用於獲取由體細胞基因進行基因定序得到的基因定序閱讀片段;將該基因定序閱讀片段的基因序列與參考基因組的基因序列進行比對,得到比對結果;及獲取該基因變異候選位點對應的至少一個基因定序閱讀片段。
在一些實施例中,本發明實施例提供的裝置具有的功能或包含的模組可以用於執行上文方法實施例描述的方法,其具體實現可以參照上文方法實施例的描述,為了簡潔,這裡不再贅述。
圖8是根據一示例性實施例示出的一種用於基因變異辨識的裝置1900的方塊圖。例如,裝置1900可以被提供為一伺服器。參照圖8,裝置1900包括處理組件1922,其進一步包括一個或多個處理器,以及由儲存器1932所代表的儲存器資源,用於儲存可由處理組件1922的執行的指令,例如應用程式。儲存器1932中儲存的應用程式可以包括一個或一個以上的每一個對應於一組指令的模組。此外,處理組件1922被配置為執行指令,以執行上述方法。
裝置1900還可以包括一個電源組件1926被配置為執行裝置1900的電源管理,一個有線或無線網路介面1950被配置為將裝置1900連接到網路,和一個輸入輸出(I/O)介面1958。裝置1900可以操作基於儲存在儲存器1932的作業系統,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM或類似的作業系統。
在示例性實施例中,還提供了一種非揮發性電腦可讀儲存介質,例如包括電腦程式指令的儲存器1932,上述電腦程式指令可由裝置1900的處理組件1922執行以完成上述方法。
本發明可以是系統、方法和/或電腦程式產品。電腦程式產品可以包括電腦可讀儲存介質,其上載有用於使處理器實現本發明的各個方面的電腦可讀程式指令。
電腦可讀儲存介質可以是可以保持和儲存由指令執行設備使用的指令的有形設備。電腦可讀儲存介質例如可以是但不限於電儲存設備、磁儲存設備、光儲存設備、電磁儲存設備、半導體儲存設備或者上述的任意適合的組合。電腦可讀儲存介質的更具體的例子(非窮舉的清單)包括︰行動硬碟、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可擦除可規劃式唯讀記憶體(EPROM)、靜態隨機存取記憶體(SRAM)、唯讀記憶光碟(CD-ROM)、數位多功能光碟(DVD)、隨身碟、軟碟、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起架構、以及上述的任意適合的組合。這裡所使用的電腦可讀儲存介質不被解釋為瞬時訊號本身,諸如無線電波或者其他自由傳播的電磁波、透過波導或其他傳輸媒介傳播的電磁波(例如,透過光纖電纜的光脈波)、或者透過電線傳輸的電信號。
這裡所描述的電腦可讀程式指令可以從電腦可讀儲存介質下載到各個計算/處理設備,或者透過網路、例如網際網路、區域網路、廣域網路和/或無線網下載到外部電腦或外部儲存設備。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、通訊閘計算機和/或邊緣伺服器。每個計算/處理設備中的網路適配卡或者網路介面從網路接收電腦可讀程式指令,並轉發該電腦可讀程式指令,以供儲存在各個計算/處理設備中的電腦可讀儲存介質中。
用於執行本發明操作的電腦程式指令可以是彙編指令、指令集架構(ISA)指令、機器指令、機器相關指令、微指令、韌體指令、狀態設定數據、或者以一種或多種程式語言的任意組合編寫的原始碼或目標代碼,該程式語言包括面向對象的程式語言─諸如Smalltalk、C++等,以及常規的過程式程式語言─諸如“C”語言或類似的程式語言。電腦可讀程式指令可以完全地在用戶電腦上執行、部分地在用戶電腦上執行、作為一個獨立的套裝軟體執行、部分在用戶電腦上部分在遠端電腦上執行、或者完全在遠端電腦或伺服器上執行。在涉及遠端電腦的情形中,遠端電腦可以透過任意種類的網路─包括區域網路(LAN)或廣域網路(WAN)─連接到用戶電腦,或者,可以連接到外部電腦(例如利用網際網路服務提供商來透過網際網路連接)。在一些實施例中,透過利用電腦可讀程式指令的狀態訊息來個性化定製電子電路,例如可程式化邏輯電路、現場可程式化邏輯閘陣列(FPGA)或可程式化邏輯陣列(PLA),該電子電路可以執行電腦可讀程式指令,從而實現本發明的各個方面。
這裡參照根據本發明實施例的方法、裝置(系統)和電腦程式產品的流程圖和/或方塊圖描述了本發明的各個方面。應當理解,流程圖和/或方塊圖的每個方塊以及流程圖和/或塊圖中各方塊的組合,都可以由電腦可讀程式指令實現。
這些電腦可讀程式指令可以提供給通用電腦、專用電腦或其它可程式化數據處理裝置的處理器,從而生產出一種機器,使得這些指令在透過電腦或其它可程式化數據處理裝置的處理器執行時,產生了實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的裝置。也可以把這些電腦可讀程式指令儲存在電腦可讀儲存介質中,這些指令使得電腦、可程式化數據處理裝置和/或其他設備以特定模式工作,從而,儲存有指令的電腦可讀介質則包括一個製造品,其包括實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作的各個方面的指令。
也可以把電腦可讀程式指令加載到電腦、其它可程式化數據處理裝置、或其它設備上,使得在電腦、其它可程式化數據處理裝置或其它設備上執行一系列操作步驟,以產生電腦實現的過程,從而使得在電腦、其它可程式化數據處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方塊中規定的功能/動作。
附圖中的流程圖和方塊圖顯示了根據本公開的多個實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上,流程圖或方塊圖中的每個方塊可以代表一個模組、程式段或指令的一部分,該模組、程式段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作為替換的實現中,方塊中所標注的功能也可以以不同於附圖中所標注的順序發生。例如,兩個連續的方塊實際上可以基本並行地執行,它們有時也可以按相反的順序執行,這依所涉及的功能而定。也要注意的是,方塊圖和/或流程圖中的每個方塊、以及方塊圖和/或流程圖中的方塊的組合,可以用執行規定的功能或動作的專用的基於硬體的系統來實現,或者可以用專用硬體與電腦指令的組合來實現。
以上已經描述了本發明的各實施例,上述說明是示例性的,並非窮盡性的,並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情況下,對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇,旨在最好地解釋各實施例的原理、實際應用或對市場中技術的技術改進,或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。
11~13:步驟 111~114:步驟 121a~123a:步驟 121b~122b:步驟 131~132:步驟 71~73:步驟 1900:裝置 1922:處理組件 1926:電源組件 1932:儲存器 1950:網路介面 1958:輸入/輸出介面
包含在說明書中並且構成說明書的一部分的圖式與說明書一起示出了本發明的示例性實施例、特徵和方面,並且用於解釋本發明的原理,其中: 圖1示出根據本發明一實施例的基因變異辨識方法的流程圖; 圖2示出根據本發明一實施例的獲取基因變異候選位點對應的至少一個基因定序閱讀片段的流程圖; 圖3示出根據本發明一實施例的基因變異候選位點的序列特徵過程的流程圖; 圖4示出根據本發明一實施例的基因變異候選位點的非序列特徵過程的流程圖; 圖5示出根據本發明一實施例的辨識基因變異候選位點的基因變異過程的流程圖; 圖6示出根據本發明一實施例的神經網路模型的方塊圖; 圖7示出根據本發明一實施例的基因變異辨識裝置的方塊圖;及 圖8示出根據本公開一示例性實施例示出的一種用於基因變異辨識的裝置的方塊圖。
11~13:步驟

Claims (28)

  1. 一種基因變異辨識方法,包含以下步驟:獲取至少一對應於一基因變異候選位點的基因定序閱讀片段;根據該至少一基因定序閱讀片段的屬性訊息,確定該基因變異候選位點的一序列特徵和一非序列特徵,其中,該序列特徵為與位點的位置相關的特徵,該非序列特徵為不受位點的位置限制的特徵;及基於該序列特徵和該非序列特徵,對該基因變異候選位點的基因變異進行辨識。
  2. 如請求項1所述的基因變異辨識方法,其中,該屬性訊息包括序列屬性訊息,根據該至少一基因定序閱讀片段的屬性訊息,確定該基因變異候選位點的序列特徵,包括以下步驟:根據該基因變異候選位點的基因位置訊息,確定該基因變異候選位點所在的一預設位點區間;獲取該至少一基因定序閱讀片段在該預設位點區間中每一位點的序列屬性訊息,其中,該序列屬性訊息為與位點的位置相關的表徵基因屬性的訊息;及根據該預設位點區間中每一位點的序列屬性訊息,產生該基因變異候選位點的序列特徵。
  3. 如請求項2所述的基因變異辨識方法,其中,獲取該至少一基因定序閱讀片段在該預設位點區間中每個位點的序列屬性訊息,包括以下步驟: 確定該至少一基因定序閱讀片段在該每一位點的基因類型;及統計該每一位點對應的每種基因類型的基因數量。
  4. 如請求項2所述的基因變異辨識方法,其中,獲取該至少一個基因定序閱讀片段在該預設位點區間中每個位點的序列屬性訊息,包括以下步驟:根據每一基因定序閱讀片段的基因序列與參考基因組的基因序列進行比對的比對結果,確定每一基因定序閱讀片段在該每一位點的缺失基因的基因類型;及統計該至少一基因定序閱讀片段在該每一位點上每種基因類型的缺失基因數量。
  5. 如請求項2所述的基因變異辨識方法,其中,獲取該至少一基因定序閱讀片段在該預設位點區間中每個位點的序列屬性訊息,包括以下步驟:根據每一基因定序閱讀片段的基因序列與參考基因組的基因序列進行比對的比對結果,確定每一基因定序閱讀片段在該每一位點的插入基因的基因類型;及統計該至少一基因定序閱讀片段在該每一位點上每種基因類型的插入基因數量。
  6. 如請求項1至5任意一項所述的基因變異辨識方法,其中,該序列屬性訊息包括以下至少一種訊息:參考基因的基因類型、每種基因類型的基因數量、每種基因類型的缺失基因數量、及每種基因類型的插入基因數量。
  7. 如請求項1至5任意一項所述的基因變異辨識方法,其中, 該屬性訊息包括非序列屬性訊息,根據該至少一基因定序閱讀片段的屬性訊息,確定該基因變異候選位點的非序列特徵,包括以下步驟:獲取該至少一基因定序閱讀片段的非序列屬性訊息,其中,該非序列屬性訊息為與位點的位置不相關的表徵基因屬性的訊息;及根據該至少一基因定序閱讀片段的非序列屬性訊息,確定該基因變異候選位點的非序列特徵。
  8. 如請求項7所述的基因變異辨識方法,其中,該非序列屬性訊息包括以下至少一種訊息:對比品質、正負鏈偏好、基因定序閱讀片段長度,及邊緣偏好。
  9. 如請求項8所述的基因變異辨識方法,其中,根據該至少一基因定序閱讀片段的非序列屬性訊息,確定該基因變異候選位點的非序列特徵,包括以下步驟:根據每一基因定序閱讀片段中每一位點的對比品質,確定每一基因定序閱讀片段的對比品質,其中,該對比品質用於表徵基因定序閱讀片段中每一基因序列的基因定序的準確性;及根據每一基因定序閱讀片段的對比品質,確定該基因變異候選位點對應的非序列特徵。
  10. 如請求項8所述的基因變異辨識方法,其中,根據該至少一基因定序閱讀片段的非序列屬性訊息,確定該基因變異候選位點的非序列特徵,包括以下步驟:根據每一基因定序閱讀片段所屬基因鏈的正負鏈訊 息,確定該至少一基因定序閱讀片段所屬基因鏈的正負鏈比例;及根據該正負鏈比例,確定該基因變異候選位點對應的非序列特徵。
  11. 如請求項1至5任意一項所述的基因變異辨識方法,其中,基於該序列特徵和該非序列特徵,對該基因變異候選位點的基因變異進行辨識,包括以下步驟:將該序列特徵和該非序列特徵進行特徵整合,得到該基因變異候選位點的整合特徵;及基於該基因變異候選位點的整合特徵,對該基因變異候選位點的基因變異進行辨識。
  12. 如請求項11所述的基因變異辨識方法,其中,基於該基因變異候選位點的整合特徵,對該基因變異候選位點的基因變異進行辨識,包括以下步驟:根據該基因變異候選位點的整合特徵,得到該基因變異候選位點的基因發生變異的變異值;及在該變異值大於或等於預設閾值的情況下,確定該基因變異候選位點的基因存在變異。
  13. 如請求項1至5任意一項所述的基因變異辨識方法,其中,獲取基因變異候選位點對應的至少一個基因定序閱讀片段,包括以下步驟:獲取由體細胞基因進行基因定序得到的基因定序閱讀片段;將該基因定序閱讀片段的基因序列與參考基因組的 基因序列進行比對,得到比對結果;根據該比對結果確定該體細胞基因的基因存在異常的基因變異候選位點;及獲取該基因變異候選位點對應的至少一個基因定序閱讀片段。
  14. 一種基因變異辨識裝置,包含:一獲取模組,用以獲取基因變異候選位點對應的至少一基因定序閱讀片段;一確定模組,用以根據該至少一個基因定序閱讀片段的屬性訊息,確定該基因變異候選位點的序列特徵和非序列特徵,其中,該序列特徵為與位點的位置相關的特徵,該非序列特徵為不受位點的位置限制的特徵;及一辨識模組,用以基於該序列特徵和該非序列特徵,對該基因變異候選位點的基因變異進行辨識。
  15. 如請求項14所述的基因變異辨識裝置,其中,該屬性訊息包括序列屬性訊息,該確定模組包括:一第一確定子模組,用以根據該基因變異候選位點的基因位置訊息,確定該基因變異候選位點所在的預設位點區間;一第一獲取子模組,用以獲取該至少一基因定序閱讀片段在該預設位點區間中每一位點的序列屬性訊息,其中,該序列屬性訊息為與位點的位置相關的表徵基因屬性的訊息;及一第一生成子模組,用以根據該預設位點區間中每一 位點的序列屬性訊息,生成該基因變異候選位點的序列特徵。
  16. 如請求項15所述的基因變異辨識裝置,其中,該第一獲取子模組,具體用以確定該至少一基因定序閱讀片段在該每個位點的基因類型,及統計該每一位點對應的每種基因類型的基因數量。
  17. 如請求項15所述的基因變異辨識裝置,其中,該第一獲取子模組,具體用以根據每一基因定序閱讀片段的基因序列與參考基因組的基因序列進行比對的比對結果,確定每一基因定序閱讀片段在該每一位點的缺失基因的基因類型;統計該至少一基因定序閱讀片段在該每個位點上每種基因類型的缺失基因數量。
  18. 如請求項15所述的基因變異辨識裝置,其中,該第一獲取子模組,具體用以根據每一基因定序閱讀片段的基因序列與參考基因組的基因序列進行比對的比對結果,確定每一基因定序閱讀片段在該每一位點的插入基因的基因類型,及統計該至少一基因定序閱讀片段在該每一位點上每種基因類型的插入基因數量。
  19. 如請求項14至18任意一項所述的基因變異辨識裝置,其中,該序列屬性訊息包括以下至少一種訊息:參考基因的基因類型、每種基因類型的基因數量、每種基因類型的缺失基因數量,及每種基因類型的插入基因數量。
  20. 如請求項14至18所述的基因變異辨識裝置,其中,該屬性訊息包括非序列屬性訊息,該確定模組還包括: 一第二獲取子模組,用以獲取該至少一基因定序閱讀片段的非序列屬性訊息,其中,該非序列屬性訊息為與位點的位置不相關的表徵基因屬性的訊息;及一第二確定子模組,用以根據該至少一基因定序閱讀片段的非序列屬性訊息,確定該基因變異候選位點的非序列特徵。
  21. 如請求項20所述的基因變異辨識裝置,其中,該非序列屬性訊息包括以下至少一種訊息:對比品質、正負鏈偏好、基因定序閱讀片段長度,及邊緣偏好。
  22. 如請求項21所述的基因變異辨識裝置,其中,該第二確定子模組,具體用以根據每一基因定序閱讀片段中每一位點的對比品質,確定每一基因定序閱讀片段的對比品質;其中,該對比品質用於表徵基因定序閱讀片段中每一基因序列的基因定序的準確性,及根據每一基因定序閱讀片段的對比品質,確定該基因變異候選位點對應的非序列特徵。
  23. 如請求項21所述的基因變異辨識裝置,其中,該第二確定子模組,具體用以根據每一基因定序閱讀片段所屬基因鏈的正負鏈訊息,確定該至少一基因定序閱讀片段所屬基因鏈的正負鏈比例,及根據該正負鏈比例,確定該基因變異候選位點對應的非序列特徵。
  24. 如請求項14至18任意一項所述的基因變異辨識裝置,其中,該辨識模組包括:一整合子模組,具體用以將該序列特徵和該非序列特徵進行特徵整合,得到該基因變異候選位點的整合特徵; 及一辨識子模組,用以基於該基因變異候選位點的整合特徵,對該基因變異候選位點的基因變異進行辨識。
  25. 如請求項24所述的基因變異辨識裝置,其中,該辨識子模組,具體用以根據該基因變異候選位點的整合特徵,得到該基因變異候選位點的基因發生變異的變異值;及在該變異值大於或等於預設閾值的情況下,確定該基因變異候選位點的基因存在變異。
  26. 如請求項14至18任意一項所述的基因變異辨識裝置,其中,該獲取模組,具體用以獲取由體細胞基因進行基因定序得到的基因定序閱讀片段;將該基因定序閱讀片段的基因序列與參考基因組的基因序列進行比對,得到比對結果;根據該比對結果確定該體細胞基因的基因存在異常的基因變異候選位點;及獲取該基因變異候選位點對應的至少一個基因定序閱讀片段。
  27. 一種基因變異辨識裝置,包含:一處理器;及一儲存器用以儲存該處理器可執行指令,其中,該處理器透過調用該可執行指令實現如請求項1至13任意一項所述的基因變異辨識方法。
  28. 一種非揮發性電腦可讀儲存介質,儲存有一電腦程式指令,其中,該電腦程式指令被一處理器執行時實現如請求項1至13任意一項所述的基因變異辨識方法。
TW108137265A 2019-03-29 2019-10-16 一種基因變異辨識方法、裝置和儲存介質 TWI748263B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910251891.0 2019-03-29
CN201910251891.0A CN109994155B (zh) 2019-03-29 2019-03-29 一种基因变异识别方法、装置和存储介质

Publications (2)

Publication Number Publication Date
TW202036582A TW202036582A (zh) 2020-10-01
TWI748263B true TWI748263B (zh) 2021-12-01

Family

ID=67131990

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108137265A TWI748263B (zh) 2019-03-29 2019-10-16 一種基因變異辨識方法、裝置和儲存介質

Country Status (7)

Country Link
US (1) US20210082539A1 (zh)
JP (1) JP7064654B2 (zh)
KR (1) KR20210116454A (zh)
CN (1) CN109994155B (zh)
SG (1) SG11202011523VA (zh)
TW (1) TWI748263B (zh)
WO (1) WO2020199336A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111081318B (zh) * 2019-12-06 2023-06-06 人和未来生物科技(长沙)有限公司 一种融合基因检测方法、系统和介质
CN111081314A (zh) * 2019-12-13 2020-04-28 北京市商汤科技开发有限公司 基因变异的识别方法及装置、电子设备和存储介质
CN111091873B (zh) * 2019-12-13 2023-07-18 北京市商汤科技开发有限公司 基因变异的识别方法及装置、电子设备和存储介质
CN111081313A (zh) * 2019-12-13 2020-04-28 北京市商汤科技开发有限公司 基因变异的识别方法及装置、电子设备和存储介质
CN111091867B (zh) * 2019-12-18 2021-11-09 中国科学院大学 基因变异位点筛选方法及系统
CN111304308A (zh) * 2020-03-02 2020-06-19 北京泛生子基因科技有限公司 一种审核高通量测序基因变异检测结果的方法
CN113517022A (zh) * 2021-06-10 2021-10-19 阿里巴巴新加坡控股有限公司 基因检测方法、特征提取方法、装置、设备及系统
CN113539357B (zh) * 2021-06-10 2024-04-30 阿里巴巴达摩院(杭州)科技有限公司 基因检测方法、模型训练方法、装置、设备及系统
CN113299344A (zh) * 2021-06-23 2021-08-24 深圳华大医学检验实验室 基因测序分析方法、装置、存储介质和计算机设备
CN113628683B (zh) * 2021-08-24 2024-04-09 慧算医疗科技(上海)有限公司 一种高通量测序突变检测方法、设备、装置及可读存储介质
CN115458052B (zh) * 2022-08-16 2023-06-30 珠海横琴铂华医学检验有限公司 基于一代测序的基因突变分析方法、设备和存储介质
CN115620802B (zh) * 2022-09-02 2023-12-05 蔓之研(上海)生物科技有限公司 一种基因数据的处理方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014149134A2 (en) * 2013-03-15 2014-09-25 Guardant Health Inc. Systems and methods to detect rare mutations and copy number variation
CN104293940A (zh) * 2014-09-30 2015-01-21 天津华大基因科技有限公司 构建测序文库的方法及其应用
CN104462869A (zh) * 2014-11-28 2015-03-25 天津诺禾致源生物信息科技有限公司 检测体细胞单核苷酸突变的方法和装置
CN105989246A (zh) * 2015-01-28 2016-10-05 深圳华大基因研究院 一种基于基因组组装的变异检测方法和装置
WO2016179049A1 (en) * 2015-05-01 2016-11-10 Guardant Health, Inc Diagnostic methods
CN107944228A (zh) * 2017-12-08 2018-04-20 广州漫瑞生物信息技术有限公司 一种基因测序变异位点的可视化方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2748192B2 (en) * 2011-08-23 2022-04-20 Foundation Medicine, Inc. Kif5b-ret fusion molecules and uses thereof
WO2014129894A1 (en) * 2013-02-19 2014-08-28 Cergentis B.V. Sequencing strategies for genomic regions of interest
KR20160010277A (ko) * 2014-07-18 2016-01-27 에스케이텔레콤 주식회사 산모의 무세포 dna의 차세대 서열분석을 통한 태아의 단일유전자 유전변이의 예측방법
JP6675164B2 (ja) * 2015-07-28 2020-04-01 株式会社理研ジェネシス 変異判定方法、変異判定プログラムおよび記録媒体
JP6679065B2 (ja) * 2015-10-07 2020-04-15 国立研究開発法人国立がん研究センター 稀少突然変異の検出方法、検出装置及びコンピュータプログラム
CN105574361B (zh) * 2015-11-05 2018-11-02 上海序康医疗科技有限公司 一种检测基因组拷贝数变异的方法
CN106529211A (zh) * 2016-11-04 2017-03-22 成都鑫云解码科技有限公司 变异位点的获取方法及装置
KR101936933B1 (ko) * 2016-11-29 2019-01-09 연세대학교 산학협력단 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스
CN106611106B (zh) * 2016-12-06 2019-05-03 北京荣之联科技股份有限公司 基因变异检测方法及装置
CN106683081B (zh) * 2016-12-17 2020-10-30 复旦大学 基于影像组学的脑胶质瘤分子标记物无损预测方法和预测系统
KR102035615B1 (ko) * 2017-08-07 2019-10-23 연세대학교 산학협력단 유전자 패널에 기초한 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스
CN108021788B (zh) * 2017-12-06 2022-08-05 北京新合睿恩生物医疗科技有限公司 基于细胞游离dna的深度测序数据提取生物标记物的方法和装置
EP3587586A1 (en) * 2018-06-22 2020-01-01 Julius-Maximilians-Universität Würzburg Method for statistically determining a quantification of old and new rna
CN109326316B (zh) * 2018-09-18 2020-10-09 哈尔滨工业大学(深圳) 一种癌症相关SNP、基因、miRNA和蛋白质相互作用的多层网络模型构建方法和应用

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014149134A2 (en) * 2013-03-15 2014-09-25 Guardant Health Inc. Systems and methods to detect rare mutations and copy number variation
CN104293940A (zh) * 2014-09-30 2015-01-21 天津华大基因科技有限公司 构建测序文库的方法及其应用
CN104462869A (zh) * 2014-11-28 2015-03-25 天津诺禾致源生物信息科技有限公司 检测体细胞单核苷酸突变的方法和装置
CN105989246A (zh) * 2015-01-28 2016-10-05 深圳华大基因研究院 一种基于基因组组装的变异检测方法和装置
WO2016179049A1 (en) * 2015-05-01 2016-11-10 Guardant Health, Inc Diagnostic methods
CN107944228A (zh) * 2017-12-08 2018-04-20 广州漫瑞生物信息技术有限公司 一种基因测序变异位点的可视化方法

Also Published As

Publication number Publication date
CN109994155A (zh) 2019-07-09
TW202036582A (zh) 2020-10-01
KR20210116454A (ko) 2021-09-27
US20210082539A1 (en) 2021-03-18
JP2022500773A (ja) 2022-01-04
SG11202011523VA (en) 2020-12-30
CN109994155B (zh) 2021-08-20
JP7064654B2 (ja) 2022-05-10
WO2020199336A1 (zh) 2020-10-08

Similar Documents

Publication Publication Date Title
TWI748263B (zh) 一種基因變異辨識方法、裝置和儲存介質
Rakocevic et al. Fast and accurate genomic analyses using genome graphs
Sandmann et al. Evaluating variant calling tools for non-matched next-generation sequencing data
Neumann et al. Quantification of experimentally induced nucleotide conversions in high-throughput sequencing datasets
Giordano et al. De novo yeast genome assemblies from MinION, PacBio and MiSeq platforms
Chikhi et al. Informed and automated k-mer size selection for genome assembly
Garber et al. Computational methods for transcriptome annotation and quantification using RNA-seq
Kofler et al. PoPoolation: a toolbox for population genetic analysis of next generation sequencing data from pooled individuals
Wu et al. Most parsimonious reconciliation in the presence of gene duplication, loss, and deep coalescence using labeled coalescent trees
Harris SKA: split kmer analysis toolkit for bacterial genomic epidemiology
Biller et al. Breaking good: accounting for fragility of genomic regions in rearrangement distance estimation
TWI740262B (zh) 一種基因變異識別方法、裝置和儲存介質
CN109979530B (zh) 一种基因变异识别方法、装置和存储介质
Das et al. OnlineCall: fast online parameter estimation and base calling for illumina's next-generation sequencing
Wang et al. Tool evaluation for the detection of variably sized indels from next generation whole genome and targeted sequencing data
CN106529211A (zh) 变异位点的获取方法及装置
Bernard et al. Recapitulating phylogenies using k-mers: from trees to networks
Keightley et al. Inference of mutation parameters and selective constraint in mammalian coding sequences by approximate Bayesian computation
Rivera-Rivera et al. LS³: A Method for Improving Phylogenomic Inferences When Evolutionary Rates Are Heterogeneous among Taxa
Snajder et al. pycoMeth: a toolbox for differential methylation testing from Nanopore methylation calls
Peischl et al. A sequential coalescent algorithm for chromosomal inversions
US20150142328A1 (en) Calculation method for interchromosomal translocation position
Wajid et al. The A, C, G, and T of genome assembly
Lin et al. MapCaller–An integrated and efficient tool for short-read mapping and variant calling using high-throughput sequenced data
US20160026756A1 (en) Method and apparatus for separating quality levels in sequence data and sequencing longer reads