TW201936921A - 次世代定序儀用引子以及其製造方法、使用次世代定序儀用引子之dna庫以及其製造方法,及使用dna庫之基因體dna解析方法 - Google Patents

次世代定序儀用引子以及其製造方法、使用次世代定序儀用引子之dna庫以及其製造方法,及使用dna庫之基因體dna解析方法 Download PDF

Info

Publication number
TW201936921A
TW201936921A TW107146389A TW107146389A TW201936921A TW 201936921 A TW201936921 A TW 201936921A TW 107146389 A TW107146389 A TW 107146389A TW 107146389 A TW107146389 A TW 107146389A TW 201936921 A TW201936921 A TW 201936921A
Authority
TW
Taiwan
Prior art keywords
primer
dna
generation sequencer
sequence
base
Prior art date
Application number
TW107146389A
Other languages
English (en)
Other versions
TWI715900B (zh
Inventor
榎宏征
竹內由枝
稲森稔
Original Assignee
日商豐田自動車股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日商豐田自動車股份有限公司 filed Critical 日商豐田自動車股份有限公司
Publication of TW201936921A publication Critical patent/TW201936921A/zh
Application granted granted Critical
Publication of TWI715900B publication Critical patent/TWI715900B/zh

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1093General methods of preparing gene libraries, not provided for in other subgroups
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/04Libraries containing only organic compounds
    • C40B40/06Libraries containing nucleotides or polynucleotides, or derivatives thereof
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/165Mathematical modelling, e.g. logarithm, ratio

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biochemistry (AREA)
  • Biomedical Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Microbiology (AREA)
  • Analytical Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Plant Pathology (AREA)
  • Medical Informatics (AREA)
  • Immunology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Medicinal Chemistry (AREA)
  • General Chemical & Material Sciences (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)

Abstract

本發明的課題為提供可得到多的測序片段數的次世代定序儀用引子。
其解決手段為於5’-CAAGCAGAAGACGGCATACGAGAT-N5~15 -GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG-3’(N5~15 為5~15鹼基之索引序列)中,作為基於以測序片段數為目標變數,以索引序列中之鹼基的種類為解釋變數之推定式所算出的測序片段數之推定值超過特定值之鹼基序列,來設計索引序列。

Description

次世代定序儀用引子以及其製造方法、使用次世代定序儀用引子之DNA庫以及其製造方法,及使用DNA庫之基因體DNA解析方法
本發明係關於具有可進行複數檢體之同時解析之索引的次世代定序儀用引子以及其製造方法、使用該次世代定序儀用引子之DNA庫以及其製造方法,及使用DNA庫之基因體DNA解析方法。
次世代定序儀(Next Generation Sequencer:NGS),為可並行地讀出關於多數之DNA片段的鹼基序列之裝置。作為一例,在Illumina公司之次世代定序儀中,係於隨機切斷的數千萬~數億個DNA片段之兩端部分別連結銜接體(adaptor),透過銜接體將5’末端側固定於定序晶片(flow-cell)上。接著,將預先固定於定序晶片上之5’末端側之銜接體與DNA片段之3’末端側之銜接體序列黏著(anneal),形成橋狀的DNA片段。藉由於該狀態下以DNA聚合酶進行核酸放大反應,可將多數之單股DNA片段局部地放大而固定。而次世代定序儀中,藉由以所得之單股DNA為模板來進行定序,可於1次的解析即得到40~200Gb之巨大的序列資訊。
次世代定序儀中之定序,係採用藉由螢光顯微鏡解析經螢光標識的dNTP之攝入的方法。具體而言,係使用3’末端側經保護基阻隔(block)並且經螢光標識之dNTP。藉由DNA聚合酶,對單股DNA片段互補的dNTP被攝入,將其以雷射光激發,藉由螢光顯微鏡讀取螢光。然後,由dNTP去除保護基,同樣地解析下一個鹼基。如此地,於次世代定序儀中,對於固定在定序晶片之單股DNA係每次1鹼基地連續解析。
特別是次世代定序儀中,藉由對連結於解析對象之DNA片段的銜接體賦予索引(亦稱為索引序列(index sequence)或條碼序列),可識別來自複數樣品之DNA片段。亦即,如上所述,於一次解析即可得到巨大的序列資訊,能夠以序列資訊中所含的索引序列為指標,判斷係關於來自何種樣品之DNA片段的序列資訊。
然而,如非專利文獻1記載,於利用索引序列之次世代定序儀的解析中,依索引序列不同,係有測序片段(read)數可能大幅偏差之問題。但是,非專利文獻1中,對關於索引序列之性能的相異點並未進行體系性的解析,係有利用索引序列之次世代定序儀的解析精度不充分之問題。
至今為止,已知有對一對引子分別賦予由不同鹼基序列所構成的通用尾(universal tail)序列,使用此等一對引子進行多重PCR(multiplex PCR),得到供次世代定序儀用之擴增子(amplicon)群(具有相同之索引序列)的方法(專利文獻1)。又,以實現分析大量試樣時之效率化為目的,已知有使用一併包含銜接體、索引與標的DNA特異性序列之一對引子,來製作次世代定序儀用之DNA庫的方法(專利文獻2)。專利文獻2所揭示之引子,係一併包含特異性結合於人類粒腺體DNA之超可變區域等標的DNA之引子、NGS庫之製作所必須的銜接體引子、索引引子及定序引子的統合引子。
[先前技術文獻]
[非專利文獻]
[非專利文獻1] David W. Craig et al., Nat Methods. 2008 October; 5(10): 887-893
[專利文獻]
[專利文獻1] 美國專利公開公報US 2016/0326572 A1
[專利文獻2] 日本特開2017-97935號公報
[發明所欲解決之課題]
但是,使用包含索引之次世代定序儀用引子時,因索引之序列而使測序片段數顯著減少之問題點仍未解明,現狀係解決該問題點的技術尚未為人所知。因而,本發明係有鑑於如此的實情,其目的為藉由解明索引之鹼基序列與測序片段數之關係,來提供可得到多的測序片段數的次世代定序儀用引子及其製造方法。又,本發明之目的為提供使用可得到多的測序片段數的次世代定序儀用引子之DNA庫以及其製造方法,及使用DNA庫之基因體DNA解析方法。

[用以解決課題之手段]
本發明者等人為了達成上述目的深入探討的結果,發現包含索引之次世代定序儀用引子中的索引序列與測序片段數之關係,得知可由索引之鹼基序列來推定測序片段數。然後發現藉由設計所推定之測序片段數超過特定值的索引序列,可製造可得到多的測序片段數的次世代定序儀用引子,而完成本發明。
本發明包含以下者。
(1)一種次世代定序儀用引子,其包含5’-CAAGCAGAAGACGGCATACGAGAT(序列編號1)-N5~15 -GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG(序列編號2)-3’(N5~15 為5~15鹼基之索引序列)之鹼基序列,且包含作為基於以測序片段數為目標變數,以索引序列中之鹼基的種類為解釋變數之推定式所算出的測序片段數之推定值超過特定值的鹼基序列而設計之索引序列。
(2)如(1)之次世代定序儀用引子,其中上述索引序列為8個鹼基(N=8,序列編號67)。
(3)如(1)之次世代定序儀用引子,其中上述推定式包含就構成索引序列之N個鹼基而言,由鹼基種類與因應其之係數所構成之項。
(4)如(1)之次世代定序儀用引子,其中上述特定值為15000~25000之值。
(5)如(1)之次世代定序儀用引子,其係由選自由序列編號262~963所成之群的1個鹼基序列所構成。
(6)一種次世代定序儀用引子之製造方法,其包含:就包含5’-CAAGCAGAAGACGGCATACGAGAT(序列編號1)-N5~15 -GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG(序列編號2)-3’(N5~15 為5~15鹼基之索引序列)之鹼基序列之次世代定序儀用引子而言,基於以測序片段數為目標變數,以索引序列中之鹼基的種類為解釋變數之推定式,由索引序列之鹼基序列算出測序片段數之推定值,設計所算出之測序片段數的推定值超過特定值之鹼基序列,作為索引序列之鹼基序列之步驟,與
合成包含上述步驟所設計之索引序列的核苷酸之步驟。
(7)如(6)之次世代定序儀用引子之製造方法,其中上述索引序列為8個鹼基(N=8,序列編號67)。
(8)如(6)之次世代定序儀用引子之製造方法,其中上述推定式包含就構成索引序列之N個鹼基而言,由鹼基種類與因應其之係數所構成之項。
(9)如(6)之次世代定序儀用引子之製造方法,其中上述特定值為15000~25000之值。
(10)如(6)之次世代定序儀用引子之製造方法,其中設計選自由序列編號262~963所成之群的1個鹼基序列中之第25~32號,作為索引序列之鹼基序列。
(11)一種DNA庫,其包含於解析對象DNA之一端部具有如上述(1)~(5)中任一項之次世代定序儀用引子之鹼基序列的DNA片段。
(12)如(11)之DNA庫,其中上述解析對象DNA,為藉由核酸放大反應所得到的片段或將基因體DNA片段化所得到的片段。
(13)如(11)之DNA庫,其中上述解析對象DNA,為藉由於含有基因體DNA及高濃度之隨機引子的反應液中進行核酸放大反應所得到的片段,該隨機引子,於5’末端側具有對上述次世代定序儀用引子3’末端側之鹼基序列為互補的鹼基序列。
(14)一種DNA庫之製造方法,其包含使用如上述(1)~ (5)中任一項之次世代定序儀用引子,與於5’末端側具有對上述次世代定序儀用引子3’末端側之鹼基序列為互補的鹼基序列之解析對象DNA,來進行核酸放大反應之步驟。
(15)如(14)之DNA庫之製造方法,其中上述解析對象DNA,為藉由核酸放大反應所得到的片段或將基因體DNA片段化所得到的片段。
(16)如(14)之DNA庫之製造方法,其中上述解析對象DNA,為藉由於含有基因體DNA及高濃度之隨機引子的反應液中進行核酸放大反應所得到的片段,該隨機引子,於5’末端側具有對上述次世代定序儀用引子3’末端側之鹼基序列為互補的鹼基序列。
(17)一種DNA解析方法,其特徵為將如上述(11)~(13)中任一項之DNA庫藉由次世代定序儀解析,決定該DNA庫中所含的DNA片段之鹼基序列。

[發明之效果]
依照本發明,可提供可避免起因於索引序列而使測序片段數減少的不良狀況,可得到多的測序片段數之次世代定序儀用引子及其製造方法,以及使用該次世代定序儀用引子所製作之DNA庫及其製造方法。
又,藉由利用利用本發明之次世代定序儀用引子所製作的DNA庫,可防止每個樣品之數據量(測序片段數)偏差,進行高精度之DNA解析。
以下詳細說明本發明。
本發明之次世代定序儀用引子,包含5’-CAAGCAGAAGACGGCATACGAGAT(序列編號1)-N5~15 -GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG(序列編號2)-3’(N5~15 為5~15鹼基之索引序列)之鹼基序列。上述鹼基序列之表記中,N5~15 表示之索引序列,係詳如後述般所設計之序列,例如為可利用作為用以識別樣品之索引的序列。亦即,若如後述般設計索引序列,則索引序列係何種序列均可。例如,藉由對複數樣品分別設計不同的索引序列,對於以次世代定序儀解析的結果之鹼基序列數據,可基於索引序列明確地理解對樣品的歸屬(多重解析)。
此處,使用次世代定序儀用引子之次世代定序儀的解析流程示意性地示於圖1。本發明之次世代定序儀用引子,係基於所謂Illumina公司所提供的次世代定序儀(NGS)中稱為P7的引子。配製供次世代定序儀使用的DNA庫時,係使用次世代定序儀用引子P7與次世代定序儀用引子P5進行PCR。再者,次世代定序儀用引子P5,於圖1係顯示具有索引序列之構成,但亦可為不具有索引序列之構成。
如圖1所示,藉由使用次世代定序儀用引子P7與次世代定序儀用引子P5的PCR,可得到於次世代定序儀用引子P7與次世代定序儀用引子P5之間配置有解析對象DNA的DNA片段。藉由該PCR所得到的DNA片段之群,係稱為DNA庫或次世代定序儀用DNA庫。
如圖1所示,如上述般得到的DNA庫,係以Illumina公司之次世代定序儀解析。次世代定序儀,係輸出關於多數之測序片段的鹼基序列數據(亦即包含解析對象DNA之鹼基序列的鹼基序列數據),作為解析DNA庫之結果。
此處,解析對象DNA並無特別限定,可為來自基因體解析之對象生物的基因體DNA、來自為了解析表基因體所配製之DNA或為了解析轉錄本(transcript)所配製之DNA等的DNA片段,或以基因體DNA等為模板所得到之放大產物(擴增子)。
[索引序列之設計]
本發明之次世代定序儀用引子中之索引序列,係設計為使用次世代定序儀解析DNA庫之鹼基序列時可得到充分多的測序片段數。具體而言,設計索引序列時,係準備以測序片段數為目標變數、以索引序列中之鹼基的種類為解釋變數的推定式。欲準備該推定式,首先係實際合成具有由特定之鹼基序列所構成之索引序列的次世代定序儀用引子,解析使用該次世代定序儀用引子時之測序片段數。然後,可由索引序列之鹼基序列與所得之測序片段數算出上述推定式。
具體而言,算出推定式時,並無特別限定,可應用一般而言利用於相關解析的各種演算法。具體而言,可應用Lasso(Least Absolute Shrinkage and Selection Operator)等之稀疏模型建構方法。稀疏模型建構(Sparse modeling)方法當中,若依L1型正則化(regularization)推定法,可將不重要之參數的係數推定為0,可得到僅由適當參數所構成的推定式。
例如,推定式含有包含就索引序列中之特定位置而言每個鹼基所算出之係數之項與切片,若對於索引序列之全部位置指定特定之鹼基時,可算出測序片段數之推定值。此時,藉由應用LASSO等之稀疏模型建構方法,對於不重要之參數,亦即對測序片段數之增減的關聯性低的鹼基,可算出係數為0之推定式。
更具體而言,例如設計8個鹼基長之索引序列(N=8),亦即以5’末端側朝向3’末端側第1號至第8號之鹼基所構成的索引序列時,第1號之鹼基為腺嘌呤或鳥嘌呤時推定式可為推定測序片段數減低之式,為胞嘧啶時推定式可為推定測序片段數增加之式。同樣地,第2號之鹼基為腺嘌呤或胸腺嘧啶時推定式可為推定測序片段數增加之式,為鳥嘌呤時推定式可為推定測序片段數減低之式。同樣地,第3號之鹼基為腺嘌呤或胸腺嘧啶時推定式可為推定測序片段數增加之式,為鳥嘌呤時推定式可為推定測序片段數減低之式。同樣地,第4號之鹼基為腺嘌呤時推定式可為推定測序片段數增加之式,為胞嘧啶或鳥嘌呤時推定式可為推定測序片段數減低之式。同樣地,第5號之鹼基為腺嘌呤時推定式可為推定測序片段數增加之式,為鳥嘌呤時推定式可為推定測序片段數減低之式。同樣地,第6號之鹼基為胞嘧啶時推定式可為推定測序片段數減少之式,為胸腺嘧啶時推定式可為推定測序片段數增加之式。同樣地,第7號之鹼基為腺嘌呤時推定式可為推定測序片段數減少之式,為鳥嘌呤時推定式可為推定測序片段數增加之式。同樣地,第8號之鹼基為鳥嘌呤時推定式可為推定測序片段數減少之式,為胸腺嘧啶時推定式可為推定測序片段數增加之式。
其中尤其在第1號之鹼基為腺嘌呤或鳥嘌呤時、第2號之鹼基為鳥嘌呤時及第8號之鹼基為鳥嘌呤時,推定式特別可為推定測序片段數大幅減少之式。又,第2號之鹼基為腺嘌呤或胸腺嘧啶時、第3號之鹼基為腺嘌呤時、第5號之鹼基為腺嘌呤時,推定式特別可為推定測序片段數大幅增加之式。
更具體而言,索引序列中之每個種類的鹼基之係數及切片可如下表般設定。
表1中,A1意指於索引序列之5’末端側至3’末端側之方向第1號之鹼基為腺嘌呤的情況。其他表記亦同樣地,意指於索引序列之5’末端側至3’末端側之方向中的位置與鹼基之種類。
藉由使用上表所示之推定式作為一例,可算出索引序列為特定之鹼基序列時所得到的測序片段數之推定值。如上述般所得到的推定式,不限定於表1具體所示之推定式,其具有與實測值之相關非常高的特徴(相關係數0.9以上)。因此,藉由使用該推定式,就索引序列之每個鹼基序列來計算推定測序片段數,並選擇推定測序片段數會成為特定值以上之鹼基序列,可實際上得到多的測序片段數。
此處,設計索引序列時,作為閾值之推定測序片段數,並無特別限定,可因應作為目標的數據解析來適當設定。例如,可設定15000~25000之值作為推定測序片段數之閾值,較佳為設定17000~23000之值、更佳為設定19000~21000之值、又更佳為設定19500~20500之值。詳如後述實施例所示般,關於索引序列之鹼基序列,係鑑定測序片段數顯著低的一群鹼基序列。對於該一群鹼基序列計算推定測序片段數後,得知測序片段數最大為20000左右,具體而言係20051.8。因此,藉由將上述閾值設為20000左右,例如20052,可設計實際上可得到多的測序片段數之索引序列。
使用上述表1所示之推定式,特定出具有推定測序片段數超過20052之索引序列的次世代定序儀用引子之鹼基序列(詳情參照後述實施例)。亦即,作為本發明之次世代定序儀用引子,例如可列舉由選自由序列編號262~963所成之群的1個鹼基序列所構成者。
[對次世代定序技術之應用]
藉由使用以上所說明的本發明之次世代定序儀用引子的核酸放大反應,可製作次世代定序儀所使用的DNA庫(次世代定序儀用DNA庫)。具體而言,如圖1所示,以含有本發明之次世代定序儀用引子P7、解析對象DNA及次世代定序儀用引子P5之反應液進行PCR。解析對象DNA之兩末端,分別具有與次世代定序儀用引子P7共通之序列及與次世代定序儀用引子P5共通之序列。因此,於核酸放大反應中,次世代定序儀用引子P7及P5係黏著於解析對象DNA之兩末端,進行以解析對象DNA為模板的核酸放大反應。其結果,如圖1所示,可得到依序具有次世代定序儀用引子P5、解析對象DNA及次世代定序儀用引子P7的核酸片段之群(DNA庫)。
所得到之DNA庫,於其兩末端具有次世代定序儀用引子P5及P7,因此可供Illumina公司之次世代定序儀使用。而所得到之DNA庫,具有上述本發明之次世代定序儀用引子P7,因此可藉由次世代定序儀解析多的測序片段數。具體而言,可進行接近以上述推定式所算出之推定測序片段數之值的測序片段數之解析。
再者,所使用之次世代定序儀,係為藉由橋式PCR法與Sequencing-by-synthesis法,於定序晶片上放大目標DNA,一邊合成一邊進行定序的原理。
使用含有本發明之次世代定序儀用引子P7、解析對象DNA及次世代定序儀用引子P5之反應液的核酸放大反應,並無特別限定,可應用通常的核酸放大反應之條件。例如,該反應液含有作為模板之解析對象DNA、上述次世代定序儀用引子P5及P7、DNA聚合酶、作為基質之去氧核苷酸三磷酸(dNTP,亦即dATP、dCTP、dTTP及dGTP之混合物)及緩衝液。
特別地就次世代定序儀用引子P5及P7之濃度而言,可為0.01~5.0μM、較佳為0.1~2.5μM、最佳為0.3~ 0.7μM。
又,核酸放大反應中作為模板的解析對象DNA,並無特別限定,以反應液之量為50μl時,較佳為0.1 ~1000ng、更佳為1~500ng、又更佳為5~200ng、最佳為10~ 100ng。
作為模板的解析DNA片段之配置方法,並無特別限定,可直接使用利用詳如後述之隨機引子的核酸放大反應結束後的反應液,亦可使用由該反應液經純化解析DNA者。
又,關於核酸放大反應所使用的DNA聚合酶之種類、作為基質之去氧核苷酸三磷酸(dNTP,亦即dATP、dCTP、dTTP及dGTP之混合物)之濃度、緩衝液組成、溫度循環條件,可為通常的核酸放大反應所採用之條件。又,於使用次世代定序儀用引子之核酸放大反應中,可採用熱啟動法、亦可為藉由核酸放大反應而取得放大片段者。
如以上所述,藉由以使用隨機引子所取得的第1DNA片段為模板,且使用利用次世代定序儀用引子所放大的第2DNA片段,可簡便地製作可應用於次世代定序裝置之DNA庫。
[解析對象DNA]
作為解析對象DNA之一例,可列舉以基因體DNA等為模板所得到之放大產物(擴增子)。此處,欲得到放大產物,例如可列舉於將具有任意之鹼基序列的引子(以下稱隨機引子)調整為高濃度的反應液中進行核酸放大反應的方法。此處,高濃度意指較通常之核酸放大反應中的引子濃度更高濃度。亦即,本方法具有使用較通常之核酸放大反應中的引子濃度更高濃度之隨機引子的特徴。此處,反應液中所含有的模板,可使用自解析對象之生物所配製之基因體DNA。
再者,本方法中,對象之生物種並無任何限定,包含人類之動物、植物、微生物、病毒等任意生物種均可為對象。亦即,依照本方法,不管由何種生物種均可得到多數之放大產物作為解析對象DNA。
本方法中,藉由將隨機引子之濃度如上述般規定,能夠以高的再現性來放大核酸片段(核酸片段群)。此處,再現性意指使用同一模板及同一隨機引子進行複數次之核酸放大反應後,複數次之核酸放大反應之間所放大的核酸片段一致之程度。換言之,高的再現性(再現性高),意指使用同一模板及同一隨機引子進行複數次之核酸放大反應後,複數次之核酸放大反應之間所放大的核酸片段之一致度高。
關於再現性之高低,例如可使用同一模板及同一隨機引子進行複數次之核酸放大反應,對於將各次所得到的放大片段電泳而得之螢光單位(Fluorescence Unit: FU)算出斯皮爾曼(Spearman)之等級相關係數,並基於該係數來評估。斯皮爾曼之等級相關係數,一般而言係以ρ表示,作為一例,能夠以ρ>0.9評估為具有再現性。
可使用於本方法之隨機引子,其序列並無任何限定,例如可使用9~30個鹼基長之核苷酸。特別地,隨機引子係指具有任意序列之9~30個鹼基長之核苷酸,核苷酸之種類(序列之種類)並無特別限定,意指1種類以上之核苷酸、較佳為1~10000種類之核苷酸、更佳為1~1000種類之核苷酸、更佳為1~100種類之核苷酸、最佳為1~96種類之核苷酸。藉由使用上述範圍之核苷酸(核苷酸群)作為隨機引子,能夠以更高的再現性得到放大核酸片段。再者,隨機引子當包含複數之核苷酸時,不需要全部核苷酸為相同鹼基長(9~30個鹼基長),亦可包含不同鹼基長之複數之核苷酸。
通常,為了使用核酸放大反應來得到特定之擴增子,係因應該擴增子來設計引子之鹼基序列。例如,係以包夾基因體DNA等模板DNA中之擴增子所對應之位置的方式來設計一對引子。此時,引子由於係設計為雜交於模板中所包含之特定區域,故可稱呼為「特異性引子」。
相對於此,隨機引子,與以得到特定之擴增子為目的所設計的引子不同,並非設計為雜交於模板DNA之特定區域者,而是設計來用以得到隨機的擴增子。隨機引子其鹼基序列不管何種序列均可,藉由偶發性地雜交於模板DNA中所包含之互補的區域,可關聯於隨機之擴增子放大。
亦即,隨機引子係如上述,可稱為具有與隨機之擴增子放大相關的任意序列之核苷酸。此處任意序列雖不受任何限定,但例如可設計為隨機選自腺嘌呤、鳥嘌呤、胞嘧啶及胸腺嘧啶之群的鹼基序列,亦可設計為特定之鹼基序列。特定之鹼基序列,例如可列舉包含限制酵素認識序列之鹼基序列,或具有使用於次世代定序儀之銜接體序列的鹼基序列。
設計複數種類之核苷酸作為隨機引子時,可應用由腺嘌呤、鳥嘌呤、胞嘧啶及胸腺嘧啶之群中隨機選擇而設計複數個特定長度之鹼基序列的方法。又,設計複數種類之核苷酸作為隨機引子時,亦可應用設計複數個由自特定之鹼基序列所成之共通部分,與自任意之鹼基序列所成之非共通部分所構成的鹼基序列之方法。此處,非共通部分可為隨機選自腺嘌呤、鳥嘌呤、胞嘧啶及胸腺嘧啶之群的鹼基序列,由腺嘌呤、鳥嘌呤、胞嘧啶及胸腺嘧啶所構成之4種類之鹼基的全部組合,或由此等全部組合中選出之一部分的組合。共通部分並無特別限定,何種鹼基序列均可,例如可為包含限制酵素認識序列之鹼基序列,或具有使用於次世代定序儀之銜接體序列的鹼基序列、於特定之基因家族中共通的鹼基序列。
由4種類之鹼基中隨機選擇而設計複數個特定長度之鹼基序列作為複數之隨機引子時,較佳設計為全體之30%以上、較佳為50%以上、更佳為70%以上、又更佳為90%以上,為70%以下之同一性、較佳為60%以下之同一性、更佳為50%以下之同一性、最佳為40%以下之同一性。由4種類之鹼基中隨機選擇而設計複數個特定長度之鹼基序列作為複數之隨機引子的情況,藉由對於上述範圍之核苷酸設計成為上述範圍之同一性,可遍佈對象生物種之基因體DNA全體而得到放大片段。亦即,可提高放大片段之均一性。
設計複數個由自特定之鹼基序列所成之共通部分,與自任意之鹼基序列所成之非共通部分所構成的鹼基序列,作為複數之隨機引子時,例如,可設計為以3’末端側之數個鹼基為非共通部分,剩餘之5’末端側為共通部分。若以3’末端側的n個鹼基為非共通部分,則可設計4n 種類之隨機引子。此處,n個可為1~5個,較佳為2~4個、更佳為2~3個。
例如,可設計以 5’末端側為次世代定序儀所使用的銜接體序列(共通部分)、3’末端側為2個鹼基(非共通部分)之合計16種類的隨機引子,作為由共通部分與非共通部分所構成的隨機引子。再者,3’末端側若為3個鹼基(非共通部分),則可設計合計64種類之隨機引子。隨機引子之種類越增多,可更網羅性地遍佈對象生物種之基因體DNA全體得到放大片段。因此,設計由共通部分與非共通部分所構成的隨機引子時,較佳為3’末端側之鹼基為3個鹼基。
惟,例如亦可於設計由共通部分與3個鹼基之非共通部分所構成的64種類之鹼基序列後,使用由此等64種類之鹼基序列中選出之63種類以下的隨機引子。換言之,相較於使用全部64種類之隨機引子時,使用63種類以下之隨機引子時,有於核酸放大反應或使用次世代定序儀之解析中顯示較優良結果的情況。具體而言,使用64種類之隨機引子時,係有特定之核酸放大片段的測序片段數顯著增多的情況。此時,使用由64種類之隨機引子中去除與該特定核酸放大片段之放大相關的1或複數個隨機引子之剩餘63種類以下之隨機引子,係得到較良好之解析結果。
再者,設計由共通部分與2個鹼基之非共通部分所構成的16種類之隨機引子時亦同樣地,使用由16種類之隨機引子中選出的15種類以下之隨機引子時,有於核酸放大反應或使用次世代定序儀之解析中顯示優良結果的情況。
另一方面,使用作為隨機引子的核苷酸,特別以設計為GC含量成為5~95%之範圍為佳、更佳設計為10~90%之範圍、又更佳設計為15~80%之範圍、最佳設計為20~70%之範圍。藉由使用GC含量為上述範圍之核苷酸的集合作為隨機引子,能夠以更高的再現性得到放大核酸片段。再者,GC含量係指核苷酸鏈全體中所含有的鳥嘌呤及胞嘧啶之比例。
進一步地,使用作為隨機引子的核苷酸,相對於全體之長度而言,特別以設計為連續鹼基成為80%以下為佳、更佳設計為70%以下、又更佳設計為60%以下、最佳設計為50%以下。或者,使用作為隨機引子的核苷酸,特別以設計為連續鹼基之數目成為8個以下為佳、更佳設計為7個以下、又更佳設計為6個以下、最佳設計為5個以下。藉由使用連續鹼基數為上述範圍之核苷酸的集合作為隨機引子,能夠以更高的再現性得到放大核酸片段。
又再者,使用作為隨機引子的核苷酸,特別以設計為分子內不具有6個鹼基長以上、較佳為5個鹼基以上、更佳為4個鹼基以上之互補區域為佳。藉由設計為核苷酸中不具有上述範圍之互補區域,可防止分子內形成雙股,能夠以更高的再現性得到放大核酸片段。
又再者,設計複數種類之核苷酸作為隨機引子時,特別以設計為於複數個核苷酸間不具有6個鹼基長以上、較佳為5個鹼基以上、更佳為4個鹼基以上之互補區域為佳。藉由設計為複數個核苷酸間不具有上述範圍之互補區域,可防止核苷酸間形成雙股,能夠以更高的再現性得到放大核酸片段。
又再者,設計複數種類之核苷酸作為隨機引子時,特別以設計為3’末端側之6個鹼基以上、較佳為5個鹼基以上、更佳為4個鹼基以上不成為互補序列為佳。藉由設計為複數個核苷酸之3’末端側之上述範圍中不具有互補序列,可防止核苷酸間形成雙股,能夠以更高的再現性得到放大核酸片段。
再者,互補區域及互補序列,例如意指具有80~100%之同一性之區域及序列(例如若5個鹼基長之區域時,係4個鹼基或5個鹼基互補的區域及序列),或具有90~100%之同一性之區域及序列(例如若5個鹼基長之區域時,係5個鹼基互補的區域及序列)。
又再者,使用作為隨機引子的核苷酸,較佳設計為成為適於核酸放大反應中之溫度循環條件(特別是黏著溫度)之Tm值。雖無特別限定,但Tm值可藉由最鄰近鹼基對法、Wallace法及GC%法等公知之計算方法來算出。具體而言,使用作為隨機引子的核苷酸,特別以設計為Tm值10~85℃、較佳為12~75℃、更佳為14~70℃、最佳為16~65℃為佳。藉由將核苷酸之Tm值設計為上述範圍,於核酸放大反應中之特定溫度循環條件(特別是特定之黏著溫度)下,能夠以更高的再現性得到放大核酸片段。
又再者,設計複數種類之核苷酸作為隨機引子時,特別以設計為於複數個核苷酸間各核苷酸之Tm值的偏差成為50℃以下、較佳為45℃以下、更佳為40℃以下、最佳為35℃以下為佳。藉由設計為於複數個核苷酸間Tm值的偏差成為上述範圍,於核酸放大反應中之特定之溫度循環條件(特別是特定之黏著溫度)下,能夠以更高的再現性得到放大核酸片段。
本方法中,藉由使用上述隨機引子及作為模板之基因體DNA進行核酸放大反應,來取得多數之放大片段。特別是於核酸放大反應中,係使反應液中之隨機引子濃度,較通常之核酸放大反應中的引子濃度為更高濃度。藉此,可在達成高的再現性的同時,以基因體DNA為模板得到多數之放大片段。
此處,核酸放大反應,係指以由作為模板之基因體DNA、上述隨機引子、DNA聚合酶、作為基質之去氧核苷酸三磷酸(dNTP,亦即dATP、dCTP、dTTP及dGTP之混合物)及緩衝液所構成的反應液,藉由施加特定之溫度循環條件來合成放大片段之反應。再者,核酸放大反應中,反應液中必需有特定濃度之Mg2+ ,上述組成中於緩衝液中係含有MgCl2 。緩衝液中不含有MgCl2 時,係添加於上述組成中而成為含有MgCl2
特別是於核酸放大反應中,隨機引子之濃度,較佳依隨機引子之鹼基長來適當設定。此處,隨機引子之鹼基長,當使用不同鹼基長之複數種類的核苷酸作為隨機引子時,可為其平均值(可為單純平均、亦可為加入核苷酸量之加權平均)。
具體而言,係使用9~30個鹼基長之隨機引子,以該隨機引子濃度為4~200μM之條件、較佳為4~ 100μM之條件進行核酸放大反應。若為該條件,則可藉由核酸放大反應,在達成高的再現性的同時,得到多數之放大片段,特別是100~500個鹼基長之多數之放大片段。
又,核酸放大反應中作為模板的基因體DNA,並無特別限定,以反應液之量為50μl時,較佳為0.1~1000ng、更佳為1~500ng、又更佳為5~200ng、最佳為10~100ng。藉由使作為模板之基因體DNA之量成為該範圍,可不阻礙自隨機引子之放大反應,在達成高的再現性的同時,得到多數之放大片段。
基因體DNA之配製方法,並無特別限定,可應用以往公知之方法。又,藉由利用市售之套組,可由對象之生物種簡便地配製基因體DNA。再者,基因體DNA,可直接使用藉由以往公知之方法或市售之套組而自生物萃取者、可為將自生物萃取者予以純化者、亦可使用經限制酵素處理或超音波處理後者。
又,核酸放大反應中,DNA聚合酶並無特別限定,可使用在用於核酸放大反應之溫度循環條件下具有DNA聚合酶活性的酵素。具體而言,可使用通常的核酸放大反應所使用之耐熱性DNA聚合酶。例如,DNA聚合酶,可列舉Taq DNA聚合酶等之來自嗜熱細菌的DNA聚合酶、KOD DNA聚合酶或Pfu DNA聚合酶等之來自超嗜熱Archaea之DNA聚合酶。特別地,於核酸放大反應中,較佳與上述隨機引子一併使用Pfu DNA聚合酶,作為DNA聚合酶。藉由使用此等DNA聚合酶,可在達成高的再現性的同時,更確實地得到多數之放大片段。
進一步地,核酸放大反應中,作為基質之去氧核苷酸三磷酸(dNTP,亦即dATP、dCTP、dTTP及dGTP之混合物)之濃度,並無特別限定,可為5μM~0.6mM,較佳為10μM~0.4mM、更佳為20μM~0.2mM。藉由使作為基質之dNTP之濃度為該範圍,可防止因DNA聚合酶錯誤地攝入所致的錯誤產生,在達成高的再現性的同時,得到多數之放大片段。
進一步地,核酸放大反應中,緩衝液並無特別限定,可列舉如上述般含有MgCl2 ,且例如含有Tris-HCl(pH8.3)及KCl之溶液。此處,Mg2+ 之濃度並無特別限定,例如可為0.1~4.0mM,較佳為0.2~3.0mM、更佳為0.3~2.0mM、又更佳為0.5~1.5mM。藉由將反應液中之Mg2+ 濃度設定為該範圍,可在達成高的再現性的同時,得到多數之放大片段。
又再者,核酸放大反應中之溫度循環條件,並無特別限定,可採用通常的溫度循環。具體而言,溫度循環,可例示首先,使模板之基因體DNA成為用以分離為單股之最初的熱變性溫度,之後進行複數次「熱變性溫度→黏著溫度→伸長反應溫度」(例如20~40次),最後若必要則設置特定時間之伸長反應溫度,最後成為用以保存之溫度的循環。
熱變性溫度例如可為93~99℃、較佳可為95~98℃、更佳可為97~98℃。黏著溫度雖亦依上述隨機引子之Tm值而異,例如可為30~70℃、較佳可為35~68℃、更佳可為37~65℃。伸長反應溫度,例如可為70~76℃、較佳可為71~75℃、更佳可為72~74℃。又,用以保存之溫度,例如可為4℃。
又,最初之熱變性,於上述溫度範圍,例如可為5秒~10分鐘、較佳可為10秒~5分鐘、更佳可為30秒~2分鐘。「熱變性溫度→黏著溫度→伸長反應溫度」之循環中的熱變性,於上述溫度範圍,例如可為2秒~5分鐘、較佳可為5秒~2分鐘、更佳可為10秒~1分鐘。「熱變性溫度→黏著溫度→伸長反應溫度」之循環中的黏著,於上述溫度範圍,例如可為1秒~3分鐘、較佳可為3秒~2分鐘、更佳可為5秒~1分鐘。「熱變性溫度→黏著溫度→伸長反應溫度」之循環中的伸長反應,於上述溫度範圍,例如可為1秒~3分鐘、較佳可為3秒~2分鐘、更佳可為5秒~1分鐘。
又,本方法亦可為藉由採用熱啟動法之核酸放大反應而取得放大片段者。熱啟動法係指防止來自「熱變性溫度→黏著溫度→伸長反應溫度」之循環前的引子錯置(mispriming)或引子二聚物之非特異放大的方法。熱啟動法中,係藉由使抗DNA聚合酶抗體結合,或進行化學修飾,來使用抑制了DNA聚合酶活性之狀態的酵素。該狀態下,DNA聚合酶活性被抑制,可防止溫度循環前之非特異性的反應。熱啟動法中,藉由於最初之溫度循環時將溫度設定為高,回復DNA聚合酶活性,之後的核酸放大反應會進行。
如以上所述,藉由使用上述9~30個鹼基長之隨機引子,以反應液中之該隨機引子濃度為4~200μM來進行核酸放大反應,能夠以基因體DNA為模板來得到隨機引子為多數之放大片段。使用上述9~30個鹼基長之隨機引子,並以反應液中之該隨機引子濃度為4~200μM時,係成為再現性非常高的核酸放大反應。亦即,依照上述核酸放大反應,可在達成非常高的再現性的同時,得到多數之放大片段。
又,藉由使用上述9~30個鹼基長之隨機引子,且以反應液中之該隨機引子濃度為4~200μM來進行核酸放大反應,特別地能夠以基因體DNA為模板得到約100~500個鹼基長之多數之放大片段。該約100~500個鹼基長之多數之放大片段,例如係適於次世代定序儀之鹼基序列的大量解析之尺寸,可得到高精度的序列資訊。亦即,依照本發明,可製作約100~500個鹼基長之DNA片段。
進一步地,藉由使用上述9~30個鹼基長之隨機引子,且以反應液中之該隨機引子濃度為4~200μM來進行核酸放大反應,特別地能夠遍佈基因體DNA全體而均一地得到放大片段。換言之,使用該隨機引子之核酸放大反應中,不會偏於基因體DNA之特定區域來放大DNA片段,係分散於基因體全體來放大DNA片段。
再者,使用上述隨機引子來進行核酸放大反應後,可對所得之放大片段進行限制酵素處理、尺寸選擇處理及序列捕捉(sequence capture)處理等。藉由對放大片段進行此等限制酵素處理、尺寸選擇處理及序列捕捉處理,可由所得之放大片段中得到具有特定放大片段(具有特定限制酵素部位之片段、特定尺寸範圍之放大片段、具有特定序列之放大片段)。
[基因體DNA解析方法]
藉由使用如上述般製作的擴增子,可進行基因型解析等之基因體DNA解析。如上述般所製作之擴增子,具有非常高的再現性,且具有適於次世代定序儀之尺寸,遍佈基因體全體具有均一性。因此,如上述般所製作之擴增子,可作為DNA標記(亦稱為遺傳標記、基因標記)使用。此處,DNA標記,廣泛地意指基因體DNA內所存在之特徴性的鹼基序列。又,DNA標記,特別地亦可為作為遺傳特性相關之記號的基因體上之鹼基序列。可利用於DNA標記,例如基因型鑑定、連鎖圖譜、基因定位、包含利用標記之選拔步驟的育種、利用標記之回交、數量性狀基因座之定位、集群分離(bulk segregant)分析、品種識別,或連鎖不均衡定位等。
特別地,藉由使用本發明之次世代定序儀用引子,可使用次世代定序儀等,決定如上述般製作的擴增子之鹼基序列,並基於所得之鹼基序列確認DNA標記之存否。
作為一例,可由所得之鹼基序列的測序片段數確認DNA標記之存否。此處,次世代定序儀並無特別限定,可利用上述本發明之次世代定序儀用引子,亦稱呼為第2世代定序儀,意指可同時並行地決定數千萬之DNA片段之鹼基序列的鹼基序列決定裝置。次世代定序儀中之定序原理,並無特別限定,例如可列舉藉由橋式PCR法與Sequencing-by-synthesis法,於定序晶片上放大目標DNA,一邊合成一邊進行定序的原理。更具體而言,次世代定序儀,可列舉Illumina公司(Illumina)之MiniSeq、MiSeq、NextSeq、HiSeq及HiSeq X系列。
又,作為其他例子,藉由將對於如上述般所製作之擴增子所得到的鹼基序列與參照用之鹼基序列比較,可確認DNA標記之存否。此處,參照用之鹼基序列,意指作為基準的已知序列,例如可為數據庫中所容納的已知序列。亦即,對於特定生物,如上述般製作擴增子,決定其鹼基序列,與參照用之鹼基序列比較。然後,可將與參照用之鹼基序列相異的鹼基序列,作為關於該特定生物之DNA標記(基因體DNA內所存在之特徴性的鹼基序列)。又,對於特定之DNA標記,藉由遵照規定方法進一步解析。可對遺傳特性(表現型)決定關聯性。亦即,可由如上述般經特定的DNA標記之中,特定出表現型相關之DNA標記(亦有稱為選拔標記者)。
進一步地,作為其他例子,藉由將對於如上述般所製作之擴增子所得到的鹼基序列,與使用來自其他生物之基因體DNA或來自其他組織之基因體DNA所製作的擴增子之鹼基序列比較,可確認DNA標記之存否。亦即,對於2個以上之生物或2個不同的組織,分別如上述般製作擴增子,決定該等之鹼基序列,比較鹼基序列彼此。然後,可將相異的鹼基序列,作為供試驗之生物或組織相關的DNA標記(基因體DNA內所存在之特徴性的鹼基序列)。又,對於特定之DNA標記,藉由遵照規定方法進一步解析,可對遺傳形質(表現型)決定關聯性。亦即,可由如上述般經特定的DNA標記之中,特定出表現型相關之DNA標記(亦有稱為選拔標記者)。
或者,如上述般使用本發明之次世代定序儀用引子所解析的鹼基序列數據,可利用於調查微生物等之多種多樣性的總體基因體(metagenome)解析或腫瘤組織等之體細胞基因體變異解析、利用微陣列之基因型解析、倍數性之判定解析、染色體數之算出解析、染色體之增減解析、染色體之部分插入/缺失/複製/轉座解析、外來基因體之混入解析、親子判別解析、交配種子純度檢定解析之解析。

[實施例]
以下,使用實施例更詳細說明本發明,但本發明之技術範圍不限定於以下實施例。
[實施例1]
本實施例中,對於Illumina公司之次世代定序儀所使用的次世代定序儀用引子P7及P5,係究明索引序列與由次世代定序儀所得之數據量的關係,開發適於使用次世代定序儀之解析的次世代定序儀用引子。
1.材料
本實施例中,係使用由水稻品種日本晴中利用DNeasy Plant Mini kit(QIAGEN)將基因體DNA經萃取及純化者。
2.方法
2.1.隨機引子之設計
隨機引子,係設計由Illumina公司之次世代定序儀用之轉接子Nextera adapter中之3’末端之10個鹼基(GTTACACACG),與於該10個鹼基之3’末端附加TGC以外的3個鹼基之任意序列的全長13個鹼基所構成之63種類之鹼基序列(表2)。
3.2.解析對象DNA之製作
對[1.材料]所說明的水稻之基因體DNA(30ng)與最終濃度0.2mM dNTP mixture、10mM MgC12 及1.25unit之DNA Polymerase(TAKARA、PrimeSTAR),分別添加40μM之隨機引子,以最終反應量50μl進行PCR。PCR之溫度條件,係98℃2分鐘後,以98℃10秒、50℃15秒、72℃20秒為1循環進行30循環,之後,設為4℃保存的條件。藉由該PCR,藉由隨機引子以水稻基因體DNA為模板來製作多數之解析對象DNA。
3.3.次世代定序儀用DNA庫之製作
於上述3.2所製作之解析對象DNA(1μl)添加最終濃度0.2mM dNTP mixture、1.0mM MgC12
1.25unitnDNAPolymerase (TAKARA、PrimeSTAR),進一步分別添加0.25μM之次世代定序儀用引子P7及P5,準備反應液(50μl)。
次世代定序儀用引子P7及P5,係基於表3所示之Illumina公司之Nextera adaptor的序列資訊所製作。再者,下述表中以星號所示之8個鹼基為索引序列。惟,相對於P5之索引序列,P7之索引序列為反向互補鏈。
詳細而言,於次世代定序儀用引子P7中,係設計具有96種索引序列之次世代定序儀用引子P7(表4)。使用表4所示之次世代定序儀用引子P7時,作為次世代定序儀用引子P5係使用AATGATACGGCGACCACCGAGATCTACACCGCGCAGATCGTCGGCAGCGTCAGATGTGTATAAGAGACAG。使用表4所示之次世代定序儀用引子P7所製作的DNA庫係稱為DNA庫1。
另一方面,次世代定序儀用引子P5中,係設計具有98種索引序列之次世代定序儀用引子P5(表5)。使用表5所示之次世代定序儀用引子P5時,作為次世代定序儀用引子P7係使用CAAGCAGAAGACGGCATACGAGATTCGTCAGAGTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG。使用表5所示之次世代定序儀用引子P5所製作之DNA庫係稱為DNA庫2。
用以製作DNA庫1及2之核酸放大反應中的溫度條件,係95℃2分鐘之後,以98℃15秒、55℃15秒及72℃20秒為1循環,進行25循環,之後,設為於72℃1分鐘後,於4℃保存的條件。然後,將藉由核酸放大反應所製作之DNA庫以MinElute PCR Purification Kit(QIAGEN)純化。
3.4.次世代定序儀之解析
對於上述3.3所製作之DNA庫1及2,使用MiSeq Reagent Kit V2 500 Cycte(Illumina),基於測序片段長100個鹼基之雙端定序(paired-end)條件,分別藉由MiSeq進行解析。作為對於DNA庫1及2解析的結果所得到之測序片段數分別示於表4及5。
3.5.索引與數據量之解析
基於作為上述3.4之解析結果所得到的每個次世代定序儀用引子之測序片段數,藉由GLMNET LASSO法解析次世代定序儀用引子中所包含之索引序列之8個鹼基與數據量的關係,製成索引序列中所包含之鹼基種類所致測序片段數之推定式。算出由所製成之推定式算出的推定測序片段數,與實際測定的測序片段數之相關係數。
4.結果
4.1.每個次世代定序儀用引子之測序片段數的分布
為了評估次世代定序儀用引子之索引的不同所致對數據量的影響,係對於索引序列不同的次世代定序儀用引子P7及P5,調查每個引子之測序片段數的分布。於次世代定序儀用引子P7之索引序列不同的DNA庫1中,全體之測序片段數的平均值為66,9617,相對於此,測序片段數為15,000以下之索引存在有9種(94%),其平均值2,492.2為全體平均值之3.7%(圖2)。又,測序片段數為40,000以下之索引存在有22種(220%),其平均值16,2376為全體平均值之24.3%。另一方面,於次世代定序儀用引子P5之索引序列不同的DNA庫2中,全體之測序片段數的平均值為191,5231,均顯示100,000以下之測序片段數(圖3)。
4.2.索引序列與測序片段數之關係
基於將上述DNA庫1及2各自以次世代定序儀解析而得的數據,以GLMNET LASSO法解析索引序列與測序片段數之關係,製成索引序列中之鹼基種類與測序片段數之推定式。亦即,以測序片段數為目標變數,以索引序列中之鹼基種類為解釋變數來製成推定式。藉由就DNA庫1所製成之推定式所算出的推定測序片段數與實測之測序片段數的關係示於圖4。如圖4所示,基於構成索引序列之鹼基種類以推定式所算出的推定測序片段數,與實際測定之測序片段數的相關係數為r=0.94069。又,如圖4所示,推定測序片段數與實測之測序片段數的作圖,可分類為測序片段數極少的群組1、測序片段數多的群組3、其中間之群組2的3個群組。基於屬於群組1之次世代定序儀用引子P7的索引序列所算出的推定測序片段數之最大值為20,051.8。又,基於屬於群組3之次世代定序儀用引子P7的索引序列所算出的推定測序片段數,均為50,000以上。
另一方面,同樣地,對於DNA庫2亦算出推定式,算出基於構成索引序列之鹼基種類所算出的推定測序片段數,與實測之測序片段數的相關係數之結果,相關係數為r=0.57295(圖5)。亦即,就次世代定序儀用引子P5而言,於構成索引序列之鹼基種類,與測序片段數之間,未見到相關。
4.3次世代定序儀用引子P7中之索引序列的設計
次世代定序儀用引子P7之索引不同的DNA庫1中,測序片段數與以GLMNET LASSO法所得到的推定值之間的相關係數顯示0.9以上。由該結果,可評估對於庫1藉由GLMNET LASSO法所製成之推定式,可由構成索引序列之鹼基種類高精度地算出測序片段數之推定值。具體而言,藉由GLMNET LASSO法所製成之推定式,如以下般,係含有包含就索引序列中之特定位置而言每個鹼基所算出之係數的項與切片之式。
推定值=-65033.1×(A1)+1326.4×(C1)-16997×(G1)+ 10936.3×(A2)-12399.2×(G2)+11712.9×(T2)+12112.2×(A3)-623.5×(G3)+5964.4×(T3)+6884.5×(A4)-5664.4×(C4)-6049.9×(G4)+9257×(A5)-6210.8×(G5)-644×(C6)+3.2×(T6)-3575.9×(A7)+1013.l×(G7)-8607.7×(G8)+6490.3×(T8)+81720.7
上述推定式中,(A1),係自索引序列之5’末端側至3’末端側之方向中第1號之鹼基為腺嘌呤時係代入"1",其以外係代入"0"之參數。其他表記亦同樣地,意指自索引序列之5’末端側至3’末端側的方向中之位置與鹼基種類,為代入"1"或"0"之參數。
使用如以上般所製成之推定式,選出推定值顯示20,052以上(推定為群組2或3)之次世代定序儀用引子P7,與推定值顯示50,000以上(推定為群組3)之次世代定序儀用引子P7(分別為表6及7)。再者,表6及7中之鹼基序列中,N意指腺嘌呤、胞嘧啶、鳥嘌呤及胸腺嘧啶之任意之鹼基。
5.考察
本實施例中,對於Illumina公司之次世代定序儀用引子中之索引序列與測序片段數進行解析的結果,於次世代定序儀用引子P5雖未見到明確的關係,但於次世代定序儀用引子P7可見相關係數0.9以上之明確的相關關係。特別是使用藉由GLMNET LASSO法所製作之推定式,由構成索引序列之鹼基種類算出推定測序片段數,由推定測序片段數與實際之測序片段數,明顯可知索引序列不同的次世代定序儀用引子P7,可分類為3個群組。亦即,可特定出測序片段數15,000以下為極少,可認為難以利用於使用次世代定序儀之解析的群組1。屬於該群組1之次世代定序儀用引子P7之推定測序片段數的最大值為20,051.8。因此,本實施例中,係選出藉由以構成索引序列之鹼基種類為參數之推定式所算出的推定測序片段數為20,052以上之全部的索引序列(表6)。具有所選出之索引序列的次世代定序儀用引子P7(表6),可認為當利用於次世代定序儀時可得到多的測序片段數。
又,屬於群組3之次世代定序儀用引子P7的推定測序片段數為50,000以上,故選出藉由以構成索引序列之鹼基種類為參數的推定式所算出之推定測序片段數為50,000以上的全部索引序列(表7)。具有所選出之索引序列的次世代定序儀用引子P7(表7),可認為當利用於次世代定序儀時可得到更多的測序片段數。
藉由利用本實施例所設計之次世代定序儀用引子P7,可期待由次世代定序儀得到更安定之數據。
[圖1] 示意性顯示使用次世代定序儀用引子之次世代定序儀的解析流程之特性圖。
[圖2] 顯示次世代定序儀用引子P7中之索引序列的種類與測序片段數之關係的特性圖。
[圖3] 顯示次世代定序儀用引子P5中之索引序列的種類與測序片段數之關係的特性圖。
[圖4] 顯示基於構成次世代定序儀用引子P7中之索引序列的鹼基種類以推定式所算出的推定測序片段數,與實際上測定的測序片段數之關係的特性圖。
[圖5] 顯示基於構成次世代定序儀用引子P5中之索引序列的鹼基種類以推定式所算出的推定測序片段數,與實際上測定的測序片段數之關係的特性圖。

Claims (17)

  1. 一種次世代定序儀用引子,其包含5’-CAAGCAGAAGACGGCATACGAGAT(序列編號1)-N5~15 -GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG(序列編號2)-3’(N5~15 為5~15鹼基之索引序列)之鹼基序列,且包含作為基於以測序片段數為目標變數,以索引序列中之鹼基的種類為解釋變數之推定式所算出的測序片段數之推定值超過特定值的鹼基序列而設計之索引序列。
  2. 如請求項1之次世代定序儀用引子,其中上述索引序列為8個鹼基(N=8,序列編號67)。
  3. 如請求項1之次世代定序儀用引子,其中上述推定式包含就構成索引序列之N個鹼基而言,由鹼基種類與因應其之係數所構成之項。
  4. 如請求項1之次世代定序儀用引子,其中上述特定值為15000~25000之值。
  5. 如請求項1之次世代定序儀用引子,其係由選自由序列編號262~963所成之群的1個鹼基序列所構成。
  6. 一種次世代定序儀用引子之製造方法,其包含:就包含5’-CAAGCAGAAGACGGCATACGAGAT(序列編號1)- N5~15 -GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG(序列編號2)-3’(N5~15 為5~15鹼基之索引序列)之鹼基序列之次世代定序儀用引子而言,基於以測序片段數為目標變數,以索引序列中之鹼基的種類為解釋變數之推定式,由索引序列之鹼基序列算出測序片段數之推定值,設計所算出之測序片段數的推定值超過特定值之鹼基序列,作為索引序列之鹼基序列之步驟,與 合成包含上述步驟所設計之索引序列的核苷酸之步驟。
  7. 如請求項6之次世代定序儀用引子之製造方法,其中上述索引序列為8個鹼基(N=8,序列編號67)。
  8. 如請求項6之次世代定序儀用引子之製造方法,其中上述推定式包含就構成索引序列之N個鹼基而言,由鹼基種類與因應其之係數所構成之項。
  9. 如請求項6之次世代定序儀用引子之製造方法,其中上述特定值為15000~25000之值。
  10. 如請求項6之次世代定序儀用引子之製造方法,其中設計選自由序列編號262~963所成之群的1個鹼基序列中之第25~32號,作為索引序列之鹼基序列。
  11. 一種DNA庫,其包含於解析對象DNA之一端部具有如請求項1~5中任一項之次世代定序儀用引子之鹼基序列的DNA片段。
  12. 如請求項11之DNA庫,其中上述解析對象DNA,為藉由核酸放大反應所得到的片段或將基因體DNA片段化所得到的片段。
  13. 如請求項11之DNA庫,其中上述解析對象DNA,為藉由於含有基因體DNA及高濃度之隨機引子的反應液中進行核酸放大反應所得到的片段,該隨機引子,於5’末端側具有對上述次世代定序儀用引子3’末端側之鹼基序列為互補的鹼基序列。
  14. 一種DNA庫之製造方法,其包含使用如請求項1~5中任一項之次世代定序儀用引子,與於5’末端側具有對上述次世代定序儀用引子3’末端側之鹼基序列為互補的鹼基序列之解析對象DNA,來進行核酸放大反應之步驟。
  15. 如請求項14之DNA庫之製造方法,其中上述解析對象DNA,為藉由核酸放大反應所得到的片段或將基因體DNA片段化所得到的片段。
  16. 如請求項14之DNA庫之製造方法,其中上述解析對象DNA,為藉由於含有基因體DNA及高濃度之隨機引子的反應液中進行核酸放大反應所得到的片段,該隨機引子,於5’末端側具有對上述次世代定序儀用引子3’末端側之鹼基序列為互補的鹼基序列。
  17. 一種DNA解析方法,其特徵為將如請求項11~13中任一項之DNA庫藉由次世代定序儀解析,決定該DNA庫中所含的DNA片段之鹼基序列。
TW107146389A 2017-12-25 2018-12-21 次世代定序儀用引子以及其製造方法、使用次世代定序儀用引子之dna庫以及其製造方法,及使用dna庫之基因體dna解析方法 TWI715900B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017247826A JP7047373B2 (ja) 2017-12-25 2017-12-25 次世代シーケンサー用プライマー並びにその製造方法、次世代シーケンサー用プライマーを用いたdnaライブラリー並びにその製造方法、及びdnaライブラリーを用いたゲノムdna解析方法
JP2017-247826 2017-12-25

Publications (2)

Publication Number Publication Date
TW201936921A true TW201936921A (zh) 2019-09-16
TWI715900B TWI715900B (zh) 2021-01-11

Family

ID=67063674

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107146389A TWI715900B (zh) 2017-12-25 2018-12-21 次世代定序儀用引子以及其製造方法、使用次世代定序儀用引子之dna庫以及其製造方法,及使用dna庫之基因體dna解析方法

Country Status (7)

Country Link
US (1) US11795451B2 (zh)
EP (2) EP4105341B1 (zh)
JP (1) JP7047373B2 (zh)
KR (1) KR102404104B1 (zh)
CN (1) CN111542618B (zh)
TW (1) TWI715900B (zh)
WO (1) WO2019131470A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110628889A (zh) * 2019-08-12 2019-12-31 远辰生物科技(苏州)有限公司 Illumina二代测序平台文库构建引入分子标签的方法、接头序列及应用
WO2022020596A2 (en) * 2020-07-24 2022-01-27 Arizona Board Of Regents On Behalf Of Arizona State University Dual barcode indexes for multiplex sequencing of assay samples screened with multiplex in-solution protein array
WO2023025784A1 (en) * 2021-08-24 2023-03-02 Ecole Polytechnique Federale De Lausanne (Epfl) Optimised set of oligonucleotides for bulk rna barcoding and sequencing
WO2023122237A1 (en) * 2021-12-22 2023-06-29 St. Jude Children's Research Hospital, Inc. Kit and method for analyzing t cell receptors from single t cells
WO2023237180A1 (en) * 2022-06-07 2023-12-14 Alithea Genomics Sa Optimised set of oligonucleotides for bulk rna barcoding and sequencing

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4255630B2 (ja) 2001-09-10 2009-04-15 独立行政法人農業・食品産業技術総合研究機構 米のdna食味判定技術及び籾/玄米半粒による良食味米選抜方法
US8206913B1 (en) 2003-03-07 2012-06-26 Rubicon Genomics, Inc. Amplification and analysis of whole genome and whole transcriptome libraries generated by a DNA polymerization process
JP3972106B2 (ja) 2004-03-03 2007-09-05 大学共同利用機関法人情報・システム研究機構 ゲノムライブラリー作製方法、および同方法により作製されたゲノムライブラリー
ES2387878T3 (es) 2005-06-23 2012-10-03 Keygene N.V. Estrategias para la identificación de alto rendimiento y la detección de polimorfismos
EP2002017B1 (en) 2006-04-04 2015-06-10 Keygene N.V. High throughput detection of molecular markers based on restriction fragments
WO2010039991A2 (en) 2008-10-02 2010-04-08 The Texas A&M University System Method of generating informative dna templates for high-throughput sequencing applications
HUE061110T2 (hu) 2009-11-05 2023-05-28 Univ Hong Kong Chinese Magzati genomelemzés anyai biológiai mintából
EP2549859B1 (en) 2010-03-24 2017-06-21 Institut National de la Santé et de la Recherche Medicale Primate model from the family Cercopithecidae infected by a HBV strain of human genotype
US20140357497A1 (en) * 2011-04-27 2014-12-04 Kun Zhang Designing padlock probes for targeted genomic sequencing
CN103060924B (zh) * 2011-10-18 2016-04-20 深圳华大基因科技有限公司 微量核酸样本的文库制备方法及其应用
EP3428290B1 (en) 2012-07-26 2022-04-06 Illumina, Inc. Compositions and methods for the amplification of nucleic acids
DK2971080T3 (en) 2013-03-15 2018-02-12 Expedeon S L METHODS FOR AMPLIFICATION AND SEQUENCE USING THERMOSTABLE TTHPRIMPOL
AU2014346399A1 (en) 2013-11-11 2016-06-02 Arizona Board Of Regents On Behalf Of Northern Arizona University Systems and methods for universal tail-based indexing strategies for amplicon sequencing
GB2532749B (en) 2014-11-26 2016-12-28 Population Genetics Tech Ltd Method for preparing a nucleic acid for sequencing using MspJI family restriction endonucleases
US20180010120A1 (en) 2015-01-16 2018-01-11 Seqwell, Inc. Normalized iterative barcoding and sequencing of dna collections
US10465241B2 (en) * 2015-06-15 2019-11-05 The Board Of Trustees Of The Leleand Stanford Junior University High resolution STR analysis using next generation sequencing
KR101651817B1 (ko) 2015-10-28 2016-08-29 대한민국 Ngs 라이브러리 제작용 프라이머 세트 및 이를 이용한 ngs 라이브러리 제작방법 및 키트
JP6654780B2 (ja) 2015-11-25 2020-02-26 国立研究開発法人物質・材料研究機構 磁気抵抗素子の製造方法
WO2017117440A1 (en) * 2015-12-30 2017-07-06 Bio-Rad Laboratories, Inc. Droplet partitioned pcr-based library preparation
US20190169602A1 (en) 2016-01-12 2019-06-06 Seqwell, Inc. Compositions and methods for sequencing nucleic acids
KR101969905B1 (ko) 2016-06-20 2019-04-17 한국표준과학연구원 염기서열분석을 위한 라이브러리용 프라이머 세트 및 라이브러리 제조방법
JP6515884B2 (ja) 2016-06-29 2019-05-22 トヨタ自動車株式会社 Dnaプローブの作製方法及びdnaプローブを用いたゲノムdna解析方法
JP7343264B2 (ja) 2016-06-29 2023-09-12 トヨタ自動車株式会社 Dnaライブラリーの作製方法及びdnaライブラリーを用いたゲノムdna解析方法
JP7056012B2 (ja) 2017-05-19 2022-04-19 トヨタ自動車株式会社 ランダムプライマーセット、及びこれを用いたdnaライブラリーの作製方法
CN107513576A (zh) 2017-10-18 2017-12-26 北京生命科学研究所 一种用于检测遗传性心肌疾病的试剂盒及其应用

Also Published As

Publication number Publication date
EP3676401B1 (en) 2022-04-13
EP4105341A1 (en) 2022-12-21
EP3676401A1 (en) 2020-07-08
CN111542618B (zh) 2024-03-01
TWI715900B (zh) 2021-01-11
US20210171941A1 (en) 2021-06-10
US11795451B2 (en) 2023-10-24
JP7047373B2 (ja) 2022-04-05
JP2019110840A (ja) 2019-07-11
EP3676401A4 (en) 2020-07-29
KR102404104B1 (ko) 2022-05-31
KR20200081488A (ko) 2020-07-07
EP4105341B1 (en) 2024-05-01
WO2019131470A1 (en) 2019-07-04
CN111542618A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
TWI715900B (zh) 次世代定序儀用引子以及其製造方法、使用次世代定序儀用引子之dna庫以及其製造方法,及使用dna庫之基因體dna解析方法
CN109715798B (zh) Dna文库的制作方法和使用dna文库的基因组dna分析方法
JP6100933B2 (ja) アレリックラダー遺伝子座
CN110392739B (zh) 检测dna突变的测序方法
KR20120011728A (ko) 한우의 육량 또는 육질의 조기 선발에 유용한 단일염기다형성 마커
JP7528911B2 (ja) Dnaライブラリーの作製方法及びdnaライブラリーを用いたゲノムdna解析方法
KR102226281B1 (ko) 고양이의 초위성체 마커를 이용한 개체식별 방법
TWI686482B (zh) 隨機引子組及使用其之dna基因庫的製作方法
KR102237248B1 (ko) 소나무 개체식별 및 집단의 유전 분석용 snp 마커 세트 및 이의 용도
JP7362054B2 (ja) High Resolution Melting(HRM)解析によるマグロ類の遺伝的性判別方法
KR102319859B1 (ko) 토종닭 개체 식별을 위한 초위성체 마커 기반 멀티플렉스용 프라이머 세트 및 이의 용도
KR102305034B1 (ko) 우리흑돈의 등 지방 두께 식별용 snp 마커 및 이를 이용한 등 지방 두께 식별 방법
JP5530185B2 (ja) 核酸検出方法及び核酸検出用キット
KR101716108B1 (ko) Str 유전좌위의 분별 선행 증폭을 통한 유전자 감식 방법
KR20240072342A (ko) 무의 근피 색상 판별용 snp 마커 및 이의 용도
NZ749198B2 (en) Method for producing dna library and method for analyzing genomic dna using the dna library
Wood Mitochondrial Haplogrouping and Short Tandem Repeat Analyses in Anthropological Research using Next-Generation Sequencing Technologies
KR20240086799A (ko) 염소의 초위성체 마커를 이용한 개체식별 및 성 판별 방법
BR112018077489B1 (pt) Métodos para analisar o dna genômico que compreende o uso de uma biblioteca de dna
US20130023427A1 (en) Methods for assessing genomic instabilities in tumors