WO2022054178A1 - 個体ゲノムの構造変異検出方法及び装置 - Google Patents

個体ゲノムの構造変異検出方法及び装置 Download PDF

Info

Publication number
WO2022054178A1
WO2022054178A1 PCT/JP2020/034166 JP2020034166W WO2022054178A1 WO 2022054178 A1 WO2022054178 A1 WO 2022054178A1 JP 2020034166 W JP2020034166 W JP 2020034166W WO 2022054178 A1 WO2022054178 A1 WO 2022054178A1
Authority
WO
WIPO (PCT)
Prior art keywords
sequence data
mapping
processor
sequence
read
Prior art date
Application number
PCT/JP2020/034166
Other languages
English (en)
French (fr)
Inventor
宏一 木村
Original Assignee
株式会社日立ハイテク
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立ハイテク filed Critical 株式会社日立ハイテク
Priority to PCT/JP2020/034166 priority Critical patent/WO2022054178A1/ja
Publication of WO2022054178A1 publication Critical patent/WO2022054178A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Definitions

  • the present disclosure relates to a method and an apparatus for detecting structural variation of an individual genome.
  • the most typical method for detecting structural variation is the method by pair-end sequencing.
  • the personal genome is usually fragmented into a large number of sequences (called inserts) having a length of about several hundred bases, the sequences at both ends of each insert are read by a sequencer, and a read sequence having a length of about 100 bases is read. Get a lot of pairs.
  • the position (mapping position) in the standard genome corresponding to the read sequence can be uniquely specified (Non-Patent Document 2).
  • the mapping positions of the paired read sequences are separated from each other by a distance approximately equal to the mean insert length on the standard genome sequence coordinates. Such a pair is called an accordant pair.
  • the distance between the mapping positions of the paired read sequences deviates from the average value of the insert length, it is presumed that some structural variation has occurred. Such pairs are called discordant pairs.
  • the distance between the mapping positions of the paired read sequences is smaller than the average value of the insert length, it is presumed that the decrease reflects the length of the insertion mutation that occurred in the individual genome. Therefore, an insertion mutation with a length exceeding the insert length cannot be detected. If the mapping of one or both of the paired read sequences fails, the data of that pair will not be used.
  • the present disclosure provides a technique for detecting an insertion mutation having a length exceeding the insert length by using the sequence data of a short-read type next-generation DNA sequencer by pair-end sequencing.
  • the method for detecting structural mutations in an individual genome of the present disclosure is a method for detecting structural mutations in an individual genome executed by a computer processor, and the standard genome sequence data is received by the processor.
  • the processor calculates the probability that the mapping will fail at each position of the standard genome sequence data, assuming that there is no mutation, and the processor receives the read sequence data of the individual genome. , The processor failed to map each end of the read sequence data onto the standard genomic sequence data, and the processor failed to map the end of the read sequence data at each position of the standard genomic sequence data.
  • the frequency is calculated, and the processor determines whether the frequency of failure of the mapping is significantly higher than the probability of failure of the mapping at each position of the standard genomic sequence data.
  • the processor extracts a region on the standard genome sequence data in which a position determined to have a significantly high frequency of failure of the mapping continues for a predetermined length or longer as a candidate for a mutation region, and the processor extracts the region. It includes outputting the mutation region candidate as a detection result of a structural mutation.
  • the figure explaining the method of calculating the read frequency with each base coordinate of a standard genome sequence The figure explaining the method of calculating the read frequency with each base coordinate of a standard genome sequence.
  • the figure explaining the method of extracting the candidate of a mutation region on the standard genome sequence The figure explaining the method of extracting the candidate of a mutation region on the standard genome sequence.
  • the figure explaining the method of detecting a breakpoint on a standard genome sequence The functional block diagram of the structural variation detection system which concerns on 2nd Embodiment.
  • the flowchart which shows the whole processing of the structural variation detection system which concerns on 2nd Embodiment.
  • FIG. 1 is a hardware configuration diagram of a structural variation detection system 1 for an individual genome (individual genome) according to the first embodiment.
  • the structural variation detection system 1 includes a computer 100, a database for storing human standard genome sequence data 111, and a database for storing personal genome read sequence data 112.
  • the computer 100 is a device such as a server having a normal computer configuration.
  • the computer 100 includes a CPU 101 (processor), a memory 102, a storage device 103, a network interface (NIF) 104, an input device 105, a display / output device 106, and a bus 107. Each component of the computer 100 is connected to each other by a bus 107.
  • the CPU (Central Processing Unit) 101 reads out a program temporarily stored in the memory 102 and various data, and executes processing necessary for detecting structural variation of the personal genome.
  • another processing device such as an MPU (MicroProcessingUnit) may be used.
  • the storage device 103 stores the standard genome sequence dictionary data 121, the standard genome MLRU (Minimum Length for Robust Uniqueness) data 122, and the personal genome read sequence dictionary data 123 generated by the processing of the CPU 101.
  • a hard disk drive (HDD), a solid state drive (SSD), a magnetic disk, an optical disk, or the like can be used as the storage device 103.
  • the standard genome sequence dictionary data 121, the standard genome MLRU data 122, and the personal genome read sequence dictionary data 123 may be stored in a storage device externally connected to the computer 100, or may be connected to the computer 100 via a network. It may be stored in a data center or the like.
  • the network interface 104 communicates with an external device of the computer 100 via a network such as a LAN (Local Area Network) and the Internet.
  • the CPU 101 can access and download the standard genome sequence data 111 and the personal genome read sequence data 112 stored in an external database via the network interface 104. Each data acquired from the outside is stored in the storage device 103.
  • the standard genome sequence data 111 is data of a human genome sequence defined as a reference, such as an international reference genome or a Japanese reference genome sequence.
  • the personal genome read sequence data 112 is, for example, a set of sequence data of fragments of the personal genome read by a short-read next-generation DNA sequencer by pair-end sequencing.
  • the input device 105 is, for example, a mouse, a keyboard, a touch panel, a camera, a microphone, or the like.
  • the display / output device 106 is, for example, a display, a touch panel, a printer, a speaker, or the like.
  • the display / output device 106 displays a GUI (Graphical User Interface) 108 for operation by the user, an analysis result, and the like on the display.
  • the user of the computer 100 can input information such as commands and parameters via the GUI 108 by operating the input device 105.
  • the input commands and parameters are stored in the memory 102 or the storage device 103.
  • FIG. 2 is a functional block diagram of the structural variation detection system.
  • the structural variation detection system includes a standard genome sequence dictionary creation unit 201, an MLRU calculation unit 202, an individual genome read sequence dictionary creation unit 203, an input unit 205, a display / output unit 206, and a pair end mapping unit 211.
  • Pair classification unit 212 mutation region candidate extraction unit 213, read sequence extraction unit 214, alignment unit 215, breakpoint (BP) extraction unit 216, mapping failure frequency evaluation unit 221 and mapping failure probability evaluation unit 222.
  • BP breakpoint
  • the input unit 205 stores the processing parameter 218 used in each unit of the CPU 101 designated (input) by the user via the GUI 108, and various input / output data (standard genome sequence data 111, personal genome read) described later.
  • the storage destinations of the sequence data 112, the standard genome sequence dictionary data 121, the standard genome MLRU data 122, the personal genome read sequence dictionary data 123, and the structural mutation detection result 113) are read and stored in the memory 102. Further, the input unit 205 acquires the standard genome sequence data 111 and the personal genome read sequence data 112 from an external database via the network interface 104, and stores them in the storage device 103 according to the designated storage destination.
  • the standard genome sequence dictionary creation unit 201 receives the input of the standard genome sequence data 111 from the storage device 103 and generates the standard genome sequence dictionary data 121.
  • the MLRU calculation unit 202 receives the input of the standard genome sequence data 111 from the storage device 103 and generates the standard genome MLRU data 122.
  • the personal genome read sequence dictionary creation unit 203 receives the input of the personal genome read sequence data 112 from the storage device 103, and generates the personal genome read sequence dictionary data 123. These generated data are stored in the storage device 103 according to the designated storage destination.
  • the pair end mapping unit 211 receives the input of the individual genome read sequence data 112, the standard genome sequence dictionary data 121, and the standard genome MLRU data 122, performs the pair end mapping process, and outputs the result to the pair classification unit 212.
  • the pair classification unit 212 accepts the input of the processing parameter 218 input by the user using the GUI 108 and the input device 105, sets the classification standard, and classifies the pair based on the result of the pair end mapping unit 211.
  • the pair classification unit 212 outputs the pair classification result to the mapping failure frequency evaluation unit 221.
  • the mapping failure frequency evaluation unit 221 calculates (evaluates) the frequency of actual mapping failures based on the pair classification result.
  • the mapping failure frequency evaluation unit 221 outputs the calculation result to the mutation region candidate extraction unit 213.
  • the mapping failure probability evaluation unit 222 calculates (evaluates) the probability of mapping failure based on the base reading error rate, which is one of the processing parameters 218, and the probability model using the standard genome MLRU data 122.
  • the mapping failure probability evaluation unit 222 outputs the calculation result to the mutation region candidate extraction unit 213.
  • the mutation region candidate extraction unit 213 receives the calculation result (frequency of mapping failure) of the mapping failure frequency evaluation unit 221 and also receives the calculation result (probability of mapping failure) of the mapping failure probability evaluation unit 222.
  • the mutation region candidate extraction unit 213 extracts a region in which the frequency of mapping failure is significantly higher than the probability of mapping failure under the condition of error rate, which is one of the processing parameters 218, as a mutation region candidate.
  • the result is output to the read sequence extraction unit 214.
  • the read sequence extraction unit 214 receives the input of the standard genome MLRU data 122 from the storage device 103, and determines the length of the seed sequence, which is a partial sequence used for extracting the read sequence. Next, the read sequence extraction unit 214 receives the input of the standard genome sequence data 111 and extracts the seed sequence (partial sequence) from the input. Next, the read sequence extraction unit 214 receives the input of the personal genome read sequence dictionary data 123 from the storage device 103, extracts all the read sequences including the seed sequence, and outputs the result to the alignment unit 215.
  • the alignment unit 215 receives the input of the standard genome sequence data 111 from the storage device 103, and aligns the read sequence extracted by the read sequence extraction unit 214 with the seed sequence commonly included in the standard genome sequence. Next, the alignment unit 215 extends the alignment to the region adjacent to the seed array, and outputs the result to the breakpoint extraction unit 216.
  • the breakpoint extraction unit 216 accepts the input of the processing parameter 218 and sets the alignment criterion. Next, the breakpoint extraction unit 216 extracts the boundary between the seed array and the adjacent region as a breakpoint when the alignment of the adjacent region of the seed array obtained by the alignment unit 215 does not meet the matching criterion, and displays the result. / Output to the output device 106.
  • the display / output unit 206 displays the breakpoint extraction result (structural variation detection result 113) obtained by the breakpoint extraction unit 216 as the GUI 108 on the display / output device 106. Further, the display / output unit 206 outputs the structural variation detection result 113 to the external device via the network interface 104 (not shown in FIG. 2).
  • FIG. 3 is a flowchart showing the entire process of the structural variation detection system. Details of some of the steps shown in FIG. 3 will be described later with reference to FIGS. 4-9.
  • the input unit 205 stores the processing parameter 218 used in each unit of the CPU 101 designated (input) by the user via the GUI 108, and various input / output data (standard genome sequence data 111, personal genome read sequence data).
  • the input of the storage destination of 112, the standard genome sequence dictionary data 121, the standard genome MLRU data 122, the personal genome read sequence dictionary data 123, and the structural mutation detection result 113) is received and stored in the memory 102.
  • Step 302 The input unit 205 acquires (receives) the standard genome sequence data 111 and the personal genome read sequence data 112 from the external database via the network interface 104, and stores them in the storage device 103 according to the storage destination specified in step 301. do.
  • the standard genome sequence data 111 is composed of a base sequence of a plus chain of each chromosome (a character string consisting of letters A, C, G, and T representing a base).
  • the standard genome sequence dictionary creation unit 201 reads the standard genome sequence data 111 from the storage device 103, concatenates these sequences and their reverse complementary sequences with the delimiter $, and forms a single standard genome sequence G. do.
  • the position of each character in the standard genome sequence G is specified by the coordinate X of an integer with the left end of the standard genome sequence G as 1.
  • the coordinate X specifies a character in the plus chain
  • the coordinate with a plus sign + X is used, and the base position in the complementary chain sequence (minus chain) corresponding to X is used.
  • Negatively signed coordinates-X are used to specify.
  • the standard genome sequence dictionary creating unit 201 calculates the Burrows-Wheeler transformation (FM index) of the standard genome sequence G using a known method (Non-Patent Document 5), and outputs the result as the standard genome sequence dictionary data 121. do.
  • the standard genome sequence dictionary creation unit 201 stores the generated standard genome sequence dictionary data 121 in the storage device 103.
  • the personal genome read sequence dictionary creation unit 203 reads the personal genome read sequence data 112 from the storage device 103, and uses known methods (Patent Document 1, Non-Patent Document 6) to Burrows-Wheeler of the personal genome read sequence data 112. The conversion (FM index) is calculated, and the result is output as the personal genome read sequence dictionary data 123.
  • the personal genome read sequence dictionary creation unit 203 stores the generated personal genome read sequence dictionary data 123 in the storage device 103.
  • the MLRU calculation unit 202 reads the standard genome sequence data 111 from the storage device 103 and calculates the standard genome MLRU data 122.
  • the MLRU calculation unit 202 stores the generated standard genome MLRU data 122 in the storage device 103.
  • the pair end mapping unit 211 reads the personal genome read sequence data 112, the standard genome sequence dictionary data 121, and the standard genome MLRU data 122 from the storage device 103, performs the pair end mapping process, and obtains the mapping positions at both ends of each pair.
  • the pair end mapping unit 211 outputs the mapping positions at both ends of each obtained pair to the pair classification unit 212.
  • the pair classification unit 212 sets each pair into a matching pair AP (acccordant pair), an inconsistent pair DP (discordant pair), and an incompletely mapped pair IP (incompletely mapped pair) based on the mapping position obtained by the pair end mapping unit 211. And, it is classified into one of the unmapping pair UP (unmappable pair).
  • the pair classification unit 212 outputs the pair classification result to the mapping failure frequency evaluation unit 221.
  • the mapping failure frequency evaluation unit 221 obtains the frequency of the matching pair AP and the frequency of the incomplete map pair IP at each base position of the standard genome sequence G based on the classification result of the pair.
  • the mapping failure frequency evaluation unit 221 calculates the frequency at which mapping actually fails as the relative frequency of the incomplete map pair IP to the total frequency of the matching pair AP and the incomplete map pair IP. Further, the mapping failure probability evaluation unit 222 calculates the probability of mapping failure based on the probability model of the binomial distribution using the base reading error rate, which is one of the processing parameters 218, and the standard genome MLRU data 122. do.
  • the mutation region candidate extraction unit 213 receives input of the frequency of actual mapping failure from the mapping failure frequency evaluation unit 221 and input of the probability of mapping failure from the mapping failure probability evaluation unit 222. Then, the mutation region candidate extraction unit 213 scans on the standard genome sequence G, and one region as a mutation region candidate is a region in which the frequency of actual mapping failure is significantly higher than the probability of mapping failure. Extract one by one.
  • Step 309 The mutation region candidate extraction unit 213 determines whether or not the mutation region candidate has been extracted. If there is no mutation region candidate (No), the entire process is terminated. At this time, the mutation region candidate extraction unit 213 may output a result indicating that there is no mutation region candidate to the display / output unit 206, and the display / output unit 206 indicates that there is no mutation region candidate. The result may be displayed as a GUI 108 on the display / output device 106 (display). If a mutation region candidate is obtained (Yes), the process proceeds to step 310.
  • Step 310 The mutation region candidate extraction unit 213 repeats the following processing with the coordinate X as the X coordinate at the right end of the extracted mutation region candidate.
  • Step 311 The mutation region candidate extraction unit 213 determines whether or not the coordinate X is within the mutation region candidate. If X is not among the mutation region candidates (No), the process returns to step 308 (mutation region candidate extraction process) to search for the next candidate. If the coordinate X is within the mutation region candidate (Yes), the process proceeds to step 312.
  • the read sequence extraction unit 214 obtains the seed sequence S having the coordinate X at the left end, and extracts all the read sequences including the seed sequence S from the personal genome read sequence dictionary data 123.
  • the seed sequence S having the coordinate X as the left end is a partial sequence of length MLRU (+ X) extracted from the standard genome sequence data 111 starting from the element at the position of the coordinate X.
  • a known method LF mapping, last-to-first column mapping
  • Step 313 The read sequence extraction unit 214 determines whether or not the read sequence extracted in step 312 exists. If there is no read sequence (No), the process proceeds to step 318. When there is a read sequence (Yes), the read sequence extraction unit 214 outputs the extracted read sequence to the alignment unit 215, and the process proceeds to step 314.
  • Step 3128 The mutation region candidate extraction unit 213 subtracts 1 from the coordinate X and returns to step 311.
  • the alignment unit 215 aligns the extracted read sequence and the standard genome sequence G at the left end X of the seed sequence S commonly contained therein, and extends the alignment to the left of X.
  • the alignment unit 215 outputs the result of the extension of the alignment to the breakpoint extraction unit 216.
  • Step 315) The breakpoint extraction unit 216 determines whether or not base mismatch occurs frequently in the alignment extended to the left of the coordinate X. If the discrepancy does not occur frequently (No), the process proceeds to step 318, and the mutation region candidate extraction unit 213 subtracts 1 from the coordinate X and returns to step 311. If the mismatch occurs frequently (Yes), the process proceeds to step 316.
  • Step 316 The breakpoint extraction unit 216 determines that there is a breakpoint at the coordinate X, and outputs the determination result to the display / output unit 206.
  • Step 317) The display / output unit 206 outputs the coordinates X of the breakpoint to the display / output device 106.
  • the display / output unit 206 displays, for example, the alignment result of the coordinate X of the breakpoint and its surroundings, and the fluctuation of the frequency of the matching pair AP and the frequency of the incomplete map pair IP around the breakpoint as described later as GUI 108. / Can be displayed on the output device 106 (display) or output as a file.
  • step 309 After that, the process returns to step 308, and the same process is repeated.
  • FIG. 4 is a flowchart showing a method in which the MLRU calculation unit 202 calculates the standard genome MLRU data 122 from the standard genome sequence data 111 in step 304.
  • Step 401 The MLRU calculation unit 202 reads out the standard genome sequence data 111 from the storage device 103.
  • Step 402 The MLRU calculation unit 202 reads out the standard genome sequence data 111 from the storage device 103, and concatenates those sequences and their reverse complementary sequences with the delimiter $ to form one standard genome sequence G.
  • the MLRU calculation unit 202 calculates the PLCP (Permutated Longest Common Prefix Array) of the standard genome sequence G by a known method (Non-Patent Document 4).
  • MLRU (X) which represents minimum length for robust uniqueness, is a robust comparison condition that allows a difference of 1 base or less in the standard genome sequence G from the partial sequence of the standard genome sequence G starting from the coordinate X.
  • the minimum required to be unique below ie, its subsequence does not match any other subsequence of the standard genomic sequence G originating from a location other than X, except for a difference of at most one base). It is defined as representing the length of.
  • L MLU (X) +1 is set as the initial value of L. Used (described later in step 408).
  • the partial sequence of the length of MLU When determining the coordinates X in the standard genome sequence G by comparing the partial sequences, if the partial sequence of the length of MLU is used, it is affected by SNPs (Single Nucleotide Polymorphism) contained in a large number in the individual genome. The position of the coordinate X may be wrong. On the other hand, when a partial sequence of MLRU length is used, the conditions for sequence comparison are relaxed so as to allow a difference of 1 base or less, so that the coordinates X are robustly unaffected by SNP. Can be correctly determined.
  • SNPs Single Nucleotide Polymorphism
  • Step 405 The MLRU calculation unit 202 reads out the standard genome sequence dictionary data 121 from the storage device 103.
  • Step 406 The MLRU calculation unit 202 substitutes 1 which is the leftmost coordinate of the standard genome sequence G into the coordinate X.
  • Step 408 The MLRU calculation unit 202 sets MLU (X) + 1 as the initial value of the value L of the MLRU (X) at the coordinates X of the standard genome sequence G.
  • the MLRU calculation unit 202 uses S as a partial sequence of length L starting from the coordinate X (left end) in the standard genome sequence G.
  • the MLRU calculation unit 202 sets Q as a sequence in which a single base substitution, insertion or deletion is inserted in the partial sequence S.
  • the MLRU calculation unit 202 uses the standard genome sequence dictionary data 121 for each sequence Q by a known method (Non-Patent Document 2), and the number of times the sequence Q appears in the standard genome sequence G. Obtain Occ (G, Q). Then, the MLRU calculation unit 202 determines whether or not Occ (G, Q)> 0. If the value of Occ (G, Q) is positive (Yes), the process proceeds to step 412. On the other hand, if the value of Occ (G, Q) is 0 (No), the process proceeds to step 413.
  • Step 412 The MLRU calculation unit 202 increases the value of L by 1 and returns to step 409 for determining the partial array S.
  • Step 413 The MLRU calculation unit 202 determines whether or not the tests of all the sequences Q in the 8L manner described above have been completed. When the test of all the sequences Q is completed (Yes), the process proceeds to step 414. If the test of all the sequences Q has not been completed (No), the process returns to step 410 for defining the sequence Q, and the test process of step 411 is performed on the other sequences Q.
  • the MLRU calculation unit 202 defines MLRU (X), which is the value of MLRU at the coordinate X, as L, outputs it as standard genome MLRU data 122, and stores it in the storage device 103.
  • Step 415) The MLRU calculation unit 202 increments X by 1 and returns to the comparison process (step 407) with the coordinate Xmax at the right end of the standard genome sequence G.
  • X> Xmax in step 407 the process ends.
  • FIG. 5 is a flowchart showing a method in which the pair end mapping unit 211 obtains the mapping positions at both ends of each pair in step 305.
  • the pair end mapping unit 211 reads the standard genome sequence dictionary data 121 and the standard genome MLRU data 122 from the storage device 103.
  • Step 502 The pair end mapping unit 211 reads out the personal genome read sequence data 112 from the storage device 103.
  • the personal genome read sequence data 112 is a set of paired read sequences, and each pair consists of two read sequences. Both ends of the pair mean the 5'ends of each pair of read sequences.
  • the pair end mapping unit 211 determines whether or not there is an unprocessed read sequence. Processing is performed on all read sequences, and when there are no unprocessed read sequences (No), the processing ends. If there is an unprocessed read sequence (Yes), the process proceeds to step 504.
  • Step 504 The pair end mapping unit 211 sets the unprocessed read sequence as R and sets it as the next processing target.
  • Step 505 The pair end mapping unit 211 initializes the query length L to 1.
  • the pair end mapping unit 211 takes a partial sequence of length L from the 5'end of the read sequence R and uses it as the query sequence Q.
  • the pair end mapping unit 211 uses the standard genome sequence dictionary data 121 by a known method (Non-Patent Document 2 and Non-Patent Document 3) to obtain Occ (G) the number of times the query sequence Q appears in the standard genome sequence G. , Q), and let the value be F.
  • Step 508 The pair end mapping unit 211 determines whether or not F> 1. If F> 1, (Yes), the process proceeds to step 509. If F> 1 is not (No), the process proceeds to step 510.
  • Step 509 The pair end mapping unit 211 increases L by 1 and returns to step 506 for determining the query sequence Q.
  • Step 511 The pair end mapping unit 211 determines that the mapping of the read sequence R has failed, and outputs the determination result to the mutation region candidate extraction unit 213. After that, the process returns to step 503.
  • Step 512 The pair end mapping unit 211 obtains the coordinates X of the only appearance position of the query sequence Q by a known method (Non-Patent Document 2), and updates the value of L to MLRU (X).
  • Step 513 The pair end mapping unit 211 takes a partial sequence of length L from the 5'end of the read sequence R and uses it as the query sequence Q.
  • the pair end mapping unit 211 uses the standard genome sequence dictionary data 121 by a known method (Non-Patent Document 2 and Non-Patent Document 3) to obtain Occ (G) the number of times the query sequence Q appears in the standard genome sequence G. , Q), and let the value be F.
  • Step 516 The pair end mapping unit 211 determines that the mapping of the read sequence R is successful, and outputs the determination result and the mapping coordinate X (R) of the read sequence R to the mutation region candidate extraction unit 213. After that, the process returns to step 503, and when it is determined that there is no unprocessed read sequence, the process ends.
  • ⁇ Pair classification method> 6A-6F are diagrams for explaining how the pair classification unit 212 classifies each pair into one of the matched pair AP, the inconsistent pair DP, the incomplete map pair IP, and the unmapping pair UP in step 306. be. This classification is performed independently for each pair.
  • FIGS. 6A-F shows a typical case where a pair is classified as either AP, DP, IP or UP.
  • the horizontal axis 601 is a coordinate axis indicating a position (coordinates) on the standard genome sequence G.
  • the mapping coordinates X (R1) are abbreviated as X1.
  • the mapping coordinate X (R2) is abbreviated as X2.
  • the read sequence R1 indicated by the right-pointing arrow means that the end of the read sequence is mapped to the positive strand of the standard genomic sequence G, and the read sequence R1 indicated by the left-pointing arrow has the end of the read sequence. It means that it is mapped to the minus chain of the standard genome sequence G. The same applies to the read sequence R2 indicated by the right-pointing or left-pointing arrow.
  • the x mark 606 (FIG. 6E, FIG. 6F) represents a case where the mapping of the end of the read sequence R2 fails in the pair end mapping unit 211 and the mapping position cannot be determined.
  • the x mark 607 (FIG. 6F) represents a case where the mapping at the end of the read sequence R1 fails and the mapping position cannot be determined.
  • the average value (or representative value) of the insert length is set to M
  • the threshold value that can be tolerated when the magnitude of the deviation from the average value of the insert length is within the normal range is set to V.
  • the average value M and the threshold value V of the insert length are a part of the processing parameter 218, and are acquired by the input unit 205 through the GUI 108 and stored in the memory 102 or the storage device 103.
  • FIG. 6A shows a case where it is classified into a matching pair AP.
  • the mapping of the ends of the read sequences R1 and R2 was successful, the mapping destinations of the ends of the read sequences R1 and R2 were on the same chromosome, the read sequence R1 was mapped to the plus chain, and the read sequence was used.
  • mapping of the ends of the read sequences R1 and R2 is successful, if they cannot be classified as a matching pair AP, they are all classified as an inconsistent pair DP. For example, if the mapping of the ends of the read sequences R1 and R2 is successful and both mapping destinations are on different chromosomes, this pair is classified as an unmatched pair DP.
  • FIG. 6B shows the case of being classified into an inconsistent pair DP.
  • the mapping destinations of both are on the same chromosome, and both are mapped to the plus strand, this pair is converted to the unmatched pair DP. Classify.
  • the ends of the read sequences R1 and R2 are successfully mapped, both are mapped to the same chromosome, and both are mapped to the minus chain, the pair is classified as an unmatched pair DP. ..
  • FIG. 6C shows the case of being classified as an inconsistent pair DP.
  • the mapping of the ends of the read sequences R1 and R2 was successful, both mapping destinations are on the same chromosome, the read sequence R1 is mapped to the plus strand, and the read sequence R2 is mapped to the minus strand. And if the coordinate X1 is located to the right of the coordinate X2, this pair is classified as an inconsistent pair DP. Further, when the roles of the read sequences R1 and R2 are exchanged in FIG. 6C, they are also classified into the inconsistent pair DP.
  • FIG. 6D shows the case of being classified as an inconsistent pair DP.
  • the mapping of the ends of the read sequences R1 and R2 was successful, both mapping destinations are on the same chromosome, the read sequence R1 is mapped to the plus chain, and the read sequence R2 is mapped to the minus chain.
  • FIG. 6E shows the case of being classified as an incomplete map pair IP.
  • the pair is classified as an incomplete map pair IP.
  • the coordinate X1 is called the mapping position of the incomplete map pair IP. The same applies when the roles of the read sequences R1 and R2 are exchanged in FIG. 6E.
  • FIG. 6F shows a case where it is classified into a non-mapping pair UP. As shown in FIG. 6F, if the mapping of the ends of the read sequences R1 and R2 both fails, this pair is classified as an unmapping pair UP.
  • ⁇ Calculation method of read sequence frequency> 7A and 7B are diagrams illustrating a method of calculating the read sequence frequency (read frequency) at each coordinate X of the standard genome sequence G.
  • FIG. 7A shows the case where the frequency of the read sequence is determined on the plus strand of the standard genome sequence G.
  • the 3'end is mapped to XR + L-1.
  • L represents the length of the read sequence.
  • the read frequency at the coordinates X of the standard genome sequence G is given by the number P (X) of the read sequences satisfying XR ⁇ X ⁇ XR + L-1.
  • P (X) the number of the read sequences satisfying XR ⁇ X ⁇ XR + L-1.
  • all read sequences R are sorted in ascending order of the coordinates XR of the mapping position at the 5'end, as is usually done, and XR in ascending order for all the coordinates X.
  • the number of read sequences satisfying ⁇ X ⁇ XR + L-1 may be counted.
  • FIG. 7B shows the case where the frequency of the read sequence is determined on the minus chain of the standard genome sequence G.
  • the 3'end is mapped to XR-L + 1.
  • L represents the length of the read sequence.
  • the read frequency at the coordinates X of the standard genome sequence G is given by the number of read sequences M (X) satisfying XR-L + 1 ⁇ X ⁇ XR.
  • M (X) In order to calculate M (X) efficiently, all read sequences R are sorted in descending order of the coordinates XR of the mapping position at the 5'end, as is usually done, and XRs in descending order for all coordinates X.
  • the number of read sequences satisfying ⁇ L + 1 ⁇ X ⁇ XR may be counted.
  • the frequency of the matching pair AP at each base position of the standard genome sequence G is the read frequency limited to the read sequence R belonging to the pair classified into the matching pair AP.
  • the frequency of the incomplete map pair IP at each base position of the standard genome sequence G is the read frequency limited to the read sequence R belonging to the pair classified into the incomplete map pair IP.
  • the mutation region candidate extraction unit 213 obtains a read sequence belonging to a pair classified into a matching pair AP and a read sequence belonging to a pair classified into an incomplete map pair IP based on the classification result of the pair classification unit 212. Using the read frequency calculation method described using 7A and 7B, the frequency of matched pair APs and the frequency of incomplete map pair IPs at each base position of the standard genome sequence G are determined.
  • ⁇ Extraction method of mutation region candidates> 8A and 8B are diagrams illustrating a method of extracting a candidate of a region containing a mutation by the mutation region candidate extraction unit 213 in step 308.
  • FIG. 8A shows a situation in which candidates for regions that may contain homozygous mutations are selected.
  • the mutation region candidate extraction unit 213 has the coordinates X of the standard genome sequence G on the horizontal axis and the read frequency on the vertical axis. Plot the frequency 805.
  • the frequency of the incomplete map pair IP, the frequency of the matched pair AP, and the frequency of the inconsistent pair DP at the coordinate X are expressed as IP (X), AP (X), and DP (X), respectively.
  • the mutation region candidate extraction unit 213 scans on the X-axis and determines that either the relative frequency of the incomplete map pair IP or the relative frequency of the inconsistent pair DP is significantly higher based on the probability model described later. A region in which the position continues for a specified length (about the read sequence length L) or more is extracted, and the extracted region is used as a candidate for a region containing a mutation.
  • the region 813 in FIG. 8A is a candidate for a mutation region extracted when the relative frequency of the incomplete map pair IP exceeds a threshold value (for example, about 0.25). In the case of homozygous mutations, RIP (X) takes a value close to 1 at the maximum.
  • FIG. 8A does not show an example of a candidate for a mutation region in which the relative frequency of the unmatched pair DP exceeds the threshold value, but in such a region, it is not obtained by a known method (Non-Patent Document 1). Mutations can be detected using matched pairs.
  • FIG. 8B shows a situation in which candidates for regions that may contain heterozygous mutations are selected.
  • the horizontal axis is the coordinate X of the standard genome sequence G
  • the vertical axis is the read frequency
  • the frequency 823 of the incomplete map pair IP, the frequency 824 of the matched pair AP, and the frequency 825 of the unmatched pair DP are plotted.
  • the mutation region candidate extraction unit 213 scans on the X-axis and determines that either the relative frequency of the incomplete map pair IP or the relative frequency of the inconsistent pair DP is significantly higher based on the probability model described later. A region in which the position continues for a specified length (about the read sequence length L) or more is extracted, and the extracted region is used as a candidate for a region containing a mutation.
  • the region 833 in FIG. 8B is a candidate for a mutation region extracted when the relative frequency of the incomplete map pair IP exceeds a threshold value (for example, about 0.25). In the case of heterozygous mutations, RIP (X) takes up to a value close to 0.5.
  • FIG. 8B does not show an example of a candidate for a mutation region in which the relative frequency of the unmatched pair DP exceeds the threshold value, but in such a region, it is not obtained by a known method (Non-Patent Document 1). Mutations can be detected using matched pairs.
  • the above method for extracting candidates for regions that can contain homozygous or heterozygous mutations can be applied to the analysis of individual genomes of organisms that distinguish between males and females.
  • the frequency of pairs is plotted for two purposes.
  • the entire standard genomic sequence G is plotted and scanned on the X-axis to relative the incomplete map pair IP.
  • the frequency and the relative frequency of the inconsistent pair DP are compared with the threshold value and used to extract candidates for regions containing mutations.
  • the plot around the candidate of the extracted mutation region is displayed as GUI 108 on the display / output device 106, and is used to show the user the situation where the candidate is extracted.
  • FIG. 9 is a diagram illustrating a method of extracting a breakpoint (BP) associated with a structural variation from the inside of a mutation region candidate by the alignment unit 215 and the breakpoint extraction unit 216 in steps 314, 315 and 316.
  • FIG. 9 describes a method for investigating the positive chain. When investigating the minus chain, flip the left and right and use the same method. On the plus chain, the inside of the mutation region candidate is scanned one base at a time from left to right, and the following processing is repeated.
  • BP breakpoint
  • Step 901 The alignment unit 215 uses X as the coordinate being scanned.
  • Step 902 The alignment unit 215 acquires the MLRU value MLRU (+ X) at the coordinate X on the plus chain from the standard genome MLRU data 122.
  • the alignment unit 215 extracts a partial sequence having the leftmost coordinate X and a length MLRU (X) on the plus strand from the standard genome sequence data 111, and uses it as the seed sequence S.
  • Step 904 In the alignment unit 215, the coordinate adjacent to the left of the coordinate X during scanning is set to X-1.
  • Step 905 The alignment unit 215 acquires the value MLRU (-(X-1)) of MLRU at X-1 on the minus chain from the standard genome MLRU data 122.
  • the alignment unit 215 extracts a partial sequence having the rightmost coordinate X-1 and a length MLRU (-(X-1)) on the minus chain from the standard genome sequence data 111, and sets it as the standard extension sequence F0. ..
  • the alignment unit 215 obtains all the read sequences including the seed sequence S from the personal genome read sequence dictionary data 123 by a known method (Non-Patent Document 2 and Non-Patent Document 3).
  • the alignment unit 215 obtains all the partial sequences having a length of MLRU (-(X-1)) or more adjacent to the left side of the seed sequence S in the obtained read sequence, and uses these as individual extension sequences (FIG. 9). In the example of F1, F2, F3, F4 and F5).
  • the alignment unit 215 aligns the standard extension sequence F0 and the individual extension sequences F1 to F5 by a known method such as dynamic programming, and outputs the alignment result to the breakpoint extraction unit 216.
  • the breakpoint extraction unit 216 obtains the edit distance between each of the individual extension sequences F1 to F5 and the standard extension sequence F0.
  • the breakpoint extraction unit 216 states that the read sequence in which the ratio of the editing distance to the length MLRU (-(X-1)) of the standard extension sequence F0 is a certain value (for example, about 0.5) or more is derived from a structural variation. judge.
  • the breakpoint extraction unit 216 obtains the ratio determined to be derived from the structural variation in the individual extension sequences F1 to F5, and uses this as the mutation rate.
  • the read sequence 921 containing F1, F2 and F3 is determined to be derived from a structural variation
  • the read sequence 922 containing F4 and F5 is determined not to be derived from a structural variation.
  • the rate is 0.6.
  • the breakpoint extraction unit 216 compares the mutation rate with 1 (in the case of homozygous mutation) or 0.5 (in the case of heterozygous mutation) to determine the presence or absence of homozygous or heterozygous mutation.
  • the breakpoint extraction unit 216 has an individual extension sequence (F1, F2 and F3) contained in the read sequence determined to be derived from the structural variation of the individual genome. It is determined that it is a part of the insertion sequence generated by the structural variation. Further, the breakpoint extraction unit 216 determines that the breakpoint of the structural variation is at the boundary position between the seed sequence S and the standard extension sequence F0 on the standard genome sequence G.
  • the breakpoint extraction unit 216 outputs these determination results as the structural variation detection result 113, stores them in the storage device 103, and outputs them to the display / output unit 206.
  • the display / output unit 206 presents the structural variation detection result 113 and the alignment result of the seed sequence S and the extension sequence used for the determination to the user by displaying the alignment result as the GUI 108 on the display / output device 106.
  • mapping failure probability evaluation unit 222 calculates the probability of mapping failure based on the probability model, and the probability that the mutation region candidate extraction unit 213 fails in mapping is compared with the frequency at which mapping actually fails. A method of determining whether or not the frequency of actual mapping failures is significantly high will be described.
  • both the pair end mapping unit 211 and the read sequence extraction unit 214 use a partial sequence having a length equal to MLRU in the read sequence.
  • the typical length of the MLRU of the human genome is about 20-30.
  • the condition for successful mapping is that the entire subsequence exactly matches the subsequence in the standard genomic sequence, as described with reference to FIG. Therefore, if the read sequence contains a base reading error during DNA sequencing, the mapping will fail.
  • the number of base reading errors that occur in a partial sequence can be approximated by a binomial distribution, and the error rate per base is usually about 0.01 (1%). Therefore, if MLRU is m and the error rate per base is e, the probability p that one read sequence fails to map in the absence of a mutation is given by the following [Equation 1].
  • the mutation region candidate extraction unit 213 sets ⁇ as an error rate (one of the processing parameters 218 specified by the user through the GUI 108, usually about 1 to 5%), and the probability E (r / n) of failure in mapping. ) Is less than the error rate ⁇ , it is determined that the frequency of mapping failures is significantly higher than the probability of mapping failure (calculated based on the probability model). As a result, the probability that a candidate for an erroneous mutation region is extracted by determining that the frequency of mapping failure is significantly higher than the probability of mapping failure when the mutation does not actually exist is determined. It becomes ⁇ or less.
  • the method for detecting structural mutations in the individual genome (individual genome) in the first embodiment is executed by the CPU 101 (processor) of the computer 100, and the input unit 205 receives the standard genome sequence data 111.
  • the mapping failure probability evaluation unit 222 evaluates the probability that mapping will fail at each position (coordinate X) of the standard genome sequence data 111 (standard genome sequence G) when it is assumed that there is no mutation, and the input unit.
  • the 205 receives the read sequence data 112 of the individual genome, the paired end mapping unit 211 maps each end of the read sequence data 112 onto the standard genome sequence data 111, and the mapping failure frequency evaluation unit 221.
  • the probability of mapping failure is evaluated assuming that there is no mutation, the frequency of mapping failure, which is information that has not been used in the past, is investigated, and when there are too many failures to match the above probability.
  • the read sequence extraction unit 214 extracts a seed sequence S, which is a partial sequence of standard genomic sequence data, from a candidate for a mutation region, and reads including the seed sequence S.
  • the sequence data is extracted, the standard genomic sequence data and the read sequence data are aligned to the adjacent extended sequence by aligning the common seed sequence S by the alignment unit 215, and the extended sequence is aligned by the breakpoint extraction unit 216.
  • the breakpoint extraction unit 216 is determined when the ratio of the editing distance of the read sequence data and the standard genomic sequence data to the length of the extended sequence is equal to or more than a predetermined value, it is determined that the read sequence data is derived from the structural variation, and the breakpoint extraction unit 216 is determined.
  • the ratio (variation rate) of the read sequence data determined to be derived from the structural variation is compared with 1 in the case of homotype mutation and 0.5 in the case of heterotype mutation. Includes determining the presence or absence of heterozygous mutations.
  • FIG. 10 is a functional block diagram of the structural variation detection system 2 according to the second embodiment.
  • the structural variation detection system 2 of the present embodiment is obtained by extracting necessary components from the configuration (FIG. 2) of the structural variation detection system 1 of the first embodiment, and has the same configuration as that of the first embodiment.
  • the reference numeral is attached, and the description thereof will be omitted.
  • the mutation region candidate extraction unit 1013 is different from the mutation region candidate extraction unit 213 (extracting mutation region candidates one by one) of the first embodiment in that all the mutation region candidates are extracted at once.
  • FIG. 11 is a flowchart showing the entire process of the structural variation detection system 2 according to the second embodiment.
  • the same processing as in the first embodiment is designated by the same reference numerals, and the description thereof will be omitted.
  • Steps 301 and 302 The input unit 205 executes steps 301 and 302 as in the first embodiment.
  • the standard genome sequence dictionary creating unit 201 calculates the Burrows-Wheeler transformation (FM index) of the standard genome sequence G using a known method (Non-Patent Document 5), and uses the result as the standard genome sequence dictionary data 121. ..
  • the standard genome sequence dictionary creation unit 201 stores the generated standard genome sequence dictionary data 121 in the storage device 103.
  • Steps 304-307 are performed as in the first embodiment.
  • the mapping failure frequency evaluation unit 221 calculates the frequency at which mapping actually fails as the relative frequency of the incomplete map pair IP to the total frequency of the matching pair AP and the incomplete map pair IP. Further, the mapping failure probability evaluation unit 222 calculates the probability of mapping failure based on the probability model of the binomial distribution using the base reading error rate, which is one of the processing parameters 218, and the standard genome MLRU data 122. do.
  • the mutation region candidate extraction unit 1013 receives input of the frequency of actual mapping failure from the mapping failure frequency evaluation unit 221 and input of the probability of mapping failure from the mapping failure probability evaluation unit 222. Then, the mutation region candidate extraction unit 1013 scans on the standard genome sequence G and extracts all regions in which the frequency of actual mapping failure is significantly higher than the probability of mapping failure as mutation region candidates. do.
  • the mutation region candidate extraction unit 1013 outputs the extracted mutation region candidate as the structural variation detection result 113, and ends the process.
  • the mutation region candidate extraction unit 1013 may output the structural variation detection result 113 to the display / output unit 206 and display it as GUI 108.
  • the output result of the mutation region candidate can be used as follows.
  • a long-read DNA sequencer throughput is Structural variation analysis is performed by directly reading the structural variation sequence using a sequencer that can directly read a long sequence of bases of several kilobases to several tens of kilobases, although it is low.

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

コンピュータのプロセッサにより実行される個体ゲノムの構造変異検出方法であって、標準ゲノム配列データを受信することと、標準ゲノム配列データの各位置において、変異がないと仮定した場合にマッピングに失敗する確率を計算することと、個体ゲノムのリード配列データを受信することと、リード配列データのそれぞれの末端を標準ゲノム配列データ上にマッピングすることと、標準ゲノム配列データの各位置でリード配列データの末端のマッピングに失敗した頻度を計算することと、標準ゲノム配列データの各位置において、マッピングに失敗した頻度がマッピングに失敗する確率と比較して有意に大きいか否かを判定することと、標準ゲノム配列データ上で、マッピングに失敗した頻度が有意に大きいと判定される位置が所定の長さ以上続く領域を、変異領域候補として抽出することと、変異領域候補を構造変異の検出結果として出力することと、を含む。

Description

個体ゲノムの構造変異検出方法及び装置
 本開示は、個体ゲノムの構造変異検出方法及び装置に関する。
 ショートリード型の次世代型DNAシーケンシング技術の進歩により、DNAシーケンサで読み取った個人のゲノム配列を癌や生活習慣病などの予防及び治療に役立てることが可能になってきている。その際、個人のゲノム配列を標準ゲノム配列と比較して、標準ゲノム内のどの位置に、個人ゲノム側でどのような変異が生じているかを調べることが必要になる。変異には、1塩基~数塩基のスケールで生じるものから数キロ~数十キロの大きなスケールで生じるものまで様々ある。通常、ショートリード型の次世代型DNAシーケンサで直接読み取れる塩基長は100~150塩基程度に限られるため、それを超える大きなスケールで生じる変異(構造変異とよぶ)は間接的な方法を用いて検出される。
 構造変異を検出するための最も代表的な方法が、ペアエンド・シーケンシングによる方法である。この方法では、通常、個人ゲノムを数百塩基程度の長さの多数の配列(インサートとよぶ)に断片化して、各インサートの両端の配列をシーケンサで読み取って、長さ100塩基程度のリード配列のペアを多数得る。大多数の場合、リード配列に対応する標準ゲノム内の位置(マッピング位置)は一意に特定することができる(非特許文献2)。個人ゲノムに構造変異が生じていない場合、ペアをなすリード配列のマッピング位置は、標準ゲノム配列座標上でインサート長の平均値にほぼ等しい距離だけ互いに離れている。このようなペアは整合ペア(accordant pair)とよばれる。それに対して、ペアをなすリード配列のマッピング位置間の間隔がインサート長の平均値から外れている場合は、何らかの構造変異が生じていると推定される。このようなペアは非整合ペア(discordant pair)とよばれる。
米国特許第8798936号
Chen, K., Wallis, J., McLellan, M. et al. BreakDancer: an algorithm for high-resolution mapping of genomic structural variation. Nat Methods 6, 677-681 (2009). Li H. and Durbin R. (2009) Fast and accurate short read alignment with Burrows-Wheeler Transform. Bioinformatics, 25:1754-60. Ferragina P, Manzini G. Proceedings of the 41st Symposium on Foundations of Computer Science (FOCS 2000). Los Alamitos, CA, USA: IEEE Computer Society; 2000. Opportunistic data structures with applications; p. 390-398. Karkkainen J., Manzini G., Puglisi S.J. (2009) Permuted Longest-Common-Prefix Array. In: Kucherov G., Ukkonen E. (eds) Combinatorial Pattern Matching. CPM 2009. Lecture Notes in Computer Science, vol 5577. Springer, Berlin, Heidelberg G. Nong, S. Zhang and W. H. Chan, "Linear Suffix Array Construction by Almost Pure Induced-Sorting," 2009 Data Compression Conference, Snowbird, UT, 2009, pp. 193-202, doi: 10.1109/DCC.2009.42. Heng Li, Fast construction of FM-index for long sequence reads, Bioinformatics, Volume 30, Issue 22, 15 November 2014, Pages 3274-3275
 ペアをなすリード配列のマッピング位置間の間隔がインサート長の平均値よりも小さい場合は、その減少分は個人ゲノムに生じた挿入変異の長さを反映していると推定される。そのため、インサート長を超える長さの挿入変異は検出することができない。また、ペアをなすリード配列の一方又は両方のマッピングに失敗した場合は、そのペアのデータは利用されない。
 そこで、本開示は、ペアエンド・シーケンシングによるショートリード型の次世代型DNAシーケンサの配列データを用いて、インサート長を超える長さの挿入変異を検出する技術を提供する。
 上記課題を解決するために、本開示の個体ゲノムの構造変異検出方法は、コンピュータのプロセッサにより実行される個体ゲノムの構造変異検出方法であって、前記プロセッサにより、標準ゲノム配列データを受信することと、前記プロセッサにより、前記標準ゲノム配列データの各位置において、変異がないと仮定した場合にマッピングに失敗する確率を計算することと、前記プロセッサにより、個体ゲノムのリード配列データを受信することと、前記プロセッサにより、前記リード配列データのそれぞれの末端を前記標準ゲノム配列データ上にマッピングすることと、前記プロセッサにより、前記標準ゲノム配列データの各位置で前記リード配列データの末端のマッピングに失敗した頻度を計算することと、前記プロセッサにより、前記標準ゲノム配列データの各位置において、前記マッピングに失敗した頻度が前記マッピングに失敗する確率と比較して有意に大きいか否かを判定することと、前記プロセッサにより、前記標準ゲノム配列データ上で、前記マッピングに失敗した頻度が有意に大きいと判定される位置が所定の長さ以上続く領域を、変異領域候補として抽出することと、前記プロセッサにより、前記変異領域候補を構造変異の検出結果として出力することと、を含む。
 本開示に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、本開示の態様は、要素及び多様な要素の組み合わせ及び以降の詳細な記述と添付される特許請求の範囲の様態により達成され実現される。
 本明細書の記述は典型的な例示に過ぎず、本開示の特許請求の範囲又は適用例を如何なる意味に於いても限定するものではない。
 本開示の技術によれば、インサート長を超える長さの挿入変異を検出することができる。
 上記以外の課題、構成及び効果は、以下の実施の形態の説明により明らかにされる。
第1の実施形態に係る構造変異検出システムのハードウェア構成図。 第1の実施形態に係る構造変異検出システムの機能ブロック図。 第1の実施形態に係る構造変異検出システムの処理全体を示すフローチャート。 標準ゲノム配列データから標準ゲノムMLRUデータを計算する方法を示すフローチャート。 ペア末端を標準ゲノム配列上にマッピングする方法を示すフローチャート。 ペアを分類する方法を示す図。 ペアを分類する方法を示す図。 ペアを分類する方法を示す図。 ペアを分類する方法を示す図。 ペアを分類する方法を示す図。 ペアを分類する方法を示す図。 標準ゲノム配列の各塩基座標でリード頻度を計算する方法を説明する図。 標準ゲノム配列の各塩基座標でリード頻度を計算する方法を説明する図。 標準ゲノム配列上で変異領域の候補を抽出する方法を説明する図。 標準ゲノム配列上で変異領域の候補を抽出する方法を説明する図。 標準ゲノム配列上でブレークポイントを検出する方法を説明する図。 第2の実施形態に係る構造変異検出システムの機能ブロック図。 第2の実施形態に係る構造変異検出システムの処理全体を示すフローチャート。
 以下、図面を参照して本開示の実施形態を説明する。各実施形態において、ヒトのゲノム(個人ゲノム)を構造変異の検出対象として説明するが、本開示の技術は、他の生物のゲノム(個体ゲノム)の解析にも適用することができる。
[第1の実施形態]
<構造変異検出システムの構成例>
 図1は、第1の実施形態に係る個人ゲノム(個体ゲノム)の構造変異検出システム1のハードウェア構成図である。構造変異検出システム1は、コンピュータ100、ヒトの標準ゲノム配列データ111を格納するデータベース及び個人ゲノムリード配列データ112を格納するデータベースを備える。
 コンピュータ100(構造変異検出装置)は、通常の計算機の構成を有するサーバ等の装置である。コンピュータ100は、CPU101(プロセッサ)、メモリ102、記憶装置103、ネットワークインタフェース(NIF)104、入力装置105、表示/出力装置106及びバス107を備える。コンピュータ100の各構成要素は、バス107により互いに接続される。
 CPU(Central Processing Unit)101は、メモリ102に一時的に記憶されたプログラム及び種々のデータを読み出して、個人ゲノムの構造変異検出に必要な処理を実行する。なお、CPUの代わりに、MPU(Micro Processing Unit)など他の処理装置(プロセッサ)を用いてもよい。
 記憶装置103は、CPU101の処理により生成された標準ゲノム配列辞書データ121、標準ゲノムMLRU(Minimum Length for Robust Uniqueness)データ122及び個人ゲノムリード配列辞書データ123を格納する。記憶装置103としては、例えばハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、磁気ディスク又は光学ディスクなどを用いることができる。なお、標準ゲノム配列辞書データ121、標準ゲノムMLRUデータ122及び個人ゲノムリード配列辞書データ123は、コンピュータ100に外部接続された記憶装置に記憶されてもよいし、ネットワークを介してコンピュータ100に接続されたデータセンタなどに記憶されていてもよい。
 ネットワークインタフェース104は、LAN(Local Area Network)及びインターネットなどのネットワークを介してコンピュータ100の外部装置と通信する。CPU101は、ネットワークインタフェース104を介して外部のデータベースに格納される標準ゲノム配列データ111及び個人ゲノムリード配列データ112にアクセスし、これらをダウンロードすることができる。外部から取得された各データは、記憶装置103に格納される。標準ゲノム配列データ111は、例えば、国際基準ゲノム又は日本人基準ゲノム配列など、基準と定められたヒトのゲノム配列のデータである。個人ゲノムリード配列データ112は、例えば、ペアエンド・シーケンシングによるショートリード型の次世代型DNAシーケンサにより読み取られた個人ゲノムの断片の配列データの集合である。
 入力装置105は、例えばマウス、キーボード、タッチパネル、カメラ、マイクなどである。表示/出力装置106は、例えばディスプレイ、タッチパネル、プリンタ、スピーカなどである。表示/出力装置106は、ユーザによる操作のためのGUI(Graphical User Interface)108や解析結果などをディスプレイに表示する。コンピュータ100のユーザは、入力装置105を操作することにより、GUI108を介してコマンドやパラメータなどの情報を入力することができる。入力されたコマンドやパラメータは、メモリ102又は記憶装置103に格納される。
 図2は、構造変異検出システムの機能ブロック図である。図2に示すように、構造変異検出システムは、標準ゲノム配列辞書作成部201、MLRU計算部202、個人ゲノムリード配列辞書作成部203、入力部205、表示/出力部206、ペア末端マッピング部211、ペア分類部212、変異領域候補抽出部213、リード配列抽出部214、アラインメント部215、ブレークポイント(BP)抽出部216、マッピング失敗頻度評価部221及びマッピング失敗確率評価部222を有する。以上の各部の処理は、CPU101がメモリ102に記憶されたプログラムを実行することにより実現される。
 入力部205は、ユーザによりGUI108を介して指定(入力)された、CPU101の各部で用いられる処理パラメータ218の格納先、及び、後述する各種の入出力データ(標準ゲノム配列データ111、個人ゲノムリード配列データ112、標準ゲノム配列辞書データ121、標準ゲノムMLRUデータ122、個人ゲノムリード配列辞書データ123及び構造変異検出結果113)の格納先を読み込み、メモリ102に記憶させる。また、入力部205は、ネットワークインタフェース104を介して外部のデータベースから標準ゲノム配列データ111及び個人ゲノムリード配列データ112を取得し、指定された格納先に従って記憶装置103に格納する。
 標準ゲノム配列辞書作成部201は、記憶装置103から標準ゲノム配列データ111の入力を受け付け、標準ゲノム配列辞書データ121を生成する。MLRU計算部202は、記憶装置103から標準ゲノム配列データ111の入力を受け付け、標準ゲノムMLRUデータ122を生成する。個人ゲノムリード配列辞書作成部203は、記憶装置103から個人ゲノムリード配列データ112の入力を受け付け、個人ゲノムリード配列辞書データ123を生成する。これらの生成されたデータは、指定された格納先に従って記憶装置103に格納される。
 ペア末端マッピング部211は、個人ゲノムリード配列データ112、標準ゲノム配列辞書データ121及び標準ゲノムMLRUデータ122の入力を受け付けてペア末端マッピング処理を行い、その結果をペア分類部212に出力する。ペア分類部212は、ユーザがGUI108及び入力装置105を用いて入力した処理パラメータ218の入力を受け付けて分類基準を設定し、ペア末端マッピング部211の結果に基づいてペアの分類を行う。ペア分類部212は、ペアの分類結果をマッピング失敗頻度評価部221に出力する。
 マッピング失敗頻度評価部221は、ペアの分類結果に基づいて、実際にマッピングに失敗した頻度を計算する(評価する)。マッピング失敗頻度評価部221は、計算結果を変異領域候補抽出部213に出力する。
 マッピング失敗確率評価部222は、処理パラメータ218の一つである塩基読み取りエラー率と標準ゲノムMLRUデータ122とを用いた確率モデルとに基づいて、マッピングに失敗する確率を計算する(評価する)。マッピング失敗確率評価部222は、計算結果を変異領域候補抽出部213に出力する。
 変異領域候補抽出部213は、マッピング失敗頻度評価部221の計算結果(マッピングに失敗した頻度)を受け取るとともに、マッピング失敗確率評価部222の計算結果(マッピングに失敗する確率)も受け取る。変異領域候補抽出部213は、処理パラメータ218の一つである誤り率の条件の下で、マッピングに失敗した頻度がマッピングに失敗する確率よりも有意に大きい領域を変異領域の候補として抽出し、その結果をリード配列抽出部214に出力する。
 リード配列抽出部214は、記憶装置103から標準ゲノムMLRUデータ122の入力を受け付け、リード配列を抽出するために用いる部分配列であるシード配列の長さを決める。次に、リード配列抽出部214は、標準ゲノム配列データ111の入力を受け付け、その中からシード配列(部分配列)を取り出す。次に、リード配列抽出部214は、記憶装置103から個人ゲノムリード配列辞書データ123の入力を受け付け、シード配列を含む全てのリード配列を抽出し、その結果をアラインメント部215に出力する。
 アラインメント部215は、記憶装置103から標準ゲノム配列データ111の入力を受け付け、リード配列抽出部214で抽出されたリード配列と標準ゲノム配列に共通に含まれるシード配列を揃えてアラインメントを行う。次に、アラインメント部215は、アラインメントをシード配列に隣接する領域まで延長して、その結果をブレークポイント抽出部216に出力する。
 ブレークポイント抽出部216は、処理パラメータ218の入力を受け付けてアラインメントの一致基準を設定する。次に、ブレークポイント抽出部216は、アラインメント部215で得られたシード配列の隣接領域のアラインメントが一致基準を満たさない場合、シード配列と隣接領域の境界をブレークポイントとして抽出し、その結果を表示/出力装置106に出力する。
 表示/出力部206は、ブレークポイント抽出部216で得られたブレークポイントの抽出結果(構造変異検出結果113)をGUI108として表示/出力装置106に表示する。また、表示/出力部206は、ネットワークインタフェース104(図2には不図示)を介して構造変異検出結果113を外部装置に出力する。
<構造変異検出方法>
 図3は、構造変異検出システムの処理全体を示すフローチャートである。図3に示されるいくつかのステップの詳細については図4~図9を用いて後述する。
(ステップ301)
 入力部205は、ユーザによりGUI108を介して指定(入力)された、CPU101の各部で用いられる処理パラメータ218の格納先、及び、各種の入出力データ(標準ゲノム配列データ111、個人ゲノムリード配列データ112、標準ゲノム配列辞書データ121、標準ゲノムMLRUデータ122、個人ゲノムリード配列辞書データ123及び構造変異検出結果113)の格納先の入力を受け付け、メモリ102に記憶させる。
(ステップ302)
 入力部205は、ネットワークインタフェース104を介して、外部データベースから標準ゲノム配列データ111及び個人ゲノムリード配列データ112をそれぞれ取得(受信)し、ステップ301で指定された格納先に従って、記憶装置103に格納する。
(ステップ303)
 ヒトゲノムDNAは複数の染色体に分かれ、その各々はプラス鎖とマイナス鎖からなる2重らせん構造をもつ。標準ゲノム配列データ111は、各染色体のプラス鎖の塩基配列(塩基を表すA,C,G,Tの文字からなる文字列)からなる。標準ゲノム配列辞書作成部201は、記憶装置103から標準ゲノム配列データ111を読み出し、これらの配列とその相補鎖配列(reverse complementary sequences)を区切り文字$で連結して一本の標準ゲノム配列Gとする。標準ゲノム配列G内の各文字の位置は、標準ゲノム配列Gの左端を1として整数の座標Xで指定される。また、説明上の必要に応じて、座標Xがプラス鎖内の文字を指定する場合、正符号付の座標+Xを用い、また、Xに対応する相補鎖配列(マイナス鎖)内の塩基位置を指定するために負符号付の座標-Xを用いる。
 標準ゲノム配列辞書作成部201は、公知の方法(非特許文献5)を利用して標準ゲノム配列GのBurrows-Wheeler変換(FMインデクス)を計算し、その結果を標準ゲノム配列辞書データ121として出力する。標準ゲノム配列辞書作成部201は、生成した標準ゲノム配列辞書データ121を記憶装置103に格納する。
 個人ゲノムリード配列辞書作成部203は、記憶装置103から個人ゲノムリード配列データ112を読み出し、公知の方法(特許文献1、非特許文献6)を利用して個人ゲノムリード配列データ112のBurrows-Wheeler変換(FMインデクス)を計算し、その結果を個人ゲノムリード配列辞書データ123として出力する。個人ゲノムリード配列辞書作成部203は、生成した個人ゲノムリード配列辞書データ123を記憶装置103に格納する。
(ステップ304)
 MLRU計算部202は、記憶装置103から標準ゲノム配列データ111を読み出し、標準ゲノムMLRUデータ122を計算する。MLRU計算部202は、生成した標準ゲノムMLRUデータ122を記憶装置103に格納する。
(ステップ305)
 ペア末端マッピング部211は、記憶装置103から個人ゲノムリード配列データ112、標準ゲノム配列辞書データ121及び標準ゲノムMLRUデータ122を読み出し、ペア末端マッピング処理を行い、各ペアの両端のマッピング位置を求める。ペア末端マッピング部211は、求めた各ペアの両端のマッピング位置をペア分類部212に出力する。
(ステップ306)
 ペア分類部212は、ペア末端マッピング部211が求めたマッピング位置に基づいて、各ペアを整合ペアAP(acccordant pair)、非整合ペアDP(discordant pair)、不完全マップペアIP(incompletely mapped pair)及びマッピング不能ペアUP(unmappable pair)のいずれかに分類する。ペア分類部212は、ペアの分類結果をマッピング失敗頻度評価部221に出力する。
(ステップ307)
 マッピング失敗頻度評価部221は、ペアの分類結果に基づいて、標準ゲノム配列Gの各塩基位置で整合ペアAPの頻度と不完全マップペアIPの頻度を求める。
(ステップ308)
 マッピング失敗頻度評価部221は、実際にマッピングに失敗した頻度を、整合ペアAPと不完全マップペアIPの頻度の合計に対する不完全マップペアIPの相対頻度として計算する。また、マッピング失敗確率評価部222は、マッピングに失敗する確率を、処理パラメータ218の一つである塩基読み取りエラー率と標準ゲノムMLRUデータ122とを用いて、二項分布の確率モデルに基づいて計算する。
 変異領域候補抽出部213は、マッピング失敗頻度評価部221から実際にマッピングに失敗した頻度の入力を受け付け、マッピング失敗確率評価部222からマッピングに失敗する確率の入力を受け付ける。そして、変異領域候補抽出部213は、標準ゲノム配列G上を走査(スキャン)して、実際にマッピングに失敗した頻度がマッピングに失敗する確率よりも有意に高い領域を変異領域の候補として一つずつ抽出する。
(ステップ309)
 変異領域候補抽出部213は、変異領域候補が抽出されたか否かを判定する。変異領域候補がなかった場合(No)は、全処理を終了する。このとき、変異領域候補抽出部213は、変異領域候補がなかったことを示す結果を表示/出力部206に出力してもよく、表示/出力部206は、変異領域候補がなかったことを示す結果をGUI108として表示/出力装置106(ディスプレイ)に表示させてもよい。変異領域候補が得られた場合(Yes)は、処理はステップ310に移行する。
(ステップ310)
 変異領域候補抽出部213は、座標Xを抽出された変異領域候補の右端のX座標として、以下の処理を繰り返す。
(ステップ311)
 変異領域候補抽出部213は、座標Xがその変異領域候補内にあるか否かを判定する。Xがその変異領域候補内にない場合(No)は、ステップ308(変異領域候補の抽出処理)に戻って次の候補を探す。座標Xがその変異領域候補内にある場合(Yes)は、処理はステップ312に移行する。
(ステップ312)
 リード配列抽出部214は、座標Xを左端とするシード配列Sを求め、個人ゲノムリード配列辞書データ123から、シード配列Sを含むリード配列を全て抽出する。ここで、座標Xを左端とするシード配列Sとは、標準ゲノム配列データ111から、座標Xの位置にある要素を始点として長さMLRU(+X)の部分配列を取り出したものである。シード配列Sを含む全てのリード配列を抽出するためには、個人ゲノムリード配列辞書データ123に対して公知の方法(LFマッピング、last-to-first column mapping)を適用すればよい。
(ステップ313)
 リード配列抽出部214は、ステップ312において抽出されたリード配列が存在するか否かを判定する。リード配列がない場合(No)は、処理はステップ318に移行する。リード配列がある場合(Yes)は、リード配列抽出部214は、抽出されたリード配列をアラインメント部215に出力し、処理はステップ314に移行する。
(ステップ318)
 変異領域候補抽出部213は、座標Xから1を引いて、ステップ311に戻る。
(ステップ314)
 アラインメント部215は、抽出されたリード配列と標準ゲノム配列Gとを、それらに共通に含まれるシード配列Sの左端Xで揃えてアラインメントし、そのアラインメントをXの左方にまで延長する。アラインメント部215は、アラインメントの延長した結果をブレークポイント抽出部216に出力する。
(ステップ315)
 ブレークポイント抽出部216は、座標Xの左方に延長されたアラインメントにおいて塩基の不一致が頻出するか否かを判定する。不一致が頻出しない場合(No)には、処理はステップ318に移行し、変異領域候補抽出部213は、座標Xから1を引いて、ステップ311に戻る。不一致が頻出する場合(Yes)には、処理はステップ316に移行する。
(ステップ316)
 ブレークポイント抽出部216は、座標Xにブレークポイントがあると判定し、判定結果を表示/出力部206に出力する。
(ステップ317)
 表示/出力部206は、ブレークポイントの座標Xを表示/出力装置106に出力する。表示/出力部206は、例えば、ブレークポイントの座標X及びその周辺のアラインメント結果や、後述するようなブレークポイント周辺における整合ペアAPの頻度と不完全マップペアIPの頻度の変動をGUI108として、表示/出力装置106(ディスプレイ)に表示若しくはファイル出力することができる。
 その後、処理はステップ308に戻り、同様の処理が繰り返される。ステップ309において新たな変異領域候補がないと判定されたときに、全処理が終了する。
<MLRUの計算方法>
 図4は、ステップ304においてMLRU計算部202が標準ゲノム配列データ111から標準ゲノムMLRUデータ122を計算する方法を示すフローチャートである。
(ステップ401)
 MLRU計算部202は、記憶装置103から標準ゲノム配列データ111を読み出す。
(ステップ402)
 MLRU計算部202は、記憶装置103から標準ゲノム配列データ111を読み出し、それらの配列とその相補鎖配列(reverse complementary sequences)を区切り文字$で連結して一本の標準ゲノム配列Gとする。
(ステップ403)
 MLRU計算部202は、公知の方法(非特許文献4)により、標準ゲノム配列GのPLCP(Permutated Longest Common Prefix Array)を計算する。
(ステップ404)
 MLRU計算部202は、標準ゲノム配列G上の各座標Xについて、MLU(X)=PCLP(X)+1と定める。PLCPの性質により、MLU(minimum length for uniqueness)は、座標Xを起点とする標準ゲノム配列Gの部分配列が標準ゲノム配列G内で完全一致の条件の下で一意的となる(即ち、その部分配列がX以外の箇所を起点とする標準ゲノム配列Gの他の部分配列と完全一致することはない)ために必要な最小の長さを与える。
 それに対して、minimum length for robust uniquenessを表すMLRU(X)は、座標Xを起点とする標準ゲノム配列Gの部分配列が標準ゲノム配列G内で1塩基以下の違いを許容するロバストな比較条件の下で一意的となる(即ち、その部分配列がX以外の箇所を起点とする標準ゲノム配列Gの他の部分配列と高々1塩基の違いを除いて一致することはない)ために必要な最小の長さを表すものと定める。MLRUとMLUとを比較すると、部分配列を比較する条件を緩和したため、MLRU(X)の値はMLU(X)の値よりも常に大きい。そこで、MLRU計算部202は、以下に示す手順で標準ゲノム配列Gの各座標XでのMLRU(X)の値Lを計算する際には、Lの初期値としてL=MLU(X)+1を用いる(ステップ408で後述)。
 部分配列の比較により標準ゲノム配列G内の座標Xを定める際、MLUの長さの部分配列を用いると、個人ゲノムの中に多数含まれているSNP(Single Nucleotide Polymorphism)の影響を受けて、座標Xの位置を誤ることが起きる。それに対して、MLRUの長さの部分配列を用いた場合には、配列比較の条件が1塩基以下の違いを許容するように緩和されているため、SNPの影響を受けずにロバストに座標Xを正しく定めることができる。
(ステップ405)
 MLRU計算部202は、記憶装置103から標準ゲノム配列辞書データ121を読み出す。
(ステップ406)
 MLRU計算部202は、座標Xに標準ゲノム配列Gの左端の座標である1を代入する。
(ステップ407)
 MLRU計算部202は、座標Xを標準ゲノム配列Gの右端の座標Xmax(Xmax=標準ゲノム配列Gの長さ)と比較する。X>Xmaxであるならば(Yes)、標準ゲノムMLRUデータの計算処理を終了する。X>Xmaxでない場合(No)は、ステップ408に移行する。
(ステップ408)
 MLRU計算部202は、標準ゲノム配列Gの座標XでのMLRU(X)の値Lの初期値として、MLU(X)+1をセットする。
(ステップ409)
 MLRU計算部202は、標準ゲノム配列G内で座標Xを起点(左端)とする長さLの部分配列をSとする。
(ステップ410)
 MLRU計算部202は、部分配列Sに1塩基の置換、挿入又は欠失を入れた配列をQとする。長さLの部分配列Sに1塩基置換を入れた配列Qは3L通りある。何故ならば、L箇所ある部分配列Sの塩基位置のそれぞれにおいて、元の塩基(A,C,G,Tのいずれか)をそれ以外の塩基に置き換える方法が3通りあるからである。同様に、長さLの部分配列Sに1塩基挿入を入れた配列Qは4L通りある。また、長さLの部分配列Sに1塩基欠失を入れた配列QはL通りある。したがって、長さLの部分配列Sに1塩基の置換、挿入又は欠失を入れた配列Qは全部で8L通りある(ただし、部分配列Sの中に同じ塩基が連続して並ぶ場合には、8L通り数え方に重複が含まれる)。
(ステップ411)
 MLRU計算部202は、一つ一つの配列Qに対して、公知の方法(非特許文献2)により、標準ゲノム配列辞書データ121を利用して、標準ゲノム配列G内に配列Qが出現する回数Occ(G,Q)を求める。そして、MLRU計算部202は、Occ(G,Q)>0であるか否かを判定する。Occ(G,Q)の値が正である(Yes)ならば、ステップ412に移行する。一方、Occ(G,Q)の値が0である(No)ならば、ステップ413に移行する。
(ステップ412)
 MLRU計算部202は、Lの値を1だけ増やして、部分配列Sを定めるステップ409に戻る。
(ステップ413)
 MLRU計算部202は、前述した8L通りの全ての配列Qのテストが完了したか否かを判定する。全ての配列Qのテストが完了した場合(Yes)には、ステップ414に移行する。全ての配列Qのテストが完了していなかった場合(No)には、配列Qを定めるステップ410に戻って、他の配列Qに対して、ステップ411のテスト処理を行う。
(ステップ414)
 MLRU計算部202は、座標XにおけるMLRUの値であるMLRU(X)をLと定めて、標準ゲノムMLRUデータ122として出力し、記憶装置103に格納する。
(ステップ415)
 MLRU計算部202は、Xを1だけ増やして、標準ゲノム配列Gの右端の座標Xmaxとの比較処理(ステップ407)に戻る。ステップ407においてX>Xmaxとなったとき、処理を終了する。
<マッピング位置を求める方法>
 図5は、ステップ305においてペア末端マッピング部211が各ペアの両端のマッピング位置を求める方法を示すフローチャートである。
(ステップ501)
 ペア末端マッピング部211は、記憶装置103から標準ゲノム配列辞書データ121及び標準ゲノムMLRUデータ122を読み出す。
(ステップ502)
 ペア末端マッピング部211は、記憶装置103から個人ゲノムリード配列データ112を読み出す。
(ステップ503)
 個人ゲノムリード配列データ112はペアをなすリード配列の集合であり、各ペアは2本のリード配列からなる。ペアの両端とは、ペアをなすリード配列それぞれの5’末端を意味する。ペア末端マッピング部211は、未処理のリード配列があるか否かを判定する。全てのリード配列に対する処理を行い、未処理のリード配列がなくなったとき(No)、処理は終了する。未処理のリード配列がある場合(Yes)、ステップ504に移行する。
(ステップ504)
 ペア末端マッピング部211は、未処理のリード配列をRとし、次の処理対象とする。
(ステップ505)
 ペア末端マッピング部211は、クエリー長Lを1に初期化する。
(ステップ506)
 ペア末端マッピング部211は、リード配列Rの5’末端から長さLの部分配列をとり、それをクエリー配列Qとする。
(ステップ507)
 ペア末端マッピング部211は、公知の方法(非特許文献2、非特許文献3)により、標準ゲノム配列辞書データ121を利用して、標準ゲノム配列G内にクエリー配列Qが出現する回数Occ(G,Q)を求め、その値をFとする。
(ステップ508)
 ペア末端マッピング部211は、F>1であるか否かを判定する。F>1ならば(Yes)、ステップ509に移行する。F>1でないならば(No)、ステップ510に移行する。
(ステップ509)
 ペア末端マッピング部211は、Lを1だけ増やして、クエリー配列Qを定めるステップ506に戻る。
(ステップ510)
 ペア末端マッピング部211は、F=0であるか否かを判定する。F=0ならば(Yes)、ステップ511に移行する。F=0でない場合(No)、即ち、F=1の場合は、ステップ512に移行する。
(ステップ511)
 ペア末端マッピング部211は、リード配列Rのマッピングは失敗したと判定してその判定結果を変異領域候補抽出部213に出力する。その後、処理はステップ503に戻る。
(ステップ512)
 ペア末端マッピング部211は、クエリー配列Qの唯一の出現位置の座標Xを公知の方法(非特許文献2)により求めて、Lの値をMLRU(X)に更新する。
(ステップ513)
 ペア末端マッピング部211は、リード配列Rの5’末端から長さLの部分配列をとり、それをクエリー配列Qとする。
(ステップ514)
 ペア末端マッピング部211は、公知の方法(非特許文献2、非特許文献3)により、標準ゲノム配列辞書データ121を利用して、標準ゲノム配列G内にクエリー配列Qが出現する回数Occ(G,Q)を求め、その値をFとする。
(ステップ515)
 ペア末端マッピング部211は、Fを1と比較し、F=1であるか否かを判定する。F=1の場合(Yes)は、ステップ516に移行する。F=1でない場合(No)は、F=0であり、ステップ511に移行する。その後、ステップ503に戻り、未処理のリード配列がないと判定されたとき、処理は終了する。
(ステップ516)
 ペア末端マッピング部211は、リード配列Rのマッピングが成功したと判定して、その判定結果とリード配列Rのマッピング座標X(R)がXであることを変異領域候補抽出部213に出力する。その後、ステップ503に戻り、未処理のリード配列がないと判定されたとき、処理は終了する。
<ペアの分類方法>
 図6A~6Fは、ステップ306においてペア分類部212が各ペアを整合ペアAP、非整合ペアDP、不完全マップペアIP又はマッピング不能ペアUPのいずれかに分類する方法を説明するための図である。この分類は、ペアごとに、それぞれ独立に行う。図6A~Fの各々は、ペアがAP、DP、IP又はUPのいずれかに分類される代表的な場合を示している。
 図6A~Fの各々において、横軸601は、標準ゲノム配列G上の位置(座標)を示す座標軸である。ペアをなす2本のリード配列をそれぞれR1及びR2として、ペア末端マッピング部211によりリード配列R1の末端のマッピングが成功した場合、そのマッピング座標X(R1)を略してX1と表す。同様に、リード配列R2の末端のマッピングが成功した場合、そのマッピング座標X(R2)を略してX2と表す。
 右向きの矢印で示されたリード配列R1は、リード配列の末端が標準ゲノム配列Gのプラス鎖にマッピングされることを意味し、左向きの矢印で示されたリード配列R1は、リード配列の末端が標準ゲノム配列Gのマイナス鎖にマッピングされることを意味する。右向き又は左向きの矢印で示されたリード配列R2についても同様である。
 ×印606(図6E、図6F)は、ペア末端マッピング部211においてリード配列R2の末端のマッピングが失敗してマッピング位置が定まらなかった場合を表す。同様に、×印607(図6F)は、リード配列R1の末端のマッピングが失敗してマッピング位置が定まらなかった場合を表す。
 また、インサート長の平均値(又は代表値)をMとし、インサート長の平均値からのずれの大きさが正常の範囲にあると許容できる閾値をVとする。インサート長の平均値M及び閾値Vは、処理パラメータ218の一部であり、入力部205がGUI108を通じて取得し、メモリ102又は記憶装置103に記憶するものである。
 図6Aは、整合ペアAPに分類される場合を示している。図6Aに示すように、リード配列R1及びR2の末端のマッピングが両者とも成功し、リード配列R1及びR2の末端のマッピング先は同じ染色体にあり、リード配列R1はプラス鎖にマッピングされ、リード配列R2はマイナス鎖にマッピングされ、座標X1は座標X2の左方に位置し、座標X1とX2の間の距離D=X2-X1+1とインサート長の平均値Mとの差が閾値Vの範囲内に収まっている(|D-M|≦Vを満たす)場合、このペアは整合ペアAPに分類される。
 また、図6Aにおけるリード配列R1及びR2の役割を交換した場合も整合ペアAPに分類することができる。即ち、リード配列R2及びR1の末端のマッピングが両者とも成功し、両者のマッピング先は同じ染色体にあり、リード配列R2はプラス鎖にマッピングされ、リード配列R1はマイナス鎖にマッピングされ、座標X2は座標X1の左方に位置し、座標X2とX1との間の距離D=X1-X2+1とインサート長の平均値Mとの差が閾値Vの範囲内に収まっている場合、このペアは整合ペアAPに分類される。
 一方、リード配列R1及びR2の末端のマッピングが両者とも成功しても、整合ペアAPに分類できなかった場合は全て、非整合ペアDPに分類する。例えば、リード配列R1とR2の末端のマッピングが両者とも成功し、両者のマッピング先が別の染色体にある場合、このペアは非整合ペアDPに分類される。
 図6Bは、非整合ペアDPに分類される場合を示している。図6Bに示すように、リード配列R1及びR2の末端のマッピングが両者とも成功し、両者のマッピング先は同じ染色体にあり、両者ともプラス鎖にマッピングされる場合、このペアを非整合ペアDPに分類する。同様に、リード配列R1及びR2の末端のマッピングが両者とも成功し、両者のマッピング先は同じ染色体にあり、両者ともマイナス鎖にマッピングされる場合も、このペアは非整合ペアDPに分類される。
 図6Cは、非整合ペアDPに分類される場合を示している。図6Cに示すように、リード配列R1及びR2の末端のマッピングが両者とも成功し、両者のマッピング先は同じ染色体にあり、リード配列R1はプラス鎖にマッピングされ、リード配列R2はマイナス鎖にマッピングされ、座標X1が座標X2の右方に位置する場合、このペアは非整合ペアDPに分類される。また、図6Cでリード配列R1及びR2の役割を交換した場合も同様に、非整合ペアDPに分類される。
 図6Dは、非整合ペアDPに分類される場合を示している。図6Dに示すように、リード配列R1及びR2の末端のマッピングが両者とも成功し、両者のマッピング先は同じ染色体にあり、リード配列R1はプラス鎖にマッピングされ、リード配列R2はマイナス鎖にマッピングされ、座標X1が座標X2の左方に位置し、座標X1とX2との間の距離D=X2-X1+1とインサート長の平均値Mとの差が閾値Vを超えた(|D-M|>Vを満たす)場合、このペアは非整合ペアDPに分類される。また、図6Dでリード配列R1及びR2の役割を交換した場合も同様に、非整合ペアDPに分類される。
 図6Eは、不完全マップペアIPに分類される場合を示している。図6Eに示すように、リード配列R1の末端のマッピングに成功し、リード配列R2の末端のマッピングに失敗した場合、このペアは不完全マップペアIPに分類される。座標X1を不完全マップペアIPのマッピング位置と呼ぶ。また、図6Eでリード配列R1及びR2の役割を交換した場合も同様である。
 図6Fは、マッピング不能ペアUPに分類される場合を示している。図6Fに示すように、リード配列R1及びR2の末端のマッピングが両者とも失敗した場合、このペアはマッピング不能ペアUPに分類される。
<リード配列の頻度の計算方法>
 図7A及び7Bは、標準ゲノム配列Gの各座標Xでリード配列の頻度(リード頻度)を計算する方法を説明する図である。
 図7Aは、標準ゲノム配列Gのプラス鎖上でリード配列の頻度を求める場合を示している。プラス鎖上では、リード配列Rの5’末端が座標XRの位置にマッピングされるとき、3’末端はXR+L-1にマッピングされる。ここで、Lはリード配列の長さを表す。標準ゲノム配列Gの座標Xでリード頻度は、XR≦X≦XR+L-1を満たすリード配列の本数P(X)によって与えられる。P(X)を効率的に計算するためには、通常よく行われるように、全リード配列Rを5’末端のマッピング位置の座標XRの昇順にソートして、全ての座標Xについて昇順にXR≦X≦XR+L-1を満たすリード配列の本数を数えればよい。
 図7Bは、標準ゲノム配列Gのマイナス鎖上でリード配列の頻度を求める場合を示している。マイナス鎖上では、リード配列Rの5’末端が座標XRの位置にマッピングされるとき、3’末端はXR-L+1にマッピングされる。ここで、Lはリード配列の長さを表す。標準ゲノム配列Gの座標Xでリード頻度は、XR-L+1≦X≦XRを満たすリード配列の本数M(X)によって与えられる。M(X)を効率的に計算するためには、通常よく行われるように、全リード配列Rを5’末端のマッピング位置の座標XRの降順にソートして、全ての座標Xについて降順にXR-L+1≦X≦XRを満たすリード配列の本数を数えればよい。
 標準ゲノム配列Gの各塩基位置での整合ペアAPの頻度とは、整合ペアAPに分類されたペアに属するリード配列Rに限定したリード頻度である。同様に、標準ゲノム配列Gの各塩基位置での不完全マップペアIPの頻度とは、不完全マップペアIPに分類されたペアに属するリード配列Rに限定したリード頻度である。変異領域候補抽出部213は、ペア分類部212の分類結果に基づいて、整合ペアAPに分類されたペアに属するリード配列と不完全マップペアIPに分類されたペアに属するリード配列を求め、図7A及び7Bを用いて説明したリード頻度の計算方法を用いて、標準ゲノム配列Gの各塩基位置での整合ペアAPの頻度と不完全マップペアIPの頻度を求める。
<変異領域候補の抽出方法>
 図8A及び8Bは、ステップ308において変異領域候補抽出部213により変異が含まれる領域の候補を抽出する方法を説明する図である。
 図8Aは、ホモ型(homozygous)の変異が含まれる可能性がある領域の候補が選び出される状況を示している。変異領域候補抽出部213は、横軸に標準ゲノム配列Gの座標Xをとり、縦軸にリード頻度をとり、不完全マップペアIPの頻度803、整合ペアAPの頻度804及び非整合ペアDPの頻度805をプロットする。
 座標Xにおける不完全マップペアIPの頻度、整合ペアAPの頻度及び非整合ペアDPの頻度をそれぞれIP(X)、AP(X)及びDP(X)と表す。不完全マップペアIPの相対頻度を
 RIP(X)=IP(X)/(AP(X)+IP(X))
と定めて、これを「マッピングに失敗した頻度」ともよぶ。また、非整合ペアDPの相対頻度を
 RDP(X)=DP(X)/(AP(X)+DP(X))
と定める。
 変異領域候補抽出部213は、X軸上を走査して、不完全マップペアIPの相対頻度及び非整合ペアDPの相対頻度のいずれかが、後述の確率モデルに基づいて有意に大きいと判定される位置が指定された長さ(リード配列長L程度)以上続く領域を抽出し、抽出した領域を変異が含まれる領域の候補とする。図8A中の領域813は、不完全マップペアIPの相対頻度が閾値(例えば0.25程度)を超えて抽出された変異領域の候補である。ホモ型の変異の場合、RIP(X)は最大で1に近い値をとる。一方、領域814及び815では、不完全マップペアIPの相対頻度は閾値以下であり、領域814及び815の不完全マップペアIPは偶発的原因で生じたノイズであると考えられる。また、図8Aには、非整合ペアDPの相対頻度が閾値を超えて抽出された変異領域の候補の例は示していないが、そのような領域では公知の方法(非特許文献1)により非整合ペアを利用して変異を検出できる。
 図8Bは、ヘテロ型(heterozygous)の変異が含まれる可能性がある領域の候補が選び出される状況を示している。横軸に標準ゲノム配列Gの座標Xをとり、縦軸にリード頻度をとり、不完全マップペアIPの頻度823、整合ペアAPの頻度824及び非整合ペアDPの頻度825をプロットする。
 変異領域候補抽出部213は、X軸上を走査して、不完全マップペアIPの相対頻度及び非整合ペアDPの相対頻度のいずれかが、後述の確率モデルに基づいて有意に大きいと判定される位置が指定された長さ(リード配列長L程度)以上続く領域を抽出し、抽出した領域を変異が含まれる領域の候補とする。図8B中の領域833は、不完全マップペアIPの相対頻度が閾値(例えば0.25程度)を超えて抽出された変異領域の候補である。ヘテロ型の変異の場合、RIP(X)は最大で0.5に近い値をとる。一方、領域834及び835では、不完全マップペアIPの相対頻度は閾値以下であり、領域834及び835の不完全マップペアIPは偶発的原因で生じたノイズであると考えられる。また、図8Bには、非整合ペアDPの相対頻度が閾値を超えて抽出された変異領域の候補の例は示していないが、そのような領域では公知の方法(非特許文献1)により非整合ペアを利用して変異を検出できる。
 以上のようなホモ型又はヘテロ型の変異が含まれ得る領域の候補を抽出する方法は、雌雄の区別のある生物の個体ゲノムの解析に適用することができる。
 なお、ペアの頻度のプロットは2つの目的で行う。第一の目的では、上述のように、コンピュータ100の内部(変異領域候補抽出部213)において、標準ゲノム配列Gの全体にわたるプロットを行い、X軸上を走査して不完全マップペアIPの相対頻度及び非整合ペアDPの相対頻度を閾値と比較して変異が含まれる領域の候補を抽出するために利用する。第2の目的では、抽出された変異領域の候補の周辺のプロットをGUI108として表示/出力装置106に表示して、候補が抽出された状況をユーザに示すために利用する。
<ブレークポイントの抽出方法>
 図9は、ステップ314、315及び316においてアラインメント部215及びブレークポイント抽出部216により変異領域候補の内部から構造変異に伴うブレークポイント(BP)を抽出する方法を説明する図である。図9では、プラス鎖について調べる方法を説明する。マイナス鎖について調べる場合は、左右を反転して同様の方法を用いる。プラス鎖上では、変異領域候補の内部を左から右に順に1塩基ずつ走査して以下の処理を繰り返す。
(ステップ901)
 アラインメント部215は、走査中の座標をXとする。
(ステップ902)
 アラインメント部215は、標準ゲノムMLRUデータ122から、プラス鎖上の座標XにおけるMLRUの値MLRU(+X)を取得する。
(ステップ903)
 アラインメント部215は、標準ゲノム配列データ111から、プラス鎖上で左端座標がXであり長さがMLRU(X)の部分配列を取り出し、それをシード配列Sとする。
(ステップ904)
 アラインメント部215は、走査中の座標Xの左に隣接する座標をX-1とする。
(ステップ905)
 アラインメント部215は、標準ゲノムMLRUデータ122から、マイナス鎖上のX-1におけるMLRUの値MLRU(-(X-1))を取得する。
(ステップ906)
 アラインメント部215は、標準ゲノム配列データ111から、マイナス鎖上で右端座標がX-1であり長さがMLRU(-(X-1))の部分配列を取り出し、それを標準延長配列F0とする。
(ステップ907)
 アラインメント部215は、公知の方法(非特許文献2、非特許文献3)により、個人ゲノムリード配列辞書データ123の中からシード配列Sを含む全てのリード配列を求める。
(ステップ908)
 アラインメント部215は、求めたリード配列内で、シード配列Sの左方に隣接する長さMLRU(-(X-1))以上の部分配列を全て求め、これらを個人延長配列とする(図9の例ではF1、F2、F3、F4及びF5)。アラインメント部215は、動的計画法などの公知の方法により、標準延長配列F0と個人延長配列F1~F5のアラインメントを行い、アラインメントの結果をブレークポイント抽出部216に出力する。
 ブレークポイント抽出部216は、個人延長配列F1~F5のそれぞれと標準延長配列F0との編集距離(edit distance)を求める。ブレークポイント抽出部216は、編集距離と標準延長配列F0の長さMLRU(-(X-1))との比が一定値(例えば0.5程度)以上であるリード配列は構造変異に由来すると判定する。
 また、ブレークポイント抽出部216は、個人延長配列F1~F5の中で構造変異に由来すると判定された割合を求め、これを変異率とする。図9の例では、F1~F5のうち、F1、F2及びF3を含むリード配列921は構造変異に由来すると判定され、F4及びF5を含むリード配列922は構造変異に由来しないと判定され、変異率は0.6である。
 ブレークポイント抽出部216は、変異率を1(ホモ型の変異の場合)又は0.5(ヘテロ型の変異の場合)と比較して、ホモ型又はヘテロ型の変異の有無を判定する。ホモ型又はヘテロ型の変異ありと判定された場合には、ブレークポイント抽出部216は、構造変異に由来すると判定されたリード配列に含まれる個人延長配列(F1、F2及びF3)が個人ゲノムの構造変異で生じた挿入配列の一部であると判定する。また、ブレークポイント抽出部216は、その構造変異のブレークポイントが標準ゲノム配列G上のシード配列Sと標準延長配列F0の境界の位置にあると判定する。
 ブレークポイント抽出部216は、これらの判定結果を構造変異検出結果113として出力し、記憶装置103に格納するとともに、表示/出力部206に出力する。表示/出力部206は、構造変異検出結果113と、判定に利用したシード配列S及び延長配列のアラインメント結果をGUI108として表示/出力装置106に表示させることで、ユーザに提示する。
<マッピングに失敗する確率と実際に失敗した頻度について>
 マッピング失敗確率評価部222が確率モデルに基づいてマッピングに失敗する確率を計算する方法、及び、変異領域候補抽出部213がマッピングに失敗する確率と実際にマッピングに失敗した頻度とを比較して、実際にマッピングに失敗した頻度が有意に大きいか否かを判定する方法について説明する。
 上述のように、ペア末端マッピング部211においても、リード配列抽出部214においても、リード配列内のMLRUに等しい長さの部分配列が用いられる。ヒトゲノムのMLRUの典型的な長さは20~30程度である。ペア末端マッピング部211においては、マッピングが成功するための条件は、図5を用いて説明したように、部分配列全体が標準ゲノム配列内の部分配列と完全一致することである。したがって、リード配列内にDNAシーケンシングの際の塩基読み取りエラーが含まれていれば、マッピングに失敗する。部分配列内に生じる塩基読み取りエラーの数は二項分布で近似でき、通常、1塩基当たりのエラー率は0.01(1%)程度である。したがって、MLRUをmとし、1塩基当たりのエラー率をeとすれば、変異が存在しない場合に1本のリード配列がマッピングに失敗する確率pは、以下の[式1]で与えられる。
Figure JPOXMLDOC01-appb-M000001
 したがって、変異が存在しない場合に、n本のリード配列中r本以上がマッピングに失敗する確率E(r/n)は、以下の[式2]で与えられる。
Figure JPOXMLDOC01-appb-M000002
 マッピング失敗頻度評価部221により、標準ゲノム配列の座標Xの位置で整合ペアAPの頻度AP(X)と不完全マップペアIPの頻度IP(X)が得られたとき、n=AP(X)+IP(X)とし、r=IP(X)とすると、実際にマッピングに失敗した頻度RIP(X)はr/nに等しい。このとき、[式2]で計算されたマッピングに失敗する確率E(r/n)は、実際には変異がないにもかかわらず、n本中r本以上のリード配列のマッピングが失敗する確率を表す。そこで、変異領域候補抽出部213は、αを誤り率(GUI108を通じてユーザにより指定される処理パラメータ218の一つであり、通常1~5%程度)として、マッピングに失敗する確率E(r/n)が誤り率α未満になるとき、マッピングに失敗した頻度がマッピングに失敗する確率(確率モデルに基づき計算される)と比較して有意に大きいと判定する。これにより、実際には変異が存在しない場合に、マッピングに失敗した頻度がマッピングに失敗する確率と比較して有意に大きいと判定されることにより誤った変異領域の候補が抽出される確率は、α以下となる。
<第1の実施形態のまとめ>
 以上のように、第1の実施形態における個人ゲノム(個体ゲノム)の構造変異検出方法は、コンピュータ100のCPU101(プロセッサ)により実行され、入力部205により、標準ゲノム配列データ111を受信することと、マッピング失敗確率評価部222により、標準ゲノム配列データ111(標準ゲノム配列G)の各位置(座標X)において、変異がないと仮定した場合にマッピングに失敗する確率を評価することと、入力部205により、個人ゲノムのリード配列データ112を受信することと、ペア末端マッピング部211により、リード配列データ112のそれぞれの末端を標準ゲノム配列データ111上にマッピングすることと、マッピング失敗頻度評価部221により、標準ゲノム配列データ111の各位置でリード配列データ112の末端のマッピングに失敗した頻度を評価することと、変異領域候補抽出部213により、標準ゲノム配列データ111の各位置において、マッピングに失敗した頻度がマッピングに失敗する確率と比較して有意に大きいか否かを判定することと、変異領域候補抽出部213により、標準ゲノム配列データ111上で、マッピングに失敗した頻度が有意に大きいと判定される位置が所定の長さ以上続く領域を、変異領域候補として抽出することと、表示/出力部206により、変異領域候補を構造変異の検出結果として出力することと、を含む。
 このように、変異がないと仮定してマッピングに失敗する確率を評価し、従来は用いられていない情報であるマッピングに失敗した頻度を調べ、上記確率に合わないほど多数の失敗があった場合に、何らかの異常が生じたことを示す証拠だと考えて、その領域に構造変異が生じていると判定する。これにより、インサート長を超える長さの挿入変異がある可能性がある領域を抽出することができる。
 また、第1の実施形態に係る個人ゲノムの構造変異検出方法は、リード配列抽出部214により、変異領域候補から標準ゲノム配列データの部分配列であるシード配列Sを取り出し、シード配列Sを含むリード配列データを抽出することと、アラインメント部215により、標準ゲノム配列データとリード配列データとを共通のシード配列Sを揃えて隣接する延長配列までアラインメントすることと、ブレークポイント抽出部216により、延長配列において、リード配列データ及び標準ゲノム配列データの編集距離と延長配列の長さとの比が所定の値以上である場合、そのリード配列データは構造変異に由来すると判定することと、ブレークポイント抽出部216により、構造変異に由来すると判定されたリード配列データの割合(変異率)を、ホモ型の変異の場合は1と比較し、ヘテロ型の変異の場合は0.5と比較してホモ型又はヘテロ型の変異の有無を判定することと、含む。
 これにより、挿入配列長がインサート長より小さいか否かに関わらず、挿入変異に伴うブレークポイントを検出でき、また、挿入配列の一部を取得することができる。構造変異などの異常が生じていなければ、個人ゲノムの配列データを用いて計算したペアの片方でマッピングに失敗した相対頻度は、標準ゲノム配列のみから計算したマッピングに失敗する確率にほぼ等しいはずであるが、これらの不一致を検出することにより、変異候補領域を絞り込める。それにより、アラインメントを用いてブレークポイント検出処理を行うゲノム領域を限定でき、計算コストを抑える効果が得られる。
[第2の実施形態]
 第1の実施形態では、ショートリード型のDNAシーケンサで得られた個人ゲノムの配列データを用いて個人ゲノムの構造変異検出を行い、ブレークポイントの位置を塩基単位で詳細に決定する方法を示した。本開示の第2の実施形態では、ショートリード型のDNAシーケンサで得られた配列データを用いて変異領域候補を求め、その結果を出力するにとどめる方法を提案する。
<構造変異検出システム>
 図10は、第2の実施形態に係る構造変異検出システム2の機能ブロック図である。本実施形態の構造変異検出システム2は、第1の実施形態の構造変異検出システム1の構成(図2)から必要なものを抜き出したものであり、第1の実施形態と同じ構成には同様の符号を付しており、その説明を省略する。標準ゲノム配列辞書作成部201、MLRU計算部202、入力部205、表示/出力部206、ペア末端マッピング部211、ペア分類部212、変異領域候補抽出部1013、マッピング失敗頻度評価部221及びマッピング失敗確率評価部222を有する。変異領域候補抽出部1013は、変異領域の候補を一度に全て抽出する点で、第1の実施形態の変異領域候補抽出部213(変異領域の候補を一つずつ抽出する)と異なっている。
<構造変異検出方法>
 図11は、第2の実施形態に係る構造変異検出システム2の処理全体を示すフローチャートである。第1の実施形態と同様の処理には同様の符号を付しており、その説明を省略する。
(ステップ301及び302)
 入力部205は、第1の実施形態と同様にステップ301及び302を実行する。
(ステップ1103)
 標準ゲノム配列辞書作成部201は、公知の方法(非特許文献5)を利用して標準ゲノム配列GのBurrows-Wheeler変換(FMインデクス)を計算し、その結果を標準ゲノム配列辞書データ121とする。標準ゲノム配列辞書作成部201は、生成した標準ゲノム配列辞書データ121を記憶装置103に格納する。
(ステップ304~307)
 第1の実施形態と同様にステップ304~307が実行される。
(ステップ1108)
 マッピング失敗頻度評価部221は、実際にマッピングに失敗した頻度を、整合ペアAPと不完全マップペアIPの頻度の合計に対する不完全マップペアIPの相対頻度として計算する。また、マッピング失敗確率評価部222は、マッピングに失敗する確率を、処理パラメータ218の一つである塩基読み取りエラー率と標準ゲノムMLRUデータ122とを用いて、二項分布の確率モデルに基づいて計算する。
 変異領域候補抽出部1013は、マッピング失敗頻度評価部221から実際にマッピングに失敗した頻度の入力を受け付け、マッピング失敗確率評価部222からマッピングに失敗する確率の入力を受け付ける。そして、変異領域候補抽出部1013は、標準ゲノム配列G上を走査(スキャン)して、実際にマッピングに失敗した頻度がマッピングに失敗する確率よりも有意に高い領域を変異領域の候補として全て抽出する。
 変異領域候補抽出部1013は、抽出した変異領域の候補を構造変異検出結果113として出力し、処理を終了する。変異領域候補抽出部1013は、構造変異検出結果113を表示/出力部206に出力して、GUI108として表示してもよい。
 本実施形態では、変異領域候補の出力結果は次のように利用することができる。公知の方法(PCR法やハイブリダイゼーション法)を利用して、個人ゲノムのDNAサンプルの中から変異領域候補を含むDNA断片を増幅又は濃縮したサンプルを調整し、ロングリード型のDNAシーケンサ(スループットは低いが数キロ塩基から数十キロ塩基程度の長い配列の塩基を直接読み取ることができるシーケンサ)を用いて、構造変異配列を直接読み取ることにより、構造変異解析を行う。
[変形例]
 本開示は、上述した実施形態に限定されるものでなく、様々な変形例を含んでいる。例えば、上述した実施形態は、本開示を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備える必要はない。また、ある実施形態の一部を他の実施形態の構成に置き換えることができる。また、ある実施形態の構成に他の実施形態の構成を加えることもできる。また、各実施形態の構成の一部について、他の実施形態の構成の一部を追加、削除又は置換することもできる。
100…コンピュータ
101…CPU
102…メモリ
103…記憶装置
104…ネットワークインタフェース
105…入力装置
106…表示/出力装置

Claims (14)

  1.  コンピュータのプロセッサにより実行される個体ゲノムの構造変異検出方法であって、
     前記プロセッサにより、標準ゲノム配列データを受信することと、
     前記プロセッサにより、前記標準ゲノム配列データの各位置において、変異がないと仮定した場合にマッピングに失敗する確率を計算することと、
     前記プロセッサにより、個体ゲノムのリード配列データを受信することと、
     前記プロセッサにより、前記リード配列データのそれぞれの末端を前記標準ゲノム配列データ上にマッピングすることと、
     前記プロセッサにより、前記標準ゲノム配列データの各位置で前記リード配列データの末端のマッピングに失敗した頻度を計算することと、
     前記プロセッサにより、前記標準ゲノム配列データの各位置において、前記マッピングに失敗した頻度が前記マッピングに失敗する確率と比較して有意に大きいか否かを判定することと、
     前記プロセッサにより、前記標準ゲノム配列データ上で、前記マッピングに失敗した頻度が有意に大きいと判定される位置が所定の長さ以上続く領域を、変異領域候補として抽出することと、
     前記プロセッサにより、前記変異領域候補を構造変異の検出結果として出力することと、を含む個体ゲノムの構造変異検出方法。
  2.  前記プロセッサにより、前記変異領域候補から前記標準ゲノム配列データの部分配列であるシード配列を取り出し、前記シード配列を含む前記リード配列データを抽出することと、
     前記プロセッサにより、前記標準ゲノム配列データと前記リード配列データとを共通の前記シード配列を揃えて隣接する延長配列までアラインメントすることと、
     前記プロセッサにより、前記延長配列において、前記リード配列データ及び前記標準ゲノム配列データの編集距離と前記延長配列の長さとの比が所定の値以上である場合、そのリード配列データは構造変異に由来すると判定することと、
     前記プロセッサにより、前記構造変異に由来すると判定された前記リード配列データの割合を、ホモ型の変異の場合は1と比較し、ヘテロ型の変異の場合は0.5と比較してホモ型又はヘテロ型の変異の有無を判定することと、をさらに含む請求項1に記載の個体ゲノムの構造変異検出方法。
  3.  前記プロセッサは、前記リード配列データのBurrows-Wheeler変換を利用して、前記シード配列を含む前記リード配列データを抽出する請求項2に記載の個体ゲノムの構造変異検出方法。
  4.  前記プロセッサにより、前記標準ゲノム配列データの各位置において、前記各位置を始点とする部分配列が前記標準ゲノム配列データ内で一意的になる最小の長さを求めることをさらに含み、
     前記プロセッサは、前記マッピングに失敗する確率を、前記最小の長さの中に塩基読み取りエラーが1個以上生じる確率として計算する請求項1に記載の個体ゲノムの構造変異検出方法。
  5.  前記プロセッサにより、前記標準ゲノム配列データの各位置において、前記各位置を始点とする部分配列が前記標準ゲノム配列データ内で1個以下のミスマッチを許す条件下において一意的になる最小の長さを求めることをさらに含み、
     前記プロセッサは、前記マッピングに失敗する確率を、前記最小の長さの中に塩基読み取りエラーが1個以上生じる確率として計算する請求項1に記載の個体ゲノムの構造変異検出方法。
  6.  前記プロセッサにより、前記標準ゲノム配列データの各位置において、前記各位置を始点とする部分配列が前記標準ゲノム配列データ内で一意的になる最小の長さ、又は、1個以下のミスマッチを許す条件下において一意的になる最小の長さを求めることをさらに含み、
     前記プロセッサは、前記リード配列データの末端が前記マッピングに成功するための条件を、
     前記リード配列データの末端から切り出した部分配列が、前記最小の長さの前記標準ゲノム配列データの部分配列と完全一致することとする請求項2に記載の個体ゲノムの構造変異検出方法。
  7.  前記プロセッサにより、前記標準ゲノム配列データの各位置において、前記各位置を始点とする部分配列が前記標準ゲノム配列データ内で一意的になる最小の長さ、又は、1個以下のミスマッチを許す条件下において一意的になる最小の長さを求めることをさらに含み、
     前記プロセッサは、前記シード配列と前記延長配列の長さを前記最小の長さとする請求項2に記載の個体ゲノムの構造変異検出方法。
  8.  前記ホモ型又はヘテロ型の変異があると判定された場合に、
     前記プロセッサにより、前記構造変異に由来すると判定された前記リード配列データに含まれる前記延長配列が前記個体ゲノムの前記構造変異で生じた挿入配列の一部であると判定することと、
     前記プロセッサにより、前記構造変異のブレークポイントが前記標準ゲノム配列データ上で前記シード配列と前記延長配列との境界の位置にあると判定することと、
     前記プロセッサにより、前記挿入配列の一部であるとの判定結果及び前記ブレークポイントの位置を出力することと、をさらに含む請求項2に記載の個体ゲノムの構造変異検出方法。
  9.  前記プロセッサにより、表示画面として、前記変異領域候補の周辺で、前記標準ゲノム配列データの座標軸上に沿って、前記リード配列データの末端の前記マッピングに成功した頻度と失敗した頻度とをプロット表示することをさらに含む請求項1に記載の個体ゲノムの構造変異検出方法。
  10.  前記マッピングに失敗した頻度を計算することは、
     前記プロセッサにより、前記リード配列データの末端のペアを整合ペア、非整合ペア、不完全マップペア及びマッピング不能ペアのうちいずれかに分類することを含み、
     前記不完全マップペアは、前記ペアの一方のみで前記マッピングに成功したペアであり、
     前記プロセッサは、前記マッピングに失敗した頻度を、前記整合ペアの頻度と前記不完全マップペアの頻度の合計に対する前記不完全マップペアの相対頻度として計算する請求項1に記載の個体ゲノムの構造変異検出方法。
  11.  前記プロセッサにより、塩基読み取りエラー率の入力を受け付けることをさらに含み、
     前記プロセッサは、前記塩基読み取りエラー率の条件下で前記マッピングに失敗する確率を計算する請求項1に記載の個体ゲノムの構造変異検出方法。
  12.  前記プロセッサにより、前記標準ゲノム配列データの各位置において、前記各位置を始点とする部分配列が前記標準ゲノム配列データ内で1個以下のミスマッチを許す条件下において一意的になる最小の長さを求めることをさらに含み、
     前記プロセッサは、前記塩基読み取りエラー率と前記最小の長さとを用いた確率モデルに基づいて、前記マッピングに失敗する確率を計算する請求項11に記載の個体ゲノムの構造変異検出方法。
  13.  前記プロセッサにより、前記マッピングに失敗する確率についての所定の誤り率の入力を受け付けることをさらに含み、
     前記プロセッサは、前記マッピングに失敗する確率が前記誤り率未満になるとき、前記マッピングに失敗した頻度が前記マッピングに失敗する確率と比較して有意に大きいと判定する請求項1に記載の個体ゲノムの構造変異検出方法。
  14.  プロセッサと、前記プロセッサにより実行されるプログラムを格納するメモリと、を備える個体ゲノムの構造変異検出装置であって、
     前記プロセッサは、
     標準ゲノム配列データを受信する処理と、
     前記標準ゲノム配列データの各位置において、変異がないと仮定した場合にマッピングに失敗する確率を計算する処理と、
     個体ゲノムのリード配列データを受信する処理と、
     前記リード配列データのそれぞれの末端を前記標準ゲノム配列データ上にマッピングする処理と、
     前記標準ゲノム配列データの各位置で前記リード配列データの末端のマッピングに失敗した頻度を計算する処理と、
     前記標準ゲノム配列データの各位置において、前記マッピングに失敗した頻度が前記マッピングに失敗する確率と比較して有意に大きいか否かを判定する処理と、
     前記標準ゲノム配列データ上で、前記マッピングに失敗した頻度が有意に大きいと判定される位置が所定の長さ以上続く領域を、変異領域候補として抽出する処理と、
     前記変異領域候補を構造変異の検出結果として出力する処理と、を実行する、個体ゲノムの構造変異検出装置。
PCT/JP2020/034166 2020-09-09 2020-09-09 個体ゲノムの構造変異検出方法及び装置 WO2022054178A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/034166 WO2022054178A1 (ja) 2020-09-09 2020-09-09 個体ゲノムの構造変異検出方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/034166 WO2022054178A1 (ja) 2020-09-09 2020-09-09 個体ゲノムの構造変異検出方法及び装置

Publications (1)

Publication Number Publication Date
WO2022054178A1 true WO2022054178A1 (ja) 2022-03-17

Family

ID=80631406

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/034166 WO2022054178A1 (ja) 2020-09-09 2020-09-09 個体ゲノムの構造変異検出方法及び装置

Country Status (1)

Country Link
WO (1) WO2022054178A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015197899A (ja) * 2014-04-03 2015-11-09 株式会社日立ハイテクノロジーズ 配列データ解析装置、dna解析システムおよび配列データ解析方法
JP2018533143A (ja) * 2015-08-06 2018-11-08 エイアールシー バイオ リミテッド ライアビリティ カンパニー ゲノム分析のためのシステムおよび方法
WO2020067603A1 (ko) * 2018-09-28 2020-04-02 한양대학교 산학협력단 다중 참조 유전체에 기반한 유전체 구조변이 검출 방법 및 구조변이 검출 장치
CN111326212A (zh) * 2020-02-18 2020-06-23 福建和瑞基因科技有限公司 一种结构变异的检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015197899A (ja) * 2014-04-03 2015-11-09 株式会社日立ハイテクノロジーズ 配列データ解析装置、dna解析システムおよび配列データ解析方法
JP2018533143A (ja) * 2015-08-06 2018-11-08 エイアールシー バイオ リミテッド ライアビリティ カンパニー ゲノム分析のためのシステムおよび方法
WO2020067603A1 (ko) * 2018-09-28 2020-04-02 한양대학교 산학협력단 다중 참조 유전체에 기반한 유전체 구조변이 검출 방법 및 구조변이 검출 장치
CN111326212A (zh) * 2020-02-18 2020-06-23 福建和瑞基因科技有限公司 一种结构变异的检测方法

Similar Documents

Publication Publication Date Title
US10192026B2 (en) Systems and methods for genomic pattern analysis
US10783984B2 (en) De novo diploid genome assembly and haplotype sequence reconstruction
US11756652B2 (en) Systems and methods for analyzing sequence data
US20200399719A1 (en) Systems and methods for analyzing viral nucleic acids
Hasan et al. Performance evaluation of indel calling tools using real short-read data
CN106068330B (zh) 将已知等位基因用于读数映射中的系统和方法
US9165109B2 (en) Sequence assembly and consensus sequence determination
US20130138358A1 (en) Algorithms for sequence determination
US11646101B2 (en) Continuous wavelet-based dynamic time warping method and system
US10810239B2 (en) Sequence data analyzer, DNA analysis system and sequence data analysis method
US20150169823A1 (en) String graph assembly for polyploid genomes
US20150286775A1 (en) String graph assembly for polyploid genomes
US20220254444A1 (en) Systems and methods for detecting recombination
CN106529211A (zh) 变异位点的获取方法及装置
EP1859268A2 (en) System, method and computer program for non-binary sequence comparison
US20210350876A1 (en) System and method for direct subsequence searching and mapping in nanopore raw signal
WO2022054178A1 (ja) 個体ゲノムの構造変異検出方法及び装置
US20220157401A1 (en) Method and system for mapping read sequences using a pangenome reference
WO2016205767A1 (en) String graph assembly for polyploid genomes
WO2019132010A1 (ja) 塩基配列における塩基種を推定する方法、装置及びプログラム
US20170024514A1 (en) Distance maps using multiple alignment consensus construction
Oja et al. Clustering of human endogenous retrovirus sequences with median self-organizing map
Jiang et al. Long-read based novel sequence insertion detection with rCANID
CN110570908A (zh) 测序序列多态识别方法及装置、存储介质、电子设备
Matroud Nested tandem repeat computation and analysis

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20953244

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20953244

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP