WO2016175330A1 - ゲノム解析装置及びゲノム可視化方法 - Google Patents

ゲノム解析装置及びゲノム可視化方法 Download PDF

Info

Publication number
WO2016175330A1
WO2016175330A1 PCT/JP2016/063509 JP2016063509W WO2016175330A1 WO 2016175330 A1 WO2016175330 A1 WO 2016175330A1 JP 2016063509 W JP2016063509 W JP 2016063509W WO 2016175330 A1 WO2016175330 A1 WO 2016175330A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
genome
output
request
output request
Prior art date
Application number
PCT/JP2016/063509
Other languages
English (en)
French (fr)
Other versions
WO2016175330A9 (ja
Inventor
邦裕 西村
貴司 青木
理美 坂田
俊貴 竹内
祐樹 伴
淳雄 山田
近藤 聡
Original Assignee
株式会社テンクー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社テンクー filed Critical 株式会社テンクー
Priority to EP16786606.0A priority Critical patent/EP3291114B1/en
Priority to US15/532,810 priority patent/US10573405B2/en
Priority to CN201680003789.3A priority patent/CN107004069B/zh
Priority to KR1020177017545A priority patent/KR102140032B1/ko
Priority to JP2017515639A priority patent/JP6593763B2/ja
Publication of WO2016175330A1 publication Critical patent/WO2016175330A1/ja
Publication of WO2016175330A9 publication Critical patent/WO2016175330A9/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations

Definitions

  • the present invention relates to a genome analysis device and a genome visualization method.
  • the base sequence of the genome to be analyzed has an extremely large amount of data per sample.
  • a sequence decoding device called a next-generation sequencer capable of decoding a genomic base sequence at ultra-high speed and at low cost has been developed and used.
  • the next-generation sequencer makes very short fragments of DNA or RNA to be analyzed, reads them in parallel to read DNA or RNA at high speed, and analyzes each loaded fragment to determine the base sequence of each fragment To do. Thereafter, the determined base sequence information of each fragment is output as sequence data called a lead sequence, for example, data in FASTQ format.
  • a lead sequence for example, data in FASTQ format.
  • data in which the lead sequence is aligned (mapped) to a known genomic base sequence hereinafter also referred to as “reference sequence”
  • reference sequence for example, data in SAM format or BAM format is output (for example, see Patent Document 1). .
  • Patent Document 1 refers to a step of identifying a plurality of high quality lead sequences from a plurality of lead sequences, a step of extracting a plurality of unique lead sequences from a plurality of high quality lead sequences, and a plurality of unique read sequences Techniques are disclosed that allow high quality alignment by comparing to a reference sequence corresponding to a sample.
  • Chromosome sample data (hereinafter, generically referred to as “genome data”) in FASTQ format, SAM format, BAM format, etc. output from this next-generation sequencer is ChIP-Seq (Chromatin Immunoprecipitation-sequence) or RNA. -Used for various analyzes such as Seq.
  • visualization technology that enables visual grasp of analysis results of ChIP-Seq, RNA-Seq, etc. and the base sequence of the genome has been developed.
  • viewers such as Integrative Genomics Viewer (Broad Institute), Integrated Genome Browser (Affymetrix), UCSC Genome Browser (UCSC), and Gbrowse.
  • the present invention has been made in view of the circumstances as described above, and an object of the present invention is to provide a genome analysis apparatus and a genome visualization method that enable simple and seamless visualization using a web browser mechanism. To do.
  • the genome analysis device analyzes a large amount of genome data consisting of fragmented genome base sequences and outputs requests from client devices connected via a network.
  • the genome analysis apparatus for transmitting output data related to the genome data, the storage means for storing visualization data of a plurality of different layers for the genome data, and an output request from the client apparatus
  • the request receiving means and the output request receiving means receive the output request, select the visualization data of the layer corresponding to the output request from the storage means, and based on the visualization data of the selected layer
  • Output data creation means for creating output data; Characterized in that was.
  • the genome visualization method analyzes genome data composed of a large amount of fragmented genome base sequences and has a storage unit for storing data related to the genome data.
  • a genome visualization method in a genome analysis device that transmits output data related to the genome data in response to an output request from a client device connected via a network, wherein the storage unit And the genome visualization method includes: a request receiving step for receiving an output request from the client device; and the storage unit when the output request is received in the output request receiving step.
  • the layer corresponding to the output request from Select data characterized in that it comprises an output data generation step of generating output data based on the visualization data of the selected layer, a.
  • FIG. 1 is a diagram showing a system configuration example of a genome analysis system according to the present embodiment.
  • a genome analysis system 1 shown in FIG. 1 has a genome analysis device 2 and a client device 3 connected via a network 4 such as the Internet.
  • Genome data 11 includes a large amount of fragmented base sequence information output from the next-generation sequencer, such as sequence data called a FASTQ format read sequence, data in which the read sequence is mapped to a reference sequence, such as SAM format, BAM Format data. This genome data 11 is input to the genome analyzer 2.
  • the genome analysis apparatus 2 is an apparatus that inputs genome data 11 and performs various analyzes such as ChIP-Seq, RNA-Seq, and mutation analysis on the input genome data 11.
  • the genome analysis device 2 functions as an application server that performs an analysis related to the analysis request in response to an analysis request from the client device 3 connected via the network 4.
  • the genome analysis device 2 creates output data related to the genome data 11 in response to the output request from the client device 3 and transmits it to the client device 3.
  • the output data here is Web page data (hereinafter also referred to as “display data”), report data in which analysis results and the like are represented in a table format or a PDF format.
  • display data the genome analysis device 2 functions as a Web server.
  • the client device 3 transmits an analysis request input by the user on the device to the genome analysis device 2. Further, the client device 3 transmits an output request to the genome analysis device 2.
  • the output request here is a request related to display of the display data (hereinafter also referred to as “display request”) or a request related to output of the report data.
  • display request a request related to display of the display data
  • the client device 3 functions as a Web client and has a Web browser type viewer that displays display data received from the genome analysis device 2.
  • the genome analysis device 2 analyzes the genome data 11 and transmits output data indicating the analysis result and the like to the client device 3.
  • the genome analysis device 2 may be a server group constructed on the cloud or an on-premises server.
  • FIG. 2 is a diagram illustrating a hardware configuration example of the genome analysis apparatus 2 according to the present embodiment.
  • the same components as those described above are denoted by the same reference numerals, and redundant description is omitted as appropriate.
  • the 2 includes a CPU (Central Processing Unit) 21, a memory 22, an SSD (Solid State Drive) 23, and an interface device 24 connected via a bus 25.
  • the CPU 21 is a central processing unit that executes various programs stored in the memory 22.
  • the memory 22 is a storage device such as a RAM (Random Access Memory) that stores a program executed by the CPU 21 and data used by the program.
  • the SSD 23 is a storage device that stores various data. It may be an HDD (Hard Disk Disk Drive).
  • the interface device 24 is an interface device for connecting to the network 4 (see FIG. 1).
  • the genome analyzer 2 is not limited to a physical computer. It may be configured by combining a plurality of computers, or may be a virtual server that is virtually provided on the cloud by using virtualization technology.
  • FIG. 3 is a diagram illustrating a functional configuration example of the genome analysis apparatus 2 according to the present embodiment.
  • a storage unit 209 includes a data reception unit 201, a request issue unit 202, a request reception unit 203, a task control unit 204, a preprocessing unit 205, an analysis unit 206, an output data creation unit 207, a data transmission unit 208, A storage unit 209 is included.
  • the data receiving unit 201 receives genomic data 11 of a predetermined chromosome sample made up of a large amount of fragmented genomic base sequences.
  • the form of reception may be performed by manual or automatic upload from a computer device (not shown in FIG. 1) connected via the network 4 and storing the genome data 11, or the genome data 11 on the cloud may be received. It may be done by import.
  • the request issuing unit 202 internally issues a request for storing the received genomic data 11 in the storage unit 209 when the data receiving unit 201 receives the genomic data 11.
  • the request receiving unit 203 receives the analysis request 12 and the output request 13 transmitted from the client device 3.
  • the analysis request 12 is a request related to analysis such as ChIP-Seq, RNA-Seq, mutation analysis, and analysis of a predetermined disease such as colorectal cancer or breast cancer.
  • the output request 13 is a request related to a display request or report data output.
  • the display request describes the designation of display target chromosomes and base coordinates, an instruction for enlargement or reduction, designation of a chromosome sample to be displayed, an instruction for search, and the like.
  • the request relating to the output of report data describes the output data format (table format or PDF format), the designation of the gene to be output, and the like.
  • the task control unit 204 generates and manages tasks when the request issuing unit 202 issues a request or when the request receiving unit 203 receives an analysis request 12 and an output request 13.
  • a task to be executed by the preprocessing unit 205 is generated.
  • the request receiving unit 203 receives the analysis request 12
  • the task executed by the analyzing unit 206 is generated.
  • a task to be executed by the output data creating unit 207 is generated.
  • the preprocessing unit 205 performs preprocessing on the genome data 11 by parallel distributed processing.
  • the preprocessing here is preprocessing of analysis performed by the analysis unit 206.
  • Various data generated as a result of the preprocessing by the preprocessing unit 205 is stored in the storage unit 209.
  • the preprocessing unit 205 reads the reference sequence information stored in the sequence DB 212 of the storage unit 209 and sets the FASTQ format sequence to the reference sequence. Data mapping is performed as preprocessing.
  • the analysis unit 206 performs the analysis related to the analysis request 12 on the data stored in the storage unit 209 by parallel distributed processing.
  • the analysis result by the analysis unit 206 is stored in the storage unit 209.
  • the output data creation unit 207 creates output data related to the output request 13 by parallel distributed processing based on the data stored in the storage unit 209.
  • the data transmission unit 208 transmits the output data created by the output data creation unit 207 to the client device 3 as a response 14 to the output request 13.
  • the storage unit 209 includes data created as a result of preprocessing by the preprocessing unit 205, analysis results by the analysis unit 206, annotation-related data acquired from a public database in advance, and data related to mutation information (hereinafter, collectively referred to as “annotation data”). .) Etc.
  • the storage unit 209 includes a file DB 211, an array DB 212, a coverage DB 213, various information DBs 214, and a cache 215.
  • the file DB 211 is storage means for storing file information of the input genome data 11 of a predetermined chromosome sample.
  • the file information here refers to chromosome sample status information, chromosome sample chromosome information, tag information used for management, bookmark information (chromosome and base coordinates), layout information (chromosome sample data set), etc. It is.
  • the tag information is information for facilitating the search of the genome data 11.
  • Bookmark information is information consisting of a combination of chromosomes and base coordinates. By storing the bookmark information, it is possible to read the genome data 11 of a desired chromosome sample at high speed by specifying the chromosome and base coordinates.
  • the layout information is a data set of chromosome samples. By saving the layout information, it is possible to read a data set of chromosome samples to be displayed at a time.
  • the sequence DB 212 is a storage unit that stores information of reference sequences (known genome sequences) for each chromosome acquired in advance from a public database or the like. Specifically, for each chromosome, the ATGC base sequence information of the reference sequence is stored, for example, as a byte string continuous at 1 byte per character. Thereby, it is possible to perform a high-speed search by designating the start position and end position of the base coordinates and random access to arbitrary coordinates.
  • reference sequences known genome sequences
  • the coverage DB 213 is storage means for storing coverage information between the input genome data 11 and the reference sequence of the chromosome corresponding to the genome data 11.
  • the coverage is for overlooking the amount of data, and is calculated by the preprocessing unit 205.
  • coverage is stored using chromosomes and base coordinates as keys. Thereby, high-speed search and random access to arbitrary coordinates are possible.
  • the coverage DB 213 will be described later in detail with reference to FIGS.
  • the various information DB 214 is a storage means for storing various genome information such as annotation data, mutation information, alignment of individual genome data 11, and the like.
  • Annotation data is data generated from public gene information such as RefSeq (Reference Sequence) acquired in advance from a public database or the like.
  • the mutation information is public mutation information such as dbSNP (Single Nucleotide Polymorphism) acquired in advance from a public database or the like.
  • the alignment is the base coordinates of each piece of fragmented data (hereinafter also referred to as “fragmented data”) constituting the input genome data 11, and the base coordinates are determined by referring to a reference sequence.
  • various information DB 214 similar to the coverage DB 213, various information is stored using chromosomes and base coordinates as keys. Therefore, high-speed search and random access to arbitrary coordinates are possible.
  • the various information DB 214 will be described later in detail with reference to FIG.
  • the various information DB 214 also stores new (improved) annotation data generated as a result of analysis performed by the analysis unit 206 using the annotation data stored in the various information DB 214.
  • annotation data for the genome data 11 generated by the preprocessing of the preprocessing unit 205 is also stored.
  • the cache 215 is a storage unit for caching data necessary when the analysis unit 206 performs analysis or the output data creation unit 207 creates output data. That is, the cache 215 is for accessing data at high speed.
  • the data receiving unit 201, the request receiving unit 203, and the data transmitting unit 208 are realized by the CPU 21 and the interface device 24 of FIG.
  • the request issuing unit 202, the task control unit 204, the preprocessing unit 205, the analysis unit 206, and the output data creation unit 207 are realized by the CPU 21 in FIG.
  • the storage unit 209 is realized by the CPU 21, the memory 22, and the SSD 23 in FIG.
  • the coverage DB 213 and various information DBs 214 store data for visualization of a plurality of different layers for the genome data 11 generated by the preprocessing by the preprocessing unit 205 or the like. Then, the output data creation unit 207 selects the visualization data for the layer corresponding to the output request 13, and creates output data based on the visualization data for the selected layer. As a result, seamless visualization can be easily performed using a Web browser mechanism without requiring recalculation of output data or the like.
  • the output data creation unit 207 has a so-called prefetch function for creating display data with a slightly wider data range than the display data of the data range currently displayed in the display area 68 (see FIG. 6) when creating display data. Shall. Thereby, for example, even when the display range is changed by dragging the mouse (input device 34 in FIG. 4) on the display area 68 up and down, left and right, seamless visualization can be performed according to the change of the display range. .
  • FIG. 4 is a diagram illustrating a hardware configuration example of the client device according to the present embodiment.
  • the 4 includes a CPU 31, a memory 32, an SSD 33, an input device 34, a display device 35, and an interface device 36 connected via a bus 37.
  • the CPU 31, the memory 32, the SSD 33, and the interface device 36 are the same as the CPU 21, the memory 22, the SSD 23, and the interface device 24 shown in FIG.
  • the input device 34 is a device for the user to input various information, such as a keyboard and a mouse.
  • the display device 35 is a display, for example.
  • FIG. 5 is a diagram illustrating a functional configuration example of the client device according to the present embodiment.
  • 5 includes an input unit 301, a request transmission unit 302, a data reception unit 303, and an output unit 304.
  • the input unit 301 inputs input information for the input device 34 (see FIG. 4).
  • Input information here refers to instruction information related to analysis such as ChIP-Seq, RNA-Seq, mutation analysis, designation of display target chromosome and base coordinates, designation of enlargement or reduction, designation of chromosome sample to be displayed, search Instruction information related to the display of the instruction or the like, or the output data format (table format or PDF format) of the report data to be output and the designation information such as the gene to be output.
  • the request transmission unit 302 issues an analysis request 12 and an output request 13 according to the input information in the input unit 301 and transmits the analysis request 12 and the output request 13 to the genome analysis device 2.
  • the data receiving unit 303 receives the response 14 transmitted from the genome analysis device 2.
  • the output unit 304 analyzes the response 14 received by the data receiving unit 303 and displays the display data on the display device 35 (see FIG. 4) or outputs report data.
  • the input unit 301 and the output unit 304 are realized by the CPU 31 in FIG.
  • the request transmission unit 302 and the data reception unit 303 are realized by the CPU 31 and the interface device 36 of FIG.
  • FIG. 6 is an example of a screen displayed on the client device according to the present embodiment.
  • a chromosome designation field 61 for designating the chromosome to be displayed, an input field 62 for inputting the start position of the base coordinate range to be displayed, and an input field for inputting the end position.
  • an enlargement button 64 for inputting an enlargement instruction
  • a reduction button 65 for inputting a reduction instruction
  • a keyword input field 66 for inputting a search keyword
  • a chromosome sample designation field 67 for designating a chromosome sample to be displayed
  • a display area 68 in which display data is displayed is included.
  • the user can input various instruction information related to the display.
  • FIG. 7 is a diagram for explaining a task control unit, a preprocessing unit, an analysis unit, and an output data creation unit of the genome analysis apparatus 2 according to the present embodiment.
  • parallel distributed processing performed by the task control unit 204, the preprocessing unit 205, the analysis unit 206, and the output data creation unit 207 of FIG. 3 will be described.
  • the task control unit 204 includes a request queue 241, a process manager 242, and a task queue 243.
  • the request queue 241 is a FIFO queue that stores requests issued by the request issuing unit 202, such as requests, analysis requests 12, and output requests 13 (see FIG. 3).
  • the process manager 242 takes out the request stored in the request queue 241 and generates one or more tasks based on the request.
  • the generated task includes a parallel task that is executed without waiting for the end of execution of the previous task, and a sequential task that is executed after the end of execution of the previous task.
  • the generated task is stored in the task queue 243 which is a FIFO type queue in principle.
  • the pre-processing unit 205 includes one or more worker instances 251.
  • Each worker instance 251 has a worker process 252 that sequentially executes executable tasks among tasks stored in the task queue 243 and actually executes them, and a worker manager 253 that monitors the operation of the worker processes 252.
  • the number of worker instances 251 dynamically increases or decreases according to the number of tasks stored in the task queue 243, and the tasks stored in the task queue 243 are processed in parallel and distributed. The same applies to the worker instance 261, worker process 262, and worker manager 263 of the analysis unit 206, and the worker instance 271, worker process 272, and worker manager 273 of the output data creation unit 207.
  • the task control unit 204 generates and manages tasks based on the request, and the preprocessing unit 205, the analysis unit 206, and the output data creation unit 207 perform parallel and distributed processing on the generated tasks. Thereby, high-speed processing is possible.
  • each request stored in the request queue 241 is independent, and a plurality of requests are processed in parallel.
  • each worker instance 251 is independent and is a simple mechanism that only processes what can be processed by its own instance, so it can be easily scaled out.
  • the request queue 241 and the task queue 243 are not limited to FIFO type queues. Other types of queues may be used.
  • FIG. 8 is a flowchart showing an example of the control logic related to the preprocessing of the genome analyzing apparatus 2 according to this embodiment.
  • the genome analysis apparatus 2 receives genome data 11 in the SAM format or the BAM format will be described with reference to FIGS. 3 and 7 as appropriate.
  • step S11 the data receiving unit 201 receives the SAM format or BAM format genome data 11 (S11). Then, the request issuing unit 202 internally issues a request for storing the received genome data 11 in the storage unit 209.
  • step S12 the task control unit 204 (process manager 242) generates four tasks, a sort task, an index assignment task, a coverage calculation task, and a DB output task for the genome data 11 based on the request (step S12). S12). The generated task is stored in the task queue 243.
  • the sort task is a task for rearranging each fragmented data of the input genome data 11 in the order of the base sequence.
  • the index assignment task is a task for assigning an index to each fragmented data rearranged by the sort task. These sort task and index assignment task are tasks for speeding up the processing.
  • the coverage calculation task is a task for calculating the coverage between the reference sequence (a known genome sequence) and the genome data 11.
  • the DB output task is a task for outputting the calculated coverage to the storage unit 209 (coverage DB 213).
  • step S13 the preprocessing unit 205 (a plurality of worker instances 251) executes a sort process on the genome data 11 (S13), and then proceeds to step S14 to execute an index assignment process (S14).
  • step S15 the preprocessing unit 205 (a plurality of worker instances 251) executes the coverage calculation of the genome data 11 and the output to the storage unit 209 in parallel (S15).
  • the genome analysis device 2 calculates the coverage of the input genome data 11 in the SAM format or BAM format and outputs it to the coverage DB 213.
  • FIG. 9 is a diagram for explaining an example of the process of step S15 of FIG.
  • the base coordinates and the fragmentation data of the chromosome sample X which is the genome data 11 mapped to the reference sequence of a predetermined chromosome, are simply illustrated.
  • the leftmost base coordinate is 1 for convenience of explanation.
  • the preprocessing unit 205 calculates the coverage when the bin size is 1 (bin_1).
  • the bin size is the number of base units for which coverage is calculated. That is, here, the coverage of each base is calculated. In the example shown in FIG. 9, the coverage of each base of 0, 0, 0, 0, 1, 2, 3, 4, 4,.
  • the preprocessing unit 205 calculates the coverage when the bin size is doubled and the bin size is 2 (bin_2), that is, the coverage for every two bases.
  • the coverage may be halved, that is, the average value of the coverage may be calculated.
  • correction may be performed to avoid gaps in the numerical values of the coverage when the bin sizes are different. preferable.
  • it is assumed that correction for calculating the average value of coverage is performed (the same applies hereinafter). In the example shown in FIG. 9, the coverage for each of the two bases 0, 0, 1.5, 3.5, 4,.
  • the preprocessing unit 205 further doubles the bin size and calculates the coverage when the bin size is 4 (bin_4), that is, the coverage for every four bases. In the example shown in FIG. 9, coverage for each of the four bases 0, 2.5, 4, 5, 5.25,. Thereafter, the preprocessing unit 205 calculates the coverage by doubling the repetition bin size. The coverage calculated in this way is output to the coverage DB 213.
  • FIG. 10 is a diagram illustrating an example of the coverage DB of the genome analysis apparatus according to the present embodiment.
  • an example of the coverage DB 213 is indicated by a table 100 (hereinafter also referred to as “coverage table 100”).
  • the attributes of the coverage table 100 include bin size 101, base coordinates 102A, coverage 102B, base coordinates 103A, coverage 103B, base coordinates 104A, coverage 104B,.
  • the bin size 101 is the number of base units for which coverage is calculated. In FIG. 10, for convenience of explanation, the minimum value of the bin size 101 is 512.
  • the base coordinates 102A indicate the base coordinates of the coverage calculation target indicated by the coverage 102B by a combination of the start position and the end position.
  • the coverage 102B is a calculated coverage. The same applies to the base coordinates 103A, the coverage 103B, the base coordinates 104A, the coverage 104B,.
  • the coverage of bases at coordinates 1 to 512 when the bin size is 512 is “XX”, and the coverage of bases at coordinates 4097 to 6144 when the bin size is 2048 is “ ⁇ . ⁇ ”.
  • coverage and base coordinates are stored in the coverage table 100 in association with each different bin size.
  • Such a coverage table 100 is generated for each chromosome and for each chromosome sample (input genome data 11). Further, the coverage for each bin size stored in the coverage table 100 is an example of the aforementioned “data for visualization of a plurality of different layers for the genome data 11”.
  • the output data creation unit 207 displays the designated chromosome.
  • the coverage of the bin size corresponding to the chromosome sample and the base coordinate range is selected from the coverage table 100 and read.
  • the output data creation unit 207 creates display data for, for example, histogram display based on the coverage of the selected bin size.
  • the output data creation unit 207 creates display data having a slightly wider data range than the display data of the data range currently displayed in the display area 68 (see FIG. 6). .
  • seamless visualization can be performed according to the change of the display range. .
  • the output data creation unit 207 provides the coverage with the next smallest bin size (or the next largest bin size). Is read from the coverage table 100, and display data for histogram display is created based on the coverage. Thereby, even when the base coordinate range to be displayed is changed, the displayed coverage can be easily switched without recalculating the display data. Therefore, simple and seamless visualization is possible.
  • the process of calculating the coverage with the bin size doubled is repeated, but this is not a limitation. For example, it may be three times or more. Further, the preprocessing unit 205 may generate data for visualization of a plurality of different layers by using an index other than the bin size.
  • FIG. 11 is a diagram for explaining an example of various information DBs of the genome analysis apparatus according to the present embodiment.
  • annotation data is one of data stored in various information DBs 214, as an example.
  • the reference base is simply illustrated as having all base coordinates of 1 to 99999.
  • each node (bin0, bin1, bin2,...) Constituting the N-ary tree data structure 110A has the base coordinates (start position / end position) of the node and a pointer to the intermediate data structure 110B. Hold.
  • the intermediate data structure 110B holds a base coordinate position, a base length, and a pointer to the data body 110C.
  • the data body 110C holds the data bodies A, B, and C of each annotation data in an arbitrary length and an arbitrary format.
  • the base coordinate position, the base length, and the annotation data are stored in association with each node. That is, for each base coordinate range specified by the base coordinate position and the base length from the position, the base coordinate range and annotation data are stored in association with each other.
  • N-ary tree data structure 110A an intermediate data structure 110B, and a data body 110C are generated for each chromosome and for each chromosome sample (genome data 11).
  • annotation data of each base coordinate range is an example of the above-mentioned “data for visualization of a plurality of different layers for the genome data 11”.
  • the output data creation unit 207 displays the designated chromosome.
  • the annotation data of the node corresponding to the chromosome sample and the base coordinate range is selected from various information DBs 214 and read.
  • the output data creation unit 207 creates display data for displaying the annotation data of the selected node.
  • the display data creation unit 207 creates display data having a slightly wider data range than the display data of the data range currently displayed in the display area 68 (see FIG. 6). . Thereby, for example, even when the display range is changed by dragging the mouse (input device 34 in FIG. 4) on the display area 68 up and down, left and right, seamless visualization can be performed according to the change of the display range. .
  • the output data creation unit 207 displays the annotation data of the child node of the own node (or the parent node of the own node). And create display data to display the annotation data.
  • the displayed annotation data can be easily switched without recalculating the display data. Therefore, seamless visualization is possible.
  • the N-ary tree data structure 110A has a tri-ary tree structure
  • the present invention is not limited to this case.
  • a binary tree may be used.
  • the various information DBs 214 may store data for visualization of a plurality of different layers using a data structure other than the N-ary tree data structure.
  • annotation data held in the data body 110C is public gene information such as RefSeq acquired in advance from a public database as described above. Therefore, when the gene information in the public database or the like is updated, it is only necessary to update only the data body 110C without changing the structure of the N-ary tree data structure 110A and the intermediate data 110B. Also, new (improved) annotation data generated as a result of analysis performed by the analysis unit 206 using the annotation data stored in the various information DBs 214 is stored in the data body 110C. In addition, annotation data for the genome data 11 generated by the preprocessing of the preprocessing unit 205 is also stored.
  • the various information DB 214 may store a gene and annotation data in association with each gene.
  • the annotation data for each gene is an example of the “data for visualization of a plurality of different layers for the genome data 11” described above. Details will be described later with reference to FIGS.
  • FIG. 12 is a flowchart showing an example of control logic related to output data creation of the genome analyzing apparatus 2 according to the present embodiment.
  • control logic related to output data creation of the genome analyzing apparatus 2 according to the present embodiment.
  • FIGS. 3 and 7 an example of processing when the genome analysis apparatus 2 receives the output request 13 will be described with reference to FIGS. 3 and 7 as appropriate.
  • step S21 the request receiving unit 203 receives the output request 13 (S21). Then, the process proceeds to step S22, and the task control unit 204 (process manager 242) generates two tasks, a data selection task and an output data creation task, based on the request (S22). The generated task is stored in the task queue 243.
  • the data selection task is a task for selecting and reading data from the storage unit 209 according to the description content of the output request 13.
  • the description content of the output request 13 includes a display target chromosome and base coordinates, an instruction to enlarge or reduce, a specification of a chromosome sample to be displayed, and an instruction to search.
  • the description content of the output request 13 includes specification of an output data format (table format or PDF format) of report data to be output, a gene to be output, and the like.
  • the output data creation task is a task for creating output data based on the data selected and read by the data selection task.
  • step S23 the output data creation unit 207 (a plurality of worker instances 271) selects and reads data from the storage unit 209 (S23).
  • step S24 output data is created based on the selected and read data (S24).
  • step S25 the data transmission unit 208 transmits the output data created by the output data creation unit 207 to the client device 3 as a response 14 to the output request 13 (S25).
  • the genome analysis device 2 visualizes genome information by transmitting output data related to the genome data 11 in response to the output request 13 from the client device 3.
  • the visualization data of the layer corresponding to the output request 13 is selected from the storage unit 209.
  • the output data is created based on the visualization data of the selected layer. Therefore, in particular, when the output data is display data and the display range is changed after the genome data 11 is once displayed in the predetermined display range, the mechanism of the Web browser is performed without recalculating the display data. It is possible to easily and seamlessly visualize using.
  • FIGS. 13 to 17 are diagrams showing first to fifth specific examples of display screens provided by the genome analyzing apparatus according to the present embodiment.
  • the chromosome A is displayed in the chromosome designation field 61, “27,135,000” is displayed in the start position input field 62 of the base coordinate range to be displayed, “27,160,000” is displayed in the end position input field 63, and the chromosome sample designation field 67 is displayed. Chromosome samples X, Y, and Z are input.
  • the coverage of the chromosome samples X, Y, Z and the chromosome A in the base coordinate range of 27,135,000 to 27,160,000 (base number 25,000) is displayed as a histogram. In this way, a large number of chromosome samples can be compared on one screen.
  • the output data creation unit 207 in FIG. 3 selects a coverage (see FIG. 10) whose bin size is larger than the coverage used in this screen display, Display data is created based on the coverage of the selected bin size. As a result, the screen shifts to a screen as shown in FIG.
  • the output data creation unit 207 in FIG. 3 has a coverage whose bin size is smaller than the coverage used in this screen display (see FIG. 10). ) To create display data based on the coverage of the selected bin size. However, you may transfer to a screen like FIG.15 or FIG.16.
  • the output data creation unit 207 in FIG. 3 may create display data indicating the mapping mode of each fragmented data.
  • the bases constituting the fragmentation data of the chromosome samples X, Y, and Z are displayed in a distinguishable manner.
  • the output data creation unit 207 of FIG. 3 may create display data that shows each base constituting each fragmented data in a distinguishable manner.
  • the reference sequence (bottom part) of chromosome A, the base sequence of predetermined fragmentation data of chromosome samples X, Y, and Z and the annotation data are displayed in a distinguishable manner.
  • the output data creation unit 207 in FIG. 3 may create display data that indicates the reference sequence, the base sequence of the fragmented data, and the annotation data in a distinguishable manner. Note that the output data creation unit 207 in FIG. 3 also creates display data that indicates the reference sequence, the base sequence of the fragmented data, and the annotation data in a manner in which the annotation data can be distinguished, even when displaying in a wide area as shown in FIGS. can do.
  • FIG. 18 and FIG. 19 are diagrams showing first and second specific examples of report data output from the genome analyzing apparatus according to the present embodiment.
  • Report data 200 relating to colorectal cancer is shown.
  • Report data 200 includes gene name 201, chromosome position 202, exon 203, mutation 204, dbSNP 205, mutation frequency 206 of the target gene, mutation frequency 207 within the target gene, drug responsiveness 208, drug name 209, and source 210. Includes each column.
  • Each information in each column is annotation data stored in association with the gene “KRAS” in the various information DB 214 (see FIG. 3).
  • the first line of the report data 200 describes that the base position in the chromosome of the gene “KRAS” indicated by the gene name 201 is “12p12.1” (chromosome position 202).
  • the frequency of occurrence of the mutation indicated by the mutation 204 is “36-40%” (mutation frequency 206) and the target gene “KRAS” It is described that the frequency of mutation is “33.5-34.4%” (mutation frequency 207).
  • rs112445441 described in the dbSNP 205 indicates an identification number of information related to the mutation of the gene in the dbSNP which is a database of SNP ((Single Nucleotide Polymorphism). Since it is the same as that of the 1st line, description is abbreviate
  • the second specific example shown in FIG. 19 shows report data 300 relating to breast cancer.
  • Report data 300 includes gene name 301, chromosome position 302, exon 303, mutation 304, dbSNP 305, target gene mutation frequency 306, mutation frequency 307 within the target gene, drug responsiveness 308, drug name 309, and source 310 Includes each column.
  • Each information in each column is annotation data stored in association with the gene “PIK3CA” in the various information DB 214 (see FIG. 3).
  • the first line of the report data 300 describes that the base position in the chromosome of the gene “PIK3CA” indicated by the gene name 301 is “3q26.3” (chromosome position 302).
  • the frequency of occurrence of the mutation indicated by mutation 304 is “26%” (mutation frequency 306), and within the target gene “PIK3CA” It is described that the mutation frequency is “ ⁇ 11%” (mutation frequency 307).
  • “rs12193273” described in the dbSNP 305 indicates an identification number of information relating to the mutation of the gene in the dbSNP that is the SNP database. Since the second and third lines of the report data 300 are the same as the first line, description thereof is omitted.
  • the mutation of the gene “PIK3CA” shown in the first to third lines in the report data 300 there is a combined use of two types of medicines “trastuzumab” and “lapatinib” shown by the drug name 309, and this drug has no effect It is described.
  • the drug responsiveness 308 describes the response of the drug.
  • the source of the information regarding the responsiveness of the medicine is a website on the Internet indicated by the source 310.
  • the report data 200 and 300 described with reference to FIGS. 18 and 19 are the following steps when the output request 13 is a request related to the output of report data in the process according to step S21 in FIG. It is created by the processing related to S22 to S24.
  • step S23 the output data creation unit 207 (a plurality of worker instances 271) selects and reads data from the storage unit 209 (S23).
  • annotation data associated with a gene for example, “KRAS” or “PIK3CA” is selected and read.
  • report data such as report data 200 and 300 is created based on the selected and read data (S24).
  • the output data creation unit 207 creates report data 200 and 300 as shown in FIG. 18 and FIG. 19 when a gene mutation corresponding to a predetermined disease is detected as a result of the analysis by the genome analyzer 2. Good.
  • an operator of the client apparatus 3 for example, a doctor, can use the created report data for medical diagnosis of a predetermined disease (for example, “colon cancer” or “breast cancer”).
  • the annotation data for each gene stored in the various information DBs 214 is not limited to the data illustrated in FIG. 18 and FIG. For example, it may be data indicating past diagnosis information related to the gene, basic experiment information, or patent document information deeply related to drugs.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

大量の断片化されたゲノム塩基配列からなるゲノムデータの解析を行うとともに、ネットワークを介して接続されたクライアント装置からの出力リクエストに応じて、ゲノムデータに関する出力データを送信するゲノム解析装置であって、ゲノムデータについて、複数の異なるレイヤーの可視化用データを記憶する記憶手段と、クライアント装置からの出力リクエストを受信するリクエスト受信手段と、出力リクエスト受信手段が出力リクエストを受信した場合に、記憶手段から出力リクエストに対応するレイヤーの可視化用データを選択し、選択されたレイヤーの可視化用データに基づいて出力データを作成する出力データ作成手段と、を備える。

Description

ゲノム解析装置及びゲノム可視化方法 参照による取り込み
 本出願は、2015年4月30日に出願された日本特許出願特願2015-093739の優先権を主張し、その内容を参照することにより、本出願に取り込む。
 本発明は、ゲノム解析装置及びゲノム可視化方法に関する。
 1990年代、生物がもつDNAやRNAに含まれる全遺伝情報、すなわちゲノムの全塩基配列を解析することによって、生物の原理的理解、更には生物の疾患研究、起源や進化の研究を目的とするゲノムプロジェクトが開始された。
 解析対象であるゲノムの塩基配列は、1サンプル当たりのデータ量が極めて膨大なものである。近年では、ゲノムの塩基配列を超高速且つ低コストに解読することが可能な次世代シークエンサーと呼ばれる配列解読装置が開発され、利用されるようになってきた。
 次世代シークエンサーは、解析対象のDNAやRNAを非常に短い断片にし、それらを並列に読み込むことでDNAやRNAを高速に読み取るとともに、読み込まれた各断片を解析して各断片の塩基配列を決定する。その後、決定された各断片の塩基配列情報を、リード配列と呼ばれる配列データ、例えばFASTQ形式のデータとして出力する。又は、リード配列を既知のゲノムの塩基配列(以下、「参照配列」ともいう。)にアライメント(マッピング)させたデータ、例えばSAM形式やBAM形式のデータを出力する(例えば、特許文献1参照)。
 特許文献1には、複数のリード配列の中から複数の高品質リード配列を特定する工程と、複数の高品質リード配列から複数のユニークリード配列を抽出する工程と、複数のユニークリード配列を参照サンプルに対応する参照配列と比較する工程とによって、高品質なアライメントを可能にする技術が開示されている。
 この次世代シークエンサーから出力されたFASTQ形式、SAM形式、BAM形式等の染色体サンプルのデータ(以下、総称する場合、「ゲノムデータ」ともいう。)は、ChIP-Seq(Chromatin Immunoprecipitation-sequence)やRNA-Seq等の各種解析に利用される。
 一方、ChIP-SeqやRNA-Seq等の解析結果やゲノムの塩基配列の視覚的な把握を可能にする可視化技術も開発されている。例えばIntegrative Genomics Viewer(米Broad Institute)、Integrated Genome Browser(米Affymetrix社)、UCSC Genome Browser(米UCSC)、Gbrowse等のビューワである。
 これらの可視化技術によれば、多数のリード配列をアセンブルすることで再構築されるゲノムの塩基配列と参照配列との共通性・差異等を視覚的に比較することができる。
特表2014-505935号公報
 ところで、上記UCSC Genome Browser、GbrowseのWebブラウザ型のビューワでは、一旦所定の表示範囲でゲノムの塩基配列を表示させた後にその表示範囲を変更するような場合、表示範囲の更新に多くの時間を要し、Webブラウザ上でのシームレスな可視化を行うことができなかった。すなわち、Webブラウザ上でユーザによって表示範囲変更指示が入力されると、入力された表示範囲変更指示をWebブラウザから受信したWebサーバやAPIサーバが、当該指示に応じて多数のリード配列を基に表示データを再計算し、再計算された表示データをWebブラウザに送信する工程を必要とするものであった。そのため、表示範囲の変更毎に多くの時間を要し、Webブラウザ上でのシームレスな可視化を行うことができなかった。
 一方、上記Integrative Genomics Viewer、Integrated Genome Browserのスタンドアロン型のビューワでは、一定程度シームレスな可視化を行うことはできるものの、このようなビューワがインストールされるコンピュータ装置自体に高いスペックが要求されたり、別途特別なソフトウェアをインストールしたりする必要があった。
 本発明は、上記のような事情に鑑みてなされたものであって、Webブラウザの仕組みを用いて、簡易にシームレスな可視化を可能とするゲノム解析装置及びゲノム可視化方法を提供することを目的とする。
 上記の目的を達成するために、本発明に係るゲノム解析装置は、大量の断片化されたゲノム塩基配列からなるゲノムデータの解析を行うとともに、ネットワークを介して接続されたクライアント装置からの出力リクエストに応じて、前記ゲノムデータに関する出力データを送信するゲノム解析装置であって、前記ゲノムデータについて、複数の異なるレイヤーの可視化用データを記憶する記憶手段と、前記クライアント装置からの出力リクエストを受信するリクエスト受信手段と、前記出力リクエスト受信手段が前記出力リクエストを受信した場合に、前記記憶手段から当該出力リクエストに対応するレイヤーの可視化用データを選択し、選択されたレイヤーの可視化用データに基づいて出力データを作成する出力データ作成手段と、を備えたことを特徴とする。
 また上記の目的を達成するために、本発明に係るゲノム可視化方法は、大量の断片化されたゲノム塩基配列からなるゲノムデータの解析を行うとともに、前記ゲノムデータに関するデータを記憶する記憶部を有し、ネットワークを介して接続されたクライアント装置からの出力リクエストに応じて、前記ゲノムデータに関する出力データを送信するゲノム解析装置におけるゲノム可視化方法であって、前記記憶部は、前記ゲノムデータについて、複数の異なるレイヤーの可視化用データを記憶し、前記ゲノム可視化方法は、前記クライアント装置からの出力リクエストを受信するリクエスト受信工程と、前記出力リクエスト受信工程で前記出力リクエストを受信した場合に、前記記憶部から当該出力リクエストに対応するレイヤーの可視化用データを選択し、選択されたレイヤーの可視化用データに基づいて出力データを作成する出力データ作成工程と、を含むことを特徴とする。
 本発明によれば、Webブラウザの仕組みを用いて、簡易にシームレスな可視化を可能とすることができる。
本実施形態に係るゲノム解析システムのシステム構成例を示す図である。 本実施形態に係るゲノム解析装置のハードウェア構成例を示す図である。 本実施形態に係るゲノム解析装置の機能構成例を示す図である。 本実施形態に係るクライアント装置のハードウェア構成例を示す図である。 本実施形態に係るクライアント装置の機能構成例を示す図である。 本実施形態に係るクライアント装置に表示される画面の一例である。 本実施形態に係るゲノム解析装置のタスク制御部、前処理部、解析部及び表示データ作成部を説明するための図である。 本実施形態に係るゲノム解析装置の前処理に係る制御ロジックの一例を示すフローチャートである。 図8のステップS15の処理の一例を説明するための図である。 本実施形態に係るゲノム解析装置のカバレッジDBの一例を示す図である。 本実施形態に係るゲノム解析装置の各種情報DBの一例を説明するための図である。 本実施形態に係るゲノム解析装置の出力データ作成に係る制御ロジックの一例を示すフローチャートである。 本実施形態に係るゲノム解析装置の提供する表示画面の第1具体例である。 本実施形態に係るゲノム解析装置の提供する表示画面の第2具体例である。 本実施形態に係るゲノム解析装置の提供する表示画面の第3具体例である。 本実施形態に係るゲノム解析装置の提供する表示画面の第4具体例である。 本実施形態に係るゲノム解析装置の提供する表示画面の第5具体例である。 本実施形態に係るゲノム解析装置の出力するレポートデータの第1具体例である。 本実施形態に係るゲノム解析装置の出力するレポートデータの第2具体例である。
 以下、本発明の実施形態について説明する。
 図1は、本実施形態に係るゲノム解析システムのシステム構成例を示す図である。図1に示すゲノム解析システム1は、インターネット等のネットワーク4を介して接続されるゲノム解析装置2、クライアント装置3を有する。
 ゲノムデータ11は、次世代シークエンサーから出力される大量の断片化された塩基配列情報、例えばFASTQ形式のリード配列と呼ばれる配列データや、リード配列を参照配列にマッピングさせたデータ、例えばSAM形式、BAM形式のデータである。このゲノムデータ11はゲノム解析装置2に入力される。
 ゲノム解析装置2は、ゲノムデータ11を入力し、入力されたゲノムデータ11に対してChIP-Seq、RNA-Seq、変異解析等の各種解析を行う装置である。このゲノム解析装置2は、ネットワーク4を介して接続されたクライアント装置3からの解析リクエストに応じて、当該解析リクエストに係る解析を行うアプリケーションサーバとして機能する。
 またゲノム解析装置2は、クライアント装置3からの出力リクエストに応じて、ゲノムデータ11に関する出力データを作成し、クライアント装置3に送信する。ここでいう出力データとは、Webページデータ(以下、「表示データ」ともいう。)や、解析結果等を表形式やPDF形式で表したレポートデータである。特に出力データが表示データである場合、ゲノム解析装置2はWebサーバとして機能することとなる。
 クライアント装置3は、当該装置上でユーザによって入力された解析リクエストをゲノム解析装置2に対して送信する。またクライアント装置3は、ゲノム解析装置2に対して出力リクエストを送信する。ここでいう出力リクエストとは、上記の表示データの表示に係るリクエスト(以下、「表示リクエスト」ともいう。)や、上記のレポートデータの出力に係るリクエストである。特に出力リクエストが表示リクエストである場合、クライアント装置3はWebクライアントとして機能し、ゲノム解析装置2から受信した表示データを表示するWebブラウザ型のビューワを有する。
 以上に示す構成により、本実施形態に係るゲノム解析システム1では、ゲノム解析装置2がゲノムデータ11を解析し、解析結果等を示す出力データをクライアント装置3に送信する。なお、ゲノム解析装置2は、クラウド上に構築されるサーバ群であってもよいし、オンプレミスのサーバであってもよい。
 図2は、本実施形態に係るゲノム解析装置2のハードウェア構成例を示す図である。なお、以下の説明において、前述と同様の構成要素については、同一の符号を付して重複する説明を適宜省略する。
 図2に示すゲノム解析装置2は、バス25を介して接続されたCPU(Central Processing Unit)21、メモリ22、SSD(Solid State Drive)23、インターフェース装置24を備える。CPU21は、メモリ22に記憶された各種プログラムを実行する中央演算装置である。メモリ22は、CPU21によって実行されるプログラム及びプログラムによって使用されるデータを記憶するRAM(Random Access Memory)等の記憶装置である。SSD23は、各種データ等を記憶する記憶装置である。HDD(Hard Disk Drive)であってもよい。インターフェース装置24は、ネットワーク4(図1参照)等に接続するためのインターフェース装置である。
 なお、ゲノム解析装置2は、物理的に1台のコンピュータである場合に限定されるものではない。複数台のコンピュータを組み合わせることにより構成されてもよいし、仮想化技術を用いることによりクラウド上に仮想的に設けられた仮想サーバであってもよい。
 図3は、本実施形態に係るゲノム解析装置2の機能構成例を示す図である。
 図3に示すゲノム解析装置2は、データ受信部201、リクエスト発行部202、リクエスト受信部203、タスク制御部204、前処理部205、解析部206、出力データ作成部207、データ送信部208、記憶部209を有する。
 データ受信部201は、大量の断片化されたゲノム塩基配列からなる、所定の染色体サンプルのゲノムデータ11を受信する。受信の形態は、ネットワーク4を介して接続され、ゲノムデータ11が格納されたコンピュータ装置(図1では不図示)からの手動又は自動アップロードによって行われてもよいし、クラウド上のゲノムデータ11のインポートによって行われてもよい。
 リクエスト発行部202は、データ受信部201がゲノムデータ11を受信した場合に、受信したゲノムデータ11を記憶部209に記憶するためのリクエストを内部的に発行する。
 リクエスト受信部203は、クライアント装置3から送信された解析リクエスト12、出力リクエスト13を受信する。解析リクエスト12とは、ChIP-Seq、RNA-Seq、変異解析や、所定の疾患、例えば大腸がんや乳がんについての解析等の解析に係るリクエストである。出力リクエスト13とは、表示リクエストや、レポートデータの出力に係るリクエストである。表示リクエストとは、表示対象の染色体及び塩基座標の指定、拡大又は縮小の指示、表示させる染色体サンプルの指定、検索の指示等が記述されたものである。一方、レポートデータの出力に係るリクエストとは、出力データ形式(表形式やPDF形式)並びに出力対象の遺伝子の指定等が記述されたものである。
 タスク制御部204は、リクエスト発行部202がリクエストを発行した場合やリクエスト受信部203が解析リクエスト12、出力リクエスト13を受信した場合に、タスクの生成・管理を行う。
 特にリクエスト発行部202がリクエストを発行した場合には、前処理部205が実行するタスクを生成する。また、リクエスト受信部203が解析リクエスト12を受信した場合には、解析部206が実行するタスクを生成する。更に、リクエスト受信部203が出力リクエスト13を受信した場合には、出力データ作成部207が実行するタスクを生成する。
 前処理部205は、ゲノムデータ11に対する前処理を並列分散処理によって行う。ここでいう前処理とは、解析部206が行う解析の前処理である。前処理部205による前処理の結果生成される各種データは、記憶部209に記憶される。なお、ゲノムデータ11がFASTQ形式の配列データである場合には、前処理部205は、記憶部209の配列DB212に記憶された参照配列の情報を読込んで、参照配列に対してFASTQ形式の配列データをマッピングする処理を前処理として行う。
 解析部206は、記憶部209に記憶されたデータに対して、解析リクエスト12に係る解析を並列分散処理によって行う。解析部206による解析結果は、記憶部209に記憶される。
 出力データ作成部207は、記憶部209に記憶されたデータを基に、出力リクエスト13に係る出力データの作成を並列分散処理によって行う。
 データ送信部208は、出力データ作成部207によって作成された出力データを、出力リクエスト13に対するレスポンス14としてクライアント装置3に対して送信する。
 記憶部209は、前処理部205による前処理の結果作成されるデータや解析部206による解析結果、予め公開データベースから取得したアノテーションや変異情報に関するデータ(以下、総称する場合「アノテーションデータ」ともいう。)等を記憶する。この記憶部209は、ファイルDB211、配列DB212、カバレッジDB213、各種情報DB214、キャッシュ215から構成される。
 ファイルDB211は、入力された所定の染色体サンプルのゲノムデータ11のファイル情報を記憶する記憶手段である。なお、ここでいうファイル情報とは、染色体サンプルの状態情報、染色体サンプルの染色体の情報、管理に用いられるタグの情報、ブックマーク情報(染色体と塩基座標)、レイアウト情報(染色体サンプルのデータセット)等である。
 タグの情報は、ゲノムデータ11の検索を容易にするための情報である。ブックマーク情報は、染色体及び塩基座標の組合せからなる情報である。このブックマーク情報を保存することにより、染色体及び塩基座標の指定によって所望の染色体サンプルのゲノムデータ11を高速に読み込むことが可能になる。レイアウト情報は、染色体サンプルのデータセットである。レイアウト情報を保存することにより、表示したい染色体サンプルのデータセットを一度に読み込むことが可能になる。
 配列DB212は、予め公開データベース等から取得した染色体毎の参照配列(既知のゲノムの配列)の情報を記憶する記憶手段である。具体的には染色体毎に、参照配列のATGCの塩基配列情報を例えば1文字当り1バイトで連続したバイト列として記憶する。これにより、塩基座標のスタート位置及びエンド位置を指定することでの高速な検索や任意の座標へのランダムアクセスが可能となる。
 カバレッジDB213は、入力されたゲノムデータ11と、当該ゲノムデータ11に対応する染色体の参照配列とのカバレッジの情報を記憶する記憶手段である。カバレッジはデータの量を俯瞰するためのものであり、前処理部205によって計算される。このカバレッジDB213では、カバレッジは染色体及び塩基座標をキーにして記憶される。これにより、高速な検索や任意の座標へのランダムアクセスが可能となる。カバレッジDB213については、図9、図10を用いて詳細に後述する。
 各種情報DB214は、アノテーションデータや変異情報、個々のゲノムデータ11のアライメント等の様々なゲノムの情報を記憶する記憶手段である。
 アノテーションデータとは、予め公開データベース等から取得した例えばRefSeq(Reference Sequence)等の公開の遺伝子情報から生成されるデータである。変異情報とは、予め公開データベース等から取得した例えばdbSNP(Single Nucleotide Polymorphism)等の公開の変異情報である。アライメントとは、入力されたゲノムデータ11を構成する各断片化されたデータ(以下、「断片化データ」ともいう。)の塩基座標であり、この塩基座標は参照配列を参照することで決定される。
 この各種情報DB214では、カバレッジDB213と同様に、各種情報は染色体及び塩基座標をキーにして記憶される。そのため、高速な検索や任意の座標へのランダムアクセスが可能となる。各種情報DB214については、図11を用いて詳細に後述する。
 なお、この各種情報DB214には、解析部206がこの各種情報DB214に記憶されたアノテーションデータを利用して解析した結果生成される新たな(改良された)アノテーションデータ等も記憶される。また、前処理部205の前処理によって生成されるゲノムデータ11に対するアノテーションデータも記憶される。
 キャッシュ215は、解析部206が解析を行ったり出力データ作成部207が出力データを作成したりする際に必要なデータをキャッシュするための記憶手段である。すなわち、キャッシュ215はデータに高速にアクセスするためのものである。
 なお、上記の各構成要素のうち、データ受信部201、リクエスト受信部203及びデータ送信部208は、図2のCPU21及びインターフェース装置24によって実現される。リクエスト発行部202、タスク制御部204、前処理部205、解析部206、出力データ作成部207は、図2のCPU21によって実現される。記憶部209は、図2のCPU21、メモリ22及びSSD23によって実現される。
 また、カバレッジDB213や各種情報DB214には、前処理部205による前処理等によって生成される、ゲノムデータ11についての複数の異なるレイヤーの可視化用データが記憶されている。そして、出力データ作成部207は、出力リクエスト13に対応するレイヤーの可視化用データを選択し、選択されたレイヤーの可視化用データに基づいて出力データを作成する。これにより、出力データの再計算等を必要とすることなく、Webブラウザの仕組みを用いて、簡易にシームレスな可視化を可能とすることができる。
 なお、出力データ作成部207は表示データを作成する場合、表示領域68(図6参照)に現に表示されるデータ範囲の表示データより、若干広いデータ範囲の表示データを作成するいわゆる先読み機能を備えるものとする。これにより、例えば表示領域68上でのマウス(図4の入力装置34)の上下左右へのドラッグにより表示範囲が変更された場合にも、表示範囲の変更に応じてシームレスな可視化が可能となる。
 図4は、本実施形態に係るクライアント装置のハードウェア構成例を示す図である。
 図4に示すクライアント装置3は、バス37を介して接続されたCPU31、メモリ32、SSD33、入力装置34、表示装置35、インターフェース装置36を備える。CPU31、メモリ32、SSD33、インターフェース装置36は、図2のCPU21、メモリ22、SSD23、インターフェース装置24と同様であるため、ここでは説明を省略する。入力装置34は、ユーザが各種情報を入力するための装置、例えばキーボード、マウスである。表示装置35は、例えばディスプレイである。
 図5は、本実施形態に係るクライアント装置の機能構成例を示す図である。
 図5に示すクライアント装置3は、入力部301、リクエスト送信部302、データ受信部303、出力部304を有する。
 入力部301は、入力装置34(図4参照)に対する入力情報を入力する。ここでいう入力情報とは、ChIP-Seq、RNA-Seq、変異解析等の解析に係る指示情報、表示対象の染色体及び塩基座標の指定、拡大又は縮小の指示、表示させる染色体サンプルの指定、検索の指示等の表示に係る指示情報、若しくは、出力したいレポートデータの出力データ形式(表形式やPDF形式)並びに出力対象の遺伝子等の指定情報等である。リクエスト送信部302は、入力部301における入力情報に応じて解析リクエスト12、出力リクエスト13を発行し、ゲノム解析装置2に対して送信する。データ受信部303は、ゲノム解析装置2から送信されたレスポンス14を受信する。出力部304は、データ受信部303が受信したレスポンス14を解析し、表示装置35(図4参照)に表示データを画面表示したり、レポートデータを出力したりする。
 なお、上記の構成要素のうち、入力部301及び出力部304は、図4のCPU31によって実現される。リクエスト送信部302及びデータ受信部303は、図4のCPU31及びインターフェース装置36によって実現される。
 図6は、本実施形態に係るクライアント装置に表示される画面の一例である。
 図6に示す表示画面60の一例では、表示させる染色体を指定するための染色体指定欄61、表示させる塩基座標範囲のスタート位置を入力するための入力欄62、エンド位置を入力するための入力欄63、拡大指示を入力するための拡大ボタン64、縮小指示を入力するための縮小ボタン65、検索キーワードを入力するためのキーワード入力欄66、表示させる染色体サンプルを指定するための染色体サンプル指定欄67、表示データが表示される表示領域68を含む。このような表示画面60において、ユーザは表示に係る各種指示情報を入力することができる。また、表示領域68上でマウス(入力装置34)を上下左右にドラッグすると、ドラッグ方向に応じた表示データが表示されるものとする。また、マウス(入力装置34)のスクロールボタンによって拡大・縮小も可能なものとする。
 図7は、本実施形態に係るゲノム解析装置2のタスク制御部、前処理部、解析部及び出力データ作成部を説明するための図である。ここでは、図3のタスク制御部204、前処理部205、解析部206及び出力データ作成部207が行う並列分散処理について説明する。
 図7に示すようにタスク制御部204は、リクエストキュー241、プロセスマネージャ242、タスクキュー243から構成される。
 リクエストキュー241には、リクエスト発行部202によって発行されたリクエスト、解析リクエスト12、出力リクエスト13(いずれも図3参照)等のリクエストが格納されるFIFO型のキューである。
 プロセスマネージャ242は、リクエストキュー241に格納されたリクエストを取り出して、当該リクエストに基づいて一つ以上のタスクを生成する。生成されるタスクは、前のタスクの実行終了を待たずに実行されるパラレルなタスクと、前のタスクの実行終了後に実行されるシーケンシャルなタスクとを含む。生成されたタスクは、原則FIFO型のキューであるタスクキュー243に格納される。
 前処理部205は、一つ以上のワーカーインスタンス251から構成される。各ワーカーインスタンス251は、タスクキュー243に格納されたタスクのうち実行可能なタスクを順番に取り出して実際に実行するワーカープロセス252と、ワーカープロセス252の動作を監視するワーカーマネージャ253とを有する。
 ワーカーインスタンス251の数は、タスクキュー243に格納されたタスクの個数等に応じて動的に増減し、タスクキュー243に格納されたタスクを並列分散処理する。なお、解析部206のワーカーインスタンス261、ワーカープロセス262、ワーカーマネージャ263、並びに、出力データ作成部207のワーカーインスタンス271、ワーカープロセス272、ワーカーマネージャ273についても同様である。
 以上に示すように、タスク制御部204はリクエストに基づいてタスクの生成・管理を行い、前処理部205、解析部206及び出力データ作成部207は、生成されたタスクを並列分散処理する。これにより、高速な処理が可能となっている。
 なお、リクエストキュー241に格納される各リクエストはそれぞれ独立しており、複数のリクエストが並列に処理される。また、各ワーカーインスタンス251はそれぞれ独立しており、自インスタンスで処理できるものを処理するだけの単純な機構であるため、簡単にスケールアウトすることができる。また、リクエストキュー241並びにタスクキュー243は、FIFO型のキューに限定されるものではない。その他の型のキューであっても良い。
 図8は、本実施形態に係るゲノム解析装置2の前処理に係る制御ロジックの一例を示すフローチャートである。以下、ゲノム解析装置2がSAM形式又はBAM形式のゲノムデータ11を受信した場合の前処理の一例を、適宜図3や図7を参照して説明する。
 まずステップS11において、データ受信部201は、SAM形式又はBAM形式のゲノムデータ11を受信する(S11)。そうすると、リクエスト発行部202が、受信したゲノムデータ11を記憶部209に記憶するリクエストを内部的に発行する。
 次にステップS12に進み、タスク制御部204(プロセスマネージャ242)は、当該リクエストに基づいて、ゲノムデータ11のソートタスク、インデックス付与タスク、カバレッジ計算タスク、DB出力タスクの四つのタスクを生成する(S12)。なお、生成されたタスクは、タスクキュー243に格納される。
 ここでソートタスクとは、入力されたゲノムデータ11の各断片化データを、塩基配列の順番に並べ替えるタスクである。インデックス付与タスクとは、ソートタスクによって並べ替えられた各々の断片化データにインデックスを付与するタスクである。これらソートタスク及びインデックス付与タスクは処理を高速化するためのタスクである。カバレッジ計算タスクとは、参照配列(既知のゲノムの配列)とゲノムデータ11とのカバレッジを計算するタスクである。DB出力タスクとは、計算されたカバレッジを記憶部209(カバレッジDB213)に出力するタスクである。
 ステップS13に進み、前処理部205(複数のワーカーインスタンス251)は、ゲノムデータ11のソート処理を実行し(S13)、続いてステップS14に進み、インデックス付与処理を実行する(S14)。
 その後ステップS15に進み、前処理部205(複数のワーカーインスタンス251)は、ゲノムデータ11のカバレッジ計算並びに記憶部209への出力を並列に実行する(S15)。以上に示す処理により、ゲノム解析装置2は、入力されたSAM形式又はBAM形式のゲノムデータ11のカバレッジを計算してカバレッジDB213に出力する。
 図9は、図8のステップS15の処理の一例を説明するための図である。図9の上部には、塩基座標と、所定の染色体の参照配列にマッピングされたゲノムデータ11である染色体サンプルXの各断片化データとを簡易的に図示している。なお、図9に示す例では、説明の便宜上、一番左側の塩基座標が1であるものとして以下説明する。
 まずステップS15では、前処理部205は、ビンサイズが1である場合(bin_1)のカバレッジを計算する。ビンサイズとは、カバレッジの計算対象の塩基の単位数である。すなわち、ここでは各塩基のカバレッジを計算する。図9に示す例では、先頭塩基から順に0、0、0、0、1、2、3、4、4、・・・・という各塩基のカバレッジが計算される。
 次に、前処理部205は、ビンサイズを2倍にしてビンサイズが2である場合(bin_2)のカバレッジ、すなわち2つの塩基毎のカバレッジを計算する。なお、ビンサイズが2倍になった場合にはカバレッジを1/2にする、すなわちカバレッジ平均値を計算する等、ビンサイズが異なる場合のカバレッジの数値の隔りを回避する補正を行うことが好ましい。なお、以下では、カバレッジの平均値を計算する補正を行うものとする(以下、同様)。図9に示す例では、先頭塩基から順に、0、0、1.5、3.5、4、・・・という2つの塩基毎のカバレッジが計算される。
 続いて、前処理部205は、ビンサイズを更に2倍にしてビンサイズが4である場合(bin_4)のカバレッジ、すなわち4つの塩基毎のカバレッジを計算する。図9に示す例では、先頭塩基から順に、0、2.5、4、5、5.25、・・・という4つの塩基毎のカバレッジが計算される。その後、前処理部205は、繰り返しビンサイズを2倍にしてカバレッジを計算する。このようにして計算されたカバレッジが、カバレッジDB213に出力される。
 図10は、本実施形態に係るゲノム解析装置のカバレッジDBの一例を示す図である。図10では、カバレッジDB213の一例をテーブル100(以下、「カバレッジテーブル100」ともいう。)で示している。
 カバレッジテーブル100の属性は、ビンサイズ101、塩基座標102A、カバレッジ102B、塩基座標103A、カバレッジ103B、塩基座標104A、カバレッジ104B、・・・を含む。
 ビンサイズ101は、カバレッジの計算対象の塩基の単位数である。図10では、説明の便宜上、ビンサイズ101の最小値は512としている。塩基座標102Aは、カバレッジ102Bで示すカバレッジの計算対象の塩基座標を、スタート位置とエンド位置との組合せで示したものである。カバレッジ102Bは、計算されたカバレッジである。塩基座標103A、カバレッジ103B、塩基座標104A、カバレッジ104B、・・・についても同様である。
 図10に示す例では、ビンサイズが512の場合の座標1~512の塩基のカバレッジは「××」であり、ビンサイズが2048の場合の座標4097~6144の塩基のカバレッジは「●●●●」であることを示す。
 このようにして、カバレッジテーブル100には、異なるビンサイズ毎にカバレッジと塩基座標とが対応付けられて記憶される。このようなカバレッジテーブル100は、染色体毎、染色体サンプル(入力されたゲノムデータ11)毎に生成される。また、カバレッジテーブル100に記憶される各行のビンサイズ毎のカバレッジが、前述の「ゲノムデータ11についての複数の異なるレイヤーの可視化用データ」の一例である。
 これにより、前述の図6に示す表示画面60上でユーザ入力により表示させたい染色体、染色体サンプル、塩基座標範囲が指定された場合、出力データ作成部207(図3参照)は、指定された染色体、染色体サンプル、塩基座標範囲に対応するビンサイズのカバレッジをカバレッジテーブル100から選択して読み込む。出力データ作成部207は、選択したビンサイズのカバレッジに基づいて、例えばヒストグラム表示するための表示データを作成する。なお、前述のように、出力データ作成部207は表示データを作成する場合、表示領域68(図6参照)に現に表示されるデータ範囲の表示データより、若干広いデータ範囲の表示データを作成する。これにより、例えば表示領域68上でのマウス(図4の入力装置34)の上下左右へのドラッグにより表示範囲が変更された場合にも、表示範囲の変更に応じてシームレスな可視化が可能となる。
 また、例えば図6に示す表示画面60上で拡大指示(又は、縮小指示)が入力された場合、出力データ作成部207は、ビンサイズが次に小さい(又は、ビンサイズが次に大きい)カバレッジをカバレッジテーブル100から読み込み、当該カバレッジに基づいてヒストグラム表示するための表示データを作成する。これにより、表示させる塩基座標範囲が変更された場合であっても、表示データを再計算することなく、表示されるカバレッジを容易に切り替えることができる。従って、簡易にシームレスな可視化が可能となる。
 なお、図9及び図10に示す例では、ビンサイズを2倍にしてカバレッジを計算する処理を繰り返したが、この場合に限らない。例えば3倍以上でも良い。また、前処理部205は、ビンサイズ以外の指標により、複数の異なるレイヤーの可視化用データを生成してもよい。
 図11は、本実施形態に係るゲノム解析装置の各種情報DBの一例を説明するための図である。
 図11を用いて、各種情報DB214に記憶されるデータの一つであるアノテーションデータを例に挙げて、そのデータ構造について説明する。なお、図11に示す例では、説明の便宜上、参照配列の全塩基座標が1~99999であるものとして簡易的に図示している。
 予め公開データベース等から取得した例えばRefSeq等の公開の遺伝子情報であるアノテーションデータは、図11に示すように、N分木(ここではN=3)データ構造体110Aを利用して記憶される。
 すなわち、N分木データ構造体110Aを構成する各ノード(bin0、bin1、bin2、・・・)は、当該ノードの塩基座標(スタート位置・エンド位置)と、中間データ構造体110Bに対するポインタとを保持する。中間データ構造体110Bは、塩基座標位置と塩基長とデータ本体110Cに対するポインタとを保持する。データ本体110Cは、各アノテーションデータのデータ本体A、B、Cを任意長、任意のフォーマットで保持する。
 このように、各種情報DB214では、ノード毎に塩基座標位置と塩基長とアノテーションデータとが対応付けて記憶される。すなわち、塩基座標位置と当該位置からの塩基長とで特定される塩基座標範囲毎に、塩基座標範囲とアノテーションデータとが対応付けて記憶される。
 塩基長が1である場合、すなわち塩基座標範囲が特定の塩基を指すものであるような場合には、この塩基に対応するアノテーションデータが対応付けて記憶される。一方、塩基長が2以上である場合、すなわち塩基座標範囲が特定の塩基群を指すものであるような場合には、この塩基群に対応するアノテーションデータが対応付けて記憶される。
 そして、このようなN分木データ構造体110A、中間データ構造体110B及びデータ本体110Cは、染色体毎、染色体サンプル(ゲノムデータ11)毎に生成される。また、このような各塩基座標範囲のアノテーションデータは、前述の「ゲノムデータ11についての複数の異なるレイヤーの可視化用データ」の一例である。
 これにより、前述の図6に示す表示画面60上でユーザ入力により表示させたい染色体、染色体サンプル、塩基座標範囲が指定された場合、出力データ作成部207(図3参照)は、指定された染色体、染色体サンプル、塩基座標範囲に対応するノードのアノテーションデータを各種情報DB214から選択して読み込む。出力データ作成部207は、選択したノードのアノテーションデータを表示するための表示データを作成する。なお、前述のように、表示データ作成部207は表示データを作成する場合、表示領域68(図6参照)に現に表示されるデータ範囲の表示データより、若干広いデータ範囲の表示データを作成する。これにより、例えば表示領域68上でのマウス(図4の入力装置34)の上下左右へのドラッグにより表示範囲が変更された場合にも、表示範囲の変更に応じてシームレスな可視化が可能となる。
 また、例えば図6に示す表示画面60上で拡大指示(又は、縮小指示)が入力された場合、出力データ作成部207は、自ノードの子ノード(又は、自ノードの親ノード)のアノテーションデータを読み込み、当該アノテーションデータを表示するための表示データを作成する。これにより、表示させる塩基座標範囲が変更された場合であっても、表示データを再計算することなく、表示されるアノテーションデータを容易に切り替えることができる。従って、シームレスな可視化が可能となる。
 なお、図11に示す例では、N分木データ構造体110Aが3分木構造である場合を例に説明を行ったが、この場合に限らない。例えば2分木でも良い。また、各種情報DB214には、N分木データ構造体以外のデータ構造により、複数の異なるレイヤーの可視化用データを記憶しても良い。
 また、データ本体110Cに保持されるアノテーションデータは、前述のように、予め公開データベース等から取得した例えばRefSeq等の公開の遺伝子情報である。従って、公開データベース等における遺伝子情報が更新された場合には、N分木データ構造110A及び中間データ110Bの仕組みはそのままで、データ本体110Cのみを更新すればよい。また、解析部206がこの各種情報DB214に格納されたアノテーションデータを利用して解析した結果生成される新たな(改良された)アノテーションデータ等もデータ本体110Cに記憶される。また、前処理部205の前処理によって生成されるゲノムデータ11に対するアノテーションデータも記憶される。
 また、各種情報DB214は、遺伝子毎に、遺伝子とアノテーションデータとを対応付けて記憶させてもよい。この場合、遺伝子毎のアノテーションデータが前述の「ゲノムデータ11についての複数の異なるレイヤーの可視化用データ」の一例である。詳細には図18、図19を用いて後述する。
 図12は、本実施形態に係るゲノム解析装置2の出力データ作成に係る制御ロジックの一例を示すフローチャートである。以下、ゲノム解析装置2が出力リクエスト13を受信した場合の処理の一例を、適宜図3や図7を参照して説明する。
 まずステップS21において、リクエスト受信部203は、出力リクエスト13を受信する(S21)。そうするとステップS22に進み、タスク制御部204(プロセスマネージャ242)は、当該リクエストに基づいて、データ選択タスク、出力データ作成タスクの二つのタスクを生成する(S22)。なお、生成されたタスクは、タスクキュー243に格納される。
 ここでデータ選択タスクとは、出力リクエスト13の記述内容に応じて、記憶部209からデータを選択して読出すタスクである。出力リクエスト13が表示リクエストである場合には、出力リクエスト13の記述内容は、表示対象の染色体及び塩基座標、拡大又は縮小の指示、表示させる染色体サンプルの指定、検索の指示を含む。出力リクエスト13がレポートデータの出力に係るリクエストである場合には、出力リクエスト13の記述内容は、出力したいレポートデータの出力データ形式(表形式やPDF形式)並びに出力対象の遺伝子等の指定を含む。出力データ作成タスクとは、データ選択タスクによって選択して読み出されたデータを基に、出力データを作成するタスクである。
 ステップS23に進み、出力データ作成部207(複数のワーカーインスタンス271)は、記憶部209からデータを選択して読み出す(S23)。続いてステップS24に進み、選択して読み出されたデータを基に出力データを作成する(S24)。
 その後ステップS25に進み、データ送信部208は、出力データ作成部207によって作成された出力データを、出力リクエスト13に対するレスポンス14としてクライアント装置3に対して送信する(S25)。以上に示す処理により、ゲノム解析装置2は、クライアント装置3からの出力リクエスト13に応じて、ゲノムデータ11に関する出力データを送信することで、ゲノム情報の可視化を行う。
 以上に示すように、本実施形態に係るゲノム解析装置2によれば、クライアント装置3から出力リクエスト13を受信した場合に、記憶部209から当該出力リクエスト13に対応するレイヤーの可視化用データを選択し、選択されたレイヤーの可視化用データに基づいて出力データを作成している。そのため、特に出力データが表示データであって且つ一旦所定の表示範囲でゲノムデータ11を表示させた後にその表示範囲を変更するような場合、表示データの再計算をすることなく、Webブラウザの仕組みを用いて簡易にシームレスな可視化が可能となる。
 図13~図17の各々は、本実施形態に係るゲノム解析装置の提供する表示画面の第1~第5具体例を示す図である。
 図13に示す第1具体例では、染色体指定欄61に染色体A、表示させる塩基座標範囲のスタート位置入力欄62に「27,135,000」、エンド位置入力欄63に「27,160,000」、染色体サンプル指定欄67に染色体サンプルX、Y、Zが入力されている。
 そのため、表示領域68には、塩基座標範囲が27,135,000~27,160,000の範囲(塩基数25,000)における染色体サンプルX、Y、Zと染色体Aとのカバレッジがヒストグラム表示される。このように、多数の染色体サンプルを1画面上で比較することができる。
 この表示画面60上で縮小ボタン65が押下された場合、図3の出力データ作成部207は、この画面表示で用いられているカバレッジよりもビンサイズが大きいカバレッジ(図10参照)を選択し、選択されたビンサイズのカバレッジに基づいて表示データを作成する。その結果、図14のような画面に移行する。
 図14に示す第2具体例では、表示させる塩基座標範囲のスタート位置入力欄62に「10,000,000」、エンド位置入力欄63に「60,000,000」が入力されている。そのため、表示領域68には、塩基座標範囲が10,000,000~60,000,000の範囲(塩基数50,000,000)が示されており、図13の塩基座標範囲よりも表示範囲が大きい。
 なお、図13に示す表示画面60上で拡大ボタン64が押下された場合、図3の出力データ作成部207は、この画面表示で用いられているカバレッジよりもビンサイズが小さいカバレッジ(図10参照)を選択し、選択されたビンサイズのカバレッジに基づいて表示データを作成する。但し、図15や図16のような画面に移行しても良い。
 図15に示す第3具体例及び図16に示す第4具体例では、表示させる塩基座標範囲のスタート位置入力欄62に「7,971,000」、エンド位置入力欄63に「7,974,000」が入力されている。そのため、図15及び図16の表示領域68には、塩基座標範囲が7,971,000~7,974,000の範囲(塩基数3,000)が示されており、図13の塩基座標範囲よりも表示範囲が小さい。
 図15の表示領域68には、ヒストグラム表示ではなく染色体サンプルX、Y、Zの各断片化データが参照配列(図15では不図示)にマッピングされた態様が表示されている。このように一定以上拡大表示される場合には、図3の出力データ作成部207は、各断片化データのマッピング態様を示す表示データを作成しても良い。
 一方、図16の表示領域68には、染色体サンプルX、Y、Zの各断片化データを構成する各塩基が区別可能な態様で表示されている。このように一定以上拡大表示される場合には、図3の出力データ作成部207は、各断片化データを構成する各塩基を区別可能な態様で示す表示データを作成しても良い。
 図17に示す第5具体例では、表示させる塩基座標範囲のスタート位置入力欄62に「75,262,745」、エンド位置入力欄63に「75,262,810」が入力されている。そのため、表示領域68には、塩基座標範囲が75,262,745~75,262,810の範囲(塩基数65)が示されており、図15や図16の塩基座標範囲よりも更に表示範囲が小さい。
 図17の表示領域68には、染色体Aの参照配列(最下部)と、染色体サンプルX、Y、Zの所定の断片化データの塩基配列とアノテーションデータとが区別可能な態様で表示されている。このように、詳細表示させる場合には、図3の出力データ作成部207は、参照配列と断片化データの塩基配列とアノテーションデータを区別可能な態様で示す表示データを作成してもよい。なお、図13~図15のように広域表示させる場合にも、図3の出力データ作成部207は、参照配列と断片化データの塩基配列とアノテーションデータを区別可能な態様で示す表示データを作成することができる。
 以上、図13~図17を用いて説明してきたように、本実施形態に係るゲノム解析装置2によれば、全体像のヒストグラム表示から詳細の塩基配列表示まで、Webブラウザの仕組みを用いて、簡易にシームレスな可視化を可能とすることができる。
 図18、図19の各々は、本実施形態に係るゲノム解析装置の出力するレポートデータの第1、第2具体例を示す図である。
 図18に示す第1具体例では、大腸がんに係るレポートデータ200を示している。レポートデータ200は、遺伝子名201、染色体位置202、エクソン203、変異204、dbSNP205、対象遺伝子の変異頻度206、対象遺伝子内での変異頻度207、薬の応答性208、薬名209、出典210の各欄を含む。なお、各欄内の各情報は、各種情報DB214(図3参照)において、遺伝子“KRAS”と対応付けて記憶されるアノテーションデータである。
 レポートデータ200の一行目には、遺伝子名201で示す遺伝子“KRAS”の染色体中の塩基位置が “12p12.1”(染色体位置202)である点が記述されている。また、当該遺伝子“KRAS”の“エクソン2”(エクソン203)の部分において、変異204で示す変異が起こる頻度が“36-40%”(変異頻度206)である点並びに対象遺伝子 “KRAS”内での変異の頻度が“33.5-34.4%”(変異頻度207)である点が記述されている。また、dbSNP205に記述される“rs112445441”は、SNP((Single Nucleotide Polymorphism)のデータベースであるdbSNPにおける当該遺伝子の変異に係る情報の識別番号を示している。レポートデータ200の二行目については、一行目と同様であるため説明を省略する。
 なお、レポートデータ200において一行目並びに二行目に示す遺伝子“KRAS”の変異に関し、薬名209で示す2種類の薬“cetuximab”、“panitumumab”があり、これら2種類の薬の効果がないことが記述されている。また、薬の応答性208には、これら2種類の薬の応答性が記述されている。そして、このような薬の応答性等に関する情報の出典が、出典210で示される文献である点が記述されている。
 一方、図19に示す第2具体例では、乳がんに係るレポートデータ300を示している。レポートデータ300は、遺伝子名301、染色体位置302、エクソン303、変異304、dbSNP305、対象遺伝子の変異頻度306、対象遺伝子内での変異頻度307、薬の応答性308、薬名309、出典310の各欄を含む。なお、各欄内の各情報は、各種情報DB214(図3参照)において、遺伝子“PIK3CA”と対応付けて記憶されるアノテーションデータである。
 レポートデータ300の一行目には、遺伝子名301で示す遺伝子“PIK3CA”の染色体中の塩基位置が“3q26.3”(染色体位置302)である点が記述されている。また、当該遺伝子“PIK3CA”の“エクソン9”(エクソン303)の部分において、変異304で示す変異が起こる頻度が“26%”(変異頻度306)である点並びに対象遺伝子“PIK3CA”内での変異の頻度が“~11%”(変異頻度307)である点が記述されている。また、dbSNP305に記述される“rs121913273”は、SNPのデータベースであるdbSNPにおける当該遺伝子の変異に係る情報の識別番号を示している。レポートデータ300の二行目並びに三行目については、一行目と同様であるため説明を省略する。
 なお、レポートデータ300において一行目~三行目に示す遺伝子“PIK3CA”の変異に関し、薬名309で示す2種類の薬 “trastuzumab”と“lapatinib”との併用があり、この薬の効果がないことが記述されている。また、薬の応答性308には、この薬の応答性が記述されている。そして、このような薬の応答性等に関する情報の出典が、出典310で示されるインターネット上のウェブサイトである点が記述されている。
 以上、図18並びに図19を用いて説明してきたようなレポートデータ200、300は、図12のステップS21に係る処理において出力リクエスト13がレポートデータの出力に係るリクエストである場合に、以降のステップS22~S24に係る処理により作成される。
 すなわち、ステップS23において出力データ作成部207(複数のワーカーインスタンス271)は、記憶部209からデータを選択して読み出す(S23)。ここでは、遺伝子(例えば上記“KRAS”や“PIK3CA”)に対応付けられたアノテーションデータを選択して読み出す。続いてステップS24に進み、選択して読み出されたデータを基に、レポートデータ200、300のようなレポートデータを作成する(S24)。
 特に出力データ作成部207は、ゲノム解析装置2による解析の結果、所定の疾病に対応する遺伝子の変異を検出した場合に、図18や図19のようなレポートデータ200、300を作成してもよい。これにより、クライアント装置3の操作者例えば医師は、作成されたレポートデータを、所定の疾病(例えば上記“大腸がん”や“乳がん”)の医療診断に利用することができる。
 なお、各種情報DB214に記憶される遺伝子毎のアノテーションデータは、図18や図19に例示したデータに限定されるものではない。例えば当該遺伝子に関する過去の診断情報、基礎実験情報又は薬に関わりの深い特許文献情報等を示すデータであってもよい。
 以上、本発明の一実施形態について説明したが、上記実施形態は本発明の適用例の一つを示したものであり、本発明の技術的範囲を上記実施形態の具体的構成に限定する趣旨ではない。
1        ゲノム解析システム
2        ゲノム解析装置
3        クライアント装置
4        ネットワーク
11     ゲノムデータ
12     解析リクエスト
13     出力リクエスト
14   レスポンス
201  データ受信部
202  リクエスト発行部
203  リクエスト受信部
204  タスク制御部
205  前処理部
206  解析部
207  出力データ作成部
208  データ送信部
209  記憶部
211  ファイルDB
212  配列DB
213  カバレッジDB
214  各種情報DB
215  キャッシュ

Claims (8)

  1.  大量の断片化されたゲノム塩基配列からなるゲノムデータの解析を行うとともに、ネットワークを介して接続されたクライアント装置からの出力リクエストに応じて、前記ゲノムデータに関する出力データを送信するゲノム解析装置であって、
     前記ゲノムデータについて、複数の異なるレイヤーの可視化用データを記憶する記憶手段と、
     前記クライアント装置からの出力リクエストを受信するリクエスト受信手段と、
     前記表示リクエスト受信手段が前記出力リクエストを受信した場合に、前記記憶手段から当該出力リクエストに対応するレイヤーの可視化用データを選択し、選択されたレイヤーの可視化用データに基づいて出力データを作成する出力データ作成手段と、
     を備えたことを特徴とするゲノム解析装置。
  2.  前記複数の異なるレイヤーの可視化用データは、異なるビンサイズ毎に計算された、前記ゲノムデータの塩基配列と既知のゲノムの塩基配列とのカバレッジであることを特徴とする請求項1に記載のゲノム解析装置。
  3.  前記出力データ作成手段は、前記出力リクエスト受信手段が前記出力リクエストを受信した場合に、前記記憶手段から当該出力リクエストに対応するビンサイズのカバレッジを選択し、選択されたカバレッジをヒストグラム表示するための表示データを作成することを特徴とする請求項2に記載のゲノム解析装置。
  4.  前記複数の異なるレイヤーの可視化用データは、異なる塩基座標範囲毎に、塩基座標範囲とアノテーションデータとを対応付けたものであることを特徴とする請求項1に記載のゲノム解析装置。
  5.  前記出力データ作成手段は、前記出力リクエスト受信手段が前記出力リクエストを受信した場合に、前記記憶手段から当該出力リクエストで指定された塩基座標範囲のアノテーションデータを選択し、選択されたアノテーションデータを表示するための表示データを作成することを特徴とする請求項4に記載のゲノム解析装置。
  6.  前記複数の異なるレイヤーの可視化用データは、遺伝子毎に、遺伝子とアノテーションデータとを対応付けたものであることを特徴とする請求項1に記載のゲノム解析装置。
  7.  前記出力データ作成手段は、前記出力リクエスト受信手段が前記出力リクエストを受信した場合に、前記記憶手段から当該出力リクエストで指定された遺伝子のアノテーションデータを選択し、選択されたアノテーションデータに係るレポートデータを作成することを特徴とする請求項6に記載のゲノム解析装置。
  8.  大量の断片化されたゲノム塩基配列からなるゲノムデータの解析を行うとともに、前記ゲノムデータに関するデータを記憶する記憶部を有し、ネットワークを介して接続されたクライアント装置からの出力リクエストに応じて、前記ゲノムデータに関する出力データを送信するゲノム解析装置におけるゲノム可視化方法であって、
     前記記憶部は、前記ゲノムデータについて、複数の異なるレイヤーの可視化用データを記憶し、
     前記ゲノム可視化方法は、
     前記クライアント装置からの出力リクエストを受信するリクエスト受信工程と、
     前記表示リクエスト受信工程で前記出力リクエストを受信した場合に、前記記憶部から当該出力リクエストに対応するレイヤーの可視化用データを選択し、選択されたレイヤーの可視化用データに基づいて出力データを作成する出力データ作成工程と、
     を含むことを特徴とするゲノム可視化方法。
PCT/JP2016/063509 2015-04-30 2016-04-28 ゲノム解析装置及びゲノム可視化方法 WO2016175330A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP16786606.0A EP3291114B1 (en) 2015-04-30 2016-04-28 Genome analysis device and genome visualization method
US15/532,810 US10573405B2 (en) 2015-04-30 2016-04-28 Genome analysis and visualization using coverages for bin sizes and ranges of genomic base coordinates calculated and stored before an output request
CN201680003789.3A CN107004069B (zh) 2015-04-30 2016-04-28 基因组解析装置及基因组可视化方法
KR1020177017545A KR102140032B1 (ko) 2015-04-30 2016-04-28 게놈 해석 장치 및 게놈 가시화 방법
JP2017515639A JP6593763B2 (ja) 2015-04-30 2016-04-28 ゲノム解析装置及びゲノム可視化方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015093739 2015-04-30
JP2015-093739 2015-04-30

Publications (2)

Publication Number Publication Date
WO2016175330A1 true WO2016175330A1 (ja) 2016-11-03
WO2016175330A9 WO2016175330A9 (ja) 2017-05-11

Family

ID=57199371

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/063509 WO2016175330A1 (ja) 2015-04-30 2016-04-28 ゲノム解析装置及びゲノム可視化方法

Country Status (6)

Country Link
US (1) US10573405B2 (ja)
EP (1) EP3291114B1 (ja)
JP (1) JP6593763B2 (ja)
KR (1) KR102140032B1 (ja)
CN (1) CN107004069B (ja)
WO (1) WO2016175330A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022024221A1 (ja) 2020-07-28 2022-02-03 株式会社テンクー プログラム、学習モデル、情報処理装置、情報処理方法および学習モデルの生成方法
JP2022180553A (ja) * 2018-06-29 2022-12-06 シスメックス株式会社 解析方法、情報処理装置、レポート提供方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7320345B2 (ja) * 2017-10-27 2023-08-03 シスメックス株式会社 遺伝子解析方法、遺伝子解析装置、遺伝子解析システム、プログラム、および記録媒体
CN108052800A (zh) * 2017-12-19 2018-05-18 石家庄铁道大学 一种传染性病毒传播过程的可视化重建方法及终端
CN109326330B (zh) * 2018-08-30 2020-10-16 武汉古奥基因科技有限公司 生物信息分析工具的制作方法、装置及可存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08110909A (ja) * 1994-10-13 1996-04-30 Hitachi Ltd 配列検索方法および装置
JP2002091991A (ja) * 2000-09-20 2002-03-29 Intec Web & Genome Informatics Corp 遺伝子ネットワーク研究支援システム及び方法
JP2005234697A (ja) * 2004-02-17 2005-09-02 Hitachi Software Eng Co Ltd 遺伝子情報の表示方法及び表示装置
JP2011229817A (ja) * 2010-04-30 2011-11-17 Hitachi Aloka Medical Ltd 超音波診断装置
WO2013024810A1 (ja) * 2011-08-12 2013-02-21 株式会社モーションラボ 高速演算装置、高速演算プログラム及び高速演算プログラムを記録した記録媒体、機器制御システム、並びにシミュレーションシステム
JP2013126131A (ja) * 2011-12-15 2013-06-24 Toyota Motor Corp ラジオ雑音除去装置
JP2014505935A (ja) * 2010-12-29 2014-03-06 ダウ アグロサイエンシィズ エルエルシー Dna配列のデータ解析法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101949569B1 (ko) 2011-12-08 2019-02-18 파이브3 제노믹스, 엘엘씨 게놈 데이터의 동적 인덱싱 및 시각화를 제공하는 분산 시스템

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08110909A (ja) * 1994-10-13 1996-04-30 Hitachi Ltd 配列検索方法および装置
JP2002091991A (ja) * 2000-09-20 2002-03-29 Intec Web & Genome Informatics Corp 遺伝子ネットワーク研究支援システム及び方法
JP2005234697A (ja) * 2004-02-17 2005-09-02 Hitachi Software Eng Co Ltd 遺伝子情報の表示方法及び表示装置
JP2011229817A (ja) * 2010-04-30 2011-11-17 Hitachi Aloka Medical Ltd 超音波診断装置
JP2014505935A (ja) * 2010-12-29 2014-03-06 ダウ アグロサイエンシィズ エルエルシー Dna配列のデータ解析法
WO2013024810A1 (ja) * 2011-08-12 2013-02-21 株式会社モーションラボ 高速演算装置、高速演算プログラム及び高速演算プログラムを記録した記録媒体、機器制御システム、並びにシミュレーションシステム
JP2013126131A (ja) * 2011-12-15 2013-06-24 Toyota Motor Corp ラジオ雑音除去装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3291114A4 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022180553A (ja) * 2018-06-29 2022-12-06 シスメックス株式会社 解析方法、情報処理装置、レポート提供方法
JP7399238B2 (ja) 2018-06-29 2023-12-15 シスメックス株式会社 解析方法、情報処理装置、レポート提供方法
WO2022024221A1 (ja) 2020-07-28 2022-02-03 株式会社テンクー プログラム、学習モデル、情報処理装置、情報処理方法および学習モデルの生成方法

Also Published As

Publication number Publication date
EP3291114B1 (en) 2024-01-17
JP6593763B2 (ja) 2019-10-23
EP3291114A4 (en) 2018-12-26
KR20170087508A (ko) 2017-07-28
CN107004069A (zh) 2017-08-01
US20170372003A1 (en) 2017-12-28
KR102140032B1 (ko) 2020-07-31
WO2016175330A9 (ja) 2017-05-11
EP3291114A1 (en) 2018-03-07
JPWO2016175330A1 (ja) 2018-03-29
CN107004069B (zh) 2021-12-03
US10573405B2 (en) 2020-02-25

Similar Documents

Publication Publication Date Title
Li et al. Hiplot: a comprehensive and easy-to-use web service for boosting publication-ready biomedical data visualization
JP6593763B2 (ja) ゲノム解析装置及びゲノム可視化方法
JP7046840B2 (ja) 二次および/または三次処理を実行するためのバイオインフォマティクスシステム、装置、および方法
CN110121747B (zh) 用于执行二级和/或三级处理的生物信息学系统、设备和方法
Kalari et al. MAP-RSeq: Mayo analysis pipeline for RNA sequencing
Khomtchouk et al. HeatmapGenerator: high performance RNAseq and microarray visualization software suite to examine differential gene expression levels using an R and C++ hybrid computational pipeline
D'Antonio et al. WEP: a high-performance analysis pipeline for whole-exome data
Bare et al. Integration and visualization of systems biology data in context of the genome
Curk et al. SNPsyn: detection and exploration of SNP–SNP interactions
Lajugie et al. GenPlay, a multipurpose genome analyzer and browser
Zeng et al. G2PDeep: a web-based deep-learning framework for quantitative phenotype prediction and discovery of genomic markers
Palatnick et al. iGenomics: Comprehensive DNA sequence analysis on your Smartphone
Djekidel et al. HiC‐3DViewer: a new tool to visualize Hi‐C data in 3D space
Spector et al. ClinTAD: a tool for copy number variant interpretation in the context of topologically associated domains
Rudan et al. Developing biobanks in developing countries
Sulkowska et al. KnotGenome: a server to analyze entanglements of chromosomes
Pearce et al. Interactive browser-based genomics data visualization tools for translational and clinical laboratory applications
Jianu et al. What Google Maps can do for biomedical data dissemination: examples and a design study
Hung et al. fast_protein_cluster: parallel and optimized clustering of large-scale protein modeling data
Killcoyne et al. FIGG: simulating populations of whole genome sequences for heterogeneous data analyses
Zou et al. eQTL Viewer: visualizing how sequence variation affects genome-wide transcription
Reid et al. XenMine: a genomic interaction tool for the Xenopus community
Fortmann-Grote et al. RAREFAN: A webservice to identify REPINs and RAYTs in bacterial genomes
Newman Interactive analysis of large cancer copy number studies with Copy Number Explorer
Valeev et al. BioUML genome browser

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16786606

Country of ref document: EP

Kind code of ref document: A1

REEP Request for entry into the european phase

Ref document number: 2016786606

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 15532810

Country of ref document: US

ENP Entry into the national phase

Ref document number: 20177017545

Country of ref document: KR

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2017515639

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE