WO2022009342A1 - 情報処理プログラム、情報処理方法および情報処理装置 - Google Patents
情報処理プログラム、情報処理方法および情報処理装置 Download PDFInfo
- Publication number
- WO2022009342A1 WO2022009342A1 PCT/JP2020/026730 JP2020026730W WO2022009342A1 WO 2022009342 A1 WO2022009342 A1 WO 2022009342A1 JP 2020026730 W JP2020026730 W JP 2020026730W WO 2022009342 A1 WO2022009342 A1 WO 2022009342A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- codon
- data
- divided
- gene mutation
- information processing
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 84
- 238000003672 processing method Methods 0.000 title claims description 6
- 108020004705 Codon Proteins 0.000 claims abstract description 227
- 206010064571 Gene mutation Diseases 0.000 claims abstract description 53
- 238000006243 chemical reaction Methods 0.000 claims abstract description 24
- 230000005945 translocation Effects 0.000 claims abstract description 11
- 206010028980 Neoplasm Diseases 0.000 claims description 52
- 201000011510 cancer Diseases 0.000 claims description 52
- 238000000034 method Methods 0.000 claims description 32
- 238000010586 diagram Methods 0.000 description 40
- 230000001364 causal effect Effects 0.000 description 24
- 238000004458 analytical method Methods 0.000 description 23
- 238000012351 Integrated analysis Methods 0.000 description 19
- 238000003745 diagnosis Methods 0.000 description 11
- 239000000284 extract Substances 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 201000010099 disease Diseases 0.000 description 8
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 8
- 150000001413 amino acids Chemical class 0.000 description 7
- 102000053602 DNA Human genes 0.000 description 4
- 108020004414 DNA Proteins 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000003449 preventive effect Effects 0.000 description 4
- 229920002477 rna polymer Polymers 0.000 description 4
- 230000035772 mutation Effects 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000005861 gene abnormality Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/10—Ontologies; Annotations
Definitions
- the present invention relates to an information processing program, an information processing method, and an information processing apparatus.
- the base sequence of the human genome is associated with a position and stored, and the difference between individuals is provided as useful semantic information. For example, it acquires the position information of the base sequence corresponding to the request information of the genome analysis service or the like, and responds with the base sequence information associated with the acquired position information.
- the base sequence output from the sequencer is divided every several hundred B (Byte). Furthermore, the data size of the base sequence of the human genome is as large as 3 GB (Byte).
- One aspect is to provide an information processing program, an information processing method, and an information processing apparatus capable of shortening the analysis time of an individual genome and reducing the data size.
- the information processing program causes a computer to execute a process of acquiring the divided genomic data divided into a plurality of pieces, which is the genomic information of a specific individual.
- the information processing program causes a computer to execute a process of generating a plurality of divided codon data in which each of the plurality of divided genomic data is encoded in codon units, based on a codon conversion table in which codons and codes are associated with each other.
- the information processing program uses the reference codon data in which the reference genomic data as a reference is encoded in codon units and the reference numerals appearing in the plurality of divided codon data based on each of the plurality of divided codon data.
- the process of specifying the position and type in which a gene mutation different from the code appearing in the reference codon data appears is executed.
- the information processing program causes a computer to execute a process of generating a gene mutation inverted index in which the gene mutation and the position and type in which the gene mutation appears are associated with each other.
- the analysis time of the individual genome can be shortened and the data size can be reduced.
- FIG. 1 is a diagram illustrating the operation of the information processing apparatus according to the first embodiment.
- FIG. 2 is a functional block diagram showing a functional configuration of the information processing apparatus according to the first embodiment.
- FIG. 3 is a diagram showing an example of a codon conversion table.
- FIG. 4 is a diagram showing an example of data at the reference codon.
- FIG. 5 is a diagram showing an example of a reference inverted index.
- FIG. 6 is a diagram illustrating coding of fragmented genomic data.
- FIG. 7 is a diagram illustrating the extraction of partial reference codon data.
- FIG. 8 is a diagram illustrating the narrowing down of the codon sequence by the codon sequence and the reference inverted index.
- FIG. 9 is a diagram illustrating the narrowing down of the codon sequence by the reference inverted index.
- FIG. 10 is a diagram illustrating a reference genome, an individual genome, and an SNPs inverted index.
- FIG. 11 is a diagram illustrating simultaneous execution of codon sequence comparison and SNPs inverted index generation.
- FIG. 12 is a flowchart showing the flow of processing according to the first embodiment.
- FIG. 13 is a diagram illustrating a system configuration example according to the second embodiment.
- FIG. 14 is a diagram illustrating an analysis 1 of a causal relationship at each hospital according to the second embodiment.
- FIG. 15 is a diagram illustrating analysis 2 of a causal relationship at each hospital according to Example 2.
- FIG. 16 is a diagram illustrating a system configuration example according to the third embodiment.
- FIG. 17 is a diagram illustrating the integrated analysis 1 of the causal relationship in the integrated analysis center according to the third embodiment.
- FIG. 18 is a diagram illustrating the integrated analysis 2 of the causal relationship in the integrated analysis center according to the third embodiment.
- FIG. 19 is a diagram illustrating a system configuration example according to the fourth embodiment.
- FIG. 20 is a diagram illustrating a canceration diagnosis at each hospital using the integrated analysis results according to Example 4.
- FIG. 21 is a diagram illustrating a hardware configuration example.
- FIG. 1 is a diagram illustrating the operation of the information processing apparatus 10 according to the first embodiment.
- the information processing apparatus 10 shown in FIG. 1 analyzes the base sequence data of the genome of the individual to be analyzed and identifies the sequence location different from the reference normal base sequence data to analyze the characteristics of the personal genome.
- the base sequence data of an individual's genome may be described as "individual genome” or "personal genome data”
- the reference normal base sequence data may be referred to as "reference genome” or "reference genome data”. May be described.
- the genome is genetic information that is a base sequence of DNA or RNA.
- the codons which are the three bases, determine the amino acids, and the plurality of amino acids constitute the protein.
- multiple proteins bind to form primary, secondary, and tertiary (higher) structures.
- the information processing apparatus 10 holds a codon conversion table in which a codon and a compression code assigned to the codon (hereinafter, may be simply referred to as a “code”) are associated with each other. For example, “UUU, @” and the like are associated with the codon conversion table as "codons and codes”.
- the information processing apparatus 10 uses the codon conversion table to generate reference codon data "@ Ek " in which the reference genome data "UUU " is encoded in codon units. Further, the information processing apparatus 10 generates a bit map type reference inverted index in which the sign of the codon and the appearance position in the reference codon data are associated with each other.
- the information processing apparatus 10 acquires the fragmented genome data ⁇ to ⁇ from the sequencer that decodes the individual genome. Then, the information processing apparatus 10 generates the divided codon data ⁇ to ⁇ by encoding the divided genomic data ⁇ to ⁇ in units of codons with reference to the codon conversion table while each of the divided genomic data ⁇ to ⁇ is divided.
- the information processing apparatus 10 extracts the partial reference codon data from the reference codon data by using the reference inverted index for each of the divided codon data ⁇ to ⁇ in order.
- gene mutations single nucleotide polymorphisms showing slight differences in genetic information between individuals are detected, and the types of mutations are identified.
- a bitmap-type SNPs translocation index (gene mutation translocation index) associated with the position is generated.
- the information processing apparatus 10 narrows down the codon sequence corresponding to the divided codon data by using the reference inverted index without concatenating the divided codon data ⁇ to ⁇ , and extracts the partial reference codon data. , SNPs Inverted index generation can be accelerated.
- the information processing apparatus 10 uses the coded data "@, E, k, F," of the reference codon sequence "UUU, UCC, AAG, UCA, UGG" to be searched, which is specified in advance from the reference inverted index of the reference genome. The position where "O" appears is narrowed down by the longest match character string search.
- the information processing apparatus 10 compares the divided codon data with the extracted partial reference codon data in codon units, and detects gene mutations in different codons. Then, the information processing apparatus 10 initializes the inverted index with "0" and sets "1" only for the bases of different codons and the bits corresponding to the positions, so that all the divided codon data are not concatenated. , SNPs inverted index 20 can be generated.
- the information processing apparatus 10 can analyze the gene mutation in the divided state, so that the analysis time of the personal genome can be shortened.
- FIG. 2 is a functional block diagram showing a functional configuration of the information processing apparatus 10 according to the first embodiment.
- the information processing apparatus 10 includes a communication unit 11, a storage unit 12, and a control unit 30.
- the communication unit 11 is a processing unit that controls communication with other devices, and is realized by, for example, a communication interface.
- the communication unit 11 executes data transmission / reception with a sequencer that is a provider of the personal genome, and receives the divided genome data 13 ⁇ to 13 ⁇ divided every several hundred B.
- the storage unit 12 is a processing unit that stores various data and various programs executed by the control unit 30, and is realized by, for example, a memory or a hard disk.
- the storage unit 12 stores the split genome data 13, the codon conversion table 14, the split codon data 15, the reference genome data 16, the reference codon data 17, the reference inverted index 18, the partial reference codon data 19, and the SNPs inverted index 20.
- the fragmented genome data 13 is fragmented base sequence data in which the individual genome to be analyzed is fragmented to a predetermined size.
- the fragmented genome data 13 is data including the fragmented genome data 13 ⁇ "... C” from the fragmented genome data 13 ⁇ "UUU " generated from the individual genome "UUUUUCA ".
- the fragmented genome data 13 is acquired by the control unit 30.
- the codon conversion table 14 is information used when encoding a base sequence, and stores codons and codes in association with each other. Specifically, the codon conversion table 14 is conversion information in which a high-frequency codon having a high frequency of appearance and a code assigned to the high-frequency codon are associated with each other.
- FIG. 3 is a diagram showing an example of the codon conversion table 14. As shown in FIG. 3, for example, the sign of the codon “UUU” is "40h (01000000)". “H” indicates a hexadecimal number. In this embodiment, when the codon "UUU” is coded, “40h (01000000)” is described, but in order to make the explanation easier to understand, “UUU (40h)” or the like is described. In addition, “UUU (40h)” may be symbolized and “UUU (@)” or the like may be written.
- the reference genome data 16 is the base sequence data of the reference human genome.
- the Japanese reference genome is published by the Tohoku Medical Megabank Organization of Tohoku University.
- the reference genome data 16 may be stored in advance, and may be acquired from a server or the like designated by the control unit 30.
- the reference codon data 17 is coded data obtained by encoding the reference genome data 16 in codon units.
- FIG. 4 is a diagram showing an example of the reference codon data 17. As shown in FIG. 4, a plurality of codons are arranged in the reference codon data 17.
- the reference codon data 17 may be stored in advance and may be generated by the control unit 30.
- the reference inverted index 18 is a bitmap type inverted index in which the sign of the codon and the appearance position in the reference codon data 17 are associated with each other.
- FIG. 5 is a diagram showing an example of the reference inverted index 18.
- the horizontal axis of the reference inverted index 18 is the axis corresponding to the offset.
- the vertical axis of the reference inverted index 18 is the axis corresponding to the type of codon (codon code).
- the reference inverted index 18 is indicated by a bitmap of "0" or "1", and in the initial state, all bitmaps are set to "0". For example, the offset of the sign of the first codon of the reference inverted index 18 is set to "0".
- the reference inverted index 18 may be stored in advance, or may be generated by the control unit 30.
- the SNPs inverted index 20 is a bitmap type inverted index of gene mutations with respect to the individual genome. Specifically, the SNPs inverted index 20 is a bitmap type in which each fragmented codon data 15 is compared with the partial reference codon data 19 extracted from the reference codon data 17, and different gene mutation types and positions are associated with each other. Inverted index of. Since the structure of the SNPs inverted index 20 is the same as that of the reference inverted index 18, the description thereof will be omitted. For example, the SNPs inverted index 20 is provided with a bitmap for each type of predetermined SNPs such as the third base SNPs.
- the control unit 30 is a processing unit that controls the entire information processing device 10, and is, for example, a processor.
- the control unit 30 includes an acquisition unit 31, a coding unit 32, a generation unit 33, and an output unit 34.
- the acquisition unit 31, the coding unit 32, the generation unit 33, and the output unit 34 are realized by an electronic circuit of the processor, a process executed by the processor, and the like.
- the acquisition unit 31 is a processing unit that acquires the fragmented genome data 13. For example, the acquisition unit 31 acquires the fragmented genome data 13 from the designated provider and stores it in the storage unit 12. The acquisition unit 31 can be acquired periodically, and can also receive the fragmented genome data 13 transmitted from the provider.
- the coding unit 32 is a processing unit that encodes the fragmented genomic data 13.
- FIG. 6 is a diagram illustrating the coding of the fragmented genomic data 13.
- the coding unit 22 converts each of the fragmented genome data 13 ⁇ “UUU ...” and the fragmented genome data 13 ⁇ “... C” included in the fragmented genome data 13 based on the codon conversion table 14. By encoding the three base symbols into codons, the divided codon data ⁇ "... C” is generated from the divided codon data ⁇ "UUU ".
- the coding unit 32 assigns a codon code to the 3-base sequence registered in the codon conversion table 14 and encodes it.
- the generation unit 33 is a processing unit that generates the SNPs inverted index 20. Specifically, when the fragmented genome data 13 of an individual's individual genome is acquired, the generation unit 33 analyzes the fragmented genome and generates a bitmap-type SNPs inverted index 20 indicating a gene mutation. ..
- the generation unit 33 extracts the partial reference codon data 19 from the reference codon data 17 in order using the reference inverted index 18, and compares the divided codon data ⁇ to ⁇ in order. Then, the generation unit 23 detects the gene mutation included in each split codon data, sets “1” in the bit associated with the type of the gene mutation and its position, generates the SNPs inverted index 20, and generates the storage unit 12. Store in.
- the generation unit 33 can speed up the generation of the SNPs inverted index 20 by extracting the partial reference codon data 19 from the divided codon data ⁇ to ⁇ using the reference inverted index 18. Therefore, the extraction process and the generation of the SNPs inverted index 20 will be specifically described with reference to FIGS. 7 to 11.
- FIG. 7 is a diagram for explaining the outline of extraction of partial reference codon data
- FIG. 8 is a diagram for explaining the narrowing down of the codon sequence by the codon sequence and the reference inverted index 18.
- FIG. 9 is a diagram illustrating the narrowing down of the codon sequence by the reference inverted index 18.
- FIG. 10 is a diagram illustrating a reference genome, an individual genome, and an SNPs inverted index 20.
- FIG. 11 is a diagram illustrating simultaneous execution of codon sequence comparison and generation of SNPs inverted index 20.
- the generation unit 33 acquires the split codon data ⁇ to ⁇ . Subsequently, the generation unit 33 performs the longest matching character string search for the reference codon data 17 by using the pre-generated reference inverted index 18 and inputting the codon sequence of the divided codon data 15. As a result, the reference codon sequence (4) "UUU (@), UCC (E), AAG (k), UCA (F)", which is the reference codon sequence to be searched (characteristic sequence of a predetermined protein), Reference codon sequence (5) “UUU (@), UCC (E), AAG (k), UCA (F), UGG (O)” is narrowed down in order. Then, the generation unit 33 can identify the partial reference codon data 19 corresponding to the division codon data 15 and extract it at high speed.
- FIG. 8 shows an example of the reference inverted index 18 generated for the reference codon data 17.
- “1” is set in the 7th bit of the bitmap of the codon code “UUU (@)” in the reference codon data 17. ..
- the codon code "UGG (O)” appears at the 10th and 30th positions, the 10th and 30th bits of the bit map of the codon code "UGG (O)" in the reference codon data 17 appear. "1" is set for each.
- the generation unit 33 from the reference inverted index 18, codon sequence (4) "UUU (@), UCC (E), AAG (k), UCA (F)” and codon sequence (5) “UUU”.
- codon sequence (4) "UUU (@), UCC (E), AAG (k), UCA (F)” and codon sequence (5) "UUU”.
- bitmap shift and AND operation are performed. That is, the generation unit 33 identifies and extracts a codon sequence in which a plurality of "1" s are narrowed down to a single "1" in the logical operation of the bitmap of the reference inverted index 18.
- the reference inverted index 18 is used to correspond to the codon sequence (4) “UUU (@), UCC (E), AAG (k), UCA (F)”. How the data 17 is narrowed down will be described.
- the generation unit 23 refers to the reference inverted index 18 and assigns the codons to “UUU (@)”, “UCC (E)”, “AAG (k)”, and “UCA (F)”. Get the corresponding bitmap.
- the bitmap of the codon code "UUU (@)” be the bitmap b_UUU.
- the bitmap of the codon code "UCC (E)” be the bitmap b_UCC.
- the bitmap of the codon code "AAG (k)” be the bitmap b_AAG.
- the bitmap of the codon code "UCA (F)” be the bitmap b_UCA.
- the generation unit 33 acquires the bitmap b_UUU (see 1-a in FIG. 9) and shifts the bitmap b_UUU to the left to generate the bitmap b20 (see 1-b in FIG. 9).
- the generation unit 33 acquires the bitmap b_UCC and generates the bitmap b21 by performing an AND operation on the bitmap b_UCC and the bitmap b20 (see 2-a in FIG. 9). Since “1" stands at the offsets "8" and "n + 1" of the bitmap b21, it can be seen that the codons "UUU (@) and UCC (E)" are included in the offsets 7 to 8 and n to n + 1. (See 2-b in FIG. 9).
- the generation unit 33 generates the bitmap b22 by shifting the bitmap b21 to the left.
- the generation unit 33 acquires the bitmap b_AAG and ANDs the bitmap b_AAG and the bitmap b22 to generate the bitmap b23. Since “1” stands at the offsets "9” and "n + 2" of the bitmap b23, the codons "UUU (@), UCC (E), AAG (k)" are set at the offsets 7 to 9 and n to n + 2. It turns out that it is included.
- the generation unit 33 generates the bitmap b24 by shifting the bitmap b23 to the left.
- the generation unit 33 acquires the bitmap b_UCA and ANDs the bitmap b_UCA and the bitmap b24 to generate the bitmap b25. Since “1” stands at the offsets "10" and “n + 3" of the bitmap b25, the codons "UUU (@), UCC (E), AAG (k), UCA” are set at the offsets 7 to 10 and n to n + 3. It can be seen that "(F)" is included.
- the generation unit 33 generates the bitmap b26 by shifting the bitmap b25 to the left.
- the bitmap b_UGG corresponding to the codon "UGG (O)” is acquired.
- Bitmap b27 is generated by ANDing bitmap b_UGG and bitmap b26. Since "1" stands only at the offset "n + 4" of the bitmap b27, the codons "UUU (@), UCC (E), AAG (k), UCA (F), UGG (O) are set at the offsets n to n + 4. ) ”Is included, and it can be seen that multiple candidates have been narrowed down to one.
- the generation unit 33 performs the codon code sequence (5) “UUU (@), UCC (E), AAG (k), UCA” in the reference codon data 17.
- UGG (O) is included and the partial reference codon data 19 is identified and extracted.
- the generation unit 33 also repeatedly executes the above processing for the other divided codon data 15, to identify and extract the partial reference codon data 19 included in the reference codon data 17.
- the generation unit 33 detects the gene mutation by comparing the partial reference codon data 19 extracted in FIG. 7 with the fragmented codon data 15 of the individual genome, and identifies the type and position thereof.
- the position of the gene mutation will be described with an example specified by the bit position (0 to).
- the codon code (reference codon data 17) of the reference genome corresponding to the bit position “0, 1, 2, 3” is “UUU, UCC, AAG, UGA”, and the codon code of the individual genome. (Divided codon data 15) is "UUU, UCC, AAG, UGG".
- the SNPs inverted index 20 of the individual genome corresponding to the reference inverted index 18 will be described.
- a comprehensive bitmap of U, C, A, and G is provided for each of the third, second, and first bases according to the three bases of the codon. (The comprehensive bitmap can be omitted.)
- the comprehensive bitmap can be omitted.
- the generation unit 33 compares the extracted partial reference codon data 19 and the divided codon data 15 on a codon basis, detects different codons “UCA” and “UCG”, and detects a third base.
- the gene mutation of "** G" is specified as a bitmap and its position.
- the generation unit 33 sets “1” at the corresponding bit positions of “comprehensive” and “** G” of the bitmap of the third base as the SNPs inverted index 20.
- the generation unit 33 when comparing the reference genome and the individual genome, narrows down the position of the reference codon sequence and compares from the narrowed down position. Then, the generation unit 33 can detect a codon sequence partially different from the reference genome in the individual genome and specify the type and position of the gene mutation. Therefore, the generation unit 33 extracts the partial reference codon data 19 using the reference inverted index 18 without linking the divided individual genomes, and performs the codon sequence comparison process and the SNPs inverted index 20 generation process. Can be run at the same time.
- the output unit 34 is a processing unit that outputs the SNPs inverted index 20 generated by the generation unit 33. For example, the output unit 34 displays and outputs the SNPs inverted index 20 on a predetermined display, and transmits the SNPs inverted index 20 to a predetermined destination.
- FIG. 12 is a flowchart showing the flow of processing according to the first embodiment.
- the information processing apparatus 10 executes the precondition processing (S101). Specifically, the information processing apparatus 10 receives the reference genome data 16 (S101-1), encodes (compresses) the reference genome data 16 in codon units based on the codon conversion table 14, and obtains the reference codon data 17. Generate (S101-2). Then, the information processing apparatus 10 generates the reference inverted index 18 based on the reference codon data 17 (S101-3).
- the acquisition unit 31 acquires each fragmented genomic data (S102), and the coding unit 32 encodes each fragmented genomic data in codon units based on the codon conversion table 14 to generate each fragmented codon data 15 (S). S103).
- the generation unit 33 extracts the partial reference codon data 19 for each divided codon data 15 while being divided using the reference inverted index 18 (S104). After that, the generation unit 33 compares the extracted partial reference codon data 19 with each fragmented codon data 15 to identify the type and position of the gene mutation (S105), and generates the SNPs inverted index 20 (S106).
- the information processing apparatus 10 compresses and encodes the base sequence of the reference genome in codon units to generate a bitmap-type inverted index corresponding to the codon. Further, the information processing apparatus 10 compresses and encodes the base sequence of the divided individual genome in units of codons, executes the longest matching character string search using the translocation index of the reference genome, narrows down the region, and divides each. Extract the partial reference genome corresponding to the base sequence. At the same time, the information processing apparatus 10 compares the partial reference genome with the fragmented individual genome on a codon-by-codon basis to generate a bitmap-type inverted index of SNPs.
- the information processing apparatus 10 can analyze the gene mutation and generate the SNPs inverted index by codon coding without linking the divided individual genomes, so that the analysis time of the individual genome can be shortened and the analysis time of the individual genome can be shortened. , The data size can be reduced.
- the index size can be increased, but the narrowing down can be speeded up. For example, by expanding to 2 grams, the size will increase from 64 to 4096 (64x64), but the narrowing down will be halved.
- the SNPs inverted index can be hashed with adjacent prime numbers in the same way as the text inverted index. Since it can be compressed to a capacity of 6 to 8 bits per SNPs, the SNPs inverted index per person is about several KB. On the other hand, if SNPs are contained near the beginning of the fragmented genomic data, the extraction of the partial reference codon data fails, but the codons after the SNPs may be narrowed down again.
- FIG. 13 is a diagram illustrating a system configuration example according to the second embodiment.
- the joint analysis center and each hospital are connected to each other via a network so as to be able to communicate with each other.
- Each of the integrated center and each hospital has an information processing apparatus 10 having the functions described in the first embodiment.
- the information processing apparatus 10 of each hospital analyzes the individual genome of the patient, generates an electronic medical record, and analyzes the causal relationship with cancer. Then, the information processing device 10 of each hospital transmits the causal relationship to the information processing device 10 of the joint analysis center. By doing so, the information processing apparatus 10 of the Joint Analysis Center can collect the causal relationships executed in each hospital.
- FIG. 14 is a diagram for explaining the analysis 1 of the causal relationship at each hospital according to the second embodiment
- FIG. 15 is a diagram for explaining the analysis 2 of the causal relationship at each hospital according to the second embodiment.
- the analysis process described with reference to FIGS. 14 and 15 is executed by, for example, the generation unit 33.
- the information processing apparatus 10 of each hospital acquires the individual genome of each patient and generates a bitmap type SNPs inverted index 20 corresponding to each patient by using the method according to Example 1.
- the information processing apparatus 10 detects a special gene mutation during the analysis of the gene mutation in the fragmented genome data 13 of each individual genome, the information processing apparatus 10 stores detailed information in the dynamic dictionary. The storage of the codon sequence in the coding unit can be omitted.
- the information processing apparatus 10 extracts SNPs common to each disease by performing an AND operation (logical product) on the SNPs inverted index 20 corresponding to each patient with a disease such as cancer, and causes and effects with each disease. Generate an SNPs inverted index showing the relationship.
- FIG. 14 shows an AND operation of the SNPs inverted index 20 common to each patient diagnosed with cancer ⁇ .
- the information processing apparatus 10 executes an AND operation of the SNPs inverted index 20 of each patient (n) from the patient (1) of the cancer ⁇ to generate an SNPs inverted index common to the cancer ⁇ .
- the SNPs of the cancer ⁇ since the m-th bit and the n-th bit are set to "1" in common to n people, the SNPs of the cancer ⁇ in which the m-th bit and the n-bit th are set to "1". An inverted index is generated.
- FIG. 15 shows the AND operation of the SNPs inverted index 20 common to each patient diagnosed with cancer ⁇ .
- the information processing apparatus 10 executes an AND operation of the SNPs inverted index 20 of each patient (n) from the patient (1) of the cancer ⁇ to generate an SNPs inverted index common to the cancer ⁇ .
- the SNPs of cancer ⁇ in which "1" is set to the o-bit and p-bit are set.
- An inverted index is generated.
- the information processing apparatus 10 of each hospital transmits the SNPs inverted index corresponding to each cancer to the Joint Analysis Center as a causal relationship indicating the analysis result.
- the information processing apparatus 10 of each hospital generates data having a header part, an encoding part, and a trailer part, and each part is AES (Advanced Encryption Standard) block cipher with a plurality of different passwords. After converting it, send it to the Integrated Analysis Center.
- the header part is set with the genome ID and the target cancer information
- the coding part is set with the codon sequence
- the trailer part is an SNPs inverted index or a dynamic dictionary showing the analyzed causal relationship. Is set.
- the password may be notified separately to the Joint Analysis Center, or may be predetermined between each hospital and the Joint Analysis Center.
- hashing and encryption adjacent prime numbers selected when hashing the SNPs inverted index are stored in the header section.
- the header part is AES block-encrypted with a password different from the SNPs inverted index, so that the confidentiality can be further improved.
- the electronic medical record and the genome can be linked between the Joint Analysis Center and the hospital, and the causal relationship between cancer and SNPs can be analyzed by the SNPs inverted index. It can be useful for medical treatment such as prevention and analysis of.
- SNPs of personal information contained in the genome can be protected by multi-layered encryption with a plurality of different passwords.
- FIG. 16 is a diagram illustrating a system configuration example according to the third embodiment.
- the joint analysis center and each hospital are connected to each other via a network so as to be communicable with each other, as in the second embodiment.
- Each of the integrated center and each hospital has an information processing apparatus 10 having the functions described in the first embodiment.
- the information processing apparatus 10 of the Joint Analysis Center collects data on causal relationships corresponding to diseases such as cancer from each hospital by using, for example, the method described in Example 2. Then, the information processing apparatus 10 of the Joint Analysis Center decodes the collected data and analyzes the integrated causal relationship common to each hospital.
- FIG. 17 is a diagram for explaining the integrated analysis 1 of the causal relationship at the joint analysis center according to the third embodiment
- FIG. 18 is a diagram for explaining the integrated analysis 2 of the causal relationship at the joint analysis center according to the third embodiment. It is a figure.
- the analysis process described with reference to FIGS. 17 and 18 is executed by, for example, the generation unit 33.
- the Joint Analysis Center collects causal analysis results from each hospital and decodes them to acquire SNPs inverted indexes corresponding to diseases such as each cancer. Then, the Joint Analysis Center extracts SNPs common to each cancer by performing an AND operation (logical product) on the SNPs inverted index acquired from each hospital for each cancer, and generates an inverted index for each cancer. do.
- FIG. 17 shows an example in which an integrated analysis of cancer ⁇ is performed by performing an AND operation of each SNPs inverted index 20 of cancer ⁇ .
- the information processing apparatus 10 executes an AND operation of the SNPs inverted index of the cancer ⁇ generated in each of the n hospitals (from the hospital x to the hospital n), and obtains the SNPs inverted index common to the cancer ⁇ . Generate.
- SNPs inverted index of SNPs is generated as an integrated analysis result.
- FIG. 17 shows an example of performing an integrated analysis of cancer ⁇ by performing an AND operation on each SNPs inverted index of cancer ⁇ .
- the information processing apparatus 10 executes an AND operation of the SNPs inverted index of the cancer ⁇ generated in each of the n hospitals (hospital x to hospital n), and obtains the SNPs inverted index common to the cancer ⁇ . Generate.
- SNPs inverted index of SNPs is generated as an integrated analysis result.
- a comprehensive bitmap of the third base is shown, but individual bitmaps of "U", “C", “A”, and “G” may be used for analysis.
- the Comprehensive Analysis Center can further analyze the causal relationship between cancer and SNPs by AND calculation based on the data received from each hospital.
- the Comprehensive Analysis Center can distribute the integrated analysis results of the causal relationship between cancer and SNPs to each hospital.
- the Joint Analysis Center distributes the integrated analysis results (SNPs inverted index) corresponding to each disease such as cancer to each hospital by using the transmission method described in Example 2.
- FIG. 19 is a diagram illustrating a system configuration example according to the fourth embodiment.
- the joint analysis center and each hospital are connected to each other via a network so as to be communicable with each other, as in the second and third embodiments.
- Each of the integrated center and each hospital has an information processing apparatus 10 having the functions described in the first embodiment.
- the Joint Analysis Center generates an integrated analysis result (SNPs inverted index) of the causal relationship between cancer and SNPs by using, for example, the method described in Example 3. Then, the joint analysis center distributes the integrated analysis result to each hospital by using the method described in the second embodiment. After that, each hospital decodes the delivered integrated analysis result and uses it to perform a cancer diagnosis.
- SNPs inverted index integrated analysis result
- FIG. 20 is a diagram illustrating a canceration diagnosis at each hospital using the integrated analysis results according to Example 4.
- the analysis process described with reference to FIG. 20 is executed by, for example, the generation unit 33.
- the information processing apparatus 10 of each hospital generates an SNPs inverted index 20 of a new patient by using the method according to the first embodiment. Subsequently, the information processing apparatus 10 of each hospital performs an AND calculation between the SNPs inverted index 20 of the new patient and the integrated analysis result (SNPs inverted index) of each cancer acquired from the joint analysis center, thereby performing the AND calculation of the new patient. Make a cancer diagnosis.
- preventive diagnosis of diseases such as canceration at each hospital.
- preventive diagnosis can be performed using an integrated SNPs inverted index that uses causal relationships collected from each hospital, statistically accurate, resource-saving, and high-speed preventive diagnosis can be achieved. It can be useful for early detection of cancer.
- the integrated analysis results for each cancer type generated by the Joint Analysis Center are an example of a statistical inverted index.
- the codon conversion table 14 is an example of codon conversion information
- the reference codon data 17 is an example of reference coded data
- the SNPs inverted index 20 is an example of a gene mutation inverted index.
- the acquisition unit 31 is an example of an acquisition unit
- the coding unit 32 is an example of a generation unit that generates a plurality of split codon data
- the generation unit 33 is a generation unit that generates a specific unit and a gene mutation inverted index. This is an example.
- each component of each device shown in the figure is a functional concept, and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution or integration of each device is not limited to the one shown in the figure. That is, all or a part thereof can be functionally or physically distributed / integrated in any unit according to various loads, usage conditions, and the like.
- each processing function performed by each device may be realized by a CPU and a program analyzed and executed by the CPU, or may be realized as hardware by wired logic.
- FIG. 21 is a diagram illustrating a hardware configuration example.
- the information processing device 10 includes a communication device 10a, an HDD (Hard Disk Drive) 10b, a memory 10c, and a processor 10d. Further, the parts shown in FIG. 21 are connected to each other by a bus or the like.
- HDD Hard Disk Drive
- the communication device 10a is a network interface card or the like, and communicates with other servers.
- the HDD 10b stores a program or DB that operates the function shown in FIG.
- the processor 10d reads a program that executes the same processing as each processing unit shown in FIG. 2 from the HDD 10b or the like and expands the program into the memory 10c to operate a process that executes each function described in FIG. 2 or the like. For example, this process executes the same function as each processing unit of the information processing apparatus 10. Specifically, the processor 10d reads a program having the same functions as the acquisition unit 31, the coding unit 32, the generation unit 33, the output unit 34, and the like from the HDD 10b and the like. Then, the processor 10d executes a process of executing the same processing as the acquisition unit 31, the coding unit 32, the generation unit 33, the output unit 34, and the like.
- the information processing device 10 operates as an information processing device that executes an information processing method by reading and executing a program. Further, the information processing apparatus 10 can realize the same function as that of the above-described embodiment by reading the program from the recording medium by the medium reader and executing the read program.
- the program referred to in the other embodiment is not limited to being executed by the information processing apparatus 10.
- the present invention can be similarly applied when other computers or servers execute programs, or when they execute programs in cooperation with each other.
- This program can be distributed via networks such as the Internet.
- this program is recorded on a computer-readable recording medium such as a hard disk, flexible disk (FD), CD-ROM, MO (Magneto-Optical disk), DVD (Digital Versatile Disc), and is recorded from the recording medium by the computer. It can be executed by being read.
- Information processing device 11 Communication unit 12 Storage unit 13 Split genome data 14 Codon conversion table 15 Split codon data 16 Reference genome data 17 Reference codon data 18 Reference inverted index 19 Partial reference codon data 20 SNPs inversion index 30 Control unit 31 Acquisition unit 32 Encoding unit 33 Generation unit 34 Output unit
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
情報処理装置は、特定の個人のゲノム情報である複数に分断された分断ゲノムデータを取得する。情報処理装置は、コドンと符号とを対応付けたコドン変換テーブルに基づき、複数の分断ゲノムデータそれぞれをコドン単位に符号化した複数の分断コドンデータを生成する。情報処理装置は、基準となる基準ゲノムデータをコドン単位に符号化した基準コドンデータと、複数の分断コドンデータそれぞれとに基づき、複数の分断コドンデータに出現する符号のうち、基準コドンデータに出現する符号と異なる遺伝子変異が出現する位置と種別を特定する。情報処理装置は、遺伝子変異と遺伝子変異が出現する位置と種別を対応付けた遺伝子変異転置インデックスを生成する。
Description
本発明は、情報処理プログラム、情報処理方法および情報処理装置に関する。
近年、人間や生物のDNA(Deoxyribonucleic Acid)およびRNA(Ribonucleic Acid)を構成するゲノムを分析することで、新型ウィルスの影響力を予測し、ワクチンなどが開発されている。また、ゲノムを基にして、癌などの突然変異(点突然変異)や遺伝子変異の遺伝子の異常を検出したり、病気を予防診断したりする研究が行われている。
具体的には、ヒトゲノムの塩基配列を位置に対応付けて記憶し、個体間の相違を有益な意味情報として提供する技術が知られている。例えば、ゲノムの分析サービス等の要求情報に応じた塩基配列の位置情報を取得して、取得した位置情報に対応付けられる塩基配列情報を応答する。
ところが、シーケンサーから、出力される塩基配列は、数百B(Byte)毎に分断されている。さらに、ヒトゲノムの塩基配列のデータサイズは、3GB(Byte)と非常に大きい。
従来では、個人ゲノムの塩基配列を分断された状態で取得するため、分断された塩基配列を連結することが行われている。連結する技術としては、BW(Burrows-Wheeler)変換またはブロックソートなどが利用されることが多いが、分断された部分を探索して連結するため、分析時間が非常に長くなる。したがって、塩基配列の分析時間の長さと連結後のデータサイズが課題である。
一つの側面では、個人ゲノムの分析時間を短縮し、データサイズを縮小することができる情報処理プログラム、情報処理方法および情報処理装置を提供することを目的とする。
第1の案では、情報処理プログラムは、コンピュータに、特定の個人のゲノム情報である複数に分断された分断ゲノムデータを取得する処理を実行させる。情報処理プログラムは、コンピュータに、コドンと符号とを対応付けたコドン変換テーブルに基づき、複数の分断ゲノムデータそれぞれをコドン単位に符号化した複数の分断コドンデータを生成する処理を実行させる。情報処理プログラムは、コンピュータに、基準となる基準ゲノムデータをコドン単位に符号化した基準コドンデータと、前記複数の分断コドンデータそれぞれとに基づき、前記複数の分断コドンデータに出現する前記符号のうち、前記基準コドンデータに出現する前記符号と異なる遺伝子変異が出現する位置と種別を特定する処理を実行させる。情報処理プログラムは、コンピュータに、前記遺伝子変異と前記遺伝子変異が出現する位置と種別を対応付けた遺伝子変異転置インデックスを生成する処理を実行させる。
一実施形態によれば、個人ゲノムの分析時間を短縮し、データサイズを縮小することができる。
以下に、本発明にかかる情報処理プログラム、情報処理方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
[情報処理装置10の説明]
図1は、実施例1にかかる情報処理装置10の動作を説明する図である。図1に示す情報処理装置10は、分析対象である個人のゲノムの塩基配列データを分析して、基準となる正常な塩基配列データと異なる配列箇所を特定することで、個人ゲノムの特性を分析し、病気の予防診断を実現するコンピュータ装置の一例である。なお、本実施例では、個人のゲノムの塩基配列データを「個人ゲノム」や「個人ゲノムデータ」と記載する場合があり、基準となる正常な塩基配列データを「基準ゲノム」や「基準ゲノムデータ」と記載する場合がある。
図1は、実施例1にかかる情報処理装置10の動作を説明する図である。図1に示す情報処理装置10は、分析対象である個人のゲノムの塩基配列データを分析して、基準となる正常な塩基配列データと異なる配列箇所を特定することで、個人ゲノムの特性を分析し、病気の予防診断を実現するコンピュータ装置の一例である。なお、本実施例では、個人のゲノムの塩基配列データを「個人ゲノム」や「個人ゲノムデータ」と記載する場合があり、基準となる正常な塩基配列データを「基準ゲノム」や「基準ゲノムデータ」と記載する場合がある。
まず、ゲノムは、DNAまたはRNAの塩基配列である遺伝子情報である。次に、3つの塩基であるコドンが、アミノ酸を決定し、複数のアミノ酸はタンパク質を構成する。さらに、複数のタンパク質が結合し、一次構造、二次構造、三次(高次)構造を形成する。
一方、DNAまたはRNAの塩基は4種類で、「A」、「G」、「C」、「T」または「U」の記号で示される。また、3つの塩基配列がひとかたまりで、「コドン」と呼ばれ、64種であり、20種類のアミノ酸を決定する。それぞれのアミノ酸は、「A」~「Y」の記号で示される。一つのアミノ酸に対して、複数種類のコドンが対応付けられる。このため、たとえばアミノ酸「アラニン(Ala)」は、コドン「GCU」、「GCC」、「GCA」、および、「GCG」に対応付けられる。第3塩基が異なっても、同じアミノ酸となる特徴を持つ。
図1に示すように、情報処理装置10は、コドンと当該コドンに割当てられた圧縮符号(以下では単に「符号」と記載する場合がある)とを対応付けたコドン変換テーブルを保持する。例えば、コドン変換テーブルには、「コドン、符号」として「UUU、@」などが対応付けられる。
そして、情報処理装置10は、コドン変換テーブルを用いて、基準ゲノムデータ「UUU・・・」をコドン単位で符号化した基準コドンデータ「@Ek・・・」を生成する。また、情報処理装置10は、基準コドンデータにおけるコドンの符号と出現位置とを対応付けたビットマップ型の基準転置インデックスを生成する。
このような状態において、情報処理装置10は、個人ゲノムを解読するシーケンサーから、分断ゲノムデータα~ηを取得する。すると、情報処理装置10は、分断ゲノムデータα~ηそれぞれを分断されたまま、コドン変換テーブルを参照して、コドン単位で符号化することにより、分断コドンデータα~ηを生成する。
そして、情報処理装置10は、分断コドンデータα~ηそれぞれを順に、基準転置インデックスを用いて、基準コドンデータから、部分基準コドンデータを抽出する。分断コドンデータと部分基準コドンデータをコドン単位に、順に比較することで、個人間の遺伝情報のわずかな違いを示す一塩基多型(以降、遺伝子変異と呼ぶ)を検出し、変異の種類とその位置を対応付けたビットマップ型のSNPs転置インデックス(遺伝子変異転置インデックス)を生成する。
このとき、情報処理装置10は、分断コドンデータα~ηを連結することなく、基準転置インデックスを用いて、分断コドンデータに該当するコドン配列の絞り込みを行い、部分基準コドンデータを抽出することで、SNPs転置インデックスの生成を高速化できる。例えば、情報処理装置10は、基準ゲノムの基準転置インデックスから、予め指定した探索対象となる基準コドン配列「UUU,UCC,AAG,UCA,UGG」の符号化データ「@、E,k,F,O」が出現する位置を最長一致文字列探索により、絞り込む。
ここで、情報処理装置10は、分断コドンデータと、抽出された部分基準コドンデータとをコドン単位に比較し、異なるコドンの遺伝子変異を検出する。そして、情報処理装置10は、転置インデックスを「0」で初期化し、異なるコドンの塩基とその位置に対応したビットのみに「1」をセットすることで、全ての分断コドンデータを連結することなく、SNPs転置インデックス20を生成することができる。
このように、情報処理装置10は、個人ゲノムが分断されている場合であっても、分断されたままで、遺伝子変異を分析することができるので、個人ゲノムの分析時間を短縮することができる。
[機能構成]
図2は、実施例1にかかる情報処理装置10の機能構成を示す機能ブロック図である。図2に示すように、情報処理装置10は、通信部11、記憶部12、制御部30を有する。
図2は、実施例1にかかる情報処理装置10の機能構成を示す機能ブロック図である。図2に示すように、情報処理装置10は、通信部11、記憶部12、制御部30を有する。
通信部11は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどにより実現される。例えば、通信部11は、個人ゲノムの提供元であるシーケンサーとの間でデータの送受信を実行し、数百B毎に分断された分断ゲノムデータ13α~13ηを受信する。
記憶部12は、各種データや制御部30が実行する各種プログラムなどを記憶する処理部であり、例えばメモリやハードディスクなどにより実現される。この記憶部12は、分断ゲノムデータ13、コドン変換テーブル14、分断コドンデータ15、基準ゲノムデータ16、基準コドンデータ17、基準転置インデックス18、部分基準コドンデータ19、SNPs転置インデックス20を記憶する。
分断ゲノムデータ13は、分析対象の個人ゲノムが所定サイズで分断された分断塩基配列データである。例えば、分断ゲノムデータ13は、個人ゲノム「UUUUUCA・・・」から生成された分断ゲノムデータ13α「UUU・・・」から分断ゲノムデータ13η「・・・C」を含むデータである。この分断ゲノムデータ13は、制御部30により取得される。
コドン変換テーブル14は、塩基配列を符号化する際に使用される情報であって、コドンと符号とを対応付けて記憶する。具体的には、コドン変換テーブル14は、出現頻度が高い高頻出コドンと当該高頻出コドンに割当てられた符号とを対応付けた変換情報である。
図3は、コドン変換テーブル14の例を示す図である。図3に示すように、例えば、コドン「UUU」の符号は「40h(01000000)」となる。「h」は16進数を示すものである。なお、本実施例においては、コドン「UUU」が符号化された場合「40h(01000000)」と記載するところを、説明を分かりやすくするために、「UUU(40h)」などを表記する。また、「UUU(40h)」を記号化して「UUU(@)」などを表記することがある。
基準ゲノムデータ16は、基準となるヒトゲノムの塩基配列データである。例えば、日本人基準ゲノムは、東北大学東北メディカル・メガバンク機構で公開されている。なお、基準ゲノムデータ16は、予め記憶されていてもよく、制御部30によって指定されたサーバ等から取得することもできる。
基準コドンデータ17は、基準ゲノムデータ16をコドン単位で符号化した符号化データである。図4は、基準コドンデータ17の例を示す図である。図4に示すように、基準コドンデータ17には、複数のコドンが配列されている。なお、基準コドンデータ17は、予め記憶されていてもよく、制御部30によって生成することもできる。
基準転置インデックス18は、基準コドンデータ17におけるコドンの符号と出現位置とを対応付けたビットマップ型の転置インデックスである。図5は、基準転置インデックス18の例を示す図である。
図5に示すように、基準転置インデックス18の横軸は、オフセットに対応する軸である。基準転置インデックス18の縦軸は、コドンの種別(コドンの符号)に対応する軸である。基準転置インデックス18は、「0」または「1」のビットマップで示され、初期状態では全てのビットマップが「0」に設定される。例えば、基準転置インデックス18の先頭のコドンの符号のオフセットを「0」とする。基準転置インデックス18の先頭から7番目の位置に、コドンの符号「(AUG)63h」が含まれる場合、基準転置インデックス18のオフセット「6」の列と、コドンの符号「(AUG)63h」の行とが交差する位置のビットが「1」となる。なお、基準転置インデックス18は、予め記憶されていてもよく、制御部30によって生成することもできる。
SNPs転置インデックス20は、個人ゲノムに対する遺伝子変異のビットマップ型の転置インデックスである。具体的には、SNPs転置インデックス20は、各分断コドンデータ15と、基準コドンデータ17から抽出された部分基準コドンデータ19とを比較し、異なる遺伝子変異の種類と位置を対応付けたビットマップ型の転置インデックスである。なお、SNPs転置インデックス20の構造は基準転置インデックス18と同様なので、その説明は省略する。例えば、SNPs転置インデックス20は、第3塩基SNPsなどの所定SNPsの種類ごとにビットマップが設けられる。
制御部30は、情報処理装置10全体を司る処理部であり、例えばプロセッサなどである。この制御部30は、取得部31、符号化部32、生成部33、出力部34を有する。なお、取得部31、符号化部32、生成部33、出力部34は、プロセッサが有する電子回路やプロセッサが実行するプロセスなどにより実現される。
取得部31は、分断ゲノムデータ13を取得する処理部である。例えば、取得部31は、指定の提供元から、分断ゲノムデータ13を取得して記憶部12に格納する。なお、取得部31は、定期的に取得することでもでき、提供元から送信された分断ゲノムデータ13を受信することもできる。
符号化部32は、分断ゲノムデータ13を符号化する処理部である。図6は、分断ゲノムデータ13の符号化を説明する図である。図6に示すように、符号化部22は、分断ゲノムデータ13に含まれる分断ゲノムデータ13α「UUU・・・」から分断ゲノムデータ13η「・・・C」それぞれを、コドン変換テーブル14に基づき、3つ塩基記号をコドンに符号化することで、分断コドンデータα「UUU・・・」から分断コドンデータη「・・・C」を生成する。
このとき、符号化部32は、コドン変換テーブル14に登録されている3塩基の配列に対してコドンの符号を割当てて符号化する。
生成部33は、SNPs転置インデックス20を生成する処理部である。具体的には、生成部33は、ある個人の個人ゲノムの分断ゲノムデータ13が取得された場合に、その分断ゲノムを分析して、遺伝子変異を示すビットマップ型のSNPs転置インデックス20を生成する。
例えば、生成部33は、分断コドンデータα~ηそれぞれを順に、基準コドンデータ17から、基準転置インデックス18を用いて、部分基準コドンデータ19を抽出し、順に比較する。そして、生成部23は、各分断コドンデータに含まれる遺伝子変異を検出し、遺伝子変異の種類とその位置を対応付けたビットに「1」を設定しSNPs転置インデックス20を生成して記憶部12に格納する。
ここで、生成部33は、分断コドンデータα~ηから基準転置インデックス18を用いて、部分基準コドンデータ19を抽出することで、SNPs転置インデックス20の生成を高速化することができる。そこで、図7から図11を用いて、抽出処理とSNPs転置インデックス20の生成とを具体的に説明する。図7は、部分基準コドンデータの抽出の概要を説明する図であり、図8は、コドン配列と基準転置インデックス18によるコドン配列の絞り込みを説明する図である。図9は、基準転置インデックス18によるコドン配列の絞り込みを説明する図である。図10は、基準ゲノムと個人ゲノムとSNPs転置インデックス20を説明する図である。図11は、コドン配列の比較とSNPs転置インデックス20の生成との同時実行を説明する図である。
図7に示すように、生成部33は、分断コドンデータα~ηを取得する。続いて、生成部33は、基準コドンデータ17に対し、予め生成された基準転置インデックス18を用いて、分断コドンデータ15のコドン配列を入力として最長一致文字列探索を行う。これにより、探索対象の基準コドン配列(所定タンパク質の特徴的な配列)である、基準コドン配列(4)「UUU(@),UCC(E),AAG(k)、UCA(F)」と、基準コドン配列(5)「UUU(@),UCC(E),AAG(k)、UCA(F)、UGG(O)」を順に絞り込む。そして、生成部33は、分断コドンデータ15に対応する部分基準コドンデータ19を特定し、高速に抽出することができる。
図8には、基準コドンデータ17に対し生成された基準転置インデックス18の一例を示す。例えば、コドンの符号「UUU(@)」は、オフセット7番目に出現するので、基準コドンデータ17におけるコドンの符号「UUU(@)」のビットマップの7ビット目に「1」が設定される。同様に、コドンの符号「UGG(O)」は、10番目と30番目に出現するので、基準コドンデータ17におけるコドンの符号「UGG(O)」のビットマップの10ビット目と30ビット目のそれぞれに「1」が設定される。
このように、基準転置インデックス18を用いて絞り込みを行う例を、図9を用いて説明する。具体的には、生成部33は、基準転置インデックス18から、コドン配列(4)「UUU(@),UCC(E),AAG(k)、UCA(F)」やコドン配列(5)「UUU(@),UCC(E),AAG(k)、UCA(F)、UGG(O)」の探索について、ビットマップのシフトとAND演算を行う。つまり、生成部33は、基準転置インデックス18のビットマップの論理演算において、複数の「1」が単一の「1」に絞り込まれる、コドン配列を特定し、抽出する。
ここでは一例として、図9において、基準転置インデックス18を用いて、コドン配列(4)「UUU(@),UCC(E),AAG(k)、UCA(F)」に対応して、基準コドンデータ17がどのように絞り込まれるかについて説明する。図9に示すように、生成部23は、基準転置インデックス18を参照し、各コドン「UUU(@)」,「UCC(E)」,「AAG(k)」、「UCA(F)」に対応するビットマップを取得する。コドンの符号「UUU(@)」のビットマップをビットマップb_UUUとする。コドンの符号「UCC(E)」のビットマップをビットマップb_UCCとする。コドンの符号「AAG(k)」のビットマップをビットマップb_AAGとする。コドンの符号「UCA(F)」のビットマップをビットマップb_UCAとする。
生成部33は、ビットマップb_UUUを取得し(図9の1-a参照)、ビットマップb_UUUを左シフトすることで、ビットマップb20を生成する(図9の1-b参照)。生成部33は、ビットマップb_UCCを取得し、ビットマップb_UCCと、ビットマップb20とをAND演算することで、ビットマップb21を生成する(図9の2-a参照)。ビットマップb21のオフセット「8」と「n+1」に「1」が立っているため、オフセット7~8とn~n+1に、コドン「UUU(@),UCC(E)」が含まれることが分かる(図9の2-b参照)。
このように左シフトとAND演算により、連続して「1」が登場する位置を探索する。詳細には、生成部33は、ビットマップb21を左シフトすることで、ビットマップb22を生成する。生成部33は、ビットマップb_AAGを取得し、ビットマップb_AAGと、ビットマップb22とをAND演算することで、ビットマップb23を生成する。ビットマップb23のオフセット「9」と「n+2」に「1」が立っているため、オフセット7~9とn~n+2に、コドン「UUU(@),UCC(E),AAG(k)」が含まれることが分かる。
生成部33は、ビットマップb23を左シフトすることで、ビットマップb24を生成する。生成部33は、ビットマップb_UCAを取得し、ビットマップb_UCAと、ビットマップb24とをAND演算することで、ビットマップb25を生成する。ビットマップb25のオフセット「10」と「n+3」に「1」が立っているため、オフセット7~10とn~n+3に、コドン「UUU(@),UCC(E),AAG(k)、UCA(F)」が含まれることが分かる。
さらに、生成部33は、ビットマップb25を左シフトすることで、ビットマップb26を生成する。コドン配列(5)「UUU(@),UCC(E),AAG(k)、UCA(F)、UGG(O)」に対し、コドン「UGG(O)」に対応したビットマップb_UGGを取得する。ビットマップb_UGGと、ビットマップb26とをAND演算することで、ビットマップb27を生成する。ビットマップb27のオフセット「n+4」のみに「1」が立っているため、オフセットn~n+4に、コドン「UUU(@),UCC(E),AAG(k)、UCA(F)、UGG(O)」が含まれ、複数の候補が1つにしぼられたことが分かる。
このように、生成部33は、図9に示した処理を実行することで、基準コドンデータ17において、コドン符号配列(5)「UUU(@),UCC(E),AAG(k)、UCA(F)UGG(O)」が含まれる部分基準コドンデータ19を特定し、抽出する。生成部33は、他の分断コドンデータ15についても、上記処理を繰り返し実行することで、基準コドンデータ17に含まれる部分基準コドンデータ19を特定し、抽出する。
次に、生成部33は、図7で抽出された部分基準コドンデータ19と個人ゲノムの分断コドンデータ15とを比較することで、遺伝子変異を検出し、その種類と位置を特定する。ここでは、遺伝子変異の位置をビット位置(0~)にて指定された例で説明する。図10に示すように、ビット位置「0,1,2,3」に該当する基準ゲノムのコドン符号(基準コドンデータ17)が「UUU,UCC,AAG,UGA」であり、個人ゲノムのコドン符号(分断コドンデータ15)が「UUU,UCC,AAG,UGG」である。
この場合、予め、生成部33にて、基準転置インデックス18のコドンの符号「UUU(@)」のビットマップ(ビットマップb_UUU)には、0ビット位置に「1」を設定されている。
次に、基準転置インデックス18に対応した、個人ゲノムのSNPs転置インデックス20について説明する。遺伝子変異の種類は、コドンの3塩基に応じて、第3、第2、第1塩基毎にU、C、A、Gと総合のビットマップが設けられている。(総合のビットマップは省略が可能である。)一般的には、第3塩基の遺伝子変異が多いが、第2塩基や第1塩基は少ない。なお、特殊な遺伝子変異に対するビットマップと詳細な情報を格納する動的辞書も設けられている。
図11に示すように、生成部33は、抽出された部分基準コドンデータ19と分断コドンデータ15をコドン単位で比較し、異なるコドンである「UCA」と「UCG」を検出し、第3塩基の遺伝子変異を「**G」のビットマップとその位置を特定する。この結果、生成部33は、SNPs転置インデックス20として、第3塩基のビットマップの「総合」と「**G」の該当のビット位置に「1」を設定する。
つまり、図11に示すように、生成部33は、基準ゲノムと個人ゲノムとの比較に際し、基準コドン配列の位置を絞り込み、絞り込んだ位置から比較する。そして、生成部33は、個人ゲノムにおいて基準ゲノムと部分的に異なるコドン配列を検出し遺伝子変異の種類と位置を特定することができる。したがって、生成部33は、分断された個人ゲノムを連結することなく、基準転置インデックス18を用いて、部分基準コドンデータ19を抽出し、コドン配列の比較処理とSNPs転置インデックス20の生成処理とを同時に実行することができる。
図2に戻り、出力部34は、生成部33により生成されたSNPs転置インデックス20を出力する処理部である。例えば、出力部34は、所定のディスプレイにSNPs転置インデックス20を表示出力し、所定の宛先にSNPs転置インデックス20を送信する。
[処理の流れ]
図12は、実施例1にかかる処理の流れを示すフローチャートである。図12に示すように、情報処理装置10は、前提処理を実行する(S101)。具体的には、情報処理装置10は、基準ゲノムデータ16を受信し(S101-1)、コドン変換テーブル14に基づき基準ゲノムデータ16をコドン単位に符号化(圧縮)して基準コドンデータ17を生成する(S101-2)。そして、情報処理装置10は、基準コドンデータ17に基づき、基準転置インデックス18を生成する(S101-3)。
図12は、実施例1にかかる処理の流れを示すフローチャートである。図12に示すように、情報処理装置10は、前提処理を実行する(S101)。具体的には、情報処理装置10は、基準ゲノムデータ16を受信し(S101-1)、コドン変換テーブル14に基づき基準ゲノムデータ16をコドン単位に符号化(圧縮)して基準コドンデータ17を生成する(S101-2)。そして、情報処理装置10は、基準コドンデータ17に基づき、基準転置インデックス18を生成する(S101-3)。
その後、取得部31は、各分断ゲノムデータを取得し(S102)、符号化部32は、コドン変換テーブル14に基づき各分断ゲノムデータをコドン単位に符号化して各分断コドンデータ15を生成する(S103)。
そして、生成部33は、基準転置インデックス18を用いて、分断されたまま、各分断コドンデータ15に対する部分基準コドンデータ19を抽出(S104)。その後、生成部33は、抽出した部分基準コドンデータ19と各分断コドンデータ15とを比較して遺伝子変異の種類と位置を特定し(S105)、SNPs転置インデックス20を生成する(S106)。
[効果]
上述したように、情報処理装置10は、基準ゲノムの塩基配列をコドン単位に圧縮符号化し、コドンに対応したビットマップ型の転置インデックスを生成する。また、情報処理装置10は、分断された個人ゲノムの塩基配列をコドン単位に圧縮符号化し、基準ゲノムの転置インデックスを用いて、最長一致文字列探索を実行し、領域を絞り込み、各分断された塩基配列に対応する部分的な基準ゲノムを抽出する。同時に、情報処理装置10は、部分的な基準ゲノムと分断された個人ゲノムをコドン単位で比較し、SNPsのビットマップ型転置インデックスを生成する。したがって、情報処理装置10は、分断された個人ゲノムを連結することなく、コドン符号化により、遺伝子変異を分析し、SNPs転置インデックスを生成することができるので、個人ゲノムの分析時間を短縮、かつ、データサイズを縮小することができる。
上述したように、情報処理装置10は、基準ゲノムの塩基配列をコドン単位に圧縮符号化し、コドンに対応したビットマップ型の転置インデックスを生成する。また、情報処理装置10は、分断された個人ゲノムの塩基配列をコドン単位に圧縮符号化し、基準ゲノムの転置インデックスを用いて、最長一致文字列探索を実行し、領域を絞り込み、各分断された塩基配列に対応する部分的な基準ゲノムを抽出する。同時に、情報処理装置10は、部分的な基準ゲノムと分断された個人ゲノムをコドン単位で比較し、SNPsのビットマップ型転置インデックスを生成する。したがって、情報処理装置10は、分断された個人ゲノムを連結することなく、コドン符号化により、遺伝子変異を分析し、SNPs転置インデックスを生成することができるので、個人ゲノムの分析時間を短縮、かつ、データサイズを縮小することができる。
なお、64種のコドンとその位置に対応付けた、基準転置インデックスに関し、コドンをNグラムに拡張することで、インデックスサイズは大きくなるが、絞り込みを高速化することができる。例えば、2グラムに拡張することで、64種から4096(64x64)種となりサイズが大きくなるが、絞り込みは1/2に高速化される。また、SNPs転置インデックスもテキストの転置インデックスと同様に、隣接する素数でハッシュ化することができる。1つのSNPs当たり、6~8ビットの容量に圧縮できるため、1人当たりのSNPs転置インデックスは、約数KBとなる。一方、もし、分断ゲノムデータの先頭近くにSNPsが含まれていた場合は、部分基準コドンデータの抽出に失敗するが、SNPs以降のコドンから、再度、絞り込みを行えばよい。
実施例2では、病院における癌化診断に適用した例を説明する。図13は、実施例2にかかるシステム構成例を説明する図である。図13に示すシステムは、統合分析センターと各病院とがネットワークを介して相互に通信可能に接続される。統合センターと各病院のそれぞれは、実施例1で説明した機能を有する情報処理装置10を有する。
このようなシステム構成において、各病院の情報処理装置10は、患者の個人ゲノムの分析を行って電子カルテを生成し、癌との因果関係を分析する。そして、各病院の情報処理装置10は、因果関係を統合分析センターの情報処理装置10に送信する。このようにすることで、統合分析センターの情報処理装置10は、各病院で実行された因果関係を収集することができる。
ここで、各病院における因果関係の分析について説明する。図14は、実施例2にかかる各病院での因果関係の分析1を説明する図であり、図15は、実施例2にかかる各病院での因果関係の分析2を説明する図である。なお、図14と図15で説明する分析処理は、例えば生成部33により実行される。
具体的には、各病院の情報処理装置10は、各患者の個人ゲノムを取得し、実施例1による手法を用いることで、各患者に対応するビットマップ型のSNPs転置インデックス20を生成する。このとき、情報処理装置10は、各個人ゲノムの分断ゲノムデータ13の遺伝子変異の分析時に、特殊な遺伝子変異を検出した場合は、詳細情報を動的辞書に格納する。なお、符号化部へのコドン配列の格納は省略することができる。そして、情報処理装置10は、癌など病気の各患者に対応するSNPs転置インデックス20に対してAND演算(論理積)を行うことで、各病気に共通するSNPsを抽出し、各病気との因果関係を示すSNPs転置インデックスを生成する。
例えば、図14は、癌αと診断された各患者に共通するSNPs転置インデックス20のAND演算を示している。具体的には、情報処理装置10は、癌αの患者(1)から患者(n)それぞれのSNPs転置インデックス20のAND演算を実行し、癌αに共通するSNPs転置インデックスを生成する。図14の例では、n人に共通してmビット目とnビット目が「1」が設定されていることより、mビット目とnビット目に「1」が設定された癌αのSNPs転置インデックスが生成される。
また、図15の例は、癌βと診断された各患者に共通するSNPs転置インデックス20のAND演算を示している。具体的には、情報処理装置10は、癌βの患者(1)から患者(n)それぞれのSNPs転置インデックス20のAND演算を実行し、癌βに共通するSNPs転置インデックスを生成する。図15の例では、n人に共通してoビット目とpビット目が「1」が設定されていることより、oビット目とpビット目に「1」が設定された癌βのSNPs転置インデックスが生成される。なお、SNPs転置インデックスの一例として、第3塩基の総合のビットマップを示したが、「U」「C」「A」「G」の個別のビットマップで分析しても良い。また、複数の隣接するSNPsが相互に影響する場合、「1」の領域を拡大しAND演算することで、「0」クリアを防止することができる。
そして、各病院の情報処理装置10は、分析結果を示す因果関係として、各癌に対応するSNPs転置インデックスを統合分析センターに送信する。例えば、図13に示すように、各病院の情報処理装置10は、ヘッダ部と符号化部とトレーラ部とを有するデータを生成し、各部を複数の異なるパスワードでAES(Advanced Encryption Standard)ブロック暗号化した上で、統合分析センターに送信する。なお、ヘッダ部には、ゲノムIDや対象の癌情報が設定され、符号化部には、コドン配列が設定され、トレーラ部には、分析された因果関係を示すSNPs転置インデックスや動的辞書などが設定される。また、パスワードは、統合分析センターに別途通知してもよく、各病院と統合分析センターとの間で予め決められていてもよい。なお、ハッシュ化と暗号化に関し、SNPs転置インデックスをハッシュ化する時に選択された、隣接する素数はヘッダ部に格納される。その時SNPs転置インデックスとは異なるパスワードでヘッダ部がAESブロック暗号化されることで、さらに秘匿性を向上することができる。
このように、実施例2による手法を用いることで、統合分析センターと病院との間で、電子カルテとゲノムを紐づけ、SNPs転置インデックスにより癌とSNPsの因果関係を分析することができ、癌の予防や分析などの医療に役立てることができる。また、複数の異なるパスワードで多階層の暗号化により、ゲノムに含まれる個人情報のSNPsを保護することができる。
実施例3では、統合分析センターが、各病院から癌化の因果関係を収集して、各癌化を統合的に分析する例を説明する。図16は、実施例3にかかるシステム構成例を説明する図である。図16に示すシステムは、実施例2と同様、統合分析センターと各病院とがネットワークを介して相互に通信可能に接続される。統合センターと各病院のそれぞれは、実施例1で説明した機能を有する情報処理装置10を有する。
このようなシステム構成において、統合分析センターの情報処理装置10は、例えば実施例2で説明した手法を用いて、各病院から各癌などの病気に対応する因果関係に関するデータを収集する。そして、統合分析センターの情報処理装置10は、収集したデータを復号し、各病院間で共通する統合的な因果関係を分析する。
ここで、統合分析センターにおける因果関係の統合分析について説明する。図17は、実施例3にかかる統合分析センターでの因果関係の統合分析1を説明する図であり、図18は、実施例3にかかる統合分析センターでの因果関係の統合分析2を説明する図である。なお、図17と図18で説明する分析処理は、例えば生成部33により実行される。
具体的には、統合分析センターは、各病院から因果関係の分析結果を収集し、復号化することで、各癌などの病気に対応するSNPs転置インデックスを取得する。そして、統合分析センターは、癌ごとに、各病院から取得したSNPs転置インデックスに対してAND演算(論理積)を行うことで、各癌で共通するSNPsを抽出し、癌ごとの転置インデックスを生成する。
例えば、図17は、癌αの各SNPs転置インデックス20のAND演算を行うことで、癌αの統合分析を行う例を示している。具体的には、情報処理装置10は、n個の病院(病院xから病院n)のそれぞれで生成された癌αのSNPs転置インデックスのAND演算を実行し、癌αに共通するSNPs転置インデックスを生成する。図17の例では、n個の病院に共通してmビット目とnビット目が「1」が設定されていることより、mビット目とnビット目に「1」が設定された癌αのSNPs転置インデックスが統合分析結果として生成される。
また、図17は、癌βの各SNPs転置インデックスのAND演算を行うことで、癌βの統合分析を行う例を示している。具体的には、情報処理装置10は、n個の病院(病院xから病院n)のそれぞれで生成された癌βのSNPs転置インデックスのAND演算を実行し、癌βに共通するSNPs転置インデックスを生成する。図18の例では、n個の病院に共通してoビット目とpビット目が「1」が設定されていることより、oビット目とpビット目に「1」が設定された癌βのSNPs転置インデックスが統合分析結果として生成される。なお、SNPs転置インデックスの一例として、第3塩基の総合のビットマップを示したが、「U」「C」「A」「G」の個別のビットマップで分析しても良い。
この結果、総合分析センターでは、各病院からの受信データをもとに、AND演算でさらに癌とSNPsの因果関係を分析することができる。また、総合分析センターは、癌とSNPsの因果関係の統合的な分析結果を各病院に配信することができる。このとき、統合分析センターは、各癌などの病気に対応する統合分析結果(SNPs転置インデックス)を、実施例2で説明した送信手法を用いて、各病院に配信する。
実施例4では、実施例3で生成された統合的な分析結果を用いて、各病院で癌化診断を行う例を説明する。図19は、実施例4にかかるシステム構成例を説明する図である。図19に示すシステムは、実施例2や実施例3と同様、統合分析センターと各病院とがネットワークを介して相互に通信可能に接続される。統合センターと各病院のそれぞれは、実施例1で説明した機能を有する情報処理装置10を有する。
このようなシステム構成において、統合分析センターは、例えば実施例3で説明した手法を用いて、癌とSNPsの因果関係の統合的な分析結果(SNPs転置インデックス)を生成する。そして、統合分析センターは、実施例2で説明した手法を用いて、統合的な分析結果を各病院に配信する。その後、各病院では、配信された統合的な分析結果を復号し、それを用いて癌化診断を実行する。
ここで、各病院における癌化診断について説明する。図20は、実施例4にかかる統合的な分析結果を用いた各病院での癌化診断を説明する図である。図20で説明する分析処理は、例えば生成部33により実行される。
図20に示すように、各病院の情報処理装置10は、実施例1による手法を用いて、新患者のSNPs転置インデックス20を生成する。続いて、各病院の情報処理装置10は、新患者のSNPs転置インデックス20と、統合分析センターから取得した各癌の統合分析結果(SNPs転置インデックス)とのAND演算を行うことで、新患者の癌化診断を行う。
図20の例では、病院では、新患者のSNPs転置インデックス20と癌αのSNPs転置インデックスとのAND演算により、全てのビットが「0」となったので、癌αとは一致せず、癌αの癌化の可能性が低いと診断する。一方で、病院では、新患者のSNPs転置インデックス20と癌βのSNPs転置インデックスとのAND演算により、oビット目とpビット目が「1」となったので、癌βと一致し、癌βの癌化の可能性があると診断する。なお、SNPs転置インデックスの一例として、第3塩基の総合のビットマップを示したが、「U」「C」「A」「G」の個別のビットマップで分析しても良い。
このように、実施例4による手法を用いることで、各病院で癌化などの病気の予防診断を実現することができる。また、各病院から収集された因果関係を用いた統合的なSNPs転置インデックスを用いて予防診断を実行することができるので、統計的に精度が高く、省資源で高速な予防診断を実現し、癌の早期発見などに役立てることができる。なお、統合分析センターが生成する癌種別ごとの統合分析結果は、統計的転置インデックスの一例である。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。
[数値等]
上記実施例で用いた対象とする数値、ビット数、コドン符号、コドン符号の数、符号の配列等は、あくまで一例であり、任意に変更することができる。
上記実施例で用いた対象とする数値、ビット数、コドン符号、コドン符号の数、符号の配列等は、あくまで一例であり、任意に変更することができる。
[システム]
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。なお、コドン変換テーブル14は、コドン変換情報の一例であり、基準コドンデータ17は、基準符号化データの一例であり、SNPs転置インデックス20は、遺伝子変異転置インデックスの一例である。取得部31は、取得部の一例であり、符号化部32は、複数の分断コドンデータを生成する生成部の一例であり、生成部33は、特定部と遺伝子変異転置インデックスを生成する生成部の一例である。
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。なお、コドン変換テーブル14は、コドン変換情報の一例であり、基準コドンデータ17は、基準符号化データの一例であり、SNPs転置インデックス20は、遺伝子変異転置インデックスの一例である。取得部31は、取得部の一例であり、符号化部32は、複数の分断コドンデータを生成する生成部の一例であり、生成部33は、特定部と遺伝子変異転置インデックスを生成する生成部の一例である。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[ハードウェア]
次に、情報処理装置10のハードウェア構成例を説明する。図21は、ハードウェア構成例を説明する図である。図21に示すように、情報処理装置10は、通信装置10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、図21に示した各部は、バス等で相互に接続される。
次に、情報処理装置10のハードウェア構成例を説明する。図21は、ハードウェア構成例を説明する図である。図21に示すように、情報処理装置10は、通信装置10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、図21に示した各部は、バス等で相互に接続される。
通信装置10aは、ネットワークインタフェースカードなどであり、他のサーバとの通信を行う。HDD10bは、図2に示した機能を動作させるプログラムやDBを記憶する。
プロセッサ10dは、図2に示した各処理部と同様の処理を実行するプログラムをHDD10b等から読み出してメモリ10cに展開することで、図2等で説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、情報処理装置10が有する各処理部と同様の機能を実行する。具体的には、プロセッサ10dは、取得部31、符号化部32、生成部33、出力部34等と同様の機能を有するプログラムをHDD10b等から読み出す。そして、プロセッサ10dは、取得部31、符号化部32、生成部33、出力部34等と同様の処理を実行するプロセスを実行する。
このように、情報処理装置10は、プログラムを読み出して実行することで情報処理方法を実行する情報処理装置として動作する。また、情報処理装置10は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、情報処理装置10によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。
このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD-ROM、MO(Magneto-Optical disk)、DVD(Digital Versatile Disc)などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。
10 情報処理装置
11 通信部
12 記憶部
13 分断ゲノムデータ
14 コドン変換テーブル
15 分断コドンデータ
16 基準ゲノムデータ
17 基準コドンデータ
18 基準転置インデックス
19 部分基準コドンデータ
20 SNPs転置インデックス
30 制御部
31 取得部
32 符号化部
33 生成部
34 出力部
11 通信部
12 記憶部
13 分断ゲノムデータ
14 コドン変換テーブル
15 分断コドンデータ
16 基準ゲノムデータ
17 基準コドンデータ
18 基準転置インデックス
19 部分基準コドンデータ
20 SNPs転置インデックス
30 制御部
31 取得部
32 符号化部
33 生成部
34 出力部
Claims (8)
- コンピュータに、
特定の個人のゲノム情報である複数に分断された分断ゲノムデータを取得し、
コドンと符号とを対応付けたコドン変換テーブルに基づき、複数の分断ゲノムデータそれぞれをコドン単位に符号化した複数の分断コドンデータを生成し、
基準となる基準ゲノムデータをコドン単位に符号化した基準コドンデータと、前記複数の分断コドンデータそれぞれとに基づき、前記複数の分断コドンデータに出現する前記符号のうち、前記基準コドンデータに出現する前記符号と異なる遺伝子変異が出現する位置と種別を特定し、
前記遺伝子変異と前記遺伝子変異が出現する位置と種別を対応付けた遺伝子変異転置インデックスを生成する、
処理を実行させることを特徴とする情報処理プログラム。 - 前記特定する処理は、前記基準コドンデータにおける前記コドンの符号と前記コドンの符号の出現位置とを対応付けた基準転置インデックスから、探索対象である基準コドン配列の位置を特定し、特定した前記位置に対応する前記基準コドンデータ内の符号と前記位置に対応する前記複数の分断コドンデータ内の符号とを比較して、前記遺伝子変異が出現する位置と種別を特定することを特徴とする請求項1に記載の情報処理プログラム。
- 患者の前記分断ゲノムデータに対応する前記遺伝子変異転置インデックスを生成し、
前記患者を識別する識別子と、前記遺伝子変異転置インデックスと、前記コドン変換テーブルとのそれぞれを別々の暗号化手法により暗号化して結合させたデータを生成し、
前記データを出力する、
処理を前記コンピュータに実行させることを特徴とする請求項1に記載の情報処理プログラム。 - 前記取得する処理は、癌患者のゲノム情報である複数に分断された前記分断ゲノムデータを取得し、
前記生成する処理は、前記癌患者に対応する前記複数の分断コドンデータを生成し、
前記特定する処理は、健康な人の前記基準コドンデータと、前記癌患者に対応する前記複数の分断コドンデータとに基づき、前記遺伝子変異が出現する位置と種別を特定し、
前記生成する処理は、特定された前記遺伝子変異の位置と種別を用いて、前記癌患者に対応する前記遺伝子変異転置インデックスを生成する、
処理を前記コンピュータに実行させることを特徴とする請求項1に記載の情報処理プログラム。 - 複数の癌患者それぞれの前記遺伝子変異転置インデックスにおける前記コドンの符号と前記コドンの符号の出現位置とが対応付けられた各ビットの論理積を算出し、
前記論理積の結果を用いて、前記癌患者の特徴を表現する、前記遺伝子変異の位置と種別を表す統計的転置インデックスを生成する、
処理を前記コンピュータに実行させることを特徴とする請求項4に記載の情報処理プログラム。 - 判定対象の新規患者の前記分断ゲノムデータが取得されて前記遺伝子変異転置インデックスが生成された場合に、前記新規患者の前記遺伝子変異転置インデックスと、癌種別ごとに生成された各前記統計的転置インデックスとの論理積を算出し、
前記論理積の結果に基づき前記新規患者がいずれの種別に癌に該当するかを診断する、
処理を前記コンピュータに実行させることを特徴とする請求項5に記載の情報処理プログラム。 - コンピュータが、
特定の個人のゲノム情報である複数に分断された分断ゲノムデータを取得し、
コドンと符号とを対応付けたコドン変換テーブルに基づき、複数の分断ゲノムデータそれぞれをコドン単位に符号化した複数の分断コドンデータを生成し、
基準となる基準ゲノムデータをコドン単位に符号化した基準コドンデータと、前記複数の分断コドンデータそれぞれとに基づき、前記複数の分断コドンデータに出現する前記符号のうち、前記基準コドンデータに出現する前記符号と異なる遺伝子変異が出現する位置と種別を特定し、
前記遺伝子変異と前記遺伝子変異が出現する位置と種別を対応付けた遺伝子変異転置インデックスを生成する、
処理を実行することを特徴とする情報処理方法。 - 特定の個人のゲノム情報である複数に分断された分断ゲノムデータを取得する取得部と、
コドンと符号とを対応付けたコドン変換テーブルに基づき、複数の分断ゲノムデータそれぞれをコドン単位に符号化した複数の分断コドンデータを生成する生成部と、
基準となる基準ゲノムデータをコドン単位に符号化した基準コドンデータと、前記複数の分断コドンデータそれぞれとに基づき、前記複数の分断コドンデータに出現する前記符号のうち、前記基準コドンデータに出現する前記符号と異なる遺伝子変異が出現する位置と種別を特定する特定部と、
前記遺伝子変異と前記遺伝子変異が出現する位置と種別を対応付けた遺伝子変異転置インデックスを生成する生成部と、
を有することを特徴とする情報処理装置。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022534564A JP7548312B2 (ja) | 2020-07-08 | 2020-07-08 | 情報処理プログラム、情報処理方法および情報処理装置 |
PCT/JP2020/026730 WO2022009342A1 (ja) | 2020-07-08 | 2020-07-08 | 情報処理プログラム、情報処理方法および情報処理装置 |
EP20944346.4A EP4181147A4 (en) | 2020-07-08 | 2020-07-08 | INFORMATION PROCESSING PROGRAM, METHOD AND DEVICE |
CN202080102744.8A CN115989543A (zh) | 2020-07-08 | 2020-07-08 | 信息处理程序、信息处理方法以及信息处理装置 |
US18/149,768 US20230141327A1 (en) | 2020-07-08 | 2023-01-04 | Information processing program, information processing method, and information processing apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/026730 WO2022009342A1 (ja) | 2020-07-08 | 2020-07-08 | 情報処理プログラム、情報処理方法および情報処理装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US18/149,768 Continuation US20230141327A1 (en) | 2020-07-08 | 2023-01-04 | Information processing program, information processing method, and information processing apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022009342A1 true WO2022009342A1 (ja) | 2022-01-13 |
Family
ID=79552385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2020/026730 WO2022009342A1 (ja) | 2020-07-08 | 2020-07-08 | 情報処理プログラム、情報処理方法および情報処理装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230141327A1 (ja) |
EP (1) | EP4181147A4 (ja) |
JP (1) | JP7548312B2 (ja) |
CN (1) | CN115989543A (ja) |
WO (1) | WO2022009342A1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012157283A (ja) | 2011-01-31 | 2012-08-23 | Institute Of Physical & Chemical Research | 一塩基多型に基づく前立腺癌の検査方法 |
JP2012234558A (ja) | 2001-05-25 | 2012-11-29 | Hitachi Ltd | 塩基配列関連情報を用いた情報処理システム |
WO2014080447A1 (ja) * | 2012-11-20 | 2014-05-30 | 株式会社日立製作所 | データ解析装置、データ解析方法 |
WO2020049748A1 (ja) * | 2018-09-07 | 2020-03-12 | 富士通株式会社 | 特定方法、特定プログラムおよび情報処理装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201607629D0 (en) * | 2016-05-01 | 2016-06-15 | Genome Res Ltd | Mutational signatures in cancer |
JP6907556B2 (ja) * | 2017-01-24 | 2021-07-21 | 富士通株式会社 | 情報処理装置、情報処理システム、プログラム及び情報処理方法 |
-
2020
- 2020-07-08 WO PCT/JP2020/026730 patent/WO2022009342A1/ja unknown
- 2020-07-08 CN CN202080102744.8A patent/CN115989543A/zh active Pending
- 2020-07-08 EP EP20944346.4A patent/EP4181147A4/en active Pending
- 2020-07-08 JP JP2022534564A patent/JP7548312B2/ja active Active
-
2023
- 2023-01-04 US US18/149,768 patent/US20230141327A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012234558A (ja) | 2001-05-25 | 2012-11-29 | Hitachi Ltd | 塩基配列関連情報を用いた情報処理システム |
JP2012157283A (ja) | 2011-01-31 | 2012-08-23 | Institute Of Physical & Chemical Research | 一塩基多型に基づく前立腺癌の検査方法 |
WO2014080447A1 (ja) * | 2012-11-20 | 2014-05-30 | 株式会社日立製作所 | データ解析装置、データ解析方法 |
WO2020049748A1 (ja) * | 2018-09-07 | 2020-03-12 | 富士通株式会社 | 特定方法、特定プログラムおよび情報処理装置 |
Non-Patent Citations (1)
Title |
---|
See also references of EP4181147A4 |
Also Published As
Publication number | Publication date |
---|---|
US20230141327A1 (en) | 2023-05-11 |
EP4181147A1 (en) | 2023-05-17 |
JPWO2022009342A1 (ja) | 2022-01-13 |
CN115989543A (zh) | 2023-04-18 |
EP4181147A4 (en) | 2023-08-23 |
JP7548312B2 (ja) | 2024-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101638594B1 (ko) | Dna 서열 검색 방법 및 장치 | |
JP4608221B2 (ja) | Dna配列符号化装置及び方法 | |
Wandelt et al. | Trends in genome compression | |
US8972201B2 (en) | Compression of genomic data file | |
JP2019537172A (ja) | バイオインフォマティクスデータのインデックスを付けるための方法及びシステム | |
US10673826B2 (en) | Systems, devices, and methods for encrypting genetic information | |
CN111723354B (zh) | 提供生物数据的方法、加密生物数据的方法以及处理生物数据的方法 | |
US20170004256A1 (en) | Methods and apparatuses for generating reference genome data, generating difference genome data, and recovering data | |
US20170017717A1 (en) | Sequence Data Analyzer, DNA Analysis System and Sequence Data Analysis Method | |
Al-Okaily et al. | Toward a better compression for DNA sequences using Huffman encoding | |
Sardaraz et al. | SeqCompress: An algorithm for biological sequence compression | |
JP6902104B2 (ja) | バイオインフォマティクス情報表示のための効率的データ構造 | |
KR100537523B1 (ko) | Dna 서열 부호화 장치 및 방법 | |
WO2022009342A1 (ja) | 情報処理プログラム、情報処理方法および情報処理装置 | |
JP2019537781A (ja) | バイオインフォマティクスデータを格納およびアクセスするための方法およびシステム | |
Hsu et al. | DNA based encryption methods | |
Cordero et al. | Large disclosing the nature of computational tools for the analysis of next generation sequencing data | |
US11990207B2 (en) | Method of identification, non-transitory computer readable recording medium, and identification apparatus | |
Pan et al. | PTBGRP: predicting phage–bacteria interactions with graph representation learning on microbial heterogeneous information network | |
Holm et al. | SpeciateIT and vSpeciateDB: Novel, fast and accurate per sequence 16S rRNA gene taxonomic classification of vaginal microbiota | |
WO2020230240A1 (ja) | 評価方法、評価プログラムおよび評価装置 | |
CN105282554A (zh) | 解码方法及解码装置 | |
EP3306496B1 (en) | Encoding program, encoding method, and encoding apparatus | |
Nagar et al. | A novel quasi-alignment-based method for discovering conserved regions in genetic sequences | |
Bonham-Carter et al. | SEncrypt: An encryption algorithm inspired from biological processes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20944346 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2022534564 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
ENP | Entry into the national phase |
Ref document number: 2020944346 Country of ref document: EP Effective date: 20230208 |