WO2019187100A1 - データ作成装置、データ作成方法及びデータ作成プログラムを記憶した記憶媒体 - Google Patents

データ作成装置、データ作成方法及びデータ作成プログラムを記憶した記憶媒体 Download PDF

Info

Publication number
WO2019187100A1
WO2019187100A1 PCT/JP2018/013863 JP2018013863W WO2019187100A1 WO 2019187100 A1 WO2019187100 A1 WO 2019187100A1 JP 2018013863 W JP2018013863 W JP 2018013863W WO 2019187100 A1 WO2019187100 A1 WO 2019187100A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
base sequence
difference
sequence data
base
Prior art date
Application number
PCT/JP2018/013863
Other languages
English (en)
French (fr)
Inventor
竜 仲木
仙太郎 與島
真輝人 小林
大騎 村上
Original Assignee
株式会社Rhelixa
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Rhelixa filed Critical 株式会社Rhelixa
Priority to JP2020508869A priority Critical patent/JP7089804B2/ja
Priority to PCT/JP2018/013863 priority patent/WO2019187100A1/ja
Publication of WO2019187100A1 publication Critical patent/WO2019187100A1/ja

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12MAPPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
    • C12M1/00Apparatus for enzymology or microbiology

Definitions

  • the genome sequencer does not always read the reads uniformly throughout the entire genome information, but reads at a high frequency at one place and reads at a low frequency at another place. As a result, the reading frequency of each base sequence may vary.
  • the frequency of reading by the genome sequencer is a useful index in judging the molecular modification of the genome and the site where the interacting protein binds and its statistical significance. There is a possibility that information other than the reproduction of the base symbol sequence can be obtained by analyzing the variation in reading frequency by the genome sequencer.
  • an object of the present invention is to provide a data creation device, a data creation method, and a storage medium storing a data creation program that create data that can reproduce the reading frequency of a genome sequencer while suppressing the data volume.
  • the difference recognition unit recognizes a difference between adjacent elements included in the position array.
  • the difference between the elements related to the base sequence read by the genome sequencer with high frequency tends to be considerably small, so that the data capacity of the data indicating the difference between the elements can be kept small.
  • the data creation device of the present invention it is possible to create data that can reproduce the reading frequency of the genome sequencer while suppressing the data volume.
  • the data creation unit includes, as data indicating a difference between the elements, a first portion indicating whether preceding or subsequent data is related data and data having 14 bits or less. It is preferable to create variable length data including one or a plurality of second parts to be stored.
  • the first part indicating whether the preceding or succeeding data is related data indicates that an appropriate number of second parts are used as data indicating the difference between the elements. Differences that are greater than or equal to the number of bits in two parts can also be expressed by the variable length data.
  • FIG. 1 is an overall configuration diagram of a data creation system.
  • the flowchart of a data creation process The figure which shows an example of the file of a SAM format.
  • the figure which shows an example of the format of the data produced by a data creation process The figure which shows the representation of the data according to one data format.
  • the graph which shows the relationship between the number of bits required to represent a difference, the frequency of each bit number, and a content rate.
  • the data creation system includes one or more genome sequencers 100, one or more data creation devices 200, and a database 300.
  • the one or more data creation devices 200 are respectively connected to one or more genome sequencers 100 via a wired connection or a wireless connection.
  • the database 300 is connected to each of the data creation devices 200 via a wide area network such as the Internet.
  • One or a plurality of data creation devices 200 can be used by different users.
  • the genome sequencer 100 acquires a part of genome information from the target living body P, and repeats data indicating a partial base sequence included in the genome information (hereinafter referred to as “second base sequence data”). It is configured to output.
  • the genome sequencer 100 is configured by, for example, a HiSeq system (registered trademark).
  • the second base sequence data is expressed by repetition of base symbols (A, C, G or T).
  • the genome sequencer 100 reads the second base sequence data so that the base symbols are included in the number set in a predetermined setting or designated by the user.
  • the number of base symbols included in the second base sequence data is also referred to as “the length of the second base sequence data” as appropriate.
  • the second base sequence data may include a code other than the base symbol, for example, “?” As a symbol indicating that reading is impossible.
  • the length of the second base sequence data corresponds to an example of the “second base number” in the present invention.
  • the data creation device 200 includes an arithmetic processing unit 210 and a storage unit 220.
  • the data creation device 200 may be configured by a computer such as a laptop computer, a tablet terminal, or a smartphone that is designed in size, shape, and weight so that it can be carried by a user. It may be constituted by a computer whose size, shape and weight are designed so as to be installed.
  • the arithmetic processing unit 210 includes an arithmetic processing device such as a CPU (Central Processing Unit), a storage device such as a memory, an I / O (Input / Output) device, and the like.
  • a data creation program 223 downloaded from the outside is installed in the storage unit 220.
  • the arithmetic processing unit 210 includes a position recognition unit 211, a rearrangement unit 212, a reference element recognition unit 213, a difference recognition unit 214, and data It is configured to function as the creation unit 215.
  • the data creation device 200 storing the data creation program 223 corresponds to an example of the “storage medium” of the present invention.
  • the arithmetic processing unit 210 is configured to communicate with an external device such as the database 300 via wireless communication in accordance with a communication standard suitable for wired communication or wireless communication at a long distance such as WiFi (registered trademark). Yes.
  • the storage unit 220 includes a storage device such as a ROM (Read Only Memory), a RAM (Random Access Memory), and an HDD (Hard Disk Drive).
  • ROM Read Only Memory
  • RAM Random Access Memory
  • HDD Hard Disk Drive
  • the storage unit 220 is configured to store information recognized by the arithmetic processing unit 210 such as arithmetic processing by the arithmetic processing unit 210 and data received by the arithmetic processing unit 210.
  • one device “recognizes” information means that one device receives the information from another device, and one device stores information stored in a storage medium connected to the one device. Reading, one device acquiring information based on a signal output from a sensor connected to the one device, one device acquiring from received information or information or sensor stored in a storage medium Based on the obtained information, a predetermined calculation process (calculation process or search process) is performed to derive the information, and one apparatus uses the information as a calculation process result of the other apparatus as the other apparatus. Means that all arithmetic processing for obtaining the information is executed, such as reading the information from the internal storage device or the external storage device according to the received signal. .
  • the storage unit 220 includes a first base sequence storage unit 221 and a data storage unit 222.
  • the first base sequence storage unit 221 stores data indicating a base sequence (hereinafter referred to as “first base sequence data”). These data can be created based on data indicating each base sequence read from one or a plurality of living bodies (however, a living body having a certain amount of common items such as “humanity” or “Japanese”).
  • first base sequence data is represented by the base symbol as it is for the bases common to each base sequence read from each living organism, and differs in those living organisms.
  • the base is represented by a symbol different from the base symbol such as *.
  • One first base sequence data may be decomposed into a plurality of base sequences such as chr1 and chr2 and stored for each base sequence.
  • Each base sequence decomposed into chr1, chr2, etc. is hereinafter referred to as “reference sequence” as appropriate.
  • a character string for identifying each base sequence of chr1 and chr2 is hereinafter referred to as “reference sequence name” as appropriate.
  • the name of the reference sequence is composed of a predetermined character string such as chr and a number. The lengths of these reference sequences are set longer than the length of the second base sequence data. The total length of the reference sequence corresponds to an example of the “first base number” in the present invention.
  • the first base sequence storage unit 221 may store first base sequence data for each type of living body.
  • the living body serving as a sample for creating the first base sequence data is a living body that is different from the living body P to be processed in the data creation process described later.
  • the types of living organisms are common, even if individuals are different, most of the base sequences are the same. For example, in the case of human beings, even if the individuals are different, the base sequences of about 99.9% match.
  • the database 300 includes an arithmetic processing unit such as a CPU, a storage device such as a local memory, ROM, RAM, and HDD, an I / O device, and the like.
  • the database 300 is configured to store data received from the data creation device 200.
  • the database 300 may be configured by a single processor or may be configured by a plurality of processors that can communicate with each other.
  • a part or all of the computers constituting the database 300 may be configured by the computers constituting the data creation device 200.
  • a part or all of the database 300 may be configured by one or a plurality of data creation devices 200 as a mobile station.
  • the database 300 is connected to a public communication network (for example, the Internet) as a network via WiFi or a wired connection, and is configured to communicate with an external device (for example, the data creation device 200).
  • a public communication network for example, the Internet
  • WiFi or a wired connection for example, a Wi-Fi network
  • an external device for example, the data creation device 200
  • the position recognition unit 211 recognizes each second base sequence data of the target living body P based on the data output from the genome sequencer 100 (FIG. 3 / STEP002).
  • the target living body P may be a living body whose genome information can be read by the genome sequencer 100.
  • the target living body P may be a human, an animal, a plant, or a microorganism. There may be.
  • the data output from the genome sequencer 100 is, for example, data D1 including repetition of base symbols as shown in FIG. 2B.
  • the data D1 includes a plurality of second base sequence data D11, D12, D13 indicated by repetition of base symbols of a predetermined number of bases (for example, 50). Each second base sequence data D11, D12, D13 is separated by, for example, commas. Each of the second base sequence data D11, D12, D13 includes auxiliary base symbols D111, D121, D131 indicating bases that could not be read.
  • the position recognizing unit 211 compares each second base sequence data recognized in FIG. 3 / STEP002 with each first base sequence data stored in the first base sequence storage unit 221 to thereby obtain each second base sequence data.
  • a numerical value indicating the position of the partial sequence of the first base sequence data in the first base sequence data corresponding to is recognized (FIG. 3 / STEP004).
  • the position recognizing unit 211 corresponds to the partial sequence (corresponding to the second base sequence data) of the first base sequence data in which the appearance order of each base symbol included in the second base sequence data is the highest. A partial sequence of the first base sequence data). Then, the position recognition unit 211 recognizes a numerical value indicating the start position of the partial sequence in the first base sequence data.
  • the position of the partial sequence may be a position for specifying the partial sequence, and is not limited to the start position, and may be, for example, the end position or other positions.
  • the position recognition unit 211 creates a SAM (Sequence Alignment / Map) format file (FIG. 3 / STEP006).
  • SAM Sequence Alignment / Map
  • the created file is stored in the storage unit 220.
  • FIG. 4 is a diagram showing an example of the file created in FIG. 3 / STEP006.
  • the file shown in FIG. 4 includes header data D21 and body data D22.
  • the body data D22 For each of the second base sequence data, the body data D22 includes a reference sequence name D221, a partial sequence start position D222 in the reference sequence of the first base sequence data corresponding to the second base sequence data, and the second base sequence. It includes the start position D223 of the partial sequence in the case of paired end in the first base sequence data corresponding to the data, and the base sequence D224 of the second base sequence data.
  • the name of the reference sequence and the start position of the partial sequence in the reference sequence correspond to an example of “the position of the partial sequence of the first base sequence data” in the present invention.
  • the rearrangement unit 212 extracts, for each reference sequence, a numerical value indicating the start position of the partial sequence in the first base sequence data corresponding to each second base sequence data (FIG. 3 / STEP008).
  • the rearrangement unit 212 creates post-position extraction data D3 shown in FIG. 5A, for example, by the processing of FIG. 3 / STEP008.
  • the post-position extraction data D3 includes the length D31 of the base sequence of each second base sequence data, the name D32 of each reference sequence, the number D33 of second base sequence data associated with each reference sequence, And a start position D34 of the partial sequence in the first base sequence data corresponding to the two base sequence data.
  • the length D31 of the base sequence of each second base sequence data may be recognized from the length of each second base sequence data. When the length of the second base sequence data is predetermined, the base sequence length D31 of each second base sequence data may be omitted.
  • the fifth and subsequent rows are the start positions of the partial sequences in the first base sequence data corresponding to the respective second base sequence data.
  • the data corresponding to each of the name D32 of the reference sequence in the second row is stored in the third and subsequent rows separated by commas.
  • the first “719786” in the third row indicates the number of second base sequence data associated with the reference sequence “chr1”.
  • the second “380912” in the third row indicates the number of second base sequence data associated with the reference sequence “chr2”.
  • the first “177644860” in the fourth row is the start of the partial sequence in the first base sequence data corresponding to a certain second base sequence data among the second base sequence data associated with the reference sequence “chr1”. A numerical value indicating the position.
  • the first “177644896” in the fifth row is a partial sequence in the first base sequence data corresponding to another second base sequence data among the second base sequence data associated with the reference sequence “chr1”. A numerical value indicating the start position.
  • the rearrangement unit 212 replaces the first base corresponding to the second base sequence data instead of the start position of the partial sequence in the first base sequence data corresponding to each second base sequence data for each associated reference sequence. You may extract the numerical value which shows the starting position of the partial arrangement
  • the rearrangement unit 212 rearranges the numerical values indicating the start positions in ascending order for each reference sequence (FIG. 3 / STEP010).
  • the rearrangement unit 212 creates the rearranged data D4 as shown in FIG. 5B after the processing of FIG. 3 / STEP010.
  • the rearranged data D4 includes the base sequence length D41 of each second base sequence data, the name D42 of each reference sequence, the number D43 of second base sequence data associated with each reference sequence, It includes partial sequence start positions D44, D45, and D46 in the first base sequence data corresponding to the two base sequence data.
  • the start positions D44, D45, and D46 of the partial sequences in the first base sequence data corresponding to the second base sequence data are rearranged in ascending order. For this reason, the data D44 in the uppermost row (the fourth row in the rearranged data D4) among these is the smallest element (start position) in each reference array.
  • the reference element recognition unit 213 recognizes one or more reference elements for each reference array (FIG. 3 / STEP012).
  • the reference element is, for example, the smallest element in each reference array. Any element other than the smallest element may be recognized as the reference element.
  • a plurality of elements may be recognized as reference elements for the position reference array.
  • the difference recognizing unit 214 recognizes an array of differences from adjacent elements for elements other than the reference element (FIG. 3 / STEP014).
  • the difference recognition unit 214 creates post-difference recognition data D5 shown in FIG. 5C, for example, after the processing of FIG. 3 / STEP014.
  • the length D51 of the base sequence of each second base sequence data, the name D52 of each reference sequence, the number D53 of second base sequence data associated with each reference sequence, A reference element D54 of the reference array and difference data D55 and D56 are included.
  • the start positions of the partial sequences included in the reference sequence chr1 are 9997, 9998, 9998.
  • the fourth row of the post-difference recognition data D5 shown in FIG. 5C (row indicated by reference numeral D54) includes the reference element 9997 recognized in FIG. 3 / STEP012 in the reference array chr1.
  • the fifth row (row indicated by reference numeral D45) in FIG. 1 which is a difference between the element 9998 and the element 9997 before (the fourth line (line indicated by reference numeral D44)) is included.
  • the sixth row (the row indicated by the symbol D46) of FIG. 0 that is a difference between the element 9998 and the element 9998 before (the fifth line (line indicated by reference sign D45)) is included.
  • the start positions of the partial arrays included in the reference array chr2 are 10237, 10286, 10330,.
  • the fourth row of the post-difference recognition data D5 shown in FIG. 5C (row indicated by reference numeral D54) includes the reference element 10237 recognized in FIG. 3 / STEP012 in the reference array chr2.
  • the fifth row (row indicated by reference numeral D45) in FIG. 49 which is the difference between the element 10286 and the element 10237 before it (the fourth line (the line indicated by reference numeral D44)), is included.
  • the sixth row (the row indicated by the symbol D46) of FIG. 44 which is the difference between the element 10330 and the element 10286 in the previous line (the fifth line (line indicated by reference sign D45)), is included.
  • the data creation unit 215 creates data including the difference between the reference element recognized in FIG. 3 / STEP012 and the adjacent element recognized in FIG. 3 / STEP014 (FIG. 3 / STEP016).
  • the data creation unit 215 creates data D61 as shown in FIG. 6A for each reference sequence in FIG. 3 / STEP016 based on the post-difference recognition data D5 shown in FIG. 5C.
  • Data D61 includes the length D61 of the base sequence of the second base sequence data, the number D62 included in the name of the reference sequence, the number D63 of second base sequence data associated with the reference sequence, and the reference element Data including D64 and the arrangement of differences D65 and D66.
  • the data created in FIG. 3 / STEP016 is data in a format including a first part D1 and a second part D2, as shown in FIG. 7A, at least for the data part indicating the difference.
  • the second portion D2 may have any number of bits, but is preferably 14 bits or less, more preferably 6 bits or less, and even more preferably 3 bits or less.
  • the first part D1 is a part indicating whether the preceding or succeeding data is related data.
  • the second part D2 is a part indicating the contents of target data such as a difference.
  • the first portion D1 may be composed of 1 bit, for example.
  • the first part D1 is composed of 1 bit, for example, when the first part is 0, it means that the following predetermined length of data is not related, and when the first part is 1, the subsequent predetermined It may mean that the data of the length is related, but any rule may be used as long as the range to be read can be specified by the first portion.
  • the data shown in FIG. 7B shows an example in which the first part is composed of 1 bit and the second part is composed of 3 bits.
  • the first part when the first part is 0, it means that the following predetermined length data is not related.
  • the first part when the first part is 1, the following predetermined length data is related. It means to do.
  • decimal numbers 1 to 7 can be sufficiently expressed by 3 bits, so there is no need to use subsequent data. Therefore, for the decimal numbers 1 and 3, the first part is 0 as shown in FIG. 7B. As for decimal numbers 1 and 3, as shown in FIG. 7B, the second portions are 001 and 011 respectively.
  • decimal numbers 8 to 31 cannot be expressed sufficiently with 3 bits. Therefore, for these data, the first portion of the first data is 1 as shown in FIG. 7B. However, since 6 bits can sufficiently represent decimal numbers 8 to 31, the first part of the next data is 0 for these data as shown in FIG. 7B. About these, the content of the data of object, such as a difference, is shown by the whole relevant 2nd part. For example, in the case of 8, as shown in FIG. 7B, the binary number 8 is represented by 001000, which is the sum of the first second part 001 and the second second part 000.
  • the size of the second part can be optimized by analyzing the size of the target data.
  • FIG. 6B is a diagram showing an example when the data shown in FIG. 6A is created in such a data format including the first part and the second part.
  • the number included in the name of the reference sequence, the total number of second base sequence data associated with the reference sequence, the reference element, and each difference are expressed in the data format described above.
  • the data shown in FIG. 3 / STEP016 includes the data shown in FIG. 6B repeatedly for the number of reference sequences.
  • the total number of second base sequence data associated with the reference sequence is used to indicate a break for each reference sequence.
  • the data creation unit 215 stores the created data in a binary format in the data storage unit 222 and transmits the data to the database 300.
  • the database 300 stores data received together with information (for example, a user ID) that can specify the data creation device 200 or the target living body P.
  • the data creation unit 215 may transmit data excluding the reference array and the reference element to the database 300. By doing so, since all data cannot be restored from the data stored in the database 300, personal information can be protected.
  • the computer reads the data created in FIG. 3 / STEP016 from the beginning, the length of the base sequence of each second base sequence data, the number included in the name of one reference sequence, The total number of second base sequence data associated with the reference sequence is recognized.
  • the computer recognizes the reference element.
  • the computer can recognize the start position of the partial sequence of the first base sequence data corresponding to the reference element from the number included in the name of one reference sequence and the reference element.
  • the computer can recognize the partial sequence of the first base sequence data corresponding to the reference element based on the start position of the partial sequence and the length of the base sequence of each second base sequence data.
  • the computer subtracts 1 from the total number of second base sequence data associated with the reference sequence.
  • the computer reads the next difference of the reference element.
  • the computer recognizes the value of the second element by adding the difference to the reference element. Based on this value, the computer can recognize the start position of the partial sequence of the first base sequence data corresponding to the second element.
  • the computer can recognize the partial sequence of the first base sequence data corresponding to the second element based on the start position of the partial sequence and the length of the base sequence of each second base sequence data. In addition, the computer subtracts 1 from the total number of second base sequence data associated with the reference sequence.
  • the computer reads the next difference.
  • the computer recognizes the value of the third element by adding the difference to the value of the second element. Based on this value, the computer can recognize the start position of the partial sequence of the first base sequence data corresponding to the third element.
  • the computer can recognize the partial sequence of the first base sequence data corresponding to the third element based on the start position of the partial sequence and the length of the base sequence of each second base sequence data. In addition, the computer subtracts 1 from the total number of second base sequence data associated with the reference sequence.
  • the computer repeats the fifth step until the total number of second base sequence data associated with the reference sequence becomes zero.
  • the computer repeatedly executes the first to fifth steps until the data reading is completed.
  • the computer can recognize a group of partial sequences of the first base sequence data corresponding to each second base sequence data.
  • the group of partial sequences of the first base sequence data corresponding to each of the second base sequence data does not completely match each of the second base sequence data.
  • the position recognition unit 211 uses the first base sequence data stored in the first base sequence storage unit 221 so that each length is shorter than the first base number. For each second base sequence data having two base numbers, positions D221 and D222 of partial sequences in the first base sequence data corresponding to the second base sequence data D224 are recognized (FIG. 3 / STEP004, FIG. 3 / (STEP006).
  • the data creation unit 215 creates data D6 including the reference element recognized by the reference element recognition unit 213 and the difference between the elements recognized by the difference recognition unit 214 (FIG. 3 / STEP016).
  • the size of the data created in FIG. 3 / STEP016 was about 0.33% of the size of the SAM file created in FIG. 3 / STEP006. Further, the size of the data created in FIG. 3 / STEP016 was about 4.97% even when compared with the size of the file in FIG. 5A from which the numerical value indicating the start position was extracted.
  • FIG. 8 is a graph created based on data acquired from a living body (human), and is a graph showing how many bits a difference can be expressed.
  • the horizontal axis of the graph of FIG. 8 is an axis indicating how many bits the difference can be expressed.
  • the left axis in FIG. 8 represents the appearance frequency of each bit.
  • the right axis of FIG. 8 is a ratio obtained by accumulating the ratio of the appearance frequency of each bit. As shown in FIG. 8, the total of the ratios of the appearance frequencies of each bit is almost 100% with 14 bits. For this reason, the second portion is preferably 14 bits or less.
  • the cumulative ratio of the appearance frequency of each bit is approximately 80% for 6 bits.
  • the second part may be 6 bits or less.

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

データ容量を抑えながら、ゲノムシーケンサーによる読み取り頻度を再現できるデータを作成するデータ作成装置を提供する。 【解決手段】 データ作成装置200は、基準要素認識部213と、差分認識部214と、データ作成部215とを備える。 基準要素認識部213は、位置の配列に含まれる基準要素を認識する(STEP012)。 差分認識部214は、位置の配列の隣り合う要素間の差分を認識する(STEP014)。 データ作成部215は、基準要素と要素間の差分とを含むデータを作成する(STEP016)。

Description

データ作成装置、データ作成方法及びデータ作成プログラムを記憶した記憶媒体
 本発明は、ゲノムシーケンサーによる読み取り頻度を再現できるデータを作成するデータ作成装置、データ作成方法及びデータ作成プログラムを記憶した記憶媒体に関する。
 生体のゲノム情報は、多様な用途に活用されることが期待されている。
 例えば、人又は動物のゲノム情報に基づいて、人又は動物の遺伝的体質を解析したり、人又は動物の疾病の発症を予測したり、人又は動物の病気の進行度合いを把握したりすることが期待されている。また、植物又は微生物のゲノム情報に基づいて、土壌、水又は生産物の最適化などを行うことも期待されている。
 このようなゲノム情報の活用に当たっては、ゲノム情報を数多く収集することが必要となる。しかし、一般的に、ゲノム情報を示すデータは、非常に大きなデータ容量となることが多い。例えば、人のゲノム情報であるヒトゲノムを再現するための配列群データは数100ギガバイトのデータ容量に至る。
 このため、すべてのゲノム情報をそのまま保存または送信すると、データベースの記憶容量が圧迫されたり、又は通信回線が逼迫したりする可能性がある。
 このため、ゲノム情報のデータ容量を削減することが重要な課題となる。
 特許文献1には、基準となるゲノムデータと各人のゲノムデータとを比較し、基準となるゲノムデータと各人のゲノムデータとで異なる塩基情報のみを保存し、伝送することで、通常のゲノムデータの約0.1%のデータ容量に圧縮する技術が提案されている。
国際公開第2015/146852号
 しかしながら、特許文献1の技術は、各人のゲノムデータの塩基記号の並び(ACGTの並び)を再現するにとどまっている。すなわち、特許文献1の技術では、塩基記号以外の情報、例えば、ゲノムシーケンサーによる塩基情報の読み取り頻度等を再現することができなかった。
 一般的に、ゲノムシーケンサーは、対象のゲノム情報を読み取るにあたり、一回の読み取りでは、ゲノム情報の全部(人の場合、約31億塩基対)ではなく、ゲノム情報の一部のデータ(以下、適宜「リード」という。)を読み取る。一回の読み取りで読み取られるリードに含まれる塩基配列は、例えば、50塩基対程度である。
 ゲノムシーケンサーは、読み取ったリードに含まれる塩基配列でゲノム情報の全部を再構成できる程度になるまで、リードを繰り返し読み取るように構成されている。
 ここで、ゲノムシーケンサーは、ゲノム情報の全体にわたってリードを均一に読み取るとは限らず、ある個所においては高頻度で読み取ったり、別なある個所では低頻度で読み取ったりする。この結果、それぞれの塩基配列の読み取り頻度にはばらつきが生じうる。
 ゲノムの分子修飾や相互作用たんぱく質が結合する部位とその統計的有意性を判断する上で、ゲノムシーケンサーによる読み取り頻度は有用な指標となる。ゲノムシーケンサーによる読み取り頻度のばらつきを解析することで、塩基記号の並びの再現以外の情報が得られる可能性がある。
 しかし、上述したように、特許文献1の技術は、ゲノムシーケンサーによる読み取り頻度を再現することができなかった。
 そこで、本発明は、データ容量を抑えながら、ゲノムシーケンサーによる読み取り頻度を再現できるデータを作成するデータ作成装置、データ作成方法及びデータ作成プログラムを記憶した記憶媒体を提供することを目的とする。
 本発明のデータ作成装置は、長さが第1塩基数である第1塩基配列データを記憶する第1塩基配列記憶部と、第1塩基配列記憶部に記憶された前記第1塩基配列データに基づいて、個々の長さが前記第1塩基数よりも短い第2塩基数である各第2塩基配列データについて、当該第2塩基配列データに対応する第1塩基配列データ中の部分配列の位置を示す数値を認識する位置認識部と、各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を示す数値を昇順または降順で並び替えることにより、位置の配列を作成する並替部と、前記位置の配列に含まれる少なくとも一つの要素である基準要素を認識する基準要素認識部と、前記位置の配列に含まれ、かつ、隣り合う要素間の差分を認識する差分認識部と、前記基準要素認識部により認識された基準要素と前記差分認識部により認識された前記要素間の差分とを含むデータを作成するデータ作成部とを備えることを特徴とする。
 当該構成のデータ作成装置によれば、位置認識部により、第1塩基配列記憶部に記憶された前記第1塩基配列データに基づいて、個々の長さが前記第1塩基数よりも短い第2塩基数である各第2塩基配列データについて、当該第2塩基配列データに対応する第1塩基配列データ中の部分配列の位置を示す数値が認識される。
 そして、並替部により、各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を示す数値を昇順または降順で並び替えることにより、各第2塩基配列データに対応する第1塩基配列データの部分配列の位置の配列が作成される。ここで、各第2塩基配列データに対応する第1塩基配列データの部分配列の位置の配列の隣り合う要素は、昇順または降順で並べられているので、その差分はかなり小さくなりやすい。特に、ゲノムシーケンサーによって高頻度に読み取られた塩基配列に関連する塩基配列データについては、それらの位置を示す数値は同一またはほとんど差がないものとなる。
 そして、基準要素認識部により、前記位置の配列に含まれる少なくとも一つの要素である基準要素が認識される。
 そして、差分認識部により、前記位置の配列に含まれ、かつ、隣り合う要素間の差分が認識される。
 そして、データ作成部により、前記基準要素認識部により認識された基準要素と前記差分認識部により認識された前記要素間の差分とを含むデータが作成される。
 前述したようにゲノムシーケンサーによって高頻度で読み取られた塩基配列に関する要素間の差分はかなり小さくなりやすいので、要素間の差分を示すデータのデータ容量は、小さく抑えられうる。
 一方、作成されたデータに含まれる基準要素と要素間の差分とを用いれば、各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を示す数値を逆算して求めることができる。このような各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を示す数値は、対象のゲノムデータの内のどの部分の塩基配列がどの程度の頻度で読み取られているものかを示すこととなる。
 以上の通り、本発明のデータ作成装置によれば、データ容量を抑えながら、ゲノムシーケンサーによる読み取り頻度を再現できるデータを作成しうる。
 本発明のデータ作成装置において、前記基準要素認識部は、位置の配列に含まれる要素のうち最小の値の要素を基準要素として認識するように構成されていることが好ましい。
 当該構成のデータ作成装置によれば、前記基準要素認識部により、位置の配列に含まれる要素のうち最小の値の要素が基準要素として認識される。これにより、基準要素を示すデータのデータ容量を小さく抑えることができるので、より圧縮率を向上させうる。
 本発明のデータ作成装置において、前記データ作成部は、前記要素間の差分を示すデータとして、先行又は後続するデータが関連するデータであるか否かを示す第1部分と14ビット以下のデータを格納する第2部分とを一又は複数含む可変長データを作成することが好ましい。
 当該構成のデータ作成装置によれば、前記データ作成部により、前記要素間の差分を示すデータとして、先行又は後続のデータが関連するデータであるか否かを示す第1部分と14ビット以下のデータを格納する第2部分とを一又は複数含む可変長データが作成される。
 本願の出願人が検討したところによれば、位置の配列の連続する要素間の差分は、ほとんど14ビット以下で表すことができる。これにより、多くのデータについて、そのデータ容量を小さく抑えながら、各要素の差分を表現することが可能となる。
 また、先行又は後続するデータが関連データであるか否かを示す第1部分により適当な数の第2部分が前記要素間の差分を示すデータとして用いられることが示されることで、一の第2部分のビット数以上となる差分についても、当該可変長データで表現することができる。
 当該構成のデータ作成装置において、前記第2部分は、6ビット以下であることが好ましい。
 本件出願人の検討によれば、要素間の差分は、約8割のデータが6ビット以下で表現できることが分かった。
 第2部分のデータを6ビット以下で表現することにより、多くのデータについて、データ容量をさらに小さく抑えることが可能となる。一方、先行又は後続するデータが関連データであるか否かを示す第1部分により適当な数の第2部分が前記要素間の差分を示すデータとして用いられることが示されることで、一の第2部分のビット数以上となる差分についても、当該可変長データで表現することができる。
 当該構成のデータ作成装置において、前記第2部分は、3ビット以下であることが好ましい。
 本件出願人の検討によれば、約6割のデータが3ビット以下で表現できることが分かった。第2部分のデータを3ビット以下で表現することにより、多くのデータについて、データ容量をさらに小さく抑えることが可能となる。一方、先行又は後続するデータが関連データであるか否かを示す第1部分により適当な数の第2部分が前記要素間の差分を示すデータとして用いられることが示されることで、一の第2部分のビット数以上となる差分についても、当該可変長データで表現することができる。
データ作成システムの全体構成図。 第1塩基配列データの一例を示す図。 ゲノムシーケンサーにより読み込まれた複数の第2塩基配列データの一例を示す図。 データ作成処理のフローチャート。 SAM形式のファイルの一例を示す図。 抽出後データの一例を示す図。 並替後データの一例を示す図。 差分認識後データの一例を示す図。 データ作成処理によって作成されるデータに含まれる内容の一例を示す図。 データ作成処理によって作成されるデータの具体例を示す図。 データ作成処理によって作成されるデータの形式の一例を示す図。 一のデータ形式に従ったデータの表現を示す図。 差分を表すのに必要なビット数と、各ビット数の頻度及び含有割合との関係を示すグラフ。
 図1~図8を参照して、本発明の実施形態のデータ作成システムを説明する。
 (データ作成システムの構成)
 図1を参照して、データ作成システムの構成を説明する。
 データ作成システムは、1又は複数のゲノムシーケンサー100と、1又は複数のデータ作成装置200と、データベース300と、を備える。
 1又は複数のデータ作成装置200は、それぞれ、有線接続又は無線接続を介して、1又は複数のゲノムシーケンサー100のそれぞれと接続されている。データベース300は、インターネット等の広域ネットワークを介して、データ作成装置200のそれぞれと接続されている。一又は複数のデータ作成装置200は、それぞれ異なるユーザに使用されうる。
 (ゲノムシーケンサーの構成)
 ゲノムシーケンサー100は、例えば、対象の生体Pからゲノム情報の一部を取得し、当該ゲノム情報に含まれる部分的な塩基配列を示すデータ(以下、「第2塩基配列データ」という。)を繰り返し出力するように構成されている。ゲノムシーケンサー100は、例えばHiSeqシステム(登録商標)で構成される。第2塩基配列データは、塩基記号(A、C、G又はT)の繰り返しで表現される。ゲノムシーケンサー100は、所定の設定またはユーザの指定にされた数だけ塩基記号が含まれるように、第2塩基配列データを読み取る。以下、第2塩基配列データに含まれる塩基記号の数を、適宜「第2塩基配列データの長さ」ともいう。第2塩基配列データは、塩基記号以外の符号、例えば、読取不能を示す記号としての「?」を含んでもよい。第2塩基配列データの長さが、本発明の「第2塩基数」の一例に該当する。
 (データ作成装置の構成)
 一又は複数のデータ作成装置200は、細かくは個々の端末ごとに異なるけれども、概略的には以下のような構成を有する。
 データ作成装置200は、演算処理部210と、記憶部220とを備える。
 データ作成装置200は、ラップトップコンピュータ、タブレット型端末またはスマートフォンなど、ユーザによる携帯が可能なようにサイズ、形状および重量が設計されているコンピュータにより構成されていてもよく、デスクトップコンピュータなど、特定箇所に設置されるように、サイズ、形状および重量が設計されているコンピュータにより構成されていてもよい。
 演算処理部210は、CPU(Central Processing Unit)等の演算処理装置、メモリ等の記憶装置及びI/O(Input/Output)デバイスなどにより構成されている。記憶部220には、外部よりダウンロードしたデータ作成プログラム223がインストールされている。記憶部220に記憶されたデータ作成プログラム223が起動されることにより、演算処理部210は、位置認識部211と、並替部212と、基準要素認識部213と、差分認識部214と、データ作成部215ととして機能するように構成されている。なお、データ作成プログラム223を記憶したデータ作成装置200が、本発明の「記憶媒体」の一例に相当する。
 演算処理部210は、有線通信またはWiFi(登録商標)等の遠距離での無線通信に適した通信規格にしたがった無線通信を介して、データベース300などの外部機器と相互通信するよう構成されている。
 記憶部220は、例えばROM(Read Only Memory),RAM(Random Access Memory)、HDD(Hard Disk Drive)等の記憶装置により構成されている。
 記憶部220は、演算処理部210による演算処理及び演算処理部210が受信したデータなどの演算処理部210が認識した情報を記憶するように構成されている。
 なお、一の装置が情報を「認識する」とは、一の装置が他の装置から当該情報を受信すること、一の装置が当該一の装置に接続された記憶媒体に記憶された情報を読み取ること、一の装置が当該一の装置に接続されたセンサから出力された信号に基づいて情報を取得すること、一の装置が、受信した情報又は記憶媒体に記憶された情報又はセンサから取得した情報に基づいて、所定の演算処理(計算処理又は検索処理など)を実行することにより当該情報を導出すること、一の装置が他の装置による演算処理結果としての当該情報を当該他の装置から受信すること、一の装置が当該受信信号にしたがって内部記憶装置又は外部記憶装置から当該情報を読み取ること等、当該情報を取得するためのあらゆる演算処理が実行されることを意味する。
 記憶部220は、第1塩基配列記憶部221とデータ記憶部222とを備える。
 第1塩基配列記憶部221は、図2Aに示されるように、塩基配列を示すデータ(以下、「第1塩基配列データ」という。)を格納している。これらのデータは、一又は複数の生体(ただし、「人類」又は「日本人」等のようにある程度共通項を有する生体)から読み取られた各塩基配列を示すデータを基に作成されうる。複数の生体から塩基配列を示すデータを作成された場合、第1塩基配列データは、各生体から読み取られた各塩基配列で共通の塩基についてはそのままの塩基記号で表され、それらの生体で異なる塩基については*等の塩基記号とは異なる記号で表される。一の第1塩基配列データは、chr1,chr2など、複数の塩基配列に分解され、それぞれの塩基配列ごとに記憶されていてもよい。これらのchr1,chr2などに分解された各塩基配列を、以下、適宜「リファレンス配列」という。また、chr1、chr2の各塩基配列を識別する文字列を、以下、適宜「リファレンス配列の名称」という。本実施例において、リファレンス配列の名称は、chr等の所定の文字列と、番号とで構成される。これらのリファレンス配列の長さは、第2塩基配列データの長さよりも長く設定される。リファレンス配列の長さの合計値が、本発明の「第1塩基数」の一例に相当する。
 第1塩基配列記憶部221は、生体の種別ごとに第1塩基配列データを記憶していてもよい。
 なお、第1塩基配列データを作成するためのサンプルとなる生体は、後述するデータ作成処理の処理対象の生体Pと異なる生体である。ただし、生体の種別が共通していれば、個体が異なっても、そのほとんどの塩基配列は一致する。例えば、人類であれば、個体が異なっても、99.9%程度の塩基配列が一致することとなる。
 (データベースの構成)
 データベース300は、CPU等の演算処理装置、ローカルメモリ、ROM,RAM、HDD等の記憶装置及びI/Oデバイスなどにより構成されている。データベース300は、データ作成装置200から受信したデータを記憶するように構成されている。データベース300は、一のプロセッサにより構成されてもよく、相互通信可能な複数のプロセッサにより構成されてもよい。
 なお、データベース300を構成するコンピュータの一部または全部が、データ作成装置200を構成するコンピュータにより構成されていてもよい。たとえば、移動局としての一または複数のデータ作成装置200により、データベース300の一部または全部が構成されていてもよい。
 また、データベース300は、WiFi又は有線接続などを介してネットワークとしての公衆通信網(例えばインターネット)に接続され、外部の機器(例えばデータ作成装置200)と通信するように構成されている。
 (データ作成処理)
 次に、図2~図8を参照して、データ作成装置200により実行されるデータ作成処理の流れを説明する。
 位置認識部211は、ゲノムシーケンサー100から出力されたデータに基づいて、対象の生体Pの各第2塩基配列データを認識する(図3/STEP002)。対象の生体Pは、ゲノムシーケンサー100によってゲノム情報が読み取り可能な生体であればよく、例えば、人であっても良いし、動物であってもよいし、植物であってもよいし、微生物であってもよい。
 ゲノムシーケンサー100から出力されたデータは、例えば、図2Bに示されるように、塩基記号の繰り返しを含むデータD1である。
 データD1は、所定の塩基数(例えば50)だけの塩基記号の繰り返しで示される複数の第2塩基配列データD11、D12、D13を含む。各第2塩基配列データD11、D12,D13は、例えばカンマで区切られている。また、各第2塩基配列データD11、D12,D13は、読取不能であった塩基を示す補助塩基記号D111,D121,D131を含む。
 位置認識部211は、図3/STEP002で認識した各第2塩基配列データと、第1塩基配列記憶部221に格納された第1塩基配列データとを対比することにより、各第2塩基配列データに対応する第1塩基配列データにおける第1塩基配列データの部分配列の位置を示す数値を認識する(図3/STEP004)。
 例えば、位置認識部211は、第2塩基配列データに含まれる各塩基記号の出現順が、一致している割合が最も高い第1塩基配列データの部分配列(当該第2塩基配列データに対応する第1塩基配列データの部分配列)を認識する。そして、位置認識部211は、第1塩基配列データにおける部分配列の開始位置を示す数値を認識する。部分配列の位置は、当該部分配列を特定するための位置であればよく、開始位置に限られず、例えば終了位置であってもよいし、その他の位置であってもよい。
 このような、部分配列の位置を示す数値の認識については、種々の公知の手法が採用されうる。
 位置認識部211は、SAM(Sequence Alignment/Map)形式のファイルを作成する(図3/STEP006)。作成されたファイルは、記憶部220に記憶される。
 図4は、図3/STEP006で作成されるファイルの一例を示す図である。図4に示されるファイルは、ヘッダデータD21とボディデータD22とを含む。
 ボディデータD22は、各第2塩基配列データのそれぞれについて、リファレンス配列の名称D221、第2塩基配列データに対応する第1塩基配列データのリファレンス配列における部分配列の開始位置D222と、第2塩基配列データに対応する第1塩基配列データにおけるペアエンドの場合の部分配列の開始位置D223と、第2塩基配列データの塩基配列D224とを含む。なお、リファレンス配列の名称と、リファレンス配列における部分配列の開始位置とが、本発明の「第1塩基配列データの部分配列の位置」の一例に相当する。
 並替部212は、リファレンス配列ごとに、各第2塩基配列データに対応する第1塩基配列データにおける部分配列の開始位置を示す数値を抽出する(図3/STEP008)。
 並替部212は、図3/STEP008の処理により、例えば、図5Aに示される位置抽出後データD3を作成する。位置抽出後データD3は、各第2塩基配列データの塩基配列の長さD31と、各リファレンス配列の名称D32と、各リファレンス配列に対応付けられた第2塩基配列データの数D33と、各第2塩基配列データに対応する第1塩基配列データにおける部分配列の開始位置D34とを含む。各第2塩基配列データの塩基配列の長さD31は、各第2塩基配列データの長さから認識されてもよい。また、第2塩基配列データの長さが予め決まっている場合には、各第2塩基配列データの塩基配列の長さD31は、省略されてもよい。
 図5Aに示される位置抽出後データD3においては、5行目以降が、各第2塩基配列データに対応する第1塩基配列データにおける部分配列の開始位置となっている。
 図5Aに示される位置抽出後データD3においては、3行目以降は、カンマ区切りで、2行目のリファレンス配列の名称D32のそれぞれに対応するデータが格納されている。
 例えば、3行目の最初の「719786」は、リファレンス配列「chr1」に対応付けられた第2塩基配列データの数を示す。
 また、3行目の二番目の「380912」は、リファレンス配列「chr2」に対応付けられた第2塩基配列データの数を示す。
 また、4行目の最初の「177644860」は、リファレンス配列「chr1」に対応付けられた第2塩基配列データのうち、ある第2塩基配列データに対応する第1塩基配列データにおける部分配列の開始位置を示す数値である。
 また、5行目の最初の「177644896」は、リファレンス配列「chr1」に対応付けられた第2塩基配列データのうち、別の第2塩基配列データに対応する第1塩基配列データにおける部分配列の開始位置を示す数値である。
 対応する開始位置がない場合は、空欄となる。
 並替部212は、対応付けられたリファレンス配列ごとに、各第2塩基配列データに対応する第1塩基配列データにおける部分配列の開始位置に代えて、第2塩基配列データに対応する第1塩基配列データにおけるペアエンドの場合の部分配列の開始位置を示す数値を抽出してもよい。
 並替部212は、リファレンス配列ごとに、開始位置を示す数値を昇順で並び替える(図3/STEP010)。
 並替部212は、図3/STEP010の処理の後、図5Bに示されるような並替後データD4を作成する。並替後データD4は、各第2塩基配列データの塩基配列の長さD41と、各リファレンス配列の名称D42と、各リファレンス配列に対応付けられた第2塩基配列データの数D43と、各第2塩基配列データに対応する第1塩基配列データにおける部分配列の開始位置D44、D45,D46とを含む。各第2塩基配列データに対応する第1塩基配列データにおける部分配列の開始位置D44、D45,D46は、昇順で並び替えられている。このため、これらのうちの一番上の行(並替後データD4における4行目)のデータD44が、各リファレンス配列で最小の要素(開始位置)となっている。
 基準要素認識部213は、リファレンス配列ごとに、一又は複数の基準要素を認識する(図3/STEP012)。基準要素は、例えば、各リファレンス配列で最小の要素である。最小の要素以外の任意の要素が基準要素として認識されてもよい。また、位置のリファレンス配列について、複数の要素が基準要素として認識されてもよい。
 差分認識部214は、基準要素以外の要素について、隣り合う要素との差分の配列を認識する(図3/STEP014)。差分認識部214は、図3/STEP014の処理後に、例えば図5Cに示される差分認識後データD5を作成する。
 差分認識後データD5には、各第2塩基配列データの塩基配列の長さD51と、各リファレンス配列の名称D52と、各リファレンス配列に対応付けられた第2塩基配列データの数D53と、各リファレンス配列の基準要素D54と、差分データD55、D56とが含まれている。
 例えば、図5Bに示される並替後データD4では、リファレンス配列chr1に含まれる部分配列の開始位置は、小さい順に、9997、9998、9998・・・である。
 図5Cに示される差分認識後データD5の第4行目(符号D54で示される行)には、リファレンス配列chr1における図3/STEP012で認識された基準要素9997が含まれている。
 また、図5Cに示される差分認識後データD5の第5行目(符号D55で示される行)のリファレンス配列chr1に対応する要素に、図5Bの5行目(符号D45で示される行)の要素9998と、その前(4行目(符号D44で示される行))の要素9997との差分である1が含まれている。
 また、図5Cに示される差分認識後データD5の第6行目(符号D55で示される行)のリファレンス配列chr1に対応する要素に、図5Bの6行目(符号D46で示される行)の要素9998と、その前(5行目(符号D45で示される行))の要素9998との差分である0が含まれている。
 また、例えば、図5Bに示される並替後データD4では、リファレンス配列chr2に含まれる部分配列の開始位置は、小さい順に、10237、10286、10330・・・である。
 図5Cに示される差分認識後データD5の第4行目(符号D54で示される行)には、リファレンス配列chr2における図3/STEP012で認識された基準要素10237が含まれている。
 また、図5Cに示される差分認識後データD5の第5行目(符号D55で示される行)のリファレンス配列chr2に対応する要素に、図5Bの5行目(符号D45で示される行)の要素10286と、その前(4行目(符号D44で示される行))の要素10237との差分である49が含まれている。
 また、図5Cに示される差分認識後データD5の第6行目(符号D55で示される行)のリファレンス配列chr2に対応する要素に、図5Bの6行目(符号D46で示される行)の要素10330と、その前(5行目(符号D45で示される行))の要素10286との差分である44が含まれている。
 データ作成部215は、図3/STEP012で認識された基準要素と、図3/STEP014で認識された隣り合う要素との差分とを含むデータを作成する(図3/STEP016)。
 例えば、データ作成部215は、図5Cに示される差分認識後データD5に基づいて、図3/STEP016で、リファレンス配列ごとに、図6Aに示されるようなデータD61を作成する。データD61は、第2塩基配列データの塩基配列の長さD61と、当該リファレンス配列の名称に含まれる番号D62と、当該リファレンス配列に対応付けられた第2塩基配列データの数D63と、基準要素D64と、差分D65、D66の配列とを含むデータである。
 図3/STEP016で作成されるデータは、少なくとも差分を示すデータ部分に関しては、図7Aに示されるように、第1部分D1と、第2部分D2とを含む形式のデータとなっている。
 この第2部分D2は、何ビットでもよいが、14ビット以下であることが好ましいが、6ビット以下であることがより好ましく、3ビット以下であることがさらに好ましい。
 第1部分D1は、先行又は後続するデータが関連するデータであるか否かを示す部分である。第2部分D2は、差分等の対象のデータの内容を示す部分である。第1部分D1は、例えば、1ビットで構成されていてもよい。
 第1部分D1が1ビットで構成される場合、例えば、第1部分が0の場合、後続する所定の長さのデータが関連しないことを意味し、第1部分が1の場合、後続する所定の長さのデータが関連することを意味してもよいが、第1部分により読み込む範囲が特定できれば、どのような規則であってもよい。
 例えば、図7Bに示されるデータは、第1部分が1ビットで、第2部分が3ビットで構成された場合の例を示している。図7Bに示されるデータは、第1部分が0の場合、後続する所定の長さのデータが関連しないことを意味し、第1部分が1の場合、後続する所定の長さのデータが関連することを意味する。
 第2部分が3ビットである場合、10進数の1~7については、3ビットで十分に表現できるため後続するデータを使用する必要はない。このため、10進数の1、3について、図7Bに示されるように、第1部分は0となる。また、10進数の1、3については、図7Bに示されるように、第2部分は、それぞれ001、011となる。
 一方、10進数の8~31については、3ビットでは十分に表現できない。このため、これらのデータについては、図7Bに示されるように、最初のデータの第1部分は1となる。しかし、6ビットであれば十分に10進数の8~31を表現できるため、これらのデータについては、図7Bに示されるように、次のデータの第1部分は0となる。これらについては、関連する第2部分全体により、差分等の対象のデータの内容が示される。例えば、8であれば、図7Bに示されるように、最初の第2部分の001と、次の第2部分の000とを合わせた、001000により、2進数の8が表現される。
 第2部分の大きさは、対象のデータのサイズ解析することで、最適化しうる。
 図6Bは、このような第1部分と第2部分とを含むデータ形式で図6Aに示されるデータを作成した時の例を示す図である。
 図6Bにおいては、当該リファレンス配列の名称に含まれる番号と、当該リファレンス配列に対応付けられた第2塩基配列データの総数と、基準要素と、各差分とが上記したデータ形式で表現されている。図3/STEP016で作成されるデータには、図6Bに示されるデータが、リファレンス配列の数だけ繰り返し含まれている。当該リファレンス配列に対応付けられた第2塩基配列データの総数は、このリファレンス配列ごとの区切りを示すために用いられる。
 データ作成部215は、作成したデータをバイナリ形式でデータ記憶部222に記憶するとともに、データベース300に送信する。データベース300は、データ作成装置200又は対象の生体Pを特定できる情報(例えばユーザIDなど)とともに受信したデータを記憶する。データ作成部215は、データベース300に、リファレンス配列と基準要素とを除外したデータを送信してもよい。このようにすることで、データベース300に記憶されたデータからは、全てのデータが復元できなくなるので、個人情報の保護が図られうる。
 以上により、データ作成処理が終了する。
 (データの復元)
 図3/STEP016で作成されるデータから、データの復元をする方法について説明する。以下の処理は、第1塩基配列データにアクセス可能な一般的なコンピュータにより実行されうる。
 まず、第1ステップにおいて、コンピュータは、図3/STEP016で作成されるデータを先頭から読み込み、各第2塩基配列データの塩基配列の長さと、一のリファレンス配列の名称に含まれる番号と、当該リファレンス配列に対応付けられた第2塩基配列データの総数とを認識する。
 次に、第2ステップにおいて、コンピュータは、基準要素を認識する。
 第3ステップにおいて、コンピュータは、一のリファレンス配列の名称に含まれる番号と、基準要素とから、基準要素に対応する第1塩基配列データの部分配列の開始位置を認識できる。コンピュータは、当該部分配列の開始位置と各第2塩基配列データの塩基配列の長さとに基づいて、基準要素に対応する第1塩基配列データの部分配列を認識することができる。また、コンピュータは、当該リファレンス配列に対応付けられた第2塩基配列データの総数から1を引く。
 第4ステップにおいて、コンピュータは、基準要素の次の差分を読み込む。コンピュータは、基準要素に当該差分を加えることで、2番目の要素の値を認識する。コンピュータは、この値に基づき、2番目の要素に対応する第1塩基配列データの部分配列の開始位置を認識できる。コンピュータは、当該部分配列の開始位置と各第2塩基配列データの塩基配列の長さとに基づいて、2番目の要素に対応する第1塩基配列データの部分配列を認識することができる。また、コンピュータは、当該リファレンス配列に対応付けられた第2塩基配列データの総数から1を引く。
 第5ステップにおいて、コンピュータは、その次の差分を読み込む。コンピュータは、2番目の要素の値に当該差分を加えることで、3番目の要素の値を認識する。コンピュータは、この値に基づき、3番目の要素に対応する第1塩基配列データの部分配列の開始位置を認識できる。コンピュータは、当該部分配列の開始位置と各第2塩基配列データの塩基配列の長さとに基づいて、3番目の要素に対応する第1塩基配列データの部分配列を認識することができる。また、コンピュータは、当該リファレンス配列に対応付けられた第2塩基配列データの総数から1を引く。
 当該リファレンス配列に対応付けられた第2塩基配列データの総数がゼロになるまで、コンピュータは、第5ステップを繰り返す。第2塩基配列データの総数がゼロとなった場合、データの読み込みが完了するまで、コンピュータは、第1ステップ~第5ステップを繰り返し実行する。
 このようにすることで、コンピュータは、各第2塩基配列データに対応する第1塩基配列データの部分配列の群を認識することができる。この各第2塩基配列データに対応する第1塩基配列データの部分配列の群は、各第2塩基配列データとは完全には一致しないが、生体Pのゲノムシーケンサーによる読取頻度の解析をする上では十分に有用である。
 (本実施形態の作用効果)
 当該構成のデータ作成装置200によれば、位置認識部211により、第1塩基配列記憶部221に記憶された第1塩基配列データに基づいて、個々の長さが第1塩基数よりも短い第2塩基数である各第2塩基配列データについて、当該第2塩基配列データD224に対応する第1塩基配列データ中の部分配列の位置D221、D222が認識される(図3/STEP004、図3/STEP006)。
 そして、並替部212により、各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を昇順または降順で並び替えることにより(図3/STEP010)、各第2塩基配列データに対応する第1塩基配列データの部分配列の位置の配列(図5Bの第4行目以降)が作成される(図5B参照)。ここで、各第2塩基配列データに対応する第1塩基配列データの部分配列の位置の配列の隣り合う要素は、互いに近い位置となるので、その差分はかなり小さくなりやすい。特に、高頻度に読み取られた塩基配列に関連する塩基配列データについては、それらの位置は同一またはほとんど差がないものとなる。
 そして、基準要素認識部213により、前記位置の配列に含まれる少なくとも一つの位置である基準要素が認識される(図3/STEP012)。
 そして、差分認識部214により、位置の配列の隣り合う要素間の差分の配列が認識される(図3/STEP014)。
 そして、データ作成部215により、基準要素認識部213により認識された基準要素と差分認識部214により認識された要素間の差分とを含むデータD6が作成される(図3/STEP016)。
 要素間の差分は、前述したように高頻度で読み取られた部分についてはかなり小さくなりやすいので、要素間の差分を示すデータのデータ容量は、小さく抑えられうる。
 例えば、本発明者らが実験したところによると、図3/STEP016で作成されたデータのサイズは、図3/STEP006で作成されたSAMファイルのサイズの約0.33%となった。また、図3/STEP016で作成されたデータのサイズは、開始位置を示す数値を抜き出した図5Aのファイルのサイズと比較しても、約4.97%となった。
 一方、作成されたデータに含まれる基準要素と要素間の差分とを用いれば、各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を逆算して求めることができる。このような各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を示す数値は、対象のゲノムデータの内のどの部分の塩基配列がどの程度の頻度で読み取られているものかを示すこととなる。
 以上の通り、本発明のデータ作成装置200によれば、データ容量を抑えながら、ゲノムシーケンサー100による読み取り頻度を再現できるデータを作成しうる。
 また、当該構成のデータ作成装置200によれば、基準要素認識部213により、位置の配列に含まれる要素のうち最小の値の要素が基準要素として認識される(図3/STEP012)。これにより、基準要素を示すデータのデータ容量を小さく抑えることができるので、より圧縮率を向上させうる。
 当該構成のデータ作成装置200によれば、データ作成部215により、要素間の差分を示すデータとして、先行又は後続のデータが関連するデータであるか否かを示す第1部分D61と14ビット以下のデータを格納する第2部分D62とを一又は複数含む可変長データD6(図7A参照)が作成される(図3/STEP016)。
 本願の出願人が検討したところによれば、位置の配列の連続する要素間の各差分は、ほとんど14ビット以下で表すことができる。
 例えば、図8は、ある生体(人間)から取得されたデータに基づいて作成されたグラフ理であり、差分が何ビットで表せるかを示したグラフである。図8のグラフの横軸は、差分が何ビットで表せるかを示す軸である。図8の左軸は、各ビットの出現頻度である。図8の右軸は、各ビットの出現頻度の割合を累計した割合である。図8に示されるように、各ビットの出現頻度の割合を累計した割合は、14ビットでほぼ100%となる。このため、第2部分は、14ビット以下であることが好ましい。
 これにより、多くのデータについて、そのデータ容量を小さく抑えながら、各要素の差分を表現することが可能となる。
 また、先行又は後続するデータが関連データであるか否かを示す第1部分により適当な数の第2部分が前記要素間の差分を示すデータとして用いられることが示されることで、一の第2部分のビット数以上となる差分についても、図7Bに示されるように、当該可変長データで表現することができる。
 また、図8に示されるように、各ビットの出現頻度の割合を累計した割合は、6ビットでほぼ80%となる。このため、第2部分は、6ビット以下であってもよい。
 第2部分のデータを6ビット以下で表現することにより、多くのデータについて、データ容量をさらに小さく抑えることが可能となる。一方、先行又は後続するデータが関連データであるか否かを示す第1部分により適当な数の第2部分が前記要素間の差分を示すデータとして用いられることが示されることで、一の第2部分のビット数以上となる差分についても、当該可変長データで表現することができる。
 また、図8に示されるように、各ビットの出現頻度の割合を累計した割合は、3ビットでほぼ60%となる。このため、第2部分は、3ビット以下であってもよい。
 本件出願人の検討によれば、約6割のデータが3ビット以下で表現できることが分かった。第2部分のデータを3ビット以下で表現することにより、多くのデータについて、データ容量をさらに小さく抑えることが可能となる。一方、先行又は後続するデータが関連データであるか否かを示す第1部分により適当な数の第2部分が前記要素間の差分を示すデータとして用いられることが示されることで、一の第2部分のビット数以上となる差分についても、当該可変長データで表現することができる。
 (変形態様)
 上述した実施形態では、第1塩基配列データは、複数のリファレンス配列に分解されたが、これに限られず、一の配列で表されてもよい。
 第1部分は、2ビットであってもよい。このデータ形式においては、例えば、第1部分が00である場合、第2部分が2ビットであることを示し、第1部分が01である場合、第2部分が6ビットであることを示し、第1部分が10である場合、第2部分が10ビットであることを示し、第1部分が11である場合、第2部分が10ビットであるとともに、後続するデータが関連するデータであることを示してもよい。
 また、第2部分は、関連するデータの数に応じてその長さが可変であってもよい。例えば、関連するデータの数が1である場合、第2部分が1ビットであり、関連するデータの数が2以上である場合、第2部分がそれぞれ3ビットとなるようなデータ形式であってもよい。
 データ作成部215は、このようなデータ形式に応じて、図3/STEP016におけるデータを作成してもよい。
 100‥ゲノムシーケンサー、200‥データ作成装置、210‥演算処理部、211‥位置認識部、212‥並替部、213‥基準要素認識部、214‥差分認識部、215‥データ作成部、220‥記憶部、221‥第1塩基配列記憶部、222‥データ記憶部、300‥データベース。
 

Claims (7)

  1.  長さが第1塩基数である第1塩基配列データを記憶する第1塩基配列記憶部と、
     第1塩基配列記憶部に記憶された前記第1塩基配列データに基づいて、個々の長さが前記第1塩基数よりも短い第2塩基数である各第2塩基配列データについて、当該第2塩基配列データに対応する第1塩基配列データ中の部分配列の位置を示す数値を認識する位置認識部と、
     各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を示す数値を昇順または降順で並び替えることにより、位置の配列を作成する並替部と、
     前記位置の配列に含まれる少なくとも一つの要素である基準要素を認識する基準要素認識部と、
     前記位置の配列に含まれ、かつ、隣り合う要素間の差分を認識する差分認識部と、
     前記基準要素認識部により認識された基準要素と前記差分認識部により認識された前記要素間の差分とを含むデータを作成するデータ作成部とを備えることを特徴とするデータ作成装置。
  2.  請求項1記載のデータ作成装置において、
     前記基準要素認識部は、位置の配列に含まれる要素のうち最小の値の要素を基準要素として認識するように構成されていることを特徴とするデータ作成装置。
  3.  請求項1又は2記載のデータ作成装置において、
     前記データ作成部は、前記要素間の差分を示すデータとして、先行又は後続するデータが関連するデータであるか否かを示す第1部分と14ビット以下のデータを格納する第2部分とを一又は複数含む可変長データを作成することを特徴とするデータ作成装置。
  4.  請求項3記載のデータ作成装置において、
     前記第2部分は、6ビット以下であることを特徴とするデータ作成装置。
  5.  請求項4記載のデータ作成装置において、
     前記第2部分は、3ビット以下であることを特徴とするデータ作成装置。
  6.  長さが第1塩基数である第1塩基配列データを記憶する第1塩基配列記憶部を備えるコンピュータが実行する方法であって、
     第1塩基配列記憶部に記憶された前記第1塩基配列データに基づいて、個々の長さが前記第1塩基数よりも短い第2塩基数である各第2塩基配列データについて、当該第2塩基配列データに対応する第1塩基配列データ中の部分配列の位置を示す数値を認識するステップと、
     各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を示す数値を昇順または降順で並び替えることにより、位置の配列を作成するステップと、
     前記位置の配列に含まれる少なくとも一つの要素である基準要素を認識するステップと、
     前記位置の配列に含まれ、かつ、隣り合う要素間の差分を認識するステップと、
     前記基準要素と前記要素間の差分とを含むデータを作成するステップとを含むことを特徴とするデータ作成方法。
  7.  長さが第1塩基数である第1塩基配列データを記憶する第1塩基配列記憶部を備えるコンピュータに、
     第1塩基配列記憶部に記憶された前記第1塩基配列データに基づいて、個々の長さが前記第1塩基数よりも短い第2塩基数である各第2塩基配列データについて、当該第2塩基配列データに対応する第1塩基配列データ中の部分配列の位置を示す数値を認識するステップと、
     各第2塩基配列データに対応する第1塩基配列データの部分配列の位置を示す数値を昇順または降順で並び替えることにより、位置の配列を作成するステップと、
     前記位置の配列に含まれる少なくとも一つの要素である基準要素を認識するステップと、
     前記位置の配列に含まれ、かつ、隣り合う要素間の差分を認識するステップと、
     前記基準要素と前記要素間の差分とを含むデータを作成するステップとを実行させることを特徴とするデータ作成プログラムを格納した記憶媒体。
PCT/JP2018/013863 2018-03-30 2018-03-30 データ作成装置、データ作成方法及びデータ作成プログラムを記憶した記憶媒体 WO2019187100A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020508869A JP7089804B2 (ja) 2018-03-30 2018-03-30 データ作成装置、データ作成方法及びデータ作成プログラムを記憶した記憶媒体
PCT/JP2018/013863 WO2019187100A1 (ja) 2018-03-30 2018-03-30 データ作成装置、データ作成方法及びデータ作成プログラムを記憶した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/013863 WO2019187100A1 (ja) 2018-03-30 2018-03-30 データ作成装置、データ作成方法及びデータ作成プログラムを記憶した記憶媒体

Publications (1)

Publication Number Publication Date
WO2019187100A1 true WO2019187100A1 (ja) 2019-10-03

Family

ID=68060547

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/013863 WO2019187100A1 (ja) 2018-03-30 2018-03-30 データ作成装置、データ作成方法及びデータ作成プログラムを記憶した記憶媒体

Country Status (2)

Country Link
JP (1) JP7089804B2 (ja)
WO (1) WO2019187100A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007334769A (ja) * 2006-06-16 2007-12-27 Institute Of Physical & Chemical Research 配列抽出装置、配列抽出方法、プログラムおよび記録媒体
WO2015146852A1 (ja) * 2014-03-24 2015-10-01 株式会社 東芝 基準ゲノムデータを生成する方法、装置及びプログラム、差分ゲノムデータを生成する方法、装置及びプログラム、データを復元する方法、装置及びプログラム
JP2017224191A (ja) * 2016-06-16 2017-12-21 株式会社日立製作所 Dna配列解析装置、dna配列解析方法及びdna配列解析システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007334769A (ja) * 2006-06-16 2007-12-27 Institute Of Physical & Chemical Research 配列抽出装置、配列抽出方法、プログラムおよび記録媒体
WO2015146852A1 (ja) * 2014-03-24 2015-10-01 株式会社 東芝 基準ゲノムデータを生成する方法、装置及びプログラム、差分ゲノムデータを生成する方法、装置及びプログラム、データを復元する方法、装置及びプログラム
JP2017224191A (ja) * 2016-06-16 2017-12-21 株式会社日立製作所 Dna配列解析装置、dna配列解析方法及びdna配列解析システム

Also Published As

Publication number Publication date
JP7089804B2 (ja) 2022-06-23
JPWO2019187100A1 (ja) 2021-03-11

Similar Documents

Publication Publication Date Title
Hernaez et al. Genomic data compression
US11632125B2 (en) Compressively-accelerated read mapping framework for next-generation sequencing
CN103546160A (zh) 基于多参考序列的基因序列分级压缩方法
Liu et al. Index suffix–prefix overlaps by (w, k)-minimizer to generate long contigs for reads compression
Choi et al. Libra: scalable k-mer–based tool for massive all-vs-all metagenome comparisons
Al-Okaily et al. Toward a better compression for DNA sequences using Huffman encoding
Al Yami et al. LFastqC: A lossless non-reference-based FASTQ compressor
Mansouri et al. A new lossless DNA compression algorithm based on a single-block encoding scheme
Banerjee et al. Design and development of bioinformatics feature based DNA sequence data compression algorithm
Guo et al. Dime: A novel framework for de novo metagenomic sequence assembly
WO2019187100A1 (ja) データ作成装置、データ作成方法及びデータ作成プログラムを記憶した記憶媒体
KR20130122816A (ko) 유전자 염기서열 압축장치 및 압축방법
CN110310709B (zh) 一种基于参考序列的基因压缩方法
Long et al. GeneComp, a new reference-based compressor for SAM files
CN110168649A (zh) 用于生物信息数据的紧凑表示的方法和设备
Hayashida et al. Proteome compression via protein domain compositions
CN107169315B (zh) 一种海量dna数据的传输方法及系统
Gupta et al. A novel approach for compressing DNA sequences using semi-statistical compressor
Kumar et al. WBFQC: A new approach for compressing next-generation sequencing data splitting into homogeneous streams
Nahar et al. Novel algorithm for multi-time data implantation in a special cyber-manufacturing architecture
Kumar et al. A new efficient referential genome compression technique for FastQ files
EP3602350A1 (en) System and method for generating filters for k-mismatch search
Hernández-Damián et al. The reevaluation of Salacia lombardii (Celastraceae) based on phylogenetic position and biogeographic implications
CN114730616A (zh) 信息编码和解码方法、装置、存储介质以及信息存储和解读方法
Zahra et al. DNA Compression using an innovative Index based Coding Algorithm

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2020508869

Country of ref document: JP

Kind code of ref document: A

122 Ep: pct application non-entry in european phase

Ref document number: 18911598

Country of ref document: EP

Kind code of ref document: A1