WO2016159154A1 - 予測ルール生成システム、予測システム、予測ルール生成方法及び予測方法 - Google Patents

予測ルール生成システム、予測システム、予測ルール生成方法及び予測方法 Download PDF

Info

Publication number
WO2016159154A1
WO2016159154A1 PCT/JP2016/060516 JP2016060516W WO2016159154A1 WO 2016159154 A1 WO2016159154 A1 WO 2016159154A1 JP 2016060516 W JP2016060516 W JP 2016060516W WO 2016159154 A1 WO2016159154 A1 WO 2016159154A1
Authority
WO
WIPO (PCT)
Prior art keywords
prediction
data
principal component
prediction rule
water quality
Prior art date
Application number
PCT/JP2016/060516
Other languages
English (en)
French (fr)
Inventor
中園 明子
文美 岡▲崎▼
朝子 弘之
Original Assignee
住友化学株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 住友化学株式会社 filed Critical 住友化学株式会社
Priority to US15/562,622 priority Critical patent/US11225680B2/en
Priority to KR1020177031872A priority patent/KR20170132329A/ko
Priority to CN201680019682.8A priority patent/CN107531528B/zh
Publication of WO2016159154A1 publication Critical patent/WO2016159154A1/ja

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C02TREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
    • C02FTREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
    • C02F3/00Biological treatment of water, waste water, or sewage
    • C02F3/02Aerobic processes
    • C02F3/12Activated sludge processes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/02Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving viable microorganisms
    • C12Q1/04Determining presence or kind of microorganism; Use of selective media for testing antibiotics or bacteriocides; Compositions containing a chemical indicator therefor
    • C12Q1/06Quantitative determination
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/18Water
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/18Water
    • G01N33/186Water using one or more living organisms, e.g. a fish
    • G01N33/1866Water using one or more living organisms, e.g. a fish using microorganisms
    • CCHEMISTRY; METALLURGY
    • C02TREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
    • C02FTREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
    • C02F2209/00Controlling or monitoring parameters in water treatment
    • C02F2209/003Downstream control, i.e. outlet monitoring, e.g. to check the treating agents, such as halogens or ozone, leaving the process
    • CCHEMISTRY; METALLURGY
    • C02TREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
    • C02FTREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
    • C02F2209/00Controlling or monitoring parameters in water treatment
    • C02F2209/36Biological material, e.g. enzymes or ATP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02WCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO WASTEWATER TREATMENT OR WASTE MANAGEMENT
    • Y02W10/00Technologies for wastewater treatment
    • Y02W10/10Biological treatment of water, waste water, or sewage

Definitions

  • the present invention relates to a prediction rule generation system and a prediction rule generation method for generating a prediction rule for predicting water quality after water treatment, and a prediction system and a prediction method related to them.
  • Wastewater from heavy chemical industries such as chemical and steel is desired to be discharged into the natural environment with a sufficiently reduced impact on humans and environmental organisms.
  • biological treatment using activated sludge which is a complex microorganism system
  • the water quality of the treated wastewater is monitored. Specifically, measuring water quality data such as biochemical oxygen demand (BOD), chemical oxygen demand (COD), total organic carbon (TOC), total nitrogen (TN), etc. of treated wastewater
  • BOD biochemical oxygen demand
  • COD chemical oxygen demand
  • TOC total organic carbon
  • TN total nitrogen
  • the BOD of the day may be estimated based on the operating parameters. It is also important for management to predict future values of water quality data such as BOD, COD, TOC, and TN from the current state of wastewater, and time series of water quality time series data and biological reaction tank operating parameters. Based on the data, BOD (Biochemical Oxygen Demand) or the like may be predicted (see Patent Documents 1 and 2).
  • the prediction using the time series data of the water quality and biological reaction tank as described above is not performed in consideration of the state of the microbial flora in the activated sludge, and can be predicted with sufficient accuracy. There was no case. In situations where various types of wastewater are being treated, it is particularly difficult to predict. Therefore, improvement in prediction accuracy has been demanded in the prediction of the state of water after treatment.
  • the present invention has been made in view of the above, and a prediction rule generation system and a prediction rule generation method capable of generating a prediction rule for accurately and reliably predicting water quality after water treatment, and related to them
  • An object is to provide a prediction system and a prediction method.
  • a prediction rule generation system includes an existence ratio of a plurality of microorganisms present in activated sludge for water treatment or a plurality of bases present in the activated sludge.
  • the water quality after water treatment associated with the time-series data of the existence ratio of each sequence (hereinafter sometimes referred to as “time-series data of microorganism information”) and the data at each time constituting the time-series data.
  • Principal component analysis that performs principal component analysis on the time series data input by the input means and the input means that inputs the water quality information to be displayed, and calculates the principal component score of the data at each time constituting the time series data And the principal component score of the data at each time constituting the time-series data calculated by the principal component analysis means, and the input inputted by the input means Based on the water quality information indicating the water quality after the water treatment associated with the data at each time constituting the series data, the water quality after the water treatment from the existence ratio of each of the plurality of microorganisms or each of the plurality of base sequences.
  • Prediction rule generation means for generating a prediction rule for predicting. Examples of water quality after water treatment include biochemical oxygen demand (BOD), chemical oxygen demand (COD), total organic carbon (TOC), or total nitrogen (TN) in the water after treatment. .
  • the prediction rule generation system corresponds to time-series data of the presence ratio of microorganisms or base sequences present in activated sludge for water treatment, and data at each time constituting the time-series data.
  • a prediction rule is generated based on the attached water quality information indicating the water quality after the water treatment. Therefore, the prediction considering the state of the microflora in the activated sludge can be performed, and the prediction can be performed with higher accuracy than the prediction using only the time series data of the water quality and the operating parameters of the biological reaction tank.
  • the prediction rule generation system In the prediction rule generation system according to an embodiment of the present invention, principal component analysis is performed. Usually, the number of types of microorganisms present in activated sludge is enormous. By performing principal component analysis on time-series data of microbial information, microbial information can be expressed with a small number of variables without taking in all the information and reducing the amount of information. By performing principal component analysis as in an embodiment of the present invention and reducing the number of variables used for generating the prediction rule, it is possible to reliably generate the prediction rule. That is, according to the prediction rule generation system according to an embodiment of the present invention, it is possible to generate a prediction rule that accurately and reliably predicts water quality after water treatment.
  • the principal component analysis means may perform principal component analysis using a correlation matrix.
  • Principal component analysis using a variance-covariance matrix mainly reflects the behavior of many types of microorganisms, whereas when a principal component analysis using a correlation matrix is performed as in this configuration, the variance-covariance matrix
  • many variables are required as compared with the case of using, it is possible to generate a prediction rule that more reflects the behavior of a small number of microorganisms (microorganisms having a small existence ratio).
  • the behavior of a small number of microorganisms may affect the water quality after water treatment. Therefore, according to this configuration, it is possible to generate a prediction rule that performs prediction with higher accuracy.
  • the prediction rule generation means uses the principal component score of the data at each time constituting the time series data calculated by the principal component analysis means as an input in the prediction rule, and each of the time series data input by the input means
  • the prediction rule may be generated by performing machine learning using the water quality information indicating the water quality after water treatment associated with the data at the time as the output in the prediction rule. According to this configuration, it is possible to reliably generate a prediction rule.
  • the prediction rule generation system is configured to read a base sequence of a gene from a plurality of microorganisms present in activated sludge, generate time series data based on the base sequence of the gene read by the reading unit, and input the time series data to the input unit. And a data generation means. According to this configuration, it is possible to reliably input time-series data of the existence ratio of microorganisms or base sequences, and it is possible to reliably implement one embodiment of the present invention.
  • the prediction system which concerns on one Embodiment of this invention is a prediction system which estimates the water quality after water treatment based on the prediction rule produced
  • prediction based on the prediction rule generated by the prediction rule generation system can be performed.
  • the present invention can be described as an invention of a prediction rule generation system and a prediction system as described above, and can also be described as an invention of a prediction rule generation method and a prediction method as follows. This is substantially the same invention only in different categories, and has the same operations and effects.
  • the prediction rule generation method is a prediction rule generation method that is an operation method of the prediction rule generation system, and each of the plurality of microorganisms present in the activated sludge that performs water treatment. Or, input the time-series data of the existence ratio of each of the plurality of base sequences present in the activated sludge and the water quality information indicating the water quality after water treatment associated with the data at each time constituting the time-series data.
  • An input step a principal component analysis step of performing principal component analysis on the time series data input in the input step, and calculating a principal component score of the data at each time constituting the time series data, and a principal component analysis
  • the principal component score of the data at each time constituting the time series data calculated in the step and the input in the input step
  • water treatment is performed from the existence ratio of each of the plurality of microorganisms or the existence ratio of each of the plurality of base sequences.
  • a prediction rule generating step for generating a prediction rule for predicting the water quality afterwards.
  • the prediction method is an operation method of a prediction system that predicts water quality after water treatment based on a prediction rule generated by a prediction rule generation system according to an embodiment of the present invention. It is a prediction method, based on an input step for inputting data on the existence ratio of each of a plurality of microorganisms to be predicted or the existence ratio of each of a plurality of base sequences to be predicted, and principal component analysis by a prediction rule generation system.
  • the principal component analysis step for calculating the principal component score of the prediction target data input in the input step, and the prediction target data calculated in the principal component analysis step based on the prediction rule generated by the prediction rule generation system Predicting the water quality after the water treatment from the principal component score of.
  • the prediction rule can be reliably generated by reducing the number of variables used for generating the prediction rule. That is, according to one embodiment of the present invention, it is possible to generate a prediction rule that accurately and reliably predicts water quality after water treatment.
  • FIG. 1 shows a prediction rule generation system 1 according to this embodiment.
  • the prediction rule generation system 1 is a system that generates a prediction rule for predicting water quality after water treatment.
  • the water treatment targeted in the present embodiment is a treatment for reducing the influence on the natural environment of water that is harmful to the natural environment such as industrial wastewater, public sewage, and sewage.
  • the said water treatment is performed with the water treatment system using the activated sludge containing the microflora which is an aggregate
  • the number of types of microorganisms contained in activated sludge is usually several thousand to several tens of thousands or more.
  • the said activated sludge is normally put into the biological reaction tank (bio tank, activated sludge tank), and water treatment is performed by making the water of a process target flow in the said biological reaction tank.
  • the biological reaction tank usually includes an aerobic tank and an anaerobic tank.
  • the water treatment is continuously performed according to the operation of the factory, for example.
  • the said water treatment itself is performed conventionally.
  • the prediction rule generation system 1 predicts whether water quality data such as BOD exceeds a preset threshold within a preset period (for example, one week or two weeks) from the prediction time point. Is generated.
  • This threshold value is set to such a value that it can be determined that the water quality after the water treatment is deteriorated (the water treatment is not properly performed) as compared with the case where the water treatment is appropriately performed, for example.
  • the said prediction rule is for performing the prediction by inputting the information based on the existence ratio of each of the plurality of microorganisms present in the activated sludge or the existence ratio of each of the plurality of base sequences present in the activated sludge.
  • the prediction rule predicts the presence / absence of deterioration including sudden deterioration of water quality data such as BOD during a preset period from the above-described existence ratio at the time of prediction. Further, the prediction rule may be for performing prediction using both the existence ratio of each of the plurality of microorganisms and the existence ratio of each of the plurality of base sequences as inputs.
  • the prediction rule generation system 1 also performs prediction using the generated prediction rule.
  • As the water quality to be predicted COD, TOC, TN, etc. can be similarly predicted in addition to BOD.
  • the prediction rule generation system 1 includes a computer 10 and a sequencer 20 as shown in FIG.
  • the computer 10 is a device that bears the main functions of the prediction rule generation system 1, and is a device that generates a prediction rule and performs prediction using the prediction rule.
  • the computer 10 includes hardware such as a CPU (Central Processing Unit), a memory, and a communication module. The functions of the computer 10 to be described later are exhibited by operating these components by a program or the like.
  • the sequencer 20 is a reading means for reading (determining) the base sequence of a gene from a plurality of microorganisms present in activated sludge.
  • a so-called next-generation sequencer that can simultaneously read (analyze) genes of a plurality of microorganisms may be used.
  • a conventional sequencer for example, a Roche GS Junior System sequencer, a Roche GS FLX + System sequencer, or an Illumina MiSeq System sequencer may be used.
  • the sequencer 20 may read the base sequence of the 16S ribosomal RNA gene as the base sequence of the microorganism gene.
  • the base sequence of the 16S ribosomal RNA gene is a relatively characteristic sequence for each type of microorganism.
  • a sequence sample sludge sample collected from activated sludge and input to the sequencer 20 is prepared in advance.
  • the activated sludge is collected from each of an aerobic tank and an anaerobic tank, for example.
  • Preparation of sequencing samples and reading of base sequences (sequencing) can be performed, for example, as follows.
  • a solution containing about 1.5 ml of microorganisms is collected from the activated sludge and centrifuged at room temperature (13,000 rpm ⁇ 5 minutes). After removing the supernatant, 1 ml of sterilized physiological saline is added and mixed by inverting for about 5 seconds, and then centrifuged at room temperature (13,000 rpm ⁇ 5 minutes). After removing the supernatant, 300 ⁇ l of Lysis buffer (manufactured by AMR) was added and mixed well, and the resulting suspension was placed in a tube containing beads (Easy Extract for DNA (manufactured by AMR)). After addition, crush and stir for 2 minutes with a vortex mixer.
  • Lysis buffer manufactured by AMR
  • TE TE solution
  • TE TE solution
  • 450 ⁇ l of the supernatant is put into a new tube
  • 600 ⁇ l of a phenol mixture attached to Easy Extract for DNA (manufactured by AMR)
  • AMR Easy Extract for DNA
  • PCR amplification of V3-V4 region of 16S ribosomal RNA gene The concentration of double-stranded DNA in the solution of bacterial flora DNA was measured, and based on the measured value, a universal primer set (forward primer fw357F (SEQ ID NO: 1) and reverse primer RV926r (SEQ ID NO: 2) was prepared using 50 ng of DNA as a template. ), The V3-V4 region of the 16S ribosomal RNA gene (hereinafter referred to as 16S gene) is PCR amplified. For PCR, “Premix Ex Taq Hot Start Version” (registered trademark) manufactured by Takara Bio Inc.
  • the structure of the forward primer HA13621-fw357F sequence is shown below.
  • This forward primer contains the adapter A sequence (shown in capital letters) necessary for sequencing by the sequencer 20 at the 5 ′ end, and sandwiches all authentic bacteria with a 10-base barcode sequence unique to each specimen.
  • a universal primer sequence fw357F (expressed in lower case letters) for annealing to the 16S gene is included at the 3 ′ end side.
  • the barcode sequence is used for identification between samples, and is an arbitrarily designed base sequence corresponding to the number of samples provided to the sequencer 20 at the same time.
  • Adapter A sequence (SEQ ID NO: 3) 5'-CCATCTCATCCCTGCGTGTCTCCGAACTCAG-3 ' Universal primer sequence fw357F (SEQ ID NO: 1) 5'-cctacggggggggagg-3 '
  • HA13621-fw357F having 10 different barcode sequences may be prepared and PCR amplified for each sample.
  • these are mixed and used for the sequencer 20
  • 100 barcode sequences corresponding to 100 samples can be used once. 10,000 data / sample sequence data can be obtained during operation.
  • the structure of the reverse primer HA13619-RV926r sequence is shown below.
  • This reverse primer contains an adapter B sequence (indicated in capital letters) necessary for sequencing by the sequencer 20 at the 5 ′ end, and a universal primer sequence RV926r (indicated in small letters) that anneals to all eubacterial 16S genes. Included on the 3 ′ end side.
  • the sequence of HA13619-RV926r (SEQ ID NO: 4) 5'-CCTATCCCCTGTGTGCCTTGGCAGTCTCAGccgtcaattcctttttttttttttt-3 '
  • DNA (about 570 bases) containing the V3-V4 region of the 16S gene of various bacterial species constituting the bacterial flora is amplified, and a mixture thereof is obtained as the PCR product DNA. be able to.
  • PCR product DNA obtained from each bacterial flora DNA (mixture of DNA containing the V3-V4 region of 16S gene of various bacterial species constituting the bacterial flora) was mixed, and DNA cleaner (manufactured by Wako Pure Chemical Industries, Ltd.) To remove excess primers, substrate nucleotides, etc., and purify. Purified DNA is eluted and recovered with 200 ⁇ l TE.
  • the recovered purified DNA solution is subjected to agarose gel electrophoresis, a DNA fragment of about 570 bp is excised, extracted with MinElute Gel Extraction Kit (manufactured by Qiagen), and DNA to be used for the sequencer 20 is prepared. This is a sequence sample used for the following sequence.
  • sequence sample is subjected to a sequencer 20 GS FLX + System sequencer manufactured by Roche, which performs sequencing.
  • the sequence conditions and processes follow the manufacturer's protocol.
  • one molecule of the PCR product DNA prepared above is fixed to one bead, and then water (including PCR primers, substrate nucleotides, and DNA synthase for amplification of sequence template DNA).
  • Each bead is captured in each of the water droplets independently formed in the emulsion of oil and oil, and PCR is performed therein to amplify the template DNA for sequencing. ing.
  • the sequence reaction signal is read at the position of the partition to thereby obtain the PCR product DNA (the bacteria)
  • the base sequence of a mixture of DNAs containing the V3-V4 region of the 16S gene of various bacterial species constituting the flora can be determined at random.
  • the barcode sequence in the forward primer HA13621-fw357F is an arbitrary sequence characteristic for each specimen derived from each sample, about 100 types of bacterial flora samples can be simultaneously obtained using a GS FLX + System sequencer.
  • sequence data of 2,000 to 10,000 16S genes per sample derived from an activated sludge can be determined in approximately 10 to 23 hours. That is, it is possible to comprehensively analyze the bacterial flora contained in the activated sludge without limiting the bacterial species.
  • the above is an example of a method for preparing a sample for sequencing and reading a base sequence.
  • the preparation of the sequence sample and the reading of the base sequence may be performed by methods other than those described above.
  • the sequencer 20 and the computer 10 are connected so that information can be transmitted and received.
  • the sequencer 20 transmits information (sequence information) indicating the read base sequence for each microorganism to the computer 10.
  • sequence information transmitted to the computer is data of the sequence as it is sequenced by the sequencer 20, that is, so-called coarse sequence data.
  • the computer 10 includes a data generation unit 11, an input unit 12, a principal component analysis unit 13, a prediction rule generation unit 14, and a prediction unit 15.
  • the data generation unit 11 receives a base sequence of a plurality of microorganisms present in the activated sludge read by the sequencer 20 from the sequencer 20, and generates data for generating a prediction rule based on the base sequence It is.
  • the data for generating the prediction rule is time-series data of the existence ratio (existence probability) of each of the plurality of microorganisms present in the activated sludge.
  • This existence ratio is a ratio of the number of microorganisms of the type included in the activated sludge to the total number of microorganisms included in the activated sludge for each type of microorganism (microbe species, fungus species).
  • the data is data showing the existence ratio at a plurality of timings (time) for the same activated sludge (predicted activated sludge), that is, time-series data.
  • the time-series data referred to here is data acquired at a plurality of timings in a certain period, and the interval between each measurement time may be constant or indefinite. In order to improve the prediction accuracy, it may be acquired at substantially constant time intervals. For example, it is data of the existence ratio of a plurality of weeks for each week.
  • the data can be, for example, matrix data of the number of types of microorganisms ⁇ the number of time-series timings.
  • the activated sludge layer is divided into an aerobic tank and an anaerobic tank
  • data on the abundance ratio in each of the aerobic tank and the anaerobic tank is obtained as another time series data, and both are used for subsequent processing.
  • the species of microorganisms are not limited to specific species such as microorganisms involved in the decomposition of the substance to be treated in the water to be treated, and are randomly selected for analysis.
  • the number of types of microorganisms is about 20,000 although it depends on activated sludge. It is also possible to use data on the number of microbial species of 50% or more of the total number of microbial species by selecting from those having a high abundance ratio among all microbial species obtained appropriately, and use 75% or more.
  • microbial species are, for example, as described later, among all OTU species obtained by OTU analysis, the number of sequence data (count of the number of sequences) is very small (for example, 1, 2 or 3). ) Is excluded.
  • the selection of the number of microbial species is calculated by calculating the abundance ratio of each microbial species in the data at each time constituting the time-series data of the microbial information, and taking the sum of the abundance ratios at all times for each microbial species.
  • the microbial species is selected from those having a large presence ratio.
  • the number of timings corresponds to, for example, half year data. That is, the number of timings is about several tens to several hundreds.
  • the data generation unit 11 generates the data as follows.
  • the data generation unit 11 receives the coarse array data from the sequencer 20.
  • the rough sequence data received from the sequencer 20 is data relating to activated sludge at a plurality of timings, and the number of microorganisms or base sequences included in the activated sludge for each timing can be estimated. It is assumed to be data. That is, sequencing is performed by the sequencer 20 so that such data can be obtained.
  • the plurality of timings described above correspond to the respective timings of the time series data.
  • the data generation unit 11 converts each sequence into each unique sample (for example, about 570 bases / data in the above example) based on the barcode sequence unique to the sample included in the sequence data. (Corresponding to each timing of time series data).
  • the data generation unit 11 has an average quality value of the base sequence determined by using the quality program attached to the sequencer, the sequence length of the sequence data is less than 200, 1000 or more, mismatch 1 with the universal primer sequence (fw357F), or more. High precision data is extracted by removing 25 or less sequence data.
  • the data generation unit 11 provides the acquired high-precision sequence data for Operational Taxonomic Unit analysis (hereinafter referred to as OTU analysis) by clustering (threshold of 95%, 97%, or 99% similarity).
  • OTU analysis an operation of grouping each sequence data on the basis of the similarity of the sequence data is performed.
  • a cluster group of sequence data (hereinafter referred to as OTU) having a sequence similarity of 95% or more is detected.
  • the clustering of the array data can be performed using a conventional technique, for example, freeware Uclust. It can be estimated that each OTU originates from bacteria (microorganisms) of almost the same species.
  • the total number of OTUs obtained by clustering (the number of OTUs) can be considered to be equivalent to the number of bacterial species (microorganism species) constituting the bacterial flora (microbiota) within a detectable range.
  • the data generation unit 11 determines representative sequence data that is a base sequence representing each cluster group.
  • the representative sequence data can be determined by a conventionally used method.
  • the ratio of each OTU in the total number of sequence data that is, the bacterial species composition ratio or the base sequence composition ratio, that is, the above-mentioned existence ratio can be obtained.
  • homology search on the above 16S gene and the bacterial genome database for the representative sequence data of each OTU, it is possible to identify the belonging to the known bacterial species having the highest sequence similarity, that is, the OTU bacterial species. .
  • the OTU cluster group
  • the OTU cluster group
  • it is effective for the OTU (cluster group) that has very small number of sequence data (count of the number of sequences) included in all time data constituting the time series data of microorganism information (for example, 1, 2 or 3).
  • it is not correct information, and may be a noise in calculation. Therefore, it may be excluded from time series data in advance.
  • the data generation unit 11 generates time series data, for example, in the form of the above matrix by calculating the existence ratio for each bacterial species or each base sequence species for a plurality of timings.
  • the data generation unit 11 outputs the generated time series data to the input unit 12.
  • the input unit 12 is an input unit that inputs time-series data of the microorganism information and water quality information indicating water quality after water treatment associated with the data at each time constituting the time-series data.
  • the input unit 12 inputs from the data generation unit 11 the time series data of the microorganism information.
  • the water quality information indicates the state of water quality at the timing, and for example, a period (for example, one week) set in advance from the above timing in the time series data (timing when the solution containing the microflora is collected from the activated sludge). ) Indicates whether or not water quality data such as BOD exceeds a preset threshold value. This threshold value is the same as the threshold value related to the prediction rule described above.
  • Water quality information can be obtained by measuring water quality data such as BOD for water after water treatment.
  • the measurement of water quality data such as BOD is desirably performed frequently such as every day, but may be performed according to the above period. For example, when the water quality information indicates whether or not water quality data such as BOD exceeds a preset threshold value within one week, the measurement may be performed about twice a week. For example, the water quality information is 1 when water quality data such as BOD exceeds a preset threshold value within one week, and 0 otherwise.
  • the water quality information is input by accepting a water quality information input operation to the computer 10 of the user.
  • This water quality information is information for each timing data in the time-series data of the microorganism information, that is, includes information on the number of timings in the time series.
  • the input unit 12 inputs water quality information associated with each timing data.
  • the water quality information input to the computer 10 is associated with information indicating the timing of the water quality information.
  • the input unit 12 inputs a value of water quality data such as time-series BOD, determines whether or not the value exceeds a threshold value within one week from the above timing, and obtains the above water quality information. It may be generated.
  • the timing of the water quality data such as the time series BOD may not be the same as the timing of the time series data of the microorganism information.
  • the time-series data of the microorganism information corresponds to data input to the prediction rule generated by the prediction rule generation system 1.
  • the water quality information corresponds to the water quality predicted by the prediction rule generated by the prediction rule generation system 1.
  • the input unit 12 outputs time-series data of microbial information among the input information to the principal component analysis unit 13.
  • the input unit 12 outputs water quality information to the prediction rule generation unit 14 among the input information.
  • the principal component analysis unit 13 performs principal component analysis on the time-series data of the microorganism information input by the input unit 12, and calculates a principal component score of data at each time constituting the time-series data. It is an analysis tool. Since the time series data is matrix data as described above, principal component analysis can be performed. The principal component analysis unit 13 is performed so as to calculate the principal component score of the data at each time constituting the time series data, that is, the data of the existence ratio of the microorganisms or base sequences present in the activated sludge at each timing. That is, the principal component analysis is performed so as to compress the number (variable) of the type of microorganism or base sequence in the matrix data.
  • a principal component analysis is performed by combining both data.
  • the principal component score is calculated for the time-series data of the microorganism information in the aerobic tank and the anaerobic tank.
  • the principal component analysis unit 13 may perform principal component analysis using a correlation matrix in consideration of the properties of microorganisms present in activated sludge with respect to water treatment. That is, the principal component analysis is performed after converting the time-series data of the microorganism information into the correlation matrix.
  • principal component analysis is performed using a correlation matrix, the behavior of a small number of types of microorganisms can be reflected.
  • a dispersion covariance matrix may be used depending on the configuration of microorganisms present in the activated sludge.
  • the principal component analysis can be performed using conventional package software or the like.
  • the principal component analysis unit 13 counts the number of times until the cumulative contribution rate becomes equal to or higher than a predetermined threshold (for example, 80%) with respect to each data at each time constituting the time-series data of the microorganism information.
  • the principal component score is a principal component score used in the subsequent processing.
  • the principal component analysis unit 13 may use a preset number of principal component scores in descending order of contribution rate as the principal component scores used in the subsequent processing.
  • any other type of principal component score may be used as the principal component score used in the subsequent processing.
  • the number of principal component scores used in the subsequent processing can be set to about ten to several tens in consideration of the processing load of the subsequent processing and the like (for each time data constituting the time series data).
  • the principal component analysis unit 13 calculates and outputs to the prediction rule generation unit 14 the principal component score of the data at each time constituting the time series data as the principal component score used in the subsequent processing.
  • the principal component analysis unit 13 stores information for calculating a principal component score from vector data of the existence ratio of microorganisms or base sequences in order to perform prediction based on a prediction rule.
  • the time-series data of the microorganism information used for the prediction rule and the microorganism information used for the prediction are simultaneously generated by the data generation unit 11 and input from the input unit 12, and both data are combined into matrix data for prediction.
  • a principal component score used for prediction can be calculated in advance simultaneously with a principal component score used for a rule.
  • the prediction rule generation unit 14 constitutes the principal component score of the data at each time constituting the time series data of the microorganism information calculated by the principal component analysis unit 13 and the time series data input by the input unit 12. It is a prediction rule generation means for generating a prediction rule for predicting the water quality after water treatment from the existence ratio of each of a plurality of microorganisms or base sequences based on the water quality information associated with the data at each time.
  • FIG. 2 is a graph that is an example of time-series data of a principal component score and a BOD that is a source of water quality information.
  • the horizontal axis represents time
  • the vertical axis represents the principal component score value and the BOD value.
  • the principal component score indicates a principal component score having the first to sixth contribution rates when the principal component analysis using the correlation matrix is performed.
  • a total of 12 principal component scores of 6 in the aerobic tank and 6 principal component scores in the anaerobic tank are shown.
  • the principal component score used for the prediction rule is selected from 30 principal component scores for each of the aerobic tank and the anaerobic tank.
  • Each of the plurality of lines S indicates a principal component score value.
  • a line B indicates the value of BOD.
  • the prediction rule is to predict the timing and the state of water quality after that timing from the principal component score at a certain timing (at the time of microbiota observation, for example, the timing indicated by the solid line L1 in FIG. 2). For example, it is used to predict whether or not the BOD exceeds a preset threshold value T during a preset period (for example, a period up to the timing indicated by the broken line L2 in FIG. 2).
  • the prediction rule generation unit 14 includes the principal component score of the data at each time constituting the time series data of the input microorganism information and the water quality information associated with the data at each time constituting the time series data.
  • a prediction rule is generated by performing machine learning (training by machine learning) or the like. That is, the principal component score of the data at each time constituting the input time-series data and the water quality information associated with the data at each time constituting the time-series data are correct data (sample data) for machine learning. It is.
  • the principal component score of the data at each time constituting the time series data of the microorganism information is used as an input (explanatory variable) in the prediction rule, and the water associated with the data at each time constituting the time series data is used. Water quality information indicating the water quality after treatment is set as an output (objective variable) in the prediction rule.
  • the principal component score used as the explanatory variable may be selected here. The larger the number of principal component scores used for prediction, the higher the prediction accuracy, and the higher the contribution ratio of the used principal component score, the higher the prediction accuracy.
  • the combination of principal component scores calculated by the Principal Component Analysis Unit is varied in various combinations to perform machine learning, and the prediction accuracy is repeatedly evaluated. Select as an explanatory variable.
  • the reference value can be, for example, 75%, 85%, or the like.
  • a linear regression model can be used.
  • a Bayesian estimation method may be used.
  • a binomial or sequential discrete selection model can be used as one of the linear regression models.
  • a probit model, a logit model, a tobit model, or the like can be used.
  • a Bayesian estimation method can also be used for these.
  • SVM (support vector machine) etc. can be used.
  • a Bayesian network may be used.
  • the prediction rule generation unit 14 outputs information indicating the generated prediction rule to the prediction unit 15.
  • the prediction unit 15 is a prediction unit that performs prediction to predict the water quality after water treatment based on the prediction rule generated by the prediction rule generation unit 14.
  • the prediction rule is for predicting the prediction time point and the subsequent state of the water quality data such as BOD from the principal component score. For example, the BOD or the like in a preset period from the prediction time point. This is for predicting whether or not the water quality data exceeds a preset threshold value. That is, the prediction unit 15 inputs a principal component score related to a prediction target and performs prediction based on the prediction rule.
  • the prediction target is a water treatment system (microflora of the water treatment system) in which activated sludge containing the microflora (at the timing at which prediction is desired) is used.
  • the water treatment system to be predicted can be the same as the water treatment system that acquired the data used for generating the prediction rule. However, the water treatment system to be predicted may be other than the water treatment system that acquired the data used for generating the prediction rule.
  • the principal component score to be predicted is obtained in the same manner as the principal component score related to one timing of the time-series data of the microorganism information when the prediction rule is generated. That is, the generation of the principal component score is performed as follows.
  • the sequencer 20 reads the base sequence of the gene from a plurality of microorganisms present in the activated sludge of the water treatment system to be predicted.
  • the sequencer 20 transmits the read information (sequence information) indicating the base sequence for each of a plurality of microorganisms to be predicted.
  • the data generation unit 11 receives the sequence information from the sequencer 20, and generates data on the existence ratio of each of a plurality of microorganisms or base sequences to be predicted from the sequence information.
  • This data can be, for example, vector data including elements of the number of types of microorganisms or base sequences.
  • the vector data corresponds to matrix data for generating a prediction rule. That is, the order of the values of the existence ratios for each species of microorganisms or base sequences, and the number of types of microorganisms or base sequences (number of elements of vector data) are the matrix data for generating prediction rules, and It is assumed that the vector data is the same.
  • the data generation unit 11 outputs vector data related to the existence ratio of the generated prediction microorganism or base sequence to the input unit 12.
  • the input unit 12 inputs the vector data and outputs it to the principal component analysis unit 13.
  • the principal component analysis unit 13 inputs the vector data, and calculates a principal component score of the vector data based on the principal component analysis performed when the prediction rule is generated.
  • the principal component analysis unit 13 outputs the calculated principal component score to the prediction unit 15.
  • the principal component score to be predicted can be obtained at the same time as the principal component score of the time-series data of the microorganism information at the time of generating the prediction rule. That is, the calculation can be performed by increasing the timing of matrix data (number of microorganism types ⁇ timing) for generating a prediction rule and incorporating vector data for prediction.
  • the prediction unit 15 inputs the principal component score relating to the prediction target input from the principal component analysis unit 13 to the prediction rule, and obtains an output from the prediction rule as a prediction result.
  • the prediction result is in accordance with the generated prediction rule.
  • water quality data such as BOD is preset within a preset period (for example, one week) from the prediction time point. This is information indicating whether or not the threshold value is exceeded.
  • the prediction unit 15 outputs the obtained prediction result.
  • the prediction result is output by, for example, displaying it on a display device such as a display provided in the computer 10. Further, the output of the prediction result may be performed by transmitting to another device or another module in the computer 10, for example.
  • the above is the function of the computer 10 according to the present embodiment.
  • a prediction rule generation method and a prediction method which are processes executed by the prediction rule generation system 1 according to the present embodiment (an operation method of the prediction rule generation system 1), will be described using the flowcharts of FIGS. 3 and 4.
  • processing executed when generating a prediction rule will be described using the flowchart of FIG.
  • the sequencer 20 reads the base sequences of the genes of the microorganisms constituting the microflora used in the water treatment system (S01, reading step).
  • the base sequences of the genes of microorganisms constituting the microflora at a plurality of timings are read.
  • the read base sequence data is output from the sequencer 20 to the computer 10.
  • the data generation unit 11 receives the base sequence data transmitted from the sequencer 20. Subsequently, the data generation unit 11 generates time-series data of the microorganism information based on the base sequence data (S02, data generation step). As described above, the generated time series data is matrix data of the number of types of microorganisms or base sequences ⁇ the number of times of time series. Subsequently, the generated time series data is input from the data generation unit 11 to the input unit 12. In addition, the input unit 12 inputs water quality information for each piece of data at the above timing together with the input of time-series data (S03, input step). The input of the water quality information is performed, for example, by reading a data file that is updated regularly or irregularly or by accepting an input operation of the water quality information to the user's computer 10.
  • the time-series data of the input microorganism information is output from the input unit 12 to the principal component analysis unit 13.
  • the input water quality information is output from the input unit 12 to the prediction rule generation unit 14.
  • the principal component analysis is performed on the time-series data of the microorganism information by the principal component analysis unit 13 (S04, principal component analysis step).
  • the principal component score of the data at each time constituting the time series data obtained by the principal component analysis is output from the principal component analysis unit 13 to the prediction rule generation unit 14.
  • a prediction rule is generated (S05, prediction rule generation step).
  • the generation of the prediction rule is performed, for example, by machine learning using the principal component score as the input (explanatory variable) in the prediction rule and the water quality information as the output (objective variable) in the prediction rule.
  • Information indicating the generated prediction rule is output from the prediction rule generation unit 14 to the prediction unit 15. The above is the process executed when the prediction rule is generated.
  • the sequencer 20 reads the base sequences of the genes of the microorganisms constituting the microflora used in the water treatment system at the prediction target timing (S11, reading step).
  • the read base sequence data is output from the sequencer 20 to the computer 10.
  • the data generation unit 11 receives the base sequence data transmitted from the sequencer 20. Subsequently, the data generation unit 11 generates data on the existence ratio of each microorganism or base sequence based on the base sequence data (S12, data generation step). As described above, the generated data is vector data including elements of the number of types of microorganisms or base sequences. Subsequently, the generated data is input from the data generation unit 11 to the input unit 12 (S13, input step).
  • the input data is output from the input unit 12 to the principal component analysis unit 13. Subsequently, the principal component analysis unit 13 calculates a principal component score of the input data based on the principal component analysis at the time of generating the prediction rule (S14, principal component analysis step). The principal component score of the data obtained by the principal component analysis is output from the principal component analysis unit 13 to the prediction unit 15.
  • the prediction unit 15 performs water quality prediction from the principal component score input from the principal component analysis unit 13 (S15, prediction step). Information indicating the prediction result is displayed so as to be recognized by the user, for example. The above is the process executed at the time of prediction.
  • prediction is performed based on time-series data of microorganism information and water quality information indicating water quality after water treatment associated with data at each time constituting the time-series data.
  • a rule is generated. Therefore, unlike the case where the prediction is made using only the time series data of the water quality and the operating parameters of the biological reaction tank, the prediction considering the state of the microflora in the activated sludge can be performed. Thereby, prediction can be performed with higher accuracy than prediction using only time-series data of water quality and biological reaction tank operation parameters.
  • principal component analysis is performed.
  • the number of types of microorganisms present in activated sludge is enormous.
  • microbial information can be expressed with a small number of variables without taking in all the information and reducing the amount of information.
  • principal component analysis as in the present embodiment and reducing the number of variables used for generating the prediction rule, it is possible to reliably generate the prediction rule. That is, according to the present embodiment, it is possible to generate a prediction rule that accurately and reliably predicts the water quality after water treatment.
  • the principal component analysis may use a correlation matrix.
  • Prediction rules that reflect the behavior of a small number of microorganisms (microorganisms with a low presence rate) by performing principal component analysis using a correlation matrix, compared to using a variance-covariance matrix. Can be generated.
  • the behavior of a small number of microorganisms may affect the water quality after water treatment. Therefore, according to this configuration, it is possible to generate a prediction rule that performs prediction with higher accuracy.
  • a dispersion covariance matrix may be used depending on the configuration of microorganisms present in the activated sludge.
  • a prediction rule may be generated by machine learning. According to this configuration, it is possible to reliably generate a prediction rule. However, it is not always necessary to use machine learning, and the prediction rule may be generated by other methods.
  • the prediction rule may be generated using time series analysis. Specifically, time series analysis such as a multivariate autoregressive (VAR) model may be used.
  • VAR multivariate autoregressive
  • the sequencer 20 that reads the base sequence of the gene of the microorganism as in this embodiment is included in the prediction rule generation system 1, and time-series data may be generated based on the read base sequence. According to this configuration, it is possible to reliably input time-series data of the existence ratio of microorganisms or base sequences, and it is possible to reliably implement one embodiment of the present invention.
  • the prediction rule generation system 1 does not necessarily include the sequencer 20. That is, the prediction rule generation system 1 (the input unit 12 of the computer 10) may input time-series data of microorganism information from the outside.
  • the prediction rule generation system 1 may also serve as a prediction system as in the present embodiment. According to this configuration, prediction based on the generated prediction rule can be performed. However, the prediction does not necessarily have to be performed in the prediction rule generation system 1, and may be performed by an apparatus or system other than the prediction rule generation system 1. In that case, the prediction rule generated by the prediction rule generation system 1 is output to a prediction system other than the prediction rule generation system 1.
  • the prediction system has a function related to the prediction of the prediction rule generation system 1 described above.
  • FIG. 5 shows a graph of an example of the prediction result.
  • the horizontal axis in FIG. 5 is the time axis. One point on the horizontal axis corresponds to one timing described above.
  • the vertical axis indicates whether or not the BOD exceeded a preset threshold within one week from the timing (predicted time), that is, whether there was an outbreak (BOD exceeded the threshold within one week) or not (1 BOD did not exceed the threshold value within a week).
  • results are shown for a case where a binomial probit model (linear regression model) based on the Bayesian estimation method is used as a machine learning method for generating a prediction rule, and a case where an SVM is used.
  • the data on the left side of the broken line is used for machine learning training, and the data on the right side of the broken line is not used for machine learning training.
  • Each value when the probit model is used and when the SVM is used is a prediction result (output from the prediction rule) using the prediction rule.
  • the output of data not used for machine learning training is 79% consistent with the actual measurement.
  • SVM is used as a machine learning method
  • the output of data not used for machine learning training is 81% consistent with actual measurement. That is, the prediction rate of the method of this embodiment is approximately 80%, which is a high value.
  • a prediction model prediction rule
  • a BOD value is applied by applying a prediction rule for the subsequent half year. Predicted.
  • the prediction rate is considered to be higher. In daily water quality management, it is recommended to perform prediction while adding the newly acquired data and updating the prediction rule.
  • the data of the presence ratio of the microorganism or the base sequence is input as the input to the prediction rule.
  • other data may be input.
  • water quality data of treated water (drainage) and operating parameters of a biological reaction tank which have been used for conventional water quality prediction, may be used.
  • operating parameters of biological reactors such as COD (chemical oxygen demand), temperature, water quality data such as TOC, TN, pH, drainage items, dissolved oxygen (DO), redox potential (ORP), etc. It is.
  • the data of the inflow conditions of the water of the process target to a water treatment system may be used.
  • wastewater items that are being treated at that time or before or after that time can also be used as data.
  • data other than the data on the existence ratio of microorganisms or base sequences it is only necessary to prepare correct answer data for these data and perform machine learning.
  • a combination of data with high prediction accuracy can be selected by combining these data.
  • By increasing the data that is the basis of prediction a more accurate prediction rule can be generated.
  • finer water quality management (prediction) can be performed.
  • the water quality to be predicted is whether or not the BOD exceeds a preset threshold value within a preset period from the prediction time point.
  • the prediction rule generated in the present invention is based on the water quality. Others may be predicted as long as it relates. For example, prediction of water quality such as COD, TOC, and TN can be mentioned. In addition to whether the water quality value exceeds the threshold value, it may be used to predict which level among a plurality of levels separated by a certain range, or to estimate an estimated value. .

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Microbiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Zoology (AREA)
  • Medicinal Chemistry (AREA)
  • Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Food Science & Technology (AREA)
  • Water Supply & Treatment (AREA)
  • Environmental & Geological Engineering (AREA)
  • Hydrology & Water Resources (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Toxicology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Activated Sludge Processes (AREA)

Abstract

 水処理後の水質の予測を精度よくかつ確実に行う予測ルールを生成する。 予測ルール生成システム1のコンピュータ10は、水処理を行う活性汚泥中に存在する複数の微生物それぞれの存在割合又は当該活性汚泥中に存在する複数の塩基配列それぞれの存在割合の時系列データ、及び当該時系列データを構成する各時刻におけるデータに対応付けられた水処理後の水質を示す水質情報を入力する入力部12と、入力された時系列データに対して主成分分析を行って、時系列データを構成する各時刻におけるデータの主成分スコアを算出する主成分分析部13と、算出された主成分スコア、及び入力された水処理後の水質を示す水質情報に基づいて、複数の微生物それぞれ又は複数の塩基配列それぞれの存在割合から水処理後の水質を予測するための予測ルールを生成する予測ルール生成部14とを備える。

Description

予測ルール生成システム、予測システム、予測ルール生成方法及び予測方法
 本発明は、水処理後の水質を予測するための予測ルールを生成する予測ルール生成システム及び予測ルール生成方法、並びにそれらに関連する予測システム及び予測方法に関する。
 化学や鉄鋼といった重化学工業等における排水は、ヒトや環境生物に対する影響を十分に低下させた状態で自然環境中に排出することが望まれている。そのための排水処理として、複合微生物系である活性汚泥が用いられた生物処理が行われている。通常、適切に排水処理を行うため、処理後の排水の水質監視が行われる。具体的には、処理後の排水の生物化学的酸素要求量(BOD)、化学的酸素要求量(COD)、全有機炭素(TOC)、全窒素(TN)等の水質データを測定すること等により水質監視が行われる。生物処理において重要な管理指標であるBODは、測定結果が得られるまでに通常5日間程度の時間を要するため、他の水質データや、温度、pH、溶存酸素濃度(DO)等の生物反応槽の運転パラメータをもとにその日のBODが推測されることがある。また、現在の排水の状態から、BOD、COD、TOC、TN等の水質データの将来の値を予測することも管理上重要であり、水質の時系列データや生物反応槽の運転パラメータの時系列データに基づいて、BOD(生物化学的酸素要求量)等の予測が行われることもある(特許文献1及び2参照)。
特開2007-229550号公報 特開2007-263723号公報
 しかしながら、上述したような水質や生物反応槽の運転パラメータの時系列データを用いた予測は、活性汚泥中の微生物叢の状態が考慮されて行われるものではなく、十分な精度での予測が行えない場合があった。多様な排水を処理している状況では、特に予測が難しくなっている。そこで、処理後の水の状態予測において、予測精度の向上が求められていた。
 本発明は、上記に鑑みてなされたものであり、水処理後の水質の予測を精度よくかつ確実に行う予測ルールを生成することができる予測ルール生成システム及び予測ルール生成方法、並びにそれらに関連する予測システム及び予測方法を提供することを目的とする。
 上記目的を達成するために、本発明の一実施形態に係る予測ルール生成システムは、水処理を行う活性汚泥中に存在する複数の微生物それぞれの存在割合又は当該活性汚泥中に存在する複数の塩基配列それぞれの存在割合の時系列データ(以後、「微生物情報の時系列データ」と記すことがある)、及び当該時系列データを構成する各時刻におけるデータに対応付けられた水処理後の水質を示す水質情報を入力する入力手段と、入力手段によって入力された時系列データに対して主成分分析を行って、当該時系列データを構成する各時刻におけるデータの主成分スコアを算出する主成分分析手段と、主成分分析手段によって算出された、時系列データを構成する各時刻におけるデータの主成分スコア、及び入力手段によって入力された当該時系列データを構成する各時刻におけるデータに対応付けられた水処理後の水質を示す水質情報に基づいて、複数の微生物それぞれの存在割合、又は複数の塩基配列それぞれの存在割合から水処理後の水質を予測するための予測ルールを生成する予測ルール生成手段と、を備える。水処理後の水質としては、例えば、処理後の水における生物化学的酸素要求量(BOD)、化学的酸素要求量(COD)、全有機炭素(TOC)または全窒素(TN)等が挙げられる。
 本発明の一実施形態に係る予測ルール生成システムでは、水処理を行う活性汚泥中に存在する微生物又は塩基配列の存在割合の時系列データと、当該時系列データを構成する各時刻におけるデータに対応付けられた水処理後の水質を示す水質情報とに基づいて予測ルールが生成される。従って、活性汚泥中の微生物叢の状態を考慮した予測を行うことができ、水質や生物反応槽の運転パラメータの時系列データのみを用いた予測と比べて精度よく予測を行うことができる。
 また、本発明の一実施形態に係る予測ルール生成システムでは、主成分分析が行われる。通常、活性汚泥中に存在する微生物の種類の数は膨大である。微生物情報の時系列データに対して主成分分析を行うことで、全ての情報を取り込んで情報量を落とすことなく、少ない変数で微生物情報を表現することができる。本発明の一実施形態のように主成分分析を行って、予測ルールの生成に用いる変数を少なくすることで、確実に予測ルールの生成を行うことができる。即ち、本発明の一実施形態に係る予測ルール生成システムによれば、水処理後の水質の予測を精度よくかつ確実に行う予測ルールを生成することができる。
 主成分分析手段は、相関行列を用いた主成分分析を行うこととしてもよい。分散共分散行列を用いた主成分分析では、多数種の微生物の挙動が主に反映されるのに対し、この構成のように相関行列を用いた主成分分析を行った場合、分散共分散行列を用いる場合と比べて多くの変数が必要となるものの、少数種の微生物(存在割合が小さい微生物)の挙動をより反映した予測ルールを生成することができる。水処理後の水質には、少数種の微生物の挙動が影響することがある。従って、この構成によれば、更に精度よく予測を行う予測ルールを生成することができる。
 予測ルール生成手段は、主成分分析手段によって算出された、時系列データを構成する各時刻におけるデータの主成分スコアを予測ルールにおける入力とし、入力手段によって入力された当該時系列データを構成する各時刻におけるデータに対応付けられた水処理後の水質を示す水質情報を予測ルールにおける出力とした機械学習を行うことで予測ルールを生成することとしてもよい。この構成によれば、確実に予測ルールを生成することができる。
 予測ルール生成システムは、活性汚泥中に存在する複数の微生物から遺伝子の塩基配列を読み取る読取手段と、読取手段によって読み取られた遺伝子の塩基配列に基づき時系列データを生成して入力手段に入力させるデータ生成手段と、を更に備えることとしてもよい。この構成によれば、微生物又は塩基配列の存在割合の時系列データを確実に入力することができ、確実に本発明の一実施形態を実施することができる。
 本発明の一実施形態に係る予測システムは、本発明の一実施形態に係る予測ルール生成システムによって生成された予測ルールに基づき、水処理後の水質を予測する予測システムであって、予測対象となる複数の微生物それぞれの存在割合又は予測対象となる複数の塩基配列それぞれの存在割合のデータを入力する入力手段と、予測ルール生成システムによる主成分分析に基づいて、入力手段によって入力された予測対象のデータの主成分スコアを算出する主成分分析手段と、予測ルール生成システムによって生成された予測ルールに基づき、主成分分析手段によって算出された予測対象のデータの主成分スコアから水処理後の水質を予測する予測手段と、を備える。本発明の一実施形態に係る予測システムによれば、予測ルール生成システムによって生成された予測ルールに基づいた予測を行うことができる。
 ところで、本発明は、上記のように予測ルール生成システム及び予測システムの発明として記述できる他に、以下のように予測ルール生成方法及び予測方法の発明としても記述することができる。これはカテゴリが異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。
 即ち、本発明の一実施形態に係る予測ルール生成方法は、予測ルール生成システムの動作方法である予測ルール生成方法であって、水処理を行う活性汚泥中に存在する複数の微生物それぞれの存在割合又は当該活性汚泥中に存在する複数の塩基配列それぞれの存在割合の時系列データ、及び当該時系列データを構成する各時刻におけるデータに対応付けられた水処理後の水質を示す水質情報を入力する入力ステップと、入力ステップにおいて入力された時系列データに対して主成分分析を行って、当該時系列データを構成する各時刻におけるデータの主成分スコアを算出する主成分分析ステップと、主成分分析ステップにおいて算出された、時系列データを構成する各時刻におけるデータの主成分スコア、及び入力ステップにおいて入力された当該時系列データを構成する各時刻におけるデータに対応付けられた水処理後の水質を示す水質情報に基づいて、複数の微生物それぞれの存在割合、又は複数の塩基配列それぞれの存在割合から水処理後の水質を予測するための予測ルールを生成する予測ルール生成ステップと、を含む。
 また、本発明の一実施形態に係る予測方法は、本発明の一実施形態に係る予測ルール生成システムによって生成された予測ルールに基づき、水処理後の水質を予測する、予測システムの動作方法である予測方法であって、予測対象となる複数の微生物それぞれの存在割合又は予測対象となる複数の塩基配列それぞれの存在割合のデータを入力する入力ステップと、予測ルール生成システムによる主成分分析に基づいて、入力ステップにおいて入力された予測対象のデータの主成分スコアを算出する主成分分析ステップと、予測ルール生成システムによって生成された予測ルールに基づき、主成分分析ステップにおいて算出された予測対象のデータの主成分スコアから水処理後の水質を予測する予測ステップと、を含む。
 本発明の一実施形態では、活性汚泥中の微生物叢の状態を考慮した予測を行うことができ、水質や生物反応槽の運転パラメータの時系列データのみを用いた予測と比べて精度よく予測を行うことができる。また、本発明の一実施形態では、予測ルールの生成に用いる変数を少なくすることで、確実に予測ルールの生成を行うことができる。即ち、本発明の一実施形態によれば、水処理後の水質の予測を精度よくかつ確実に行う予測ルールを生成することができる。
本発明の実施形態に係る予測ルール生成システムの構成を示す図である。 活性汚泥中に存在する複数の微生物それぞれの存在割合の主成分スコア(全ての主成分スコア中の12個を表示)とBODとの時系列データの例であるグラフである。 本発明の実施形態に係る予測ルール生成システムで予測ルールの生成時に実行される処理(予測ルール生成方法)を示すフローチャートである。 本発明の実施形態に係る予測ルール生成システムで予測時に実行される処理(予測方法)を示すフローチャートである。 生成された予測ルールを用いた予測の結果の例を示すグラフである。
 以下、図面と共に本発明に係る予測ルール生成システム、予測システム、予測ルール生成方法及び予測方法の実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
 図1に、本実施形態に係る予測ルール生成システム1を示す。予測ルール生成システム1は、水処理後の水質を予測するための予測ルールを生成するシステムである。本実施形態で対象とする水処理は、例えば、産業排水や公共の下水、汚水等の自然環境に対して害となる水を自然環境に対する影響を小さくするための処理である。また、当該水処理は、複数の微生物の集合である微生物叢を含む活性汚泥が用いられた水処理システムで行われるものである。活性汚泥に含まれる微生物の種類の数は、通常、数千~数万以上である。また、当該活性汚泥は、通常、生物反応槽(バイオタンク、活性汚泥槽)に入れられており、処理対象の水を当該生物反応槽内に流入させることで水処理が行われる。生物反応槽には、通常、好気槽及び嫌気槽が含まれる。当該水処理は、例えば、工場の稼働に応じて継続的に行われるものである。なお、当該水処理自体は、従来から行われているものである。
 予測ルール生成システム1は、具体的には、予測時点から予め設定された期間(例えば、1週間又は2週間)以内にBOD等の水質データが予め設定された閾値を超えるかを予測する予測ルールを生成する。この閾値は、例えば、適切に水処理が行われている場合と比べて、水処理後の水質が悪化している(適切に水処理が行われていない)と判断できる程度の値とされる。また、当該予測ルールは、活性汚泥中に存在する複数の微生物それぞれの存在割合又は活性汚泥中に存在する複数の塩基配列それぞれの存在割合に基づく情報を入力として予測を行うためものである。即ち、当該予測ルールは、予測時点の上記の存在割合から、予め設定された期間におけるBOD等の水質データの突発的悪化を含む悪化の有無を予測するものである。また、予測ルールは、複数の微生物それぞれの存在割合、及び複数の塩基配列それぞれの存在割合の両方を入力として予測を行うためものであってもよい。また、予測ルール生成システム1は、生成した予測ルールを用いて、予測も行う。予測対象の水質として、BODの他にCOD、TOC、TN等についても同様に予測を行うことが出来る。
 予測ルール生成システム1は、図1に示すようにコンピュータ10と、シークエンサー20とを含んで構成される。コンピュータ10は、予測ルール生成システム1の主要な機能を担う装置であり、予測ルールの生成及び予測ルールを用いた予測を行う装置である。コンピュータ10は、具体的には、CPU(Central Processing Unit)やメモリ、通信モジュール等のハードウェアを備えている。これらの構成要素がプログラム等によって動作することによって、後述するコンピュータ10の機能が発揮される。
 シークエンサー20は、活性汚泥中に存在する複数の微生物から遺伝子の塩基配列を読み取る(決定する)読取手段である。シークエンサー20として、複数の微生物の遺伝子を同時に読み取る(解析)することができる、いわゆる次世代シークエンサーを用いることとしてもよい。シークエンサー20としては、従来のシークエンサー、例えば、ロシュ社製GS Junior Systemシークエンサー、ロシュ社製GS FLX+ Systemシークエンサー、あるいはイルミナ社製MiSeq Systemシークエンンサーを用いることとしてもよい。また、シークエンサー20は、微生物の遺伝子の塩基配列として、16SリボソームRNA遺伝子の塩基配列を読み取ることとしてもよい。16SリボソームRNA遺伝子の塩基配列は、微生物の種別毎に比較的、特徴的な配列であるからである。なお、16SリボソームRNA遺伝子の塩基配列を読み取るため、活性汚泥から採取されてシークエンサー20に入力されるシークエンス用サンプル(汚泥サンプル)は予め調製される。活性汚泥は、例えば、好気槽及び嫌気槽のそれぞれから採取される。シークエンス用サンプルの調製、及び塩基配列の読み取り(シークエンシング)は、例えば、以下のように行うことができる。
 [微生物叢のDNAの調製]
 活性汚泥から約1.5mlの微生物群を含む溶液を採取し、室温で遠心する(13,000rpm×5分間)。上清を取り除いた後、滅菌生理食塩水を1ml加えて、5秒間ほど転倒混合した後、室温で遠心する(13,000rpm×5分間)。上清を除いた後、Lysis buffer(エイエムアール社製)を300μl加え、よく混合した後、得られた懸濁液をビーズの入ったチューブ(イージーエクストラクト for DNA(エイエムアール社製))に添加後、ボルテックスミキサーで2分間撹拌破砕する。破砕液に300μlのTE溶液(10mM Tris、1mM EDTA、pH8.0)(以下、TE)を添加し、4℃で遠心する(13,000rpm×5分間)。その後、上清液450μlを新しいチューブに入れ、これに600μlのフェノール混合液(イージーエクストラクト for DNAに付属(エイエムアール社製))を加え、1分間ボルテックスし攪拌した後、4℃で遠心する(13,000rpm×5分間)。上清300μlを回収して新しいチューブ(1.5ml)に入れ、これに1200μlのエタノール(99.5%)を加えて、4℃で遠心する(13,000rpm×5分間)。上清を除いた後、1000μlの冷エタノール(70%)を加えて、4℃で遠心し(13,000rpm×5分間)、得られたDNAペレットを真空乾燥し、ついで150μlのTEを加えて、細菌叢DNAの溶液とする。
 [16SリボソームRNA遺伝子のV3-V4領域のPCR増幅]
 細菌叢DNAの溶液中の二本鎖DNA濃度を測定し、その測定値に基づいて50ngのDNAを鋳型として、ユニバーサルプライマーセット(フォワードプライマーfw357F(配列番号1)とリバースプライマーRV926r(配列番号2))を用いて、16SリボソームRNA遺伝子(以下、16S遺伝子)のV3-V4領域をPCR増幅する。PCRはタカラバイオ社製の「Premix Ex Taq Hot Start Version」(登録商標)を用いて、各プライマーを50pmol含む反応液50μlを作成し、94℃で2分間のプレヒーティングを行った後、変性、アニーリング、伸長をそれぞれ98℃×10秒間、50℃×30秒間、72℃×80秒間で行い25サイクル繰り返す。
 下記にフォワードプライマーHA13621-fw357Fの配列の構造を示す。このフォワードプライマーは、シークエンサー20での配列決定に必要なアダプターA配列(大文字で表記)を5’末端側に含み、各検体に固有の10塩基のバーコード配列をはさんで、全ての真正細菌の16S遺伝子にアニーリングするユニバーサルプライマー配列fw357F(小文字で表記)を3’末端側に含む。上記バーコード配列はサンプル間の識別に利用するもので、同時にシークエンサー20に供するサンプル数に対応した任意に設計した塩基配列である。
 アダプターA配列(配列番号3)
5’-CCATCTCATCCCTGCGTGTCTCCGACTCAG-3’
 ユニバーサルプライマー配列fw357F(配列番号1)
5’-cctacgggaggcagcag-3’
 上記バーコード配列の役割を説明する。例えば、10検体を同時解析する場合は、10通りの異なったバーコード配列をもったHA13621-fw357Fを作り、それぞれを各検体に対してPCR増幅すればよい。これらを混合してシークエンサー20に供すると、1稼働で100万データを得ることができるGS FLX+ Systemシークエンサーを利用した場合、100検体に対応する100通りのバーコード配列を用いることで、1回の稼働で1万データ/検体の配列データを得ることができる。
 下記にリバースプライマーHA13619-RV926rの配列の構造を示す。このリバースプライマーは、シークエンサー20での配列決定に必要なアダプターB配列(大文字で表記)を5’末端側に含み、全ての真正細菌の16S遺伝子にアニーリングするユニバーサルプライマー配列RV926r(小文字で表記)を3’末端側に含む。
 HA13619-RV926rの配列(配列番号4)
5’-CCTATCCCCTGTGTGCCTTGGCAGTCTCAGccgtcaattccttttragttt-3’
 上記のユニバーサルプライマーセットを用いたPCRにより、細菌叢を構成する種々の細菌種の16S遺伝子のV3-V4領域を含むDNA(約570塩基)が増幅され、それらの混合物をそのPCR産物DNAとして得ることができる。
 [PCR産物の生成及びシークエンス用サンプルの調製]
 各々の細菌叢DNAから得られたPCR産物DNA(その細菌叢を構成する種々の細菌種の16S遺伝子のV3-V4領域を含むDNAの混合物)を混合し、DNAクリーナー(和光純薬社製)にて処理して、過剰のプライマーや基質のヌクレオチド等を除去し、精製する。精製DNAは200μlのTEで溶出し回収する。ついで、回収した精製DNA溶液をアガロースゲル電気泳動に供し、約570bpのDNA断片を切り出し、MinElute Gel ExtractionKit(キアゲン社製)にて抽出し、シークエンサー20に供するDNAを調製する。これを以下のシークエンスに用いるシークエンス用サンプルとする。
 [16S遺伝子のシークエンシングと配列データの精度評価]
 上記シークエンス用サンプルを、シークエンサー20であるロシュ社製GS FLX+ Systemシークエンサーに供しシークエンスを行う。シークエンスの条件・工程等はメーカー所定のプロトコールに従う。なお、このシークエンサーでは、上記で調製したPCR産物DNAの1分子を1つのビーズに固定して、ついで、水(シークエンス用鋳型DNAの増幅のためのPCRプライマー、基質ヌクレオチド、DNA合成酵素を含む)と油のエマルジョン中に独立して形成された微小水滴の1つ1つに1つ1つのビーズを捕獲して、その中でPCRを行ってシークエンス用鋳型DNAを増幅して調製するようになっている。よって、この増幅した鋳型DNAが固定された各ビーズをタイタープレート上に区画した後に、その区画位置上でシークエンス反応のシグナルを読み取ることによって、上記シークエンス用サンプル中に含まれるPCR産物DNA(その細菌叢を構成する種々の細菌種の16S遺伝子のV3-V4領域を含むDNAの混合物)の塩基配列を無作為に決定することができる。また、フォワードプライマーHA13621-fw357F中の上記バーコード配列を、各サンプルに由来する検体ごとに特徴的な任意の配列にしておけば、GS FLX+ Systemシークエンサーを用いて約100種類の細菌叢サンプルを同時解析でき、ある活性汚泥由来のサンプルにつき2,000~10,000の16S遺伝子の配列データを、およそ10~23時間で決定することができる。即ち、活性汚泥に含まれる細菌叢について菌種を限定せずに網羅的に解析することが可能となる。
 以上が、シークエンス用サンプルの調製、及び塩基配列の読み取りを行う方法の一例である。なお、シークエンス用サンプルの調製、及び塩基配列の読み取りは、上記の方法以外で行われてもよい。シークエンサー20と、コンピュータ10とは、情報の送受信が行えるように接続されている。シークエンサー20は、読み取った微生物毎の塩基配列を示す情報(配列情報)をコンピュータ10に送信する。ここで、コンピュータに送信される配列情報は、シークエンサー20にシークエンシングされたそのままの配列のデータ、いわゆる粗配列データである。
 引き続いて、本実施形態に係るコンピュータ10の機能について説明する。図1に示すようにコンピュータ10は、データ生成部11と、入力部12と、主成分分析部13と、予測ルール生成部14と、予測部15とを備えて構成される。
 データ生成部11は、シークエンサー20によって読み取られた活性汚泥中に存在する複数の微生物の塩基配列をシークエンサー20から受信し、当該塩基配列に基づき予測ルールを生成するためのデータを生成するデータ生成手段である。予測ルールを生成するためのデータは、活性汚泥中に存在する複数の微生物それぞれの存在割合(存在確率)の時系列データである。この存在割合は、微生物の種別(微生物種、菌種)毎の、活性汚泥に含まれる全微生物の数に対する、当該活性汚泥に含まれる当該種別の微生物の数の割合である。但し、厳密にその割合を把握することは困難である場合等には、厳密に全微生物の数に対する数の割合である必要はなく、予測ルールの生成に必要な程度に近似した割合であればよい。また、当該データは、同一の活性汚泥(予測対象の活性汚泥)について、複数のタイミング(時刻)での存在割合を示すもの、即ち、時系列データである。ここで言う時系列データとは、ある一定期間に複数のタイミングで取得したデータであり、各測定時刻の間隔は、一定であっても、不定であってもよい。予測精度を高めるため、ほぼ一定時間間隔で取得されることとしてもよい。例えば、1週間毎の複数週の存在割合のデータである。即ち、1週間毎に活性汚泥から微生物群を含む溶液を採取し、存在割合を算出する。従って、当該データは、例えば、微生物の種別の数×時系列のタイミングの数の行列データとすることができる。
 また、活性汚泥層が好気槽と嫌気槽に分かれる場合は、好気槽と嫌気槽とのそれぞれにおける存在割合のデータを得て別の時系列データとし、両方をその後の処理に用いることとしてもよい。微生物の種としては、被処理水中の処理対象物質の分解に関与する微生物等の特定の種に限ることなく、無作為に解析対象とする。微生物の種別の数は、活性汚泥にもよるが、2万程度の数となる。適切に得られた全ての微生物種の中で存在割合が大きいものから選択して、全微生物種数の50%以上の数の微生物種のデータを用いることとしてもよく、さらに75%以上を用いることとしてもよい。適切に得られた微生物種とは、たとえば後述するように、OTU解析によって得られた全OTU種の中で、配列データ数(配列数のカウント)が非常に少ない(例えば、1、2又は3)のものを除いたものである。微生物種の数の選択は、微生物情報の時系列データを構成する各時刻のデータにおいて各微生物種の存在割合を算出し、微生物種毎に全ての時刻について存在割合の総和をとったものを各微生物種の存在割合とし、その存在割合が大きいものから選択する。また、タイミングの数は、例えば、半年間のデータに相当するものである。即ち、タイミングの数は、数十ないし数百程度である。上記のデータ生成及び以下のデータの処理には、微生物の存在割合に替えて、活性汚泥中に存在する複数の塩基配列のそれぞれの存在割合を使用することも出来、微生物の存在割合と塩基配列の存在割合との両方を使用することもできる。
 例えば、データ生成部11は、以下のように当該データの生成を行う。データ生成部11は、シークエンサー20から粗配列データを受信する。なお、シークエンサー20から受信する粗配列データは、複数のタイミングの活性汚泥に係るデータであり、それぞれのタイミングについて活性汚泥に含まれる複数の微生物又は塩基配列それぞれの存在割合を推定できる程度の数のデータであるものとする。即ち、そのようなデータが得られるようにシークエンサー20によるシークエンシングを行う。上記の複数のタイミングは、時系列データのそれぞれのタイミングに相当するものである。
 データ生成部11は、得られた粗配列データ(例えば、上記の例では約570塩基/データ)について、配列データに含まれるサンプル固有のバーコード配列に基づき、各配列をそれぞれの固有のサンプル(時系列データのそれぞれのタイミングに相当)に分配する。データ生成部11は、当該配列データの配列長200未満、1000以上、ユニバーサルプライマー配列(fw357F)とのミスマッチ1以上、シークエンサーに付属のクオリティプログラムを用いて、配列決定した塩基配列の平均クオリティ値が25以下の配列データを除去して、高精度データを抽出する。
 データ生成部11は、取得した高精度配列データを、クラスタリング(類似度95%、97%、又は99%の閾値)によるOperational Taxonomic Unit解析(以下、OTU解析)に供する。OTU解析においては、配列データの類似度を基準にして各配列データをグループ化する操作を行う。ここでは95%以上の配列類似度を互いに有する配列データのクラスターグループ(以下、OTU)を検出する。なお、配列データのクラスタリングは、従来技術、例えば、フリーウェアUclust等を用いて行うことができる。各OTUはほぼ同じ種の細菌(微生物)に由来すると推測できる。よって、クラスタリングによって得られるOTUの総数(OTU数)は、検出可能な範囲において、その細菌叢(微生物叢)を構成する細菌種(微生物種)の数と等価と考えることができる。データ生成部11は、各クラスターグループを代表する塩基配列である代表配列データを決定する。代表配列データの決定は、従来から用いられている方法により行うことができる。
 また、各OTU中に含まれる配列データ数からは、配列データ数全体中の各OTUの割合、つまり菌種組成比又は塩基配列組成比、即ち、上記の存在割合を求めることができる。更に、各OTUの代表配列データについて上記した16S遺伝子及び細菌ゲノムのデータベースへの相同性検索を行うことにより、最も高い配列類似度を有する既知菌種へ帰属、つまり、OTUの菌種を特定できる。なお、本実施形態では菌種の特定は必ずしも必要がないが、具体的にどの菌種の細菌が活性汚泥に含まれるか否かを把握できるため、予測結果の解析等において有益となる。なお、微生物情報の時系列データを構成する全時刻のデータに含まれる、配列データ数(配列数のカウント)が非常に少ない(例えば、1、2又は3)OTU(クラスターグループ)については、有効な情報でない場合が多く、計算上のノイズとなる場合があるので、予め時系列データから外すこととしてもよい。
 データ生成部11は、上記の細菌種毎又は塩基配列種毎の存在割合を複数のタイミングについて算出することで時系列データを、例えば、上記の行列の形式で生成する。データ生成部11は、生成した時系列データを入力部12に出力する。
 入力部12は、上記の微生物情報の時系列データ、及び当該時系列データを構成する各時刻におけるデータに対応付けられた水処理後の水質を示す水質情報を入力する入力手段である。上記の微生物情報の時系列データについては、入力部12は、データ生成部11から入力する。水質情報は、そのタイミングにおける水質の状態を示すものであり、例えば、時系列データにおける上記のタイミング(活性汚泥から微生物叢を含む溶液を採取したタイミング)から予め設定された期間(例えば、1週間)以内にBOD等の水質データが予め設定された閾値を超えるか否かを示すもの等である。この閾値は、上述した予測ルールに係る閾値と同様のものである。水質情報は、水処理後の水についてBOD等の水質データを測定することで得ることができる。BOD等の水質データの測定は、1日毎等、頻度が高いことが望ましいが、上記の期間に応じて行われればよい。例えば、水質情報が、1週間以内にBOD等の水質データが予め設定された閾値を超えるか否かを示すものである場合、1週間に2回程度の測定が行われればよい。例えば、水質情報は、1週間以内にBOD等の水質データが予め設定された閾値を超えた場合を1、それ以外を0とする。
 例えば、ユーザのコンピュータ10に対する水質情報の入力操作を受け付けることによって水質情報を入力する。この水質情報は、微生物情報の時系列データにおける上記のタイミングのデータ毎の情報であり、即ち、時系列のタイミングの数の情報を含む。入力部12は、タイミングのデータ毎に対応付けられた水質情報を入力する。例えば、コンピュータ10に入力される水質情報には、どのタイミングの水質情報であるかを示す情報が対応付けられている。なお、入力部12は、時系列のBOD等の水質データの値を入力して、当該値が上記のタイミングから1週間以内に閾値を超えているか否かを判断して、上記の水質情報を生成することとしてもよい。この時系列のBOD等の水質データのタイミングは、微生物情報の時系列データのタイミングと同じでなくてもよい。
 入力部12によって入力される情報のうち、微生物情報の時系列データは、予測ルール生成システム1によって生成される予測ルールへ入力されるデータに対応するものである。また、水質情報は、予測ルール生成システム1によって生成される予測ルールによって予測される水質に対応するものである。入力部12は、入力した情報のうち、微生物情報の時系列データを主成分分析部13に出力する。入力部12は、入力した情報のうち、水質情報を予測ルール生成部14に出力する。
 主成分分析部13は、入力部12によって入力された微生物情報の時系列データに対して主成分分析を行って、当該時系列データを構成する各時刻におけるデータの主成分スコアを算出する主成分分析手段である。上述したように時系列データは行列データであるため、主成分分析を行うことができる。主成分分析部13は、時系列データを構成する各時刻におけるデータ、即ち各タイミングでの活性汚泥に存在する微生物又は塩基配列の存在割合のデータの主成分スコアを算出するように行われる。即ち、行列データの微生物又は塩基配列の種別の数(変数)を圧縮するように主成分分析を行う。好気槽と嫌気槽から微生物情報の時系列データを取得する場合は、双方のデータを合わせて主成分分析を行う。その際、好気槽、嫌気槽それぞれの微生物情報の時系列データについて主成分スコアが算出される。
 主成分分析部13は、具体的には、活性汚泥に存在する微生物の水処理に対する性質を考慮し、相関行列を用いた主成分分析を行うこととしてもよい。即ち、微生物情報の時系列データを相関行列に変換後、主成分分析を行う。相関行列を用いた主成分分析を行うことで、少数種の微生物の挙動を反映することができる。但し、活性汚泥に存在する微生物の構成等によっては、分散共分散行列を用いることとしてもよい。主成分分析は、従来のパッケージソフトウェア等を用いて行うことができる。
 主成分分析部13は、例えば、微生物情報の時系列データを構成する各時刻におけるデータそれぞれに対して、累積寄与率が、予め設定された閾値(例えば、80%)以上となるまでの数の主成分スコアを、以降の処理で用いる主成分スコアとする。また、主成分分析部13は、寄与率が高い順に予め設定された数の主成分スコアを、以降の処理で用いる主成分スコアとしてもよい。また、それ以外の任意の種類の主成分スコアを、以降の処理で用いる主成分スコアとしてもよい。以降の処理で用いる主成分スコアの数は、以降の処理の処理負荷等を考慮し、概ね(時系列データを構成する各時刻のデータにつき)、十数ないし数十程度とすることができる。後述するように予測部において、用いる主成分スコアを選択するため、ここでは多めの数の主成分スコアを算出する。主成分分析部13は、算出し、以降の処理で用いる主成分スコアとした時系列データを構成する各時刻におけるデータの主成分スコアを予測ルール生成部14に出力する。また、主成分分析部13は、予測ルールによる予測を行うため、微生物又は塩基配列の存在割合のベクトルデータから、主成分スコアを算出するための情報を記憶しておく。あるいは、予測ルールに用いる微生物情報の時系列データと予測に用いる微生物情報を同時に、データ生成部11で生成して、入力部12から入力しておき、両方のデータを合わせて行列データとし、予測ルールに用いる主成分スコアと同時に、予測に用いる主成分スコアを予め計算しておくことができる。
 予測ルール生成部14は、主成分分析部13によって算出された、微生物情報の時系列データを構成する各時刻におけるデータの主成分スコア、及び入力部12によって入力された、当該時系列データを構成する各時刻におけるデータに対応付けられた水質情報に基づいて、複数の微生物又は塩基配列それぞれの存在割合から水処理後の水質を予測するための予測ルールを生成する予測ルール生成手段である。図2は、主成分スコアと、水質情報の元となるBODとの時系列データの例であるグラフである。図2のグラフにおいて、横軸は時間、縦軸は主成分スコアの値及びBODの値をそれぞれ示している。主成分スコアは、相関行列を用いた主成分分析を行った際の寄与率が1番目から6番目の主成分スコアを示している。好気槽の主成分スコア6個と嫌気槽の主成分スコア6個の全12個を示している。予測ルールに用いた主成分スコアは、好気槽、嫌気槽それぞれ30個の主成分スコアから10個を選択したものである。複数の線Sのそれぞれが、主成分スコアの値を示している。また、線Bが、BODの値を示している。
 予測ルールは、あるタイミング(微生物叢観測時であり、例えば、図2の実線L1で示されるタイミング)での主成分スコアから、そのタイミングおよびそのタイミング以降の水質の状態を予測するものであり、例えば、そのタイミングから予め設定された期間(例えば、図2の破線L2で示されるタイミングまでの期間)にBODが予め設定された閾値Tを超えるか否かを予測すること等に用いる。
 具体的には、予測ルール生成部14は、入力した微生物情報の時系列データを構成する各時刻におけるデータの主成分スコア及び当該時系列データを構成する各時刻におけるデータに対応付けられた水質情報に基づいて、例えば、機械学習(機械学習による訓練)等を行うことで予測ルールを生成する。即ち、入力した時系列データを構成する各時刻におけるデータの主成分スコア及び当該時系列データを構成する各時刻におけるデータに対応付けられた水質情報は、機械学習のための正解データ(サンプルデータ)である。この機械学習では、微生物情報の時系列データを構成する各時刻におけるデータの主成分スコアを予測ルールにおける入力(説明変数)とし、当該時系列データを構成する各時刻におけるデータに対応付けられた水処理後の水質を示す水質情報を予測ルールにおける出力(目的変数)とする。更に、ここでは説明変数として用いる主成分スコアの選択を行うこととしてもよい。必ずしも予測に用いる主成分スコアの数が多いほど予測精度が高いということはなく、また必ずしも用いる主成分スコアの寄与率が高いほど予測精度が高いということはない。主成分分析部で算出された主成分スコアの中から組み合わせを様々に変化させて機械学習を行い、その予測精度を評価することを繰り返し、予測精度がある基準値以上高い主成分スコアの組み合わせを説明変数として選択することを行う。基準値は、例えば75%、85%等とすることができる。
 機械学習の手法としては、例えば、線形回帰モデルを用いることができる。その際にベイズ推定法を用いてもよい。また、線形回帰モデルの一つとして二項又は順序型の離散選択モデルを用いることができる。具体的には、プロビットモデルやロジットモデル、トビットモデルなどを用いることが出来る。これらにベイズ推定法を用いることも出来る。又は、SVM(サポートベクターマシーン)等を用いることができる。あるいは、ベイジアンネットワークを用いることとしてもよい。予測ルール生成部14は、生成した予測ルールを示す情報を予測部15に出力する。
 予測部15は、予測ルール生成部14によって生成された予測ルールに基づき、水処理後の水質を予測する予測を行う予測手段である。上記のように、予測ルールは、主成分スコアから、BOD等の水質データの、予測時点およびそれ以降の状態を予測するためのものであり、例えば、予測時点から予め設定された期間にBOD等の水質データが予め設定された閾値を超えるか否かを予測すること等を行うためのものである。即ち、予測部15は、予測対象に係る主成分スコアを入力し、予測ルールに基づいて予測を行う。予測対象は、(予測を行いたいタイミングでの)微生物叢を含む活性汚泥が用いられた水処理システム(の微生物叢)である。予測対象の水処理システムは、予測ルールの生成に用いたデータを取得した水処理システムと同一のものとすることができる。但し、予測対象の水処理システムは、予測ルールの生成に用いたデータを取得した水処理システム以外のものであってもよい。
 予測対象の主成分スコアは、予測ルールの生成時の、微生物情報の時系列データの1つのタイミングに係る主成分スコアと同様に求められる。即ち、主成分スコアの生成は、以下のように行われる。シークエンサー20が、予測対象の水処理システムの活性汚泥中に存在する複数の微生物から遺伝子の塩基配列を読み取る。シークエンサー20は、読み取った、予測対象となる複数の微生物毎の塩基配列を示す情報(配列情報)をコンピュータ10に送信する。
 コンピュータ10では、データ生成部11が、シークエンサー20から配列情報を受信し、当該配列情報から、予測対象となる複数の微生物又は塩基配列それぞれの存在割合のデータを生成する。このデータは、例えば、微生物又は塩基配列の種別の数の要素を含むベクトルデータとすることができる。なお、当該ベクトルデータは、予測ルールを生成するための行列データに対応するものとする。即ち、微生物又は塩基配列の種毎の存在割合の値の順番、及び微生物又は塩基配列の種別の数(ベクトルデータの要素の数)は、予測ルールの生成のための行列データと、予測用のベクトルデータとで同じであるものとする。
 データ生成部11は、生成した予測用の微生物又は塩基配列の存在割合に係るベクトルデータを入力部12に出力する。入力部12は、当該ベクトルデータを入力して、主成分分析部13に出力する。主成分分析部13は、当該ベクトルデータを入力して、予測ルールの生成の際に行った主成分分析に基づき、当該ベクトルデータの主成分スコアを算出する。主成分分析部13は、算出した主成分スコアを予測部15に出力する。また、予測対象の主成分スコアは、予測ルールの生成時の微生物情報の時系列データの主成分スコアを求める際に同時に求めることも出来る。即ち、予測ルール生成のための行列データ(微生物種別の数×タイミング)のタイミングを増やして予測用のベクトルデータを組み込むことにより、算出しておくことが出来る。
 予測部15は、主成分分析部13から入力した予測対象に係る主成分スコアを、予測ルールへ入力し、予測ルールからの出力を予測結果として得る。予測結果は、生成された予測ルールに応じたものであり、本実施形態に示した例では、予測時点から予め設定された期間(例えば、1週間)以内にBOD等の水質データが予め設定された閾値を超えるか否かを示す情報である。予測部15は、得られた予測結果を出力する。予測結果の出力は、例えば、コンピュータ10が備えるディスプレイ等の表示装置で表示することで行われる。また、予測結果の出力は、例えば、他の装置やコンピュータ10内の他のモジュールに送信することで行われてもよい。以上が、本実施形態に係るコンピュータ10の機能である。
 引き続いて、図3及び図4のフローチャートを用いて、本実施形態に係る予測ルール生成システム1で実行される処理(予測ルール生成システム1の動作方法)である予測ルール生成方法及び予測方法を説明する。まず、図3のフローチャートを用いて、予測ルールの生成時に実行される処理を説明する。本処理では、まず、シークエンサー20によって、水処理システムで用いられる微生物叢を構成する微生物の遺伝子の塩基配列が読み取られる(S01、読取ステップ)。ここでは、複数のタイミングでの、微生物叢を構成する微生物の遺伝子の塩基配列が読み取られる。読み取られた塩基配列のデータは、シークエンサー20からコンピュータ10に出力される。
 コンピュータ10では、データ生成部11によって、シークエンサー20から送信された塩基配列のデータが受信される。続いて、データ生成部11によって、塩基配列のデータに基づき、微生物情報の時系列データが生成される(S02、データ生成ステップ)。生成される時系列データは、上述したように微生物又は塩基配列の種別の数×時系列のタイミングの数の行列データである。続いて、生成された時系列データがデータ生成部11から、入力部12に入力される。また、入力部12によって、時系列データの入力と併せて、上記のタイミングのデータ毎の水質情報が入力される(S03、入力ステップ)。水質情報の入力は、例えば、定期的又は不定期に更新されるデータファイルの読み込み、若しくは、ユーザのコンピュータ10に対する水質情報の入力操作を受け付けることによって行われる。
 入力された微生物情報の時系列データは、入力部12から主成分分析部13に出力される。また、入力された水質情報は、入力部12から予測ルール生成部14に出力される。続いて、主成分分析部13によって、微生物情報の時系列データに対する主成分分析が行われる(S04、主成分分析ステップ)。主成分分析によって得られた、時系列データを構成する各時刻におけるデータの主成分スコアは、主成分分析部13から予測ルール生成部14に出力される。
 続いて、予測ルール生成部14によって、主成分分析部13から入力された主成分スコア、及び入力部12から入力された当該時系列データを構成する各時刻におけるデータに対応付けられた水質情報に基づいて、予測ルールが生成される(S05、予測ルール生成ステップ)。上述したように予測ルールの生成は、例えば、主成分スコアを予測ルールにおける入力(説明変数)、水質情報を予測ルールにおける出力(目的変数)とした機械学習によって行われる。生成された予測ルールを示す情報は、予測ルール生成部14から予測部15に出力される。以上が、予測ルールの生成時に実行される処理である。
 引き続いて、図4のフローチャートを用いて、予測時に実行される処理を説明する。本処理では、まず、シークエンサー20によって、予測対象のタイミングでの、水処理システムで用いられる微生物叢を構成する微生物の遺伝子の塩基配列が読み取られる(S11、読取ステップ)。読み取られた塩基配列のデータは、シークエンサー20からコンピュータ10に出力される。
 コンピュータ10では、データ生成部11によって、シークエンサー20から送信された塩基配列のデータが受信される。続いて、データ生成部11によって、塩基配列のデータに基づき、微生物又は塩基配列それぞれの存在割合のデータが生成される(S12、データ生成ステップ)。生成されるデータは、上述したように微生物又は塩基配列の種別の数の要素を含むベクトルデータである。続いて、生成されたデータがデータ生成部11から入力部12に入力される(S13、入力ステップ)。
 入力されたデータは、入力部12から主成分分析部13に出力される。続いて、主成分分析部13によって、予測ルールの生成の際の主成分分析に基づき、入力されたデータの主成分スコアが算出される(S14、主成分分析ステップ)。主成分分析によって得られたデータの主成分スコアは、主成分分析部13から予測部15に出力される。
 続いて、予測部15によって、予測ルール生成部14によって生成された予測ルールに基づき、主成分分析部13から入力した主成分スコアから水質の予測が行われる(S15、予測ステップ)。予測結果を示す情報は、例えば、ユーザに認識できるように表示される。以上が、予測時に実行される処理である。
 上述したように、本実施形態によれば、微生物情報の時系列データと、当該時系列データを構成する各時刻におけるデータに対応付けられた水処理後の水質を示す水質情報とに基づいて予測ルールが生成される。従って、水質や生物反応槽の運転パラメータの時系列データのみを用いて予測する場合とは異なり、活性汚泥中の微生物叢の状態を考慮した予測を行うことができる。これにより、水質や生物反応槽の運転パラメータの時系列データのみを用いた予測と比べて精度よく予測を行うことができる。
 また、本実施形態によれば、主成分分析が行われる。通常、活性汚泥中に存在する微生物の種類の数は膨大である。微生物情報の時系列データに対して主成分分析を行うことで、全ての情報を取り込んで情報量を落とすことなく、少ない変数で微生物情報を表現することができる。本実施形態のように主成分分析を行って、予測ルールの生成に用いる変数を少なくすることで、確実に予測ルールの生成を行うことができる。即ち、本実施形態によれば、水処理後の水質の予測を精度よくかつ確実に行う予測ルールを生成することができる。
 本実施形態のように主成分分析は、相関行列を用いたものとすることとしてもよい。相関行列を用いた主成分分析を行うことで、分散共分散行列を用いる場合と比べて、主成分分析を行っても少数種の微生物(存在割合が小さい微生物)の挙動をより反映した予測ルールを生成することができる。水処理後の水質には、少数種の微生物の挙動が影響することがある。従って、この構成によれば、更に精度よく予測を行う予測ルールを生成することができる。但し、上述したように活性汚泥に存在する微生物の構成等によっては、分散共分散行列を用いることとしてもよい。
 また、本実施形態のように、機械学習により予測ルールを生成こととしてもよい。この構成によれば、確実に予測ルールを生成することができる。但し、必ずしも機械学習を用いる必要はなく、それ以外の方法で予測ルールを生成することとしてもよい。例えば、時系列解析を用いて、予測ルールを生成することとしてもよい。具体的には、多変量自己回帰(VAR)モデル等の時系列解析を用いてもよい。
 また、本実施形態のように微生物の遺伝子の塩基配列を読み取るシークエンサー20が、予測ルール生成システム1に含まれており、読み取られた塩基配列に基づき時系列データが生成されてもよい。この構成によれば、微生物又は塩基配列の存在割合の時系列データを確実に入力することができ、確実に本発明の一実施形態を実施することができる。但し、予測ルール生成システム1には、必ずしも、シークエンサー20が含まれている必要はない。即ち、予測ルール生成システム1(のコンピュータ10の入力部12)は、外部から微生物情報の時系列データを入力することとしてもよい。
 また、本実施形態のように生成した予測ルールを用いて予測を行う構成を有していてもよい。即ち、予測ルール生成システム1は、本実施形態のように予測システムを兼ねていてもよい。この構成によれば、生成された予測ルールに基づいた予測を行うことができる。但し、必ずしも予測が予測ルール生成システム1において行われる必要はなく、予測ルール生成システム1以外の装置又はシステムによって行われてもよい。その場合、予測ルール生成システム1によって生成された予測ルールは、当該予測ルール生成システム1以外の予測システムに出力される。当該予測システムは、上述した予測ルール生成システム1の予測に係る機能を有している。
 続いて、本実施形態の予測ルール生成システム1によって生成された予測ルールを用いた予測の結果の例を説明する。図5に当該予測結果の例のグラフを示す。図5における横軸は時間軸である。横軸の一つの点が、上述した一つのタイミングに相当する。縦軸は、当該タイミング(予測時点)から1週間以内にBODが予め設定された閾値を超えたか否か、即ち、突発があったか(1週間以内にBODが閾値を超えた)、なかったか(1週間以内にBODが閾値を超えていなかった)を示すものである。この例では、予測ルール生成の際の機械学習の手法としてベイズ推定法による二項プロビットモデル(線形回帰モデル)を用いた場合と、SVMを用いた場合との結果を示している。図5において、破線の左側のデータは、機械学習の訓練に用いられたものであり、破線の右側のデータは、機械学習の訓練に用いていないものである。プロビットモデルを用いた場合と、SVMを用いた場合とのそれぞれの値は、予測ルールを用いた予測結果(予測ルールからの出力)である。
 図5にも示しているように、機械学習の手法としてプロビットモデルを用いた場合は、機械学習の訓練に用いていないデータの出力で実測と79%一致している。機械学習の手法としてSVMを用いた場合は、機械学習の訓練に用いていないデータの出力で実測と81%一致している。即ち、本実施形態の手法の予測率は、概ね80%であり、高い値となっている。図5に示された例においては、半年分の訓練データ(破線の左側のデータ)を用いて作成した予測モデル(予測ルール)を用いて、後の半年分について予測ルールを適用してBOD値を予測した。具体的には、後の半年分の微生物存在割合の時系列データの各タイミングにおいて、BODが閾値を超えるかどうかの予測を行った。直前(例えば1~2週間前)に取得されたデータをもとに更新し作成した予測ルールを用いると、予測率はより高くなると考えられる。日常の水質管理においては、新たに取得されたデータを加えて予測ルールを更新しながら、予測を行うとよい。
 引き続いて、上述した実施形態の変形例について説明する。上述した実施形態では、予測ルールへの入力として、微生物又は塩基配列の存在割合のデータとしていたが、それに加えて、それ以外のデータを入力とすることとしてもよい。それ以外のデータとしては、例えば、従来の水質の予測に用いられていた、処理後の水(排水)の水質データや生物反応槽の運転パラメータが用いられてもよい。具体的には、COD(化学的酸素要求量)、温度、TOC、TN等の水質データ、pH、排水品目、溶存酸素量(DO)、酸化還元電位(ORP)等の生物反応槽の運転パラメータである。あるいは、水処理システムへの処理対象の水の流入条件のデータが用いられてもよい。また、排水品目を切り替えて使用する排水処理系の場合は、その時点あるいはその前後に処理されている排水品目をデータとして用いることもできる。微生物又は塩基配列の存在割合のデータ以外のデータを用いる場合、それらのデータについても正解データを用意して機械学習を行うこととすればよい。これらのデータを合わせて、予測精度の高いデータの組み合わせを選択することもできる。予測の元となるデータが増えることにより、更に精度の高い予測ルールを生成することができる。高頻度に取得することが可能なデータを組み合わせることにより、よりきめ細かな水質管理(予測)を行うことができる。
 上述した実施形態では、予測する水質は、予測時点から予め設定された期間以内にBODが予め設定された閾値を超えるか否かであったが、本発明で生成される予測ルールは、水質に係るものであればそれ以外を予測するものであってもよい。例えば、COD、TOC、TNなどの水質の予測が挙げられる。水質の値が閾値を超えるかどうかのみでなく、一定の範囲で区切られた複数のレベルの中のどのレベルに入るかの予測、又は、おおよその推測値の予測を行うものであってもよい。
 1…予測ルール生成システム、10…コンピュータ、11…データ生成部、12…入力部、13…主成分分析部、14…予測ルール生成部、15…予測部、20…シークエンサー。

Claims (7)

  1.  水処理を行う活性汚泥中に存在する複数の微生物それぞれの存在割合又は当該活性汚泥中に存在する複数の塩基配列それぞれの存在割合の時系列データ、及び当該時系列データを構成する各時刻におけるデータに対応付けられた水処理後の水質を示す水質情報を入力する入力手段と、
     前記入力手段によって入力された時系列データに対して主成分分析を行って、当該時系列データを構成する各時刻におけるデータの主成分スコアを算出する主成分分析手段と、
     前記主成分分析手段によって算出された、時系列データを構成する各時刻におけるデータの主成分スコア、及び前記入力手段によって入力された当該時系列データを構成する各時刻におけるデータに対応付けられた水処理後の水質を示す水質情報に基づいて、複数の微生物それぞれの存在割合、又は複数の塩基配列それぞれの存在割合から水処理後の水質を予測するための予測ルールを生成する予測ルール生成手段と、
    を備える予測ルール生成システム。
  2.  前記主成分分析手段は、相関行列を用いた主成分分析を行う請求項1に記載の予測ルール生成システム。
  3.  前記予測ルール生成手段は、前記主成分分析手段によって算出された、時系列データを構成する各時刻におけるデータの主成分スコアを前記予測ルールにおける入力とし、前記入力手段によって入力された当該時系列データを構成する各時刻におけるデータに対応付けられた水処理後の水質を示す水質情報を前記予測ルールにおける出力とした機械学習を行うことで前記予測ルールを生成する請求項1又は2に記載の予測ルール生成システム。
  4.  前記活性汚泥中に存在する複数の微生物から遺伝子の塩基配列を読み取る読取手段と、
     前記読取手段によって読み取られた遺伝子の塩基配列に基づき前記時系列データを生成して入力手段に入力させるデータ生成手段と、
    を更に備える請求項1~3の何れか一項に記載の予測ルール生成システム。
  5.  請求項1~4の何れか一項に記載の予測ルール生成システムによって生成された予測ルールに基づき、水処理後の水質を予測する予測システムであって、
     予測対象となる複数の微生物それぞれの存在割合又は予測対象となる複数の塩基配列それぞれの存在割合のデータを入力する入力手段と、
     前記予測ルール生成システムによる主成分分析に基づいて、前記入力手段によって入力された前記予測対象のデータの主成分スコアを算出する主成分分析手段と、
     前記予測ルール生成システムによって生成された予測ルールに基づき、前記主成分分析手段によって算出された前記予測対象のデータの主成分スコアから水処理後の水質を予測する予測手段と、
    を備える予測システム。
  6.  予測ルール生成システムの動作方法である予測ルール生成方法であって、
     水処理を行う活性汚泥中に存在する複数の微生物それぞれの存在割合又は当該活性汚泥中に存在する複数の塩基配列それぞれの存在割合の時系列データ、及び当該時系列データを構成する各時刻におけるデータに対応付けられた水処理後の水質を示す水質情報を入力する入力ステップと、
     前記入力ステップにおいて入力された時系列データに対して主成分分析を行って、当該時系列データを構成する各時刻におけるデータの主成分スコアを算出する主成分分析ステップと、
     前記主成分分析ステップにおいて算出された、時系列データを構成する各時刻におけるデータの主成分スコア、及び前記入力ステップにおいて入力された当該時系列データを構成する各時刻におけるデータに対応付けられた水処理後の水質を示す水質情報に基づいて、複数の微生物それぞれの存在割合、又は複数の塩基配列それぞれの存在割合から水処理後の水質を予測するための予測ルールを生成する予測ルール生成ステップと、
    を含む予測ルール生成方法。
  7.  請求項1~4の何れか一項に記載の予測ルール生成システムによって生成された予測ルールに基づき、水処理後の水質を予測する、予測システムの動作方法である予測方法であって、
     予測対象となる複数の微生物それぞれの存在割合又は予測対象となる複数の塩基配列それぞれの存在割合のデータを入力する入力ステップと、
     前記予測ルール生成システムによる主成分分析に基づいて、前記入力ステップにおいて入力された前記予測対象のデータの主成分スコアを算出する主成分分析ステップと、
     前記予測ルール生成システムによって生成された予測ルールに基づき、前記主成分分析ステップにおいて算出された前記予測対象のデータの主成分スコアから水処理後の水質を予測する予測ステップと、
    を含む予測方法。
PCT/JP2016/060516 2015-04-03 2016-03-30 予測ルール生成システム、予測システム、予測ルール生成方法及び予測方法 WO2016159154A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US15/562,622 US11225680B2 (en) 2015-04-03 2016-03-30 Prediction-rule generating system, prediction system, prediction-rule generating method, and prediction method
KR1020177031872A KR20170132329A (ko) 2015-04-03 2016-03-30 예측 룰 생성 시스템, 예측 시스템, 예측 룰 생성 방법 및 예측 방법
CN201680019682.8A CN107531528B (zh) 2015-04-03 2016-03-30 预测规则生成系统、预测系统、预测规则生成方法和预测方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015-076945 2015-04-03
JP2015076945A JP6501593B2 (ja) 2015-04-03 2015-04-03 予測ルール生成システム、予測システム、予測ルール生成方法及び予測方法

Publications (1)

Publication Number Publication Date
WO2016159154A1 true WO2016159154A1 (ja) 2016-10-06

Family

ID=57005756

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/060516 WO2016159154A1 (ja) 2015-04-03 2016-03-30 予測ルール生成システム、予測システム、予測ルール生成方法及び予測方法

Country Status (6)

Country Link
US (1) US11225680B2 (ja)
JP (1) JP6501593B2 (ja)
KR (1) KR20170132329A (ja)
CN (1) CN107531528B (ja)
TW (1) TWI715564B (ja)
WO (1) WO2016159154A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111398539A (zh) * 2020-03-09 2020-07-10 上海交通大学 一种基于大数据和分子生物技术的水质微生物指示方法
EP3704465A4 (en) * 2017-10-31 2021-07-14 Luminultra Technologies Ltd. DECISION SUPPORT SYSTEM AND METHOD FOR WATER TREATMENT

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7144462B2 (ja) 2018-02-15 2022-09-29 千代田化工建設株式会社 プラント運転条件設定支援システム及び運転条件設定支援装置
JP6977953B2 (ja) * 2018-03-22 2021-12-08 住友重機械エンバイロメント株式会社 水質状態判別装置
JP7299485B2 (ja) * 2018-06-07 2023-06-28 日本製鉄株式会社 微生物群の特定方法
JP6790154B2 (ja) 2019-03-07 2020-11-25 東芝デジタルソリューションズ株式会社 協調型学習システム及び監視システム
CN111723825A (zh) * 2019-03-18 2020-09-29 顺丰科技有限公司 一种客户信息查询异常行为检测方法和装置
US11157470B2 (en) * 2019-06-03 2021-10-26 International Business Machines Corporation Method and system for data quality delta analysis on a dataset
CN110186505B (zh) * 2019-06-06 2020-02-14 浙江清华长三角研究院 一种基于支持向量机的农村生活污水处理设施出水达标情况的预测方法
JP7437003B2 (ja) * 2019-07-01 2024-02-22 ヒューマン・メタボローム・テクノロジーズ株式会社 データ解析装置および方法
CN110633859B (zh) * 2019-09-18 2024-03-01 西安理工大学 一种两阶段分解集成的水文序列预测方法
CN112591887B (zh) * 2020-11-03 2022-09-20 北京工业大学 一种基于核主成分分析和贝叶斯网络的污泥膨胀诊断方法
WO2022101983A1 (ja) * 2020-11-10 2022-05-19 株式会社パーキンエルマージャパン 検体の分類方法
JP2022161412A (ja) * 2021-04-09 2022-10-21 秀穂 野末 情報処理方法、情報処理装置、及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004008176A (ja) * 2002-06-11 2004-01-15 Kurita Water Ind Ltd 混合微生物系の監視方法および管理方法
JP2007229550A (ja) * 2006-02-27 2007-09-13 Toshiba Corp 下水処理場運転支援装置
JP2008142704A (ja) * 2006-11-15 2008-06-26 Kobelco Eco-Solutions Co Ltd 生物学的水処理のシミュレーション方法およびシミュレーション装置
WO2010004938A1 (ja) * 2008-07-11 2010-01-14 星光Pmc株式会社 微生物群集の生理状態の判定方法及び排水処理方法
JP2014121692A (ja) * 2012-12-21 2014-07-03 Kubota Kankyo Service Kk 活性汚泥を利用した有機性排水の処理方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0572199A (ja) * 1991-09-12 1993-03-23 Hitachi Ltd 水圏の監視及び浄化システム
JP2004105952A (ja) * 2002-08-28 2004-04-08 Yaskawa Electric Corp 下水処理運転支援装置
JP4279802B2 (ja) 2005-05-27 2009-06-17 株式会社神鋼環境ソリューション 水処理管理方法
JP4817100B2 (ja) 2006-03-28 2011-11-16 独立行政法人農業・食品産業技術総合研究機構 水質モニタリング装置
US20110015913A1 (en) * 2007-06-19 2011-01-20 Kobelco Eco-Solutions Co., Ltd. Simulation Method, Simulation Apparatus, Biological Treatment Method, and Biological Treatment Apparatus
CN101540008B (zh) * 2009-04-24 2011-04-06 北京工业大学 基于格子气元胞自动机模型的活性污泥净化过程的模拟方法
CN101593342A (zh) * 2009-06-24 2009-12-02 贵州省理化测试分析研究中心 农产品产地长期安全预警的方法
CN101825622A (zh) * 2010-04-02 2010-09-08 浙江浙大中控信息技术有限公司 一种水质预测方法和装置
JP5793299B2 (ja) * 2010-12-28 2015-10-14 株式会社東芝 プロセス監視診断装置
CN102807301B (zh) 2012-07-31 2014-01-15 天津大学 再生水厂出水水质在线监测与实时预测系统及其控制方法
JP5990069B2 (ja) * 2012-09-13 2016-09-07 高砂熱学工業株式会社 排水処理方法及び排水処理システム
CN103809436A (zh) * 2012-11-06 2014-05-21 西安元朔科技有限公司 活性污泥法污水处理过程智能建模方法
CN103793604A (zh) 2014-01-25 2014-05-14 华南理工大学 一种基于相关向量机的污水处理软测量方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004008176A (ja) * 2002-06-11 2004-01-15 Kurita Water Ind Ltd 混合微生物系の監視方法および管理方法
JP2007229550A (ja) * 2006-02-27 2007-09-13 Toshiba Corp 下水処理場運転支援装置
JP2008142704A (ja) * 2006-11-15 2008-06-26 Kobelco Eco-Solutions Co Ltd 生物学的水処理のシミュレーション方法およびシミュレーション装置
WO2010004938A1 (ja) * 2008-07-11 2010-01-14 星光Pmc株式会社 微生物群集の生理状態の判定方法及び排水処理方法
JP2014121692A (ja) * 2012-12-21 2014-07-03 Kubota Kankyo Service Kk 活性汚泥を利用した有機性排水の処理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3704465A4 (en) * 2017-10-31 2021-07-14 Luminultra Technologies Ltd. DECISION SUPPORT SYSTEM AND METHOD FOR WATER TREATMENT
US11365140B2 (en) 2017-10-31 2022-06-21 Luminultra Technologies Ltd. Decision support system and method for water treatment
CN111398539A (zh) * 2020-03-09 2020-07-10 上海交通大学 一种基于大数据和分子生物技术的水质微生物指示方法

Also Published As

Publication number Publication date
JP6501593B2 (ja) 2019-04-17
KR20170132329A (ko) 2017-12-01
JP2016195974A (ja) 2016-11-24
CN107531528B (zh) 2020-12-29
US11225680B2 (en) 2022-01-18
TW201702186A (zh) 2017-01-16
US20180105858A1 (en) 2018-04-19
CN107531528A (zh) 2018-01-02
TWI715564B (zh) 2021-01-11

Similar Documents

Publication Publication Date Title
WO2016159154A1 (ja) 予測ルール生成システム、予測システム、予測ルール生成方法及び予測方法
Wang et al. Detailed comparison of bacterial communities during seasonal sludge bulking in a municipal wastewater treatment plant
Turk‐Kubo et al. The paradox of marine heterotrophic nitrogen fixation: abundances of heterotrophic diazotrophs do not account for nitrogen fixation rates in the E astern T ropical S outh P acific
Mao et al. Dominant and novel clades of Candidatus Accumulibacter phosphatis in 18 globally distributed full-scale wastewater treatment plants
Miller et al. Metabarcoding of fungal communities associated with bark beetles
Slater et al. Monitoring associations between clade-level variation, overall community structure and ecosystem function in enhanced biological phosphorus removal (EBPR) systems using terminal-restriction fragment length polymorphism (T-RFLP)
Hwang et al. Evaluation of methods for the extraction of DNA from drinking water distribution system biofilms
Pereira et al. Development of a genus-specific next generation sequencing approach for sensitive and quantitative determination of the Legionella microbiome in freshwater systems
Jordan et al. Past, present, and future of DNA typing for analyzing human and non-human forensic samples
JP6479336B2 (ja) 微生物の16SrRNA遺伝子定量用内部標準遺伝子
Ibarbalz et al. The bias associated with amplicon sequencing does not affect the quantitative assessment of bacterial community dynamics
Staley et al. Application of metagenomics to assess microbial communities in water and other environmental matrices
Pala-Ozkok et al. Characteristics of mixed microbial culture at different sludge ages: effect on variable kinetics for substrate utilization
Eisenstein Microbiology: making the best of PCR bias
Allwood et al. Use of standardized bioinformatics for the analysis of fungal DNA signatures applied to sample provenance
JP2018068317A (ja) 標的核酸の定量方法のためのキット
Jo et al. SoEM: a novel PCR-free biodiversity assessment method based on small-organelles enriched metagenomics
KR102537092B1 (ko) 인공신경망 모델을 이용한 토양 오염원 예측 방법
WO2016159157A1 (ja) 微生物叢解析システム、判定システム、微生物叢解析方法及び判定方法
Wasimuddin et al. Evaluation of primer pairs for microbiome profiling across a food chain from soils to humans within the One Health framework
KR20230039090A (ko) 머신러닝 모델을 이용한 하폐수처리공정 안정성 평가 방법 및 시스템
Taranow Exploring the sources of peak height reduction during low-template, compromised DNA data analysis
Wang et al. A preliminary report on the exploration of salivary bacterial diversity by the multiplex SNaPshot assay
Sahoo et al. Application of Omics Tools for Microbial Community Structure and Function Analysis
Gajos Analysis of the determinants of Pol II pausing

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16773035

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15562622

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 20177031872

Country of ref document: KR

Kind code of ref document: A

122 Ep: pct application non-entry in european phase

Ref document number: 16773035

Country of ref document: EP

Kind code of ref document: A1