KR20170132329A - 예측 룰 생성 시스템, 예측 시스템, 예측 룰 생성 방법 및 예측 방법 - Google Patents

예측 룰 생성 시스템, 예측 시스템, 예측 룰 생성 방법 및 예측 방법 Download PDF

Info

Publication number
KR20170132329A
KR20170132329A KR1020177031872A KR20177031872A KR20170132329A KR 20170132329 A KR20170132329 A KR 20170132329A KR 1020177031872 A KR1020177031872 A KR 1020177031872A KR 20177031872 A KR20177031872 A KR 20177031872A KR 20170132329 A KR20170132329 A KR 20170132329A
Authority
KR
South Korea
Prior art keywords
data
prediction
principal component
prediction rule
time series
Prior art date
Application number
KR1020177031872A
Other languages
English (en)
Inventor
아키코 나카조노
후미요시 오카자키
히로유키 아사코
Original Assignee
수미토모 케미칼 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 수미토모 케미칼 컴퍼니 리미티드 filed Critical 수미토모 케미칼 컴퍼니 리미티드
Publication of KR20170132329A publication Critical patent/KR20170132329A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C02TREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
    • C02FTREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
    • C02F3/00Biological treatment of water, waste water, or sewage
    • C02F3/02Aerobic processes
    • C02F3/12Activated sludge processes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/02Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving viable microorganisms
    • C12Q1/04Determining presence or kind of microorganism; Use of selective media for testing antibiotics or bacteriocides; Compositions containing a chemical indicator therefor
    • C12Q1/06Quantitative determination
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/18Water
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/18Water
    • G01N33/186Water using one or more living organisms, e.g. a fish
    • G01N33/1866Water using one or more living organisms, e.g. a fish using microorganisms
    • CCHEMISTRY; METALLURGY
    • C02TREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
    • C02FTREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
    • C02F2209/00Controlling or monitoring parameters in water treatment
    • C02F2209/003Downstream control, i.e. outlet monitoring, e.g. to check the treating agents, such as halogens or ozone, leaving the process
    • CCHEMISTRY; METALLURGY
    • C02TREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
    • C02FTREATMENT OF WATER, WASTE WATER, SEWAGE, OR SLUDGE
    • C02F2209/00Controlling or monitoring parameters in water treatment
    • C02F2209/36Biological material, e.g. enzymes or ATP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02WCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO WASTEWATER TREATMENT OR WASTE MANAGEMENT
    • Y02W10/00Technologies for wastewater treatment
    • Y02W10/10Biological treatment of water, waste water, or sewage
    • Y02W10/15

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Microbiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Zoology (AREA)
  • Medicinal Chemistry (AREA)
  • Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Food Science & Technology (AREA)
  • Water Supply & Treatment (AREA)
  • Environmental & Geological Engineering (AREA)
  • Hydrology & Water Resources (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Toxicology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Activated Sludge Processes (AREA)

Abstract

수 처리 후의 수질의 예측을 정밀도 좋고 또한 확실히 실시하는 예측 룰을 생성한다. 예측 룰 생성 시스템(1)의 컴퓨터(10)는, 수 처리를 행하는 활성 오니 중에 존재하는 복수의 미생물 각각의 존재 비율 또는 당해 활성 오니 중에 존재하는 복수의 염기 서열 각각의 존재 비율의 시계열 데이터, 및 당해 시계열 데이터를 구성하는 각 시각에 있어서의 데이터에 대응지어진 수 처리 후의 수질을 나타내는 수질 정보를 입력하는 입력부(12)와, 입력된 시계열 데이터에 대해서 주성분 분석을 행하여, 시계열 데이터를 구성하는 각 시각에 있어서의 데이터의 주성분 스코어를 산출하는 주성분 분석부(13)와, 산출된 주성분 스코어, 및 입력된 수 처리 후의 수질을 나타내는 수질 정보에 기초하여, 복수의 미생물 각각 또는 복수의 염기 서열 각각의 존재 비율로부터 수 처리 후의 수질을 예측하기 위한 예측 룰을 생성하는 예측 룰 생성부(14)를 구비한다.

Description

예측 룰 생성 시스템, 예측 시스템, 예측 룰 생성 방법 및 예측 방법
본 발명은, 수 처리 후의 수질을 예측하기 위한 예측 룰을 생성하는 예측 룰 생성 시스템 및 예측 룰 생성 방법, 및 그들에 관련되는 예측 시스템 및 예측 방법에 관한 것이다.
화학이나 철강과 같은 중화학 공업 등에 있어서의 배수는, 인간이나 환경 생물에 대한 영향을 충분히 저하시킨 상태로 자연 환경 중에 배출할 것이 요망되고 있다. 그를 위한 배수 처리로서, 복합 미생물계인 활성 오니가 이용된 생물 처리가 행해지고 있다. 통상, 적절히 배수 처리를 행하기 위해, 처리 후의 배수의 수질 감시가 행해진다. 구체적으로는, 처리 후의 배수의 생물화학적 산소 요구량(BOD), 화학적 산소 요구량(COD), 전 유기 탄소(TOC), 전 질소(TN) 등의 수질 데이터를 측정하는 것 등에 의해 수질 감시가 행해진다. 생물 처리에 있어서 중요한 관리 지표인 BOD는, 측정 결과가 얻어지기까지 통상 5일간 정도의 시간을 요하기 때문에, 다른 수질 데이터나, 온도, pH, 용존 산소 농도(DO) 등의 생물 반응조의 운전 파라미터를 바탕으로 그 날의 BOD가 추측되는 경우가 있다. 또한, 현재의 배수 상태로부터, BOD, COD, TOC, TN 등의 수질 데이터의 장래의 값을 예측하는 것도 관리상 중요하고, 수질의 시계열 데이터나 생물 반응조의 운전 파라미터의 시계열 데이터에 기초하여, BOD(생물화학적 산소 요구량) 등의 예측이 행해지는 경우도 있다(특허문헌 1 및 2 참조).
일본 특허공개 2007-229550호 공보 일본 특허공개 2007-263723호 공보
그렇지만, 전술한 바와 같은 수질이나 생물 반응조의 운전 파라미터의 시계열 데이터를 이용한 예측은, 활성 오니 중의 미생물총(微生物叢)의 상태가 고려되어 행해지는 것은 아니고, 충분한 정밀도에서의 예측이 행해지지 않는 경우가 있었다. 다양한 배수를 처리하고 있는 상황에서는, 특히 예측이 어려워지고 있다. 그래서, 처리 후의 물의 상태 예측에 있어서, 예측 정밀도의 향상이 요구되고 있었다.
본 발명은, 상기에 비추어 이루어진 것으로, 수 처리 후의 수질의 예측을 정밀도 좋고 또한 확실히 행하는 예측 룰을 생성할 수 있는 예측 룰 생성 시스템 및 예측 룰 생성 방법, 및 그들에 관련되는 예측 시스템 및 예측 방법을 제공하는 것을 목적으로 한다.
상기 목적을 달성하기 위해서, 본 발명의 일 실시형태에 따른 예측 룰 생성 시스템은, 수 처리를 행하는 활성 오니 중에 존재하는 복수의 미생물 각각의 존재 비율 또는 당해 활성 오니 중에 존재하는 복수의 염기 서열 각각의 존재 비율의 시계열 데이터(이후, 「미생물 정보의 시계열 데이터」라고 기재하는 경우가 있다), 및 당해 시계열 데이터를 구성하는 각 시각에 있어서의 데이터에 대응지어진 수 처리 후의 수질을 나타내는 수질 정보를 입력하는 입력 수단과, 입력 수단에 의해 입력된 시계열 데이터에 대해서 주성분 분석을 행하여, 당해 시계열 데이터를 구성하는 각 시각에 있어서의 데이터의 주성분 스코어를 산출하는 주성분 분석 수단과, 주성분 분석 수단에 의해 산출된, 시계열 데이터를 구성하는 각 시각에 있어서의 데이터의 주성분 스코어, 및 입력 수단에 의해 입력된 당해 시계열 데이터를 구성하는 각 시각에 있어서의 데이터에 대응지어진 수 처리 후의 수질을 나타내는 수질 정보에 기초하여, 복수의 미생물 각각의 존재 비율, 또는 복수의 염기 서열 각각의 존재 비율로부터 수 처리 후의 수질을 예측하기 위한 예측 룰을 생성하는 예측 룰 생성 수단을 구비한다. 수 처리 후의 수질로서는, 예를 들어, 처리 후의 물에 있어서의 생물화학적 산소 요구량(BOD), 화학적 산소 요구량(COD), 전 유기 탄소(TOC) 또는 전 질소(TN) 등을 들 수 있다.
본 발명의 일 실시형태에 따른 예측 룰 생성 시스템에서는, 수 처리를 행하는 활성 오니 중에 존재하는 미생물 또는 염기 서열의 존재 비율의 시계열 데이터와, 당해 시계열 데이터를 구성하는 각 시각에 있어서의 데이터에 대응지어진 수 처리 후의 수질을 나타내는 수질 정보에 기초하여 예측 룰이 생성된다. 따라서, 활성 오니 중의 미생물총 상태를 고려한 예측을 행할 수 있어, 수질이나 생물 반응조의 운전 파라미터의 시계열 데이터만을 이용한 예측과 비교하여 정밀도 좋게 예측을 행할 수 있다.
또한, 본 발명의 일 실시형태에 따른 예측 룰 생성 시스템에서는, 주성분 분석이 행해진다. 통상, 활성 오니 중에 존재하는 미생물의 종류의 수는 방대하다. 미생물 정보의 시계열 데이터에 대해서 주성분 분석을 행함으로써, 모든 정보를 거둬들여 정보량을 떨어뜨리지 않고, 적은 변수로 미생물 정보를 표현할 수 있다. 본 발명의 일 실시형태와 같이 주성분 분석을 행하여, 예측 룰의 생성에 이용하는 변수를 적게 함으로써, 확실히 예측 룰의 생성을 행할 수 있다. 즉, 본 발명의 일 실시형태에 따른 예측 룰 생성 시스템에 의하면, 수 처리 후의 수질의 예측을 정밀도 좋고 또한 확실히 행하는 예측 룰을 생성할 수 있다.
주성분 분석 수단은, 상관 행렬을 이용한 주성분 분석을 행하는 것으로 해도 된다. 분산 공분산 행렬을 이용한 주성분 분석에서는, 다수종의 미생물의 거동이 주로 반영되는데 대해, 이 구성과 같이 상관 행렬을 이용한 주성분 분석을 행한 경우, 분산 공분산 행렬을 이용하는 경우와 비교하여 많은 변수가 필요해지지만, 소수종의 미생물(존재 비율이 작은 미생물)의 거동을 보다 반영한 예측 룰을 생성할 수 있다. 수 처리 후의 수질에는, 소수종의 미생물의 거동이 영향을 주는 경우가 있다. 따라서, 이 구성에 의하면, 더욱 정밀도 좋게 예측을 행하는 예측 룰을 생성할 수 있다.
예측 룰 생성 수단은, 주성분 분석 수단에 의해 산출된, 시계열 데이터를 구성하는 각 시각에 있어서의 데이터의 주성분 스코어를 예측 룰에 있어서의 입력으로 하고, 입력 수단에 의해 입력된 당해 시계열 데이터를 구성하는 각 시각에 있어서의 데이터에 대응지어진 수 처리 후의 수질을 나타내는 수질 정보를 예측 룰에 있어서의 출력으로 한 기계 학습을 행함으로써 예측 룰을 생성하는 것으로 해도 된다. 이 구성에 의하면, 확실히 예측 룰을 생성할 수 있다.
예측 룰 생성 시스템은, 활성 오니 중에 존재하는 복수의 미생물로부터 유전자의 염기 서열을 판독하는 판독 수단과, 판독 수단에 의해 판독된 유전자의 염기 서열에 기초하여 시계열 데이터를 생성하여 입력 수단에 입력시키는 데이터 생성 수단를 추가로 구비하는 것으로 해도 된다. 이 구성에 의하면, 미생물 또는 염기 서열의 존재 비율의 시계열 데이터를 확실히 입력할 수 있어, 확실히 본 발명의 일 실시형태를 실시할 수 있다.
본 발명의 일 실시형태에 따른 예측 시스템은, 본 발명의 일 실시형태에 따른 예측 룰 생성 시스템에 의해 생성된 예측 룰에 기초하여, 수 처리 후의 수질을 예측하는 예측 시스템으로서, 예측 대상이 되는 복수의 미생물 각각의 존재 비율 또는 예측 대상이 되는 복수의 염기 서열 각각의 존재 비율의 데이터를 입력하는 입력 수단과, 예측 룰 생성 시스템에 의한 주성분 분석에 기초하여, 입력 수단에 의해 입력된 예측 대상의 데이터의 주성분 스코어를 산출하는 주성분 분석 수단과, 예측 룰 생성 시스템에 의해 생성된 예측 룰에 기초하여, 주성분 분석 수단에 의해 산출된 예측 대상의 데이터의 주성분 스코어로부터 수 처리 후의 수질을 예측하는 예측 수단을 구비한다. 본 발명의 일 실시형태에 따른 예측 시스템에 의하면, 예측 룰 생성 시스템에 의해 생성된 예측 룰에 기초한 예측을 행할 수 있다.
그런데, 본 발명은, 상기와 같이 예측 룰 생성 시스템 및 예측 시스템의 발명으로서 기술할 수 있을 뿐만 아니라, 이하와 같이 예측 룰 생성 방법 및 예측 방법의 발명으로서도 기술할 수 있다. 이는 카테고리가 다를 뿐으로, 실질적으로 동일한 발명이며, 마찬가지의 작용 및 효과를 발휘한다.
즉, 본 발명의 일 실시형태에 따른 예측 룰 생성 방법은, 예측 룰 생성 시스템의 동작 방법인 예측 룰 생성 방법으로서, 수 처리를 행하는 활성 오니 중에 존재하는 복수의 미생물 각각의 존재 비율 또는 당해 활성 오니 중에 존재하는 복수의 염기 서열 각각의 존재 비율의 시계열 데이터, 및 당해 시계열 데이터를 구성하는 각 시각에 있어서의 데이터에 대응지어진 수 처리 후의 수질을 나타내는 수질 정보를 입력하는 입력 스텝과, 입력 스텝에 있어서 입력된 시계열 데이터에 대해서 주성분 분석을 행하여, 당해 시계열 데이터를 구성하는 각 시각에 있어서의 데이터의 주성분 스코어를 산출하는 주성분 분석 스텝과, 주성분 분석 스텝에 있어서 산출된, 시계열 데이터를 구성하는 각 시각에 있어서의 데이터의 주성분 스코어, 및 입력 스텝에 있어서 입력된 당해 시계열 데이터를 구성하는 각 시각에 있어서의 데이터에 대응지어진 수 처리 후의 수질을 나타내는 수질 정보에 기초하여, 복수의 미생물 각각의 존재 비율, 또는 복수의 염기 서열 각각의 존재 비율로부터 수 처리 후의 수질을 예측하기 위한 예측 룰을 생성하는 예측 룰 생성 스텝을 포함한다.
또한, 본 발명의 일 실시형태에 따른 예측 방법은, 본 발명의 일 실시형태에 따른 예측 룰 생성 시스템에 의해 생성된 예측 룰에 기초하여, 수 처리 후의 수질을 예측하는, 예측 시스템의 동작 방법인 예측 방법으로서, 예측 대상이 되는 복수의 미생물 각각의 존재 비율 또는 예측 대상이 되는 복수의 염기 서열 각각의 존재 비율의 데이터를 입력하는 입력 스텝과, 예측 룰 생성 시스템에 의한 주성분 분석에 기초하여, 입력 스텝에 있어서 입력된 예측 대상의 데이터의 주성분 스코어를 산출하는 주성분 분석 스텝과, 예측 룰 생성 시스템에 의해 생성된 예측 룰에 기초하여, 주성분 분석 스텝에 있어서 산출된 예측 대상의 데이터의 주성분 스코어로부터 수 처리 후의 수질을 예측하는 예측 스텝을 포함한다.
본 발명의 일 실시형태에서는, 활성 오니 중의 미생물총 상태를 고려한 예측을 행할 수 있어, 수질이나 생물 반응조의 운전 파라미터의 시계열 데이터만을 이용한 예측과 비교하여 정밀도 좋게 예측을 행할 수 있다. 또한, 본 발명의 일 실시형태에서는, 예측 룰의 생성에 이용하는 변수를 적게 함으로써, 확실히 예측 룰의 생성을 행할 수 있다. 즉, 본 발명의 일 실시형태에 의하면, 수 처리 후의 수질의 예측을 정밀도 좋고 또한 확실히 행하는 예측 룰을 생성할 수 있다.
도 1은 본 발명의 실시형태에 따른 예측 룰 생성 시스템의 구성을 나타내는 도면이다.
도 2는 활성 오니 중에 존재하는 복수의 미생물 각각의 존재 비율의 주성분 스코어(모든 주성분 스코어 중의 12개를 표시)와 BOD의 시계열 데이터의 예인 그래프이다.
도 3은 본 발명의 실시형태에 따른 예측 룰 생성 시스템으로 예측 룰의 생성 시에 실행되는 처리(예측 룰 생성 방법)를 나타내는 플로 차트이다.
도 4는 본 발명의 실시형태에 따른 예측 룰 생성 시스템으로 예측 시에 실행되는 처리(예측 방법)를 나타내는 플로 차트이다.
도 5는 생성된 예측 룰을 이용한 예측의 결과의 예를 나타내는 그래프이다.
이하, 도면과 함께 본 발명에 따른 예측 룰 생성 시스템, 예측 시스템, 예측 룰 생성 방법 및 예측 방법의 실시형태에 대해 상세하게 설명한다. 한편, 도면의 설명에 있어서는 동일 요소에는 동일 부호를 붙이고, 중복되는 설명을 생략한다.
도 1에, 본 실시형태에 따른 예측 룰 생성 시스템(1)을 나타낸다. 예측 룰 생성 시스템(1)은, 수 처리 후의 수질을 예측하기 위한 예측 룰을 생성하는 시스템이다. 본 실시형태에서 대상으로 하는 수 처리는, 예를 들어, 산업 배수나 공공의 하수, 오수 등의 자연 환경에 대해서 해가 되는 물을 자연 환경에 대한 영향을 작게 하기 위한 처리이다. 또한, 당해 수 처리는, 복수의 미생물의 집합인 미생물총을 포함하는 활성 오니가 이용된 수 처리 시스템에서 행해지는 것이다. 활성 오니에 포함되는 미생물의 종류의 수는, 통상, 수천∼수만 이상이다. 또한, 당해 활성 오니는, 통상, 생물 반응조(바이오 탱크, 활성 오니조)에 들어가 있고, 처리 대상의 물을 당해 생물 반응조 내에 유입시킴으로써 수 처리가 행해진다. 생물 반응조에는, 통상, 호기조 및 혐기조가 포함된다. 당해 수 처리는, 예를 들어, 공장의 가동에 응하여 계속적으로 행해지는 것이다. 한편, 당해 수 처리 자체는, 종래부터 행해지고 있는 것이다.
예측 룰 생성 시스템(1)은, 구체적으로는, 예측 시점으로부터 미리 설정된 기간(예를 들어, 1주간 또는 2주간) 이내에 BOD 등의 수질 데이터가 미리 설정된 역치를 초과하는지를 예측하는 예측 룰을 생성한다. 이 역치는, 예를 들어, 적절히 수 처리가 행해지고 있는 경우와 비교하여, 수 처리 후의 수질이 악화되고 있다(적절히 수 처리가 행해지고 있지 않다)고 판단할 수 있을 정도의 값으로 된다. 또한, 당해 예측 룰은, 활성 오니 중에 존재하는 복수의 미생물 각각의 존재 비율 또는 활성 오니 중에 존재하는 복수의 염기 서열 각각의 존재 비율에 기초하는 정보를 입력으로 하여 예측을 행하기 위한 것이다. 즉, 당해 예측 룰은, 예측 시점의 상기의 존재 비율로부터, 미리 설정된 기간에 있어서의 BOD 등의 수질 데이터의 돌발적 악화를 포함하는 악화의 유무를 예측하는 것이다. 또한, 예측 룰은, 복수의 미생물 각각의 존재 비율, 및 복수의 염기 서열 각각의 존재 비율의 양방을 입력으로 하여 예측을 행하기 위한 것이어도 된다. 또한, 예측 룰 생성 시스템(1)은, 생성한 예측 룰을 이용하여, 예측도 행한다. 예측 대상의 수질로서, BOD 외에 COD, TOC, TN 등에 대해서도 마찬가지로 예측을 행할 수 있다.
예측 룰 생성 시스템(1)은, 도 1에 나타내는 바와 같이 컴퓨터(10)와, 시퀀서(20)를 포함하여 구성된다. 컴퓨터(10)는, 예측 룰 생성 시스템(1)의 주요한 기능을 담당하는 장치이며, 예측 룰의 생성 및 예측 룰을 이용한 예측을 행하는 장치이다. 컴퓨터(10)는, 구체적으로는, CPU(Central Processing Unit)나 메모리, 통신 모듈 등의 하드웨어를 구비하고 있다. 이들 구성 요소가 프로그램 등에 의해 동작하는 것에 의해, 후술하는 컴퓨터(10)의 기능이 발휘된다.
시퀀서(20)는, 활성 오니 중에 존재하는 복수의 미생물로부터 유전자의 염기 서열을 판독하는(결정하는) 판독 수단이다. 시퀀서(20)로서 복수의 미생물의 유전자를 동시에 판독(해석)할 수 있는, 이른바 차세대 시퀀서를 이용하는 것으로 해도 된다. 시퀀서(20)로서는, 종래의 시퀀서, 예를 들어, 로슈사제 GS Junior System 시퀀서, 로슈사제 GS FLX+ System 시퀀서, 혹은 일루미나사제 MiSeq System 시퀀서를 이용하는 것으로 해도 된다. 또한, 시퀀서(20)는, 미생물의 유전자의 염기 서열로서, 16S 리보솜 RNA 유전자의 염기 서열을 판독하는 것으로 해도 된다. 16S 리보솜 RNA 유전자의 염기 서열은, 미생물의 종별마다 비교적, 특징적인 서열이기 때문이다. 한편, 16S 리보솜 RNA 유전자의 염기 서열을 판독하기 위해, 활성 오니로부터 채취되어 시퀀서(20)에 입력되는 시퀀스용 샘플(오니 샘플)은 미리 조제된다. 활성 오니는, 예를 들어, 호기조 및 혐기조의 각각으로부터 채취된다. 시퀀스용 샘플의 조제, 및 염기 서열의 판독(시퀀싱)은, 예를 들어, 이하와 같이 행할 수 있다.
[미생물총의 DNA의 조제]
활성 오니로부터 약 1.5ml의 미생물군을 포함하는 용액을 채취하여, 실온에서 원심한다(13,000rpm×5분간). 상청을 제거한 후, 멸균 생리 식염수를 1ml 가하고, 5초간 정도 전도(轉倒) 혼합한 후, 실온에서 원심한다(13,000rpm×5분간). 상청을 제거한 후, Lysis buffer(에이엠알사제)를 300μl 가하고, 잘 혼합한 후, 얻어진 현탁액을 비즈가 들어간 튜브(이지 익스트렉트 for DNA(에이엠알사제))에 첨가 후, 볼텍스 믹서로 2분간 교반 파쇄한다. 파쇄액에 300μl의 TE 용액(10mM Tris, 1mM EDTA, pH 8.0)(이하, TE)을 첨가하고, 4℃에서 원심한다(13,000rpm×5분간). 그 후, 상청액 450μl를 새로운 튜브에 넣고, 이것에 600μl의 페놀 혼합액(이지 익스트렉트 for DNA에 부속(에이엠알사제))을 가하고 1분간 볼텍스 교반한 후, 4℃에서 원심한다(13,000rpm×5분간). 상청 300μl를 회수하여 새로운 튜브(1.5ml)에 넣고, 이것에 1200μl의 에탄올(99.5%)을 가하고, 4℃에서 원심한다(13,000rpm×5분간). 상청을 제거한 후, 1000μl의 냉 에탄올(70%)을 가하고, 4℃에서 원심하고(13,000rpm×5분간), 얻어진 DNA 펠릿을 진공 건조하고, 그 다음에 150μl의 TE를 가하여, 세균총 DNA의 용액으로 한다.
[16S 리보솜 RNA 유전자의 V3-V4 영역의 PCR 증폭]
세균총 DNA의 용액 중의 2본쇄 DNA 농도를 측정하고, 그 측정치에 기초하여 50ng의 DNA를 주형으로 하여, 유니버설 프라이머 세트(포워드 프라이머 fw357F(서열 번호 1)와 리버스 프라이머 RV926r(서열 번호 2))을 이용하여, 16S 리보솜 RNA 유전자(이하, 16S 유전자)의 V3-V4 영역을 PCR 증폭한다. PCR은 다카라바이오사제의 「Premix Ex Taq Hot Start Version」(등록상표)을 이용하여, 각 프라이머를 50pmol 포함하는 반응액 50μl를 작성하고, 94℃에서 2분간의 프리히팅을 행한 후, 변성, 어닐링, 신장을 각각 98℃×10초간, 50℃×30초간, 72℃×80초간으로 행하여 25사이클 반복한다.
하기에 포워드 프라이머 HA13621-fw357F의 서열의 구조를 나타낸다. 이 포워드 프라이머는, 시퀀서(20)에서의 서열 결정에 필요한 어댑터 A 서열(대문자로 표기)을 5' 말단측에 포함하고, 각 검체에 고유의 10염기의 바코드 서열을 끼우고, 모든 진정 세균의 16S 유전자에 어닐링하는 유니버설 프라이머 서열 fw357F(소문자로 표기)를 3' 말단측에 포함한다. 상기 바코드 서열은 샘플간의 식별로 이용하는 것이고, 동시에 시퀀서(20)에 제공하는 샘플수에 대응한 임의로 설계한 염기 서열이다.
어댑터 A 서열(서열 번호 3)
5'-CCATCTCATCCCTGCGTGTCTCCGACTCAG-3'
유니버설 프라이머 서열 fw357F(서열 번호 1)
5'-cctacgggaggcagcag-3'
상기 바코드 서열의 역할을 설명한다. 예를 들어, 10검체를 동시 해석하는 경우는, 10가지의 상이한 바코드 서열을 가진 HA13621-fw357F를 만들어, 각각을 각 검체에 대해서 PCR 증폭하면 된다. 이것들을 혼합하여 시퀀서(20)에 제공하면, 1 가동으로 100만 데이터를 얻을 수 있는 GS FLX+ System 시퀀서를 이용한 경우, 100검체에 대응하는 100가지의 바코드 서열을 이용함으로써, 1회의 가동으로 1만 데이터/검체의 서열 데이터를 얻을 수 있다.
하기에 리버스 프라이머 HA13619-RV926r의 서열의 구조를 나타낸다. 이 리버스 프라이머는, 시퀀서(20)에서의 서열 결정에 필요한 어댑터 B 서열(대문자로 표기)을 5' 말단측에 포함하고, 모든 진정 세균의 16S 유전자에 어닐링하는 유니버설 프라이머 서열 RV926r(소문자로 표기)을 3' 말단측에 포함한다.
HA13619-RV926r의 서열(서열 번호 4)
5'-CCTATCCCCTGTGTGCCTTGGCAGTCTCAGccgtcaattccttttragttt-3'
상기의 유니버설 프라이머 세트를 이용한 PCR에 의해, 세균총을 구성하는 여러 가지 세균종의 16S 유전자의 V3-V4 영역을 포함하는 DNA(약 570염기)가 증폭되어, 그들의 혼합물을 그의 PCR 산물 DNA로서 얻을 수 있다.
[PCR 산물의 생성 및 시퀀스용 샘플의 조제]
각각의 세균총 DNA로부터 얻어진 PCR 산물 DNA(그 세균총을 구성하는 여러 가지 세균종의 16S 유전자의 V3-V4 영역을 포함하는 DNA의 혼합물)를 혼합하고, DNA 클리너(와코준야쿠사제)로 처리하여, 과잉의 프라이머나 기질의 뉴클레오티드 등을 제거하고, 정제한다. 정제 DNA는 200μl의 TE로 용출하여 회수한다. 그 다음에, 회수한 정제 DNA 용액을 아가로스 겔 전기 영동에 제공하고, 약 570bp의 DNA 단편을 잘라내고, MinElute Gel ExtractionKit(키아겐사제)로 추출하여, 시퀀서(20)에 제공할 DNA를 조제한다. 이것을 이하의 시퀀스에 이용하는 시퀀스용 샘플로 한다.
[16S 유전자의 시퀀싱과 서열 데이터의 정밀도 평가]
상기 시퀀스용 샘플을, 시퀀서(20)인 로슈사제 GS FLX+ System 시퀀서에 제공하여 시퀀스를 행한다. 시퀀스의 조건·공정 등은 메이커 소정의 프로토콜에 따른다. 한편, 이 시퀀서에서는, 상기에서 조제한 PCR 산물 DNA의 1분자를 1개의 비즈에 고정하고, 그 다음에, 물(시퀀스용 주형 DNA의 증폭을 위한 PCR 프라이머, 기질 뉴클레오티드, DNA 합성 효소를 포함한다)과 오일의 에멀션 중에 독립하여 형성된 미소 수적 하나하나에 하나하나의 비즈를 포획하고, 그 중에서 PCR을 행하여 시퀀스용 주형 DNA를 증폭하여 조제하도록 되어 있다. 따라서, 이 증폭한 주형 DNA가 고정된 각 비즈를 타이터 플레이트 상에 구획한 후에, 그 구획 위치 상에서 시퀀스 반응의 시그널을 판독하는 것에 의해, 상기 시퀀스용 샘플 중에 포함되는 PCR 산물 DNA(그 세균총을 구성하는 여러 가지 세균종의 16S 유전자의 V3-V4 영역을 포함하는 DNA의 혼합물)의 염기 서열을 무작위로 결정할 수 있다. 또한, 포워드 프라이머 HA13621-fw357F 중의 상기 바코드 서열을, 각 샘플에 유래하는 검체마다 특징적인 임의의 서열로 해 두면, GS FLX+ System 시퀀서를 이용하여 약 100종류의 세균총 샘플을 동시 해석할 수 있는 활성 오니 유래의 샘플에 대해 2,000∼10,000의 16S 유전자의 서열 데이터를, 대략 10∼23시간에 결정할 수 있다. 즉, 활성 오니에 포함되는 세균총에 대해 균종을 한정하지 않고 망라적으로 해석하는 것이 가능해진다.
이상이, 시퀀스용 샘플의 조제, 및 염기 서열의 판독을 행하는 방법의 일례이다. 한편, 시퀀스용 샘플의 조제, 및 염기 서열의 판독은, 상기의 방법 이외로 행해져도 된다. 시퀀서(20)와 컴퓨터(10)는, 정보의 송수신이 행해지도록 접속되어 있다. 시퀀서(20)는, 판독된 미생물마다의 염기 서열을 나타내는 정보(서열 정보)를 컴퓨터(10)에 송신한다. 여기에서, 컴퓨터에 송신되는 서열 정보는, 시퀀서(20)에 시퀀싱된 그대로의 서열의 데이터, 이른바 조(粗)서열 데이터이다.
계속하여, 본 실시형태에 따른 컴퓨터(10)의 기능에 대해 설명한다. 도 1에 나타내는 바와 같이 컴퓨터(10)는, 데이터 생성부(11)와, 입력부(12)와, 주성분 분석부(13)와, 예측 룰 생성부(14)와, 예측부(15)를 구비하여 구성된다.
데이터 생성부(11)는, 시퀀서(20)에 의해 판독된 활성 오니 중에 존재하는 복수의 미생물의 염기 서열을 시퀀서(20)로부터 수신하여, 당해 염기 서열에 기초하여 예측 룰을 생성하기 위한 데이터를 생성하는 데이터 생성 수단이다. 예측 룰을 생성하기 위한 데이터는, 활성 오니 중에 존재하는 복수의 미생물 각각의 존재 비율(존재 확률)의 시계열 데이터이다. 이 존재 비율은, 미생물의 종별(미생물종, 균종)마다의, 활성 오니에 포함되는 전 미생물의 수에 대한, 당해 활성 오니에 포함되는 당해 종별의 미생물의 수의 비율이다. 단, 엄밀하게 그 비율을 파악하는 것은 곤란한 경우 등에는, 엄밀하게 전 미생물의 수에 대한 수의 비율일 필요는 없고, 예측 룰의 생성에 필요한 정도로 근사한 비율이면 된다. 또한, 당해 데이터는, 동일한 활성 오니(예측 대상의 활성 오니)에 대해, 복수의 타이밍(시각)에서의 존재 비율을 나타내는 것, 즉, 시계열 데이터이다. 여기에서 말하는 시계열 데이터란, 어느 일정 기간에 복수의 타이밍에 취득한 데이터이며, 각 측정 시각의 간격은, 일정이어도, 부정이어도 된다. 예측 정밀도를 높이기 위해, 거의 일정 시간 간격으로 취득되는 것으로 해도 된다. 예를 들어, 1주간마다의 복수주의 존재 비율의 데이터이다. 즉, 1주간마다 활성 오니로부터 미생물군을 포함하는 용액을 채취하여, 존재 비율을 산출한다. 따라서, 당해 데이터는, 예를 들어, 미생물의 종별의 수×시계열의 타이밍의 수의 행렬 데이터로 할 수 있다.
또한, 활성 오니층이 호기조와 혐기조로 나누어지는 경우는, 호기조와 혐기조의 각각에 있어서의 존재 비율의 데이터를 얻어 별도의 시계열 데이터로 하고, 양방을 그 후의 처리에 이용하는 것으로 해도 된다. 미생물의 종으로서는, 피처리수 중의 처리 대상 물질의 분해에 관여하는 미생물 등의 특정의 종으로 한정하지 않고, 무작위로 해석 대상으로 한다. 미생물의 종별의 수는, 활성 오니에도 따르지만, 2만 정도의 수가 된다. 적절히 얻어진 모든 미생물종 중에서 존재 비율이 큰 것부터 선택하여, 전 미생물종 수의 50% 이상의 수의 미생물종의 데이터를 이용하는 것으로 해도 되고, 더욱이 75% 이상을 이용하는 것으로 해도 된다. 적절히 얻어진 미생물종이란, 예를 들어 후술하는 바와 같이, OTU 해석에 의해 얻어진 전 OTU종 중에서, 서열 데이터수(서열수의 카운트)가 매우 적은(예를 들어, 1, 2 또는 3) 것을 제외한 것이다. 미생물종의 수의 선택은, 미생물 정보의 시계열 데이터를 구성하는 각 시각의 데이터에 있어서 각 미생물종의 존재 비율을 산출하여, 미생물종마다 모든 시각에 대해 존재 비율의 총합을 취한 것을 각 미생물종의 존재 비율로 하여, 그 존재 비율이 큰 것부터 선택한다. 또한, 타이밍의 수는, 예를 들어, 반년간의 데이터에 상당하는 것이다. 즉, 타이밍의 수는, 수십 내지 수백 정도이다. 상기의 데이터 생성 및 이하의 데이터의 처리에는, 미생물의 존재 비율 대신에, 활성 오니 중에 존재하는 복수의 염기 서열의 각각의 존재 비율을 사용할 수도 있고, 미생물의 존재 비율과 염기 서열의 존재 비율의 양방을 사용할 수도 있다.
예를 들어, 데이터 생성부(11)는, 이하와 같이 당해 데이터의 생성을 행한다. 데이터 생성부(11)는, 시퀀서(20)로부터 조서열 데이터를 수신한다. 한편, 시퀀서(20)로부터 수신하는 조서열 데이터는, 복수의 타이밍의 활성 오니와 관련되는 데이터이며, 각각의 타이밍에 대해 활성 오니에 포함되는 복수의 미생물 또는 염기 서열 각각의 존재 비율을 추정할 수 있을 정도의 수의 데이터인 것으로 한다. 즉, 그와 같은 데이터가 얻어지도록 시퀀서(20)에 의한 시퀀싱을 행한다. 상기의 복수의 타이밍은, 시계열 데이터의 각각의 타이밍에 상당하는 것이다.
데이터 생성부(11)는, 얻어진 조서열 데이터(예를 들어, 상기의 예에서는 약 570염기/데이터)에 대해, 서열 데이터에 포함되는 샘플 고유의 바코드 서열에 기초하여, 각 서열을 각각의 고유의 샘플(시계열 데이터의 각각의 타이밍에 상당)에 분배한다. 데이터 생성부(11)는, 당해 서열 데이터의 서열 길이 200 미만, 1000 이상, 유니버설 프라이머 서열(fw357F)과의 미스매치 1 이상, 시퀀서에 부속된 퀄리티 프로그램을 이용하여, 서열 결정한 염기 서열의 평균 퀄리티값이 25 이하인 서열 데이터를 제거하여, 고정밀도 데이터를 추출한다.
데이터 생성부(11)는, 취득한 고정밀도 서열 데이터를, 클러스터링(유사도 95%, 97%, 또는 99%의 역치)에 의한 Operational Taxonomic Unit 해석(이하, OTU 해석)에 제공한다. OTU 해석에 있어서는, 서열 데이터의 유사도를 기준으로 하여 각 서열 데이터를 그룹화하는 조작을 행한다. 여기에서는 95% 이상의 서열 유사도를 서로 갖는 서열 데이터의 클러스터 그룹(이하, OTU)을 검출한다. 한편, 서열 데이터의 클러스터링은, 종래 기술, 예를 들어, 프리웨어 Uclust 등을 이용하여 행할 수 있다. 각 OTU는 거의 동일한 종의 세균(미생물)에 유래한다고 추측할 수 있다. 따라서, 클러스터링에 의해 얻어지는 OTU의 총수(OTU수)는, 검출 가능한 범위에 있어서, 그 세균총(미생물총)을 구성하는 세균종(미생물종)의 수와 등가라고 생각할 수 있다. 데이터 생성부(11)는, 각 클러스터 그룹을 대표하는 염기 서열인 대표 서열 데이터를 결정한다. 대표 서열 데이터의 결정은, 종래부터 이용되고 있는 방법에 의해 행할 수 있다.
또한, 각 OTU 중에 포함되는 서열 데이터수로부터는, 서열 데이터수 전체 중의 각 OTU의 비율, 즉 균종 조성비 또는 염기 서열 조성비, 즉, 상기의 존재 비율을 구할 수 있다. 더욱이, 각 OTU의 대표 서열 데이터에 대해 상기한 16S 유전자 및 세균 게놈의 데이터베이스에의 상동성 검색을 행하는 것에 의해, 가장 높은 서열 유사도를 갖는 기지 균종에 귀속, 즉, OTU의 균종을 특정할 수 있다. 한편, 본 실시형태에서는 균종의 특정은 반드시 필요하지는 않지만, 구체적으로 어느 균종의 세균이 활성 오니에 포함되는지 여부를 파악할 수 있기 때문에, 예측 결과의 해석 등에 있어서 유익해진다. 한편, 미생물 정보의 시계열 데이터를 구성하는 전 시각의 데이터에 포함되는, 서열 데이터수(서열수의 카운트)가 매우 적은(예를 들어, 1, 2 또는 3) OTU(클러스터 그룹)에 대해서는, 유효한 정보가 아닌 경우가 많아, 계산상의 노이즈가 되는 경우가 있으므로, 미리 시계열 데이터로부터 제외하는 것으로 해도 된다.
데이터 생성부(11)는, 상기의 세균종마다 또는 염기 서열종마다의 존재 비율을 복수의 타이밍에 대해 산출함으로써 시계열 데이터를, 예를 들어, 상기의 행렬의 형식으로 생성한다. 데이터 생성부(11)는, 생성한 시계열 데이터를 입력부(12)에 출력한다.
입력부(12)는, 상기의 미생물 정보의 시계열 데이터, 및 당해 시계열 데이터를 구성하는 각 시각에 있어서의 데이터에 대응지어진 수 처리 후의 수질을 나타내는 수질 정보를 입력하는 입력 수단이다. 상기의 미생물 정보의 시계열 데이터에 대해서는, 입력부(12)는, 데이터 생성부(11)로부터 입력한다. 수질 정보는, 그 타이밍에 있어서의 수질 상태를 나타내는 것으로, 예를 들어, 시계열 데이터에 있어서의 상기의 타이밍(활성 오니로부터 미생물총을 포함하는 용액을 채취한 타이밍)으로부터 미리 설정된 기간(예를 들어, 1주간) 이내에 BOD 등의 수질 데이터가 미리 설정된 역치를 초과하는지 여부를 나타내는 것 등이다. 이 역치는, 전술한 예측 룰과 관련되는 역치와 마찬가지의 것이다. 수질 정보는, 수 처리 후의 물에 대해 BOD 등의 수질 데이터를 측정함으로써 얻을 수 있다. BOD 등의 수질 데이터의 측정은, 1일마다 등, 빈도가 높은 것이 바람직하지만, 상기의 기간에 응하여 행해지면 된다. 예를 들어, 수질 정보가, 1주간 이내에 BOD 등의 수질 데이터가 미리 설정된 역치를 초과하는지 여부를 나타내는 것인 경우, 1주간에 2회 정도의 측정을 행하면 된다. 예를 들어, 수질 정보는, 1주간 이내에 BOD 등의 수질 데이터가 미리 설정된 역치를 초과한 경우를 1, 그 이외를 0으로 한다.
예를 들어, 유저의 컴퓨터(10)에 대한 수질 정보의 입력 조작을 받아들이는 것에 의해 수질 정보를 입력한다. 이 수질 정보는, 미생물 정보의 시계열 데이터에 있어서의 상기의 타이밍의 데이터마다의 정보이며, 즉, 시계열의 타이밍의 수의 정보를 포함한다. 입력부(12)는, 타이밍의 데이터마다 대응지어진 수질 정보를 입력한다. 예를 들어, 컴퓨터(10)에 입력되는 수질 정보에는, 어느 타이밍의 수질 정보인지를 나타내는 정보가 대응지어질 수 있다. 한편, 입력부(12)는, 시계열의 BOD 등의 수질 데이터의 값을 입력하여, 당해 값이 상기의 타이밍부터 1주간 이내에 역치를 초과하고 있는지 여부를 판단하여, 상기의 수질 정보를 생성하는 것으로 해도 된다. 이 시계열의 BOD 등의 수질 데이터의 타이밍은, 미생물 정보의 시계열 데이터의 타이밍과 동일하지 않아도 된다.
입력부(12)에 의해 입력되는 정보 중, 미생물 정보의 시계열 데이터는, 예측 룰 생성 시스템(1)에 의해 생성되는 예측 룰에 입력되는 데이터에 대응하는 것이다. 또한, 수질 정보는, 예측 룰 생성 시스템(1)에 의해 생성되는 예측 룰에 의해 예측되는 수질에 대응하는 것이다. 입력부(12)는, 입력한 정보 중, 미생물 정보의 시계열 데이터를 주성분 분석부(13)에 출력한다. 입력부(12)는, 입력한 정보 중, 수질 정보를 예측 룰 생성부(14)에 출력한다.
주성분 분석부(13)는, 입력부(12)에 의해 입력된 미생물 정보의 시계열 데이터에 대해서 주성분 분석을 행하여, 당해 시계열 데이터를 구성하는 각 시각에 있어서의 데이터의 주성분 스코어를 산출하는 주성분 분석 수단이다. 전술한 바와 같이 시계열 데이터는 행렬 데이터이기 때문에, 주성분 분석을 행할 수 있다. 주성분 분석부(13)는, 시계열 데이터를 구성하는 각 시각에 있어서의 데이터, 즉 각 타이밍에서의 활성 오니에 존재하는 미생물 또는 염기 서열의 존재 비율의 데이터의 주성분 스코어를 산출하도록 행해진다. 즉, 행렬 데이터의 미생물 또는 염기 서열의 종별의 수(변수)를 압축하도록 주성분 분석을 행한다. 호기조와 혐기조로부터 미생물 정보의 시계열 데이터를 취득하는 경우는, 쌍방의 데이터를 합쳐서 주성분 분석을 행한다. 그 때, 호기조, 혐기조 각각의 미생물 정보의 시계열 데이터에 대해 주성분 스코어가 산출된다.
주성분 분석부(13)는, 구체적으로는, 활성 오니에 존재하는 미생물의 수 처리에 대한 성질을 고려하여, 상관 행렬을 이용한 주성분 분석을 행하는 것으로 해도 된다. 즉, 미생물 정보의 시계열 데이터를 상관 행렬로 변환 후, 주성분 분석을 행한다. 상관 행렬을 이용한 주성분 분석을 행함으로써, 소수종의 미생물의 거동을 반영할 수 있다. 단, 활성 오니에 존재하는 미생물의 구성 등에 따라서는, 분산 공분산 행렬을 이용하는 것으로 해도 된다. 주성분 분석은, 종래의 패키지 소프트웨어 등을 이용하여 행할 수 있다.
주성분 분석부(13)는, 예를 들어, 미생물 정보의 시계열 데이터를 구성하는 각 시각에 있어서의 데이터 각각에 대해, 누적 기여율이, 미리 설정된 역치(예를 들어, 80%) 이상이 될 때까지의 수의 주성분 스코어를, 이후의 처리에서 이용하는 주성분 스코어로 한다. 또한, 주성분 분석부(13)는, 기여율이 높은 순으로 미리 설정된 수의 주성분 스코어를, 이후의 처리에서 이용하는 주성분 스코어로 해도 된다. 또한, 그 이외의 임의의 종류의 주성분 스코어를, 이후의 처리에서 이용하는 주성분 스코어로 해도 된다. 이후의 처리에서 이용하는 주성분 스코어의 수는, 이후의 처리의 처리 부하 등을 고려하여, 대략 (시계열 데이터를 구성하는 각 시각의 데이터에 대해), 수십 내지 수십 정도로 할 수 있다. 후술하는 바와 같이 예측부에 있어서, 이용하는 주성분 스코어를 선택하기 위해, 여기에서는 좀 많은 수의 주성분 스코어를 산출한다. 주성분 분석부(13)는, 산출하여, 이후의 처리에서 이용하는 주성분 스코어로 한 시계열 데이터를 구성하는 각 시각에 있어서의 데이터의 주성분 스코어를 예측 룰 생성부(14)에 출력한다. 또한, 주성분 분석부(13)는, 예측 룰에 의한 예측을 행하기 위해, 미생물 또는 염기 서열의 존재 비율의 벡터 데이터로부터, 주성분 스코어를 산출하기 위한 정보를 기억해 둔다. 혹은, 예측 룰에 이용하는 미생물 정보의 시계열 데이터와 예측에 이용하는 미생물 정보를 동시에, 데이터 생성부(11)에서 생성하여, 입력부(12)로부터 입력해 두고, 양방의 데이터를 합쳐서 행렬 데이터로 하여, 예측 룰에 이용하는 주성분 스코어와 동시에, 예측에 이용하는 주성분 스코어를 미리 계산해 둘 수 있다.
예측 룰 생성부(14)는, 주성분 분석부(13)에 의해 산출된, 미생물 정보의 시계열 데이터를 구성하는 각 시각에 있어서의 데이터의 주성분 스코어, 및 입력부(12)에 의해 입력된, 당해 시계열 데이터를 구성하는 각 시각에 있어서의 데이터에 대응지어진 수질 정보에 기초하여, 복수의 미생물 또는 염기 서열 각각의 존재 비율로부터 수 처리 후의 수질을 예측하기 위한 예측 룰을 생성하는 예측 룰 생성 수단이다. 도 2는, 주성분 스코어와 수질 정보의 바탕이 되는 BOD의 시계열 데이터의 예인 그래프이다. 도 2의 그래프에 있어서, 가로축은 시간, 세로축은 주성분 스코어의 값 및 BOD의 값을 각각 나타내고 있다. 주성분 스코어는, 상관 행렬을 이용한 주성분 분석을 행했을 때의 기여율이 1번째 내지 6번째인 주성분 스코어를 나타내고 있다. 호기조의 주성분 스코어 6개와 혐기조의 주성분 스코어 6개의 전체 12개를 나타내고 있다. 예측 룰에 이용한 주성분 스코어는, 호기조, 혐기조 각각 30개의 주성분 스코어로부터 10개를 선택한 것이다. 복수의 선 S의 각각이, 주성분 스코어의 값을 나타내고 있다. 또한, 선 B가, BOD의 값을 나타내고 있다.
예측 룰은, 어느 타이밍(미생물총 관측 시이며, 예를 들어, 도 2의 실선 L1로 나타나는 타이밍)에서의 주성분 스코어로부터, 그 타이밍 및 그 타이밍 이후의 수질 상태를 예측하는 것으로, 예를 들어, 그 타이밍으로부터 미리 설정된 기간(예를 들어, 도 2의 파선 L2로 나타나는 타이밍까지의 기간)에 BOD가 미리 설정된 역치 T를 초과하는지 여부를 예측하는 것 등에 이용한다.
구체적으로는, 예측 룰 생성부(14)는, 입력한 미생물 정보의 시계열 데이터를 구성하는 각 시각에 있어서의 데이터의 주성분 스코어 및 당해 시계열 데이터를 구성하는 각 시각에 있어서의 데이터에 대응지어진 수질 정보에 기초하여, 예를 들어, 기계 학습(기계 학습에 의한 훈련) 등을 행함으로써 예측 룰을 생성한다. 즉, 입력한 시계열 데이터를 구성하는 각 시각에 있어서의 데이터의 주성분 스코어 및 당해 시계열 데이터를 구성하는 각 시각에 있어서의 데이터에 대응지어진 수질 정보는, 기계 학습을 위한 정해(正解) 데이터(샘플 데이터)이다. 이 기계 학습에서는, 미생물 정보의 시계열 데이터를 구성하는 각 시각에 있어서의 데이터의 주성분 스코어를 예측 룰에 있어서의 입력(설명 변수)으로 하고, 당해 시계열 데이터를 구성하는 각 시각에 있어서의 데이터에 대응지어진 수 처리 후의 수질을 나타내는 수질 정보를 예측 룰에 있어서의 출력(목적 변수)으로 한다. 더욱이, 여기에서는 설명 변수로서 이용하는 주성분 스코어의 선택을 행하는 것으로 해도 된다. 반드시 예측에 이용하는 주성분 스코어의 수가 많을수록 예측 정밀도가 높다고 하는 것은 아니고, 또한 반드시 이용하는 주성분 스코어의 기여율이 높을수록 예측 정밀도가 높다고 하는 것은 아니다. 주성분 분석부에서 산출된 주성분 스코어 중에서 조합을 여러 가지로 변화시켜 기계 학습을 행하고, 그 예측 정밀도를 평가하는 것을 반복하여, 예측 정밀도가 어느 기준치 이상 높은 주성분 스코어의 조합을 설명 변수로서 선택하는 것을 행한다. 기준치는, 예를 들어 75%, 85% 등으로 할 수 있다.
기계 학습의 수법으로서는, 예를 들어, 선형 회귀 모델을 이용할 수 있다. 그 때에 베이즈 추정법을 이용해도 된다. 또한, 선형 회귀 모델의 하나로서 2항 또는 순서형의 이산 선택 모델을 이용할 수 있다. 구체적으로는, 프로비트 모델이나 로지트 모델, 토비트 모델 등을 이용할 수 있다. 이것들에 베이즈 추정법을 이용할 수도 있다. 또는, SVM(서포트 벡터 머신) 등을 이용할 수 있다. 혹은, 베이지안 네트워크를 이용하는 것으로 해도 된다. 예측 룰 생성부(14)는, 생성한 예측 룰을 나타내는 정보를 예측부(15)에 출력한다.
예측부(15)는, 예측 룰 생성부(14)에 의해 생성된 예측 룰에 기초하여, 수 처리 후의 수질을 예측하는 예측을 행하는 예측 수단이다. 상기와 같이, 예측 룰은, 주성분 스코어로부터, BOD 등의 수질 데이터의, 예측 시점 및 그 이후 상태를 예측하기 위한 것으로, 예를 들어, 예측 시점으로부터 미리 설정된 기간에 BOD 등의 수질 데이터가 미리 설정된 역치를 초과하는지 여부를 예측하는 것 등을 행하기 위한 것이다. 즉, 예측부(15)는, 예측 대상과 관련되는 주성분 스코어를 입력하고, 예측 룰에 기초하여 예측을 행한다. 예측 대상은, (예측을 행하고 싶은 타이밍에서의) 미생물총을 포함하는 활성 오니가 이용된 수 처리 시스템(의 미생물총)이다. 예측 대상의 수 처리 시스템은, 예측 룰의 생성에 이용한 데이터를 취득한 수 처리 시스템과 동일한 것으로 할 수 있다. 단, 예측 대상의 수 처리 시스템은, 예측 룰의 생성에 이용한 데이터를 취득한 수 처리 시스템 이외의 것이어도 된다.
예측 대상의 주성분 스코어는, 예측 룰의 생성 시의, 미생물 정보의 시계열 데이터의 하나의 타이밍과 관련되는 주성분 스코어와 마찬가지로 구해진다. 즉, 주성분 스코어의 생성은, 이하와 같이 행해진다. 시퀀서(20)가, 예측 대상의 수 처리 시스템의 활성 오니 중에 존재하는 복수의 미생물로부터 유전자의 염기 서열을 판독한다. 시퀀서(20)는, 판독된, 예측 대상이 되는 복수의 미생물마다의 염기 서열을 나타내는 정보(서열 정보)를 컴퓨터(10)에 송신한다.
컴퓨터(10)에서는, 데이터 생성부(11)가, 시퀀서(20)로부터 서열 정보를 수신하여, 당해 서열 정보로부터, 예측 대상이 되는 복수의 미생물 또는 염기 서열 각각의 존재 비율의 데이터를 생성한다. 이 데이터는, 예를 들어, 미생물 또는 염기 서열의 종별의 수의 요소를 포함하는 벡터 데이터로 할 수 있다. 한편, 당해 벡터 데이터는, 예측 룰을 생성하기 위한 행렬 데이터에 대응하는 것으로 한다. 즉, 미생물 또는 염기 서열의 종마다의 존재 비율의 값의 순번, 및 미생물 또는 염기 서열의 종별의 수(벡터 데이터의 요소의 수)는, 예측 룰의 생성을 위한 행렬 데이터와, 예측용의 벡터 데이터에서 동일한 것으로 한다.
데이터 생성부(11)는, 생성한 예측용의 미생물 또는 염기 서열의 존재 비율과 관련되는 벡터 데이터를 입력부(12)에 출력한다. 입력부(12)는, 당해 벡터 데이터를 입력하여, 주성분 분석부(13)에 출력한다. 주성분 분석부(13)는, 당해 벡터 데이터를 입력하고, 예측 룰의 생성 시에 행한 주성분 분석에 기초하여, 당해 벡터 데이터의 주성분 스코어를 산출한다. 주성분 분석부(13)는, 산출한 주성분 스코어를 예측부(15)에 출력한다. 또한, 예측 대상의 주성분 스코어는, 예측 룰의 생성 시의 미생물 정보의 시계열 데이터의 주성분 스코어를 구할 때에 동시에 구할 수도 있다. 즉, 예측 룰 생성을 위한 행렬 데이터(미생물 종별의 수×타이밍)의 타이밍을 증가시켜 예측용의 벡터 데이터를 짜넣는 것에 의해, 산출해 둘 수 있다.
예측부(15)는, 주성분 분석부(13)로부터 입력한 예측 대상과 관련되는 주성분 스코어를, 예측 룰에 입력하여, 예측 룰로부터의 출력을 예측 결과로서 얻는다. 예측 결과는, 생성된 예측 룰에 응한 것으로, 본 실시형태에 나타낸 예에서는, 예측 시점으로부터 미리 설정된 기간(예를 들어, 1주간) 이내에 BOD 등의 수질 데이터가 미리 설정된 역치를 초과하는지 여부를 나타내는 정보이다. 예측부(15)는, 얻어진 예측 결과를 출력한다. 예측 결과의 출력은, 예를 들어, 컴퓨터(10)가 구비하는 디스플레이 등의 표시 장치로 표시함으로써 행해진다. 또한, 예측 결과의 출력은, 예를 들어, 다른 장치나 컴퓨터(10) 내의 다른 모듈에 송신함으로써 행해져도 된다. 이상이, 본 실시형태에 따른 컴퓨터(10)의 기능이다.
계속하여, 도 3 및 도 4의 플로 차트를 이용하여, 본 실시형태에 따른 예측 룰 생성 시스템(1)에서 실행되는 처리(예측 룰 생성 시스템(1)의 동작 방법)인 예측 룰 생성 방법 및 예측 방법을 설명한다. 우선, 도 3의 플로 차트를 이용하여, 예측 룰의 생성 시에 실행되는 처리를 설명한다. 본 처리에서는, 우선, 시퀀서(20)에 의해, 수 처리 시스템에서 이용되는 미생물총을 구성하는 미생물의 유전자의 염기 서열이 판독된다(S01, 판독 스텝). 여기에서는, 복수의 타이밍에서의, 미생물총을 구성하는 미생물의 유전자의 염기 서열이 판독된다. 판독된 염기 서열의 데이터는, 시퀀서(20)로부터 컴퓨터(10)에 출력된다.
컴퓨터(10)에서는, 데이터 생성부(11)에 의해, 시퀀서(20)로부터 송신된 염기 서열의 데이터가 수신된다. 계속하여, 데이터 생성부(11)에 의해, 염기 서열의 데이터에 기초하여, 미생물 정보의 시계열 데이터가 생성된다(S02, 데이터 생성 스텝). 생성되는 시계열 데이터는, 전술한 바와 같이 미생물 또는 염기 서열의 종별의 수×시계열의 타이밍의 수의 행렬 데이터이다. 계속하여, 생성된 시계열 데이터가 데이터 생성부(11)로부터, 입력부(12)에 입력된다. 또한, 입력부(12)에 의해, 시계열 데이터의 입력과 아울러, 상기의 타이밍의 데이터마다의 수질 정보가 입력된다(S03, 입력 스텝). 수질 정보의 입력은, 예를 들어, 정기적 또는 부정기로 갱신되는 데이터 파일의 읽어들임, 또는 유저의 컴퓨터(10)에 대한 수질 정보의 입력 조작을 받아들이는 것에 의해 행해진다.
입력된 미생물 정보의 시계열 데이터는, 입력부(12)로부터 주성분 분석부(13)에 출력된다. 또한, 입력된 수질 정보는, 입력부(12)로부터 예측 룰 생성부(14)에 출력된다. 계속하여, 주성분 분석부(13)에 의해, 미생물 정보의 시계열 데이터에 대한 주성분 분석이 행해진다(S04, 주성분 분석 스텝). 주성분 분석에 의해 얻어진, 시계열 데이터를 구성하는 각 시각에 있어서의 데이터의 주성분 스코어는, 주성분 분석부(13)로부터 예측 룰 생성부(14)에 출력된다.
계속하여, 예측 룰 생성부(14)에 의해, 주성분 분석부(13)로부터 입력된 주성분 스코어, 및 입력부(12)로부터 입력된 당해 시계열 데이터를 구성하는 각 시각에 있어서의 데이터에 대응지어진 수질 정보에 기초하여, 예측 룰이 생성된다(S05, 예측 룰 생성 스텝). 전술한 바와 같이 예측 룰의 생성은, 예를 들어, 주성분 스코어를 예측 룰에 있어서의 입력(설명 변수), 수질 정보를 예측 룰에 있어서의 출력(목적 변수)으로 한 기계 학습에 의해 행해진다. 생성된 예측 룰을 나타내는 정보는, 예측 룰 생성부(14)로부터 예측부(15)에 출력된다. 이상이, 예측 룰의 생성 시에 실행되는 처리이다.
계속하여, 도 4의 플로 차트를 이용하여, 예측 시에 실행되는 처리를 설명한다. 본 처리에서는, 우선, 시퀀서(20)에 의해, 예측 대상의 타이밍에서의, 수 처리 시스템에서 이용되는 미생물총을 구성하는 미생물의 유전자의 염기 서열이 판독된다(S11, 판독 스텝). 판독된 염기 서열의 데이터는, 시퀀서(20)로부터 컴퓨터(10)에 출력된다.
컴퓨터(10)에서는, 데이터 생성부(11)에 의해, 시퀀서(20)로부터 송신된 염기 서열의 데이터가 수신된다. 계속하여, 데이터 생성부(11)에 의해, 염기 서열의 데이터에 기초하여, 미생물 또는 염기 서열 각각의 존재 비율의 데이터가 생성된다(S12, 데이터 생성 스텝). 생성되는 데이터는, 전술한 바와 같이 미생물 또는 염기 서열의 종별의 수의 요소를 포함하는 벡터 데이터이다. 계속하여, 생성된 데이터가 데이터 생성부(11)로부터 입력부(12)에 입력된다(S13, 입력 스텝).
입력된 데이터는, 입력부(12)로부터 주성분 분석부(13)에 출력된다. 계속하여, 주성분 분석부(13)에 의해, 예측 룰의 생성 시의 주성분 분석에 기초하여, 입력된 데이터의 주성분 스코어가 산출된다(S14, 주성분 분석 스텝). 주성분 분석에 의해 얻어진 데이터의 주성분 스코어는, 주성분 분석부(13)로부터 예측부(15)에 출력된다.
계속하여, 예측부(15)에 의해, 예측 룰 생성부(14)에 의해 생성된 예측 룰에 기초하여, 주성분 분석부(13)로부터 입력한 주성분 스코어로부터 수질의 예측이 행해진다(S15, 예측 스텝). 예측 결과를 나타내는 정보는, 예를 들어, 유저에게 인식될 수 있도록 표시된다. 이상이, 예측 시에 실행되는 처리이다.
전술한 바와 같이, 본 실시형태에 의하면, 미생물 정보의 시계열 데이터와, 당해 시계열 데이터를 구성하는 각 시각에 있어서의 데이터에 대응지어진 수 처리 후의 수질을 나타내는 수질 정보에 기초하여 예측 룰이 생성된다. 따라서, 수질이나 생물 반응조의 운전 파라미터의 시계열 데이터만을 이용하여 예측하는 경우와는 달리, 활성 오니 중의 미생물총 상태를 고려한 예측을 행할 수 있다. 이것에 의해, 수질이나 생물 반응조의 운전 파라미터의 시계열 데이터만을 이용한 예측과 비교하여 정밀도 좋게 예측을 행할 수 있다.
또한, 본 실시형태에 의하면, 주성분 분석이 행해진다. 통상, 활성 오니 중에 존재하는 미생물의 종류의 수는 방대하다. 미생물 정보의 시계열 데이터에 대해서 주성분 분석을 행함으로써, 모든 정보를 거둬들여 정보량을 떨어뜨리지 않고, 적은 변수로 미생물 정보를 표현할 수 있다. 본 실시형태와 같이 주성분 분석을 행하여, 예측 룰의 생성에 이용하는 변수를 적게 함으로써, 확실히 예측 룰의 생성을 행할 수 있다. 즉, 본 실시형태에 의하면, 수 처리 후의 수질의 예측을 정밀도 좋고 또한 확실히 실시하는 예측 룰을 생성할 수 있다.
본 실시형태와 같이 주성분 분석은, 상관 행렬을 이용한 것으로 하는 것으로 해도 된다. 상관 행렬을 이용한 주성분 분석을 행함으로써, 분산 공분산 행렬을 이용하는 경우와 비교하여, 주성분 분석을 행해도 소수종의 미생물(존재 비율이 작은 미생물)의 거동을 보다 반영한 예측 룰을 생성할 수 있다. 수 처리 후의 수질에는, 소수종의 미생물의 거동이 영향을 주는 경우가 있다. 따라서, 이 구성에 의하면, 더욱 정밀도 좋게 예측을 행하는 예측 룰을 생성할 수 있다. 단, 전술한 바와 같이 활성 오니에 존재하는 미생물의 구성 등에 따라서는, 분산 공분산 행렬을 이용하는 것으로 해도 된다.
또한, 본 실시형태와 같이, 기계 학습에 의해 예측 룰을 생성하는 것으로 해도 된다. 이 구성에 의하면, 확실히 예측 룰을 생성할 수 있다. 단, 반드시 기계 학습을 이용할 필요는 없고, 그 이외의 방법으로 예측 룰을 생성하는 것으로 해도 된다. 예를 들어, 시계열 해석을 이용하여, 예측 룰을 생성하는 것으로 해도 된다. 구체적으로는, 다변량 자기 회귀(VAR) 모델 등의 시계열 해석을 이용해도 된다.
또한, 본 실시형태와 같이 미생물의 유전자의 염기 서열을 판독하는 시퀀서(20)가, 예측 룰 생성 시스템(1)에 포함되어 있어, 판독된 염기 서열에 기초하여 시계열 데이터가 생성되어도 된다. 이 구성에 의하면, 미생물 또는 염기 서열의 존재 비율의 시계열 데이터를 확실히 입력할 수 있어, 확실히 본 발명의 일 실시형태를 실시할 수 있다. 단, 예측 룰 생성 시스템(1)에는, 반드시, 시퀀서(20)가 포함되어 있을 필요는 없다. 즉, 예측 룰 생성 시스템(1)(의 컴퓨터(10)의 입력부(12))은, 외부로부터 미생물 정보의 시계열 데이터를 입력하는 것으로 해도 된다.
또한, 본 실시형태와 같이 생성한 예측 룰을 이용하여 예측을 행하는 구성을 갖고 있어도 된다. 즉, 예측 룰 생성 시스템(1)은, 본 실시형태와 같이 예측 시스템을 겸하고 있어도 된다. 이 구성에 의하면, 생성된 예측 룰에 기초한 예측을 행할 수 있다. 단, 반드시 예측이 예측 룰 생성 시스템(1)에 있어서 행해질 필요는 없고, 예측 룰 생성 시스템(1) 이외의 장치 또는 시스템에 의해 행해져도 된다. 그 경우, 예측 룰 생성 시스템(1)에 의해 생성된 예측 룰은, 당해 예측 룰 생성 시스템(1) 이외의 예측 시스템에 출력된다. 당해 예측 시스템은, 전술한 예측 룰 생성 시스템(1)의 예측과 관련되는 기능을 가지고 있다.
계속하여, 본 실시형태의 예측 룰 생성 시스템(1)에 의해 생성된 예측 룰을 이용한 예측의 결과의 예를 설명한다. 도 5에 당해 예측 결과의 예의 그래프를 나타낸다. 도 5에 있어서의 가로축은 시간축이다. 가로축의 하나의 점이, 전술한 하나의 타이밍에 상당한다. 세로축은, 당해 타이밍(예측 시점)으로부터 1주간 이내에 BOD가 미리 설정된 역치를 초과했는지 여부, 즉, 돌발이 있었는지(1주간 이내에 BOD가 역치를 초과했는지), 없었는지(1주간 이내에 BOD가 역치를 초과하지 않았는지)를 나타내는 것이다. 이 예에서는, 예측 룰 생성 시의 기계 학습의 수법으로서 베이즈 추정법에 의한 2항 프로비트 모델(선형 회귀 모델)을 이용한 경우와, SVM을 이용한 경우의 결과를 나타내고 있다. 도 5에 있어서, 파선의 좌측의 데이터는, 기계 학습의 훈련에 이용된 것이고, 파선의 우측의 데이터는, 기계 학습의 훈련에 이용하지 않은 것이다. 프로비트 모델을 이용한 경우와 SVM를 이용한 경우의 각각의 값은, 예측 룰을 이용한 예측 결과(예측 룰로부터의 출력)이다.
도 5에도 나타내고 있듯이, 기계 학습의 수법으로서 프로비트 모델을 이용한 경우는, 기계 학습의 훈련에 이용하지 않은 데이터의 출력에서 실측과 79% 일치하고 있다. 기계 학습의 수법으로서 SVM을 이용한 경우는, 기계 학습의 훈련에 이용하지 않은 데이터의 출력에서 실측과 81% 일치하고 있다. 즉, 본 실시형태의 수법의 예측률은, 대체로 80%로, 높은 값이 되고 있다. 도 5에 나타난 예에 있어서는, 반년분의 훈련 데이터(파선의 좌측의 데이터)를 이용하여 작성한 예측 모델(예측 룰)을 이용하여, 후의 반년분에 대해 예측 룰을 적용하여 BOD치를 예측했다. 구체적으로는, 후의 반년분의 미생물 존재 비율의 시계열 데이터의 각 타이밍에 있어서, BOD가 역치를 초과할지 여부의 예측을 행했다. 직전(예를 들어 1∼2주일전)에 취득된 데이터를 기초로 갱신하여 작성한 예측 룰을 이용하면, 예측률은 보다 높아진다고 생각된다. 일상의 수질 관리에 있어서는, 새롭게 취득된 데이터를 더하여 예측 룰을 갱신하면서, 예측을 행하면 된다.
계속하여, 전술한 실시형태의 변형예에 대해 설명한다. 전술한 실시형태에서는, 예측 룰에의 입력으로서, 미생물 또는 염기 서열의 존재 비율의 데이터로 하고 있었지만, 그에 더하여, 그 이외의 데이터를 입력으로 하는 것으로 해도 된다. 그 이외의 데이터로서는, 예를 들어, 종래의 수질의 예측에 이용되고 있던, 처리 후의 물(배수)의 수질 데이터나 생물 반응조의 운전 파라미터가 이용되어도 된다. 구체적으로는, COD(화학적 산소 요구량), 온도, TOC, TN 등의 수질 데이터, pH, 배수 품목, 용존 산소량(DO), 산화 환원 전위(ORP) 등의 생물 반응조의 운전 파라미터이다. 혹은, 수 처리 시스템에의 처리 대상인 물의 유입 조건의 데이터가 이용되어도 된다. 또한, 배수 품목을 교체하여 사용하는 배수 처리계의 경우는, 그 시점 또는 그 전후에 처리되고 있는 배수 품목을 데이터로서 이용할 수도 있다. 미생물 또는 염기 서열의 존재 비율의 데이터 이외의 데이터를 이용하는 경우, 그들의 데이터에 대해서도 정해 데이터를 준비하여 기계 학습을 행하는 것으로 하면 된다. 이들 데이터를 합쳐서, 예측 정밀도가 높은 데이터의 조합을 선택할 수도 있다. 예측의 원천이 되는 데이터가 증가하는 것에 의해, 더욱 정밀도가 높은 예측 룰을 생성할 수 있다. 고빈도로 취득하는 것이 가능한 데이터를 조합하는 것에 의해, 보다 세심한 수질 관리(예측)를 행할 수 있다.
전술한 실시형태에서는, 예측하는 수질은, 예측 시점으로부터 미리 설정된 기간 이내에 BOD가 미리 설정된 역치를 초과하는지 여부였지만, 본 발명에서 생성되는 예측 룰은, 수질과 관련되는 것이면 그 이외를 예측하는 것이어도 된다. 예를 들어, COD, TOC, TN 등의 수질의 예측을 들 수 있다. 수질의 값이 역치를 초과할지 여부뿐만 아니라, 일정한 범위로 구획지어진 복수의 레벨 중의 어느 레벨에 들어갈지의 예측, 또는 대체적인 추측치의 예측을 행하는 것이어도 된다.
1…예측 룰 생성 시스템, 10…컴퓨터, 11…데이터 생성부, 12…입력부, 13…주성분 분석부, 14…예측 룰 생성부, 15…예측부, 20…시퀀서.
SEQUENCE LISTING <110> SUMITOMO CHEMICAL COMPANY, LIMITED <120> PREDICTION RULE GENERATION SYSTEM, PREDICTION SYSTEM, PREDICTION RULE GENERATION METHOD AND PREDICTION METHOD <130> S40536WO01 <150> JP 2015-076945 <151> 2015-04-03 <160> 4 <170> PatentIn version 3.1 <210> 1 <211> 17 <212> DNA <213> Artificial <220> <223> universal primer fw357F <400> 1 cctacgggag gcagcag 17 <210> 2 <211> 21 <212> DNA <213> Artificial <220> <223> universal primer RV926r <400> 2 ccgtcaattc cttttragtt t 21 <210> 3 <211> 30 <212> DNA <213> Artificial <220> <223> adapter A <400> 3 ccatctcatc cctgcgtgtc tccgactcag 30 <210> 4 <211> 51 <212> DNA <213> Artificial <220> <223> reverse primer HA13619-RV926r <400> 4 cctatcccct gtgtgccttg gcagtctcag ccgtcaattc cttttragtt t 51

Claims (7)

  1. 수 처리를 행하는 활성 오니 중에 존재하는 복수의 미생물 각각의 존재 비율 또는 당해 활성 오니 중에 존재하는 복수의 염기 서열 각각의 존재 비율의 시계열 데이터, 및 당해 시계열 데이터를 구성하는 각 시각에 있어서의 데이터에 대응지어진 수 처리 후의 수질을 나타내는 수질 정보를 입력하는 입력 수단과,
    상기 입력 수단에 의해 입력된 시계열 데이터에 대해서 주성분 분석을 행하여, 당해 시계열 데이터를 구성하는 각 시각에 있어서의 데이터의 주성분 스코어를 산출하는 주성분 분석 수단과,
    상기 주성분 분석 수단에 의해 산출된, 시계열 데이터를 구성하는 각 시각에 있어서의 데이터의 주성분 스코어, 및 상기 입력 수단에 의해 입력된 당해 시계열 데이터를 구성하는 각 시각에 있어서의 데이터에 대응지어진 수 처리 후의 수질을 나타내는 수질 정보에 기초하여, 복수의 미생물 각각의 존재 비율, 또는 복수의 염기 서열 각각의 존재 비율로부터 수 처리 후의 수질을 예측하기 위한 예측 룰을 생성하는 예측 룰 생성 수단
    을 구비하는 예측 룰 생성 시스템.
  2. 제 1 항에 있어서,
    상기 주성분 분석 수단은, 상관 행렬을 이용한 주성분 분석을 행하는 예측 룰 생성 시스템.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 예측 룰 생성 수단은, 상기 주성분 분석 수단에 의해 산출된, 시계열 데이터를 구성하는 각 시각에 있어서의 데이터의 주성분 스코어를 상기 예측 룰에 있어서의 입력으로 하고, 상기 입력 수단에 의해 입력된 당해 시계열 데이터를 구성하는 각 시각에 있어서의 데이터에 대응지어진 수 처리 후의 수질을 나타내는 수질 정보를 상기 예측 룰에 있어서의 출력으로 한 기계 학습을 행함으로써 상기 예측 룰을 생성하는 예측 룰 생성 시스템.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 활성 오니 중에 존재하는 복수의 미생물로부터 유전자의 염기 서열을 판독하는 판독 수단과,
    상기 판독 수단에 의해 판독된 유전자의 염기 서열에 기초하여 상기 시계열 데이터를 생성하여 입력 수단에 입력시키는 데이터 생성 수단
    을 추가로 구비하는 예측 룰 생성 시스템.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 기재된 예측 룰 생성 시스템에 의해 생성된 예측 룰에 기초하여, 수 처리 후의 수질을 예측하는 예측 시스템으로서,
    예측 대상이 되는 복수의 미생물 각각의 존재 비율 또는 예측 대상이 되는 복수의 염기 서열 각각의 존재 비율의 데이터를 입력하는 입력 수단과,
    상기 예측 룰 생성 시스템에 의한 주성분 분석에 기초하여, 상기 입력 수단에 의해 입력된 상기 예측 대상의 데이터의 주성분 스코어를 산출하는 주성분 분석 수단과,
    상기 예측 룰 생성 시스템에 의해 생성된 예측 룰에 기초하여, 상기 주성분 분석 수단에 의해 산출된 상기 예측 대상의 데이터의 주성분 스코어로부터 수 처리 후의 수질을 예측하는 예측 수단
    을 구비하는 예측 시스템.
  6. 예측 룰 생성 시스템의 동작 방법인 예측 룰 생성 방법으로서,
    수 처리를 행하는 활성 오니 중에 존재하는 복수의 미생물 각각의 존재 비율 또는 당해 활성 오니 중에 존재하는 복수의 염기 서열 각각의 존재 비율의 시계열 데이터, 및 당해 시계열 데이터를 구성하는 각 시각에 있어서의 데이터에 대응지어진 수 처리 후의 수질을 나타내는 수질 정보를 입력하는 입력 스텝과,
    상기 입력 스텝에 있어서 입력된 시계열 데이터에 대해서 주성분 분석을 행하여, 당해 시계열 데이터를 구성하는 각 시각에 있어서의 데이터의 주성분 스코어를 산출하는 주성분 분석 스텝과,
    상기 주성분 분석 스텝에 있어서 산출된, 시계열 데이터를 구성하는 각 시각에 있어서의 데이터의 주성분 스코어, 및 상기 입력 스텝에 있어서 입력된 당해 시계열 데이터를 구성하는 각 시각에 있어서의 데이터에 대응지어진 수 처리 후의 수질을 나타내는 수질 정보에 기초하여, 복수의 미생물 각각의 존재 비율, 또는 복수의 염기 서열 각각의 존재 비율로부터 수 처리 후의 수질을 예측하기 위한 예측 룰을 생성하는 예측 룰 생성 스텝
    을 포함하는 예측 룰 생성 방법.
  7. 제 1 항 내지 제 4 항 중 어느 한 항에 기재된 예측 룰 생성 시스템에 의해 생성된 예측 룰에 기초하여, 수 처리 후의 수질을 예측하는, 예측 시스템의 동작 방법인 예측 방법으로서,
    예측 대상이 되는 복수의 미생물 각각의 존재 비율 또는 예측 대상이 되는 복수의 염기 서열 각각의 존재 비율의 데이터를 입력하는 입력 스텝과,
    상기 예측 룰 생성 시스템에 의한 주성분 분석에 기초하여, 상기 입력 스텝 에 있어서 입력된 상기 예측 대상의 데이터의 주성분 스코어를 산출하는 주성분 분석 스텝과,
    상기 예측 룰 생성 시스템에 의해 생성된 예측 룰에 기초하여, 상기 주성분 분석 스텝에 있어서 산출된 상기 예측 대상의 데이터의 주성분 스코어로부터 수 처리 후의 수질을 예측하는 예측 스텝
    을 포함하는 예측 방법.
KR1020177031872A 2015-04-03 2016-03-30 예측 룰 생성 시스템, 예측 시스템, 예측 룰 생성 방법 및 예측 방법 KR20170132329A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JPJP-P-2015-076945 2015-04-03
JP2015076945A JP6501593B2 (ja) 2015-04-03 2015-04-03 予測ルール生成システム、予測システム、予測ルール生成方法及び予測方法
PCT/JP2016/060516 WO2016159154A1 (ja) 2015-04-03 2016-03-30 予測ルール生成システム、予測システム、予測ルール生成方法及び予測方法

Publications (1)

Publication Number Publication Date
KR20170132329A true KR20170132329A (ko) 2017-12-01

Family

ID=57005756

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177031872A KR20170132329A (ko) 2015-04-03 2016-03-30 예측 룰 생성 시스템, 예측 시스템, 예측 룰 생성 방법 및 예측 방법

Country Status (6)

Country Link
US (1) US11225680B2 (ko)
JP (1) JP6501593B2 (ko)
KR (1) KR20170132329A (ko)
CN (1) CN107531528B (ko)
TW (1) TWI715564B (ko)
WO (1) WO2016159154A1 (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019084675A1 (en) * 2017-10-31 2019-05-09 Luminultra Technologies Ltd. Decision support system and method for water treatment
JP7144462B2 (ja) 2018-02-15 2022-09-29 千代田化工建設株式会社 プラント運転条件設定支援システム及び運転条件設定支援装置
JP6977953B2 (ja) * 2018-03-22 2021-12-08 住友重機械エンバイロメント株式会社 水質状態判別装置
JP7299485B2 (ja) * 2018-06-07 2023-06-28 日本製鉄株式会社 微生物群の特定方法
JP6790154B2 (ja) 2019-03-07 2020-11-25 東芝デジタルソリューションズ株式会社 協調型学習システム及び監視システム
CN111723825A (zh) * 2019-03-18 2020-09-29 顺丰科技有限公司 一种客户信息查询异常行为检测方法和装置
US11157470B2 (en) * 2019-06-03 2021-10-26 International Business Machines Corporation Method and system for data quality delta analysis on a dataset
CN110186505B (zh) * 2019-06-06 2020-02-14 浙江清华长三角研究院 一种基于支持向量机的农村生活污水处理设施出水达标情况的预测方法
JP7437003B2 (ja) * 2019-07-01 2024-02-22 ヒューマン・メタボローム・テクノロジーズ株式会社 データ解析装置および方法
CN110633859B (zh) * 2019-09-18 2024-03-01 西安理工大学 一种两阶段分解集成的水文序列预测方法
CN111398539A (zh) * 2020-03-09 2020-07-10 上海交通大学 一种基于大数据和分子生物技术的水质微生物指示方法
CN112591887B (zh) * 2020-11-03 2022-09-20 北京工业大学 一种基于核主成分分析和贝叶斯网络的污泥膨胀诊断方法
WO2022101983A1 (ja) * 2020-11-10 2022-05-19 株式会社パーキンエルマージャパン 検体の分類方法
JP2022161412A (ja) * 2021-04-09 2022-10-21 秀穂 野末 情報処理方法、情報処理装置、及びプログラム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0572199A (ja) * 1991-09-12 1993-03-23 Hitachi Ltd 水圏の監視及び浄化システム
JP3928492B2 (ja) 2002-06-11 2007-06-13 栗田工業株式会社 混合微生物系の監視方法および管理方法
JP2004105952A (ja) * 2002-08-28 2004-04-08 Yaskawa Electric Corp 下水処理運転支援装置
JP4279802B2 (ja) 2005-05-27 2009-06-17 株式会社神鋼環境ソリューション 水処理管理方法
JP5022610B2 (ja) * 2006-02-27 2012-09-12 株式会社東芝 下水処理場運転支援装置
JP4817100B2 (ja) 2006-03-28 2011-11-16 独立行政法人農業・食品産業技術総合研究機構 水質モニタリング装置
JP5049748B2 (ja) * 2006-11-15 2012-10-17 株式会社神鋼環境ソリューション 生物学的水処理のシミュレーション方法およびシミュレーション装置
US20110015913A1 (en) * 2007-06-19 2011-01-20 Kobelco Eco-Solutions Co., Ltd. Simulation Method, Simulation Apparatus, Biological Treatment Method, and Biological Treatment Apparatus
US8658037B2 (en) 2008-07-11 2014-02-25 Seiko Pmc Corporation Method for determining physiological state of microbial community and wastewater treatment method
CN101540008B (zh) * 2009-04-24 2011-04-06 北京工业大学 基于格子气元胞自动机模型的活性污泥净化过程的模拟方法
CN101593342A (zh) * 2009-06-24 2009-12-02 贵州省理化测试分析研究中心 农产品产地长期安全预警的方法
CN101825622A (zh) * 2010-04-02 2010-09-08 浙江浙大中控信息技术有限公司 一种水质预测方法和装置
JP5793299B2 (ja) * 2010-12-28 2015-10-14 株式会社東芝 プロセス監視診断装置
CN102807301B (zh) 2012-07-31 2014-01-15 天津大学 再生水厂出水水质在线监测与实时预测系统及其控制方法
JP5990069B2 (ja) * 2012-09-13 2016-09-07 高砂熱学工業株式会社 排水処理方法及び排水処理システム
CN103809436A (zh) * 2012-11-06 2014-05-21 西安元朔科技有限公司 活性污泥法污水处理过程智能建模方法
JP2014121692A (ja) 2012-12-21 2014-07-03 Kubota Kankyo Service Kk 活性汚泥を利用した有機性排水の処理方法
CN103793604A (zh) 2014-01-25 2014-05-14 华南理工大学 一种基于相关向量机的污水处理软测量方法

Also Published As

Publication number Publication date
JP6501593B2 (ja) 2019-04-17
JP2016195974A (ja) 2016-11-24
CN107531528B (zh) 2020-12-29
US11225680B2 (en) 2022-01-18
TW201702186A (zh) 2017-01-16
WO2016159154A1 (ja) 2016-10-06
US20180105858A1 (en) 2018-04-19
CN107531528A (zh) 2018-01-02
TWI715564B (zh) 2021-01-11

Similar Documents

Publication Publication Date Title
KR20170132329A (ko) 예측 룰 생성 시스템, 예측 시스템, 예측 룰 생성 방법 및 예측 방법
Prosser Molecular and functional diversity in soil micro-organisms
Wang et al. Detailed comparison of bacterial communities during seasonal sludge bulking in a municipal wastewater treatment plant
Miller et al. Metabarcoding of fungal communities associated with bark beetles
Pala-Ozkok et al. Characteristics of mixed microbial culture at different sludge ages: effect on variable kinetics for substrate utilization
Piterina et al. Use of PCR‐DGGE based molecular methods to analyse microbial community diversity and stability during the thermophilic stages of an ATAD wastewater sludge treatment process as an aid to performance monitoring
Jordan et al. Past, present, and future of DNA typing for analyzing human and non-human forensic samples
Gilbride et al. Effect of chemical and physical parameters on a pulp mill biotreatment bacterial community
JP2015204813A (ja) 微生物の16SrRNA遺伝子定量用内部標準遺伝子
Feye et al. Poultry processing and the application of microbiome mapping
Saghaï et al. Diversity of archaea and niche preferences among putative ammonia‐oxidizing Nitrososphaeria dominating across European arable soils
CN104232766A (zh) 一种检测废水系统中氨氧化菌群落结构和丰度的方法
KR102537092B1 (ko) 인공신경망 모델을 이용한 토양 오염원 예측 방법
KR20170134624A (ko) 미생물총 해석 시스템, 판정 시스템, 미생물총 해석 방법 및 판정 방법
KR20230039090A (ko) 머신러닝 모델을 이용한 하폐수처리공정 안정성 평가 방법 및 시스템
Santillan et al. Microbiome assembly predictably shapes diversity across a range of disturbance frequencies
Gajos Analysis of the determinants of Pol II pausing
Lajoie et al. The activated sludge biomolecular database
Sahoo et al. Application of Omics Tools for Microbial Community Structure and Function Analysis
Ye et al. Machine learning aided analyses of thousands of draft genomes reveal plant-and environment-specific features of activated sludge process
Santillan et al. Press xenobiotic disturbance favors deterministic assembly with a shift in function and structure of bacterial communities in sludge bioreactors
Cotto Characterization of Comammox Bacteria in Wastewater Secondary Treatment Systems
Wibowo Modeling microbial diversity across different soil ecosystems and environmental covariate selections in tropical SE Asian landscape
JP2021146229A (ja) 排水の生物処理方法
JP2021132618A (ja) 微生物解析用の内部標準核酸断片及びその利用

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E90F Notification of reason for final refusal
AMND Amendment
E601 Decision to refuse application
E801 Decision on dismissal of amendment
X091 Application refused [patent]
AMND Amendment
X601 Decision of rejection after re-examination