KR102537092B1 - Soil Pollution Source Prediction Method using Artificial Neural Network Model - Google Patents

Soil Pollution Source Prediction Method using Artificial Neural Network Model Download PDF

Info

Publication number
KR102537092B1
KR102537092B1 KR1020200091768A KR20200091768A KR102537092B1 KR 102537092 B1 KR102537092 B1 KR 102537092B1 KR 1020200091768 A KR1020200091768 A KR 1020200091768A KR 20200091768 A KR20200091768 A KR 20200091768A KR 102537092 B1 KR102537092 B1 KR 102537092B1
Authority
KR
South Korea
Prior art keywords
soil
dna
soil sample
contamination
neural network
Prior art date
Application number
KR1020200091768A
Other languages
Korean (ko)
Other versions
KR20220012683A (en
Inventor
배효관
오정은
티 민 응우옌
Original Assignee
부산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 부산대학교 산학협력단 filed Critical 부산대학교 산학협력단
Priority to KR1020200091768A priority Critical patent/KR102537092B1/en
Publication of KR20220012683A publication Critical patent/KR20220012683A/en
Application granted granted Critical
Publication of KR102537092B1 publication Critical patent/KR102537092B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • C12Q1/683Hybridisation assays for detection of mutation or polymorphism involving restriction enzymes, e.g. restriction fragment length polymorphism [RFLP]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/689Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/10Analysis or design of chemical reactions, syntheses or processes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C60/00Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Software Systems (AREA)
  • Wood Science & Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Zoology (AREA)
  • Molecular Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Genetics & Genomics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Immunology (AREA)
  • Mathematical Physics (AREA)
  • Biotechnology (AREA)
  • Biochemistry (AREA)
  • Medical Informatics (AREA)
  • Microbiology (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 인공신경망 모델을 이용하여 토양 오염원을 예측하는 방법 또는 상기 예측 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체에 관한 것이다. 본 발명의 토양 오염원 예측 방법 및 이를 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체를 이용하면, 오염된 토양의 오염원인을 쉽고, 경제적이며, 빠르게 분석이 가능하여 환경법의학 분야에서 널리 응용될 수 있다.The present invention relates to a method of predicting a soil pollutant using an artificial neural network model or a computer readable recording medium storing a computer program for executing the prediction method. Using the soil contamination source prediction method of the present invention and a computer readable recording medium recording a computer program for executing the method, it is possible to analyze the contamination cause of contaminated soil easily, economically, and quickly, which will be widely applied in the field of environmental forensic science. can

Description

인공신경망 모델을 이용한 토양 오염원 예측 방법 {Soil Pollution Source Prediction Method using Artificial Neural Network Model}Soil Pollution Source Prediction Method using Artificial Neural Network Model}

본 발명은 인공신경망 모델을 이용하여 토양 오염원을 예측하는 방법 또는 상기 예측 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체에 관한 것이다.The present invention relates to a method of predicting a soil pollutant using an artificial neural network model or a computer readable recording medium storing a computer program for executing the prediction method.

산업에서 널리 사용되는 유해 화학 물질은 누출 사고가 발생할 경우 환경 파괴의 잠재적 위험을 유발한다. 화학 물질 누출 사고의 유해한 영향은 산업 현장과 주거 지역이 명확하게 구분되지 않은 경우 산업 노동자, 주변 지역 사회 및 자연 환경에 영향을 줄 수 있다. 예를 들어, 2012 년에는 구미의 Hube Global 화학 공장에서 약 8 톤의 고독성 불화수소가 인근 지역으로 누출되었다. 이 사건은 노동자의 사망과 자연 환경의 악화를 초래하였다. 그 외에도 염산, 질산 등의 산은 한국의 전자 장치 제조에서 에칭 및 양극 산화 처리와 같은 화학 처리에 일반적으로 사용된다.Hazardous chemicals widely used in industry pose a potential risk of environmental damage in the event of an accidental release. Harmful effects of accidental chemical spills can affect industrial workers, surrounding communities and the natural environment where industrial and residential areas are not clearly separated. For example, in 2012, approximately 8 tonnes of highly toxic hydrogen fluoride leaked from the Hube Global chemical plant in Gumi into the surrounding area. This incident resulted in the death of workers and the deterioration of the natural environment. In addition, acids such as hydrochloric acid and nitric acid are commonly used for chemical treatments such as etching and anodizing in electronic device manufacturing in Korea.

화학사고의 원인을 밝히기 위해, 물질이 확산되거나 분해되기 전에 검사가 신속하게 이루어져야 한다. 오염원이 식별되면, 목표 물질을 제거하기 위한 방제대책을 정확하게 새우고 효율적으로 시행할 수 있다. 이를 위해, 오염 원인을 추적하기 위한 환경 법의학 기술의 개발이 필요하다.To determine the cause of a chemical accident, testing must be done quickly before the substance can diffuse or decompose. Once the contaminant source is identified, control measures to remove the target material can be precisely formulated and efficiently implemented. To this end, it is necessary to develop environmental forensic technology to track the source of contamination.

환경 법의학 기술은 원인물질과 생분해 혹은 화학적 반응에 의해 생성된 중간체를 분석하는 기술이다. 크로마토그래피, 질량 분석 및 안정 동위 원소 기법의 조합을 분석에 사용할 수 있다. 분석법에 따라 고가의 장비 구입, 방사성 물질의 위험, 인적자원의 숙련, 노동 집약적 분석 등으로 인해 물질분석이 제한될 수 있다. 그리고 증발, 광반응, 강우에 의한 세척, 흡착, 생분해, 풍화 과정 등의 결과로 원인 물질 혹은 중간체가 소실될 수 있다. 그리고 질량이 과다하게 낮은 물질로 분해되면 원인물질의 특성을 대부분 잃어버리기 때문에 원인물질을 특정할 수 없다. 그리고 환경에서 일어나는 다양한 반응들은 시간과 장소에 따라 다르기 때문에 중간체에 대한 분석이 복잡하고 불확실성이 높다.Environmental forensic technology is a technology that analyzes causative substances and intermediates produced by biodegradation or chemical reactions. A combination of chromatography, mass spectrometry and stable isotope techniques can be used for analysis. Depending on the analysis method, material analysis may be limited due to the purchase of expensive equipment, the risk of radioactive materials, the skill of human resources, and labor-intensive analysis. In addition, causative substances or intermediates may be lost as a result of evaporation, photoreaction, washing by rainfall, adsorption, biodegradation, and weathering. In addition, if the substance is decomposed into a substance with excessively low mass, most of the characteristics of the causative substance are lost, so the causative substance cannot be identified. In addition, because various reactions occurring in the environment vary according to time and place, the analysis of intermediates is complicated and uncertain.

산/염기 누출 사고가 발생하면 토양의 산도가 급격히 변하고, 자연 생태와 인간에게 위해를 끼칠 수 있다. 불행하게도, 산/염기는 물이 있는 환경에서 빠르게 해리되어 양이온과 음이온으로 전환되고 강우나 지표수, 세척과정에서 발생된 물에 의해 오염을 쉽게 벗어난다. 그리고 불화수소 같은 경우 빠른 반응성 및 낮은 비점으로 인해 복잡한 분석절차가 필요하다.When an acid/base leakage accident occurs, the acidity of the soil changes rapidly, and it can cause harm to the natural ecology and humans. Unfortunately, acids/bases dissociate quickly in a watery environment and are converted into cations and anions, and are easily freed from contamination by rainwater, surface water, and water generated during washing. In the case of hydrogen fluoride, complicated analysis procedures are required due to its fast reactivity and low boiling point.

박테리아 다양성은 중성 시료에서 높고 산성/염기성 시료에서 낮은 상관관계를 가진다. 이는 산도가 극도로 낮거나 높은 조건에서는 자생하는 미생물의 종류가 한정되기 때문이다. 토양 pH는 박테리아 커뮤니티를 구성하는데 중요한 요소다. 박테리아 성장에 가장 적합한 pH 범위는 5.5-9.0 이다. 그러나 예외의 경우도 있는데, 호산성 미생물은 약 pH 3.0에서 최적으로 자라고, 호알칼리성 미생물은 pH 8~10.5 사이에서 최적으로 자란다. 각 미생물 마다 최적의 pH가 있는데, 적절하지 않은 pH 환경에서는 박테리아 세포의 성장을 지지하는 효소 활성이 방해 받는다.Bacterial diversity is high in neutral samples and low in acidic/basic samples. This is because the types of microorganisms that naturally grow are limited under conditions of extremely low or high acidity. Soil pH is an important factor in organizing the bacterial community. The pH range most suitable for bacterial growth is 5.5-9.0. However, there are exceptions: acidophilic microorganisms grow optimally at about pH 3.0, and alkalophilic microorganisms grow optimally between pH 8 and 10.5. Each microbe has an optimal pH, but in an unsuitable pH environment, the activity of enzymes that support the growth of bacterial cells is hindered.

인공 신경망은 인간 두뇌의 정보 분석 활동과 유사한 정보 처리 기술 방법이다. 네트워크 구조에는 입력, 숨김 및 출력 레이어가 포함된다. 뉴런은 숨겨진 층으로 구성된다. 입력 레이어의 지정된 정보는 숨겨진 레이어로 전달된다. Khan 등 (Khan et al, 2019)은 Mycobacterium tuberculosis 감염에 대해 양성 또는 음성을 예측을 94 % 이상의 정확도에서 예측하였다. Nikkonen 등(Nikkonen et al., 2019)은 폐쇄성 수면 무호흡 상태를 교정하기 위해 환자를 분류하는데 90 % 이상의 정확도를 달성한 바 있다.An artificial neural network is an information processing technology method similar to the information analysis activity of the human brain. The network structure includes input, hidden and output layers. Neurons are made up of hidden layers. The specified information of the input layer is passed to the hidden layer. Khan et al (2019) predicted positive or negative Mycobacterium tuberculosis infection with over 94% accuracy. Nikkonen et al. (2019) achieved greater than 90% accuracy in classifying patients for correcting obstructive sleep apnea conditions.

따라서, 박테리아 다양성과 인공 신경망 기술을 이용하여, 산/염기 유출사고 발생시 토양 오염원을 정확하고, 경제적이며, 신속하게 예측할 수 있는 방법이 요구되고 있는 실정이다. Therefore, there is a demand for a method for accurately, economically, and quickly predicting soil contamination sources in the event of an acid/base spill accident using bacterial diversity and artificial neural network technology.

이에 본 발명자들은 박테리아 다양성과 인공신경망을 결합하여 토양 오염원을 예측하는 방법에 대해 연구하던 중 토양 샘플 내 미생물 DNA를 메타게놈 분석 또는 T-RFLP 분석을 시행하고, 이의 데이터를 이용하여 인공신경망 학습을 시키면 토양 오염원을 예측하는 것이 가능하다는 것을 확인하여 본 발명을 완성하였다.Accordingly, the present inventors performed metagenome analysis or T-RFLP analysis on microbial DNA in soil samples while studying a method for predicting soil pollutants by combining bacterial diversity and artificial neural networks, and using the data to learn artificial neural networks. The present invention was completed by confirming that it is possible to predict soil contamination sources.

따라서, 본 발명의 목적은 토양 샘플 내 미생물 DNA 정보를 인공신경망 모델에 학습시켜, 토양 오염원을 예측하는 방법을 제공하는 것이다.Accordingly, an object of the present invention is to provide a method for predicting a soil pollutant by learning microbial DNA information in a soil sample through an artificial neural network model.

상기 목적을 달성하기 위하여, 본 발명은 (1) 토양 오염 원인 정보가 있는 토양 샘플을 수집하는 단계; (2) 상기 토양 샘플로부터 DNA를 추출하는 단계; (3) 상기 추출한 DNA를 프라이머를 사용하여 PCR 증폭하고, PCR 산물을 T-RFLP 분석하여, T-RF 피크 데이터를 도출하는 단계; (4) 상기 (3) 단계의 토양 오염 원인 정보가 있는 T-RF 피크 데이터로 인공신경망 모델을 훈련시키는 단계; (5) 오염 원인을 모르는 토양으로부터 DNA를 추출하고, 추출한 DNA를 상기 (3) 단계의 프라이머를 사용하여 PCR 증폭하는 단계; (6) 상기 증폭한 PCR 산물을 T-RFLP 분석하여, T-RF 피크 데이터를 도출하는 단계; 및 (7) 상기 (6) 단계의 T-RF 피크 데이터를 입력변수로 하고, 상기 (4) 단계의 인공신경망 모델을 이용하여 토양 오염 원인을 예측하는 단계;를 포함하는, 토양 오염원 예측 방법을 제공한다.In order to achieve the above object, the present invention includes (1) collecting a soil sample having soil contamination cause information; (2) extracting DNA from the soil sample; (3) PCR amplification of the extracted DNA using primers, and T-RFLP analysis of the PCR product to derive T-RF peak data; (4) training an artificial neural network model with T-RF peak data having soil contamination cause information in step (3); (5) extracting DNA from soil of unknown contamination, and PCR amplifying the extracted DNA using the primers of step (3); (6) T-RFLP analysis of the amplified PCR product to derive T-RF peak data; And (7) using the T-RF peak data of step (6) as an input variable and predicting the cause of soil contamination using the artificial neural network model of step (4); to provide.

또한, 본 발명은 (1) 토양 오염 원인 정보가 있는 토양 샘플을 수집하는 단계; (2) 상기 토양 샘플로부터 DNA를 추출하는 단계; (3) 상기 추출한 DNA를 메타게놈 분석하고, 토양 내 존재하는 미생물의 조작분류단위(operational taxonomic unit)를 선정하는 단계; (4) 상기 (3)단계에서 선정한 조작분류단위를 이용하여, 토양 샘플 내 미생물 군집의 상대우점도 데이터를 산출하는 단계; (5) 상기 (4) 단계의 상대우점도 데이터로 인공신경망 모델을 훈련시키는 단계; (6) 오염 원인을 모르는 토양으로부터 DNA를 추출하여 메타게놈 분석하고, 상기 (3)단계에서 선정한 조작분류단위를 이용하여, 토양 샘플 내 상대우점도 데이터를 산출하는 단계; 및 (7) 상기 (6) 단계의 토양 샘플 내 상대우점도 데이터를 입력변수로 하고, 상기 (5) 단계의 인공신경망 모델을 이용하여 토양 오염 원인을 예측하는 단계;를 포함하는, 토양 오염원 예측 방법을 제공한다.In addition, the present invention comprises the steps of (1) collecting a soil sample having soil contamination cause information; (2) extracting DNA from the soil sample; (3) performing metagenome analysis on the extracted DNA and selecting operational taxonomic units of microorganisms present in the soil; (4) calculating relative dominance data of the microbial community in the soil sample using the operational classification unit selected in step (3); (5) training an artificial neural network model with the relative dominance data of step (4); (6) extracting DNA from soil of unknown contamination, performing metagenome analysis, and calculating relative dominance data in the soil sample using the operational taxonomic unit selected in step (3); And (7) using the relative dominance data in the soil sample in step (6) as an input variable and predicting the cause of soil contamination using the artificial neural network model in step (5); provides

또한, 본 발명은 상기 토양 오염원 예측방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체를 제공한다.In addition, the present invention provides a computer readable recording medium recording a computer program for executing the soil pollutant source prediction method.

본 발명의 토양 오염원 예측 방법 및 이를 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체를 이용하면, 오염된 토양의 오염원인을 쉽고, 경제적이며, 빠르게 분석이 가능하여 환경법의학 분야에서 널리 응용될 수 있다.Using the soil contamination source prediction method of the present invention and a computer readable recording medium recording a computer program for executing the method, it is possible to analyze the contamination cause of contaminated soil easily, economically, and quickly, which will be widely applied in the field of environmental forensic science. can

도 1은 토양 샘플이 담긴 토양 컬럼을 나타낸 도이다.
도 2는 산, 염기 누출 후 시간 경과에 따른 토양의 pH를 나타낸 도이다.
도 3은 산, 염기 누출 후 시간 경과에 따른 토양 컬럼 유출수의 pH를 나타낸 도이다.
도 4는 실험 개시 시점(0일)에 산, 염기 오염에 따른 토양 위치 별 pH 변화를 나타낸 도이다.
도 5는 실험 개시 시 후 23일에 산, 염기 오염에 따른 토양 위치 별 pH 변화를 나타낸 도이다.
도 6은 토양 샘플에 전처리 단계 없이 DNA를 추출하였을 때, DNA의 수율 및 품질을 나타낸 도이다.
도 7은 0.4 M 염화알루미늄 처리양에 따른 상등수 색도 변화를 나타낸 도이다.
도 8은 산성 토양 샘플에 염화 알루미늄 전처리시 DNA 수율 및 품질 변화를 나타낸 도이다.
도 9는 16S rRNA 기반 메타게놈 분석 결과를 주요 성분 분석 도표를 통해 시각화한 것을 나타낸 도이다.
도 10은 16S rRNA 기반 메타게놈 분석 결과를 계층적 군집화(hierarchical dendrogram)하여 그룹화한 것을 나타낸 도이다.
도 11은 산, 염기 처리 특성에 따른 미생물 군집구조를 확인하여 도출한 상대 우점도 데이터 결과를 나타낸 도이다.
도 12는 OTU 선정을 위한 상동성 및 우점도 분석 기준 별 인공신경망 모델의 예측률(Accuracy %)을 나타낸 도이다.
도 13은 지표미생물이 적용된 종 수준 상대 우점도 데이터를 바탕으로 훈련시킨 인공신경망 모델의 예측률을 나타낸 도이다.
도 14는 토양 샘플 간 T-RF 피크 패턴을 RStudio(Boston, MA, USA)를 사용하여 주요 성분 분석(Principal component analysis)한 결과를 나타낸 도이다.
도 15는 토양 샘플 간 T-RF 피크 패턴을 RStudio(Boston, MA, USA)를 사용하여 계층적 군집화(hierarchical dendrogram)한 결과를 나타낸 도이다.
도 16은 지표미생물 결과를 T-RF 피크 데이터에 적용한 데이터를 이용하여 인공신경망을 훈련시키고, 예측률을 평가한 결과를 나타낸 도이다.
1 is a diagram showing a soil column containing a soil sample.
Figure 2 is a diagram showing the pH of the soil over time after acid and base leakage.
3 is a diagram showing the pH of soil column effluent over time after acid and base leakage.
Figure 4 is a diagram showing the change in pH by soil location according to acid and base contamination at the start of the experiment (day 0).
5 is a diagram showing the pH change by soil location according to acid and base contamination on the 23rd day after the start of the experiment.
6 is a diagram showing the yield and quality of DNA when DNA was extracted from a soil sample without a pretreatment step.
7 is a diagram showing the change in chromaticity of the supernatant according to the amount of 0.4 M aluminum chloride treatment.
8 is a diagram showing changes in DNA yield and quality when acidic soil samples are pretreated with aluminum chloride.
9 is a diagram showing the visualization of the 16S rRNA-based metagenome analysis results through the main component analysis chart.
10 is a diagram showing grouping by hierarchical dendrogram of 16S rRNA-based metagenome analysis results.
11 is a diagram showing the results of relative dominance data derived by confirming the microbial community structure according to acid and base treatment characteristics.
12 is a diagram showing the prediction rate (Accuracy %) of the artificial neural network model for each homology and dominance analysis criterion for OTU selection.
13 is a diagram showing the prediction rate of an artificial neural network model trained based on species-level relative dominance data to which indicator microorganisms are applied.
14 is a diagram showing the results of principal component analysis of T-RF peak patterns between soil samples using RStudio (Boston, MA, USA).
15 is a diagram showing the results of hierarchical clustering (hierarchical dendrogram) of T-RF peak patterns between soil samples using RStudio (Boston, MA, USA).
16 is a diagram showing the results of training an artificial neural network using data obtained by applying the indicator microorganism results to T-RF peak data and evaluating the prediction rate.

본 발명은 (1) 토양 오염 원인 정보가 있는 토양 샘플을 수집하는 단계; (2) 상기 토양 샘플로부터 DNA를 추출하는 단계; (3) 상기 추출한 DNA를 프라이머를 사용하여 PCR 증폭하고, PCR 산물을 T-RFLP 분석하여, T-RF 피크 데이터를 도출하는 단계; (4) 상기 (3) 단계의 토양 오염 원인 정보가 있는 T-RF 피크 데이터로 인공신경망 모델을 훈련시키는 단계; (5) 오염 원인을 모르는 토양으로부터 DNA를 추출하고, 추출한 DNA를 상기 (3) 단계의 프라이머를 사용하여 PCR 증폭하는 단계; (6) 상기 증폭한 PCR 산물을 T-RFLP 분석하여, T-RF 피크 데이터를 도출하는 단계; 및 (7) 상기 (6) 단계의 T-RF 피크 데이터를 입력변수로 하고, 상기 (4) 단계의 인공신경망 모델을 이용하여 토양 오염 원인을 예측하는 단계;를 포함하는, 토양 오염원 예측 방법을 제공한다.The present invention comprises the steps of (1) collecting a soil sample having soil contamination cause information; (2) extracting DNA from the soil sample; (3) PCR amplification of the extracted DNA using primers, and T-RFLP analysis of the PCR product to derive T-RF peak data; (4) training an artificial neural network model with T-RF peak data having soil contamination cause information in step (3); (5) extracting DNA from soil of unknown contamination, and PCR amplifying the extracted DNA using the primers of step (3); (6) T-RFLP analysis of the amplified PCR product to derive T-RF peak data; And (7) using the T-RF peak data of step (6) as an input variable and predicting the cause of soil contamination using the artificial neural network model of step (4); to provide.

본 발명에 있어서, 상기 T-RFLP(Terminal Restriction Fragment Length Polymorphism)는 환경 DNA시료에서 16S rRNA(박테리아)나 18S rRNA(곰팡이) 유전자 정보를 PCR(polymerase chain reaction)로 증폭하여 확보한 후 제한 효소 소화(restriction enzyme digestion)를 통해서 해당 미생물군집의 지문정보(fingerprint)를 획득하는 방법이다. T-RFLP는 환경시료로부터 PCR을 통해 증폭된 미생물 DNA 염기서열의 차이를 빠르게 비교할 수 있으며 많은 양의 시료를 한번에 분석할 수 있는 장점이 있다(Dunbar 등, 2001). 하지만 종에 대한 정확한 정보를 알 수 없고, 종 다양성 분석 시 해상도(resolution)가 다소 떨어지는 단점이 있다.In the present invention, the T-RFLP (Terminal Restriction Fragment Length Polymorphism) is obtained by amplifying and securing 16S rRNA (bacteria) or 18S rRNA (fungus) gene information from an environmental DNA sample by polymerase chain reaction (PCR), followed by restriction enzyme digestion It is a method of obtaining fingerprint information of the microbial community through restriction enzyme digestion. T-RFLP can quickly compare differences in microbial DNA sequences amplified by PCR from environmental samples and has the advantage of being able to analyze a large amount of samples at once (Dunbar et al., 2001). However, there are disadvantages in that accurate information about species cannot be known, and resolution is somewhat low when analyzing species diversity.

본 발명에 있어서, 상기 (2) 단계의 DNA를 추출하는 단계는, 토양 샘플에서 DNA 추출 방해 물질을 제거하는 전처리 단계를 더 포함할 수 있으며, 상기 토양 샘플에서 DNA 추출 방해 물질을 제거하는 전처리 단계는 토양 오염 원인이 산성인 경우, 토양 샘플에 염화 알루미늄(AlCl3)을 전처리 하는 단계일 수 있으며, 바람직하게는 토양 샘플 1g당 0.2 내지 0. 6 M 염화 알루미늄(AlCl3) 466.7 내지 866.7μL를 전처리 하는 단계일 수 있고, 가장 바람직하게는 토양 샘플 1g당 0. 4 M 염화 알루미늄(AlCl3) 666.7μL를 전처리 하는 단계일 수 있다. 산성 토양 샘플에 상기 전처리 하는 단계를 더 포함하여 DNA 추출시 DNA의 품질이 향상되어 PCR에 적합한 DNA의 추출이 가능한 것일 수 있다.In the present invention, the step of extracting DNA in step (2) may further include a pretreatment step of removing substances that interfere with DNA extraction from the soil sample, and a pretreatment step of removing substances that interfere with DNA extraction from the soil sample. When the cause of soil contamination is acidic, it may be a step of pre-treating the soil sample with aluminum chloride (AlCl 3 ), preferably 0.2 to 0.6 M aluminum chloride (AlCl 3 ) 466.7 to 866.7 μL per 1 g of the soil sample. It may be a pre-treatment step, and most preferably, it may be a step of pre-treating 666.7 μL of 0.4 M aluminum chloride (AlCl 3 ) per 1 g of soil sample. By further including the step of pre-treating the acidic soil sample, the quality of the DNA is improved during DNA extraction, so that DNA suitable for PCR can be extracted.

본 발명에 있어서 '프라이머'는 적절한 완충용액 중의 적절한 조건(예를 들면, 4개의 다른 뉴클레오시드 트리포스페이트 및 DNA, RNA 폴리머라제 또는 역전사 효소와 같은 중합제) 및 적당한 온도 하에서 주형-지시 DNA 합성의 시작점으로서 작용할 수 있는 단일가닥 올리고뉴클레오티드를 말한다. 상기 프라이머의 적절한 길이는 사용 목적에 따라 달라질 수 있으나, 통상 15 내지 30 뉴클레오티드이며, 바람직하게는 15 내지 25 뉴클레오티드이나, 이에 제한되는 것은 아니다. In the present invention, 'primer' refers to template-directed DNA synthesis under suitable conditions (eg, four different nucleoside triphosphates and a polymerizing agent such as DNA, RNA polymerase or reverse transcriptase) in an appropriate buffer solution and an appropriate temperature. It refers to a single-stranded oligonucleotide that can serve as a starting point for The appropriate length of the primer may vary depending on the purpose of use, but is usually 15 to 30 nucleotides, preferably 15 to 25 nucleotides, but is not limited thereto.

본 발명에 있어서, 상기 (3) 단계의 프라이머는 서열번호 1의 정방향 프라이머 또는 서열번호 2의 역방향 프라이머일 수 있으며, 바람직하게는 서열번호 1의 프라이머일 수 있다. 또한, 상기 (3) 단계의 프라이머는 각 서열번호 1 및 2 중 어느 하나의 염기 서열과 각각 70% 이상, 더욱 바람직하게는 80% 이상, 더더욱 바람직하게는 90% 이상, 가장 바람직하게는 95% 이상의 서열 상동성을 가지는 염기 서열일 수 있다.In the present invention, the primer in step (3) may be a forward primer of SEQ ID NO: 1 or a reverse primer of SEQ ID NO: 2, preferably a primer of SEQ ID NO: 1. In addition, the primers in step (3) are 70% or more, more preferably 80% or more, still more preferably 90% or more, and most preferably 95% of each nucleotide sequence of any one of SEQ ID NOs: 1 and 2. It may be a nucleotide sequence having the above sequence homology.

본 발명에 있어서, 상기 (3) 단계의 PCR 증폭은 토양 내 미생물의 16s rRNA 유전자를 증폭하는 것 일 수 있다.In the present invention, the PCR amplification in step (3) may be to amplify the 16s rRNA gene of microorganisms in the soil.

본 발명에 있어서, 상기 (4) 단계의 인공신경망 모델을 훈련시키는 단계는 은닉층 뉴런을 1 내지 151의 범위로 하는 단계일 수 있으며, 바람직하게 (3) 단계의 프라이머를 서열번호 1의 정방향 프라이머로하고, (4) 단계의 인공신경망 모델을 훈련시키는 단계의 은닉층 뉴런을 143으로 하는 경우, 토양 오염원을 78.8%의 높은 확률로 예측할 수 있는 것일 수 있다. In the present invention, the step of training the artificial neural network model in step (4) may be a step of setting the number of hidden layer neurons in the range of 1 to 151, and preferably, the primer of step (3) is a forward primer of SEQ ID NO: 1 And, if the hidden layer neurons in the step of training the artificial neural network model in step (4) are 143, the soil pollutant may be predicted with a high probability of 78.8%.

본 발명에 있어서, 상기 토양 오염원은 토양에 변화를 일으키는 물질이면 제한없이 포함되는 것일 수 있으며, 바람직하게는 무(無)오염, 암모니아, 염산, 황산, 불화수소 및 질산으로 이루어진 군에서 선택된 어느 하나일 수 있다. In the present invention, the soil contaminant may be included without limitation as long as it is a substance that causes change in soil, preferably any one selected from the group consisting of no pollution, ammonia, hydrochloric acid, sulfuric acid, hydrogen fluoride and nitric acid. can be

또한, 본 발명은 (1) 토양 오염 원인 정보가 있는 토양 샘플을 수집하는 단계; (2) 상기 토양 샘플로부터 DNA를 추출하는 단계; (3) 상기 추출한 DNA를 메타게놈 분석하고, 토양 내 존재하는 미생물의 조작분류단위(operational taxonomic unit)를 선정하는 단계; (4) 상기 (3)단계에서 선정한 조작분류단위를 이용하여, 토양 샘플 내 미생물 군집의 상대우점도 데이터를 산출하는 단계; (5) 상기 (4) 단계의 상대우점도 데이터로 인공신경망 모델을 훈련시키는 단계; (6) 오염 원인을 모르는 토양으로부터 DNA를 추출하여 메타게놈 분석하고, 상기 (3)단계에서 선정한 조작분류단위를 이용하여, 토양 샘플 내 상대우점도 데이터를 산출하는 단계; 및 (7) 상기 (6) 단계의 토양 샘플 내 상대우점도 데이터를 입력변수로 하고, 상기 (5) 단계의 인공신경망 모델을 이용하여 토양 오염 원인을 예측하는 단계;를 포함하는, 토양 오염원 예측 방법을 제공한다.In addition, the present invention comprises the steps of (1) collecting a soil sample having soil contamination cause information; (2) extracting DNA from the soil sample; (3) performing metagenome analysis on the extracted DNA and selecting operational taxonomic units of microorganisms present in the soil; (4) calculating relative dominance data of the microbial community in the soil sample using the operational classification unit selected in step (3); (5) training an artificial neural network model with the relative dominance data of step (4); (6) extracting DNA from soil of unknown contamination, performing metagenome analysis, and calculating relative dominance data in the soil sample using the operational taxonomic unit selected in step (3); And (7) using the relative dominance data in the soil sample in step (6) as an input variable and predicting the cause of soil contamination using the artificial neural network model in step (5); provides

본 발명에서 사용되는 용어, "메타게놈(metagenome)"이란 "군유전체"라고도 하며, 흙, 동물의 장 등 고립된 지역 내의 모든 바이러스, 세균, 곰팡이 등을 포함하는 유전체의 총합을 의미하는 것으로, 주로 배양이 되지 않는 미생물을 분석하기 위해서 서열분석기를 사용하여 한꺼번에 많은 미생물을 동정하는 것을 설명하는 유전체의 개념으로 쓰인다. 특히, 메타게놈은 한 종의 게놈 또는 유전체를 말하는 것이 아니라, 한 환경단위의 모든 종의 유전체로서 일종의 혼합유전체를 말한다. 이는 오믹스적으로 생물학이 발전하는 과정에서 한 종을 정의할 때 기능적으로 기존의 한 종뿐만 아니라, 다양한 종이 서로 상호작용하여 완전한 종을 만든다는 관점에서 나온 용어이다. 기술적으로는 빠른 서열분석법을 이용해서, 종에 관계없이 모든 DNA, RNA를 분석하여, 한 환경 내에서의 모든 종을 동정하고, 상호작용, 대사작용을 규명하는 기법의 대상이다. 본 발명에서는 바람직하게 토양 내 존재하는 미생물의 DNA를 이용하여 메타게놈 분석을 실시하였다.As used in the present invention, the term "metagenome" is also referred to as "group genome" and refers to the sum of genomes including all viruses, bacteria, fungi, etc. in an isolated area such as soil or animal intestine, It is used as a concept of genome to explain the identification of many microorganisms at once using a sequencer to analyze microorganisms that cannot be cultured. In particular, the metagenome does not refer to the genome or genome of one species, but to a kind of mixed genome as the genome of all species in one environmental unit. This is a term derived from the viewpoint that when defining a species in the process of biological development omically, not only one functionally existing species, but also various species interact with each other to create a complete species. Technically, it is the subject of a technique that uses rapid sequencing to analyze all DNA and RNA regardless of species, identify all species in an environment, and identify interactions and metabolism. In the present invention, metagenome analysis was preferably performed using DNA of microorganisms present in soil.

본 발명에 있어서, 상기 (2) 단계의 DNA를 추출하는 단계는, 토양 오염 원인이 산성인 경우, 토양 샘플에 염화 알루미늄(AlCl3)을 전처리 하는 단계를 더 포함하는 것일 수 있으며, 바람직하게는 토양 샘플 1g당 0.2 내지 0. 6 M 염화 알루미늄(AlCl3) 466.7 내지 866.7μL를 전처리 하는 단계를 더 포함하는 것일 수 있으며, 가장 바람직하게는 토양 샘플 1g당 0. 4 M 염화 알루미늄(AlCl3) 666.7μL를 전처리 하는 단계를 더 포함하는 것일 수 있다. 산성 토양 샘플에 상기 전처리 하는 단계를 더 포함하여 DNA 추출시 DNA의 품질이 향상되어 PCR에 적합한 DNA의 추출이 가능한 것일 수 있다.In the present invention, the step of extracting the DNA in step (2) may further include pre-treating the soil sample with aluminum chloride (AlCl 3 ) when the source of soil contamination is acidic, preferably It may further include pre-treating 466.7 to 866.7 μL of 0.2 to 0.6 M aluminum chloride (AlCl 3 ) per 1 g of soil sample, most preferably 0.4 M aluminum chloride (AlCl 3 ) per 1 g of soil sample. It may further include the step of pre-processing 666.7 μL. By further including the step of pre-treating the acidic soil sample, the quality of the DNA is improved during DNA extraction, so that DNA suitable for PCR can be extracted.

본 발명에 있어서, 상기 (3) 단계의 메타게놈 분석은 추출한 DNA의 일부 또는 전체를 분석하는 것 일 수 있으며, 바람직하게는 미생물 DNA의 16S rRNA 유전자 V3 및/또는 V4 영역을 대상으로 하는 것일 수 있다. In the present invention, the metagenome analysis in step (3) may be to analyze part or all of the extracted DNA, preferably targeting the 16S rRNA gene V3 and / or V4 region of the microbial DNA. there is.

본 발명에 있어서, 상기 (3) 단계의 조작분류단위(operational taxonomic unit)를 선정하는 단계는 토양 샘플로부터 추출한 DNA를 메타게놈 분석하여 토양 내 존재하는 여러 미생물의 염기서열을 분석하고, 분석한 여러 미생물의 염기서열을 사용자가 설정한 상동성 수준으로 그룹화하며, 상기 그룹화된 미생물 염기서열 중 개별 그룹 내 임의의 미생물 염기서열을 조작분류단위(operational taxonomic unit)로 선정하는 단계를 의미한다. 바람직하게는, 본 발명에 있어서 상기 조작분류단위를 선정하는 단계는 염기서열 사이의 상동성을 95 내지 100%의 상동성 수준으로하여 선정하는 단계일 수 있다 .In the present invention, the step of selecting an operational taxonomic unit in step (3) is performed by metagenome analysis of DNA extracted from a soil sample to analyze the nucleotide sequence of various microorganisms present in the soil, and several analyzed Grouping microbial nucleotide sequences at a level of homology set by a user, and selecting an arbitrary microbial nucleotide sequence in an individual group among the grouped microbial sequences as an operational taxonomic unit. Preferably, in the present invention, the step of selecting the operational taxonomic unit may be a step of selecting the homology between nucleotide sequences at a homology level of 95 to 100%.

본 발명에 있어서, 상기 (4) 단계의 미생물 군집의 상대우점도 데이터는 계(Kingdom), 문(Phylum), 강(Class), 목(Order), 과(Family), 속(Genus) 또는 종(Species)을 기준으로 산출하는 것 일 수 있으며, 바람직하게는 과(Family), 속(Genus) 또는 종(Species)을 기준으로 산출하는 것일 수 있다.In the present invention, the relative dominance data of the microbial community in step (4) is Kingdom, Phylum, Class, Order, Family, Genus or Species ( It may be calculated based on Species, and preferably it may be calculated based on Family, Genus, or Species.

본 발명에 있어서, 상기 (3) 단계는 99%의 상동성 수준으로 조작분류단위를 선정하고, 상기 (4) 단계의 미생물 군집의 상대우점도 데이터는 종(species)을 기준으로 산출하는 것일 수 있으며, 이 경우, 토양 오염원을 80.8%의 높은 확률로 예측할 수 있는 것일 수 있다. In the present invention, the step (3) selects an operational taxonomic unit with a homology level of 99%, and the relative dominance data of the microbial community in the step (4) may be calculated based on species, , in this case, the soil contamination source may be predicted with a high probability of 80.8%.

본 발명에 있어서, 상기 미생물 군집의 상대우점도 데이터는 오염원 특이적인 지표 미생물의 상대우점도 데이터일 수 있으며, 바람직하게 상기 지표 미생물은 오염원이 없는 토양인 경우 Angustibacter luteus, Runella slithyformis, Cystobacter velatus, Geodermatophilus daqingensis, Pseudonocardia soli, Aquabacterium commune Skermanella rubra으로 이루어진 군에서 선택된 어느 하나 이상이고, 오염원이 암모니아인 경우 Nitrosospira tenuis, Flavihumibacter sediminis, Flavobacterium saliperosum, Brevundimonas naejangsanensis, Actinotalea ferrariae, Nocardioides caricicola, Chryseobacterium montanum, Flavobacterium dankookense Pedobacter bauzanensis으로 이루어진 군에서 선택된 어느 하나 이상이고, 오염원이 염산인 경우 Mucilaginibacter polysacchareus, Dyella japonica, Actinocorallia aurantiaca, Pedobacter kyungheensi, Flavobacterium resistens, Pedobacter cryoconitis Flavobacterium spartansii으로 이루어진 군에서 선택된 어느 하나 이상이고, 오염원이 질산인 경우 Methylophilus rhizosphaerae, Pseudomonas silesiensis, Ralstonia pickettii Cupriavidus campinensis으로 이루어진 군에서 선택된 어느 하나 이상이고, 오염원이 불화수소인 경우 Bacillus marisflavi, Paenibacillus aceris, Paraburkholderia hospital, Halobacillus profundi, Clostridium puniceum, Bacillus plakortidis, Bacillus aryabhattai, Paenibacillus populi, Rhodanobacter xiangquanii Bordetella flabilis으로 이루어진 군에서 선택된 어느 하나 이상이고, 오염원이 황산인 경우 Micromonospora noduli, Actinospica acidiphila, Desulfohalotomaculum peckii Tumebacillus ginsengisoli으로 이루어진 군에서 선택된 어느 하나 이상인 것일 수 있다. 미생물 군집의 상대우점도 데이터를 오염원 특이적인 지표 미생물의 상대우점도 데이터로 하는 경우, 잡음 데이터를 줄여주므로 훈련 진행속도를 높이고 예측률을 높일 수 있는 장점이 있다. In the present invention, the relative dominance data of the microbial community may be relative dominance data of a contaminant-specific indicator microorganism, and preferably, the indicator microorganism is Angustibacter luteus, Runella slithyformis, Cystobacter velatus, Geodermatophilus daqingensis, At least one selected from the group consisting of Pseudonocardia soli, Aquabacterium commune , and Skermanella rubra , When the contaminant is ammonia, at least one selected from the group consisting of Nitrosospira tenuis, Flavihumibacter sediminis, Flavobacterium saliperosum, Brevundimonas naejangsanensis, Actinotalea ferrariae, Nocardioides caricicola, Chryseobacterium montanum, Flavobacterium dankookense, and Pedobacter bauzanensis , and when the contaminant is hydrochloric acid , Mucilaginibacter polysacchareus, Dyella japonica, Actinocorallia aurantiaca, Pedobacter kyungheensi, Flavobacterium resistens, Pedobacter cryoconitis, and Flavobacterium spartansii , and at least one selected from the group consisting of, and the contaminant is In the case of nitric acid, at least one selected from the group consisting of Methylophilus rhizosphaerae, Pseudomonas silesiensis, Ralstonia pickettii, and Cupriavidus campinensis , and in the case of hydrogen fluoride, Bacillus marisflavi, Paenibacillus aceris, Paraburkholderia hospital, Halobacillus profundi, Clostridium puniceum, Bacillus plakortidis, Bacillus aryabhattai , Paenibacillus populi, Rhodanobacter xiangquanii, and Bordetella flabilis , and when the contaminant is sulfuric acid, it may be at least one selected from the group consisting of Micromonospora noduli, Actinospica acidiphila, Desulfohalotomaculum peckii, and Tumebacillus ginsengisoli . When the relative dominance data of the microbial community is used as the relative dominance data of the pollutant-specific indicator microorganisms, noise data is reduced, thereby increasing the training progress speed and increasing the prediction rate.

본 발명에 있어서, 상기 (3) 단계는 99%의 상동성 수준으로 조작분류단위를 선정하고, 상기 (4) 단계의 미생물 군집의 상대우점도 데이터는 종(species)을 기준으로 산출하며, 상기 (4) 단계의 미생물 군집의 상대우점도 데이터는 오염원 특이적인 지표 미생물의 상대우점도 데이터로 하며, 상기 (5) 단계의 인공신경망 모델을 훈련시키는 단계는 은닉층 뉴런을 7로 하는 경우, 토양 오염원을 85.0%의 높은 확률로 예측할 수 있는 것일 수 있다. In the present invention, the step (3) selects an operational taxonomic unit with a homology level of 99%, and the relative dominance data of the microbial community in the step (4) is calculated based on species, and the ( The relative dominance data of the microbial community in step 4) is the relative dominance data of the pollutant-specific indicator microorganisms, and in the step of training the artificial neural network model in step (5), when the hidden layer neurons are set to 7, the soil pollutant is 85.0% It may be predictable with a high probability of

또한, 본 발명은 상기 토양 오염원 예측방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체를 제공한다.In addition, the present invention provides a computer readable recording medium recording a computer program for executing the soil pollutant source prediction method.

본 발명에 따른 방법은 하드웨어, 펌웨어, 또는 소프트웨어 또는 이들의 조합으로 구현될 수 있다. 소프트웨어로 구현되는 경우 저장매체는 컴퓨터와 같은 장치에 의해 판독 가능한 형태의 저장 매체를 포함한다. 예를 들면 컴퓨터 판독 가능한 매체는 ROM(read only memory); RAM(random access memory); 자기디스크 저장 매체; 광저장 매체 및 플래쉬 메모리 장치 등을 포함한다.The method according to the present invention may be implemented in hardware, firmware, or software or a combination thereof. When implemented as software, the storage medium includes a storage medium in a form readable by a device such as a computer. For example, a computer readable medium may include read only memory (ROM); random access memory (RAM); magnetic disk storage media; It includes an optical storage medium and a flash memory device.

중복되는 내용은 본 명세서의 복잡성을 고려하여 생략하며, 본 명세서에서 달리 정의되지 않은 용어들은 본 발명이 속하는 기술분야에서 통상적으로 사용되는 의미를 갖는 것이다.Redundant content is omitted in consideration of the complexity of the present specification, and terms not otherwise defined in the present specification have meanings commonly used in the technical field to which the present invention belongs.

이하, 본 발명을 실시예에 의해 상세히 설명한다. 단 하기 실시예는 본 발명을 예시하는 것일 뿐, 본 발명의 내용이 하기 실시예에 의해 한정되는 것은 아니다.Hereinafter, the present invention will be described in detail by examples. However, the following examples are merely illustrative of the present invention, and the content of the present invention is not limited by the following examples.

실시예 1. 산/염기 오염원에 따른 토양 변화 분석Example 1. Analysis of Soil Changes According to Acid/Base Contaminants

1.1 실험실 규모의 산, 염기 노출 토양 컬럼의 준비1.1 Preparation of laboratory-scale acid-alkaline exposed soil columns

35° 14' 38.4" N, 129° 03' 23.4" E 위치에 있는 부산에 위치한 정원에서 농장 토양을 채집하였다. 내경이 5 cm 인 총 6 개의 플라스틱 실린더를 사용하여 21 cm 길이의 토양 컬럼을 준비하였다. 실험 개시 시점(0 일)에 염산(1 N HCl), 질산(1 N HNO3), 불화수소(1 N HF), 황산(1 N H2SO4), 암모니아(0.01 N NH3)를 토양 컬럼에 토양의 부피와 동일하게 투여하였다. 대조군으로 수돗물을 투여하였다. 자연적인 강우 효과를 시뮬레이션하기 위해, 토양과 동일한 부피의 수돗물을 1 일부터 6 일까지 컬럼 상단에 투여하였다. 다음으로, 건조 기간을 적용하였다. 구체적으로, 컬럼을 5 일 동안 건조시킨 후, 수돗물을 6 일째에 첨가하였다. 상기 강우-건조 과정을 2회 반복하였다. 실험 개시 시점(0 일)과 실험 개시 후 23일에 토양 샘플을 상단(T), 중간(M), 바닥(B)의 세 위치에서 수집하였으며, 다른 날에는 컬럼 상단에서만 샘플을 채취하였다. 상기 토양 샘플이 담긴 21 cm 길이의 토양 컬럼을 도 1에 나타내었다.Farm soil was collected from a garden located in Busan at 35° 14' 38.4" N, 129° 03' 23.4" E. A 21 cm long soil column was prepared using a total of 6 plastic cylinders with an inner diameter of 5 cm. At the beginning of the experiment (day 0), hydrochloric acid (1 N HCl), nitric acid (1 N HNO3), hydrogen fluoride (1 N HF), sulfuric acid (1 N H2SO4), and ammonia (0.01 N NH3) were added to the soil column by volume of soil. was administered in the same way as Tap water was administered as a control group. To simulate the effect of natural rainfall, a volume of tap water equal to that of soil was administered at the top of the column from day 1 to day 6. Next, a drying period was applied. Specifically, after drying the column for 5 days, tap water was added on the 6th day. The rain-drying process was repeated twice. Soil samples were collected from three locations: top (T), middle (M), and bottom (B) at the start of the experiment (day 0) and on day 23 after the start of the experiment, and on other days, samples were taken only at the top of the column. A 21 cm long soil column containing the soil sample is shown in FIG. 1 .

1.2 산, 염기 오염 후 기간 별 pH 변화 분석1.2 Analysis of pH change by period after acid and base contamination

실시예 1.1에서 준비한 산, 염기 노출 토양 컬럼을 이용하여, 산, 염기 오염에 따른 기간 별 pH 변화를 분석하였다. 산, 염기 누출 후 시간 경과에 따른 토양의 pH를 도 2에 나타냈으며, 산, 염기 누출 후 시간 경과에 따른 토양 컬럼 유출수의 pH를 도 3에 나타내었다.Using the acid and base exposed soil column prepared in Example 1.1, the pH change according to acid and base contamination was analyzed. The pH of soil over time after acid and base leakage is shown in FIG. 2 , and the pH of soil column effluent over time after acid and base leakage is shown in FIG. 3 .

도 2에 나타낸 바와 같이, 실험 전 토양의 pH는 7.3이었고, 이 값은 컬럼에 산 용액이 도입되었을 때 4.7 미만으로 급격히 감소하였다. 황산 칼럼에서 가장 낮은 토양 pH 값이 확인되었고, 약 1.8이었다. 반응 초기 질산, 염산 및 불화수소 컬럼에서 pH는 각각 약 1.9, 2.0, 2.5의 pH 값이 관찰되었다. 6 일째에 황산, 질산, 염산 4.1, 5.6; 5.7, 6.3 의 pH 값을 보였다. 대조 컬럼 토양의 pH 7.7과 비교하여, 황산 컬럼은 실험이 끝날 때 최저 토양 pH 4.1을 보여, 테스트에 사용된 네 가지 유형의 산 중에서 황산이 토양 pH에 가장 악영향을 미쳤다. 암모니아를 누출시킨 토양은 pH 8.9에서 실험 2일 이후 pH7.5~8.0으로 빠르게 안정화된 것을 확인하였다. As shown in Figure 2, the pH of the soil before the experiment was 7.3, and this value rapidly decreased to less than 4.7 when the acid solution was introduced into the column. The lowest soil pH value was found in the sulfuric acid column and was about 1.8. At the beginning of the reaction, pH values of about 1.9, 2.0, and 2.5 were observed in the nitric acid, hydrochloric acid, and hydrogen fluoride columns, respectively. sulfuric acid, nitric acid, hydrochloric acid 4.1, 5.6 on day 6; It showed pH values of 5.7 and 6.3. Compared to the control column soil's pH of 7.7, the sulfuric acid column showed the lowest soil pH of 4.1 at the end of the experiment, with sulfuric acid having the most adverse effect on soil pH among the four types of acids tested. It was confirmed that the soil leaking ammonia rapidly stabilized from pH 8.9 to pH 7.5-8.0 after 2 days of the experiment.

도 3에 나타낸 바와 같이, 토양 컬럼 유출수의 pH 경향은 토양 pH와 유사한 경향을 나타내었다.As shown in Figure 3, the pH trend of the soil column effluent showed a similar trend to the soil pH.

1.3 산, 염기 오염 토양의 위치 별 pH 변화 분석1.3 Analysis of pH change by location of acid and base contaminated soil

실시예 1.1에서 준비한 산, 염기 노출 토양 컬럼을 이용하여, 산, 염기 오염에 따른 토양 위치 별 pH 변화를 분석하였다. 칼럼 상단의 토양은 산, 염기의 누출의 가장 직접적인 영향을 받으며, 산, 염기가 컬럼의 수직방향으로 하강함에 따라 토양의 pH 완충효과에 의해 pH가 변한다. 실험 개시 시점(0일)에 산, 염기 오염에 따른 토양 위치 별 pH 변화를 도 4에 나타냈으며, 실험 개시 시 후 23일에 산, 염기 오염에 따른 토양 위치 별 pH 변화를 도 5에 나타내었다.Using the acid and base exposed soil column prepared in Example 1.1, the pH change by soil location according to acid and base contamination was analyzed. The soil at the top of the column is most directly affected by the leakage of acids and bases, and the pH changes due to the pH buffering effect of the soil as the acids and bases descend in the vertical direction of the column. The pH change by soil location due to acid and base contamination at the start of the experiment (day 0) is shown in FIG. 4, and the pH change by soil location due to acid and base contamination 23 days after the start of the experiment is shown in FIG. .

도 4에 나타낸 바와 같이, 실험 개시 시점에서 토양 pH는 상단(T) 토양에서 가장 낮고, 중간(M) 토양과 바닥(B) 토양에서 pH가 다소 증가하는 것을 확인하였다.As shown in Figure 4, at the start of the experiment, the soil pH was the lowest in the top (T) soil, and it was confirmed that the pH slightly increased in the middle (M) soil and bottom (B) soil.

도 5에 나타낸 바와 같이, 23일 실험 종료 후, 토양의 pH는 위치에 따른 변화가 거의 나타나지 않았다. 이는 미생물의 중화 활성에 의해 토양 pH 경향이 달라지는 것이 반영된 것이다.As shown in Figure 5, after the end of the experiment on the 23rd, the pH of the soil showed little change depending on the location. This reflects the change in soil pH trend by the neutralizing activity of microorganisms.

실시예 2. 산, 염기 오염원 예측을 위한 토양 내 미생물 DNA 추출 방법 구축Example 2. Establishment of a Method for Extracting Microbial DNA in Soil for Prediction of Acid and Base Contaminants

2.1 오염원에 따른 토양 샘플 준비2.1 Soil sample preparation according to the source of contamination

다양한 산, 염기 오염원에 의해 오염된 토양 샘플 84개를 수집하였다. 수집 직후 토양 샘플의 pH를 측정하였다. DNA 추출을 위해, 토양 샘플은 사용할 때까지 4 ℃ 암실에서 보관하였다. 84 개의 토양 샘플 중 28 개의 토양 샘플이 대조군 및 암모니아 누출 토양으로부터 수집한 샘플에 해당한다. 염산, 질산, 황산, 불화수소 누출 토양 칼럼으로부터 얻어진 토양 샘플은 1.85 내지 6.35의 산성의 pH 값을 가졌다. 토양 샘플 정보를 표 1에 나타내었다.Eighty-four soil samples contaminated by various acid and base contaminants were collected. The pH of the soil samples was measured immediately after collection. For DNA extraction, soil samples were stored in the dark at 4 °C until use. Of the 84 soil samples, 28 soil samples corresponded to samples collected from control and ammonia leaking soils. Soil samples obtained from the hydrochloric acid, nitric acid, sulfuric acid, hydrogen fluoride leaky soil column had acidic pH values ranging from 1.85 to 6.35. Soil sample information is shown in Table 1.

Figure 112020077166306-pat00001
Figure 112020077166306-pat00001

2.2 전처리 단계 없이 추출된 DNA 시료의 수율 및 품질 비교2.2 Comparison of yield and quality of DNA samples extracted without pretreatment

대조군, 암모니아 토양 샘플, 산성 토양 샘플(염산, 질산, 불화수소, 황산)을 별도의 전처리 단계 없이 FastDNA® Spin Kit for Soil (MP Biomedical, USA)를 사용하여 DNA 추출하였다. 절차는 제조업체가 제공한 지침에 따라 수행하였다. 추출한 DNA의 농도(DNA concentration) 및 품질(A260/A280)은 NanoDrop ND-1000 UV-Vis 분광 광도계(NanoDrop, Wilmington, DE, USA)를 사용하여 측정하였으며, 이를 도 6에 나타내었다. Control, ammonia soil samples, and acidic soil samples (hydrochloric acid, nitric acid, hydrogen fluoride, sulfuric acid) were DNA extracted using FastDNA® Spin Kit for Soil (MP Biomedical, USA) without any pretreatment step. The procedure was performed according to the instructions provided by the manufacturer. The DNA concentration and quality (A260/A280) of the extracted DNA were measured using a NanoDrop ND-1000 UV-Vis spectrophotometer (NanoDrop, Wilmington, DE, USA), and are shown in FIG. 6 .

도 6에 나타낸 바와 같이, 별도의 전처리가 없을 때, 산성 토양의 DNA는 0.8 내지 20.9 ng/μL 사이의 낮은 농도를 나타낸 반면, 대조군 및 암모니아 토양 샘플의 DNA는 더 높은 농도(33.4 ng/μL 초과)를 나타내었다. DNA 품질(A260/A280)은 대조군 토양 컬럼 시료에서 가장 안정적이었고, 암모니아 컴럼 토양 시료는 변동 폭이 넓었으나 평균적으로 PCR에 적합한 수준을 나타내었다. 다만, 산성 토양 내 DNA의 품질은 다소 낮은 것으로 확인되어, 산성 토양 내 DNA의 품질을 PCR에 적합한 수준으로 추출, 정제할 방법이 요구되었다.As shown in Figure 6, in the absence of separate pretreatment, DNA from the acidic soil showed low concentrations between 0.8 and 20.9 ng/μL, while DNA from the control and ammonia soil samples showed higher concentrations (>33.4 ng/μL). ) was shown. DNA quality (A260/A280) was the most stable in the control soil column sample, and the ammonia column soil sample showed a wide range of variation, but showed a level suitable for PCR on average. However, the quality of DNA in acidic soil was found to be rather low, and a method for extracting and purifying the quality of DNA in acidic soil to a level suitable for PCR was required.

2.3 산성 토양 샘플에 대한 전처리 방법 구축2.3 Establishment of a pretreatment method for acidic soil samples

2.3.1 염화 알루미늄 전처리 농도의 선정2.3.1 Selection of aluminum chloride pretreatment concentration

산성 토양은 DNA 추출에 악영향을 주므로, 토양으로부터 DNA 추출 품질을 향상시키기 위한, 염화 알루미늄 (AlCl3) 전처리 단계를 구축하였다. 알루미늄 (Al3+)과 같은 양이온 금속은 길항 전하(antagonistic charge)로 인해 부식산(humic acid)을 제거할 수 있다. 실제로, Al3+는 부식산 및 DNA 모두에 결합하고 응집할 수 있다. 따라서, 과잉되거나 불충분한 염화 알루미늄은 DNA 수율의 손실을 유도할 수 있으므로, 산성 pH 토양에서 DNA를 추출하기 위한 최적 투입량을 산출하기 위한 실험을 실시하였다. 구체적으로, 0.3g의 토양 샘플 당 56 개의 산성 토양 샘플 (pH < 6.5)에 대하여, 염화 알루미늄 0.4 M 용액을 100, 200, 400, 500, 600 μL으로 처리하였으며, 0.4 M 염화알루미늄 처리에 의한 상등수 색도 변화를 도 7에 나타내었다.Since acidic soil adversely affects DNA extraction, an aluminum chloride (AlCl 3 ) pretreatment step was constructed to improve the quality of DNA extraction from soil. Cationic metals such as aluminum (Al 3+ ) can scavenge humic acid due to their antagonistic charge. Indeed, Al 3+ can bind to and aggregate both humic acid and DNA. Therefore, since excess or insufficient aluminum chloride can lead to loss of DNA yield, an experiment was conducted to calculate the optimal dosage for extracting DNA from acidic pH soil. Specifically, for 56 acidic soil samples (pH < 6.5) per 0.3 g of soil sample, 100, 200, 400, 500, and 600 μL of 0.4 M aluminum chloride solution were treated, and the supernatant by 0.4 M aluminum chloride treatment Chromaticity change is shown in FIG. 7 .

도 7에 나타낸 바와 같이, 0.3g의 토양 샘플 당 200 μL이상의 염화 알루미늄의 조건에서 맑은 갈색 상등수가 생성되는 것을 확인하였다. 따라서, 토양 샘플 1g당 666.7μL의 0.4 M 염화 알루미늄을 산성 토양 전처리를 위한 처리 농도로 선정하였다.As shown in FIG. 7, it was confirmed that a clear brown supernatant was produced under the condition of 200 μL or more of aluminum chloride per 0.3 g of soil sample. Therefore, 666.7 μL of 0.4 M aluminum chloride per gram of soil sample was selected as the treatment concentration for acidic soil pretreatment.

2.3.2. 산성 토양 샘플에 염화 알루미늄 전처리시 DNA 수율 및 품질 변화 측정2.3.2. Measurement of DNA Yield and Quality Changes in Acidic Soil Samples with Aluminum Chloride Pretreatment

염화 알루미늄 전처리에 의한 DNA 수율 및 품질 변화를 측정하기 위한 실험을 실시하였다. 토양 샘플 1g당 666.7μL의 0.4 M 염화 알루미늄으로 전처리한 산성 토양 샘플을 FastDNA® Spin Kit for Soil (MP Biomedical, USA)를 사용하여 DNA 추출하였다. 절차는 제조업체가 제공한 지침에 따라 수행하였다. 추출된 DNA의 농도(DNA concentration) 및 품질(A260/A280)은 NanoDrop ND-1000 UV-Vis 분광 광도계(NanoDrop, Wilmington, DE, USA)를 사용하여 측정하였으며, 이를 도 8에 나타내었다. Experiments were conducted to measure DNA yield and quality changes by aluminum chloride pretreatment. Acid soil samples pretreated with 666.7 μL of 0.4 M aluminum chloride per gram of soil sample were DNA extracted using FastDNA® Spin Kit for Soil (MP Biomedical, USA). The procedure was performed according to the instructions provided by the manufacturer. The DNA concentration and quality (A260/A280) of the extracted DNA were measured using a NanoDrop ND-1000 UV-Vis spectrophotometer (NanoDrop, Wilmington, DE, USA), and are shown in FIG. 8 .

도 8에 나타낸 바와 같이, 염화 알루미늄 전처리에 의해 DNA 수율은 11.8~14.0 ng/uL로 전처리 전에 비하여 대폭 낮아졌으나, PCR 수행에는 문제가 없는 수준이었다. 염화 알루미늄 전처리 샘플 대한 품질은 1.7 내지 2.1의 범위였으며, 이는 최적값으로 알려진 1.8에 가까운 것을 확인하였다.As shown in FIG. 8, the DNA yield by aluminum chloride pretreatment was 11.8 to 14.0 ng/uL, significantly lower than before pretreatment, but there was no problem in performing PCR. The quality of the aluminum chloride pre-treated sample ranged from 1.7 to 2.1, which was confirmed to be close to 1.8, which is known as the optimal value.

이와 같은 결과를 종합하여, 다음과 같은 산, 염기 오염원 예측을 위한 토양 내 미생물 DNA 추출 방법을 완성하였다. 대조군 및 암모니아 토양 샘플은 별도의 전처리 단계를 진행하지 않으며, 산성 토양 샘플의 경우 토양 샘플 1g당 666.7μL의 0.4 M 염화 알루미늄으로 전처리하는 단계를 진행하였다. 이 후, FastDNA® Spin Kit for Soil(MP Biomedical, USA)를 사용하여 DNA를 추출하고, 추출한 DNA를 Dneasy Power clean Pro Cleanup Kit(Qiagen, USA)를 사용하여 정제, 농축하여, PCR을 수행할 DNA 시료를 제조하였다.Combining these results, we completed the microbial DNA extraction method in soil for the prediction of the following acid and base contaminants. The control and ammonia soil samples did not undergo a separate pretreatment step, and in the case of acidic soil samples, a step of pretreatment with 666.7 μL of 0.4 M aluminum chloride per 1 g of soil sample was performed. Then, DNA was extracted using the FastDNA® Spin Kit for Soil (MP Biomedical, USA), and the extracted DNA was purified and concentrated using the Dneasy Power clean Pro Cleanup Kit (Qiagen, USA) to perform DNA PCR. A sample was prepared.

실시예 3. 메타게놈 분석을 이용한 산, 염기 오염원 예측 방법의 구축Example 3. Establishment of method for predicting acid and base contaminants using metagenome analysis

3.1 산, 염기 오염원 예측을 위한 미생물 상대 우점도 데이터 산출3.1 Calculation of microbial relative dominance data to predict acid and base contamination sources

실험실 규모 노출 실험에 의한 36 개 토양 샘플을 실시예 2의 DNA 추출 방법으로 추출한 DNA 샘플에 대해 Illumina MiSeq 플랫폼(Illumina, San Diego, CA, 미국)에서 박테리아 16S rRNA 유전자 V3, V4 영역을 시퀀싱하여 염기서열을 분석하였다(마크로젠, 한국). 키메라가 아닌 클러스터에서 남은 고품질 염기서열을 greedy 알고리즘을 사용하여 97% 상동성 내에서 OTU(Operational Taxonomic Unit)를 선정하였다. QIIME(Quantitative Insight Into Microbial Ecology) 파이프 라인을 이용하여 문(phylum)에서 종(species) 수준까지의 정보를 RDP(Ribosomal Database Project) 검색하였다. 미생물 다양성 지수(chao1, Shannon-Wiener, Simpson)를 산출하였다. 토양 박테리아 군집의 16S rRNA 유전자 라이브러리는 Illumina MiSeq 시퀀싱에 의해 구축되었으며, 36개의 DNA 샘플로부터 총 5,074,018 개의 서열이 확인되었다. Illumina MiSeq 시퀀싱에서 사용한 프라이머 정보를 표 2에 나타내었고, DNA 샘플의 염기서열 분석 결과를 표 3에 나타내었다. 16S rRNA 기반 메타게놈 분석 결과를 주요 성분 분석 도표를 통해 시각화한 것을 도 9에 나타내었고, 36 개의 샘플을 계층적 군집화(hierarchical dendrogram)하여 그룹화한 것을 도 10에 나타내었으며, 산, 염기 처리 특성에 따른 미생물 군집구조를 확인하여 도출한 상대 우점도 데이터 결과를 도 11에 나타내었다.The bacterial 16S rRNA gene V3 and V4 regions were sequenced on the Illumina MiSeq platform (Illumina, San Diego, CA, USA) for DNA samples extracted by the DNA extraction method of Example 2 from 36 soil samples from laboratory-scale exposure experiments. The sequence was analyzed (Macrogen, Korea). The remaining high-quality sequences from the non-chimeric clusters were selected as Operational Taxonomic Units (OTUs) within 97% homology using a greedy algorithm. Information from phylum to species level was searched by RDP (Ribosomal Database Project) using QIIME (Quantitative Insight Into Microbial Ecology) pipeline. The microbial diversity index (chao1, Shannon-Wiener, Simpson) was calculated. A 16S rRNA gene library of soil bacterial communities was constructed by Illumina MiSeq sequencing, and a total of 5,074,018 sequences were identified from 36 DNA samples. Primer information used in Illumina MiSeq sequencing is shown in Table 2, and the results of sequencing of DNA samples are shown in Table 3. The visualization of the 16S rRNA-based metagenome analysis results through a principal component analysis chart is shown in FIG. 9, and the hierarchical dendrogram grouping of 36 samples is shown in FIG. The relative dominance data results obtained by confirming the microbial community structure according to the method are shown in FIG. 11 .

서열번호sequence number 염기 서열 (5’ -> 3’)Base sequence (5' -> 3') 27F (정방향)27F (Forward) 서열번호 3SEQ ID NO: 3 TCGTCGGCAGCGTCAGATGTGTATAAGAGACAGCCTACGGGNGGCWGCATCGTCGGCAGCGTCAGATGTGTATAAGAGACAGCCTACGGGNGGCWGCA 518R (역방향)518R (reverse) 서열번호 4SEQ ID NO: 4 GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGGACTACHVGGGTATCTAATCCGTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGGACTACHVGGGTATCTAATCC

Figure 112020077166306-pat00002
Figure 112020077166306-pat00002

도 9에 나타낸 바와 같이, 전반적으로, 대조군 및 암모니아 샘플은 산 샘플로부터 명확하게 이격되어 있는 것을 확인하였다.As shown in Figure 9, overall, the control and ammonia samples were found to be clearly separated from the acid samples.

도 10에 나타낸 바와 같이, 36 개의 토양 샘플을 계층적 군집화한 결과, 그룹 1(대조군 및 암모니아 샘플), 그룹 2(산성 토양 샘플)가 생성되었다. 그룹 1은 그룹 2와 명확하게 분리되어 토양 pH의 감소로 인한 토양 박테리아 군집 구조가 변화한 것을 확인하였다. 그룹 2는 다음과 같이 3 개의 하위 그룹으로 분류되었다: 하위 그룹 1(D0.NT, D0.NM, D0.ST, D0.FT, D4.FT), 하위 그룹 2(D0.Cl.T, D0.Cl.M, D0.FM, D0.SM), 하위 그룹 3(D4.Cl.T, D4.NT, D4.ST, D11.Cl.T, D11.NT, D11.FT, D11.ST, D23.Cl.T, D23.Cl .M, D23.NT, D23.NM, D23.FT, D23.FM, D23.ST, D23.SM). 이러한 결과는 토양 내 고유한 박테리아 군집이 누출 사고가 발생함에 따라, 공간적 및 시간적 측면에서 거리 및 오염 유형에 따라 변화하는 것을 확인한 것이다.As shown in FIG. 10, as a result of hierarchical clustering of 36 soil samples, Group 1 (control and ammonia samples) and Group 2 (acidic soil samples) were generated. Group 1 was clearly separated from group 2, confirming that the soil bacterial community structure changed due to the decrease in soil pH. Group 2 was classified into three subgroups as follows: subgroup 1 (D0.NT, D0.NM, D0.ST, D0.FT, D4.FT), subgroup 2 (D0.Cl.T, D0). .Cl.M, D0.FM, D0.SM), subgroup 3 (D4.Cl.T, D4.NT, D4.ST, D11.Cl.T, D11.NT, D11.FT, D11.ST, D23.Cl.T, D23.Cl.M, D23.NT, D23.NM, D23.FT, D23.FM, D23.ST, D23.SM). These results confirm that the unique bacterial community in the soil changes according to the distance and contamination type in terms of space and time as leakage accidents occur.

도 11에 나타낸 바와 같이, 문(phylum) 수준에서 확인한 상대우점도에서 Proteobacteria가 가장 풍부한 문(phylum)으로 확인되었으며, 그 비율은 거의 모든 암모니아 컬럼 토양 샘플과 산성 처리된 토양의 후기 샘플(23 일)에서 39.5% 이상을 차지하는 것을 확인하였다. 대조군 및 암모니아 샘플에서 Proteobacteria는 39.5 ~ 46.7 %의 범위에서 존재하는 것을 확인하였다. 이어서, 19.9 ~ 23.0 %의 Actinobacteria, 5.8 ~ 9.3 %의 Acidobacteria 및 7.2-13.2 %의 Bacteroidetes는 암모니아 토양 컬럼에서 우점하는 것을 확인하였다. Firmicutes는 pH 값이 4.7보다 낮은 거의 초기 산성 시료(0, 4 일)에서 35.1 ~ 94.8%로 우점하는 것을 확인하였다. 이들은 토양 환경에 널리 분포되어 있으며 농업에 주요한 영향을 준다. 강(class) 수준에서 확인한 상대우점도 결과, Proteobacteria 내에서 Alphaproteobacteria가 16.8-19.8%를 차지하여 가장 풍부한 것을 확인하였으며, 이어서 9.5-17.4 %의 Gammaproteobacteria, 8.2-11.0 %의 Betaproteobacteria, 및 3.1-4.1 %의 Deltaproteobacteria의 순서로 우점하고 있는 것을 확인하였다.As shown in FIG. 11, Proteobacteria was confirmed as the most abundant phylum in the relative dominance map at the phylum level, and the ratio was found to be the most abundant in almost all ammonia column soil samples and acid-treated soil samples (23 days). It was confirmed that it occupied more than 39.5% of It was confirmed that Proteobacteria were present in the range of 39.5 to 46.7% in the control and ammonia samples. Subsequently, 19.9 to 23.0% of Actinobacteria, 5.8 to 9.3% of Acidobacteria, and 7.2 to 13.2% of Bacteroidetes were found to dominate the ammonia soil column. It was confirmed that Firmicutes were dominant at 35.1 ~ 94.8% in almost initial acidic samples (0, 4 days) with a pH value lower than 4.7. They are widely distributed in the soil environment and have a major impact on agriculture. As a result of the relative dominance confirmed at the class level, within Proteobacteria, Alphaproteobacteria accounted for 16.8-19.8%, confirming that they were the most abundant, followed by 9.5-17.4% of Gammaproteobacteria, 8.2-11.0% of Betaproteobacteria, and 3.1-4.1% of It was confirmed that the order of Deltaproteobacteria was dominant.

3.2 산, 염기 오염 특성 별 지표미생물 선별3.2 Selection of indicator microorganisms by acid and base contamination characteristics

CRAN(Comprehensive R Archive Network)에서 제공하는 "indicspecies" 패키지의 "multipatt(기능 "멀티 패트", nperm 1000, p≤0.01)" 기능을 기반으로 산, 염기 오염원에 따른 지표미생물을 선별하였다. 실시예 3.1에서 산출한 메타게놈 결과에 따른 우점도 데이터를 입력 데이터로 사용하였다. 통계적으로 유의한 종 (p<0.01)을 선별하였다. IndVal은 산/염기와 미생물 종과 간의 관계를 나타내는 지표값이다. IndVal의 계산은 Dufrene와 Legendre(1997)에 의해 정의되며, 가장 높은 IndVa값은 가장 강력한 상관관계를 나타낸다. 통계적 유의성 값은 이 방법의 신뢰도 판단에 사용되었다(Dufrene et al., 1997). 상기 방법으로 오염원에 따른 지표미생물 총 41 종을 선별하였으며, 이를 표 4에 나타내었다.Based on the "multipatt (function "multipat", nperm 1000, p≤0.01)" function of the "indicspecies" package provided by CRAN (Comprehensive R Archive Network), indicator microorganisms were selected according to acid and base contaminants. Dominance data according to the metagenome results calculated in Example 3.1 was used as input data. Statistically significant species (p<0.01) were selected. IndVal is an index value representing the relationship between acid/base and microbial species. The calculation of IndVal is defined by Dufrene and Legendre (1997), and the highest IndVa value indicates the strongest correlation. Statistical significance values were used to judge the reliability of this method (Dufrene et al., 1997). A total of 41 species of indicator microorganisms according to the contamination source were selected by the above method, and these are shown in Table 4.

Figure 112020077166306-pat00003
Figure 112020077166306-pat00003

표 4에 나타낸 바와 같이, 가장 우점하는 암모니아 지표 미생물로 Nitrosospira tenuis가 선정되었으며(p < 0.001), Nitrosospira tenuis 외에도 암모니아 오염원과 관련된 지표미생물 8 종으로 Flavihumibacter sediminis, Flavobacterium saliperosum, Brevundimonas naejangsanensis, Actinotalea ferrariae, Nocardioides caricicola, Chryseobacterium montanum, Flavobacterium dankookbacbau을 선정하였다. As shown in Table 4, Nitrosospira tenuis was selected as the most dominant ammonia indicator microorganism (p < 0.001), and in addition to Nitrosospira tenuis , 8 indicators related to ammonia pollutants were Flavihumibacter sediminis, Flavobacterium saliperosum, Brevundimonas naejangsanensis, Actinotalea ferrariae, and Nocardioides. caricicola, Chryseobacterium montanum, and Flavobacterium dankookbacbau were selected.

또한, 네 가지 산 오염 유형(염산, 질산, 불화수소, 황산)과 그에 따른 지표미생물을 확인하였다. 10 개의 불화수소 지표미생물 중 7종이 Bacilli class (p≤0.01)에 속하는 것을 확인하였다. 질산의 경우 Pseudomonas silesiensis가 가장 우점하는 지표미생물로 확인되었다(우점율 30.54%, p<0.001). 염산은 Dyella japonica 을 비롯한 7 종의 미생물을 지표미생물 종으로 선정하였다. 황산은 Micromonospora noduli 을 비롯한 4 종의 미생물을 지표미생물 종으로 선정하였다.In addition, four types of acid contamination (hydrochloric acid, nitric acid, hydrogen fluoride, sulfuric acid) and corresponding indicator microorganisms were identified. Seven of the 10 hydrogen fluoride indicator microorganisms were identified as belonging to the Bacilli class (p≤0.01). In the case of nitric acid , Pseudomonas silesiensis was identified as the most dominant indicator microorganism (dominance rate 30.54%, p<0.001). For hydrochloric acid, seven microorganisms, including Dyella japonica, were selected as indicator microorganisms. Sulfuric acid selected four microorganisms, including Micromonospora noduli, as indicator microorganisms.

3.3 상대 우점도 데이터를 이용한 오염원 예측 인공신경망 모델링3.3 Artificial Neural Network Modeling for Contamination Source Prediction Using Relative Dominance Data

실시예 3.1의 메타게놈 분석을 통한 상대우점도 데이터 산출 방법에서 기준 상동성을 달리하여 상대우점도 데이터를 산출하고, 이를 토대로 인공 신경망을 훈련시키고 테스트하였다. 각 토양 샘플의 오염원을 여섯 가지 등급(대조군, 암모니아, 염산, 질산, 불화수소 그리고 황산)으로 설정하고, 신경망의 예측이 정확한지 검증하였다. 예측 모델의 최적화를 위해 은닉층 신경망의 개수를 1 내지 151의 범위로 각각 적용하였다. 또한, 모델 과적합(overfitting) 문제를 완화하기 위해 10배 교차 검증의 원리를 적용하여, 데이터 집단 내에서 훈련데이터와 검증데이터를 교체해가며 예측을 수행하였다. 각 라운드에서, 입력 데이터는 신경망의 효과를 테스트하기 위해 훈련 세트(90 %) 및 테스트 세트(10 %)로 무작위 분할되었다. 네트워크의 전체 정확도는 10 라운드의 교차 검증에 대한 평균 정확도이다. 소프트웨어는 MATLAB을 이용하였고, 신경망 도구 상자로 MATLAB 패키지(2019b, MathWorks, Natick, MA)를 함께 이용하였다.In the method of calculating relative dominance data through metagenome analysis of Example 3.1, relative dominance data was calculated by varying the standard homology, and based on this, the artificial neural network was trained and tested. The contaminants of each soil sample were set to six grades (control, ammonia, hydrochloric acid, nitric acid, hydrogen fluoride, and sulfuric acid), and the accuracy of the prediction of the neural network was verified. For optimization of the predictive model, the number of hidden layer neural networks was applied in the range of 1 to 151, respectively. In addition, in order to mitigate the model overfitting problem, the principle of 10-fold cross-validation was applied, and prediction was performed by alternating training data and verification data within the data group. In each round, the input data was randomly split into a training set (90%) and a test set (10%) to test the effectiveness of the neural network. The overall accuracy of the network is the average accuracy over 10 rounds of cross-validation. The software used MATLAB, and the MATLAB package (2019b, MathWorks, Natick, MA) was used together as a neural network toolbox.

인공신경망 예측률을 향상시키기 위해, OTU 산출을 위한 기준 상동성을 서로 달리하여 인공신경망 모델을 훈련, 평가하였으며, 인공신경망 모델의 예측률(Accuracy %)을 도 12에 나타내었다.In order to improve the artificial neural network prediction rate, the artificial neural network model was trained and evaluated with different reference homology for OTU calculation, and the prediction rate (Accuracy %) of the artificial neural network model is shown in FIG. 12.

도 12에 나타낸 바와 같이, 기준 상동성을 99, 97, 95, 93, 91%로 한 경우, 각각 59, 31, 22개의 은닉층 뉴런 수에서 가장 높은 70.0%, 72.5%, 80.8%의 예측률을 나타내었다. 특히, OTU선정에 있어서 사용되는 상동성의 수준을 낮추었을 때 예측률이 낮아지는 것을 확인하였다.As shown in FIG. 12, when the reference homology is set to 99, 97, 95, 93, and 91%, the prediction rates of 70.0%, 72.5%, and 80.8% are the highest in the number of hidden layer neurons of 59, 31, and 22, respectively. was In particular, it was confirmed that the prediction rate was lowered when the level of homology used in OTU selection was lowered.

3.4 지표미생물 종을 적용한 오염원 예측 인공신경망 모델링3.4 Artificial Neural Network Modeling for Pollution Source Prediction Using Indicator Microbial Species

종(species) 수준의 상대 우점도 데이터에 실시예 3.2에서 도출한 지표미생물을 적용하였으며, 그 결과, 우점도 데이터의 생물지표는 403 종에서 41 종으로 축소되었다. 이러한 방법은 잡음 데이터를 줄여주므로 훈련 진행 속도를 높이고 예측률을 높일 수 있다. 상기 지표미생물을 적용한 상대 우점도 데이터 또는 지표미생물을 적용하지 않은 상대 우점도 데이터로 은닉층 뉴런을 달리하여 인공신경망 모델을 훈련하고, 예측률을 평가하였으며, 예측률 평가 결과를 도 13에 나타내었다. The indicator microorganisms derived in Example 3.2 were applied to the relative dominance data at the species level, and as a result, the biomarkers of the dominance data were reduced from 403 species to 41 species. Since this method reduces noisy data, it can speed up the training process and increase the prediction rate. The artificial neural network model was trained by varying the hidden layer neurons using the relative dominance data to which the indicator microorganism was applied or the relative dominance data to which the indicator microorganism was not applied, and the prediction rate was evaluated. The prediction rate evaluation results are shown in FIG. 13 .

도 13에 나타낸 바와 같이 지표미생물이 적용된 종 수준 상대 우점도 데이터에서 가장 높은 정확도를 나타낸 인공신경망 모델의 예측률은 은닉층 뉴런수가 7개 인 경우, 85.05%인 것을 확인하여, 지표미생물을 적용하지 않은 상대 우점도 데이터로 훈련시킨 모델의 최고 예측률 대비 예측률이 4.2 % 증가한 것을 확인하였다. As shown in FIG. 13, the prediction rate of the artificial neural network model that showed the highest accuracy in the species-level relative dominance data to which the indicator microorganism was applied was 85.05% when the number of neurons in the hidden layer was 7. It was confirmed that the prediction rate increased by 4.2% compared to the highest prediction rate of the model trained with the data.

실시예 4. T-RFLP(Terminal Restriction Fragment Length Polymorphism)를 이용한 산, 염기 오염원 예측 방법의 구축Example 4. Establishment of Acid and Base Contamination Source Prediction Method Using T-RFLP (Terminal Restriction Fragment Length Polymorphism)

4.1 T-RF(Terminal Restriction Fragment) 피크 분석4.1 T-RF (Terminal Restriction Fragment) Peak Analysis

16S rRNA 유전자의 증폭을 위하여, 실시예 2의 방법으로 제조한 토양 샘플의 DNA 시료를 프라이머 쌍 27F와 518R을 사용하여 PCR을 실시하였다. PCR 산물을 T-RFLP에 사용하기 위하여, 정방향 프라이머 27F 및 역방향 프라이머 518R에 각각 FAM 및 HEX 형광을 표지하였다. PCR 수행을 위하여 25 μL의 DreamTaq DNA 중합 효소(미국 Thermo Fisher, USA), 1 μL의 각 프라이머(10 μM), 2 μL의 DNA 주형 및 21 μL의 탈 이온수로 구성된 총 50 μL의 PCR 샘플을 제조하였다. PCR운영 조건은 다음과 같다: 93℃에서 3 분의 1사이클, 93℃에서 30 초, 60℃에서 30 초, 72℃에서 30 초의 30주기, 그리고 마지막 72℃에서 10 분의 1주기. 이를 위하여 SimpliAmp Thermal Cycler(Thermo Fisher, USA)를 사용하였다. PCR 생성물을 QIAquick PCR 정제 키트(Qiagen, USA)를 사용하여 정제하고, 37℃에서 3 시간 동안 제한효소 BsuR I(10 U)(Thermo Fisher, USA)으로 절편화하였다. T-RFLP 분석은 한국의 SolGent (Solution for Genetic Technology) 회사에서 수행하였다. 피크 스캐너 2.0 소프트웨어(Applied Biosystems, USA)를 사용하여 말단 전편의 크기와 상대적 농도를 분석하였다. 50 bp 미만의 피크는 에러로 간주하였다. T-Align 웹 기반 프로그램을 통해 말단절편(T-RF)를 정렬하고, 각 샘플의 프로파일을 생성하여 T-RF 피크 데이터를 최종적으로 도출하였다. 상기 16S rRNA 유전자의 증폭을 위한 프라이머 쌍의 서열정보를 표 5에 나타내었다.For the amplification of the 16S rRNA gene, PCR was performed on the DNA sample of the soil sample prepared by the method of Example 2 using the primer pair 27F and 518R. In order to use the PCR product for T-RFLP, forward primer 27F and reverse primer 518R were labeled for FAM and HEX fluorescence, respectively. For PCR, prepare a total of 50 μL of PCR sample consisting of 25 μL of DreamTaq DNA polymerase (Thermo Fisher, USA), 1 μL of each primer (10 μM), 2 μL of DNA template and 21 μL of deionized water. did The PCR operating conditions were as follows: 1 cycle at 93 °C for 3 min, 30 cycles at 93 °C for 30 sec, 60 °C for 30 sec, 72 °C for 30 sec, and finally 1 cycle at 72 °C for 10 min. For this purpose, a SimpliAmp Thermal Cycler (Thermo Fisher, USA) was used. PCR products were purified using the QIAquick PCR purification kit (Qiagen, USA) and fragmented with the restriction enzyme BsuR I (10 U) (Thermo Fisher, USA) for 3 hours at 37°C. T-RFLP analysis was performed by SolGent (Solution for Genetic Technology) in Korea. The size and relative density of the distal presegment were analyzed using Peak Scanner 2.0 software (Applied Biosystems, USA). Peaks of less than 50 bp were considered errors. T-RF peak data was finally derived by aligning the distal fragment (T-RF) through the T-Align web-based program and generating a profile of each sample. Sequence information of primer pairs for amplification of the 16S rRNA gene is shown in Table 5.

서열번호sequence number 염기 서열 (5' -> 3')base sequence (5' -> 3') 27F (정방향)27F (Forward) 서열번호 1SEQ ID NO: 1 AGAGTTTGATCMTGGCTCAGAGAGTTTGATCMTGGCTCAG 518R (역방향)518R (reverse) 서열번호 2SEQ ID NO: 2 ATTACCGCGGCTGCTGGATTACCGCGGCTGCTGG

4.2 오염원 예측 지표로써 T-RF(Terminal Restriction Fragment) 피크의 활용 가능성 검증4.2 Verification of the feasibility of using T-RF (Terminal Restriction Fragment) peak as a pollutant source prediction indicator

실시예 4.1에서 도출한 T-RF 피크 데이터가 오염원 예측 지표로 사용가능한지 여부를 확인하였다. 구체적으로, 토양 샘플 간 T-RF 피크 패턴의 유사성을 확인하기 위해, RStudio(Boston, MA, USA)를 사용하여 주요 성분 분석(Principal component analysis)과 계층적 군집화(hierarchical dendrogram)를 실시하였으며, 주요 성분 분석 결과를 도 14에 나타내었고, 계층적 군집화 결과를 도 15에 나타내었다. It was confirmed whether the T-RF peak data derived in Example 4.1 could be used as a pollutant source prediction indicator. Specifically, to confirm the similarity of T-RF peak patterns among soil samples, principal component analysis and hierarchical dendrogram were performed using RStudio (Boston, MA, USA). Component analysis results are shown in FIG. 14 , and hierarchical clustering results are shown in FIG. 15 .

도 14에 나타낸 바와 같이, 주요 성분 분석 결과, 토양 샘플 별 오염원에 따른 그룹핑(grouping)이 명확히 이루어지지 않았다.As shown in FIG. 14, as a result of main component analysis, grouping according to the contamination source for each soil sample was not clearly made.

도 15에 나타낸 바와 같이, 오염원 유형에 따라, 토양 샘플 내 토양 미생물 군집을 분류할 수 있었으며, 원인물질 규명을 위한 생물지표로서 T-RF 피크가 사용될 수 있음을 확인하였다. As shown in FIG. 15, it was confirmed that the soil microbial community in the soil sample could be classified according to the type of contaminant, and the T-RF peak could be used as a biomarker for identifying the causative agent.

4.3 T-RF 피크 데이터를 이용한 오염원 예측 인공신경망 모델링4.3 Pollution Source Prediction Artificial Neural Network Modeling Using T-RF Peak Data

실시예 4.1의 27F 정방향 프라이머로 도출한 T-FR 피크 데이터 및 518R 역방향 프라이머로 도출한 T-FR 피크 데이터를 이용하여 실시예 3.3의 오염원 예측 인공신경망 모델링 방법과 동일한 방법으로 인공신경망을 훈련시키고 예측률을 평가하였다. 또한, 지표미생물종으로 가정한 지표 T-RF 결과를 T-RF 피크 데이터에 적용한 데이터를 이용하여 인공신경망을 훈련시켰다. 구체적으로, 적용 데이터는 상기 T-Align 프로그램을 이용하여 산출한 각 T-RF의 상대적 우점도를 시작으로하여, 모든 T-RF 중 Indicspecies 프로그램을 통해 지표 T-RF를 선별하였다. 즉, 지표 T-RF는 지표미생물종으로 가정할 수 있다. 선별된 지표 T-RF의 상대적 우점도를 인공신경망 모델에 입력하였다. 이에 따른 예측률 평가 결과를 도 16에 나타내었다.Using the T-FR peak data derived from the 27F forward primer and the T-FR peak data derived from the 518R reverse primer of Example 4.1, the artificial neural network was trained in the same way as the artificial neural network modeling method for predicting contamination in Example 3.3, and the prediction rate was evaluated. In addition, the artificial neural network was trained using the data obtained by applying the T-RF result of the indicator assumed as the indicator microbial species to the T-RF peak data. Specifically, as the application data, starting from the relative dominance of each T-RF calculated using the T-Align program, the indicator T-RF was selected through the Indicspecies program among all T-RFs. That is, the indicator T-RF can be assumed to be an indicator microbial species. The relative dominance of the selected index T-RF was input into the artificial neural network model. The predictive rate evaluation results according to this are shown in FIG. 16 .

도 16에 나타낸 바와 같이, 1에서 151까지의 뉴런 수를 적용한 결과, 1 내지 10 범위에서 19.2 ~ 24.2% 예측률을 보였고 그 이상의 범위에서 67.4 ~ 77.4%의 예측률을 보였다. 정방향 프라이머로 도출한 T-RF 피크 데이터를 이용하고 은닉층 뉴런을 143개로 훈련시킨 인공신경망 모델에서 78.8%의 최고 예측률이 확인되었다.As shown in FIG. 16, as a result of applying the number of neurons from 1 to 151, the prediction rate was 19.2 to 24.2% in the range of 1 to 10, and the prediction rate was 67.4 to 77.4% in the range of more. The highest prediction rate of 78.8% was confirmed in the artificial neural network model trained with 143 hidden layer neurons using T-RF peak data derived from forward primers.

실시예 5.Example 5. 메타게놈 분석을 이용한 산, 염기 오염원 예측 방법과 T-RFLP를 이용한 산, 염기 오염원 예측 방법의 비교Comparison of acid and base contamination source prediction methods using metagenome analysis and acid and base contamination source prediction methods using T-RFLP

실시예 4.3에서 완성한 T-RF 피크 데이터를 이용한 오염원 예측 인공신경망 모델 (정방향 프라이머로 산출한 T-RF 피크 데이터 적용, 143개 은닉층, 지표 T-RF 미적용)과 실시예 3.4에서 완성한 85.05%의 예측률을 갖는 메타게놈 분석을 이용한 산, 염기 오염원 예측 인공신경망 모델 (7개 은닉층, 지표미생물 데이터 적용)의 특이도와 민감도를 비교하였다. 민감도는 True Positive 결과를 Total Positive 결과의 수로 나눈 비율로 정의하였으며, 특이성은 True Negative 결과를 Total Negative 결과의 수로 나눈 비율로 정의하였다. 특이도와 민감도 분석 결과를 표 6에 나타내었다.Contamination source prediction artificial neural network model using T-RF peak data completed in Example 4.3 (T-RF peak data calculated with forward primer applied, 143 hidden layers, indicator T-RF not applied) and 85.05% prediction rate completed in Example 3.4 The specificity and sensitivity of an artificial neural network model (7 hidden layers, indicator microbial data applied) for predicting acid and base contaminants using metagenome analysis with . Sensitivity was defined as the ratio of true positive results divided by the number of total positive results, and specificity was defined as the ratio of true negative results divided by the number of total negative results. The specificity and sensitivity analysis results are shown in Table 6.

Figure 112020077166306-pat00004
Figure 112020077166306-pat00004

표 6에 나타낸 바와 같이, 메타게놈 분석을 이용한 산, 염기 오염원 예측 인공신경망 모델과 T-RF 피크 데이터를 이용한 오염원 예측 인공신경망 모델 모두 특이도와 민감도가 우수한 것을 확인하였다.As shown in Table 6, it was confirmed that both the acid and base contaminant prediction artificial neural network model using metagenome analysis and the contaminant prediction artificial neural network model using T-RF peak data had excellent specificity and sensitivity.

이상, 본 발명내용의 특정한 부분을 상세히 기술하였는 바, 당업계의 통상의 지식을 가진 자에게 있어서, 이러한 구체적인 기술은 단지 바람직한 실시양태일 뿐이며, 이에 의해 본 발명의 범위가 제한되는 것이 아닌 점은 명백할 것이다. 따라서 본 발명의 실질적인 범위는 첨부된 청구항들과 그것들의 등가물에 의해 정의된다고 할 것이다.In the above, specific parts of the present invention have been described in detail, and for those skilled in the art, it is clear that these specific descriptions are only preferred embodiments, and the scope of the present invention is not limited thereby. something to do. Accordingly, the substantial scope of the present invention will be defined by the appended claims and their equivalents.

<110> Pusan National University Industry-University Cooperation Foundation <120> Soil Pollution Source Prediction Method using Artificial Neural Network Model <130> pusan1-407P <160> 4 <170> KoPatentIn 3.0 <210> 1 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> T-RFLP forward primer <400> 1 agagtttgat cmtggctcag 20 <210> 2 <211> 17 <212> DNA <213> Artificial Sequence <220> <223> T-RFLP reverse primer <400> 2 attaccgcgg ctgctgg 17 <210> 3 <211> 49 <212> DNA <213> Artificial Sequence <220> <223> metagenome forward primer <400> 3 tcgtcggcag cgtcagatgt gtataagaga cagcctacgg gnggcwgca 49 <210> 4 <211> 55 <212> DNA <213> Artificial Sequence <220> <223> metagenome reverse primer <400> 4 gtctcgtggg ctcggagatg tgtataagag acaggactac hvgggtatct aatcc 55 <110> Pusan National University Industry-University Cooperation Foundation <120> Soil Pollution Source Prediction Method using Artificial Neural Network Model <130> pusan1-407P <160> 4 <170> KoPatentIn 3.0 <210> 1 <211> 20 <212> DNA <213> artificial sequence <220> <223> T-RFLP forward primer <400> 1 agagtttgat cmtggctcag 20 <210> 2 <211> 17 <212> DNA <213> artificial sequence <220> <223> T-RFLP reverse primer <400> 2 attaccgcgg ctgctgg 17 <210> 3 <211> 49 <212> DNA <213> artificial sequence <220> <223> metagenome forward primer <400> 3 tcgtcggcag cgtcagatgt gtataagaga cagcctacgg gnggcwgca 49 <210> 4 <211> 55 <212> DNA <213> artificial sequence <220> <223> metagenome reverse primer <400> 4 gtctcgtggg ctcggagatg tgtataagag acaggactac hvgggtatct aatcc 55

Claims (23)

(1) 산 또는 염기 오염 정보가 있는 토양 샘플을 수집하는 단계;
(2) 상기 토양 샘플로부터 미생물 균총의 DNA를 추출하는 단계;
(3) 상기 추출한 DNA를 프라이머를 사용하여 PCR 증폭하고, PCR 산물을 T-RFLP 분석하여, T-RF 피크 데이터를 도출하는 단계;
(4) 상기 (3) 단계의 T-RF 피크 데이터와 상기 (1) 단계의 토양 샘플의 산 또는 염기 오염 정보를 인공신경망 모델의 입력 및 출력으로 하여 은닉층 뉴런수 1-151개 범위에서 훈련시키는 단계;
(5) 오염 원인을 모르는 토양으로부터 미생물 균총의 DNA를 추출하고, 추출한 DNA를 상기 (3) 단계의 프라이머를 사용하여 PCR 증폭하는 단계;
(6) 상기 증폭한 PCR 산물을 T-RFLP 분석하여, T-RF 피크 데이터를 도출하는 단계; 및
(7) 상기 (6) 단계의 T-RF 피크 데이터를 상기 (4) 단계의 훈련된 인공신경망 모델의 입력변수로 이용하여 상기 오염 원인을 모르는 토양의 오염 원인을 예측하는 단계; 를 포함하는, 토양 오염원 예측 방법.
(1) collecting soil samples with acid or base contamination information;
(2) extracting microbial flora DNA from the soil sample;
(3) PCR amplification of the extracted DNA using primers, and T-RFLP analysis of the PCR product to derive T-RF peak data;
(4) Training in the range of 1-151 hidden layer neurons by using the T-RF peak data in step (3) and the acid or base contamination information of the soil sample in step (1) as inputs and outputs of the artificial neural network model step;
(5) extracting microbial flora DNA from soil of unknown contamination, and PCR amplifying the extracted DNA using the primers of step (3);
(6) T-RFLP analysis of the amplified PCR product to derive T-RF peak data; and
(7) using the T-RF peak data in step (6) as an input variable of the artificial neural network model trained in step (4) to predict the contamination cause of the soil whose contamination source is unknown; Containing, soil contaminant prediction method.
제1항에 있어서, 상기 (2) 단계의 DNA를 추출하는 단계는, 토양 샘플에서 DNA 추출 방해 물질을 제거하는 전처리 단계를 더 포함하는 것인, 토양 오염원 예측 방법.
The method of claim 1, wherein the step of extracting the DNA in step (2) further comprises a pretreatment step of removing substances that interfere with DNA extraction from the soil sample.
제2항에 있어서, 상기 토양 샘플에서 DNA 추출 방해 물질을 제거하는 전처리 단계는 토양 오염 원인이 산성인 경우에 토양 샘플에 염화 알루미늄(AlCl3)을 전처리 하는 단계인, 토양 오염원 예측 방법.
The method of claim 2, wherein the pretreatment step of removing DNA extraction-interfering substances from the soil sample is a step of pre-treating the soil sample with aluminum chloride (AlCl 3 ) when the soil contamination source is acidic.
제3항에 있어서, 상기 토양 샘플에 염화 알루미늄(AlCl3)을 전처리 하는 단계는 토양 샘플 1g당 0.2 내지 0. 6 M 염화 알루미늄(AlCl3) 466.7 내지 866.7μL를 전처리 하는 단계인, 토양 오염원 예측 방법.
The method of claim 3, wherein the step of pre-treating the soil sample with aluminum chloride (AlCl 3 ) is a step of pre-treating 466.7 to 866.7 μL of 0.2 to 0.6 M aluminum chloride (AlCl 3 ) per 1 g of the soil sample. method.
제1항에 있어서, 상기 (3) 단계의 프라이머는 서열번호 1의 정방향 프라이머 또는 서열번호 2의 역방향 프라이머인, 토양 오염원 예측 방법.
The method of claim 1, wherein the primer in step (3) is a forward primer of SEQ ID NO: 1 or a reverse primer of SEQ ID NO: 2.
제1항에 있어서, 상기 (3) 단계의 프라이머는 서열번호 1의 정방향 프라이머인, 토양 오염원 예측 방법.
The method of claim 1, wherein the primer in step (3) is a forward primer of SEQ ID NO: 1.
제1항에 있어서, 상기 (3) 단계의 PCR 증폭은 16s rRNA 유전자를 증폭하는 것인, 토양 오염원 예측 방법.
The method of claim 1, wherein the PCR amplification in step (3) is to amplify the 16s rRNA gene.
삭제delete 제1항에 있어서, 상기 (3) 단계의 프라이머는 서열번호 1의 정방향 프라이머이고, 상기 (4)단계의 인공신경망 모델을 훈련시키는 단계는 은닉층 뉴런을 143으로 하는 단계인, 토양 오염원 예측 방법.
The soil pollutant prediction method according to claim 1, wherein the primer in step (3) is a forward primer of SEQ ID NO: 1, and the step of training the artificial neural network model in step (4) is a step of setting hidden layer neurons to 143.
제1항에 있어서, 상기 토양 오염원은 무(無)오염, 암모니아, 염산, 황산, 불화수소 및 질산으로 이루어진 군에서 선택된 어느 하나인, 토양 오염원 예측 방법.
The method of claim 1, wherein the soil pollutant is any one selected from the group consisting of no pollution, ammonia, hydrochloric acid, sulfuric acid, hydrogen fluoride, and nitric acid.
(1) 산 또는 염기 오염 정보가 있는 토양 샘플을 수집하는 단계;
(2) 상기 토양 샘플로부터 미생물 균총의 DNA를 추출하는 단계;
(3) 상기 추출한 DNA를 메타게놈 분석하고, 토양 내 존재하는 미생물의 조작분류단위(operational taxonomic unit)를 선정하는 단계;
(4) 상기 (3)단계에서 선정한 조작분류단위를 이용하여, 토양 샘플 내 미생물 군집의 상대우점도 데이터를 산출하는 단계;
(5) 상기 (4) 단계의 상대우점도 데이터와 상기 (1) 단계의 토양 샘플의 산 또는 염기 오염 정보를 인공신경망 모델의 입력 및 출력으로 하여 은닉층 뉴런수 1-151개 범위에서 훈련시키는 단계;
(6) 오염 원인을 모르는 토양으로부터 미생물 균총의 DNA를 추출하여 메타게놈 분석하고, 상기 (3)단계에서 선정한 조작분류단위를 이용하여, 토양 샘플 내 상대우점도 데이터를 산출하는 단계; 및
(7) 상기 (6) 단계의 토양 샘플 내 상대우점도 데이터를 상기 (5) 단계의 훈련된 인공신경망 모델의 입력변수로 이용하여 상기 오염 원인을 모르는 토양의 오염 원인을 예측하는 단계;를 포함하는, 토양 오염원 예측 방법.
(1) collecting soil samples with acid or base contamination information;
(2) extracting microbial flora DNA from the soil sample;
(3) performing metagenome analysis on the extracted DNA and selecting operational taxonomic units of microorganisms present in the soil;
(4) calculating relative dominance data of the microbial community in the soil sample using the operational classification unit selected in step (3);
(5) training in the range of 1-151 hidden layer neurons by using the relative dominance data in step (4) and the acid or base contamination information of the soil sample in step (1) as inputs and outputs of the artificial neural network model;
(6) extracting the DNA of the microbial flora from soil of unknown contamination, performing metagenome analysis, and calculating relative dominance data in the soil sample using the operational taxonomic unit selected in step (3); and
(7) using the relative dominance data in the soil sample in step (6) as an input variable of the trained artificial neural network model in step (5) to predict the contamination cause of the soil whose contamination source is unknown; , Methods for predicting soil pollutant sources.
제11항에 있어서, 상기 (2) 단계의 DNA를 추출하는 단계는, 토양 샘플에서 DNA 추출 방해 물질을 제거하는 전처리 단계를 더 포함하는 것인, 토양 오염원 예측 방법.
The method of claim 11, wherein the step of extracting the DNA in step (2) further comprises a pretreatment step of removing substances that interfere with DNA extraction from the soil sample.
제12항에 있어서, 상기 토양 샘플에서 DNA 추출 방해 물질을 제거하는 전처리 단계는 토양 오염 원인이 산성인 경우에 토양 샘플에 염화 알루미늄(AlCl3)을 전처리 하는 단계인, 토양 오염원 예측 방법.
13. The method of claim 12, wherein the pretreatment step of removing DNA extraction interference substances from the soil sample is a step of pretreating the soil sample with aluminum chloride (AlCl 3 ) when the soil contamination source is acidic.
제13항에 있어서, 상기 토양 샘플에 염화 알루미늄(AlCl3)을 전처리 하는 단계는 토양 샘플 1g당 0.2 내지 0. 6 M 염화 알루미늄(AlCl3) 466.7 내지 866.7μL를 전처리 하는 단계인, 토양 오염원 예측 방법.
The method of claim 13, wherein the step of pre-treating the soil sample with aluminum chloride (AlCl 3 ) is a step of pre-treating 466.7 to 866.7 μL of 0.2 to 0.6 M aluminum chloride (AlCl 3 ) per 1 g of the soil sample. method.
제11항에 있어서, 상기 (3) 단계의 메타게놈 분석은 추출한 DNA의 16S rRNA 유전자 V3 및 V4 영역을 대상으로 하는 것인, 토양 오염원 예측 방법.
The method of claim 11, wherein the metagenome analysis in step (3) targets the 16S rRNA gene V3 and V4 regions of the extracted DNA.
제11항에 있어서, 상기 (3) 단계는 95 내지 100%의 상동성 수준으로하여 조작분류단위를 선정하는 단계인, 토양 오염원 예측 방법.
The method of claim 11, wherein step (3) is a step of selecting an operational classification unit at a homology level of 95 to 100%.
제11항에 있어서, 상기 (4) 단계의 미생물 군집의 상대우점도 데이터는 과(Family), 속(Genus) 또는 종(species)을 기준으로 산출하는 것인, 토양 오염원 예측 방법.
The method of claim 11, wherein the relative dominance data of the microbial community in step (4) is calculated based on family, genus, or species.
제11항에 있어서, 상기 (3) 단계는 99%의 상동성 수준으로 조작분류단위를 선정하고, 상기 (4) 단계의 미생물 군집의 상대우점도 데이터는 종(species)을 기준으로 산출하는 것인, 토양 오염원 예측 방법.
The method of claim 11, wherein step (3) selects an operational taxonomic unit with a homology level of 99%, and the relative dominance data of the microbial community in step (4) is calculated based on species. , Methods for predicting soil pollutant sources.
제11항 내지 제18항 중 어느 한 항에 있어서, 상기 (4) 단계의 미생물 군집의 상대우점도 데이터는 오염원 특이적인 지표 미생물의 상대우점도 데이터인, 토양 오염원 예측 방법.
The method according to any one of claims 11 to 18, wherein the relative dominance data of the microbial community in step (4) is the relative dominance data of a contaminant-specific indicator microorganism.
제11항 내지 제18항 중 어느 한 항에 있어서, 상기 (4) 단계의 미생물 군집의 상대우점도 데이터는 오염원 특이적인 지표 미생물의 상대우점도 데이터이며, 상기 지표 미생물은 오염원이 없는 토양인 경우 Angustibacter luteus, Runella slithyformis, Cystobacter velatus, Geodermatophilus daqingensis, Pseudonocardia soli, Aquabacterium commune Skermanella rubra으로 이루어진 군에서 선택된 어느 하나 이상이고, 오염원이 암모니아인 경우 Nitrosospira tenuis, Flavihumibacter sediminis, Flavobacterium saliperosum, Brevundimonas naejangsanensis, Actinotalea ferrariae, Nocardioides caricicola, Chryseobacterium montanum, Flavobacterium dankookense Pedobacter bauzanensis으로 이루어진 군에서 선택된 어느 하나 이상이고, 오염원이 염산인 경우 Mucilaginibacter polysacchareus, Dyella japonica, Actinocorallia aurantiaca, Pedobacter kyungheensi, Flavobacterium resistens, Pedobacter cryoconitis Flavobacterium spartansii으로 이루어진 군에서 선택된 어느 하나 이상이고, 오염원이 질산인 경우 Methylophilus rhizosphaerae, Pseudomonas silesiensis, Ralstonia pickettii Cupriavidus campinensis으로 이루어진 군에서 선택된 어느 하나 이상이고, 오염원이 불화수소인 경우 Bacillus marisflavi, Paenibacillus aceris, Paraburkholderia hospital, Halobacillus profundi, Clostridium puniceum, Bacillus plakortidis, Bacillus aryabhattai, Paenibacillus populi, Rhodanobacter xiangquanii Bordetella flabilis으로 이루어진 군에서 선택된 어느 하나 이상이고, 오염원이 황산인 경우 Micromonospora noduli, Actinospica acidiphila, Desulfohalotomaculum peckii Tumebacillus ginsengisoli으로 이루어진 군에서 선택된 어느 하나 이상인, 토양 오염원 예측 방법.
The method of any one of claims 11 to 18, wherein the relative dominance data of the microbial community in step (4) is the relative dominance data of a contaminant-specific indicator microorganism, and the index microorganism is Angustibacter luteus in the case of soil without a contaminant , Runella slithyformis, Cystobacter velatus, Geodermatophilus daqingensis, Pseudonocardia soli, Aquabacterium commune, and Skermanella rubra At least one selected from the group consisting of, When the contaminant is ammonia, at least one selected from the group consisting of Nitrosospira tenuis, Flavihumibacter sediminis, Flavobacterium saliperosum, Brevundimonas naejangsanensis, Actinotalea ferrariae, Nocardioides caricicola, Chryseobacterium montanum, Flavobacterium dankookense, and Pedobacter bauzanensis , and when the contaminant is hydrochloric acid , Mucilaginibacter polysacchareus, Dyella japonica, Actinocorallia aurantiaca, Pedobacter kyungheensi, Flavobacterium resistens, Pedobacter cryoconitis, and Flavobacterium spartansii , and at least one selected from the group consisting of, and the contaminant is In the case of nitric acid, at least one selected from the group consisting of Methylophilus rhizosphaerae, Pseudomonas silesiensis, Ralstonia pickettii, and Cupriavidus campinensis , and in the case of hydrogen fluoride, Bacillus marisflavi, Paenibacillus aceris, Paraburkholderia hospital, Halobacillus profundi, Clostridium puniceum, Bacillus plakortidis, Bacillus aryabhattai , At least one selected from the group consisting of Paenibacillus populi, Rhodanobacter xiangquanii and Bordetella flabilis , and when the pollutant is sulfuric acid, at least one selected from the group consisting of Micromonospora noduli, Actinospica acidiphila, Desulfohalotomaculum peckii and Tumebacillus ginsengisoli Method for predicting soil pollutants.
제20항에 있어서, 상기 (5) 단계의 인공신경망 모델을 훈련시키는 단계는 은닉층 뉴런을 7로 하는 단계인, 토양 오염원 예측 방법.
The method of claim 20, wherein the step of training the artificial neural network model in step (5) is a step of setting the number of hidden layer neurons to 7.
제1항 내지 제7항, 제9항, 제10항 중 어느 한 항에 따른 방법을 실행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.
A computer readable recording medium on which a computer program for executing the method according to any one of claims 1 to 7, 9 and 10 is recorded.
제11항 내지 제18항 중 어느 한 항에 따른 방법을 실행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.
A computer readable recording medium on which a computer program for executing the method according to any one of claims 11 to 18 is recorded.
KR1020200091768A 2020-07-23 2020-07-23 Soil Pollution Source Prediction Method using Artificial Neural Network Model KR102537092B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200091768A KR102537092B1 (en) 2020-07-23 2020-07-23 Soil Pollution Source Prediction Method using Artificial Neural Network Model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200091768A KR102537092B1 (en) 2020-07-23 2020-07-23 Soil Pollution Source Prediction Method using Artificial Neural Network Model

Publications (2)

Publication Number Publication Date
KR20220012683A KR20220012683A (en) 2022-02-04
KR102537092B1 true KR102537092B1 (en) 2023-05-25

Family

ID=80268532

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200091768A KR102537092B1 (en) 2020-07-23 2020-07-23 Soil Pollution Source Prediction Method using Artificial Neural Network Model

Country Status (1)

Country Link
KR (1) KR102537092B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116773465B (en) * 2023-08-25 2023-10-27 北京建工环境修复股份有限公司 Perfluoro compound pollution on-line monitoring method and system
CN117172578B (en) * 2023-11-02 2024-02-02 北京建工环境修复股份有限公司 Soil ecological environment restoration method and system based on microorganism identification

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
D. -H. Cho et al., Hydrocarbon pollution does not influence bacterial diversity as much as geographic location: a Korean case study, Int. J. Environ. Sci. Technol., Vol.12, pp1889-1898(2015)*
D. Shin et al., Fate and toxicity of spilled chemicals in groundwater and soil environment I: strong acids, Environ. Health Toxicol., Vol.33, e2018019(2018)*
I. Mustafa et al., Removal of Humic Acid from Peat Soils by Using AlCl3 prior to DNA Extraction, AIP Conf. Proc., Vol.1844, 030007(2017)*
M. Sakizadeh et al., Support vector machine and artificial neural network to model soil pollution: a case study in Semnan Province, Iran, Neural Comput. Appl., Vol.28, pp3229-3238(2017)*
N. Sangwan et al., Comparative Metagenomic Analysis of Soil Microbial Communities across Three Hexachlorocyclohexane Contamination Levels, PLoS One, Vol.7, e46219(2012)*

Also Published As

Publication number Publication date
KR20220012683A (en) 2022-02-04

Similar Documents

Publication Publication Date Title
Nkongolo et al. Advances in monitoring soil microbial community dynamic and function
Thijs et al. Comparative evaluation of four bacteria-specific primer pairs for 16S rRNA gene surveys
Bharagava et al. Applications of metagenomics in microbial bioremediation of pollutants: from genomics to environmental cleanup
Garner et al. Next generation sequencing approaches to evaluate water and wastewater quality
Schlaeppi et al. High‐resolution community profiling of arbuscular mycorrhizal fungi
Ligi et al. Characterization of bacterial communities in soil and sediment of a created riverine wetland complex using high-throughput 16S rRNA amplicon sequencing
Green et al. Denitrifying bacteria from the genus Rhodanobacter dominate bacterial communities in the highly contaminated subsurface of a nuclear legacy waste site
Panigrahi et al. Functional microbial diversity in contaminated environment and application in bioremediation
Coolon et al. Long-term nitrogen amendment alters the diversity and assemblage of soil bacterial communities in tallgrass prairie
Hazen et al. Advances in monitoring environmental microbes
Andreote et al. Assessing the diversity of bacterial communities associated with plants
TWI715564B (en) Prediction rule generation system, prediction system, prediction rule generation method and prediction method
Kim et al. Rapid phylogenetic dissection of prokaryotic community structure in tidal flat using pyrosequencing
Nguyen et al. Genome sequencing as a new window into the microbial community of membrane bioreactors–A critical review
KR102537092B1 (en) Soil Pollution Source Prediction Method using Artificial Neural Network Model
Bouskill et al. Seasonal and annual reoccurrence in betaproteobacterial ammonia‐oxidizing bacterial population structure
Yargicoglu et al. Review of biological diagnostic tools and their applications in geoenvironmental engineering
Sadeepa et al. Diversity of microbial communities in hot springs of Sri Lanka as revealed by 16S rRNA gene high-throughput sequencing analysis
Shi et al. Functional gene array-based ultrasensitive and quantitative detection of microbial populations in complex communities. mSystems 4: e00296-19
Jung et al. Assessment of microbial diversity bias associated with soil heterogeneity and sequencing resolution in pyrosequencing analyses
Paul et al. Metagenomic analysis of microbial communities in the soil-mousse surrounding of an Amazonian geothermal spring in Peru
KR20230039090A (en) Method and System for Determination of Stability of Wastewater Treatment Process Using Machine Learning Model
Martínez-Porchas et al. An efficient strategy using k-mers to analyse 16S rRNA sequences
Cardenas et al. Microbial community analysis using RDP II (Ribosomal Database Project II): methods, tools and new advances
Zhang et al. The impact of land-use change on the soil bacterial community in the Loess Plateau, China

Legal Events

Date Code Title Description
E90F Notification of reason for final refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant