KR102149495B1 - 환경 예측 모델의 훈련지표 최적화 장치 및 그 동작방법 - Google Patents

환경 예측 모델의 훈련지표 최적화 장치 및 그 동작방법 Download PDF

Info

Publication number
KR102149495B1
KR102149495B1 KR1020190101069A KR20190101069A KR102149495B1 KR 102149495 B1 KR102149495 B1 KR 102149495B1 KR 1020190101069 A KR1020190101069 A KR 1020190101069A KR 20190101069 A KR20190101069 A KR 20190101069A KR 102149495 B1 KR102149495 B1 KR 102149495B1
Authority
KR
South Korea
Prior art keywords
environmental
training
data
driving force
measurement data
Prior art date
Application number
KR1020190101069A
Other languages
English (en)
Inventor
오윤영
윤성택
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020190101069A priority Critical patent/KR102149495B1/ko
Priority to US17/637,251 priority patent/US20220284345A1/en
Priority to PCT/KR2020/011052 priority patent/WO2021034106A1/ko
Application granted granted Critical
Publication of KR102149495B1 publication Critical patent/KR102149495B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01WMETEOROLOGY
    • G01W1/00Meteorology
    • G01W1/10Devices for predicting weather conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Environmental & Geological Engineering (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Environmental Sciences (AREA)
  • Ecology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Atmospheric Sciences (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 환경 예측 모델의 훈련지표 최적화 장치 및 그 동작방법에 관한 것으로서, 일실시예에 따른 훈련지표 최적화 장치는 환경 계측 자료에 대한 기반데이터세트를 구성하는 전처리부와, 다해상도 웨이블렛 해석과 차원 축소 기법을 통해 구성된 기반데이터세트에 대한 동적 특성을 식별 및 추출하는 동적 특성 처리부와, 추출된 동적 특성에 기초하여 환경 계측 자료에 대한 구동력을 식별 및 평가하고, 평가 결과에 대응하여 핵심 특성치 그룹(key features group)을 선정하는 핵심 특성치 그룹 선정부 및 선정된 핵심 특성치 그룹과 환경 계측 자료를 입력으로 수신하여 환경 예측 모델에 대응되는 복수의 훈련지표 값을 제어하는 지표 최적화부를 포함한다.

Description

환경 예측 모델의 훈련지표 최적화 장치 및 그 동작방법{OPTIMIZATION APPARATUS FOR TRAINING CONDITIONS OF ENVIRONMENTAL PREDICTION MODEL AND OPERATING THEREOF}
본 발명은 환경 예측 모델의 훈련지표 최적화 장치 및 그 동작방법에 관한 것으로서, 보다 상세하게는 통합환경 모니터링을 위한 딥러닝 알고리즘의 훈련지표를 최적화하는 기술적 사상에 관한 것이다.
고전적인 RNN(recurrent neural network; 순환신경망)의 기울기 소실(vanishing gradient)과 장기기억의존성 문제를 해결하기 위해 고안된 LSTM(long-short term neural network; 장단기 기억네트워크)은 셀 스테이트(cell state)와 망각 게이트(forgot gate)를 이용한 유연한 가중치 조절을 통해 장기기억 의존성(long-term memory dependencies) 문제를 매우 효율적으로 다룰 수 있다.
LSTM은 게이트(gate)라고 불리는 시그모이드층(sigmoid layer)과, 점 단위 조합을 갖는 일종의 가중치 조절 함수군(functional group)을 이용하여 셀 스테이트를 개선 및 제어하며, 특히 망각 게이트를 이용한 선별적 업데이트를 통해 기존의 RNN에 비해 매우 유연한 적응성을 갖는 것을 특징으로 하고 있다.
LSTM에는 다양한 변종(variation)들이 존재하며, 대표적인 예시로써 Peenhole connection model (Gers and Schidhuber, 2000), Gated recurrent unit model (Cho et al., 2014), Depth gated RNN (Yao et al., 2015) 등을 들 수 있다.
그러나 기존의 많은 연구들과 개선된 모델들에도 불구하고, 데이터의 특성에 따라 어떤 LSTM 모델을 사용하는 것이 효율적이며, 또한 동일한 데이터에 대해서 같은 LSTM을 적용시에도 데이터의 어떤 특성(feature)을, 어떠한 훈련 조건(training conditions or options) 하에서 훈련시키는 것이 최적의 예측능 발휘에 효과적 인지를 나타내는 '훈련조건 최적화(optimization conditions for model training) 문제'에서는 공인된 정량화 기법이 없으며, 개별 사용자들의 경험에 따른 시행 착오 기반의 방법(trial-error based methods)에 의존하고 있다.
한국공개특허 제10-2017-0007151호 "인공 신경 네트워크를 실행하는 방법 및 장치"
본 발명은 데이터의 특성과 모델링 목적에 따른 최적 훈련조건을 사전에 결정할 수 있는 훈련지표 최적화 장치 및 그 방법을 제공하고자 한다.
또한, 본 발명은 최적 훈련조건을 사전에 결정함으로써, 일반적인 LSTM 모델들에 대해서도 훈련시간 단축, 핵심 특성에 대한 집중학습 및 과적합을 방지할 수 있는 훈련지표 최적화 장치 및 그 방법을 제공하고자 한다.
또한, 본 발명은 최적 훈련조건을 사전에 결정함으로써, 기존의 LSTM 모델들에 대해서도 입력자료에 따른 실시간 모델 업데이트를 통해 예측능을 보다 더 향상시킴과 동시에 최적훈련지표 선정을 위한 정량적 근거를 제시하여 다양한 환경자료들을 이용한 통합환경모니터링, 해석, 예측 및 대응시스템의 구축에서 보다 효율적인 환경 예측 모델을 제공할 수 있는 훈련지표 최적화 장치 및 그 방법을 제공하고자 한다.
일실시예에 따른 훈련지표 최적화 장치는 환경 계측 자료에 대한 기반데이터세트를 구성하는 전처리부와, 다해상도 웨이블렛 해석과 차원 축소 기법을 통해 구성된 기반데이터세트에 대한 동적 특성을 식별 및 추출하는 동적 특성 처리부와, 추출된 동적 특성에 기초하여 환경 계측 자료에 대한 구동력을 식별 및 평가하고, 평가 결과에 대응하여 핵심 특성치 그룹(key features group)을 선정하는 핵심 특성치 그룹 선정부 및 선정된 핵심 특성치 그룹과 환경 계측 자료를 입력으로 수신하여 환경 예측 모델에 대응되는 복수의 훈련지표 값을 제어하는 지표 최적화부를 포함할 수 있다.
일측에 따르면, 환경 계측 자료는, 실시간으로 계측되는 수문-환경 시계열 자료를 포함하고, 수문-환경 시계열 자료는, 수문 기상 데이터, 하천 수위 데이터, 지하 수위 데이터, 수질 데이터, 온도 데이터, EC 데이터, 동위원소비율 데이터, 토양 가스 데이터 및 미세먼지 데이터 중 적어도 하나 이상의 환경 데이터를 포함할 수 있다.
일측에 따르면, 전처리부는, 환경 계측 자료의 데이터세트의 관측항목과 관측시간 해상도에 따른 데이터 매트릭스를 기반데이터세트로서 구성 및 정렬하고, 정렬된 기반데이터세트에 대한 시간영역 해상도 또는 시간관측 간격 별 결측자료를 보간 처리 하고, 보간 처리된 기반데이터세트의 자료를 노이즈 필터링하며, 노이즈 필터링된 결과를 표준화 및 정규화할 수 있다.
일측에 따르면, 동적 특성 처리부는, 구성된 기반데이터세트에 대한 시간영역 해상도에 따른 다해상도 웨이블렛 해석을 통해 시간-주파수 영역에 대한 웨이블렛 에너지 분포 데이터를 도출하고, 도출된 웨이블렛 에너지 분포 데이터에 대하여 차원 축소 기법을 적용하여 잠재 환경 구동력 후보군을 선정할 수 있다.
일측에 따르면, 동적 특성 처리부는, 선정된 잠재 환경 구동력 후보군의 시간영역 해상도별 시간변화에 따른 변동특성을 추출하고, 추출된 변동특성에 기초하여 동적 특성을 추출 및 정량화할 수 있다.
일측에 따르면, 차원 축소 기법은, 주성분/독립성분 분석(principle/independent component analysis; PCA/ICA), 시계열 요인분석(time series factor analysis, TSFA), 경험적모드분석(empirical mode decomposition; EMD) 및 다해상도상태공간모델(multiresoltuion state-space model; MRSSM) 중 적어도 하나 이상의 기법을 포함할 수 있다.
일측에 따르면, 핵심 특성치 그룹 선정부는, 잠재 환경 구동력 후보군의 잠재 환경 구동력과, 환경 계측 자료 간 다해상도 상관성을 판단하되, 잠재 환경 구동력과 관측자료간 시간지연 및 위상변화를 반영한 상관성 판단을 수행하고, 수행된 상관성 판단 결과에 기초하여, 잠재 환경 구동력과 관측자료간 최대상관스케일을 선정할 수 있다.
일측에 따르면, 핵심 특성치 그룹 선정부는, 잠재 환경 구동력과 관측자료간 웨이블렛 에너지 비율과 선정된 최대상관스케일의 상관관계를 이용한 구동력을 식별하고, 선정된 최대상관스케일의 결합에너지비율과 차원축소모델의 설명력 지표간의 선형결합을 처리하여 상대적 기여도를 평가하며, 평가된 상대적 기여도에 기초하여 핵심 특성치 그룹을 선정할 수 있다.
일측에 따르면, 핵심 특성치 그룹 선정부는, 잠재 환경 구동력 후보군 및 핵심 특성치 그룹 중 적어도 하나 이상을 이용하여 훈련되는 사전 조정된 LSTM 네트워크(well-tuned LSTM networks)를 구축하고, 사전 조정된 LSTM 네트워크를 이용하여 잠재 환경 구동력을 검증할 수 있다.
일측에 따르면, 지표 최적화부는, 핵심 특성치 그룹과 환경 계측 자료를 입력으로 하는 장단기기억네트워크(Long-short Term Memory Network) 모델을 구축하고, 핵심 특성치 그룹의 시간-주파수 영역에 기초하여 복수의 훈련지표 값을 사전 정량화(pre-quantification)할 수 있다.
일측에 따르면, 지표 최적화부는, 환경 계측 자료로부터 측정되는 관측값과, 장단기기억네트워크 모델로부터 예측되는 예측값의 복합모델검증지표에 기초한 잔차검증 및 잔차의 다해상도해석에 기반하여 적어도 하나 이상의 예측 모델을 선정하고, 선정된 적어도 하나 이상의 예측 모델 중 어느 하나의 예측 모델 또는 둘 이상의 예측 모델이 결합한 결합 예측 모델(combined prediction model)에 기초하여 사전 정량화된 복수의 훈련지표를 정량화할 수 있다.
일측에 따르면, 지표 최적화부는, 정량화된 복수의 훈련지표 중 적어도 둘 이상의 훈련지표를 이용하여 원 자료의 특성에 따른 훈련지표 최적화 모형을 구성할 수 있다. 예를 들면, 원 자료는 환경 계측 자료일 수 있다.
일측에 따르면, 복수의 훈련지표 값은, 훈련기간(training period, T), 최소 배치 사이즈(minibatch size, mbs), 은닉층(hidden layers, HL)의 개수 및 최적 반복회수(epochs, E) 중 적어도 하나의 값을 포함할 수 있다.
일실시예에 따른 훈련지표 최적화 방법은 전처리부에서, 환경 계측 자료에 대한 기반데이터세트를 구성하는 단계와, 동적 특성 처리부에서, 다해상도 웨이블렛 해석과 차원 축소 기법을 통해 구성된 기반데이터세트에 대한 동적 특성을 식별 및 추출하는 단계와, 핵심 특성치 그룹 선정부에서, 추출된 동적 특성에 기초하여 환경 계측 자료에 대한 구동력을 식별 및 평가하고, 평가 결과에 대응하여 핵심 특성치 그룹(key features group)을 선정하는 단계 및 지표 최적화부에서, 선정된 핵심 특성치 그룹과 환경 계측 자료를 입력으로 수신하여 환경 예측 모델의 복수의 훈련지표 값을 제어하는 단계를 포함할 수 있다.
일측에 따르면, 동적 특성을 식별 및 추출하는 단계는, 구성된 기반데이터세트에 대한 시간영역 해상도에 따른 다해상도 웨이블렛 해석을 통해 시간-주파수 영역에 대한 웨이블렛 에너지 분포 데이터를 도출하고, 도출된 웨이블렛 에너지 분포 데이터에 대하여 차원 축소 기법을 적용하여 잠재 환경 구동력 후보군을 선정하는 단계 및 선정된 잠재 환경 구동력 후보군의 시간영역 해상도별 시간변화에 따른 변동특성을 추출하고, 추출된 변동특성에 기초하여 동적 특성을 추출 및 정량화하는 단계를 더 포함할 수 있다.
일측에 따르면, 핵심 특성치 그룹을 선정하는 단계는, 잠재 환경 구동력 후보군의 잠재 환경 구동력과, 환경 계측 자료 간 다해상도 상관성을 판단하되, 잠재 환경 구동력과 관측자료간 시간지연 및 위상변화를 반영한 상관성 판단을 수행하고, 수행된 상관성 판단 결과에 기초하여, 잠재 환경 구동력과 관측자료간 최대상관스케일을 선정하는 단계 및 잠재 환경 구동력과 관측자료간 웨이블렛 에너지 비율과 선정된 최대상관스케일의 상관관계를 이용하여 구동력을 식별하고, 선정된 최대상관스케일의 결합에너지비율과 차원축소모델의 설명력 지표간의 선형결합을 처리하여 상대적 기여도를 평가하며, 평가된 상대적 기여도에 기초하여 핵심 특성치 그룹을 선정하는 단계를 더 포함할 수 있다.
일측에 따르면, 복수의 훈련지표 값을 제어하는 단계는, 핵심 특성치 그룹과 환경 계측 자료를 입력으로 하는 장단기기억네트워크(Long-short Term Memory Network) 모델을 구축하고, 핵심 특성치 그룹의 시간-주파수 영역에 기초하여 복수의 훈련지표 값을 사전 정량화(pre-quantification)하는 단계와, 환경 계측 자료로부터 측정되는 관측값과, 장단기기억네트워크 모델로부터 예측되는 예측값의 복합모델검증지표에 기초한 잔차검증 및 잔차의 다해상도해석에 기반하여 적어도 하나 이상의 예측 모델을 선정하고, 선정된 적어도 하나 이상의 예측 모델 중 어느 하나의 예측 모델 또는 둘 이상의 예측 모델이 결합한 결합 예측 모델(combined prediction model)에 기초하여 사전 정량화된 복수의 훈련지표를 정량화하는 단계 및 정량화된 복수의 훈련지표 중 적어도 둘 이상의 훈련지표를 이용하여 최적 훈련지표모형을 구성하는 단계를 더 포함할 수 있다.
일측에 따르면, 복수의 훈련지표 값은 훈련기간(training period, T), 최소 배치 사이즈(minibatch size, mbs), 은닉층(hidden layers, HL)의 개수 및 최적 반복회수(epochs, E) 중 적어도 하나의 값을 포함할 수 있다.
일실시예에 따르면, 데이터의 특성과 모델링 목적에 따른 최적 훈련조건을 사전에 결정할 수 있다.
일실시예에 따르면, 최적 훈련조건을 사전에 결정함으로써, 일반적인 LSTM 모델들에 대해서도 훈련시간 단축, 핵심 특성에 대한 집중학습 및 과적합을 방지할 수 있다.
일실시예에 따르면, 최적 훈련조건을 사전에 결정함으로써, 일반적인 LSTM 모델들에 대해서도 입력자료에 대한 실시간 모델 업데이트를 통해 예측능을 보다 더 향상시킴과 동시에 최적훈련지표 선정을 위한 정량적 근거를 제시함으로써 다양한 환경자료들을 이용한 통합환경모니터링, 해석, 예측 및 대응시스템 구축에 보다 효율적인 환경 예측 모델을 제공할 수 있다.
도 1은 일실시예에 따른 환경 예측 모델의 훈련지표를 최적화하는 훈련지표 최적화 장치의 적용 개념을 설명하기 위한 도면이다.
도 2는 일실시예에 따른 훈련지표 최적화 장치의 구성을 설명하기 위한 도면이다.
도 3a 내지 도 3h는 일실시예에 따른 훈련지표 최적화 장치에서 토양 가스를 환경 계측 자료로 수신하여 동작하는 예시를 설명하기 위한 도면이다.
도 4a 내지 도 4f는 일실시예에 따른 훈련지표 최적화 장치에서 하천/ 지하수 수위(RWL/GWL) 및 전기 전도도(RWEC/ GWEC) 계측 자료를 환경 계측 자료로 수신하여 동작하는 예시를 설명하기 위한 도면이다.
도 5a 내지 도 5c는 일실시예에 따른 최적훈련지표모형을 구성하는 예시를 설명하기 위한 도면이다.
도 6은 일실시예에 따른 훈련지표 최적화 방법을 설명하기 위한 도면이다.
본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.
본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 "~사이에"와 "바로~사이에" 또는 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
본 명세서에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 일실시예에 따른 환경 예측 모델의 훈련지표를 최적화하는 훈련지표 최적화 장치의 적용 개념을 설명하기 위한 도면이다.
도 1을 참조하면, 참조부호 100은 일실시예에 따른 환경 예측 모델의 훈련지표 최적화 장치를 설명하기 위한 것으로, 환경 예측 모델은 MR-LSTM(multi-resolution long-short term neural network) 모델일 수 있다.
참조부호 100에 따르면, 일실시예에 따른 훈련지표 최적화 장치는 실시간으로 계측되는 환경 계측 자료들 및 환경변수 계측자료들에 대해, 다해상도 시간-주파수 영역의 해석방법을 이용하여 관측값 변화의 원인이 되는 핵심적인 환경구동력들(key environmental drivers)과 그 효과들을 보다 체계적으로 분리 및 식별하고, 기여도에 대한 정량적 평가(evaluation)를 수행할 수 있다.
또한, 훈련지표 최적화 장치는 정량적 평가를 기반으로 하여 실제 관측값과 관측값에 내재되어 있는 환경요인을 동시에 이용하는 LSTM 심층신경망(deep learning neural network)을 구성할 수 있다.
또한, 훈련지표 최적화 장치는 최적 학습을 위한 특성치 선정 및 예측의 인과성에 대한 정량적인 해석의 근거를 제시하고, 평가 및 예측의 대상이 되는 환경계측 자료 및 핵심환경요인에 대한 시-공간적 변동 특성에 대해 보다 집중적인 학습을 가능하게 하여, 최적훈련 조건을 사전에 선정하거나 사후 개선 시 훈련시간 단축, 모델의 적합도 및 예측능 향상을 기대할 수 있다.
또한, 훈련지표 최적화 장치는 특정 환경계측 자료들의 종류에 구속받지 않고 실시간으로 계측되는 다양한 목적변수들의 분리, 식별, 평가 및 예측에 범용적으로 활용 가능하며, 특히 통합환경모니터링 해석 및 관리시스템에서의 위험 신호의 조기 식별 및 탐지, 특정 목적 환경변수와 복합 환경요인에 대한 취약성/위해성 평가(vulnerability/risk assessment) 및 이를 기반으로 하는 실시간 대응 시스템(real time response system)의 구현과 그 운용 있어 효율성 향상에 크게 기여할 수 있다.
예를 들면, 환경 계측 자료들 및 환경변수 계측자료들은 수문-환경시계열 자료(수문기상자료, 하천 및 지하수 수위, 수질, 온도, EC자료(토양/ 하천수/ 지하수 전기전도도 자료), 동위원소비율), 토양가스자료(CO2, NO2, CO, NO, SO2, Rn) 및 미세먼지 자료(PM10, PM2.5)를 포함할 수 있다.
구체적으로, 훈련지표 최적화 장치는 환경 계측 자료들 및 환경변수 계측자료들의 구조적 특성과 인과성의 근거를 차원축소모형 (예를 들면 다해상도상태공간모형)을 통해 확보할 수 있다.
참고로, 일반적인 요인 분석(factor analysis)은 다변량데이터의 차원축소를 통한 주요요인의 정량화 기법에 해당한다. 또한, 상태공간모형 중 동적요인분석(dynamic factor analysis)은 시계열분석과 요인분석의 결합을 통한 관측자료에 내재하는 공통요인을 추출하고 분석할 수 있다. 또한, 시계열 분석(time series analysis)은 시간 순서로 연속적으로 관측되는 자료들에 대한 추계적인(stochastic) 분석 기법의 총칭으로, 광범위한 분야에 적용되는 보통명사로 해석될 수 있다.
한편, 일실시예에 따른 훈련지표 최적화 장치는 웨이블렛 해석기반의 다해상도상관성 분석을 통해 잠재구동력과 관측자료의 시간-주파수영역의 유사성을 정량화함으로써 환경 구동력을 구체적으로 식별하고, 영향력을 정량적으로 평가할 수 있다.
예를 들면, 웨이블렛 해석은 하기 수학식 1 내지 4를 통해 도출되는 웨이블렛 필터링된 관찰 함수에 의해 관측값을 산출할 수 있다.
[수학식1]
Figure 112019084736978-pat00001
여기서,
Figure 112019084736978-pat00002
는 웨이블렛 모 함수(wavelet mother function), a는 스케일 계수(scale coefficient), b는 전이 계수(translation coefficient)를 나타내고, 스케일 계수는 대표 주기(represent period)의 사이즈를 갖는 계수이며, 변형 계수는 시간 축(time axis)에서의 이동 위치에 대응되는 계수일 수 있다.
[수학식2]
Figure 112019084736978-pat00003
여기서,
Figure 112019084736978-pat00004
는 긴 스케일(long scale) 및 저주파수(low frequency)에 대응되는 스케일링 함수(scaling function),
Figure 112019084736978-pat00005
는 짧은 스케일(short scale) 및 고주파수(high frequenecy)에 대응되는 웨이블렛 함수(wavelet function)일 수 있다.
[수학식3]
Figure 112019084736978-pat00006
여기서,
Figure 112019084736978-pat00007
는 i번째 웨이블렛 필터링된 관측변수(wavelet filtered observation)(
Figure 112019084736978-pat00008
),
Figure 112019084736978-pat00009
는 j번째 잠재 공통인자(latent common factor)(
Figure 112019084736978-pat00010
),
Figure 112019084736978-pat00011
는 동적요인부하량(dynamic factor loading),
Figure 112019084736978-pat00012
는 i번째 상수 레벨 파라미터(constant level parameter),
Figure 112019084736978-pat00013
는 잔차항(residual term)에 대응되는 특정인자(specific factor)일 수 있다.
[수학식4]
Figure 112019084736978-pat00014
여기서,
Figure 112019084736978-pat00015
는 j번째 잠재 공통인자(latent common factor), p는 최적 자기회귀 차수(optimal autoregressive order),
Figure 112019084736978-pat00016
는 백색잡음(white noise)일 수 있다.
본 명세서에서 사용하는 웨이블렛 해석(wavelet analysis)이라 함은, 시계열자료의 웨이블렛 변환(wavelet transform)을 이용한 시간-주파수영역의 다해상도 분석 기법으로 해석될 수 있다. 웨이블렛 해석은 관측자료를 다양한 시간-주파수 영역으로 분해하는데 특화되어 있다. 즉, 웨이블렛 해석은 시간 영역과 주파수 영역을 동시에 분석하는 방법의 하나로, 연속 신호와 이산 신호에 모두 적용할 수 있으며, 결함 진단에 널리 적용될 수 있는 기법이다.
FFT(fast fourier transform)는 측정 데이터 내에서 정보가 시간 평균이 되므로, 시간 구간에서의 정보를 잃어버리는 단점이 있다. 따라서 웨이블렛 변환은 특히 시간에 대한 결함 주파수가 변화하는 비정상 신호(non-stationary signal)나 과도 신호(transient signal)의 분석에 유용하다. 일반적인 단순 푸리에 변환(STFT: short-time Fourier transform)이나 가보 변환(Gabor transform)이 단일주파수 대역내에서만 한정되는 문제를 대체할 새로운 크기의 고정된(fixed) 필터 창 함수(window)를 사용하는 반면, 웨이블렛 변환은 고주파 대역에서는 폭이 좁은 창 함수를, 그리고 저주파 대역에서는 폭이 넓은 창 함수를 가변적으로 사용한다. 따라서 웨이블렛 변환은 상대 대역폭 불변 해석(constant relative bandwidth analysis)이라고도 하며 주파수 대역의 변화 폭이 항상 주파수 값과 비례하는 특징을 갖는다.
일실시예에 따른 훈련지표 최적화 장치는 웨이블렛 해석에 기반하여 환경 계측 자료를 구성하는 각 수치에 대해 시계열로 발생하는 변화를 고려한다. 따라서, 훈련지표 최적화 장치는 시간 영역과 주파수 영역을 동시에 분석이 가능하며, 연속 신호와 이산 신호를 모두 모니터링할 수 있다.
또한, 일실시예에 따른 훈련지표 최적화 장치는 핵심 특성치 그룹(key features group)을 선정하고, 선정된 핵심 특성치 그룹과 환경 계측 자료를 입력으로 활용하여 환경 계측 자료의 핵심적인 시공간적 변화특성(spatiotemporal feature)을 보다 집중적으로 학습시킴으로써 관측치와 요인에 대한 예측력을 지속적으로 향상 시킬 수 있다.
즉, 일실시예에 따른 훈련지표 최적화 장치는 핵심 특성치 그룹과 환경 계측 자료를 입력으로 활용하는 심층신경망학습모델(deep learning model)을 구축하여, 환경 계측 자료의 자연배경변동의 핵심적인 시공간적 변화특성을 집중적으로 학습시킴으로써, 관측치와 요인에 대한 예측력을 지속적으로 향상 시킬 수 있다.
결국, 본 발명을 이용하면, 수문-환경 순환(hydro-environmental cycle)과 연관되어 관측되는 하천수, 지하수의 수위 및 EC (RWL, GWL, RWEC, GWEC), Soil gas concentration and flux (CO2, FCO2, CH4, C2H6)의 주요 구동력을 식별하고 기여도를 평가할 수 있으며, 관측자료와 주요환경구동력을 입력자료로 하는 Long-short term memory network (LSTM)을 이용한 deep learning 예측모델을 통해 RWL/RWEC/GWL/GWEC/CO2/FCO2/CH4/C2H6에 대한 예측력 향상과 ANN 모델의 최대 난점 중 하나인 hyper parameter 선정의 인과성 및 훈련 가중치 산정의 비선형성 문제에 대한 해석의 근거를 제시할 수 있다.
보다 구체적인 예를 들면, 본 발명은 기설정된 기간동안 계측된 일단위 하천수위, 지하수위, 강우자료를 이용하여 지하수위 변동의 주요 구동력을 식별하고 기여도를 평가할 수 있으며, 107일간 계측된 6시간단위 수문기상변수(강우량, 대기온도, 상대습도, 일사량, 풍속), 깊이에 따른 토양특성변수 (토양수분, 토양전기전도도, 토양온도) 및 토양호흡변수 (CO2 농도, CO2 flux, 수분함량)를 이용하여 지표 CO2 플럭스의 주요 구동력을 식별하고 기여도를 정량적으로 평가할 수도 있다.
일실시예에 따른 훈련지표 최적화 장치에 관한 구성은 이후 실시예 도 2를 통해 보다 구체적으로 설명하기로 한다.
도 2는 일실시예에 따른 훈련지표 최적화 장치의 구성을 설명하기 위한 도면이다.
다시 말해, 도 2는 도 1을 통해 설명한 일실시예에 따른 훈련지표 최적화 장치의 구현 예를 설명하는 도면으로, 이후 도 2를 통해 설명하는 내용 중 일실시예에 따른 훈련지표 최적화 장치를 통해 설명한 내용과 중복되는 설명은 생략하기로 한다.
도 2를 참조하면, 일실시예에 따른 훈련지표 최적화 장치(200)는 데이터의 특성과 모델링 목적에 따른 최적 훈련조건을 사전에 결정할 수 있다.
또한, 훈련지표 최적화 장치(200)는 최적 훈련조건을 사전에 결정함으로써, 일반적인 LSTM 모델들에 대해서도 훈련시간 단축, 핵심 특성에 대한 집중학습 및 과적합을 방지할 수 있다.
또한, 훈련지표 최적화 장치(200)는 최적 훈련조건을 사전에 결정함으로써, 일반적인 LSTM 모델들에 대해서도 입력자료에 대한 실시간 모델 업데이트를 통해 예측능을 보다 더 향상시킴과 동시에 최적훈련지표 선정을 위한 정량적 근거를 제시함으로써 다양한 환경자료들을 이용한 통합환경모니터링, 해석, 예측 및 대응시스템 구축에 보다 효율적인 환경 예측 모델을 제공할 수 있다.
즉, 일실시예에 따른 훈련 지표 최적화 장치(200)는 기존 LSTM 모델과 관련된 딥 러닝(deep learning) 기법들의 공통적인 한계점인 사전 훈련 최적화 조건을 설정(훈련지표 최적화)하고, 설정 이유와 사후(훈련 후) 예측능에 대한 인과성 판단의 정량적인 근거를 제시할 수 있다.
이를 위해, 훈련지표 최적화 장치(200)는 전처리부(210), 동적특성 처리부(220), 핵심 특성치 그룹 선정부(230) 및 지표 최적화부(240)를 포함할 수 있다.
일실시예에 따른 전처리부(210)는 환경 계측 자료에 대한 기반데이터세트를 구성할 수 있다.
일측에 따르면, 환경 계측 자료는 실시간으로 계측되는 수문-환경 시계열 자료를 포함할 수 있으며, 수문-환경 시계열 자료는 수문 기상 데이터, 하천 수위 데이터, 지하 수위 데이터, 수질 데이터, 온도 데이터, EC 데이터, 동위원소비율 데이터, 토양 가스 데이터 및 미세먼지 데이터 중 적어도 하나 이상의 환경 데이터를 포함할 수 있다.
일측에 따르면, 전처리부(210)는 환경 계측 자료의 데이터세트의 관측항목과 관측시간 해상도에 따른 데이터 매트릭스를 기반데이터세트로서 구성 및 정렬하고, 정렬된 기반데이터세트에 대한 시간영역 해상도 또는 시간관측 간격 별 결측자료를 보간 처리 하고, 보간 처리된 기반데이터세트의 자료를 노이즈 필터링하며, 노이즈 필터링된 결과를 표준화 및 정규화할 수 있다.
예를 들면, 전처리부(210)는 복합 환경시계열 계측자료 데이터셋인 기반데이터세트의 관측항목과 관측시간 해상도(스케일)의 재조정 및 목적기간에 따른 변수항목 재조정을 통해 격간 매트릭스(panel matrix)를 구성 및 정렬할 수 있으며, 이렇게 정렬되는 매트릭스가 기반 데이터세트로 해석될 수 있다.
예를 들면, 스케일은 시간영역 해상도를 의미할 수 있으며, 시간영역 해상도는 시계열 계측자료의 시간 영역이 기 설정된 주기(period)로 구분된 복수의 영역 각각을 의미할 수 있다.
또한, 결측자료는 레코드에 해당하는 데이터가 존재하지 않거나 레코드에 대해 자료가 없는 요소로 해석될 수 있다.
또한, 전처리부(210)는 푸리에/웨이블렛 기반(Fourier/wavelet-based)의 다해상도 필터뱅크를 이용하여 노이즈 필터링을 수행할 수 있다.
한편, 전처리부(210)는 노이즈 필터링된 결과를 기 공지된 표준화 및 정규화 기법을 통해 표준화 및 정규화할 수 있다.
일실시예에 따른 동적 특성 처리부(220)는 다해상도 웨이블렛 해석과 차원 축소 기법을 통해 구성된 기반데이터세트에 대한 동적 특성을 식별 및 추출할 수 있다.
일측에 따르면, 동적 특성 처리부(220)는 구성된 기반데이터세트에 대한 시간영역 해상도에 따른 다해상도 웨이블렛 해석을 통해 시간-주파수 영역에 대한 웨이블렛 에너지 분포 데이터를 도출하고, 도출된 웨이블렛 에너지 분포 데이터에 대하여 차원 축소 기법을 적용하여 잠재 환경 구동력 후보군(potential environmental drivers, PEDs)을 선정할 수 있다.
예를 들면, 잠재 환경 구동력 후보군은 다수의 구동력 중 실제 관측되고 분석된 자료의 구동력이 될 수 있는 후보들을 의미할 수 있다.
보다 구체적인 예를 들면, 잠재 환경 구동력 후보군은 주 대상 관측변수의 변화를 유발하는 환경적 원인으로 해석될 수 있으며, 환경 계측 자료가 토양 가스인 경우에 토양가스의 농도/플럭스 및 이들의 시변특성/시공간특성의 변화를 유발하는 원인으로 해석될 수 있다.
다시 말해, 동적 특성 처리부(220)는 전처리부(210)를 통해 수신한 기반데이터세트의 시간영역 해상도에 따른 다해상도 스펙트럴 분석 기반의 시간-주파수 영역의 웨이블렛 에너지 분포를 도출할 수 있다.
예를 들면, 차원 축소 기법은 주성분/독립성분 분석(principle/independent component analysis; PCA/ICA), 시계열 요인분석(time series factor analysis, TSFA), 경험적모드분석(empirical mode decomposition; EMD) 및 다해상도상태공간모델(multiresoltuion state-space model; MRSSM) 중 적어도 하나 이상의 기법을 포함할 수 있다.
즉, 동적특성 처리부(220)는 상술한 차원 축소 기법을 통해 최적 잠재 환경 구동력 추출을 위한 후보모델들을 선정하고, 선정된 후보모델들 각각에 대응되는 주요 잠재 환경 구동력 후보군을 선정할 수 있다.
일측에 따르면, 동적특성 처리부(220)는 선정된 잠재 환경 구동력 후보군의 시간영역 해상도별 시간변화에 따른 변동특성을 추출하고, 추출된 변동특성에 기초하여 동적 특성을 추출 및 정량화할 수 있다.
일실시예에 따른 핵심 특성치 그룹 선정부(230)는 추출된 동적 특성에 기초하여 환경 계측 자료에 대한 구동력을 식별 및 평가하고, 평가 결과에 대응하여 핵심 특성치 그룹(key features group)을 선정할 수 있다.
예를 들면, 환경 계측 자료에 대한 구동력은 실제 환경 계측 자료의 변동을 지배하는 복합적 환경요인을 나타내는 일반 명사를 의미할 수 있다.
일측에 따르면, 핵심 특성치 그룹 선정부(230)는 잠재 환경 구동력 후보군의 잠재 환경 구동력과, 환경 계측 자료 간 다해상도 상관성을 판단하되, 잠재 환경 구동력과 관측자료간 시간지연 및 위상변화를 반영한 상관성 판단을 수행하고, 수행된 상관성 판단 결과에 기초하여, 잠재 환경 구동력과 관측자료간 최대상관스케일을 선정할 수 있다.
예를 들면, 최대상관스케일은 잠재구동력과 관측자료간의 다해상도 상관관계 및 교차상관관계를 기반으로 하는 최대상관관계의 시간-주파수 밴드(band)일 수 있으며, 최대상관은 다해상도 상관관계 및 교차상관관계의 분석을 통해 도출되는 복수의 결과값들 중에서 상관도가 가장 높은 결과를 의미할 수 있다.
일측에 따르면, 핵심 특성치 그룹 선정부(230)는 잠재 환경 구동력과 관측자료간 웨이블렛 에너지 비율과 선정된 최대상관스케일의 상관관계를 이용하여 구동력을 식별하고, 선정된 최대상관스케일의 결합에너지비율과 차원축소모델의 설명력 지표간의 선형결합을 처리하여 상대적 기여도를 평가하며, 평가된 상대적 기여도에 기초하여 핵심 특성치 그룹을 선정할 수 있다.
다시 말해, 핵심 특성치 그룹 선정부(230)는 잠재 환경 구동력 후보군을 다해상도 시간-주파수 상관성/ 교차 상관성 진단을 통해 식별(identification)하여 (핵심) 구동력을 선정할 수 있다.
예를 들면, 상대적 기여도는 최대상관스케일의 결합에너지비율과 최적 잠재 환경 구동력 선정모델들의 구동력 선정 지표들(factor loading or correlations)간의 선형결합을 통한 유효동적 효율(t, Def)에 기초하여 평가될 수 있으며, 여기서, t는 최대상관스케일 (cycle), Def는 기여도 비율(%)을 의미할 수 있다.
바람직하게는, 기여도 비율은 하기 수학식 5를 통해 도출될 수 있다.
[수학식5]
Figure 112019084736978-pat00017
여기서,
Figure 112019084736978-pat00018
는 동적요인 부하량(dynamic factor loading),
Figure 112019084736978-pat00019
는 최대상관스케일의 결합에너지비율일 수 있다.
즉, 평가된 상대적 기여도는 어떤 요인에 의해서 기반데이터세트의 급격한 변화가 발생했는지를 판단하는데 사용될 수 있으며, 식별 및 평가된 구동력에 기초하여 발생한 현상에 대한 최적 대응 시나리오를 제공하도록 지원할 수 있다.
다시 말해, 핵심 특성치 그룹 선정부(230)는 유효동적 효율(t, Def) 기반의 최적 LSTM 훈련지표 선정을 위한 목표변수별 핵심 특성치 그룹을 선정할 수 있다.
일측에 따르면, 핵심 특성치 그룹 선정부(230)는 잠재 환경 구동력 후보군 및 핵심 특성치 그룹 중 적어도 하나 이상을 이용하여 훈련되는 사전 조정된 LSTM 네트워크(well-tuned LSTM networks)를 구축하고, 사전 조정된 LSTM 네트워크를 이용하여 잠재 환경 구동력을 검증할 수 있다.
예를 들면, 사전 조정된 LSTM 네트워크는 최적 훈련 조건을 선정하기 위한 후보군으로 잠재 환경 구동력 후보군을 포함하여 구성되는 LSTM 네트워크일 수 있다.
결국, 일실시예에 따른 훈련지표 최적화 장치(200)를 이용하면 시계열 데이터에 기초한 환경 계측 자료에 대해 시간에 따라 변화하는 다양한 환경요인들의 구조적 특성을 반영할 수 있다. 또한, 다해상도 시간-주파수 영역의 해석방법을 사용하여 관측값 변화의 원인이 되는 핵심적인 환경구동력들(key environmental drivers)과 그 효과들을 보다 체계적으로 분리, 식별할 수 있다.
일실시예에 따른 지표 최적화부(240)는 선정된 핵심 특성치 그룹과 환경 계측 자료를 입력으로 수신하여 환경 예측 모델에 대응되는 복수의 훈련지표 값을 제어할 수 있다.
예를 들면, 복수의 훈련지표 값은 훈련기간(training period, T), 최소 배치 사이즈(minibatch size, mbs), 은닉층(hidden layers, HL)의 개수 및 최적 반복회수(epochs, E) 중 적어도 하나의 값을 포함할 수 있다. 여기서, 배치 사이즈는 1회의 훈련(1 epoch)에 사용되는 훈련 구간의 크기를 의미할 수 있다.
일측에 따르면, 지표 최적화부(240)는 핵심 특성치 그룹과 환경 계측 자료를 입력으로 하는 장단기기억네트워크(Long-short Term Memory Network) 모델을 구축하고, 핵심 특성치 그룹의 시간-주파수 영역에 기초하여 복수의 훈련지표 값을 사전 정량화(pre-quantification)할 수 있다.
예를 들면, 구축된 장단기기억네트워크 모델은 식별된 핵심 구동력을 이용하여 최고상관주파수 대역에서 보다 집중된 학습을 통해 구축되고, 보다 개선되며, 선별 및 강화된 네트워크일 수 있다.
다시 말해, 지표 최적화부(240)는 최대상관스케일의 최고상관주파수 대역에 기초하여 복수의 훈련지표 값을 사전 정량화할 수 있다.
여기서, 최대상관스케일은 단일 주파수로 정해지는 것이 아니라, 주파수 구간(band)으로 정해지므로, 주파수 구간(예를 들면, D1 내지 D3)을 특정하고, 다양한 훈련지표들을 조합하여 구축된 장단기기억네트워크 모델을 갱신(update)할 수 있다.
일측에 따르면, 지표 최적화부(240)는 환경 계측 자료로부터 측정되는 관측값과, 장단기기억네트워크 모델로부터 예측되는 예측값의 복합모델검증지표에 기초한 잔차검증 및 잔차의 다해상도해석에 기반하여 적어도 하나 이상의 예측 모델을 선정하고, 선정된 적어도 하나 이상의 예측 모델 중 어느 하나의 예측 모델 또는 둘 이상의 예측 모델이 결합한 결합 예측 모델(combined prediction model)에 기초하여 사전 정량화된 복수의 훈련지표를 정량화할 수 있다.
예를 들면, 다해상도해석에 기반하여 선정되는 예측 모델은 시나리오 기반의 환경 대응 시스템에서 다양한 시나리오에 대응되는 환경 예측 모델들을 의미할 수 있다. 즉, 다해상도해석에 기반하여 선정되는 예측 모델은 통합환경 모니터링 및 대응 시스템 구축을 위한 환경 예측 모델일 수 있다.
일측에 따르면, 지표 최적화부(240)는 AICc Х BIC, RMSE(root mean squared error) Х MAPE(maximum absolute percentage error) 및 선형성 대표지수 (R2 or adjusted R2) 중 적어도 하나 이상의 복합모델검증지표에 기초한 잔차검증 및 잔차에 대한 다해상도 해석을 수행하여 최적훈련지표기반의 최적 예측모델 선정할 수 있다.
보다 구체적인 예를 들면, 지표 최적화부(240)는 예측 모델의 정확도를 판단하기 위한 복합모델검증지표(Combined Index (CI), AICc Х BIC or RMSE Х MAPE)가 최고 성능(AICc Х BIC 및 RMSE Х MAPE의 경우는 최소값)을 나타내는 예측 모델들을 선정할 수 있다.
즉, 단일 예측 모델이 최고 성능을 나타내는 경우도 있지만, 복수의 예측 모델의 결합 예측 모델이 최고의 성능을 발휘하는 경우도 있으므로, 지표 최적화부(240)는 데이터 특성에 따라 최고성능 예측 모델(단일 또는 결합 예측 모델)을 선정하고, 선정된 모델의 복수의 훈련지표를 최적 훈련지표로 간주할 수 있다.
일측에 따르면, 지표 최적화부(240)는 정량화된 복수의 훈련지표 중 적어도 둘 이상의 훈련지표를 이용하는 최적훈련지표모형(예를 들면, 일반화선형함수 모형 또는 회귀모형)을 구성할 수 있다.
예를 들면, 최적훈련지표모형은 복수의 훈련지표인 은닉층(hidden layers, HL)의 개수, 반복 회수(epoch, E), 최소 배치 사이즈(minibatch size, mbs), 훈련 기간(training period, T)들 간의 (선형)회귀형 관계를 나타내는 모델일 수 있다.
보다 구체적인 예를 들면, 최적훈련지표모형은 길이 1095인 하천수EC (JDEC) 일평균 자료 JDEC의 90% 훈련구간, hidden layer=200에 대한 최적 훈련조건(Op_JDEC)을 Op_JDEC = Xmbs^k+YE+z (여기서 mbs는 minibatch size, E는 epochs, k, X,Y,z는 추정된 모수(estimated parameter))와 같은 형태로 표현하는 모델일 수도 있다.
일실시예에 따른 최적훈련지표모형을 구성하는 예시는 이후 실시예 도 5a 내지 도 5c를 통해 보다 구체적으로 설명하기로 한다.
다시 말해, 지표 최적화부(240)는 정량화된 복수의 훈련지표 중 적어도 둘 이상의 훈련지표를 환경 예측 모델에 적용하여 최적 훈련조건을 사전에 결정함으로써, 일반적인 LSTM 모델들에 대해서도 훈련시간 단축, 핵심 특성에 대한 집중학습 및 과적합을 방지할 수 있다.
또한, 지표 최적화부(240)는 최적 훈련조건을 사전에 결정함으로써, 일반적인 LSTM 모델들에 대해서도 입력자료에 대한 실시간 모델 업데이트를 통해 예측능을 보다 더 향상시킴과 동시에 최적훈련지표 선정을 위한 정량적 근거를 제시함으로써 다양한 환경자료들을 이용한 통합환경모니터링, 해석, 예측 및 대응시스템 구축에 보다 효율적인 환경 예측 모델을 제공할 수 있다.
도 3a 내지 도 3h는 일실시예에 따른 훈련지표 최적화 장치에서 토양 가스를 환경 계측 자료로 수신하여 동작하는 예시를 설명하기 위한 도면이다.
다시 말해, 도 3a 내지 도 3h는 도 1 내지 도 2를 통해 설명한 일실시예에 따른 훈련지표 최적화 장치의 동작예를 설명하는 도면으로, 이후 도 3a 내지 도 3h를 통해 설명하는 내용 중 일실시예에 따른 훈련지표 최적화 장치를 통해 설명한 내용과 중복되는 설명은 생략하기로 한다.
도 3a 내지 도 3h를 참조하면, 참조부호 310은 시간 변화에 따른 토양 가스 계측 자료의 변화를 기 설정된 시간 단위로 나타내고, 참조부호 320은 시간 변화에 따른 토양 가스 계측 자료의 변화를 초(second) 단위로 나타낸다.
또한, 참조부호 330은 토양 가스 계측 자료의 시간-주파수 영역에 대한 웨이블렛 에너지 분포 데이터를 나타내고, 참조부호 340은 토양 가스 계측 자료에 대한 잠재 환경 구동력 후보군을 나타낸다.
또한, 참조부호 350은 잠재 환경 구동력 후보군과 토양 가스 계측 자료 사이의 상관성 분석 결과를 나타내고, 참조부호 360은 사전 조정된 LSTM 네트워크(well-tuned LSTM networks)를 이용한 잠재 환경 구동력 후보군들의 예측(prediction) 결과를 나타내며, 참조부호 370은 사전 조정된 LSTM 네트워크를 이용한 토양 가스 계측 자료의 예측 결과를 나타낸다.
또한, 참조부호 380은 MR-LSTM 모델을 이용한 토양 가스 계측 자료의 전망(forecast) 결과를 나타낸다.
참고로, 참조부호 310 내지 380에서 CH4는 메탄 가스농도, C2H6는 에탄 가스농도, CCO2는 이산화탄소 농도, FCO2는 CO2 플럭스, T-cham은 챔버 내 대기 온도, P_cham은 챔버 내 기압, RH는 상대 습도, H2O는 토양표면수분함량, H2O_L은 챔버내 수분함량, T_soil은 토양온도, SWC는 토양체적함수비, PED1 내지 PED5는 제1 내지 제5 잠재 환경 구동력 후보군을 의미할 수 있다.
구체적으로, 참조부호 310 내지 320에 따르면, 시간 변화에 따른 토양 가스 계측 자료의 변화에서는 CH4, C2H6 및 CCO2를 비롯한 변수 사이에서 명확한 선형 상관성을 도출하기 어려우며, 선형 상관성을 도출하기 위해서 현장 측정 데이터에 지연된 상호 의존성과, 비선형 응답에 기초한 새로운 접근법이 필요함을 알 수 있다.
다시 말해, 단일 스케일(시간영역 해상도) 기반의 선형 상관 관계는 복잡하고 비선형성을 갖는 토양 가스의 동적특성을 나타내는데 효과적이지 못하므로, 일실시예에 따른 훈련지표 최적화 장치와 같이 스케일에 따른 상관성을 기반으로 하는 다중 스케일(multi-sale) 상관성 분석이 수행될 필요가 있다.
참조부호 330에 따르면, 일실시예에 따른 훈련지표 최적화 장치는 토양 가스 계측 자료에 대하여 시간-주파수 영역에 대한 웨이블렛 에너지 분포 데이터를 도출할 수 있다.
보다 구체적으로, 참조부호 330은 토양 가스 계측 자료와 관련한 주요 관측변수의 원시 데이터에 대한 웨이블렛 에너지 분포 데이터를 도시하며, D1 내지 D5와 A1 내지 A5는 이산웨이블렛 분석에 의한 웨이블렛 분해 단계로써, 관측자료의 길이에 따라 다양한 범위에 걸쳐서 웨이블렛 해석에 사용되는 각 성분의 시간-주파수 스케일을 나타낼 수 있다.
웨이블렛 에너지 분포를 위한 환경 시계열에서 잠재 환경 구동력 후보군은 DWT(Discrete wavelet transform)를 사용하여 최종 근사성분(A5)과 세부 성분(D1 내지 D5)으로 분해될 수 있다.
DWT(Discrete wavelet transform)의 수학식을 구성하는 항목 중에서 분해 레벨을 위한 Ap와 Dp가 포함될 수 있는데, Ap와 Dp는 각 분해 레벨(p)에서 0.25 사이클 이하의 저주파 신호와 0.25 내지 0.5 사이클의 고주파 신호를 적용할 수 있다. 관측자료의 길이에 따른 분해레벨을 고려할 때 일실시예에 따른 최대 분해 레벨 A5는 32 시간의 스케일에 해당하며, 이는 원자료의 관측간격과 길이에 따라 다양하게 선택될 수 있다.
이후, 일실시예에 따른 분해 수준에 대한 모든 시간 주파수 척도는 2시간(D1), 4시간(D2), 8시간(D3), 16시간(D4), 32시간(D5)이 될 수 있다.
일례로, D1에서 D3까지의 프로세스는 단기(8 시간의 스케일)로 간주 될 수 있으며 D5와 A5의 프로세스는 장기(32 시간의 스케일 또는 그 이상) 또는 계절성으로 간주 될 수 있다.
참조부호 330에서 보는 바와 같이, 일실시예에 따른 훈련지표 최적화 장치는 시간-주파수 영역에 대한 웨이블렛 에너지 분포 데이터 분석을 통해 복잡한 환경 요인들에 대한 잠재 환경 구동력 후보군(PED1 내지 PED5)의 영향력을 판단할 수 있다.
참조부호 340에 따르면, 일실시예에 따른 훈련지표 최적화 장치는 다해상도 웨이블렛 해석을 통해 시간-주파수 영역에 대한 웨이블렛 에너지 분포 데이터를 도출하고, 도출된 웨이블렛 에너지 분포 데이터에 대하여 차원 축소 기법을 적용하여 잠재 환경 구동력 후보군을 선정할 수 있다.
참조부호 340에 의해 선정된 잠재 환경 구동력 후보군은 하기 표1과 같이 표현될 수 있다.
[표1]
Figure 112019084736978-pat00020
참조부호 350에 따르면, 일실시예에 따른 훈련지표 최적화 장치는 잠재 환경 구동력 후보군과 토양 가스 계측 자료 사이의 다해상도 상관성을 판단할 수 있다.
보다 구체적으로, 일실시예에 따른 훈련지표 최적화 장치는 관측자료들 중에서 어느 주파수가 핵심 주파수인지 여부를 확인하기 위해서는 스케일 대비 상관도를 고려할 수 있다.
관측자료를 구성하는 각 요소들에 대해, 스케일에 대비하는 상관 계수(r)를 확인하여 어떤 주파수가 핵심 주파수인지 여부를 판단할 수 있다. 예를 들어, 각 이산웨이블렛 분해레벨당 상관계수(r)가 0.5 이상인 경우에 대하여 PED1은 D2의 스케일에서 높은 상관 계수를 보이고, PED3는 D5의 스케일에서 높은 상관계수를 보이며, PED4는 D4의 스케일에서 높은 상관계수를 보인다.
즉, 일실시예에 따른 훈련지표 최적화 장치는 웨이블렛 에너지 분포를 확인함으로써, 상관도가 가장 높은 최대상관스케일을 선정할 수 있다.
한편, 일실시예에 따른 훈련지표 최적화 장치는 선정된 최대상관스케일의 결합에너지비율과 적절한 차원축소모델(예를 들면, 다해상도상태공간모델)의 설명력 지표간의 선형결합을 처리하여 상대적 기여도를 평가하며, 평가된 상대적 기여도에 기초하여 핵심 특성치 그룹을 선정할 수 있다.
일측에 따르면, 상대적 기여도는 최대상관스케일의 결합에너지비율과 최적 잠재 환경 구동력 선정모델들의 구동력 선정 지표들(factor loading or correlations)간의 선형결합을 통한 유효동적 효율(t, Def)에 기초하여 평가될 수 있으며, 평가된 상대적 기여도는 하기 표 2와 같이 나타낼 수 있다.
[표2]
Figure 112019084736978-pat00021
표 2에 따르면, 상대적 기여도는 PED4 및 PED1이 가장 높은 것으로 평가되었으며, 일실시예에 따른 훈련지표 최적화 장치는 평가된 상대적 기여도에 기초하여 핵심 특성치 그룹을 선정할 수 있다.
참조부호 360 내지 380에 따르면, 일실시예에 따른 훈련지표 최적화 장치의 예측(prediction) 및 전망(forecast) 능력은 선정된 토양 가스의 핵심 특성에 기초한 강화된 집중학습(focused learning)을 통해 개선될 수 있음을 확인할 수 있다.
도 4a 내지 도 4f는 일실시예에 따른 훈련지표 최적화 장치에서 하천/ 지하수 수위(RWL/GWL) 및 전기 전도도(RWEC/ GWEC) 계측자료를 환경 계측 자료로 수신하여 동작하는 예시를 설명하기 위한 도면이다.
다시 말해, 도 4a 내지 도 4f는 도 1 내지 도 3h를 통해 설명한 일실시예에 따른 훈련지표 최적화 장치의 동작예를 설명하는 도면으로, 이후 도 4a 내지 도 4f를 통해 설명하는 내용 중 일실시예에 따른 훈련지표 최적화 장치를 통해 설명한 내용과 중복되는 설명은 생략하기로 한다.
도 4a 내지 도 4f를 참조하면, 참조부호 410은 지하수 수위(GWL)/ 전기전도도(EC)에 대한 웨이블렛 에너지 분포 데이터를 나타내고, 참조부호 420은 다해상도상태공간모델(MRSSM)을 이용하여 지하수-전기전도도(GWEC) 계측 자료의 잠재 환경 구동력 후보군을 선정하는 예시를 나타낸다.
또한, 참조부호 430은 잠재 환경 구동력 후보군과 지하수-전기전도도(GWEC) 계측 자료 사이의 상관성 분석 결과를 나타내고, 참조부호 440은 사전 조정된 LSTM 네트워크(well-tuned LSTM networks)를 이용한 강물의 전기전도도(JDEC)의 예측(prediction) 결과를 나타낸다.
또한, 참조부호 450은 사전 조정된 MR-LSTM 네트워크(well-tuned MR-LSTM networks)를 이용한 GWEC의 예측 결과를 나타내고, 참조부호 460은 사전 조정된 MR-LSTM 네트워크를 이용한 GWEC의 전망(forecast) 결과를 나타낸다.
참고로, 참조부호 410 내지 460에서 EC는 지하수/하천수(강물) 전기 전도도, GW는 지하수, JD는 강물 수위 (RWL) 관측소 명, JDEC는 강물의 전기전도도(RWEC), Rainfall은 누적 강우량, PED1 내지 PED4는 전기전도도 (EC)의 제1 내지 제2 잠재 환경 구동력 후보군, PHD1 내지 PHD5는 지하수위(GWL)의 제1 내지 제5 잠재환경 구동력 후보군을 의미할 수 있다.
구체적으로, 참조부호 410에 따르면, GWL과 GWEC는 동일한 지하수관측정(GW wells) 에서도 서로 다른 패턴을 가지고 있는 것을 알 수 있으며, 서로 다른 패턴은 시간-주파수 영역에 대한 웨이블렛 에너지 분포 데이터를 통해 쉽게 식별 및 정량화가 가능하다는 것을 확인할 수 있다.
구체적으로, 참조부호 410의 좌측 하단 도면은 하천수위(강물수위) 또는 하천(강물)EC, 및 지하수위/EC를 나타내고, 참조부호 410의 좌측 상단 도면은 웨이블렛 에너지 밀도 그래프를 나타내며, 좌측 하단에서 관측되는 강과 인접하는 지하수관정(HAM004)의 지하수위는 강물의 수위(RWL=JD)변동과 거의 같게 관측되나 EC의 경우 매우 다르게 관측됨을 확인할 수 있다(좌측 하단 그림 RWEC & GWEC 참조).
따라서 이를 웨이블렛에너지 분포로 살펴보면 서로 유사하게 보이는 지하수위 (HAM004) & 하천수위 (JD)도 보다 명확하게 구분할 수 있고, 무엇보다도 수위와 EC의 패턴 차이를 보다 극명하게 표현할 수 있다.
이를 기반으로 어느 주파수 영역이 각 수위와 EC의 변동성을 잘 대표하는지를 보다 정량적으로 식별 할 수 있으므로, 잠재 구동력 후보군의 웨이블렛 에너지 분포와 비교/대비 및 상관성/교차상관성 분석을 통해 최고상관 주파수대역을 선정 할 수 있다.
예를 들면, RWL(JD)의 경우 일-월 변동성이 30% 정도를 차지함에 반해 RWEC는 15% 미만이며(동일한 관측지점에 대한 수위와 EC의 비교), HAM004EC에 비해 HAM062EC는 장주기 순환변동이 지배하고 있음을 확인할 수 있다(동일한 관측값(EC)에 대한 서로 다른 지점의 변동특성 비교).
또한, RWEC(JDEC) 는 GWEC에 비해 전반적으로 단주기 변동성이 더욱 지배적인 것을 확인할 수 있다(동일한 관측 자료(EC) 의 서로 다른 system (강물 & 지하수) 에서의 변동성 비교).
결국, 참조부호 410에 따르면, 서로 유사하거나 차이가 많이 나는 복합적 패턴들을 보다 분명하고, 정량적으로 규명할 수 있음을 확인할 수 있다.
또한, 참조부호 420에 따르면, 일실시예에 따른 훈련지표 최적화 장치는 GWEC 계측 자료에 대하여 다해상도 웨이블렛 해석을 통해 시간-주파수 영역에 대한 웨이블렛 에너지 분포 데이터를 도출하고, 도출된 웨이블렛 에너지 분포 데이터에 대하여 차원 축소 기법을 적용하여 잠재 환경 구동력 후보군을 선정할 수 있다.
또한, 참조부호 430에 따르면, 일실시예에 따른 훈련지표 최적화 장치는 잠재 환경 구동력 후보군과 GWEC 계측 자료 사이의 다해상도 상관성을 판단할 수 있다.
보다 구체적으로, 일실시예에 따른 훈련지표 최적화 장치는 관측자료들 중에서 어느 주파수가 핵심 주파수인지 여부를 확인하기 위해서는 스케일 대비 상관도를 고려할 수 있다.
관측자료를 구성하는 각 요소들에 대해, 스케일에 대비하는 상관 계수(r)를 확인하여 어떤 주파수가 핵심 주파수인지 여부를 판단할 수 있다. 예를 들어, 각 이산웨이블렛 분해레벨당 상관계수(r)가 0.5 이상인 경우에 대하여 PED1의 HAM062EC는 D6의 스케일에서 가장 높은 상관계수를 보이고, HAM060EC는 A6에서 가장 높은 상관계수를 보인다.
즉, 일실시예에 따른 훈련지표 최적화 장치는 웨이블렛 에너지 분포를 확인함으로써, 상관도가 가장 높은 최대상관스케일을 선정할 수 있다.
참조부호 440 내지 460에 따르면, 일실시예에 따른 훈련지표 최적화 장치의 예측(prediction) 및 전망(forecast) 능력은 선정된 GWEC의 핵심 특성에 기초한 강화된 집중학습(focused learning)을 통해 개선될 수 있음을 확인할 수 있다.
구체적으로, 참조부호 450의 좌측 도면은 raw-trained LSTM(관측자료만을 이용하여 훈련된 LSTM)의 출력을 나타내고, 참조부호 460의 우측 도면은 PED trained LSTM(잠재구동력을 통해 훈련된 LSTM)의 출력을 나타낸다.
참조부호 450에 따르면, PED를 통해 훈련된 모델이 특히 비선형 자료(예를 들면, HAM047EC와 같이 하강추세가 있는 경우, HAM013EC와 같이 급격한 등락과 상향추세가 있는 경우)의 예측에서 관측자료만을 이용하여 훈련된 모델보다 뛰어난 예측(prediction) 성능을 발휘함을 확인할 수 있다.
참조부호 460의 좌측 도면은 비선형 자료(HAM007EC)에 대한 관측자료만으로 훈련된 LSTM (raw LSTM)의 미래 전망 (forecast)의 예시를 나타내고, 참조부호 460의 우측 도면은 비선형 자료(HAM007EC)에 대한 잠재구동력 기반으로 훈련된 LSTM (PED-LSTM) 의 미래 전망 예시를 나타낸다.
참조부호 460에 따르면, 참조부호 460의 좌측 도면에서 HAM007EC와 같이 급격한 변동 패턴(transient variation)을 보이는 자료의 경우 관측치만으로 훈련된 모델(raw-LSTM)의 미래예측(전망, forecast) 값은 매우 불안정하여 신뢰하기 어려운 경우가 다수 존재한다는 것을 확인할 수 있다.
반면, 참조부호 460의 우측 도면에서 PED를 통해 훈련된 모델(PED-LSTM)은 특히 비선형, 과도 변동이 포함된 관측치의 전망에서 raw-LSTM에 비해 보다 안정적이고 납득할 만한 미래예측값을 나타나는 것을 확인할 수 있다.
보다 구체적으로, 지하수위, EC, 토양가스농도 및 flux등과 같은 현장규모로 관측되는 환경자료들은 다양한 주기의 수문순환과 인위적 요인들의 복합적인 영향으로 인해 비선형적, 과도적 계측값들을 포함하며, 이들 비선형/ 과도 계측값은 기 가해진 환경 충격(environmental impacts)에 대한 해당 환경계 (environmental system)의 동적반응(dynamic response)를 나타내므로, 정상성 가정을 만족시키기 위해 아웃라이어(outlier)로 처리되거나 제거 시키는 경우에 가장 중요한 동적 반응정보를 유실할 수 있다.
이에 PED를 통해 훈련된 LSTM은 이러한 비선형적, 과도신호들의 특성과 예측모델의 안정성 또한 적절히 조화시킬 수 있는 한 대안이 될 수 있으며, 특히 raw-LSTM과 PED-LSTM을 병용하여 다양한 미래시나리오 기반의 실시간 통합환경모니터링 및 대응 시스템을 구축할 수 있다.
예를 들면, 해당 GWEC가 2번 모델(LSTM2)을 따른다고 가정하는 경우(2 번 시나리오) raw-LSTM2(좌)과 PED2-LSTM2(우, PED2로 훈련된 LSTM의 2번째 시나리오)의 미래전망치 비교를 통해 Threshold value(예를 들면 2σ 범위 기준)를 선정하거나, 기 설정된 threshold value 대비 조기경보 (early alarm)를 발효 할 수 있다(4f 좌측 raw-LSTM2기준, 1-July-2015).
반면 우측의 PED2-LSTM2의 시나리오에 기반하는 경우 좌측 시기의 조기경보의 경우 false alarm으로 판단 할 수도 있으며, 실제 alarm은 1-September-2016 (4f 우측 PED2-LSTM2 기준)에 발효 하는 것으로 상정해 볼 수도 있다.
도 5a 내지 도 5c는 일실시예에 따른 최적훈련지표모형을 구성하는 예시를 설명하기 위한 도면이다.
다시 말해, 도 5a 내지 도 5c는 도 1 내지 도 4f를 통해 설명한 일실시예에 따른 훈련지표 최적화 장치에서 최적훈련지표모형을 구성하는 예시를 설명하는 도면으로, 이후 도 5a 내지 도 5c를 통해 설명하는 내용 중 일실시예에 따른 훈련지표 최적화 장치를 통해 설명한 내용과 중복되는 설명은 생략하기로 한다.
도 5a 내지 도 5c를 참조하면, 참조부호 510 내지 530은 하천수 EC (RWEC=JDEC) 자료의 분석을 통해 산출되는 최소 배치 사이즈(minibatch size, mbs) 및/또는 최적 반복회수(epochs, E)를 이용하여 최적훈련지표모형을 구성하는 예시를 설명하기 위한 도면이다.
구체적으로, 참조부호 510은 하천수 EC(JDEC) 데이터에 대한 RMSE(root mean squared error)의 경험 법칙(rules of thumb) 분석에 기초하여 최적 mbs(best mini-batch size) 모델을 선택하는 예시를 설명하기 위한 도면이고, 참조부호 520은 하천수 EC(JDEC) 데이터에 대한 상위 6개의 mbs 모델을 통해 최적훈련지표모형을 결정하는 예시를 설명하기 위한 도면이다.
또한, 참조부호 530은 하천수 EC (JDEC) 데이터에 대한 RMSE의 경험 법칙 분석에 기초하여 최적 epochs 모델을 선택하는 예시를 설명하기 위한 도면이다.
한편, 참조부호 510 내지 530에서 점선형태의 회귀 직선(regression line) 및 번호들(① 내지 ③, a1 내지 a3)은 RMSE 변화(추세)의 주요변곡점(elbow point)을 확인하기 위한 경험법칙(rules of thumb) 적용사례를 보다 구체적으로 설명하기 위한 것이다.
구체적으로, 참조부호 510의 첫번째 그림은 1 내지 360 (1, 2, 3, ... , 360)까지의 각 mbs에 대한 RMSE의 변화(HL=200, E=1500)를 나타내고, 두번째 그림은 RMSE 기반의 순위별(작은값 우선) 해당 mbs(1 내지 360)에 따른 RMSE변화를 나타낸다. 여기서, 주요 RMSE 변곡점은 번호 ①에서 상위 5%, 번호 ②에서 상위 5% 내지 60%, 번호 ③에서 상위 60% 내지 100%로 구분될 수 있다.
또한, 참조부호 510의 세번째 그림은 상위 5%를 다시 주요 RMSE변곡점을 기준으로 최적 mbs 구간인 ①-①(Rank1~6)과, ①-②(Rank 7~18)로 재구분하고, Rank1~Rank6 에 해당하는 모델을 최적 mbs 모델로 선정하는 예시를 나타낸다.
한편, 참조부호 530의 첫 번째 그림은 1 내지 120까지의 각 E(epochs: 100, 200, 300, ... , 12000)에 대한 RMSE 변화와 최적 RMSE 회귀 직선들의 변곡점(a1 내지 a3), 최적 RMSE (즉, 최소 RMSE)가 나타나는 epoch (E) 구간(참조부호 530의 점선 박스)을 나타내고, 두 번째 그림은 RMSE 기반의 순위별(작은 값 우선) 해당 epoch (E) (100 내지 12000)에 따른 RMSE변화를 나타내며(여기서, 분홍색 박스는 상위 5%), 세번째 그림은 상위 5% (①-①) 와 상위 5~15% (①-②) 까지의 RMSE 순위에 따른 각 epoch (E)별 RMSE regression line의 주요 변곡점 및 최적 epoch (E) 선정 방법의 예시(rules of thumb)를 나타낸다.
참조부호 510 내지 520에 따르면, 참조부호 510에 도시된 하천수 EC(JDEC) 데이터의 분석 결과를 하기 표3과 같이 표현할 수 있고, 참조부호 520에 도시된 상위 6개의 mbs 모델의 분석 결과를 하기 표4와 같이 표현할 수 있다.
[표3]
Figure 112019084736978-pat00022
[표4]
Figure 112019084736978-pat00023
표 3 내지 표 4에 따르면, 일실시예에 따른 훈련지표 최적화 장치는 참조부호 510에 도시된 하천수 EC(JDEC) 데이터에서 RMSE의 경험 법칙 분석에 기초하여 최상위 5%로서 상위 6개의 mbs 모델(표1의 Rank 1 내지 6)을 선정할 수 있으며, 이때 HL (hidden layers)은 200, Epochs (E)는 1500, 훈련기간 (T)은 953일, mbs는 1 내지 360까지 1구간씩 순차적으로 진행되는 범위일 수 있다. 여기서, HL(hidden layers)은 은닉층의 개수를 의미할 수 있다.
또한, 훈련지표 최적화 장치는 JDEC와 PEDs 간의 웨이블렛에너지(Ew) 분포 재진단을 통한 최대상관스케일(Ec)과의 상관성 분석 수행할 수 있으며, 이를 통해 최적 mbs 모델 선정의 근거를 제시할 수 있다.
일측에 따르면, 훈련지표 최적화 장치는 재훈련 및 재적합을 통해 최적 mbs 모델을 산정할 수 있다. 예를 들면, 훈련지표 최적화 장치는 270 내지 300 mbs 범위에 대한 재훈련 및 재적합을 통해 최적 mbs 모델을 산정할 수 있다.
한편, 훈련지표 최적화 장치는 상위 6개의 mbs 모델의 예측값(prediction)에 대한 복합모델설명력 지표(Combined Index (CI), RMSEХMAPE) 기반의 최적 mbs 훈련조건을 이용하여, 최적훈련지표모형을 구성할 수 있다.
참조부호 530에 따르면, 참조부호 530에 도시된 하천수 EC(JDEC) 데이터의 분석 결과를 하기 표5과 같이 표현할 수 있다.
[표5]
Figure 112019084736978-pat00024
표 5에 따르면, 훈련지표 최적화 장치는 참조부호 530에 도시된 하천수 EC(JDEC) 데이터에서 RMSE의 경험 법칙 분석에 기초하여 최상위 5%인 6개의 mbs 모델(표3의 Rank 1 내지 6)을 선정할 수 있으며, 이때 HL (hidden layers)은 200, mbs는 256, 훈련기간은 953일, epochs(E)는 100 내지 12000일 수 있다. 여기서, epochs(E)는 100 부터 100씩 증가하여 12000까지 도달할 수 있다.
또한, 훈련지표 최적화 장치는 동일한 mbs 구간에 대한 최적 epochs(E) 선정의 근거를 제시할 수 있다.
일측에 따르면, 훈련지표 최적화 장치는 재훈련 및 재적합을 통해 최적 epochs(E) 모델을 산정할 수 있다. 예를 들면, 훈련지표 최적화 장치는 5000 내지 8000 epochs(E) 범위에 대한 재훈련 및 재적합을 통해 최적 epochs(E) 모델을 산정할 수 있다.
한편, 훈련지표 최적화 장치는 최상위 6개의 epochs(E) 모델의 예측값(prediction)에 대한 복합모델설명력 지표(CI, RMSEХMAPE) 기반의 최적 epochs(E)의 범위를 보다 구체적으로 설정할 수 있으며, 동시에 이를 이용하여 최적훈련지표모형을 구성할 수 있다.
도 6은 일실시예에 따른 훈련지표 최적화 방법을 설명하기 위한 도면이다.
다시 말해, 도 6은 도 1 내지 도 5c를 통해 설명한 일실시예에 따른 훈련지표 최적화 장치의 동작 방법을 설명하는 도면으로, 이후 도 6을 통해 설명하는 내용 중 일실시예에 따른 훈련지표 최적화 방법을 통해 설명한 내용과 중복되는 설명은 생략하기로 한다.
도 6을 참조하면, 610 단계에서 일실시예에 따른 훈련지표 최적화 방법은 전처리부에서 환경 계측 자료에 대한 기반데이터세트를 구성할 수 있다.
다음으로, 620 단계에서 일실시예에 따른 훈련지표 최적화 방법은 동적 특성 처리부에서 다해상도 웨이블렛 해석과 차원 축소 기법을 통해 구성된 기반데이터세트에 대한 동적 특성을 식별 및 추출할 수 있다.
일측에 따르면, 620 단계에서 일실시예에 따른 훈련지표 최적화 방법은 구성된 기반데이터세트에 대한 시간영역 해상도에 따른 다해상도 웨이블렛 해석을 통해 시간-주파수 영역에 대한 웨이블렛 에너지 분포 데이터를 도출하고, 도출된 웨이블렛 에너지 분포 데이터에 대하여 차원 축소 기법을 적용하여 잠재 환경 구동력 후보군을 선정하는 단계를 더 포함할 수 있다.
또한, 620 단계에서 일실시예에 따른 훈련지표 최적화 방법은 선정된 잠재 환경 구동력 후보군의 시간영역 해상도별 시간변화에 따른 변동특성을 추출하고, 추출된 변동특성에 기초하여 동적 특성을 추출 및 정량화하는 단계를 더 포함할 수 있다.
다음으로, 630 단계에서 일실시예에 따른 훈련지표 최적화 방법은 핵심 특성치 그룹 선정부에서 추출된 동적 특성에 기초하여 환경 계측 자료에 대한 구동력을 식별 및 평가하고, 평가 결과에 대응하여 핵심 특성치 그룹(key features group)을 선정할 수 있다.
일측에 따르면, 630 단계에서 일실시예에 따른 훈련지표 최적화 방법은 잠재 환경 구동력 후보군의 잠재 환경 구동력과, 환경 계측 자료 간 다해상도 상관성을 판단하되, 잠재 환경 구동력과 관측자료간 시간지연 및 위상변화를 반영한 상관성 판단을 수행하고, 수행된 상관성 판단 결과에 기초하여, 잠재 환경 구동력과 관측자료간 최대상관스케일을 선정하는 단계를 더 포함할 수 있다.
또한, 630 단계에서 일실시예에 따른 훈련지표 최적화 방법은 잠재 환경 구동력과 관측자료간 웨이블렛 에너지 비율과 선정된 최대상관스케일의 상관관계를 이용한 구동력을 식별하고, 선정된 최대상관스케일의 결합에너지비율과 차원축소모델의 설명력 지표간의 선형결합을 처리하여 상대적 기여도를 평가하며, 평가된 상대적 기여도에 기초하여 핵심 특성치 그룹을 선정하는 단계를 더 포함할 수 있다.
다음으로, 640 단계에서 일실시예에 따른 훈련지표 최적화 방법은 지표 최적화부에서 선정된 핵심 특성치 그룹과 환경 계측 자료를 입력으로 수신하여 환경 예측 모델의 복수의 훈련지표 값을 제어할 수 있다.
예를 들면, 복수의 훈련지표 값은 훈련기간(training period, T), 최소 배치 사이즈(minibatch size, mbs), 은닉층(hidden layers, HL)의 개수 및 최적 반복회수(epochs, E) 중 적어도 하나의 값을 포함할 수 있다.
일측에 따르면, 640 단계에서 일실시예에 따른 훈련지표 최적화 방법은 핵심 특성치 그룹과 환경 계측 자료를 입력으로 하는 장단기기억네트워크(Long-short Term Memory Network) 모델을 구축하고, 핵심 특성치 그룹의 시간-주파수 영역에 기초하여 복수의 훈련지표 값을 사전 정량화(pre-quantification)하는 단계를 더 포함할 수 있다.
또한, 640 단계에서 일실시예에 따른 훈련지표 최적화 방법은 환경 계측 자료로부터 측정되는 관측값과, 장단기기억네트워크 모델로부터 예측되는 예측값의 복합모델검증지표에 기초한 잔차검증 및 잔차의 다해상도해석에 기반하여 적어도 하나 이상의 예측 모델을 선정하고, 선정된 적어도 하나 이상의 예측 모델 중 어느 하나의 예측 모델 또는 둘 이상의 예측 모델이 결합한 결합 예측 모델(combined prediction model)에 기초하여 사전 정량화된 복수의 훈련지표를 사후 정량화(post quantification)하는 단계를 더 포함할 수 있다.
또한, 640 단계에서 일실시예에 따른 훈련지표 최적화 방법은 정량화된 복수의 훈련지표 중 적어도 둘 이상의 훈련지표를 이용하는 최적훈련지표모형(예를 들면, 일반화선형함수 모형 또는 회귀모형)을 구성하는 단계를 더 포함할 수 있다.
결국, 본 발명을 이용하면, 데이터의 특성과 모델링 목적에 따른 최적 훈련조건을 사전에 결정할 수 있다.
또한, 최적 훈련조건을 사전에 결정함으로써, 일반적인 LSTM 모델들에 대해서도 훈련시간 단축, 핵심 특성에 대한 집중학습 및 과적합을 방지할 수 있다.
또한, 최적 훈련조건을 사전에 결정함으로써, 일반적인 LSTM 모델들에 대해서도 입력자료에 대한 실시간 모델 업데이트를 통해 예측능을 보다 더 향상시킴과 동시에 최적훈련지표 선정을 위한 정량적 근거를 제시함으로써 다양한 환경자료들을 이용한 통합환경모니터링, 해석, 예측 및 대응시스템 구축에 보다 효율적인 환경 예측 모델을 제공할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
200: 훈련지표 최적화 장치 210: 전처리부
220: 동적특성 처리부 230: 핵심 특성치 그룹 선정부
240: 지표 최적화부

Claims (18)

  1. 환경 계측 자료를 입력으로 수신하여 환경에 대한 모니터링 결과의 통합적인 해석 및 예측결과에 대한 데이터를 출력하는 환경 예측 모델을 구축(establish)하고, 구축된 상기 환경 예측 모델에 대응되는 단일(single) 또는 복수(multiple)의 훈련지표 값을 최적화하는 훈련지표 최적화 장치에 있어서,
    상기 환경 계측 자료의 데이터세트의 관측항목과 관측시간 해상도에 따른 데이터 매트릭스를 기반데이터세트로서 구성하고 정렬하는 전처리부;
    상기 정렬된 기반데이터세트에 대한 시간영역 해상도에 따른 다해상도 웨이블렛 해석을 통해 시간-주파수 영역에 대한 웨이블렛 에너지 분포 데이터를 도출하고, 상기 도출된 웨이블렛 에너지 분포 데이터에 차원 축소 기법을 적용하여 잠재 환경 구동력 후보군을 선정하며, 상기 선정된 잠재 환경 구동력 후보군에 대한 변동 특성(variability)을 추출하고, 상기 추출된 변동특성에 기초하여 동적 특성을 추출(extract) 및 계량화(quantification)하는 동적 특성 처리부;
    상기 추출된 동적 특성에 기초하여 상기 환경 계측 자료에 대한 구동력을 식별 및 평가하고, 상기 평가 결과에 대응하여 상기 선정된 잠재 환경 구동력 후보군 중 핵심 특성치 그룹(key features group)을 선정하는 핵심 특성치 그룹 선정부 및
    상기 선정된 핵심 특성치 그룹과 상기 환경 계측 자료에 기초하여 상기 환경 예측 모델을 구축하고, 구축된 상기 환경 예측 모델에 대응되는 복수의 훈련지표 값을 제어하는 지표 최적화부
    를 포함하고,
    상기 핵심 특성치 그룹 선정부는,
    상기 선정된 잠재 환경 구동력 후보군의 잠재 환경 구동력과 상기 환경 계측 자료 간의 다해상도 상관성을 판단(determine)하고, 상기 다해상도 상관성의 판단을 통해 상기 잠재 환경 구동력과 상기 환경 계측 자료간 최대상관스케일을 선정하며, 상기 잠재 환경 구동력과 상기 환경 계측 자료 및 상기 선정된 최대상관스케일을 이용하여 상기 구동력을 식별하고, 상기 선정된 최대상관스케일의 결합에너지비율에 기초하여 상대적 기여도를 평가하며, 상기 평가된 상대적 기여도에 기초하여 상기 핵심 특성치 그룹을 선정하는
    훈련지표 최적화 장치.
  2. 제1항에 있어서,
    상기 환경 계측 자료는,
    실시간으로 계측되는 수문-환경 시계열 자료를 포함하고,
    상기 수문-환경 시계열 자료는,
    수문 기상 데이터, 하천 수위 데이터, 지하 수위 데이터, 수질 데이터, 온도 데이터, EC 데이터, 동위원소비율 데이터, 토양 가스 데이터 및 미세먼지 데이터 중 적어도 하나 이상의 환경 데이터를 포함하는 훈련지표 최적화 장치.
  3. 제1항에 있어서,
    상기 전처리부는,
    상기 정렬된 기반데이터세트에 대한 시간영역 해상도 또는 시간관측 간격 별 결측자료를 보간 처리하고, 상기 보간 처리된 기반데이터세트의 자료를 다해상도필터 뱅크를 이용하여 노이즈 필터링하며, 상기 노이즈 필터링된 결과를 표준화 및 정규화 하는
    훈련지표 최적화 장치.
  4. 삭제
  5. 제1항에 있어서,
    상기 동적 특성 처리부는,
    상기 선정된 잠재 환경 구동력 후보군의 시간영역 해상도별 시간변화에 따른 상기 변동특성을 추출하고, 상기 추출된 변동특성에 기초하여 상기 동적 특성을 추출 및 계량화하는
    훈련지표 최적화 장치.
  6. 제1항에 있어서,
    상기 차원 축소 기법은,
    주성분 분석(principle component analysis; PCA), 독립성분 분석(independent component analysis; ICA), 시계열 요인분석(time series factor analysis, TSFA), 경험적모드분석(empirical mode decomposition; EMD) 및 다해상도상태공간모델(multiresolution state-space model; MRSSM) 중 적어도 하나 이상의 기법을 포함하는
    훈련지표 최적화 장치.
  7. 제1항에 있어서,
    상기 핵심 특성치 그룹 선정부는,
    상기 잠재 환경 구동력과, 상기 환경 계측 자료간 다해상도 상관성을 판단하되, 상기 잠재 환경 구동력과 상기 환경 계측 자료간 시간지연 및 위상변화를 반영한 상관성 판단을 수행하는
    훈련지표 최적화 장치.
  8. 제1항에 있어서,
    상기 핵심 특성치 그룹 선정부는,
    상기 잠재 환경 구동력과 상기 환경 계측 자료간 웨이블렛 에너지 비율과 상기 선정된 최대상관스케일의 상관관계를 이용하여 상기 구동력을 식별하고, 상기 선정된 최대상관스케일의 결합에너지비율과 차원축소모델의 설명력 지표간의 선형결합을 처리하여 상기 상대적 기여도를 평가하는
    훈련지표 최적화 장치.
  9. 제1항에 있어서,
    상기 핵심 특성치 그룹 선정부는,
    상기 선정된 잠재 환경 구동력 후보군 및 상기 핵심 특성치 그룹을 입력으로 수신하여 훈련 과정을 수행하는 사전 조정된 LSTM 네트워크(well-tuned LSTM networks)를 구축하고, 상기 사전 조정된 LSTM 네트워크로부터 출력되는 출력값을 이용하여 상기 잠재 환경 구동력을 검증하는
    훈련지표 최적화 장치.
  10. 제1항에 있어서,
    상기 지표 최적화부는
    상기 핵심 특성치 그룹과 상기 환경 계측 자료를 입력으로 하는 장단기기억네트워크(Long-short Term Memory Network) 모델을 구축하고, 구축된 상기 장단기기억네트워크 모델에 기초하여 상기 환경 예측 모델을 구축하며, 상기 선정된 최대상관스케일에 기초하여 상기 복수의 훈련지표 값을 사전 정량화(pre-quantification)하는
    훈련지표 최적화 장치.
  11. 제10항에 있어서,
    상기 지표 최적화부는,
    상기 환경 계측 자료로부터 측정되는 관측값과, 상기 장단기기억네트워크 모델로부터 예측되는 예측값에 대한 잔차검증 및 잔차의 다해상도해석을 수행하여 적어도 하나 이상의 상기 환경 예측 모델을 구축하되, 복합모델검증지표에 기초하여 상기 잔차검증 및 상기 잔차의 다해상도해석을 수행하고, 구축된 적어도 하나 이상의 상기 환경 예측 모델 중 어느 하나의 예측 모델 또는 둘 이상의 예측 모델이 결합한 결합 예측 모델(combined prediction model)에 기초하여 상기 사전 정량화된 복수의 훈련지표를 정량화하는
    훈련지표 최적화 장치.
  12. 제11항에 있어서,
    상기 지표 최적화부는,
    상기 정량화된 복수의 훈련지표 중 적어도 둘 이상의 훈련지표를 이용하는 최적훈련지표모형을 구성하는
    훈련지표 최적화 장치.
  13. 제1항에 있어서,
    상기 복수의 훈련지표 값은,
    훈련기간(training period, T), 최소 배치 사이즈(minibatch size, mbs), 은닉층(hidden layers, HL)의 개수 및 최적 반복회수(epochs, E) 중 적어도 하나의 값을 포함하는
    훈련지표 최적화 장치.
  14. 환경 계측 자료를 입력으로 수신하여 환경에 대한 모니터링 결과의 통합적인 해석 및 예측결과에 대한 데이터를 출력하는 환경 예측 모델을 구축(establish)하고, 구축된 상기 환경 예측 모델에 대응되는 단일(single) 또는 복수(multiple)의 훈련지표 값을 최적화하는 훈련지표 최적화 방법에 있어서,
    전처리부에서, 상기 환경 계측 자료의 데이터세트의 관측항목과 관측시간 해상도에 따른 데이터 매트릭스를 기반데이터세트로서 구성하고 정렬하는 단계;
    동적 특성 처리부에서, 상기 정렬된 기반데이터세트에 대한 시간영역 해상도에 따른 다해상도 웨이블렛 해석을 통해 시간-주파수 영역에 대한 웨이블렛 에너지 분포 데이터를 도출하고, 상기 도출된 웨이블렛 에너지 분포 데이터에 적용하여 잠재 환경 구동력 후보군을 선정하며, 상기 선정된 잠재 환경 구동력 후보군에 대한 변동 특성(variability)을 추출하고, 상기 추출된 변동특성에 기초하여 동적 특성을 추출(extract) 및 계량화(quantification)하는 단계;
    핵심 특성치 그룹 선정부에서, 상기 추출된 동적 특성에 기초하여 상기 환경 계측 자료에 대한 구동력을 식별 및 평가하고, 상기 평가 결과에 대응하여 상기 선정된 잠재 환경 구동력 후보군 중 핵심 특성치 그룹(key features group)을 선정하는 단계 및
    지표 최적화부에서, 상기 선정된 핵심 특성치 그룹과 상기 환경 계측 자료에 기초하여 상기 환경 예측 모델을 구축하고, 구축된 상기 환경 예측 모델에 대응되는 복수의 훈련지표 값을 제어하는 단계
    를 포함하고,
    상기 핵심 특성치 그룹을 선정하는 단계는,
    상기 선정된 잠재 환경 구동력 후보군의 잠재 환경 구동력과 상기 환경 계측 자료 간의 다해상도 상관성을 판단(determine)하고, 상기 다해상도 상관성의 판단을 통해 상기 잠재 환경 구동력과 상기 환경 계측 자료간 최대상관스케일을 선정하며, 상기 잠재 환경 구동력과 상기 환경 계측 자료 및 상기 선정된 최대상관스케일을 이용하여 상기 구동력을 식별하고, 상기 선정된 최대상관스케일의 결합에너지비율에 기초하여 상대적 기여도를 평가하며, 상기 평가된 상대적 기여도에 기초하여 상기 핵심 특성치 그룹을 선정하는
    훈련지표 최적화 방법.
  15. 제14항에 있어서,
    상기 동적 특성을 추출 및 계량화하는 단계는,
    상기 선정된 잠재 환경 구동력 후보군의 시간영역 해상도별 시간변화에 따른 상기 변동특성을 추출하고, 상기 추출된 변동특성에 기초하여 상기 동적 특성을 추출 및 계량화하는 단계를 더 포함하는
    훈련지표 최적화 방법.
  16. 제15항에 있어서,
    상기 핵심 특성치 그룹을 선정하는 단계는,
    상기 잠재 환경 구동력과, 상기 환경 계측 자료 간 다해상도 상관성을 판단하되, 상기 잠재 환경 구동력과 상기 환경 계측 자료간 시간지연 및 위상변화를 반영한 상관성 판단을 수행하고,
    상기 잠재 환경 구동력과 상기 환경 계측 자료간 웨이블렛 에너지 비율과 상기 선정된 최대상관스케일의 상관관계를 이용하여 상기 구동력을 식별하고, 상기 선정된 최대상관스케일의 결합에너지비율과 차원축소모델의 설명력 지표간의 선형결합을 처리하여 상기 상대적 기여도를 평가하는
    훈련지표 최적화 방법.
  17. 제14항에 있어서,
    상기 복수의 훈련지표 값을 제어하는 단계는,
    상기 핵심 특성치 그룹과 상기 환경 계측 자료를 입력으로 하는 장단기기억네트워크(Long-short Term Memory Network) 모델을 구축하고, 구축된 상기 장단기기억네트워크 모델에 기초하여 상기 환경 예측 모델을 구축하며, 상기 선정된 최대상관스케일에 기초하여 상기 복수의 훈련지표 값을 사전 정량화(pre-quantification)하는 단계;
    상기 환경 계측 자료로부터 측정되는 관측값과, 상기 장단기기억네트워크 모델로부터 예측되는 예측값에 대한 잔차검증 및 잔차의 다해상도해석을 수행하여 적어도 하나 이상의 상기 환경 예측 모델을 구축하되, 복합모델검증지표에 기초하여 상기 잔차검증 및 상기 잔차의 다해상도해석을 수행하고, 구축된 적어도 하나 이상의 상기 환경 예측 모델 중 어느 하나의 예측 모델 또는 둘 이상의 예측 모델이 결합한 결합 예측 모델(combined prediction model)에 기초하여 상기 사전 정량화된 복수의 훈련지표를 사후 정량화(post-quantification)하는 단계 및
    상기 정량화된 복수의 훈련지표 중 적어도 둘 이상의 훈련지표를 이용하는 최적훈련지표모형을 구성하는 단계
    를 더 포함하는 훈련지표 최적화 방법.
  18. 제14항에 있어서,
    상기 복수의 훈련지표 값은,
    훈련기간(training period, T), 최소 배치 사이즈(minibatch size, mbs), 은닉층(hidden layers, HL)의 개수 및 최적 반복회수(epochs, E) 중 적어도 하나의 값을 포함하는
    훈련지표 최적화 방법.
KR1020190101069A 2019-08-19 2019-08-19 환경 예측 모델의 훈련지표 최적화 장치 및 그 동작방법 KR102149495B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020190101069A KR102149495B1 (ko) 2019-08-19 2019-08-19 환경 예측 모델의 훈련지표 최적화 장치 및 그 동작방법
US17/637,251 US20220284345A1 (en) 2019-08-19 2020-08-19 Device for optimizing training indicator of environment prediction model, and method for operating same
PCT/KR2020/011052 WO2021034106A1 (ko) 2019-08-19 2020-08-19 환경 예측 모델의 훈련지표 최적화 장치 및 그 동작방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190101069A KR102149495B1 (ko) 2019-08-19 2019-08-19 환경 예측 모델의 훈련지표 최적화 장치 및 그 동작방법

Publications (1)

Publication Number Publication Date
KR102149495B1 true KR102149495B1 (ko) 2020-08-28

Family

ID=72292109

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190101069A KR102149495B1 (ko) 2019-08-19 2019-08-19 환경 예측 모델의 훈련지표 최적화 장치 및 그 동작방법

Country Status (3)

Country Link
US (1) US20220284345A1 (ko)
KR (1) KR102149495B1 (ko)
WO (1) WO2021034106A1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743297A (zh) * 2021-09-03 2021-12-03 重庆大学 基于深度学习的储罐穹顶位移数据修复方法及装置
KR102409155B1 (ko) * 2021-10-08 2022-06-16 주식회사 다올 Lstm 기반 지하수 수위 예측 시스템
CN115096357A (zh) * 2022-06-07 2022-09-23 大连理工大学 一种基于ceemdan-pca-lstm的室内环境质量预测方法
CN115240394A (zh) * 2022-09-22 2022-10-25 国网湖北省电力有限公司经济技术研究院 一种变电站事故油池水位监测预警方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983500B (zh) * 2023-03-06 2023-05-30 中国科学院空天信息创新研究院 一种预测沙漠蝗的方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170007151A (ko) 2015-07-10 2017-01-18 삼성전자주식회사 인공 신경 네트워크를 실행하는 방법 및 장치
US20170243140A1 (en) * 2014-05-23 2017-08-24 DataRobot, Inc. Systems and techniques for predictive data analytics
KR20180084969A (ko) * 2016-03-31 2018-07-25 후지쯔 가부시끼가이샤 신경망 모델에 대한 훈련 방법, 장치 및 전자 장치
JP2018169959A (ja) * 2017-03-30 2018-11-01 株式会社Jsol 多層ニューラルネットワーク(ディープラーニング)の性能向上のための高寄与度項目の抽出システム、抽出方法及び抽出プログラム
KR20190050698A (ko) * 2017-11-03 2019-05-13 삼성전자주식회사 신경망의 최적화 방법
JP2019079214A (ja) * 2017-10-24 2019-05-23 富士通株式会社 探索方法、探索装置および探索プログラム
KR101959376B1 (ko) * 2015-12-11 2019-07-04 바이두 유에스에이 엘엘씨 멀티 코어 최적화된 순환 신경망을 위한 시스템 및 방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170243140A1 (en) * 2014-05-23 2017-08-24 DataRobot, Inc. Systems and techniques for predictive data analytics
KR20170007151A (ko) 2015-07-10 2017-01-18 삼성전자주식회사 인공 신경 네트워크를 실행하는 방법 및 장치
KR101959376B1 (ko) * 2015-12-11 2019-07-04 바이두 유에스에이 엘엘씨 멀티 코어 최적화된 순환 신경망을 위한 시스템 및 방법
KR20180084969A (ko) * 2016-03-31 2018-07-25 후지쯔 가부시끼가이샤 신경망 모델에 대한 훈련 방법, 장치 및 전자 장치
JP2018169959A (ja) * 2017-03-30 2018-11-01 株式会社Jsol 多層ニューラルネットワーク(ディープラーニング)の性能向上のための高寄与度項目の抽出システム、抽出方法及び抽出プログラム
JP2019079214A (ja) * 2017-10-24 2019-05-23 富士通株式会社 探索方法、探索装置および探索プログラム
KR20190050698A (ko) * 2017-11-03 2019-05-13 삼성전자주식회사 신경망의 최적화 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743297A (zh) * 2021-09-03 2021-12-03 重庆大学 基于深度学习的储罐穹顶位移数据修复方法及装置
KR102409155B1 (ko) * 2021-10-08 2022-06-16 주식회사 다올 Lstm 기반 지하수 수위 예측 시스템
CN115096357A (zh) * 2022-06-07 2022-09-23 大连理工大学 一种基于ceemdan-pca-lstm的室内环境质量预测方法
CN115240394A (zh) * 2022-09-22 2022-10-25 国网湖北省电力有限公司经济技术研究院 一种变电站事故油池水位监测预警方法及系统

Also Published As

Publication number Publication date
US20220284345A1 (en) 2022-09-08
WO2021034106A1 (ko) 2021-02-25

Similar Documents

Publication Publication Date Title
KR102149495B1 (ko) 환경 예측 모델의 훈련지표 최적화 장치 및 그 동작방법
KR102051791B1 (ko) 토양가스를 모니터링하고 모니터링 결과에 기반하여 대응 처리하는 시스템 및 방법
Liu et al. An enhanced encoder–decoder framework for bearing remaining useful life prediction
CN112288021B (zh) 一种医疗废水监测数据质控方法、装置及系统
CN114363195B (zh) 面向时间和频谱残差卷积网络的网络流量预测预警方法
Qiu et al. A piecewise method for bearing remaining useful life estimation using temporal convolutional networks
CN108491931B (zh) 一种基于机器学习提高无损检测精度的方法
CN116610998A (zh) 一种基于多模态数据融合的开关柜故障诊断方法和系统
CN116502049B (zh) 滚动轴承剩余使用寿命预测方法、系统、设备及存储介质
CN110263944A (zh) 一种多变量故障预测方法和装置
Shi et al. A novel unsupervised real‐time damage detection method for structural health monitoring using machine learning
CN116597939A (zh) 基于大数据的药品质量控制管理分析系统及方法
Zhou et al. Functional networks and applications: A survey
CN114217025B (zh) 评估空气质量浓度预测中气象数据对其影响的分析方法
Reis et al. Multiscale statistical process control with multiresolution data
Haslbeck et al. A Tutorial on Estimating Time-Varying Vector Autoregressive Models
Dang et al. seq2graph: Discovering dynamic non-linear dependencies from multivariate time series
Lei et al. A change-point detection method for detecting and locating the abrupt changes in distributions of damage-sensitive features of SHM data, with application to structural condition assessment
CN116561569A (zh) 一种基于EO特征选择结合AdaBoost算法的工业电力负荷辨识方法
CN115355166A (zh) 一种基于短时傅里叶变换的空压机故障诊断方法和系统
Talebi-Kalaleh et al. Damage Detection in Bridge Structures through Compressed Sensing of Crowdsourced Smartphone Data
Tanoni et al. Knowledge distillation for scalable nonintrusive load monitoring
Gu et al. Improved similarity-based residual life prediction method based on grey Markov model
Yu et al. Prediction model of bearing fault remaining useful life based on weighted variable loss degradation characteristics
Duan et al. Generative model: Impulse response generated from turbulence response in flutter signal

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant