KR102398986B1

KR102398986B1 - 고로쇠 수액 출수량 예측 시스템

Info

Publication number: KR102398986B1
Application number: KR1020200003149A
Authority: KR
Inventors: 심춘보; 최수임; 정세훈; 조경호; 박준; 김준영
Original assignee: 순천대학교 산학협력단
Priority date: 2020-01-09
Filing date: 2020-01-09
Publication date: 2022-05-17
Also published as: KR20210089940A

Abstract

개시된 본 발명에 따른 고로쇠 수액 출수량 예측 시스템은, 복수의 센서가 설치되어 복수의 환경정보를 얻으며 고로쇠 수액이 저장되는 스마트 집수조(100)와, 스마트 집수조에서 보내온 복수의 환경정보와 고로쇠 수액 출수량 정보및 기상청의 기상환경 정보가 입력되는 데이터 입력부(200)와, 데이터 입력부에 입력된 정보들을 머신러닝 알고리즘의 학습 데이터로 활용하기 위해 전처리를 수행하는 데이터 전처리부(300)와, 고로쇠 수액 출수량을 예측하기 위해 복수의 인공신경망 트리 모델을 구성하며, 구축된 복수의 인공신경망 트리 모델은 상기 데이터 전처리부의 데이터를 입력값으로 하여 상기 환경정보와 고로쇠 수액 출수량의 상관관계를 분석하여 각각의 예측을 진행하고, 예측 수액 출수량을 출력값으로 하여 예측 결과를 도출하는 수액 출수량 예측모델 생성부(400), 및 수액 출수량 예측모델 생성부의 복수의 예측 결과를 다수결의 원칙으로 처리하여 최종 고로쇠 수액의 예측 출수량을 산출하는 수액 출수량 산출부를 포함한다. 본 발명에 의하면 머신러닝에 기반하여 학습 시간, 예측 시간, 정확도를 기준으로 가장 정확하고 효율적인 고로쇠나무 수액 출수량을 예측할 수 있고, 이러한 고로쇠나무 수액의 생산량 예측으로 산간 농가들의 효율적인 노동력 활용과 고로쇠 수액의 품질관리를 개선할 수 있는 효과가 있다.

Description

고로쇠 수액 출수량 예측 시스템{A System for Production Prediction of Acer mono Sap}

본 발명은 고로쇠 수액 출수량 예측 시스템에 관한 것으로서, 보다 상세하게는 머신러닝 모델을 이용하여 고로쇠 수액의 출수량을 예측하는 시스템에 관한 것이다.

최근 발생하고 있는 기후변화로 인하여 지역적인 기상이변이 많이 발생하고 있다. 국립기상 연구소의 미래 기후 변화 시나리오(AIB)에 따르면 21세기 말 대비 22세기 말에는 한반도 전지역의 기온이 4℃ 상승하게 되는데, 일 최고기온의 상승보다 일 최저기온의 상승 폭이 커져 연교차가 1.7℃ 감소하며, 강수량 또한 한반도 전 지역에서 17% 증가할 것으로 전망하고 있다. 이러한 기상변화는 한반도의 농업 및 임업에 매우 큰 영향을 주게 될 것으로 예상되며, 특히 재배 여건이 가장 불리한 임산물 생산여건은 기상변화에 가장 취약한 상태로 볼 수 있다.

이러한 임산물 생산의 경쟁력 강화를 위해 생산기반 요소의 지원능력과 재배관리의 주요 인자들의 실태를 파악할 수 있다면, 통계적 출수량의 변화 정도를 기반으로 최근 산림 수목재배 지역의 주요 재배여건이라고 할 수 있는 기상조건 변화와 이상기상으로 볼 수 있는 재배여건으로 인한 출수량을 예측할 수 있을 것으로 판단된다.

대한민국에서 고로쇠나무는 수액을 채취할 수 있는 중요한 수종 중 하나이다. 고로쇠나무는 단풍나무과의 활엽수로 북미에서는 메이플나무로 불린다. 국내 고로쇠나무 수액의 주요 산지는 인제, 광양, 산청 등으로 주로 해발 600m 이상의 고산지대에서 위치한다.

이처럼 대부분이 관리하기 어려운 험준한 산에 위치하는 고로쇠나무의 특성으로 인해, 수종을 관리하고 수액을 채취하는 작업에는 많은 노동력과 사고의 위험성이 뒤따른다. 이러한 불리한 여건에도 불구하고 고로쇠나무 수액은 주요 산지지역의 농가 소득에서 큰 부분을 차지하고 있으며, 연구적 목적(서울대학교 남부학술림)으로 관리되고 있다. 그러나 기존 관리체계에서 수액의 출수량을 조사 및 기록을 위해서는 사람이 직접 일일이 상태를 확인하고 기록하는 방식으로 진행되어 정보의 기록이 정확하지 않고 효율적인 활용이 어려운 단점이 있다.

이런 문제점을 감안하여 예를 들어 하기 특허문헌 1의 고로쇠 수액 스마트 저장 시스템에는 ICT 통합 제어방식을 적용하여 복수의 센서 및 필터와 살균램프와 같은 구동수단이 설치되어 사용자가 정보를 받고 원격으로 조정할 수 있는 기술이 개시된다.

그러나 상기 선행문헌에 개시된 기술은 수액 저장고의 제어와 수액 집수량, 환경 정보만 취득할 뿐이며 수액의 출수량을 예측할 수는 없게 된다.

한편, 최근에는 머신러닝(딥러닝) 기법을 이용하여 농작물들의 출수량을 예측하는 연구가 활발하게 이루어지고 있다. 머신러닝 모델은 여러개 있으나 대표적인 것을 살펴보면 아래와 같다.

Linear Regression

Linear regression은 종속변수 Y에 한 개 이상의 독립변수 X가 주는 영향을 선형적으로 분석하는 방법으로, 독립변수 X가 하나일 경우 Simple Linear Regression, 2개 이상일 경우 Multiple Linear Regression으로 표현한다. 식 1은 Simple Linear Regression 모델로,

과

는 각각의 y절편과 기울기를 의미하며,

는 독립변수,

는 오차항으로 측정상의 오차나 모든 정보를 파악할 수 없는 점 등을 다양한 현실적인 한계로 발생하는 불확실성을 나타낸다.

식 2는 Multiple Linear Regression 모델로 이 경우 상기 식 1과 크게 차이가 없이 추가된 독립변수만큼

을 추가함으로써 여러 독립변수를 한 번에 고려할 수 있도록 표현한다.

SVM

SVM(Support Vector Machin)은 블라디미르 배프니크(Vladimir Vapnik)와 그의 동료들에 의해 1992년 최초로 정립된 방법으로 분류기법 중에 있어서 현재까지도 최상의 기법으로 평가받고 있다. 서포트 벡터 머신은 Hyperplane를 이용하여 분류하는 Linear classifier로, 학습 데이터를 비선형매핑을 통해 고차원으로 변환하여, Margin을 최대화하는 Hyperplane을 찾아 최적의 의사결정 영역을 찾는 알고리즘이다. 모델에 새로운 데이터 포인트가 들어 올 경우, 전체 데이터 포인트와의 내적 거리를 계산하지 않고 서포트 벡터와의 내적 거리만을 계산함으로써 계산 비용을 줄이게 된다. 하지만 SVM의 차원이 높아짐으로써 계산 비용도 같이 높아지는 문제가 발생하게 되는데, 해당 문제를 해결하는 방법이 바로 커널이다. 커널은 실제로 데이터를 확장하지 않고 확장된 특성에 대한 데이터 포인트들의 거리(스칼라 곱)를 계산을 진행한다.

HyperPlane을 찾는 기본식은 식 3으로

는 초평면의 법선 벡터로 초평면의 방향, 즉 기울기를 나타내며,

는

와

벡터의 형태를 변경시키는 행렬의 전치(Transpose),

는 원점에서 직선까지의 거리를 결정하는 값으로 초평면의 위치를 나타내는 스칼라로 편향값(bias)을 나타낸다. 이는 최종적으로는

를 구하여 마진을 최대화하기 위해 식 4와 같은 목적식과 제약식을 갖게 된다.

다음 식 5는 랑그랑지 승수법을 사용하여 목적 함수과 제약식을 한꺼번에 계산한 식으로써, 새로운 형태의 목적 함수로 ,

,

)의 라그랑주변수에 대한 조건을 만족해야 하며, 라그랑주 승수

을 구함으로써

와

을 계산해야 한다.

식 6은

를 기저 함수

로 바꿈으로써 두 개의 변환된 독립변수 벡터를

로 하나의 함수로 나타냄으로써 커널을 표현하게 된다.

ANN

ANN(artificial neural network)은 뇌를 구성하는 신경세포, 즉 뉴런을 기초하여 시냅스로 연결되어 전기신호를 통해 정보를 주고받는 모습에서 착안하여 인공적으로 학습을 할 수 있도록 만들어진 학습 알고리즘이다. ANN은 분석 목적에 따라 예측을 위한 지도 학습과 인공신경망과 패턴인식을 위한 비지도 학습으로 구분되며, 지도 학습을 통한 학습은 모델의 출력과 해당 정답의 차이를 줄이도록 모델을 수정하는 과정을 거치게 되며, 비지도 학습은 학습 데이터의 유사성을 찾아 군집의 패턴을 파악하게 된다.

ANN의 학습 과정은 입력층을 통해 중간층을 거쳐 출력층으로 이동함으로써 결과가 나오게 되는데, 입력층은 단순히 입력값이 노드(뉴런)와 1:1로 매칭되어 입력되어 중간층(은닉층)으로 이동한다. 중간층은 노드와 가중치의 결합이 이루어지며, 중간층의 개수에 따라 복잡도가 결정되고 구성에 따라 중간층이 없을 수도 있으며, 여러 층으로 구성될 수도 있다. 중간층이 존재하지 않을 경우, 입력층에서 바로 출력층으로 값의 전달이 이루어지며 이를 단층 신경망이라고 표현한다. 중간층의 노드가 존재할 경우, 중간층을 거쳐 출력층으로 이동하게 되는데 중간층이 여러 층 존재할 경우 이러한 모든 중간층을 거쳐 출력층으로 이동하게 되며 이를 다층 신경망이라 표현하며, 중간층이 2개 이상이 되는 경우, 심층 신경망이라고도 표현한다. 출력층은 예측하고자 하는 형태들의 수에 따라 개수가 결정되며, 중간층과 출력층에 존재하는 노드는 이전의 층들에서 주어진 가중치와 입력값의 합을 계산하고 노드의 가중치 합을 입력값으로 신호를 출력하는 활성화 함수 기능을 수행하여 결과를 출력해낸다. 식 7은 하나의 뉴런이 입력 을 받아 가중치 을 곱한 값해주고 편향 을 더한 값으로 해당 값을 활성화 함수를 사용하여 ANN에 적합하게 바꾸어 다음 뉴런으로 전달하게 된다.

Random Forest

Random forest는 2001년 Leo Breiman에 의해 처음 소개된 기법으로 의사결정 트리를 바탕으로 만들어진 알고리즘이다. 의사결정 트리는 Root node로부터 시작하여 조건에 따라 split node로 이동하게 되고 최종적으로는 결론인 leaf node로 이동하게 되는데, Random forest는 부트스트랩을 사용하여 이러한 의사결정 트리의 요소들을 랜덤하게 선정하여 여러 개의 의사결정 트리를 생성하게 되고, 생성된 의사결정 트리들로부터 결과들을 받아 다수결로 결과를 결정하는 앙상블 방식으로 결과를 도출한다.

대한민국 공개특허공보 제10-2019-0131391호(2019.112.26. 공개)

본 발명은 상기와 같은 점을 감안하여 안출된 것으로써, 본 발명의 해결 과제는 환경 정보가 고로쇠나무 수액 출수량과 밀접한 연관이 있다는 농가들의 경험을 토대로, 환경 정보와 고로쇠나무 수액 출수량의 상관관계 분석을 진행하여 고로쇠나무 수액의 출수량을 예측하고자 하는 고로쇠 수액 출수량 예측 시스템을 제공하는데 있다.

상기 과제를 해결하기 위한 본 발명에 따른 고로쇠 수액 출수량 예측 시스템은, 복수의 센서가 설치되어 복수의 환경정보를 얻으며 고로쇠 수액이 저장되는 스마트 집수조; 상기 스마트 집수조에서 보내온 복수의 환경정보와 고로쇠 수액 출수량 정보및 기상청의 기상환경 정보가 입력되는 데이터 입력부; 상기 데이터 입력부에 입력된 정보들을 머신러닝 알고리즘의 학습 데이터로 활용하기 위해 전처리를 수행하는 데이터 전처리부; 고로쇠 수액 출수량을 예측하기 위해 복수의 인공신경망 트리 모델을 구성하며, 구축된 복수의 인공신경망 트리 모델은 상기 데이터 전처리부의 데이터를 입력값으로 하여 상기 환경정보와 고로쇠 수액 출수량의 상관관계를 분석하여 각각의 예측을 진행하고, 예측 수액 출수량을 출력값으로 하여 예측 결과를 도출하는 수액 출수량 예측모델 생성부; 및, 상기 수액 출수량 예측모델 생성부의 복수의 예측 결과를 다수결의 원칙으로 처리하여 최종 고로쇠 수액의 예측 출수량을 산출하는 수액 출수량 산출부;를 포함한다.

상기 복수의 환경정보는 최고온도, 최저기온, 평균기온, 일교차, 최고습도, 최저습도, 강수량을 포함하는 7개의 정보이며, 상기 수액 출수량 예측모델 생성부는 Random Forest 알고리즘을 기반으로 하되, 입력값을 상기 7개의 정보를 독립변수로 하고 이 중 랜덤하게 5개의 종속변수로 선정하여 200개 내지 300개의 트리 모델을 구성하며, 상기 200개 내지 300개의 트리 모델들을 입력값을 기준으로 각각의 수액 출수량을 예측하여 200개 내지 300개의 수액 출수량 예측 결과를 도출한다.

본 발명에 의하면 머신러닝에 기반하여 7개의 환경정보와 고로쇠 수액 출수량의 상관관계를 분석하되 학습 시간, 예측 시간, 정확도를 기준으로 가장 정확하고 효율적인 고로쇠나무 수액 출수량을 예측할 수 있고, 이러한 고로쇠나무 수액의 생산량 예측으로 산간 농가들의 효율적인 노동력 활용과 고로쇠 수액의 품질관리를 개선할 수 있는 효과가 있다.

도 1은 본 발명의 실시예에 따른 고로쇠 수액 출수량 예측 시스템,
도 2는 본 발명의 실시예에 따른 고로쉬 수액 출수량 예측 시스템의 동작을 설명하기 위한 도면,
도 3은 도 1의 수액 출수량 예측모델 생성부의 예측모델을 설명하기 위한 도면,
도 4는 도 1의 데이터 입력부의 데이터 셋(set)의 구성형태를 나타내는 도면,
도 5는 도 1의 데이터 입력부의 학습 데이터와 테스트 데이터의 분류 현황을 나타내는 도면,
도 6은 Random Forest의 하이퍼 파라미터별 정확도 결과를 나타내는 도면,
도 7은 본 발명의 실시예에 따른 Random Forest 최적 모델의 수액 출수량 예측 결과 분포도를 나타낸 도면,
도 8은 알고리즘별 모델의 성능 비교 결과를 나타낸 도면이다.

본 발명의 상기와 같은 목적, 특징 및 다른 장점들은 첨부도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명함으로써 더욱 명백해질 것이다. 이하 첨부된 도면을 참조하여 본 발명의 실시예에 따른 고로쇠 수액 출수량 예측 시스템에 대해 상세히 설명하기로 한다.

도 1 및 도 2를 참조하면, 본 발명의 실시예에 따른 고로쇠 수액 출수량 예측 시스템은 스마트 집수조(100), 데이터 입력부(200), 데이터 전처리부(300), 수액 출수량 예측모델 생성부(400), 수액 출수량 산출부(500)를 포함한다.

스마트 집수조(100)는 고로쇠나무가 있는 현장에 설치되는데, 고로쇠나무에서 출수되는 수액을 저장하는 집수통, 집수통 내부와 외부 환경 정보를 취득하는 복수의 센서로 구성된 환경정보 수집부, 수집된 환경정보를 전송하는 데이터 전송부를 포함한다.

환경정보 수집기에서 수집하는 데이터는 집수통 내부의 수위, PH, 온·습도 데이터와 외부 대기온·습도, 지면 온·습도, 일사량, 전기전도도, 풍향·풍속 데이터를 포함할 수 있다. 데이터 전송부는 환경정보 수집부에서 수집한 데이터를 Ethernet과 LET 통신 등을 활용하여 외부 서버(본 시스템의 데이터 입력부)에 전송하는 역할을 한다.

데이터 입력부(200)는 스마트 집수조(100)에서 보내온 복수의 환경정보와 기상청의 기상환경 정보가 입력된다. 또한 상기 정보 이외에 필요한 경우 데이터 입력부(200)에는 고로쇠나무가 서식하는 지역에서 고로쇠나무 수액을 채취하는 농가들이 기록한 데이터 로거 혹은 수기로 작성된 데이터들이 입력될 수 있다.

데이터 전처리부(300)는 데이터 입력부(200)에 입력된 정보들을 머신러닝 알고리즘의 학습 데이터로 활용하기 위해 전처리를 수행한다. 구체적으로 데이터 분석에 악영향을 미치는 이상치나 결측치 등을 제거하는 전처리 작업을 수행한다. 데이터 전처리부(300)는 데이터베이스에 다 저장되어 있는 데이터와 제공받은 데이터의 형태의 통일성을 위해 수집한 데이터들의 파라미터를 통일시키며 공통인자인 최고기온, 최저기온, 평균기온, 일교차, 최고습도, 최저습도, 강수량 및 고로쇠나무 수액 집수량을 선출하여 수액 출수량 예측모델 생성부(400)의 입력 데이터로 활용하기 위한 통합 데이터를 구성하게 된다.

데이터 전처리부(300)에서 작성된 통합 데이터는 다시 데이터베이스에 저장되며, 본 시스템의 수액 생산량 예측과 검증을 위해 예측모델의 학습 데이터와 학습상태를 확인할 테스트 데이터의 분할 진행을 할 수 있다.

수액 출수량 예측모델 생성부(400)는 고로쇠 수액 출수량을 예측하기 위해 복수의 인공신경망 트리 모델을 구성하며, 구축된 복수의 인공신경망 트리 모델은 상기 데이터 전처리부의 데이터를 입력값으로 하여 각각의 예측을 진행하고 예측 수액 출수량을 출력값으로 하여 예측 결과를 도출하게 된다.

도 3은 수액 출수량 예측모델 생성부(400)의 수액 출수량 예측모델을 설명하기 위한 도면으로, 수액 출수량 예측모델 생성부는 Random Forest 알고리즘을 기반으로 하되, 입력값을 상기 7개의 환경정보(최고기온, 최저기온, 평균기온, 일교차, 최고습도, 최저습도, 강수량)를 독립변수로 하고 이 중 랜덤하게 5개의 종속변수로 선정하여 200개 내지 300개의 트리 모델을 구성하며. 상기 200개 내지 300개의 트리 모델들을 입력값을 기준으로 각각의 수액 출수량을 예측하여 200개 내지 300개의 수액 출수량 예측 결과를 도출한다. 구체적으로 수액 출수량 예측모델 생성부(400)는 머신러닝 알고리즘 Random Forest로 진행된다. Random Forest는 Python3를 통해 Scikit-learn으로 구현이 이루어졌으며, Random Forest는 앙상블 기법으로 여러 Tree 모델의 결과를 다수결의 원칙에 따라 종합하여 최종적인 결과를 나타내기 때문에 모델의 개수와 모델을 구성할 독립변수의 개수를 결정하게 된다. 고로쇠 수액 출수량 예측모델의 Random Forest 구성은 7개의 변수들(최고기온, 최저기온, 평균기온, 일교차, 최고습도, 최저습도, 강수량) 중에 5개를 랜덤하게 선정을 진행하여 총 200개 내지 300의 트리 모델을 구성하게 된다. 이렇게 구성된 트리 모델들은 입력값을 받아 예측을 진행하게 된다.

수액 출수량 산출부(500)는 수액 출수량 예측모델 생성부(400)의 복수의 예측 결과를 다수결의 원칙으로 처리하여 최종 고로쇠 수액의 예측 출수량을 산출한다.

본 발명에 의한 머신러닝 모델은 지속적인 학습을 위해 스마트 집수조를 통해 저장된 데이터들을 전처리를 진행하여 Random Forest로 학습을 진행하게 된다.

본 발명에 의하여 획득한 예측 출수량 정보는 스마트 집수장치를 통해 획득한 환경 정보와 함께 웹 또는 모바일 앱으로 사용자 또는 관리자에게 제공할 수 있게 된다.

<실시예>

데이터 수집

본 발명의 실시예에서 사용된 데이터는 산청, 광양, 거제, 인제에서 수명이 30년 이상 된 고로쇠나무 50그루를 스마트 집수조에 연결하여 3년간 기온, 습도, 고로쇠 수액 등의 데이터를 시간별로 전송받아 하루를 기준으로 데이터를 취합하였으며, 이밖에 고로쇠 수액 채취 농가에서 수기로 작성 데이터와 데이터로거를 통해 작성된 데이터들을 수집하였다.

데이터 전처리

고로쇠 출수량 예측모델들을 사용하여 출수량을 예측하기에 앞서 고로쇠 출수액 예측의 정확도에 영향을 줄 수 있는 이상 데이터를 제거하는 전처리과정을 실시하였다. 수집한 데이터에는 당일 스마트 집수조의 집수통의 고로쇠나무 수액 용량 포화로 인한 집수 중지, 고로쇠 수액을 고로쇠 집수장치까지 이동시키기 위한 고무관과 고로쇠 집수장치 세척, 야생동물들에 의한 고무관 손상 등 인위적이거나 외부의 문제로 인해 고로쇠 수액 출수량에 영향을 미치는 경우들이 포함되어있기에 이를 이상 데이터로 판단하여 제외하였으며, 데이터 셋의 일부분 표기 누락 된 결측치들을 제거하며, 출수량의 복잡성을 줄이기 위해 1L를 기준으로 반올림을 진행하였다.

데이터 형태

데이터는 앞서 설명한 수집 방식에 따라 서로 다른 형태의 구성요소로 구성되어 있다. 서로 각기 다른 형태의 데이터 셋들을 하나의 형태로 통합하기 위해, 각 데이터 셋에 공통적으로 구성된 요소들만을 선택하여 도 4의 구성요소로 통일하여 데이터 셋을 통합하였다. 통합된 데이터 셋은 7개의 환경정보인 평균기온, 최고기온, 최저기온, 일교차, 최고습도, 최저습도, 강수량과 고로쇠 수액 출수량을 구성요소로 갖고 있으며, 데이터는 출수량을 기준으로 최대 66L까지로 수집하였다. 도 5를 참조하면, 학습 데이터와 테스트 데이터의 분류는 전체 데이터 408,864개에서 무작위로 학습 데이터는 75%, 테스트 데이터는 25%로 나누어 고로쇠 수액 출수량 예측 모델의 학습과 테스트에 진행할 데이터를 분류하였다. 도 3은 분류한 데이터의 대략적인 분포 형태를 나타내기 위해 약 10L 간격으로 나누어 데이터 분포를 나타내었으며, 60∼66L의 범위의 출수는 정말 희귀한 경우로 각 리터당 한 번의 출수가 이루어졌기 때문에 학습 데이터로만 구성하였다.

고로쇠 수액 출수량 예측 모델 선정

본 실시예에서는 일교차가 클 때 삼투압 효과로 인해 고로쇠 수액의 출수량이 증가하고, 기온이 너무 높은 경우 고로쇠가 말라 출수량이 적어진다는 등 농가들의 경험을 근거로 고로쇠나무 주변의 환경 요소들이 고로쇠나무 수액 출수량에 영향을 미친다는 가정으로 평균기온, 최고기온, 최저기온, 일교차, 최고습도, 최저습도, 강수량 총 7개의 파라미터를 활용하여 Linear Regression, SVM, ANN, Random Forest 4개의 알고리즘별 고로쇠나무의 수액 출수량 예측모델을 설계하였다.

주변 환경 요소들이 고로쇠나무 수액 출수량에 영향을 미친다는 가정을 토대로 해당 요인들이 선형적인 관계를 이루는지를 파악하기 위해 고로쇠 출수량 예측모델 중 하나로 Linear Regression을 선정하였다. Linear Regression 모델에는 파라미터 즉 입력변수들의 유의미한 의미를 판단하여 선별하기 위해 OLS 작업을 진행하였으며, Scikit-learn을 사용해 Multiple Linear Regression 모델 설계를 진행하였다.

Linear Regression과 비교할 회귀분석모델로는 고차원에서 뛰어난 효율성을 보이는 SVM을 선정하였다. SVM은 Scikit-learn을 활용하여 구현이 이루어졌으며, 고로쇠 출수량 예측은 7개의 파라미터를 사용함으로써 고차원으로 이루어지기 때문에, 커널 중에서도 고차원에서 효율적인 RBF 커널을 사용하여 최적의 모델 탐색이 진행되었다. ANN은 학습에 사용되는 데이터로부터 원하는 근사 함수를 만들 수 있기에 적절한 고로쇠 수액 출수량 예측모델을 만들 수 있을 것으로 생각되어 ANN을 예측모델로 선정하였다. ANN은 Tensorflow를 사용하여 구현이 이루어졌으며, 모델은 크로스 엔트로피 함수를 사용해 오차를 줄이며, 활성화 함수로는 ReLu(Rectified linear unit)함수, learning rate를 0.001로 학습을 진행하여 고로쇠 수액 출수량 범위의 예측을 진행하였다.

Random Forest는 앙상블 기법으로 최적의 단일 모델의 예측보다 신뢰성 있는 예측이 이루어질 것으로 판단되어 고로쇠 출수량 예측모델로 선정하였다. 연구에서 사용한 Random Forest는 Scikit-learn을 통해 구현이 이루어졌다.

상기 4개의 알고리즘별 모델들은 최적 형태의 모델을 구성하기 위해, 하이퍼 파라미터 혹은 히든 레이어 등의 구성을 Grid Search를 사용하여 정확도를 비교함으로써 최적 모델 형태를 검증한다. 이후 알고리즘별 최적 형태 모델들의 정확도와 학습 시간, 예측 시간을 비교 분석하여 모바일 앱에 사용될 예측모델을 선정하였는데, 그 결과 Random Forest가 가장 높은 정확도와 안정적인 예측 형태를 보였다.

Random Forest 모델 최적화

Random Forest의 최적 모델을 찾기 위해 모형의 개수(n_estimators)와 7개의 데이터의 독립변수 중 랜덤하게 선택할 종속변수의 개수(max_features)를 조절하며, 나머지 하이퍼 파라미터는 디폴트 상태로 모델을 비교하였다. 도 6은 Random Forest의 모델들의 하이퍼 파라미터별 정확도로, 종속변수의 개수가 증가할수록 정확도가 상승하며 최대 5개의 종속변수를 가질 때 가장 높은 정확도를 보이다 6개 이상의 종속변수부터 정확도가 소폭으로 감소하는 모습을 보였다. 모형의 개수는 개수가 증가함에 따라 전체적으로 정확도가 소폭으로 증가하는 모습을 보인다.

Random Forest 모델은 모형의 개수가 늘어남에 따라 높은 정확도를 보이지만, 모형의 개수가 증가한 만큼 학습과 예측을 진행하기에 그만큼 더 많은 시간과 자원을 필요로 한다. 하지만 소모되는 시간과 자원을 고려한 정확도 상승 수치를 비교할 때, 정확도 상승 수치는 매우 미미한 결과를 보여 최적의 형태는 0.96%의 정확도를 보이는 200개의 모형과 종속변수의 개수 5개를 갖는 모델을 최적 모델로 선정하였다.

Random Forest 최적 모델 검증

Sap(L)	precision	recall	support
0	1.000	0.997	42451
1	0.811	0.825	120
2	0.859	0.826	155
3	0.813	0.880	183
4	0.867	0.857	273
5	0.902	0.880	441
6	0.929	0.928	803
7	0.925	0.939	1098
8	0.937	0.935	1486
9	0.948	0.936	1807
10	0.938	0.943	1970
11	0.939	0.951	2241
12	0.954	0.936	2332
13	0.942	0.954	2552
14	0.949	0.947	2512
15	0.946	0.951	2658
16	0.942	0.943	2677
17	0.951	0.941	2775
18	0.939	0.950	2672
19	0.948	0.948	2737
20	0.939	0.950	2489
21	0.947	0.942	2436
22	0.938	0.947	2320
23	0.953	0.937	2237
24	0.944	0.944	2008
25	0.915	0.949	1733
26	0.942	0.922	1718
27	0.918	0.940	1515
28	0.922	0.935	1451
29	0.926	0.921	1247
30	0.927	0.917	1198
31	0.911	0.921	1030
32	0.933	0.918	963
33	0.910	0.923	788
34	0.910	0.925	745
35	0.925	0.927	701
36	0.922	0.897	594
37	0.865	0.923	522
38	0.932	0.882	466
39	0.916	0.914	382
40	0.895	0.916	335
41	0.895	0.873	283
42	0.873	0.861	223
43	0.829	0.844	167
44	0.812	0.840	144
45	0.822	0.874	127
46	0.913	0.772	123
47	0.788	0.817	82
48	0.719	0.853	75
49	0.792	0.679	56
50	0.765	0.650	40
51	0.703	0.765	34
52	0.632	0.706	17
53	0.615	0.889	9
54	0.000	0.000	3
55	0.200	0.250	4
56	0.333	0.333	3
57	0.000	0.000	3
58	0.000	0.000	1
59	1.000	1.000	1
macro avg	0.825	0.832	102216
weighted avg	0.961	0.961	102216
Accuracy	0.96

상기 표 1은 Random Forest 최적 모델의 수액 출수량 예측 정확도를 나타낸 것이다. 최적 모델의 출수량 예측 정확도는 정확한 검증을 위해 Precision, Recall, Accuracy으로 표현하였다. 해당 방식은 하기 식 8과 같다. TP는 True Positive, FP는 False Positive, FN은 False Negative, TN은 True Negative로 Precision은 예측값 중 정답의 비율을 나타내며, Recall은 실제값 중 정답의 비율, Accuracy는 예측 데이터 전체의 정확도를 나타낼 결과를 표현하였다.

표 1을 참조하면, 출수량이 0L일 때 precision은 반올림된 1.0으로 6개의 에러를 가지고 있으며, recall은 0.997로 122개의 에러를 가지고 있다. 0L의 recall 에러 개수는 전체 데이터의 precision에 영향을 미쳤음에도 대부분의 출수량에서 0.9 이상의 높은 정확도로 안정적인 예측 결과와 함께 데이터양이 많을수록 높은 정확도를 보이는 특징을 보인다. 다만 학습 데이터가 리터당 100개 미만으로 구성된 50L∼59L에서는 전체적으로 낮은 정확도의 성능을 보인다.

도 7은 본 실시예에 따른 Random Forest 최적 모델의 수액 출수량 예측 결과 분포도를 나타낸 것이며, 도시된 바와 같이 정답 라인(Red Line)의 폭이 가장 좁은 형태로 예측 정확도 측면에서는 안정적인 형태를 보이며 이를 통해 정확도가 매우 우수함을 알 수 있다. 도 7을 참조하면, 0L일 때 precision의 6개의 에러는 모두 근사치 1L이며, recall 122개의 에러는 근사예측치인 1L인 경우를 제외하면 총 107개의 에러가 존재한다. 해당 에러 수치는 최소 9L부터 최대 35L까지 큰 폭의 차이를 보이며, 9L부터 19L까지 36개, 20L부터 29L까지 55개, 30L부터 35L까지 16개의 오류를 보인다. 0L 이외에도 근사치를 제외한 ±2L 이상의 차이를 보이는 오류는 총 55개가 존재한다. 그중에서도 2L 차이가 37개로 가장 많은 비중을 차지하며, 3L는 5개, 4L는 6개, 5L는 1개, 6L는 2개, 7L는 1개, 8L는 3개로 실제값과 큰 차이를 보이는 예측값은 0L를 제외하고는 10개 내외로 확인된다. 또한, 데이터양이 적은 50L∼59L에서는 낮은 예측 정확도로 인한 우려와 달리 대부분 정답의 근사치(±1)에 존재하며, 총 115개의 support 중 단 6개의 데이터 포인트만이 ±2의 차이를 보인다.

본 실시예에서 사용한 Linear Regression, SVM, ANN, Random Forest 알고리즘들의 최적 형태 모델들에서 모바일 앱에 사용할 모델을 선출하기 위해 학습 시간, 예측 시간, 정확도로 나누어 비교를 진행하였다. 학습 시간은 모델이 데이터를 학습하는데 소요된 시간으로 이후 고로쇠 수액 집수조를 통해 수집되는 데이터들을 모델에 추가적인 학습을 위한 확장성에 대한 부분을 위해 평가 기준으로 선정하였으며, 예측 시간은 모델이 고로쇠나무 수액 출수량을 예측하는데 소요된 시간으로, 모바일 앱을 활용하여 사용자가 예상 출수량을 확인할 때, 해당 결과를 사용자에게 반영하기까지의 시간을 고려하기 위한 부분으로 평가 기준으로 선정하였다. 정확도는 모델이 측정한 예측 출수량이 실제 출수량과 얼마나 일치하는지에 대한 내용으로, 모바일 앱을 통해 예상 출수량을 확인할 때 사용자에게 얼마나 정확한 결과를 반영할 수 있는지에 대한 부분으로 평가 기준으로 선정하였다. 도 8은 최적 형태 모델들의 학습 시간, 예측 시간, 정확도를 나타낸다.

학습 모델이 306,648개의 데이터를 학습을 진행하는데 가장 짧은 학습 시간을 보인 알고리즘은 Linear Regression이다. Linear Regression은 학습 데이터로부터 파라미터들의 가중치를 계산하여 하나의 선형식 도출을 진행하기 때문에 짧은 학습 시간으로 학습 모델이 생성되었으며, SVM은 데이터들을 특성 공간으로 매핑을 통해 서포트 백터를 선정하여 판별경계를 생성하기 때문에 비교적 오랜 학습 시간이 측정되었다. ANN은 모델의 학습량이 증가할수록 높은 정확도를 갖기에 긴 학습 시간을 갖게 되었으며, 긴 학습 시간을 해결하기 위해 GPU를 활용하였음에도 다른 알고리즘과 비교적 가장 긴 학습 시간이 측정되었다. Random Forest는 앙상블 기법을 통한 결과 도출을 위해 부트스트랩을 사용하여 랜덤성을 갖는 모델(Tree)을 생성하는 비교적 간단한 작업으로 짧은 시간이 소요되었다.

모델이 102,216개의 테스트 데이터의 예측 진행하는데 Linear Regression과 ANN이 가장 짧은 예측 시간을 보였다. 두 알고리즘은 학습을 통해 결정된 가중치들을 사용해 연산과정을 거쳐 결과를 도출하기 때문에 1초 미만의 짧은 예측 시간을 보였다. 반면 SVM의 경우 판별경계를 통해 데이터를 판별하고 결과를 도출하기 때문에 테스트 데이터를 학습 형태와 같은 특성 공간으로의 매핑을 진행하기 때문에 비교 알고리즘들 중 가장 긴 예측 시간을 가지며, Random Forest는 앙상블 기법의 특성상 모델(Tree)들의 결과에 대한 다수결 투표를 진행하여 최종적인 결과를 결정하기 때문에 비교 알고리즘들 중에서 비교적 긴 예측 시간을 갖는다.

Linear Regression, SVM, ANN, Random Forest 알고리즘들의 학습 시간, 예측 시간, 정확도별 비교를 진행하였다. Linear Regression은 짧은 학습 시간과 예측 시간을 보이지만 매우 낮은 정확도를 갖기에 모바일 앱의 출수량 예측모델로 사용하기에는 부적절하였으며, SVM은 높은 정확도를 갖지만, 학습 시간과 예측 시간에서 느린 속도를 보인다. 특히 예측 시간 부분에서는 소량의 테스트 데이터를 활용하더라도 특성 공간으로의 매핑을 통해 오랜 예측 시간이 소요되어, SVM 모델도 모바일 앱에 활용하기에 부적절하다고 판단하였다. ANN은 느린 학습 시간을 갖지만, 이는 사용하는 GPU의 개선으로 해결할 수 있을 것으로 판단되며, 짧은 예측 시간과 높은 정확도로 모바일 앱의 출수량 예측모델로 활용하기에 부합한 모델로 판단된다.

Random Forest는 앞선 비교 모델들 중 가장 높은 정확도와 안정적인 예측 형태를 보이며, 학습 시간 역시 Linear Regression을 제외한 나머지 모델 중에서 짧은 학습 시간을 갖는다. 예측 시간은 다른 모델들에 비해 느린 모습을 보이지만, Random Forset의 예측 시간은 약 10,000개가량의 데이터에서까지 다른 모델들과 마찬가지로 짧은 예측 시간을 보이며, 해당 속도는 CPU 클럭에 따라 해결할 수 있기에 전체 비교 모델들 중 모바일 앱의 출수량 예측모델로 가장 적합한 형태로 판단되었다.

이상에서 본 발명의 바람직한 실시예에 대하여 설명하였으나 본 발명은 상술한 특정의 실시예에 한정되지 아니한다. 즉, 본 발명이 속하는 기술분야에서 통상의 지식을 가지는 자라면 첨부된 특허청구범위의 사상 및 범주를 일탈함이 없이 본 발명에 대한 다수의 변경 및 수정이 가능하며, 그러한 모든 적절한 변경 및 수정의 균등물들도 본 발명의 범위에 속하는 것으로 간주되어야 할 것이다.

100. 스마트 집수조 200. 데이터 입력부
300. 데이터 전처리부 400. 수액 출수량 예측모델 생성부
500. 수액 출수량 산출부

Claims

복수의 센서가 설치되어 복수의 환경정보를 얻으며 고로쇠 수액이 저장되는 스마트 집수조;
상기 스마트 집수조에서 보내온 복수의 환경정보와 고로쇠 수액 출수량 정보및 기상청의 기상환경 정보가 입력되는 데이터 입력부;
상기 데이터 입력부에 입력된 정보들을 머신러닝 알고리즘의 학습 데이터로 활용하기 위해 전처리를 수행하는 데이터 전처리부;
고로쇠 수액 출수량을 예측하기 위해 복수의 인공신경망 트리 모델을 구성하며, 구축된 복수의 인공신경망 트리 모델은 상기 데이터 전처리부의 데이터를 입력값으로 하여 상기 환경정보와 고로쇠 수액 출수량의 상관관계를 분석하여 각각의 예측을 진행하고, 예측 수액 출수량을 출력값으로 하여 예측 결과를 도출하는 수액 출수량 예측모델 생성부; 및,
상기 수액 출수량 예측모델 생성부의 복수의 예측 결과를 다수결의 원칙으로 처리하여 최종 고로쇠 수액의 예측 출수량을 산출하는 수액 출수량 산출부;를 포함하며,
상기 복수의 환경정보는 최고온도, 최저기온, 평균기온, 일교차, 최고습도, 최저습도, 강수량을 포함하는 7개의 정보이며,
상기 수액 출수량 예측모델 생성부는 Random Forest 알고리즘을 기반으로 하되, 입력값을 상기 7개의 정보를 독립변수로 하고 이 중 랜덤하게 5개의 종속변수로 선정하여 200개 내지 300개의 트리 모델을 구성하며, 상기 200개 내지 300개의 트리 모델들을 입력값을 기준으로 각각의 수액 출수량을 예측하여 200개 내지 300개의 수액 출수량 예측 결과를 도출하며,
상기 수액 출수량 산출부는 상기 수액 출수량 예측모델 생성부에 예측된 200개 내지 300개 수액 출수량 예측 결과를 다수결의 원칙으로 처리하여 최종 고로쇠 수액의 예측 출수량을 산출하는 것을 특징으로 하는 고로쇠 수액 출수량 예측 시스템.
삭제