KR102617839B1

KR102617839B1 - 국내외　뉴스　자연어처리를　바탕으로　한　상품가격　단기예측　통계분석　알고리즘

Info

Publication number: KR102617839B1
Application number: KR1020210014610A
Authority: KR
Inventors: 김혜진; 이동현; 김규민; 박병욱
Original assignee: 주식회사 프리시전에스씨엠; 서울대학교산학협력단
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2024-01-23
Also published as: KR20220111406A

Abstract

본 발명은 인터넷상의 뉴스 데이터를 웹 크롤링하여 일별 목적 상품의 가격과 뉴스 데이터를 수집하는 데이터부; NLP를 통해 상기 데이터부에서 수집한 데이터에 대한 전처리를 진행하는 전처리부; 상기 전처리부에서 전처리된 데이터를 활용하여 최적 튜닝모수의 선택과 함께 예측 모형을 개발하는 모형부; 및 상기 모형부에서 계산한 최적의 튜닝모수를 적용한 예측 모형을 통해 예측을 시행하는 예측부를 포함하며; 상기 예측부에서는 1개월 이내의 특정 시점 이후 목적 상품 가격의 변동을 예측하는 것을 특징으로 하는 상품 가격 예측 시스템을 제안한다.

Description

국내외　뉴스　자연어처리를　바탕으로　한　상품가격　단기예측　통계분석　알고리즘 {Statistical Algorithm for the Short-term Forecasts of Product Prices Based on Natural Language Processing of Domestic and Foreign News}

본 발명은 웹 크롤링(Web Crawling)으로 얻은 뉴스 데이터를 자연어 처리(Natural Language Processing, 이하 NLP)를 활용하여 모형부에 사용할 설명변수로 변환하고, 이를 통계 모형에 적용하여 한 달 이내 단기간의 원자재 가격 및 금융 상품 가격을 예측하는 국내외 뉴스 자연어처리를 바탕으로 한 상품가격 단기예측 통계분석 알고리즘에 관한 것이다.

원자재 및 금융 상품은 특유의 가격 결정 메커니즘이 존재하고, 이러한 가격 결정 메커니즘은 무수히 많은 변수 데이터에 의해 영향을 받는다. 상품 가격에 영향을 미치는 근본적인 요인들은 매우 다양하고 복잡하며 시간에 따라 달라질 수 있다. 또한, 이러한 요인들이 상품의 가격에 영향을 미치는 정도가 시시각각 변동되기도 한다.

최근에는 인터넷 기술의 발달로 인하여 인간에 의해 새롭게 만들어지는 거의 모든 정보가 인터넷을 통해서 전파, 공유, 활용되고 있다. 또한, 인터넷을 통해서 이용 가능한 정보는 디지털화된 정보이므로 이를 상품 가격 예측을 위한 입력 데이터로 손쉽게 활용할 수 있다. 이렇게 인터넷에 공유되고 있는 이른바 빅 데이터에 통계 모델을 적용하여 상품가격 변동을 예측하기 위한 빅데이터 분석이 이루어지고 있다.

종래의 분석 기술들은 뉴스 데이터의 텍스트를 긍정/부정으로 분류하거나, 1-2-3-4-5 등 숫자로 인덱스화 하여 주식, 원자재 등 상품 가격의 상승/하락과 연관짓는 방법을 활용한 것들이 주를 이루고 있다. 또한, 가격 추이를 예측하는 통계적 방법으로 딥러닝, 머신러닝, 단순 회귀분석을 주로 사용하고 있다.

관련 선행 문헌인 대한민국 공개특허공보 제10-2020-0115708호(2020.10.08.) '딥러닝 기반 자원 가격 예측 방법'에서는 뉴스 수집 - 자연어(NLP) 처리 - 중요도 추정 기술 적용(연결 경제 지표 선정) - 심층 신경망 연결을 통한 특정 자원의 가격을 예측하는 것을 개시하고 있다. 위 선행 문헌에 제시된 방식과 유사한 상품 가격 예측 방법은 다른 문헌에도 많이 소개되어 있지만, 가격 예측력의 검증에 대해서는 생략되어 있는 경우가 대부분이다.

또한, 대한민국 공개특허공보 제10-2019-0116590호(2019.10.15.) '뉴스를 분석하여 기업의 주가를 예측하는 장치 및 이의 동작 방법' 에서는 뉴스 저장 - 형태소 분석 - 긍정/부정/중립 단어를 카운트하여 주식 가격의 등락률을 결정하는 뉴스를 분석함으로써 기업의 주가를 예측하는 장치를 개시하고 있다. 여기서 각 단어에 대한 가중치를 결정하는 알고리즘은 다음과 같다.

P(x,y)는 n개의 원소(xi)들로 이루어진 단어 벡터 x와 n개의 원소(yi)들로 이루어진 뉴스 벡터 y 간의 유사도이다. 해당 문헌의 뉴스 분류부는 예컨대 '갑 회사'에 매칭되어 있는 단어 벡터와 뉴스 벡터 간의 유사도를 상기 수학식을 이용하여 연산할 수 있다.

위와 같은 종래의 방법들은 텍스트의 성질이 주관적 기준으로 설정되며, 감성 사전의 지정된 범주를 넘어선 텍스트는 상품 가격에 영향을 주더라도 무시된다는 문제가 있다. 즉, 긍정/부정적 단어라 할지라도 뉴스 문장의 맥락에 따라 가격 등락에 기존 방법과 반대로 영향을 줄 수 있음에도 불구하고, 통계적 고찰이나 검증 없이 주관적인 판단에 기반하여 긍정-상승, 부정-하락으로 매칭하는 문제가 있다.

또한, 종래 기술에서의 딥러닝은 신경망 층을 많이 쌓는 등 복잡한 구조를 사용하여, 입력 데이터의 차원이 매우 크면 데이터를 학습하는데 시간이 오래 걸리는 경우가 많아 시시각각으로 변하는 상황에서는 사용하기 어렵다는 문제점이 있다.

대한민국 공개특허공보 제10-2020-0115708호(2020.10.08.) 대한민국 공개특허공보 제10-2019-0116590호(2019.10.15.)

본 발명은 뉴스 데이터를 통한 목표 금융상품 가격의 단기예측에서 상술한 문제점을 해결하기 위하여 창출된 것이다. 본 발명에서는 뉴스 데이터를 변수로 활용하기 위한 전처리 알고리즘과 상품 가격의 등락을 예측하는 통계 모형의 적합 알고리즘을 바탕으로 상품가격　단기예측　통계분석　알고리즘을 제공한다.

본 발명에서 제시하는 알고리즘은 (i) 인터넷상의 뉴스 데이터를 웹 크롤링하여 일별 목적 상품의 가격과 뉴스 데이터를 수집하는 데이터부; (ii) NLP를 통해 데이터부에서 수집한 데이터에 대한 전처리를 진행하는 전처리부; (iii) 전처리된 데이터를 활용하여 최적 튜닝모수(tuning parameter)의 선택과 함께 예측모형을 개발하는 모형부; (iv) 모형부에서 적합한 로지스틱(Logistic) LASSO 회귀모형 또는 다중 로지스틱(Multinomial Logistic) LASSO 회귀모형으로 특정 시점의 목적 상품 가격의 변동을 예측하는 예측부로 구성된다.

본 발명의 전처리부에서는 NLP에서 사용되는 개념 중 하나인 TF-IDF(Term Frequency - Inverse Document Frequency)를 활용하여 모형부에서 이용할 설명변수를 생성시킨다.

본 발명의 모형부에서는 상기 전처리 단계에서 전처리된 데이터에 적용할 로지스틱 LASSO 회귀모형 또는 다중 로지스틱 LASSO 회귀모형을 생성하는 모형 생성 단계, 그리고 상기 모형 생성 단계에서 생성된 모형의 검증(Testing)을 통해 최적의 튜닝모수 값을 추정하는 검증 및 계산 단계를 진행한다.

본 발명의 예측부에서는 상기 모형부에서 개발한 예측모형을 이용하여 1개월 이내의 특정 시점 이후의 목적 상품 가격 변동을 예측한다. 상기 모형부에서 로지스틱 LASSO 회귀모형 활용 시 목적 상품 가격의 변동을 상승 또는 하락으로 예측하며, 다중 로지스틱 LASSO 회귀모형 활용 시 목적 상품 가격의 변동을 상승, 하락 또는 유지와 같이 세 개 이상의 범주로 분류하여 예측한다.

본 발명에 따른 국내외 뉴스 자연어처리를 바탕으로 한 상품가격 단기예측 통계분석 알고리즘은 목표 변수와 관련된 정보(뉴스 데이터 등)를 웹 크롤링하여 활용하는 통계적 알고리즘이며, 알고리즘의 자동화를 통해 개인 또는 기업에서 편리하게 단기적 상품 가격 변동을 예측할 수 있는 효과를 가진다.

또한, 본 발명의 통계분석 알고리즘은 로지스틱 LASSO 회귀모형 또는 다중 로지스틱 LASSO 회귀모형을 이용하여 상품 가격 예측의 정확도를 높일 수 있다. 이 알고리즘은 고도의 기계학습(Machine Learning)을 활용하지 않기 때문에, 기계학습에서 흔히 필요한 하드웨어의 높은 성능을 요구하지 않는 장점을 가진다.

도 1은 본 발명의 실시 예에 따른 국내외 뉴스 자연어처리를 바탕으로 한 상품가격 단기예측 통계분석 알고리즘을 설명하는 개략 구성도이다.
도 2는 본 발명의 실시 예에 따른 단기적 상품 가격 예측 시스템의 적용 흐름도와 작동 원리를 설명하는 도면이다.
도 3은 본 발명의 실시 예에 따른 데이터부의 세부 구성을 설명하는 도면이다.
도 4는 본 발명의 실시 예에 따른 국내외 뉴스 자연어처리를 바탕으로 한 상품가격 단기예측 통계분석 알고리즘을 포괄적으로 설명하는 순서도이다.
도 5는 본 발명의 실시 예에 따른 모형 생성 단계의 적용 모형 선택 단계를 설명하는 도면이다.
도 6은 본 발명의 실시 예에 따른 검증 단계의 세부 구성을 설명하는 개념도이다.
도 7은 본 발명의 실시 예에 따른 예측 모형을 통해 특정 시점 이후의 목적 상품 가격 변동을 예측하는 과정을 설명하는 도면이다.
도 8은 본 발명의 실시 예에 따른 국내외 뉴스 자연어처리를 바탕으로 한 상품가격 단기예측 통계분석 알고리즘을 설명하는 순서도이다.

이하, 본 발명에 따른 국내외 뉴스 자연어처리를 바탕으로 한 상품가격 단기예측 통계분석 알고리즘을 첨부도면을 참조하며 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것을 달성하는 방법은 첨부된 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다.

본 발명은 이후에 개시되는 실시 예들에 의해 한정되는 것이 아니라 그 외의 다양한 형태로 구현될 수 있다. 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하여, 본 발명이 속하는 기술분야의 통상적인 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의된다.

또한, 본 발명을 설명함에 있어 관련된 공지 기술 등이 본 발명의 요지를 흐리게 할 수 있다고 판단되는 경우, 그에 관한 자세한 설명은 생략하기로 한다.

도 1은 본 발명의 실시 예에 따른 국내외 뉴스 자연어처리를 바탕으로 한 상품가격 단기예측 통계분석 알고리즘을 설명하는 개략 구성도이고, 도 2는 본 발명의 실시 예에 따른 단기적 상품 가격 예측 시스템의 적용 흐름도와 작동 원리를 설명하는 도면이고, 도 3은 본 발명의 실시 예에 따른 데이터부의 세부 구성을 설명하는 도면이고, 도 4는 본 발명의 실시 예에 따른 국내외 뉴스 자연어처리를 바탕으로 한 상품가격 단기예측 통계분석 알고리즘을 포괄적으로 설명하는 순서도이고, 도 5는 본 발명의 실시 예에 따른 모형 생성 단계의 적용 모형 선택단계를 설명하는 도면이고, 도 6은 본 발명의 실시 예에 따른 검증 단계를 설명하는 개념도이고, 도 7은 본 발명의 실시 예에 따른 예측 모형을 통해 특정 시점 이후의 목적 상품 가격 변동을 예측하는 과정을 설명하는 도면이고, 도 8은 본 발명의 실시 예에 따른 국내외 뉴스 자연어처리를 바탕으로 한 상품가격 단기예측 통계분석 알고리즘을 설명하는 순서도이다.

도 1 내지 도 8을 참조하면, 본 알고리즘은 일별 목적 상품 가격과 뉴스 데이터를 수집하는 데이터부(100), 수집된 데이터에 NLP를 적용하는 전처리부(200), 전처리된 데이터를 이용하여 최적의 모형을 찾는 모형부(300)와 통계 알고리즘을 적용하여 최적 도달 일별 목적 상품의 가격 변동을 예측하는 예측부(400)로 구성될 수 있다.

국내외 뉴스 자연어처리를 바탕으로 한 상품가격 단기예측 통계분석 알고리즘은 데이터부(100)에서 웹 크롤링을 진행하여 일별 목적 상품의 가격과 뉴스 데이터를 수집한다. 웹 크롤링이란 무수히 많은 컴퓨터나 인터넷에 분산 저장되어 있는 문서를 수집하여 검색 대상의 색인으로 포함시키는 기술이다.

전처리부(200)에서는 뉴스 데이터의 TF-IDF를 사용한다. TF-IDF는 NLP에서 사용하는 통계적 수치 중 하나로 여러 문서(Document)로 구성된 문서군에서 특정 단어가 특정 문서에서 얼마나 중요한 단어인지를 통계적으로 나타낸다. 본 발명에서 문서는 뉴스의 제목 및 핵심 문장으로 구성되어 있고, 각각의 문서는 뉴스가 작성된 날짜로 구분한다.

TF-IDF는 데이터에 존재하는 단어 t, 문서 d에 대해 다음과 같이 계산한다.

상기 수학식의 TF(단어 빈도, Term Frequency)는 특정 단어가 문서 내에서 얼마나 자주 등장하는지를 나타내는 값으로, 이 값이 높을수록 그 단어는 해당 문서에서 중요하다. 그러나 단어의 TF 값이 높은 동시에 문서군 전체에서 자주 사용되는 경우, 그 단어가 각 문서에서 특별히 중요하다고 보기 어렵다. 따라서 DF(문서 빈도, Document Frequency)의 역수 IDF(역문서 빈도, Inverse Document Frequency)를 TF에 곱한 TF-IDF를 어떤 단어가 특정 문서 내에서 얼마나 중요한지를 나타내는 통계적 수치로 이용한다. TF-IDF는 문서의 핵심 단어를 추출하거나, 검색 엔진에서 검색 결과 순위를 결정하거나, 문서들 사이의 유사도를 구하는 등의 용도로 사용할 수 있다.

TF-IDF를 활용하여 뉴스의 핵심 키워드를 찾는 기법은 이전에도 존재하였으나 특정 시점의 중요한 키워드를 발견하는 데에 그치고, 이를 이용하여 구체적으로 상품 가격을 예측하는 방법을 제시하지 않았다.

본 발명은 종래의 기술에서 더 나아가, TF-IDF 수치를 설명변수로 활용한 모형을 통해 상품 가격의 변동을 예측하는 알고리즘을 제안한다.

모형부(300)에서는 본 발명의 실시 예로 반응변수가 상승 또는 하락 두 개의 범주를 가질 때, 이산형 변수에 적용하기 적합한 로지스틱 회귀모형을 사용하였다.

만약 반응변수가 상승, 하락 혹은 유지 등 세 개 이상의 범주를 가지는 경우, 다중 로지스틱 회귀모형을 사용할 수 있다. 다중 로지스틱 회귀모형은 반응변수가 범주형이면서 범주가 3개 이상일 때 적용할 수 있는 회귀모형이다.

한편, 전처리부(200)에서 전처리를 거친 후에도 설명변수 차원이 매우 크기 때문에 변수 선택이 필요하다. 본 알고리즘에서는 변수 선택 방법으로 LASSO 기법을 도입하였다. LASSO 기법은 회귀계수를 추정할 때 회귀계수의 크기에 L1-Penalty(이하 LASSO 페널티)를 주는 기법으로, 계수의 크기에 제약을 둠으로써 과적합을 피하는 동시에 변수를 선택하는 특징이 있다.

도 2에 도시된 바와 같이, 국내외 뉴스 자연어처리를 바탕으로 한 상품가격 단기예측 통계분석 알고리즘은 웹 크롤링을 통해 데이터를 수집하는 데이터부(100), 일별 뉴스 데이터로부터 TF-IDF를 계산하는 전처리부(200), 전처리부(200)에서 전처리된 데이터에 대해 최적의 로지스틱 LASSO 회귀모형을 찾는 모형부(300), 그리고 모형부(300)에서 찾은 최적의 모형을 이용하여 목적 상품의 가격 변동을 예측하는 예측부(400)로 구성된다.

뉴스 데이터를 통한 주가 예측은 종래에도 시도되었으나, 대부분의 방법들은 뉴스 데이터로 설명변수를 생성할 때 단어의 성질을 주관적인 판단으로 분류한 감성 사전을 활용하였으며, 감정 사전에 등록되지 않은 단어는 변수에 포함할 수 없었다. 본 발명은 각 단어에 대응되는 TF-IDF라는 통계적 수치를 설명변수로 활용한 모형을 제시한다. 본 발명은 이로써 뉴스의 단어가 주가에 미치는 영향을 객관적으로 나타낼 뿐만 아니라 감성 사전에 등록되지 않은 단어도 변수로 활용할 수 있으며, 이러한 점에서 종래 기술과 차이가 있다.

도 3에 도시된 바와 같이, 본 발명에서 데이터부(100)의 일별 뉴스 데이터(101)는 뉴스의 제목(101a), 뉴스가 업로드된 날짜(101b), 뉴스의 핵심 문장(101c)을 포함하고, 원유 가격 등 목적 상품의 가격 데이터(102)는 일별 목적 상품의 가격(102a)으로 구성되어 있다.

전처리부(200)는 NLP 처리부(210)로 구성되며, NLP 처리부(210)에서 뉴스의 제목과 핵심 문장에 등장하는 단어들에 대하여 데이터가 존재하는 날짜마다 제목과 핵심 문장 각각에서의 TF-IDF를 계산한다.

이 과정에서, 'a', 'the'와 같이 거의 모든 뉴스에 등장하는 단어와 거의 등장하지 않는 단어들은 예측 성능을 떨어뜨리기 때문에 해당 발명에서는 TF-IDF가 매우 작거나 매우 큰 값에 해당하는 단어들은 제외한다. 또한, 서브샘플링(Subsampling frequent words) 방법 등을 통해 제외할 수도 있다.

TF-IDF가 매우 작거나 매우 큰 값의 단어들을 제외한 후에도 전처리된 설명변수의 차원이 매우 크기 때문에, TF-IDF가 큰 순으로 단어를 일부 선택하여 이후 모형부(300)의 설명변수로 활용한다.

모형부(300)의 검증 및 계산 단계에서는 주어진 데이터의 최신 데이터를 테스트 데이터, 나머지 데이터를 트레이닝 데이터로 분리하여 최적 튜닝모수를 추정한다. 구체적으로, 최적의 LASSO 페널티, 설명변수로 사용할 최적의 단어 수, 그리고 뉴스 데이터가 '며칠 뒤'의 예측에 최적인지를 검증한다.

예측부(400)에서는 모형부(300)의 로지스틱 LASSO 회귀모형(301) 또는 다중 로지스틱 LASSO 회귀모형(302)으로 목적 상품 가격 변동을 예측한다.

위의 표 1은 뉴스 데이터 일부를 나타낸 것이다. 각 열은 왼쪽부터 순서대로 뉴스 제목(101a, title), 뉴스가 업로드된 날짜(101b, timestamp), 그리고 뉴스의 핵심 문장(101c, descrip)이다.

위의 표 2는 전처리를 통해 계산한 단어 각각의 TF-IDF 데이터 일부이다. 각 행은 뉴스 업로드 날짜, 각 열은 뉴스에 등장한 단어이며, 행렬의 값은 해당 날짜에 대한 해당 단어의 TF-IDF 값을 의미한다.

위의 표 3은 표 2의 TF-IDF 데이터를 통해 로지스틱 LASSO 회귀모형을 적합한 후, 추정된 회귀계수 일부를 나타낸 것이다. 변수(Variable) 항목은 각 설명변수(TF-IDF)에 대응하는 단어, 계수(Coefficients) 항목은 해당 변수에 대응하는 추정된 회귀계수를 의미한다.

위의 표 4는 추정한 로지스틱 LASSO 회귀모형을 통해 각 날짜의 목적 상품 가격 변동을 예측한 결과의 일부이다. 로지스틱 LASSO 회귀모형의 경우 변동을 상승 또는 하락으로 예측한다. 표 4의 label 항목은 해당 날짜의 목적 상품 가격 변동 예측을 숫자로 나타낸 것으로 1은 상승, 0은 하락을 의미한다.

표 1부터 표 4까지의 과정을 정리하여 순서도로 나타내면 도 7에 도시된 바와 같다. 도 7은 뉴스 데이터의 TF-IDF를 계산하는 전처리 단계(S100), 상기 전처리 단계(S100)에서 전처리된 데이터에 대해 로지스틱 LASSO 모형을 생성하는 모형 생성 단계(S110), 검증을 통해 최적 튜닝모수를 계산하는 검증 및 계산 단계(S120), 그리고 최적 튜닝모수를 적용하여 추정한 모형으로 예측을 시행하는 예측 단계(S130)를 포함한다. 전처리 단계(S100) 이전, 데이터부(100)에서 웹 크롤링을 통해 인터넷으로부터 일별 목적 상품의 가격과 뉴스 데이터를 수집하는 데이터 수집 단계를 진행할 수 있다.

본 발명은 원자재 및 금융 상품의 가격 예측에 관한 것으로, 본 기술을 적용할 수 있는 분야로 원자재를 기반으로 하는 투자 및 이로부터 파생된 금융 상품 분야가 있다. 이러한 분야는 규모가 매우 크며 최근에도 활발하게 관련 연구가 진행되고 있어 향후 지속적인 발전 가능성이 높은 분야이다.

위에 언급한 투자 및 금융상품 분야에서, 관련 상품 가격 변동의 예측은 좋은 수익률 등의 긍정적인 성과를 위해서 필수적이다. 본 발명이 제공하는 알고리즘은 이러한 분야에 상품 가격 예측의 한 도구로써 편리하게 적용할 수 있으므로, 금융 상품 관련 서비스를 제공하는 많은 기업에 수요가 있을 것으로 예상된다.

본 발명에서 필요한 데이터는 목적 상품의 가격 추이를 나타내는 시계열, 그리고 해당 상품과 관련된 뉴스를 통해 얻을 수 있다. 상품의 가격 추이를 나타내는 시계열은 영업일마다 데이터가 생성되며 금융 관련 사이트를 통해 쉽게 접근 가능하다. 또한, 금융 상품과 관련된 뉴스는 매일 수많은 양이 생산되므로 그만큼 방대한 양의 데이터를 본 발명에 활용할 수 있다.

본 발명을 위한 모든 데이터는 웹 크롤링을 통해 인터넷으로부터 어렵지 않게 얻을 수 있으므로, 본 발명은 자원 확보 측면에서 사업 지속에 유리하다. 또한 본 발명에서 데이터를 수집하는 알고리즘은 그 특성상 데이터의 대량 생산에 제한이 없으며, 알고리즘의 자동화를 통해 개인 또는 기업이 편리하게 본 기술을 사용할 수 있다.

본 발명의 알고리즘은 고도의 기계학습을 활용하지 않으므로, 기계학습에서 흔히 필요한 하드웨어의 높은 성능을 요구하지 않는 장점을 가진다. 또한 본 발명의 모형부에 적용하는 데이터는 차원이 크고, 대부분이 0의 값을 가지는 희소 데이터(Sparse data)인데, 본 발명의 알고리즘은 이러한 데이터에 알맞는 로지스틱 LASSO 회귀모형을 이용한다.

또한, 본 발명의 알고리즘은 새로운 설명변수를 유동적으로 추가할 수 있으며, 이를 통해 예측의 정확도를 높일 수 있다. 본 발명의 실시 예에서는 TF-IDF 값만을 공변량으로 사용하였으나, 이외에도 문장 내 단어들 사이의 관계 및 해당 단어의 품사 등을 추가할 수 있다.

(다중) 로지스틱 LASSO 회귀모형의 생성 및 검증 단계에서는 최적의 LASSO 페널티, 설명변수로 사용할 최적의 단어 수, 그리고 뉴스 데이터가 '며칠 뒤'의 예측에 최적인지를 자동으로 계산할 수 있다. 여기서 '며칠 뒤'의 경우 한 달 이내의 기간으로 결정한다. 가령 한 달 후의 예측이 최적으로 계산되었다면, 해당 모형을 통해 한 달 후 목적 상품 가격의 변동을 예측할 수 있다.

로지스틱 LASSO 회귀모형의 경우 가격 변동을 상승/하락 두 개의 범주로 분류한다. 한편, 다중 로지스틱 LASSO 회귀모형(302)을 이용하면 가격 변동을 더 세분화하여 세 개 이상의 범주로 분류할 수 있다. 예를 들어 가격 변동을 상승/유지/하락으로 나눈 3개의 범주로 분류하거나, 급등/상승/하락/급락으로 나눈 4개의 범주로 분류할 수 있다.

상기 내용은 도 2에서 확인할 수 있다. 로지스틱 LASSO 회귀모형(301)의 경우, 예측 결과가 1(상승) 또는 0(하락)으로 주어진다. 한편 다중 로지스틱 LASSO 회귀모형(302)의 경우, 예측 결과가 2(급등), 1(상승), 0(하락), 또는 -1(급락)으로 주어진다.

국내외 뉴스 자연어처리를 바탕으로 한 상품가격 단기예측 통계분석 알고리즘은 도 8에 도시된 바와 같이 단계적으로 표현할 수 있다. 구체적으로, 본 발명의 알고리즘은 웹 크롤링을 통한 데이터 수집 단계(S200), 뉴스 데이터의 TF-IDF를 계산하는 전처리 단계(S210), 전처리된 데이터를 활용하는 모형을 생성하는 모형 생성 단계(S220), 생성된 모형의 검증을 통해 최적의 튜닝모수 값을 계산하는 검증 및 계산단계(S230), 그리고 최적의 튜닝모수를 적용한 예측 모형으로 예측을 시행하는 예측 단계(S240)를 포함한다.

웹 크롤링을 통한 데이터 수집 단계(S200)에서는 파이썬(Python) 및 통계 전용 프로그래밍 언어 R로 만들어진 프로그래밍 라이브러리를 활용하며, 필요한 데이터를 인터넷으로부터 수집한다.

전처리 단계(S210)에서는 파이썬 프로그래밍 라이브러리 중 하나인 NLTK(Natural Language Toolkit)를 활용하여 뉴스의 제목과 핵심 문장에 출현하는 단어들의 빈도를 계산한다. 이후 라이브러리 사이킷런(Sci-kit Learn)을 활용하여 TF-IDF를 계산한다.

모형 생성 단계(S220)에서는 먼저 모형에 사용할 설명변수 개수를 정하고, 전처리를 통해 계산된 TF-IDF 값이 큰 순서대로 정한 개수만큼의 변수를 선택한다. 이후 로지스틱 LASSO 또는 다중 로지스틱 LASSO 회귀모형 중 하나의 모형을 생성한다. 로지스틱 LASSO 회귀모형을 생성하면 변동을 상승/하락 중 하나로 예측할 수 있으며, 다중 로지스틱 LASSO 회귀모형을 생성하면 변동의 범주를 좀 더 세분화하여 예측할 수 있다. 모형 생성 시 튜닝모수를 지정하는데, 이러한 튜닝모수에는 앞서 설명한 설명변수 개수 외에도 LASSO 페널티, 그리고 며칠 뒤를 예측할지가 해당된다.

검증 및 계산 단계(S230)에서는 모형 생성 단계(S220)에서 생성된 모형을 검증하며, 이를 통해 최적 튜닝모수를 추정한다. 구체적으로, 먼저 검증을 위해 최신 데이터를 테스트 데이터로, 나머지는 트레이닝 데이터로 분리한다. 이후 트레이닝 데이터에 격자 검색(Grid Search) 등의 방법을 통해 다양한 튜닝모수로 모형을 적합하고, 테스트 데이터에 각 모형을 적용하여 예측 성능을 확인한다. 마지막으로, 가장 좋은 예측 성능을 보인 모형의 튜닝모수를 최적 튜닝모수로 지정한다.

검증 및 계산 단계(S230)에서는 예측 성능을 확인하기 위해 정확도(Accuracy), 정밀도(Precision), 재현율(Recall) 및 F1 Score이라는 지표들을 종합적으로 활용한다. 여기서 F1 Score는 정밀도와 재현율의 조화평균으로써, 분류 모형이 얼마나 효과적인지를 설명하기 위한 지표 중 하나이다.

예측 단계(S240)에서는 최적 튜닝모수를 적용한 모형을 최종 예측 모형으로 활용하여, 최적 도달 일별 목적 상품의 가격 변동을 예측한다. 앞선 검증 단계에서 '며칠 뒤'를 예측하는 것이 최적인지를 계산하게 되는데, 최적 도달 일별 가격 변동을 예측하는 것은 '며칠 뒤' 시점의 가격을 현재 시점의 가격과 비교했을 때의 변동 예측을 뜻한다.

본 발명은 상기 실시 예에 한정되지 않고, 본 발명의 기술적 요지를 벗어나지 아니하는 범위 내에서 다양하게 수정 또는 변형되어 실시될 수 있다. 이는 본 발명이 속하는 기술 분야에 대한 통상의 지식을 가진 자에 있어서 자명한 것이다.

100: 데이터부
200: 전처리부
210: TF-IDF(Term Frequency - Inverse Document Frequency)
300: 모형부
301: 로지스틱 LASSO 회귀 모형
302: 다중 로지스틱 LASSO 회귀 모형
400: 예측부
410, 420: 예상 날짜
411, 412, 421, 422, 423, 424: 계산값
450: 예측 결과

Claims

인터넷상의 뉴스 데이터를 웹 크롤링하여 일별 목적 상품의 가격과 뉴스 데이터를 수집하는 데이터부;
NLP를 통해 상기 데이터부에서 수집한 데이터에 대한 전처리를 진행하여 TF-IDF를 계산하는 전처리부;
상기 전처리부에서 전처리된 데이터를 활용하여 튜닝모수의 선택과 함께 예측 모형을 개발하여 생성하고, 생성된 모형을 검증하고 튜닝모수 값을 추정하는 모형부; 및
상기 모형부에서 계산한 튜닝모수를 적용한 예측 모형을 통해 예측을 시행하는 예측부를 포함하며;
상기 모형부에서는, 전처리부의 NLP에서 계산된 TF-IDF값 중 최소값과 최대값에 해당하는 단어들은 제외하고 TF-IDF값이 큰 순으로 단어를 일부 선택하여 모형부의 설명변수로 적용하며;
상기 예측부는, 모형부에서 생성된 로지스틱 LASSO 회귀모형 또는 다중 로지스틱 LASSO 회귀모형 중 어느 하나를 선택하여 진행하며;
로지스틱 LASSO 회귀모형으로 진행 시 특정 시점 이후의 목적 상품 가격 변동을 상승 및 하락 중 하나로 예측하고, 다중 로지스틱 LASSO 회귀모형 진행 시 특정 시점 이후의 목적 상품 가격 변동을 적어도 세 개 이상의 범주로 세분화하여 그 중 하나로 예측하며;
상기 예측부는, 1개월 이내의 특정 시점 이후 목적 상품 가격의 변동을 예측하는 것을 특징으로 하는 상품 가격 예측 시스템.
삭제
삭제
청구항 1에 있어서,
상기 모형부는,
주어진 데이터의 최신 데이터를 테스트 데이터로, 나머지는 트레이닝 데이터로 분리하여 검증을 진행하는 것을 특징으로 하는 상품 가격 예측 시스템.
인터넷상의 뉴스 데이터를 상품 가격 예측 시스템의 데이터부에서 웹 크롤링하여 일별 목적 상품의 가격과 뉴스 데이터를 수집하는 데이터 수집 단계;
NLP를 통해 상기 데이터 수집 단계에서 수집한 데이터에 대한 전처리를 상품 가격 예측 시스템의 전처리부에서 진행하여 TF-IDF를 계산하는 전처리 단계;
상기 전처리부에서 전처리된 데이터를 활용하여 상품 가격 예측 시스템의 모형부에서 로지스틱 LASSO 회귀모형 또는 다중 로지스틱 LASSO 회귀모형 중 어느 하나를 선택하여 모형을 생성하는 모형 생성 단계;
상기 모형 생성 단계에서 생성된 모형을 상품 가격 예측 시스템의 모형부에서 검증을 통해 튜닝모수 값을 추정하는 검증 및 계산 단계; 및
상기 검증 및 계산 단계를 통해 계산한 튜닝모수를 적용한 예측 모형을 통해 상품 가격 예측 시스템의 예측부에서 예측을 시행하는 예측 단계를 포함하며;
상기 모형 생성 단계는, 전처리부의 NLP에서 계산된 TF-IDF값 중 최소값과 최대값에 해당하는 단어들은 제외하고, TF-IDF값이 큰 순으로 단어를 일부 선택하여 모형부의 설명변수로 적용하며;
상기 예측 단계는, 모형 생성 단계에서 생성된 로지스틱 LASSO 회귀모형으로 진행 시 특정 시점 이후의 목적 상품 가격 변동을 상승 및 하락 중 하나로 예측하며;
다중 로지스틱 LASSO 회귀모형 진행 시 특정 시점 이후의 목적 상품 가격 변동을 적어도 세 개 이상의 범주로 세분화하여 그 중 하나로 예측하며;
상기 예측 단계는, 1개월 이내의 특정 시점 이후 목적 상품 가격의 변동을 예측하는 것을 특징으로 하는 상품 가격 예측 방법.
삭제
삭제
청구항 5에 있어서,
상기 검증 및 계산 단계는,
주어진 데이터의 최신 데이터를 테스트 데이터로, 나머지는 트레이닝 데이터로 분리하여 검증을 진행하는 것을 특징으로 하는 상품 가격 예측 방법.