KR20170009692A

KR20170009692A - 주가 등락 예측 방법 및 서버

Info

Publication number: KR20170009692A
Application number: KR1020150184916A
Authority: KR
Inventors: 이수원; 엄장윤
Original assignee: 숭실대학교산학협력단
Priority date: 2015-07-15
Filing date: 2015-12-23
Publication date: 2017-01-25

Abstract

주가 등락 예측 방법 및 시스템이 제공된다. 본 발명의 일 실시예에 따른 주가 등락 예측 시스템은 뉴스와 KOSPI 데이터를 수집하고 수집된 뉴스는 불용어 제거 및 형태소 분석을 통해 단어를 추출하는 데이터 수집기와 전처리기, 감성 단어들을 선정하고 감성 단어의 감성 수치를 계산하여 주가 예측을 위해 필요한 주식 도메인의 감성 사전을 구축하는 감성 사전 구축기 및 구축된 감성사전을 이용한 예측 모델 및 KOSPI 데이터를 이용한 ARIMA 예측 모델을 결합하여 당일 대비 익일 종가의 등락을 예측하는 주가 등락 예측 모델 구축기를 포함하는 것을 특징으로 한다.

Description

주가 등락 예측 방법 및 서버{STOCK FLUCTUATIION PREDICTION METHOD AND SERVER}

본 발명은 주가 등락 예측 기술에 관한 것이다.

주식 시장에는 주식 전문가들과 일반 투자자들 사이에 정보의 비대칭성이 존재한다.

주식 전문가들은 고급 정보 또는 매매 기술을 활용하여 주식 매매 전략을 취하지만, 개인 투자자들은 뉴스나 증권 방송과 같은 기본적인 정보만을 이용하여 주식 매매 전략을 취하고 있다.

이에, 일반인들도 접근하기 쉬운 정보를 활용하여 주가를 예측함으로써, 일반 투자자들도 높은 수익률을 기대할 수 있는 방안이 요구되고 있다.

본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로, 일반인들도 접근하기 쉬운 정보를 활용하여 주가를 예측함으로써, 일반 투자자들도 높은 수익률을 기대할 수 있는 방안을 제공하고자 한다.

상기와 같은 목적을 달성하기 위해, 본 발명의 일 실시예에 따른 주가 등락을 예측하는 서버는 텍스트 데이터와 증시 주가 지수 데이터를 수집하는 데이터 수집기, 상기 수집된 텍스트 데이터의 불용어 제거와 형태소 분석을 통해 단어를 추출하는 전처리기, 상기 추출된 단어들로부터 감성 단어를 선정하고, 상기 선정된 감성 단어의 감성 수치를 계산하여 주가 예측을 위해 필요한 주식 도메인의 감성 사전을 구축하는 감성 사전 구축기 및 상기 구축된 감성 사전을 이용한 예측 모델 및 상기 수집된 증시 주가 지수 데이터를 이용한 ARIMA 예측 모델을 결합하여 당일 대비 익일 종가의 등락을 당일 장 마감 전에 예측하는 주가 등락 예측 모델 구축기를 포함하는 것을 특징으로 한다.

상기와 같은 목적을 달성하기 위해, 본 발명의 일 실시예에 따른 서버가 주가 등락을 예측하는 방법은 (a) 텍스트 데이터와 증시 주가 지수 데이터를 수집하는 단계, (b) 상기 수집된 텍스트 데이터의 불용어 제거와 형태소 분석을 통해 단어를 추출하는 단계, (c) 상기 추출된 단어들로부터 감성 단어를 선정하고, 상기 선정된 감성 단어의 감성 수치를 계산하여 주가 예측을 위해 필요한 주식 도메인의 감성 사전을 구축하는 단계 및 (d) 상기 구축된 감성 사전을 이용한 예측 모델 및 상기 수집된 증시 주가 지수 데이터를 이용한 ARIMA 예측 모델을 결합하여 당일 대비 익일 종가의 등락을 당일 장 마감 전에 예측하는 단계를 포함하는 것을 특징으로 한다.

본 발명의 일 실시예에 따르면, 일반 투자자들이 접근하기에 쉬운 뉴스와 과거 KOSPI 데이터를 이용하여 주가 등락을 예측하기 때문에 실용적이다.

또한, 주가와 밀접한 환율, 원자재와 같은 경제 지수를 예측하는데도 활용이 가능하다.

또한, 주가 도메인의 감성 사전을 자동으로 구축함으로써, 상품 리뷰 기반의 감성 사전을 이용한 상품 판매량 예측, 영화 리뷰 기반의 감성 사전을 이용한 영화 흥행 예측과 같은 타 도메인에 적용할 수 있다.

또한, 금융권이나 정부 기관에서 의사 결정 보조 도구로 활용할 수 있으며, 향후 개별 종목에 대한 예측으로 확장한다면 일반 기업에서도 활용 가능하다.

본 발명의 효과는 상기한 효과로 한정되는 것은 아니며, 본 발명의 상세한 설명 또는 특허청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.

도 1은 본 발명의 일 실시예에 따른 주가 등락 예측 서버의 구성을 도시한 도면이다.
도 2와 도 3은 본 발명의 일 실시예에 따른 뉴스 및 KOSPI 데이터 각각에 대한 수집 결과를 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 주가 등락 예측 모델을 평가하기 위한 학습 데이터 및 평가 데이터의 구성 방법을 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 예측 모델의 정확도를 테스트하는 과정을 도시한 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 등락률 임계치와 출현 빈도 임계치별 예측 모델의 정확도를 비교한 것이다.
도 7은 본 발명의 일 실시예에 따른 단어 품사별 감성 사전에 기반한 예측 정확도의 결과를 나타낸 도면이다.
도 8은 본 발명의 일 실시예에 따른 수동/반자동/자동 감성 사전을 이용한 예측 정확도의 결과를 나타낸 도면이다.
도 9는 본 발명의 일 실시예에 따른 KOSPI 데이터에 대해 Dickey-Fuller의 단위근 검정의 실시 결과를 나타낸 도면이다.
도 10은 본 발명의 일 실시예에 따른 최적의 ARIMA 모형의 선택 결과를 나타낸 도면이다.
도 11은 본 발명의 일 실시예에 따른 예측 모델별 예측 정확도의 결과를 나타낸 도면이다.
도 12는 각 연구 방법별 자산 변화의 결과를 나타낸 도면이다.

이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다.

그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다.

또한 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 구비할 수 있다는 것을 의미한다.

이하 첨부된 도면을 참고하여 본 발명의 실시예를 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 주가 등락 예측 서버의 구성을 도시한 도면이다.

본 발명의 일 실시예에 따른 주가 등락 예측 서버(100)는 데이터 수집기(110)와 전처리기(120), 감성 사전 구축기(130) 및 주가 등락 예측 모델 구축기(140)를 포함할 수 있다.

각 구성 요소를 간략하게 설명하면, 데이터 수집기(110)는 텍스트 데이터와 증시 주가 지수를 수집할 수 있으며, 전처리기(120)는 데이터 수집기(110)에서 수집된 텍스트 데이터의 불용어 제거 및 형태소 분석을 통해 단어를 추출할 수 있다.

여기서, 텍스트 데이터는 뉴스, SNS, 블로그, 카페 게시판 등의 소셜 데이터를 포함할 수 있으며, 이하 텍스트 데이터의 일 실시예로서 ‘뉴스’를, 증시 주가 지수의 일 실시예로서 KOSPI(KOrea composite Stock Price Index)를 사용하도록 한다.

물론, 증시 주가 지수 또한 KOSPI로 한정되는 것은 아니며, 각 국가별 증시 주가 지수가 적용될 수도 있다.

한편, 감성 사전 구축기(130)는 전처리기(120)에서 추출된 단어들로부터 감성 단어들을 선정하고 감성 단어의 감성 수치를 계산하여 주가 예측을 위해 필요한 주식 도메인의 감성 사전을 구축할 수 있다.

한편, 주가 등락 예측 모델 구축기(140)는 감성 사전 구축기(130)에서 구축된 감성 사전을 이용한 예측 모델 및 KOSPI 데이터를 이용한 ARIMA 예측 모델을 결합하여 당일 종가 대비 익일 종가의 등락을 예측할 수 있다.

이하, 각 구성 요소들을 상세히 설명하도록 한다.

먼저, 데이터 수집기(110)는 전술한 바와 같이, 텍스트 데이터로서 뉴스를 수집하고, 증시 주가 지수로서 KOSPI 데이터를 수집할 수 있다.

한편, 전처리기(120)는 데이터 수집기(110)에서 수집된 데이터에서 감성 단어를 추출하기 위한 기본적인 작업을 수행할 수 있으며, 불용어 제거부(121), 형태소 분석부(122) 및 뉴스 구분부(123)를 포함할 수 있다.

먼저, 불용어 제거부(121)는 데이터 수집기(110)에서 수집된 데이터가 올바르게 분석되도록 정제하는 역할을 수행할 수 있다.

주식과 관련된 소식을 전하는 경제 뉴스는 불필요한 광고 문구와 숫자, 종목 코드와 같은 단어를 다수 포함하고 있으며, 이로 인해 형태소 분석부(122)가 올바르게, 효율적으로 동작하지 못하는 경우가 있다.

이에, 불용어 제거부(121)는 형태소 분석부(122)가 올바르게, 효율적으로 동작하도록 데이터를 정제할 수 있다.

아래 [표 1]은 불용어 제거부(121)에 의한 불용어 처리 항목 및 불용어의 예시를 나타낸 것이다.

[표 1] 불용어 처리 예시

형태소 분석부(122)는 특정 문장이 주어졌을 때, 단어의 형태론적 구조를 기계적으로 분석할 수 있으며, 형태소 분석부(122)는 데이터 수집기(110)에서 수집된 데이터, 즉, 뉴스의 문장으로부터 명사와 서술어를 추출할 수 있다.

뉴스 구분부(123)는 감성 사전을 구축하기 위해 필요한 데이터를 설정하여 개장일에 배포된 뉴스가 아닌 경우(주말, 공휴일)를 처리하고 장중 뉴스를 추출할 수 있다.

참고로, 장중 뉴스는 개장 시간(09:00~15:00) 사이에 배포된 뉴스이다.

한편, 감성 사전 구축기(130)는 주가 예측을 위해 필요한 주식 도메인의 감성 사전을 구축하는 작업을 수행할 수 있으며, 뉴스 추출부(131), 감성 단어 선정부(132), 극성 계산부(133)를 포함할 수 있다.

먼저, 뉴스 추출부(131)는 등락률이 미리 정해진 임계 값 이상인 장중 뉴스만을 추출할 수 있다.

여기서 ‘등락률’은 특정 장중 뉴스가 배포된 다음 날의 증시 등락률로서 해당 장중 뉴스가 증시 등락에 미치는 영향을 반영한 것이다.

감성 단어 선정부(132)는 형태소 분석부(122)에서 추출된 단어들 중 특정 품사(명사와 서술어)의 단어를 추출하고, 추출된 단어의 출현 빈도 수를 계산하여 출현 빈도 수가 미리 정해진 임계 값 이상인 감성 단어를 추출할 수 있다.

극성 계산부(133)는 감성 단어 선정부(132)에서 추출된 감성 단어에 대한 극성을 계산하여 감성 사전을 구축할 수 있다.

아래의 [수학식 1]은 극성 계산부(133)가 감성 단어에 대한 극성을 계산하는 식이다.

[수학식 1]

여기서, TF_wi _,t는 날짜 t에 발생한 장중 뉴스에서 단어 w_i의 중복을 허용한 출현 빈도 수이다.

Ratio_t는 특정 날짜 t의 전일 KOSPI 종가 대비 당일 종가의 등락률을 의미하는 변수이다.

Score_word(w_i)는 단어 가 출현한 날짜 t에서 등락률 가중치 Ratio_t에 w_i의 출현 빈도 수 TF_wi _,t를 가중 평균하여 단어 w_i의 감성 수치를 계산하는 수식이다.

또한, Score_word(w_i)는 -∞∼∞의 범위를 가지며 ∞에 가까울수록 강한 상승을 의미한다.

감성 단어의 감성 수치를 추정하는 예시는 [표 2]와 같다.

[표 2] 감성 단어 ‘공매도’에 대한 극성 값 추정 예시

[표 2]에서 ‘공매도’라는 단어는 6개의 뉴스 중에서 5개의 뉴스(인덱스 1, 2, 4, 5, 6번)에서 발생하였다.

그러나, 인덱스 2번의 뉴스는 개장 시간(09:00~15:00) 외에 발생한 뉴스이므로 제외된다.

하나의 뉴스에 단어가 여러 번 발생하는 경우인 인덱스 4번의 뉴스는 ‘공매도’라는 단어가 2번 출현하였기 때문에 TF_wi _,t는 2가 되고, 장중에 발생한 뉴스들에서 단어가 여러 번 발생하는 경우인 인덱스 5번과 6번은 ‘공매도’라는 단어가 2번 발생하였기 때문에 TF_wi _,t는 2가 된다.

이와 같은 방식으로 Score_word(공매도)를 계산하면, TF_wi _,t* Ratio_t의 평균 값인 1.014가 된다.

[표 3]은 감성 사전 구축기(130)의 극성 값을 계산하는 수식을 통해 생성된 감성 사전의 일부를 나타낸 것이다.

[표 3] 생성된 감성 사전 예시

한편, 주가 등락 예측 모델 구축기(140)는 주가 등락을 예측하기 위한 모델을 생성할 수 있으며, 뉴스 극성 처리부(141), 시계열 분석부(142) 및 주가 등락 예측부(143)를 포함할 수 있다.

먼저, 뉴스 극성 처리부(141)는 특정 날짜의 장중 뉴스에 대한 감성 수치를 계산하고, 특정 날짜에 대한 감성 수치를 계산할 수 있다..

이를 위해, 뉴스 극성 처리부(141)는 [수학식 2]를 이용하여 특정 장중 뉴스에 등장하는 감성 단어들의 극성 평균에 기반하여 특정 뉴스에 대한 감성 수치를 계산할 수 있다.

[수학식 2] 특정 뉴스 k에 대한 감성 수치

[수학식 2]에서, 감성 사전에 포함된 감성 단어들의 집합을 SW(Sentiment Word)라 하고, 특정 날짜 t에 배포된 복수의 뉴스 중 k번째 뉴스에서 추출한 단어들의 집합을 News_t _,k라고 할 때, 특정 뉴스 k의 감성 수치인 Score_news(News_t _,k)는 SW와 News_t _,k에 동시에 출현하는 단어들의 감성 수치의 평균으로 계산될 수 있다.

또한, 뉴스 극성 처리부(141)는 [수학식 3]을 이용하여 특정 날짜 t에 배포된 장중 뉴스들의 감성 수치에 기반하여 해당 날짜에 대한 감성 수치를 계산할 수 있다.

[수학식 3] 특정 날짜 t에 대한 감성 수치

즉, 하루 동안의 감성 수치인 Score_Day(t)는 Score_news(News_t _,k)의 평균을 이용하여 계산될 수 있다.

[표 4]는 뉴스 극성 처리부(141)가 감성 사전의 SW를 이용하여 하루 동안의 감성 수치인 Score_Day(t)를 계산하는 방법의 일 실시예이며, [표 5]는 감성 사전의 일 실시예를 나타낸 것이다.

[표 4] Score_Day(t) 계산 방법

[표 5] SD(Sentiment Dictionary) 예시

[표 4]에서, 2013-12-02에 장중에 배포된 뉴스는 총 3개이고 감성 사전 [표 5]에 존재하는 감성 단어들의 감성 수치를 이용하여 특정 뉴스의 감성 수치를 계산하면, 1번 뉴스는 ‘공매도’가 1번, ‘주가 하락’이 1번 출현했기 때문에 감성 수치의 값인 Score_news(News_t _,k)는 47.8이라는 값을 가진다.

이와 같은 방식으로 2번 뉴스, 3번 뉴스의 감성 수치를 계산하면, 각각 29.2, 36.1이 산출된다.

Score_Day(2013-12-02)는 하루 동안 발생한 장중 뉴스의 극성 값의 평균이기 때문에 위에서 구한 47.8, 29.2, 36.1의 평균 값인 37.7이 계산될 수 있다.

주가 등락 예측 모델 구축기(140)의 시계열 분석부(142)는 KOSPI 데이터를 사용하여 ARIMA 모형의 예측력을 검증할 수 있으며, 예측력 검증을 통해 AR, MA, Integeration을 결정하고, 결정된 ARIMA 모형을 이용하여 예측 확률 값인 ARIMA_preds(t)를 계산할 수 있다.

이를 위해, 시계열 분석부(142)는 [수학식 4]를 이용하여 예측 확률 값을 계산할 수 있다.

참고로, [수학식 4]는 AR이 p이고 MA가 q이며 Integeration이 0인 ARIMA 모형을 나타낸 것이다.

[수학식 4] ARIMA(p, 0, q) 모형

주가 등락 예측부(143)는 [수학식 2]와 [수학식 3]을 통해 계산된 특정일에 대한 감성 수치 Score_Day(t)와, [수학식 4]에서 결정된 ARIMA 모형의 예측 확률 값인 ARIMA_preds(t)를 이용하여 주가 등락 예측 모델(Logistic Regression)을 생성할 수 있으며, 생성된 주가 등락 예측 모델을 이용하여 당일 대비 익일 종가의 상승과 하락을 예측할 수 있다.

주가 등락 예측부(143)가 생성하는 주가 등락 예측 모델은 [수학식 5]와 같이 나타낼 수 있다.

[수학식 5]는 본 발명의 일 실시예에서 제안하는 주가 등락 예측 모델로서, x₁은 장중 뉴스를 통해 추출된 감성 사전을 이용하여 하루 동안의 감성 수치를 계산한 결과 값이며, x₂는 ARIMA 모형의 예측력 검증을 통해 결정된 ARIMA 모델의 예측 확률 값이다.

[수학식 5] 주가 등락 예측 모델

참고로, ARIMA 모형은 Box and Jenkins가 고안해낸 방법으로서, 미래 예측을 수행하는데 주로 사용된다.

ARIMA 모형은 AR(Auto Regressive) 부분과 MA(Moving Average) 부분으로 구성되어 있으며, 변수 값의 차이를 별도로 모형화할 수 있는 Integrated 부분을 포함하고 있다.

ARIMA 모형에서 AR model은 Autoregressive model의 줄임말로서, 전 시점의 Y가 현 시점의 Y에 영향을 주는 자기 자신에 대한 함수를 뜻한다.

AR model을 생성하기 위해서는 잔차가 백색 잡음(White Noise)이며, 시계열 데이터가 안정적(Stationary)인지를 검토해야 하는 조건이 있다.

여기서, ‘백색 잡음’은 잔차(u_t)의 평균이 0이고 분산이 σ²인 동일 분포로부터 독립적으로(iid) 얻어진 시계열 데이터를 의미하고 ‘안정적’은 각 평균과 분선이 시점에 관계없이 상수이고 t시점과 t-n시점의 공분산(Co-variance)이 t에 관계없이 일정한 조건을 만족하는 것을 의미한다.

[수학식 6]은 시간 t가 n일 때의 AR(n)을 나타낸 것이다.

[수학식 6] AR(n) 모델

또한, ARIMA 모형에서 MA model은 Moving Average model의 줄임말로서, 전 시점의 Y가 현 시점의 Y의 에러와 가중치를 이용한 함수를 뜻한다.

MA model은 모형의 특성상 AR process처럼 안정적 조건을 확인할 필요가 없지만, 비슷한 조건인 역변환 조건(Invertibility Condition)을 만족해야 한다.

[수학식 7]은 MA 모형의 n차인 MA(n)의 모델이다.

[수학식 7] MA(n) 모델

ARIMA 모형에서 차분(Integrate)은 안정적 데이터를 만들기 위해 사용되는데, 시간의 흐름에 따라 계열의 평균이 일정하지 않으면 차분을 취하여 정상적으로 만들어야 한다.

만일, 한 번 차분을 해서 안정적이게 되는 데이터라면 차분은 l이라고 표현할 수 있다.

[수학식 8]은 ARIMA(p,0,q) 모델을 나타낸 것이다.

[수학식 8] ARIMA(p,0,q) 모델

도 2와 도 3은 본 발명의 일 실시예에 따른 뉴스 및 KOSPI 데이터 각각에 대한 수집 결과를 나타낸 도면이다.

본 발명의 일 실시예에서는 2010년 1월부터 2014년 12월까지 ‘네이버>증권>뉴스>주요뉴스’ 탭에 있는 경제 뉴스(총 76,300건)와 ‘한국증권거래소(KRX)>국내지수>일자별 지수’ 탭에 있는 일별 KOSPI 데이터(총 1,239건)를 수집하였다.

뉴스 및 KOSPI 데이터 각각에 대한 수집 결과는 도 2 및 도 3과 같다.

도 4는 본 발명의 일 실시예에 따른 주가 등락 예측 모델을 평가하기 위한 학습 데이터 및 평가 데이터의 구성 방법을 나타낸 도면이다.

본 발명의 일 실시예에 따른 주가 등락 예측 모델(이하, ‘예측 모델’이라 칭함)의 평가를 위해, 수집된 데이터를 Training Set, Development Set, Test Set으로 구분하였다.

여기서 ‘Training Set’은 주가 등락 예측 모델을 학습하는데 사용되는 데이터이고, ‘Development Set’은 파라미터별 실험을 진행하여 예측 검증하는 데이터이며, ‘Test Set’은 Development Set에서 가장 좋았던 파라미터를 이용하여 예측하는 데이터이다.

또한, 아래의 [표 6]은 학습 데이터 및 평가 데이터를 나타낸 것이다.

[표 6] 학습 데이터 및 평가 데이터

예측 모델에 대한 평가 척도로서 정확도(Accuarcy)를 사용하였으며, [수학식 9]와 같이 계산될 수 있다.

[수학식 9] 정확도 계산식

[수학식 9]에서 ‘정확도’는 예측 모델에서 상승과 하락으로 예측한 결과 중에서 올바르게 예측한 비율로 정의될 수 있다.

여기서, TP(True Positive)는 ‘실제 상승’인 것을 예측 모델이 ‘상승’으로 분류한 것을 의미하며, FP(False Positive)는 ‘실제 하락’인 것을 예측 모델이 ‘상승’으로 분류한 것을 의미한다.

또한, FN(False Negative)는 ‘실제 하락’인 것을 예측 모델이 ‘상승’으로 분류한 것을 의미하며, TN(True Negative)는 ‘실제 하락’인 것을 예측 모델이 ‘하락’으로 분류한 것을 의미한다.

한편, 본 발명의 실시예에서는 다양한 방법을 이용하여 주가 등락의 정확도 비교 테스트를 실시하였다.

감성 사전을 생성하는데 이용하는 파라미터별, 품사별로 예측 정확도를 비교하고, 수동/자동/반자동으로 생성된 감성 사전을 이용한 예측 정확도를 비교하며, 감성 사전 예측 모델과 ARIMA 예측 모델을 혼합했을 때의 정확도를 비교하여 평가하였다.

도 5는 본 발명의 일 실시예에 따른 예측 모델의 정확도를 테스트하는 과정을 도시한 흐름도이다.

이하, 본 발명의 일 실시예에 따른 테스트 과정을 도 5에 도시된 흐름도를 기준으로 설명하되, 도 6 내지 도 11를 참고하여 각 과정에 대해 상세히 설명하도록 한다.

S501 , 파라미터 임계치별 감성 사전에 따른 예측 정확 도

감성 사전은 등락률 임계치와 출현 빈도 임계치에 따라서 단어와 감성 수치 및 예측 정확도가 달라진다.

본 발명의 일 실시예에서는 등락률 임계치와 출현 빈도 임계치에 따른 주가 등락 예측 정확도를 비교하였다.

도 6은 본 발명의 일 실시예에 따른 등락률 임계치와 출현 빈도 임계치별 예측 모델의 정확도를 비교한 것이다.

등락률 임계치는 0.2~0.5% 사이의 낮은 등락률 임계치를 가지면서 출현 빈도 임계치가 100~120번 사이의 높은 출현 빈도 임계치를 가질 때의 구축된 감성 사전을 이용한 예측 모델의 예측 정확도가 가장 높았고, 등락률 임계치가 증가할수록 예측 정확도가 낮아지는 경향을 보였다.

S502 , 단어 품사별 감성 사전에 따른 예측 정확도

감성 사전은 단어들로 구성되기 때문에, 단어의 품사별로 예측 정확도가 달라질 수 있다.

이에 대해 본 발명의 실시예에서는 전술한 S501의 실험을 통해 예측 정확도가 가장 높았던 등락률 임계치(0.5%)와 출현 빈도 임계치(110번)로 파라미터를 고정하고 단어의 품사(명사, 서술어, 명사 및 서술어)에 따라 구축된 감성 사전을 이용한 예측 모델의 예측 정확도를 비교하였다.

즉, 감성 사전을 구축 시 단어의 품사를 명사만 이용한 경우, 서술어만 이용한 경우, 그리고 명사와 서술어를 모두 이용한 경우의 예측 정확도를 비교한 결과이다.

도 7은 본 발명의 일 실시예에 따른 단어 품사별 감성 사전에 기반한 예측 정확도의 결과를 나타낸 도면이다.

도 7에 도시된 바와 같이, 명사와 서술어를 모두 이용한 감성 사전에 기반한 예측 모델이 54.2%로 가장 높은 정확도를 보였고, 서술어를 이용한 감성 사전에 기반한 예측 모델이 53.7%로 가장 낮은 정확도를 보였다.

S503 , 수동/자동/반자동 감성 사전 구축에 따른 예측 정확도

본 발명의 일 실시예에서는 전술한 S502의 결과에 의해 생성된 품사별 감성 사전을 수동/자동/반자동으로 구축한 경우의 예측 정확도를 비교한다.

수동 감성사전은 전술한 S502의 결과에 의해 자동으로 생성된 품사별 감성 사전에서 연구자가 임의로 의미가 있어 보이는 단어들에 대해 -1(부정적인 단어), 1(긍정적인 단어)로 감성 수치를 부여하고, 의미가 없어 보이는 단어들은 감성 단어에서 제외한 감성 사전을 이용하는 방법이다.

아래의 [표 7]은 수동 감성 사전의 예시를 나타낸 것이며 ‘승인하다’와 ‘소비심리’는 연구자에 의해 제거된 단어이다.

[표 7] 수동 감성 사전 예시

반자동 감성 사전은 전술한 S502의 결과에 의해 자동으로 생성된 품사별 감성 사전에서 연구자가 임의로 의미가 있어 보이는 단어들은 자동으로 생성된 감성 수치를 그대로 유지하고, 의미가 없어 보이는 단어들은 감성 단어에서 제외한 감성 사전을 이용하는 방법이다.

[표 8]은 반자동 감성 사전의 예시를 나타낸 것이며, ‘이집트’와 ‘해소하다’는 연구자에 의해 제외된 단어이다.

[표 8] 반자동 감성 사전 예시

위와 같은 방법으로 수동/반자동/자동 감성 사전을 구축하였을 때, 수동과 반자동 감성 사전의 감성 단어 수는 235개로 동일하고, 자동 감성 사전의 감성 단어 수는 861개로 구성되었다.

[표 9]는 수동/반자동/자동 감성 사전의 감성 단어 수를 나타낸 것이다.

[표 9] 수동/반자동/자동 감성 사전의 감성 단어 수

도 8은 본 발명의 일 실시예에 따른 수동/반자동/자동 감성 사전을 이용한 예측 정확도의 결과를 나타낸 도면이다.

그 결과 수동/자동으로 감성 사전을 구축한 것에 비해 반자동으로 감성 사전을 구축했을 때 품사별 감성 사전 예측 모델의 예측 정확도가 증가하였다.

그 중에서 명사 및 서술어를 이용하여 감성 사전을 만든 경우가 54.2%에서 55.3%로 가장 높은 예측 정확도를 보였다.

또한, 예측 정확도가 가장 높았던 명사 및 서술어를 이용한 반자동 감성 사전을 살펴보면, [표 10] 및 [표 11]과 같다.

[표 10]는 명사 및 서술어를 이용한 반자동 감성 사전에서 감성 수치가 상위 20%인 감성 단어를 나열한 것이고 [표 10]는 하위 20%인 감성 단어를 나열한 것이다.

[표 10] 반자동 감성 사전의 감성 수치 상위 20%

[표 11] 반자동 감성 사전의 감성 수치 하위 20%

그러나, [표 10]과 [표 11]의 단어들을 살펴보면 ‘공매도’, ‘주가하락’처럼 의미적으로 감성 수치가 음수가 적절하다고 생각되는 단어들이 상위 단어로 뽑힌 경우가 있었다.

그러나, 실제 뉴스 데이터를 살펴보면, [표 12]와 같이 상위 또는 하위로 뽑힌 이유에 대한 설명이 가능하다.

[표 12] 감성 사전의 단어별 상/하위 설명

S504 , ARIMA 모형의 예측력 검증 및 선택

ARIMA 모형의 예측력을 검증하기 위해 AR model의 Stationarity Condition의 판별 여부를 확인하였다.

도 9는 본 발명의 일 실시예에 따른 KOSPI 데이터에 대해 Dickey-Fuller의 단위근 검정의 실시 결과를 나타낸 도면이다.

도 9의 검증 결과 p-value 값이 0.1보다 작으므로 불안정하다는 귀무가설을 기각하기 때문에, KOSPI 지수는 Integeration을 진행하지 않아도 된다는 것이 검증되었다.

또한, ARIMA 모형을 선택하기 위해 R에 사용하는 함수 중 auto.arima를 사용하여 자동으로 최적의 ARIMA 모형을 생성하였다.

도 10은 본 발명의 일 실시예에 따른 최적의 ARIMA 모형의 선택 결과를 나타낸 도면이다.

최적의 ARIMA 모형의 선택 결과, 도 10처럼 ARIMA 모형에서 AR model이 2의 차수를 갖고 MA model이 2의 차수를 갖는 모형이 생성되었다.

S505 , 예측 모델별 예측 정확도

전술한 S503의 실험을 통해 명사 및 서술어의 품사를 갖는 반자동 감성 사전의 예측 정확도가 가장 높았기 때문에, 본 발명의 일 실시예에서는 이를 이용한 예측 모델과 ARIMA 모형 검증을 통해 생성된 ARIMA(2,0,2) 예측 모델, 그리고 두 모델을 결합한 결합형 예측 모델에 대한 예측 정확도 비교하였다.

그 결과 결합형 예측 모델이 58.4%로 가장 높은 예측 정확도를 보였다.

도 11은 본 발명의 일 실시예에 따른 예측 모델별 예측 정확도의 결과를 나타낸 도면이다.

[표 13]은 결합형 예측 모델에 대해 실제 클래스 대비 예측 클래스의 상승/하락의 예측 건 수를 표로 정리한 것으로서, ‘실제 하락’을 ‘하락’으로 예측한 경우 보다 ‘실제 상승’을 ‘상승’으로 예측한 경우가 더 높았으며, ‘실제 하락’을 ‘상승’으로 예측한 경우가 ‘실제 상승’을 ‘하락’으로 예측한 것보다 더 높았다.

[표 13]

S506 , 강한 상승, 강한 하락의 예측 정확도

추가적으로 본 발명의 일 실시예에 따른 예측 모델을 이용하여 KOSPI 지수의 큰 폭의 상승이나 큰 폭의 하락인 경우를 예측하는 테스트를 진행하였다.

‘강한 상승’은 전날 종가 대비 당일 종가의 등락이 0.5%이상 상승한 경우를 의미하고, ‘강한 하락’은 전날 종가 대비 당일 종가의 등락이 -0.5%이하인 경우로 설정하였다.

그 결과 실제 ‘강한 상승/하락’을 ‘강한 상승/하락’으로 예측한 경우가 각각 3번, 2번이었으며, ‘실제 강한 상승/하락’을 ‘상승/하락’으로 예측한 경우까지 포함하면 약 36.8%의 예측 정확도가 나타났다.

[표 14]는 강한 상승, 강한 하락에 따른 예측 정확도를 나타낸 것이다.

[표 14] 강한 상승, 하락에 따른 예측 정확도

참고로, 본 발명의 일 실시예에 따른 테스트 결과를 비교하기 위한 비교 연구 및 비교 연구와의 비교 실험 및 평가를 수행하였다.

비교 연구는 전날 15:00 ~ 당일 09:00에 배포된 뉴스로부터 감성 사전을 구축하여 전일 종가 대비 당일 시초가의 등락을 예측하였고, 당일 09:00 ~ 당일 15:00에 배포된 뉴스로부터 감성 사전을 구축하여 당일 시초가 대비 당일 종가 등락을 예측하였다.

본 발명의 일 실시예에 따른 예측 모델을 비교 연구의 데이터와 예측 범위로 변경하여 비교 실험을 진행하였다.

그 결과 비교 연구에 비해 본 발명의 일 실시예에 따른 결합형 예측 모델로 주가 등락을 예측한 경우가 약 7% 더 높았다.

[표 15]는 본 발명의 일 실시예에 따른 결합형 예측 모델과 비교 연구의 실험 결과(안성원(2010), 뉴스 텍스트 마이닝과 시계열 분석을 이용한 주가 예측)를 정리한 것이다.

[표 15] 본 발명의 일 실시예에 따른 결합형 예측 모델과 비교 연구의 실험 결과

이하, 본 발명의 일 실시예에 따른 예측 모델로 실제 주식 시장에 투자하였을 때, 자산이 어떻게 변화되는지를 테스트한 과정 및 결과를 설명하도록 한다.

이를 위해 투자 기간은 1년(2014.01 ~ 2014.12)으로 설정하였으며, 매매에 대한 수수료는 고려하지 않고 평가하였다.

[표 16]는 예측 결과에 따른 매매 전략을 나타낸 것이다.

예를 들어, 전일의 예측 결과가 상승으로 나타난 경우, 현금을 보유하고 있다면 주식을 전량 매수하고 주식을 보유하고 있다면 보유 주식을 유지하는 매매 전략을 취한다.

전일의 예측 결과가 하락으로 나타난 경우, 현금을 보유하고 있다면 현금을 유지하고 주식을 보유하고 있다면 전량 매도하는 매매 전략을 취한다

도 12는 각 연구 방법별 자산 변화의 결과를 나타낸 도면이다.

[표 17] 연구 방법별 자산 변화 결과

[표 17]에서, 비교 연구는 논문 실험 결과(Ping-Feng Pai(2005), “A hybrid ARIMA and support vector machines model in stock price forecasting”, Omega 33, pp. 497-505.)를 적용하였고 랜덤 예측은 다음 날의 주가 등락을 상승 또는 하락으로 랜덤 예측을 한 결과를 이용하였다.

또한, 연속 보유는 주식을 팔지 않고 계속 보유한 경우이며, 강한 상승/하락은 강하게 상승하거나 하락하는 경우만을 매매하도록 하였다.

본 발명의 일 실시예에 따른 예측 모델은 원금 100만원을 투자하였을 때, 1년 후 자산 변화는 71,159원으로 약 7%의 자산 변화율을 보였고 비교 연구는 12,367원으로 약 1.24%의 자산 변화율을 보였다.

이에 비해 KOSPI는 -4.39%로 나타났다. 이는, KOSPI가 -4.39%인 것에 비해 본 발명의 일 실시예에 따른 예측 모델은 약 7%의 자산 변화가 있었으므로 실제로는 KOSPI 대비 약 10% 이상의 자산 변화라고 평가할 수 있다.

전술한 바와 같이, 본 발명에서는 당일 종가 대비 익일 종가 등락을 예측하기 위해 뉴스 기반 텍스트 마이닝에 의한 예측 모형과 KOSPI 데이터를 이용한 ARIMA 모형을 결합한 모델을 제안하였다.

본 발명의 일 실시예에 따른 예측 모델의 특징은 경제 뉴스로부터 추출된 단어를 이용하여 긍정/부정으로 수치화 할 수 있는 주식 도메인의 감성 사전을 제시하였다는 점과, 뉴스 기반의 텍스트 마이닝에 ARIMA 모형을 결합한 결합형 모델을 제안했다는 점이다.

본 발명의 일 실시예에 따른 예측 모델에 대한 실험 결과, 뉴스 기반의 텍스트 마이닝 방법만을 이용한 것보다 ARIMA 모형을 결합한 예측 모델이 약 7%의 높은 예측 정확도를 보였다.

또한, 품사 선택에 있어서는 명사 또는 서술어를 이용하여 감성 사전을 구축하는 방법 보다는 명사 및 서술어를 함께 이용하여 감성 사전을 구축하는 방법이 가장 우수한 성능을 보였다.

본 발명의 일 실시예에 따른 예측 모델은 일반 투자자들이 접근하기에 쉬운 뉴스와 과거 KOSPI 데이터를 이용하여 주가 등락을 예측하기 때문에 실용적이다.

본 발명의 일 실시예에 따른 주가 도메인의 감성 사전을 자동으로 구축하는 방법은 상품 리뷰 기반의 감성 사전을 이용한 상품 판매량 예측, 영화 리뷰 기반의 감성 사전을 이용한 영화 흥행 예측과 같은 타 도메인에 적용 가능할 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다.

그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100 : 주가 등락 예측 서버
110 : 데이터 수집기
120 : 전처리기
121 : 불용어 제거부
122 : 형태소 분석부
123 : 뉴스 구분부
130 : 감성 사전 구축기
131 : 뉴스 추출부
132 : 감성 단어 선정부
133 : 극성 계산부
140 : 주가 등락 예측 모델 구축기
141 : 뉴스 극성 처리부
142 : 시계열 분석부
143 : 주가 등락 예측부

Claims

주가 등락을 예측하는 서버에 있어서,
텍스트 데이터와 증시 주가 지수 데이터를 수집하는 데이터 수집기;
상기 수집된 텍스트 데이터의 불용어 제거와 형태소 분석을 통해 단어를 추출하는 전처리기;
상기 추출된 단어들로부터 감성 단어를 선정하고, 상기 선정된 감성 단어의 감성 수치를 계산하여 주가 예측을 위해 필요한 주식 도메인의 감성 사전을 구축하는 감성 사전 구축기; 및
상기 구축된 감성 사전을 이용한 예측 모델 및 상기 수집된 증시 주가 지수 데이터를 이용한 ARIMA 예측 모델을 결합하여 당일 대비 익일 종가의 등락을 당일 장 마감 전에 예측하는 주가 등락 예측 모델 구축기
를 포함하는 것을 특징으로 하는 서버.
제 1 항에 있어서,
상기 전처리기는
하나의 음절을 가진 단어의 제거, 숫자 또는 연도를 포함하는 의미 없는 단어의 삭제, 종목 명과 종목 코드의 삭제 및 특수 문자와 광고 문구의 삭제 중 하나 이상을 처리하여 상기 단어를 추출하는 것을 특징으로 하는 서버.
제 1 항에 있어서,
상기 전처리기는
상기 수집된 텍스트 데이터로부터 개장 시간에 배포된 뉴스인 장중 뉴스를 추출하되, 주말 또는 공휴일에 배포된 뉴스를 포함하는 비 개장 일에 배포된 뉴스를 제외하며,
상기 감성 사전 구축기는
상기 장중 뉴스 중 장중 뉴스가 배포된 다음 날 증시의 등락률 - 전일 증시 주가 지수 종가 대비 당일 종가의 등락률 - 이 미리 정해진 임계치 이상인 장중 뉴스를 추출하고, 상기 추출된 장중 뉴스에서 품사가 명사와 형용사인 단어를 각각 추출하여 출현 빈도 수를 계산하며, 상기 계산된 출현 빈도 수가 미리 정해진 임계치 이상인 단어를 추출한 후 상기 추출된 단어의 감성 수치를 계산하는 것을 특징으로 하는 서버.
제 3 항에 있어서,
상기 감성 사전 구축기는
상기 추출된 단어가 출현한 장중 뉴스의 상기 등락률에 대응하는 가중치를 상기 추출된 단어의 출현 빈도 수의 평균에 적용하여 상기 추출된 단어의 감성 수치를 계산하되,
상기 감성 극성은 '-∞~∞'의 범위를 가지며, ∞에 가까울수록 강한 상승을 의미하는 것을 특징으로 하는 서버.
제 1 항에 있어서,
상기 주가 등락 예측 모델 구축기는
특정 날짜에 배포된 특정 장중 뉴스에 대한 감성 수치와 특정 날짜에 대한 감성 수치를 계산하여 상기 감성 사전을 이용한 예측 모델을 생성하되,
상기 특정 장중 뉴스에 대한 감성 수치는
상기 특정 장중 뉴스에 등장하는 감성 단어들의 극성 평균 - 상기 구축된 감성 사전의 감성 단어들의 집합과 상기 특정 장중 뉴스에서 추출한 단어들의 집합에 동시에 출현하는 단어들의 감성 수치의 평균으로 계산됨 - 으로 계산하며,
상기 특정 날짜에 대한 감성 수치는
상기 특정 날짜에 배포된 하나 이상의 장중 뉴스에 대한 감성 수치의 평균으로 계산하는 것을 특징으로 하는 서버.
제 5 항에 있어서,
상기 주가 등락 예측 모델 구축기는
상기 증시 주가 지수 데이터를 사용하여 ARIMA 모형의 예측력을 검증하고,
ARIMA 모형의 AR(Auto Regressive), MA(Moving Average), Integration을 결정하여 예측 확률 값을 계산하는 것을 특징으로 하는 서버.
제 6 항에 있어서,
상기 주가 등락 예측 모델 구축기는
상기 구축된 감성 사전을 이용하여 특정 날짜 하루 동안의 감성 수치를 계산한 결과와, 상기 ARIMA 모형을 이용하여 계산된 예측 확률 값을 이용하여 주가 등락 예측 모델을 생성하고,
상기 생성된 주가 등락 예측 모델을 이용하여 당일 대비 익일 종가의 상승 및 하락 중 하나 이상을 예측하는 것을 특징으로 하는 서버.
제 6 항에 있어서,
상기 ARIMA 모형의 예측력에 대한 검증은
AR 모델의 Stationary Condition의 판별 여부 확인을 이용하는 것을 특징으로 하는 서버.
서버가 주가 등락을 예측하는 방법에 있어서,
(a) 텍스트 데이터와 증시 주가 지수 데이터를 수집하는 단계;
(b) 상기 수집된 텍스트 데이터의 불용어 제거와 형태소 분석을 통해 단어를 추출하는 단계;
(c) 상기 추출된 단어들로부터 감성 단어를 선정하고, 상기 선정된 감성 단어의 감성 수치를 계산하여 주가 예측을 위해 필요한 주식 도메인의 감성 사전을 구축하는 단계; 및
(d) 상기 구축된 감성 사전을 이용한 예측 모델 및 상기 수집된 증시 주가 지수 데이터를 이용한 ARIMA 예측 모델을 결합하여 당일 대비 익일 종가의 등락을 당일 장 마감 전에 예측하는 단계
를 포함하는 것을 특징으로 하는 주가 등락 예측 방법.
제 9 항에 있어서,
상기 (b) 단계는
상기 수집된 텍스트 데이터로부터 개장 시간에 배포된 뉴스인 장중 뉴스를 추출하되, 주말 또는 공휴일에 배포된 뉴스를 포함하는 비 개장 일에 배포된 뉴스를 제외하며,
상기 (c) 단계는
상기 장중 뉴스 중 장중 뉴스가 배포된 다음 날 증시의 등락률 - 전일 증시 주가 지수 종가 대비 당일 종가의 등락률 - 이 미리 정해진 임계치 이상인 장중 뉴스를 추출하고, 상기 추출된 장중 뉴스에서 품사가 명사와 형용사인 단어를 각각 추출하여 출현 빈도 수를 계산하며, 상기 계산된 출현 빈도 수가 미리 정해진 임계치 이상인 단어를 추출한 후 상기 추출된 단어의 감성 수치를 계산하는 것을 특징으로 하는 주가 등락 예측 방법.
제 10 항에 있어서,
상기 (c) 단계는
상기 추출된 단어가 출현한 장중 뉴스의 상기 등락률에 대응하는 가중치를 상기 추출된 단어의 출현 빈도 수의 평균에 적용하여 상기 추출된 단어의 감성 수치를 계산하되,
상기 감성 극성은 '-∞~∞'의 범위를 가지며, ∞에 가까울수록 강한 상승을 의미하는 것을 특징으로 하는 주가 등락 예측 방법.
제 9 항에 있어서,
상기 (d) 단계는
특정 날짜에 배포된 특정 장중 뉴스에 대한 감성 수치와 특정 날짜에 대한 감성 수치를 계산하여 상기 감성 사전을 이용한 예측 모델을 생성하되,
상기 특정 장중 뉴스에 대한 감성 수치는
상기 특정 장중 뉴스에 등장하는 감성 단어들의 극성 평균 - 상기 구축된 감성 사전의 감성 단어들의 집합과 상기 특정 장중 뉴스에서 추출한 단어들의 집합에 동시에 출현하는 단어들의 감성 수치의 평균으로 계산됨 - 으로 계산하며,
상기 특정 날짜에 대한 감성 수치는
상기 특정 날짜에 배포된 하나 이상의 장중 뉴스에 대한 감성 수치의 평균으로 계산하는 것을 특징으로 하는 주가 등락 예측 방법.
제 9 항에 있어서,
상기 (d) 단계는
상기 증시 주가 지수 데이터를 사용하여 ARIMA 모형의 예측력을 검증하고,
ARIMA 모형의 AR(Auto Regressive), MA(Moving Average), Integration을 결정하여 예측 확률 값을 계산하는 것을 특징으로 하는 주가 등락 예측 방법.