KR101544450B1

KR101544450B1 - 소셜 데이터의 분석을 통한 감성 영향 인덱스의 생성 방법 및 그 시스템

Info

Publication number: KR101544450B1
Application number: KR1020130078765A
Authority: KR
Inventors: 김영대; 고경훈; 이동진
Original assignee: 주식회사 코스콤
Priority date: 2013-07-05
Filing date: 2013-07-05
Publication date: 2015-08-24
Also published as: KR20150005795A

Abstract

소셜 데이터의 분석을 통한 감성 영향 인덱스의 생성 방법 및 그 시스템이 제공된다.
감성 영향 인덱스의 생성 방법은 과거 시점부터 현재 시점까지의 소정 기간 동안에, 소셜 미디어 데이터 및 증시 관련 웹데이터로부터 개별 종목과 관련된 복수의 문서를 수집하는 단계와, 상기 복수의 문서에 대하여 형태소를 분석하는 단계; 상기 소정 기간 동안의 일(day) 별로 분류하여 상기 분석된 형태소에서 추출된 키워드마다 긍정 및 부정 중 어느 하나로 감성 평가함으로써, 상기 복수의 문서 전체에 대한 감성을 평가함과 아울러서 상기 긍정으로 평가되어 집계된 상승 스코어와 상기 부정으로 평가되어 집계된 하락 스코어를 상기 일 단위로 산출하는 단계, 및 상기 소정 기간 동안에 산출된 상기 상승 스코어 및 상기 하락 스코어 중 적어도 하나의 스코어에 관한 일별 증가분의 평균값과 상기 스코어에 관한 일별 감소분의 평균값의 비에 근거하여, 상기 개별 종목의 주가 추세 지표로서의 감성 영향 인덱스를 생성하는 단계를 포함한다.

Description

소셜 데이터의 분석을 통한 감성 영향 인덱스의 생성 방법 및 그 시스템 {Method of generating a sentimental effect index through an analysis of a social data and system thereof}

본 발명은 감성 영향 인덱스의 생성 방법 및 그 시스템에 관한 것으로, 보다 상세하게는 소셜 데이터의 감성과 관련된 평가 및 분석에 의한 감성 영향 인덱스의 생성 방법 및 그 시스템에 관한 것이다.

주식시장은 특유의 복잡한 가격결정 메커니즘으로 인해 주가의 변동을 시장 펀더멘탈의 변화로 설명할 수 없는 경우가 자주 발생한다. 펀더멘탈의 뚜렷한 변화가 발생하지 않았음에도 불구하고 가격이 크게 변동하는 것을 발견할 수 있는데, 이때 새로운 뉴스의 출현이 가격변동의 중요한 원인으로 종종 작용하곤 한다. 뉴스는 현실 세계에 일어나는 각종 현상에 대한 설명과 미래의 정치, 경제,사회, 기업 등과 관련하여 앞으로 어떤 변화가 발생되고 진행되어 갈지 그에 대한 정보들을 포함하고 있기 때문이다. 그러므로 뉴스와 주가는 밀접한 관계를 가지고 있으며, 뉴스를 통해 시장 참가자들은 주식시장의 변동성을 일부나마 예측할 수 있게 된다.

한편, 최근에는 증권사, 언론사 등에서 제공되는 뉴스 정보 뿐만 아니라, 모바일 기기의 급격한 발전으로 인하여, 소셜 미디어 데이터, 예컨대 트위터(twitter), 증시 관련 개인 블로그(blog), 페이스북, 다양한 포털 사이트의 소셜 데이터 서비스 등에 의해서 제공되는 정보가 폭발적으로 증가하고 있다. 이와 같은 데이터는 뉴스 정보보다 매우 많은 양으로 시장 참가자들에게 유통되고 있며, 이에 대해 빅데이터라고 칭하고 있다.

소셜 미디어 데이터는 개인의 주관적 관점으로 작성되어 있어 뉴스 정보보다 낮은 신뢰성을 가진다는 측면이 있으나, 소셜 미디어 데이터가 빅데이터급으로 제공되므로, 이 데이터를 통해 시장 참가자들의 주식시장, 특히 개별 종목에 대한 반응이 상당 정도의 객관성을 갖고 도출될 뿐만 아니라, 개별 종목의 향후 전망도 타당성을 가질 수 있는 정도에 이르렀다.

그러나, 주가에 영향을 미치는 펀더멘털 요인들은 너무나도 다양하고 복잡하며 이러한 요인들이 소셜 미디어 데이터, 뉴스와 주가에 영향을 미치고 소셜 미디어 데이터 등은 다시 주가에 영향을 미치는 식의 순환이 발생하기도 한다.

결국 소셜 미디어 데이터는 주가에 영향을 미치는 영향 요인이 되기도 하고 주가의 흐름을 미리 보여주는 선행지표가 되기도 한다. 그러나 하루에도 수없이 많은 뉴스들이 나타나고 사라지고 있어, 뉴스를 하나하나 분석하여 주가에 미치는 영향을 파악하기란 거의 불가능한 일이다.

더욱이 거시적 관점의 정책, 전망뉴스부터 매일 매일의 시황, 실적, 기업뉴스 등 다양한 유형의 소셜 미디어 데이터 및 뉴스가 실시간으로 양산되며, 그 내용이 시장에 긍정적인지 부정적인지 명확히 파악하기가 쉽지 않다. 또한 소셜 미디어 데이터 및 뉴스라는 속성상 다소 중립적인 뉘앙스로 주식시장의 긍정/부정 양쪽 의견을 모두 제시하는 경우가 많기 때문에 실상 그 저의를 파악하는 것 또한 간단치 않으며, 뉴스 등을 분석하는 사람마다의 주관에 따라 달라질 위험성이 존재한다.

이로 인하여, 기존의 연구들 역시 쉽게 판별이 가능한 특정 사건과 뉴스들을 위주로 그에 반응하는 주가를 분석하거나, 주가가 크게 변동되었을 때 이를 야기한 뉴스 등이 존재했는지를 역으로 분석하였다. 그러나 뉴스 등이 대부분 일정한 양식이나 속성이 없는 텍스트들로 구성되어 있으며, 하루에도 수없이 뉴스들이 양산된다.

따라서, 최근 뉴스를 포함하여 개인화된 미디어 데이터와 같은 빅데이터를 분석함으로써 실제 주가 및 그 지표에 선행지표를 생성하려는 방법이 다양하게 시도되고 있다.

본 발명이 이루고자 하는 기술적 과제는 소셜 데이터 및 뉴스를 포함한 대량의 데이터에 대한 개별 종목의 감성 평가 데이터를 분석하여 감성 영향 인덱스를 산출함으로써, 감성 평가 데이터와 실제 주가 간의 상대적 연관도를 분석하는 자료로 활용됨과 아울러서, 개별 종목의 향후 주가 추세 패턴을 파악하여 주가 예측에 기여하는 감성 영향 인덱스의 생성 방법 및 그 시스템을 제공하는데 있다.

본 발명의 목적은 이상에서 언급된 목적으로 제한되지 않으며, 언급되지 않은 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 기술적 과제를 이루기 위한 본 발명의 일 양태에 따르면, 감성 영향 인덱스의 생성 방법은 과거 시점부터 현재 시점까지의 소정 기간 동안에, 소셜 미디어 데이터 및 증시 관련 웹데이터로부터 개별 종목과 관련된 복수의 문서를 수집하는 단계와, 상기 복수의 문서에 대하여 형태소를 분석하는 단계; 상기 소정 기간 동안의 일(day) 별로 분류하여 상기 분석된 형태소에서 추출된 키워드마다 긍정 및 부정 중 어느 하나로 감성 평가함으로써, 상기 복수의 문서 전체에 대한 감성을 평가함과 아울러서 상기 긍정으로 평가되어 집계된 상승 스코어와 상기 부정으로 평가되어 집계된 하락 스코어를 상기 일 단위로 산출하는 단계, 및 상기 소정 기간 동안에 산출된 상기 상승 스코어 및 상기 하락 스코어 중 적어도 하나의 스코어에 관한 일별 증가분의 평균값과 상기 스코어에 관한 일별 감소분의 평균값의 비에 근거하여, 상기 개별 종목의 주가 추세 지표로서의 감성 영향 인덱스를 생성하는 단계를 포함한다.

기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

본 발명에 따르면, 소셜 데이터 및 뉴스를 포함한 대량의 데이터의 감성 분석에 의해 산출된 감성 영향 인덱스에 의해, 개별 종목의 상승 또는 하락의 방향성, 즉 주가 추세 변동의 패턴의 선행 지표를 제공할 수 있다. 또한, 개별 종목이 지지 구간이나 저항 구간에서 유지되는 경우에, 감성 영향 인덱스를 통해 주가 자체 보다 개별 종목의 주가 추세 전환의 신호인 다이버젼스(divergence)를 판단할 수 있다.

아울러, 본 발명에 따르면, 개별 종목의 감성 평가 데이터가 개별 종목의 주가 추세에 반영되는 강도를 측정함으로써, 감성 평가 데이터의 예측성을 평가할 수 있으므로, 감성 평가 데이터에 근거한 주가 예측의 신뢰성을 보다 향상시킬 수 있다.

도 1은 본 발명의 일 실시예에 따른 감성 영향 인덱스의 생성 시스템을 포함하는 주가 예측 시스템의 구성도이다.
도 2는 키워드 데이터베이스의 구성도이다.
도 3은 문서 저장부의 구성도이다.
도 4는 데이터 분석부의 구성도이다.
도 5는 감성 사전 데이터베이스의 구성도이다.
도 6은 상관 분석/결정부의 구성도이다.
도 7은 주가 예측 방법의 순서도이다.
도 8은 본 발명의 일 실시예에 따른 감성 영향 인덱스의 생성 방법을 구현하기 위한 감성 영향 인덱스부의 처리 과정을 도시한 순서도이다.
도 9는 본 발명의 다른 실시예에 따른 감성 영향 인덱스의 생성 방법을 구현하기 위한 감성 영향 인덱스부의 처리 과정을 도시한 순서도이다.
도 10a 및 도 10b는 각각 일별 순증가분과 순감소분을 산출하는 과정 및 일별 실증가분과 실감소분을 산출하는 과정을 도시한 도면이다.
도 11은 평가 데이터의 수집 기간, 지연 기간의 결정 및 평가 데이터의 선택 과정을 나타낸 순서도이다.
도 12는 키워드 및 소셜 미디어 데이터의 선택 및 이에 따른 키워드 현황을 표시부에 표시한 도면이다.
도 13은 메인 키워드 및 서브 키워드의 수집 현황을 표시부에 표시한 도면이다.
도 14는 특정 키워드의 수집 현황을 표시부에 표시한 도면이다.
도 15는 개별 종목과 관련된 소셜 미디어 데이터 및 뉴스에 대한 감성 관련 평가 데이터의 분석에 따른 감성 영향 인덱스와 개별 종목의 주가 간의 상관 관계를 표시부에 표시한 도면이다.
도 16은 평가 데이터를 반영하여 개별 종목의 주가를 예측한 결과를 표시부에 표시한 도면이다.

이하, 첨부한 도면들 및 후술되어 있는 내용을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 그러나, 본 발명은 여기서 설명되어지는 실시예들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 오히려, 여기서 소개되는 실시예들은 개시된 내용이 철저하고 완전해질 수 있도록 그리고 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 제공되어지는 것이다. 명세서 전체에 걸쳐서 동일한 참조번호들은 동일한 구성요소들을 나타낸다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급되지 않는 한 복수형도 포함된다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자가 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

이하, 도 1 내지 도 6을 참조하여, 본 발명의 일 실시예에 따른 소셜 미디어의 분석에 의한 감성 영향 인덱스의 생성 시스템을 포함하는 주가 예측 시스템에 대하여 상세히 설명하기로 한다. 도 1은 본 발명의 일 실시예에 따른 감성 영향 인덱스의 생성 시스템을 포함하는 주가 예측 시스템의 구성도이다. 도 2는 키워드 데이터베이스의 구성도이고, 도 3은 문서 저장부의 구성도이다. 또한, 도 4는 데이터 분석부의 구성도이며, 도 5는 감성 사전 데이터베이스의 구성도이고, 도 6은 상관 분석/결정부의 구성도이다.

주가 예측 시스템(100)은 소셜 미디어 데이터(10)와 증시 관련 웹데이터(20)로부터 추출된 키워드마다 긍정과 부정 중 어느 하나로 감성 평가함으로써 생성된 감성 관련 평가 데이터에 기초하여, 개별 종목의 주가를 예측함과 아울러서, 개별 종목의 주가 추세 지표로서의 감성 영향 인덱스를 생성한다. 감성 영향 인덱스는 개별 종목의 감성 평가 데이터와 실제 주가와의 상대적인 강도를 나타내는 지수로서, 감성 평가 데이터의 실제 주가에 반영되는 정도를 나타낼 뿐만 아니라, 개별 종목의 실제 주가의 추세 패턴에 대한 선행지표이다.

구체적으로, 주가 예측 시스템(100)은 소셜 미디어 데이터(10)와 증시 관련 웹데이터(20)로부터 대량의 문서를 수집하는 문서 수집/추출부(110), 수집된 문서를 개별 기업별로 저장하는 문서 저장부(130), 개별 기업별로 복수의 문서에 포함된 표현 내지는 문장에 대하여 형태소를 분석하는 형태소 분석부(140), 분석된 형태소에서 추출된 키워드마다 긍정 및 부정 중 어느 하나로 감성 평가함으로써 복수의 문서 전체에 대한 감성을 평가하여 복수의 문서 전체의 데이터를 분석하는 데이터 분석부(150) 및 누적된 감성 평가 데이터 중 과거 시점부터 현재 시점까지의 기 정해진 기간 동안에 수집된 감성 평가 데이터를 평가하여 감성 영향 인덱스를 생성하여 표시부(190)에 제공하는 감성 영향 인덱스부(165)를 포함한다.

또한, 주가 예측 시스템(100)은 누적된 감성 평가 데이터 중 소정의 조건에 의해 선택된 감성 관련 평가 데이터와 함께, 증시 지표 데이터와 경제 지표 데이터 간의 상관 관계로부터의 분석 데이터를 생성하는 상관 분석/결정부(170) 및 선택된 평가 데이터와 분석 데이터에 근거하여 개별 종목의 주가를 예측 산정하는 주가 예측부(180) 및 주가 예측부(180)로부터 도출된 예측 결과를 표시하는 표시부(190)를 포함할 수 있다.

문서 수집/추출부(110)는 소셜 미디어 데이터(10) 및 증시 관련 웹데이터(20)로부터 적어도 하나의 개별 종목과 관련된 대량의 문서를 수집하고, 증시 지표 데이터들(30)을 입력받는다. 여기서, 개별 종목은 증시에 상장된 기업이고, 수집되는 문서는 html, PDF(Portable Document Format), 이미지 및 동영상 중 적어도 하나의 형태로 구현될 수 있다.

소셜 미디어 데이터(10)는 인터넷 등의 네트워크와 접속되는 고정형 컴퓨터 또는 모바일 기기를 통해 입력되는 미디어 데이터로서, 네트워크와 접속된 다른 사용자와 상호 공유될 수 있는 데이터이다. 예컨대, 소셜 미디어 데이터(10)는 소셜 미디어 서버에서 운영하는 소셜 미디어 사이트들(12) 및 다양한 포털 사이트 등에서 운영하며 개인화된 컨텐츠가 포함된 블로그 사이트들(14)일 수 있다. 소셜 미디어 사이트들(12)은 소위 SNS로서, 트위터(twitter), 페이스북(facebook), 다양한 포털 사이트에서 서비스하는 소셜 미디어일 수 있다.

증시 관련 웹데이터(20)는 언론사, 공중파 방송사, 케이블 방송사, 포털 사이트 뉴스, 금융사, 증시 관련 기관 등으로부터 제공되는 웹데이터로서, 소셜 미디어 데이터(10)에 비해 전문적이거나 공신력있는 증시 관련 데이터이다. 이러한 증시 관련 웹데이터(20)는 언론사, 방송사, 포털 사이트 뉴스, 포털 사이트가 제공하는 증시 정보로부터 서비스되는 증시 관련 뉴스 사이트들(22), 은행, 증권사, 보험 등의 금융사에서 증시와 관련하여 서비스되는 금융사 포털 사이트들(24) 및 증시 관련 공공 기관 또는 사설 기관에서 증시와 관련된 분석 정보를 제공하는 증시 관련 통계 사이트들(26)일 수 있다.

증시 지표 데이터들(30)은 주식에 상장된 개별 종목마다의 주식 정보로서, 예컨대 시가, 고가, 저가, 종가, 호가, 체결 여부, 거래량, 거래 대금, 거래원, 상한가, 하한가, 신고가, 신저가 등을 포함할 수 있다.

소셜 미디어 데이터(10) 및 증시 관련 웹데이터(20)로부터 대량의 문서를 수집하는 경우에, 문서 수집/추출부(110)는 모든 문서를 수집하는 것이 아니라, 키워드 데이터베이스(120)를 참조하여 적어도 하나의 개별 종목과 관련된 문서를 수집하는 것이다.

키워드 데이터베이스(120)는 개별 종목에 해당하는 기업마다 카테고리화되어 있는 키워드 군을 포함할 수 있으며, 구체적으로 도 2에 도시된 바와 같이, 개별 종목의 기업명과 관련된 메인 키워드(122)와 아울러서, 기업에서 출시하는 상품, 서비스에 관한 제품/서비스 관련 키워드(124), 기업의 경영진 등에 관한 인적 관련 키워드(126) 및 개별 종목에 영향을 미칠 수 있는 단어, 컨텍스트에 관한 기업 상황 관련 키워드(128) 등을 포함하는 서브 키워드를 저장할 수 있다. 서브 키워드는 해당 기업 특유의 단어, 컨텍스트 등으로서, 해당 기업마다 분류되어 카테고리화된 형태로 존재할 수 있다.

메인 키워드에 대하여 예를 들어 설명하면, 메인 키워드(122)는 삼성전자, 엘지전자, KT 등과 같이 증시에 상장된 개별 종목의 기업명일 수 있으며, 삼성전자의 경우에 제품/서비스 관련 키워드(124)는 "갤럭시", "스마트폰", "하우젠", "태블릿", "앱 마켓" 등일 수 있으며, 인적 관련 키워드(126)는 삼성전자의 주요 임원진, 삼성전가와 거래하는 기업의 임원진 등일 수 있으며, 기업 상황 관련 키워드(128)는 삼성전자의 주가에 영향을 미칠 수 있는 단어 등으로서, "사상최대", "실적", "호조", "애플", "불만", "악화" 등으로 다양한 단어를 포함할 수 있다.

문서 수집/추출부(110)는 수집된 복수의 문서에 포함된 표현에서 전술한 키워드 중 메인 키워드(122), 제품/서비스 관련 키워드(124) 및 인적 관련 키워드(126)가 포함되는 문서들을 추출함으로써, 감성 평가에 적합한 문서 데이터를 효율적으로 선정할 수 있다.

문서 저장부(130)는 형태소 분석에 적합한 형태로 추출된 문서들을 저장할 수 있으며, 예컨대 도 3에 도시된 바와 같이, 개별 종목 그룹(131)마다 추출된 문서들의 포맷 별, 즉 html(132), pdf(133), 이미지(134), 동영상(135) 등으로 분산 저장될 수 있다.

형태소 분석부(140)는 감성 평가에 적합한 형태로 처리하기 위한 전처리로서, 저장된 복수의 문서의 포맷에 대하여 의미를 갖는 최소의 언어 단위인 형태소를 분석하여 각 품사를 특정하는 처리를 수행한다. 이 경우에, 형태소 분석부(140)는 도 3에 도시된 포맷마다 적합한 처리를 통해, 각 포맷에 대하여 병렬적으로 형태소 분석을 진행할 수 있다.

아울러, 형태소 분석부(140)는 문서의 포맷에 포함된 표현에서 문장, 컨텍스트 등을 어절 단위로 분류하고, 개별 종목과 관련된 키워드에 인접한 키워드들을 파싱(parsing)할 수 있다. 예를 들어 설명하면, 특정인의 블로그 사이트에서 삼성전자와 관련된 문장 및 엘지전자와 관련된 문장이 함께 존재하는 경우에, 형태소 분석부(140)는 문장 구조, 접속 구조, 구문 등을 고려하여 블로그 사이트의 텍스트를 어절 단위로 분류하고, 이후에 삼성전자 또는 엘지전자의 명칭, 상품/서비스, 인적 사항 등의 키워드를 검색하여, 이에 인접한 단어, 구문들을 파싱하고, 삼성전자 및 엘지전자 별 키워드들로 분류하여 저장한다.

데이터 분석부(150)는 도 4를 참조하면, 형태소 분석부(140)에서 처리된 키워드마다 긍정 및 부정 중 어느 하나로 감성 평가함으로써 복수의 문서 전체에 대한 감성을 평가함과 아울러서 긍정으로 평가되어 집계된 상승 스코어와 부정으로 평가되어 집계된 하락 스코어를 일 단위로 산출하는 데이터 감성 평가부(152) 및 형태소 분석부(140)에서 처리된 키워드를 통계 처리하는 키워드 분석부(154)를 포함할 수 있다.

데이터 감성 평가부(152)는 형태소 분석부(140)로부터의 키워드마다 긍정, 중립 또는 부정에 대한 평가 및 이 평가와 연계된 스코어를 저장하는 감성 사전 데이터베이스(160)를 참조하여, 추출된 키워드에 대하여 긍정, 중립 및 부정 중 어느 하나로 일(day) 별로 평가하면서 스코어링한다. 스코어링 알고리즘은 Naive bayes 알고리즘, Simple voter 알고리즘, KNN(K Nearest Neighborhood), SVM(Support Vector Machine) 일 수 있다. 이 중 Simple voter 알고리즘을 예로 들어 설명하면, 감성 사전 데이터베이스(160)는 도 5에 도시된 바와 같이, 키워드에 대한 감성 평가로서 긍정, 중립, 부정마다의 키워드를 테이블 형태로 저장할 수 있다. 이러한 감성 평가와 관련된 키워드의 품사의 대부분은 명사, 형용사로 구성될 수 있다. 예컨대 긍정 평가의 테이블(162)에서는 "상승", "사상최대", "오르다" 등의 키워드가 존재하고, 각 키워드에 부여되는 스코어 "1"이다. 또한, 부정 평가의 테이블(166)에서는 "불황", "내리다", "불만" 등의 키워드가 존재하고, 각 키워드에 부여되는 스코어 "-1"이다. 중립 평가 테이블(164)에 저장된 키워드에 부여되는 스코어는 "0"이다. 도 5에 도시된 스코어는 긍정과 부정을 구별하기 위한 것으로 예시되고 있으나, 이와는 달리, 긍정 또는 부정 평가와 연계된 스코어는 시장 참가자들이 해당 키워드에 느끼는 감성의 정도에 따라, 해당 키워드의 가중치를 달리하여 서로 다른 스코어로 구성될 수 있다.

데이터 감성 평가부(152)는 감성 사전 데이터베이스(160)에 의해 긍정, 중립 및 부정으로 판별된 키워드마다 부여된 스코어를 일별로 합산하여 복수의 문서 전체에 대한 감성 지수와 같은 감성 관련 평가 데이터를 산출할 수 있다. 여기서, 데이터 감성 평가부(152)는 모든 문서의 키워드에 대하여 감성 평가를 수행한 후, 문서 별로 긍정, 중립, 부정의 평가를 수행하지 않는다. 만약 문서의 감성 뉘앙스를 파악하기 위해 문서 별로 감성 평가를 수행하는 경우, 어떤 문서는 다른 문서에 비해 부정적으로 평가된 키워드가 훨씬 많이 존재함에도 불구하고, 각 문서가 동등한 스코어의 부정 평가를 받을 수 있다. 이에 의하면, 소셜 미디어 데이터(10) 및 증시 관련 웹데이터(20)로부터 추출된 복수의 문서 전체로부터 존재하는 개별 종목의 긍정 또는 부정 요소에 대한 비율이 왜곡되게 분석될 수 있다. 따라서, 본 실시예에서는 복수의 문서 전체로부터 형태소 분석된 키워드들을 문서 별로 그룹핑없이, 감성 평가를 수행함으로써, 분석의 왜곡을 방지할 수 있다.

또한, 데이터 감성 평가부(152)는 감성 영향 인덱스부(165)에서 감성 영향 인덱스를 산출하기 위한 데이터를 제공하기 위해, 도 10a에 도시된 바와 같이, 키워드마다 긍정 및 부정을 부여한 후에, 집계 기간 동안에 긍정으로 평가된 키워드의 스코어를 일(day)별로 집계하여 상승 스코어(812)를 산출함과 아울러서, 집계 기간 동안에 부정으로 평가된 키워드의 스코어를 일별로 집계하여 하락 스코어(814)를 산출한다. 이 경우에, 상승 스코어와 하락 스코어의 집계 기간은 과거 시점부터 현재 시점까지의 기간으로서 미리 설정될 수 있다. 구체적으로, 집계 기간은 데이터 감성 평가부(152)에서 복수 문서의 전체를 일별로 평가하여 누적된 감성 평가 데이터와 개별 종목의 실제 주가와의 상관도에 근거하여 결정될 수 있으며, 이러한 상관도는 후술할 상관 분석/결정부(170)에 의해 결정되어 수 있다. 본 실시예에서 이용되는 집계 기간은 예컨대 14일일 수 있다.

키워드 분석부(154)는 형태소 분석부(140)로부터 분석된 키워드들에 대하여 기간별 수집 건수, 각 키워드 간의 상관 분석 등의 통계 분석을 수행하여 그 결과를 표시부(190)에 제공할 수 있다. 또한, 키워드 분석부(154)는 분석된 키워드들 중 키워드 데이터베이스(120)에 등록되지 않은 키워드를 선별하고, 신규로 선별된 키워드는 키워드 데이터베이스(120)에 갱신 저장됨으로써, 문서 수집/추출부(110)에서 수행되는 문서 수집의 정확성을 향상시킬 수 있으며, 관리자는 신규의 키워드 중 감성 평가에 반영할 키워드에 대해서는 감성 사전 데이터베이스(160)에 저장시킬 수 있다.

감성 영향 인덱스부(165)는 집계 기간 동안에 일별로 산출된 상승 스코어와 하락 스코어 중 적어도 하나의 스코어에 관한 일별 증가분의 평균값과 이 스코어에 관한 일별 감소분의 평균값의 비에 근거하여, 감성 영향 인덱스를 생성한다. 이 경우에, 이러한 스코어에 관한 일별 증가분 및 일별 감소분은 도 10b에 도시된 바와 같이, 일별로 산출된 상승 스코어와 하락 스코어의 차이값(816)에 기초한 일별 실증가분(r) 및 일별 실감소분(d)일 수 있다. 이와는 달리, 스코어에 관한 일별 증가분 및 일별 감소분은 도 10a에 도시된 바와 같이, 일별로 산출된 상승 스코어에 기초한 일별 순증가분(u) 및 일별 순감소분(f)일 수 있다.

감성 영향 인덱스부(165)에서 생성된 감성 영향 인덱스는 표시부(190)로 제공되어, 도 15에 도시된 감성 영향 인덱스(226)로 디스플레이되며, 감성 영향 인덱스(226)를 통해 개별 종목의 상승/하락 추세 판단이 이루어질 수 있다. 감성 영향 인덱스부(165)에서 감성 영향 인덱스를 생성하는 처리 과정은 도 8 내지 도 10b를 통해 상세히 후술하기로 한다.

한편, 상관 분석/결정부(170)는 누적된 감성 평가 데이터 중 소정의 조건에 의해 선택된 감성 관련 평가 데이터와 함께, 증시 지표 데이터와 경제 지표 데이터 간의 상관 관계로부터의 분석 데이터를 생성할 수 있다. 도 6을 참조하면, 상관 분석/결정부(170)는 평가 데이터 저장부(171), 제 1 상관 테이블부(172), 평가 데이터 수집 기간 결정부(173), 평가 데이터 선택부(174), 지연 기간 결정부(175), 경제 지표 데이터베이스(176) 및 제 2 상관테이블부(177)를 포함할 수 있다.

평가 데이터 저장부(171)는 일별로 개별 종목마다의 감성 지수와 같은 감성 관련 평가 데이터를 누적 저장할 수 있으며, 이러한 평가 데이터는 제 1 상관테이블부(172)에 제공되어 외부로부터 입력되는 증시 지표 데이터들(30)과의 상관 관계 분석을 수행하여, 과거 시점에서 개별 종목의 증시 지표 데이터들(30)과 이에 상응하는 평가 데이터 간의 분석된 상관 관계가 제 1 상관테이블부(172)에 수록된다.

또한, 제 1 상관테이블부(172)는 감성 영향 인덱스부(165)에서 생성된 감성 영향 인덱스를 입력받아, 개별 종목의 증시 지표 데이터들(30)과 이에 상응하는 평가 데이터 간의 분석된 상관 관계에 반영될 수 있다. 아울러, 제 1 상관테이블부(172)는 감성 영향 인덱스를 통해 결정되는 개별 종목의 상승/하락 추세를 판단하고, 판단된 추세와 개별 종목의 실제 주가 추세 간의 불일치가 발생하는 경우에, 개별 종목의 실제 추가에서 추세 전환의 발생을 통지할 수 있다.

평가 데이터 수집 기간 결정부(173)는 제 1 상관테이블부(172)에 저장된 과거 상관 관계에 기초하여 개별 종목의 주가에 영향을 미치는 평가 데이터의 수집 기간을 결정하고, 평가 데이터 선택부(174)는 평가 데이터 저장부(171)에 누적 저장된 감성 평가 데이터 중 수집 기간에 부합하는 평가 데이터를 선택하여 주가 예측부(180)로 제공할 수 있다. 이러한 수집 기간은 감성 영향 인덱스부(165)에서 이용되는 집계 기간과 상이할 수도 있거나, 동일할 수도 있다.

또한, 지연 기간 결정부(175)는 제 1 상관테이블부(172)의 과거 상관 관계에 기초하여 감성 관련 평가 데이터가 개별 종목의 주가에 반영되어질 때까지의 경과되는 지연 기간을 결정하고, 주가 예측부(180)에 개별 종목의 주가 예측시에 지연 기간을 제공하여, 지연 기간 이후의 주가를 예측할 수 있다.

이와 같이 수집 기간 및 지연 기간을 주가 예측부(180)의 예측시에 제공함으로써, 보다 유효한 감성 평가 데이터를 활용할 수 있으며, 주가 예측 시점을 더 정확하게 특정할 수 있다.

또한, 제 2 상관테이블부(177)는 증시 지표 데이터들(30)과 경제 지표 데이터베이스(176)에 축적된 거시 경제 지수와 관련된 경제 지표 데이터들 간의 상관 관계로부터 도출되는 분석 데이터를 주가 예측부(180)에 제공할 수 있다. 이 경우에, 경제 지표 데이터들은 모든 개별 종목에 기본적으로 공통되게 영향을 주는 경제 지표로서, 예를 들면 금리, 환율, 예상성장율, 물가지수, 국제수지 등일 수 있다.

다시 도 1을 참조하면, 주가 예측부(180)는 상관 분석/결정부(170)로부터 선택된 감성 관련 평가 데이터, 지연 기간 및 제 2 상관테이블부(177)로부터 생성된 분석 데이터에 근거하여 개별 종목의 주가를 예측할 수 있다. 주가 예측은 증시 지표 데이터들(30)과 경제 지표 데이터에 기초한 시계열 분석을 토대로 하며, 소셜 미디어 데이터(10) 및 증시 관련 웹데이터(20)의 뉴스로부터 분석된 평가 데이터는 상기 시계열 분석으로부터 산출되는 예측 주가를 보정하는 항으로 결합될 수 있다. 주가 예측의 정확성을 보다 높이기 위해, 제 1 상관테이블부(172)의 상관 관계에 기초하여 산출된 가중치가 감성 관련 평가 데이터에 부여됨으로써, 가중치가 부여된 평가 데이터가 주가 예측에 반영될 수 있다. 주가 예측부(180)에서 산출된 개별 종목의 예측 주가 및 그 통계값은 표시부(190)에 표시된다.

전술한 주가 예측 시스템(100)에 따르면, 소셜 데이터 및 뉴스를 포함한 대량의 데이터에 대한 감성 관련 평가 데이터를 반영함으로써, 시장 참가자들의 다양한 견해로부터 개별 종목에 대한 시장 분위기 및 정보를 보다 객관적이면서 유의미하게 추출할 수 있으므로, 개별 종목의 주가를 보다 신뢰성있게 예측할 수 있다. 특히, 단순히 증시 관련 웹데이터(20)에서 생산되는 뉴스의 분석에 의한 주가 예측보다는 뉴스 분석을 포함한 소셜 미디어 데이터의 감성 평가를 통한 주가 예측이 정확성과 신뢰성을 갖는 이유는 소셜 미디어 데이터가 뉴스에 비해 훨씬 많은 데이터량으로 생산되어, 통계적으로 보다 모집단에 근접한 분석이 이루어지기 때문이다.

이하, 도 1 및 도 7 내지 도 16을 참조하여 주가 예측 방법 및 본 실시예에 따른 감성 평가 인덱스의 생성 방법에 대하여 상세히 설명하기로 한다.

도 7은 주가 예측 방법의 순서도이고, 도 8은 본 발명의 일 실시예에 따른 감성 영향 인덱스의 생성 방법을 구현하기 위한 감성 영향 인덱스부의 처리 과정을 도시한 순서도이다.

도 9는 본 발명의 다른 실시예에 따른 감성 영향 인덱스의 생성 방법을 구현하기 위한 감성 영향 인덱스부의 처리 과정을 도시한 순서도이다. 도 10a 및 도 10b는 각각 일별 순증가분과 순감소분을 산출하는 과정 및 일별 실증가분과 실감소분을 산출하는 과정을 도시한 도면이다.

문서 수집/추출부(110)는 소셜 미디어 데이터(10) 및 증시 관련 웹데이터(20)로부터 적어도 하나의 개별 종목과 관련된 대량의 문서로서, html, PDF, 이미지 및 동영상 중 적어도 하나를 수집하고, 증시 지표 데이터들(30)을 입력받는다(S710).

이 경우에, 소셜 미디어 데이터(10)는 소위 SNS로서, 트위터(twitter), 페이스북(facebook), 다양한 포털 사이트에서 서비스하는 소셜 미디어와 같은 소셜 미디어 사이트들(12) 및 다양한 포털 사이트 등에서 운영하며 개인화된 컨텐츠가 포함된 블로그 사이트들(14)일 수 있다. 증시 관련 웹데이터(20)는 언론사, 방송사, 포털 사이트 로부터 서비스되는 증시 관련 뉴스 사이트들(22), 은행, 증권사, 보험 등의 금융사에서 증시와 관련하여 서비스되는 금융사 포털 사이트들(24) 및 증시 관련 공공 기관 또는 사설 기관에서 증시와 관련된 분석 정보를 제공하는 증시 관련 통계 사이트들(26)일 수 있다.

다음으로, 문서 수집/추출부(110)는 키워드 데이터베이스(120)를 참조하여 적어도 하나의 개별 종목과 관련된 문서를 수집하고, 문서 저장부(130)는 형태소 분석에 적합한 형태로 추출된 문서들을 저장할 수 있다(S720). 문서 수집/추출부(110)는 수집된 복수의 문서에 포함된 표현 중, 도 2에 도시된 키워드 데이터베이스(120)에 저장된 키워드 중 메인 키워드(122), 제품/서비스 관련 키워드(124) 및 인적 관련 키워드(126)가 포함되는 문서들을 추출함으로써, 감성 평가에 적합한 문서 데이터를 효율적으로 선정할 수 있다.

또한, 문서 저장부(130)는 예컨대 도 3에 도시된 바와 같이, 개별 종목 그룹(131)마다 추출된 문서들의 포맷 별, 즉 html(132), pdf(133), 이미지(134), 동영상(135) 등으로 분산 저장할 수 있다.

이어서, 형태소 분석부(140)는 감성 평가에 적합한 형태로 처리하기 위한 전처리로서, 저장된 복수의 문서의 포맷에 대하여 형태소를 분석한다(S730). 이 경우에, 형태소 분석부(140)는 도 3에 도시된 포맷마다 적합한 처리를 통해, 각 포맷에 대하여 병렬적으로 형태소 분석을 진행할 수 있다. 또한, 형태소 분석부(140)는 문서의 포맷에 포함된 표현에서 문장, 컨텍스트 등을 어절 단위로 분류하고, 개별 종목과 관련된 키워드에 인접한 키워드들을 파싱(parsing)할 수 있다. 이에 대한 상세하 설명은 주가 예측 시스템(100)의 형태소 분석부(140)에서 기재된 바 생략하기로 한다.

다음으로, 데이터 분석부(150)의 데이터 감성 평가부(152)는 도 5에 도시된 감성 사전 데이터베이스(160)를 참조하여, 형태소 분석부(140)에서 처리된 키워드마다 긍정 및 부정 중 어느 하나로 감성 평가함으로써 복수의 문서 전체에 대한 감성을 평가한다(S740).

보다 구체적으로, 데이터 분석부(150)는 형태소 분석부(140)로부터의 키워드마다 긍정, 중립 또는 부정에 대한 평가 및 이 평가와 연계된 스코어를 저장하는 감성 사전 데이터베이스(160)를 참조하여, 추출된 키워드에 대하여 긍정, 중립 및 부정 중 어느 하나로 평가함과 아울러서 스코어링한다. 아울러, 데이터 감성 평가부(152)는 감성 사전 데이터베이스(160)에 의해 긍정, 중립 및 부정으로 판별된 키워드마다 부여된 스코어를 합산하여 복수의 문서 전체에 대한 감성 지수와 같은 감성 관련 평가 데이터를 산출할 수 있다. 평가 데이터의 예로서, 도 15에 도시된 소셜 미디어 데이터(10)의 감성 점수(220)와 증시 관련 웹데이터(20)의 감성 점수(222)로 나타날 수 있다.

아울러, 데이터 감성 평가부(152)는 감성 영향 인덱스부(165)에서 감성 영향 인덱스를 산출하기 위한 데이터를 제공하기 위해, 도 10a에 도시된 바와 같이, 키워드마다 긍정 및 부정을 부여한 후에, 상관 분석/결정부(170)에서 결정한 소정 기간인 집계 기간 동안에, 긍정으로 평가된 키워드의 스코어를 일(day)별로 집계하여 상승 스코어(812)를 산출함과 아울러서, 집계 기간 동안에 부정으로 평가된 키워드의 스코어를 일별로 집계하여 하락 스코어(814)를 산출한다. 이 경우에, 상승 스코어(812)와 하락 스코어(814)의 집계 기간은 과거 시점부터 현재 시점까지의 기간으로서 미리 설정될 수 있으며, 본 실시예에서 이용되는 집계 기간은 예컨대 14일일 수 있다. 일별로 산출된 상승 스코어(812)와 하락 스코어(814)는 도 15에서와 같이, 상승 스코어(240)와 하락 스코어(242)로 표시부(190)에 표시될 수 있다.

상승 스코어(812)와 하락 스코어(814)를 일별로 집계한 이후에, 본 실시예에 따른 감성 평가 인덱스를 생성하는 방법은 도 8 및 도 10b에 도시된 실시예와 같다. 이를 구체적으로 설명하면, 감성 영향 인덱스부(165)는 도 10b에 도시된 바와 같이, 데이터 감성 평가부(152)에서 일별로 산출된 상승 스코어(812)와 하락 스코어(814)의 차이값을 산출하여 일별 실증가분(r)과 일별 실감소분(d)을 산출할 수 있다(S810).

계속해서, 감성 영향 인덱스부(165)는 집계 기간에서의 일별 실증가분(r)의 평균값 및 일별 실감소분(d)의 평균값을 산출할 수 있다(S820).

다음으로, 감성 영향 인덱스부(165)는 일별 실증가분(r)의 평균값 및 일별 실감소분(d)의 평균값의 비를 하기 수학식 1에 입력하여 개별 종목의 감성 영향 인덱스를 산출할 수 있다(S830). 하기 수학식 1에 의해 획득되는 감성 영향 인덱스는 100에 근접할수록 개별 종목의 추세 패턴이 상승 추세인 것이고, 반대라면 개별 종목의 추세 패턴이 하락 추세임을 나타낸다.

[수학식 1]

감성 영향 인덱스=100-(100/(1+ES_1))

(여기서, ES(Effective Score)_1=(집계 기간의 상기 일별 실증가분의 평균값)/(집계 기간의 상기 일별 실감소분의 평균값)임)

전술한 실시예에서는, 평균값을 구하는 경우에, 집계 기간 동안의 일별 실증가분(r)과 일별 실감소분(d)을 전부 포함하고 있으나, 변형 실시예로서, 감성 영향 인덱스부(165)는 평균값을 구하는데 이용되는 일별 실증가분(r)과 일별 실감소분(d)을 특정 조건에 따라 선별할 수 있다.

이에 대하여 설명하면, 평균값 산출(S820) 전에, 감성 영향 인덱스부(165)는 일별 실증가분(r)이 그 해당일 직전의 날짜에 비해 임계 비율 이하로 증가되거나, 혹은 일별 실감소분(d)이 해당일 직전의 날짜에 비해 임계 비율 이하로 감소되는지 여부를 판정할 수 있다. 임계 비율은 주식 시장에서 개별 종목의 거래 정지를 유발하는 전일 대비 상승 비율 또는 하락 비율이며, 예를 들면 전일 대비 15%일 수 있다.

상기 판정이 수행된 후, 감성 영향 인덱스부(165)가 평균값 산출(S820)을 수행하는 경우에, 임계 비율 이하의 범위로 증가되거나 감소된 일별 실증가분(r) 및 일별 실감소분(d)에 대해서만 평균값을 산출할 수 있다. 이후의 과정은 전술한 S830의 과정을 진행하여 감성 영향 인덱스를 생성할 수 있다.

전술한 실시예는 일별로 산출된 상승 스코어(812)와 하락 스코어(814) 간의 차이값(816)에 기초한 일별 실증가분(r)과 일별 실감소분(d)의 비를 이용하여 감성 영향 인덱스를 산출하는 것이나, 도 9 및 도 10a에 도시된 다른 실시예에서는 상승 스코어(812)에 기초한 일별 순가증분(u)와 일별 순감소분(f)를 이용하여 감성 영향 인덱스를 산출하는 과정을 보여주고 있다.

도 9 및 도 10a를 참조하여 다른 실시예를 설명하면, 감성 영향 인덱스부(165)는 집계 기간 동안에 상승 스코어(812)의 일별 순증가분(u) 및 일별 순감소분(f)을 산출할 수 있다(S810a).

계속해서, 감성 영향 인덱스부(165)는 집계 기간에서의 일별 순증가분(u)의 평균값 및 일별 순감소분(f)의 평균값을 산출할 수 있다(S820a).

다음으로, 감성 영향 인덱스부(165)는 일별 순증가분(u)의 평균값 및 일별 순감소분(f)의 평균값의 비를 하기 수학식 2에 입력하여 감성 영향 인덱스를 산출할 수 있다(S830a). 하기 수학식 2에 의해 획득되는 감성 영향 인덱스는 100에 근접할수록 개별 종목의 추세 패턴이 상승 추세인 것이고, 반대라면 개별 종목의 추세 패턴이 하락 추세임을 나타낸다.

[수학식 2]

감성 영향 인덱스=100-(100/(1+ES_2))

(여기서, ES_2=(집계 기간의 상기 일별 순증가분의 평균값)/(집계 기간의 상기 일별 순감소분의 평균값)임)

도 8 내지 도 10b를 통해 설명한 실시예에서는 상승 스코어(812)와 하락 스코어(814)의 차이값(816) 또는 상승 스코어(812) 단독에 기초한 증가분 및 감소분의 평균값의 비를 수학식 1 또는 2에 입력하여 감성 영향 인덱스를 생성하는 것을 설명하였다, 그러나 증가분과 감소분을 구하는 것은 전술한 실시예에 제한되지 않고, 상승 스코어(812)와 하락 스코어(814)의 다양한 조합에 의한 증가분과 감소분을 획득할 수 있다. 예컨대, 하락 스코어(814) 단독에 기한 증가분 및 감소분의 평균값을 이용하거나, 상승 스코어(812)의 증가분과 감소분의 평균값과 하락 스코어(814)의 증가분과 감소분의 평균값을 분리하여 계산한 후, 각 평균값을 조합하여 증가분과 감소분의 비를 구할 수도 있다.

도 8 내지 도 10b 등을 통해 설명한 실시예에 따르면, 집계 기간의 일별 증가분과 일별 감소분의 평균값의 비에 근거하여 감성 영향 인덱스를 산출함으로써, 집계 기간의 상승 스코어와 하락 스코어의 단순 증감 패턴으로 인덱스를 산정하는 경우에 비해, 보다 정확한 선행지표로서의 감성 영향 인덱스를 획득할 수 있다.

아울러, 실시예에 따르면, 소셜 데이터 및 뉴스를 포함한 대량의 데이터의 감성 분석에 의해 산출된 감성 영향 인덱스에 의해, 개별 종목의 상승 또는 하락의 방향성과 같은 주가 추세 변동의 패턴의 선행 지표를 제공받을 수 있다. 또한, 개별 종목이 지지 구간이나 저항 구간에서 유지되는 경우에, 감성 영향 인덱스를 통해 주가 자체 보다 개별 종목의 주가 추세 전환의 신호인 다이버젼스(divergence)를 판단할 수 있다. 아울러, 이 실시예에 따른 감성 영향 인덱스에 의해, 개별 종목의 감성 평가 데이터가 개별 종목의 주가 추세에 반영되는 강도가 측정됨으로써, 감성 평가 데이터의 예측성을 평가할 수 있으므로, 감성 평가 데이터에 근거한 주가 예측의 신뢰성을 보다 향상시킬 수 있다.

다시 도 7를 참조하면, 키워드 분석부(154)는 데이터 감성 평가부(152)에서 이루어지는 감성 평가의 수행 동안에, 형태소 분석부(140)로부터 분석된 키워드들에 대하여 기간별 수집 건수, 각 키워드 간의 상관 분석 등의 통계 분석을 수행하여 그 결과를 표시부(190)에 제공할 수 있다. 또한, 키워드 분석부(154)는 분석된 키워드들 중 키워드 데이터베이스(120)에 등록되지 않은 키워드를 키워드 데이터베이스(120)에 갱신 저장하고, 관리자는 신규의 키워드 중 감성 평가에 반영할 키워드에 대해서는 감성 사전 데이터베이스(160)에 저장시킬 수 있다.

이와 관련하여서 도 12 내지 도 14를 통해 설명한다. 도 12는 키워드 및 소셜 미디어 데이터의 선택 및 이에 따른 키워드 현황을 표시부에 표시한 도면이다. 도 13은 메인 키워드 및 서브 키워드의 수집 현황을 표시부에 표시한 도면이다. 도 14는 특정 키워드의 수집 현황을 표시부에 표시한 도면이다.

사용자는 주가 예측 시스템(100)에서 메인 키워드의 입력란에 기업명(202)를 선택하여 개별 종목과 관련된 키워드, 형태소 통계 데이터, 개별 종목의 예측 주가를 시각적으로 확인할 수 있다. 아울러, 수집된 데이터(204)는 소셜 미디어 데이터(10)로서의 SNS, 증시 관련 웹데이터(20)가 선택된다. 사용자가 기업명(202), 수집된 데이터(204)의 종류를 선택하는 경우에, 키워드 데이터베이스(120)는 형태소 분석부(140)로부터 분석된 형태소들(206)에 대하여 기간별 수집 건수(208), 각 키워드 간의 상관 분석 등의 통계 분석을 표시부(190)에 제공하여 표시할 수 있다, 또한, 사용자는 도 13에서와 같이, 메인 키워드에 해당하는 "삼성전자"(210)의 서브 키워드로서 제품/서비스 관련 키워드에 해당하는 "s펜"(212)의 일별 수집 건수를 키워드 데이터베이스(120)를 통해 확인할 수 있다.

아울러, 신규 키워드가 입수되는 경우에, 키워드 데이터베이스(120)는 전술한 바와 같이, 키워드(형태소)를 갱신하고, 도 14에서와 같이, 사용자의 요청에 의해 신규 형태소의 일별 수집 건수를 표시부(190)에 나타낼 수 있다.

다음으로, 상관 분석/결정부(170)는 누적된 감성 평가 데이터 중 소정의 조건에 의해 선택된 감성 평가 데이터와 함께, 증시 지표 데이터와 경제 지표 데이터 간의 상관 관계로부터의 분석 데이터를 생성할 수 있다(S750).

소정 조건에 의한 감성 평가 데이터의 선택 과정에 대하여 도 11을 통해 설명하면, 평가 데이터 저장부(171)에 개별 종목마다, 일별로 누적 저장된 감성 관련 평가 데이터와 증시 지표 데이터들(30) 간의 과거 상관 관계가 저장된 제 1 상관테이블부(172)의 상관 관계 분석 결과에 기초하여, 평가 데이터 수집 기간 결정부(173)는 개별 종목의 주가에 영향을 미치는 평가 데이터의 수집 기간을 결정한다(S752). 도 11은 평가 데이터의 수집 기간, 지연 기간의 결정 및 평가 데이터의 선택 과정을 나타낸 순서도이다. 제 1 상관테이블부(172)의 상관 관계 분석 결과는 도 15에 도시된 "주가&키워드 인덱스"와 같은 개별 종목의 실제 종가(224)와 감성 영향 인덱스(226) 간의 상관 데이터를 이용하여 분석이 이루어질 수 있다. 도 15는 개별 종목과 관련된 소셜 미디어 데이터 및 뉴스에 대한 감성 관련 평가 데이터의 분석에 따른 감성 영향 인덱스와 개별 종목의 주가 간의 상관 관계를 표시부에 표시한 도면이다.

다음으로, 지연 기간 결정부(175)는 제 1 상관테이블부(172)의 과거 상관 관계에 기초하여 감성 관련 평가 데이터가 개별 종목의 주가에 반영되어질 때까지 경과되는 지연 기간을 결정한다(S754).

계속해서, 평가 데이터 선택부(174)는 평가 데이터 저장부(171)에 누적 저장된 평가 데이터 중 수집 기간에 부합하는 평가 데이터를 선택한다(S756). 이어서, 상관 분석/결정부(170)는 선택된 감성 평가 데이터와 지연 기간을 주가 예측부(180)로 제공한다(S758).

다시 도 7을 참조하면, 주가 예측부(180)는 상관 분석/결정부(170)로부터 선택된 감성 관련 평가 데이터, 지연 기간 및 제 2 상관테이블부(177)로부터 생성된 분석 데이터에 근거하여 개별 종목의 주가를 예측한다(S760). 개별 종목의 예측 주가는 도 16에 도시된 바와 같이, 과거 실제 종가(228)의 최후일보다 지연된 지연 기간 이후의 예상 주가를 나타내며, 예상 주가는 예측 종가(230)를 기준으로 소정 오차 범위 내의 최상 예측 종가(232), 최하 예측 종가(234)로 표시될 수 있다. 도 16은 평가 데이터를 반영하여 개별 종목의 주가를 예측한 결과를 표시부에 표시한 도면이다.

한편, 제 1 상관테이블부(172)는 감성 영향 인덱스부(165)에 생성된 감성 영향 인덱스를 통해 개별 종목의 상승/하락 추세를 판단하고, 판단된 추세와 개별 종목의 실제 주가 추세 간의 불일치가 발생하는 경우에, 예측 종가(230, 232, 234)와 함께, 개별 종목의 실제 주가에서 추세 전환이 발생한다는 예측 결과를 표시부(190)에 표시할 수 있다.

도 1에 도시된 감성 영향 인덱스부(165)를 포함하는 주가 예측 시스템(100)을 구성하는 구성요소 또는 도 8 또는 도 9에 도시된 감성 영향 인덱스를 생성하는 단계는 그 기능을 실현시키는 프로그램의 형태로 컴퓨터 판독가능한 기록 매체에 기록될 수 있다. 여기에서, 컴퓨터 판독 가능한 기록 매체란, 데이터나 프로그램 등의 정보를 전기적, 자기적, 광학적, 기계적, 또는 화학적 작용에 의해 축적하고, 컴퓨터에서 판독할 수 있는 기록 매체를 말한다. 이러한 기록 매체 중 컴퓨터로부터 분리 가능한 것으로서는, 예를 들면, 플렉시블 디스크, 광자기 디스크, CD-ROM, CD-R/W, DVD, DAT, 메모리 카드 등이 있다. 또한, 컴퓨터에 고정된 기록 매체로서 하드디스크나 ROM 등이 있다.

이상에서 대표적인 실시예를 통하여 본 발명에 대하여 상세하게 설명하였으나, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리 범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태에 의하여 정해져야 한다.

100: 주가 예측 시스템 110: 문서 수집/추출부
120: 키워드 데이터베이스 130: 문서 저장부
140: 형태소 분석부 150: 데이터 분석부
160: 감성 사전 데이터베이스 165: 감성 영향 인덱스부
170: 상관 분석/결정부 180: 주가 예측부
190: 표시부

Claims

컴퓨터에 의해 자동적으로 수행되는 소셜 데이터의 분석을 통한 감성 영향 인덱스의 생성 방법에 있어서,
과거 시점부터 현재 시점까지의 소정 기간 동안에, 소셜 미디어 데이터 및 증시 관련 웹데이터로부터 개별 종목과 관련된 복수의 문서를 수집하는 단계;
상기 복수의 문서에 대하여 형태소를 분석하는 단계;
상기 소정 기간 동안의 일(day) 별로 분류하여 상기 분석된 형태소에서 추출된 키워드마다 긍정 및 부정 중 어느 하나로 감성 평가함으로써, 상기 복수의 문서 전체에 대한 감성을 평가함과 아울러서 상기 긍정으로 평가되어 집계된 상승 스코어와 상기 부정으로 평가되어 집계된 하락 스코어를 상기 일 단위로 산출하는 단계; 및
상기 소정 기간 동안에 산출된 상기 상승 스코어 및 상기 하락 스코어 중 적어도 하나의 스코어에 관한 일별 증가분의 평균값과 상기 스코어에 관한 일별 감소분의 평균값의 비에 근거하여, 상기 개별 종목의 주가 추세 지표로서의 감성 영향 인덱스를 생성하는 단계를 포함하고,
상기 스코어에 관한 상기 일별 증가분 및 상기 일별 감소분은 상기 일별로 산출된 상기 상승 스코어와 상기 하락 스코어의 차이값에 기초한 일별 실증가분 및 일별 실감소분이며,
상기 감성 영향 인덱스를 생성하는 단계는,
상기 소정 기간 동안에 상기 일별로 상기 상승 스코어와 상기 하락 스코어의 차이값을 산출하여 상기 일별 실증가분 및 상기 일별 실감소분을 산출하는 단계;
소정 기간에서의 상기 일별 실증가분의 평균값 및 상기 일별 실감소분의 평균값을 산출하는 단계; 및
상기 일별 실증가분의 평균값 및 상기 일별 실감소분의 평균값의 비를 하기 수학식 1에 입력하여 상기 감성 영향 인덱스를 산출하는 단계를 포함하는 감성 영향 인덱스의 생성 방법.
[수학식 1]
감성 영향 인덱스=100-(100/(1+ES_1))
(여기서, ES(Effective Score)_1=(소정 기간의 상기 일별 실증가분의 평균값)/(소정 기간의 상기 일별 실감소분의 평균값)임)
제 1 항에 있어서,
상기 평균값을 산출하는 단계 전에, 상기 일별 실증가분이 해당일 직전의 일에 비해 임계 비율 이하로 증가되거나, 혹은 상기 일별 실감소분이 해당일 직전의 일에 비해 임계 비율 이하로 감소되는지 여부를 판정하는 단계를 더 포함하되,
상기 평균값을 산출하는 단계는 상기 판정 단계에 의해, 상기 임계 비율 이하의 범위로 증가되거나 감소된 상기 일별 실증가분 및 상기 일별 실감소분에 대해서 평균값을 산출하는 것인 감성 영향 인덱스의 생성 방법.
제 2 항에 있어서,
상기 판정 단계에서의 상기 임계 비율은 주식 시장에서 개별 종목의 거래 정지를 유발하는 전일 대비 상승 비율 또는 하락 비율인 감성 영향 인덱스의 생성 방법.
컴퓨터에 의해 자동적으로 수행되는 소셜 데이터의 분석을 통한 감성 영향 인덱스의 생성 방법에 있어서,
과거 시점부터 현재 시점까지의 소정 기간 동안에, 소셜 미디어 데이터 및 증시 관련 웹데이터로부터 개별 종목과 관련된 복수의 문서를 수집하는 단계;
상기 복수의 문서에 대하여 형태소를 분석하는 단계;
상기 소정 기간 동안의 일(day) 별로 분류하여 상기 분석된 형태소에서 추출된 키워드마다 긍정 및 부정 중 어느 하나로 감성 평가함으로써, 상기 복수의 문서 전체에 대한 감성을 평가함과 아울러서 상기 긍정으로 평가되어 집계된 상승 스코어와 상기 부정으로 평가되어 집계된 하락 스코어를 상기 일 단위로 산출하는 단계; 및
상기 소정 기간 동안에 산출된 상기 상승 스코어 및 상기 하락 스코어 중 적어도 하나의 스코어에 관한 일별 증가분의 평균값과 상기 스코어에 관한 일별 감소분의 평균값의 비에 근거하여, 상기 개별 종목의 주가 추세 지표로서의 감성 영향 인덱스를 생성하는 단계를 포함하고,
상기 스코어에 관한 상기 일별 증가분 및 상기 일별 감소분은 상기 일별로 산출된 상기 상승 스코어에 기초한 일별 순증가분 및 일별 순감소분이며,
상기 감성 영향 인덱스를 생성하는 단계는,
상기 소정 기간 동안에 상기 상승 스코어의 상기 일별 순증가분 및 상기 일별 순감소분을 산출하는 단계;
소정 기간에서의 상기 일별 순증가분의 평균값 및 상기 일별 순감소분의 평균값을 산출하는 단계; 및
상기 일별 순증가분의 평균값 및 상기 일별 순감소분의 평균값의 비를 하기 수학식 2에 입력하여 상기 감성 영향 인덱스를 산출하는 단계를 포함하는 감성 영향 인덱스의 생성 방법.
[수학식 2]
감성 영향 인덱스=100-(100/(1+ES_2))
(여기서, ES_2=(소정 기간의 상기 일별 순증가분의 평균값)/(소정 기간의 상기 일별 순감소분의 평균값)임)
제 1 항 또는 제 4 항에 있어서,
상기 소정 기간은 상기 복수의 문서 전체에 대한 감성을 평가하여 생성된 감성 평가 데이터와 상기 개별 종목의 실제 주가 간의 상관도에 근거하여 결정되는 감성 영향 인덱스의 생성 방법.
제 1 항 또는 제 4 항에 있어서,
상기 감성 영향 인덱스를 생성하는 단계 후에, 상기 감성 영향 인덱스로부터 결정되는 상승/하락 추세 판단과 상기 개별 종목의 실제 주가 추세 간의 불일치가 발생하는 경우에, 상기 개별 종목의 실제 주가에서 추세 전환의 발생 예측을 통지하는 단계를 더 포함하는 감성 인덱스의 생성 방법.
소셜 데이터의 분석을 통한 감성 영향 인덱스의 생성 시스템에 있어서,
과거 시점부터 현재 시점까지의 소정 기간 동안에, 소셜 미디어 데이터 및 증시 관련 웹데이터로부터 개별 종목과 관련된 복수의 문서를 수집하는 문서 수집/추출부;
상기 복수의 문서에 대하여 형태소를 분석하는 형태소 분석부;
상기 소정 기간 동안의 일별로 분류하여 상기 분석된 형태소에서 추출된 키워드마다 긍정 및 부정 중 어느 하나로 감성 평가함으로써, 상기 복수의 문서 전체에 대한 감성을 평가함과 아울러서 상기 긍정으로 평가되어 집계된 상승 스코어와 상기 부정으로 평가되어 집계된 하락 스코어를 상기 일 단위로 산출하는 데이터 분석부; 및
상기 소정 기간 동안에 산출된 상기 상승 스코어 및 상기 하락 스코어 중 적어도 하나의 스코어에 관한 일별 증가분의 평균값과 상기 스코어에 관한 일별 감소분의 평균값의 비에 근거하여, 상기 개별 종목의 주가 추세 지표로서의 감성 영향 인덱스를 생성하는 감성 영향 인덱스부를 포함하고,
상기 스코어에 관한 상기 일별 증가분 및 상기 일별 감소분은 상기 일별로 산출된 상기 상승 스코어와 상기 하락 스코어의 차이값에 기초한 일별 실증가분 및 일별 실감소분이며,
상기 감성 영향 인덱스부는,
상기 소정 기간 동안에 상기 일별로 상기 상승 스코어와 상기 하락 스코어의 차이값을 산출하여 상기 일별 실증가분 및 상기 일별 실감소분을 산출하고,
소정 기간에서의 상기 일별 실증가분의 평균값 및 상기 일별 실감소분의 평균값을 산출하고,
상기 일별 실증가분의 평균값 및 상기 일별 실감소분의 평균값의 비를 하기 수학식 1에 입력하여 상기 감성 영향 인덱스를 산출하는 감성 영향 인덱스의 생성 시스템.
[수학식 1]
감성 영향 인덱스=100-(100/(1+ES_1))
(여기서, ES(Effective Score)_1=(소정 기간의 상기 일별 실증가분의 평균값)/(소정 기간의 상기 일별 실감소분의 평균값)임)
소셜 데이터의 분석을 통한 감성 영향 인덱스의 생성 시스템에 있어서,
과거 시점부터 현재 시점까지의 소정 기간 동안에, 소셜 미디어 데이터 및 증시 관련 웹데이터로부터 개별 종목과 관련된 복수의 문서를 수집하는 문서 수집/추출부;
상기 복수의 문서에 대하여 형태소를 분석하는 형태소 분석부;
상기 소정 기간 동안의 일별로 분류하여 상기 분석된 형태소에서 추출된 키워드마다 긍정 및 부정 중 어느 하나로 감성 평가함으로써, 상기 복수의 문서 전체에 대한 감성을 평가함과 아울러서 상기 긍정으로 평가되어 집계된 상승 스코어와 상기 부정으로 평가되어 집계된 하락 스코어를 상기 일 단위로 산출하는 데이터 분석부; 및
상기 소정 기간 동안에 산출된 상기 상승 스코어 및 상기 하락 스코어 중 적어도 하나의 스코어에 관한 일별 증가분의 평균값과 상기 스코어에 관한 일별 감소분의 평균값의 비에 근거하여, 상기 개별 종목의 주가 추세 지표로서의 감성 영향 인덱스를 생성하는 감성 영향 인덱스부를 포함하고,
상기 스코어에 관한 상기 일별 증가분 및 상기 일별 감소분은 상기 일별로 산출된 상기 상승 스코어에 기초한 일별 순증가분 및 일별 순감소분이며,
상기 감성 영향 인덱스부는,
상기 소정 기간 동안에 상기 상승 스코어의 상기 일별 순증가분 및 상기 일별 순감소분을 산출하고,
소정 기간에서의 상기 일별 순증가분의 평균값 및 상기 일별 순감소분의 평균값을 산출하고,
상기 일별 순증가분의 평균값 및 상기 일별 순감소분의 평균값의 비를 하기 수학식 2에 입력하여 상기 감성 영향 인덱스를 산출하는 감성 영향 인덱스의 생성 시스템.
[수학식 2]
감성 영향 인덱스=100-(100/(1+ES_2))
(여기서, ES_2=(소정 기간의 상기 일별 순증가분의 평균값)/(소정 기간의 상기 일별 순감소분의 평균값)임)
삭제
삭제