KR101987301B1 - 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템 및 그 제어방법 - Google Patents

소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템 및 그 제어방법 Download PDF

Info

Publication number
KR101987301B1
KR101987301B1 KR1020170142465A KR20170142465A KR101987301B1 KR 101987301 B1 KR101987301 B1 KR 101987301B1 KR 1020170142465 A KR1020170142465 A KR 1020170142465A KR 20170142465 A KR20170142465 A KR 20170142465A KR 101987301 B1 KR101987301 B1 KR 101987301B1
Authority
KR
South Korea
Prior art keywords
data
emotion
module
analysis
calculating
Prior art date
Application number
KR1020170142465A
Other languages
English (en)
Other versions
KR20190048012A (ko
Inventor
이찬희
박용태
Original Assignee
주식회사 코스콤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 코스콤 filed Critical 주식회사 코스콤
Priority to KR1020170142465A priority Critical patent/KR101987301B1/ko
Publication of KR20190048012A publication Critical patent/KR20190048012A/ko
Application granted granted Critical
Publication of KR101987301B1 publication Critical patent/KR101987301B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 수집엔진모듈이 각종 정보수집매체로부터 소셜 미디어 데이터와 증시 관련 웹데이터를 크롤링하고 그 크롤링된 데이터들을 평일 및 휴일에 따라 구분한다음 대량의 제1 가공대상문서를 수집하는 제1 과정과; 상기 크롤링된 소셜 미디어 데이터와 증시 관련 웹데이터를 포함하여 수집된 상기 제1 가공대상문서의 데이터를 분석엔진모듈이 휴일 효과를 제거하기위해 수학식1에 넣어 일자별 가중치를 활용하여 개선된 감성점수을 산출함과 더불어 상기 감성점수의 분포를 이용하여 수학식 2에 의해 이상치가 제거된 표준화한 감성레벨을 산출분석하는 제3 과정과; 상기 제3 과정후에 휴일효과가 제거된 유의미한 감성평가지수와 표준화된 감성 레벨 데이터를 이용하여 설정된 기간의 SMD 분석정보와, 수집량의 트랜드 분석정보 및 표준화를 통한 종목간 비교정보를 통해 서비스결과조회화면을 구성한후 설정된 고객단말기나 전자주소로 전송시키는 제4 과정을 포함하는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템과 그 제어방법을 제공한다.
상기와 같은 본 발명은 소셜 데이터 및 뉴스를 포함한 대량의 데이터를 스케일한후 평일 및 휴일의 스코어비율에 따라 가중치를 부여하여 감성평가지수를 산출함으로써, 휴일효과를 제거하는 방식으로 감성 평가 데이터에서 산출오류를 보정해주기 때문에 객관적이면서도 유의미한 감성평가지수를 추출할 수 있는 효과가 있다.

Description

소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템 및 그 제어방법{Sensibility level yielding system through web data Analysis associated with a stock and a social data and Controlling Method for the Same}
본 발명은 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템 및 그 제어방법에 관한 것으로, 특히 소셜 데이터 및 뉴스를 포함한 대량의 데이터를 스케일한후 평일 및 휴일의 스코어비율에 따라 가중치를 부여하여 감성평가지수를 산출함으로써, 휴일효과가 제거된 유의미한 감성평가지수를 추출할 수 있는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템 및 그 제어방법에 관한것이다.
일반적으로 주식시장은 특유의 복잡한 가격결정 메커니즘으로 인해 주가의 변동을 시장 펀더멘털의 변화로 설명할 수 없는 경우가 자주 발생한다. 그리고 상기와 같은 펀더멘털의 뚜렷한 변화가 발생하지 않았음에도 불구하고 가격이 크게 변동하는 것을 발견할 수 있는데, 이때 새로운 뉴스의 출현이 가격변동의 중요한 원인으로 종종 작용하곤 한다. 또한 그러한 뉴스는 현실 세계에 일어나는 각종 현상에 대한 설명과 미래의 정치, 경제,사회, 기업 등과 관련하여 앞으로 어떤 변화가 발생되고 진행되어 갈지 그에 대한 정보들을 포함하고 있기 때문이다. 그러므로 뉴스와 주가는 밀접한 관계를 가지고 있으며, 뉴스를 통해 시장 참가자들은 주식시장의 변동성을 일부나마 예측할 수 있게 된다. 한편, 최근에는 증권사, 언론사 등에서 제공되는 뉴스 정보 뿐만 아니라, 모바일 기기의 급격한 발전으로 인하여, 소셜 미디어 데이터, 예컨대 트위터(twitter), 증시 관련 개인 블로그(blog), 페이스북, 다양한 포털 사이트의 소셜 데이터 서비스 등에 의해서 제공되는 정보가 폭발적으로 증가하고 있다. 이와 같은 데이터는 뉴스 정보보다 매우 많은 양으로 시장 참가자들에게 유통되고 있며, 이에 대해 빅데이터라고 칭하고 있다. 그리고 상기 소셜 미디어 데이터는 개인의 주관적 관점으로 작성되어 있어 뉴스 정보보다 낮은 신뢰성을 가진다는 측면이 있으나, 소셜 미디어 데이터가 빅데이터급으로 제공되므로, 이 데이터를 통해 시장 참가자들의 주식시장, 특히 개별 종목에 대한 반응이 상당 정도의 객관성을 갖고 도출될 뿐만 아니라, 개별 종목의 향후 전망도 타당성을 가질 수 있는 정도에 이르렀다. 그런데, 상기 주가에 영향을 미치는 펀더멘털 요인들은 너무나도 다양하고 복잡하며 이러한 요인들이 소셜 미디어 데이터, 뉴스와 주가에 영향을 미치고 소셜 미디어 데이터 등은 다시 주가에 영향을 미치는 식의 순환이 발생하기도 한다.
그러면, 상기와 같은 종래 소셜미디어를 이용한 감성지수 산출방법을 도 1을 참고로 살펴보면, 인터넷 사이트나 소설미디어를 통해 설정된 단어가 노출된 빅데이터들을 요일별로 수집하여 저장하는 제1 단계(S1)와;
상기 제1 단계(S1)에 의해 수집된 빅데이터들을 분류하고 그 분류된 빅데이터내에 포함된 특정 키워드들을 분석한 다음 해당 키워드의 노출빈도를 분석하는 제2 단계(S2)와;
상기 제3 단계(S2)에 의해 분석된 설정 키워드(주식종목 포함)들의 노출빈도에 따라 점수를 부여하여 감성지수를 산출하고 이 감성지수를 가공하여 설정된 고객에게 제공하는 제3 단계(S3)을 포함하여 구성된다.
즉, 상기와 같은 종래 소셜미디어를 이용한 감성지수 산출방법은 포털과 같은 인터넷 사이트나 쇼설미디어(SNS)를 통해 설정된 단어가 노출된 빅데이터들 예컨대, 삼성전자의 재판 혹은 기업매출기사 등을 요일별로 수집하여 DB에 저장시킨다. 그리고 상기와 같이 수집된 빅데이터들을 분류하고 그 분류된 빅데이터내에 포함된 특정 키워드들을 분석한 다음 해당 키워드의 노출빈도를 분석하는데, 예컨대, 삼성전자의 매출증가뉴스인지 혹은 삼성전자의 공장에 화재가 발생한 뉴스인지를 분석한다. 또한 상기와 같이 분석된 설정 키워드(주식종목 포함)들의 노출빈도에 따라 점수를 부여하여 감성지수를 산출하고 예컨대, 삼성전자의 해당 키워드가 부정적인 것과 긍정적인 것을 누산하여 각각 점수를 부여한후 감성지수를 산출하고 그 산출된 감성지수를 가공하여 설정된 고객의 단말기로 서비스해주게 된다.
그러나, 상기와 같은 종래 쇼셜미디어를 이용한 감성지수 산출방법은 요일의 편차에 관계없이 단순하게 부정적인 키워드와 긍정적인 키워드에 스코어를 부여하여 감성지수를 산출하는 방식이기 때문에 감성지수가 민감하게 반응하므로 예컨대, 통상 휴일에 쌓여있던 빅데이터가 월요일에 다량으로 쏟아져 발생되는 월요일의 빅데이터 폭주에 대한 보정이 없어 감성지수를 정확하게 산출하는 것이 매우 어려웠으며, 뿐만아니라, 상기와 같이 부정확한 감성지수의 분포를 등간격으로 예컨대, 등간격으로 7등분하여 감성레벨을 산출하게되는데, 이때, 이상치에 민감하게 반응하기 때문에 감성레벨지수의 산출이 매우 부정확하게 나타난다는 문제점이 발생되었다.
이에 본 발명은 상기와 같은 종래기술의 문제점을 해결하기위해 발명된 것으로, 휴일효과를 제거하는 방식으로 감성 평가 데이터에서 산출오류를 보정한 후 감성평가지수를 산출함으로써, 객관적이면서도 유의미한 감성평가지수를 추출할 수 있는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템 및 그 제어방법을 제공함에 그 목적이 있다.
본 발명의 또 다른 목적은 감성레벨 산출시 기본값 변경 및 이상치를 제거하는 로직으로 감성 레벨을 표준화하므로써, 시장 참가자들의 다양한 견해로부터 개별 종목에 대한 시장 분위기 및 정보를 보다 객관적이면서 유의미하게 추출할 수 있는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템 및 그 제어방법을 제공하는데 있다.
상기와 같은 목적을 달성하기위한 본 발명은 각종 정보수집매체로부터 소셜 미디어 데이터와 증시 관련 웹데이터를 크롤링하고 그 크롤링된 데이터들을 평일 및 휴일에 따라 구분한다음 대량의 제1 가공대상문서를 수집하는 수집엔진모듈과;
상기 수집엔진모듈에 의해 휴일 및 평일에 따라 구분하여 수집된 대량의 제1 가공대상문서를 저장하는 DB모듈과;
상기 수집엔진모듈에 의해 수집된 소셜 미디어 데이터와 증시 관련 웹데이터로부터 휴일효과가 제거된 유의미한 감성평가지수와 표준화된 감성 레벨 데이터를 산출하는 전과정을 제어하고 그 결과로서 주가 감성평가지수 분석정보의 산출을 제어하는 제어모듈과;
상기 제어모듈의 기능제어하에 크롤딩된 소셜 미디어 데이터와 증시 관련 웹데이터를 포함하여 수집된 상기 제1 가공대상문서의 데이터를 휴일 효과를 제거하기위해 일자별 가중치를 활용하여 개선된 감성점수을 산출함과 더불어 상기 감성점수의 분포를 이용하여 이상치가 제거된 표준화한 감성레벨(또는 시장심리지수)을 산출분석하는 분석엔진모듈과;
상기 제어모듈의 기능제어하에 분석엔진모듈에 의해 휴일효과가 제거된 유의미한 감성평가지수와 표준화된 감성 레벨 데이터를 이용하여 설정된 기간의 SMD 분석정보와, 수집량의 트랜드 분석정보(이슈 종목 분석 포함) 및 표준화를 통한 종목간 비교정보를 통해 서비스결과조회화면을 구성한후 설정된 고객단말기나 인터넷정보로 전송시키는 결과산출모듈을 포함하는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템을 제공한다.
또한 본 발명의 또 다른 특징은 수집엔진모듈이 제어모듈의 기능제어하에 각종 정보수집매체로부터 소셜 미디어 데이터와 증시 관련 웹데이터를 크롤링하고 그 크롤링된 데이터들을 평일 및 휴일에 따라 구분한다음 대량의 제1 가공대상문서를 수집하는 제1 과정과;
상기 제1 과정후에 DB모듈이 제어모듈의 기능제어하에 수집엔진모듈에 의해 휴일 및 평일에 따라 구분하여 수집된 대량의 제1 가공대상문서를 저장하는 제2 과정과;
상기 제2 과정후에 분석엔진모듈이 제어모듈의 기능제어하에 크롤딩된 소셜 미디어 데이터와 증시 관련 웹데이터를 포함하여 수집된 상기 제1 가공대상문서의 데이터를 휴일 효과를 제거하기위해 일자별 가중치를 활용하여 개선된 감성점수을 산출함과 더불어 상기 감성점수의 분포를 이용하여 이상치가 제거된 표준화한 감성레벨(시장심리지수 포함)을 산출분석하는 제3 과정과;
상기 제3 과정후에 결과산출모듈이 제어모듈의 기능제어하에 분석엔진모듈에 의해 휴일효과가 제거된 유의미한 감성평가지수와 표준화된 감성 레벨 데이터를 이용하여 설정된 기간의 SMD 분석정보와, 수집량의 트랜드 분석정보(이슈 종목 분석) 및 표준화를 통한 종목간 비교정보를 통해 서비스결과조회화면을 구성한후 설정된 고객단말기나 인터넷정보로 전송시키는 제4 과정을 포함하는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템의 제어방법을 제공한다.
상기와 같은 본 발명에 의하면, 소셜 데이터 및 뉴스를 포함한 대량의 데이터를 스케일한후 평일 및 휴일의 스코어비율에 따라 가중치를 부여하여 감성평가지수를 산출함으로써, 휴일효과를 제거하는 방식으로 감성 평가 데이터에서 산출오류를 보정해주기 때문에 객관적이면서도 유의미한 감성평가지수를 추출할 수 하므로 그에 따라 신뢰성있는 최적의 감성레벨정보를 제공하는 효과가 있다.
또한 상기와 같은 본 발명은 감성레벨 산출시 기본값 변경 및 이상치를 제거하는 로직으로 감성 레벨을 표준화하므로써, 시장 참가자들의 다양한 견해로부터 개별 종목에 대한 시장 분위기 및 정보를 보다 객관적이면서 유의미하게 추출할 수 있는 효과도 있다.
도 1은 종래 쇼셜미디어를 이용한 감성지수 산출방법의 일례를 설명하는 설명도.
도 2는 종래 산출방법에 의해 구현된 일례를 설명하는 설명도.
도 3은 본 발명의 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템을 설명하는 설명도.
도 4는 본 발명에 따른 감성분석의 일례를 설명하는 설명도.
도 5는 본 발명에 따른 감성레벨정보를 제공하는 화면의 일례를 설명하는 설명도.
도 6은 본 발명의 플로우차트.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
이하, 본 발명의 실시예에 대해 관련 도면들을 참조하여 상세히 설명하기로 한다.
도 3은 본 발명의 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템을 설명하는 설명도이고, 도 4는 본 발명에 따른 감성분석의 일례를 설명하는 설명도이며, 도 5는 본 발명에 따른 감성레벨정보를 제공하는 화면의 일례를 설명하는 설명도이고, 도 6은 본 발명의 플로우차트이다.
상기 도 3을 참조하면, 각종 정보수집매체(1) 예컨대, 각종 포털사이트, 블로그, 증권정보 제공사이트 및 트위터나 페이스북을 포함한 SNS로부터 소셜 미디어 데이터와 증시 관련 웹데이터를 크롤링하고 그 크롤링된 데이터들을 평일 및 휴일에 따라 구분한다음 대량의 제1 가공대상문서를 수집하는 수집엔진모듈(2)과;
상기 수집엔진모듈(2)에 의해 휴일 및 평일에 따라 구분하여 수집된 대량의 제1 가공대상문서를 저장하는 DB모듈(3)과;
상기 수집엔진모듈(2)에 의해 수집된 소셜 미디어 데이터와 증시 관련 웹데이터로부터 휴일효과가 제거된 유의미한 감성평가지수와 표준화된 감성 레벨 데이터를 산출하는 전과정을 제어하고 그 결과로서 주가 감성평가지수 분석정보의 산출을 제어하는 제어모듈(4)과;
상기 제어모듈(4)의 기능제어하에 크롤딩된 소셜 미디어 데이터와 증시 관련 웹데이터를 포함하여 수집된 상기 제1 가공대상문서의 데이터를 휴일 효과를 제거하기위해 수학식1에 넣어 일자별 가중치를 활용하여 개선된 감성점수을 산출함과 더불어 상기 감성점수의 분포를 이용하여 수학식 2에 의해 이상치가 제거된 표준화한 감성레벨(또는 시장심리지수)을 산출분석하는 분석엔진모듈(5)과;
상기 제어모듈(4)의 기능제어하에 분석엔진모듈(5)에 의해 휴일효과가 제거된 유의미한 감성평가지수와 표준화된 감성 레벨 데이터를 이용하여 설정된 기간 예컨대, 최근 2주간의 SMD 분석정보와, 수집량의 트랜드 분석정보(이슈 종목 분석) 및 표준화를 통한 종목간 비교정보를 통해 서비스결과조회화면을 구성한후 설정된 고객단말기나 인터넷정보로 전송시키는 결과산출모듈(6)을 포함하여 구성된다.
여기서, 본원발명에 적용되는 수학식 1은 하기와 같다.
[수학식 1]
1.선형회귀를 통해 스케일링 변수 산출
Figure 112017107292733-pat00001
2. x=1을 기준으로 스케일링
Figure 112017107292733-pat00002
X=직전영업일까지의 일수(직전영업일-당일)
Y=총 수집 원문건수
Z=감성점수
Figure 112017107292733-pat00003
또한, 본원발명에 적용되는 수학식 2도 하기와 같다.
[수학식 2]
Figure 112017107292733-pat00004
Figure 112017107292733-pat00005
1. IQR를 사용한 Outlier 삭제
Figure 112017107292733-pat00006
Figure 112017107292733-pat00007
상기 분석엔진모듈(5)에는 휴일 후 평일에 상기 가공대상문서를 수집할 경우 휴일의 수집 건수가 포함되어 평일보다 건수가 2~3배 많아지기 때문에 이를 보정하기위해 수학식 1을 활용하여 최근 한달 간의 주중/휴일 수집 건수 비율로 상기 가공대상문서를 스케일링한 후 감성점수에 가중치를 곱하여 최종 감성점수를 산출하는 가중치부여모듈(7)과; 상기 감성점수의 분포를 수학식 2를 활용하여 등간격으로 7등분한후 발생된 이상치를 제거하여 최종 감성레벨을 산출하는 이상치제거모듈(8)을 포함한다.
또한 상기 분석엔진모듈(5)에는 크롤딩된 소셜 미디어 데이터와 증시 관련 웹데이터를 포함하여 수집된 상기 가공대상문서에 포함된 표현 내지 문장에 대하여 형태소를 분석하는 형태소분석부(9)와; 상기 형태소분석부(9)에 의해 분석된 형태소에서 추출된 키워드마다 긍정 및 부정 중 어느 하나로 감성 평가함으로써 복수의 가공대상문서 전체에 대한 감성을 평가하여 복수의 가공대상문서 전체의 데이터를 분석하는 데이터 분석부(10)를 더 포함한다.
한편, 상기 수집엔진모듈(2)에는 소셜 미디어 데이터와 증시 관련 웹데이터로부터 적어도 하나의 개별 종목에 영향을 미치는 일반 키워드와 관련된 복수의 제1 가공대상문서를 수집할 수 있다. 그리고 상기 설명한 바와 같이 감성 분석을 위해, DB모듈(3)은 수집된 제1 가공대상문서를 설정된 분류법에 따라 저장하고, 상기 형태소 분석부(9)는 제1 가공대상문서에 포함된 표현 내지는 문장에 대하여 형태소를 분석한다. 또한, 상기 데이터 분석부(10)는 분석된 형태소에서 추출된 키워드마다 긍정 및 부정 중 어느 하나로 감성 평가함으로써 복수의 제1 가공대상문서 전체에 대한 감성을 평가하여 복수의 문서 전체의 데이터를 분석하게 된다. 또한 상기 수집엔진모듈(2)에는 각종 정보수집매체(1) 예컨대, 각종 포털사이트, 블로그, 증권정보 제공사이트 및 트위터나 페이스북을 포함한 SNS로부터 검색되는 소셜 미디어 데이터와 증시 관련 웹데이터로부터 적어도 하나의 개별 종목과 관련된 대량의 문서를 수집하고, 증시 지표 데이터들을 수집받는다. 여기서, 상기 개별 종목은 증시에 상장된 기업이고, 수집되는 문서는 html, PDF(Portable Document Format), 이미지 및 동영상 중 적어도 하나의 형태로 구현될 수 있다. 그리고 상기 소셜 미디어 데이터는 인터넷 등의 네트워크와 접속되는 고정형 컴퓨터 또는 모바일 기기를 통해 입력되는 미디어 데이터로서, 네트워크와 접속된 다른 사용자와 상호 공유될 수 있는 데이터이다. 예컨대, 상기 소셜 미디어 데이터는 소셜 미디어 서버에서 운영하는 소셜 미디어 사이트들 및 다양한 포털 사이트 등에서 운영하며 개인화된 컨텐츠가 포함된 블로그 사이트들 일 수 있다. 또한 상기 소셜 미디어 사이트들은 소위 SNS로서, 트위터(twitter), 페이스북(facebook), 다양한 포털 사이트에서 서비스하는 소셜 미디어일 수 있다. 더나아가, 상기 증시 관련 웹데이터는 언론사, 공중파 방송사, 케이블 방송사, 포털 사이트 뉴스, 금융사, 증시 관련 기관 등으로부터 제공되는 웹데이터로서, 상기 소셜 미디어 데이터에 비해 전문적이거나 공신력있는 증시 관련 데이터이다. 이러한 증시 관련 웹데이터는 언론사, 방송사, 포털 사이트 뉴스로부터 서비스되는 증시 관련 뉴스 사이트들, 은행, 증권사, 보험 등의 금융사에서 증시와 관련하여 서비스되는 금융사 포털 사이트들 및 증시 관련 공공 기관 또는 사설 기관에서 증시와 관련된 분석 정보를 제공하는 증시 관련 사이트들을 포함한다. 그리고 상기 증시 지표 사이트들은 주식에 상장된 개별 종목마다의 주식 정보로서, 예컨대 시가, 고가, 저가, 종가, 호가, 체결 여부, 거래량, 거래 대금, 거래원, 상한가, 하한가, 신고가, 신저가 등을 포함할 수 있다. 그에 더하여 상기 소셜 미디어 데이터 및 증시 관련 웹데이터로부터 대량의 문서를 수집하는 경우에, 상기 수집엔진모듈(2)은 모든 문서를 수집하는 것이 아니라, 키워드 데이터베이스를 참조하여 적어도 하나의 개별 종목과 관련된 문서를 수집하는 것이다. 여기서, 상기 키워드 데이터베이스는 개별 종목에 해당하는 기업마다 카테고리화되어 있는 키워드 군을 포함할 수 있으며, 개별 종목의 기업명과 관련된 메인 키워드와 아울러서, 기업에서 출시하는 상품, 서비스에 관한 제품/서비스 관련 키워드, 기업의 경영진 등에 관한 인적 관련 키워드 및 개별 종목에 영향을 미칠 수 있는 단어, 컨텍스트에 관한 기업 상황 관련 키워드 등을 포함하는 서브 키워드를 저장할 수 있다. 이때, 상기 서브 키워드는 해당 기업 특유의 단어, 컨텍스트 등으로서, 해당 기업마다 분류되어 카테고리화된 형태로 존재할 수 있다. 예컨대, 상기 메인 키워드는 삼성전자, 엘지전자, KT 등과 같이 증시에 상장된 개별 종목의 기업명일 수 있으며, 삼성전자의 경우에 제품/서비스 관련 키워드는 "갤럭시", "스마트폰", "하우젠", "태블릿", "앱 마켓" 등일 수 있으며, 인적 관련 키워드는 삼성전자의 주요 임원진, 삼성전가와 거래하는 기업의 임원진 등일 수 있으며, 기업 상황 관련 키워드는 삼성전자의 주가에 영향을 미칠 수 있는 단어 등으로서, "사상최대", "실적", "호조", "애플", "불만", "악화" 등으로 다양한 단어를 포함할 수 있다.
한편, 상기 수집엔진모듈(2)은 수집된 복수의 제1 가공대상문서에 포함된 표현에서 키워드 중 메인 키워드, 제품/서비스 관련 키워드 및 인적 관련 키워드가 포함되는 문서들을 추출함으로써, 감성 평가에 적합한 문서 데이터를 효율적으로 선정할 수 있다. 이때, 상기 DB모듈(3)은 형태소 분석에 적합한 형태로 추출된 문서들을 저장할 수 있으며, 예컨대 개별 종목 그룹마다 추출된 문서들의 포맷 별, 즉 html, pdf, 이미지 및 동영상 등으로 분산 저장될 수 있다. 이 과정에서 상기 형태소 분석부(9)는 감성 평가에 적합한 형태로 처리하기 위한 전처리로서, 저장된 복수의 제1 가공대상문서의 포맷에 대하여 의미를 갖는 최소의 언어 단위인 형태소를 분석하여 각 품사를 특정하는 처리를 수행한다. 이 경우에, 상기 형태소 분석부(9)는 포맷마다 적합한 처리를 통해, 각 포맷에 대하여 병렬적으로 형태소 분석을 진행할 수 있다. 아울러, 상기 형태소 분석부(9)는 문서의 포맷에 포함된 표현에서 문장, 컨텍스트 등을 어절 단위로 분류하고, 개별 종목과 관련된 키워드에 인접한 키워드들을 파싱(parsing)할 수 있다. 예컨대, 특정인의 블로그 사이트에서 삼성전자와 관련된 문장 및 엘지전자와 관련된 문장이 함께 존재하는 경우에, 형태소 분석부(9)는 문장 구조, 접속 구조, 구문 등을 고려하여 블로그 사이트의 텍스트를 어절 단위로 분류하고, 이후에 삼성전자 또는 엘지전자의 명칭, 상품/서비스, 인적 사항 등의 키워드를 검색하여, 이에 인접한 단어, 구문들을 파싱하고, 삼성전자 및 엘지전자 별 키워드들로 분류하여 저장한다. 그리고 상기 형태소 분석부(9)에는 상기 형태소 분석부(9)에서 처리된 키워드마다 긍정 및 부정 중 어느 하나로 감성 평가함으로써 복수의 제1 가공대상문서 전체에 대한 감성을 평가하는 데이터 감성 평가부(11) 및 형태소 분석부(9)에서 처리된 키워드를 통계 처리하는 키워드 분석부(13)를 더 포함할 수 있다. 한편, 상기 데이터 감성 평가부(11)는 형태소 분석부(9)로부터의 키워드마다 긍정, 중립 또는 부정에 대한 평가 및 이 평가와 연계된 스코어를 저장하는 DB모듈(3)의 감성사전DB(12)을 참조하여, 추출된 키워드에 대하여 긍정, 중립 및 부정 중 어느 하나로 평가함과 아울러서 스코어링한다.
이때, 상기 스코어링 알고리즘은 Naive bayes 알고리즘, Simple voter 알고리즘, KNN(K Nearest Neighborhood), SVM(Support Vector Machine) 일 수 있다. 예컨대, 상기 감성사전DB(12)의 스코어링 알고리즘중 Simple voter 알고리즘을 참고로 스코어링을 설명하면, 이 Simple voter 알고리즘은 키워드에 대한 감성 평가로서 긍정, 중립, 부정마다의 키워드를 테이블 형태로 저장할 수 있다.
이러한 감성 평가와 관련된 키워드의 품사의 대부분은 명사, 형용사로 구성될 수 있다. 예컨대 상기 긍정 평가의 테이블에서는 "상승", "사상최대", "오르다" 등의 키워드가 존재하고, 각 키워드에 부여되는 스코어 "1"이다. 또한, 상기 부정 평가의 테이블에서는 "불황", "내리다", "불만" 등의 키워드가 존재하고, 각 키워드에 부여되는 스코어 "-1"이다. 또한 상기 중립 평가 테이블에 저장된 키워드에 부여되는 스코어는 "0"이다.
여기서, 상기 스코어는 긍정과 부정을 구별하기 위한 것으로 예시되고 있으나, 이와는 달리, 긍정 또는 부정 평가와 연계된 스코어는 시장 참가자들이 해당 키워드에 느끼는 감성의 정도에 따라, 해당 키워드의 가중치를 달리하여 서로 다른 스코어로 구성될 수 있다. 그리고 상기 데이터 감성 평가부(11)는 감성사전DB(12)에 의해 긍정, 중립 및 부정으로 판별된 키워드마다 부여된 스코어를 합산하여 복수의 제1 가공대상문서 전체에 대한 감성 지수와 같은 감성 관련 평가 데이터를 산출할 수 있다. 여기서, 상기 데이터 감성 평가부(11)는 모든 문서의 키워드에 대하여 감성 평가를 수행한 후, 문서별로 긍정, 중립, 부정의 평가를 수행하지 않는데, 만약 문서의 감성 뉘앙스를 파악하기 위해 문서 별로 감성 평가를 수행하는 경우, 어떤 문서는 다른 문서에 비해 부정적으로 평가된 키워드가 훨씬 많이 존재함에도 불구하고, 각 문서가 동등한 스코어의 부정 평가를 받을 수 있다.
따라서, 상기 데이터 감성 평가부(11)는 소셜 미디어 데이터 및 증시 관련 웹데이터로부터 추출된 복수의 제1 가공대상문서 전체로부터 존재하는 개별 종목의 긍정 또는 부정 요소에 대한 비율이 왜곡되게 분석될 수 있다. 그러므로, 본 실시예에서는 복수의 제1 가공대상문서 전체로부터 형태소 분석된 키워드들을 문서별로 그룹핑없이, 감성 평가를 수행함으로써, 분석의 왜곡을 방지할 수 있다. 또한, 상기 키워드 분석부(13)는 형태소 분석부(9)로부터 분석된 키워드들에 대하여 기간별 수집 건수, 각 키워드 간의 상관 분석 등의 통계 분석을 수행하여 그 결과를 결과산출모듈(6)로 전달하게 된다. 또한, 상기 키워드 분석부(13)는 분석된 키워드들 중 키워드 DB(14)에 등록되지 않은 키워드를 선별하고, 신규로 선별된 키워드는 키워드 DB(14)에 갱신 저장하므로써, 상기 수집엔진모듈(2)에서 수행되는 문서 수집의 정확성을 향상시킬 수 있으며, 관리자는 신규의 키워드 중 감성 평가에 반영할 키워드에 대해서는 감성사전 DB(12)에 저장시킬 수 있다.
한편, 상기 결과산출모듈(6)은 누적된 감성 평가 데이터 중 소정의 조건에 의해 선택된 감성 관련 평가 데이터와 함께, 증시 지표 데이터와 경제 지표 데이터 간의 상관 관계로부터의 분석 데이터를 생성하게 된다. 즉, 상기 결과산출모듈(6)은 도 4 및 도 5에 도시된 바와같이 분석엔진모듈(5)에 의해 휴일효과가 제거된 유의미한 감성평가지수와 표준화된 감성 레벨 데이터를 이용하여 설정된 기간 예컨대, 최근 2주간의 SMD 분석정보와, 수집량의 트랜드 분석정보(이슈 종목 분석) 및 표준화를 통한 종목간 비교정보를 통해 서비스결과 조회화면을 구성한후 설정된 고객단말기나 전자주소로 전송하게되는데, 이때, 상기 감성레벨(시장심리지수)은 가중치가 부여되어 휴일효과가 제거된 감성지수를 이용하여 산출하되, 총 7단계(매우 좋음 ~ 매우 나쁨)의 레벨로 구분되어지고, 시장별, 종목별 수집건수, 감성점수, 감성레벨, 버즈워드(이슈 단어) 등을 제공할 수 있다.
다음에는 상기와 같은 구성으로 된 본 발명의 제어방법을 설명한다.
본 발명의 방법은 도 6에 도시된 바와같이 수집엔진모듈이 제어모듈의 기능제어하에 각종 정보수집매체로부터 소셜 미디어 데이터와 증시 관련 웹데이터를 크롤링하고 그 크롤링된 데이터들을 평일 및 휴일에 따라 구분한다음 대량의 제1 가공대상문서를 수집하는 제1 과정(S1)과;
상기 제1 과정(S1)후에 DB모듈이 제어모듈(4)의 기능제어하에 수집엔진모듈에 의해 휴일 및 평일에 따라 구분하여 수집된 대량의 제1 가공대상문서를 저장하는 제2 과정(S2)과;
상기 제2 과정(S2)후에 분석엔진모듈이 제어모듈의 기능제어하에 크롤딩된 소셜 미디어 데이터와 증시 관련 웹데이터를 포함하여 수집된 상기 제1 가공대상문서의 데이터를 휴일 효과를 제거하기위해 수학식1에 넣어 일자별 가중치를 활용하여 개선된 감성점수을 산출함과 더불어 상기 감성점수의 분포를 이용하여 수학식 2에 의해 이상치가 제거된 표준화한 감성레벨(시장심리지수 포함)을 산출분석하는 제3 과정(S3)과;
상기 제3 과정(S3)후에 결과산출모듈이 제어모듈의 기능제어하에 분석엔진모듈에 의해 휴일효과가 제거된 유의미한 감성평가지수와 표준화된 감성 레벨 데이터를 이용하여 설정된 기간 예컨대, 최근 2주간의 SMD 분석정보와, 수집량의 트랜드 분석정보(이슈 종목 분석) 및 표준화를 통한 종목간 비교정보를 통해 서비스결과조회화면을 구성한후 설정된 고객단말기나 인터넷정보로 전송시키는 제4 과정(S4)을 포함하여 구성된다.
여기서, 상기 수학식 1은 하기와 같다.
[수학식 1]
1.선형회귀를 통해 스케일링 변수 산출
Figure 112017107292733-pat00008
2. x=1을 기준으로 스케일링
Figure 112017107292733-pat00009
X=직전영업일까지의 일수(직전영업일-당일)
Y=총 수집 원문건수
Z=감성점수
Figure 112017107292733-pat00010
또한 상기 수학식 2는 하기와 같다.
[수학식 2]
Figure 112017107292733-pat00011
Figure 112017107292733-pat00012
1. IQR를 사용한 Outlier 삭제
Figure 112017107292733-pat00013
Figure 112017107292733-pat00014
한편, 상기 제1 과정(S1)에는 수집엔진모듈이 제어모듈의 기능제어하에 각종 포털사이트, 블로그, 증권정보 제공사이트 및 트위터나 페이스북을 포함한 SNS가 포함되는 각종 정보수집매체로 부터 검색되는 소셜 미디어 데이터와 증시 관련 웹데이터로부터 적어도 하나의 개별 종목과 관련된 대량의 문서를 수집하고, 증시 지표 데이터들을 수집받는 데이터정밀수집단계를 더 포함한다.
또한 상기 제3 과정(S3)에는 분석엔진모듈이 제어모듈의 기능제어하에 가중치부여모듈을 통해 휴일 후 평일에 가공대상문서를 수집할 시 발생되는 에러를 보정하기위해 상기 수학식 1을 활용하여 최근 한달 간의 주중/휴일 수집 건수 비율로 상기 가공대상문서를 스케일링한 후 감성점수에 가중치를 곱하여 최종 감성점수를 산출하는 최종 감성점수 산출단계를 더 포함한다. 또한 상기 제3 과정(S3)에는 분석엔진모듈이 제어모듈의 기능제어하에 이상치제거모듈을 통해 상기 최종 감성점수 산출단계에 의해 산출된 감성점수의 분포를 상기 수학식 2를 활용하여 등간격으로 설정된 등분을 한후 발생된 이상치를 제거하여 최종 감성레벨을 산출하는 최종 감성레벨 산출단계를 더 포함한다. 더 나아가, 상기 제3 과정(S3)에는 분석엔진모듈이 제어모듈의 기능제어하에 형태소분석부를 통해 크롤딩된 소셜 미디어 데이터와 증시 관련 웹데이터를 포함하여 수집된 상기 가공대상문서에 포함된 표현 내지 문장에 대하여 형태소를 분석하는 형태소분석단계와, 상기 형태소분석단계에 의해 분석된 형태소에서 추출된 키워드마다 긍정 및 부정 중 어느 하나로 감성 평가할 경우 데이터 분석부를 통해 수학식 1을 이용하여 휴일효과를 제거한후 복수의 제1 가공대상문서 전체에 대한 감성을 평가하여 복수의 문서 전체의 데이터를 분석하는 휴일효과제거단계를 더 포함한다.
그리고, 상기 제4 과정(S4)에는 결과산출모듈이 제어모듈의 기능제어하에 휴일효과가 제거된 상태하에서 누적된 감성 평가 데이터 중 소정의 조건에 의해 선택된 감성 관련 평가 데이터와 함께, 증시 지표 데이터와 경제 지표 데이터 간의 상관 관계로부터의 분석 데이터를 생성하는 분석데이터 결과산출단계를 더 포함한다.
환언하면, 본발명의 방법은 먼저, 수집엔진모듈(2)이 제어모듈(4)의 기능제어하에 각종 정보수집매체(1)로부터 소셜 미디어 데이터와 증시 관련 웹데이터를 크롤링하고 그 크롤링된 데이터들을 평일 및 휴일에 따라 구분한 다음 대량의 제1 가공대상문서를 수집한다. 그리고 상기 제어모듈(4)의 기능제어하에 DB모듈(3)이 수집엔진모듈(2)에 의해 휴일 및 평일에 따라 구분하여 수집된 대량의 제1 가공대상문서를 저장한다. 그러면, 상기 제어모듈(4)의 기능제어하에 분석엔진모듈(5)이 크롤딩된 소셜 미디어 데이터와 증시 관련 웹데이터를 포함하여 수집된 상기 제1 가공대상문서의 데이터를 휴일 효과를 제거하기위해 수학식1에 넣어 일자별 가중치를 활용하여 개선된 감성점수을 산출한다. 또한 상기 분석엔진모듈(5)은 상기 전과정에서 산출한 감성지수의 분포를 이용하여 수학식 2에 의해 산출된 데이터내에 발생된 이상치를 제거한다음 이상치가 제거된 표준화한 감성레벨(또는 시장심리지수)을 산출분석하게 된다. 더 나아가, 상기 제어모듈(4)의 기능제어하에 결과산출모듈(6)은 도 4 및 도 5에 도시된 바와같이 분석엔진모듈(5)에 의해 휴일효과가 제거된 유의미한 감성평가지수와 표준화된 감성 레벨 데이터를 이용하여 설정된 기간 예컨대, 최근 2주간의 SMD 분석정보와, 수집량의 트랜드 분석정보(이슈 종목 분석) 및 표준화를 통한 종목간 비교정보를 통해 서비스결과조회화면을 구성한후 설정된 고객단말기나 인터넷정보로 전송시키게된다.
여기서, 상기 빅데이터 수집과정을 좀 더 구체적으로 살펴보면, 상기 수집엔진모듈(2)은 제어모듈(4)의 기능제어하에 각종 포털사이트, 블로그, 증권정보 제공사이트 및 트위터나 페이스북을 포함한 SNS가 포함되는 각종 정보수집매체(1)로 부터 검색되는 소셜 미디어 데이터와 증시 관련 웹데이터로부터 적어도 하나의 개별 종목과 관련된 대량의 문서를 수집하고, 증시 지표 데이터들을 수집할 수 있다.
이에 더하여, 상기 분석엔진모듈(5)에 의해 처리되는 분석과정을 좀 더 구체적으로 설명하면, 상기 분석엔진모듈(5)은 제어모듈(4)의 기능제어하에 형태소분석부(9)를 통해 크롤딩된 소셜 미디어 데이터와 증시 관련 웹데이터를 포함하여 수집된 상기 가공대상문서에 포함된 표현 내지 문장에 대하여 형태소를 분석한다. 그리고 상기 분석엔진모듈(5)은 또한 데이터 분석부(10)를 통해 상기 형태소분석단계에 의해 분석된 형태소에서 추출된 키워드마다 긍정 및 부정 중 어느 하나로 감성 평가할 경우수학식 1을 이용하여 휴일효과를 제거한후 복수의 제1 가공대상문서 전체에 대한 감성을 평가하여 복수의 문서 전체의 데이터를 분석하게 된다.
더 나아가, 상기 분석엔진모듈(5)은 제어모듈(4)의 기능제어하에 가중치부여모듈(7)을 통해 휴일 후 평일에 가공대상문서를 수집할 시 발생되는 에러를 보정하기위해 상기 수학식 1을 활용하여 최근 한달 간의 주중/휴일 수집 건수 비율로 상기 가공대상문서를 스케일링한 후 감성점수에 가중치를 곱하여 최종 감성점수를 산출할 수 있다. 또한 상기 분석엔진모듈(5)은 제어모듈(4)의 기능제어하에 이상치제거모듈(8)을 통해 상기 최종 감성점수 산출단계에 의해 산출된 감성점수의 분포를 상기 수학식 2를 활용하여 등간격으로 설정된 등분 예컨대, 7등분을 한후 그 7등분된 감성지수내에 이상치가 발생하는지를 확인한후 만약 이상치가 발생될 경우 그 이상치를 제거하여 최종 감성레벨을 산출하게된다.
그리고, 상기 결과산출모듈(6)은 제어모듈(4)의 기능제어하에 휴일효과가 제거된 상태하에서 누적된 감성 평가 데이터 중 소정의 조건에 의해 선택된 감성 관련 평가 데이터와 함께, 증시 지표 데이터와 경제 지표 데이터 간의 상관 관계로부터의 분석 데이터를 생성한다.
여기서, 상기 분석엔진모듈(5)이 최종 감성레벨을 산출하는 과정을 좀 더 구체적으로 예를 들어 설명하면 다음과 같다.
상기 감성레벨 산출을 위해서는 산출일 당일 원문수집량, 감성분석 데이터와 이전 30일 간의 원문수집량, 감성분석 데이터가 필요하며, 10월 16일의 A란 종목의 감성레벨 산출을 위해서 참조하는 데이터를 아래 표1과 같다고 가정한다.
[표 1]
Figure 112017107292733-pat00015
먼저, 분석엔진모듈(5)은 최종 감성점수를 산출하기 위해 가중치부여모듈(6)을 사용하여 수학식 1의 선형회귀를 통해 기울기와 y절편을 산출한다. 이 때, 참조되는 데이터의 일자범위는 분석일 당일을 제외한 과거 30일의 데이터를 사용한다. 이에 따라, 산출된 기울기와 y절편은 다음과 같다.
Figure 112017107292733-pat00016
,
Figure 112017107292733-pat00017
상기와 같이 산출한 기울기와 y절편 값을 사용하여 가중치부여모듈(6)은 상기 수학식 1의 가중치 부여식을 사용하여 최종 감성점수를 산출하며, 그 결과는 아래 표2와 같다.
[표 2]
Figure 112017107292733-pat00018
다음으로 상기 분석엔진모듈(5)은 과거 30일의 데이터 중 이상치제거모듈(8)을 통해 이상치를 제거하며, 이 때 상기 수학식 2의 조건을 만족하는 감성점수만이 감성레벨을 산출하기 위한 분포를 추정하는 샘플 데이터로 사용된다. 예제에서 정상 데이터 범위는 아래와 같이 산출된다.
Figure 112017107292733-pat00019
,
Figure 112017107292733-pat00020
Figure 112017107292733-pat00021
이때 상기 이상치제거모듈(8)은 정상 데이터의 범위를 벗어나는 9월 19일과 10월 13일 결과는 이상치로 제거하게 되고, 분석엔진모듈(5)은 결과산출모듈(6)을 통해 다음 수학식 2의 감성레벨 산출식을 사용하여 감성레벨을 산출한다. 예제 데이터를 사용한 10월 16일의 A 종목의 감성레벨 산출은 아래와 같은 결과를 얻는다.
Figure 112017107292733-pat00022
,
Figure 112017107292733-pat00023
Figure 112017107292733-pat00024
Figure 112017107292733-pat00025
상기 결과에서 5.9를 반올림한 6이 분석엔진모듈(5)이 최종적으로 산출한 10월 16일 A종목의 감성레벨이 된다.
1 : 각종 정보수집매체 2 : 수집엔진모듈
3 : DB모듈 4 : 제어모듈
5 : 분석엔진모듈 6 ; 결과산출모듈
7 ;가중치부여모듈 8 : 이상치 제거모듈
9 :형태소분석부 10: 데이터 분석부
11: 데이터 감성 평가부 12: 감성사전DB
13: 키워드 분석부 14: 키워드 DB

Claims (11)

  1. 각종 정보수집매체로부터 소셜 미디어 데이터와 증시 관련 웹데이터를 크롤링하고 그 크롤링된 데이터들을 평일 및 휴일에 따라 구분하여 대량의 제1 가공대상문서로 생성하는 수집엔진모듈과;
    상기 수집엔진모듈에 의해 휴일 및 평일에 따라 구분하여 수집된 대량의 제1 가공대상문서를 저장하는 DB모듈과;
    상기 수집엔진모듈에 의해 수집된 소셜 미디어 데이터와 증시 관련 웹데이터를 포함하여 수집된 상기 제1 가공대상문서의 데이터로부터 휴일효과가 제거된 유의미한 감성평가지수와 표준화된 감성 레벨 데이터를 산출하는 전과정을 제어하고 그 결과로서 주가 감성평가지수 분석정보의 산출을 제어하는 제어모듈과;
    상기 제어모듈의 기능제어하에 크롤딩된 소셜 미디어 데이터와 증시 관련 웹데이터를 포함하여 수집된 상기 제1 가공대상문서의 데이터를 휴일 효과를 제거하기위해 한달 간의 주중/휴일 수집 건수 비율로 스케일링하여 감성점수를 산출한후 이 산출된 감성점수에 가중치를 곱하여 휴일효과가 제거된 감성점수을 산출하고, 상기 휴일효과가 제거된 감성점수에 대한 분포를 산출한후 상기 산출된 감성점수의 분포를 수학식 2를 활용하여 이상치의 발생여부를 확인하며, 상기 이상치의 발생여부의 확인결과에 따라 이상치를 제거한 표준화한 감성레벨(또는 시장심리지수)을 산출분석하는 분석엔진모듈과;
    상기 제어모듈의 기능제어하에 분석엔진모듈에 의해 휴일효과가 제거된 유의미한 감성평가지수와 표준화된 감성 레벨 데이터를 이용하여 설정된 기간의 SMD 분석정보와, 수집량의 트랜드 분석정보(이슈 종목 분석 포함) 및 표준화를 통한 종목간 비교정보를 통해 서비스결과조회화면을 구성한후 설정된 고객단말기나 인터넷정보로 전송시키는 결과산출모듈을 포함하여 구성하되;
    상기 분석엔진모듈은 수학식 2에 의해 표준화한 감성레벨을 산출하는 것을 특징으로 하는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템.
    [수학식 2]
    Figure 112019003308110-pat00046

    Figure 112019003308110-pat00047

    1. IQR를 사용한 Outlier 삭제
    Figure 112019003308110-pat00048

    Figure 112019003308110-pat00049
  2. 제1항에 있어서,
    상기 분석엔진모듈은 수학식 1에 의해 감성점수를 산출하는 것을 특징으로 하는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템.
    [수학식 1]
    1.선형회귀를 통해 스케일링 변수 산출
    Figure 112017107292733-pat00026

    2. x=1을 기준으로 스케일링
    Figure 112017107292733-pat00027

    X=직전영업일까지의 일수(직전영업일-당일)
    Y=총 수집 원문건수
    Z=감성점수
    Figure 112017107292733-pat00028
  3. 삭제
  4. 제2항에 있어서,
    상기 분석엔진모듈에는 휴일 후 평일에 상기 가공대상문서를 수집시 발생되는 에러를 보정하기위해 상기 수학식 1을 활용하여 최근 한달 간의 주중/휴일 수집 건수 비율로 상기 가공대상문서를 스케일링한 후 감성점수에 가중치를 곱하여 최종 감성점수를 산출하는 가중치부여모듈과;
    상기 감성점수의 분포를 상기 수학식 2를 활용하여 등간격으로 설정된 등분을 한후 발생된 이상치를 제거하여 최종 감성레벨을 산출하는 이상치제거모듈을 포함하는 것을 특징으로 하는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템.
  5. 제1항 또는 제2항에 있어서,
    상기 분석엔진모듈에는 크롤딩된 소셜 미디어 데이터와 증시 관련 웹데이터를 포함하여 수집된 상기 가공대상문서에 포함된 표현 내지 문장에 대하여 형태소를 분석하는 형태소분석부와; 상기 형태소분석부에 의해 분석된 형태소에서 추출된 키워드마다 긍정 및 부정 중 어느 하나로 감성 평가할 경우 수학식 1을 이용하여 휴일효과를 제거한후 복수의 제1 가공대상문서 전체에 대한 감성을 평가하여 복수의 문서 전체의 데이터를 분석하는 데이터 분석부를 더 포함하는 것을 특징으로 하는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템.
  6. 제1항에 있어서,
    상기 수집엔진모듈에는 각종 포털사이트, 블로그, 증권정보 제공사이트 및 트위터나 페이스북을 포함한 SNS가 포함되는 각종 정보수집매체로 부터 검색되는 소셜 미디어 데이터와 증시 관련 웹데이터로부터 적어도 하나의 개별 종목과 관련된 대량의 문서를 수집하고, 증시 지표 데이터들을 수집받는 것을 특징으로 하는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템.
  7. 제1항에 있어서,
    상기 결과산출모듈은 휴일효과가 제거된 상태하에서 누적된 감성 평가 데이터 중 소정의 조건에 의해 선택된 감성 관련 평가 데이터와 함께, 증시 지표 데이터와 경제 지표 데이터 간의 상관 관계로부터의 분석 데이터를 생성하는 것을 특징으로 하는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템.
  8. 수집엔진모듈이 제어모듈의 기능제어하에 각종 정보수집매체로부터 소셜 미디어 데이터와 증시 관련 웹데이터를 크롤링하고 그 크롤링된 데이터들을 평일 및 휴일에 따라 구분하여 대량의 제1 가공대상문서로 생성하는 제1 과정과;
    상기 제1 과정후에 DB모듈이 제어모듈의 기능제어하에 수집엔진모듈에 의해 휴일 및 평일에 따라 구분하여 수집된 대량의 제1 가공대상문서를 저장하는 제2 과정과;
    상기 제2 과정후에 분석엔진모듈이 제어모듈의 기능제어하에 크롤딩된 소셜 미디어 데이터와 증시 관련 웹데이터를 포함하여 수집된 상기 제1 가공대상문서의 데이터를 휴일 효과를 제거하기위해 한달 간의 주중/휴일 수집 건수 비율로 스케일링하여 감성점수를 산출한후 이 산출된 감성점수에 가중치를 곱하여 휴일효과가 제거된 감성점수을 산출하고, 상기 휴일효과가 제거된 감성점수에 대한 분포를 산출한후 상기 산출된 감성점수의 분포를 수학식 2를 활용하여 이상치의 발생여부를 확인하며, 상기 이상치의 발생여부의 확인결과에 따라 이상치를 제거한 표준화한 감성레벨(또는 시장심리지수)을 산출분석하는 제3 과정과;
    상기 제3 과정후에 결과산출모듈이 제어모듈의 기능제어하에 분석엔진모듈에 의해 휴일효과가 제거된 유의미한 감성평가지수와 표준화된 감성 레벨 데이터를 이용하여 설정된 기간의 SMD 분석정보와, 수집량의 트랜드 분석정보(이슈 종목 분석 포함) 및 표준화를 통한 종목간 비교정보를 통해 서비스결과조회화면을 구성한후 설정된 고객단말기나 인터넷정보로 전송시키는 제4 과정을 포함하여 구성하되;
    상기 제3 과정에는 분석엔진모듈이 제어모듈의 기능제어하에 이상치제거모듈을 통해 상기 최종 감성점수 산출단계에 의해 산출된 감성점수의 분포를 수학식 2를 활용하여 등간격으로 설정된 등분을 한후 발생된 이상치를 제거하여 최종 감성레벨을 산출하는 최종 감성레벨 산출단계를 더 포함하는 것을 특징으로 하는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템의 제어방법.
    [수학식 2]
    Figure 112019003308110-pat00050

    Figure 112019003308110-pat00051

    1. IQR를 사용한 Outlier 삭제
    Figure 112019003308110-pat00052

    Figure 112019003308110-pat00053
  9. 제8항에 있어서,
    상기 제3 과정에는 분석엔진모듈이 제어모듈의 기능제어하에 가중치부여모듈을 통해 휴일 후 평일에 가공대상문서를 수집할 시 발생되는 에러를 보정하기위해 수학식 1을 활용하여 최근 한달 간의 주중/휴일 수집 건수 비율로 상기 가공대상문서를 스케일링한 후 감성점수에 가중치를 곱하여 최종 감성점수를 산출하는 최종 감성점수 산출단계를 더 포함하는 것을 특징으로 하는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템의 제어방법.
    [수학식 1]
    1.선형회귀를 통해 스케일링 변수 산출
    Figure 112017107292733-pat00033

    2. x=1을 기준으로 스케일링
    Figure 112017107292733-pat00034

    X=직전영업일까지의 일수(직전영업일-당일)
    Y=총 수집 원문건수
    Z=감성점수
    Figure 112017107292733-pat00035
  10. 제8항 또는 제9항에 있어서,
    상기 제3 과정에는 분석엔진모듈이 제어모듈의 기능제어하에 형태소분석부를 통해 크롤딩된 소셜 미디어 데이터와 증시 관련 웹데이터를 포함하여 수집된 상기 가공대상문서에 포함된 표현 내지 문장에 대하여 형태소를 분석하는 형태소분석단계와, 상기 형태소분석단계에 의해 분석된 형태소에서 추출된 키워드마다 긍정 및 부정 중 어느 하나로 감성 평가할 경우 데이터 분석부를 통해 수학식 1을 이용하여 휴일효과를 제거한후 복수의 제1 가공대상문서 전체에 대한 감성을 평가하여 복수의 문서 전체의 데이터를 분석하는 휴일효과제거단계를 더 포함하는 것을 특징으로 하는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템의 제어방법.
  11. 삭제
KR1020170142465A 2017-10-30 2017-10-30 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템 및 그 제어방법 KR101987301B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170142465A KR101987301B1 (ko) 2017-10-30 2017-10-30 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템 및 그 제어방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170142465A KR101987301B1 (ko) 2017-10-30 2017-10-30 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템 및 그 제어방법

Publications (2)

Publication Number Publication Date
KR20190048012A KR20190048012A (ko) 2019-05-09
KR101987301B1 true KR101987301B1 (ko) 2019-06-10

Family

ID=66546476

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170142465A KR101987301B1 (ko) 2017-10-30 2017-10-30 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템 및 그 제어방법

Country Status (1)

Country Link
KR (1) KR101987301B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102595682B1 (ko) 2023-04-04 2023-10-30 주식회사 에프앤가이드 기업에 대한 뉴스 기사를 이용하여 주식 종목에 대한 감성 분석을 제공하기 위한 방법 및 이를 이용한 장치와 시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101531970B1 (ko) 2013-12-26 2015-06-26 주식회사 코스콤 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 주가 예측 방법 및 이를 적용한 주가 예측 시스템

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170009692A (ko) * 2015-07-15 2017-01-25 숭실대학교산학협력단 주가 등락 예측 방법 및 서버

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101531970B1 (ko) 2013-12-26 2015-06-26 주식회사 코스콤 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 주가 예측 방법 및 이를 적용한 주가 예측 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102595682B1 (ko) 2023-04-04 2023-10-30 주식회사 에프앤가이드 기업에 대한 뉴스 기사를 이용하여 주식 종목에 대한 감성 분석을 제공하기 위한 방법 및 이를 이용한 장치와 시스템

Also Published As

Publication number Publication date
KR20190048012A (ko) 2019-05-09

Similar Documents

Publication Publication Date Title
US20210109958A1 (en) Conceptual, contextual, and semantic-based research system and method
US11663254B2 (en) System and engine for seeded clustering of news events
US8352455B2 (en) Processing a content item with regard to an event and a location
JP5160601B2 (ja) 相対頻度に基づくフレーズマイニングのためのシステム、方法、及び装置
US8027975B2 (en) Identifying and changing personal information
US20210026835A1 (en) System and semi-supervised methodology for performing machine driven analysis and determination of integrity due diligence risk associated with third party entities and associated individuals and stakeholders
KR20170004165A (ko) 뉴스의 데이터마이닝을 통한 기업 평판 분석 장치 및 방법, 그 방법을 수행하기 위한 기록 매체
US10387805B2 (en) System and method for ranking news feeds
KR101544450B1 (ko) 소셜 데이터의 분석을 통한 감성 영향 인덱스의 생성 방법 및 그 시스템
US9514496B2 (en) System for management of sentiments and methods thereof
CN108363694B (zh) 关键词提取方法及装置
Haque et al. Opinion mining from bangla and phonetic bangla reviews using vectorization methods
KR20140133185A (ko) 소셜 데이터의 분석을 통한 주가 예측 방법 및 이를 적용한 주가 예측 시스템
Rathan et al. Every post matters: a survey on applications of sentiment analysis in social media
Sajib et al. Comparison of the efficiency of Machine Learning algorithms on Twitter Sentiment Analysis of Pathao
KR101585644B1 (ko) 단어 연관성 분석을 이용한 문서 분류 장치, 방법 및 이를 위한 컴퓨터 프로그램
US20180068017A1 (en) Providing known distribution patterns associated with specific measures and metrics
KR101987301B1 (ko) 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템 및 그 제어방법
Mohemad et al. Performance analysis in text clustering using k-means and k-medoids algorithms for Malay crime documents
CN111813911A (zh) 一种基于用户监督反馈的知识自动采集与更新系统及其工作方法
KR101540322B1 (ko) 소셜 데이터의 분석에 따른 감성 기반 인덱스를 이용한 주가 지수의 추세와 전환점 판정 방법 및 그 시스템
Prakhash et al. Categorizing food names in restaurant reviews
KR101511709B1 (ko) 소셜 데이터의 분석을 통한 종합주가 관련지수 예측 방법 및 이를 적용한 종합주가 관련지수 예측 시스템
US20220207049A1 (en) Methods, devices and systems for processing and analysing data from multiple sources
Sumner et al. RipetaScore: Measuring the quality, transparency, and trustworthiness of a scientific work

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant