KR20190048012A - Sensibility level yielding system through web data Analysis associated with a stock and a social data and Controlling Method for the Same - Google Patents

Sensibility level yielding system through web data Analysis associated with a stock and a social data and Controlling Method for the Same Download PDF

Info

Publication number
KR20190048012A
KR20190048012A KR1020170142465A KR20170142465A KR20190048012A KR 20190048012 A KR20190048012 A KR 20190048012A KR 1020170142465 A KR1020170142465 A KR 1020170142465A KR 20170142465 A KR20170142465 A KR 20170142465A KR 20190048012 A KR20190048012 A KR 20190048012A
Authority
KR
South Korea
Prior art keywords
data
analysis
module
social media
level
Prior art date
Application number
KR1020170142465A
Other languages
Korean (ko)
Other versions
KR101987301B1 (en
Inventor
이찬희
박용태
Original Assignee
주식회사 코스콤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 코스콤 filed Critical 주식회사 코스콤
Priority to KR1020170142465A priority Critical patent/KR101987301B1/en
Publication of KR20190048012A publication Critical patent/KR20190048012A/en
Application granted granted Critical
Publication of KR101987301B1 publication Critical patent/KR101987301B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Abstract

The present invention provides an emotional level calculation system through analysis of social media data and stock market-related web data, and a control method thereof. According to the present invention, the control method comprises: a first process in which a collection engine module crawls social media data and stock market-related web data from various kinds of information collection media, classifies the crawled data into weekday and holyday, and collects a large number of first documents to be processed; a third process in which an analysis engine module inserts, into equation 1, data of the first document to be processed collected by including the crawled social media data and stock market-related web data in order to remove holyday effect such that an emotional score improved by using a weight for each day is calculated, and a standardized emotion level is calculated, from which an abnormal value is removed by equation 2, IQR = Q3(Z′)-Q1(Z′), Z = Z′lmedian(Z′)-1.5XIQR <= Z′ <= median(Z′)+1.5XIQR, by using a distribution of the emotional score; and a fourth process which uses a significant emotional evaluation index, from which the holyday effect is removed after the third process, and standardized emotional level data to form a service result inquiry screen based on SMD analysis information of a set period, trend analysis information of a collected amount, and item comparison information through standardization, and transmits the screen to a set customer terminal or e-mail address. Accordingly, a large amount of data including social data and news are scaled, and a weight is assigned in accordance with a scoring rate of a weekday and a holiday such that the emotional evaluation index is calculated, and thus a calculation error in the emotional evaluation data is corrected in a manner of removing the holiday effect, thereby providing an effect of extracting a subjective and significant emotional evaluation index.

Description

소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템 및 그 제어방법{Sensibility level yielding system through web data Analysis associated with a stock and a social data and Controlling Method for the Same}  BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a system and a method for calculating a sensitivity level by analyzing web data related to social media data and stock market,

본 발명은 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템 및 그 제어방법에 관한 것으로, 특히 소셜 데이터 및 뉴스를 포함한 대량의 데이터를 스케일한후 평일 및 휴일의 스코어비율에 따라 가중치를 부여하여 감성평가지수를 산출함으로써, 휴일효과가 제거된 유의미한 감성평가지수를 추출할 수 있는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템 및 그 제어방법에 관한것이다. [0001] The present invention relates to a system and method for calculating emotional level by analyzing social media data and stock market related web data, and more particularly, to a system and method for controlling emotional level by analyzing a large amount of data including social data and news, The present invention relates to a system for calculating a sensitivity level through analysis of social media data and stock market related web data that can extract a meaningful emotion evaluation index from which a holiday effect is removed by calculating a emotion evaluation index.

일반적으로 주식시장은 특유의 복잡한 가격결정 메커니즘으로 인해 주가의 변동을 시장 펀더멘털의 변화로 설명할 수 없는 경우가 자주 발생한다. 그리고 상기와 같은 펀더멘털의 뚜렷한 변화가 발생하지 않았음에도 불구하고 가격이 크게 변동하는 것을 발견할 수 있는데, 이때 새로운 뉴스의 출현이 가격변동의 중요한 원인으로 종종 작용하곤 한다. 또한 그러한 뉴스는 현실 세계에 일어나는 각종 현상에 대한 설명과 미래의 정치, 경제,사회, 기업 등과 관련하여 앞으로 어떤 변화가 발생되고 진행되어 갈지 그에 대한 정보들을 포함하고 있기 때문이다. 그러므로 뉴스와 주가는 밀접한 관계를 가지고 있으며, 뉴스를 통해 시장 참가자들은 주식시장의 변동성을 일부나마 예측할 수 있게 된다. 한편, 최근에는 증권사, 언론사 등에서 제공되는 뉴스 정보 뿐만 아니라, 모바일 기기의 급격한 발전으로 인하여, 소셜 미디어 데이터, 예컨대 트위터(twitter), 증시 관련 개인 블로그(blog), 페이스북, 다양한 포털 사이트의 소셜 데이터 서비스 등에 의해서 제공되는 정보가 폭발적으로 증가하고 있다. 이와 같은 데이터는 뉴스 정보보다 매우 많은 양으로 시장 참가자들에게 유통되고 있며, 이에 대해 빅데이터라고 칭하고 있다. 그리고 상기 소셜 미디어 데이터는 개인의 주관적 관점으로 작성되어 있어 뉴스 정보보다 낮은 신뢰성을 가진다는 측면이 있으나, 소셜 미디어 데이터가 빅데이터급으로 제공되므로, 이 데이터를 통해 시장 참가자들의 주식시장, 특히 개별 종목에 대한 반응이 상당 정도의 객관성을 갖고 도출될 뿐만 아니라, 개별 종목의 향후 전망도 타당성을 가질 수 있는 정도에 이르렀다. 그런데, 상기 주가에 영향을 미치는 펀더멘털 요인들은 너무나도 다양하고 복잡하며 이러한 요인들이 소셜 미디어 데이터, 뉴스와 주가에 영향을 미치고 소셜 미디어 데이터 등은 다시 주가에 영향을 미치는 식의 순환이 발생하기도 한다. In general, stock markets are often unable to explain changes in stock prices as a result of changes in market fundamentals due to the inherently complex pricing mechanisms. And even though the fundamentals have not changed dramatically, we find that prices fluctuate dramatically. At this time, the emergence of new news is often a major cause of price volatility. The news also includes information on various phenomena that take place in the real world, and information on what changes will and will occur in the future regarding politics, economy, society, and enterprise in the future. Therefore, news and stock prices are closely related, and news allows market participants to predict the volatility of the stock market in some way. In recent years, not only news information provided by securities companies, media companies, etc., but also social media data such as tweets, personal blogs related to stock market, Facebook, social data of various portal sites Information provided by services and the like is explosively increasing. Such data is being distributed to market participants in a much larger amount than news information, and is referred to as Big Data. In addition, since the social media data are provided in a big data class, the social media data are provided by the market participants in the stock market, especially the individual items Not only have a significant degree of objectivity, but also the future prospects of individual items have reached a point where they can be justified. However, the fundamentals that affect the share price are so diverse and complex that circulation of social media data, news and stock prices, and social media data may affect stock prices again.

그러면, 상기와 같은 종래 소셜미디어를 이용한 감성지수 산출방법을 도 1을 참고로 살펴보면, 인터넷 사이트나 소설미디어를 통해 설정된 단어가 노출된 빅데이터들을 요일별로 수집하여 저장하는 제1 단계(S1)와;Referring to FIG. 1, the method for calculating emotion index using conventional social media as described above includes a first step (S1) of collecting and storing big data in which a word set through an Internet site or a novel medium is exposed, ;

상기 제1 단계(S1)에 의해 수집된 빅데이터들을 분류하고 그 분류된 빅데이터내에 포함된 특정 키워드들을 분석한 다음 해당 키워드의 노출빈도를 분석하는 제2 단계(S2)와;A second step (S2) of classifying the big data collected in the first step (S1), analyzing specific keywords included in the classified big data, and analyzing the exposure frequency of the keyword;

상기 제3 단계(S2)에 의해 분석된 설정 키워드(주식종목 포함)들의 노출빈도에 따라 점수를 부여하여 감성지수를 산출하고 이 감성지수를 가공하여 설정된 고객에게 제공하는 제3 단계(S3)을 포함하여 구성된다.A third step S3 of calculating the emotion index by giving a score according to the frequency of exposure of the set keyword analyzed by the third step S2 and including the emotion index and providing it to the set customer .

즉, 상기와 같은 종래 소셜미디어를 이용한 감성지수 산출방법은 포털과 같은 인터넷 사이트나 쇼설미디어(SNS)를 통해 설정된 단어가 노출된 빅데이터들 예컨대, 삼성전자의 재판 혹은 기업매출기사 등을 요일별로 수집하여 DB에 저장시킨다. 그리고 상기와 같이 수집된 빅데이터들을 분류하고 그 분류된 빅데이터내에 포함된 특정 키워드들을 분석한 다음 해당 키워드의 노출빈도를 분석하는데, 예컨대, 삼성전자의 매출증가뉴스인지 혹은 삼성전자의 공장에 화재가 발생한 뉴스인지를 분석한다. 또한 상기와 같이 분석된 설정 키워드(주식종목 포함)들의 노출빈도에 따라 점수를 부여하여 감성지수를 산출하고 예컨대, 삼성전자의 해당 키워드가 부정적인 것과 긍정적인 것을 누산하여 각각 점수를 부여한후 감성지수를 산출하고 그 산출된 감성지수를 가공하여 설정된 고객의 단말기로 서비스해주게 된다. That is, the above-described conventional emotional index calculation method using social media is a method of calculating the emotional index using social media such as an Internet site such as a portal or big data in which words set through the SNS are exposed, And stores it in the DB. Then, the collected big data is classified, and specific keywords included in the classified big data are analyzed. Then, the frequency of exposure of the keyword is analyzed. For example, Is analyzed. Also, a score is assigned according to the frequency of exposure of the set keyword (including stock items) analyzed as described above, and the emotion index is calculated. For example, when the corresponding keyword of Samsung Electronics is negative and positive, And processes the calculated emotion index to service the set customer terminal.

그러나, 상기와 같은 종래 쇼셜미디어를 이용한 감성지수 산출방법은 요일의 편차에 관계없이 단순하게 부정적인 키워드와 긍정적인 키워드에 스코어를 부여하여 감성지수를 산출하는 방식이기 때문에 감성지수가 민감하게 반응하므로 예컨대, 통상 휴일에 쌓여있던 빅데이터가 월요일에 다량으로 쏟아져 발생되는 월요일의 빅데이터 폭주에 대한 보정이 없어 감성지수를 정확하게 산출하는 것이 매우 어려웠으며, 뿐만아니라, 상기와 같이 부정확한 감성지수의 분포를 등간격으로 예컨대, 등간격으로 7등분하여 감성레벨을 산출하게되는데, 이때, 이상치에 민감하게 반응하기 때문에 감성레벨지수의 산출이 매우 부정확하게 나타난다는 문제점이 발생되었다. However, since the emotional index calculating method using the conventional social media as described above is a method of simply calculating the emotional index by giving scores to negative keywords and positive keywords irrespective of the deviation of the days of the week, , It is very difficult to accurately calculate the emotion index because there is no correction for the big data run-up on Monday, which is caused by a large amount of large data piled up on holidays on Monday. In addition, the distribution of the inaccurate emotion index The sensibility level is calculated by dividing the sensibility level into seven equal intervals at equal intervals. At this time, since the sensibility level is sensitive to the outliers, the calculation of the sensibility level index is very inaccurate.

이에 본 발명은 상기와 같은 종래기술의 문제점을 해결하기위해 발명된 것으로, 휴일효과를 제거하는 방식으로 감성 평가 데이터에서 산출오류를 보정한 후 감성평가지수를 산출함으로써, 객관적이면서도 유의미한 감성평가지수를 추출할 수 있는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템 및 그 제어방법을 제공함에 그 목적이 있다.SUMMARY OF THE INVENTION Accordingly, the present invention has been made keeping in mind the above problems occurring in the prior art, and it is an object of the present invention to provide a method and apparatus for estimating a sensibility evaluation index The present invention is directed to a system and a control method thereof for analyzing social media data that can be extracted and market-related web data.

본 발명의 또 다른 목적은 감성레벨 산출시 기본값 변경 및 이상치를 제거하는 로직으로 감성 레벨을 표준화하므로써, 시장 참가자들의 다양한 견해로부터 개별 종목에 대한 시장 분위기 및 정보를 보다 객관적이면서 유의미하게 추출할 수 있는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템 및 그 제어방법을 제공하는데 있다.Another object of the present invention is to standardize emotional level with the logic to remove the default value and the anomaly value at the time of calculating the emotion level so that the market atmosphere and information for individual items can be extracted objectively and meaningfully from various viewpoints of market participants And a system for controlling the emotional level by analyzing social media data and stock market related web data.

상기와 같은 목적을 달성하기위한 본 발명은 각종 정보수집매체로부터 소셜 미디어 데이터와 증시 관련 웹데이터를 크롤링하고 그 크롤링된 데이터들을 평일 및 휴일에 따라 구분한다음 대량의 제1 가공대상문서를 수집하는 수집엔진모듈과;According to an aspect of the present invention, there is provided a method for collecting a large amount of first processing target documents after crawling social media data and stock market related web data from various information collecting media, sorting the crawled data according to weekdays and holidays, A collection engine module;

상기 수집엔진모듈에 의해 휴일 및 평일에 따라 구분하여 수집된 대량의 제1 가공대상문서를 저장하는 DB모듈과;A DB module for storing a large number of first objects to be processed collected by the collection engine module in accordance with holidays and weekdays;

상기 수집엔진모듈에 의해 수집된 소셜 미디어 데이터와 증시 관련 웹데이터로부터 휴일효과가 제거된 유의미한 감성평가지수와 표준화된 감성 레벨 데이터를 산출하는 전과정을 제어하고 그 결과로서 주가 감성평가지수 분석정보의 산출을 제어하는 제어모듈과;The control unit controls the meaningful emotional evaluation index from which the holiday effect is removed from the social media data collected by the collection engine module and the stock market related web data and the entire process of calculating the standardized emotion level data, A control module for controlling the control module;

상기 제어모듈의 기능제어하에 크롤딩된 소셜 미디어 데이터와 증시 관련 웹데이터를 포함하여 수집된 상기 제1 가공대상문서의 데이터를 휴일 효과를 제거하기위해 일자별 가중치를 활용하여 개선된 감성점수을 산출함과 더불어 상기 감성점수의 분포를 이용하여 이상치가 제거된 표준화한 감성레벨(또는 시장심리지수)을 산출분석하는 분석엔진모듈과;Calculating an improved emotion score by using a weight for each day in order to remove the holiday effect of the data of the first processing object document collected including the social media data and stock market related data crawled under the control of the control module, An analysis engine module for calculating and analyzing a standardized sensibility level (or a market psychological index) from which an ideal value is removed by using the distribution of the sensitivity scores;

상기 제어모듈의 기능제어하에 분석엔진모듈에 의해 휴일효과가 제거된 유의미한 감성평가지수와 표준화된 감성 레벨 데이터를 이용하여 설정된 기간의 SMD 분석정보와, 수집량의 트랜드 분석정보(이슈 종목 분석 포함) 및 표준화를 통한 종목간 비교정보를 통해 서비스결과조회화면을 구성한후 설정된 고객단말기나 인터넷정보로 전송시키는 결과산출모듈을 포함하는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템을 제공한다.The SMD analysis information of the set period and the trend analysis information of the collection amount (including the issue item analysis) and the standardized sensibility level data by the analysis engine module under the control of the control module, And a system for calculating the emotion level through analyzing social media data and stock market related web data including a result calculation module for transmitting a service result inquiry screen through comparison information between items through standardization and transmitting the result to a set customer terminal or Internet information.

또한 본 발명의 또 다른 특징은 수집엔진모듈이 제어모듈의 기능제어하에 각종 정보수집매체로부터 소셜 미디어 데이터와 증시 관련 웹데이터를 크롤링하고 그 크롤링된 데이터들을 평일 및 휴일에 따라 구분한다음 대량의 제1 가공대상문서를 수집하는 제1 과정과;According to another aspect of the present invention, a collection engine module crawls social media data and stock-related web data from various information collection media under the control of a control module, classifies the crawled data according to weekdays and holidays, A first process of collecting one document to be processed;

상기 제1 과정후에 DB모듈이 제어모듈의 기능제어하에 수집엔진모듈에 의해 휴일 및 평일에 따라 구분하여 수집된 대량의 제1 가공대상문서를 저장하는 제2 과정과;A second step of storing, after the first step, a large amount of the first object document to be collected, which is collected by the collection engine module according to holidays and weekdays, under the control of the control module;

상기 제2 과정후에 분석엔진모듈이 제어모듈의 기능제어하에 크롤딩된 소셜 미디어 데이터와 증시 관련 웹데이터를 포함하여 수집된 상기 제1 가공대상문서의 데이터를 휴일 효과를 제거하기위해 일자별 가중치를 활용하여 개선된 감성점수을 산출함과 더불어 상기 감성점수의 분포를 이용하여 이상치가 제거된 표준화한 감성레벨(시장심리지수 포함)을 산출분석하는 제3 과정과;After the second process, the analysis engine module uses the data of the first processing object document collected including the social media data and the stock market related web data that are crawled under the function control of the control module, using the weight for each day to remove the holiday effect A third step of calculating and analyzing a standardized sensibility level (including a market psychological index) in which an ideal value is removed by using the distribution of the sensibility scores to calculate an improved sensibility score;

상기 제3 과정후에 결과산출모듈이 제어모듈의 기능제어하에 분석엔진모듈에 의해 휴일효과가 제거된 유의미한 감성평가지수와 표준화된 감성 레벨 데이터를 이용하여 설정된 기간의 SMD 분석정보와, 수집량의 트랜드 분석정보(이슈 종목 분석) 및 표준화를 통한 종목간 비교정보를 통해 서비스결과조회화면을 구성한후 설정된 고객단말기나 인터넷정보로 전송시키는 제4 과정을 포함하는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템의 제어방법을 제공한다. After the third step, the result calculation module calculates SMD analysis information of the set period using the significant emotion evaluation index and the standardized emotion level data which are removed by the analysis engine module under the function control of the control module, And a fourth process for constructing a service result inquiry screen through comparison information between items through information (issue item analysis) and standardization, and then transmitting the screen to a set customer terminal or Internet information, And a control method of the level calculation system.

상기와 같은 본 발명에 의하면, 소셜 데이터 및 뉴스를 포함한 대량의 데이터를 스케일한후 평일 및 휴일의 스코어비율에 따라 가중치를 부여하여 감성평가지수를 산출함으로써, 휴일효과를 제거하는 방식으로 감성 평가 데이터에서 산출오류를 보정해주기 때문에 객관적이면서도 유의미한 감성평가지수를 추출할 수 하므로 그에 따라 신뢰성있는 최적의 감성레벨정보를 제공하는 효과가 있다.According to the present invention as described above, after a large amount of data including social data and news is scaled, a weight is assigned according to the score ratio of weekday and holiday to calculate a sensitivity evaluation index, It is possible to extract an objective and meaningful emotion evaluation index, thereby providing reliable and optimum emotion level information.

또한 상기와 같은 본 발명은 감성레벨 산출시 기본값 변경 및 이상치를 제거하는 로직으로 감성 레벨을 표준화하므로써, 시장 참가자들의 다양한 견해로부터 개별 종목에 대한 시장 분위기 및 정보를 보다 객관적이면서 유의미하게 추출할 수 있는 효과도 있다. In addition, the present invention as described above can standardize emotional level by changing the default values and removing an abnormal value at the time of calculating emotional level, so that it is possible to more objectively and significantly extract the market atmosphere and information for individual items from various viewpoints of market participants There is also an effect.

도 1은 종래 쇼셜미디어를 이용한 감성지수 산출방법의 일례를 설명하는 설명도.
도 2는 종래 산출방법에 의해 구현된 일례를 설명하는 설명도.
도 3은 본 발명의 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템을 설명하는 설명도.
도 4는 본 발명에 따른 감성분석의 일례를 설명하는 설명도.
도 5는 본 발명에 따른 감성레벨정보를 제공하는 화면의 일례를 설명하는 설명도.
도 6은 본 발명의 플로우차트.
1 is an explanatory view for explaining an example of a sensitivity index calculating method using a conventional social media;
2 is an explanatory diagram illustrating an example implemented by a conventional calculation method;
3 is an explanatory diagram illustrating a system for calculating emotion level through analysis of social media data and stock market related web data of the present invention.
4 is an explanatory view for explaining an example of emotion analysis according to the present invention;
5 is an explanatory view for explaining an example of a screen for providing emotion level information according to the present invention;
6 is a flowchart of the present invention.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.BRIEF DESCRIPTION OF THE DRAWINGS The present invention is capable of various modifications and various embodiments, and specific embodiments are illustrated in the drawings and described in detail in the detailed description. It is to be understood, however, that the invention is not to be limited to the specific embodiments, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the invention. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.The terms first, second, etc. may be used to describe various components, but the components should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another.

본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used herein is for the purpose of describing particular embodiments only and is not intended to be limiting of the invention. The singular expressions include plural expressions unless the context clearly dictates otherwise. In this specification, the terms "comprises" or "having" and the like refer to the presence of stated features, integers, steps, operations, elements, components, or combinations thereof, But do not preclude the presence or addition of one or more other features, integers, steps, operations, elements, components, or combinations thereof.

또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.In the following description, well-known functions or constructions are not described in detail since they would obscure the invention in unnecessary detail.

이하, 본 발명의 실시예에 대해 관련 도면들을 참조하여 상세히 설명하기로 한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 3은 본 발명의 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템을 설명하는 설명도이고, 도 4는 본 발명에 따른 감성분석의 일례를 설명하는 설명도이며, 도 5는 본 발명에 따른 감성레벨정보를 제공하는 화면의 일례를 설명하는 설명도이고, 도 6은 본 발명의 플로우차트이다.FIG. 3 is an explanatory view for explaining a sensitivity level calculating system through analysis of social media data and stock market related web data of the present invention, FIG. 4 is an explanatory view for explaining an example of emotion analysis according to the present invention, FIG. 6 is an explanatory diagram for explaining an example of a screen for providing emotion level information according to the invention, and FIG. 6 is a flowchart of the present invention.

상기 도 3을 참조하면, 각종 정보수집매체(1) 예컨대, 각종 포털사이트, 블로그, 증권정보 제공사이트 및 트위터나 페이스북을 포함한 SNS로부터 소셜 미디어 데이터와 증시 관련 웹데이터를 크롤링하고 그 크롤링된 데이터들을 평일 및 휴일에 따라 구분한다음 대량의 제1 가공대상문서를 수집하는 수집엔진모듈(2)과;Referring to FIG. 3, various types of information collecting media 1, such as various portal sites, blogs, stock information providing sites, social network data and stock market related web data from SNS including Twitter and Facebook, A collection engine module (2) for collecting a large number of first objects to be processed after classifying them on weekdays and holidays;

상기 수집엔진모듈(2)에 의해 휴일 및 평일에 따라 구분하여 수집된 대량의 제1 가공대상문서를 저장하는 DB모듈(3)과;A DB module (3) for storing a large number of first objects to be processed collected by the collection engine module (2) according to holidays and weekdays;

상기 수집엔진모듈(2)에 의해 수집된 소셜 미디어 데이터와 증시 관련 웹데이터로부터 휴일효과가 제거된 유의미한 감성평가지수와 표준화된 감성 레벨 데이터를 산출하는 전과정을 제어하고 그 결과로서 주가 감성평가지수 분석정보의 산출을 제어하는 제어모듈(4)과;Control the entire sensitivity index index from which the holiday effect is removed from the social media data collected by the collection engine module 2 and the stock market related web data and the entire process of calculating the standardized emotion level data, A control module (4) for controlling the calculation of information;

상기 제어모듈(4)의 기능제어하에 크롤딩된 소셜 미디어 데이터와 증시 관련 웹데이터를 포함하여 수집된 상기 제1 가공대상문서의 데이터를 휴일 효과를 제거하기위해 수학식1에 넣어 일자별 가중치를 활용하여 개선된 감성점수을 산출함과 더불어 상기 감성점수의 분포를 이용하여 수학식 2에 의해 이상치가 제거된 표준화한 감성레벨(또는 시장심리지수)을 산출분석하는 분석엔진모듈(5)과;The data of the first processing target document collected including the social media data and the stock market related web data crawled under the function control of the control module 4 are put into Equation 1 to remove the holiday effect, An analysis engine module 5 for calculating and analyzing a standardized emotion level (or a market psychology index) obtained by calculating an improved emotion score using the distribution of the emotion score and removing an ideal value by using Equation 2;

상기 제어모듈(4)의 기능제어하에 분석엔진모듈(5)에 의해 휴일효과가 제거된 유의미한 감성평가지수와 표준화된 감성 레벨 데이터를 이용하여 설정된 기간 예컨대, 최근 2주간의 SMD 분석정보와, 수집량의 트랜드 분석정보(이슈 종목 분석) 및 표준화를 통한 종목간 비교정보를 통해 서비스결과조회화면을 구성한후 설정된 고객단말기나 인터넷정보로 전송시키는 결과산출모듈(6)을 포함하여 구성된다. For example, the SMD analysis information for the set period, for example, the last two weeks, using the sensibility evaluation index and the standardized sensibility level data in which the holiday effect is removed by the analysis engine module 5 under the function control of the control module 4, And a result calculation module 6 for composing a service result inquiry screen through comparison information between items through trend analysis information (issue item analysis) and standardization, and then transmitting the service result inquiry screen to a set customer terminal or Internet information.

여기서, 본원발명에 적용되는 수학식 1은 하기와 같다. Here, Equation (1) applied to the present invention is as follows.

[수학식 1][Equation 1]

1.선형회귀를 통해 스케일링 변수 산출1. Calculation of scaling variables by linear regression

Figure pat00001
Figure pat00001

2. x=1을 기준으로 스케일링2. Scaling based on x = 1

Figure pat00002
Figure pat00002

X=직전영업일까지의 일수(직전영업일-당일)X = Days before the previous business day (immediately preceding business day - same day)

Y=총 수집 원문건수Y = total number of collected texts

Z=감성점수Z = emotional score

Figure pat00003
Figure pat00003

또한, 본원발명에 적용되는 수학식 2도 하기와 같다. Equation 2 applied to the present invention is also as follows.

[수학식 2]&Quot; (2) &quot;

Figure pat00004
Figure pat00004

Figure pat00005
Figure pat00005

1. IQR를 사용한 Outlier 삭제1. Deleting Outliers Using IQR

Figure pat00006
Figure pat00006

Figure pat00007
Figure pat00007

상기 분석엔진모듈(5)에는 휴일 후 평일에 상기 가공대상문서를 수집할 경우 휴일의 수집 건수가 포함되어 평일보다 건수가 2~3배 많아지기 때문에 이를 보정하기위해 수학식 1을 활용하여 최근 한달 간의 주중/휴일 수집 건수 비율로 상기 가공대상문서를 스케일링한 후 감성점수에 가중치를 곱하여 최종 감성점수를 산출하는 가중치부여모듈(7)과; 상기 감성점수의 분포를 수학식 2를 활용하여 등간격으로 7등분한후 발생된 이상치를 제거하여 최종 감성레벨을 산출하는 이상치제거모듈(8)을 포함한다. In the analysis engine module 5, when the document to be processed is collected on weekdays after holidays, the number of holidays is included, so that the number of days is two to three times larger than the number of weekdays. Therefore, A weighting module (7) for scaling the document to be processed at a ratio of the number of weekday / holiday collection days, and then multiplying the sensibility score by a weight to calculate a final sensibility score; And an outlier removal module 8 for calculating the final sentence level by removing the generated anomaly value after dividing the distribution of the sentence scores into seven equal parts using Equation (2).

또한 상기 분석엔진모듈(5)에는 크롤딩된 소셜 미디어 데이터와 증시 관련 웹데이터를 포함하여 수집된 상기 가공대상문서에 포함된 표현 내지 문장에 대하여 형태소를 분석하는 형태소분석부(9)와; 상기 형태소분석부(9)에 의해 분석된 형태소에서 추출된 키워드마다 긍정 및 부정 중 어느 하나로 감성 평가함으로써 복수의 가공대상문서 전체에 대한 감성을 평가하여 복수의 가공대상문서 전체의 데이터를 분석하는 데이터 분석부(10)를 더 포함한다.The analysis engine module 5 also includes a morpheme analysis unit 9 for analyzing morphemes with respect to expressions or sentences included in the processing target document collected including the crowded social media data and stock market related web data; Data for analyzing the data of all of the plurality of target documents by evaluating emotions for all of the plurality of target documents by emotionally evaluating each of the keywords extracted from the morpheme analyzed by the morpheme analyzing unit 9, And further includes an analysis unit 10.

한편, 상기 수집엔진모듈(2)에는 소셜 미디어 데이터와 증시 관련 웹데이터로부터 적어도 하나의 개별 종목에 영향을 미치는 일반 키워드와 관련된 복수의 제1 가공대상문서를 수집할 수 있다. 그리고 상기 설명한 바와 같이 감성 분석을 위해, DB모듈(3)은 수집된 제1 가공대상문서를 설정된 분류법에 따라 저장하고, 상기 형태소 분석부(9)는 제1 가공대상문서에 포함된 표현 내지는 문장에 대하여 형태소를 분석한다. 또한, 상기 데이터 분석부(10)는 분석된 형태소에서 추출된 키워드마다 긍정 및 부정 중 어느 하나로 감성 평가함으로써 복수의 제1 가공대상문서 전체에 대한 감성을 평가하여 복수의 문서 전체의 데이터를 분석하게 된다. 또한 상기 수집엔진모듈(2)에는 각종 정보수집매체(1) 예컨대, 각종 포털사이트, 블로그, 증권정보 제공사이트 및 트위터나 페이스북을 포함한 SNS로부터 검색되는 소셜 미디어 데이터와 증시 관련 웹데이터로부터 적어도 하나의 개별 종목과 관련된 대량의 문서를 수집하고, 증시 지표 데이터들을 수집받는다. 여기서, 상기 개별 종목은 증시에 상장된 기업이고, 수집되는 문서는 html, PDF(Portable Document Format), 이미지 및 동영상 중 적어도 하나의 형태로 구현될 수 있다. 그리고 상기 소셜 미디어 데이터는 인터넷 등의 네트워크와 접속되는 고정형 컴퓨터 또는 모바일 기기를 통해 입력되는 미디어 데이터로서, 네트워크와 접속된 다른 사용자와 상호 공유될 수 있는 데이터이다. 예컨대, 상기 소셜 미디어 데이터는 소셜 미디어 서버에서 운영하는 소셜 미디어 사이트들 및 다양한 포털 사이트 등에서 운영하며 개인화된 컨텐츠가 포함된 블로그 사이트들 일 수 있다. 또한 상기 소셜 미디어 사이트들은 소위 SNS로서, 트위터(twitter), 페이스북(facebook), 다양한 포털 사이트에서 서비스하는 소셜 미디어일 수 있다. 더나아가, 상기 증시 관련 웹데이터는 언론사, 공중파 방송사, 케이블 방송사, 포털 사이트 뉴스, 금융사, 증시 관련 기관 등으로부터 제공되는 웹데이터로서, 상기 소셜 미디어 데이터에 비해 전문적이거나 공신력있는 증시 관련 데이터이다. 이러한 증시 관련 웹데이터는 언론사, 방송사, 포털 사이트 뉴스로부터 서비스되는 증시 관련 뉴스 사이트들, 은행, 증권사, 보험 등의 금융사에서 증시와 관련하여 서비스되는 금융사 포털 사이트들 및 증시 관련 공공 기관 또는 사설 기관에서 증시와 관련된 분석 정보를 제공하는 증시 관련 사이트들을 포함한다. 그리고 상기 증시 지표 사이트들은 주식에 상장된 개별 종목마다의 주식 정보로서, 예컨대 시가, 고가, 저가, 종가, 호가, 체결 여부, 거래량, 거래 대금, 거래원, 상한가, 하한가, 신고가, 신저가 등을 포함할 수 있다. 그에 더하여 상기 소셜 미디어 데이터 및 증시 관련 웹데이터로부터 대량의 문서를 수집하는 경우에, 상기 수집엔진모듈(2)은 모든 문서를 수집하는 것이 아니라, 키워드 데이터베이스를 참조하여 적어도 하나의 개별 종목과 관련된 문서를 수집하는 것이다. 여기서, 상기 키워드 데이터베이스는 개별 종목에 해당하는 기업마다 카테고리화되어 있는 키워드 군을 포함할 수 있으며, 개별 종목의 기업명과 관련된 메인 키워드와 아울러서, 기업에서 출시하는 상품, 서비스에 관한 제품/서비스 관련 키워드, 기업의 경영진 등에 관한 인적 관련 키워드 및 개별 종목에 영향을 미칠 수 있는 단어, 컨텍스트에 관한 기업 상황 관련 키워드 등을 포함하는 서브 키워드를 저장할 수 있다. 이때, 상기 서브 키워드는 해당 기업 특유의 단어, 컨텍스트 등으로서, 해당 기업마다 분류되어 카테고리화된 형태로 존재할 수 있다. 예컨대, 상기 메인 키워드는 삼성전자, 엘지전자, KT 등과 같이 증시에 상장된 개별 종목의 기업명일 수 있으며, 삼성전자의 경우에 제품/서비스 관련 키워드는 "갤럭시", "스마트폰", "하우젠", "태블릿", "앱 마켓" 등일 수 있으며, 인적 관련 키워드는 삼성전자의 주요 임원진, 삼성전가와 거래하는 기업의 임원진 등일 수 있으며, 기업 상황 관련 키워드는 삼성전자의 주가에 영향을 미칠 수 있는 단어 등으로서, "사상최대", "실적", "호조", "애플", "불만", "악화" 등으로 다양한 단어를 포함할 수 있다.Meanwhile, the collection engine module 2 may collect a plurality of first processing target documents related to general keywords that affect at least one individual item from social media data and stock market related web data. As described above, for the emotion analysis, the DB module 3 stores the collected first processing object document according to the set classification method, and the morpheme analysis section 9 analyzes the expression or sentence included in the first processing object document We analyze the morpheme against. In addition, the data analyzing unit 10 evaluates the emotion of all of the plurality of first target documents by performing an emotional evaluation using positive or negative for each keyword extracted from the analyzed morpheme, and analyzes the data of all the plurality of documents do. The collection engine module 2 is also provided with at least one information collection medium 1, for example, various portal sites, blogs, stock information providing sites, social media data retrieved from SNS including tweeters and Facebook, Collects a large amount of documents related to the individual items of the stock index data, and collects stock index data. Here, the individual item is a company listed on the market, and the collected document may be implemented in the form of at least one of html, PDF (Portable Document Format), image and moving image. The social media data is media data input through a fixed computer or a mobile device connected to a network such as the Internet, and is data that can be mutually shared with other users connected to the network. For example, the social media data may be blog sites including social media sites operated by a social media server and personalized contents operated by various portal sites. In addition, the social media sites may be social media serving as so-called SNS, such as twitter, facebook, and various portal sites. Furthermore, the stock market related web data is web data provided from a media company, a terrestrial broadcaster, a cable broadcasting company, a portal site news, a financial company, a stock market related institution or the like, and is stock market related data which is more professional or credible than the social media data. These web-related data on the stock market are related to stock market news sites that are served from news agencies, broadcasters, portal site news, financial institutions such as banks, securities firms, insurance companies, and so on. And stock market-related sites that provide analysis information related to the stock market. The market index sites are stock information for each individual stock listed on the stock, and include stock price information such as market price, high price, low price, close price, closing price, transaction amount, transaction price, transaction source, upper limit price, lower limit price, declaration price, can do. In addition, in the case of collecting a large amount of documents from the social media data and stock market related web data, the collection engine module 2 does not collect all the documents, but refers to the keyword database to refer to documents related to at least one individual item . Here, the keyword database may include a keyword group categorized for each company corresponding to each individual item. In addition to the main keyword associated with the company name of the individual item, a keyword related to a product / service , A keyword related to a person in an enterprise, a keyword that may affect an individual item, and a keyword related to a company situation related to the context. At this time, the sub keyword may exist in a form categorized by each company, such as words, contexts, etc. specific to the company. For example, the main keyword may be a company name of individual stocks listed on the stock market such as Samsung Electronics, LG Electronics, KT, etc. In the case of Samsung Electronics, keywords related to products / services include "Galaxy" , "Tablet" and "appmarket". Human-related keywords can be key executives of Samsung Electronics, executives of companies that deal with Samsung Electronics, and keywords related to company situation are words that may affect Samsung Electronics' Etc., and can include various words such as "ever-ever", "performance", "goodbye", "apple", "dissatisfaction", "aggravation"

한편, 상기 수집엔진모듈(2)은 수집된 복수의 제1 가공대상문서에 포함된 표현에서 키워드 중 메인 키워드, 제품/서비스 관련 키워드 및 인적 관련 키워드가 포함되는 문서들을 추출함으로써, 감성 평가에 적합한 문서 데이터를 효율적으로 선정할 수 있다. 이때, 상기 DB모듈(3)은 형태소 분석에 적합한 형태로 추출된 문서들을 저장할 수 있으며, 예컨대 개별 종목 그룹마다 추출된 문서들의 포맷 별, 즉 html, pdf, 이미지 및 동영상 등으로 분산 저장될 수 있다. 이 과정에서 상기 형태소 분석부(9)는 감성 평가에 적합한 형태로 처리하기 위한 전처리로서, 저장된 복수의 제1 가공대상문서의 포맷에 대하여 의미를 갖는 최소의 언어 단위인 형태소를 분석하여 각 품사를 특정하는 처리를 수행한다. 이 경우에, 상기 형태소 분석부(9)는 포맷마다 적합한 처리를 통해, 각 포맷에 대하여 병렬적으로 형태소 분석을 진행할 수 있다. 아울러, 상기 형태소 분석부(9)는 문서의 포맷에 포함된 표현에서 문장, 컨텍스트 등을 어절 단위로 분류하고, 개별 종목과 관련된 키워드에 인접한 키워드들을 파싱(parsing)할 수 있다. 예컨대, 특정인의 블로그 사이트에서 삼성전자와 관련된 문장 및 엘지전자와 관련된 문장이 함께 존재하는 경우에, 형태소 분석부(9)는 문장 구조, 접속 구조, 구문 등을 고려하여 블로그 사이트의 텍스트를 어절 단위로 분류하고, 이후에 삼성전자 또는 엘지전자의 명칭, 상품/서비스, 인적 사항 등의 키워드를 검색하여, 이에 인접한 단어, 구문들을 파싱하고, 삼성전자 및 엘지전자 별 키워드들로 분류하여 저장한다. 그리고 상기 형태소 분석부(9)에는 상기 형태소 분석부(9)에서 처리된 키워드마다 긍정 및 부정 중 어느 하나로 감성 평가함으로써 복수의 제1 가공대상문서 전체에 대한 감성을 평가하는 데이터 감성 평가부(11) 및 형태소 분석부(9)에서 처리된 키워드를 통계 처리하는 키워드 분석부(13)를 더 포함할 수 있다. 한편, 상기 데이터 감성 평가부(11)는 형태소 분석부(9)로부터의 키워드마다 긍정, 중립 또는 부정에 대한 평가 및 이 평가와 연계된 스코어를 저장하는 DB모듈(3)의 감성사전DB(12)을 참조하여, 추출된 키워드에 대하여 긍정, 중립 및 부정 중 어느 하나로 평가함과 아울러서 스코어링한다. On the other hand, the collection engine module 2 extracts the documents including the main keyword, the product / service related keyword, and the human related keyword among the keywords included in the collected plurality of the first processing object documents, Document data can be efficiently selected. At this time, the DB module 3 can store the extracted documents in a form suitable for morphological analysis, and can be distributedly stored, for example, in accordance with the format of the extracted documents for each individual item group, that is, html, pdf, . In this process, the morpheme analyzing unit 9 analyzes a morpheme as a minimum language unit having a meaning with respect to a format of a plurality of stored first processing target documents as a preprocessing for processing in a form suitable for emotion evaluation, And performs a process of specifying. In this case, the morpheme analyzing unit 9 can perform morphological analysis in parallel on each format through appropriate processing for each format. In addition, the morpheme analyzing unit 9 may classify sentences, contexts, and the like in the expressions included in the document format in units of words, and may parse keywords adjacent to keywords related to individual items. For example, in the case where a sentence related to Samsung Electronics and a sentence related to the LG Electronics coexist in a blog site of a particular person, the morphological analysis unit 9 analyzes the text of the blog site in the unit of the word dictionary Then, keywords such as name of Samsung Electronics or LG Electronics, product / service, personal information, and the like are searched for, words and phrases adjacent thereto are parsed, and classified into keywords classified by Samsung Electronics and LG Electronics. The morpheme analyzing unit 9 is provided with a data sensitivity evaluating unit 11 for evaluating emotion of all of the plurality of first object documents to be processed by performing an emotional evaluation using either positive or negative for each keyword processed in the morpheme analyzing unit 9 And a keyword analyzing unit 13 for statistically processing the keyword processed by the morpheme analyzing unit 9. [ On the other hand, the data emotion evaluation unit 11 receives the sentence from the morpheme analyzing unit 9 in the emotion dictionary DB 12 of the DB module 3 for storing an evaluation of affirmative, neutral or negative for each keyword and a score associated with the evaluation ), And evaluates the extracted keyword by one of positive, neutral, and negative, and scales it together.

이때, 상기 스코어링 알고리즘은 Naive bayes 알고리즘, Simple voter 알고리즘, KNN(K Nearest Neighborhood), SVM(Support Vector Machine) 일 수 있다. 예컨대, 상기 감성사전DB(12)의 스코어링 알고리즘중 Simple voter 알고리즘을 참고로 스코어링을 설명하면, 이 Simple voter 알고리즘은 키워드에 대한 감성 평가로서 긍정, 중립, 부정마다의 키워드를 테이블 형태로 저장할 수 있다. In this case, the scoring algorithm may be a Naive bayes algorithm, a simple voter algorithm, a K Nearest Neighborhood (KNN), or a SVM (Support Vector Machine). For example, the scoring based on the simple voter algorithm among the scoring algorithms of the emotion dictionaries DB 12 will be described. The simple voter algorithm can store the keywords of positive, neutral, and negation in the form of a table as emotion evaluation for the keyword .

이러한 감성 평가와 관련된 키워드의 품사의 대부분은 명사, 형용사로 구성될 수 있다. 예컨대 상기 긍정 평가의 테이블에서는 "상승", "사상최대", "오르다" 등의 키워드가 존재하고, 각 키워드에 부여되는 스코어 "1"이다. 또한, 상기 부정 평가의 테이블에서는 "불황", "내리다", "불만" 등의 키워드가 존재하고, 각 키워드에 부여되는 스코어 "-1"이다. 또한 상기 중립 평가 테이블에 저장된 키워드에 부여되는 스코어는 "0"이다. Most of the parts of a keyword related to such emotional evaluation can be composed of nouns and adjectives. For example, in the affirmative evaluation table, there are keywords such as " rise ", " maximum ever ", " ascend ", and the score " 1 " In the table of negative evaluation, there are keywords such as "recession", "down", "complaint", and the score "-1" given to each keyword. The score assigned to the keyword stored in the neutral evaluation table is " 0 ".

여기서, 상기 스코어는 긍정과 부정을 구별하기 위한 것으로 예시되고 있으나, 이와는 달리, 긍정 또는 부정 평가와 연계된 스코어는 시장 참가자들이 해당 키워드에 느끼는 감성의 정도에 따라, 해당 키워드의 가중치를 달리하여 서로 다른 스코어로 구성될 수 있다. 그리고 상기 데이터 감성 평가부(11)는 감성사전DB(12)에 의해 긍정, 중립 및 부정으로 판별된 키워드마다 부여된 스코어를 합산하여 복수의 제1 가공대상문서 전체에 대한 감성 지수와 같은 감성 관련 평가 데이터를 산출할 수 있다. 여기서, 상기 데이터 감성 평가부(11)는 모든 문서의 키워드에 대하여 감성 평가를 수행한 후, 문서별로 긍정, 중립, 부정의 평가를 수행하지 않는데, 만약 문서의 감성 뉘앙스를 파악하기 위해 문서 별로 감성 평가를 수행하는 경우, 어떤 문서는 다른 문서에 비해 부정적으로 평가된 키워드가 훨씬 많이 존재함에도 불구하고, 각 문서가 동등한 스코어의 부정 평가를 받을 수 있다. Here, the score is exemplified for discriminating between positive and negative. However, the score associated with positive or negative evaluation is different from the score depending on the degree of sensitivity of the market participants to the keyword, It can be composed of other scores. Then, the data sensitivity evaluation unit 11 sums the scores assigned to the keywords determined as positive, neutral, and negative by the emotion dictionary DB 12 to calculate the emotion index related to all of the plurality of first target documents Evaluation data can be calculated. Here, the data sensitivity evaluation unit 11 does not perform evaluation of affirmative, neutral, and negative for each document after performing sensitivity evaluation on all keywords of the document. If the sensitivity evaluation unit 11 determines that the sensitivity When performing an evaluation, each document may be given a negative evaluation of an equivalent score, although some documents may have a much higher number of negative evaluated keywords than others.

따라서, 상기 데이터 감성 평가부(11)는 소셜 미디어 데이터 및 증시 관련 웹데이터로부터 추출된 복수의 제1 가공대상문서 전체로부터 존재하는 개별 종목의 긍정 또는 부정 요소에 대한 비율이 왜곡되게 분석될 수 있다. 그러므로, 본 실시예에서는 복수의 제1 가공대상문서 전체로부터 형태소 분석된 키워드들을 문서별로 그룹핑없이, 감성 평가를 수행함으로써, 분석의 왜곡을 방지할 수 있다. 또한, 상기 키워드 분석부(13)는 형태소 분석부(9)로부터 분석된 키워드들에 대하여 기간별 수집 건수, 각 키워드 간의 상관 분석 등의 통계 분석을 수행하여 그 결과를 결과산출모듈(6)로 전달하게 된다. 또한, 상기 키워드 분석부(13)는 분석된 키워드들 중 키워드 DB(14)에 등록되지 않은 키워드를 선별하고, 신규로 선별된 키워드는 키워드 DB(14)에 갱신 저장하므로써, 상기 수집엔진모듈(2)에서 수행되는 문서 수집의 정확성을 향상시킬 수 있으며, 관리자는 신규의 키워드 중 감성 평가에 반영할 키워드에 대해서는 감성사전 DB(12)에 저장시킬 수 있다.Therefore, the data sensitivity evaluation unit 11 can analyze the ratio of the positive or negative elements of the individual items existing from all of the plurality of first processing object documents extracted from the social media data and stock market related web data to be distorted . Therefore, in this embodiment, the analysis is prevented from being distorted by performing the emotion evaluation without grouping the morpheme-analyzed keywords from all the plurality of first target documents by document. In addition, the keyword analyzing unit 13 performs statistical analysis on the keywords analyzed by the morpheme analyzing unit 9, such as the number of collected data per period and correlation analysis between the keywords, and transmits the result to the result calculating module 6 . The keyword analyzing unit 13 selects keywords that are not registered in the keyword database 14 among the analyzed keywords and stores the newly selected keywords in the keyword DB 14 to update the keyword 2), and the manager can store the keyword to be reflected in the emotional evaluation among the new keywords in the emotion dictionary DB 12. [0053] FIG.

한편, 상기 결과산출모듈(6)은 누적된 감성 평가 데이터 중 소정의 조건에 의해 선택된 감성 관련 평가 데이터와 함께, 증시 지표 데이터와 경제 지표 데이터 간의 상관 관계로부터의 분석 데이터를 생성하게 된다. 즉, 상기 결과산출모듈(6)은 도 4 및 도 5에 도시된 바와같이 분석엔진모듈(5)에 의해 휴일효과가 제거된 유의미한 감성평가지수와 표준화된 감성 레벨 데이터를 이용하여 설정된 기간 예컨대, 최근 2주간의 SMD 분석정보와, 수집량의 트랜드 분석정보(이슈 종목 분석) 및 표준화를 통한 종목간 비교정보를 통해 서비스결과 조회화면을 구성한후 설정된 고객단말기나 전자주소로 전송하게되는데, 이때, 상기 감성레벨(시장심리지수)은 가중치가 부여되어 휴일효과가 제거된 감성지수를 이용하여 산출하되, 총 7단계(매우 좋음 ~ 매우 나쁨)의 레벨로 구분되어지고, 시장별, 종목별 수집건수, 감성점수, 감성레벨, 버즈워드(이슈 단어) 등을 제공할 수 있다. On the other hand, the result calculation module 6 generates analytical data from the correlation between the stock index data and the economic index data together with the emotion related evaluation data selected by the predetermined condition among the accumulated emotional evaluation data. 4 and 5, the result calculating module 6 calculates a predetermined period of time using the sensibility evaluation index and the standardized sensibility level data for which the holiday effect has been removed by the analysis engine module 5, SMD analysis information for the last two weeks, trend analysis information (issue item analysis) of collection amount, and comparison information between items through standardization, and then transmits the service result display screen to the set customer terminal or the electronic address, The emotional level (market psychology index) is calculated by using the emotion index which is weighted and the holiday effect is removed, and it is divided into 7 levels (very good ~ very bad) level by the market, Score, emotional level, buzz word (issue word), and so on.

다음에는 상기와 같은 구성으로 된 본 발명의 제어방법을 설명한다.Next, the control method of the present invention having the above-described configuration will be described.

본 발명의 방법은 도 6에 도시된 바와같이 수집엔진모듈이 제어모듈의 기능제어하에 각종 정보수집매체로부터 소셜 미디어 데이터와 증시 관련 웹데이터를 크롤링하고 그 크롤링된 데이터들을 평일 및 휴일에 따라 구분한다음 대량의 제1 가공대상문서를 수집하는 제1 과정(S1)과;The method of the present invention is a method in which the collection engine module crawls social media data and stock market related web data from various information collecting media under the function control of the control module and divides the crawled data according to weekdays and holidays A first step (S1) of collecting a next large amount of first object documents;

상기 제1 과정(S1)후에 DB모듈이 제어모듈(4)의 기능제어하에 수집엔진모듈에 의해 휴일 및 평일에 따라 구분하여 수집된 대량의 제1 가공대상문서를 저장하는 제2 과정(S2)과;After the first step S1, a second step S2 of storing a large amount of first object documents collected by the DB module in accordance with holidays and weekdays by the collection engine module under the control of the function of the control module 4, and;

상기 제2 과정(S2)후에 분석엔진모듈이 제어모듈의 기능제어하에 크롤딩된 소셜 미디어 데이터와 증시 관련 웹데이터를 포함하여 수집된 상기 제1 가공대상문서의 데이터를 휴일 효과를 제거하기위해 수학식1에 넣어 일자별 가중치를 활용하여 개선된 감성점수을 산출함과 더불어 상기 감성점수의 분포를 이용하여 수학식 2에 의해 이상치가 제거된 표준화한 감성레벨(시장심리지수 포함)을 산출분석하는 제3 과정(S3)과;After the second step (S2), the analysis engine module compares data of the first processing target document collected including the social media data and stock market related data crawled under the function control of the control module to mathematics (3) for calculating and analyzing a standardized emotion level (including a market psychological index) in which an ideal value is removed by Equation (2) using the distribution of the emotion score by calculating the improved emotion score using the weight for each day, (S3);

상기 제3 과정(S3)후에 결과산출모듈이 제어모듈의 기능제어하에 분석엔진모듈에 의해 휴일효과가 제거된 유의미한 감성평가지수와 표준화된 감성 레벨 데이터를 이용하여 설정된 기간 예컨대, 최근 2주간의 SMD 분석정보와, 수집량의 트랜드 분석정보(이슈 종목 분석) 및 표준화를 통한 종목간 비교정보를 통해 서비스결과조회화면을 구성한후 설정된 고객단말기나 인터넷정보로 전송시키는 제4 과정(S4)을 포함하여 구성된다.After the third process (S3), the result calculation module calculates the SMD of the last two weeks using the sensibility evaluation index and the standardized sensibility level data, which are removed by the analysis engine module under the function control of the control module, And a fourth step (S4) of constructing a service result inquiry screen through analysis information, trend analysis information (issue item analysis) and standardization of collection amounts, and then transmitting the service result inquiry screen to a set customer terminal or Internet information do.

여기서, 상기 수학식 1은 하기와 같다.Here, the above Equation (1) is as follows.

[수학식 1][Equation 1]

1.선형회귀를 통해 스케일링 변수 산출1. Calculation of scaling variables by linear regression

Figure pat00008
Figure pat00008

2. x=1을 기준으로 스케일링2. Scaling based on x = 1

Figure pat00009
Figure pat00009

X=직전영업일까지의 일수(직전영업일-당일)X = Days before the previous business day (immediately preceding business day - same day)

Y=총 수집 원문건수Y = total number of collected texts

Z=감성점수Z = emotional score

Figure pat00010
Figure pat00010

또한 상기 수학식 2는 하기와 같다.Equation (2) is as follows.

[수학식 2]&Quot; (2) &quot;

Figure pat00011
Figure pat00011

Figure pat00012
Figure pat00012

1. IQR를 사용한 Outlier 삭제1. Deleting Outliers Using IQR

Figure pat00013
Figure pat00013

Figure pat00014
Figure pat00014

한편, 상기 제1 과정(S1)에는 수집엔진모듈이 제어모듈의 기능제어하에 각종 포털사이트, 블로그, 증권정보 제공사이트 및 트위터나 페이스북을 포함한 SNS가 포함되는 각종 정보수집매체로 부터 검색되는 소셜 미디어 데이터와 증시 관련 웹데이터로부터 적어도 하나의 개별 종목과 관련된 대량의 문서를 수집하고, 증시 지표 데이터들을 수집받는 데이터정밀수집단계를 더 포함한다. Meanwhile, in the first step (S1), the collection engine module, under the function control of the control module, accesses various portal sites, blogs, a stock information providing site, and social information Further comprising a data precision gathering step of collecting a large amount of documents related to at least one individual item from the media data and market related web data, and collecting the stock index data.

또한 상기 제3 과정(S3)에는 분석엔진모듈이 제어모듈의 기능제어하에 가중치부여모듈을 통해 휴일 후 평일에 가공대상문서를 수집할 시 발생되는 에러를 보정하기위해 상기 수학식 1을 활용하여 최근 한달 간의 주중/휴일 수집 건수 비율로 상기 가공대상문서를 스케일링한 후 감성점수에 가중치를 곱하여 최종 감성점수를 산출하는 최종 감성점수 산출단계를 더 포함한다. 또한 상기 제3 과정(S3)에는 분석엔진모듈이 제어모듈의 기능제어하에 이상치제거모듈을 통해 상기 최종 감성점수 산출단계에 의해 산출된 감성점수의 분포를 상기 수학식 2를 활용하여 등간격으로 설정된 등분을 한후 발생된 이상치를 제거하여 최종 감성레벨을 산출하는 최종 감성레벨 산출단계를 더 포함한다. 더 나아가, 상기 제3 과정(S3)에는 분석엔진모듈이 제어모듈의 기능제어하에 형태소분석부를 통해 크롤딩된 소셜 미디어 데이터와 증시 관련 웹데이터를 포함하여 수집된 상기 가공대상문서에 포함된 표현 내지 문장에 대하여 형태소를 분석하는 형태소분석단계와, 상기 형태소분석단계에 의해 분석된 형태소에서 추출된 키워드마다 긍정 및 부정 중 어느 하나로 감성 평가할 경우 데이터 분석부를 통해 수학식 1을 이용하여 휴일효과를 제거한후 복수의 제1 가공대상문서 전체에 대한 감성을 평가하여 복수의 문서 전체의 데이터를 분석하는 휴일효과제거단계를 더 포함한다. In the third process (S3), the analysis engine module may calculate a correction value using the equation (1) to correct an error that occurs when a document to be processed is collected on weekdays after a holiday through a weighting module under the control of the control module A final sentence score calculating step of scaling the document to be processed at a ratio of the number of weekday / holiday gatherings per month, and then multiplying the sentence score by a weight to calculate a final sentence score. In the third process (S3), the analysis engine module sets the distribution of the sensitivity score calculated by the final sensitivity score calculating step through the outlier removal module under the function control of the control module by using Equation (2) And a final sensibility level calculating step of calculating a final sensibility level by removing an abnormal value generated after the equalization. Further, in the third step S3, the analysis engine module analyzes the expression included in the processing target document collected including the social media data crawled through the morphological analysis unit and the stock market related web data under the function control of the control module A morphological analysis step of analyzing a morpheme with respect to a sentence and a morphological analysis step of analyzing morphological characteristics of the morphologically analyzed morphologically analyzed morphologically analyzed morphologically analyzed morphemes by using a mathematical expression 1 Further comprising a holiday effect removing step of evaluating emotion of the plurality of first processing object documents and analyzing data of all of the plurality of documents.

그리고, 상기 제4 과정(S4)에는 결과산출모듈이 제어모듈의 기능제어하에 휴일효과가 제거된 상태하에서 누적된 감성 평가 데이터 중 소정의 조건에 의해 선택된 감성 관련 평가 데이터와 함께, 증시 지표 데이터와 경제 지표 데이터 간의 상관 관계로부터의 분석 데이터를 생성하는 분석데이터 결과산출단계를 더 포함한다. In the fourth step S4, the result calculation module, together with the emotion-related evaluation data selected by the predetermined condition among the emotion evaluation data accumulated under the condition that the holiday effect is removed under the function control of the control module, And an analysis data result calculating step of generating analysis data from the correlation between the economic indicator data.

환언하면, 본발명의 방법은 먼저, 수집엔진모듈(2)이 제어모듈(4)의 기능제어하에 각종 정보수집매체(1)로부터 소셜 미디어 데이터와 증시 관련 웹데이터를 크롤링하고 그 크롤링된 데이터들을 평일 및 휴일에 따라 구분한 다음 대량의 제1 가공대상문서를 수집한다. 그리고 상기 제어모듈(4)의 기능제어하에 DB모듈(3)이 수집엔진모듈(2)에 의해 휴일 및 평일에 따라 구분하여 수집된 대량의 제1 가공대상문서를 저장한다. 그러면, 상기 제어모듈(4)의 기능제어하에 분석엔진모듈(5)이 크롤딩된 소셜 미디어 데이터와 증시 관련 웹데이터를 포함하여 수집된 상기 제1 가공대상문서의 데이터를 휴일 효과를 제거하기위해 수학식1에 넣어 일자별 가중치를 활용하여 개선된 감성점수을 산출한다. 또한 상기 분석엔진모듈(5)은 상기 전과정에서 산출한 감성지수의 분포를 이용하여 수학식 2에 의해 산출된 데이터내에 발생된 이상치를 제거한다음 이상치가 제거된 표준화한 감성레벨(또는 시장심리지수)을 산출분석하게 된다. 더 나아가, 상기 제어모듈(4)의 기능제어하에 결과산출모듈(6)은 도 4 및 도 5에 도시된 바와같이 분석엔진모듈(5)에 의해 휴일효과가 제거된 유의미한 감성평가지수와 표준화된 감성 레벨 데이터를 이용하여 설정된 기간 예컨대, 최근 2주간의 SMD 분석정보와, 수집량의 트랜드 분석정보(이슈 종목 분석) 및 표준화를 통한 종목간 비교정보를 통해 서비스결과조회화면을 구성한후 설정된 고객단말기나 인터넷정보로 전송시키게된다.In other words, the method of the present invention firstly involves the collection engine module 2 crawling social media data and market related web data from various information collecting media 1 under the control of the control module 4 and storing the crawled data Weekday, and holiday, and then collects a large amount of the first document to be processed. And under control of the function of the control module (4), the DB module (3) stores a large amount of the first object document collected by the collection engine module (2) according to holidays and weekdays. Then, under the function control of the control module 4, the analysis engine module 5 deletes the data of the first processing target document collected including the social media data and the market related web data that are crawled, The improved sensitivity score is calculated by using the weight for each day in Equation (1). Also, the analysis engine module 5 removes the anomaly generated in the data calculated by the equation (2) using the distribution of the emotion index calculated in the previous cycle, and then calculates the standardized emotion level (or the market psychology index) . Furthermore, under the function control of the control module 4, the result calculation module 6 calculates the difference between the meaningful emotion evaluation index with the holiday effect removed by the analysis engine module 5 as shown in FIGS. 4 and 5, The service result display screen is configured through the SMD analysis information for a set period, for example, the last two weeks, and the comparison information between items through trend analysis information (issue item analysis) and standardization using sensibility level data, And transmitted to Internet information.

여기서, 상기 빅데이터 수집과정을 좀 더 구체적으로 살펴보면, 상기 수집엔진모듈(2)은 제어모듈(4)의 기능제어하에 각종 포털사이트, 블로그, 증권정보 제공사이트 및 트위터나 페이스북을 포함한 SNS가 포함되는 각종 정보수집매체(1)로 부터 검색되는 소셜 미디어 데이터와 증시 관련 웹데이터로부터 적어도 하나의 개별 종목과 관련된 대량의 문서를 수집하고, 증시 지표 데이터들을 수집할 수 있다.Here, the collecting engine module 2 may include various portal sites, blogs, stock information providing sites, and SNSs including Twitter and Facebook under the control of the control module 4 Collect a large amount of documents related to at least one individual item from social media data and market related web data retrieved from various information collection media 1 included, and collect stock index data.

이에 더하여, 상기 분석엔진모듈(5)에 의해 처리되는 분석과정을 좀 더 구체적으로 설명하면, 상기 분석엔진모듈(5)은 제어모듈(4)의 기능제어하에 형태소분석부(9)를 통해 크롤딩된 소셜 미디어 데이터와 증시 관련 웹데이터를 포함하여 수집된 상기 가공대상문서에 포함된 표현 내지 문장에 대하여 형태소를 분석한다. 그리고 상기 분석엔진모듈(5)은 또한 데이터 분석부(10)를 통해 상기 형태소분석단계에 의해 분석된 형태소에서 추출된 키워드마다 긍정 및 부정 중 어느 하나로 감성 평가할 경우수학식 1을 이용하여 휴일효과를 제거한후 복수의 제1 가공대상문서 전체에 대한 감성을 평가하여 복수의 문서 전체의 데이터를 분석하게 된다. In addition, the analysis process module 5 processes the analysis process performed by the analysis module 5 in accordance with the function of the control module 4, And analyzing the morpheme with respect to expressions or sentences included in the processing object document collected including the social media data and stock market related web data. In addition, the analysis engine module 5 may also use the equation 1 to evaluate the effect of the holiday on each of the keywords extracted from the morpheme analyzed by the morpheme analysis step through the data analysis unit 10, The data of all the plurality of documents are analyzed by evaluating the sensitivity of the plurality of first processing object documents to the whole.

더 나아가, 상기 분석엔진모듈(5)은 제어모듈(4)의 기능제어하에 가중치부여모듈(7)을 통해 휴일 후 평일에 가공대상문서를 수집할 시 발생되는 에러를 보정하기위해 상기 수학식 1을 활용하여 최근 한달 간의 주중/휴일 수집 건수 비율로 상기 가공대상문서를 스케일링한 후 감성점수에 가중치를 곱하여 최종 감성점수를 산출할 수 있다. 또한 상기 분석엔진모듈(5)은 제어모듈(4)의 기능제어하에 이상치제거모듈(8)을 통해 상기 최종 감성점수 산출단계에 의해 산출된 감성점수의 분포를 상기 수학식 2를 활용하여 등간격으로 설정된 등분 예컨대, 7등분을 한후 그 7등분된 감성지수내에 이상치가 발생하는지를 확인한후 만약 이상치가 발생될 경우 그 이상치를 제거하여 최종 감성레벨을 산출하게된다. Further, the analysis engine module 5 may be configured to perform the above-mentioned expression (1) in order to correct an error that occurs when the document to be processed is collected on weekdays after holidays via the weighting module 7 under the control of the function of the control module 4. [ , The final target emotion score can be calculated by scaling the target document with the ratio of the number of weekday / holiday gathering in the recent month, and multiplying the emotion score by the weight. Also, the analysis engine module 5 analyzes the distribution of sensibility scores calculated by the final sensibility score calculating step through the outlier removal module 8 under the function control of the control module 4 by using Equation (2) , It is checked whether an abnormal value is generated in the seven-divided sensitivity index after seven equal division, and if the abnormal value is generated, the abnormal value is calculated by removing the abnormal value.

그리고, 상기 결과산출모듈(6)은 제어모듈(4)의 기능제어하에 휴일효과가 제거된 상태하에서 누적된 감성 평가 데이터 중 소정의 조건에 의해 선택된 감성 관련 평가 데이터와 함께, 증시 지표 데이터와 경제 지표 데이터 간의 상관 관계로부터의 분석 데이터를 생성한다.Then, the result calculation module 6, together with the emotion-related evaluation data selected by the predetermined condition among the accumulated emotion evaluation data under the condition that the holiday effect is removed under the function control of the control module 4, And generates analysis data from the correlation between the index data.

여기서, 상기 분석엔진모듈(5)이 최종 감성레벨을 산출하는 과정을 좀 더 구체적으로 예를 들어 설명하면 다음과 같다. Hereinafter, the process of calculating the final emotion level by the analysis engine module 5 will be described in more detail as follows.

상기 감성레벨 산출을 위해서는 산출일 당일 원문수집량, 감성분석 데이터와 이전 30일 간의 원문수집량, 감성분석 데이터가 필요하며, 10월 16일의 A란 종목의 감성레벨 산출을 위해서 참조하는 데이터를 아래 표1과 같다고 가정한다.In order to calculate the emotional level, it is necessary to collect the original text, emotional analysis data on the day of calculation, the amount of original text collected during the previous 30 days, emotional analysis data on the day of calculation, and the data referenced for calculating the emotional level of the item " 1 &lt; / RTI &gt;

[표 1][Table 1]

Figure pat00015
Figure pat00015

먼저, 분석엔진모듈(5)은 최종 감성점수를 산출하기 위해 가중치부여모듈(6)을 사용하여 수학식 1의 선형회귀를 통해 기울기와 y절편을 산출한다. 이 때, 참조되는 데이터의 일자범위는 분석일 당일을 제외한 과거 30일의 데이터를 사용한다. 이에 따라, 산출된 기울기와 y절편은 다음과 같다.First, the analysis engine module 5 calculates the slope and the y intercept through the linear regression of Equation 1 using the weighting module 6 to calculate the final emotion score. In this case, the date range of the referenced data uses the data of the past 30 days excluding the date of analysis. Accordingly, the calculated slope and y intercept are as follows.

Figure pat00016
,
Figure pat00017
Figure pat00016
,
Figure pat00017

상기와 같이 산출한 기울기와 y절편 값을 사용하여 가중치부여모듈(6)은 상기 수학식 1의 가중치 부여식을 사용하여 최종 감성점수를 산출하며, 그 결과는 아래 표2와 같다.The weighting module 6 calculates the final emotion score using the weighting formula of Equation (1) using the slope and the y intercept value calculated as described above, and the result is shown in Table 2 below.

[표 2][Table 2]

Figure pat00018
Figure pat00018

다음으로 상기 분석엔진모듈(5)은 과거 30일의 데이터 중 이상치제거모듈(8)을 통해 이상치를 제거하며, 이 때 상기 수학식 2의 조건을 만족하는 감성점수만이 감성레벨을 산출하기 위한 분포를 추정하는 샘플 데이터로 사용된다. 예제에서 정상 데이터 범위는 아래와 같이 산출된다.Next, the analysis engine module 5 removes an abnormal value from the data of the past 30 days via the outlier removal module 8, and at this time, only the emotion score satisfying the condition of the expression (2) It is used as sample data to estimate the distribution. In the example, the normal data range is calculated as follows.

Figure pat00019
,
Figure pat00020
Figure pat00019
,
Figure pat00020

Figure pat00021
Figure pat00021

이때 상기 이상치제거모듈(8)은 정상 데이터의 범위를 벗어나는 9월 19일과 10월 13일 결과는 이상치로 제거하게 되고, 분석엔진모듈(5)은 결과산출모듈(6)을 통해 다음 수학식 2의 감성레벨 산출식을 사용하여 감성레벨을 산출한다. 예제 데이터를 사용한 10월 16일의 A 종목의 감성레벨 산출은 아래와 같은 결과를 얻는다.At this time, the outlier removal module 8 removes the results of September 19 and October 13, which are out of the range of the normal data, to the outliers, and the analysis engine module 5 deletes the outcome of the following equation (2) The emotion level is calculated by using the emotion level calculating equation of Fig. Using the example data, the emotional level calculation of the item A of October 16 is as follows.

Figure pat00022
,
Figure pat00023
Figure pat00022
,
Figure pat00023

Figure pat00024
Figure pat00024

Figure pat00025
Figure pat00025

상기 결과에서 5.9를 반올림한 6이 분석엔진모듈(5)이 최종적으로 산출한 10월 16일 A종목의 감성레벨이 된다.As a result, the 6th analysis engine module 5, which rounds off 5.9, becomes the emotion level of the event A, which is finally calculated on October 16th.

1 : 각종 정보수집매체 2 : 수집엔진모듈
3 : DB모듈 4 : 제어모듈
5 : 분석엔진모듈 6 ; 결과산출모듈
7 ;가중치부여모듈 8 : 이상치 제거모듈
9 :형태소분석부 10: 데이터 분석부
11: 데이터 감성 평가부 12: 감성사전DB
13: 키워드 분석부 14: 키워드 DB
1: Various information collection media 2: Collection engine module
3: DB module 4: control module
5: Analysis engine module 6; Result Output Module
7: weighting module 8: outlier removal module
9: Morphological analysis section 10: Data analysis section
11: Data sensitivity evaluation part 12: Emotion dictionary DB
13: Keyword analysis section 14: Keyword DB

Claims (11)

각종 정보수집매체로부터 소셜 미디어 데이터와 증시 관련 웹데이터를 크롤링하고 그 크롤링된 데이터들을 평일 및 휴일에 따라 구분한다음 대량의 제1 가공대상문서를 수집하는 수집엔진모듈과;
상기 수집엔진모듈에 의해 휴일 및 평일에 따라 구분하여 수집된 대량의 제1 가공대상문서를 저장하는 DB모듈과;
상기 수집엔진모듈에 의해 수집된 소셜 미디어 데이터와 증시 관련 웹데이터로부터 휴일효과가 제거된 유의미한 감성평가지수와 표준화된 감성 레벨 데이터를 산출하는 전과정을 제어하고 그 결과로서 주가 감성평가지수 분석정보의 산출을 제어하는 제어모듈과;
상기 제어모듈의 기능제어하에 크롤딩된 소셜 미디어 데이터와 증시 관련 웹데이터를 포함하여 수집된 상기 제1 가공대상문서의 데이터를 휴일 효과를 제거하기위해 일자별 가중치를 활용하여 개선된 감성점수을 산출함과 더불어 상기 감성점수의 분포를 이용하여 수학식 2에 의해 이상치가 제거된 표준화한 감성레벨(또는 시장심리지수)을 산출분석하는 분석엔진모듈과;
상기 제어모듈의 기능제어하에 분석엔진모듈에 의해 휴일효과가 제거된 유의미한 감성평가지수와 표준화된 감성 레벨 데이터를 이용하여 설정된 기간의 SMD 분석정보와, 수집량의 트랜드 분석정보(이슈 종목 분석 포함) 및 표준화를 통한 종목간 비교정보를 통해 서비스결과조회화면을 구성한후 설정된 고객단말기나 인터넷정보로 전송시키는 결과산출모듈을 포함하는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템.
A collection engine module for crawling social media data and stock market related web data from various information collecting media, sorting the crawled data according to weekdays and holidays, and collecting a large number of first documents to be processed;
A DB module for storing a large number of first objects to be processed collected by the collection engine module in accordance with holidays and weekdays;
The control unit controls the meaningful emotional evaluation index from which the holiday effect is removed from the social media data collected by the collection engine module and the stock market related web data and the entire process of calculating the standardized emotion level data, A control module for controlling the control module;
Calculating an improved emotion score by using a weight for each day in order to remove the holiday effect of the data of the first processing object document collected including the social media data and stock market related data crawled under the control of the control module, An analysis engine module for calculating and analyzing a standardized sensibility level (or a market psychological index) in which an ideal value is removed by using Equation 2 using the distribution of the sensitivity scores;
The SMD analysis information of the set period and the trend analysis information of the collection amount (including the issue item analysis) and the standardized sensibility level data by the analysis engine module under the control of the control module, A system for calculating the emotion level by analyzing social media data and stock market related web data including a result calculation module for constructing a service result inquiry screen through comparison information between items through standardization and transmitting the resultant image to a set customer terminal or Internet information.
제1항에 있어서,
상기 분석엔진모듈은 수학식 1에 의해 감성점수를 산출하는 것을 특징으로 하는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템.
[수학식 1]
1.선형회귀를 통해 스케일링 변수 산출
Figure pat00026

2. x=1을 기준으로 스케일링
Figure pat00027

X=직전영업일까지의 일수(직전영업일-당일)
Y=총 수집 원문건수
Z=감성점수
Figure pat00028
The method according to claim 1,
Wherein the analysis engine module calculates a sensitivity score using Equation (1). &Lt; EMI ID = 1.0 &gt;
[Equation 1]
1. Calculation of scaling variables by linear regression
Figure pat00026

2. Scaling based on x = 1
Figure pat00027

X = Days before the previous business day (immediately preceding business day - same day)
Y = total number of collected texts
Z = emotional score
Figure pat00028
제1항에 있어서,
상기 분석엔진모듈은 수학식 2에 의해 표준화한 감성레벨을 산출하는 것을 특징으로 하는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템.
[수학식 2]
Figure pat00029

Figure pat00030

1. IQR를 사용한 Outlier 삭제
Figure pat00031

Figure pat00032
The method according to claim 1,
Wherein the analysis engine module calculates a sensitivity level standardized by Equation (2). &Lt; EMI ID = 2.0 &gt;
&Quot; (2) &quot;
Figure pat00029

Figure pat00030

1. Deleting Outliers Using IQR
Figure pat00031

Figure pat00032
제2항 또는 제3항에 있어서,
상기 분석엔진모듈에는 휴일 후 평일에 상기 가공대상문서를 수집시 발생되는 에러를 보정하기위해 상기 수학식 1을 활용하여 최근 한달 간의 주중/휴일 수집 건수 비율로 상기 가공대상문서를 스케일링한 후 감성점수에 가중치를 곱하여 최종 감성점수를 산출하는 가중치부여모듈과;
상기 감성점수의 분포를 상기 수학식 2를 활용하여 등간격으로 설정된 등분을 한후 발생된 이상치를 제거하여 최종 감성레벨을 산출하는 이상치제거모듈을 포함하는 것을 특징으로 하는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템.
The method according to claim 2 or 3,
The analysis engine module scales the document to be processed with the ratio of the number of weekday / holiday collection days in the past month using the equation (1) to correct an error that occurs when the document to be processed is collected on weekdays after holidays, A weighting module for calculating a final sensibility score by multiplying a weight by a weight;
And an outlier removal module for calculating a final sentence level by removing the anomaly value generated after equally dividing the distribution of the sentence scores by Equation (2) using Equation (2) Sensibility Level Calculation System through Analysis.
제1항 또는 제2항에 있어서,
상기 분석엔진모듈에는 크롤딩된 소셜 미디어 데이터와 증시 관련 웹데이터를 포함하여 수집된 상기 가공대상문서에 포함된 표현 내지 문장에 대하여 형태소를 분석하는 형태소분석부와; 상기 형태소분석부에 의해 분석된 형태소에서 추출된 키워드마다 긍정 및 부정 중 어느 하나로 감성 평가할 경우 수학식 1을 이용하여 휴일효과를 제거한후 복수의 제1 가공대상문서 전체에 대한 감성을 평가하여 복수의 문서 전체의 데이터를 분석하는 데이터 분석부를 더 포함하는 것을 특징으로 하는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템.
3. The method according to claim 1 or 2,
The analysis engine module includes a morpheme analysis unit for analyzing morphemes with respect to expressions or sentences included in the processing target document collected including the crowded social media data and stock market related web data; When the emotion is evaluated as either positive or negative for each keyword extracted from the morpheme analyzed by the morpheme analyzing unit, the emotion of the plurality of first target documents is evaluated after eliminating the holiday effect using Equation (1) And a data analyzer for analyzing data of the entire document. The system for calculating emotional level by analyzing social media data and stock market related web data.
제1항에 있어서,
상기 수집엔진모듈에는 각종 포털사이트, 블로그, 증권정보 제공사이트 및 트위터나 페이스북을 포함한 SNS가 포함되는 각종 정보수집매체로 부터 검색되는 소셜 미디어 데이터와 증시 관련 웹데이터로부터 적어도 하나의 개별 종목과 관련된 대량의 문서를 수집하고, 증시 지표 데이터들을 수집받는 것을 특징으로 하는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템.
The method according to claim 1,
The collection engine module is associated with at least one individual item from various portal sites, blogs, stock information providing sites, social media data retrieved from various information collecting media including SNS including Twitter and Facebook, and stock market related web data Collecting a large amount of documents, and collecting stock market index data. The system for calculating emotional level through analysis of social media data and stock market related web data.
제1항에 있어서,
상기 결과산출모듈은 휴일효과가 제거된 상태하에서 누적된 감성 평가 데이터 중 소정의 조건에 의해 선택된 감성 관련 평가 데이터와 함께, 증시 지표 데이터와 경제 지표 데이터 간의 상관 관계로부터의 분석 데이터를 생성하는 것을 특징으로 하는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템.
The method according to claim 1,
The result calculation module generates analytical data from the correlation between the stock index data and the economic index data together with the sensitivity related evaluation data selected by the predetermined condition among the accumulated emotional evaluation data under the condition that the holiday effect is removed, The system calculates emotional level through analysis of social media data and stock market related web data.
수집엔진모듈이 제어모듈의 기능제어하에 각종 정보수집매체로부터 소셜 미디어 데이터와 증시 관련 웹데이터를 크롤링하고 그 크롤링된 데이터들을 평일 및 휴일에 따라 구분한다음 대량의 제1 가공대상문서를 수집하는 제1 과정과;
상기 제1 과정후에 DB모듈이 제어모듈의 기능제어하에 수집엔진모듈에 의해 휴일 및 평일에 따라 구분하여 수집된 대량의 제1 가공대상문서를 저장하는 제2 과정과;
상기 제2 과정후에 분석엔진모듈이 제어모듈의 기능제어하에 크롤딩된 소셜 미디어 데이터와 증시 관련 웹데이터를 포함하여 수집된 상기 제1 가공대상문서의 데이터를 휴일 효과를 제거하기위해 일자별 가중치를 활용하여 개선된 감성점수을 산출함과 더불어 상기 감성점수의 분포를 이용하여 이상치가 제거된 표준화한 감성레벨(시장심리지수 포함)을 산출분석하는 제3 과정과;
상기 제3 과정후에 결과산출모듈이 제어모듈의 기능제어하에 분석엔진모듈에 의해 휴일효과가 제거된 유의미한 감성평가지수와 표준화된 감성 레벨 데이터를 이용하여 설정된 기간의 SMD 분석정보와, 수집량의 트랜드 분석정보(이슈 종목 분석 포함) 및 표준화를 통한 종목간 비교정보를 통해 서비스결과조회화면을 구성한후 설정된 고객단말기나 인터넷정보로 전송시키는 제4 과정을 포함하는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템의 제어방법.
The collection engine module crawls the social media data and the stock market related web data from various information collecting media under the control of the control module, classifies the crawled data according to weekdays and holidays, and then collects a large amount of first object documents 1;
A second step of storing, after the first step, a large amount of the first object document to be collected, which is collected by the collection engine module according to holidays and weekdays, under the control of the control module;
After the second process, the analysis engine module uses the data of the first processing object document collected including the social media data and the stock market related web data that are crawled under the function control of the control module, using the weight for each day to remove the holiday effect A third step of calculating and analyzing a standardized sensibility level (including a market psychological index) in which an ideal value is removed by using the distribution of the sensibility scores to calculate an improved sensibility score;
After the third step, the result calculation module calculates SMD analysis information of the set period using the significant emotion evaluation index and the standardized emotion level data which are removed by the analysis engine module under the function control of the control module, And analyzing social media data and stock market related web data including the fourth step of constructing a service result inquiry screen through comparison information between items through information (including issue item analysis) and standardization and then transmitting the screen to a set customer terminal or Internet information A method of controlling a sensibility level calculation system.
제8항에 있어서,
상기 제3 과정에는 분석엔진모듈이 제어모듈의 기능제어하에 가중치부여모듈을 통해 휴일 후 평일에 가공대상문서를 수집할 시 발생되는 에러를 보정하기위해 수학식 1을 활용하여 최근 한달 간의 주중/휴일 수집 건수 비율로 상기 가공대상문서를 스케일링한 후 감성점수에 가중치를 곱하여 최종 감성점수를 산출하는 최종 감성점수 산출단계를 더 포함하는 것을 특징으로 하는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템의 제어방법.
[수학식 1]
1.선형회귀를 통해 스케일링 변수 산출
Figure pat00033

2. x=1을 기준으로 스케일링
Figure pat00034

X=직전영업일까지의 일수(직전영업일-당일)
Y=총 수집 원문건수
Z=감성점수
Figure pat00035
9. The method of claim 8,
In the third process, the analysis engine module uses the weighting module under the control of the control module to calibrate an error that occurs when a document to be processed is collected on weekdays after a holiday, using equation (1) Further comprising a final sensitivity score calculating step of calculating a final sensitivity score by scaling the document to be processed at a ratio of the number of collected articles and then multiplying the sensitivity score by a weight to calculate a sensitivity level Control method of the calculation system.
[Equation 1]
1. Calculation of scaling variables by linear regression
Figure pat00033

2. Scaling based on x = 1
Figure pat00034

X = Days before the previous business day (immediately preceding business day - same day)
Y = total number of collected texts
Z = emotional score
Figure pat00035
제8항 또는 제9항에 있어서,
상기 제3 과정에는 분석엔진모듈이 제어모듈의 기능제어하에 형태소분석부를 통해 크롤딩된 소셜 미디어 데이터와 증시 관련 웹데이터를 포함하여 수집된 상기 가공대상문서에 포함된 표현 내지 문장에 대하여 형태소를 분석하는 형태소분석단계와, 상기 형태소분석단계에 의해 분석된 형태소에서 추출된 키워드마다 긍정 및 부정 중 어느 하나로 감성 평가할 경우 데이터 분석부를 통해 수학식 1을 이용하여 휴일효과를 제거한후 복수의 제1 가공대상문서 전체에 대한 감성을 평가하여 복수의 문서 전체의 데이터를 분석하는 휴일효과제거단계를 더 포함하는 것을 특징으로 하는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템의 제어방법.
10. The method according to claim 8 or 9,
In the third step, the analysis engine module analyzes the morpheme of the expression or sentence included in the processing object document collected including the social media data and the stock market related web data crawled through the morpheme analysis section under the function control of the control module A morpheme analyzing step of analyzing morphemes analyzed by the morpheme analyzing step and an emotional evaluation using positive or negative for each keyword extracted from the morpheme analyzed by the morpheme analyzing step Further comprising a holiday effect removing step of removing the holiday effect by using the equation (1) through the data analyzing unit and then evaluating the emotion of all of the plurality of first target documents to analyze data of all the plurality of documents Control Method of Emotion Level Calculation System by Analyzing Social Media Data and Market Data.
제8항에 있어서,
상기 제3 과정에는 분석엔진모듈이 제어모듈의 기능제어하에 이상치제거모듈을 통해 상기 최종 감성점수 산출단계에 의해 산출된 감성점수의 분포를 수학식 2를 활용하여 등간격으로 설정된 등분을 한후 발생된 이상치를 제거하여 최종 감성레벨을 산출하는 최종 감성레벨 산출단계를 더 포함하는 것을 특징으로 하는 소셜 미디어 데이터 및 증시 관련 웹데이터 분석을 통한 감성레벨산출시스템의 제어방법.
[수학식 2]
Figure pat00036

Figure pat00037

1. IQR를 사용한 Outlier 삭제
Figure pat00038

Figure pat00039
9. The method of claim 8,
In the third step, the analysis engine module calculates the distribution of the sensitivity score calculated by the final sensitivity score calculating step through the outlier removal module under the function control of the control module by using Equation (2) And a final emotion level calculating step of calculating a final emotion level by removing an ideal value from the social-media data and market-related web data.
&Quot; (2) &quot;
Figure pat00036

Figure pat00037

1. Deleting Outliers Using IQR
Figure pat00038

Figure pat00039
KR1020170142465A 2017-10-30 2017-10-30 Sensibility level yielding system through web data Analysis associated with a stock and a social data and Controlling Method for the Same KR101987301B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170142465A KR101987301B1 (en) 2017-10-30 2017-10-30 Sensibility level yielding system through web data Analysis associated with a stock and a social data and Controlling Method for the Same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170142465A KR101987301B1 (en) 2017-10-30 2017-10-30 Sensibility level yielding system through web data Analysis associated with a stock and a social data and Controlling Method for the Same

Publications (2)

Publication Number Publication Date
KR20190048012A true KR20190048012A (en) 2019-05-09
KR101987301B1 KR101987301B1 (en) 2019-06-10

Family

ID=66546476

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170142465A KR101987301B1 (en) 2017-10-30 2017-10-30 Sensibility level yielding system through web data Analysis associated with a stock and a social data and Controlling Method for the Same

Country Status (1)

Country Link
KR (1) KR101987301B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102595682B1 (en) 2023-04-04 2023-10-30 주식회사 에프앤가이드 Method for providing emotion analysis of stock using corporate news article and device and system using the same

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101531970B1 (en) * 2013-12-26 2015-06-26 주식회사 코스콤 Method of predicting a stock price through an analysis of a social data and webdata related the securities market and system applying the same
KR20170009692A (en) * 2015-07-15 2017-01-25 숭실대학교산학협력단 Stock fluctuatiion prediction method and server

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101531970B1 (en) * 2013-12-26 2015-06-26 주식회사 코스콤 Method of predicting a stock price through an analysis of a social data and webdata related the securities market and system applying the same
KR20170009692A (en) * 2015-07-15 2017-01-25 숭실대학교산학협력단 Stock fluctuatiion prediction method and server

Also Published As

Publication number Publication date
KR101987301B1 (en) 2019-06-10

Similar Documents

Publication Publication Date Title
US20210109958A1 (en) Conceptual, contextual, and semantic-based research system and method
US11663254B2 (en) System and engine for seeded clustering of news events
US20210019339A1 (en) Machine learning classifier for content analysis
US9535911B2 (en) Processing a content item with regard to an event
US8027975B2 (en) Identifying and changing personal information
US20210026835A1 (en) System and semi-supervised methodology for performing machine driven analysis and determination of integrity due diligence risk associated with third party entities and associated individuals and stakeholders
KR20170004165A (en) Device and method for analyzing corporate reputation by data mining of news, recording medium for performing the method
US10387805B2 (en) System and method for ranking news feeds
KR20180072167A (en) System for extracting similar patents and method thereof
KR101544450B1 (en) Method of generating a sentimental effect index through an analysis of a social data and system thereof
CN108363694B (en) Keyword extraction method and device
US9514496B2 (en) System for management of sentiments and methods thereof
KR20140133185A (en) Method of predicting a stock price through an analysis of a social data and system applying the same
US9881078B2 (en) Providing known distribution patterns associated with specific measures and metrics
Rathan et al. Every post matters: a survey on applications of sentiment analysis in social media
KR101585644B1 (en) Apparatus, method and computer program for document classification using term association analysis
Sajib et al. Comparison of the efficiency of Machine Learning algorithms on Twitter Sentiment Analysis of Pathao
Wu et al. Machine learning approach to analyze the sentiment of airline passengers’ tweets
Wahyudi et al. Topic modeling of online media news titles during COVID-19 emergency response in Indonesia using the latent dirichlet allocation (LDA) algorithm
KR101987301B1 (en) Sensibility level yielding system through web data Analysis associated with a stock and a social data and Controlling Method for the Same
Mohemad et al. Performance analysis in text clustering using k-means and k-medoids algorithms for Malay crime documents
Prakhash et al. Categorizing food names in restaurant reviews
KR20150077957A (en) Method of determining a trend and a turning point of a stock price index using sentiment based indexes according to an analysis of social data and system thereof
KR101511709B1 (en) Method of predicting a composite stockrelated price index through an analysis of a social data and system applying the same
JP6026036B1 (en) DATA ANALYSIS SYSTEM, ITS CONTROL METHOD, PROGRAM, AND RECORDING MEDIUM

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant