KR102609132B1 - Method and apparatus for automatically constructing sentiment dictionary - Google Patents

Method and apparatus for automatically constructing sentiment dictionary Download PDF

Info

Publication number
KR102609132B1
KR102609132B1 KR1020210132726A KR20210132726A KR102609132B1 KR 102609132 B1 KR102609132 B1 KR 102609132B1 KR 1020210132726 A KR1020210132726 A KR 1020210132726A KR 20210132726 A KR20210132726 A KR 20210132726A KR 102609132 B1 KR102609132 B1 KR 102609132B1
Authority
KR
South Korea
Prior art keywords
evaluation
emotion
opinion
token
words
Prior art date
Application number
KR1020210132726A
Other languages
Korean (ko)
Other versions
KR20230049822A (en
Inventor
양철원
이기광
조수지
Original Assignee
단국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 단국대학교 산학협력단 filed Critical 단국대학교 산학협력단
Priority to KR1020210132726A priority Critical patent/KR102609132B1/en
Publication of KR20230049822A publication Critical patent/KR20230049822A/en
Application granted granted Critical
Publication of KR102609132B1 publication Critical patent/KR102609132B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

감성 사전을 자동으로 구축하는 방법 및 장치를 개시한다.
본 발명의 일 실시예에 의하면, 감성 사전을 자동으로 구축하는 방법으로서, 평가 대상에 대한 평가 의견이 포함된 평가 데이터들로부터, 상기 평가 의견의 근거에 해당하는 근거 의견을 획득하는 단계 - 상기 평가 데이터들은 상기 평가 의견에 따라 복수 개의 평가 클래스들 중에서 어느 하나에 속함 -; 상기 근거 의견 내 단어들 중에서, 감성을 나타내는 하나 이상의 감성 단어를 추출하는 단계; 및 상기 감성 단어를 하나 이상 포함하는 하나 이상의 토큰(token)과 상기 평가 클래스들 간의 연관관계에 따라, 상기 토큰의 감성을 산출하는 단계를 포함하는 것을 특징으로 하는 방법이 제공된다.
Disclosed is a method and device for automatically constructing an emotional dictionary.
According to an embodiment of the present invention, a method of automatically constructing an emotional dictionary includes the step of obtaining an opinion corresponding to the basis of the evaluation opinion from evaluation data containing evaluation opinions about an evaluation object - the evaluation Data belong to one of a plurality of evaluation classes according to the evaluation opinion -; extracting one or more emotion words representing emotion from words in the grounded opinion; and calculating the emotion of the token according to the association between one or more tokens containing one or more of the emotion words and the evaluation classes.

Description

감성 사전을 자동으로 구축하는 방법 및 장치{METHOD AND APPARATUS FOR AUTOMATICALLY CONSTRUCTING SENTIMENT DICTIONARY}Method and apparatus for automatically constructing a sentiment dictionary {METHOD AND APPARATUS FOR AUTOMATICALLY CONSTRUCTING SENTIMENT DICTIONARY}

본 발명은 감성 사전을 구축하는 방법 및 장치에 관한 것으로서, 더욱 상세하게는 사람의 개입 없이 자동적으로 감성 사전을 구축할 수 있으므로, 감성 사전을 신속하고 저비용으로 구축할 수 있으며, 문맥에 따른 감성의 변화까지도 정확하게 반영할 수 있는 감성 사전을 구축하는 방법 및 장치에 관한 것이다.The present invention relates to a method and device for constructing an emotional dictionary. More specifically, the present invention relates to a method and device for constructing an emotional dictionary. More specifically, the emotional dictionary can be constructed automatically without human intervention, so that an emotional dictionary can be constructed quickly and at low cost, and it is possible to construct an emotional dictionary according to the context. It concerns a method and device for building an emotional dictionary that can accurately reflect even changes.

금융시장은 공적 정보(publicly available information)가 시장 가격에 반영되지만 사적 정보(private information)는 시장 가격에 반영되지 않는 준강형 효율성(semi-strong form efficiency)을 가진다.Financial markets have semi-strong form efficiency in which publicly available information is reflected in market prices, but private information is not reflected in market prices.

애널리스트 보고서(analyst report)는 금융시장의 효율성 측면에서 가치 있는 시장정보를 생성하고 이를 공급하는 하나의 통로로서 작용한다. 예를 들어, 애널리스트는 기업의 공시정보를 해석하여 이 정보가 주가에 반영되는 속도를 높이는 역할을 하며, 비공시정보를 발굴하여 이를 시장에 제공함으로써 기업과 투자자 간의 정보 비대칭을 최소화할 수 있다. 따라서, 애널리스트 보고서는 금융시장과 투자자들 사이에 정보의 매개체로서 기능한다고 할 수 있다.Analyst reports serve as a channel for generating and supplying valuable market information in terms of financial market efficiency. For example, analysts interpret a company's disclosed information and play a role in increasing the speed at which this information is reflected in the stock price, and by discovering undisclosed information and providing it to the market, they can minimize information asymmetry between companies and investors. Therefore, it can be said that analyst reports function as a medium of information between the financial market and investors.

애널리스트 보고서의 위와 같은 중요한 기능에도 불구하고, 아래와 같은 이유에서 애널리스트 보고서의 실제 활용도는 제한적인 상황이다.Despite the above important functions of analyst reports, the actual usability of analyst reports is limited for the following reasons.

첫째, 애널리스트는 추천의견, 목표 주가, 이익 예측치 등의 정량지표를 낙관적으로 제시하고, 이해 상충의 문제로 인해 매도 의견의 제시를 최소화하며, 명성의 훼손을 우려하여 평균(대표적인)에 근접한 예측치를 제시(허딩 행태, herding behavior)하는 경향이 있다.First, analysts optimistically present quantitative indicators such as recommended opinions, target stock prices, and profit forecasts, minimize the presentation of sell opinions due to conflict of interest issues, and provide forecasts close to the average (representative) for fear of damage to reputation. There is a tendency to present (herding behavior).

둘째, 허딩 행태로 인하여, 금융시장의 정보 환경이 약화되는 정보의 비효율성이 발생할 수 있으며, 투자자의 입장에서는 보고서의 허딩 여부를 파악하기 어렵기 때문에 애널리스트 보고서 자체의 신뢰도가 하락될 가능성도 있다.Second, herding behavior may result in information inefficiency that weakens the information environment in the financial market, and it is also possible that the reliability of the analyst report itself may decrease because it is difficult for investors to determine whether the report is herding.

셋째, 애널리스트 개인의 높은 노동 강도로 인해 애널리스트 보고서 자체의 가독성과 전달력이 낮아 투자자가 애널리스트 보고서에 기재되어 있는 내용을 해석하기가 어렵다.Third, due to the high labor intensity of individual analysts, the readability and communication power of the analyst report itself is low, making it difficult for investors to interpret the contents of the analyst report.

애널리스트 보고서의 활용도를 높이기 위해, 애널리스트 보고서에 기재되어 있는 정량지표와 정성지표에 대한 연구가 수행되어 왔다.In order to increase the usability of analyst reports, research has been conducted on the quantitative and qualitative indicators described in analyst reports.

애널리스트가 제시하는 정량지표에 대한 시장 반응에 대한 연구, 애널리스트가 제시하는 이익 예측치와 예측 정확성에 대한 연구 등을 정량지표에 대한 연구의 예로 들 수 있다. 또한, 애널리스트 보고서의 감성(긍정 또는 부정)에 따른 시장 반응에 대한 연구를 정성지표에 대한 연구의 대표적인 예로 들 수 있다.Examples of research on quantitative indicators include research on market reactions to quantitative indicators presented by analysts, and research on profit forecasts and forecast accuracy presented by analysts. Additionally, research on market reactions according to the sentiment (positive or negative) of analyst reports can be cited as a representative example of research on qualitative indicators.

대부분의 정성지표에 대한 연구들은 방법론 측면에서 감성 사전을 이용하여 애널리스트 보고서의 감성을 측정하거나 머신 러닝 기법을 활용하여 애널리스트 보고서의 감성을 측정하는데 초점을 맞추고 있다.In terms of methodology, most studies on qualitative indicators focus on measuring the sentiment of analyst reports using sentiment dictionaries or measuring the sentiment of analyst reports using machine learning techniques.

그러나, 종래의 감성 사전은 단어의 구문(syntactic)에 집중하므로 단어의 시멘틱 관계(semantic relations)를 고려하지 않는 점에서 단어의 정확한 감성을 파악하기에는 한계를 가진다. 예를 들어, 동일한 단어라고 하더라도 사용 되어지는 주제나 문맥에 따라 해당 단어의 감성이 달라질 수 있으나, 종래의 감성 사전은 특정한 하나의 단어 단위(1-gram)로 감성을 판단하므로, 주제나 문맥에 따라 단어의 감성이 달라질 수 있는 점을 반영할 수 없다.However, since conventional emotion dictionaries focus on the syntax of words and do not consider semantic relations of words, they have limitations in identifying the exact emotion of words. For example, even if it is the same word, the emotion of the word may vary depending on the topic or context in which it is used, but the conventional emotion dictionary judges the emotion in units of one specific word (1-gram), so it depends on the topic or context. It cannot reflect the fact that the emotion of a word may vary depending on the word.

따라서, 주제나 문맥에 따라 달라질 수 있는 단어의 감성을 반영하기 위하여 N-gram 단위의 감성 사전이 필요하다.Therefore, an N-gram unit emotional dictionary is needed to reflect the emotion of words that may vary depending on topic or context.

한편, 종래의 감성 사전을 구성하기 위해서는 감성 사전에 포함될 단어들에 대한 평가에 사람의 주관적 판단이 개입되며, 머신 러닝 기법의 데이터 셋에 대해서도 사람이 직접 긍정 또는 부정을 판단하여 라벨링하는 과정(사전 학습 과정)이 수행된다. 이러한 이유에서, 동일한 애널리스트 보고서라도 감성 사전 또는 머신 러닝 모델에 따라 감성의 측정 결과가 달라질 수 있는 문제점도 있다.Meanwhile, in order to construct a conventional emotional dictionary, a person's subjective judgment is involved in the evaluation of words to be included in the emotional dictionary, and the process of labeling a data set using machine learning techniques by directly judging whether it is positive or negative (dictionary) learning process) is carried out. For this reason, there is a problem that even in the same analyst report, the emotion measurement results may vary depending on the emotion dictionary or machine learning model.

따라서, 객관적이며 비용 효율적으로 감성을 학습할 수 있는 새로운 방법이 필요하다고 할 수 있다.Therefore, it can be said that a new method for learning emotions objectively and cost-effectively is needed.

전술한 문제점을 해결하기 위하여, 본 발명의 일 실시예는 사람의 주관적 판단이 개입되지 않은 상태에서 구축되며, 주제나 문맥에 따라 달라지는 단어의 정확한 감성을 반영할 수 있는 감성 사전을 구축하는 방법 및 장치를 제공하는 것을 목적으로 한다.In order to solve the above-described problem, an embodiment of the present invention provides a method for constructing an emotional dictionary that is constructed without human subjective judgment and can reflect the accurate emotion of words that vary depending on the topic or context; and The purpose is to provide a device.

본 발명의 일 실시예에 의하면, 감성 사전을 자동으로 구축하는 방법으로서, 평가 대상에 대한 평가 의견이 포함된 평가 데이터들로부터, 상기 평가 의견의 근거에 해당하는 근거 의견을 획득하는 단계 - 상기 평가 데이터들은 상기 평가 의견에 따라 복수 개의 평가 클래스들 중에서 어느 하나에 속함 -; 상기 근거 의견 내 단어들 중에서, 감성을 나타내는 하나 이상의 감성 단어를 추출하는 단계; 및 상기 감성 단어를 하나 이상 포함하는 하나 이상의 토큰(token)과 상기 평가 클래스들 간의 연관관계에 따라, 상기 토큰의 감성을 산출하는 단계를 포함하는 것을 특징으로 하는 방법이 제공된다.According to an embodiment of the present invention, a method of automatically constructing an emotional dictionary includes the step of obtaining an opinion corresponding to the basis of the evaluation opinion from evaluation data containing evaluation opinions about an evaluation object - the evaluation Data belong to one of a plurality of evaluation classes according to the evaluation opinion -; extracting one or more emotion words representing emotion from words in the grounded opinion; and calculating the emotion of the token according to the association between one or more tokens containing one or more of the emotion words and the evaluation classes.

본 발명의 다른 일 실시예에 의하면, 감성 사전을 자동으로 구축하는 장치로서, 평가 대상에 대한 평가 의견이 포함된 평가 데이터들로부터, 상기 평가 의견의 근거에 해당하는 근거 의견을 획득하는 획득부 - 상기 평가 데이터들은 상기 평가 의견에 따라 복수 개의 평가 클래스들 중에서 어느 하나에 속함 -; 상기 근거 의견 내 단어들 중에서, 감성을 나타내는 하나 이상의 감성 단어를 추출하는 추출부; 및 상기 감성 단어를 하나 이상 포함하는 하나 이상의 토큰(token)과 상기 평가 클래스들 간의 연관관계에 따라, 상기 토큰의 감성을 산출하는 산출부를 포함하는 것을 특징으로 하는 장치가 제공된다.According to another embodiment of the present invention, an apparatus for automatically constructing an emotional dictionary, comprising: an acquisition unit that obtains an opinion corresponding to the basis of the evaluation opinion from evaluation data containing an evaluation opinion about an evaluation object - The evaluation data belong to one of a plurality of evaluation classes according to the evaluation opinion; an extraction unit that extracts one or more emotional words representing emotions from among the words in the grounded opinion; and a calculation unit that calculates the emotion of one or more tokens containing one or more emotion words and the evaluation classes according to the association between the tokens.

본 발명의 일 실시예에 의하면, 복수 개의 단어를 포함하는 토큰 단위로 감성 사전이 구축되므로, 주제나 문맥에 따라 달라질 수 있는 단어의 감성을 정확하게 판단할 수 있다.According to one embodiment of the present invention, since a sentiment dictionary is constructed in units of tokens containing a plurality of words, the sentiment of words that may vary depending on the topic or context can be accurately determined.

또한, 본 발명의 다른 일 실시예에 의하면, 사람의 주관적인 판단의 개입 없이 자동적으로 감성 사전이 구축되므로, 감성 판단에 대한 더욱 높은 정확성을 담보할 수 있으며, 새로운 단어를 이용한 감성 사전의 업데이트를 더욱 효율적으로 구현할 수 있다.In addition, according to another embodiment of the present invention, since an emotional dictionary is automatically constructed without the intervention of a person's subjective judgment, higher accuracy in emotional judgment can be ensured, and the emotional dictionary can be further updated using new words. It can be implemented efficiently.

본 개시에서 얻을 수 있는 효과는 이상에서 언급된 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The effects that can be obtained from the present disclosure are not limited to the effects mentioned above, and other effects not mentioned can be clearly understood by those skilled in the art from the description below. will be.

도 1은 감성 사전을 자동으로 구축하는 장치의 구조를 설명하기 위한 블록도이다.
도 2는 감성 사전을 자동으로 구축하는 방법의 일 예를 설명하기 위한 순서도이다.
도 3 및 도 4는 감성 사전을 자동으로 구축하는 방법의 다양한 예들을 설명하기 위한 순서도이다.
도 5는 평가 데이터들에 포함된 횟수를 기준으로 토큰을 선별하는 예를 설명하기 위한 순서도이다.
도 6은 감성 사전을 자동으로 구축하는 방법을 통해 구축된 감성 사전을 이용하여 대상 데이터의 감성을 판단하는 장치의 구조를 설명하기 위한 블록도이다.
도 7은 감성을 측정하는 방법의 일 예를 설명하기 위한 순서도이다.
Figure 1 is a block diagram for explaining the structure of a device that automatically builds an emotional dictionary.
Figure 2 is a flow chart to explain an example of a method for automatically building an emotional dictionary.
Figures 3 and 4 are flowcharts for explaining various examples of methods for automatically building an emotion dictionary.
Figure 5 is a flow chart to explain an example of selecting a token based on the number of times included in evaluation data.
Figure 6 is a block diagram illustrating the structure of a device that determines the emotion of target data using an emotion dictionary constructed through a method of automatically constructing an emotion dictionary.
Figure 7 is a flow chart to explain an example of a method for measuring emotion.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Below, with reference to the attached drawings, embodiments of the present invention will be described in detail so that those skilled in the art can easily implement the present invention. However, the present invention may be implemented in many different forms and is not limited to the embodiments described herein. In order to clearly explain the present invention in the drawings, parts that are not related to the description are omitted, and similar parts are given similar reference numerals throughout the specification.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들이나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.The terms used in the present invention are general terms that are currently widely used as much as possible while considering the functions in the present invention, but they may vary depending on the intention or precedent of a person working in the art, the emergence of new technology, etc. In addition, in certain cases, there are terms arbitrarily selected by the applicant, and in this case, the meaning will be described in detail in the description of the relevant invention. Therefore, the terms used in the present invention should be defined based on the meaning of the term and the overall content of the present invention, rather than simply the name of the term.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 명세서 전체에서 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, "그 중간에 다른 소자를 사이에 두고"연결되어 있는 경우도 포함한다.When it is said that a part "includes" a certain element throughout the specification, this means that, unless specifically stated to the contrary, it does not exclude other elements but may further include other elements. In addition, terms such as "... unit" and "module" used in the specification refer to a unit that processes at least one function or operation, which may be implemented as hardware or software, or as a combination of hardware and software. . In addition, when a part is said to be "connected" to another part throughout the specification, this includes not only the case where it is "directly connected," but also the case where it is connected "with another element in between."

본 발명에 대한 상세한 설명에 앞서, 본 명세서에서 언급되는 용어들과 본 발명이 적용될 수 있는 범위를 정의한다.Before a detailed description of the present invention, the terms mentioned in this specification and the scope to which the present invention can be applied are defined.

평가 데이터: 평가 데이터는 유저가 특정한 대상이 제공하는 서비스나 재화를 이용하거나 특정한 대상을 분석한 후에, 해당 서비스나 재화 또는 특정한 대상에 대해 작성한 평가 결과물을 의미한다. Evaluation data: Evaluation data refers to the evaluation results written by a user about a service or product or a specific object after using a service or product provided by a specific object or analyzing a specific object.

또한, 평가 데이터는 감성 사전을 구축하기 위해 이용되는 로우(raw) 데이터에 해당한다. 본 발명은 평가 데이터에 포함된 정보들을 이용한 머신 러닝 기법을 통해 감성 사전을 구축하므로, 평가 데이터는 학습 데이터에 해당할 수 있다.Additionally, the evaluation data corresponds to raw data used to build an emotional dictionary. Since the present invention builds an emotional dictionary through machine learning techniques using information included in evaluation data, the evaluation data may correspond to learning data.

평가 대상: 평가 대상은 평가 결과물을 통해 평가된 서비스나 재화 또는 특정한 대상에 해당한다.Evaluation object: The evaluation object corresponds to the service, goods, or specific object evaluated through the evaluation results.

유저: 유저는 관광객, 영화 관람객, 시청자, 고객, 분석가, 고용주 등에 해당할 수 있다. User: Users can be tourists, moviegoers, viewers, customers, analysts, employers, etc.

특정한 대상: 특정한 대상은 기업, 고용인 등에 해당할 수 있으며, 서비스나 재화는 상품, 영화, 음식, 고용인이 고용주에게 제공한 업무 등에 해당할 수 있다.Specific target: A specific target can be a company, an employee, etc., and a service or good can be a product, movie, food, work provided by the employee to the employer, etc.

따라서, 평가 데이터는 관광지에 대해 작성된 관광객의 리뷰, 영화에 대해 작성된 영화 관람객의 리뷰, 영상 프로그램에 대해 작성된 시청자의 리뷰, 기업에 대해 작성된 애널리스트 보고서, 상품에 대해 작성된 고객의 리뷰, 고용인에 대해 작성된 고용주의 평가 등에 해당할 수 있다.Therefore, evaluation data can include reviews written by tourists about tourist destinations, reviews by moviegoers written about movies, viewers' reviews written about video programs, analyst reports written about companies, customer reviews written about products, reviews written about employers. This may apply to the employer's evaluation, etc.

또한, 평가 데이터는 SNS의 게시글, 인터넷 게시판의 게시글, 증권사에서 제공하는 보고서 관리 시스템에 업로드된 보고서, 인력 정보를 공유하는 인터넷 웹페이지에 업로드된 정보 등과 같이 다양한 형태로 존재할 수 있다.Additionally, evaluation data may exist in various forms, such as postings on SNS, postings on Internet bulletin boards, reports uploaded to a report management system provided by a securities company, and information uploaded to an Internet web page that shares personnel information.

평가 데이터에는 '평가 의견'과 '근거 의견'이 포함될 수 있다.Evaluation data may include ‘evaluation opinion’ and ‘supporting opinion’.

평가 의견: 평가 의견은 평가 대상에 대한 최종적 또는 종합적인 평가 결과물에 해당한다. 예를 들어, 평가 의견은 리뷰에 포함된 레이팅(rating) 값, 보고서에 포함된 추천 의견 또는 목표 주가 등에 해당할 수 있다. 또한, 평가 의견은 실제 시장 수익률을 포함할 수도 있다.Evaluation opinion: Evaluation opinion corresponds to the final or comprehensive evaluation result of the evaluation object. For example, the evaluation opinion may correspond to a rating value included in a review, a recommendation opinion included in a report, or a target stock price, etc. Additionally, evaluation opinions may include actual market returns.

평가 의견은 수치화된 데이터 등과 같이 서로 구분될 수 있는 복수 개의 등급 형태일 수 있다. 다른 예로, 평가 의견은 '좋아요'및 '화나요', '긍정' 및 '부정', '구매 추천' 및 '비구매 추천', '상승 예상' 및 '하락 예상' 등과 같이 감성의 강도가 서로 구분될 수 있는 형태일 수도 있다. 또한, 평가 의견은 '좋아요', '훈훈해요', '슬퍼요', '화나요' 및 '후속기사 원해요' 등과 3개 이상의 강도로 구분되는 형태일 수도 있다.Evaluation opinions may be in the form of multiple grades that can be distinguished from each other, such as numerical data. As another example, evaluation opinions are differentiated in terms of emotional intensity, such as 'like' and 'angry', 'positive' and 'negative', 'recommend to buy' and 'recommend not to buy', 'expected to rise' and 'expected to fall', etc. It may be in a possible form. Additionally, the evaluation opinion may be divided into three or more intensities, such as 'I like it', 'It's heartwarming', 'I'm sad', 'I'm angry', and 'I want a follow-up article'.

평가 클래스: 평가 의견은 수치 또는 감성의 강도에 따라 서로 구분될 수 있는 복수 개의 등급들로 구성될 수 있으며, 이 복수 개의 등급들 각각이 평가 클래스를 구성할 수 있다. 실시 형태를 달리하여, 평가 클래스는 평가 의견에 포함된 복수 개의 등급들과는 다른 구분을 가지는 새로운 형태로 구성될 수도 있다.Evaluation class: An evaluation opinion may be composed of a plurality of grades that can be distinguished from each other according to numerical value or emotional intensity, and each of these plurality grades may constitute an evaluation class. In a different embodiment, the evaluation class may be configured in a new form with a distinction different from the plurality of grades included in the evaluation opinion.

근거 의견: 근거 의견은 평가 의견의 근거 또는 이유에 해당하는 평가 결과물을 의미한다. 예를 들어, 평가 데이터가 "어떠한 이유에서 어떠한 평가가 적절하다"라고 작성된 경우에, '어떠한 이유'에 해당하는 부분이 본 명세서에서 언급되는 근거 의견에 해당하게 된다.Ground opinion: Ground opinion refers to the evaluation result corresponding to the basis or reason for the evaluation opinion. For example, if the evaluation data is written as “a certain evaluation is appropriate for a certain reason,” the part corresponding to “a certain reason” corresponds to the supporting opinion mentioned in this specification.

본 발명이 적용될 수 있는 범위: 앞서 설명된 바와 같이, 로우 데이터에 해당하는 평가 데이터는 다양한 종류 또는 형태를 가질 수 있다. 따라서, 본 발명은 평가 데이터가 가질 수 있는 다양한 종류 또는 형태 모두에 적용될 수 있다.Scope to which the present invention can be applied: As described above, evaluation data corresponding to raw data may have various types or forms. Accordingly, the present invention can be applied to all of the various types or forms that evaluation data can have.

예를 들어, 평가 데이터가 리뷰에 해당하는 경우에 본 발명은 리뷰에 특화된 감성 사전을 구축하는 방법으로 이용될 수 있다. 다른 예로, 평가 데이터가 고용주의 고용인에 대한 평가에 해당하는 경우에 본 발명은 고용인의 평가에 특화된 감성 사전을 구축하는 방법으로 이용될 수도 있다. 또 다른 예로, 평가 데이터가 애널리스트 보고서에 해당하는 경우에 본 발명은 애널리스트 보고서에 특화된 감성 사전을 구축하는 방법으로 이용될 수도 있다. For example, when the evaluation data corresponds to a review, the present invention can be used as a method of building an emotional dictionary specialized for reviews. As another example, when the evaluation data corresponds to the employer's evaluation of the employee, the present invention may be used as a method of constructing an emotional dictionary specialized for the evaluation of the employee. As another example, when the evaluation data corresponds to an analyst report, the present invention may be used as a method of constructing an emotional dictionary specialized for the analyst report.

실시 형태에 따라, 본 발명은 기업군 또는 산업군 별로 특화된 감성 사전을 구축하는 방법으로도 이용될 수 있다. 예를 들어, 보고서(평가 데이터)에 "유가 상승"이라는 감성 단어(토큰)가 포함되어 있는 경우에, 해당 토큰은 특정 산업군(정유 회사)에 대해서는 긍정적인 감성을 가지지만, 다른 산업군(오일을 원자재로 하여 상품을 생산하는 산업)에 대해서는 부정적인 감성을 가질 수 있다. 이러한 특성을 반영하기 위해, 본 발명은 감성 사전이 이용되는 산업군 별로 구분하여 별도의 학습 과정을 수행하도록 구성될 수 있다.Depending on the embodiment, the present invention can also be used as a method of constructing an emotional dictionary specialized for each company or industry. For example, if a report (evaluation data) contains the sentiment word (token) “rising oil prices,” that token will have a positive sentiment toward a specific industry (oil companies), but may have a positive sentiment toward another industry (oil companies). You may have negative feelings toward industries that produce goods using raw materials. In order to reflect these characteristics, the present invention can be configured to perform a separate learning process by dividing each industry group in which the emotional dictionary is used.

본 명세서를 통하여, '감성 사전의 자동 구축'과 '구축된 감성 사전을 이용한 감성 측정'이 제안된다. 이하에서는, 평가 데이터가 애널리스트 보고서인 예를 중심으로 하여 본 발명에 대해 구체적으로 설명하도록 한다.Through this specification, 'automatic construction of an emotion dictionary' and 'emotion measurement using a constructed emotion dictionary' are proposed. Below, the present invention will be described in detail focusing on an example where the evaluation data is an analyst report.

1. 감성 사전의 자동 구축1. Automatic construction of emotional dictionary

도 1은 감성 사전을 자동으로 구축하는 장치(이하 '구축 장치'라 한다)(100)의 구조를 설명하기 위한 블록도이며, 도 2는 감성 사전을 자동으로 구축하는 방법(이하 '구축 방법'이라 한다)의 일 예를 설명하기 위한 순서도이다. 도 5는 출현 횟수를 기준으로 토큰을 선별하는 예를 설명하기 위한 순서도이다.Figure 1 is a block diagram for explaining the structure of a device 100 for automatically building an emotional dictionary (hereinafter referred to as 'construction device'), and Figure 2 is a method for automatically building an emotional dictionary (hereinafter referred to as 'construction method'). This is a flowchart to explain an example of). Figure 5 is a flow chart to explain an example of selecting tokens based on the number of appearances.

도 1에 도시된 바와 같이, 구축 장치(100)는 획득부(110), 추출부(120) 및 산출부(130)를 포함하여 구성될 수 있다. 실시 형태에 따라, 구축 장치(100)는 선별부(140)를 더 포함하여 구성될 수도 있으며, 산출부(130)는 연산부(132) 및 감성 산출부(134)를 포함하여 구성될 수 있다.As shown in FIG. 1, the construction device 100 may be configured to include an acquisition unit 110, an extraction unit 120, and a calculation unit 130. Depending on the embodiment, the construction device 100 may further include a selection unit 140, and the calculation unit 130 may include a calculation unit 132 and an emotion calculation unit 134.

획득부(110)는 평가 데이터에 해당하는 애널리스트 보고서들로부터 근거 의견 및/또는 평가 의견을 획득할 수 있다(S210).The acquisition unit 110 may obtain a grounded opinion and/or an evaluation opinion from analyst reports corresponding to the evaluation data (S210).

앞서 설명된 바와 같이, 애널리스트 보고서에는 평가 대상(예를 들어, 기업)에 대한 추천 의견과 목표 주가(평가 의견)가 포함되어 있으며, 이러한 추천 의견과 목표 주가가 도출된 근거 또는 이유에 대한 의견(근거 의견)도 포함되어 있다.As previously explained, an analyst report includes recommendations for an evaluation target (e.g., a company) and a target stock price (rating opinion), and an opinion on the basis or reasons for which these recommendations and target stock price were derived (e.g., a company). supporting opinions) are also included.

애널리스트 보고서들 각각은 복수 개의 평가 클래스들 중에서 어느 하나에 속할 수 있다. 어느 애널리스트 보고서로부터 획득된 추천 의견과 목표 주가는 복수 개의 등급들 중에서 어느 하나의 등급에 해당할 수 있으며, 이 추천 의견과 목표 주가가 속하는 등급에 따라 해당 애널리스트 보고서가 속하는 평가 클래스가 결정될 수 있다. 예를 들어, 평가 클래스는 'sell', 'hold' 및 'buy'로 구분되거나, 'downgrade', 'reiteration' 및 'upgrade'로 구분될 수도 있다.Each of the analyst reports may belong to one of a plurality of evaluation classes. The recommended opinion and target stock price obtained from an analyst report may correspond to one of a plurality of grades, and the evaluation class to which the corresponding analyst report belongs may be determined depending on the grade to which this recommended opinion and target stock price belong. For example, evaluation classes may be divided into 'sell', 'hold' and 'buy', or 'downgrade', 'reiteration' and 'upgrade'.

추출부(120)는 근거 의견에 포함된 단어들 중에서 하나 이상의 감성 단어를 추출할 수 있다(S220).The extraction unit 120 may extract one or more emotional words from words included in the grounded opinion (S220).

감성 단어는 감성을 나타내는 단어를 의미한다. 감성 단어는 긍정적인 감성을 나타내는 긍정 단어와 부정적인 감성을 나타내는 부정 단어로 구분될 수 있다. 긍정 단어와 부정 단어는 감성의 강도에 따라 강한 긍정 단어, 긍정 단어, 부정 단어, 강한 부정 단어 등과 같이 더욱 세부적인 그룹으로 분류될 수도 있다.Emotion words refer to words that express emotion. Emotion words can be divided into positive words expressing positive emotions and negative words expressing negative emotions. Positive and negative words may be classified into more detailed groups, such as strong positive words, positive words, negative words, and strong negative words, depending on the intensity of emotion.

실시 형태에 따라, 추출부(120)는 특정 품사에 해당하는 단어들만을 감성 단어로 추출하거나, 다른 품사에 해당하는 단어들을 추출하지 않도록 구성될 수도 있다. Depending on the embodiment, the extraction unit 120 may be configured to extract only words corresponding to a specific part of speech as emotional words or to not extract words corresponding to other parts of speech.

예를 들어, 추출부(120)는 근거 의견에 포함된 모든 단어들 중에서 숫자와 특수 문자를 추출하지 않도록 구성될 수 있다. 이는, 숫자와 특수 문자의 경우에는 감성의 표현에 이용되지 않음을 반영한 결과로서, 감성 단어로 추출되는 후보의 개수를 미리 감소시켜 감성 단어 추출 프로세싱을 더욱 효율적으로 구현하기 위함이다.For example, the extraction unit 120 may be configured not to extract numbers and special characters from all words included in the supporting opinion. This is a result that reflects the fact that numbers and special characters are not used to express emotions, and is intended to implement emotional word extraction processing more efficiently by reducing the number of candidates extracted as emotional words in advance.

이에 대응하여, 추출부(120)는 감성의 표현에 주로 이용되는 품사들(명사, 동사, 형용사, 부사, 부정어 등) 중에서 일부 또는 전부의 품사들만을 추출하도록 구성될 수 있다.Correspondingly, the extraction unit 120 may be configured to extract only some or all of the parts of speech (nouns, verbs, adjectives, adverbs, negatives, etc.) that are mainly used to express emotions.

다른 예로, 추출부(120)는 한국어에 특화된 감성 사전 구축을 위해 영어를 포함한 다른 나라의 언어에 해당하는 단어를 추출하지 않도록 구성될 수도 있다. As another example, the extraction unit 120 may be configured not to extract words corresponding to other languages, including English, in order to build an emotional dictionary specialized for the Korean language.

산출부(130)는 토큰(token)과 평가 클래스들 간의 연관관계에 따라, 해당 토큰의 감성을 산출할 수 있다(S230). 여기서, 토큰의 감성을 산출하는 것은 해당 토큰의 감성을 학습하는 것일 수 있다.The calculation unit 130 may calculate the emotion of the token according to the correlation between the token and the evaluation classes (S230). Here, calculating the emotion of a token may mean learning the emotion of the token.

토큰은 하나 이상의 감성 단어로 구성될 수 있다. 예를 들어, 토큰은 하나의 감성 단어(1-gram 토큰)로 구성되거나, 복수 개의 감성 단어(n-gram 토큰, n은 2 이상의 자연수로서 포함되는 감성 단어의 개수를 나타냄)를 포함하여 구성될 수 있다. A token may consist of one or more emotional words. For example, a token may be composed of one emotional word (1-gram token), or may be composed of multiple emotional words (n-gram token, where n is a natural number of 2 or more and represents the number of included emotional words). You can.

복수 개의 감성 단어를 하나의 토큰으로 변환하는 이유는 하나의 토큰에 포함되는 감성 단어의 개수가 많아질수록 주제나 문맥에 따라 달라질 수 있는 단어의 감성을 더욱 정확하게 반영할 수 있기 때문이다. The reason for converting multiple emotional words into one token is that as the number of emotional words included in one token increases, the emotionality of the word, which may vary depending on the topic or context, can be more accurately reflected.

한편, 본 발명의 선별부(140)는 토큰들 중에서 애널리스트 보고서에 미리 설정된 횟수 이상으로 출현한 토큰만을 선별하고(S510), 산출부(130)는 선별된 토큰과 평가 클래스들 간의 연관관계에 따라, 선별된 토큰의 감성을 산출할 수 있다(S520). 여기서, 미리 설정된 횟수는 해당 토큰이 애널리스트 보고서의 실제 감성을 반영한다고 볼 수 있을 만한 최소한의 출현 횟수를 의미한다.Meanwhile, the selection unit 140 of the present invention selects only tokens that appear more than a preset number of times in the analyst report among the tokens (S510), and the calculation unit 130 selects the tokens according to the correlation between the selected tokens and evaluation classes. , the emotion of the selected token can be calculated (S520). Here, the preset number refers to the minimum number of appearances that the token can be considered to reflect the actual sentiment of the analyst report.

따라서, 하나의 토큰에 포함되는 감성 단어의 개수가 많아질수록 주제나 문맥에 따라 달라질 수 있는 단어의 감성을 더욱 정확하게 반영할 수 있는 반면에, 해당 토큰이 애널리스트 보고서에 출현하는 횟수는 상대적으로 작아지므로, 해당 토큰이 감성 사전의 구축에 이용되지 않을 수 있다(즉, 필터링될 수 있다).Therefore, the greater the number of emotional words included in one token, the more accurately it can reflect the emotion of the word, which may vary depending on the topic or context. However, the number of times that token appears in analyst reports is relatively small. Therefore, the token may not be used to build the sentiment dictionary (i.e., it may be filtered).

이러한 문제를 해결하기 위하여, 선별부(140)는 어느 토큰에 포함된 감성 단어의 개수에 따라 토큰 필터링의 기준이 되는 미리 설정된 횟수를 조절할 수 있다. 예를 들어, 선별부(140)는 어느 토큰에 포함된 감성 단어의 개수가 증가할수록 미리 설정된 횟수를 감소시키며, 어느 토큰에 포함된 감성 단어의 개수가 감소할수록 미리 설정된 횟수를 증가시킬 수 있다.To solve this problem, the selection unit 140 can adjust the preset number of times that is the standard for token filtering according to the number of emotional words included in a token. For example, the selection unit 140 may decrease the preset number as the number of emotional words included in a token increases, and may increase the preset number as the number of emotional words included in a token decreases.

토큰과 평가 클래스들 간의 연관관계는 해당 토큰이 평가 클래스들 각각에 포함된 정도일 수 있다. 연관관계는 두 가지의 예가 이용될 수 있으며, 연관관계의 두 가지 예들에 대한 구체적인 내용이 도 3 및 도 4 각각에 표현되어 있다.The relationship between a token and evaluation classes may be the degree to which the token is included in each of the evaluation classes. Two examples of the association relationship can be used, and specific details about the two examples of the association relationship are shown in FIGS. 3 and 4, respectively.

1.1. 연관관계 11.1. Relationship 1

첫 번째 예(도 3)에서, 평가 클래스들은 두 개의 평가 클래스들로 구분될 수 있다. 두 개의 평가 클래스들은 긍정적 감성의 평가 의견(예를 들어, 추천 의견 상향)에 해당하는 긍정 클래스와 부정적 감성의 평가 의견(예를 들어, 추천 의견 하향)에 해당하는 부정 클래스이다. In the first example (Figure 3), the evaluation classes can be divided into two evaluation classes. The two evaluation classes are a positive class corresponding to an evaluation opinion with positive sentiment (e.g., upward recommendation) and a negative class corresponding to an evaluation opinion with negative sentiment (e.g., downward recommendation).

따라서, 애널리스트 보고서들 각각은 긍정 클래스 및 부정 클래스 중에서 어느 하나에 속하게 된다. 긍정 클래스에 속하는 애널리스트 보고서는 추천 의견 상향 보고서에 해당하며, 부정 클래스에 속하는 애널리스트 보고서는 추천 의견 하향 보고서에 해당한다.Accordingly, each of the analyst reports belongs to either the positive class or the negative class. An analyst report belonging to the positive class corresponds to a report with an upward recommendation, and an analyst report belonging to the negative class corresponds to a report with a downward recommendation.

연산부(132)는 추천 의견 상향 보고서들에 해당 토큰이 포함된 개수(출현 횟수)와, 추천 의견 하향 보고서들에 해당 토큰이 포함된 개수 사이의 비율(출현 비율)을 비교 연산할 수 있다(S310). The calculation unit 132 may compare and calculate the ratio (appearance ratio) between the number (number of appearances) of the token included in the recommendations upward reports and the number of the tokens included in the recommendation downgrade reports (S310 ).

즉, 첫 번째 예에서 연관관계는 추천 의견 상향 보고서들에 해당 토큰이 출현한 횟수와, 추천 의견 하향 보고서들에 해당 토큰이 출현한 횟수 사이의 비율이다. S310 과정은 베이즈 확률을 기반으로 하여 수행될 수 있다.That is, in the first example, the correlation is the ratio between the number of times the token appears in reports with upward recommendation opinions and the number of times the token appears in reports with downward recommendation opinions. The S310 process may be performed based on Bayesian probability.

감성 산출부(134)는 연산부(132)에 의해 연산된 비율에 따라, 긍정 감성과 부정 감성 중에서 해당 토큰의 감성을 산출할 수 있다(S320). The emotion calculation unit 134 may calculate the emotion of the corresponding token from positive emotion and negative emotion according to the ratio calculated by the calculation unit 132 (S320).

해당 토큰이 추천 의견 하향 보고서에 비해 추천 의견 상향 보고서에 더욱 많이 출현한 경우에는 해당 토큰의 감성이 긍정 감성으로 산출될 수 있다. 이와 달리, 해당 토큰이 추천 의견 상향 보고서에 비해 추천 의견 하향 보고서에 더욱 많이 출현한 경우에는 해당 토큰의 감성이 부정 감성으로 산출될 수 있다.If the token appears more frequently in the report with an upward recommendation than in the report with a downward recommendation, the sentiment of the token may be calculated as a positive sentiment. On the other hand, if the token appears more often in the report with a lower recommendation opinion than in the report with an upward recommendation, the sentiment of the token may be calculated as a negative sentiment.

산출부(130)는 모든 토큰들에 대하여 S310 과정과 S320 과정을 수행함으로써, 긍정 감성을 가지는 토큰들의 리스트와 부정 감성을 가지는 토큰들의 리스트를 분류할 수 있다.The calculation unit 130 can classify a list of tokens with positive sentiment and a list of tokens with negative sentiment by performing processes S310 and S320 on all tokens.

2016년부터 2018년 사이에 KOSPI 200 종목에 대해 발행된 총 510개의 애널리스트 보고서들을 대상으로, 첫 번째 예를 검증하기 위한 테스트를 수행하였다. 애널리스트 보고서들 중에서 242개는 추천 의견 상향 보고서이며, 나머지 268개는 추천 의견 하향 보고서이다.A test to verify the first example was conducted on a total of 510 analyst reports published on KOSPI 200 stocks between 2016 and 2018. Among the analyst reports, 242 are reports with upward recommendations, and the remaining 268 are reports with downward recommendations.

애널리스트 보고서들 내 본문 텍스트(근거 의견)에 대해 영문, 숫자 및 특수문자를 제거한 후에 KoNLPy 형태소 분석기를 활용하여 명사, 형용사 및 부사만을 감성 단어로 추출한 뒤, 추출된 감성 단어를 총 81,494개의 1-gram 토큰 및 93,818개의 2-gram 토큰으로 변환하였다.After removing English letters, numbers, and special characters from the main text (supporting opinions) in analyst reports, only nouns, adjectives, and adverbs were extracted as emotional words using KoNLPy morpheme analyzer, and then a total of 81,494 1-gram extracted emotional words were extracted. token and converted into 93,818 2-gram tokens.

토큰들 중에서 절대적 출현 빈도가 10 이상인 토큰들만을 선별하였으며, 선별된 토크들에 대해 베이즈 확률을 기반으로 출현 횟수 사이의 비율(연관관계)를 연산하였다.Among the tokens, only tokens with an absolute frequency of appearance of 10 or more were selected, and the ratio (correlation) between the number of appearances was calculated for the selected torques based on Bayesian probability.

이 후, 연관관계에 따라 토큰들의 감성을 산출하였으며, 그 결과 긍정 감성으로 산출된 토큰들의 리스트와 부정 감성으로 산출된 토큰들의 리스트는 표 1 및 표 2 각각과 같다.Afterwards, the emotions of the tokens were calculated according to the correlation, and as a result, the list of tokens calculated with positive emotions and the list of tokens calculated with negative emotions are shown in Tables 1 and 2, respectively.

1.2. 연관관계 21.2. Relationship 2

두 번째 예(도 4)에서, 평가 클래스들은 복수 개의 평가 클래스들로 구분될 수 있다. 복수 개의 평가 클래스들은 평가 의견의 강도에 따라 서로 구분될 수 있다. In the second example (FIG. 4), evaluation classes may be divided into a plurality of evaluation classes. A plurality of evaluation classes may be distinguished from each other according to the strength of the evaluation opinion.

산출부(130)는 토큰이 평가 클래스들 각각에 속할 확률을 해당 토큰의 감성으로 산출할 수 있다(S410). 즉, 두 번째 예에서 연관관계는 해당 토큰이 평가 클래스들 각각에 포함될 확률이다. S410 과정은 베이즈 확률 또는 수정된 베이즈 확률을 기반으로 하여 수행될 수 있다.The calculation unit 130 may calculate the probability that a token belongs to each of the evaluation classes based on the emotion of the token (S410). That is, in the second example, the correlation is the probability that the token is included in each of the evaluation classes. The S410 process may be performed based on Bayes probability or modified Bayes probability.

구체적으로, 연산부(132)는 평가 클래스들 중에서, '어느 하나의(특정) 평가 클래스에 속하는 애널리스트 보고서들에 해당 토큰이 출현한 비율(제1비율)'과, '나머지(다른) 평가 클래스들에 속하는 애널리스트 보고서들에 해당 토큰이 출현한 비율(제2비율)'을 연산할 수 있다(S412). 연산부(132)는 S412의 연산 과정을 평가 클래스들 별로 수행하여, 평가 클래스들 별로 비율들(제1비율 및 제2비율)을 연산할 수 있다.Specifically, among the evaluation classes, the calculation unit 132 calculates 'the ratio (first ratio) in which the corresponding token appears in analyst reports belonging to one (specific) evaluation class' and 'the remaining (other) evaluation classes. The ratio (second ratio) in which the corresponding token appears in analyst reports belonging to 'can be calculated (S412). The calculation unit 132 may perform the calculation process of S412 for each evaluation class and calculate ratios (first ratio and second ratio) for each evaluation class.

감성 산출부(134)는 연산된 비율들에 해당하는 확률을 해당 토큰의 감성으로 산출할 수 있다(S414). 이러한 과정을 통해, 해당 토큰이 평가 클래스들 각각에 포함될 확률(감성)이 산출될 수 있다.The emotion calculation unit 134 may calculate the probability corresponding to the calculated ratios as the emotion of the corresponding token (S414). Through this process, the probability (sentiment) that the token is included in each of the evaluation classes can be calculated.

산출부(130)는 모든 토큰들에 대하여 S410 과정을 수행함으로써, 복수 개의 평가 클래스들 중에서 특정의 평가 클래스에 속할 확률이 가장 높은 토큰들의 리스트를 분류할 수 있다.The calculation unit 130 may classify a list of tokens with the highest probability of belonging to a specific evaluation class among a plurality of evaluation classes by performing process S410 on all tokens.

2016년부터 2018년 사이에 KOSPI 200 종목에 대해 발행된 애널리스트 보고서들을 대상으로, 두 번째 예를 검증하기 위한 테스트를 수행하였다. A test to verify the second example was conducted on analyst reports published on KOSPI 200 stocks between 2016 and 2018.

애널리스트 보고서들에 포함된 평가 의견(목표 주가)의 방향성(dTPRC)과 누적 초과 수익률(CAR, cumulative abnormal returns)의 방향성 사이의 관계를 통해 총 4개의 평가 클래스들을 구성하였다. 여기서, 누적 초과 수익률은 종목 수익률에서 시장 수익률을 차감함 값으로서, 해당 애널리스트 보고서 발행일과 그 다음날 사이의 초과 수익률을 누적한 값이다. 평가 클래스들의 구성과 각 평가 클래스들에 속하는 애널리스트 보고서들의 개수는 아래 표 3과 같다.A total of four evaluation classes were formed through the relationship between the direction of evaluation opinions (target stock price) included in analyst reports (dTPRC) and the direction of cumulative abnormal returns (CAR). Here, the cumulative excess return is the value obtained by subtracting the market return from the stock return, and is the accumulated excess return between the date of publication of the relevant analyst report and the next day. The composition of the evaluation classes and the number of analyst reports belonging to each evaluation class are shown in Table 3 below.

표 3의 목표 주가의 방향성에서, (-)는 특정 애널리스트가 t-1 시점에 발행한 보고서에서 제시한 목표 주가가 t 시점에 발행한 보고서에서 제시한 목표 주가보다 높음(즉, 목표 주가 하향)을 의미하고, (+)는 그 반대(즉, 목표 주가 상향)를 의미한다. 여기서, t 시점은 현재의 시점이며, t-1 시점은 t 시점 직전의 시점이므로, t-1 시점에 발행한 보고서는 t 시점에 발행한 보고서의 직전에 발행한 보고서이다. 표 3의 초과 수익률의 방향성에서, (-)는 수익률이 낮아짐(보고서 발행 시점부터 2일간 수익률이 낮아짐)을 의미하고, (+)는 그 반대를 의미하며, None는 수익률에 변동이 없음을 의미한다.In the direction of the target stock price in Table 3, (-) means that the target stock price presented by a specific analyst in the report published at time t-1 is higher than the target stock price presented in the report published at time t (i.e., the target stock price is lowered). means, and (+) means the opposite (i.e., raising the target stock price). Here, time t is the current time, and time t-1 is the time immediately before time t, so the report issued at time t-1 is the report issued immediately before the report issued at time t. In the direction of excess return in Table 3, (-) means that the rate of return is lower (the rate of return is lower for 2 days from the time of report publication), (+) means the opposite, and None means that there is no change in rate of return. do.

애널리스트 보고서들 내 본문 텍스트(근거 의견)에 대해 영문, 숫자 및 특수문자를 제거한 후에 경제/금융 분야에 특화된 eKoNLPy 형태소 분석기를 활용하여 명사, 형용사, 부사, 동사 및 부정어만을 감성 단어로 추출한 뒤, 추출된 감성 단어를 1-gram 토큰 내지 5-gram 토큰으로 변환하였다. After removing English letters, numbers, and special characters from the main text (supporting opinions) in analyst reports, only nouns, adjectives, adverbs, verbs, and negative words are extracted as emotional words using the eKoNLPy morpheme analyzer specialized in the economic/financial field. The emotional words were converted into 1-gram tokens or 5-gram tokens.

토큰들 중에서 절대적 출현 빈도가 10 이상인 토큰들만을 선별하였으며, 선별된 토크들에 대해 수정된 베이즈 확률을 기반으로 비율들(연관관계)를 연산하였다.Among the tokens, only tokens with an absolute frequency of occurrence of 10 or more were selected, and ratios (associations) were calculated based on modified Bayes probability for the selected torques.

이 후, 연관관계에 해당하는 확률들에 따라 토큰들의 감성을 산출하였으며, 그 결과 각 평가 클래스들에 대한 토큰들의 리스트는 표 4 내지 표 7 각각과 같다.Afterwards, the sentiment of the tokens was calculated according to the probabilities corresponding to the correlation, and as a result, the list of tokens for each evaluation class is shown in Tables 4 to 7, respectively.

2. 구축된 감성 사전을 이용한 감성 측정2. Sentiment measurement using the constructed emotion dictionary

도 6은 앞에서 설명된 구축 방법을 통해 구축된 감성 사전을 이용하여 감성 측정 대상의 감성을 측정하는 장치(이하 '측정 장치'라 한다)(600)의 구조를 설명하기 위한 블록도이며, 도 7은 감성을 측정하는 방법(이하 '측정 방법'이라 한다)의 일 예를 설명하기 위한 순서도이다.Figure 6 is a block diagram for explaining the structure of a device (hereinafter referred to as 'measurement device') 600 that measures the emotion of an emotion measurement target using an emotion dictionary constructed through the construction method described above, and Figure 7 is a flow chart to explain an example of a method for measuring emotion (hereinafter referred to as 'measurement method').

도 6에 도시된 바와 같이, 측정 장치(600)는 감성 획득부(610), 감성 추출부(620) 및 감성 산출부(630)를 포함하여 구성될 수 있다.As shown in FIG. 6 , the measurement device 600 may be configured to include an emotion acquisition unit 610, an emotion extraction unit 620, and an emotion calculation unit 630.

감성 획득부(610)는 대상 데이터로부터 하나 이상의 감성 단어를 획득할 수 있다(S710).The emotion acquisition unit 610 may acquire one or more emotion words from the target data (S710).

대상 데이터는 감성 측정의 대상에 해당하는 데이터를 의미한다. 대상 데이터는 앞에서 설명된 평가 데이터와 같이 다양한 종류와 형태를 가질 수 있다. 이하에서는, 대상 데이터가 애널리스트 보고서에 해당되는 예를 중심으로 하여 측정 장치(600)에 대해 설명하도록 한다.Target data refers to data corresponding to the target of emotion measurement. Target data may have various types and forms, such as the evaluation data described above. Hereinafter, the measurement device 600 will be described focusing on an example in which the target data corresponds to an analyst report.

감성 획득부(610)는 애널리스트 보고서로부터 해당 애널리스트 보고서 내 텍스트 데이터를 획득하고, 텍스트 데이터 내에 포함되어 있는 하나 이상의 단어 중에서 감성을 나타내는 감성 단어를 획득할 수 있다. 감성 획득부(610)에 의해 획득되는 텍스트 데이터는 해당 애널리스트 보고서에서 기재된 평가 의견의 근거에 해당하는 근거 의견일 수 있다.The emotion acquisition unit 610 may obtain text data within the analyst report from the analyst report and obtain an emotion word representing emotion from one or more words included in the text data. The text data acquired by the emotion acquisition unit 610 may be an opinion corresponding to the basis for the evaluation opinion stated in the corresponding analyst report.

실시 형태에 따라, 감성 획득부(610)는 특정 품사에 해당하는 단어들만을 감성 단어로 획득하거나, 다른 품사에 해당하는 단어들을 획득하지 않도록 구성될 수도 있다. Depending on the embodiment, the emotion acquisition unit 610 may be configured to acquire only words corresponding to a specific part of speech as emotion words, or may not acquire words corresponding to other parts of speech.

예를 들어, 감성 획득부(610)는 텍스트 데이터 내에 포함된 모든 단어들 중에서 숫자와 특수 문자를 제외하거나, 영어를 제외할 수 있다. 또한, 감성 획득부(610)는 명사, 동사, 형용사, 부사 및 부정어 중에서 전부를 감성 단어로 획득하거나, 일부만을 감성 단어로 획득할 수도 있다.For example, the emotion acquisition unit 610 may exclude numbers and special characters or exclude English from all words included in text data. Additionally, the emotion acquisition unit 610 may obtain all of the nouns, verbs, adjectives, adverbs, and negative words as emotion words, or may acquire only some of them as emotion words.

감성 획득부(610)에 의해 감성 단어로 획득되는 특정 품사는 감성 사전의 구축에 이용된 품사와 일치할 수 있다. 이는, 감성 획득부(610)에 의해 획득된 감성 단어와 감성 사전과의 비교를 통해 감성 단어의 감성을 측정하는 단계에서, 감성을 더욱 정확하게 측정하기 위함이다.The specific part of speech acquired as an emotion word by the emotion acquisition unit 610 may match the part of speech used to construct the emotion dictionary. This is to measure the emotion more accurately in the step of measuring the emotion of the emotion word by comparing the emotion word acquired by the emotion acquisition unit 610 with the emotion dictionary.

감성 추출부(620)는 획득된 하나 이상의 감성 단어를 포함하는 토큰 각각의 감성을 추출할 수 있다(S720). The emotion extraction unit 620 may extract the emotion of each token containing one or more acquired emotion words (S720).

토큰의 감성 추출에는 구축 방법을 통해 구축된 감성 사전이 이용될 수 있다. 즉, 감성 추출부(620)는 토큰 각각과 감성 사전을 비교하여, 토큰 중에서 감성 사전에 포함되어 있는 토큰의 감성을 추출할 수 있다.A sentiment dictionary constructed through a construction method can be used to extract sentiment from a token. That is, the emotion extraction unit 620 can compare each token with the emotion dictionary and extract the emotion of the token included in the emotion dictionary from among the tokens.

추출되는 감성은 감성 사전의 구축 방법에 따라 두 가지 형태를 가질 수 있다. The extracted emotion can take two forms depending on how the emotion dictionary is constructed.

첫 번째(감성 형태 1)는 연관관계 1에 의해 구축된 감성 사전과 토큰을 비교하는 경우로서, 이 경우에는 해당 토큰이 긍정 감성(긍정어 리스트에 포함)인지 아니면 부정 감성(부정어 리스트에 포함)인지 여부를 나타내는 형태로 감성이 추출될 수 있다.The first (sentiment type 1) is a case of comparing a token with the sentiment dictionary built by association 1. In this case, whether the token is a positive sentiment (included in the positive word list) or a negative sentiment (included in the negative word list) Emotions can be extracted in a form that indicates whether or not something is recognized.

두 번째(감성 형태 2)는 연관관계 2에 의해 구축된 감성 사전과 토큰을 비교하는 경우로서, 이 경우에는 해당 토큰이 복수 개의 평가 클래스들 각각에 속할 확률 형태로 감성이 추출될 수 있다.The second (sentiment type 2) is a case of comparing a token with an emotion dictionary built by correlation 2. In this case, the emotion can be extracted in the form of a probability that the token belongs to each of a plurality of evaluation classes.

감성 산출부(630)는 추출된 감성을 기반으로 애널리스트 보고서의 감성을 산출할 수 있다(S730).The emotion calculation unit 630 may calculate the emotion of the analyst report based on the extracted emotion (S730).

토큰들의 감성이 감성 형태 1로 추출된 경우에는, 긍정 감성을 가지는 토큰의 개수와 부정 감성을 가지는 토큰의 개수 사이의 비율(애널리스트 보고서 내 긍정어와 부정어의 출현 빈도)에 따라 애널리스트 보고서의 감성이 산출될 수 있다.When the sentiment of tokens is extracted as sentiment type 1, the sentiment of the analyst report is calculated according to the ratio between the number of tokens with positive sentiment and the number of tokens with negative sentiment (frequency of appearance of positive and negative words in the analyst report). It can be.

예를 들어, 애널리스트 보고서의 감성은 아래 수학식 1을 통해 산출될 수 있다.For example, the sentiment of an analyst report can be calculated using Equation 1 below.

수학식 1에서, POS는 긍정 감성을 가지는 토큰의 개수를 나타내며, NEG는 부정 감성을 가지는 토큰의 개수를 나타내고, POS%는 토큰의 전체 개수 중에서 긍정 감성을 가지는 토큰의 개수 사이의 비율을 나타내며, NEG%는 토큰의 전체 개수 중에서 부정 감성을 가지는 토큰의 개수 사이의 비율을 나타낸다. OPN은 애널리스트 보고서의 감성을 나타낸다.In Equation 1, POS represents the number of tokens with positive sentiment, NEG represents the number of tokens with negative sentiment, POS% represents the ratio between the number of tokens with positive sentiment among the total number of tokens, NEG% represents the ratio between the number of tokens with negative sentiment among the total number of tokens. OPN represents the sentiment of analyst reports.

수학식 1에 따르면, OPN의 값이 -1에 가까울수록 애널리스트 보고서가 더욱 부정적인 감성을 가지는 보고서에 해당하며, OPN의 값이 +1에 가까울수록 애널리스트 보고서가 더욱 긍정적인 감성을 가지는 보고서에 해당하게 된다.According to Equation 1, the closer the OPN value is to -1, the more negative the analyst report is, and the closer the OPN value is to +1, the more positive the analyst report is. do.

토큰들의 감성이 감성 형태 2로 추출된 경우에는, 토큰들의 감성(해당 토큰이 복수 개의 평가 클래스들 각각에 속할 확률)을 평가 클래스 별로 모두 더한 벡터가 애널리스트 보고서의 감성으로 산출될 수 있다.When the sentiment of the tokens is extracted as sentiment type 2, a vector obtained by adding up the sentiments of the tokens (probability that the token belongs to each of a plurality of evaluation classes) for each evaluation class can be calculated as the sentiment of the analyst report.

예를 들어, 애널리스트 보고서의 감성은 아래 수학식 2를 통해 산출될 수 있다.For example, the sentiment of an analyst report can be calculated using Equation 2 below.

수학식 2에서, Likelihooddoc는 해당 애널리스트 보고서의 likelihood 벡터(애널리스트 보고서의 감성)를 나타내며, tbi는 i-번째 토큰이 애널리스트 보고서에 출현하는지 여부를 나타낸다. 따라서, tbi는 1(출현함) 또는 0(출현하지 않음) 중에서 어느 하나의 값을 가질 수 있다. ln,i는 i-번째 토큰이 n-번째 평가 클래스에 속할 확률을 나타낸다.In Equation 2, Likelihood doc represents the likelihood vector (sentiment of the analyst report) of the corresponding analyst report, and tb i represents whether the i-th token appears in the analyst report. Accordingly, tb i can have either a value of 1 (appears) or 0 (does not appear). l n,i represents the probability that the i-th token belongs to the n-th evaluation class.

수학식 2에 따르면, 애널리스트 보고서의 감성(Likelihooddoc)은 와 같은 벡터 형태로 산출되게 된다.According to Equation 2, the sentiment of the analyst report (Likelihood doc ) is It is calculated in vector form as follows.

3. 감성 사전의 성능3. Performance of emotional dictionary

총 15,927개의 애널리스트 보고서들을 대상으로, 본 발명을 통해 구축된 감성 사전을 이용하여 애널리스트 보고서의 감성을 측정한 결과와 종래의 감성 사전들을 이용하여 애널리스트 보고서의 감성을 측정한 결과를 비교 분석하였다.For a total of 15,927 analyst reports, we compared and analyzed the results of measuring the sentiment of analyst reports using the sentiment dictionary constructed through the present invention and the results of measuring the sentiment of analyst reports using conventional sentiment dictionaries.

애널리스트 보고서들에서 제안된 추천 의견의 반영 정도를 비교 분석하였으며, 그 결과는 표 8과 같다.The degree of reflection of recommendations proposed in analyst reports was compared and analyzed, and the results are shown in Table 8.

표 8에서, KOSAC는 서울대학교에서 구축한 감성 사전이며, KNU는 군산대학교에서 구축한 감성 사전이고, HV는 하버드대학교에서 구축한 감성사전이며, LM은 Loughran & McDonald가 구축한 감성 사전이다. 감성 사전 1은 앞에서 설명된 연관관계 1에 의해 구축된 감성 사전이며, 감성 사전 2는 연관관계 2에 의해 구축된 감성 사전이다.In Table 8, KOSAC is a sentiment dictionary built by Seoul National University, KNU is a sentiment dictionary built by Kunsan National University, HV is a sentiment dictionary built by Harvard University, and LM is a sentiment dictionary built by Loughran & McDonald. Sentiment dictionary 1 is an emotion dictionary constructed based on relation 1 described above, and emotion dictionary 2 is an emotion dictionary constructed based on relation 2.

부정적인 감성을 나타내는 추천 의견 레벨 '1'과 '2'에서, 감성 사전 1과 감성 사전 2를 이용하여 측정된 감성이 종래 감성 사전들을 이용하여 측정된 감성에 비해 부정적임을 알 수 있다.At recommendation opinion levels '1' and '2' indicating negative emotions, it can be seen that the emotions measured using Sentiment Dictionary 1 and Sentiment Dictionary 2 are more negative than the emotions measured using conventional emotion dictionaries.

중립적인 감성을 나타내는 추천 의견 레벨 '3'에서, 감성 사전 1과 감성 사전 2를 이용하여 측정된 감성이 종래 감성 사전들을 이용하여 측정된 감성에 비해 중립적임을 알 수 있다.At recommendation opinion level '3', which represents neutral emotion, it can be seen that the emotion measured using emotion dictionary 1 and emotion dictionary 2 is more neutral than the emotion measured using conventional emotion dictionaries.

긍정적인 감성을 나타내는 추천 의견 레벨 '4'와 '5'에서, 감성 사전 1과 감성 사전 2를 이용하여 측정된 감성이 종래 감성 사전들을 이용하여 측정된 감성에 비해 긍정적임을 알 수 있다.At recommendation opinion levels '4' and '5', which indicate positive emotions, it can be seen that the emotions measured using Sentiment Dictionary 1 and Sentiment Dictionary 2 are more positive than the emotions measured using conventional emotion dictionaries.

애널리스트 보고서들에서 제안된 추천 의견 변경의 반영 정도를 비교 분석하였으며, 그 결과는 표 9와 같다.We compared and analyzed the degree of reflection of changes in recommended opinions proposed in analyst reports, and the results are shown in Table 9.

추천 의견을 부정적으로 변경한 '-2'와 '-2'에서, 감성 사전 1과 감성 사전 2를 이용하여 측정된 감성이 종래 감성 사전들을 이용하여 측정된 감성에 비해 부정적임을 알 수 있다.In '-2' and '-2', which changed the recommendation opinion to negative, it can be seen that the emotions measured using Sentiment Dictionary 1 and Sentiment Dictionary 2 are more negative than the emotions measured using conventional emotion dictionaries.

추천 의견을 유지한 '0'에서, 감성 사전 1과 감성 사전 2를 이용하여 측정된 감성이 종래 감성 사전들을 이용하여 측정된 감성에 비해 중립적임을 알 수 있다.At '0', which maintains the recommendation opinion, it can be seen that the emotion measured using emotion dictionary 1 and emotion dictionary 2 is more neutral than the emotion measured using conventional emotion dictionaries.

추천 의견을 긍정적으로 변경한 '+1'과 '+2'에서, 감성 사전 1과 감성 사전 2를 이용하여 측정된 감성이 종래 감성 사전들을 이용하여 측정된 감성에 비해 긍정적임을 알 수 있다.In '+1' and '+2', which changed the recommendation opinion to positive, it can be seen that the emotion measured using Sentiment Dictionary 1 and Sentiment Dictionary 2 is more positive than the emotion measured using conventional emotion dictionaries.

애널리스트 보고서들에서 제안된 목표 주가 변경의 반영 정도를 비교 분석하였으며, 그 결과는 표 10과 같다.We compared and analyzed the degree of reflection of target stock price changes proposed in analyst reports, and the results are shown in Table 10.

목표 주가 부정적으로 변경한 'downgrade'에서, 감성 사전 1과 감성 사전 2를 이용하여 측정된 감성이 종래 감성 사전들을 이용하여 측정된 감성에 비해 부정적임을 알 수 있다.In 'downgrade', where the target stock price is changed negatively, it can be seen that the emotions measured using Sentiment Dictionary 1 and Sentiment Dictionary 2 are more negative than the emotions measured using conventional emotion dictionaries.

목표 주가를 유지한 '0'에서, 감성 사전 1과 감성 사전 2를 이용하여 측정된 감성이 종래 감성 사전들을 이용하여 측정된 감성에 비해 중립적임을 알 수 있다.At '0', which maintains the target stock price, it can be seen that the emotions measured using Sentiment Dictionary 1 and Sentiment Dictionary 2 are more neutral than the emotions measured using conventional emotion dictionaries.

목표 주가를 긍정적으로 변경한 'upgrade'에서, 감성 사전 1과 감성 사전 2를 이용하여 측정된 감성이 종래 감성 사전들을 이용하여 측정된 감성에 비해 긍정적임을 알 수 있다.In 'upgrade', which changes the target stock price positively, it can be seen that the emotions measured using Sentiment Dictionary 1 and Sentiment Dictionary 2 are more positive than the emotions measured using conventional emotion dictionaries.

표 8 내지 표 10의 비교 분석 결과에 나타난 바와 같이, 본 발명을 통해 구축된 감성 사전을 이용하면, 애널리스트 보고서의 추천 의견 레벨, 추천 의견 레벨의 변경 및 목표 주가의 변경 등과 같은 정량 지표에 대한 감성을 더욱 정확하게 파악할 수 있다.As shown in the comparative analysis results of Tables 8 to 10, using the sentiment dictionary constructed through the present invention, sentiment for quantitative indicators such as the recommendation opinion level of the analyst report, change in recommendation opinion level, and change in target stock price, etc. can be identified more accurately.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The description of the present invention described above is for illustrative purposes, and those skilled in the art will understand that the present invention can be easily modified into other specific forms without changing the technical idea or essential features of the present invention. will be. Therefore, the embodiments described above should be understood in all respects as illustrative and not restrictive. For example, each component described as unitary may be implemented in a distributed manner, and similarly, components described as distributed may also be implemented in a combined form.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is indicated by the claims described below rather than the detailed description above, and all changes or modified forms derived from the meaning and scope of the claims and their equivalent concepts should be construed as being included in the scope of the present invention. do.

한편, 도 2 내지 도 5 및 도 7에 도시된 과정들은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 즉, 컴퓨터가 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등의 비일시적인(non-transitory) 매체일 수 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송) 및 데이터 전송 매체(data transmission medium)와 같은 일시적인(transitory) 매체를 더 포함할 수도 있다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다.Meanwhile, the processes shown in FIGS. 2 to 5 and 7 can be implemented as computer-readable codes on a computer-readable recording medium. Computer-readable recording media include all types of recording devices that store data that can be read by a computer system. In other words, computer-readable recording media may be non-transitory media such as ROM, RAM, CD-ROM, magnetic tape, floppy disk, and optical data storage devices, and may also be non-transitory media such as carrier waves (e.g., It may further include transitory media such as transmission via the Internet) and data transmission medium. Additionally, computer-readable recording media may be distributed across computer systems connected to a network, and computer-readable codes may be stored and executed in a distributed manner.

100: 감성 사전을 자동으로 구축하는 장치
600: 감성을 측정하는 장치
100: A device that automatically builds an emotional dictionary
600: Device for measuring emotion

Claims (10)

감성 사전을 자동으로 구축하는 방법으로서,
획득부가 평가 대상에 대한 평가 의견이 포함된 평가 데이터들로부터, 상기 평가 의견의 근거에 해당하는 근거 의견을 획득하는 단계 - 상기 평가 데이터들은 상기 평가 의견에 따라 복수 개의 평가 클래스들 중에서 어느 하나에 속함 -;
추출부가 상기 근거 의견 내 단어들 중에서, 감성을 나타내는 하나 이상의 감성 단어를 추출하 단계; 및
산출부가 상기 감성 단어를 하나 이상 포함하는 하나 이상의 토큰(token)과 상기 평가 클래스들 간의 연관관계에 따라, 상기 토큰의 감성을 산출하는 단계를 포함하고,
상기 토큰은,
상기 추출된 감성 단어 중에서 둘 이상을 포함하는 것을 특징으로 하는 방법.
As a method for automatically building an emotional dictionary,
A step in which the acquisition department acquires an opinion corresponding to the basis of the evaluation opinion from evaluation data containing an evaluation opinion about the evaluation object - the evaluation data belongs to one of a plurality of evaluation classes according to the evaluation opinion -;
extracting one or more emotion words representing emotion from words in the supporting opinion; and
A calculation unit calculating the emotion of the token according to an association between one or more tokens containing one or more of the emotion words and the evaluation classes,
The token is,
A method comprising two or more of the extracted emotional words.
제1항에 있어서,
상기 평가 클래스들은,
긍정적 감성의 평가 의견에 해당하는 긍정 클래스 및 부정적 감성의 평가 의견에 해당하는 부정 클래스를 포함하고,
상기 산출하는 단계는,
연산부가 상기 토큰이, 상기 평가 데이터들 중에서 상기 긍정 클래스에 속하는 평가 데이터에 포함된 수와 상기 부정 클래스에 속하는 평가 데이터에 포함된 수를 비교 연산하는 단계; 및
감성 산출부가 상기 비교 연산의 결과에 따라, 긍정 감성과 부정 감성 중에서 어느 하나를 상기 토큰의 감성으로 산출하는 단계를 포함하는 것을 특징으로 하는 방법.
According to paragraph 1,
The evaluation classes are:
It includes a positive class corresponding to an evaluation opinion of positive emotion and a negative class corresponding to an evaluation opinion of negative emotion,
The calculating step is,
Comparing and calculating the number of tokens included in evaluation data belonging to the positive class and the number of tokens included in evaluation data belonging to the negative class among the evaluation data; and
A method characterized in that it includes a step where an emotion calculation unit calculates one of positive emotion and negative emotion as the emotion of the token, according to the result of the comparison operation.
제1항에 있어서,
상기 평가 클래스들은,
상기 평가 의견의 강도에 따라 서로 구분되고,
상기 산출하는 단계는,
산출부가 상기 토큰이 상기 평가 클래스들 각각에 속할 확률을 상기 토큰의 감성으로 산출하는 것을 특징으로 하는 방법.
According to paragraph 1,
The evaluation classes are,
They are classified according to the strength of the above evaluation opinion,
The calculating step is,
A method characterized in that the calculation unit calculates the probability that the token belongs to each of the evaluation classes based on the sentiment of the token.
제3항에 있어서,
상기 산출하는 단계는,
연산부가 상기 평가 클래스들 중에서, 특정 평가 클래스에 속하는 평가 데이터들에 상기 토큰이 포함된 비율과 상기 특정 평가 클래스를 제외한 다른 평가 클래스에 속하는 평가 데이터들에 상기 토큰이 포함된 비율을, 상기 평가 클래스들 별로 연산하는 단계; 및
감성 산출부가 상기 평가 클래스들 별로 연산된 비율들에 해당하는 확률을 상기 토큰의 감성으로 산출하는 단계를 포함하는 것을 특징으로 하는 방법.
According to paragraph 3,
The calculating step is,
Among the evaluation classes, the operation unit calculates the ratio of the token included in the evaluation data belonging to a specific evaluation class and the ratio of the token included in the evaluation data belonging to other evaluation classes excluding the specific evaluation class, and determines the evaluation class. Step of calculating for each field; and
A method characterized in that it includes the step of calculating the probability corresponding to the ratios calculated for each evaluation class as the emotion of the token.
제1항에 있어서,
상기 감성 단어는,
명사, 동사, 형용사, 부사 및 부정어 중에서 하나 이상을 포함하되, 숫자 및 특수 문자를 포함하지 않는 것을 특징으로 하는 방법.
According to paragraph 1,
The emotional words are,
A method characterized by including one or more of nouns, verbs, adjectives, adverbs, and negatives, but not including numbers and special characters.
삭제delete 제1항에 있어서,
상기 산출하는 단계는,
선별부가 상기 토큰 중에서 상기 평가 데이터들에 미리 설정된 횟수 이상으로 포함된 토큰을 선별하는 단계; 및
산출부가 상기 선별된 토큰과 상기 평가 클래스들 간의 연관관계에 따라, 상기 선별된 토큰의 감성을 산출하는 단계를 포함하는 것을 특징으로 하는 방법.
According to paragraph 1,
The calculating step is,
A selection unit selecting tokens included in the evaluation data more than a preset number of times from among the tokens; and
A method characterized in that it includes a step of calculating the emotion of the selected token according to the correlation between the selected token and the evaluation classes.
제7항에 있어서,
상기 미리 설정된 횟수는,
상기 토큰에 포함된 감성 단어의 개수가 증가할수록 감소하는 것을 특징으로 하는 방법.
In clause 7,
The preset number of times is,
A method characterized in that the number of emotional words included in the token decreases as it increases.
감성 사전을 자동으로 구축하는 장치로서,
평가 대상에 대한 평가 의견이 포함된 평가 데이터들로부터, 상기 평가 의견의 근거에 해당하는 근거 의견을 획득하는 획득부 - 상기 평가 데이터들은 상기 평가 의견에 따라 복수 개의 평가 클래스들 중에서 어느 하나에 속함 -;
상기 근거 의견 내 단어들 중에서, 감성을 나타내는 하나 이상의 감성 단어를 추출하는 추출부; 및
상기 감성 단어를 하나 이상 포함하는 하나 이상의 토큰(token)과 상기 평가 클래스들 간의 연관관계에 따라, 상기 토큰의 감성을 산출하는 산출부를 포함하고,
상기 토큰은,
상기 추출된 감성 단어 중에서 둘 이상을 포함하는 것을 특징으로 하는 장치.
A device that automatically builds an emotional dictionary,
An acquisition unit that obtains an opinion corresponding to the basis of the evaluation opinion from evaluation data containing an evaluation opinion about the evaluation object - the evaluation data belongs to one of a plurality of evaluation classes according to the evaluation opinion - ;
an extraction unit that extracts one or more emotional words representing emotions from among the words in the grounded opinion; and
A calculation unit that calculates the emotion of the token according to a relationship between one or more tokens containing the one or more emotion words and the evaluation classes,
The token is,
A device comprising two or more of the extracted emotional words.
제1항 내지 제5항, 제7항 및 제8항 중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 판독 가능한 기록매체.A computer-readable recording medium recording a program for executing the method of any one of claims 1 to 5, 7, and 8 on a computer.
KR1020210132726A 2021-10-06 2021-10-06 Method and apparatus for automatically constructing sentiment dictionary KR102609132B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210132726A KR102609132B1 (en) 2021-10-06 2021-10-06 Method and apparatus for automatically constructing sentiment dictionary

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210132726A KR102609132B1 (en) 2021-10-06 2021-10-06 Method and apparatus for automatically constructing sentiment dictionary

Publications (2)

Publication Number Publication Date
KR20230049822A KR20230049822A (en) 2023-04-14
KR102609132B1 true KR102609132B1 (en) 2023-12-05

Family

ID=85946592

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210132726A KR102609132B1 (en) 2021-10-06 2021-10-06 Method and apparatus for automatically constructing sentiment dictionary

Country Status (1)

Country Link
KR (1) KR102609132B1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101700836B1 (en) * 2015-12-21 2017-02-13 한국과학기술정보연구원 Method and system for building emotional dictionary using comment of book
KR101982991B1 (en) * 2018-12-28 2019-05-27 건국대학교 산학협력단 Method and apparatus for questioning and answering using a plurality of chatbots

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101134701B1 (en) * 2010-08-09 2012-04-13 숭실대학교산학협력단 The Method and System for Automatically Constructing Positive/Negative Feature-Predicate Dictionary for Polarity Classification of Product Reviews
KR20170009692A (en) * 2015-07-15 2017-01-25 숭실대학교산학협력단 Stock fluctuatiion prediction method and server
KR102083889B1 (en) * 2018-05-28 2020-03-04 동국대학교 산학협력단 Apparatus for building emotional dictionary and operating method thereof
KR20200048693A (en) * 2018-10-30 2020-05-08 삼성에스디에스 주식회사 System for performing sentimental analysis and the method thereof

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101700836B1 (en) * 2015-12-21 2017-02-13 한국과학기술정보연구원 Method and system for building emotional dictionary using comment of book
KR101982991B1 (en) * 2018-12-28 2019-05-27 건국대학교 산학협력단 Method and apparatus for questioning and answering using a plurality of chatbots

Also Published As

Publication number Publication date
KR20230049822A (en) 2023-04-14

Similar Documents

Publication Publication Date Title
Song et al. Sustainable strategy for corporate governance based on the sentiment analysis of financial reports with CSR
Li et al. News impact on stock price return via sentiment analysis
CN108269125B (en) Comment information quality evaluation method and system and comment information processing method and system
Zaki et al. Text mining analysis roadmap (TMAR) for service research
Chakraborty et al. A review on textual analysis of corporate disclosure according to the evolution of different automated methods
Yen et al. A two-dimensional sentiment analysis of online public opinion and future financial performance of publicly listed companies
Fraser et al. Business statistics for competitive advantage with Excel 2013
KR20140133185A (en) Method of predicting a stock price through an analysis of a social data and system applying the same
CN114037485A (en) Business comment-based service quality evaluation method, device, equipment and medium
Palmer et al. Induction of a sentiment dictionary for financial analyst communication: a data-driven approach balancing machine learning and human intuition
Lu et al. Use of electronic word of mouth as quality metrics: A comparison of airline reviews on Twitter and Skytrax
Klimczak Text analysis in finance: The challenges for efficient application
KR102609132B1 (en) Method and apparatus for automatically constructing sentiment dictionary
Zhong et al. Using sentiment analysis to study the relationship between subjective expression in financial reports and company performance
CN116775975A (en) Deep learning network for analysis of complex news text public opinion in financial field
KR20210001649A (en) A program for predicting corporate default
KR20210001625A (en) A method and an apparatus for providing services of corporate insolvencies information based on automatic sentiment information labelings to news articles
Feldman et al. Orders backlog in earnings conference calls
Steininger et al. A systemizing research framework for Web 2.0
KR102405503B1 (en) Method for creating predictive market growth index using transaction data and social data, system for creating predictive market growth index using the same and computer program for the same
KR101511709B1 (en) Method of predicting a composite stockrelated price index through an analysis of a social data and system applying the same
Hsieh et al. Transformer-based Summarization and Sentiment Analysis of SEC 10-K Annual Reports for Company Performance Prediction
KR20210001693A (en) A rcording media for recording program for providing a corporate insolvencies information based on automatic sentiment information labelings
KR20210001645A (en) A method for predicting corporate default
KR20210001707A (en) An apparatus for providing services of corporate insolvencies information based on automatic sentiment information labelings to news articles

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant