KR20200127589A - An apparatus for automatic sentiment information labeling to news articles - Google Patents
An apparatus for automatic sentiment information labeling to news articles Download PDFInfo
- Publication number
- KR20200127589A KR20200127589A KR1020190052011A KR20190052011A KR20200127589A KR 20200127589 A KR20200127589 A KR 20200127589A KR 1020190052011 A KR1020190052011 A KR 1020190052011A KR 20190052011 A KR20190052011 A KR 20190052011A KR 20200127589 A KR20200127589 A KR 20200127589A
- Authority
- KR
- South Korea
- Prior art keywords
- information
- paragraph
- label
- article
- emotional
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
본 발명은 레이블링 방법 및 그 장치에 관한 것이다. 보다 구체적으로, 본 발명은 정보 제공을 위한 뉴스 기사의 감성 정보 레이블링 방법 및 그 장치에 관한 것이다.The present invention relates to a labeling method and an apparatus therefor. More specifically, the present invention relates to a method and apparatus for labeling sentiment information of a news article for providing information.
온라인 상의 뉴스 정보는 각종 신문사, 미디어지, 방송국들과 이들로부터 정보를 취합 제공하는 검색포털을 통해 제공되고 있으며, 통상적으로는 뉴스 정보의 제공자가 공급하는 기사의 표출형식에 따른 일방적인 정보의 공급을 구독하는 형태가 대부분이다.Online news information is provided through various newspapers, media magazines, broadcasting stations, and a search portal that collects and provides information from them.Usually, one-sided information is supplied according to the presentation format of articles supplied by the news information provider. Most of them are subscribed to.
다만, 최근에는 이와 같은 뉴스 정보를 취합하고 빅 데이터를 구축하여 레이블 분류 및 분석함으로써, 특정 인물 또는 기업 등의 인지도나 성향 등을 파악하거나 최근 트렌드 등을 파악하기 위한 다양한 어플리케이션 개발 및 서비스 제공 시도가 이루어지고 있으며, 이는 4차 산업혁명에 기반한 인공지능 기술 도입에 의해 가속화되고 있다.However, recently, by collecting such news information and building big data, labeling and analyzing, there have been attempts to develop various applications and provide services to grasp the awareness or propensity of a specific person or company, etc. This is being done, and this is being accelerated by the introduction of artificial intelligence technology based on the 4th industrial revolution.
특히, 최근 트위터, 페이스북, 블로그 등의 소셜 미디어의 사용량이 증가하면서, 빅데이터를 통해 자동으로 상품에 대한 만족도, 영화에 대한 만족도 등 다양한 오피니언 정보에 대한 분석을 통해 감정 정보를 확인하고자 하는 시도들이 활발히 이루어지고 있다.In particular, with the recent increase in the use of social media such as Twitter, Facebook, and blogs, an attempt to check sentiment information through analysis of various opinion information, such as satisfaction with products and satisfaction with movies, automatically through big data. Are being actively conducted.
특히, 기업은 자사 제품이나 서비스가 소셜 미디어 상에서 어떤 평가를 받고 있는지 파악함으로써 마케팅 전략에 참고 할 수 있고 정책 기관에서는 정책에 대한 여론 분석을 통해 정책 수정 방향 및 홍보 방식 등을 결정할 수 있다. 이러한 필요가 대두되면서 데이터 마이닝을 통한 감정 분석전문으로 하는 브랜드 모니터링 서비스도 활발해지고 있다.In particular, companies can refer to marketing strategies by grasping how their products or services are being evaluated on social media, and policy agencies can determine policy revision directions and promotion methods through public opinion analysis on policies. As such a need arises, brand monitoring services specialized in emotion analysis through data mining are also becoming active.
그러나, 현재까지의 인공지능 기술 기반의 뉴스 정보 분석 방식은 주로 반교사 학습법(Semi-supervised Learning)을 이용해 뉴스 정보에 대한 소수의 전문가 들이 직접 기사를 읽고 레이블을 할당하여 소량의 기준 데이터 세트를 생성하고, 이를 활용하여 모든 뉴스 정보에 대한 감성 레이블링을 처리하는 방식으로서, 결국 전문가인 사람이 직접 뉴스 기사를 모두 읽어 건건이 처리하는 과정에서 과도한 시간과 비용이 소요되고 있는 실정이다.However, the method of analyzing news information based on artificial intelligence technology to date mainly uses semi-supervised learning, and a small number of experts on news information directly read articles and assign labels to create a small set of reference data. It is a method of processing emotional labeling for all news information using this, and in the end, excessive time and cost are spent in the process of handling all news articles directly by experts.
또한, 이러한 반교사 학습 방식의 성능 및 효율이 아직까지는 낮은 상태여서, 결국 고비용 저효율의 서비스만 제공될 수 있을 뿐, 상용화 및 대중화는 현실적으로 어려운 실정이다.In addition, the performance and efficiency of this classmate learning method are still low, so only high-cost and low-efficiency services can be provided, and commercialization and popularization are practically difficult.
본 발명은 상기와 같은 문제점을 해결하고자 안출된 것으로, 문서의 문단 기반 문장 구조와 용어적 분석에 기초한 사전 데이터를 구축하고, 비정형 텍스트인 대량의 온라인 뉴스 기사에 대응한 자동화된 감성 레이블 태깅을 처리하여, 기업, 회사 등과 같이 감성 예측 분석이 필요한 분석 대상에 대응하는 감성 레이블이 태깅된 기사 정보를 가공하여 제공함으로써, 인력이 투입되는 시간 및 비용을 최소화하면서도 보다 정확한 뉴스 정보 기반의 감성 분석을 가능하게 하는 뉴스 기사의 감성 정보 레이블링 방법 및 그 장치를 제공하는 데 그 목적이 있다.The present invention was conceived to solve the above problems, constructing dictionary data based on paragraph-based sentence structure and terminological analysis of documents, and processing automated emotional label tagging corresponding to a large amount of online news articles that are unstructured texts. Thus, by processing and providing information on articles tagged with emotional labels corresponding to analysis targets that require sentiment prediction analysis such as companies and companies, it is possible to analyze more accurate news information-based sentiment while minimizing the time and cost of manpower input. It is an object of the present invention to provide a method and apparatus for labeling sentiment information of a news article.
상기한 바와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 방법은, 뉴스 기사 레이블링 장치의 동작 방법에 있어서, 뉴스 기사의 문서 데이터를 획득하는 단계; 상기 문서 데이터로부터 문단 정보를 추출하는 단계; 상기 문단 정보에 따라 상기 문서 데이터로부터 획득되는 문단들을 사전 구축된 사전부와 비교하여, 분석 대상 관련 문단에 대응하는 분석 대상 감성 정보 레이블을 결정하는 단계; 및 상기 하나 이상의 문단에 상기 분석 대상 감성 정보 레이블을 태깅하여, 감성 레이블이 태깅된 기사 정보로 가공하는 단계를 포함한다.A method according to an embodiment of the present invention for solving the above-described problems, in the operating method of a news article labeling apparatus, the steps of obtaining document data of the news article; Extracting paragraph information from the document data; Comparing the paragraphs obtained from the document data according to the paragraph information with a pre-built dictionary unit, and determining an analysis target emotion information label corresponding to a related paragraph to be analyzed; And tagging the analysis target emotion information label on the one or more paragraphs, and processing it into article information tagged with the emotion label.
상기한 바와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 장치는, 뉴스 기사 레이블링 장치에 있어서, 뉴스 기사의 문서 데이터를 획득하는 입력부; 상기 문서 데이터로부터 문단 정보를 추출하는 문단 정보 추출부; 상기 문단 정보에 따라 상기 문서 데이터로부터 획득되는 문단들을 사전 구축된 사전부와 비교하여, 분석 대상 관련 문단에 대응하는 분석 대상 감성 정보 레이블을 결정하는 레이블 결정부; 및 상기 하나 이상의 문단에 상기 분석 대상 감성 정보 레이블을 태깅하여, 감성 레이블이 태깅된 기사 정보로 가공하는 기사 정보 가공부를 포함한다.An apparatus according to an embodiment of the present invention for solving the above-described problems includes: an input unit for obtaining document data of a news article in a news article labeling apparatus; A paragraph information extracting unit for extracting paragraph information from the document data; A label determination unit that compares the paragraphs obtained from the document data according to the paragraph information with a pre-built dictionary unit, and determines an analysis target emotion information label corresponding to the related paragraph to be analyzed; And an article information processing unit for tagging the analysis target emotional information label on the one or more paragraphs and processing the article information tagged with the emotional label.
한편, 상기한 바와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 방법은 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램 및 상기 프로그램이 기록된 기록 매체로 구현될 수 있다.Meanwhile, the method according to an embodiment of the present invention for solving the above-described problems may be implemented with a program for executing the method on a computer and a recording medium in which the program is recorded.
본 발명의 실시 예에 따르면, 문서의 문단 기반 문장 구조와 용어적 분석에 기초한 사전 데이터를 구축하고, 비정형 텍스트인 대량의 온라인 뉴스 기사에 대응한 자동화된 감성 레이블 태깅을 처리하여, 기업, 회사 등과 같이 감성 예측 분석이 필요한 분석 대상에 대응하는 감성 레이블이 태깅된 기사 정보를 가공하여 제공함으로써, 인력이 투입되는 시간 및 비용을 최소화하면서도 보다 정확한 뉴스 정보 기반의 감성 분석을 가능하게 하는 뉴스 기사의 감성 정보 레이블링 방법 및 그 장치를 제공할 수 있다.According to an embodiment of the present invention, by constructing dictionary data based on a paragraph-based sentence structure and terminology analysis of a document, and processing an automated emotional label tagging corresponding to a large amount of online news articles as unstructured text, companies, companies, etc. Similarly, by processing and providing information on articles tagged with emotional labels corresponding to analysis targets that require sentiment prediction analysis, the sentiment of news articles enables more accurate news information-based sentiment analysis while minimizing the time and cost of manpower input. A method and apparatus for labeling information can be provided.
특히, 본 발명의 실시 예는 빅데이터 규모의 대용량 뉴스 데이터를 활용하여 감성 정보를 분석하는 다양한 용도에 사용될 수 있으며, 특히 최근 온라인 뉴스 기사를 이용해서 기업의 부실 가능성 예측 또는 여신 관리, 상장사의 증시 예측, 산업별 분석 또는 기타 예측 서비스 개발에도 적용될 수 있다.In particular, embodiments of the present invention can be used for various purposes of analyzing sentiment information using large-scale news data of a big data scale, and in particular, using recent online news articles, predicting the possibility of corporate insolvency or managing credit, and stock market of listed companies. It can also be applied to forecasting, industry-specific analysis or other forecasting service development.
또한, 본 발명의 실시 예에 따르면, 장문의 뉴스 기사나 보고서 뿐만 아니라 비교적 단문들로 구성된 각종의 소식지나 온라인 댓글, SNS 데이터 등에도 적용될 수 있다. 특히, 최근 한류에 대한 관심이 뜨거운 상황에서 한류 수출을 위한 상품, 연예인 마케팅 등과 같은 분야에서 각종의 텍스트 기반의 문서들을 이용한 오피니언 마이닝을 수행하기 위한 통계 분석 또는 머신러닝을 위한 데이터 준비과정 등 다양한 서비스 제공 프로세스에서도 이용될 수 있는 바 그 활용처가 광범위한 장점이 있다.In addition, according to an embodiment of the present invention, it can be applied not only to long news articles or reports, but also to various newsletters composed of relatively short texts, online comments, and SNS data. In particular, various services such as statistical analysis for performing opinion mining using various text-based documents or data preparation process for machine learning in fields such as products for Korean Wave export and celebrity marketing in a situation where interest in the Korean Wave is hot recently. As it can be used in the provision process, the application has a wide range of advantages.
도 1은 본 발명의 실시 예에 따른 전체 시스템을 개략적으로 도시한 개념도이다.
도 2는 본 발명의 실시 예에 따른 레이블링 장치를 보다 구체적으로 도시한 블록도이다.
도 3은 본 발명의 실시 예에 따른 레이블링 방법을 보다 구체적으로 설명하기 위한 흐름도이다.
도 4는 본 발명의 실시 예에 따른 레이블링 프로세스를 설명하기 위한 도면이다.
도 5는 본 발명의 실시 예에 따라 추출되는 로그 정보의 예시도이다.
도 6은 본 발명의 실시 예에 따른 문서 검증 및 필터링 프로세스를 설명하기 위한 도면이다.1 is a conceptual diagram schematically showing an entire system according to an embodiment of the present invention.
2 is a more detailed block diagram of a labeling apparatus according to an embodiment of the present invention.
3 is a flowchart illustrating a labeling method according to an embodiment of the present invention in more detail.
4 is a diagram illustrating a labeling process according to an embodiment of the present invention.
5 is an exemplary diagram of log information extracted according to an embodiment of the present invention.
6 is a diagram illustrating a document verification and filtering process according to an embodiment of the present invention.
이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.The following content merely illustrates the principles of the present invention. Therefore, those skilled in the art can implement the principles of the present invention and invent various devices included in the concept and scope of the present invention, although not clearly described or illustrated herein. In addition, it is understood that all conditional terms and examples listed in this specification are, in principle, expressly intended only for the purpose of making the concept of the present invention understood, and are not limited to the embodiments and states specifically listed as such. Should be.
또한, 본 발명의 원리, 관점 및 실시예들 뿐만 아니라 특정 실시예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한 이러한 균등물들은 현재 공지된 균등물뿐만 아니라 장래에 개발될 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 소자를 포함하는 것으로 이해되어야 한다.In addition, it is to be understood that all detailed descriptions listing specific embodiments as well as principles, aspects and embodiments of the present invention are intended to include structural and functional equivalents of these matters. It should also be understood that these equivalents include not only currently known equivalents, but also equivalents to be developed in the future, that is, all devices invented to perform the same function regardless of structure.
따라서, 예를 들어, 본 명세서의 블럭도는 본 발명의 원리를 구체화하는 예시적인 회로의 개념적인 관점을 나타내는 것으로 이해되어야 한다. 이와 유사하게, 모든 흐름도, 상태 변환도, 의사 코드 등은 컴퓨터가 판독 가능한 매체에 실질적으로 나타낼 수 있고 컴퓨터 또는 프로세서가 명백히 도시되었는지 여부를 불문하고 컴퓨터 또는 프로세서에 의해 수행되는 다양한 프로세스를 나타내는 것으로 이해되어야 한다.Thus, for example, the block diagrams herein are to be understood as representing a conceptual perspective of exemplary circuits embodying the principles of the invention. Similarly, all flowcharts, state transition diagrams, pseudocodes, etc. are understood to represent various processes performed by a computer or processor, whether or not the computer or processor is clearly depicted and that can be represented substantially in a computer-readable medium. Should be.
또한 프로세서, 제어 또는 이와 유사한 개념으로 제시되는 용어의 명확한 사용은 소프트웨어를 실행할 능력을 가진 하드웨어를 배타적으로 인용하여 해석되어서는 아니되고, 제한 없이 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 롬(ROM), 램(RAM) 및 비 휘발성 메모리를 암시적으로 포함하는 것으로 이해되어야 한다. 주지관용의 다른 하드웨어도 포함될 수 있다.In addition, the explicit use of terms presented as processor, control, or similar concepts should not be interpreted exclusively by referring to hardware capable of executing software, and without limitation, digital signal processor (DSP) hardware, ROM for storing software. It should be understood to implicitly include (ROM), RAM, and non-volatile memory. Other commonly used hardware may also be included.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. The above-described objects, features, and advantages will become more apparent through the following detailed description in connection with the accompanying drawings, whereby those of ordinary skill in the technical field to which the present invention pertains can easily implement the technical idea of the present invention. There will be. In addition, in describing the present invention, when it is determined that a detailed description of a known technology related to the present invention may unnecessarily obscure the subject matter of the present invention, a detailed description thereof will be omitted.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.Hereinafter, a preferred embodiment according to the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 실시 예에 따른 전체 시스템을 개략적으로 도시한 도면이다.1 is a diagram schematically showing an entire system according to an embodiment of the present invention.
도 1을 참조하면 본 발명의 일 실시 예에 따른 시스템은, 감성 정보 레이블링 장치(100), 분석 대상 정보 서비스 제공 장치(200), 사용자 단말(300)을 포함할 수 있으며, 감성 정보 레이블링 장치(100)는 뉴스 기사 데이터베이스(400)에 연결되어 있을 수 있다.Referring to FIG. 1, a system according to an embodiment of the present invention may include an emotion
보다 구체적으로, 감성 정보 레이블링 장치(100)는, 뉴스 기사 데이터베이스(400)에서 뉴스 문서 데이터를 획득하고, 획득된 상기 문서 데이터로부터 문단 정보를 추출하며, 상기 문단 정보에 따라 상기 문서 데이터로부터 획득되는 문단들을 사전 구축된 학습 기반 사전부와 비교하여, 분석 대상 관련 문단에 대응하는 분석 대상 감성 정보 레이블을 결정하고, 상기 하나 이상의 문단에 상기 분석 대상 감성 정보 레이블을 태깅하여, 감성 레이블이 태깅된 기사 정보로 가공한다.More specifically, the emotional
이에 따라, 가공된 기사 정보는 분석 대상 정보 서비스 제공 장치(200)로 제공될 수 있으며, 분석 대상 정보 서비스 제공 장치(200)는 분석 대상 감성 정보 레이블을 통해 분석 대상에 대한 뉴스 데이터 기반의 감성 정보를 수집하고, 이에 대응하는 평가 정보의 결정 및 사용자 단말(300)로의 제공 서비스를 처리할 수 있다.Accordingly, the processed article information may be provided to the analysis target information service providing device 200, and the analysis target information service providing device 200 is sentiment information based on news data on the analysis target through the analysis target emotion information label. It is possible to collect and process evaluation information corresponding thereto and a service provided to the
특히, 상기 분석 대상은 기업 또는 회사일 수 있으며, 분석 대상 정보 서비스 제공 장치(200)는 상기 감성 레이블이 태깅된 기사 정보를 이용하여, 상기 기업 또는 회사의 부실가능성, 여신, 증시 예측 또는 성장가능성 예측 중 적어도 하나의 프로세스를 수행하고, 수행 결과를 사용자 단말(300)로 제공할 수 있다.In particular, the analysis target may be a company or a company, and the analysis target information service providing device 200 uses the article information tagged with the emotional label, and the possibility of insolventity, credit, stock market prediction or growth potential of the company or company. At least one process of prediction may be performed, and a result of the execution may be provided to the
한편, 감성 정보 레이블링 장치(100), 서비스 제공 장치(200) 및 사용자 단말(300)은 네트워크를 통해 유선 또는 무선으로 연결될 수 있으며, 네트워크간 상호간 통신을 위해 각 감성 정보 레이블링 장치(100), 서비스 제공 장치(200) 및 사용자 단말(300)은 인터넷 네트워크, LAN, WAN, PSTN(Public Switched Telephone Network), PSDN(Public Switched Data Network), 케이블 TV 망, WIFI, 이동 통신망 및 기타 무선 통신망 등을 통하여 데이터를 송수신할 수 있다. 또한, 각 감성 정보 레이블링 장치(100), 서비스 제공 장치(200) 및 사용자 단말(300)은 각 통신망에 상응하는 프로토콜로 통신하기 위한 각각의 통신 모듈을 포함할 수 있다.On the other hand, the emotional
그리고, 본 명세서에서 설명되는 사용자 단말(100)에는 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 디지털방송용 단말, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션 등이 포함될 수 있으나, 본 발명은 이에 한정되지 아니하며 그 이외에 사용자 입력 및 정보 표시 등이 가능한 다양한 장치일 수 있다.In addition, the
이와 같은 시스템에 있어서, 사용자 단말(300)은 감성 정보 레이블링 장치(100)로부터 기사 정보를 제공받는 서비스 제공 장치(200)와 연결되어, 상술한 뉴스 데이터 기반 분석 대상 정보 제공 서비스를 받을 수 있다.In such a system, the
도 2는 본 발명의 실시 예에 따른 문서 학습 장치를 보다 구체적으로 설명하기 위한 블록도이다.2 is a block diagram illustrating a document learning apparatus according to an embodiment of the present invention in more detail.
도 2를 참조하면, 본 발명의 실시 예에 따른 감성 정보 레이블링 장치(100)는, 입력부(110), 문단 정보 추출부(120), 레이블 결정부(130), 사전부(140), 로그 생성부(160), 검증부(170) 및 기사 정보 가공부(180)를 포함한다.2, the emotional
먼저, 입력부(110)는, 기사 정보 가공을 위한 뉴스 문서를 뉴스 기사 데이터베이스(400)로부터 입력받아 문단 정보 추출부(120)로 전달한다.First, the
입력부(110)는, 뉴스 기사 데이터베이스(400)로부터 전술한 뉴스 기사 데이터를 입력받기 위한 하나 이상의 입력 인터페이스를 포함할 수 있다. 예를 들어, 상기 뉴스 문서는 뉴스 서비스에 따라 결정될 수 있으며, 각 포털 사이트의 종합 기사 문서, 뉴스 제공사의 기사 문서일 수 있고, 나아가 기사 평가 댓글 또는 기사 관련 소설 미디어(SNS) 문서 등도 포함될 수 있다.The
또한, 입력부(110)는 분석 대상 정보를 입력받을 수 있다. 분석 대상 정보는 예를 들어, 기업명, 회사명, 인물명 등이 예시될 수 있으며, 예를 들어 특정 기업에 해당하는 감성 정보 레이블이 할당된 기사 정보는, 그 기업의 예측 정보를 제공하는 분석 대상 정보 서비스 제공 장치(200)로 제공될 수 있다.In addition, the
문단 정보 추출부(120)는, 상기 뉴스 문서를 레이블 할당 가능한 하나 이상의 문단 데이터로 구분하기 위한 문단 정보를 추출할 수 있다.The paragraph
특히, 온라인 뉴스 기사들 중 특히 경제 관련 기사의 경우 하나의 기사에서 1개 기업에 대한 내용으로만 채워진 기사들은 많지 않으며, 많은 경우에 있어서 2개 이상 다수 개의 기업들에 대한 내용들로 채워지고 있는 실정이며, 이 경우 특정 기업에 대한 긍정 또는 부정 평가를 자동적으로 분류하기 어려울 뿐만 아니라 문서 전체에 대응한 긍정 또는 부정 감성 평가와 개별 기업별 긍정 또는 부정 평가는 일치하지 않는 경우가 많으므로, 실질적 감성 평가가 어려울 수 있다.In particular, in the case of online news articles, especially economic-related articles, there are not many articles that are filled with only one company in one article, and in many cases, they are filled with content about two or more companies. In this case, it is difficult to automatically classify the positive or negative evaluation of a specific company, and the positive or negative sentiment evaluation corresponding to the entire document and the positive or negative evaluation of each individual company often do not coincide. Evaluation can be difficult.
따라서, 본 발명의 실시 예에 따른 문단 정보 추출부(120)는 뉴스 기사 원문 전체를 그대로 사용하기 보다는 특정 분석 대상(기업 등)이 포함된 문단만을 발췌하여 관련 감성 레이블이 태깅된 기사 정보로서 가공 출력할 수 있도록 하며, 이를 위한 문단 정보 추출 프로세스를 수행하고, 추출된 문단 정보는 레이블 결정부(130)로 전달될 수 있다.Therefore, the paragraph
그리고, 레이블 결정부(130)에서는 문단 정보 및 사전부(140)의 키워드 및 감성어 데이터 세트를 참조하여, 문서의 각 문단을 색인하고, 문단 별 분석 대상 정보의 특정 키워드 또는 감성어에 따른 스코어 매칭 비교 연산에 따라, 태깅할 감성 정보 레이블을 1차적으로 결정할 수 있으며, 결정된 감성 정보 레이블 및 문단 정보는 검증부(170)로 전달될 수 있다.In addition, the label determination unit 130 indexes each paragraph of the document by referring to the paragraph information and the keyword and sentiment data set of the
여기서, 상기 문단 정보 추출부(120)의 문단 정보 추출 및 상기 레이블 결정부(130)의 스코어 매칭 비교를 위해 이용되는 사전부(140)는, 분석 대상이 관련된 문단의 키워드 또는 감성어 빈도에 따라 분석 대상의 감성 레이블 스코어 결정이 가능하도록 하는 키워드 세트 및 감성어 세트를 포함할 수 있다.Here, the
보다 구체적으로, 본 발명의 실시 예에 따른 사전부(140)는 사전 구축되어 감성 정보 레이블링 장치(100)에 구비될 수 있다. 상기 사전부(140)는, 상기 문서 데이터로부터 획득되는 문단의 분석 대상 감성 정보 레이블을 결정하기 위해 학습 기반으로 구축되는 복수의 언어 데이터 세트를 포함하는 것으로, 상기 언어 데이터 세트는 상기 문단으로부터 분석 대상의 경제 또는 여신에 대응하는 긍정 또는 부정 의미를 갖는 명사형 용어를 식별할 수 있는 키워드 세트를 포함하거나, 상기 언어 데이터 세트는, 상기 문단으로부터 분석 대상의 평판에 대응하는 긍정 또는 부정 의미를 갖는 동사 또는 형용사형 용어를 식별할 수 있는 감성어 세트를 포함할 수 있다.More specifically, the
여기서, 긍정 키워드 세트 및 부정 키워드 세트는 개별 뉴스 기사의 긍정, 부정의 판별을 가능하게 하고, 이에 기초한 머신 러닝 수행에 이용되는 문서 특징어(또는 자질어, features)를 포함할 수 있다.Here, the positive keyword set and the negative keyword set enable positive and negative identification of individual news articles, and may include document feature words (or feature words) used for machine learning based on this.
예를 들어, 긍정 키워드 세트 및 부정 키워드 세트는, 뉴스 기사에서 표현된 분석 대상 기업의 경제 정보 또는 여신 정보와 관련된 긍정적 또는, 부정적 의미를 갖는 키워드를 포함할 수 있으며, 일반적으로 명사형 단어일 수 있고, 뉴스 기사의 긍, 부정 여부를 평가하는 데에 있어 표지자(marker)로 사용될 수 있다.For example, the positive keyword set and the negative keyword set may include keywords having a positive or negative meaning related to economic information or credit information of an analysis target company expressed in a news article, and may generally be a noun-type word. , Can be used as a marker in evaluating whether a news article is positive or negative.
사전부(140)는, 긍정 키워드 세트 및 부정 키워드 세트를 구성하는 키워드들을 구축하기 위해, 일정 키워드를 미리 입력받거나, 관련 분야의 전문가 문서 또는 각종 기술 문서들로부터 키워드를 수집하거나, 연관어 검색 방식(예를 들어. Word2vec)에 의해 기존 수집된 키워드들과 관련된 연관어 키워드 리스트를 생성하거나, 도출된 연관어 키워드들 중 필터링에 따라 확정된 키워드만을 등록하는 처리를 수행하여, 긍정 키워드 세트와 부정 키워드 세트를 생성 및 저장할 수 있다.The
한편, 사전부(140)는 긍정 및 부정 감성어 세트를 포함할 수 있으며, 감성어 세트는 예를 들어, 뉴스 기사에서 '증가', '감소' 등의 동사형 또는 '좋은', '나쁜' 등의 형용사형 형태를 가질 수 있으며, 키워드들과의 조합을 통해 분석 대상의 감성을 나타내는 하나 이상의 감성어들을 포함할 수 있다.On the other hand, the
감성어는 뉴스 기사의 감성적 긍정, 부정을 판단하는 가치(value) 변수로 사용될 수 있으며, 키워드 세트와 같이 분석 대상 정보 서비스 제공 장치(200)에서의 머신 러닝을 위한 문서특징어(또는 자질어, features)로 활용될 수도 있다.The sentiment word can be used as a value variable to determine the emotional affirmation or negativity of a news article, and a document feature (or feature word, features) for machine learning in the information service providing device 200 to be analyzed, such as a keyword set. ) Can also be used.
이에 따라, 사전부(140)는 특정 도메인 영역에 국한되지 않는 용어들로만 감성어 세트를 구성하되, 관련 분야의 전문가 문서 또는 각종 기술 문서들로부터 감성어를 수집하거나, 연관어 검색 방식(예를 들어. Word2vec)에 의해 기존 수집된 감성어들과 관련된 연관 감성어 리스트를 생성하거나, 도출된 연관 감성어 리스트들 중 필터링에 따라 확정된 감성어만을 등록하는 처리를 수행하여, 긍정 감성어 세트 및 부정 감성어 세트를 생성 및 저장할 수 있다.Accordingly, the
이에 따라, 사전부(140)에 등록된 용어들에 대해, 레이블 결정부(130)에서는 그 용어의 타입(긍정, 부정, 키워드, 감성어)에 따라 점수를 다르게 부여할 수 있고, 그 합계는 최종 긍정 또는 부정 감성 레이블 판별시 이용될 수 있다.Accordingly, for terms registered in the
레이블 결정부(130)는 이와 같이 생성된 사전부(140)와, 문단 정보 추출부(120)의 문단 정보를 이용하여, 뉴스 문서로부터 실제 분석 대상과 연관된 문단을 식별하고, 식별된 문단에 대응하는 감성 레이블을 결정할 수 있다. 여기서, 감성 레이블은 긍정 또는 부정으로 분류되는 자동화 레이블일 수 있다. 그리고, 뉴스 문서는 다양한 언론매체에서 생산된 다양한 분야의 뉴스들로서, 매체별 서술 방식의 차이가 있을 뿐 출판 형식 면에서는 큰 차이가 없을 수 있다.The label determination unit 130 identifies a paragraph related to an actual analysis object from the news document using the
보다 구체적으로, 레이블 결정부(130)는 하나의 뉴스 기사가 입력되었을 때 문단 정보 추출부(120)에서 추출된 문단 정보에 기초하여, 문단 별로 인덱싱을 수행하고 지시 변수를 확인할 수 있다. 여기서, 문단은 1개 이상의 빈 라인으로 구분된 문서 내에서에 위와 아래에 있는 문장 세트를 의미할 수 있다. 그러므로 단일 문장만으로도 하나의 문단이 될 수 있다.More specifically, when a single news article is input, the label determination unit 130 may perform indexing for each paragraph based on the paragraph information extracted by the paragraph
이를 위해, 문단 정보 추출부(120)는 먼저 뉴스 문서 데이터의 문단 인덱싱을 수행하고, 인덱싱된 문단들 중 분석 대상 정보가 포함된 문단을 식별하며, 상기 식별된 문단에 대응하는 색인 범위 중심 설정을 위한 지시변수를 상기 식별된 문단에 할당할 수 있다.To this end, the paragraph
그리고, 레이블 결정부(130)는 상기 지시변수를 중심으로 하여, 감성 레이블 결정을 위한 대상 문단의 색인 범위 및 색인 순서 중 적어도 하나를 결정할 수 있다. 그리고, 레이블 결정부(130)는 사전부(140)와의 매칭 비교 연산에 따라, 상기 분석 대상 관련 문단의 긍정 또는 부정 감성 스코어를 결정할 수 있다.In addition, the label determination unit 130 may determine at least one of an index range and an index order of a target paragraph for determining an emotional label based on the indicator variable. In addition, the label determination unit 130 may determine a positive or negative emotional score of the relevant paragraph to be analyzed according to a matching comparison operation with the
보다 구체적으로, 레이블 결정부(130)는 입력부(110)를 통해 입력된 분석 대상 정보(예를 들어, 기업명 리스트)를 이용하여, 상기 분석 대상 정보가 뉴스 문서 내 어느 문단에 존재하는지를 상기 지시변수를 중심으로 하는 색인 범위 내에서 색인할 수 있다.More specifically, the label determination unit 130 uses the analysis target information (for example, a list of company names) input through the
만약, 문서 내의 어느 문단에도 분석 대상 정보가 존재하지 않을 경우, 해당 뉴스 기사 색인은 종료되고, 입력부(110)는 다음의 뉴스 기사를 입력받는다.If the analysis target information does not exist in any paragraph in the document, the corresponding news article index is terminated, and the
예를 들어, 만약 뉴스 문서 내 검색된 문단 수가 총 5개이고, 특정 기업명이 3번째 문단에서 발견될 경우, 문단 정보 추출부(120)는 index_p (문단 지시용 지시 변수)에 2를 할당할 수 있다. 그러면, 레이블 결정부(130)는 상기 2를 중심으로 상하 2개 문단 범위 내에서 상기 특정 기업명에 대응한 레이블 스코어 연산을 반복적으로 수행할 수 있으며, 스코어 연산 수행 결과에 따라 기사 정보의 가공 또는 뉴스 문서의 스킵을 결정할 수 있다.For example, if the number of searched paragraphs in the news document is 5 and a specific company name is found in the third paragraph, the paragraph
그리고, 레이블 결정부(130)는 스코어 결정에 따라, 문단에 태깅할 분석 대상 감성 정보 레이블을 결정할 수 있다. 감성 정보 레이블이 태깅된 문단은 검증부(170)에서 기사 정보로 가공할지 여부가 판단될 수 있고, 가공부(180)는 검증된 문단 및 감성 정보 레이블에 기초하여, 감성 레이블이 태깅된 기사 정보를 가공할 수 있다.In addition, the label determination unit 130 may determine an analysis target emotional information label to be tagged in the paragraph according to the score determination. It can be determined whether the paragraph tagged with the emotional information label is processed into article information by the
예를 들어, 레이블 결정부(130)는 문단 정보에 기초하여 문단 내에서 발생되는 긍정 키워드에 대응하여 +2 를 연산하고, 부정 키워드에 대응하여 -2 를 연산하며, 긍정 감성어에 대응하여 +1.5를 연산하고 부정 감성어에 대응하여 -1.5를 연산하는 방식으로 사전부(140)와의 감성 레이블 비교 매칭 스코어를 결정할 수 있다. 여기서, 점수는 예시인 것으로 필요에 따라 변경될 수도 있다. 보다 구체적인 레이블 결정부(130)의 동작은 도 3에서 설명하도록 한다.For example, the label determination unit 130 calculates +2 in response to a positive keyword generated in a paragraph based on the paragraph information, calculates -2 in response to a negative keyword, and calculates +2 in response to a positive sentiment word. By calculating 1.5 and calculating -1.5 in response to negative sentiment words, the sentiment label comparison matching score with the
그리고, 레이블 결정부(130)에서 긍정 또는 부정 별 감성 레이블이 결정된 후, 레이블을 결정하는데 사용된 각종 근거 기록들은 로그 생성부(160)를 통해 로그 데이터로 구성되어, 외부 파일(또는 데이터베이스)의 형태로 저장될 수 있다. 로그 데이터는 감성 정보 레이블링의 근거 자료로 이용될 수 있다.In addition, after the emotional label for each positive or negative is determined in the label determination unit 130, various evidence records used to determine the label are configured as log data through the
그리고, 레이블 결정부(130)에서의 점수 비교에 따라 분석 대상 감성 정보 레이블이 1차 태깅된 문단들을 각각 포함하는 복수의 기사 문서들이 출력되면, 검증부(170)는 상기 복수의 기사 문서들의 감성 분류별 유사도 비교 연산에 따라 검증 값을 산출하고, 상기 검증 값에 기초하여, 기사 정보로 가공할 문서 및 상기 기사 정보에 태깅될 분석 대상 감성 정보 레이블을 최종적으로 결정한다.In addition, when a plurality of article documents each including paragraphs to which the label of the emotion information to be analyzed is first tagged are output according to the score comparison in the label determination unit 130, the
따라서 검증부(170)는, 감성 정보 레이블 태깅 결과의 안정성을 확보하기 위해 검증 프로세스를 수행할 수 있다. 다만, 이 때의 검증 프로세스 또한 사람의 개입을 최소화하고 자동적 처리를 하기 위한 기계적 프로세스를 수행할 수있다.Accordingly, the
보다 구체적으로, 검증부(170)는 레이블 결정부(130)의 레이블링 결과를 수집하고, 문서 유사도 측정법에 따라, 같은 감성 레이블이 태깅된 뉴스 기사 문단들 간의 유사도를 계산하고 뉴스 기사 문단 별로 유사도를 누적한 후, 누적된 크기에 따라 순위를 결정하며, 하위에 위치한 뉴스 기사 문단들을 제거하는 프로세스를 수행할 수 있다. 이러한 프로세스는 고객의 편의성을 위해 결과를 정규화하여 [1, 0~1, 0]으로 구간을 구분하는 프로세스를 포함할 수 있고, 검증부(170)는 이에 대응한 임계값을 설정하여, 임계값을 넘거나 넘지 않는 범위에 속한 문단들만을 대상으로 근정 또는 부정 감성 레이블을 확정할 수 있다. 이에 대하여는 도 6을 참조하여 보다 구체적으로 후술하도록 한다.More specifically, the
한편, 기사 정보 가공부(180)는, 최종적으로 결정된 감성 레이블이 태깅된 문단을 기사 정보로서 출력할 수 있으며, 이는 분석 대상 정보 서비스 제공 장치(200)로 제공되어, 분석 대상의 예측 서비스에 이용될 수 있고, 예측 서비스는 사용자 단말(300)로 제공될 수 있다.On the other hand, the article
예를 들어, 분석 대상 예측 서비스는, 빅데이터 규모의 대용량 뉴스 데이터를 활용하는 다양한 예측 서비스를 포함할 수 있으며, 기업의 부실 가능성 예측 또는 여신 관리, 상장사의 증시 예측, 산업별 분석 또는 기타 예측 서비스 개발에 이용되는 예측 서비스를 포함할 수 있다.For example, the forecasting service to be analyzed may include various forecasting services that utilize large-scale news data of a big data scale, and forecasting the possibility of a company's insolvency or managing credit, forecasting the stock market of listed companies, analyzing by industry or developing other forecasting services. It may include a prediction service used for.
또한, 본 발명의 실시 예에 따른 감성 정보 레이블링 장치(100)는 장문의 내용으로 구성된 뉴스 기사 또는 보고서 데이터뿐만 아니라, 비교적 단문들로 구성된 각종의 소식지나 온라인 댓글, SNS 데이터 등에도 적용이 가능할 수 있다. In addition, the emotional
도 3은 본 발명의 실시 예에 따른 감성 정보 레이블링 장치(100)의 동작 방법을 보다 구체적으로 설명하기 위한 흐름도이다.3 is a flowchart illustrating a method of operating the emotional
도 3에서는 본 발명의 실시 예에 따른 분석 대상이 기업명인 경우의 기업명과 연관된 긍정 또는 부정 감성 레이블이 태깅된 기사 정보 출력 프로세스를 예시하는 것으로, 기업명은 리스트로 구성될 수 있고, 분석 대상 정보 설정에 따라 회사명, 그룹명, 법인명, 인물명 등으로도 변경될 수 있다.3 illustrates a process of outputting article information tagged with a positive or negative emotional label associated with a company name when the analysis target according to an embodiment of the present invention is a company name, and the company name may be composed of a list, and analysis target information is set. Depending on the company name, group name, corporation name, person name, etc. may be changed.
먼저, 도 3을 참조하면, 본 발명의 실시 예에 따른 감성 정보 레이블링 장치(100)는 입력부(110)를 통해 신규 대상 기사 문서를 입력받는다(S101).First, referring to FIG. 3, the emotional
그리고, 감성 정보 레이블링 장치(100)는 문단 정보 추출부(120)를 통해, 신규 대상 문서에 대응하는 문단 정보 추출을 통해 문단 인덱싱을 수행하고(S102), 문단별 기업명 정보가 색인되는지 확인한다(S103).In addition, the emotional
여기서, 문단은 문서가 1개 이상의 빈 라인들로 구분되어 있는 상태에서 상하의 빈 라인으로 구분되는 문장 세트를 의미할 수 있다. 그러므로 단일 문장만으로도 하나의 문단이 될 수 있다.Here, a paragraph may mean a set of sentences divided into upper and lower blank lines while the document is divided into one or more blank lines. Therefore, a single sentence can be a paragraph.
그리고, 감성 정보 레이블링 장치(100)는 문단 정보 추출부(120)를 통해 기업명 리스트 내 기업명이 뉴스 문서 내에 어느 곳에 존재하는지를 색인할 수 있다. 만약 뉴스 기사 문서 내의 어느 문단에도 기업명이 색인되지 않을 경우, 그 뉴스 문서는 무시되고 다음의 뉴스 기사문서를 입력받게 된다.In addition, the emotional
기업명이 색인된 경우, 감성 정보 레이블링 장치(100)는 문단 정보 추출부(120)를 통해 기업명 정보가 색인된 문단에 대응하는 지시변수를 할당한다(S105).When the company name is indexed, the emotional
예를 들어, 만약 검색된 문단 수가 총 5개이고, 분석 대상 기업명이 3번째 문단에서 발견될 경우에는 index_p (문단 지시용 지시 변수)에 2가 할당될 수 있다.For example, if the number of searched paragraphs is 5 and the name of the company to be analyzed is found in the third paragraph, 2 may be assigned to index_p (indicating variable for paragraph indication).
이에 따라, 문단 정보 추출부(120)는 index_p 를 이용하여, 레이블 결정부(130)가 index_p에 의해 지정된 문단으로 이동하여 레이블 결정 프로세스를 수행할 것을 레이블 결정부(130)로 요청할 수 있다.Accordingly, the paragraph
그리고, 감성 정보 레이블링 장치(100)는 레이블 결정부(130)를 통해, 지시변수 index_p를 중심으로 하는 감성 레이블을 결정할 대상 문단 범위 및 순서를 지정한다.In addition, the emotion
이후, 감성 정보 레이블링 장치(100)는 S109 내지 S121 단계의 반복 수행을 통해, 현재 뉴스 기사 문서에 대응하는 대상 문단 범위 및 순서에 따라, 각각의 문단에 대응하는 긍정 또는 부정 키워드들과, 긍정 또는 부정 감성어들을 색인한 후 스코어링을 수행하여 최종적인 감성 정보 레이블이 태깅된 문단을 출력할 수 있다.Thereafter, the emotional
보다 구체적으로, 이러한 반복 과정들은 뉴스 기사의 모든 문단이 아닌, 특정 지시 변수에 의해 지시된 대상 문단 범위 및 순서에 의해 결정된 문단들에 대하여만 처리될 수 있으며, 바람직하게는 index_p를 중심으로 하는 현재 문단의 상단 1개 문단과, 하단 2개 문단, 그리고 뉴스 기사 문서의 제목 문단이 그 대상 문단 범위로 설정될 수 있다.More specifically, these repetitive processes can be processed only for paragraphs determined by the target paragraph range and order indicated by a specific indicator variable, not all paragraphs of the news article. One upper paragraph of a paragraph, two lower paragraphs, and the title paragraph of a news article document may be set as the target paragraph range.
또한, 대상 문서의 순차적 처리 순서는 현재 문단, 하단 첫 번째 문단, 상단 문단, 하단 두 번째 문단, 제목 문단 순으로 설정되는 것이 바람직하며, 레이블 결정부(130)는 사전부(140)에 등록된 용어들의 색인여부에 따라 스코어링 처리를 수행할 수 있고, 로그 생성부(160)는 레이블 결정에 대응한 로그 정보를 기록할 수 있다.In addition, the sequential processing order of the target document is preferably set in the order of the current paragraph, the lower first paragraph, the upper paragraph, the lower second paragraph, and the title paragraph, and the label determination unit 130 is registered in the
먼저, 감성 정보 레이블링 장치(100)는 레이블 결정부(130)를 통해 현재 문단을 대상 문단으로 지정한다(S109).First, the emotional
그리고, 레이블 결정부(130)는 사전부(140)의 용어 정보에 기초하여 대상 문단의 타입을 결정한다(S111).Then, the label determination unit 130 determines the type of the target paragraph based on the term information of the dictionary unit 140 (S111).
여기서, 타입은 별도의 기사 정보로 가공할지(S112 단계로 이동), 다음 문단으로 이동할 지(S121 단계로 이동) 또는 현재 뉴스 기사 문서를 스킵하고 다음 기사 문서를 입력받을지(S101 단계로 이동)를 나타내는 인덱스일 수 있으며, 레이블 결정부(130)는 사전부(140)에 등록된 키워드 및 감성어 색인여부 및 빈도수에 따라 문단 타입을 각각 결정할 수 있다.Here, the type is whether to process separate article information (go to step S112), move to the next paragraph (go to step S121), or skip the current news article document and receive the next article document (go to step S101). It may be an index to represent, and the label determination unit 130 may determine a paragraph type according to whether a keyword and a sentiment word registered in the
보다 구체적으로, 만약 문단 타입이 0~2일 경우, 레이블 결정부(130)는 현재 index_p로 지정된 문단을 원래 입력된 기사 문서와의 관계 정보가 할당된 별도의 기사로 추출 생성할 수 있다(S112).More specifically, if the paragraph type is 0 to 2, the label determination unit 130 may extract and generate the paragraph currently designated as index_p as a separate article to which relationship information with the originally input article document is allocated (S112). ).
예를 들어, 원래의 기사 id가 12345678일 때, 별도 추출 생성된 문단의 기사 id는 12345678_1로 지정되거나, 기사 내 별도의 공통 관계 메타데이터가 포함될 수 있다.For example, when the original article id is 12345678, the article id of the separately extracted and generated paragraph may be designated as 12345678_1, or separate common relationship metadata within the article may be included.
그리고, 레이블 결정부(130)는 추출 생성된 기사에 대응하여, 사전부(140)와의 매칭 비교 연산에 따른 긍정 또는 부정 스코어를 결정할 수 있고(S113), 스코어에 기초한 감성 레이블을 결정하여 로그 생성부(160)를 통해 로그를 기록하고(S115), 결정된 감성 레이블을 대상 문단에 태깅하여 검증부(170)로 출력한다(S117).In addition, the label determination unit 130 may determine a positive or negative score according to a matching comparison operation with the
보다 구체적으로, 레이블 결정부(130)는 추출된 문단 내에서 색인되는 사전부(140) 등록 키워드 및 감성어들마다의 스코어를 부여하고, 그 합산 점수를 결정할 수 있다. 그리고 기본적으로 문단의 긍정 또는 부정 합계 점수에 따라 '긍정' 감성 레이블 또는 '부정' 감성 레이블을 결정할 수 있다. 또한, 합계 점수가 일정 범위(예를 들어, -1.5 내지 1.5) 이내인 경우에는 '중립'으로 감성 레이블을 결정할 수도 있다. 이러한 값의 범위는 데이터 또는 뉴스 기사의 속성에 따라 절절히 조절될 수 있다.More specifically, the label determination unit 130 may assign a score for each registered keyword and sentiment words of the
이후, 감성 정보 레이블링 장치(100)는 레이블 결정부(130)를 통해 마지막 문단여부를 확인하여(S119), 지정된 순서에 따라 대상 문단 범위 내 다음 문단으로 이동하거나(S121), 다음 뉴스 기사 문서가 입력되는 S101 단계로 회귀할 수 있다.Thereafter, the emotional
한편, 상기 S121 단계는 타입 인덱스가 3인 경우에도 수행될 수 있으며, 타입 인덱스가 반복적으로 계속하여 3이 결정되는 경우, 레이블 결정부(130)는 대상 문단을 상단, 하단 등으로 이동시켜 문단 타입 결정과정을 반복할 수 있다. 다만, 대상 문단 범위 내 반복적 타입 결정을 처리하여도 3이 반복되는 경우, 레이블 결정부(130)는 타입 인덱스를 4로 결정할 수 있다. 이 경우, 현재 기사는 타입 4로 설정되고, 다음 뉴스 기사 문서를 입력받는 S101 단계부터 다시 수행될 수 있다.Meanwhile, the step S121 may be performed even when the type index is 3, and when the type index is repeatedly determined to be 3, the label determination unit 130 moves the target paragraph to the top, bottom, etc. The decision process can be repeated. However, if 3 is repeated even after processing the repetitive type determination within the target paragraph range, the label determiner 130 may determine the type index as 4. In this case, the current article is set to type 4 and may be performed again from step S101 in which the next news article document is input.
도 4는 본 발명의 실시 예에 따른 레이블링 프로세스를 설명하기 위한 도면이다.4 is a diagram illustrating a labeling process according to an embodiment of the present invention.
도 4를 참조하면, 입력된 뉴스 기사 문서는 7개의 문단(P1, P2, P3, P4, P5, P7)으로 구성되어 있음을 확인할 수 있다.Referring to FIG. 4, it can be seen that the inputted news article document is composed of seven paragraphs P1, P2, P3, P4, P5, and P7.
이에 따라, 감성 정보 레이블링 장치(100)는, 문단 정보 추출부(120)를 통해, 문단 구성 정보를 획득하고, 이 중 분석 대상 정보인 기업명('company B')이 발견된 4번째 문단(P4)을 기준 문단(index_p)으로 설정하고 포인터를 index_p로 이동시킬 수 있다.Accordingly, the emotional
그리고, 감성 정보 레이블링 장치(100)는 레이블 결정부(130)를 통해 키워드(kword) 및 감성어(eword) 색인을 처리한다. 도 4에서는 현재 4번째인 Index_p번째 문단(P5)에는 키워드와 감성어가 존재하지 않아, 레이블 결정부(130)는 index_p+1번째 문단인 P5로 이동할 수 있다. P5 문단에는 긍정 키워드1과 긍정 감성어1 및 부정 키워드2와 부정 감성어2,3이 존재하므로 감성 점수를 계산하면, sentiment_score = +2+1.5-2-1.5-1.5 = -1.5 이며, 이에 따라 레이블 결정부(130)는 최종 부정 감성을 갖는 것으로 판별하고, 부정 감성 정보가 레이블링된 문단 기사를 출력할 수 있다.In addition, the emotional
도 5는 본 발명의 실시 예에 따라 추출되는 로그 정보의 예시도이다.5 is an exemplary diagram of log information extracted according to an embodiment of the present invention.
도 5에 도시된 표는 레이블 결정부(130)에서 자동화된 레이블링 프로세스를 수행함에 따라 기록되는 로그 데이터의 구성 예시이다.The table shown in FIG. 5 is an example of the configuration of log data recorded as the label determination unit 130 performs an automated labeling process.
뉴스 정보 로그(News info.)는 뉴스 기사 자체에 관한 로그 기록으로써, 기사 id와 원문 내용(original content)으로 구성될 수 있다.The news information log (News info.) is a log record of the news article itself, and may be composed of an article ID and original content.
문단 정보 로그(Paragraph info.)는 추출된 문단에 관한 로그 기록으로써, 문단 id와 추출된 문단 내용(filtered paragraph), 발생한 용어들에 대응한 레이블 연산을 통해 획득된 합계 점수(scored sum), 그리고 이를 기반으로 결정된 레이블(decided label)을 포함한다.Paragraph info. is a log record of extracted paragraphs, including the paragraph ID and the extracted paragraph content (filtered paragraph), the scored sum obtained through labeling corresponding to the terms that occurred, and It includes a decided label based on this.
용어 정보 로그(Lexicon info.)는 추출된 문단을 구성하는 용어들에 관한 로그 기록으로써, 발생한 용어와 타입(terms per type), 빈도(frequency), 점수(score), 타입 별 개수(counts per type)로 구성될 수 있다.The term information log (Lexicon info.) is a log record of terms constituting the extracted paragraph, and the term and type that occurred (terms per type), frequency, score, and counts per type ) Can be composed of.
도 6은 본 발명의 실시 예에 따른 문서 검증 및 필터링 프로세스를 설명하기 위한 도면이다.6 is a diagram illustrating a document verification and filtering process according to an embodiment of the present invention.
도 6을 참조하면, 본 발명의 실시 예에 따른 검증부(170)는 문서 유사도 측정 및 유사도 누적치에 기초하여, 감성 정보가 레이블링된 기사 정보로 가공할 뉴스 기사를 검증하고, 최종적으로 서비스 제공 장치(200)로 출력 제공할 기사들을 결정할 수 있다.Referring to FIG. 6, the
예를 들어, 도 6에 도시된 바와 같이 10건의 긍정 감성 레이블을 가진 뉴스 데이터이 생성되었다고 가정할 때, 검증부(170)는 사전부(140)에 등록된 용어들을 이용하여 문서 검증 모델을 생성할 수 있으며, 문서 검증 모델을 이용하여 감성 정보가 레이블링된 문단을 포함하는 기사들과 기존 생성된 다른 뉴스 기사들과의 유사도를 계산한 후 유사도 누적값을 연산한다.For example, as shown in FIG. 6, assuming that news data with 10 positive emotion labels are generated, the
이 때, 검증부(170)는 뉴스 기사 별 유사도 누적치 연산을 위해, 필요에 따라 정규화를 수행한 후 각 기사들을 [1, 0~1, 0] 과 같이 세 구간에 위치시킬 수 있다. 그 값이 1인 기사의 경우, 유사도 면에서 다른 문서들과 거의 유사한 것을 나타내며 예를 들어, 긍정 감성을 충분히 나타내는 기사로 판단되는 경우 일 수 있다. 다만, 그 값이 1인 경우의 빈도수는 일반적으로 낮게 된다.In this case, the
[1~0]인 경우는 다른 문서들과 일부는 비슷하고 일부는 달라서 사용자의 판단에 따라 '긍정' 기사로 판정될 수도 있고, '중립'으로 판정될 수도 있는 기사들을 나타낼 수 있다.In the case of [1~0], articles that are partly similar and partly different from other documents may be determined as'positive' articles or articles that may be determined as'neutral' according to the user's judgment.
다만, 수치적인 의미와 달리, 실제 유사도 수치가 낮더라도 (예를 들어, 0.4) 긍정 감성 수치가 낮다고 볼 수는 없으며, 같은 분류에 속한 다른 기사들과 용어의 구성이 달라서 차이가 발생될 수도 있다.However, contrary to the numerical meaning, even if the actual similarity value is low (for example, 0.4), the positive sentiment value cannot be considered low, and differences may occur because the composition of terms is different from other articles belonging to the same category. .
따라서, 검증부(170)는 [1~0] 인 경우에는 상한 또는 하한 경계값을 설정하고, 그 경계 값 내에 위치한 기사들의 샘플만을 확인하거나, 별도의 기준치를 설정할 수 있다.Accordingly, in the case of [1 to 0], the
한편, 검증부(170)는 유사도가 0인 경우, 유사도값이 너무 낮거나 다른 기사들과는 이질적인 특성을 갖고 있어서 '중립' 또는 '판단불가'로 판별할 수 있다. 이 경우도 1의 경우와 마찬가지로 소수의 기사들만이 이에 해당될 수 있다.On the other hand, when the similarity is 0, the
이에 따라, 검증부(170)는 유사도 누적치가 도 6에 도시된 바와 같이 세 개의 구간 중에 존재할 때, 임계값(Threshold)을 설정함으로써, 특정 뉴스 기사들을 가공 대상에서 제거하는 처리를 수행할 수 있다.Accordingly, when the similarity accumulated value exists among the three sections as shown in FIG. 6, the
도 6에서는 임계값이 0.32로 설정된 경우를 나타내며, 검증부(170)는 이에 맞춰 0.32보다 값이 낮은 1.28과 2.17을 갖는 뉴스 기사 7번과 8번 문서를 제거하게 된다.6 shows a case where the threshold value is set to 0.32, and accordingly, the
그리고, 검증부(170)의 유사도 검증을 마친 긍정 감성의 뉴스 기사 세트에는 최종적으로 뉴스 기사 번호 1~6, 9~10 만 남게 되며, 이는 가공부(180)로 전달되어 긍정 감성 정보가 레이블링된 기사들로서 가공 및 출력될 수 있다.In addition, only
한편, 검증부(170)는 동일한 방식으로 부정 감성을 갖는 뉴스 기사 세트에 대해서도 유사도 검증 과정을 수행하여, 부정 감성 여부에 대해 검증을 통과함으로써 부정 감성을 가진 것으로 최종적으로 판정된 뉴스 기사들만을 모아, 가공부(180)로 전달하여, 부정 감성 정보가 레이블링된 기사들로서 가공 및 출력시킬 수 있다.On the other hand, the
한편, 상술한 본 발명의 다양한 실시 예들에 따른 방법은 프로그램으로 구현되어 다양한 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장된 상태로 각 서버 또는 기기들에 제공될 수 있다. 이에 따라, 사용자 단말(100)은 서버 또는 기기에 접속하여, 상기 프로그램을 다운로드할 수 있다.Meanwhile, the above-described method according to various embodiments of the present invention may be implemented as a program and provided to each server or devices while being stored in various non-transitory computer readable media. Accordingly, the
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.The non-transitory readable medium refers to a medium that stores data semi-permanently and can be read by a device, not a medium that stores data for a short moment, such as a register, cache, or memory. Specifically, the above-described various applications or programs may be provided by being stored in a non-transitory readable medium such as a CD, DVD, hard disk, Blu-ray disk, USB, memory card, and ROM.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.In addition, although the preferred embodiments of the present invention have been illustrated and described above, the present invention is not limited to the specific embodiments described above, and the technical field to which the present invention belongs without departing from the gist of the present invention claimed in the claims. In addition, various modifications are possible by those of ordinary skill in the art, and these modifications should not be individually understood from the technical spirit or prospect of the present invention.
Claims (5)
뉴스 기사의 문서 데이터를 획득하는 입력부;
상기 문서 데이터로부터 문단 정보를 추출하여 문단 인덱싱을 수행하고, 인덱싱된 문단들 중 분석 대상 정보가 포함된 문단을 식별하며, 상기 식별된 문단에 대응하는 색인 범위 중심 설정을 위한 지시변수를 상기 식별된 문단에 할당하는 문단 정보 추출부;
상기 지시변수를 중심으로 하여, 감성 레이블 결정을 위한 대상 문단의 색인 범위 및 색인 순서 중 적어도 하나를 결정하고, 상기 색인 범위 및 색인 순서에 의거하여 해당 문단의 문단 데이터를 사전 구축된 사전부의 언어 데이터 세트와 비교하여, 분석 대상 관련 문단에 대응하는 분석 대상 감성 정보 레이블을 결정하는 레이블 결정부;
상기 레이블 결정부에서 긍정 또는 부정 별 감성 레이블이 결정된 후, 레이블을 결정하는데 사용된 각종 근거 기록들을 로그 데이터로 기록하는 로그 생성부; 및
상기 하나 이상의 문단에 상기 분석 대상 감성 정보 레이블을 태깅하여, 감성 레이블이 태깅된 기사 정보로 가공하는 기사 정보 가공부;를 포함하는
뉴스 기사의 감성 정보 레이블링 장치.
In the emotional information labeling device of a news article,
An input unit for obtaining document data of a news article;
Paragraph indexing is performed by extracting paragraph information from the document data, identifying a paragraph containing information to be analyzed among indexed paragraphs, and determining an indicator variable for setting the center of an index range corresponding to the identified paragraph. A paragraph information extracting unit allocated to a paragraph;
Based on the indicator variable, at least one of the index range and index order of the target paragraph for determining the emotional label is determined, and the paragraph data of the corresponding paragraph is pre-built language data of the dictionary based on the index range and index order. A label determination unit that compares the set with the set, and determines a label for the emotion information to be analyzed corresponding to the paragraph to be analyzed;
A log generator configured to record various ground records used to determine a label as log data after a positive or negative emotional label is determined by the label determination unit; And
And an article information processing unit for tagging the analysis target emotional information label on the one or more paragraphs and processing the article information tagged with the emotional label.
A device for labeling emotional information of news articles.
상기 사전부는, 상기 문서 데이터로부터 획득되는 문단의 분석 대상 감성 정보 레이블을 결정하기 위해 학습 기반으로 구축되는 복수의 언어 데이터 세트를 포함하고,
상기 언어 데이터 세트는,
상기 문단으로부터 분석 대상의 경제 또는 여신에 대응하는 긍정 또는 부정 의미를 갖는 명사형 용어를 식별할 수 있는 키워드 세트와;
상기 문단으로부터 분석 대상의 평판에 대응하는 긍정 또는 부정 의미를 갖는 형용사형 용어를 식별할 수 있는 감성어 세트;를 포함하는
뉴스 기사의 감성 정보 레이블링 장치.
The method of claim 1,
The dictionary unit includes a plurality of language data sets built on a learning basis to determine an analysis target emotion information label of a paragraph obtained from the document data,
The language data set,
A keyword set capable of discriminating a noun-type term having a positive or negative meaning corresponding to an economy or a loan to be analyzed from the paragraph;
Including; a sentiment word set capable of discriminating adjective-type terms having a positive or negative meaning corresponding to the reputation of the analysis target from the paragraph;
A device for labeling emotional information of news articles.
상기 레이블 결정부는,
상기 사전부와의 매칭 비교 연산에 따라, 상기 분석 대상 관련 문단의 긍정 또는 부정 감성 스코어를 결정하여, 상기 스코어 결정에 따라, 문단에 태깅할 분석 대상 감성 정보 레이블을 결정하고,
상기 기사 정보 가공부는,
상기 분석 대상 감성 정보 레이블이 태깅된 문단을 이용하여 상기 감성 레이블이 태깅된 기사 정보로 가공하는
뉴스 기사의 감성 정보 레이블링 장치.The method of claim 1,
The label determination unit,
According to a matching comparison operation with the dictionary unit, a positive or negative sentiment score of the relevant paragraph to be analyzed is determined, and according to the score determination, an analysis subject sentiment information label to be tagged to the paragraph is determined,
The article information processing unit,
Processing the emotional label tagged article information by using the paragraph tagged with the emotional information label to be analyzed
A device for labeling emotional information of news articles.
상기 기사 정보 가공부는,
상기 분석 대상 감성 정보 레이블이 1차 태깅된 문단들을 각각 포함하는 복수의 기사 문서를 획득하고,
상기 복수의 기사 문서들의 감성 분류별 유사도 비교 연산에 따라 검증 값을 산출하는 검증부를 더 포함하며,
상기 기사 정보 가공부는,
상기 검증 값에 기초하여, 기사 정보로 가공할 문서 및 상기 기사 정보에 태깅될 분석 대상 감성 정보 레이블을 최종적으로 결정하는
뉴스 기사 레이블링 장치.The method of claim 3,
The article information processing unit,
Acquiring a plurality of article documents each including paragraphs to which the emotion information label to be analyzed is first tagged,
Further comprising a verification unit for calculating a verification value according to a similarity comparison operation for each emotional classification of the plurality of article documents,
The article information processing unit,
Based on the verification value, finally determining a document to be processed into article information and an analysis target emotion information label tagged to the article information
News article labeling device.
상기 분석 대상은 기업 또는 회사이며,
상기 감성 레이블이 태깅된 기사 정보는 상기 기업 또는 회사의 부실가능성, 여신, 증시 예측 또는 성장가능성 예측 중 적어도 하나의 프로세스를 수행하는 서비스 제공 장치로 제공되는 것을 특징으로 하는
뉴스 기사의 감성 정보 레이블링 장치.The method of claim 1,
The analysis target is a company or company,
The article information tagged with the emotional label is provided to a service providing device that performs at least one process of predicting the company or company's insolvency, credit, stock market prediction, or growth potential.
A device for labeling emotional information of news articles.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190052011A KR20200127589A (en) | 2019-05-03 | 2019-05-03 | An apparatus for automatic sentiment information labeling to news articles |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190052011A KR20200127589A (en) | 2019-05-03 | 2019-05-03 | An apparatus for automatic sentiment information labeling to news articles |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20200127589A true KR20200127589A (en) | 2020-11-11 |
Family
ID=73451617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190052011A KR20200127589A (en) | 2019-05-03 | 2019-05-03 | An apparatus for automatic sentiment information labeling to news articles |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20200127589A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113689299A (en) * | 2021-05-10 | 2021-11-23 | 深圳价值在线信息科技股份有限公司 | Method for constructing news information index model and news information analysis method |
-
2019
- 2019-05-03 KR KR1020190052011A patent/KR20200127589A/en unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113689299A (en) * | 2021-05-10 | 2021-11-23 | 深圳价值在线信息科技股份有限公司 | Method for constructing news information index model and news information analysis method |
CN113689299B (en) * | 2021-05-10 | 2023-10-20 | 深圳价值在线信息科技股份有限公司 | News information index model construction method and news information analysis method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102361597B1 (en) | A program recording medium on which a program for labeling sentiment information in news articles using big data is recoded | |
CN102054015B (en) | System and method of organizing community intelligent information by using organic matter data model | |
US20110112995A1 (en) | Systems and methods for organizing collective social intelligence information using an organic object data model | |
KR102371505B1 (en) | A program for labeling news articles using big data | |
KR102361596B1 (en) | A method for labeling sentiment information in news articles using big data | |
KR102382681B1 (en) | A program for labeling sentiment information in news articles using big data | |
KR20200127636A (en) | A program recording midium for an automatic sentiment information labeling to news articles for providing sentiment information | |
KR20200127649A (en) | A program for an automatic sentiment information labeling to news articles for providing sentiment information | |
KR102228585B1 (en) | An automatic sentiment information labeling method to news articles for providing sentiment information | |
KR20210001649A (en) | A program for predicting corporate default | |
KR20210001625A (en) | A method and an apparatus for providing services of corporate insolvencies information based on automatic sentiment information labelings to news articles | |
KR102361598B1 (en) | A recording medium on which a program for labeling emotional information of an object requiring predictive analysis of emotion is recorded | |
KR102382226B1 (en) | A device for labeling sentimental information in news articles | |
KR20200127589A (en) | An apparatus for automatic sentiment information labeling to news articles | |
KR20200127670A (en) | An apparatus for an automatic sentiment information labeling method to news articles for providing sentiment information | |
KR20200127651A (en) | A program recording midium for an automatic sentiment information labeling to news articles for providing sentiment information | |
KR20200127654A (en) | A operating method for an automatic sentiment information labeling apparatus to news articles | |
KR20210001645A (en) | A method for predicting corporate default | |
KR20210001686A (en) | A program for providing a corporate insolvencies information based on automatic sentiment information labelings | |
KR20210001693A (en) | A rcording media for recording program for providing a corporate insolvencies information based on automatic sentiment information labelings | |
KR20210001670A (en) | A program for predicting corporate default | |
KR20210001707A (en) | An apparatus for providing services of corporate insolvencies information based on automatic sentiment information labelings to news articles | |
KR20210001666A (en) | A method for predicting corporate default | |
KR20200127613A (en) | An apparatus for automatic sentiment information labeling to news articles | |
KR20200127674A (en) | An automatic sentiment information labeling apparatus to news articles for providing sentiment information |