KR20150050943A - Extraction and Estimation Method of Trend Information with the Analasis of Vocabularies - Google Patents
Extraction and Estimation Method of Trend Information with the Analasis of Vocabularies Download PDFInfo
- Publication number
- KR20150050943A KR20150050943A KR1020130132226A KR20130132226A KR20150050943A KR 20150050943 A KR20150050943 A KR 20150050943A KR 1020130132226 A KR1020130132226 A KR 1020130132226A KR 20130132226 A KR20130132226 A KR 20130132226A KR 20150050943 A KR20150050943 A KR 20150050943A
- Authority
- KR
- South Korea
- Prior art keywords
- vocabulary
- trend
- trend information
- vocabularies
- extracting
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
본 발명은 어휘 분석을 이용한 트렌드정보 추출 및 예측 방법에 관한 것으로서, 보다 상세하게는 인터넷 상의 다양한 텍스트 자료의 빅데이터 분석을 통해 특정 개인이나 단체, 브랜드 등의 트렌드 정보, 즉 감성, 이미지, 동향 등의 정보를 파악하고 또한 예측가능하게 함으로써 사용자로 하여금 여론의 흐름을 파악할 수 있도록 도와주고, 특히 정치, 경영, 언론이나 연예 등의 분야에서 미래에 닥쳐올 기회 및 위험을 사전에 감지할 수 있도록 하는 트렌드정보 추출 및 예측 방법에 관한 것이다.
The present invention relates to trend information extraction and prediction methods using lexical analysis. More specifically, the present invention relates to trend information of a specific individual, a group, and a brand through analysis of a large amount of text data on the Internet, To help users to understand the flow of public opinion by identifying and making predictable information, and in particular to provide opportunities to detect future opportunities and risks in the fields of politics, management, media and entertainment. And a method of extracting and predicting trend information.
인터넷의 발달로 온라인 상에서 정보에 대한 접근성이 확대되고 사람이나 단체간에 온라인을 통한 교류가 혁신적으로 늘어났다. 특히 근래에 와서는 소셜네트워크서비스(SNS)와 스마트폰, 태블릿컴퓨터 등의 모바일 단말기의 발달로 인해 이러한 변화의 속도는 가속화되고 있다. 현재 온라인에서의 교류는 사회생활의 일부로 받아들여지고 있고, 이에 따라 온라인에서의 특정인이나 특정 단체에 대한 여론의 흐름, 즉 트렌드는 예의주시하여야 할 대상이 되고 있다. With the development of the Internet, access to information is expanded online, and online exchanges among people and organizations have been revolutionized. Especially in recent years, the speed of such changes is accelerating due to the development of social network services (SNS) and mobile terminals such as smart phones and tablet computers. Currently, online exchanges are accepted as part of social life, and the flow of opinion, or trends, to particular people or specific organizations online is becoming a matter of concern.
특히 정치인이나 기업, 연예인 등 이미지 형성에 매우 민감한 분야에서는 이와 같은 트렌드를 정확히 분석하고 그 미래를 예측하여 반영할 필요가 있다. 이러한 트렌드는 정치인에 있어서는 표심으로 나타나 다음 선거에서의 당락을 좌우하게 되고, 기업에게는 매출, 연예인에게는 인기도로 나타나 존립을 뒤흔들 수도 있는 막강한 파워를 지니기 때문이다. 최근에 사회적으로 물의를 일으킨 기업의 사례를 보면, 그 부정적 여론이 소셜네트워크서비스에 올린 내용에서 시작되어 전파되었음을 알 수 있다. 해당 기업이 그러한 온라인에서의 여론 악화의 조짐을 미리 파악하고 사태파악에 나서 해결방안을 추구하였다면 경영상의 손실은 줄어들 수 있었을 것이다. Especially in politically sensitive areas such as politicians, businesses and entertainers, it is necessary to accurately analyze these trends and to anticipate and reflect the future of such trends. This trend is due to the power of politicians, who are determined to vote in the next election, and have powerful power that can shake up the company by showing sales and popularity to entertainers. Recent examples of socially controversial companies show that the negative publicity has begun and spread from the contents posted on social network services. If the company was able to grasp the signs of such deterioration in public opinion and pursue a solution after grasping the situation, the business loss would have been reduced.
이러한 인터넷, 온라인에서의 특정 주체에 대한 트렌드의 파악은 인터넷 게시글이나 이에 대한 댓글 또는 소셜네트워크서비스(SNS)에 올린 글 등의 텍스트 자료에서 등장하는 어휘를 수집하고 이러한 어휘들이 갖는 감성 이미지 등을 추출하여 분석하는 방식으로 접근해 볼 수 있다. In order to grasp trends of specific entities on the Internet and online, we collect vocabulary from texts such as Internet postings, comments on them or articles posted on social network services (SNS), and extract emotional images And to analyze them by analyzing them.
이와 같이 특정 텍스트 자료에서 어휘들이 갖는 이미지 등의 정보를 추출하기 위한 몇몇 발명이 공개된 바 있다.Thus, some inventions have been disclosed for extracting information such as images possessed by vocabularies in specific text data.
대한민국 등록특허공보 제10-1074215호에는 여론 분석 장치 및 문서 분석을 통한 여론 평가 방법에 대한 발명이 공개되어 있다. 이 발명은 여론 분석 장치가 주어진 주제에 대한 문서를 수집하고, 상기 수집한 문서들을 필터링하여 유효 문서를 추출한 후, 각 유효 문서의 형태소 분석을 통해 감성 표현을 추출하고, 각 감성 표현의 감성벡터 값을 결정하여 그 감성벡터 값을 근거로 상기 주제에 대한 여론 평가 결과를 출력하는 것을 내용으로 한다. 특히 각 감성 표현이 포함된 문장에서 감성 표현의 강도를 표시하는 형태소의 존재 여부를 체크하여, 존재하는 경우에 그 강도에 따라 상기 추출한 감성벡터 값을 조절하여 해당 감성 표현의 최종 감성 벡터 값을 결정하고, 존재하지 않은 경우에 상기 추출한 감성벡터 값을 해당 감성 표현의 최종 감성벡터 값으로 결정하는 것이 특징이다.Korean Patent Registration No. 10-1074215 discloses an invention relating to a public opinion analyzing apparatus and an opinion evaluation method through document analysis. In this invention, a public opinion analyzing apparatus collects documents on a given subject, extracts valid documents by filtering the collected documents, extracts emotional expressions through morphological analysis of each valid document, and extracts emotional vector values And outputs a public opinion evaluation result on the subject based on the emotion vector value. In particular, the presence or absence of a morpheme indicative of the intensity of the emotional expression is checked in a sentence including each emotional expression, and the final emotional vector value of the corresponding emotional expression is determined by adjusting the extracted emotion vector value according to the intensity And if it does not exist, the extracted emotion vector value is determined as the final emotion vector value of the emotion expression.
그러나 이 발명은 수집된 문서의 사전 처리나 감성정보 추출의 기술적인 측면에 중점을 둔 발명으로서, 방대한 인터넷 상의 텍스트 자료에서 특정 주체의 트렌드를 다면적으로 추출하고 시간적 변화 추이를 분석하는 방법에 대해서는 제시하고 있지 않다. 또한 미래의 트렌드의 예상치를 추출하는 방법이나 텍스트 자료에 들어 있는 정보를 이용하여 데이터베이스의 정보를 업데이트하는 구체적인 방법에 대해서도 다루고 있지 아니하여, 경영이나 기타 활동에서 의사 결정에 실질적인 도움을 얻기 위한 용도로는 미진한 면이 있다.
However, this invention focuses on the technical aspects of pre-processing and emotional information extraction of collected documents. It extracts the trends of specific subject from text data on the vast internet and analyzes the trend of temporal change I do not. It also does not cover how to extract predictions of future trends or specific ways to update information in the database using information contained in textual materials, and to provide practical assistance in decision-making in management or other activities. There is a slight face.
상기와 같은 종래 기술의 문제점을 해결하기 위하여 안출된 본 발명은 특정한 인물이나 회사 등 조직, 또는 브랜드 등에 대한 온라인 상의 트렌드의 현황을 다면적으로 분석하여 해당 주체 또는 소비자, 언론 등 이해관계인에 제공함으로써 전략적 의사결정에 도움을 주기 위한 목적이 있다.In order to solve the problems of the prior art as described above, the present invention has been developed in order to analyze the current state of online trends of a specific person, company, organization, or brand, etc. and to provide it to interested parties such as a subject, a consumer, There is a purpose to help decision making.
또한 과거로부터 현재 시점에 이르기까지의 트렌드의 변화양상을 이용하여 미래의 상황을 예측함으로써 다쳐올 위험이나 기회를 포착하고 대응할 수 있도록 하기 위한 다른 목적이 있다.There is also another purpose of capturing and responding to the risks and opportunities that may arise by predicting future situations using the changing patterns of trends from past to present.
더 나아가 텍스트자료에 빈출하고 있으나 기존의 데이터베이스에 등록되지 않은 어휘를 새로 등록하고, 기존에 등록된 어휘와 트렌드 정보들을 이용하여 해당 어휘에 대응하는 트렌드 정보를 유추하여 등록함으로써, 온라인 상의 신조어나 어의의 변동에 대응할 수 있도록 하는 또 다른 목적이 있다.
Furthermore, by registering a vocabulary that is frequently used for text data but is not registered in an existing database, and by using previously registered vocabulary and trend information to infer and register trend information corresponding to the vocabulary, And to cope with the fluctuation of the image quality.
본 발명의 상기 목적은 상기 트렌드정보 구축 서버가 소정의 시간단위마다 외부에 연결된 인터넷 네트워크에서 분석대상어휘가 등장하는 소정 자료개수의 상기 텍스트자료들을 선택하고, 선택된 상기 텍스트자료들에서 상기 분석대상어휘 이외에 가장 많이 등장한 최다노출어휘를 선정하는 제 1 단계, 상기 제 1 단계가 수행되는 시점으로부터 소급하여 소정의 총수집기간 내에상기 최다노출어휘가 노출된 총노출회수를 세고, 상기 총노출회수에 소정 비율을 곱하여 구간노출회수를 계산하고, 상기 제 1 단계가 수행되는 시점으로부터 소급하여 상기 최다노출어휘가 상기 구간노출회수만큼 노출된 최근노출기간을 계산하는 제 2 단계, 상기 텍스트자료들에서 상기 분석대상어휘 이외에 상기 최근노출기간 내에 많이 등장한 순으로 소정 개수의 빈출어휘들을 선정하고 상기 빈출어휘들 각각이 상기 텍스트자료들에 상기 최근노출기간 내에 등장한 회수인 빈출회수들을 추출하는 제 3 단계 및 상기 빈출어휘들 각각과 일치하는 트렌드정보데이터베이스 내의 트렌드어휘들을 선택한 후, 검색된 상기 트렌드어휘들에 대응하는 상기 트렌드정보들을 추출하고 상기 빈출회수들을 이용하여 상기 트렌드정보들 각각이 차지하는 비율들을 계산하여 표시하는 제 4 단계를 포함하는 것을 특징으로 하는 어휘 분석을 이용한 트렌드정보 추출 및 예측 방법에 의해 달성된다.
The above object of the present invention is also achieved by a computer-readable storage medium storing a computer-readable program for causing a computer to execute the steps of: selecting the text data of a predetermined number of data in which an analysis subject vocabulary appears in an Internet network, A first step of selecting the most exposed vocabulary most frequently appeared, counting the total number of exposures in which the most exposed vocabulary is exposed within a predetermined total collection period retroactively from the time when the first step is performed, A second step of calculating a latest exposure period in which the most exposed vocabulary is exposed for the number of times of section exposure retrospectively from the time when the first step is performed, In addition to the target vocabulary, a predetermined number of words And a third step of extracting the number of times of expiration, which is the number of expiration times of the expiration vocabulary in the text data during the most recent exposure period, and selecting the trend vocabularies in the trend information database corresponding to each of the expiration vocabularies, Extracting the trend information corresponding to the trend vocabulary and calculating and displaying the ratios occupied by each of the trend information using the number of exposures; and a fourth step of extracting trend information using the lexical analysis, Prediction method.
본 발명에 따른 어휘 분석을 이용한 트렌드정보 추출 및 예측 방법은 특정한 인물이나 회사 등 조직, 또는 브랜드 등에 대한 온라인 상의 트렌드의 현황을 인터넷 상의 게시글, SNS의 글(이른 바 '트윗' 등), 댓글 등 텍스트 자료들에 빈출하여 등장하는 어휘들이 품고 있는 감성 이미지 등의 트렌드 정보를 다면적으로 분석하여 해당 주체 또는 소비자, 언론 등 이해관계인에 제공함으로써 전략적 의사결정에 도움을 주는 효과가 있다.The trend information extracting and predicting method using the lexical analysis according to the present invention is a method of extracting trends of online trends of a specific person, an organization such as a company, an organization such as a company, or a brand, It analyzes the trend information such as emotional images in vocabulary emerging frequently in text materials, and provides them to interested parties such as the subject, consumer, and the media to help strategic decision making.
또한 일정 기간 동안 수집된 텍스트 자료들에 나타나는 과거로부터 현재 시점에 이르기까지의 상기 트렌드의 변화양상을 이용하여 미래의 상황을 예측함으로써 다쳐올 위험이나 기회를 포착하고 대처하는 데 도움을 주는 다른 효과가 있다.It is also possible to predict the future situation using the changing patterns of the trend from past to present to appear in the text data collected over a certain period of time, thereby providing other effects that help to capture and cope with the risks or opportunities have.
더 나아가 텍스트자료에 빈출하고 있으나 기존의 데이터베이스에 등록되지 않은 어휘를 새로 등록하고, 기존에 등록된 어휘와 트렌드 정보들을 이용하여 해당 어휘에 대응하는 트렌드 정보를 유추하여 등록함으로써, 온라인 상의 신조어나 어의의 변동에 대응할 수 있는 또 다른 효과가 있다.
Furthermore, by registering a vocabulary that is frequently used for text data but is not registered in an existing database, and by using previously registered vocabulary and trend information to infer and register trend information corresponding to the vocabulary, There is another effect that can cope with the variation of
도 1은 본 발명의 트렌드정보구축서버의 동작을 나타내는 모식도,
도 2는 텍스트 자료로부터 다면적 트렌드 정보를 표시하는 과정을 나타내는 흐름도,
도 3은 어휘를 수집하는 기간 들 간의 관계를 나타낸 모식도,
도 4는 다면적 트렌드 정보 및 각 비율을 표시하는 실시예,
도 5는 트렌드 정보의 미래 예측비율을 표시하는 과정을 나타내는 흐름도,
도 6은 다면적 트렌드 정보 및 각 비율을 표시하는 또 다른 실시예이다.1 is a schematic diagram showing the operation of the trend information construction server of the present invention,
2 is a flowchart illustrating a process of displaying multifaceted trend information from text data,
FIG. 3 is a schematic diagram showing a relationship between periods for collecting a vocabulary;
Figure 4 shows an embodiment for displaying multisided trend information and respective ratios,
5 is a flowchart showing a process of displaying a future prediction ratio of trend information,
6 is another embodiment for displaying the multisided trend information and each ratio.
본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다.The terms and words used in the present specification and claims should not be construed as limited to ordinary or dictionary terms and the inventor may appropriately define the concept of the term in order to best describe its invention It should be construed as meaning and concept consistent with the technical idea of the present invention.
따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.Therefore, the embodiments described in this specification and the configurations shown in the drawings are merely the most preferred embodiments of the present invention and do not represent all the technical ideas of the present invention. Therefore, It is to be understood that equivalents and modifications are possible.
이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 트렌드정보구축서버의 동작을 나타내는 모식도이다. 도 1에 도시된 바와 같이, 본 발명에 따른 어휘 분석을 이용한 트렌드정보 추출 및 예측 방법은 트렌드정보 추출 서버가 수행하며, 외부에 연결된 인터넷 네트워크에서 소정 기간 동안의 인터넷 게시글, 트윗 등 SNS의 글, 댓글과 같은 텍스트 자료에 포함된 어휘를 수집하고, 트렌드정보데이터베이스(DB) 내에 등록된 트렌드어휘와 대조하여 대응하는 트렌드정보들을 추출하고 이들의 비율 및 상기 비율의 미래 예측치를 계산하여 표시하는 기본 구조를 지니고 있다. 다만 인터넷 상의 텍스트 자료에서 어휘를 수집하는 웹크롤러나 트렌드정보데이터베이스는 상기 트렌드정보구축서버에 내장되어 있을 수도 있고 외부 장치에 존재함으로써 상기 트렌드정보구축서버와 연동하여 동작할 수도 있다. 또한 트렌드 정보와 비율, 예측치를 실제로 가시화하는 장치는 사용자의 컴퓨터, 모바일 단말기 등의 디스플레이가 될 수 있으며, 본 발명에서 '표시'한다 함은 상기 트렌드정보구축서버에서 상기와 같이 가시화를 위한 가공된 정보를 상기 가시화 기기에 전달하는 과정을 의미하는 것으로 정의하기로 한다.1 is a schematic diagram showing the operation of the trend information construction server of the present invention. As shown in FIG. 1, the trend information extraction and prediction method using the lexical analysis according to the present invention is performed by the trend information extraction server. In the Internet network connected to the outside, A basic structure for collecting vocabularies included in text data such as a comment, extracting corresponding trend information against the trend vocabulary registered in the trend information database (DB), calculating the ratio of the trends and the future predicted value of the ratio Respectively. However, the web crawler or the trend information database for collecting vocabulary from the text data on the Internet may be built in the trend information construction server or may operate in conjunction with the trend information construction server by being present in an external device. In addition, the device for actually visualizing the trend information, the ratio and the predicted value may be a display of a user's computer, a mobile terminal, or the like. In the present invention, 'displaying' means that, And transmitting the information to the visualization device.
도 2는 텍스트 자료로부터 다면적 트렌드 정보를 표시하는 구체적인 과정을 나타내는 흐름도이다. 도 2에 도시된 바와 같이, 본 발명에 따른 어휘 분석을 이용한 트렌드정보 추출 및 예측 방법은 상기 트렌드정보 구축 서버가 소정의 시간단위마다 외부에 연결된 인터넷 네트워크에서 분석대상어휘가 등장하는 웹사이트에 포함되거나 상기 분석대상어휘가 등장하는 소정 자료개수의 제1의 텍스트자료들을 선택(S100)하고, 선택된 상기 제1의 텍스트자료들에서 상기 분석대상어휘 이외에 가장 많이 등장한 최다노출어휘를 선정(S110)하는 제 1 단계를 포함한다. 이는 현재 시점에서 인터넷에 출현한 이상 정보를 빠르게 스캐닝하여 분석에 들어가기 위함 사전 작업으로서의 의미를 지닌다. 즉 예를 들면 OO기업이 들어가 있는 언론기사(인터넷 게시글의 일종) 들에서 'OO기업'이라는 어휘 이외에 '품질'이라는 어휘가 가장 많이 등장하였다면 이 '품질'이라는 어휘가 이상 정보로 감지하여 분석에 들어갈 수 있다는 것을 의미한다. 물론 이상 정보가 되기 어려운 일반적인 어휘군을 필터링하거나 소정 회수 이상으로 노출된 어휘만을 선별하도록 하는 구성을 추가하는 것이 가능하다. 상기 소정 자료개수는 통계의 표본의 개수로 의미 있으면서 계산량을 고려하여 적절히 선정할 수 있으며, 이를테면 10개에서 100개 사이에서 정할 수 있다.FIG. 2 is a flowchart illustrating a specific process of displaying multifaceted trend information from text data. As shown in FIG. 2, the trend information extracting and predicting method using lexical analysis according to the present invention is performed in a web site in which the analysis target vocabulary appears in the Internet network connected to the outside every time unit of the trend information building server (S100) a predetermined number of pieces of text data in which the analysis target vocabulary appears (S100), and selects the most exposed vocabulary most frequently displayed in addition to the analysis target vocabulary in the selected first text data (S110) And includes a first step. This is meaningful as a preliminary task for quickly scanning the abnormal information that appeared on the Internet at present time and analyzing it. In other words, for example, in the media articles (a kind of Internet postings) in which OO companies are included, if the word "quality" is the most common vocabulary in addition to the word "OO company" It means that you can enter. Of course, it is possible to add a configuration for filtering a general vocabulary group which is difficult to be abnormal information, or to select only vocabularies which are exposed a predetermined number of times or more. The number of the above data is meaningful as the number of statistical samples, and can be appropriately selected in consideration of the calculation amount, for example, between 10 and 100.
제 2 단계는 상기 제 1 단계가 수행되는 시점으로부터 소급하여 소정의 총수집기간 내에 상기 인터넷 네트워크에 노출된 제2의 텍스트자료들에서 상기 최다노출어휘가 노출된 총노출회수를 세고(S120), 상기 총노출회수에 소정 비율을 곱하여 구간노출회수를 계산(S130)하고, 상기 제 1 단계가 수행되는 시점으로부터 소급하여 상기 최다노출어휘가 상기 구간노출회수만큼 노출된 최근노출기간을 계산(S140)하는 과정으로 이루어진다. 물론 구체적인 수집방법에 따라 상기 제2의 텍스트자료들에는 상기 제1의 텍스트자료들이 전부 또는 일부가 포함되어 있을 수 있다. 이러한 총수집기간과 최근노출기간이 도 3에 도시되어 있다. 즉, 상기 최근노출기간과 총수집기간은 상기 제1단계의 상기 제1의 텍스트 자료를 수집하고 최다노출어휘를 선정하는 시점으로부터 소급하는 기간으로 선정된다. 상기 총수집기간은 빅데이터 분석이 용이하면서도 트렌드 정보 분석에 유효한 정보들을 충분하게 수집할 수 있는 기간을 고려하여 적절하게 선정할 수 있다. 예를 들면 6개월에서 1년 사이에서 결정하는 것이 가능하다. 이와 같은 총 수집기간 내에 인터넷 상에 노출된 텍스트자료들에서 상기 예로 든 '품질'과 같은 최다노출어휘가 노출된 총노출회수를 세고(S120), 이러한 총노출회수에 소정의 비율을 곱하여 얻어진 구간 노출회수(S130) 최다노출어휘가 등장한 기간인 최근노출기간을 계산(S140)하여 이를 트렌드분석을 위한 기준이 되는 기간으로 선정하는 것이다. 상기 소정의 비율은 최근의 데이터이면서도 분석에 반영할 만큼의 충분한 양의 데이터를 수집하기 위하여 필요충분한 기간을 얻기 위한 적정치로 선정한다. 예를 들면 1/5~1/20 정도로 선정하는 것이 가능하다. 상기처럼 최근노출기간을 최다노출어휘가 노출된 최근의 구간노출회수에 종속하도록 하는 것은 상기 총 수집기간 내에 상기 최다노출어휘가 비교적 균일하게 꾸준히 등장해온 경우에는 최근노출기간을 길게 계산되도록 함으로써 분석에 충분한 양의 데이터를 수집하게 하고, 상기 최다노출어휘가 최근에 급격히 등장 빈도가 증가하는 분포를 보이는 경우에는 최근노출기간을 짧게 계산되도록 함으로써 최근의 데이터를 집중적으로 수집되도록 하는 효과가 있다. 단순화한 예를 들자면 상기 소정의 비율이 1/6이고, 총수집기간이 현재 시점(1단계 수행 시점)으로부터 1년인 경우, 총수집기간 동안 상기 예에서의 최다노출어휘인 '품질'이 한달에 100건씩 꾸준히 등장하여 1,200건에 이르렀다면, 상기 구간노출회수는 200건(1,200건*1/6)이 되고, 이처럼 200건이 등장하는 최근노출기간은 현재 시점(1단계 수행 시점)으로부터 약 2개월이 된다. 그러나 1년 전부터 한달 전까지 800건이 등장하고 최근 한달 동안 400건이 등장하였다면 최근노출기간은 같은 계산법에 의하여 현재 시점(1단계 수행 시점)으로부터 약 0.5개월이 된다. 즉 최근에 이상정보(최다노출어휘)가 급격히 증가하였다면, 가급적 최근의 트렌드를 반영한 데이터를 수집하는 것이 가능해진다.The second step counts (S120) the total number of exposures for which the most exposed vocabulary is exposed in the second text data exposed to the Internet network within a predetermined total collection period retroactively from the time when the first step is performed, (S140) the total exposure time by multiplying the total exposure times by a predetermined ratio (S130), calculating a most recent exposure period in which the most exposed vocabulary is exposed retrospectively from the time when the first step is performed (S140) . Of course, the second text data may include all or some of the first text data according to a specific collection method. Such a total collection period and a recent exposure period are shown in Fig. That is, the latest exposure period and the total collection period are selected as the period from the time of collecting the first text data of the first step and selecting the most exposed vocabulary to retroactively. The total collection period can be appropriately selected in consideration of a period in which big data analysis is easy and sufficient information for effective analysis of trend information can be collected. For example, it is possible to decide between 6 months and 1 year. In this total collection period, the total number of exposures of the most exposed words such as the above-mentioned 'quality' is counted in the text data exposed on the Internet (S120), and the interval obtained by multiplying the total number of exposures by a predetermined ratio The number of times of exposure (S130) The latest exposure period, which is the period in which the most exposed vocabulary appears, is calculated (S140), and the selected period is used as a reference period for trend analysis. The predetermined ratio is selected as a proper value for obtaining a necessary and sufficient period for collecting the sufficient amount of data to be reflected in the analysis even though it is recent data. For example, about 1/5 to 1/20. As described above, to allow the most recent exposure period to be subordinate to the latest number of exposure times of the most exposed vocabulary, if the most exposed vocabulary has appeared relatively uniformly and consistently within the total collection period, The present invention collects a sufficient amount of data, and when the most exposed vocabulary shows a distribution in which the frequency of occurrence of a sudden increase recently appears, the recent exposure period is calculated to be short, thereby collecting recent data intensively. In a simplified example, if the predetermined ratio is 1/6 and the total collection period is one year from the present time (one-step execution time), 'quality', which is the most exposed word in the example during the total collection period, If the number of episodes per 100 episodes has been steadily increased to 1,200 episodes, the number of episodes per episode becomes 200 episodes (1,200 episodes * 1/6 episodes), and the last exposure period in which 200 episodes appear is about two months from the current episode . However, if 800 cases appeared a month ago and 400 cases appeared in the last month, the current exposure period will be about 0.5 months from the present time (1st stage) by the same calculation method. That is, if the abnormal information (the most exposed vocabulary) has been rapidly increased recently, it becomes possible to collect data reflecting the latest trend as much as possible.
본 발명의 제 3 단계는 상기 제2의 텍스트자료들에서 상기 분석대상어휘 이외에 상기 최근노출기간 내에 많이 등장한 순으로 소정 개수의 빈출어휘들을 선정(S150)하고 상기 빈출어휘들 각각이 상기 텍스트자료들에 상기 최근노출기간 내에 등장한 회수인 빈출회수들을 추출(S160)하는 것이다. 상기 소정 개수는 다면적 분석에 필요한 정도의 수를 고려하여 이를테면 5 내지 10정도로 선정할 수 있다. 이와 같이 상기 최다노출어휘의 수집에 국한하지 않고 텍스트자료들에 등장하는 어휘들 중 많이 등장하는 빈출어휘들을 수집(S150)함으로써 다양한 어휘의 분석을 통해 해당 텍스트자료들의 다면적인 트렌드정보들을 추출하는 것이 가능하다. 각각의 빈출어휘이 등장한 빈출회수를 추출(S160)함으로써 이를 기반으로 각 트렌드정보의 비율을 계산하는 것이 가능해진다. In the third step of the present invention, a predetermined number of high-frequency vocabularies are selected from the second text data in order of appearance in the latest exposure period in addition to the analysis target vocabulary (S150), and each of the high- (S160) the number of times of expiration, which is the number of times of appearance in the latest exposure period. The predetermined number may be selected, for example, from about 5 to about 10 in consideration of the number required for the multiphasic analysis. As described above, it is not limited to the collection of the most exposed vocabulary but collects frequently used vocabulary words among the vocabularies appearing in the text data (S150), thereby extracting the multifaceted trend information of the text data through analysis of various vocabularies It is possible. It is possible to calculate the ratio of each trend information based on the extracted number of times of frequent occurrence of each of the high-frequency words (S160).
본 발명의 제 4 단계에서는 상기 빈출어휘들 각각과 일치하는 트렌드정보데이터베이스 내의 트렌드어휘들을 선택(S170)한 후, 검색된 상기 트렌드어휘들에 대응하는 상기 트렌드정보들을 추출하고 상기 빈출회수들을 이용하여 상기 트렌드정보들 각각이 차지하는 비율들을 계산하여 표시(S180)한다. 즉 트렌드어휘는 상기 트렌드정보데이터베이스에 미리 등록되어 있다. 상기의 예에서 '품질'을 포함한 텍스트자료들에서 '매출', '호황', '소비자', '피해', '개선'이라는 빈출어휘가 순서대로 25건, 10건, 5건, 50건, 10건이 수집되어 선정되고, 이들이 상기 트렌드정보데이터베이스 내의 트렌드어휘로서 등록이 되어 있으며, 이들 각각에 대응하는 트렌드정보가 순서대로 '보통', '좋음', '보통', '나쁨', '좋음' 이라면, 표시되는 트렌드 정보 및 각 비율은 좋음 20%((10+10)/100), 보통 30%((25+5)/100), 나쁨 50%(50/100)로 나타나게 된다. 이와 같은 '좋음', '나쁨', '보통'은 트렌드 정보의 일종인 감성 정보를 단순하게 분류한 예로 정의할 수 있다. 이처럼 다면적 트렌드 정보 및 각 비율을 표시하는 실시예를 도 4에 원그래프로 도시하였다.In the fourth step of the present invention, the trend vocabularies in the trend information database corresponding to each of the vocabulary words are selected (S170), the trend information corresponding to the detected trend vocabulary items is extracted, And calculates and displays the ratios occupied by the pieces of trend information (S180). That is, the trend vocabulary is registered in advance in the trend information database. In the above example, 25 items, 10 items, 5 items, 50 items are listed in order of 'sales', 'boom', 'consumer', 'damage' Ten items are collected and selected, and they are registered as a trend vocabulary in the trend information database. The trend information corresponding to each of them is sequentially ranked as 'normal', 'good', 'normal', 'bad' , The trend information and the displayed ratio are expressed as 20% ((10 + 10) / 100), 30% (25 + 5) / 100, and 50% (50/100). Such 'good', 'bad' and 'normal' can be defined as a simple classification of emotional information, which is a kind of trend information. An example of displaying the multifaceted trend information and the respective ratios is shown in a circle graph in FIG.
도 5는 트렌드 정보의 미래 예측비율을 표시하는 과정을 나타내는 흐름도이다. 도 6에 도시된 바와 같이, 본 발명은 상기 제 4 단계 이후에, 상기 제 1 단계가 수행되는 시점으로부터 소급하여 상기 최근노출기간을 소정 배수만큼 확대(S190)한 확대기간 내에 상기 빈출어휘들이 등장하는 회수인 확대빈출회수들을 계산(S200)한 후 상기 확대빈출회수와 상기 소정 배수를 이용하여 평균빈출회수를 계산(S210)하는 제 5 단계 및 상기 평균빈출회수 및 상기 빈출회수를 이용하여 상기 빈출어휘의 예측빈출회수를 계산(S220)하고, 상기 예측빈출회수들을 이용하여 상기 트렌드정보들 각각이 차지하는 비율들을 계산하여 표시(S230)하는 제 6 단계를 더 포함할 수 있다. 상기 소정 배수는 상기 예측빈출회수를 산정하기 위하여 기준치를 얻기 위하여 상당한 수치로 정할 수 있다. 예를 들면 3배수 내지 10배수 정도로 선정하는 것이 가능하다. 이처럼 확대빈출회수와 소정 배수를 매개로 빈출어휘 각각이 등장한 회수에 상기 확대기간들이 각각 종속되도록 함으로써 각 빈출어휘마다 개개의 충분한 분석을 통해 보다 정확한 트렌드정보의 변화 예측을 기대할 수 있다. 상기 제 5 단계와 상기 제 6 단계의 구체적인 계산법은 지금까지 알려진 다양한 수학적인 평균계산법이나 기울기계산법들이 활용될 수 있다. 5 is a flowchart showing a process of displaying the future prediction ratio of the trend information. As shown in FIG. 6, the present invention is characterized in that after the fourth step, within the enlargement period in which the latest exposure period is enlarged by a predetermined multiple (S190) retrospectively from the time when the first step is performed, (S200), and calculating an average number of exposures using the number of exposures and the predetermined number of times (S210), and calculating a number of exposures using the average number of exposures and the number of exposures (S220) calculating a predicted number of times of vocabulary, and calculating and displaying the ratio of each of the trend information using the predicted number of times of occurrence (S230). The predetermined multiple may be set to a considerable number in order to obtain a reference value for estimating the number of predicted exposures. For example, it is possible to select from about 3 to 10 times. By making each of the expansion periods dependent on the number of times each of the high-frequency vocabulary appears by way of the number of expansions / expirations and the predetermined multiple, it is possible to expect more accurate trend information change prediction through each sufficient analysis for each high-frequency vocabulary. The concrete calculation method of the fifth step and the sixth step may be various mathematical averaging calculation methods or slope calculation methods known hitherto.
도 5에 도시된 바와 같이 상기 제 5 단계에서 상기 평균빈출회수는 상기 확대빈출회수를 상기 소정 배수로 나눈 산술평균으로서 산정(S210)하도록 할 수 있다. 또한 상기 제 6 단계에서 상기 예측빈출회수는 상기 평균빈출회수에서 상기 빈출회수를 뺀 값을 상기 빈출회수에서 다시 빼는 방법으로 산정(S220)하도록 할 수 있다. As shown in FIG. 5, in the fifth step, the average number of exposures may be calculated as an arithmetic average obtained by dividing the number of exposures / exposures by the predetermined multiple (S210). In the sixth step, the predicted number of times of use may be calculated by subtracting the number of times of consumption from the average number of times of consumption by the number of times of consumption (S220).
상기 제1의 텍스트자료들 및 상기 제2의 텍스트자료들은 인터넷 네트워크 상의 인터넷 게시글, 댓글 또는 소셜네트워크서비스(SNS)의 글 중 어느 하나 이상으로 지정할 수 있다. 상기 인터넷 게시글은 언론 기사를 비롯하여 각종 웹페이지 및 블로그 등에 게시된 글을 의미하며, 댓글은 상기 인터넷 게시글을 비롯한 콘텐츠의 댓글 기능을 이용하여 비교적 짧게 작성되는 글을 의미한다. 또한 상기 소셜네트워크서비스(SNS)의 글은 이른바 '트윗'이나 '상태'와 같이 소셜네트워크서비스(SNS)상에서 작성되는 글을 의미한다. The first text data and the second text data may be designated by at least one of an Internet post, a comment, and a text of a social network service (SNS) on the Internet network. The Internet post refers to articles posted on various web pages and blogs including media articles, and a comment refers to articles written relatively shortly by using the comment function of the contents including the Internet post. Also, the article of the social network service (SNS) means a article written on the social network service (SNS) such as a so-called 'tweet' or a 'status'.
상기 분석대상어휘, 최다노출어휘, 빈출어휘 및 트렌드어휘는 형태소 단위로 구성되도록 할 수 있다. 형태소란, 의미의 기능을 부여하는, 언어의 형태론적 수준에서의 최소단위를 의미한다. 예를 들면 "강이 깊다."라는 문장에서 형태소는 '강', '이', '깊', '다'와 같이 4개의 형태소로 분설될 수 있다. 구체적인 실시예에 따라 한국어의 조사나 접속사 등에 해당하는 형태소는 분석에서 제외하도록 구성하는 것이 바람직하다.The analyzed vocabulary, the most exposed vocabulary, the spoken vocabulary, and the trend vocabulary can be configured in morpheme units. A morpheme is a minimal unit at the morphological level of the language, which gives a function of meaning. For example, in the sentence "In the river is deep," the morpheme can be broken down into four morphemes such as "river", "i", "deep", and "da". According to the concrete embodiment, it is preferable to exclude the morpheme corresponding to the survey or the conjunction of Korean from the analysis.
상기 트렌드정보데이터베이스는 상기 트렌드어휘와 상기 트렌드어휘에 대응하는 상기 트렌드정보의 조합의 집합으로 이루어지도록 할 수 있으며, 상기 제 4 단계에서 상기 빈출어휘들을 상기 트렌드정보데이터베이스 내의 상기 트렌드어휘와 대조하여 일치하는 경우에 일치한 상기 트렌드어휘에 대응하는 상기 트렌드정보를 추출하도록 하는 것이 바람직하다. 상기 트렌드정보를 상기 트렌드정보데이터베이스와 별도의 데이터베이스에서 호출하도록 구성하거나, 경우에 따라서는 실시간으로 상기 최다노출어휘가 포함되지 않은 최근의 텍스트자료들에 사용된 어의를 자동 분석하여 생성하도록 하는 것도 물론 가능하다. 다만, 상기 트렌드정보를 상기 트렌드정보데이터베이스 내에서 상기 트렌드어휘와 조합을 이루도록 구성하면, 본 발명의 실시에 있어서 적은 계산량으로도 안정적으로 트렌드정보를 추출하는 것이 가능하다.The trend information database may be formed of a combination of the trend vocabulary and the trend information corresponding to the trend vocabulary. In the fourth step, the trend vocabularies are compared with the trend vocabulary in the trend information database, The trend information corresponding to the trend vocabulary corresponding to the trend vocabulary is extracted. The trend information may be called from a database separate from the trend information database or, in some cases, the semantics used for recent text data that does not include the most exposed word in real time may be automatically analyzed and generated It is possible. However, if the trend information is configured to be combined with the trend vocabulary in the trend information database, it is possible to stably extract trend information even with a small amount of calculation in the practice of the present invention.
상기 트렌드어휘는 주제어휘와 보조어휘로 분류되고, 상기 제 4 단계에서 상기 빈출어휘들을 상기 트렌드정보데이터베이스 내의 상기 주제어휘와 대조하여 일치하는 경우에 상기 제2의 텍스트자료들의 문장 중에서 상기 빈출어휘들이 존재하는 문장 내의 다른 어휘들을 상기 보조어휘와 대조하여 일치하는지를 판단하고, 일치한 상기 보조어휘와 상기 주제어휘의 조합에 대응하는 상기 트렌드정보를 추출하도록 구성하는 것이 바람직하다. 즉 상기의 예에서 '매출'이 상기 트렌드정보데이터베이스 내에 주제어휘로 등록되어 있고, 제2의 텍스트자료들의 문장 중에서 상기 '매출'이 존재하는 문장 내의 다른 어휘 중에서 '하락'이 상기 트렌드정보데이터베이스 내에 주제어휘로 등록되어 있는 경우에, 상기 트렌드정보데이터베이스 내에서 '매출'+'하락'의 조합에 대응하는 트렌드정보로서 '나쁨'이 추출될 수 있다. 이와 같이 주제어휘와 보조어휘를 분류함으써 좀 더 정확한 트렌드분석이 가능해 진다.Wherein the trend vocabulary is classified into a subject vocabulary and a subsidiary vocabulary, and in the fourth step, when the vocabulary words are matched with the subject vocabulary in the trend information database, among the sentences of the second text materials, It is preferable to determine whether or not the other vocabularies in the existing sentence are matched against the auxiliary vocabulary and extract the trend information corresponding to the combination of the auxiliary vocabulary and the subject vocabulary that match. In other words, in the above example, 'sales' is registered as a subject vocabulary in the trend information database, and 'drop' among other vocabularies in the sentence where the 'sales' is present among the sentences of the second text materials is registered in the trend information database In case of being registered as a subject vocabulary, 'bad' may be extracted as trend information corresponding to a combination of 'sales' and 'drop' in the trend information database. Thus, by classifying the subject vocabulary and auxiliary vocabulary, more accurate trend analysis becomes possible.
상기 트렌드정보데이터베이스 내에 상기 빈출어휘 중 하나에 대응하는 상기 트렌드어휘가 존재하지 않는 경우에는, 상기 빈출어휘 중 하나를 상기 트렌드어휘로 새로 등록하고, 상기 빈출어휘들 중 하나를 추출한 텍스트자료에 같이 존재하는 다른 빈출어휘들 각각에 대응하는 트렌드정보들을 추출하고, 상기 트렌드정보들 중 가장 다수를 이루는 것을 새로 등록된 상기 트렌드어휘에 대응하는 트렌드정보로 등록하도록 구성할 수 있다. 이와 같이 상기 트렌드정보 구축 서버가 자동으로 새상기 트렌드정보데이터베이스에 등록되도록 함으로써 유행어, 신조어, 어휘의 의미의 변경 등의 최신의 언어 현상을 반영할 수 있다. If the trend vocabulary corresponding to one of the high-frequency vocabularies does not exist in the trend information database, one of the high-frequency vocabularies is newly registered with the trend vocabulary, and one of the high- Extracting the trend information corresponding to each of the other high-frequency vocabularies, and registering the plurality of trend information items as the trend information corresponding to the newly registered trend vocabulary. In this manner, the trend information construction server is automatically registered in the new trend information database, thereby reflecting the latest language phenomenon such as a change in the meaning of a pseudo language, a coined word, and a vocabulary.
또한 트렌드정보를 등록하는 또 다른 방법으로, 상기 제2의 텍스트자료들의 문장 중에서 상기 빈출어휘 중 하나가 존재하는 문장에서 소정 어휘개수 이내에 인접하는 다른 어휘들에 대응하는 트렌드정보들을 추출하고, 그 중 가장 다수를 이루는 것을 새로 등록된 상기 트렌드어휘에 대응하는 트렌드정보로 등록하도록 구성할 수도 있다. 이를 통해 인접어끼리의 밀접한 관계를 반영하여 새로운 트렌드정보를 등록하는 것이 가능해진다.As another method of registering trend information, trend information corresponding to other vocabularies within a predetermined number of vocabularies in a sentence in which one of the above-mentioned vocabulary words exist is extracted from the sentences of the second text data, The trend information corresponding to the trend vocabulary newly registered may be registered as the trend information. This makes it possible to register new trend information reflecting the close relationship between the adjacent words.
상기 트렌드정보는 감성정보, 도덕성정보 또는 사회관계정보 중 어느 하나 이상인 것이 바람직하다. 감성정보는 인간이 느끼는 감성을 어휘로 표현한 정보로서, 위에서 언급한 바와 같이 '좋음', '보통', '나쁨'으로 단순하게 구성하는 것도 가능하지만, 도 6에 도시된 바와 같이 다면성을 강화하여 '만족', '감사', '기쁨', '희망', '공포', '수치', '슬픔', '분노'와 같은 다양한 감성을 담아내는 것도 가능하다. 도덕성정보는 특정 주체의 도덕성을 평가하는 정보로서, 실시예에 따라서 '청렴', '부패', '사기', '착취', '폭력', '상생', '봉사' 등의 어휘로 표현될 수 있다. 사회생활에서 특정 주체를 평가함에 있어서 도덕성이 우선적으로 다뤄진다는 점에서 도덕성정보는 중요한 트렌드정보의 한 부류로 취급될 수 있다. 상기 사회관계정보는 사회에서 특정 주체가 차지하는 위상이나 대외적 관계를 표현한 것으로서, 실시예에 따라서 '리더십', '협력', '종속', '독립', '확장', '축소' 등의 어휘로 표현될 수 있다.The trend information is preferably at least one of emotion information, moral information, or social relation information. As described above, the emotion information can be simply composed of 'good', 'normal', and 'bad' as the information expressing emotion felt by a human by a vocabulary. However, as shown in FIG. 6, It is also possible to capture various emotions such as 'satisfaction', 'thanks', 'joy', 'hope', 'fear', 'shame', 'sadness', 'anger'. Morality information is information that evaluates the morality of a specific subject and can be expressed in words such as' integrity ',' corruption ',' fraud ',' exploitation ',' violence ',' . Morality information can be treated as a kind of important trend information in that morality is given priority in evaluating a specific subject in social life. The social relationship information is a representation of the status or external relations of a specific subject in the society and may be defined in terms of 'leadership', 'cooperation', 'dependency', 'independence', 'expansion' Can be expressed.
상기 분석대상어휘는 인명, 상호, 브랜드 또는 기관명 중 어느 하나 이상인 것이 바람직하다. 즉 상기 분석대상어휘는 특정 주체를 표상하는 어휘로서 한정함으로써 본 발명이 특정 주체에 대한 트렌드정보를 분석하는 툴로서 기능하도록 하는 것이 바람직하다. 그러나 본 발명의 독립항인 제1항이 반드시 이러한 기능으로 국한되는 것은 아니다. It is preferable that the analysis target vocabulary is any one of a human name, a mutual name, a brand, and an institution name. That is, it is preferable that the analysis target vocabulary is limited to a vocabulary representing a specific subject, so that the present invention functions as a tool for analyzing trend information for a specific subject. However, the first claim, which is an independent claim of the present invention, is not necessarily limited to these functions.
본 발명은 이상에서 살펴본 바와 같이 바람직한 실시예를 들어 도시하고 설명하였으나, 상기한 실시예에 한정되지 아니하며 본 발명의 정신을 벗어나지 않는 범위 내에서 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변경과 수정이 가능할 것이다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is clearly understood that the same is by way of illustration and example only and is not to be taken by way of limitation, Various changes and modifications will be possible.
Claims (12)
상기 트렌드정보 구축 서버가 소정의 시간단위마다 외부에 연결된 인터넷 네트워크에서 분석대상어휘가 등장하는 웹사이트에 포함되거나 상기 분석대상어휘를 직접 포함하는 소정 자료개수의 제1의 텍스트자료들을 선택하고, 선택된 상기 제1의 텍스트자료들에서 상기 분석대상어휘 이외에 가장 많이 등장한 최다노출어휘를 선정하는 제 1 단계;
상기 제 1 단계가 수행되는 시점으로부터 소급하여 소정의 총수집기간 내에 상기 인터넷 네트워크에 노출된 제2의 텍스트자료들에서 상기 최다노출어휘가 노출된 총노출회수를 세고, 상기 총노출회수에 소정 비율을 곱하여 구간노출회수를 계산하고, 상기 제 1 단계가 수행되는 시점으로부터 소급하여 상기 최다노출어휘가 상기 구간노출회수만큼 노출된 최근노출기간을 계산하는 제 2 단계;
상기 제2의 텍스트자료들에서 상기 분석대상어휘 이외에 상기 최근노출기간 내에 많이 등장한 순으로 소정 개수의 빈출어휘들을 선정하고 상기 빈출어휘들 각각이 상기 제2의 텍스트자료들에 상기 최근노출기간 내에 등장한 회수인 빈출회수들을 추출하는 제 3 단계; 및
상기 빈출어휘들 각각과 일치하는 트렌드정보데이터베이스 내의 트렌드어휘들을 선택한 후, 선택된 상기 트렌드어휘들에 대응하는 상기 트렌드정보들을 추출하고 상기 빈출회수들을 이용하여 상기 트렌드정보들 각각이 차지하는 비율들을 계산하여 표시하는 제 4 단계
를 포함하는 것을 특징으로 하는 어휘 분석을 이용한 트렌드정보 추출 및 예측 방법.
A method for extracting and predicting trend information through lexical analysis of text data on the Internet network at a trend information extracting server,
The trend information establishing server selects the first text data of a predetermined number of data that is included in the web site where the analysis subject vocabulary appears in the Internet network connected externally every predetermined time unit or directly includes the analysis subject vocabulary, A first step of selecting the most exposed vocabulary most frequently appearing in the first text data besides the analysis target vocabulary;
Counting a total number of exposures for which the most exposed vocabulary is exposed in second text data exposed to the Internet network within a predetermined total collection period retrospectively from the time when the first step is performed, A second step of calculating a latest exposure period in which the most exposed vocabulary is exposed as many times as the section exposure period retroactively from the time when the first step is performed;
Selecting a predetermined number of high-frequency vocabulary words in the second text data in descending order of appearance in the latest exposure period other than the analysis subject vocabulary word, and if each of the high-frequency vocabulary words appears in the second text data A third step of extracting the number of exposures that are the number of times of collection; And
Selects the trend vocabularies in the trend information database corresponding to each of the vocabulary words, extracts the trend information corresponding to the selected trend vocabularies, calculates the ratios occupied by each of the trend information items using the vocabulary counts, Step 4 of
And extracting and predicting the trend information using the lexical analysis.
상기 제 4 단계 이후에,
상기 제 1 단계가 수행되는 시점으로부터 소급하여 상기 최근노출기간을 소정 배수만큼 확대한 확대기간 내에 상기 빈출어휘들이 등장하는 회수인 확대빈출회수들을 계산한 후 상기 확대빈출회수와 상기 소정 배수를 이용하여 평균빈출회수를 계산하는 제 5 단계; 및
상기 평균빈출회수 및 상기 빈출회수를 이용하여 상기 빈출어휘의 예측빈출회수를 계산하고, 상기 예측빈출회수들을 이용하여 상기 트렌드정보들 각각이 차지하는 비율들을 계산하여 표시하는 제 6 단계;
를 더 포함하는 것을 특징으로 하는 어휘 분석을 이용한 트렌드정보 추출 및 예측 방법.
The method according to claim 1,
After the fourth step,
Calculating a number of exposures and exposures that are the number of occurrences of the high-frequency lexicons within an expansive period in which the latest exposure period is extended by a predetermined multiple after retreating from the time when the first step is performed, and then using the expansive number of exposures and the predetermined multiple A fifth step of calculating an average number of times of spins; And
A sixth step of calculating the predicted number of times of the lexical vocabulary using the average number of exposures and the number of exposures and calculating and displaying the ratios occupied by the trend information using the predicted number of exposures;
And extracting and predicting the trend information using the lexical analysis.
상기 제 5 단계에서
상기 평균빈출회수는 상기 확대빈출회수를 상기 소정 배수로 나눈 산술평균으로서 산정하는 것을 특징으로 하는 어휘 분석을 이용한 트렌드정보 추출 및 예측 방법.
3. The method of claim 2,
In the fifth step
Wherein the average number of exposures is calculated as an arithmetic average obtained by dividing the number of expansions and exposures by the predetermined number of times.
상기 제 6 단계에서
상기 예측빈출회수는 상기 평균빈출회수에서 상기 빈출회수를 뺀 값을 상기 빈출회수에서 다시 빼는 방법으로 산정하는 것을 특징으로 하는 어휘 분석을 이용한 트렌드정보 추출 및 예측 방법.
3. The method of claim 2,
In the sixth step
Wherein the predictive expense count is calculated by subtracting the expense count from the average expense count by the expense count.
상기 제1의 텍스트자료들 및 상기 제2의 텍스트자료들은 인터넷 네트워크 상의 인터넷 게시글, 댓글 또는 소셜네트워크서비스(SNS)의 글 중 어느 하나 이상인 것을 특징으로 하는 어휘 분석을 이용한 트렌드정보 추출 및 예측 방법.
The method according to claim 1,
Wherein the first text data and the second text data are at least one of an Internet post, a comment, and a text of a social network service (SNS) on the Internet network.
상기 분석대상어휘, 상기 최다노출어휘, 상기 빈출어휘 또는 상기 트렌드어휘 중 어느 하나 이상은 형태소 단위로 구성되는 것을 특징으로 하는 어휘 분석을 이용한 트렌드정보 추출 및 예측 방법.
The method according to claim 1,
Wherein the at least one of the analysis target vocabulary, the most exposed vocabulary, the lexical vocabulary, and the trend vocabulary is composed of morpheme units.
상기 트렌드정보데이터베이스는 상기 트렌드어휘와 상기 트렌드어휘에 대응하는 상기 트렌드정보의 조합의 집합으로 이루어지는 것을 특징으로 하는 어휘 분석을 이용한 트렌드정보 추출 및 예측 방법.
The method according to claim 1,
Wherein the trend information database comprises a combination of the trend vocabulary and the trend information corresponding to the trend vocabulary.
상기 트렌드어휘는 주제어휘와 보조어휘로 분류되고,
상기 제 4 단계에서
상기 빈출어휘들을 상기 트렌드정보데이터베이스 내의 상기 주제어휘와 대조하여 일치하는 경우에 상기 제2의 텍스트자료들의 문장 중에서 상기 빈출어휘들이 존재하는 문장 내의 다른 어휘들을 상기 보조어휘와 대조하여 일치하는지를 판단하고, 일치한 상기 보조어휘와 상기 주제어휘의 조합에 대응하는 상기 트렌드정보를 추출하는 것을 특징으로 하는 어휘 분석을 이용한 트렌드정보 추출 및 예측 방법.
8. The method of claim 7,
The trend vocabulary is classified into a subject vocabulary and an auxiliary vocabulary,
In the fourth step
Determining whether the second vocabularies match the second vocabularies in the sentence in which the spoken vocabularies are present among the sentences of the second textual data if the vocabulary matches the subject vocabularies in the trend information database, And extracting the trend information corresponding to the combination of the auxiliary vocabulary and the subject vocabulary that match the extracted vocabulary.
상기 트렌드정보데이터베이스 내에 상기 빈출어휘 중 하나에 대응하는 상기 트렌드어휘가 존재하지 않는 경우에, 상기 빈출어휘 중 하나를 상기 트렌드어휘로 새로 등록하고,
상기 제2의 텍스트자료 중 상기 빈출어휘들 중 하나를 추출한 것에 같이 존재하는 다른 빈출어휘들 각각에 대응하는 트렌드정보들을 추출하고, 상기 트렌드정보들 중 가장 다수를 이루는 것을 새로 등록된 상기 트렌드어휘에 대응하는 트렌드정보로 등록하는 것을 특징으로 하는 어휘 분석을 이용한 트렌드정보 추출 및 예측 방법.
8. The method of claim 7,
If the trend vocabulary corresponding to one of the high-frequency vocabularies does not exist in the trend information database, newly registers one of the high-frequency vocabularies with the trend vocabulary,
Extracting trend information corresponding to each of the other high-frequency vocabularies existing as a result of extracting one of the high-frequency vocabularies from the second text data, and forming the largest number of the trend information in the newly registered trend vocabulary And the trend information is registered with corresponding trend information.
상기 트렌드정보데이터베이스 내에 상기 빈출어휘 중 하나에 대응하는 상기 트렌드어휘가 존재하지 않는 경우에, 상기 빈출어휘 중 하나를 상기 트렌드어휘로 새로 등록하고,
상기 제2의 텍스트자료들의 문장 중에서 상기 빈출어휘 중 하나가 존재하는 문장에서 소정 어휘개수 이내에 인접하는 다른 어휘들에 대응하는 트렌드정보들을 추출하고, 그 중 가장 다수를 이루는 것을 새로 등록된 상기 트렌드어휘에 대응하는 트렌드정보로 등록하는 것을 특징으로 하는 어휘 분석을 이용한 트렌드정보 추출 및 예측 방법.
8. The method of claim 7,
If the trend vocabulary corresponding to one of the high-frequency vocabularies does not exist in the trend information database, newly registers one of the high-frequency vocabularies with the trend vocabulary,
Extracting trend information corresponding to other vocabularies within a predetermined number of vocabularies in a sentence in which one of the spoken vocabularies exists among the sentences of the second text data, And the trend information is extracted by using the lexical analysis.
상기 트렌드정보는 감성정보, 도덕성정보 또는 사회관계정보 중 어느 하나 이상인 것을 특징으로 하는 어휘 분석을 이용한 트렌드정보 추출 및 예측 방법.
The method according to claim 1,
Wherein the trend information is at least one of emotion information, moral information, and social relation information.
상기 분석대상어휘는 인명, 상호, 브랜드 또는 기관명 중 어느 하나 이상인 것으로 하는 어휘 분석을 이용한 트렌드정보 추출 및 예측 방법.The method according to claim 1,
Wherein the analysis target vocabulary is at least one of a name, a name, a brand name, and an organization name.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130132226A KR101560456B1 (en) | 2013-11-01 | 2013-11-01 | Extraction and Estimation Method of Trend Information with the Analasis of Vocabularies |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130132226A KR101560456B1 (en) | 2013-11-01 | 2013-11-01 | Extraction and Estimation Method of Trend Information with the Analasis of Vocabularies |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20150050943A true KR20150050943A (en) | 2015-05-11 |
KR101560456B1 KR101560456B1 (en) | 2015-10-15 |
Family
ID=53388568
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020130132226A KR101560456B1 (en) | 2013-11-01 | 2013-11-01 | Extraction and Estimation Method of Trend Information with the Analasis of Vocabularies |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101560456B1 (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101600616B1 (en) * | 2015-05-28 | 2016-03-07 | 동서울대학교 산학협력단 | Method for analyzing service of heterogeneous contents |
KR101663681B1 (en) * | 2015-06-11 | 2016-10-14 | 주식회사 인포리언스 | Data usage and qualtiy estimation apparatus, recoring medium and computer program |
CN107679037A (en) * | 2017-10-11 | 2018-02-09 | 北京工商大学 | A kind of digital publication vocabulary abstracting method based on word frequency |
KR20180078022A (en) * | 2016-12-29 | 2018-07-09 | (주) 더아이엠씨 | Trend Analyzing Method for Fassion Field and Storage Medium Having the Same |
KR20180078010A (en) * | 2016-12-29 | 2018-07-09 | (주) 더아이엠씨 | Sensitivity Analyzing Method of Phrase Unit for Fassion Field and Storage Medium Having the Same |
KR20200075426A (en) * | 2018-12-18 | 2020-06-26 | 대한민국(환경부 화학물질안전원장) | Method of terror risk assessment for chemcial facility |
KR20210029584A (en) * | 2019-09-06 | 2021-03-16 | (주)바이브컴퍼니 | Life tag generation device and method |
KR20210086402A (en) * | 2019-12-31 | 2021-07-08 | 인천국제공항공사 | Apparatus and methods for trend analysis in airport and aviation technology |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101934280B1 (en) | 2016-10-05 | 2019-01-03 | 현대자동차주식회사 | Apparatus and method for analyzing speech meaning |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002108937A (en) | 2000-09-27 | 2002-04-12 | Tsukuba Multimedia:Kk | System for analyzing and displaying latest trend of internet |
JP4185059B2 (en) | 2005-02-18 | 2008-11-19 | 大日本印刷株式会社 | Trend prediction apparatus and trend prediction method |
-
2013
- 2013-11-01 KR KR1020130132226A patent/KR101560456B1/en active IP Right Grant
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101600616B1 (en) * | 2015-05-28 | 2016-03-07 | 동서울대학교 산학협력단 | Method for analyzing service of heterogeneous contents |
KR101663681B1 (en) * | 2015-06-11 | 2016-10-14 | 주식회사 인포리언스 | Data usage and qualtiy estimation apparatus, recoring medium and computer program |
KR20180078022A (en) * | 2016-12-29 | 2018-07-09 | (주) 더아이엠씨 | Trend Analyzing Method for Fassion Field and Storage Medium Having the Same |
KR20180078010A (en) * | 2016-12-29 | 2018-07-09 | (주) 더아이엠씨 | Sensitivity Analyzing Method of Phrase Unit for Fassion Field and Storage Medium Having the Same |
CN107679037A (en) * | 2017-10-11 | 2018-02-09 | 北京工商大学 | A kind of digital publication vocabulary abstracting method based on word frequency |
CN107679037B (en) * | 2017-10-11 | 2021-01-15 | 北京工商大学 | Word frequency-based digital publication vocabulary extraction method |
KR20200075426A (en) * | 2018-12-18 | 2020-06-26 | 대한민국(환경부 화학물질안전원장) | Method of terror risk assessment for chemcial facility |
KR20210029584A (en) * | 2019-09-06 | 2021-03-16 | (주)바이브컴퍼니 | Life tag generation device and method |
KR20210086402A (en) * | 2019-12-31 | 2021-07-08 | 인천국제공항공사 | Apparatus and methods for trend analysis in airport and aviation technology |
Also Published As
Publication number | Publication date |
---|---|
KR101560456B1 (en) | 2015-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101560456B1 (en) | Extraction and Estimation Method of Trend Information with the Analasis of Vocabularies | |
Haselmayer et al. | Sentiment analysis of political communication: Combining a dictionary approach with crowdcoding | |
Holsapple et al. | Business social media analytics: Characterization and conceptual framework | |
Durahim et al. | # iamhappybecause: Gross National Happiness through Twitter analysis and big data | |
Rill et al. | Politwi: Early detection of emerging political topics on twitter and the impact on concept-level sentiment analysis | |
JP5729308B2 (en) | Reputation analysis apparatus, reputation analysis method, and reputation analysis program | |
JP5895052B2 (en) | Information analysis system and information analysis method | |
CN110096681A (en) | Contract terms analysis method, device, equipment and readable storage medium storing program for executing | |
Du et al. | Predicting crowdfunding project success based on backers' language preferences | |
Lin | A TEXT MINING APPROACH TO CAPTURE USER EXPERIENCE FOR NEW PRODUCT DEVELOPMENT. | |
Ahmadi et al. | A social media analytics-based approach to customer-centric reverse logistics management of electronic devices: A case study on notebooks | |
Ning et al. | Calling for response: automatically distinguishing situation-aware tweets during crises | |
Schneider et al. | Dimensions of argumentation in social media | |
Dey et al. | Applying Text Mining to Understand Customer Perception of Mobile Banking App | |
Tkachenko et al. | Conflict detection in linguistically diverse on-line social networks: A russia-ukraine case study | |
Lee et al. | The influence of negative emotions on customer innovation activities: An examination using sentiment analysis | |
KR101935109B1 (en) | Sensitivity Analyzing Method of Phrase Unit for Fassion Field and Storage Medium Having the Same | |
Spada et al. | WHAT USERS WANT: A NATURAL LANGUAGE PROCESSING APPROACH TO DISCOVER USERS'NEEDS FROM ONLINE REVIEWS | |
Mikova | Recent trends in technology mining approaches: quantitative analysis of GTM Conference Proceedings | |
Sumathi et al. | Sentiment Analysis on Feedback Data of E-commerce Products Based on NLP | |
Taunk et al. | Suicide Trend Analysis and Prediction in India using Facebook Prophet | |
Bhattacharya et al. | The information network: Exploiting causal dependencies in online information seeking | |
Sun | Sourcing Risk Detection and Prediction with Online Public Data: An Application of Machine Learning Techniques in Supply Chain Risk Management | |
Comito | Social Media Mining and Analysis to support authorities in COVID-19 pandemic preparedness | |
Su et al. | Depressive emotion recognition based on behavioral data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20180928 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20190806 Year of fee payment: 5 |