KR20220065980A - Sentiment analysis apparatus and controlling method thereof, and newly-coined word and emotion extraction apparatus - Google Patents
Sentiment analysis apparatus and controlling method thereof, and newly-coined word and emotion extraction apparatus Download PDFInfo
- Publication number
- KR20220065980A KR20220065980A KR1020200152325A KR20200152325A KR20220065980A KR 20220065980 A KR20220065980 A KR 20220065980A KR 1020200152325 A KR1020200152325 A KR 1020200152325A KR 20200152325 A KR20200152325 A KR 20200152325A KR 20220065980 A KR20220065980 A KR 20220065980A
- Authority
- KR
- South Korea
- Prior art keywords
- social data
- emotion
- positive
- value
- total
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
본 발명은 감성 분석장치 및 제어 방법 그리고 신조어 및 이모티콘 추출 장치에 관한 것으로서, 소셜 데이터에 대한 감성 분석장치 및 제어 방법 그리고 신조어 및 이모티콘 추출 장치에 관한 것이다.The present invention relates to an apparatus and control method for emotion analysis, and to a device for extracting new words and emoticons, and to an apparatus and control method for emotion analysis for social data, and an apparatus for extracting new words and emoticons.
유선 및 무선 네트워크의 발전과 휴대용 전자기기의 발전으로 인해, 때와 장소에 무관하게 인터넷의 사용이 가능해지고 있다.Due to the development of wired and wireless networks and the development of portable electronic devices, the use of the Internet is possible regardless of time and place.
이로 인해, 음성을 이용한 전화 통화 대신에 문자를 이용하여 서로의 의견을 나누고 감정을 소통하는 추세가 증가하고 있다.For this reason, there is an increasing trend to share opinions and communicate emotions using text messages instead of phone calls using voice.
하지만, 스마트폰(smart phone)과 같은 휴대용 전자기기를 통해 SNS(social network service) 등을 이용하는 경우, 주로 터치 패널로 이루어져 있는 입력부의 소형화 및 그에 따른 사용의 불편함이 발생하게 된다.However, when using a social network service (SNS) or the like through a portable electronic device such as a smart phone, the input unit mainly composed of a touch panel is miniaturized and thus inconvenient to use.
따라서, 문자의 입력 수를 줄이기 위해, 정상적인 단어의 글자수를 줄인 축약어나 새로운 단어와 같은 신조어의 생성 및 사용이 증가하고 있고, 이에 더해, 감정이나 느낌을 나타내는 단어나 문장을 대신하는 이모티콘(emoticon)의 사용이 나날이 증가하고 있다.Therefore, in order to reduce the number of characters input, the generation and use of new words such as abbreviations or new words that reduce the number of characters of normal words are increasing, and in addition, emoticons (emoticons) replacing words or sentences expressing emotions or feelings ) is increasing day by day.
이러한 신조어나 이모티콘은 표준어와 같은 정상적인 단어가 아니므로, 문장 속에 이들 신조어나 이모티콘이 존재할 때, 문장 분석에 어려움이 발생한다.Since these new words or emoticons are not normal words like standard words, when these new words or emoticons exist in a sentence, it is difficult to analyze the sentence.
본 발명이 해결하려는 과제는 신조어와 이모티콘을 이용하여 검색 결과에 대한 감성 분석을 실시하는 것이다.The problem to be solved by the present invention is to perform sentiment analysis on search results using new words and emoticons.
본 발명이 해결하려는 다른 과제는 정확한 신조어의 추출을 실시하기 위한 것이다.Another problem to be solved by the present invention is to perform the extraction of accurate neologisms.
상기 과제를 해결하기 위한 본 발명의 한 특징은 분석 유닛, 및 상기 분석 유닛에 연결되어 있는 저장부를 포함하고, 상기 분석 유닛은 신조어 감성 데이터베이스와 이모티콘 감성 데이터베이스를 이용하여 수집된 각 소셜 데이터에서 신조어 및 이모티콘을 추출하여 상기 저장부에 저장하고, 수집된 각 소셜 데이터에서 감성어를 추출하고, 추출된 상기 감성어를 이용하여 수집된 각 소셜 데이터에 대한 제1 감성값을 산출하고, 각 소셜 데이터에 대한 제1 감성값 중 제1 긍정 감성값을 합산하여 제1 긍정 감성 총합을 산출하여 상기 저장부에 저장하고, 각 소셜 데이터에 대한 제1 감성값 중 제1 부정 감성값을 합산하여 제1 부정 감성 총합을 산출하여 상기 저장부에 저장하고, 수집된 각 소셜 데이터에서 추출된 상기 신조어 및 이모티콘을 이용하여 각 소셜 데이터에 대한 제2 감성값을 산출하여 상기 저장부에 저장하고, 각 소셜 데이터에 대한 제2 감성값 중 제2 긍정 감성값을 합산하여 제2 긍정 감성 총합을 산출하고, 각 소셜 데이터에 대한 제2 감성값 중 제2 부정 감성값을 합산하여 제2 부정 감성 총합을 산출하여 상기 저장부에 저장하며, 상기 제1 긍정 감성 총합과 상기 제2 긍정 감성 총합을 더하여 적어도 하나의 소셜 데이터 전체에 대한 최종 긍정 감성 총합을 산출하고, 상기 제1 부정 감성 총합과 상기 제2 부정 감성 총합을 더하여 상기 적어도 하나의 소셜 데이터 전체에 대한 최종 부정 감성 총합을 산출하며, 상기 최종 긍정 감성 총합과 상기 최종 부정 감성 총합을 비교하여 상기 적어도 하나의 소셜 데이터 전체에 최종 감성을 판단한다. One feature of the present invention for solving the above problems includes an analysis unit, and a storage unit connected to the analysis unit, wherein the analysis unit is a new word and An emoticon is extracted and stored in the storage unit, an emotional word is extracted from each collected social data, a first emotional value is calculated for each social data collected by using the extracted emotional word, and in each social data The first positive emotion values are summed among the first emotional values for the first negative emotion values to calculate a first positive emotion sum total and stored in the storage unit, and the first negative emotion values among the first emotion values for each social data are summed for a first negative emotion value. The sum total of emotions is calculated and stored in the storage unit, and a second sentiment value for each social data is calculated using the new words and emoticons extracted from each collected social data, and stored in the storage unit, and stored in each social data. A second sum of positive emotions is calculated by summing the second positive emotion values among the second emotional values for each social data, and a second total negative emotion is calculated by summing the second negative emotion values among the second emotion values for each social data. Stored in the storage, the sum of the first positive sensibility and the sum of the second positive sensibility are added to calculate a final total positive sensibility for all of the at least one social data, and the sum of the first negative sensibility and the sum of the second negative sensibility is added to calculate a final total negative emotion for all of the at least one social data, and compares the final total positive emotion with the final total negative emotion to determine a final emotion for all of the at least one social data.
상기 분석 유닛은 상기 신조어, 이모티콘 및 감성어를 추출하기 전에, 수집된 적어도 하나의 소셜 데이터에서 사용자 정보, 위치 정보 및 해시태그를 삭제할 수 있다. The analysis unit may delete user information, location information, and hashtags from the collected at least one social data before extracting the neologism, emoticon, and sentimental word.
상기 분석 유닛은 각 소셜 데이터에 대한 형태소 분석을 실시하여, 각 소셜 데이터의 형태소 분석 결과와 감성어 사전 데이터베이스에 저장되어 있는 감성어 사전을 비교하여 각 소셜 데이터에 대한 감성어를 추출할 수 있다. The analysis unit may perform morpheme analysis on each social data, compare the result of the morpheme analysis of each social data with the sentiment dictionary stored in the sentiment dictionary database, and extract sentiment words for each social data.
상기 저장부는 현재 수집 계수에 대한 극성 가중치가 저장되어 있을 수 있고, 상기 감성 분석부는 상기 신조어 감상 데이터베이스와 상기 이모티콘 감성 데이터베이스를 이용하여 각 소셜 데이터에서 추출된 각 신조어 및 각 이모티콘의 극성, 강도, 현재 수집 계수를 판단하고, 상기 현재 수집 계수에 대한 극성 가중치를 판단하며, 판단된 상기 극성, 강도 및 극성 가중치를 이용하여 각 신조어 및 각 이모티콘의 감성값을 산출하며, 각 소셜 데이터에 대한 각 신조어 및 이모티콘의 감성값을 이용하여 각 작업용 소셜 데이터에 대한 총 긍정 감성값과 총 부정 감성값을 산출하고, 각 작업용 소셜 데이터의 총 긍정 감성값과 총 부정 감성값을 비교하여, 각 소셜 데이터에 대한 제2 감성값을 산출할 수 있다. The storage unit may store polarity weights for current collection coefficients, and the sentiment analysis unit uses the new word appreciation database and the emoticon emotion database to extract each new word and each emoticon from each social data using the polarity, strength, and current Determine a collection coefficient, determine a polarity weight for the current collection coefficient, calculate the emotion value of each new word and each emoticon using the determined polarity, strength, and polarity weight, each new word for each social data and The total positive emotion value and the total negative emotion value for each social data for each job are calculated using the emotion value of the emoticon, and the total positive emotion value and the total negative emotion value of the social data for each job are compared. 2 Sensitivity values can be calculated.
상기 특징에 따른 감성 분석 장치는 상기 분석 유닛에 연결되어 있고, 수집 키워드를 입력하는 사용자 입력부를 더 포함할 수 있고, 상기 분석 유닛은 상기 수집 키워드에 대응하는 상기 적어도 하나의 소셜 데이터를 소셜 네트워크 서버로부터 수집할 수 있다. The sentiment analysis apparatus according to the feature may further include a user input unit connected to the analysis unit and inputting a collection keyword, wherein the analysis unit stores the at least one social data corresponding to the collection keyword to a social network server. can be collected from
본 발명의 다른 특징에 따른 감성 분석 장치의 제어 방법은 신조어 감성 데이터베이스와 이모티콘 감성 데이터베이스를 이용하여 수집된 각 소셜 데이터에서 신조어 및 이모티콘을 추출하는 단계, 수집된 각 소셜 데이터에서 감성어를 추출하고, 추출된 상기 감성어를 이용하여 수집된 각 소셜 데이터에 대한 제1 감성값을 산출하는 단계, 각 소셜 데이터에 대한 제1 감성값 중 제1 긍정 감성값을 합산하여 제1 긍정 감성 총합을 산출하고, 각 소셜 데이터에 대한 제1 감성값 중 제1 부정 감성값을 합산하여 제1 부정 감성 총합을 산출하는 단계; 수집된 각 소셜 데이터에서 추출된 상기 신조어 및 이모티콘을 이용하여 각 소셜 데이터에 대한 제2 감성값을 산출하는 단계, 각 소셜 데이터에 대한 제2 감성값 중 제2 긍정 감성값을 합산하여 제2 긍정 감성 총합을 산출하고, 각 소셜 데이터에 대한 제2 감성값 중 제2 부정 감성값을 합산하여 제2 부정 감성 총합을 산출하는 단계, 상기 제1 긍정 감성 총합과 상기 제2 긍정 감성 총합을 더하여 적어도 하나의 소셜 데이터 전체에 대한 최종 긍정 감성 총합을 산출하는 단계; 상기 제1 부정 감성 총합과 상기 제2 부정 감성 총합을 더하여 상기 적어도 하나의 소셜 데이터 전체에 대한 최종 부정 감성 총합을 산출하는 단계 및 상기 최종 긍정 감성 총합과 상기 최종 부정 감성 총합을 비교하여 상기 적어도 하나의 소셜 데이터 전체에 최종 감성을 판단하는 단계를 포함한다.The control method of the emotion analysis apparatus according to another feature of the present invention includes the steps of extracting new words and emoticons from each social data collected using a new word emotion database and an emoticon emotion database, extracting a sentiment word from each collected social data, calculating a first emotional value for each social data collected by using the extracted emotional word; calculating a first positive emotional sum by summing the first positive emotional values among the first emotional values for each social data; , calculating a first total negative emotion by summing the first negative emotion values among the first emotion values for each social data; Calculating a second emotional value for each social data using the new words and emoticons extracted from each collected social data, adding up a second positive emotional value among the second emotional values for each social data to make a second positive calculating the sum total of emotions and calculating a second sum total of negative sensibility by summing the second negative sensibility values among the second sensibility values for each social data; calculating a final sum of positive emotions for all one social data; calculating a final total negative emotion for all of the at least one social data by adding the first total negative emotion and the second total negative emotion; Including the step of judging the final sentiment in the whole of the social data.
상기 특징에 따른 감성 분석 장치의 제어 방법은 상기 신조어, 이모티콘 및 감성어를 추출하기 전에, 수집된 적어도 하나의 소셜 데이터에서 사용자 정보, 위치 정보 및 해시태그를 삭제하는 단계를 더 포함할 수 있다. The control method of the emotion analysis apparatus according to the feature may further include deleting user information, location information, and hashtags from at least one collected social data before extracting the new words, emoticons, and emotional words.
상기 제2 감성값 산출 단계는 상기 신조어 감상 데이터베이스와 상기 이모티콘 감성 데이터베이스를 이용하여 각 소셜 데이터에서 추출된 각 신조어 및 각 이모티콘의 극성, 강도, 현재 수집 계수를 판단하는 단계, 저장부에 저장되는 정보를 이용하여 상기 현재 수집 계수에 대한 극성 가중치를 판단하는 단계; 판단된 상기 극성, 강도 및 극성 가중치를 이용하여 각 신조어 및 각 이모티콘의 감성값을 산출하는 단계, 각 소셜 데이터에 대한 각 신조어 및 이모티콘의 감성값을 이용하여 각 작업용 소셜 데이터에 대한 총 긍정 감성값과 총 부정 감성값을 산출하는 단계 및 각 작업용 소셜 데이터의 총 긍정 감성값과 총 부정 감성값을 비교하여, 각 소셜 데이터에 대한 제2 감성값을 산출하는 단계를 포함할 수 있다.The second emotion value calculation step is a step of determining the polarity, strength, and current collection coefficient of each new word and each emoticon extracted from each social data using the new word appreciation database and the emoticon emotion database, and information stored in the storage unit determining a polarity weight for the current collection coefficient using Calculating the emotional value of each new word and each emoticon by using the determined polarity, intensity, and polarity weight, and using the emotional value of each new word and emoticon for each social data, the total positive emotional value for each job social data and calculating a total negative emotion value, and calculating a second emotion value for each social data by comparing the total positive emotion value and the total negative emotion value of the social data for each task.
본 발명의 또 다른 특징에 따른 신조어 및 이모티콘 추출 장치는 소셜 데이터가 저장되어 있는 저장부 및 상기 저장부에 연결되어 있고, 상기 소셜 데이터와 오프사전 데이터베이스를 비교하여, 상기 오프사전 데이터베이스에 존재하는 단어와 적어도 하나의 한글 초성을 신조어로 판단하는 추출부를 포함한다.An apparatus for extracting new words and emoticons according to another feature of the present invention is connected to a storage unit in which social data is stored and the storage unit, compares the social data with the off-dictionary database, and the words existing in the off-dictionary database and an extraction unit that determines at least one Hangul initial consonant as a neologism.
상기 저장부에 저장되어 있는 상기 소셜 데이터는 한국어를 함유할 수 있다.The social data stored in the storage unit may contain Korean.
상기 추출부는 상기 소셜 데이터에서 이미지 태그를 추출하여 이미지형 이모티콘을 추출하고, 4바이트 유니코드로 인코딩된 문자를 추출하여 4바이트 문자형 이모티콘으로 추출할 수 있다.The extractor may extract an image tag by extracting an image tag from the social data, extract a character encoded in 4-byte Unicode, and extract it as a 4-byte character emoticon.
이러한 특징에 다르면, 감성어 뿐만 아니라 신조어와 이모티콘을 이용하여 수집 키워드에 관련된 소셜 데이터의 전체적인 감성을 판단하므로, 감성 판단의 정확도가 향상된다. According to these characteristics, since the overall sensitivity of social data related to the collected keyword is determined using not only emotional words but also new words and emoticons, the accuracy of emotion judgment is improved.
또한, 소셜 네트워크 서비스 상에서 신조조와 이모티콘을 추출하여 해당 데이터베이스에 등록하므로, 소셜 데이터에 대한 감성 분석의 정확도가 향상될 수 있다.In addition, since creeds and emoticons are extracted from the social network service and registered in the database, the accuracy of sentiment analysis on social data can be improved.
도 1은 본 발명의 일 실시예에 따른 감성 분석 시스템의 개략적인 블록도이다.
도 2는 본 발명의 일 실시예에 따른 감성 분석 장치의 개략적인 블록도이다.
도 3은 본 발명의 일 실시예에 따른 감성 분석 장치의 동작 순서도이다.
도 4는 도 4의 작업용 소셜 데이터에 대한 감성 분석 루틴에 대한 구체적인 동작 순서도이다.
도 5는 본 발명의 일 실시예에 따른 신조어 및 이모티콘 추출 장치의 개략적인 블록도이다.
도 6는 본 발명의 일 실시예에 따른 신조어 및 이모티콘 추출 장치의 동작 순서도이다.
도 7은 이미지형 이모티콘의 형상과 그에 대한 HTML 태그를 도시한 도면이다.
도 8은 본 발명의 일 실시예에 따른 신조어 및 이모티콘 추출 장치의 출력부로 출력되는 신조어 및 이모티콘 등록을 위한 출력 화면의 한 예이다.1 is a schematic block diagram of a sentiment analysis system according to an embodiment of the present invention.
2 is a schematic block diagram of a sentiment analysis apparatus according to an embodiment of the present invention.
3 is a flowchart of an operation of a sentiment analysis apparatus according to an embodiment of the present invention.
4 is a detailed operation flowchart of a sentiment analysis routine for the work social data of FIG. 4 .
5 is a schematic block diagram of an apparatus for extracting new words and emoticons according to an embodiment of the present invention.
6 is an operation flowchart of an apparatus for extracting new words and emoticons according to an embodiment of the present invention.
7 is a diagram illustrating a shape of an image type emoticon and an HTML tag therefor.
8 is an example of an output screen for registering new words and emoticons output to the output unit of the apparatus for extracting new words and emoticons according to an embodiment of the present invention.
이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명한다. 본 발명을 설명하는데 있어서, 해당 분야에 이미 공지된 기술 또는 구성에 대한 구체적인 설명을 부가하는 것이 본 발명의 요지를 불분명하게 할 수 있다고 판단되는 경우에는 상세한 설명에서 이를 일부 생략하도록 한다. 또한, 본 명세서에서 사용되는 용어들은 본 발명의 실시예들을 적절히 표현하기 위해 사용된 용어들로서, 이는 해당 분야의 관련된 사람 또는 관례 등에 따라 달라질 수 있다. 따라서, 본 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. In describing the present invention, if it is determined that adding a detailed description of a technique or configuration already known in the field may make the gist of the present invention unclear, some of it will be omitted from the detailed description. In addition, the terms used in this specification are terms used to properly express embodiments of the present invention, which may vary according to a person or custom in the relevant field. Accordingly, definitions of these terms should be made based on the content throughout this specification.
여기서 사용되는 전문용어는 단지 특정 실시예를 언급하기 위한 것이며, 본 발명을 한정하는 것을 의도하지 않는다. 여기서 사용되는 단수 형태들은 문구들이 이와 명백히 반대의 의미를 나타내지 않는 한 복수 형태들도 포함한다. 명세서에서 사용되는 '포함하는'의 의미는 특정 특성, 영역, 정수, 단계, 동작, 요소 및/또는 성분을 구체화하며, 다른 특정 특성, 영역, 정수, 단계, 동작, 요소, 성분 및/또는 군의 존재나 부가를 제외시키는 것은 아니다.The terminology used herein is for the purpose of referring to specific embodiments only, and is not intended to limit the invention. As used herein, the singular forms also include the plural forms unless the phrases clearly indicate the opposite. As used herein, the meaning of 'comprising' specifies a particular characteristic, region, integer, step, operation, element and/or component, and other specific characteristic, region, integer, step, operation, element, component, and/or group. It does not exclude the existence or addition of
이하, 첨부된 도면을 참조하여 본 발명의 일 실시예에 따른 감성 분석장치 및 제어 방법 그리고 신조어 및 이모티콘 추출 장치에 대해서 설명하도록 한다.Hereinafter, an apparatus for analyzing emotion, a control method, and an apparatus for extracting new words and emoticons according to an embodiment of the present invention will be described with reference to the accompanying drawings.
먼저, 도 1을 참고하여, 본 예에 따른 감성 분석 장치(10)을 구비하는 감성 분석 시스템(100)에 대해 설명한다.First, with reference to FIG. 1 , the
도 1에 도시한 것처럼, 본 예의 감성 분석 시스템(100)은 감성 분석장치(10), 인터넷과 같은 유선 통신망이나 무선 통신망을 통해 감성 분석 장치(10)와 연결되어 있는 적어도 하나의 소셜 네트워크 서버(20) 및 데이터베이스부(30)를 구비할 수 있다.As shown in FIG. 1 , the
본 예의 감성 분석장치(10)는 데이터베이스부(30)에 저장되어 있는 감성 정보를 이용하여 검색된 검색 정보에 대한 감성 분석을 실시할 수 있다.The
이러한 본 예의 감성 분석장치(10)는 다음에 상세히 설명한다.The
소셜 네트워크 서버(20)는 페이스북(facebook)이나 트위터(Twitter) 등과 같이 소셜 네트워크 서비스를 제공하는 업체에서 구축한 서버일 수 있다. The
따라서, 이러한 소셜 네트워크 서버(20)에는 해당 업체에서 제공되는 소셜 네트워크 서비스를 이용하는 사용자(즉, 회원 및 팔로워)에 대한 소셜 데이터가 저장되어 있을 수 있다. 여기서, 소셜 데이터는 사용자 정보(예, 사용자 식별정보), 사용자의 게시글, 해시태그(hashtag), 소셜 데이터의 종류 및 소셜 데이터가 저장되어 있는 위치 정보[예, URL(uniform resource locator)] 등을 구비할 수 있다. 여기서, 게시글은 회원이 작성한 글뿐만 아니라 팔로워의 댓글도 포함될 수 있다. Accordingly, the
소셜 데이터의 종류는 해당 소셜 데이터가 속해 있는 소셜 네트워크 서비스의 종류를 나타낼 수 있고, 예를 들어, 트위터(Twitter)나 네이버 블로그(Blog)일 수 있다.The type of social data may indicate the type of social network service to which the corresponding social data belongs, and may be, for example, Twitter or Naver Blog.
이러한 소셜 네트워크 서버(20)는 동작을 제어하는 제어부, 다른 장치와의 통신을 위한 통신부, 소셜 데이터를 저장하는 저장 매체를 구비할 수 있다. 이때, 저장 매체는 데이터베이스(database, DB), 메모리 등과 같이 데이터의 저장이 이루어지는 저장소일 수 있다.The
본 예의 감성 분석장치(10)는 네트워크를 통해 이러한 소셜 네트워크 서버(20)와 연결되어 있으므로, 소셜 네트워크 서버(20)로부터 원하는 내용의 소셜 데이터를 획득하여, 획득된 소셜 데이터에 대한 감성을 분석할 수 있다. Since the
데이터베이스부(30)는 신조어 감성 데이터베이스(31), 이모티콘 감성 데이터베이스(32), 소셜 데이터 데이터베이스(33) 및 형태소 데이터베이스(34), 형태소 사전 데이터베이스(35) 및 감성어 사전 데이터베이스(36)를 구비할 수 있다.The
신조어 감성 데이터베이스(31)는 신조어, 각 신조어에 대한 극성 및 강도(intensity), 그리고 현재 수집 계수(count)가 각각 저장되는 항목을 구비할 수 있다.The
이때, 신조어는 비표준어로서, 기존에 있던 단어나 문장을 축약한 축약어나 새롭게 생성된 단어이거나 적어도 하나의 자음인 모음으로 이루어진 글자일 수 있다. In this case, the neologism is a non-standard word, and may be an abbreviation of an existing word or sentence, a newly created word, or a letter consisting of a vowel which is at least one consonant.
극성(polarity)은 신조어의 이미지(즉, 감성)를 나타내는 것으로서, 긍정, 부정 및 혼합을 구비할 수 있다. 여기서, 혼합은 긍정의 의미와 부정의 의미를 모두 갖고 있음을 의미할 수 있다. Polarity represents the image (ie, emotion) of the neologism, and may include positive, negative and mixed. Here, the mixture may mean having both a positive meaning and a negative meaning.
강도(intensity)는 극성의 정도를 수치로 나타낸 것으로, 1 내지 5의 값을 가질 수 있다.The intensity (intensity) indicates the degree of polarity numerically, and may have a value of 1 to 5.
각 신조어에 대한 극성과 강도는 사용되는 문장의 전체적인 의미에 따라 달라질 수 있다. The polarity and strength of each neologism may vary depending on the overall meaning of the sentence used.
현재 수집 계수는 해당 신조어의 현재 노출 빈도수일 수 있으므로, 수집 계수의 값은 시간이 경과함에 따라 변할 수 있다. Since the current collection coefficient may be the current exposure frequency of the corresponding neologism, the value of the collection coefficient may change over time.
예를 들어, 신조어가 '팬이 되었다'는 뜻을 갖는 '입덕'인 경우, '입덕'의 극성은 긍정이고, 강도는 3일 수 있다. 또한, 이러한 입덕의 현재 수집 계수는 569, 즉 569번일 수 있다. For example, if the new word is 'Ipdeok', which means 'I became a fan', the polarity of 'Ipdeok' may be positive and the intensity may be 3. In addition, the current collection coefficient of such an Ibdeok may be 569, that is, 569 times.
또한, 적어도 하나의 자음으로 이루어진 신조어로서 'ㄷㄷ'나 'ㄷㄷㄷ'는 '추위나 두려움이 몸을 떤다'의 의미의 의태어인 '덜덜'를 의미하는 것으로서, '덜'의 초성을 이용해 생성된 신조어이고 '덜'의 개수에 따라 'ㄷㄷ'이나 'ㄷㄷㄷ'과 같이 표현될 수 있다. In addition, as a neologism composed of at least one consonant, 'ㅎ' or 'ㅎㅋ' means 'deuldeol', which is a mimic of 'cold or fear trembles'. And, depending on the number of 'less', it can be expressed as 'ㅎ' or 'ㅎㅋ'.
이러한 'ㄷㄷ'나 'ㄷㄷㄷ'의 극성은 긍정이고, 강도는 2일 수 있고, 현재 수집 계수는 205일 수 있다. The polarity of these 'ㅎ' or 'ㅎㅋ' may be positive, the intensity may be 2, and the current collection coefficient may be 205.
이모티콘 감성 데이터베이스(32)는 신조어 감성 데이터베이스(31)와 유사하게 이모티콘, 각 이모티콘에 대한 극성 및 강도, 그리고 현재 수집 계수(count)를 각각 저장하는 항목을 구비할 수 있다.The
이모티콘은 감정을 표시하는 기호로서, 아스키 문자(예, ), 이미지(예, ) 또는 4바이트 유니코드 문자(예, ) 등으로 이루어질 수 있다.An emoticon is a symbol that expresses emotion, and is an ASCII character (eg, ), images (eg, ) or a 4-byte Unicode character (e.g., ), and so on.
이러한 이모티콘에 대한 극성, 강도 및 현재 수집 계수는 각각 신조어의 극성, 강도 및 현재 수집 계수와 동일한 의미를 가질 수 있다.Polarity, strength, and current collection coefficient for these emoticons may have the same meaning as the polarity, strength, and current collection coefficient of the coined word, respectively.
따라서, 이모티콘의 극성은 긍정, 부정 및 혼합을 포함하고, 강도는 1 내지 5의 값을 가질 수 있다.Accordingly, the polarity of the emoticon includes positive, negative, and mixed, and the strength may have a value of 1 to 5.
신조어 감성 데이터베이스(31)와 이모티콘 감성 데이터베이스(32)를 구축하기 위한 신조어 및 이모티콘 추출 방법은 다음에 자세히 설명한다.A method of extracting new words and emoticons for constructing the new
소셜 데이터 데이터베이스(33)는 감성 분석 장치(10)의 동작에 따라 원하는 검색어에 대응되는 수집된 소셜 데이터가 저장되어 있는 데이터베이스일 수 있다.The
이때, 소셜 데이터 데이터베이스(33)에 저장되어 있는 소셜 데이터는 소셜 네트워크 서버(20)에서 수집된 소셜 데이터(예, 원시 소셜 데이터)가 전처리되어 불필요한 정보가 삭제된 소셜 데이터(예, 작업용 소셜 데이터)일 수 있다.At this time, the social data stored in the
원시 소셜 데이터는 소셜 네트워크 서버(20)에 저장되어 있는 형태와 동일할 수 있어, 사용자 정보, 사용자의 게시글, 해시태그, 소셜 데이터의 종류 및 소셜 데이터의 위치 정보(예, URL)를 구비할 수 있다.The raw social data may be the same as the form stored in the
반면, 원시 소셜 데이터에서 불필요한 정보가 삭제된 작업용 소셜 데이터는 사용자의 게시글과 소셜 데이터의 종류만을 구비할 수 있다. On the other hand, the social data for work in which unnecessary information is deleted from the raw social data may include only the user's postings and types of social data.
소셜 데이터 데이터베이스(33)는 원문번호(예를 들어, 식별번호), 채널(channel) 및 콘텐츠(content)의 항목으로 구성될 수 있다.The
여기서, 원문번호의 항목에는 자동으로 순서에 따라 부여되는 키 값이 저장되는 부분이고, 채널의 항목은 소셜 데이터의 종류가 저장되는 부분이며, 콘텐츠의 항목에는 작업용 소셜 데이터가 저장되는 부분일 수 있다.Here, the item of the original number may be a part in which a key value automatically assigned according to the order is stored, the item of the channel may be a part in which the type of social data is stored, and the item of the content may be a part in which the social data for work is stored. .
이때, 소셜 데이터의 종류는 소셜 데이터가 속해 있던 소셜 네트워크 서비스의 종류로서, 예를 들어, 트위터 및 블로그를 포함할 수 있다. In this case, the type of social data is a type of social network service to which the social data belongs, and may include, for example, Twitter and a blog.
따라서, 원문번호의 칸에는 해당 소셜 데이터에 순차적으로 자동 부여된 키 값이 저장될 수 있고, 채널의 칸에는 해당 소셜 데이터의 종류(예, 트위터 또는 블로그)가 저장될 수 있다. 또한 콘텐츠의 칸에는 작업용 소셜 데이터의 내용, 즉 게시글이 저장될 수 있다. Accordingly, a key value sequentially automatically assigned to the corresponding social data may be stored in the column of the original number, and the type of the corresponding social data (eg, Twitter or blog) may be stored in the column of the channel. In addition, the content of the social data for work, that is, a post may be stored in the column of the content.
형태소 데이터베이스(34)는 작업용 소셜 데이터에 대한 형태소 분석 결과가 저장될 수 있다. The
형태소 사전 데이터베이스(35)는 형태소 분석을 위한 형태소 사전이 저장되어 있는 데이터베이스로서, 형태소 사전은 각 형태소에 대한 품사 및 활용 정보 등을 구비할 수 있다. The
감성어 사전 데이터베이스(36)는 형태소 형태의 감성어와 그에 대한 속성 및 강도가 저장되어 있을 수 있다. The
본 예에서, 감성어 사전 데이터베이스(36)에 저장되어 있는 감성어 사전은 국어사전을 기반으로 한 김형문(2013)의 한국어감정분석코퍼스(KOSAC)를 이용할 수 있다. In this example, the sentiment dictionary stored in the
[표 1]에서, 'tag_id'는 감성어 사전의 고유번호일 수 있다. In [Table 1], 'tag_id' may be a unique number of the sentiment dictionary.
감성 분석 장치(10)는 소셜 네트워크 서버(20)에 저장되어 소셜 데이터 중에서 원하는 내용의 게시글을 갖는 소셜 데이터를 추출한 후, 감성어 사전 데이터베이스(36)을 이용하여 추출된 각 소셜 데이터에 대한 감성 분석을 실시하고, 다시 신조어 감성 데이터베이스(31) 및 이모티콘 감성 데이터베이스(33)를 이용하여 추출된 각 소셜 데이터에 대한 감성 분석을 실시할 수 있다.The
그런 다음, 감성어 사전을 이용한 감성 분석 결과와 신조어 및 이미티콘을 이용한 감성 분석 결과를 이용하여 추출된 소셜 데이터 전체에 대한 최종 감성 분석 결과를 산출할 수 있다. Then, the final sentiment analysis result for the entire extracted social data can be calculated using the sentiment analysis result using the sentiment dictionary and the sentiment analysis result using the neologism and imidicon.
이러한 감성 분석 장치(10)는, 도 2에 도시한 것처럼, 사용자 입력부(11), 사용자 입력부(11)에 연결되고 감성 분석부(131)와 형태소 분석부(132)를 구비하는 분석 유닛(13), 분석 유닛(13)에 연결된 저장부(15), 분석 유닛(13)에 연결된 정보 출력부(17) 및 분석 유닛(13)에 연결된 통신부(19)를 구비할 수 있다.As shown in FIG. 2 , the
이때, 도 2에 도시된 구성요소들(11-19)은 필수적인 것은 아니어서, 감성 분석 장치(10)는 이들 구성 요소(11-19) 이외의 다른 적어도 하나의 구성요소를 추가로 구비하거나 이들 중 일부를 생략할 수 있다.At this time, the components 11-19 shown in FIG. 2 are not essential, so the
사용자 입력부(11)는 감성 분석 장치(10)의 동작 제어를 위한 명령이나 검색어 등에 관련된 신호를 발생시킬 수 있다.The
따라서, 사용자는 사용자 입력부(11)를 이용하여 소셜 네트워크 서버(20)에서 원하는 내용의 게시글을 검색하기 위한 수집 키워드의 입력을 수행할 수 있다. Accordingly, the user may input a collection keyword for searching for a post with a desired content in the
이러한 사용자 입력부(11)는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(touch pad), 조그 휠(jog wheel), 조그(jog) 스위치 또는 마우스(mouse) 등으로 구성될 수 있다.The
분석 유닛(13)은 감성 분석 장치(10)의 전반적인 동작을 제어하는 제어 유닛으로서, 프로세서(processor)일 수 있다.The
이러한 분석 유닛(13)은 이미 기술한 것처럼, 감성 분석부(131)와 형태소 분석부(132)를 구비할 수 있다.The
감성 분석부(131)는 사용자 입력부(11)를 이용해 입력된 수집 키워드에 해당하는 소셜 데이터를 소셜 네트워크 서버(20)로부터 수집하고, 수집된 소셜 데이터에 대한 전처리 동작을 실시하여 수집된 소셜 데이터에 함유된 불필요한 정보(예, 사용자 정보, 위치 정보 및 해시태그)를 제거하여 작업용 소셜 데이터를 생성할 수 있다.The
또한, 감성 분석부(131)는 형태소 분석부(132)를 동작시켜 수집된 작업용 소셜 데이터에 대한 형태소 분석이 이루어질 수 있도록 하고, 작업용 소셜 데이터에서 신조어와 이모티콘을 추출할 수 있다.In addition, the
따라서, 감성 분석부(131)는 형태소 분석이 이루어진 작업용 소셜 데이터에 대한 감성 분석을 실시하여, 수집된 각 작업용 소셜 데이터에 대한 제1 감성값(p1, n1)을 산출할 수 있다. 여기서, 제1 감성값은 제1 긍정 감성값(p1)과 제1 부정 감성값(n1)을 구비할 수 있다.Accordingly, the
그런 다음, 감성 분석부(131)는 산출된 제1 긍정 감성값(p1)을 모두 합산하여 제1 긍정 감성 총합(pt1)을 산출하고, 산출된 제1 부정 감성값(n1)을 모두 합산하여 제1 부정 감성 총합(nt1)을 산출할 수 있다.Then, the
또한, 감성 분석부(131)는 추출된 신조어와 이모티콘을 이용하여 각 작업용 소셜 데이터에 대한 제2 감성값(p2, n2)을 산출할 수 있다. 제2 감성값 역시 제2 긍정 감성값(p2)과 제2 부정 감성값(n2)을 구비할 수 있다.Also, the
이때, 감성 분석부(131)는 신조어 및 이모티콘의 현재 수집 계수를 반영하여 제2 감성값(p2, n3)을 산출할 수 있다.In this case, the
다음, 감성 분석부(131)는 산출된 제2 긍정 감성값(p2)을 모두 합산하여 제2 긍정 감성 총합(pt2)을 산출하고, 산출된 제2 부정 감성값(n2)을 모두 합산하여 제2 부정 감성 총합(nt2)을 산출할 수 있다.Next, the
이로 인해, 감성어 사전을 이용하여 작업용 소셜 데이터 전체에 대한 긍정 감성 및 부정 감성값인 제1 긍정 감성 총합(pt1)과 제1 부정 감성 총합(nt1)이 산출되고, 신조어 및 이모티콘을 이용하여 작업용 소셜 데이터 전체에 대한 긍정 감성 및 부정 감성값인 제2 긍정 감성 총합(pt2)과 제2 부정 감성 총합(nt2)이 산출될 수 있다.For this reason, the first positive emotion sum (pt1) and the first negative emotional sum total (nt1), which are positive and negative emotion values for all social data for work, are calculated using the sentiment dictionary, and new words and emoticons are used for work A second sum of positive emotions pt2 and a second sum of negative emotions nt2 that are positive and negative sentiment values for the entire social data may be calculated.
다음, 감성 분석부(131)는 제1 긍정 감성 총합(pt1)과 제2 긍정 감성 총합(pt2)을 더하여 작업용 소셜 데이터 전체에 대한 최종 긍정 감성 총합(pf)과 제1 부정 감성 총합(nt1)과 제2 부정 감성 총합(nt2)을 더하여 작업용 소셜 데이터 전체에 대한 최종 부정 감성 총합(nf)을 산출할 수 있다. Next, the
그런 다음, 감성 분석부(131)는 최종 긍정 감성 충합(pt)과 최종 부정 감성 총합(nf)을 비교하여 작업용 소셜 데이터 전체에 대한 최종 감성을 판단할 수 있다. Then, the
형태소 분석부(132)는, 이미 기술한 것처럼, 형태소 사전 데이터베이스(35)를 이용하여 수집된 작업용 소셜 데이터에 대한 형태소 분석을 실시하여, 분석 결과를 형태소 데이터베이스(34)에 저장할 수 있다.As already described, the
본 예에서, 형태소 분석부(132)는 분석유닛(13)의 일부로서 감성 분석 장치(10)의 일부를 구성하지만, 이와 달리, 감성 분석 장치(10)와는 별개의 장치로 구현되어 동작될 수 있다.In this example, the
저장부(15)는 분석 제어부(13)의 동작에 필요한 데이터나 동작 중에 발생하는 데이터를 저장하는 저장 매체로서, 하드 디스크 등이나 롬(ROM) 등과 같은 메모리(memory)일 수 있다.The
대안적인 예에서, 감성 분석 장치(10)는 인터넷(internet) 상에서 저장부(15)의 저장 기능을 수행하는 웹 스토리지(web storage)와 연관되어 동작할 수도 있다.In an alternative example, the
출력부(17)는 분석 유닛(13), 구체적으로 감성 분석부(131)의 제어에 따라 시각에 관련된 출력을 발생시키기 위한 것으로서, 디스플레이 모듈을 구비할 수 있다.The
디스플레이 모듈은 분석 유닛(13)의 동작에 따라 분석 유닛(13)에서 출력되는 영상 데이터에 해당하는 영상을 화면에 표시할 수 있다.The display module may display an image corresponding to the image data output from the
이러한 디스플레이 모듈은 액정 디스플레이(liquid crystal display), 유기 발광 표시 장치(organic light emitting diode display), 플렉시블 디스플레이(flexible display) 및 3차원 디스플레이(3D display) 중에서 적어도 하나의 표시 장치를 포함할 수 있다.The display module may include at least one of a liquid crystal display, an organic light emitting diode display, a flexible display, and a 3D display.
통신부(19)는 소셜 네트워크 서버(20) 및 데이터베이스부(30) 등과 같은 외부 기기와의 통신을 위한 것으로서, 외부 기기가 위치한 네트워크 사이의 통신을 가능하게 하는 적어도 하나의 통신 모듈을 구비할 수 있다.The
예를 들어, 통신부(19)는 인터넷 모듈을 구비할 수 있다.For example, the
인터넷 모듈은 무선 또는 유선 인터넷 접속을 위한 모듈을 말하는 것으로, WLAN(Wireless LAN)(WiFi) 또는 Wibro(Wireless broadband) 등의 인터넷 기술을 이용될 수 있다. The Internet module refers to a module for wireless or wired Internet access, and Internet technologies such as WLAN (Wireless LAN) (WiFi) or Wibro (Wireless broadband) may be used.
다음 도 3을 참고하여, 이러한 구조를 갖는 감성 분석 시스템(100)의 동작을 설명한다.Next, an operation of the
감성 분석을 위해, 사용자는 먼저 자신이 원하는 주제에 관련된 소셜 데이터, 즉 감성 분석을 원하는 내용을 구비한 소셜 데이터를 소셜 네트워크 서버(20)에서 수집해야 한다. For sentiment analysis, a user must first collect social data related to a topic desired by the user, ie, social data having contents desired for sentiment analysis, from the
따라서, 소셜 데이터에 대한 감성 분석을 위해 감성 분석 장치(10)의 동작이 시작되면, 감성 분석 장치(10)의 감성 분석부(131)는 정보 출력부(17)로 수집 키워드의 입력을 위한 검색창을 출력할 수 있다(S11).Accordingly, when the operation of the
따라서, 사용자는 사용자 입력부(11)를 이용하여 정보 출력부(17)로 출력된 검색창에 수집을 원하는 주제의 소셜 데이터에 관련된 키워드(즉, 수집 키워드)를 입력할 수 있다.Accordingly, the user may input a keyword (ie, a collection keyword) related to social data of a subject to be collected into the search box output to the
이러한 사용자의 동작에 의해, 사용자 입력부(11)로부터 신호가 입력되면, 감성 분석부(131)는 입력된 신호를 판독하여 사용자에 의해 입력된 단어를 판정해여 입력된 수집 키워드를 판정할 수 있다(S12).When a signal is input from the
이때, 사용자에 의해 입력되는 수집 키워드의 개수는 한 개 이상일 수 있다.In this case, the number of collection keywords input by the user may be one or more.
한 예로서, 사용자에 의해 입력된 수집 키워드는 'U20', '축구', '월드컵' 및 '대한민국 포르투갈'일 수 있다.As an example, the collection keyword input by the user may be 'U20', 'Soccer', 'World Cup', and 'Portugal Korea'.
사용자 입력부(11)로 입력된 수집 키워드가 판정되면, 감성 분석부(131)는 통신부(19)를 통해 소셜 네트워크 서버(20)에 접속하여, 접속된 소셜 네트워크 서버(20)로 판정된 수집 키워드를 전송할 수 있다(S13).When the collected keyword input through the
이때, 감성 분석부(131)는 수집 키워드뿐만 아니라 자신의 식별정보도 함께 전송하여, 소셜 네트워크 서버(20)가 해당 수집 키워드를 전송한 장치를 인지할 수 있도록 한다. At this time, the
이러한 감성 분석부(131)에 의한 소셜 데이터의 수집 동작은 소셜 네트워크 서비스에서 제공되는 검색 API나 별도의 크롤러를 이용할 수 있다. The social data collection operation by the
이러한 동작에 의해 감성 분석 장치(10)로부터 수집 키워드가 전송되면, 소셜 네트워크 서버(20)는 저장 매체에 접속하여 저장 매체(예, 데이터베이스)에 저장되어 있는 소셜 데이터 중에서 수집 키워드에 해당하는 소셜 데이터를 검색할 수 있다.When the collected keyword is transmitted from the
그런 다음, 소셜 네트워크 서버(20)는 수집된 소셜 데이터(예, 원시 소셜 데이터)를 통신부(19)를 통해 감성 분석 장치(10)로 전송할 수 있다.Then, the
이러한 소셜 네트워크 서버(20)의 동작으로 수집 키워드에 관련된 원시 소셜 데이터가 소셜 네트워크 서버(20)로부터 수집되어 전송되면, 감성 분석 장치(10)의 감성 분석부(131)는 전송된 원시 소셜 데이터 각각에 대한 전처리 동작을 실시하여 작업용 소셜 데이터를 생성하여 소셜 데이터 데이터베이스(33)에 저장할 수 있다(S14).When raw social data related to a collection keyword is collected from the
소셜 데이터에 대한 전처리 동작은 수집된 원시 소셜 데이터의 정보 중에서 감성 분석에 불필요한 정보를 삭제하는 동작일 수 있다.The pre-processing operation for social data may be an operation of deleting information unnecessary for sentiment analysis from among the collected raw social data information.
한 예의 경우, 감성 분석부(131)는 전송된 원시 소셜 데이터 각각에서 사용자 정보(예, 사용자 식별정보), 위치 정보(예, URL) 및 해시태그를 삭제할 수 있다. In one example, the
이러한 감성 분석부(131)의 전처리 동작에 의해 각 작업용 소셜 데이터는 게시글과 자신이 속해 있던 소셜 네트워크 서비스의 종류(에, 트위터나 블로그)를 구비할 수 있다.Due to the pre-processing operation of the
이때, 전송된 소셜 데이터에 사용자 정보, 위치 정보(URL) 및 해시태그 이외에 게시물과 관계없는 다른 정보가 존재하는 경우, 이 정보 역시 전처리 단계에서 삭제될 수 있다. In this case, if other information unrelated to a post exists in the transmitted social data other than user information, location information (URL), and hashtag, this information may also be deleted in the pre-processing step.
전처리 동작이 완료된 작업용 소셜 데이터의 한 예는 [표 2]와 같다.[Table 2] shows an example of social data for work in which the pre-processing operation has been completed.
이와 같이, 감성 분석을 의한 작업용 소셜 데이터가 생성되면, 분석 유닛(13)의 감성 분석부(131)는 형태소 분석부(132)를 동작시켜, 각 작업용 소셜 데이터에 대한 형태소 분석이 이루어질 수 있도록 한다.In this way, when social data for work by sentiment analysis is generated, the
따라서, 감성 분석부(131)에 의해 제어 명령이 인가되면 형태소 분석부(132)는 동작을 시작하여, 형태소 사전 데이터베이스(35)를 이용하여 소셜 데이터 데이터베이스(33)에 저장되어 있는 각 작업용 소셜 데이터에 대한 형태소 분석을 실시하여 각 작업용 소셜 데이터에 대한 형태소 분석 결과를 형태소 데이터베이스(34)에 저장할 수 있다(S15).Accordingly, when a control command is applied by the
본 예에서 행해지는 형태소 분석 동작은 이미 알려진 형태소 분석 방식을 이용할 수 있고, 예를 들어, 자바 라이브러리 형태로 제공되는 코모란(komoran) 형태소 분석기를 이용할 수 있다. A morpheme analysis operation performed in this example may use a known morpheme analysis method, for example, a komoran morpheme analyzer provided in the form of a Java library may be used.
아래의 [표 3]에 형태소 분석 결과의 한 예가 도시된다. An example of the morphological analysis result is shown in [Table 3] below.
[표 3]에서, NNG, NNP, XSN, SF 등과 같이 분리된 형태소 다음에 위치하는 태그는 형태소 품사 태그일 수 있고, 코모란 형태소 분석기에서 NF(명사추정범주), NV(용언추정범주) 및 NA(분석불능범주)는 분석이 제외될 수 있다. In [Table 3], a tag located after a separated morpheme such as NNG, NNP, XSN, SF, etc. may be a morpheme part-of-speech tag, and in the Cormoran morpheme analyzer, NF (noun estimation category), NV (verb estimation category) and NA (inability to analyze) can be excluded from analysis.
이와 같이, 작업용 소셜 데이터에 대한 형태소 분석이 완료되면, 형태소 분석부(132)는 형태소 분석 완료 명령을 감성 분석부(131)로 출력하여, 형태소 분석 완료 동작을 감성 분석부(131)로 알릴 수 있다.In this way, when the morpheme analysis of the social data for work is completed, the
이에 따라, 감성 분석부(131)는 소셜 데이터 데이터베이스(33)에 저장되어 있는 작업용 소셜 데이터에서 신조어 및 이모티콘의 추출 동작을 실시할 수 있다(S16)Accordingly, the
따라서, 감성 분석부(131)는 신조어 감성 데이터베이스(31)에 저장되어 있는 신조어 및 이모티콘 감성 데이터베이스(33)에 저장되어 있는 이모티콘을 소셜 데이터 데이터베이스(33)에 저장되어 있는 작업용 소셜 데이터와 비교하여, 작업용 소셜 데이터에 포함된 신조어 및 이모티콘을 추출한 후, 저장부(15)에 저장할 수 있다.Therefore, the
예를 들어, 작업용 소셜 데이터가 '남자아이돌 좋아하진 않는데 엔시티는 좋은것같애 입덕까진 아니고,, 노래가 좋고 춤이 좋아'인 경우, 이 작업용 소셜 데이터에는 신조어나 이모티콘은 구비되지 않는다.For example, if the social data for work is 'I don't like male idols, but NCT is good, I don't like it, I like singing and dancing', there are no new words or emoticons in this social data for work.
반면, 작업용 소셜 데이터가 '아 맞다 첫무대는 제복 입고 아이돌이었는데 그냥 다 발라버렸죠 한국컴백ㅋㅋㅋ 진짜 얼쑤하는데ㅜㅠㅜ 아ㅜㅠㅜㅜ 그리규 매직샵을 생각보다 앞쪽에 해서 당황했지만 그래도 애들목소리랑 아미분들 목소리 합쳐져서 부른거 진짜 개지렸어ㅠㅠㅠ요ㅠㅠ'인 경우, 이 작업용 소셜 데이터에 포함된 신조어 및 이모티콘은 '발라', 'ㅜㅜ', '매직' , 'ㅠㅠ' , '개지렸', '아미', 'ㅋㅋ', 'ㅠㅜ', 'ㅜㅠ'일 수 있다.On the other hand, the social data for work said, ‘Oh, that’s right, the first stage was an idol wearing a uniform, but I just painted it all on. A Korean comeback hahahahahahahahahahahahahahahahahahahahahahahahahahahahahahahahahaha In the case of 'I'm really pissed off ㅠㅠ', the new words and emoticons included in the social data for this work are 'Bala', 'ㅜㅜ', 'Magic' , 'ㅠ' , 'I'm crazy', 'Army', 'ㅋ' , 'ㅠㅜ' or 'TTㅠ'.
이와 같이, 작업용 소셜 데이터에 대한 형태소 분석과 신조어 및 이모티콘의 추출 동작이 완료되면, 감성 분석부(131)는 수집 키워드에 관련된 소셜 데이터(즉, 작업용 소셜 데이터)의 감성이 '긍정'인지, '부정' 인지 또는 '중립'인지를 판정하는 감성 분석 동작을 실시할 수 있다(S17).In this way, when the morphological analysis of the social data for work and the extraction of new words and emoticons are completed, the
본 예에서, 감성 분석 동작은 두 번의 분석 동작을 통해 행해질 수 있다.In this example, the sentiment analysis operation may be performed through two analysis operations.
예를 들어, 감성어 사전을 이용한 감성 분석과 추출된 신조어와 이모티콘을 이용한 감성 분석을 실시하고, 이들 두 개의 감성 분석 결과를 종합하여 최종적으로 수집 키워드에 관련된 전체 소셜 데이터의 최종 감성을 분석할 수 있다. For example, sentiment analysis using a sentiment dictionary and sentiment analysis using extracted new words and emoticons are performed, and the final sentiment of all social data related to the collected keywords can be analyzed by synthesizing these two sentiment analysis results. there is.
감성 분석부(131)의 감성 분석 단계(S17)는 도 4에 도시한 것처럼 세분화될 수 있다.The sentiment analysis step S17 of the
따라서, 도 4에 도시한 것처럼, 감성 분석부(131)는 감성어 사전 데이터베이스(36)에 저장되어 있는 감성어와 형태소 데이터베이스(35)에 저장되어 있는 각 작업용 소셜 데이터의 형태소를 비교하여, 각 작업용 소셜 데이터에 속해 있는 감성어를 추출할 수 있다(S171).Accordingly, as shown in FIG. 4 , the
다음, 감성 분석부(131)는 추출된 각 작업용 소셜 데이터의 감성어에 대응되는 극성과 강도를 이용하여 각 작업용 소셜 데이터에 대한 제1 감성값(p1, n1)을 산출할 수 있다(S172).Next, the
이를 위해, 감성 분석부(131)는 각 작업용 소셜 데이터에서 추출된 각 감성어에 대한 감성값을 산출할 수 있다(S172). To this end, the
이미 기술한 것처럼, 각 감성어에 대한 극성은 이미 기술한 것처럼, 긍정, 부정 및 중립 중 하나이고, 강도는 높음, 중간 및 낮음 중 하나일 수 있다. 또한, 각 강도에 따른 값이 이미 저장부(15)에 저장되어 있고, 예를 들어, 높음에 대한 값은 '3', 중간에 대한 값은 '2'이며, 낮음에 대한 값은 '1'일 수 있다. As already described, the polarity for each sentiment word may be one of positive, negative, and neutral, and the intensity may be one of high, medium, and low, as already described. In addition, a value according to each intensity is already stored in the
따라서, 한 예로, 감성어가 '환상'일 때, 이 환상의 극성은 긍정이고 강도는 높임으로 감성어 사전에 저장되어 있는 경우, 높음에 대응되는 값인 3이 '환상'의 감성값이고, 감성의 종류는 긍정이다. 따라서, '환상'은 3인 긍정 감성값을 갖게 된다.Therefore, as an example, when the emotional word is 'fantasy', the polarity of this illusion is positive and the intensity is high. If the emotional word is stored in the dictionary, 3, the value corresponding to high, is the emotional value of 'phantom', and Kind is positive. Therefore, 'fantasy' has a positive emotional value of 3.
다른 예로, 감성어가 '당황'일 때, 이 당황의 극성은 부정이고 강도는 중간으로 감성어 사전에 저장되어 있는 경우, 중간에 대응되는 값인 2가 '당황'의 감성값이고, 감성의 종류는 부정이다. 따라서, '당황'은 2인 부정 감성값을 갖게 된다.As another example, when the emotional word is 'embarrassed', the polarity of this embarrassment is negative and the intensity is medium. it is negative Accordingly, 'embarrassed' has a negative emotional value of 2.
이러한 방식으로 각 작업용 소셜 데이터에서 분리된 각 감성어에 대한 긍정 감성값 또는 부정 감성값과 같은 감성값이 산출되면(S172), 감성 분석부(131)는 산출된 각 감성어의 감성값을 이용하여 해당 작업용 소셜 데이터에 대한 총 긍정 감성값과 총 부정 감성값을 산출할 수 있다(S173).In this way, when an emotional value such as a positive emotional value or a negative emotional value for each emotional word separated from each work social data is calculated (S172), the
그런 다음, 감성 분석부(131)는 산출된 해당 작업용 소셜 데이터의 총 긍정 감성값과 총 부정 감성값을 비교하여, 해당 작업용 소셜 데이터에 대한 제1 감성값(p1, n1)을 산출할 수 있다(S174). 여기서, 제1 감성값(p1, n1)은 감성의 종류에 따라 제1 긍정 감성값(p1), 제1 부정 감성값(n1) 및 '0'의 값을 갖는 중립 감성값을 가질 수 있다.Then, the
즉, 감성 분석부(131)는 해당 작업용 소셜 데이터의 총 긍정 감성값이 총 부정 감성값보다 클 경우, 해당 작업용 소셜 데이터에 대한 제1 감성값의 종류는 긍정이고, 반대로 총 부정 감성값이 총 긍정 감성값보다 클 경우, 해당 작업용 소셜 데이터에 대한 제1 감성값의 종류는 부정일 수 있다. 또한, 해당 작업용 소셜 데이터의 총 긍정 감성값과 총 부정 감성값이 동일하면 해당 작업용 소셜 데이터에 대한 감성값의 종류는 중립일 수 있다. 그리고, 판단된 해당 작업용 소셜 데이터의 감성에 대한 제1 감성값은 총 긍정 감성값과 총 부정 감성값의 차이에 대한 절대값일 있다.That is, when the total positive emotional value of the social data for the corresponding task is greater than the total negative emotional value, the
예를 들어, 어느 한 작업용 소셜 데이터에 대한 총 긍정 감성값이 '5'이고 총 부정 감성값이 '1'이면, 이 작업 소셜 데이터에 대한 감성의 종류는 긍정이고, 감성값은 4(=5-1)가 될 수 있다. 따라서, 해당 작업용 소셜 데이터에 대당 제1 감성값은 4의 제1 긍정 감성값(n1)을 가질 수 있다.For example, if the total positive emotion value for one job social data is '5' and the total negative emotion value is '1', the emotion type for this job social data is positive, and the emotion value is 4 (=5 -1) can be Accordingly, the first emotional value per unit of the social data for the corresponding task may have a first positive emotional value n1 of 4.
이러한 방식으로, 감성 분석부(131)는 감성어 사전을 이용하여 모든 작업용 소셜 데이터 각각에 대한 제1 감성값(p1, n1)을 산출하여 저장부(15)에 저장할 수 있다. 이미 기술한 것처럼, 각 작업용 소셜 데이터는 해당 값을 갖는 제1 긍정 감성값(p1), 제1 부정 감성값(n1) 또는 0의 값을 갖는 중립 감성값을 가질 수 있다.In this way, the
그런 다음, 감성 분석부(131)는 산출된 제1 긍정 감성값(p1)을 모두 합산하여 작업용 소셜 데이터 전체에 대한 제1 긍정 감성 총합(pt1)을 산출하고, 산출된 제1 부정 감성값(n1)을 모두 합산하여 작업용 소셜 데이터 전체에 대한 제1 부정 감성 총합(nt1)을 산출하여, 제1 긍정 감성 총합(pt1)과 제1 부정 감성 총합(nt1)을 저장부(15)에 저장할 수 있다(S175).Then, the
다음, 감성 분석부(131)는 각 작업용 소셜 데이터에서 추출한 신조어 및 이미티콘을 이용하여 각 작업용 소셜 데이터에 대한 제2 감성값(p2, n2)을 산출하여 저장부(15)에 저장할 수 있다. 제2 감성값 역시 제2 긍정 감성값(p2), 제2 부정 감성값(n2) 및 중립 감성값을 구비할 수 있다.Next, the
이를 위해, 감성 분석부(131)는 신조어 감성 데이터베이스(31)와 이모티콘 감성 데이터베이스(32)를 이용하여 각 작업용 소셜 데이터에서 추출되어 저장부(15)에 저장되어 있는 신조어와 이모티콘에 대한 극성, 그에 대응하는 강도(1 내지 5) 및 현재 수집 계수를 판단할 수 있다(S176).To this end, the
다음, 감성 분석부(131)는 해당 신조어나 이모티콘에 대한 현재 수집 계수를 이용하여 극성 가중치를 판정할 수 있다. 이때, 극성 가중치는 현재 수집 계수의 값에 따라 이미 저장부(15)에 정해져 있을 수 있고, 현재 수집 계수의 값이 증가할수록 극성 가중치의 값 역시 증가할 수 있다. 예를 들어, 극성 가장치의 최소값은 '1'일 수 있고, 최대값은 '10'일 수 있다.Next, the
본 예에서, 각 신조어나 이모티콘의 감성값은 강도에 극성 가중치를 곱한 값이 될 수 있다. In this example, the emotional value of each new word or emoticon may be a value obtained by multiplying intensity by a polarity weight.
이로 인해, 동일한 극성과 동일한 강도를 갖는 신조어나 이모티콘 일지라도 현재 수집 계수가 큰 신조어나 이모티콘의 감성값이 크게 된다. For this reason, even if it is a new word or emoticon having the same polarity and the same strength, the sensitivity value of the new word or emoticon having a large current collection coefficient is large.
예를 들어, 신조어'입덕'의 극성은 긍정이고 강도는 '3'이고 현재 수집 계수는 '569'이고, 신조어 '막내온탑'의 극성은 긍정이고 강도는 '3'이고 현재 수집 계수는 '384'라고 가정한다. For example, the polarity of the coined word 'Ibdeok' is positive, the intensity is '3', and the current collection coefficient is '569'. ' Assume
이런 경우, 극성 가중치가 적용되지 않는 경우, 입덕과 막내온탑의 제2 감성값은 모두 강도와 동일한 '3'의 제2 긍정 감성값을 갖게 된다. In this case, when no polarity weight is applied, the second sensibility values of Ibdeok and the youngest Ontop both have a second positive sensibility value of '3' equal to the intensity.
하지만, 본 예와 같이, 극성 가중치가 적용되고, 현재 수집 계수가 1~100 사이이며 극성 가중치가 '1'이고, 현재 수집 계수가 400~600 사이이며 극성 가중치가 '2'로 가정한다. 이런 경우, 입덕은 '3[=3(강도)×2(극성 가중치)]'의 제2 긍정 감성값을 갖지만, 막내온탑은 '3(=3×1)'의 제2 긍정 감성값을 갖게 된다.However, as in this example, it is assumed that the polarity weight is applied, the current collection coefficient is between 1 and 100, the polarity weight is '1', the current collection coefficient is between 400 and 600, and the polarity weight is '2'. In this case, Ibdeok has a second positive emotional value of '3[=3 (strength) × 2 (polar weight)], while the youngest Ontop has a second positive emotional value of '3 (= 3 × 1)'. do.
이와 같이, 감성 분석부(131)는 각 작업용 소셜 데이터의 신조어와 이모티콘의 극성, 강도 및 현재 수집 계수에 따른 극성 가중치를 이용하여, 해당 작업용 소셜 데이터의 신조어 및 이모티콘의 감성값(즉, 긍정 감성값 또는 부정 감성값)을 산출할 수 있다(S177).In this way, the
다음, 감성 분석부(131)는 산출된 각 신조어 및 이모티콘의 감성값을 이용하여 해당 작업용 소셜 데이터에 대한 총 긍정 감성값과 총 부정 감성값을 산출할 수 있다(S178).Next, the
그런 다음, 감성 분석부(131)는 산출된 해당 작업용 소셜 데이터의 총 긍정 감성값과 총 부정 감성값을 비교하여, 해당 작업용 소셜 데이터에 대한 제2 감성값(p2, n2)을 산출할 수 있다(S179). 여기서, 제2 감성값(p2, n2) 역시 감성의 종류에 따라 제2 긍정 감성값(p2), 제2 부정 감성값(n2) 및 '0'의 값을 갖는 중립 감성값을 가질 수 있다.Then, the
해당 작업용 소셜 데이터에 대한 제2 감성값(p2, n2)을 산출 방식은 제1 감성값(p1, n1)의 산출 방식과 동일하여, 감성 분석부(131)는 해당 작업용 소셜 데이터의 총 긍정 감성값과 총 부정 감성값을 서로 비교하여 감성의 종류 및 감성값의 크기를 산출할 수 있다.The method of calculating the second emotion values p2 and n2 for the social data for the corresponding work is the same as the method of calculating the first emotion values p1 and n1, and the
그런 다음, 감성 분석부(131)는 산출된 제2 긍정 감성값(p2)을 모두 합산하여 작업용 소셜 데이터 전체에 대한 제2 긍정 감성 총합(pt2)을 산출하고, 산출된 제2 부정 감성값(n2)을 모두 합산하여 작업용 소셜 데이터 전체에 대한 제2 부정 감성 총합(nt2)을 산출한 후, 산출된 총합(pt2, nt2)을 저장부(15)에 저장할 수 있다(S1710).Then, the
다음, 감성 분석부(131)는 제1 긍정 감성 총합(pt1)과 제2 긍정 감성 총합(pt2)을 더하여 작업용 소셜 데이터 전체에 대한 최종 긍정 감성 총합(pf)과 제1 부정 감성 총합(nt1)과 제2 부정 감성 총합(nt2)을 더하여 작업용 소셜 데이터 전체에 대한 최종 부정 감성 총합(nf)을 산출한 후, 산출된 최종 감성 총합(pf, nf)를 저장부(15)에 저장할 수 있다(S1711). Next, the
그런 다음, 감성 분석부(131)는 최종 긍정 감성 총합(pt)과 최종 부정 감성 총합(nf)을 비교하여 작업용 소셜 데이터 전체에 대한 최종 감성을 판단할 수 있다(S1712). Then, the
예를 들어, 최종 긍정 감성 총합(pt)이 최종 부정 감성 총합(nf) 보다 크면 해당 작업용 소셜 데이터에 대한 전체 감성은 긍정이고, 반대로 최종 부정 감성 총합(nt)이 최종 긍정 감성 총합(pf) 보다 크면 해당 작업용 소셜 데이터에 대한 전체 감성은 부정일 수 있다. 그리고, 해당 작업용 소셜 데이터 전체에 대한 감성값은 이미 기술한 것과 유사하게 최종 긍정 감성 총합(pt)과 최종 부정 감성 총합(nf)의 차에 대한 절대값일 수 있다. For example, if the final sum of positive emotions (pt) is greater than the final sum of negative emotions (nf), the overall sentiment for the social data for the task is positive, and conversely, the final sum of negative emotions (nt) is higher than the final sum of positive emotions (pf). If it is large, the overall sentiment toward the social data for the corresponding task may be negative. In addition, the sentiment value for the entire social data for the corresponding work may be an absolute value of the difference between the final sum total of positive emotions (pt) and the final sum of negative emotions (nf), similar to the previously described ones.
또한, 최종 긍정 감성 총합(pt)과 최종 부정 감성 총합(nf)이 동일하면 해당 작업용 소셜 데이터에 대한 전체 감성은 중립이고, 감성값은 '0'이 될 수 있다.In addition, if the final sum total of positive emotions (pt) and the final sum of negative emotions (nf) are the same, the overall emotion for the social data for the corresponding work is neutral, and the emotion value may be '0'.
그런 다음, 감성 분석부(131)는 도 3에 도시한 것처럼, 판단된 최종 감성을 출력부(17)로 출력할 수 있다.Then, as shown in FIG. 3 , the
따라서, 사용자는 출력부(17)에서 출력되는 결과를 이용하여 해당 수집 키워드에 관련된 상품, 기사, 연예인 등과 같은 제품에 대한 대중의 감성을 정확하고 용이하게 판단할 수 있다.Accordingly, the user can accurately and easily determine the public's sensibility for products, such as products, articles, entertainers, etc. related to the corresponding collection keyword, using the result output from the
또한, 감성어 사전뿐만 아니라 신조어와 이모티콘을 이용하여 수집 키워드에 관련된 게시글의 전체적인 감성을 판단하므로, 감성 판단의 정확도가 향상되며, 현재 수집 계수에 다른 극성 가중치를 적용하므로, 최종 판단된 감성의 정확도를 더욱더 높아질 수 있다. In addition, since the overall sentiment of posts related to the collected keyword is determined using not only the sentiment dictionary but also new words and emoticons, the accuracy of sentiment determination is improved. can be even higher.
다음, 도 5 및 도 6을 참고하여, 소셜 네트워크 서비스 상에서 신조어와 이모티콘을 추출하여, 신조어 감성 데이터베이스(31)와 이모티콘 감성 데이터베이스(32)의 구축 방법에 대해 설명한다. Next, with reference to FIGS. 5 and 6 , a method of constructing a new
이미 기술한 것처럼, 신조어 감성 데이터베이스(31)에 저장되어 있는 신조어와 이모티큰 감성 데이터베이스(32)에 저장되어 있는 이모티콘은 소셜 네트워크 서비스(SNS) 상에서 수집된 것이다.As already described, the new words stored in the new
이러한 신조어와 이모티콘을 추출하여 해당 데이터베이스(31, 32)에 새로운 신조어와 이모티콘을 업데이트하는 신조어 및 이모티콘의 추출 장치(50)의 한 예는 도 5에 도시되어 있다.An example of a device for extracting new words and
도 5에 도시한 것처럼, 신조어 및 이모티콘 추출 장치(50)는 사용자 입력부(51), 사용자 입력부(51)와 연결되어 있는 관리 유닛(53), 관리 유닛(53)에 연결되어 있는 저장부(55), 출력부(57) 및 통신부(59)를 구비할 수 있다.As shown in FIG. 5 , the device for extracting new words and
사용자 입력부(51), 저장부(55), 출력부(57) 및 통신부(59)는 각각 도 2를 참고하여 설명한 사용자 입력부(11), 저장부(15), 출력부(17) 및 통신부(19)와 동일할 수 있고, 이로 인해, 이에 대한 자세한 설명은 생략될 수 있다. 하지만, 본 예의 저장부(55)는 메모리나 웹 스토리지뿐만 아니라 데이터베이스와 같은 대용량의 저장매체일 수 있다. The
관리 유닛(53)은 추출 장치(50)에 대한 전반적인 동작을 제어하는 제어 유닛일 수 있고, 수집부(531)와 추출부(532)를 구비할 수 있다.The
수집부(531)은 소셜 네트워크 서비스 상에서 신조어 및 이모티콘의 수집을 위한 수집 데이터, 즉 소셜 데이터를 수집하고 관리할 수 있다.The
추출부(552)는 수집부(531)에 의해 수집된 데이터에서 신조어와 이모티콘을 추출하여 신조어 데이터베이스(31)와 이모티콘 데이터베이스(33)에 저장 동작을 제어할 수 있다.The extraction unit 552 may extract new words and emoticons from the data collected by the
이로 이해, 이러한 본 예의 추출 장치(50)는 도 5에는 도시하지 않았지만, 데이터베이스부(30)의 일부 데이터베이스(예, 31, 32, 35)와 연결될 수 있다. To understand this, the
본 예의 관리 장치는 하나의 예로서, 트위터와 네이버 블로그에 저장되어 소셜 데이터에서 새로운 신조어와 이모티콘을 추출하기 위한 데이터를 수집할 수 있다.As an example, the management device of this example may collect data for extracting new words and emoticons from social data stored in Twitter and Naver blogs.
따라서, 트위터에서 신조어, 문자형 이모티콘, 4바이트 문자형 이모티콘이 추출될 수 있고, 네이버 블로그에서 이미지형 이모티콘이 추출될 수 있다.Accordingly, new words, text emoticons, and 4-byte text emoticons can be extracted from Twitter, and image-type emoticons can be extracted from Naver Blog.
트위터의 경우, 검색 API가 제공되므로, 트위터의 경우에는 트위터에서 제공되는 검색 API를 이용하여 트위터의 소셜 데이터 중에서 원하는 소셜 데이터를 검색할 수 있다. 이때, 검색 조건으로 트윗의 작성 언어가 한국어인 트윗이 수집될 수 있다.In the case of Twitter, since a search API is provided, in the case of Twitter, desired social data among social data of Twitter can be searched using the search API provided by Twitter. In this case, as a search condition, tweets in which the writing language of the tweets is Korean may be collected.
하지만, 네이버 블로그의 경우에는 이미 공개되어 있는 크롤러(crawler)를 이용하여 네이버 블로그의 소셜 데이터 중에서 원하는 소셜 데이터를 검색할 수 있다. 이때, 네이버 블로그의 검색 카테고리는 '엔터테이먼트/예술'로 한정될 수 있고, 정해진 주기마다 해당 카테고리의 소셜 데이터의 수집 동작이 이루어질 수 있다. However, in the case of a Naver blog, desired social data can be searched from among the social data of the Naver blog by using a crawler that has already been published. In this case, the search category of the Naver blog may be limited to 'entertainment/art', and an operation of collecting social data of the corresponding category may be performed at regular intervals.
따라서, 작업자는 사용자 입력부(51)를 이용하여 원하는 검색 조건과 검색 주기 등과 같이 검색에 필요한 조건을 입력할 수 있고, 이러한 작업자의 동작에 의해, 사용자 입력부(51)로부터 해당 명령이 입력되면, 수집부(531)의 동작이 시작될 수 있다.Accordingly, the operator can input conditions necessary for the search, such as a desired search condition and a search period, by using the
동작이 시작되면, 수집부(531)는 사용자 입력부(51)로부터 입력된 명령에 따라 통신부(59)를 통해 접속되어 있는 해당 소셜 네트워크 서비스의 해당 서버에 접속하여 검색 조건에 맞는 소셜 데이터를 수집할 수 있다(S51). When the operation starts, the
이미 기술한 것처럼, 트위터와 네이버 블로그와 같은 해당 소셜 네트워크 서비스의 서버에서 수집된 소셜 데이터는 신조어와 이모티콘의 추출 동작에 무관한 정보를 함유하고 있다.As already described, the social data collected from the servers of corresponding social network services such as Twitter and Naver blog contain information irrelevant to the extraction operation of new words and emoticons.
따라서, 수집부(531)는 수집된 소셜 데이터에서 불필요한 정보를 삭제하는 전처리 동작을 실시한 후, 저장부(55)에 저장할 수 있다(S52, S53). Accordingly, the
이러한 수집부(531)의 전처리 동작에 의해, 신조어와 이모티콘의 추출의 정확도를 향상시키며 처리 시간을 단축시킬 수 있다. By the pre-processing operation of the
수집부(531)에 의해 삭제되는 정보는 소셜 데이터의 위치 정보(예, URL), 사용자 정보 및 해시태그일 수 있다. 네이버 블로그의 경우, 이미지형 이모티콘은 HTML태그로 구성될 수 있어, 이미지형 이모티콘 추출 시 내용은 필요하지 않다. 따라서, 수집부(531)는 네이버 블로그에서 수집된 소셜 데이터에서 <IMG>태그를 제외한 모든 내용 및 태그를 제거하는 전처리 동작을 수행할 수 있다. The information deleted by the
이와 같이, 추출부(531)에 의해 소셜 네트워크 서비스 상에서의 소셜 데이터의 수집이 완료되면, 추출부(531)가 동작하여 전처리된 소셜 데이터에서의 신조어 및 이모티콘의 추출 동작을 수행할 수 있다.As such, when the collection of social data on the social network service is completed by the
전처리된 소셜 데이터에서 신조어를 추출하기 위해, 추출부(532)는 네이버오픈 사전과 같은 적어도 하나의 오픈 사전(예, 네이버 오픈 사전)을 이용하여 구축된 오픈사전 데이터베이스(61)를 이용할 수 있다.In order to extract a neologism from the preprocessed social data, the
이 오픈사전 데이터베이스(61)는 네이버 오픈 사전과 같은 오픈 사전에 등재된 단어 중에서, '한국어'와 '좋아요'를 설정개수(예, 10개) 이상의 평가를 받는 단어를 구비하는 오프사전이 저장되어 있을 수 있다.This open dictionary database 61 stores an off-dictionary including words that receive evaluations of more than a set number (eg, 10) of 'Korean' and 'like' among words registered in open dictionaries such as Naver Open Dictionary. there may be
따라서, 추출부(532)는 전처리된 저장부(55)의 소셜 데이터와 오픈사전 데이터베이스(61)에 저장되어 있는 단어를 비교하여, 소셜 데이터의 단어 중에서 오픈사전 데이터베이스에 저장되어 있는 단어와 동일한 단어를 신조어로 판단하여 저장부(55)에 저장할 수 있다(S54).Accordingly, the
또한, 추출부(532)는 전처리된 소셜 데이터에서 이모티콘을 추출하는 동작을 수행하여(S55-S57), 추출된 신조어 및 이모티콘은 저장부(55)에 저장될 수 있다(S58). In addition, the
이모티콘은 '^^'나 'ㅠㅠ'와 같이 문자 형태로 이루어진 이모티콘(예, 문자형 이모티콘), 이미지 형태로 이루어진 이모티콘(예, 이미지형 이모티콘) 및 4바이트 유니코드 문자 형태로 이루어진 이모티콘(예, 4바이트 문자형 이모티콘)으로 구분될 수 있다.Emoticons are emoticons in the form of characters (eg, character emoticons) such as '^^' or 'ㅠ', emoticons in the form of images (eg, image emoticons), and emoticons in the form of 4-byte Unicode characters (eg, 4 bytes character emoticons).
따라서, 전처리된 소셜 데이터에서 문자형 이모티콘을 추출하기 위해(S55), 추출부(532)는 전처리된 소셜 데이터를 어절 단위로 분리한 후 어절에 대한 토큰화 작업, 즉 어절 토큰화(tokenization)를 실시할 수 있다. 이때, 어절과 어절 사이의 경계는 띄어쓰기를 기준으로 판단할 수 있다. Therefore, in order to extract a text emoticon from the preprocessed social data (S55), the
추출부(53)는 토큰화된 어절에서 알파벳, 완성형 한글, 숫자, 4바이트 문자를 모두 제거할 수 있다.The
또한, 문자형 이모티콘은 초성 한 글자만 사용하는 경우가 적으며, 하나의 초성으로 이루어진 것은 오타일 경우가 높기 때문에 추출부(532)는 토큰화된 어절에서 한글 초성 문자를 제거할 수 있다. In addition, since it is rare that only one initial consonant is used in the text emoticon, and it is highly likely that a single initial consonant is a typo, the
예를 들어, 추출부(532)는 "조타^^"의 경우 "^^"만을 신조어로 추출하고, "치인건디ㅜㅜ"의 경우 "ㅜㅜ"만을 신조어로 추출할 수 있다.For example, the
이때, 문자 형태의 이모티콘은 특수 문자나 한글 초성로 이루어지는 경우가 많아, 문자 형태의 이모티콘은 신조어로 구분되어 이미 기술한 것처럼 오픈사전 데이터베이스를 이용한 신조어 추출 동작을 통해 추출될 수 있다(S54).At this time, since the character emoticon often consists of special characters or Korean consonants, the character emoticon is divided into new words and can be extracted through the operation of extracting new words using the open dictionary database as previously described (S54).
전처리된 소셜 데이터에서 이미지형 이모티콘을 추출하기 위해(S56), 추출부(532)는 해당 전처리된 소셜 데이터에서 이미지 태그(예, <IMG>)태그를 추출할 수 있다. 이때, 소셜 네트워크 서비스의 업체마다 이미지형 이모티콘에 대한 고유의 패턴이 존재하므로, 추출부(532)는 HTML상에서 해당 패턴이 존재하는 것을 이미지형 이모티콘으로 추출할 수 있다.In order to extract an image emoticon from the pre-processed social data ( S56 ), the
예를 들어, 도 7에서, 이미지 형태의 이모티콘 태그에서 alt속성에 '스티커 이미지'라는 값이 있을 경우 <IMG>태그로 추출될 수 있다.For example, in FIG. 7 , when an alt attribute has a value of 'sticker image' in an emoticon tag in the form of an image, it may be extracted as an <IMG> tag.
4바이트 문자형 이모티콘의 추출하기 위해(S57), 추출부(532)는 전처리된 소셜 데이터에서 4바이트 유니코드로 인코딩된 문자를 추출하여, 4바이트 문자형 이모티콘으로 판정할 수 있다. In order to extract the 4-byte character emoticon (S57), the
이러한 추출부(532)의 동작을 통해 추출된 신조어와 이모티콘은 사용자 입력부(51)를 이용한 작업자의 동작을 통해 신조어 감성 데이터베이스(31)와 이모티콘 감성 데이터베이스(32)에 각각 등록될 수 있다(S59).New words and emoticons extracted through the operation of the
이때, 작업자는 추출부(532)의 제어에 의해 동작되는 입력 툴을 이용하여 해당 데이터베이스(31, 32)에 신조어의 등록 뿐만 아니라 이에 관련된 극성(긍정, 부정 및 중립 중 적어도 하나)과 가중치(1~5 중 하나의 값) 및 현재 수집 계수를 함께 입력하여, 해당 데이터베이스(31, 32)에 저장할 수 있다.At this time, the operator uses an input tool operated under the control of the
이때, 입력 툴에는 추가 키워드 입력 기능, 제외 키워드 입력 기능 및 사전앞뒤공백 입력 기능을 구비할 수 있다.In this case, the input tool may include an additional keyword input function, a negative keyword input function, and a dictionary front and back space input function.
추가 키워드 입력 기능은 사전에 추가적으로 키워드를 등록할 수 있는 기능으로서, 신조어의 기본 단어, 즉 기본 신조어에 조사나 명사 등이 추가되어 기본 신조어에서 확장된 확장 신조어의 등록이 이루어지도록 할 수 있다.The additional keyword input function is a function that can additionally register keywords in the dictionary. The basic word of a neologism, that is, a proposition or a noun is added to the basic neologism, so that the expanded neologism extended from the basic neologism can be registered.
예를 들어, 기본 신조어가 '한남'인 경우, 추가 키워드 기능을 이용하여 사용자 입력부를 통해 '들', '충' 및 '놈'이 추가 키워드로 입력되면, 신조어 사전 데이터베이스(31)에는 한남에 관련된 신조어는 기본 신조어인 '한남'뿐만 아니라 '한남들', 한남충' 및 '한남놈'도 신조어로 등록될 수 있다.For example, if the basic neologism is 'Hannam', if 'deul', 'chung' and 'nom' are input as additional keywords through the user input unit using the additional keyword function, the
제외 키워드 입력 기능은 추가 키워드 기능의 반대의 기능으로서, 신조어와 동일하게 표기된 단어를 포함하는 문장의 일부를 등록하여, 등록된 문장의 일부에 포함된 단어가 신조어로서 검색이 되지 않도록 하는 기능이다. The negative keyword input function is the opposite of the additional keyword function, and it is a function to register a part of a sentence including a word marked the same as a new word so that the word included in the part of the registered sentence is not searched as a new word.
따라서, 신조어와 동일하게 표기되지만 의미는 전혀 다른 단어가 신조어로 등록되는 것을 방지하기 위한 것이다. Therefore, it is to prevent a word that is written the same as a neologism but has a completely different meaning from being registered as a neologism.
예를 들어, '어쩔'은 '어쩌라고'의 줄임말로서, 신조어이다. 하지만, '어쩔 수 없잖아'의 문장에서 '어쩔'은 신조어인 '어쩔'과 동일하게 표기되지만 전혀 다른 의미를 갖는다. 따라서, '어쩔 수'를 제외 키워드로 등록해 놓으면 '어쩔 수'의 '어쩔'은 신조어로 검색이 되지 않게 된다.For example, 'what do' is an abbreviation for 'what do', and is a neologism. However, in the sentence of 'it can't be helped', 'it' is the same as the new word 'it', but it has a completely different meaning. Therefore, if 'it can't be done' is registered as a negative keyword, 'dot' of 'can't be helped' is not searched as a new word.
사전앞뒤공백 입력 기능은 사전(즉, 신조어나 이모티콘)의 앞부분과 뒷부분 중 적어도 하나에 공백을 추가하는 기능하여 사전이 공백과 같이 검색될 수 있도록 한다.The dictionary space input function adds a space to at least one of the front part and the rear part of a dictionary (ie, a neologism or an emoticon) so that the dictionary can be searched like a space.
예를 들어, 방탄소년단의 팬클럽의 이름은 '아미'이다. 하지만, 신조어가 '아미'로 등록되는 경우, '지성아미안해'와 같이 전혀 방탄소년단과 전혀 의미가 없는 단어나 문장에서도 '아미'가 검색되게 된다. 따라서, 아미의 앞부분과 뒷부분 중 적어도 하나에 공백이 추가되도록 하면 ' 아마', '아미 ', 또는 ' 아미 '인 경우에만 방탄소년단과 관련된 '아미'만이 검색되어 검색의 정확도가 향상될 수 있다.For example, the name of BTS' fan club is 'Army'. However, if a new word is registered as 'army', 'army' will be searched for even in words or sentences that have no meaning at all with BTS, such as 'I'm sorry'. Therefore, if a space is added to at least one of the front and rear parts of ARMY, only 'Army' related to BTS is searched for 'Ama', 'Army', or 'Army', so that the accuracy of the search can be improved.
이러한 신조어 및 이모티콘의 등록을 위한 출력부(57)의 출력 화면의 한 예는 도 8와 같을 수 있다. An example of an output screen of the
도 8에 도시한 것처럼, 등록 화면에는 등록하고자 하는 신조어 및 그에 대한 설명이 표시되는 부분(B11), 극성의 종류 선태 부분(B12), 가중치(즉, 강도) 선택 부분(B13), 추가 키워드 입력 부분(B141), 제외 키워드 부분(B15) 및 사전앞뒤공백 부분(B16)을 구비할 수 있다.As shown in Fig. 8, on the registration screen, a new word to be registered and a description thereof are displayed (B11), a type of polarity selection part (B12), a weight (ie, strength) selection part (B13), an additional keyword input It may include a part B141, a negative keyword part B15, and a blank part B16 before and after the dictionary.
따라서, 작업자는 키보드 등과 같은 사용자 입력부(51)를 이용하여 감성(즉 극성)의 종류, 가중치의 값, 추가 키워드 입력 기능, 제외 키워드 입력 기능, 및 사전앞뒤공백 입력 기능을 실시할 수 다. Accordingly, the operator can use the
다음 [표 4]에 신조어 감성 데이터베이스(31)와 이모티콘 감성 데이터베이스(32)의 저장 예시를 도시한다.The following [Table 4] shows an example of storing the new
본 발명의 각 실시예에 개시된 기술적 특징들은 해당 실시예에만 한정되는 것은 아니고, 서로 양립 불가능하지 않은 이상, 각 실시예에 개시된 기술적 특징들은 서로 다른 실시예에 병합되어 적용될 수 있다.The technical features disclosed in each embodiment of the present invention are not limited only to the corresponding embodiment, and unless they are mutually incompatible, the technical features disclosed in each embodiment may be combined and applied to different embodiments.
이상, 본 발명의 실시예들에 대해 설명하였다. 본 발명은 상술한 실시예 및 첨부한 도면에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자의 관점에서 다양한 수정 및 변형이 가능할 것이다. 따라서 본 발명의 범위는 본 명세서의 청구범위뿐만 아니라 이 청구범위와 균등한 것들에 의해 정해져야 한다.In the above, embodiments of the present invention have been described. The present invention is not limited to the above-described embodiments and the accompanying drawings, and various modifications and variations will be possible from the point of view of those of ordinary skill in the art to which the present invention pertains. Accordingly, the scope of the present invention should be defined not only by the claims of the present specification, but also by those claims and their equivalents.
10: 감성 분석 장치
20: 소셜 네트워크 서버
30: 데이터베이스부
31: 신조어 감성 데이터베이스
32: 이모티콘 감성 데이터베이스
33: 소셜 데이터 데이터베이스
34: 형태소 데이터베이스
35: 형태소 사전 데이터베이스
36: 감성어 사전 데이터베이스
11, 51: 사용자 입력부
13: 분석 유닛
131: 감성 분석부
132: 형태소 분석부
15, 55: 저장부
17, 57: 출력부
19, 59: 통신부10: sentiment analysis device 20: social network server
30: database unit 31: new word sentiment database
32: Emoji Sentiment Database
33: social data database
34: morpheme database
35: Morphological Dictionary Database
36: Sentiment Dictionary Database
11, 51: user input unit 13: analysis unit
131: sentiment analysis unit 132: morpheme analysis unit
15, 55:
19, 59: Ministry of Communications
Claims (11)
상기 분석 유닛에 연결되어 있는 저장부
를 포함하고,
상기 분석 유닛은,
신조어 감성 데이터베이스와 이모티콘 감성 데이터베이스를 이용하여 수집된 각 소셜 데이터에서 신조어 및 이모티콘을 추출하여 상기 저장부에 저장하고,
수집된 각 소셜 데이터에서 감성어를 추출하고, 추출된 상기 감성어를 이용하여 수집된 각 소셜 데이터에 대한 제1 감성값을 산출하고,
각 소셜 데이터에 대한 제1 감성값 중 제1 긍정 감성값을 합산하여 제1 긍정 감성 총합을 산출하여 상기 저장부에 저장하고, 각 소셜 데이터에 대한 제1 감성값 중 제1 부정 감성값을 합산하여 제1 부정 감성 총합을 산출하여 상기 저장부에 저장하고,
수집된 각 소셜 데이터에서 추출된 상기 신조어 및 이모티콘을 이용하여 각 소셜 데이터에 대한 제2 감성값을 산출하여 상기 저장부에 저장하고,
각 소셜 데이터에 대한 제2 감성값 중 제2 긍정 감성값을 합산하여 제2 긍정 감성 총합을 산출하고, 각 소셜 데이터에 대한 제2 감성값 중 제2 부정 감성값을 합산하여 제2 부정 감성 총합을 산출하여 상기 저장부에 저장하며,
상기 제1 긍정 감성 총합과 상기 제2 긍정 감성 총합을 더하여 적어도 하나의 소셜 데이터 전체에 대한 최종 긍정 감성 총합을 산출하고,
상기 제1 부정 감성 총합과 상기 제2 부정 감성 총합을 더하여 상기 적어도 하나의 소셜 데이터 전체에 대한 최종 부정 감성 총합을 산출하며,
상기 최종 긍정 감성 총합과 상기 최종 부정 감성 총합을 비교하여 상기 적어도 하나의 소셜 데이터 전체에 최종 감성을 판단하는
감성 분석 장치.analysis unit; and
a storage unit connected to the analysis unit
including,
The analysis unit is
New words and emoticons are extracted from each social data collected using a new word emotion database and an emoticon emotion database and stored in the storage unit,
extracting sentiment words from each collected social data, and calculating a first sentiment value for each collected social data using the extracted sentiment words;
A first positive emotion sum is calculated by summing the first positive emotion values among the first emotion values for each social data, and stored in the storage unit, and the first negative emotion value among the first emotion values for each social data is summed to calculate the first total negative emotion and store it in the storage unit,
Using the new words and emoticons extracted from each collected social data, a second emotion value for each social data is calculated and stored in the storage unit,
A second sum total of positive emotions is calculated by summing the second positive emotion values among the second emotion values for each social data, and the second negative emotion values are summed among the second emotion values for each social data to sum up the second negative emotion. Calculated and stored in the storage unit,
calculating a final sum of positive emotions for all of the at least one social data by adding the sum of the first positive emotions and the sum of the second positive emotions;
calculating a final sum of negative emotions for all of the at least one social data by adding the total sum of the first negative emotions and the total number of the second negative emotions;
Comparing the total sum of the final positive emotions and the total sum of the final negative emotions to determine the final emotion in the entire at least one social data
Sentiment Analysis Device.
상기 분석 유닛은 상기 신조어, 이모티콘 및 감성어를 추출하기 전에, 수집된 적어도 하나의 소셜 데이터에서 사용자 정보, 위치 정보 및 해시태그를 삭제하는 감성 분석 장치.According to claim 1,
The analysis unit deletes user information, location information, and hashtags from the collected at least one social data before extracting the neologism, emoticon, and sentimental word.
상기 분석 유닛은 각 소셜 데이터에 대한 형태소 분석을 실시하여, 각 소셜 데이터의 형태소 분석 결과와 감성어 사전 데이터베이스에 저장되어 있는 감성어 사전을 비교하여 각 소셜 데이터에 대한 감성어를 추출하는 감성 분석 장치.According to claim 1,
The analysis unit performs morpheme analysis on each social data, compares the morpheme analysis result of each social data with the sentiment dictionary stored in the sentiment dictionary database, and extracts sentiment words for each social data. .
상기 저장부는 현재 수집 계수에 대한 극성 가중치가 저장되어 있고,
상기 감성 분석부는,
상기 신조어 감상 데이터베이스와 상기 이모티콘 감성 데이터베이스를 이용하여 각 소셜 데이터에서 추출된 각 신조어 및 각 이모티콘의 극성, 강도, 현재 수집 계수를 판단하고, 상기 현재 수집 계수에 대한 극성 가중치를 판단하며,
판단된 상기 극성, 강도 및 극성 가중치를 이용하여 각 신조어 및 각 이모티콘의 감성값을 산출하며,
각 소셜 데이터에 대한 각 신조어 및 이모티콘의 감성값을 이용하여 각 작업용 소셜 데이터에 대한 총 긍정 감성값과 총 부정 감성값을 산출하고,
각 작업용 소셜 데이터의 총 긍정 감성값과 총 부정 감성값을 비교하여, 각 소셜 데이터에 대한 제2 감성값을 산출하는
감성 분석 장치.According to claim 1,
The storage unit stores the polarity weight for the current collection coefficient,
The sentiment analysis unit,
Determining the polarity, strength, and current collection coefficient of each new word and each emoticon extracted from each social data using the neologism appreciation database and the emoticon sentiment database, and determining a polarity weight for the current collection coefficient,
Using the determined polarity, strength, and polarity weight, calculate the emotional value of each new word and each emoticon,
Calculate the total positive emotional value and the total negative emotional value for each social data for each task by using the emotional value of each new word and emoticon for each social data,
Comparing the total positive emotion value and the total negative emotion value of the social data for each task to calculate a second emotion value for each social data
Sentiment Analysis Device.
상기 분석 유닛에 연결되어 있고, 수집 키워드를 입력하는 사용자 입력부를 더 포함하고,
상기 분석 유닛은 상기 수집 키워드에 대응하는 상기 적어도 하나의 소셜 데이터를 소셜 네트워크 서버로부터 수집하는 감성 분석 장치.According to claim 1,
It is connected to the analysis unit, further comprising a user input unit for inputting a collection keyword,
The analysis unit collects the at least one social data corresponding to the collection keyword from a social network server.
수집된 각 소셜 데이터에서 감성어를 추출하고, 추출된 상기 감성어를 이용하여 수집된 각 소셜 데이터에 대한 제1 감성값을 산출하는 단계;
각 소셜 데이터에 대한 제1 감성값 중 제1 긍정 감성값을 합산하여 제1 긍정 감성 총합을 산출하고, 각 소셜 데이터에 대한 제1 감성값 중 제1 부정 감성값을 합산하여 제1 부정 감성 총합을 산출하는 단계;
수집된 각 소셜 데이터에서 추출된 상기 신조어 및 이모티콘을 이용하여 각 소셜 데이터에 대한 제2 감성값을 산출하는 단계;
각 소셜 데이터에 대한 제2 감성값 중 제2 긍정 감성값을 합산하여 제2 긍정 감성 총합을 산출하고, 각 소셜 데이터에 대한 제2 감성값 중 제2 부정 감성값을 합산하여 제2 부정 감성 총합을 산출하는 단계;
상기 제1 긍정 감성 총합과 상기 제2 긍정 감성 총합을 더하여 적어도 하나의 소셜 데이터 전체에 대한 최종 긍정 감성 총합을 산출하는 단계;
상기 제1 부정 감성 총합과 상기 제2 부정 감성 총합을 더하여 상기 적어도 하나의 소셜 데이터 전체에 대한 최종 부정 감성 총합을 산출하는 단계; 및
상기 최종 긍정 감성 총합과 상기 최종 부정 감성 총합을 비교하여 상기 적어도 하나의 소셜 데이터 전체에 최종 감성을 판단하는 단계
를 포함하는 감성 분석 장치의 제어 방법. extracting new words and emoticons from each social data collected using a new word emotion database and an emoticon emotion database;
extracting sentiment words from each collected social data, and calculating a first sentiment value for each collected social data using the extracted sentiment words;
A first total positive emotion is calculated by summing the first positive emotion values among the first emotion values for each social data, and the first negative emotion values are summed among the first emotion values for each social data to sum up the first negative emotion calculating ;
calculating a second emotion value for each social data using the new words and emoticons extracted from each collected social data;
A second sum total of positive emotions is calculated by summing the second positive emotion values among the second emotion values for each social data, and the second negative emotion values are summed among the second emotion values for each social data to sum up the second negative emotion. calculating ;
calculating a final sum total of positive emotions for at least one entire social data by adding the sum of the first positive emotions and the sum of the second positive emotions;
calculating a final total negative emotion for all of the at least one social data by adding the first total negative emotion and the second total negative emotion; and
Comparing the total sum of the final positive emotions and the total sum of the final negative emotions to determine the final emotion in the entire at least one social data
A control method of a sentiment analysis device comprising a.
상기 신조어, 이모티콘 및 감성어를 추출하기 전에, 수집된 적어도 하나의 소셜 데이터에서 사용자 정보, 위치 정보 및 해시태그를 삭제하는 단계를 더 포함하는 감성 분석 장치의 제어 방법. 7. The method of claim 6,
Before extracting the new words, emoticons, and emotional words, the method further comprising the step of deleting user information, location information, and hashtags from the collected at least one social data.
상기 제2 감성값 산출 단계는,
상기 신조어 감상 데이터베이스와 상기 이모티콘 감성 데이터베이스를 이용하여 각 소셜 데이터에서 추출된 각 신조어 및 각 이모티콘의 극성, 강도, 현재 수집 계수를 판단하는 단계;
저장부에 저장되는 정보를 이용하여 상기 현재 수집 계수에 대한 극성 가중치를 판단하는 단계;
판단된 상기 극성, 강도 및 극성 가중치를 이용하여 각 신조어 및 각 이모티콘의 감성값을 산출하는 단계;
각 소셜 데이터에 대한 각 신조어 및 이모티콘의 감성값을 이용하여 각 작업용 소셜 데이터에 대한 총 긍정 감성값과 총 부정 감성값을 산출하는 단계; 및
각 작업용 소셜 데이터의 총 긍정 감성값과 총 부정 감성값을 비교하여, 각 소셜 데이터에 대한 제2 감성값을 산출하는 단계
를 포함하는 감성 분석 장치의 제어 방법. 7. The method of claim 6,
The second emotional value calculation step is,
determining the polarity, strength, and current collection coefficient of each new word and each emoticon extracted from each social data using the new word appreciation database and the emoticon emotion database;
determining a polarity weight for the current collection coefficient using information stored in a storage unit;
calculating emotional values of each new word and each emoticon by using the determined polarity, intensity, and polarity weight;
calculating a total positive emotion value and a total negative emotion value for each work social data by using the emotion values of each new word and emoticon for each social data; and
Comparing the total positive emotion value and the total negative emotion value of the social data for each task, calculating a second emotion value for each social data
A control method of a sentiment analysis device comprising a.
상기 저장부에 연결되어 있고, 상기 소셜 데이터와 오프사전 데이터베이스를 비교하여, 상기 오프사전 데이터베이스에 존재하는 단어와 적어도 하나의 한글 초성을 신조어로 판단하는 추출부
를 포함하는 신조어 및 이모티콘 추출 장치.a storage unit in which social data is stored; and
An extracting unit connected to the storage unit, comparing the social data with an off-dictionary database, and determining a word existing in the off-dictionary database and at least one Hangul consonant as a neologism
A device for extracting new words and emoticons that includes.
상기 저장부에 저장되어 있는 상기 소셜 데이터는 한국어를 함유하는 신조어 및 이모티콘 추출 장치.10. The method of claim 9,
The social data stored in the storage unit is a coined word and emoticon extraction device containing Korean.
상기 추출부는 상기 소셜 데이터에서 이미지 태그를 추출하여 이미지형 이모티콘을 추출하고, 4바이트 유니코드로 인코딩된 문자를 추출하여 4바이트 문자형 이모티콘으로 추출하는 신조어 및 이모티콘 추출 장치.10. The method of claim 9,
The extracting unit extracts image tags from the social data to extract image-type emoticons, and extracts 4-byte Unicode-encoded characters and extracts them as 4-byte character-type emoticons.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200152325A KR102422923B1 (en) | 2020-11-13 | 2020-11-13 | Sentiment analysis apparatus and controlling method thereof, and newly-coined word and emotion extraction apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200152325A KR102422923B1 (en) | 2020-11-13 | 2020-11-13 | Sentiment analysis apparatus and controlling method thereof, and newly-coined word and emotion extraction apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220065980A true KR20220065980A (en) | 2022-05-23 |
KR102422923B1 KR102422923B1 (en) | 2022-07-20 |
Family
ID=81800247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200152325A KR102422923B1 (en) | 2020-11-13 | 2020-11-13 | Sentiment analysis apparatus and controlling method thereof, and newly-coined word and emotion extraction apparatus |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102422923B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115545026A (en) * | 2022-10-13 | 2022-12-30 | 深圳占领信息技术有限公司 | Network emotion analysis system based on fine-grained emotion dictionary |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101120038B1 (en) | 2008-12-22 | 2012-03-23 | 한국전자통신연구원 | Neologism selection apparatus and its method |
KR20130103249A (en) * | 2012-03-09 | 2013-09-23 | 가톨릭대학교 산학협력단 | Method of classifying emotion from multi sentence using context information |
KR20160010746A (en) * | 2014-07-17 | 2016-01-28 | 건국대학교 산학협력단 | System and method for analyzing emotion of user of social network service |
KR101740274B1 (en) | 2015-03-18 | 2017-06-08 | 주식회사 카카오 | Method and device for serching emoticon |
KR101838573B1 (en) * | 2017-02-08 | 2018-03-14 | 서울대학교산학협력단 | Place Preference Analysis Method based on Sentimental Analysis using Spatial Sentiment Lexicon |
KR102019756B1 (en) | 2017-03-14 | 2019-09-10 | 한국전자통신연구원 | On-line contextual advertisement intelligence apparatus and method based on language analysis for automatically recognizes about coined word |
KR20200127587A (en) * | 2019-05-03 | 2020-11-11 | 주식회사 자이냅스 | A program for an automatic sentiment information labeling to news articles for providing sentiment information |
-
2020
- 2020-11-13 KR KR1020200152325A patent/KR102422923B1/en active IP Right Grant
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101120038B1 (en) | 2008-12-22 | 2012-03-23 | 한국전자통신연구원 | Neologism selection apparatus and its method |
KR20130103249A (en) * | 2012-03-09 | 2013-09-23 | 가톨릭대학교 산학협력단 | Method of classifying emotion from multi sentence using context information |
KR20160010746A (en) * | 2014-07-17 | 2016-01-28 | 건국대학교 산학협력단 | System and method for analyzing emotion of user of social network service |
KR101740274B1 (en) | 2015-03-18 | 2017-06-08 | 주식회사 카카오 | Method and device for serching emoticon |
KR101838573B1 (en) * | 2017-02-08 | 2018-03-14 | 서울대학교산학협력단 | Place Preference Analysis Method based on Sentimental Analysis using Spatial Sentiment Lexicon |
KR102019756B1 (en) | 2017-03-14 | 2019-09-10 | 한국전자통신연구원 | On-line contextual advertisement intelligence apparatus and method based on language analysis for automatically recognizes about coined word |
KR20200127587A (en) * | 2019-05-03 | 2020-11-11 | 주식회사 자이냅스 | A program for an automatic sentiment information labeling to news articles for providing sentiment information |
Non-Patent Citations (1)
Title |
---|
양진솔 외 3명, '소셜 데이터의 감성 분석을 위한 신조어 및 이모티콘 감성 사전 구축', 2019 추계학술발표대회 논문집 제26권 제2호, 2019.11., pp.914-917. 1부.* * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115545026A (en) * | 2022-10-13 | 2022-12-30 | 深圳占领信息技术有限公司 | Network emotion analysis system based on fine-grained emotion dictionary |
Also Published As
Publication number | Publication date |
---|---|
KR102422923B1 (en) | 2022-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11113234B2 (en) | Semantic extraction method and apparatus for natural language, and computer storage medium | |
CN107220386B (en) | Information pushing method and device | |
AU2015301869B2 (en) | Methods and apparatuses for modeling customer interaction experiences | |
CN110705301B (en) | Entity relationship extraction method and device, storage medium and electronic equipment | |
US8719353B2 (en) | Systems and methods for visual messaging | |
US8010344B2 (en) | Dictionary word and phrase determination | |
JP5744228B2 (en) | Method and apparatus for blocking harmful information on the Internet | |
US20080312911A1 (en) | Dictionary word and phrase determination | |
JP2019504413A (en) | System and method for proposing emoji | |
CN102859515A (en) | Compound splitting | |
CN111767403A (en) | Text classification method and device | |
JP2010181993A (en) | Evaluation analysis server, method, and program for evaluating text file containing pictorial symbol | |
CN110069769B (en) | Application label generation method and device and storage device | |
CN112989208B (en) | Information recommendation method and device, electronic equipment and storage medium | |
CN112699645B (en) | Corpus labeling method, apparatus and device | |
CN101308512B (en) | Mutual translation pair extraction method and device based on web page | |
KR101652433B1 (en) | Behavioral advertising method according to the emotion that are acquired based on the extracted topics from SNS document | |
CN114722174A (en) | Word extraction method and device, electronic equipment and storage medium | |
CN107111607A (en) | The system and method detected for language | |
KR102422923B1 (en) | Sentiment analysis apparatus and controlling method thereof, and newly-coined word and emotion extraction apparatus | |
CN112597768B (en) | Text auditing method, device, electronic equipment, storage medium and program product | |
JP2017182646A (en) | Information processing device, program and information processing method | |
CN107908792B (en) | Information pushing method and device | |
Dwivedi et al. | A Study on The Role of Machine Learning in Natural Language Processing | |
US20220374708A1 (en) | System and method for content automated classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |