KR102479955B1 - Apparatus and method for establishing newly-coined word and emotion dictionary - Google Patents

Apparatus and method for establishing newly-coined word and emotion dictionary Download PDF

Info

Publication number
KR102479955B1
KR102479955B1 KR1020210015045A KR20210015045A KR102479955B1 KR 102479955 B1 KR102479955 B1 KR 102479955B1 KR 1020210015045 A KR1020210015045 A KR 1020210015045A KR 20210015045 A KR20210015045 A KR 20210015045A KR 102479955 B1 KR102479955 B1 KR 102479955B1
Authority
KR
South Korea
Prior art keywords
emoticon
dependent
new
neologism
word
Prior art date
Application number
KR1020210015045A
Other languages
Korean (ko)
Other versions
KR20220111823A (en
Inventor
정광식
양진솔
Original Assignee
한국방송통신대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국방송통신대학교 산학협력단 filed Critical 한국방송통신대학교 산학협력단
Priority to KR1020210015045A priority Critical patent/KR102479955B1/en
Publication of KR20220111823A publication Critical patent/KR20220111823A/en
Application granted granted Critical
Publication of KR102479955B1 publication Critical patent/KR102479955B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

본 발명은 신조어 및 이모티콘 감성사전 구축 장치에 관한 것으로서, 감성사전 구축 유닛 및 상기 감성사전 구축 유닛에 연결되어 있고, 수집된 작업용 소셜 데이터가 저장되어 있는 데이터베이스부를 포함하고, 감성사전 구축 유닛은 작업용 소셜 데이터를 문장 단위로 분할하여 분할 문장을 생성하고, 분할 문장에서 신조어와 이모티콘을 추출하고, 추출된 신조어와 이모티콘 중 적어도 하나가 결정 신조어나 결정 이모티콘과 동일하면, 추출된 신조어 및 이모티콘 중에서 결정 신조어나 상기 결정 이모티콘과 동일한 신조어나 이모티콘을 제외한 다른 신조어나 다른 이모티콘을 종속 신조어나 종속 이모티콘으로 정하고 분할 문장을 감성 문장으로 추출하며, 감성 문장에 존재하는 결정 신조어 및 상기 결정 이모티콘의 총 개수와 결정 신조어 및 상기 결정 이모티콘의 극성을 이용하여 감성 문장의 극성 강도를 산출하고, 종속 신조어와 종속 이모티콘 및 극성 강도를 데이터베이스부에 저장하여 신조어 및 이모티콘 데이터베이스를 구축한다.The present invention relates to an apparatus for building a sentiment dictionary for newly coined words and emoticons, comprising a sentiment dictionary building unit and a database unit connected to the sentiment dictionary building unit and storing collected social data for work, wherein the emotional dictionary building unit comprises a working social dictionary building unit. Split sentences are generated by dividing data into sentence units, new words and emoticons are extracted from the split sentences, and if at least one of the extracted new words and emoticons is the same as the new coined word or emoticon, the new coined word or emoticon is selected from among the extracted new words and emoticons. A new coined word or other emoticon other than the same new word or emoticon as the decision emoticon is determined as a subordinate new word or a subordinate emoticon, and a divided sentence is extracted as a sentimental sentence, and the total number of the determined new word and the determined emoticon present in the emotional sentence and the determined new word and The polar strength of the emotional sentence is calculated using the polarity of the determined emoticon, and a new word and emoticon database is constructed by storing the dependent neologism, the dependent emoticon, and the polar strength in the database unit.

Description

신조어 및 이모티콘 감성사전 구축장치 및 방법{APPARATUS AND METHOD FOR ESTABLISHING NEWLY-COINED WORD AND EMOTION DICTIONARY}Apparatus and method for building a new word and emoticon sentiment dictionary {APPARATUS AND METHOD FOR ESTABLISHING NEWLY-COINED WORD AND EMOTION DICTIONARY}

본 발명은 신조어 및 이모티콘 감성 사전 구축장치 및 방법에 관한 것으로서, 더욱 상세하게는, 소셜 데이터를 수집하여 신조어 및 이모티콘을 자동으로 추출하여 신조어 및 이모티콘의 감성사전을 자동으로 구축하는 신조어 및 이모티콘 감성 사전 구축장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for constructing a new word and emoticon sentiment dictionary, and more particularly, to a new word and emoticon sentiment dictionary that automatically constructs a new word and emoticon sentiment dictionary by automatically extracting new words and emoticons by collecting social data. It is about a construction device and method.

유선 및 무선 네트워크의 발전과 휴대용 전자기기의 발전으로 인해, 때와 장소에 무관하게 인터넷의 사용이 가능해지고 있다.Due to the development of wired and wireless networks and the development of portable electronic devices, the use of the Internet is becoming possible regardless of time and place.

이로 인해, 음성을 이용한 전화 통화 대신에 문자를 이용하여 서로의 의견을 나누고 감정을 소통하는 추세가 증가하고 있다.For this reason, there is an increasing trend of sharing opinions and communicating emotions using text messages instead of phone calls using voice.

하지만, 스마트폰(smart phone)과 같은 휴대용 전자기기를 통해 SNS(social network service)을 이용하는 경우, 주로 터치 패널로 이루어져 있는 입력부의 소형화 및 그에 따른 사용의 불편함이 발생하게 된다.However, when a social network service (SNS) is used through a portable electronic device such as a smart phone, a miniaturization of an input unit mainly composed of a touch panel causes inconvenience in use.

따라서, 문자의 입력 수를 줄이기 위해, 정상적인 단어의 글자수를 줄인 축약어나 새로운 단어와 같은 신조어의 생성 및 사용이 증가하고 있고, 이에 더해, 감정이나 느낌을 나타내는 단어나 문장을 대신하는 이모티콘(emoticon)의 사용이 나날이 증가하고 있다.Therefore, in order to reduce the number of input characters, the creation and use of neologisms such as abbreviations or new words that reduce the number of characters of normal words are increasing, and in addition, emoticons (emoticons) that replace words or sentences that represent emotions or feelings are increasing. ) is increasingly used.

이러한 신조어나 이모티콘은 표준어와 같은 정상적인 단어가 아니므로, 문장 속에 이들 신조어나 이모티콘이 존재할 때, 문장 분석에 어려움이 발생한다.Since these neologisms or emoticons are not normal words like standard words, difficulties arise in sentence analysis when these neologisms or emoticons exist in a sentence.

또한, SNS에 사용된 소셜 데이터(social data)를 기반으로 하는 오피니언 마이닝(opinion mining) 기술은 사람들이 작성한 리뷰를 수집 및 분석하여 대중의 여론을 파악하는데 사용된다. In addition, opinion mining technology based on social data used in SNS is used to understand public opinion by collecting and analyzing reviews written by people.

소셜 데이터로부터 사용자가 원하는 정보를 빠르게 분석해 주고 유의미한 정보를 지능적으로 유추해내는 오피니언 마이닝 기술의 중요성은 지속적으로 커지고 있다. The importance of opinion mining technology, which rapidly analyzes information desired by users from social data and intelligently infers meaningful information, is continuously growing.

하지만, SNS는 새로운 이슈에 대하여 빠르게 반응하고 여론을 형성하는데, 이 과정에서 현대 사회의 사회 현상이나 트렌드(trend)를 함축적으로 포함하고 있는 많은 신조어 및 이모티콘이 생성된다.However, SNS reacts quickly to new issues and forms public opinion, and in this process, many new words and emoticons implicitly containing social phenomena or trends in modern society are created.

하지만, 새롭게 생성되는 신조어 및 이모티콘에 대한 지속적인 업데이트가 이루어지지 않으므로 오피니언 마이닝 기술의 예측 정확도가 감소되는 문제가 발생한다.However, since new words and emoticons are not continuously updated, the prediction accuracy of opinion mining technology is reduced.

대한민국 등록특허 제10-2019756호(공고일자: 2019년 09월 10일, 발명의 명칭: 신조어 자동 인식을 위한 언어 분석에 기반한 온라인 문맥 광고 지능화 장치 및 그 방법)Republic of Korea Patent Registration No. 10-2019756 (Publication date: September 10, 2019, title of invention: online contextual advertisement intelligent device and method based on language analysis for automatic recognition of new words) 대한민국 등록특허 제10-1120038호(공고일자: 2012년 03월 23일, 발명의 명칭: 신조어 선정 장치 및 그 방법)Republic of Korea Patent Registration No. 10-1120038 (Public date: March 23, 2012, title of invention: Newly coined word selection device and its method) 대한민국 등록특허 제10-1740274호(공고일자: 2017년 06월 08일, 발명의 명칭: 이모티콘 탐색 방법 및 단말)Republic of Korea Patent Registration No. 10-1740274 (Public date: June 8, 2017, title of invention: emoticon search method and terminal)

본 발명이 해결하려는 과제는 신조어와 신조어의 자동으로 추출하여, 신조어와 이모티콘의 업데이트가 행해지는 신조어 및 이모티콘 사전을 자동으로 구축하기 위한 것이다.An object to be solved by the present invention is to automatically extract new words and newly coined words and automatically build a dictionary of new words and emoticons in which new words and emoticons are updated.

상기 과제를 해결하기 위한 본 발명의 한 특징에 따른 신조어 및 이모티콘 감성사전 구축 장치는 감성사전 구축 유닛, 및 상기 감성사전 구축 유닛에 연결되어 있고, 수집된 작업용 소셜 데이터가 저장되어 있는 소셜 데이터 데이터베이스를 구비하는 데이터베이스부를 포함하고, 상기 감성사전 구축 유닛은 상기 작업용 소셜 데이터를 문장 단위로 분할하여 분할 문장을 생성하고, 상기 분할 문장에서 신조어와 이모티콘을 추출하고, 추출된 신조어와 이모티콘 중 적어도 하나가 결정 신조어나 결정 이모티콘과 동일하면, 추출된 신조어 및 이모티콘 중에서 상기 결정 신조어나 상기 결정 이모티콘과 동일한 신조어나 이모티콘을 제외한 다른 신조어나 다른 이모티콘을 종속 신조어나 종속 이모티콘으로 정하고 상기 분할 문장을 감성 문장으로 추출하며, 상기 감성 문장에 존재하는 상기 결정 신조어 및 상기 결정 이모티콘의 총 개수와 상기 결정 신조어 및 상기 결정 이모티콘의 극성을 이용하여 상기 감성 문장의 극성 강도를 산출하고, 상기 종속 신조어와 종속 이모티콘 및 상기 극성 강도를 상기 데이터베이스부에 저장하여 신조어 및 이모티콘 데이터베이스를 구축한다. New coined word and emoticon sentiment dictionary building device according to one feature of the present invention for solving the above problems comprises an emotional dictionary building unit and a social data database connected to the emotional dictionary building unit and storing the collected social data for work. and a database unit comprising a database unit, wherein the sentiment dictionary building unit divides the social data for work into sentence units to generate divided sentences, extracts new words and emoticons from the divided sentences, and determines at least one of the extracted new words and emoticons. If it is the same as the newly coined word or decision emoticon, the new coined word or other emoticon other than the newly coined word or emoticon identical to the newly coined word or emoticon among the extracted new words and emoticons is set as a subordinate new word or emoticon, and the divided sentence is extracted as a sentiment sentence, , polarity strength of the emotional sentence is calculated using the total number of the determined neologism and the determined emoticon existing in the emotional sentence and the polarity of the determined neologism and the determined emoticon, and the dependent neologism, the dependent emoticon and the polarity strength is stored in the database unit to build a database of newly coined words and emoticons.

상기 특징에 따른 신조어 및 이모티콘 감성사전 구축 장치는 상기 감성사전 구축 유닛에 연결되어 있고, 결정 신조어와 결정 이모티콘을 저장하고 있는 결정 신조어 및 이모티콘 데이터베이스를 더 포함할 수 있고, 상기 감성사전 구축 유닛은 추출된 신조어나 추출된 이모티콘을 결정 신조어 및 이모티콘 데이터베이스에 저장되어 있는 결정 신조어나 결정 이모티콘과 각각 비교하여, 추출된 신조어와 추출된 이모티콘 중 적어도 하나가 상기 결정 신조어 및 이모티콘 데이터베이스에 저장되어 있는 결정 신조어와 결정 이모티콘 중 적어도 하나와 동일하면, 해당 추출된 신조어나 해당 이모티콘을 결정 신조어나 결정 이모티콘으로 정할 수 있다.The apparatus for building a new coined word and emoticon sentiment dictionary according to the above features may further include a new coined word and emoticon database connected to the emotional dictionary building unit and storing a new coined word and a determined emoticon, the emotional dictionary building unit extracting and extracting new words and emoticons. The newly coined word or extracted emoticon is compared with the new coined word or emoticon stored in the new coined word and emoticon database, respectively, and at least one of the extracted new word and the extracted emoticon is compared with the new coined word and the new word stored in the emoticon database. If it is the same as at least one of the decision emoticons, the extracted new word or the corresponding emoticon may be determined as the new word or decision emoticon.

상기 감성사전 구축 유닛은 상기 종속 신조어와 상기 종속 이모티콘 및 상기 극성 강도를 상기 데이터베이스부에 저장하여 종속 신조어 및 이모티콘 데이터베이스를 구축할 수 있다.The sentiment dictionary construction unit may construct a database of dependent neologisms and emoticons by storing the dependent neologisms, the dependent emoticons, and the polarity strength in the database unit.

상기 감성사전 구축 유닛은 상기 종속 신조어 및 이모티콘 데이터베이스에 저장되어 있는 상기 종속 신조어 및 이와 동일한 이름의 종속 신조어의 감성 강도의 절대값에 대한 평균값을 산출하고, 종속 신조어의 상기 평균값이 설정 강도 이상이면 상기 종속 신조어를 결정 신조어로 정하여 상기 결정 신조어 및 이모티콘 데이터베이스에 저장할 수 있고, 상기 종속 신조어 및 이모티콘 데이터베이스에 저장되어 있는 상기 종속 이모티콘 및 이와 동일한 이름의 종속 이모티콘의 감성 강도의 절대값에 대한 평균값을 산출하고, 종속 이모티콘의 상기 평균값이 상기 설정 강도 이상이면 상기 종속 이모티콘을 결정 이모티콘으로 정하여 상기 결정 신조어 및 이모티콘 데이터베이스에 저장할 수 있다.The sentiment dictionary construction unit calculates an average value of absolute values of sentiment intensities of the dependent neologisms and the dependent neologisms having the same name stored in the dependent neologism and emoticon database, and if the average value of the dependent neologisms is greater than or equal to a set intensity, The dependent neologism may be determined as a determined neologism and stored in the determined neologism and emoticon database, and the average value of the absolute value of the emotional intensity of the dependent emoticon stored in the dependent neologism and emoticon database and the dependent emoticon with the same name is calculated, , If the average value of dependent emoticons is greater than or equal to the set strength, the dependent emoticon may be determined as a decision emoticon and stored in the database of decision neologisms and emoticons.

상기 감성사전 구축 유닛은, 상기 종속 신조어와 상기 이모티콘의 감성 강도의 절대값에 대한 평균값을 산출하기 전에, 상기 종속 신조어 및 이모티콘 데이터베이스에 동일한 이름의 종속 신조어나 종속 이모티콘의 총 개수가 설정 개수를 초과하면, 가장 이전에 저장된 동일한 이름의 종속 신조어나 종속 이모티콘의 정보를 삭제할 수 있다.The emotion dictionary construction unit, before calculating an average value of absolute values of emotional intensities of the dependent neologism and the emoticon, the total number of dependent neologisms or dependent emoticons with the same name in the dependent neologism and emoticon database exceeds the set number In this case, the information of the most previously stored subordinate neologism or subordinate emoticon of the same name can be deleted.

상기 특징에 따른 신조어 및 이모티콘 감성사전 구축 장치는 상기 감성사전 구축 유닛에 연결되어 있는 사용자 입력부 및 출력부를 더 포함할 수 있고, 상기 감성사전 구축 유닛은 종속 신조어의 상기 평균값이나 종속 이모티콘의 상기 평균값이 상기 설정 강도 이상이며, 상기 설정 강도 이상의 평균값을 갖는 종속 신조어나 종속 이모티콘을 결정 신조어 후보나 결정 이모티콘 후보로서 상기 출력부로 출력할 수 있고, 상기 사용자 입력부로부터 허락 신호가 입력되면, 상기 설정 강도 이상의 평균값을 갖는 종속 신조어나 종속 이모티콘을 결정 신조어나 결정 이모티콘으로서 상기 결정 신조어 및 이모티콘 데이터베이스에 저장할 수 있다. The device for building a sentiment dictionary for new words and emoticons according to the above features may further include a user input unit and an output unit connected to the sentiment dictionary building unit, wherein the sentiment dictionary building unit determines that the average value of the dependent neologisms or the average value of the dependent emoticons is Dependent neologisms or emoticons having an average value equal to or greater than the set strength and having an average value equal to or greater than the set strength may be output to the output unit as a new coined word candidate or a determined emoticon candidate, and when a permission signal is input from the user input unit, the average value equal to or greater than the set strength Dependent neologisms or emoticons having may be stored in the database of decision neologisms and emoticons as decision neologisms or decision emoticons.

상기 특징에 따른 신조어 및 이모티콘 감성사전 구축 장치에서, 상기 감성 문장에 존재하는 상기 결정 신조어 및 상기 결정 이모티콘의 극성은 동일할 수 있다. In the apparatus for constructing a new word and emoticon sentiment dictionary according to the above feature, polarities of the newly coined word and the determined emoticon present in the emotional sentence may be the same.

상기 극성은 긍정 또는 부정일 수 있다.The polarity may be positive or negative.

본 발명의 다른 특징을 갖는 신조어 및 이모티콘 감성사전 구축 방법은 감성사전 구축 유닛은 소셜 데이터 데이터베이스에 저장되어 있는 작업용 소셜 데이터를 문장 단위로 분할하여 분할 문장을 생성하는 단계, 상기 감성사전 구축 유닛은 상기 분할 문장에서 신조어와 이모티콘을 추출하는 단계, 상기 감성사전 구축 유닛은 추출된 신조어와 추출된 이모티콘을 결정 신조어 및 이모티콘 데이터베이스에 저장되어 있는 결정 신조어와 결정 이모티콘과 각각 비교하는 단계, 상기 감성사전 구축 유닛은 추출된 신조어와 추출된 이모티콘 중 적어도 하나가 결정 신조어나 결정 이모티콘과 동일하면, 해당 분할 문장에서 추출된 신조어나 이모티콘 중에서 결정 신조어나 결정 이모티콘과 동일한 신조어나 이모티콘을 제외한 나머지 추출된 신조어나 이모티콘이 존재하는지 판단하는 단계, 상기 감성사전 구축 유닛은 해당 분할 문장에서 추출된 신조어나 이모티콘 중에서 결정 신조어나 결정 이모티콘과 동일한 신조어나 이모티콘을 제외한 다른 신조어나 이모티콘이 존재하면, 다른 신조어나 이모티콘을 종속 신조어나 종속 이모티콘으로 정하고 상기 분할 문장을 감성 문장으로 추출하는 단계, 상기 감성사전 구축 유닛은 상기 감성 문장에 존재하는 상기 결정 신조어 및 상기 결정 이모티콘의 총 개수와 상기 결정 신조어 및 상기 결정 이모티콘의 극성을 이용하여 상기 감성 문장의 극성 강도를 산출하는 단계, 및 상기 감성사전 구축 유닛은 상기 종속 신조어와 종속 이모티콘 및 상기 극성 강도를 저장하여 신조어 및 이모티콘 데이터베이스를 구축하는 단계를 포함한다. A new coined word and emoticon sentiment dictionary construction method having another feature of the present invention includes the steps of a sentiment dictionary construction unit generating divided sentences by dividing social data for work stored in a social data database into sentence units, wherein the sentiment dictionary construction unit comprises the steps of: extracting newly coined words and emoticons from the divided sentences, the emotional dictionary building unit comparing the extracted new words and extracted emoticons with the new coined words and emoticons stored in the new coined word and emoticon database, respectively, the emotional dictionary building unit If at least one of the extracted new word and the extracted emoticon is the same as the new coined word or emoticon, the newly coined word or emoticon extracted from the new coined word or emoticon extracted from the divided sentence is the same as the new coined word or emoticon extracted from the new word or emoticon. Determining whether there is a new coined word or emoticon other than the new coined word or emoticon identical to the new coined word or emoticon among the new coined words or emoticons extracted from the divided sentence, the emotional dictionary construction unit converts the other coined word or emoticon into a subordinate new word or emoticon determining a dependent emoticon and extracting the divided sentence as a sentiment sentence, the sentiment dictionary building unit using the total number of the determined neologism and the determined emoticon present in the emotional sentence and the polarity of the determined neologism and the determined emoticon Calculating the polarity strength of the emotional sentence, and the emotional dictionary building unit constructing a new coined word and emoticon database by storing the dependent neologism, the dependent emoticon, and the polarity strength.

상기 특징에 따른 신조어 및 이모티콘 감성사전 구축 방법은 상기 감성사전 구축 유닛이 상기 종속 신조어와 상기 종속 이모티콘 및 상기 극성 강도를 종속 신조어 및 이모티콘 데이터베이스에 저장하는 단계를 더 포함할 수 있다. The method for building a new coined word and emoticon sentiment dictionary according to the feature may further include, by the sentiment dictionary building unit, storing the dependent new word, the dependent emoticon, and the polarity intensity in a dependent new word and emoticon database.

상기 특징에 따른 신조어 및 이모티콘 감성사전 구축 방법은 상기 감성사전 구축 유닛이 상기 종속 신조어 및 이모티콘 데이터베이스에 저장되어 있는 상기 종속 신조어 및 이와 동일한 이름의 종속 신조어의 감성 강도의 절대값에 대한 평균값을 산출하는 단계, 상기 감성사전 구축 유닛은 종속 신조어의 상기 평균값이 설정 강도 이상 이상인지 판단하는 단계, 상기 감성사전 구축 유닛은 종속 신조어의 상기 평균값이 상기 설정 강도 이상 이상이면, 상기 종속 신조어를 결정 신조어로 정하여 상기 결정 신조어 및 이모티콘 데이터베이스에 저장하는 단계, 상기 감성사전 구축 유닛은 상기 종속 신조어 및 이모티콘 데이터베이스에 저장되어 있는 상기 종속 이모티콘 및 이와 동일한 이름의 종속 이모티콘의 감성 강도의 절대값에 대한 평균값을 산출하는 단계, 상기 감성사전 구축 유닛은 종속 이모티콘의 상기 평균값이 상기 설정 강도 이상 이상인지 판단하는 단계, 및 상기 감성사전 구축 유닛은 종속 이모티콘의 상기 평균값이 상기 설정 강도 이상 이상이면, 상기 종속 이모티콘을 결정 이모티콘으로 정하여 상기 결정 신조어 및 이모티콘 데이터베이스에 저장하는 단계를 더 포함할 수 있다. In the new coined word and emoticon sentiment dictionary construction method according to the above feature, the sentiment dictionary building unit calculates an average value of the absolute value of the emotional intensity of the dependent new coined word and the dependent new coined word having the same name stored in the dependent new coined word and emoticon database Step, the sentiment dictionary construction unit determines whether the average value of the dependent neologisms is greater than or equal to a set strength; if the average value of the dependent neologisms is greater than or equal to the set strength, the emotional dictionary construction unit sets the dependent neologisms as the determined neologisms storing in the determined neologism and emoticon database; calculating, by the emotion dictionary construction unit, an average value of absolute values of emotional intensities of the dependent emoticons and dependent emoticons having the same name stored in the dependent neologism and emoticon database; determining, by the emotion dictionary building unit, whether the average value of the dependent emoticons is greater than or equal to the set strength, and if the average value of the dependent emoticons is greater than or equal to the set strength, the emotion dictionary building unit determines the dependent emoticon as a determined emoticon. The method may further include determining and storing the determined neologism and emoticon database.

상기 특징에 따른 신조어 및 이모티콘 감성사전 구축 방법은 상기 감성사전 구축 유닛이 상기 종속 신조어와 상기 이모티콘의 감성 강도의 절대값에 대한 평균값을 산출하기 전에, 상기 종속 신조어 및 이모티콘 데이터베이스에 동일한 이름의 종속 신조어나 종속 이모티콘의 총 개수가 설정 개수를 초과하는 지 판단하는 단계, 및 상기 감성사전 구축 유닛은 상기 종속 신조어 및 이모티콘 데이터베이스에 동일한 이름의 종속 신조어나 종속 이모티콘의 총 개수가 설정 개수를 초과하면, 가장 이전에 저장된 동일한 이름의 종속 신조어나 종속 이모티콘의 정보를 삭제하는 단계를 더 포함할 수 있다. In the new coined word and emoticon sentiment dictionary construction method according to the above feature, before the emotional dictionary building unit calculates the average value of the absolute values of the emotional strengths of the dependent new word and the emoticon, the dependent new word and the dependent new word of the same name are stored in the emoticon database. B. Determining whether the total number of dependent emoticons exceeds the set number, and the sentiment dictionary building unit determines if the total number of dependent new words or emoticons with the same name in the dependent new word and emoticon database exceeds the set number, the most A step of deleting previously stored subordinate neologisms or subordinate emoticon information of the same name may be further included.

상기 특징에 따른 신조어 및 이모티콘 감성사전 구축 방법은 상기 감성사전 구축 유닛이 종속 신조어의 상기 평균값이나 종속 이모티콘의 상기 평균값이 상기 설정 강도 이상이며, 상기 설정 강도 이상의 평균값을 갖는 종속 신조어나 종속 이모티콘을 결정 신조어 후보나 결정 이모티콘 후보로서 출력부로 출력하는 단계, 및 상기 감성사전 구축 유닛은 사용자 입력부로부터 허락 신호가 입력되면, 상기 설정 강도 이상의 평균값을 갖는 종속 신조어나 종속 이모티콘을 결정 신조어나 결정 이모티콘으로서 상기 결정 신조어 및 이모티콘 데이터베이스에 저장하는 단계를 더 포함할 수 있다. In the method for building a sentiment dictionary of new words and emoticons according to the above features, the sentiment dictionary building unit determines that the average value of the dependent neologisms or the average value of the dependent emoticons is greater than or equal to the set strength, and the dependent new words or emoticons having the average value equal to or greater than the set strength outputting to an output unit as a neologism candidate or a determined emoticon candidate, and when a permission signal is input from a user input unit, the emotional dictionary building unit determines a dependent neologism or dependent emoticon having an average value equal to or greater than the set strength as a neologism or determined emoticon; A step of storing in a new word and emoticon database may be further included.

상기 특징에 따른 신조어 및 이모티콘 감성사전 구축 방법은 상기 감성사전 구축 유닛이 추출된 신조어와 추출된 이모티콘 중 적어도 하나가 결정 신조어나 결정 이모티콘과 동일하면, 결정 신조어나 결정 이모티콘과 동일한 추출된 신조어나 추출된 이모티콘의 모든 극성이 동일한 지 판단하는 단계를 더 포함할 수 있고, 상기 감성사전 구축 유닛은 결정 신조어나 결정 이모티콘과 동일한 추출된 신조어나 추출된 이모티콘의 모든 극성이 동일하면, 해당 분할 문장에서 추출된 신조어나 이모티콘 중에서 결정 신조어나 결정 이모티콘과 동일한 신조어나 이모티콘을 제외한 나머지 추출된 신조어나 이모티콘이 존재하는지 판단하는 포함할 수 있다.In the new coined word and emoticon sentiment dictionary construction method according to the above feature, if at least one of the newly coined word and the extracted emoticon extracted by the emotional dictionary building unit is the same as the new coined word or emoticon, the newly coined word or extracted identical to the new coined word or emoticon is extracted. The method may further include determining whether all polarities of the extracted emoticon are the same, and the emotional dictionary building unit extracts from the corresponding divided sentence if all polarities of the extracted new word or extracted emoticon are the same as the decision neologism or the decision emoticon. Among the newly coined words or emoticons, it may include determining whether there are any extracted new words or emoticons other than the newly coined words or emoticons identical to the decision new words or emoticons.

상기 극성은 긍정 또는 부정일 수 있다. The polarity may be positive or negative.

이러한 특징에 따르면, 소셜 네트워크 상에서 신조어와 이모티콘을 추출하여 감성 강도를 산출해 신조어 및 이모티콘 감성사전 데이터베이스를 구축하며, 자동으로 신조어 및 이모티콘 감성사전의 구축이 신속하고 정확하게 이루어지고, 신속한 업데이트가 이루어질 수 있다.According to these features, new words and emoticons are extracted from social networks to calculate emotional intensity to build a new word and emoticon sentiment dictionary database, and the new words and emoticon sentiment dictionaries are automatically built quickly and accurately, and prompt updates can be made. there is.

이에 따라, 새로운 신조어나 이모티콘이 생성될 때마다 업그레이드되는 감성 사전을 이용하는 소셜 데이터에 대한 감성 분석이나 오피니언 마이닝 기술의 정확도가 향상될 수 있다. Accordingly, the accuracy of sentiment analysis or opinion mining technology for social data using a sentiment dictionary that is upgraded whenever a new coined word or emoticon is generated can be improved.

도 1은 본 발명의 일 실시예에 따른 신조어 및 이모티콘 감성사전 구축 시스템의 개략적인 블록도이다.
도 2는 본 발명의 일 실시예에 따른 신조어 및 이모티콘 감성사전 구축장치의 개략적인 블록도이다.
도 3은 본 발명의 일 실시예에 따른 신조어 및 이모티콘 감성사전 구축장치의 동작 순서도이다.
도 4a 및 도 4b는 도 4의 신조어 및 이모티콘 감성사전 데이터베이스의 업데이트 제어 루틴에 대한 구체적인 동작 순서도이다.
도 5는 이미지형 이모티콘의 형상과 그에 대한 HTML 태그를 도시한 도면이다.
1 is a schematic block diagram of a system for building a new word and emoticon sentiment dictionary according to an embodiment of the present invention.
2 is a schematic block diagram of an apparatus for constructing a new word and emoticon emotion dictionary according to an embodiment of the present invention.
3 is an operation flowchart of an apparatus for constructing a new word and emoticon emotion dictionary according to an embodiment of the present invention.
4A and 4B are detailed operational flowcharts of an update control routine of the newly coined word and emoticon emotion dictionary database of FIG. 4 .
5 is a diagram illustrating the shape of an image-type emoticon and an HTML tag for it.

이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명한다. 본 발명을 설명하는데 있어서, 해당 분야에 이미 공지된 기술 또는 구성에 대한 구체적인 설명을 부가하는 것이 본 발명의 요지를 불분명하게 할 수 있다고 판단되는 경우에는 상세한 설명에서 이를 일부 생략하도록 한다. 또한, 본 명세서에서 사용되는 용어들은 본 발명의 실시예들을 적절히 표현하기 위해 사용된 용어들로서, 이는 해당 분야의 관련된 사람 또는 관례 등에 따라 달라질 수 있다. 따라서, 본 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. In describing the present invention, if it is determined that adding a detailed description of a technology or configuration already known in the related field may obscure the gist of the present invention, some of them will be omitted from the detailed description. In addition, the terms used in this specification are terms used to properly express the embodiments of the present invention, which may vary depending on people or customs related to the field. Therefore, definitions of these terms will have to be made based on the content throughout this specification.

여기서 사용되는 전문용어는 단지 특정 실시예를 언급하기 위한 것이며, 본 발명을 한정하는 것을 의도하지 않는다. 여기서 사용되는 단수 형태들은 문구들이 이와 명백히 반대의 의미를 나타내지 않는 한 복수 형태들도 포함한다. 명세서에서 사용되는 '포함하는'의 의미는 특정 특성, 영역, 정수, 단계, 동작, 요소 및/또는 성분을 구체화하며, 다른 특정 특성, 영역, 정수, 단계, 동작, 요소, 성분 및/또는 군의 존재나 부가를 제외시키는 것은 아니다.The terminology used herein is intended only to refer to specific embodiments and is not intended to limit the present invention. As used herein, the singular forms also include the plural forms unless the phrases clearly indicate the opposite. As used herein, the meaning of 'comprising' specifies specific characteristics, regions, integers, steps, operations, elements and/or components, and other specific characteristics, regions, integers, steps, operations, elements, components and/or groups. does not exclude the presence or addition of

이하, 첨부된 도면을 참조하여 본 발명의 일 실시예에 따른 신조어 및 이모티콘 감성사전 구축장치 및 방법에 대해서 설명하도록 한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, an apparatus and method for constructing a new word and emoticon emotion dictionary according to an embodiment of the present invention will be described with reference to the accompanying drawings.

먼저, 도 1을 참고하여, 본 예에 따른 신조어 및 이모티콘 감성사전 구축장치(10)(이하, 신조어 및 이모티콘 감성사전 구축장치는 '감성사전 구축 장치'라 칭함)를 구비하는 감성사전 구축 시스템(100)에 대해 설명한다.First, with reference to FIG. 1, an emotional dictionary construction system having a new coined word and emoticon emotional dictionary building device 10 (hereinafter, a new word and emoticon emotional dictionary building device is referred to as an 'emotion dictionary building device') according to the present example ( 100) is described.

도 1에 도시한 것처럼, 본 예의 감성사전 구축 시스템(100)은 감성사전 구축장치(10), 인터넷과 같은 유선 통신망이나 무선 통신망을 통해 감성사전 구축 장치(10)와 연결되어 있는 적어도 하나의 소셜 네트워크 서버(20) 및 데이터베이스부(30)를 구비할 수 있다.As shown in FIG. 1, the emotional dictionary building system 100 of this example includes the emotional dictionary building device 10 and at least one social device connected to the emotional dictionary building device 10 through a wired or wireless communication network such as the Internet. A network server 20 and a database unit 30 may be provided.

본 예의 감성사전 구축장치(10)는 데이터베이스부(30)에 저장되어 있는 정보를 이용하여 검색된 소셜 데이터를 문장 단위로 분할할 후, 분할된 문장(즉, 분할 문장) 각각에서 신조어 및 이모티콘 중 적어도 하나를 추출할 수 있다.After dividing the searched social data into sentences by using the information stored in the database unit 30, the emotional dictionary building device 10 of the present example divides at least one of the neologisms and emoticons in each of the divided sentences (ie, the divided sentences). one can be extracted.

감성사전 구축장치(10)는 추출된 신조어와 이모티콘 중 적어도 하나가 결정 신조어나 결정 이모티콘과 동일하면, 추출된 신조어 및 이모티콘 중에서 결정 신조어나 상기 결정 이모티콘과 동일한 신조어나 이모티콘을 제외한 다른 신조어나 다른 이모티콘을 종속 신조어나 종속 이모티콘으로 정하고 분할 문장을 감성 문장으로 추출할 수 있다.If at least one of the extracted new words and emoticons is the same as the new coined word or emoticon, the emotional dictionary building device 10 excluding the newly coined word or emoticon identical to the newly coined word or emoticon among the extracted new coined words or emoticons, or another new word or other emoticon can be determined as a dependent neologism or dependent emoticon, and the segmented sentence can be extracted as an emotional sentence.

다음, 감성사전 구축 장치(10)는 감성 문장에 존재하는 결정 신조어 및 상기 결정 이모티콘의 총 개수와 상기 결정 신조어 및 상기 결정 이모티콘의 극성을 이용하여 상기 감성 문장의 극성 강도를 산출하고, 종속 신조어와 종속 이모티콘 및 상기 극성 강도를 데이터베이스부에 저장할 수 있다. Next, the emotional dictionary building device 10 calculates the polar strength of the emotional sentence using the total number of decision neologisms and the determined emoticons present in the emotional sentence and the polarity of the decision neologism and the determined emoticon, and calculates the intensity of the polarity of the emotional sentence, Dependent emoticons and the polarity intensity may be stored in the database unit.

이때, 감성사전 구축 장치(10)는 추출된 신조어나 추출된 이모티콘을 데이터베이스부(30)에 저장되어 있는 결정 신조어나 결정 이모티콘과 각각 비교하고, 추출된 신조어와 추출된 이모티콘 중 적어도 하나가 데이터베이스부(30)에 저장되어 있는 결정 신조어와 결정 이모티콘 중 적어도 하나와 동일하면, 해당 추출된 신조어나 해당 이모티콘을 결정 신조어나 결정 이모티콘으로 정할 수 있다.At this time, the emotional dictionary building device 10 compares the extracted neologisms or extracted emoticons with the determined neologisms or the extracted emoticons stored in the database unit 30, respectively, and at least one of the extracted neologisms and extracted emoticons is found in the database unit. If it is the same as at least one of the decision coined word and the decision emoticon stored in (30), the extracted coined word or corresponding emoticon may be determined as the decision coined word or decision emoticon.

또한, 감성사전 구축 장치(10)는 데이터베이스부(30)에 저장되어 있는 종속 신조어나 종속 이모티콘 및 이와 동일한 이름의 종속 신조어나 종속 이모티콘의 감성 강도의 절대값에 대한 평균값을 산출하고, 종속 신조어나 종속 이모티콘의 평균값이 설정 강도 이상이면 해당 종속 신조어나 종속 이모티콘을 결정 신조어나 결정 이모티콘으로 정할 수 있다.In addition, the emotional dictionary building device 10 calculates an average value of the absolute values of emotional strengths of the dependent neologisms or dependent emoticons stored in the database unit 30 and the dependent neologisms or dependent emoticons having the same name, and If the average value of the dependent emoticon is equal to or greater than the set strength, the corresponding dependent neologism or dependent emoticon may be determined as a decision neologism or a decision emoticon.

이러한 본 예의 감성사전 구축장치(10)는 다음에 상세히 설명한다.The emotion dictionary building device 10 of this example will be described in detail next.

소셜 네트워크 서버(20)는 페이스북(facebook)이나 트위터(Twitter) 등과 같이 소셜 네트워크 서비스를 제공하는 업체에서 구축한 서버일 수 있다. The social network server 20 may be a server built by a company providing social network services such as Facebook or Twitter.

따라서, 이러한 소셜 네트워크 서버(20)에는 해당 업체에서 제공되는 소셜 네트워크 서비스를 이용하는 사용자(즉, 회원 및 팔로워)에 대한 소셜 데이터가 저장되어 있을 수 있다. 여기서, 소셜 데이터는 사용자 정보(예, 사용자 식별정보), 사용자의 게시글, 해시태그(hashtag), 소셜 데이터의 종류 및 소셜 데이터가 저장되어 있는 위치 정보[예, URL(uniform resource locator)] 등을 구비할 수 있다. 여기서, 게시글은 회원이 작성한 글뿐만 아니라 팔로워의 댓글도 포함될 수 있다. Accordingly, the social network server 20 may store social data for users (ie, members and followers) using the social network service provided by the company. Here, social data includes user information (eg, user identification information), user posts, hashtags, types of social data, and location information where social data is stored (eg, uniform resource locator (URL)), etc. can be provided Here, posts may include not only posts written by members but also comments from followers.

소셜 데이터의 종류는 해당 소셜 데이터가 속해 있는 소셜 네트워크 서비스의 종류를 나타낼 수 있고, 예를 들어, 트위터(Twitter)나 네이버 블로그(Blog)일 수 있다.The type of social data may indicate the type of social network service to which the corresponding social data belongs, and may be, for example, Twitter or Naver Blog.

이러한 소셜 네트워크 서버(20)는 동작을 제어하는 제어부, 다른 장치와의 통신을 위한 통신부, 소셜 데이터를 저장하는 저장 매체를 구비할 수 있다. 이때, 저장 매체는 데이터베이스(database, DB), 메모리 등과 같이 데이터의 저장이 이루어지는 저장소일 수 있다.The social network server 20 may include a control unit for controlling operation, a communication unit for communication with other devices, and a storage medium for storing social data. In this case, the storage medium may be a storage in which data is stored, such as a database (DB) or a memory.

본 예의 감성사전 구축장치(10)는 네트워크를 통해 이러한 소셜 네트워크 서버(20)와 연결되어 있으므로, 소셜 네트워크 서버(20)로부터 원하는 내용의 소셜 데이터를 획득하여, 획득된 소셜 데이터에 대한 감성을 분석할 수 있다. Since the emotion dictionary building device 10 of this example is connected to the social network server 20 through a network, it obtains social data of desired content from the social network server 20 and analyzes the emotion for the obtained social data. can do.

데이터베이스부(30)는 감성사전 구축장치(10)와 유선 또는 무선으로 연결되어 감성사전 구축장치(10)와 통신할 수 있고, 신조어 및 이모티콘 감성사전 데이터베이스(31), 소셜 데이터 데이터베이스(32), 형태소 사전 데이터베이스(33), 결정 신조어 및 이모티콘 데이터베이스(34) 및 결정 신조어 및 이모티콘 데이터베이스(35)를 구비할 수 있다.The database unit 30 is connected to the emotional dictionary building device 10 by wire or wireless and can communicate with the emotional dictionary building device 10, and includes a new word and emoticon emotion dictionary database 31, a social data database 32, A morpheme dictionary database 33 , a coin word and emoticon database 34 and a database 35 of words and emoticons may be provided.

신조어 및 이모티콘 감성사전 데이터베이스(31)는 신조어와 이모티콘, 각 신조어와 각 이모티콘에 대한 극성 강도가 각각 저장되는 항목을 구비할 수 있다.The newly coined word and emoticon emotion dictionary database 31 may include items for storing newly coined words and emoticons, and polarity intensities for each new word and each emoticon.

신조어는 비표준어로서, 기존에 있던 단어나 문장을 축약한 축약어나 새롭게 생성된 단어이거나 적어도 하나의 자음인 모음으로 이루어진 글자일 수 있다. A newly coined word is a non-standard word, and may be an abbreviation of an existing word or sentence, a newly created word, or a letter composed of at least one consonant vowel.

이모티콘은 감정을 표시하는 기호로서, 아스키 문자(예,

Figure 112021013705597-pat00001
), 이미지(예,
Figure 112021013705597-pat00002
) 또는 4바이트 유니코드 문자(예,
Figure 112021013705597-pat00003
) 등으로 이루어질 수 있다.An emoticon is a symbol that expresses an emotion, and is an ASCII character (e.g.,
Figure 112021013705597-pat00001
), images (eg,
Figure 112021013705597-pat00002
) or a 4-byte Unicode character (e.g.
Figure 112021013705597-pat00003
) and the like.

극성 강도는 신조어나 이모티콘의 이미지(즉, 감성)를 나타내는 극성과 극성의 강도(즉, 극성의 정도)를 모두 나타낼 수 있다.The polarity intensity may represent both the polarity representing the image (ie, emotion) of the coined word or emoticon and the intensity of the polarity (ie, the degree of polarity).

이때, 극성은 신조어나 이모티콘의 이미지(즉, 감성)를 나타내는 것으로서, '긍정', '부정' 및 '혼합'으로 나눠질 수 있다. 여기서, 혼합은 긍정의 의미와 부정의 의미를 모두 갖고 있음을 의미할 수 있다. At this time, the polarity represents a coined word or an image (ie, emotion) of an emoticon, and may be divided into 'positive', 'negative', and 'mixed'. Here, mixing may mean having both positive and negative meanings.

강도(intensity)는 극성의 강도, 즉 극성의 정도를 수치로 나타낸 것으로, 1 내지 5 사이의 값을 가질 수 있다.The intensity (intensity) indicates the intensity of polarity, that is, the degree of polarity as a numerical value, and may have a value between 1 and 5.

각 신조어와 각 이미지에 대한 극성과 강도는 사용되는 문장의 전체적인 의미에 따라 달라질 수 있다. 따라서, 극성 강도는 -5 내지 +5의 값을 가질 수 있고, '-'는 부정의 극성을 나타내고, '+'는 긍정의 극성을 나타낼 수 있다. 다음, [표 1]에 신조어 및 이모티콘 감성사전 데이터베이스(31)의 한 예를 도시한다. The polarity and intensity of each neologism and each image may vary depending on the overall meaning of the sentence in which it is used. Accordingly, the polar strength may have a value of -5 to +5, '-' may indicate negative polarity, and '+' may indicate positive polarity. Next, [Table 1] shows an example of a new word and emoticon sentiment dictionary database 31.

[표 1]에서, 신조어 및 이모티콘 감성사전 데이터베이스(31)는 '순번(No)', '사전' 및 '극성 강도'의 속성으로 나눠질 수 있다.In [Table 1], the new word and emoticon sentiment dictionary database 31 can be divided into attributes of 'order (No)', 'dictionary' and 'polarity strength'.

NoNo 신조어 및 이모티콘 Neologisms and Emoticons 극성 강도polar strength 1One 현타string hit -3-3 22 ㅆㅂ👅 -5-5 33 =--;=--; -3-3 44

Figure 112021013705597-pat00004
Figure 112021013705597-pat00004
55 55 입덕Ipdeok 3.43.4 66
Figure 112021013705597-pat00005
Figure 112021013705597-pat00005
55
77
Figure 112021013705597-pat00006
Figure 112021013705597-pat00006
55

소셜 데이터 데이터베이스(32)는 감성사전 구축 장치(10)의 동작에 따라 무작위로, 또는 정해진 조건에 따라 수집된 소셜 데이터를 저장하고 있는 데이터베이스일 수 있다.The social data database 32 may be a database storing social data collected randomly according to the operation of the emotional dictionary building device 10 or according to predetermined conditions.

이때, 소셜 데이터 데이터베이스(32)에 저장되어 있는 소셜 데이터는 소셜 네트워크 서버(20)에서 수집된 소셜 데이터(예, 원시 소셜 데이터)가 전처리되어 불필요한 정보가 삭제된 소셜 데이터(예, 작업용 소셜 데이터)일 수 있다.At this time, the social data stored in the social data database 32 is social data (eg, social data for work) in which unnecessary information is deleted by pre-processing social data (eg, raw social data) collected from the social network server 20. can be

원시 소셜 데이터는 소셜 네트워크 서버(20)에 저장되어 있는 형태와 동일할 수 있어, 사용자 정보, 사용자의 게시글, 해시태그, 소셜 데이터의 종류 및 소셜 데이터의 위치 정보(예, URL)를 구비할 수 있다.The raw social data may be the same as the form stored in the social network server 20, and may include user information, user posts, hashtags, types of social data, and location information (eg, URL) of social data. there is.

반면, 원시 소셜 데이터에서 불필요한 정보가 삭제된 작업용 소셜 데이터는 사용자의 게시글, 식별번호 및 등록 날짜만을 구비할 수 있다. On the other hand, social data for work in which unnecessary information is deleted from raw social data may include only the user's post, identification number, and registration date.

따라서, 소셜 데이터 데이터베이스(32)는 식별번호(ID), 콘텐츠(content) 및 날짜의 항목으로 구성될 수 있다.Accordingly, the social data database 32 may be composed of items of an identification number (ID), content, and date.

여기서, 식별번호의 항목에는 해당 소셜 데이터에 부여된 번호가 저장되는 부분일 수 있고, 콘텐츠의 항목에는 작업용 소셜 데이터가 저장되는 부분일 수 있으며, 날짜의 항목에는 작업용 소설 데이터가 해당 소셜 네트워크 서버(20)에 등록된 날짜일 수 있다.Here, the item of identification number may be a part where the number assigned to the corresponding social data is stored, the item of content may be a part where social data for work is stored, and the item of date may be a part where novel data for work is stored on the corresponding social network server ( 20) may be the date of registration.

하지만, 이외에도 소셜 데이터 데이터베이스(33)는 소셜 데이터의 종류와 같은 다른 항목이 추가될 수 있다. 여기서, 소셜 데이터의 종류는 소셜 데이터가 속해 있던 소셜 네트워크 서비스의 종류로서, 예를 들어, 트위터 및 블로그를 포함할 수 있다. However, other items such as the type of social data may be added to the social data database 33 in addition to this. Here, the type of social data is the type of social network service to which the social data belongs, and may include, for example, Twitter and blog.

이러한 소셜 데이터 데이터베이스(32)에 저장되어 있는 작업용 소셜 데이터의 한 예는 다음의 [표 2]과 같을 수 있다.An example of social data for work stored in the social data database 32 may be as shown in [Table 2] below.

IDID 콘텐츠contents 날짜date 971240486651482114971240486651482114 @instiz 아방탄4월컴백인데....ㅠㅠ@instiz Abangtan's comeback in April.... 2018-03-07 PM 1:31:472018-03-07 PM 1:31:47 971240579278540800971240579278540800 댓글은 뭐 진짜 가관이다...Comments are really cool... 2018-03-07 PM 1:32:092018-03-07 PM 1:32:09 971240579278475270971240579278475270 띠용한다 어 내가 상하이 스파이스 첨먹어본게 14년은 지나서였던거같은데...I think it's been 14 years since I first tasted Shanghai Spice... 2018-03-07 PM 1:32:092018-03-07 PM 1:32:09 971240672488456193971240672488456193 형님 노안.....이구나....(개측은)My older brother's presbyopia...that's right... 2018-03-07 PM 1:32:312018-03-07 PM 1:32:31 971240672362663937971240672362663937 형님 노안.....이구나....(개측은)My older brother's presbyopia...that's right... 2018-03-07 PM 1:32:312018-03-07 PM 1:32:31 971240672270471169971240672270471169 요사노 팔아주세요 으 흑..Please sell Yosano Uh huh.. 2018-03-07 PM 1:32:312018-03-07 PM 1:32:31

형태소 사전 데이터베이스(33)는 작업용 소셜 데이터에 대한 문장 분할을 위해 사용되는 형태소 분석을 위한 형태소 사전이 저장되어 있는 데이터베이스로서, 형태소 사전은 각 형태소에 대한 품사 및 활용 정보 등을 구비할 수 있다. The morpheme dictionary database 33 is a database in which morpheme dictionaries for morpheme analysis used for sentence segmentation of work social data are stored, and the morpheme dictionary may include parts of speech and utilization information for each morpheme.

결정 신조어 및 이모티콘 데이터베이스(34)는 형태소 분석을 통해 분할된 문장인 분할 문장이 감성 문장인지의 여부를 판단하기 위한 신조어와 이모티콘인 결정 신조어와 결정 이모티콘이 저장되어 있는 데이터베이스일 수 있다.The decision neologism and emoticon database 34 may be a database in which neologisms, emoticons, and decision emoticons are stored for determining whether a split sentence, which is a sentence divided through morpheme analysis, is an emotional sentence.

이때, 결정 신조어와 결정 이모티콘은 '긍정'이나 '부정'의 극성을 갖고 있고, 극성의 강도가 설정 강도(예, 4) 이상인 신조어와 이모티콘일 수 있다.In this case, the newly coined decision word and the decision emoticon may have a polarity of 'positive' or 'negative', and may be a newly coined word and emoticon having a polarity strength equal to or greater than a set strength (eg, 4).

종속 신조어 및 이모티콘 데이터베이스(35)는 감성 문장으로 추출된 분할 문장에 포함되어 있는 신조어나 이모티콘 중에서 결정 신조어나 결정 이모티콘이 아닌 신조어과 이모티콘인 종속 신조어와 종속 이모티콘이 저장되어 있을 수 있다.The dependent neologism and emoticon database 35 may store dependent neologisms and dependent emoticons, which are neologisms and emoticons that are not decision neologisms or decision emoticons, among neologisms or emoticons included in divided sentences extracted as emotional sentences.

본 예에서, 종속 신조어와 종속 이모티콘은 각각 '긍정'이나 '부정'의 극성을 갖고 있고, 극성의 강도는 설정 강도(예, 4)보다 작은 크기를 가질 수 있다. In this example, the dependent neologism and the dependent emoticon each have a polarity of 'positive' or 'negative', and the strength of the polarity may have a smaller size than the set strength (eg, 4).

이러한 종속 신조어 및 이모티콘 데이터베이스(35)에서, 같은 종속 신조어와 같은 이모티콘은 가장 최근에 저장된 것부터 순차적으로 설정 개수(예, 1000개)까지 저장되어 있을 수 있다. 서로 다른 시기에 데이터베이스(35)에 저장되어 있는 동일한 종속 신조어나 종속 이모티콘은 동일한 극성 강도를 갖고 있는 것도 있고, 서로 다른 극성 강도를 갖고 있는 것도 있을 수 있다.In the dependent neologism and emoticon database 35 , emoticons such as the same dependent neologisms may be stored up to a set number (eg, 1000) sequentially from the most recently stored one. The same subordinate neologisms or subordinate emoticons stored in the database 35 at different times may have the same polarity strength or different polarity strengths.

다음, 도 2를 참고로 하여, 소셜 네트워크 서버(20)에서 소셜 데이터를 추출하여 신조어 및 이모티콘 감성사전 데이터베이스(31)를 구축하는 감성사전 구축장치(10)의 한 예를 설명한다.Next, with reference to FIG. 2, an example of the emotion dictionary building device 10 that extracts social data from the social network server 20 and builds a new word and emoticon emotion dictionary database 31 will be described.

도 2에 도시한 것처럼, 본 예의 감성사전 구축장치(10)는 서버(server)일 수 있고, 사용자 입력부(11), 사용자 입력부(11)에 연결되는 감성사전 구축 유닛(13), 감성사전 구축 유닛(13)에 연결된 저장부(15), 감성사전 구축 유닛(13)에 연결된 출력부(17) 및 통신부(19)를 구비할 수 있다.As shown in FIG. 2, the emotion dictionary building device 10 of this example may be a server, and includes a user input unit 11, an emotional dictionary building unit 13 connected to the user input unit 11, and a sentiment dictionary building device. A storage unit 15 connected to the unit 13, an output unit 17 connected to the emotion dictionary construction unit 13, and a communication unit 19 may be provided.

이때, 도 2에 도시된 구성요소들(11-19)은 필수적인 것은 아니어서, 감성 분석 장치(10)는 이들 구성 요소(11-19) 이외의 다른 적어도 하나의 구성요소를 추가로 구비하거나 이들 중 일부를 생략할 수 있다.At this time, the components 11 to 19 shown in FIG. 2 are not essential, so the emotion analysis device 10 additionally includes at least one other component other than these components 11 to 19 or these components 11 to 19. Some of them may be omitted.

사용자 입력부(11)는 감성사전 구축 장치(10)의 동작 제어를 위한 명령이나 검색어 등에 관련된 신호를 발생시킬 수 있다.The user input unit 11 may generate a command for controlling the operation of the emotional dictionary building device 10 or a signal related to a search word.

따라서, 사용자는, 사용자 입력부(11)를 이용하여, 소셜 네트워크 서버(20)에서 원하는 내용의 게시글을 검색하기 위한 검색 조건을 입력할 수 있거나, 출력부(17)에 출력된 결정 신조어 후보나 결정 이모티콘 후보를 결정 신조어나 결정 이모티콘으로 최종적으로 저장하기 위한 허락 신호 등을 감성사전 구축 유닛(13)으로 입력할 수 있다. Accordingly, the user may input a search condition for searching the social network server 20 for postings with desired content using the user input unit 11, or a new word candidate or decision outputted to the output unit 17 may be used. A permission signal for finally storing the emoticon candidate as a decision coined word or a decision emoticon may be input to the emotion dictionary building unit 13 .

이러한 사용자 입력부(11)는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(touch pad), 조그 휠(jog wheel), 조그(jog) 스위치 또는 마우스(mouse) 등으로 구성될 수 있다.The user input unit 11 may include a key pad, a dome switch, a touch pad, a jog wheel, a jog switch, or a mouse. there is.

감성사전 구축유닛(13)은 감성사전 분석 장치(10)의 전반적인 동작을 제어하는 제어 유닛으로서, 프로세서(processor)일 수 있다.The emotion dictionary construction unit 13 is a control unit that controls overall operations of the emotion dictionary analysis device 10 and may be a processor.

이러한 감성사전 구축유닛(13)은 이미 기술한 것처럼, 사전 구축부(131)와 형태소 분석부(132)를 구비할 수 있다.As described above, the emotion dictionary construction unit 13 may include a dictionary construction unit 131 and a morpheme analysis unit 132.

사전 구축부(131)는 소설 네트워크 서버(20)로부터 소셜 데이터를 수집하고, 수집된 소셜 데이터에 대한 전처리 동작을 실시하여 수집된 소셜 데이터에 함유된 불필요한 정보(예, 사용자 정보, 위치 정보 및 해시태그)를 제거하여 작업용 소셜 데이터를 생성할 수 있다.The pre-construction unit 131 collects social data from the novel network server 20 and performs a pre-processing operation on the collected social data to provide unnecessary information (e.g., user information, location information, and hash) contained in the collected social data. tags) to create social data for your work.

또한, 사전 구축부(131)는 형태소 분석부(132)를 동작시켜 수집된 작업용 소셜 데이터에 대한 형태소 분석을 실시하여 분할 문장을 생성할 수 있도록 하고, 분할 문장에 포함되어 있는 신조어와 이모티콘을 추출하여 분할 문장 중에서 감성 문장을 추출할 수 있다.In addition, the dictionary construction unit 131 operates the morpheme analysis unit 132 to perform morpheme analysis on the collected social data for work so as to generate divided sentences, and extract new words and emoticons included in the divided sentences. Thus, emotional sentences can be extracted from the divided sentences.

따라서, 사전 구축부(131)는 감성 문장에 포함된 종속 신조어나 종속 이모티콘을 추출하여 추출된 종속 신조어나 종속 이모티콘의 강도를 산출하여 극성 강도를 산출한 후, 신조어 및 이모티콘 감성사전 데이터베이스(31)에 저장하여 데이터베이스(31)와 이모티콘 감성사전 데이터베이스(32)를 구축할 수 있다.Therefore, the dictionary builder 131 extracts the dependent neologisms or emoticons included in emotional sentences, calculates the intensity of the extracted dependent neologisms or dependent emoticons, and calculates the polarity strength, and then creates a new vocabulary and emoticon emotion dictionary database 31 It is possible to build a database 31 and an emoticon emotion dictionary database 32 by storing in .

사전 구축부(131)는 종속 신조어 및 이모티콘 데이터베이스(35)에 저장되어 있는 종속 신조어나 종속 이모티콘의 강도에 대한 평균값을 산출하여 종속 신조어나 종속 이모티콘이 결정 신조어나 결정 이모티콘으로의 저장을 제어할 수 있다.The dictionary construction unit 131 calculates an average value for the strength of the dependent neologisms or dependent emoticons stored in the dependent neologism and emoticon database 35, and controls the storage of the dependent neologisms or dependent emoticons as decision emoticons. there is.

형태소 분석부(132)는, 이미 기술한 것처럼, 사전 구축부(131)의 제어에 따라 형태소 사전 데이터베이스(33)를 이용하여 추출된 작업용 소셜 데이터에 대한 형태소 분석을 실시하여 분할 문장을 생성하여 저장부(15)에 저장할 수 있다.As described above, the morpheme analysis unit 132 performs morpheme analysis on the social data for work extracted using the morpheme dictionary database 33 under the control of the dictionary construction unit 131 to generate and store segmented sentences. It can be stored in section 15.

본 예에서, 형태소 분석부(132)는 감성사전 구축유닛(13)의 일부로서 감성 분석 장치(10)의 일부를 구성하지만, 이와 달리, 감성 분석 장치(10)와는 별개의 장치로 구현되어 동작될 수 있다. 또 다른 예에서, 이러한 형태소 분석부(132)의 동작은 사전 구축부(131)에서 행해질 수 있다.In this example, the morpheme analysis unit 132 constitutes a part of the emotion analysis device 10 as a part of the emotion dictionary construction unit 13, but, unlike the emotion analysis device 10, it is implemented as a separate device and operates. It can be. In another example, the operation of the morpheme analysis unit 132 may be performed in the dictionary construction unit 131 .

저장부(15)는 감성사전 구축장치(10)의 동작에 필요한 데이터나 동작 중에 발생하는 데이터를 저장하는 저장 매체로서, 하드 디스크 등이나 롬(ROM) 등과 같은 메모리(memory)일 수 있다.The storage unit 15 is a storage medium for storing data necessary for the operation of the emotion dictionary building device 10 or data generated during operation, and may be a memory such as a hard disk or a ROM.

대안적인 예에서, 감성사전 구축 장치(10)는 인터넷(internet) 상에서 저장부(15)의 저장 기능을 수행하는 웹 스토리지(web storage)와 연관되어 동작할 수도 있다.In an alternative example, the emotional dictionary building device 10 may operate in association with a web storage that performs the storage function of the storage unit 15 on the Internet.

출력부(17)는 감성사전 구축 유닛(13), 예를 들어, 사전 구축부(131)의 제어에 따라 시각에 관련된 출력을 발생시키기 위한 것으로서, 디스플레이 모듈을 구비할 수 있다.The output unit 17 is for generating an output related to time according to the control of the emotion dictionary building unit 13, for example, the dictionary building unit 131, and may include a display module.

디스플레이 모듈은 감성사전 구축 유닛(13)의 동작에 따라 감성사전 구축 유닛(13)에서 출력되는 영상 데이터에 해당하는 영상을 화면에 표시할 수 있다.The display module may display an image corresponding to the image data output from the emotion dictionary building unit 13 on the screen according to the operation of the emotion dictionary building unit 13 .

이러한 디스플레이 모듈은 액정 디스플레이(liquid crystal display), 유기 발광 표시 장치(organic light emitting diode display), 플렉시블 디스플레이(flexible display) 및 3차원 디스플레이(3D display) 중에서 적어도 하나의 표시 장치를 포함할 수 있다.Such a display module may include at least one display device among a liquid crystal display, an organic light emitting diode display, a flexible display, and a 3D display.

통신부(19)는 소셜 네트워크 서버(20) 및 데이터베이스부(30) 등과 같은 외부 기기와의 통신을 위한 것으로서, 외부 기기가 위치한 네트워크 사이의 통신을 가능하게 하는 적어도 하나의 통신 모듈을 구비할 수 있다.The communication unit 19 is for communication with external devices such as the social network server 20 and the database unit 30, and may include at least one communication module enabling communication between networks where the external devices are located. .

예를 들어, 통신부(19)는 인터넷 모듈을 구비할 수 있다.For example, the communication unit 19 may include an internet module.

인터넷 모듈은 무선 또는 유선 인터넷 접속을 위한 모듈을 말하는 것으로, WLAN(Wireless LAN)(WiFi) 또는 Wibro(Wireless broadband) 등의 인터넷 기술을 이용될 수 있다. The Internet module refers to a module for wireless or wired Internet access, and Internet technologies such as WLAN (Wireless LAN) (WiFi) or Wibro (Wireless broadband) may be used.

다음 도 3을 참고하여, 이러한 구조를 갖는 감성사전 구축 시스템(100)의 동작을 설명한다.Referring to FIG. 3, the operation of the emotion dictionary construction system 100 having this structure will be described.

먼저, 소셜 데이터를 이용한 감성 사전의 구축을 위한 동작이 시작되어 감성사전 구축 장치(10)의 동작이 시작되면(S10), 감성사전 구축 장치(10)의 사전 구축부(131)는 소셜 네트워크 서버(20)에 저장되어 있는 소셜 데이터 중에서 한국어로 작성된 소셜 데이터, 좀 더 구체적으로는 한국어로 동작되는 운영체제(OS, operating system)를 통해 작성된 소셜 데이터를 무작위로 수집하여 저장부(15)에 저장할 수 있다(S11). First, when an operation for constructing an emotional dictionary using social data starts and the operation of the emotional dictionary building device 10 starts (S10), the dictionary building unit 131 of the emotional dictionary building device 10 starts the social network server Among the social data stored in (20), social data written in Korean, more specifically, social data written through an operating system (OS) operated in Korean, can be randomly collected and stored in the storage unit 15. Yes (S11).

이때, 사전 구축부(131)는 통신부(19)를 이용한 소셜 네트워크 서버(20)에 접속할 수 있고, 한 예로서, 한국어로 작성된 트윗의 데이터를 소셜 데이터로서 무작위로 추출할 수 있다. At this time, the dictionary construction unit 131 may access the social network server 20 using the communication unit 19, and as an example, may randomly extract tweet data written in Korean as social data.

본 예에서, 사전 구축부(131)는 소셜 데이터의 수집을 위해 소셜 네트워크 서비스에서 제공되는 검색 API나 별도의 크롤러를 이용할 수 있다. In this example, the pre-construction unit 131 may use a search API provided by a social network service or a separate crawler to collect social data.

대안적인 예에서, 사용자 입력부(11)를 통해 검색 조건(예, 검색어, 검색 시간, 또는 검색 나라)이 입력될 수 있고, 이런 경우, 사전 구축부(131)는 사용자 입력부(11)를 통해 입력된 검색 조건에 맞는 소셜 데이터를 소셜 네트워크 서버(20)로부터 수집할 수 있다.In an alternative example, a search condition (eg, a search word, a search time, or a search country) may be input through the user input unit 11, and in this case, the dictionary construction unit 131 inputs the input through the user input unit 11. Social data meeting search conditions may be collected from the social network server 20 .

이때, 수집된 소셜 데이터는 게시글뿐만 아니라 해시태그, 소셜 데이터의 종류 및 소셜 데이터의 위치 정보(예, URL)와 같이 본 예에서 불필요한 정보를 구비하고 있는 원시 소셜 데이터일 수 있다.In this case, the collected social data may be raw social data having unnecessary information in this example, such as hashtags, types of social data, and location information (eg, URL) of social data as well as postings.

다음, 사전 구축부(131)는 수집된 원시 소셜 데이터 각각에 대한 전처리 동작을 실시하여 작업용 소셜 데이터를 생성하여 소셜 데이터 데이터베이스(32)에 저장할 수 있다(S12).Next, the pre-construction unit 131 may generate and store social data for work in the social data database 32 by performing a pre-processing operation on each of the collected raw social data (S12).

소셜 데이터에 대한 전처리 동작은 수집된 원시 소셜 데이터의 정보 중에서 감성 분석에 불필요한 정보를 삭제하는 동작일 수 있다.The pre-processing operation of the social data may be an operation of deleting information unnecessary for sentiment analysis among information of the collected raw social data.

한 예의 경우, 사전 구축부(131)는 전송된 원시 소셜 데이터 각각에서 사용자 정보(예, 사용자 식별정보), 위치 정보(예, URL) 및 해시태그를 삭제할 수 있다. In one example, the pre-construction unit 131 may delete user information (eg, user identification information), location information (eg, URL), and hashtags from each of the transmitted raw social data.

이때, 전송된 소셜 데이터에 사용자 정보, 위치 정보(URL) 및 해시태그 이외에 게시물과 관계없는 다른 정보가 존재하는 경우, 이 정보 역시 전처리 단계에서 삭제될 수 있다. At this time, if other information unrelated to the post exists in the transmitted social data other than user information, location information (URL), and hashtag, this information may also be deleted in the pre-processing step.

전처리 동작이 완료된 작업용 소셜 데이터의 한 예는 [표 3]와 같다.[Table 3] shows an example of social data for work for which preprocessing has been completed.

원시 소셜 데이터raw social data 작업용 소셜 데이터social data for work RT @parfaitfemi: 와진짜 너무 잘생겨서 올림픽이 아니라 영화보는줄.. #평창동계올림픽 -쇼트트랙 1500m 남자 결승 출전선수 *** https://t.co/LWPRXGyiBq RT @parfaitfemi: Wow, he's so handsome that he thought he was watching a movie, not an Olympics.. #PyeongChang Winter Olympics - short track 1500m men's finalist *** https://t.co/LWPRXGyiBq RT 와진짜 너무 잘생겨서 올림픽이 아니라 영화보는줄.. #평창동계올림픽 -쇼트트랙 1500m 남자 결승 출전선수 ***RT Wow, I thought I was watching a movie, not an Olympics, because I was so handsome.. #PyeongChang Winter Olympics - short track 1500m male finalist RT @1theleft: 전 세계 50억 인구의 TV응원 92개국 2천 925명의 선수 역사상 가장 큰 규모 숫자로 살펴보는 #평창올림픽 #평화올림픽 #데일리문 https://t.co/X8TPswXKWH RT @1theleft: 2,925 athletes from 92 countries supported by 5 billion people around the world on TV #PyeongChangOlympics #PeaceOlympics #DailyMoon https://t.co/X8TPswXKWH RT 전 세계 50억 인구의 TV응원 92개국 2천 925명의 선수 역사상 가장 큰 규모 숫자로 살펴보는 #평창올림픽 #평화올림픽 #데일리문RT 2,925 athletes from 92 countries with 5 billion people around the world cheering on TV #PyeongChang Olympics #Peace Olympics #DailyMoon

이와 같이, 감성사전의 구축을 위한 작업용 소셜 데이터가 생성되면, 사전 구축부(131)는 형태소 분석부(132)를 동작시켜, 각 작업용 소셜 데이터에 대한 형태소 분석을 이용하여 문장 단위로 작업용 소셜 데이터를 분할할 수 있도록 한다.In this way, when the social data for work for constructing the emotional dictionary is generated, the dictionary construction unit 131 operates the morpheme analysis unit 132 to use the morpheme analysis of each social data for work to sentence-by-sentence social data for work. to be able to divide

따라서, 사전 구축부(131)에 의해 제어 명령이 인가되면 형태소 분석부(132)는 동작을 시작할 수 있다. Accordingly, when a control command is applied by the pre-construction unit 131, the morpheme analysis unit 132 may start an operation.

따라서, 형태소 분석부(132)는 형태소 사전 데이터베이스(33)를 이용하여 저장부(15)에 저장되어 있는 각 작업용 소셜 데이터에 대한 형태소 분석을 실시하여 각 작업용 소셜 데이터를 문장 단위로 분할하여 분할된 문장을 분할 문장으로 저장부(15)에 저장할 수 있다(S13).Therefore, the morpheme analysis unit 132 performs morpheme analysis on the social data for each task stored in the storage unit 15 using the morpheme dictionary database 33, divides the social data for each task into sentence units, and divides the social data for each task into sentence units. The sentence may be stored in the storage unit 15 as a divided sentence (S13).

본 예에서, 문장 분할을 위한 한 예로서, 본 실시예의 형태소 분석부(132)는 다음 세 가지의 조건 중 적어도 하나의 조건이 만족되면 하나의 문장으로 분할할 수 있다.In this example, as an example for sentence division, the morpheme analysis unit 132 of the present embodiment may divide into one sentence if at least one of the following three conditions is satisfied.

첫 번째 조건으로, 작업용 소셜 데이터에서 개행 문자(예, '

Figure 112021013705597-pat00007
'), 마침표('.'), 물음표('?'), 느낌표('!') 또는 줄임표('...')가 포함된 문장을 구분할 수 있다.As a first condition, newline characters (e.g. '
Figure 112021013705597-pat00007
'), period ('.'), question mark ('?'), exclamation point ('!'), or ellipsis ('...').

두 번째 조건으로, 형태소 분석부(132)는 작업용 소셜 데이터에서 추출된 형태소의 태그 속성이 MAJ(접속부사)나 EF(종결어미)인 경우, 문장을 구분할 수 있다.As a second condition, the morpheme analyzer 132 may distinguish sentences when the tag attribute of the morpheme extracted from the work social data is MAJ (conjunctive adverb) or EF (terminal ending).

세 번째 조건으로서, 형태소 분석부(132)는 작업용 소셜 데이터에서 추출된 형태소의 태그 속성이 EC(연결 어미)이고 형태소가 '-은/는데', '-지만', '-으나' 또는 '-다만'인 경우, 문장을 구분할 수 있다.As a third condition, the morpheme analyzer 132 determines that the tag attribute of the morpheme extracted from the work social data is EC (connective ending) and the morpheme is '-is/is', '-but', '-but' or '- However, in the case of ', the sentence can be distinguished.

본 예에서, 문장은 단문이나 복문으로 구성될 수 있다.In this example, a sentence may consist of a simple sentence or a complex sentence.

또한, SNS 게시자는 문장의 마지막 부분에 이모티콘을 추가해 자신의 감정을 표현할 수 있다. In addition, SNS publishers can express their feelings by adding emoticons at the end of sentences.

이처럼, 구분될 가능성이 있는 문장인 예비 문장의 마지막 부분에 이모티콘이 위치하는 경우, 형태소 분석부(132)는 위의 세 가지 조건에 따라 문장을 구비할 때, 이모티콘까지 하나의 문장으로 구분할 수 있다.In this way, when an emoticon is located at the end of a preliminary sentence, which is a sentence that can be distinguished, the morpheme analysis unit 132 can classify even an emoticon into one sentence when the sentence is prepared according to the above three conditions. .

한 예로서, 작업용 소셜 데이터가 '아이돌이랑 화장품만 나오는 시궁창 현실이지만 그 와중에 보석 같은 후추님

Figure 112022080611059-pat00008
'인 경우, 형태소 분석부(132)는 연결 어미인 '지만'을 중심으로 문장 분할을 실시할 수 있다. 따라서 '아이돌이랑 화장품만 나오는 시궁창 현실이지만'와 '그 와중에 보석 같은 후추님
Figure 112022080611059-pat00009
'로 나눠진 두 개의 분할 문장이 생성될 수 있다. As an example, the social data for work is 'a gutter reality where only idols and cosmetics appear, but in the meantime, pepper like a jewel.
Figure 112022080611059-pat00008
', the morpheme analysis unit 132 may perform sentence segmentation centering on 'but' as a connection ending. Therefore, 'It's a gutter reality where only idols and cosmetics come out' and 'In the meantime, pepper like a jewel'
Figure 112022080611059-pat00009
' can generate two split sentences.

다른 예로서, 작업용 소셜 데이터가 '진짜 민현이 너무 좋아...

Figure 112021013705597-pat00010
아론도 너무 기여워ㅋㅋ'인 경우, 형태소 분석부(132)는 줄임표('?')를 이용하여 두 개의 분할 문장을 생성할 수 있다. 하지만, 문장을 구분하는 기준이 되는 줄임표('...') 다음에 이모티콘인 '
Figure 112021013705597-pat00011
'이 존재하므로, 형태소 분석부(132)는 '진짜 민현이 너무 좋아...
Figure 112021013705597-pat00012
'와 '아론도 너무 기여워ㅋㅋ'인 두 개의 분할 문장을 생성할 수 있다.As another example, the social data for work is 'I really like Minhyun...
Figure 112021013705597-pat00010
Aaron is so cute too haha', the morpheme analysis unit 132 may generate two divided sentences using an ellipsis ('?'). However, after the ellipsis ('...'), which is the criterion for distinguishing sentences, the emoticon '
Figure 112021013705597-pat00011
' exists, so the morpheme analysis unit 132 says 'I really like Minhyun...
Figure 112021013705597-pat00012
' and 'Aaron is so cute too haha'.

이와 같이, 작업용 소셜 데이터에 대한 문장 분할이 이루어져 각 작업옹 소셜 데이터에 대한 분할 문장이 생성되어 저장부(17)에 저장되면, 형태소 분석부(132)는 형태소 분석 완료 명령을 사전 구축부(131)로 출력하여, 분할 문장의 생성 동작이 완료되었음을 사전 구축부(131)로 알릴 수 있다.In this way, when the sentence division of the social data for work is performed and the divided sentences for each task social data are generated and stored in the storage unit 17, the morpheme analysis unit 132 sends a morpheme analysis completion command to the pre-construction unit 131 ), it is possible to notify the pre-construction unit 131 that the generation operation of the split sentence is completed.

이에 따라, 감성사전 구축부(131)는 저장부(15)에 저장되어 있는 각 분할 문장에서 신조어 및 이모티콘의 추출 동작을 실시할 수 있다(S14).Accordingly, the emotional dictionary construction unit 131 may perform an operation of extracting neologisms and emoticons from each divided sentence stored in the storage unit 15 (S14).

따라서, 사전 구축부(131)는, 한 예로서, 저장부(15)에 저장되어 있는 각 분할 문장에서 신조어와 이모티콘을 추출하기 위해, 네이버오픈 사전과 같은 적어도 하나의 오픈 사전(예, 네이버 오픈 사전)을 이용하여 구축된 오픈사전 데이터베이스(미도시)를 이용할 수 있다.Therefore, the dictionary construction unit 131, as an example, in order to extract neologisms and emoticons from each divided sentence stored in the storage unit 15, at least one open dictionary such as the Naver Open dictionary (eg, Naver Open An open dictionary database (not shown) built using a dictionary) may be used.

이 오픈사전 데이터베이스는 네이버 오픈 사전과 같은 오픈 사전에 등록되어 있는 단어 중에서, '한국어'와 '좋아요'를 설정개수(예, 10개) 이상의 평가를 받는 단어가 저장되어 있을 수 있다.This open dictionary database may store words that receive evaluations of more than a set number (eg, 10) of 'Korean' and 'Like' among words registered in open dictionaries such as Naver Open Dictionary.

따라서, 사전 구축부(131)는 해당 분할 문장과 오픈사전 데이터베이스에 저장되어 있는 단어를 비교하여 해당 분할 문장의 단어 중에서 오픈사전 데이터베이스에 저장되어 있는 단어와 동일한 단어가 존재하면, 해당 단어를 신조어로 추출하여 저장부(15)에 저장할 수 있다(S14).Therefore, the dictionary builder 131 compares the split sentence with words stored in the open dictionary database, and if there exists a word identical to the word stored in the open dictionary database among the words in the split sentence, the corresponding word is selected as a neologism. It can be extracted and stored in the storage unit 15 (S14).

또한, 사전 구축부(131)는 해당 분할 문장에서 이모티콘을 추출하여 저장부(15)에 저장할 수 있다. Also, the dictionary construction unit 131 may extract emoticons from the corresponding divided sentences and store them in the storage unit 15 .

본 예에서, 이모티콘은 '^^'나 'ㅠㅠ'와 같이 문자 형태로 이루어진 이모티콘(이하, 문자 형태로 이루어진 이모티콘은 '일반 문자형 이모티콘'이라 칭함), 4바이트 유니코드 문자 형태로 이루어진 이모티콘(이하, 4바이트 유니코드 문자 형태로 이루어진 이모티콘은 '4바이트 문자형 이모티콘'이라 칭함) 및 이미지 형태로 이루어진 이모티콘(예, 이미지형 이모티콘)으로 구분될 수 있다.In this example, the emoticon is an emoticon made in the form of a character such as '^^' or 'ㅠㅠㅠ' (hereinafter, an emoticon made in the form of a letter is referred to as a 'general text emoticon'), an emoticon made in the form of a 4-byte Unicode character (hereinafter , Emoticons made in the form of 4-byte Unicode characters may be classified into emoticons made in the form of images (eg, emoticons in the form of images) and emoticons made in the form of images (referred to as '4-byte text emoticons').

일반적으로 한글을 모음과 자음의 조합으로 이루어져 있지만, 문자형 이모티콘은 '^^ㅋ', 'ㅠㅠ'와 같이 적어도 하나의 특수문자로 이루어지거나 한글의 모음과 자음의 조합으로 이루어지지 않는 경우가 대부분이다.In general, Hangul is composed of a combination of vowels and consonants, but text emoticons are composed of at least one special character such as '^^ㅋ' or 'ㅠㅠㅠ', or are not composed of a combination of vowels and consonants in Hangeul. .

따라서, 본 예의 경우, 사전 구축부(131)는 해당 분할 문장의 어절에서 특수문자, 모음 또는 자음이 연속적으로 2자 이상 나열된 문자를 일반 문자형 이모티콘으로 추출할 수 있다. Accordingly, in the case of this example, the dictionary builder 131 may extract characters in which two or more special characters, vowels, or consonants are consecutively arranged in a word of a corresponding divided sentence as a general text emoticon.

4바이트 문자형 이모티콘은 2바이트 유니코드 문자가 4바이트로 확장되면서 문자 표현이 가능한 그림 형태의 문자를 일컬을 수 있고, 예를 들어, 일본 NTT 토코모사에서 개발한 '이모지'일 수 있다.A 4-byte text emoticon may refer to a picture-type character capable of expressing a character by extending a 2-byte Unicode character to 4 bytes, and may be, for example, an 'emoji' developed by NTT Tocomo in Japan.

이로 인해, 본 예의 사전 구축부(131)는 해당 분할 문장에서 4바이트 유니코드로 인코딩된 문자를 4바이트 문자형 이모티콘으로 추출할 수 있다. For this reason, the dictionary constructing unit 131 of the present example may extract characters encoded in 4-byte Unicode as 4-byte text emoticons in the corresponding divided sentence.

또한, 사전 구축부(131)는 해당 분할 문장에서 이미지 태그(예, <IMG>)태그를 추출하여 이미지형 이모티콘으로 추출할 수 있다. In addition, the dictionary construction unit 131 may extract an image tag (eg, <IMG>) tag from the corresponding divided sentence and extract it as an image type emoticon.

이때, 소셜 네트워크 서비스의 업체마다 이미지형 이모티콘에 대한 고유의 패턴이 존재하므로, 사전 구축부(131)는 HTML상에서 해당 패턴이 존재하는 것을 이미지형 이모티콘으로 추출할 수 있다.At this time, since each company of social network service has its own pattern for the image-type emoticon, the pre-construction unit 131 may extract the existing pattern in the HTML as an image-type emoticon.

예를 들어, 도 5에서, 이미지 형태의 이모티콘 태그에서 alt속성에 '스티커 이미지'라는 값이 있을 경우 <IMG>태그로 추출될 수 있다.For example, in FIG. 5 , when a value of 'sticker image' is present in the alt attribute of an emoticon tag in the form of an image, it can be extracted as an <IMG> tag.

이러한 추출 방식에 따라 사전 구축부(131)의 동작으로 해당 분할 문장에서 추출된 신조어 및 이모티콘의 예는 다음 [표 4]와 같다.Examples of new words and emoticons extracted from the corresponding divided sentences by the operation of the dictionary construction unit 131 according to this extraction method are shown in [Table 4].

분할 문장split sentence 추출된 신조어 및 이모티콘Extracted neologisms and emoticons 쮸뉴랑 단 둘이 데이뚜♡ 오늘 첫 등원인데ㄷ 오자마자 떤땜미 껌딱Just the two of us with Chwinyu. It's a dayddu♡ It's our first visit to school today. 데이뚜, ♡, 떤땜미Daydoo, ♡

Figure 112021013705597-pat00013
요즘들어 최고로 더운 날씨 같아요! 더위 피해 읍내에서 코히 한잔해요♡
Figure 112021013705597-pat00013
It's like the hottest weather these days! Let's escape the heat and drink cohi in town♡
Figure 112021013705597-pat00014
, 코히, ♡
Figure 112021013705597-pat00014
, Kohi, ♡

이와 같이, 해당 분할 문장에 포함된 신조어과 이모티콘 중 적어도 하나가 추출되면, 사전 구축부(131)는 분할 문장에서 추출된 신조어와 이모티콘 중 적어도 하나를 이용한 신조어 및 이모티콘 감성사전 데이터베이스(31)의 업데이트 동작을 제어하여 신조어 및 이모티콘 감성사전 데이터베이스(31)를 구축할 수 있다(S15).이러한 도 4a 및 도 4b를 참고하여, 이러한 사전 구축부(131)의 제어 동작(S15)의 한 예를 설명한다.In this way, when at least one of the newly coined word and emoticon included in the corresponding divided sentence is extracted, the dictionary builder 131 performs an update operation of the new coined word and emoticon emotion dictionary database 31 using at least one of the newly coined word and emoticon extracted from the divided sentence. A new word and emoticon sentiment dictionary database 31 can be built by controlling (S15). Referring to FIGS. 4A and 4B, an example of the control operation (S15) of the dictionary construction unit 131 will be described. .

도 4a에 도시한 것처럼, 사전 구축부(131)는 해당 분할 문장에서 추출된 신조어와 이모티콘을 결정 신조어 및 이모티콘 데이터베이스(34)에 저장되어 있는 결정 신조어와 결정 이모티콘과 비교하여 동일한 결정 신조어나 결정 이모티콘이 존재하는 지 판단할 수 있다(S151-S152).As shown in FIG. 4A, the dictionary constructing unit 131 compares the newly coined word and emoticon extracted from the corresponding divided sentence with the new coined word and the determined emoticon stored in the new coined word and emoticon database 34, and compares the new coined word or emoticon with the same new coined word or emoticon. It can be determined whether there exists (S151-S152).

해당 분할 문장에서 추출된 신조어와 이모티콘 중 적어도 하나가 결정 신조어 및 이모티콘 데이터베이스(34)에 존재하면(S152), 사전 구축부(131)는 해당 분할 문장에 종속 신조어 및 종속 이모티콘 중 적어도 하나가 존재하는지 판단할 수 있다(S153).If at least one of the newly coined word and emoticon extracted from the corresponding divided sentence exists in the determined new word and emoticon database 34 (S152), the dictionary construction unit 131 determines whether at least one of the dependent new word and dependent emoticon exists in the corresponding divided sentence. It can be judged (S153).

이미 기술한 것처럼, 결정 신조어나 결정 이모티콘은 '긍정', '부정' 및 '혼합'으로 나눠진 극성 중에서, '긍정'이나 '부정'의 극성을 갖고 있고, 해당 극성의 강도가 설정 강도(예, 4) 이상인 신조어나 이모티콘일 수 있다.As already described, the decision neologism or decision emoticon has a polarity of 'positive' or 'negative' among the polarities divided into 'positive', 'negative' and 'mixed', and the strength of the polarity is the set strength (e.g., 4) It can be a newly coined word or an emoticon.

본 예에서, 감성 문장은 극성의 강도가 강한 신조어 및 이모티콘 중 적어도 하나를 포함하여, 극성이 강한 문장을 일컬을 수 있다. 따라서, 이러한 결정 신조어나 결정 이모티콘을 구비하고 있는 해당 분할 문장은 감성 문장일 가능성이 높다.In this example, the emotional sentence may refer to a sentence with a strong polarity including at least one of a newly coined word and an emoticon having a strong polarity. Therefore, it is highly likely that the corresponding divided sentence including the decision neologism or the decision emoticon is an emotional sentence.

또한, 종속 신조어와 종속 이모티콘은 각각 해당 분할 문장에서 추출된 신조어나 이모티콘 중에서 결정 신조어나 결정 이모티콘과 동일한 신조어나 이모티콘을 제외한 나머지 추출된 신조어와 이모티콘일 수 있다. In addition, the dependent neologism and the dependent emoticon may be newly coined words and emoticons extracted from the newly coined words or emoticons extracted from the corresponding divided sentences, except for newly coined words or emoticons identical to the determined new words or emoticons.

즉, 종속 신조어와 종속 이모티콘은 추출된 신조어나 이모티콘 중에서 결정 신조어나 결정 이모티콘으로 선택되지 못한 신조어나 이모티콘일 수 있다.That is, the dependent neologism and dependent emoticon may be a newly coined word or emoticon that is not selected as a decision coined word or decision emoticon from among extracted new words or emoticons.

따라서, 해당 분할 문장이 결정 신조어 및 결정 이모티콘 중 적어도 하나가 존재하고, 추가적으로 다른 신조어(즉, 종속 신조어)나 이모티콘(즉, 종속 이모티콘)이 존재하면, 사전 구축부(131)는 해당 분할 문장을 감성 문장으로 추출하여 저장부(15)에 저장할 수 있다.Therefore, if at least one of a decision neologism and a decision emoticon exists in the corresponding split sentence, and another neologism (ie, dependent neologism) or emoticon (ie, subordinate emoticon) exists additionally, the dictionary construction unit 131 constructs the corresponding split sentence. Emotional sentences may be extracted and stored in the storage unit 15 .

결국, 감성 문장은 분할 문장 중에서, 설정 강도(예, '4') 이상의 극성(예, 긍정)을 갖는 결정 신조어(예, 귀요미)나 결정 이모티콘(예,

Figure 112021013705597-pat00015
)을 구비하고, 추가적으로 결정 신조어나 결정 이모티콘이 아닌 다른 신조어와 이모티콘 중 적어도 하나를 구비하는 분할 문장일 수 있다. In the end, the emotional sentence is a decision neologism (eg, cute) or a decision emoticon (eg, cute) having a polarity (eg, positive) higher than the set intensity (eg, '4') or a decision emoticon (eg,
Figure 112021013705597-pat00015
), and additionally may be a segmented sentence including at least one of a newly coined word and an emoticon other than a decision coined word or a decision emoticon.

이와 같이, 해당 분할 문장에서 추출된 신조어 및 이모티콘 중 적어도 두개가 결정 신조어 및 결정 이모티콘 중 적어도 하나이고, 나머지는 종속 신조어 및 종속 이모티콘 중 적어도 하나이면, 사전 구축부(131)는 해당 분할 문장을 감성 문장으로 추출하여 저장부(154)에 저장할 수 있다(S154).In this way, if at least two of the newly coined words and emoticons extracted from the corresponding split sentence are at least one of the determined neologism and the determined emoticon, and the others are at least one of the dependent neologisms and dependent emoticons, the dictionary builder 131 detects the corresponding divided sentence. It can be extracted as a sentence and stored in the storage unit 154 (S154).

예를 들어, '오늘 브이앱부터 인스타 사진까지 정말ㅠ', '세상에 이런 아이돌이 있나 싶을 정도로 사랑스럽고 유니크하고 한없이 특별한 비투비

Figure 112021013705597-pat00016
', 그리고 '오늘 브이앱보기전엔 우울했는데 이제 안심이 된다'인 세 개의 분할 문장에서, 감성 문장으로 추출되는 분할 문장은 '세상에 이런 아이돌이 있나 싶을 정도로 사랑스럽고 유니크하고 한없이 특별한 비투비
Figure 112021013705597-pat00017
Figure 112021013705597-pat00018
'일 수 있다.For example, 'Today's V App and Instagram photos are really ㅠ', 'Lovely, unique, and infinitely special BTOB that makes you wonder if there are idols like this in the world.
Figure 112021013705597-pat00016
', and 'I was depressed before I watched V-App today, but now I feel relieved', the split sentence extracted as an emotional sentence is 'Lovely, unique, and infinitely special BTOB that makes me wonder if there are idols like this in the world.
Figure 112021013705597-pat00017
Figure 112021013705597-pat00018
'It can be.

즉, '세상에 이런 아이돌이 있나 싶을 정도로 사랑스럽고 유니크하고 한없이 특별한 비투비

Figure 112021013705597-pat00019
Figure 112021013705597-pat00020
'에는 두 개의 이모티콘(
Figure 112021013705597-pat00021
Figure 112021013705597-pat00022
)이 존재하고, 이 두 이모티콘 중에서 '
Figure 112021013705597-pat00023
'는 결정 이모티콘이고, 나머지 이모티콘인 '
Figure 112021013705597-pat00024
'는 '종속 이모티콘일 수 있다. In other words, 'BTOB is so lovely, unique, and infinitely special that I wonder if there are idols like this in the world.
Figure 112021013705597-pat00019
Figure 112021013705597-pat00020
' contains two emoticons (
Figure 112021013705597-pat00021
and
Figure 112021013705597-pat00022
) exists, and of these two emoticons, '
Figure 112021013705597-pat00023
' is the decision emoticon, and the remaining emoticons are '
Figure 112021013705597-pat00024
' may be a 'subordinate emoticon.

또한, 감정 문장을 위해, 결정 신조어 및 결정 이모티콘 중 적어도 하나의 개수가 복수 개인 경우, 복수 개인 결정 신조어 및 결정 이모티콘 중 적어도 하나의 극성은 모두 동일하게, '긍정' 또는 '부정'이어야 한다.Also, for emotional sentences, when the number of at least one of the decision neologism and the decision emoticon is plural, the polarity of at least one of the plurality of individual decision neologisms and decision emoticons must be 'positive' or 'negative'.

따라서, 단계(S152)에서, 결정 신조어 및 결정 이모티콘 중 적어도 하나로 판정된 신조어 및 이모티콘 중 적어도 두 개의 극성이 모두 동일하지 않고, 적어도 두 개의 극성이 서로 상이한 경우, 사전 구축부(131)는 단계(S155)로 넘어가 해당 분할 문장을 감성 문장으로 추출하지 않을 수 있다.Therefore, in step S152, if at least two polarities of the determined neologism and emoticon are not the same and at least two polarities are different from each other, the dictionary construction unit 131 performs step ( In step S155), the corresponding divided sentence may not be extracted as a sentiment sentence.

하지만, 단계(S152)와 단계(S153)에서, 추출된 신조어나 이모티콘에 결정 신조어나 결정 이모티콘이 존재하지 않는 않거나 종속 신조어나 종속 이모티콘이 존재하지 않으면, 사전 구축부(131)는 현재의 분할 문장이 단계(S11, S12)에서 수집된 작업용 소셜 데이터에 대한 분할 문장 중 마지막 남은 분할 문장인지 판단할 수 있다(S155).However, in steps S152 and S153, if there is no decision neologism or decision emoticon in the extracted neologisms or emoticons, or no dependent neologisms or dependent emoticons exist, the dictionary construction unit 131 determines the current segmented sentences. Among the divided sentences for the social data for work collected in the steps S11 and S12, it may be determined whether the fragmented sentence is the last one remaining (S155).

현재의 분할 문장이 수집된 작업용 소셜 데이터에 대한 분할 문장 중 마지막 남은 분할 문장이면, 사전 구축부(131)는 리턴 단계(S100)로 넘어갈 수 있다.If the current fragmented sentence is the last remaining fragmented sentence among the collected social data for work, the dictionary construction unit 131 may proceed to a return step ( S100 ).

하지만, 현재의 분할 문장이 수집된 작업용 소셜 데이터에 대한 분할 문장 중 마지막 분할 문장이 아닌 경우, 사전 구축부(131)는 단계(S14)로 넘어가 다음 분할 문장에 대한 처리를 실시할 수 있다.However, if the current segmented sentence is not the last segmented sentence among the collected segmented sentences for the social data for work, the dictionary construction unit 131 may proceed to step S14 to process the next segmented sentence.

다시 단계(S154)로 넘어가, 현재 해당 분할 문장이 감성 문장으로 추출되면, 사전 구축부(131)는 추출된 감성 문장에 대한 극성 강도를 산출하여 저장부(15)에 저장할 수 있다(S156).Going back to step S154, if the currently corresponding divided sentence is extracted as a sentiment sentence, the dictionary construction unit 131 may calculate and store the polarity strength of the extracted sentiment sentence in the storage unit 15 (S156).

따라서, 사전 구축부(131)는 정해진 산출식을 이용하여 해당 감성 문장에 대한 극성 강도를 산출할 수 있다. Accordingly, the dictionary builder 131 may calculate the polarity intensity for the corresponding emotional sentence using a predetermined formula.

한 예로, 극성 강도의 산출식은 (CNT×2×SENT)일 수 있다. As an example, the polar strength calculation formula may be (CNT×2×SENT).

여기서, CNT는 해당 감성 문장에서 존재하는 결정 신조어 및 결정 이모티콘 중 적어도 하나의 총 개수, 즉 해당 감성 문장에서 존재하는 모든 결정 신조어와 결정 이모티콘의 총 개수이다. Here, CNT is the total number of at least one of decision neologisms and decision emoticons present in the corresponding emotional sentence, that is, the total number of all decision neologisms and decision emoticons present in the corresponding emotional sentence.

SENT는 강도의 종류를 나타내는 것으로서, 결정 신조어나 결정 이모티콘의 극성이 '긍정'일 때는 '1'이고 '부정'일 때는 '-1'일 수 있다. SENT indicates the type of strength, and may be '1' when the polarity of a decision coin or decision emoticon is 'positive' and '-1' when it is 'negative'.

이러한 산출식에 의해 계산되는 해당 감성 문장에 대한 극성 강도의 값은 -5 내지 +5 사이의 값을 가질 수 있고, -5 내지 +5의 범위에서 0은 포함되지 않을 수 있다.The value of the polarity intensity for the emotional sentence calculated by this calculation formula may have a value between -5 and +5, and 0 may not be included in the range between -5 and +5.

이러한 방식으로 해당 감성 문장의 산출된 극성 강도가 양의 값을 갖는 경우, 해당 감성 문장 및 이에 포함되어 있는 종속 신조어 및 종속 이모티콘 중 적어도 하나의 극성은 모두 긍정이고, 산출된 극성 강도가 음의 값을 갖는 경우, 해당 감성 문장 및 이에 포함되어 있는 종속 신조어 및 종속 이모티콘의 극성은 모두 부정일 수 있다.In this way, when the calculated polarity intensity of the sentiment sentence has a positive value, the polarity of at least one of the sentiment sentence and the dependent neologisms and dependent emoticons included therein are all positive, and the calculated polarity intensity is a negative value. In the case of having , the polarities of the emotional sentence and the subordinate neologisms and subordinate emoticons included therein may all be negative.

또한, 산출된 극성 강도의 절대값이 클수록 해당 감성 문장과 종속 신조어나 종속 이모티콘의 극성의 세기는 증가할 수 있다. In addition, as the absolute value of the calculated polarity strength increases, the polarity strength of the emotional sentence and the dependent neologism or dependent emoticon may increase.

다음, 사전 구축부(131)는 감성 문장에 포함되어 있는 종속 신조어 및 종속 이모티콘 중 적어도 하나 및 이에 대응하게 산출된 극성 강도를 데이터베이스부(30)에 저장하여, 신조어 및 이모티콘 감성사전 데이터베이스(31)을 구축해 신조어 및 이모티콘 감성사전 데이터베이스(31)에 새로운 신조어나 새로운 이모티콘을 등록시킬 수 있다(S157). Next, the dictionary construction unit 131 stores at least one of the dependent neologisms and dependent emoticons included in emotional sentences and the polarity intensity calculated correspondingly in the database unit 30 to create a new vocabulary and emoticon sentiment dictionary database 31 It is possible to register a new coined word or a new emoticon in the new coined word and emoticon sentiment dictionary database 31 by constructing (S157).

이러한 동작에 의해, 신조어 및 이모티콘 감상사전 데이터베이스(31)에는 새로운 신조어와 이모티콘이 실시간으로 자동 등록될 수 있다. Through this operation, new words and emoticons can be automatically registered in the new words and emoticon appreciation dictionary database 31 in real time.

또한, 감성 문장에 포함되어 있는 종속 신조어나 종속 이모티콘과 동일한 신조어나 이모티콘이 이미 신조어 및 이모티콘 감성사전 데이터베이스(31)에 존재하더라고 현재 산출된 극성 강도로 해당 신조어나 이모티콘의 정보가 업데이트될 수 있다. In addition, even if a newly coined word or emoticon identical to a subordinate neologism or subordinate emoticon included in a sentimental sentence already exists in the neologism and emoticon sentiment dictionary database 31, the information of the newly coined word or emoticon can be updated with the currently calculated polarity strength.

따라서, 시간이 경과함에 따라 변화하는 신조어나 이모티콘의 감성 강도의 자동 갱신이 이루어져 신조어 및 이모티콘 감성사전 데이터베이스(31)의 정확도가 향상될 수 있다. Therefore, the sensitivity of the newly coined word or emoticon that changes over time is automatically updated, so that the accuracy of the new word and emoticon emotion dictionary database 31 can be improved.

다음, 사전 구축부(131)는 산출된 극성 강도와 함께 해당 감성 문장에서 추출된 해당 종속 신조어 및 종속 이모티콘 중 적어도 하나를 데이터베이스부(30)에 저장하여 종속 신조어 및 이모티콘 데이터베이스(35)를 구축할 수 있다(S158).Next, the dictionary construction unit 131 stores at least one of the dependent neologisms and dependent emoticons extracted from the emotional sentences together with the calculated polarity strength in the database unit 30 to construct the dependent neologisms and emoticons database 35. It can (S158).

그런 다음, 사전 구축부(131)는 종속 신조어 및 이모티콘 데이터베이스(35)에 저장된 해당 종속 신조어나 종속 이모티콘과 각각 동일한 이름의 종속 신조어나 종속 이모티콘의 각 개수가 설정 개수(예, 1000)를 초과했는지 판단할 수 있다(S519, S5110).Then, the dictionary construction unit 131 checks whether each number of dependent neologisms or dependent emoticons having the same name as the corresponding dependent neologisms or dependent emoticons stored in the dependent neologism and emoticon database 35 exceeds the set number (eg, 1000). It can be determined (S519, S5110).

동일한 이름을 갖는 종속 신조어나 종속 이모티콘이 현재 설정 개수를 초과한 상태이면, 사전 구축부(131)는 가장 이전에 저장된 동일한 이름의 종속 신조어나 종속 이모티콘의 정보를 삭제하여, 종속 신조어 및 이모티콘 데이터베이스(35)에 저장되어 있는 동일한 이름의 종속 신조어와 종속 이모티콘의 개수가 최대 설정 개수까지만 저장될 수 있도록 한다(S1511).If the number of subordinate neologisms or subordinate emoticons having the same name exceeds the current set number, the dictionary construction unit 131 deletes the information of the most previously stored subordinate neologism or dependent emoticon of the same name, and the dependent neologism and emoticon database ( 35) so that the number of subordinate neologisms and subordinate emoticons of the same name stored in up to the maximum set number can be stored (S1511).

종속 신조어 및 이모티콘 데이터베이스(35)에 저장되어 있는 동일한 이름의 신조어와 이모티콘은 서로 다른 강도를 가질 수 있다.New words and emoticons of the same name stored in the dependent neologism and emoticon database 35 may have different strengths.

이와 같이, 종속 신조어 및 이모티콘 데이터베이스(35)에 저장되는 종속 신조어나 종속 이모티콘의 개수를 설정 개수로 제한한 후, 사전 구축부(131)는 현재 분할 문장에서 추출된 종속 신조어와 동일한 이름을 갖는 모든 종속 신조어의 감성 강도의 절대값에 대한 평균값을 산출하고, 현재 분할 문장에서 추출된 종속 이모티콘과 동일한 이름을 갖는 모든 종속 이모티콘의 감성 강도의 절대값에 대한 평균값을 산출할 수 있다(S1512).In this way, after limiting the number of dependent neologisms or dependent emoticons stored in the dependent neologism and emoticon database 35 to a set number, the dictionary construction unit 131 extracts all dependent neologisms having the same name as the dependent neologisms extracted from the current segmented sentences. An average value of the absolute values of emotional intensities of the dependent neologisms may be calculated, and an average value of absolute values of the emotional intensities of all dependent emoticons having the same name as the dependent emoticon extracted from the currently divided sentence may be calculated (S1512).

다음, 사전 구축부(131)는 산출된 평균값과 설정 강도를 비교하여, 평균값이 설정 강도 이상인 종속 신조어나 종속 이모티콘이 존재하는지 판단할 수 있다(S1513).Next, the dictionary builder 131 compares the calculated average value with the set strength to determine whether a dependent neologism or a dependent emoticon having an average value equal to or greater than the set strength exists (S1513).

설정 강도 이상의 평균 강도값을 갖는 종속 신조어나 종속 이모티콘이 존재하면, 사전 구축부(131)는 설정 강도 이상의 평균 강도값을 갖는 종속 신조어나 종속 이모티콘을 결정 신조어나 결정 이모티콘의 후보로서 출력부(17)로 출력할 수 있다(S1514).If there is a dependent neologism or dependent emoticon having an average strength value equal to or greater than the set strength, the dictionary construction unit 131 outputs the dependent neologism or dependent emoticon having an average strength value equal to or greater than the set strength value as a candidate for the decision neologism or decision emoticon. ) can be output (S1514).

따라서, 사용자는 출력부(17)로 출력되는 결정 신조어나 결정 이모티콘의 후보를 확인한 후 해당 종속 신조어나 종속 이모티콘을 결정 신조어나 결정 이모티콘로 등급 상향을 실현한지를 판단할 수 있다.Therefore, the user can determine whether or not the grade has been raised to the decision neologism or decision emoticon after confirming the candidate for the decision neologism or decision emoticon output to the output unit 17 .

이때, 사용자는 해당 종속 신조어나 종속 이모티콘의 감정을 개인적으로 판단하여 등급 상향 여부를 실현할 수 있다.At this time, the user can personally judge the emotion of the subordinate neologism or subordinate emoticon to realize whether or not to raise the level.

따라서, 사용자 입력부(11)로 등급 상향을 허락하는 허락 신호가 입력되면, 사전 구축부(131)는 해당 종속 신조어나 종속 이모티콘을 결정 신조어 및 이모티콘 데이터베이스(34)에 저장하고, 종속 신조어 및 이모티콘 데이터베이스(35)에서는 해당 종속 신조어나 종속 이모티콘에 대한 정보를 모두 삭제할 수 있다(S1516).Therefore, when a permission signal allowing the level increase is input to the user input unit 11, the dictionary construction unit 131 stores the corresponding dependent neologism or dependent emoticon in the determined new coined word and emoticon database 34, and the dependent new coined word and emoticon database In (35), all information on the corresponding subordinate neologism or subordinate emoticon may be deleted (S1516).

본 예와 달리, 대안적인 예에서, 설정 강도 이상의 평균 강도값을 갖는 종속 신조어나 종속 이모티콘이 존재하면, 사전 구축부(131)는 해당 종속 신조어나 종속 이모티콘을 바로 결정 신조어 및 이모티콘 데이터베이스(34)에 저장하고, 종속 신조어 및 이모티콘 데이터베이스(35)에서 삭제 동작을 수행할 수 있다. Unlike the present example, in an alternative example, if there is a dependent neologism or dependent emoticon having an average strength value equal to or greater than the set strength, the dictionary construction unit 131 immediately determines the corresponding dependent neologism or dependent emoticon Neologism and emoticon database 34 , and a deletion operation can be performed in the dependent neologism and emoticon database 35.

그런 다음, 사전 구축부(131)는 출력부(17)로 현재 새롭게 결정 신조어나 결정 이모티콘으로 등록된 신조어나 이모티콘을 출력하여, 사용자가 알 수 있도록 할 수 있다. Then, the dictionary construction unit 131 outputs newly coined words or emoticons currently registered as new decision emoticons to the output unit 17 so that the user can know them.

신조어와 이모티콘은 트렌드에 민감하여 사용 주기가 매우 짧아 급속도로 사람들 사이에서 사용되었다가 순식간에 사용되지 않을 수 있으며, 시간이 경과함에 따라 신조어 및 이모티콘에 대한 극성 및 강도가 변할 수 있다.New words and emoticons are sensitive to trends and have a very short use cycle, so they can be quickly used among people and then not used in an instant, and the polarity and intensity of new words and emoticons may change over time.

본 예의 경우, 감성 문장을 추출하여 해당 종속 신조어나 종속 이모티콘에 대한 평균 강도값을 이용하여 결정 신조어와 결정 이모티콘을 업데이트시킬 수 있다. 따라서, 변화하는 신조어나 이모티콘의 감성의 강도에 따라 감성 문장의 강도 산출에 대한 정확도가 향상될 수 있다.In this example, emotional sentences may be extracted, and the decision neologism and the decision emoticon may be updated using the average intensity value for the corresponding dependent neologism or dependent emoticon. Accordingly, the accuracy of calculating the strength of emotional sentences may be improved according to the emotional strength of the changing neologism or emoticon.

본 발명의 각 실시예에 개시된 기술적 특징들은 해당 실시예에만 한정되는 것은 아니고, 서로 양립 불가능하지 않은 이상, 각 실시예에 개시된 기술적 특징들은 서로 다른 실시예에 병합되어 적용될 수 있다.The technical features disclosed in each embodiment of the present invention are not limited to the corresponding embodiment, and unless incompatible with each other, the technical features disclosed in each embodiment may be merged and applied to other embodiments.

이상, 본 발명의 실시예들에 대해 설명하였다. 본 발명은 상술한 실시예 및 첨부한 도면에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자의 관점에서 다양한 수정 및 변형이 가능할 것이다. 따라서 본 발명의 범위는 본 명세서의 청구범위뿐만 아니라 이 청구범위와 균등한 것들에 의해 정해져야 한다.In the above, the embodiments of the present invention have been described. The present invention is not limited to the above-described embodiments and accompanying drawings, and various modifications and variations will be possible from the viewpoint of those skilled in the art to which the present invention belongs. Therefore, the scope of the present invention should be defined by not only the claims of this specification but also those equivalent to these claims.

10: 감성사전 구축 장치 20: 소셜 네트워크 서버
30: 데이터베이스부
31: 신조어 및 이모티콘 감성사전 데이터베이스
32: 소셜 데이터 데이터베이스
33: 형태소 데이터베이스
34: 결정 신조어 및 이모티콘 데이터베이스
35: 종속 신조어 및 이모티콘 데이터베이스
11: 사용자 입력부 13: 감성사전구축 유닛
131: 사전 구축부 132: 형태소 분석부
15: 저장부 17: 출력부
19: 통신부
10: Emotion dictionary building device 20: Social network server
30: database unit
31: New words and emoticon sentiment dictionary database
32: social data database
33: morpheme database
34: Database of decision neologisms and emoticons
35: Dependent Neologisms and Emoji Database
11: user input unit 13: emotion pre-building unit
131: dictionary construction unit 132: morpheme analysis unit
15: storage unit 17: output unit
19: Ministry of Communications

Claims (15)

감성사전 구축 유닛, 및
상기 감성사전 구축 유닛에 연결되어 있고, 수집된 작업용 소셜 데이터가 저장되어 있는 소셜 데이터 데이터베이스를 구비하는 데이터베이스부
를 포함하고,
상기 감성사전 구축 유닛은,
상기 작업용 소셜 데이터를 문장 단위로 분할하여 분할 문장을 생성하고,
상기 분할 문장에서 신조어와 이모티콘을 추출하고,
추출된 신조어와 이모티콘 중 적어도 하나가 결정 신조어나 결정 이모티콘과 동일하면, 추출된 신조어 및 이모티콘 중에서 상기 결정 신조어나 상기 결정 이모티콘과 동일한 신조어나 이모티콘을 제외한 다른 신조어나 다른 이모티콘을 종속 신조어나 종속 이모티콘으로 정하고 상기 분할 문장을 감성 문장으로 추출하며,
상기 감성 문장에 존재하는 상기 결정 신조어 및 상기 결정 이모티콘의 총 개수와 상기 결정 신조어 및 상기 결정 이모티콘의 극성을 이용하여 상기 감성 문장의 극성 강도를 산출하고,
상기 종속 신조어와 종속 이모티콘 및 상기 극성 강도를 상기 데이터베이스부에 저장하여 신조어 및 이모티콘 데이터베이스를 구축하고,
상기 결정 신조어와 결정 이모티콘은 각각 상기 분할 문장이 감성 문장인지의 여부를 판단하기 위한 신조어와 이모티콘으로서, 설정 강도 이상의 극성 강도는 갖고 있는
신조어 및 이모티콘 감성사전 구축 장치.
An emotional dictionary building unit, and
A database unit connected to the emotion dictionary construction unit and including a social data database in which collected social data for work are stored.
including,
The emotional dictionary building unit,
Splitting the social data for work into sentence units to generate divided sentences;
Extracting neologisms and emoticons from the divided sentences,
If at least one of the extracted new words and emoticons is the same as the new coined word or emoticon, the new coined word or emoticon other than the newly coined word or emoticon identical to the newly coined word or emoticon among the extracted new words and emoticons is designated as a subordinate new word or emoticon. and extract the divided sentence as a sentiment sentence,
Calculating a polarity intensity of the emotional sentence using the total number of the decision neologism and the decision emoticon existing in the emotional sentence and the polarity of the decision neologism and the decision emoticon;
Constructing a database of new words and emoticons by storing the dependent neologisms, dependent emoticons, and the polarity strength in the database unit;
The decision neologism and the decision emoticon are a newly coined word and emoticon for determining whether the divided sentence is an emotional sentence, respectively, and have a polarity intensity equal to or greater than the set intensity.
Newly coined word and emoticon emotion dictionary building device.
제1 항에 있어서,
상기 감성사전 구축 유닛에 연결되어 있고, 결정 신조어와 결정 이모티콘을 저장하고 있는 결정 신조어 및 이모티콘 데이터베이스를 더 포함하고,
상기 감성사전 구축 유닛은 추출된 신조어나 추출된 이모티콘을 결정 신조어 및 이모티콘 데이터베이스에 저장되어 있는 결정 신조어나 결정 이모티콘과 각각 비교하여, 추출된 신조어와 추출된 이모티콘 중 적어도 하나가 상기 결정 신조어 및 이모티콘 데이터베이스에 저장되어 있는 결정 신조어와 결정 이모티콘 중 적어도 하나와 동일하면, 해당 추출된 신조어나 해당 이모티콘을 결정 신조어나 결정 이모티콘으로 정하는 신조어 및 이모티콘 감성사전 구축 장치.
According to claim 1,
Further comprising a decision neologism and emoticon database connected to the sentiment dictionary construction unit and storing decision neologisms and decision emoticons;
The emotional dictionary building unit compares the extracted neologism or the extracted emoticon with a determined neologism or a determined emoticon stored in the determined neologism and emoticon database, respectively, so that at least one of the extracted neologism and the extracted emoticon is determined in the determined neologism and emoticon database. A new word and emoticon emotion dictionary building device that determines the extracted new word or corresponding emoticon as a new coined word or emoticon if it is the same as at least one of the new coined word and the emoticon stored in the new coined word and emoticon.
제1 항에 있어서,
상기 감성사전 구축 유닛은 상기 종속 신조어와 상기 종속 이모티콘 및 상기 극성 강도를 상기 데이터베이스부에 저장하여 종속 신조어 및 이모티콘 데이터베이스를 구축하는 신조어 및 이모티콘 감성사전 구축 장치.
According to claim 1,
wherein the emotion dictionary building unit stores the dependent neologisms, the dependent emoticons, and the polarity strength in the database unit to build a database of dependent neologisms and emoticons.
제3 항에 있어서,
상기 감성사전 구축 유닛은,
상기 종속 신조어 및 이모티콘 데이터베이스에 저장되어 있는 상기 종속 신조어 및 이와 동일한 이름의 종속 신조어의 감성 강도의 절대값에 대한 평균값을 산출하고, 종속 신조어의 상기 평균값이 설정 강도 이상이면 상기 종속 신조어를 결정 신조어로 정하여 상기 결정 신조어 및 이모티콘 데이터베이스에 저장하고,
상기 종속 신조어 및 이모티콘 데이터베이스에 저장되어 있는 상기 종속 이모티콘 및 이와 동일한 이름의 종속 이모티콘의 감성 강도의 절대값에 대한 평균값을 산출하고, 종속 이모티콘의 상기 평균값이 상기 설정 강도 이상이면 상기 종속 이모티콘을 결정 이모티콘으로 정하여 상기 결정 신조어 및 이모티콘 데이터베이스에 저장하는 신조어 및 이모티콘 감성사전 구축 장치.
According to claim 3,
The emotional dictionary building unit,
Calculate the average value of the absolute value of emotional strength of the dependent neologism and the dependent neologism of the same name stored in the dependent neologism and emoticon database, and if the average value of the dependent neologism is greater than or equal to the set strength, the dependent neologism is determined as a neologism determined and stored in the database of newly coined words and emoticons;
Calculate an average value of the absolute value of the emotional intensity of the dependent emoticon and the dependent emoticon having the same name stored in the dependent neologism and emoticon database, and determine the dependent emoticon if the average value of the dependent emoticon is equal to or greater than the set intensity. A new word and emoticon emotional dictionary building device that is determined and stored in the determined new word and emoticon database.
제4 항에 있어서,
상기 감성사전 구축 유닛은, 상기 종속 신조어와 상기 이모티콘의 감성 강도의 절대값에 대한 평균값을 산출하기 전에, 상기 종속 신조어 및 이모티콘 데이터베이스에 동일한 이름의 종속 신조어나 종속 이모티콘의 총 개수가 설정 개수를 초과하면, 가장 이전에 저장된 동일한 이름의 종속 신조어나 종속 이모티콘의 정보를 삭제하는 신조어 및 이모티콘 감성사전 구축 장치.
According to claim 4,
The emotion dictionary construction unit, before calculating an average value of absolute values of emotional intensities of the dependent neologism and the emoticon, the total number of dependent neologisms or dependent emoticons with the same name in the dependent neologism and emoticon database exceeds the set number If so, a new word and emoticon emotional dictionary building device that deletes the information of the most previously stored subordinate new word or subordinate emoticon of the same name.
제4 항에 있어서,
상기 감성사전 구축 유닛에 연결되어 있는 사용자 입력부 및 출력부
를 더 포함하고,
상기 감성사전 구축 유닛은,
종속 신조어의 상기 평균값이나 종속 이모티콘의 상기 평균값이 상기 설정 강도 이상이며, 상기 설정 강도 이상의 평균값을 갖는 종속 신조어나 종속 이모티콘을 결정 신조어 후보나 결정 이모티콘 후보로서 상기 출력부로 출력하고,
상기 사용자 입력부로부터 허락 신호가 입력되면, 상기 설정 강도 이상의 평균값을 갖는 종속 신조어나 종속 이모티콘을 결정 신조어나 결정 이모티콘으로서 상기 결정 신조어 및 이모티콘 데이터베이스에 저장하는 신조어 및 이모티콘 감성사전 구축 장치.
According to claim 4,
A user input unit and an output unit connected to the emotion dictionary building unit
Including more,
The emotional dictionary building unit,
The average value of the dependent neologisms or the average value of the dependent emoticons is equal to or greater than the set strength, and outputs the dependent neologisms or dependent emoticons having an average value equal to or greater than the set strength to the output unit as new coined word candidates or determined emoticon candidates,
When a permission signal is input from the user input unit, a new word and emoticon emotion dictionary construction device for storing a dependent new word or emoticon having an average value equal to or greater than the set strength in the determined new word and emoticon database as a determined new word or a determined emoticon.
제1 항에 있어서,
상기 감성 문장에 존재하는 상기 결정 신조어 및 상기 결정 이모티콘의 극성은 동일한 신조어 및 이모티콘 감성사전 구축 장치.
According to claim 1,
The newly coined word and emoticon emotion dictionary construction device having the same polarity of the determined neologism and the determined emoticon existing in the emotional sentence.
제7 항에 있어서,
상기 극성은 긍정 또는 부정인 신조어 및 이모티콘 감성사전 구축 장치.
According to claim 7,
The polarity is positive or negative New words and emoticon emotional dictionary building device.
감성사전 구축 유닛은 소셜 데이터 데이터베이스에 저장되어 있는 작업용 소셜 데이터를 문장 단위로 분할하여 분할 문장을 생성하는 단계,
상기 감성사전 구축 유닛은 상기 분할 문장에서 신조어와 이모티콘을 추출하는 단계,
상기 감성사전 구축 유닛은 추출된 신조어와 추출된 이모티콘을 결정 신조어 및 이모티콘 데이터베이스에 저장되어 있는 결정 신조어와 결정 이모티콘과 각각 비교하는 단계,
상기 감성사전 구축 유닛은 추출된 신조어와 추출된 이모티콘 중 적어도 하나가 결정 신조어나 결정 이모티콘과 동일하면, 해당 분할 문장에서 추출된 신조어나 이모티콘 중에서 결정 신조어나 결정 이모티콘과 동일한 신조어나 이모티콘을 제외한 나머지 추출된 신조어나 이모티콘이 존재하는지 판단하는 단계,
상기 감성사전 구축 유닛은 해당 분할 문장에서 추출된 신조어나 이모티콘 중에서 결정 신조어나 결정 이모티콘과 동일한 신조어나 이모티콘을 제외한 다른 신조어나 이모티콘이 존재하면, 다른 신조어나 이모티콘을 종속 신조어나 종속 이모티콘으로 정하고 상기 분할 문장을 감성 문장으로 추출하는 단계,
상기 감성사전 구축 유닛은 상기 감성 문장에 존재하는 상기 결정 신조어 및 상기 결정 이모티콘의 총 개수와 상기 결정 신조어 및 상기 결정 이모티콘의 극성을 이용하여 상기 감성 문장의 극성 강도를 산출하는 단계, 및
상기 감성사전 구축 유닛은 상기 종속 신조어와 종속 이모티콘 및 상기 극성 강도를 저장하여 신조어 및 이모티콘 데이터베이스를 구축하는 단계
를 포함하고,
상기 결정 신조어와 결정 이모티콘은 각각 상기 분할 문장이 감성 문장인지의 여부를 판단하기 위한 신조조와 이모티콘으로서, 설정 강도 이상의 극성 강도는 갖고 있는 신조어 및 이모티콘 감성사전 구축 방법.
The emotional dictionary building unit divides the social data for work stored in the social data database into sentence units to generate divided sentences;
The emotional dictionary building unit extracts neologisms and emoticons from the divided sentences;
The emotional dictionary construction unit compares the extracted neologisms and extracted emoticons with the determined neologisms and determined emoticons stored in a database of determined neologisms and emoticons, respectively;
If at least one of the extracted new word and the extracted emoticon is the same as the new coined word or emoticon, the emotional dictionary construction unit extracts the rest of the new coined word or emoticon extracted from the corresponding divided sentence except for the new coined word or emoticon identical to the new coined word or emoticon. The step of determining whether a newly coined word or emoticon exists,
The emotional dictionary construction unit, if there is a new coined word or emoticon other than the new coined word or emoticon identical to the new coined word or emoticon among the new coined words or emoticons extracted from the corresponding divided sentence, determines the other coined word or emoticon as a subordinate new word or subordinate emoticon, and divides the new coined word or emoticon. Extracting sentences into emotional sentences;
Calculating, by the emotion dictionary building unit, a polarity strength of the emotional sentence by using the total number of the decision neologism and the decision emoticon existing in the emotional sentence and polarities of the decision neologism and the decision emoticon; and
constructing, by the emotional dictionary building unit, a database of newly coined words and emoticons by storing the dependent neologisms, dependent emoticons, and the polarity intensity;
including,
The newly coined word and the determined emoticon are new words and emoticons for determining whether the divided sentence is a sentimental sentence, respectively, and have a polarity strength equal to or greater than the set strength.
제9 항에 있어서,
상기 감성사전 구축 유닛은 상기 종속 신조어와 상기 종속 이모티콘 및 상기 극성 강도를 종속 신조어 및 이모티콘 데이터베이스에 저장하는 단계
를 더 포함하는 신조어 및 이모티콘 감성사전 구축 방법.
According to claim 9,
storing, by the sentiment dictionary construction unit, the dependent neologism, the dependent emoticon, and the polarity intensity in a dependent neologism and emoticon database;
A method for constructing a new word and emoticon sentiment dictionary that further includes.
제10 항에 있어서,
상기 감성사전 구축 유닛은 상기 종속 신조어 및 이모티콘 데이터베이스에 저장되어 있는 상기 종속 신조어 및 이와 동일한 이름의 종속 신조어의 감성 강도의 절대값에 대한 평균값을 산출하는 단계,
상기 감성사전 구축 유닛은 종속 신조어의 상기 평균값이 설정 강도 이상 이상인지 판단하는 단계,
상기 감성사전 구축 유닛은 종속 신조어의 상기 평균값이 상기 설정 강도 이상 이상이면, 상기 종속 신조어를 결정 신조어로 정하여 상기 결정 신조어 및 이모티콘 데이터베이스에 저장하는 단계,
상기 감성사전 구축 유닛은 상기 종속 신조어 및 이모티콘 데이터베이스에 저장되어 있는 상기 종속 이모티콘 및 이와 동일한 이름의 종속 이모티콘의 감성 강도의 절대값에 대한 평균값을 산출하는 단계,
상기 감성사전 구축 유닛은 종속 이모티콘의 상기 평균값이 상기 설정 강도 이상 이상인지 판단하는 단계, 및
상기 감성사전 구축 유닛은 종속 이모티콘의 상기 평균값이 상기 설정 강도 이상 이상이면, 상기 종속 이모티콘을 결정 이모티콘으로 정하여 상기 결정 신조어 및 이모티콘 데이터베이스에 저장하는 단계
를 더 포함하는 신조어 및 이모티콘 감성사전 구축 방법.
According to claim 10,
Calculating, by the sentiment dictionary construction unit, an average value of absolute values of sentiment intensities of the dependent neologism and the dependent neologism having the same name stored in the dependent neologism and emoticon database;
determining, by the sentiment dictionary construction unit, whether the average value of subordinate neologisms is greater than or equal to a set strength;
determining, by the emotional dictionary construction unit, the dependent neologisms as determined neologisms when the average value of the dependent neologisms is greater than or equal to the set strength, and storing the determined neologisms and emoticons in the database;
Calculating, by the emotion dictionary construction unit, an average value of absolute values of emotional intensities of the dependent emoticon and the dependent emoticon having the same name stored in the dependent neologism and emoticon database;
determining, by the emotion dictionary building unit, whether the average value of dependent emoticons is greater than or equal to the set strength; and
determining, by the emotion dictionary building unit, the dependent emoticon as a decision emoticon when the average value of the dependent emoticon is greater than or equal to the set strength, and storing the dependent emoticon in the database of the determined neologism and emoticon;
A method for constructing a new word and emoticon sentiment dictionary that further includes.
제11 항에 있어서,
상기 감성사전 구축 유닛은 상기 종속 신조어와 상기 이모티콘의 감성 강도의 절대값에 대한 평균값을 산출하기 전에, 상기 종속 신조어 및 이모티콘 데이터베이스에 동일한 이름의 종속 신조어나 종속 이모티콘의 총 개수가 설정 개수를 초과하는 지 판단하는 단계, 및
상기 감성사전 구축 유닛은 상기 종속 신조어 및 이모티콘 데이터베이스에 동일한 이름의 종속 신조어나 종속 이모티콘의 총 개수가 설정 개수를 초과하면, 가장 이전에 저장된 동일한 이름의 종속 신조어나 종속 이모티콘의 정보를 삭제하는 단계
를 더 포함하는 신조어 및 이모티콘 감성사전 구축 방법.
According to claim 11,
The emotional dictionary building unit calculates an average value of the absolute values of emotional intensities of the dependent neologism and the emoticon, the total number of dependent neologisms or dependent emoticons having the same name in the dependent neologism and emoticon database exceeds the set number The step of determining whether, and
The emotional dictionary building unit deleting information of the most previously stored dependent neologism or dependent emoticon of the same name when the total number of dependent neologisms or dependent emoticons with the same name in the dependent neologism and emoticon database exceeds a set number.
A method for constructing a new word and emoticon sentiment dictionary that further includes.
제11 항에 있어서,
상기 감성사전 구축 유닛은 종속 신조어의 상기 평균값이나 종속 이모티콘의 상기 평균값이 상기 설정 강도 이상이며, 상기 설정 강도 이상의 평균값을 갖는 종속 신조어나 종속 이모티콘을 결정 신조어 후보나 결정 이모티콘 후보로서 출력부로 출력하는 단계, 및
상기 감성사전 구축 유닛은 사용자 입력부로부터 허락 신호가 입력되면, 상기 설정 강도 이상의 평균값을 갖는 종속 신조어나 종속 이모티콘을 결정 신조어나 결정 이모티콘으로서 상기 결정 신조어 및 이모티콘 데이터베이스에 저장하는 단계
를 더 포함하는 신조어 및 이모티콘 감성사전 구축 방법.
According to claim 11,
outputting, by the emotional dictionary construction unit, the average value of dependent neologisms or the average value of dependent emoticons is equal to or greater than the set strength, and the dependent neologisms or dependent emoticons having an average value equal to or greater than the set strength as determined new word candidates or determined emoticon candidates to an output unit; , and
Storing, by the emotional dictionary construction unit, a dependent neologism or emoticon having an average value greater than or equal to the set strength in the determined neologism and emoticon database as a determined neologism or a determined emoticon, when a permission signal is input from a user input unit.
A method for constructing a new word and emoticon sentiment dictionary that further includes.
제9 항에 있어서,
상기 감성사전 구축 유닛은 추출된 신조어와 추출된 이모티콘 중 적어도 하나가 결정 신조어나 결정 이모티콘과 동일하면, 결정 신조어나 결정 이모티콘과 동일한 추출된 신조어나 추출된 이모티콘의 모든 극성이 동일한 지 판단하는 단계
를 더 포함하고,
상기 감성사전 구축 유닛은 결정 신조어나 결정 이모티콘과 동일한 추출된 신조어나 추출된 이모티콘의 모든 극성이 동일하면, 해당 분할 문장에서 추출된 신조어나 이모티콘 중에서 결정 신조어나 결정 이모티콘과 동일한 신조어나 이모티콘을 제외한 나머지 추출된 신조어나 이모티콘이 존재하는지 판단하는 포함하는 신조어 및 이모티콘 감성사전 구축 방법.
According to claim 9,
If at least one of the extracted neologism and the extracted emoticon is the same as the decision neologism or the decision emoticon, the emotional dictionary building unit determining whether all polarities of the extracted neologism or the extracted emoticon are the same as the decision neologism or the decision emoticon
Including more,
The emotional dictionary construction unit, if all polarities of the extracted new word or emoticon identical to the decision coined word or decision emoticon are the same, the rest except for the newly coined word or emoticon identical to the decision coined word or decision emoticon among the newly coined words or emoticons extracted from the corresponding divided sentence. A method for constructing a new word and emoticon sentiment dictionary including determining whether an extracted new word or emoticon exists.
제14 항에 있어서,
상기 극성은 긍정 또는 부정인 신조어 및 이모티콘 감성사전 구축 방법.
According to claim 14,
The polarity is positive or negative, a new word and emoticon emotion dictionary construction method.
KR1020210015045A 2021-02-02 2021-02-02 Apparatus and method for establishing newly-coined word and emotion dictionary KR102479955B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210015045A KR102479955B1 (en) 2021-02-02 2021-02-02 Apparatus and method for establishing newly-coined word and emotion dictionary

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210015045A KR102479955B1 (en) 2021-02-02 2021-02-02 Apparatus and method for establishing newly-coined word and emotion dictionary

Publications (2)

Publication Number Publication Date
KR20220111823A KR20220111823A (en) 2022-08-10
KR102479955B1 true KR102479955B1 (en) 2022-12-21

Family

ID=82846678

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210015045A KR102479955B1 (en) 2021-02-02 2021-02-02 Apparatus and method for establishing newly-coined word and emotion dictionary

Country Status (1)

Country Link
KR (1) KR102479955B1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012100067A1 (en) 2011-01-19 2012-07-26 24/7 Customer, Inc. Analyzing and applying data related to customer interactions with social media
KR101700836B1 (en) * 2015-12-21 2017-02-13 한국과학기술정보연구원 Method and system for building emotional dictionary using comment of book
KR101851788B1 (en) * 2017-06-23 2018-04-24 주식회사 마인드셋 Apparatus and method for updating dictionary of text sentimental analysis

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101120038B1 (en) 2008-12-22 2012-03-23 한국전자통신연구원 Neologism selection apparatus and its method
US8352405B2 (en) * 2011-04-21 2013-01-08 Palo Alto Research Center Incorporated Incorporating lexicon knowledge into SVM learning to improve sentiment classification
KR101740274B1 (en) 2015-03-18 2017-06-08 주식회사 카카오 Method and device for serching emoticon
KR20160134564A (en) * 2015-05-13 2016-11-23 삼성전자주식회사 Device and method for analyzing user emotion
KR102019756B1 (en) 2017-03-14 2019-09-10 한국전자통신연구원 On-line contextual advertisement intelligence apparatus and method based on language analysis for automatically recognizes about coined word

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012100067A1 (en) 2011-01-19 2012-07-26 24/7 Customer, Inc. Analyzing and applying data related to customer interactions with social media
KR101700836B1 (en) * 2015-12-21 2017-02-13 한국과학기술정보연구원 Method and system for building emotional dictionary using comment of book
KR101851788B1 (en) * 2017-06-23 2018-04-24 주식회사 마인드셋 Apparatus and method for updating dictionary of text sentimental analysis

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
양진솔 외 3명, ‘소셜 데이터의 감성 분석을 위한 신조어 및 이모티콘 감성 사전 구축’, 2019년 추계학술발표대회 논문집 제26권 제2호, 2019.11., pp.914-917. 1부.*
인터넷 게시물, SR1. 감성 분석 활용 사례,' "구매후기 한 줄에 고객의 이런 속마음이" 마케팅 난제, 속 시원히 풀어주는 분석’, 2018.11., (url:https://dbr.donga.com/article/view/1101/article_no/8891/ac/a_view). 1부.*

Also Published As

Publication number Publication date
KR20220111823A (en) 2022-08-10

Similar Documents

Publication Publication Date Title
CN108287858B (en) Semantic extraction method and device for natural language
US10832008B2 (en) Computerized system and method for automatically transforming and providing domain specific chatbot responses
US10685186B2 (en) Semantic understanding based emoji input method and device
US20190311709A1 (en) Computerized system and method for formatted transcription of multimedia content
US11514063B2 (en) Method and apparatus of recommending information based on fused relationship network, and device and medium
US20220012296A1 (en) Systems and methods to automatically categorize social media posts and recommend social media posts
KR20140105841A (en) Systems and methods for identifying and suggesting emoticons
CN105183761A (en) Sensitive word replacement method and apparatus
CN110069769B (en) Application label generation method and device and storage device
CN103023753A (en) Method, client-side and system for interactive content correlation output in instant messaging interaction
KR20150000566A (en) Apparatus and method for outputting image according to text input in real time
US20230269429A1 (en) Systems and methods for generating dynamic annotations
US11128910B1 (en) Systems and methods for generating dynamic annotations
CN108306813B (en) Session message processing method, server and client
US10217455B2 (en) Linguistic model database for linguistic recognition, linguistic recognition device and linguistic recognition method, and linguistic recognition system
CN105164669A (en) Information processing apparatus, information processing method, and program
CN112148958A (en) Method, apparatus, and computer storage medium for information recommendation
KR102479955B1 (en) Apparatus and method for establishing newly-coined word and emotion dictionary
KR20150104051A (en) Apparatus and method for providing translating chatting service
CN111931491A (en) Domain dictionary construction method and device
CN107908792B (en) Information pushing method and device
KR102422923B1 (en) Sentiment analysis apparatus and controlling method thereof, and newly-coined word and emotion extraction apparatus
US20210374193A1 (en) Systems and methods for subjectively modifying social media posts
US20210374194A1 (en) Systems and methods for subjectively modifying social media posts
US11289071B2 (en) Information processing system, information processing device, computer program, and method for updating dictionary database

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant