KR101567789B1 - 상대적 감정 유사도를 이용한 단어의 쾌-불쾌 지수 예측 장치 및 방법 - Google Patents
상대적 감정 유사도를 이용한 단어의 쾌-불쾌 지수 예측 장치 및 방법 Download PDFInfo
- Publication number
- KR101567789B1 KR101567789B1 KR1020140111735A KR20140111735A KR101567789B1 KR 101567789 B1 KR101567789 B1 KR 101567789B1 KR 1020140111735 A KR1020140111735 A KR 1020140111735A KR 20140111735 A KR20140111735 A KR 20140111735A KR 101567789 B1 KR101567789 B1 KR 101567789B1
- Authority
- KR
- South Korea
- Prior art keywords
- word
- words
- emotion
- absolute
- similarity
- Prior art date
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 120
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 41
- 230000002996 emotional effect Effects 0.000 claims description 40
- 238000004458 analytical method Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000009429 distress Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 208000000059 Dyspnea Diseases 0.000 description 1
- 206010013975 Dyspnoeas Diseases 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000994 depressogenic effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 208000013220 shortness of breath Diseases 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Child & Adolescent Psychology (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
상대적 감정 유사도를 이용한 단어의 쾌-불쾌 지수 예측 장치 및 방법이 개시된다. 개시된 단어의 쾌-불쾌 지수를 예측하는 장치는 상기 단어와 하나 이상의 비교 단어 각각의 감정 연관성을 산출하고, 기준 단어 집합에 포함된 복수의 기준 단어 각각과 상기 하나 이상의 비교 단어 각각의 감정 연관성을 산출하고, 상기 단어와 상기 복수의 기준 단어 각각에 대한 절대적 감정 유사도인 복수의 제1 절대적 감정 유사도를 산출하고, 상기 기준 단어 집합에 포함된 복수의 기준 단어 전체를 대상으로 하여, 하나의 기준 단어와 다른 기준 단어에 대한 적어도 하나의 제2 절대적 감정 유사도를 각각 산출하는 산출부; 및 상기 복수의 제1 절대적 감정 유사도, 상기 적어도 하나의 제2 절대적 감정 유사도 및 상기 복수의 기준 단어의 미리 설정된 쾌-불쾌 지수를 이용하여 상기 단어의 쾌-불쾌 지수를 예측하는 예측부;를 포함한다.
Description
본 발명의 실시예들은 단어의 쾌-불쾌 지수 예측 장치 및 방법에 관한 것으로서, 더욱 상세하게는 단어 감정 예측 기술에서 고려되지 않던 단어의 감정 정도(쾌-불쾌 지수)를 예측함으로써 보다 고도화된 텍스트 감정 분석 기술을 가능하게 하는 장치 및 방법에 관한 것이다.
단어의 감정을 예측하는 기술들은 단어 간 연관성을 이용한 기술, 대규모 사전을 이용한 기술, 상품평의 평점을 이용한 기술 등이 있고, 이들은 감정을 긍정-부정의 두 가지로 나누어 분석을 수행하였다.
이와 관련된 종래 기술로 "상품평 극성 분류를 위한 특징별 서술어 긍정/부정 사전 자동 구축(송종석, 이수원, 정보과학회논문지: 소프트웨어 및 응용 제38권 제3호(2011.3), p157 ~ p168 "이 공지되어 있다.
한편, 종래 기술들은 단어를 긍정-부정의 두 가지 감정으로 분석하여 다중 감정 분석을 시행할 수 없고, '강한 긍정'과 '약한 긍정'을 분류하지 못해 고도화된 감정 분석이 불가능한 단점이 있었다.
상기한 바와 같은 종래기술의 문제점을 해결하기 위해, 본 발명에서는 단어 감정 예측 기술에서 고려되지 않던 단어의 감정 정도(쾌-불쾌 지수)를 예측함으로써 보다 고도화된 텍스트 감정 분석 기술을 가능하게 하는 쾌-불쾌 지수 예측 장치 및 방법을 제안하고자 한다.
본 발명의 다른 목적들은 하기의 실시예를 통해 당업자에 의해 도출될 수 있을 것이다.
상기한 목적을 달성하기 위해 본 발명의 바람직한 일 실시예에 따르면, 단어의 쾌-불쾌 지수를 예측하는 장치에 있어서, 상기 단어와 하나 이상의 비교 단어 각각의 감정 연관성을 산출하고, 기준 단어 집합에 포함된 복수의 기준 단어 각각과 상기 하나 이상의 비교 단어 각각의 감정 연관성을 산출하고, 상기 단어와 상기 복수의 기준 단어 각각에 대한 절대적 감정 유사도인 복수의 제1 절대적 감정 유사도를 산출하고, 상기 기준 단어 집합에 포함된 복수의 기준 단어 전체를 대상으로 하여, 하나의 기준 단어와 다른 기준 단어에 대한 적어도 하나의 제2 절대적 감정 유사도를 각각 산출하는 산출부; 및 상기 복수의 제1 절대적 감정 유사도, 상기 적어도 하나의 제2 절대적 감정 유사도 및 상기 복수의 기준 단어의 미리 설정된 쾌-불쾌 지수를 이용하여 상기 단어의 쾌-불쾌 지수를 예측하는 예측부;를 포함하는 것을 특징으로 하는 단어의 쾌-불쾌 지수 예측 장치가 제공된다.
상기 단어의 반의어는 상기 기준 단어 집합에 포함되지 않을 수 있다.
상기 산출부는, 상기 단어 또는 상기 기준 단어와 상기 비교 단어가 한 문단에서 독립적으로 출현할 확률, 및 상기 단어 또는 상기 기준 단어와 상기 비교 단어가 한 문단에서 같이 출현할 확률의 비(ratio)를 이용하여 상기 단어 또는 상기 기준 단어와 상기 비교 단어의 감정 연관성을 산출할 수 있다.
상기 산출부는, 상기 단어와 상기 하나 이상의 비교 단어 각각의 감정 연관성을 원소로 하는 제1 벡터, 및 상기 복수의 기준 단어와 상기 하나 이상의 비교 단어 각각의 감정 연관성을 원소로 하는 복수의 제2 벡터를 산출하고, 상기 제1 벡터와 상기 복수의 제2 벡터의 각도를 이용하여 상기 복수의 제1 절대적 감정 유사도를 산출하고, 상기 복수의 제2 벡터 간의 각도를 이용하여 상기 적어도 하나의 제2 절대적 감정 유사도를 산출할 수 있다.
상기 산출부는 상기 복수의 제1 절대적 감정 유사도와 상기 적어도 하나의 제2 절대적 감정 유사도를 이용하여 상기 단어와 상기 복수의 기준 단어 각각에 대한 상대적 감정 유사도(복수의 상대적 감정 유사도)를 산출하고, 상기 예측부는 상기 복수의 상대적 감정 유사도와 상기 복수의 기준 단어의 쾌-불쾌 지수를 이용하여 상기 단어의 쾌-불쾌 지수를 예측하되, 상기 복수의 상대적 감정 유사도 중 i번째 상대적 감정 유사도는, 상기 단어와 상기 복수의 기준 단어 중 i번째 기준 단어에 대한 i번째 제1 절대적 감정 유사도, 및 상기 i번째 기준 단어와 상기 기준 단어 집합 내에서 상기 i번째 기준 단어 이외의 다른 기준 단어들 간의 제2 절대적 감정 유사도를 이용하여 산출될 수 있다.
상기 산출부는 아래의 수학식을 이용하여 상기 i번째 상대적 감정 유사도를 산출할 수 있다.
여기서, 는 제1 벡터, 는 상기 복수의 기준 벡터 중 i번째 기준 벡터의 제2 벡터, S는 상기 기준 단어 집합, 는 상기 i번째 상대적 감정 유사도, 는 상기 i번째 제1 절대적 감정 유사도, 는 상기 기준 단어 집합 내의 다른 기준 단어들 간의 제2 절대적 감정 유사도, |S|는 상기 기준 단어 집합의 크기를 각각 의미함.
상기 예측부는 아래의 수학식을 이용하여 상기 단어의 쾌-불쾌 지수를 예측할 수 있다.
여기서, P/UNPp는 상기 예측된 단어의 쾌-불쾌 지수, 는 상기 단어와 상기 복수의 기준 단어의 상대적 감정 유사도의 총합, N은 상기 복수의 기준 단어의 개수, 상기 P/UNPi는 상기 i번째 기준 단어의 미리 설정된 쾌-불쾌 지수를 각각 의미함.
또한, 본 발명의 다른 실시예에 따르면, 단어의 쾌-불쾌 지수를 예측하는 방법에 있어서, 상기 단어와 하나 이상의 비교 단어 각각의 감정 연관성을 산출하는 단계; 기준 단어 집합에 포함된 복수의 기준 단어 각각과 상기 하나 이상의 비교 단어 각각의 감정 연관성을 산출하는 단계; 상기 단어와 상기 복수의 기준 단어 각각에 대한 절대적 감정 유사도인 복수의 제1 절대적 감정 유사도를 산출하는 단계; 상기 기준 단어 집합에 포함된 복수의 기준 단어 전체를 대상으로 하여, 하나의 기준 단어와 다른 기준 단어에 대한 적어도 하나의 제2 절대적 감정 유사도를 각각 산출하는 단계; 및 상기 복수의 제1 절대적 감정 유사도, 상기 적어도 하나의 제2 절대적 감정 유사도 및 상기 복수의 기준 단어의 미리 설정된 쾌-불쾌 지수를 이용하여 상기 단어의 쾌-불쾌 지수를 예측하는 단계;를 포함하는 것을 특징으로 하는 단어의 쾌-불쾌 지수 예측 방법이 제공된다.
본 발명에 따르면, 단어 감정 예측 기술에서 고려되지 않던 단어의 감정 정도(쾌-불쾌 지수)를 예측함으로써 보다 고도화된 텍스트 감정 분석 기술을 가능하게 한다.
도 1은 본 발명의 일 실시예에 따른 상대적 감정 유사도를 이용한 단어 쾌-불쾌 지수 예측 시스템의 개략적인 구성을 도시한 도면이다.
도 2은 본 발명의 일 실시예에 따른 기준 단어 처리부의 개략적인 구성을 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 단어 전처리부의 개략적인 구성을 도시한 도면이다.
도 4은 본 발명의 일 실시예에 따른 상대적 감정 유사도를 이용한 단어 쾌-불쾌 지수 예측 장치의 개략적인 구성을 도시한 도면이다.
도 5은 본 발명의 일 실시예에 따른 상대적 감정 유사도를 이용한 단어 쾌-불쾌 지수 예측 방법의 개략적인 과정을 도시한 순서도이다.
도 2은 본 발명의 일 실시예에 따른 기준 단어 처리부의 개략적인 구성을 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 단어 전처리부의 개략적인 구성을 도시한 도면이다.
도 4은 본 발명의 일 실시예에 따른 상대적 감정 유사도를 이용한 단어 쾌-불쾌 지수 예측 장치의 개략적인 구성을 도시한 도면이다.
도 5은 본 발명의 일 실시예에 따른 상대적 감정 유사도를 이용한 단어 쾌-불쾌 지수 예측 방법의 개략적인 과정을 도시한 순서도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
본 발명에서는 단어의 쾌-불쾌 지수(감정 정도)를 예측하기 위하여 '한 문장에 동시 출현하는 단어들과의 연관성이 유사하다면, 두 감정 단어(즉, 사람의 감정을 표현하기 위한 단어)의 감정 정도는 유사할 것이다' 라는 가정을 기본으로 한다. 이를 위하여 몇몇 감정 단어와 그에 따른 쾌-불쾌 지수가 기록되어 있는 목록을 이용하여 해당 단어들과 동시 출현하는 단어들 간의 연관성을 계산한다. 연관성 계산 후 감정 단어 간의 유사도를 구하고, 이 유사도를 이용하여 단어의 쾌-불쾌 지수를 예측한다.
이하에서, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 상대적 감정 유사도를 이용한 단어 쾌-불쾌 지수 예측 시스템의 개략적인 구성을 도시한 도면이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 단어의 쾌-불쾌 지수 예측 시스템(100)은 기준 단어 처리부(110), 단어 전처리부(120) 및 단어 쾌-불쾌 지수 예측 장치(130)를 포함한다. 이하, 도 1를 참조하여, 각 구성 요소 별로 그 기능을 상세히 설명하기로 한다. 또한, 설명의 편의를 위해, 쾌-불쾌 지수(Pleasant-Unpleasant)를 예측하기 위한 단어를 '대상 단어'라 호칭하기로 한다.
기준 단어 처리부(110)는 '대상 단어'의 쾌-불쾌 지수를 예측하기 위해 이용되는 적어도 하나의 감정과 관련된 단어를 사전 처리한다. 이하, 설명의 편의를 위해, 감정과 관련된 단어를 쾌-불쾌 지수 예측하기 위한 '대상 단어'와 구별되는 의미로서, '기준 단어'로 호칭하기로 한다.
보다 상세하게, 기준 단어 처리부(110)는 적어도 하나의 '기준 단어' 및 '기준 단어'에 대한 쾌-불쾌 지수를 미리 설정한다. 이를 위해 기준 단어 처리부(110)는 도 2에 도시된 바와 같이 기준 단어 모듈부(111), 형태소 분석부(112) 및 불용어 제거 모듈부(113)를 포함할 수 있다. 여기서, 형태소 분석부(112)는 각 단어에 알맞은 품사를 태깅(tagging)하는 작업(예: '사랑'은 명사임을 알려주는 작업)을 수행하며, 불용어 제거 모듈부(113)는 '사랑하다'라는 단어에서 '하다'처럼 실제적인 의미가 없는 부분을 제거하는 기능을 수행한다.
다음으로, 단어 전처리부(120)는 온라인 컨텐츠 등과 같은 문장에서 전처리된 문장 리스트를 추출하고, 이로부터 전처리된 단어를 추출한다. 이를 위해, 단어 전처리부(120)는 도 3에 도시된 바와 같이 크롤러(Crawler)(121), 전처리부(122), 형태소 분석부(123), 이상 문자열 자동 띄어쓰기 모듈부(124), 일부 구어체 말투 보정 모듈부(125), 문장 분류 모듈부(126), 및 불용어 제거 모듈부(127)를 포함한다.
계속하여, 단어 쾌-불쾌 지수 예측 장치(130)는 전처리된 단어에 대한 쾌-불쾌 지수를 예측한다.
보다 상세하게, 도 4에 도시된 바와 같이, 상대적 감정 유사도를 이용한 단어 쾌-불쾌 지수 예측 장치(130)는 산출부(131) 및 예측부(132)를 포함한다. 그리고, 도 5는 본 발명의 일 실시예에 따른 상대적 감정 유사도를 이용한 단어 쾌-불쾌 지수 예측 장치(130)의 동작(단어 쾌-불쾌 지수 예측 방법)의 전체적인 흐름을 도시한 순서도이다. 이하 도 4 및 도 5를 참조하여 각 구성 요소 별 기능 및 각 단계 별로 수행되는 동작을 상세히 설명한다.
단계(S510)에서, 산출부(131)는 '대상 단어'와 '비교 단어'의 감정 연관성을 산출한다. 또한, 산출부(131)는 하나 이상의 '비교 단어' 전체에 대해 반복적으로 감정 연관성을 산출한다.
예를 들어, "시험"이라는 '대상 단어'가 있고, "후련" 및 "아슬아슬"이라는 '비교 단어'가 있는 경우, "시험"과 "후련" 사이에는 감정 연관성이 있으며, "시험"와 "아슬아슬" 사이에도 감정 연관성이 존재한다. 따라서, 산출부(131)는 "시험(대상 단어)"과, "후련(비교 단어 1)" 및 "아슬아슬(비교 단어 2)" 사이에 얼마나 감정적으로 연관성이 있는지를 확률적으로 산출한다.
본 발명의 일 실시예에 따르면, 산출부(131)는 '대상 단어'와 '비교 단어'가 한 문단에서 독립적으로 출현할 확률, 및 '대상 단어'와 '비교 단어'가 한 문단에서 같이 출현할 확률의 비(ratio)를 이용하여 '대상 단어'와 '비교 단어'의 감정 연관성을 산출할 수 있다. 이는 앞서 설명한 바와 같이, "한 문장에 동시 출현하는 단어들과의 연관성이 유사하다면, 두 감정 단어의 감정 정도는 유사할 것이다" 라는 전제에 따른 것이다.
일례로서, 본 발명의 산출부(131)는 아래의 수학식 1에 표시된 것과 같이 PMI(Pointwise Mutual Information) 지수를 이용하여 '대상 단어'와 '비교 단어'의 감정 연관성을 산출할 수 있다.
여기서, A는 '대상 단어', B는 '비교 단어', PMI(A, B)는 '대상 단어'와 '비교 단어'의 감정 연관성, P(A)×P(B)는 '대상 단어'와 '비교 단어'가 한 문단에서 독립적으로 출현할 확률, P(A∩B)는 '대상 단어'와 '비교 단어'가 한 문단에서 같이 출현할 확률을 의미한다.
그리고, 단계(S510)에서 산출부(131)는 '대상 단어'와 하나 이상의 '비교 단어' 각각의 감정 연관성을 원소로 하는 제1 벡터를 더 산출한다. 예를 들어, '불금'(대상 단어)과 '즐기, 흥, 재미, 아쉽, 즐겁'(이하, 비교 단어)의 감정 연관성(제1 벡터) 및 '시험'(대상 단어)과 '유감, 후련, 무시무시, 자책, 아슬아슬'(이하, 비교 단어)의 감정 연관성(제1 벡터)은 표 1과 같다.
즐기(B1) | 흥(B2) | 재미(B3) | 아쉽(B4) | 즐겁(B5) | |
불금(A) | [6.04, 5.53, 4.67, 4.60, 4.01] ->제1 벡터 | ||||
유감(B1) | 후련(B2) | 무시무시(B3) | 자책(B4) | 아슬아슬(B5) | |
시험(A) | [5.87, 4.87, 4.87, 4.59, 3.92] ->제1 벡터 |
다음으로, 단계(S520)에서, 산출부(131)는 '대상 단어'와 마찬가지로, 미리 설정된 '기준 단어'와 '비교 단어'의 감정 연관성을 산출하되, 복수의 '기준 단어' 전체에 대해 반복적으로 감정 연관성을 산출한다.
본 발명의 일 실시예에 따르면, 앞서 설명한 바와 유사하게, 산출부(131)는 '기준 단어'와 '비교 단어'가 한 문단에서 독립적으로 출현할 확률, 및 '기준 단어'와 '비교 단어'가 한 문단에서 같이 출현할 확률의 비를 이용하여 '기준 단어'와 '비교 단어'의 감정 연관성을 산출할 수 있다. 일례로서, 본 발명의 산출부(131)은 아래의 수학식 2에 표시된 것과 같이 PMI 지수를 이용하여 '기준 단어'와 '비교 단어'의 감정 연관성을 산출할 수 있다.
여기서, C는 '기준 단어', B는 '비교 단어', PMI(C, B)는 '기준 단어'와 '비교 단어'의 감정 연관성, P(C)×P(B)는 '기준 단어'와 '비교 단어'가 한 문단에서 독립적으로 출현할 확률, P(C∩B)는 '기준 단어'와 '비교 단어'가 한 문단에서 같이 출현할 확률을 의미한다.
또한, 산출부(131)는 '기준 단어'와 하나 이상의 '비교 단어' 각각의 감정 연관성을 원소로 하는 제2 벡터를 산출한다. 그리고, 산출부(131)는 복수의 '기준 단어' 각각에 대해 제2 벡터(즉, 복수의 제2 벡터)를 산출한다. 다시 말해, 산출부(131)는 기준 단어 집합에 포함된 복수의 '기준 단어' 각각과 하나 이상의 '비교 단어' 각각의 감정 연관성을 산출하며, 이 결과 복수의 제2 벡터가 산출된다. 한편, 다수 개의 '기준 단어'가 존재하며, 복수의 '기준 단어'의 개수는 다수 개의 '기준 단어' 중 감정 유사도가 높은 상위 k개(1 이상의 정수)일 수 있다.
계속하여, 단계(S530)에서, 산출부(131)는 '대상 단어'와 복수의 '기준 단어' 각각의 절대적 감정 유사도(복수의 절대적 감정 유사도)를 산출한다.
절대적 감정 유사도는 하나의 단어와 다른 하나의 단어를 비교하여 감정적으로 얼마나 관련성이 있는지를 보여주는 척도이다.
이하, 설명의 편의를 위해, '대상 단어'와 '기준 단어'의 절대적 감정 유사도를 "제1 절대적 감정 유사도"라 칭하기로 한다.
본 발명의 일 실시예에 따르면, 산출부(131)는 제1 벡터와 제2 벡터의 각도를 이용하여 '대상 단어'와 '기준 단어'의 제1 절대적 감정 유사도를 산출할 수 있으며, 이는 아래의 수학식 3와 같이 표현될 수 있다.
여기서, 는 제1 절대적 감정 유사도(코사인 유사도), 는 제1 벡터, 는 복수의 기준 벡터 중 i번째 기준 벡터의 제2 벡터(i번째 제2 벡터)를 각각 의미한다. 따라서, 제1 벡터와 제2 벡터의 각도가 작을수록, 즉, 코사인 값이 클수록 '대상 단어'와 '기준 단어'의 제1 절대적 감정 유사도가 커진다.
아래의 표 2는 '대상 단어'가 "행복"이고, 5개의 '기준 단어'가 "사랑, 좋, 즐겁, 기쁘, 슬프"일 때의 제1 절대적 감정 유사도의 일례 및 '대상 단어'가 "자책"이고, 5개의 '기준 단어'가 "후회, 걱정, 발끈하, 고민, 죄"일 때의 제1 절대적 감정 유사도의 일례를 도시한 표이다.
사랑(C1) | 좋(C2) | 즐겁(C3) | 기쁘(C4) | 슬프(C5) | |
행복(A) | 0.35 | 0.29 | 0.27 | 0.24 | 0.21 |
후회(C1) | 걱정(C2) | 발끈하(C3) | 고민(C4) | 죄(C5) | |
자책(A) | 0.15 | 0.12 | 0.10 | 0.10 | 0.09 |
계속하여, 단계(S540)에서, 산출부(131)는, 기준 단어 집합에 포함된 복수의 '기준 단어' 전체를 대상으로 하여, 하나의 '기준 단어'와 다른 '기준 단어'의 절대적 감정 유사도를 각각 산출한다.
즉, 기준 단어 집합에는 하나의 '기준 단어'와, 상기 하나의 '기준 단어'를 제외한 적어도 하나의 나머지 '기준 단어'가 존재한다. 이 때, 산출부(131)는 하나의 '기준 단어'와 다른 '기준 단어'의 절대적 감정 유사도를 산출하되, 하나의 '기준 단어'와 적어도 하나의 나머지 '기준 단어' 각각에 대해 반복하여 절대적 감정 유사도를 산출할 수 있다. 또한, 산출부(131)는 상기에서 설명한 바와 같이 기준 단어 집합 내의 모든 '기준 단어'에 대해 절대적 감정 유사도를 산출할 수 있다. 이하, 설명의 편의를 위해, 하나의 '기준 단어'와 다른 '기준 단어'의 절대적 감정 유사도를 "제2 절대적 감정 유사도"라 칭하기로 한다.
본 발명의 일 실시예에 따르면, 산출부(131)는 제2 벡터 간의 각도를 이용하여 하나의 '기준 단어'와 다른 '기준 단어'의 제2 절대적 감정 유사도를 산출할 수 있으며, 이는 아래의 수학식 4와 같이 표현될 수 있다.
다음으로, 단계(S550)에서, 산출부(131)는 복수의 제1 절대적 감정 유사도와 적어도 하나의 제2 절대적 감정 유사도를 이용하여 '대상 단어'와 복수의 '기준 단어' 각각의 상대적 감정 유사도(복수의 상대적 감정 유사도)를 산출한다.
상대적 감정 유사도는 감정 연관성의 상대적 유사도 개념을 포함하는 것으로써, '대상 단어'와 해당 '기준 단어'에 관련된 상대적 감정 유사도는 '대상 단어'와 해당 '기준 단어'의 제1 절대적 감정 유사도 및, 해당 '기준 단어'와 다른 '기준 단어'들 간의 제2 절대적 감정 유사도를 이용하여 산출될 수 있다.
즉, 본 발명의 일 실시예에 따르면, 복수의 상대적 감정 유사도 중 i번째 상대적 감정 유사도는, '대상 단어'와 복수의 '기준 단어' 중 i번째 기준 단어에 대한 i번째 제1 절대적 감정 유사도, 및 i번째 '기준 단어'와 기준 단어 집합 내에서 i번째 '기준 단어' 이외의 다른 '기준 단어'들 간의 제2 절대적 감정 유사도를 이용하여 산출될 수 있다.
본 발명의 일 실시예에 따르면, 산출부(131)는 아래의 수학식 5를 이용하여 '대상 단어'에 대한 i번째 상대적 감정 유사도를 산출할 수 있다.
이 후, 단계(S560)에서, 예측부(132)는 복수의 제1 절대적 감정 유사도, 적어도 하나의 제2 절대적 감정 유사도 및 복수의 기준 단어의 미리 설정된 쾌-불쾌 지수를 이용하여 대상 단어의 쾌-불쾌 지수를 예측한다. 여기서, 적어도 하나의 기준 단어의 미리 설정된 쾌-불쾌 지수는 앞서 설명한 것과 같이 기준 단어 처리부(110)에서 설정될 수 있다. 다시 말해, 예측부(132)는 복수의 상대적 감정 유사도와 복수의 기준 단어의 쾌-불쾌 지수를 이용하여 '대상 단어'의 쾌-불쾌 지수를 예측할 수 있다.
본 발명의 일 실시예에 따르면, 예측부(132)는 아래의 수학식 6를 이용하여 단어의 쾌-불쾌 지수를 예측할 수 있다.
여기서, P/UNPp는 예측된 단어의 쾌-불쾌 지수, 는 '대상 단어'와 복수의 '기준 단어'의 상대적 감정 유사도의 총합, N은 복수의 '기준 단어'의 개수, P/UNPi는 i번째 '기준 단어'의 미리 설정된 쾌-불쾌 지수를 각각 의미한다.
일례로서, '대상 단어'가 "안쓰럽다"이고, 5개의 '기준 단어'가 "긴장하다, 한스럽다, 억울하다, 가소롭다, 동정하다"이며, 미리 설정된 5개의 '기준 단어'의 쾌-불쾌 지수가 각각 순서대로 "3.24, 2.27, 1.90, 2.48, 3.45"이고, 산출부(131)에서 산출된 '대상 단어'와 '기준 단어' 각각의 상대적 감정 유사도가 각각 "0.0966, 0.0729, 0.0700, 0.0787, 0.0626"인 경우, 감정 유사도의 총합(SUM)는 0.3808이고, 예측된 단어의 쾌-불쾌 지수(P/UNPp)는 2.7252일 수 있다. 이는 기준 단어 처리부(110)에서 '대상 단어(자책)'에 대해 "한국어 검정단어의 목록 작성과 차원 탐색"에 공지된 기술에 따라 산출한 실제값인 "2.92"와 유사함을 알 수 있다.
한편, 대상 단어가 반의어와 감정 유사도가 높은 경우가 발생할 수도 있는데, 기준 단어 집합에 반의어가 포함되어 있는 경우, 단어의 쾌-불쾌 지수를 추정할 때 실제값과 많은 차이가 나게 된다.
따라서, 본 발명의 일 실시예에 따르면, 대상 단어의 반의어는 기준 단어 집합에 포함되지 않도록 할 수 있다. 만약, 기준 단어 집합의 기준 단어 모두가 대상 단어의 반의어인 경우, "한국어 검정단어의 목록 작성과 차원 탐색"에 공지된 기술인 감성 지수 사전의 쾌-불쾌 지수에 따라 추정값을 산출할 수 있다.
이와 같이, 본 발명에 따르면, 단어 감정 예측 기술에서 고려되지 않던 단어의 감정 정도(쾌-불쾌 지수)를 예측함으로써 보다 고도화된 텍스트 감정 분석 기술을 가능하게 하는 장점이 있다.
또한, 본 발명의 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 일 실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
Claims (9)
- 단어의 쾌-불쾌 지수를 예측하는 장치에 있어서,
상기 단어와 하나 이상의 비교 단어 각각의 감정 연관성을 산출하고, 기준 단어 집합에 포함된 복수의 기준 단어 각각과 상기 하나 이상의 비교 단어 각각의 감정 연관성을 산출하고, 상기 단어와 상기 복수의 기준 단어 각각에 대한 절대적 감정 유사도인 복수의 제1 절대적 감정 유사도를 산출하고, 상기 기준 단어 집합에 포함된 복수의 기준 단어 전체를 대상으로 하여, 하나의 기준 단어와 다른 기준 단어에 대한 적어도 하나의 제2 절대적 감정 유사도를 각각 산출하는 산출부; 및
상기 복수의 제1 절대적 감정 유사도, 상기 적어도 하나의 제2 절대적 감정 유사도 및 상기 복수의 기준 단어의 미리 설정된 쾌-불쾌 지수를 이용하여 상기 단어의 쾌-불쾌 지수를 예측하는 예측부;를 포함하는 것을 특징으로 하는 단어의 쾌-불쾌 지수 예측 장치. - 제1항에 있어서,
상기 단어의 반의어는 상기 기준 단어 집합에 포함되지 않는 것을 특징으로 하는 단어의 쾌-불쾌 지수 예측 장치. - 제1항에 있어서,
상기 산출부는,
상기 단어 또는 상기 기준 단어와 상기 비교 단어가 한 문단에서 독립적으로 출현할 확률, 및 상기 단어 또는 상기 기준 단어와 상기 비교 단어가 한 문단에서 같이 출현할 확률의 비(ratio)를 이용하여 상기 단어 또는 상기 기준 단어와 상기 비교 단어의 감정 연관성을 산출하는 것을 특징으로 하는 단어의 쾌-불쾌 지수 예측 장치. - 제1항에 있어서,
상기 산출부는,
상기 단어와 상기 하나 이상의 비교 단어 각각의 감정 연관성을 원소로 하는 제1 벡터, 및 상기 복수의 기준 단어와 상기 하나 이상의 비교 단어 각각의 감정 연관성을 원소로 하는 복수의 제2 벡터를 산출하고,
상기 제1 벡터와 상기 복수의 제2 벡터의 각도를 이용하여 상기 복수의 제1 절대적 감정 유사도를 산출하고, 상기 복수의 제2 벡터 간의 각도를 이용하여 상기 적어도 하나의 제2 절대적 감정 유사도를 산출하는 것을 특징으로 하는 단어의 쾌-불쾌 지수 예측 장치. - 제4항에 있어서,
상기 산출부는 상기 복수의 제1 절대적 감정 유사도와 상기 적어도 하나의 제2 절대적 감정 유사도를 이용하여 상기 단어와 상기 복수의 기준 단어 각각에 대한 상대적 감정 유사도(복수의 상대적 감정 유사도)를 산출하고, 상기 예측부는 상기 복수의 상대적 감정 유사도와 상기 복수의 기준 단어의 쾌-불쾌 지수를 이용하여 상기 단어의 쾌-불쾌 지수를 예측하되,
상기 복수의 상대적 감정 유사도 중 i번째 상대적 감정 유사도는, 상기 단어와 상기 복수의 기준 단어 중 i번째 기준 단어에 대한 i번째 제1 절대적 감정 유사도, 및 상기 i번째 기준 단어와 상기 기준 단어 집합 내에서 상기 i번째 기준 단어 이외의 다른 기준 단어들 간의 제2 절대적 감정 유사도를 이용하여 산출되는 것을 특징으로 하는 단어의 쾌-불쾌 지수 예측 장치. - 단어의 쾌-불쾌 지수를 예측하는 방법에 있어서,
상기 단어와 하나 이상의 비교 단어 각각의 감정 연관성을 산출하는 단계;
기준 단어 집합에 포함된 복수의 기준 단어 각각과 상기 하나 이상의 비교 단어 각각의 감정 연관성을 산출하는 단계;
상기 단어와 상기 복수의 기준 단어 각각에 대한 절대적 감정 유사도인 복수의 제1 절대적 감정 유사도를 산출하는 단계;
상기 기준 단어 집합에 포함된 복수의 기준 단어 전체를 대상으로 하여, 하나의 기준 단어와 다른 기준 단어에 대한 적어도 하나의 제2 절대적 감정 유사도를 각각 산출하는 단계; 및
상기 복수의 제1 절대적 감정 유사도, 상기 적어도 하나의 제2 절대적 감정 유사도 및 상기 복수의 기준 단어의 미리 설정된 쾌-불쾌 지수를 이용하여 상기 단어의 쾌-불쾌 지수를 예측하는 단계;를 포함하는 것을 특징으로 하는 단어의 쾌-불쾌 지수 예측 방법. - 제8항의 방법을 수행하는 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140111735A KR101567789B1 (ko) | 2014-08-26 | 2014-08-26 | 상대적 감정 유사도를 이용한 단어의 쾌-불쾌 지수 예측 장치 및 방법 |
US14/519,801 US9384189B2 (en) | 2014-08-26 | 2014-10-21 | Apparatus and method for predicting the pleasantness-unpleasantness index of words using relative emotion similarity |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140111735A KR101567789B1 (ko) | 2014-08-26 | 2014-08-26 | 상대적 감정 유사도를 이용한 단어의 쾌-불쾌 지수 예측 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101567789B1 true KR101567789B1 (ko) | 2015-11-11 |
Family
ID=54605826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020140111735A KR101567789B1 (ko) | 2014-08-26 | 2014-08-26 | 상대적 감정 유사도를 이용한 단어의 쾌-불쾌 지수 예측 장치 및 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9384189B2 (ko) |
KR (1) | KR101567789B1 (ko) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101634086B1 (ko) * | 2015-01-19 | 2016-07-08 | 주식회사 엔씨소프트 | 감정 분석을 통한 스티커 추천 방법 및 시스템 |
CN108694165B (zh) * | 2017-04-10 | 2021-11-09 | 南京理工大学 | 面向产品评论的跨领域对偶情感分析方法 |
US11100294B2 (en) * | 2018-08-27 | 2021-08-24 | International Business Machines Corporation | Encouraging constructive social media interactions |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6999914B1 (en) * | 2000-09-28 | 2006-02-14 | Manning And Napier Information Services Llc | Device and method of determining emotive index corresponding to a message |
US7289949B2 (en) * | 2001-10-09 | 2007-10-30 | Right Now Technologies, Inc. | Method for routing electronic correspondence based on the level and type of emotion contained therein |
US7865354B2 (en) * | 2003-12-05 | 2011-01-04 | International Business Machines Corporation | Extracting and grouping opinions from text documents |
US20080313130A1 (en) * | 2007-06-14 | 2008-12-18 | Northwestern University | Method and System for Retrieving, Selecting, and Presenting Compelling Stories form Online Sources |
US8463594B2 (en) * | 2008-03-21 | 2013-06-11 | Sauriel Llc | System and method for analyzing text using emotional intelligence factors |
WO2009123288A1 (ja) * | 2008-04-03 | 2009-10-08 | 日本電気株式会社 | 単語分類システム、方法およびプログラム |
US8682649B2 (en) * | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
KR101160193B1 (ko) * | 2010-10-28 | 2012-06-26 | (주)엠씨에스로직 | 감성적 음성합성 장치 및 그 방법 |
US9009024B2 (en) * | 2011-10-24 | 2015-04-14 | Hewlett-Packard Development Company, L.P. | Performing sentiment analysis |
US9819711B2 (en) * | 2011-11-05 | 2017-11-14 | Neil S. Davey | Online social interaction, education, and health care by analysing affect and cognitive features |
US9009027B2 (en) * | 2012-05-30 | 2015-04-14 | Sas Institute Inc. | Computer-implemented systems and methods for mood state determination |
US20140365208A1 (en) * | 2013-06-05 | 2014-12-11 | Microsoft Corporation | Classification of affective states in social media |
-
2014
- 2014-08-26 KR KR1020140111735A patent/KR101567789B1/ko active IP Right Grant
- 2014-10-21 US US14/519,801 patent/US9384189B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20160062989A1 (en) | 2016-03-03 |
US9384189B2 (en) | 2016-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101508059B1 (ko) | 단어의 쾌-불쾌 지수 예측 장치 및 방법 | |
US9672817B2 (en) | Method and apparatus for optimizing a speech recognition result | |
WO2020258502A1 (zh) | 文本分析方法、装置、计算机装置及存储介质 | |
JP5825676B2 (ja) | ノン・ファクトイド型質問応答システム及びコンピュータプログラム | |
US9697819B2 (en) | Method for building a speech feature library, and method, apparatus, device, and computer readable storage media for speech synthesis | |
JP5496863B2 (ja) | 感情推定装置、その方法、プログラム及びその記録媒体 | |
Biswas et al. | Mmtoc: A multimodal method for table of content creation in educational videos | |
CN110162752B (zh) | 文章判重处理方法、装置及电子设备 | |
CN111046904B (zh) | 一种图像描述方法、图像描述装置及计算机存储介质 | |
CN109165382A (zh) | 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法 | |
KR101567789B1 (ko) | 상대적 감정 유사도를 이용한 단어의 쾌-불쾌 지수 예측 장치 및 방법 | |
CN112214576B (zh) | 舆情分析方法、装置、终端设备及计算机可读存储介质 | |
Chen et al. | Two-layer mutually reinforced random walk for improved multi-party meeting summarization | |
KR20160133349A (ko) | 구 표 생성 방법 및 구 표를 이용한 기계 번역 방법 | |
CN111062209A (zh) | 自然语言处理模型训练方法和自然语言处理模型 | |
CN109190116B (zh) | 语义解析方法、系统、电子设备及存储介质 | |
CN108268443B (zh) | 确定话题点转移以及获取回复文本的方法、装置 | |
CN110223674A (zh) | 语音语料训练方法、装置、计算机设备和存储介质 | |
CN110222139A (zh) | 道路实体数据去重方法、装置、计算设备和介质 | |
Ghaemmaghami et al. | Speaker attribution of australian broadcast news data | |
Kasthuriarachchy et al. | Pre-trained language models with limited data for intent classification | |
Alkhalifa et al. | QMUL-SDS@ SardiStance: Leveraging Network Interactions to Boost Performance on Stance Detection using Knowledge Graphs | |
WO2020199590A1 (zh) | 情绪检测分析方法及相关装置 | |
CN111950267A (zh) | 文本三元组的抽取方法及装置、电子设备及存储介质 | |
CN114818665B (zh) | 一种基于bert+bilstm+crf与xgboost模型的多意图识别方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20181022 Year of fee payment: 4 |