KR20230051354A

KR20230051354A - 악성댓글 판별방법

Info

Publication number: KR20230051354A
Application number: KR1020210134012A
Authority: KR
Inventors: 문종민
Original assignee: 문종민
Priority date: 2021-10-08
Filing date: 2021-10-08
Publication date: 2023-04-18

Abstract

본 발명은 악성댓글 판별방법에 관한 것으로서, 댓글 데이터를 품사별 형태소로 선별하고, 악성여부의 판별에 영향을 미치지 않는 접미사나 구둣점 등을 제외한 명사, 조사, 동사, 형용사, 부사의 5개의 품사에 해당하는 단어로만 악성댓글을 판별함으로서 악성댓글의 판별 성능을 향상시킬 수 있고, 특히 문장에서 단어를 추출시 명사만으로 추출했을 때보다 형용사와 조합하여 추출하고, 동사를 제거하는 경우에 다른 품사를 제거하는 판별모델을 구축하여 악성댓글 판별 성능을 보다 향상시킬 수 있다.

Description

악성댓글 판별방법{METHOD FOR EVALUATING MALICIOUS COMMENTS}

본 발명은 악성댓글 판별방법에 관한 것으로서, 더욱 상세하게는 기계학습과 형태소 분석을 통해 댓글에서 품사별로 자질을 추출하고, 특정 품사의 조합에 의해 데이터를 필터링하여 댓글의 악성여부를 판별하여 악성댓글 판별의 성능을 향상시키는 악성댓글 판별방법에 관한 것이다.

일반적으로, 인터넷, 스마트폰, 소셜네트워크서비스(SNS) 등 정보통신 기술의 보급, 확산으로 사람들은 이전보다 많은 정보를 보다 손쉽게 취득하는 것이 가능해졌다. 하지만, 이러한 기술의 발전을 통해 얻게 되는 편리함의 부작용으로 악성댓글, 음란물, 가짜뉴스 등 인터넷 유해 정보의 범람으로 인한 각종 사회문제가 발생하게 되었다.

그 중에서도 최근 인터넷 악성댓글이 사회적 문제로 대두되고 있으며, 유명 연예인들의 자살을 계기로 다시 화제가 되고 있다.

인터넷을 이용하는 사용자들은 단순히 콘텐츠를 소비하는 것에 그치지 않고, 댓글을 통해 해당 콘텐츠에 대한 적극적인 의견을 표시한다. 많은 사용자들이 접속하는 웹 페이지에 게시된 콘텐츠의 경우, 콘텐츠 하나에 대해 생성된 댓글만 해도 수백 개에서 수천 개에 이르기도 한다. 댓글을 통해 여론이나 의견 형성이 이루어지기도 할 뿐만 아니라, 콘텐츠 제공자는 댓글을 통해 사용자 의견을 피드백받는 주요한 수단으로써 활용한다.

그러나, 댓글 이용자들이 늘어나면서 댓글을 자신의 불만을 토로하거나 악의적으로 남을 공격하는 수단으로 이용하는 이용자도 늘어나기 시작하였다. 인터넷의 익명성을 악용하여, 욕설 또는 음란어 등과 같은 비속어를 사용하여 남을 헐뜯거나 허위 사실을 퍼뜨리는 댓글에 대해 악성 리플, 즉 '악플'이라는 신조어도 만들어지게 되었다. 일부 사용자들이 혐오 표현을 포함하는 댓글을 작성하는데, 혐오 댓글은 인터넷의 특성상 청소년을 비롯한 다수의 사용자들에게 노출되어 사이버 폭력 을 야기한다.

악플을 차단하기 위한 방법들이 존재하나, 기존 방법들은 스팸성 댓글을 필터링하는데 집중되어 있다. 또한, 기존 방법들은 등록된 데이터베이스를 이용해 혐오 댓글을 필터링하기 때문에 데이터베이스에 등록되지 않는 새로운 혐오 표현을 필터링할 수 없는 한계가 있다.

또한, 종래의 댓글 분석방법에 의하면, 서포트 벡터 머신을 사용하여 사용자에 의해 입력된 댓글의 단어가 긍정적인지, 부정적인지 판단하고, 판단된 단어를 이용하여 댓글의 평판도를 분석하는 댓글에 대한 평판도 분석 방법이 제시되고 있으나, 상기 종래의 댓글 분석방법은 입력된 댓글의 모든 단어에 대하여 긍정적인지 부정적인지 여부를 판단하여야 하기 때문에, 댓글의 악성여부를 판별하는데 많은 시간이 소요되어 효율적이지 못한 문제점이 있었다.

한국공개특허 10-2009-0103171호(댓글 자동 필터링 방법)

본 발명은 상술한 종래기술의 문제점을 해결하고자 하는 것으로서, 본 발명의 목적은 기계학습과 형태소 분석을 통해 댓글에서 품사별로 자질을 추출하고, 특정 품사의 조합에 의해 데이터를 필터링하여 악성댓글 판별의 성능을 향상시킬 수 있는 악성댓글 판별방법을 제공하는 것이다.

상술한 목적을 달성하기 위하여, 본 발명에 의한 악성댓글 판별방법은, 데이터 수집기를 사용하여 댓글 데이터를 수집하는 데이터 수집단계와, 수집된 상기 댓글 데이터로부터 형태소를 추출하고 전처리하는 단계와, 상기 전처리된 형태소로부터 형태소 분석기를 사용하여 형태소를 품사별로 선별하는 단계와, 상기 선별된 품사별 형태소를 특정 품사의 조합으로 추출하는 단계와, 추출된 상기 품사별 형태소를 벡터화하는 단계와, 상기 벡터화된 형태소를 서포트 벡터 머신(Support Vector Machine) 알고리즘에 의해 기계학습하고 상기 형태소가 감성유형 사전에 저장된 단어를 포함하는지 여부를 판단하여 모델링을 통해 댓글의 악성여부를 판별하는 단계와, 상기 댓글이 감성유형사전에 저장된 단어를 포함하는 경우 미리 설정된 가중치를 적용하여 결과값을 도출하고 댓글의 악성여부를 판별하는 단계를 포함하는 것을 특징으로 한다.

여기서, 상기 선별된 형태소의 품사는 명사, 조사, 동사, 형용사, 부사를 포함하고 나머지 품사는 제거하는 것을 특징으로 한다.

여기서, 상기 선별된 품사별 형태소의 조합은 명사와 형용사를 포함함과 동시에 동사를 제거한 조합인 것을 특징으로 한다.

여기서, 상기 품사의 선별은 OKT(Open Korean Text)분석기를 사용하여 선별하고, 상기 형태소의 벡터화는 TF-IDF를 사용하여 벡터화하는 것을 특징으로 한다.

여기서, 상기 감성유형사전은 댓글의 유형에 따라 복수 개의 감성사전으로 사전에 구축되는 것을 특징으로 한다.

여기서, 상기 전처리작업은 댓글콘텐츠로부터 한글만 남기고 콘텐츠를 클렌징하는 단계와, 이메일과 URL과 HTML 태그 및 특수기호를 제거하는 단계와, 상기 댓글의 글자를 자음과 모음으로 분류하고 맞춤법 검사를 수행하는 단계와, 맞춤법 검사를 수행한 후 맞춤범에 맞추어 상기 댓글을 수정하는 단계와, 수정된 상기 댓글을 문장으로 재조합하는 단계를 포함하는 것을 특징으로 한다.

상술한 구성을 가지는 본 발명에 의한 악성댓글 판별방법은 댓글 데이터를 품사별 형태소로 선별하고, 악성여부의 판별에 영향을 미치지 않는 접미사나 구둣점 등을 제외한 명사, 조사, 동사, 형용사, 부사의 5개의 품사에 해당하는 단어로만 악성댓글을 판별함으로서 악성댓글의 판별 성능을 향상시킬 수 있다.

또한, 본 발명에 의한 악성댓글 판별방법은, 문장에서 단어를 추출시 명사만으로 추출했을 때보다 형용사와 조합하여 추출하고, 동사를 제거하는 경우에 다른 품사를 제거하는 판별모델을 구축하여 악성댓글 판별 성능을 보다 향상시킬 수 있다.

도 1은 본 발명에 의한 악성댓글 판별방법의 흐름도이다.
도 2는 명사와 형용사는 추출하고 동사는 제거한 후의 워드 벡터화의 일예를 나타내는 도면이다.

이하, 첨부된 도면을 참조하여 본 발명에 의한 악성댓글 판별방법에 대하여 실시예로써 상세하게 설명한다.

본 발명에 의한 악성댓글판별방법은, 우선 데이터 수집기를 사용하여 댓글 데이터를 수집한다(S1).

상기 댓글 데이터 수집단계(S1)는 다양한 목적으로 온라인 댓글들을 수집하며, 본 실시예에서는, 파이썬(python) 웹크롤링 소스를 이용하여 포털사이트의 게시글에 포함된 댓글을 수집한다. 상기 댓글의 수집은 네이버, 구글 등의 포털사이트 API(Application Programming Interface)를 통해 게시판, 댓글 정보를 크롤링(Crawling) 함으로써 실시된다.

그런 다음, 상기 댓글데이터 수집단계(S1)에서 수집된 상기 댓글을 행태소 추출과 전처리 단계(S2)를 거친다.

상기 전처리단계는 댓글콘텐츠로부터 한글만 남기고 콘텐츠를 클렌징하는 단계(S2-1)와, 이메일과 URL과 HTML 태그 및 특수기호를 제거하는 단계(S2-2)와, 상기 댓글의 글자를 자음과 모음으로 분류하고 맞춤법 검사를 수행하는 단계(S2-3)를 거친다.

상기 전처리 단계의 예는 다음과 같다.

input : 제 블로그에도 방문해주세요. http://blognavercom/whdals0 <h1> 서이추 환영 </h2> ㅋㅋㅋㅋ ㄱㅅㄱㅅ

output : 제 블로그에도 방문해주세요 서이추 환영

그런 다음, 맞춤법 검사를 수행한 후 맞춤범에 맞추어 상기 댓글을 수정하고, 상기 댓글을 띄어 쓰기를 기준으로 자른 후, 자음과 모음을 분리하고, 자음, 모음 순서를 조합하여 맞춤법 사전과 비교하며, 맞춤법을 검토한다.

상기 S2-4 단계의 예시는 다음과 같다.

input : 제 블로그에도 방문해주세요 서이추 환영

output : 제 / 블로그에도 / 방문해주세요 / 서이추 / 환영

input : 제 / 블로구에도 / 방문해주세요 / 서이추 / 환영

output : {ㅈ,ㅔ}, {ㅂ,ㅡ,ㄹ,ㄹ,ㅗ,ㄱ,ㅜ,ㅇ,ㅔ,ㄷ,ㅗ},{ㅂ,ㅏ,ㅇ,ㅁ,ㅜ,ㄴ,ㅎ,ㅐ,ㅈ,ㅜ,ㅅ,ㅔ,ㅇ,ㅛ}

output : {ㅈ,ㅔ}, {ㅂ,ㅡ,ㄹ,ㄹ,ㅗ,ㄱ,ㅡ,ㅇ,ㅔ,ㄷ,ㅗ},{ㅂ,ㅏ,ㅇ,ㅁ,ㅜ,ㄴ,ㅎ,ㅐ,ㅈ,ㅜ,ㅅ,ㅔ,ㅇ,ㅛ}(맞춤법 사전과 비교하여 맞춤법 수정)

그런 다음, 수정된 상기 댓글을 문장으로 재조합하는 단계(S2-5)를 거친다.

input : {ㅈ,ㅔ}, {ㅂ,ㅡ,ㄹ,ㄹ,ㅗ,ㄱ,ㅡ,ㅇ,ㅔ,ㄷ,ㅗ},{ㅂ,ㅏ,ㅇ,ㅁ,ㅜ,ㄴ,ㅎ,ㅐ,ㅈ,ㅜ,ㅅ,ㅔ,ㅇ,ㅛ}

output : 제 블로그에도 방문해주세요

그런 다음, 상기 전처리된 형태소로부터 형태소 분석기를 사용하여 형태소를 품사별로 선별한다(S3).

본 실시예에서는 악성댓글 판별을 위해 형태소 기반 자질 추출 방법을 통해 분석한다. 본 명세서에서, '자질' 추출이란 문장 혹은 단어로 구성되어있는 데이터를 머신러닝 모델에서 사용할 수 있는 데이터 형태로 가공하는 작업을 의미한다.

본 실시예에서, 상기 형태소 분석기는 KoNLPy에서 제공하는 OKT(Open Korean Text) 분석기를 사용한다. 상기 OKT형태소 분석기를 사용하여, 추출 가능한 28가지 형태소 중에서 악성댓글 판별에 영향을 미칠 수 있는 빈도수가 높은 8개의 형태소를 선별한다.

본 실시예에서는, 악성댓글 10,000건, 비악성댓글 10,000건, 악성댓글과 비악성댓글 혼합 10,000건에서 형태소들의 출현 빈도를 확인하고, 해당 형태소를 기반으로 단어를 추출하여 자질로 사용하였고, 악성댓글 10,000건의 형태소별 출현빈도를 [표 1]에 나타낸다.

악성댓글 10,000건의 형태소별 출현빈도

형태소	출현횟수	빈도순위
Noun	238,641	1
Josa	91,709	2
Verb	71,971	3
Punctuation	30,401	4
Adjective	28,831	5
Foreign	23,834	6
Suffix	15,718	7
Adverb	9,499	8
Number	7,126	9
KoreanParticle	6,796	10
Determiner	4,385	11
Alpha	3,905	12
Conjuction	1,009	13
Exclamation	820	14
URL	560	15
ScreenName	281	16
eomi	200	17
HashTag	45	18
Email	2	19
Unknown	0	20
Proeomi	0	20

실험결과, 악성댓글에서는 명사, 조사, 동사, 구두점, 형용사, 외국어, 접미사가 10,000건 이상 나타났고, 비악성댓글에서는 명사, 조사, 동사, 형용사, 구두점, 접미사가 10,000건 이상 나타났으며, 악성댓글과 비악성댓글 혼합 데이터에서는 명사, 조사, 동사, 구두점, 형용사, 접미사, 외국어, 부사가 10,000건 이상으로 나타났다.

본 실시예에서는, 출현빈도가 높은 복수 개의 형태소 중에서, 구두점, 접미사, 외국어의 경우에는 분류에 도움이 되지 않는 데이터가 대부분을 차지하고 있으므로, 이를 제외한 명사, 조사, 동사, 형용사, 부사 등 5개의 형태소(품사)만을 포함하고 나머지 품사는 제거한다.

그런 다음, 상기 선별된 품사별 형태소를 특정 품사의 조합으로 추출하고, 추출된 상기 품사별 형태소를 벡터화한다.(S4)

그런 다음, 상기 벡터화된 형태소를 서포트 벡터 머신(Support Vector Machine) 알고리즘에 의해 기계학습하고 상기 형태소가 감성유형 사전에 저장된 단어를 포함하는지 여부를 판단하여 모델링을 통해 댓글의 악성여부를 판별(S5)하고, 상기 댓글이 감성유형사전에 저장된 단어를 포함하는 경우 미리 설정된 가중치를 적용하여 결과값을 도출하고 댓글의 악성여부를 판별(S6)한다.

본 실시예에서, 품사를 기반으로 추출된 단어들은 CountVectorizer와 TF-IDF를 사용하여 벡터화한 후, SVM을 사용하여 악성댓글 판별을 수행한다.

본 실시예에서, CountVectorizer 설정은 analyser = word, min_df = 1로 설정한다.

본 실시예에서는, 5개의 품사를 기반으로 추출한 자질들을 다양한 형태의 실험을 통해서 품사 기반 자질이 악성댓글 판별모델에 미치는 영향을 판별하였다.

첫 번째 실험은 명사, 조사, 동사, 형용사, 부사 5개 품사에 해당하는 단어로만 100개씩의 자질을 추출하고 악성댓글 판별 실험을 진행하였고, 두 번째 실험은 품사별로 100개의 자질을 추출한 후, [표 1]에 나오는 출현 빈도순 으로 더해가며 실험을 진행하였고, 세 번째 실험은 최대 자질 수를 500개로 고정하고, 품사 기반 자질을 동일 비율로 추가하며 실험을 진행하였고, 네 번째 실험은 해당 품사에 해당하는 단어의 출현 빈도에 따라 단어가 추가되도록 자질을 구성하여 실험을 진행하였고, 다섯 번째 실험은 최대 자질 수는 500으로 고정한 상태에서 5개 품사 기반 자질을 모두 포함했을 때와 각각의 품사 기반 자질을 제거했을 때의 성능 비교 실험을 진행하였다.

실험결과를 [표 2]에 나타낸다.

품사기반 자질의 악성댓글 판별실험

실험번호	자질수	좋은성능을보이는품사유형(1이높은정확도
		1	2	3	4	5
1-1	100	명사	형용사	동사	부사	조사
1-2	200	형용사	명사	동사	조사	부사
2	100 ~ 500	명사	형용사	동사	부사	조사
3	500	형용사	부사	동사	명사	조사
4-1	500	부사	형용사	동사	조사	명사
	1000	동사	조사	형용사	부사	명사
	1500	형용사	부사	동사	조사	명사
	2000	조사	형용사	명사	부사	동사
	2500	명사	형용사	부사	조사	동사
4-2	500	형용사	명사	동사	부사	조사
	1000	동사	조사	부사	명사	형용사
	1500	형용사	조사	동사	부사	명사
	2000	형용사	부사	명사	조사	동사
	2500	부사	형용사	동사	조사	명사
실험번호	자질수	품사제거시성능순위
5	500	동사	부사	형용사	명사	조사

[표 2]에 나타낸 바와 같이, 문장에서 단어를 추출 시 명사만으로 추출했을 때 보다 형용사와 조합하여 추출했을 때 더 높은 정확도를 보여주었다. 또한, 동사를 제거하는 경우에 다른 품사를 제거한 경우보다 성능이 올라가는 것을 알 수 있었다.

본 발명에 의한 악성댓글 판별방법에 의하면, 상술한 바와 같이, 상기 선별된 품사별 형태소의 조합으로서 명사와 형용사를 포함함과 동시에 동사를 제거한 조합으로 구축함으로써 적은 수의 형태소 추출이라 하더라도 보다 정확도를 향상시킬 수 있다.

도 3은 명사와 형용사는 추출하고 동사는 제거한 후의 워드 벡터화의 일예를 나타내는 도면이다.

상기 악성여부 판별 단계(S5)는, 상기 전처리된 데이터를 기반으로 하여 서포트 벡터 머신(Support Vector Machine) 알고리즘에 의해 기계학습하고 모델링을 통해 댓글의 악성여부를 판별한다.

SVM은 기계학습 분야 중 하나로 두 카테고리 중 어느 하나에 속한 데이터의 집 합이 주어졌을 때, 주어진 데이터집합을 바탕으로 하여 새로운 데이터가 어느 카테고리에 속하는지 판단하는 분류 모델을 만든다. 만들어진 분류 모델은 데이터가 사상된 공간에서 경계로 표현되는데 SVM 알고리즘은 그 중 가장 큰 폭을 가진 경계를 찾는 알고리즘이다.

상기 악성여부 판별은 상기 댓글이 감성유형 사전에 저장된 단어를 포함하는지 여부를 판단한다.

상기 감성유형사전은 댓글의 유형에 따라 복수 개의 감성사전으로 사전에 구축된다. 상기 감성사전은 혐오표현 단어, 비속어 단어를 포함하여 구성된다. 비속어 사전은 예를 들면, "한국어속어"에 해당하는 단어들을 포함할 수 있다. 상기 감성사전은 사전 구축디바이스에 의해 발견된 새로운 혐오 표현 단어들이 저장되고, 지속적으로 업데이트된다.

본 실시예에서, 상기 감성유형사전은 언어폭력, 폭로, 아이디 도용, 사기, 스토킹, 따돌림, 성적모욕 등 7개의 유형으로 분류되고 각각의 감성사전으로 구축된다.

상기 각각의 감성사전에 포함된 단어에는 가중치를 적용할 수 있고, 각각의 단어마다에 별도의 가중치를 설정할 수도 있다. 상기 댓글이 감성유형사전에 저장된 단어를 포함하는 경우 미리 설정된 가중치를 적용한다.

상기 댓글의 내용에 따라서는, 감성사전의 가중치가 다를 수 있다. 예를 들면, 언어폭력 1, , 폭로 1, 성적모욕 1 등의 가중치를 받는 댓글의 경우에는 악성댓글을 판별한 결과, 악성댓글로 판별하고, 유형별 감성유형사전에 각각 가중치를 적용한 결과, 건전도를 추출하면 '건전도 위험' 으로 위험한 악성댓글로 판별하여 댓글을 차단하도록 조절할 수 있다.

본 실시예는 본 발명에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 본 발명의 명세서에 포함된 기술적 사상의 범위내에서 당업자가 용이하게 유추할 수 있는 변형예와 구체적인 실시예는 모두 본 발명의 기술적 사상에 포함되는 것은 자명하다.

S 1 : 댓글데이터 수집단계
S 2 : 전처리 단계
S 3 : 형태소 분석단계
S 4 : 형태소 벡터화 단계
S 5 : 악성여부 판별단계
S 6 : 가중치 적용 및 악성여부 판별단계

Claims

데이터 수집기를 사용하여 댓글 데이터를 수집하는 데이터 수집단계와,
수집된 상기 댓글 데이터로부터 형태소를 추출하고 전처리하는 단계와,
상기 전처리된 형태소로부터 형태소 분석기를 사용하여 형태소를 품사별로 선별하는 단계와,
상기 선별된 품사별 형태소를 특정 품사의 조합으로 추출하고, 추출된 상기 품사별 형태소를 벡터화하는 단계와,
상기 벡터화된 형태소를 서포트 벡터 머신(Support Vector Machine) 알고리즘에 의해 기계학습하고 상기 형태소가 감성유형 사전에 저장된 단어를 포함하는지 여부를 판단하여 모델링을 통해 댓글의 악성여부를 판별하는 단계와,
상기 댓글이 감성유형사전에 저장된 단어를 포함하는 경우 미리 설정된 가중치를 적용하여 결과값을 도출하고 댓글의 악성여부를 판별하는 단계를 포함하는 것을 특징으로 하는 악성댓글 판별방법.
제 1 항에 있어서,
상기 선별된 형태소의 품사는 명사, 조사, 동사, 형용사, 부사를 포함하고 나머지 품사는 제거하는 것을 특징으로 하는 악성댓글 판별방법.
제 2 항에 있어서,
상기 선별된 품사별 형태소의 조합은 명사와 형용사를 포함함과 동시에 동사를 제거한 조합인 것을 특징으로 하는 악성댓글 판별방법.
제 1 항에 있어서,
상기 품사의 선별은 OKT(Open Korean Text)분석기를 사용하여 선별하고,
상기 형태소의 벡터화는 TF-IDF를 사용하여 벡터화하는 것을 특징으로 하는 악성댓글 판별방법.
제 1 항에 있어서,
상기 감성유형사전은 댓글의 유형에 따라 복수 개의 감성사전으로 사전에 구축되는 것을 특징으로 하는 악성댓글 판별방법.
제 1 항에 있어서,
상기 전처리단계는,
댓글콘텐츠로부터 한글만 남기고 콘텐츠를 클렌징하는 단계와,
이메일과 URL과 HTML 태그 및 특수기호를 제거하는 단계와,
상기 댓글의 글자를 자음과 모음으로 분류하고 맞춤법 검사를 수행하는 단계와,
맞춤법 검사를 수행한 후 맞춤범에 맞추어 상기 댓글을 수정하는 단계와,
수정된 상기 댓글을 문장으로 재조합하는 단계를 포함하는 것을 특징으로 하는 악성댓글 판별방법