KR102366369B1

KR102366369B1 - 악성 텍스트 데이터 인식방법 및 악성 텍스트 데이터 인식장치

Info

Publication number: KR102366369B1
Application number: KR1020200069352A
Authority: KR
Inventors: 이일구; 류정화; 윤희선; 이유림; 이은영; 전소은
Original assignee: 성신여자대학교 연구 산학협력단
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2022-02-22
Also published as: KR20210152645A

Abstract

본 발명의 실시예에 따른 악성 텍스트 데이터 인식방법에서는, 변형문자 처리부가 입력문장에서 표준한글에 해당하지 않는 변형문자의 포함여부를 판단하여 변형문자를 표준한글 텍스트로 변환하고, 표준한글 문장을 제공할 수 있다. 분석부가 표준한글 문장에 포함되는 분석단어들에 따라 결정되는 극성값 및 분석값에 기초하여 악성도를 제공할 수 있다. 악성글 판단부가 악성도에 따라 입력문장이 악성글인지 여부를 판단하는 판단결과를 제공할 수 있다.
본 발명에 따른 악성 텍스트 데이터 인식방법에서는, 입력문장을 표준한글 문장으로 변환하고, 표준한글 문장에 상응하는 극성값 및 분석값에 기초하여 악성도를 제공하여 악성도에 따라 입력문장이 악성글인지 여부를 판단함으로써 악성 댓글에 대해서 보다 효과적으로 대응할 수 있다.

Description

악성 텍스트 데이터 인식방법 및 악성 텍스트 데이터 인식장치{RECOGNITION METHOD AND RECOGNITION DEVICE OF VICIOUS TEXT DATA}

본 발명은 악성 텍스트 데이터 인식방법 및 악성 텍스트 데이터 인식장치에 관한 것이다.

온라인 사용자들은 온라인 상의 게시물에 대해 다양한 의견을 제시하기 위하여 댓글을 이용할 수 있다. 온라인 사용자들이 작성하는 댓글 중에는 게시물 작성자를 응원하는 내용뿐만 아니라, 게시물 작성자를 비난하는 내용들도 다수 포함될 수 있다. 인신 공격하는 댓글은 게시물 작성자를 심리적으로 위축시켜 사회생활에 어려움을 겪는 경우도 발생하고 있다. 최근, 이와 같은 악성 댓글을 차단하기 위한 다양한 연구들이 진행되고 있다.

(한국등록특허) 제10-1414084호 (등록일자, 2014.06.25)

본 발명에서 이루고자 하는 기술적 과제는 입력문장을 표준한글 문장으로 변환하고, 표준한글 문장에 상응하는 극성값 및 분석값에 기초하여 악성도를 제공하여 악성도에 따라 입력문장이 악성글인지 여부를 판단하는 악성 텍스트 데이터 인식방법을 제공하는 것이다.

이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 악성 텍스트 데이터 인식방법에서는, 변형문자 처리부가 입력문장에서 표준한글에 해당하지 않는 변형문자의 포함여부를 판단하여 상기 변형문자를 표준한글 텍스트로 변환하고, 표준한글 문장을 제공할 수 있다. 분석부가 상기 표준한글 문장에 포함되는 분석단어들에 따라 결정되는 극성값 및 분석값에 기초하여 악성도를 제공할 수 있다. 악성글 판단부가 상기 악성도에 따라 상기 입력문장이 악성글인지 여부를 판단하는 판단결과를 제공할 수 있다.

일 실시예에 있어서, 상기 변형문자 처리부는 이미지 처리부 및 음차변환 처리부를 포함할 수 있다. 이미지 처리부는 상기 입력문장에 포함되는 상기 변형문자 중 이미지 변형문자 및 제1 데이터 베이스에 미리 저장된 표준 텍스트 학습 이미지를 비교하여 중간 변환문장을 제공할 수 있다. 음차변환 처리부는 상기 중간 변환문장에 포함되는 상기 변형문자 중 외래어 변형문자 및 제2 데이터 베이스에 미리 저장된 외래어 학습 데이터를 비교하여 상기 표준한글 문장을 제공할 수 있다.

일 실시예에 있어서, 상기 입력문장에 상기 변형문자가 포함되지 않는 경우, 상기 변형문자 처리부는 상기 입력문장을 상기 표준한글 문장으로 제공할 수 있다.

일 실시예에 있어서, 상기 분석부는 텍스트 분석부, 분석치 추출부 및 악성도 분석부를 포함할 수 있다. 텍스트 분석부는 상기 표준한글 문장에 포함되는 상기 분석단어들을 악성단어 데이터베이스에 저장된 비교단어와 비교하여 상기 분석단어들의 긍정 또는 부정의 정도를 나타내는 극성값을 제공할 수 있다. 분석치 추출부는 상기 표준한글 문장에 포함되는 상기 분석단어들 간의 맥락관계를 분석하여 분석값을 제공할 수 있다. 악성도 분석부는 상기 극성값 및 상기 분석값에 기초하여 상기 악성도를 제공할 수 있다.

일 실시예에 있어서, 상기 악성도 분석부로부터 제공되는 상기 악성도는 상기 극성값 및 상기 분석값의 합일 수 있다.

일 실시예에 있어서, 상기 악성도가 미리 정해진 판단 기준값보다 같거나 큰 경우, 상기 악성글 판단부는 악성글에 상응하는 상기 판단결과를 제공할 수 있다.

일 실시예에 있어서, 상기 악성도가 미리 정해진 판단 기준값보다 작은 경우, 상기 악성글 판단부는 정상글에 상응하는 상기 판단결과를 제공할 수 있다.

일 실시예에 있어서, 상기 악성 텍스트 데이터 인식방법에서는, 상기 악성글 판단부가 상기 정상글에 상응하는 상기 판단결과를 제공하는 경우, 상기 판단결과의 신뢰도를 판단하는 단계를 더 포함할 수 있다.

일 실시예에 있어서, 상기 판단결과의 신뢰도는 상기 입력문장의 작성자 및 작성매체가 기존에 작성한 문장에 대한 신뢰도가 저장된 신뢰도 데이터베이스로부터 제공되는 데이터베이스 신뢰도에 기초하여 결정될 수 있다.

일 실시예에 있어서, 상기 데이터베이스 신뢰도가 미리 정해진 기준 신뢰도보다 같거나 큰 경우, 상기 판단결과의 신뢰도는 높은 것으로 판단하고, 상기 데이터베이스 신뢰도가 상기 기준 신뢰도보다 작은 경우, 상기 판단결과의 신뢰도는 낮은 것으로 판단할 수 있다.

일 실시예에 있어서, 상기 악성 텍스트 데이터 인식방법에서는, 상기 악성글 판단부가 상기 정상글에 상응하는 상기 판단결과를 제공하는 경우, 상기 입력문장과의 유사도가 미리 정해진 기준 유사도 이상인 유사글 군집을 추출하고, 상기 유사글 군집의 신뢰도에 따라 상기 판단결과의 신뢰도를 결정하는 단계를 더 포함할 수 있다.

일 실시예에 있어서, 상기 유사글 군집의 신뢰도가 미리 정해진 군집 신뢰도보다 같거나 큰 경우, 상기 판단결과의 신뢰도는 높은 것으로 판단하고, 상기 유사글 군집의 신뢰도가 상기 군집 신뢰도보다 작은 경우, 상기 판단결과의 신뢰도는 낮은 것으로 판단할 수 있다.

이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 악성 텍스트 데이터 인식장치는 변형문자 처리부, 분석부 및 악성글 판단부를 포함할 수 있다. 변형문자 처리부는 입력문장에 표준한글에 해당하지 않는 변형문자의 포함여부를 판단하여 상기 변형문자를 표준한글 텍스트로 변환하고, 표준한글 문장을 제공할 수 있다. 분석부는 상기 표준한글 문장에 기초하여 악성글인지 여부를 판단하는 악성도를 제공할 수 있다. 악성글 판단부는 상기 악성도에 따라 상기 입력문장이 악성글인지 여부를 판단하는 판단결과를 제공할 수 있다.

위에서 언급된 본 발명의 기술적 과제 외에도, 본 발명의 다른 특징 및 이점들이 이하에서 기술되거나, 그러한 기술 및 설명으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

이상과 같은 본 발명에 따르면 다음과 같은 효과가 있다.

본 발명에 따른 악성 텍스트 데이터 인식방법에서는, 입력문장을 표준한글 문장으로 변환하고, 표준한글 문장에 상응하는 극성값 및 분석값에 기초하여 악성도를 제공하여 악성도에 따라 입력문장이 악성글인지 여부를 판단함으로써 악성 댓글에 대해서 보다 효과적으로 대응할 수 있다.

이 밖에도, 본 발명의 실시 예들을 통해 본 발명의 또 다른 특징 및 이점들이 새롭게 파악될 수도 있을 것이다.

도 1은 본 발명의 실시예들에 따른 악성 텍스트 데이터 인식방법을 나타내는 순서도이다.
도 2는 본 발명의 실시예들에 따른 악성 텍스트 데이터 인식장치를 나타내는 도면이다.
도 3은 도 2의 악성 텍스트 데이터 인식장치에 포함되는 변형문자 처리부를 나타내는 도면이다.
도 4는 도 2의 악성 텍스트 데이터 인식장치에 적용되는 입력문장의 일 예를 나타내는 도면이다.
도 5는 도 2의 악성 텍스트 데이터 인식장치에 적용되는 중간 변환문장의 일 예를 나타내는 도면이다.
도 6은 도 2의 악성 텍스트 데이터 인식장치에 적용되는 표준한글 문장의 일 예를 나타내는 도면이다.
도 7은 도 2의 악성 텍스트 데이터 인식장치에 포함되는 분석부를 나타내는 도면이다.
도 8은 도 7의 분석부에 적용되는 악성단어 데이터베이스의 일 예를 나타내는 도면이다.
도 9는 도 7의 분석부에 적용되는 맥락관계 데이터베이스의 일 예를 나타내는 도면이다.
도 10은 본 발명의 일 실시예에 따른 악성 텍스트 데이터 인식방법을 나타내는 순서도이다.
도 11 및 12는 도 10의 악성 텍스트 데이터 인식방법의 동작을 설명하기 위한 도면이다.
도 13은 본 발명의 일 실시예에 따른 악성 텍스트 데이터 인식방법을 나타내는 순서도이다.
도 14 및 15는 도 13의 악성 텍스트 데이터 인식방법의 동작을 설명하기 위한 도면이다.

본 명세서에서 각 도면의 구성 요소들에 참조번호를 부가함에 있어서 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한한 동일한 번호를 가지도록 하고 있음에 유의하여야 한다.

한편, 본 명세서에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 정의하지 않는 한, 복수의 표현을 포함하는 것으로 이해되어야 하는 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다.

"포함하다" 또는 "가지다" 등의 용어는 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이하, 첨부되는 도면을 참고하여 상기 문제점을 해결하기 위해 고안된 본 발명의 바람직한 실시예들에 대해 상세히 설명한다.

도 1은 본 발명의 실시예들에 따른 악성 텍스트 데이터 인식방법을 나타내는 순서도이고, 도 2는 본 발명의 실시예들에 따른 악성 텍스트 데이터 인식장치를 나타내는 도면이고, 도 3은 도 2의 악성 텍스트 데이터 인식장치에 포함되는 변형문자 처리부를 나타내는 도면이고, 도 4는 도 2의 악성 텍스트 데이터 인식장치에 적용되는 입력문장의 일 예를 나타내는 도면이고, 도 5는 도 2의 악성 텍스트 데이터 인식장치에 적용되는 중간 변환문장의 일 예를 나타내는 도면이고, 도 6은 도 2의 악성 텍스트 데이터 인식장치에 적용되는 표준한글 문장의 일 예를 나타내는 도면이다.

도 1 내지 6을 참조하면, 본 발명의 실시예에 따른 악성 텍스트 데이터 인식장치(10)는 변형문자 처리부(100), 분석부(200) 및 악성글 판단부(300)를 포함할 수 있다. 본 발명의 실시예에 따른 악성 텍스트 데이터 인식방법에서는, 변형문자 처리부(100)가 입력문장(IS)에서 표준한글에 해당하지 않는 변형문자(CC)의 포함여부를 판단하여 변형문자(CC)를 표준한글 텍스트로 변환하고, 표준한글 문장(SKS)을 제공할 수 있다(S100).

일 실시예에 있어서, 변형문자 처리부(100)는 분석부(200) 및 음차변환 처리부(120)를 포함할 수 있다. 분석부(200)는 입력문장(IS)에 포함되는 변형문자(CC) 중 이미지 변형문자(ICC) 및 제1 데이터 베이스(13)에 미리 저장된 표준 텍스트 학습 이미지(STI)를 비교하여 중간 변환문장(ICS)을 제공할 수 있다. 예를 들어, 입력문장(IS)은 "쟤 완전

네. JONNA 싫다."일 수 있다. 이 경우, 입력문장(IS)은 변형문자(CC)를 포함할 수 있다. 변형문자(CC)는 이미지 변형문자(ICC) 및 외래어 변형문자(FCC)를 포함할 수 있다.

이미지 변형문자(ICC)는 단말기를 통해서 텍스트로 작성하기 어려워 이미지의 형태로 구성하여 의미를 전달하는 문자일 수 있고, 외래어 변형문자(FCC)는 외래의 발음을 이용하여 의미를 전달하는 문자일 수 있다. "쟤 완전

네. JONNA 싫다."라는 입력문장(IS)에서 "

"는 이미지 변형문자(ICC)일 수 있고, "JONNA"는 외래어 변형문자(FCC)일 수 있다.

변형문자 처리부(100)에 포함되는 분석부(200)는 입력문장(IS)에 포함되는 변형문자(CC) 중 이미지 변형문자(ICC) 및 제1 데이터 베이스(13)에 미리 저장된 표준 텍스트 학습 이미지(STI)를 비교하여 중간 변환문장(ICS)을 제공할 수 있다. 제1 데이터 베이스(13)에는 표준 텍스트 학습 이미지(STI)에 상응하는 표준한글 텍스트가 저장될 수 있고, 표준 텍스트 학습 이미지(STI)는 이미지 변형문자(ICC)와 대비되기 위해서 제1 데이터 베이스(13)로부터 제공될 수 있다. 예를 들어, "

"는 이미지 변형문자(ICC)일 수 있고, "

"라는 이미지 변형문자(ICC)에 상응하는 표준 텍스트 학습 이미지(STI)는 "또라이"일 수 있다. 이 경우, 분석부(200)는 "

"라는 이미지 변형문자(ICC)를 "또라이"라는 표준한글 텍스트로 변환하여 "쟤 완전 또라이네. JONNA싫다."라는 중간 변환문장(ICS)을 제공할 수 있다.

음차변환 처리부(120)는 중간 변환문장(ICS)에 포함되는 변형문자(CC) 중 외래어 변형문자(FCC) 및 제2 데이터 베이스(14)에 미리 저장된 외래어 학습 데이터(FLD)를 비교하여 표준한글 문장(SKS)을 제공할 수 있다. 제2 데이터 베이스(14)에는 외래어 학습 데이터(FLD)에 상응하는 표준한글 텍스트가 저장될 수 있고, 외래어 학습 데이터(FLD)는 외래어 변형문자(FCC)와 대비되기 위해서 제2 데이터 베이스(14)로부터 제공될 수 있다. 예를 들어, "JONNA"는 외래어 변형문자(FCC)일 수 있고, "JONNA"라는 외래어 변형문자(FCC)에 상응하는 표준한글 텍스트는 "존나"일 수 있다. 이 경우, 음차변환 처리부(120)는 "JONNA"라는 외래어 변형문자(FCC)를 "존나"라는 표준한글 텍스트로 변환하여 "쟤 완전 또라이네. 존나 싫다."라는 표준한글 문장(SKS)을 제공할 수 있다.

일 실시예에 있어서, 입력문장(IS)에 변형문자(CC)가 포함되지 않는 경우, 변형문자 처리부(100)는 입력문장(IS)을 표준한글 문장(SKS)으로 제공할 수 있다. 예를 들어, 입력문장(IS)이 "쟤 완전 또라이네. 존나 싫다."일 수 있다. 이 경우, 입력문장(IS)에는 이미지 변형문자(ICC) 및 외래어 변형문자(FCC)가 포함되지 않을 수 있다. 입력문장(IS)에 이미지 변형문자(ICC) 및 외래어 변형문자(FCC)가 포함되지 않은 경우, 변형문자 처리부(100)는 "쟤 완전 또라이네. 존나 싫다."라는 입력문장(IS)을 그대로 표준한글 문장(SKS)으로 제공할 수 있다.

도 7은 도 2의 악성 텍스트 데이터 인식장치에 포함되는 분석부를 나타내는 도면이고, 도 8은 도 7의 분석부에 적용되는 악성단어 데이터베이스의 일 예를 나타내는 도면이고, 도 9는 도 7의 분석부에 적용되는 맥락관계 데이터베이스의 일 예를 나타내는 도면이다.

도 7 내지 9를 참조하면, 본 발명의 실시예에 따른 악성 텍스트 데이터 인식장치(10)는 변형문자 처리부(100), 분석부(200) 및 악성글 판단부(300)를 포함할 수 있다. 분석부(200)가 표준한글 문장(SKS)에 포함되는 분석단어들에 따라 결정되는 극성값(PV) 및 분석값(AV)에 기초하여 악성도(AD)를 제공할 수 있다(S200).

일 실시예에 있어서, 분석부(200)는 텍스트 분석부(210), 분석치 추출부(220) 및 악성도 분석부(230)를 포함할 수 있다. 텍스트 분석부(210)는 표준한글 문장(SKS)에 포함되는 분석단어들을 악성단어 데이터베이스(17)에 저장된 비교단어(CW)와 비교하여 분석단어들의 긍정 또는 부정의 정도를 나타내는 극성값(PV)을 제공할 수 있다. 예를 들어, 표준한글 문장(SKS)은 "쟤 완전 또라이네. 존나 싫다."일 수 있다. 표준한글 문장(SKS)에 포함되는 분석단어들은 "쟤", "완전", "또라이", "존나" 및 "싫다"일 수 있다.

또한, 악성단어 데이터베이스(17)는 비교단어(CW) 및 비교단어(CW)의 긍정 또는 부정의 정도를 나타내는 극성값(PV)이 저장될 수 있다. 예를 들어, 악성단어 데이터베이스(17)에 저장된 비교단어(CW)가 "쟤"일 수 있고, "쟤"에 상응하는 극성값(PV)은 1일 수 있고, 악성단어 데이터베이스(17)에 저장된 비교단어(CW)가 "완전"일 수 있고, "완전"에 상응하는 극성값(PV)은 0일 수 있고, 악성단어 데이터베이스(17)에 저장된 비교단어(CW)가 "또라이"일 수 있고, "또라이"에 상응하는 극성값(PV)은 5일 수 있다. 또한, 악성단어 데이터베이스(17)에 저장된 비교단어(CW)가 "존나"일 수 있고, "존나"에 상응하는 극성값(PV)은 5일 수 있고, 악성단어 데이터베이스(17)에 저장된 비교단어(CW)가 "싫다"일 수 있고, "싫다"에 상응하는 극성값(PV)은 2일 수 있다.

이 경우, 텍스트 분석부(210)는 분석단어들에 해당하는 "쟤", "완전", "또라이", "존나" 및 "싫다"의 극성값(PV)인 1, 0, 5, 5, 2를 악성도 분석부(230)에 제공할 수 있다.

분석치 추출부(220)는 표준한글 문장(SKS)에 포함되는 분석단어들 간의 맥락관계(MR)를 분석하여 분석값(AV)을 제공할 수 있다. 예를 들어, 표준한글 문장(SKS)은 "쟤 완전 또라이네. 존나 싫다."일 수 있고, 표준한글 문장(SKS)에 포함되는 분석단어들은 "쟤", "완전", "또라이", "존나" 및 "싫다"일 수 있다.

또한, 맥락관계 데이터베이스(18)는 맥락관계(MR) 및 분석값(AV)이 저장될 수 있다. 맥락관계(MR)는 표준한글 문장(SKS)에서 인접한 분석단어들 간의 관계일 수 있고, 분석값(AV)은 맥락관계(MR)를 통해서 획득된 분석단어들 간의 긍정 또는 부정의 정도를 분석한 값일 수 있다. 예를 들어, 제1 맥락관계(MR1)는 "쟤"와 "완전"의 관계를 나타낼 수 있고, 제1 맥락관계(MR1)의 분석값(AV)은 2일 수 있다. 또한, 제2 맥락관계(MR2)는 "완전"과 "또라이"의 관계를 나타낼 수 있고, 제2 맥락관계(MR2)의 분석값(AV)은 3일 수 있다. 또한, 제3 맥락관계(MR3)는 "또라이"와 "존나"의 관계를 나타낼 수 있고, 제3 맥락관계(MR3)의 분석값(AV)은 4일 수 있다. 또한, 제4 맥락관계(MR4)는 "존나"와 "싫다"의 관계를 나타낼 수 있고, 제4 맥락관계(MR4)의 분석값(AV)은 5일 수 있다.

이 경우, 분석치 추출부(220)는 제1 내지 제5 맥락관계에 상응하는 분석값(AV)인 2, 3, 4, 5를 악성도 분석부(230)에 제공할 수 있다.

악성도 분석부(230)는 극성값(PV) 및 분석값(AV)에 기초하여 악성도(AD)를 제공할 수 있다. 일 실시예에 있어서, 악성도 분석부(230)로부터 제공되는 악성도(AD)는 극성값(PV) 및 분석값(AV)의 합일 수 있다. 예를 들어, 표준한글 문장(SKS)은 "쟤 완전 또라이네. 존나 싫다."일 수 있다. 표준한글 문장(SKS)이 "쟤 완전 또라이네. 존나 싫다."인 경우, 텍스트 분석부(210)로부터 제공되는 극성값(PV)은 1, 0, 5, 5, 2일 수 있고, 분석치 추출부(220)로부터 제공되는 분석값(AV)은 2, 3, 4, 5일 수 있다. 이 경우, 악성도 분석부(230)는 텍스트 분석부(210)로부터 제공되는 극성값(PV) 및 분석치 추출부(220)로부터 제공되는 분석값(AV)을 합한 값인 28을 악성도(AD)로 제공할 수 있다.

악성글 판단부(300)가 악성도(AD)에 따라 입력문장(IS)이 악성글인지 여부를 판단하는 판단결과(DR)를 제공할 수 있다(S300). 일 실시예에 있어서, 악성도(AD)가 미리 정해진 판단 기준값보다 같거나 큰 경우, 악성글 판단부(300)는 악성글에 상응하는 판단결과(DR)를 제공할 수 있다. 예를 들어, 판단 기준값은 15일 수 있고, 악성도 분석부(230)로부터 제공되는 악성도(AD)는 28일 수 있다. 이 경우, 악성글 판단부(300)는 악성글에 상응하는 판단결과(DR)를 제공할 수 있다.

일 실시예에 있어서, 악성도(AD)가 미리 정해진 판단 기준값보다 작은 경우, 악성글 판단부(300)는 정상글에 상응하는 판단결과(DR)를 제공할 수 있다.

도 10은 본 발명의 일 실시예에 따른 악성 텍스트 데이터 인식방법을 나타내는 순서도이고, 도 11 및 12는 도 10의 악성 텍스트 데이터 인식방법의 동작을 설명하기 위한 도면이다.

도 1 내지 12를 참조하면, 본 발명의 실시예에 따른 악성 텍스트 데이터 인식방법에서는, 변형문자 처리부(100)가 입력문장(IS)에서 표준한글에 해당하지 않는 변형문자(CC)의 포함여부를 판단하여 변형문자(CC)를 표준한글 텍스트로 변환하고, 표준한글 문장(SKS)을 제공할 수 있다(S100). 분석부(200)가 표준한글 문장(SKS)에 포함되는 분석단어들에 따라 결정되는 극성값(PV) 및 분석값(AV)에 기초하여 악성도(AD)를 제공할 수 있다(S200). 악성글 판단부(300)가 악성도(AD)에 따라 입력문장(IS)이 악성글인지 여부를 판단하는 판단결과(DR)를 제공할 수 있다(S300).

일 실시예에 있어서, 악성 텍스트 데이터 인식방법에서는, 악성글 판단부(300)가 정상글에 상응하는 판단결과(DR)를 제공하는 경우, 판단결과(DR)의 신뢰도(DRB)를 판단하는 단계를 더 포함할 수 있다(S400). 예를 들어, 판단결과(DR)의 신뢰도(DRB)는 입력문장(IS)의 작성자 및 작성매체가 기존에 작성한 문장에 대한 신뢰도(WB/WMB)가 저장된 신뢰도 데이터베이스(500)로부터 제공되는 데이터베이스 신뢰도(DBB)에 기초하여 결정될 수 있다.

일 실시예에 있어서, 데이터베이스 신뢰도(DBB)가 미리 정해진 기준 신뢰도보다 같거나 큰 경우, 판단결과(DR)의 신뢰도(DRB)는 높은 것으로 판단하고, 데이터베이스 신뢰도(DBB)가 기준 신뢰도보다 작은 경우, 판단결과(DR)의 신뢰도(DRB)는 낮은 것으로 판단할 수 있다. 예를 들어, 제1 작성자(A), 제2 작성자(B), 제3 작성자(C) 및 제4 작성자(D)가 기존에 작성한 글들에 대한 신뢰도는 신뢰도 데이터 베이스에 저장될 수 있다. 기준 신뢰도는 70%일 수 있다. 또한, 제1 작성자(A)의 글에 대한 신뢰도는 80%일 수 있고, 제2 작성자(B)의 글에 대한 신뢰도는 15%일 수 있고, 제3 작성자(C)의 글에 대한 신뢰도는 90%일 수 있고, 제4 작성자(D)의 글에 대한 신뢰도는 80%일 수 있다. 이 경우, 입력문장(IS)의 작성자가 제1 작성자(A)인 경우, 제1 작성자(A)의 글에 대한 신뢰도는 80%이고, 기준 신뢰도보다 높으므로 판단결과(DR)의 신뢰도(DRB)는 높다고 판단될 수 있다.

도 13은 본 발명의 일 실시예에 따른 악성 텍스트 데이터 인식방법을 나타내는 순서도이고, 도 14 및 15는 도 13의 악성 텍스트 데이터 인식방법의 동작을 설명하기 위한 도면이다.

악성 텍스트 데이터 인식방법에서는, 악성글 판단부(300)가 정상글에 상응하는 판단결과(DR)를 제공하는 경우, 입력문장(IS)과의 유사도가 미리 정해진 기준 유사도 이상인 유사글 군집을 추출하고, 유사글 군집의 신뢰도(SGB)에 따라 판단결과(DR)의 신뢰도(DRB)를 결정하는 단계(S500)를 더 포함할 수 있다.

일 실시예에 있어서, 유사글 군집의 신뢰도(SGB)가 미리 정해진 군집 신뢰도보다 같거나 큰 경우, 판단결과(DR)의 신뢰도(DRB)는 높은 것으로 판단하고, 유사글 군집의 신뢰도(SGB)가 군집 신뢰도보다 작은 경우, 판단결과(DR)의 신뢰도(DRB)는 낮은 것으로 판단할 수 있다.

유사글 군집은 작성된 글들의 유사도에 따라 분류되는 글들의 집합일 수 있다. 유사글 군집의 신뢰도(SGB)는 유사군 군집에 포함되는 글들의 신뢰정도를 나타낼 수 있고, 유사글 군집의 신뢰도(SGB)는 유사글 군집 신뢰도 데이터베이스(600)에 저장될 수 있다. 예를 들어, 유사글 군집은 제1 군집(G1), 제2 군집(G2), 제3 군집(G3) 및 제4 군집(G4)을 포함할 수 있다. 군집 신뢰도는 70%일 수 있다. 또한, 제1 군집(G1)의 신뢰도는 83%일 수 있고, 제2 군집(G2)의 신뢰도는 12%일 수 있고, 제3 군집(G3)의 신뢰도는 95%일 수 있고, 제4 군집(G4)의 신뢰도는 11%일 수 있다. 이 경우, 입력문장(IS)이 제2 군집(G2)에 포함되는 경우, 제2 군집(G2)의 신뢰도가 군집 신뢰도보다 낮으므로 판단결과(DR)의 신뢰도(DRB)는 낮다고 판단될 수 있다.

이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 악성 텍스트 데이터 인식장치(10)는 변형문자 처리부(100), 분석부(200) 및 악성글 판단부(300)를 포함할 수 있다. 변형문자 처리부(100)는 입력문장(IS)에 표준한글에 해당하지 않는 변형문자(CC)의 포함여부를 판단하여 변형문자(CC)를 표준한글 텍스트로 변환하고, 표준한글 문장(SKS)을 제공할 수 있다. 분석부(200)는 표준한글 문장(SKS)에 기초하여 악성글인지 여부를 판단하는 악성도(AD)를 제공할 수 있다. 악성글 판단부(300)는 악성도(AD)에 따라 입력문장(IS)이 악성글인지 여부를 판단하는 판단결과(DR)를 제공할 수 있다.

일 실시예에 있어서, 변형문자 처리부(100)는 분석부(200) 및 음차변환 처리부(120)를 포함할 수 있다. 분석부(200)는 입력문장(IS)에 포함되는 변형문자(CC) 중 이미지 변형문자(ICC) 및 제1 데이터 베이스(13)에 미리 저장된 표준 텍스트 학습 이미지(STI)를 비교하여 중간 변환문장(ICS)을 제공할 수 있다. 음차변환 처리부(120)는 중간 변환문장(ICS)에 포함되는 변형문자(CC) 중 외래어 변형문자(FCC) 및 제2 데이터 베이스(14)에 미리 저장된 외래어 학습 데이터(FLD)를 비교하여 표준한글 문장(SKS)을 제공할 수 있다.

10: 악성 텍스트 데이터 인식장치 100: 변형문자 처리부
200: 분석부 300: 악성글 판단부
110: 이미지 처리부 120: 음차변환 처리부
210: 텍스트 분석부 220: 분석치 추출부
230: 악성도 분석부

Claims

변형문자 처리부가 입력문장에서 표준한글에 해당하지 않는 변형문자의 포함여부를 판단하여 상기 변형문자를 표준한글 텍스트로 변환하고, 표준한글 문장을 제공하는 단계;
분석부가 상기 표준한글 문장에 포함되는 분석단어들에 따라 결정되는 극성값 및 분석값에 기초하여 악성도를 제공하는 단계; 및
악성글 판단부가 상기 악성도에 따라 상기 입력문장이 악성글인지 여부를 판단하는 판단결과를 제공하는 단계를 포함하고,
상기 악성도가 미리 정해진 판단 기준값보다 작은 경우,
상기 악성글 판단부는 정상글이라는 상기 판단결과를 제공하고, 상기 입력문장의 작성자 및 작성매체가 기존에 작성한 문장에 대한 신뢰도가 저장된 신뢰도 데이터베이스로부터 제공되는 데이터베이스 신뢰도에 따라 상기 판단결과의 신뢰도가 있는지 여부를 판단하는 것을 특징으로 하는 악성 텍스트 데이터 인식방법.
제1항에 있어서,
상기 변형문자 처리부는,
상기 입력문장에 포함되는 상기 변형문자 중 이미지 변형문자 및 제1 데이터 베이스에 미리 저장된 표준 텍스트 학습 이미지를 비교하여 중간 변환문장을 제공하는 이미지 처리부; 및
상기 중간 변환문장에 포함되는 상기 변형문자 중 외래어 변형문자 및 제2 데이터 베이스에 미리 저장된 외래어 학습 데이터를 비교하여 상기 표준한글 문장을 제공하는 음차변환 처리부를 포함하는 것을 특징으로 하는 악성 텍스트 데이터 인식방법.
제1항에 있어서,
상기 입력문장에 상기 변형문자가 포함되지 않는 경우,
상기 변형문자 처리부는 상기 입력문장을 상기 표준한글 문장으로 제공하는 것을 특징으로 하는 악성 텍스트 데이터 인식방법.
제1항에 있어서,
상기 분석부는,
상기 표준한글 문장에 포함되는 상기 분석단어들을 악성단어 데이터베이스에 저장된 비교단어와 비교하여 상기 분석단어들의 긍정 또는 부정의 정도를 나타내는 극성값을 제공하는 텍스트 분석부;
상기 표준한글 문장에 포함되는 상기 분석단어들 간의 맥락관계를 분석하여 분석값을 제공하는 분석치 추출부; 및
상기 극성값 및 상기 분석값에 기초하여 상기 악성도를 제공하는 악성도 분석부를 포함하는 것을 특징으로 하는 악성 텍스트 데이터 인식방법.
제4항에 있어서,
상기 악성도 분석부로부터 제공되는 상기 악성도는 상기 극성값 및 상기 분석값의 합인 것을 특징으로 하는 악성 텍스트 데이터 인식방법.
제5항에 있어서,
상기 악성도가 미리 정해진 판단 기준값보다 같거나 큰 경우,
상기 악성글 판단부는 악성글에 상응하는 상기 판단결과를 제공하는 것을 특징으로 하는 악성 텍스트 데이터 인식방법.
삭제
삭제
삭제
제6항에 있어서,
상기 데이터베이스 신뢰도가 미리 정해진 기준 신뢰도보다 같거나 큰 경우,
상기 판단결과의 신뢰도는 높은 것으로 판단하고,
상기 데이터베이스 신뢰도가 상기 기준 신뢰도보다 작은 경우,
상기 판단결과의 신뢰도는 낮은 것으로 판단하는 것을 특징으로 하는 악성 텍스트 데이터 인식방법.
제10항에 있어서,
상기 악성 텍스트 데이터 인식방법은,
상기 악성글 판단부가 상기 정상글에 상응하는 상기 판단결과를 제공하는 경우,
상기 입력문장과의 유사도가 미리 정해진 기준 유사도 이상인 유사글 군집을 추출하고, 상기 유사글 군집의 신뢰도에 따라 상기 판단결과의 신뢰도를 결정하는 단계를 더 포함하는 악성 텍스트 데이터 인식방법.
제11항에 있어서,
상기 유사글 군집의 신뢰도가 미리 정해진 군집 신뢰도보다 같거나 큰 경우,
상기 판단결과의 신뢰도는 높은 것으로 판단하고,
상기 유사글 군집의 신뢰도가 상기 군집 신뢰도보다 작은 경우,
상기 판단결과의 신뢰도는 낮은 것으로 판단하는 것을 특징으로 하는 악성 텍스트 데이터 인식방법.
삭제
삭제