KR102366369B1 - 악성 텍스트 데이터 인식방법 및 악성 텍스트 데이터 인식장치 - Google Patents

악성 텍스트 데이터 인식방법 및 악성 텍스트 데이터 인식장치 Download PDF

Info

Publication number
KR102366369B1
KR102366369B1 KR1020200069352A KR20200069352A KR102366369B1 KR 102366369 B1 KR102366369 B1 KR 102366369B1 KR 1020200069352 A KR1020200069352 A KR 1020200069352A KR 20200069352 A KR20200069352 A KR 20200069352A KR 102366369 B1 KR102366369 B1 KR 102366369B1
Authority
KR
South Korea
Prior art keywords
text
malicious
reliability
sentence
analysis
Prior art date
Application number
KR1020200069352A
Other languages
English (en)
Other versions
KR20210152645A (ko
Inventor
이일구
류정화
윤희선
이유림
이은영
전소은
Original Assignee
성신여자대학교 연구 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 성신여자대학교 연구 산학협력단 filed Critical 성신여자대학교 연구 산학협력단
Priority to KR1020200069352A priority Critical patent/KR102366369B1/ko
Publication of KR20210152645A publication Critical patent/KR20210152645A/ko
Application granted granted Critical
Publication of KR102366369B1 publication Critical patent/KR102366369B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 발명의 실시예에 따른 악성 텍스트 데이터 인식방법에서는, 변형문자 처리부가 입력문장에서 표준한글에 해당하지 않는 변형문자의 포함여부를 판단하여 변형문자를 표준한글 텍스트로 변환하고, 표준한글 문장을 제공할 수 있다. 분석부가 표준한글 문장에 포함되는 분석단어들에 따라 결정되는 극성값 및 분석값에 기초하여 악성도를 제공할 수 있다. 악성글 판단부가 악성도에 따라 입력문장이 악성글인지 여부를 판단하는 판단결과를 제공할 수 있다.
본 발명에 따른 악성 텍스트 데이터 인식방법에서는, 입력문장을 표준한글 문장으로 변환하고, 표준한글 문장에 상응하는 극성값 및 분석값에 기초하여 악성도를 제공하여 악성도에 따라 입력문장이 악성글인지 여부를 판단함으로써 악성 댓글에 대해서 보다 효과적으로 대응할 수 있다.

Description

악성 텍스트 데이터 인식방법 및 악성 텍스트 데이터 인식장치{RECOGNITION METHOD AND RECOGNITION DEVICE OF VICIOUS TEXT DATA}
본 발명은 악성 텍스트 데이터 인식방법 및 악성 텍스트 데이터 인식장치에 관한 것이다.
온라인 사용자들은 온라인 상의 게시물에 대해 다양한 의견을 제시하기 위하여 댓글을 이용할 수 있다. 온라인 사용자들이 작성하는 댓글 중에는 게시물 작성자를 응원하는 내용뿐만 아니라, 게시물 작성자를 비난하는 내용들도 다수 포함될 수 있다. 인신 공격하는 댓글은 게시물 작성자를 심리적으로 위축시켜 사회생활에 어려움을 겪는 경우도 발생하고 있다. 최근, 이와 같은 악성 댓글을 차단하기 위한 다양한 연구들이 진행되고 있다.
(한국등록특허) 제10-1414084호 (등록일자, 2014.06.25)
본 발명에서 이루고자 하는 기술적 과제는 입력문장을 표준한글 문장으로 변환하고, 표준한글 문장에 상응하는 극성값 및 분석값에 기초하여 악성도를 제공하여 악성도에 따라 입력문장이 악성글인지 여부를 판단하는 악성 텍스트 데이터 인식방법을 제공하는 것이다.
이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 악성 텍스트 데이터 인식방법에서는, 변형문자 처리부가 입력문장에서 표준한글에 해당하지 않는 변형문자의 포함여부를 판단하여 상기 변형문자를 표준한글 텍스트로 변환하고, 표준한글 문장을 제공할 수 있다. 분석부가 상기 표준한글 문장에 포함되는 분석단어들에 따라 결정되는 극성값 및 분석값에 기초하여 악성도를 제공할 수 있다. 악성글 판단부가 상기 악성도에 따라 상기 입력문장이 악성글인지 여부를 판단하는 판단결과를 제공할 수 있다.
일 실시예에 있어서, 상기 변형문자 처리부는 이미지 처리부 및 음차변환 처리부를 포함할 수 있다. 이미지 처리부는 상기 입력문장에 포함되는 상기 변형문자 중 이미지 변형문자 및 제1 데이터 베이스에 미리 저장된 표준 텍스트 학습 이미지를 비교하여 중간 변환문장을 제공할 수 있다. 음차변환 처리부는 상기 중간 변환문장에 포함되는 상기 변형문자 중 외래어 변형문자 및 제2 데이터 베이스에 미리 저장된 외래어 학습 데이터를 비교하여 상기 표준한글 문장을 제공할 수 있다.
일 실시예에 있어서, 상기 입력문장에 상기 변형문자가 포함되지 않는 경우, 상기 변형문자 처리부는 상기 입력문장을 상기 표준한글 문장으로 제공할 수 있다.
일 실시예에 있어서, 상기 분석부는 텍스트 분석부, 분석치 추출부 및 악성도 분석부를 포함할 수 있다. 텍스트 분석부는 상기 표준한글 문장에 포함되는 상기 분석단어들을 악성단어 데이터베이스에 저장된 비교단어와 비교하여 상기 분석단어들의 긍정 또는 부정의 정도를 나타내는 극성값을 제공할 수 있다. 분석치 추출부는 상기 표준한글 문장에 포함되는 상기 분석단어들 간의 맥락관계를 분석하여 분석값을 제공할 수 있다. 악성도 분석부는 상기 극성값 및 상기 분석값에 기초하여 상기 악성도를 제공할 수 있다.
일 실시예에 있어서, 상기 악성도 분석부로부터 제공되는 상기 악성도는 상기 극성값 및 상기 분석값의 합일 수 있다.
일 실시예에 있어서, 상기 악성도가 미리 정해진 판단 기준값보다 같거나 큰 경우, 상기 악성글 판단부는 악성글에 상응하는 상기 판단결과를 제공할 수 있다.
일 실시예에 있어서, 상기 악성도가 미리 정해진 판단 기준값보다 작은 경우, 상기 악성글 판단부는 정상글에 상응하는 상기 판단결과를 제공할 수 있다.
일 실시예에 있어서, 상기 악성 텍스트 데이터 인식방법에서는, 상기 악성글 판단부가 상기 정상글에 상응하는 상기 판단결과를 제공하는 경우, 상기 판단결과의 신뢰도를 판단하는 단계를 더 포함할 수 있다.
일 실시예에 있어서, 상기 판단결과의 신뢰도는 상기 입력문장의 작성자 및 작성매체가 기존에 작성한 문장에 대한 신뢰도가 저장된 신뢰도 데이터베이스로부터 제공되는 데이터베이스 신뢰도에 기초하여 결정될 수 있다.
일 실시예에 있어서, 상기 데이터베이스 신뢰도가 미리 정해진 기준 신뢰도보다 같거나 큰 경우, 상기 판단결과의 신뢰도는 높은 것으로 판단하고, 상기 데이터베이스 신뢰도가 상기 기준 신뢰도보다 작은 경우, 상기 판단결과의 신뢰도는 낮은 것으로 판단할 수 있다.
일 실시예에 있어서, 상기 악성 텍스트 데이터 인식방법에서는, 상기 악성글 판단부가 상기 정상글에 상응하는 상기 판단결과를 제공하는 경우, 상기 입력문장과의 유사도가 미리 정해진 기준 유사도 이상인 유사글 군집을 추출하고, 상기 유사글 군집의 신뢰도에 따라 상기 판단결과의 신뢰도를 결정하는 단계를 더 포함할 수 있다.
일 실시예에 있어서, 상기 유사글 군집의 신뢰도가 미리 정해진 군집 신뢰도보다 같거나 큰 경우, 상기 판단결과의 신뢰도는 높은 것으로 판단하고, 상기 유사글 군집의 신뢰도가 상기 군집 신뢰도보다 작은 경우, 상기 판단결과의 신뢰도는 낮은 것으로 판단할 수 있다.
이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 악성 텍스트 데이터 인식장치는 변형문자 처리부, 분석부 및 악성글 판단부를 포함할 수 있다. 변형문자 처리부는 입력문장에 표준한글에 해당하지 않는 변형문자의 포함여부를 판단하여 상기 변형문자를 표준한글 텍스트로 변환하고, 표준한글 문장을 제공할 수 있다. 분석부는 상기 표준한글 문장에 기초하여 악성글인지 여부를 판단하는 악성도를 제공할 수 있다. 악성글 판단부는 상기 악성도에 따라 상기 입력문장이 악성글인지 여부를 판단하는 판단결과를 제공할 수 있다.
일 실시예에 있어서, 상기 변형문자 처리부는 이미지 처리부 및 음차변환 처리부를 포함할 수 있다. 이미지 처리부는 상기 입력문장에 포함되는 상기 변형문자 중 이미지 변형문자 및 제1 데이터 베이스에 미리 저장된 표준 텍스트 학습 이미지를 비교하여 중간 변환문장을 제공할 수 있다. 음차변환 처리부는 상기 중간 변환문장에 포함되는 상기 변형문자 중 외래어 변형문자 및 제2 데이터 베이스에 미리 저장된 외래어 학습 데이터를 비교하여 상기 표준한글 문장을 제공할 수 있다.
위에서 언급된 본 발명의 기술적 과제 외에도, 본 발명의 다른 특징 및 이점들이 이하에서 기술되거나, 그러한 기술 및 설명으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
이상과 같은 본 발명에 따르면 다음과 같은 효과가 있다.
본 발명에 따른 악성 텍스트 데이터 인식방법에서는, 입력문장을 표준한글 문장으로 변환하고, 표준한글 문장에 상응하는 극성값 및 분석값에 기초하여 악성도를 제공하여 악성도에 따라 입력문장이 악성글인지 여부를 판단함으로써 악성 댓글에 대해서 보다 효과적으로 대응할 수 있다.
이 밖에도, 본 발명의 실시 예들을 통해 본 발명의 또 다른 특징 및 이점들이 새롭게 파악될 수도 있을 것이다.
도 1은 본 발명의 실시예들에 따른 악성 텍스트 데이터 인식방법을 나타내는 순서도이다.
도 2는 본 발명의 실시예들에 따른 악성 텍스트 데이터 인식장치를 나타내는 도면이다.
도 3은 도 2의 악성 텍스트 데이터 인식장치에 포함되는 변형문자 처리부를 나타내는 도면이다.
도 4는 도 2의 악성 텍스트 데이터 인식장치에 적용되는 입력문장의 일 예를 나타내는 도면이다.
도 5는 도 2의 악성 텍스트 데이터 인식장치에 적용되는 중간 변환문장의 일 예를 나타내는 도면이다.
도 6은 도 2의 악성 텍스트 데이터 인식장치에 적용되는 표준한글 문장의 일 예를 나타내는 도면이다.
도 7은 도 2의 악성 텍스트 데이터 인식장치에 포함되는 분석부를 나타내는 도면이다.
도 8은 도 7의 분석부에 적용되는 악성단어 데이터베이스의 일 예를 나타내는 도면이다.
도 9는 도 7의 분석부에 적용되는 맥락관계 데이터베이스의 일 예를 나타내는 도면이다.
도 10은 본 발명의 일 실시예에 따른 악성 텍스트 데이터 인식방법을 나타내는 순서도이다.
도 11 및 12는 도 10의 악성 텍스트 데이터 인식방법의 동작을 설명하기 위한 도면이다.
도 13은 본 발명의 일 실시예에 따른 악성 텍스트 데이터 인식방법을 나타내는 순서도이다.
도 14 및 15는 도 13의 악성 텍스트 데이터 인식방법의 동작을 설명하기 위한 도면이다.
본 명세서에서 각 도면의 구성 요소들에 참조번호를 부가함에 있어서 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한한 동일한 번호를 가지도록 하고 있음에 유의하여야 한다.
한편, 본 명세서에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 정의하지 않는 한, 복수의 표현을 포함하는 것으로 이해되어야 하는 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다.
"포함하다" 또는 "가지다" 등의 용어는 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하, 첨부되는 도면을 참고하여 상기 문제점을 해결하기 위해 고안된 본 발명의 바람직한 실시예들에 대해 상세히 설명한다.
도 1은 본 발명의 실시예들에 따른 악성 텍스트 데이터 인식방법을 나타내는 순서도이고, 도 2는 본 발명의 실시예들에 따른 악성 텍스트 데이터 인식장치를 나타내는 도면이고, 도 3은 도 2의 악성 텍스트 데이터 인식장치에 포함되는 변형문자 처리부를 나타내는 도면이고, 도 4는 도 2의 악성 텍스트 데이터 인식장치에 적용되는 입력문장의 일 예를 나타내는 도면이고, 도 5는 도 2의 악성 텍스트 데이터 인식장치에 적용되는 중간 변환문장의 일 예를 나타내는 도면이고, 도 6은 도 2의 악성 텍스트 데이터 인식장치에 적용되는 표준한글 문장의 일 예를 나타내는 도면이다.
도 1 내지 6을 참조하면, 본 발명의 실시예에 따른 악성 텍스트 데이터 인식장치(10)는 변형문자 처리부(100), 분석부(200) 및 악성글 판단부(300)를 포함할 수 있다. 본 발명의 실시예에 따른 악성 텍스트 데이터 인식방법에서는, 변형문자 처리부(100)가 입력문장(IS)에서 표준한글에 해당하지 않는 변형문자(CC)의 포함여부를 판단하여 변형문자(CC)를 표준한글 텍스트로 변환하고, 표준한글 문장(SKS)을 제공할 수 있다(S100).
일 실시예에 있어서, 변형문자 처리부(100)는 분석부(200) 및 음차변환 처리부(120)를 포함할 수 있다. 분석부(200)는 입력문장(IS)에 포함되는 변형문자(CC) 중 이미지 변형문자(ICC) 및 제1 데이터 베이스(13)에 미리 저장된 표준 텍스트 학습 이미지(STI)를 비교하여 중간 변환문장(ICS)을 제공할 수 있다. 예를 들어, 입력문장(IS)은 "쟤 완전
Figure 112020058938537-pat00001
네. JONNA 싫다."일 수 있다. 이 경우, 입력문장(IS)은 변형문자(CC)를 포함할 수 있다. 변형문자(CC)는 이미지 변형문자(ICC) 및 외래어 변형문자(FCC)를 포함할 수 있다.
이미지 변형문자(ICC)는 단말기를 통해서 텍스트로 작성하기 어려워 이미지의 형태로 구성하여 의미를 전달하는 문자일 수 있고, 외래어 변형문자(FCC)는 외래의 발음을 이용하여 의미를 전달하는 문자일 수 있다. "쟤 완전
Figure 112020058938537-pat00002
네. JONNA 싫다."라는 입력문장(IS)에서 "
Figure 112020058938537-pat00003
"는 이미지 변형문자(ICC)일 수 있고, "JONNA"는 외래어 변형문자(FCC)일 수 있다.
변형문자 처리부(100)에 포함되는 분석부(200)는 입력문장(IS)에 포함되는 변형문자(CC) 중 이미지 변형문자(ICC) 및 제1 데이터 베이스(13)에 미리 저장된 표준 텍스트 학습 이미지(STI)를 비교하여 중간 변환문장(ICS)을 제공할 수 있다. 제1 데이터 베이스(13)에는 표준 텍스트 학습 이미지(STI)에 상응하는 표준한글 텍스트가 저장될 수 있고, 표준 텍스트 학습 이미지(STI)는 이미지 변형문자(ICC)와 대비되기 위해서 제1 데이터 베이스(13)로부터 제공될 수 있다. 예를 들어, "
Figure 112020058938537-pat00004
"는 이미지 변형문자(ICC)일 수 있고, "
Figure 112020058938537-pat00005
"라는 이미지 변형문자(ICC)에 상응하는 표준 텍스트 학습 이미지(STI)는 "또라이"일 수 있다. 이 경우, 분석부(200)는 "
Figure 112020058938537-pat00006
"라는 이미지 변형문자(ICC)를 "또라이"라는 표준한글 텍스트로 변환하여 "쟤 완전 또라이네. JONNA싫다."라는 중간 변환문장(ICS)을 제공할 수 있다.
음차변환 처리부(120)는 중간 변환문장(ICS)에 포함되는 변형문자(CC) 중 외래어 변형문자(FCC) 및 제2 데이터 베이스(14)에 미리 저장된 외래어 학습 데이터(FLD)를 비교하여 표준한글 문장(SKS)을 제공할 수 있다. 제2 데이터 베이스(14)에는 외래어 학습 데이터(FLD)에 상응하는 표준한글 텍스트가 저장될 수 있고, 외래어 학습 데이터(FLD)는 외래어 변형문자(FCC)와 대비되기 위해서 제2 데이터 베이스(14)로부터 제공될 수 있다. 예를 들어, "JONNA"는 외래어 변형문자(FCC)일 수 있고, "JONNA"라는 외래어 변형문자(FCC)에 상응하는 표준한글 텍스트는 "존나"일 수 있다. 이 경우, 음차변환 처리부(120)는 "JONNA"라는 외래어 변형문자(FCC)를 "존나"라는 표준한글 텍스트로 변환하여 "쟤 완전 또라이네. 존나 싫다."라는 표준한글 문장(SKS)을 제공할 수 있다.
일 실시예에 있어서, 입력문장(IS)에 변형문자(CC)가 포함되지 않는 경우, 변형문자 처리부(100)는 입력문장(IS)을 표준한글 문장(SKS)으로 제공할 수 있다. 예를 들어, 입력문장(IS)이 "쟤 완전 또라이네. 존나 싫다."일 수 있다. 이 경우, 입력문장(IS)에는 이미지 변형문자(ICC) 및 외래어 변형문자(FCC)가 포함되지 않을 수 있다. 입력문장(IS)에 이미지 변형문자(ICC) 및 외래어 변형문자(FCC)가 포함되지 않은 경우, 변형문자 처리부(100)는 "쟤 완전 또라이네. 존나 싫다."라는 입력문장(IS)을 그대로 표준한글 문장(SKS)으로 제공할 수 있다.
도 7은 도 2의 악성 텍스트 데이터 인식장치에 포함되는 분석부를 나타내는 도면이고, 도 8은 도 7의 분석부에 적용되는 악성단어 데이터베이스의 일 예를 나타내는 도면이고, 도 9는 도 7의 분석부에 적용되는 맥락관계 데이터베이스의 일 예를 나타내는 도면이다.
도 7 내지 9를 참조하면, 본 발명의 실시예에 따른 악성 텍스트 데이터 인식장치(10)는 변형문자 처리부(100), 분석부(200) 및 악성글 판단부(300)를 포함할 수 있다. 분석부(200)가 표준한글 문장(SKS)에 포함되는 분석단어들에 따라 결정되는 극성값(PV) 및 분석값(AV)에 기초하여 악성도(AD)를 제공할 수 있다(S200).
일 실시예에 있어서, 분석부(200)는 텍스트 분석부(210), 분석치 추출부(220) 및 악성도 분석부(230)를 포함할 수 있다. 텍스트 분석부(210)는 표준한글 문장(SKS)에 포함되는 분석단어들을 악성단어 데이터베이스(17)에 저장된 비교단어(CW)와 비교하여 분석단어들의 긍정 또는 부정의 정도를 나타내는 극성값(PV)을 제공할 수 있다. 예를 들어, 표준한글 문장(SKS)은 "쟤 완전 또라이네. 존나 싫다."일 수 있다. 표준한글 문장(SKS)에 포함되는 분석단어들은 "쟤", "완전", "또라이", "존나" 및 "싫다"일 수 있다.
또한, 악성단어 데이터베이스(17)는 비교단어(CW) 및 비교단어(CW)의 긍정 또는 부정의 정도를 나타내는 극성값(PV)이 저장될 수 있다. 예를 들어, 악성단어 데이터베이스(17)에 저장된 비교단어(CW)가 "쟤"일 수 있고, "쟤"에 상응하는 극성값(PV)은 1일 수 있고, 악성단어 데이터베이스(17)에 저장된 비교단어(CW)가 "완전"일 수 있고, "완전"에 상응하는 극성값(PV)은 0일 수 있고, 악성단어 데이터베이스(17)에 저장된 비교단어(CW)가 "또라이"일 수 있고, "또라이"에 상응하는 극성값(PV)은 5일 수 있다. 또한, 악성단어 데이터베이스(17)에 저장된 비교단어(CW)가 "존나"일 수 있고, "존나"에 상응하는 극성값(PV)은 5일 수 있고, 악성단어 데이터베이스(17)에 저장된 비교단어(CW)가 "싫다"일 수 있고, "싫다"에 상응하는 극성값(PV)은 2일 수 있다.
이 경우, 텍스트 분석부(210)는 분석단어들에 해당하는 "쟤", "완전", "또라이", "존나" 및 "싫다"의 극성값(PV)인 1, 0, 5, 5, 2를 악성도 분석부(230)에 제공할 수 있다.
분석치 추출부(220)는 표준한글 문장(SKS)에 포함되는 분석단어들 간의 맥락관계(MR)를 분석하여 분석값(AV)을 제공할 수 있다. 예를 들어, 표준한글 문장(SKS)은 "쟤 완전 또라이네. 존나 싫다."일 수 있고, 표준한글 문장(SKS)에 포함되는 분석단어들은 "쟤", "완전", "또라이", "존나" 및 "싫다"일 수 있다.
또한, 맥락관계 데이터베이스(18)는 맥락관계(MR) 및 분석값(AV)이 저장될 수 있다. 맥락관계(MR)는 표준한글 문장(SKS)에서 인접한 분석단어들 간의 관계일 수 있고, 분석값(AV)은 맥락관계(MR)를 통해서 획득된 분석단어들 간의 긍정 또는 부정의 정도를 분석한 값일 수 있다. 예를 들어, 제1 맥락관계(MR1)는 "쟤"와 "완전"의 관계를 나타낼 수 있고, 제1 맥락관계(MR1)의 분석값(AV)은 2일 수 있다. 또한, 제2 맥락관계(MR2)는 "완전"과 "또라이"의 관계를 나타낼 수 있고, 제2 맥락관계(MR2)의 분석값(AV)은 3일 수 있다. 또한, 제3 맥락관계(MR3)는 "또라이"와 "존나"의 관계를 나타낼 수 있고, 제3 맥락관계(MR3)의 분석값(AV)은 4일 수 있다. 또한, 제4 맥락관계(MR4)는 "존나"와 "싫다"의 관계를 나타낼 수 있고, 제4 맥락관계(MR4)의 분석값(AV)은 5일 수 있다.
이 경우, 분석치 추출부(220)는 제1 내지 제5 맥락관계에 상응하는 분석값(AV)인 2, 3, 4, 5를 악성도 분석부(230)에 제공할 수 있다.
악성도 분석부(230)는 극성값(PV) 및 분석값(AV)에 기초하여 악성도(AD)를 제공할 수 있다. 일 실시예에 있어서, 악성도 분석부(230)로부터 제공되는 악성도(AD)는 극성값(PV) 및 분석값(AV)의 합일 수 있다. 예를 들어, 표준한글 문장(SKS)은 "쟤 완전 또라이네. 존나 싫다."일 수 있다. 표준한글 문장(SKS)이 "쟤 완전 또라이네. 존나 싫다."인 경우, 텍스트 분석부(210)로부터 제공되는 극성값(PV)은 1, 0, 5, 5, 2일 수 있고, 분석치 추출부(220)로부터 제공되는 분석값(AV)은 2, 3, 4, 5일 수 있다. 이 경우, 악성도 분석부(230)는 텍스트 분석부(210)로부터 제공되는 극성값(PV) 및 분석치 추출부(220)로부터 제공되는 분석값(AV)을 합한 값인 28을 악성도(AD)로 제공할 수 있다.
악성글 판단부(300)가 악성도(AD)에 따라 입력문장(IS)이 악성글인지 여부를 판단하는 판단결과(DR)를 제공할 수 있다(S300). 일 실시예에 있어서, 악성도(AD)가 미리 정해진 판단 기준값보다 같거나 큰 경우, 악성글 판단부(300)는 악성글에 상응하는 판단결과(DR)를 제공할 수 있다. 예를 들어, 판단 기준값은 15일 수 있고, 악성도 분석부(230)로부터 제공되는 악성도(AD)는 28일 수 있다. 이 경우, 악성글 판단부(300)는 악성글에 상응하는 판단결과(DR)를 제공할 수 있다.
일 실시예에 있어서, 악성도(AD)가 미리 정해진 판단 기준값보다 작은 경우, 악성글 판단부(300)는 정상글에 상응하는 판단결과(DR)를 제공할 수 있다.
도 10은 본 발명의 일 실시예에 따른 악성 텍스트 데이터 인식방법을 나타내는 순서도이고, 도 11 및 12는 도 10의 악성 텍스트 데이터 인식방법의 동작을 설명하기 위한 도면이다.
도 1 내지 12를 참조하면, 본 발명의 실시예에 따른 악성 텍스트 데이터 인식방법에서는, 변형문자 처리부(100)가 입력문장(IS)에서 표준한글에 해당하지 않는 변형문자(CC)의 포함여부를 판단하여 변형문자(CC)를 표준한글 텍스트로 변환하고, 표준한글 문장(SKS)을 제공할 수 있다(S100). 분석부(200)가 표준한글 문장(SKS)에 포함되는 분석단어들에 따라 결정되는 극성값(PV) 및 분석값(AV)에 기초하여 악성도(AD)를 제공할 수 있다(S200). 악성글 판단부(300)가 악성도(AD)에 따라 입력문장(IS)이 악성글인지 여부를 판단하는 판단결과(DR)를 제공할 수 있다(S300).
일 실시예에 있어서, 악성 텍스트 데이터 인식방법에서는, 악성글 판단부(300)가 정상글에 상응하는 판단결과(DR)를 제공하는 경우, 판단결과(DR)의 신뢰도(DRB)를 판단하는 단계를 더 포함할 수 있다(S400). 예를 들어, 판단결과(DR)의 신뢰도(DRB)는 입력문장(IS)의 작성자 및 작성매체가 기존에 작성한 문장에 대한 신뢰도(WB/WMB)가 저장된 신뢰도 데이터베이스(500)로부터 제공되는 데이터베이스 신뢰도(DBB)에 기초하여 결정될 수 있다.
일 실시예에 있어서, 데이터베이스 신뢰도(DBB)가 미리 정해진 기준 신뢰도보다 같거나 큰 경우, 판단결과(DR)의 신뢰도(DRB)는 높은 것으로 판단하고, 데이터베이스 신뢰도(DBB)가 기준 신뢰도보다 작은 경우, 판단결과(DR)의 신뢰도(DRB)는 낮은 것으로 판단할 수 있다. 예를 들어, 제1 작성자(A), 제2 작성자(B), 제3 작성자(C) 및 제4 작성자(D)가 기존에 작성한 글들에 대한 신뢰도는 신뢰도 데이터 베이스에 저장될 수 있다. 기준 신뢰도는 70%일 수 있다. 또한, 제1 작성자(A)의 글에 대한 신뢰도는 80%일 수 있고, 제2 작성자(B)의 글에 대한 신뢰도는 15%일 수 있고, 제3 작성자(C)의 글에 대한 신뢰도는 90%일 수 있고, 제4 작성자(D)의 글에 대한 신뢰도는 80%일 수 있다. 이 경우, 입력문장(IS)의 작성자가 제1 작성자(A)인 경우, 제1 작성자(A)의 글에 대한 신뢰도는 80%이고, 기준 신뢰도보다 높으므로 판단결과(DR)의 신뢰도(DRB)는 높다고 판단될 수 있다.
도 13은 본 발명의 일 실시예에 따른 악성 텍스트 데이터 인식방법을 나타내는 순서도이고, 도 14 및 15는 도 13의 악성 텍스트 데이터 인식방법의 동작을 설명하기 위한 도면이다.
악성 텍스트 데이터 인식방법에서는, 악성글 판단부(300)가 정상글에 상응하는 판단결과(DR)를 제공하는 경우, 입력문장(IS)과의 유사도가 미리 정해진 기준 유사도 이상인 유사글 군집을 추출하고, 유사글 군집의 신뢰도(SGB)에 따라 판단결과(DR)의 신뢰도(DRB)를 결정하는 단계(S500)를 더 포함할 수 있다.
일 실시예에 있어서, 유사글 군집의 신뢰도(SGB)가 미리 정해진 군집 신뢰도보다 같거나 큰 경우, 판단결과(DR)의 신뢰도(DRB)는 높은 것으로 판단하고, 유사글 군집의 신뢰도(SGB)가 군집 신뢰도보다 작은 경우, 판단결과(DR)의 신뢰도(DRB)는 낮은 것으로 판단할 수 있다.
유사글 군집은 작성된 글들의 유사도에 따라 분류되는 글들의 집합일 수 있다. 유사글 군집의 신뢰도(SGB)는 유사군 군집에 포함되는 글들의 신뢰정도를 나타낼 수 있고, 유사글 군집의 신뢰도(SGB)는 유사글 군집 신뢰도 데이터베이스(600)에 저장될 수 있다. 예를 들어, 유사글 군집은 제1 군집(G1), 제2 군집(G2), 제3 군집(G3) 및 제4 군집(G4)을 포함할 수 있다. 군집 신뢰도는 70%일 수 있다. 또한, 제1 군집(G1)의 신뢰도는 83%일 수 있고, 제2 군집(G2)의 신뢰도는 12%일 수 있고, 제3 군집(G3)의 신뢰도는 95%일 수 있고, 제4 군집(G4)의 신뢰도는 11%일 수 있다. 이 경우, 입력문장(IS)이 제2 군집(G2)에 포함되는 경우, 제2 군집(G2)의 신뢰도가 군집 신뢰도보다 낮으므로 판단결과(DR)의 신뢰도(DRB)는 낮다고 판단될 수 있다.
이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 악성 텍스트 데이터 인식장치(10)는 변형문자 처리부(100), 분석부(200) 및 악성글 판단부(300)를 포함할 수 있다. 변형문자 처리부(100)는 입력문장(IS)에 표준한글에 해당하지 않는 변형문자(CC)의 포함여부를 판단하여 변형문자(CC)를 표준한글 텍스트로 변환하고, 표준한글 문장(SKS)을 제공할 수 있다. 분석부(200)는 표준한글 문장(SKS)에 기초하여 악성글인지 여부를 판단하는 악성도(AD)를 제공할 수 있다. 악성글 판단부(300)는 악성도(AD)에 따라 입력문장(IS)이 악성글인지 여부를 판단하는 판단결과(DR)를 제공할 수 있다.
일 실시예에 있어서, 변형문자 처리부(100)는 분석부(200) 및 음차변환 처리부(120)를 포함할 수 있다. 분석부(200)는 입력문장(IS)에 포함되는 변형문자(CC) 중 이미지 변형문자(ICC) 및 제1 데이터 베이스(13)에 미리 저장된 표준 텍스트 학습 이미지(STI)를 비교하여 중간 변환문장(ICS)을 제공할 수 있다. 음차변환 처리부(120)는 중간 변환문장(ICS)에 포함되는 변형문자(CC) 중 외래어 변형문자(FCC) 및 제2 데이터 베이스(14)에 미리 저장된 외래어 학습 데이터(FLD)를 비교하여 표준한글 문장(SKS)을 제공할 수 있다.
10: 악성 텍스트 데이터 인식장치 100: 변형문자 처리부
200: 분석부 300: 악성글 판단부
110: 이미지 처리부 120: 음차변환 처리부
210: 텍스트 분석부 220: 분석치 추출부
230: 악성도 분석부

Claims (14)

  1. 변형문자 처리부가 입력문장에서 표준한글에 해당하지 않는 변형문자의 포함여부를 판단하여 상기 변형문자를 표준한글 텍스트로 변환하고, 표준한글 문장을 제공하는 단계;
    분석부가 상기 표준한글 문장에 포함되는 분석단어들에 따라 결정되는 극성값 및 분석값에 기초하여 악성도를 제공하는 단계; 및
    악성글 판단부가 상기 악성도에 따라 상기 입력문장이 악성글인지 여부를 판단하는 판단결과를 제공하는 단계를 포함하고,
    상기 악성도가 미리 정해진 판단 기준값보다 작은 경우,
    상기 악성글 판단부는 정상글이라는 상기 판단결과를 제공하고, 상기 입력문장의 작성자 및 작성매체가 기존에 작성한 문장에 대한 신뢰도가 저장된 신뢰도 데이터베이스로부터 제공되는 데이터베이스 신뢰도에 따라 상기 판단결과의 신뢰도가 있는지 여부를 판단하는 것을 특징으로 하는 악성 텍스트 데이터 인식방법.
  2. 제1항에 있어서,
    상기 변형문자 처리부는,
    상기 입력문장에 포함되는 상기 변형문자 중 이미지 변형문자 및 제1 데이터 베이스에 미리 저장된 표준 텍스트 학습 이미지를 비교하여 중간 변환문장을 제공하는 이미지 처리부; 및
    상기 중간 변환문장에 포함되는 상기 변형문자 중 외래어 변형문자 및 제2 데이터 베이스에 미리 저장된 외래어 학습 데이터를 비교하여 상기 표준한글 문장을 제공하는 음차변환 처리부를 포함하는 것을 특징으로 하는 악성 텍스트 데이터 인식방법.
  3. 제1항에 있어서,
    상기 입력문장에 상기 변형문자가 포함되지 않는 경우,
    상기 변형문자 처리부는 상기 입력문장을 상기 표준한글 문장으로 제공하는 것을 특징으로 하는 악성 텍스트 데이터 인식방법.
  4. 제1항에 있어서,
    상기 분석부는,
    상기 표준한글 문장에 포함되는 상기 분석단어들을 악성단어 데이터베이스에 저장된 비교단어와 비교하여 상기 분석단어들의 긍정 또는 부정의 정도를 나타내는 극성값을 제공하는 텍스트 분석부;
    상기 표준한글 문장에 포함되는 상기 분석단어들 간의 맥락관계를 분석하여 분석값을 제공하는 분석치 추출부; 및
    상기 극성값 및 상기 분석값에 기초하여 상기 악성도를 제공하는 악성도 분석부를 포함하는 것을 특징으로 하는 악성 텍스트 데이터 인식방법.
  5. 제4항에 있어서,
    상기 악성도 분석부로부터 제공되는 상기 악성도는 상기 극성값 및 상기 분석값의 합인 것을 특징으로 하는 악성 텍스트 데이터 인식방법.
  6. 제5항에 있어서,
    상기 악성도가 미리 정해진 판단 기준값보다 같거나 큰 경우,
    상기 악성글 판단부는 악성글에 상응하는 상기 판단결과를 제공하는 것을 특징으로 하는 악성 텍스트 데이터 인식방법.
  7. 삭제
  8. 삭제
  9. 삭제
  10. 제6항에 있어서,
    상기 데이터베이스 신뢰도가 미리 정해진 기준 신뢰도보다 같거나 큰 경우,
    상기 판단결과의 신뢰도는 높은 것으로 판단하고,
    상기 데이터베이스 신뢰도가 상기 기준 신뢰도보다 작은 경우,
    상기 판단결과의 신뢰도는 낮은 것으로 판단하는 것을 특징으로 하는 악성 텍스트 데이터 인식방법.
  11. 제10항에 있어서,
    상기 악성 텍스트 데이터 인식방법은,
    상기 악성글 판단부가 상기 정상글에 상응하는 상기 판단결과를 제공하는 경우,
    상기 입력문장과의 유사도가 미리 정해진 기준 유사도 이상인 유사글 군집을 추출하고, 상기 유사글 군집의 신뢰도에 따라 상기 판단결과의 신뢰도를 결정하는 단계를 더 포함하는 악성 텍스트 데이터 인식방법.
  12. 제11항에 있어서,
    상기 유사글 군집의 신뢰도가 미리 정해진 군집 신뢰도보다 같거나 큰 경우,
    상기 판단결과의 신뢰도는 높은 것으로 판단하고,
    상기 유사글 군집의 신뢰도가 상기 군집 신뢰도보다 작은 경우,
    상기 판단결과의 신뢰도는 낮은 것으로 판단하는 것을 특징으로 하는 악성 텍스트 데이터 인식방법.
  13. 삭제
  14. 삭제
KR1020200069352A 2020-06-09 2020-06-09 악성 텍스트 데이터 인식방법 및 악성 텍스트 데이터 인식장치 KR102366369B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200069352A KR102366369B1 (ko) 2020-06-09 2020-06-09 악성 텍스트 데이터 인식방법 및 악성 텍스트 데이터 인식장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200069352A KR102366369B1 (ko) 2020-06-09 2020-06-09 악성 텍스트 데이터 인식방법 및 악성 텍스트 데이터 인식장치

Publications (2)

Publication Number Publication Date
KR20210152645A KR20210152645A (ko) 2021-12-16
KR102366369B1 true KR102366369B1 (ko) 2022-02-22

Family

ID=79033161

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200069352A KR102366369B1 (ko) 2020-06-09 2020-06-09 악성 텍스트 데이터 인식방법 및 악성 텍스트 데이터 인식장치

Country Status (1)

Country Link
KR (1) KR102366369B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240059930A (ko) 2022-10-28 2024-05-08 이주석 악플탐지 회피 시도 댓글의 검출 방법 및 악플 탐지 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102034346B1 (ko) 2017-06-29 2019-10-18 연세대학교 산학협력단 학습 기반의 비속어 탐지 장치 및 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050117152A (ko) * 2004-06-09 2005-12-14 주식회사 월드모닝 개인용 컴퓨터에서 유해단어 차단 방법 및 컴퓨터 사용관리 시스템 및 방법
KR20090001435A (ko) * 2007-04-12 2009-01-09 에스케이 텔레콤주식회사 악성 댓글 등록 차단 시스템 및 방법
KR101414084B1 (ko) 2013-03-28 2014-07-04 한신대학교 산학협력단 모바일 단말의 악성 어플리케이션 탐지 시스템 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102034346B1 (ko) 2017-06-29 2019-10-18 연세대학교 산학협력단 학습 기반의 비속어 탐지 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
홍진주 외, ‘감성분석과 SVM을 이용한 인터넷 악성댓글 탐지 기법’ 한국정보통신학회논문지, Vol. 20, No. 2, 2016.02.

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240059930A (ko) 2022-10-28 2024-05-08 이주석 악플탐지 회피 시도 댓글의 검출 방법 및 악플 탐지 장치

Also Published As

Publication number Publication date
KR20210152645A (ko) 2021-12-16

Similar Documents

Publication Publication Date Title
JP5167546B2 (ja) 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置
US8209166B2 (en) Apparatus, method, and computer program product for machine translation
Stevenson et al. Experiments on sentence boundary detection
US7046847B2 (en) Document processing method, system and medium
US20070198248A1 (en) Voice recognition apparatus, voice recognition method, and voice recognition program
Younes et al. Language resources for Maghrebi Arabic dialects’ NLP: a survey
CN107977368B (zh) 信息提取方法及系统
Castro et al. Authorship verification, average similarity analysis
KR102366369B1 (ko) 악성 텍스트 데이터 인식방법 및 악성 텍스트 데이터 인식장치
Konlea et al. Domain and task adaptive pretraining for language models
CN109815503B (zh) 一种人机交互翻译方法
US20210064820A1 (en) Machine learning lexical discovery
CN111539383B (zh) 公式知识点识别方法及装置
JP2020035272A (ja) 要約生成装置および要約生成方法
US20230069113A1 (en) Text Summarization Method and Text Summarization System
Destaw et al. Question answering classification for Amharic social media community based questions
KR102562692B1 (ko) 문장 구두점 제공 시스템 및 방법
KR20220143229A (ko) 한국어 언어 모델에 기반한 핵심문장 추출장치 및 그 방법
Ptaszynski et al. Detecting emotive sentences with pattern-based language modelling
Manghat et al. Normalization of code-switched text for speech synthesis.
Adouane et al. Romanized Arabic and Berber detection using prediction by partial matching and dictionary methods
Abera et al. Information extraction model for afan oromo news text
CN115600580B (zh) 文本匹配方法、装置、设备及存储介质
Das et al. Sanitization of Sepsis News Sentences with the help of Paraphrasing
JPH0748217B2 (ja) 文書要約装置

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant