KR102659389B1

KR102659389B1 - 신뢰도와 언어폭력 간 의존성을 이용한 언어폭력 수정 및 텍스트 신뢰도 증강 시스템 및 그 방법

Info

Publication number: KR102659389B1
Application number: KR1020210166872A
Authority: KR
Inventors: 박종철; 송호윤
Original assignee: 한국과학기술원
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2024-04-23
Also published as: KR20230079766A

Abstract

본 발명은 신뢰도와 언어폭력 간 의존성을 이용한 언어폭력 수정 및 텍스트 신뢰도 증강 시스템 및 그 방법에 관한 것으로서, 입력 텍스트를 임베딩의 결합으로 변환하는 전처리부, 전처리된 텍스트 데이터에서 언어폭력 요소를 탐지하는 언어폭력 요소 탐지부, 상기 텍스트 데이터에서 신뢰 정도를 예측하는 신뢰도 예측부, 상기 언어폭력 요소 및 상기 신뢰 정도에 따라 상기 입력 텍스트의 신뢰도와 언어폭력 간 의존성을 분석하는 신뢰도와 언어폭력 간 의존성 분석부 및 상기 분석 결과에 기반하여 신뢰도 증강과 언어폭력 순화를 위해 상기 입력 텍스트를 수정하는 언어폭력 수정 및 신뢰도 증강부를 포함한다.

Description

신뢰도와 언어폭력 간 의존성을 이용한 언어폭력 수정 및 텍스트 신뢰도 증강 시스템 및 그 방법{SYSTEM FOR CORRECTING VERBAL VIOLENCE AND ENHANCEMENTING TEXT RELIABILITY USING ABUSIVE LANGUAGE AND CREDIBILITY DEPENDENCIES, AND THE METHOD THEREOF}

본 발명은 신뢰도와 언어폭력 간 의존성을 이용한 언어폭력 수정 및 텍스트 신뢰도 증강 시스템 및 그 방법에 관한 것으로서, 보다 상세하게는 입력 텍스트 내 언어폭력 요소를 고려하여 분석된 언어폭력 여부와 신뢰도 간의 의존성을 활용하여 신뢰도 증강을 위해 텍스트를 수정하는 기술에 관한 것이다.

언어폭력 탐지는 직접적으로 욕설을 사용하는 것 외에도 풍자, 비꼬기, 반어법과 같은 방법으로 암묵적인 형태로도 나타나기도 하기 때문에 매우 어려운 분야이다. 다만, 텍스트의 신뢰도를 증강시키기 위해서는 언어폭력 탐지 기술이 필수적으로 요구되므로, 기존에는 자연어 처리 방법을 이용한 인공신경망 기반으로 텍스트 내에 있는 언어폭력을 탐지하는 연구가 활발하게 진행되고 있다. 또한, 인공신경망 모델을 사용하여 특정 텍스트에 대한 신뢰 정도를 예측하는 연구 또한 활발히 진행되고 있다.

하지만, 기존에는 언어폭력 요소들이 텍스트의 신뢰도에 어떤 영향을 끼치는지 분석하고, 분석한 내용을 참고하여 텍스트 내의 언어폭력 요소를 순화함으로써, 텍스트의 신뢰도를 증강하는 연구는 아직 진행된 바 없다.

본 발명의 목적은 인공신경망 모델을 이용하여 텍스트 내 언어폭력 요소들을 탐지하여 수정함으로써, 텍스트의 신뢰도를 자동으로 증강하는 방법을 제공하고자 한다.

본 발명의 목적은 텍스트 내에서 언어폭력 요소들을 탐지하기 위해 문맥 정보를 파악하고, 다양하게 나타날 수 있는 언어폭력 요소들을 자가 주의집중 기법을 사용해 탐지하며, 신뢰도와의 의존성을 분석한 정보를 바탕으로 텍스트의 신뢰도를 증강하는 방법을 제공하고자 한다.

본 발명의 목적은 언어폭력이 포함된 텍스트는 독자의 신뢰도를 감소시킨다는 점을 고려하여, 인공신경망 모델을 학습할 때 다중 작업 학습 방법을 이용해 언어폭력 요소가 신뢰도에 미치는 영향을 자질로 사용하여 이를 제거하고 신뢰도가 증강된 텍스트를 생성하는데 도움을 주고자 한다.

다만, 본 발명이 해결하고자 하는 기술적 과제들은 상기 과제로 한정되는 것은 아니며, 본 발명의 기술적 사상 및 영역으로부터 벗어나지 않은 범위에서 다양하게 확장될 수 있다.

본 발명의 실시예에 따른 언어폭력 수정 및 텍스트 신뢰도 증강 시스템은 입력 텍스트를 임베딩의 결합으로 변환하는 전처리부, 전처리된 텍스트 데이터에서 언어폭력 요소를 탐지하는 언어폭력 요소 탐지부, 상기 텍스트 데이터에서 신뢰 정도를 예측하는 신뢰도 예측부, 상기 언어폭력 요소 및 상기 신뢰 정도에 따라 상기 입력 텍스트의 신뢰도와 언어폭력 간 의존성을 분석하는 신뢰도와 언어폭력 간 의존성 분석부 및 상기 분석 결과에 기반하여 신뢰도 증강과 언어폭력 순화를 위해 상기 입력 텍스트를 수정하는 언어폭력 수정 및 신뢰도 증강부를 포함한다.

상기 전처리부는 상기 입력 텍스트를 대상 텍스트와 문맥 텍스트로 구분하며, 상기 입력 텍스트는 문장 시작임을 알리는 구분자 및 상기 대상 텍스트와 상기 문맥 텍스트를 구분짓는 구분자를 포함할 수 있다.

상기 전처리부는 상기 입력 텍스트를 임베딩 벡터로 변환하고, 상기 구분자와 함께 벡터들을 결합한 상기 텍스트 데이터를 상기 언어폭력 요소 탐지부 및 상기 신뢰도 예측부로 전달할 수 있다.

상기 언어폭력 요소 탐지부는 텍스트 임베딩 결합 층, 자가 주의집중 층, 선형 층 및 활성 층으로 구성되는 인공신경망 기반의 텍스트 언어폭력 탐지 모델을 포함하며, 상기 텍스트 언어폭력 탐지 모델을 이용하여 상기 텍스트 데이터에서 상기 언어폭력 요소의 여부를 탐지할 수 있다.

상기 신뢰도 예측부는 텍스트 임베딩 결합 층, 자가 주의집중 층 및 선형 층으로 구성되며, 상기 텍스트 데이터에서 신뢰할 수 있는 정도인 상기 신뢰 정도를 예측할 수 있다.

상기 신뢰도 예측부에서 사용되는 텍스트 임베딩 결합 층 및 자가 주의집중 층은 상기 언어폭력 요소 탐지부에서 사용하는 텍스트 언어폭력 탐지 모델의 텍스트 임베딩 결합 층 및 자가 주의집중 층과 파라미터를 공유할 수 있다.

상기 신뢰도와 언어폭력 간 의존성 분석부는 자가 주의집중 층 및 선형 층으로 구성되며, 상기 언어폭력 요소 및 상기 신뢰 정도 간의 의존성을 고려한 분석 결과를 상기 언어폭력 수정 및 신뢰도 증강부로 전달할 수 있다.

상기 언어폭력 수정 및 신뢰도 증강부는 텍스트 임베딩 결합 층, 자가 주의집중 층, 선형 층 및 활성 층으로 구성되며, 텍스트 생성을 위한 모델 훈련을 위해 언어폭력 순화 학습 말뭉치와 상기 분석 결과에 기반하여 상기 입력 텍스트에서 언어폭력을 제거하고, 신뢰도가 증강된 텍스트를 생성할 수 있다.

상기 언어폭력 수정 및 신뢰도 증강부는 신뢰도와 언어폭력 간 의존성에 대한 분석 결과를 기반으로, 언어폭력 수정을 통해 신뢰도가 증강된 텍스트를 생성할 수 있다.

본 발명의 실시예에 따른 언어폭력 수정 및 텍스트 신뢰도 증강 방법은 입력 텍스트를 임베딩의 결합으로 변환하는 전처리 단계, 전처리된 텍스트 데이터에서 언어폭력 요소를 탐지 및 신뢰 정도를 예측하는 단계, 상기 언어폭력 요소 및 상기 신뢰 정도에 따라 상기 입력 텍스트의 신뢰도와 언어폭력 간 의존성을 분석하는 단계 및 상기 분석 결과에 기반하여 신뢰도 증강과 언어폭력 순화를 위해 상기 입력 텍스트를 수정하는 단계를 포함한다.

상기 전처리 단계는 상기 입력 텍스트를 대상 텍스트와 문맥 텍스트로 구분하며, 상기 입력 텍스트는 문장 시작임을 알리는 구분자 및 상기 대상 텍스트와 상기 문맥 텍스트를 구분짓는 구분자를 포함할 수 있다.

상기 전처리 단계는 상기 입력 텍스트를 임베딩 벡터로 변환하고, 상기 구분자와 함께 벡터들을 결합한 상기 텍스트 데이터를 상기 언어폭력 요소를 탐지 및 신뢰 정도를 예측하는 단계로 전달할 수 있다.

상기 언어폭력 요소를 탐지 및 신뢰 정도를 예측하는 단계는 텍스트 임베딩 결합 층, 자가 주의집중 층, 선형 층 및 활성 층으로 구성되는 인공신경망 기반의 텍스트 언어폭력 탐지 모델을 포함하며, 상기 텍스트 언어폭력 탐지 모델을 이용하여 상기 텍스트 데이터에서 상기 언어폭력 요소의 여부를 탐지할 수 있다.

상기 언어폭력 요소를 탐지 및 신뢰 정도를 예측하는 단계는 텍스트 임베딩 결합 층, 자가 주의집중 층 및 선형 층으로 구성되며, 상기 텍스트 데이터에서 신뢰할 수 있는 정도인 상기 신뢰 정도를 예측할 수 있다.

상기 신뢰도와 언어폭력 간 의존성을 분석하는 단계는 자가 주의집중 층 및 선형 층으로 구성되며, 상기 언어폭력 요소 및 상기 신뢰 정도 간의 의존성을 분석할 수 있다.

상기 입력 텍스트를 수정하는 단계는 텍스트 임베딩 결합 층, 자가 주의집중 층, 선형 층 및 활성 층으로 구성되며, 텍스트 생성을 위한 모델 훈련을 위해 언어폭력 순화 학습 말뭉치와 상기 분석 결과에 기반하여 상기 입력 텍스트에서 언어폭력을 제거하고, 신뢰도가 증강된 텍스트를 생성할 수 있다.

본 발명의 실시예에 따르면, 텍스트 내 직접적 혹은 암묵적 언어폭력의 포함 여부와 텍스트에 대한 신뢰도 사이에 나타날 수 있는 의존성을 분석하여 언어폭력이 포함되어 신뢰도가 떨어지는 텍스트에 대해 언어폭력을 순화 및 교정함으로써, 신뢰도가 높은 텍스트로 변경하는데 도움을 줄 수 있다. 또한, 본 발명은 반드시 높은 신뢰도가 필요한 경우가 아닐지라도 텍스트 내의 언어폭력을 순화표현으로 수정함으로써, 사람들이 유해 콘텐츠가 포함된 텍스트에 노출되지 않게 도움을 줄 수 있다.

다만, 본 발명의 효과는 상기 효과들로 한정되는 것은 아니며, 본 발명의 기술적 사상 및 영역으로부터 벗어나지 않는 범위에서 다양하게 확장될 수 있다.

도 1은 본 발명의 실시예에 따른 언어폭력 수정 및 텍스트 신뢰도 증강 시스템의 세부 구성을 블록도로 도시한 것이다.
도 2는 본 발명의 실시예에 따른 입력 테스트에 대한 신뢰도를 증강하는 인공신경망 모델의 과정을 설명하기 위해 도시한 것이다.
도 3은 본 발명의 실시예에 따른 언어폭력 수정 및 텍스트 신뢰도 증강 방법의 동작 흐름도를 도시한 것이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며, 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예들을 보다 상세하게 설명하고자 한다. 도면 상의 동일한 구성요소에 대해서는 동일한 참조 부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

본 발명의 실시예들은, 자연어 텍스트에서 언어폭력 요소를 찾아내고 이를 수정함으로써, 텍스트의 신뢰도를 증강하는 것을 그 요지로 한다. 보다 상세하게, 본 발명은 입력된 텍스트를 대상으로 자연어 처리 시스템을 통하여 언어폭력 요소 탐지와 신뢰도를 예측하여 신뢰도와 언어폭력 간 의존성을 분석하고 자동으로 텍스트를 수정하여 신뢰도를 증강할 수 있다.

이하에서는 도 1 내지 도 3을 참조하여 본 발명에 대해 상세히 설명한다.

도 1은 본 발명의 실시예에 따른 언어폭력 수정 및 텍스트 신뢰도 증강 시스템의 세부 구성을 블록도로 도시한 것이다.

도 1을 참조하면, 본 발명의 실시예에 따른 언어폭력 수정 및 텍스트 신뢰도 증강 시스템은 입력 텍스트 내 언어폭력 요소를 고려하여 분석된 언어폭력 여부와 신뢰도 간의 의존성을 활용하여 신뢰도 증강을 위해 텍스트를 수정한다.

이를 위해, 본 발명의 실시예에 따른 언어폭력 수정 및 텍스트 신뢰도 증강 시스템(100)은 전처리부(110), 언어폭력 요소 탐지부(120), 신뢰도 예측부(130), 신뢰도와 언어폭력 간 의존성 분석부(140) 및 언어폭력 수정 및 신뢰도 증강부(150)를 포함한다.

전처리부(110)는 입력 텍스트를 발화 임베딩의 결합으로 변환한다.

전처리부(110)는 본 발명의 실시예에 따른 언어폭력 수정 및 텍스트 신뢰도 증강 시스템(100)을 통해 입력 텍스트(10)를 입력 받는다. 전처리부(110)는 입력 텍스트를 언어폭력 예측 및 신뢰도 예측을 위한 임베딩으로 변환할 수 있다. 변환된 임베딩은 언어폭력 요소 탐지부(120) 및 신뢰도 예측부(130)의 입력값으로 제공된다.

전처리부(110)는 입력 텍스트(10)를 대상 텍스트와 문맥 텍스트에 따라 구분하며, 효과적으로 모델을 훈련시키기 위해서 입력된 입력 텍스트(10)는 문장 시작임을 알리는 구분자(예를 들면, <CLS>, <SEP>), 대상 텍스트와 문맥 텍스트를 구분짓는 구분자(예를 들면, <p>)를 포함할 수 있다.

전처리부(110)는 입력 텍스트(10)를 임베딩 벡터로 변환하고, 구분자와 함께 벡터들을 결합한 텍스트 데이터를 언어폭력 요소 탐지부(120)와 신뢰도 예측부(130) 각각으로 전달한다. 임베딩 벡터로 변환된 후 결과값은 텍스트 내 언어요소(token)에 대한 임베딩 벡터를 포함한다. 상기 언어요소는 문장을 나타내는 단위이며, 띄어쓰기를 통한 단어 구분 혹은, Byte-Pair Encoding(BPE)의 subword units, Unigram Language Model에 의해 나누어진 subwords가 사용될 수 있다.

언어폭력 요소 탐지부(120)는 전처리된 텍스트 데이터에서 언어폭력 요소를 탐지한다.

언어폭력 요소 탐지부(120)는 텍스트 임베딩 결합 층, 자가 주의집중 층, 선형 층 및 활성 층으로 구성되는 인공신경망 기반의 텍스트 언어폭력 탐지 모델을 포함하며, 모델 훈련을 위해 언어폭력 주석 말뭉치(121)를 사용하여 텍스트 데이터에서 언어폭력 요소의 여부를 탐지한다. 텍스트 언어폭력 탐지 모델의 훈련 과정에서 언어폭력 요소 탐지부(120)는 마지막 단계에서 선형 층의 결과값을 활성 층으로 전달하고, 가장 높은 값을 가진 예측값(즉, 언어폭력의 유/무)을 기준으로 텍스트 데이터에서 언어폭력 여부를 탐지하여 신뢰도와 언어폭력 간 의존성 분석부(140)로 결과를 전달할 수 있다.

이때, 자가 주의집중 층은 긴 길이를 가진 텍스트 내 언어요소(token) 간의 의존관계를 효과적으로 분석하는 Transformer Encoder가 사용될 수 있다. 또한, 선형 층 및 활성 층은 각각 Feed-forward layer와 Softmax function이 사용될 수 있다. 더욱이, 자가 주의집중 층에 전달된 후, 결과값은 각 언어요소에 대한 문맥 정보로 변환된 임베딩 벡터를 포함한다. 또한, 결과값은 자가 주의집중 층의 특성을 인해 주변 문맥의 언어요소를 고려하여 대상 텍스트의 의미를 효과적으로 탐지할 수 있다.

신뢰도 예측부(130)는 텍스트 데이터에서 신뢰 정도를 예측한다.

신뢰도 예측부(130)는 텍스트 임베딩 결합 층, 자가 주의집중 층 및 선형 층으로 구성되며, 모델 훈련을 위해 텍스트 단위 신뢰도 주석 말뭉치(131)를 사용하여 텍스트 데이터에서 신뢰할 수 있는 정도인 신뢰 정도를 예측한다. 신뢰도 예측부(130)는 하나의 인공신경망이 신뢰도 예측과 언어폭력 요소 탐지를 동시에 진행할 수 있도록 신경망 초기 특성이 공유되는 다중 작업 학습을 진행할 수 있다. 이때, 텍스트 임베딩 결합 층과 자가 주의집중 층은 언어폭력 요소 탐지부(120) 훈련 과정에서 사용한 텍스트 언어폭력 탐지 모델의 텍스트 임베딩 결합 층 및 자가 주의집중 층과 파라미터를 공유하며, 신뢰도 예측부(130)는 훈련 과정에서 공유된 파라미터를 사용한다. 상기 인공신경망은 앞서 서술한 텍스트 임베딩 결합 층, 자가 주의집중 층 및 선형 층으로 이루어질 수 있다.

신뢰도와 언어폭력 간 의존성 분석부(140)는 언어폭력 요소 및 신뢰 정도에 따라 입력 텍스트의 신뢰도와 언어폭력 간 의존성을 분석한다.

신뢰도와 언어폭력 간 의존성 분석부(140)는 자가 주의집중 층 및 선형 층으로 구성되고, 언어폭력 요소 탐지부(120)에 의한 언어폭력 요소와 신뢰도 예측부(130)에 의한 신뢰 정도 간의 의존성을 고려하며, 분석 결과를 언어폭력 수정 및 신뢰도 증강부(150)로 전달한다. 보다 상세하게, 자가 주의집중 층은 언어폭력 탐지 및 신뢰도 예측을 위한 선형 층의 결과값들을 입력으로 받는다. 자가 주의집중 층은 분석된 언어폭력 여부 및 신뢰도 정도 간의 의존성을 고려하는데 사용되며, 선형 층은 자가 주의집중 층의 결과를 언어폭력 수정 및 신뢰도 증강부(150)의 입력으로 전달할 수 있다.

언어폭력 수정 및 신뢰도 증강부(150)는 분석 결과에 기반하여 신뢰도 증강과 언어폭력 순화를 위해 입력 텍스트를 수정한다.

언어폭력 수정 및 신뢰도 증강부(150)는 텍스트 임베딩 결합 층, 자가 주의집중 층, 선형 층 및 활성 층으로 구성되며, 텍스트 생성을 위한 모델 훈련을 위해 언어폭력 순화 학습 말뭉치(151)를 사용하여 입력 텍스트(10)에서 언어폭력을 제거하고, 신뢰도가 증강된 텍스트(20)를 생성할 수 있다. 보다 세부적으로, 언어폭력 수정 및 신뢰도 증강부(150)는 신뢰도 증강을 위해 입력 텍스트(10) 내 언어폭력을 수정하고, 신뢰도와 언어폭력 간 의존성을 분석하며, 언어폭력 수정을 통해 신뢰도가 증강된 텍스트(20)를 생성할 수 있다.

이때, 텍스트 임베딩 결합 층은 언어폭력 순화 학습 말뭉치(151)의 입력 텍스트를 임베딩 벡터로 변환하고 구분자와 함께 벡터들을 결합한다. 자가 주의집중 층은 신뢰도와 언어폭력 간 의존성 분석부(140)에서 전달된 벡터들과 임베딩 결합 층의 벡터들을 입력값으로 받는다. 자가 주의집중 층은 분석된 신뢰도와 언어폭력 간의 의존성을 고려하는데 사용되며, 선형 층은 최종적으로 언어폭력을 제거하고, 신뢰도가 증강된 텍스트(20)를 생성한다. 여기서, 자가 주의집중 층은 텍스트 내 언어요소(token)와 인코더의 출력 간의 의존관계를 효과적으로 분석하는 Transformer Decoder가 사용될 수 있다. 선형 층 및 활성 층은 Feed-forward layer와 Softmax function, Dense function 등이 사용될 수 있다.

도 2는 본 발명의 실시예에 따른 입력 테스트에 대한 신뢰도를 증강하는 인공신경망 모델의 과정을 설명하기 위해 도시한 것이다.

도 2를 참조하면, 본 발명은 하나의 입력 텍스트(210)를 문맥 정보와 함께 나열하여 입력 시퀀스로 전달한다. 도 1의 언어폭력 요소 탐지부(120)와 신뢰도 예측부(130)는 파라미터를 공유하는 텍스트 임베딩 결합 층(220)과 자가 주의집중 층(260)을 포함하고 있으며, 전달받은 입력 시퀀스는 파라미터 공유 층(220)에 전달되며, 입력 임베딩 벡터(230)를 포함하여 서로 다른 말뭉치로 훈련된 독립된 선형 층에 의해 각각 언어폭력 요소 탐지(240)와 신뢰도 예측(250)을 진행한다.

자가 주의집중 층(260)은 독립적인 선형 층(240, 250)의 결과 벡터를 수신하며, 디코더 주의집중 층(270)에 의해 언어폭력 여부 및 신뢰도 정도 간의 의존성을 파악한다. 이후에, 선형 층(280)에서 최종적으로 현재 텍스트에서 인식된 언어폭력 요소를 수정함으로써, 신뢰도가 증강된 텍스트(290)를 생성한다.

도 3은 본 발명의 실시예에 따른 언어폭력 수정 및 텍스트 신뢰도 증강 방법의 동작 흐름도를 도시한 것이다.

도 3을 참조하면, 단계 S310에서, 입력 텍스트를 발화 임베딩의 결합으로 변환한다.

단계 S310은 입력 텍스트를 입력 받는다. 단계 S310은 입력 텍스트를 언어폭력 예측 및 신뢰도 예측을 위한 임베딩으로 변환할 수 있다. 변환된 임베딩은 텍스트 데이터 내 언어폭력 요소 탐지 및 신뢰도 예측 단계(S320)의 입력값으로 제공된다.

단계 S310은 입력 텍스트를 대상 텍스트와 문맥 텍스트에 따라 구분하며, 효과적으로 모델을 훈련시키기 위해서 입력된 입력 텍스트는 문장 시작임을 알리는 구분자(예를 들면, <CLS>, <SEP>), 대상 텍스트와 문맥 텍스트를 구분짓는 구분자(예를 들면, <p>)를 포함할 수 있다.

단계 S320에서, 전처리된 텍스트 데이터에서 언어폭력 요소를 탐지하고, 텍스트 데이터에서 신뢰 정도를 예측한다.

단계 S320은 텍스트 임베딩 결합 층, 자가 주의집중 층, 선형 층 및 활성 층으로 구성되는 인공신경망 기반의 텍스트 언어폭력 탐지 모델을 포함하며, 모델 훈련을 위해 언어폭력 주석 말뭉치를 사용하여 텍스트 데이터에서 언어폭력 요소의 여부를 탐지한다. 텍스트 언어폭력 탐지 모델의 훈련 과정에서 단계 S320은 마지막 단계에서 선형 층의 결과값을 활성 층으로 전달하고, 가장 높은 값을 가진 예측값(즉, 언어폭력의 유/무)을 기준으로 텍스트 데이터에서 언어폭력 여부를 탐지하여 단계 S330으로 결과를 전달할 수 있다.

또한, 단계 S320은 텍스트 임베딩 결합 층, 자가 주의집중 층 및 선형 층으로 구성되며, 모델 훈련을 위해 텍스트 단위 신뢰도 주석 말뭉치를 사용하여 텍스트 데이터에서 신뢰할 수 있는 정도인 신뢰 정도를 예측한다. 단계 S320은 하나의 인공신경망이 신뢰도 예측과 언어폭력 요소 탐지를 동시에 진행할 수 있도록 신경망 초기 특성이 공유되는 다중 작업 학습을 진행할 수 있다.

즉, 텍스트로부터 언어폭력 요소를 탐지하고 신뢰도를 예측하는 단계 S320은 다중 작업 학습, 자가 주의 집중 과정을 포함할 수 있다.

단계 S330에서, 언어폭력 요소 및 신뢰 정도에 따라 입력 텍스트의 신뢰도와 언어폭력 간 의존성을 분석한다.

단계 S330은 자가 주의집중 층 및 선형 층으로 구성되고, 언어폭력 요소와 신뢰 정도 간의 의존성을 고려하며, 분석 결과를 단계 S340으로 전달한다. 보다 상세하게, 자가 주의집중 층은 언어폭력 탐지 및 신뢰도 예측을 위한 선형 층의 결과값들을 입력으로 받는다. 자가 주의집중 층은 분석된 언어폭력 여부 및 신뢰도 정도 간의 의존성을 고려하는데 사용되며, 선형 층은 자가 주의집중 층의 결과를 단계 S340의 입력으로 전달할 수 있다.

단계 S340에서, 분석 결과에 기반하여 신뢰도 증강과 언어폭력 순화를 위해 입력 텍스트를 수정한다.

단계 S340은 텍스트 임베딩 결합 층, 자가 주의집중 층, 선형 층 및 활성 층으로 구성되며, 텍스트 생성을 위한 모델 훈련을 위해 언어폭력 순화 학습 말뭉치를 사용하여 입력 텍스트에서 언어폭력을 제거하고, 신뢰도가 증강된 텍스트를 생성할 수 있다. 보다 세부적으로, 단계 S340은 신뢰도 증강을 위해 입력 텍스트 내 언어폭력을 수정하고, 신뢰도와 언어폭력 간 의존성을 분석하며, 언어폭력 수정을 통해 신뢰도가 증강된 텍스트를 생성할 수 있다.

이상에서 설명된 시스템 또는 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(Field Programmable Gate Array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

입력 텍스트를 임베딩의 결합으로 변환하는 전처리부;
전처리된 텍스트 데이터에서 언어폭력 요소를 탐지하는 언어폭력 요소 탐지부;
상기 텍스트 데이터에서 신뢰 정도를 예측하는 신뢰도 예측부;
상기 언어폭력 요소 및 상기 신뢰 정도에 따라 상기 입력 텍스트의 신뢰도와 언어폭력 간 의존성을 분석하는 신뢰도와 언어폭력 간 의존성 분석부; 및
상기 분석 결과에 기반하여 신뢰도 증강과 언어폭력 순화를 위해 상기 입력 텍스트를 수정하는 언어폭력 수정 및 신뢰도 증강부를 포함하되,
상기 언어폭력 요소 탐지부는
텍스트 임베딩 결합 층, 자가 주의집중 층, 선형 층 및 활성 층으로 구성되는 인공신경망 기반의 텍스트 언어폭력 탐지 모델을 포함하며, 모델 훈련을 위해 언어폭력 주석 말뭉치를 사용하여 상기 텍스트 데이터에서 상기 언어폭력 요소의 여부를 탐지하고,
상기 신뢰도 예측부는
텍스트 임베딩 결합 층, 자가 주의집중 층 및 선형 층으로 구성되며, 상기 텍스트 데이터에서 신뢰할 수 있는 정도인 상기 신뢰 정도를 예측하고,
상기 신뢰도 예측부에서 사용되는 텍스트 임베딩 결합 층 및 자가 주의집중 층은 상기 언어폭력 요소 탐지부에서 사용하는 텍스트 언어폭력 탐지 모델의 텍스트 임베딩 결합 층 및 자가 주의집중 층과 파라미터를 공유하는 것을 특징으로 하는, 언어폭력 수정 및 텍스트 신뢰도 증강 시스템.
제1항에 있어서,
상기 전처리부는
상기 입력 텍스트를 대상 텍스트와 문맥 텍스트로 구분하며,
상기 입력 텍스트는
문장 시작임을 알리는 구분자 및 상기 대상 텍스트와 상기 문맥 텍스트를 구분짓는 구분자를 포함하는, 언어폭력 수정 및 텍스트 신뢰도 증강 시스템.
제2항에 있어서,
상기 전처리부는
상기 입력 텍스트를 임베딩 벡터로 변환하고, 상기 구분자와 함께 벡터들을 결합한 상기 텍스트 데이터를 상기 언어폭력 요소 탐지부 및 상기 신뢰도 예측부로 전달하는, 언어폭력 수정 및 텍스트 신뢰도 증강 시스템.
삭제
삭제
삭제
제1항에 있어서,
상기 신뢰도와 언어폭력 간 의존성 분석부는
자가 주의집중 층 및 선형 층으로 구성되며, 상기 언어폭력 요소 및 상기 신뢰 정도 간의 의존성을 고려한 분석 결과를 상기 언어폭력 수정 및 신뢰도 증강부로 전달하는, 언어폭력 수정 및 텍스트 신뢰도 증강 시스템.
제7항에 있어서,
상기 언어폭력 수정 및 신뢰도 증강부는
텍스트 임베딩 결합 층, 자가 주의집중 층, 선형 층 및 활성 층으로 구성되며, 텍스트 생성을 위한 모델 훈련을 위해 언어폭력 순화 학습 말뭉치와 상기 분석 결과에 기반하여 상기 입력 텍스트에서 언어폭력을 제거하고, 신뢰도가 증강된 텍스트를 생성하는, 언어폭력 수정 및 텍스트 신뢰도 증강 시스템.
제8항에 있어서,
상기 언어폭력 수정 및 신뢰도 증강부는
신뢰도와 언어폭력 간 의존성에 대한 분석 결과를 기반으로, 언어폭력 수정을 통해 신뢰도가 증강된 텍스트를 생성하는 것을 특징으로 하는, 언어폭력 수정 및 텍스트 신뢰도 증강 시스템.
언어폭력 수정 및 텍스트 신뢰도 증강 시스템에 의한 언어폭력 수정 및 텍스트 신뢰도 증강 방법에 있어서,
상기 언어폭력 수정 및 텍스트 신뢰도 증강 시스템의 전처리부에 의해, 입력 텍스트를 임베딩의 결합으로 변환하는 전처리 단계;
언어폭력 요소 탐지부에 의해, 전처리된 텍스트 데이터에서 언어폭력 요소를 탐지하고, 신뢰도 예측부에 의해, 신뢰 정도를 예측하는 단계;
신뢰도와 언어폭력 간 의존성 분석부에 의해, 상기 언어폭력 요소 및 상기 신뢰 정도에 따라 상기 입력 텍스트의 신뢰도와 언어폭력 간 의존성을 분석하는 단계; 및
언어폭력 수정 및 신뢰도 증강부에 의해, 상기 분석 결과에 기반하여 신뢰도 증강과 언어폭력 순화를 위해 상기 입력 텍스트를 수정하는 단계를 포함하되,
상기 언어폭력 요소를 탐지 및 신뢰 정도를 예측하는 단계는
텍스트 임베딩 결합 층, 자가 주의집중 층, 선형 층 및 활성 층으로 구성되는 인공신경망 기반의 텍스트 언어폭력 탐지 모델을 포함하며, 모델 훈련을 위해 언어폭력 주석 말뭉치를 사용하여 상기 텍스트 데이터에서 상기 언어폭력 요소의 여부를 탐지하고,
상기 신뢰도 예측부는 텍스트 임베딩 결합 층, 자가 주의집중 층 및 선형 층으로 구성되며, 상기 언어폭력 요소를 탐지 및 신뢰 정도를 예측하는 단계는 상기 텍스트 데이터에서 신뢰할 수 있는 정도인 상기 신뢰 정도를 예측하고,
상기 신뢰도 예측부에서 사용되는 텍스트 임베딩 결합 층 및 자가 주의집중 층은 상기 언어폭력 요소 탐지부에서 사용하는 텍스트 언어폭력 탐지 모델의 텍스트 임베딩 결합 층 및 자가 주의집중 층과 파라미터를 공유하는 것을 특징으로 하는, 언어폭력 수정 및 텍스트 신뢰도 증강 방법.
제10항에 있어서,
상기 전처리 단계는
상기 입력 텍스트를 대상 텍스트와 문맥 텍스트로 구분하며,
상기 입력 텍스트는
문장 시작임을 알리는 구분자 및 상기 대상 텍스트와 상기 문맥 텍스트를 구분짓는 구분자를 포함하는, 언어폭력 수정 및 텍스트 신뢰도 증강 방법.
제11항에 있어서,
상기 전처리 단계는
상기 입력 텍스트를 임베딩 벡터로 변환하고, 상기 구분자와 함께 벡터들을 결합한 상기 텍스트 데이터를 상기 언어폭력 요소를 탐지 및 신뢰 정도를 예측하는 단계로 전달하는, 언어폭력 수정 및 텍스트 신뢰도 증강 방법.
삭제
삭제
제10항에 있어서,
상기 신뢰도와 언어폭력 간 의존성을 분석하는 단계는
자가 주의집중 층 및 선형 층으로 구성되며, 상기 언어폭력 요소 및 상기 신뢰 정도 간의 의존성을 분석하는, 언어폭력 수정 및 텍스트 신뢰도 증강 방법.
제15항에 있어서,
상기 입력 텍스트를 수정하는 단계는
텍스트 임베딩 결합 층, 자가 주의집중 층, 선형 층 및 활성 층으로 구성되며, 텍스트 생성을 위한 모델 훈련을 위해 언어폭력 순화 학습 말뭉치와 상기 분석 결과에 기반하여 상기 입력 텍스트에서 언어폭력을 제거하고, 신뢰도가 증강된 텍스트를 생성하는, 언어폭력 수정 및 텍스트 신뢰도 증강 방법.