KR20200063067A - 자가 증식된 비윤리 텍스트의 유효성 검증 장치 및 방법 - Google Patents
자가 증식된 비윤리 텍스트의 유효성 검증 장치 및 방법 Download PDFInfo
- Publication number
- KR20200063067A KR20200063067A KR1020190151952A KR20190151952A KR20200063067A KR 20200063067 A KR20200063067 A KR 20200063067A KR 1020190151952 A KR1020190151952 A KR 1020190151952A KR 20190151952 A KR20190151952 A KR 20190151952A KR 20200063067 A KR20200063067 A KR 20200063067A
- Authority
- KR
- South Korea
- Prior art keywords
- text
- self
- proliferation
- unit
- dictionary
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000007651 self-proliferation Effects 0.000 claims abstract description 87
- 239000013598 vector Substances 0.000 claims abstract description 43
- 239000000284 extract Substances 0.000 claims abstract description 4
- 238000010200 validation analysis Methods 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 7
- 230000006403 short-term memory Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 description 12
- 238000001514 detection method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
도 2는 도 1의 학습 모델 기반 판별부의 상세 구성을 나타낸다.
도 3은 본 발명의 일 실시예에 따른 자가 증식된 텍스트 유효성 검증 방법을 나타낸다.
300: 사전 기반 판별부 400: 학습 모델 기반 판별부
410: 벡터 변환부 420: 문장 특징 추출부
430: 특징 분류부 500: 원문 기반 판별부
600: 판별 결과 비교부 700: 레이블 비교부
Claims (17)
- 윤리 또는 비윤리가 미리 검증되어 레이블된 학습용 텍스트를 이용하여 자가 증식 방식으로 생성된 다수의 자가 증식 텍스트를 획득하는 텍스트 획득부;
자가 증식 텍스트를 인가받고, 인가된 자가 증식 텍스트에서 미리 획득된 비속어 사전에 등재된 비속어와 기기정된 레벨 이상으로 유사한 단어를 탐색하여 상기 자가 증식 텍스트의 비윤리를 판별하는 사전 기반 판별부;
자가 증식 텍스트를 인가받아 단어 단위로 벡터화하고, 벡터화된 단어로부터 미리 학습된 패턴 추정 방식에 따라 문장 특징 벡터를 추출하여 상기 자가 증식 텍스트의 비윤리를 판별하는 학습 모델 기반 판별부;
상기 자가 증식 텍스트와 가장 유사한 학습용 텍스트를 탐색하고, 탐색된 학습용 텍스트의 레이블에 따라 상기 자가 증식 텍스트의 비윤리를 판별하는 원문 기반 판별부; 및
상기 사전 기반 판별부, 상기 학습 모델 기반 판별부 및 상기 원문 기반 판별부 각각에서 판별된 상기 자가 증식 텍스트의 비윤리를 판별 결과를 조합하여, 상기 자가 증식 텍스트에 대한 최종 판별 결과를 획득하는 판별 결과 비교부를 포함하는 자가 증식된 텍스트의 유효성 검증 장치. - 제1 항에 있어서, 상기 사전 기반 판별부는
상기 비속의 사전에 등재된 비속어와 상기 자가 증식 텍스트의 각 단어에 대해 N-그램 유사도 분석을 수행하여, 상기 자가 증식 텍스트에 비속어의 포함 여부를 판정하고, 비속어가 포함된 것으로 판정되면, 상기 자가 증식 텍스트를 비윤리로 판별하는 자가 증식된 텍스트의 유효성 검증 장치. - 제1 항에 있어서, 상기 학습 모델 기반 판별부는
상기 자가 증식 텍스트의 각 단어를 임베딩하여 벡터화함으로써 다수의 단어 벡터를 획득하는 벡터 변환부;
미리 학습된 패턴 추정 방식에 따라 상기 다수의 단어 벡터의 특징을 누적하여 추출함으로써, 상기 문장 특징 벡터를 획득하는 문장 특징 추출부; 및
미리 학습된 패턴 분류 방식에 따라 상기 문장 특징 벡터를 분류하여, 상기 자가 증식 텍스트의 비윤리를 판별하는 특징 분류부를 포함하는 자가 증식된 텍스트의 유효성 검증 장치. - 제3 항에 있어서, 상기 문장 특징 추출부는
LSTM(Long Short Term Memory)으로 구현되는 자가 증식된 텍스트의 유효성 검증 장치. - 제1 항에 있어서, 상기 판별 결과 비교부는
상기 사전 기반 판별부, 상기 학습 모델 기반 판별부 및 상기 원문 기반 판별부 각각에서 판별된 상기 자가 증식 텍스트의 비윤리를 판별 결과에 대해 다수결 원칙을 적용하여 상기 최종 판별 결과를 획득하는 자가 증식된 텍스트의 유효성 검증 장치. - 제1 항에 있어서, 상기 판별 결과 비교부는
상기 사전 기반 판별부, 상기 학습 모델 기반 판별부 및 상기 원문 기반 판별부 각각에서 판별된 상기 자가 증식 텍스트의 비윤리를 판별 결과에 각각에 대해 기지정된 서로 다른 가중치를 할당하고, 할당된 가중치에 따라 윤리 또는 비윤리 중 더 높은 가중치가 할당된 결과를 상기 최종 판별 결과로 획득하는 자가 증식된 텍스트의 유효성 검증 장치. - 제1 항에 있어서, 상기 자가 증식된 텍스트의 유효성 검증 장치는
상기 자가 증식 텍스트의 생성 시에 윤리 또는 비윤리로 레이블링된 레이블과 상기 최종 판별 결과를 비교하여 동일하면 상기 자가 증식 텍스트의 레이블이 유효한 것으로 판정하고, 동일하지 않으면 유효하지 않은 것으로 판정하는 레이블 비교부를 더 포함하는 자가 증식된 텍스트의 유효성 검증 장치. - 제7 항에 있어서, 상기 레이블 비교부는
다수의 자가 증식 텍스트의 레이블에 대한 유효 판정 결과에 따라 자가 증식 텍스트의 신뢰도를 계산하는 자가 증식된 텍스트의 유효성 검증 장치. - 제1 항에 있어서, 상기 자가 증식된 텍스트의 유효성 검증 장치는
상기 텍스트 획득부에서 획득된 자가 증식 텍스트에 대해 부가 구성 요소 제거하고, 문장 단위로 구분하여 상기 사전 기반 판별부, 상기 학습 모델 기반 판별부 및 상기 원문 기반 판별부 각각으로 전달하는 전처리부를 더 포함하는 자가 증식된 텍스트의 유효성 검증 장치. - 윤리 또는 비윤리가 미리 검증되어 레이블된 학습용 텍스트를 이용하여 자가 증식 방식으로 생성된 다수의 자가 증식 텍스트를 획득하는 자가 증식 텍스트 획득 단계;
자가 증식 텍스트에서 미리 획득된 비속어 사전에 등재된 비속어와 기기정된 레벨 이상으로 유사한 단어를 탐색하여, 상기 자가 증식 텍스트의 비윤리를 판별하는 사전 기반 판별 단계;
자가 증식 텍스트를 인가받아 단어 단위로 벡터화하고, 벡터화된 단어로부터 패턴 추정 방식이 미리 학습된 학습 모델을 이용하여 문장 특징 벡터를 추출하고, 추출된 문장 특징에 기반하여 상기 자가 증식 텍스트의 비윤리를 판별하는 학습 모델 기반 판별 단계;
상기 자가 증식 텍스트와 가장 유사한 학습용 텍스트를 탐색하고, 탐색된 학습용 텍스트의 레이블에 따라 상기 자가 증식 텍스트의 비윤리를 판별하는 원문 기반 판별 단계; 및
상기 사전 기반 판별 단계, 상기 학습 모델 기반 판별 단계 및 상기 원문 기반 판별 단계 각각에서 판별된 상기 자가 증식 텍스트의 비윤리를 판별 결과를 조합하여, 상기 자가 증식 텍스트에 대한 최종 판별 결과를 획득하는 최종 판별 단계를 포함하는 자가 증식된 텍스트의 유효성 검증 방법. - 제10 항에 있어서, 상기 사전 기반 판별 단계는
상기 비속의 사전에 등재된 비속어와 상기 자가 증식 텍스트의 각 단어에 대해 N-그램 유사도 분석을 수행하여, 상기 자가 증식 텍스트에 비속어의 포함 여부를 판정하는 단계; 및
비속어가 포함된 것으로 판정되면, 상기 자가 증식 텍스트를 비윤리로 판별하는 단계를 포함하는 자가 증식된 텍스트의 유효성 검증 방법. - 제10 항에 있어서, 상기 학습 모델 기반 판별 단계는
상기 자가 증식 텍스트의 각 단어를 임베딩하여 벡터화함으로써 다수의 단어 벡터를 획득하는 단계;
패턴 추정 방식이 미리 학습된 학습 모델을 이용하여 상기 다수의 단어 벡터의 특징을 누적하여 추출함으로써, 상기 문장 특징 벡터를 획득하는 단계; 및
미리 학습된 패턴 분류 방식에 따라 상기 문장 특징 벡터를 분류하여, 상기 자가 증식 텍스트의 비윤리를 판별하는 단계를 포함하는 자가 증식된 텍스트의 유효성 검증 방법. - 제12 항에 있어서, 상기 학습 모델은
LSTM(Long Short Term Memory)으로 구현되는 자가 증식된 텍스트의 유효성 검증 방법. - 제10 항에 있어서, 상기 최종 판별 단계는
상기 사전 기반 판별 단계, 상기 학습 모델 기반 판별 단계 및 상기 원문 기반 판별 단계 각각에서 판별된 상기 자가 증식 텍스트의 비윤리를 판별 결과에 대해 다수결 원칙을 적용하여 상기 최종 판별 결과를 획득하는 자가 증식된 텍스트의 유효성 검증 방법. - 제10 항에 있어서, 상기 최종 판별 단계는
상기 사전 기반 판별 단계, 상기 학습 모델 기반 판별 단계 및 상기 원문 기반 판별 단계 각각에서 판별된 상기 자가 증식 텍스트의 비윤리를 판별 결과에 각각에 대해 기지정된 서로 다른 가중치를 할당하는 단계; 및
할당된 가중치에 따라 윤리 또는 비윤리 중 더 높은 가중치가 할당된 결과를 상기 최종 판별 결과로 획득하는 자가 증식된 텍스트의 유효성 검증 방법. - 제10 항에 있어서, 상기 자가 증식된 텍스트의 유효성 검증 방법은
상기 자가 증식 텍스트의 생성 시에 윤리 또는 비윤리로 레이블링된 레이블과 상기 최종 판별 결과를 비교하여 동일하면 상기 자가 증식 텍스트의 레이블이 유효한 것으로 판정하고, 동일하지 않으면 유효하지 않은 것으로 판정하는 레이블 비교 단계를 더 포함하는 자가 증식된 텍스트의 유효성 검증 방법. - 제16 항에 있어서, 상기 자가 증식된 텍스트의 유효성 검증 방법은
다수의 자가 증식 텍스트의 레이블에 대한 유효 판정 결과에 따라 자가 증식 텍스트의 신뢰도를 계산하는 신뢰도 계산 단계를 더 포함하는 자가 증식된 텍스트의 유효성 검증 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20180148087 | 2018-11-27 | ||
KR1020180148087 | 2018-11-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200063067A true KR20200063067A (ko) | 2020-06-04 |
KR102334018B1 KR102334018B1 (ko) | 2021-12-02 |
Family
ID=71081154
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190151952A KR102334018B1 (ko) | 2018-11-27 | 2019-11-25 | 자가 증식된 비윤리 텍스트의 유효성 검증 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102334018B1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220072226A (ko) * | 2020-11-25 | 2022-06-02 | 연세대학교 산학협력단 | 문장 데이터 클래스 분류 및 클래스 사전 생성을 위한 신경망 학습 방법 |
KR102410582B1 (ko) * | 2021-10-29 | 2022-06-22 | 주식회사 튜닙 | 유해어에 대한 학습 데이터를 증강하는 장치, 방법 및 컴퓨터 프로그램 |
KR102618060B1 (ko) * | 2023-03-21 | 2023-12-27 | (주)노웨어소프트 | 인공지능 알고리즘 기반의 비속어 필터링 장치 및 방법 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130022075A (ko) * | 2011-08-24 | 2013-03-06 | 한국전자통신연구원 | 감성 어휘 정보 구축 방법 및 장치 |
KR20170073354A (ko) * | 2015-12-18 | 2017-06-28 | 한국전자통신연구원 | 문장 유사도 기반 다의어 데이터베이스 확장장치 및 그 방법 |
KR20180008247A (ko) * | 2016-07-14 | 2018-01-24 | 김경호 | 딥러닝 인공신경망 기반의 타스크 제공 플랫폼 |
KR101913284B1 (ko) * | 2017-11-29 | 2018-10-30 | 충남대학교산학협력단 | 소셜 네트워크 서비스에서 스팸 탐지 방법 및 장치 |
KR20190108958A (ko) | 2018-03-16 | 2019-09-25 | 한국과학기술원 | 유해단어 어휘목록 자동 생성과 기계학습을 이용한 청소년 유해가사 자동 분류 방법 및 장치 |
-
2019
- 2019-11-25 KR KR1020190151952A patent/KR102334018B1/ko active IP Right Grant
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130022075A (ko) * | 2011-08-24 | 2013-03-06 | 한국전자통신연구원 | 감성 어휘 정보 구축 방법 및 장치 |
KR20170073354A (ko) * | 2015-12-18 | 2017-06-28 | 한국전자통신연구원 | 문장 유사도 기반 다의어 데이터베이스 확장장치 및 그 방법 |
KR20180008247A (ko) * | 2016-07-14 | 2018-01-24 | 김경호 | 딥러닝 인공신경망 기반의 타스크 제공 플랫폼 |
KR101913284B1 (ko) * | 2017-11-29 | 2018-10-30 | 충남대학교산학협력단 | 소셜 네트워크 서비스에서 스팸 탐지 방법 및 장치 |
KR20190108958A (ko) | 2018-03-16 | 2019-09-25 | 한국과학기술원 | 유해단어 어휘목록 자동 생성과 기계학습을 이용한 청소년 유해가사 자동 분류 방법 및 장치 |
Non-Patent Citations (1)
Title |
---|
Seok-Jun Buet al., "Ensemble Technique of Syntax-Based CNN and Semantic-Based LSTM for Classifying Unethical SNS Comments", 2017.05.31., pp.6-19. chapter 1. * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220072226A (ko) * | 2020-11-25 | 2022-06-02 | 연세대학교 산학협력단 | 문장 데이터 클래스 분류 및 클래스 사전 생성을 위한 신경망 학습 방법 |
KR102410582B1 (ko) * | 2021-10-29 | 2022-06-22 | 주식회사 튜닙 | 유해어에 대한 학습 데이터를 증강하는 장치, 방법 및 컴퓨터 프로그램 |
KR102618060B1 (ko) * | 2023-03-21 | 2023-12-27 | (주)노웨어소프트 | 인공지능 알고리즘 기반의 비속어 필터링 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR102334018B1 (ko) | 2021-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109460455B (zh) | 一种文本检测方法及装置 | |
CN112347244B (zh) | 基于混合特征分析的涉黄、涉赌网站检测方法 | |
CN106328147B (zh) | 语音识别方法和装置 | |
KR101312770B1 (ko) | 정보 분류를 위한 방법, 컴퓨터 판독가능 매체, 및 시스템 | |
CN103313248B (zh) | 一种识别垃圾信息的方法和装置 | |
CN107229627B (zh) | 一种文本处理方法、装置及计算设备 | |
KR102334018B1 (ko) | 자가 증식된 비윤리 텍스트의 유효성 검증 장치 및 방법 | |
CN109271489A (zh) | 一种文本检测方法及装置 | |
CN110298041B (zh) | 垃圾文本过滤方法、装置、电子设备及存储介质 | |
CN115544240B (zh) | 文本类敏感信息识别方法、装置、电子设备和存储介质 | |
CN107148624A (zh) | 预处理文本的方法以及用于执行该方法的预处理系统 | |
CN111221960A (zh) | 文本检测方法、相似度计算方法、模型训练方法及装置 | |
CN111753290A (zh) | 软件类型的检测方法及相关设备 | |
KR101982990B1 (ko) | 챗봇을 이용한 질의 응답 방법 및 장치 | |
CN112559679B (zh) | 政法新媒体传播力的检测方法、装置、设备及存储介质 | |
CN116340511B (zh) | 结合深度学习与语言逻辑推理的舆情分析方法 | |
CN113688240A (zh) | 威胁要素提取方法、装置、设备及存储介质 | |
CN112948725A (zh) | 基于机器学习的钓鱼网站url检测方法及系统 | |
CN116150651A (zh) | 基于ai的深度合成检测方法和系统 | |
KR20150122855A (ko) | 실시간 질의 및 정답을 위한 분산처리 시스템 및 방법 | |
CN110879832A (zh) | 目标文本检测方法、模型训练方法、装置及设备 | |
KR102405522B1 (ko) | 텍스트의 계층적 특성을 반영한 문맥적 비윤리 탐지 장치 및 방법 | |
CN114254622A (zh) | 一种意图识别方法和装置 | |
JP4703487B2 (ja) | 画像分類方法及び装置及びプログラム | |
CN114298048A (zh) | 命名实体识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20191125 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20210525 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20211126 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20211129 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20211129 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20241024 Start annual number: 4 End annual number: 4 |