KR102252671B1 - 학습 기반 혐오 표현 댓글 필터링 장치 및 이의 동작 방법 - Google Patents
학습 기반 혐오 표현 댓글 필터링 장치 및 이의 동작 방법 Download PDFInfo
- Publication number
- KR102252671B1 KR102252671B1 KR1020190069460A KR20190069460A KR102252671B1 KR 102252671 B1 KR102252671 B1 KR 102252671B1 KR 1020190069460 A KR1020190069460 A KR 1020190069460A KR 20190069460 A KR20190069460 A KR 20190069460A KR 102252671 B1 KR102252671 B1 KR 102252671B1
- Authority
- KR
- South Korea
- Prior art keywords
- hate
- expression
- comments
- dictionary
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001914 filtration Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 title claims description 21
- 230000014509 gene expression Effects 0.000 claims abstract description 329
- 239000013598 vector Substances 0.000 claims abstract description 48
- 238000013145 classification model Methods 0.000 claims abstract description 37
- 238000002372 labelling Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 6
- 238000010276 construction Methods 0.000 description 9
- 238000012706 support-vector machine Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 2
- 238000013019 agitation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- G06Q50/30—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- Mathematical Physics (AREA)
- Operations Research (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
도 2는 한 실시예에 따른 혐오 표현 분류 모델의 예시이다.
도 3은 한 실시예에 따른 혐오 표현 사전 구축 방법의 흐름도이다.
도 4는 한 실시예에 따른 혐오 표현 분류 모델 학습 방법의 흐름도이다.
도 5는 한 실시예에 따른 혐오 표현 필터링 방법의 흐름도이다.
도 6은 필터링된 댓글 표시의 예시이다.
Claims (12)
- 혐오 표현 댓글 필터링 장치로서,
온라인에 게시된 댓글들을 수집하는 댓글 수집기,
혐오 표현 단어들을 저장하는 혐오 표현 사전,
상기 혐오 표현 사전을 기초로 혐오 표현 댓글과 비혐오 표현 댓글로 라벨링된 분류 학습용 댓글들을 이용하여, 혐오 표현 분류 모델이 입력 댓글을 혐오 표현 댓글 또는 비혐오 표현 댓글을 구별하도록 학습시키는 학습 장치, 그리고
상기 댓글 수집기에서 수집된 판별 대상 댓글을 상기 혐오 표현 분류 모델로 입력하고, 상기 혐오 표현 분류 모델로부터 상기 판별 대상 댓글이 혐오 표현 댓글로 판별된 경우, 상기 판별 대상 댓글을 미리 설정된 텍스트로 치환되도록 설정하는 필터링기를 포함하며,
상기 혐오 표현 사전은, 상기 댓글 수집기에서 수집된 댓글들로부터 사전 구축 장치에 의해 생성된 신규 혐오 표현 단어들을 포함하고,
상기 사전 구축 장치는
1) 단어 임베딩 모델을 이용하여, 수집된 혐오 표현 댓글들에 포함된 혐오 표현 후보 단어들과 상기 혐오 표현 사전에 저장된 혐오 표현 단어들 각각의 임베딩 벡터들을 생성하고, 2) 벡터 간 유사도 판단 알고리즘을 이용하여 상기 혐오 표현 후보 단어들 중에서 상기 혐오 표현 사전에 저장된 단어들과 유사한 혐오 표현 후보 단어들을 추출하고, 3) 상기 유사한 혐오 표현 후보 단어들 중, 혐오 표현 댓글들에서 일정 빈도 이상 등장하는 단어를 상기 신규 혐오 표현 단어로 결정하고, 4) 상기 신규 혐오 표현 단어를 상기 혐오 표현 사전에 추가하는, 혐오 표현 댓글 필터링 장치. - 제1항에서,
상기 사전 구축 장치는
상기 혐오 표현 사전에 저장된 단어들을 포함하는 댓글들을 혐오 표현 댓글들로 분류하고, 각 혐오 표현 댓글을 구성하는 형태소들을 상기 단어 임베딩 모델로 임베딩하여 각 혐오 표현 후보 단어의 임베딩 벡터를 생성하는, 혐오 표현 댓글 필터링 장치. - 삭제
- 제1항에서,
상기 사전 구축 장치는
상기 혐오 표현 사전에 저장된 각 혐오 표현 단어의 임베딩 벡터와 각 혐오 표현 후보 단어의 임베딩 벡터가 형성하는 코사인 각도를 유사도로 계산하고, 두 벡터 간의 유사도를 기초로 상기 혐오 표현 후보 단어들 중에서 상기 혐오 표현 사전에 저장된 단어들과 유사한 유사 단어들을 추출하는, 혐오 표현 댓글 필터링 장치. - 제1항에서,
상기 학습 장치는
분류 학습용 댓글들을 입력받고, 상기 혐오 표현 사전에 포함된 적어도 하나의 단어를 포함하는 댓글을 혐오 표현으로 라벨링하고, 상기 혐오 표현 단어들을 포함하지 않은 댓글을 비혐오 표현으로 라벨링하는, 혐오 표현 댓글 필터링 장치. - 제1항에서,
상기 혐오 표현 사전은
혐오 표현 단어로 정의된 비속어들을 포함하고, 상기 비속어들로부터 확장된신규 혐오 표현 단어들이 업데이트되는, 혐오 표현 댓글 필터링 장치. - 혐오 표현 댓글 필터링 장치의 동작 방법으로서,
혐오 표현 단어들을 저장하는 혐오 표현 사전을 관리하는 단계,
분류 학습용 댓글들을 입력받고, 상기 혐오 표현 사전에 포함된 적어도 하나의 단어를 포함하는 댓글을 혐오 표현으로 라벨링하고, 상기 혐오 표현 단어들을 포함하지 않은 댓글을 비혐오 표현으로 라벨링하는 단계,
혐오 표현 댓글과 비혐오 표현 댓글로 라벨링된 학습 데이터를 기초로, 혐오 표현 분류 모델이 입력된 텍스트를 혐오 표현 댓글 또는 비혐오 표현 댓글을 구별하도록 학습시키는 단계,
판별 대상 댓글을 상기 혐오 표현 분류 모델로 입력하는 단계, 그리고
상기 혐오 표현 분류 모델로부터 상기 판별 대상 댓글이 혐오 표현 댓글로 판별된 경우, 상기 판별 대상 댓글을 미리 설정된 텍스트로 치환되도록 설정하는 단계를 포함하고,
상기 혐오 표현 사전을 관리하는 단계는
단어 임베딩 모델을 이용하여, 수집된 혐오 표현 댓글들에 포함된 혐오 표현 후보 단어들과 상기 혐오 표현 사전에 저장된 혐오 표현 단어들 각각의 임베딩 벡터들을 생성하는 단계,
벡터 간 유사도 판단 알고리즘을 이용하여 상기 혐오 표현 후보 단어들 중에서 상기 혐오 표현 사전에 저장된 단어들과 유사한 혐오 표현 후보 단어들을 추출하는 단계,
상기 유사한 혐오 표현 후보 단어들 중, 상기 혐오 표현 댓글들에서 일정 빈도 이상 등장하는 단어를 신규 혐오 표현 단어로 결정하는 단계, 그리고
상기 신규 혐오 표현 단어를 상기 혐오 표현 사전에 추가하는 단계
를 포함하는 동작 방법. - 삭제
- 삭제
- 제7항에서,
상기 임베딩 벡터들을 생성하는 단계는
각 혐오 표현 댓글을 구성하는 형태소들을 상기 단어 임베딩 모델로 임베딩하여 각 혐오 표현 후보 단어의 임베딩 벡터를 생성하는, 동작 방법. - 제7항에서,
상기 혐오 표현 후보 단어들을 추출하는 단계는
상기 혐오 표현 사전에 저장된 각 혐오 표현 단어의 임베딩 벡터와 각 혐오 표현 후보 단어의 임베딩 벡터가 형성하는 코사인 각도를 유사도로 계산하고, 두 벡터 간의 유사도를 기초로 상기 혐오 표현 후보 단어들 중에서 상기 혐오 표현 사전에 저장된 단어들과 유사한 유사 단어들을 추출하는, 동작 방법. - 삭제
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20180133309 | 2018-11-02 | ||
KR1020180133309 | 2018-11-02 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200050845A KR20200050845A (ko) | 2020-05-12 |
KR102252671B1 true KR102252671B1 (ko) | 2021-05-17 |
Family
ID=70679305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190069460A Active KR102252671B1 (ko) | 2018-11-02 | 2019-06-12 | 학습 기반 혐오 표현 댓글 필터링 장치 및 이의 동작 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102252671B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230032554A (ko) | 2021-08-31 | 2023-03-07 | 숭실대학교산학협력단 | 한국어 유해 텍스트를 분류하기 위한 필터링 시스템 및 방법 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102564817B1 (ko) * | 2020-06-26 | 2023-08-07 | 서강대학교 산학협력단 | 자기 조절형 댓글 시각화 방법 및 그 장치 |
KR102427719B1 (ko) * | 2020-12-03 | 2022-08-03 | 주식회사 큐티티 | 댓글 기반의 왜곡 행동 억제시스템 |
KR102682790B1 (ko) * | 2021-04-16 | 2024-07-12 | 엔에이치엔 주식회사 | 문제 데이터를 생성하는 컴퓨터 장치 및 방법 |
KR102410582B1 (ko) * | 2021-10-29 | 2022-06-22 | 주식회사 튜닙 | 유해어에 대한 학습 데이터를 증강하는 장치, 방법 및 컴퓨터 프로그램 |
KR102659389B1 (ko) * | 2021-11-29 | 2024-04-23 | 한국과학기술원 | 신뢰도와 언어폭력 간 의존성을 이용한 언어폭력 수정 및 텍스트 신뢰도 증강 시스템 및 그 방법 |
KR102618060B1 (ko) * | 2023-03-21 | 2023-12-27 | (주)노웨어소프트 | 인공지능 알고리즘 기반의 비속어 필터링 장치 및 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101713558B1 (ko) * | 2015-10-30 | 2017-03-08 | 조선대학교산학협력단 | 소셜 네트워크 서비스 상의 사용자 게시글 감정 분류 방법 |
KR101851788B1 (ko) * | 2017-06-23 | 2018-04-24 | 주식회사 마인드셋 | 텍스트 감성 분석의 감정사전 업데이트 장치 및 방법 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100613520B1 (ko) * | 2004-11-23 | 2006-08-17 | 엘지전자 주식회사 | 비속어 변환 기능이 구비된 이동통신 단말기 및 그 동작방법 |
KR101075838B1 (ko) * | 2009-08-24 | 2011-10-25 | 부산대학교 산학협력단 | 변형 비속어 필터링을 위한 비속어 필터링 시스템 및 방법 |
KR20170067558A (ko) * | 2015-12-08 | 2017-06-16 | 숭실대학교산학협력단 | Svm을 이용한 인터넷 악성댓글 탐지 기법 |
-
2019
- 2019-06-12 KR KR1020190069460A patent/KR102252671B1/ko active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101713558B1 (ko) * | 2015-10-30 | 2017-03-08 | 조선대학교산학협력단 | 소셜 네트워크 서비스 상의 사용자 게시글 감정 분류 방법 |
KR101851788B1 (ko) * | 2017-06-23 | 2018-04-24 | 주식회사 마인드셋 | 텍스트 감성 분석의 감정사전 업데이트 장치 및 방법 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230032554A (ko) | 2021-08-31 | 2023-03-07 | 숭실대학교산학협력단 | 한국어 유해 텍스트를 분류하기 위한 필터링 시스템 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20200050845A (ko) | 2020-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102252671B1 (ko) | 학습 기반 혐오 표현 댓글 필터링 장치 및 이의 동작 방법 | |
CN106294350B (zh) | 一种文本聚合方法及装置 | |
CN106951422B (zh) | 网页训练的方法和装置、搜索意图识别的方法和装置 | |
Nirkhi et al. | Comparative study of authorship identification techniques for cyber forensics analysis | |
CN111460083A (zh) | 文档标题树的构建方法、装置、电子设备及存储介质 | |
US9098741B1 (en) | Discriminitive learning for object detection | |
CN107301171A (zh) | 一种基于情感词典学习的文本情感分析方法和系统 | |
CN110287328A (zh) | 一种文本分类方法、装置、设备及计算机可读存储介质 | |
CN106294783A (zh) | 一种视频推荐方法及装置 | |
CN107077640B (zh) | 经由经验归属来分析、资格化和摄取非结构化数据源的系统和处理 | |
CN107301163B (zh) | 包含公式的文本语义解析方法及装置 | |
CN107291684A (zh) | 语言文本的分词方法和系统 | |
CN110858217A (zh) | 微博敏感话题的检测方法、装置及可读存储介质 | |
US20240086452A1 (en) | Tracking concepts within content in content management systems and adaptive learning systems | |
Rochmawati et al. | Opinion analysis on Rohingya using Twitter data | |
CN118155016A (zh) | 用于模型训练的数据集的构建方法和装置 | |
CN111026866B (zh) | 一种面向领域的文本信息抽取聚类方法、设备和存储介质 | |
Dehghani et al. | Sentiment analysis of Persian political tweets using ParsBERT embedding model with convolutional neural network | |
CN112818681A (zh) | 文本情感分析方法、系统及电子设备 | |
CN111611394B (zh) | 一种文本分类方法、装置、电子设备及可读存储介质 | |
Wachsmuth et al. | Back to the roots of genres: Text classification by language function | |
JP2017151933A (ja) | データ分類装置、データ分類方法、及びプログラム | |
CN111737982B (zh) | 一种基于深度学习的汉语文本错别字检测方法 | |
Mangngalle et al. | Sentiment analysis of lazada app review using word2vec and support vector machine | |
CN108804412A (zh) | 基于社会媒体的多层级情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20190612 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20201028 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20210426 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20210511 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20210511 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20240424 Start annual number: 4 End annual number: 4 |