KR102326972B1 - 언론 매체의 신뢰성을 반영한 기사 판별 시스템 및 명제의 진위 판별 방법 - Google Patents
언론 매체의 신뢰성을 반영한 기사 판별 시스템 및 명제의 진위 판별 방법 Download PDFInfo
- Publication number
- KR102326972B1 KR102326972B1 KR1020190098775A KR20190098775A KR102326972B1 KR 102326972 B1 KR102326972 B1 KR 102326972B1 KR 1020190098775 A KR1020190098775 A KR 1020190098775A KR 20190098775 A KR20190098775 A KR 20190098775A KR 102326972 B1 KR102326972 B1 KR 102326972B1
- Authority
- KR
- South Korea
- Prior art keywords
- media
- article
- sentence
- proposition
- reliability
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000010801 machine learning Methods 0.000 claims abstract description 50
- 230000007935 neutral effect Effects 0.000 claims abstract description 25
- 230000009193 crawling Effects 0.000 claims abstract description 17
- 230000015654 memory Effects 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 238000013434 data augmentation Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 238000013136 deep learning model Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000012795 verification Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013210 evaluation model Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001073 episodic memory Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
도 2는 본 발명의 일 실시예에 따른 명제의 진위 판별 방법을 보여주는 순서도이다.
도 3은 본 발명의 일 실시예에 따른 기사 판별 기계학습 모델의 학습 방법을 보여주는 순서도이다.
도 4는 본 발명의 일 실시예에 따른 기사 판별 시스템의 구성을 보여주는 개략도이다.
도 5는 본 발명의 일 실시예에 따른 신뢰성 확인 모델의 구성을 보여주는 개략도이다.
도 6은 본 발명의 일 실험예 따른 테스트용 입력 데이터셋을 보여주는 도면이다.
도 7은 본 발명의 일 실험예에 따른 가짜 뉴스 탐색 시스템의 데이터 증강(Data Augmentation)을 적용하지 않은 정확도를 보여주는 도면이다.
도 8은 본 발명의 일 실시예에 따른 기사 판별 시스템이 학습하는 데이터셋의 배치 사이즈(Batch Size) 별로 정확도를 보여주는 도면이다.
도 9는 본 발명의 일 실험예에 따른 기사 판별 시스템의 컨볼루션 레이어(Convolutional layer)의 크기를 달리하여 정확도를 측정한 결과를 보여주는 도면이다.
110: 통신 모듈
120: 메모리
130: 프로세서
140: 데이터베이스
Claims (15)
- 언론 매체의 신뢰성을 반영한 기사 판별 시스템에 의해 수행되는 기사 판별을 위한 기계학습 모델을 학습시키는 방법으로서,
진위 판별을 위한 대상 명제를 수신하는 단계;
상기 수신한 대상 명제를 기초로 웹 크롤링을 수행하여 관련 기사를 검색하고, 상기 대상 명제와 상기 검색된 관련 기사에 포함된 문장의 유사도를 산출하는 단계;
상기 산출된 문장의 유사도에 따라 상기 문장을 참, 거짓 또는 중립으로서 판별하여 판별값을 설정하는 단계; 및
상기 유사도가 산출된 문장, 상기 문장에 각각 설정된 판별값 및 상기 문장을 포함하는 상기 관련 기사를 제공한 언론 매체의 정보를 학습데이터로서 기계학습 모델에 입력하여 학습을 수행하는 단계를 포함하되,
상기 관련 기사를 제공한 언론 매체의 정보는 미리 평가된 상기 관련 기사를 제공한 언론 매체의 신뢰도를 포함하며,
상기 학습을 수행하는 단계는, 상기 기계 학습 모델이 상기 미리 평가된 상기 관련 기사를 제공한 언론 매체의 신뢰도에 가중치를 반영하여 상기 수신한 대상 명제의 진위를 판별하는 단계를 포함하는, 기사 판별 기계학습 모델의 학습 방법. - 제1항에 있어서
상기 웹 크롤링은,
상기 대상 명제와 웹페이지 상의 문장을 비교하여 코사인 유사도(Cosine Similarity)가 기설정된 값 이상인 문장을 검색하는 것을 포함하는, 기사 판별 기계학습 모델의 학습 방법. - 제1항에 있어서,
상기 판별값을 설정하는 단계는,
상기 대상 명제와 상기 관련 기사에 포함된 문장의 유사도가 50%이상이면 상기 문장은 참이고, 상기 유사도가 30%이상 50%미만이면 거짓이고, 상기 유사도가 30% 미만이면 중립으로 설정되는, 기사 판별 기계학습 모델의 학습 방법. - 제1항에 있어서,
상기 기계학습 모델은 CNN(Convolution Neural Network) 모델을 이용한 것인, 기사 판별 기계학습 모델의 학습 방법. - 언론 매체의 신뢰성을 반영한 기사 판별 시스템에 의해 수행되는 명제의 진위를 판별하는 방법에 있어서,
진위를 판별하고자 하는 대상 명제를 수신하는 단계;
상기 수신한 대상 명제를 미리 웹 크롤링을 통해 검색된 상기 명제와 관련된 관련 기사 내의 문장, 상기 문장에 설정된 판별값 및 상기 관련 기사를 제공한 언론 매체의 정보를 기초로 미리 학습된 기계학습 모델을 통하여 참, 거짓 또는 중립으로 판별하는 단계; 및
상기 대상 명제의 판별 결과를 출력하는 단계를 포함하되,
상기 관련 기사를 제공한 언론 매체의 정보는 미리 평가된 상기 관련 기사를 제공한 언론 매체의 신뢰도를 포함하며,
상기 판별하는 단계는, 상기 기계 학습 모델이 상기 미리 평가된 상기 관련 기사를 제공한 언론 매체의 신뢰도에 가중치를 반영하여 상기 수신한 대상 명제의 진위를 판별하는 단계를 포함하는, 언론 매체의 신뢰성을 반영한 명제의 진위 판별 방법. - 제5항에 있어서,
상기 대상 명제를 수신하는 단계에서, 상기 대상 명제가 추출된 언론 매체의 정보를 더 수신하고,
상기 판별 단계에서, 상기 기계학습 모델은 상기 언론 매체 정보에 더 기초하여 상기 대상 명제의 진위를 판별하는, 언론 매체의 신뢰성을 반영한 명제의 진위 판별 방법. - 제5항에 있어서,
상기 웹 크롤링은 상기 대상 명제와 웹페이지 상의 문장을 비교하여 코사인 유사도(Cosine Similarity)가 기설정된 값 이상인 문장을 검색하는 것을 포함하는, 언론 매체의 신뢰성을 반영한 명제의 진위 판별 방법. - 제5항에 있어서,
상기 설정된 판별값은,
상기 대상 명제와 상기 관련 기사에 포함된 문장의 유사도가 50%이상이면 상기 문장은 참이고, 상기 유사도가 30%이상 50%미만이면 거짓이고, 상기 유사도가 30% 미만이면 중립으로 설정된 것인, 언론 매체의 신뢰성을 반영한 명제의 진위 판별 방법. - 제6항에 있어서,
상기 기계학습 모델은 CNN(Convolution Neural Network) 모델을 이용한 것인, 언론 매체의 신뢰성을 반영한 명제의 진위 판별 방법. - 언론 매체의 신뢰성을 반영한 기사 판별 시스템에 있어서,
언론 매체의 신뢰성을 반영하여 기사를 판별하는 프로그램이 저장된 메모리; 및
상기 메모리에 저장된 프로그램을 실행하는 프로세서를 포함하고,
상기 프로세서는 상기 프로그램의 수행에 따라,
진위 판별을 위한 대상 명제를 수신하고, 상기 수신한 대상 명제를 기초로 웹 크롤링을 수행하여 관련 기사를 검색하고, 상기 대상 명제와 상기 검색된 관련 기사에 포함된 문장의 유사도를 산출하고, 상기 산출된 문장의 유사도에 따라 상기 문장을 참, 거짓 또는 중립으로서 판별하여 판별값을 설정하고, 상기 유사도가 산출된 문장과 상기 문장에 각각 설정된 판별값을 학습데이터로서 기계학습 모델에 입력하여 학습을 수행하여 학습된 기계학습 모델을 통해 기사의 진위를 판별하되,
상기 관련 기사를 제공한 언론 매체의 정보는 미리 평가된 상기 관련 기사를 제공한 언론 매체의 신뢰도를 포함하며,
상기 프로세서는 상기 프로그램의 수행에 따라, 상기 기계 학습 모델이 상기 미리 평가된 상기 관련 기사를 제공한 언론 매체의 신뢰도에 가중치를 반영하여 상기 수신한 대상 명제의 진위를 판별하는, 언론 매체의 신뢰성을 반영한 기사 판별 시스템. - 제10항에 있어서,
상기 기계학습 모델을 학습시킨 다음에,
진위를 판별하고자 하는 대상 명제를 수신하고, 상기 수신한 대상 명제를 상기 미리 학습된 기계학습 모델을 통하여 참, 거짓 또는 중립으로 판별하고, 상기 대상 명제의 판별 결과를 출력하는, 언론 매체의 신뢰성을 반영한 기사 판별 시스템. - 제11항에 있어서,
상기 대상 명제의 진위 판별을 위해와 상기 대상 명제가 추출된 언론 매체의 정보를 더 수신하고,
상기 기계학습 모델은 상기 수신한 언론 매체 정보에 더 기초하여 상기 대상 명제의 진위를 판별하는, 언론 매체의 신뢰성을 반영한 기사 판별 시스템. - 제10항에 있어서,
상기 웹 크롤링은 상기 대상 명제와 웹페이지 상의 문장을 비교하여 코사인 유사도(Cosine Similarity)가 기설정된 값 이상인 문장을 검색하는 것을 포함하는, 언론 매체의 신뢰성을 반영한 기사 판별 시스템. - 제10항에 있어서,
상기 설정된 판별값은,
상기 대상 명제와 상기 관련 기사에 포함된 문장의 유사도가 50%이상이면 상기 문장은 참이고, 상기 유사도가 30%이상 50%미만이면 거짓이고, 상기 유사도가 30% 미만이면 중립으로 설정된 것인, 언론 매체의 신뢰성을 반영한 기사 판별 시스템. - 제10항에 있어서,
상기 기계학습 모델은 CNN(Convolution Neural Network) 모델을 이용한 것인, 언론 매체의 신뢰성을 반영한 기사 판별 시스템.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20180151181 | 2018-11-29 | ||
KR1020180151181 | 2018-11-29 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200064884A KR20200064884A (ko) | 2020-06-08 |
KR102326972B1 true KR102326972B1 (ko) | 2021-11-16 |
Family
ID=71089765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190098775A KR102326972B1 (ko) | 2018-11-29 | 2019-08-13 | 언론 매체의 신뢰성을 반영한 기사 판별 시스템 및 명제의 진위 판별 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102326972B1 (ko) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101868421B1 (ko) * | 2017-02-17 | 2018-06-20 | 박성진 | 웹 상의 콘텐츠들에 대한 거짓 여부 판별 지원 장치 및 그 동작 방법 |
-
2019
- 2019-08-13 KR KR1020190098775A patent/KR102326972B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101868421B1 (ko) * | 2017-02-17 | 2018-06-20 | 박성진 | 웹 상의 콘텐츠들에 대한 거짓 여부 판별 지원 장치 및 그 동작 방법 |
Non-Patent Citations (1)
Title |
---|
Bashar Al Asaad et al., A Tool for Fake News Detection. (2018.9.)* |
Also Published As
Publication number | Publication date |
---|---|
KR20200064884A (ko) | 2020-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109471938B (zh) | 一种文本分类方法及终端 | |
US10438091B2 (en) | Method and apparatus for recognizing image content | |
US11288324B2 (en) | Chart question answering | |
US11762990B2 (en) | Unstructured text classification | |
KR102223382B1 (ko) | 다중타입 엔티티에 기반한 지식 보완 방법 및 장치 | |
CN113704082B (zh) | 模型评测方法、装置、电子设备及存储介质 | |
CN113032525A (zh) | 虚假新闻检测方法、装置、电子设备以及存储介质 | |
CN110705573A (zh) | 一种目标检测模型的自动建模方法及装置 | |
CN113656660B (zh) | 跨模态数据的匹配方法、装置、设备及介质 | |
CN112749737A (zh) | 图像分类方法及装置、电子设备、存储介质 | |
CN111027576A (zh) | 基于协同显著性生成式对抗网络的协同显著性检测方法 | |
Shin et al. | Super-CWC and super-LCC: Super fast feature selection algorithms | |
CN110717525A (zh) | 一种通道自适应优化的对抗攻击防御方法和装置 | |
CN113705596A (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN116722992A (zh) | 一种基于多模态融合的诈骗网站识别方法及装置 | |
CN115456043A (zh) | 分类模型处理、意图识别方法、装置和计算机设备 | |
CN115204301A (zh) | 视频文本匹配模型训练、视频文本匹配方法和装置 | |
Corley et al. | Domaingan: generating adversarial examples to attack domain generation algorithm classifiers | |
CN111241271A (zh) | 文本情感分类方法、装置及电子设备 | |
CN113641708B (zh) | 规则引擎的优化方法、数据匹配方法及装置、存储介质、终端 | |
KR102326972B1 (ko) | 언론 매체의 신뢰성을 반영한 기사 판별 시스템 및 명제의 진위 판별 방법 | |
CN117852526A (zh) | 一种基于对比图学习的跨文档虚假信息检测方法 | |
CN117009613A (zh) | 一种图数据分类方法、系统、装置及介质 | |
CN111310176B (zh) | 一种基于特征选择的入侵检测方法和装置 | |
CN113610080A (zh) | 基于跨模态感知的敏感图像识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20190813 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20210520 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20211014 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20211110 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20211111 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20241119 Start annual number: 4 End annual number: 4 |