KR20200062520A

KR20200062520A - 출처 분석 기반의 뉴스 신뢰성 평가 시스템 및 그 동작 방법

Info

Publication number: KR20200062520A
Application number: KR1020180148011A
Authority: KR
Inventors: 양중식; 이영준; 오지훈
Original assignee: (주)아이와즈
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2020-06-04
Also published as: KR102124846B1

Abstract

본 발명은 출처 분석을 기반으로 검사대상뉴스의 신뢰성을 평가하는 뉴스 신뢰성 평가 시스템은 개시한다. 뉴스 신뢰성 평가 시스템은 기계학습을 통해 출처 분석을 수행하고, 설정된 점수 알고리즘을 통해 기계학습 수행결과에 따른 신뢰도 점수를 산출하며, 출처별 신뢰도 점수를 종합 평가하는 것을 특징으로 한다.

Description

출처 분석 기반의 뉴스 신뢰성 평가 시스템 및 그 동작 방법{SOURCE ANALYSIS BASED NEWS RELIABILITY EVALUATION SYSTEM AND METHOD THEREOF}

본 발명은 검사대상뉴스를 출처별로 구분하여 출처 분석과 신뢰도 점수 산출이 자동적으로 수행되는 출처 분석 기반의 뉴스 신뢰성 평가 시스템 및 그 동작 방법에 관한 것이다.

가짜뉴스는 교묘하게 조작된 속임수 뉴스로서, 정치 또는 경제적 이익을 위해 의도적으로 언론 보도의 형식으로 유포된 거짓 정보이고, 핵심 내용을 왜곡하거나 조작된 뉴스이며, 대부분 사실 확인이 쉽지 않은 자극적인 내용들을 포함하고 있다. 종래에는 사회관계망서비스(SNS)를 통하여 가짜뉴스가 유포될 수 있고, 최근에는 언론사를 통하여 가짜뉴스가 유포될 수 있다.

특허문헌 1은 가짜뉴스 판별 시스템에 관한 것으로서, 네티즌의 참여를 통해 게시글에 대한 진실과 거짓을 판별하여 인터넷 상의 무분별한 정보를 필터링할 수 있다.

그러나 특허문헌 1은 네티즌의 개인적인 판단에 의해 게시글에 대한 진실과 거짓을 판별하므로, 가짜뉴스 판별에 대한 신뢰도가 매우 낮을 수 있는 문제점이 있다.

특허문헌 2는 집단지성을 이용한 뉴스 판단 방법 및 장치에 관한 것으로서, 복수의 의심이용자로부터 SNS에 게재된 판별대상뉴스를 거짓으로 의심하는 태그인 의심태그를 입력받고, 의심지수와 소정의 임계치에 기초하여 판별대상뉴스의 거짓 여부를 판별하는 기술에 관한 것이다.

그러나 특허문헌 2는 SNS에 게재된 뉴스로만 한정되기 때문에 언론사에 게재된 뉴스 또는 SNS와 언론사 간의 유통흐름에 따른 신뢰도 분석이 어려운 문제점이 있다.

1. 한국등록특허 제10-1864439호 2. 한국등록특허 제10-1869815호

상기 문제점을 해결하기 위하여 본 발명은 언론사와 SNS의 유통흐름에 따른 유통채널 분석, 저자의 신뢰도에 따른 저자 분석 및 본문의 텍스트와 이미지의 신뢰도에 따른 본문 분석을 포함하는 출처 분석 기반의 뉴스 신뢰성 평가 시스템 및 동작 방법을 제공한다.

상기의 해결하고자 하는 과제를 위한 본 발명의 출처 분석 기반의 뉴스 신뢰성 평가 시스템은, 검사대상뉴스에서 유통채널, 저자 및 본문으로 구분하여 출처별 검사자료를 추출하는 추출부; 출처별로 학습세트에 검사자료를 매핑시켜 기계학습을 수행하고, 설정된 점수 알고리즘에 기계학습 수행결과를 입력시켜 신뢰도 점수를 산출하는 분석부 및 출처별 신뢰도 점수를 종합 평가하는 평가부를 포함하여, 기계학습과 점수 알고리즘을 이용한 출처 분석을 수행하여 검사대상뉴스의 신뢰성을 평가하는 것을 특징으로 한다.

상기 분석부는 주기적으로 설정된 기간의 최신뉴스를 수집하고, 최신뉴스를 대상으로 출처 분석을 수행하여 점수 알고리즘을 업데이트하는 것을 특징으로 할 수 있다.

상기 분석부는 유통채널에 해당하는 검사자료를 분석하는 유통채널 분석부;

저자에 해당하는 검사자료를 분석하는 저자 분석부 및 본문에 해당하는 검사자료를 분석하는 본문 분석부를 포함하는 것을 특징으로 할 수 있다.

상기 유통채널 분석부는 유통채널의 URL 분석, 유통채널별 신뢰도 분석 및 유통채널의 유통흐름 분석 중 적어도 하나의 분석을 제공하는 것을 특징으로 할 수 있다.

상기 저자 분석부는 저자 DB에 검사대상뉴스의 검사대상저자가 있는지 여부를 판별하고, 저자 DB에 검사대상저자가 미존재하면 검사대상저자로 게재된 저자대상뉴스를 수집하고, 저자대상뉴스의 댓글을 기계학습하여 저자평판을 분석하는 것을 특징으로 할 수 있다.

상기 본문 분석부는 텍스트 학습세트를 풍자, 주장 및 사실로 구분하고, 이미지 학습세트를 인물, 사건, 통계 및 동영상으로 구분하여 텍스트와 이미지 학습세트를 저장하는 본문 학습세트부; 상기 텍스트 학습세트에 본문 텍스트를 매핑시켜 기계학습을 수행하고, 본문의 텍스트 신뢰도를 분석하는 본문 텍스트 분석부 및 상기 이미지 학습세트에 본문 이미지를 매핑시켜 기계학습을 수행하고, 본문의 이미지 신뢰도를 분석하는 본문 이미지 분석부를 포함하는 것을 특징으로 할 수 있다.

상기 평가부는 출처별 신뢰도 점수에 설정된 신뢰도 가중치를 적용하고, 신뢰도 가중치가 적용된 출처별 신뢰도 점수를 평균 연산하여 종합 신뢰도 점수를 생성하는 것을 특징으로 할 수 있다.

본 발명의 출처 분석 기반의 뉴스 신뢰성 평가 시스템의 동작 방법은, 추출부가 검사대상뉴스의 URL 입력 및 출처별 검사자료 입력 중 하나의 입력유형을 판별하는 단계; 상기 입력유형이 URL 입력이면 검사대상뉴스에서 유통채널, 저자 및 본문으로 구분하여 출처별 검사자료를 추출하는 단계 및 분석부가 출처별로 학습세트에 검사자료를 매핑시켜 기계학습을 수행하고, 설정된 신뢰도 점수 알고리즘에 기계학습 수행결과를 입력시켜 신뢰도 점수를 산출하는 단계를 포함하여 출처 분석을 통해 산출된 신뢰도 점수에 기반하여 검사대상뉴스의 신뢰성을 평가하는 것을 특징으로 한다.

본 발명은 언론사와 사회관계망서비스를 포함하는 유통채널에 기재된 검사대상뉴스의 신뢰성을 평가할 수 있고, 출처별로 검사자료를 기계학습하여 뉴스 신뢰성 평가의 정확도를 향상시킬 수 있는 현저한 효과가 있다.

도 1은 본 발명의 실시예에 따른 뉴스 신뢰성 평가 시스템을 도시한 블록도이다.
도 2는 입력화면을 도시한 예이다.
도 3은 도 1의 유통채널 분석부를 상세하게 도시한 블록도이다.
도 4는 유통채널 정보를 도시한 예이다.
도 5는 저자 정보를 도시한 예이다.
도 6은 도 1의 본문 분석부를 상세하게 도시한 블록도이다.
도 7은 출력 화면을 도시한 예이다.
도 8은 본 발명의 실시예에 따른 신뢰성 평가 시스템의 동작 방법을 도시한 흐름도이다.
도 9는 유통채널의 분석 방법을 도시한 것이다.
도 10은 저자의 분석 방법을 도시한 것이다.
도 11은 본문의 분석 방법을 도시한 것이다.
도 12은 종합 신뢰도 점수 생성 방법을 도시한 것이다.

이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 실시예를 상세하게 설명하지만, 본 발명이 실시예에 의해 제한되거나 한정되는 것은 아니다.

도 1은 본 발명의 실시예에 따른 뉴스 신뢰성 평가 시스템을 도시한 블록도로서, 뉴스 신뢰성 평가 시스템(1)은 검사대상뉴스의 출처를 분석하여 검사대상뉴스의 신뢰성을 평가한다. 출처는 유통채널, 저자 및 본문으로 구분된다.

뉴스 신뢰성 평가 시스템(1)은 기계학습을 통해 출처 분석을 수행하고, 설정된 점수 알고리즘을 통해 기계학습 수행결과에 따른 신뢰도 점수를 산출한다. 점수 알고리즘은 출처별로 신뢰도 점수와 점수 요건이 설정된다.

기계학습은 회귀와 분류로 나누고, 본 발명에서는 분류에 속하며, 기존 경험에 의해 분류된 학습세트가 있을 때 사용하는 지도학습(supervised learning)에 해당한다. 지도학습은 입력과 출력 사이의 매핑을 학습하는 것이다.

본 발명은 입출력 사이의 매핑을 위한 출처별 학습세트를 포함한다. 예를 들어 본 발명은 가짜뉴스와 사실뉴스 출처들을 각각 입력과 출력 쌍으로 학습시키는 지도학습을 통해 검사대상뉴스에 대한 가짜뉴스 확률을 산출하는 것이다.

본 발명은 자동적으로 기계학습과 신뢰도 점수 산출을 수행하므로, 인간의 학습능력과 산출능력 등 인간의 지능적인 행동을 모방할 수 있도록 하는 인공지능의 뉴스 신뢰성 평가 시스템(1)을 제공할 수 있는 것이다.

뉴스 신뢰성 평가 시스템(1)은 입력부(10), 추출부(20), 분석부(30) 및 평가부(40)를 포함한다.

입력부(10)는 검사대상뉴스의 URL을 입력받고, 추출부(20)는 검사대상뉴스에서 유통채널, 저자 및 본문으로 구분된 검사항목에 대응하는 검사자료를 추출한다. 여기서 출처의 대상은 유통채널, 저자 및 본문이다.

도 2는 입력화면을 도시한 예로서, 입력부(10)는 검사대상뉴스의 URL을 입력받거나, 검사항목에 대응하는 검사자료를 입력받을 수 있다. 입력부(10)는 키보드, 터치패드 또는 마우스 등 다양한 입력도구를 통해 검사대상뉴스의 URL 또는 검사항목에 대응하는 검사자료를 입력받을 수 있고, 입력도구에 대하여 한정하지 않는다.

본 발명은 집단지성의 세력에 의심이 가는 뉴스에 대한 입력을 제공할 수 있지만, 궁극적으로 가짜뉴스의 가능성을 알고 싶어하는 고객 또는 사용자를 위한 것이고, 사용자가 검사대상뉴스의 URL 또는 검사항목에 대응하는 검사자료의 입력만 하면 쉽게 검사대상뉴스의 신뢰성을 확인할 수 있게 하는 것이다.

분석부(30)는 출처별로 학습세트에 검사자료를 매핑시켜 기계학습을 수행하고, 설정된 점수 알고리즘에 기계학습 수행결과를 입력시켜 신뢰도 점수를 산출한다.

분석부(30)는 출처별로 신뢰도 점수와 점수 요건이 설정된 점수 알고리즘의 업데이트와 뉴스 신뢰성 평가 시스템(1) 자체의 신뢰성을 향상시키기 위해 주기적으로 설정된 기간의 최신뉴스를 수집하고, 최신뉴스를 대상으로 출처 분석을 수행하여 점수 알고리즘을 업데이트한다. 더욱 상세하게는 분석부(30)는 주기적으로 설정된 기간의 최신뉴스를 수집하고, 학습세트에 최신뉴스를 매핑시켜 기계학습을 수행하고, 기계학습 수행결과에 기반하여 점수 알고리즘을 업데이트한다.

분석부(30)는 출처별로 검사자료를 기계학습 또는 딥러닝을 수행하므로, 출처별로 유통채널 분석부(100), 저자 분석부(200) 및 본문 분석부(300)를 포함한다. 분석부(30)는 분석소요시간의 단축을 위해 출처별로 병렬적 기계학습 분석이 가능하다.

유통채널 분석부(100)는 유통채널에 해당하는 검사자료를 분석하고, 저자 분석부(200)는 저자에 해당하는 검사자료를 분석하며, 본문 분석부(300)는 본문에 해당하는 검사자료를 분석한다.

도 3은 도 1의 유통채널 분석부를 상세하게 도시한 블록도로서, 유통채널 분석부(100)는 유통채널을 언론사와 사회관계망서비스(SNS)로 구분한다. 사회관계망서비스는 트위터, 페이스북, 유튜브, 카페, 블로그 또는 특정 사이트 게시판을 포함할 수 있다.

유통채널 분석부(100)는 구독 선호도, 여론조사 및 포털사이트와의 제휴 여부 중 적어도 하나를 고려하여 유통채널별 신뢰도 점수가 설정된 유통채널 점수 알고리즘이 설계되어 있다. 유통채널 점수 알고리즘에는 언론사의 신뢰도 점수를 사회관계망서비스보다 높도록 점수 요건이 설정될 수 있다.

유통채널 분석부(100)는 가짜뉴스와 사실뉴스의 유통채널들을 각각 입력과 출력 쌍으로 학습시키기 위한 학습세트에 유통채널의 검사자료를 매핑시켜 기계학습을 수행하고, 유통채널 점수 알고리즘에 기계학습 수행결과를 입력시켜 유통채널 신뢰도 점수를 산출한다.

도 4는 유통채널 정보를 도시한 예로서, 유통채널 정보는 언론사와 사회관계망서비스별 신뢰도 점수를 포함하고, 유통채널 DB에 저장된다. 예를 들어 사회관계망서비스보다 언론사가 신뢰도 점수가 높을 수 있고, 사회관계망서비스에서 트위터보다 파급성이 높은 △△ 저장소가 신뢰도 점수가 높을 수 있다.

유통채널 분석부(100)는 설정된 주기마다 유통채널별 가짜뉴스 이력 여부와 발생 빈도를 분석하여 유통채널별 신뢰도 점수를 재산정하기 위한 유통채널 점수 알고리즘을 업데이트할 수 있다.

유통채널 분석부(100)는 설정된 기간동안 특정 유통채널에서 설정된 개수 이상의 가짜 가능성의 뉴스가 발생하면 신뢰도 점수를 낮추고, 가짜 가능성의 뉴스가 미발생하면 신뢰도 점수를 증가시키는 방식으로 유통채널별 신뢰도 점수를 가변시켜 유통채널 점수 알고리즘을 자동관리할 수 있고, 유통채널 점수 알고리즘을 업데이트할 수 있다.

유통채널 분석부(100)는 설정된 기간의 최신뉴스를 수집하고, 유통채널 학습세트에 최신뉴스를 매핑시켜 기계학습을 수행하고, 기계학습 수행결과에 기반하여 유통채널 점수 알고리즘을 업데이트할 수 있다.

유통채널 분석부(100)는 유통채널의 URL 분석, 유통채널별 신뢰도 분석 및 유통채널의 유통흐름 분석 중 적어도 하나의 분석을 제공하기 위해 유통채널 URL 분석부(110), 유통채널별 신뢰도 분석부(120) 및 유통채널 흐름 분석부(130) 중 적어도 하나를 포함한다.

유통채널 URL 분석부(110)는 유통채널 명칭 기반의 URL 분석, URL에 포함된 문자 빈도수 기반의 URL 분석 및 미리 저장된 가짜뉴스의 URL 비교를 위한 URL 분석 중 적어도 하나를 포함하는 유통채널의 URL 분석을 제공할 수 있다.

유통채널 URL 분석부(110)는 언론사, 사회관계망서비스 및 언론사와 제휴된 포털사이트의 명칭에 기반하여 검사대상뉴스의 URL을 분석할 수 있고, URL 분석을 통해 검사대상뉴스에 대응하는 유통채널 명칭을 획득할 수 있다. 유통채널 URL 분석부(110)는 언론사, 사회관계망서비스 및 언론사와 제휴된 포털사이트의 명칭에 따른 학습세트가 구축될 수 있다.

유통채널별 신뢰도 분석부(120)는 검사대상뉴스의 유통채널 점수 알고리즘에 유통채널 명칭을 입력시켜 검사대상뉴스의 유통채널 명칭에 대응하는 신뢰도 점수를 산출할 수 있다.

유통채널 URL 분석부(110)는 명칭 기반의 URL 분석을 통해 검사대상뉴스가 사회관계망서비스로 판별되면, URL에 포함 가능한 특수문자의 빈도수를 분석하여 신뢰도 점수를 산출할 수 있다. 유통채널 DB에는 URL에 포함 가능한 숫자, 영어 및 특수문자의 빈도수에 따른 유통채널 신뢰도 점수가 저장될 수 있다. 예를 들어 숫자와 영어로 이루어진 URL일 때 언론사 뉴스일 가능성이 높고, 특수문자가 설정된 개수 이상으로 이루어진 URL일 때 사회관계망서비스 뉴스일 가능성이 높다. 또한 특수문자가 다수 포함된 URL일 때 가짜 뉴스일 가능성이 높다.

유통채널 URL 분석부(110)는 검사대상뉴스의 URL과 미리 저장된 가짜뉴스의 URL 간의 유사성이 있는지 비교할 수 있다.

유통채널 흐름 분석부(130)는 검사대상뉴스의 명칭 또는 본문을 통해 유사대상뉴스를 수집하고, 게재날짜를 기준으로 검사대상뉴스와 유사대상뉴스의 유통흐름을 분석할 수 있다. 유통흐름은 검사대상뉴스와 유사대상뉴스가 어떤 유통채널에서 처음 발생하고, 시간의 지남에 따라 어떤 유통채널로 확산하는지 이에 대한 흐름이다.

유통채널 흐름 분석부(130)는 유통채널 점수 알고리즘 설계시 유통흐름이 언론사에서 사회관계망서비스로 흐를 때의 신뢰도 점수를 사회관계망서비스에서 언론사로 흐를 때보다 높도록 점수 요건이 설정될 수 있다.

유통채널 흐름 분석부(130)는 유통채널 점수 알고리즘 설계시 사회관계망서비스에서 언론사로 유통흐름을 갖고, 언론사의 게재 수가 설정된 개수를 초과하면, 해당 뉴스가 파급력과 신뢰성이 있다고 인정되어 언론사에서 사회관계망서비스로 유통흐름을 가질 때와의 신뢰도 점수와 같도록 점수 요건이 설정될 수 있다.

도 5는 저자 정보를 도시한 예로서, 저자 정보는 이름, 소속, 증명사진, 저자평판 및 가짜뉴스 이력 여부 중 적어도 하나를 포함할 수 있고, 저자 DB(미도시)에 저장될 수 있다.

저자 분석부(200)는 저자 DB에 검사대상뉴스의 검사대상저자가 있는지 여부를 판별하고, 저자 DB에 검사대상저자가 미존재하면 검사대상저자로 게재된 저자대상뉴스를 수집하고, 저자대상뉴스의 댓글을 기계학습하여 저자평판을 분석할 수 있다.

저자 분석부(200)는 긍정과 부정의 댓글들을 각각 입력과 출력 쌍으로 학습시키기 위한 학습세트에 저자대상뉴스의 댓글을 매핑시켜 기계학습을 수행할 수 있다.

저자 분석부(200)는 댓글의 긍정과 부정 분포에 따른 저자 점수 알고리즘에 기계학습 수행결과를 입력시켜 저자평판의 신뢰도 점수를 산출할 수 있고, 저자대상뉴스에 기반하여 과거에 가짜뉴스를 작성했는지 여부를 분석하여 가짜뉴스 이력 여부에 따른 신뢰도 점수를 산출할 수 있다.

저자 분석부(200)는 저자 DB에 소속, 증명사진, 저자평판 및 가짜뉴스 이력 여부 중 적어도 하나와 관련된 검사대상저자를 업데이트할 수 있다.

저자 분석부(200)는 설정된 주기마다 저자별 저자평판과 가짜뉴스 이력 여부를 수집하여 저자별 신뢰도 점수를 재산정하고, 저자별 신뢰도 점수를 자동 관리할 수 있다. 예를 들어 저자 분석부(200)는 기 저장된 저자들의 저자평판과 가짜뉴스 이력 여부를 수집하여 저자별 신뢰도 점수를 업데이트할 수 있고, 지속적으로 기 저장된 저자들을 모니터링할 수 있다.

저자 분석부(200)는 설정된 주기마다 저자별 가짜뉴스 이력 여부와 발생 빈도를 분석하여 저자별 신뢰도 점수를 재산정하기 위한 저자 점수 알고리즘을 업데이트할 수 있다.

저자 분석부(200)는 설정된 기간동안 특정 저자에서 설정된 개수 이상의 가짜 가능성의 뉴스가 발생하면 신뢰도 점수를 낮추고, 가짜 가능성의 뉴스가 미발생하면 신뢰도 점수를 증가시키는 방식으로 저자별 신뢰도 점수를 가변시켜 저자 점수 알고리즘을 자동관리할 수 있고, 저자 점수 알고리즘을 업데이트할 수 있다.

저자 분석부(200)는 설정된 기간의 최신뉴스를 수집하고, 저자 학습세트에 최신뉴스를 매핑시켜 기계학습을 수행하고, 기계학습 수행결과에 기반하여 저자 점수 알고리즘을 업데이트할 수 있다.

저자 분석부(200)는 검사대상뉴스의 익명 여부, 증명사진 존재여부, 언론사의 소속 여부 및 저자평판에 대응하여 저자 점수 알고리즘을 설계할 수 있다. 예를 들어 검사대상저자가 실명이고, 언론사에 소속되어 있으며, 증명사진이 존재하고, 평판이 좋다면 고점의 신뢰도 점수가 산출된다. 반면에 위의 해당하는 요소가 빠질수록 신뢰도 점수가 떨어지게 된다.

도 6은 도 1의 본문 분석부를 상세하게 도시한 블록도로서, 본문 분석부(300)는 본문 학습세트부(310), 본문 텍스트 분석부(320) 및 본문 이미지 분석부(330)를 포함한다.

본문 학습세트부(310)는 텍스트 학습세트 및 이미지 학습세트를 포함하고, 텍스트 학습세트를 풍자, 주장 및 사실로 구분할 수 있으며, 이미지 학습세트를 인물, 사건, 통계 및 동영상으로 구분할 수 있다.

본문 텍스트 분석부(320)는 텍스트 학습세트에 본문 텍스트를 매핑시켜 기계학습을 수행하고, 본문의 텍스트 신뢰도를 분석하고, 본문 이미지 분석부(330)는 이미지 학습세트에 본문 이미지를 매핑시켜 기계학습을 수행하고, 본문의 이미지 신뢰도를 분석한다.

풍자와 주장이 많이 포함된 본문은 신뢰성이 매우 낮고, 사실이 많이 포함된 본문은 신뢰성이 매우 높을 가능성이 있으므로, 이에 따른 학습세트 분류가 필요하다. 본문 텍스트 분석부(320)는 본문 텍스트 풍자 분석부(321), 본문 텍스트 주장 분석부(322) 및 본문 텍스트 사실 분석부(323)를 포함할 수 있다.

본문 텍스트 풍자 분석부(321)는 유머 또는 패러디 자료를 바탕으로 구성된 풍자 분류 학습세트를 이용하여 본문의 풍자 여부를 판별한다. 본문 텍스트 주장 분석부(322)는 평론 또는 리뷰 자료를 바탕으로 구성된 주장 분류 학습세트를 이용하여 본문의 주장 여부를 판별한다. 본문 텍스트 사실 분석부(323)는 역사, 교과서 또는 사전 자료를 바탕으로 구성된 사실 분류 학습세트를 이용하여 본문의 사실 여부를 판별한다.

합성된 이미지가 포함되거나, 이미지의 출처가 없는 본문은 가짜뉴스 가능성이 매우 높다. 본문 이미지 분석부(330)는 본문 이미지 합성 분석부(331), 본문 이미지 텍스트 분석부(332) 및 본문 이미지 출처 분석부(333)를 포함할 수 있다.

본문 이미지 합성 분석부(331)는 딥러닝 알고리즘을 이용하여 인물 또는 사건에 대응하는 검사대상이미지의 합성 여부를 1차 판별할 수 있다.

본문 이미지 텍스트 분석부(332)는 검사대상이미지와 유사한 유사대상이미지를 수집하고, 유사대상이미지가 게재된 문서들의 텍스트를 분석하여 검사대상이미지의 합성 여부를 2차 판별한다. 또한 본문 이미지 출처 분석부(333)는 검사대상이미지와 유사대상이미지에 존재하는 텍스트 또는 유사대상이미지가 게재된 문서들의 텍스트를 분석하여 검사대상이미지의 합성 여부를 2차 판별할 수 있다. 예를 들어 본문 이미지 텍스트 분석부(332)는 유사대상이미지가 게재된 문서에서 '가짜입니다.' 또는 '합성입니다' 등 가짜를 직접적이거나 암묵적으로 포함되어 있는 단어가 있는지 분석할 수 있다.

본문 이미지 출처 분석부(333)는 검사대상이미지의 출처 존재여부를 판별하고, 출처가 존재하면 검사대상이미지와 유사대상이미지 간의 출처가 일치하는지 분석할 수 있다.

평가부(40)는 출처별 신뢰도 점수에 설정된 출처별 신뢰도 가중치를 적용하고, 신뢰도 가중치가 적용된 출처별 신뢰도 점수의 평균을 연산하여 종합 신뢰도 점수를 생성할 수 있다. 예를 들어 평가부(40)는 출처별로 중요도를 가변적으로 설정될 수 있고, 이에 대하여 출처별 신뢰도 가중치를 설정할 수 있다.

도 7은 출력 화면을 도시한 예로서, 본 발명의 뉴스 신뢰성 평가 시스템(1)은 출처별 신뢰도 점수 및 종합 평가된 종합 신뢰도 점수를 출력하는 출력부(50)를 더 포함할 수 있다. 종합 신뢰도 점수는 숫자 형태로 출력할 수 있고, 출처별 신뢰도 점수는 그래프 또는 차트 형태로 출력할 수 있다.

출력부(50)는 검사대상뉴스에 출처별로 신뢰도 점수에 영향을 미치는 부분을 함께 표시하여 출력할 수 있다. 예를 들어 사용자는 도 6에 도시된 바와 같이 검사대상뉴스 상세보기를 클릭하면 출처별로 신뢰도 점수에 영향을 미치는 부분이 표시된 검사대상뉴스를 볼 수 있고, 어떤 이유에 근거하여 신뢰도 점수가 책정되었는지 확인할 수 있다. 또한 출력부(50)는 검사대상뉴스에서 출처별로 신뢰도 점수에 영향을 미치는 부분에 태그 표출을 제공할 수 있다. 사용자는 종합 신뢰도 점수와 검사대상뉴스에서 신뢰도 점수에 영향을 미치는 부분을 함께 볼 수 있으므로, 신뢰도 점수의 타당성을 확인할 수 있다.

도 8은 본 발명의 실시예에 따른 신뢰성 평가 시스템의 동작 방법을 도시한 흐름도로서, 뉴스 신뢰성 평가 시스템(1)은 추출부(20)가 검사대상뉴스에 대한 URL의 입력 및 출처별 검사자료의 입력 중 하나의 입력 유형을 판별하고, 추출부(20)가 입력 유형이 URL의 입력으로 판별하면 검사대상뉴스에서 유통채널, 저자 및 본문으로 구분된 출처별 검사자료를 추출하며, 분석부(30)가 출처별로 검사자료를 기계학습하여 신뢰도 점수를 산출하고, 평가부(40)가 출처별 신뢰도 점수를 종합 평가한다.

분석부(30)는 출처별로 검사자료를 기계학습하여 신뢰도 점수를 산출하므로, 출처별로 유통채널 분석부(100), 저자 분석부(200) 및 본문 분석부(300)를 포함한다. 분석부(30)는 분석소요시간의 단축을 위해 출처별로 병렬적 기계학습 분석이 가능하다.

유통채널 분석부(100)는 유통채널에 대응하는 검사자료를 분석하고, 저자 분석부(200)는 저자에 대응하는 검사자료를 분석하며, 본문 분석부(300)는 본문에 대응하는 검사자료를 분석한다.

도 9는 유통채널의 분석 방법을 도시한 것으로서, 유통채널 분석부(100)는 유통채널의 URL 분석, 유통채널별 신뢰도 분석 및 유통채널의 유통흐름 분석 중 적어도 하나의 분석을 제공하므로, 유통채널 URL 분석부(110), 유통채널별 신뢰도 분석부(120) 및 유통채널 흐름 분석부(130) 중 적어도 하나를 포함한다.

도 10은 저자의 분석 방법을 도시한 것으로서, 저자 분석부(200)는 저자 DB에 검사대상뉴스의 검사대상저자가 있는지 여부를 판별하고, 저자 DB에 검사대상저자가 미존재하면 검사대상저자로 게재된 저자대상뉴스를 수집하고, 저자대상뉴스의 댓글을 기계학습하여 저자평판을 분석할 수 있다.

저자 분석부(200)는 댓글의 긍정과 부정 분포에 대응하여 저자평판의 신뢰도 점수를 산출할 수 있고, 저자대상뉴스에 기반하여 과거에 가짜뉴스를 작성했는지 여부를 기계학습하여 가짜뉴스 이력 여부에 따른 신뢰도 점수를 산출할 수 있다.

도 11은 본문의 분석 방법을 도시한 것으로서, 본문 분석부(300)는 텍스트 학습세트 및 이미지 학습세트를 포함하는 본문 학습세트를 저장하고, 검사대상뉴스의 본문에 텍스트나 이미지가 존재하는지 판별하며, 텍스트가 존재하면 텍스트 학습세트별로 본문을 기계학습하여 본문의 텍스트 신뢰도를 분석하고, 이미지가 존재하면 이미지 학습세트별로 기계학습하여 본문의 이미지 신뢰도를 분석한다.

본문 분석부(300)는 설정된 조건에 따라 텍스트와 이미지에 대한 분석을 모두 수행할 수 있고, 텍스트와 이미지의 존재 여부에 따라 분석을 수행할 수 있으며, 텍스트 또는 이미지 택일에 따른 분석을 수행할 수 있다.

도 12는 종합 신뢰도 점수 생성 방법을 도시한 것으로서, 평가부(40)는 출처별 신뢰도 점수를 수신하고, 출처별 신뢰도 점수에 설정된 출처별 신뢰도 가중치를 적용하며, 신뢰도 가중치가 적용된 출처별 신뢰도 점수의 평균을 연산하여 종합 신뢰도 점수를 생성할 수 있다.

1: 뉴스 신뢰성 평가 시스템 10: 입력부
20: 추출부 30: 분석부
40: 평가부 50: 출력부
100: 유통채널 분석부 200: 저자 분석부
300: 본문 분석부

Claims

검사대상뉴스에서 유통채널, 저자 및 본문으로 구분하여 출처별 검사자료를 추출하는 추출부;
출처별로 학습세트에 검사자료를 매핑시켜 기계학습을 수행하고, 설정된 점수 알고리즘에 기계학습 수행결과를 입력시켜 신뢰도 점수를 산출하는 분석부 및
출처별 신뢰도 점수를 종합 평가하는 평가부를 포함하여,
기계학습과 점수 알고리즘을 이용한 출처 분석을 수행하여 검사대상뉴스의 신뢰성을 평가하는 것을 특징으로 하는 출처 분석 기반의 뉴스 신뢰성 평가 시스템.
제1항에 있어서,
상기 분석부는 주기적으로 설정된 기간의 최신뉴스를 수집하고, 최신뉴스를 대상으로 출처 분석을 수행하여 점수 알고리즘을 업데이트하는 것을 특징으로 하는 출처 분석 기반의 뉴스 신뢰성 평가 시스템.
제1항에 있어서,
상기 분석부는,
유통채널에 해당하는 검사자료를 분석하는 유통채널 분석부;
저자에 해당하는 검사자료를 분석하는 저자 분석부 및
본문에 해당하는 검사자료를 분석하는 본문 분석부를 포함하는 것을 특징으로 하는 출처 분석 기반의 뉴스 신뢰성 평가 시스템.
제3항에 있어서,
상기 유통채널 분석부는 유통채널의 URL 분석, 유통채널별 신뢰도 분석 및 유통채널의 유통흐름 분석 중 적어도 하나의 분석을 제공하는 것을 특징으로 하는 출처 분석 기반의 뉴스 신뢰성 평가 시스템.
제3항에 있어서,
상기 저자 분석부는 저자 DB에 검사대상뉴스의 검사대상저자가 있는지 여부를 판별하고, 저자 DB에 검사대상저자가 미존재하면 검사대상저자로 게재된 저자대상뉴스를 수집하고, 저자대상뉴스의 댓글을 기계학습하여 저자평판을 분석하는 것을 특징으로 하는 출처 분석 기반의 뉴스 신뢰성 평가 시스템.
제3항에 있어서,
상기 본문 분석부는,
텍스트 학습세트를 풍자, 주장 및 사실로 구분하고, 이미지 학습세트를 인물, 사건, 통계 및 동영상으로 구분하여 텍스트와 이미지 학습세트를 저장하는 본문 학습세트부;
상기 텍스트 학습세트에 본문 텍스트를 매핑시켜 기계학습을 수행하고, 본문의 텍스트 신뢰도를 분석하는 본문 텍스트 분석부 및
상기 이미지 학습세트에 본문 이미지를 매핑시켜 기계학습을 수행하고, 본문의 이미지 신뢰도를 분석하는 본문 이미지 분석부를 포함하는 것을 특징으로 하는 출처 분석 기반의 뉴스 신뢰성 평가 시스템.
제1항에 있어서,
상기 평가부는 출처별 신뢰도 점수에 설정된 신뢰도 가중치를 적용하고, 신뢰도 가중치가 적용된 출처별 신뢰도 점수를 평균 연산하여 종합 신뢰도 점수를 생성하는 것을 특징으로 하는 출처 분석 기반의 뉴스 신뢰성 평가 시스템.
추출부가 검사대상뉴스의 URL 입력 및 출처별 검사자료 입력 중 하나의 입력유형을 판별하는 단계;
상기 입력유형이 URL 입력이면 검사대상뉴스에서 유통채널, 저자 및 본문으로 구분하여 출처별 검사자료를 추출하는 단계 및
분석부가 출처별로 학습세트에 검사자료를 매핑시켜 기계학습을 수행하고, 설정된 신뢰도 점수 알고리즘에 기계학습 수행결과를 입력시켜 신뢰도 점수를 산출하는 단계를 포함하여
출처 분석을 통해 산출된 신뢰도 점수에 기반하여 검사대상뉴스의 신뢰성을 평가하는 것을 특징으로 하는 출처 분석 기반의 뉴스 신뢰성 평가 시스템의 동작 방법.