KR20210092979A

KR20210092979A - 가짜 뉴스 인공지능 판별 시스템 및 그 방법

Info

Publication number: KR20210092979A
Application number: KR1020200006559A
Authority: KR
Inventors: 강장묵; 윤철희; 이상원
Original assignee: 글로벌사이버대학교 산학협력단
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2021-07-27

Abstract

본 발명은 가짜 뉴스 인공지능 판별 시스템 및 그 방법에 관한 것이다. 본 발명의 시스템에 따르면, 타겟 컨텐츠로부터 복수의 단위팩트를 추출하는 단위팩트 추출부; 상기 단위팩트를 서로 다른 유형들로 분류하는 단위팩트 분류부; 상기 단위팩트를 분석하여 필요한 정보만을 파싱(parsing)하는 전처리부; 상기 단위팩트를 사전에 설정된 단위로 딥러닝 예측모델을 활용하여 분석하는 인공지능 분석부를 포함하며 상기 분석된 단위팩트를 통해 타겟 컨텐츠의 가짜뉴스 정도를 판별하는 가짜뉴스 판별부; 및 상기 판별된 단위팩트의 정보를 저장하는 데이터베이스부를 포함할 수 있다.

Description

가짜 뉴스 인공지능 판별 시스템 및 그 방법{FAKE NEWS ARTIFICIAL INTELLIGENCE CLASSIFICATION SYSTEM, AND METHOD THEREOF}

본 발명은 인터넷을 통해 유통되는 컨텐츠의 진위여부를 판별할 수 있는 가짜 뉴스 인공지능 판별 시스템 및 그 방법에 관한 것이다.

인터넷의 발달로 인해 최근의 뉴스 소비는 인터넷 상의 뉴스포탈을 통해 이루어지는 경향을 보이고 있다. 뉴스 포탈을 통해 제공되는 뉴스들 중에는 개인 또는 단체가 특정한 목적을 성취하기 위해 의도적으로 진실이 아닌 내용을 진실인 것처럼 작성한 뉴스, 이른바 가짜 뉴스가 있다.

이러한 가짜 뉴스는 정교해서 뉴스 사용자들이 진실 여부를 확인하기가 어렵고, 가짜 뉴스가 뉴스 사용자들에게 그대로 전달될 경우 뉴스 사용자들에게 혼란을 줄 뿐만 아니라, 뉴스 사용자들이 이러한 가짜 뉴스를 여과 없이 믿게 되면 사회적인 피해가 발생될 수도 있다.

특히, 최근에는 페이스북, 트위터, 블로그, 또는 카페 등과 같은 소셜 미디어를 통해서도 뉴스의 전파가 이루어짐에 따라, 뉴스의 전파 속도 또한 매우 빠르기 때문에, 가짜 뉴스가 소셜 미디어를 통해 전파되는 경우 심각한 피해가 발생할 수도 있다.

따라서, 온라인 상에서 유통되는 뉴스가 진실한 것인지를 확인하기 위한 팩트 체킹(Fact Checking)의 필요성이 증대되고 있다. 일 예로, 미국의 폴리티팩트(Politifact)를 통해 제공되는 팩트체킹 서비스(www.Politifact.com)가 있다. 상기 폴리티팩트를 통해 제공되는 팩트체킹 서비스는 기자들이 직접 뉴스의 사실 여부를 검증하여 그 결과를 웹사이트를 통해 제공하는 방식이다.

이와 같이, 미국의 폴리티팩트를 통해 제공되는 팩트체킹 서비스를 비롯한 기존의 일반적인 팩트체킹 서비스는 대부분이 사람이 직접 뉴스의 진위여부를 검증하여 그 결과를 제공하는 것이기 때문에, 서비스 제공을 위해 많은 시간과 비용이 요구된다는 문제점이 있다.

기존의 팩트체킹 서비스에 컨텐츠를 구성하는 각 문장 단위로 각 문장들에 포함된 하나 이상의 자연어를 추출하고, 추출된 자연어를 각 문장 별로 재조합함으로써 단위팩트를 획득하는 기술이 시도되고 있지만, 자연어 처리 기술의 한계로 아직은 제한된 기능에 한정되고 있는 실정이다. 또한, 예를 들어, 컨텐츠 내의 제목과 내용이 불일치하거나, 내용 안에 다른 내용이 포함되어 있다는 등의 한정된 판단만으로는 복잡다단한 형태의 가짜 뉴스를 정확히 판별하기는 어렵다.

대한민국 등록특허 제10-1594452호

본 발명의 목적은 인터넷을 통해 유통되는 컨텐츠의 진위여부를 효과적으로 판별할 수 있는 가짜 뉴스 인공지능 판별 시스템 및 그 방법을 제공함에 있다.

본 발명의 다른 목적은 인공지능, 사용자, 및 전문가가 참여하여 타겟 컨텐츠의 진위여부(가짜뉴스를 판별하는 목적함수의 정확도가 100%가 안 될 경우 이를 보완하는 사회공학적 방법)를 다양한 측면에서 판별할 수 있는 가짜 뉴스 인공지능 판별 시스템 및 그 방법을 제공함에 있다.

위와 같은 과제를 해결하기 위한 본 발명의 일 측면에 따른 가짜 뉴스 인공지능 판별 시스템은, 타겟 컨텐츠로부터 복수의 단위팩트를 추출하는 단위팩트 추출부; 상기 단위팩트를 서로 다른 유형들로 분류하는 단위팩트 분류부; 상기 단위팩트를 분석하여 필요한 정보만을 파싱(parsing)하는 전처리부; 상기 단위팩트를 사전에 설정된 단위로 딥러닝 예측모델을 활용하여 분석하는 인공지능 분석부를 포함하며 상기 분석된 단위팩트를 통해 타겟 컨텐츠의 가짜뉴스 정도를 판별하는 가짜뉴스 판별부; 및 상기 판별된 단위팩트의 정보를 저장하는 데이터베이스부를 포함할 수 있다.

본 발명의 실시예에 따르면, 상기 가짜뉴스 판별부는 상기 타겟 컨텐츠의 제목에서 추출된 단위팩트와 상기 타겟 컨텐츠의 내용에서 추출된 단위팩트의 연관성, 및 상기 타겟 컨텐츠의 내용에서 추출된 단위팩트들 간의 연관성을 분석할 수 있다.

본 발명의 실시예에 따르면, 상기 인공지능 분석부는 상기 딥러닝 예측모델에 DNN(Deep Neural Network: 심층신경망), RNN(Recurrent Neural Network: 순환신경망), 및 CNN(Convolutional Neural Network: 합성곱 신경망) 기법이 적용되며, 상기 각각의 기법 중 적어도 어느 일부를 통하여 산출된 결과를 병합할 수 있다.

본 발명의 실시예에 따르면, 상기 인공지능 분석부는 상기 딥러닝 예측모델에 RNN(Recurrent Neural Networks) 기반 LSTM(Long Short Term Memory) 기법이 적용되도록 할 수 있다.

본 발명의 실시예에 따르면, 상기 인공지능 분석부는 상기 데이터베이스부에 저장된 단위팩트의 정보를 상기 딥러닝 예측모델에 학습시킬 수 있다.

본 발명의 실시예에 따르면, 상기 단위팩트 추출부는 상기 타겟 컨텐츠의 이미지를 추출하고, 동일 이미지를 갖는 비교 타겟 컨텐츠를 검색하여, 상기 비교 타켓 컨텐츠로부터 복수의 단위팩트를 추출하며, 상기 가짜뉴스 판별부는 상기 타겟 컨텐츠로부터 추출된 단위팩트와 상기 비교 타겟 컨텐츠의 내용에서 추출된 단위팩트의 연관성을 분석할 수 있다.

본 발명의 실시예에 따르면, 상기 가짜뉴스 판별부는 상기 타겟 컨텐츠 또는 상기 단위팩트의 진위 여부에 대한 사용자의 의견이 반영되는 사용자 의견 반영부를 더 포함할 수 있다.

본 발명의 실시예에 따르면, 상기 가짜뉴스 판별부는 상기 단위팩트의 진위 여부에 대한 전문가의 의견을 반영하는 전문의견 반영부를 더 포함할 수 있다.

본 발명의 실시예에 따르면, 상기 전문의견 반영부는 상기 단위팩트가 분류된 유형, 및 단위팩트의 진위 여부를 검증하는 사전에 정해진 관점에 따라 전문가를 분류하고, 상기 전문가가 속하는 유형의 단위팩트에 대한 상기 전문가의 해당 관점에 따른 의견을 반영할 수 있다.

본 발명의 실시예에 따르면, 상기 전문의견 반영부는 상기 전문가에게 상기 단위팩트의 진위 여부에 대하여 상기 사용자 의견 반영부에서 반영된 상기 사용자의 의견을 제공할 수 있다.

본 발명의 실시예에 따르면, 상기 가짜뉴스 판별부는 상기 전문의견 반영부에서 반영된 상기 단위팩트의 진위 여부에 대한 전문가의 의견을 상기 딥러닝 예측모델의 웨이트 파라미터에 반영할 수 있다.

본 발명의 실시예에 따르면, 상기 가짜뉴스 판별부에서 해당 뉴스와 직접적인 연관성이 있는 팩트가 서술된 베스트 진짜 뉴스를 1-N(통상 1개 또는 2개)개를 전문가와 사용자(독자)의 추천으로 선별하고 이 베스트 진짜 뉴스의 제목과 내용을 판단하고자 하는 뉴스의 제목과 내용과의 연관성, 주요 키워드(어휘)의 빈도, 베스트 진짜 뉴스의 초록과 실제 판단하고자 하는 뉴스의 문장과의 거리 분석 등으로 세컨드 오피니언 방식으로 반영할 수 있다.

본 발명의 실시예에 따르면, 상기 데이터베이스부는 상기 판별된 단위팩트의 정보가 상기 단위팩트 추출부가 추출한 상기 단위팩트가 속하는 타겟 컨텐츠의 출처, 매체, 기자 평판, SNS 영향력, 동영상 등 부가 정보 여부, 정치/경제적으로 민감한 이슈 여부, 또는 이상 패턴 유형(짧은 기간 갑자기 뉴스가 급증, 짧은 기간 동안 갑자기 특정 매체에서 뉴스가 급증, 비슷한 뉴스 또는 동일한 내용이 여러 매체에서 반복 재생산, 동일한 내용의 뉴스가 블로그와 카페 등에서 갑자기 공유되는 현상, 무의미한 해쉬 태그와 뉴스 기사가 올라오는 유형) 중 적어도 하나에 관한 정보와 함께 저장할 수 있다.

본 발명의 다른 측면에 따른 가짜 뉴스 인공지능 판별 방법은, (a) 단위팩트 추출부가 타겟 컨텐츠로부터 복수의 단위팩트를 추출하는 단계; (b) 단위팩트 분류부가 상기 단위팩트를 서로 다른 유형들로 분류하는 단계; (c) 전처리부가 상기 단위팩트를 분석하여 필요한 정보만을 파싱하는 단계; (d) 가짜뉴스 판별부의 인공지능 분석부가 상기 단위팩트를 사전에 설정된 단위로 딥러닝 예측모델을 활용하여 분석하는 단계; 및 (e) 데이터베이스부가 상기 판별된 단위팩트의 정보가 저장하는 단계를 포함할 수 있다.

본 발명의 실시예에 따르면, 상기 (d) 단계는 상기 가짜뉴스 판별부가 상기 타겟 컨텐츠의 제목에서 추출된 단위팩트와 상기 타겟 컨텐츠의 내용에서 추출된 단위팩트의 연관성, 및 상기 타겟 컨텐츠의 내용에서 추출된 단위팩트들 간의 연관성을 분석할 수 있다.

본 발명의 실시예에 따르면, 상기 (d) 단계는 상기 딥러닝 예측모델에 DNN(Deep Neural Network: 심층신경망), RNN(Recurrent Neural Network: 순환신경망), 및 CNN(Convolutional Neural Network: 합성곱 신경망) 기법이 적용되며, 상기 각각의 기법을 통하여 산출된 결과를 병합할 수 있다.

본 발명의 실시예에 따르면, 상기 (d) 단계는 상기 딥러닝 예측모델에 RNN(Recurrent Neural Networks) 기반 LSTM(Long Short Term Memory) 기법이 적용될 수 있다.

본 발명의 실시예에 따르면, 상기 (d) 단계는 상기 인공지능 분석부가 상기 데이터베이스부에 저장된 단위팩트의 정보를 상기 딥러닝 예측모델에 학습시키는 단계를 더 포함할 수 있다.

본 발명의 실시예에 따르면, 상기 (a) 단계는 상기 단위팩트 추출부가 상기 타겟 컨텐츠의 이미지를 추출하고, 동일 이미지를 갖는 비교 타켓 컨텐츠를 검색하여, 상기 비교 타켓 컨텐츠로부터 복수의 단위팩트를 추출하며, 상기 (d) 단계는 상기 가짜뉴스 판별부가 상기 타겟 컨텐츠로부터 추출된 단위팩트와 상기 비교 타겟 컨텐츠의 내용에서 추출된 단위팩트의 연관성을 분석하는 단계를 더 포함할 수 있다.

본 발명의 실시예에 따르면, 상기 (d) 단계는 상기 가짜뉴스 판별부는 사용자 의견 반영부를 더 포함하고, 상기 사용자 의견 반영부가 상기 단위팩트의 진위 여부에 대한 사용자의 의견을 반영하는 단계를 더 포함할 수 있다.

본 발명의 실시예에 따르면, 상기 (d) 단계는 상기 가짜뉴스 판별부는 전문의견 반영부를 더 포함하고, 상기 전문의견 반영부가 상기 단위팩트의 진위 여부에 대한 전문가의 의견을 반영하는 단계를 더 포함할 수 있다.

본 발명의 실시예에 따르면, 상기 (d) 단계는 상기 전문의견 반영부가 상기 단위팩트가 분류된 유형, 및 단위팩트의 진위 여부를 검증하는 사전에 정해진 관점에 따라 전문가를 분류하고, 상기 전문가가 속하는 유형의 단위팩트에 대한 상기 전문가의 해당 관점에 따른 의견을 반영할 수 있다.

본 발명의 실시예에 따르면, 상기 (d) 단계는 상기 전문의견 반영부가 상기 전문가에게 상기 단위팩트의 진위 여부에 대한 상기 사용자 의견 반영부에서 반영된 상기 사용자의 의견을 제공하는 단계를 더 포함할 수 있다.

본 발명의 실시예에 따르면, 상기 (d) 단계는 상기 전문의견 반영부에서 반영된 상기 단위팩트의 진위 여부에 대한 전문가의 의견을 상기 딥러닝 예측모델의 웨이트 파라미터에 반영하는 단계를 더 포함할 수 있다.

본 발명의 실시예에 따르면, 상기 (e) 단계는 상기 데이터베이스부가 상기 판별된 단위팩트의 정보가 상기 단위팩트 추출부가 추출한 상기 단위팩트가 속하는 타겟 컨텐츠의 출처, 매체, 기자 평판, SNS 영향력 중 적어도 어느 하나에 관한 정보와 함께 저장할 수 있다.

본 발명에 따르면, 인터넷을 통해 유통되는 컨텐츠의 진위여부를 딥러닝 예측모델을 활용하여 효과적으로 판별할 수 있다.

또한, 가짜 뉴스 크롤링에 인공지능을 반영하고 사용자의 의심 추천에 의한 가짜 뉴스를 검출하며, 미리 분류된 해당 분야 전문가의 다양한 관점에 따른 단위팩트의 진위 여부의 분석을 수행함으로써 타겟 컨텐츠의 진위여부를 다양한 측면에서 판별할 수 있다. 또한, 전문가가 특정 주제 중 베스트 진짜 뉴스라고 판단한 해당 뉴스를 본보기로 삼아 가짜로 의심되는 뉴스가 갖는 거리, 연관도, 상관도 등을 통해 추가적인 판단을 할 수 있다.

도 1은 본 발명의 실시예에 따른 가짜 뉴스 인공지능 판별 시스템의 각 구성을 개략적으로 나타낸 도면이다.
도 2는 본 발명의 실시예에 따른 가짜 뉴스 인공지능 판별 시스템의 각 구성을 상세하게 나타낸 도면이다.
도 3은 본 발명의 실시예에 따른 가짜 뉴스 인공지능 판별 시스템의 각 단계를 개략적으로 나타낸 도면이다.
도 4는 본 발명의 실시예에 따른 가짜 뉴스 인공지능 판별 시스템에 있어서, 딥러닝 예측모델을 이용하는 구성을 나타낸 도면이다.
도 5는 본 발명의 실시예에 따른 가짜 뉴스 인공지능 판별 시스템에 있어서, 딥러닝 예측모델의 강화 학습 구성을 나타낸 도면이다.
도 6은 본 발명의 실시예에 따른 가짜 뉴스 인공지능 판별 시스템에 있어서, 사용자 및 전문가의 의견을 반영하는 구성을 나타낸 도면이다.
도 7은 본 발명의 실시예에 따른 가짜 뉴스 인공지능 판별 시스템에 있어서, 유형에 따른 전문가의 분류 예시를 나타낸 도면이다.
도 8은 도 7에서 분류된 해당 유형의 전문가의 의견을 딥러닝 예측모델에 반영하는 구성을 나타낸 도면이다.
도 9는 본 발명의 실시예에 따른 가짜 뉴스 인공지능 판별 시스템에 있어서, 언론 전문가와, 데이터분석 및 인공지능 전문가의 상호 분석 과정을 나타낸 도면이다.
도 10은 본 발명의 실시예에 따른 가짜 뉴스 인공지능 판별 시스템에 있어서, 특정한 타켓 컨텐츠에 대하여 전문가에 의한 진위 체크의 일 예를 나타낸 도면이다.

이하, 첨부된 도면을 참조하여 본 발명의 실시를 위한 구체적인 내용을 설명한다. 그리고 본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.

도 1은 본 발명의 실시예에 따른 가짜 뉴스 인공지능 판별 시스템의 각 구성을 개략적으로 나타낸 도면이다. 또한, 도 2는 본 발명의 실시예에 따른 가짜 뉴스 인공지능 판별 시스템의 각 구성을 상세하게 나타낸 도면이다. 또한, 도 3은 본 발명의 실시예에 따른 가짜 뉴스 인공지능 판별 시스템의 각 단계를 개략적으로 나타낸 도면이다.

도 1 및 도 2를 참조하면, 본 발명의 실시예에 따른 가짜 뉴스 인공지능 판별 시스템은, 단위팩트 추출부(10), 단위팩트 분류부(20), 전처리부(30), 가짜뉴스 판별부(40), 및 데이터베이스부(50)를 포함한다. 이때, 가짜뉴스 판별부(40)는 인공지능 분석부(41), 사용자 의견 반영부(42), 및 전문의견 반영부(43)를 더 포함할 수 있다.

도 3을 참조하면, 본 발명의 실시예에 따른 가짜 뉴스 인공지능 판별 방법은, 단위팩트 추출 단계(s10), 단위팩트 분류 단계(s20), 전처리 단계(s30), 가짜뉴스 판별 단계(s40), 및 저장 단계(s50)를 포함한다. 이때, 가짜뉴스 판별 단계(s40)는 인공지능 분석 단계(s41), 사용자 의견 반영 단계(s42), 및 전문의견 반영 단계(43)를 더 포함할 수 있다.

단위팩트 추출부(10)는 타겟 컨텐츠로부터 복수의 단위팩트를 추출할 수 있다(s10). 여기에서, 컨텐츠는 웹사이트, SNS 등 온라인 상에서 배포되는 뉴스기사일 수 있고, 단위팩트는 타켓 컨텐츠 내에서 팩트체크의 대상이 되는 문장 등의 단위를 갖는 요소일 수 있다.

예를 들어, 단위팩트는 신규 뉴스 정보, 언론 포털, 또는 외부 뉴스 정보 수집시스템 등의 다양한 경로의 타겟 컨텐츠로부터 추출될 수 있다.

단위팩트 추출부(10)는 온라인 상에 존재하는 다양한 타겟 컨텐츠를 크롤링(crawling) 등을 통해 직접 수집하고, 수집된 타겟 컨텐츠로부터 단위팩터를 획득할 수 있다.

또는, 단위팩트 추출부(10)는 사용자나 외부의 서버로부터 검증 대상이 되는 타겟 컨텐츠가 입력되면, 입력된 타겟 컨텐츠로부터 단위팩트를 획득할 수 있다.

신규 뉴스 정보로부터는 기존 뉴스를 탐지하기 위한 목적, 언론 포털로부터는 가짜 뉴스를 생산하는 경향을 수집하기 위한 목적, 외부 뉴스 정보 수집시스템으로부터는 신규 가짜 뉴스 정보를 파악하기 위한 목적으로 단위팩트가 추출될 수 있다.

일 실시예에서, 단위팩트 추출부(10)는 타켓 컨텐츠에 포함된 복수개의 문장들을 단위팩트 별로 추출할 수 있다. 또는, 다른 실시예에 있어서, 단위팩트 추출부(10)는 타겟 컨텐츠를 구성하는 각 문장 단위로 각 문장들에 포함된 하나 이상의 자연어를 추출하고, 추출된 자연어를 각 문장 별로 재조합함으로써 단위팩트를 획득할 수 있다.

단위팩트 분류부(20)는 단위팩트를 서로 다른 유형들로 분류할 수 있다(s20). 단위팩트 분류부(20)는 단위팩트의 형태에 따라, 단위팩트가 텍스트, 포털, 또는 사진, 또는 동영상에 해당하는지를 분류할 수 있다.

또한, 단위팩트 분류부(20)는 단위팩트의 매체별, 뉴스 기자별, 원소스별에 따라, 또는, 예를 들어 의료, 법률, 경제 등의 단위팩트가 속하는 분야에 따라 분류할 수 있다. 또한, 단위팩트 분류부(20)는 외부 뉴스 정보 수집시스템으로부터 파악된 신규 가짜 뉴스 정보를 별도로 분류할 수 있다.

또한, 단위팩트 분류부(20)는 단위팩트가 속하는 타겟 컨텐츠가 알려진 가짜 뉴스인지, 알려지지 않은 숨은 뉴스인지, 신규 뉴스인지, 인용 뉴스인지에 따라 단위팩트를 분류할 수 있다.

또한, 단위팩트 분류부는 단위팩트의 변조 유형에 따라, 전체 인용 변조, 텍스트 수정, 이미지 수정, 날짜 수정, 또는 문서 추가 등의 이벤트를 추출하고 이를 라벨링하여 분류할 수도 있다.

전처리부(30)는 단위팩트를 분석하여 필요한 정보만을 파싱(parsing)할 수 있다(s30). 예를 들어, 전처리부(30)에서 단위팩트를 분석하는 단계에는, 필요한 정보를 정제하고, 변환하고, 표준화하고, 병합하고, 중복제거하는 단계들 중 적어도 일부의 단계가 포함될 수 있다.

전처리부(30)에서 파싱된 단위팩트의 정보는 메모리 데이터 저장부에 저장될 수 있으며, 후술할 데이터베이스부(50)와 상호 데이터를 교환할 수 있다.

가짜뉴스 판별부(40)는 단위팩트를 사전에 설정된 단위로 딥러닝 예측모델을 활용하여 분석하는 인공지능 분석부(41)를 포함하며, 상기 분석된 단위팩트를 통해 타겟 컨텐츠의 가짜뉴스 정도를 판별할 수 있다(s40). 또한, 데이터베이스부(50)에는 판별된 단위팩트의 정보가 저장된다.

여기에서, 상기 사전에 설정된 단위는 단위팩트를 명제 또는 문맥 기반으로 설정할 수 있으며, 제목과 내용, 또는 맥락 등의 임의의 단위로 설정될 수 있다.

이때, 가짜뉴스 판별부(40)는 타겟 컨텐츠의 제목에서 추출된 단위팩트와 타겟 컨텐츠의 내용에서 추출된 단위팩트의 연관성, 및 타겟 컨텐츠의 내용에서 추출된 단위팩트들 간의 연관성을 분석할 수 있다.

이를 통해, 가짜뉴스 판별부(40)는 단위팩트의 명제 기반 사실 불일치, 문맥 기반 사실 불일치, 타겟 컨텐츠의 제목과 내용의 불일치, 또는 컨텐츠 내용의 맥락과 관계없는 내용 등을 검출할 수 있다.

도 4는 본 발명의 실시예에 따른 가짜 뉴스 인공지능 판별 시스템에 있어서, 딥러닝 예측모델을 이용하는 구성을 나타낸 도면이다. 또한, 도 5는 본 발명의 실시예에 따른 가짜 뉴스 인공지능 판별 시스템에 있어서, 딥러닝 예측모델의 강화 학습 구성을 나타낸 도면이다.

도 4를 참조하면, 가짜뉴스 판별부(40)의 인공지능 분석부(41)는 딥러닝 예측모델에 DNN(Deep Neural Network: 심층신경망), RNN(Recurrent Neural Network: 순환신경망), 및 CNN(Convolutional Neural Network: 합성곱 신경망) 기법이 적용되며, 상기 각각의 기법 중 적어도 어느 일부를 통하여 산출된 결과를 병합할 수 있다(s41).

이때, 상기 각각의 예측모델에 따른 각각의 결과에 사전에 정해진 가중치를 반영하여 병합할 수 있다.

또한, 인공지능 분석부(41)는 딥러닝 예측모델에 RNN(Recurrent Neural Networks) 기반 LSTM(Long Short Term Memory) 기법이 적용되도록 할 수 있다.

또한, 도 5를 참조하면, 인공지능 분석부(41)는 데이터베이스부(50)에 저장된 단위팩트의 정보를 딥러닝 예측모델에 학습시킬 수 있다.

상세하게는, 알려진 가짜 뉴스, 알려지지 않은 숨은 뉴스, 신규 뉴스, 또는 인용 뉴스와 같은 타겟 컨텐츠로부터 복수의 단위팩트를 추출한 후 가짜뉴스 판별부에서 타겟 컨텐츠의 가짜뉴스 정보가 판별된다.

이때, 상기 타겟 컨텐츠가 가짜 뉴스인지를 판별하기 위한 지도 학습과 비지도 학습이 별도의 추가된 모델로부터 이루어진다.

상기 추가된 모델은 뉴스 서버, 온라인, 클라우드 서버, 댓글 및 가짜 뉴스 표시로부터 크롤링된 단위팩트을 포함하며, 상기 크롤링된 단위팩트를 통해, 상기 딥러닝 예측모델뿐만 아니라 상기 지도 학습과 비지도 학습으로의 상호 강화 학습이 이루어질 수 있다.

한편, 단위팩트 추출부(10)는 타겟 컨텐츠의 이미지를 추출하고, 동일 이미지를 갖는 비교 타겟 컨텐츠를 검색하여, 상기 비교 타겟 컨텐츠로부터 복수의 단위팩트를 추출할 수 있다.

이때, 가짜뉴스 판별부(40)는 상기 타겟 컨텐츠로부터 추출된 단위팩트와 상기 비교 타겟 컨텐츠의 내용에서 추출된 단위팩트의 연관성을 분석할 수 있다.

상세하게는, 이는 외부 이미지 검색, 정보 추출, 정보 비교 단계를 통해 이루어질 수 있다.

먼저 외부 이미지 검색 단계에서는 타겟 컨텐츠의 이미지를 추출하고, 동일 이미지를 갖는 비교 타겟 컨텐츠를 검색한다. 그 다음, 정보 추출 단계에서는 타겟 컨텐츠의 이미지 메타데이터를 추출하고, 비교 타겟 컨텐츠의 웹페이지를 추출한다. 그 다음, 정보 비교 단계에서는 타겟 컨텐츠의 메타데이터를 비교 타겟 컨텐츠의 원본 페이지와 비교한다.

이를 통해, 역방향 이미지 탐색(reverse image search) 기반 가짜뉴스 판별이 이루어질 수 있다. 이때, 상기 딥러닝 예측모델의 RNN(Recurrent Neural Networks) 기반 LSTM(Long Short Term Memory) 기법이 이용될 수 있다.

도 6은 본 발명의 실시예에 따른 가짜 뉴스 인공지능 판별 시스템에 있어서, 사용자 및 전문가의 의견을 반영하는 구성을 나타낸 도면이다.

도 6을 참조하면, 가짜뉴스 판별부(40)는 타겟 컨텐츠 또는 단위팩트의 진위 여부에 대한 사용자의 의견이 반영되는 사용자 의견 반영부(42)를 더 포함할 수 있다.

예를 들어, 사용자 의견 반영부(42)는 사용자가 타겟 컨텐츠의 가짜뉴스 여부를 선택할 수 있도록 하고, 해당 타겟 컨텐츠에 대하여 얼마나 많은 수의 사용자가 가짜뉴스로 선택하였는지를 반영할 수 있다(s42). 또는, 사용자는 해당 타겟 컨텐츠뿐만 아니라 일정 범위의 단위팩트의 가짜뉴스 여부를 선택할 수도 있다.

또한, 사용자 의견 반영부(42)는 추가적으로 기존의 시스템에서 가짜/진짜 여부를 사용자(독자)가 선택하는 기능을 추가하여 진위를 뉴스 독자 기반으로 판단하는 경우 외에도 이미 기존 시스템에서 주로 활용되고 있는 ‘좋아요/싫어요, 공유(외부 SNS에 퍼나름) 빈도, 댓글 분석(300자 내외의 댓글에서 주요 어휘의 찬/반 분류, 형태소 분석을 통한 긍정/부정 등)’을 통해 사용자가 가짜뉴스와 진짜뉴스 중 어떤 판단을 내리고 있는지를 추론할 수 있다.

상세하게는 사용자 의견 반영부(42)는 상기 사용자의 의견을 단위팩트 추출부(10)에 의해 추출된 복수의 단위팩트를 딥러닝 예측모델에 반영하고, 사용자의 의견이 반영된 상기 딥러닝 예측모델은 후술할 전문의견 반영부(43)의 다양한 관점의 전문가의 의견과 상호 교류하는 방식으로 가짜 뉴스를 판별한다. 또한, 이러한 과정에서 상기 딥러닝 예측모델은 학습을 통해 가짜 뉴스를 판별하는 기준의 정확도를 향상시킬 수 있다. 또한, 딥러닝 예측모델은 학습을 통해 전문가의 의견이 반영되는 웨이터 파라미터의 가중치 또한 실시간으로 조절할 수 있다.

한편, 데이터베이스부(50)는 판별된 단위팩트의 정보가 단위팩트 추출부(10)가 추출한 단위팩트가 속하는 타겟 컨텐츠의 출처, 매체, 기자 평판, SNS 영향력에 관한 정보 중 적어도 어느 하나와 함께 저장될 수 있다. 이러한 정보는 전문의견 반영부(43)에 제공될 수 있다.

또한, 가짜뉴스 판별부(40)는 단위팩트의 진위 여부에 대한 전문가의 의견을 반영하는 전문의견 반영부(43)를 더 포함할 수 있다.

전문의견 반영부(43)는 단위팩트가 분류된 유형, 및 단위팩트의 진위 여부를 검증하는 사전에 정해진 관점에 따라 전문가를 분류할 수 있다(s43). 또한, 전문가가 속하는 유형의 단위팩트에 대한 전문가의 해당 관점에 따른 의견을 반영할 수 있다.

여기에서, 상기 사전에 정해진 관점에는 팩트 체킹뿐만 아니라, 예를 들어 리걸 체킹, 이코노미 체킹, 엔터테인먼트 체킹, 기독교 체킹, 불교 체킹, 성리학 체킹, 또는 스포츠 체킹 등에 관련된 다양한 관점들이 포함될 수 있다.

일 예로서, '리걸 체킹'이란 팩트 체킹과 구별되는 개념으로서, 예를 들어 정치인의 발언을 법적 관점에서 검증하는 것을 의미한다. 이해의 편의를 위해, 예를 들어, 'A'라는 정치인이 다음과 같이 발언했다고 가정하자.

“난민을 수용하는 데 문제가 없었다면 브렉시트는 없었을 것이다.”

그러나, 'A'의 발언은 사실과 다르다. 영국은 유럽연합의 난민 정책을 따르지 않고 있기 때문이다. 물론, 영국에 난민들이 존재하지 않는 것은 아니다. 그러나, 영국에 몰려드는 난민들은 자발적으로 온 사람들이지 유럽연합이 난민을 받아들이라고 강요한 것이 아니다. 그러므로, 브렉시트 이후에도 난민들은 여전히 영국으로 몰려들고 있다.

따라서, 단순히 단위팩트가 실제로 발언되었는지 여부뿐만 아니라, 상기 단위팩트가 법률적으로 문제가 있는지를 판단하는 것도 가짜 뉴스를 판별하는 데 있어 중요한 요소가 된다.

즉, 전문의견 반영부(43)는 팩트체킹뿐만 아니라 상기 리걸 체킹 등의 다양한 관점에 따라 전문가를 분류하고 해당 관점의 전문가의 의견을 반영할 수 있다.

예를 들어, '리걸 체킹'을 위해 법률 전문성을 갖는 학색, 석사, 박사, 교수 등의 전문가가 자발적으로 정치인 등의 언사에 의한 단위팩트가 가짜 또는 법률적 문제가 있다고 판단하여 이를 점수(위험이 크다/낮다)로 매기거나, 참/거짓으로 이루어진 옵션 버튼을 누르는 식으로 법률적으로 문제가 있는 뉴스를 찾을 수 있다.

이때, 전문의견 반영부(43)는 전문가에게 단위팩트의 진위 여부에 대하여 사용자 의견 반영부(42)에서 반영된 이용자의 의견을 제공하고, 전문가가 이를 반영하도록 할 수 있다.

도 7은 본 발명의 실시예에 따른 가짜 뉴스 인공지능 판별 시스템에 있어서, 유형에 따른 전문가의 분류 예시를 나타낸 도면이다. 또한, 도 8은 도 7에서 분류된 해당 유형의 전문가의 의견을 딥러닝 예측모델에 반영하는 구성을 나타낸 도면이다.

도 7을 참조하면, 전문의견 반영부(43)는 단위팩트가 분류된 유형에 따라 해당 유형에 속하는 전문가를 특정 숫자로 분류 및 선별할 수 있다. 이러한 전문가의 분류 및 선별은 자동으로 이루어질 수 있다.

도 8을 참조하면, 가짜뉴스 판별부(40)는 전문의견 반영부(43)에서 반영된 단위팩트의 진위 여부에 대한 해당 유형의 전문가를 자동 추천하고, 상기 전문가의 의견을 딥러닝 예측모델의 웨이트 파라미터에 반영할 수 있다.

상세하게는, 먼저, 딥러닝 예측모델에서는 해당 전문가의 의견을 신경망의 히든 레이어에 반영하여 고유의 웨이트 값을 부여한다.

초기 웨이트 값은 파라마터로 설정하고, 강화학습을 기반으로 하여 최종 진위 여부와 비교하여 보상과 감점을 기록 및 반영하면서 웨이트 값을 조정할 수 있다.

전문가는 단위팩트의 진위 여부를 확인하고 최종 의견을 제시할 수 있으며, 이때에도 일반인의 단위팩트의 진위 여부에 대한 의견의 빈도를 조합하여 결정할 수 있다. 또한, 전문의견 반영부(43)는 1주 또는 1달 단위로 의심 뉴스 활성화 데이터를 인포그래픽으로 도식화할 수 있다.

도 9는 본 발명의 실시예에 따른 가짜 뉴스 인공지능 판별 시스템에 있어서, 언론 전문가와, 데이터분석 및 인공지능 전문가의 상호 분석 과정을 나타낸 도면이다.

도 9를 참조하면, 본 발명의 전문가는 언론 전문가, 및 데이터분석/인공지능 전문가를 더 포함할 수 있다.

먼저, 언론 전문가는 신규 가짜 뉴스, 숨은 뉴스를 분석할 수 있다. 언론 전문가는 신규 가짜 뉴스를 분석함으로써 단위팩트의 진위 여부를 분석하고 변경 여부를 확인할 수 있다. 또한, 언론 전문가는 숨은 뉴스를 분석함으로써 학습 및 평가 데이터를 확보할 수 있다. 이때, 언론 전문가의 단위팩트의 진위 여부의 분석은 학습 및 평가 데이터에 반영될 수 있다.

확보된 학습 및 평가 데이터는 데이터분석/인공지능 전문가에게 전달될 수 있다. 데이터분석/인공지능 전문가는 전달된 데이터의 연관성 및 타당성을 확인하고 데이터의 추출 및 변환을 수행한다. 이때, 학습 및 모델 생성을 수행하고, 이를 평가 검증하여, 결과가 미흡한 경우 전달된 데이터의 연관성 및 타당성을 확인하고, 결과를 충족시키는 경우 평가 및 검증 결과를 도출할 수 있다.

도 10은 본 발명의 실시예에 따른 가짜 뉴스 인공지능 판별 시스템에 있어서, 특정한 타켓 컨텐츠에 대하여 전문가에 의한 진위 체크의 일 예를 나타낸 도면이다.

도 10을 참조하면, 전문가는 하나의 타겟 컨텐츠에 대하여 법률 또는 경제 등의 특정 관점에서 진실성, 의도, 뉴스 여부 등의 각 항목에 대하여 체킹할 수 있다. 또한, 복수의 다른 관점에 해당하는 전문가들이 하나의 타겟 컨텐츠를 다각적인 관점(복수의 히든 레이어 구성)에서 분석할 수도 있다.

상술한 본 발명의 가짜 뉴스 인공지능 판별 시스템의 실시예들에 따르면, 본 발명은 인터넷을 통해 유통되는 컨텐츠의 진위여부를 딥러닝 예측모델을 활용하여 효과적으로 판별할 수 있다.

또한, 가짜 뉴스 크롤링에 인공지능을 반영하고 사용자의 의심 추천에 의한 가짜 뉴스를 검출하며, 전문가의 다양한 관점에 따른 단위팩트의 진위 여부의 분석을 수행함으로써 타겟 컨텐츠의 진위여부를 다양한 측면에서 판별할 수 있다.

이 분야의 보호범위가 이상에서 명시적으로 설명한 실시예의 기재와 표현에 제한되는 것은 아니다. 또한, 본 발명이 속하는 기술분야에서 자명한 변경이나 치환으로 말미암아 본 발명의 보호범위가 제한될 수도 없음을 다시 한 번 첨언한다.

Claims

타겟 컨텐츠로부터 복수의 단위팩트를 추출하는 단위팩트 추출부;
상기 단위팩트를 서로 다른 유형들로 분류하는 단위팩트 분류부;
상기 단위팩트를 분석하여 필요한 정보만을 파싱(parsing)하는 전처리부;
상기 단위팩트를 사전에 설정된 단위로 딥러닝 예측모델을 활용하여 분석하는 인공지능 분석부를 포함하며 상기 분석된 단위팩트를 통해 타겟 컨텐츠의 가짜뉴스 정도를 판별하는 가짜뉴스 판별부; 및
상기 판별된 단위팩트의 정보를 저장하는 데이터베이스부를 포함하는 것을 특징으로 하는, 가짜 뉴스 인공지능 판별 시스템.
제1항에 있어서, 상기 가짜뉴스 판별부는
상기 타겟 컨텐츠의 제목에서 추출된 단위팩트와 상기 타겟 컨텐츠의 내용에서 추출된 단위팩트의 연관성, 상기 타겟 컨텐츠의 내용에서 추출된 단위팩트들 간의 연관성, 및 전문가와 사용자에 의해 추천한 베스트 진짜 뉴스와 판단하고자 하는 뉴스의 연관성, 유의도, 진짜 뉴스 초록과 판단 대상 뉴스의 문장 간 거리를 분석하는 것을 특징으로 하는, 가짜 뉴스 인공지능 판별 시스템.
제1항에 있어서, 상기 인공지능 분석부는
상기 딥러닝 예측모델에 DNN(Deep Neural Network: 심층신경망), RNN(Recurrent Neural Network: 순환신경망), 및 CNN(Convolutional Neural Network: 합성곱 신경망) 기법이 적용되며, 상기 각각의 기법 중 적어도 어느 일부를 통하여 산출된 결과를 병합하는 것을 특징으로 하는, 가짜 뉴스 인공지능 판별 시스템.
제3항에 있어서, 상기 인공지능 분석부는
상기 딥러닝 예측모델에 RNN(Recurrent Neural Networks) 기반 LSTM(Long Short Term Memory) 기법이 적용되도록 하는 것을 특징으로 하는, 가짜 뉴스 인공지능 판별 시스템.
제3항 또는 제4항에 있어서, 상기 인공지능 분석부는
상기 데이터베이스부에 저장된 단위팩트의 정보를 상기 딥러닝 예측모델에 학습시키는 것을 특징으로 하는, 가짜 뉴스 인공지능 판별 시스템.
제2항에 있어서, 상기 단위팩트 추출부는
상기 타겟 컨텐츠의 이미지를 추출하고, 동일 이미지를 갖는 비교 타겟 컨텐츠를 검색하여, 상기 비교 타켓 컨텐츠로부터 복수의 단위팩트를 추출하며,
상기 가짜뉴스 판별부는
상기 타겟 컨텐츠로부터 추출된 단위팩트와 상기 비교 타겟 컨텐츠의 내용에서 추출된 단위팩트의 연관성을 분석하는 것을 특징으로 하는, 가짜 뉴스 인공지능 판별 시스템.
제2항에 있어서, 상기 가짜뉴스 판별부는
상기 타겟 컨텐츠 또는 상기 단위팩트의 진위 여부에 대한 진짜뉴스/가짜뉴스 판단, 댓글 또는 공유를 통해 긍정과 부정에 대한 판단을 포함하는 사용자의 의견이 반영되는 사용자 의견 반영부를 더 포함하는 것을 특징으로 하는, 가짜 뉴스 인공지능 판별 시스템.
제7항에 있어서, 상기 가짜뉴스 판별부는
상기 단위팩트의 진위 여부에 대한 전문가의 의견을 반영하는 전문의견 반영부를 더 포함하는 것을 특징으로 하는, 가짜 뉴스 인공지능 판별 시스템.
제8항에 있어서, 상기 전문의견 반영부는
상기 단위팩트가 분류된 유형, 및 단위팩트의 진위 여부를 검증하는 사전에 정해진 관점에 따라 전문가를 분류하고, 상기 전문가가 속하는 유형의 단위팩트에 대한 상기 전문가의 해당 관점에 따른 의견을 반영하는 것을 특징으로 하는, 가짜 뉴스 인공지능 판별 시스템.
제9항에 있어서, 상기 전문의견 반영부는
상기 전문가에게 상기 단위팩트의 진위 여부에 대하여 상기 사용자 의견 반영부에서 반영된 상기 사용자의 의견을 제공하는 것을 특징으로 하는, 가짜 뉴스 인공지능 판별 시스템.
제10항에 있어서, 상기 가짜뉴스 판별부는
상기 전문의견 반영부에서 반영된 상기 단위팩트의 진위 여부에 대한 전문가의 의견을 상기 딥러닝 예측모델의 웨이트 파라미터에 반영하는 것을 특징으로 하는, 가짜 뉴스 인공지능 판별 시스템.
제11항에 있어서, 상기 데이터베이스부는
상기 판별된 단위팩트의 정보가 상기 단위팩트 추출부가 추출한 상기 단위팩트가 속하는 타겟 컨텐츠의 출처, 매체, 기자 평판, SNS 영향력, 또는 가짜뉴스 이상패턴 중 적어도 하나에 관한 정보와 함께 저장하는 것을 특징으로 하는, 가짜 뉴스 인공지능 판별 시스템.
(a) 단위팩트 추출부가 타겟 컨텐츠로부터 복수의 단위팩트를 추출하는 단계;
(b) 단위팩트 분류부가 상기 단위팩트를 서로 다른 유형들로 분류하는 단계;
(c) 전처리부가 상기 단위팩트를 분석하여 필요한 정보만을 파싱하는 단계;
(d) 가짜뉴스 판별부의 인공지능 분석부가 상기 단위팩트를 사전에 설정된 단위로 딥러닝 예측모델을 활용하여 분석하는 단계; 및
(e) 데이터베이스부가 상기 판별된 단위팩트의 정보가 저장하는 단계를 포함하는 것을 특징으로 하는, 가짜 뉴스 인공지능 판별 방법.
제13항에 있어서, 상기 (d) 단계는
상기 가짜뉴스 판별부가 상기 타겟 컨텐츠의 제목에서 추출된 단위팩트와 상기 타겟 컨텐츠의 내용에서 추출된 단위팩트의 연관성, 및 상기 타겟 컨텐츠의 내용에서 추출된 단위팩트들 간의 연관성을 분석하는 것을 특징으로 하는, 가짜 뉴스 인공지능 판별 방법.
제13항에 있어서, 상기 (d) 단계는
상기 딥러닝 예측모델에 DNN(Deep Neural Network: 심층신경망), RNN(Recurrent Neural Network: 순환신경망), 및 CNN(Convolutional Neural Network: 합성곱 신경망) 기법이 적용되며, 상기 각각의 기법을 통하여 산출된 결과를 병합하는 것을 특징으로 하는, 가짜 뉴스 인공지능 판별 방법.
제15항에 있어서, 상기 (d) 단계는
상기 딥러닝 예측모델에 RNN(Recurrent Neural Networks) 기반 LSTM(Long Short Term Memory) 기법이 적용되는 것을 특징으로 하는, 가짜 뉴스 인공지능 판별 방법.
제15항 또는 제16항에 있어서, 상기 (d) 단계는
상기 인공지능 분석부가 상기 데이터베이스부에 저장된 단위팩트의 정보를 상기 딥러닝 예측모델에 학습시키는 단계를 더 포함하는 것을 특징으로 하는, 가짜 뉴스 인공지능 판별 방법.
제14항에 있어서, 상기 (a) 단계는
상기 단위팩트 추출부가 상기 타겟 컨텐츠의 이미지를 추출하고, 동일 이미지를 갖는 비교 타켓 컨텐츠를 검색하여, 상기 비교 타켓 컨텐츠로부터 복수의 단위팩트를 추출하며,
상기 (d) 단계는
상기 가짜뉴스 판별부가 상기 타겟 컨텐츠로부터 추출된 단위팩트와 상기 비교 타겟 컨텐츠의 내용에서 추출된 단위팩트의 연관성을 분석하는 단계를 더 포함하는 것을 특징으로 하는, 가짜 뉴스 인공지능 판별 방법.
제14항에 있어서, 상기 (d) 단계는
상기 가짜뉴스 판별부는 사용자 의견 반영부를 더 포함하고,
상기 사용자 의견 반영부가 상기 단위팩트의 진위 여부에 대한 사용자의 의견을 반영하는 단계를 더 포함하는 것을 특징으로 하는, 가짜 뉴스 인공지능 판별 방법.
제19항에 있어서, 상기 (d) 단계는
상기 가짜뉴스 판별부는 전문의견 반영부를 더 포함하고,
상기 전문의견 반영부가 상기 단위팩트의 진위 여부에 대한 전문가의 의견을 반영하는 단계를 더 포함하는 것을 특징으로 하는, 가짜 뉴스 인공지능 판별 방법.
제20항에 있어서, 상기 (d) 단계는
상기 전문의견 반영부가 상기 단위팩트가 분류된 유형, 및 단위팩트의 진위 여부를 검증하는 사전에 정해진 관점에 따라 전문가를 분류하고, 상기 전문가가 속하는 유형의 단위팩트에 대한 상기 전문가의 해당 관점에 따른 의견을 반영하는 것을 특징으로 하는, 가짜 뉴스 인공지능 판별 방법.
제21항에 있어서, 상기 (d) 단계는
상기 전문의견 반영부가 상기 전문가에게 상기 단위팩트의 진위 여부에 대한 상기 사용자 의견 반영부에서 반영된 상기 사용자의 의견을 제공하는 단계를 더 포함하는 것을 특징으로 하는, 가짜 뉴스 인공지능 판별 방법.
제22항에 있어서, 상기 (d) 단계는
상기 상기 전문의견 반영부에서 반영된 상기 단위팩트의 진위 여부에 대한 전문가의 의견을 상기 딥러닝 예측모델의 웨이트 파라미터에 반영하는 단계를 더 포함하는 것을 특징으로 하는, 가짜 뉴스 인공지능 판별 방법.
제23항에 있어서, 상기 (e) 단계는
상기 데이터베이스부가 상기 판별된 단위팩트의 정보가 상기 단위팩트 추출부가 추출한 상기 단위팩트가 속하는 타겟 컨텐츠의 출처, 매체, 기자 평판, SNS 영향력 중 적어도 어느 하나에 관한 정보와 함께 저장하는 것을 특징으로 하는, 가짜 뉴스 인공지능 판별 방법.