KR101972660B1

KR101972660B1 - 팩트체크 시스템 및 방법

Info

Publication number: KR101972660B1
Application number: KR1020170104725A
Authority: KR
Inventors: 최두환
Original assignee: 주식회사 포스코아이씨티
Priority date: 2017-08-18
Filing date: 2017-08-18
Publication date: 2019-04-25
Also published as: KR20190019589A

Abstract

온라인 상에서 배포되는 컨텐츠의 신뢰값을 자동으로 산출하여 제공할 수 있는 본 발명의 일 측면에 따른 팩트체킹 시스템은, 타겟 컨텐츠로부터 적어도 하나의 단위팩트(Fact)를 획득하는 단위팩트 획득부; 상기 단위팩트와 비교할 상관관계가 높은 비교팩트를 선택하는 비교팩트 선택부; 및 상기 선택된 비교팩트에 대해 산출된 신뢰값을 상기 단위팩트의 신뢰값으로 결정하고, 상기 타겟 컨텐츠에 포함된 각 단위팩트의 신뢰값을 이용하여 상기 타겟 컨텐츠의 신뢰값을 산출하는 컨텐츠 신뢰값 산출부를 포함하는 것을 특징으로 한다.

Description

팩트체크 시스템 및 방법{System and Method for Checking Fact}

본 발명은 인터넷을 통해 유통되는 컨텐츠의 진위여부를 판단할 수 있는 시스템에 관한 것이다.

인터넷의 발달로 인해 최근의 뉴스 소비는 인터넷 상의 뉴스포탈을 통해 이루어지는 경향을 보이고 있다. 뉴스포탈을 통해 제공되는 뉴스들 중에는 개인 또는 단체가 특정한 목적을 성취하기 위해 의도적으로 진실이 아닌 내용을 진실인 것처럼 작성한 뉴스, 이른바 가짜 뉴스가 있다.

이러한 가짜 뉴스는 정교해서 뉴스 이용자들이 진실 여부를 확인하기가 어렵고, 가짜 뉴스가 뉴스 이용자들에게 그대로 전달될 경우 뉴스 이용자들에게 혼란을 줄 뿐만 아니라, 뉴스 이용자들이 이러한 가짜 뉴스를 여과 없이 믿게 되면 사회적인 피해가 발생 될 수도 있다.

특히, 최근에는 페이스북, 트위터, 블로그, 또는 카페 등과 같은 소셜 미디어를 통해서도 뉴스의 전파가 이루어짐에 따라, 뉴스의 전파 속도 또한 매우 빠르기 때문에, 가짜 뉴스가 소셜 미디어를 통해 전파되는 경우 심각한 피해가 발생할 수도 있다.

따라서, 온라인 상에서 유통되는 뉴스가 진실한 것인지를 확인하기 위한 팩트 체킹(Fact Checking)의 필요성이 증대되고 있다. 일 예로, 미국의 폴리티팩트(PolitiFact)를 통해 제공되는 팩트체킹 서비스(www. Politifact.com)가 있다. 폴리티팩트를 통해 제공되는 팩트체킹 서비스는 기자들이 직접 뉴스의 사실 여부를 검증하여 그 결과를 웹사이트를 제공하는 방식이다.

이와 같이, 미국의 폴리티팩트를 통해 제공되는 팩트체킹 서비스를 비롯한 기존의 일반적인 팩트체킹 서비스는 대부분이 사람이 직접 뉴스의 진위여부를 검증하여 그 결과를 제공하는 것이기 때문에, 서비스 제공을 위해 많은 시간과 비용이 요구된다는 문제점이 있다.

대한민국 등록특허 제10-1594452호(발명의 명칭: 온라인 게시물의 유언비어 식별장치, 등록일: 2016년 02월 17일 등록)

본 발명은 상술한 문제점을 해결하기 위한 것으로서, 온라인 상에서 배포되는 컨텐츠의 신뢰값을 자동으로 산출하여 제공할 수 있는 팩트체킹 시스템 및 방법을 제공하는 것을 그 기술적 과제로 한다.

또한, 본 발명은 인공지능 및/또는 빅데이터를 기반으로 컨텐츠의 신뢰도를 산출할 수 있는 팩트체킹 시스템 및 방법을 제공하는 것을 다른 기술적 과제로 한다.

또한, 본 발명은 온라인 상에서 배포되는 컨텐츠를 구성하는 단위팩트들의 신뢰값을 기초로 해당 컨텐츠의 신뢰값을 산출할 수 있는 팩트체킹 시스템 및 방법을 제공하는 것을 다른 기술적 과제로 한다.

또한, 본 발명은 포털 사이트 상에서 각 컨텐츠의 신뢰값 순서에 따라 컨텐츠가 노출될 수 있도록 구성하여 신뢰값이 낮은 컨텐츠의 인지 가능성 및 영향력을 감소시킬 수 있는 팩트체킹 시스템 및 방법을 제공하는 것을 또 다른 기술적 과제로 한다.

상기 목적을 달성하기 위한 본 발명의 일 측면에 따른 팩트체킹 시스템은, 타겟 컨텐츠로부터 적어도 하나의 단위팩트(Fact)를 획득하는 단위팩트 획득부; 상기 단위팩트와 비교할 상관관계가 높은 비교팩트를 선택하는 비교팩트 선택부; 및 상기 선택된 비교팩트에 대해 산출된 신뢰값을 상기 단위팩트의 신뢰값으로 결정하고, 상기 타겟 컨텐츠에 포함된 각 단위팩트의 신뢰값을 이용하여 상기 타겟 컨텐츠의 신뢰값을 산출하는 컨텐츠 신뢰값 산출부를 포함하는 것을 특징으로 한다.

상술한 목적을 달성하기 위한 본 발명의 다른 측면에 따른 팩트체킹 방법은, 타겟 컨텐츠로부터 적어도 하나의 단위팩트를 획득하는 단계; 상기 단위팩트와 비교할 상관관계가 높은 비교팩트를 선택하는 단계; 상기 선택된 비교팩트의 신뢰값을 상기 단위팩트의 신뢰값으로 결정하는 단계; 및 상기 타겟 컨텐츠에 포함된 각 단위팩트의 신뢰값을 이용하여 상기 타겟 컨텐츠의 신뢰값을 산출하는 단계를 포함하는 것을 특징으로 한다.

본 발명에 따르면, 온라인 상에서 배포되는 컨텐츠의 신뢰값을 자동으로 산출할 수 있기 때문에 컨텐츠의 팩트체크를 위해 요구되는 시간 및 비용을 감소시킬 수 있는 효과가 있다.

또한, 본 발명에 따르면 인공지능 및/또는 빅데이터를 기반으로 컨텐츠의 신뢰도를 산출할 수 있기 때문에 신뢰도 값이 산출된 컨텐츠들이 누적될수록 컨텐츠의 신뢰도 평가 정확도를 향상시킬 수 있는 효과가 있다.

또한, 본 발명에 따르면 컨텐츠를 구성하는 단위팩트들의 신뢰값을 모두 고려하여 해당 컨텐츠의 신뢰도를 산출하기 때문에, 컨텐츠의 신뢰값을 보다 정확하게 산출할 수 있는 효과가 있다.

또한, 본 발명은 신뢰값이 높은 컨텐츠일수록 상단에 배치하고 신뢰값이 낮은 컨텐츠일수록 하단에 배치하여 신뢰값이 낮은 컨텐츠에 대한 인지 가능성은 물론, 신뢰값이 낮은 컨텐츠로 인한 부정적인 영향력을 감소시킬 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 팩트체킹 시스템의 구성을 보여주는 블록도이다.
도2는 본 발명의 일 실시예에 따른 비교팩트 데이터베이스 관리부의 구성을 보여주는 블록도이다.
도 3a 내지 도 3e는 거짓인 컨텐츠의 조회기간패턴을 보여주는 도면이다.
도 4a 내지 도 4e는 진실인 컨텐츠의 조회기간패턴을 보여주는 도면이다.
도 5는 거짓인 컨텐츠의 링크패턴을 보여주는 도면이다.
도 6은 진실인 컨텐츠의 링크패턴을 보여주는 도면이다.
도 7은 본 발명의 일 실시예에 따른 팩트체킹 방법을 보여주는 플로우차트이다.
도 8은 본 발명의 일 실시예에 따른 비교팩트 획득방법을 보여주는 플로우차트이다.

본 명세서에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 정의하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다.

"포함하다" 또는 "가지다" 등의 용어는 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

"적어도 하나"의 용어는 하나 이상의 관련 항목으로부터 제시 가능한 모든 조합을 포함하는 것으로 이해되어야 한다. 예를 들어, "제1 항목, 제2 항목 및 제 3항목 중에서 적어도 하나"의 의미는 제1 항목, 제2 항목 또는 제3 항목 각각 뿐만 아니라 제1 항목, 제2 항목 및 제3 항목 중에서 2개 이상으로부터 제시될 수 있는 모든 항목의 조합을 의미한다.

이하, 첨부되는 도면을 참고하여 본 발명의 실시예에 따른 팩트체킹 시스템 및 방법에 대해 상세히 설명한다.

본 발명에 따른 팩트체킹 시스템은 타겟 컨텐츠로부터 팩트체크의 대상이 되는 적어도 하나의 단위팩트(Fact)를 획득하고, 단위팩트와 비교할 상관관계가 높은 비교팩트를 선택한다. 팩트체킹 시스템은 선택된 비교팩트의 신뢰값을 기초로 상기 단위팩트의 신뢰값을 결정하고, 타겟 컨텐츠에 포함된 각 단위팩트의 신뢰값을 이용하여 타겟 컨텐츠의 신뢰값을 산출한다. 팩트체킹 시스템은 타겟 컨텐츠의 신뢰값을 기초로 화면상에서 타겟 컨텐츠가 배치될 노출순위를 결정하거나, 결정된 노출순위에 따라 화면상에서 타겟 컨텐츠를 노출시킬 수 있다.

도 1은 본 발명의 일 실시예에 따른 팩트체킹 시스템의 구성을 보여주는 블록도이다.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 팩트체킹 시스템(100)은, 단위팩트 획득부(110), 비교팩트 선택부(120), 컨텐츠 신뢰값 산출부(130), 및 비교팩트 데이터베이스(140)를 포함한다. 또한, 본 발명에 따른 팩트체킹 시스템(100)은 도 1에 도시된 바와 같이, 비교팩트 데이터베이스 관리부(150) 및 노출순위 결정부(160)를 더 포함할 수 있다.

먼저, 단위팩트 획득부(110)는 컨텐츠(이하, '타겟 컨텐츠'라 함)로부터 팩트체크를 위한 적어도 하나의 단위팩트(Fact)를 획득한다. 여기서, 컨텐츠는 웹사이트, SNS 등 온라인 상에서 배포되는 뉴스기사일 수 있고, 단위팩트는 타겟 컨텐츠 내에서 팩트체크의 대상이 되는 문장일 수 있다.

단위팩트 획득부(110)는 온라인 상에 존재하는 다양한 타겟 컨텐츠를 직접 수집하고, 수집된 타겟 컨텐츠로부터 단위팩트를 획득할 수 있다. 다른 예로, 단위팩트 획득부(110)는 사용자나 외부의 서버로부터 검증 대상이 되는 타겟 컨텐츠가 입력되면, 입력된 타겟 컨텐츠로부터 단위팩트를 획득할 수 있다.

일 실시예에 있어서, 단위팩트 획득부(110)는 타겟 컨텐츠에 포함된 복수개의 문장들을 단위팩트 별로 추출할 수 있다.

이러한 실시예에 따르는 경우, 단위팩트 획득부(110)는 타겟 컨텐츠에 포함된 복수개의 문장들을 파싱할 수 있다. 팩트체킹 시스템(100)은 용어 별 또는 문장 별로 저장되는 용어사전 데이터베이스(112)를 더 포함할 수 있고, 단위팩트 획득부(110)는 용어사전 데이터베이스(112)에 저장되어 있는 용어나 문장들을 참조하여, 상기 파싱된 문장들로부터 적어도 하나의 단위팩트를 획득할 수 있다. 상기 단위팩트는 상기 파싱된 문장들로부터 팩트체크 대상이 되지 않는 문장들을 제거함으로써 획득될 수 있다.

용어사전 데이터베이스(112)는 팩트체크 대상이 되지 않는 문장에 사용되는 용어들 또는 문장들의 목록을 포함할 수 있다. 예컨대, "~일 수 있다"등과 같이 가능형을 나타내는 서술어는 팩트체크 대상이 되지 않는 문장에 사용되는 용어로서 용어사전 데이터베이스(112)에 기록될 수 있다. 이러한 예에 따르는 경우, 단위팩트 획득부(110)는 파싱된 문장들 중 "~일 수 있다"와 같은 가능형을 나타내는 서술어를 포함하고 있는 문장들은 팩트체크 대상이 되지 않는 문장으로 판단하여 제거할 수 있다.

다른 실시예에 있어서, 단위팩트 획득부(110)는 타겟 컨텐츠를 구성하는 각 문장 단위로 각 문장들에 포함된 하나 이상의 자연어를 추출하고, 추출된 자연어를 각 문장 별로 재조합함으로써 단위팩트를 획득할 수 있다. 이를 위해, 본 발명에 따른 팩트체크 시스템(100)은 팩트체크 대상이 되는 자연어와 그 의미가 서로 매칭되어 저장되어 있는 자연어 사전 데이터베이스(미도시)를 더 포함할 수 있다.

이러한 실시예에 따르는 경우 단위팩트 획득부(110)는 특정 문장으로부터 자연어 사전 데이터베이스에 기록되어 있는 단어들을 추출하고, 추출된 단어들을 재조합함으로써 단위팩트를 획득할 수 있다.

비교팩트 선택부(120)는 상기 획득한 단위팩트의 진위검증을 위해 비교팩트 데이터베이스(140)로부터 비교팩트를 추출한다. 여기서, 비교팩트는 그 진위여부가 미리 검증되어 있는 팩트들을 의미한다.

비교팩트 선택부(120)는 비교팩트 데이터베이스(140)에 저장되어 있는 기 검증된 비교팩트들 중 단위팩트 획득부(110)에 의해 획득된 단위팩트와 상관관계가 가장 높은 비교팩트를 선택한다.

일 실시예에 있어서, 비교팩트 선택부(120)는 비교팩트 데이터베이스(140)에 저장되어 있는 비교팩트들 중 단위팩트에 포함된 단어들의 출현 빈도수가 가장 높은 비교팩트를 해당 단위팩트와 상관관계가 가장 높은 비교팩트로 선택할 수 있다.

다른 실시예에 있어서, 비교팩트 선택부(120)는 비교팩트 데이터베이스(140)에 저장되어 있는 비교팩트들 중 각 비교팩트가 포함된 컨텐츠를 게재하고 있는 웹사이트의 유형이 타겟 콘텐츠가 게재된 웹사이트의 유형과 동일한 비교팩트를 해당 단위팩트와 상관관계가 가장 높은 비교팩트로 선택할 수 있다.

또 다른 실시예에 있어서, 비교팩트 선택부(120)는 단위팩트에 포함된 단어들의 출현 빈도수와 웹사이트 유형의 동일성을 모두 고려하여 해당 단위팩트와 상관관계가 가장 높은 비교팩트를 선택할 수도 있다. 예컨대, 비교팩트 선택부(120)는 먼저 비교팩트 데이터베이스(140)에 저장된 비교팩트들 중 단위팩트에 포함된 단어들의 출현 빈도수가 가장 높은 비교팩트를 선택하고, 선택된 비교팩트가 복수개인 경우 선택된 비교팩트들 중 해당 비교팩트가 포함된 컨텐츠를 게재하고 있는 웹사이트의 유형이 타겟 콘텐츠가 게재된 웹사이트의 유형과 동일한 비교팩트를 특정 단위팩트와 상관관계가 가장 높은 비교팩트로 선택할 수 있다.

컨텐츠 신뢰값 산출부(130)는 비교팩트 선택부(120)에 의해 선택된 비교팩트의 신뢰값을 기초로 타겟 컨텐츠의 신뢰값을 산출한다. 구체적으로, 컨텐츠 신뢰값 산출부(130)는 비교팩트 데이터베이스(140)로부터 각 단위팩트 별로 선택된 비교팩트에 매칭되어 있는 비교팩트의 신뢰값을 획득할 수 있다. 컨텐츠 신뢰값 산출부(130)는 획득된 각 비교팩트의 신뢰값을 각 단위팩트의 신뢰값으로 결정하고, 각 단위팩트들의 신뢰값을 미리 정해진 연산방법으로 연산함으로써 각 단위팩트들이 포함된 타겟 컨텐츠의 신뢰값을 산출할 수 있다.

일 실시예에 있어서, 컨텐츠 신뢰값 산출부(130)는 각 단위팩트의 신뢰값을 합산함으로써 타겟 컨텐츠의 신뢰값을 산출할 수 있다. 다른 실시예에 있어서, 컨텐츠 신뢰값 산출부(130)는 각 단위팩트들의 신뢰값에 확률밀도함수를 적용함으로써 타겟 컨텐츠의 신뢰값을 산출할 수 있다.

비교팩트 데이터베이스(140)에는 진위여부에 대한 검증이 완료된 비교팩트들이 각 비교팩트 별로 산출된 신뢰값들과 매칭되어 저장될 수 있다. 일 실시예에 있어서, 비교팩트 데이터베이스(140)는 미리 정해진 주기마다 갱신될 수 있다. 비교팩트 데이터베이스(140)의 주기적인 갱신을 통해, 새로운 비교팩트 및 비교팩트의 신뢰값이 비교팩트 데이터베이스(140)에 저장될 수 있어 새롭게 발생되는 타겟 컨텐츠의 진위여부를 더욱 정확하게 검증할 수 있게 된다.

한편, 상술한 바와 같이 본 발명의 일 실시예에 따른 팩트체크 시스템(100)은 비교팩트 데이터베이스 관리부(150)를 더 포함할 수 있다.

비교팩트 데이터베이스 관리부(150)는 하나 이상의 제1 컨텐츠로부터 단위팩트의 진위여부 검증을 위한 비교팩트를 획득하고, 관리한다.

비교팩트 데이터베이스 관리부(150)는 획득된 비교팩트의 신뢰값을 산출하여 해당 비교팩트와 매칭시켜 비교팩트 데이터베이스(140)에 저장할 수 있다.

일 실시예에 있어서, 비교팩트 데이터베이스 관리부(150)는 비교팩트 획득 및 비교팩트의 신뢰값 산출을 주기적으로 수행함으로써 비교팩트 데이터베이스(140)를 갱신할 수 있다.

이하, 본 발명에 따른 비교팩트 데이터베이스 관리부(150)의 구성을 도 2를 참조하여 보다 구체적으로 설명한다.

도 2는 본 발명의 일 실시예에 따른 비교팩트 데이터베이스 관리부의 구성을 개략적으로 보여주는 블록도이다. 도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 비교팩트 데이터베이스 관리부(150)는 비교팩트 획득부(210), 컨텐츠 수집부(220), 및 비교팩트 신뢰값 산출부(230)를 포함한다.

비교팩트 획득부(210)는 제1 컨텐츠로부터 적어도 하나의 비교팩트를 획득한다. 비교팩트 획득부(210)가 제1 컨텐츠로부터 비교팩트를 획득하는 방법은 상술한 단위팩트 획득부(110)가 타겟 컨텐츠로부터 단위팩트를 획득하는 방법과 동일하므로 구체적인 설명은 생략하기로 한다.

컨텐츠 수집부(220)는 온라인 상에 존재하는 다양한 컨텐츠들 중에서 비교팩트 획득부(310)에 의해 획득된 비교팩트들이 포함되어 있는 제2 컨텐츠들을 수집한다. 컨텐츠 수집부(220)는 수집된 제2 컨텐츠들을 컨텐츠 데이터베이스(222)에 저장할 수 있다.

비교팩트 신뢰값 산출부(220)는 컨텐츠 수집부(220)에 의해 수집된 제2 컨텐츠들에 대한 컨텐츠 정보, 제2 컨텐츠를 배포한 언론사 정보, 및 제2 컨텐츠를 작성한 작성자의 신뢰도 지수 중 적어도 하나를 기초로 제2 컨텐츠의 신뢰값을 산출하고, 각 비교팩트를 포함하고 있는 제2 컨텐츠에 대해 산출된 신뢰값을 해당 비교팩트의 신뢰값으로 결정할 수 있다. 일 실시예에 있어서, 비교팩트 신뢰값 산출부(220)는 인공지능(AI) 모듈 및 빅데이터 분석모듈을 포함함으로써, 인공지능 모듈 및/또는 빅데이터 분석모듈을 이용하여 제2 컨텐츠의 신뢰값을 산출할 수 있다.

일 실시예에 있어서, 비교팩트 신뢰값 산출에 이용되는 컨텐츠 정보는, 제2 컨텐츠들의 조회기간 밀집도, 제2 컨텐츠들의 링크패턴, 제2컨텐츠들에 대한 답변(Reply)시간 밀집도, 및 제2 컨텐츠들에 대한 답변에 포함된 거짓단어의 빈도수 중 적어도 하나를 포함할 수 있다. 또한, 제2 컨텐츠들을 배포한 언론사의 정보는 제2 컨텐츠를 배포한 언론사의 영향력 지수, 제2 컨텐츠를 배포한 언론사의 신뢰도 지수, 및 제2 컨텐츠를 배포한 언론사의 열독률 정보 중 적어도 하나를 포함할 수 있다.

예컨대, 비교팩트 신뢰값 산출부(220)가 제2 컨텐츠들의 조회기간 밀집도를 이용하여 비교팩트들의 신뢰값을 산출하는 경우, 도 3a 내지 도 3e에 도시된 바와 같이 제2 컨텐츠의 조회기간이 불규칙적이고 긴 시간 동안 조회되면 제2 컨텐츠가 거짓 컨텐츠인 것으로 판단하여 제2 컨텐츠에 낮은 신뢰값을 부여할 수 있다.

반대로, 도 4a 내지 도 4e에 도시된 바와 같이 제2 컨텐츠의 조회기간이 특정 시간대에 집중되어 있으면 제2 컨텐츠는 진실인 것으로 판단하여 제2 컨텐츠에 높은 신뢰값을 부여할 수 있다. 이러한 경우, 비교팩트 신뢰값 산출부(220)는 제2 컨텐츠의 조회기간이 집중된 폭이 좁을수록 해당 제2 컨텐츠에 부여되는 신뢰값을 증가시킬 수 있다.

다른 예로, 비교팩트 신뢰값 산출부(220)가 제2 컨텐츠들의 링크패턴을 이용하여 비교팩트들의 신뢰값을 산출하는 경우, 도 5에 도시된 바와 같이 제2 컨텐츠의 링크개수가 많고 제한된 사람들 사이에서만 링크되고 있으면 제2 컨텐츠는 거짓 컨텐츠인 것으로 판단하여 제2 컨텐츠에 낮은 신뢰값을 부여할 수 있다.

이에 반해, 도 6에 도시된 바와 같이 제2 컨텐츠의 링크개수가 많고 다양한 사람들을 통해 링크되고 있는 것으로 판단되면 제2 컨텐츠는 진실인 것으로 판단하여 제2 컨텐츠에 높은 신뢰값을 부여할 수 있다. 이러한 경우, 비교팩트 신뢰값 산출부(220)는 제2 컨텐츠의 링크개수 또는 제2 컨텐츠를 링크하고 있는 사람들의 수가 증가할수록 제2 컨텐츠에 부여되는 신뢰값을 증가시킬 수 있다.

한편, 상술한 바와 같이, 본 발명에 따른 팩트체킹 시스템(100)은 노출순위 결정부(160)를 더 포함할 수 있다.

노출순위 결정부(160)는 타겟 컨텐츠 별로 산출된 신뢰값을 기초로 화면상에서 타겟 컨텐츠가 배치될 노출순위를 결정한다.

일 실시예에 있어서, 노출순위 결정부(160)는 신뢰값이 높은 타겟 컨텐츠 일수록 화면의 상단에 배치되도록 낮은 노출순위를 할당하고, 신뢰값이 낮은 타겟 컨텐츠 일수록 화면의 하단에 배치되도록 높은 노출순위를 할당할 수 있다.

노출순위 결정부(160)는 각 컨텐츠 별로 결정된 노출순위에 따라 각 컨텐츠를 화면상에 디스플레이 할 수 있다. 구체적으로, 노출순위 결정부(160)는, 화면의 상단에는 노출순위가 낮은 타겟 컨텐츠, 즉 신뢰도가 높은 타겟 컨텐츠를 디스플레이 하고, 화면의 하단에는 노출순위가 높은 타겟 컨텐츠, 즉 신뢰도가 낮은 타겟 컨텐츠를 디스플레이 할 수 있다.

상술한 실시예에 있어서는 노출순위 결정부(160)가 각 타겟 컨텐츠를 화면상에 직접 디스플레이 하는 것으로 설명하였다. 하지만, 변형된 실시예에 있어서 노출순위 결정부(160)는 타겟 컨텐츠를 화면상에 직접 디스플레이 하지 않고, 각 컨텐츠를 디스플레이할 수 있는 서버(미도시)로 각 컨텐츠 별 노출순위를 제공할 수도 있다.

이하, 본 발명에 따른 팩트체킹 방법에 대해 설명한다. 도 7은 본 발명의 일 실시예에 따른 팩트체킹 방법을 보여주는 플로우차트이다. 도 7에 도시된 팩트체킹 방법은 도 1에 도시된 바와 같은 구성을 갖는 팩트체킹 시스템에 의해 수행될 수 있다.

먼저, 팩트체킹 시스템은 팩트체크 대상이 되는 타겟 컨텐츠로부터 적어도 하나의 단위팩트를 획득한다 (S500).

일 실시예에 있어서, 팩트체킹 시스템은 타겟 컨텐츠에 포함된 복수개의 문장들 중 적어도 하나를 단위팩트로 추출할 수 있다. 이러한 실시예에 따르는 경우, 팩트체킹 시스템은 타겟 컨텐츠를 복수개의 문장들로 파싱한 이후 용어사전 데이터베이스에 저장되어 있는 용어들 또는 문장들을 참조하여, 파싱된 문장들로부터 팩트체크 대상이 되지 않는 문장들을 제거함으로써 적어도 하나의 단위팩트를 획득할 수 있다. 이때, 용어사전 데이터베이스에는 팩트체크 대상이 되지 않는 문장에 사용되는 용어들 또는 문장들의 목록이 저장될 수 있다.

예컨대, "~일 수 있다"등과 같이 가능형을 나타내는 서술어는 팩트체크 대상이 되지 않는 문장에 사용되는 용어로서 용어사전 데이터베이스에 기록되어 있을 수 있다. 이러한 예에 따르는 경우, 팩트체킹 시스템은 파싱된 문장들 중 "~일 수 있다"와 같은 가능형을 나타내는 서술어를 포함하고 있는 문장들은 팩트체크 대상이 되지 않는 문장으로 판단할 수 있다.

다른 실시예에 있어서, 팩트체킹 시스템은 타겟 컨텐츠를 구성하는 각 문장 단위로 각 문장들에 포함된 하나 이상의 자연어를 추출하고, 추출된 자연어를 각 문장 별로 재조합함으로써 단위팩트를 획득할 수 있다. 이때, 팩트체크 대상이 되는 자연어와 해당 자연어의 의미는 자연서 사전 데이터베이스에는 서로 매칭되어 저장될 수 있다. 이러한 실시예에 따르는 경우 팩트체킹 시스템은 특정 문장으로부터 자연어 사전 데이터 베이스에 기록되어 있는 단어들을 추출하고, 추출된 단어들을 재조합함으로써 단위팩트를 획득할 수 있다.

이후, 팩트체킹 시스템은 비교팩트 데이터베이스에 저장되어 있는 기 검증된 비교팩트들 중 S500에서 획득된 단위팩트와 상관관계가 가장 높은 비교팩트를 선택한다(S510). 여기서, 비교팩트는 그 진위여부가 미리 검증되어 있는 팩트들을 의미한다.

일 실시예에 있어서, 팩트체킹 시스템은 비교팩트 데이터베이스에 저장되어 있는 비교팩트들 중 단위팩트에 포함된 단어들의 출현 빈도수가 가장 높은 비교팩트를 해당 단위팩트와 상관관계가 가장 높은 비교팩트로 선택할 수 있다. 다른 실시예에 있어서, 팩트체킹 시스템은 비교팩트 데이터베이스에 저장되어 있는 비교팩트들 중 각 비교팩트가 포함된 컨텐츠를 게재하고 있는 웹사이트의 유형이 타겟 콘텐츠가 게재된 웹사이트의 유형과 동일한 비교팩트를 해당 단위팩트와 상관관계가 가장 높은 비교팩트로 선택할 수 있다. 또 다른 실시예에 있어서, 팩트체킹 시스템은 단위팩트에 포함된 단어들의 출현 빈도수와 웹사이트 유형의 동일성을 모두 고려하여 해당 단위팩트와 상관관계가 가장 높은 비교팩트를 선택할 수도 있다.

이후, 팩트체킹 시스템은 비교팩트 데이터베이스로부터 S510에서 선택된 비교팩트의 신뢰값을 획득하고(S520), 획득된 비교팩트의 신뢰값을 해당 단위팩트의 신뢰값으로 결정한다(S530).

이후, 팩트체킹 시스템은 S530에서 결정된 각 단위팩트들의 신뢰값을 미리 정해진 연산방법으로 연산함으로써 각 단위팩트들이 포함된 타겟 컨텐츠의 신뢰값을 산출한다(S540). 일 실시예에 있어서, 팩트체킹 시스템은 각 단위팩트의 신뢰값을 합산함으로써 타겟 컨텐츠의 신뢰값을 산출할 수 있다. 다른 실시예에 있어서, 팩트체킹 시스템은 각 단위팩트들의 신뢰값에 확률밀도함수를 적용함으로써 타겟 컨텐츠의 신뢰값을 산출할 수도 있다.

한편, 도 7에 도시된 바와 같이 본 발명에 따른 팩트체킹 방법은 화면 상에서 타겟 컨텐츠가 배치될 노출순위를 결정하는 단계(S550) 및 결정된 노출순위에 따라 각 컨텐츠를 화면상에 디스플레이 하는 단계(S560)를 더 포함할 수 있다.

일 실시예에 있어서, 팩트체킹 시스템은 신뢰값이 높은 타겟 컨텐츠 일수록 화면의 상단에 배치되도록 낮은 노출순위를 할당하고, 신뢰값이 낮은 타겟 컨텐츠 일수록 화면의 하단에 배치되도록 높은 노출순위를 할당할 수 있다. 이러한 실시예에 따르는 경우, 팩트체킹 시스템은 화면의 상단에는 노출순위가 낮은 타겟 컨텐츠, 즉 신뢰도가 높은 타겟 컨텐츠를 디스플레이 하고, 화면의 하단에는 노출순위가 높은 타겟 컨텐츠, 즉 신뢰도가 낮은 타겟 컨텐츠를 디스플레이 할 수 있다.

상술한 실시예에 있어서는 팩트체킹 시스템이 각 타겟 컨텐츠를 화면상에 직접 디스플레이 하는 것으로 설명하였다. 하지만, 변형된 실시예에 있어서 팩트체킹 시스템은 타겟 컨텐츠를 화면상에 직접 디스플레이 하지 않고, 각 컨텐츠를 디스플레이할 수 있는 서버(미도시)로 각 컨텐츠 별 노출순위를 제공할 수도 있다.

이하, 도 8을 참조하여, 비교팩트를 획득하는 방법에 대해 구체적으로 설명한다. 도 8은 본 발명의 일 실시예에 따른 비교팩트 획득방법을 보여주는 플로우차트이다.

도 8에 도시된 바와 같이, 팩트체킹 시스템은 미리 정해진 주기마다 하나 이상의 제1 컨텐츠로부터 단위팩트의 진위여부 검증을 위한 적어도 하나의 비교팩트를 획득한다(S600). 팩트체킹 시스템이 제1 컨텐츠로부터 비교팩트를 획득하는 방법은 도 7에 기재된 바와 같이 팩트체킹 시스템이 타겟 컨텐츠로부터 단위팩트를 획득하는 방법과 동일하므로 구체적인 설명은 생략하기로 한다.

이후, 팩트체킹 시스템은 온라인상에 존재하는 다양한 컨텐츠들 중에서 S600에서 획득된 비교팩트들이 포함되어 있는 제2 컨텐츠를 수집한다(S610).

이후, 팩트체킹 시스템은 S610에서 수집된 제2 컨텐츠들에 대한 컨텐츠 정보, 제2 컨텐츠를 배포한 언론사 정보, 및 제2 컨텐츠를 작성한 작성자의 신뢰도 지수 중 적어도 하나를 기초로 제2 컨텐츠의 신뢰값을 산출한다(S620). 이때, 팩트체킹 시스템은 인공지능(AI) 모듈 및/또는 빅데이터 분석모듈을 이용하여 제2 컨텐츠로부터 제2 컨텐츠의 신뢰값을 산출할 수 있다.

예컨대, 팩트체크 시스템이 제2 컨텐츠들의 조회기간 밀집도를 이용하여 비교팩트들의 신뢰값을 산출하는 경우, 상술한 도 3a에 도시된 바와 같이 제2 컨텐츠의 조회기간이 불규칙적이고 긴 시간 동안 조회되면 제2 컨텐츠가 거짓 컨텐츠인 것으로 판단하여 제2 컨텐츠에 낮은 신뢰값을 부여할 수 있다

반대로, 도 3b에 도시된 바와 같이 제2 컨텐츠의 조회기간이 특정 시간대에 집중되어 있으면 팩트체크 시스템은 제2 컨텐츠는 진실인 것으로 판단하여 제2 컨텐츠에 높은 신뢰값을 부여할 수 있다. 이러한 경우, 팩트체크 시스템은 제2 컨텐츠의 조회기간이 집중된 폭이 좁을수록 해당 제2 컨텐츠에 부여되는 신뢰값을 증가시킬 수 있다.

다른 예로, 팩트체크 시스템이 제2 컨텐츠들의 링크패턴을 이용하여 비교팩트들의 신뢰값을 산출하는 경우, 상술한 도 4a에 도시된 바와 같이 제2 컨텐츠의 링크개수가 많고 제한된 사람들 사이에서만 링크되고 있으면 제2 컨텐츠는 거짓 컨텐츠인 것으로 판단하여 제2 컨텐츠에 낮은 신뢰값을 부여할 수 있다.

이에 반해, 도 4b에 도시된 바와 같이 제2 컨텐츠의 링크개수가 많고 다양한 사람들을 통해 링크되고 있는 것으로 판단되면 팩트체크 시스템은 제2 컨텐츠는 진실인 것으로 판단하여 제2 컨텐츠에 높은 신뢰값을 부여할 수 있다.

이러한 경우, 팩트체크 시스템은 제2 컨텐츠의 링크개수 또는 제2 컨텐츠를 링크하고 있는 사람들의 수가 증가할수록 제2 컨텐츠에 부여되는 신뢰값을 증가시킬 수 있다.

이후, 팩트체킹 시스템은 비교팩트를 포함하고 있는 제2 컨텐츠에 대해 산출된 신뢰값을 해당 비교팩트의 신뢰값으로 결정하고(S630), 비교팩트 및 해당 비교팩트의 신뢰값을 비교팩트 데이터베이스에 저장한다(S640).

본 발명이 속하는 기술분야의 당업자는 상술한 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다.

그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 팩트체킹 시스템 110: 단위팩트 획득부
120: 비교팩트 선택부 130: 컨텐츠 신뢰값 산출부
140: 비교팩트 데이터베이스 150: 비교팩트 데이터베이스 관리부
160: 노출순위 결정부 210: 비교팩트 획득부
220: 컨텐츠 수집부 230: 비교팩트 신뢰값 산출부

Claims

타겟 컨텐츠로부터 적어도 하나의 단위팩트(Fact)를 획득하는 단위팩트 획득부;
상기 단위팩트와 비교할 상관관계가 높은 비교팩트를 선택하는 비교팩트 선택부;
상기 선택된 비교팩트에 대해 산출된 신뢰값을 상기 단위팩트의 신뢰값으로 결정하고, 상기 타겟 컨텐츠에 포함된 각 단위팩트의 신뢰값을 이용하여 상기 타겟 컨텐츠의 신뢰값을 산출하는 컨텐츠 신뢰값 산출부; 및
상기 비교팩트를 포함하고 있는 하나 이상의 제2 컨텐츠에 대한 컨텐츠 정보, 상기 제2 컨텐츠를 배포한 언론사 정보, 및 상기 제2 컨텐츠를 작성한 작성자의 신뢰도 지수 중 적어도 하나를 이용하여 상기 비교팩트들의 신뢰값을 산출하는 비교팩트 신뢰값 산출부를 포함하고,
상기 비교팩트 신뢰값 산출부는, 상기 제2 컨텐츠의 조회기간이 집중된 폭이 좁을수록 상기 제2 컨텐츠에 포함된 비교팩트의 신뢰값을 증가시키거나, 상기 제2 컨텐츠의 링크개수와 링크한 사람들의 수가 증가할수록 상기 제2 컨텐츠에 포함된 비교팩트의 신뢰값을 증가시키는 것을 특징으로 하는 팩트체킹 시스템.
제1항에 있어서,
팩트체크 대상이 아닌 용어 또는 문장들이 저장된 용어사전 데이터베이스를 더 포함하고,
상기 단위팩트 획득부는 상기 타겟 컨텐츠를 파싱하여 복수개의 문장을 획득하고, 상기 용어사전 데이터베이스에 저장되어 있는 용어 또는 문장들을 참조하여, 상기 획득된 문장들로부터 팩트체크 대상이 아닌 문장들을 제거함으로써 상기 적어도 하나의 단위팩트를 획득하는 것을 특징으로 하는 팩트체킹 시스템.
제1항에 있어서,
팩트체크 대상인 자연어와 상기 자연어의 의미가 서로 매칭되어 저장되어 있는 자연어 사전 데이터베이스를 더 포함하고,
상기 단위팩트 획득부는 상기 타겟 컨텐츠를 구성하는 각 문장 단위로 각 문장으로부터 상기 자연어 사전 데이터베이스에 기록되어 있는 단어들을 추출하고, 추출된 단어들을 재조합함으로써 상기 적어도 하나의 단위팩트를 획득하는 것을 특징으로 하는 팩트체킹 시스템.
제1항에 있어서,
상기 비교팩트 선택부는 기 검증된 비교팩트들 중 상기 단위팩트에 포함된 단어들의 출현 빈도수가 가장 높은 비교팩트를 상기 단위팩트와 상관관계가 높은 비교팩트로 선택하거나, 상기 기 검증된 비교팩트들 중 각 비교팩트가 포함된 컨텐츠를 게재하고 있는 웹사이트의 유형이 타겟 컨텐츠가 게재된 웹사이트의 유형과 동일한 비교팩트를 상기 단위팩트와 상관관계가 높은 비교팩트로 선택하는 것을 특징으로 하는 팩트체킹 시스템.
제1항에 있어서,
복수개의 비교팩트들이 각 비교팩트 별로 산출된 신뢰값과 매칭되어 저장된 비교팩트 데이터베이스를 더 포함하는 것을 특징으로 하는 팩트체킹 시스템.
삭제
제1항에 있어서,
하나 이상의 제1 컨텐츠로부터 상기 단위팩트의 진위여부 검증을 위한 적어도 하나의 비교팩트를 획득하는 비교팩트 획득부; 및
온라인 상에 존재하는 컨텐츠들 중에서 상기 획득된 비교팩트를 포함하고 있는 상기 제2 컨텐츠를 수집하는 컨텐츠 수집부를 더 포함하는 것을 특징으로 하는 팩트체킹 시스템.
제1항에 있어서,
상기 제2 컨텐츠에 대한 컨텐츠 정보는, 상기 제2 컨텐츠의 조회기간 밀집도, 상기 제2 컨텐츠의 링크패턴, 상기 제2컨텐츠에 대한 답변(Reply)시간 밀집도, 및 상기 제2 컨텐츠에 대한 답변에 포함된 거짓단어의 빈도수 중 적어도 하나를 포함하는 것을 특징으로 하는 팩트체킹 시스템.
삭제
제1항에 있어서,
상기 제2 컨텐츠를 배포한 언론사 정보는, 상기 제2 컨텐츠를 배포한 언론사의 영향력 지수, 상기 제2 컨텐츠를 배포한 언론사의 신뢰도 지수, 및 상기 제2 컨텐츠를 배포한 언론사의 열독률 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 팩트체킹 시스템.
제1항에 있어서,
상기 컨텐츠 신뢰값 산출부는 상기 각 단위팩트의 신뢰값을 합산하거나 상기 각 단위팩트의 신뢰값에 확률밀도함수를 적용하여 상기 타겟 컨텐츠의 신뢰값을 산출하는 것을 특징으로 하는 팩트체킹 시스템.
제1항에 있어서,
상기 타겟 컨텐츠의 신뢰값을 기초로 화면상에서 상기 타겟 컨텐츠가 배치될 노출순위를 결정하는 노출순위 결정부를 더 포함하는 것을 특징으로 하는 팩트체킹 시스템.
단위팩트 획득부가 타겟 컨텐츠로부터 적어도 하나의 단위팩트를 획득하는 단계;
비교팩트 선택부가 상기 단위팩트와 비교할 상관관계가 높은 비교팩트를 선택하는 단계;
컨텐츠 신뢰값 산출부가 상기 선택된 비교팩트의 신뢰값을 상기 단위팩트의 신뢰값으로 결정하고, 상기 타겟 컨텐츠에 포함된 각 단위팩트의 신뢰값을 이용하여 상기 타겟 컨텐츠의 신뢰값을 산출하는 단계; 및
비교팩트 신뢰값 산출부가 상기 비교팩트를 포함하고 있는 하나 이상의 제2 컨텐츠에 대한 컨텐츠 정보, 상기 제2 컨텐츠를 배포한 언론사 정보, 및 상기 제2 컨텐츠를 작성한 작성자의 신뢰도 지수 중 적어도 하나를 이용하여 상기 비교팩트의 신뢰값을 산출하는 단계를 포함하고,
상기 비교팩트의 신뢰값을 산출하는 단계에서, 상기 제2 컨텐츠의 조회기간이 집중된 폭이 좁을수록 상기 제2 컨텐츠에 포함된 비교팩트의 신뢰값을 증가시키거나, 상기 제2 컨텐츠의 링크개수와 링크한 사람들의 수가 증가할수록 상기 제2 컨텐츠에 포함된 비교팩트의 신뢰값을 증가시키는 것을 특징으로 하는 팩트체킹 방법.
제13항에 있어서,
상기 비교팩트를 선택하는 단계에서, 상기 비교팩트 선택부가 상기 비교팩트들 중 상기 단위팩트에 포함된 단어들의 출현 빈도수가 가장 높은 비교팩트를 상기 단위팩트와 상관관계가 높은 비교팩트로 선택하거나, 상기 비교팩트들 중 각 비교팩트가 포함된 컨텐츠를 게재하고 있는 웹사이트의 유형이 타겟 컨텐츠가 게재된 웹사이트의 유형과 동일한 비교팩트를 상기 단위팩트와 상관관계가 높은 비교팩트로 선택하는 것을 특징으로 하는 팩트체킹 방법.
삭제
제13항에 있어서,
상기 획득된 비교팩트의 신뢰값을 산출하는 단계 이전에,
비교팩트 획득부가 상기 하나 이상의 제1 컨텐츠로부터 상기 단위팩트의 진위여부 검증을 위한 적어도 하나의 비교팩트를 획득하는 단계; 및
컨텐츠 수집부가 온라인 상에 존재하는 컨텐츠들 중 상기 획득된 비교팩트를 포함하고 있는 상기 제2 컨텐츠를 수집하는 단계를 더 포함하는 것을 특징으로 하는 팩트체킹 방법.
제13항에 있어서,
상기 제2 컨텐츠에 대한 정보는, 상기 제2 컨텐츠의 링크패턴, 상기 제2컨텐츠에 대한 답변(Reply)시간 밀집도, 및 상기 제2 컨텐츠에 대한 답변에 포함된 거짓단어의 빈도수 중 적어도 하나를 포함하는 것을 특징으로 하는 팩트체킹 방법.
삭제
제13항에 있어서,
상기 타겟 컨텐츠의 신뢰값을 산출하는 단계에서, 상기 각 단위팩트의 신뢰값을 합산하거나 상기 각 단위팩트의 신뢰값에 확률밀도함수를 적용하여 상기 타겟 컨텐츠의 신뢰값을 산출하는 것을 특징으로 하는 팩트체킹 방법.
제13항에 있어서,
노출순위 결정부가 상기 타겟 컨텐츠의 신뢰값을 기초로 화면상에서 상기 타겟 컨텐츠가 배치될 노출순위를 결정하는 단계를 더 포함하는 것을 특징으로 하는 팩트체킹 방법.