KR102053635B1 - 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법, 이를 기록한 기록매체 - Google Patents

불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법, 이를 기록한 기록매체 Download PDF

Info

Publication number
KR102053635B1
KR102053635B1 KR1020180029042A KR20180029042A KR102053635B1 KR 102053635 B1 KR102053635 B1 KR 102053635B1 KR 1020180029042 A KR1020180029042 A KR 1020180029042A KR 20180029042 A KR20180029042 A KR 20180029042A KR 102053635 B1 KR102053635 B1 KR 102053635B1
Authority
KR
South Korea
Prior art keywords
news
distrust
index vector
sns
fake
Prior art date
Application number
KR1020180029042A
Other languages
English (en)
Other versions
KR20190107832A (ko
Inventor
김남규
현윤진
고은정
최호창
Original Assignee
국민대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 국민대학교산학협력단 filed Critical 국민대학교산학협력단
Priority to KR1020180029042A priority Critical patent/KR102053635B1/ko
Publication of KR20190107832A publication Critical patent/KR20190107832A/ko
Application granted granted Critical
Publication of KR102053635B1 publication Critical patent/KR102053635B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Abstract

본 발명은 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법에 관한 것으로, 적어도 하나의 뉴스를 분석하여 뉴스 주제를 결정하고 상기 뉴스 주제와 연관된 복수의 SNS 메시지들로 구성된 SNS 메시지 집합을 생성하는 SNS 메시지 집합 생성부, 상기 SNS 메시지 집합으로부터 산출된 SNS 메시지의 불신지수 벡터를 기초로 상기 적어도 하나의 뉴스에 대한 불신지수 벡터를 산출하는 불신지수 벡터 산출부 및 상기 적어도 하나의 뉴스에 대한 토픽 모델링(Topic Modeling)을 수행하여 추출한 뉴스 주제 벡터 및 상기 불신지수 벡터를 기초로 가짜뉴스를 탐지하는 가짜뉴스 탐지부를 포함한다. 따라서, 본 발명은 뉴스에 대한 불신지수 벡터를 이용하여 가짜 뉴스를 탐지할 수 있다.

Description

불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법, 이를 기록한 기록매체{DISTRUST INDEX VECTOR BASED FAKE NEWS DETECTION APPARATUS AND METHOD, STORAGE MEDIA STORING THE SAME}
본 발명은 불신지수 벡터 기반의 가짜뉴스 탐지 기술에 관한 것으로, 보다 상세하게는 뉴스에 대한 불신지수 벡터를 이용하여 가짜 뉴스를 탐지할 수 있는 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법에 관한 것이다.
가짜 뉴스 탐지 기술은 전문가 기반 탐지, 집단지성 기반 탐지 등 비기술적 접근뿐 아니라, 인공지능 기반 탐지, 시맨틱 기반 탐지 등 기술적 접근을 통해 활발하게 이루어지고 있다. 인문사회 분야에서 주도해 온 비기술적 접근은 검증 과정과 결과가 명확하고 공신력이 있다는 장점이 있으나, 소수 전문가의 지식에 전적으로 의존함으로써 정보에 대한 전수조사가 어렵고 상대적으로 많은 분석 시간이 요구된다는 한계를 갖고 있다. 컴퓨터과학 분야에서 주도해 온 기술적 접근은 비기술적 접근의 한계를 보완할 수 있지만, 방대한 양의 학습 데이터가 요구되거나 또는 지식 데이터 축적을 위해 상당한 비용과 노력이 요구된다는 단점을 갖고 있다.
한국등록특허 제10-1091185(2011.12.01)호는 뉴스 데이터 분석 장치 및 방법에 관한 것으로, 뉴스 비디오를 복수의 뉴스 기사 클립으로 분할하고, 뉴스 기사 클립들을 카테고리별로 군집화하고, 동일 카테고리에 포함된 뉴스 기사 클립들을 유사도에 기초하여 복수의 계층의 뉴스 기사 군집들로 군집화하고, 기설정된 군집 분석 처리 기준에 따라 뉴스 기사 군집들에 대해 기간별 성향 분석, 성장도 분석 및 패스파인더 네트워크 분석 중 적어도 하나에 대한 지적 구조 분석을 수행한다.
한국등록특허 제10-1091185(2011.12.01)호
본 발명의 일 실시예는 뉴스에 대한 불신지수 벡터를 이용하여 가짜 뉴스를 탐지할 수 있는 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법을 제공하고자 한다.
본 발명의 일 실시예는 SNS 메시지의 불신지수 벡터를 기초로 특정 뉴스에 대한 불신지수 벡터를 산출할 수 있는 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법을 제공하고자 한다.
본 발명의 일 실시예는 토픽 모델링과 상호 훈련을 통해 가짜 뉴스 탐지의 정확성을 높일 수 있는 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법을 제공하고자 한다.
실시예들 중에서, 불신지수 벡터 기반의 가짜뉴스 탐지 장치는 적어도 하나의 뉴스를 분석하여 뉴스 주제를 결정하고 상기 뉴스 주제와 연관된 복수의 SNS 메시지들로 구성된 SNS 메시지 집합을 생성하는 SNS 메시지 집합 생성부, 상기 SNS 메시지 집합으로부터 산출된 SNS 메시지의 불신지수 벡터를 기초로 상기 적어도 하나의 뉴스에 대한 불신지수 벡터를 산출하는 불신지수 벡터 산출부 및 상기 적어도 하나의 뉴스에 대한 토픽 모델링(Topic Modeling)을 수행하여 추출한 뉴스 주제 벡터 및 상기 불신지수 벡터를 기초로 가짜뉴스를 탐지하는 가짜뉴스 탐지부를 포함한다.
상기 SNS 메시지 집합 생성부는 상기 적어도 하나의 뉴스에 대한 텍스트 파싱(Text Parsing)을 수행하여 추출된 복수의 용어들에 대한 TF-IDF(Term Frequency-Inverse Document Frequency)를 기초로 적어도 하나의 뉴스 속성을 포함하는 뉴스 속성 집합을 생성함으로써 상기 뉴스 주제를 결정할 수 있다.
상기 SNS 메시지 집합 생성부는 상기 뉴스 속성 집합 및 SNS 메시지 간의 유사도를 기초로 상기 복수의 SNS 메시지들을 결정할 수 있다.
상기 불신지수 벡터 산출부는 불신용어 사전을 이용하여 상기 SNS 메시지 집합에 속한 상기 복수의 SNS 메시지들에 대한 토픽 모델링을 수행함으로써 상기 SNS 메시지의 불신지수 벡터를 산출할 수 있다.
상기 불신지수 벡터 산출부는 상기 SNS 메시지 집합에 대해 상기 SNS 메시지의 불신지수 벡터를 차원별로 평균하여 상기 적어도 하나의 뉴스에 대한 불신지수 벡터를 산출할 수 있다.
상기 가짜뉴스 탐지부는 상기 적어도 하나의 뉴스에 관한 상기 뉴스 주제 및 상기 불신지수 벡터를 기초로 상호 훈련(Co-Training)한 결과로서 가짜뉴스 탐지 모형을 생성할 수 있다.
실시예들 중에서, 불신지수 벡터 기반의 가짜뉴스 탐지 방법은 (a) 적어도 하나의 뉴스를 분석하여 뉴스 주제를 결정하고 상기 뉴스 주제와 연관된 복수의 SNS 메시지들로 구성된 SNS 메시지 집합을 생성하는 단계, (b) 상기 SNS 메시지 집합으로부터 산출된 SNS 메시지의 불신지수 벡터를 기초로 상기 적어도 하나의 뉴스에 대한 불신지수 벡터를 산출하는 단계 및 (c) 상기 적어도 하나의 뉴스에 대한 토픽 모델링(Topic Modeling)을 수행하여 추출한 뉴스 주제 벡터 및 상기 불신지수 벡터를 기초로 가짜뉴스를 탐지하는 단계를 포함한다.
상기 (a) 단계는 상기 적어도 하나의 뉴스에 대한 텍스트 파싱(Text Parsing)을 수행하여 추출된 복수의 용어들에 대한 TF-IDF(Term Frequency-Inverse Document Frequency)를 기초로 적어도 하나의 뉴스 속성을 포함하는 뉴스 속성 집합을 생성함으로써 상기 뉴스 주제를 결정하는 단계일 수 있다.
상기 (a) 단계는 상기 뉴스 속성 집합 및 SNS 메시지 간의 유사도를 기초로 상기 복수의 SNS 메시지들을 결정하는 단계일 수 있다.
상기 (b) 단계는 불신용어 사전을 이용하여 상기 SNS 메시지 집합에 속한 상기 복수의 SNS 메시지들에 대한 토픽 모델링을 수행함으로써 상기 SNS 메시지의 불신지수 벡터를 산출하는 단계일 수 있다.
상기 (b) 단계는 상기 SNS 메시지 집합에 대해 상기 SNS 메시지의 불신지수 벡터를 차원별로 평균하여 상기 적어도 하나의 뉴스에 대한 불신지수 벡터를 산출하는 단계일 수 있다.
상기 (c) 단계는 상기 적어도 하나의 뉴스에 관한 상기 뉴스 주제 및 상기 불신지수 벡터를 기초로 상호 훈련(Co-Training)한 결과로서 가짜뉴스 탐지 모형을 생성하는 단계일 수 있다.
실시예들 중에서, 컴퓨터 수행 가능한 기록매체는 적어도 하나의 뉴스를 분석하여 뉴스 주제를 결정하고 상기 뉴스 주제와 연관된 복수의 SNS 메시지들로 구성된 SNS 메시지 집합을 생성하는 과정, 상기 SNS 메시지 집합으로부터 산출된 SNS 메시지의 불신지수 벡터를 기초로 상기 적어도 하나의 뉴스에 대한 불신지수 벡터를 산출하는 과정 및 상기 적어도 하나의 뉴스에 대한 토픽 모델링(Topic Modeling)을 수행하여 추출한 뉴스 주제 벡터 및 상기 불신지수 벡터를 기초로 가짜뉴스를 탐지하는 과정을 포함한다.
개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
본 발명의 일 실시예에 따른 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법은 SNS 메시지의 불신지수 벡터를 기초로 특정 뉴스에 대한 불신지수 벡터를 산출할 수 있다.
본 발명의 일 실시예에 따른 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법은 토픽 모델링과 상호 훈련을 통해 가짜 뉴스 탐지의 정확성을 높일 수 있다.
도 1은 본 발명의 일 실시예에 따른 불신지수 벡터 기반의 가짜뉴스 탐지 시스템을 설명하는 도면이다.
도 2는 도 1에 있는 가짜뉴스 탐지 장치를 설명하는 블록도이다.
도 3은 도 1에 있는 가짜뉴스 탐지 장치에서 수행되는 가짜뉴스 탐지 과정을 설명하는 순서도이다.
도 4는 본 발명의 일 실시예에 따른 불신지수 벡터 기반의 가짜뉴스 탐지 시스템의 전체적인 개요를 나타내는 도면이다.
도 5는 도 2에 있는 불신지수 벡터 산출부에서 산출한 트윗별 불신지수 벡터를 설명하는 예시도이다.
도 6은 도 2에 있는 가짜뉴스 탐지부에서 수행되는 상호 훈련 과정을 설명하는 예시도이다.
본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.
"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.
토픽 모델링(Topic Modeling)은 문서 집합의 추상적인 '주제'를 발견하기 위한 통계적 모델 중 하나로, 텍스트 본문의 숨겨진 의미구조를 발견하기 위해 사용되는 텍스트 마이닝 기법 중 하나에 해당할 수 있다. 토픽 모델링은 텍스트 분석 연구에서 문서의 구조화 및 주요 토픽 추출을 목적으로 활용될 수 있다.
토픽 모델링은 일반적으로 단어 꾸러미(Bag of Words) 개념을 사용하며, 이는 각 문서를 해당 문서에서 등장하는 용어들의 집합으로 인식한다. 각 문서는 많은 수의 단어를 포함하기 때문에 차원 축소 과정을 통해 적절한 수의 단어 군집으로 표현될 수 있으며, 이 과정에서 도출된 차원의 수가 토픽의 수에 해당할 수 있다.
이에 따라 각 문서는 개별 토픽에 대한 대응도인 문서 가중치(Document Topic Weight)를 갖게 되며, 일반적으로 문서 가중치의 “평균 + 1σ””을 통해 산출되는 문서 임계값(Document Cutoff)을 이용하여 각 문서의 토픽 포함 여부를 판단할 수 있다. 즉, 문서 임계값 이상의 문서 가중치를 갖는 문서가 해당 토픽을 포함하고 있는 것으로 해석될 수 있다. 또한 이 과정을 통해 각 문서와 토픽의 문서 가중치를 2차원 행렬로 나타낸 것을 문서/토픽 행렬(Document/Topic Matrix)이라 한다.
도 1은 본 발명의 일 실시예에 따른 불신지수 벡터 기반의 가짜뉴스 탐지 시스템을 설명하는 도면이다.
도 1을 참조하면, 불신지수 벡터 기반의 가짜뉴스 탐지 시스템(100)은 사용자 단말(110), 가짜뉴스 탐지 장치(130) 및 데이터베이스를 포함할 수 있다.
사용자 단말(110)은 가짜뉴스 탐지를 요청하여 탐지 결과를 확인할 수 있는 컴퓨팅 장치에 해당할 수 있고, 스마트폰, 노트북 또는 컴퓨터로 구현될 수 있으며, 반드시 이에 한정되지 않고, 태블릿 PC 등 다양한 디바이스로도 구현될 수 있다. 사용자 단말(110)은 가짜뉴스 탐지 장치(130)와 네트워크를 통해 연결될 수 있고, 복수의 사용자 단말(110)은 가짜뉴스 탐지 장치(130)와 동시에 연결될 수 있다.
일 실시예에서, 사용자 단말(110)은 특정 뉴스에 접근함과 동시에 해당 뉴스의 가짜 뉴스 여부를 실시간으로 확인할 수 있다. 사용자 단말(110)은 특정 뉴스에 접근을 시도하면서 가짜뉴스 탐지 장치(130)에 해당 뉴스 관련 정보를 송신할 수 있고, 가짜뉴스 탐지 장치(130)로부터 수신 받은 가짜뉴스 탐지 결과를 실시간으로 수신하여 확인할 수 있다.
가짜뉴스 탐지 장치(130)는 사용자 단말(110)로부터 수신한 가짜뉴스 탐지 요청에 따라 특정 뉴스의 가짜뉴스 여부를 확인하여 해당 결과를 사용자 단말(110)에 제공할 수 있는 컴퓨터 또는 프로그램에 해당하는 서버로 구현될 수 있다. 가짜뉴스 탐지 장치(130)는 사용자 단말(110)과 블루투스, WiFi 등을 통해 무선으로 연결될 수 있고, 네트워크를 통해 사용자 단말(110)과 데이터를 주고 받을 수 있다.
일 실시예에서, 가짜뉴스 탐지 장치(130)는 사용자 단말(110)로부터 가짜뉴스 탐지 요청을 수신한 경우 데이터베이스(150)에 저장된 가짜뉴스 탐지 모형을 이용하여 해당 뉴스의 가짜뉴스 여부를 식별할 수 있다. 가짜뉴스 탐지 장치(130)는 해당 뉴스의 가짜뉴스 탐지 결과를 반영하여 가짜뉴스 탐지 모형을 갱신할 수 있다.
유사특허 검색 장치(130)는 데이터베이스(150)를 포함하여 구현될 수 있고, 데이터베이스(150)와 독립적으로 구현될 수 있다. 데이터베이스(150)와 독립적으로 구현된 경우 유사특허 검색 장치(130)는 데이터베이스(150)와 유선 또는 무선으로 연결되어 데이터를 주고 받을 수 있다.
데이터베이스(150)는 가짜뉴스 탐지를 위해 필요한 다양한 정보들을 저장할 수 있는 저장장치이다. 데이터베이스(150)는 사용자 단말(110)로부터 수신한 뉴스 관련 정보들을 저장할 수 있고, 가짜뉴스 탐지 장치(130)가 특정 뉴스로부터 추출한 뉴스 주제 및 관련 SNS 정보들을 저장할 수 있다. 데이터베이스(150)는, 반드시 이에 한정되지 않고, 뉴스로부터 뉴스 주제를 결정하고 트윗 등 관련 SNS 메시지를 수집하여 불신지수 벡터를 산출하며 이를 기초로 상호 훈련하는 과정에서 다양한 형태로 수집 또는 가공된 정보들을 저장할 수 있다.
데이터베이스(150)는 특정 범위에 속하는 정보들을 저장하는 적어도 하나의 독립된 서브-데이터베이스들로 구성될 수 있고, 적어도 하나의 독립된 서브-데이터베이스들이 하나로 통합된 통합 데이터베이스로 구성될 수 있다. 적어도 하나의 독립된 서브-데이터베이스들로 구성되는 경우에는 각각의 서브-데이터베이스들은 블루투스, WiFi 등을 통해 무선으로 연결될 수 있고, 네트워크를 통해 상호 간의 데이터를 주고 받을 수 있다. 데이터베이스(150)는 통합 데이터베이스로 구성되는 경우 각각의 서브-데이터베이스들을 하나로 통합하고 상호 간의 데이터 교환 및 제어 흐름을 관리하는 제어부를 포함할 수 있다.
도 2는 도 1에 있는 가짜뉴스 탐지 장치를 설명하는 블록도이다.
도 2를 참조하면, 가짜뉴스 탐지 장치(130)는 SNS 메시지 집합 생성부(210), 불신지수 벡터 산출부(230), 가짜뉴스 탐지부(250) 및 제어부(270)를 포함할 수 있다.
SNS 메시지 집합 생성부(210)는 적어도 하나의 뉴스를 분석하여 뉴스 주제를 결정하고 뉴스 주제와 연관된 복수의 SNS 메시지들로 구성된 SNS 메시지 집합을 생성할 수 있다. SNS 메시지 집합 생성부(210)는 상호 훈련을 통한 가짜뉴스 탐지 모형을 생성하기 위하여 적어도 하나의 뉴스를 분석할 수 있고, 가짜뉴스 탐지 요청에 따라 사용자 단말(110)로부터 수신한 특정 뉴스를 분석할 수 있다. SNS 메시지 집합 생성부(210)는 분석된 뉴스 주제를 기초로 해당 뉴스와 연관된 SNS 메시지들을 네트워크를 통해 수집할 수 있고, 수집된 복수의 SNS 메시지들로 구성된 SNS 메시지 집합을 생성할 수 있다.
일 실시예에서, SNS 메시지 집합 생성부(210)는 적어도 하나의 뉴스에 대한 텍스트 파싱(Text Parsing)을 수행하여 추출된 복수의 용어들에 대한 TF-IDF(Term Frequency-Inverse Document Frequency)를 기초로 적어도 하나의 뉴스 속성을 포함하는 뉴스 속성 집합을 생성함으로써 뉴스 주제를 결정할 수 있다. 보다 구체적으로, SNS 메시지 집합 생성부(210)는 적어도 하나의 뉴스에 대해 텍스트 파싱을 수행한 후, 각 뉴스의 용어에 대한 TF-IDF를 산출할 수 있다.
SNS 메시지 집합 생성부(210)는 각 뉴스별로 정규화된 TF-IDF를 기준으로 적어도 하나의 뉴스 속성을 추출할 수 있고, 적어도 하나의 뉴스 속성으로 구성된 뉴스 속성 집합을 생성할 수 있다. 여기에서, TF-IDF는 하나의 용어가 특정 문서에서 가지는 출현 빈도와 전체 문서에서 가지는 출현 빈도의 역 비율을 곱하여 산출될 수 있다. SNS 메시지 집합 생성부(210)는 각 뉴스의 용어들에 대한 정규화된 TF-IDF를 기초로 특정 임계값을 넘는 용어들을 해당 뉴스의 뉴스 속성으로 선정함으로써 뉴스 속성 집합을 생성할 수 있다.
뉴스 속성은 텍스트 파싱 및 TF-IDF를 활용하여 추출되는 핵심 용어에 해당할 수 있고, 뉴스 속성 집합은 핵심 용어들로 구성된 집합에 해당할 수 있다. 뉴스 주제는 핵심 용어에 해당하는 뉴스 속성으로 구성된 뉴스 속성 집합에 대응될 수 있다. 다른 예에서, SNS 메시지 집합 생성부(210)는 뉴스 속성 집합에 포함된 뉴스 속성들을 포함하는 상위 개념의 용어를 선택함으로써 해당 집합에 대한 뉴스 주제를 결정할 수 있다.
일 실시예에서, SNS 메시지 집합 생성부(210)는 뉴스 속성 집합 및 SNS 메시지 간의 유사도를 기초로 복수의 SNS 메시지들을 결정할 수 있다. SNS 메시지 집합 생성부(210)는 뉴스에 대한 핵심 용어 집합에 해당하는 뉴스 속성 집합 및 SNS 메시지 간의 코사인 유사도 분석을 수행하여 각 뉴스에 대응하는 SNS 메시지를 식별할 수 있다. 예를 들어, SNS 메시지 집합 생성부(210)는 핵심 용어 및 트윗(Tweet) 간의 코사인 유사도를 산출할 수 있고, 해당 코사인 유사도 값이 특정 임계 값 이상인 트윗들을 뉴스에 대응하는 트윗으로 결정할 수 있다.
불신지수 벡터 산출부(230)는 SNS 메시지 집합으로부터 산출된 SNS 메시지의 불신지수 벡터를 기초로 적어도 하나의 뉴스에 대한 불신지수 벡터를 산출할 수 있다. 불신지수 벡터 산출부(230)는 SNS 메시지 집합 생성부(210)에 의해 생성된 특정 뉴스와 연관된 SNS 메시지들을 분석하여 메시지별 불신지수 벡터를 산출할 수 있고, 메시지별 불신지수 벡터를 이용하여 뉴스별 불신지수 벡터를 산출할 수 있다.
여기에서, 불신지수 벡터는 특정 텍스트에 존재하는 불신 관련 용어를 기초로 토픽 모델링을 통해 산출되는 해당 텍스트에 관한 벡터에 해당할 수 있다. 예를 들어, 특정 텍스트에 불신 관련 용어가 많이 포함되어 있을수록 해당 텍스트의 불신지수 벡터는 높은 값을 가질 수 있다. 또한, 불신지수 벡터는 복수의 차원으로 구성될 수 있고, 차원별로 차원 벡터를 가질 수 있다. 가짜뉴스 탐지 장치(130)는 특정 뉴스에 대한 불신지수 벡터를 산출할 수 있고, 불신지수 벡터를 기초로 해당 뉴스의 진위여부를 결정할 수 있다.
일 실시예에서, 불신지수 벡터 산출부(230)는 불신용어 사전을 이용하여 SNS 메시지 집합에 속한 복수의 SNS 메시지들에 대한 토픽 모델링을 수행함으로써 SNS 메시지의 불신지수 벡터를 산출할 수 있다. 여기에서, 불신용어 사전은 '왜곡', '의혹', '의심', '거짓' 및 '악의' 등 불신과 관련된 용어들을 선별하여 생성한 불신 시드 용어(Seed Terms) 집합에 해당할 수 있고, 불신지수 벡터 산출을 위해 활용될 수 있다.
도 5는 도 2에 있는 불신지수 벡터 산출부에서 산출한 트윗별 불신지수 벡터를 설명하는 예시도이다. 도 5를 참조하면, 불신지수 벡터 산출부(230)는 확장된 불신용어 사전을 Start List로 적용하여 트윗에 대한 토픽 모델링을 수행함으로써 트윗별 불신지수 벡터(500)를 산출할 수 있다. 불신지수 벡터 산출부(230)는 SNS 메시지 집합에 포함된 트윗(510, 520)들 각각에 대한 불신지수 벡터를 산출할 수 있다.
하나의 트윗에 대한 불신지수 벡터는 관점 1(530), 관점 2(540) 및 관점 3(550)을 포함하는 복수의 차원으로 구성될 수 있다. 관점 1(530)은 “악의적 왜곡”에 해당하는 관점으로서 불신용어 '악의', '왜곡' 및 '편향'을 포함할 수 있고, 관점 2(540)는 “사실과 다름”에 해당하는 관점으로서 불신용어 '가짜', '거짓' 및 '허위'를 포함할 수 있으며, 관점 3(550)은 “확인되지 않음”에 해당하는 관점으로서 불신용어 '검증', '의심' 및 '출처'를 포함할 수 있다.
또한, 트윗 T1(510)의 불신지수 벡터는 관점 1(530)에 대해 0.2의 차원 벡터를, 관점 2(540)에 대해 0.17의 차원 벡터를, 관점 3(550)에 대해 0의 차원 벡터를 가질 수 있다. 트윗 T2(520)의 불신지수 벡터는 관점 1(530)에 대해 0의 차원 벡터를, 관점 2(540)에 대해 0.3의 차원 벡터를, 관점 3(550)에 대해 0.3의 차원 벡터를 가질 수 있다.
일 실시예에서, 불신지수 벡터 산출부(230)는 SNS 메시지 집합에 대해 SNS 메시지의 불신지수 벡터를 차원별로 평균하여 적어도 하나의 뉴스에 대한 불신지수 벡터를 산출할 수 있다. 불신지수 벡터 산출부(230)는 하나의 뉴스에 대응하는 SNS 메시지 집합에 대해 해당 집합에 속한 SNS 메시지들의 불신지수 벡터를 기초로 해당 뉴스의 불신지수 벡터를 산출할 수 있다. 보다 구체적으로, 불신지수 벡터 산출부(230)는 불신지수 벡터를 구성하는 각각의 차원별로 SNS 메시지들의 불신지수 벡터를 구성하는 해당 차원 벡터의 평균을 산출할 수 있고, 차원 벡터의 평균으로 구성된 불신지수 벡터를 해당 SNS 메시지 집합에 대응하는 뉴스에 대한 불신지수 벡터로서 산출할 수 있다.
예를 들어, 도 5에서 트윗 T1(510) 및 트윗 T2(520)로 구성된 SNS 메시지 집합에 대응하는 뉴스의 불신지수 벡터를 산출하는 과정을 설명하면, 관점 1(530)에 해당하는 차원 벡터의 평균은 (0.2 + 0) / 2 = 0.1이고, 관점 2(540)에 해당하는 차원 벡터의 평균은 (0.17 + 0.3) / 2 = 0.235이고, 관점 3(550)에 해당하는 차원 벡터의 평균은 (0 + 0.3) / 2 = 0.15이다. 따라서, 해당 SNS 메시지 집합에 대응하는 뉴스의 불신지수 벡터는 (관점 1, 관점 2, 관점 3) = (0.1, 0.235, 0.15)와 같이 산출될 수 있다.
가짜뉴스 탐지부(250)는 적어도 하나의 뉴스에 대한 토픽 모델링(Topic Modeling)을 수행하여 추출한 뉴스 주제 벡터 및 불신지수 벡터를 기초로 가짜뉴스를 탐지할 수 있다. 여기에서, 뉴스 주제 벡터는 적어도 하나의 뉴스 원문 각각에 대하여 토픽 모델링을 통해 추출된 각 뉴스별 뉴스 주제에 관한 벡터에 해당할 수 있다. 가짜뉴스 탐지부(250)는 적어도 하나의 뉴스 및 관련 트윗 등을 포함하는 SNS 메시지를 분석하여 수집된 가짜뉴스 탐지와 관련된 정보들을 기초로 사용자 단말(110)로부터 수신된 뉴스에 대한 가짜뉴스 여부를 식별할 수 있고, 해당 결과를 사용자 단말(110)에 제공할 수 있다. 가짜뉴스 탐지부(250)는 사용자 단말(110)에 가짜뉴스 탐지 결과를 다양한 형태로 가공하여 제공할 수 있다.
일 실시예에서, 가짜뉴스 탐지부(250)는 적어도 하나의 뉴스에 관한 뉴스 주제 벡터 및 불신지수 벡터를 기초로 상호 훈련(Co-Training)한 결과로서 가짜뉴스 탐지 모형을 생성할 수 있다. 가짜뉴스 탐지 모형은 뉴스 원문으로부터 추출한 뉴스 주제 벡터와 뉴스 관련 트윗으로부터 산출한 뉴스의 불신지수 벡터로부터 가짜뉴스를 식별하는 모형에 해당할 수 있다. 상호 훈련(Co-Training)은 식별된 데이터(Labeled Data)가 적고 식별되지 않은 데이터(Unlabeled Data)가 많은 경우에 사용되는 기계 학습 알고리즘에 해당할 수 있다. 상호 훈련은 1998년 Blum과 Mitchel에 의해 고안되었으며, 서로 다른 도메인의 통합, 이질적 관점에서의 감성 분석, 이질적 소스를 활용한 스팸 탐지 등의 분야에서 적용될 수 있다.
가짜뉴스 탐지부(250)는 진위 여부가 식별된 뉴스 뿐만 아니라 진위 여부가 식별되지 않은 미분류 뉴스도 학습에 활용할 수 있는 준지도 학습(Semi-supervised Learning)을 통해 가짜뉴스 탐지 모형을 생성할 수 있다. 가짜뉴스 탐지부(250)는 각 뉴스의 진위 여부라는 하나의 목적 변수를 예측하기 위해 서로 다른 두 가지 소스, 즉 뉴스와 SNS 메시지로부터 도출한 이질적인 입력 변수의 집합을 갖는 가짜뉴스 탐지 모형을 사용하여 가짜뉴스를 탐지할 수 있다.
가짜뉴스 탐지부(250)는 준지도 학습의 가장 대표적 알고리즘인 자가 훈련(Self-Training) 대신, 입력 변수 간의 이질성이 존재할 때 최적의 성능을 나타내는 것으로 알려진 상호 훈련을 통해 가짜뉴스 탐지 모형을 생성할 수 있고, 이를 통해 특정 뉴스가 가짜뉴스에 해당하는지 여부를 탐지할 수 있다.
제어부(270)는 가짜뉴스 탐지 장치(130)의 전체적인 동작을 제어하고, SNS 메시지 집합 생성부(210), 불신지수 벡터 산출부(230) 및 가짜뉴스 탐지부(250) 간의 제어 흐름 또는 데이터 흐름을 관리할 수 있다.
도 3은 도 1에 있는 가짜뉴스 탐지 장치에서 수행되는 가짜뉴스 탐지 과정을 설명하는 순서도이다.
도 3을 참조하면, 가짜뉴스 탐지 장치(130)는 SNS 메시지 집합 생성부(210)를 통해 적어도 하나의 뉴스를 분석하여 뉴스 주제를 결정하고 뉴스 주제와 연관된 복수의 SNS 메시지들로 구성된 SNS 메시지 집합을 생성할 수 있다(단계 S310).
일 실시예에서, SNS 메시지 집합 생성부(210)는 특정 기간 동안 생성된 특정 뉴스와 연관된 SNS 메시지들을 네트워크를 통해 수집할 수 있다. 예를 들어, SNS 메시지 집합 생성부(210)는 특정 뉴스에 대한 텍스트 파싱 및 TF-IDF를 기초로 뉴스 속성 집합에 해당하는 뉴스 주제를 결정할 수 있고, 해당 뉴스 주제와 연관되어 해당 뉴스의 생성일로부터 최소 2일 내지 최대 5일까지의 시간동안 생성된 SNS 메시지들만을 네트워크를 통해 수집할 수 있다. SNS 메시지 집합 생성부(210)는 뉴스와 연관된 SNS 메시지에 대해 일정한 기간에 생성된 메시지만을 수집하여 분석에 이용함으로써 해당 뉴스에 대한 SNS 반응을 보다 정확하게 분석할 수 있도록 할 수 있다.
가짜뉴스 탐지 장치(130)는 불신지수 벡터 산출부(230)를 통해 SNS 메시지 집합으로부터 산출된 SNS 메시지의 불신지수 벡터를 기초로 적어도 하나의 뉴스에 대한 불신지수 벡터를 산출할 수 있다(단계 S330). 불신지수 벡터 산출부(230)는 불신용어 사전을 이용하여 SNS 메시지 집합에 속한 복수의 SNS 메시지들에 대한 토픽 모델링을 수행함으로써 SNS 메시지의 불신지수 벡터를 산출할 수 있다.
일 실시예에서, 불신지수 벡터 산출부(230)는 초기에 설정된 불신용어 사전을 그대로 사용하거나 또는 불신용어 사전에 새로운 불신 시드 용어를 추가한 확장된 불신용어 사전을 사용하여 SNS 메시지의 불신지수 벡터를 산출할 수 있다.
불신지수 벡터 산출부(230)는 불신 시드 용어의 확장을 위해 다량의 트윗에 대한 Word2Vec 분석을 수행할 수 있다. 보다 구체적으로, 불신지수 벡터 산출부(230)는 네트워크를 통해 수집한 트윗들에 대한 Word2Vec 학습을 통해 트윗들에 포함된 주요 용어에 대한 벡터를 산출할 수 있다. 불신지수 벡터 산출부(230)는 주요 용어의 벡터를 이용하여 불신 시드 용어와 특정 임계값 이상의 유사도를 가지는 새로운 불신 용어들을 획득할 수 있고 불신 시드 용어 집합에 추가함으로써 불신용어 사전을 확장할 수 있다.
가짜뉴스 탐지 장치(130)는 가짜뉴스 탐지부(250)를 통해 적어도 하나의 뉴스에 대한 토픽 모델링을 수행하여 추출한 뉴스 주제 벡터 및 불신지수 벡터를 기초로 가짜뉴스를 탐지할 수 있다(단계 S350). 일 실시예에서, 가짜뉴스 탐지부(250)는 뉴스 주제 벡터 및 불신지수 벡터를 기초로 상호 훈련을 통해 가짜뉴스 탐지 모형을 생성할 수 있고, 특정 뉴스에 대한 가짜뉴스 여부를 가짜뉴스 탐지 모형을 이용하여 판단할 수 있다.
일 실시예에서, 가짜뉴스 탐지부(250)는 가짜뉴스 탐지 모형을 기초로 특정 뉴스에 대한 진위 여부 판단 결과를 특정 수의 단계로 구분하여 도출할 수 있고, 진위 여부 판단 결과가 특정 수의 단계 중 일부 단계에 해당하는 경우에만 가짜뉴스로 판단할 수 있다. 예를 들어, 가짜뉴스 탐지부(250)는 진위 여부 판단 결과를 총 6단계로 구분할 수 있고, 6단계를 최상위 단계로 할 때 하위 단계인 1 및 2단계에 해당하는 경우에만 가짜뉴스로 판단할 수 있다.
도 4는 본 발명의 일 실시예에 따른 불신지수 벡터 기반의 가짜뉴스 탐지 시스템의 전체적인 개요를 나타내는 도면이다.
도 4를 참조하면, 가짜뉴스 탐지 장치(130)는 각 뉴스와 관련된 트윗(Tweet)을 추출하고(410, 420 및 430), 추출된 트윗으로부터 각 뉴스에 대한 불신의 정도를 불신지수 벡터(Distrust Index Vector) 형태로 산출한 후(440 450 및 460), 뉴스 원문에서 추출한 기사의 주제적 특성(Topic Features)과 불신 지수 벡터와의 상호 훈련(Co-Training)을 통해 각 뉴스의 진실/거짓 여부를 더욱 정확하게 탐지할 수 있다(470).
보다 구체적으로, 가짜뉴스 탐지 장치(130)는 뉴스 데이터(401), 트위터 데이터(403) 및 불신 시드 용어(405)를 입력으로 하여 뉴스 데이터(401)에 포함된 뉴스 원문에 대하여 문서 파싱(Document Parsing)을 통해 형태소 분석을 할 수 있고(410), 이후 각 뉴스의 용어에 대한 TF-IDF를 기초로 각 뉴스별 뉴스 주제에 해당하는 뉴스 속성 집합을 생성할 수 있다. 여기에서, 문서 파싱은 특정 문서에 대한 텍스트 파싱에 해당할 수 있다. 또한, 가짜뉴스 탐지 장치(130)는 뉴스 속성 집합을 기초로 해당 뉴스와 연관된 트윗 등의 SNS 메시지를 수집할 수 있고(430), 그 결과로서 뉴스-트윗 매핑 행렬(Mapping Matrix)을 생성할 수 있다.
가짜뉴스 탐지 장치(130)는 사전에 정의되어 데이터베이스(150)에 저장된 불신 시드 용어 집합을 기초로 Word2Vec 학습을 통해 확장된 불신 시드 용어 집합을 생성할 수 있고(440), 확장된 불신용어 사전을 생성할 수 있다. 가짜뉴스 탐지 장치(130)는 트위터 데이터(402) 및 확장된 불신용어 사전을 기초로 토픽 모델링을 수행함으로써 트윗별 불신지수 벡터를 산출할 수 있다. 트윗별 불신지수 벡터는 복수의 차원으로 구성될 수 있고, 차원별로 벡터를 가질 수 있다. 가짜뉴스 탐지 장치(130)는 불신지수 벡터를 구성하는 각 차원에 대해 트윗별 불신지수 벡터를 평균하여 산출한 차원별 불신지수 벡터 평균을 통합하여 각 뉴스에 대한 불신지수 벡터를 산출할 수있다(460).
가짜뉴스 탐지 장치(130)는 적어도 하나의 뉴스에 대한 토픽 모델링(420)을 통해 추출된 뉴스 주제 벡터 및 불신지수 벡터를 입력으로 하여 상호 훈련(Co-Training)을 통해 가짜뉴스 탐지 모형을 생성할 수 있다(470). 가짜뉴스 탐지 장치(130)는 가짜뉴스 탐지 모형을 이용하여 사용자 단말(110)로부터 수신된 특정 뉴스에 대한 진위 여부를 판단할 수 있고, 그 결과를 사용자 단말(110)에 제공할 수 있다.
도 6은 도 2에 있는 가짜뉴스 탐지부에서 수행되는 상호 훈련 과정을 설명하는 예시도이다.
도 6을 참조하면, 가짜뉴스 탐지부(250)는 뉴스 분석을 통해 추출한 주제 특성(Topic Features, TF)(601) 및 불신지수 벡터(Distrust Index Vector, DIV)(603)를 상호 훈련할 수 있다. 여기에서, 주제 특성은 뉴스에 대한 토픽 모델링을 통해 추출된 뉴스 주제 관련 벡터에 해당할 수 있다. 보다 구체적으로, 가짜뉴스 탐지부(250)는 분류된 뉴스(610)에 대해 뉴스 주제 특성 학습과 불신지수 벡터 기반 학습을 각각 수행할 수 있고, 이러한 부분 학습 결과를 미분류 뉴스(630)에 적용하여 정확도 향상에 기여하는 뉴스만을 선별적으로 학습 집합에 추가로 포함시킬 수 있다. 가짜뉴스 탐지부(250)는 해당 과정을 반복 수행(650)함으로써 가짜뉴스 탐지의 정확성을 향상시킬 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
100: 불신지수 벡터 기반의 가짜뉴스 탐지 시스템
110: 사용자 단말 130: 가짜뉴스 탐지 장치
150: 데이터베이스
210: SNS 메시지 집합 생성부 230: 불신지수 벡터 산출부
250: 가짜뉴스 탐지부 270: 제어부
401: 뉴스 데이터 403: 트위터 데이터
405: 불신 시드 용어 500: 트윗별 불신지수 벡터
510: 트윗 T1 520: 트윗 T2
530: 관점 1 540: 관점 2
550: 관점 3
601: 토픽 속성 603: 불신지수 벡터
610: 분류된 뉴스 630: 미분류 뉴스
650: 반복 수행

Claims (13)

  1. 적어도 하나의 뉴스를 분석하여 뉴스 주제를 결정하고 상기 뉴스 주제와 연관된 복수의 SNS 메시지들로 구성된 SNS 메시지 집합을 생성하는 SNS 메시지 집합 생성부;
    상기 SNS 메시지 집합으로부터 산출된 SNS 메시지의 불신지수 벡터를 기초로 상기 적어도 하나의 뉴스에 대한 불신지수 벡터를 산출하는 불신지수 벡터 산출부; 및
    상기 적어도 하나의 뉴스에 대한 토픽 모델링(Topic Modeling)을 수행하여 추출한 뉴스 주제 벡터 및 상기 불신지수 벡터를 기초로 가짜뉴스를 탐지하는 가짜뉴스 탐지부를 포함하되,
    상기 불신지수 벡터 산출부는 상기 SNS 메시지 집합에 대해 상기 SNS 메시지의 불신지수 벡터를 차원별로 평균하여 상기 적어도 하나의 뉴스에 대한 불신지수 벡터를 산출하는 것을 특징으로 하는 불신지수 벡터 기반의 가짜뉴스 탐지 장치.
  2. 제1항에 있어서, 상기 SNS 메시지 집합 생성부는
    상기 적어도 하나의 뉴스에 대한 텍스트 파싱(Text Parsing)을 수행하여 추출된 복수의 용어들에 대한 TF-IDF(Term Frequency-Inverse Document Frequency)를 기초로 적어도 하나의 뉴스 속성을 포함하는 뉴스 속성 집합을 생성함으로써 상기 뉴스 주제를 결정하는 것을 특징으로 하는 불신지수 벡터 기반의 가짜뉴스 탐지 장치.
  3. 제2항에 있어서, 상기 SNS 메시지 집합 생성부는
    상기 뉴스 속성 집합 및 SNS 메시지 간의 유사도를 기초로 상기 복수의 SNS 메시지들을 결정하는 것을 특징으로 하는 불신지수 벡터 기반의 가짜뉴스 탐지 장치.
  4. 제1항에 있어서, 상기 불신지수 벡터 산출부는
    불신용어 사전을 이용하여 상기 SNS 메시지 집합에 속한 상기 복수의 SNS 메시지들에 대한 토픽 모델링을 수행함으로써 상기 SNS 메시지의 불신지수 벡터를 산출하는 것을 특징으로 하는 불신지수 벡터 기반의 가짜뉴스 탐지 장치.
  5. 삭제
  6. 제1항에 있어서, 상기 가짜뉴스 탐지부는
    상기 뉴스 주제 벡터 및 상기 불신지수 벡터를 기초로 상호 훈련(Co-Training)한 결과로서 가짜뉴스 탐지 모형을 생성하는 것을 특징으로 하는 불신지수 벡터 기반의 가짜뉴스 탐지 장치.
  7. 불신지수 벡터 기반의 가짜뉴스 탐지 장치에서 수행되는 가짜뉴스 탐지 방법에 있어서,
    (a) 적어도 하나의 뉴스를 분석하여 뉴스 주제를 결정하고 상기 뉴스 주제와 연관된 복수의 SNS 메시지들로 구성된 SNS 메시지 집합을 생성하는 단계;
    (b) 상기 SNS 메시지 집합으로부터 산출된 SNS 메시지의 불신지수 벡터를 기초로 상기 적어도 하나의 뉴스에 대한 불신지수 벡터를 산출하는 단계; 및
    (c) 상기 적어도 하나의 뉴스에 대한 토픽 모델링(Topic Modeling)을 수행하여 추출한 뉴스 주제 벡터 및 상기 불신지수 벡터를 기초로 가짜뉴스를 탐지하는 단계를 포함하되,
    상기 (b) 단계는 상기 SNS 메시지 집합에 대해 상기 SNS 메시지의 불신지수 벡터를 차원별로 평균하여 상기 적어도 하나의 뉴스에 대한 불신지수 벡터를 산출하는 단계를 포함하는 것을 특징으로 하는 불신지수 벡터 기반의 가짜뉴스 탐지 방법.
  8. 제7항에 있어서, 상기 (a) 단계는
    상기 적어도 하나의 뉴스에 대한 텍스트 파싱(Text Parsing)을 수행하여 추출된 복수의 용어들에 대한 TF-IDF(Term Frequency-Inverse Document Frequency)를 기초로 적어도 하나의 뉴스 속성을 포함하는 뉴스 속성 집합을 생성함으로써 상기 뉴스 주제를 결정하는 단계인 것을 특징으로 하는 불신지수 벡터 기반의 가짜뉴스 탐지 방법.
  9. 제8항에 있어서, 상기 (a) 단계는
    상기 뉴스 속성 집합 및 SNS 메시지 간의 유사도를 기초로 상기 복수의 SNS 메시지들을 결정하는 단계인 것을 특징으로 하는 불신지수 벡터 기반의 가짜뉴스 탐지 방법.
  10. 제7항에 있어서, 상기 (b) 단계는
    불신용어 사전을 이용하여 상기 SNS 메시지 집합에 속한 상기 복수의 SNS 메시지들에 대한 토픽 모델링을 수행함으로써 상기 SNS 메시지의 불신지수 벡터를 산출하는 단계인 것을 특징으로 하는 불신지수 벡터 기반의 가짜뉴스 탐지 방법.
  11. 삭제
  12. 제7항에 있어서, 상기 (c) 단계는
    상기 적어도 하나의 뉴스에 관한 상기 뉴스 주제 및 상기 불신지수 벡터를 기초로 상호 훈련(Co-Training)한 결과로서 가짜뉴스 탐지 모형을 생성하는 단계인 것을 특징으로 하는 불신지수 벡터 기반의 가짜뉴스 탐지 방법.
  13. 불신지수 벡터 기반의 가짜뉴스 탐지 장치에서 수행되는 가짜뉴스 탐지 방법을 기록하는 컴퓨터 수행 가능한 기록매체에 있어서,
    적어도 하나의 뉴스를 분석하여 뉴스 주제를 결정하고 상기 뉴스 주제와 연관된 복수의 SNS 메시지들로 구성된 SNS 메시지 집합을 생성하는 과정;
    상기 SNS 메시지 집합으로부터 산출된 SNS 메시지의 불신지수 벡터를 기초로 상기 적어도 하나의 뉴스에 대한 불신지수 벡터를 산출하는 과정; 및
    상기 적어도 하나의 뉴스에 대한 토픽 모델링(Topic Modeling)을 수행하여 추출한 뉴스 주제 벡터 및 상기 불신지수 벡터를 기초로 가짜뉴스를 탐지하는 과정을 포함하되,
    상기 불신지수 벡터를 산출하는 과정은 상기 SNS 메시지 집합에 대해 상기 SNS 메시지의 불신지수 벡터를 차원별로 평균하여 상기 적어도 하나의 뉴스에 대한 불신지수 벡터를 산출하는 과정을 포함하는 것을 특징으로 하는 기록매체.
KR1020180029042A 2018-03-13 2018-03-13 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법, 이를 기록한 기록매체 KR102053635B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180029042A KR102053635B1 (ko) 2018-03-13 2018-03-13 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법, 이를 기록한 기록매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180029042A KR102053635B1 (ko) 2018-03-13 2018-03-13 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법, 이를 기록한 기록매체

Publications (2)

Publication Number Publication Date
KR20190107832A KR20190107832A (ko) 2019-09-23
KR102053635B1 true KR102053635B1 (ko) 2019-12-09

Family

ID=68069365

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180029042A KR102053635B1 (ko) 2018-03-13 2018-03-13 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법, 이를 기록한 기록매체

Country Status (1)

Country Link
KR (1) KR102053635B1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674286A (zh) * 2019-09-29 2020-01-10 出门问问信息科技有限公司 一种文本摘要抽取方法、装置及存储设备
KR102340542B1 (ko) * 2019-11-15 2021-12-20 고려대학교 산학협력단 자동화 기반의 가짜 뉴스 탐지 장치 및 방법
CN111061843B (zh) * 2019-12-26 2023-08-25 武汉大学 一种知识图谱引导的假新闻检测方法
US11947914B2 (en) 2020-06-30 2024-04-02 Microsoft Technology Licensing, Llc Fact checking based on semantic graphs
CN113158646B (zh) * 2021-01-12 2023-10-27 北京工商大学 一种基于区块链的自动合成新闻的检测方法及系统
CN112926305A (zh) * 2021-01-12 2021-06-08 华南师范大学 一种网络舆情话题特征提取方法及系统
KR102455747B1 (ko) * 2022-02-18 2022-10-18 한밭대학교 산학협력단 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템 및 방법
CN115269854B (zh) * 2022-08-30 2024-02-02 重庆理工大学 基于主题和结构感知神经网络的虚假新闻检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015005057A (ja) * 2013-06-19 2015-01-08 ヤフー株式会社 情報判定装置および情報判定方法
KR101705810B1 (ko) * 2015-11-18 2017-02-10 고려대학교 산학협력단 뉴스를 추천하는 서버, 스마트 단말 및 이를 이용한 뉴스 추천 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101091185B1 (ko) 2010-02-25 2011-12-09 고려대학교 산학협력단 뉴스 데이터 분석 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015005057A (ja) * 2013-06-19 2015-01-08 ヤフー株式会社 情報判定装置および情報判定方法
KR101705810B1 (ko) * 2015-11-18 2017-02-10 고려대학교 산학협력단 뉴스를 추천하는 서버, 스마트 단말 및 이를 이용한 뉴스 추천 방법

Also Published As

Publication number Publication date
KR20190107832A (ko) 2019-09-23

Similar Documents

Publication Publication Date Title
KR102053635B1 (ko) 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법, 이를 기록한 기록매체
US9542477B2 (en) Method of automated discovery of topics relatedness
Toba et al. Discovering high quality answers in community question answering archives using a hierarchy of classifiers
CN104574192B (zh) 在多个社交网络中识别同一用户的方法及装置
AU2011326430B2 (en) Learning tags for video annotation using latent subtags
US20170140240A1 (en) Neural network combined image and text evaluator and classifier
US11055338B2 (en) Dynamic facet tree generation
CN105022754B (zh) 基于社交网络的对象分类方法及装置
WO2021120818A1 (en) Methods and systems for managing image collection
CN110990683B (zh) 一种基于地域与情感特征的微博谣言集成识别方法及装置
WO2022188844A1 (zh) 视频分类方法、装置、设备及介质
de Zarate et al. Measuring controversy in social networks through nlp
CN109271624A (zh) 一种目标词确定方法、装置及存储介质
US20190034758A1 (en) Systems and methods for clustering of near-duplicate images in very large image collections
Medvet et al. Brand-related events detection, classification and summarization on twitter
JP6511865B2 (ja) 情報処理装置及び情報処理プログラム
US20210295036A1 (en) Systematic language to enable natural language processing on technical diagrams
EP4226234A1 (en) Systems and methods for generating an advertising-elasticity model using natural-language search
CN113420127A (zh) 威胁情报处理方法、装置、计算设备及存储介质
KR20220105792A (ko) 동적 텍스트 소스를 활용한 ai 기반 의사결정지원 시스템
Lyu et al. Gated Multi-modal Fusion with Cross-modal Contrastive Learning for Video Question Answering
Fard et al. Detecting rumours in disasters: an imbalanced learning approach
JP5824430B2 (ja) スパム特徴算出装置、スパム特徴算出方法、及びプログラム
Pandey et al. Real-Time Twitter Sentiment Analysis using Machine Learning using Different Classification Algorithm
Wang et al. A stable-matching-based user linking method with user preference order

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant