KR102180329B1 - 가짜 뉴스 판단 시스템 - Google Patents

가짜 뉴스 판단 시스템 Download PDF

Info

Publication number
KR102180329B1
KR102180329B1 KR1020190024763A KR20190024763A KR102180329B1 KR 102180329 B1 KR102180329 B1 KR 102180329B1 KR 1020190024763 A KR1020190024763 A KR 1020190024763A KR 20190024763 A KR20190024763 A KR 20190024763A KR 102180329 B1 KR102180329 B1 KR 102180329B1
Authority
KR
South Korea
Prior art keywords
news
fake
unit
analysis
title
Prior art date
Application number
KR1020190024763A
Other languages
English (en)
Other versions
KR20200108937A (ko
Inventor
강장묵
Original Assignee
글로벌사이버대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 글로벌사이버대학교 산학협력단 filed Critical 글로벌사이버대학교 산학협력단
Priority to KR1020190024763A priority Critical patent/KR102180329B1/ko
Publication of KR20200108937A publication Critical patent/KR20200108937A/ko
Application granted granted Critical
Publication of KR102180329B1 publication Critical patent/KR102180329B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 가짜 뉴스 판단 시스템은, 사용자 단말기 및 상기 사용자 단말기와 통신 가능한 서버를 포함하며, 상기 서버는, 정보 데이터를 수집하는 정보 수집 모듈; 상기 정보 데이터에 포함된 뉴스로부터 판별 요소를 추출 및 분석하여 정합성을 도출하는 식별 모듈; 및 상기 정합성 기반으로 상기 뉴스가 가짜일 확률을 산출하는 확률값 산출 모듈;을 포함하며, 이에 의하면, 뉴스의 제목 및 내용을 기반으로 가짜 뉴스를 판별하여 이를 차단하거나 줄일 수 있다.

Description

가짜 뉴스 판단 시스템{System for determining fake news}
본 발명은 가짜 뉴스 판단 시스템, 판단 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체에 관한 것으로, 더 상세하게는 뉴스의 사실과 가치를 포함하는 가짜 뉴스를 판별하기 위한 인공 지능 알고리즘을 이용한 시스템, 판단 방법 및 기록 매체에 관한 것이다.
경찰은 가짜뉴스를 `실제 언론 보도처럼 보이도록 가공해 신뢰도를 높이는 방식으로 유포되는 정보'로 정의하고 있으며 한국언론진흥재단은 `정치·경제적 이익을 위해 의도적으로 언론 보도의 형식을 하고 유포된 거짓 정보'로 정의한다.
가짜뉴스는 누구나 만들 수 있으며, 만들도록 도와주는 인터넷사이트도 수두룩하다. 데일리파닥은 기사처럼 제목, 기자명을 넣고 사진을 첨부하면 어떤 내용도 기사 형태처럼 만들어주는 서비스를 제공한다. 가짜뉴스를 만드는 걸 돕거나 장난 수준의 가짜뉴스를 만드는 것이 위법은 아니라는 게 선거관리위원회 설명이다.
한국언론진흥재단의 가짜뉴스 현황과 문제점(2017) 보고서에 따르면, 응답자의 76.3%가 포털, 페이스북, 카카오톡 등 인터넷 서비스를 통해 가짜뉴스를 받은 것으로 나타났다. 가짜뉴스의 유통 통로 중 절대 다수가 인터넷 서비스인 셈이다. 신문, TV 등 대중매체를 통해 접한 경우는 9.1%, 친구나 선후배 등 사적모임은 7.7%로 소수에 불과했다.
특히, 이중에서도 카카오톡, 라인 등 모바일 메신저로 가짜뉴스를 받은 이용자가 39.7%로 가장 높았다. 눈에 띄는 부분은 50대에서 45.6%로 그 비중이 특히 높았다는 점이다. 선거철이 다가오면 정보취약계층인 노년층을 대상으로 카카오톡을 통해 특정 후보에 대한 가짜뉴스가 유통되는 식이다. ‘요금할인’ 찌라시톡 정도는 ‘애교’ 수준이지만, 비방 등을 목적으로 한 허위사실 유포로 넘어가면 이야기가 심각해진다.
페이스북, 트위터 등 소셜플랫폼 역시 27.7%로 적지 않은 비율을 기록했다. 인터넷 카페/커뮤니티, 블로그도 24.3%로 높은 축에 속했다. 유튜브, 아프리카TV 등이 4.6%, 가짜뉴스 사이트 3.7% 순이었다.
언론재단은 “온라인 이용자들은 단톡방 등에서 특정사실 또는 허위사실에 대한 글, 사진 등을 교환하는데, 이것이 밖으로 급속이 번져나가면서 가짜뉴스가 되기도 한다”며 “가짜뉴스의 유통은 모바일 메신저, 소셜플랫폼 등 콘텐츠 유통플랫폼을 통해 매개돼 전파되고 있다”고 분석했다.
가짜뉴스의 강력한 파괴력은 이와 같은 유통 구조에 있다. 찌라시는 단체 카톡방 위주로 음성적으로 퍼지는 반면 가짜뉴스는 공개적으로 유통, 확산된다. 일간베스트 저장소(일베), 오늘의 유머(오유), 뽐뿌 등 인터넷 커뮤니티에 가짜뉴스가 주로 도배된다. 해당 사이트에서 호응을 얻었다면 페이스북, 카톡, 트위터, 네이버밴드 등 SNS로 2차 확산된다.
문제는 이러한 가짜뉴스가 확산되더라도 막을 방안이 마땅치 않다는 점이다.
카카오톡, 페이스북 등 지인 기반 서비스의 경우 가짜뉴스를 받더라도 ‘아는 사람’이 전달해 준만큼 정보에 대한 신뢰도가 일반적인 경우보다 높아지는 경향이 있다. 또, 전파 속도가 빠른 인터넷 서비스의 특성상, 피해자가 경찰에 신고해 유포자를 수사하더라도 이미 피해 사실은 눈덩이처럼 불어나 있는 경우가 대부분이다.
이에 따라, 신뢰할 수 있는 뉴스 출처를 확인함으로써 온라인 콘텐츠의 신뢰성에 대한 통찰력을 제공할 수 있는 도구가 필요한 실정이다.
종래기술로는, 국내등록특허 제10-1864439호(특허문헌 1)가 있다. 특허문헌 1은 가짜 뉴스 판별 가능한 게시글 그래픽 유저 인터페이스 화면창을 구비한 가짜 뉴스 판별 시스템을 제공한다.
이에 따르면, 진실(True), 거짓(Fake)의 댓글을 분리하여 감정적 싸움이 아닌 서로 논리적으로 논쟁할 수 있도록 여건을 조성하며, 의문이 가는 기사나 루머를 링크나 게시글 작성을 통하여 네티즌의 집단 자성을 활용하여 비교-판단하게 할 수 있다.
그러나, 이는 결국 네티즌의 대다수의 의견에 기반하여 판별이 이루어지는 것으로 가짜 뉴스를 명확하게 판별할 수 있는 시스템으로 보기 어려우며, 참여도가 저조할수록, 판별력이 떨어질 수밖에 없다는 한계가 있다.
따라서, 현재는, 네티즌의 의견과 상관없이, 판별력이 양호한 가짜 뉴스 판별 시스템이 필요한 실정이다.
KR 10-1864439 B1
상기한 바와 같은 종래의 문제점을 해결하기 위한 본 발명은, 가짜 뉴스를 판별하여 차단하거나 줄일 수 있는 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 뉴스의 제목과 내용의 불일치를 검출하여 가짜 뉴스를 판별할 수 있는 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 뉴스의 맥락과 관계없는 뉴스 내용을 검출하여 가짜 뉴스를 판별할 수 있는 방법을 제공하는 것을 목적으로 한다.
상기 목적을 달성하기 위한 본 발명의 가짜 뉴스 판단 시스템은, 사용자 단말기 및 상기 사용자 단말기와 통신 가능한 서버를 포함하며, 상기 서버는, 정보 데이터를 수집하는 정보 수집 모듈; 상기 정보 데이터에 포함된 뉴스로부터 판별 요소를 추출 및 분석하여 정합성을 도출하는 식별 모듈; 및 상기 정합성 기반으로 상기 뉴스가 가짜일 확률을 산출하는 확률값 산출 모듈;을 포함하는 것을 특징으로 한다.
또한, 데이터 크롤링 (crawling) 기술을 이용하여 상기 정보 데이터가 수집되는 것이 바람직하다.
또한, 상기 판별 요소는 정보 데이터에 대한 언어 처리를 통해 추출되고, 상기 판별 요소는 반의어, 페러프레이징(유의어), 특정 단어, 개체명, 행위자 및 순위 중 적어도 어느 하나를 포함하는 것이 바람직하다.
또한, 상기 식별 모듈에 의해 상기 뉴스에 대한 형태소 분석 단계, 개체명 인식 단계, 어휘 의미 분석 단계, 구문 분석 단계, 의미역 인식 단계, 상호 참조 단계, 대용어 처리 단계, 및 문장 분리 단계 중 적어도 어느 하나가 수행되는 것이 바람직하다.
또한, 상기 식별 모듈에 의해 기 설정된 분석 방법에 의해 상기 판별 요소가 분석되며, 상기 분석 방법은, 상기 뉴스의 제목 및 본문이 일치하는지의 여부를 분석하는 제1 분석 방법 및 상기 뉴스의 내용의 맥락과 관계없는 문장이 섞여있는지의 여부를 분석하는 제2 분석 방법을 포함하는 것이 바람직하다.
또한, 상기 식별 모듈은 제목 요약부, 본문 요약부 및 문장별 요약부가 구비된 요약부를 포함하여 상기 뉴스의 제목, 본문 및 본문의 문장별로 내용의 요약이 이루어지는 것이 바람직하다.
또한, 상기 식별 모듈은 상기 요약부와 연결된 비교 분석부 및 정합성 도출부를 더 포함하는 것이 바람직하다.
또한, 상기 제1 분석 방법은 상기 제목 요약부, 상기 본문 요약부, 상기 비교 분석부 및 상기 정합성 도출부에 의해 수행되고, 상기 제1 분석 방법에서 상기 뉴스 제목에서 적어도 하나의 특정 단어가 추출되고, 상기 뉴스의 본문에서도 적어도 하나의 특정 단어가 추출되어 상기 비교 분석부를 통해 상기 제목의 특정 단어 및 상기 본문의 특정 단어가 비교되고, 상기 정합성 도출부를 통해 비교 분석 결과에 기초하여 상기 제목 및 상기 본문의 일치 여부가 판단되는 것이 바람직하다.
또한, 상기 제2 분석 방법이 상기 문장별 요약부, 상기 비교 분석부 및 상기 정합성 도출부에 의해 수행되고, 상기 제2 분석 방법에서 상기 뉴스의 문장별로 적어도 하나의 특정 단어가 추출되고, 상기 비교 분석부를 통해 비교되어 상기 정합성 도출부를 통해 상기 뉴스의 맥락 중 관계없는 문장이 섞여있는지의 여부가 판단되는 것이 바람직하다.
또한, 상기 식별 모듈 및 상기 확률값 산출 모듈과 연결된 데이터셋 생성 모듈을 더 포함하며, 상기 데이터셋 생성 모듈에서는 상기 식별 모듈 및 상기 확률값 산출 모듈로부터의 데이터가 기계 학습을 위한 훈련 데이터셋으로 생성되는 것이 바람직하다.
또한, 상기 데이터셋 생성 모듈은 상기 뉴스로부터의 제목 및 내용의 단어, 문장, 문서의 분류, 및 이에 대한 정합성 분포를 포함하는 기 설정된 형식의 패턴인 데이터셋을 생성하는 것이 바람직하다.
또한, 상기 데이터셋 생성 모듈에 연결된 인공지능 처리장치를 더 포함하고, 상기 인공지능 처리장치는 상기 훈련 데이터셋을 기반으로 기계 학습을 수행하여 인공지능 모델을 생성하는 것이 바람직하다.
상기 목적을 달성하기 위한 본 발명의 가짜 뉴스 판단 방법은, 서버에 의해 정보 데이터가 수집되는 단계; 상기 서버에 구비된 식별 모듈에 의해 언어 처리를 통해 뉴스로부터 특정 단어들이 추출되어 요약되는 단계; 상기 식별 모듈에 구비된 비교 분석부에 의해 상기 특정 단어들이 판별 요소로 사용되어 비교 분석되는 단계; 상기 식별 모듈에 구비된 정합성 도출부에 의해 상기 판별 요소들을 기반으로 정합성이 도출되는 단계; 및 상기 서버에 구비된 확률값 산출 모듈에 의해 상기 정합성 기반으로 상기 뉴스가 가짜일 확률이 산출되는 단계;를 포함하는 것을 특징으로 한다.
또한, 상기 식별 모듈에 의해 기 설정된 분석 방법에 의해 상기 판별 요소가 분석되며, 상기 분석 방법은, 상기 뉴스의 제목 및 본문이 일치하는지의 여부를 분석하는 제1 분석 방법 및 상기 뉴스의 내용의 맥락과 관계없는 문장이 섞여있는지의 여부를 분석하는 제2 분석 방법을 포함하는 것이 바람직하다.
또한, 상기 제1 분석 방법과 제2 분석 방법 중 적어도 하나의 분석 방법을 통해 단어 패턴이 생성되고, 상기 단어 패턴 및 상기 정합성에 의해 상기 뉴스의 가짜 여부가 판단되는 것이 바람직하다.
더 나아가, 상기 목적을 달성하기 위해 본 발명은 가짜 뉴스 판단 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체를 제공한다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 첨부 도면들에 포함되어 있다.
본 발명의 이점 및/또는 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예를 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예는 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다.
이상에서 살펴본 바와 같이, 본 발명에 의하면, 뉴스의 제목 및 내용을 기반으로 가짜 뉴스를 판별하여 이를 차단하거나 줄일 수 있다.
도 1은 본 발명의 바람직한 일 실시 예에 따른 가짜 뉴스 판단 시스템을 설명하기 위한 개념도이다.
도 2는 본 발명의 바람직한 일 실시 예에 따른 가짜 뉴스 판단 시스템의 정보 수집 모듈을 설명하기 위한 개념도이다.
도 3은 본 발명의 바람직한 일 실시 예에 따른 가짜 뉴스 판단 시스템의 식별 모듈을 설명하기 위한 개념도이다.
도 4는 본 발명의 바람직한 일 실시 예에 따른 가짜 뉴스 판단 시스템의 식별 모듈에서의 제1 분석 방법을 설명하기 위한 개념도이다.
도 5는 본 발명의 바람직한 일 실시 예에 따른 가짜 뉴스 판단 시스템의 식별 모듈에서의 제1 분석 방법을 더 설명하기 위한 개념도이다.
도 6은 본 발명의 바람직한 일 실시 예에 따른 가짜 뉴스 판단 시스템의 식별 모듈에서의 제2 분석 방법을 설명하기 위한 개념도이다.
도 7은 본 발명의 바람직한 일 실시 예에 따른 가짜 뉴스 판단 시스템의 제1 분석 방법에 따라 도출된 정합성 분포를 나타내는 그래프이다.
도 8은 본 발명의 바람직한 일 실시 예에 따른 가짜 뉴스 판단 시스템의 제2 분석 방법에 따라 도출된 정합성 분포를 나타내는 그래프이다.
도 9는 본 발명의 바람직한 일 실시 예에 따른 가짜 뉴스 판단 방법을 설명하기 위한 흐름도이다.
본 발명을 상세하게 설명하기 전에, 본 명세서에서 사용된 용어나 단어는 통상적이거나 사전적인 의미로 무조건 한정하여 해석되어서는 아니되며, 본 발명의 발명자가 자신의 발명을 가장 최선의 방법으로 설명하기 위해서 각종 용어의 개념을 적절하게 정의하여 사용할 수 있고, 더 나아가 이들 용어나 단어는 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 함을 알아야 한다.
즉, 본 명세서에서 사용된 용어는 본 발명의 바람직한 실시예를 설명하기 위해서 사용되는 것일 뿐이고, 본 발명의 내용을 구체적으로 한정하려는 의도로 사용된 것이 아니며, 이들 용어는 본 발명의 여러 가지 가능성을 고려하여 정의된 용어임을 알아야 한다.
또한, 본 명세서에 있어서, 단수의 표현은 문맥상 명확하게 다른 의미로 지시하지 않는 이상, 복수의 표현을 포함할 수 있으며, 유사하게 복수로 표현되어 있다고 하더라도 단수의 의미를 포함할 수 있음을 알아야 한다.
본 명세서의 전체에 걸쳐서 어떤 구성 요소가 다른 구성 요소를 "포함"한다고 기재하는 경우에는, 특별히 반대되는 의미의 기재가 없는 한 임의의 다른 구성 요소를 제외하는 것이 아니라 임의의 다른 구성 요소를 더 포함할 수도 있다는 것을 의미할 수 있다.
더 나아가서, 어떤 구성 요소가 다른 구성 요소의 "내부에 존재하거나, 연결되어 설치된다"고 기재한 경우에는, 이 구성 요소가 다른 구성 요소와 직접적으로 연결되어 있거나 접촉하여 설치되어 있을 수 있고, 일정한 거리를 두고 이격되어 설치되어 있을 수도 있으며, 일정한 거리를 두고 이격되어 설치되어 있는 경우에 대해서는 해당 구성 요소를 다른 구성 요소에 고정 내지 연결시키기 위한 제 3의 구성 요소 또는 수단이 존재할 수 있으며, 이 제3의 구성 요소 또는 수단에 대한 설명은 생략될 수도 있음을 알아야 한다.
반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결"되어 있다거나, 또는 "직접 접속"되어 있다고 기재되는 경우에는, 제 3의 구성 요소 또는 수단이 존재하지 않는 것으로 이해하여야 한다.
마찬가지로, 각 구성 요소 간의 관계를 설명하는 다른 표현들, 즉 " ~ 사이에"와 "바로 ~ 사이에", 또는 " ~ 에 이웃하는"과 " ~ 에 직접 이웃하는" 등도 마찬가지의 취지를 가지고 있는 것으로 해석되어야 한다.
또한, 본 명세서에 있어서 "일면", "타면", "일측", "타측", "제 1", "제 2" 등의 용어는, 사용된다면, 하나의 구성 요소에 대해서 이 하나의 구성 요소가 다른 구성 요소로부터 명확하게 구별될 수 있도록 하기 위해서 사용되며, 이와 같은 용어에 의해서 해당 구성 요소의 의미가 제한적으로 사용되는 것은 아님을 알아야 한다.
또한, 본 명세서에서 "상", "하", "좌", "우" 등의 위치와 관련된 용어는, 사용된다면, 해당 구성 요소에 대해서 해당 도면에서의 상대적인 위치를 나타내고 있는 것으로 이해하여야 하며, 이들의 위치에 대해서 절대적인 위치를 특정하지 않는 이상은, 이들 위치 관련 용어가 절대적인 위치를 언급하고 있는 것으로 이해하여서는 아니된다.
더욱이, 본 발명의 명세서에서는, "…부", "…기", "모듈", "장치" 등의 용어는, 사용된다면, 하나 이상의 기능이나 동작을 처리할 수 있는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어, 또는 하드웨어와 소프트웨어의 결합으로 구현될 수 있음을 알아야 한다.
또한, 본 명세서에서는 각 도면의 각 구성 요소에 대해서 그 도면 부호를 명기함에 있어서, 동일한 구성 요소에 대해서는 이 구성 요소가 비록 다른 도면에 표시되더라도 동일한 도면 부호를 가지고 있도록, 즉 명세서 전체에 걸쳐 동일한 참조 부호는 동일한 구성 요소를 지시하고 있다.
본 명세서에 첨부된 도면에서 본 발명을 구성하는 각 구성 요소의 크기, 위치, 결합 관계 등은 본 발명의 사상을 충분히 명확하게 전달할 수 있도록 하기 위해서 또는 설명의 편의를 위해서 일부 과장 또는 축소되거나 생략되어 기술되어 있을 수 있고, 따라서 그 비례나 축척은 엄밀하지 않을 수 있다.
또한, 이하에서, 본 발명을 설명함에 있어서, 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 구성, 예를 들어, 종래 기술을 포함하는 공지 기술에 대한 상세한 설명은 생략될 수도 있다.
이하에서는 본 발명의 일 실시 예에 따른 가짜 뉴스 판단 시스템, 판단 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체를 설명한다.
먼저, 도 1을 참조하여 본 발명의 일 실시 예에 따른 가짜 뉴스 판단 시스템을 설명한다.
도 1은 본 발명의 바람직한 일 실시 예에 따른 가짜 뉴스 판단 시스템을 설명하기 위한 개념도이다.
도 1에 도시된 바와 같이, 본 발명의 가짜 뉴스 판단 시스템은 서버(100), 통신망(200) 및 적어도 하나의 사용자 단말기(300)를 포함하는 것이 바람직하다.
서버(100)는 정보 수집 모듈(110), 식별 모듈(120), 확률값 산출 모듈(130), 데이터셋 생성 모듈(140), 데이터베이스(150), 인공지능 처리장치(160), 요청 입력부(170) 및 출력부(180)를 포함하는 것이 바람직하다. 이와 같은 서버(100)의 각각의 모듈들은 하나 이상의 프로세서가 구비된 것이 바람직하다.
정보 수집 모듈(110)에서 정보 데이터가 수집되고, 식별 모듈(120)에 의해 가짜 판별 대상 뉴스로부터의 판별 요소가 추출 및 분석되어 정합성이 도출되고, 확률값 산출 모듈(130)에서 정합성 기반으로 가짜 판별 대상 뉴스가 가짜일 확률이 산출되는 것이 바람직하다.
정보 수집 모듈(110)은 서버(100)에서 데이터 크롤링 (data crawling) 기술을 이용하여 진짜 뉴스, 가짜 뉴스, 및 이외의 가짜 뉴스를 판단하기 위해 사용될 수 있는 다양한 정보들을 포함하는 정보 데이터를 수집하는 유닛인 것이 바람직하다.
데이터 크롤링은 무수히 많은 컴퓨터에 분산 저장되어 있는 문서를 수집하여 검색 대상의 색인으로 포함시키는 기술로서, 본 발명에서는 특히 뉴스 관련 정보 데이터를 용이하게 수집할 수 있도록 적용된다.
확률값 산출 모듈(130)은 식별 모듈(120)로부터 도출된 정합성을 기반으로 가짜 판별 대상인 뉴스가 가짜일 확률을 산출하는 것이 바람직하다. 이때 산출된 확률값은 정규화를 거쳐 1차적으로는 그래프로 출력되고, 그래프의 형태에 따라 최종적인 판별 결과가 도출될 수 있다.
데이터셋 생성 모듈(140)에서는 식별 모듈(120) 및 확률값 산출 모듈(130)로부터의 데이터가 기계 학습을 위한 훈련 데이터셋으로 생성될 수 있다. 데이터셋 생성 모듈(140)은 식별 모듈(120) 및 확률값 산출 모듈(130)과 연결되어, 식별 모듈(120)에서의 데이터를 가공하여 기계 학습을 위한 훈련 데이터셋을 생성하는 기 설정된 알고리즘이 저장된 장치인 것이 바람직하다.
예를 들어, 데이터셋 생성 모듈(140)은 가짜 판별 대상 뉴스로부터의 제목 및 내용의 단어 / 문장 / 문서의 분류 및 이에 대한 정합성 분포를 포함하는 기 설정된 형식의 패턴인 데이터셋을 생성할 수 있다.
데이터베이스(150)는 데이터셋 생성 모듈(140)에서 생성된 훈련 데이터셋을 저장한다. 데이터베이스(150)는 훈련 데이터셋뿐만 아니라, 식별 모듈(120), 확률값 산출 모듈(130) 및 인공지능 처리장치(160)와도 연결되어, 각각으로부터의 데이터를 저장할 수 있다.
인공지능 처리장치(160)는 훈련 데이터셋을 기반으로 기계 학습을 수행하여 인공지능 모델(161)을 생성하는 유닛인 것이 바람직하다. 인공지능 처리장치(160)에서는 데이터셋 생성 모듈(140)로부터의 훈련 데이터셋을 사용하여 인공지능 모델(161)을 생성하고, 인공지능 모델(161)은 데이터베이스(150)에 저장되는 것이 바람직하다.
인공지능 처리장치(160)에는 인공지능에 쓰이는 알고리즘이 저장되어 있고, 상기 알고리즘은 인공 신경망 (artificial neural networks) 또는 퍼지 신경망(fuzzy neural networks)을 사용하는 것이 바람직하다. 특히, 인공지능 처리장치(160)에는 자연어 처리를 위한 알고리즘이 저장되어 있는 것이 바람직하다.
인공 신경망은 구조 및 기능에 따라 여러 종류로 구분되며, 가장 일반적인 인공 신경망은 한 개의 입력층과 출력층 사이에 다수의 은닉층(hidden layer)이 있는 다층 퍼셉트론(multilayer perceptron)이다. 인공 신경망은 인공지능 처리장치(160)를 통해 구현될 수 있으며, 기초 컴퓨팅 단위인 뉴런 여러 개가 가중된 링크(weighted link)로 연결된 형태로서, 가중된 링크(weighted link)는 주어진 환경에 적응할 수 있도록 가중치를 조정할 수 있다.
인공 신경망은 자기 조직화 지도(SOM: Self-Organizing Map), 순환 신경망(RNN: Recurrent Neural Network), 콘볼루션 신경망(CNN: Convolutional Neural Network)과 같은 다양한 모델을 포함하며, 이에 한정되지 않는다.
퍼지 신경망은 규칙들을 언어적으로 표현하거나 지식 베이스에 새로운 규칙을 갱신하는데 신경망의 학습 능력을 이용하는 시스템이다. 본 발명에서 퍼지 신경망을 사용할 경우, 규칙들은 단어 패턴, 정합성, 및/또는 가짜 확률값 등을 산출하는 데에 정의되어 사용될 수 있다. 여기서 단어 패턴은, 가짜 판별 대상 뉴스에서의 제목 및 본문 내용에서의 단어들이 불일치하는지에 따라 달라지며, 이는 예를 들어 도 4 및 도 5에 도시된 바와 같다.
데이터베이스(150)에 저장된 이와 같은 인공지능 모델(161)을 통해 추후 요청 입력부(170)를 통해 입력되는 가짜 판별 대상 뉴스의 가짜 여부가 신속하게 판별될 수 있다. 가짜 여부는 뉴스가 가짜일 확률을 출력부(180)를 통해 출력되어 사용자 통신망(200)을 통해 사용자 단말기(300)로 송신될 수 있다.
요청 입력부(170)는 사용자 단말기로부터 가짜 뉴스 판단 요청을 입력받는 유닛인 것이 바람직하다. 여기서 가짜 뉴스 판단 요청은 사용자 단말기(300)로부터 수신된 요청으로서, 판단하고자 하는 뉴스의 제목 및 본문 내용 등을 포함하는 정보인 것이 바람직하다.
사용자 단말기(300)는 스마트폰, 태블릿, 터치 스크린, 웨어러블 일종인 스마트 와치 등이 구비된 컴퓨터 등과 같은 사용자 단말기인 것이 바람직하다.
요청 입력부(170)에 요청이 입력되면, 인공지능 처리장치(160)로 생성되어 데이터베이스(150)에 저장된 인공지능 모델(161)이 사용되어 사용자 단말기(300) 상에 디스플레이된 뉴스가 가짜일 확률이 산출될 수 있다.
이와 같이 산출된 확률값은 출력부(180)를 통해 출력되어 서버(100)로부터 통신망(200)을 통해 사용자 단말기(300)로 전송될 수 있다.
다음은 도 2를 참조하여 정보 수집 모듈(110)의 구성을 더 상세하게 설명한다.
도 2는 본 발명의 바람직한 일 실시 예에 따른 가짜 뉴스 판단 시스템의 정보 수집 모듈(110)을 설명하기 위한 개념도이다.
도 2에 도시된 바와 같이, 본 발명의 정보 수집 모듈(110)은, 서비스 관리자(111), 수집 관리자(112), 데이터 정제 관리자(113), 분석 관리자(114) 및 저장 관리자(115)를 포함하는 것이 바람직하다.
이와 같은 구조의 정보 수집 모듈(110)에 의하면, 문서, HTML, 이미지, 음악, 동영상 등 다양한 콘텐츠를 수집할 수 있으며, 각각의 관리자(111, 112, 113, 114, 115)에 의해 데이터가 수집, 가공 및 보관됨으로써 필요한 데이터를 용이하게 얻을 수 있다. 여기서 관리자(111, 112, 113, 114, 115)는 기 설정된 알고리즘이 저장되어 데이터를 처리하는 하나 이상의 프로세서를 포함하는 유닛일 수 있다.
정보 수집 모듈(110)에 대해 수집 규칙이 설정되고 관리됨으로써 유니코드 및 다국어 데이터 지원이 가능하며, 블로그, 카페, 뉴스로부터의 정보 수집이 가능하며, 이와 같은 수집 대상이 분류 및 관리될 수 있다.
즉, 정보 수집 모듈(110)에 의해 자바스크립트가 해석 및 처리됨으로써 수집상태 및 오류도 분석될 수 있으며, 다양한 문서로부터 특정 정보가 자동으로 추출될 수도 있다.
뉴스의 특성상 늘 새로운 정보를 토대로 새로운 뉴스가 제작되어, 이에 따라 정보 데이터가 수집되는 주기도 중요하다. 수집 관리자(112)에 의해 정보 데이터가 수집되는 스케줄이 관리되는 것이 바람직하다.
데이터 정제 관리자(113)에 의해 정보 데이터 중 중복되는 문서 및 데드 링크(dead link)를 처리하여 불필요한 데이터가 제거되는 것이 바람직하다. 데이터에 빠진 부분이 있는 경우, 중복으로 들어간 데이터의 경우, 이상한 값이 들어가 있는 경우 등이 있으나, 본 발명에서는 훈련 모델에 적합한 형태로 이와 같은 데이터를 가공하는데 단계를 데이터 정제라고 한다.
학습을 하기 위해서는 데이터를 수집하고 무작위로 표본을 추출한다. 하지만 수집된 데이터는 그대로 활용할 수 없으므로, 데이터 정제 관리자(113)에 의해 데이터 검증 및 정제를 하여 활용할 수 있는 데이터로 만들 수 있다. 특히, 잘못된 데이터는 학습 결과에 부정적인 영향을 미치므로 이와 같은 데이터 정제 관리자(113)에서의 전처리 및 정제 과정은 매우 중요하다.
또한, 저장 관리자(115)에 의해 시스템 이중화 데이터가 압축되어 저장되고, 필요에 따른 백업 등을 통해 시스템 안정성이 확보될 수도 있다.
전술된 정보 수집 모듈(110)에 의하면 정형 및 비정형 데이터가 수집 가능하다. 정형 데이터란, 기존에 데이터베이스에 저장이 되는 규격화된 데이터로, 한정된 정보 속에서 만들어지는 데이터로 이해될 수 있다. 비정형 데이터란, 정형데이터와 반대로, 고정된 곳에서 얻어지는 정보가 아닌 페이스북, 트위터, 유튜브 영상, 이미지 파일, 음원 파일, 워드 문서 등등에서 생성되는 실시간 정보를 통하여 다른 정보 등을 추정해 나감으로써 획득하는 데이터로 이해될 수 있다.
그러나, 본 발명의 정보 수집 모듈(110)은 다양한 구조를 가질 수 있으며, 이에 한정되지 않는다. 예를 들어, 본 발명의 다른 정보 수집 모듈(110)은 서버형 검색 엔진으로서 대용량의 검색 / 색인을 지원하는 장치일 수 있다. 이와 같은 정보 수집 모듈(110)의 검색 대상은 파일, 웹 데이터 및 특정 데이터베이스일 수 있다.
또 다른 실시 예에서 정보 수집 모듈(110)은 모바일 검색 엔진으로서 스마트폰과 같은 휴대용 단말기 상에서 응용 소프트웨어로서 설치되어, 검색 대상으로서는 파일 및 특정 데이터베이스가 포함될 수 있다.
또 다른 실시 예에서 정보 수집 모듈(110)은 빅데이터 처리 플랫폼으로서, 대용량 데이터 크롤링을 지원할 수 있다. 예를 들어, 국내/외 웹 문서, 뉴스, 블로그, 카페, 게시판, SNS 등을 검색 대상으로 하고, 텍스트 마이닝, 데이터 마이닝, 통계적 분석, 소셜 분석을 지원하는 장치인 것이 바람직하다. 또한, 이와 같은 정보 수집 모듈(110)은 데이터 통계, 소셜 인지도, 호감도, 이슈키워드, 로그분석 서비스 제공할 수 있으며, 사전 관리(형태소 기분석 사전, 개체명 사전, 신조어/동의어/반의어 사전 등)를 통해 더 정확한 언어 처리가 가능하다.
다음은 도 3 내지 도 6을 참조하여 식별 모듈(120) 및 식별 모듈(120)에서 제1 분석 방법 및 제2 분석 방법을 통해 생성되는 단어 패턴을 더 상세하게 설명한다.
도 3은 본 발명의 바람직한 일 실시 예에 따른 가짜 뉴스 판단 시스템의 식별 모듈(120)을 설명하기 위한 개념도이다.
식별 모듈(120)은 수집 및 입력된 정보 데이터 기반으로 가짜 판별 대상인 뉴스로부터의 판별 요소들을 추출하고 분석하여 정합성을 도출하는 것이 바람직하다. 판별 요소는 정보 데이터에 대한 언어 처리를 통해 추출되는 것이 바람직하다.
언어 처리는 식별 모듈(120)의 적어도 하나의 프로세서에 의해 이루어질 수 있다. 더 상세하게는, 식별 모듈(120)에 의해 가짜 판별 대상 뉴스에 대한 형태소 분석 단계, 개체명 인식 단계, 어휘 의미 분석 단계, 구문 분석 단계, 의미역 인식 단계, 상호 참조 단계, 대용어 처리 단계, 및 문장 분리 단계 중 적어도 어느 하나가 수행될 수 있다.
이와 같은 언어 처리를 통해 판별 요소로서 반의어, 페러프레이징(유의어), 특정 단어, 개체명, 행위자, 순위 등의 요소들이 있을 수 있다. 판별 요소들의 비교 분석을 통해 판별 대상 뉴스가 가짜인지 진짜인지 판별 가능하다.
분석 방법으로는 판별 대상 뉴스의 제목 및 본문이 일치하는지의 여부를 분석하는 제1 분석 방법 및 판별 대상 뉴스의 내용의 맥락과 관계없는 문장이 섞여있는지의 여부를 분석하는 제2 분석 방법이 포함된다.
제1 분석 방법 및 제2 분석 방법은 모두 식별 모듈(120)에서 수행되는 것이 바람직하며, 공통적으로 요약부(121)에 의해 가짜 판별 뉴스의 내용이 요약된다.
요약부(121)는 제목 요약부(121a), 본문 요약부(121b) 및 문장별 요약부(121c)를 포함하는 것이 바람직하다. 각각의 제목 요약부(121a), 본문 요약부(121b) 및 문장별 요약부(121c)를 통해 뉴스의 제목, 본문 및 본문의 문장별로 내용의 요약이 이루어질 수 있다.
특히, 제목 요약부(121a) 및 본문 요약부(121b)에 의해 제1 분석 방법이 수행되는 것이 바람직하다. 예를 들어, 제목 요약부(121a)를 통해 뉴스 제목에서 적어도 하나의 특정 단어가 추출되고, 본문 요약부(121b)를 통해 뉴스의 본문에서도 적어도 하나의 특정 단어가 추출된다. 제목의 특정 단어 및 본문의 특정 단어는 비교 분석부(122)를 통해 비교되고 정합성 도출부(123)를 통해 비교 분석 결과에 기초하여 제목 및 본문의 일치 여부가 수치화되어 도출된다.
또한, 문장별 요약부(121c)에 의해 제2 분석 방법이 수행되는 것이 바람직하다. 예를 들어, 문장별 요약부(121c)를 통해 뉴스의 문장별로 적어도 하나의 특정 단어가 추출되고, 비교 분석부(122)를 통해 비교되어 정합성 도출부(123)를 통해 뉴스의 맥락 중 관계없는 문장이 섞여있는지의 여부가 수치화되어 도출된다.
비교 분석부(122)에서는 제1 분석 방법 및 제2 분석 방법 각각을 수행할 수 있다. 비교 분석부(122)에서 제목 요약부(121a) 및 본문 요약부(121b) 각각에 의해 추출된 특정 단어들이 비교된다.
도 4 및 도 5를 참조하여 제1 분석 방법에 따른 단어 패턴을 더 상세하게 설명한다.
도 4는 본 발명의 바람직한 일 실시 예에 따른 가짜 뉴스 판단 시스템의 식별 모듈(120)에서의 제1 분석 방법에서 뉴스의 제목 및 본문이 불일치할 경우의 단어 패턴을 설명하기 위한 개념도이다.
도 4에 도시된 바와 같이, 비교 분석부(122)에 의해 뉴스의 제목 및 본문이 불일치한 것으로 판단되면, 비교 분석부(122)에서 클래스(class) 및 인스턴스(instance)에 포함된 특정 단어들이 더 세부적으로 분석된다.
클래스는 속성과 메소드를 공유하는 유사한 성질의 객체들을 하나로 그룹화한 것이다. 인스턴스는 클래스의 구성원으로, 객체, 클래스 인스턴스(class instance) 또는 객체 인스턴스(object instance)라고도 한다. 클래스 내부에는 해당 클래스의 객체를 위한 데이터 구조와 메소드 구현의 세부 사항을 기술한다.
인스턴스는 일반적으로 어떤 집합에 대해서, 그 집합의 개별적인 요소를 의미한다. 객체 지향 프로그래밍에서, 어떤 등급에 속하는 각 객체를 인스턴스라고 한다. 예를 들면 ‘목록(list)’이라는 등급을 정의하고 그 다음에 ‘본인 목록(my list)’이라는 객체를 생성(기억 장치 할당)하면 그 등급의 인스턴스가 생성된다. 또한 변수가 포함되어 있는 어떤 논리식의 변수에 구체적인 값을 대입하여 식을 만들면 원래 식의 인스턴스가 만들어진다. 이런 의미에서 인스턴스를 실현치라고 한다.
도 4에 도시된 바와 같이, 본 발명에서는 '특정 단어'라는 등급이 정의되고 '축약어'와 같은 객체가 생성되어 인스턴스가 생성될 수 있다. 뉴스의 제목 및 본문이 불일치하였으나, 불일치한 부분에서의 특정 단어 간의 관계가 축약어일 경우, 뉴스는 진짜 뉴스일 확률이 높다. 이와 반면에, 불일치한 부분에서의 특정 단어 간의 관계가 반의어일 경우, 뉴스는 가짜 뉴스일 확률이 높다.
제목 및 본문 각각의 특정 단어들 간의 관계가 반의어, 유의어, 축약어 등이 아닌, 추가, 삭제 변경일 경우, 각 경우별로 비교 분석을 통한 가짜/진짜 판별이 이루어지는 것이 바람직하다. 즉, 특정 단어 생략, 특정 단어 추가, 개체명 변경, 클래스 단어 변경, 수치 변경, 행위자 변경, 순위 변경, 등의 변경 여부들을 분석하는 것이 바람직하다.
도 5는 본 발명의 바람직한 일 실시 예에 따른 가짜 뉴스 판단 시스템의 식별 모듈(120)에서의 제1 분석 방법에서 뉴스의 제목 및 본문이 일치할 경우의 단어 패턴을 설명하기 위한 개념도이다.
도 5에 도시된 바와 같이, 제목 및 본문이 일치할 경우에도 클래스/인스턴스 가 비교 분석되어 행위자가 변경되었는지의 여부, 순위가 변경되었는지의 여부 등이 분석될 수 있다. 예를 들어, 순위는 사실상 A사가 1등인데 본문에서는 2등이라고 소개할 경우, 이는 가짜 뉴스일 확률이 높다.
도 6을 더 참조하여 제2 분석 방법에 따른 단어 패턴을 더 상세하게 설명한다.
도 6은 본 발명의 바람직한 일 실시 예에 따른 가짜 뉴스 판단 시스템의 식별 모듈(120)에서의 제2 분석 방법을 설명하기 위한 개념도이다. 제2 분석 방법에 따르면 판별 대상 뉴스의 내용의 맥락과 관계없는 문장이 섞여있는지의 여부를 분석할 수 있다.
도 6에 도시된 바와 같이, 각각의 제목, 문장 1, 문장 2, 문장 3의 박스 내의 동그라미들은 요약 모듈(121)에 의해 추출된 특정 단어들인 것이 바람직하다. 특정 단어들의 연결 관계에 따라 뉴스의 맥락이 일정한지 판단이 가능하다.
가짜 뉴스일수록 특정 단어들 중 서로 연결 관계가 없는 단어들이 많다. 이에 따라, 제목 연결 정도 및 다수의 문장들 간의 연결 정도에 따라 가짜 뉴스 확률이 산출될 수 있어, 정합성을 도출하는 단계에서 이를 고려한 가중치가 높게 책정되는 것이 바람직하다.
즉, 제목과 연결시, 관계있는 문장과 다수의 문장의 연결 시 관계있는 문장이 많을수록 뉴스가 진짜 뉴스일 확률이 높아진다.
다음은 도 7 및 도 8을 참조하여 본 발명의 각각의 분석 방법에 따른 정합성의 분포도를 설명한다.
도 7은 본 발명의 바람직한 일 실시 예에 따른 가짜 뉴스 판단 시스템의 제1 분석 방법에 따라 도출된 정합성 분포를 나타내는 그래프이다.
삭제
삭제
삭제
삭제
도 7에 도시된 바와 같이, 250개의 진짜 및 가짜 뉴스가 분석된 결과, 각각의 제목 정합성의 평균치가 서로 상이한 추이로 나타났다. 이에 따라 제목 정합성을 기반으로 진짜 및 가짜 뉴스가 서로 구별이 가능하다.
따라서, 본 발명의 일 실시 예에 따른 데이터셋 생성 모듈(140)에서는 제목 정합성을 기반으로 데이터셋이 생성될 수 있으며, 인공지능 처리장치(160)에서 기계 학습을 통해 인공지능 모델(161)이 생성되어 가짜 뉴스 판별이 가능하다.
도 8을 참조하여 본 발명의 제2 분석 방법에 따른 정합성의 분포도를 설명한다.
도 8은 본 발명의 바람직한 일 실시 예에 따른 가짜 뉴스 판단 시스템의 제2 분석 방법에 따라 도출된 정합성 분포를 나타내는 그래프이다.
삭제
삭제
삭제
삭제
도 8에 도시된 바와 같이, 250개의 진짜 및 가짜 뉴스가 분석된 결과, 각각의 문장 정합성의 평균치가 서로 상이한 추이로 나타났다. 이에 따라 문장 정합성을 기반으로 진짜 및 가짜 뉴스가 서로 구별이 가능하다.
따라서, 본 발명의 일 실시 예에 따른 데이터셋 생성 모듈(140)에서는 문장정합성을 기반으로 데이터셋이 생성될 수 있으며, 인공지능 처리장치(160)에서 기계 학습을 통해 인공지능 모델(161)이 생성되어 가짜 뉴스 판별이 가능하다.
다음은 도 9를 참조하여 본 발명의 바람직한 일 실시 예에 따른 가짜 뉴스 판단 방법을 설명한다.
도 9는 본 발명의 바람직한 일 실시 예에 따른 가짜 뉴스 판단 방법을 설명하기 위한 흐름도이다.
도 9에 도시된 바와 같이, 본 발명의 가짜 뉴스 판단 방법은, 정보 수집 단계(S100), 제목 요약 단계(S200), 본문 요약 단계(S310) 및/또는 문장별 요약 단계(S320), 비교 분석 단계(S410), 정합성 도출 단계(S420), 확률값 산출 단계(S500), 데이터셋 생성 단계(S600), 및 인공지능 모델 생성 단계(S700)를 포함할 수 있다.
본 발명의 가짜 뉴스 판단 방법에 의하면, 정보 수집 모듈(110)에서 정보 데이터가 수집되고(S100), 식별 모듈(120)에 의해 언어 처리를 통해 뉴스의 제목, 본문 및/또는 문장별로 특정 단어들이 추출되어 요약되고(S200, S310, S320), 이와 같은 추출된 단어들은 판별 요소로 사용되어 비교 분석부(122)에서 비교 분석(S410)되고, 정합성 도출부(123)에서 정합성이 도출되고(S420), 확률값 산출 모듈(130)에서 정합성 기반으로 가짜 판별 대상 뉴스가 가짜일 확률이 산출되는(S500) 것이 바람직하다.
확률값 산출 단계(S400)에서는, 서버(100)에 포함된 확률값 산출 모듈(130)에 의해 단어 패턴 및 정합성 기반으로 가짜 판별 대상 뉴스가 가짜 뉴스일 확률이 산출된다. 확률이 기설정된 수치 이상일 경우, 가자 판별 대상 뉴스는 가짜인 것으로 판별되는 것이 바람직하다.
즉, 제1 분석 방법 및/또는 제2 분석 방법을 통해 생성된 단어 패턴 및 도출된 정합성에 의해 뉴스의 가짜 여부가 판별 가능하다.
데이터셋 생성 단계(S500)에서는, 서버(100)에 포함된 데이터셋 생성 모듈(140)에 의해 각각의 가짜 판별 대상 뉴스에 대한 단어 패턴 및 정합성 기반으로 하나 이상의 클래스로 분류되어 훈련 데이터셋이 생성된다. 데이터 셋은 유효성 검증용, 테스트용, 학습용 등으로 구분하여 학습시킨다.
인공지능 모델 생성 단계(S600)에서는, 서버(100)에 포함된 인공지능 처리장치(160)에 의해 훈련 데이터셋을 기반으로 기계 학습이 수행되어 인공지능 모델(161)이 생성된다.
본 발명의 바람직한 일 실시 예에 따른 컴퓨터 판독 가능한 기록 매체는, 본 발명의 가짜 뉴스 판단 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체인 것을 특징으로 한다.
컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광 기록 매체, 플롭티컬 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상에서 살펴본 바와 같이, 본 발명의 가짜 뉴스 판단 시스템, 판단 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체에 의하면, 뉴스의 제목 및 내용을 기반으로 가짜 뉴스를 판별하여 이를 차단하거나 줄일 수 있다.
100: 서버
110: 정보 수집 모듈
111: 서비스 관리자
112: 수집 관리자
113: 데이터 정제 관리자
114: 분석 관리자
115: 저장 관리자
120: 식별 모듈
121: 요약 모듈
121a: 제목 요약부
121b: 본문 요약부
121c: 문장별 요약부
122: 비교 분석부
123: 정합성 도출부
130: 확률값 산출 모듈
140: 데이터셋 생성 모듈
150: 데이터베이스
160: 인공지능 처리장치
161: 인공지능 모델
170: 요청 입력부
180: 출력부
200: 통신망
300: 사용자 단말기

Claims (16)

  1. 사용자 단말기 및 상기 사용자 단말기와 통신 가능한 서버를 포함하며,
    상기 서버는,
    정보 데이터를 수집하는 정보 수집 모듈;
    상기 정보 데이터에 포함된 뉴스로부터 판별 요소를 추출 및 분석하여 정합성을 도출하는 식별 모듈; 및
    상기 정합성 기반으로 상기 뉴스가 가짜일 확률을 산출하는 확률값 산출 모듈;을 포함하고,
    상기 식별 모듈에 의해 기 설정된 분석 방법에 의해 상기 판별 요소가 분석되며,
    상기 분석 방법은, 상기 뉴스의 제목 및 본문이 일치하는지의 여부를 분석하는 제1 분석 방법 및 상기 뉴스의 내용의 맥락과 관계없는 문장이 섞여있는지의 여부를 분석하는 제2 분석 방법을 포함하며,
    상기 식별 모듈은 제목 요약부, 본문 요약부 및 문장별 요약부가 구비된 요약부를 포함하여 상기 뉴스의 제목, 본문 및 본문의 문장별로 내용의 요약이 이루어지고,
    상기 식별 모듈은 상기 요약부와 연결된 비교 분석부 및 정합성 도출부를 더 포함하는 것을 특징으로 하는,
    가짜 뉴스 판단 시스템.
  2. 제 1 항에 있어서,
    데이터 크롤링 (crawling) 기술을 이용하여 상기 정보 데이터가 수집되는 것을 특징으로 하는,
    가짜 뉴스 판단 시스템.
  3. 제 1 항에 있어서,
    상기 판별 요소는 정보 데이터에 대한 언어 처리를 통해 추출되고,
    상기 판별 요소는 반의어, 페러프레이징(유의어), 특정 단어, 개체명, 행위자 및 순위 중 적어도 어느 하나를 포함하는 것을 특징으로 하는,
    가짜 뉴스 판단 시스템.
  4. 제 1 항에 있어서,
    상기 식별 모듈에 의해 상기 뉴스에 대한 형태소 분석 단계, 개체명 인식 단계, 어휘 의미 분석 단계, 구문 분석 단계, 의미역 인식 단계, 상호 참조 단계, 대용어 처리 단계, 및 문장 분리 단계 중 적어도 어느 하나가 수행되는 것을 특징으로 하는,
    가짜 뉴스 판단 시스템.
  5. 삭제
  6. 삭제
  7. 삭제
  8. 제 1 항에 있어서,
    상기 제1 분석 방법은 상기 제목 요약부, 상기 본문 요약부, 상기 비교 분석부 및 상기 정합성 도출부에 의해 수행되고,
    상기 제1 분석 방법에서 상기 뉴스 제목에서 적어도 하나의 특정 단어가 추출되고, 상기 뉴스의 본문에서도 적어도 하나의 특정 단어가 추출되어 상기 비교 분석부를 통해 상기 제목의 특정 단어 및 상기 본문의 특정 단어가 비교되고,
    상기 정합성 도출부를 통해 비교 분석 결과에 기초하여 상기 제목 및 상기 본문의 일치 여부가 판단되는 것을 특징으로 하는,
    가짜 뉴스 판단 시스템.
  9. 제 1 항에 있어서,
    상기 제2 분석 방법이 상기 문장별 요약부, 상기 비교 분석부 및 상기 정합성 도출부에 의해 수행되고,
    상기 제2 분석 방법에서 상기 뉴스의 문장별로 적어도 하나의 특정 단어가 추출되고, 상기 비교 분석부를 통해 비교되어 상기 정합성 도출부를 통해 상기 뉴스의 맥락 중 관계없는 문장이 섞여있는지의 여부가 판단되는 것을 특징으로 하는,
    가짜 뉴스 판단 시스템.
  10. 제 1 항에 있어서,
    상기 식별 모듈 및 상기 확률값 산출 모듈과 연결된 데이터셋 생성 모듈을 더 포함하며,
    상기 데이터셋 생성 모듈에서는 상기 식별 모듈 및 상기 확률값 산출 모듈로부터의 데이터가 기계 학습을 위한 훈련 데이터셋으로 생성되는 것을 특징으로 하는,
    가짜 뉴스 판단 시스템.
  11. 제 10 항에 있어서,
    상기 데이터셋 생성 모듈은 상기 뉴스로부터의 제목 및 내용의 단어, 문장, 문서의 분류, 및 이에 대한 정합성 분포를 포함하는 기 설정된 형식의 패턴인 데이터셋을 생성하는 것을 특징으로 하는,
    가짜 뉴스 판단 시스템.
  12. 제 10 항에 있어서,
    상기 데이터셋 생성 모듈에 연결된 인공지능 처리장치를 더 포함하고,
    상기 인공지능 처리장치는 상기 훈련 데이터셋을 기반으로 기계 학습을 수행하여 인공지능 모델을 생성하는 것을 특징으로 하는,
    가짜 뉴스 판단 시스템.
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
KR1020190024763A 2019-03-04 2019-03-04 가짜 뉴스 판단 시스템 KR102180329B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190024763A KR102180329B1 (ko) 2019-03-04 2019-03-04 가짜 뉴스 판단 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190024763A KR102180329B1 (ko) 2019-03-04 2019-03-04 가짜 뉴스 판단 시스템

Publications (2)

Publication Number Publication Date
KR20200108937A KR20200108937A (ko) 2020-09-22
KR102180329B1 true KR102180329B1 (ko) 2020-11-19

Family

ID=72706995

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190024763A KR102180329B1 (ko) 2019-03-04 2019-03-04 가짜 뉴스 판단 시스템

Country Status (1)

Country Link
KR (1) KR102180329B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220083219A (ko) 2020-12-11 2022-06-20 (주)테슬라시스템 뉴스 콘텐츠의 신뢰도 판별 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008165598A (ja) * 2006-12-28 2008-07-17 National Institute Of Information & Communication Technology 風評情報抽出装置及び風評情報抽出方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101864439B1 (ko) 2017-04-13 2018-06-11 황대훈 가짜 뉴스 판별 가능한 게시글 그래픽 유저 인터페이스 화면창을 구비한 가짜 뉴스 판별 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008165598A (ja) * 2006-12-28 2008-07-17 National Institute Of Information & Communication Technology 風評情報抽出装置及び風評情報抽出方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Himanshu Gupta et al., ‘WhatsApp has a fake news problem? that can be fixed without breaking encryption’, columbia journalism review, pp.1-5, (2015.12.31)
K. Shu et al., Fake News Detection on Social media: A Data Mining Perspective, http://arXiv:1708.01967v3 (2017.12.19.)*
R. Ian, Satirical fake News and/as American Political Discourse, Journal of American Culture, 35(3), pp.258-275 (2012)
S. Chopra et al., Towards Automatic Identification of Fake News: Headline-Article Stance Detection with LSTM Attention Models, Stanford CS224d Deep Learning for NLP final project (2017)
이동호 외, 딥러닝 기법을 이용한 가짜뉴스 탐지, 2018년 춘계학술발표대회 논문집 제25권제1호 pp.384-387 (2018.05.)*

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220083219A (ko) 2020-12-11 2022-06-20 (주)테슬라시스템 뉴스 콘텐츠의 신뢰도 판별 방법

Also Published As

Publication number Publication date
KR20200108937A (ko) 2020-09-22

Similar Documents

Publication Publication Date Title
Mourad et al. Critical impact of social networks infodemic on defeating coronavirus COVID-19 pandemic: Twitter-based study and research directions
Zhou et al. Fake news: A survey of research, detection methods, and opportunities
Imran et al. Processing social media messages in mass emergency: A survey
TWI424325B (zh) 使用有機物件資料模型來組織社群智慧資訊的系統及方法
Kumar et al. Multimedia social big data: Mining
US20150032751A1 (en) Methods and Systems for Utilizing Subject Matter Experts in an Online Community
KR101695011B1 (ko) 토픽별 오피니언과 소셜 영향력자를 기반으로 토픽을 탐지하고 추적하는 시스템 및 방법
Ghahremanlou et al. Geotagging twitter messages in crisis management
US9069880B2 (en) Prediction and isolation of patterns across datasets
Kruspe et al. Detection of actionable tweets in crisis events
Garcia-Lopez et al. Analysis of relationships between tweets and stock market trends
Przybyła et al. When classification accuracy is not enough: Explaining news credibility assessment
Guiñazú et al. Employing online social networks in precision-medicine approach using information fusion predictive model to improve substance use surveillance: A lesson from Twitter and marijuana consumption
Kruspe Detection of informative tweets in crisis events
Lai et al. # brexit: Leave or remain? The role of user’s community and diachronic evolution on stance detection
Villena-Román et al. TweetAlert: Semantic Analytics in Social Networks for Citizen Opinion Mining in the City of the Future.
KR102135074B1 (ko) 인공지능 기반의 팩트 체크 가이드라인을 이용한 가짜 뉴스 판별 시스템
Patil et al. Live twitter sentiment analysis using streamlit framework
KR102242317B1 (ko) 정성적 가짜 뉴스 판단 시스템, 판단 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
KR102180329B1 (ko) 가짜 뉴스 판단 시스템
Zeng et al. Detecting journalism in the age of social media: three experiments in classifying journalists on twitter
Duong et al. Neurosymbolic AI for mining public opinions about wildfires
CN113177164B (zh) 基于大数据的多平台协同新媒体内容监控管理系统
Li Detecting false information in medical and healthcare domains: a text mining approach
Cuzzocrea et al. An innovative user-attentive framework for supporting real-time detection and mining of streaming microblog posts

Legal Events

Date Code Title Description
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant