KR102301969B1 - 인문사회 요소를 활용한 가짜 뉴스 판단 시스템, 가짜 뉴스 판단 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 - Google Patents

인문사회 요소를 활용한 가짜 뉴스 판단 시스템, 가짜 뉴스 판단 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 Download PDF

Info

Publication number
KR102301969B1
KR102301969B1 KR1020190078550A KR20190078550A KR102301969B1 KR 102301969 B1 KR102301969 B1 KR 102301969B1 KR 1020190078550 A KR1020190078550 A KR 1020190078550A KR 20190078550 A KR20190078550 A KR 20190078550A KR 102301969 B1 KR102301969 B1 KR 102301969B1
Authority
KR
South Korea
Prior art keywords
humanities
social
data
fake news
morpheme
Prior art date
Application number
KR1020190078550A
Other languages
English (en)
Other versions
KR20210003324A (ko
Inventor
강장묵
Original Assignee
글로벌사이버대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 글로벌사이버대학교 산학협력단 filed Critical 글로벌사이버대학교 산학협력단
Priority to KR1020190078550A priority Critical patent/KR102301969B1/ko
Publication of KR20210003324A publication Critical patent/KR20210003324A/ko
Application granted granted Critical
Publication of KR102301969B1 publication Critical patent/KR102301969B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Abstract

본 발명의 인문사회 요소를 활용한 가짜 뉴스 판단 시스템은, 사용자 단말기 및 사용자 단말기와 통신 가능한 서버를 포함하며, 서버는, 인문사회 정보 데이터를 수집하는 정보 수집 모듈; 인문사회 정보 데이터를 분석하여 형태소 데이터를 생성하는 형태소 분석기; 형태소 데이터로부터 인문사회 요소를 추출하여 인문사회 라이브러리를 생성하는 객체 분석기;를 포함하며, 이에 의하면, 인문학자 및 사회학자와 같은 전문가들의 의견을 포함한 인문사회 요소들이 반영되어 더 명확하게 가짜 뉴스를 판별하여 차단하거나 줄일 수 있다.

Description

인문사회 요소를 활용한 가짜 뉴스 판단 시스템, 가짜 뉴스 판단 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 {System for determining fake news using humanities and social elements, method for determining fake news, and computer-readable medium having a program recorded therein for executing the same}
본 발명은 인문사회 요소를 활용한 가짜 뉴스 판단 시스템, 가짜 뉴스 판단 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체에 관한 것으로, 더 상세하게는 가짜 뉴스를 더 정확하게 판별하기 위해 인문학 및 사회학적으로 접근하여 구성된 인공 지능 알고리즘을 이용한 시스템, 판단 방법 및 기록 매체에 관한 것이다.
경찰은 가짜 뉴스를 `실제 언론 보도처럼 보이도록 가공해 신뢰도를 높이는 방식으로 유포되는 정보'로 정의하고 있으며 한국언론진흥재단은 `정치·경제적 이익을 위해 의도적으로 언론 보도의 형식을 하고 유포된 거짓 정보'로 정의한다.
가짜 뉴스는 누구나 만들 수 있으며, 만들도록 도와주는 인터넷사이트도 수두룩하다. 데일리파닥은 기사처럼 제목, 기자 명을 넣고 사진을 첨부하면 어떤 내용도 기사 형태처럼 만들어주는 서비스를 제공한다. 가짜 뉴스를 만드는 걸 돕거나 장난 수준의 가짜 뉴스를 만드는 것이 위법은 아니라는 게 선거관리위원회 설명이다.
한국언론진흥재단의 가짜 뉴스 현황과 문제점(2017) 보고서에 따르면, 응답자의 76.3%가 포털, 페이스북, 카카오톡 등 인터넷 서비스를 통해 가짜 뉴스를 받은 것으로 나타났다. 가짜 뉴스의 유통 통로 중 절대 다수가 인터넷 서비스인 셈이다. 신문, TV 등 대중매체를 통해 접한 경우는 9.1%, 친구나 선후배 등 사적모임은 7.7%로 소수에 불과했다.
특히, 이중에서도 카카오톡, 라인 등 모바일 메신저로 가짜 뉴스를 받은 이용자가 39.7%로 가장 높았다. 눈에 띄는 부분은 50대에서 45.6%로 그 비중이 특히 높았다는 점이다. 선거철이 다가오면 정보취약계층인 노년층을 대상으로 카카오톡을 통해 특정 후보에 대한 가짜 뉴스가 유통되는 식이다. ‘요금할인’ 찌라시톡 정도는 ‘애교’ 수준이지만, 비방 등을 목적으로 한 허위사실 유포로 넘어가면 이야기가 심각해진다.
페이스북, 트위터 등 소셜플랫폼 역시 27.7%로 적지 않은 비율을 기록했다. 인터넷 카페/커뮤니티, 블로그도 24.3%로 높은 축에 속했다. 유튜브, 아프리카TV 등이 4.6%, 가짜 뉴스 사이트 3.7% 순이었다.
언론재단은 “온라인 이용자들은 단톡방 등에서 특정사실 또는 허위사실에 대한 글, 사진 등을 교환하는데, 이것이 밖으로 급속이 번져나가면서 가짜 뉴스가 되기도 한다”며 “가짜 뉴스의 유통은 모바일 메신저, 소셜 플랫폼 등 콘텐츠 유통플랫폼을 통해 매개돼 전파되고 있다”고 분석했다.
이에 따라, 신뢰할 수 있는 뉴스 출처를 확인함으로써 온라인 콘텐츠의 신뢰성에 대한 통찰력을 제공할 수 있는 도구가 필요한 실정이다.
종래기술로는, 국내등록특허 제10-1864439호(특허문헌 1)가 있다. 특허문헌 1은 가짜 뉴스 판별 가능한 게시글 그래픽 유저 인터페이스 화면창을 구비한 가짜 뉴스 판별 시스템을 제공한다.
이에 따르면, 진실(True), 거짓(Fake)의 댓글을 분리하여 감정적 싸움이 아닌 서로 논리적으로 논쟁할 수 있도록 여건을 조성하며, 의문이 가는 기사나 루머를 링크나 게시글 작성을 통하여 네티즌의 집단 자성을 활용하여 비교-판단하게 할 수 있다.
그러나, 이는 결국 네티즌의 대다수의 의견에 기반하여 판별이 이루어지는 것으로 가짜 뉴스를 명확하게 판별할 수 있는 시스템으로 보기 어려우며, 참여도가 저조할수록, 판별력이 떨어질 수밖에 없다는 한계가 있다. 또한, 이와 같은 임의의 네티즌 집단에 판별력이 결정되는 시스템은 신빙성에 한계가 있다.
현재는 가짜 뉴스가 생성될 때 작용하는 사회학적인 요소나 인문학적인 요소들을 분석함으로써 가짜 뉴스 여부를 판별하는 시스템이 없어, 정량적인 평가를 중심으로 뉴스의 가짜 여부가 판단될 수밖에 없었다.
가짜 뉴스가 생성, 유포 및 이로 인하여 발생하는 문제들을 해결하는 데에 사회과학적인 요소를 배제할 수 없다. 예를 들어, 한국인의 정서와 감수성 및 개개인의 기억에 대한 이해 등이 이와 같은 가짜 뉴스의 생성, 유포 및 문제 발생에 영향을 미친다.
또한, 예를 들어, 가짜 뉴스에 의해 유포된 거짓으로 인하여 서로 다른 기본권의 주체의 권익이 상충하는 문제가 발생할 수 있는데, 이때 해결 방안으로서 이익형량의 방법 또는 공리주의적 방법이 사용될 수 있으나, 이 또한 사회과학적인 접근으로 가짜 뉴스의 생성 의도부터 확인할 필요성이 있다.
따라서, 현재는, 이와 같은 사회과학적인 접근으로 인문사회 요소들을 반영하여 가짜 뉴스를 더 명확하게 판별할 수 있는 가짜 뉴스 판별 시스템이 필요한 실정이다.
KR 10-1864439 B1
상기한 바와 같은 종래의 문제점을 해결하기 위한 본 발명은, 사회과학적인 접근으로 인문사회 요소들을 수집, 분석 및 반영함으로써 더 명확하게 가짜 뉴스를 판별하여 차단하거나 줄일 수 있는 시스템, 방법, 및 컴퓨터 판독 가능한 기록 매체를 제공하는 것을 목적으로 한다.
또한, 본 발명은 가짜 뉴스 판별에 있어서 인문학자 및 사회학자와 같은 전문가들의 의견이 반영된 가짜 뉴스 판별 시스템, 방법, 및 컴퓨터 판독 가능한 기록 매체를 제공하는 것을 목적으로 한다.
상기 목적을 달성하기 위한 인문사회 요소를 활용한 가짜 뉴스 판단 시스템은, 사용자 단말기 및 상기 사용자 단말기와 통신 가능한 서버를 포함하며, 상기 서버는, 인문사회 정보 데이터를 수집하는 정보 수집 모듈; 상기 인문사회 정보 데이터를 분석하여 형태소 데이터를 생성하는 형태소 분석기; 및 상기 형태소 데이터로부터 인문사회 요소를 추출하여 인문사회 라이브러리를 생성하는 객체 분석기;를 포함하는 것이 바람직하다.
또한, 상기 인문사회 요소는 델파이 방법론을 통해 결정된 것이 바람직하다.
또한, 상기 인문사회 정보 데이터는 인문 및 사회 분야에서의 기 설정된 문제에 대한 정의 및 내용을 포함하는 다수 개의 문헌을 포함하는 것이 바람직하다.
또한, 상기 인문사회 정보 데이터는 상기 기 설정된 문제에 대한 전문가의 인터뷰 내용을 더 포함하는 것이 바람직하다.
또한, 상기 인문사회 라이브러리로부터 데이터 셋을 생성하여 가짜 뉴스 판단용 인공 지능 모델을 생성하는 인공지능 처리장치를 더 포함하는 것이 바람직하다.
또한, 데이터 크롤링(crawling) 기술을 이용하여 상기 인문사회 정보 데이터가 수집되는 것이 바람직하다.
또한, 상기 정보 수집 모듈은 가짜 뉴스 데이터를 더 수집하며, 상기 형태소 분석기는 상기 가짜 뉴스 데이터를 분석하여 추가 형태소 데이터를 생성하고, 상기 객체 분석기는 상기 추가 형태소 데이터로부터 판별 요소를 추출하여 가짜 뉴스 라이브러리를 생성하는 것이 바람직하다.
또한, 상기 판별 요소는 반의어, 페러프레이징(유의어), 특정 단어, 개체명, 행위자 및 순위 중 적어도 어느 하나를 포함하는 것이 바람직하다.
또한, 상기 인문사회 요소 및 상기 판별 요소는 각각 상기 형태소 데이터 및 상기 추가 형태소 데이터에 대한 언어 처리를 통해 추출되는 것이 바람직하다.
또한, 상기 객체 분석기에 의한 상기 언어 처리는, 상기 형태소 데이터 및 상기 추가 형태소 데이터에 대한 개체명 인식 단계, 어휘 의미 분석 단계, 구문 분석 단계, 의미역 인식 단계, 상호 참조 단계, 대용어 처리 단계, 및 문장 분리 단계 중 적어도 어느 하나가 수행되는 것이 바람직하다.
또한, 상기 인공지능 처리장치는 상기 가짜 뉴스 라이브러리로부터 데이터를 상기 데이터 셋에 포함시켜 생성하여 상기 가짜 뉴스 판단용 인공 지능 모델을 생성하는 것이 바람직하다.
또한, 상기 인문사회 라이브러리 및 상기 가짜 뉴스 라이브러리 각각으로부터 상기 데이터 셋을 생성시키는 데에 사용되는 데이터의 비중은 상기 인문사회 요소의 정확도 기반으로 결정되는 것이 바람직하다.
또한, 상기 정확도는 상기 인문사회 요소가 상기 인문사회 정보 데이터에서 검색된 빈도에 기초하여 결정되는 것이 바람직하다.
상기 목적을 달성하기 위한 본 발명의 인문사회 요소를 활용한 가짜 뉴스 판단 방법은, (a) 정보 수집 모듈에 의해 가짜 뉴스 정보 데이터 및 인문사회 정보 데이터가 수집되는 단계; (b) 형태소 분석기에 의해 언어 처리를 통해 상기 가짜 뉴스 정보 데이터가 분석되어 형태소 데이터가 생성되는 단계; 및 (c) 객체 분석기에 의해 상기 형태소 데이터로부터 판별 요소 및 인문사회 요소가 추출되어 각각을 포함하는 가짜 뉴스 라이브러리 및 인문사회 라이브러리가 생성되는 단계;를 포함하는 것이 바람직하다.
또한, (d) 인공지능 처리장치에 의해 상기 가짜 뉴스 라이브러리 및 상기 인문사회 라이브러리로부터 데이터 셋을 생성하여 가짜 뉴스 판단용 인공 지능 모델이 생성되는 단계를 더 포함하는 것이 바람직하다.
더 나아가, 상기 목적을 달성하기 위해 본 발명은 인문사회 요소를 활용한 가짜 뉴스 판단 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체를 제공한다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 첨부 도면들에 포함되어 있다.
본 발명의 이점 및/또는 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예를 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예는 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다.
이상에서 살펴본 바와 같이, 본 발명에 의하면, 가짜 뉴스에 대한 판별이 사회과학적인 근거를 통해 이루어질 수 있다.
또한, 가짜 뉴스의 선순환적 생태계를 형성하는 기술, 사회, 경제, 정치의 구성요소를 반영한 가짜 뉴스를 판별하여 이를 차단하거나 줄일 수 있다.
도 1은 본 발명의 바람직한 일 실시 예에 따른 인문사회 요소를 활용한 가짜 뉴스 판단 시스템을 설명하기 위한 개념도이다.
도 2는 본 발명의 바람직한 일 실시 예에 따른 인문사회 요소를 활용한 가짜 뉴스 판단 시스템의 인문사회 정보 데이터의 예시를 설명하기 위한 개념도이다.
도 3은 본 발명의 바람직한 일 실시 예에 따른 인문사회 요소를 활용한 가짜 뉴스 판단 시스템의 정보 수집 모듈을 설명하기 위한 개념도이다.
도 4는 본 발명의 바람직한 일 실시 예에 따른 인문사회 요소를 활용한 가짜 뉴스 판단 시스템의 객체 분석기에서의 판별요소 분석 방법을 설명하기 위한 개념도이다.
도 5는 본 발명의 바람직한 일 실시 예에 따른 인문사회 요소를 활용한 가짜 뉴스 판단 시스템의 객체 분석기에서의 판별요소 분석 방법을 더 설명하기 위한 개념도이다.
도 6은 본 발명의 바람직한 일 실시 예에 따른 인문사회 요소를 활용한 가짜 뉴스 판단 방법을 설명하기 위한 흐름도이다.
도 7은 본 발명의 바람직한 일 실시 예에 따른 인문사회 요소를 활용한 가짜 뉴스 판단 방법의 객체 분석 단계를 더 상세하게 설명하기 위한 흐름도이다.
본 발명을 상세하게 설명하기 전에, 본 명세서에서 사용된 용어나 단어는 통상적이거나 사전적인 의미로 무조건 한정하여 해석되어서는 아니되며, 본 발명의 발명자가 자신의 발명을 가장 최선의 방법으로 설명하기 위해서 각종 용어의 개념을 적절하게 정의하여 사용할 수 있고, 더 나아가 이들 용어나 단어는 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 함을 알아야 한다.
즉, 본 명세서에서 사용된 용어는 본 발명의 바람직한 실시예를 설명하기 위해서 사용되는 것일 뿐이고, 본 발명의 내용을 구체적으로 한정하려는 의도로 사용된 것이 아니며, 이들 용어는 본 발명의 여러 가지 가능성을 고려하여 정의된 용어임을 알아야 한다.
또한, 본 명세서에 있어서, 단수의 표현은 문맥상 명확하게 다른 의미로 지시하지 않는 이상, 복수의 표현을 포함할 수 있으며, 유사하게 복수로 표현되어 있다고 하더라도 단수의 의미를 포함할 수 있음을 알아야 한다.
본 명세서의 전체에 걸쳐서 어떤 구성 요소가 다른 구성 요소를 "포함"한다고 기재하는 경우에는, 특별히 반대되는 의미의 기재가 없는 한 임의의 다른 구성 요소를 제외하는 것이 아니라 임의의 다른 구성 요소를 더 포함할 수도 있다는 것을 의미할 수 있다.
더 나아가서, 어떤 구성 요소가 다른 구성 요소의 "내부에 존재하거나, 연결되어 설치된다"고 기재한 경우에는, 이 구성 요소가 다른 구성 요소와 직접적으로 연결되어 있거나 접촉하여 설치되어 있을 수 있고, 일정한 거리를 두고 이격되어 설치되어 있을 수도 있으며, 일정한 거리를 두고 이격되어 설치되어 있는 경우에 대해서는 해당 구성 요소를 다른 구성 요소에 고정 내지 연결시키기 위한 제 3의 구성 요소 또는 수단이 존재할 수 있으며, 이 제3의 구성 요소 또는 수단에 대한 설명은 생략될 수도 있음을 알아야 한다.
반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결"되어 있다거나, 또는 "직접 접속"되어 있다고 기재되는 경우에는, 제 3의 구성 요소 또는 수단이 존재하지 않는 것으로 이해하여야 한다.
마찬가지로, 각 구성 요소 간의 관계를 설명하는 다른 표현들, 즉 " ~ 사이에"와 "바로 ~ 사이에", 또는 " ~ 에 이웃하는"과 " ~ 에 직접 이웃하는" 등도 마찬가지의 취지를 가지고 있는 것으로 해석되어야 한다.
또한, 본 명세서에 있어서 "일면", "타면", "일측", "타측", "제 1", "제 2" 등의 용어는, 사용된다면, 하나의 구성 요소에 대해서 이 하나의 구성 요소가 다른 구성 요소로부터 명확하게 구별될 수 있도록 하기 위해서 사용되며, 이와 같은 용어에 의해서 해당 구성 요소의 의미가 제한적으로 사용되는 것은 아님을 알아야 한다.
또한, 본 명세서에서 "상", "하", "좌", "우" 등의 위치와 관련된 용어는, 사용된다면, 해당 구성 요소에 대해서 해당 도면에서의 상대적인 위치를 나타내고 있는 것으로 이해하여야 하며, 이들의 위치에 대해서 절대적인 위치를 특정하지 않는 이상은, 이들 위치 관련 용어가 절대적인 위치를 언급하고 있는 것으로 이해하여서는 아니된다.
더욱이, 본 발명의 명세서에서는, "…부", "…기", "모듈", "장치" 등의 용어는, 사용된다면, 하나 이상의 기능이나 동작을 처리할 수 있는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어, 또는 하드웨어와 소프트웨어의 결합으로 구현될 수 있음을 알아야 한다.
또한, 본 명세서에서는 각 도면의 각 구성 요소에 대해서 그 도면 부호를 명기함에 있어서, 동일한 구성 요소에 대해서는 이 구성 요소가 비록 다른 도면에 표시되더라도 동일한 도면 부호를 갖도록, 즉 명세서 전체에 걸쳐 동일한 참조 부호는 동일한 구성 요소를 지시하고 있다.
본 명세서에 첨부된 도면에서 본 발명을 구성하는 각 구성 요소의 크기, 위치, 결합 관계 등은 본 발명의 사상을 충분히 명확하게 전달할 수 있도록 또는 설명의 편의를 위해서 일부 과장 또는 축소되거나 생략되어 기술되어 있을 수 있고, 따라서 그 비례나 축척은 엄밀하지 않을 수 있다.
또한, 이하에서, 본 발명을 설명함에 있어서, 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 구성, 예를 들어, 종래 기술을 포함하는 공지 기술에 대한 상세한 설명은 생략될 수도 있다.
이하에서는 본 발명의 일 실시 예에 따른 인문사회 요소를 활용한 가짜 뉴스 판단 시스템, 판단 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체를 설명한다.
먼저, 도 1을 참조하여 본 발명의 일 실시 예에 따른 인문사회 요소를 활용한 가짜 뉴스 판단 시스템을 설명한다.
도 1은 본 발명의 바람직한 일 실시 예에 따른 인문사회 요소를 활용한 가짜 뉴스 판단 시스템을 설명하기 위한 개념도이다.
도 1에 도시된 바와 같이, 본 발명의 인문사회 요소를 활용한 가짜 뉴스 판단 시스템은 서버(100), 통신망(200) 및 적어도 하나의 사용자 단말기(300)를 포함하는 것이 바람직하다. 여기서 서버(100)는 통신망(200)을 통해 사용자 단말기(300)와 통신 가능한 것이 바람직하다.
서버(100)는 정보 수집 모듈(110), 형태소 분석기(120), 객체 분석기(130), 데이터베이스(140) 및 인공지능 처리장치(150)를 포함하는 것이 바람직하다. 이와 같은 서버(100)의 각각의 모듈들은 하나 이상의 프로세서가 구비된 것이 바람직하다. 또한, 본 발명의 인문사회 요소를 활용한 가짜 뉴스 판단 시스템은 요청 입력부(미도시) 및 출력부(미도시)를 더 포함할 수도 있다.
정보 수집 모듈(110)은 서버(100)에서 데이터 크롤링(data crawling) 기술을 이용하여 다양한 정보를 수집할 수 있다. 여기서 데이터 크롤링은 무수히 많은 컴퓨터에 분산 저장되어 있는 문서를 수집하여 검색 대상의 색인으로 포함시키는 기술로서, 본 발명에서는 특히 뉴스 관련 정보 데이터를 용이하게 수집할 수 있도록 적용된다.
수집되는 정보는 진짜 뉴스, 가짜 뉴스, 및 이외의 가짜 뉴스를 판단하기 위해 사용될 수 있는 다양한 정보로서, 본 발명은 크게 두 가지 정보 데이터, 인문사회 정보 데이터(141) 및 가짜 뉴스 정보 데이터(142)를 포함한다.
정보 수집 모듈(110)에 의해 수집된 인문사회 정보 데이터(141) 및 가짜 뉴스 정보 데이터(142)는 데이터베이스(140)에 저장된다. 정보 수집 모듈(110) 및 정보 데이터에 대해서는 도 2 및 도 3을 참조하여 이후에 더 상세하게 후술한다.
형태소 분석기(120)는 문장을 형태소 단위로 분리하고, 분리된 형태소를 의미 형태소와 문법 형태소로 구분하여 색인 파일을 만드는 알고리즘으로서, 본 발명의 형태소 분석기(120)는 한국어 형태소 분석기인 것이 바람직하다.
본 발명은 크게 두 가지 정보 데이터, 인문사회 정보 데이터(141) 및 가짜 뉴스 정보 데이터(142)를 포함하는 정보 데이터에 대한 자연어 처리가 수행되어야 하는 것으로, 메카브(Mecab)와 같은 형태소 분석기가 사용될 수 있다. 메카브는 자연어 처리 툴 중에서도 성능이 양호하며 사용자 사전을 만들 수 있어, 고유 명사 처리도 용이하다. 이에 따라 인문사회 정보 데이터(141) 및 가짜 뉴스 정보 데이터(142)에 있어 대량의 데이터가 신속하고 정확하게 분석될 수 있다.
형태소 분석기(120)에 의해 분리된 형태소에 대한 데이터는 형태소 데이터(143)로서 데이터베이스(140)에 저장된다.
객체 분석기(130)는 형태소 데이터(143)에 기초하여 가짜 뉴스 판별요소 및 인문사회 요소를 추출하여 각각에 대해 가짜 뉴스 라이브러리 및 인문사회 라이브러리를 생성하는 알고리즘인 것이 바람직하다.
데이터베이스(140)는 정보 수집 모듈(110), 형태소 분석기(120) 및 객체 분석기(130) 각각에 연결된 것이 바람직하다. 더 상세하게는, 데이터베이스(140)는 정보 수집 모듈(110)로부터 인문사회 정보 데이터(141) 및 가짜 뉴스 정보 데이터(142)를 포함하는 정보 데이터를 저장하고, 형태소 분석기(120)에 의해 생성된 형태소 데이터(143)를 저장하고, 객체 분석기(130)에 의해 생성된 인문사회 라이브러리(144) 및 가짜 뉴스 라이브러리(145)를 저장하도록 구성된 것이 바람직하다.
인공지능 처리장치(150)는 인문사회 라이브러리(144) 및 가짜 뉴스 라이브러리(145)로부터 데이터 셋을 생성하고, 생성된 데이터 셋을 기반으로 기계 학습을 수행하여 인공지능 모델(151)을 생성하는 유닛인 것이 바람직하다.
인공지능 처리장치(150)에서는 먼저 가짜 뉴스 라이브러리(145)로부터 생성된 데이터 셋을 사용하여 인공지능 모델(151)을 생성한 후, 인문사회 라이브러리(144)로부터 생성된 데이터 셋을 사용하여 또 다른 인공지능 모델(미도시)을 더 생성할 수 있다. 이와 같은 인공지능 모델들은 데이터베이스(150)에 저장되는 것이 바람직하다.
이와 같이, 본 발명의 일 실시 예에 따라, 인공지능 처리장치(150)는 두 개의 가짜 뉴스 판단용 인공지능 모델들을 생성시킬 수 있으나, 이에 한정되지 않는다. 즉, 다른 일 실시 예에서 인공지능 처리장치(150)는 인문사회 라이브러리(144) 및 가짜 뉴스 라이브러리(145) 각각으로부터의 데이터를 포함하는 데이터 셋을 생성하고 기계 학습에 의해 하나의 인공지능 모델을 생성할 수 있다.
인공지능 처리장치(150)에는 인공지능에 쓰이는 알고리즘이 저장되어 있고, 상기 알고리즘은 예를 들어, 인공 신경망 (artificial neural networks) 또는 퍼지 신경망(fuzzy neural networks)을 사용하는 것이 바람직하다. 특히, 인공지능 처리장치(150)에는 자연어 처리를 위한 알고리즘이 저장되어 있는 것이 바람직하다.
인공 신경망은 구조 및 기능에 따라 여러 종류로 구분되며, 가장 일반적인 인공 신경망은 한 개의 입력층과 출력층 사이에 다수의 은닉층(hidden layer)이 있는 다층 퍼셉트론(multilayer perceptron)이다. 인공 신경망은 인공지능 처리장치(150)를 통해 구현될 수 있으며, 기초 컴퓨팅 단위인 뉴런 여러 개가 가중된 링크(weighted link)로 연결된 형태로서, 가중된 링크(weighted link)는 주어진 환경에 적응할 수 있도록 가중치를 조정할 수 있다.
인공 신경망은 자기 조직화 지도(SOM: Self-Organizing Map), 순환 신경망(RNN: Recurrent Neural Network), 콘볼루션 신경망(CNN: Convolutional Neural Network)과 같은 다양한 모델을 포함하며, 이에 한정되지 않는다.
퍼지 신경망은 규칙들을 언어적으로 표현하거나 지식 베이스에 새로운 규칙을 갱신하는데 신경망의 학습 능력을 이용하는 시스템이다. 본 발명에서 퍼지 신경망을 사용할 경우, 규칙들은 단어 패턴, 정합성, 및/또는 가짜 확률값 등을 산출하는 데에 정의되어 사용될 수 있다. 여기서 단어 패턴은, 가짜 판별 대상 뉴스에서의 제목 및 본문 내용에서의 단어들이 불일치 하는지에 따라 달라지며, 이는 예를 들어 도 4 및 도 5에 도시된 바와 같다.
데이터베이스(140)에 저장된 이와 같은 인공지능 모델(151)을 통해 추후 요청 입력부(미도시)를 통해 입력되는 가짜 판별 대상 뉴스의 가짜 여부가 신속하게 판별될 수 있다. 가짜 여부는 뉴스가 가짜일 확률을 출력부(미도시)를 통해 출력되어 사용자 통신망(200)을 통해 사용자 단말기(300)로 송신될 수 있다.
요청 입력부는 사용자 단말기로부터 가짜 뉴스 판단 요청을 입력받는 유닛인 것이 바람직하다. 여기서 가짜 뉴스 판단 요청은 사용자 단말기(300)로부터 수신된 요청으로서, 판단하고자 하는 뉴스의 제목 및 본문 내용 등을 포함하는 정보인 것이 바람직하다.
사용자 단말기(300)는 스마트폰, 태블릿, 터치 스크린, 웨어러블 일종인 스마트 와치 등이 구비된 컴퓨터 등과 같은 사용자 단말기인 것이 바람직하다.
요청 입력부에 요청이 입력되면, 인공지능 처리장치(150)로 생성되어 데이터베이스(140)에 저장된 인공지능 모델(151)이 사용되어 사용자 단말기(300) 상에 디스플레이된 뉴스가 가짜일 확률이 산출될 수 있다.
이와 같이 산출된 확률값은 출력부를 통해 출력되어 서버(100)로부터 통신망(200)을 통해 사용자 단말기(300)로 전송될 수 있다.
다음으로, 도 2를 참조하여 인문사회 정보 데이터(141)를 더 상세하게 설명한다.
도 2는 본 발명의 바람직한 일 실시 예에 따른 가짜 뉴스 판단 시스템의 인문사회 정보 데이터의 예시를 설명하기 위한 개념도이다.
도 2에 도시된 바와 같이, 인문사회 정보 데이터(141)는 인문 분야 문헌, 사회 분야 문헌 및 전문가 인터뷰와 같은 데이터를 포함할 수 있다. 인문사회 정보 데이터(141)는 인문사회학자들의 가짜 뉴스에 대한 문제 인식을 새로운 가설로 설정하여 가짜 뉴스를 판별하는 데의 사용될 수 있다.
예를 들어, 가짜 뉴스를 판별하는 데에 작용하는 인문사회 요소로서는 국민의 알 권리와 표현의 자유, 민주주의와 포퓰리즘의 극성 등의 요소들을 포함할 수 있다.
또한, 인문사회 정보 데이터(141)는 인문사회과학자들의 의견뿐만 아니라, 가짜 뉴스의 판단 기준에 대한 미디어 전문가 및 법률 전문가와 같은 다른 분야 전문가들의 의견도 포함될 수 있다.
또한, 인문사회 정보 데이터(141)는 인문 및 사회 분야에서의 기 설정된 문제, 예를 들어, 가짜 뉴스에 대한 정의 및 내용을 포함하는 다수 개의 문헌 또는 전문가의 인터뷰 내용을 포함하는 것이 바람직하다.
이와 같은 의견들은 델파이 방법론을 통해 데이터화되는 것이 바람직하다. 델파이 방법론의 가장 두드러진 특징은 예측을 위하여 한 사람의 전문가가 아니라 예측 대상 분야와 관련이 있는 전문가 집단이 동원된다는 점에 있다. 전문가들의 의견을 체계적으로 추출하게 되면 전문가 개개인이 알고 있는 지식이나 정보를 간접으로 교환될 수 있어 알지 못한 부분을 서로 보완을 할 수 있는 이점이 있다.
델파이 방법론에 의하면, 통제된 환류(feed-back)을 포함하는 반복과정을 통하여 미래 예측을 담당한 기관은 미래예측의 논점(論點)에 적절한 정보를 추출해 낼 수 있고, 그것에 참여한 전문가들에게 제시할 수 있다. 또한, 많은 전문가들의 의견을 통계적으로 종합 분석함으로써 미래 사태를 확률적으로 나타낼 수 있다.
이와 같은 체계적인 델파이 방법론을 통해 전문가들의 의견들로부터 통계적인 분석이 가능하며, 분야별 전문가들의 가짜 뉴스에 대한 의견을 인문사회 요소로 추출하여 가짜 뉴스 판별 기준으로서 사용할 수 있다.
다음으로는 도 3을 더 참조하여 정보 수집 모듈(110)의 구성을 더 상세하게 설명한다.
도 3은 본 발명의 바람직한 일 실시 예에 따른 인문사회 요소를 활용한 가짜 뉴스 판단 시스템의 정보 수집 모듈(110)을 설명하기 위한 개념도이다.
도 3에 도시된 바와 같이, 본 발명의 정보 수집 모듈(110)은, 서비스 관리자(111), 수집 관리자(112), 데이터 정제 관리자(113), 분석 관리자(114) 및 저장 관리자(115)를 포함하는 것이 바람직하다.
이와 같은 구조의 정보 수집 모듈(110)에 의하면, 문서, HTML, 이미지, 음악, 동영상 등 다양한 콘텐츠를 수집할 수 있으며, 각각의 관리자(111, 112, 113, 114, 115)에 의해 데이터가 수집, 가공 및 보관됨으로써 필요한 데이터를 용이하게 얻을 수 있다. 여기서 관리자(111, 112, 113, 114, 115)는 기 설정된 알고리즘이 저장되어 데이터를 처리하는 하나 이상의 프로세서를 포함하는 유닛일 수 있다.
정보 수집 모듈(110)에 대해 수집 규칙이 설정되고 관리됨으로써 유니코드 및 다국어 데이터 지원이 가능하며, 블로그, 카페, 뉴스로부터의 정보 수집이 가능하며, 이와 같은 수집 대상이 분류 및 관리될 수 있다.
즉, 정보 수집 모듈(110)에 의해 자바스크립트가 해석 및 처리됨으로써 수집상태 및 오류도 분석될 수 있으며, 다양한 문서로부터 특정 정보가 자동으로 추출될 수도 있다.
뉴스의 특성상 늘 새로운 정보를 토대로 새로운 뉴스가 제작되어, 이에 따라 정보 데이터가 수집되는 주기도 중요하다. 수집 관리자(112)에 의해 정보 데이터가 수집되는 스케줄이 관리되는 것이 바람직하다.
데이터 정제 관리자(113)에 의해 정보 데이터 중 중복되는 문서 및 데드 링크(dead link)를 처리하여 불필요한 데이터가 제거되는 것이 바람직하다. 데이터에 빠진 부분이 있는 경우, 중복으로 들어간 데이터의 경우, 이상한 값이 들어가 있는 경우 등이 있으나, 본 발명에서는 훈련 모델에 적합한 형태로 이와 같은 데이터를 가공하는데 단계를 데이터 정제라고 한다.
학습을 하기 위해서는 데이터를 수집하고 무작위로 표본을 추출한다. 하지만 수집된 데이터는 그대로 활용할 수 없으므로, 데이터 정제 관리자(113)에 의해 데이터 검증 및 정제를 하여 활용할 수 있는 데이터로 만들 수 있다. 특히, 잘못된 데이터는 학습 결과에 부정적인 영향을 미치므로 이와 같은 데이터 정제 관리자(113)에서의 전처리 및 정제 과정은 매우 중요하다.
또한, 저장 관리자(115)에 의해 시스템 이중화 데이터가 압축되어 저장되고, 필요에 따른 백업 등을 통해 시스템 안정성이 확보될 수도 있다.
전술된 정보 수집 모듈(110)에 의하면 정형 및 비정형 데이터가 수집 가능하다. 정형 데이터란, 기존에 데이터베이스에 저장이 되는 규격화된 데이터로, 한정된 정보 속에서 만들어지는 데이터로 이해될 수 있다. 비정형 데이터란, 정형데이터와 반대로, 고정된 곳에서 얻어지는 정보가 아닌 페이스북, 트위터, 유튜브 영상, 이미지 파일, 음원 파일, 워드 문서 등등에서 생성되는 실시간 정보를 통하여 다른 정보 등을 추정해 나감으로써 획득하는 데이터로 이해될 수 있다.
그러나, 본 발명의 정보 수집 모듈(110)은 다양한 구조를 가질 수 있으며, 이에 한정되지 않는다. 예를 들어, 본 발명의 다른 정보 수집 모듈(110)은 서버형 검색 엔진으로서 대용량의 검색 / 색인을 지원하는 장치일 수 있다. 이와 같은 정보 수집 모듈(110)의 검색 대상은 파일, 웹 데이터 및 특정 데이터베이스일 수 있다.
또 다른 실시 예에서 정보 수집 모듈(110)은 모바일 검색 엔진으로서 스마트폰과 같은 휴대용 단말기 상에서 응용 소프트웨어로서 설치되어, 검색 대상으로서는 파일 및 특정 데이터베이스가 포함될 수 있다.
또 다른 실시 예에서 정보 수집 모듈(110)은 빅데이터 처리 플랫폼으로서, 대용량 데이터 크롤링을 지원할 수 있다. 예를 들어, 국내/외 웹 문서, 뉴스, 블로그, 카페, 게시판, SNS 등을 검색 대상으로 하고, 텍스트 마이닝, 데이터 마이닝, 통계적 분석, 소셜 분석을 지원하는 장치인 것이 바람직하다. 또한, 이와 같은 정보 수집 모듈(110)은 데이터 통계, 소셜 인지도, 호감도, 이슈키워드, 로그분석 서비스 제공할 수 있으며, 사전 관리(형태소 기 분석 사전, 개체명 사전, 신조어/동의어/반의어 사전 등)를 통해 더 정확한 언어 처리가 가능하다.
언어 처리는 형태소 분석기(120) 및 객체 분석기(130)의 적어도 하나의 프로세서에 의해 이루어질 수 있다. 더 상세하게는, 형태소 분석기(120)에 의해 가짜 판별 대상 뉴스에 대한 형태소 분석 단계가 수행되고, 객체 분석기(130)에 의해 개체명 인식 단계, 어휘 의미 분석 단계, 구문 분석 단계, 의미역 인식 단계, 상호 참조 단계, 대용어 처리 단계, 및 문장 분리 단계 중 적어도 어느 하나가 수행될 수 있다.
더 나아가, 객체 분석기(130)에 의해 인문사회 정보 데이터(141)로부터의 형태소 데이터(143)를 기반으로 인문사회 요소가 추출되어 인문사회 라이브러리(144)가 생성될 수 있다.
즉, 객체 분석기(130)에 의해 인문사회 요소가 추출되고, 인문사회 요소별로 가짜 뉴스를 판별하는 데에 끼치는 영향 기반으로 중요도에 대한 웨이팅(가중치)을 결정하고, 이러한 웨이팅이 반영된 인문사회 라이브러리(144)가 생성될 수 있다.
또한, 인문사회 라이브러리(144) 및 가짜 뉴스 라이브러리(145) 각각으로부터 데이터 셋을 생성시키는 데에 사용되는 데이터의 비중 또는 웨이팅은 인문사회 요소의 정확도 기반으로 결정되는 것이 바람직하다. 여기서 정확도는 인문사회 요소가 인문사회 정보 데이터에서 검색된 빈도에 기초하여 결정되는 것이 바람직하다.
객체 분석기(130)는 상술된 단계들을 통해 가짜 뉴스 정보 데이터(142)로부터 가짜 뉴스 판별요소도 추출할 수 있으며, 이를 기반으로 가짜 뉴스 라이브러리(145)가 생성될 수 있다.
객체 분석기(130)의 언어 처리를 통해 추출된 가짜 뉴스 판별요소로서 반의어, 페러프레이징(유의어), 특정 단어, 개체명, 행위자, 순위 등의 요소들이 있을 수 있다. 판별요소들의 비교 분석을 통해 판별 대상 뉴스가 가짜인지 진짜인지 판별 가능하다.
실질적인 가짜 뉴스 판별요소를 사용한 가짜 뉴스 분석 방법으로는, 예를 들어 판별 대상 뉴스의 제목 및 본문이 일치하는지의 여부를 분석하는 판별요소 분석 방법이 있을 수 있다.
이를 도 4 및 도 5를 참조하여 더 상세하게 설명한다.
도 4는 본 발명의 바람직한 일 실시 예에 따른 가짜 뉴스 판단 시스템의 객체 분석기에서의 판별요소 분석 방법을 설명하기 위한 개념도이다.
도 5는 본 발명의 바람직한 일 실시 예에 따른 가짜 뉴스 판단 시스템의 객체 분석기에서의 판별요소 분석 방법을 더 설명하기 위한 개념도이다.
본 발명의 서버(100)는 비교부(미도시)를 더 포함할 수 있으며, 비교부는 제목 요약부(미도시) 및 본문 요약부(미도시)를 포함하도록 구성될 수 있다.
제목 요약부를 통해 뉴스 제목에서 적어도 하나의 특정 단어가 추출되고, 본문 요약부를 통해 뉴스의 본문에서도 적어도 하나의 특정 단어가 추출될 수 있다. 제목의 특정 단어 및 본문의 특정 단어는 비교부에서 비교되고 제목 및 본문의 일치 여부가 수치화되어 도출될 수 있다.
도 4는 본 발명의 바람직한 일 실시 예에 따른 인문사회 요소를 활용한 가짜 뉴스 판단 시스템의 객체 분석기의 판별요소 분석 방법에서 뉴스의 제목 및 본문이 불일치할 경우의 단어 패턴을 나타낸다.
도 4에 도시된 바와 같이, 뉴스의 제목 및 본문이 불일치한 것으로 판단되면, 비교부에서 클래스(class) 및 인스턴스(instance)에 포함된 특정 단어들이 더 세부적으로 분석될 수 있다.
클래스는 속성과 메소드를 공유하는 유사한 성질의 객체들을 하나로 그룹화한 것이다. 인스턴스는 클래스의 구성원으로, 객체, 클래스 인스턴스(class instance) 또는 객체 인스턴스(object instance)라고도 한다. 클래스 내부에는 해당 클래스의 객체를 위한 데이터 구조와 메소드 구현의 세부 사항을 기술한다.
인스턴스는 일반적으로 어떤 집합에 대해서, 그 집합의 개별적인 요소를 의미한다. 객체 지향 프로그래밍에서, 어떤 등급에 속하는 각 객체를 인스턴스라고 한다. 예를 들면 ‘목록(list)’이라는 등급을 정의하고 그 다음에 ‘본인 목록(my list)’이라는 객체를 생성(기억 장치 할당)하면 그 등급의 인스턴스가 생성된다. 또한 변수가 포함되어 있는 어떤 논리식의 변수에 구체적인 값을 대입하여 식을 만들면 원래 식의 인스턴스가 만들어진다. 이런 의미에서 인스턴스를 실현치라고 한다.
도 4에 도시된 바와 같이, 본 발명에서는 '특정 단어'라는 등급이 정의되고 '축약어'와 같은 객체가 생성되어 인스턴스가 생성될 수 있다. 뉴스의 제목 및 본문이 불일치하였으나, 불일치한 부분에서의 특정 단어 간의 관계가 축약어일 경우, 뉴스는 진짜 뉴스일 확률이 높다. 이와 반면에, 불일치한 부분에서의 특정 단어 간의 관계가 반의어일 경우, 뉴스는 가짜 뉴스일 확률이 높다.
제목 및 본문 각각의 특정 단어들 간의 관계가 반의어, 유의어, 축약어 등이 아닌, 추가, 삭제 변경일 경우, 각 경우별로 비교 분석을 통한 가짜/진짜 판별이 이루어지는 것이 바람직하다. 즉, 특정 단어 생략, 특정 단어 추가, 개체명 변경, 클래스 단어 변경, 수치 변경, 행위자 변경, 순위 변경, 등의 변경 여부들을 분석하는 것이 바람직하다.
여기서 웨이팅이 결정된 인문사회 요소는 이러한 제목 및 본문의 일치 여부에 따른 가짜 뉴스일 확률에 대해 인문사회학적인 접근으로 확률에 영향을 미칠 수 있다.
예를 들어, 제목 및 본문이 불일치하는 동시에, 전문가들의 인터뷰 내용을 통해 본문의 내용에 인문사회학적인 오류가 발견될 경우, 뉴스가 가짜일 확률이 더더욱 증가한다.
도 5는 본 발명의 바람직한 일 실시 예에 따른 인문사회 요소를 활용한 가짜 뉴스 판단 시스템의 객체 분석기(130)의 판별요소 분석 방법에서 뉴스의 제목 및 본문이 일치할 경우의 단어 패턴을 설명하기 위한 개념도이다.
도 5에 도시된 바와 같이, 제목 및 본문이 일치할 경우에도 클래스/인스턴스 가 비교 분석되어 행위자가 변경되었는지의 여부, 순위가 변경되었는지의 여부 등이 분석될 수 있다. 예를 들어, 순위는 사실상 A사가 1등인데 본문에서는 2등이라고 소개할 경우, 이는 가짜 뉴스일 확률이 높다.
객체 분석기(130)에 의해 가짜 판별 대상 뉴스로부터의 판별 요소가 추출 및 분석되고, 분석부에 의해 제목 및 본문의 일치 여부에 따른 뉴스가 가짜일 확률이 계산되고, 분석부에 의해 이러한 확률이 인문사회 요소에 따라 보정될 수 있다.
다른 일 실시 예에서는 인문사회 요소들이 먼저 추출 및 분석되어 뉴스가 가짜일 확률이 계산된 후에 제목 및 본문의 일치 여부에 따라 이러한 확률이 보정될 수도 있다.
다음은 도 6 및 도 7을 참조하여 본 발명의 바람직한 일 실시 예에 따른 인문사회 요소를 활용한 가짜 뉴스 판단 방법을 설명한다.
도 6은 본 발명의 바람직한 일 실시 예에 따른 인문사회 요소를 활용한 가짜 뉴스 판단 방법을 설명하기 위한 흐름도이다.
도 7은 본 발명의 바람직한 일 실시 예에 따른 인문사회 요소를 활용한 가짜 뉴스 판단 방법의 객체 분석 단계를 더 상세하게 설명하기 위한 흐름도이다.
도 6에 도시된 바와 같이, 정보 수집 모듈(110)에 의해 정보가 수집되고(S100), 형태소 분석기(120)에 의해 수집된 정보 데이터에 대해 형태소 분석이 수행되고(S200), 객체 분석기(130)에 의해 형태소 데이터(143)에 대해 객체 분석이 수행되고(S300), 인공지능 처리장치(150)에 의해 인문사회 라이브러리(144) 및 가짜 뉴스 라이브러리(145)를 기반으로 적어도 하나의 인공지능 모델(151)이 생성된다(S400).
본 발명의 인문사회 요소를 활용한 가짜 뉴스 판단 방법은, (a) 정보 수집 모듈(110)에 의해 가짜 뉴스 정보 데이터(142) 및 인문사회 정보 데이터(141)가 수집되는 단계(S100); (b) 형태소 분석기(120)에 의해 언어 처리를 통해 가짜 뉴스 정보 데이터(142) 및 인문사회 정보 데이터(141)가 분석되어 형태소 데이터(143)가 생성되는 단계(S200)를 포함할 수 있으며, 도 7에 도시된 바와 같이, 객체 분석 단계(S300)는, (c) 객체 분석기(130)에 의해 형태소 데이터(143)로부터 판별 요소 및 인문사회 요소가 추출되고(S310), 인문사회 요소별 웨이팅을 결정하는 단계(S320), 및 각각을 포함하는 가짜 뉴스 라이브러리(145) 및 인문사회 라이브러리(144)가 생성되는 단계(S330);를 포함하는 것이 바람직하다.
또한, (d) 인공지능 처리장치(150)에 의해 가짜 뉴스 라이브러리(145) 및 인문사회 라이브러리(144)로부터 데이터 셋을 생성하여 가짜 뉴스 판단용 인공 지능 모델(151)이 생성되는 단계(S400)를 더 포함하는 것이 바람직하다.
본 발명의 바람직한 일 실시 예에 따른 컴퓨터 판독 가능한 기록 매체는, 인문사회 요소를 활용한 가짜 뉴스 판단 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체인 것을 특징으로 한다.
컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광 기록 매체, 플롭티컬 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상에서 살펴본 바와 같이, 본 발명의 인문사회 요소를 활용한 가짜 뉴스 판단 시스템, 판단 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체에 의하면, 인문사회 정보 데이터 및 가짜 뉴스 정보 데이터로부터 가짜 뉴스 판별요소 및 인문사회 요소가 추출됨으로써 가짜 뉴스를 판별하여 이를 차단하거나 줄일 수 있다.
100: 서버
110: 정보 수집 모듈
111: 서비스 관리자
112: 수집 관리자
113: 데이터 정제 관리자
114: 분석 관리자
115: 저장 관리자
100: 서버
110: 정보 수집 모듈
120: 형태소 분석기
130: 객체 분석기
140: 데이터베이스
141: 인문사회 정보 데이터
142: 가짜 뉴스 정보 데이터
143: 형태소 데이터
144: 인문사회 라이브러리
145: 가짜 뉴스 라이브러리
150: 인공지능 처리장치
151: 인공지능 모델
200: 통신망
300: 사용자 단말기

Claims (16)

  1. 사용자 단말기 및 상기 사용자 단말기와 통신 가능한 서버를 포함하며,
    상기 서버는,
    인문사회 정보 데이터를 수집하는 정보 수집 모듈;
    상기 인문사회 정보 데이터를 분석하여 형태소 데이터를 생성하는 형태소 분석기;
    상기 형태소 데이터로부터 인문사회 요소를 추출하여 인문사회 라이브러리를 생성하는 객체 분석기;를 포함하며,
    상기 인문사회 요소는 델파이 방법론을 통해 결정되고,
    상기 인문사회 정보 데이터는 인문 및 사회 분야에서의 기 설정된 문제에 대한 정의 및 내용을 포함하는 다수 개의 문헌을 포함하며,
    상기 인문사회 정보 데이터는 상기 기 설정된 문제에 대한 전문가의 인터뷰 내용을 더 포함하고,
    상기 인문사회 라이브러리로부터 데이터 셋을 생성하여 가짜 뉴스 판단용 인공 지능 모델을 생성하는 인공지능 처리장치를 더 포함하며,
    상기 정보 수집 모듈은 가짜 뉴스 데이터를 더 수집하며,
    상기 형태소 분석기는 상기 가짜 뉴스 데이터를 분석하여 추가 형태소 데이터를 생성하고,
    상기 객체 분석기는 상기 추가 형태소 데이터로부터 판별 요소를 추출하여 가짜 뉴스 라이브러리를 생성하며,
    상기 인문사회 요소 및 상기 판별 요소는 각각 상기 형태소 데이터 및 상기 추가 형태소 데이터에 대한 언어 처리를 통해 추출되고,
    상기 객체 분석기에 의한 상기 언어 처리는,
    상기 형태소 데이터 및 상기 추가 형태소 데이터에 대한 개체명 인식 단계, 어휘 의미 분석 단계, 구문 분석 단계, 의미역 인식 단계, 상호 참조 단계, 대용어 처리 단계, 및 문장 분리 단계 중 적어도 어느 하나가 수행되며,
    상기 델파이 방법론은 통제된 환류(feed-back)를 포함하는 반복 과정을 통해, 미래 예측을 담당한 기관은 미래 예측의 논점(論點)에 정보를 추출하여 전문가들에게 제시할 수 있음과 아울러 복수의 전문가들의 의견을 통계적으로 종합 분석하여 미래 사태를 확률적으로 나타내는 것을 특징으로 하는,
    인문사회 요소를 활용한 가짜 뉴스 판단 시스템.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 제 1 항에 있어서,
    데이터 크롤링(crawling) 기술을 이용하여 상기 인문사회 정보 데이터가 수집되는 것을 특징으로 하는,
    인문사회 요소를 활용한 가짜 뉴스 판단 시스템.
  7. 삭제
  8. 제 1 항에 있어서,
    상기 판별 요소는 반의어, 페러프레이징(유의어), 특정 단어, 개체명, 행위자 및 순위 중 적어도 어느 하나를 포함하는 것을 특징으로 하는,
    인문사회 요소를 활용한 가짜 뉴스 판단 시스템.
  9. 삭제
  10. 삭제
  11. 제 1 항에 있어서,
    상기 인공지능 처리장치는 상기 가짜 뉴스 라이브러리로부터 데이터를 상기 데이터 셋에 포함시켜 생성하여 상기 가짜 뉴스 판단용 인공 지능 모델을 생성하는 것을 특징으로 하는,
    인문사회 요소를 활용한 가짜 뉴스 판단 시스템.
  12. 제 11 항에 있어서,
    상기 인문사회 라이브러리 및 상기 가짜 뉴스 라이브러리 각각으로부터 상기 데이터 셋을 생성시키는 데에 사용되는 데이터의 비중은 상기 인문사회 요소의 정확도 기반으로 결정되는 것을 특징으로 하는,
    인문사회 요소를 활용한 가짜 뉴스 판단 시스템.
  13. 제 12 항에 있어서,
    상기 정확도는 상기 인문사회 요소가 상기 인문사회 정보 데이터에서 검색된 빈도에 기초하여 결정되는 것을 특징으로 하는,
    인문사회 요소를 활용한 가짜 뉴스 판단 시스템.
  14. (a) 정보 수집 모듈에 의해 가짜 뉴스 정보 데이터 및 인문사회 정보 데이터가 수집되는 단계;
    (b) 형태소 분석기에 의해 언어 처리를 통해 상기 가짜 뉴스 정보 데이터 및 상기 인문사회 정보 데이터가 분석되어 형태소 데이터가 생성되는 단계; 및
    (c) 객체 분석기에 의해 상기 형태소 데이터로부터 판별 요소 및 인문사회 요소가 추출되어 각각을 포함하는 가짜 뉴스 라이브러리 및 인문사회 라이브러리가 생성되는 단계;를 포함하며,
    상기 인문사회 요소는 델파이 방법론을 통해 결정되고,
    상기 인문사회 정보 데이터는 인문 및 사회 분야에서의 기 설정된 문제에 대한 정의 및 내용을 포함하는 다수 개의 문헌을 포함하며,
    상기 인문사회 정보 데이터는 상기 기 설정된 문제에 대한 전문가의 인터뷰 내용을 더 포함하고,
    상기 인문사회 라이브러리로부터 데이터 셋을 생성하여 가짜 뉴스 판단용 인공 지능 모델을 생성하는 인공지능 처리장치를 더 포함하며,
    상기 정보 수집 모듈은 가짜 뉴스 데이터를 더 수집하며,
    상기 형태소 분석기는 상기 가짜 뉴스 데이터를 분석하여 추가 형태소 데이터를 생성하고,
    상기 객체 분석기는 상기 추가 형태소 데이터로부터 판별 요소를 추출하여 가짜 뉴스 라이브러리를 생성하며,
    상기 인문사회 요소 및 상기 판별 요소는 각각 상기 형태소 데이터 및 상기 추가 형태소 데이터에 대한 언어 처리를 통해 추출되고,
    상기 객체 분석기에 의한 상기 언어 처리는,
    상기 형태소 데이터 및 상기 추가 형태소 데이터에 대한 개체명 인식 단계, 어휘 의미 분석 단계, 구문 분석 단계, 의미역 인식 단계, 상호 참조 단계, 대용어 처리 단계, 및 문장 분리 단계 중 적어도 어느 하나가 수행되며,
    상기 델파이 방법론은 통제된 환류(feed-back)를 포함하는 반복 과정을 통해, 미래 예측을 담당한 기관은 미래 예측의 논점(論點)에 정보를 추출하여 전문가들에게 제시할 수 있음과 아울러 복수의 전문가들의 의견을 통계적으로 종합 분석하여 미래 사태를 확률적으로 나타내는 것을 특징으로 하는,
    인문사회 요소를 활용한 가짜 뉴스 판단 방법.
  15. 제 14 항에 있어서,
    (d) 인공지능 처리장치에 의해 상기 가짜 뉴스 라이브러리 및 상기 인문사회 라이브러리로부터 데이터 셋을 생성하여 가짜 뉴스 판단용 인공 지능 모델이 생성되는 단계를 더 포함하는 것을 특징으로 하는,
    인문사회 요소를 활용한 가짜 뉴스 판단 방법.
  16. 제 14 항 및 제 15 항 중 어느 한 항에 따르는 인문사회 요소를 활용한 가짜 뉴스 판단 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
KR1020190078550A 2019-07-01 2019-07-01 인문사회 요소를 활용한 가짜 뉴스 판단 시스템, 가짜 뉴스 판단 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 KR102301969B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190078550A KR102301969B1 (ko) 2019-07-01 2019-07-01 인문사회 요소를 활용한 가짜 뉴스 판단 시스템, 가짜 뉴스 판단 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190078550A KR102301969B1 (ko) 2019-07-01 2019-07-01 인문사회 요소를 활용한 가짜 뉴스 판단 시스템, 가짜 뉴스 판단 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체

Publications (2)

Publication Number Publication Date
KR20210003324A KR20210003324A (ko) 2021-01-12
KR102301969B1 true KR102301969B1 (ko) 2021-09-16

Family

ID=74129546

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190078550A KR102301969B1 (ko) 2019-07-01 2019-07-01 인문사회 요소를 활용한 가짜 뉴스 판단 시스템, 가짜 뉴스 판단 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체

Country Status (1)

Country Link
KR (1) KR102301969B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008165598A (ja) * 2006-12-28 2008-07-17 National Institute Of Information & Communication Technology 風評情報抽出装置及び風評情報抽出方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101864439B1 (ko) 2017-04-13 2018-06-11 황대훈 가짜 뉴스 판별 가능한 게시글 그래픽 유저 인터페이스 화면창을 구비한 가짜 뉴스 판별 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008165598A (ja) * 2006-12-28 2008-07-17 National Institute Of Information & Communication Technology 風評情報抽出装置及び風評情報抽出方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
딥러닝 기법을 이용한 가짜뉴스 탐지, 이동호 외(2018.05.)*

Also Published As

Publication number Publication date
KR20210003324A (ko) 2021-01-12

Similar Documents

Publication Publication Date Title
Zhou et al. Fake news: A survey of research, detection methods, and opportunities
AlDayel et al. Stance detection on social media: State of the art and trends
Bozarth et al. Toward a better performance evaluation framework for fake news classification
Atanasova et al. Automatic fact-checking using context and discourse information
Rubin et al. Veracity roadmap: Is big data objective, truthful and credible?
Liu et al. Web service clustering using text mining techniques
RU2704531C1 (ru) Способ и устройство для анализа семантической информации
Ilyas et al. Analyzing Brexit’s impact using sentiment analysis and topic modeling on Twitter discussion
KR20130022042A (ko) 토픽별 오피니언과 소셜 영향력자를 기반으로 토픽을 탐지하고 추적하는 시스템 및 방법
Li et al. Improving user attribute classification with text and social network attention
Przybyła et al. When classification accuracy is not enough: Explaining news credibility assessment
Smith et al. Regional sentiment bias in social media reporting during crises
KR102465711B1 (ko) 소셜 데이터 분석을 이용한 법률안의 국회 본회의 통과가능성 동적 예측 서비스 제공 시스템
Chen et al. Research on clustering analysis of Internet public opinion
Seilsepour et al. 2016 olympic games on twitter: Sentiment analysis of sports fans tweets using big data framework
KR102242317B1 (ko) 정성적 가짜 뉴스 판단 시스템, 판단 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
Belkaroui et al. Conversational based method for tweet contextualization
Duong et al. Neurosymbolic AI for mining public opinions about wildfires
KR102180329B1 (ko) 가짜 뉴스 판단 시스템
KR102301969B1 (ko) 인문사회 요소를 활용한 가짜 뉴스 판단 시스템, 가짜 뉴스 판단 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
Tongjing et al. The multiplex relations between cities: a lexicon-based approach to detect urban systems
Kostakos et al. Inferring demographic data of marginalized users in twitter with computer vision APIs
Drury A Text Mining System for Evaluating the Stock Market's Response To News
Thimmapuram et al. Sentiment Analysis‐Based Extraction of Real‐Time Social Media Information From Twitter Using Natural Language Processing
Chen et al. Migrationskb: A knowledge base of public attitudes towards migrations and their driving factors

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant