KR102455747B1 - 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템 및 방법 - Google Patents

딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템 및 방법 Download PDF

Info

Publication number
KR102455747B1
KR102455747B1 KR1020220021311A KR20220021311A KR102455747B1 KR 102455747 B1 KR102455747 B1 KR 102455747B1 KR 1020220021311 A KR1020220021311 A KR 1020220021311A KR 20220021311 A KR20220021311 A KR 20220021311A KR 102455747 B1 KR102455747 B1 KR 102455747B1
Authority
KR
South Korea
Prior art keywords
news
data
fake
deep learning
model
Prior art date
Application number
KR1020220021311A
Other languages
English (en)
Inventor
최근호
김건우
임동훈
Original Assignee
한밭대학교 산학협력단
주식회사 데이터월드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한밭대학교 산학협력단, 주식회사 데이터월드 filed Critical 한밭대학교 산학협력단
Priority to KR1020220021311A priority Critical patent/KR102455747B1/ko
Application granted granted Critical
Publication of KR102455747B1 publication Critical patent/KR102455747B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 일 실시예에 따른 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 방법은, 특정 뉴스에 대하여 가짜 뉴스를 판별하고 구분하기 위한 학습 데이터로서, 뉴스 데이터를 수집하는 단계; 가짜 뉴스 판별에 용이하도록 데이터 전처리를 수행하는 단계; 상기 데이터 전처리 과정을 거친 학습용 뉴스 데이터 및 메타정보를 토대로 형태소 단위로 토큰화된 뉴스를 벡터(Vector)로 변환하기 위해 Word2Vec과 FastText를 각각 적용하여 워드 임베딩 모델을 생성하는 단계; 생성된 워드 임베딩 분류 모델을 이용하여 뉴스 데이터에 대한 가짜 뉴스 여부를 구분하도록 학습하고, 학습된 모델로 가짜 뉴스를 판별하는 단계;를 포함한다.

Description

딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템 및 방법{System and method for providing fake news detection model using deep learning algorithm}
본 발명은 가짜 뉴스 탐지 모델 제공 시스템 및 방법에 관한 것으로, 더욱 상세하게는 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템 및 방법에 관한 것이다.
오늘날 코로나 19와 같은 세계적 감염병의 시기에 예외 없이 가짜 뉴스가 만연하다는 점은 더 이상 놀라운 사실이 아니다. 또한 정보화 시대로 접어들면서 정보의 입수처가 다양해지고, 양은 많아졌으며, 소비의 속도도 빨라졌다.
특히 인터넷상에서 우리가 접하는 대다수의 뉴스는 검증되는 시간보다 전파되는 시점이 더 빨라져 갈수록 진실 여부를 고민할 시간이 짧아져 가는 상황이다.
가짜 뉴스의 생산과 유통은 전혀 새로운 것이 아니지만 정보통신 기술의 발달과 사회관계망 서비스 등의 성장에 따라 과거보다 가짜 뉴스 확산의 속도는 빨라지고 범위는 넓어지고 있다.
가짜 뉴스가 사회적, 정치적 문제로 많은 관심을 받게 되면서 다양한 곳에서 가짜 뉴스에 대한 해법을 제시하고 있다.
가짜 뉴스를 탐지하는 방법은 비기술적 방법과 기술적 방법, 그리고 두 가지 이상의 기법을 활용하는 하이브리드 기법으로 분류할 수 있다.
현재는 비기술적 접근이 주류를 이루고 있지만 가짜 뉴스를 소수의 전문가가 모두 확인하기는 현실적으로 어려운 한계가 있다.
최근에는 인공지능 기반 학습 및 탐지 모델을 활용하여 기술적 접근 기법을 통해 가짜 뉴스를 자동으로 탐지하는 시스템에 대한 발명이 이루어지고 있으나, 탐지 기능의 정확도가 떨어지는 문제가 있었다.
따라서, 전술한 문제를 해결하기 위하여 가짜뉴스에 대한 검증 정확도를 향상시킬 수 있는 모델을 제공하는 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템 및 방법에 대한 발명이 필요하게 되었다.
KR 10-2333325 B1(2021년11월26일 등록)
본 발명의 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템 및 방법은 가짜로 판명된 뉴스와 해당 뉴스가 진짜(검증) 사실인 뉴스를 학습 데이터로 사용하여 인공지능 기반의 뉴스 진위 여부 분류 모델을 개발함으로써 가짜뉴스 판별에 도움을 주는 것을 목적으로 한다.
본 발명의 일 실시예에 따른 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 방법은, 특정 뉴스에 대하여 가짜 뉴스를 판별하고 구분하기 위한 학습 데이터로서, 뉴스 데이터를 수집하는 단계; 가짜 뉴스 판별에 용이하도록 데이터 전처리를 수행하는 단계; 상기 데이터 전처리 과정을 거친 학습용 뉴스 데이터 및 메타정보를 토대로 형태소 단위로 토큰화된 뉴스를 벡터(Vector)로 변환하기 위해 Word2Vec과 FastText를 각각 적용하여 워드 임베딩 모델을 생성하는 단계; 생성된 워드 임베딩 분류 모델을 이용하여 뉴스 데이터에 대한 가짜 뉴스 여부를 구분하도록 학습하고, 학습된 모델로 가짜 뉴스를 판별하는 단계;를 포함하는 것을 특징으로 한다.
상기 뉴스 데이터를 수집하는 단계는, 상기 뉴스에 대한 메타정보를 수집하거나 수집된 뉴스 데이터를 토대로 메타정보를 생성하는 단계;를 더 포함하는 것을 특징으로 한다.
상기 메타정보는 뉴스의 주제, 소주제, 주장/검증 주체 또는 매체에 대한 정보를 포함할 수 있는 것을 특징으로 한다.
상기 데이터 전처리 과정은 텍스트 전처리, 숫자나 문장부호 제거, 오탈자 교정, 대/소문자 통일, 불용어 제거 작업이 수행될 수 있으며, 수집된 뉴스 데이터를 학습용과 검증용으로 분리하여 학습 이후 검증에 활용할 수 있도록 하는 과정을 포함할 수 있는 것을 특징으로 한다.
상기 학습시, 딥러닝 알고리즘인 LSTM 및 양방향 LSTM(BiLSTM)을 활용하여 수행함으로써, 분류 정확도를 향상시킬 수 있으며, 모델 성능을 평가하여 평가 결과에 따라 모델의 변수나 파라미터를 조정하여 모델 성능을 향상시킬 수 있도록 보완할 수 있는 것을 특징으로 한다.
본 발명의 일 실시예에 따른 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템은, 메모리(memory)와, 메모리 내 적어도 하나의 명령을 실행하는 프로세서(processor)를 포함하되, 저장장치 또는 메모리에 저장된 컴퓨터 프로그램을 통하여 상기 명령을 수행할 수 있으며, 상기 명령들은 특정 뉴스에 대하여 가짜 뉴스를 판별하고 구분하기 위한 학습 데이터로서, 뉴스 데이터를 수집하는 단계, 가짜 뉴스 판별에 용이하도록 데이터 전처리를 수행하는 단계, 상기 데이터 전처리 과정을 거친 학습용 뉴스 데이터 및 메타정보를 토대로 형태소 단위로 토큰화된 뉴스를 벡터(Vector)로 변환하기 위해 Word2Vec과 FastText를 각각 적용하여 워드 임베딩 모델을 생성하는 단계, 생성된 워드 임베딩 분류 모델을 이용하여 뉴스 데이터에 대한 가짜 뉴스 여부를 구분하도록 학습하고, 학습된 모델로 가짜 뉴스를 판별하는 단계를 포함한 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 방법을 수행하는 명령들을 포함하는 것을 특징으로 한다.
상기 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 방법은, 컴퓨터에서 판독 가능한 저장매체에 기록된 컴퓨터 프로그램에 의해 수행될 수 있다.
또한, 컴퓨터로 읽을 수 있는 기록매체에 저장되고, 상기 컴퓨터가 읽을 수 있는 코드로 구현되며, 프로세서에 의해 수행되는 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 방법에 있어서, 특정 뉴스에 대하여 가짜 뉴스를 판별하고 구분하기 위한 학습 데이터로서, 뉴스 데이터를 수집하는 단계; 가짜 뉴스 판별에 용이하도록 데이터 전처리를 수행하는 단계; 상기 데이터 전처리를 거친 학습용 뉴스 데이터 및 메타정보를 토대로 형태소 단위로 토큰화된 뉴스를 벡터(Vector)로 변환하기 위해 Word2Vec과 FastText를 각각 적용하여 워드 임베딩 모델을 생성하는 단계; 생성된 워드 임베딩 분류 모델을 이용하여 뉴스 데이터에 대한 가짜 뉴스 여부를 구분하도록 학습하고, 학습된 모델로 가짜 뉴스를 판별하는 단계; 상기 데이터 전처리 과정은 텍스트 전처리, 숫자나 문장부호 제거, 오탈자 교정, 대/소문자 통일, 불용어 제거 작업이 수행될 수 있으며, 수집된 뉴스 데이터를 학습용과 검증용으로 분리하여 학습 이후 검증에 활용할 수 있도록 하는 과정을 포함할 수 있고, 상기 불용어 제거는 글자의 길이가 세 글자 이하일 경우, 형태소 분석 이후 형태소 단위로 불용어 제거가 이루어지는 것; 상기 학습은 딥러닝 알고리즘인 양방향 LSTM(BiLSTM)을 활용하여 수행되고, 워드 임베이딩이 Fasttext로 이루어지는 것;을 특징으로 한다.
본 발명의 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템 및 방법은 선행 기술에서 사용하지 않았던 다양한 메타정보를 발굴한 후 모델에 포함하여 뉴스 자체의 컨텐츠 외 해당 뉴스를 설명할 수 있는 메타 정보들의 활용을 통해 보다 정확도가 높은 분류 모델을 제공하며, 이를 통해 메타 정보를 함께 활용하는 것이 모델 성능에 좋은 영향을 미친다는 것을 검증할 수 있는 장점이 있다.
둘째, 워드 임베딩과 분류 모델 개발 시 인공적으로 생성 및 조작된 뉴스가 아닌 공신력 높은 기관에서 진위가 판단된 실제 뉴스를 수집하여 분석에 사용함으로써, 분석 결과의 신뢰도를 높일 수 있는 장점이 있다.
셋째, 메타정보를 단순히 개별 독립변수로 사용한 것이 아니라, 뉴스의 내용과 모든 메타정보를 하나로 합쳐 임베딩함으로써, 메타정보와 뉴스의 내용을 하나의 독립변수로 사용하였고 이를 통해 보다 종합적인 분석이 가능하도록 하는 장점이 있다.
넷째, 기존 기술이나 연구가 다루지 않았던 워드 임베딩 기술과 딥러닝 기법을 활용하여 분류 정확도를 비교하여 보다 적합한 임베딩 모델과 딥러닝 기법의 조합을 제시하는 장점이 있다.
도 1은 본 발명의 일 실시예에 따른 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 방법의 순서도이다.
도 2는 본 발명의 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 방법을 수행하기 위한 전체 과정을 보인 도면이다.
도 3은 본 발명의 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 방법을 수행하기 위한 가짜뉴스 탐지 및 분류 모델의 구성도를 보인 도면이다.
이하에서는 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. 다만, 본 발명의 사상은 제시되는 실시예에 제한되지 아니하고, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서 다른 구성요소를 추가, 변경, 삭제 등을 통하여, 퇴보적인 다른 발명이나 본 발명 사상의 범위 내에 포함되는 다른 실시예를 용이하게 제안할 수 있을 것이나, 이 또한 본원 발명 사상 범위 내에 포함된다고 할 것이다. 또한, 각 실시예의 도면에 나타나는 동일한 사상의 범위 내의 기능이 동일한 구성요소는 동일한 참조부호를 사용하여 설명한다.
도 1은 본 발명의 일 실시예에 따른 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 방법의 순서도이고, 도 2는 본 발명의 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 방법을 수행하기 위한 전체 과정을 보인 도면이며, 도 3은 본 발명의 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 방법을 수행하기 위한 가짜뉴스 탐지 및 분류 모델의 구성도를 보인 도면이다.
도 1 및 도 2를 참조하면, 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 방법은 먼저 특정 뉴스에 대하여 가짜 뉴스를 판별하고 구분하기 위한 학습 데이터로서, 뉴스 데이터를 수집(텍스트 마이닝)하고, 더불어 뉴스에 대한 메타정보를 수집하거나 수집된 뉴스 데이터를 토대로 메타정보를 생성할 수 있다(S200).
또한 수집된 뉴스 데이터는 비정형 텍스트 데이터 이므로 가짜 뉴스 판별에 용이하도록 적절한 데이터 전처리를 수행할 수 있다(S202).
데이터 전처리 과정은 텍스트 전처리, 숫자나 문장부호 제거, 오탈자 교정, 대/소문자 통일, 불용어 제거 등의 다양한 작업이 수행될 수 있으며, 수집된 뉴스 데이터를 학습용과 검증용으로 분리하여 학습 이후 검증에 활용할 수 있도록 할 수 있다. 여기서 검증용 뉴스 데이터는 진짜 사실인 뉴스 데이터이고, 학습용 뉴스 데이터는 가짜 뉴스 데이터가 될 수 있다.
이제 데이터 전처리 과정을 거친 학습용 뉴스 데이터 및 메타정보를 토대로 형태소 단위로 토큰화된 뉴스를 벡터(Vector)로 변환하기 위해 Word2Vec과 FastText를 각각 적용하여 워드 임베딩 모델을 생성할 수 있다(S204, S206).
여기서 메타정보에는 뉴스의 주제, 소주제, 주장/검증 주체 또는 매체에 대한 정보 등이 포함될 수 있다.
생성된 워드 임베딩 분류 모델을 이용하여 뉴스 데이터에 대한 가짜 뉴스 여부를 구분하도록 학습하고, 학습된 모델로 가짜 뉴스를 판별할 수 있다(S208).
또한 분류 모델 학습시 딥러닝 알고리즘인 LSTM 및 양방향 LSTM(BiLSTM)을 활용하여 수행함으로써, 분류 정확도를 향상시킬 수 있으며, 본 발명에서는 메타정보를 반영하기 때문에 더욱 정확도를 갖는 가짜 뉴스 여부 판별이 가능하도록 모델을 구현할 수 있으며, 모델 성능을 평가하여 평가 결과에 따라 분류 모델의 변수나 파라미터 등을 조정하여 모델 성능을 향상시킬 수 있도록 보완할 수 있다(S210).
양방향 장단기 기억 네트워크 신경망인 BiLSTM(Bidirectional Long Short-Term Memory)은 LSTM신경망의 성능을 개선한 알고리즘이며, 일반 RNN의 한계를 극복하기 위해 특정 시간대의 과거와 미래에 이용 가능한 모든 입력 정보를 사용하여 훈련할 수 있다. 정규 RNN의 상태 뉴런을 양의 시간 방향(Forward states)을 담당하는 부분과 음의 시간 방향(Backward states)을 담당하는 부분으로 나누는 방법으로 이를 통해 RNN의 성능을 향상시킬 수 있다.
이러한 BRNN 구조를 LSTM에 적용하여 LSTM 모델의 성능을 개선시킨 모델이 BiLSTM이다. 다시 말해, LSTM은 이전 단계의 정보를 메모리에 가지고 있기 때문에 순차적인 시계열(Forward)예측에 적합하다.
하지만 BiLSTM은 두 개의 다른 LSTM 네트워크 메모리를 통해 전진 방향(Forward)과 후진 방향(Backward) 모든 시간의 단계에 입력 시퀀스를 최대한 활용하여 훈련함으로써, 과거 상황뿐만 아니라 미래 상황까지 양방향의 정보를 활용하여 과거 상황만 반영할 때의 정보 치우침을 보완할 수 있다.
본 발명에서는 다음과 같은 4가지 특징점을 가지고 있다.
첫째, 뉴스 분류를 위해 기존 기술이나 연구보다 더 많은 실제 뉴스를 수집하여 학습 및 검증에 활용할 수 있으며, 뉴스의 형식적인 부분보다는 내용상의 의미를 파악하기 위해 자연어의 의미를 내포한 벡터로 표현이 가능하여 자연어 처리에서 많이 활용되고 있는 워드 임베딩 모델(Word2Vec, Fasttext)을 본 발명의 목적에 맞게 실제 한국어 뉴스들을 통해 생성할 수 있다.
여기서, Word2vec은 유사한 문맥을 가진 단어들은 의미도 유사하게 가진다는 언어학의 분포가설(Distributional Hypothesis)에서 출발한 것이며, 단어의 의미를 벡터 공간에 임베딩하여 표현하는 방식으로, 한 단어의 주변 단어들을 연관된 단어로 가정하여 벡터 공간에서의 거리를 점차 줄임으로서 그 단어의 의미를 파악하는 방법이다. 워드 임베딩의 학습모델은 CBOW(Continuous Bag of Words)와 Skip-gram이 있다. CBOW는 맥락(Context)을 통해 타겟 단어(Target word)를 예측하는데, 맥락이란 주변 단어(앞, 뒤의 단어)를 통해 알 수 있는 정보를 뜻한다. 이 주변 단어의 범위를 window라고 하며, 몇 개의 단어를 통해 예측할 것인가를 지정하는 것을 window size라고 한다. Skip-gram은 CBOW와 반대로 타겟 단어(중심단어)를 통해 주변 단어를 예측하는 방식이다.
또한 Fasttext는 기존 임베딩 모델의 몇몇 한계점을 개선한 것으로서, 기존 단어 임베딩 모델에서는 단어를 개별적으로 임베딩하여 단어의 형태학적(Morphological) 특성을 반영하지 못하였고, 출현 빈도가 적은 희소단어(Rare word)에 대한 임베딩이 어려웠다. 또한, 학습용 말뭉치(Corpus)에 존재하지 않는 새로운 단어(OOV, Out Of Vocabulary)는 처리하지 못하는 한계점도 있었다. Fasttext는 이러한 한계점을 보완하여 나왔는데, 원래 단어를 부분단어(Subword)의 벡터로 표현하는 점 외에는Word2vec의 Skip-gram과 비슷하다.
둘째, 기존 발명에선 단일 메타 데이터를 사용한데 비해 본 발명에서는 다양한 메타정보를 발굴하여 분류에 반영하였다.
셋째, 메타정보를 개별 독립변수로 사용하지 않고 뉴스 내용과 하나로 합쳐서 임베딩을 하여 메타정보와 뉴스 내용을 하나의 독립변수로 사용하였다.
넷째, 자연어의 토큰(단어)들의 순차적인 의미를 학습하는데 특화된 기법인 LSTM 과 LSTM을 양방향(정방향, 역방향)으로 2번 학습하도록 하는 Bi-LSTM 알고리즘, 그리고 워드 임베딩 모델, 메타정보 등을 다양하게 조합하여 최적의 조합을 찾아 가짜 뉴스 탐지 정확도를 향상시킬 수 있도록 한다.
본 발명에서는 뉴스 자료를 두 가지로 나누어 수집한다. 먼저 임베딩 모델을 만들기 위해서 Label 정보가 없는 뉴스 기사를 네이버 뉴스에서 수집한다. 수집은 크롤링 프로그램을 코딩하여 수행할 수 있다.
여기서 크롤링(Crawling)은 인터넷상에서 존재하는 컨텐츠를 파이썬과 같은 프로그램 언어를 통해 수집을 원하는 컨텐츠를 추출하는 일련의 과정이다. 즉, 특정 웹페이지에 request를 보내고 그 결과를 html형식으로 받은 후, 파서(Parser)를 통해 전달 받은 html에서 필요한 정보를 추출하고 그 결과를 데이터베이스에 저장한다.
본 발명에서는 크롤링(데이터 수집 과정)을 위해 예를 들어 파이썬의 BeautifulSoup, urllib 라이브러리를 이용할 수 있으며, 뉴스 게시된 특정 기간을 설정하여 키워드 분야별로 수집하여 다양성을 갖추도록 하며, 예를 들어'과학', '국제', '정부', '경제', '국방', '부동산', '정치', '코로나'에 대한 기사를 일정 량 수집하고, 수집한 내용은 '연도', '언론사', '제목', '기사 내용'일 수 있으며, 중복된 내용의 뉴스 및 사용이 불가한 뉴스를 제외하고 분석에 사용할 수 있다.
다음으로는 뉴스의 진위 여부를 분류하기 위한 Label정보가 포함된 뉴스를 수집한다.
구체적으로 해당 뉴스는 서울대학교 언론정보발명소의 팩트체크 사이트 https://factcheck.snu.ac.k에서 수집하고, 해당 사이트는 언론사들이 검증한 공적 관심사를 국민에게 알리기 위해 서울대학교 언론정보발명소가 운영하는 정보 서비스로서, 해당 사이트의 검증 대상은 다음과 같으며, 검증 결과는 '전혀 사실 아님', '대체로 사실 아님','절반의 사실', '대체로 사실', '사실', '판단 유보'의 총 6개의 배지로 표현되도록 하여 가짜 뉴스 여부를 구분하여 판별할 수 있다.
좀 더 구체적으로는, 공직자, 정치인이나 공직자(예비) 후보들이 토론, 연설, 인터뷰, 보도자료 등의 형식으로 발언한 내용의 사실 여부, 이들 집단과 관련해 언론사의 기사나 소셜미디어 등을 통해 대중에게 회자되는 사실적 진술의 사실성, 그 외의 경제, 과학, IT, 사회, 문화 등 제반 분야에서 정확한 사실 검증이 필요하다고 보이는 공적 사안을 토대로, Label이 있는 뉴스로 수집된 대상은 '전혀 사실 아님', '대체로 사실 아님' 배지(Badge)를 받은 대상(뉴스, SNS 등)과 해당 정보에 대한 검증 뉴스(사실인 뉴스) 또는 검증 대상 정보를 해당 사이트에서 직접 수집한다.
뉴스는 직접적으로 분석이 가능한 숫자로 표시된 일반적인 정형 데이터와는 달리 다양한 형태의 변이형 자료를 포함하는 비정형 데이터(텍스트)이다. 따라서, 비정형 데이터인 텍스트를 분석이 가능한 형태로 가공하고 정리하는 작업을 반드시 수행해야 하며, 이 과정을 텍스트 전처리라 한다.
전처리 과정에서는 숫자나 문장부호 제거, 오탈자 교정, 대/소문자 통일, 불용어 제거 등의 다양한 작업이 이루어진다.
본 발명에서는 전처리 작업 과정에서 구체적 예를 들어 문장부호 제거, 어근 동일화, 불용어 처리에 대한 전처리를 수행한다.
문장부호 제거, 어근 동일화는 예를 들어 KONLPY konlpy.org/en/latest/의 Twitter 형태소 분석을 통해 수행하고, 불용어 제거는 한국어 불용어 사전으로 많이 활용되는 자료와 본 발명에서 수집한 뉴스 내용 중 불필요한 문구(예: 구독하기, 제보하기)를 취합하여 불용어 사전을 새로 구축한 후, 이를 이용하여 제거한다.
불용어 제거 시에는 불용어 대상 글자의 길이에 따라 두 가지 방법으로 나눠서 처리한다. 첫 번째, 불용어 글자의 길이가 세 글자 이하일 경우 뉴스 내용에서 직접 제거할 때 '인'을 삭제하면 '인터넷'의 '인'이 삭제되는 등 의도하지 않은 대상까지 삭제가 되어 형태소 분석을 한 다음 형태소 단위로 비교하여 제거한다. 두 번째, 불용어 글자의 길이가 4글자 이상인 경우에는 위와 반대로 형태소 분석 후 비교를 하게 되면 '다시 말하면'이 '다시/Noun' + '말/Noun'+ '하다/Verb'로 변환이 되어 글자의 길이도 짧아지고, 형태도 변경이 되는 문제가 있어 뉴스 문장에서 삭제한다.
본 발명에서는 특정 뉴스 사이트에서 진위 여부를 분류할 수 있는 수십 내지 수백 건의 뉴스와 해당 뉴스의 메타정보를 수집하며, 이를 기반으로 뉴스의 진위여부를 가리는데 필요한 메타정보를 직접 생성할 수 있다.
뉴스 사이트에서 수집한 정보는 구체적으로 뉴스 제목, 본문, 메타 정보(뉴스 주제, 소주제, 주장/검증 매체)이며, 본 발명을 위해 생성한 메타 정보는 뉴스의 '대상'과 뉴스의 '주장/검증 주체' 데이터이다.
생성한 메타정보 중 '대상'은 뉴스에서 중점적으로 다루어지는 주제로서, 예를 들어 '소주제'가 같은 코로나 바이러스이더라도 정부기관과 관련된 내용이면 '정부', 의학지식에 대한 내용이면 '의학지식' 등으로 분류할 수 있다.
또한'주장/검증 주체'는 해당 뉴스를 작성 또는 배포한 주체로 같은 SNS에 올라온 주장이라도 일반인이 올린 주장이면 '일반인', 정치인이 올린 주장이면 '정치인'으로 분류할 수 있다.
표 1은 수집된 뉴스와 메타 정보 데이터의 정의를 보여준다.
Figure 112022018359059-pat00001
수집된 뉴스는 학습용(가짜 뉴스)과 검증용(사실인 뉴스)으로 분리하고, 전체 건 중 학습용과 검증용을 일정 비율로 분리할 수 있다.
수집된 뉴스의 데이터 건수가 많지 않은 경우, 실험을 위해 over-sampling을 통해 학습용, 검증용 뉴스를 각각 몇배수로 증가시켜 학습용과 검증용 건을 수 백건으로 분석함이 모델 성능 향상에 바람직하다.
데이터 전처리의 마지막 작업으로, 학습/검증용 뉴스의 Label 비율은 데이터 균형화 작업을 통해 동일하게 맞출 수 있다.
본 발명에서는 수집된 뉴스를 형태소 단위로 분리하는 토큰화 작업을 수행하기 위해 예를 들어 KONLPY 패키지의 Twitter를 사용할 수 있다. 토큰화 과정에서 불용어 길이별로 두 가지의 불용어 사전을 적용하여 불필요한 요소는 제거한다.
본 발명에서는 형태소 단위로 토큰화된 뉴스를 벡터(Vector)로 변환하기 위해 Word2Vec과 FastText를 각각 적용하여 워드 임베딩 모델을 생성한다.
워드 임베딩 모델은 학습 시 주변 단어와의 관계를 통해 단어에 의미를 부여하게 된다. 그러므로 뉴스기사를 학습하여 만들어진 임베딩 모델을 가짜뉴스 분류에 활용하는 것이 적합하며, 특정 뉴스(예 : 네이버 뉴스)에서 크롤링한 뉴스와 팩트체크 사이트에서 수집한 뉴스를 사용하고 불용어 사전을 적용할 수 있으며, KONLPY의 Twitter를 통해 형태소 분석을 수행한다.
임베딩 모델의 하이퍼 파라미터(Hyper Parameter)의 경우, 구체적 예를 들어 차원은 300차원, 윈도우 사이즈는 5개, 최소 횟수는 3회로 설정할 수 있다.
본 발명에서는 자연어 처리와 텍스트 분류에 많이 사용되고 있는 딥러닝 알고리즘인 LSTM 및 양방향 LSTM(BiLSTM)과 임베딩 알고리즘인 Word2vec 및 Fasttext를 사용하여 하이퍼 파라미터 조정에 따른 분류 정확도를 비교하여 실험할 수 있으며, 분류 모델의 구체적 구성도는 도 3에 도시하고 있다.
이제 분류 모델의 성과를 검증하기 위한 검증지표로 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), 그리고 정밀도와 재현율의 조화평균인 F1-Score를 사용할 수 있다.
본 발명에서는 Word2Vec과 Fasttext로 워드 임베딩 모델을 만들어 각각 LSTM과 BiLSTM 알고리즘에 적용하여 검증을 위한 복수의 실험을 진행하였다.
구체적으로 1차 실험에서는 LSTM과 BiLSTM 각각에 대해 batch size를 조정하면서 두 분류모델의 정확도를 비교하였다.
각각의 분류 알고리즘을 Word2Vec과 Fasttext로 2회씩 총 4회의 실험을 진행하였다. 표 2를 참고하면, LSTM의 평균 정확도는 0.58로 나왔고, BiLSTM의 평균 정확도는 0.76으로 나와, BiLSTM이 LSTM보다 본 발명에서 더 좋은 분류 정확도를 보였다.
Figure 112022018359059-pat00002
LSTM의 가장 높은 정확도를 보인 차수2 + Word2Vec의 경우 표 3의 검증결과를 보였고, BiLSTM의 가장 높은 정확도를 보인 차수2 + Fasttext의 경우 표 4와 같은 검증결과를 보였다.
Figure 112022018359059-pat00003
Figure 112022018359059-pat00004
2차 실험에서는 BiLSTM 기법을 중심으로 임베딩 모델과 하이퍼 파라미터를 변경하면서 최적의 조합을 찾고자 하였다.
표 5와 같이 BiLSTM+Word2Vec 모델에 대해 batch size, learning rate, node 수, epoch를 각각 두 개의 경우로 나누어 하이퍼 파라미터셋을 구성하여, 총 16번의 실험을 수행한 결과, 차수 7의 정확도가 0.84로 가장 높게 나타났다.
Figure 112022018359059-pat00005
표 6과 같이 BiLSTM+Fasttext 모델에 대해 batch size, learning rate, node 수, epoch를 각각 두 개의 경우로 나누어 하이퍼 파라미터셋을 구성하여, 총 16번의 실험을 수행한 결과, 차수 9의 정확도가 0.80으로 가장 높게 나타났다.
Figure 112022018359059-pat00006
최종 실험에서는 메타정보의 활용이 모델의 분류 정확도에 영향을 미치는 정도를 확인하고자 각 임베딩 모델별로 가장 좋은 정확도를 보였던 차수의 하이퍼 파라미터를 활용하여 메타정보 없이 뉴스제목과 뉴스내용만으로 추가 실험을 수행하였다.
표 7과 같이, 메타정보를 모델에서 제외할 경우 모델에 포함하는 경우에 비해서 정확도가 Word2Vec은 0.42, Fasttext는 0.33 낮게 나왔으며, 이러한 정확도의 차이는 paired t-test 결과 통계적으로 유의한 것으로 나왔다. 이를 통해 메타정보가 뉴스의 진위분류에 많은 영향을 미치는 것을 확인할 수 있다.
Figure 112022018359059-pat00007
결과적으로 본 발명은 이러한 측면에서 가짜 뉴스를 빠르게 판별하기 위해 뉴스의 진위를 분류할 수 있는 딥러닝 기반의 모델을 개발하는데 도움을 주며, 이를 위해 Word2vec과 Fasttext와 같은 워드 임베딩 모델과 LSTM과 BiLSTM과 같은 딥러닝 기법을 사용하여, 복수의 실험을 진행하여 원하는 모델 성능을 얻을 수 있으며, 상기 검증된 바와 같이 비교적 높은 정확도를 보이는 BiLSTM-Word2vec기반의 분류 모델을 제공함을 보여주고 있다.
본 발명의 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템은 후술하는 명령 기능을 수행할 수 있는 기기로서, 예를 들어 서버 컴퓨터, 개인 컴퓨터 등으로 구성될 수 있다. 일 실시예에서, 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템은 하나 이상의 프로세서 및/또는 하나 이상의 메모리를 포함할 수 있다.
또한 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템은, 메모리(memory)와, 메모리 내 적어도 하나의 명령을 실행하는 프로세서(processor)를 포함할 수 있다.
일 실시예에 따라 하나 이상의 프로세서에 의해 수행되는 명령 연산은, 특정 뉴스에 대하여 가짜 뉴스를 판별하고 구분하기 위한 학습 데이터로서, 뉴스 데이터를 수집하는 단계, 가짜 뉴스 판별에 용이하도록 데이터 전처리를 수행하는 단계, 상기 데이터 전처리 과정을 거친 학습용 뉴스 데이터 및 메타정보를 토대로 형태소 단위로 토큰화된 뉴스를 벡터(Vector)로 변환하기 위해 Word2Vec과 FastText를 각각 적용하여 워드 임베딩 모델을 생성하는 단계, 생성된 워드 임베딩 분류 모델을 이용하여 뉴스 데이터에 대한 가짜 뉴스 여부를 구분하도록 학습하고, 학습된 모델로 가짜 뉴스를 판별하는 단계를 포함한다.
나아가, 본 발명의 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템의 메모리는 상술한 바와 같은 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 방법의 구체적 기능 명령을 수행하기 위해 언급되지 않은 추가 명령 연산들을 더 포함하여 프로세서 또는 컴퓨터 프로그램에 의해 수행할 수 있다.
프로세서는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), 또는 본 발명의 기술 분야에 잘 알려진 임의의 형태의 프로세서를 포함하여 구성될 수 있다.
실시예에서, 프로세서는 본 발명의 실시예들에 따른 방법을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다. 실시예에서, 프로세서는 하나 이상의 코어(core, 미도시) 및 그래픽 처리부(미도시) 및/또는 다른 구성 요소와 신호를 송수신하는 연결 통로(예: 버스(bus) 등)를 포함할 수 있다.
실시예에서, 프로세서는 프로세서 내부에서 처리되는 신호(또는, 데이터)를 일시적 및/또는 영구적으로 저장하는 램(RAM: Random Access Memory, 미도시) 및 롬(ROM: Read-Only Memory, 미도시)을 더 포함할 수 있다. 또한, 프로세서는 그래픽 처리부, 램 및 롬 중 적어도 하나를 포함하는 장치온칩(SoC: system on chip) 형태로 구현될 수 있다.
실시예에서, 프로세서는 메모리에 저장된 하나 이상의 인스트럭션(instruction)을 실행함으로써, 상술한 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 방법을 수행할 수 있다.
실시예에서, 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템의 이 구성요소들 중 적어도 하나가 생략되거나, 다른 구성요소가 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템에 추가될 수 있다. 또한 추가적으로(additionally) 또는 대체적으로(alternatively), 일부의 구성요소들이 통합되어 구현되거나, 단수 또는 복수의 개체로 구현될 수 있다. 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템 내, 외부의 구성요소들 중 적어도 일부의 구성요소들은 버스, GPIO(general purposeinput/output), SPI(serial peripheral interface) 또는 MIPI(mobile industry processor interface) 등을 통해 서로 연결되어, 데이터 및/또는 시그널을 주고 받을 수 있다.
하나 이상의 메모리는 다양한 데이터를 저장할 수 있다. 메모리에 저장되는 데이터는, 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템의 적어도 하나의 구성요소에 의해 획득되거나, 처리되거나, 사용되는 데이터로서, 소프트웨어(예: 프로그램)를 포함할 수 있다. 메모리는, 휘발성 및/또는 비휘발성 메모리를 포함할 수 있다. 하나 이상의 메모리는, 하나 이상의 프로세서에 의한 실행 시, 하나 이상의 프로세서가 연산을 수행하도록 하는 명령들을 저장할 수 있다. 일 실시예에서, 하나 이상의 메모리는 하나 이상의 사용자에 대한 개인화 정보 및/또는 하나 이상의 상품에 대한 추천 정보를 저장할 수 있다. 본 개시에서, 프로그램 내지 명령은 메모리에 저장되는 소프트웨어로서, 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템의 리소스를 제어하기 위한 운영체제, 어플리케이션 및/또는 어플리케이션이 장치의 리소스들을 활용할 수 있도록 다양한 기능을 어플리케이션에 제공하는 미들 웨어 등을 포함할 수 있다.
하나 이상의 프로세서는, 소프트웨어(예: 프로그램, 명령)를 구동하여 프로세서에 연결된 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템의 적어도 하나의 구성요소를 제어할 수 있다. 또한 프로세서는 본 개시와 관련된 다양한 연산, 처리, 데이터 생성, 가공 등의 동작을 수행할 수 있다. 또한 프로세서는 데이터 등을 메모리로부터 로드하거나, 메모리에 저장할 수 있다.
실시예에서, 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템은 통신 인터페이스(도시되지 않음)를 더 포함할 수 있다
통신 인터페이스에 의해 통신하는 통신망은 단말기들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷 (WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다.
무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 블루투스 통신, 적외선 통신, 초음파 통신, 가시광 통신(VLC: Visible Light Communication), 라이파이(LiFi) 등이 포함되나 이에 한정되지는 않는다.
본 개시에 따른 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템의 다양한 실시예들은 서로 조합될 수 있다.
각 실시예들은 경우의 수에 따라 조합될 수 있으며, 조합되어 만들어진 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템의 실시예 역시 본 개시의 범위에 속한다.
또한 전술한 본 개시에 따른 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템의 내/외부 구성 요소들은 실시 예에 따라 추가, 변경, 대체 또는 삭제될 수 있다. 또한 전술한 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템의 내/외부 구성 요소들은 하드웨어 컴포넌트로 구현될 수 있다.
나아가 본 발명의 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 방법은 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램으로 구현되거나, 이 컴퓨터 프로그램이 동작하는 컴퓨터 하드웨어에 탑재되는 모듈 형태로 구현될 수 있다.
또한, 본 발명의 일 실시예에 따른 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 방법의 명령 연산을 수행하기 위한 동작은, 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리, SSD(Solid State Drive) 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

Claims (7)

  1. 컴퓨터로 읽을 수 있는 기록매체에 저장되고, 상기 컴퓨터가 읽을 수 있는 코드로 구현되며, 프로세서에 의해 수행되는 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 방법에 있어서,
    특정 뉴스에 대하여 가짜 뉴스를 판별하고 구분하기 위한 학습 데이터로서, 뉴스 데이터를 수집하는 단계;
    가짜 뉴스 판별에 용이하도록 데이터 전처리를 수행하는 단계;
    상기 데이터 전처리를 거친 학습용 뉴스 데이터 및 메타정보를 토대로 형태소 단위로 토큰화된 뉴스를 벡터(Vector)로 변환하기 위해 Word2Vec과 FastText를 각각 적용하여 워드 임베딩 모델을 생성하는 단계;
    생성된 워드 임베딩 분류 모델을 이용하여 뉴스 데이터에 대한 가짜 뉴스 여부를 구분하도록 학습하고, 학습된 모델로 가짜 뉴스를 판별하는 단계;
    상기 데이터 전처리 과정은 텍스트 전처리, 숫자나 문장부호 제거, 오탈자 교정, 대/소문자 통일, 불용어 제거 작업이 수행될 수 있으며, 수집된 뉴스 데이터를 학습용과 검증용으로 분리하여 학습 이후 검증에 활용할 수 있도록 하는 과정을 포함할 수 있고,
    상기 불용어 제거는 글자의 길이가 세 글자 이하일 경우, 형태소 분석 이후 형태소 단위로 불용어 제거가 이루어지는 것;
    상기 학습은 딥러닝 알고리즘인 양방향 LSTM(BiLSTM)을 활용하여 수행되고, 워드 임베이딩이 Fasttext로 이루어지는 것;을 특징으로 하는, 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 방법.
  2. 청구항 1에 있어서,
    상기 뉴스 데이터를 수집하는 단계는,
    상기 뉴스에 대한 메타정보를 수집하거나 수집된 뉴스 데이터를 토대로 메타정보를 생성하는 단계;
    를 더 포함하는 것을 특징으로 하는 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 방법.
  3. 청구항 2에 있어서,
    상기 메타정보는
    뉴스의 주제, 소주제, 주장/검증 주체 또는 매체에 대한 정보를 포함할 수 있는 것을 특징으로 하는 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 방법.
  4. 삭제
  5. 삭제
  6. 청구항 1 내지 청구항 3 중 어느 한 항의 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 방법을 수행하는 컴퓨터에서 판독 가능한 저장매체에 기록된 컴퓨터 프로그램
  7. 삭제
KR1020220021311A 2022-02-18 2022-02-18 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템 및 방법 KR102455747B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220021311A KR102455747B1 (ko) 2022-02-18 2022-02-18 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220021311A KR102455747B1 (ko) 2022-02-18 2022-02-18 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR102455747B1 true KR102455747B1 (ko) 2022-10-18

Family

ID=83803962

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220021311A KR102455747B1 (ko) 2022-02-18 2022-02-18 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102455747B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102640315B1 (ko) * 2022-10-28 2024-02-22 숭실대학교산학협력단 딥 러닝 기반 보이스 피싱 감지 장치 및 그 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190107832A (ko) * 2018-03-13 2019-09-23 국민대학교산학협력단 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법, 이를 기록한 기록매체
KR20200071821A (ko) * 2018-11-30 2020-06-22 고려대학교 산학협력단 신경망 상의 문법 변형을 이용한 가짜뉴스 탐색 방법, 이를 수행하기 위한 기록매체 및 장치
KR20200106231A (ko) * 2019-02-22 2020-09-14 글로벌사이버대학교 산학협력단 정성적 가짜 뉴스 판단 시스템, 판단 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
KR20210029005A (ko) * 2019-09-05 2021-03-15 군산대학교산학협력단 딥러닝 기반의 가짜 뉴스를 탐지하는 방법 및 이를 수행하는 장치
KR20210092979A (ko) * 2020-01-17 2021-07-27 글로벌사이버대학교 산학협력단 가짜 뉴스 인공지능 판별 시스템 및 그 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190107832A (ko) * 2018-03-13 2019-09-23 국민대학교산학협력단 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법, 이를 기록한 기록매체
KR20200071821A (ko) * 2018-11-30 2020-06-22 고려대학교 산학협력단 신경망 상의 문법 변형을 이용한 가짜뉴스 탐색 방법, 이를 수행하기 위한 기록매체 및 장치
KR20200106231A (ko) * 2019-02-22 2020-09-14 글로벌사이버대학교 산학협력단 정성적 가짜 뉴스 판단 시스템, 판단 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
KR20210029005A (ko) * 2019-09-05 2021-03-15 군산대학교산학협력단 딥러닝 기반의 가짜 뉴스를 탐지하는 방법 및 이를 수행하는 장치
KR102333325B1 (ko) 2019-09-05 2021-12-01 군산대학교산학협력단 딥러닝 기반의 가짜 뉴스를 탐지하는 방법 및 이를 수행하는 장치
KR20210092979A (ko) * 2020-01-17 2021-07-27 글로벌사이버대학교 산학협력단 가짜 뉴스 인공지능 판별 시스템 및 그 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102640315B1 (ko) * 2022-10-28 2024-02-22 숭실대학교산학협력단 딥 러닝 기반 보이스 피싱 감지 장치 및 그 방법

Similar Documents

Publication Publication Date Title
CN107679039B (zh) 用于确定语句意图的方法和装置
CN111310476B (zh) 一种使用基于方面的情感分析方法的舆情监控方法和系统
CN112188312B (zh) 用于确定新闻的视频素材的方法和装置
CN110674297B (zh) 舆情文本分类模型构建和舆情文本分类方法、装置及设备
CN112686022A (zh) 违规语料的检测方法、装置、计算机设备及存储介质
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
WO2023159767A1 (zh) 目标词语的检测方法、装置、电子设备及存储介质
CN111475650A (zh) 一种俄语语义角色标注方法、系统、装置以及存储介质
Harrag et al. Extracting named entities from prophetic narration texts (Hadith)
Najafi et al. Text-to-Text Transformer in Authorship Verification Via Stylistic and Semantical Analysis.
WO2020091618A1 (ru) Система определения именованных сущностей с динамическими параметрами
CN115080750A (zh) 基于融合提示序列的弱监督文本分类方法、系统和装置
KR102455747B1 (ko) 딥러닝 알고리즘을 이용한 가짜 뉴스 탐지 모델 제공 시스템 및 방법
Vidyashree et al. An improvised sentiment analysis model on twitter data using stochastic gradient descent (SGD) optimization algorithm in stochastic gate neural network (SGNN)
CN110633456A (zh) 语种识别方法、装置、服务器及存储介质
CN110888983B (zh) 一种正负面情感分析方法、终端设备及存储介质
KR20220074576A (ko) 마케팅 지식 그래프 구축을 위한 딥러닝 기반 신조어 추출 방법 및 그 장치
CN114764463A (zh) 基于事件传播特征的互联网舆情事件自动预警系统
Ren et al. ABML: attention-based multi-task learning for jointly humor recognition and pun detection
Sravya et al. Text Categorization of Telugu News Headlines
Suhasini et al. A Hybrid TF-IDF and N-Grams Based Feature Extraction Approach for Accurate Detection of Fake News on Twitter Data
Altınel et al. Performance Analysis of Different Sentiment Polarity Dictionaries on Turkish Sentiment Detection
KR20220068937A (ko) 기계학습 방법론을 이용한 한국 표준 산업/직업 분류 방법
CN109885827B (zh) 一种基于深度学习的命名实体的识别方法和系统
CN112199954A (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant