KR102340542B1 - Device and method for automatic fake news detection - Google Patents
Device and method for automatic fake news detection Download PDFInfo
- Publication number
- KR102340542B1 KR102340542B1 KR1020190147128A KR20190147128A KR102340542B1 KR 102340542 B1 KR102340542 B1 KR 102340542B1 KR 1020190147128 A KR1020190147128 A KR 1020190147128A KR 20190147128 A KR20190147128 A KR 20190147128A KR 102340542 B1 KR102340542 B1 KR 102340542B1
- Authority
- KR
- South Korea
- Prior art keywords
- classification
- news
- unit
- model
- fake
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
가짜 뉴스 분류 장치가 개시된다. 상기 가짜 뉴스 분류 장치는 적어도 제목(headline)과 본문(body text)로 구성된 뉴스들을 이용하여 BERT(Bidirectional Encoder Representations from Transformers model) 모델을 사전-학습(pre-training)시키는 사전 학습부, 미리 정해진 데이터셋(dataset)을 이용하여 상기 BERT 모델을 미세-조정(fine-tuning)하는 미세 조정부 및 상기 사전 학습부와 상기 미세 조정부에 의해 생성된 탐지 모델을 이용하여 분류 대상 뉴스가 가짜 뉴스인지 여부를 판단하는 분류부를 포함한다.A fake news classification device is disclosed. The fake news classification apparatus includes a pre-training unit for pre-training a BERT (Bidirectional Encoder Representations from Transformers model) model using news composed of at least a headline and a body text, and predetermined data. Determining whether or not news to be classified is fake news using a fine-tuning unit that fine-tunes the BERT model using a dataset, and a detection model generated by the pre-learning unit and the fine-tuning unit It includes a classification section that
Description
본 발명은 자동화 기반의 가짜 뉴스 탐지를 위한 방법에 관한 것이다.The present invention relates to a method for automatic detection of fake news.
가짜 정보(fake information)는 비디오(videos), 오디오(audio), 이미지(images), 텍스트(text) 등과 같이 다양한 형태로 발현된다. 게다가, 텍스트 형식(text form)의 가짜 정보는 뉴스(news), 소셜 네트워크 서비스(social network services), 연설(speeches), 문서(documents) 등으로 분류될 수 있다. 본 발명에서는 텍스트 기반의 가짜 뉴스(text-based fake news)에 집중함으로써 가짜 뉴스를 탐지하는 방법을 위한 모델을 제안한다. 허위 정보(fraudulent information) 또는 위조 정보(falsified information)는 급격하게 확산되어, 독자들이 해당 정보가 가짜 뉴스임을 탐지하지 못하면 문제가 된다.Fake information is expressed in various forms such as videos, audio, images, and text. In addition, fake information in text form may be classified into news, social network services, speeches, documents, and the like. The present invention proposes a model for a method of detecting fake news by focusing on text-based fake news. Fraudulent or false information spreads rapidly and becomes a problem if readers fail to detect that the information is fake news.
2015년에 IFCN(the International Fact-Checking Network)이 설립되었다. IFCN은 사실 확인 경향(fact check trends)을 관찰하고, 사실 확인자(fack checker)를 위한 훈련 프로그램(training programs)을 제공한다. 게다가, 가짜 뉴스의 확산을 방지하기 위한 다양한 노력들이 시도되고 있다. Politifact(https://www.politifact.com)사와 snopes(https://www.snopes.com)사는 가짜 뉴스 탐지툴을 개발하였다. 그러나, 이러한 툴들은 사람이 직접 개입하여 판단하는 방식으로 시간과 비용이 소요되는 문제점이 있다. 따라서, 자동으로 가짜 뉴스를 탐지하는 모델이 요구된다.In 2015, the International Fact-Checking Network (IFCN) was established. IFCN observes fact check trends and provides training programs for fake checkers. In addition, various efforts are being made to prevent the spread of fake news. Politifact (https://www.politifact.com) and snopes (https://www.snopes.com) have developed fake news detection tools. However, these tools have a problem in that time and money are consumed in a way that a person directly intervenes and makes a judgment. Therefore, a model for automatically detecting fake news is required.
본 발명이 이루고자 하는 기술적인 과제는 자동화 기반의 가짜 뉴스 탐지 장치 및 방법을 제공하는 것이다.An object of the present invention is to provide an apparatus and method for detecting fake news based on automation.
본 발명의 일 실시예에 따른 가짜 뉴스 분류 장치는 적어도 제목(headline)과 본문(body text)로 구성된 뉴스들을 이용하여 BERT(Bidirectional Encoder Representations from Transformers model) 모델을 사전-학습(pre-training)시키는 사전 학습부, 미리 정해진 뉴스 데이터셋(dataset)을 추가로 학습하여 상기 BERT 모델을 미세-조정(fine-tuning)하는 미세 조정부 및 상기 사전 학습부와 상기 미세 조정부에 의해 생성된 탐지 모델을 이용하여 분류 대상 뉴스가 가짜 뉴스인지 여부를 판단하는 분류부를 포함한다.The fake news classification apparatus according to an embodiment of the present invention pre-trains a BERT (Bidirectional Encoder Representations from Transformers model) model using news composed of at least a headline and a body text. Using a pre-learning unit, a fine-tuning unit for fine-tuning the BERT model by additionally learning a predetermined news dataset, and a detection model generated by the pre-training unit and the fine-tuning unit and a classification unit that determines whether the news to be classified is fake news.
본 발명의 실시 예에 따른 자동화 기반의 가짜 뉴스 탐지 장치 및 방법에 의할 경우, 뉴스의 제목과 본문의 내용에 기초하여 해당 뉴스가 가짜 뉴스인지 여부를 탐지할 수 있는 효과가 있다.In the case of an automated fake news detection apparatus and method according to an embodiment of the present invention, it is possible to detect whether the corresponding news is fake news based on the title and main text of the news.
본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 상세한 설명이 제공된다.
도 1은 본 발명의 일 실시예에 따른 가짜 뉴스 탐지 장치의 기능 블럭도이다.
도 2는 도 1에 도시된 가짜 뉴스 탐지 장치에 의해 생성된 가짜 뉴스 탐지 모델을 도시한다.In order to more fully understand the drawings recited in the Detailed Description, a detailed description of each drawing is provided.
1 is a functional block diagram of an apparatus for detecting fake news according to an embodiment of the present invention.
FIG. 2 shows a fake news detection model generated by the fake news detection apparatus shown in FIG. 1 .
본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시 예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시 예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시 예들은 다양한 형태들로 실시될 수 있으며 본 명세서에 설명된 실시 예들에 한정되지 않는다.Specific structural or functional descriptions of the embodiments according to the concept of the present invention disclosed in this specification are only exemplified for the purpose of explaining the embodiments according to the concept of the present invention, and the embodiments according to the concept of the present invention are It may be implemented in various forms and is not limited to the embodiments described herein.
본 발명의 개념에 따른 실시 예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시 예들을 도면에 예시하고 본 명세서에서 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시 예들을 특정한 개시 형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물, 또는 대체물을 포함한다.Since the embodiments according to the concept of the present invention may have various changes and may have various forms, the embodiments will be illustrated in the drawings and described in detail herein. However, this is not intended to limit the embodiments according to the concept of the present invention to specific disclosed forms, and includes all modifications, equivalents, or substitutes included in the spirit and scope of the present invention.
제1 또는 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만, 예컨대 본 발명의 개념에 따른 권리 범위로부터 벗어나지 않은 채, 제1 구성 요소는 제2 구성 요소로 명명될 수 있고 유사하게 제2 구성 요소는 제1 구성 요소로도 명명될 수 있다.Terms such as first or second may be used to describe various elements, but the elements should not be limited by the terms. The above terms are used only for the purpose of distinguishing one component from another, for example without departing from the scope of the inventive concept, a first component may be termed a second component and similarly a second component A component may also be referred to as a first component.
어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는 중간에 다른 구성 요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성 요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.When a component is referred to as being “connected” or “connected” to another component, it is understood that it may be directly connected or connected to the other component, but other components may exist in between. it should be On the other hand, when it is said that a certain element is "directly connected" or "directly connected" to another element, it should be understood that the other element does not exist in the middle. Other expressions describing the relationship between components, such as "between" and "immediately between" or "neighboring to" and "directly adjacent to", etc., should be interpreted similarly.
본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로서, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 본 명세서에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terms used herein are used only to describe specific embodiments, and are not intended to limit the present invention. The singular expression includes the plural expression unless the context clearly dictates otherwise. In this specification, terms such as "comprise" or "have" are intended to designate that a feature, number, step, operation, component, part, or combination thereof described herein exists, but one or more other features It should be understood that it does not preclude the possibility of the presence or addition of numbers, steps, operations, components, parts, or combinations thereof.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries should be interpreted as having a meaning consistent with the meaning in the context of the related art, and should not be interpreted in an ideal or excessively formal meaning unless explicitly defined in the present specification. does not
이하, 본 명세서에 첨부된 도면들을 참조하여 본 발명의 실시 예들을 상세히 설명한다. 그러나, 특허출원의 범위가 이러한 실시 예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. However, the scope of the patent application is not limited or limited by these examples. Like reference numerals in each figure indicate like elements.
도 1은 본 발명의 일 실시예에 따른 가짜 뉴스 탐지 장치의 기능 블럭도이고, 도 2는 도 1에 도시된 가짜 뉴스 탐지 장치에 의해 생성된 가짜 뉴스 탐지 모델을 도시한다.1 is a functional block diagram of a fake news detection apparatus according to an embodiment of the present invention, and FIG. 2 illustrates a fake news detection model generated by the fake news detection apparatus shown in FIG. 1 .
가짜 뉴스 탐지 장치(10, 이하에서는 탐지 장치라 함)는 사전 학습부(110), 미세 조정부(120) 및 저장부(150)를 포함한다. 실시예에 따라, 탐지 장치(10)는 테스트부(130) 및/또는 분류부(140)를 더 포함할 수도 있다. 탐지 장치(10)는 제목(title or headline)과 본문(body text)으로 구성된 뉴스(news)를 입력받아 입력된 뉴스가 가짜뉴스인지 여부를 판단하는 모델, 즉 가짜 뉴스 탐지 모델(이하, 탐지 모델이라 함)을 생성하고, 생성된 탐지 모델을 이용하여 분류 대상 뉴스를 분류할 수 있다. 예컨대, 탐지 장치(10)는 BERT(Bidirectional Encoder Representations from Transformers model) 모델을 학습시킴으로써 탐지 모델을 생성할 수 있다.The fake news detection device 10 (hereinafter referred to as a detection device) includes a
탐지 장치(10)는 적어도 하나의 프로세서를 이용하여 구현될 수 있으며, 여기서, 프로세서는 중앙 처리 장치(CPU, Central Processing Unit), 마이크로 컨트롤러 유닛(MCU, Micro Controller Unit), 애플리케이션 프로세서(AP, Application Processor), 마이컴(Micom, Micro Processor), 전자 제어 유닛(ECU, Electronic Controlling Unit) 및/또는 각종 연산 처리 및 제어 신호의 생성이 가능한 다른 전자 장치 등을 포함할 수 있다. 이들 장치는, 예를 들어, 하나 또는 둘 이상의 반도체 칩 및 관련 부품을 이용하여 구현될 수 있다. 일 실시예에 의하면, 프로세서는 저장부(140)에 저장된 적어도 하나의 애플리케이션(소프트웨어, 프로그램이나 앱 등으로 표현 가능하다)을 구동시켜, 미리 정의된 연산, 판단, 처리 및/또는 제어 동작 등을 수행할 수도 있다. 여기서, 저장부(150)에 저장된 애플리케이션은, 설계자에 의해 직접 작성되어 저장부(150)에 입력 및 저장된 것일 수도 있고, 또는 유선 또는 무선 통신 네트워크를 통해 접속 가능한 전자 소프트웨어 유통망을 통하여 획득 또는 갱신된 것일 수도 있다.The
또한, 탐지 장치(10)는 이와 같은 프로세서가 하나 이상 설치된 적어도 하나의 정보 처리 장치를 이용하여 구현될 수도 있으며, 전자 정보 처리 장치는 데스크톱 컴퓨터, 랩톱 컴퓨터, 서버용 컴퓨터, 스마트 폰, 태블릿 피씨, 스마트 시계, 내비게이션 장치, 휴대용 게임기, 두부 장착형 디스플레이(HMD, Head Mounted Display) 장치, 인공지능 음향 재생 장치, 디지털 텔레비전, 가전기기, 기계 장치 및/또는 전자적으로 정보의 연산/처리 및 이와 관련된 제어가 가능하고 에너지 관리를 위해 특별히 제작된 적어도 하나의 장치를 포함할 수 있다.In addition, the
사전 학습부(110, 프리 트레이닝부라고 칭할 수도 있음)는 제1 데이터를 이용하여 탐지모델, 즉 BERT 모델을 사전-학습(pre-training)시킬 수 있다. 사전 학습부(110)에 의한 사전-학습의 결과로, BERT 모델의 문맥(context) 이해력을 향상시키고 자연어 처리 프로세스(natural lanuage processing, NLP)를 향상시킬 수 있다. 구체적으로, BERT 모델은 MLM(masked language model)과 다음 문장 예측기(next sentence predictor)를 포함하는 비지도 예측 태스크(unsupervised prediction task)를 이용하여 프리-트레이닝을 수행한다. MLM은 우선 문맥(context)을 이해하고 단어들(words)을 예측한다. 이를 위해, 사전 학습부(110)는 BERT에 입력되는 단어들(word piece) 또는 문장으로부터 일정 확률(예컨대, 15%)로 몇몇 토큰들(tokens)을 랜덤하게 마스크(mask)할 수 있다. 입력은 주위 단어들(surrounding words)의 문맥에 기초하여 마스크된 단어를 예측하기 위해 트랜스포머 구조(Transformer structure)에 포함된다. 이와 같은 과정을 통하여, BERT 모델은 문맥을 보다 정확하게 이해할 수 있다. 다음 문장 예측기는 문장들 간의 관계를 식별하기 위한 것이다. 이러한 태스크는 QA(Question Answering)나 NLI(Natural Language Inference)와 같은 언어 이해 태스크를 위해 중요하다. BERT는 말뭉치(corpus) 내의 두 문장을 오리지널 문장과 결합하는 이진화된 다음 문장 예측 태스크(binarized next sentence prediction task)를 포함한다. 이러한 모델은 BERT의 NLP 태스크에서의 성능을 향상시킬 수 있다. BERT 모델에서 사용된 데이터는 Book Corpus로부터의 800 M 단어들과 Wikipedia로부터의 2500 M 단어들을 포함한다. 위 데이터를 제1 데이터라 칭할 수 있다.The pre-training unit 110 (which may be referred to as a pre-training unit) may pre-train the detection model, that is, the BERT model, using the first data. As a result of the pre-learning by the
실시예에 따라, 사전 학습부(110)는 제2 데이터를 이용하여 BERT 모델을 사전-학습시킬 수도 있다. 예컨대, 제2 데이터는 CNN(www.cnn.com)과 Daily Mail(www.dailymail.co.uk)의 데이터셋(https://github.com/abisee/cnn-dailymail)을 포함할 수 있다. 제2 데이터를 이용한 추가적인 사전-학습을 통해 BERT 모델의 감지 성능을 향상시킬 수 있다. 제2 데이터는 제목과 본문으로 구성된 뉴스를 의미할 수 있다. 이전의 자연어 처리(NLP) 태스크에서 BERT의 프리-트레이닝은 좋은 성능을 보인다. 그러나, BERT 모델이 사용하는 데이터는 Wikipedia로부터 획득된 일반적인 데이터의 2500 M 단어들과 Book Corpus로부터의 800 M 단어들에 기초한다. 이러한 데이터는 방대한 분야의 정보를 포함하고 있으나, 개별적인 도메인(individual domain)에서의 구체적인 정보는 부족한 상태이다. 이러한 문제점에 착안하여, 본 발명에서는 가짜 뉴스의 탐지 능력을 향상시키기 위해 프리-트레이닝 단계에서 새로운 데이터를 추가하였다. CNN으로부터의 요약 데이터(비특허문헌 33-36 참조)에는 90,000 개의 문서와 380,000 개의 질의(questions)(118,497개의 어휘가 포함됨)가 포함되어 있고, Daily Mail 데이터셋에는 197,000 개의 문서와 879,000 개의 질의(208,045 개의 어휘가 포함됨)가 포함되어 있다. CNN 문서는 CNN 웹사이트로부터 획득된 2007년 4월부터 2015년 4월말까지의 기간 동안의 문서이며, Daily Mail 문서는 Daily Mail 웹사이트로부터 획득된 2010년 6월부터 2015년 4월말까지의 기간 동안의 문서이다.According to an embodiment, the
미세 조정부(120, 파인 튜닝부라고 칭할 수도 있음)는 BERT 모델을 미세-조정(Fine-tuning)함으로써 탐지 모델을 생성할 수 있다. 미세-조정 단계에서는 FNC-1(Fake news challenge stage 1) 데이터를 사용할 수 있다. 여기서, 학습 데이터는 제목(headline)과 본문(body text)의 쌍으로 구성되어 있으며, 각 제목-본문 쌍의 분류 라벨(class label)을 포함할 수 있다. 여기서, 분류 라벨이라 함은 제목-본문 쌍으로 이루어진 데이터의 분류로서, 제1 분류 내지 제4 분류를 포함할 수 있다. 즉, 학습 데이터 또는 제목-본문 쌍으로 이루어진 데이터는 제목-본문 쌍으로 이루어진 데이터의 분류 정보를 포함할 수 있다. 예컨대, 제1 분류 내지 제4 분류는 일치(agree), 비일치(disagree), 논의(discuss), 무관(unrelated)일 수 있다. '일치'는 제목과 본문의 내용이 일치함을 의미하고, '비일치'는 제목과 본문의 내용이 일치하지 않음을 의미하고, '논의'는 제목과 본문의 내용에 관하여 논의가 필요함을 의미하고, '무관'은 제목과 본문의 내용이 관련없음을 의미할 수 있다. 여기서, '비일치'와 '무관'으로 분류된 뉴스가 가짜 뉴스를 의미할 수 있다.The fine tuning unit 120 (which may be referred to as a fine tuning unit) may generate a detection model by fine-tuning the BERT model. Fake news challenge stage 1 (FNC-1) data may be used in the fine-tuning stage. Here, the training data is composed of a pair of a title (headline) and a body (body text), and may include a class label of each title-body pair. Here, the classification label refers to a classification of data composed of a title-body pair, and may include first to fourth classifications. That is, the training data or the data composed of the title-body pair may include classification information of the data composed of the title-body pair. For example, the first to fourth classifications may be agree, disagree, discuss, or unrelated. 'Consistent' means that the title and the content of the text match, 'non-consistent' means that the title and text do not match, and 'discuss' means that the title and the content of the text need to be discussed. and 'irrelevant' may mean that the title and the content of the main text are not related. Here, news classified as 'non-match' and 'unrelated' may mean fake news.
BERT 모델에서, 뉴스를 4개의 그룹으로 분류하기 위해 WCE(Weighted Cross Entropy, 가중된 크로스 엔트로피 또는 가중치가 적용된 크로스 엔트로피)가 사용되었다. WCE에 관하여는 비특허문헌 38 내지 40이 참조될 수 있다.In the BERT model, Weighted Cross Entropy (WCE) was used to classify news into four groups. Regarding WCE, reference can be made to Non-Patent Documents 38 to 40.
테스트부(130)는 테스트 데이터를 이용하여 학습된 탐지 모델을 테스트할 수 있다. 여기서, 테스트 데이터는 제목과 본문의 쌍으로 구성되어 있으며, 탐지 모델을 평가하기 위해 분류 라벨을 포함하지 않는다. 학습 데이터 및 테스트 데이터로 총 2587개의 제목(headlines)과 2587개의 본문(body texts)가 사용되었으며, 데이터는 FNC-1 github(htttps://github.com/FakeNewsChallenge/fnc-1)에서 획득될 수 있다.The
분류부(140)는 제목과 본문으로 구성된 분류 대상 뉴스를 입력받고, 생성된 분류 모델에 분류 대상 뉴스를 입력함으로써 분류 대상 뉴스를 분류할 수 있다. 즉, 분류부(140)는 분류 대상 뉴스가 가짜 뉴스인지 여부를 판단할 수 있다. 예컨대, 분류 대상 뉴스가 '비동의' 또는 '무관'으로 분류된 경우, 분류부(140)는 분류 대상 뉴스를 가짜 뉴스로 판단할 수 있다. The
저장부(140)에는 탐지 모델을 생성하기 위해 사용하는 데이터, 탐지 모델의 생성 중에 생성되는 데이터, 탐지 모델을 테스트하기 위한 데이터, 생성된 탐지 모델, 분류 대상 뉴스, 분류의 결과 등이 저장될 수 있다.The
이상에서 설명된 장치는 하드웨어 구성 요소, 소프트웨어 구성 요소, 및/또는 하드웨어 구성 요소 및 소프트웨어 구성 요소의 집합으로 구현될 수 있다. 예를 들어, 실시 예들에서 설명된 장치 및 구성 요소는, 예를 들어, 프로세서, 콘트롤러, ALU(Arithmetic Logic Unit), 디지털 신호 프로세서(Digital Signal Processor), 마이크로컴퓨터, FPA(Field Programmable array), PLU(Programmable Logic Unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(Operation System, OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술 분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(Processing Element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(Parallel Processor)와 같은, 다른 처리 구성(Processing Configuration)도 가능하다.The device described above may be implemented as a hardware component, a software component, and/or a set of hardware components and software components. For example, the devices and components described in the embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable array (FPA), and a PLU. It may be implemented using one or more general purpose or special purpose computers, such as a Programmable Logic Unit (Programmable Logic Unit), a microprocessor, or any other device capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications executed on the operating system. A processing device may also access, store, manipulate, process, and generate data in response to execution of the software. For convenience of understanding, although one processing device is sometimes described as being used, one of ordinary skill in the art will recognize that the processing device includes a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that can include For example, the processing device may include a plurality of processors or one processor and one controller. Other Processing Configurations are also possible, such as a Parallel Processor.
소프트웨어는 컴퓨터 프로그램(Computer Program), 코드(Code), 명령(Instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(Collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성 요소(Component), 물리적 장치, 가상 장치(Virtual Equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(Signal Wave)에 영구적으로, 또는 일시적으로 구체화(Embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instructions, or a combination of one or more thereof, and configure the processing device to operate as desired or independently or collectively processed You can command the device. The software and/or data may be any type of machine, component, physical device, virtual equipment, computer storage medium or device, to be interpreted by or provide instructions or data to the processing device. , or may be permanently or temporarily embodied in a transmitted signal wave (Signal Wave). The software may be distributed over networked computer systems and stored or executed in a distributed manner. Software and data may be stored in one or more computer-readable recording media.
실시 예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 좋ㅂ하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시 예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM, DVD와 같은 광기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-optical Media), 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시 예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or preferably. The program instructions recorded in the medium may be specially designed and configured for the embodiment, or may be known and available to those skilled in the art of computer software. Examples of the computer-readable recording medium include magnetic media such as hard disks, floppy disks and magnetic tapes, optical recording media such as CD-ROMs and DVDs, and magnetic such as floppy disks. - Includes hardware devices specially configured to store and execute program instructions, such as Magneto-optical Media, ROM, RAM, Flash memory, and the like. Examples of program instructions include not only machine language codes such as those generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.
본 발명은 도면에 도시된 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성 요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성 요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.Although the present invention has been described with reference to the embodiment shown in the drawings, which is merely exemplary, those skilled in the art will understand that various modifications and equivalent other embodiments are possible therefrom. For example, the described techniques are performed in an order different from the described method, and/or the described components of the system, structure, apparatus, circuit, etc. are combined or combined in a different form than the described method, or other components Or substituted or substituted by equivalents may achieve an appropriate result. Accordingly, the true technical protection scope of the present invention should be determined by the technical spirit of the appended claims.
10 : 가짜 뉴스 분류 장치
110 : 사전 학습부
120 : 미세 조정부
130 : 테스트부
140 : 분류부
150 : 저장부10: Fake News Classification Device
110: pre-learning unit
120: fine adjustment unit
130: test unit
140: classification unit
150: storage
Claims (4)
각각이 제목, 본문, 및 분류 정보를 포함하는 뉴스들을 포함하는 학습 데이터를 이용하여 상기 BERT 모델을 미세-조정(fine-tuning)하는 미세 조정부;
상기 사전 학습부와 상기 미세 조정부에 의해 생성된 탐지 모델을 이용하여 분류 대상 뉴스가 가짜 뉴스인지 여부를 판단하는 분류부; 및
테스트 데이터를 이용하여 상기 탐지 모델를 테스트하는 테스트부를 포함하고,
상기 분류 정보는 상기 학습 데이터에 포함된 뉴스들 중에서 대응하는 뉴스의 분류에 대한 정보이고,
상기 분류 정보는 제1 분류, 제2 분류, 제3 분류 및 제4 분류 중 어느 하나이고,
상기 제1 분류는 제목과 본문의 내용이 일치하는 뉴스에 대한 분류이고,
상기 제2 분류는 제목과 본문의 내용이 일치하지 않는 뉴스에 대한 분류이고,
상기 제3 분류는 제목과 본문의 내용에 대한 논의가 필요하다고 판단되는 뉴스에 대한 분류이고,
상기 제4 분류는 제목과 본문의 내용이 무관한 뉴스에 대한 분류인,
가짜 뉴스 분류 장치.
Pre-training a BERT (Bidirectional Encoder Representations from Transformers model) model using first data including a plurality of words and second data including news consisting of a headline and body text ) pre-learning unit;
a fine tuning unit for fine-tuning the BERT model using training data, each of which includes news including a title, a body, and classification information;
a classification unit that determines whether the news to be classified is fake news by using the detection model generated by the pre-learning unit and the fine adjustment unit; and
Comprising a test unit for testing the detection model using the test data,
The classification information is information on the classification of the corresponding news among the news included in the learning data,
The classification information is any one of a first classification, a second classification, a third classification, and a fourth classification,
The first classification is a classification for news in which the title and the content of the main text match,
The second classification is a classification for news that the title and the content of the main text do not match,
The third classification is a classification for news that is judged to need discussion on the title and content of the main text,
The fourth classification is a classification for news that is unrelated to the title and content of the main text,
Fake news classification device.
상기 분류 대상 뉴스는 제목과 본문으로 구성되고,
상기 분류부는 상기 분류 대상 뉴스가 제2 분류 또는 제4 분류로 분류되는 경우에 상기 분류 대상 뉴스를 가짜 뉴스로 결정하는,
가짜 뉴스 분류 장치.According to claim 1,
The classified news consists of a title and a body,
The classification unit determines the classification target news as fake news when the classification target news is classified into a second classification or a fourth classification;
Fake news classification device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190147128A KR102340542B1 (en) | 2019-11-15 | 2019-11-15 | Device and method for automatic fake news detection |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190147128A KR102340542B1 (en) | 2019-11-15 | 2019-11-15 | Device and method for automatic fake news detection |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210059544A KR20210059544A (en) | 2021-05-25 |
KR102340542B1 true KR102340542B1 (en) | 2021-12-20 |
Family
ID=76145753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190147128A KR102340542B1 (en) | 2019-11-15 | 2019-11-15 | Device and method for automatic fake news detection |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102340542B1 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259663B (en) * | 2020-01-14 | 2023-05-26 | 北京百度网讯科技有限公司 | Information processing method and device |
KR102396981B1 (en) * | 2021-07-20 | 2022-05-13 | (주)뤼이드 | Method and apparatus for pre-training artificial intelligence models |
KR20230134841A (en) | 2022-03-15 | 2023-09-22 | 충북대학교 산학협력단 | Time series numerical data processing method and apparatus for language model pre-training |
KR20240094050A (en) | 2022-11-17 | 2024-06-25 | 고려대학교 산학협력단 | Device and method for detecting fake news utilizing user information |
CN118410171B (en) * | 2024-06-26 | 2024-08-30 | 江西师范大学 | Fine granularity false news detection method based on emotion distribution |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008165598A (en) | 2006-12-28 | 2008-07-17 | National Institute Of Information & Communication Technology | Apparatus and method for extracting rumor information |
KR101864439B1 (en) | 2017-04-13 | 2018-06-11 | 황대훈 | Publication GUI display |
KR101869815B1 (en) | 2017-06-22 | 2018-06-22 | 고려대학교 산학협력단 | Method and apparatus for spotting fake news using collective intelligence |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190094863A (en) * | 2018-02-06 | 2019-08-14 | 금오공과대학교 산학협력단 | Detecting Improper Sentences in a News Article |
KR102053635B1 (en) * | 2018-03-13 | 2019-12-09 | 국민대학교산학협력단 | Distrust index vector based fake news detection apparatus and method, storage media storing the same |
-
2019
- 2019-11-15 KR KR1020190147128A patent/KR102340542B1/en active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008165598A (en) | 2006-12-28 | 2008-07-17 | National Institute Of Information & Communication Technology | Apparatus and method for extracting rumor information |
KR101864439B1 (en) | 2017-04-13 | 2018-06-11 | 황대훈 | Publication GUI display |
KR101869815B1 (en) | 2017-06-22 | 2018-06-22 | 고려대학교 산학협력단 | Method and apparatus for spotting fake news using collective intelligence |
Non-Patent Citations (2)
Title |
---|
Xiaofei Ma 외 4명, "Domain Adaptation with BERT-based Domain Classification and Data Selection", Proceedings of the 2nd Workshop on Deep Learning Approaches for Low-Resource NLP, 2019.11.03., pp76-83. 1부.* |
이동호 외 6명, "딥러닝 기법을 이용한 가짜뉴스 탐지", 2018년 춘계학술발표대회 논문집 제25권 제1호, 2018.05., pp384-387. 1부.* |
Also Published As
Publication number | Publication date |
---|---|
KR20210059544A (en) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102340542B1 (en) | Device and method for automatic fake news detection | |
Mani et al. | Deeptriage: Exploring the effectiveness of deep learning for bug triaging | |
Dam et al. | Automatic feature learning for predicting vulnerable software components | |
Zhao et al. | Document embedding enhanced event detection with hierarchical and supervised attention | |
Xiao et al. | Semantic relation classification via hierarchical recurrent neural network with attention | |
Das et al. | A heuristic-driven ensemble framework for COVID-19 fake news detection | |
Xu et al. | Prediction of relatedness in stack overflow: deep learning vs. svm: a reproducibility study | |
Zhou et al. | A Span-based Joint Model for Opinion Target Extraction and Target Sentiment Classification. | |
JP2022040026A (en) | Method, device, electronic device, and storage medium for entity linking | |
Gu et al. | Model editing can hurt general abilities of large language models | |
Abdul-Mageed et al. | AraNet: A deep learning toolkit for Arabic social media | |
Aralikatte et al. | Rewarding coreference resolvers for being consistent with world knowledge | |
Dadas et al. | A bidirectional iterative algorithm for nested named entity recognition | |
Verma et al. | Understanding the applications of natural language processing on COVID-19 data | |
Priyadarshini et al. | A transfer learning approach for detecting offensive and hate speech on social media platforms | |
Wang et al. | Personalizing label prediction for GitHub issues | |
CN113051910B (en) | Method and device for predicting emotion of persona | |
Tang et al. | It takes two flints to make a fire: Multitask learning of neural relation and explanation classifiers | |
Buch et al. | Neural event semantics for grounded language understanding | |
Iceland | How good are SOTA fake news detectors | |
M’sik et al. | Topic modeling coherence: A comparative study between lda and nmf models using covid’19 corpus | |
Isotani et al. | Sentence embedding and fine-tuning to automatically identify duplicate bugs | |
KR20230097710A (en) | Decision-making simulation apparatus and method through trained multilingual model | |
KR20230097712A (en) | Apparatus and method for task evaluation of artificial intelligence devices | |
Zaib et al. | Learning to select the relevant history turns in conversational question answering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |