KR102426599B1 - 한국어 문법 변환 기반 가짜 뉴스 탐지 서버 및 그 방법 - Google Patents
한국어 문법 변환 기반 가짜 뉴스 탐지 서버 및 그 방법 Download PDFInfo
- Publication number
- KR102426599B1 KR102426599B1 KR1020190156574A KR20190156574A KR102426599B1 KR 102426599 B1 KR102426599 B1 KR 102426599B1 KR 1020190156574 A KR1020190156574 A KR 1020190156574A KR 20190156574 A KR20190156574 A KR 20190156574A KR 102426599 B1 KR102426599 B1 KR 102426599B1
- Authority
- KR
- South Korea
- Prior art keywords
- sentence
- word
- query
- core
- vector
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
본 발명의 일 실시예에 따른 가짜 뉴스 탐지 서버에 의해 수행되는 한국어 문법 변환 기반 가짜뉴스 탐지방법에 있어서, 질의 문장 및 탐지 대상 뉴스 기사를 수신하는 단계; 탐지 대상 뉴스 기사 내에서 질의 문장과 관련된 기사 문장을 핵심 문장으로 추출하는 단계; 질의 문장의 단어와 핵심 문장의 단어 대응 여부를 확인하는 단계; 단어 매칭 여부에 따라, 질의 문장과 핵심 문장의 의미적 대응 여부를 확인하는 단계; 의미적 대응 여부에 따라, 질의 문장과 핵심 문장의 문법적 대응 여부를 확인하는 단계; 및 확인된 의미적 대응 여부 결과와 문법적 대응 결과에 기초하여 핵심 문장의 참 또는 거짓을 판단하는 단계를 포함하는, 한국어 문법 변환 기반 가짜뉴스 탐지방법을 제공하고자 한다.
Description
본 발명에 따른 한국어 문법 변환 기반 가짜뉴스 탐지 시스템은 뉴스 기사에 관련된 질의 문장과 뉴스 기사 문장을 한국어 문법에 기반하여 서로 매칭하여 가짜 뉴스를 선별하는 서버 및 그 방법에 관한 것이다.
일반적으로, 사람들이 공유하는 많은 양의 콘텐츠는 여러가지 여론을 형성한다. 때로는 잘못된 상업적 및 정치적 의도로 만들어진 가짜 뉴스가 여론 형성에 악영향을 줄 수 있다. 다양한 미디어 매체 그리고 통신 기술의 발전으로 가짜 뉴스 탐지는 뉴스의 진실성을 판별함에 있어서 필수적이고 도전적인 문제가 되었다.
한편, 문장 매칭은 자연어 처리의 핵심적인 기술로서 비교대상인 두 문장이 의미적으로 유사한지 여부를 확인할 수 있다. 최근 GPU와 같은 하드웨어의 발전으로 딥 러닝 연구가 활성화되었다. 딥 러닝에 기반한 자연어 처리 모델은 문장 매칭을 위해 다양한 시도로 발전되었다. 그 중 일부 모델은 다양한 길이의 문맥의 의미를 이해하기 위해 순환신경망(RNN: recurrent neural network)을 사용하였다. RNN은 많은 양의 데이터를 순차적으로 처리할 수 있기 때문에 여러 문장의 의미 분석에 적합한 반면에 정보의 유실(vanishing, exploding gradient)에 관한 문제가 있었다. 이러한 문제는 RNN에 Forget Gate를 추가한 장단기 메모리(LSTM: long short-term memory) 방식으로 개선되었다.
본 발명과 관련된 선행 문헌으로는 Bilateral Multi-Perspective Matching for Natural Language Sentences(BiMPM, Zhiguo Wang, 2017) 등이 있다. BiMPM 모델은 영어 데이터셋을 이용한 테스트 결과에서 최신의 성능을 달성했다. 이러한 성과에도 불구하고 BiMPM 모델에 한국어 뉴스 데이터셋을 적용함에 있어서 몇 가지 제한 사항이 있다.
첫 번째는, 영어와 한국어의 형태학적 특성이 다르기 때문에 영어 문장 매칭 기술 기반에서 한국어 문장 매칭 적용이 제한된다는 점이다. 두 번째는, 뉴스 기사와 같은 다수의 문장의 길이가 긴 글에서 중요한 정보를 포착하기 어렵다는 것이다.
본 발명의 해결하고자 하는 과제는 질의 문장과 관련된 문장을 뉴스 기사에서 찾아서 단어 수준에서 분석한 결과를 기초로, 딥 러닝 모델을 이용하여 의미적 일치 여부를 판단한 결과를 제공하고, 한국어 문법을 고려한 분석을 통해 문장 매칭한 결과를 제공하여, 의미적으로 문장 매칭한 결과와 문법적으로 문장 매칭한 결과를 집계하여 가짜 뉴스를 탐지하는 것이다.
본 발명의 일 실시예에 따른 가짜 뉴스 탐지 서버에 의해 수행되는 한국어 문법 변환 기반 가짜뉴스 탐지방법에 있어서, 질의 문장 및 탐지 대상 뉴스 기사를 수신하는 단계; 탐지 대상 뉴스 기사 내에서 질의 문장과 관련된 기사 문장을 핵심 문장으로 추출하는 단계; 질의 문장의 단어와 핵심 문장의 단어 대응 여부를 확인하는 단계; 단어 매칭 여부에 따라, 질의 문장과 핵심 문장의 의미적 대응 여부를 확인하는 단계; 의미적 대응 여부에 따라, 질의 문장과 핵심 문장의 문법적 대응 여부를 확인하는 단계; 및 확인된 의미적 대응 여부 결과와 문법적 대응 결과에 기초하여 핵심 문장의 참 또는 거짓을 판단하는 단계를 포함하는, 한국어 문법 변환 기반 가짜뉴스 탐지방법을 제공하고자 한다.
본 실시예에 있어서 핵심 문장 추출 단계는, 질의 문장 및 기사 문장을 어근과 접미사를 포함하는 단어 구성 단위로 분해하는 단계; 질의 문장의 단어 구성 단위와 기사 문장의 단어 구성 단위를 벡터화하고 서로 비교하여 코사인 유사도를 산출하는 단계; 및 질의 문장의 단어 구성 단위와 코사인 유사도가 가장 높은 단어 구성 단위를 포함하는 기사 문장을 핵심 문장으로 추출하는 단계를 포함하는, 한국어 문법 변환 기반 가짜뉴스 탐지방법을 제공할 수 있다.
본 실시예에 있어서, 질의 문장의 단어와 핵심 문장의 단어 대응 여부를 확인하는 단계는, 질의 문장을 단어별로 분해하고 각 단어의 배치 순서대로 저장하여 단어 매칭 세트를 생성하는 단계; 핵심 문장을 단어별로 분해하고 각 단어의 배치 순서대로 저장하여 단어 매칭 세트를 생성하는 단계; 질의 문장의 단어 매칭 세트와 핵심 문장의 단어 매칭 세트를 서로 비교하는 단계; 및 비교 결과를 완전 단어 매칭, 부분 단어 매칭으로 분류하여 출력하는 단계를 포함하는, 한국어 문법 변환 기반 가짜뉴스 탐지방법을 제공할 수 있다.
본 실시예에 있어서, 비교 결과가 완전 단어 매칭된 것으로 출력된 경우, 질의 문장과 핵심 문장이 의미적 대응된 것으로 판단하여, 질의 문장과 핵심 문장의 문법적 대응 여부를 확인하는, 한국어 문법 변환 기반 가짜뉴스 탐지방법을 제공할 수 있다.
본 실시예에 있어서, 질의 문장과 핵심 문장의 의미적 대응 여부를 확인하는 단계는, 질의 문장의 단어 벡터와 핵심 문장의 단어 벡터를 추출하는 단계; 추출된 질의 문장의 단어 벡터와 핵심 문장의 단어 벡터를 한국어 뉴스 기사를 미리 학습한 단어 임베딩 벡터와 매칭하는 단계; 매칭된 질의 문장의 단어 벡터와 핵심 문장의 단어 벡터에 딥러닝을 적용하여 각각 문맥 관련 임베딩 벡터로 추출하는 단계; 추출된 질의 문장의 문맥 관련 임베딩 벡터와 핵심 문장 문맥 관련 임베딩 벡터에 딥러닝을 적용하여 각각 질의 문장 매칭 벡터 및 핵심 문장 매칭 벡터로 추출하는 단계; 추출된 질의 문장 매칭 벡터와 핵심 문장 매칭 벡터에 딥러닝을 적용하여 문맥 집계 질의 문장 매칭 벡터(Contextual Aggregated Question Matching Vector)와 문맥 집계 핵심 문장 매칭 벡터(Contextual Aggregated Key Sentence Set Matching Vector)로 추출하는 단계; 문맥 집계 질의 문장 매칭 벡터와 문맥 집계 핵심 문장 매칭 벡터에 마지막 단계 일치 벡터(Last Time Step Matching Vector)을 매칭하여 집계 질의 문장 매칭 벡터(Aggregated Question Matching Vector)와 집계 핵심 문장 매칭 벡터(Aggregated Key Sentence Set Matching Vector)를 추출하는 단계; 및 추출된 집계 질의 문장 매칭 벡터와 집계 핵심 문장 매칭 벡터를 기초로 인공신경망과 정규화를 이용하여 질의 문장과 핵심 문장의 의미적 유사도를 산출하는 단계를 포함하는, 한국어 문법 변환 기반 가짜뉴스 탐지방법을 제공할 수 있다.
본 실시예에 있어서, 질의 문장과 핵심 문장의 문법적 대응 여부를 확인하는 단계는, 질의 문장의 단어들의 순서와 핵심 문장의 단어들의 순서를 각각 설정하는 단계; 순서가 설정된 질의 문장의 단어들과 핵심 문장의 단어들을 형태소 분석하여 각 형태소별로 분류하는 단계; 분류된 질의 문장 단어의 형태소와 핵심 문장 단어의 형태소를 어절을 기초로 분류하는 단계; 어절을 기초로 분류된 질의 문장의 패턴과 핵심 문장의 패턴을 생성하는 단계; 및 생성된 질의 문장의 패턴과 핵심 문장의 패턴을 서로 비교하여 질의 문장과 핵심 문장이 상호 변형 가능한 문장인지 확인하는 단계를 포함하는, 한국어 문법 변환 기반 가짜뉴스 탐지방법을 제공할 수 있다.
본 발명의 일 실시예에 따른 가짜 뉴스 탐지 서버에 있어서, 한국어 문법 변환 기반 가짜뉴스 탐지 방법 프로그램이 기록된 메모리; 및 메모리에 기록된 프로그램을 실행하는 프로세서를 포함하고, 프로세서는 프로그램의 실행에 따라, 질의 문장 및 탐지 대상 뉴스 기사를 수신하고, 탐지 대상 뉴스 기사 내에서 질의 문장과 관련된 기사 문장을 핵심 문장으로 추출하고, 질의 문장의 단어와 핵심 문장의 단어 대응 여부를 확인하고, 단어 매칭 여부에 따라, 질의 문장과 핵심 문장의 의미적 대응 여부를 확인하고, 의미적 대응 여부에 따라, 질의 문장과 핵심 문장의 문법적 대응 여부를 확인하고, 확인된 의미적 대응 여부 결과와 문법적 대응 결과에 기초하여 핵심 문장의 참 또는 거짓을 판단하는, 한국어 문법 변환 기반 가짜뉴스 탐지 서버를 제공하고자 한다.
본 발명의 효과는 질의 문장과 관련된 문장을 뉴스 기사에서 찾아서 단어 수준에서 분석한 결과를 기초로, 딥 러닝 모델을 이용하여 의미적 일치 여부를 판단한 결과를 제공하고, 한국어 문법을 고려한 분석을 통해 문장 매칭한 결과를 제공하여, 의미적으로 문장 매칭한 결과와 문법적으로 문장 매칭한 결과를 집계하여 가짜 뉴스를 탐지할 수 있다는 것이다.
또한 본 발명에 따르면 인터넷 신문, 소셜 네트워크 서비스 등과 같은 대중 매체에서 발생되는 뉴스 데이터들을 대상으로 하여 뉴스 기사의 진위를 판별할 수 있다. 또한, 뉴스 기사의 진위를 고려하여 대중 매체에 의해 잘못 전달된 정보를 판별할 수 있다. 나아가, 가짜뉴스에 의해 형성되는 여론을 방지할 수 있다.
도 1은 본 발명에 따른 가짜 뉴스 탐지 방법을 설명하는 개략도이다.
도 2는 본 발명에 따른 가짜 뉴스 탐지 방법을 설명하는 블록도이다.
도 3은 본 발명에 따른 가짜 뉴스 탐지 방법을 설명하는 순서도이다.
도 4는 본 발명에 따른 핵심 문장 추출 방법을 보여주는 순서도이다.
도 5는 본 발명에 따른 핵심 문장 추출 모델을 보여주는 개략도이다.
도 6은 본 발명에 따른 단어 대응 여부 확인 방법을 보여주는 순서도이다.
도 7은 본 발명에 따른 단어 매칭 모듈을 보여주는 개략도이다.
도 8은 본 발명에 따른 의미적 대응 여부 확인 방법을 보여주는 순서도이다.
도 9는 본 발명에 따른 의미적 대응 여부 확인 모듈을 보여주는 개략도이다.
도 10은 본 발명에 따른 문법적 대응 여부 확인 모듈의 일부를 보여주는 계략도이다.
도 11은 본 발명에 따른 문법적 대응 여부 확인을 위한 문장 구조화를 보여주는 도면이다.
도 12는 본 발명에 따른 의미적 대응 여부 확인 방법의 알고리즘 예시를 보여주는 도면이다.
도 13은 본 발명에 따른 문법적 대응 여부 확인 방법의 알고리즘 예시를 보여주는 도면이다.
도 14는 본 발명에 따른 문법적 대응 여부 확인 방법의 입력 문장, 형태소 분석결과를 보여주는 도면이다.
도 15는 본 발명에 따른 문법적 대응 여부 확인 방법의 어절 단위 문장 분석을 보여주는 도면이다.
도 16은 본 발명에 따른 문장 패턴 생성 결과를 보여주는 도면이다.
도 2는 본 발명에 따른 가짜 뉴스 탐지 방법을 설명하는 블록도이다.
도 3은 본 발명에 따른 가짜 뉴스 탐지 방법을 설명하는 순서도이다.
도 4는 본 발명에 따른 핵심 문장 추출 방법을 보여주는 순서도이다.
도 5는 본 발명에 따른 핵심 문장 추출 모델을 보여주는 개략도이다.
도 6은 본 발명에 따른 단어 대응 여부 확인 방법을 보여주는 순서도이다.
도 7은 본 발명에 따른 단어 매칭 모듈을 보여주는 개략도이다.
도 8은 본 발명에 따른 의미적 대응 여부 확인 방법을 보여주는 순서도이다.
도 9는 본 발명에 따른 의미적 대응 여부 확인 모듈을 보여주는 개략도이다.
도 10은 본 발명에 따른 문법적 대응 여부 확인 모듈의 일부를 보여주는 계략도이다.
도 11은 본 발명에 따른 문법적 대응 여부 확인을 위한 문장 구조화를 보여주는 도면이다.
도 12는 본 발명에 따른 의미적 대응 여부 확인 방법의 알고리즘 예시를 보여주는 도면이다.
도 13은 본 발명에 따른 문법적 대응 여부 확인 방법의 알고리즘 예시를 보여주는 도면이다.
도 14는 본 발명에 따른 문법적 대응 여부 확인 방법의 입력 문장, 형태소 분석결과를 보여주는 도면이다.
도 15는 본 발명에 따른 문법적 대응 여부 확인 방법의 어절 단위 문장 분석을 보여주는 도면이다.
도 16은 본 발명에 따른 문장 패턴 생성 결과를 보여주는 도면이다.
아래에서는 첨부한 도면을 참조하여, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고, 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이하에서는 본 발명의 일 실시예에 따른 한국어 문법 변환 기반 가짜뉴스 탐지 서버에 대하여 설명하기로 한다.
도 1은 본 발명에 따른 가짜 뉴스 탐지 방법을 설명하는 개략도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 한국어 문법 변환 기반 가짜뉴스 탐지 서버는 사용자 단말로부터 질의 문장과 뉴스 기사를 수신하고, 이에 대하여 질의 문장과 뉴스 기사 내의 진실 문장의 유사도를 산출하고, 이를 기초로 질의 문장의 진위를 판별하여 그 결과값을 사용자 단말로 제공할 수 있다.
한편 가짜 뉴스 탐지 서버는 통신 모듈, 메모리, 프로세서를 포함할 수 있다.
통신 모듈은 통신망과 연동하여 가짜 뉴스 탐지 서버에 통신 인터페이스를 제공하는데, 사용자 단말과 데이터를 송수신하는 역할을 수행할 수 있다. 여기서, 통신 모듈은 다른 네트워크 장치와 유무선 연결을 통해 제어 신호 또는 데이터 신호와 같은 신호를 송수신하기 위해 필요한 하드웨어 및 소프트웨어를 포함하는 장치일 수 있다.
메모리는 가짜 뉴스 탐지 프로그램이 기록된 것일 수 있다. 또한, 메모리는 프로세서가 처리하는 데이터를 일시적 또는 영구적으로 저장하는 기능을 수행할 수 있다. 여기서, 메모리는 휘발성 저장 매체(volatile storage media) 또는 비휘발성 저장 매체(non-volatile storage media)를 포함할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.
프로세서는 가짜 뉴스 탐지 서버에서 가짜 뉴스 탐지 프로그램이 수행하는 전체 과정을 제어할 수 있다. 프로세서가 수행하는 과정의 각 단계에 대해서는 도 2 내지 도 10을 참조하여 후술하기로 한다.
여기서, 프로세서는 프로세서(processor)와 같이 데이터를 처리할 수 있는 모든 종류의 장치를 포함할 수 있다. 여기서, '프로세서(processor)'는, 예를 들어 프로그램 내에 포함된 코드 또는 명령으로 표현된 기능을 수행하기 위해 물리적으로 구조화된 회로를 갖는, 하드웨어에 내장된 데이터 처리 장치를 의미할 수 있다. 이와 같이 하드웨어에 내장된 데이터 처리 장치의 일 예로서, 마이크로프로세서(microprocessor), 중앙처리장치(central processing unit: CPU), 프로세서 코어(processor core), 멀티프로세서(multiprocessor), ASIC(application-specific integrated circuit), FPGA(field programmable gate array) 등의 처리 장치를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다.
이하에서는 본 발명의 일 실시예에 따른 한국어 문법 변환 기반 가짜뉴스 탐지 방법에 대하여 설명하기로 한다.
도 2는 본 발명에 따른 가짜 뉴스 탐지 방법을 설명하는 블록도이다. 도 3은 본 발명에 따른 가짜 뉴스 탐지 방법을 설명하는 순서도이다.
도 2 및 도 3을 참조하면, 본 발명의 일 실시예에 따른 가짜 뉴스 탐지 프로그램은 뉴스 기사에서 질의 문장과 관련된 기사 문장을 찾는 핵심 문장 추출 모델, 질의 문장의 단어와 핵심 문장의 단어 대응 여부를 확인하는 모델, 질의 문장과 핵심 문장의 의미적 대응 여부를 확인하는 모델, 질의 문장과 핵심 문장의 문법적 대응 여부를 확인하는 모델을 통합한 한국어 문법 변환 기반 가짜뉴스 탐지 프로그램 제공한다.
본 프로그램은 개략적으로 뉴스 기사와 관련된 질의 문장을 단어 구성 단위로 나누고, 단어 구성 단위를 이용하여 뉴스 기사에서 관련도가 높은 핵심 문장을 추출한다. 그리고 질의 문장과 관련된 뉴스 기사 문장의 단어 매칭 여부를 확인하고, 질의 문장과 핵심 문장을 매칭시켜 의미적 대응 여부를 확인하고, 문법적 대응 여부를 확인한 뒤, Bidirectional Long Short-term Memory(BiLSTM)을 이용하여 의미적으로 문장 매칭한 결과와 문법적으로 문장 매칭한 결과를 집계하여 가짜뉴스를 판독할 수 있다. 여기서 질의 문장은 진위 여부의 확인이 필요한 문장이고, 탐지 대상 뉴스 기사는 거짓 정보가 없는 진실 정보로 구성된 뉴스 기사일 수 있다.
본 발명의 일 실시예에 따른 가짜 뉴스 탐지 서버에 의해 수행되는 한국어 문법 변환 기반 가짜뉴스 탐지방법에 있어서, 먼저 질의 문장 및 탐지 대상 뉴스 기사를 수신하는 단계(S310)가 수행될 수 있다.
다음으로 탐지 대상 뉴스 기사 내에서 질의 문장과 관련된 기사 문장을 핵심 문장으로 추출하는 단계(S320)가 수행될 수 있다.
도4는 본 발명에 따른 핵심 문장 추출 방법을 보여주는 순서도이다. 도 5는 본 발명에 따른 핵심 문장 추출 모델을 보여주는 개략도이다.
도 4 및 도5를 참조하면 핵심 문장 추출 단계는, 먼저 질의 문장 및 기사 문장을 어근과 접미사를 포함하는 단어 구성 단위로 분해하는 단계(S410)가 수행될 수 있다.
다음으로, 질의 문장의 단어 구성 단위와 기사 문장의 단어 구성 단위를 벡터화하고 서로 비교하여 코사인 유사도를 산출하는 단계(S420)가 수행될 수 있다. 이는 뉴스 기사에서 분해된 단어 구성 단위를 이용하여 단어의 빈도 측면에서 질의 문장과 가장 유사한 문장을 회수하기 위한 것이다.
다음으로, 질의 문장의 단어 구성 단위와 코사인 유사도가 가장 높은 단어 구성 단위를 포함하는 기사 문장을 핵심 문장으로 추출하는 단계(S430)가 수행될 수 있다. 이는 뉴스 기사의 각 문장에서 질의 문장 단어 구성 단위의 출현 빈도를 확인하여 핵심 문장을 추출하기 위한 것이다.
도 6은 본 발명에 따른 단어 대응 여부 확인 방법을 보여주는 순서도이다. 도 7은 본 발명에 따른 단어 대응 여부 확인 모듈을 보여주는 개략도이다.
다음으로 도 6 및 도 7을 참조하면, 질의 문장의 단어와 핵심 문장의 단어 대응 여부를 확인하는 단계가 수행될 수 있다.
질의 문장의 단어와 핵심 문장의 단어 대응 여부를 확인하는 단계는, 먼저 질의 문장을 단어별로 분해하고 각 단어의 배치 순서대로 저장하여 단어 매칭 세트를 생성하는 단계(S610)가 수행될 수 있다.
다음으로, 핵심 문장을 단어별로 분해하고 각 단어의 배치 순서대로 저장하여 단어 매칭 세트(WMS: Word Matching Sentence Set)를 생성하는 단계(S620)가 수행될 수 있다. 단어 매칭 세트는 입력 문장을 분할하고, 분할된 순서대로 리스트에 저장된 것이다.
다음으로, 질의 문장의 단어 매칭 세트와 핵심 문장의 단어 매칭 세트를 서로 비교(S630)하는 단계가 수행될 수 있다.
다음으로, 비교 결과를 완전 단어 매칭(Complete word matching), 부분 단어 매칭(Partial word matching)으로 분류하여 출력하는 단계가 수행될 수 있다. 여기서 완전 단어 매칭은 질의 문장과 핵심 문장의 단어와 그 순서가 모두 매칭된 것이고, 부분 단어 매칭은 단어 및/또는 순서 중에 부분적으로 매칭된 것이고, 또는 단어 비매칭(Non-word matching)은 단어와 순서가 매칭이 전혀 되지 않은 것을 의미한다.
한편 비교 결과가 완전 단어 매칭된 것으로 출력된 경우, 질의 문장과 핵심 문장이 의미적 대응된 것으로 판단하여, 질의 문장과 핵심 문장의 문법적 대응 여부를 확인할 수 있다. 문법적 대응 여부 확인 방법에 대하여는 후술하기로 한다.
도 8은 본 발명에 따른 의미적 대응 여부 확인 방법을 보여주는 순서도이다. 도 9는 본 발명에 따른 의미적 대응 여부 확인 모듈을 보여주는 개략도이다.
다음으로 도 8 및 도 9를 참조하면, 단어 매칭 여부에 따라 질의 문장과 핵심 문장의 의미적 대응 여부를 확인하는 단계가 수행될 수 있다.
질의 문장과 핵심 문장의 의미적 대응 여부를 확인하는 단계는, 먼저 질의 문장의 단어 벡터와 핵심 문장의 단어 벡터를 추출하는 단계(S810)가 수행될 수 있다.
구체적으로, 질의 문장의 단어와 핵심 문장의 단어들은 단어 표현 계층(Word Representation Layer)를 통해 질의 문장 단어 벡터(question word vector)와 핵심 문장 단어 벡터(key sentence set word vector)로 출력될 수 있다.
다음으로, 추출된 질의 문장의 단어 벡터와 핵심 문장의 단어 벡터를 한국어 뉴스 기사를 미리 학습한 단어 임베딩 벡터와 매칭하는 단계(S820)가 수행될 수 있다.
구체적으로, 질의 문장 단어 벡터와 핵심 문장 단어 벡터는 한국어 신문 기사를 word2vec 알고리즘을 이용하여 학습된 단어 임베딩(Word Embedding)의 단어들과 매칭될 수 있다.
다음으로, 매칭된 질의 문장의 단어 벡터와 핵심 문장의 단어 벡터에 딥러닝을 적용하여 각각 문맥 관련 임베딩 벡터로 추출하는 단계(S830)가 수행될 수 있다.
구체적으로, 출력된 단어 벡터는 문맥 표현 계층(Context Representation Layer)에서 BiLSTM 을 통해 문맥 관련 질의 문장 임베딩 벡터(question contextual embedding vector)과 문맥 관련 핵심 문장 임베딩 벡터(key sentence set contextual embedding vector)로 출력될 수 있다.
여기서 단어 임베딩은 단어의 문자를 벡터로 변환하는 과정을 의미한다. 단어 벡터를 문맥 관련 임베딩 벡터로 변환하는 과정은 먼저 질의 문장 단어 벡터와 핵심 문장 단어 벡터를 각각 BiLSTM에 입력한다. 이때, BiLSTM은 입력된 각각의 단어 벡터 정보들을 인코딩하고 단어 순서 및 주변 단어 분포에 따라 정보를 통합한다. 그리고 각각 인코딩 된 정보들은 질의 문장의 문맥 관련 임베딩 벡터와 핵심 문장의 문맥 관련 임베딩 벡터로 출력된다. 이에 따라 단어 벡터에서 표현된 정보보다 더 넓은 범위에서 정보를 임베딩 벡터로 표현할 수 있다.
다음으로, 추출된 질의 문장의 문맥 관련 임베딩 벡터와 핵심 문장 문맥 관련 임베딩 벡터에 딥러닝을 적용하여 각각 질의 문장 매칭 벡터 및 핵심 문장 매칭 벡터로 추출하는 단계(S840)가 수행될 수 있다.
구체적으로, 출력된 질의 문장과 핵심 문장의 문맥 관련 임베딩 벡터는 매칭 표현 계층(Matching representation layer)에서 완전 매칭(Full matching) 과 상세 매칭(Attentive matching) 딥러닝 기법을 적용하여 매칭 벡터(question matching vector, key sentence set matching vector)로 출력될 수 있다.
매칭 벡터를 생성하기 위해 먼저, 질의 문장의 문맥 관련 임베딩 벡터와 핵심 문장의 문맥 관련 임베딩 벡터 각각을 교차하여 매칭 연산을 수행하는 레이어로 입력하게 한다. 이 때, 매칭 연산을 수행하는 레이어는 완전 매칭(Full matching) 과 상세 매칭(Attentive matching) 연산 과정을 수행한다. 여기서 완전 매칭과 상세 매칭은 매칭 벡터를 생성하기 위한 연산 도구이다. 각각의 연산과정은 먼저 완전 매칭은 질의 문장 문맥 관련 임베딩 벡터와 핵심 문장의 문맥 관련 임베딩 벡터에 표현된 모든 벡터 정보를 순차적으로 매칭하여 벡터들을 생성한다.
매칭 벡터를 생성하기 위한 과정은 순차적으로 매칭된 벡터들을 예시로, 현재 벡터 정보와 그 다음 순서의 벡터 정보들을 각각 코사인 유사도 연산을 통해 가중치를 계산한다. 여기서 지속적으로 연산하는 벡터는 핵심 문장의 문맥 관련 임베딩 벡터이다. 현재 벡터 정보 그리고 그 다음 순서의 벡터 정보들을 각각 비교하여 마지막 벡터가 등장할 때까지 가중치를 업데이트 하여 벡터들을 출력한다.
전체적으로 다시 정리하면 문맥 관련 벡터들을 서로 교차하여 입력하게 하고, 서로 같은 연산을 수행하는 게 아니라, 한 쪽은 질의 문장에 기준을 두고 핵심 문장들의 문맥 벡터들을 순차적으로 연산하는 것이고, 다른 쪽은 핵심 문장에 기준을 두고 질의 문장의 문맥 벡터들을 순차적으로 연산한다.
그 다음 상세 매칭은 완전 매칭 연산 기법과 유사하지만, 가중치 연산과정에서 발생하는 가중치들을 지속적으로 업데이트하는 것이 아니라 가중합(weighted sum) 연산을 이용하여 각각 연산된 결과에 가중치 값을 곱한 후 그 결과들을 다시 합하여 연산하게 하는 것이다.
마지막으로 완전 매칭과 상세 매칭을 통해 연산된 결과들을 통합하여 매칭 벡터들을 출력하게 합니다. 이에 따라 질의 문장과 핵심 문장의 정보들을 비교하여 유사한 정보들은 더욱 유사하게 부각시키고, 유사하지 않은 부분들은 더욱 유사하지 않는 정보들로 부각시킬 수 있다.
다음으로, 추출된 질의 문장 매칭 벡터와 핵심 문장 매칭 벡터에 딥러닝을 적용하여 문맥 집계 질의 문장 매칭 벡터(Contextual Aggregated Question Matching Vector)와 문맥 집계 핵심 문장 매칭 벡터(Contextual Aggregated Key Sentence Set Matching Vector)로 추출하는 단계(S850)가 수행될 수 있다.
구체적으로, 출력된 각각의 매칭 벡터는 또 다른 BiLSTM을 통해 문맥 집계 질의 문장 매칭 벡터와 문맥 집계 핵심 문장 매칭 벡터로 출력될 수 있다.
여기서는 출력된 매칭 벡터들을 또 다른 BiLSTM을 이용하여 인코딩 하는 과정을 통해 벡터 정보들을 함축할 수 있다. 이에 따라 복잡한 매칭 벡터들을 집계된 벡터들로 함축하여 의미적 유사도를 산출하는 과정에서의 연산적 복잡성을 줄일 수 있다.
다음으로, 문맥 집계 질의 문장 매칭 벡터와 상기 문맥 집계 핵심 문장 매칭 벡터에 마지막 단계 일치 벡터(Last Time Step Matching Vector)을 매칭하여 집계 질의 문장 매칭 벡터(Aggregated Question Matching Vector)와 집계 핵심 문장 매칭 벡터(Aggregated Key Sentence Set Matching Vector)를 추출하는 단계(S860)가 수행될 수 있다.
다음으로, 추출된 집계 질의 문장 매칭 벡터와 상기 집계 핵심 문장 매칭 벡터를 기초로 인공신경망과 정규화를 이용하여 상기 질의 문장과 상기 핵심 문장의 의미적 유사도를 산출하는 단계(S870)가 수행될 수 있다.
구체적으로, 출력된 집계 질의 문장 매칭 벡터와 집계 핵심 문장 매칭 벡터는 결정 계층(Decision Layer)에서 2개의 계층으로 구성된 피드 포워드(Feed forward) 신경망과 소프트 맥스(Softmax) 활성화 함수를 이용하여 질의 문장과 핵심 문장 사이의 의미적 유사도를 산출할 수 있다.
도 10은 본 발명에 따른 문법적 대응 여부 확인 모듈의 일부를 보여주는 계략도이다. 도 11은 본 발명에 따른 문법적 대응 여부 확인을 위한 문장 구조화를 보여주는 도면이다.
다음으로 도 10 및 도 11을 참조하면, 의미적 대응 여부에 따라, 질의 문장과 핵심 문장의 문법적 대응 여부를 확인하는 단계가 수행될 수 있다. 문법적 대응 여부 확인 단계는 질의 문장과 추출된 뉴스 기사 핵심 문장의 문법적인 특징을 매칭하여 문법 변형을 확인하는 단계이다.
문법적 대응 여부를 확인하는 단계는, 먼저 질의 문장의 단어들의 순서와 핵심 문장의 단어들의 순서를 각각 설정하는 단계(S1010)가 수행될 수 있다.
다음으로, 순서가 설정된 질의 문장의 단어들과 상기 핵심 문장의 단어들을 형태소 분석하여 각 형태소별로 분류하는 단계(S1020)가 수행될 수 있다. 질의 문장과 핵심 문장의 문법적 특징을 구체화하기 위해 문장을 도 11과 같은 파싱 트리(Parsing tree)형태로 구조화할 수 있다. 여기서 terminal은 문장에서 표현된 단어의 최소 단위이다. Non-terminal은 terminal 및 다른 non-terminal로 분해 가능한 단위이다.
다음으로, 분류된 질의 문장 단어의 형태소와 핵심 문장 단어의 형태소를 어절을 기초로 분류하는 단계(S1030)가 수행될 수 있다.
다음으로, 어절을 기초로 분류된 질의 문장의 패턴과 상기 핵심 문장의 패턴을 생성하는 단계(S1040)가 수행될 수 있다. 어절을 기초로 분류된 각각의 문장은 주어(subject), 목적어(object), 보어(complement), 동사(verb), 부사(adverb), 독립어구(independent component)의 성분으로 분류되어 패턴이 생성될 수 있다.
다음으로, 생성된 질의 문장의 패턴과 핵심 문장의 패턴을 서로 비교하여 질의 문장과 핵심 문장이 상호 변형 가능한지 확인하는 단계(S1040)가 수행될 수 있다. 질의 문장의 패턴과 핵심 문장의 패턴이 상호 변형 가능한 문장으로 확인된다면 질의 문장은 진위 판단에서 참값을 출력할 수 있는 것이다.
마지막으로, 확인된 의미적 대응 여부 결과와 문법적 대응 결과에 기초하여 핵심 문장의 참 또는 거짓을 판단하여 그 결과값을 출력하는 단계(S1050)가 수행될 수 있다. 예를 들어, 의미적 대응 여부 결과로서 의미적 유사도가 일정 값 이상으로 산출되고, 문법적 대응 결과 질의 문장과 핵심 문장이 상호 변형 가능한 문장으로 확인된다면, 질의 문장은 진위 판단에서 참값을 출력할 수 있다.
도 12는 본 발명에 따른 의미적 대응 여부 확인 방법의 알고리즘 예시를 보여주는 도면이다. 도 13은 본 발명에 따른 문법적 대응 여부 확인 방법의 알고리즘을 보여주는 도면이다. 도 14는 본 발명에 따른 문법적 대응 여부 확인 방법의 입력 문장, 형태소 분석결과를 보여주는 도면이다. 도 15는 본 발명에 따른 문법적 대응 여부 확인 방법의 어절 단위 문장 분석을 보여주는 도면이다. 도 16은 본 발명에 따른 문장 패턴 생성 결과를 보여주는 도면이다.
도 12내지 도 16을 참조하면 본 발명의 컴퓨터에 의해 수행되는 의미적 대응 여부 확인 방법의 알고리즘 및 수행 결과, 문법적 대응 여부 확인 방법의 알고리즘 및 수행 결과를 확인할 수 있다.
문법적 대응 여부 확인에 대하여 설명하면, 도 14에 개시된 아래와 같은 문장이 입력으로 주어진다고 가정한다.
질의 문장 : 1일 평균 300여명이 이용하는 포항시민볼링장은 24개 레인으로 운영되고 있다.
핵심 문장 : 포항시민볼링장은 24개 레인으로 오전 10시부터 밤 12시까지 운영하고 있으며 1일 평균 300여명이 이용하고 있다.
먼저 아래와 같은 6개의 주요 및 부속 성분들로 입력 문장들의 패턴을 생성한다.
이들은 각각 Sbj (주어 성분), Obj (목적어 성분), Cmp (보어 성분), Vp (동사 성분), Adverb (부사 성분), 독립 성분(Independent components )일 수 있다.
그리고 패턴이 생성될 수 없는 조건이 있을 수도 있으므로 예외 처리를 위한 패턴도 생성하고, 생성된 것은 Etc (기타 성분)일 수 있다.
그리고 아래의 [표1]과 같은 품사 태그 기준을 따른다. (사용하는 형태소 분석기 마다 다를 수 있으나, 여기서는 mecab 형태소 분석기 기준을 따르기로 한다.)
NNG | 일반 명사 |
NNP | 고유명사 |
NNB | 의존 명사 |
NNBC | 단위를 나타내는 명사 |
NR | 수사 |
NP | 대명사 |
VV | 동사 |
VA | 형용사 |
VX | 보조 용언 |
VCP | 긍정 지정사 |
VCN | 부정 지정사 |
MM | 관형사 |
MAG | 일반 부사 |
MAJ | 접속 부사 |
IC | 감탄사 |
JKS | 주격 조사 |
JKC | 보격 조사 |
JKG | 관형격 조사 |
JKO | 목적격 조사 |
JKB | 부사격 조사 |
JKV | 호격 조사 |
JKQ | 인용격 조사 |
JX | 보조사 |
JC | 접속 조사 |
EP | 선어말 어미 |
EF | 종결 어미 |
EC | 연결 어미 |
ETN | 명사형 전성어미 |
ETM | 관형형 전성어미 |
XPN | 체언 접두사 |
XSN | 명사 파생 접미사 |
XSV | 동사 파생 접미사 |
XSA | 형용사 파생 접미사 |
XR | 어근 |
SF | 마침표, 물음표, 느낌표 |
SE | 줄임표 ?? |
SSO | 여는 괄호 (, [ |
SSC | 닫는 괄호 ), ] |
SC | 구분자 , · / : |
SY | 기타 기호 |
SL | 외국어 |
SH | 한자 |
SN | 숫자 |
여기서, 문장의 패턴은 형태소 분석에서 출력된 결과(도 14 참조)를 기반으로 조사(JK~ 성분) 또는 보조사 등문장의 보조 성분들을 기준으로 형성될 수 있다. 예를 들어 다른 성분들과는 달리 조금 복잡한 규칙이 있는 주어 및 보어 성분 패턴 분류 살펴본다. "1일 평균 300여명이"까지 분석이 된다면 여기서 "이"는 주격 조사(JKS) 이므로 주어 성분이 될 수 있다. 그리고 보편적으로 주어가 될 수 있는 "은, 는, 이, 가"의 단어가 주어 성분이 될 수 있다. 하지만 예외의 규칙이 있습니다. 단순히 주격 조사(JKS)가 포함되는 것으로 주어로 판단한다면 보어 성분을 찾을 수 없다. 여기서 보어 규칙을 추가적으로 적용하여, 주어를 찾더라도 '는'+'ETM'(관형형 전성 어미)과 같은 또 다른 주어 후보가 다음 어절에 등장한다면 보어로 판단하여 첫번째 등장한 주어 후보인 어절과 분리할 수 있다. 예를 들어, "1일 평균 300여명이"-> 주어성분 "이용하는"-> 보어성분(문장의 주어를 보충함)의 순서로 진행될 수 있다.이렇게 조사 또는 보조사 등으로 찾아진 성분들은 앞에 not found 로 표시된(즉 문장 성분을 아직은 구분할 수 없음) 단어들과 병합하여, 하나의 문장 패턴으로 표현하도록 한다. 따라서 도 16에 개시된 문장 패턴 생성 결과와 같은 형태로 출력될 수 있다.
이상으로 설명한 본 발명의 효과는 질의 문장과 관련된 문장을 뉴스 기사에서 찾아서 단어 수준에서 분석한 결과를 기초로, 딥 러닝 모델을 이용하여 의미적 일치 여부를 판단한 결과를 제공하고, 한국어 문법을 고려한 분석을 통해 문장 매칭한 결과를 제공하여, 의미적으로 문장 매칭한 결과와 문법적으로 문장 매칭한 결과를 집계하여 가짜 뉴스를 탐지할 수 있다는 것이다.
또한 본 발명에 따르면 인터넷 신문, 소셜 네트워크 서비스 등과 같은 대중 매체에서 발생되는 뉴스 데이터들을 대상으로 하여 뉴스 기사의 진위를 판별할 수 있다. 또한, 뉴스 기사의 진위를 고려하여 대중 매체에 의해 잘못 전달된 정보를 판별할 수 있다. 나아가, 가짜뉴스에 의해 형성되는 여론을 방지할 수 있다.
한편, 본 발명의 일 실시예에 따른 한국어 문법 변환 기반 가짜뉴스 탐지 방법은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.
이상의 설명은 본 발명의 기술적 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예는 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술적 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
Claims (13)
- 가짜 뉴스 탐지 서버에 의해 수행되는 한국어 문법 변환 기반 가짜뉴스 탐지방법에 있어서,
질의 문장 및 탐지 대상 뉴스 기사를 수신하는 단계;
상기 탐지 대상 뉴스 기사 내에서 상기 질의 문장과 관련된 기사 문장을 핵심 문장으로 추출하는 단계;
상기 질의 문장의 단어와 상기 핵심 문장의 단어 대응 여부를 확인하는 단계;
상기 단어 매칭 여부에 따라, 상기 질의 문장과 상기 핵심 문장의 의미적 대응 여부를 확인하는 단계;
상기 의미적 대응 여부에 따라, 상기 질의 문장과 상기 핵심 문장의 문법적 대응 여부를 확인하는 단계; 및
상기 확인된 의미적 대응 여부 결과와 상기 문법적 대응 결과에 기초하여 상기 핵심 문장의 참 또는 거짓을 판단하는 단계를 포함하는, 한국어 문법 변환 기반 가짜뉴스 탐지방법. - 제1항에 있어서,
상기 핵심 문장 추출 단계는,
상기 질의 문장 및 상기 기사 문장을 어근과 접미사를 포함하는 단어 구성 단위로 분해하는 단계;
상기 질의 문장의 단어 구성 단위와 상기 기사 문장의 단어 구성 단위를 벡터화하고 서로 비교하여 코사인 유사도를 산출하는 단계; 및
상기 질의 문장의 단어 구성 단위와 상기 코사인 유사도가 가장 높은 단어 구성 단위를 포함하는 상기 기사 문장을 상기 핵심 문장으로 추출하는 단계를 포함하는, 한국어 문법 변환 기반 가짜뉴스 탐지방법. - 제1항에 있어서,
상기 질의 문장의 단어와 상기 핵심 문장의 단어 대응 여부를 확인하는 단계는,
상기 질의 문장을 단어별로 분해하고 각 단어의 배치 순서대로 저장하여 단어 매칭 세트를 생성하는 단계;
상기 핵심 문장을 단어별로 분해하고 각 단어의 배치 순서대로 저장하여 단어 매칭 세트를 생성하는 단계;
상기 질의 문장의 단어 매칭 세트와 상기 핵심 문장의 단어 매칭 세트를 서로 비교하는 단계; 및
상기 비교 결과를 완전 단어 매칭, 부분 단어 매칭으로 분류하여 출력하는 단계를 포함하는, 한국어 문법 변환 기반 가짜뉴스 탐지방법. - 제3항에 있어서,
상기 비교 결과가 완전 단어 매칭된 것으로 출력된 경우,
상기 질의 문장과 상기 핵심 문장이 의미적 대응된 것으로 판단하여, 상기 질의 문장과 상기 핵심 문장의 문법적 대응 여부를 확인하는, 한국어 문법 변환 기반 가짜뉴스 탐지방법. - 제1항에 있어서,
상기 질의 문장과 상기 핵심 문장의 의미적 대응 여부를 확인하는 단계는,
상기 질의 문장의 단어 벡터와 상기 핵심 문장의 단어 벡터를 추출하는 단계;
상기 추출된 질의 문장의 단어 벡터와 상기 핵심 문장의 단어 벡터를 한국어 뉴스 기사를 미리 학습한 단어 임베딩 벡터와 매칭하는 단계;
상기 매칭된 질의 문장의 단어 벡터와 상기 핵심 문장의 단어 벡터에 딥러닝을 적용하여 각각 문맥 관련 임베딩 벡터로 추출하는 단계;
상기 추출된 질의 문장의 문맥 관련 임베딩 벡터와 상기 핵심 문장 문맥 관련 임베딩 벡터에 딥러닝을 적용하여 각각 질의 문장 매칭 벡터 및 핵심 문장 매칭 벡터로 추출하는 단계;
상기 추출된 질의 문장 매칭 벡터와 상기 핵심 문장 매칭 벡터에 딥러닝을 적용하여 문맥 집계 질의 문장 매칭 벡터(Contextual Aggregated Question Matching Vector)와 문맥 집계 핵심 문장 매칭 벡터(Contextual Aggregated Key Sentence Set Matching Vector)로 추출하는 단계;
상기 문맥 집계 질의 문장 매칭 벡터와 상기 문맥 집계 핵심 문장 매칭 벡터에 마지막 단계 일치 벡터(Last Time Step Matching Vector)을 매칭하여 집계 질의 문장 매칭 벡터(Aggregated Question Matching Vector)와 집계 핵심 문장 매칭 벡터(Aggregated Key Sentence Set Matching Vector)를 추출하는 단계; 및
상기 추출된 집계 질의 문장 매칭 벡터와 상기 집계 핵심 문장 매칭 벡터를 기초로 인공신경망과 정규화를 이용하여 상기 질의 문장과 상기 핵심 문장의 의미적 유사도를 산출하는 단계를 포함하는, 한국어 문법 변환 기반 가짜뉴스 탐지방법. - 제1항에 있어서,
상기 질의 문장과 상기 핵심 문장의 문법적 대응 여부를 확인하는 단계는,
상기 질의 문장의 단어들의 순서와 상기 핵심 문장의 단어들의 순서를 각각 설정하는 단계;
상기 순서가 설정된 질의 문장의 단어들과 상기 핵심 문장의 단어들을 형태소 분석하여 각 형태소별로 분류하는 단계;
상기 분류된 질의 문장 단어의 형태소와 상기 핵심 문장 단어의 형태소를 어절을 기초로 분류하는 단계;
상기 어절을 기초로 분류된 질의 문장의 패턴과 상기 핵심 문장의 패턴을 생성하는 단계; 및
상기 생성된 질의 문장의 패턴과 핵심 문장의 패턴을 서로 비교하여 상기 질의 문장과 상기 핵심 문장이 상호 변형 가능한 문장인지 확인하는 단계를 포함하는, 한국어 문법 변환 기반 가짜뉴스 탐지방법. - 가짜 뉴스 탐지 서버에 있어서,
한국어 문법 변환 기반 가짜뉴스 탐지 방법 프로그램이 기록된 메모리; 및
상기 메모리에 기록된 프로그램을 실행하는 프로세서를 포함하고,
상기 프로세서는 상기 프로그램의 실행에 따라,
질의 문장 및 탐지 대상 뉴스 기사를 수신하고, 상기 탐지 대상 뉴스 기사 내에서 상기 질의 문장과 관련된 기사 문장을 핵심 문장으로 추출하고, 상기 질의 문장의 단어와 상기 핵심 문장의 단어 대응 여부를 확인하고, 상기 단어 매칭 여부에 따라, 상기 질의 문장과 상기 핵심 문장의 의미적 대응 여부를 확인하고, 상기 의미적 대응 여부에 따라, 상기 질의 문장과 상기 핵심 문장의 문법적 대응 여부를 확인하고, 상기 확인된 의미적 대응 여부 결과와 상기 문법적 대응 결과에 기초하여 상기 핵심 문장의 참 또는 거짓을 판단하는, 한국어 문법 변환 기반 가짜뉴스 탐지 서버. - 제7항에 있어서,
상기 핵심 문장을 추출하는 것은,
상기 질의 문장 및 상기 기사 문장을 어근과 접미사를 포함하는 단어 구성 단위로 분해하고, 상기 질의 문장의 단어 구성 단위와 상기 기사 문장의 단어 구성 단위를 벡터화하고 서로 비교하여 코사인 유사도를 산출하고, 상기 질의 문장의 단어 구성 단위와 상기 코사인 유사도가 가장 높은 단어 구성 단위를 포함하는 상기 기사 문장을 상기 핵심 문장으로 추출하는 것을 포함하는, 한국어 문법 변환 기반 가짜뉴스 탐지 서버. - 제7항에 있어서,
상기 질의 문장의 단어와 상기 핵심 문장의 단어 대응 여부를 확인하는 것은,
상기 질의 문장을 단어별로 분해하고 각 단어의 배치 순서대로 저장하여 단어 매칭 세트를 생성하고, 상기 핵심 문장을 단어별로 분해하고 각 단어의 배치 순서대로 저장하여 단어 매칭 세트를 생성하고, 상기 질의 문장의 단어 매칭 세트와 상기 핵심 문장의 단어 매칭 세트를 서로 비교하고, 상기 비교 결과를 완전 단어 매칭, 부분 단어 매칭으로 분류하여 출력하는 것을 포함하는, 한국어 문법 변환 기반 가짜뉴스 탐지 서버. - 제9항에 있어서,
상기 비교 결과가 완전 단어 매칭된 것으로 출력된 경우,
상기 질의 문장과 상기 핵심 문장이 의미적 대응된 것으로 판단하여, 상기 질의 문장과 상기 핵심 문장의 문법적 대응 여부를 확인하는, 한국어 문법 변환 기반 가짜뉴스 탐지 서버. - 제7항에 있어서,
상기 질의 문장과 상기 핵심 문장의 의미적 대응 여부를 확인하는 것은,
상기 질의 문장의 단어 벡터와 상기 핵심 문장의 단어 벡터를 추출하고, 상기 추출된 질의 문장의 단어 벡터와 상기 핵심 문장의 단어 벡터를 한국어 뉴스 기사를 미리 학습한 단어 임베딩 벡터와 매칭하고, 상기 매칭된 질의 문장의 단어 벡터와 상기 핵심 문장의 단어 벡터에 딥러닝을 적용하여 각각 문맥 관련 임베딩 벡터로 추출하고, 상기 추출된 질의 문장의 문맥 관련 임베딩 벡터와 상기 핵심 문장 문맥 관련 임베딩 벡터에 딥러닝을 적용하여 각각 질의 문장 매칭 벡터 및 핵심 문장 매칭 벡터로 추출하고, 상기 추출된 질의 문장 매칭 벡터와 상기 핵심 문장 매칭 벡터에 딥러닝을 적용하여 문맥 집계 질의 문장 매칭 벡터(Contextual Aggregated Question Matching Vector)와 문맥 집계 핵심 문장 매칭 벡터(Contextual Aggregated Key Sentence Set Matching Vector)로 추출하고, 상기 문맥 집계 질의 문장 매칭 벡터와 상기 문맥 집계 핵심 문장 매칭 벡터에 마지막 단계 일치 벡터(Last Time Step Matching Vector)을 매칭하여 집계 질의 문장 매칭 벡터(Aggregated Question Matching Vector)와 집계 핵심 문장 매칭 벡터(Aggregated Key Sentence Set Matching Vector)를 추출하고, 상기 추출된 집계 질의 문장 매칭 벡터와 상기 집계 핵심 문장 매칭 벡터를 기초로 인공신경망과 정규화를 이용하여 상기 질의 문장과 상기 핵심 문장의 의미적 유사도를 산출하는 것을 포함하는, 한국어 문법 변환 기반 가짜뉴스 탐지 서버. - 제7항에 있어서,
상기 질의 문장과 상기 핵심 문장의 문법적 대응 여부를 확인하는 것은,
상기 질의 문장의 단어들의 순서와 상기 핵심 문장의 단어들의 순서를 각각 설정하고, 상기 순서가 설정된 질의 문장의 단어들과 상기 핵심 문장의 단어들을 형태소 분석하여 각 형태소별로 분류하고, 상기 분류된 질의 문장 단어의 형태소와 상기 핵심 문장 단어의 형태소를 어절을 기초로 분류하고, 상기 어절을 기초로 분류된 질의 문장의 패턴과 상기 핵심 문장의 패턴을 생성하고, 상기 생성된 질의 문장의 패턴과 핵심 문장의 패턴을 서로 비교하여 상기 질의 문장과 상기 핵심 문장이 상호 변형 가능한 문장인지 확인하는 것을 포함하는, 한국어 문법 변환 기반 가짜뉴스 탐지 서버. - 제1항 내지 제6항 중 어느 하나의 항에 따른 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20180151166 | 2018-11-29 | ||
KR1020180151166 | 2018-11-29 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200064943A KR20200064943A (ko) | 2020-06-08 |
KR102426599B1 true KR102426599B1 (ko) | 2022-07-29 |
Family
ID=71089713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190156574A KR102426599B1 (ko) | 2018-11-29 | 2019-11-29 | 한국어 문법 변환 기반 가짜 뉴스 탐지 서버 및 그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102426599B1 (ko) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111881694B (zh) * | 2020-08-05 | 2024-08-23 | 科大讯飞股份有限公司 | 篇章要点检测方法、装置、设备及存储介质 |
KR102598430B1 (ko) * | 2021-01-12 | 2023-11-07 | 최희준 | 금융 정보 예측을 위한 인공 지능 시스템과 이를 이용한 금융 정보 예측 방법 |
CN112966069B (zh) * | 2021-01-13 | 2023-05-19 | 西安交通大学 | 一种基于普遍认知与个体认知的虚假新闻检测系统及方法 |
CN112988959B (zh) * | 2021-01-13 | 2023-07-14 | 西安交通大学 | 基于证据推断网络的虚假新闻可解释性检测系统及方法 |
KR20240094050A (ko) | 2022-11-17 | 2024-06-25 | 고려대학교 산학협력단 | 독자 정보를 활용하는 가짜뉴스 판별 방법 및 장치 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008165598A (ja) | 2006-12-28 | 2008-07-17 | National Institute Of Information & Communication Technology | 風評情報抽出装置及び風評情報抽出方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101669339B1 (ko) * | 2014-11-27 | 2016-10-25 | 강원대학교산학협력단 | 채팅 말뭉치 구축 방법 및 채팅 말뭉치 구축 시스템 |
-
2019
- 2019-11-29 KR KR1020190156574A patent/KR102426599B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008165598A (ja) | 2006-12-28 | 2008-07-17 | National Institute Of Information & Communication Technology | 風評情報抽出装置及び風評情報抽出方法 |
Non-Patent Citations (6)
Title |
---|
K. Shu et al., Fake News Detection on Social media: A Data Mining Perspective, http://arXiv:1708.01967v3 (2017.12.19.) |
R. Ian, Satirical fake News and/as American Political Discourse, Journal of American Culture, 35(3), pp.258-275 (2012) |
S. Chopra et al., Towards Automatic Identification of Fake News: Headline-Article Stance Detection with LSTM Attention Models, Stanford CS224d Deep Learning for NLP final project (2017) |
Yue Wang et al., Sentence Similarity Learning Method based on Attention Hybrid Model, ISAI 2018 (2018.6.22) |
운영석 외, 페이크 뉴스 탐지 기술 동향과 시사점, 정보통신기술진흥센터 주간기술동향 (2017.10.04) |
이동호 외, 딥러닝 기법을 이용한 가짜뉴스 탐지, 2018년 춘계학술발표대회 논문집 제25권제1호 pp.384-387 (2018.05.) |
Also Published As
Publication number | Publication date |
---|---|
KR20200064943A (ko) | 2020-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102426599B1 (ko) | 한국어 문법 변환 기반 가짜 뉴스 탐지 서버 및 그 방법 | |
KR102490752B1 (ko) | 인공 신경망을 이용한 심층 문맥 기반 문법 오류 정정 | |
Fang et al. | Entity disambiguation by knowledge and text jointly embedding | |
RU2619193C1 (ru) | Многоэтапное распознавание именованных сущностей в текстах на естественном языке на основе морфологических и семантических признаков | |
US8527522B2 (en) | Confidence links between name entities in disparate documents | |
RU2646386C1 (ru) | Извлечение информации с использованием альтернативных вариантов семантико-синтаксического разбора | |
RU2679988C1 (ru) | Извлечение информационных объектов с помощью комбинации классификаторов | |
US11170169B2 (en) | System and method for language-independent contextual embedding | |
WO2005064490A1 (en) | System for recognising and classifying named entities | |
US10303770B2 (en) | Determining confidence levels associated with attribute values of informational objects | |
CN111091009B (zh) | 一种基于语义分析的文档关联审核方法 | |
Ren et al. | Detecting the scope of negation and speculation in biomedical texts by using recursive neural network | |
US20190065453A1 (en) | Reconstructing textual annotations associated with information objects | |
Woo et al. | Validation of text data preprocessing using a neural network model | |
Fusco et al. | pNLP-mixer: An efficient all-MLP architecture for language | |
CN113095072B (zh) | 文本处理方法及装置 | |
CN110309252B (zh) | 一种自然语言处理方法及装置 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
Masadeh et al. | A novel machine learning-based framework for detecting religious arabic hatred speech in social networks | |
İnce | Spell checking and error correcting application for Turkish | |
Yellin et al. | Paths to relation extraction through semantic structure | |
Lai et al. | An unsupervised approach to discover media frames | |
Aytan et al. | Deep learning-based Turkish spelling error detection with a multi-class false positive reduction model | |
Nagata et al. | Variance matters: Detecting semantic differences without corpus/word alignment | |
Chang et al. | Zero pronoun identification in chinese language with deep neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |