KR20200094836A - 웹 콘텐츠의 일관성 결정 장치 및 방법 - Google Patents

웹 콘텐츠의 일관성 결정 장치 및 방법 Download PDF

Info

Publication number
KR20200094836A
KR20200094836A KR1020190008361A KR20190008361A KR20200094836A KR 20200094836 A KR20200094836 A KR 20200094836A KR 1020190008361 A KR1020190008361 A KR 1020190008361A KR 20190008361 A KR20190008361 A KR 20190008361A KR 20200094836 A KR20200094836 A KR 20200094836A
Authority
KR
South Korea
Prior art keywords
title
consistency
embedding vector
embedding
paragraph
Prior art date
Application number
KR1020190008361A
Other languages
English (en)
Other versions
KR102211021B1 (ko
Inventor
차미영
박건우
김태균
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020190008361A priority Critical patent/KR102211021B1/ko
Publication of KR20200094836A publication Critical patent/KR20200094836A/ko
Application granted granted Critical
Publication of KR102211021B1 publication Critical patent/KR102211021B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

웹 콘텐츠의 일관성 결정 장치로서, 웹 콘텐츠의 제목 및 본문을 수신하면, 상기 제목을 임베딩하여 제목 임베딩 벡터를 생성하고, 상기 본문에 포함된 적어도 하나 이상의 문단들을 각각 임베딩하여 본문 문단 임베딩 벡터를 각 문단들 별로 생성하는 임베딩 벡터 생성부, 그리고 상기 제목 임베딩 벡터 및 상기 본문 문단 임베딩 벡터를 순환 신경망 모델(Recurrent Neural Network Model)에 입력하여 적어도 하나 이상의 은닉 상태값들을 결정하고, 상기 은닉 상태값들을 이용하여 상기 제목과 상기 본문의 일관성 점수를 결정하는 일관성 결정부를 포함한다.

Description

웹 콘텐츠의 일관성 결정 장치 및 방법{APPARATUS AND METHOD FOR DETERMINING CONSISTENCY OF WEB CONTENTS}
본 발명은 웹 콘텐츠의 일관성 결정하는 기술에 관한 것이다.
웹 콘텐츠 중 온라인 뉴스는 개인이 정보를 얻기 위한 주요한 수단 중 하나이다. 웹과 인터넷 기술의 발달과 함께 온라인 뉴스는 급성장하고 있으며, 조사에 따르면 인터넷 사용자들 중 88.3%의 사용자가 온라인에서 뉴스를 접하고 있다고 한다.
수많은 사람들이 온라인 뉴스를 이용하고 있으며 뉴스가 사회에 미치는 영향력 또한 상당하지만, 접하는 정보가 모두 정확한 정보라는 것은 보장할 수 없다. 이미 온라인 환경에는 사실로 확인되지 않은 정보 등 여러 종류의 오정보들이 뉴스의 형태로 공유되고 있기 때문이다.
제목과 본문의 내용이 관련이 없어 낮은 일관성을 가지는 온라인 기사는 오정보로부터 비롯된 온라인 뉴스의 형태 중 하나이다. 이러한 온라인 기사는 클릭베이트 기사 등으로 알려져 있으며, 이들의 특성을 파악하고 탐지할 필요성이 있어 다양한 연구들이 이루어지고 있다. 구체적으로, 여러 가지 관점에서 바라본 클릭베이트 기사의 특징에 대해서 분석을 진행하거나, 그것들을 발견하고 예방하려는 연구들이 현재 진행되어 있는데, 오정보 문제 해결을 위해서는 해당 정보들을 단순히 발견하는 것에 그치지 않고, 오정보에 노출되어 있는 사용자들의 뉴스 소비를 보조해 줄 수 있는 기술적 노력이 필요하다.
따라서, 본 발명은 웹 콘텐츠의 제목과 본문의 일관성을 딥러닝 기반 방법을 통해 예측하고, 사용자가 웹 콘텐츠를 실제로 열람하기 전에 일관성 점수를 미리 파악할 수 있도록 하는 기술을 제공한다.
본 발명의 일 실시예에 따른 웹 콘텐츠의 일관성 결정 장치는 웹 콘텐츠의 제목 및 본문을 수신하면, 상기 제목을 임베딩하여 제목 임베딩 벡터를 생성하고, 상기 본문에 포함된 적어도 하나 이상의 문단들을 각각 임베딩하여 본문 문단 임베딩 벡터를 각 문단들 별로 생성하는 임베딩 벡터 생성부, 그리고 상기 제목 임베딩 벡터 및 상기 본문 문단 임베딩 벡터를 순환 신경망 모델(Recurrent Neural Network Model)에 입력하여 적어도 하나 이상의 은닉 상태값들을 결정하고, 상기 은닉 상태값들을 이용하여 상기 제목과 상기 본문의 일관성 점수를 결정하는 일관성 결정부를 포함한다.
상기 임베딩 벡터 생성부는 상기 제목 및 상기 적어도 하나 이상의 문단들에 대해 벡터화 알고리즘을 이용하여 상기 제목 임베딩 벡터 및 상기 본문 문단 임베딩 벡터를 생성한다.
상기 일관성 결정부는 상기 제목 임베딩 벡터를 상기 순환 신경망 모델에 입력한 이후, 상기 본문에서 먼저 위치한 문단에 대응하는 본문 문단 임베딩 벡터 순으로 상기 순환 신경망 모델에 입력한다.
상기 순환 신경망 모델은 학습 대상 웹 콘텐츠의 제목을 구성하는 적어도 하나 이상의 형태소들을 임베딩한 제목 형태소 임베딩 벡터 및 상기 학습 대상 웹 콘텐츠의 본문을 구성하는 적어도 하나 이상의 형태소들을 임베딩한 본문 형태소 임베딩 벡터를 통해 학습된다.
본 발명의 일 실시예에 따른 웹 콘텐츠의 일관성 결정 장치는 상기 일관성 점수를 클라이언트 장치로 전송하는 일관성 점수 제공부를 더 포함하고, 상기 일관성 점수는 상기 클라이언트 장치 상에서 디스플레이된다.
본 발명의 일 실시예에 따른 일관성 결정 장치가 웹 콘텐츠의 일관성을 결정하는 방법은 클라이언트 장치로부터 웹 콘텐츠의 주소 정보를 수신하는 단계, 상기 주소 정보를 통해 상기 웹 콘텐츠에 접근하여 상기 웹 콘텐츠의 제목 및 본문을 수신하는 단계, 상기 제목을 임베딩하여 제목 임베딩 벡터를 생성하고, 상기 본문에 포함된 적어도 하나 이상의 문단들을 각각 임베딩하여 본문 문단 임베딩 벡터를 각 문단들 별로 생성하는 단계, 그리고 상기 제목 임베딩 벡터 및 상기 본문 문단 임베딩 벡터를 순환 신경망 모델에 입력하여 적어도 하나 이상의 은닉 상태값들을 결정하고, 상기 은닉 상태값들을 이용하여 상기 제목과 상기 본문의 일관성 점수를 결정하는 단계를 포함한다.
상기 제목 임베딩 벡터 및 상기 본문 문단 임베딩 벡터를 생성하는 단계는 상기 제목 및 상기 적어도 하나 이상의 문단들에 대해 벡터화 알고리즘을 이용하여 상기 제목 임베딩 벡터 및 상기 본문 문단 임베딩 벡터를 생성한다.
상기 적어도 하나 이상의 은닉 상태값들을 결정하는 단계는 상기 제목 임베딩 벡터를 상기 순환 신경망 모델에 입력한 이후, 상기 본문에서 먼저 위치한 문단에 대응하는 본문 문단 임베딩 벡터 순으로 상기 순환 신경망 모델에 입력하여 상기 은닉 상태값들을 결정한다.
상기 순환 신경망 모델은 학습 대상 웹 콘텐츠의 제목을 구성하는 적어도 하나 이상의 형태소들을 임베딩한 제목 형태소 임베딩 벡터 및 상기 학습 대상 웹 콘텐츠의 본문을 구성하는 적어도 하나 이상의 형태소들을 임베딩한 본문 형태소 임베딩 벡터를 통해 학습된다.
본 발명의 일 실시예에 따른 일관성 결정 장치가 웹 콘텐츠의 일관성을 결정하는 방법은 상기 일관성 점수를 상기 클라이언트 장치로 전송하는 단계를 더 포함하고, 상기 일관성 점수는 상기 클라이언트 장치 상에서 디스플레이된다.
본 발명에 따르면, 사용자는 자극적인 웹 콘텐츠의 제목을 접하더라도 미리 일관성 점수를 알 수 있게 됨으로써, 실제로 필요한 웹 콘텐츠를 현명하고 효과적으로 소비할 수 있다.
도 1은 본 발명의 실시예에 따른 일관성 결정 장치가 구현되는 환경을 도시한 도면이다.
도 2는 본 발명의 실시예에 따른 일관성 결정 장치를 설명하는 도면이다.
도 3은 본 발명의 실시예에 따른 임베딩 벡터 생성부가 임베딩 벡터를 생성하는 방법을 도시한 도면이다.
도 4 및 도 5는 본 발명의 실시예에 따른 일관성 결정부가 일관성 점수를 결정하는 방법을 도시한 도면이다.
도 6은 일관성 결정 장치가 웹 콘텐츠의 일관성을 결정하는 방법을 설명하는 도면이다.
도 7은 클라이언트 장치에 일관성 점수가 표시되는 예시적인 방법을 설명하는 도면이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 명세서에서, "임베딩 벡터"는 문장에 대한 함축적인 의미를 나타내는 고정 길이의 k차원의 벡터를 지칭한다. 따라서, 본 명세서에서, "제목 임베딩 벡터"는 문장 형태의 제목에 대한 함축적인 의미를 나타내는 고정 길이의 k차원의 벡터를 지칭하며, "본문 문단 임베딩 벡터"는 본문을 구성하는 문단 형태의 문장들에 대한 함축적인 의미를 나타내는 고정 길이의 k차원의 벡터를 지칭한다.
이하 도면을 참조로 하여 본 발명의 실시예에 따른 웹 콘텐츠의 일관성 결정 장치 및 방법에 대해 설명한다.
도 1은 본 발명의 실시예에 따른 일관성 결정 장치가 구현되는 환경을 도시한 도면이다.
도 1을 참고하면, 클라이언트 장치(100)는 적어도 하나의 프로세서에 의해 구동되는 컴퓨팅 디바이스일 수 있다. 또한, 클라이언트 장치(100)는 사용자가 미리 설정된 인터페이스를 입력하는 경우, 제목과 본문의 일관성을 결정할 웹 콘텐츠의 주소 정보를 일관성 결정 장치(200)로 전송한다.
예를 들면, 만일 사용자가 읽고자 하는 온라인 뉴스의 링크에 마우스를 올려놓는 경우, 클라이언트 장치(100)는 해당 온라인 뉴스의 URL(Uniform Resource Locator) 정보를 REST API를 통해 일관성 결정 장치(200)로 전송할 수 있다.
이 경우, REST API는 URL 정보로부터 수집한 웹 콘텐츠의 제목 및 본문을 일관성 결정 장치(200)로 전달할 수 있다.
일관성 결정 장치(200)는 클라이언트 장치(100)와 네트워크로 연동된 서버일 수 있다. 또한, 일관성 결정 장치(200)는 웹 콘텐츠의 주소 정보를 통해 웹 콘텐츠에 접근하고, 웹 콘텐츠의 제목 및 본문의 일관성을 딥러닝 기반 방법을 통해 예측하여 일관성 점수를 결정하고, 웹 콘텐츠의 제목 및 본문에 대한 일관성 점수를 클라이언트 장치(100)로 전송한다.
이하, 도 2를 통해 일관성 결정 장치(200)에 대해 구체적으로 설명한다.
도 2는 본 발명의 실시예에 따른 일관성 결정 장치를 설명하는 도면이고, 도 3은 본 발명의 실시예에 따른 임베딩 벡터 생성부가 임베딩 벡터를 생성하는 방법을 도시한 도면이고, 도 4는 본 발명의 실시예에 따른 일관성 결정부가 일관성 점수를 결정하는 방법을 도시한 도면이다.
일관성 결정 장치(200)는 웹 콘텐츠 정보 수집부(210), 임베딩 벡터 생성부(220), 일관성 결정부(230), 일관성 점수 제공부(240) 및 순환 신경망 모델 학습부(250)를 포함한다.
웹 콘텐츠 정보 수집부(210)는 클라이언트 장치(100)로부터 일관성 점수 요청을 수신하면, 클라이언트 장치(100)가 일관성 점수를 요청한 웹 콘텐츠 정보를 수신한다.
구체적으로, 웹 콘텐츠 정보 수집부(210)는 일관성 점수 요청에 포함된 웹 콘텐츠의 주소 정보를 추출하고, 웹 콘텐츠의 주소 정보를 통해 제목과 본문의 일관성을 결정할 웹 콘텐츠에 접근하여 제목 및 본문을 수신한다.
임베딩 벡터 생성부(220)는 웹 콘텐츠의 제목 및 본문을 수신하면, 제목을 임베딩하여 제목 임베딩 벡터를 생성하고, 본문에 포함된 적어도 하나 이상의 문단들을 각각 임베딩하여 본문 문단 임베딩 벡터를 각 문단들 별로 생성한다.
구체적으로, 임베딩 벡터 생성부(220)는 제목 및 적어도 하나 이상의 문단들에 대해 벡터화 알고리즘을 이용하여 제목 임베딩 벡터 및 본문 문단 임베딩 벡터를 생성한다.
예를 들면, 도 3을 참고하면, 임베딩 벡터 생성부(220)는 제목을 구성하는 단어들을 다차원 공간에 벡터화시키는 방식으로 제목 임베딩 벡터를 생성할 수 있으며, 단어 벡터 간의 연산을 통해 제목을 구성하는 단어들 간의 관계를 추론할 수 있다. 또한, 임베딩 벡터 생성부(220)는 본문에 포함된 각 문단 별로 각 문단들을 구성하는 단어들을 다차원 공간에 벡터화시키는 방식으로 본문 문단 임베딩 벡터들을 생성할 수 있고, 이 경우 임베딩된 단어 벡터들의 평균을 계산하여 각 문단을 구성하는 단어들 간의 관계를 추론할 수 있다.
이 경우, 임베딩 벡터 생성부(220)는 예를 들면, Word2vec 알고리즘 또는 Glove 알고리즘과 같은 임의의 임베딩 알고리즘을 이용하여 제목 임베딩 벡터 및 본문 문단 임베딩 벡터를 생성할 수 있다.
일관성 결정부(230)는 제목 임베딩 벡터 및 본문 문단 임베딩 벡터를 순환 신경망 모델(Recurrent Neural Network Model)에 입력하여 적어도 하나 이상의 은닉 상태값들을 결정하고, 은닉 상태값들을 이용하여 제목과 본문의 일관성 점수를 결정한다.
순환 신경망 모델은 텍스트, 시계열 등 입력 순서에 따른 의존 관계가 있을 때 효과적으로 동작할 수 있다. 구체적으로, 순환 신경망 모델은 이전 상태를 은닉 상태값으로 표현하고, 다음 입력을 처리할 때 이전 상태의 은닉 상태값을 이용하여 이전 상태를 기억하여 다음 상태로 계속 전달하는 모델이다.
일관성 결정부(230)는 제목 임베딩 벡터를 순환 신경망 모델에 입력한 이후, 본문에서 먼저 위치한 문단에 대응하는 본문 문단 임베딩 벡터 순으로 순환 신경망 모델에 입력하여 적어도 하나 이상의 은닉 상태값들을 순차적으로 결정하고, 결정된 은닉 상태값들을 이용하여 제목과 본문의 일관성 점수를 결정한다.
일 실시예에서, 일관성 결정부(230)는 결정된 은닉 상태값들 중 최종 은닉 상태값을 이용하여 제목과 본문의 일관성 점수를 결정할 수 있다.
예를 들면, 도 4를 참고하면, 제목과 제1 문단 및 제2 문단으로 구성된 본문으로 구성된 온라인 기사에 대해 일관성 점수를 결정하는 경우, 제목 임베딩 벡터는 x0, 제1 문단의 본문 문단 임베딩 벡터는 x1, 제2 문단의 본문 문단 임베딩 벡터는 x2로 결정될 수 있다.
상기 예시에서, 일관성 결정부(230)는 x0을 순환 신경망 모델에 입력하여 은닉 상태값 h0를 결정한다. 이후, 일관성 결정부(230)는 x1을 순환 신경망 모델에 입력하여 은닉 상태값 h1을 결정하는 경우 이전의 은닉 상태값 h0를 반영한다. 이후, 일관성 결정부(230)는 본문의 마지막 문단인 제2 문단의 본문 문단 임베딩 벡터 x2를 순환 신경망 모델에 입력항 최종 은닉 상태값 h2를 결정하는 경우 이전의 은닉 상태값 h1을 반영한다. 이 경우, 결정되는 은닉 상태값들은 임의의 차원의 벡터로서, 예를 들면, H 차원의 벡터일 수 있다.
일관성 결정부(230)는 최종 은닉 상태값 h2를 이용하여 일관성 점수를 결정한다. 구체적으로, 일관성 결정부(230)는 최종 은닉 상태값 h2를 신경망(Neural Network)에 입력하고, 신경망의 최종 레이어에 구현된 시그모이드 함수(sigmoid function)을 통해 최종 은닉 상태값 h2를 0에서 1사이의 실수로 표현한다. 이 경우, 표현된 실수가 1에 가까울수록 제목과 본문의 관련성 정도가 높다는 의미이므로, 일관성 결정부(230)는 최종 은닉 상태값 h2를 신경망을 통해 표현한 실수를 일관성 점수로 결정할 수 있다.
일관성 결정부(230)가 일관성 점수를 결정하는데 있어 순환 신경망 모델이 사용되므로, 일관성 결정부(230)는 최종 은닉 상태값을 결정하는데 있어 제목 및 본문의 모든 문단에 대한 정보를 누적하며 최종적으로 제목과 본문의 일관성을 결정할 수 있다.
다른 실시예에서, 일관성 결정부(230)는 결정된 은닉 상태값들을 결합하여 결합 은닉 상태값을 결정하고, 결합 은닉 상태값을 이용하여 제목과 본문의 일관성 점수를 결정할 수 있다.
예를 들면, 도 5를 참고하면, 도 4에서 설명된 방법으로 은닉 상태값 h0, 은닉 상태값 h1 및 은닉 상태값 h2이 결정되면, 일관성 결정부(230)는 h0, h1 및 h2를 결합하여 결합 은닉 상태값 ht를 결정할 수 있다.
이후, 일관성 결정부(230)는 결합 은닉 상태값 ht를 이용하여 일관성 점수를 결정한다. 구체적으로, 일관성 결정부(230)는 결합 은닉 상태값 ht를 신경망에 입력하고, 신경망의 최종 레이어에 구현된 시그모이드 함수을 통해 결합 은닉 상태값 ht를 0에서 1사이의 실수로 표현한다. 이 경우, 표현된 실수가 1에 가까울수록 제목과 본문의 관련성 정도가 높다는 의미이므로, 일관성 결정부(230)는 결합 은닉 상태값 ht를 신경망을 통해 표현한 실수를 일관성 점수로 결정할 수 있다.
일관성 결정부(230)가 결합 은닉 상태값을 통해 일관성 점수를 결정하는 경우, 각 은닉 상태는 해당 시점까지 모델이 입력을 받았을 때 예측하는 일관성 값을 벡터로 나타낸 것이므로, 순환 신경망 모델이 웹 콘텐츠의 문단 별로 입력을 받으며 업데이트 되는 다른 예측값을 결합하여 최종 일관성 점수를 계산할 수 있다는 장점이 있다.
한편, 일관성 결정부(230)가 은닉 상태값을 0에서 1사이의 실수로 표현하기 위해 사용하는 신경망은 최종 레이어에 시그모이드 함수가 구현되어 은닉 상태값을 실수로 표현할 수 있는 신경망이면 종류 및 형태에 제한을 갖지 않는다.
일관성 결정부(230)는 제목과 본문을 구성하는 단어 단위로 순환 신경망 모델에 입력하는 것이 아닌, 제목 단위 및 본문을 구성하는 문단 단위로 순환 신경망 모델에 입력한다. 만일 단어 단위로 순환 신경망 모델에 입력하는 경우 웹 콘텐츠가 방대한 경우 단어수가 매우 많아 순환 신경망 모델에 의해 분석이 어려운 문제가 발생할 수 있으나, 일관성 결정부(230)는 제목 단위 및 본문을 구성하는 문단 단위로 순환 신경망 모델에 입력하는바 이러한 결정 속도 및 분석의 용이성 측면이 향상될 수 있어 이러한 문제를 해결할 수 있다.
또한, 일관성 결정부(230)가 일관성 점수를 결정하는데 있어 순환 신경망 모델을 사용하는 경우, 일관성 점수를 결정하기 위해 SVM(Support Vector Machine) 모델 또는 XGBoost(Extreme Gradient Boosting) 모델을 사용하는 경우보다 일관성 점수의 정확도가 향상될 수 있다.
구체적으로, SVM 모델은 커널 함수를 이용해 최적의 고차원 초평면을 찾아 분류에 이용하는 머신 러닝 알고리즘이고, XGBoost는 앙상블 기반 그래디언트 부스팅 라이브러리로 학습 및 분류 능력을 제공한다. 일관성 점수를 결정하기 위해 순환 신경망 모델, SVM 모델 및 XGBoost 모델을 각각 사용하는 경우, 일관성 점수의 정확도 및 AUROC(Area Under Receiver Operating Characteristic) 값은 표 1과 같다.
모델 정확도 AUROC
SVM 64.00 0.7033
XGBoost 67.68 0.7663
순환 신경망 85.01 0.9271
표 1에서, 문단 단위 순환 신경망 모델의 정확도는 85.01로, SVM 모델 및 XGBoost 모델의 성능(64.00, 67.68)을 모두 상회한다. AUROC 값 또한 문단 단위 순환 신경망 모델이 0.9271로 SVM 모델 및 XGBoost 모델의 성능(0.7033, 0.7663)보다 모두 높다.한편, 일관성 결정부(230)는 LSTM(Long Short Term Memory) 알고리즘을 이용하여 제목과 본문의 일관성 점수를 결정할 수도 있다.
일관성 점수 제공부(240)는 결정된 일관성 점수를 클라이언트 장치(100)로 전송한다.
한편, 순환 신경망 모델은 학습 대상 웹 콘텐츠의 제목을 구성하는 적어도 하나 이상의 형태소들을 임베딩한 제목 형태소 임베딩 벡터 및 학습 대상 웹 콘텐츠의 본문을 구성하는 적어도 하나 이상의 형태소들을 임베딩한 본문 형태소 임베딩 벡터를 통해 학습된다.
예를 들면, 학습 대상 웹 콘텐츠는 온라인 기사들일 수 있으며, 사용자는 온라인 기사들 중 제목과 본문의 일관성이 있는 일관성 높은 온라인 기사들을 추출하고, 추출된 일관성 높은 온라인 기사들의 제목과 본문 내용을 서로 바꾸어 일관성이 낮은 온라인 기사들을 생성할 수 있다.
이후, 사용자가 일관성 높은 온라인 기사들과 일관성이 낮은 온라인 기사들을 순환 신경망 모델 학습부(250)에 입력하면, 순환 신경망 모델 학습부(250)는 일관성이 높은 온라인 기사들 및 일관성이 낮은 온라인 기사들의 제목 및 본문을 형태소 분석을 통해 형태소 단위로 분할한다. 이후, 순환 신경망 모델 학습부(250)는 분할된 형태소들을 벡터화 알고리즘을 이용해서 단어 벡터의 형태로 임베딩한 제목 형태소 임베딩 벡터 및 본문 형태소 임베딩 벡터를 생성하고, 제목 형태소 임베딩 벡터 및 본문 형태소 임베딩 벡터를 이용하여 순환 신경망 모델을 학습시킬 수 있다.
이 경우, 순환 신경망 모델 학습부(250)는 파이썬 형태소 분석 라이브러리인 코엔엘파이(koNLPy)를 사용하여, 일관성이 높은 온라인 기사들 및 일관성이 낮은 온라인 기사들의 제목 및 본문을 형태소 단위로 분할할 수 있다.
도 6은 일관성 결정 장치가 웹 콘텐츠의 일관성을 결정하는 방법을 설명하는 도면이다.
도 6에서, 도 1 내지 도 5와 동일한 내용은 그 자세한 설명을 생략한다.
도 6을 참고하면, 일관성 결정 장치(200)는 클라이언트 장치(100)로부터 웹 콘텐츠의 주소 정보를 수신한다(S100).
일관성 결정 장치(200)는 주소 정보를 통해 웹 콘텐츠에 접근하여 웹 콘텐츠의 제목 및 본문을 수신한다(S110).
일관성 결정 장치(200)는 제목을 임베딩하여 제목 임베딩 벡터를 생성하고, 본문에 포함된 적어도 하나 이상의 문단들을 각각 임베딩하여 본문 문단 임베딩 벡터를 각 문단들 별로 생성한다(S120).
구체적으로, 일관성 결정 장치(200)는 제목 및 적어도 하나 이상의 문단들에 대해 벡터화 알고리즘을 이용하여 제목 임베딩 벡터 및 본문 문단 임베딩 벡터를 생성한다.
일관성 결정 장치(200)는 제목 임베딩 벡터 및 본문 문단 임베딩 벡터를 순환 신경망 모델에 입력하여 적어도 하나 이상의 은닉 상태값들을 결정하고(S130), 은닉 상태값들을 이용하여 제목과 본문의 일관성 점수를 결정한다(S140).
구체적으로, 일관성 결정 장치(200)는 제목 임베딩 벡터를 순환 신경망 모델에 입력한 이후, 본문에서 먼저 위치한 문단에 대응하는 본문 문단 임베딩 벡터 순으로 순환 신경망 모델에 입력하여 적어도 하나 이상의 은닉 상태값들을 결정한다.
이 경우, 순환 신경망 모델은 학습 대상 웹 콘텐츠의 제목을 구성하는 적어도 하나 이상의 형태소들을 임베딩한 제목 형태소 임베딩 벡터 및 학습 대상 웹 콘텐츠의 본문을 구성하는 적어도 하나 이상의 형태소들을 임베딩한 본문 형태소 임베딩 벡터를 통해 학습된다.
일관성 결정 장치(200)는 일관성 점수를 클라이언트 장치(100)로 전송한다(S140).
도 7은 클라이언트 장치에 일관성 점수가 표시되는 예시적인 방법을 설명하는 도면이다.
도 7을 참고하면, 사용자가 클라이언트 장치(100) 상에서 읽고자 하는 온라인 뉴스의 링크에 마우스 커서를 올려놓는 경우, 일관성 결정 장치(200)는 해당 온라인 뉴스의 일관성 점수를 결정하고 결정한 일관성 점수를 클라이언트 장치(100)로 전송할 수 있다.
이 경우, 클라이언트 장치(100)는 수신한 일관성 점수를 해당 온라인 뉴스의 일 측에 표시하여 사용자가 해당 온라인 뉴스를 클릭하기 이전에 제목과 본문과의 일관성 정도를 판단할 수 있는 인터페이스를 제공할 수 있다. 이 경우, 일관성 점수가 클라이언트 장치(100) 상에서 디스플레이되는 방법은 어느 한 방법에 한정되지 않는다.
본 발명에 따르면, 사용자는 자극적인 웹 콘텐츠의 제목을 접하더라도 미리 일관성 점수를 알 수 있게 됨으로써, 실제로 필요한 웹 콘텐츠를 현명하고 효과적으로 소비할 수 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (10)

  1. 웹 콘텐츠의 일관성 결정 장치로서,
    웹 콘텐츠의 제목 및 본문을 수신하면, 상기 제목을 임베딩하여 제목 임베딩 벡터를 생성하고, 상기 본문에 포함된 적어도 하나 이상의 문단들을 각각 임베딩하여 본문 문단 임베딩 벡터를 각 문단들 별로 생성하는 임베딩 벡터 생성부, 그리고
    상기 제목 임베딩 벡터 및 상기 본문 문단 임베딩 벡터를 순환 신경망 모델(Recurrent Neural Network Model)에 입력하여 적어도 하나 이상의 은닉 상태값들을 결정하고, 상기 은닉 상태값들을 이용하여 상기 제목과 상기 본문의 일관성 점수를 결정하는 일관성 결정부
    를 포함하는 일관성 결정 장치.
  2. 제1항에 있어서,
    상기 임베딩 벡터 생성부는
    상기 제목 및 상기 적어도 하나 이상의 문단들에 대해 벡터화 알고리즘을 이용하여 상기 제목 임베딩 벡터 및 상기 본문 문단 임베딩 벡터를 생성하는 일관성 결정 장치.
  3. 제1항에 있어서,
    상기 일관성 결정부는
    상기 제목 임베딩 벡터를 상기 순환 신경망 모델에 입력한 이후, 상기 본문에서 먼저 위치한 문단에 대응하는 본문 문단 임베딩 벡터 순으로 상기 순환 신경망 모델에 입력하는 일관성 결정 장치.
  4. 제1항에 있어서,
    상기 순환 신경망 모델은
    학습 대상 웹 콘텐츠의 제목을 구성하는 적어도 하나 이상의 형태소들을 임베딩한 제목 형태소 임베딩 벡터 및 상기 학습 대상 웹 콘텐츠의 본문을 구성하는 적어도 하나 이상의 형태소들을 임베딩한 본문 형태소 임베딩 벡터를 통해 학습된 일관성 결정 장치.
  5. 제1항에 있어서,
    상기 일관성 점수를 클라이언트 장치로 전송하는 일관성 점수 제공부를 더 포함하고,
    상기 일관성 점수는 상기 클라이언트 장치 상에서 디스플레이되는 일관성 결정 장치.
  6. 일관성 결정 장치가 웹 콘텐츠의 일관성을 결정하는 방법으로서,
    클라이언트 장치로부터 웹 콘텐츠의 주소 정보를 수신하는 단계,
    상기 주소 정보를 통해 상기 웹 콘텐츠에 접근하여 상기 웹 콘텐츠의 제목 및 본문을 수신하는 단계,
    상기 제목을 임베딩하여 제목 임베딩 벡터를 생성하고, 상기 본문에 포함된 적어도 하나 이상의 문단들을 각각 임베딩하여 본문 문단 임베딩 벡터를 각 문단들 별로 생성하는 단계, 그리고
    상기 제목 임베딩 벡터 및 상기 본문 문단 임베딩 벡터를 순환 신경망 모델에 입력하여 적어도 하나 이상의 은닉 상태값들을 결정하고, 상기 은닉 상태값들을 이용하여 상기 제목과 상기 본문의 일관성 점수를 결정하는 단계
    를 포함하는 일관성 결정 방법.
  7. 제6항에 있어서,
    상기 제목 임베딩 벡터 및 상기 본문 문단 임베딩 벡터를 생성하는 단계는
    상기 제목 및 상기 적어도 하나 이상의 문단들에 대해 벡터화 알고리즘을 이용하여 상기 제목 임베딩 벡터 및 상기 본문 문단 임베딩 벡터를 생성하는 일관성 결정 방법.
  8. 제6항에 있어서,
    상기 적어도 하나 이상의 은닉 상태값들을 결정하는 단계는
    상기 제목 임베딩 벡터를 상기 순환 신경망 모델에 입력한 이후, 상기 본문에서 먼저 위치한 문단에 대응하는 본문 문단 임베딩 벡터 순으로 상기 순환 신경망 모델에 입력하여 상기 은닉 상태값들을 결정하는 일관성 결정 방법.
  9. 제6항에 있어서,
    상기 순환 신경망 모델은
    학습 대상 웹 콘텐츠의 제목을 구성하는 적어도 하나 이상의 형태소들을 임베딩한 제목 형태소 임베딩 벡터 및 상기 학습 대상 웹 콘텐츠의 본문을 구성하는 적어도 하나 이상의 형태소들을 임베딩한 본문 형태소 임베딩 벡터를 통해 학습된 일관성 결정 방법.
  10. 제6항에 있어서,
    상기 일관성 점수를 상기 클라이언트 장치로 전송하는 단계를 더 포함하고,
    상기 일관성 점수는 상기 클라이언트 장치 상에서 디스플레이되는 일관성 결정 방법.
KR1020190008361A 2019-01-22 2019-01-22 웹 콘텐츠의 일관성 결정 장치 및 방법 KR102211021B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190008361A KR102211021B1 (ko) 2019-01-22 2019-01-22 웹 콘텐츠의 일관성 결정 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190008361A KR102211021B1 (ko) 2019-01-22 2019-01-22 웹 콘텐츠의 일관성 결정 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20200094836A true KR20200094836A (ko) 2020-08-10
KR102211021B1 KR102211021B1 (ko) 2021-02-02

Family

ID=72049610

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190008361A KR102211021B1 (ko) 2019-01-22 2019-01-22 웹 콘텐츠의 일관성 결정 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102211021B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160064335A (ko) * 2014-11-27 2016-06-08 강원대학교산학협력단 채팅 말뭉치 구축 방법 및 채팅 말뭉치 구축 시스템
KR20180092732A (ko) * 2017-02-10 2018-08-20 강원대학교산학협력단 순환신경망을 이용한 문서요약시스템 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160064335A (ko) * 2014-11-27 2016-06-08 강원대학교산학협력단 채팅 말뭉치 구축 방법 및 채팅 말뭉치 구축 시스템
KR20180092732A (ko) * 2017-02-10 2018-08-20 강원대학교산학협력단 순환신경망을 이용한 문서요약시스템 및 방법

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
S. Chopra et al., Towards Automatic Identification of Fake News: Headline-Article Stance Detection with LSTM Attention Models, Stanford CS224d Deep Learning for NLP final project (2017)* *
S. Yoon et al., Detecting Incongruity Between News Headline and Body Text via a Deep Hierarchical Encoder, https://arxiv.org/abs/1811.07066 (2018.11.17) *
Talos, C. 2017. Fake News Challenge -Team SOLAT IN THE SWEN. https://github.com/Cisco-Talos/fnc-1. [Online; accessed 20-May-2018] *
Wang, Z. et al., Bilateral multi-perspective matching for natural language sentences. In Proceedings of the ICJAI, 4144-4150. AAAI Press (2017) *

Also Published As

Publication number Publication date
KR102211021B1 (ko) 2021-02-02

Similar Documents

Publication Publication Date Title
US10567329B2 (en) Methods and apparatus for inserting content into conversations in on-line and digital environments
US10832008B2 (en) Computerized system and method for automatically transforming and providing domain specific chatbot responses
US11409791B2 (en) Joint heterogeneous language-vision embeddings for video tagging and search
CN107220352B (zh) 基于人工智能构建评论图谱的方法和装置
US10891322B2 (en) Automatic conversation creator for news
KR101721338B1 (ko) 검색 엔진 및 그의 구현 방법
US10452786B2 (en) Use of statistical flow data for machine translations between different languages
US20200089769A1 (en) Consumer Insights Analysis Using Word Embeddings
KR101754473B1 (ko) 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템
US10042924B2 (en) Scalable and effective document summarization framework
US10509863B1 (en) Consumer insights analysis using word embeddings
CN110717038B (zh) 对象分类方法及装置
CN111783903B (zh) 文本处理方法、文本模型的处理方法及装置、计算机设备
CN111414122A (zh) 一种智能文本处理方法、装置、电子设备及存储介质
Wijeratne et al. Feature engineering for Twitter-based applications
CN107924398B (zh) 用于提供以评论为中心的新闻阅读器的系统和方法
KR20210034679A (ko) 엔티티-속성 관계 식별
US11010687B2 (en) Detecting abusive language using character N-gram features
WO2022141872A1 (zh) 文献摘要生成方法、装置、计算机设备及存储介质
WO2010132062A1 (en) System and methods for sentiment analysis
US10713293B2 (en) Method and system of computer-processing one or more quotations in digital texts to determine author associated therewith
KR102211021B1 (ko) 웹 콘텐츠의 일관성 결정 장치 및 방법
US11144599B2 (en) Method of and system for clustering documents
EP3580666A1 (en) Visual leaf page identification and processing
Fan et al. Topic modeling methods for short texts: A survey

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant