KR20220103427A - 머신 러닝을 이용한 댓글 판별 서버 및 그를 이용한 가짜 댓글 판별 방법 - Google Patents

머신 러닝을 이용한 댓글 판별 서버 및 그를 이용한 가짜 댓글 판별 방법 Download PDF

Info

Publication number
KR20220103427A
KR20220103427A KR1020210006025A KR20210006025A KR20220103427A KR 20220103427 A KR20220103427 A KR 20220103427A KR 1020210006025 A KR1020210006025 A KR 1020210006025A KR 20210006025 A KR20210006025 A KR 20210006025A KR 20220103427 A KR20220103427 A KR 20220103427A
Authority
KR
South Korea
Prior art keywords
learning
comment
type
content
learning data
Prior art date
Application number
KR1020210006025A
Other languages
English (en)
Other versions
KR102462336B1 (ko
Inventor
박종현
오유원
Original Assignee
세종대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 세종대학교산학협력단 filed Critical 세종대학교산학협력단
Priority to KR1020210006025A priority Critical patent/KR102462336B1/ko
Publication of KR20220103427A publication Critical patent/KR20220103427A/ko
Application granted granted Critical
Publication of KR102462336B1 publication Critical patent/KR102462336B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Acoustics & Sound (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 발명의 일 기술적 측면에 따른 머신 러닝을 이용한 가짜 댓글 판별 시스템은, 온라인 콘텐츠를 수집하고, 수집된 온라인 콘텐츠를 온라인 콘텐츠의 종류, 주제 및 댓글을 기준으로 구분하여 학습 데이터를 생성하는 학습 데이터 생성부, 상기 학습 데이터 생성부에서 제공된 학습 데이터를 기반으로 머신러닝 학습을 수행하여, 온라인 콘텐츠의 종류, 주제 및 댓글 각각에 대한 개별적인 확률을 학습하는 머신러닝 학습모델 및 사용자로부터 요청된 요청 콘텐츠에 대하여 상기 머신러닝 학습 모델을 적용하여 상기 요청 콘텐츠의 종류 및 주제를 식별하고, 온라인 콘텐츠의 종류 및 주제에 따른 댓글의 진위 성향을 이용하여 상기 요청 콘텐츠의 댓글의 진위를 판별하는 진위 판별부를 포함 할 수 있다. 본 발명의 일 실시형태에 따르면, 온라인 콘텐츠에 대한 머신러닝 학습을 기반으로 사용자가 요청한 온라인 컨텐츠의 댓글에 대한 진위 확률을 산출하여, 온라인 콘텐츠의 댓글에 대한 진위 여부를 판별할 수 있는 효과가 있다.

Description

머신 러닝을 이용한 댓글 판별 서버 및 그를 이용한 가짜 댓글 판별 방법{METHOD FOR DETECTING DECEPTIVE COMMENTS USING MACHINE LEARNING AND COMMENT DECEPTIVE DETECTING SERVER USING THE SAME}
본 발명은 머신 러닝을 이용한 댓글 판별 서버 및 그를 이용한 가짜 댓글 판별 방법에 관한 것이다.
IT 기술의 발전에 따라 다양한 정보, 의견, 홍보 등이 온라인에서 수행되고 있다. 이와 같이, 다양한 정보, 의견, 홍보 등은 온라인 콘텐츠로서 온라인에서 게시 및 공유되고 있다.
통상적으로, 이러한 온라인 콘텐츠는 상호 소통 가능성을 넓히기 위하여 댓글 기능을 제공한다. 온라인 콘텐츠의 댓글은 해당 온라인 콘텐츠의 또 하나의 서브 콘텐츠가 되며, 사용자들에게 영향을 미치게 된다.
이러한 온라인 댓글은 비교적 짧은 내용을 개시하지만 사용자에게는 보다 큰 영향을 미친다. 한편, 이러한 온라인 댓글을 악의적으로 이용하기 위하여 의도적으로 댓글을 생성하는 문제가 있다. 예컨대, 광고나 홍보의 목적으로 특정 의도에 따라 댓글을 생성하는 등의 문제가 발생하고 있다. 이에 온라인 댓글의 진위 판별에 대한 니즈가 발생하고 있다.
한편, 종래의 기술들로는, 한국등록특허공보 제10-2094201호와 같이 가짜 뉴스를 식별하는, 즉, 온라인 콘텐츠 자체에 대한 검증을 수행하는 기술을 개시하고는 있으나, 이러한 종래 기술들은, 온라인 컨텐츠에 달린 댓글에 대한 진위를 검증하지 못하여 온라인 댓글에 의한 부정적인 영향을 방지할 수 없는 한계가 있다.
한국등록특허공보 제10-2094201호
본 발명의 일 기술적 측면은 상기한 종래 기술의 문제점을 해결하기 위한 것으로써, 온라인 콘텐츠에 대한 머신러닝 학습을 기반으로 사용자가 요청한 온라인 컨텐츠의 댓글에 대한 진위 확률을 산출하여, 온라인 콘텐츠의 댓글에 대한 진위 여부를 판별할 수 있는 머신 러닝을 이용한 가짜 댓글 판별 방법 및 댓글 판별 서버를 제공하는 것이다.
또한, 본 발명의 일 기술적 측면은, 온라인 콘텐츠의 종류 및 주제에 따른 댓글의 진위 성향을 추정하고, 요청된 온라인 콘텐츠의 종류 및 주제를 학습모델에 따라 구분하여 그 댓글의 진위 여부를 판별할 수 있는 머신 러닝을 이용한 가짜 댓글 판별 방법 및 댓글 판별 서버를 제공하는 것이다.
또한, 본 발명의 일 기술적 측면은, 온라인 콘텐츠의 퍼블리셔 및 오너 간의 연관성에 따른 가중치를 설정하고, 이를 반영함으로써 온라인 콘텐츠의 분류를 보다 정확하게 수행할 수 있는 머신 러닝을 이용한 가짜 댓글 판별 방법 및 댓글 판별 서버를 제공하는 것이다.
본 발명의 상기 목적과 여러 가지 장점은 이 기술분야에 숙련된 사람들에 의해 본 발명의 바람직한 실시예로부터 더욱 명확하게 될 것이다.
본 발명의 일 기술적 측면은 머신 러닝을 이용한 가짜 댓글 판별 시스템을 제안한다. 상기 머신 러닝을 이용한 가짜 댓글 판별 시스템은, 온라인 콘텐츠를 수집하고, 수집된 온라인 콘텐츠를 온라인 콘텐츠의 종류, 주제 및 댓글을 기준으로 구분하여 학습 데이터를 생성하는 학습 데이터 생성부, 상기 학습 데이터 생성부에서 제공된 학습 데이터를 기반으로 머신러닝 학습을 수행하여, 온라인 콘텐츠의 종류, 주제 및 댓글 각각에 대한 개별적인 확률을 학습하는 머신러닝 학습모델 및 사용자로부터 요청된 요청 콘텐츠에 대하여 상기 머신러닝 학습 모델을 적용하여 상기 요청 콘텐츠의 종류 및 주제를 식별하고, 온라인 콘텐츠의 종류 및 주제에 따른 댓글의 진위 성향을 이용하여 상기 요청 콘텐츠의 댓글의 진위를 판별하는 진위 판별부를 포함 할 수 있다.
일 실시예에서, 상기 학습 데이터는, 온라인 콘텐츠의 종류를 학습하기 위한 학습 데이터로서, 온라인 콘텐츠의 제목, 퍼블리셔 정보 및 오너 정보를 포함하는 종류 학습데이터, 온라인 콘텐츠의 주제를 학습하기 위한 학습 데이터로서, 온라인 콘텐츠의 내용, 퍼블리셔 정보 및 오너 정보를 포함하는 주제 학습데이터 및 온라인 콘텐츠의 댓글을 학습하기 위한 학습 데이터로서, 온라인 콘텐츠의 종류, 주제, 가짜댓글 정보를 포함하는 댓글 학습데이터를 포함 할 수 있다.
일 실시예에서, 상기 학습 데이터 생성부는, 온라인 콘텐츠를 수집하는 온라인 콘텐츠 수집모듈, 상기 온라인 콘텐츠 수집모듈에서 수집된 온라인 콘텐츠 중에서, 상기 종류 학습데이터로 적용 가능한 온라인 콘텐츠를 선별하여 수집하는 종류 학습데이터 수집모듈, 상기 수집된 온라인 콘텐츠 중에서, 상기 주제 학습데이터로 적용 가능한 온라인 콘텐츠를 선별하여 수집하는 주제 학습데이터 수집모듈 및 상기 수집된 온라인 콘텐츠 중에서, 상기 댓글 학습데이터로 적용 가능한 온라인 콘텐츠를 선별하여 수집하는 댓글 학습데이터 수집모듈을 포함 할 수 있다.
일 실시예에서, 상기 머신러닝 학습모델은, 온라인 콘텐츠의 텍스트에 대한 불용어를 제거하고 표제어를 추출하고, 상기 학습데이터 별로 다르게 설정된 온라인 콘텐츠의 각 기준 항목을 대상으로 N-gram 언어모델을 적용하고 벡터화를 적용하여 분류 학습을 수행 할 수 있다.
일 실시예에서, 상기 머신러닝 학습모델은, 종류 학습데이터를 기초로 온라인 콘텐츠의 제목을 학습하여 온라인 콘텐츠의 종류 확률을 산출하는 종류 학습모델, 주제 학습데이터를 기초로 온라인 콘텐츠의 내용을 학습하여 온라인 콘텐츠의 주제 확률을 산출하는 주제 학습모델 및 댓글 학습데이터를 기초로 온라인 콘텐츠의 종류 및 주제 별 가짜 댓글의 확률을 산출하는 댓글 학습모델을 포함 할 수 있다.
일 실시예에서, 상기 머신러닝 학습모델은, 음성 기반 온라인 콘텐츠를 식별하고, 음성 인식을 이용하여 음성 기반 온라인 콘텐츠를 텍스트 콘텐츠로 변환하며, 상기 텍스트 콘텐츠에 대하여 불용어를 제거하고 표제어를 추출하는 전처리를 수행하는 전처리 모듈을 더 포함 할 수 있다.
일 실시예에서, 상기 진위 판별부는, 상기 종류 학습모델을 이용하여 상기 요청 콘텐츠의 종류를 판별하는 종류 판별모듈, 상기 주제 학습모델을 이용하여 상기 요청 콘텐츠의 주제를 판별하는 주제 판별모듈 및 상기 댓글 학습모델을 이용하여, 판별된 상기 요청 콘텐츠의 종류 및 주제에 따른 댓글 진위 확률을 산출하는 댓글 진위 판별모듈을 포함 할 수 있다.
일 실시예에서, 상기 진위 판별부는, 음성 기반 온라인 콘텐츠를 식별하고, 음성 인식을 이용하여 음성 기반 온라인 콘텐츠를 텍스트 콘텐츠로 변환하는 전처리 모듈을 더 포함 할 수 있다.
일 실시예에서, 상기 진위 판별부는, 상기 종류 학습데이터를 대상으로 퍼블리셔와 오너 간의 연관성을 기초로 종류 보정치를 설정하고, 상기 종류 판별모듈의 판별 결과에 상기 종류 보정치를 반영하는 종류 보정모듈 및 상기 주제 학습데이터를 대상으로 퍼블리셔와 오너 간의 연관성을 기초로 주제 보정치를 설정하고, 상기 주제 판별모듈의 판별 결과에 상기 주제 보정치를 반영하는 주제 보정모듈을 더 포함 할 수 있다.
일 실시예에서, 상기 진위 판별부는, 수학식
Figure pat00001
및 수학식
Figure pat00002
을 이용하여 상기 댓글 진위 판별모듈의 판별 결과를 보정하는 댓글 진위 보정모듈을 더 포함하고, 여기에서,
Figure pat00003
는 상기 댓글 진위 판별모듈의 판별 결과를,
Figure pat00004
는 상기 댓글 진위 보정모듈에 의한 보정된 확률을 의미 할 수 있다.
본 발명의 다른 일 기술적 측면은 머신 러닝을 이용한 가짜 댓글 판별 방법을 제안한다. 상기 머신 러닝을 이용한 가짜 댓글 판별 방법은, 온라인 콘텐츠를 수집하고, 수집된 온라인 콘텐츠를 온라인 콘텐츠의 종류, 주제 및 댓글을 기준으로 구분하여 학습 데이터를 생성하는 단계, 상기 학습 데이터를 기반으로 머신러닝 학습을 수행하여, 온라인 콘텐츠의 종류, 주제 및 댓글 각각에 대한 개별적인 확률을 학습하여 머신러닝 학습 모델을 생성하는 단계, 사용자로부터 요청된 요청 콘텐츠에 대하여 상기 머신러닝 학습 모델을 적용하여 상기 요청 콘텐츠의 종류 및 주제를 식별하는 단계 및 온라인 콘텐츠의 종류 및 주제에 따른 댓글의 진위 성향을 이용하여 상기 요청 콘텐츠의 댓글의 진위를 판별하는 단계를 포함 할 수 있다.
일 실시예에서, 상기 학습 데이터는, 온라인 콘텐츠의 종류를 학습하기 위한 학습 데이터로서, 온라인 콘텐츠의 제목, 퍼블리셔 정보 및 오너 정보를 포함하는 종류 학습데이터, 온라인 콘텐츠의 주제를 학습하기 위한 학습 데이터로서, 온라인 콘텐츠의 내용, 퍼블리셔 정보 및 오너 정보를 포함하는 주제 학습데이터 및 온라인 콘텐츠의 댓글을 학습하기 위한 학습 데이터로서, 온라인 콘텐츠의 종류, 주제, 가짜댓글 정보를 포함하는 댓글 학습데이터를 포함 할 수 있다.
일 실시예에서, 상기 학습 데이터를 생성하는 단계는, 온라인 콘텐츠를 수집하는 단계, 상기 수집된 온라인 콘텐츠 중에서, 상기 종류 학습데이터로 적용 가능한 온라인 콘텐츠를 선별하여 종류 학습데이터를 수집하는 단계, 상기 수집된 온라인 콘텐츠 중에서, 상기 주제 학습데이터로 적용 가능한 온라인 콘텐츠를 선별하여 주제 학습데이터를 수집하는 단계 및 상기 수집된 온라인 콘텐츠 중에서, 상기 댓글 학습데이터로 적용 가능한 온라인 콘텐츠를 선별하여 댓글 학습데이터를 수집하는 단계를 포함 할 수 있다.
일 실시예에서, 상기 머신러닝 학습모델은, 온라인 콘텐츠의 텍스트에 대한 불용어를 제거하고 표제어를 추출하고, 상기 학습데이터 별로 다르게 설정된 온라인 콘텐츠의 각 기준 항목을 대상으로 N-gram 언어모델을 적용하고 벡터화를 적용하여 분류 학습을 수행 할 수 있다.
일 실시예에서, 상기 머신러닝 학습 모델을 생성하는 단계는, 종류 학습데이터를 기초로 온라인 콘텐츠의 제목을 학습하여 온라인 콘텐츠의 종류 확률을 산출하는 종류 학습모델을 생성하는 단계, 주제 학습데이터를 기초로 온라인 콘텐츠의 내용을 학습하여 온라인 콘텐츠의 주제 확률을 산출하는 주제 학습모델을 생성하는 단계 및 댓글 학습데이터를 기초로 온라인 콘텐츠의 종류 및 주제 별 가짜 댓글의 확률을 산출하는 댓글 학습모델을 생성하는 단계를 포함 할 수 있다.
일 실시예에서, 상기 머신러닝 학습 모델을 적용하여 상기 요청 콘텐츠의 종류 및 주제를 식별하는 단계는, 상기 종류 학습모델을 이용하여 상기 요청 콘텐츠의 종류를 판별하는 단계, 상기 주제 학습모델을 이용하여 상기 요청 콘텐츠의 주제를 판별하는 단계 및 상기 댓글 학습모델을 이용하여, 판별된 상기 요청 콘텐츠의 종류 및 주제에 따른 댓글 진위 확률을 산출하는 단계를 포함 할 수 있다.
일 실시예에서, 상기 머신러닝 학습 모델을 적용하여 상기 요청 콘텐츠의 종류 및 주제를 식별하는 단계는, 상기 종류 학습데이터를 대상으로 퍼블리셔와 오너 간의 연관성을 기초로 종류 보정치를 설정하고, 상기 종류 판별모듈의 판별 결과에 상기 종류 보정치를 반영하는 단계 및 상기 주제 학습데이터를 대상으로 퍼블리셔와 오너 간의 연관성을 기초로 주제 보정치를 설정하고, 상기 주제 판별모듈의 판별 결과에 상기 주제 보정치를 반영하는 단계를 더 포함 할 수 있다.
일 실시예에서, 상기 요청 콘텐츠의 댓글의 진위를 판별하는 단계는, 수학식
Figure pat00005
및 수학식
Figure pat00006
을 이용하여 상기 댓글 진위 판별모듈의 판별 결과를 보정하는 단계를 더 포함하고, 여기에서,
Figure pat00007
는 상기 댓글 진위 판별모듈의 판별 결과를,
Figure pat00008
는 상기 댓글 진위 보정모듈에 의한 보정된 확률을 의미 할 수 있다.
상기한 과제의 해결 수단은, 본 발명의 특징을 모두 열거한 것은 아니다. 본 발명의 과제 해결을 위한 다양한 수단들은 이하의 상세한 설명의 구체적인 실시형태를 참조하여 보다 상세하게 이해될 수 있을 것이다.
본 발명의 일 실시형태에 따르면, 온라인 콘텐츠에 대한 머신러닝 학습을 기반으로 사용자가 요청한 온라인 컨텐츠의 댓글에 대한 진위 확률을 산출하여, 온라인 콘텐츠의 댓글에 대한 진위 여부를 판별할 수 있는 효과가 있다.
또한, 본 발명의 일 실시형태에 따르면, 온라인 콘텐츠의 종류 및 주제에 따른 댓글의 진위 성향을 추정하고, 요청된 온라인 콘텐츠의 종류 및 주제를 학습모델에 따라 구분하여 그 댓글의 진위 여부를 판별할 수 있는 효과가 있다.
또한, 본 발명의 일 실시형태에 따르면, 온라인 콘텐츠의 퍼블리셔 및 오너 간의 연관성에 따른 가중치를 설정하고, 이를 반영함으로써 온라인 콘텐츠의 분류를 보다 정확하게 수행할 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 머신 러닝을 이용한 가짜 댓글 판별 시스템의 일 적용예를 설명하는 도면이다.
도 2는 본 발명의 일 실시예에 따른 댓글 판별 서버의 예시적인 컴퓨팅 운영 환경을 설명하는 도면이다.
도 3은 본 발명의 일 실시예에 따른 댓글 판별 서버의 일 실시예를 설명하기 위한 블록 구성도이다.
도 4는 도 3에 도시된 학습 데이터 생성부의 일 실시예를 설명하기 위한 블록 구성도이다.
도 5는 도 3에 도시된 머신러닝 학습모델의 일 실시예를 설명하기 위한 블록 구성도이다.
도 6은 도 3에 도시된 진위 판별부의 일 실시예를 설명하기 위한 블록 구성도이다.
도 7은 도 3에 도시된 진위 판별부의 다른 일 실시예를 설명하기 위한 블록 구성도이다.
도 8은 도 3에 도시된 진위 판별부의 또 다른 일 실시예를 설명하기 위한 블록 구성도이다.
도 9 내지 도 15는 댓글 판별 서버의 각 구성요소를 설명하기 위한 예시적인 데이터들을 도시하는 도면이다.
도 16은 본 발명의 일 실시예에 따른 머신 러닝을 이용한 가짜 댓글 판별 방법을 설명하는 순서도다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 형태들을 설명한다.
그러나, 본 발명의 실시형태는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명하는 실시 형태로 한정되는 것은 아니다. 또한, 본 발명의 실시형태는 당해 기술분야에서 평균적인 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해서 제공되는 것이다.
즉, 전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다. 도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용된다.
또한, 본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
또한, 이하에서 본 발명에 따른 시스템을 설명하기 위하여 다양한 구성요소 및 그의 하부 구성요소에 대하여 설명하고 있다. 이러한 구성요소 및 그의 하부 구성요소들은, 하드웨어, 소프트웨어 또는 이들의 조합 등 다양한 형태로서 구현될 수 있다. 예컨대, 각 요소들은 해당 기능을 수행하기 위한 전자적 구성으로 구현되거나, 또는 전자적 시스템에서 구동 가능한 소프트웨어 자체이거나 그러한 소프트웨어의 일 기능적인 요소로 구현될 수 있다. 또는, 전자적 구성과 그에 대응되는 구동 소프트웨어로 구현될 수 있다.
본 명세서에 설명된 다양한 기법은 하드웨어 또는 소프트웨어와 함께 구현되거나, 적합한 경우에 이들 모두의 조합과 함께 구현될 수 있다. 본 명세서에 사용된 바와 같은 "부(Unit)", "서버(Server)" 및 "시스템(System)" 등의 용어는 마찬가지로 컴퓨터 관련 엔티티(Entity), 즉 하드웨어, 하드웨어 및 소프트웨어의 조합, 소프트웨어 또는 실행 시의 소프트웨어와 등가로 취급할 수 있다. 또한, 본 발명의 시스템에서 실행되는 각 기능은 모듈단위로 구성될 수 있고, 하나의 물리적 메모리에 기록되거나, 둘 이상의 메모리 및 기록매체 사이에 분산되어 기록될 수 있다.
본 발명의 실시형태를 설명하기 위하여 다양한 순서도가 개시되고 있으나, 이는 각 단계의 설명의 편의를 위한 것으로, 반드시 순서도의 순서에 따라 각 단계가 수행되는 것은 아니다. 즉, 순서도에서의 각 단계는, 서로 동시에 수행되거나, 순서도에 따른 순서대로 수행되거나, 또는 순서도에서의 순서와 반대의 순서로도 수행될 수 있다.
이하에서는, 본 발명에 따른 머신 러닝을 이용한 가짜 댓글 판별 방법 및 댓글 판별 서버의 다양한 실시예들에 대하여 설명한다.
도 1은 본 발명의 일 실시예에 따른 머신 러닝을 이용한 가짜 댓글 판별 시스템의 일 적용예를 설명하는 도면이다.
도 1을 참조하면, 머신 러닝을 이용한 가짜 댓글 판별 시스템은 사용자 단말(100), 온라인 콘텐츠 서버(200) 및 댓글 판별 서버(300)를 포함한다.
사용자 단말(100)은 사용자가 온라인 콘텐츠 서버(200) 또는 댓글 판별 서버(300)를 이용하는데 사용되는 단말로서, 스마트폰, 타블릿 PC, 노트북, PC 등 다양한 컴퓨팅 장치가 적용될 수 있다.
온라인 콘텐츠 서버(200)는 기사, 의견, 홍보 등의 온라인 콘텐츠를 온라인 상에서 생성 또는 유통하는 주체이다. 도시된 예에서, 온라인 콘텐츠 서버(200)는 하나의 서버로 예시되었으나, 이는 설명의 편의를 위하여 예시된 것에 불과하며, 실제로는 다양한 주체에 의하여 운영되는 다양한 온라인 콘텐츠 서버(200)가 존재할 수 있다.
댓글 판별 서버(300)는 온라인 콘텐츠에 대하여 머신러닝 학습을 수행하여 온라인 콘텐츠의 댓글에 대한 진위를 판별할 수 있다.
예컨대, 댓글 판별 서버(300)는 온라인 콘텐츠를 수집하여 머신러닝 학습을 위한 학습 데이터를 생성하고, 이러한 학습 데이터를 학습하여 온라인 콘텐츠에 대한 머신러닝 학습 모델을 생성할 수 있다. 댓글 판별 서버(300)는 머신러닝 학습 모델을 이용하여 사용자 단말(100)에서 제공된 요청 온라인 콘텐츠(이하, '요청 콘텐츠'라 함)의 댓글에 대한 진위 판별을 수행하여 사용자 단말(100)에 그 결과를 제공할 수 있다. 이러한 요청 콘텐츠는 온라인 콘텐츠 및 진위를 파악하고자 하는 댓글을 포함한다.
이하에서, 댓글 판별 서버(300)에 대하여 도 2 내지 도 14를 참조하여 보다 상세히 설명한다.
도 2는 본 발명의 일 실시예에 따른 댓글 판별 서버의 예시적인 컴퓨팅 운영 환경을 설명하는 도면이다.
도 2는 댓글 판별 서버(300)의 실시예들이 구현될 수 있는 적합한 컴퓨팅 환경의 일반적이고 단순화된 설명을 제공하기 위한 것으로, 도 6을 참조하면, 댓글 판별 서버(300)의 일 예로서 컴퓨팅 장치가 도시된다.
컴퓨팅 장치는 적어도 프로세싱 유닛(303)과 시스템 메모리(301)를 포함할 수 있다.
컴퓨팅 장치는 프로그램을 실행할 때 협조하는 복수의 프로세싱 유닛을 포함할 수도 있다. 컴퓨팅 장치의 정확한 구성 및 유형에 의존하여, 시스템 메모리(301)는 휘발성(예컨대, 램(RAM)), 비휘발성(예컨대, 롬(ROM), 플래시 메모리 등) 또는 이들의 조합일 수 있다. 시스템 메모리(301)는 플랫폼의 동작을 제어하기 위한 적합한 운영 체제(302)를 포함하는데, 예컨대 마이크로소프트사로부터의 WINDOWS 운영체제와 같은 것일 수 있다. 시스템 메모리(301)는 프로그램 모듈, 애플리케이션 등의 같은 하나 이상의 소프트웨어 애플리케이션을 포함할 수도 있다.
컴퓨팅 장치는 자기 디스크, 광학적 디스크, 또는 테이프와 같은 추가적인 데이터 저장 장치(304)를 포함할 수 있다. 이러한 추가적 저장소는 이동식 저장소 및/또는 고정식 저장소 일 수 있다. 컴퓨터 판독가능 저장 매체는 컴퓨터 판독가능 인스트럭션, 데이터 구조, 프로그램 모듈, 또는 기타 데이터와 같은 저장정보를 위한 임의의 방법이나 기법으로 구현되는 휘발성 및 비휘발성, 이동식 및 고정식 매체를 포함할 수 있다. 시스템 메모리(301), 저장소(304)는 모두 컴퓨터 판독가능 저장 매체의 예시일 뿐이다. 컴퓨터 판독가능 저장 매체는 램(RAM), 롬(ROM), EEPROM, 플래시 메모리 또는 다른 메모리 기법, CD-ROM, DVD 또는 다른 광학적 저장소, 자기 테이프, 자기 디스크 저장소 또는 다른 자기적 저장 장치, 또는 원하는 정보를 저장하고 컴퓨팅 장치(300)에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있는데, 이에 한정되는 것은 아니다.
컴퓨팅 장치의 입력 장치(305), 예컨대 키보드, 마우스, 펜, 음성 입력 장치, 터치 입력 장치, 및 비교 가능한 입력 장치를 포함할 수 있다. 출력 장치(306)는, 예컨대 디스플레이, 스피커, 프린터, 및 다른 유형의 출력 장치가 포함될 수도 있다. 이들 장치는 본 기술분야에서 널리 알려진 것이므로 자세한 설명은 생략한다.
컴퓨팅 장치는 예컨대 분산 컴퓨팅 환경에서의 네트워크, 예컨대, 유무선 네트워크, 위성 링크, 셀룰러 링크, 근거리 네트워크, 및 비교가능한 메커니즘을 통해 장치가 다른 장치들과 통신하도록 허용하는 통신 장치(307)를 포함할 수도 있다. 통신 장치(307)는 통신 매체의 한가지 예시이며, 통신 매체는 그 안에 컴퓨터 판독 가능 인스트럭션, 데이터 구조, 프로그램 모듈, 또는 다른 데이터를 포함할 수 있다. 예시적으로, 통신 매체는 유선 네트워크나 직접 유션 접속과 같은 유선 매체, 및 음향, RF, 적외선 및 다른 무선 매체와 같은 무선 매체를 포함하는데, 이에 한정되는 것은 아니다.
댓글 판별 서버(300)는 이러한 컴퓨팅 환경에서 구현되는 기능적 구성으로 설명될 수 있다. 이에 대해서는, 도 3 내지 도 14를 참조하여 댓글 판별 서버의 다양한 실시예에 대하여 보다 상세히 설명한다.
도 3은 본 발명의 일 실시예에 따른 댓글 판별 서버의 일 실시예를 설명하기 위한 블록 구성도이다.
도 3을 참조하면, 댓글 판별 서버(300)는 요청 접수부(310), 학습 데이터 생성부(320), 머신러닝 학습모델(330) 및 진위 판별부(340)을 포함할 수 있다.
요청 접수부(310)는 사용자 단말(100)로부터 요청 콘텐츠를 접수받을 수 있다. 접수받은 요청 콘텐츠를 진위 판별부(340)에 제공할 수 있다.
학습 데이터 생성부(320)는 온라인 콘텐츠를 수집하고, 수집된 온라인 콘텐츠를 온라인 콘텐츠의 종류, 주제 및 댓글을 기준으로 구분하여 학습 데이터를 생성할 수 있다.
도 9는 학습 데이터 생성부(320)에 의하여 수집된 온라인 콘텐츠의 일 예를 도시하는 도면으로서, 도 9에 도시된 바와 같이, 온라인 콘텐츠는 콘텐츠의 제목, 내용 및 댓글을 포함하고, 온라인 콘텐츠를 제공하는 퍼블리셔 정보 및 온라인 콘텐츠를 생성한 오너 정보를 포함할 수 있다.
학습 데이터 생성부(320)는 수집한 온라인 콘텐츠를 3가지 학습 데이터로 분류할 수 있다. 즉, 학습 데이터 생성부(320)에 의하여 생성되는 학습 데이터는, 종류 학습데이터, 주제 학습데이터 및 댓글 학습데이터로 구분될 수 있다.
종류 학습데이터는 온라인 콘텐츠의 종류를 학습하기 위한 학습 데이터로서, 온라인 콘텐츠의 제목, 퍼블리셔 정보 및 오너 정보를 포함할 수 있다. 여기에서, 온라인 콘텐츠의 종류는 뉴스, 연예, 스포츠 및 기타로 구분될 수 있다.
주제 학습데이터는 온라인 콘텐츠의 주제를 학습하기 위한 학습 데이터로서, 온라인 콘텐츠의 내용, 퍼블리셔 정보 및 오너 정보를 포함할 수 있다. 여기에서, 온라인 콘텐츠의 주제는 스트레이트, 오피니언, 홍보 및 기타로 구분될 수 있다. 스트레이트는 온라인 콘텐츠가 사건이나 사고와 관련된 정보를 포함하는 것을 의미하고, 오피니언은 특정 사안에 대해서 가치 또는 평가를 부여하는 정보를 포함하는 경우이다. 홍보는 온라인 콘텐츠가 흥미, 오락 내지 상업적 정보를 제공하고 있을 때 해당된다.
댓글 학습데이터는 가짜 댓글을 식별하기 위한 온라인 콘텐츠의 댓글을 학습하기 위한 학습 데이터로서, 온라인 콘텐츠의 종류, 주제, 가짜 댓글 정보를 포함할 수 있다.
일 실시예에서, 댓글 학습데이터는 협력자에 의하여 생성된 온라인 댓글을 기반으로 생성될 수 있다. 즉, 협력자는 온라인 콘텐츠에 대한 댓글 시나리오에 따라 온라인 콘텐츠에 댓글을 달 수 있다. 협력자에 의하여 댓글 시나리오에 의하여 작성된 가짜 댓글을 시나리오 가짜 댓글로, 사용자에 의하여 자연적으로 생성된 댓글을 자연적 댓글로 구분한다. 학습 데이터 생성부(320)가 수집한 댓글 학습데이터에 대하여, 시나리오 가짜 댓글 및 자연적 댓글에 대하여 진위 라벨링을 부여할 수 있다. 예컨대, 시나리오 가짜 댓글에는 0 라벨을, 자연적 댓글에는 1 라벨을 부여을 부여할 수 있다.
이와 같이, 본 명세서에서의 댓글의 진위란, 고의적인 의도로 작성된 가짜 댓글(시나리오 댓글)과 사용자에 의하여 자연적으로 생성된 진짜 댓글(자연적 댓글)을 구분하는 것을 의미한다. 즉, 댓글의 내용의 진위성이 아닌, 댓글의 생성에 대한 진위성을 의미한다.
일 실시예에서, 학습 데이터 생성부(320)는 초기 댓글이 시나리오 댓글인지 여부에 따라, 자연적으로 발생하는 가짜 댓글의 변동성을 확인하여 진위성 보정 계수를 산출할 수 있다. 이를 위하여, 시나리오 작성 댓글에는 0 라벨이, 협력자가 아닌 타 사용자에 의하여 생성된 가짜 댓글에 대해서도 0 라벨이, 자연적 진짜 댓글에는 1 라벨이 부여될 수 있다. 즉, 자연적 댓글 중 댓글 시나리오를 만족하는 댓글은 협력자가 아닌 타 사용자에 의하여 생성된 가짜 댓글로 판정되어 0 라벨이 부여될 수 있다.
이러한 진위 라벨링을 기초로, 온라인 콘텐츠의 초기 댓글이 가짜 댓글인 경우, 그러한 초기 가짜 댓글이 이후에 생성되는 댓글의 진위성에 영향을 미치는 정도를 산출하여 진위성 보정 계수를 산출할 수 있다.
예컨대, 학습 데이터 생성부(320)는 초기 댓글이 자연적 진짜 댓글인 경우 이후에 발생하는 댓글의 진위성을 산출하고, 초기 댓글이 시나리오 가짜 댓글인 경우 이후에 발생하는 댓글의 진위성을 산출한 후, 이들을 비교하여 초기 댓글이 시나리오 가짜 댓글인 경우에 의한 댓글의 진위성에 영향을 미치는 정도를 산출할 수 있다.
머신러닝 학습모델(330)은 학습 데이터 생성부(320)에서 제공된 학습 데이터를 기반으로 머신러닝 학습을 수행하여, 온라인 콘텐츠의 종류, 주제 및 댓글 각각에 대한 개별적인 확률을 학습할 수 있다.
일 실시예에서, 머신러닝 학습모델(330)은 온라인 콘텐츠의 종류에 대한 종류 학습모델, 온라인 콘텐츠의 주제에 대한 주제 학습모델 및 온라인 콘텐츠의 댓글에 대한 댓글 학습모델을 포함할 수 있다.
일 예로, 머신러닝 학습모델(330)은 온라인 콘텐츠의 텍스트에 대한 불용어를 제거하고 표제어를 추출하고, 학습데이터 별로 다르게 설정된 온라인 콘텐츠의 각 기준 항목을 대상으로 N-gram 언어모델을 적용하고 벡터화를 적용하여 분류 학습을 수행함으로써 학습 모델을 생성할 수 있다. 다만, 이는 학습 모델의 예시적인 일 예를 설명한 것으로, 본 발명에서의 머신러닝 학습모델(330)이 이러한 알고리즘 기법으로만 한정되는 것은 아니며 다양한 다른 머신러닝 학습기법으로 구현 가능함은 자명하다.
진위 판별부(340)는 사용자로부터 요청된 요청 콘텐츠에 대하여 머신러닝 학습모델(330)을 적용하여 요청 콘텐츠의 종류 및 주제를 식별하고, 온라인 콘텐츠의 종류 및 주제에 따른 댓글의 진위 성향을 이용하여 요청 콘텐츠의 댓글의 진위를 판별할 수 있다. 진위 판별부(340)는 판별된 요청 콘텐츠의 댓글의 진위에 대한 정보를 사용자 단말(100)에 제공할 수 있다.
이러한 진위 판별부(340)에 대해서는 도 6 내지 도 8을 참조하여 이하에서 보다 상세히 설명한다.
도 4는 도 3에 도시된 학습 데이터 생성부의 일 실시예를 설명하기 위한 블록 구성도이다.
도 4를 참조하면, 학습 데이터 생성부(320)는 온라인 콘텐츠 수집모듈(321), 종류 학습데이터 수집모듈(322), 주제 학습데이터 수집모듈(323) 및 댓글 학습데이터 수집모듈(324)를 포함할 수 있다.
온라인 콘텐츠 수집모듈(321)은 온라인 콘텐츠를 수집하여 종류 학습데이터 수집모듈(322) 내지 댓글 학습데이터 수집모듈(324)에 제공한다.
종류 학습데이터 수집모듈(322)은 수집된 온라인 콘텐츠 중에서, 종류 학습데이터로 적용 가능한 온라인 콘텐츠를 선별하여 수집할 수 있다. 종류 학습데이터 수집모듈(322)은 생성된 종류 학습데이터에 대하여, 각 종류 별로 퍼블리셔-오너 연관 정보를 생성할 수 있다. 도 10은 종류 학습데이터 수집모듈(322)에 의하여 생성되는 종류 학습 데이터의 종류별 퍼블리셔-오너 연관 정보의 일 예를 도시한다. 도 10에 도시된 예와 같이, 종류 학습데이터 수집모듈(322)은 뉴스 종류, 연예 종류, 스포츠 종류 각각에 대하여 퍼블리셔와 오너 간의 연관성에 대한 정보를 생성할 수 있다.
주제 학습데이터 수집모듈(323)은 수집된 온라인 콘텐츠 중에서, 주제 학습데이터로 적용 가능한 온라인 콘텐츠를 선별하여 수집할 수 있다. 생성된 주제 학습데이터에 대하여, 각 주제 별로 퍼블리셔-오너 연관 정보를 생성할 수 있다. 도 11은 주제 학습데이터 수집모듈(323)에 의하여 생성되는 주제 학습 데이터의 주제별 퍼블리셔-오너 연관 정보의 일 예를 도시한다. 도 11에 도시된 예와 같이, 주제 학습데이터 수집모듈(323)은 스트레이트 주제, 오피니온 주제 및 홍보 주제 각각에 대하여 퍼블리셔와 오너 간의 연관성에 대한 정보를 생성할 수 있다.
이와 같이, 특정 종류 또는 특정 주제에 대하여 퍼블리셔-오너 연관성이 높다는 것은, 그러한 퍼블리셔-오너 관계에서 해당 종류 해당 주제의 온라인 콘텐츠를 다수 생산하는 것을 반영하는 것이므로, 이러한 퍼블리셔-오너 연관성은 진위 판별부(340)에 의하여 진위 판별 시 적용되는 보정을 위하여 사용된다.
댓글 학습데이터 수집모듈(324)은 수집된 온라인 콘텐츠 중에서, 댓글 학습데이터로 적용 가능한 온라인 콘텐츠를 선별하여 수집할 수 있다.
댓글 학습데이터 수집모듈(324)은 생성된 댓글 학습 데이터에 대하여, 각 종류-주제 별 가짜 댓글 정보를 생성할 수 있다. 도 12는 댓글 학습데이터 수집모듈(324)에 의하여 생성되는 댓글 학습 데이터의 종류-주제별 가짜 댓글 정보의 일 예를 도시한다. 여기에서, Nij는 온라인 콘텐츠의 종류 i 및 주제 j에 해당하는 가짜 댓글의 수를 의미한다.
이와 같이 생성된 댓글 학습 데이터의 종류-주제별 가짜 댓글 정보는 요청 콘텐츠의 종류-주제에 따른 댓글 확률을 산출하는데 사용된다.
도 5는 도 3에 도시된 머신러닝 학습모델의 일 실시예를 설명하기 위한 블록 구성도이다.
도 5를 참조하면, 머신러닝 학습모델(330)은 종류 학습모델(332), 주제 학습모델(333) 및 댓글 학습모델(334)을 포함할 수 있다. 실시예에 따라, 머신러닝 학습모델(330)은 전처리 모듈(331)을 더 포함할 수 있다.
전처리 모듈(331)은 온라인 콘텐츠를 텍스트화 하고, 학습에 필요한 소정의 전처리를 수행할 수 있다. 예컨대, 전처리 모듈(331)은 음성 기반 온라인 콘텐츠를 식별하고, 음성 인식을 이용하여 음성 기반 온라인 콘텐츠를 텍스트 콘텐츠로 변환하며, 텍스트 콘텐츠에 대하여 불용어를 제거하고 표제어를 추출하는 전처리를 수행할 수 있다.
종류 학습모델(332)은 종류 학습데이터를 기초로 온라인 콘텐츠의 제목을 학습하여 온라인 콘텐츠의 종류 확률을 산출할 수 있다. 예컨대, 종류 학습모델(332)은 종류 학습데이터를 기초로 온라인 콘텐츠의 제목을 벡터화 하고, 그러한 벡터에 대하여 SVM 또는 DNN 를 적용하여 종류 분류 학습을 수행할 수 있다.
따라서, 종류 학습모델(332)은 온라인 콘텐츠의 제목을 학습하여 해당 온라인 콘텐츠의 종류에 대한 확률, 즉, 종류 확률을 산출할 수 있다. 일 예로, 온라인 콘텐츠의 종류가 '뉴스, 연예, 스포츠, 기타'로 구성되는 경우, 종류 학습모델(332)은 "P(뉴스)= 0.3, P(연예)=0.4, P(스포츠) = 0.2, P(기타)=0.1" 등과 같이, 온라인 콘텐츠의 제목으로부터 어느 종류에 해당될 가능성(종류 확률)을 산출할 수 있다.
주제 학습모델(333)은 주제 학습데이터를 기초로 온라인 콘텐츠의 내용을 학습하여 온라인 콘텐츠의 주제 확률을 산출할 수 있다. 마찬가지로, 주제 학습모델(333)은 온라인 콘텐츠의 내용을 학습하여 해당 온라인 콘텐츠의 주제에 대한 확률, 즉, 주제 확률을 산출할 수 있다. 일 예로, 온라인 콘텐츠의 주제가 '스트레이트, 오피니언, 홍보, 기타'로 구성되는 경우, 종류 학습모델(332)은 ": P(스트레이트)= 0.2, P(오피니언)=0.6, P(홍보) = 0.2, P(기타)=0.1) " 등과 같이, 온라인 콘텐츠의 내용으로부터 어느 주제에 해당될 가능성(주제 확률)을 산출할 수 있다.
댓글 학습모델(334)은 댓글 학습데이터를 기초로 온라인 콘텐츠의 종류 및 주제 별 가짜 댓글의 확률을 산출할 수 있다.
도 13은 댓글 학습모델(334)에 의하여 생성된 온라인 콘텐츠의 종류-주제 별 가짜 댓글의 비율의 일 예를 예시하는 도면으로서, 여기에서, ωij는 온라인 콘텐츠의 종류 i 및 주제 j일 때의 가짜 댓글의 수를 전체 가짜 댓글의 수로 나눈 값일 수 있다.
도 6은 도 3에 도시된 진위 판별부의 일 실시예를 설명하기 위한 블록 구성도이다.
진위 판별부(340)는 사용자 단말(100)로부터 댓글 진위 확인을 요청하는 요청 콘텐츠를 제공받고, 요청 콘텐츠의 댓글 진위를 판별 할 수 있다.
도 6을 참조하면, 진위 판별부(340)는 종류 판별모듈(342), 주제 판별모듈(343) 및 댓글 진위 판별모듈(344)를 포함할 수 있다. 실시예에 따라, 진위 판별부(340)는 전처리 모듈(341)을 더 포함할 수 있다.
전처리 모듈(341)은 온라인 콘텐츠를 텍스트화 할 수 있다. 예컨대, 전처리 모듈(341)은 음성 기반 온라인 콘텐츠를 식별하고, 음성 인식을 이용하여 음성 기반 온라인 콘텐츠를 텍스트 콘텐츠로 변환할 수 있다.
종류 판별모듈(342)은 종류 학습모델(332)을 이용하여 요청 콘텐츠의 종류를 판별할 수 있다. 주제 판별모듈(343)은 주제 학습모델(333)을 이용하여 요청 콘텐츠의 주제를 판별할 수 있다.
댓글 진위 판별모듈(344)은 댓글 학습모델(334)을 이용하여, 판별된 요청 콘텐츠의 종류 및 주제에 따른 댓글 진위 확률을 산출할 수 있다.
도 14는 요청 콘텐츠의 일 예를 도시하고 있다.
도 14의 예를 들면, 종류 판별모듈(342)은 종류 학습모델(332)을 이용하여 요청 콘텐츠의 종류를 판단할 수 있다. 즉, 종류 학습모델(332)은 요청 콘텐츠의 제목에 대하여 학습을 수행하여 요청 콘텐츠의 종류 확률을 산출할 수 있다. 종류 학습모델(332)에서 산출된 종류 확률이 "P(뉴스)= 0.4, P(연예)=0.3, P(스포츠) = 0.2, P(기타)=0.1"라고 하면, 종류 판별모듈(342)은 가장 종류 확률이 높은 '뉴스' 종류를 요청 콘텐츠의 종류로서 판단할 수 있다.
또한, 도 14의 예에서, 주제 판별모듈(343)은 주제 학습모델(333)을 이용하여 요청 콘텐츠의 주제를 판별할 수 있다. 즉, 주제 학습모델(333)은 요청 콘텐츠의 내용에 대하여 학습을 수행하여 요청 콘텐츠의 주제 확률을 산출할 수 있다. 주제 학습모델(333)에서 산출된 주제 확률이 "P(스트레이트)= 0.5, P(오피니언)=0.3, P(홍보) = 0.1, P(기타)=0.1"라고 하면, 주제 판별모듈(343)은 가장 주제 확률이 높은 '스트레이트' 주제를 요청 콘텐츠의 주제로서 판단할 수 있다.
즉, 도 14의 예에서, 댓글 학습모델(334)은 '뉴스 종류-스트레이트 주제'의 댓글 진위 확률을 산출할 수 있으며, 도 13의 예를 참조하면 댓글 학습모델(334)은 '뉴스 종류-스트레이트 주제'에 해당하는 댓글 진위 비율 ω11을 확인하고, 댓글 진위 판별모듈(344)은 ω11을 댓글 진위 확률로서 산출할 수 있다.
도 7은 도 3에 도시된 진위 판별부의 다른 일 실시예를 설명하기 위한 블록 구성도이다. 도 7에 도시된 예는, 진위 판별부에 종류 보정 및 주제 보정이 적용된 실시예에 관한 것이다.
도 7을 참조하면, 진위 판별부(340)는 전처리 모듈(341), 종류 판별모듈(342), 주제 판별모듈(343), 댓글 진위 판별모듈(344), 종류 보정모듈(345) 및 주제 보정모듈(346)을 포함할 수 있다.
전처리 모듈(341) 내지 댓글 진위 판별모듈(344)에 대해서는 도 6을 참조하여 상술한 바로부터 쉽게 이해할 수 있으므로, 여기에서는 그 설명을 생략한다.
종류 보정모듈(345)은 종류 학습데이터를 대상으로 퍼블리셔와 오너 간의 연관성을 기초로 종류 보정치를 설정하고, 종류 판별모듈(342)의 판별 결과에 종류 보정치를 반영할 수 있다.
주제 보정모듈(346)은 주제 학습데이터를 대상으로 퍼블리셔와 오너 간의 연관성을 기초로 주제 보정치를 설정하고, 주제 판별모듈(343)의 판별 결과에 주제 보정치를 반영할 수 있다.
도 14에 도시된 요청 콘텐츠를 기초로 종류 보정 및 주제 보정에 대하여 보다 상세히 설명한다.
도 14에 도시된 요청 콘텐츠에 대한 종류 판별모듈(342)의 판별 결과가 "P(뉴스)= 0.3, P(연예)=0.4, P(스포츠) = 0.2, P(기타)=0.1"이고, 종류 보정모듈(345)에서 퍼블리셔-오너 간 연관성, 즉, '네이버-News1'간의 연관성이 뉴스 종류에 대하여 1.5 보정치를 가진다고 하자. 따라서, 종류 판별모듈(342)의 판별 결과에 종류 보정모듈(345)의 보정치를 반영하면, 'P(뉴스)= 0.3*1.5=0.45'가 되므로 ' P(연예)=0.4'보다 높게 설정되어, 요청 콘텐츠는 '뉴스 종류'로 판정된다.
또한, 도 14에 도시된 요청 콘텐츠에 대한 주제 판별모듈(343)의 판별 결과가 " P(스트레이트)= 0.2, P(오피니언)=0.6, P(홍보) = 0.2, P(기타)=0.1"이고, 주제 보정모듈(346)에서 퍼블리셔-오너 간 연관성, 즉, '네이버-News1'간의 연관성이 스트레이트 주제에 대하여 1.5 보정치를 가진다고 하자. 따라서, 주제 판별모듈(343)의 판별 결과에 주제 보정모듈(346)의 보정치를 반영하면, P(스트레이트)= 0.2*1.5=0.3'가 되나 여전히 ' P(오피니언)=0.6'이 가장 높게 설정되므로, 요청 콘텐츠는 '오피니언 주제'로 판정된다.
도 8은 도 3에 도시된 진위 판별부의 또 다른 일 실시예를 설명하기 위한 블록 구성도이다. 도 8에 도시된 예는, 진위 판별부에 댓글 보정이 적용된 실시예에 관한 것이다.
도 8을 참조하면, 진위 판별부(340)는 전처리 모듈(341), 종류 판별모듈(342), 주제 판별모듈(343), 댓글 진위 판별모듈(344) 및 댓글 진위 보정모듈(347)을 포함할 수 있다. 도시되지는 않았으나, 실시예에 따라 진위 판별부(340)는 종류 보정모듈(345) 및 주제 보정모듈(346)를 더 포함할 수 있다.
전처리 모듈(341) 내지 주제 보정모듈(346)에 대해서는 도 6 내지 도 7을 참조하여 상술한 바로부터 쉽게 이해할 수 있으므로, 여기에서는 그 설명을 생략한다.
댓글 진위 보정모듈(347)은 도 15에 도시된 예와 같이, 아래의 수학식 1 및 2를 이용하여 댓글 진위 판별모듈(344)의 판별 결과를 보정할 수 있다.
[수학식 1]
Figure pat00009
[수학식 2]
Figure pat00010
여기에서,
Figure pat00011
는 상기 댓글 진위 판별모듈의 판별 결과를,
Figure pat00012
는 상기 댓글 진위 보정모듈에 의한 보정된 확률을 의미한다.
즉, 댓글 진위 보정모듈(347)은 sigmoid 함수의 역함수를 활용하여 댓글 진위를 보정할 수 있으며, 상술한 수학식 1의 예 외에도, 함수에 적용되는 수식의 변형이 가능하다. 예컨대, ωij에 승산되는 상수의 값이 3이 아닌 2나 1로도 적용 가능하다.
일 실시에에서, 댓글 진위 보정모듈(347)은 요청 콘텐츠의 주제 중 홍보 주제에 대한 부가 가중치를 반영하여 댓글 진위 확률을 보정할 수 있다. 이는, 홍보 종류의 온라인 콘텐츠는 다수의 인위적인 댓글들이 달리는 것이 통상적이므로, 주제 판별모듈(243) 내지 주제 보정모듈(346)에 의하여 판정된 요청 콘텐츠의 주제가 '홍보 주제'로 판별되는 경우, 댓글 진위 보정모듈(347)은 거짓 확률에 부가 가중치를 부여할 수 있다.
예컨대, 댓글 진위 판별모듈(344)에서 '연예 뉴스'의 '홍보 종류'에 대한 요청 콘텐츠를 판별한 결과, "P(진짜)=0.6, P(가짜)=0.4)"와 같이 산출되었고, 댓글 진위 보정모듈(347)이 '연예 뉴스'의 '홍보 종류'에 대한 가중치를 도 13으로 부터 ω23=0.3으로 설정하였다고 하면, 댓글 진위 보정모듈(347)에 의하여 보정되면 "P(가짜)= f(x(1+ω23))=f(-0.4+3*0.3))=f(0.5)=0.62"이므로 'P(진짜)'보다 높아 가짜 댓글로 판단할 수 있다.
일 실시에에서, 요청 콘텐츠는 온라인 콘텐츠와 그의 첫 댓글 및 진위 판단하고자 하는 댓글을 포함할 수 있고, 댓글 진위 보정모듈(347)은 진위성 보정 계수를 이용하여 진위 판단하고자 하는 댓글의 진위 판단을 보정할 수 있다.
즉, 전술한 바와 같이, 학습 데이터 생성부(320)는 초기 댓글이 시나리오 댓글인지 여부에 따라, 자연적으로 발생하는 가짜 댓글의 변동성을 확인하여 진위성 보정 계수를 산출할 수 있으며, 댓글 진위 보정모듈(347)은 이러한 진위성 보정 계수를 반영하여 댓글 진위를 보정할 수 있다.
즉, 댓글 진위 보정모듈(347)은 요청 콘텐츠의 제1 댓글의 진위성을 판단하고, 제1 댓글이 거짓 댓글인 경우, 그 이후에 달린 진위를 판단하고자 하는 제2 댓글에 진위성 보정 계수-제1 댓글의 진위에 따라 결정되는 계수-를 반영할 수 있다.
예컨대, 댓글 진위 판별모듈(344)이 진위 판단하고자 하는 제2 댓글에 대한 진위성을 "P(진짜) = 0.6, P(가짜) = 0.4"로 산출하였고, 진위성 보정 계수가 2이라고 가정하자. 댓글 진위 보정모듈(347)은 댓글 진위 판별모듈(344)을 이용하여 요청 콘텐츠의 제1 댓글의 진위성을 판단할 수 있고, 만약 요청 콘텐츠의 제1 댓글이 진짜인 경우, 제2 댓글에 대하여 댓글 진위 판별모듈(344)에서 판별한 진위성, 즉, "P(진짜) = 0.6, P(가짜) = 0.4"을 그대로 이용하여, 진위 판단하고자 하는 제2 댓글은 진짜로 판별될 수 있다.
한편, 요청 콘텐츠의 제1 댓글이 가짜인 경우, 댓글 진위 판별모듈(344)에서 판별한 진위성에 진위성 보정 계수 2를 적용하여 제2 댓글에 대한 댓글 진위를 판변할 수 있다. 즉, 제2 댓글에 대한 댓글 진위를 판변 시, 제1 댓글이 가짜임에 의하여 진위성 보정 계수 2를 적용할 수 있으며, 그에 따라 'P(가짜) = 0.4 * 2 = 0.8'이 되어 'P(진짜) = 0.6'보다 높으므로, 진위 판단하고자 하는 댓글은 가짜로 판별될 수 있다.
일 실시에에서, 댓글 진위 보정모듈(347)은 가짜 댓글의 빈도수를 일정 주기로 업데이트하여 보정계수를 관리할 수 있다. 이는 그동안의 사용자의 요청에 의한 온라인 콘텐츠의 분류를 기반으로 업데이트 하는 경우를 들어 설명할 수 있다.
예컨대, 100개의 사용자 요청에 의해 분류된 10개의 가짜 댓글 중에서 각 종류-주제별 빈도를 도 12에 도시된 표의 각 경우에 맞춰 가중 합산 할 수 있. 예를 들어, 10개의 가짜 댓글이 모두 뉴스-스트레이트인 경우 기존의 N11이 'N11 + 10'으로 보정되게 되고, 그에 따라, 도 13에 도시된 비율도 이에 따라 자동으로 변경되어 반영될 수 있다.
이상에서는 도 1 내지 도 15를 참조하여, 머신 러닝을 이용한 가짜 댓글 판별 시스템의 다양한 실시예들에 대하여 설명하였다.
이하에서는, 본 발명의 일 실시예에 따른 머신 러닝을 이용한 가짜 댓글 판별 방법에 대하여 설명한다.
이하에서 설명할 머신 러닝을 이용한 가짜 댓글 판별 방법은, 도 1 내지 도 15를 참조하여 기 설명한 머신 러닝을 이용한 가짜 댓글 판별 시스템을 기초로 수행되므로, 도 1 내지 도 15에서 기 설명한 내용을 참조하여 보다 쉽게 이해할 수 있다.
도 16은 본 발명의 일 실시예에 따른 머신 러닝을 이용한 가짜 댓글 판별 방법을 설명하는 순서도다.
도 16을 참조하면, 댓글 판별 서버(300)는 온라인 콘텐츠를 수집하고, 수집된 온라인 콘텐츠를 온라인 콘텐츠의 종류, 주제 및 댓글을 기준으로 구분하여 학습 데이터를 생성 할 수 있다(S1610).
댓글 판별 서버(300)는 학습 데이터를 기반으로 머신러닝 학습을 수행하여, 온라인 콘텐츠의 종류, 주제 및 댓글 각각에 대한 개별적인 확률을 학습하여 머신러닝 학습 모델을 생성 할 수 있다(S1620).
댓글 판별 서버(300)는 사용자로부터 요청된 요청 콘텐츠에 대하여 머신러닝 학습 모델을 적용하여 상기 요청 콘텐츠의 종류 및 주제를 식별하고(S1630), 온라인 콘텐츠의 종류 및 주제에 따른 댓글의 진위 성향을 이용하여 상기 요청 콘텐츠의 댓글의 진위를 판별 할 수 있다(S1640).
일 실시예에서, 학습 데이터는, 온라인 콘텐츠의 종류를 학습하기 위한 학습 데이터로서, 온라인 콘텐츠의 제목, 퍼블리셔 정보 및 오너 정보를 포함하는 종류 학습데이터, 온라인 콘텐츠의 주제를 학습하기 위한 학습 데이터로서, 온라인 콘텐츠의 내용, 퍼블리셔 정보 및 오너 정보를 포함하는 주제 학습데이터 및 온라인 콘텐츠의 댓글을 학습하기 위한 학습 데이터로서, 온라인 콘텐츠의 종류, 주제, 가짜댓글 정보를 포함하는 댓글 학습데이터를 포함할 수 있다.
단계 S1610에 대한 일 실시예에서, 댓글 판별 서버(300)는, 온라인 콘텐츠를 수집하는 단계, 수집된 온라인 콘텐츠 중에서 종류 학습데이터로 적용 가능한 온라인 콘텐츠를 선별하여 종류 학습데이터를 수집하는 단계, 수집된 온라인 콘텐츠 중에서 주제 학습데이터로 적용 가능한 온라인 콘텐츠를 선별하여 주제 학습데이터를 수집하는 단계 및 수집된 온라인 콘텐츠 중에서 댓글 학습데이터로 적용 가능한 온라인 콘텐츠를 선별하여 댓글 학습데이터를 수집하는 단계를 수행할 수 있다.
일 실시예에서, 머신러닝 학습모델은, 온라인 콘텐츠의 텍스트에 대한 불용어를 제거하고 표제어를 추출하고, 학습데이터 별로 다르게 설정된 온라인 콘텐츠의 각 기준 항목을 대상으로 N-gram 언어모델을 적용하고 벡터화를 적용하여 분류 학습을 수행할 수 있다.
단계 S1620에 대한 일 실시예에서, 댓글 판별 서버(300)는, 종류 학습데이터를 기초로 온라인 콘텐츠의 제목을 학습하여 온라인 콘텐츠의 종류 확률을 산출하는 종류 학습모델을 생성하는 단계, 주제 학습데이터를 기초로 온라인 콘텐츠의 내용을 학습하여 온라인 콘텐츠의 주제 확률을 산출하는 주제 학습모델을 생성하는 단계 및 댓글 학습데이터를 기초로 온라인 콘텐츠의 종류 및 주제 별 가짜 댓글의 확률을 산출하는 댓글 학습모델을 생성하는 단계를 수행할 수 있다.
단계 S1630에 대한 일 실시예에서, 댓글 판별 서버(300)는, 종류 학습모델을 이용하여 요청 콘텐츠의 종류를 판별하는 단계, 주제 학습모델을 이용하여 요청 콘텐츠의 주제를 판별하는 단계 및 댓글 학습모델을 이용하여 요청 콘텐츠의 종류 및 주제에 따른 댓글 진위 확률을 산출하는 단계를 수행할 수 있다.
단계 S1630에 대한 일 실시예에서, 댓글 판별 서버(300)는, 종류 학습데이터를 대상으로 퍼블리셔와 오너 간의 연관성을 기초로 종류 보정치를 설정하고, 종류 판별모듈의 판별 결과에 상기 종류 보정치를 반영하는 단계 및 주제 학습데이터를 대상으로 퍼블리셔와 오너 간의 연관성을 기초로 주제 보정치를 설정하고, 주제 판별모듈의 판별 결과에 상기 주제 보정치를 반영하는 단계를 수행할 수 있다.
단계 S1640에 대한 일 실시예에서, 댓글 판별 서버(300)는 상술한 수학식 1 및 2를 이용하여 상기 댓글 진위 판별모듈의 판별 결과를 보정하는 단계를 수행할 수 있다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고 후술하는 특허청구범위에 의해 한정되며, 본 발명의 구성은 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 그 구성을 다양하게 변경 및 개조할 수 있다는 것을 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 쉽게 알 수 있다.
100 : 사용자 단말
200 : 온라인 콘텐츠 서버
300 : 댓글 판별 서버
301 : 시스템 메모리 302 : 운영체제
303 : 프로세싱 유닛 304 : 저장소
305 : 입력장치 306 : 출력장치
307 : 통신장치
310 : 요청 접수부 320 : 학습 데이터 생성부
330 : 머신러닝 학습모델 340 : 진위 판별부
321 : 온라인 컨텐츠 수집모듈 322 : 종류 학습데이터 수집모듈
323 : 주제 학습데이터 수집모듈 324 : 댓글 학습데이터 수집모듈
331 : 전처리 모듈 332 : 종류 학습모델
333 : 주제 학습모델 334 : 댓글 학습모델
341 : 전처리 모듈 342 : 종류 판별모듈
343 : 주제 판별모듈 344 : 댓글 진위 판별모듈
345 : 종류 보정모듈 346 : 주제 보정모듈
347 : 댓글진위 보정모듈

Claims (18)

  1. 온라인 콘텐츠를 수집하고, 수집된 온라인 콘텐츠를 온라인 콘텐츠의 종류, 주제 및 댓글을 기준으로 구분하여 학습 데이터를 생성하는 학습 데이터 생성부;
    상기 학습 데이터 생성부에서 제공된 학습 데이터를 기반으로 머신러닝 학습을 수행하여, 온라인 콘텐츠의 종류, 주제 및 댓글 각각에 대한 개별적인 확률을 학습하는 머신러닝 학습모델; 및
    사용자로부터 요청된 요청 콘텐츠에 대하여 상기 머신러닝 학습 모델을 적용하여 상기 요청 콘텐츠의 종류 및 주제를 식별하고, 온라인 콘텐츠의 종류 및 주제에 따른 댓글의 진위 성향을 이용하여 상기 요청 콘텐츠의 댓글의 진위를 판별하는 진위 판별부;
    를 포함하는 것을 특징으로 하는 머신 러닝을 이용한 댓글 판별 서버.
  2. 제1항에 있어서, 상기 학습 데이터는,
    온라인 콘텐츠의 종류를 학습하기 위한 학습 데이터로서, 온라인 콘텐츠의 제목, 퍼블리셔 정보 및 오너 정보를 포함하는 종류 학습데이터;
    온라인 콘텐츠의 주제를 학습하기 위한 학습 데이터로서, 온라인 콘텐츠의 내용, 퍼블리셔 정보 및 오너 정보를 포함하는 주제 학습데이터; 및
    온라인 콘텐츠의 댓글을 학습하기 위한 학습 데이터로서, 온라인 콘텐츠의 종류, 주제, 가짜댓글 정보를 포함하는 댓글 학습데이터;
    를 포함하는 것을 특징으로 하는 머신 러닝을 이용한 댓글 판별 서버.
  3. 제2항에 있어서, 상기 학습 데이터 생성부는,
    온라인 콘텐츠를 수집하는 온라인 콘텐츠 수집모듈;
    상기 온라인 콘텐츠 수집모듈에서 수집된 온라인 콘텐츠 중에서, 상기 종류 학습데이터로 적용 가능한 온라인 콘텐츠를 선별하여 수집하는 종류 학습데이터 수집모듈;
    상기 수집된 온라인 콘텐츠 중에서, 상기 주제 학습데이터로 적용 가능한 온라인 콘텐츠를 선별하여 수집하는 주제 학습데이터 수집모듈; 및
    상기 수집된 온라인 콘텐츠 중에서, 상기 댓글 학습데이터로 적용 가능한 온라인 콘텐츠를 선별하여 수집하는 댓글 학습데이터 수집모듈;
    을 포함하는 것을 특징으로 하는 머신 러닝을 이용한 댓글 판별 서버.
  4. 제2항에 있어서, 상기 머신러닝 학습모델은,
    온라인 콘텐츠의 텍스트에 대한 불용어를 제거하고 표제어를 추출하고, 상기 학습데이터 별로 다르게 설정된 온라인 콘텐츠의 각 기준 항목을 대상으로 N-gram 언어모델을 적용하고 벡터화를 적용하여 분류 학습을 수행하는 것
    을 특징으로 하는 머신 러닝을 이용한 댓글 판별 서버.
  5. 제2항에 있어서, 상기 머신러닝 학습모델은,
    종류 학습데이터를 기초로 온라인 콘텐츠의 제목을 학습하여 온라인 콘텐츠의 종류 확률을 산출하는 종류 학습모델;
    주제 학습데이터를 기초로 온라인 콘텐츠의 내용을 학습하여 온라인 콘텐츠의 주제 확률을 산출하는 주제 학습모델; 및
    댓글 학습데이터를 기초로 온라인 콘텐츠의 종류 및 주제 별 가짜 댓글의 확률을 산출하는 댓글 학습모델;
    을 포함하는 것을 특징으로 하는 머신 러닝을 이용한 댓글 판별 서버.
  6. 제5항에 있어서, 상기 머신러닝 학습모델은,
    음성 기반 온라인 콘텐츠를 식별하고, 음성 인식을 이용하여 음성 기반 온라인 콘텐츠를 텍스트 콘텐츠로 변환하며, 상기 텍스트 콘텐츠에 대하여 불용어를 제거하고 표제어를 추출하는 전처리를 수행하는 전처리 모듈;
    을 더 포함하는 것을 특징으로 하는 머신 러닝을 이용한 댓글 판별 서버.
  7. 제5항에 있어서, 상기 진위 판별부는,
    상기 종류 학습모델을 이용하여 상기 요청 콘텐츠의 종류를 판별하는 종류 판별모듈;
    상기 주제 학습모델을 이용하여 상기 요청 콘텐츠의 주제를 판별하는 주제 판별모듈; 및
    상기 댓글 학습모델을 이용하여, 판별된 상기 요청 콘텐츠의 종류 및 주제에 따른 댓글 진위 확률을 산출하는 댓글 진위 판별모듈;
    을 포함하는 것을 특징으로 하는 머신 러닝을 이용한 댓글 판별 서버.
  8. 제7항에 있어서, 상기 진위 판별부는,
    음성 기반 온라인 콘텐츠를 식별하고, 음성 인식을 이용하여 음성 기반 온라인 콘텐츠를 텍스트 콘텐츠로 변환하는 전처리 모듈;
    을 더 포함하는 것을 특징으로 하는 머신 러닝을 이용한 댓글 판별 서버.
  9. 제7항에 있어서, 상기 진위 판별부는,
    상기 종류 학습데이터를 대상으로 퍼블리셔와 오너 간의 연관성을 기초로 종류 보정치를 설정하고, 상기 종류 판별모듈의 판별 결과에 상기 종류 보정치를 반영하는 종류 보정모듈; 및
    상기 주제 학습데이터를 대상으로 퍼블리셔와 오너 간의 연관성을 기초로 주제 보정치를 설정하고, 상기 주제 판별모듈의 판별 결과에 상기 주제 보정치를 반영하는 주제 보정모듈;
    을 더 포함하는 것을 특징으로 하는 머신 러닝을 이용한 댓글 판별 서버.
  10. 제7항에 있어서, 상기 진위 판별부는,
    수학식
    Figure pat00013

    수학식
    Figure pat00014

    을 이용하여 상기 댓글 진위 판별모듈의 판별 결과를 보정하는 댓글 진위 보정모듈;
    을 더 포함하고,
    여기에서,
    Figure pat00015
    는 상기 댓글 진위 판별모듈의 판별 결과를,
    Figure pat00016
    는 상기 댓글 진위 보정모듈에 의한 보정된 확률을 의미하는 것을 특징으로 하는 머신 러닝을 이용한 댓글 판별 서버.
  11. 온라인 콘텐츠를 수집하고, 수집된 온라인 콘텐츠를 온라인 콘텐츠의 종류, 주제 및 댓글을 기준으로 구분하여 학습 데이터를 생성하는 단계;
    상기 학습 데이터를 기반으로 머신러닝 학습을 수행하여, 온라인 콘텐츠의 종류, 주제 및 댓글 각각에 대한 개별적인 확률을 학습하여 머신러닝 학습 모델을 생성하는 단계;
    사용자로부터 요청된 요청 콘텐츠에 대하여 상기 머신러닝 학습 모델을 적용하여 상기 요청 콘텐츠의 종류 및 주제를 식별하는 단계; 및
    온라인 콘텐츠의 종류 및 주제에 따른 댓글의 진위 성향을 이용하여 상기 요청 콘텐츠의 댓글의 진위를 판별하는 단계;
    를 포함하는 것을 특징으로 하는 머신 러닝을 이용한 가짜 댓글 판별 방법.
  12. 제11항에 있어서, 상기 학습 데이터는,
    온라인 콘텐츠의 종류를 학습하기 위한 학습 데이터로서, 온라인 콘텐츠의 제목, 퍼블리셔 정보 및 오너 정보를 포함하는 종류 학습데이터;
    온라인 콘텐츠의 주제를 학습하기 위한 학습 데이터로서, 온라인 콘텐츠의 내용, 퍼블리셔 정보 및 오너 정보를 포함하는 주제 학습데이터; 및
    온라인 콘텐츠의 댓글을 학습하기 위한 학습 데이터로서, 온라인 콘텐츠의 종류, 주제, 가짜댓글 정보를 포함하는 댓글 학습데이터;
    를 포함하는 것을 특징으로 하는 머신 러닝을 이용한 가짜 댓글 판별 방법.
  13. 제12항에 있어서, 상기 학습 데이터를 생성하는 단계는,
    온라인 콘텐츠를 수집하는 단계;
    상기 수집된 온라인 콘텐츠 중에서, 상기 종류 학습데이터로 적용 가능한 온라인 콘텐츠를 선별하여 종류 학습데이터를 수집하는 단계;
    상기 수집된 온라인 콘텐츠 중에서, 상기 주제 학습데이터로 적용 가능한 온라인 콘텐츠를 선별하여 주제 학습데이터를 수집하는 단계; 및
    상기 수집된 온라인 콘텐츠 중에서, 상기 댓글 학습데이터로 적용 가능한 온라인 콘텐츠를 선별하여 댓글 학습데이터를 수집하는 단계;
    를 포함하는 것을 특징으로 하는 머신 러닝을 이용한 가짜 댓글 판별 방법.
  14. 제12항에 있어서, 상기 머신러닝 학습모델은,
    온라인 콘텐츠의 텍스트에 대한 불용어를 제거하고 표제어를 추출하고, 상기 학습데이터 별로 다르게 설정된 온라인 콘텐츠의 각 기준 항목을 대상으로 N-gram 언어모델을 적용하고 벡터화를 적용하여 분류 학습을 수행하는 것
    을 특징으로 하는 머신 러닝을 이용한 가짜 댓글 판별 방법.
  15. 제12항에 있어서, 상기 머신러닝 학습 모델을 생성하는 단계는,
    종류 학습데이터를 기초로 온라인 콘텐츠의 제목을 학습하여 온라인 콘텐츠의 종류 확률을 산출하는 종류 학습모델을 생성하는 단계;
    주제 학습데이터를 기초로 온라인 콘텐츠의 내용을 학습하여 온라인 콘텐츠의 주제 확률을 산출하는 주제 학습모델을 생성하는 단계; 및
    댓글 학습데이터를 기초로 온라인 콘텐츠의 종류 및 주제 별 가짜 댓글의 확률을 산출하는 댓글 학습모델을 생성하는 단계;
    를 포함하는 것을 특징으로 하는 머신 러닝을 이용한 가짜 댓글 판별 방법.
  16. 제15항에 있어서, 상기 머신러닝 학습 모델을 적용하여 상기 요청 콘텐츠의 종류 및 주제를 식별하는 단계는,
    상기 종류 학습모델을 이용하여 상기 요청 콘텐츠의 종류를 판별하는 단계;
    상기 주제 학습모델을 이용하여 상기 요청 콘텐츠의 주제를 판별하는 단계; 및
    상기 댓글 학습모델을 이용하여, 판별된 상기 요청 콘텐츠의 종류 및 주제에 따른 댓글 진위 확률을 산출하는 단계;
    를 포함하는 것을 특징으로 하는 머신 러닝을 이용한 가짜 댓글 판별 방법.
  17. 제16항에 있어서, 상기 머신러닝 학습 모델을 적용하여 상기 요청 콘텐츠의 종류 및 주제를 식별하는 단계는,
    상기 종류 학습데이터를 대상으로 퍼블리셔와 오너 간의 연관성을 기초로 종류 보정치를 설정하고, 상기 종류 판별모듈의 판별 결과에 상기 종류 보정치를 반영하는 단계; 및
    상기 주제 학습데이터를 대상으로 퍼블리셔와 오너 간의 연관성을 기초로 주제 보정치를 설정하고, 상기 주제 판별모듈의 판별 결과에 상기 주제 보정치를 반영하는 단계;
    를 더 포함하는 것을 특징으로 하는 머신 러닝을 이용한 가짜 댓글 판별 방법.
  18. 제16항에 있어서, 상기 요청 콘텐츠의 댓글의 진위를 판별하는 단계는,
    수학식
    Figure pat00017

    수학식
    Figure pat00018

    을 이용하여 상기 댓글 진위 판별모듈의 판별 결과를 보정하는 단계;
    를 더 포함하고,
    여기에서,
    Figure pat00019
    는 상기 댓글 진위 판별모듈의 판별 결과를,
    Figure pat00020
    는 상기 댓글 진위 보정모듈에 의한 보정된 확률을 의미하는 것
    을 특징으로 하는 머신 러닝을 이용한 가짜 댓글 판별 방법.
KR1020210006025A 2021-01-15 2021-01-15 머신 러닝을 이용한 댓글 판별 서버 및 그를 이용한 가짜 댓글 판별 방법 KR102462336B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210006025A KR102462336B1 (ko) 2021-01-15 2021-01-15 머신 러닝을 이용한 댓글 판별 서버 및 그를 이용한 가짜 댓글 판별 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210006025A KR102462336B1 (ko) 2021-01-15 2021-01-15 머신 러닝을 이용한 댓글 판별 서버 및 그를 이용한 가짜 댓글 판별 방법

Publications (2)

Publication Number Publication Date
KR20220103427A true KR20220103427A (ko) 2022-07-22
KR102462336B1 KR102462336B1 (ko) 2022-11-01

Family

ID=82606127

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210006025A KR102462336B1 (ko) 2021-01-15 2021-01-15 머신 러닝을 이용한 댓글 판별 서버 및 그를 이용한 가짜 댓글 판별 방법

Country Status (1)

Country Link
KR (1) KR102462336B1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110097491A (ko) * 2010-02-25 2011-08-31 김홍남 스팸 댓글 차단 방법
KR20190097496A (ko) * 2018-02-12 2019-08-21 전북대학교산학협력단 콘텐츠의 토픽 유사도를 결정하는 시스템 및 방법
KR102094201B1 (ko) 2018-10-23 2020-03-27 글로벌사이버대학교 산학협력단 자연어처리 기반의 낚시성 뉴스 기사 판별 시스템 및 방법
KR20200062520A (ko) * 2018-11-27 2020-06-04 (주)아이와즈 출처 분석 기반의 뉴스 신뢰성 평가 시스템 및 그 동작 방법
KR20200072724A (ko) * 2018-12-13 2020-06-23 줌인터넷 주식회사 스팸 문구가 포함된 스팸뉴스 탐지를 위한 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110097491A (ko) * 2010-02-25 2011-08-31 김홍남 스팸 댓글 차단 방법
KR20190097496A (ko) * 2018-02-12 2019-08-21 전북대학교산학협력단 콘텐츠의 토픽 유사도를 결정하는 시스템 및 방법
KR102094201B1 (ko) 2018-10-23 2020-03-27 글로벌사이버대학교 산학협력단 자연어처리 기반의 낚시성 뉴스 기사 판별 시스템 및 방법
KR20200062520A (ko) * 2018-11-27 2020-06-04 (주)아이와즈 출처 분석 기반의 뉴스 신뢰성 평가 시스템 및 그 동작 방법
KR20200072724A (ko) * 2018-12-13 2020-06-23 줌인터넷 주식회사 스팸 문구가 포함된 스팸뉴스 탐지를 위한 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체

Also Published As

Publication number Publication date
KR102462336B1 (ko) 2022-11-01

Similar Documents

Publication Publication Date Title
CN110188194B (zh) 一种基于多任务学习模型的假新闻检测方法及系统
US20210073473A1 (en) Vector Representation Based on Context
Rout et al. Deceptive review detection using labeled and unlabeled data
Java et al. Modeling the spread of influence on the blogosphere
US20170140240A1 (en) Neural network combined image and text evaluator and classifier
US20190147231A1 (en) Predictive analysis of target behaviors utilizing rnn-based user embeddings
Layton et al. Automated unsupervised authorship analysis using evidence accumulation clustering
Choong et al. Predicting judging-perceiving of Myers-Briggs Type Indicator (MBTI) in online social forum
CN106575503A (zh) 用于对话理解系统的会话上下文建模
CN104471568A (zh) 对自然语言问题的基于学习的处理
CN110321469A (zh) 在电子文档的文本中嵌入媒体内容项
CN112329824A (zh) 多模型融合训练方法、文本分类方法以及装置
CN111538816B (zh) 基于ai识别的问答方法、装置、电子设备及介质
CN108960574A (zh) 问答的质量确定方法、装置、服务器和存储介质
US20090248514A1 (en) System and method for detecting the sensitivity of web page content for serving advertisements in online advertising
Ball et al. Fake or real? The computational detection of online deceptive text
Qayyum et al. FRD-LSTM: a novel technique for fake reviews detection using DCWR with the Bi-LSTM method
CN115878752A (zh) 文本情感的分析方法、装置、设备、介质及程序产品
Siddiqui et al. Quality Prediction of Wearable Apps in the Google Play Store.
CN107665442A (zh) 获取目标用户的方法及装置
KR102462336B1 (ko) 머신 러닝을 이용한 댓글 판별 서버 및 그를 이용한 가짜 댓글 판별 방법
US20240028952A1 (en) Apparatus for attribute path generation
Vo et al. Adremover: the improved machine learning approach for blocking ads
Alshehri An Online Fake Review Detection Approach Using Famous Machine Learning Algorithms.
CN111563276A (zh) 一种网页篡改检测方法、检测系统及相关设备

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant