KR102435035B1 - 가짜 뉴스 동영상 탐지 시스템 및 그의 방법 - Google Patents

가짜 뉴스 동영상 탐지 시스템 및 그의 방법 Download PDF

Info

Publication number
KR102435035B1
KR102435035B1 KR1020210022638A KR20210022638A KR102435035B1 KR 102435035 B1 KR102435035 B1 KR 102435035B1 KR 1020210022638 A KR1020210022638 A KR 1020210022638A KR 20210022638 A KR20210022638 A KR 20210022638A KR 102435035 B1 KR102435035 B1 KR 102435035B1
Authority
KR
South Korea
Prior art keywords
video
vector
image
comment
information
Prior art date
Application number
KR1020210022638A
Other languages
English (en)
Inventor
고영중
최혜원
Original Assignee
성균관대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 성균관대학교산학협력단 filed Critical 성균관대학교산학협력단
Priority to KR1020210022638A priority Critical patent/KR102435035B1/ko
Application granted granted Critical
Publication of KR102435035B1 publication Critical patent/KR102435035B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4782Web browsing, e.g. WebTV
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8166Monomedia components thereof involving executable data, e.g. software
    • H04N21/8173End-user applications, e.g. Web browser, game
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer

Abstract

본 발명의 일실시예에 따른 가짜 뉴스 동영상 탐지 시스템은 통신 모듈; 상기 통신 모듈을 통해 웹 브라우저에 표시되는 동영상에서 상기 동영상의 댓글, 상기 동영상에 대한 동영상 정보를 수집하고, 상기 동영상의 댓글에 기초하여 댓글 벡터를 생성하고, 상기 동영상 정보에 기초하여 영상 벡터를 생성하는 프로세서; 및 상기 동영상의 댓글, 상기 동영상 정보를 저장하는 메모리;를 포함하고, 상기 프로세서는, 생성된 상기 영상 벡터를 1차 학습하고, 1차 학습된 학습 벡터와 상기 댓글 벡터를 선형결합하여 2차 학습하고, 2차 학습에 기초하여 최종 벡터를 도출하고, 도출된 상기 최종 벡터를 다층 퍼셉트론에 적용하여 상기 동영상에 대한 진위 여부를 결정하는 것을 포함할 수 있다.

Description

가짜 뉴스 동영상 탐지 시스템 및 그의 방법{The Fake News Video Detection System and Method thereby}
본 발명은 가짜 뉴스 동영상 탐지 시스템 및 그의 방법에 관한 것이다.
세계 신문 협회는 최근 가장 주목해야 할 저널리즘 이슈로 ‘가짜 뉴스(fake news)의 확산’을 선정하였다. 국내외적으로 가짜 뉴스의 영향력이 상당히 커지고 있다.
내외신 종합에 따르면, 가짜 뉴스는 상업적 또는 정치적인 의도성을 가지고 전통적인 뉴스 매체 혹은 소셜 미디어를 통해 전파되는 거짓 정보(hoax) 또는 의도적 잘못된 정보나 가짜 뉴스를 사설 정보지 형태가 아닌, 기성 언론사 뉴스 형태를 그대로 모방해 실제 언론 보도인 양 허위로 유포되는 정보로 정의할 수 있다.
최근 소셜미디어의 영향력이 커지면서 가짜 뉴스의 심각성이 더욱 커지고 있다. 2016년 미국 대선 당시 페이스북을 통해 가짜 뉴스들이 확산되면서 선거 여론에 상당한 영향력을 미쳤다. 일례로 인터넷, SNS으로 유통된 가짜 뉴스가 도널드 트럼프 당선에 기여했다는 비판 여론이 높아지자 미국 페이스북과 구글의 최고경영자들이 가짜 뉴스와의 전쟁을 선포하였다.
미국의 인터넷 뉴스 매체 버즈피드(BuzzFeed)의 분석에 따르면 전통미디어보다 페이스북의 영향력이 크다고 발표하였으며, 페이스북을 통해 유통된 상위 50개 뉴스 중 23개가 미국 정치 관련 이슈이며, 이에 따라 정치관련 가짜 뉴스 공유 및 댓글 수는 1,060만 건으로 전체 2,150만 건의 49.3%를 차지하였다.
가짜 뉴스는 미국 이외에도 전세계적으로 확산되고 있는 가운데, 국내에서도 크게 이슈화될 가능성이 크다. 국내에서도 사설 정보지, 낚시 뉴스 등이 개인, 기업 등에 경제적, 정신적 피해를 끼치는 등 이미 사회적으로 문제가 되고 있는 상황이다. 국내에도 최근 언론 조정에 대한 청구 건수가 증가하고 있는 가운데 침해 유형별로는
명예 훼손 비중이 가장 크다. 연간 언론 조정신청 건수를 보면 1990년에 159건에 불과 했으나, 2015년 5227건으로 약 33배 증가하였으며, 특히, 2014년에는 세월호 사건이 터지면서 이들 관련 뉴스에 대한 언론 조정 건수가 급격히 증가하였다. 언론 조정 청구건수를 누적으로 보면, 명예훼손 비중이 95%에 이르면서 대부분을 차지하였다.
더욱이 향후 정치적으로 중요한 이벤트들이 예정되어 있는 가운데, 가짜 뉴스의 확산은 많은 혼란을 야기할 수 있다는 우려가 확대되고 있다. 2017년 3월 15일 중앙선거관리위원회가 발표한 보도 자료에 따르면, 허위사실공표 또는 후보자 등 비방 등의 내용이 담긴 약 4,662건의 기사를 삭제 요청했다고 밝혔다.
이와 같이 가짜 뉴스 또는 가짜 뉴스 동영상은 잘못된 여론 형성, 개개인의 의사 결정의 혼동, 민주주의 사회의 붕괴 등 부정적인 영향을 초래할 가능성이 매우 크다.
가짜 뉴스 또는 가짜 뉴스 동영상이 무서운 점은 확산이 빠르고 확산이 되는 동안 지속적으로 피해가 발생되며, 검증된 결과가 나오더라도 이미 퍼진 상태에서는 바로잡기가 힘들다는 것이다.
또한, 가짜 뉴스는 그 자체로도 해당하는 인물 또는 회사에 막대한 피해를 주며 사회의 분열을 조장하여 막대한 사회적 비용을 초래한다.
게다가, 가짜 뉴스인지 여부를 확인하는 과정이 대부분 사람의 힘으로 진행되어 팩트를 확인하는 과정에서 소요되는 인적, 물적 비용이 막대한 문제점이 있었다.
공개특허공보 제10-2020-0045700호
본 발명은 상기와 같은 문제점을 해결하기 위해 안출된 것으로, 동영상 특성에 맞게 특징들을 효과적으로 인코딩할 수 있고, 동영상의 모든 프레임을 분석할 필요 없이 미리보기 이미지를 활용하여 동영상 요약본을 만들어 가짜 뉴스 동영상을 빠르고 효과적으로 탐지할 수 있는 가짜 뉴스 동영상 탐지 시스템 및 그의 방법을 제공하는데 그 목적이 있다.
본 발명에서 이루고자 하는 기술적 목적들은 이상에서 언급한 사항들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 이하 설명할 본 발명의 실시예들로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 고려될 수 있다.
이하에서는 본 발명의 실시예들로서 가짜 뉴스 동영상 탐지 시스템 및 그의 방법에 대해서 설명한다.
본 발명의 실시예들로서 가짜 뉴스 동영상 탐지 시스템은 통신 모듈; 상기 통신 모듈을 통해 웹 브라우저에 표시되는 동영상에서 상기 동영상의 댓글, 상기 동영상에 대한 동영상 정보를 수집하고, 상기 동영상의 댓글에 기초하여 댓글 벡터를 생성하고, 상기 동영상 정보에 기초하여 영상 벡터를 생성하는 프로세서; 상기 동영상의 댓글, 상기 동영상 정보를 저장하는 메모리;를 포함하고, 상기 프로세서는, 상기 동영상 정보를 학습하여 동영상 특징을 추출하고, 추출된 상기 동영상 특징에 기초하여 상기 영상 벡터를 생성하고, 상기 영상 벡터에 상기 댓글 벡터를 선형결합하여 최종 벡터를 도출하고, 도출된 상기 최종 벡터를 다층 퍼셉트론(perceptron)에 적용하여 상기 동영상에 대한 진위 여부를 결정하는 것을 포함한다.
또한, 상기 프로세서는, 상기 동영상의 댓글에서 언어학적 정보를 포함하는 제1 벡터를 추출하는 것을 포함할 수 있다.
또한, 상기 프로세서는, 도메인 지식을 활용하여 제2 벡터를 추출하고, 상기 제1 벡터와 상기 제2 벡터를 병합하여 상기 동영상의 댓글 정보를 포함하는 상기 댓글 벡터를 생성하는 것을 포함할 수 있다.
또한, 상기 영상 벡터는 제1 영상 벡터와 제2 영상 벡터를 포함하고, 상기 제1 영상 벡터는, 상기 동영상에서 동영상의 제목과 설명에 대한 주제 정보를 포함하고, 상기 제2 영상 벡터는, 상기 동영상에서 동영상의 썸네일과 상기 동영상의 프레임 이미지에 대한 시각적 정보를 포함하는 것을 포함할 수 있다.
또한, 상기 프로세서는, 추출된 상기 동영상 특징에 기초하여 상기 제1 영상 벡터와 상기 제2 영상 벡터를 각각 생성하고, 생성된 상기 제1 영상 벡터와 상기 제2 영상 벡터에 상기 댓글 벡터를 선형결합하여 상기 최종 벡터를 도출하는 것을 포함할 수 있다.
또한, 상기 프로세서는, 상기 동영상의 썸네일과 상기 동영상의 프레임 간의 유사도를 산출하고, 산출된 상기 동영상의 프레임 간의 유사도에 기초하여 동영상의 요약본을 생성하는 것을 포함할 수 있다.
또한, 상기 프로세서는, 상기 동영상의 요약본에 기초하여 상기 동영상에 대한 상기 시각적 정보를 포함하는 상기 제2 영상 벡터를 생성하는 것을 포함할 수 있다.
또한, 상기 프로세서는, 동영상에서 동영상의 특징을 추출하고, 추출된 동영상의 특징에 기초하여 서로 다른 가중치를 생성하는 것을 포함할 수 있다.
또한, 상기 프로세서는, 상기 동영상의 특징에 기초하여 상기 댓글 벡터, 상기 제1 영상 벡터, 상기 제2 영상 벡터 각각에 서로 다른 가중치를 부여하는 것을 포함할 수 있다.
또한, 본 발명의 일실시 예에 따른 프로세서를 포함하는 가짜 뉴스 동영상 탐지 시스템의 방법은 웹 브라우저에 표시되는 동영상에서 상기 동영상의 댓글, 상기 동영상에 대한 동영상 정보를 수집하는 단계; 상기 동영상의 댓글에 기초하여 댓글 벡터와 상기 동영상 정보에 기초하여 영상 벡터를 생성하는 단계; 상기 영상 벡터와 상기 댓글 벡터를 선형결합하여 최종 벡터를 도출하는 단계; 및 도출된 상기 최종 벡터를 다층 퍼셉트론에 적용하여 상기 동영상에 대한 진위여부를 결정하는 단계;를 포함한다.
또한, 상기 댓글 벡터와 상기 영상 벡터를 생성하는 단계는, 상기 동영상의 댓글에서 언어학적 정보를 포함하는 제1 벡터를 추출하는 것을 포함할 수 있다.
또한, 상기 댓글 벡터와 상기 영상 벡터를 생성하는 단계는, 도메인 지식을 활용하여 제2 벡터를 추출하고, 상기 제1 벡터와 상기 제2 벡터를 병합하여 상기 동영상의 댓글 정보를 포함하는 상기 댓글 벡터를 생성하는 것을 포함할 수 있다.
또한, 상기 영상 벡터는 제1 영상 벡터와 제2 영상 벡터를 포함하고, 상기 제1 영상 벡터는, 상기 동영상에서 동영상의 제목과 설명에 대한 주제 정보를 포함하고, 상기 제2 영상 벡터는, 상기 동영상에서 동영상의 썸네일과 상기 동영상의 프레임 이미지에 대한 시각적 정보를 포함할 수 있다.
또한, 상기 댓글 벡터와 상기 영상 벡터를 생성하는 단계는, 상기 동영상 정보를 학습하여 동영상 특징을 추출하는 단계;와 추출된 상기 동영상 특징에 기초하여 상기 제1 영상 벡터와 상기 제2 영상 벡터를 각각 생성하는 단계;를 포함할 수 있다.
또한, 상기 댓글 벡터와 상기 영상 벡터를 생성하는 단계는, 상기 동영상의 썸네일과 상기 동영상의 프레임 간의 유사도를 산출하는 단계;와 산출된 상기 동영상의 프레임 간의 유사도에 기초하여 동영상의 요약본을 생성하는 것을 포함할 수 있다.
또한, 상기 댓글 벡터와 상기 영상 벡터를 생성하는 단계는, 상기 동영상의 요약본에 기초하여 상기 동영상에 대한 상기 시각적 정보를 포함하는 상기 제2 영상 벡터를 생성하는 것을 포함할 수 있다.
또한, 상기 최종 벡터를 도출하는 단계는, 동영상에서 동영상의 특징을 추출하고, 추출된 동영상의 특징에 기초하여 서로 다른 가중치를 생성하는 것을 포함할 수 있다.
또한, 상기 최종 벡터를 도출하는 단계는, 상기 동영상의 특징에 기초하여 상기 댓글 벡터, 상기 제1 영상 벡터와 상기 제2 영상 벡터 각각에 서로 다른 가중치를 부여하는 것을 포함할 수 있다.
상술한 본 발명의 양태들은 본 발명의 바람직한 실시예들 중 일부에 불과하며, 본원 발명의 기술적 특징들이 반영된 다양한 실시예들이 당해 기술분야의 통상적인 지식을 가진 자에 의해 이하 상술할 본 발명의 상세한 설명을 기반으로 도출되고 이해될 수 있다.
본 발명의 실시예들에 따르면 다음과 같은 효과를 얻을 수 있다.
본 발명은 유튜브에 존재하는 다양한 종류의 가짜 동영상을 도메인 지식과 멀티 모달 모델을 활용하여 효과적으로 탐지할 수 있다.
또한, 본 발명은 도메인 지식을 활용하여 학습데이터에 의존되어 학습이 이루어지는 것을 방지하고, 동영상 특성에 맞게 특징들을 효과적으로 인코딩할 수 있다.
또한, 본 발명은 동영상의 모든 프레임을 분석할 필요 없이 동영상 미리보기 이미지를 활용하여 동영상 요약본을 만들어 가짜 뉴스 동영상을 빠르고 효과적으로 탐지할 수 있다.
본 발명의 실시예들에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 이하의 본 발명의 실시예들에 대한 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 도출되고 이해될 수 있다. 즉, 본 발명을 실시함에 따른 의도하지 않은 효과들 역시 본 발명의 실시예들로부터 당해 기술분야의 통상의 지식을 가진 자에 의해 도출될 수 있다.
본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되고, 첨부된 도면들은 본 발명에 대한 다양한 실시예들을 제공한다. 또한, 첨부된 도면들은 상세한 설명과 함께 본 발명의 실시 형태들을 설명하기 위해 사용된다.
도 1은 본 발명의 가짜 뉴스 동영상 탐지 시스템에 대한 구성을 설명하기 위한 도이다.
도 2는 본 발명의 일실시 예에 따른 프로세서에 대한 구성을 설명하기 위한 도이다.
도 3은 본 발명의 일실시예에 따른 가짜 뉴스 동영상 탐지 시스템의 방법을 설명하기 위한 도이다.
도 4는 본 발명의 일실시예에 따른 가짜 뉴스 동영상 탐지 시스템에 대한 흐름을 설명하기 위한 도이다.
이하에서는 본 발명의 실시예들로서 가짜 뉴스 동영상 탐지 시스템 및 그의 방법에 대해서 설명한다.
이하의 실시예들은 본 발명의 구성요소들과 특징들을 소정 형태로 결합한 것들이다. 각 구성요소 또는 특징은 별도의 명시적 언급이 없는 한 선택적인 것으로 고려될 수 있다. 각 구성요소 또는 특징은 다른 구성요소나 특징과 결합되지 않은 형태로 실시될 수 있다. 또한, 일부 구성요소들 및/또는 특징들을 결합하여 본 발명의 실시예를 구성할 수도 있다. 본 발명의 실시예들에서 설명되는 동작들의 순서는 변경될 수 있다. 어느 실시예의 일부 구성이나 특징은 다른 실시예에 포함될 수 있고, 또는 다른 실시예의 대응하는 구성 또는 특징과 교체될 수 있다.
도면에 대한 설명에서, 본 발명의 요지를 흐릴 수 있는 부분, 장치 및/또는 구성 등은 기술하지 않았으며, 당업자의 수준에서 이해할 수 있을 정도의 부분, 장치 및/또는 구성 또한 기술하지 아니하였다. 또한, 도면에서 동일한 도면 부호를 사용하여 지칭하는 부분은 장치 구성 또는 방법에서 동일한 구성 요소 또는 단계를 의미한다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함(comprising 또는 including)"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "??부" 또는 "??기" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미한다. 또한, "일(a 또는 an)", "하나(one)", "그(the)" 및 유사 관련어는 본 발명을 기술하는 문맥에 있어서(특히, 이하의 청구항의 문맥에서) 본 명세서에 달리 지시되거나 문맥에 의해 분명하게 반박되지 않는 한, 단수 및 복수 모두를 포함하는 의미로 사용될 수 있다.
또한, 본 발명의 실시예들에서 사용되는 특정(特定) 용어들 및/또는 기호들은 본 발명의 이해를 돕기 위해서 제공된 것이며, 이러한 특정 용어의 사용은 본 발명의 기술적 사상을 벗어나지 않는 범위에서 다른 형태로 변경될 수 있다.
도 1은 본 발명의 일실시 예에 따른 가짜 뉴스 동영상 탐지 시스템에 대한 구성을 설명하기 위한 도이다. 도 2는 본 발명의 일실시 예에 따른 프로세서에 대한 구성을 설명하기 위한 도이다.
도 1을 살펴보면, 본 발명의 일실시예에 따른 가짜 뉴스 동영상 탐지 시스템(100)은 프로세서(110), 메모리(130) 및 통신 모듈(150)을 포함할 수 있다.
프로세서(110)는 하나 이상의 어플리케이션 프로세서(application processor, AP) 또는 적어도 하나 이상의 AI 프로세서(artificial intelligence processor)를 포함할 수 있다. 어플리케이션 프로세서 또는 AI 프로세서는 서로 다른 IC(integrated circuit) 패키지들 내에 각각 포함되거나 하나의 IC 패키지 내에 포함될 수 있다.
프로세서(110)는 운영체제 또는 응용 프로그램을 구동하여 프로세서(110)에 연결된 다수의 하드웨어 또는 소프트웨어 구성요소들을 제어하고, 멀티미디어 데이터를 포함한 각종 데이터 처리/연산을 수행할 수 있다. 일 예로, 프로세서(110)는 SoC(system on chip)로 구현될 수 있다. 프로세서(110)는 GPU(graphic prcessing unit)를 더 포함할 수 있다.
프로세서(110)는 각각에 연결된 비휘발성 메모리 또는 다른 구성요소 중 적어도 하나로부터 수신한 명령 또는 데이터를 휘발성 메모리에 로드(load)하여 처리할 수 있다. 또한, 프로세서(110)는 다른 구성요소 중 적어도 하나로부터 수신하거나 다른 구성요소 중 적어도 하나에 의해 생성된 데이터를 비휘발성 메모리에 저장할 수 있다. 프로세서(110)는 어플리케이션 프로세서라 칭할 수 있다.
예를 들어, 프로세서(110)는 통신 모듈을 통해 웹 브라우저(Web Browser, 10)에 표시되는 동영상을 기반으로 동영상의 댓글, 동영상의 정보를 수집하고, 동영상의 댓글에 기초하여 댓글 벡터를 생성하고, 동영상의 정보에 기초하여 영상 벡터를 생성하도록 제어할 수 있다.
동영상의 정보는 동영상의 제목과 설명, 동영상의 썸네일 그리고 동영상 프레임 이미지를 포함할 수 있다. 영상 벡터는 제1 영상 벡터 및 제2 영상 벡터를 포함할 수 있다. 제1 영상 벡터는 동영상의 제목과 설명에 기초한 벡터일 수 있다. 제1 영상 벡터는 주제 벡터라 칭할 수 있다. 제2 영상 벡터는 동영상의 썸네일 또는 동영상 프레임 이미지에 대한 시각적 정보를 포함하는 벡터일 수 있다. 제2 영상 벡터는 시각 벡터라 칭할 수 있다.
프로세서(110)는 도출된 최종 벡터를 다층 퍼셉트론에 적용하여 동영상에 대한 진위 여부를 결정할 수 있다. 프로세서(110)는 기능 선택 기법을 사용하여 학습 세트에서 특정 언어 및 다양한 언어의 기능을 자동으로 추출함으로써, 다양한 언어로 동영상의 진위 여부를 결정할 수 있다.
메모리(130)는 동영상의 댓글, 동영상의 정보를 저장할 수 있다. 메모리(130)는 내장 메모리 또는 외장 메모리를 포함할 수 있다. 내장 메모리는 휘발성 메모리(예를 들면, DRAM(dynamic RAM), SRAM(static RAM), SDRAM(synchronous dynamic RAM) 등) 또는 비휘발성 메모리 비휘발성 메모리(예를 들면, OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, NAND flash memory, NOR flash memory 등) 중 적어도 하나를 포함할 수 있다. 일례에 따르면, 내장 메모리는 SSD(solid state drive)의 형태를 취할 수도 있다. 외장 메모리는 플래시 드라이브(flash drive), 예를 들면, CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), xD(extreme digital) 또는 메모리 스틱(memory stick) 등을 포함할 수 있다.
통신 모듈(150)은 무선 통신 모듈 또는 RF 모듈를 포함할 수 있다. 무선 통신 모듈은, 예를 들면, Wi-Fi, BT, GPS 또는 NFC를 포함할 수 있다. 예를 들면, 무선 통신 모듈은 무선 주파수를 이용하여 무선 통신 기능을 제공할 수 있다. 추가적으로 또는 대체적으로, 무선 통신 모듈은 사용자 디바이스(100)를 네트워크(예: Internet, LAN, WAN, telecommunication network, cellular network, satellite network, POTS 또는 5G network 등)와 연결시키기 위한 네트워크 인터페이스 또는 모뎀 등을 포함할 수 있다.
RF 모듈은 데이터의 송수신, 예를 들면, RF 신호 또는 호출된 전자 신호의 송수신을 담당할 수 있다. 일 예로, RF 모듈은 트랜시버(transceiver), PAM(power amp module), 주파수 필터(frequency filter) 또는 LNA(low noise amplifier) 등을 포함할 수 있다. 또한, RF 모듈은 무선 통신에서 자유공간상의 전자파를 송수신하기 위한 부품, 예를 들면, 도체 또는 도선 등을 포함할 수 있다.
도 2를 참조하면, 프로세서(110)는 데이터 학습부(111a), 데이터 전처리부(111b), 데이터 선택부(111c) 및 모델 평가부(111d) 등을 포함할 수 있다.
프로세서(110)는 메모리(130)에 저장된 프로그램을 이용하여 신경망을 학습할 수 있다. 특히, 프로세서(110)는 동영상 정보를 학습하여 동영상 특징을 추출하고, 추출된 동영상 특징에 기초하여 영상 벡터를 생성하고, 영상 벡터에 댓글 벡터를 선형결합하여 최종 벡터를 도출하기 위한 신경망을 학습할 수 있다. 여기서, 신경망은 인간의 뇌 구조(예를 들어, 인간의 신경망의 뉴런 구조)를 컴퓨터 상에서 모의하도록 설계될 수 있다. 신경망은 입력층(input layer), 출력층(output layer) 및 적어도 하나의 은닉층(hidden layer)를 포함할 수 있다. 각 층은 가중치를 갖는 적어도 하나의 뉴런을 포함하고, 신경망은 뉴런과 뉴런을 연결하는 시냅스(synapse)를 포함할 수 있다. 신경망에서 각 뉴런은 시냅스를 통해 입력되는 입력 신호를 가중치(weight) 및/또는 편향(bias)에 대한 활성함수(activation function)의 함수값으로 출력할 수 있다.
복수의 네트워크 모드들은 뉴런이 시냅스를 통해 신호를 주고받는 뉴런의 시냅틱 활동을 모의하도록 각각 연결 관계에 따라 데이터를 주고받을 수 있다. 여기서 신경망은 신경망 모델에서 발전한 딥러닝 모델을 포함할 수 있다. 딥러닝 모델에서 복수의 네트워크 노드들은 서로 다른 레이어에 위치하면서 콘볼루션(convolution) 연결 관계에 따라 데이터를 주고받을 수 있다. 신경망 모델의 예는 심층 신경망(deep neural network, DNN), 합성곱 신경망(convolutional neural network, CNN), 순환 신경망(recurrent neural network), 제한 볼츠만 머신(restricted Boltzmann machine), 심층 신뢰 신경망(deep belief network), 심층 Q-네트워크(deep Q-Network)와 같은 다양한 딥러닝 기법들을 포함하며, 비전인식, 음성인식, 자연어처리, 음성/신호처리 등의 분야에서 적용될 수 있다.
한편, 상술한 바와 같은 기능을 수행하는 프로세서(110)는 범용 프로세서(예를 들어, CPU)일 수 있으나, 인공지능 학습을 위한 AI 전용 프로세서(예를 들어, GPU)일 수 있다.
메모리(130)는 가짜 뉴스 동영상 탐지 시스템의 동작에 필요한 각종 프로그램 및 데이터를 저장할 수 있다. 메모리(130)는 동영상의 댓글, 동영상의 정보를 비롯하여 댓글 벡터, 영상 벡터 등을 저장할 수 있다. 메모리(130)는 프로세서(110)에 의해 액세스되며, 프로세서(110)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 또한, 메모리(130)는 본 명세서의 일 실시예에 따른 데이터 분류/인식을 위한 학습 알고리즘을 통해 생성된 신경망 모델(예를 들어, 딥러닝 모델)을 저장할 수 있다. 나아가, 메모리(130)는 학습 모델뿐만 아니라, 입력 데이터, 학습 데이터, 학습 히스토리 등을 저장할 수도 있다.
한편, 프로세서(110)는 데이터 분류/인식을 위한 신경망을 학습하는 데이터 학습부(111a)를 포함할 수 있다. 데이터 학습부(111a)는 데이터 분류/인식을 판단하기 위하여 어떤 학습 데이터를 이용할지, 학습 데이터를 이용하여 데이터를 어떻게 분류하고 인식할지에 관한 기준을 학습할 수 있다. 데이터 학습부(111a)는 학습에 이용될 학습 데이터를 획득하고, 획득된 학습데이터를 딥러닝 모델에 적용함으로써, 딥러닝 모델을 학습할 수 있다.
데이터 학습부(111a)는 적어도 하나의 하드웨어 칩 형태로 제작되어 가짜 뉴스 동영상 탐지 시스템에 탑재될 수 있다. 일 예로, 데이터 학습부(111a)는 인공지능을 위한 전용 하드웨어 칩 형태로 제작될 수 있고, 범용 프로세서(CPU) 또는 그래픽 전용 프로세서(GPU)의 일부로 제작되어 가짜 뉴스 동영상 탐지 시스템에 탑재될 수 있다. 또한, 데이터 학습부(111a)는 소프트웨어 모듈로 구현될 수도 있다. 소프트웨어 모듈(또는 인스트럭션(instruction)을 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록 매체(non-transitory computer readable media)에 저장될 수 있다. 이 경우에 적어도 하나의 소프트웨어 모듈은 OS(operating system)에 제공되거나, 애플리케이션에 의해 제공될 수 있다.
데이터 학습부(111a)는 획득된 학습 데이터를 이용하여, 신경망 모델이 소정의 데이터를 어떻게 분류/인식할지에 관한 판단기준을 가지도록 학습할 수 있다. 이때, 데이터 학습부(111a)에 의한 학습 방식은 지도 학습(supervised learning), 비지도 학습(unsupervised learning), 강화 학습(reinforcement learning)으로 분류될 수 있다. 여기서, 지도 학습은 학습 데이터에 대한 레이블(label)이 주어진 상태에서 인공 신경망을 학습시키는 방법을 지칭하며, 레이블이란 학습 데이터가 인공 신경망에 입력되는 경우 인공 신경망이 추론해야 하는 정답(또는 결과 값)을 의미할 수 있다. 비지도 학습은 학습 데이터에 대한 레이블이 주어지지 않는 상태에서 인공 신경망을 학습시키는 방법을 의미할 수 있다. 강화 학습은 특정 환경 안에서 정의된 에이전트(agent)가 각 상태에서 누적 보상을 최대화하는 행동 혹은 행동 순서를 선택하도록 학습시키는 방법을 의미할 수 있다. 또한, 데이터 학습부(111a)는 오류 역전파법(backpropagation) 또는 경사 하강법(gradient decent)을 포함하는 학습 알고리즘을 이용하여 신경망 모델을 학습시킬 수 있다. 신경망 모델이 학습되면 학습된 신경망 모델은 학습 모델(131)이라 호칭할 수 있다. 학습 모델(131)은 메모리(130)에 저장되어 학습 데이터가 아닌 새로운 입력 데이터에 대한 결과를 추론하는 데 사용될 수 있다.
한편, 프로세서(110)는 학습 모델(131)을 이용한 분석 결과를 향상시키거나, 학습 모델(131)의 생성에 필요한 리소스 또는 시간을 절약하기 위하여 데이터 전처리부(111b) 및/또는 데이터 선택부(111c)를 더 포함할 수도 있다.
데이터 전처리부(111b)는 획득된 데이터가 상황 판단을 위한 학습/추론에 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 일 예로, 데이터 전처리부(111b)는 입력 장치를 통해 획득된 입력 데이터에 대하여 전처리로서 특징 정보(feature information)을 추출할 수 있으며, 특징 정보는 특징 벡터(feature vector), 특징 점(feature point) 또는 특징 맵(feature map) 등의 포맷으로 추출될 수 있다.
데이터 선택부(111c)는 데이터 학습부(111a) 또는 데이터 전처리부(111b)에서 전처리된 학습 데이터 중 학습에 필요한 데이터를 선택할 수 있다. 선택된 학습 데이터는 학습 모델에 제공될 수 있다. 일 예로, 데이터 선택부(111c)는 프로세서(110)의 제어 하에 동영상 정보를 학습하여 동영상 특징을 추출하고, 추출된 동영상 특징에 기초하여 영상 벡터를 생성하고, 영상 벡터에 댓글 벡터를 선형결합하여 최종 벡터를 도출할 수 있다. 즉, 데이터 선택부(111c)는 프로세서(110)의 제어 하에 추출된 동영상 특징에 기초하여 제1 영상 벡터와 제2 영상 벡터를 각각 생성하고, 생성된 제1 영상 벡터와 제2 영상 벡터에 댓글 벡터를 선형결합하여 최종 벡터를 도출함으로써, 도출된 최종 벡터에 대한 데이터만을 학습 데이터로 선택할 수 있다. 또한, 데이터 선택부(111c)는 입력 장치를 통해 획득된 입력 데이터 또는 전처리부에서 전처리된 입력 데이터 중 추론에 필요한 데이터를 선택할 수도 있다.
또한, 프로세서(110)는 신경망 모델의 분석 결과를 향상시키기 위하여 모델 평가부(111d)를 더 포함할 수 있다. 모델 평가부(111d)는, 신경망 모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 분석 결과가 소정 기준을 만족하지 못하는 경우, 데이터 학습부(111a)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 학습 모델을 평가하기 위한 기 설정된 데이터일 수 있다. 일 예로, 모델 평가부(111d)는 평가 데이터에 대한 학습된 신경망 모델의 분석 결과 중, 분석 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정된 임계치를 초과하는 경우에 소정 기준을 만족하지 못한 것으로 평가할 수 있다.
도 3은 본 발명의 일실시예에 따른 가짜 뉴스 동영상 탐지 시스템의 방법을 설명하기 위한 도이다.
도 3을 살펴보면, 본 발명의 일실시 예에 따른 가짜 뉴스 동영상 탐지 시스템의 방법은 가짜 뉴스 동영상 탐지 시스템에 구비되는 프로세서(110)의 제어 하에 동작할 수 있다.
프로세서(110)는, 동영상 정보를 학습하여 동영상 특징을 추출하고, 추출된 동영상 특징에 기초하여 영상 벡터를 생성하고, 영상 벡터에 댓글 벡터를 선형결합하여 최종 벡터를 도출할 수 있다. 즉, 프로세서는 추출된 동영상 특징에 기초하여 제1 영상 벡터와 제2 영상 벡터를 각각 생성하고, 생성된 제1 영상 벡터와 제2 영상 벡터에 댓글 벡터를 선형결합하여 최종 벡터를 도출할 수 있다. 프로세서는 도출된 최종 벡터를 다층 퍼셉트론을 활용하여 동영상의 진위 여부를 결정할 수 있다.
프로세서(110)는 동영상의 댓글에서 언어학적 정보를 포함하는 제1 벡터를 추출할 수 있다. 프로세서(110)는 도메인 지식을 활용하여 제2 벡터를 추출하고, 제1 벡터와 제2 벡터를 병합하여 동영상의 댓글에 대한 정보를 포함하는 댓글 벡터를 생성할 수 있다. 이에 대한 자세한 설명은 후술하기로 한다.
프로세서(110)는 동영상의 제목과 설명, 동영상의 썸네일 그리고 동영상 프레임 이미지를 포함하는 동영상의 정보에 기초하여 영상 벡터를 생성할 수 있다. 영상 벡터는 제1 영상 벡터와 제2 영상 벡터를 포함할 수 있다. 프로세서(110)는 동영상의 제목과 설명에서 소재 또는 주제를 산출하고, 산출된 소재 또는 주제에 기초하여 주제 정보를 생성하고, 이를 포함하는 제1 영상 벡터를 포함할 수 있다.
프로세서(110)는 동영상의 미리보기 이미지와 동영상의 프레임 간의 유사도를 산출하고, 산출된 동영상의 프레임 간의 유사도에 기초하여 동영상의 요약본을 생성할 수 있다. 즉, 프로세서(110)는 동영상의 요약본에 기초하여 시각적 정보를 포함하는 제2 영상 벡터를 생성할 수 있다.
또한, 프로세서(110)는 동영상에서 동영상의 특징을 추출하고, 추출된 동영상의 특징에 기초하여 서로 다른 가중치를 생성할 수 있다. 예를 들어, 프로세서(100)는 동영상의 특징에 기초하여 제1 영상 벡터와 제2 영상 벡터에 서로 다른 가중치를 부여할 수 있다.
상술한 본 발명은 프로세서의 제어 하에 가짜 뉴스 동영상 탐지 시스템에 대한 동작은 다음과 같다.
먼저, 웹 브라우저에 표시되는 동영상에서 상기 동영상의 댓글, 상기 동영상에 대한 동영상 정보를 수집하는 단계를 포함할 수 있다.
이후, 동영상의 댓글에 기초하여 댓글 벡터와 동영상 정보에 기초하여 영상 벡터를 생성하는 단계를 포함할 수 있다. 댓글 벡터와 영상 벡터를 생성하는 단계는 동영상의 썸네일과 동영상의 프레임 간의 유사도를 산출하고, 산출된 동영상의 프레임 간의 유사도에 기초하여 동영상의 요약본을 생성할 수 있다.
댓글 벡터는 제1 벡터와 제2 벡터를 포함할 수 있다. 제1 벡터는 동영상의 댓글에서 언어학적 정보를 포함할 수 있다. 제2 벡터는 도메인 지식을 활용한 정보를 포함할 수 있다. 프로세서는 제1 벡터와 제2 벡터를 병합하여 동영상의 댓글 정보를 포함하는 댓글 벡터를 생성할 수 있다.
영상 벡터는 제1 영상 벡터와 제2 영상 벡터를 포함할 수 있다. 제1 영상 벡터는 동영상에서 동영상의 제목과 설명에 대한 주제 정보를 포함할 수 있다. 제2 영상 벡터는 동영상에서 동영상의 썸네일과 동영상의 프레임 이미지에 대한 시각적 정보를 포함할 수 있다. 예를 들어, 제2 영상 벡터는 동영상의 요약본에 기초하여 동영상에 대한 시각적 정보를 포함할 수 있다.
여기서 영상 벡터는 동영상 정보를 학습하여 동영상 특징을 추출하는 단계와 추출된 동영상 특징에 기초하여 제1 영상 벡터와 제2 영상 벡터를 각각 생성하는 단계를 통해 생성될 수 있다.
이후, 영상 벡터와 댓글 벡터를 결합하여 최종 벡터를 도출하는 단계를 포함할 수 있다. 최종 벡터를 도출하는 단계는 동영상에서 동영상의 특징을 추출하고, 추출된 동영상의 특징에 기초하여 서로 다른 가중치를 생성할 수 있다. 최종 벡터를 도출하는 단계는 동영상의 특징에 기초하여 댓글 벡터, 제1 영상 벡터, 제2 영상 벡터 각각에 서로 다른 가중치를 부여할 수 있다. 이에 대한 자세한 설명은 후술하기로 한다.
이후, 도출된 최종 벡터를 다층 퍼셉트론에 적용하여 동영상에 대한 진위여부를 결정하는 단계를 포함할 수 있다.
도 4는 본 발명의 일실시예에 따른 가짜 뉴스 동영상 탐지 시스템에 대한 흐름을 설명하기 위한 도이다.
도 4를 참조하면, 본 발명의 일실시 예에 따른 가짜 뉴스 동영상 탐지 시스템에 대한 흐름은 다음과 같다.
Step 1. Comments Encoding
도 4에 도시된 바와 같이, 본 발명은 프로세서의 제어 하에 코멘트(Comments)를 인코딩하기 위하여, 모든 단어를 Multilingual-BERT를 사용하여 인코딩할 수 있다. 여기서 i번째 인코딩되는 댓글을 Pi로 정의할 수 있다.
이때 본 발명은 프로세서의 제어 하에 동영상의 대표 댓글 임베딩을 댓글의 좋아요 수로 가중치의 합(weighted sum)하여 동영상의 대표 댓글에 대한 임베딩을 생성할 수 있다. 예를 들어, 동영상의 댓글이 N개 있다고 가정하면,
Figure 112021020481013-pat00001
{
Figure 112021020481013-pat00002
}라 할 수 있다. Ci는 댓글 Pi의 "좋아요" 개수이다. 전체 댓글의 "좋아요" 수의 합은 수학식 1과 같이 계산될 수 있다.
[수학식 1]
Figure 112021020481013-pat00003
여기서 N은 인코딩되는 댓글의 수일 수 있다. 수학식 1에서 모든 댓글의 "좋아요" 개수에 1을 더해 준 이유는 "좋아요"가 없는 댓글은 "좋아요"의 수가 0 이기 때문이다.
본 발명은 프로세서의 제어 하에 수학식 1을 통해 CT을 구한 다음, 이를 이용하여 수학식 2와 같이 동영상 댓글 임베딩 Hcommente을 생성할 수 있다.
[수학식 2]
Figure 112021020481013-pat00004
여기서 본 발명은 미리 구축한 domain knowledge를 K라고 정의할 수 있다. K에 포함된 특징 임베딩은 훈련 집합에서 특징이 포함된 문장을 Multilingual-BERT을 거쳐서 나온 특징 임베딩을 평균 임베딩으로 구축할 수 있다. 이후 Hcommente과 K를 사용하여 다음 수학식 3과 같이 attention scores A를 생성할 수 있다.
[수학식 3]
Figure 112021020481013-pat00005
본 발명은 A에서 attention score가 높은 상위 Y개의 특징을 추출할 수 있다. 이때 상위 Y개의 특징을 추출한 집합을
Figure 112021020481013-pat00006
{
Figure 112021020481013-pat00007
}로 정의할 수 있다. 그런 다음, 추출한 특징을 다음 수학식 4 그리고 수학식 5와 같이 weighted sum하여 벡터 Q를 생성할 수 있다.
[수학식 4]
Figure 112021020481013-pat00008
[수학식 5]
Figure 112021020481013-pat00009
Hcommente은 동영상의 댓글 정보를 표현하는 제1 벡터이고, Q는 domain knowledge에서 attention을 사용하여 동영상 댓글의 잠재적인 의미를 추출한 제2 벡터일 수 있다.
최종적인 댓글을 표현하는 임베딩은 Hcommente과 Q를 병합하여 사용할 수 있다. 즉, 상술한 바와 같이, 본 발명은 프로세서의 제어 하에 추출된 제1 벡터와 제2 벡터를 병합하고 최종적인 댓글을 표현할 수 있는 댓글 벡터를 생성할 수 있다.
Step 2. Title/Description Encoding
도 4에 도시된 바와 같이, 본 발명은 프로세서의 제어 하에 동영상의 Title/Description에서 주제 정보를 추출하기 위해 convolutional neural networks (CNN)을 사용할 수 있다. Comments encoding에서 사용했던 방법과 실질적으로 동일하게 Multilingual-BERT를 사용하여 word piece단위로 문장을 분리 또는 잘라낼 수 있다. Title/Description에 존재하는 token을 n개라고 가정하면, 본 발명은 다음 수학식 6과 같이 token들을 구성할 수 있다.
[수학식 6]
Figure 112021020481013-pat00010
여기서 ";" 기호는 병합을 뜻할 수 있다. 일반적으로는
Figure 112021020481013-pat00011
Figure 112021020481013-pat00012
로 표현될 수 있다. CNN 필터는 WCNN로 정의할 수 있다.
Figure 112021020481013-pat00013
는 CNN 필터 사이즈일 수 있다. WCNN을 사용하여
Figure 112021020481013-pat00014
를 생성할 수 있다.
Figure 112021020481013-pat00015
는 수학식 7과 같이 생성할 수 있다.
[수학식 7]
Figure 112021020481013-pat00016
여기서
Figure 112021020481013-pat00017
는 non-linear function일 수 있다. 필터를 전체 n개의 token에 모두 적용하면
Figure 112021020481013-pat00018
는 feature map G로 표현될 수 있다. G는 수학식 8과 같다.
[수학식 8]
Figure 112021020481013-pat00019
Feature map G는 max-over-time pooling 함수를 거쳐 최댓값
Figure 112021020481013-pat00020
를 선택할 수 있다. 이 과정을 필터개수
Figure 112021020481013-pat00021
만큼 반복하여
Figure 112021020481013-pat00022
개의 최댓값을 생성할 수 있다.
마지막으로
Figure 112021020481013-pat00023
개의 최댓값들을 모두 병합하여
Figure 112021020481013-pat00024
으로 인코딩할 수 있다.
Figure 112021020481013-pat00025
은 동영상의 주제 정보를 포함하는 특징 벡터인 제1 영상 벡터일 수 있다.
Step 3. Video Encoding
도 4에 도시된 바와 같이, 본 발명은 프로세서의 제어 하에 동영상의 미리보기 이미지와 동영상 프레임 일부를 인코딩시켜 동영상 요약본을 만들 수 있다. 예를 들어, 동영상은 유튜브 일 수 있다. 동영상의 미리보기 이미지는 동영상의 썸네일이라 칭할 수 있다.
동영상 요약본을 인코딩하는 이유는 기존의 동영상 인코딩하는 방법보다 빠르고, 효과적으로 인코딩을 수행할 수 있기 때문이다. 본 발명은 동영상의 미리보기 이미지의 시각적인 특징을 효율적으로 추출하기 위해 사전 훈련된 VGG-19 모델을 사용할 수 있다.
VGG-19 네트워크의 마지막 레이어 위에 fully connected layer를 추가하여 최종 시각적 특징 표현을 생성할 수 있다.
또한, 본 발명에서 학습 과정에서 사전 훈련된 VGG-19 신경망의 매개변수는 과적합을 방지하기 위해 정적으로 유지할 수 있다. 사전 훈련된 VGG-19로 얻은 동영상 미리보기 이미지의 시각적 특징 표현을 Vthumbnail으로 정의할 수 있다.
동영상을 1FPS로 동영상 프레임 이미지들을 추출할 수 있다. 추출한 이미지는 미리보기 이미지와 동일하게 사전 학습된 VGG-19를 사용하여 시각적 특징을 얻을 수 있다.
사전 훈련된 VGG-19로 얻은 동영상 프레임 이미지들의 시각적 특징 표현을 Vframes으로 정의할 수 있다.
이후 코사인유사도를 통해서 Vthumbnail과 가장 유사한 J 개의 프레임들을 추출할 수 있다. 코사인유사도는 수학식 9와 같이 계산할 수 있다.
[수학식 9]
Figure 112021020481013-pat00026
Vthumbnail과 가장 유사한 J 개의 프레임들을 추출한 L 집합에 Vthumbnail을 추가할 수 있다. L 집합에 Vthumbnail을 추가한 이유는 동영상 미리보기 이미지는 대부분이 동영상 속 하나의 프레임으로 설정되지만, 일부 동영상은 사용자들의 관심을 끌기 위해 동영상에 존재하지 않은 프레임을 제작자들이 미리보기 이미지로 설정할 수 있다. 수학식 9에서 추출한 집합을
Figure 112021020481013-pat00027
{
Figure 112021020481013-pat00028
}로 정의할 수 있다. Vthumbnail과 L를 사용하여 attention scores을 다음 수학식 10과 같이 생성할 수 있다.
[수학식 10]
Figure 112021020481013-pat00029
attention scores D는 {
Figure 112021020481013-pat00030
}로 정의할 수 있다. 그런 다음 수학식 11과 수학식 12와 같이 weighted sum하여 벡터 V를 생성할 수 있다.
[수학식 11]
Figure 112021020481013-pat00031
[수학식 12]
Figure 112021020481013-pat00032
V는 동영상의 미리보기 이미지와 동영상의 일부 프레임을 활용하여 동영상의 시각적 정보를 포함하는 표현하는 벡터인 제2 영상 벡터일 수 있다.
Step 4. Linear combination Encoding
도 4에 도시된 바와 같이, 상술한 바와 같이, 본 발명은 프로세서의 제어 하에 동영상 특성마다 세 가지 특징을 활용할 수 있는 가중치를 포함할 수 있다. 가중치는 동영상 특성마다 다를 수 있다.
본 발명에서는 동영상 특징마다 서로 다른 가중치를 부여하여 인코딩할 수 있다.
먼저, 본 발명은 프로세서의 제어 하에 동영상의 제목과 설명(Title/Description)에서 주제 정보를 포함하는
Figure 112021020481013-pat00033
을 MLP를 거쳐 R로 만들 수 있다. 즉, 본 발명은 제1 영상 벡터를 추출할 수 있다.
[수학식 13]
Figure 112021020481013-pat00034
그런 다음 R과 동영상의 시각적 정보를 표현하는 V인 제2 영상 벡터를 병합한 후 을 사용하여 가중치
Figure 112021020481013-pat00035
을 구할 수 있다.
Figure 112021020481013-pat00036
은 다음과 같이 계산할 수 있다.
[수학식 14]
Figure 112021020481013-pat00037
sigmoid-function을 거쳐 나온
Figure 112021020481013-pat00038
을 다음과 같이 linear combination 연산을 수행할 수 있다.
[수학식 15]
Figure 112021020481013-pat00039
Figure 112021020481013-pat00040
는 동영상의 시각적 정보를 포함하는 특징과 Title/Description의 주제 정보가 포함된 벡터인 영상 벡터일 수 있다. 그런 다음
Figure 112021020481013-pat00041
와 동영상의 comments 정보를 포함하는
Figure 112021020481013-pat00042
를 병합한 후
Figure 112021020481013-pat00043
을 사용하여 가중치
Figure 112021020481013-pat00044
를 구할 수 있다.
[수학식 16]
Figure 112021020481013-pat00045
수학식 16과 마찬가지로 sigmoid function을 거쳐 나온
Figure 112021020481013-pat00046
을 다음과 같이 linear combination 연산을 수행할 수 있다.
[수학식 17]
Figure 112021020481013-pat00047
Figure 112021020481013-pat00048
는 동영상에 댓글, 제목/설명, 동영상의 시각적 정보를 포함할 수 있다. 따라서 세 가지 특징 별 인코딩 비율은 다음 수학식 18과 같다.
[수학식 18]
Figure 112021020481013-pat00049
마지막으로, 본 발명은 프로세서의 제어 하에
Figure 112021020481013-pat00050
를 다층 퍼셉트론(MLP(Multi-Layer Perceptron) layer)에 적용하여 동영상의 진위 여부를 결정할 수 있다.
상술한 본 발명의 실시예들은 본 발명의 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있다. 따라서, 상술한 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다. 또한, 특허청구범위에서 명시적인 인용 관계가 있지 않은 청구항들을 결합하여 실시예를 구성하거나 출원 후의 보정에 의해 새로운 청구항으로 포함할 수 있다.

Claims (18)

  1. 통신 모듈;
    상기 통신 모듈을 통해 웹 브라우저에 표시되는 동영상에서 상기 동영상의 댓글, 상기 동영상에 대한 동영상 정보를 수집하고,
    상기 동영상의 댓글에 기초하여 댓글 벡터를 생성하고, 상기 동영상 정보에 기초하여 영상 벡터를 생성하는 프로세서;
    상기 동영상의 댓글, 상기 동영상 정보를 저장하는 메모리;를 포함하고,
    상기 프로세서는,
    상기 동영상 정보를 학습하여 동영상 특징을 추출하고, 추출된 상기 동영상 특징에 기초하여 상기 영상 벡터를 생성하고, 상기 영상 벡터에 상기 댓글 벡터를 선형결합하여 최종 벡터를 도출하고, 도출된 상기 최종 벡터를 다층 퍼셉트론(perceptron)에 적용하여 상기 동영상에 대한 진위 여부를 결정하고,
    상기 영상 벡터는 제1 영상 벡터와 제2 영상 벡터를 포함하고,
    상기 제1 영상 벡터는, 상기 동영상에서 동영상의 제목과 설명에 대한 주제 정보를 포함하고,
    상기 제2 영상 벡터는, 상기 동영상에서 동영상의 썸네일과 상기 동영상의 프레임 이미지들에 대한 시각적 정보를 포함하고,
    상기 제2 영상 벡터의 생성에 있어서,
    상기 동영상의 썸네일 및 상기 동영상의 프레임 이미지들의 시각적 특징을 컨볼루션 신경망을 통해 추출하고,
    상기 동영상 썸네일의 시각적 특징에 대한 상기 동영상 프레임 이미지들의 시각적 특징 각각의 유사도를 산출하고,
    상기 산출된 유사도에 기초하여 상기 제2 영상 벡터의 생성에 사용할 동영상 프레임 이미지들을 결정하고,
    상기 결정된 동영상 프레임 이미지들의 시각적 특징 및 상기 동영상 썸네일의 시각적 특징을 기반으로 상기 제2 영상 벡터가 생성되고,
    상기 시각적 특징 추출을 위해 사용되는 상기 동영상의 프레임 이미지들은 상기 동영상의 요약 프레임 이미지들인 것을 특징으로 하는 가짜 뉴스 동영상 탐지 시스템.
  2. 제1 항에 있어서,
    상기 프로세서는,
    상기 동영상의 댓글에서 언어학적 정보를 포함하는 제1 벡터를 추출하는 것을 특징으로 하는 가짜 뉴스 동영상 탐지 시스템.
  3. 제2 항에 있어서,
    상기 프로세서는,
    도메인 지식을 활용하여 제2 벡터를 추출하고,
    상기 제1 벡터와 상기 제2 벡터를 병합하여 상기 동영상의 댓글 정보를 포함하는 상기 댓글 벡터를 생성하는 것을 특징으로 하는 가짜 뉴스 동영상 탐지 시스템.
  4. 삭제
  5. 제1 항에 있어서,
    상기 프로세서는,
    추출된 상기 동영상 특징에 기초하여 상기 제1 영상 벡터와 상기 제2 영상 벡터를 각각 생성하고, 생성된 상기 제1 영상 벡터와 상기 제2 영상 벡터에 상기 댓글 벡터를 선형결합하여 상기 최종 벡터를 도출하는 것을 특징으로 하는 가짜 뉴스 동영상 탐지 시스템.
  6. 삭제
  7. 삭제
  8. 제5 항에 있어서,
    상기 프로세서는,
    상기 동영상에서 상기 동영상의 특징을 추출하고, 추출된 상기 동영상의 특징에 기초하여 서로 다른 가중치를 생성하는 것을 특징으로 하는 가짜 뉴스 동영상 탐지 시스템.
  9. 제8 항에 있어서,
    상기 프로세서는,
    상기 동영상의 특징에 기초하여 상기 댓글 벡터, 상기 제1 영상 벡터, 상기 제2 영상 벡터 각각에 서로 다른 가중치를 부여하는 것을 특징으로 하는 가짜 뉴스 동영상 탐지 시스템.
  10. 프로세서를 포함하는 가짜 뉴스 동영상 탐지 시스템의 방법에 있어서,
    웹 브라우저에 표시되는 동영상에서 상기 동영상의 댓글, 상기 동영상에 대한 동영상 정보를 수집하는 단계;
    상기 동영상의 댓글에 기초하여 댓글 벡터를 생성하고, 상기 동영상 정보에 기초하여 영상 벡터를 생성하는 단계;
    상기 영상 벡터와 상기 댓글 벡터를 선형결합하여 최종 벡터를 도출하는 단계; 및
    도출된 상기 최종 벡터를 다층 퍼셉트론에 적용하여 상기 동영상에 대한 진위여부를 결정하는 단계;
    를 포함하고,
    상기 영상 벡터는 제1 영상 벡터와 제2 영상 벡터를 포함하고,
    상기 제1 영상 벡터는, 상기 동영상에서 동영상의 제목과 설명에 대한 주제 정보를 포함하고,
    상기 제2 영상 벡터는, 상기 동영상에서 동영상의 썸네일과 상기 동영상의 프레임 이미지들에 대한 시각적 정보를 포함하고,
    상기 제2 영상 벡터의 생성에 있어서,
    상기 동영상의 썸네일 및 상기 동영상의 프레임 이미지들의 시각적 특징을 컨볼루션 신경망을 통해 추출하고,
    상기 동영상 썸네일의 시각적 특징에 대한 상기 동영상 프레임 이미지들의 시각적 특징 각각의 유사도를 산출하고,
    상기 산출된 유사도에 기초하여 상기 제2 영상 벡터의 생성에 사용할 동영상 프레임 이미지들을 결정하고,
    상기 결정된 동영상 프레임 이미지들의 시각적 특징 및 상기 동영상 썸네일의 시각적 특징을 기반으로 상기 제2 영상 벡터가 생성되고,
    상기 시각적 특징 추출을 위해 사용되는 상기 동영상의 프레임 이미지들은 상기 동영상의 요약 프레임 이미지들인 것을 특징으로 하는 가짜 뉴스 동영상 탐지 시스템의 방법.
  11. 제10 항에 있어서,
    상기 댓글 벡터와 상기 영상 벡터를 생성하는 단계는,
    상기 동영상의 댓글에서 언어학적 정보를 포함하는 제1 벡터를 추출하는 것을 특징으로 하는 가짜 뉴스 동영상 탐지 시스템의 방법.
  12. 제11 항에 있어서,
    상기 댓글 벡터와 상기 영상 벡터를 생성하는 단계는,
    도메인 지식을 활용하여 제2 벡터를 추출하고,
    상기 제1 벡터와 상기 제2 벡터를 병합하여 상기 동영상의 댓글 정보를 포함하는 상기 댓글 벡터를 생성하는 것을 특징으로 하는 가짜 뉴스 동영상 탐지 시스템의 방법.
  13. 삭제
  14. 제10 항에 있어서,
    상기 댓글 벡터와 상기 영상 벡터를 생성하는 단계는,
    상기 동영상 정보를 학습하여 동영상 특징을 추출하는 단계;와
    추출된 상기 동영상 특징에 기초하여 상기 제1 영상 벡터와 상기 제2 영상 벡터를 각각 생성하는 단계;를 포함하는 것을 특징으로 하는 가짜 뉴스 동영상 탐지 시스템의 방법.
  15. 삭제
  16. 삭제
  17. 제14 항에 있어서,
    상기 최종 벡터를 도출하는 단계는,
    상기 동영상에서 상기 동영상의 특징을 추출하고, 추출된 상기 동영상의 특징에 기초하여 서로 다른 가중치를 생성하는 것을 특징으로 하는 가짜 뉴스 동영상 탐지 시스템의 방법.
  18. 제17 항에 있어서,
    상기 최종 벡터를 도출하는 단계는,
    상기 동영상의 특징에 기초하여 상기 댓글 벡터, 상기 제1 영상 벡터, 상기 제2 영상 벡터 각각에 서로 다른 가중치를 부여하는 것을 특징으로 하는 가짜 뉴스 동영상 탐지 시스템의 방법.
KR1020210022638A 2021-02-19 2021-02-19 가짜 뉴스 동영상 탐지 시스템 및 그의 방법 KR102435035B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210022638A KR102435035B1 (ko) 2021-02-19 2021-02-19 가짜 뉴스 동영상 탐지 시스템 및 그의 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210022638A KR102435035B1 (ko) 2021-02-19 2021-02-19 가짜 뉴스 동영상 탐지 시스템 및 그의 방법

Publications (1)

Publication Number Publication Date
KR102435035B1 true KR102435035B1 (ko) 2022-08-22

Family

ID=83103150

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210022638A KR102435035B1 (ko) 2021-02-19 2021-02-19 가짜 뉴스 동영상 탐지 시스템 및 그의 방법

Country Status (1)

Country Link
KR (1) KR102435035B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170098139A (ko) * 2016-02-19 2017-08-29 삼성전자주식회사 영상 요약 장치 및 방법
JP2019511036A (ja) * 2016-02-09 2019-04-18 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 複数レイヤの単語表現にわたる言語特徴生成のためのシステム及び方法
KR20200045700A (ko) 2018-10-23 2020-05-06 요타코퍼레이션(주) 이미지 기반 가짜 뉴스 검출 시스템
KR20200080417A (ko) * 2018-12-19 2020-07-07 서울과학기술대학교 산학협력단 채팅 데이터와 오디오 데이터를 이용한 하이라이트 영상 생성 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019511036A (ja) * 2016-02-09 2019-04-18 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 複数レイヤの単語表現にわたる言語特徴生成のためのシステム及び方法
KR20170098139A (ko) * 2016-02-19 2017-08-29 삼성전자주식회사 영상 요약 장치 및 방법
KR20200045700A (ko) 2018-10-23 2020-05-06 요타코퍼레이션(주) 이미지 기반 가짜 뉴스 검출 시스템
KR20200080417A (ko) * 2018-12-19 2020-07-07 서울과학기술대학교 산학협력단 채팅 데이터와 오디오 데이터를 이용한 하이라이트 영상 생성 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
the field gloss call extrinsic 1 people" and the false news detection research through the combination of ' image and ***: 2020 Korea management information academy autumn science contest around the U-tube" 231-235 page" and (2020.12. 17.) one copy. *
장윤호 외 1명, ‘영상과 텍스트 정보의 결합을 통한 가짜뉴스 탐지 연구: 유튜브를 중심으로’, 2020 한국경영정보학회 추계학술대회, 페이지 231-235, (2020.12.17.) 1부*

Similar Documents

Publication Publication Date Title
CN110263324B (zh) 文本处理方法、模型训练方法和装置
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
CN110866140B (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
US20170177972A1 (en) Method for analysing media content
CN112734775B (zh) 图像标注、图像语义分割、模型训练方法及装置
CN111444873A (zh) 视频中人物真伪的检测方法、装置、电子设备及存储介质
EP3769270A1 (en) A method, an apparatus and a computer program product for an interpretable neural network representation
CN110968689A (zh) 罪名及法条预测模型的训练方法以及罪名及法条预测方法
CN111783457A (zh) 一种基于多模态图卷积网络的语义视觉定位方法及装置
CN114282013A (zh) 一种数据处理方法、装置及存储介质
CN113052090A (zh) 用于生成字幕器以及输出字幕的方法和装置
CN113657272B (zh) 一种基于缺失数据补全的微视频分类方法及系统
CN116152938A (zh) 身份识别模型训练和电子资源转移方法、装置及设备
US11630950B2 (en) Prediction of media success from plot summaries using machine learning model
CN109101984B (zh) 一种基于卷积神经网络的图像识别方法及装置
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
KR102435035B1 (ko) 가짜 뉴스 동영상 탐지 시스템 및 그의 방법
CN115731620A (zh) 检测对抗攻击的方法和训练对抗攻击检测模型的方法
CN115761839A (zh) 人脸活体检测模型的训练方法、人脸活体检测方法及装置
CN117011737A (zh) 一种视频分类方法、装置、电子设备和存储介质
KR102348689B1 (ko) 감정점수를 활용한 시퀀스-투-시퀀스 기반의 텍스트 요약
CN111599363B (zh) 一种语音识别的方法及其装置
CN113761282A (zh) 视频查重方法、装置、电子设备以及存储介质
CN113822291A (zh) 一种图像处理方法、装置、设备及存储介质
EP3401843A1 (en) A method, an apparatus and a computer program product for modifying media content

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant