KR102539684B1 - Advertisement Removal Method and Adapter Appratus Using Deep Network, and Maching Learning Method for it - Google Patents

Advertisement Removal Method and Adapter Appratus Using Deep Network, and Maching Learning Method for it Download PDF

Info

Publication number
KR102539684B1
KR102539684B1 KR1020200171818A KR20200171818A KR102539684B1 KR 102539684 B1 KR102539684 B1 KR 102539684B1 KR 1020200171818 A KR1020200171818 A KR 1020200171818A KR 20200171818 A KR20200171818 A KR 20200171818A KR 102539684 B1 KR102539684 B1 KR 102539684B1
Authority
KR
South Korea
Prior art keywords
frame
deep network
pixel
mask frame
adapter device
Prior art date
Application number
KR1020200171818A
Other languages
Korean (ko)
Other versions
KR20220082189A (en
Inventor
강상욱
강창희
강진우
Original Assignee
상명대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 상명대학교산학협력단 filed Critical 상명대학교산학협력단
Priority to KR1020200171818A priority Critical patent/KR102539684B1/en
Publication of KR20220082189A publication Critical patent/KR20220082189A/en
Application granted granted Critical
Publication of KR102539684B1 publication Critical patent/KR102539684B1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4318Generation of visual interfaces for content selection or interaction; Content or additional data rendering by altering the content in the rendering process, e.g. blanking, blurring or masking an image region
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/436Interfacing a local distribution network, e.g. communicating with another STB or one or more peripheral devices inside the home
    • H04N21/4363Adapting the video stream to a specific local network, e.g. a Bluetooth® network
    • H04N21/43632Adapting the video stream to a specific local network, e.g. a Bluetooth® network involving a wired protocol, e.g. IEEE 1394
    • H04N21/43635HDMI

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Neurology (AREA)
  • Image Analysis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

본 발명에 따른 딥 네트워크를 활용한 광고제거 어댑터 장치는, 사전에 수행된 머신 러닝의 결과가 탑재되며, 입력되는 동영상 신호의 각 프레임에 대하여 픽셀 단위로 블록킹 여부를 나타내는 정보가 구성되는 마스크 프레임을 실시간 생성하는 딥 네트워크 모듈(10); 상기 딥 네트워크 모듈(10)이 출력하는 마스크 프레임을 이용하여, 입력되는 동영상 신호의 각 프레임에 대하여 픽셀 단위로 블록킹을 실시간 수행하는 픽셀단위 블록킹 모듈(20);를 포함하여, 동영상에 포함된 광고영역 부분을 선택적으로 제거하는 것을 특징으로 한다.The ad removal adapter device using the deep network according to the present invention is loaded with the result of machine learning performed in advance, and for each frame of the input video signal, a mask frame consisting of information indicating whether or not blocking is configured in units of pixels A deep network module 10 generating in real time; A pixel-unit blocking module 20 that performs blocking in real-time on a pixel-by-pixel basis for each frame of the input video signal using the mask frame output by the deep network module 10; It is characterized in that the area portion is selectively removed.

Figure R1020200171818
Figure R1020200171818

Description

딥 네트워크를 활용한 광고제거 방법, 어댑터 장치 및 이를 위한 머신 러닝 방법{Advertisement Removal Method and Adapter Appratus Using Deep Network, and Maching Learning Method for it}Ad removal method using deep network, adapter device and machine learning method for it

본 발명은 동영상에 포함된 광고영역 부분을 선택적으로 제거할 수 있는, 딥 네트워크를 활용한 광고제거 어댑터 장치와 광고제거 어댑터 장치에서 실행되는 광고제거 방법, 그리고 광고제거 어댑터 장치를 위한 머신 러닝 방법에 관한 것이다.The present invention relates to an ad removal adapter device using a deep network capable of selectively removing a portion of an ad area included in a video, an ad removal method executed in the ad removal adapter device, and a machine learning method for the ad removal adapter device. it's about

ITU(국제전기통신연합)발표에 따르면 2019년 말 전세계 인구의 인터넷 보급률은 계속 증가하여 50%를 넘어섰다고 추정한다. 이에 따라 인터넷 플랫폼의 활용도 또한 증가하여 웹사이트의 가치 창출은 계속 늘어나고 있으며, 그 중 인터넷 상에서 무료로 제공되는 것의 대부분은 온라인 광고를 통해 수익을 창출한다.According to the ITU (International Telecommunication Union), it is estimated that at the end of 2019, the Internet penetration rate of the world population continued to increase, exceeding 50%. As a result, the use of internet platforms also increases, and the value creation of websites continues to increase, and most of the things provided free of charge on the internet generate revenue through online advertising.

이러한 웹사이트의 광고는 그 자체와 지원인프라의 측면에서 악성광고를 유발하거나, 사용자에게 콘텐츠의 주의를 분산시켜 방해가 되는 문제점이 있다. 기존의 연구들은 전자의 문제점을 해결할 방법에 초점을 두어 URL및 DOM을 통한 광고차단기 기술을 발전시켰는데, 이러한 접근은 유용하지만 웹사이트의 페이지 코드 및 데이터가 난독화되어 있는 경우 실패의 가능성도 내포하고 있으며 URL 리스트에 없는 광고나 새롭게 만들어지는 광고에 취약하다. 이에 광고차단의 대안적인 접근 방식으로서 “시각적 단서”에 의존한 컴퓨터 비전을 이용한 기술과, 딥 네트워크를 활용한 방법들이 개발되고 있다.Advertisements on these websites have a problem in that they cause malicious advertisements in terms of themselves and support infrastructure, or distract users from content. Existing studies have focused on ways to solve the former problem and developed ad blocker technology through URL and DOM. This approach is useful, but it also has the possibility of failure if the page code and data of the website are obfuscated. It is vulnerable to advertisements that are not in the URL list or newly created advertisements. Therefore, as an alternative approach to ad blocking, technologies using computer vision that rely on “visual cues” and methods using deep networks are being developed.

딥 네트워크를 활용한 한 방법에서는 웹 브라우저의 이미지 렌더링 파이프라인에 내장된 딥 네트워크 기반의 광고 차단기를 가진다. 이는 페이지 실행단계에서 포함된 이미지 데이터를 가로챈 후 광고를 분류해내며, 즉 브라우저 기반에서 작동하도록 만들어 배포되는 프로그램이다. 딥 네트워크를 활용한 다른 방법에서는 세부적인 부분의 청크로 웹페이지를 분할한 후 각 청크에서 AdChoices Logo들을 이용한 detection을 통해 광고여부를 결정한다. 이러한 방법들은 오브젝트 디텍션을 활용한 기술로서, 특정광고의 로고, 위치 및 플랫폼을 기준으로 학습하므로, 가변적이거나 변질된 광고에 취약한 단점이 있다. 또한, 이러한 방법들은 브라우저 의존적인 특성을 가지며, 유투브 컨텐츠와 같이 브라우저를 통하여 디스플레이되는 동영상 컨텐츠에 포함된 광고의 차단에는 취약하다. 아울러, 브라우저를 이용하지 않는 컨텐츠, 예를 들면 IPTV 또는 셋탑박스 등으로부터의 동영상 컨텐츠에 포함된 광고에 대해서는 차단할 수 없는 문제가 있다.One way to utilize the deep network is to have a deep network-based ad blocker built into the web browser's image rendering pipeline. This is a program that intercepts image data included in the page execution stage and classifies advertisements, that is, makes it work on a browser basis and is distributed. In another method using a deep network, after dividing a webpage into detailed chunks, advertisements are determined through detection using AdChoices Logos in each chunk. These methods are technologies using object detection, and since they learn based on the logo, location, and platform of a specific advertisement, they are vulnerable to variable or altered advertisements. In addition, these methods have browser-dependent characteristics and are vulnerable to blocking of advertisements included in video content displayed through a browser, such as YouTube content. In addition, there is a problem in that content that does not use a browser, for example, advertisements included in video content from an IPTV or a set-top box cannot be blocked.

이상 종래 기술의 문제점 및 과제에 대하여 설명하였으나, 이러한 문제점 및 과제에 대한 인식은 본 발명의 기술 분야에서 통상의 지식을 가진 자에게 자명한 것은 아니다.Although the problems and problems of the prior art have been described above, recognition of these problems and problems is not obvious to those skilled in the art.

본 발명의 목적은 가변적이거나 변질된 광고에도 효과적으로 대응할 수 있는 딥 네트워크를 활용한 광고제거 방법, 어댑터 장치 및 이를 위한 머신 러닝 방법을 제공하기 위한 것이다.An object of the present invention is to provide an advertisement removal method using a deep network, an adapter device, and a machine learning method therefor, which can effectively respond to variable or altered advertisements.

또한 본 발명의 다른 목적은 브라우저 의존적이지 않으며 임의의 동영상 컨텐츠에 포함된 광고를 차단할 수 있는 광고제거 방법, 어댑터 장치 및 이를 위한 머신 러닝 방법을 제공하기 위한 것이다.Another object of the present invention is to provide a method for removing advertisements that is not browser-dependent and can block advertisements included in arbitrary video content, an adapter device, and a machine learning method for the same.

본 발명의 일 양상에 따른 딥 네트워크를 활용한 광고제거 어댑터 장치는, 사전에 수행된 머신 러닝의 결과가 탑재되며, 입력되는 동영상 신호의 각 프레임에 대하여 픽셀 단위로 블록킹 여부를 나타내는 정보가 구성되는 마스크 프레임을 실시간 생성하는 딥 네트워크 모듈(10); 상기 딥 네트워크 모듈(10)이 출력하는 마스크 프레임을 이용하여, 입력되는 동영상 신호의 각 프레임에 대하여 픽셀 단위로 블록킹을 실시간 수행하는 픽셀단위 블록킹 모듈(20);를 포함하여, 동영상에 포함된 광고영역 부분을 선택적으로 제거하는 것을 특징으로 한다.An ad removal adapter device using a deep network according to an aspect of the present invention is loaded with a result of machine learning performed in advance, and information indicating whether or not blocking is configured in units of pixels for each frame of an input video signal a deep network module 10 generating a mask frame in real time; A pixel-unit blocking module 20 that performs blocking in real-time on a pixel-by-pixel basis for each frame of the input video signal using the mask frame output by the deep network module 10; It is characterized in that the area portion is selectively removed.

상기한 딥 네트워크를 활용한 광고제거 어댑터 장치에 있어서, 모니터 또는 TV의 HDMI 입력단자에 물리적으로 결합하는 것을 특징으로 한다.In the ad removal adapter device using the deep network described above, it is characterized in that it is physically coupled to the HDMI input terminal of a monitor or TV.

상기한 딥 네트워크를 활용한 광고제거 어댑터 장치에 있어서, 동영상 소스 장치로부터 HDMI 신호를 입력받아서 상기 딥 네트워크 모듈(10) 및 픽셀단위 블록킹 모듈(20)로 제공하는 HDMI 입력포트(30); 상기 픽셀단위 블록킹 모듈(20)로부터 광고영역 부분이 선택적으로 제거된 동영상 신호를 제공받아, 상기한 모니터 또는 TV의 HDMI 입력단자로 출력하는 HDMI 출력포트(40);를 더 포함할 수 있다.In the ad removal adapter device using the deep network, the HDMI input port 30 receives an HDMI signal from a video source device and provides it to the deep network module 10 and the pixel unit blocking module 20; It may further include an HDMI output port 40 that receives a video signal from which the advertisement area portion is selectively removed from the pixel unit blocking module 20 and outputs the video signal to the HDMI input terminal of the monitor or TV.

상기한 딥 네트워크를 활용한 광고제거 어댑터 장치에 있어서, 상기 픽셀단위 블록킹 모듈(20)은, 상기 마스크 프레임의 비트값과 동영상 프레임의 픽셀값에 대해 pixel-wise multiplication을 수행할 수 있다.In the ad removal adapter device using the deep network, the pixel unit blocking module 20 may perform pixel-wise multiplication on the bit value of the mask frame and the pixel value of the video frame.

상기한 딥 네트워크를 활용한 광고제거 어댑터 장치에 있어서, 상기 마스크 프레임의 비트값은 0 또는 1 이며, 상기 딥 네트워크 모듈(10)은, 프레임에서 광고영역의 픽셀인 경우 상기 마스크 프레임의 비트값을 0 으로 출력하고 프레임에서 비광고영역의 픽셀인 경우 상기 마스크 프레임의 비트값을 1로 출력할 수 있다.In the advertisement removal adapter device using the deep network, the bit value of the mask frame is 0 or 1, and the deep network module 10 sets the bit value of the mask frame when it is a pixel of the advertisement area in the frame. If it is output as 0 and it is a pixel in a non-advertising area in the frame, the bit value of the mask frame may be output as 1.

상기한 딥 네트워크를 활용한 광고제거 어댑터 장치에 있어서, 상기 딥 네트워크 모듈(10)은, 입력되는 동영상 신호의 프레임 사이즈를 미리 정해진 사이즈로 down-sampling하는 전처리부(12);를 포함할 수 있다.In the ad removal adapter device using the deep network, the deep network module 10 may include a pre-processing unit 12 that down-samples the frame size of an input video signal to a predetermined size. .

상기한 딥 네트워크를 활용한 광고제거 어댑터 장치에 있어서, 상기 딥 네트워크 모듈(10)은, 상기 전처리부(12)에서 down-sampling된 프레임에 대하여 픽셀 단위로 블록킹 여부를 나타내는 정보가 포함된 다운사이즈 마스크 프레임을 구성하는 코어부(11); 및 상기 다운사이즈 마스크 프레임을 up sampling함으로써 상기 픽셀단위 블록킹 모듈(20)이 이용할 마스크 프레임을 생성하는 후처리부(13);를 더 포함할 수 있다.In the ad removal adapter device using the deep network, the deep network module 10 includes down-size information indicating whether blocking is performed in units of pixels for frames down-sampled by the pre-processing unit 12. a core part 11 constituting the mask frame; and a post-processing unit 13 generating a mask frame to be used by the pixel-wise blocking module 20 by up-sampling the down-size mask frame.

상기한 딥 네트워크를 활용한 광고제거 어댑터 장치에 있어서, 상기 딥 네트워크 모듈(10)은 네트워크 모델로서 U-Net를 사용하는 것을 특징으로 한다.In the ad removal adapter device using the deep network, the deep network module 10 is characterized by using U-Net as a network model.

본 발명의 일 양상에 따른 광고제거 어댑터 장치를 위한 머신 러닝 방법은, 입력되는 동영상 신호의 각 프레임에 대하여 픽셀 단위로 블록킹 여부를 나타내는 정보가 구성되는 마스크 프레임을 실시간 생성하는 딥 네트워크 모듈을 포함하여 구성되며 동영상에 포함된 광고영역 부분을 선택적으로 제거하는 광고제거 어댑터 장치를 위한 머신 러닝 방법으로서, 웹사이트를 캡처한 트레인 이미지와, 상기 트레인 이미지의 광고영역 부분을 제 1 색상으로 처리하고 나머지 부분을 제 2 색상으로 처리한 레이블 이미지로 구성되는 데이터 쌍을 다수 개 포함하는 데이터 세트를 준비하는 데이터 세트 준비 단계; 상기 준비된 데이터 세트에 대하여 U-Net 네트워크 모델을 사용하여 학습하는 네트워크 학습 단계;를 포함하여 구성되며, 상기 네트워크 학습 단계의 결과를 상기 딥 네트워크 모듈에 반영하는 것을 특징으로 한다.A machine learning method for an ad removal adapter device according to an aspect of the present invention includes a deep network module for generating in real time a mask frame comprising information indicating whether or not blocking is performed in units of pixels for each frame of an input video signal. A machine learning method for an ad removal adapter device configured and selectively removing a portion of an advertisement area included in a video, wherein a train image of a website is captured, and a portion of the advertisement area of the train image is processed with a first color and the remaining portion A data set preparation step of preparing a data set including a plurality of data pairs consisting of label images processed with a second color; A network learning step of learning the prepared data set using a U-Net network model; characterized in that the result of the network learning step is reflected in the deep network module.

상기한 광고제거 어댑터 장치를 위한 머신 러닝 방법에 있어서, 상기 딥 네트워크 모듈은 AI 프로세서 또는 FPGA로 구현되는 것을 특징으로 한다.In the machine learning method for the ad removal adapter device described above, the deep network module is implemented with an AI processor or an FPGA.

상기한 광고제거 어댑터 장치를 위한 머신 러닝 방법에 있어서, 상기 데이터 세트 준비 단계는, 캡처한 모든 웹사이트 이미지에 대하여 정해진 단일 사이즈로 down-sampling 하는 전처리 과정을 포함하여 구성되는 것을 특징으로 한다.In the above machine learning method for the ad removal adapter device, the data set preparation step is characterized in that it comprises a pre-processing process of down-sampling all captured website images to a single predetermined size.

상기한 광고제거 어댑터 장치를 위한 머신 러닝 방법에 있어서, 상기 네트워크 학습 단계의 U-Net 네트워크는, Expanding Path 및 Contracting Path를 구비하고 convolution 3X3, ReLu, max pooling 2X2, up-convoluntion 2X2, convolution 1x1 및 copy & crop을 포함한다.In the machine learning method for the ad removal adapter device described above, the U-Net network in the network learning step has an expanding path and a contracting path, and convolution 3X3, ReLu, max pooling 2X2, up-convolution 2X2, convolution 1x1 and Include copy & crop.

상기한 광고제거 어댑터 장치를 위한 머신 러닝 방법에 있어서, 상기 U-Net 네트워크의 출력값은 픽셀별로 0 이상 1 이하인 임의의 값을 가지며, 상기 U-Net 네트워크의 출력값에 대하여 0.5인 Threshold를 가지는 activation functon을 적용하는 것을 특징으로 한다.In the machine learning method for the above ad removal adapter device, the output value of the U-Net network has a random value between 0 and 1 for each pixel, and an activation functon with a threshold of 0.5 for the output value of the U-Net network It is characterized by applying.

상기한 광고제거 어댑터 장치를 위한 머신 러닝 방법에 있어서, 상기 네트워크 학습 단계의 U-Net 네트워크에서는, Xavier initializer, batch nomalization, 0.5의 drop out 비율 및 Adam Optimizer를 사용한 것을 특징으로 한다.The machine learning method for the ad-removing adapter device described above is characterized by using a Xavier initializer, batch normalization, a drop out ratio of 0.5, and an Adam optimizer in the U-Net network in the network learning step.

본 발명의 일 양상에 따른 광고제거 어댑터 장치에서 실행되는 광고제거 방법은, 딥 네트워크를 활용하여 동영상에 포함된 광고영역 부분을 선택적으로 제거하는 광고제거 어댑터 장치에서 실행되는 광고제거 방법으로서, 사전에 수행된 머신 러닝의 결과가 탑재되는 딥 네트워크 모듈(10)을 이용하여, 입력되는 동영상 신호의 각 프레임에 대하여 픽셀 단위로 블록킹 여부를 나타내는 정보가 구성되는 마스크 프레임을 실시간 생성하는 제 1 단계; 상기 제 1 단계에서 생성된 마스크 프레임을 이용하여, 입력되는 동영상 신호의 각 프레임에 대하여 픽셀 단위로 블록킹을 실시간 수행하는 제 2 단계;를 포함하는 것을 특징으로 한다.An advertisement removal method executed in an advertisement removal adapter device according to an aspect of the present invention is an advertisement removal method executed in an advertisement removal adapter device that selectively removes a portion of an advertisement area included in a video by utilizing a deep network. A first step of generating in real time a mask frame comprising information indicating whether or not blocking is performed in units of pixels for each frame of an input video signal by using the deep network module 10 in which the result of the machine learning is loaded; and a second step of performing blocking in real time in units of pixels for each frame of the input video signal using the mask frame generated in the first step.

상기한 광고제거 어댑터 장치에서 실행되는 광고제거 방법에 있어서, 상기 제 1 단계에서, 상기 마스크 프레임의 비트값과 동영상 프레임의 픽셀값에 대해 pixel-wise multiplication을 수행한다.In the advertisement removal method executed by the above advertisement removal adapter device, in the first step, pixel-wise multiplication is performed on the bit value of the mask frame and the pixel value of the video frame.

상기한 광고제거 어댑터 장치에서 실행되는 광고제거 방법에 있어서, 상기 마스크 프레임의 비트값은 0 또는 1 이며, 상기 pixel-wise multiplication에 의해, 프레임에서 광고영역의 픽셀인 경우 상기 마스크 프레임의 비트값을 0 으로 출력하고 프레임에서 비광고영역의 픽셀인 경우 상기 마스크 프레임의 비트값을 1로 출력한다.In the advertisement removal method executed by the advertisement removal adapter device, the bit value of the mask frame is 0 or 1, and the bit value of the mask frame is determined by the pixel-wise multiplication in case of a pixel of the advertisement area in the frame. 0 is output, and the bit value of the mask frame is output as 1 when it is a pixel in a non-advertising area in the frame.

상기한 광고제거 어댑터 장치에서 실행되는 광고제거 방법에 있어서, 상기 제 1 단계에서는, 입력되는 동영상 신호의 프레임 사이즈를 미리 정해진 사이즈로 down-sampling하는 전처리 과정; 상기 전처리 과정에서 down-sampling된 프레임에 대하여 픽셀 단위로 블록킹 여부를 나타내는 정보가 포함된 다운사이즈 마스크 프레임을 구성하는 코어 처리 과정; 및 상기 다운사이즈 마스크 프레임을 up sampling함으로써 상기 제 2 단계에서 이용할 마스크 프레임을 생성하는 후처리 과정을 포함한다.In the advertisement removal method executed by the above advertisement removal adapter device, in the first step, a pre-processing step of down-sampling the frame size of the input video signal to a predetermined size; a core processing step of constructing a down-size mask frame including information indicating whether or not blocking is performed in units of pixels for the frame down-sampled in the pre-processing step; and a post-processing step of generating a mask frame to be used in the second step by up-sampling the down-size mask frame.

본 발명에 따르면 가변적이거나 변질된 광고에도 효과적으로 대응하여 포함된 광고영역 부분을 제거할 수 있는 장점이 있다.According to the present invention, there is an advantage in that a portion of an included advertisement area can be removed by effectively responding to a variable or altered advertisement.

또한, 본 발명에 따르면 브라우저 의존적이지 않으며 임의의 동영상 컨텐츠에 포함된 광고 부분을 차단할 수 있는 장점이 있다.In addition, according to the present invention, there is an advantage in that it is not browser dependent and can block advertisements included in arbitrary video content.

또한, 본 발명에 따르면 임의의 동영상 디스플레이 장치에 대하여 효과적으로 광고부분 차단을 수행토록 구성할 수 있는 장점이 있다.In addition, according to the present invention, there is an advantage in that an arbitrary video display device can be configured to effectively block advertisements.

도 1은 본 발명의 일 실시예에 따른 광고 차단 장치를 위한 머신 러닝 과정의 개요를 도시한 플로우 차트이다.
도 2는 본 발명의 머신 러닝 방법에 따라 수집한 데이터 세트의 (train image, label image) 데이터쌍을 보여주는 것으로서, 도 1(a)는 트레인 이미지이고 도 1(b)는 레이블 이미지이다.
도 3은 본 발명의 일 실시예에 따른 머신 러닝 방법에 따라 변형된 U-Net의 네트워크 모델을 도시한 다이어그램이다.
도 4는 본 발명의 일 실시예에 따른 딥 네트워크를 활용한 광고제거 어댑터 장치를 도시한 블럭도이다.
도 5는 본 발명의 일 실시예에 따른 딥 네트워크를 활용한 광고제거 어댑터 장치의 입력, 마스크 프레임 및 출력의 예를 도시한 것으로서, 도 5(a)는 입력 동영상에서 특정 프레임을 캡처한 것이며, 도 5(b)는 입력 동영상의 특정 프레임에 대응하는 마스크 프레임을 도시한 것이고, 도 5(c)는 입력 동상의 특정 프레임에서 광고영역부분이 제거된 후를 캡처한 것이다.
1 is a flow chart showing an overview of a machine learning process for an advertisement blocking device according to an embodiment of the present invention.
FIG. 2 shows data pairs (train image, label image) of a data set collected according to the machine learning method of the present invention. FIG. 1(a) is a train image and FIG. 1(b) is a label image.
3 is a diagram showing a U-Net network model modified according to a machine learning method according to an embodiment of the present invention.
4 is a block diagram illustrating an advertisement removal adapter device using a deep network according to an embodiment of the present invention.
5 shows an example of input, mask frame, and output of an ad removal adapter device using a deep network according to an embodiment of the present invention, FIG. 5 (a) captures a specific frame from an input video, Fig. 5(b) shows a mask frame corresponding to a specific frame of an input video, and Fig. 5(c) captures a specific frame of an input image after the advertising area is removed.

첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 명칭 및 도면 부호를 사용한다.With reference to the accompanying drawings, embodiments of the present invention will be described in detail so that those skilled in the art can easily carry out the present invention. However, the present invention may be embodied in many different forms and is not limited to the embodiments described herein. In addition, in order to clearly describe the present invention in the drawings, parts irrelevant to the description are omitted, and similar names and reference numerals are used for similar parts throughout the specification.

본 발명에서는 이미지의 특정 영역에서의 regression을 통한 광고 검출 및 제거 기술을 제안하며, 머신 러닝 과정에 대하여 우선 설명한다.In the present invention, a technology for detecting and removing advertisements through regression in a specific region of an image is proposed, and a machine learning process is first described.

도 1은 본 발명의 일 실시예에 따른 광고 차단 장치를 위한 머신 러닝 과정의 개요를 도시한 플로우 차트이다.1 is a flow chart showing an overview of a machine learning process for an advertisement blocking device according to an embodiment of the present invention.

머신 러닝 과정은 크게 3가지 단계를 포함할 수 있는 데, 학습을 위한 데이터 세트를 준비하는 단계(S10), 준비된 데이트 세트를 이용하여 네트워크 학습을 수행하는 단계(S12)와, 네트워크 학습 단계의 결과를 어댑터의 딥 네트워크 모듈에 반영하는 단계(S14)를 포함한다. 데이터 세트 준비 단계(S10)는 데이터를 네트워크에 입력시키기 위한 전처리과정을 포함한다.The machine learning process may largely include three steps: preparing a data set for learning (S10), performing network learning using the prepared data set (S12), and the result of the network learning step and reflecting to the deep network module of the adapter (S14). The data set preparation step (S10) includes a preprocessing process for inputting data to the network.

데이터 세트 준비 단계(S10)에서는 트레인 이미지(train image)와 레이블 이미지(label image)의 쌍(세트)를 다수 준비한다. 구체적으로 웹사이트를 캡처한 트레인 이미지와, 이러한 트레인 이미지의 광고영역 부분을 제 1 색상(검은색)으로 처리하고 나머지 부분을 제 2 색상(백색)으로 처리한 레이블 이미지로 구성되는 데이터 쌍을 다수 개 포함하는 데이터 세트를 준비한다. 예를 들어 데이트 세트는 수천 내지 수만개일 수 있다.In the data set preparation step (S10), a plurality of pairs (sets) of train images and label images are prepared. Specifically, a number of data pairs consisting of a train image captured from a website and a label image in which the advertisement area portion of the train image is treated as a first color (black) and the remaining portion is treated as a second color (white) Prepare a data set containing dogs. For example, the data sets may be in the thousands or tens of thousands.

모든 인터넷 웹사이트를 학습데이터로 사용할 수 있는데, 예를 들면 광고 차단(Ad block) 데이터로 가장 많이 사용하는 뉴스 기사 웹사이트 등을 중심으로 쉽게 수집가능하다. 트레인 이미지의 경우에는 광고가 존재하는 뉴스 기사의 웹사이트를 캡처한 데이터이다. 정답데이터인 레이블 이미지(label image)는 광고를 검은색으로 block 처리하고 나머지 뉴스 기사의 콘텐츠 내용은 흰색으로 처리할 수 있으며, 예를 들면 도 2는 본 발명의 머신 러닝 방법에 따라 수집한 데이터 세트의 (train image, label image) 데이터쌍을 보여주는 것으로서, 도 1(a)는 트레인 이미지이고 도 1(b)는 레이블 이미지이다.All Internet websites can be used as learning data, and for example, it can be easily collected around news article websites that are most frequently used as Ad block data. In the case of the train image, it is the data captured from the website of the news article where the advertisement exists. The label image, which is the correct answer data, can block advertisements in black and process the contents of the remaining news articles in white. For example, FIG. 2 is a data set collected according to the machine learning method of the present invention As showing the (train image, label image) data pair of, Figure 1 (a) is a train image and Figure 1 (b) is a label image.

그리고, 데이터 세트 준비 단계는, 캡처한 모든 웹사이트 이미지에 대하여 정해진 단일 사이즈로 down-sampling 하는 전처리 과정을 포함하여 구성된다. 학습데이터를 수집하는 과정에서 수집하는 사람에 따라 이미지 데이터의 크기(해상도)가 다르기 때문에 수집한 데이터쌍의 크기가 동일하지 않다. 또한 구성한 딥 네트워크(학습 네트워크)의 입력 사이즈가 일정하기 때문에 학습데이터를 입력사이즈와 동일하게 되도록 처리할 필요가 있다. 따라서 수집한 모든 데이터는 전처리(preprocessing) 과정을 통하여 학습 네트워크의 입력 사이즈와 동일하게 되도록 처리한다. 예를 들어, 네트워크의 입력사이즈는 256x256의 크기를 가지도록 하며, 학습 데이터를 해당 사이즈로 resize 함수를 통하여 down-sampling 한다.And, the data set preparation step includes a pre-processing process of down-sampling all captured website images into a single set size. In the process of collecting learning data, the size (resolution) of image data is different depending on the person collecting it, so the size of the collected data pair is not the same. In addition, since the input size of the configured deep network (learning network) is constant, it is necessary to process the training data to be the same as the input size. Therefore, all collected data is processed to be the same as the input size of the learning network through a preprocessing process. For example, the input size of the network is set to 256x256, and the training data is down-sampled to the corresponding size through the resize function.

네트워크 학습 단계에서는 준비된 데이터 세트에 대하여 U-Net 네트워크 모델을 사용하여 학습하는 단계이다. 딥 네트워크 모델로서 U-Net을 사용하는데, 수많은 딥 네트워크 모델이 존재하지만 U-Net은 본 발명의 목적 및 효과 달성에 최적으로 평가되었다. 본 발명을 위하여 U-Net은 입력 및 출력 layer, 사이즈 등 많은 부분이 수정되었다.In the network learning step, it is a step of learning using the U-Net network model for the prepared data set. U-Net is used as a deep network model. Although there are many deep network models, U-Net has been evaluated as optimal for achieving the purpose and effect of the present invention. For the purpose of the present invention, many parts of the U-Net, such as input and output layers and size, have been modified.

도 3은 본 발명의 일 실시예에 따른 머신 러닝 방법에 따라 변형된 U-Net의 네트워크 모델을 도시한 다이어그램이다.3 is a diagram showing a U-Net network model modified according to a machine learning method according to an embodiment of the present invention.

네트워크의 입력 사이즈와 출력 사이즈는 256x256으로 설정되었으며, 가중치 초기화에는 Xavier initializer를 사용하고 ReLU 활성화 함수를 사용한다. 또한 학습의 overfitting 문제를 방지하기 위하여 네트워크의 레이어에 부분적으로 batch normalization과 drop out을 사용하였고 drop out의 비율은 0.5로 설정하며, Optimizer 함수로는 Adam을 사용한다.The input size and output size of the network are set to 256x256, and Xavier initializer and ReLU activation function are used for weight initialization. In addition, to prevent overfitting problems in learning, batch normalization and drop out are partially used in the network layer, the drop out ratio is set to 0.5, and Adam is used as the optimizer function.

네트워크 학습 단계의 U-Net 네트워크는, 통상의 U-Net 모델과 같이 Expanding Path 및 Contracting Path를 구비하되, convolution 3X3, ReLu, max pooling 2X2, up-convoluntion 2X2, convolution 1x1 및 copy & crop을 포함한다.The U-Net network in the network learning stage has an Expanding Path and a Contracting Path like a normal U-Net model, but includes convolution 3X3, ReLu, max pooling 2X2, up-convolution 2X2, convolution 1x1, and copy & crop. .

머신 러닝의 세부 hyperparameter 설정은 예를 들면 다음과 같다. 전체 학습은 100 epoch으로 진행하였고, learning rate는 0.001, batch size는 8, 입력 데이터 크기는 256x256으로 설정할 수 있으며, 네트워크의 구현은 Tensorflow library를 사용한다. 전체 데이터의 20%를 테스트 데이터로 사용하여, 학습 데이터를 매번 랜덤하게 섞어서 학습할 수 있으며, 학습 데이터의 일부분(예를 들면 20%)를 검증 데이터로 사용한다. 레이블 데이터와 학습 결과물 사이의 pixel accuracy, 정밀도 및 재현율을 측정할 수 있는데, pixel accuracy는 레이블 데이터와 학습 결과물 사이 전체 pixel 값의 차이를 측도로 정확도를 나타낸다.For example, the detailed hyperparameter settings of machine learning are as follows. The entire training proceeded with 100 epochs, the learning rate is 0.001, the batch size is 8, and the input data size can be set to 256x256, and the implementation of the network uses the Tensorflow library. Using 20% of the total data as test data, the training data can be randomly mixed each time for learning, and a part (eg 20%) of the training data is used as verification data. Pixel accuracy, precision, and recall between label data and training output can be measured. Pixel accuracy represents accuracy as a measure of the difference in total pixel values between label data and training output.

네트워크 학습 단계의 결과는 광고제거 어댑터 장치의 딥 네트워크 모듈에 반영되는데, 딥 네트워크 모듈은 예를들어, AI 프로세서 또는 FPGA로 구현된다. The result of the network learning step is reflected in the deep network module of the ad removal adapter device, and the deep network module is implemented by, for example, an AI processor or an FPGA.

도 4는 본 발명의 일 실시예에 따른 딥 네트워크를 활용한 광고제거 어댑터 장치를 도시한 블럭도이다.4 is a block diagram illustrating an advertisement removal adapter device using a deep network according to an embodiment of the present invention.

본 발명의 일 실시예에 따른 딥 네트워크를 활용한 광고제거 어댑터 장치(100)는 컴퓨터, 셋탑박스, 비디오 플레이어, DVD 플레이어 등 동영상을 출력하는 동영상 소스 장치로부터 동영상을 입력받으며, 입력받은 동영상에 포함된 광고영역 부분만을 선택적으로 제거한 후 동영상을 디스플레이하는 장치, 예를 들면 모니터 및 TV로 출력한다. 어댑터 장치(100)는 TV 및 모니터의 외부에 연결되거나 결합될 수 있으며, 또는 TV 및 모니터의 내부에서 동영상의 경로상 구성될 수도 있다. 선호되기로 어댑터 장치(100)는 소형 사이즈의 하우징에 내장되고, 모니터 또는 TV의 HDMI 입력단자에 HDMI 출력포트(40)를 결합시키는 것으로서 모니터 또는 TV에 물리적으로 결합하거나, 동영상 소스 장치의 HDMI 출력단자에 HDMI 입력포트(30)를 결합시키는 것으로서 동영상 소스 장치에 물리적으로 결합될 수 있다. 그리고 이러한 어댑터 장치(100)는 HDMI 전송케이블과 일체로 구성될 수도 있다.Ad removal adapter device 100 using a deep network according to an embodiment of the present invention receives a video from a video source device that outputs a video, such as a computer, set-top box, video player, DVD player, etc., and includes it in the input video After selectively removing only the part of the advertisement area that has been removed, the video is output to a display device, for example, a monitor or a TV. The adapter device 100 may be connected or coupled to the outside of the TV and the monitor, or may be configured on the path of the video inside the TV and the monitor. Preferably, the adapter device 100 is built into a small-sized housing, and the HDMI output port 40 is coupled to the HDMI input terminal of the monitor or TV, physically coupled to the monitor or TV, or the HDMI output of the video source device. By coupling the HDMI input port 30 to the terminal, it can be physically coupled to the video source device. And this adapter device 100 may be integrally configured with the HDMI transmission cable.

본 발명의 일 실시예에 따른 딥 네트워크를 활용한 광고제거 어댑터 장치(100)는, 딥 네트워크 모듈(10), 픽셀단위 블록킹 모듈(20), HDMI 입력포트(30) 및 HDMI 출력포트(40)를 포함하여 구성된다.Ad removal adapter device 100 using a deep network according to an embodiment of the present invention includes a deep network module 10, a pixel unit blocking module 20, an HDMI input port 30 and an HDMI output port 40 It is composed of.

딥 네트워크 모듈(10)은 전술한 것과 같이 사전에 수행된 머신 러닝의 결과가 탑재되며, 입력되는 동영상 신호의 각 프레임에 대하여 픽셀 단위로 블록킹 여부를 나타내는 정보가 구성되는 마스크 프레임을 실시간 생성한다. 마스크 프레임은 동영상의 프레임 레이트에 맞추어서 연속적으로 생성된다.The deep network module 10, as described above, loads the result of machine learning performed in advance, and generates in real time a mask frame comprising information indicating whether or not blocking is performed for each frame of an input video signal in units of pixels. Mask frames are continuously generated according to the frame rate of the video.

딥 네트워크 모듈(10)은 네트워크 모델로서 전술한 바와 같이 U-Net를 사용하는데, 딥 네트워크 모듈(10)은 전처리부(12), 코어부(11) 및 후처리부(13)를 포함하여 구성된다.The deep network module 10 uses U-Net as a network model as described above, and the deep network module 10 includes a pre-processing unit 12, a core unit 11 and a post-processing unit 13. .

전처리부(12)는 입력되는 동영상 신호의 프레임 사이즈를 미리 정해진 사이즈, 예를들면 256x256으로 down-sampling한다. 동영상 소스 장치에 출력하는 동영상의 해상도는 다양할 수 있으며, 아울러 고해상도의 동영상인 경우 이러한 고해상도 동영상의 프레임마다 실시간 처리하기 위해서는 매우 큰 프로세싱 파워를 요구하므로, 본 발명에서는 down-sampling을 통하여 요구되는 프로세싱 파워를 낮추어 고속 처리가 가능토록 하며, 동영상 소스 장치의 다양한 해상도에 적응한다.The pre-processing unit 12 down-samples the frame size of the input video signal to a predetermined size, for example, 256x256. The resolution of the video output to the video source device may vary, and in the case of a high-resolution video, a very large processing power is required to process each frame of the high-resolution video in real time, so in the present invention, the processing required through down-sampling It enables high-speed processing by lowering power and adapts to various resolutions of video source devices.

코어부(11)는 전처리부(12)에서 down-sampling된 프레임에 대하여 픽셀 단위로 블록킹 여부를 나타내는 정보가 포함된 다운사이즈 마스크 프레임을 구성한다. 예를 들어 다운사이즈 마스크 프레임은 256x256의 프레임 사이즈를 가질 수 있다.The core unit 11 configures a down-size mask frame including information indicating whether or not blocking is performed in units of pixels with respect to the frame down-sampled by the pre-processing unit 12. For example, a downsize mask frame may have a frame size of 256x256.

코어부(11)에는 머신 러닝된 결과가 탑재되며, down-sampling된 프레임을 구성하는 이미지의 각 픽셀에 대하여 광고일 확률을 우선 출력하는 데, U-Net 네트워크의 출력값은 픽셀별로 0 이상 1 이하인 임의의 값을 가질 수 있다. 그리고 이러한 U-Net 네트워크의 출력값에 대하여 0.5인 Threshold를 가지는 activation functon을 적용함으로써, 0 또는 1로 확정되어 다운사이즈 마스크 프레임을 구성하게 된다. 다운사이즈 마스크 프레임(그리고 후술할 마스크 프레임)의 각 비트값(각 픽셀 대응)은 0 또는 1 이며, 딥 네트워크 모듈(10)은 프레임에서 광고영역의 픽셀인 경우 다운사이즈 마스크 프레임(및 마스크 프레임)의 비트값을 0 으로 출력하고 프레임에서 비광고영역의 픽셀인 경 다운사이즈 마스크 프레임(및 마스크 프레임)의 비트값을 1로 출력한다.The core unit 11 is loaded with machine learning results, and first outputs the probability of being an advertisement for each pixel of the image constituting the down-sampled frame. The output value of the U-Net network is 0 or more and 1 or less for each pixel. can have any value. And by applying an activation functon with a threshold of 0.5 to the output value of this U-Net network, it is confirmed as 0 or 1 to form a downsize mask frame. Each bit value (corresponding to each pixel) of the downsize mask frame (and mask frame to be described later) is 0 or 1, and the deep network module 10 determines the downsize mask frame (and mask frame) when the frame is a pixel of the advertising area. The bit value of is output as 0 and the bit value of the light downsize mask frame (and mask frame), which is a pixel in the non-advertising area in the frame, is output as 1.

후처리부(13)는 다운사이즈 마스크 프레임을 입력 동영상의 프레임 사이즈에 맞추어 up sampling함으로써 픽셀단위 블록킹 모듈(20)이 이용할 마스크 프레임을 생성하는 데, 전술한 바와 같이 프레임에서 광고영역의 픽셀인 경우 마스크 프레임의 비트값을 0 으로 출력하고 프레임에서 비광고영역의 픽셀인 경 마스크 프레임의 비트값을 1로 출력하기 위해 0 또는 1이 되게 한다. 상기에서는 코어부(11)에서 Threshold를 가지는 activation functon을 적용하였으나, 이러한 과정은 후처리부(13)의 up sampling 이후에 실행되도록 할 수도 있다.The post-processing unit 13 generates a mask frame to be used by the pixel unit blocking module 20 by up-sampling the down-size mask frame according to the frame size of the input video. The bit value of the frame is output as 0, and the bit value of the light mask frame, which is a pixel in the non-ad area in the frame, is set to 0 or 1 to output as 1. In the above, an activation functon having a threshold was applied in the core unit 11, but this process may be executed after up-sampling of the post-processing unit 13.

픽셀단위 블록킹 모듈(20)은 딥 네트워크 모듈(10)이 출력하는 마스크 프레임을 이용하여, 입력되는 동영상 신호의 각 프레임에 대하여 픽셀 단위로 블록킹을 실시간 수행하여, 광고영역부분이 블록킹된 동영상을 출력한다. 픽셀단위 블록킹 모듈(20)은 마스크 프레임의 각 픽셀에 대응하는 비트값과 동영상 프레임의 픽셀값에 대해 pixel-wise multiplication을 수행함으로써, 픽셀 단위의 블록킹이 가능하다. 구체적으로 보면, 마스크 프레임에서 0의 비트값(광고영역부분)과 동영상 프레임의 대응하는 픽셀값(p)을 multiplication하면 0의 값(예를 들면 검은색)을 출력하며, 마스크 프레임에서 1의 비트값(비광고영역부분)과 동영상 프레임의 대응하는 픽셀값(p)을 multiplication하면 해당 픽셀값(p)을 출력하게 된다.The pixel-unit blocking module 20 performs real-time blocking in pixel units for each frame of the input video signal using the mask frame output from the deep network module 10, and outputs a video in which the advertising area is blocked. do. The pixel unit blocking module 20 performs pixel-wise multiplication on the bit value corresponding to each pixel of the mask frame and the pixel value of the video frame, thereby enabling pixel unit blocking. Specifically, when the bit value of 0 (ad area part) in the mask frame is multiplied with the corresponding pixel value (p) of the video frame, a value of 0 (for example, black) is output, and the bit of 1 in the mask frame is multiplied. If the value (non-advertising area part) and the corresponding pixel value (p) of the video frame are multiplied, the corresponding pixel value (p) is output.

도 5는 본 발명의 일 실시예에 따른 딥 네트워크를 활용한 광고제거 어댑터 장치의 입력, 마스크 프레임 및 출력의 예를 도시한 것으로서, 도 5(a)는 입력 동영상에서 특정 프레임을 캡처한 것이며, 도 5(b)는 입력 동영상의 특정 프레임에 대응하는 마스크 프레임을 도시한 것이고, 도 5(c)는 입력 동상의 특정 프레임에서 광고영역부분이 제거된 후를 캡처한 것이다.5 shows an example of input, mask frame, and output of an ad removal adapter device using a deep network according to an embodiment of the present invention, FIG. 5 (a) captures a specific frame from an input video, Fig. 5(b) shows a mask frame corresponding to a specific frame of an input video, and Fig. 5(c) captures a specific frame of an input image after the advertising area is removed.

HDMI 입력포트(30)는 동영상 소스 장치로부터 HDMI 신호를 입력받아서 딥 네트워크 모듈(10) 및 픽셀단위 블록킹 모듈(20)로 제공하며, HDMI 출력포트(40)는 픽셀단위 블록킹 모듈(20)로부터 광고영역 부분이 선택적으로 제거된 동영상 신호를 제공받아, 모니터 또는 TV와 같은 디스플레이장치로(또는 그 HDMI 입력단자로) 출력한다. 상기에서는 동영상 데이터의 표준으로서 HDMI에 대하여 설명하였으나, DVI 또는 DP 등 다양한 동영상 전송표준으로의 치환이 용이하게 가능하며, 이러한 것들도 균등물의 범워로 포함된다. 상기에서 어댑터 장치(100)는 딥 네트워크 모듈(10) 및 블록킹 모듈(20)이 분리된 모듈로 설명되었으나, 이러한 모듈은 동일한 하드웨어(예를 들며 AI 프로세서)를 이용하여 순차적으로 처리될 수 있으며, 구체적으로 보면 마스크 프레임을 실시간 생성하는 단계와 픽셀 단위로 블록킹을 실시간 수행하는 단계가 순차 실행될 수 있다.The HDMI input port 30 receives HDMI signals from the video source device and provides them to the deep network module 10 and the pixel unit blocking module 20, and the HDMI output port 40 receives advertisements from the pixel unit blocking module 20. The video signal from which the area portion is selectively removed is received and output to a display device such as a monitor or TV (or its HDMI input terminal). In the above, HDMI has been described as a standard for video data, but it can be easily replaced with various video transmission standards such as DVI or DP, and these are also included in the scope of equivalents. In the above, the adapter device 100 has been described as a module in which the deep network module 10 and the blocking module 20 are separated, but these modules can be sequentially processed using the same hardware (eg AI processor), Specifically, the step of generating a mask frame in real time and the step of performing blocking in real time in units of pixels may be sequentially executed.

10 : 딥 네트워크 모듈 11 : 코어부
12 : 전처리부 13 : 후처리부
20 : 픽셀단위 블록킹 모듈 30 : HDMI 입력포트
40 : HDMI 출력포트 100 : 광고제거 어댑터 장치
10: deep network module 11: core unit
12: pre-processing unit 13: post-processing unit
20: pixel unit blocking module 30: HDMI input port
40: HDMI output port 100: Ad removal adapter device

Claims (18)

사전에 수행된 머신 러닝의 결과가 탑재되며, 입력되는 동영상 신호의 각 프레임에 대하여 픽셀 단위로 블록킹 여부를 나타내는 정보가 구성되는 마스크 프레임을 실시간 생성하는 딥 네트워크 모듈(10);
상기 딥 네트워크 모듈(10)이 출력하는 마스크 프레임을 이용하여, 입력되는 동영상 신호의 각 프레임에 대하여 픽셀 단위로 블록킹을 실시간 수행하는 픽셀단위 블록킹 모듈(20);를 포함하여,
동영상에 포함된 광고영역 부분을 선택적으로 제거하는 것을 특징으로 하는, 딥 네트워크를 활용한 광고제거 어댑터 장치.
A deep network module 10 for generating in real time a mask frame in which a result of machine learning performed in advance is loaded and constitutes information indicating whether or not blocking is performed in units of pixels for each frame of an input video signal;
A pixel unit blocking module 20 that performs blocking in pixel units in real time for each frame of the input video signal using the mask frame output by the deep network module 10; Including,
An ad removal adapter device using a deep network, characterized in that it selectively removes a portion of an ad area included in a video.
청구항 1에 있어서,
모니터 또는 TV의 HDMI 입력단자에 물리적으로 결합하는 것을 특징으로 하는,
딥 네트워크를 활용한 광고제거 어댑터 장치.
The method of claim 1,
Characterized in that it is physically coupled to the HDMI input terminal of the monitor or TV,
Ad-removal adapter device utilizing deep network.
청구항 2에 있어서,
동영상 소스 장치로부터 HDMI 신호를 입력받아서 상기 딥 네트워크 모듈(10) 및 픽셀단위 블록킹 모듈(20)로 제공하는 HDMI 입력포트(30);
상기 픽셀단위 블록킹 모듈(20)로부터 광고영역 부분이 선택적으로 제거된 동영상 신호를 제공받아, 상기한 모니터 또는 TV의 HDMI 입력단자로 출력하는 HDMI 출력포트(40);를 더 포함하는,
딥 네트워크를 활용한 광고제거 어댑터 장치.
The method of claim 2,
An HDMI input port 30 receiving an HDMI signal from a video source device and providing it to the deep network module 10 and the pixel unit blocking module 20;
An HDMI output port 40 for receiving a video signal from which the advertisement area portion is selectively removed from the pixel unit blocking module 20 and outputting the video signal to the HDMI input terminal of the monitor or TV; further comprising,
Ad-removal adapter device utilizing deep network.
청구항 1에 있어서,
상기 픽셀단위 블록킹 모듈(20)은,
상기 마스크 프레임의 비트값과 동영상 프레임의 픽셀값에 대해 pixel-wise multiplication을 수행하는,
딥 네트워크를 활용한 광고제거 어댑터 장치.
The method of claim 1,
The pixel unit blocking module 20,
Performing pixel-wise multiplication on the bit value of the mask frame and the pixel value of the video frame,
Ad-removal adapter device utilizing deep network.
청구항 4에 있어서,
상기 마스크 프레임의 비트값은 0 또는 1 이며,
상기 딥 네트워크 모듈(10)은, 프레임에서 광고영역의 픽셀인 경우 상기 마스크 프레임의 비트값을 0 으로 출력하고 프레임에서 비광고영역의 픽셀인 경우 상기 마스크 프레임의 비트값을 1로 출력하는,
딥 네트워크를 활용한 광고제거 어댑터 장치.
The method of claim 4,
The bit value of the mask frame is 0 or 1,
The deep network module 10 outputs a bit value of the mask frame as 0 when the frame is a pixel in an advertisement area and outputs a bit value of the mask frame as 1 when the pixel is a pixel in a non-ad area in the frame.
Ad-removal adapter device utilizing deep network.
청구항 1에 있어서,
상기 딥 네트워크 모듈(10)은,
입력되는 동영상 신호의 프레임 사이즈를 미리 정해진 사이즈로 down-sampling하는 전처리부(12);를 포함하는,
딥 네트워크를 활용한 광고제거 어댑터 장치.
The method of claim 1,
The deep network module 10,
A pre-processing unit 12 for down-sampling the frame size of the input video signal to a predetermined size; including,
Ad-removal adapter device utilizing deep network.
청구항 6에 있어서,
상기 딥 네트워크 모듈(10)은,
상기 전처리부(12)에서 down-sampling된 프레임에 대하여 픽셀 단위로 블록킹 여부를 나타내는 정보가 포함된 다운사이즈 마스크 프레임을 구성하는 코어부(11); 및
상기 다운사이즈 마스크 프레임을 up sampling함으로써 상기 픽셀단위 블록킹 모듈(20)이 이용할 마스크 프레임을 생성하는 후처리부(13);를 더 포함하는,
딥 네트워크를 활용한 광고제거 어댑터 장치.
The method of claim 6,
The deep network module 10,
a core unit 11 constituting a down-size mask frame including information indicating whether or not blocking is blocked in units of pixels for the frame down-sampled by the pre-processing unit 12; and
A post-processing unit 13 generating a mask frame to be used by the pixel unit blocking module 20 by up-sampling the down-size mask frame;
Ad-removal adapter device utilizing deep network.
청구항 1에 있어서,
상기 딥 네트워크 모듈(10)은 네트워크 모델로서 U-Net를 사용하는 것을 특징으로 하는,
딥 네트워크를 활용한 광고제거 어댑터 장치.
The method of claim 1,
Characterized in that the deep network module 10 uses U-Net as a network model,
Ad-removal adapter device utilizing deep network.
입력되는 동영상 신호의 각 프레임에 대하여 픽셀 단위로 블록킹 여부를 나타내는 정보가 구성되는 마스크 프레임을 실시간 생성하는 딥 네트워크 모듈을 포함하여 구성되며 동영상에 포함된 광고영역 부분을 선택적으로 제거하는 광고제거 어댑터 장치를 위한 머신 러닝 방법으로서,
웹사이트를 캡처한 트레인 이미지와, 상기 트레인 이미지의 광고영역 부분을 제 1 색상으로 처리하고 나머지 부분을 제 2 색상으로 처리한 레이블 이미지으로 구성되는 데이터 쌍을 다수 개 포함하는 데이터 세트를 준비하는 데이터 세트 준비 단계;
상기 준비된 데이터 세트에 대하여 U-Net 네트워크 모델을 사용하여 학습하는 네트워크 학습 단계;를 포함하여 구성되며,
상기 네트워크 학습 단계의 결과를 상기 딥 네트워크 모듈에 반영하는 것을 특징으로 하는,
광고제거 어댑터 장치를 위한 머신 러닝 방법.
An ad removal adapter device that includes a deep network module that generates in real time a mask frame in which information indicating whether or not blocking is configured for each frame of an input video signal, and selectively removes a part of the advertisement area included in the video. As a machine learning method for
Data for preparing a data set including a plurality of data pairs consisting of a train image captured from a website and a label image in which an advertising area portion of the train image is treated with a first color and the remaining portion is treated with a second color set preparation stage;
It is configured to include; a network learning step of learning using a U-Net network model for the prepared data set,
Characterized in that the result of the network learning step is reflected in the deep network module,
A machine learning method for an ad-free adapter device.
청구항 9에 있어서,
상기 딥 네트워크 모듈은 AI 프로세서 또는 FPGA로 구현되는 것을 특징으로 하는,
광고제거 어댑터 장치를 위한 머신 러닝 방법.
The method of claim 9,
Characterized in that the deep network module is implemented as an AI processor or FPGA,
A machine learning method for an ad-free adapter device.
청구항 9에 있어서,
상기 데이터 세트 준비 단계는,
캡처한 모든 웹사이트 이미지에 대하여 정해진 단일 사이즈로 down-sampling 하는 전처리 과정을 포함하여 구성되는 것을 특징으로 하는,
광고제거 어댑터 장치를 위한 머신 러닝 방법.
The method of claim 9,
The data set preparation step,
Characterized in that it comprises a pre-processing process of down-sampling all captured website images to a single size set,
A machine learning method for an ad-free adapter device.
청구항 9에 있어서,
상기 네트워크 학습 단계의 U-Net 네트워크는,
Expanding Path 및 Contracting Path를 구비하고 convolution 3X3, ReLu, max pooling 2X2, up-convoluntion 2X2, convolution 1x1 및 copy & crop을 포함하는,
광고제거 어댑터 장치를 위한 머신 러닝 방법.
The method of claim 9,
The U-Net network in the network learning step,
Equipped with Expanding Path and Contracting Path, including convolution 3X3, ReLu, max pooling 2X2, up-convoluntion 2X2, convolution 1x1 and copy & crop,
A machine learning method for an ad-free adapter device.
청구항 12에 있어서,
상기 U-Net 네트워크의 출력값은 픽셀별로 0 이상 1 이하인 임의의 값을 가지며,
상기 U-Net 네트워크의 출력값에 대하여 0.5인 Threshold를 가지는 activation functon을 적용하는 것을 특징으로 하는,
광고제거 어댑터 장치를 위한 머신 러닝 방법.
The method of claim 12,
The output value of the U-Net network has an arbitrary value of 0 or more and 1 or less for each pixel,
Characterized in that an activation functon with a threshold of 0.5 is applied to the output value of the U-Net network,
A machine learning method for an ad-free adapter device.
청구항 13에 있어서,
상기 네트워크 학습 단계의 U-Net 네트워크에서는,
Xavier initializer, batch nomalization, 0.5의 drop out 비율 및 Adam Optimizer를 사용한 것을 특징으로 하는,
광고제거 어댑터 장치를 위한 머신 러닝 방법.
The method of claim 13,
In the U-Net network in the network learning step,
Characterized by the use of Xavier initializer, batch normalization, drop out ratio of 0.5 and Adam Optimizer,
A machine learning method for an ad-free adapter device.
딥 네트워크를 활용하여 동영상에 포함된 광고영역 부분을 선택적으로 제거하는 광고제거 어댑터 장치에서 실행되는 광고제거 방법으로서,
사전에 수행된 머신 러닝의 결과가 탑재되는 딥 네트워크 모듈(10)을 이용하여, 입력되는 동영상 신호의 각 프레임에 대하여 픽셀 단위로 블록킹 여부를 나타내는 정보가 구성되는 마스크 프레임을 실시간 생성하는 제 1 단계;
상기 제 1 단계에서 생성된 마스크 프레임을 이용하여, 입력되는 동영상 신호의 각 프레임에 대하여 픽셀 단위로 블록킹을 실시간 수행하는 제 2 단계;를 포함하는 것을 특징으로 하는,
광고제거 어댑터 장치에서 실행되는 광고제거 방법.
As an advertisement removal method executed in an advertisement removal adapter device that selectively removes a portion of an advertisement area included in a video using a deep network,
Step 1 of real-time generation of a mask frame consisting of information indicating whether or not blocking is performed in units of pixels for each frame of an input video signal using the deep network module 10 loaded with the result of machine learning performed in advance ;
A second step of performing blocking in real time in units of pixels for each frame of the input video signal using the mask frame generated in the first step;
Ad-Removal Adapter A method of ad-removal that runs on the device.
청구항 15에 있어서,
상기 제 1 단계에서,
상기 마스크 프레임의 비트값과 동영상 프레임의 픽셀값에 대해 pixel-wise multiplication을 수행하는,
광고제거 어댑터 장치에서 실행되는 광고제거 방법.
The method of claim 15
In the first step,
Performing pixel-wise multiplication on the bit value of the mask frame and the pixel value of the video frame,
Ad-Removal Adapter A method of ad-removal that runs on the device.
청구항 16에 있어서,
상기 마스크 프레임의 비트값은 0 또는 1 이며,
상기 pixel-wise multiplication에 의해, 프레임에서 광고영역의 픽셀인 경우 상기 마스크 프레임의 비트값을 0 으로 출력하고 프레임에서 비광고영역의 픽셀인 경우 상기 마스크 프레임의 비트값을 1로 출력하는,
광고제거 어댑터 장치에서 실행되는 광고제거 방법.
The method of claim 16
The bit value of the mask frame is 0 or 1,
By means of the pixel-wise multiplication, the bit value of the mask frame is output as 0 when the pixel is in the advertisement area in the frame and the bit value of the mask frame is output as 1 when the pixel is in the non-ad area in the frame.
Ad-Removal Adapter A method of ad-removal that runs on the device.
청구항 15에 있어서,
상기 제 1 단계에서는,
입력되는 동영상 신호의 프레임 사이즈를 미리 정해진 사이즈로 down-sampling하는 전처리 과정;
상기 전처리 과정에서 down-sampling된 프레임에 대하여 픽셀 단위로 블록킹 여부를 나타내는 정보가 포함된 다운사이즈 마스크 프레임을 구성하는 코어 처리 과정; 및
상기 다운사이즈 마스크 프레임을 up sampling함으로써 상기 제 2 단계에서 이용할 마스크 프레임을 생성하는 후처리 과정을 포함하는,
광고제거 어댑터 장치에서 실행되는 광고제거 방법.
The method of claim 15
In the first step,
a pre-processing step of down-sampling the frame size of an input video signal to a predetermined size;
a core processing step of constructing a down-size mask frame including information indicating whether or not blocking is performed in units of pixels for the frame down-sampled in the pre-processing step; and
Including a post-processing process of generating a mask frame to be used in the second step by up sampling the downsize mask frame,
Ad-Removal Adapter A method of ad-removal that runs on the device.
KR1020200171818A 2020-12-10 2020-12-10 Advertisement Removal Method and Adapter Appratus Using Deep Network, and Maching Learning Method for it KR102539684B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200171818A KR102539684B1 (en) 2020-12-10 2020-12-10 Advertisement Removal Method and Adapter Appratus Using Deep Network, and Maching Learning Method for it

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200171818A KR102539684B1 (en) 2020-12-10 2020-12-10 Advertisement Removal Method and Adapter Appratus Using Deep Network, and Maching Learning Method for it

Publications (2)

Publication Number Publication Date
KR20220082189A KR20220082189A (en) 2022-06-17
KR102539684B1 true KR102539684B1 (en) 2023-06-01

Family

ID=82269158

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200171818A KR102539684B1 (en) 2020-12-10 2020-12-10 Advertisement Removal Method and Adapter Appratus Using Deep Network, and Maching Learning Method for it

Country Status (1)

Country Link
KR (1) KR102539684B1 (en)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100707189B1 (en) * 2005-04-29 2007-04-13 삼성전자주식회사 Apparatus and method for detecting advertisment of moving-picture, and compter-readable storage storing compter program controlling the apparatus
WO2014051181A1 (en) * 2012-09-28 2014-04-03 (주)재플 Apparatus and method for controlling advertisement
US9743154B2 (en) * 2015-09-09 2017-08-22 Sorenson Media, Inc Dynamic video advertisement replacement
KR20200082576A (en) * 2018-12-31 2020-07-08 이근량 Broadcast advertising blocking system

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
비특허문헌1(강창희 외 2인, 대한전자공학회, 2020.11)*
비특허문헌2(바람돌이, naver blog [파이썬/딥러닝] 딥러닝, 2020.10.10)*
비특허문헌3(KUKLIFE, kuklife.tistory, 2020.01.31)

Also Published As

Publication number Publication date
KR20220082189A (en) 2022-06-17

Similar Documents

Publication Publication Date Title
JP7415251B2 (en) Apparatus and method for image processing and system for training neural networks
CN108595583B (en) Dynamic graph page data crawling method, device, terminal and storage medium
US20190311223A1 (en) Image processing methods and apparatus, and electronic devices
EP3117369B1 (en) Detecting and extracting image document components to create flow document
US20200126209A1 (en) System and method for detecting image forgery through convolutional neural network and method for providing non-manipulation detection service using the same
US8306255B1 (en) Snapshot-based screen scraping
WO2020018376A1 (en) Computer method and apparatus making screens safe for those with photosensitivity
Su et al. Prior guided conditional generative adversarial network for single image dehazing
CN111145202B (en) Model generation method, image processing method, device, equipment and storage medium
JP7499402B2 (en) End-to-End Watermarking System
US9286623B2 (en) Method for determining an area within a multimedia content element over which an advertisement can be displayed
KR102539684B1 (en) Advertisement Removal Method and Adapter Appratus Using Deep Network, and Maching Learning Method for it
CN113011254B (en) Video data processing method, computer equipment and readable storage medium
US20230325879A1 (en) Visual indication presentation and interaction processing systems and methods
US8867837B2 (en) Detecting separator lines in a web page
Banerjee et al. TWD: a new deep E2E model for text watermark/caption and scene text detection in video
Zhang et al. Text detection and recognition based on a lensless imaging system
Shi et al. Dual-quality map based no reference image quality assessment using deformable convolution
CN117597702A (en) Scaling-independent watermark extraction
KR20230001009A (en) Zoom Unknown Watermark Extraction
CN113313642A (en) Image denoising method and device, storage medium and electronic equipment
KR100926448B1 (en) System and Method for Determining Adult Contents
KR102630272B1 (en) Method, apparatus and program for checking electronic message based on machine learning
Yan et al. CNN-Based Forensic Method on Contrast Enhancement with JPEG Post-Processing.
CN109523591A (en) Processing method, device, equipment and the storage medium of picture

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant