KR102296318B1 - Apparatus and method for classifying videos - Google Patents

Apparatus and method for classifying videos Download PDF

Info

Publication number
KR102296318B1
KR102296318B1 KR1020190171078A KR20190171078A KR102296318B1 KR 102296318 B1 KR102296318 B1 KR 102296318B1 KR 1020190171078 A KR1020190171078 A KR 1020190171078A KR 20190171078 A KR20190171078 A KR 20190171078A KR 102296318 B1 KR102296318 B1 KR 102296318B1
Authority
KR
South Korea
Prior art keywords
video
frames
extracting
motion vector
classification
Prior art date
Application number
KR1020190171078A
Other languages
Korean (ko)
Other versions
KR20210079028A (en
Inventor
위동윤
오광진
배순민
김유진
Original Assignee
네이버 주식회사
라인 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 네이버 주식회사, 라인 가부시키가이샤 filed Critical 네이버 주식회사
Priority to KR1020190171078A priority Critical patent/KR102296318B1/en
Priority to JP2020210439A priority patent/JP7159274B2/en
Publication of KR20210079028A publication Critical patent/KR20210079028A/en
Application granted granted Critical
Publication of KR102296318B1 publication Critical patent/KR102296318B1/en

Links

Images

Classifications

    • G06K9/00718
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06K9/481
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding

Abstract

본 출원은 동영상분류장치 및 동영상분류방법에 관한 것으로서, 본 발명의 일 실시예에 의한 동영상분류방법은 입력받은 대상 동영상으로부터 복수의 프레임을 추출하는 단계; 상기 프레임들 사이의 광흐름(optical flow)을 나타내는 이동벡터를 추출하는 단계; 및 미리 학습된 분류모델에 상기 이동벡터에 대한 정보를 입력하여, 상기 동영상이 상기 슬라이드 쇼 타입 동영상에 해당하는지 판별하는 단계를 포함할 수 있다. The present application relates to a video classification apparatus and a video classification method, and the video classification method according to an embodiment of the present invention includes extracting a plurality of frames from an input target video; extracting a motion vector representing an optical flow between the frames; and inputting information on the motion vector into a pre-learned classification model, and determining whether the moving picture corresponds to the slide show type moving picture.

Figure R1020190171078
Figure R1020190171078

Description

동영상분류장치 및 동영상분류방법 {Apparatus and method for classifying videos}{Apparatus and method for classifying videos}

본 출원은 동영상분류장치 및 동영상분류방법에 관한 것으로, 특히 슬라이드 쇼 타입 동영상을 일반 동영상으로부터 구별할 수 있는 동영상분류장치 및 동영상분류방법에 관한 것이다. The present application relates to a video classification apparatus and a video classification method, and more particularly, to a video classification apparatus and a video classification method capable of distinguishing a slideshow type video from a general video.

최근 동영상 컨텐츠에 대한 사용자들의 수요가 증가하면서, 슬라이드 쇼(slide show) 타입 동영상들이 급증하고 있다. 슬라이드 쇼 타입 동영상은 한 장 이상의 슬라이드 이미지가 표시되는 동영상으로, 제작이 쉽고 간편하므로 최근 광고나 홍보용으로 주로 활용되고 있다. Recently, as users' demand for video content increases, slide show type videos are rapidly increasing. A slideshow type video is a video in which one or more slide images are displayed, and since it is easy and convenient to produce, it is mainly used for advertisement or publicity.

슬라이드 쇼 타입 동영상은 한 장의 슬라이드 이미지가 표시된 상태에서 음향이나 나래이션 등이 추가되는 형태로 구현될 수 있으며, 복수의 슬라이드 이미지들이 순차적으로 표시되도록 하는 것도 가능하다. The slide show type video may be implemented in a form in which sound or narration is added while one slide image is displayed, and it is also possible to sequentially display a plurality of slide images.

한편, 사용자들은 자신이 원하는 정보를 찾기 위해, 인터넷 검색 서비스를 이용할 수 있으며, 이때 검색되는 다양한 동영상 중에는 슬라이드 쇼 타입 동영상들이 다수 포함될 수 있다. 다만, 슬라이드 쇼 타입 동영상들은 광고나 홍보성 내용이거나, 질이 낮은 컨텐츠를 포함하는 경우가 대부분이므로, 사용자들은 슬라이드 쇼 타입 동영상들을 선호하지 않는 경향이 있다. Meanwhile, users may use an Internet search service to find information they want, and at this time, a plurality of slideshow type videos may be included among various searched videos. However, since most of the slideshow-type videos contain advertisements, promotional content, or low-quality content, users tend not to prefer slideshow-type videos.

본 출원은, 슬라이드 쇼 타입 동영상을 일반 동영상으로부터 구별할 수 있는 동영상분류장치 및 동영상분류방법을 제공하고자 한다. An object of the present application is to provide an apparatus for classifying a video and a method for classifying a video that can distinguish a slide show type video from a general video.

본 출원은, 동영상 내에 포함된 프레임들 사이의 광흐름(optical flow)를 활용하여, 슬라이드 쇼 타입 동영상들을 구별할 수 있는 동영상분류장치 및 동영상분류방법을 제공하고자 한다.An object of the present application is to provide an apparatus for classifying a video and a method for classifying a video that can distinguish slideshow type videos by utilizing an optical flow between frames included in a video.

본 발명의 일 실시예에 의한 동영상분류방법은, 슬라이드 쇼(slide show) 타입 동영상을 구별하는 동영상분류방법에 관한 것으로, 입력받은 대상 동영상으로부터 복수의 프레임을 추출하는 단계; 상기 프레임들 사이의 광흐름(optical flow)을 나타내는 이동벡터를 추출하는 단계; 및 미리 학습된 분류모델에 상기 이동벡터에 대한 정보를 입력하여, 상기 대상 동영상이 상기 슬라이드 쇼 타입 동영상에 해당하는지 판별하는 단계를 포함할 수 있다. A video classification method according to an embodiment of the present invention relates to a video classification method for discriminating a slide show type video, the method comprising: extracting a plurality of frames from an input target video; extracting a motion vector representing an optical flow between the frames; and inputting information on the motion vector to a pre-learned classification model, and determining whether the target video corresponds to the slideshow type video.

본 발명의 일 실시예에 의한 동영상분류장치는, 슬라이드 쇼(slide show) 타입 동영상을 구별하는 것으로, 입력받은 대상 동영상으로부터 복수의 프레임을 추출하는 프레임추출부; 상기 프레임들 사이의 광흐름(optical flow)를 나타내는 이동벡터를 추출하는 이동벡터 추출부; 및 미리 학습된 분류모델에 상기 이동벡터에 대한 정보를 입력하여, 상기 대상동영상이 상기 슬라이드 쇼 타입 동영상에 해당하는지 판별하는 판별부를 포함할 수 있다. A video classification apparatus according to an embodiment of the present invention includes: a frame extracting unit for discriminating a slide show type video, and extracting a plurality of frames from an input target video; a motion vector extractor for extracting a motion vector representing an optical flow between the frames; and a determining unit configured to input information on the motion vector to a pre-learned classification model to determine whether the target video corresponds to the slideshow type video.

덧붙여 상기한 과제의 해결수단은, 본 발명의 특징을 모두 열거한 것이 아니다. 본 발명의 다양한 특징과 그에 따른 장점과 효과는 아래의 구체적인 실시형태를 참조하여 보다 상세하게 이해될 수 있을 것이다.Incidentally, the means for solving the above problems do not enumerate all the features of the present invention. Various features of the present invention and its advantages and effects may be understood in more detail with reference to the following specific embodiments.

본 발명의 일 실시예에 의한 동영상분류장치 및 동영상분류방법에 의하면, 슬라이드 쇼 타입 동영상을 일반 동영상으로부터 구별할 수 있으므로, 인터넷 검색 서비스 제공시 슬라이드 쇼 타입 동영상을 제외하고 사용자에게 제공하는 것이 가능하다. 따라서, 인터넷 검색 서비스 제공시 사용자 편의성을 높이고 검색의 정확성을 높일 수 있다. According to the video classification apparatus and the video classification method according to an embodiment of the present invention, since a slideshow type video can be distinguished from a general video, it is possible to provide the user with the slideshow type video except for the slideshow type video when providing an Internet search service. . Accordingly, it is possible to increase user convenience and increase the accuracy of a search when providing an Internet search service.

본 발명의 일 실시예에 의한 동영상분류장치 및 동영상분류방법에 의하면, 동영상 내의 광흐름을 머신러닝을 이용하여 분류하므로, 보다 정확하고 신속한 동영상 분류가 가능하다. According to the video classification apparatus and video classification method according to an embodiment of the present invention, since the light flow in the video is classified using machine learning, more accurate and quick video classification is possible.

다만, 본 발명의 실시예들에 따른 동영상분류장치 및 동영상분류방법이 달성할 수 있는 효과는 이상에서 언급한 것들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.However, the effects that can be achieved by the video classification apparatus and the video classification method according to the embodiments of the present invention are not limited to those mentioned above, and other effects not mentioned are from the description below. It will be clearly understood by those of ordinary skill in the art.

도1은 본 발명의 일 실시예에 의한 동영상분류장치를 나타내는 블록도이다.
도2 내지 도4는 본 발명의 일 실시예에 의한 슬라이드 쇼 타입 동영상을 나타내는 개략도이다.
도5는 본 발명의 일 실시예에 의한 슬라이드 쇼 타입 동영상과 일반 영상의 광흐름을 나타내는 개략도이다.
도6은 본 발명의 일 실시예에 의한 분류모델의 학습을 위한 학습동영상의 레이블링을 나타내는 개략도이다.
도7 및 도8은 본 발명의 일 실시예에 의한 동영상분류장치의 동작을 나타내는 블록도이다.
도9는 본 발명의 일 실시예에 의한 슬라이드 쇼 타입 동영상과 일반 영상의 광흐름 변화패턴을 나타내는 그래프이다.
도10 및 도11은 본 발명의 일 실시예에 의한 동영상분류방법을 나타내는 순서도이다.
1 is a block diagram showing a video classification apparatus according to an embodiment of the present invention.
2 to 4 are schematic diagrams showing a slide show type moving picture according to an embodiment of the present invention.
5 is a schematic diagram showing the optical flow of a slide show type moving picture and a general image according to an embodiment of the present invention.
6 is a schematic diagram illustrating labeling of a learning video for learning a classification model according to an embodiment of the present invention.
7 and 8 are block diagrams showing the operation of the video classification apparatus according to an embodiment of the present invention.
9 is a graph showing a light flow change pattern of a slide show type video and a general video according to an embodiment of the present invention.
10 and 11 are flowcharts illustrating a video classification method according to an embodiment of the present invention.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 즉, 본 발명에서 사용되는 '부'라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '부'는 어떤 역할들을 수행한다. 그렇지만 '부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '부'들로 결합되거나 추가적인 구성요소들과 '부'들로 더 분리될 수 있다.Hereinafter, the embodiments disclosed in the present specification will be described in detail with reference to the accompanying drawings, but the same or similar components are assigned the same reference numerals regardless of reference numerals, and overlapping descriptions thereof will be omitted. The suffixes "module" and "part" for the components used in the following description are given or mixed in consideration of only the ease of writing the specification, and do not have a meaning or role distinct from each other by themselves. That is, the term 'unit' used in the present invention means a hardware component such as software, FPGA, or ASIC, and 'unit' performs certain roles. However, 'part' is not limited to software or hardware. The 'unit' may be configured to reside on an addressable storage medium or may be configured to refresh one or more processors. Thus, as an example, 'part' refers to components such as software components, object-oriented software components, class components and task components, processes, functions, properties, procedures, subroutines, segments of program code, drivers, firmware, microcode, circuitry, data, databases, data structures, tables, arrays and variables. Functions provided within components and 'units' may be combined into a smaller number of components and 'units' or further divided into additional components and 'units'.

또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.In addition, in describing the embodiments disclosed in the present specification, if it is determined that detailed descriptions of related known technologies may obscure the gist of the embodiments disclosed in the present specification, the detailed description thereof will be omitted. In addition, the accompanying drawings are only for easy understanding of the embodiments disclosed in the present specification, and the technical spirit disclosed herein is not limited by the accompanying drawings, and all changes included in the spirit and scope of the present invention , should be understood to include equivalents or substitutes.

최근 동영상 컨텐츠에 대한 사용자들의 수요가 증가하면서, 슬라이드 쇼(slide show) 타입 동영상들이 급증하고 있다. 슬라이드 쇼 타입 동영상은 한 장 이상의 슬라이드 이미지가 표시되는 동영상으로, 제작이 쉽고 간편하므로 최근 광고나 홍보용으로 주로 활용되고 있다. Recently, as users' demand for video content increases, slide show type videos are rapidly increasing. A slideshow type video is a video in which one or more slide images are displayed, and since it is easy and convenient to produce, it is mainly used for advertisement or publicity.

슬라이드 쇼 타입 동영상은 한 장의 슬라이드 이미지가 표시된 상태에서 음향이나 나래이션 등이 추가되는 형태로 구현될 수 있으며, 도2에 도시한 바와 같이 복수의 슬라이드 이미지들이 순차적으로 표시되도록 하는 것도 가능하다. The slide show type video may be implemented in a form in which sound or narration is added while a single slide image is displayed, and it is also possible to sequentially display a plurality of slide images as shown in FIG. 2 .

또한, 도3에 도시한 바와 같이, 슬라이드 이미지가 동영상 내에서 일정한 방향으로 이동하거나, 도4에 도시한 바와 같이 슬라이드 이미지를 줌-인(zoom-in)하는 등 슬라이드 이미지에 대한 특수효과를 추가한 경우에도, 슬라이드 쇼 타입 동영상으로 볼 수 있다. In addition, as shown in Fig. 3, the slide image moves in a certain direction within the video, or as shown in Fig. 4, a special effect is added to the slide image, such as zooming in the slide image. Even in one case, it can be viewed as a slide show type video.

여기서, 슬라이드 이미지에 추가되는 특수효과는 줌-인 이외에, 페이드-인(fade-in), 페이드-아웃(fade-out), 줌-아웃(zoom-out), 슬라이드 이미지에 대한 스티커 부착 등 다양하게 존재할 수 있다. Here, in addition to zoom-in, the special effects added to the slide image are various, such as fade-in, fade-out, zoom-out, and sticker attachment to the slide image. can exist

한편, 사용자들은 자신이 원하는 정보를 찾기 위해, 인터넷 검색 서비스를 이용할 수 있으며, 이때 검색되는 다양한 동영상 중에는 슬라이드 쇼 타입 동영상들이 다수 포함될 수 있다. 다만, 슬라이드 쇼 타입 동영상들은 광고나 홍보성 내용이거나, 질이 낮은 컨텐츠를 포함하는 경우가 대부분이므로, 사용자들은 슬라이드 쇼 타입 동영상들을 선호하지 않는 경향이 있다. Meanwhile, users may use an Internet search service to find information they want, and at this time, a plurality of slideshow type videos may be included among various searched videos. However, since most of the slideshow-type videos contain advertisements, promotional content, or low-quality content, users tend not to prefer slideshow-type videos.

따라서, 사용자 편의를 위하여, 인터넷 검색 서비스 제공시, 슬라이드 쇼 타입 동영상 등을 제외하거나 검색결과 제공시 후순위로 제공할 필요가 있다. 즉, 슬라이드쇼 타입 동영상들에 대하여 별도의 주석(annotation) 등을 추가하여, 일반 동영상과 슬라이드쇼 타입 동영상들을 구별하여 처리하도록 하는 방안을 고려할 수 있다. Therefore, for user convenience, it is necessary to exclude a slide show type video when providing an Internet search service, or to provide it with a lower priority when providing search results. That is, it is possible to consider a method of processing the general video and the slideshow-type video by adding a separate annotation to the slideshow-type videos.

여기서, 본 발명의 일 실시예에 의한 동영상분류장치에 의하면, 슬라이드 쇼 타입 동영상들을 일반 동영상으로부터 구별할 수 있으므로, 이후 구별된 각각의 슬라이드 쇼 타입 동영상들에 대한 주석을 추가하는 것이 가능하다. 이하, 본 발명의 일 실시예에 의한 동영상분류장치를 설명한다. Here, according to the moving picture classification apparatus according to an embodiment of the present invention, since slide show type moving pictures can be distinguished from general moving pictures, it is possible to add a comment to each of the differentiated slide show type moving pictures thereafter. Hereinafter, a video classification apparatus according to an embodiment of the present invention will be described.

도1은 본 발명의 일 실시예에 의한 동영상분류장치를 나타내는 블록도이다. 1 is a block diagram showing a video classification apparatus according to an embodiment of the present invention.

도1을 참조하면, 본 발명의 일 실시예에 의한 동영상분류장치(100)는 프레임 추출부(110), 이동벡터 추출부(120) 및 판별부(130)를 포함할 수 있다.Referring to FIG. 1 , a video classification apparatus 100 according to an embodiment of the present invention may include a frame extraction unit 110 , a motion vector extraction unit 120 , and a determination unit 130 .

프레임추출부(110)는 입력받은 대상 동영상(V)으로부터 복수의 프레임을 추출할 수 있다. 프레임추출부(110)는 대상동영상(V) 중에서 특정재생구간을 기준시간간격으로 샘플링하여, 목표개수의 프레임들 추출할 수 있다.The frame extraction unit 110 may extract a plurality of frames from the received target video V. The frame extraction unit 110 may extract a target number of frames by sampling a specific playback section from the target video V at a reference time interval.

예를들어, 특정재생구간을 대상동영상(V)의 재생시점부터 15초까지로 설정하고, 기준시간간격은 0.3sec로 설정할 수 있다. 이 경우, 50개의 프레임이 추출되므로, 목표개수는 50개에 해당한다. 즉, 대상동영상(V)의 초반 50개의 프레임을 확인하여 대상동영상(V)이 슬라이드 타입 동영상(V1)에 해당하는지 판별할 수 있다. 다만, 특정재생구간의 길이나 기준시간간격 등은 실시예에 따라 다양하게 변경가능하며, 특정재생구간을 대상동영상(V)의 시작시점이외에 임의의 시점으로 설정하는 것도 가능하다. For example, a specific playback section may be set to 15 seconds from the playback time of the target video V, and the reference time interval may be set to 0.3 sec. In this case, since 50 frames are extracted, the target number corresponds to 50 frames. That is, by checking the first 50 frames of the target video V, it can be determined whether the target video V corresponds to the slide-type video V1. However, the length of the specific playback section or the reference time interval can be variously changed depending on the embodiment, and it is also possible to set the specific playback section to an arbitrary point in time other than the start point of the target video V.

한편, 실시예에 따라서는 대상동영상(V)의 전체 재생구간의 길이가 특정재생구간의 길이보다 짧은 경우가 있을 수 있다. 예를들어, 특정재생구간의 길이가 15초일 때, 대상동영상(V)의 전체 재생구간의 길이가 15초 미만인 경우에는, 0.3sec의 기준시간간격으로 샘플링하는 경우 목표개수의 프레임들을 추출하지 못하게 된다. 이 경우, 프레임추출부(110)는 대상동영상(V)의 전체 재생구간을 기준시간간격으로 샘플링하여 가능한 최대 개수의 프레임만을 추출하도록 할 수 있다.Meanwhile, depending on the embodiment, the length of the entire playback section of the target video V may be shorter than the length of the specific playback section. For example, when the length of a specific playback section is 15 seconds, when the length of the entire playback section of the target video V is less than 15 seconds, when sampling at a reference time interval of 0.3 sec, the target number of frames cannot be extracted do. In this case, the frame extraction unit 110 may sample the entire playback section of the target video V at a reference time interval to extract only the maximum possible number of frames.

이동벡터 추출부(120)는 프레임들 사이의 광흐름(optical flow)를 나타내는 이동벡터를 추출할 수 있다. 여기서, 이동벡터 추출부(120)는 이동벡터 추출을 위해 Lucas-Kanade 기법을 활용할 수 있으며, 이외에도 광흐름을 추출하기 위한 다양한 기법들을 활용할 수 있다. The motion vector extractor 120 may extract a motion vector representing an optical flow between frames. Here, the motion vector extraction unit 120 may utilize the Lucas-Kanade technique for motion vector extraction, and in addition, various techniques for extracting the light flow may be utilized.

구체적으로, 도5에 도시한 바와 같이, 프레임에 포함된 객체들의 움직임에 대응한 이동량과 이동방향을 나타내는 이동벡터(A)들이 표시될 수 있다. 여기서, 이동벡터들은 각각의 시점별(t-1, t, t+1)로 추출할 수 있다. Specifically, as shown in FIG. 5 , motion vectors A indicating a movement amount and a movement direction corresponding to the movement of objects included in a frame may be displayed. Here, the motion vectors may be extracted for each time point (t-1, t, t+1).

도5(a)에 도시한 바와 같이 슬라이드 쇼 타입 동영상(V1)의 경우, 동일한 시점 내에서의 이동벡터(A)들은 일정한 크기와 방향성을 가지는 것을 확인할 수 있다. 즉, (t) 시점에서의 이동벡터(A)들을 확인하면, 각각 동일한 방향성을 가지며, 크기의 편차도 크지 않음을 확인할 수 있다. 이는 (t-1) 시점과 (t+1) 시점에서도 동일하다. 또한, (t-1) 시점부터 (t+1) 시점으로의 변화에 따라, 이동벡터(A)들이 일정한 방향으로 점차 크기가 증가하는 일정한 패턴을 가지는 것도 확인할 수 있다. As shown in Fig. 5(a), in the case of the slide show type video V1, it can be confirmed that the motion vectors A within the same viewpoint have a constant magnitude and direction. That is, if the motion vectors A at the time point (t) are checked, it can be confirmed that each has the same directionality, and the deviation in magnitude is not large. This is the same at time (t-1) and at time (t+1). Also, it can be confirmed that the motion vectors A have a constant pattern in which the magnitudes of the motion vectors A gradually increase in a certain direction according to the change from the time point (t-1) to the time point (t+1).

반면에, 도5(b)의 일반 영상(V2)의 경우에는, 동일한 시점 내에서의 이동벡터(A)들은 각자 상이한 크기와 방향성을 가지며, (t-1) 시점부터 (t+1) 시점으로의 변화에 불구하고, 이동벡터(A)들의 변화에는 특별한 패턴이 존재하지 않을 확인할 수 있다.On the other hand, in the case of the general image V2 of FIG. 5(b), the motion vectors A within the same view have different magnitudes and directions, respectively, from the time point (t-1) to the time point (t+1). In spite of the change to , it can be confirmed that there is no special pattern in the change of the motion vectors (A).

따라서, 이동벡터 추출부(120)에서 추출한 이동벡터들을 활용하여, 입력받은 대상동영상(V)이 슬라이드 쇼 타입 동영상(V1)인지, 아니면 일반 동영상(V2)인지를 구별하는 것이 가능하다. Accordingly, it is possible to distinguish whether the input target video V is a slide show type video V1 or a general video V2 by using the motion vectors extracted by the motion vector extraction unit 120 .

구체적으로, 이동벡터 추출부(120)는 복수의 프레임 중에서 연속하는 두 개의 프레임들을 순차적으로 선택할 수 있으며, 선택한 두 개의 프레임에 대응하는 시점별로, 두 개의 프레임 내에 포함된 객체들의 이동량 및 이동방향을 나타내는 복수의 이동벡터들을 추출할 수 있다. 즉, 도7에 도시한 바와 같이, 이동벡터 추출부(120)는 (t-1)시점과 (t) 시점의 프레임을 선택한 후, 이로부터 (t-1) 시점에 해당하는 이동벡터들을 추출할 수 있으며, 이후 (t) 시점과 (t+1) 시점의 프레임을 선택한 후, 이로부터 (t) 시점에 대한 이동벡터들을 추출할 수 있다. 이후, 동일한 방식으로 목표개수의 프레임에 대하여 각각 대응하는 시점별 이동벡터들을 추출할 수 있다. Specifically, the motion vector extracting unit 120 may sequentially select two consecutive frames from among a plurality of frames, and for each time point corresponding to the selected two frames, the movement amount and movement direction of objects included in the two frames. It is possible to extract a plurality of motion vectors indicated. That is, as shown in FIG. 7 , the motion vector extractor 120 selects the frames at the time (t-1) and the time (t), and then extracts motion vectors corresponding to the time point (t-1) therefrom. Then, after selecting the frames at the time (t) and the time (t+1), motion vectors for the time (t) can be extracted from them. Thereafter, motion vectors for respective viewpoints corresponding to the target number of frames may be extracted in the same manner.

실시예에 따라서는, 도7에 도시한 바와 같이, 이동벡터 추출부(120)가 각각의 이동벡터를 x축 성분과 y축 성분으로 분리하고, x축 성분들의 표준편차와 y축 성분들의 표준편차를 연산할 수 있다. 예를들어, (t-1) 시점에 생성한 복수의 이동벡터들을 각각 x축 성분과 y축 성분으로 분리하고, x축 성분들의 표준편차와 상기 y축 성분들의 표준편차를 각각 연산할 수 있다. 여기서, 연산한 결과값들이 (t-1) 시점에서의 x축 표준편차(x-std(t-1))와, y축 표준편차(y-std(t-1))에 해당한다. In some embodiments, as shown in FIG. 7 , the motion vector extraction unit 120 separates each motion vector into an x-axis component and a y-axis component, and the standard deviation of the x-axis components and the standard of the y-axis components The deviation can be calculated. For example, a plurality of motion vectors generated at time (t-1) may be separated into an x-axis component and a y-axis component, respectively, and the standard deviation of the x-axis components and the standard deviation of the y-axis components may be calculated, respectively. . Here, the calculated results correspond to the x-axis standard deviation (x-std (t-1) ) and the y-axis standard deviation (y-std (t-1) ) at time (t-1).

이후, 동일한 방식으로 각 시점별 x축 성분들의 표준편차와 y축 성분들의 표준편차를 연산하여, 각각의 시점에서의 x축 표준편차와 y축 표준편차로 설정할 수 있다. 여기서, 생성된 각각의 시점별 x축 표준편차와 y축 표준편차는 이후 1차원 입력으로 판별부(130)로 제공될 수 있다. Thereafter, the standard deviation of the x-axis components and the standard deviation of the y-axis components for each time point may be calculated in the same manner, and may be set as the x-axis standard deviation and the y-axis standard deviation at each time point. Here, the generated x-axis standard deviation and y-axis standard deviation for each viewpoint may be provided to the determining unit 130 as a one-dimensional input thereafter.

한편, 대상동영상(V)의 전체 재생구간의 길이가 특정재생구간의 길이보다 짧은 경우에는 가능한 최대 개수의 프레임만을 추출하였으므로, 1차원 입력의 개수가 부족할 수 있다. 예를들어, 가능한 최대 개수의 프레임의 수가 20개이고, 목표개수가 30개인 경우, 목표개수에 따른 1차원 입력은 [x-std(i=1~29), y-std(i=1~29)]이므로, 1차원입력은 dim(1, 58) 즉, 총 58개의 디멘션이 입력되어야 한다. 그러나, 실제로는 20개의 프레임만이 생성되었으므로, 그에 대응하는 1차원 입력에는 [x-std(i=1~19), y-std(i=1~19)]가 포함될 수 있다. 즉, 1차원 입력의 디멘션(dimenstion)은 dim(1,38)에 해당하므로, 디멘션 차이를 맞추기 위하여, 이동벡터 추출부(120)는 dim(1,38) 이후의 디멘션에 대해 패딩을 수행할 수 있다. 이 경우, 이동벡터 추출부(120)는 0을 입력하거나, 임의의 랜덤값을 입력하는 등 다양한 방식으로 패딩을 수행할 수 있다. On the other hand, when the length of the entire playback section of the target video V is shorter than the length of the specific playback section, since only the maximum possible number of frames is extracted, the number of one-dimensional inputs may be insufficient. For example, if the maximum possible number of frames is 20 and the target number is 30, the one-dimensional input according to the target number is [x-std(i=1~29), y-std(i=1~29) )], so the one-dimensional input is dim(1, 58), that is, a total of 58 dimensions must be input. However, since only 20 frames are actually generated, the corresponding one-dimensional input may include [x-std(i=1-19), y-std(i=1-19)]. That is, since the dimension of the one-dimensional input corresponds to dim(1,38), in order to match the dimension difference, the motion vector extractor 120 performs padding on the dimensions after dim(1,38). can In this case, the motion vector extractor 120 may perform padding in various ways, such as inputting 0 or an arbitrary random value.

판별부(130)는 미리 학습된 분류모델(C)에 이동벡터의 정보를 입력하여, 대상동영상(V)이 슬라이드 쇼 타입 동영상(V1)에 해당하는지 판별할 수 있다. 여기서, 슬라이드 쇼 타입 동영상(V1)이 아닌 것으로 판별되면 일반 동영상(V2)으로 분류할 수 있다. The determining unit 130 may input motion vector information to the pre-learned classification model C to determine whether the target video V corresponds to the slide show type video V1. Here, if it is determined that it is not the slide show type moving picture V1, it may be classified as a general moving picture V2.

판별부(130)가 입력하는 이동벡터의 정보는, 이동벡터 추출부(120)로부터 제공받은 1차원 입력일 수 있으며, 판별부(130)는 1차원 입력을 분류모델(C)에 입력할 수 있다. 이 경우, 분류모델(C)은 1차원 입력에 포함된 각각의 시점별 x축 표준편차 및 y축 표준편차와, 연속하는 시점들 사이의 x축 표준편차와 y축 표준편차의 변화량을 이용하여, 대상동영상(V)이 슬라이드 쇼 타입 동영상(V1)에 해당하는지 판별할 수 있다. The motion vector information input by the determining unit 130 may be a one-dimensional input provided from the motion vector extracting unit 120 , and the determining unit 130 may input the one-dimensional input to the classification model C. . In this case, the classification model (C) uses the x-axis standard deviation and y-axis standard deviation for each time point included in the one-dimensional input, and the amount of change of the x-axis standard deviation and y-axis standard deviation between consecutive time points. , it may be determined whether the target video V corresponds to the slide show type video V1.

구체적으로, 도9를 참조하면, 슬라이드 쇼 타입 동영상의 경우 각각의 시점별 x축 표준편차 및 y축 표준편차가 일정한 패턴을 가지면서 변화하지만, 일반 동영상의 경우 일정한 패턴이 없음을 확인할 수 있다. 즉, 분류모델(C)은 x축 표준편차 및 y축 표준편차의 변화패턴을 확인하는 방식으로 슬라이드 쇼 타입 동영상(V1)에 해당하는지를 판별하는 것이 가능하다. Specifically, referring to FIG. 9 , in the case of a slide show type video, it can be seen that the x-axis standard deviation and the y-axis standard deviation for each viewpoint change while having a constant pattern, but in the case of a general video, it can be confirmed that there is no constant pattern. That is, it is possible to determine whether the classification model C corresponds to the slideshow type video V1 by checking the pattern of changes in the x-axis standard deviation and the y-axis standard deviation.

여기서, 분류모델(C)에는, 다양한 종류의 슬라이드 쇼 타입 동영상들의 각각의 시점별 x축 표준편차 및 y축 표준편차와, 연속하는 시점들 사이의 x축 표준편차와 y축 표준편차의 변화량들이 미리 학습되어 있을 수 있다. 따라서, 분류모델(C)은 이미 학습된 슬라이드 쇼 타입 동영상들을 각각의 시점별 x축 표준편차 및 y축 표준편차와, 연속하는 시점들 사이의 x축 표준편차와 y축 표준편차의 변화량을, 입력받은 1차원 입력과 비교하여 대상동영상이 슬라이드 쇼 타입 동영상에 해당하는지를 판별할 수 있다.Here, in the classification model (C), the x-axis standard deviation and y-axis standard deviation for each time of various types of slideshow type videos, and the amount of change of the x-axis standard deviation and the y-axis standard deviation between consecutive viewpoints are may have been pre-learned. Therefore, the classification model (C) calculates the x-axis standard deviation and y-axis standard deviation for each time point of the already learned slideshow type videos, and the amount of change of the x-axis standard deviation and the y-axis standard deviation between successive time points, It may be determined whether the target video corresponds to a slide show type video by comparing the received one-dimensional input.

분류모델(C)은 지도학습(Supervised learing) 기법에 따라 미리 레이블링(labeling)된 복수의 학습동영상들을 DT(Decision Tree), RF(Random Forest), SVM(Support vector machine), DNN(Deep Neural Network) 등의 머신러닝 기법에 따라 학습하여 형성할 수 있다.The classification model (C) uses a plurality of pre-labeled learning videos according to the supervised learning technique, such as DT (Decision Tree), RF (Random Forest), SVM (Support Vector Machine), and DNN (Deep Neural Network). ) can be learned and formed according to machine learning techniques such as

구체적으로, 도6에 도시한 바와 같이, 각각의 학습동영상들은 슬라이드쇼 타입 동영상인지 여부와, 슬라이드쇼 타입 동영상인 경우에는 슬라이드 이미지의 개수, 슬라이드 이미지의 이동여부, 특수효과의 포함여부 등을 표시하도록 각각 레이블링(labeling)될 수 있다. 이후, 레이블링된 각각의 학습동영상을 이용하여 분류모델(C)을 학습시킬 수 있다. 실시예에 따라서는, CNN(Convolutioinal Neural Network) 등을 이용하여 생성한 임의의 슬라이드 이미지로, 다양한 종류의 슬라이드 쇼 타입 동영상을 생성한 후, 생성한 슬라이드 쇼 타입 동영상들을 학습시키는 방식으로 분류모델(C)을 생성하는 것도 가능하다. Specifically, as shown in FIG. 6 , whether each of the learning videos is a slideshow type video, and in the case of a slideshow type video, the number of slide images, whether the slide images are moved, whether special effects are included, etc. are displayed. Each may be labeled to do so. Thereafter, the classification model C can be trained using each labeled learning video. According to an embodiment, a classification model ( It is also possible to create C).

한편, 도8에 도시한 바와 같이, 본 발명의 다른 실시예에 의한 동영상분류장치(100)는, 이동벡터들을 x축 성분과 y축 성분으로 분리하지 않고, 시간에 따라 변화하는 이동벡터들을 포함하는 3차원 입력을 바탕으로, 해당 대상동영상이 슬라이드 쇼 타입 동영상에 해당하는지 판별하는 것도 가능하다. On the other hand, as shown in FIG. 8 , the video classification apparatus 100 according to another embodiment of the present invention does not separate the motion vectors into an x-axis component and a y-axis component, but includes motion vectors that change with time. It is also possible to determine whether the corresponding target video corresponds to a slide show type video based on the 3D input.

즉, 이동벡터 추출부(120)는, 이동벡터들을 x축 성분과 y축 성분으로 분리하여 표준편차를 연산하는 대신에, 각각의 시점별 이동벡터들을 취합하여, 시간에 따라 이동벡터들이 변화하는 3차원 입력을 생성할 수 있다. That is, the motion vector extractor 120 collects motion vectors for each viewpoint, instead of calculating the standard deviation by dividing the motion vectors into an x-axis component and a y-axis component, so that the motion vectors change over time. You can create 3D input.

이후, 판별부(130)는 3차원 입력을 분류모델(C)에 입력할 수 있으며, 분류모델(C)은 시간에 따른 이동벡터들의 변화를 학습된 변화패턴과 비교하여, 대상동영상이 슬라이드 쇼 타입 동영상에 해당하는지 판별할 수 있다. 여기서, 분류모델(C)은 지도학습 기법에 따라 미리 레이블링된 복수의 학습동영상들을 3D-ResNet, SlowFast, R(2+1)D 등의 3차원 입력을 처리하는 머신러닝 기법, 특히 콘벌루션(convolution) 계열의 기계학습 모델에 따라 학습하여 미리 생성된 것일 수 있다. 즉, 분류모델(C)은 복수의 학습동영상들의 각 시점별 이동벡터들을 추출하여 형성한 3차원 입력들을 학습할 수 있으며, 이를 통하여 슬라이드 타입 동영상에 대응하는 변화패턴과 일반 동영상의 변화패턴을 구별할 수 있다. Thereafter, the determining unit 130 may input a three-dimensional input to the classification model C, and the classification model C compares changes in motion vectors with time with a learned change pattern, and the target video is displayed as a slide show. It can be determined whether it corresponds to a type video. Here, the classification model (C) is a machine learning technique that processes a three-dimensional input such as 3D-ResNet, SlowFast, R(2+1)D, etc. for a plurality of training videos labeled in advance according to a supervised learning technique, especially convolution ( It may be a pre-generated one by learning according to a machine learning model of the convolution series. That is, the classification model (C) can learn three-dimensional inputs formed by extracting motion vectors for each viewpoint of a plurality of learning videos, and through this, a change pattern corresponding to a slide-type video and a change pattern of a general video are distinguished. can do.

도10 및 도11은 본 발명의 일 실시예에 의한 동영상분류방법을 나타내는 순서도이다. 여기서, 본 발명의 일 실시예에 의한 동영상분류방법은 슬라이드 쇼(slide show) 타입 동영상을 일반 동영상으로부터 구별하는 것으로, 실시예에 따라서는 동영상분류장치에 의하여 각각의 단계가 수행될 수 있다. 10 and 11 are flowcharts illustrating a video classification method according to an embodiment of the present invention. Here, the moving picture classification method according to an embodiment of the present invention distinguishes a slide show type moving picture from a general moving picture, and depending on the embodiment, each step may be performed by the moving picture classification apparatus.

슬라이드 쇼 타입 동영상은 한 장 이상의 슬라이드 이미지가 표시되는 동영상으로, 동영상 내에서 슬라이드 이미지가 이동하거나, 슬라이드 이미지에 대한 특수효과가 표시되는 경우에도 슬라이드 쇼 타입 동영상에 해당하는 것으로 판단할 수 있다. 여기서, 특수효과는 슬라이드 이미지에 대한 페이드-인(fade-in), 페이드-아웃(fade-out), 줌-인(zoom-in), 줌-아웃(zoom-out), 스티커 부착 등을 포함할 수 있으며, 이외에도 실시예에 따라 다양하게 추가, 변경될 수 있다. The slideshow type video is a video in which one or more slide images are displayed, and even when a slide image is moved within the video or a special effect on the slide image is displayed, it may be determined to correspond to the slideshow type video. Here, the special effects include fade-in, fade-out, zoom-in, zoom-out, and sticker attachment for slide images. and may be variously added or changed according to embodiments.

도10을 참조하면, 본 발명의 일 실시예에 의한 동영상분류방법은, 먼저 입력받은 대상 동영상으로부터 복수의 프레임을 추출할 수 있다(S100). 즉, 대상동영상 중에서 특정재생구간을 기준시간간격으로 샘플링하여, 목표개수의 프레임들 추출할 수 있다. 예를들어, 특정재생구간은 대상동영상의 재생시작시점부터 15초까지의 구간으로 설정하고, 기준시간간격은 0.3sec로 설정할 수 있다. 이 경우, 총 50개의 프레임을 추출하여, 슬라이드 쇼 타입 동영상에 해당하는지 판별하도록 할 수 있다. Referring to FIG. 10 , in the video classification method according to an embodiment of the present invention, a plurality of frames may be extracted from the first input target video ( S100 ). That is, by sampling a specific playback section from the target video at a reference time interval, a target number of frames can be extracted. For example, the specific playback section may be set to a section from the playback start time of the target video to 15 seconds, and the reference time interval may be set to 0.3 sec. In this case, it is possible to extract a total of 50 frames and determine whether they correspond to a slide show type video.

실시예에 따라서는, 대상동영상의 전체 재생구간의 길이가 특정재생구간의 길이보다 짧은 경우가 있을 수 있다. 이 경우, 전체 재생구간을 기준시간간격으로 샘플링하여 가능한 최대 개수의 프레임을 추출할 수 있다. Depending on the embodiment, the length of the entire playback section of the target video may be shorter than the length of the specific playback section. In this case, the maximum possible number of frames can be extracted by sampling the entire reproduction section at a reference time interval.

대상동영상으로부터 복수의 프레임을 추출한 이후에는, 프레임들 사이의 광흐름(optical flow)을 나타내는 이동벡터를 추출할 수 있다(S200). 여기서, 이동벡터들은 Lucas-Kanade 기법 등을 활용하여 추출할 수 있으며, 추출한 각각의 이동벡터들은 프레임 내에 포함된 객체들의 움직임에 따른 이동량과 이동방향을 나타낼 수 있다. 따라서, 이동벡터들을 이용하여 대상동영상이 슬라이드 쇼 타입 동영상에 해당하는지 판별하는 것이 가능하다. After extracting a plurality of frames from the target video, a motion vector representing an optical flow between the frames may be extracted ( S200 ). Here, the motion vectors can be extracted by using the Lucas-Kanade technique, etc., and each of the extracted motion vectors can represent the amount of motion and the direction of motion according to the motion of objects included in the frame. Accordingly, it is possible to determine whether the target video corresponds to the slide show type video using the motion vectors.

구체적으로, 도11(a)에 도시한 바와 같이, 복수의 프레임 중에서 연속하는 두 개의 프레임들을 순차적으로 선택할 수 있으며(S211), 선택한 두 개의 프레임에 대응하는 시점별로, 두 개의 프레임 내에 포함된 객체들의 이동량 및 이동방향을 나타내는 복수의 이동벡터들을 추출할 수 있다.Specifically, as shown in FIG. 11( a ), two consecutive frames may be sequentially selected from among a plurality of frames ( S211 ), and for each viewpoint corresponding to the selected two frames, an object included in the two frames It is possible to extract a plurality of motion vectors indicating the movement amount and the movement direction.

이후, 하나의 시점에서 생성한 복수의 이동벡터들을 각각 x축 성분과 y축 성분으로 분리하고, x축 성분들의 표준편차와 상기 y축 성분들의 표준편차를 연산하여, 해당 시점에서의 x축 표준편차와 y축 표준편차로 설정할 수 있다(S213). 또한, 각각의 시점별로 x축 성분들의 표준편차와 y축 성분들의 표준편차를 동일한 방식으로 연산하여, 각각의 시점에서의 x축 표준편차와 y축 표준편차로 설정할 수 있다(S214). Thereafter, a plurality of motion vectors generated at one time point are separated into an x-axis component and a y-axis component, respectively, and the standard deviation of the x-axis components and the standard deviation of the y-axis components are calculated, and the x-axis standard at the time point It can be set as the deviation and the y-axis standard deviation (S213). In addition, by calculating the standard deviation of the x-axis components and the standard deviation of the y-axis components for each time point in the same way, it can be set as the x-axis standard deviation and the y-axis standard deviation at each time point (S214).

이동벡터들이 추출된 이후에는, 미리 학습된 분류모델에 이동벡터의 정보를 입력하여, 대상 동영상이 슬라이드 쇼 타입 동영상에 해당하는지 판별할 수 있다(S300). 여기서는, 각각의 시점별 x축 표준편차와 y축 표준편차를 분류모델에 입력할 수 있으며, 분류모델은 각각의 시점별 x축 표준편차 및 y축 표준편차와, 연속하는 시점들 사이의 x축 표준편차와 y축 표준편차의 변화량을 이용하여, 대상동영상이 슬라이드 쇼 타입 동영상에 해당하는지 판별할 수 있다. 이때, 분류모델은 지도학습(supervised learning) 기법에 따라, 미리 레이블링(labeling)된 복수의 학습동영상들을 DT(Decision Tree), RF(Random Forest), SVM(Support vector machine), DNN(Deep Neural Network) 등의 머신러닝 기법으로 학습하여 형성한 것일 수 있다. After the motion vectors are extracted, it is possible to determine whether the target video corresponds to the slideshow type video by inputting the motion vector information to the pre-trained classification model (S300). Here, the x-axis standard deviation and y-axis standard deviation for each time point can be input to the classification model, and the classification model is the x-axis standard deviation and y-axis standard deviation for each time point, and the x-axis between consecutive time points. Using the standard deviation and the amount of change of the y-axis standard deviation, it is possible to determine whether the target video corresponds to the slideshow type video. At this time, the classification model uses a plurality of pre-labeled learning videos according to a supervised learning technique, such as DT (Decision Tree), RF (Random Forest), SVM (Support Vector Machine), and DNN (Deep Neural Network). ) may be formed by learning with machine learning techniques such as

한편, 본 발명의 다른 실시예에 의한 동영상분류방법에 의하면, 이동벡터들을 x축 성분과 y축 성분으로 분리하지 않고, 시간에 따라 변화하는 이동벡터들을 포함하는 3차원 입력을 바탕으로, 해당 대상동영상이 슬라이드 쇼 타입 동영상에 해당하는지 판별하는 것도 가능하다. 즉, 도11(b)에 도시한 바와 같이, 이동벡터를 추출하는 단계(S200)에서는 먼저 복수의 프레임 중에서 연속하는 두 개의 프레임들을 순차적으로 선택할 수 있으며(S221), 선택한 두 개의 프레임에 대응하는 시점별로, 두 개의 프레임 내에 포함된 객체들의 이동량 및 이동방향을 나타내는 복수의 이동벡터들을 추출할 수 있다(S222). 이후, 각각의 시점별 이동벡터들을 취합하여, 시간에 따라 상기 이동벡터들이 변화하는 3차원 입력을 생성할 수 있다(S223). On the other hand, according to the video classification method according to another embodiment of the present invention, the target object is not divided into an x-axis component and a y-axis component, but based on a three-dimensional input including motion vectors that change with time. It is also possible to determine whether the video corresponds to a slide show type video. That is, as shown in FIG. 11( b ), in the step of extracting the motion vector ( S200 ), two consecutive frames may be sequentially selected from among the plurality of frames ( S221 ), and corresponding to the selected two frames For each viewpoint, a plurality of motion vectors indicating the movement amount and movement direction of the objects included in the two frames may be extracted (S222). Thereafter, by collecting the motion vectors for each viewpoint, a 3D input in which the motion vectors change according to time may be generated ( S223 ).

이 경우, 판별하는 단계(S300)에서는, 3차원 입력을 분류모델에 입력할 수 있으며, 분류모델은 시간에 따른 이동벡터들 변화를 학습된 변화패턴과 비교하여, 대상동영상이 슬라이드 쇼 타입 동영상에 해당하는지 판별할 수 있다. 이때, 분류모델은 지도학습 기법에 따라 미리 레이블링된 복수의 학습동영상들을 3D-ResNet, SlowFast, R(2+1)D 등의 3차원 입력을 처리하는 머신러닝 기법에 따라 학습하여 미리 생성된 것일 수 있다. 즉, 분류모델은 복수의 학습동영상들의 각 시점별 이동벡터들을 추출하여 형성한 3차원 입력들을 학습할 수 있으며, 이를 통하여 슬라이드 타입 동영상에 대응하는 변화패턴과 일반 동영상의 변화패턴을 구별할 수 있다. In this case, in the determining step ( S300 ), a three-dimensional input may be input to the classification model, and the classification model compares the change in motion vectors over time with the learned change pattern, and the target video is converted to a slide show type video. It can be determined whether At this time, the classification model is pre-created by learning a plurality of training videos labeled in advance according to the supervised learning technique according to a machine learning technique that processes 3D inputs such as 3D-ResNet, SlowFast, and R(2+1)D. can That is, the classification model can learn three-dimensional inputs formed by extracting motion vectors for each viewpoint of a plurality of learning videos, and through this, a change pattern corresponding to a slide-type video and a change pattern of a general video can be distinguished. .

전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수개 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 애플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.The present invention described above can be implemented as computer-readable code on a medium in which a program is recorded. The computer-readable medium may continuously store a computer-executable program, or may be temporarily stored for execution or download. In addition, the medium may be various recording means or storage means in the form of a single or several hardware combined, it is not limited to a medium directly connected to any computer system, and may exist distributed on a network. Examples of the medium include a hard disk, a magnetic medium such as a floppy disk and a magnetic tape, an optical recording medium such as CD-ROM and DVD, a magneto-optical medium such as a floppy disk, and those configured to store program instructions, including ROM, RAM, flash memory, and the like. In addition, examples of other media may include recording media or storage media managed by an app store that distributes applications, sites that supply or distribute various other software, and servers. Accordingly, the above detailed description should not be construed as restrictive in all respects but as exemplary. The scope of the present invention should be determined by a reasonable interpretation of the appended claims, and all modifications within the equivalent scope of the present invention are included in the scope of the present invention.

본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 본 발명에 따른 구성요소를 치환, 변형 및 변경할 수 있다는 것이 명백할 것이다.The present invention is not limited by the above embodiments and the accompanying drawings. For those of ordinary skill in the art to which the present invention pertains, it will be apparent that the components according to the present invention can be substituted, modified and changed without departing from the technical spirit of the present invention.

100: 동영상분류장치 110: 프레임추출부
120: 이동벡터 추출부 130: 판별부
100: video classification device 110: frame extraction unit
120: motion vector extraction unit 130: determination unit

Claims (13)

슬라이드 쇼(slide show) 타입 동영상을 구별하는 동영상분류방법에 있어서,
입력받은 대상 동영상으로부터 복수의 프레임을 추출하는 단계;
상기 프레임들 사이의 광흐름(optical flow)을 나타내는 이동벡터를 추출하는 단계; 및
미리 학습된 분류모델에 상기 이동벡터에 대한 정보를 입력하여, 상기 대상 동영상이 상기 슬라이드 쇼 타입 동영상에 해당하는지 판별하는 단계를 포함하는 것으로,
상기 이동벡터를 추출하는 단계는
상기 복수의 프레임 중에서 연속하는 두 개의 프레임들을 순차적으로 선택하는 단계;
상기 선택한 두 개의 프레임에 대응하는 시점별로, 상기 두 개의 프레임 내에 포함된 객체들의 이동량 및 이동방향을 나타내는 복수의 이동벡터들을 추출하는 단계; 및
각각의 시점별 이동벡터들을 취합하여, 시간에 따라 상기 이동벡터들이 변화하는 3차원 입력을 생성하는 단계를 포함하는 것을 특징으로 하는 동영상분류방법.
In the video classification method for distinguishing a slide show type video,
extracting a plurality of frames from the received target video;
extracting a motion vector representing an optical flow between the frames; and
Inputting information on the motion vector to a pre-learned classification model, and determining whether the target video corresponds to the slideshow type video,
The step of extracting the motion vector is
sequentially selecting two consecutive frames from among the plurality of frames;
extracting a plurality of motion vectors representing movement amounts and movement directions of objects included in the two frames for each viewpoint corresponding to the two selected frames; and
A video classification method comprising the step of collecting motion vectors for each viewpoint, and generating a three-dimensional input in which the motion vectors change with time.
제1항에 있어서, 상기 슬라이드 쇼 타입 동영상은
한 장 이상의 슬라이드 이미지가 표시되는 동영상으로, 상기 동영상 내에서 상기 슬라이드 이미지가 이동하거나, 상기 슬라이드 이미지에 대한 특수효과가 표시되는 것을 특징으로 하는 동영상분류방법.
According to claim 1, wherein the slide show type video
A video classification method in which one or more slide images are displayed, wherein the slide image moves within the video or a special effect on the slide image is displayed.
제2항에 있어서, 상기 특수효과는
상기 슬라이드 이미지에 대한 페이드 인(fade-in), 페이드 아웃(fade-out), 줌인(zoom-in), 줌아웃(zoom-out) 및 스티커 부착 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 동영상분류방법.
The method of claim 2, wherein the special effect is
Classification of videos comprising at least one of fade-in, fade-out, zoom-in, zoom-out, and sticker attachment for the slide image Way.
제1항에 있어서, 상기 프레임을 추출하는 단계는
상기 대상동영상 중에서 특정재생구간을 기준시간간격으로 샘플링하여, 목표개수의 프레임들 추출하는 것을 특징으로 하는 동영상분류방법.
The method of claim 1, wherein extracting the frame comprises:
A video classification method, characterized in that by sampling a specific playback section from the target video at a reference time interval, and extracting a target number of frames.
삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 제1항에 있어서, 상기 판별하는 단계는
상기 3차원 입력을 상기 분류모델에 입력하고, 상기 분류모델은 시간에 따른 상기 이동벡터들의 변화가 학습된 변화패턴과 비교하여, 상기 대상동영상이 상기 슬라이드 쇼 타입 동영상에 해당하는지 판별하는 것을 특징으로 하는 동영상분류방법.
The method of claim 1, wherein the determining comprises:
The three-dimensional input is input to the classification model, and the classification model determines whether the target video corresponds to the slideshow type video by comparing the change of the motion vectors with time with a learned change pattern. How to classify videos.
제10항에 있어서, 상기 분류모델은
지도학습 기법에 따라 미리 레이블링(labeling)된 복수의 동영상들을 3D-ResNet, SlowFast, R(2+1)D 중 적어도 어느 하나의 3차원 입력을 처리하는 머신러닝 기법에 따라 학습하여 형성한 것을 특징으로 한 동영상분류방법.
11. The method of claim 10, wherein the classification model is
It is characterized in that a plurality of videos labeled in advance according to a supervised learning technique are learned and formed according to a machine learning technique that processes at least one 3D input of 3D-ResNet, SlowFast, and R(2+1)D. video classification method.
하드웨어와 결합되어, 제1항 내지 제4항, 제10항 및 제11항 중 어느 한 항의 동영상분류방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
A computer program stored in a medium in combination with hardware to execute the moving picture classification method of any one of claims 1 to 4, 10 and 11.
슬라이드 쇼(slide show) 타입 동영상을 구별하는 동영상분류장치에 있어서,
입력받은 대상 동영상으로부터 복수의 프레임을 추출하는 프레임추출부;
상기 프레임들 사이의 광흐름(optical flow)를 나타내는 이동벡터를 추출하는 이동벡터 추출부; 및
미리 학습된 분류모델에 상기 이동벡터에 대한 정보를 입력하여, 상기 대상동영상이 상기 슬라이드 쇼 타입 동영상에 해당하는지 판별하는 판별부를 포함하는 것으로,
상기 이동벡터 추출부는
상기 복수의 프레임 중에서 연속하는 두 개의 프레임들을 순차적으로 선택하고, 상기 선택한 두 개의 프레임에 대응하는 시점별로, 상기 두 개의 프레임 내에 포함된 객체들의 이동량 및 이동방향을 나타내는 복수의 이동벡터들을 추출한 후, 각각의 시점별 이동벡터들을 취합하여, 시간에 따라 상기 이동벡터들이 변화하는 3차원 입력을 생성하는 것을 특징으로 하는 동영상분류장치.
In the video classification device for distinguishing slide show (slide show) type video,
a frame extraction unit for extracting a plurality of frames from the received target video;
a motion vector extractor for extracting a motion vector representing an optical flow between the frames; and
and a determining unit that inputs information about the motion vector to a pre-learned classification model and determines whether the target video corresponds to the slideshow type video,
The motion vector extraction unit
After sequentially selecting two consecutive frames from among the plurality of frames, and extracting a plurality of motion vectors indicating the amount and direction of movement of the objects included in the two frames for each time point corresponding to the two selected frames, A video classification apparatus, characterized in that by collecting motion vectors for each viewpoint, a three-dimensional input in which the motion vectors change according to time is generated.
KR1020190171078A 2019-12-19 2019-12-19 Apparatus and method for classifying videos KR102296318B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020190171078A KR102296318B1 (en) 2019-12-19 2019-12-19 Apparatus and method for classifying videos
JP2020210439A JP7159274B2 (en) 2019-12-19 2020-12-18 MOVING IMAGE CLASSIFICATION DEVICE AND MOVING IMAGE CLASSIFICATION METHOD

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190171078A KR102296318B1 (en) 2019-12-19 2019-12-19 Apparatus and method for classifying videos

Publications (2)

Publication Number Publication Date
KR20210079028A KR20210079028A (en) 2021-06-29
KR102296318B1 true KR102296318B1 (en) 2021-09-01

Family

ID=76541987

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190171078A KR102296318B1 (en) 2019-12-19 2019-12-19 Apparatus and method for classifying videos

Country Status (2)

Country Link
JP (1) JP7159274B2 (en)
KR (1) KR102296318B1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012015903A (en) * 2010-07-02 2012-01-19 Nec Corp Server device, movement vector detection method and program
JP2019216354A (en) 2018-06-13 2019-12-19 株式会社Jvcケンウッド Video signal detector

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09181951A (en) * 1995-12-25 1997-07-11 Canon Inc Video input device
JP2008278347A (en) * 2007-05-02 2008-11-13 Nikon System:Kk Image display system
JP5321033B2 (en) * 2008-12-11 2013-10-23 ソニー株式会社 Display device and driving method of display device
JP5421627B2 (en) * 2009-03-19 2014-02-19 キヤノン株式会社 Video data display apparatus and method
JP2016201617A (en) * 2015-04-08 2016-12-01 シャープ株式会社 Moving picture reproduction device and method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012015903A (en) * 2010-07-02 2012-01-19 Nec Corp Server device, movement vector detection method and program
JP2019216354A (en) 2018-06-13 2019-12-19 株式会社Jvcケンウッド Video signal detector

Also Published As

Publication number Publication date
KR20210079028A (en) 2021-06-29
JP2021099806A (en) 2021-07-01
JP7159274B2 (en) 2022-10-24

Similar Documents

Publication Publication Date Title
US10528821B2 (en) Video segmentation techniques
JP5510167B2 (en) Video search system and computer program therefor
US8457469B2 (en) Display control device, display control method, and program
US9148619B2 (en) Music soundtrack recommendation engine for videos
US6587574B1 (en) System and method for representing trajectories of moving objects for content-based indexing and retrieval of visual animated data
JP2009095013A (en) System for video summarization, and computer program for video summarization
US20120057775A1 (en) Information processing device, information processing method, and program
Mahrishi et al. Index point detection and semantic indexing of videos—a comparative review
Sreeja et al. Towards genre-specific frameworks for video summarisation: A survey
US11263493B2 (en) Automatic metadata detector based on images
KR20090093904A (en) Apparatus and method for scene variation robust multimedia image analysis, and system for multimedia editing based on objects
US20230140369A1 (en) Customizable framework to extract moments of interest
CN113766330A (en) Method and device for generating recommendation information based on video
CN111209897A (en) Video processing method, device and storage medium
CN115885321A (en) Enhanced unification of real and object recognition attributes
Fei et al. Creating memorable video summaries that satisfy the user’s intention for taking the videos
Helm et al. Shot boundary detection for automatic video analysis of historical films
Leibetseder et al. Sketch-based similarity search for collaborative feature maps
KR102296318B1 (en) Apparatus and method for classifying videos
JP4995770B2 (en) Image dictionary generation device, image dictionary generation method, and image dictionary generation program
CN109299389B (en) Tourist attraction recommendation method and device
Marvaniya et al. Real-time video summarization on mobile
Burget et al. Supervised video scene segmentation using similarity measures
Xu et al. Automatic generated recommendation for movie trailers
Scott et al. Audio-visual classification video browser

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant