KR102534270B1 - Apparatus and method for providing meta-data - Google Patents

Apparatus and method for providing meta-data Download PDF

Info

Publication number
KR102534270B1
KR102534270B1 KR1020180039943A KR20180039943A KR102534270B1 KR 102534270 B1 KR102534270 B1 KR 102534270B1 KR 1020180039943 A KR1020180039943 A KR 1020180039943A KR 20180039943 A KR20180039943 A KR 20180039943A KR 102534270 B1 KR102534270 B1 KR 102534270B1
Authority
KR
South Korea
Prior art keywords
frame
feature vector
video
object recognition
vector
Prior art date
Application number
KR1020180039943A
Other languages
Korean (ko)
Other versions
KR20190119240A (en
Inventor
정진환
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020180039943A priority Critical patent/KR102534270B1/en
Publication of KR20190119240A publication Critical patent/KR20190119240A/en
Application granted granted Critical
Publication of KR102534270B1 publication Critical patent/KR102534270B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

일 실시예에 따른 메타 데이터 제공 장치는 동영상으로부터 시간상 이격되어 있는 복수 개의 프레임을 추출하는 프레임 추출부와, 상기 복수 개의 프레임 각각으로부터 특징 벡터(feature vector)를 추출하는 특징 벡터 추출부와, 객체 인식의 기준이 되는 복수 개의 기준 벡터 중에서 적어도 하나의 기준 벡터를 선정하고, 상기 선정된 적어도 하나의 기준 벡터 각각을 상기 복수 개의 프레임 중 어느 하나의 프레임으로부터 추출된 특징 벡터와 비교하여서 객체 인식 과정을 수행하는 객체 인식부와, 상기 어느 하나의 프레임 내의 객체에 대한 메타 데이터를 획득하여서 상기 동영상에 제공하는 메타 데이터 제공부를 포함한다.An apparatus for providing metadata according to an embodiment includes a frame extractor extracting a plurality of frames spaced apart in time from a video, a feature vector extractor extracting a feature vector from each of the plurality of frames, and object recognition. At least one reference vector is selected from among a plurality of reference vectors that are the basis for, and each of the selected at least one reference vector is compared with a feature vector extracted from any one of the plurality of frames to perform an object recognition process. and an object recognizing unit that obtains metadata about an object within any one frame and provides the metadata to the video.

Figure R1020180039943
Figure R1020180039943

Description

메타 데이터 제공 장치 및 방법{APPARATUS AND METHOD FOR PROVIDING META-DATA}Apparatus and method for providing meta data {APPARATUS AND METHOD FOR PROVIDING META-DATA}

본 발명은 메타 데이터 제공 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for providing meta data.

최근 미디어 컨텐츠에 대한 다양한 비즈니스 모델(BM)이 형성되고 있으며, 이를 반영한 미디어 서비스가 소개 되고 있다. 이러한 미디어 서비스는 크게 미디어 컨텐츠를 소비하기 전이나 소비한 후에 사용자에게 상품을 소개하는 것, 그리고 미디어 컨텐츠를 소비하는 도중에 상품을 소개하는 서비스로 나눌 수 있다. 전자의 대표적인 예가 Netflix나 Amazon에서 크게 활용하고 있는 추천 서비스이고, 후자의 경우는 최근 관심을 끌고 있는 e-commerce이다. Recently, various business models (BMs) for media contents are being formed, and media services reflecting them are being introduced. These media services can be largely divided into services that introduce products to users before or after consuming media content, and services that introduce products while consuming media content. A representative example of the former is the recommendation service widely used by Netflix or Amazon, and the latter is e-commerce, which has recently attracted attention.

후자인 e-commerce의 서비스 시나리오를 살펴보도록 한다. 시청자가 컨텐츠 플레이어를 통해 영화 혹은 방송을 시청하는 도중에 어떤 화면 구간에서 특정 제품이 나올 수 있다. 이 경우, 시청자는 해당 컨텐츠 플레이어로부터 해당 제품에 대한 설명을 제공받을 수 있다. 아울러, 시청자의 조작에 따라 해당 상품을 구매할 수 있는 사이트로 화면이 연결될 수도 있다.Let's take a look at the service scenario of the latter, e-commerce. While a viewer is watching a movie or a broadcast through a content player, a specific product may appear in a certain screen section. In this case, the viewer may receive a description of the corresponding product from the corresponding content player. In addition, a screen may be connected to a site where a corresponding product can be purchased according to a viewer's manipulation.

이러한 과정을 기술적으로 살펴보면, 컨텐츠 플레이어는 비디오/오디오/메타 데이터를 시간 정보에 따라 재생을 한다. 이 때 특정 시간에 객체에 대한 메타 데이터가 등장하면 컨텐츠 플레이어는 이를 시청자에게 알릴 수 있고, 이후 구매에 필요한 인터페이스를 제공할 수 있다.Looking at this process technically, the content player reproduces video/audio/meta data according to time information. At this time, if meta data about an object appears at a specific time, the content player can inform the viewer of this and provide an interface necessary for subsequent purchase.

한국특허공개공보, 제 10-2011-0014403 호 (2011.02.11. 공개)Korean Patent Publication, No. 10-2011-0014403 (published on February 11, 2011)

전술한 e-commerce 서비스를 위해서는 동영상 내에 있는 객체를 인식하고, 인식된 객체에 대한 메타 데이터(meta-data)를 획득한 뒤, 이러한 메타 데이터를 동영상에 삽입 내지 제공할 수 있어야 한다. 종래의 경우 전술한 객체 인식 과정, 메타 데이터 획득 과정 및 메타 데이터를 동영상에 삽입시키는 과정이 사람에 의해 수행되었다. 그러나, 무수하게 많은 동영상이 제작되고 있는 현실에서, 사람이 일일이 전술한 과정을 수행하는데에는 한계가 있다.For the e-commerce service described above, it is necessary to recognize an object in a video, obtain meta-data for the recognized object, and then insert or provide such meta-data to the video. In the conventional case, the above-described object recognition process, meta data acquisition process, and meta data insertion process are performed by humans. However, in the reality where countless videos are produced, there is a limit to performing the above-described process individually by a person.

이에, 본 발명의 해결하고자 하는 과제는 동영상 내에 있는 객체를 인식하고, 인식된 객체에 대한 메타 데이터를 획득하며, 이러한 메타 데이터를 동영상에 삽입 내지 제공하는 기술을 제공하는 것이다.Accordingly, an object to be solved by the present invention is to provide a technique for recognizing an object in a video, obtaining meta data for the recognized object, and inserting or providing such meta data into the video.

또한, 전술한 기술이 수행됨에 있어서, 이에 필요한 리소스, 예컨대 시간이나 비용 등을 절감시킬 수 있는 기술을 제공하는 것이다.In addition, in performing the above-described technology, it is to provide a technology capable of reducing resources required for this, for example, time or cost.

다만, 본 발명의 해결하고자 하는 과제는 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 해결하고자 하는 과제는 아래의 기재로부터 본 발명이 속하는 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.However, the problem to be solved by the present invention is not limited to those mentioned above, and another problem to be solved that is not mentioned can be clearly understood by those skilled in the art from the description below. will be.

일 실시예에 따른 메타 데이터 제공 장치는 동영상으로부터 시간상 이격되어 있는 복수 개의 프레임을 추출하는 프레임 추출부와, 상기 복수 개의 프레임 각각으로부터 특징 벡터(feature vector)를 추출하는 특징 벡터 추출부와, 객체 인식의 기준이 되는 복수 개의 기준 벡터 중에서 적어도 하나의 기준 벡터를 선정하고, 상기 선정된 적어도 하나의 기준 벡터 각각을 상기 복수 개의 프레임 중 어느 하나의 프레임으로부터 추출된 특징 벡터와 비교하여서 객체 인식 과정을 수행하는 객체 인식부와, 상기 어느 하나의 프레임 내의 객체에 대한 메타 데이터를 획득하여서 상기 동영상에 제공하는 메타 데이터 제공부를 포함한다. 또한 상기 객체 인식부는 상기 어느 하나의 프레임보다 시간상으로 앞선 프레임 내에 객체가 존재하는 것으로 인식되면, 상기 복수 개의 기준 벡터 중에서 상기 존재하는 것으로 인식된 객체에 해당하는 기준 벡터를 제외한 나머지 기준 벡터를 상기 적어도 하나의 기준 벡터로서 선정한다.An apparatus for providing metadata according to an embodiment includes a frame extractor extracting a plurality of frames spaced apart in time from a video, a feature vector extractor extracting a feature vector from each of the plurality of frames, and object recognition. At least one reference vector is selected from among a plurality of reference vectors that are the basis for, and each of the selected at least one reference vector is compared with a feature vector extracted from any one of the plurality of frames to perform an object recognition process. and an object recognizing unit that obtains metadata about an object within any one frame and provides the metadata to the video. In addition, when the object recognizing unit recognizes that an object exists in a frame temporally preceding any one frame, the remaining reference vectors excluding the reference vector corresponding to the object recognized to exist among the plurality of reference vectors are converted into the at least one reference vector. It is selected as one reference vector.

일 실시예에 따른 메타 데이터 제공 방법은 메타 데이터 제공 장치에 의해 수행되며, 동영상으로부터 제1 프레임을 추출하는 단계와, 상기 제1 프레임로부터 제1 특징 벡터를 추출하는 단계와, 상기 제1 프레임으로부터 추출된 제1 특징 벡터를 객체 인식의 기준이 되는 복수 개의 기준 벡터 각각과 비교하여서 객체 인식 과정을 수행하는 단계와, 상기 제1 프레임 내에서 인식된 제1 객체에 대한 메타 데이터를 획득하여서 상기 동영상에 제공하는 단계와, 상기 동영상으로부터 상기 제1 프레임보다 시간상으로 뒤에 있는 제2 프레임을 추출하는 단계와, 상기 제2 프레임로부터 제2 특징 벡터를 추출하는 단계와, 상기 복수 개의 기준 벡터 중에서 상기 제1 객체에 해당하는 기준 벡터를 제외한 적어도 하나의 기준 벡터를 선정하는 단계와, 상기 선정된 적어도 하나의 기준 벡터를 상기 제2 특징 벡터와 비교하여서 객체 인식 과정을 수행하는 단계와, 상기 제2 프레임 내에서 인식된 제2 객체에 대한 메타 데이터를 획득하여서 상기 동영상에 제공하는 단계를 포함한다.A meta data providing method according to an embodiment is performed by a meta data providing apparatus, and includes extracting a first frame from a video, extracting a first feature vector from the first frame, and extracting a first feature vector from the first frame. Performing an object recognition process by comparing the extracted first feature vector with each of a plurality of reference vectors serving as object recognition standards; The step of extracting a second frame temporally later than the first frame from the video, the step of extracting a second feature vector from the second frame, and the step of extracting a second feature vector from the plurality of reference vectors. selecting at least one reference vector other than a reference vector corresponding to one object; performing an object recognition process by comparing the selected at least one reference vector with the second feature vector; and acquiring meta data for a second object recognized in the video and providing the meta data to the video.

일 실시예에 따르면 프레임 내에 사전에 정의된 모든 객체가 존재한다고 분석되면, 소정의 시간 동안에는 프레임 내의 객체에 대한 인식 과정(특징 벡터 추출과정 및 기준 벡터와 특징 벡터와의 비교 과정)이 수행되지 않는다. 아울러, 프레임 내에 사전에 정의된 객체 중 일부가 존재한다고 분석되면, 소정의 시간 동안에는 전술한 일부 객체에 대한 객체 인식 과정은 수행되지 않는다. 따라서, 그만큼 메타 데이터 제공 장치가 동영상에 메타 데이터를 제공하기 위해 소비하는 시간과 자원 등이 절감될 수 있다.According to an embodiment, if it is analyzed that all predefined objects exist in a frame, a process of recognizing objects in the frame (a process of extracting a feature vector and a process of comparing a reference vector and a feature vector) is not performed for a predetermined time. . In addition, if it is analyzed that some of the predefined objects exist in the frame, the object recognition process for the above-mentioned some objects is not performed for a predetermined time. Accordingly, time and resources consumed by the meta data providing device to provide meta data to a video can be reduced.

도 1은 영상 재생 장치에서 동영상이 재생되고 있는 화면을 도시하고 있다.
도 2는 일 실시예에 따른 메타 데이터 제공 장치가 적용된 시스템을 도시하고 있다.
도 3은 도 2에 도시된 메타 데이터 제공 장치의 구성을 도시하고 있다.
도 4는 일 실시예에 따른 메타 데이터 제공 장치에 의해 동영상이 분석 내지 처리되는 과정을 시간축에서 도시하고 있다.
도 5는 일 실시예에 따른 메타 데이터 제공 방법의 절차를 도시하고 있다.
1 illustrates a screen on which a video is being played in the video reproducing apparatus.
2 illustrates a system to which an apparatus for providing meta data according to an embodiment is applied.
FIG. 3 shows the configuration of the meta data providing apparatus shown in FIG. 2 .
4 illustrates a process of analyzing or processing a video by a metadata providing apparatus according to an embodiment on a time axis.
5 illustrates a procedure of a meta data providing method according to an embodiment.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.Advantages and features of the present invention, and methods of achieving them, will become clear with reference to the detailed description of the following embodiments taken in conjunction with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but may be implemented in various different forms, and only these embodiments make the disclosure of the present invention complete, and common knowledge in the art to which the present invention belongs. It is provided to completely inform the person who has the scope of the invention, and the present invention is only defined by the scope of the claims.

본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.In describing the embodiments of the present invention, if it is determined that a detailed description of a known function or configuration may unnecessarily obscure the subject matter of the present invention, the detailed description will be omitted. In addition, terms to be described later are terms defined in consideration of functions in the embodiment of the present invention, which may vary according to the intention or custom of a user or operator. Therefore, the definition should be made based on the contents throughout this specification.

도 1은 영상 재생 장치(10)에서 동영상이 재생되고 있는 화면을 도시하고 있다. 도 1을 참조하면, 영상 재생 장치(10)에서 재생되는 동영상에는 다양한 객체(20,30)가 표시되어 있다. 이 중 객체(30)에는 사전에 메타 데이터(meta-data)가 부여되어 있다. 동영상을 살펴보면 오른쪽 상단에 원 모양의 식별자가 소정의 시간 동안 표시될 수 있다. 이러한 식별자는 현재 동영상에 표시된 객체(20, 30) 중 어느 하나에 대해, 메타 데이터가 제공될 수 있음을 나타낸다. 메타 데이터의 예로는 객체(30)의 명칭, 가격 또는 판매하는 장소 등이 있을 수 있다.1 shows a screen on which a video is being played in the video reproducing apparatus 10 . Referring to FIG. 1 , various objects 20 and 30 are displayed in a video reproduced by the video reproducing apparatus 10 . Among them, meta-data is assigned to the object 30 in advance. Looking at the video, a circle-shaped identifier may be displayed at the top right for a predetermined period of time. This identifier indicates that meta data can be provided for any one of the objects 20 and 30 displayed in the current video. Examples of meta data may include the name, price, or sales location of the object 30 .

도 2는 일 실시예에 따른 메타 데이터 제공 장치(100)가 적용된 시스템을 도시하고 있다. 다만, 도 2는 예시적인 것에 불과하므로, 메타 데이터 제공 장치(100)가 도 2에 도시된 시스템에만 한정 적용되는 것으로 해석되지는 않는다.2 illustrates a system to which the apparatus 100 for providing meta data according to an embodiment is applied. However, since FIG. 2 is merely illustrative, it should not be construed that the meta data providing device 100 is limitedly applied only to the system shown in FIG. 2 .

도 2를 참조하면, 영상 제공 서버(50)는 동영상을 저장한다. 이러한 동영상의 예로는 드라마, 예능, 쇼 프로그램이나 영화 같은 것이 있을 수 있다. 아울러, 영상 제공 서버(50)는 메타 데이터 제공 장치(100)에게 메타 데이터가 부여되어 있지 않은 동영상을 제공하며, 그에 대응하여서 메타 데이터가 부여된 동영상을 메타 데이터 제공 장치(100)로부터 제공받은 뒤, 이를 영상 재생 장치(10)에게 제공한다. 이러한 영상 제공 서버(50)는 방송국 등에 설치된 방송 장비 등일 수 있다Referring to FIG. 2 , the video providing server 50 stores a video. An example of such a video may be a drama, entertainment, show program or movie. In addition, the video providing server 50 provides a video to which meta data is not attached to the meta data providing device 100, and in response, after receiving a video to which meta data is attached from the meta data providing device 100, , which is provided to the video reproducing apparatus 10. Such an image providing server 50 may be a broadcasting equipment installed in a broadcasting station or the like.

영상 재생 장치(10)는 동영상을 재생하는 장치이며, 이 때 메타 데이터도 함께 동영상에 표시할 수 있다. 이러한 영상 재생 장치(10)는 예컨대 TV, 컴퓨터 또는 스마트 기기 등일 수 있으나 이에 한정되는 것은 아니다.The video reproducing device 10 is a device that reproduces a video, and at this time, metadata may also be displayed on the video. The video reproducing device 10 may be, for example, a TV, computer, or smart device, but is not limited thereto.

메타 데이터 제공 장치(100)는 영상 제공 서버(50)로부터 메타 데이터가 부여되어 있지 않은 동영상을 제공받아서, 이러한 동영상에 메타 데이터를 부여한 뒤 영상 제공 서버(50)에게 이를 되돌려주는 장치이다. 도 2에는 메타 데이터 제공 장치(100)가 영상 제공 서버(50) 및 영상 재생 장치(10)와 별도로 구비되어 있는 것으로 도시되어 있지만, 도시된 것과는 달리 메타 데이터 재생 장치(100)가 영상 제공 서버(50) 내에서 구현되거나 또는 영상 재생 장치(10) 내에서 구현될 수도 있다. 이하에서는 이러한 메타 데이터 제공 장치(100)에 대해 보다 자세하게 살펴보기로 한다.The meta data providing device 100 is a device that receives a video to which meta data is not attached from the video providing server 50, adds meta data to the video, and returns it to the video providing server 50. 2, the meta data providing device 100 is shown as being provided separately from the video providing server 50 and the video reproducing device 10, but unlike the shown, the meta data reproducing device 100 is a video providing server ( 50) or may be implemented within the video reproducing apparatus 10. Hereinafter, the meta data providing device 100 will be described in more detail.

도 3는 일 실시예에 따른 메타 데이터 제공 장치(100)의 구성을 도시하고 있으며, 다만 도 3에 도시된 것은 예시적인 것에 불과하다. 이러한 메타 데이터 제공 장치(100)는 PC나 서버에서 구현될 수 있다.FIG. 3 illustrates the configuration of the meta data providing apparatus 100 according to an embodiment, but what is shown in FIG. 3 is merely exemplary. This meta data providing device 100 may be implemented in a PC or server.

도 3을 참조하면, 메타 데이터 제공 장치(100)는 프레임 추출부(130), 특징 벡터 추출부(140), 객체 인식부(150) 및 메타 데이터 제공부(160)를 포함하며, 실시예에 따라서 통신부(110) 및 저장부(120)를 더 포함할 수 있다.Referring to FIG. 3 , the metadata providing device 100 includes a frame extracting unit 130, a feature vector extracting unit 140, an object recognition unit 150, and a metadata providing unit 160. Accordingly, a communication unit 110 and a storage unit 120 may be further included.

여기서, 통신부(110)는 동영상을 입력받는 포트 내지 유/무선 통신 모듈로서 구현 가능하다. 또한, 저장부(120)는 데이터를 저장하는 메모리 등으로 구현 가능하다. 아울러, 프레임 추출부(130), 특징 벡터 추출부(140), 객체 인식부(150) 및 메타 데이터 제공부(160)는 이하에서 설명할 기능을 수행하도록 프로그램된 명령어를 저장하는 메모리 및 이러한 명령어를 실행하는 마이크로프로세서에 의해 구현 가능하다. Here, the communication unit 110 can be implemented as a port for receiving video or a wired/wireless communication module. In addition, the storage unit 120 can be implemented as a memory for storing data. In addition, the frame extraction unit 130, the feature vector extraction unit 140, the object recognition unit 150, and the meta data providing unit 160 include a memory for storing instructions programmed to perform functions to be described below, and such instructions. It can be implemented by a microprocessor running

먼저 통신부(110)에 대해 살펴보기로 한다. 메타 데이터 제공 장치(100)는 통신부(110)를 통해서 도 2에 도시된 영상 제공 서버(50)로부터 동영상을 입력받으며, 이러한 통신부(110)를 통해서 메타 데이터가 부여된 동영상을 영상 제공 서버(50)에게 제공한다.First, the communication unit 110 will be reviewed. The meta data providing device 100 receives a video input from the video providing server 50 shown in FIG. 2 through the communication unit 110, and transmits the video to which meta data is given through the communication unit 110 to the video providing server 50. ) is provided to

저장부(120)는 데이터를 저장한다. 저장되는 데이터에는 메타 데이터가 부여되어 있지 않은 동영상, 메타 데이터가 부여된 동영상 또는 복수 개의 기준 벡터(기준 벡터에 대해서는 후술할 것임) 등이 포함될 수 있으나 이에 한정되는 것은 아니다.The storage unit 120 stores data. The stored data may include, but is not limited to, a video to which meta data is not attached, a video to which meta data is attached, or a plurality of reference vectors (reference vectors will be described later).

프레임 추출부(130)는 동영상으로부터 프레임을 추출한다. 프레임이란 동영상을 구성하는 각각의 화면(정지 화면)을 의미한다. 이 때, 프레임 추출부(130)에 의해 추출되는 프레임은 I 프레임일 수 있는데, 추출되는 프레임이 I 프레임인 것은 예시적인 것에 불과하므로 이에 한정되지는 않는다. The frame extractor 130 extracts a frame from a video. A frame means each screen (still screen) constituting a video. At this time, the frame extracted by the frame extractor 130 may be an I frame, but the fact that the extracted frame is an I frame is only exemplary and is not limited thereto.

프레임 추출부(130)는 소정의 시간 간격마다, 즉 주기적으로 프레임을 추출할 수 있다. 이 때, 이러한 시간 간격은 상황이나 조건에 따라 변경될 수 있다. 이와 달리, 프레임 추출부(130)는 동영상을 분석하여서, 화면 전환이 소정의 기준을 넘어서 일어날 때마다 프레임을 추출할 수도 있다.The frame extractor 130 may extract frames at predetermined time intervals, that is, periodically. At this time, this time interval may be changed according to circumstances or conditions. Alternatively, the frame extractor 130 may analyze the video and extract a frame whenever a screen transition occurs beyond a predetermined criterion.

특징 벡터 추출부(140)와 객체 인식부(150)는 프레임 추출부(130)에 의해 추출된 프레임 내에 어떠한 객체가 존재하는지를 분석하고 인식한다. 이러한 특징 벡터 추출부(140)와 객체 인식부(150)는 사전에 딥러닝(deep learning) 방식으로 학습된, 예컨대 컨볼루션 신경망(convolutional neural network, CNN)을 학습 모델로 채용하여서 학습된 것일 수 있으나 이에 한정되는 것은 아니다. 여기서 컨볼루션 신경망 그 자체는 이미 공지된 기술이므로 이에 대한 자세한 설명은 생략하되, 특징 벡터 추출부(140)와 객체 인식부(150)가 일 실시예에서 구동되는 구체적인 과정에 대해서는 보다 자세하게 살펴보기로 한다.The feature vector extractor 140 and the object recognizer 150 analyze and recognize which object exists in the frame extracted by the frame extractor 130 . The feature vector extractor 140 and the object recognizer 150 may be learned by employing a convolutional neural network (CNN) previously learned by deep learning as a learning model. However, it is not limited thereto. Here, since the convolutional neural network itself is a known technology, a detailed description thereof will be omitted, but a detailed process of driving the feature vector extraction unit 140 and the object recognition unit 150 in one embodiment will be looked at in detail. do.

특징 벡터 추출부(140)는 프레임으로부터 특징 벡터(feature vector)를 추출한다. 특징 벡터는 프레임에 존재하는 객체를 벡터의 형태로 나타낸 것을 의미한다. 만약 프레임에 객체가 복수 개 존재한다면, 특징 벡터 또한 복수 개가 해당 프레임으로부터 추출될 수 있다.The feature vector extractor 140 extracts a feature vector from a frame. A feature vector means that an object existing in a frame is represented in the form of a vector. If a plurality of objects exist in a frame, a plurality of feature vectors may also be extracted from the corresponding frame.

객체 인식부(150)는 특징 벡터를 사전에 정의된 복수 개의 기준 벡터 각각과 비교하여서 객체 인식 과정을 수행한다. 기준 벡터란 객체 인식의 기준이 되는 벡터를 의미하는데, 예컨대 객체가 '고양이'일 경우에 대한 기준 벡터가 정의되어 있고, 객체가 '스마트폰'일 경우에 대한 기준 벡터가 정의되어 있으며, 객체가 '컴퓨터'일 경우에 대한 기준 벡터가 정의되어 있을 수 있다. 즉, 기준 벡터는 객체가 영상에서 갖는 특징을 일반화 내지 추상화하여서 숫자의 집합으로 나타낸 것을 의미한다. 이러한 기준 벡터는 복수 개가 사전에 미리 저장부(120)에 저장되어 있을 수 있으며, 이 때의 복수 개의 기준 벡터는 각각 서로 상이한 객체의 인식에 사용되는 벡터이다.The object recognition unit 150 performs an object recognition process by comparing the feature vector with each of a plurality of previously defined reference vectors. A reference vector means a vector that is a reference for object recognition. For example, a reference vector is defined when an object is a 'cat', a reference vector is defined when an object is a 'smartphone', and a reference vector is defined when an object is a 'smartphone'. A reference vector for the case of 'computer' may be defined. That is, the reference vector means a set of numbers by generalizing or abstracting features of an object in an image. A plurality of these reference vectors may be previously stored in the storage unit 120 in advance, and at this time, the plurality of reference vectors are vectors used for recognizing objects that are different from each other.

객체 인식부(150)는 이러한 저장부(120)에 저장된 복수 개의 기준 벡터를 객체 인식 과정에서 호출하여서 객체 인식에 사용한다. 구체적으로 살펴보면, 객체 인식부(150)는 특징 벡터 추출부(140)가 추출한 특징 벡터를 복수 개의 기준 벡터와 각각 비교한다. 만약 기준 벡터가 N개(N은 자연수)가 마련되어 있다면, 객체 인식부(150)에 의해 수행되는 비교 과정은 1개의 특징 벡터에 대해 N번 반복된다.The object recognition unit 150 calls the plurality of reference vectors stored in the storage unit 120 in the object recognition process and uses them for object recognition. Specifically, the object recognizer 150 compares the feature vectors extracted by the feature vector extractor 140 with a plurality of reference vectors. If N reference vectors are provided (N is a natural number), the comparison process performed by the object recognizing unit 150 is repeated N times for one feature vector.

비교 결과, N개의 기준 벡터 중에서 해당 특징 벡터와 매칭되는 기준 벡터가 있다면 해당 특징 벡터는 해당 기준 벡터가 나타내는 객체라고 인식된다. 그러나, 매칭되는 기준 벡터가 없다면 해당 특징 벡터가 나타내는 객체는 인식이 불가능한 것으로 처리된다.As a result of the comparison, if there is a reference vector that matches the corresponding feature vector among the N reference vectors, the corresponding feature vector is recognized as an object represented by the corresponding reference vector. However, if there is no matching reference vector, the object represented by the corresponding feature vector is treated as unrecognizable.

여기서, 전술한 특징 벡터 추출부(140)가 프레임으로부터 특징 벡터를 추출하는 과정 및 전술한 객체 인식부(150)가 특징 벡터로부터 객체를 인식하는 과정은 다음과 같은 순서에 따라 수행될 수 있되, 이하에서는 기준 벡터가 N개(N은 2 이상의 자연수)가 마련되어 있는 것을 전제로 설명하기로 한다.Here, the process of extracting the feature vector from the frame by the feature vector extractor 140 and the process of recognizing the object from the feature vector by the object recognition unit 150 may be performed in the following order, Hereinafter, description will be made on the premise that N reference vectors are provided (N is a natural number of 2 or more).

먼저, 특징 벡터 추출부(140)는 프레임 추출부(130)에 의해 추출된 첫번 째 프레임(이하 제1 프레임이라고 지칭)으로부터 제1 특징 벡터를 추출한다. 이 때 실시예에 따라 제1 특징 벡터는 복수 개가 추출될 수도 있다.First, the feature vector extractor 140 extracts a first feature vector from the first frame extracted by the frame extractor 130 (hereinafter referred to as a first frame). At this time, according to an embodiment, a plurality of first feature vectors may be extracted.

다음으로, 객체 인식부(150)는 제1 특징 벡터를 N개의 기준 벡터와 각각 비교한다. 만약 제1 특징 벡터가 전술한 바와 같이 복수 개라면, 이러한 복수 개의 특징 벡터 각각을 N개의 기준 벡터 각각과 비교한다.Next, the object recognizing unit 150 compares the first feature vector with N reference vectors, respectively. If there are a plurality of first feature vectors as described above, each of the plurality of feature vectors is compared with each of the N reference vectors.

비교 결과는 다음과 같을 수 있다.The comparison result may be as follows.

(제1 경우) 제1 프레임 내에 N개의 객체가 모두 존재하는 경우 : (First case) When all N objects exist in the first frame:

이와 같이 분석된 경우, 특징 벡터 추출부(140)는 이와 같이 분석된 시점부터 소정의 시간 동안에는 프레임으로부터 특징 벡터를 추출하지 않는다. 여기서, 소정의 시간은 프레임 추출부(130)에 의해 추출된 시간적으로 가장 인접해있는 프레임들 간의 시간 간격보다 클 수 있으며, 이러한 시간은 도 2의 영상 재생 장치(10)가 어느 하나의 프레임 내에 있는 객체에 대한 메타 데이터를 제공할 수 있음을 표시하는 시간과 동일한 시간 간격을 가질 수 있다.When analyzed in this way, the feature vector extractor 140 does not extract feature vectors from the frame for a predetermined time from the time of analysis in this way. Here, the predetermined time may be greater than the time interval between frames extracted by the frame extractor 130 that are temporally most adjacent, and this time is such that the video reproducing apparatus 10 of FIG. 2 is within any one frame. may have a time interval equal to the time indicating that it can provide meta data for an object that exists.

예컨대 소정의 시간이 10초라면, 제1 프레임 내에 N개의 객체가 모두 존재하는 것으로 분석된 시점부터 10초 동안에는, 프레임 추출부(130)에 의해 적어도 한 개의 프레임이 추출된다고 하더라도, 특징 벡터 추출부(140)는 이와 같이 추출된 어떠한 프레임으로부터도 특징 벡터를 추출하지 않는다. 특징 벡터가 추출되지 않기 때문에 객체 인식부(150) 또한 객체 인식 과정을 수행하지 않는다.For example, if the predetermined time is 10 seconds, even if at least one frame is extracted by the frame extractor 130 for 10 seconds from the time when it is analyzed that all N objects exist in the first frame, the feature vector extractor (140) does not extract feature vectors from any frames thus extracted. Since the feature vector is not extracted, the object recognition unit 150 also does not perform the object recognition process.

즉, 일 실시예에 따르면 프레임 내에 사전에 정의된 모든 객체가 존재한다고 분석되면, 소정의 시간 동안에는 프레임 내의 객체에 대한 인식 과정(특징 벡터 추출과정 및 기준 벡터와 특징 벡터와의 비교 과정)이 수행되지 않는다. 따라서, 그만큼 메타 데이터 제공 장치(100)가 동영상에 메타 데이터를 제공하기 위해 소비하는 시간과 자원 등이 절감될 수 있다.That is, according to an embodiment, if it is analyzed that all predefined objects exist in a frame, a process of recognizing objects in the frame (a process of extracting a feature vector and a process of comparing a reference vector and a feature vector) is performed for a predetermined time. It doesn't work. Accordingly, time and resources consumed by the meta data providing apparatus 100 to provide meta data to a video can be reduced.

(제2 경우) 제1 프레임 내에 N개의 객체 중 일부가 모두 존재하는 경우 : (Second case) When some of the N objects are all present in the first frame:

이와 같이 분석된 경우, 특징 벡터 추출부(140)는 제1 프레임보다 시간적으로 뒤에 있는 제2 프레임으로부터 제2 특징 벡터를 추출한다. 이 때 실시예에 따라 제2 특징 벡터는 복수 개가 추출될 수 있다.In this case, the feature vector extractor 140 extracts the second feature vector from the second frame temporally behind the first frame. At this time, according to an embodiment, a plurality of second feature vectors may be extracted.

다음으로, 객체 인식부(150)는 N개의 기준 벡터 중에서 비교에 사용될 적어도 한 개의 기준 벡터를 선정한다. 선정 기준은 다음과 같다. N개의 기준 벡터 중에서 제1 프레임 내에 존재하는 것으로 인식된 객체에 해당하는 기준 벡터를 제외한 나머지 기준 벡터를, 전술한 비교에 사용될 적어도 하나의 기준 벡터로 선정하는 것이다. 선정되는 기준 벡터의 개수는 N개보다 작다.Next, the object recognizing unit 150 selects at least one reference vector to be used for comparison among the N reference vectors. The selection criteria are as follows. Among the N reference vectors, reference vectors other than the reference vector corresponding to the object recognized to exist in the first frame are selected as at least one reference vector to be used for the above comparison. The number of selected reference vectors is less than N.

객체 인식부(150)는 이와 같이 선정된 적어도 하나의 기준 벡터 각각을 제2 특징 벡터와 비교한다. 만약 제2 특징 벡터가 전술한 바와 같이 복수 개라면, 이러한 복수 개의 특징 벡터 각각을 적어도 하나의 기준 벡터 각각과 비교한다. 여기서, 객체 인식부(150)가 N개의 모든 기준 벡터 각각을 제2 특징 벡터를 비교하지 않고 전술한 바에 따라 선정된 적어도 하나의 기준 벡터 각각을 제2 특징 벡터 내지 다른 특징 벡터와 비교하는 것은 소정의 시간 동안에만 유효하고, 소정의 시간이 경과하면 다시 객체 인식부(150)는 N개의 모든 기준 벡터 각각과 대상이 되는 특징 벡터를 비교한다.The object recognizing unit 150 compares each of the at least one reference vector selected in this way with the second feature vector. If there are a plurality of second feature vectors as described above, each of the plurality of feature vectors is compared with each of at least one reference vector. Here, the object recognition unit 150 compares each of the at least one reference vector selected as described above with the second feature vector or another feature vector without comparing each of the N reference vectors with the second feature vector. It is valid only for a time of , and when a predetermined time elapses, the object recognizing unit 150 compares each of all N reference vectors with the target feature vector.

예컨대 N개의 기준 벡터 중 어느 하나가 '고양이'에 대한 기준 벡터인데, 제1 프레임에서 '고양이'가 인식된 경우를 가정하면, 객체 인식부(150)는 N개의 기준 벡터 중에서 '고양이'에 해당하는 기준 벡터를 제외한 나머지 기준 벡터, 즉 N-1개의 기준 벡터를 비교에 사용될 기준 벡터로서 선정한다. 아울러, 객체 인식부(150)는 이러한 N-1개의 기준 벡터 각각을 제2 특징 벡터와 비교한다.For example, assuming that one of the N reference vectors is a reference vector for 'cat', and 'cat' is recognized in the first frame, the object recognition unit 150 corresponds to 'cat' among the N reference vectors. The remaining reference vectors, that is, N-1 reference vectors, except for the reference vectors to be used for comparison are selected as reference vectors to be used for comparison. In addition, the object recognizing unit 150 compares each of these N-1 reference vectors with the second feature vector.

즉, 일 실시예에 따르면 프레임 내에 사전에 정의된 객체 중 일부가 존재한다고 분석되면, 소정의 시간 동안에는 전술한 일부 객체에 대한 객체 인식 과정은 수행되지 않는다. 따라서, 그만큼 메타 데이터 제공 장치(100)가 동영상에 메타 데이터를 제공하기 위해 소비하는 시간과 자원 등이 절감될 수 있다That is, according to an embodiment, if it is analyzed that some of the predefined objects exist in the frame, the object recognition process for the above-mentioned some objects is not performed for a predetermined time. Accordingly, time and resources consumed by the meta data providing device 100 to provide meta data to a video can be reduced.

(제3 경우) 제1 프레임 내에 N개의 객체 중 어떠한 것도 존재하지 않는 경우 : (Third case) When none of the N objects exist in the first frame:

이 경우 특징 벡터 추출부(140)는 제2 프레임부터 순차적으로 각각의 프레임으로부터 특징 벡터를 추출한다. 아울러, 객체 인식부(150)는 제2 프레임에 대한 특징 벡터부터 순차적으로 각각의 프레임에 대한 특징 벡터에 대해 N개의 기준 벡터와 각각 비교하며, 이는 제1 경우나 제2 경우에 해당되는 경우가 나올 때까지, 즉 적어도 하나의 객체라도 동영상 내에 존재하는 것으로 인식될 때까지 계속된다.In this case, the feature vector extractor 140 sequentially extracts feature vectors from each frame starting from the second frame. In addition, the object recognizing unit 150 sequentially compares the feature vectors for each frame with the N reference vectors, starting from the feature vector for the second frame, which corresponds to the first case or the second case. This continues until at least one object is recognized as existing in the video.

다음으로, 메타 데이터 제공부(160)는 동영상에 메타 데이터를 제공한다. 메타 데이터는 저장부(120)에 미리 저장된 것이거나 또는 통신부(110)를 통해 외부의 서버(도면에는 도시되지 않음)로부터 획득된 것일 수 있다. 이와 같이 제공된 메타 데이터는 동영상에 시간 정보와 함께 부여될 수 있다.Next, the meta data providing unit 160 provides meta data to the video. Meta data may be previously stored in the storage unit 120 or obtained from an external server (not shown) through the communication unit 110 . Meta data provided in this way may be added to a video along with time information.

도 4는 전술한 제1 경우 내지 제3 경우를 예를 들어서 도시한 도면이다. 도 4에서 사전에 정의된 기준 벡터는 총 5개이며, 이들은 각각 다음과 같은 객체(a,b,c,d,e)를 인식하는데에 사용되는 벡터인 것을 전제로 한다. 4 is a diagram illustrating the above-described first to third cases as examples. In FIG. 4, there are a total of 5 predefined reference vectors, and it is assumed that they are vectors used to recognize the following objects (a, b, c, d, e), respectively.

도 4에서 가로축은 시간이며, 그 중 위에 있는 가로축은 객체 인식 작업에 소요되는 시간을 개념적으로 도시한 것이다. 아울러, 아래 있는 가로축은 동영상에서 프레임 추출부(130)가 프레임을 추출한 순간을 화살표가 표시하고 있다.In FIG. 4, the horizontal axis is time, and the upper horizontal axis conceptually shows the time required for object recognition. In addition, on the horizontal axis below, an arrow indicates the moment when the frame extraction unit 130 extracts a frame from the video.

도 4를 참조하면, 동영상에서 추출된 첫번 째 프레임으로부터 분석 과정, 즉 특징 벡터를 추출하는 과정이 수행되고, 이어서 5개의 객체가 해당 프레임 내에 존재하는 지를 분석하는 과정이 수행된다. 이를 위해 기준 벡터를 선정하는 과정이 선행되는데, 해당 경우에서는 이전에 인식된 객체가 없었으므로, 5개의 기준 벡터가 모두 비교에 사용될 기준 벡터로서 선정된다. Referring to FIG. 4 , an analysis process, that is, a process of extracting a feature vector is performed from a first frame extracted from a video, and then a process of analyzing whether 5 objects exist in the corresponding frame is performed. To this end, a process of selecting a reference vector is preceded. In this case, since there is no previously recognized object, all five reference vectors are selected as reference vectors to be used for comparison.

분석 결과, 객체 a 내지 e 중에서 a가 해당 프레임 내에 존재하는 것으로 인식된다. 이는 전술한 제2 경우에 해당한다. 따라서 특징 벡터 추출부(140)는 그 다음 프레임으로부터 특징 벡터를 추출하되, 객체 인식부(150)는 5개의 객체 중에서 객체 a를 제외한 나머지 b 내지 e 객체가 해당 프레임 내에 존재하는지를 분석한다(이를 위해 5개의 객체 중에서 b 내지 e 객체에 해당하는 기준 벡터를 선정하는 과정이 수행된다). 여기서, 객체 a가 해당 프레임 내에 존재하는지를 분석하는 과정이 생략되므로, 그만큼 객체 인식의 과정에 소요되는 시간과 리소스가 경감될 수 있다.As a result of the analysis, among the objects a to e, a is recognized as existing in the corresponding frame. This corresponds to the second case described above. Therefore, the feature vector extractor 140 extracts the feature vector from the next frame, and the object recognizer 150 analyzes whether the remaining objects b to e excluding object a among the five objects exist in the corresponding frame (for this, A process of selecting reference vectors corresponding to objects b to e among the five objects is performed). Here, since the process of analyzing whether the object a exists in the corresponding frame is omitted, time and resources required for the object recognition process can be reduced accordingly.

다음으로, 분석 결과, 객체 b 내지 e 모두가 해당 프레임 내에 존재하는 것으로 인식된다. 이미 객체 a가 그 전의 프레임에 존재하는 경우이므로, 이 경우는 전술한 제1 경우에 해당한다. 따라서 특징 벡터 추출부(140)는 그 다음 프레임으로부터 특징 벡터를 추출하지 않으며, 객체 인식부(150)에 의해 객체를 인식하는 과정 또한 수행되지 않는다. 따라서, 그만큼 객체 인식의 과정에 소요되는 시간과 리소스가 경감될 수 있다.Next, as a result of the analysis, it is recognized that all objects b to e are present in the corresponding frame. Since object a already exists in the previous frame, this case corresponds to the first case described above. Accordingly, the feature vector extraction unit 140 does not extract the feature vector from the next frame, and the object recognition unit 150 does not perform an object recognition process either. Accordingly, the time and resources required for the object recognition process can be reduced accordingly.

한편, 객체 인식부(150)가 5개의 객체 중에서 인식된 객체를 제외하고 기준 벡터를 선정하는 과정은 소정의 시간 동안만 수행되고 이러한 소정의 시간 경과 후에는 모든 객체에 대한 기준 벡터를 비교에 사용될 기준 벡터로서 선정하는데, 도 4에서는 객체 a를 인식하지 않는 시간과 객체 b 내지 e를 인식하지 않는 시간이 중첩되는 시간이 존재하며, 이 시간에는 모든 객체에 대한 인식과정이 수행되지 않으므로(즉, 제1 경우이므로) 특징 벡터 또한 추출되지 않는다. 다만, 객체 a를 제외하는 시간이 먼저 진행되었으므로, 도면에서와 같이 객체 a에 대한 소정의 시간이 경과한 이후에는 특징 벡터 추출부(140)는 소정의 프레임으로부터 특징 벡터를 추출하고, 객체 인식부(150)는 객체 a에 대한 기준 벡터를 선정해서 이를 기초로 객체 인식 과정을 수행한다. 그 이후에는 다시 5개의 객체에 대하 기준 벡터를 선정하여서 객체를 인식하는 과정이 수행된다.On the other hand, the process of selecting a reference vector by the object recognizing unit 150 excluding the recognized object from among the five objects is performed only for a predetermined time, and after this predetermined time elapses, the reference vectors for all objects are used for comparison. It is selected as a reference vector. In FIG. 4, there is an overlapping time between the time when object a is not recognized and the time when objects b to e are not recognized. Since it is the first case), the feature vector is also not extracted. However, since the time to exclude object a has passed first, as shown in the figure, after a predetermined time for object a has elapsed, the feature vector extractor 140 extracts a feature vector from a predetermined frame, and the object recognizer In step 150, a reference vector for object a is selected and an object recognition process is performed based thereon. After that, the object recognition process is performed by selecting reference vectors for the five objects again.

도 5은 일 실시예에 따른 메타 데이터 제공 방법의 절차에 대해 개념적으로 도시하고 있다. 이러한 메타 데이터 제공 방법은 전술한 메타 데이터 제공 장치(100)에 의해 수행될 수 있다.5 conceptually illustrates a procedure of a meta data providing method according to an embodiment. This meta data providing method may be performed by the meta data providing apparatus 100 described above.

한편, 도 5에 도시된 절차는 예시적인 것에 불과하므로, 본 발명의 사상이 도 5에 도시된 것으로 한정 해석되지는 않는 바, 실시예에 따라서 5 6에 도시된 것과는 다른 순서로 절차가 수행될 수 있으며, 도 5에 도시된 절차 중 적어도 하나의 절차가 수행되지 않을 수도 있고, 도 5에 도시되지 않은 절차가 추가적으로 수행될 수도 있다. On the other hand, since the procedure shown in FIG. 5 is only exemplary, the spirit of the present invention is not limited to that shown in FIG. 5, and the procedure may be performed in a different order from that shown in At least one of the procedures shown in FIG. 5 may not be performed, and a procedure not shown in FIG. 5 may be additionally performed.

먼저, 프레임 추출부(130)는 동영상으로부터 프레임을 추출한다(S10). 이러한 단계 S10에서, 프레임 추출부(130)는 소정의 시간 간격마다, 즉 주기적으로 프레임을 추출할 수 있다. 이 때, 이러한 시간 간격은 상황이나 조건에 따라 변경될 수 있다. 이와 달리, 프레임 추출부(130)는 동영상을 분석하여서, 화면 전환이 크게 일어날 때마다 프레임을 추출할 수도 있다.First, the frame extraction unit 130 extracts a frame from a video (S10). In this step S10, the frame extraction unit 130 may extract frames at predetermined time intervals, that is, periodically. At this time, this time interval may be changed according to circumstances or conditions. Alternatively, the frame extractor 130 may analyze the video and extract a frame whenever a large screen transition occurs.

만약, 이전 프레임 내에, 사전에 정의된 모든 객체가 존재하는 것으로 인식되었다면(S20) 특징 벡터 추출부(140)는 단계 S10에서 추출된 프레임으로부터 어떠한 특징 벡터도 추출하지 않으며, 따라서 객체 인식부(150) 또한 객체 인식 과정을 수행하지 않는다(S30). 아울러, 단계 S30에서 아무런 동작이 수행되지 않는 과정은 소정의 시간 동안 지속되다가(S31), 소정의 시간이 경과하면 다시 단계 S10으로 되돌아간다.If it is recognized that all previously defined objects exist in the previous frame (S20), the feature vector extraction unit 140 does not extract any feature vectors from the frame extracted in step S10, and thus the object recognition unit 150 ) Also, the object recognition process is not performed (S30). In addition, the process in which no operation is performed in step S30 continues for a predetermined time (S31), and returns to step S10 when the predetermined time elapses.

그러나, 만약 이전 프레임 내에 적어도 하나의 객체가 존재하는 것으로 인식되었다면(S10), 특징 벡터 추출부(140)는 프레임 추출부(130)에 의해 추출된 프레임으로부터 특징 벡터를 추출한다(S40). 만약 프레임에 객체가 복수 개 존재한다면, 특징 벡터 또한 복수 개가 해당 프레임으로부터 추출될 수 있다.However, if it is recognized that at least one object exists in the previous frame (S10), the feature vector extractor 140 extracts a feature vector from the frame extracted by the frame extractor 130 (S40). If a plurality of objects exist in a frame, a plurality of feature vectors may also be extracted from the corresponding frame.

다음으로 객체 인식부(150)는 복수 개의 기준 벡터 중에서 비교에 사용될 적어도 한 개의 기준 벡터를 선정한다(S41). 선정 기준은 다음과 같다. 복수 개의 기준 벡터 중에서 시간상 이전의 프레임 내에 존재하는 것으로 인식된 객체에 해당하는 기준 벡터를 제외한 나머지 기준 벡터를, 전술한 비교에 사용될 적어도 하나의 기준 벡터로 선정한다. Next, the object recognizing unit 150 selects at least one reference vector to be used for comparison among a plurality of reference vectors (S41). The selection criteria are as follows. Among the plurality of reference vectors, a reference vector other than a reference vector corresponding to an object recognized to exist in a previous frame in time is selected as at least one reference vector to be used for the above comparison.

객체 인식부(150)는 이와 같이 선정된 적어도 하나의 기준 벡터 각각을 특징 벡터와 비교하여서 객체 인식을 수행한다(S42)한다. 만약 특징 벡터가 전술한 바와 같이 복수 개라면, 이러한 복수 개의 특징 벡터 각각을 적어도 하나의 기준 벡터 각각과 비교한다. 여기서, 객체 인식부(150)가 복수 개의 모든 기준 벡터 각각을 특징 벡터를 비교하지 않고 전술한 바에 따라 선정된 적어도 하나의 기준 벡터 각각을 특징 벡터 내지 다른 특징 벡터와 비교하는 것은 소정의 시간 동안에만 유효하고, 소정의 시간이 경과하면 다시 객체 인식부(150)는 복수 개의 모든 기준 벡터 각각과 대상이 되는 특징 벡터를 비교한다.The object recognition unit 150 performs object recognition by comparing each of the at least one reference vector selected as described above with a feature vector (S42). If there are a plurality of feature vectors as described above, each of the plurality of feature vectors is compared with each of at least one reference vector. Here, the object recognizing unit 150 does not compare all of the plurality of reference vectors with feature vectors, but compares each of the at least one reference vector selected as described above with feature vectors or other feature vectors only for a predetermined time. If it is valid and a predetermined time has elapsed, the object recognizing unit 150 again compares each of the plurality of reference vectors with the target feature vector.

즉, 일 실시예에 따르면 프레임 내에 사전에 정의된 객체 중 일부가 존재한다고 분석되면, 소정의 시간 동안에는 전술한 일부 객체에 대한 객체 인식 과정은 수행되지 않는다. 따라서, 그만큼 메타 데이터 제공 장치(100)가 동영상에 메타 데이터를 제공하기 위해 소비하는 시간과 자원 등이 절감될 수 있다That is, according to an embodiment, if it is analyzed that some of the predefined objects exist in the frame, the object recognition process for the above-mentioned some objects is not performed for a predetermined time. Accordingly, time and resources consumed by the meta data providing device 100 to provide meta data to a video can be reduced.

한편, 전술한 일 실시예에 따른 메타 데이터 제공 방법에 포함된 각각의 단계는, 이러한 단계를 수행하도록 프로그램된 컴퓨터 프로그램을 기록하는 컴퓨터 판독가능한 기록매체에서 구현될 수 있다.Meanwhile, each step included in the meta data providing method according to the above-described embodiment may be implemented in a computer readable recording medium recording a computer program programmed to perform these steps.

한편, 전술한 일 실시예에 따른 메타 데이터 제공 방법에 포함된 각각의 단계는, 이러한 단계를 수행하도록 프로그램된 컴퓨터 프로그램을 기록하는 컴퓨터 판독가능한 기록매체에서 구현될 수 있다.Meanwhile, each step included in the meta data providing method according to the above-described embodiment may be implemented in a computer readable recording medium recording a computer program programmed to perform these steps.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 품질에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The above description is merely an example of the technical idea of the present invention, and various modifications and variations can be made to those skilled in the art without departing from the essential qualities of the present invention. Therefore, the embodiments disclosed in the present invention are not intended to limit the technical idea of the present invention, but to explain, and the scope of the technical idea of the present invention is not limited by these embodiments. The protection scope of the present invention should be construed according to the claims below, and all technical ideas within the scope equivalent thereto should be construed as being included in the scope of the present invention.

일 실시예에 따르면, 메타 데이터 제공 장치가 동영상에 메타 데이터를 제공하기 위해 소비하는 시간과 자원 등이 절감될 수 있다.According to an embodiment, time and resources consumed by a meta data providing device to provide meta data to a video can be reduced.

100: 메타 데이터 제공 장치100: metadata providing device

Claims (8)

동영상으로부터 시간상 이격되어 있는 복수 개의 프레임을 추출하는 프레임 추출부와,
상기 복수 개의 프레임 각각으로부터 특징 벡터(feature vector)를 추출하는 특징 벡터 추출부와,
객체 인식의 기준이 되는 복수 개의 기준 벡터 중에서 적어도 하나의 기준 벡터를 선정하고, 상기 선정된 적어도 하나의 기준 벡터 각각을 상기 복수 개의 프레임 중 어느 하나의 프레임으로부터 추출된 특징 벡터와 비교하여서 객체 인식 과정을 수행하는 객체 인식부와,
상기 어느 하나의 프레임 내의 객체에 대한 메타 데이터를 획득하여서 상기 동영상에 제공하는 메타 데이터 제공부를 포함하며,
상기 객체 인식부는,
상기 어느 하나의 프레임보다 시간상으로 앞선 프레임 내에 객체가 존재하는 것으로 인식되면, 상기 복수 개의 기준 벡터 중에서 상기 존재하는 것으로 인식된 객체에 해당하는 기준 벡터를 제외한 나머지 기준 벡터를 상기 적어도 하나의 기준 벡터로서 선정하는
메타 데이터 제공 장치.
A frame extraction unit for extracting a plurality of frames spaced apart in time from a video;
a feature vector extractor extracting a feature vector from each of the plurality of frames;
Object recognition process by selecting at least one reference vector from among a plurality of reference vectors serving as a basis for object recognition, and comparing each of the selected at least one reference vector with a feature vector extracted from any one of the plurality of frames. An object recognition unit that performs;
A metadata providing unit that obtains metadata about an object in any one of the frames and provides it to the video;
The object recognition unit,
If it is recognized that an object exists in a frame temporally preceding any one of the frames, the remaining reference vectors excluding the reference vector corresponding to the object recognized to exist among the plurality of reference vectors are used as the at least one reference vector. selected
Metadata Provider.
제 1 항에 있어서,
상기 특징 벡터 추출부와 상기 객체 인식부는,
딥러닝(deep learning) 방식 중 컨볼루션 신경망 네트워크(convolution neural network)모델을 채용함으로써 구현된 것인
메타 데이터 제공 장치.
According to claim 1,
The feature vector extractor and the object recognizer,
It is implemented by adopting a convolution neural network model among deep learning methods.
Metadata Provider.
제 1 항에 있어서,
상기 객체 인식부는,
소정의 시간 동안에는 상기 복수 개의 기준 벡터 중 선정된 적어도 하나의 기준 벡터 각각을 상기 어느 하나의 프레임으로부터 추출된 특징 벡터와 비교하여서 객체 인식 과정을 수행하고,
상기 소정의 시간 경과 후에는 상기 복수 개의 기준 벡터 각각을 상기 어느 하나의 프레임보다 시간상으로 뒤진 프레임으로부터 추출된 특징 벡터와 비교하여서 객체 인식 과정을 수행하는
메타 데이터 제공 장치.
According to claim 1,
The object recognition unit,
During a predetermined time, an object recognition process is performed by comparing at least one reference vector selected from among the plurality of reference vectors with a feature vector extracted from any one frame;
After the predetermined time has elapsed, each of the plurality of reference vectors is compared with a feature vector extracted from a frame later than any one frame in time to perform an object recognition process.
Metadata Provider.
제 3 항에 있어서,
상기 소정의 시간은,
상기 동영상을 재생하는 영상 재생 장치가, 상기 어느 하나의 프레임 내에 있는 객체에 대한 메타 데이터를 제공할 수 있음을 표시하는 시간과 동일한 시간 간격을 갖는
메타 데이터 제공 장치.
According to claim 3,
The predetermined time is
having the same time interval as the time indicating that the video reproducing device that reproduces the video can provide meta data for an object within one of the frames
Metadata Provider.
제 1 항에 있어서,
상기 특징 벡터 추출부는,
상기 어느 하나의 프레임보다 시간상으로 앞선 프레임 내에 상기 복수 개의 기준 벡터 각각에 해당하는 객체가 모두 존재하는 것으로 인식되면, 상기 어느 하나의 프레임에서 상기 특징 벡터를 추출하지 않으며,
상기 객체 인식부는,
상기 어느 하나의 프레임에 대한 객체 인식 과정을 수행하지 않는
메타 데이터 제공 장치.
According to claim 1,
The feature vector extraction unit,
If it is recognized that all objects corresponding to each of the plurality of reference vectors exist in a frame that chronologically precedes any one frame, the feature vector is not extracted from any one frame,
The object recognition unit,
The object recognition process for any one of the above frames is not performed.
Metadata Provider.
메타 데이터 제공 장치에 의해 수행되는 메타 데이터 제공 방법으로서,
동영상으로부터 제1 프레임을 추출하는 단계와,
상기 제1 프레임로부터 제1 특징 벡터를 추출하는 단계와,
상기 제1 프레임으로부터 추출된 제1 특징 벡터를 객체 인식의 기준이 되는 복수 개의 기준 벡터 각각과 비교하여서 객체 인식 과정을 수행하는 단계와,
상기 제1 프레임 내에서 인식된 제1 객체에 대한 메타 데이터를 획득하여서 상기 동영상에 제공하는 단계와,
상기 동영상으로부터 상기 제1 프레임보다 시간상으로 뒤에 있는 제2 프레임을 추출하는 단계와,
상기 제2 프레임로부터 제2 특징 벡터를 추출하는 단계와,
상기 복수 개의 기준 벡터 중에서 상기 제1 객체에 해당하는 기준 벡터를 제외한 적어도 하나의 기준 벡터를 선정하는 단계와,
상기 선정된 적어도 하나의 기준 벡터를 상기 제2 특징 벡터와 비교하여서 객체 인식 과정을 수행하는 단계와,
상기 제2 프레임 내에서 인식된 제2 객체에 대한 메타 데이터를 획득하여서 상기 동영상에 제공하는 단계를 포함하는
메타 데이터 제공 방법.
As a meta data providing method performed by a meta data providing device,
extracting a first frame from a video;
extracting a first feature vector from the first frame;
performing an object recognition process by comparing the first feature vector extracted from the first frame with each of a plurality of reference vectors serving as object recognition standards;
obtaining meta data for a first object recognized in the first frame and providing it to the video;
extracting a second frame temporally later than the first frame from the video;
extracting a second feature vector from the second frame;
selecting at least one reference vector excluding the reference vector corresponding to the first object from among the plurality of reference vectors;
performing an object recognition process by comparing the selected at least one reference vector with the second feature vector;
Acquiring meta data for a second object recognized in the second frame and providing it to the video
How to provide metadata.
동영상으로부터 제1 프레임을 추출하는 단계와,
상기 제1 프레임로부터 제1 특징 벡터를 추출하는 단계와,
상기 제1 프레임으로부터 추출된 제1 특징 벡터를 객체 인식의 기준이 되는 복수 개의 기준 벡터 각각과 비교하여서 객체 인식 과정을 수행하는 단계와,
상기 제1 프레임 내에서 인식된 제1 객체에 대한 메타 데이터를 획득하여서 상기 동영상에 제공하는 단계와,
상기 동영상으로부터 상기 제1 프레임보다 시간상으로 뒤에 있는 제2 프레임을 추출하는 단계와,
상기 제2 프레임로부터 제2 특징 벡터를 추출하는 단계와,
상기 복수 개의 기준 벡터 중에서 상기 제1 객체에 해당하는 기준 벡터를 제외한 적어도 하나의 기준 벡터를 선정하는 단계와,
상기 선정된 적어도 하나의 기준 벡터를 상기 제2 특징 벡터와 비교하여서 객체 인식 과정을 수행하는 단계와,
상기 제2 프레임 내에서 인식된 제2 객체에 대한 메타 데이터를 획득하여서 상기 동영상에 제공하는 단계를 수행하도록 프로그램된
컴퓨터 판독가능한 기록매체에 저장된 컴퓨터 프로그램.
extracting a first frame from a video;
extracting a first feature vector from the first frame;
performing an object recognition process by comparing the first feature vector extracted from the first frame with each of a plurality of reference vectors serving as object recognition standards;
obtaining meta data for a first object recognized in the first frame and providing it to the video;
extracting a second frame temporally later than the first frame from the video;
extracting a second feature vector from the second frame;
selecting at least one reference vector excluding the reference vector corresponding to the first object from among the plurality of reference vectors;
performing an object recognition process by comparing the selected at least one reference vector with the second feature vector;
Programmed to perform the step of obtaining meta data for a second object recognized in the second frame and providing it to the moving image.
A computer program stored on a computer-readable recording medium.
동영상으로부터 제1 프레임을 추출하는 단계와,
상기 제1 프레임로부터 제1 특징 벡터를 추출하는 단계와,
상기 제1 프레임으로부터 추출된 제1 특징 벡터를 객체 인식의 기준이 되는 복수 개의 기준 벡터 각각과 비교하여서 객체 인식 과정을 수행하는 단계와,
상기 제1 프레임 내에서 인식된 제1 객체에 대한 메타 데이터를 획득하여서 상기 동영상에 제공하는 단계와,
상기 동영상으로부터 상기 제1 프레임보다 시간상으로 뒤에 있는 제2 프레임을 추출하는 단계와,
상기 제2 프레임로부터 제2 특징 벡터를 추출하는 단계와,
상기 복수 개의 기준 벡터 중에서 상기 제1 객체에 해당하는 기준 벡터를 제외한 적어도 하나의 기준 벡터를 선정하는 단계와,
상기 선정된 적어도 하나의 기준 벡터를 상기 제2 특징 벡터와 비교하여서 객체 인식 과정을 수행하는 단계와,
상기 제2 프레임 내에서 인식된 제2 객체에 대한 메타 데이터를 획득하여서 상기 동영상에 제공하는 단계를 수행하도록 프로그램된
컴퓨터 프로그램을 저장하는 컴퓨터 판독가능한 기록매체.
extracting a first frame from a video;
extracting a first feature vector from the first frame;
performing an object recognition process by comparing the first feature vector extracted from the first frame with each of a plurality of reference vectors serving as object recognition standards;
obtaining meta data for a first object recognized in the first frame and providing it to the video;
extracting a second frame temporally later than the first frame from the video;
extracting a second feature vector from the second frame;
selecting at least one reference vector excluding the reference vector corresponding to the first object from among the plurality of reference vectors;
performing an object recognition process by comparing the selected at least one reference vector with the second feature vector;
Programmed to perform the step of obtaining meta data for a second object recognized in the second frame and providing it to the moving image.
A computer-readable recording medium that stores a computer program.
KR1020180039943A 2018-04-05 2018-04-05 Apparatus and method for providing meta-data KR102534270B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180039943A KR102534270B1 (en) 2018-04-05 2018-04-05 Apparatus and method for providing meta-data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180039943A KR102534270B1 (en) 2018-04-05 2018-04-05 Apparatus and method for providing meta-data

Publications (2)

Publication Number Publication Date
KR20190119240A KR20190119240A (en) 2019-10-22
KR102534270B1 true KR102534270B1 (en) 2023-05-18

Family

ID=68420038

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180039943A KR102534270B1 (en) 2018-04-05 2018-04-05 Apparatus and method for providing meta-data

Country Status (1)

Country Link
KR (1) KR102534270B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102243922B1 (en) * 2019-10-24 2021-04-23 주식회사 한글과컴퓨터 Electronic device that enables video summarization by measuring similarity between frames and operating method thereof
KR102554705B1 (en) * 2020-04-01 2023-07-13 한국전자통신연구원 Method for generating metadata basaed on scene representation using vector and apparatus using the same

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110014403A (en) 2009-08-05 2011-02-11 주식회사 케이티 System and method for generating keword information from each moving picture scene
KR20160017467A (en) * 2014-08-06 2016-02-16 (주) 카피앤패이스트 Method and apparatus for providing product information related to video contents
KR102486699B1 (en) * 2014-12-15 2023-01-11 삼성전자주식회사 Method and apparatus for recognizing and verifying image, and method and apparatus for learning image recognizing and verifying

Also Published As

Publication number Publication date
KR20190119240A (en) 2019-10-22

Similar Documents

Publication Publication Date Title
US11902626B2 (en) Control method of playing content and content playing apparatus performing the same
CN110933490B (en) Automatic adjustment method for picture quality and tone quality, smart television and storage medium
CA2924065C (en) Content based video content segmentation
US10333767B2 (en) Methods, systems, and media for media transmission and management
JP2021525031A (en) Video processing for embedded information card locating and content extraction
CN103686344B (en) Strengthen video system and method
US20180213289A1 (en) Method of authorizing video scene and metadata
US20130124551A1 (en) Obtaining keywords for searching
CN110769314B (en) Video playing method and device and computer readable storage medium
US10897658B1 (en) Techniques for annotating media content
KR102299960B1 (en) Apparatus and method for recommending keyword related to video
US12051272B2 (en) Obtaining artist imagery from video content using facial recognition
CN113542833A (en) Video playing method, device and equipment based on face recognition and storage medium
KR102534270B1 (en) Apparatus and method for providing meta-data
Husa et al. HOST-ATS: automatic thumbnail selection with dashboard-controlled ML pipeline and dynamic user survey
CN111274449A (en) Video playing method and device, electronic equipment and storage medium
KR102036384B1 (en) Method and apparatus for providing related service
CN112822539A (en) Information display method, device, server and storage medium
CN106454398A (en) Video processing method and terminal
CN113327308A (en) Method and device for generating expression package picture
KR20240077086A (en) Server, method and computer program for detecting ending section of video content
CN115811582A (en) Processing method and device based on video data
KR20240043344A (en) Video playback control apparatus using machine learning and control method thereof
CN112261436A (en) Video playing method, device and system
CN113836356A (en) Video retrieval method and device, electronic equipment and storage medium

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant