KR102148392B1 - Video metadata tagging system and method thereof - Google Patents

Video metadata tagging system and method thereof Download PDF

Info

Publication number
KR102148392B1
KR102148392B1 KR1020180138114A KR20180138114A KR102148392B1 KR 102148392 B1 KR102148392 B1 KR 102148392B1 KR 1020180138114 A KR1020180138114 A KR 1020180138114A KR 20180138114 A KR20180138114 A KR 20180138114A KR 102148392 B1 KR102148392 B1 KR 102148392B1
Authority
KR
South Korea
Prior art keywords
metadata
video
person
unit
image
Prior art date
Application number
KR1020180138114A
Other languages
Korean (ko)
Other versions
KR20200054613A (en
Inventor
강현수
신형욱
변정
Original Assignee
주식회사 코난테크놀로지
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 코난테크놀로지 filed Critical 주식회사 코난테크놀로지
Priority to KR1020180138114A priority Critical patent/KR102148392B1/en
Publication of KR20200054613A publication Critical patent/KR20200054613A/en
Application granted granted Critical
Publication of KR102148392B1 publication Critical patent/KR102148392B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06K9/00221
    • G06K9/00711
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20036Morphological image processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

통합 메타데이터 구축을 위한 반자동 동영상 메타데이터 태깅 시스템 및 그 방법이 개시된다. 일 실시예에 따른 동영상 메타데이터 태깅 시스템은, 다수의 동영상 데이터에 대한 적어도 하나의 메타데이터를 저장하고 있는 통합 메타데이터 저장부, 상기 통합 메타데이터 저장부에 저장된 이미지 데이터에 대해 소정의 기계학습 알고리즘을 적용하여 이미지 데이터에 포함된 인물의 인식, 인물의 감정 인식, 인물의 행동 인식을 수행하고, 이미지 데이터내의 객체, 배경, 소리 인식을 수행하며, 이미지 데이터에 관한 설명정보인 문장 정보를 생성하는 메타데이터 학습부, 동영상 콘텐츠 관리부로부터 읽어온 동영상 데이터에서 장면이 전환되는 구간에 대한 장면전환 정보와, 장면전환을 기준으로 나눈 각 구간별 프레임 이미지를 추출하여 구간별 대표 이미지를 선정하는 영상 구간 분리부, 및 상기 메타데이터 학습부의 학습 결과를 참조하고 소정의 기계학습 알고리즘을 적용하여, 상기 선정된 대표 이미지에서 인물, 인물에 대한 감정, 인물의 행동을 인식하고, 상기 대표 이미지내의 객체, 배경, 소리를 인식하며, 상기 대표 이미지를 설명하는 문장정보를 생성하여 이를 메타데이터로 하여 상기 통합 메타데이터 저장부에 저장하는 메타데이터 추출부를 포함할 수 있다. Disclosed are a semi-automatic video metadata tagging system and method for constructing integrated metadata. A video metadata tagging system according to an embodiment includes an integrated metadata storage unit storing at least one metadata for a plurality of video data, and a machine learning algorithm for image data stored in the integrated metadata storage unit. Is applied to recognize a person included in the image data, recognize the emotion of the person, and recognize the behavior of the person, perform object, background, and sound recognition within the image data, and generate sentence information, which is explanatory information about the image data. Separation of video sections to select representative images for each section by extracting the scene change information for the section where the scene is changed from the video data read from the metadata learning unit and the video content management unit, and the frame image for each section divided based on the scene change By referring to the learning result of the sub, and the metadata learning unit, and applying a predetermined machine learning algorithm, it recognizes the person, the emotion of the person, and the behavior of the person in the selected representative image, and the object, background, and It may include a metadata extracting unit that recognizes sound, generates sentence information describing the representative image, and stores it as metadata in the integrated metadata storage unit.

Description

동영상 메타데이터 태깅 시스템 및 그 방법 {Video metadata tagging system and method thereof}Video metadata tagging system and method thereof

본 발명은 통합 메타데이터 구축을 위한 반자동 동영상 메타데이터 태깅 시스템 및 그 방법에 관한 것이다.The present invention relates to a semi-automatic video metadata tagging system and method for constructing integrated metadata.

모바일 미디어의 보편화에 따라 영화, 드라마, 다큐멘터리와 같이 기존의 영상 콘텐츠들뿐만 아니라, 인터넷 방송, 1인 크리에이터들이 만든 영상 콘텐츠 등 다양한 종류의 영상 콘텐츠들이 크게 증가하고 있다. With the widespread use of mobile media, not only existing video contents such as movies, dramas, and documentaries, but also various types of video contents such as Internet broadcasting and video contents created by single creators are increasing significantly.

영상 콘텐츠가 증가함에 따라, 많은 양의 영상 콘텐츠들의 내용을 이해하고, 요약 및 분석하고자 하는 연구들이 많이 진행되고 있다. 이러한 수많은 영상 콘텐츠를 보다 효율적으로 분석하기 위해서 최근 딥러닝 기술이 주목을 받고 있는데, 딥러닝 기술을 효과적이고 성공적으로 적용하기 위해서는 다양한 종류의 양질의 대용량 메타데이터를 생성하고 활용하는 것이 필수적이다. As video contents increase, many studies are being conducted to understand, summarize and analyze the contents of a large amount of video contents. In order to analyze such a large number of video contents more efficiently, deep learning technology has recently attracted attention. In order to effectively and successfully apply deep learning technology, it is essential to create and utilize various types of high-quality and large-capacity metadata.

이와 관련한 종래의 기술로, 한국공개특허 제2015-0079064호, '자동 태깅 시스템'에서는 정지영상의 시각적인 물리적인 정보, 의미론적인 정보만을 추출하는 기술이 개시되어 있고, 한국공개특허 제2011-0020158호, '메타데이터 태깅 시스템, 이미지 검색 방법, 디바이스 및 이에 적용되는 제스처 태깅방법'에서는 이미지를 분석하여 시각정보와 장소정보를 추출하는 기술이 개시되어 있다. 그러나 이러한 종래기술은 이미지 내의 시각정보 태깅으로 한정되고, 메타데이터의 질을 보장하지 못한다. 또한, 하나의 영상에 대한 시각정보, 소리정보, 자막정보, 캡션정보를 모두 가지고 있는 통합 메타데이터를 생성할 수 없으며, 대량의 데이터 태깅을 위해서는 비용이 많이 들고 작업하기도 어렵다.As a related art, Korean Patent Publication No. 2015-0079064,'Automatic Tagging System' discloses a technique for extracting only visual and physical information and semantic information of a still image, and Korean Patent Publication No. 2011-0020158 In the'metadata tagging system, image search method, device and gesture tagging method applied thereto', a technique for extracting visual information and place information by analyzing an image is disclosed. However, this prior art is limited to tagging visual information in images, and does not guarantee the quality of metadata. In addition, it is not possible to create integrated metadata that has all of the visual information, sound information, caption information, and caption information for one image, and it is expensive and difficult to work for tagging a large amount of data.

일 실시예에 따라, 메타데이터 자동 추출을 위하여 딥러닝 기반의 인식 기법을 사용하여 보다 편리하게 통합 메타데이터를 생성할 수 있는 동영상 메타데이터 태깅 시스템 및 그 방법을 제안한다.According to an embodiment, a video metadata tagging system and method for generating integrated metadata more conveniently by using a deep learning-based recognition technique for automatic metadata extraction are proposed.

일 실시예에 따른 동영상 메타데이터 태깅 시스템은, 다수의 동영상 데이터에 대한 적어도 하나의 메타데이터를 저장하고 있는 통합 메타데이터 저장부, 상기 통합 메타데이터 저장부에 저장된 이미지 데이터에 대해 소정의 기계학습 알고리즘을 적용하여 이미지 데이터에 포함된 인물의 인식, 인물의 감정 인식, 인물의 행동 인식을 수행하고, 이미지 데이터내의 객체, 배경, 소리 인식을 수행하며, 이미지 데이터에 관한 설명정보인 문장 정보를 생성하는 메타데이터 학습부, 동영상 콘텐츠 관리부로부터 읽어온 동영상 데이터에서 장면이 전환되는 구간에 대한 장면전환 정보와, 장면전환을 기준으로 나눈 각 구간별 프레임 이미지를 추출하여 구간별 대표 이미지를 선정하는 영상 구간 분리부, 및 상기 메타데이터 학습부의 학습 결과를 참조하고 소정의 기계학습 알고리즘을 적용하여, 상기 선정된 대표 이미지에서 인물, 인물에 대한 감정, 인물의 행동을 인식하고, 상기 대표 이미지내의 객체, 배경, 소리를 인식하며, 상기 대표 이미지를 설명하는 문장정보를 생성하여 이를 메타데이터로 하여 상기 통합 메타데이터 저장부에 저장하는 메타데이터 추출부를 포함할 수 있다.A video metadata tagging system according to an embodiment includes an integrated metadata storage unit storing at least one metadata for a plurality of video data, and a machine learning algorithm for image data stored in the integrated metadata storage unit. Is applied to recognize a person included in the image data, recognize a person's emotions, and recognize a person's behavior, perform object, background, and sound recognition in the image data, and generate sentence information, which is explanatory information about the image data. Separation of video sections to select representative images for each section by extracting the scene change information for the section where the scene is changed from the video data read from the metadata learning unit and the video content management unit, and the frame image for each section divided based on the scene change By referring to the learning result of the sub and the metadata learning unit, and applying a predetermined machine learning algorithm, the person, the emotion of the person, and the behavior of the person are recognized in the selected representative image, and the object, background, and It may include a metadata extracting unit that recognizes sound, generates sentence information describing the representative image, and stores it as metadata in the integrated metadata storage unit.

그리고, 메타데이터 추출부에서 얻어진 메타데이터가 실제 메타데이터와 일치하는지 확인하고 수정하며 이를 검증하도록 하는 사용자 인터페이스를 제공하는 메타데이터 검증부를 더 포함할 수 있다.In addition, the metadata verification unit may further include a metadata verification unit that verifies and corrects whether the metadata obtained by the metadata extraction unit matches the actual metadata, and provides a user interface for verifying the metadata.

영상 구간 분리부는, 동영상 콘텐츠 관리부로부터 읽어온 동영상 데이터를 프레임 단위로 구분하고 이전 프레임과 현재 프레임과의 픽셀값의 유사성을 비교하여 소정의 임계값 이상인 경우 장면이 전환된 것으로 판단할 수 있다.The video section separating unit divides the video data read from the video content management unit in units of frames, and compares the similarity of pixel values between the previous frame and the current frame to determine that the scene has been switched when it is greater than or equal to a predetermined threshold.

한편, 다른 실시예에 따른 동영상 메타데이터 태깅 방법은, 다수의 동영상 데이터에 대해 소정의 기계학습 알고리즘을 적용하여 동영상 데이터를 구성하는 이미지 데이터에 포함된 인물의 인식, 인물의 감정 인식, 인물의 행동 인식을 수행하고, 이미지 데이터내의 객체, 배경, 소리 인식을 수행하며, 이미지 데이터에 관한 설명정보인 문장 정보를 생성하여 이를 메타데이터로 하여 저장하는 단계, 입력된 동영상 데이터에서 장면이 전환되는 구간에 대한 장면전환 정보와, 장면전환을 기준으로 나눈 각 구간별 프레임 이미지를 추출하여 구간별 대표 이미지를 선정하는 단계, 및 소정의 기계학습 알고리즘을 적용하여, 상기 선정된 대표 이미지에서 인물, 인물에 대한 감정, 인물의 행동을 인식하고, 상기 대표 이미지내의 객체, 배경, 소리를 인식하며, 상기 대표 이미지를 설명하는 문장정보를 생성하여 이를 메타데이터로 만드는 단계를 포함할 수 있다.Meanwhile, in the video metadata tagging method according to another embodiment, recognition of a person included in image data constituting the video data by applying a predetermined machine learning algorithm to a plurality of video data, recognition of a person's emotion, and a person's behavior Recognizing the object, background, and sound in the image data, generating sentence information, which is explanatory information about the image data, and storing it as metadata, in the section where the scene is switched from the input video data. Selecting a representative image for each section by extracting the scene change information for each section and the frame image for each section divided based on the scene change, and applying a predetermined machine learning algorithm, for the person and the person in the selected representative image. Recognizing emotions and actions of a person, recognizing an object, a background, and a sound in the representative image, generating sentence information describing the representative image, and making it metadata.

일 실시예에 따른 동영상 메타데이터 태깅 시스템을 통하여, 메타데이터를 자동 추출하는 단계와 검증하는 단계를 거쳐 하나의 영상에 대한 시각정보, 소리정보, 자막정보, 캡션정보가 태깅된 통합적인 메타데이터를 편리하게 대량으로 생성할 수 있다. 또한, 각각의 메타데이터를 독립적으로 사용하여 여러 응용분야에 적용할 수 있고, 응용분야가 특화된 영상의 메타데이터가 필요한 분야와 직접 메타데이터 세트를 만들고 싶은 연구자들과 기업들의 요구사항을 만족시킬 수 있는 효과가 있다.Through the video metadata tagging system according to an embodiment, integrated metadata tagged with visual information, sound information, subtitle information, and caption information for a single image through the step of automatically extracting and verifying the metadata. It can be conveniently produced in large quantities. In addition, each metadata can be used independently and applied to various application fields, and it can satisfy the requirements of researchers and companies who want to create metadata sets directly and fields that require metadata of images specialized in the application field. There is an effect.

도 1은 본 발명의 일 실시예에 따른 동영상 메타데이터 태깅 시스템의 구성도,
도 2는 동영상 콘텐츠 관리부에서 관리하는 영상 데이터베이스의 일예를 도시한 도면,
도 3a 및 도 3b는 영상 구간 분리부에서 이미지를 추출하고 대표 이미지를 선정하는 예를 도시한 도면,
도 4는 메타데이터 추출부에서 얼굴을 인식하는 과정을 설명하기 위한 일예를 도시한 도면,
도 5는 메타데이터 추출부에서 Emotion API를 이용한 감정인식의 일예를 설명하기 위한 도면,
도 6은 메타데이터 추출부에서 Faster R-CNN을 이용한 객체인식의 일예를 설명하기 위한 도면,
도 7은 메타데이터 검증부에서 시각정보를 태깅하고 검증하는 일예를 설명하기 위한 도면,
도 8은 동영상 콘텐츠 관리부에서 재생되는 메타데이터 태깅결과의 재생의 일예를 설명하기 위한 도면,
도 9는 본 발명의 일 실시예에 따른 동영상 메타데이터 태깅방법의 흐름도이다.
1 is a configuration diagram of a video metadata tagging system according to an embodiment of the present invention;
2 is a diagram showing an example of a video database managed by a video content management unit;
3A and 3B are diagrams showing an example of extracting an image from an image section separation unit and selecting a representative image;
4 is a diagram illustrating an example for explaining a process of recognizing a face in a metadata extraction unit;
5 is a diagram for explaining an example of emotion recognition using Emotion API in a metadata extraction unit;
6 is a diagram for explaining an example of object recognition using Faster R-CNN in a metadata extraction unit;
7 is a view for explaining an example of tagging and verifying time information in the metadata verification unit;
8 is a diagram for explaining an example of reproduction of a metadata tagging result reproduced in a video content management unit;
9 is a flowchart of a video metadata tagging method according to an embodiment of the present invention.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.Advantages and features of the present invention, and a method of achieving them will become apparent with reference to the embodiments described below in detail together with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but may be implemented in a variety of different forms, only the present embodiments are intended to complete the disclosure of the present invention, and the general knowledge in the technical field to which the present invention pertains. It is provided to completely inform the scope of the invention to those who have it, and the invention is only defined by the scope of the claims. The same reference numerals refer to the same components throughout the specification.

본 발명의 실시 예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이며, 후술되는 용어들은 본 발명의 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.In describing embodiments of the present invention, if it is determined that a detailed description of a known function or configuration may unnecessarily obscure the subject matter of the present invention, a detailed description thereof will be omitted, and terms to be described later are in the embodiments of the present invention. These terms are defined in consideration of the function of the user and may vary according to the intention or custom of users or operators. Therefore, the definition should be made based on the contents throughout this specification.

첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램인스트럭션들(실행 엔진)에 의해 수행될 수도 있으며, 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다.Combinations of each block of the attached block diagram and each step of the flowchart may be executed by computer program instructions (execution engine), and these computer program instructions are executed on a processor of a general purpose computer, special purpose computer or other programmable data processing equipment. As it can be mounted, its instructions executed by a processor of a computer or other programmable data processing equipment generate means for performing the functions described in each block of the block diagram or each step of the flowchart.

이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다.These computer program instructions may also be stored in computer-usable or computer-readable memory that can be directed to a computer or other programmable data processing equipment to implement a function in a particular manner, so that the computer-usable or computer-readable memory It is also possible to produce an article of manufacture containing instruction means for performing the functions described in each block of the block diagram or each step of the flow chart.

그리고 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명되는 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.In addition, since computer program instructions can be mounted on a computer or other programmable data processing equipment, a series of operation steps are performed on a computer or other programmable data processing equipment to create a computer-executable process. It is also possible for the instructions to perform the data processing equipment to provide steps for executing the functions described in each block of the block diagram and each step of the flowchart.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능들을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있으며, 몇 가지 대체 실시 예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하며, 또한 그 블록들 또는 단계들이 필요에 따라 해당하는 기능의 역순으로 수행되는 것도 가능하다.In addition, each block or each step may represent a module, segment, or part of code containing one or more executable instructions for executing specified logical functions, and in some alternative embodiments mentioned in the blocks or steps. It should be noted that it is also possible for functions to occur out of order. For example, two blocks or steps shown in succession may in fact be performed substantially simultaneously, and the blocks or steps may be performed in the reverse order of a corresponding function as necessary.

이하, 첨부 도면을 참조하여 본 발명의 실시 예를 상세하게 설명한다. 그러나 다음에 예시하는 본 발명의 실시 예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 상술하는 실시 예에 한정되는 것은 아니다. 본 발명의 실시 예는 이 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공된다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. However, the embodiments of the present invention exemplified below may be modified in various other forms, and the scope of the present invention is not limited to the embodiments described below. Embodiments of the present invention are provided to more completely describe the present invention to those of ordinary skill in the art.

도 1은 본 발명의 일 실시예에 따른 동영상 메타데이터 태깅 시스템의 구성도이다.1 is a block diagram of a video metadata tagging system according to an embodiment of the present invention.

동영상 메타데이터 태깅 시스템은 동영상 콘텐츠 관리부(110), 통합 메타데이터 저장부(120), 메타데이터 학습부(130), 영상 구간 분리부(140), 메타데이터 추출부(150)를 포함하며, 메타데이터 검증부(160)를 더 포함할 수 있다.The video metadata tagging system includes a video content management unit 110, an integrated metadata storage unit 120, a metadata learning unit 130, a video section separation unit 140, and a metadata extraction unit 150. A data verification unit 160 may be further included.

통합 메타데이터 저장부(120)는 다수의 동영상 데이터에 대한 적어도 하나의 메타데이터를 저장하고 있다. 메타데이터 학습부(130)는 통합 메타데이터 저장부(120)에 저장된 이미지 데이터에 대해 여러가지 기계학습 알고리즘을 적용하여 이미지 데이터에 포함된 인물의 인식, 인물의 감정 인식, 인물의 행동 인식을 수행하고, 이미지 데이터내의 객체, 배경, 소리 인식을 수행하며, 이미지 데이터에 관한 설명정보인 문장 정보(캡션 정보)를 생성한다. 영상 구간 분리부(140)는 동영상 콘텐츠 관리부(110)로부터 읽어온 동영상 데이터에서 장면이 전환되는 구간에 대한 장면전환 정보와, 장면전환을 기준으로 나눈 각 구간별 프레임 이미지를 추출하여 구간별 대표 이미지를 선정한다. 메타데이터 추출부(150)는 메타데이터 학습부(130)의 학습 결과를 참조하고 여러자기 기계학습 알고리즘을 적용하여, 선정된 대표 이미지에서 인물, 인물에 대한 감정, 인물의 행동을 인식하고, 대표 이미지내의 객체, 배경, 소리를 인식하며, 대표 이미지를 설명하는 문장정보를 생성하여 이를 메타데이터로 하여 통합 메타데이터 저장부(120)에 저장한다.The integrated metadata storage unit 120 stores at least one metadata for a plurality of video data. The metadata learning unit 130 applies various machine learning algorithms to the image data stored in the integrated metadata storage unit 120 to recognize a person included in the image data, recognize the person's emotion, and recognize the person's behavior. , Performs object, background, and sound recognition in image data, and generates sentence information (caption information) that is explanatory information about image data. The video section separating unit 140 extracts the scene change information for the section in which the scene is changed from the video data read from the video content management unit 110 and the frame image for each section divided based on the scene change, and is a representative image for each section. Select The metadata extraction unit 150 refers to the learning result of the metadata learning unit 130 and applies several self-learning algorithms to recognize a person, an emotion for a person, and a person's behavior from the selected representative image. Objects, backgrounds, and sounds in the image are recognized, and sentence information describing a representative image is generated and stored in the integrated metadata storage unit 120 using this as metadata.

메타데이터 검증부(160)는 메타데이터 추출부(150)에서 얻어진 메타데이터가 실제 메타데이터와 일치하는지 확인하고 수정하도록 하는 사용자 인터페이스를 제공하여 이를 검증할 수 있도록 한다.The metadata verification unit 160 provides a user interface for verifying and correcting whether the metadata obtained by the metadata extracting unit 150 matches the actual metadata to be verified.

도 2는 동영상 콘텐츠 관리부에서 관리하는 영상 데이터베이스의 일예를 도시한 도면이다.2 is a diagram illustrating an example of a video database managed by a video content management unit.

동영상 콘텐츠 관리부(110)는 메타데이터를 추출할 동영상을 동영상 저장부(170)에 저장하거나 이를 목록화하고, 사용자의 선택에 따라 이를 삭제하거나 재생하여 사용자에게 보여준다. 그리고 생성된 메타데이터에 대응되는 JSON 파일을 다운로드할 수 있다.The video content management unit 110 stores the video from which metadata is to be extracted in the video storage unit 170 or catalogs it, and displays it to the user by deleting or playing it according to the user's selection. And you can download the JSON file corresponding to the generated metadata.

보다 구체적으로, 본 발명의 일 실시예에 따른 동영상 메타데이터 태깅 시스템은 동영상 콘텐츠 관리부(110)를 통해 영상을 관리한다. 영상 콘텐츠 관리부는 예를 들어 다음과 같은 기능을 수행한다. 첫 번째, 태깅을 위한 영상을 시스템에 업로드 및 삭제를 하는 기능, 두 번째, 플레이어를 통해 플레이하는 기능, 세 번째, 업로드한 영상들을 목록화하는 기능, 네 번째로 메타데이터가 생성되었을 경우 JSON 파일을 다운로드 받을 수 있는 기능과 마지막으로, 태깅 결과를 플레이어를 통해 재생하는 태깅 결과 재생 기능을 포함한다. 영상과 JSON메타데이터는 동영상 저장부(170)에 저장 및 조회되고, 따라서 영상 구간 분리부(140)는 동영상 저장부(170)의 영상에 대한 장면전환 구간과 대표 이미지 추출을 수행할 수 있다.More specifically, the video metadata tagging system according to an embodiment of the present invention manages the video through the video content management unit 110. The video content management unit performs the following functions, for example. First, the function to upload and delete the video for tagging to the system, second, the function to play through the player, the third, the function to list the uploaded videos, and the fourth, the JSON file when metadata is created It includes a function to download and finally, a tagging result playback function that plays the tagging result through the player. The image and the JSON metadata are stored and viewed in the video storage unit 170, and thus the video section separation unit 140 may extract a scene change section and a representative image for the image of the video storage unit 170.

영상 구간 분리부(140)는 동영상 콘텐츠 관리부(110)로부터 읽어온 동영상 데이터를 프레임 단위로 구분하고 이전 프레임과 현재 프레임과의 픽셀값의 유사성을 비교하여 일정한 임계값 이상인 경우 장면이 전환된 것으로 판단할 수 있으며, 여기서 픽셀값의 유사성은 예를 들어, SAD(Sum of Absolute Difference)를 계산하여 얻어질 수 있다. 이하 영상 구간 분리부(140)를 보다 상세하게 설명한다.The video section separating unit 140 divides the video data read from the video content management unit 110 into a frame unit, compares the similarity of the pixel values between the previous frame and the current frame, and determines that the scene has been switched when it exceeds a certain threshold. In this case, the similarity of pixel values can be obtained, for example, by calculating Sum of Absolute Difference (SAD). Hereinafter, the image section separation unit 140 will be described in more detail.

영상에서 메타데이터를 생성하기 위해서는 각 프레임 단위의 이미지로 구분하여 메타데이터 태깅을 수행해야 한다. 본 발명의 일 실시예에 따른 메타데이터 태깅 시스템의 영상 구간 분리부(140)는 동영상 저장부(170)에 저장된 영상의 장면 전환 구간 정보와 프레임 이미지를 추출하여 장면 정보 및 이미지 저장부(180)에 저장하고, 추출된 프레임 이미지 중 대표이미지를 선정한다. In order to generate metadata from an image, metadata tagging must be performed by dividing the image into each frame unit. The video section separation unit 140 of the metadata tagging system according to an embodiment of the present invention extracts the scene change section information and the frame image of the image stored in the video storage unit 170 to provide the scene information and image storage unit 180. And select a representative image among the extracted frame images.

도 3a 및 도 3b는 영상 구간 분리부에서 이미지를 추출하고 대표 이미지를 선정하는 예를 도시한 도면이다.3A and 3B are diagrams illustrating an example of extracting an image from an image section separating unit and selecting a representative image.

영상에서 장면이 전환되는 구간을 추출하기 위하여 여러가지 방법을 사용할 수 있다. 일예로, 오픈소스 라이브러리인 FFMPEG을 이용할 수 있다. FFMPEG의 장면 전환 감지 방법은 이전 프레임과의 픽셀의 차를 통해 유사성을 측정하는 SAD(Sum of Absolute Difference)을 이용하여 임계값 이상의 프레임들을 추출한다. SAD는 유사할 경우 0에 가깝다. 본 시스템에서는 일예로 0.25의 임계값을 설정하여 장면 전환 구간을 추출하고, 각각의 구간의 샷 이미지를 10프레임당 1개씩 추출한다. 추출된 샷 구간의 전체 이미지에서 대표이미지를 예를 들어 3개씩 선정하여 저장한다. 동영상의 종류에 따라 임계값, 프레임당 이미지 수, 대표이미지 선정 기준은 달리 설정할 수 있다. 저장된 대표이미지는 메타데이터 추출부(150)를 통해 이미지 인식을 진행한다.Various methods can be used to extract the section in which the scene is switched from the image. For example, an open source library, FFMPEG, can be used. The scene change detection method of FFMPEG extracts frames above a threshold value using SAD (Sum of Absolute Difference), which measures similarity through a pixel difference from a previous frame. SAD is close to zero when they are similar. In the present system, as an example, a threshold value of 0.25 is set to extract a scene change section, and one shot image of each section is extracted per 10 frames. For example, three representative images are selected and stored from the entire image of the extracted shot section. Depending on the type of video, the threshold value, the number of images per frame, and the criteria for selecting a representative image can be set differently. The stored representative image proceeds to image recognition through the metadata extraction unit 150.

메타데이터 추출부(150)는 메타데이터 태깅을 보다 편리하게 하고, 정확도를 높이기 위하여 먼저 초기 메타데이터를 자동으로 생성한다. 생성된 초기 메타데이터는 통합 메타데이터 저장부(120)에 저장된다. 메타데이터 추출부(150)는 인물 인식과 감정 인식, 행동 인식, 객체 인식, 배경 인식, 소리 인식, 캡션 생성을 수행하고, 인식의 정확률을 높이기 위하여 데이터 오류 탐지 기술과 전이학습을 적용할 수 있다.The metadata extraction unit 150 automatically generates initial metadata first in order to facilitate metadata tagging and increase accuracy. The generated initial metadata is stored in the integrated metadata storage unit 120. The metadata extractor 150 may perform character recognition, emotion recognition, behavior recognition, object recognition, background recognition, sound recognition, and caption generation, and may apply data error detection technology and transfer learning to increase the accuracy of recognition. .

도 4는 메타데이터 추출부에서 얼굴을 인식하는 과정을 설명하기 위한 일예를 도시한 도면이다.4 is a diagram illustrating an example for explaining a process of recognizing a face in a metadata extracting unit.

보다 구체적으로 메타데이터 추출부(150)는 선정된 대표 이미지에서 얼굴 부분을 찾고 특징점을 추출한 후 일예로 CNN(Convolutional Neural Network) 기반의 모델을 이용하여 딥러닝 기법을 적용하여 얼굴을 인식하여 통합 메타데이터 저장부에 저장한다.More specifically, the metadata extractor 150 finds a face part from the selected representative image, extracts a feature point, and then recognizes a face by applying a deep learning technique using a model based on a convolutional neural network (CNN), for example, Save it to the data storage.

다시 말하면, 이미지 내의 인물의 이름과 얼굴 좌표의 바운딩 박스를 자동으로 추출한다. 얼굴인식을 위해서는 딥러닝을 이용하면 높은 정확도로 얼굴 부분을 추출할 수 있다. 딥러닝기반의 얼굴 인식은 오픈소스 라이브러리인 OpenFace, Microsoft사의 Face API 등을 이용할 수 있다. 대표적인 얼굴 인식 라이브러리는 이미지 내의 얼굴 부분(눈, 코, 입)을 찾아 얼굴 특징점을 추출하고, CNN기반의 모델을 이용하여 벡터로 수치화하여 얼굴을 인식한다. 인식된 얼굴의 이름과 얼굴 좌표의 바운딩 박스가 대표 이미지의 위에 그려지고, 이는 통합 메타데이터 저장부(120)에 저장되고 저장된 메타데이터는 메타데이터 검증부(160)로 전달된다.In other words, the bounding box of the person's name and face coordinates in the image is automatically extracted. For face recognition, deep learning can be used to extract face parts with high accuracy. Deep learning-based face recognition can use OpenFace, an open source library, and Microsoft's Face API. A representative face recognition library finds face parts (eyes, nose, mouth) in an image, extracts facial feature points, and recognizes faces by quantifying them into vectors using a CNN-based model. A bounding box of the recognized face name and face coordinates is drawn on the representative image, which is stored in the integrated metadata storage unit 120 and the stored metadata is transmitted to the metadata verification unit 160.

도 5는 메타데이터 추출부에서 Emotion API를 이용한 감정인식의 일예를 설명하기 위한 도면이다.5 is a diagram for explaining an example of emotion recognition using an Emotion API in a metadata extraction unit.

메타데이터 추출부(150)는 인식된 인물에 대해 딥러닝 기법을 적용하여 감정을 인식하여 통합 메타데이터 저장부(120)에 저장할 수 있다. 딥러닝 기반 감정 인식은 Microsoft사의 Emotion API, Affecitva사의 Emotion SDK 등을 예로 들 수 있다. 감정인식에서 감정은 분노(Anger), 혐오(Disgust), 공포(Fear), 행복(Happiness), 슬픔(Sadness), 놀람(Surprise), 자연스러운 상태(Neutral), 더 나아가 멸시(Contempt)로 구분할 수 있다. 이러한 감정들을 0점에서 최대 1점으로 표현하여, 각 감정을 수치화시켜 감정을 인식한다. 인식된 정보는 JSON 형식으로 넘겨지고, 이미지 내에 얼굴 바운딩 박스에 그 수치를 표현한다. 감정인식이 진행된 이미지는 JSON형식으로 통합 메타데이터 저장부(120)에 저장되고, 메타데이터 검증부(160)에 전달된다.The metadata extracting unit 150 may recognize emotions by applying a deep learning technique to the recognized person and store them in the integrated metadata storage unit 120. Examples of deep learning-based emotion recognition include Microsoft's Emotion API and Affecitva's Emotion SDK. In emotion recognition, emotions can be classified into Anger, Disgust, Fear, Happiness, Sadness, Surprise, Neutral, and even Contempt. have. These emotions are expressed from 0 to 1, and each emotion is numerically recognized. The recognized information is passed in JSON format, and the numerical value is expressed in the face bounding box in the image. The image in which the emotion recognition has been performed is stored in the integrated metadata storage unit 120 in JSON format and transmitted to the metadata verification unit 160.

또한, 메타데이터 추출부(150)는 인식된 인물에 대한 신체 부위와 그 부위들간의 연결정보를 표현하는 스켈레톤을 이용하여 딥러닝 기법을 적용하여 행동을 인식할 수 있다.In addition, the metadata extractor 150 may recognize a behavior by applying a deep learning technique using a body part for a recognized person and a skeleton expressing connection information between the parts.

다시 말하면, 행동인식에서 행동은 자세 혹은 특정 동작을 의미하는데, 이러한 행동을 인식하기 위해서는 신체부위의 위치와 그 부위들 사이의 연결정보를 표현하는 스켈레톤(skeleton)을 이용하는 인식 기술을 예를 들어 사용할 수 있다. 이미지 내에 인물의 행동을 인식하기 위해 딥러닝을 이용하는 방법은 OpenPose, DensePose 등이 있다.In other words, in behavioral recognition, an action means a posture or a specific motion. To recognize such an action, a recognition technique that uses a skeleton that expresses the position of a body part and the connection information between the parts is used as an example. I can. OpenPose, DensePose, etc. are methods of using deep learning to recognize a person's behavior in an image.

이미지 내의 인물의 얼굴부분, 손가락, 관절 부위를 추출하여 행동을 인식하여 2차원 좌표로 표현하고, 더 나아가 RGB 이미지 상의 인물의 모든 픽셀을 3차원으로 매핑할 수도 있다. 추출된 좌표는 JSON형식으로 통합 메타데이터 저장부(120)에 저장되고, 메타데이터 검증부(160)에 전달된다.It is also possible to extract the face, fingers, and joints of a person in the image, recognize the action, and express it in two-dimensional coordinates, and furthermore, all pixels of the person in the RGB image can be mapped in 3D. The extracted coordinates are stored in the integrated metadata storage unit 120 in JSON format and transmitted to the metadata verification unit 160.

도 6은 메타데이터 추출부에서 Faster R-CNN을 이용한 객체인식의 일예를 설명하기 위한 도면이다.6 is a diagram for explaining an example of object recognition using Faster R-CNN in a metadata extraction unit.

메타데이터 추출부(150)는 대표 이미지내의 객체를 CNN(Convolutional Neural Network) 기반의 모델을 이용하여 딥러닝 기법을 적용하여 찾아낼 수 있다. 다시 말하면, 이미지 내 객체의 위치 좌표 바운딩 박스와 객체명을 자동으로 추출한다. 바운딩 박스(Bounding Box)는 이미지 내에 객체로 판단되는 위치에 수직, 수평 방향으로 그려지는 직사각형 모양의 박스를 의미한다. 객체 인식에서 딥러닝을 이용하는 방법은 다양하다. 특히, 입력된 이미지의 특징을 추출한 특징 맵을 이용해 객체를 분류하고 인식하는 CNN(Convolutional Neural Network)을 기반으로 하는 Faster R-CNN(Region Proposal CNN) , GBD-Net(Gated bi-directional CNN) 과 YOLO(You Only Look Once) 등이 대표적이며 본 객체인식에서 사용될 수 있다.The metadata extractor 150 may find an object in the representative image by applying a deep learning technique using a model based on a convolutional neural network (CNN). In other words, the location coordinate bounding box of the object in the image and the object name are automatically extracted. The bounding box refers to a rectangular box drawn vertically and horizontally at a position determined as an object in the image. There are various methods of using deep learning in object recognition. In particular, Faster R-CNN (Region Proposal CNN), GBD-Net (Gated bi-directional CNN) based on CNN (Convolutional Neural Network) that classifies and recognizes objects using feature maps extracted from the features of the input image. YOLO (You Only Look Once) is representative and can be used in this object recognition.

메타데이터 추출부(150)는 대표 이미지내의 배경을 CNN(Convolutional Neural Network) 기반의 모델을 이용하여 딥러닝 기법을 적용하여 찾아낼 수 있다.The metadata extractor 150 may find the background in the representative image by applying a deep learning technique using a CNN (Convolutional Neural Network)-based model.

보다 구체적으로, 영상의 배경인식을 위하여 배경 항목을 분류하여 일반적으로 CNN(Convolutional Neural Network) 기반의 AlexNet, GoogleNet, VGG16을 이용하여 학습시킨다. 대표적인 모델은 MIT의 Places CNN 가 될 수 있다.More specifically, background items are classified for the background recognition of images, and are generally trained using AlexNet, GoogleNet, and VGG16 based on CNN (Convolutional Neural Network). A representative model could be MIT's Places CNN.

딥러닝 기반 배경인식 기술을 이용하여 해당 대표이미지에서 가장 확률이 높은 배경 정보 후보 메타데이터는 JSON형식으로 통합 메타데이터 저장부(120)에 저장되고, 메타데이터 검증부(160)에 전달된다.Background information candidate metadata with the highest probability from the representative image using deep learning-based background recognition technology is stored in the integrated metadata storage unit 120 in JSON format and transmitted to the metadata verification unit 160.

메타데이터 추출부(150)는 구간내에 포함된 소리의 종류, 음성 및 화자를 인식할 수 있다. 첫 번째, 소리 종류 인식은 비언어적인 소리까지 인식한다. 소리의 종류는 동영상 콘텐츠에 따라 달리 지정할 수 있으며, 일예로 소리 인식 경연대회인 DCASE (Detection and Classification of Acoustic Scenes and Events)에서는 Speech, Human laughter, Keyboard, Door knock, Coughing, 등으로 구분하여 인식을 진행하는데 본 실시예에서도 이러한 방법을 사용할 수 있다. The metadata extracting unit 150 may recognize the type of sound, voice, and speaker included in the section. First, the type of sound recognition recognizes even non-verbal sounds. The type of sound can be specified differently according to the video content. For example, in the sound recognition contest DCASE (Detection and Classification of Acoustic Scenes and Events), recognition is divided into Speech, Human Laughter, Keyboard, Door knock, Coughing, etc. To proceed, this method can also be used in this embodiment.

두 번째, 음성인식을 위한 STT(Speech To Text) 기술의 원리는 음성 파형에서 단어나 문장을 식별하고 의미를 추출하여 문자로 변환한다. 음성인식은 예를 들어 최근에 많이 사용되고 있는 AI스피커, AI비서 등 음성 대화 시스템이 사용될 수 있으며, 대표적인 오픈 API는 Google의 Cloud Speech API, 네이버의 Clova Speech API, 카카오의 뉴톤(Newtone) 등을 사용할 수 있다.Second, the principle of STT (Speech To Text) technology for speech recognition is to identify words or sentences from speech waveforms, extract meanings, and convert them into characters. For speech recognition, for example, voice conversation systems such as AI speakers and AI assistants, which are widely used in recent years, can be used, and representative open APIs are Google's Cloud Speech API, Naver's Clova Speech API, and Kakao's Newtone. I can.

세 번째, 화자인식은 일반적으로 화자검증기술과 화자식별기술로 구분된다. 화자검증기술은 화자와 음성이 일치하는지 검증하는 기술이고, 화자식별기술은 미리 등록된 음성들 중 입력 음성이 가장 일치한 화자를 식별하는 기술이다. 본 실시예에서는 화자식별기술을 이용하여 영상 내의 인물을 분류하여 화자를 인식한다. 화자 인식은 음성의 특징을 추출하여 분류한다. 화자인식을 위해서는 각 영상 콘텐츠별로 화자를 미리 학습시키고 진행한다. 화자인식을 위한 오픈 API는 Microsoft의 Speaker Recognition, Amazon의 Transcribe 등이 있고 이들 API가 사용될 수 있다.Third, speaker recognition is generally divided into speaker verification technology and speaker identification technology. Speaker verification technology is a technology that verifies whether a speaker and a voice match, and speaker identification technology is a technology that identifies a speaker whose input voice matches the most among previously registered voices. In this embodiment, a speaker is recognized by classifying a person in an image using speaker identification technology. Speaker recognition classifies by extracting features of speech. For speaker recognition, learn and proceed with the speaker in advance for each video content. Open APIs for speaker recognition include Microsoft's Speaker Recognition and Amazon's Transcribe, and these APIs can be used.

이렇게 하여 영상 내의 소리의 종류와 음성, 화자를 인식이 가능하고 자동으로 소리에 대한 메타데이터를 생성한다. 생성된 소리 메타데이터는 JSON형식으로 통합 메타데이터 저장부(120)에 저장되고, 메타데이터 검증부(160)에 전달된다. 소리 인식이 원활하게 이루어지는 경우 영상 내의 자막(캡션)을 실시간으로 추출할 수 있다.In this way, it is possible to recognize the type of sound, voice, and speaker in the video, and automatically generate metadata for the sound. The generated sound metadata is stored in the integrated metadata storage unit 120 in JSON format, and transmitted to the metadata verification unit 160. When sound recognition is performed smoothly, subtitles (captions) in an image can be extracted in real time.

메타데이터 추출부(150)는, 얼굴 인식 결과와 객체 인식 결과를 조합하여 얼굴과 객체의 특징을 추출하여 이를 RNN(Recurrent Neural Network) 모델을 적용하여 자연어 문장을 생성함으로써 대표 이미지를 설명하는 문장정보를 생성할 수 있다.The metadata extractor 150 combines the face recognition result and the object recognition result to extract the features of the face and the object, and applies the RNN (Recurrent Neural Network) model to generate a natural language sentence, thereby describing the representative image. Can be created.

즉 영상의 대표 이미지를 설명하는 캡션(문장)을 생성함으로써 영상을 요약할 수 있으며, 원하는 영상의 내용을 검색하기 용이해진다.That is, by generating a caption (sentence) describing the representative image of the video, the video can be summarized, and it becomes easy to search for the desired video content.

캡션을 생성하기 위해, 딥러닝 모델 중 RNN(Recurrent Neural Network)를 기반으로 하는 모델을 일예로 사용할 수 있다. 이미지 캡션 생성을 위해 앞서 객체 인식 기능과 얼굴 인식 기능을 결합한다. 객체 인식 기능과 얼굴 인식 기능을 이용하여 이미지 내의 객체와 얼굴의 특징을 추출하고, 이를 RNN모델의 입력으로 자연어 문장을 생성한다. 출력되는 문장 속 단어의 연관성을 파악하기 위해서 Attention기법을 사용할 수도 있다. Attention기법에서 캡션 생성은 한 장의 이미지 혹은 여러 장의 이미지를 기반으로 캡션을 생성할 수 있다. 여러 장의 이미지에서 캡션을 3차원 CNN을 활용하여 연속된 여러 장의 이미지에 대한 특징 추출이 가능하다. 추출된 특징들을 기반으로, 캡션이 생성된다.In order to generate a caption, a model based on a recurrent neural network (RNN) among deep learning models may be used as an example. In order to create an image caption, the object recognition function and the face recognition function are previously combined. Using the object recognition function and the face recognition function, the features of the object and the face in the image are extracted, and natural language sentences are generated as input of the RNN model. You can also use the attention technique to understand the association of words in the output sentence. In the attention technique, caption generation can generate captions based on a single image or multiple images. Captions from multiple images can be extracted from features for multiple consecutive images by using 3D CNN. Based on the extracted features, a caption is generated.

캡션 생성 결과값은 JSON 형식으로 이미지명과 함께 통합 메타데이터 저장부(120)에 저장되고, 메타데이터 검증부(160)로 전달된다.The caption generation result value is stored in the integrated metadata storage unit 120 along with the image name in JSON format, and transmitted to the metadata verification unit 160.

메타데이터 추출부(150)의 정확도가 높을수록 메타데이터 검증부(160)에서 메타데이터을 편집할 가능성이 줄어들기 때문에, 작업속도가 향상되며 양질의 메타데이터를 더욱 용이하게 얻을 수 있다. As the accuracy of the metadata extraction unit 150 increases, the possibility of editing the metadata in the metadata verification unit 160 decreases, so that a working speed is improved and high quality metadata can be obtained more easily.

메타데이터 추출부(150)로 추출된 인물과 감정, 행동, 객체, 배경의 기본 메타데이터는 메타데이터 검증부(160)로 전달된다. The basic metadata of the person, emotion, behavior, object, and background extracted by the metadata extraction unit 150 is transmitted to the metadata verification unit 160.

도 7은 메타데이터 검증부에서 시각정보를 태깅하고 검증하는 일예를 설명하기 위한 도면이다.7 is a diagram for explaining an example of tagging and verifying visual information in a metadata verification unit.

메타데이터 검증부(160)는 메타데이터 추출부(150)에서 자동으로 추출되어 통합 메타데이터 저장부(120)에 저장된 메타데이터에 대해 시각, 캡션, 소리, 자막 정보 태깅으로 구분하여 각각의 정보에 대해서 검증을 수행한다. 이를 위해 메타데이터 검증부(160)는 검증을 위한 사용자 인터페이스를 제공하고 이를 통해 사용자와의 인터랙션함으로써 검증된다.The metadata verification unit 160 divides the metadata automatically extracted from the metadata extraction unit 150 and stored in the integrated metadata storage unit 120 into time, caption, sound, and caption information tagging, and Verification is performed. To this end, the metadata verification unit 160 provides a user interface for verification and is verified by interacting with a user through this.

메타데이터 검증부(160)는 시각정보 태깅 검증, 캡션정보 태깅 검증 및 소리 및 자막정보 태깅 검증을 위한 사용자 인터페이스를 제공하고, 이를 통한 사용자 조작을 거쳐 검증을 수행한다. 시각정보 태깅 검증과 캡션정보 태깅 검증은 기초 메타데이터가 생성된 대표이미지를 보고 사용자가 해당 메타데이터가 정확한지 검증하여 최종 메타데이터를 생성하게 된다. The metadata verification unit 160 provides a user interface for visual information tagging verification, caption information tagging verification, and sound and subtitle information tagging verification, and performs verification through user manipulation through this. In the visual information tagging verification and the caption information tagging verification, the user sees the representative image in which the basic metadata is generated, and the user verifies whether the corresponding metadata is correct, thereby generating the final metadata.

도 8은 동영상 콘텐츠 관리부에서 재생되는 메타데이터 태깅결과의 재생의 일예를 설명하기 위한 도면이다.8 is a diagram for explaining an example of reproduction of a metadata tagging result reproduced in a video content management unit.

시각정보의 태깅 결과를 검증하는데 있어 시각정보는 이미지 내의 시각적인 요소인 인물정보(이름, 얼굴 좌표, 몸 전체 좌표, 행동, 감정)와 객체정보(객체명, 객체 위치 좌표), 배경정보를 의미한다. 시각정보의 경우에는 응용예에 따라 항목이 달리 설정될 수 있다. 메타데이터 추출부(150)를 통해 생성되어 통합 메타데이터 저장부(120)에 저장된 초기 JSON결과는 메타데이터 검증부(160)에 전달되어 검증 단계를 거쳐 최종 메타데이터를 생성하게 된다.In verifying the tagging result of visual information, visual information means person information (name, face coordinates, whole body coordinates, behavior, emotion), object information (object name, object position coordinates), and background information, which are visual elements in the image. do. In the case of visual information, items may be set differently according to application examples. The initial JSON result generated through the metadata extraction unit 150 and stored in the integrated metadata storage unit 120 is transmitted to the metadata verification unit 160 to generate the final metadata through a verification step.

먼저, 인물정보 중 이름과 얼굴좌표는 메타데이터 추출부(150)를 통해 생성되어 통합 메타데이터 저장부(120)에 저장된 메타데이터를 전달받으며, 사용자의 검증단계에서 이름과 바운딩 박스의 위치가 수정이 필요할 시에는 편집 기능을 이용해 편집하며, 또한 새로운 바운딩 박스가 필요할 시에는 생성도 가능하다.First, among the person information, the name and face coordinates are generated through the metadata extracting unit 150 and received metadata stored in the integrated metadata storage unit 120, and the name and the location of the bounding box are corrected in the verification step of the user. When this is necessary, it can be edited using the editing function, and when a new bounding box is needed, it can be created.

인물의 행동정보는 메타데이터 추출부(150)를 통해 메타데이터 레이블을 전달받고, 검증단계에서 사용자는 이미지 내의 인물의 행동과 메타데이터의 레이블과 일치한 지 판단한다. 불일치할 경우, 사용자가 직접 수정한 후 최종 메타데이터를 생성한다. 감정정보의 경우도 행동정보와 같은 단계를 거쳐 최종 메타데이터를 생성하게 된다.The person's behavior information receives the metadata label through the metadata extraction unit 150, and in the verification step, the user determines whether the person's behavior in the image matches the label of the metadata. If there is a discrepancy, the user directly corrects it and creates the final metadata. In the case of emotion information, final metadata is generated through the same steps as behavior information.

인물 정보 태깅을 위해서, 각각의 항목의 기준을 명확히 해야 질이 좋은 메타데이터를 생성할 수 있다. 인물정보 태깅의 검증단계에서 일반적인 인물 정보 태깅 기준은 다음과 같고, 응용예에 따라 달리 설정될 수 있다.For tagging of person information, high quality metadata can be created only when the criteria of each item are clarified. In the verification step of the person information tagging, the general person information tagging criteria are as follows, and may be set differently according to application examples.

① 얼굴 정면, 측면만 태깅① Tagging only the front and side faces

② 일정 크기 이상의 얼굴만 태깅② Tagging only faces larger than a certain size

③ 한 구간 내에 감정 표기는 여러 번 태깅 가능③ You can tag multiple times to mark emotions within one section.

④ 인물의 몸 전체에서 뒷모습은 제외④ Excluding the back of the person's body

객체정보 태깅 검증을 위해, 객체 정보의 객체명과 바운딩 박스 위치 또한 메타데이터 추출부(150)의 객체 검출을 통해 생성되어 통합 메타데이터 저장부(120)에 저장된 메타데이터를 전달받고, 작업자가 검증단계에서 수정과 생성이 필요할 시에는 편집기능을 이용한다. 객체의 경우, 한 이미지내에서 추출할 수 있는 항목이 가장 많은 메타데이터이기에 인식부의 성능에 따라 비용의 차이가 있다. 객체인식의 성능이 높을수록 자동으로 추출된 메타데이터가 많기 때문에, 객체정보 태깅의 검증단계에서 수정 및 생성 시 소요되는 시간을 줄일 수 있다. 또한, 검증단계를 거치지 않은 객체들은 부정적인 데이터로 인식되어 객체인식의 성능을 떨어뜨리는 문제가 생길 수 있다.For object information tagging verification, the object name and the bounding box position of the object information are also generated through object detection by the metadata extraction unit 150, and the metadata stored in the integrated metadata storage unit 120 is delivered, and the operator performs the verification step. Editing function is used when modification and creation are needed. In the case of objects, since metadata has the most items that can be extracted from one image, there is a difference in cost depending on the performance of the recognition unit. Since the higher the performance of object recognition, the more metadata automatically extracted, the time required for modification and creation in the verification step of object information tagging can be reduced. In addition, objects that have not passed through the verification step may be recognized as negative data, resulting in a problem of degrading the performance of object recognition.

배경정보 태깅 검증을 위해 배경정보는 배경인식을 통해 생성되어 통합 메타데이터 저장부(120)에 저장된 통해 메타데이터 레이블을 전달받고, 검증단계에서 작업자는 이미지의 배경과 메타데이터의 레이블이 일치하는지 판단한다. 불일치할 경우, 사용자가 직접 수정한 후 최종 메타데이터를 생성한다. 검증단계에서 두 가지 장소가 한 화면에 나오는 경우, 노출 비율로 항목을 결정한다.For background information tagging verification, background information is generated through background recognition and stored in the integrated metadata storage unit 120 to receive the metadata label, and in the verification step, the operator determines whether the background of the image and the label of the metadata match. do. If there is a discrepancy, the user directly corrects it and creates the final metadata. In the verification stage, when two places appear on one screen, the item is determined by the exposure ratio.

배경정보의 항목 또한, 적용 대상에 따라 달라질 수 있지만 객체의 항목보다 현저히 개수가 낮기 때문에 공통적으로 사용할 수 있다.Background information items may also vary depending on the object to be applied, but they can be used in common because the number is significantly lower than that of objects.

캡션정보 태깅 검증에서는 캡션인식을 통해 생성되어 통합 메타데이터 저장부(120)에 저장된 메타데이터를 전달받고, 검증단계에서 사용자는 이미지의 상황과 캡션이 일치하는지의 여부를 판단한다. 불일치할 경우, 사용자가 직접 캡션을 수정한 후 최종 메타데이터를 생성한다. 캡션인식에 따라, 캡션의 길이가 달리 생성될 수 있다. 그러므로, 캡션정보 태깅 검증에서는 추가적으로 2개의 캡션을 더 생성한다. 따라서, 최종 메타데이터에서 캡션정보는 3개의 캡션이 생성된다.In the caption information tagging verification, metadata generated through caption recognition and stored in the integrated metadata storage unit 120 is transmitted, and in the verification step, the user determines whether the image status and the caption match. In case of disagreement, the user manually corrects the caption and creates the final metadata. Depending on caption recognition, the length of the caption may be generated differently. Therefore, in caption information tagging verification, additional two captions are generated. Accordingly, three captions are generated for caption information in the final metadata.

소리 및 자막정보 태깅 검증에서는 이미지를 이용하지 않고 영상을 이용하여 태깅한다. 소리정보는 소리인식을 통해 생성되어 통합 메타데이터 저장부(120)에 저장된 기본 메타데이터인 소리의 종류와 화자 레이블을 전달받고, 자막정보는 음성인식을 통해 생성된 메타데이터 자막을 전달받는다. 검증단계에서 사용자는 영상의 소리와 화자, 자막이 메타데이터의 레이블과 일치하는지의 여부를 판단한다. 불일치할 경우, 사용자가 직접 수정한 후 최종 메타데이터를 생성한다.In the sound and subtitle information tagging verification, tagging is performed using an image rather than an image. Sound information is generated through sound recognition to receive the type of sound and speaker label, which are basic metadata stored in the integrated metadata storage unit 120, and the caption information receives metadata captions generated through speech recognition. In the verification step, the user determines whether the sound, speaker, and subtitle of the video match the label of the metadata. If there is a discrepancy, the user directly corrects it and creates the final metadata.

소리태깅 또한, 소리인식의 성능이 높을수록 수정과정에서 소요하는 비용이 낮아지므로, 양질의 데이터가 중요해진다.In addition, the higher the performance of sound recognition, the lower the cost required in the correction process, so that high quality data becomes important.

최종적으로 생성되는 메타데이터 태깅 결과 데이터를 설명하면 다음과 같다.The finally generated metadata tagging result data will be described as follows.

시각정보 결과값은, 즉 태깅된 메타데이터 결과는 JSON으로 추출된다. 추출된 JSON파일은 통합 메타데이터 저장부(120)에 저장되고, 동영상 저장부(170)를 통해 영상 콘텐츠 관리부(110)로 전달된다.The visual information result value, that is, the tagged metadata result is extracted as JSON. The extracted JSON file is stored in the integrated metadata storage unit 120 and transmitted to the video content management unit 110 through the video storage unit 170.

시각정보의 JSON 구조의 일 예는 다음과 같다.An example of the JSON structure of visual information is as follows.

"visual_results":
[
{
"image": "image1.jpg",
"period_num": 1,
"period_frame_num": 1,
"start_time": "03:14",
"end_time": "03:18",
"place": "home",
"persons":
{
"MIke":
{
"face_rect":
{
"x": 0,
"y": 0,
"w": 522,
"h": 383
},
"full_rect":
{
"x": 0,
"y": 0,
"w": 522,
"h": 383
},
"behavior" : "stand up",
"emotion" : "happy"
}

}

]
"visual_results":
[
{
"image": "image1.jpg",
"period_num": 1,
"period_frame_num": 1,
"start_time": "03:14",
"end_time": "03:18",
"place": "home",
"persons":
{
"MIke":
{
"face_rect":
{
"x": 0,
"y": 0,
"w": 522,
"h": 383
},
"full_rect":
{
"x": 0,
"y": 0,
"w": 522,
"h": 383
},
"behavior": "stand up",
"emotion": "happy"
}

}

]

캡션정보 결과값은, 캡션정보의 JSON 구조의 일예는 다음과 같다.The caption information result value is an example of the JSON structure of the caption information as follows.

"caption_results":
[
{
"image": "image1.jpg",
"period_num": 1,
"start_time": "03:14",
"end_time": "04:18",
"caption_info":
[
{
"caption1": "he is happy"
},
{
"caption1": "he is nice"
},
{
"caption1": "he is healthy"
}
]
}
]
"caption_results":
[
{
"image": "image1.jpg",
"period_num": 1,
"start_time": "03:14",
"end_time": "04:18",
"caption_info":
[
{
"caption1": "he is happy"
},
{
"caption1": "he is nice"
},
{
"caption1": "he is healthy"
}
]
}
]

소리 및 자막정보 결과값, 즉 소리 및 자막정보의 JSON 구조의 일예는 다음과 같다.An example of a JSON structure of sound and subtitle information result values, that is, sound and subtitle information, is as follows.

"sound_script_results":
{
"start_time": "03:14",
"end_time": "03:18",
"sound_type": "speaking",
"script": "Hello Everyone"
}
"sound_script_results":
{
"start_time": "03:14",
"end_time": "03:18",
"sound_type": "speaking",
"script": "Hello Everyone"
}

영상 콘텐츠 관리부(110)에서는 메타데이터 태깅 결과 재생을 할 수 있으며 생성된 메타데이터의 정보를 영상과 함께 플레이시킬 수 있다. 결과값을 가시화할 수 있어, 해당 메타데이터가 정확한지 한 눈에 확인이 가능하다.The video content management unit 110 can play the metadata tagging result, and can play the generated metadata information together with the video. As the result value can be visualized, it is possible to check at a glance whether the corresponding metadata is correct.

도 9는 본 발명의 일 실시예에 따른 동영상 메타데이터 태깅방법의 흐름도이다.9 is a flowchart of a video metadata tagging method according to an embodiment of the present invention.

먼저 미리 학습된 메타데이터를 저장한다(210), 즉 다수의 동영상 데이터에 대해 기계학습 알고리즘을 적용하여 동영상 데이터를 구성하는 이미지 데이터에 포함된 인물의 인식, 인물의 감정 인식, 인물의 행동 인식을 수행하고, 이미지 데이터내의 객체, 배경, 소리 인식을 수행하며, 이미지 데이터에 관한 설명정보인 문장 정보를 생성하여 이를 메타데이터로 하여 저장한다. 기계학습 방법이나 메타데이터의 저장의 상세한 방법은 전술한 동영상 메타데이터 태깅 시스템에서 설명한 바와 같다.First, pre-learned metadata is stored (210), that is, by applying a machine learning algorithm to a plurality of video data, recognition of a person included in the image data constituting the video data, recognition of a person's emotion, and recognition of a person's behavior. It performs object, background, and sound recognition in the image data, and generates text information, which is explanatory information about the image data, and stores it as metadata. The machine learning method and the detailed method of storing the metadata are as described in the video metadata tagging system.

다음으로 동영상 데이터를 입력받는다(220). 그리고, 입력된 동영상 데이터에서 장면이 전환되는 구간에 대한 장면전환 정보와, 장면전환을 기준으로 나눈 각 구간별 프레임 이미지를 추출하여 구간별 대표 이미지를 선정한다(230).Next, video data is input (220). Then, from the input video data, scene change information for a section in which the scene is changed and a frame image for each section divided based on the scene change are extracted, and a representative image for each section is selected (230).

기계학습 알고리즘을 적용하여, 선정된 대표 이미지에서 인물, 인물에 대한 감정, 인물의 행동을 인식하고, 대표 이미지내의 객체, 배경, 소리를 인식하며, 상기 대표 이미지를 설명하는 문장정보를 생성하여 이를 메타데이터로 만든다(240). 여기서 기계학습 알고리즘은, 예를 들어 CNN(Convolutional Neural Network) 기반의 모델 또는 RNN(Recurrent Neural Network) 모델을 포함하는 딥러닝 기법을 적용하여 얼굴, 감정, 행동, 객체, 배경, 소리를 인식할 수 있다. 대표 이미지의 선정과 메타데이터 생성의 상세한 내용은, 전술한 영상구간 분리부(140) 및 메타데이터 추출부(150)를 통해 설명한 바와 같다.By applying a machine learning algorithm, it recognizes the person, emotions, and behavior of the person in the selected representative image, recognizes the object, background, and sound in the representative image, and generates sentence information describing the representative image. Make it into metadata (240). Here, the machine learning algorithm can recognize faces, emotions, behaviors, objects, backgrounds, and sounds by applying deep learning techniques including, for example, a convolutional neural network (CNN)-based model or a recurrent neural network (RNN) model. have. Details of the selection of the representative image and generation of metadata are the same as described through the image segment separation unit 140 and the metadata extraction unit 150 described above.

이렇게 만들어진 메타데이터가 실제 메타데이터와 일치하는지 확인하고 수정하며 이를 검증한다(250). 메타데이터 검증의 상세한 방법 또한 전술한 메타데이터 검증부(160)를 통해 설명한 바와 같다.It checks whether the created metadata matches the actual metadata, corrects it, and verifies it (250). The detailed method of verifying the metadata is also the same as described through the above-described metadata verification unit 160.

본 발명의 일 실시예에 따른 메타데이터 태깅 시스템의 영상에서 이미지를 추출하고, 시각정보, 캡션정보, 소리정보, 자막정보 태깅하여 하나의 영상에 대한 통합적인 메타데이터를 편리하게 대량으로 생성할 수 있으며 통합 검증 또한 편리하다.An image can be extracted from the image of the metadata tagging system according to an embodiment of the present invention, and integrated metadata for one image can be conveniently generated in large quantities by tagging visual information, caption information, sound information, and subtitle information. And integrated verification is also convenient.

이상에서 본 바와 같이 본 메타데이터 태깅 시스템의 일련의 과정을 통하여 통합 메타데이터를 생성할 때의 작업 속도는 향상이 되고, 시간은 단축되며 양은 증가하게 될 것이다. 또한, 자동 추출 후 여러 번의 검증 단계를 통해 정확도가 높아진다. As seen above, the work speed when generating the integrated metadata through a series of processes of this metadata tagging system will be improved, the time will be shortened, and the amount will be increased. In addition, the accuracy is improved through several verification steps after automatic extraction.

더 나아가, 시각정보의 객체 인식 성능 향상을 위해 전이학습 기술을 적용할 수 있다. 전이학습은 하나의 도메인에서 만들어진 모델을 다른 도메인에 적용하는 방법으로, 기존의 모델을 새로운 도메인에 사용했을 때, 성능을 향상 시키기 위해서 적용된다. 새로운 도메인에 모델을 또 다시 학습시키려면 많은 비용이 들고, 학습 데이터를 많이 사용하였음에도 불구하고 새로운 도메인에 모델의 성능이 떨어지는 것을 방지하기 위하여 사용할 수 있다. 또한, 액티브러닝을 통해 메타데이터 태깅의 비용을 낮출 수 있다. 액티브러닝은 레이블이 없는 데이터와 레이블이 있는 데이터가 혼재 할 시, 레이블이 없는 데이터의 레이블을 추정하거나 사용자에게 레이블 입력을 요구하여 학습에 사용하는 방법이다. 이러한 전이학습, 액티브러닝을 메타데이터 태깅 시스템과 함께 이용한다면 메타데이터 생성 시 발생하는 비용을 보다 낮출 수 있으며, 메타데이터의 질을 더욱 높일 수 있다.Furthermore, transfer learning technology can be applied to improve the object recognition performance of visual information. Transfer learning is a method of applying a model made in one domain to another domain, and is applied to improve performance when an existing model is used in a new domain. It is expensive to train the model again in a new domain, and it can be used to prevent the performance of the model from deteriorating in the new domain even though the training data is used a lot. In addition, it is possible to lower the cost of metadata tagging through active learning. Active learning is a method used for learning by estimating the label of unlabeled data or asking the user to input a label when unlabeled data and labeled data are mixed. If such transfer learning and active learning are used together with a metadata tagging system, the cost incurred when creating metadata can be lowered and the quality of metadata can be further improved.

기존의 시스템들이 영상기반의 시각정보 메타데이터만을 추출하여 특정 도메인에만 사용할 수 있었다면, 이와 달리 본 발명의 메타데이터 태깅 시스템은 영상에서 양질의 통합 메타데이터를 생성하여 영상을 분석하고 요약할 수 있으며, 영상 검색 시스템, 자막 시스템, 영상 소리 분석 시스템, 방송 콘텐츠 등 영상 콘텐츠를 사용하는 다양한 서비스에서 적용할 수 있다.Whereas existing systems were able to extract only image-based visual information metadata and use it only in a specific domain, the metadata tagging system of the present invention can analyze and summarize images by generating high-quality integrated metadata from images. It can be applied to various services using video content such as video search system, caption system, video sound analysis system, and broadcast content.

이제까지 본 발명에 대하여 그 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.So far, the present invention has been looked at around the embodiments. Those of ordinary skill in the art to which the present invention pertains will be able to understand that the present invention may be implemented in a modified form without departing from the essential characteristics of the present invention. Therefore, the disclosed embodiments should be considered from an illustrative point of view rather than a limiting point of view. The scope of the present invention is shown in the claims rather than the foregoing description, and all differences within the scope equivalent thereto should be construed as being included in the present invention.

110 영상 콘텐츠 관리부 120 통합 메타데이터 저장부
130 메타데이터 학습부 140 영상 구간 분리부
150 메타데이터 추출부 160 메타데이터 검증부
170 동영상 저장부 180 장면정보 및 이미지 저장부
110 Video content management unit 120 Integrated metadata storage unit
130 Metadata learning unit 140 Video section separation unit
150 Metadata extraction unit 160 Metadata verification unit
170 Video storage unit 180 Scene information and image storage unit

Claims (15)

다수의 동영상 데이터에 대한 적어도 하나의 메타데이터를 저장하고 있는 통합 메타데이터 저장부;
동영상 콘텐츠 관리부로부터 읽어온 동영상 데이터에서 장면이 전환되는 구간에 대한 장면전환 정보와, 장면전환을 기준으로 나눈 각 구간별 프레임 이미지를 추출하여 구간별 대표 이미지를 선정하는 영상 구간 분리부; 및
소정의 기계학습 알고리즘을 적용하여, 상기 선정된 대표 이미지에서 인물, 인물에 대한 감정, 인물의 행동을 인식하고, 상기 대표 이미지내의 객체, 배경을 인식하며, 상기 각 구간별 동영상 데이터에 포함된 소리를 인식하고, 상기 대표 이미지를 설명하는 문장정보를 생성하여 이를 메타데이터로 하여 상기 통합 메타데이터 저장부에 저장하는 메타데이터 추출부를 포함하는 것을 특징으로 하는 동영상 메타데이터 태깅 시스템.
An integrated metadata storage unit that stores at least one metadata for a plurality of video data;
A video section separating unit for selecting a representative image for each section by extracting scene change information for a section in which a scene is changed from the video data read from the video content management unit and a frame image for each section divided based on the scene change; And
By applying a predetermined machine learning algorithm, the selected representative image recognizes the person, the person's feelings, and the person's behavior, recognizes the object and background in the representative image, and the sound included in the video data for each section And a metadata extracting unit for recognizing and storing sentence information describing the representative image as metadata and storing it in the integrated metadata storage unit.
제1항에 있어서,
상기 메타데이터 추출부에서 얻어진 메타데이터가 실제 메타데이터와 일치하는지 확인하고 수정하며 이를 검증하도록 하는 사용자 인터페이스를 제공하는 메타데이터 검증부를 더 포함하는 것을 특징으로 하는 동영상 메타데이터 태깅 시스템.
The method of claim 1,
And a metadata verification unit providing a user interface for checking and correcting whether the metadata obtained by the metadata extracting unit matches actual metadata, and verifying the metadata.
제1항에 있어서, 상기 동영상 콘텐츠 관리부는
상기 메타데이터를 추출할 동영상을 동영상 저장부에 저장하거나 이를 목록화하고, 사용자의 선택에 따라 이를 삭제하거나 재생하여 사용자에게 보여주는 것을 특징으로 하는 동영상 메타데이터 태깅 시스템.
The method of claim 1, wherein the video content management unit
A video metadata tagging system, characterized in that the video from which the metadata is to be extracted is stored in a video storage unit or listed, and deleted or played according to a user's selection, and displayed to the user.
제1항에 있어서, 상기 동영상 콘텐츠 관리부는
상기 생성된 메타데이터에 대응되는 JSON 파일을 다운로드하는 것을 특징으로 하는 동영상 메타데이터 태깅 시스템.
The method of claim 1, wherein the video content management unit
A video metadata tagging system, characterized in that downloading a JSON file corresponding to the generated metadata.
제1항에 있어서, 상기 영상 구간 분리부는
동영상 콘텐츠 관리부로부터 읽어온 동영상 데이터를 프레임 단위로 구분하고 이전 프레임과 현재 프레임과의 픽셀값의 유사성을 비교하여 소정의 임계값 이상인 경우 장면이 전환된 것으로 판단하는 것을 특징으로 하는 동영상 메타데이터 태깅 시스템.
The method of claim 1, wherein the image section separation unit
A video metadata tagging system, characterized in that the video data read from the video content management unit is classified in units of frames, and the similarity of the pixel values between the previous frame and the current frame is compared to determine that the scene has been switched when it exceeds a predetermined threshold. .
제5항에 있어서,
상기 픽셀값의 유사성은 SAD(Sum of Absolute Difference)를 계산하여 얻어지는 것을 특징으로 하는 동영상 메타데이터 태깅 시스템.
The method of claim 5,
A video metadata tagging system, characterized in that the similarity of the pixel values is obtained by calculating SAD (Sum of Absolute Difference).
제1항에 있어서, 상기 메타데이터 추출부는
상기 선정된 대표 이미지에서 얼굴 부분을 찾고 특징점을 추출한 후 CNN(Convolutional Neural Network) 기반의 모델을 이용하여 딥러닝 기법을 적용하여 얼굴을 인식하여 통합 메타데이터 저장부에 저장하는 것을 특징으로 하는 동영상 메타데이터 태깅 시스템.
The method of claim 1, wherein the metadata extracting unit
A video meta, characterized in that after finding a face part from the selected representative image, extracting a feature point, applying a deep learning technique using a CNN (Convolutional Neural Network)-based model, recognizing a face, and storing it in an integrated metadata storage unit. Data tagging system.
제1항에 있어서, 상기 메타데이터 추출부는,
상기 인식된 인물에 대해 딥러닝 기법을 적용하여 감정을 인식하여 통합 메타데이터 저장부에 저장하는 것을 특징으로 하는 동영상 메타데이터 태깅 시스템.
The method of claim 1, wherein the metadata extracting unit,
A video metadata tagging system, characterized in that, by applying a deep learning technique to the recognized person, emotions are recognized and stored in an integrated metadata storage unit.
제1항에 있어서, 상기 메타데이터 추출부는,
상기 인식된 인물에 대한 신체 부위와 그 부위들간의 연결정보를 표현하는 스켈레톤을 이용하여 딥러닝 기법을 적용하여 행동을 인식하는 것을 특징으로 하는 동영상 메타데이터 태깅 시스템.
The method of claim 1, wherein the metadata extracting unit,
A video metadata tagging system, characterized in that the motion is recognized by applying a deep learning technique using a body part of the recognized person and a skeleton expressing connection information between the parts.
제1항에 있어서, 상기 메타데이터 추출부는
상기 대표 이미지내의 객체, 배경을 CNN(Convolutional Neural Network) 기반의 모델을 이용하여 딥러닝 기법을 적용하여 찾아내는 것을 특징으로 하는 동영상 메타데이터 태깅 시스템.
The method of claim 1, wherein the metadata extracting unit
A video metadata tagging system, characterized in that the object and background in the representative image are found by applying a deep learning technique using a model based on a convolutional neural network (CNN).
제1항에 있어서, 상기 메타데이터 추출부는,
상기 구간내에 포함된 소리의 종류, 음성 및 화자를 인식하는 것을 특징으로 하는 동영상 메타데이터 태깅 시스템.
The method of claim 1, wherein the metadata extracting unit,
A video metadata tagging system, characterized in that recognizing a type of sound, a voice, and a speaker included in the section.
제1항에 있어서, 상기 메타데이터 추출부는,
얼굴 인식 결과와 객체 인식 결과를 조합하여 얼굴과 객체의 특징을 추출하여 이를 RNN(Recurrent Neural Network) 모델을 적용하여 자연어 문장을 생성함으로써 상기 대표 이미지를 설명하는 문장정보를 생성하는 것을 특징으로 하는 동영상 메타데이터 태깅 시스템.
The method of claim 1, wherein the metadata extracting unit,
A video, characterized in that sentence information describing the representative image is generated by combining the face recognition result and the object recognition result to extract the features of the face and the object, and then applying the RNN (Recurrent Neural Network) model to generate a natural language sentence. Metadata tagging system.
다수의 동영상 데이터에 대한 적어도 하나의 메타데이터를 저장하는 단계;
입력된 동영상 데이터에서 장면이 전환되는 구간에 대한 장면전환 정보와, 장면전환을 기준으로 나눈 각 구간별 프레임 이미지를 추출하여 구간별 대표 이미지를 선정하는 단계; 및
소정의 기계학습 알고리즘을 적용하여, 상기 선정된 대표 이미지에서 인물, 인물에 대한 감정, 인물의 행동을 인식하고, 상기 대표 이미지내의 객체, 배경을 인식하며, 상기 각 구간별 동영상 데이터에 포함된 소리를 인식하고, 상기 대표 이미지를 설명하는 문장정보를 생성하여 이를 메타데이터로 만드는 단계를 포함하는 것을 특징으로 하는 동영상 메타데이터 태깅 방법.
Storing at least one metadata for a plurality of video data;
Selecting a representative image for each section by extracting scene change information for a section in which a scene is changed from the input video data and a frame image for each section divided based on the scene change; And
By applying a predetermined machine learning algorithm, the selected representative image recognizes the person, the person's feelings, and the person's behavior, recognizes the object and background in the representative image, and the sound included in the video data for each section Recognizing and generating sentence information describing the representative image and making it into metadata.
제13항에 있어서,
상기 생성된 메타데이터가 실제 메타데이터와 일치하는지 확인하고 수정하며 이를 검증하는 단계를 더 포함하는 것을 특징으로 하는 동영상 메타데이터 태깅 방법.
The method of claim 13,
And verifying whether the generated metadata matches actual metadata, and verifying the video metadata tagging method.
제13항에 있어서, 메타데이터로 만드는 단계는
CNN(Convolutional Neural Network) 기반의 모델 또는 RNN(Recurrent Neural Network) 모델을 포함하는 딥러닝 기법을 적용하여 얼굴, 감정, 행동, 객체, 배경, 소리를 인식하는 것을 특징으로 하는 동영상 메타데이터 태깅 방법.
The method of claim 13, wherein the step of making metadata
A video metadata tagging method comprising recognizing faces, emotions, behaviors, objects, backgrounds, and sounds by applying a deep learning technique including a convolutional neural network (CNN)-based model or a recurrent neural network (RNN) model.
KR1020180138114A 2018-11-12 2018-11-12 Video metadata tagging system and method thereof KR102148392B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180138114A KR102148392B1 (en) 2018-11-12 2018-11-12 Video metadata tagging system and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180138114A KR102148392B1 (en) 2018-11-12 2018-11-12 Video metadata tagging system and method thereof

Publications (2)

Publication Number Publication Date
KR20200054613A KR20200054613A (en) 2020-05-20
KR102148392B1 true KR102148392B1 (en) 2020-08-26

Family

ID=70919670

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180138114A KR102148392B1 (en) 2018-11-12 2018-11-12 Video metadata tagging system and method thereof

Country Status (1)

Country Link
KR (1) KR102148392B1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102308373B1 (en) * 2021-06-08 2021-10-06 주식회사 스누아이랩 Video Deblurring Device for Face Recognition and Driving Method Thereof
KR20220116667A (en) 2021-02-15 2022-08-23 우석대학교 산학협력단 Learning data purification method for artificial intelligence advancement and human learning method using artificial intelligence
KR20240026788A (en) 2022-08-22 2024-02-29 주식회사 스톡폴리오 Video content keyword tagging system and video content keyword tagging method using the same

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102225100B1 (en) * 2020-10-29 2021-03-09 주식회사 지란지교데이터 Method and apparatus for blocking obscene images based on DNA using artificial intelligence
CN112699774B (en) * 2020-12-28 2024-05-24 深延科技(北京)有限公司 Emotion recognition method and device for characters in video, computer equipment and medium
CN112465075B (en) * 2020-12-31 2021-05-25 杭银消费金融股份有限公司 Metadata management method and system
KR102334396B1 (en) * 2021-04-08 2021-12-01 김선엽 Method and apparatus for assisting creation of works using an artificial intelligence
KR102558504B1 (en) * 2021-06-04 2023-07-25 주식회사 지에프티 Scene-based video organization method
CN113506610B (en) * 2021-07-08 2024-09-13 联仁健康医疗大数据科技股份有限公司 Labeling specification generation method and device, electronic equipment and storage medium
KR102369151B1 (en) * 2021-10-05 2022-03-02 아이픽셀 주식회사 Metadata generation system and method for motion recognition
JP7483784B2 (en) * 2022-04-22 2024-05-15 ソフトバンク株式会社 Information processing device, information processing method, and program
KR102474436B1 (en) * 2022-05-27 2022-12-06 주식회사 자비스넷 An apparatus for processing video and image search of natural languages based on caption data and a method for operating it
KR102633528B1 (en) * 2022-10-27 2024-02-05 주식회사 일만백만 Scene data generation method based on video data and apparatus performing thereof
KR102577134B1 (en) * 2023-03-02 2023-09-12 (주) 씨이랩 System for providing domain-specific data generating service for image analysis
KR102705765B1 (en) * 2023-07-28 2024-09-11 쿠팡 주식회사 Tagging method for content and system thereof

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102018295B1 (en) * 2017-06-14 2019-09-05 주식회사 핀인사이트 Apparatus, method and computer-readable medium for searching and providing sectional video

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220116667A (en) 2021-02-15 2022-08-23 우석대학교 산학협력단 Learning data purification method for artificial intelligence advancement and human learning method using artificial intelligence
KR102308373B1 (en) * 2021-06-08 2021-10-06 주식회사 스누아이랩 Video Deblurring Device for Face Recognition and Driving Method Thereof
KR20240026788A (en) 2022-08-22 2024-02-29 주식회사 스톡폴리오 Video content keyword tagging system and video content keyword tagging method using the same

Also Published As

Publication number Publication date
KR20200054613A (en) 2020-05-20

Similar Documents

Publication Publication Date Title
KR102148392B1 (en) Video metadata tagging system and method thereof
US10733230B2 (en) Automatic creation of metadata for video contents by in cooperating video and script data
JP7325668B2 (en) Scene-aware video dialogue
Chen et al. What comprises a good talking-head video generation?: A survey and benchmark
WO2023197979A1 (en) Data processing method and apparatus, and computer device and storage medium
JP5510167B2 (en) Video search system and computer program therefor
US9961403B2 (en) Visual summarization of video for quick understanding by determining emotion objects for semantic segments of video
CN109218629B (en) Video generation method, storage medium and device
CN111160134A (en) Human-subject video scene analysis method and device
CN108921032B (en) Novel video semantic extraction method based on deep learning model
CN109859095B (en) Automatic cartoon generation system and method
CN112800263A (en) Video synthesis system, method and medium based on artificial intelligence
CN117609548A (en) Video multi-mode target element extraction and video abstract synthesis method and system based on pre-training model
CN115278300A (en) Video processing method, video processing apparatus, electronic device, storage medium, and program product
CN115481254A (en) Method, system, readable storage medium and equipment for analyzing video effect content of movie and television play script
CN113269068B (en) Gesture recognition method based on multi-modal feature adjustment and embedded representation enhancement
KR102287093B1 (en) Apparatus or Method for Inspecting Automatically-created Video Metadata
Bigioi et al. Multilingual video dubbing—a technology review and current challenges
CN118283367A (en) Conversational video editing method, device and equipment capable of customizing story line
Kumar et al. Face Expression and Emotion Detection by using Machine learning and Music Recommendation
CN113722513B (en) Multimedia data processing method and equipment
US12014753B1 (en) Actor-replacement system for videos
US11900505B2 (en) Method and data processing apparatus
Xu et al. Automatic generated recommendation for movie trailers
KR20230095432A (en) Text description-based character animation synthesis system

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant