KR102369620B1 - 다중 시구간 정보를 이용한 하이라이트 영상 생성 장치 및 방법 - Google Patents

다중 시구간 정보를 이용한 하이라이트 영상 생성 장치 및 방법 Download PDF

Info

Publication number
KR102369620B1
KR102369620B1 KR1020200116819A KR20200116819A KR102369620B1 KR 102369620 B1 KR102369620 B1 KR 102369620B1 KR 1020200116819 A KR1020200116819 A KR 1020200116819A KR 20200116819 A KR20200116819 A KR 20200116819A KR 102369620 B1 KR102369620 B1 KR 102369620B1
Authority
KR
South Korea
Prior art keywords
information
image
deep
fusion
voice
Prior art date
Application number
KR1020200116819A
Other languages
English (en)
Inventor
이계민
이한솔
Original Assignee
서울과학기술대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울과학기술대학교 산학협력단 filed Critical 서울과학기술대학교 산학협력단
Priority to KR1020200116819A priority Critical patent/KR102369620B1/ko
Application granted granted Critical
Publication of KR102369620B1 publication Critical patent/KR102369620B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

동영상으로부터 단기 기간의 음성 정보와 영상 정보를 분리하고, 음성 심층 특징 정보와 영상 심층 특징 정보를 생성하며, 단기 기간의 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성하고, 장기 기간에 따른 시간 간격마다 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성하며, 융합 정보에 대한 중요도 점수를 산출하여 융합 정보로부터 하이라이트 영상을 생성하는, 하이라이트 영상 생성 장치를 제공한다.

Description

다중 시구간 정보를 이용한 하이라이트 영상 생성 장치 및 방법{DEVICE AND METHOD FOR GENERATING HIGHLIGHT VIDEOS USING MULTIPLE TIME-INTERVAL INFORMATION}
본 발명은 다중 시구간 정보를 이용한 하이라이트 영상 생성 장치 및 방법에 관한 것으로, 보다 상세하게는, 긴 시간 간격으로 나타나는 동영상으로부터 짧은 시간 간격으로 요약된 하이라이트 영상을 생성하는 하이라이트 영상 생성 장치 및 방법에 관한 것이다.
스마트폰, 인터넷 등의 IT 기술의 발전으로 스트리밍 플랫폼 서비스(Streaming Platform Service)에 대한 접근이 편리해지면서, 축구, 야구, e-스포츠 등의 경기 영상 콘텐츠가 대량으로 생산 및 업로드되는 추세이며, 이에 따라, 축구, 야구, e-스포츠 등의 경기 영상 콘텐츠에 대한 수요도 나날이 증가하는 추세이다.
이에 따라, 방송국에서는 시청자의 편의와 네트워크의 효율을 위해 긴 시간 간격으로 나타나는 경기 영상에서, 시청자들의 흥미를 끄는 장면들을 추출하여 짧은 시간 간격으로 나타나는 하이라이트 영상을 제공하고 있다.
그러나, 기존의 하이라이트 영상은 편집자가 경기 영상을 직접 확인하고, 경기 영상으로부터 일부의 장면을 추출하여 직접 편집하게 되며, 이러한 방법은 전문적인 편집 기술과 편집을 수행하는 긴 시간이 요구된다.
이에 따라, 긴 시간 간격으로 나타나는 경기 영상 등의 동영상으로부터 효율적으로 하이라이트 영상을 생성하는 방안이 요구되는 실정이다.
본 발명이 해결하고자 하는 기술적 과제는 동영상으로부터 영상 정보와 음성 정보를 분리하고, 분리된 영상 정보와 음성 정보를 각각 분석하여 하이라이트 영상을 생성하는 하이라이트 영상 생성 장치 및 방법을 제공하는 것이다.
본 발명의 일측면은, 동영상으로부터 단기 기간의 음성 정보와 단기 기간의 영상 정보를 분리하여 추출하는 동영상 분리부; 상기 음성 정보를 분석하여 음성 심층 특징 정보를 생성하는 음성 분석부; 사전에 마련되는 학습 모델에 기초하여, 상기 영상 정보로부터 영상 심층 특징 정보를 생성하는 영상 분석부; 단기 기간에 따라 생성된 상기 음성 심층 특징 정보와 상기 영상 심층 특징 정보를 융합하여 융합 정보를 생성하고, 사전에 설정되는 장기 기간에 따른 시간 간격마다 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성하는 정보 융합부; 및 상기 융합 정보에 대한 중요도 점수를 산출하고, 상기 중요도 점수에 기초하여, 상기 융합 정보로부터 하이라이트 영상을 생성하는 영상 생성부를 포함할 수 있다.
또한, 상기 음성 분석부는, 상기 음성 정보를 사전에 설정되는 세그먼트 개수에 따라 복수개의 세그먼트로 분리하고, 상기 세그먼트로부터 사전에 설정되는 주파수 차원 개수에 따라 각각의 주파수 대역에서의 음성 특징 정보를 생성하고, 상기 음성 특징 정보로부터 상기 음성 심층 특징 정보를 생성할 수 있다.
또한, 상기 영상 분석부는, 임의의 동영상으로부터 프레임 단위로 분리된 영상 정보를 영상 특징 정보가 추출되도록 학습하여 학습 모델을 생성하고, 상기 영상 특징 정보로부터 영상 심층 특징 정보를 생성할 수 있다.
또한, 상기 영상 생성부는, 상기 중요도 점수에 기초하여, 상기 동영상의 길이에 대한 상기 하이라이트 영상의 길이의 비율에 따라 하나 이상의 융합 정보를 추출하고, 추출된 융합 정보를 이용하여 하이라이트 영상을 생성할 수 있다.
본 발명의 다른 일측면은, 다중 시구간 정보를 이용한 하이라이트 영상 생성 장치를 이용하여 하이라이트 영상을 생성하는 방법에 있어서, 동영상으로부터 단기 기간의 음성 정보와 단기 기간의 영상 정보를 분리하여 추출하는 단계; 상기 음성 정보를 분석하여 음성 심층 특징 정보를 생성하는 단계; 사전에 마련되는 학습 모델에 기초하여, 상기 영상 정보로부터 영상 심층 특징 정보를 생성하는 단계; 단기 기간에 따라 생성된 상기 음성 특징 정보와 상기 영상 특징 정보를 융합하여 융합 정보를 생성하고, 사전에 설정되는 장기 기간에 따른 시간 간격마다 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성하는 단계; 및 상기 융합 정보에 대한 중요도 점수를 산출하고, 상기 중요도 점수에 기초하여, 상기 융합 정보로부터 하이라이트 영상을 생성하는 단계를 포함할 수 있다.
상술한 본 발명의 일측면에 따르면, 다중 시구간 정보를 이용한 하이라이트 영상 생성 장치 및 방법을 제공함으로써, 동영상으로부터 영상 정보와 음성 정보를 분리하고, 분리된 영상 정보와 음성 정보를 각각 분석하여 하이라이트 영상을 생성할 수 있다.
도1은 본 발명의 일 실시예에 따른 하이라이트 영상 생성 장치의 개략도이다.
도2는 본 발명의 일 실시예에 따른 하이라이트 영상 생성 장치의 제어블록도이다.
도3은 도2의 정보 융합부에서 융합 정보를 생성하는 과정을 나타낸 블록도이다.
도4는 도2의 영상 생성부에서 하이라이트 영상을 생성하는 과정을 나타낸 블록도이다.
도5는 본 발명의 일 실시예에 따른 하이라이트 영상 생성 장치의 일 실시예를 나타낸 개략도이다.
도6은 본 발명의 일 실시예에 따른 하이라이트 영상 생성 방법의 순서도이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예와 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.
도1은 본 발명의 일 실시예에 따른 하이라이트 영상 생성 장치의 개략도이다.
하이라이트 영상 생성 장치(200)는 동영상(100)으로부터 나타나는 일부 장면을 추출하여 하이라이트 영상(300)을 생성할 수 있다.
여기에서, 동영상(100)은 하이라이트 영상 생성 장치(200)에서 생성되는 하이라이트 영상(300)과 비교하여, 시간 간격이 긴 영상 정보인 것으로 이해할 수 있으며, 예를 들어, 동영상(100)은 축구, 야구, e-스포츠 등의 경기 영상을 포함할 수 있다.
이에 따라, 동영상(100)은 프레임 단위로 마련되어, 시청자의 시각적 자극을 유발하는 영상 정보와 시청자의 청각적 자극을 유발하는 음성 정보를 포함할 수 있다.
이와 같은, 동영상(100)은 트위치(Twitch), 카카오TV(Kakao TV), 아프리카TV(Afreeca TV), 유튜브(Youtube) 및 네이버TV(Naver TV) 등의 동영상(100) 제공 플랫폼(Platform)의 서버 장치로부터 제공되는 것일 수 있다.
한편, 하이라이트 영상(300)은 동영상(100)으로부터 일부 장면을 추출하여, 동영상(100)에서 나타나는 시간 순서에 따라 연결한 것으로 이해할 수 있으며, 이때, 동영상(100)의 일부 장면은 임의의 연속된 프레임 간격으로 나타나는 장면 또는 동영상(100)을 의미할 수 있다.
이에 따라, 하이라이트 영상 생성 장치(200)는 동영상(100)으로부터 나타나는 하나 이상의 시점에서의 일부 장면을 추출하여 연결할 수 있으며, 이때, 하이라이트 영상 생성 장치(200)는 추출된 하나 이상의 일부 장면을 연결하여 하이라이트 영상(300)을 생성할 수 있다.
여기에서, 하이라이트 영상(300)은 동영상(100)에서 나타나는 주요 장면은 일부 장면으로써 추출하여 연결한 것일 수 있으며, 예를 들어, 주요 장면은 동영상(100)이 축구, 야구, e-스포츠 등의 스포츠 경기인 경우에, 득점 장면, 실점 장면, 득점 실패 장면, 반칙 장면 등을 포함할 수 있다. 또한, 주요 장면은 해설자의 톤이 높게 측정되는 장면, 관중의 함성 소리가 발생하는 장면, 관중의 박수 소리가 발생하는 장면 등을 포함할 수 있다.
이때, 득점 장면, 실점 장면, 득점 실패 장면, 반칙 장면 등은 시청자의 시각적 자극을 유발하는 동영상(100)의 영상 정보를 이용하여 판단될 수 있으며, 해설자의 톤이 높게 측정되는 장면, 관중의 함성 소리가 발생하는 장면, 관중의 박수 소리가 발생하는 장면 등은 시청자의 청각적 자극을 유발하는 동영상(100)의 음성 정보를 이용하여 판단될 수 있다.
이하에서, 동영상(100)으로부터 하이라이트 영상(300)을 생성하는 하이라이트 영상 생성 장치(200)에 대해 상세히 설명하도록 한다.
하이라이트 영상 생성 장치(200)는 동영상(100)으로부터 단기 기간의 음성 정보와 단기 기간의 영상 정보를 분리하여 추출할 수 있다.
여기에서, 단기 기간은 동영상(100)으로부터 나타나는 순간적인 음성 또는 영상의 특징을 추출하도록 설정되는 시간 간격일 수 있으며, 예를 들어, 단기 기간은 1초로 설정될 수 있다.
이때, 하이라이트 영상 생성 장치(200)는 동영상(100)으로부터 영상 정보가 추출되는 시점과 음성 정보가 추출되는 시점이 동일하도록 영상 정보와 음성 정보를 분리하여 추출할 수 있다.
한편, 하이라이트 영상 생성 장치(200)는 동영상(100)으로부터 영상 정보가 추출된 시점에서, 사전에 설정되는 지연 시간이 경과된 시점에서 음성 정보를 추출할 수 있다.
여기에서, 지연 시간은 영상 정보로부터 임의의 상황이 나타나는 시점과 임의의 상황에 대해 음성 정보로부터 임의의 반응이 나타나는 시점의 시간 차이로 설정될 수 있다.
예를 들어, 지연 시간은 동영상(100)이 축구, 야구, e-스포츠 등의 경기 영상인 경우에, 경기를 수행하는 선수의 행동과 선수의 행동에 의한 관중의 반응에 따라 설정될 수 있으며, 보다 상세하게는, 지연 시간은 동영상(100)에서, 경기를 수행하는 선수의 행동이 영상 정보로부터 나타나는 시점과, 동영상(100)에서, 선수의 행동에 의한 관중의 반응이 음성 정보로부터 나타나는 시점의 차이로 설정될 수 있다.
이때, 선수의 행동은 선수가 득점을 하는 장면, 선수가 실점을 하는 장면, 선수가 득점을 실패하는 장면, 선수가 반칙을 하는 장면 등으로부터 나타날 수 있으며, 관중의 반응은 득점에 대한 해설자의 톤 상승, 관중의 환호 또는 박수, 실점에 대한 해설자의 톤 하강, 관중의 야유 또는 응원 등을 포함할 수 있다.
하이라이트 영상 생성 장치(200)는 추출된 음성 정보를 분석하여 음성 심층 특징 정보를 생성할 수 있다.
이때, 하이라이트 영상 생성 장치(200)는 음성 정보를 사전에 설정되는 세그먼트 개수에 따라 복수개의 세그먼트로 분리할 수 있고, 하이라이트 영상 생성 장치(200)는 분리된 세그먼트로부터 음성 특징 정보를 추출할 수 있다.
예를 들어, 하이라이트 영상 생성 장치(200)는 1초의 단기 기간으로 추출된 음성 정보를 20차원으로 나타나는 25개의 세그먼트로 분리할 수 있으며, 이러한 경우에, 각각의 세그먼트는 0.04초의 음성 정보로 나타날 수 있다.
이와 관련하여, 하이라이트 영상 생성 장치(200)는 하나의 세그먼트로부터 MFCC(Mel-Frequency Cepstral Coefficient)를 이용하여 서로 다른 주파수 대역으로 나타나는 음성 특징 정보를 추출할 수 있으며, 이때, 하이라이트 영상 생성 장치(200)는 사전에 설정되는 주파수 차원 개수에 따라 하나의 세그먼트로 분리된 음성 정보로부터 서로 다른 주파수 대역으로 나타나는 음성 특징 정보를 추출할 수 있다.
여기에서, 주파수 차원 개수는 하나의 세그먼트로부터 추출하는 서로 다른 주파수 대역의 개수를 의미할 수 있다.
예를 들어, 하이라이트 영상 생성 장치(200)는 하나의 세그먼트로 분리된 음성 정보로부터 20 차원의 MFCC를 이용하여 20개의 주파수 대역의 정보를 추출할 수 있다. 이러한 경우에, 하이라이트 영상 생성 장치(200)는 1초의 단기 기간으로 추출되어, 20차원으로 나타나는 25개의 세그먼트로 분리된 음성 정보로부터 20 차원의 주파수 대역으로 나타나는 음성 특징 정보를 추출할 수 있다.
여기에서, MFCC는 복수개의 주파수 대역으로 나타나는 오디오 신호 등으로부터 인간의 청각에 민감한 주파수 대역의 에너지를 강조하도록 마련되는 멜 스케일(Mel-Scale)을 이용하여 각각의 주파수 대역의 신호를 추출하는 기법으로 이해할 수 있다.
이와 같이, 하이라이트 영상 생성 장치(200)는 사전에 설정되는 주파수 차원 개수에 따라, 하나의 세그먼트로 분리된 음성 정보로부터 복수개의 주파수 대역으로 나타나는 음성 특징 정보를 추출할 수 있다.
이에 따라, 하이라이트 영상 생성 장치(200)는 추출된 각각의 주파수 대역으로 나타나는 음성 특징 정보로부터 BiLSTM(Bidirectional Long-Short Term Memory)을 이용하여 음성 심층 특징 정보를 생성할 수 있다. 이때, 음성 심층 특징 정보는 음성 특징 정보를 포함하는 것으로 이해할 수 있다.
여기에서, BiLSTM은 시계열로 나타나는 임의의 신호가 순방향으로 입력되는 LSTM(Long-Short Term Memory)과 순방향으로 입력되는 신호와 동일한 신호가 역방향으로 입력되는 LSTM을 이용하여 양방향으로 LSTM을 수행하는 기법이며, LSTM은 시계열로 나타나는 임의의 신호를 입력 받아 처리하는 기법으로써, 이전 시점에 입력된 신호를 현재 시점에 입력된 신호에 반영하여 시간적으로 연속하는 정보를 처리하는 기법으로 이해할 수 있다.
예를 들어, 하이라이트 영상 생성 장치(200)는 1초의 단기 기간으로 추출되어, 25개의 세그먼트로 분리된 음성 정보로부터 20 차원의 주파수 대역으로 나타나는 음성 특징 정보를 추출하도록 마련되는 경우에, 각각의 주파수 대역에서 음성 특징 정보를 생성할 수 있으며, 이에 따라, 하이라이트 영상 생성 장치(200)는 1초 당 500개의 음성 특징 정보 또는 음성 심층 특징 정보를 생성할 수 있다.
이때, 단기 기간에 따라 추출되어 생성되는 음성 특정 정보 또는 음성 심층 특징 정보는 단기 기간에 따른 시간 간격 당, 서로 다른 개수로 생성될 수도 있음은 물론이다.
하이라이트 영상 생성 장치(200)는 사전에 마련되는 학습 모델에 기초하여, 영상 정보로부터 영상 심층 특징 정보를 추출할 수 있다.
이를 위해, 하이라이트 영상 생성 장치(200)는 임의의 동영상(100)으로부터 프레임 단위로 분리된 영상 정보를 영상 특징 정보가 추출되도록 학습하여 학습 모델을 생성할 수 있다.
이때, 하이라이트 영상 생성 장치(200)는 임의의 동영상(100)에서 추출된 영상 정보로부터 CNN(Convolution Neural Network)를 이용하여 프레임 단위로 분리된 영상 특징 정보를 학습할 수 있다.
여기에서, CNN은 하나 이상의 합성곱 층(Convolution Layer), 저류층(Pooling Layer) 및 완전 연결 층(Fully-Connected Layer)으로 마련될 수 있다. 이에 따라, CNN은 영상 또는 이미지 등의 정보를 입력 받아, 사전에 학습된 필터를 통해 입력된 정보의 특징 값을 추출하는 기법으로 이해할 수 있다.
이를 통해, 하이라이트 영상 생성 장치(200)는 학습된 학습 모델에 기초하여, 단기 기간에 따라 추출된 영상 정보로부터 영상 특징 정보를 추출할 수 있다.
이때, 하이라이트 영상 생성 장치(200)는 단기 기간에 따라 추출된 영상 정보로부터 나타나는 각각의 프레임에 대해 영상 특징 정보를 각각 추출할 수 있다.
이에 따라, 하이라이트 영상 생성 장치(200)는 추출된 각각의 영상 특징 정보로부터 BiLSTM(Bidirectional Long-Short Term Memory)을 이용하여 영상 심층 특징 정보를 생성할 수 있다. 여기에서, 영상 심층 특징 정보는 영상 특징 정보를 포함하는 것으로 이해할 수 있다.
하이라이트 영상 생성 장치(200)는 단기 기간에 따라 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수 있고, 하이라이트 영상 생성 장치(200)는 사전에 설정되는 장기 기간에 따른 시간 간격마다 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수 있다. 또한, 하이라이트 영상 생성 장치(200)는 단기 기간에 따라 생성된 음성 심층 특징 정보와 영상 심층 특징 정보 및 사전에 설정되는 장기 기간에 따른 시간 간격마다 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수도 있다.
여기에서, 장기 기간은 동영상(100)으로부터 나타나는 지속적인 음성 또는 영상의 특징을 추출하도록 설정되는 시간 간격일 수 있으며, 예를 들어, 장기 기간은 120초로 설정될 수 있다.
또한, 장기 기간은 영상 정보 또는 음성 정보로부터 나타나는 특징이 유지되는 것으로 판단되는 시간 간격을 나타내도록 설정될 수도 있으며, 예를 들어, 장기 기간은 음성 정보에서 관중의 박수 소리가 지속되는 기간으로 설정될 수 있다.
이를 위해, 하이라이트 영상 생성 장치(200)는 현재 시점에 입력된 음성 심층 특징 정보 또는 영상 심층 특징 정보와 이전 시점에 입력된 음성 심층 특징 정보 또는 영상 심층 특징 정보의 차이가 사전에 설정되는 임계 범위를 만족하는 경우에, 이전 시점에 입력된 음성 심층 특징 정보 또는 영상 심층 특징 정보에 현재 시점에 입력된 음성 심층 특징 정보 또는 영상 심층 특징 정보를 연결할 수 있다.
또한, 하이라이트 영상 생성 장치(200)는 현재 시점에 입력된 음성 심층 특징 정보 또는 영상 심층 특징 정보와 이전 시점에 입력된 음성 심층 특징 정보 또는 영상 심층 특징 정보의 차이가 사전에 설정되는 임계 범위를 벗어나는 경우에, 이전 시점까지 입력되어 연결된 복수개의 음성 심층 특징 정보 또는 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수 있다.
한편, 융합 정보는 시간 순서에 따라 생성되는 음성 심층 특징 정보와 영상 심층 특징 정보가 결합된 것일 수 있으며, 이때, 융합 정보는 동영상(100)의 동일한 임의의 시점에서 추출된 음성 심층 특징 정보와 영상 심층 특징 정보가 융합되어 마련될 수 있으며, 또한, 융합 정보는 동영상(100)의 임의의 시점에서 추출된 영상 심층 특징 정보와 영상 심층 특징 정보가 추출된 시점으로부터 지연 시간이 적용된 시점에서 추출된 음성 심층 특징 정보가 융합되어 마련될 수 있다.
또한, 융합 정보는 단기 기간으로 추출된 음성 심층 특징 정보와 영상 심층 특징 정보가 융합되어 마련될 수 있고, 융합 정보는 장기 기간으로 추출된 음성 심층 특징 정보와 영상 심층 특징 정보가 융합되어 마련될 수 있다.
이와 같이, 융합 정보는 음성 심층 특징 정보와 영상 심층 특징 정보가 융합된 것으로 이해할 수 있으며, 이때, 융합 정보는 융합 정보가 나타나는 시간 간격에 따라 단기 기간으로 추출된 음성 심층 특징 정보와 영상 심층 특징 정보로부터 생성된 단기 기간에 따른 융합 정보와 장기 기간으로 추출된 음성 심층 특징 정보와 영상 심층 특징 정보로부터 생성된 장기 기간에 따른 융합 정보로 구분될 수 있다.
하이라이트 영상 생성 장치(200)는 융합 정보에 대한 중요도 점수를 산출할 수 있고, 하이라이트 영상 생성 장치(200)는 중요도 점수에 기초하여, 융합 정보로부터 하이라이트 영상(300)을 생성할 수 있다.
이를 위해, 하이라이트 영상 생성 장치(200)는 생성된 융합 정보로부터 BiLSTM와 FC(Fully-Connected Layer)를 이용하여 중요도 점수를 산출할 수 있다.
이때, 하이라이트 영상 생성 장치(200)는 단기 기간에 따라 음성 심층 특징 정보와 영상 심층 특징 정보가 추출되어 생성된 융합 정보를 BiLSTM 및 FC에 입력하여, 단기 기간에 따른 중요도 점수를 산출할 수 있으며, 또한, 하이라이트 영상 생성 장치(200)는 장기 기간에 따라 음성 심층 특징 정보와 영상 심층 특징 정보가 수집되어 생성된 융합 정보를 BiLSTM 및 FC에 입력하여, 장기 기간에 따른 중요도 점수를 산출할 수 있다. 또한, 하이라이트 영상 생성 장치(200)는 단기 기간에 따른 음성 심층 특징 정보와 영상 심층 특징 정보 및 장기 기간에 따른 음성 심층 특징 정보와 영상 심층 특징 정보가 추출되어 생성된 융합 정보를 BiLSTM 및 FC에 입력하여, 장기 기간 및 단기 기간에 따른 중요도 점수를 산출할 수 있다.
다시 말해서, 하이라이트 영상 생성 장치(200)는 단기 기간에 따른 융합 정보와 장기 기간에 따른 융합 정보에 대한 중요도 점수를 각각 산출할 수 있으며, 또한, 하이라이트 영상 생성 장치(200)는 단기 기간에 따른 융합 정보와 장기 기간에 따른 융합 정보에 대한 중요도 점수를 산출할 수 있다.
이때, FC는 입력 값에 매칭되는 결과 값을 출력하도록 마련되는 완전 연결층(Fully-Connected Layer)을 의미할 수 있다.
이와 관련하여, 하이라이트 영상 생성 장치(200)는 생성된 융합 정보로부터 GAN(Generative Adversarial Network)을 이용하여 중요도 점수를 산출할 수 있다.
이때, 하이라이트 영상 생성 장치(200)가 GAN을 이용하여 중요도 점수를 산출하는 것은 융합 정보가 BiLSTM에 입력되어 출력되는 정보를 GAN에 입력하는 것으로 이해할 수 있다.
이를 위해, 하이라이트 영상 생성 장치(200)는 사전에 임의의 동영상(100)에 대해 생성된 하이라이트 영상(300)으로부터 GAN 학습 모델을 생성할 수 있다.
여기에서, GAN은 실제 정보를 모사하여 모사된 정보를 생성하는 생성기(Generator)와 실제 정보와 모사된 정보를 비교하여 차이를 검출하는 판별기(Discriminator)가 마련될 수 있다. 이에 따라, GAN은 생성기가 사전에 입력되는 정보를 모사하고, 판별기가 모사된 정보와 입력된 정보의 차이를 검출하여, 생성기와 판별기 간의 적대적 학습(Adversarial Learning)을 통해 학습 모델을 생성하는 기법으로 이해할 수 있다.
이에 따라, 하이라이트 영상 생성 장치(200)는 GAN을 이용하여 사전에 입력되는 하이라이트 영상(300)을 모사하고, 모사된 하이라이트 영상(300)과 입력된 하이라이트 영상(300)을 비교하여 GAN 학습 모델을 생성할 수 있다.
이를 통해, 하이라이트 영상 생성 장치(200)는 생성된 GAN 학습 모델에 기초하여, 융합 정보로부터 중요도 점수를 산출할 수 있다.
이에 따라, 하이라이트 영상 생성 장치(200)는 GAN 학습 모델을 생성하도록 입력된 하이라이트 영상(300)의 패턴과 유사한 패턴을 나타내는 융합 정보에 대해, 높은 중요도 점수가 산출되는 효과를 얻을 수 있으며, 이를 통해, 하이라이트 영상 생성 장치(200)는 이전에 생성된 하이라이트 영상(300)의 패턴과 유사한 패턴을 나타내는 하이라이트 영상(300)을 생성하는 효과를 얻을 수 있다.
이에 따라, 하이라이트 영상 생성 장치(200)는 중요도 점수에 따라 하나 이상의 융합 정보를 추출할 수 있다.
여기에서, 중요도 점수에 따라 하나 이상의 융합 정보를 추출하는 것은 중요도 점수에 매칭되는 융합 정보가 동영상(100)으로부터 나타나는 시점을 추출하는 것으로 이해할 수 있으며, 이에 따라, 하이라이트 영상 생성 장치(200)는 동영상(100)으로부터 중요도 점수에 매칭되는 시간 간격 또는 프레임을 추출하는 것으로 이해할 수도 있다.
이때, 하이라이트 영상 생성 장치(200)는 중요도 점수에 기초하여, 동영상(100)의 길이에 대한 하이라이트 영상(300)의 길이의 비율에 따라 하나 이상의 융합 정보를 추출할 수 있고, 하이라이트 영상 생성 장치(200)는 추출된 융합 정보를 이용하여 하이라이트 영상(300)을 생성할 수 있다.
예를 들어, 하이라이트 영상 생성 장치(200)는 동영상(100)의 길이가 200분이고, 하이라이트 영상(300)의 길이가 10분인 경우에, 동영상(100)의 길이에 대한 하이라이트 영상(300)의 길이의 비율이 5%이므로, 하이라이트 영상 생성 장치(200)는 산출된 중요도 점수 중 상위 5%를 만족하는 중요도 점수에 따른 융합 정보를 추출할 수 있다.
이와 관련하여, 하이라이트 영상 생성 장치(200)는 추출된 하나 이상의 융합 정보가 동영상(100)으로부터 나타나는 시간 간격 또는 프레임 간격에 따라, 동영상(100)으로부터 해당 시간 간격 또는 프레임 간격의 영상 정보와 음성 정보를 추출하여 연결할 수 있으며, 이를 통해, 하이라이트 영상 생성 장치(200)는 하나 이상의 융합 정보에 따라, 동영상(100)으로부터 추출된 영상 정보와 음성 정보를 시간 순서에 따라 연결하여 하이라이트 영상(300)을 생성할 수 있다.
도2는 본 발명의 일 실시예에 따른 하이라이트 영상 생성 장치의 제어블록도이다.
하이라이트 영상 생성 장치(200)는 동영상 분리부(210), 음성 분석부(220), 영상 분석부(230), 정보 융합부(240) 및 영상 생성부(250)를 포함할 수 있다.
동영상 분리부(210)는 동영상(100)으로부터 단기 기간의 음성 정보와 단기 기간의 영상 정보를 분리하여 추출할 수 있다.
이때, 동영상 분리부(210)는 동영상(100)으로부터 영상 정보가 추출되는 시점과 음성 정보가 추출되는 시점이 동일하도록 영상 정보와 음성 정보를 분리하여 추출할 수 있다.
한편, 동영상 분리부(210)는 동영상(100)으로부터 영상 정보가 추출된 시점에서, 사전에 설정되는 지연 시간이 경과된 시점에서 음성 정보를 추출할 수 있다.
음성 분석부(220)는 추출된 음성 정보를 분석하여 음성 특징 정보를 생성할 수 있다.
이때, 음성 분석부(220)는 음성 정보를 사전에 설정되는 세그먼트 개수에 따라 복수개의 세그먼트로 분리할 수 있고, 음성 분석부(220)는 분리된 세그먼트로부터 음성 특징 정보를 추출할 수 있다.
이와 관련하여, 음성 분석부(220)는 하나의 세그먼트로부터 MFCC(Mel-Frequency Cepstral Coefficient)를 이용하여 서로 다른 주파수 대역으로 나타나는 음성 특징 정보를 추출할 수 있으며, 이때, 음성 분석부(220)는 사전에 설정되는 주파수 차원 개수에 따라 하나의 세그먼트로 분리된 음성 정보로부터 서로 다른 주파수 대역으로 나타나는 음성 특징 정보를 추출할 수 있다.
이에 따라, 음성 분석부(220)는 추출된 각각의 주파수 대역의 정보로부터 BiLSTM(Bidirectional Long-Short Term Memory)을 이용하여 음성 심층 특징 정보를 생성할 수 있다.
영상 분석부(230)는 사전에 마련되는 학습 모델에 기초하여, 영상 정보로부터 영상 특징 정보를 추출할 수 있다.
이를 위해, 영상 분석부(230)는 임의의 동영상(100)으로부터 프레임 단위로 분리된 영상 정보를 영상 특징 정보가 추출되도록 학습하여 학습 모델을 생성할 수 있다.
이때, 영상 분석부(230)는 임의의 동영상(100)에서 추출된 영상 정보로부터 CNN(Convolution Neural Network)를 이용하여 프레임 단위로 분리된 영상 특징 정보를 학습할 수 있다.
이때, 영상 분석부(230)는 단기 기간에 따라 추출된 영상 정보로부터 나타나는 각각의 프레임에 대해 영상 특징 정보를 각각 추출할 수 있다.
이에 따라, 영상 분석부(230)는 추출된 각각의 영상 특징 정보로부터 BiLSTM(Bidirectional Long-Short Term Memory)을 이용하여 영상 심층 특징 정보를 생성할 수 있다.
정보 융합부(240)는 단기 기간에 따라 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수 있고, 정보 융합부(240)는 사전에 설정되는 장기 기간에 매치되도록 단기 기간에 따라 생성된 복수개의 음성 심층 특징 정보와 복수개의 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수 있다. 또한, 정보 융합부(240)는 단기 기간에 따라 생성된 음성 심층 특징 정보와 영상 심층 특징 정보 및 사전에 설정되는 장기 기간에 따른 시간 간격마다 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수도 있다.
여기에서, 장기 기간은 동영상(100)으로부터 나타나는 지속적인 음성 또는 영상의 특징을 추출하도록 설정되는 시간 간격일 수 있다.
또한, 장기 기간은 영상 정보 또는 음성 정보로부터 나타나는 특징이 유지되는 것으로 판단되는 시간 간격을 나타내도록 설정될 수도 있다.
이를 위해, 정보 융합부(240)는 현재 시점에 입력된 음성 심층 특징 정보 또는 영상 심층 특징 정보와 이전 시점에 입력된 음성 심층 특징 정보 또는 영상 심층 특징 정보의 차이가 사전에 설정되는 임계 범위를 만족하는 경우에, 이전 시점에 입력된 음성 심층 특징 정보 또는 영상 심층 특징 정보에 현재 시점에 입력된 음성 심층 특징 정보 또는 영상 심층 특징 정보를 연결할 수 있다.
또한, 정보 융합부(240)는 현재 시점에 입력된 음성 심층 특징 정보 또는 영상 심층 특징 정보와 이전 시점에 입력된 음성 심층 특징 정보 또는 영상 심층 특징 정보의 차이가 사전에 설정되는 임계 범위를 벗어나는 경우에, 이전 시점까지 입력되어 연결된 복수개의 음성 심층 특징 정보 또는 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수 있다.
영상 생성부(250)는 융합 정보에 대한 중요도 점수를 산출할 수 있고, 영상 생성부(250)는 중요도 점수에 기초하여, 융합 정보로부터 하이라이트 영상(300)을 생성할 수 있다.
이를 위해, 영상 생성부(250)는 생성된 융합 정보로부터 BiLSTM와 FC(Fully-Connected Layer)를 이용하여 중요도 점수를 산출할 수 있다.
이때, 영상 생성부(250)는 단기 기간에 따라 음성 심층 특징 정보와 영상 심층 특징 정보가 추출되어 생성된 융합 정보를 BiLSTM 및 FC에 입력하여, 단기 기간에 따른 중요도 점수를 산출할 수 있으며, 또한, 영상 생성부(250)는 장기 기간에 따라 음성 심층 특징 정보와 영상 심층 특징 정보가 수집되어 생성된 융합 정보를 BiLSTM 및 FC에 입력하여, 장기 기간에 따른 중요도 점수를 산출할 수 있다. 또한, 영상 생성부(250)는 단기 기간에 따른 음성 심층 특징 정보와 영상 심층 특징 정보 및 장기 기간에 따른 음성 심층 특징 정보와 영상 심층 특징 정보가 추출되어 생성된 융합 정보를 BiLSTM 및 FC에 입력하여, 장기 기간 및 단기 기간에 따른 중요도 점수를 산출할 수 있다.
이와 관련하여, 영상 생성부(250)는 생성된 융합 정보로부터 GAN(Generative Adversarial Network)을 이용하여 중요도 점수를 산출할 수 있다.
이때, 영상 생성부(250)가 GAN을 이용하여 중요도 점수를 산출하는 것은 융합 정보가 BiLSTM에 입력되어 출력되는 정보를 GAN에 입력하는 것으로 이해할 수 있다.
이를 위해, 영상 생성부(250)는 사전에 임의의 동영상(100)에 대해 생성된 하이라이트 영상(300)으로부터 GAN 학습 모델을 생성할 수 있다.
이에 따라, 영상 생성부(250)는 GAN을 이용하여 사전에 입력되는 하이라이트 영상(300)을 모사하고, 모사된 하이라이트 영상(300)과 입력된 하이라이트 영상(300)을 비교하여 GAN 학습 모델을 생성할 수 있다.
이를 통해, 영상 생성부(250)는 생성된 GAN 학습 모델에 기초하여, 융합 정보로부터 중요도 점수를 산출할 수 있다.
이에 따라, 영상 생성부(250)는 중요도 점수에 따라 하나 이상의 융합 정보를 추출할 수 있다.
이때, 영상 생성부(250)는 중요도 점수에 기초하여, 동영상(100)의 길이에 대한 하이라이트 영상(300)의 길이의 비율에 따라 하나 이상의 융합 정보를 추출할 수 있고, 영상 생성부(250)는 추출된 융합 정보를 이용하여 하이라이트 영상(300)을 생성할 수 있다.
이와 관련하여, 영상 생성부(250)는 추출된 하나 이상의 융합 정보가 동영상(100)으로부터 나타나는 시간 간격 또는 프레임 간격에 따라, 동영상(100)으로부터 해당 시간 간격 또는 프레임 간격의 영상 정보와 음성 정보를 추출하여 연결할 수 있으며, 이를 통해, 영상 생성부(250)는 하나 이상의 융합 정보에 따라, 동영상(100)으로부터 추출된 영상 정보와 음성 정보를 시간 순서에 따라 연결하여 하이라이트 영상(300)을 생성할 수 있다.
도3은 도2의 정보 융합부에서 융합 정보를 생성하는 과정을 나타낸 블록도이다.
도3을 참조하면, 동영상 분리부(210)는 동영상(100)으로부터 단기 기간의 음성 정보와 단기 기간의 영상 정보를 분리하여 추출할 수 있다.
이에 따라, 음성 분석부(220)는 추출된 음성 정보를 분석하여 음성 심층 특징 정보를 생성할 수 있으며, 영상 분석부(230)는 사전에 마련되는 학습 모델에 기초하여, 영상 정보로부터 영상 심층 특징 정보를 추출할 수 있다.
이때, 음성 분석부(220)는 음성 정보를 사전에 설정되는 세그먼트 개수에 따라 복수개의 세그먼트로 분리할 수 있고, 음성 분석부(220)는 분리된 세그먼트로부터 음성 특징 정보를 추출할 수 있다.
이에 따라, 음성 분석부(220)는 추출된 각각의 주파수 대역의 정보로부터 BiLSTM(Bidirectional Long-Short Term Memory)을 이용하여 음성 심층 특징 정보를 생성할 수 있다.
또한, 영상 분석부(230)는 임의의 동영상(100)으로부터 프레임 단위로 분리된 영상 정보를 영상 특징 정보가 추출되도록 학습하여 학습 모델을 생성할 수 있다.
이에 따라, 영상 분석부(230)는 추출된 각각의 영상 특징 정보로부터 BiLSTM(Bidirectional Long-Short Term Memory)을 이용하여 영상 심층 특징 정보를 생성할 수 있다.
이에 따라, 정보 융합부(240)는 단기 기간에 따라 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수 있고, 정보 융합부(240)는 사전에 설정되는 장기 기간에 매치되도록 단기 기간에 따라 생성된 복수개의 음성 심층 특징 정보와 복수개의 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수 있다. 또한, 정보 융합부(240)는 단기 기간에 따라 생성된 음성 심층 특징 정보와 영상 심층 특징 정보 및 사전에 설정되는 장기 기간에 따른 시간 간격마다 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수도 있다.
도4는 도2의 영상 생성부에서 하이라이트 영상을 생성하는 과정을 나타낸 블록도이다.
도4를 참조하면, 정보 융합부(240)는 단기 기간에 따라 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수 있고, 정보 융합부(240)는 사전에 설정되는 장기 기간에 매치되도록 단기 기간에 따라 생성된 복수개의 음성 심층 특징 정보와 복수개의 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수 있다. 또한, 정보 융합부(240)는 단기 기간에 따라 생성된 음성 심층 특징 정보와 영상 심층 특징 정보 및 사전에 설정되는 장기 기간에 따른 시간 간격마다 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수도 있다.
이에 따라, 영상 생성부(250)는 융합 정보에 대한 중요도 점수를 산출할 수 있고, 영상 생성부(250)는 중요도 점수에 기초하여, 융합 정보로부터 하이라이트 영상(300)을 생성할 수 있다.
이를 위해, 영상 생성부(250)는 생성된 융합 정보로부터 BiLSTM와 FC를 이용하여 중요도 점수를 산출할 수 있다.
이때, 영상 생성부(250)는 단기 기간에 따라 음성 심층 특징 정보와 영상 심층 특징 정보가 추출되어 생성된 융합 정보를 BiLSTM 및 FC에 입력하여, 단기 기간에 따른 중요도 점수를 산출할 수 있으며, 또한, 영상 생성부(250)는 장기 기간에 따라 음성 심층 특징 정보와 영상 심층 특징 정보가 수집되어 생성된 융합 정보를 BiLSTM 및 FC에 입력하여, 장기 기간에 따른 중요도 점수를 산출할 수 있다. 또한, 영상 생성부(250)는 단기 기간에 따른 음성 심층 특징 정보와 영상 심층 특징 정보 및 장기 기간에 따른 음성 심층 특징 정보와 영상 심층 특징 정보가 추출되어 생성된 융합 정보를 BiLSTM 및 FC에 입력하여, 장기 기간 및 단기 기간에 따른 중요도 점수를 산출할 수 있다.
이와 관련하여, 영상 생성부(250)는 생성된 융합 정보로부터 GAN(Generative Adversarial Network)을 이용하여 중요도 점수를 산출할 수 있다.
이때, 영상 생성부(250)가 GAN을 이용하여 중요도 점수를 산출하는 것은 융합 정보가 BiLSTM에 입력되어 출력되는 정보를 GAN에 입력하는 것으로 이해할 수 있다.
이를 위해, 영상 생성부(250)는 사전에 임의의 동영상(100)에 대해 생성된 하이라이트 영상(300a)으로부터 GAN 학습 모델을 생성할 수 있다.
이에 따라, 영상 생성부(250)는 GAN을 이용하여 사전에 입력되는 하이라이트 영상(300a)을 모사하고, 모사된 하이라이트 영상(300b)과 입력된 하이라이트 영상(300a)을 비교하여 GAN 학습 모델을 생성할 수 있다.
이를 통해, 영상 생성부(250)는 생성된 GAN 학습 모델에 기초하여, 융합 정보로부터 중요도 점수를 산출할 수 있다.
이에 따라, 영상 생성부(250)는 중요도 점수에 따라 하나 이상의 융합 정보를 추출할 수 있다.
이때, 영상 생성부(250)는 중요도 점수에 기초하여, 동영상(100)의 길이에 대한 하이라이트 영상(300)의 길이의 비율에 따라 하나 이상의 융합 정보를 추출할 수 있고, 영상 생성부(250)는 추출된 융합 정보를 이용하여 하이라이트 영상(300)을 생성할 수 있다.
이와 관련하여, 영상 생성부(250)는 추출된 하나 이상의 융합 정보가 동영상(100)으로부터 나타나는 시간 간격 또는 프레임 간격에 따라, 동영상(100)으로부터 해당 시간 간격 또는 프레임 간격의 영상 정보와 음성 정보를 추출하여 연결할 수 있으며, 이를 통해, 영상 생성부(250)는 하나 이상의 융합 정보에 따라, 동영상(100)으로부터 추출된 영상 정보와 음성 정보를 시간 순서에 따라 연결하여 하이라이트 영상(300)을 생성할 수 있다.
도5는 본 발명의 일 실시예에 따른 하이라이트 영상 생성 장치의 일 실시예를 나타낸 개략도이다.
도5를 참조하면, 동영상(100)으로부터 단기 기간의 음성 정보와 단기 기간의 영상 정보가 분리되어, 서로 다른 BiLSTM에 입력되는 것을 확인할 수 있다.
한편, 도5에서, Video는 동영상(100)을 의미하고, audio는 음성 정보를 의미하며, image는 영상 정보를 의미할 수 있다. 또한, {x_t}audio는 단기 기간으로 나타나는 음성 특징 정보를 의미할 수 있고, {x_t}image는 단기 기간으로 나타나는 영상 특징 정보를 의미할 수 있다. 또한, {h_t}short_audio는 단기 기간의 음성 심층 특징 정보를 의미할 수 있고, {h_t}short_image는 단기 기간의 영상 심층 특징 정보를 의미할 수 있으며, {h_t}long은 융합 심층 특징 정보를 의미할 수 있다.
한편, {x_t}true_image는 사전에 입력되는 하이라이트 영상(300a)를 의미할 수 있고, {x_t}pred_image는 사전에 입력되는 하이라이트 영상(300a)이 모사된 하이라이트 영상(300b)인 것으로 이해할 수 있다.
이에 따라, 하이라이트 영상 생성 장치(200)는 음성 정보를 사전에 설정되는 세그먼트 개수에 따라 복수개의 세그먼트로 분리할 수 있다.
또한, 하이라이트 영상 생성 장치(200)는 하나의 세그먼트로부터 MFCC(Mel-Frequency Cepstral Coefficient)를 이용하여 서로 다른 주파수 대역으로 나타나는 음성 특징 정보를 추출할 수 있으며, 이때, 하이라이트 영상 생성 장치(200)는 사전에 설정되는 주파수 차원 개수에 따라 하나의 세그먼트로 분리된 음성 정보로부터 서로 다른 주파수 대역으로 나타나는 음성 특징 정보를 추출할 수 있다.
이때, 하이라이트 영상 생성 장치(200)는 추출된 각각의 주파수 대역으로 나타나는 음성 특징 정보로부터 BiLSTM(Bidirectional Long-Short Term Memory)을 이용하여 음성 심층 특징 정보를 생성할 수 있다.
한편, 하이라이트 영상 생성 장치(200)는 사전에 마련되는 학습 모델에 기초하여, 영상 정보로부터 영상 특징 정보를 추출할 수 있다.
이를 위해, 하이라이트 영상 생성 장치(200)는 임의의 동영상(100)으로부터 프레임 단위로 분리된 영상 정보를 영상 특징 정보가 추출되도록 학습하여 학습 모델을 생성할 수 있다.
이때, 하이라이트 영상 생성 장치(200)는 임의의 동영상(100)에서 추출된 영상 정보로부터 CNN(Convolution Neural Network)를 이용하여 프레임 단위로 분리된 영상 특징 정보를 학습할 수 있다.
이를 통해, 하이라이트 영상 생성 장치(200)는 학습된 학습 모델에 기초하여, 단기 기간에 따라 추출된 영상 정보로부터 영상 특징 정보를 추출할 수 있다.
이때, 하이라이트 영상 생성 장치(200)는 추출된 각각의 영상 특징 정보로부터 BiLSTM(Bidirectional Long-Short Term Memory)을 이용하여 영상 심층 특징 정보를 생성할 수 있다.
이에 따라, 하이라이트 영상 생성 장치(200)는 단기 기간에 따라 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수 있고, 하이라이트 영상 생성 장치(200)는 사전에 설정되는 장기 기간에 따른 시간 간격마다 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수 있다. 또한, 하이라이트 영상 생성 장치(200)는 단기 기간에 따라 생성된 음성 심층 특징 정보와 영상 심층 특징 정보 및 사전에 설정되는 장기 기간에 따른 시간 간격마다 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수도 있다.
이에 따라, 하이라이트 영상 생성 장치(200)는 생성된 융합 정보로부터 BiLSTM와 FC를 이용하여 중요도 점수를 산출할 수 있다.
이때, 하이라이트 영상 생성 장치(200)는 단기 기간에 따라 음성 심층 특징 정보와 영상 심층 특징 정보가 추출되어 생성된 융합 정보를 BiLSTM 및 FC에 입력하여, 단기 기간에 따른 중요도 점수를 산출할 수 있으며, 또한, 하이라이트 영상 생성 장치(200)는 장기 기간에 따라 음성 심층 특징 정보와 영상 심층 특징 정보가 수집되어 생성된 융합 정보를 BiLSTM 및 FC에 입력하여, 장기 기간에 따른 중요도 점수를 산출할 수 있다. 또한, 하이라이트 영상 생성 장치(200)는 단기 기간에 따른 음성 심층 특징 정보와 영상 심층 특징 정보 및 장기 기간에 따른 음성 심층 특징 정보와 영상 심층 특징 정보가 추출되어 생성된 융합 정보를 BiLSTM 및 FC에 입력하여, 장기 기간 및 단기 기간에 따른 중요도 점수를 산출할 수 있다.
이와 관련하여, 하이라이트 영상 생성 장치(200)는 생성된 융합 정보로부터 GAN(Generative Adversarial Network)을 이용하여 중요도 점수를 산출할 수 있다.
이때, 하이라이트 영상 생성 장치(200)가 GAN을 이용하여 중요도 점수를 산출하는 것은 융합 정보가 BiLSTM에 입력되어 출력되는 정보를 GAN에 입력하는 것으로 이해할 수 있다.
여기에서, GAN은 실제 정보를 모사하여 모사된 정보를 생성하는 생성기(Generator)와 실제 정보와 모사된 정보를 비교하여 차이를 검출하는 판별기(Discriminator)가 마련될 수 있다. 이에 따라, GAN은 생성기가 사전에 입력되는 정보를 모사하고, 판별기가 모사된 정보와 입력된 정보의 차이를 검출하여, 생성기와 판별기 간의 적대적 학습(Adversarial Learning)을 통해 학습 모델을 생성하는 기법으로 이해할 수 있다.
이에 따라, 도5의 HiSum은 GAN의 생성기인 것으로 이해할 수 있고, D는 GAN의 판별기인 것으로 이해할 수 있다.
이와 같이, 하이라이트 영상 생성 장치(200)는 사전에 임의의 동영상(100)에 대해 생성된 하이라이트 영상(300)으로부터 GAN 학습 모델을 생성할 수 있다.
이를 통해, 하이라이트 영상 생성 장치(200)는 생성된 GAN 학습 모델에 기초하여, 융합 정보로부터 중요도 점수를 산출할 수 있다.
이에 따라, 하이라이트 영상 생성 장치(200)는 중요도 점수에 따라 하나 이상의 융합 정보를 추출할 수 있다.
이때, 하이라이트 영상 생성 장치(200)는 중요도 점수에 기초하여, 동영상(100)의 길이에 대한 하이라이트 영상(300)의 길이의 비율에 따라 하나 이상의 융합 정보를 추출할 수 있고, 하이라이트 영상 생성 장치(200)는 추출된 융합 정보를 이용하여 하이라이트 영상(300)을 생성할 수 있다.
이와 관련하여, 하이라이트 영상 생성 장치(200)는 추출된 하나 이상의 융합 정보가 동영상(100)으로부터 나타나는 시간 간격 또는 프레임 간격에 따라, 동영상(100)으로부터 해당 시간 간격 또는 프레임 간격의 영상 정보와 음성 정보를 추출하여 연결할 수 있으며, 이를 통해, 하이라이트 영상 생성 장치(200)는 하나 이상의 융합 정보에 따라, 동영상(100)으로부터 추출된 영상 정보와 음성 정보를 시간 순서에 따라 연결하여 하이라이트 영상(300)을 생성할 수 있다.
도6은 본 발명의 일 실시예에 따른 하이라이트 영상 생성 방법의 순서도이다.
본 발명의 일 실시예에 따른 하이라이트 영상 생성 방법은 도 1에 도시된 하이라이트 영상 생성 장치(200)와 실질적으로 동일한 구성 상에서 진행되므로, 도 1의 하이라이트 영상 생성 장치(200)와 동일한 구성요소에 대해 동일한 도면 부호를 부여하고, 반복되는 설명은 생략하기로 한다.
하이라이트 영상 생성 방법은 음성 정보와 영상 정보를 분리하여 추출하는 단계(600), 음성 특징 정보를 생성하는 단계(610), 영상 특징 정보를 생성하는 단계(620), 융합 정보를 생성하는 단계(630) 및 하이라이트 영상을 생성하는 단계(640)를 포함할 수 있다.
음성 정보와 영상 정보를 분리하여 추출하는 단계(600)는 동영상 분리부(210)가 동영상(100)으로부터 단기 기간의 음성 정보와 단기 기간의 영상 정보를 분리하여 추출하는 단계일 수 있다.
음성 특징 정보를 생성하는 단계(610)는 음성 분석부(220)가 음성 정보를 분석하여 음성 심층 특징 정보를 생성하는 단계일 수 있다.
영상 특징 정보를 생성하는 단계(620)는 영상 분석부(230)가 사전에 마련되는 학습 모델에 기초하여, 영상 정보로부터 영상 심층 특징 정보를 생성하는 단계일 수 있다.
융합 정보를 생성하는 단계(630)는 정보 융합부(240)가 단기 기간에 따라 생성된 음성 심층 특징 정보와 영상 특징 정보를 융합하여 융합 정보를 생성하고, 사전에 설정되는 장기 기간에 따른 시간 간격마다 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성하는 단계일 수 있다.
하이라이트 영상을 생성하는 단계(640)는 영상 생성부(250)가 융합 정보에 대한 중요도 점수를 산출하고, 중요도 점수에 기초하여, 융합 정보로부터 하이라이트 영상을 생성하는 단계일 수 있다.
이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
100: 동영상
200: 하이라이트 영상 생성 장치
300: 하이라이트 영상

Claims (5)

  1. 동영상으로부터 단기 기간의 음성 정보와 단기 기간의 영상 정보를 분리하여 추출하는 동영상 분리부;
    상기 음성 정보를 분석하여 음성 심층 특징 정보를 생성하는 음성 분석부;
    사전에 마련되는 학습 모델에 기초하여, 상기 영상 정보로부터 영상 심층 특징 정보를 생성하는 영상 분석부;
    단기 기간에 따라 생성된 상기 음성 심층 특징 정보와 상기 영상 심층 특징 정보를 융합하여 융합 정보를 생성하고, 사전에 설정되는 장기 기간에 매치되도록 상기 단기 기간에 따라 생성된 상기 음성 심층 특징 정보와 상기 영상 심층 특징 정보를 융합하여 장기 기간에 따른 융합 정보를 생성하는 정보 융합부; 및
    상기 융합 정보에 대한 중요도 점수를 산출하고, 상기 중요도 점수에 기초하여, 상기 융합 정보로부터 하이라이트 영상을 생성하는 영상 생성부를 포함하는, 하이라이트 영상 생성 장치.
  2. 제1항에 있어서, 상기 음성 분석부는,
    상기 음성 정보를 사전에 설정되는 세그먼트 개수에 따라 복수개의 세그먼트로 분리하고, 상기 세그먼트로부터 사전에 설정되는 주파수 차원 개수에 따라 각각의 주파수 대역에서의 음성 특징 정보를 생성하고, 상기 음성 특징 정보로부터 상기 음성 심층 특징 정보를 생성하는, 하이라이트 영상 생성 장치.
  3. 제1항에 있어서, 상기 영상 분석부는,
    임의의 동영상으로부터 프레임 단위로 분리된 영상 정보를 영상 특징 정보가 추출되도록 학습하여 학습 모델을 생성하고, 상기 영상 특징 정보로부터 영상 심층 특징 정보를 생성하는, 하이라이트 영상 생성 장치.
  4. 제1항에 있어서, 상기 영상 생성부는,
    상기 중요도 점수에 기초하여, 상기 동영상의 길이에 대한 상기 하이라이트 영상의 길이의 비율에 따라 하나 이상의 융합 정보를 추출하고, 추출된 융합 정보를 이용하여 하이라이트 영상을 생성하는, 하이라이트 영상 생성 장치.
  5. 다중 시구간 정보를 이용한 하이라이트 영상 생성 장치를 이용하여 하이라이트 영상을 생성하는 방법에 있어서,
    동영상으로부터 단기 기간의 음성 정보와 단기 기간의 영상 정보를 분리하여 추출하는 단계;
    상기 음성 정보를 분석하여 음성 심층 특징 정보를 생성하는 단계;
    사전에 마련되는 학습 모델에 기초하여, 상기 영상 정보로부터 영상 심층 특징 정보를 생성하는 단계;
    단기 기간에 따라 생성된 상기 음성 심층 특징 정보와 상기 영상 심층 특징 정보를 융합하여 융합 정보를 생성하고, 사전에 설정되는 장기 기간에 매치되도록 상기 단기 기간에 따라 생성된 상기 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 장기 기간에 따른 융합 정보를 생성하는 단계; 및
    상기 융합 정보에 대한 중요도 점수를 산출하고, 상기 중요도 점수에 기초하여, 상기 융합 정보로부터 하이라이트 영상을 생성하는 단계를 포함하는, 하이라이트 영상 생성 방법.

KR1020200116819A 2020-09-11 2020-09-11 다중 시구간 정보를 이용한 하이라이트 영상 생성 장치 및 방법 KR102369620B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200116819A KR102369620B1 (ko) 2020-09-11 2020-09-11 다중 시구간 정보를 이용한 하이라이트 영상 생성 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200116819A KR102369620B1 (ko) 2020-09-11 2020-09-11 다중 시구간 정보를 이용한 하이라이트 영상 생성 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102369620B1 true KR102369620B1 (ko) 2022-03-07

Family

ID=80817333

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200116819A KR102369620B1 (ko) 2020-09-11 2020-09-11 다중 시구간 정보를 이용한 하이라이트 영상 생성 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102369620B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023182542A1 (ko) * 2022-03-22 2023-09-28 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060116335A (ko) * 2005-05-09 2006-11-15 삼성전자주식회사 이벤트를 이용한 동영상 요약 장치 및 방법과 그 장치를제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수있는 기록 매체
KR20160043865A (ko) * 2014-10-14 2016-04-22 한화테크윈 주식회사 통합써머리를 제공하는 영상재생장치 및 방법
KR20200092502A (ko) * 2019-01-11 2020-08-04 서울과학기술대학교 산학협력단 채팅 데이터와 오디오 데이터를 이용한 하이라이트 영상 생성 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060116335A (ko) * 2005-05-09 2006-11-15 삼성전자주식회사 이벤트를 이용한 동영상 요약 장치 및 방법과 그 장치를제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수있는 기록 매체
KR20160043865A (ko) * 2014-10-14 2016-04-22 한화테크윈 주식회사 통합써머리를 제공하는 영상재생장치 및 방법
KR20200092502A (ko) * 2019-01-11 2020-08-04 서울과학기술대학교 산학협력단 채팅 데이터와 오디오 데이터를 이용한 하이라이트 영상 생성 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
김은율 외 1명, "양방향 LSTM을 이용한 영상의 하이라이트 예측", 대한전자공학회 학술대회(2018.11) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023182542A1 (ko) * 2022-03-22 2023-09-28 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법

Similar Documents

Publication Publication Date Title
JP5366824B2 (ja) 2次元ビデオの3次元ビデオへの変換方法及びシステム
CN103428461B (zh) 一种授课影像录制的系统和方法
US10820131B1 (en) Method and system for creating binaural immersive audio for an audiovisual content
JP5752585B2 (ja) 映像処理装置、方法及びプログラム
US20070214471A1 (en) System, method and computer program product for providing collective interactive television experiences
CN104320670A (zh) 一种网络视频的摘要信息提取方法及系统
KR102567931B1 (ko) 시청자 반응을 기초로 인터랙티브 시나리오를 업데이트하는 콘텐츠 생성 플랫폼 장치
KR102369620B1 (ko) 다중 시구간 정보를 이용한 하이라이트 영상 생성 장치 및 방법
US20050182503A1 (en) System and method for the automatic and semi-automatic media editing
JP2020127714A (ja) ビデオゲーム映像からオーディオビジュアルコンテンツを生成する方法およびシステム
US20230039530A1 (en) Automated generation of haptic effects based on haptics data
US9305600B2 (en) Automated video production system and method
Tapu et al. DEEP-HEAR: A multimodal subtitle positioning system dedicated to deaf and hearing-impaired people
KR20230093683A (ko) 영상 편집 장치에서 인공지능을 이용하여 영상 데이터를 자동으로 편집하는 장치 및 방법
CN113593601A (zh) 基于深度学习的视听多模态语音分离方法
Bano et al. ViComp: composition of user-generated videos
CN110381336B (zh) 基于5.1声道的视频片段情感判定方法、装置和计算机设备
Ebenezer et al. Detection of audio-video synchronization errors via event detection
KR102293073B1 (ko) 비디오 영상의 맥락을 고려한 핵심 영상 생성 장치 및 방법
KR102144978B1 (ko) 영상의 쇼트 분류를 이용한 사용자 맞춤형 영상 추천 시스템
KR102550528B1 (ko) 고화질 카메라를 이용한 분할영상 선택 시스템 및 그 방법
KR102294817B1 (ko) 동영상 분석 장치 및 방법
KR20230099180A (ko) 비디오 영상의 시각 및 음성 정보의 개별적 맥락을 고려한 하이라이트 영상 생성 장치 및 하이라이트 영상 생성 방법
KR20180089977A (ko) 영상 이벤트 단위 세그멘테이션 시스템 및 그 방법
CN116756285A (zh) 虚拟机器人的互动方法、设备和存储介质

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant