KR102369620B1

KR102369620B1 - 다중 시구간 정보를 이용한 하이라이트 영상 생성 장치 및 방법

Info

Publication number: KR102369620B1
Application number: KR1020200116819A
Authority: KR
Inventors: 이계민; 이한솔
Original assignee: 서울과학기술대학교 산학협력단
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2022-03-07

Abstract

동영상으로부터 단기 기간의 음성 정보와 영상 정보를 분리하고, 음성 심층 특징 정보와 영상 심층 특징 정보를 생성하며, 단기 기간의 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성하고, 장기 기간에 따른 시간 간격마다 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성하며, 융합 정보에 대한 중요도 점수를 산출하여 융합 정보로부터 하이라이트 영상을 생성하는, 하이라이트 영상 생성 장치를 제공한다.

Description

다중 시구간 정보를 이용한 하이라이트 영상 생성 장치 및 방법{DEVICE AND METHOD FOR GENERATING HIGHLIGHT VIDEOS USING MULTIPLE TIME-INTERVAL INFORMATION}

본 발명은 다중 시구간 정보를 이용한 하이라이트 영상 생성 장치 및 방법에 관한 것으로, 보다 상세하게는, 긴 시간 간격으로 나타나는 동영상으로부터 짧은 시간 간격으로 요약된 하이라이트 영상을 생성하는 하이라이트 영상 생성 장치 및 방법에 관한 것이다.

스마트폰, 인터넷 등의 IT 기술의 발전으로 스트리밍 플랫폼 서비스(Streaming Platform Service)에 대한 접근이 편리해지면서, 축구, 야구, e-스포츠 등의 경기 영상 콘텐츠가 대량으로 생산 및 업로드되는 추세이며, 이에 따라, 축구, 야구, e-스포츠 등의 경기 영상 콘텐츠에 대한 수요도 나날이 증가하는 추세이다.

이에 따라, 방송국에서는 시청자의 편의와 네트워크의 효율을 위해 긴 시간 간격으로 나타나는 경기 영상에서, 시청자들의 흥미를 끄는 장면들을 추출하여 짧은 시간 간격으로 나타나는 하이라이트 영상을 제공하고 있다.

그러나, 기존의 하이라이트 영상은 편집자가 경기 영상을 직접 확인하고, 경기 영상으로부터 일부의 장면을 추출하여 직접 편집하게 되며, 이러한 방법은 전문적인 편집 기술과 편집을 수행하는 긴 시간이 요구된다.

이에 따라, 긴 시간 간격으로 나타나는 경기 영상 등의 동영상으로부터 효율적으로 하이라이트 영상을 생성하는 방안이 요구되는 실정이다.

본 발명이 해결하고자 하는 기술적 과제는 동영상으로부터 영상 정보와 음성 정보를 분리하고, 분리된 영상 정보와 음성 정보를 각각 분석하여 하이라이트 영상을 생성하는 하이라이트 영상 생성 장치 및 방법을 제공하는 것이다.

본 발명의 일측면은, 동영상으로부터 단기 기간의 음성 정보와 단기 기간의 영상 정보를 분리하여 추출하는 동영상 분리부; 상기 음성 정보를 분석하여 음성 심층 특징 정보를 생성하는 음성 분석부; 사전에 마련되는 학습 모델에 기초하여, 상기 영상 정보로부터 영상 심층 특징 정보를 생성하는 영상 분석부; 단기 기간에 따라 생성된 상기 음성 심층 특징 정보와 상기 영상 심층 특징 정보를 융합하여 융합 정보를 생성하고, 사전에 설정되는 장기 기간에 따른 시간 간격마다 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성하는 정보 융합부; 및 상기 융합 정보에 대한 중요도 점수를 산출하고, 상기 중요도 점수에 기초하여, 상기 융합 정보로부터 하이라이트 영상을 생성하는 영상 생성부를 포함할 수 있다.

또한, 상기 음성 분석부는, 상기 음성 정보를 사전에 설정되는 세그먼트 개수에 따라 복수개의 세그먼트로 분리하고, 상기 세그먼트로부터 사전에 설정되는 주파수 차원 개수에 따라 각각의 주파수 대역에서의 음성 특징 정보를 생성하고, 상기 음성 특징 정보로부터 상기 음성 심층 특징 정보를 생성할 수 있다.

또한, 상기 영상 분석부는, 임의의 동영상으로부터 프레임 단위로 분리된 영상 정보를 영상 특징 정보가 추출되도록 학습하여 학습 모델을 생성하고, 상기 영상 특징 정보로부터 영상 심층 특징 정보를 생성할 수 있다.

또한, 상기 영상 생성부는, 상기 중요도 점수에 기초하여, 상기 동영상의 길이에 대한 상기 하이라이트 영상의 길이의 비율에 따라 하나 이상의 융합 정보를 추출하고, 추출된 융합 정보를 이용하여 하이라이트 영상을 생성할 수 있다.

본 발명의 다른 일측면은, 다중 시구간 정보를 이용한 하이라이트 영상 생성 장치를 이용하여 하이라이트 영상을 생성하는 방법에 있어서, 동영상으로부터 단기 기간의 음성 정보와 단기 기간의 영상 정보를 분리하여 추출하는 단계; 상기 음성 정보를 분석하여 음성 심층 특징 정보를 생성하는 단계; 사전에 마련되는 학습 모델에 기초하여, 상기 영상 정보로부터 영상 심층 특징 정보를 생성하는 단계; 단기 기간에 따라 생성된 상기 음성 특징 정보와 상기 영상 특징 정보를 융합하여 융합 정보를 생성하고, 사전에 설정되는 장기 기간에 따른 시간 간격마다 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성하는 단계; 및 상기 융합 정보에 대한 중요도 점수를 산출하고, 상기 중요도 점수에 기초하여, 상기 융합 정보로부터 하이라이트 영상을 생성하는 단계를 포함할 수 있다.

상술한 본 발명의 일측면에 따르면, 다중 시구간 정보를 이용한 하이라이트 영상 생성 장치 및 방법을 제공함으로써, 동영상으로부터 영상 정보와 음성 정보를 분리하고, 분리된 영상 정보와 음성 정보를 각각 분석하여 하이라이트 영상을 생성할 수 있다.

도1은 본 발명의 일 실시예에 따른 하이라이트 영상 생성 장치의 개략도이다.
도2는 본 발명의 일 실시예에 따른 하이라이트 영상 생성 장치의 제어블록도이다.
도3은 도2의 정보 융합부에서 융합 정보를 생성하는 과정을 나타낸 블록도이다.
도4는 도2의 영상 생성부에서 하이라이트 영상을 생성하는 과정을 나타낸 블록도이다.
도5는 본 발명의 일 실시예에 따른 하이라이트 영상 생성 장치의 일 실시예를 나타낸 개략도이다.
도6은 본 발명의 일 실시예에 따른 하이라이트 영상 생성 방법의 순서도이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예와 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.

도1은 본 발명의 일 실시예에 따른 하이라이트 영상 생성 장치의 개략도이다.

하이라이트 영상 생성 장치(200)는 동영상(100)으로부터 나타나는 일부 장면을 추출하여 하이라이트 영상(300)을 생성할 수 있다.

여기에서, 동영상(100)은 하이라이트 영상 생성 장치(200)에서 생성되는 하이라이트 영상(300)과 비교하여, 시간 간격이 긴 영상 정보인 것으로 이해할 수 있으며, 예를 들어, 동영상(100)은 축구, 야구, e-스포츠 등의 경기 영상을 포함할 수 있다.

이에 따라, 동영상(100)은 프레임 단위로 마련되어, 시청자의 시각적 자극을 유발하는 영상 정보와 시청자의 청각적 자극을 유발하는 음성 정보를 포함할 수 있다.

이와 같은, 동영상(100)은 트위치(Twitch), 카카오TV(Kakao TV), 아프리카TV(Afreeca TV), 유튜브(Youtube) 및 네이버TV(Naver TV) 등의 동영상(100) 제공 플랫폼(Platform)의 서버 장치로부터 제공되는 것일 수 있다.

한편, 하이라이트 영상(300)은 동영상(100)으로부터 일부 장면을 추출하여, 동영상(100)에서 나타나는 시간 순서에 따라 연결한 것으로 이해할 수 있으며, 이때, 동영상(100)의 일부 장면은 임의의 연속된 프레임 간격으로 나타나는 장면 또는 동영상(100)을 의미할 수 있다.

이에 따라, 하이라이트 영상 생성 장치(200)는 동영상(100)으로부터 나타나는 하나 이상의 시점에서의 일부 장면을 추출하여 연결할 수 있으며, 이때, 하이라이트 영상 생성 장치(200)는 추출된 하나 이상의 일부 장면을 연결하여 하이라이트 영상(300)을 생성할 수 있다.

여기에서, 하이라이트 영상(300)은 동영상(100)에서 나타나는 주요 장면은 일부 장면으로써 추출하여 연결한 것일 수 있으며, 예를 들어, 주요 장면은 동영상(100)이 축구, 야구, e-스포츠 등의 스포츠 경기인 경우에, 득점 장면, 실점 장면, 득점 실패 장면, 반칙 장면 등을 포함할 수 있다. 또한, 주요 장면은 해설자의 톤이 높게 측정되는 장면, 관중의 함성 소리가 발생하는 장면, 관중의 박수 소리가 발생하는 장면 등을 포함할 수 있다.

이때, 득점 장면, 실점 장면, 득점 실패 장면, 반칙 장면 등은 시청자의 시각적 자극을 유발하는 동영상(100)의 영상 정보를 이용하여 판단될 수 있으며, 해설자의 톤이 높게 측정되는 장면, 관중의 함성 소리가 발생하는 장면, 관중의 박수 소리가 발생하는 장면 등은 시청자의 청각적 자극을 유발하는 동영상(100)의 음성 정보를 이용하여 판단될 수 있다.

이하에서, 동영상(100)으로부터 하이라이트 영상(300)을 생성하는 하이라이트 영상 생성 장치(200)에 대해 상세히 설명하도록 한다.

하이라이트 영상 생성 장치(200)는 동영상(100)으로부터 단기 기간의 음성 정보와 단기 기간의 영상 정보를 분리하여 추출할 수 있다.

여기에서, 단기 기간은 동영상(100)으로부터 나타나는 순간적인 음성 또는 영상의 특징을 추출하도록 설정되는 시간 간격일 수 있으며, 예를 들어, 단기 기간은 1초로 설정될 수 있다.

이때, 하이라이트 영상 생성 장치(200)는 동영상(100)으로부터 영상 정보가 추출되는 시점과 음성 정보가 추출되는 시점이 동일하도록 영상 정보와 음성 정보를 분리하여 추출할 수 있다.

한편, 하이라이트 영상 생성 장치(200)는 동영상(100)으로부터 영상 정보가 추출된 시점에서, 사전에 설정되는 지연 시간이 경과된 시점에서 음성 정보를 추출할 수 있다.

여기에서, 지연 시간은 영상 정보로부터 임의의 상황이 나타나는 시점과 임의의 상황에 대해 음성 정보로부터 임의의 반응이 나타나는 시점의 시간 차이로 설정될 수 있다.

예를 들어, 지연 시간은 동영상(100)이 축구, 야구, e-스포츠 등의 경기 영상인 경우에, 경기를 수행하는 선수의 행동과 선수의 행동에 의한 관중의 반응에 따라 설정될 수 있으며, 보다 상세하게는, 지연 시간은 동영상(100)에서, 경기를 수행하는 선수의 행동이 영상 정보로부터 나타나는 시점과, 동영상(100)에서, 선수의 행동에 의한 관중의 반응이 음성 정보로부터 나타나는 시점의 차이로 설정될 수 있다.

이때, 선수의 행동은 선수가 득점을 하는 장면, 선수가 실점을 하는 장면, 선수가 득점을 실패하는 장면, 선수가 반칙을 하는 장면 등으로부터 나타날 수 있으며, 관중의 반응은 득점에 대한 해설자의 톤 상승, 관중의 환호 또는 박수, 실점에 대한 해설자의 톤 하강, 관중의 야유 또는 응원 등을 포함할 수 있다.

하이라이트 영상 생성 장치(200)는 추출된 음성 정보를 분석하여 음성 심층 특징 정보를 생성할 수 있다.

이때, 하이라이트 영상 생성 장치(200)는 음성 정보를 사전에 설정되는 세그먼트 개수에 따라 복수개의 세그먼트로 분리할 수 있고, 하이라이트 영상 생성 장치(200)는 분리된 세그먼트로부터 음성 특징 정보를 추출할 수 있다.

예를 들어, 하이라이트 영상 생성 장치(200)는 1초의 단기 기간으로 추출된 음성 정보를 20차원으로 나타나는 25개의 세그먼트로 분리할 수 있으며, 이러한 경우에, 각각의 세그먼트는 0.04초의 음성 정보로 나타날 수 있다.

이와 관련하여, 하이라이트 영상 생성 장치(200)는 하나의 세그먼트로부터 MFCC(Mel-Frequency Cepstral Coefficient)를 이용하여 서로 다른 주파수 대역으로 나타나는 음성 특징 정보를 추출할 수 있으며, 이때, 하이라이트 영상 생성 장치(200)는 사전에 설정되는 주파수 차원 개수에 따라 하나의 세그먼트로 분리된 음성 정보로부터 서로 다른 주파수 대역으로 나타나는 음성 특징 정보를 추출할 수 있다.

여기에서, 주파수 차원 개수는 하나의 세그먼트로부터 추출하는 서로 다른 주파수 대역의 개수를 의미할 수 있다.

예를 들어, 하이라이트 영상 생성 장치(200)는 하나의 세그먼트로 분리된 음성 정보로부터 20 차원의 MFCC를 이용하여 20개의 주파수 대역의 정보를 추출할 수 있다. 이러한 경우에, 하이라이트 영상 생성 장치(200)는 1초의 단기 기간으로 추출되어, 20차원으로 나타나는 25개의 세그먼트로 분리된 음성 정보로부터 20 차원의 주파수 대역으로 나타나는 음성 특징 정보를 추출할 수 있다.

여기에서, MFCC는 복수개의 주파수 대역으로 나타나는 오디오 신호 등으로부터 인간의 청각에 민감한 주파수 대역의 에너지를 강조하도록 마련되는 멜 스케일(Mel-Scale)을 이용하여 각각의 주파수 대역의 신호를 추출하는 기법으로 이해할 수 있다.

이와 같이, 하이라이트 영상 생성 장치(200)는 사전에 설정되는 주파수 차원 개수에 따라, 하나의 세그먼트로 분리된 음성 정보로부터 복수개의 주파수 대역으로 나타나는 음성 특징 정보를 추출할 수 있다.

이에 따라, 하이라이트 영상 생성 장치(200)는 추출된 각각의 주파수 대역으로 나타나는 음성 특징 정보로부터 BiLSTM(Bidirectional Long-Short Term Memory)을 이용하여 음성 심층 특징 정보를 생성할 수 있다. 이때, 음성 심층 특징 정보는 음성 특징 정보를 포함하는 것으로 이해할 수 있다.

여기에서, BiLSTM은 시계열로 나타나는 임의의 신호가 순방향으로 입력되는 LSTM(Long-Short Term Memory)과 순방향으로 입력되는 신호와 동일한 신호가 역방향으로 입력되는 LSTM을 이용하여 양방향으로 LSTM을 수행하는 기법이며, LSTM은 시계열로 나타나는 임의의 신호를 입력 받아 처리하는 기법으로써, 이전 시점에 입력된 신호를 현재 시점에 입력된 신호에 반영하여 시간적으로 연속하는 정보를 처리하는 기법으로 이해할 수 있다.

예를 들어, 하이라이트 영상 생성 장치(200)는 1초의 단기 기간으로 추출되어, 25개의 세그먼트로 분리된 음성 정보로부터 20 차원의 주파수 대역으로 나타나는 음성 특징 정보를 추출하도록 마련되는 경우에, 각각의 주파수 대역에서 음성 특징 정보를 생성할 수 있으며, 이에 따라, 하이라이트 영상 생성 장치(200)는 1초 당 500개의 음성 특징 정보 또는 음성 심층 특징 정보를 생성할 수 있다.

이때, 단기 기간에 따라 추출되어 생성되는 음성 특정 정보 또는 음성 심층 특징 정보는 단기 기간에 따른 시간 간격 당, 서로 다른 개수로 생성될 수도 있음은 물론이다.

하이라이트 영상 생성 장치(200)는 사전에 마련되는 학습 모델에 기초하여, 영상 정보로부터 영상 심층 특징 정보를 추출할 수 있다.

이를 위해, 하이라이트 영상 생성 장치(200)는 임의의 동영상(100)으로부터 프레임 단위로 분리된 영상 정보를 영상 특징 정보가 추출되도록 학습하여 학습 모델을 생성할 수 있다.

이때, 하이라이트 영상 생성 장치(200)는 임의의 동영상(100)에서 추출된 영상 정보로부터 CNN(Convolution Neural Network)를 이용하여 프레임 단위로 분리된 영상 특징 정보를 학습할 수 있다.

여기에서, CNN은 하나 이상의 합성곱 층(Convolution Layer), 저류층(Pooling Layer) 및 완전 연결 층(Fully-Connected Layer)으로 마련될 수 있다. 이에 따라, CNN은 영상 또는 이미지 등의 정보를 입력 받아, 사전에 학습된 필터를 통해 입력된 정보의 특징 값을 추출하는 기법으로 이해할 수 있다.

이를 통해, 하이라이트 영상 생성 장치(200)는 학습된 학습 모델에 기초하여, 단기 기간에 따라 추출된 영상 정보로부터 영상 특징 정보를 추출할 수 있다.

이때, 하이라이트 영상 생성 장치(200)는 단기 기간에 따라 추출된 영상 정보로부터 나타나는 각각의 프레임에 대해 영상 특징 정보를 각각 추출할 수 있다.

이에 따라, 하이라이트 영상 생성 장치(200)는 추출된 각각의 영상 특징 정보로부터 BiLSTM(Bidirectional Long-Short Term Memory)을 이용하여 영상 심층 특징 정보를 생성할 수 있다. 여기에서, 영상 심층 특징 정보는 영상 특징 정보를 포함하는 것으로 이해할 수 있다.

하이라이트 영상 생성 장치(200)는 단기 기간에 따라 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수 있고, 하이라이트 영상 생성 장치(200)는 사전에 설정되는 장기 기간에 따른 시간 간격마다 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수 있다. 또한, 하이라이트 영상 생성 장치(200)는 단기 기간에 따라 생성된 음성 심층 특징 정보와 영상 심층 특징 정보 및 사전에 설정되는 장기 기간에 따른 시간 간격마다 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수도 있다.

여기에서, 장기 기간은 동영상(100)으로부터 나타나는 지속적인 음성 또는 영상의 특징을 추출하도록 설정되는 시간 간격일 수 있으며, 예를 들어, 장기 기간은 120초로 설정될 수 있다.

또한, 장기 기간은 영상 정보 또는 음성 정보로부터 나타나는 특징이 유지되는 것으로 판단되는 시간 간격을 나타내도록 설정될 수도 있으며, 예를 들어, 장기 기간은 음성 정보에서 관중의 박수 소리가 지속되는 기간으로 설정될 수 있다.

이를 위해, 하이라이트 영상 생성 장치(200)는 현재 시점에 입력된 음성 심층 특징 정보 또는 영상 심층 특징 정보와 이전 시점에 입력된 음성 심층 특징 정보 또는 영상 심층 특징 정보의 차이가 사전에 설정되는 임계 범위를 만족하는 경우에, 이전 시점에 입력된 음성 심층 특징 정보 또는 영상 심층 특징 정보에 현재 시점에 입력된 음성 심층 특징 정보 또는 영상 심층 특징 정보를 연결할 수 있다.

또한, 하이라이트 영상 생성 장치(200)는 현재 시점에 입력된 음성 심층 특징 정보 또는 영상 심층 특징 정보와 이전 시점에 입력된 음성 심층 특징 정보 또는 영상 심층 특징 정보의 차이가 사전에 설정되는 임계 범위를 벗어나는 경우에, 이전 시점까지 입력되어 연결된 복수개의 음성 심층 특징 정보 또는 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수 있다.

한편, 융합 정보는 시간 순서에 따라 생성되는 음성 심층 특징 정보와 영상 심층 특징 정보가 결합된 것일 수 있으며, 이때, 융합 정보는 동영상(100)의 동일한 임의의 시점에서 추출된 음성 심층 특징 정보와 영상 심층 특징 정보가 융합되어 마련될 수 있으며, 또한, 융합 정보는 동영상(100)의 임의의 시점에서 추출된 영상 심층 특징 정보와 영상 심층 특징 정보가 추출된 시점으로부터 지연 시간이 적용된 시점에서 추출된 음성 심층 특징 정보가 융합되어 마련될 수 있다.

또한, 융합 정보는 단기 기간으로 추출된 음성 심층 특징 정보와 영상 심층 특징 정보가 융합되어 마련될 수 있고, 융합 정보는 장기 기간으로 추출된 음성 심층 특징 정보와 영상 심층 특징 정보가 융합되어 마련될 수 있다.

이와 같이, 융합 정보는 음성 심층 특징 정보와 영상 심층 특징 정보가 융합된 것으로 이해할 수 있으며, 이때, 융합 정보는 융합 정보가 나타나는 시간 간격에 따라 단기 기간으로 추출된 음성 심층 특징 정보와 영상 심층 특징 정보로부터 생성된 단기 기간에 따른 융합 정보와 장기 기간으로 추출된 음성 심층 특징 정보와 영상 심층 특징 정보로부터 생성된 장기 기간에 따른 융합 정보로 구분될 수 있다.

하이라이트 영상 생성 장치(200)는 융합 정보에 대한 중요도 점수를 산출할 수 있고, 하이라이트 영상 생성 장치(200)는 중요도 점수에 기초하여, 융합 정보로부터 하이라이트 영상(300)을 생성할 수 있다.

이를 위해, 하이라이트 영상 생성 장치(200)는 생성된 융합 정보로부터 BiLSTM와 FC(Fully-Connected Layer)를 이용하여 중요도 점수를 산출할 수 있다.

이때, 하이라이트 영상 생성 장치(200)는 단기 기간에 따라 음성 심층 특징 정보와 영상 심층 특징 정보가 추출되어 생성된 융합 정보를 BiLSTM 및 FC에 입력하여, 단기 기간에 따른 중요도 점수를 산출할 수 있으며, 또한, 하이라이트 영상 생성 장치(200)는 장기 기간에 따라 음성 심층 특징 정보와 영상 심층 특징 정보가 수집되어 생성된 융합 정보를 BiLSTM 및 FC에 입력하여, 장기 기간에 따른 중요도 점수를 산출할 수 있다. 또한, 하이라이트 영상 생성 장치(200)는 단기 기간에 따른 음성 심층 특징 정보와 영상 심층 특징 정보 및 장기 기간에 따른 음성 심층 특징 정보와 영상 심층 특징 정보가 추출되어 생성된 융합 정보를 BiLSTM 및 FC에 입력하여, 장기 기간 및 단기 기간에 따른 중요도 점수를 산출할 수 있다.

다시 말해서, 하이라이트 영상 생성 장치(200)는 단기 기간에 따른 융합 정보와 장기 기간에 따른 융합 정보에 대한 중요도 점수를 각각 산출할 수 있으며, 또한, 하이라이트 영상 생성 장치(200)는 단기 기간에 따른 융합 정보와 장기 기간에 따른 융합 정보에 대한 중요도 점수를 산출할 수 있다.

이때, FC는 입력 값에 매칭되는 결과 값을 출력하도록 마련되는 완전 연결층(Fully-Connected Layer)을 의미할 수 있다.

이와 관련하여, 하이라이트 영상 생성 장치(200)는 생성된 융합 정보로부터 GAN(Generative Adversarial Network)을 이용하여 중요도 점수를 산출할 수 있다.

이때, 하이라이트 영상 생성 장치(200)가 GAN을 이용하여 중요도 점수를 산출하는 것은 융합 정보가 BiLSTM에 입력되어 출력되는 정보를 GAN에 입력하는 것으로 이해할 수 있다.

이를 위해, 하이라이트 영상 생성 장치(200)는 사전에 임의의 동영상(100)에 대해 생성된 하이라이트 영상(300)으로부터 GAN 학습 모델을 생성할 수 있다.

여기에서, GAN은 실제 정보를 모사하여 모사된 정보를 생성하는 생성기(Generator)와 실제 정보와 모사된 정보를 비교하여 차이를 검출하는 판별기(Discriminator)가 마련될 수 있다. 이에 따라, GAN은 생성기가 사전에 입력되는 정보를 모사하고, 판별기가 모사된 정보와 입력된 정보의 차이를 검출하여, 생성기와 판별기 간의 적대적 학습(Adversarial Learning)을 통해 학습 모델을 생성하는 기법으로 이해할 수 있다.

이에 따라, 하이라이트 영상 생성 장치(200)는 GAN을 이용하여 사전에 입력되는 하이라이트 영상(300)을 모사하고, 모사된 하이라이트 영상(300)과 입력된 하이라이트 영상(300)을 비교하여 GAN 학습 모델을 생성할 수 있다.

이를 통해, 하이라이트 영상 생성 장치(200)는 생성된 GAN 학습 모델에 기초하여, 융합 정보로부터 중요도 점수를 산출할 수 있다.

이에 따라, 하이라이트 영상 생성 장치(200)는 GAN 학습 모델을 생성하도록 입력된 하이라이트 영상(300)의 패턴과 유사한 패턴을 나타내는 융합 정보에 대해, 높은 중요도 점수가 산출되는 효과를 얻을 수 있으며, 이를 통해, 하이라이트 영상 생성 장치(200)는 이전에 생성된 하이라이트 영상(300)의 패턴과 유사한 패턴을 나타내는 하이라이트 영상(300)을 생성하는 효과를 얻을 수 있다.

이에 따라, 하이라이트 영상 생성 장치(200)는 중요도 점수에 따라 하나 이상의 융합 정보를 추출할 수 있다.

여기에서, 중요도 점수에 따라 하나 이상의 융합 정보를 추출하는 것은 중요도 점수에 매칭되는 융합 정보가 동영상(100)으로부터 나타나는 시점을 추출하는 것으로 이해할 수 있으며, 이에 따라, 하이라이트 영상 생성 장치(200)는 동영상(100)으로부터 중요도 점수에 매칭되는 시간 간격 또는 프레임을 추출하는 것으로 이해할 수도 있다.

이때, 하이라이트 영상 생성 장치(200)는 중요도 점수에 기초하여, 동영상(100)의 길이에 대한 하이라이트 영상(300)의 길이의 비율에 따라 하나 이상의 융합 정보를 추출할 수 있고, 하이라이트 영상 생성 장치(200)는 추출된 융합 정보를 이용하여 하이라이트 영상(300)을 생성할 수 있다.

예를 들어, 하이라이트 영상 생성 장치(200)는 동영상(100)의 길이가 200분이고, 하이라이트 영상(300)의 길이가 10분인 경우에, 동영상(100)의 길이에 대한 하이라이트 영상(300)의 길이의 비율이 5%이므로, 하이라이트 영상 생성 장치(200)는 산출된 중요도 점수 중 상위 5%를 만족하는 중요도 점수에 따른 융합 정보를 추출할 수 있다.

이와 관련하여, 하이라이트 영상 생성 장치(200)는 추출된 하나 이상의 융합 정보가 동영상(100)으로부터 나타나는 시간 간격 또는 프레임 간격에 따라, 동영상(100)으로부터 해당 시간 간격 또는 프레임 간격의 영상 정보와 음성 정보를 추출하여 연결할 수 있으며, 이를 통해, 하이라이트 영상 생성 장치(200)는 하나 이상의 융합 정보에 따라, 동영상(100)으로부터 추출된 영상 정보와 음성 정보를 시간 순서에 따라 연결하여 하이라이트 영상(300)을 생성할 수 있다.

도2는 본 발명의 일 실시예에 따른 하이라이트 영상 생성 장치의 제어블록도이다.

하이라이트 영상 생성 장치(200)는 동영상 분리부(210), 음성 분석부(220), 영상 분석부(230), 정보 융합부(240) 및 영상 생성부(250)를 포함할 수 있다.

동영상 분리부(210)는 동영상(100)으로부터 단기 기간의 음성 정보와 단기 기간의 영상 정보를 분리하여 추출할 수 있다.

이때, 동영상 분리부(210)는 동영상(100)으로부터 영상 정보가 추출되는 시점과 음성 정보가 추출되는 시점이 동일하도록 영상 정보와 음성 정보를 분리하여 추출할 수 있다.

한편, 동영상 분리부(210)는 동영상(100)으로부터 영상 정보가 추출된 시점에서, 사전에 설정되는 지연 시간이 경과된 시점에서 음성 정보를 추출할 수 있다.

음성 분석부(220)는 추출된 음성 정보를 분석하여 음성 특징 정보를 생성할 수 있다.

이때, 음성 분석부(220)는 음성 정보를 사전에 설정되는 세그먼트 개수에 따라 복수개의 세그먼트로 분리할 수 있고, 음성 분석부(220)는 분리된 세그먼트로부터 음성 특징 정보를 추출할 수 있다.

이와 관련하여, 음성 분석부(220)는 하나의 세그먼트로부터 MFCC(Mel-Frequency Cepstral Coefficient)를 이용하여 서로 다른 주파수 대역으로 나타나는 음성 특징 정보를 추출할 수 있으며, 이때, 음성 분석부(220)는 사전에 설정되는 주파수 차원 개수에 따라 하나의 세그먼트로 분리된 음성 정보로부터 서로 다른 주파수 대역으로 나타나는 음성 특징 정보를 추출할 수 있다.

이에 따라, 음성 분석부(220)는 추출된 각각의 주파수 대역의 정보로부터 BiLSTM(Bidirectional Long-Short Term Memory)을 이용하여 음성 심층 특징 정보를 생성할 수 있다.

영상 분석부(230)는 사전에 마련되는 학습 모델에 기초하여, 영상 정보로부터 영상 특징 정보를 추출할 수 있다.

이를 위해, 영상 분석부(230)는 임의의 동영상(100)으로부터 프레임 단위로 분리된 영상 정보를 영상 특징 정보가 추출되도록 학습하여 학습 모델을 생성할 수 있다.

이때, 영상 분석부(230)는 임의의 동영상(100)에서 추출된 영상 정보로부터 CNN(Convolution Neural Network)를 이용하여 프레임 단위로 분리된 영상 특징 정보를 학습할 수 있다.

이때, 영상 분석부(230)는 단기 기간에 따라 추출된 영상 정보로부터 나타나는 각각의 프레임에 대해 영상 특징 정보를 각각 추출할 수 있다.

이에 따라, 영상 분석부(230)는 추출된 각각의 영상 특징 정보로부터 BiLSTM(Bidirectional Long-Short Term Memory)을 이용하여 영상 심층 특징 정보를 생성할 수 있다.

정보 융합부(240)는 단기 기간에 따라 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수 있고, 정보 융합부(240)는 사전에 설정되는 장기 기간에 매치되도록 단기 기간에 따라 생성된 복수개의 음성 심층 특징 정보와 복수개의 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수 있다. 또한, 정보 융합부(240)는 단기 기간에 따라 생성된 음성 심층 특징 정보와 영상 심층 특징 정보 및 사전에 설정되는 장기 기간에 따른 시간 간격마다 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수도 있다.

여기에서, 장기 기간은 동영상(100)으로부터 나타나는 지속적인 음성 또는 영상의 특징을 추출하도록 설정되는 시간 간격일 수 있다.

또한, 장기 기간은 영상 정보 또는 음성 정보로부터 나타나는 특징이 유지되는 것으로 판단되는 시간 간격을 나타내도록 설정될 수도 있다.

이를 위해, 정보 융합부(240)는 현재 시점에 입력된 음성 심층 특징 정보 또는 영상 심층 특징 정보와 이전 시점에 입력된 음성 심층 특징 정보 또는 영상 심층 특징 정보의 차이가 사전에 설정되는 임계 범위를 만족하는 경우에, 이전 시점에 입력된 음성 심층 특징 정보 또는 영상 심층 특징 정보에 현재 시점에 입력된 음성 심층 특징 정보 또는 영상 심층 특징 정보를 연결할 수 있다.

또한, 정보 융합부(240)는 현재 시점에 입력된 음성 심층 특징 정보 또는 영상 심층 특징 정보와 이전 시점에 입력된 음성 심층 특징 정보 또는 영상 심층 특징 정보의 차이가 사전에 설정되는 임계 범위를 벗어나는 경우에, 이전 시점까지 입력되어 연결된 복수개의 음성 심층 특징 정보 또는 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수 있다.

영상 생성부(250)는 융합 정보에 대한 중요도 점수를 산출할 수 있고, 영상 생성부(250)는 중요도 점수에 기초하여, 융합 정보로부터 하이라이트 영상(300)을 생성할 수 있다.

이를 위해, 영상 생성부(250)는 생성된 융합 정보로부터 BiLSTM와 FC(Fully-Connected Layer)를 이용하여 중요도 점수를 산출할 수 있다.

이때, 영상 생성부(250)는 단기 기간에 따라 음성 심층 특징 정보와 영상 심층 특징 정보가 추출되어 생성된 융합 정보를 BiLSTM 및 FC에 입력하여, 단기 기간에 따른 중요도 점수를 산출할 수 있으며, 또한, 영상 생성부(250)는 장기 기간에 따라 음성 심층 특징 정보와 영상 심층 특징 정보가 수집되어 생성된 융합 정보를 BiLSTM 및 FC에 입력하여, 장기 기간에 따른 중요도 점수를 산출할 수 있다. 또한, 영상 생성부(250)는 단기 기간에 따른 음성 심층 특징 정보와 영상 심층 특징 정보 및 장기 기간에 따른 음성 심층 특징 정보와 영상 심층 특징 정보가 추출되어 생성된 융합 정보를 BiLSTM 및 FC에 입력하여, 장기 기간 및 단기 기간에 따른 중요도 점수를 산출할 수 있다.

이와 관련하여, 영상 생성부(250)는 생성된 융합 정보로부터 GAN(Generative Adversarial Network)을 이용하여 중요도 점수를 산출할 수 있다.

이때, 영상 생성부(250)가 GAN을 이용하여 중요도 점수를 산출하는 것은 융합 정보가 BiLSTM에 입력되어 출력되는 정보를 GAN에 입력하는 것으로 이해할 수 있다.

이를 위해, 영상 생성부(250)는 사전에 임의의 동영상(100)에 대해 생성된 하이라이트 영상(300)으로부터 GAN 학습 모델을 생성할 수 있다.

이에 따라, 영상 생성부(250)는 GAN을 이용하여 사전에 입력되는 하이라이트 영상(300)을 모사하고, 모사된 하이라이트 영상(300)과 입력된 하이라이트 영상(300)을 비교하여 GAN 학습 모델을 생성할 수 있다.

이를 통해, 영상 생성부(250)는 생성된 GAN 학습 모델에 기초하여, 융합 정보로부터 중요도 점수를 산출할 수 있다.

이에 따라, 영상 생성부(250)는 중요도 점수에 따라 하나 이상의 융합 정보를 추출할 수 있다.

이때, 영상 생성부(250)는 중요도 점수에 기초하여, 동영상(100)의 길이에 대한 하이라이트 영상(300)의 길이의 비율에 따라 하나 이상의 융합 정보를 추출할 수 있고, 영상 생성부(250)는 추출된 융합 정보를 이용하여 하이라이트 영상(300)을 생성할 수 있다.

이와 관련하여, 영상 생성부(250)는 추출된 하나 이상의 융합 정보가 동영상(100)으로부터 나타나는 시간 간격 또는 프레임 간격에 따라, 동영상(100)으로부터 해당 시간 간격 또는 프레임 간격의 영상 정보와 음성 정보를 추출하여 연결할 수 있으며, 이를 통해, 영상 생성부(250)는 하나 이상의 융합 정보에 따라, 동영상(100)으로부터 추출된 영상 정보와 음성 정보를 시간 순서에 따라 연결하여 하이라이트 영상(300)을 생성할 수 있다.

도3은 도2의 정보 융합부에서 융합 정보를 생성하는 과정을 나타낸 블록도이다.

도3을 참조하면, 동영상 분리부(210)는 동영상(100)으로부터 단기 기간의 음성 정보와 단기 기간의 영상 정보를 분리하여 추출할 수 있다.

이에 따라, 음성 분석부(220)는 추출된 음성 정보를 분석하여 음성 심층 특징 정보를 생성할 수 있으며, 영상 분석부(230)는 사전에 마련되는 학습 모델에 기초하여, 영상 정보로부터 영상 심층 특징 정보를 추출할 수 있다.

또한, 영상 분석부(230)는 임의의 동영상(100)으로부터 프레임 단위로 분리된 영상 정보를 영상 특징 정보가 추출되도록 학습하여 학습 모델을 생성할 수 있다.

이에 따라, 정보 융합부(240)는 단기 기간에 따라 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수 있고, 정보 융합부(240)는 사전에 설정되는 장기 기간에 매치되도록 단기 기간에 따라 생성된 복수개의 음성 심층 특징 정보와 복수개의 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수 있다. 또한, 정보 융합부(240)는 단기 기간에 따라 생성된 음성 심층 특징 정보와 영상 심층 특징 정보 및 사전에 설정되는 장기 기간에 따른 시간 간격마다 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수도 있다.

도4는 도2의 영상 생성부에서 하이라이트 영상을 생성하는 과정을 나타낸 블록도이다.

도4를 참조하면, 정보 융합부(240)는 단기 기간에 따라 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수 있고, 정보 융합부(240)는 사전에 설정되는 장기 기간에 매치되도록 단기 기간에 따라 생성된 복수개의 음성 심층 특징 정보와 복수개의 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수 있다. 또한, 정보 융합부(240)는 단기 기간에 따라 생성된 음성 심층 특징 정보와 영상 심층 특징 정보 및 사전에 설정되는 장기 기간에 따른 시간 간격마다 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수도 있다.

이에 따라, 영상 생성부(250)는 융합 정보에 대한 중요도 점수를 산출할 수 있고, 영상 생성부(250)는 중요도 점수에 기초하여, 융합 정보로부터 하이라이트 영상(300)을 생성할 수 있다.

이를 위해, 영상 생성부(250)는 생성된 융합 정보로부터 BiLSTM와 FC를 이용하여 중요도 점수를 산출할 수 있다.

이를 위해, 영상 생성부(250)는 사전에 임의의 동영상(100)에 대해 생성된 하이라이트 영상(300a)으로부터 GAN 학습 모델을 생성할 수 있다.

이에 따라, 영상 생성부(250)는 GAN을 이용하여 사전에 입력되는 하이라이트 영상(300a)을 모사하고, 모사된 하이라이트 영상(300b)과 입력된 하이라이트 영상(300a)을 비교하여 GAN 학습 모델을 생성할 수 있다.

도5는 본 발명의 일 실시예에 따른 하이라이트 영상 생성 장치의 일 실시예를 나타낸 개략도이다.

도5를 참조하면, 동영상(100)으로부터 단기 기간의 음성 정보와 단기 기간의 영상 정보가 분리되어, 서로 다른 BiLSTM에 입력되는 것을 확인할 수 있다.

한편, 도5에서, Video는 동영상(100)을 의미하고, audio는 음성 정보를 의미하며, image는 영상 정보를 의미할 수 있다. 또한, {x_t}audio는 단기 기간으로 나타나는 음성 특징 정보를 의미할 수 있고, {x_t}image는 단기 기간으로 나타나는 영상 특징 정보를 의미할 수 있다. 또한, {h_t}short_audio는 단기 기간의 음성 심층 특징 정보를 의미할 수 있고, {h_t}short_image는 단기 기간의 영상 심층 특징 정보를 의미할 수 있으며, {h_t}long은 융합 심층 특징 정보를 의미할 수 있다.

한편, {x_t}true_image는 사전에 입력되는 하이라이트 영상(300a)를 의미할 수 있고, {x_t}pred_image는 사전에 입력되는 하이라이트 영상(300a)이 모사된 하이라이트 영상(300b)인 것으로 이해할 수 있다.

이에 따라, 하이라이트 영상 생성 장치(200)는 음성 정보를 사전에 설정되는 세그먼트 개수에 따라 복수개의 세그먼트로 분리할 수 있다.

또한, 하이라이트 영상 생성 장치(200)는 하나의 세그먼트로부터 MFCC(Mel-Frequency Cepstral Coefficient)를 이용하여 서로 다른 주파수 대역으로 나타나는 음성 특징 정보를 추출할 수 있으며, 이때, 하이라이트 영상 생성 장치(200)는 사전에 설정되는 주파수 차원 개수에 따라 하나의 세그먼트로 분리된 음성 정보로부터 서로 다른 주파수 대역으로 나타나는 음성 특징 정보를 추출할 수 있다.

이때, 하이라이트 영상 생성 장치(200)는 추출된 각각의 주파수 대역으로 나타나는 음성 특징 정보로부터 BiLSTM(Bidirectional Long-Short Term Memory)을 이용하여 음성 심층 특징 정보를 생성할 수 있다.

한편, 하이라이트 영상 생성 장치(200)는 사전에 마련되는 학습 모델에 기초하여, 영상 정보로부터 영상 특징 정보를 추출할 수 있다.

이때, 하이라이트 영상 생성 장치(200)는 추출된 각각의 영상 특징 정보로부터 BiLSTM(Bidirectional Long-Short Term Memory)을 이용하여 영상 심층 특징 정보를 생성할 수 있다.

이에 따라, 하이라이트 영상 생성 장치(200)는 단기 기간에 따라 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수 있고, 하이라이트 영상 생성 장치(200)는 사전에 설정되는 장기 기간에 따른 시간 간격마다 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수 있다. 또한, 하이라이트 영상 생성 장치(200)는 단기 기간에 따라 생성된 음성 심층 특징 정보와 영상 심층 특징 정보 및 사전에 설정되는 장기 기간에 따른 시간 간격마다 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성할 수도 있다.

이에 따라, 하이라이트 영상 생성 장치(200)는 생성된 융합 정보로부터 BiLSTM와 FC를 이용하여 중요도 점수를 산출할 수 있다.

이에 따라, 도5의 HiSum은 GAN의 생성기인 것으로 이해할 수 있고, D는 GAN의 판별기인 것으로 이해할 수 있다.

이와 같이, 하이라이트 영상 생성 장치(200)는 사전에 임의의 동영상(100)에 대해 생성된 하이라이트 영상(300)으로부터 GAN 학습 모델을 생성할 수 있다.

도6은 본 발명의 일 실시예에 따른 하이라이트 영상 생성 방법의 순서도이다.

본 발명의 일 실시예에 따른 하이라이트 영상 생성 방법은 도 1에 도시된 하이라이트 영상 생성 장치(200)와 실질적으로 동일한 구성 상에서 진행되므로, 도 1의 하이라이트 영상 생성 장치(200)와 동일한 구성요소에 대해 동일한 도면 부호를 부여하고, 반복되는 설명은 생략하기로 한다.

하이라이트 영상 생성 방법은 음성 정보와 영상 정보를 분리하여 추출하는 단계(600), 음성 특징 정보를 생성하는 단계(610), 영상 특징 정보를 생성하는 단계(620), 융합 정보를 생성하는 단계(630) 및 하이라이트 영상을 생성하는 단계(640)를 포함할 수 있다.

음성 정보와 영상 정보를 분리하여 추출하는 단계(600)는 동영상 분리부(210)가 동영상(100)으로부터 단기 기간의 음성 정보와 단기 기간의 영상 정보를 분리하여 추출하는 단계일 수 있다.

음성 특징 정보를 생성하는 단계(610)는 음성 분석부(220)가 음성 정보를 분석하여 음성 심층 특징 정보를 생성하는 단계일 수 있다.

영상 특징 정보를 생성하는 단계(620)는 영상 분석부(230)가 사전에 마련되는 학습 모델에 기초하여, 영상 정보로부터 영상 심층 특징 정보를 생성하는 단계일 수 있다.

융합 정보를 생성하는 단계(630)는 정보 융합부(240)가 단기 기간에 따라 생성된 음성 심층 특징 정보와 영상 특징 정보를 융합하여 융합 정보를 생성하고, 사전에 설정되는 장기 기간에 따른 시간 간격마다 생성된 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 융합 정보를 생성하는 단계일 수 있다.

하이라이트 영상을 생성하는 단계(640)는 영상 생성부(250)가 융합 정보에 대한 중요도 점수를 산출하고, 중요도 점수에 기초하여, 융합 정보로부터 하이라이트 영상을 생성하는 단계일 수 있다.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

100: 동영상
200: 하이라이트 영상 생성 장치
300: 하이라이트 영상

Claims

동영상으로부터 단기 기간의 음성 정보와 단기 기간의 영상 정보를 분리하여 추출하는 동영상 분리부;
상기 음성 정보를 분석하여 음성 심층 특징 정보를 생성하는 음성 분석부;
사전에 마련되는 학습 모델에 기초하여, 상기 영상 정보로부터 영상 심층 특징 정보를 생성하는 영상 분석부;
단기 기간에 따라 생성된 상기 음성 심층 특징 정보와 상기 영상 심층 특징 정보를 융합하여 융합 정보를 생성하고, 사전에 설정되는 장기 기간에 매치되도록 상기 단기 기간에 따라 생성된 상기 음성 심층 특징 정보와 상기 영상 심층 특징 정보를 융합하여 장기 기간에 따른 융합 정보를 생성하는 정보 융합부; 및
상기 융합 정보에 대한 중요도 점수를 산출하고, 상기 중요도 점수에 기초하여, 상기 융합 정보로부터 하이라이트 영상을 생성하는 영상 생성부를 포함하는, 하이라이트 영상 생성 장치.
제1항에 있어서, 상기 음성 분석부는,
상기 음성 정보를 사전에 설정되는 세그먼트 개수에 따라 복수개의 세그먼트로 분리하고, 상기 세그먼트로부터 사전에 설정되는 주파수 차원 개수에 따라 각각의 주파수 대역에서의 음성 특징 정보를 생성하고, 상기 음성 특징 정보로부터 상기 음성 심층 특징 정보를 생성하는, 하이라이트 영상 생성 장치.
제1항에 있어서, 상기 영상 분석부는,
임의의 동영상으로부터 프레임 단위로 분리된 영상 정보를 영상 특징 정보가 추출되도록 학습하여 학습 모델을 생성하고, 상기 영상 특징 정보로부터 영상 심층 특징 정보를 생성하는, 하이라이트 영상 생성 장치.
제1항에 있어서, 상기 영상 생성부는,
상기 중요도 점수에 기초하여, 상기 동영상의 길이에 대한 상기 하이라이트 영상의 길이의 비율에 따라 하나 이상의 융합 정보를 추출하고, 추출된 융합 정보를 이용하여 하이라이트 영상을 생성하는, 하이라이트 영상 생성 장치.
다중 시구간 정보를 이용한 하이라이트 영상 생성 장치를 이용하여 하이라이트 영상을 생성하는 방법에 있어서,
동영상으로부터 단기 기간의 음성 정보와 단기 기간의 영상 정보를 분리하여 추출하는 단계;
상기 음성 정보를 분석하여 음성 심층 특징 정보를 생성하는 단계;
사전에 마련되는 학습 모델에 기초하여, 상기 영상 정보로부터 영상 심층 특징 정보를 생성하는 단계;
단기 기간에 따라 생성된 상기 음성 심층 특징 정보와 상기 영상 심층 특징 정보를 융합하여 융합 정보를 생성하고, 사전에 설정되는 장기 기간에 매치되도록 상기 단기 기간에 따라 생성된 상기 음성 심층 특징 정보와 영상 심층 특징 정보를 융합하여 장기 기간에 따른 융합 정보를 생성하는 단계; 및
상기 융합 정보에 대한 중요도 점수를 산출하고, 상기 중요도 점수에 기초하여, 상기 융합 정보로부터 하이라이트 영상을 생성하는 단계를 포함하는, 하이라이트 영상 생성 방법.