KR20230126907A

KR20230126907A - 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법 및 시스템

Info

Publication number: KR20230126907A
Application number: KR1020220024331A
Authority: KR
Inventors: 박현희; 김형빈
Original assignee: 명지대학교 산학협력단
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2023-08-31

Abstract

연합학습 모델을 기반으로 각 분산 장치가 수집한 영상 데이터를 학습하고, 중앙 서버가 학습 결과를 토대로 영상 데이터를 분석하여 관심도가 높은 특정 영상 구간을 추출하는 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법 및 시스템에 관한 것으로, 분산 장치가 수집한 영상 데이터를 이용하여 영상 프레임을 추출하는 단계, 분산 장치가 딥러닝 모델을 이용하여 상기 영상 프레임으로부터 객체를 검출하는 단계, 상기 분산 장치가 객체 검출 결과를 토대로 상기 영상 데이터의 중요도 정보를 추출하는 단계, 중앙 서버가 분산 장치로부터 전송된 중요도 정보를 토대로 중앙 서버가 보유한 영상 데이터의 중요도 정보를 분석하는 단계, 중앙 서버가 분석된 중요도 정보를 토대로 중앙 서버에 저장된 영상 데이터로부터 특정 영상 구간을 추출하는 단계를 포함하고, 학습을 수행하기 위한 데이터를 수집하는 과정에서의 개인 정보 보호를 보장할 수 있는 효과가 있다.

Description

연합학습을 이용한 비디오 영상의 특정 구간 추출 방법 및 시스템{Method and system for extracting a specific section of video image using federated learning}

본 발명은 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법 및 시스템에 관한 것으로서, 더욱 상세하게는 연합학습(Federated Learning) 모델을 기반으로 각 분산 장치가 수집한 영상 데이터로부터 영상 구간별 중요도를 추출하고, 중앙 서버가 추출된 중요도에 따라 영상 데이터를 분석하여 관심도가 높은 특정 영상 구간을 추출하는 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법 및 시스템에 관한 것이다.

일반적으로 티저 영상, 예고 영상, 하이라이트 영상 또는 요약 영상과 같은 특정 영상은 사용자 또는 영상 전문가가 직접 동영상을 확인해 가면서 프레임의 분할 시작점과 종료점을 지정하여 수작업을 통해 제작한다.

그러나, 이러한 수작업을 통한 특정 영상의 제작은 영상 전문가의 실력에 따라 편차가 발생하는 문제와, 영상 데이터의 분량이 길거나 다량의 동영상으로부터 하이라이트를 제작하는 경우 시간과 비용이 크게 소모되는 문제가 있다.

따라서, 최근에는 이러한 티저 영상, 예고 영상, 하이라이트 영상 또는 요약 영상과 같은 특정 영상의 제작 시간과 비용을 절감하기 위해 수작업이 아닌 인공지능을 통해 자동으로 특정 영상을 생성하는 기술이 제시되고 있다.

한편, 자동으로 특정 영상을 생성하기 위한 인공지능이 인간과 같은 판단을 내리기 위해서는 학습 과정을 거쳐야 한다. 즉, 인공지능은 다양한 데이터를 반복 학습하여 판단 알고리즘을 정하기 때문에 특정 영상을 생성하기 위해서는 방대한 양의 데이터를 통한 학습 과정이 필수적이다.

또한, 인공지능이 이러한 학습을 진행하기 위해서는 목적에 맞는 방대한 양의 데이터 수집이 선행되어야 한다.

이로 인해, 자동으로 특정 영상을 생성하는 방식은 인공지능의 학습을 수행하기 위해 방대한 양의 데이터를 수집해야 하는 문제가 발생한다. 또한, 자동으로 특정 영상을 생성하는 방식은 학습을 진행하기 위한 데이터를 수집하는 과정에서 개인 정보 보호를 보장할 수 없는 문제가 있다.

예를 들어, 하기 특허문헌 1에는 스포츠 경기를 포함하는 동영상에서 하이라이트를 자동으로 추출하는 스포츠 경기의 하이라이트 추출 방법 및 장치가 개시되어 있다.

또한, 특허문헌 1은 스포츠 경기를 포함하는 동영상, 상기 스포츠 경기에서 발생한 이벤트를 순차적으로 기록한 로그 정보 및 상기 동영상에 관련된 키워드를 식별하는 동작, 상기 동영상과 관련된 경기 정보를 상기 동영상에 태깅하는 동작, 상기 키워드에 대응하는 적어도 하나의 로그 정보를 추출하고, 상기 태깅된 동영상으로부터 상기 추출된 로그 정보에 대응하는 적어도 하나의 프레임을 결정하는 동작, 및 상기 결정된 적어도 하나의 프레임을 조합하여 하이라이트 동영상을 생성하는 동작을 포함한다.

이를 통해 하기 특허문헌 1의 스포츠 경기의 하이라이트 추출 방법 및 장치는 인공지능을 이용하여 자동으로 하이라이트 영상을 추출할 수 있는 효과가 있다.

그러나, 특허문헌 1은 하나의 서버에서 인공지능의 학습을 수행하기 위해 방대한 양의 데이터를 수집해야 하기 때문에 특정 영상의 제작 시간과 비용이 증대되는 문제가 있다.

또한, 특허문헌 1은 인공지능의 학습을 위한 데이터의 수집과 인공지능의 학습 및 하이라이트 영상의 추출 과정이 모두 하나의 서버에서 수행되기 때문에 서버의 작업 부하가 증대되는 문제가 있다.

또한, 하기 특허문헌 2에는 인공 신경망을 활용하여 하이라이트 영상을 자동 편집하기 위한 컴퓨터 프로그램이 개시되어 있다.

또한, 특허문헌 2는 실시간 컨텐츠를 시청하는 하나 이상의 사용자 단말로부터 상기 실시간 컨텐츠에 대한 하나 이상의 사용자 반응 데이터를 수신하는 동작, 상기 사용자 반응 데이터에 대한 분석 결과에 기초하여 상기 실시간 컨텐츠에서 하나 이상의 하이라이트 구간을 식별하는 동작 및 상기 하나 이상의 하이라이트 구간에 기초하여 하이라이트 컨텐츠를 생성하는 동작을 포함한다.

이를 통해 하기 특허문헌 2는 하이라이트 영상 자동 편집을 위한 컴퓨터 프로그램을 제공함으로써 하이라이트 영상의 편집 과정에서 편집자의 주관적인 기준이 적용되어 객관성이 결여되는 문제와 편집자의 역량에 따라 하이라이트 영상의 품질이 달라지는 문제를 해결할 수 있다.

또한, 특허문헌 2는 하나 이상의 사용자 단말로부터 수신된 사용자 반응 데이터에 기초하여 하이라이트 구간을 식별하고, 하이라이트 컨텐츠를 생성함으로써 하이라이트 영상을 편집하기 위해 소요되는 시간과 서버의 작업 부하를 감소시킬 수 있는 효과가 있다.

그러나, 특허문헌 2는 각 사용자 단말로부터 생성된 사용자 반응 데이터 및 사용자 식별 정보가 서버에 그대로 전송됨으로써 서버가 학습을 수행하기 위한 데이터를 수집하는 과정에서의 개인 정보 보호를 보장할 수 없는 문제가 있다.

대한민국 등록특허 제10-2248456호(2021년 05월 06일 공고) 대한민국 등록특허 제10-2286638호(2021년 08월 05일 공고)

본 발명의 목적은 영상 데이터로부터 관심도가 높은 특정 영상 구간을 자동으로 추출할 수 있는 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법 및 시스템을 제공하는 것이다.

또한, 본 발명의 다른 목적은 상기 특정 영상 구간을 추출하기 위한 제작 시간 및 비용을 감소시킬 수 있는 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법 및 시스템을 제공하는 것이다.

또한, 본 발명의 다른 목적은 인공지능의 학습을 수행하기 위해 방대한 양의 데이터를 수집하는 서버의 작업 부하를 감소시킬 수 있는 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법 및 시스템을 제공하는 것이다.

또한, 본 발명의 다른 목적은 인공지능의 학습을 수행하기 위해 방대한 양의 데이터를 수집하는 과정에서 개인 정보 보호를 보장할 수 있는 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법 및 시스템을 제공하는 것이다.

이러한 기술적 과제를 이루기 위한 본 발명의 일 측면에 따른 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법은 (a) 분산 장치가 수집된 영상 데이터를 이용하여 영상 프레임(frame)을 추출하는 단계, (b) 상기 분산 장치가 딥러닝 모델을 이용하여 상기 영상 프레임으로부터 객체를 검출하는 단계를 포함한다.

또한, 본 발명은 (c) 상기 분산 장치가 객체 검출 결과를 토대로 상기 영상 데이터의 중요도 정보를 추출하는 단계, (d) 상기 분산 장치가 추출된 중요도 정보를 중앙 서버로 전송하는 단계를 더 포함한다.

또한, 본 발명은 (e) 상기 중앙 서버가 분산 장치로부터 전송된 중요도 정보를 수신하여 취합하는 단계, (f) 상기 중앙 서버가 취합된 중요도 정보를 토대로 중앙 서버가 보유한 영상 데이터의 중요도 정보를 분석하는 단계, 및 (g) 상기 중앙 서버가 분석된 중요도 정보를 토대로 중앙 서버에 저장된 영상 데이터로부터 특정 영상 구간을 추출하는 단계를 더 포함한다.

또한, 본 발명에 따른 상기 분산 장치에서 수집된 영상 데이터는 중앙 서버에서 보유한 특정 영상 구간 추출 대상인 영상 데이터와 동일한 명칭 또는 동일한 장르의 영상 데이터인 것을 특징으로 한다.

또한, 본 발명에서 상기 단계 (b)는 (b1) 상기 영상 프레임으로부터 관심도가 높은 장면 또는 객체를 인식하기 위한 클래스를 설정하는 단계, (b2) 설정된 클래스를 토대로 상기 영상 프레임의 데이터 라벨링(Data Labeling)을 수행하는 단계를 포함한다.

또한, 본 발명에서 상기 단계 (b)는 (b3) 딥러닝 모델을 이용하여 데이터 라벨링이 수행된 영상 프레임의 데이터 학습을 수행하는 단계, 및 (b4) 학습 수행 결과를 토대로 상기 영상 프레임의 객체를 예측하는 단계를 더 포함한다.

또한, 본 발명은 상기 단계 (b) 이후에 분산 장치가 객체 검출 결과를 토대로 상기 영상 데이터로부터 노이즈 영상을 제거하여 필터링하는 단계를 더 포함한다.

또한, 본 발명에서 상기 중요도 정보는 영상 프레임별 중요도 값 또는 영상 구간별 중요도 값을 포함하고, 상기 영상 프레임별 중요도 값은 영상 프레임으로부터 검출된 객체의 개수를 토대로 영상 프레임에 대한 중요도를 수치로 변환하여 나타낸 것을 특징으로 한다.

또한, 본 발명에서 상기 영상 구간별 중요도 값은 중요도가 측정된 영상 데이터 구간의 시점 프레임 번호 또는 시간, 종점 프레임 번호 또는 시간, 상기 영상 데이터 구간에서 추출된 중요도 값을 포함한다.

또한, 본 발명의 다른 측면에 따른 연합학습을 이용한 비디오 영상의 특정 구간 추출 시스템은 적어도 하나의 분산 장치와 중앙 서버를 포함한다.

또한, 본 발명에서 상기 적어도 하나의 분산 장치는 영상 데이터를 수집하고, 수집된 영상 데이터를 이용하여 학습을 수행하며, 학습 수행 결과를 토대로 추출된 영상 데이터의 중요도 정보를 중앙 서버에 전송한다.

또한, 본 발명에서 상기 중앙 서버는 상기 적어도 하나의 분산 장치로부터 전송된 중요도 정보를 수신하여 취합하고, 취합된 중요도 정보에 따라 영상 데이터를 분석하여 관심도가 높은 영상의 특정 구간을 추출한다.

또한, 본 발명에서 상기 분산 장치는 영상 데이터를 수집하는 영상 수집부, 상기 영상 데이터를 이용하여 영상 프레임(frame)을 추출하는 프레임 추출부, 및 딥러닝 모델을 이용하여 상기 영상 프레임으로부터 객체를 검출하는 객체 검출부를 포함한다.

또한, 본 발명에서 상기 분산 장치는 상기 객체 검출부를 통해 검출된 객체 검출 결과 데이터를 토대로 영상 데이터의 중요도 정보를 추출하는 중요도 추출부, 및 상기 중요도 추출부를 통해 추출된 중요도 정보를 통신부를 이용하여 중앙 서버에 전송하는 제어부를 더 포함한다.

또한, 본 발명에서 상기 중요도 정보는 영상 프레임별 중요도 값 또는 영상 구간별 중요도 값을 포함하고, 영상 프레임별 중요도 값은 영상 프레임으로부터 검출된 객체의 개수를 토대로 영상 프레임에 대한 중요도를 수치로 변환하여 나타낸다.

또한, 본 발명에서 상기 영상 구간별 중요도 값은 분산 장치가 보유한 영상 구간에서의 시점 프레임 번호 또는 시간, 상기 분산 장치가 보유한 영상 구간에서의 종점 프레임 번호 또는 시간, 및 상기 영상 구간에 대한 중요도 값의 관계식으로 나타낼 수 있다.

또한, 본 발명에서 상기 중앙 서버는 상기 분산 장치로부터 전송된 중요도 정보를 수집하는 데이터 수집부, 상기 데이터 수집부를 통해 수집된 중요도 정보를 토대로 중앙 서버가 보유한 영상 데이터에서 중요도 정보를 분석하는 영상 데이터 분석부를 포함한다.

또한, 본 발명에서 상기 중앙 서버는 상기 영상 데이터 분석부에서 분석된 중요도 정보를 토대로 중앙 서버가 보유한 영상 데이터로부터 특정 영상 구간을 추출하는 특정 구간 추출부를 더 포함한다.

이상에서 설명한 바와 같이, 본 발명에 따른 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법 및 시스템은 영상 데이터로부터 관심도가 높은 특정 영상 구간을 자동으로 추출할 수 있는 효과가 있다.

또한, 본 발명에 따른 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법 및 시스템은 연합학습(Federated Learning) 모델을 이용하여 영상 데이터를 수집하고 학습하기 위한 리소스를 분산함으로써 특정 영상 구간의 제작 시간 및 비용을 감소시킬 수 있는 효과가 있다.

또한, 본 발명에 따른 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법 및 시스템은 인공지능의 학습을 수행하기 위해 방대한 양의 데이터를 수집하는 중앙 서버의 작업 부하를 감소시킬 수 있는 효과가 있다.

또한, 본 발명에 따른 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법 및 시스템은 인공지능의 학습을 수행하기 위해 방대한 양의 데이터를 수집하는 과정에서의 개인 정보 보호를 보장할 수 있는 효과가 있다.

또한, 본 발명에 따른 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법 및 시스템은 각 분산 장치가 전체 영상 데이터를 보유하지 않아도 연합학습 모델에 참여하여 특정 영상 구간을 추출할 수 있는 효과가 있다.

또한, 본 발명에 따른 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법 및 시스템은 시청자의 참여도와 상관없이 영상 데이터로부터 관심도가 높은 특정 영상 구간을 추출할 수 있는 효과가 있다.

도 1은 본 발명의 실시 예에 따른 연합학습을 이용한 비디오 영상의 특정 구간 추출 시스템을 나타내는 구성도이다.
도 2는 본 발명의 실시 예에 따른 분산 장치를 나타내는 구성도이다.
도 3은 도 2에서 객체 검출부를 세부적으로 나타내는 도면이다.
도 4는 본 발명의 실시 예에 따른 중앙 서버를 나타내는 구성도이다.
도 5 및 도 6은 본 발명의 실시 예에 따른 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법을 나타내는 순서도이다.
도 7은 도 5에서 객체를 검출하는 단계를 세부적으로 나타내는 순서도이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 설명함으로써, 본 발명을 상세히 설명한다.

각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

도 1은 본 발명의 실시 예에 따른 연합학습을 이용한 비디오 영상의 특정 구간 추출 시스템을 나타내는 구성도이고, 도 2는 본 발명의 실시 예에 따른 분산 장치(10)를 나타내는 구성도이며, 도 3은 도 2에서 객체 검출부(140)를 세부적으로 나타내는 도면이다.

본 발명의 실시 예에 따른 연합학습을 이용한 비디오 영상의 특정 구간 추출 시스템은 도 1에서 도시된 바와 같이 적어도 하나의 분산 장치(10)와 중앙 서버(20)로 구성된다.

본 발명의 실시 예에 따른 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법 및 시스템은 비디오 영상의 특정 구간을 추출하기 위한 데이터 수집 과정에서의 개인 정보 보호 문제를 해결하기 위해 연합학습(Federated Learning)을 이용한다.

일반적으로 중앙집중식 기계학습(Machine Learning)은 중앙 서버에서 데이터를 수집하여 모델을 학습하고, 학습된 모델은 분산 장치로 배포되어 분산 장치에서 분석을 수행한다.

또는 분산 장치에서 데이터를 수집하여 수집된 데이터를 중앙 서버로 전송하고, 중앙 서버에서 수신한 데이터를 토대로 분석한 후 중앙 서버의 분석 결과를 다시 분산 장치로 받는 방식이다.

즉, 종래의 기계학습에서는 모델의 학습을 위해 분산 장치에서 수집된 데이터가 중앙 서버로 전송되어야 한다.

반면에, 연합학습(Federated learning)은 분산 장치(10)가 수집된 데이터를 이용하여 기계학습을 수행하고, 분산 장치(10)에서 학습한 결과를 중앙 서버(20)로 전송하여 취합하는 방식의 학습 방법이다.

즉, 상기 연합학습에서는 분산 장치(10)를 통해 수집된 데이터를 중앙 서버(20)로 전송하지 않고도 학습을 수행할 수 있다.

따라서, 이러한 연합학습을 이용하면 여러 행위자가 데이터를 공유하지 않고도 일반적이고 강력한 기계학습 모델을 구축할 수 있어 개인 정보 보호, 데이터 보안, 데이터 액세스 권한 및 이기종 데이터에 대한 액세스 문제와 같은 중요한 문제들을 해결할 수 있다.

본 발명에 따른 분산 장치(10)는 영상 데이터를 수집하고, 수집된 영상 데이터를 토대로 기계학습 모델을 이용하여 학습을 수행하며, 학습 수행 결과 도출된 가중치 데이터를 중앙 서버(20)에 전송한다.

예를 들어, 본 발명에서 학습을 수행하기 위한 기계학습 모델은 딥러닝 모델 또는 LeNet-5가 사용될 수 있다.

상기 LeNet-5는 얀 르쿤(Yann LeCun)에 의해 제안된 컨볼루션 신경망으로서, 컨볼루션 레이어(Layer), 풀링 레이어 및 전체 연결 레이어와 같은 컨볼루션 신경망의 기본 단위를 포함하고 있다.

또한, 상기 컨볼루션 신경망은 대규모 이미지 처리에서 수행 능력이 뛰어난 공급 전달 신경망의 일종을 나타낸다.

그러나, 본 발명은 상기 딥러닝 모델 또는 LeNet-5에 한정되지 않고, DFN(Deep Feedforward Network), RNN(Recurrent Neural Network), LSTM(Long Short-Term Memory), CNN(Convolutional Neural Network), DRN(Deep Residual Network) 등과 같은 여러 가지 상이한 형태로 구현될 수 있다.

이하에서는, 학습을 수행하기 위한 기계학습 모델로 딥러닝 모델을 적용하는 경우을 예로 들어 설명하도록 한다.

또한, 중앙 서버(20)는 각 분산 장치(10)로부터 전송된 가중치 데이터를 수신하여 취합하고, 취합된 가중치에 따라 영상 데이터를 분석하여 관심도가 높은 영상의 특정 구간을 추출한다.

이때, 본 발명에서 각 분산 장치(10)로부터 중앙 서버(20)에 전송되는 데이터는 영상 데이터로부터 특정 구간을 추출하기 위한 중요도 정보가 될 수 있다. 또한, 상기 중요도 정보에는 영상 프레임별 중요도 값 또는 영상 구간별 중요도 값이 포함될 수 있다.

또한, 상기 영상 데이터에는 사진과 같은 이미지 데이터, 비디오, VOD, 영화 및 드라마와 같은 동영상 데이터를 포함할 수 있다.

또한, 분산 장치(10)는 영상 데이터를 수집하고 수집된 영상 데이터를 토대로 기계학습 모델을 이용하여 기계학습을 수행할 수 있는 각종 사용자 단말기를 포함할 수 있다.

예를 들어, 분산 장치(10)는 스마트폰, 휴대 단말기, 이동 단말기(Mobile Terminal), 개인 정보 단말기(Personal Digital Assistant: PDA), PMP(Portable Multimedia Player) 단말기, 텔레매틱스(Telematics) 단말기, 내비게이션(Navigation) 단말기, 노트북 컴퓨터, 슬레이트 PC(Slate PC), 태블릿 PC(Tablet PC), 울트라북(ultrabook), 웨어러블 디바이스(Wearable Device, 예를 들어, 워치형 단말기(Smartwatch), 글래스형 단말기(Smart Glass), 와이브로(Wibro) 단말기, 플렉시블 단말기(Flexible Terminal) 등과 같은 다양한 단말기를 포함할 수 있다.

또한, 본 발명의 분산 장치(10)는 도 2에서 도시된 바와 같이 통신부(110), 영상 수집부(120), 프레임 추출부(130), 객체 검출부(140), 필터링부(150), 중요도 추출부(160), 저장부(170) 및 제어부(180)를 포함할 수 있다.

통신부(110)는 중상 서버(20)와 데이터를 송수신할 수 있다. 즉, 통신부(110)는 중앙 서버(20)로부터 딥러닝 모델을 수신하거나, 분산 장치(10)에서 학습을 통해 도출된 가중치 데이터를 중앙 서버(20)에 전송할 수 있다.

또한, 영상 수집부(120)는 통신부(110)를 이용하여 영상 데이터를 수집할 수 있다. 예를 들어, 영상 수집부(120)는 상기 통신부(110)를 통한 인터넷 통신망을 이용하여 영상 데이터를 수집할 수 있다. 이때, 수집된 영상 데이터는 저장부(170)에 저장된다.

또한, 본 발명에서 영상 수집부(120)를 통해 수집된 영상 데이터는 일련의 시간 순서대로 진행되는 전체 영상 데이터의 일부 구간을 나타낼 수 있다. 즉, 영상 수집부(120)를 통해 수집된 영상 데이터는 영화 또는 드라마와 같은 영상 데이터의 일부 구간일 수 있다.

이때, 중앙 서버(20)는 분산 장치(10)를 통해 수집된 영상 데이터와 다른 구간의 영상 데이터, 또는 분산 장치(10)를 통해 수집된 영상 데이터에 대한 전체 영상 데이터를 보유할 수 있다.

예를 들어, 원본 영상 데이터의 전체 구간이 (00:00:00 ~ 01:30:00)인 1시간 30분 길이의 영상 데이터인 경우 제1 분산 장치(11), 제2 분산 장치(12) 및 중앙 서버(20)를 통해 수집된 영상 데이터의 구간은 아래와 같이 나타날 수 있다.

[실시 예]

- 원본 영상 데이터의 전체 구간 : (00:00:00 ~ 01:30:00)

- 제1 분산 장치(11)에서 수집된 영상 데이터의 구간 : (00:14:26 ~ 00:22:35)

- 제2 분산 장치(12)에서 수집된 영상 데이터의 구간 : (00:56:07 ~ 01:13:33), (01:04:26 ~ 01:26:37)

- 중앙 서버(20)가 보유한 영상 데이터의 구간 : (00:24:06 ~ 00:32:55), (01:01:22 ~ 01:23:20)

또한, 본 발명에 따른 영상 수집부(120)는 중앙 서버(20)에서 보유한 영상 데이터와 동일한 영상 장르의 영상 데이터를 수집할 수도 있다.

예를 들어, 중앙 서버(20)가 보유한 특정 구간 추출 대상의 영상 데이터가 로맨스 영화인 경우 영상 수집부(120)는 로맨스 장르의 영상 데이터를 수집할 수 있다.

또한, 중앙 서버(20)가 보유한 특정 구간 추출 대상의 영상 데이터가 스릴러 영화 또는 서부 영화인 경우 영상 수집부(120)는 스릴러 장르의 영화 또는 서부 영화 장르로 분류되는 영상 데이터를 수집할 수 있다.

또한, 프레임 추출부(130)는 영상 수집부(120)를 통해 수집된 상기 영상 데이터를 이용하여 영상 프레임(frame)을 추출한다.

이때, 프레임 추출부(130)는 상기 영상 데이터로부터 미리 설정된 프레임 속도(프레임/초)에 의해 시간 순서에 따라 영상 프레임을 추출하고, 추출된 영상 프레임으로 구성되는 데이터셋을 생성한다. 이와 같이 생성된 데이터셋은 저장부(170)에 저장된다.

또한, 객체 검출부(140)는 딥러닝 모델을 이용하여 상기 영상 프레임으로부터 객체를 검출한다. 즉, 객체 검출부(140)는 저장부(170)에 저장된 데이터셋을 기반으로 딥러닝을 이용하여 데이터 라벨링(Data Labeling)과 학습을 수행하고, 학습 수행 결과를 토대로 상기 영상 프레임의 객체 검출을 수행한다.

또한, 본 발명에 따른 객체 검출부(140)는 도 3에서 도시된 바와 같이 클래스 설정 모듈(141), 데이터 라벨링 모듈(142), 학습 모듈(143) 및 객체 예측 모듈(144)을 포함할 수 있다.

클래스 설정 모듈(141)은 상기 영상 프레임으로부터 관심도가 높은 장면 또는 객체를 인식하기 위한 클래스를 설정한다. 이때, 상기 클래스는 영상 수집부(120)를 통해 수집된 영상 데이터의 내용 또는 영상 데이터의 장르에 따라 설정될 수 있다.

예를 들어, 영상 수집부(120)를 통해 수집된 영상 데이터가 스릴러 영화인 경우 귀신, 피, 공포 등을 클래스로 설정하여 객체를 검출할 수 있다. 또한, 영상 수집부(120)를 통해 수집된 영상 데이터가 서부 영화인 경우에는 카우보이 모자, 말, 총 등을 클래스로 설정하여 객체를 검출할 수 있다.

또한, 데이터 라벨링 모듈(142)은 클래스 설정 모듈(141)에서 설정된 클래스를 토대로 상기 영상 프레임의 데이터 라벨링(Data Labeling)을 수행한다. 즉, 데이터 라벨링 모듈(142)은 클래스 설정 모듈(141)에서 설정된 클래스에 따라 영상 프레임을 분류하고, 분류된 영상 프레임에 각각 데이터 라벨링을 수행한다.

예를 들어, 영상 데이터가 스릴러 영화인 경우 영상 프레임을 귀신, 피, 공포와 같은 클래스로 분류하고, 각각의 영상 프레임에 귀신, 피, 공포와 같은 클래스에 해당하는 라벨을 부여할 수 있다.

또한, 본 발명에서 학습 모듈(143)은 딥러닝 모델을 이용하여 영상 프레임에 대한 학습을 수행한다. 또한, 객체 예측 모듈(144)은 상기 학습 모듈(143)에서 수행된 학습 결과를 토대로 상기 영상 프레임에서 객체를 예측한다.

예를 들어, 상기 학습 모듈(143)을 통한 영상 프레임의 학습이 완료되면 저장부(170)에 학습 결과 중 가장 학습이 잘된 최적의 가중치 파일이 저장된다. 따라서, 상기 객체 예측 모듈(144)은 상기 최적의 가중치 파일을 사용하여 상기 영상 프레임의 객체를 예측할 수 있다.

또한, 필터링부(150)는 객체 검출부(140)를 통해 검출된 객체 검출 결과를 토대로 영상 데이터로부터 노이즈 영상을 제거한다. 즉, 필터링부(150)는 상기 클래스에 따라 분류된 영상 프레임을 통해 노이즈 영상을 필터링함으로써 영상 데이터로부터 광고 영상 등의 불필요한 영상을 제거할 수 있다.

또한, 중요도 추출부(160)는 객체 검출부(140)를 통해 검출된 객체 검출 결과 또는 필터링부(150)의 필터링 결과 데이터를 토대로 중요도 정보를 추출한다. 즉, 중요도 추출부(160)는 각 영상 프레임별 중요도 값 또는 영상 구간별 중요도 값을 추출할 수 있다.

예를 들어, 중요도 추출부(160)는 객체 검출부(140)를 통해 영상 프레임에서 검출된 객체의 개수를 토대로 영상 프레임에 대한 중요도를 수치로 변환하여 영상 프레임별 중요도 값으로 나타낼 수 있다.

이때, 상기 중요도 값은 영상 프레임 또는 설정된 영상 구간에서 검출된 객체의 개수를 합산하여 추출하거나, 합산된 객체의 개수에 미리 설정된 가중치를 적용하여 추출할 수 있다.

따라서, 만약 2개의 영상 프레임에 대해 각각 객체가 2개와 5개가 검출되었다면 5개의 객체가 검출된 영상 프레임에 상대적으로 더 큰 중요도 값이 부여된다.

또한, 제어부(180)는 통신부(110), 영상 수집부(120), 프레임 추출부(130), 객체 검출부(140), 필터링부(150) 및 중요도 추출부(160)를 제어한다. 또한, 제어부(180)는 중요도 추출부(160)를 통해 추출된 중요도 정보를 통신부(110)를 이용하여 중앙 서버(20)에 전송한다.

따라서, 각 분산 장치(10)에서 추출된 중요도 정보가 중앙 서버(20)에 전송되어 취합된다. 예를 들어, 분산 장치(10)가 100개인 경우 100개의 중요도 정보가 중앙 서버(20)에 전송되어 취합될 수 있다.

또한, 분산 장치(10)에서 추출된 중요도 정보에서 상기 영상 구간별 중요도 값은 아래의 [수학식 1]과 같은 형태로 중앙 서버(20)에 전송될 수 있다.

[수학식 1]

영상 구간별 중요도 값 = Local(start_frame, end_frame, w)

여기에서, start_frame은 분산 장치(10)가 보유한 영상 구간에서의 시점 프레임 번호 또는 시간을 나타내고, end_frame은 분산 장치(10)가 보유한 영상 구간에서의 종점 프레임 번호 또는 시간을 나타내며, w는 상기 영상 구간에 대한 중요도 값을 나타낸다.

도 4는 본 발명의 실시 예에 따른 중앙 서버(20)를 나타내는 구성도이다.

본 발명에 따른 중앙 서버(20)는 각 분산 장치(10)에서 전송된 중요도 정보를 수집하여 분석하고, 중앙 서버(20)가 보유한 영상 데이터 또는 전체 영상 프레임에서 특정 구간에 대한 중요도 정보를 분석 및 파악할 수 있다.

또한, 본 발명에 따른 중앙 서버(20)는 도 4에서 도시된 바와 같이 송수신부(210), 데이터 수집부(220), 영상 데이터 분석부(230), 특정 구간 추출부(240) 및 데이터베이스(250)를 포함한다.

본 발명에서 송수신부(210)는 각 분산 장치(10)의 통신부(110)와 데이터를 송수신한다. 즉, 송수신부(210)는 각 분산 장치(10)에 미리 설정된 딥러닝 모델을 전송하거나, 각 분산 장치(10)에서 전송된 중요도 정보를 수신할 수 있다.

또한, 데이터 수집부(220)는 상기 송수신부(210)를 통해 수신된 중요도 정보를 수집하여 데이터베이스(250)에 저장한다.

또한, 영상 데이터 분석부(230)는 데이터 수집부(220)를 통해 수집된 중요도 정보를 토대로 중앙 서버(20)가 보유한 영상 데이터에서 각 영상 프레임별 또는 영상 구간별 중요도 값을 분석한다.

즉, 영상 데이터 분석부(230)는 데이터 수집부(220)를 통해 수집된 중요도 정보를 분석하여 중앙 서버(20)에서 보유한 전체 영상 프레임의 어느 영상 구간이 높은 중요도를 나타내는지 파악할 수 있다.

또한, 특정 구간 추출부(240)는 영상 데이터 분석부(230)에서 분석된 중요도 정보를 토대로 전체 영상 프레임으로부터 특정 영상 구간을 추출할 수 있다.

예를 들어, 특정 구간 추출부(240)는 영상 데이터 분석부(230)에서 분석된 중요도 정보를 토대로 중앙 서버(20)가 보유한 영상 데이터에서 미리 설정된 기준 중요도 값보다 높은 중요도 값을 갖는 영상 프레임 또는 영상 구간을 선별하여 기본 영상을 추출할 수 있다.

또한, 특정 구간 추출부(240)는 중요도 값에 따라 선별된 상기 기본 영상을 프레임 순서 또는 시간 순서대로 조합하여 티저 영상, 예고 영상, 하이라이트 영상 또는 요약 영상과 같이 관심도가 높은 특정 영상 구간을 추출할 수 있다.

도 5 및 도 6은 본 발명의 실시 예에 따른 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법을 나타내는 순서도이고, 도 7은 도 5에서 객체를 검출하는 단계를 세부적으로 나타내는 순서도이다.

즉, 도 5는 본 발명의 실시 예에 따른 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법의 분산 장치(10)에서 수행되는 과정을 나타내는 순서도이고, 도 6은 중앙 서버(20)에서 수행되는 과정을 나타내는 순서도이다.

본 발명의 실시 예에 따른 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법은 도 5에서 도시된 바와 같이 각 분산 장치(10)에서 영상 데이터를 수집하는 단계(S10), 분산 장치(10)가 수집된 상기 영상 데이터를 이용하여 영상 프레임(frame)을 추출하는 단계(S20)를 포함한다.

이때, 각 분산 장치(10)에서 수집된 상기 영상 데이터는 중앙 서버(20)에서 보유한 특정 구간 추출 대상인 영상 데이터와 동일한 명칭 또는 동일한 장르의 영상 데이터이다.

또한, 본 발명의 실시 예에 따른 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법은 분산 장치(10)가 딥러닝 모델을 이용하여 상기 영상 프레임으로부터 객체를 검출하는 단계(S30), 분산 장치(10)가 객체 검출 결과를 토대로 상기 영상 데이터로부터 노이즈 영상을 제거하여 필터링하는 단계(S40)를 더 포함한다.

또한, 본 발명은 상기 객체를 검출하는 단계(S30) 이전에 각 분산 장치(10)가 중앙 서버(20)에 접속하여 학습을 수행하기 위한 기계학습 모델을 수신하는 단계(S21)를 더 포함할 수 있다.

즉, 분산 장치(10)는 중앙 서버(20)에 접속하여 중앙 서버(20)의 승인을 요청하고, 승인을 받은 분산 장치(10)는 중앙 서버(20)로부터 학습을 수행하기 위한 딥러닝 모델을 수신할 수 있다.

또한, 상기 영상 프레임으로부터 객체를 검출하는 단계(S30)는 도 7에서 도시된 바와 같이 상기 영상 프레임으로부터 관심도가 높은 장면 또는 객체를 인식하기 위한 클래스를 설정하는 단계(S31), 설정된 클래스를 토대로 상기 영상 프레임의 데이터 라벨링(Data Labeling)을 수행하는 단계(S32)를 포함한다.

또한, 상기 영상 프레임으로부터 객체를 검출하는 단계(S30)는 딥러닝 모델을 이용하여 데이터 라벨링이 수행된 영상 프레임의 데이터 학습을 수행하는 단계(S33) 및 학습 수행 결과를 토대로 상기 영상 프레임의 객체를 예측하는 단계(S34)를 더 포함한다.

또한, 본 발명의 실시 예에 따른 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법은 분산 장치(10)가 객체 검출 결과 데이터 또는 필터링 결과 데이터를 토대로 상기 영상 데이터의 중요도 정보를 추출하는 단계(S50), 및 분산 장치(10)가 추출된 상기 중요도 정보를 중앙 서버(20)로 전송하는 단계(S60)를 더 포함한다.

이때, 상기 영상 데이터의 중요도 정보에는 영상 프레임별 중요도 값 또는 영상 구간별 중요도 값을 포함할 수 있다.

또한, 상기 영상 구간별 중요도 값은 중요도가 측정된 영상 데이터 구간의 시점 프레임 번호 또는 시간, 종점 프레임 번호 또는 시간, 상기 영상 데이터 구간에서 추출된 중요도 값을 포함한다.

또한, 상기 중요도 정보를 추출하는 단계(S50)는 분산 장치(10)가 객체 검출 결과 데이터 또는 필터링 결과 데이터를 토대로 영상 프레임에서 예측된 객체의 개수를 측정하는 단계(S51), 예측된 객체의 개수를 토대로 영상 프레임에 대한 중요도를 수치로 변환하여 영상 프레임별 중요도 값을 추출하는 단계(S52) 및 추출된 영상 프레임별 중요도 값을 이용하여 설정된 영간 구간에 대한 중요도 값을 추출하는 단계(S53)를 포함할 수 있다.

이때, 상기 영상 프레임별 중요도 값을 추출하는 단계(S52)는 미리 설정된 클래스를 토대로 각 영상 프레임에서 측정된 객체의 수를 합산하여 영상 프레임별 중요도 값을 나타내거나, 합산된 영상 프레임별 중요도 값에 미리 설정된 가중치를 적용하여 변환할 수 있다.

또한, 마찬가지로 상기 영간 구간에 대한 중요도 값을 추출하는 단계(S53)는 설정된 영상 구간에서 검출된 객체의 개수를 합산하여 수치로 나타내거나, 합산된 객체의 개수에 미리 설정된 가중치를 적용하여 나타낼 수 있다.

또한, 본 발명의 실시 예에 따른 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법은 중앙 서버(20)가 각 분산 장치(10)로부터 전송된 중요도 정보를 수신하여 취합하는 단계(S70), 중앙 서버(20)가 취합된 중요도 정보를 분석하는 단계(S80), 및 중앙 서버(20)가 분석된 중요도 정보를 토대로 중앙 서버(20)에 저장된 영상 데이터로부터 특정 영상 구간을 추출하는 단계(S90)를 더 포함한다.

이때, 상기 중요도 정보를 분석하는 단계(S80)는 각 분산 장치(10)로부터 전송된 중요도 정보를 토대로 중앙 서버(20)가 보유한 영상 데이터에서 각 영상 프레임별 중요도 값 또는 영상 구간별 중요도 값을 분석한다.

또한, 상기 특정 영상 구간을 추출하는 단계(S90)는 상기 (S80) 단계에서 분석된 중요도 정보를 토대로 중앙 서버(20)가 보유한 영상 데이터에서 미리 설정된 기준 중요도 값보다 높은 중요도 값을 갖는 영상 프레임 또는 영상 구간을 선별하여 기본 영상을 추출하는 단계(S91)를 포함한다.

또한, 상기 특정 영상 구간을 추출하는 단계(S90)는 선별된 상기 기본 영상을 프레임 순서 또는 시간 순서대로 조합하여 티저 영상, 예고 영상, 하이라이트 영상 또는 요약 영상과 같이 관심도가 높은 특정 영상 구간을 추출하는 단계(S92)를 더 포함한다.

또한, 본 발명의 실시 예에 따른 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법은 상기 중요도 정보를 분석하는 단계(S80) 이후에 중앙 서버(20)가 분석된 중요도 정보를 토대로 딥러닝 모델을 업데이트하는 단계(S100), 중앙 서버(20)가 분석된 중요도 정보 또는 업데이트된 딥러닝 모델을 분산 장치(10)로 전송하는 단계(S120) 및 분산 장치(10)가 중앙 서버(20)로부터 전송된 중요도 정보 또는 딥러닝 모델을 반영하여 업데이트 하는 단계(S130)를 더 포함할 수 있다.

이와 같이 본 발명의 실시 예에 따른 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법 및 시스템은 각 분산 장치(10)에서 수집한 영상 데이터를 이용하여 학습을 수행함으로써 중앙 서버(20)의 작업 부하를 줄일 수 있는 효과가 있다.

또한, 본 발명은 분산 장치(10)를 통해 개인이 수집한 영상 데이터를 중앙 서버(20)에 전송할 필요가 없기 때문에 개인의 프라이버시를 보장할 수 있는 효과가 있다.

이상으로 본 발명에 관한 바람직한 실시 예를 설명하였으나, 본 발명은 상기 실시예에 한정되지 아니하며, 본 발명의 실시 예로부터 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의한 용이하게 변경되어 균등하다고 인정되는 범위의 모든 변경을 포함한다.

10 : 분산 장치 20 : 중앙 서버
110 : 통신부 120 : 영상 수집부
130 : 프레임 추출부 140 : 객체 검출부
141 : 클래스 설정 모듈 142 : 데이터 라벨링 모듈
143 : 학습 모듈 144 : 객체 예측 모듈
150 : 필터링부 160 : 중요도 추출부
170 : 저장부 180 : 제어부
210 : 송수신부 220 : 데이터 수집부
230 : 영상 데이터 분석부 240 : 특정 구간 추출부
250 : 데이터베이스

Claims

연합학습 모델을 기반으로 적어도 하나의 분산 장치와 중앙 서버를 이용하여 비디오 영상의 특정 구간을 추출하는 비디오 영상의 특정 구간 추출 방법에 있어서,
(a) 분산 장치가 수집된 영상 데이터를 이용하여 영상 프레임(frame)을 추출하는 단계;
(b) 상기 분산 장치가 딥러닝 모델을 이용하여 상기 영상 프레임으로부터 객체를 검출하는 단계;
(c) 상기 분산 장치가 객체 검출 결과를 토대로 상기 영상 데이터의 중요도 정보를 추출하는 단계;
(d) 상기 분산 장치가 추출된 중요도 정보를 중앙 서버로 전송하는 단계;
(e) 상기 중앙 서버가 분산 장치로부터 전송된 중요도 정보를 수신하여 취합하는 단계;
(f) 상기 중앙 서버가 취합된 중요도 정보를 토대로 중앙 서버가 보유한 영상 데이터의 중요도 정보를 분석하는 단계; 및
(g) 상기 중앙 서버가 분석된 중요도 정보를 토대로 중앙 서버에 저장된 영상 데이터로부터 특정 영상 구간을 추출하는 단계를 포함하는 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법.
제1항에서,
상기 분산 장치에서 수집된 영상 데이터는 중앙 서버에서 보유한 특정 영상 구간 추출 대상인 영상 데이터와 동일한 명칭 또는 동일한 장르의 영상 데이터인 것을 특징으로 하는 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법.
제1항에서,
상기 단계 (b)는
(b1) 상기 영상 프레임으로부터 관심도가 높은 장면 또는 객체를 인식하기 위한 클래스를 설정하는 단계,
(b2) 설정된 클래스를 토대로 상기 영상 프레임의 데이터 라벨링(Data Labeling)을 수행하는 단계,
(b3) 딥러닝 모델을 이용하여 데이터 라벨링이 수행된 영상 프레임의 데이터 학습을 수행하는 단계, 및
(b4) 학습 수행 결과를 토대로 상기 영상 프레임의 객체를 예측하는 단계를 포함하는 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법.
제1항에서,
상기 단계 (b) 이후에 분산 장치가 객체 검출 결과를 토대로 상기 영상 데이터로부터 노이즈 영상을 제거하여 필터링하는 단계를 더 포함하는 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법.
제1항에서,
상기 중요도 정보는 영상 프레임별 중요도 값 또는 영상 구간별 중요도 값을 포함하고,
상기 영상 프레임별 중요도 값은 영상 프레임으로부터 검출된 객체의 개수를 토대로 영상 프레임에 대한 중요도를 수치로 변환하여 나타낸 것을 특징으로 하는 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법.
제5항에서,
상기 영상 구간별 중요도 값은 중요도가 측정된 영상 데이터 구간의 시점 프레임 번호 또는 시간, 종점 프레임 번호 또는 시간, 상기 영상 데이터 구간에서 추출된 중요도 값을 포함하는 연합학습을 이용한 비디오 영상의 특정 구간 추출 방법.
연합학습 모델을 이용하여 비디오 영상의 특정 구간을 추출하는 비디오 영상의 특정 구간 추출 시스템에 있어서,
영상 데이터를 수집하고, 수집된 영상 데이터를 이용하여 학습을 수행하며, 학습 수행 결과를 토대로 추출된 영상 데이터의 중요도 정보를 중앙 서버에 전송하는 적어도 하나의 분산 장치; 및
상기 적어도 하나의 분산 장치로부터 전송된 중요도 정보를 수신하여 취합하고, 취합된 중요도 정보에 따라 영상 데이터를 분석하여 관심도가 높은 영상의 특정 구간을 추출하는 중앙 서버를 포함하는 연합학습을 이용한 비디오 영상의 특정 구간 추출 시스템.
제7항에서,
상기 분산 장치는
영상 데이터를 수집하는 영상 수집부,
상기 영상 데이터를 이용하여 영상 프레임(frame)을 추출하는 프레임 추출부,
딥러닝 모델을 이용하여 상기 영상 프레임으로부터 객체를 검출하는 객체 검출부,
상기 객체 검출부를 통해 검출된 객체 검출 결과 데이터를 토대로 영상 데이터의 중요도 정보를 추출하는 중요도 추출부, 및
상기 중요도 추출부를 통해 추출된 중요도 정보를 통신부를 이용하여 중앙 서버에 전송하는 제어부를 포함하는 연합학습을 이용한 비디오 영상의 특정 구간 추출 시스템.
제7항에서,
상기 중요도 정보는 영상 프레임별 중요도 값 또는 영상 구간별 중요도 값을 포함하고, 영상 프레임별 중요도 값은 영상 프레임으로부터 검출된 객체의 개수를 토대로 영상 프레임에 대한 중요도를 수치로 변환하여 나타내며,
상기 영상 구간별 중요도 값은 아래의 [수학식 1]과 같이 나타낸 것을 특징으로 하는 연합학습을 이용한 비디오 영상의 특정 구간 추출 시스템.
[수학식 1]
영상 구간별 중요도 값 = Local(start_frame, end_frame, w)
여기에서, start_frame은 분산 장치가 보유한 영상 구간에서의 시점 프레임 번호 또는 시간을 나타내고, end_frame은 상기 분산 장치가 보유한 영상 구간에서의 종점 프레임 번호 또는 시간을 나타내며, w는 상기 영상 구간에 대한 중요도 값을 나타낸다.
제7항에서,
상기 중앙 서버는
상기 분산 장치로부터 전송된 중요도 정보를 수집하는 데이터 수집부,
상기 데이터 수집부를 통해 수집된 중요도 정보를 토대로 중앙 서버가 보유한 영상 데이터에서 중요도 정보를 분석하는 영상 데이터 분석부, 및
상기 영상 데이터 분석부에서 분석된 중요도 정보를 토대로 중앙 서버가 보유한 영상 데이터로부터 특정 영상 구간을 추출하는 특정 구간 추출부를 포함하는 연합학습을 이용한 비디오 영상의 특정 구간 추출 시스템.