KR20210091055A

KR20210091055A - 비디오 클립 설명의 생성 방법, 장치, 전자 기기 및 기록 매체

Info

Publication number: KR20210091055A
Application number: KR1020210002739A
Authority: KR
Inventors: 샹 롱; 동량 허; 푸 리; 샹 자오; 티엔웨이 린; 하오 순; 슬레이 원; 얼뤼 딩
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2020-01-10
Filing date: 2021-01-08
Publication date: 2021-07-21
Also published as: US11615140B2; JP2021111400A; EP3848818A1; CN111274443B; JP7164077B2; US20210216783A1; KR102416521B1; CN111274443A

Abstract

본 발명은 비디오 클립 설명의 생성 방법, 장치, 전자 기기 및 기록 매체를 개시하며, 비디오 처리 기술 분야에 관한 것이다. 구체적인 실현 방안은 비디오 설명 모델 중의 비디오 클립 선별 모듈을 이용하여 분석 대기 비디오 중에서 취득한 복수의 비디오 제안 클립에 대해 선별을 실행하여 설명에 적합한 복수의 비디오 클립을 취득한다. 본 발명은 비디오 클립 선별 모듈을 이용하여 분석 대기 비디오 중에서 취득한 복수의 비디오 제안 클립에 대해 선별을 실행하여 설명에 적합한 복수의 비디오 클립을 취득하고, 이어서 다시 비디오 클립 설명 모듈을 이용하여 각 비디오 클립에 대해 설명을 실행함으로써, 모든 비디오 제안 클립에 대해 설명을 실행하는 것을 피면할 수 있고, 선별 후의 비디오와의 관련성이 비교적 강하며 또한 설명에 적합한 비디오 클립에만 대해 설명을 실행할 수 있으며, 설명에 적합하지 않는 비디오 클립의 설명의 비디오 설명에 대한 간섭을 제거하여 최종의 비디오 클립 설명의 정확성을 보증하였고, 비디오 클립 설명의 질량을 향상시켰다.

Description

비디오 클립 설명의 생성 방법, 장치, 전자 기기 및 기록 매체 {METHOD AND APPARATUS FOR GENERATING DESCRIPTIONS OF VIDEO CLIPS, ELECTRONIC DEVICE AND STROAGE MEDIUM}

본 발명은 컴퓨터 기술 분야에 관한 것인 바, 특히 비디오 처리 기술에 관한 것이며, 구체적으로 비디오 클립 설명의 생성 방법, 장치, 전자 기기 및 기록 매체에 관한 것이다.

일반적인 경우, 비디오 클립 설명(description) 생성 기술은 예를 들면 비디오 검색에 대해 근거를 제공하거나, 시각 장애인을 도와 비디오를 시청하거나, 스마트 동영상 댓글 자막 생성을 지원하는 등 많은 중요한 응용 장면을 가진다.

비디오 클립 설명 생성은 주요하게 비디오 내의 화상 정보, 운동 정보, 오디오 정보에 대해 분석과 이해를 실행하여, 비디오 내의 복수의 클립에 대해 각각 비디오 콘텐츠의 텍스트 설명을 생성하는 것이다. 여기서 복수의 클립은 알고리즘에 의해 예측된 설명 생성에 적합한 클립일 수 있으며, 또한 인위적으로 지정한 특정 클립일 수도 있다. 종래의 비디오 클립 설명 생성은 일반적으로 두개의 독립적인 단계로 나뉘는데, 첫번째 단계는 설명 생성에 적합한 비디오 콘텐츠 클립을 예측하고, 두번째 단계는 각 클립에 대해 각각 설명을 생성한다. 구체적으로, 첫번째 단계에서, 인간이 라벨링한 각 비디오 대응하는 설명 생성에 적합한 클립을 이용하여, 하나의 비디오 클립 검출 모델을 훈련한다. 당해 비디오 클립 검출 모델의 입력은 전체 비디오이고, 출력은 복수의 비디오 클립의 시작점 및 종료점이다. 그 다음, 두번째 단계에서 비디오를 인간이 라벨링한 비디오 클립에 따라 분할하고, 각 비디오 클립에 대해 비디오의 대응하는 설명을 라벨링하여, 하나의 비디오 클립 설명 생성 모델을 훈련한다. 당해 비디오 클립 설명 생성 모델의 입력은 단일 비디오 클립이고, 출력은 단일 비디오 클립에 대응하는 설명이다.

종래의 비디오 클립 설명 생성 과정에서, 비디오 클립 검출 모델에 의해 검출된 모든 비디오 클립에 대해, 모두 비디오 클립 설명 생성 모델에 의해 해당되는 설명이 생성된다. 그러나, 비디오 클립 검출 모델에 의해 검출된 모든 비디오 클립은 결코 모두 현재 비디오와의 관련성이 비교적 강하며 또한 설명에 적합한 클립이 아니기에, 최종의 비디오 클립 설명의 부정확을 초래하게 된다.

상술한 기술 문제를 해결하기 위하여, 본 발명은 비디오 클립 설명의 정확성을 향상시키기 위한 비디오 클립 설명의 생성 방법, 장치, 전자 기기 및 기록 매체를 제공한다.

일 측면에 있어서, 본 발명은 비디오 클립 설명의 생성 방법을 제공하되, 당해 방법은,

비디오 설명 모델 중의 비디오 클립 선별 모듈을 이용하여 분석 대기 비디오 중에서 취득한 복수의 비디오 제안 클립에 대해 선별을 실행하여 설명에 적합한 복수의 비디오 클립을 취득하는 단계; 및

상기 비디오 설명 모델 중의 비디오 클립 설명 모듈을 이용하여 각 비디오 클립에 대해 설명을 실행하는 단계를 포함한다.

또한 선택적으로, 상술한 방법에 있어서, 상기 비디오 설명 모델 중의 상기 비디오 클립 선별 모듈과 상기 비디오 클립 설명 모듈은 연합 학습을 통해 얻는다.

또한 선택적으로, 상술한 방법에 있어서, 비디오 설명 모델 중의 비디오 클립 선별 모듈을 이용하여 사전 취득한 복수의 비디오 제안 클립에 대해 선별을 실행하여 설명에 적합한 복수의 비디오 클립을 취득하는 단계 전에,

사전 훈련된 상기 비디오 설명 모델 중의 비디오 클립 제안 모듈을 이용하여 상기 분석 대기 비디오 중에서 상기 복수의 비디오 제안 클립을 추출하는 단계; 또는

인공 방식을 통해 상기 분석 대기 비디오 중에서 추출한 상기 복수의 비디오 제안 클립을 취득하는 단계를 더 포함하며,

또한, 상기 비디오 설명 모델 중에 상기 비디오 클립 제안 모듈이 더 포함되어 있으면, 상기 비디오 설명 모델 중의 상기 비디오 클립 제안 모듈, 상기 비디오 클립 선별 모듈 및 상기 비디오 클립 설명 모듈은 연합 학습을 통해 얻는다.

또한 선택적으로, 상술한 방법에 있어서, 사전 훈련된 상기 비디오 설명 모델 중의 비디오 클립 제안 모듈을 이용하여 상기 분석 대기 비디오 중에서 상기 복수의 비디오 제안 클립을 추출하는 단계는,

상기 분석 대기 비디오 중의 각 비디오 프레임을 추출하는 단계;

사전 훈련된 제1 서브 모델, 제2 서브 모델 및 제3 서브 모델 중의 적어도 하나를 이용하여, 각 상기 비디오 프레임 중의 비디오 프레임 특징을 각각 추출하여, 대응하는 비디오 프레임 특징 시퀀스를 얻되, 합계 적어도 하나의 비디오 프레임 특징 시퀀스를 얻는 단계;

각 상기 비디오 프레임 특징 시퀀스에 대해, 사전 훈련된 신뢰도 통계 모델을 이용하여 대응하는 클립 신뢰도 맵을 취득하되, 합계 적어도 한 종류의 클립 신뢰도 맵을 얻는 단계; 및

상기 적어도 한 종류의 클립 신뢰도 맵에 기반하여 상기 분석 대기 비디오 중의 복수의 비디오 제안 클립을 취득하는 단계를 포함한다.

또한 선택적으로, 상술한 방법에 있어서, 상기 적어도 한 종류의 클립 신뢰도 맵에 기반하여 상기 분석 대기 비디오 중의 복수의 비디오 제안 클립을 취득하는 단계는,

한 종류의 상기 클립 신뢰도 맵만을 포함하는 경우, 상기 클립 신뢰도 맵 중의 각 상기 비디오 클립의 신뢰도에 기반하여, 신뢰도 상위 N개 비디오 클립을 취득하여 대응하는 상기 비디오 제안 클립으로 간주하는 단계; 및

적어도 두 종류의 상기 클립 신뢰도 맵을 포함하는 경우, 상기 적어도 두 종류의 클립 신뢰도 맵 중의 동일한 클립의 신뢰도에 대해 가중 융합을 실행하여, 융합 후의 각 클립의 신뢰도를 얻고; 융합 후의 각 상기 클립의 신뢰도에 기반하여 신뢰도 상위 N개 비디오 클립을 취득하여 대응하는 상기 비디오 제안 클립으로 간주하는 단계를 포함한다.

또한 선택적으로, 상술한 방법에 있어서, 상기 비디오 설명 모델 중의 비디오 클립 선별 모듈을 이용하여 상기 복수의 비디오 제안 클립에 대해 선별을 실행하여 설명에 적합한 복수의 비디오 클립을 취득하는 단계는,

상기 분석 대기 비디오의 특징을 취득하는 단계;

각 상기 비디오 제안 클립의 특징을 취득하는 단계; 및

사전 훈련된 분류 모델, 상기 분석 대기 비디오의 특징 및 각 상기 비디오 제안 클립의 특징을 이용하여 상기 복수의 비디오 제안 클립 중에서 설명에 적합한 상기 복수의 비디오 클립을 선별하는 단계를 포함한다.

또한 선택적으로, 상술한 방법에 있어서, 사전 훈련된 분류 모델, 상기 분석 대기 비디오의 특징 및 각 상기 비디오 제안 클립의 특징을 이용하여 상기 복수의 비디오 제안 클립 중에서 설명에 적합한 상기 복수의 비디오 클립을 선별하는 단계는,

상기 복수의 비디오 제안 클립 중의 각 상기 비디오 제안 클립에 대해, 상기 비디오 제안 클립의 특징 및 상기 분석 대기 비디오의 특징을 상기 분류 모델에 입력하여 상기 분류 모델에 의해 출력되는 확률 값을 취득하는 단계;

출력된 상기 확률 값이 미리 설정된 확률 임계 값보다 큰지 여부를 판단하는 단계; 및

출력된 상기 확률 값이 미리 설정된 확률 임계 값보다 클 경우, 상기 비디오 제안 클립이 설명에 적합한 비디오 클립인 것으로 확정하되, 합계 설명에 적합한 상기 복수의 비디오 클립을 얻는 단계를 포함한다.

다른 일 측면에 있어서, 본 발명은 비디오 설명 모델의 훈련 방법을 더 제공하되, 당해 방법은,

비디오 설명 모델 중의 비디오 클립 선별 모듈 및 비디오 클립 설명 모듈에 대해 각각 독립적으로 사전 훈련을 실행하는 단계; 및

사전 훈련을 거친 후의 상기 비디오 클립 선별 모듈 및 상기 비디오 클립 설명 모듈에 대해 연합 학습을 실행하는 단계를 포함한다.

또한 선택적으로, 상술한 방법에 있어서, 상기 비디오 설명 모델 중에 비디오 클립 제안 모듈이 더 포함되어 있을 경우, 상기 비디오 설명 모델의 훈련 방법은,

상기 비디오 설명 모델 중의 비디오 클립 제안 모듈에 대해 독립적으로 사전 훈련을 실행하는 단계; 및

사전 훈련을 거친 후의 상기 비디오 클립 제안 모듈, 상기 비디오 클립 선별 모듈 및 상기 비디오 클립 설명 모듈에 대해 연합 학습을 실행하는 단계를 더 포함한다.

또한 선택적으로, 상술한 방법에 있어서, 사전 훈련을 거친 후의 상기 비디오 클립 제안 모듈, 상기 비디오 클립 선별 모듈 및 상기 비디오 클립 설명 모듈에 대해 연합 학습을 실행하는 단계는,

세개의 모듈이 모두 훈련될 때까지, 상기 비디오 클립 제안 모듈, 상기 비디오 클립 선별 모듈 및 상기 비디오 클립 설명 모듈 중의 임의의 두개를 차례로 그대로 유지하며, 강화학습 방법을 통해 그 중의 세번째 모듈을 훈련하는 단계를 포함한다.

또 다른 일 측면에 있어서, 본 발명은 비디오 클립 설명의 생성 장치를 더 제공하되, 당해 장치는,

분석 대기 비디오 중에서 취득한 복수의 비디오 제안 클립에 대해 선별을 실행하여 설명에 적합한 복수의 비디오 클립을 취득하기 위한 비디오 클립 선별 모듈; 및

각 상기 비디오 클립에 대해 설명을 실행하기 위한 비디오 클립 설명 모듈을 구비한다.

기타 일 측면에 있어서, 본 발명은 비디오 설명 모델의 훈련 장치를 더 제공하되, 당해 장치는,

비디오 설명 모델 중의 비디오 클립 선별 모듈 및 비디오 클립 설명 모듈에 대해 각각 독립적으로 사전 훈련을 실행하기 위한 독립 훈련 모듈; 및

사전 훈련을 거친 후 얻은 상기 비디오 클립 선별 모듈 및 상기 비디오 클립 설명 모듈에 대해 연합 학습을 실행하기 위한 연합 학습 모듈을 구비한다.

또 다른 일 측면에 있어서, 본 발명은 전자 기기를 더 제공하되, 당해 기기는,

적어도 하나의 프로세서; 및

상기 적어도 하나의 프로세서와 통신 연결된 메모리를 구비하며,

상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기록되어 있으며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서로 하여금 상기의 임의의 방법을 수행하도록 한다.

기타 일 측면에 있어서, 본 발명은 컴퓨터 명령이 기록되어 있는 비 일시적 컴퓨터 판독 가능 기록 매체를 더 제공하되, 상기 컴퓨터 명령은 상기 컴퓨터로 하여금 상기의 임의의 방법을 수행하도록 한다.

상술한 발명 중의 일 실시예는 아래와 같은 이점 또는 유익한 효과를 갖는다. 비디오 클립 선별 모듈을 이용하여 분석 대기 비디오 중에서 취득한 복수의 비디오 제안 클립에 대해 선별을 실행하여 설명에 적합한 복수의 비디오 클립을 취득하고, 이어서 다시 비디오 클립 설명 모듈을 이용하여 각 비디오 클립에 대해 설명을 실행함으로써, 모든 비디오 제안 클립에 대해 설명을 실행하는 것을 피면할 수 있고, 선별 후의 비디오와의 관련성이 비교적 강하며 또한 설명에 적합한 비디오 클립에만 대해 설명을 실행할 수 있으며, 설명에 적합하지 않는 비디오 클립의 설명의 비디오 설명에 대한 간섭을 제거하여 최종의 비디오 클립 설명의 정확성을 보증하였고, 비디오 클립 설명의 질량을 향상시켰다. 뿐만 아니라, 비디오 클립 선별 모듈을 도입하여 비디오 클립에 대해 선별을 실행하기에, 비디오 제안 클립으로 하여금 비디오의 리콜에 더욱 집중하도록 할 수 있으며, 더욱 다양화된 비디오 클립을 취득하는데 도움이 되며, 후속의 비디오 클립 설명의 다양화를 향상시킬 수 있다.

또한 본 발명에 있어서, 비디오 설명 모델 중의 각 모듈에 대해 사전 연합 학습을 실행함으로써, 종래 설명에서 각 모델을 독립적으로 훈련하여 모델 사이에 부적용성이 존재함으로 인하여 비디오 클립 설명이 부정확한 설명 문제를 피면할 수 있다. 비디오 설명 모델 중의 각 모듈에 대해 사전 연합 학습을 실행하기에, 비디오 설명 모델 중의 각 모듈 사이의 호환성을 효과적으로 보증할 수 있고, 훈련 및 응용의 일치성을 보증할 수 있으며, 훈련할 때 효과가 좋으나 응용할 때 효과가 이상적이지 못한 정황이 발생하지 않기에, 응용할 때의 전반적 효과의 향상을 보증할 수 있으며, 비디오 클립 설명의 질량 및 비디오 클립 설명의 정확성을 효과적으로 향상시킬 수 있다.

또한 본 발명에 있어서, 사전 훈련된 제1 서브 모델, 제2 서브 모델 및 제3 서브 모델 중의 적어도 하나를 이용하여, 적어도 하나의 비디오 프레임 특징 시퀀스를 취득하고; 사전 훈련된 신뢰도 통계 모델을 이용하여 적어도 한 종류의 클립 신뢰도 맵을 취득하고; 적어도 한 종류의 클립 신뢰도 맵에 기반하여 분석 대기 비디오 중의 복수의 비디오 제안 클립을 취득함으로써, 당해 방안은 제안 클립의 리콜에 더욱 집중하기에, 더욱 다양화된 비디오 제안 클립을 취득할 수 있으며, 비디오 제안 클립의 완전성 및 다양성을 보증하고, 후속의 더욱 전면적이고 정확한 비디오 클립의 설명의 취득에 도움이 된다.

또한 본 발명에 있어서, 적어도 두 종류의 서브 모델을 이용하여 대응하는 비디오 프레임 특징 시퀀스를 취득하고, 대응하는 클립 신뢰도 맵을 취득하며, 적어도 두 종류의 클립 신뢰도 맵 중의 동일한 클립의 신뢰도에 대해 가중 융합을 실행하여 융합 후의 각 클립의 신뢰도를 얻을 수 있음으로써, 융합 후의 각 클립의 신뢰도에 기반하여 비디오 제안 클립을 추출할 경우의 비디오 제안 클립의 질량을 보증할 수 있고, 또한 설명에 적합한 비디오 클립의 질량을 보증할 수 있으며, 최종의 비디오 설명의 정확성을 효과적으로 향상시킬 수 있다.

또한 본 발명에 있어서, 사전 훈련된 분류 모델, 분석 대기 비디오의 특징 및 각 비디오 제안 클립의 특징을 이용하여 복수의 비디오 제안 클립 중에서 설명에 적합한 복수의 비디오 클립을 선별할 수 있음으로써, 비디오와 관련성 제일 강한 비디오 제안 클립을 선별하여 설명에 적합한 비디오 클립으로 간주할 수 있고, 비디오 설명의 정확성을 효과적으로 향상시킬 수 있으며, 비디오 설명의 질량을 보증할 수 있다.

또한 본 발명에 있어서, 훈련 시 비디오 설명 모델 중의 각 모듈에 대해 독립적으로 사전 훈련을 실행할 뿐만 아니라, 또한 각 모듈에 대해 연합 학습을 실행함으로써, 독립적으로만 훈련한 후 응용과 훈련의 불일치를 초래하여 비디오 클립 설명이 부정확한 문제가 발생하는 것을 피면하며, 비디오 클립 설명의 정확성과 설명의 질량을 효과적으로 향상시킬 수 있다.

상술한 선택적인 방식이 가지는 기타 효과는 구체적인 실시예를 참조하여 후술된다.

도면은 본 방안을 더욱 잘 이해하기 위하여 이용되며 본 발명을 제한하지 않는다.
도 1은 본 발명의 제1 실시예에 나타낸 비디오 클립 설명의 생성 방법의 플로우 차트이다.
도 2는 본 발명의 제2 실시예에 나타낸 비디오 클립 설명의 생성 방법의 플로우 차트이다.
도 3은 본 발명의 제3 실시예에 나타낸 비디오 설명 모델의 훈련 방법의 플로우 차트이다.
도 4는 본 발명의 제4 실시예에 나타낸 비디오 설명 모델의 훈련 방법의 플로우 차트이다.
도 5는 본 발명의 제5 실시예에 나타낸 비디오 클립 설명의 생성 장치의 구조도이다.
도 6은 본 발명의 제6 실시예에 나타낸 비디오 설명 모델의 훈련 장치의 구조도이다.
도 7은 본 발명 실시예의 상술한 방법을 실현하기 위한 전자 기기의 블럭도이다.

이하, 도면을 참조하여 본 발명의 시범적인 실시예를 기술하되, 본 발명에 대한 이해를 돕기 위해 여기에는 본 발명 실시예의 다양한 세부 사향이 포함되며, 이러한 세부 사향을 단지 시범적인 것으로 간주해야 할 것이다. 따라서, 당업자는 본 발명의 범위 및 정신을 벗어나지 않는 전제 하에서, 여기서 설명되는 실시예에 대해 다양한 변경 및 수정을 수행할 수 있음을 인식해야 한다. 마찬가지로, 명확성 및 간결성을 위하여 이하의 기술에서는 잘 알려진 기능 및 구조의 기술을 생략하였다.

도 1은 본 발명의 제1 실시예에 나타낸 비디오 클립 설명（記述）의 생성 방법의 플로우 차트이다. 도 1에 나타낸 바와 같이, 본 실시예의 비디오 클립 설명의 생성 방법은 구체적으로 아래와 같은 단계를 포함할 수 있다.

S101에 있어서, 비디오 설명 모델 중의 비디오 클립 선별 모듈을 이용하여 분석 대기 비디오 중에서 취득한 복수의 비디오 제안 클립에 대해 선별을 실행하여 설명에 적합한 복수의 비디오 클립을 취득한다.

S102에 있어서, 비디오 설명 모델 중의 비디오 클립 설명 모듈을 이용하여 각 비디오 클립에 대해 설명을 실행한다.

본 실시예의 비디오 클립 설명의 생성 방법에 있어서, 구체적인 수행 본체는 비디오 클립 설명의 생성 장치일 수 있으며, 당해 비디오 클립 설명의 생성 장치는 전자 실체일 수 있거나, 또는 소프트웨어를 이용하여 통합한 응용 시스템으로 실현할 수도 있다. 이용할 때 당해 비디오 클립 설명의 생성 장치에 분석 대기 비디오의 복수의 비디오 제안 클립을 입력하면, 비디오 클립 설명의 생성 장치는 그 중에서 설명에 적합한 복수의 비디오 클립을 취득하고, 복수의 비디오 클립의 설명을 생성하여 출력할 수 있다.

본 실시예에 있어서, 당해 비디오 클립 선별 모듈 및 비디오 클립 설명 모듈은 두개의 완전히 독립적인 모듈이 아니라, 함께 비디오 설명 모델에 속한다. 선택적으로, 이용하기 전에, 본 실시예의 비디오 설명 모델 중의 비디오 클립 선별 모듈 및 비디오 클립 설명 모듈은 연합 학습을 거친다.

또한 선택적으로, 본 실시예의 분석 대기 비디오 중에서 취득한 복수의 비디오 제안 클립은 인공 방식을 통해 분석 대기 비디오 중에서 추출한 복수의 비디오 제안 클립을 포함할 수 있으며; 당해 실현 방식에 있어서, 구체적으로 연구 개발자가 인공 방식을 통해 분석 대기 비디오 중에서 복수의 비디오 제안 클립을 추출한다.

도 2는 본 발명의 제2 실시예에 나타낸 비디오 클립 설명의 생성 방법의 플로우 차트이다. 도 2에 나타낸 바와 같이, 본 실시예의 비디오 클립 설명의 생성 방법은 구체적으로 아래와 같은 단계를 포함할 수 있다.

S201에 있어서, 사전 훈련된 비디오 설명 모델 중의 비디오 클립 제안 모듈을 이용하여 분석 대기 비디오 중에서 복수의 비디오 제안 클립을 추출한다.

S202에 있어서, 비디오 설명 모델 중의 비디오 클립 선별 모듈을 이용하여 분석 대기 비디오 중에서 취득한 복수의 비디오 제안 클립에 대해 선별을 실행하여 설명에 적합한 복수의 비디오 클립을 취득한다.

S203에 있어서, 비디오 설명 모델 중의 비디오 클립 설명 모듈을 이용하여 각 비디오 클립에 대해 설명을 실행한다.

상술한 도 1에 나타낸 실시예와 비교하면, 본 실시예에서는 비디오 설명 모델 중에 비디오 클립 제안 모듈, 비디오 클립 선별 모듈 및 비디오 클립 설명 모듈과 같은 세개의 모듈이 포함되는 예를 들었다. 또한 선택적으로, 본 실시예에 있어서, 비디오 설명 모델 중의 비디오 클립 제안 모듈, 비디오 클립 선별 모듈 및 비디오 클립 설명 모듈은, 사용하기 전에 연합 학습을 통해 얻는다.

또한 선택적으로, 본 실시예의 단계 S201의 사전 훈련된 비디오 설명 모델 중의 비디오 클립 제안 모듈을 이용하여 분석 대기 비디오 중에서 복수의 비디오 제안 클립을 추출하는 것은 구체적으로 아래와 같은 단계를 포함할 수 있다.

（a1）에 있어서, 분석 대기 비디오 중의 각 비디오 프레임을 추출한다.

（b1）에 있어서, 사전 훈련된 제1 서브 모델, 제2 서브 모델 및 제3 서브 모델 중의 적어도 하나를 이용하여, 각 비디오 프레임 중의 비디오 프레임 특징을 각각 추출하여 대응하는 비디오 프레임 특징 시퀀스를 얻되, 합계 적어도 하나의 비디오 프레임 특징 시퀀스를 얻는다.

예를 들면, 본 실시예의 제1 서브 모델, 제2 서브 모델 및 제3 서브 모델은 각각 Kinetics 데이터 세트를 이용하여 사전 훈련된 I3D-rgb 모델, I3D-flow 모델 및 시간대 네트워크 （Temporal Segment Networks; TSN） 모델이다.

본 실시예에 있어서, 세개의 서브 모델 중의 적어도 하나를 선택하여, 각 비디오 프레임의 비디오 특징을 추출할 수 있다. 동일한 하나의 비디오의 경우, 그 중의 한 종류의 서브 모델을 이용하여 비디오에서 선후 순서에 따라 배열한 각 비디오 프레임에 대해 비디오 프레임 특징을 각각 추출하여, 당해 비디오의 비디오 프레임 특징 시퀀스를 구성한다. 선택한 각 서브 모델에 대해, 모두 대응하는 하나의 비디오 프레임 특징 시퀀스를 얻을 수 있다. 예를 들면, 세개의 서브 모델을 선택하였으면, 이에 따라 세개의 비디오 프레임 특징 시퀀스를 얻는다.

（c1）에 있어서, 각 비디오 프레임 특징 시퀀스에 대해 사전 훈련된 신뢰도 통계 모델을 이용하여 대응하는 클립 신뢰도 맵을 취득하되, 합계 적어도 한 종류의 클립 신뢰도 맵을 얻는다.

본 실시예에 있어서, 각 비디오 프레임 특징 시퀀스에 대해 또한 사전 훈련된 신뢰도 통계 모델을 이용하여 비디오 프레임 특징 시퀀스를 당해 신뢰도 통계 모델에 입력할 수 있으며, 당해 신뢰도 통계 모델에 의해 당해 비디오 중의 모든 클립의 신뢰도 맵이 출력될 수 있다. 예를 들면, 하나의 비디오가 1000 프레임일 경우, 포함할 수 있는 모든 비디오 클립은 1~2 프레임, 1~3 프레임 …… 1~1000 프레임, 2~3 프레임, 2~4 프레임 …… 2~1000 프레임, 3~4 프레임, 3~5 프레임 …… 3~1000 프레임, 등등, 999~1000 프레임일 수 있다. 당해 신뢰도 통계 모델은 당해 분석 대기 비디오의 모든 비디오 프레임의 특징에 기반하여, 당해 비디오 중의 모든 클립의 신뢰도를 생성할 수 있다. 당해 신뢰도 통계 모델은 경계 매칭 네트워크 （Boundary~Matching Network; BMN）모델을 이용하여 실현될 수 있다.

（d1）에 있어서, 적어도 한 종류의 클립 신뢰도 맵에 기반하여 분석 대기 비디오 중의 복수의 비디오 제안 클립을 취득한다.

한 종류의 클립 신뢰도 맵만을 포함할 경우, 한 종류의 서브 모델만을 선택했음을 나타내며, 이 경우 클립 신뢰도 맵 중의 각 비디오 클립의 신뢰도에 기반하여 신뢰도 상위 N개 비디오 클립을 취득하여 대응하는 비디오 제안 클립으로 간주할 수 있다.

각 비디오 클립의 신뢰도를 내림차순으로 배열한 후, 앞에서부터 뒤로 비디오 클립의 신뢰도가 큰 상위 N개의 신뢰도를 취득하며, 또한 상위 N개의 신뢰도에 대응하는 N개의 비디오 클립을 취득하여, 복수의 비디오 제안 클립으로 간주하는 것으로 이해할 수 있다. 본 실시예의 N은 1보다 큰 양의 정수일 수 있다.

반면에, 적어도 두 종류의 클립 신뢰도 맵을 포함할 경우, 이 경우는 두 종류 이상의 서브 모델을 선택하였음을 나타내며, 이 경우 적어도 두 종류의 클립 신뢰도 맵 중의 동일한 클립의 신뢰도에 대해 가중 융합을 실행하여, 융합 후의 각 클립의 신뢰도를 얻을 수 있으며; 예를 들면, 각 종류의 서브 모델에 대응하는 클립 신뢰도 맵의 가중치가 동일할 수 있으며, 또한 각각의 중요성에 따라 서로 다를 수도 있다. 최종적으로, 융합 후의 각 클립의 신뢰도에 기반하여 신뢰도 상위 N개 비디오 클립을 취득하여 대응하는 비디오 제안 클립으로 간주한다.

동일한 원리로 융합 후의 각 비디오 클립의 신뢰도를 내림차순으로 배열한 후, 앞에서부터 뒤로 융합 후의 비디오 클립의 신뢰도가 큰 상위 N개의 신뢰도를 취득하고, 또한 상위 N개의 신뢰도 대응하는 N개의 비디오 클립을 취득하여, 복수의 비디오 제안 클립으로 간주할 수 있다. 본 실시예의 N은 1보다 큰 양의 정수일 수 있다.

취득한 각 비디오 제안 클립에 대해, 모두 당해 클립의 시작 위치 및 종료 위치를 이용하여 라벨링할 수 있다.

또한 선택적으로, 본 실시예의 단계 S202의 비디오 설명 모델 중의 비디오 클립 선별 모듈을 이용하여 분석 대기 비디오 중에서 취득한 복수의 비디오 제안 클립에 대해 선별을 실행하여 설명에 적합한 복수의 비디오 클립을 취득하는 것은 구체적으로 아래와 같은 단계를 포함할 수 있다.

（a2）에 있어서, 분석 대기 비디오의 특징을 취득한다.

예를 들면, 본 실시예의 분석 대기 비디오의 특징은, 분석 대기 비디오에서 전후 순서에 따른 각 비디오 프레임의 특징을 이어 맞추어 구성된 것일 수 있다. 반면에, 각 비디오 프레임의 특징은 상술한 단계 （b1）에서 이용한 서브 모델이 추출한 대응하는 비디오 프레임의 특징에 기반하여 얻을 수 있다. 예를 들면 상술한 단계 （b1）에서 한 종류의 서브 모델만을 이용하여 비디오 프레임의 특징을 추출할 경우, 당해 서브 모델만을 이용하여 추출한 비디오 프레임의 특징을, 비디오 특징을 이어 맞출 때 이용하려는 비디오 프레임의 특징으로 간주할 수 있다. 반면에, 상술한 단계 （b1）에서 두 종류 또는 세 종류의 서브 모델을 이용할 경우, 각 서브 모델이 추출한 비디오 프레임의 특징을 이어 맞추어, 비디오 특징을 이어 맞출 때 이용하려는 비디오 프레임의 특징으로 간주할 수 있다.

예를 들면, 본 실시예에 있어서, 각 비디오 프레임의 특징이 1*1024로 표현되고, 하나의 비디오에 100 프레임이 포함되면, 이어 맞출 때 이어 맞추어진 2차원의 비디오 특징은 100*1024의 매트릭스일 수 있다.

（b2）에 있어서, 각 비디오 제안 클립의 특징을 취득한다.

동일한 원리로 각 비디오 제안 클립에 대해, 당해 클립에서 전후 순서에 따른 각 비디오 프레임의 특징을 이어 맞추어 구성할 수 있다. 각 비디오 프레임의 특징의 경우, 상술한 단계 （a2）중의 관련 설명을 참고할 수 있기에, 여기서 반복적으로 설명하지 않는다.

（c2）에 있어서, 사전 훈련된 분류 모델, 분석 대기 비디오의 특징 및 각 비디오 제안 클립의 특징을 이용하여, 복수의 비디오 제안 클립 중에서 설명에 적합한 복수의 비디오 클립을 선별한다.

예를 들면, 복수의 비디오 제안 클립 중의 각 비디오 제안 클립에 대해, 비디오 제안 클립의 특징 및 분석 대기 비디오의 특징을 분류 모델에 입력하고, 분류 모델에 의해 출력된 확률 값을 취득하며; 이어서 출력된 확률 값이 미리 설정된 확률 임계 값보다 큰지 여부를 판단하고; 출력된 상기 확률 값이 미리 설정된 확률 임계 값보다 클 경우, 비디오 제안 클립이 설명에 적합한 비디오 클립인 것으로 확정하여, 상술한 방식에 따라 복수의 비디오 제안 클립에 대해 선별을 실행하여, 합계 설명에 적합한 복수의 비디오 클립을 얻을 수 있다.

본 실시예의 분류 모델은 양방향 장단기 메모리 네트워크 （Long Short-Term Memory; LSTM） 및 다중 층 감지기에 기반한 분류 모델을 이용할 수 있다. 당해 분류 모델은 비디오의 특징과 비디오 제안 클립의 특징을 비교하여, 비디오와 비교적 접근하는 비디오 제안 클립을 추출하여, 설명에 적합한 비디오 클립으로 간주할 수 있다.

본 실시예의 단계 S203에서 비디오 설명 모델 중의 비디오 클립 설명 모듈을 이용하여 각 비디오 클립에 대해 설명을 실행한다. 당해 비디오 클립 설명 모듈에서, Kinetics 데이터 세트 상에서 사전 훈련된 senet152-TSN 모델을 이용하여 비디오 클립 중의 각 비디오 프레임의 특징을 추출한 후, 각 비디오 프레임의 특징을 비디오 클립에서의 선후 순서에 따라 차례로 양방향 LSTM 인코더 및 LSTM 언어 디코더에 입력하며, 양방향 LSTM인코더 및 LSTM 언어 디코더에 의해 당해 비디오 클립의 설명이 생성되어 출력된다. 하나의 비디오에 설명에 적합한 복수의 비디오 클립이 포함되면, 상술한 방식에 따라 대응하게 복수의 비디오 클립의 설명을 얻을 수 있다. 분석 대기 비디오 중의 복수의 비디오 클립의 설명을 당해 비디오의 콘텐츠의 전반적 설명로 간주하여, 당해 비디오의 정보를 나타낼 수 있다.

본 실시예의 비디오 클립 설명의 생성 방법은, 상술한 비디오 설명 모델 중의 각 모듈을 이용하여 실현되며, 따라서, 본 실시예를 비디오 설명 모델의 이용 방법이라고도 칭할 수 있다.

상술한 실시예의 비디오 클립 설명의 생성 방법, 비디오 클립 선별 모듈을 이용하여 분석 대기 비디오 중에서 취득한 복수의 비디오 제안 클립에 대해 선별을 실행하여 설명에 적합한 복수의 비디오 클립을 취득하는 단계; 및 그 다음 다시 비디오 클립 설명 모듈을 이용하여 각 비디오 클립에 대해 설명을 실행함으로써, 모든 비디오 제안 클립에 대해 설명을 실행하는 것을 피면할 수 있고, 선별 후의 비디오와의 관련성이 비교적 강하며 또한 설명에 적합한 비디오 클립에만 대해 설명을 실행할 수 있으며, 설명에 적합하지 않는 비디오 클립의 설명의 비디오 설명에 대한 간섭을 제거하여 최종의 비디오 클립 설명의 정확성을 보증하였고, 비디오 클립 설명의 질량을 향상시켰다. 뿐만 아니라, 비디오 클립 선별 모듈을 도입하여 비디오 클립에 대해 선별을 실행하기에, 비디오 제안 클립으로 하여금 비디오의 리콜에 더욱 집중하도록 할 수 있으며, 더욱 다양화된 비디오 클립을 취득하는데 도움이 되며, 후속의 비디오 클립 설명의 다양화를 향상시킬 수 있다.

또한, 상술한 실시예에 있어서, 비디오 설명 모델 중의 각 모듈에 대해 사전 연합 학습을 실행함으로써, 종래 설명에서 각 모델을 독립적으로 훈련하여 모델 사이에 부적용성이 존재함으로 하여 비디오 클립 설명이 부정확한 설명 문제를 피면할 수 있다. 비디오 설명 모델 중의 각 모듈에 대해 사전 연합 학습을 실행하기에, 비디오 설명 모델 중의 각 모듈 사이의 호환성을 효과적으로 보증할 수 있고, 훈련 및 응용의 일치성을 보증할 수 있으며, 훈련할 때 효과가 좋으나 응용할 때 효과가 이상적이지 못한 정황이 발생하지 않기에, 응용할 때의 전반적 효과의 향상을 보증할 수 있으며, 비디오 클립 설명의 질량 및 비디오 클립 설명의 정확성을 효과적으로 향상시킬 수 있다.

또한, 상술한 실시예의 비디오 클립 설명의 생성 방법 중, 사전 훈련된 제1 서브 모델, 제2 서브 모델 및 제3 서브 모델 중의 적어도 하나를 이용하여, 적어도 하나의 비디오 프레임 특징 시퀀스를 취득하고; 사전 훈련된 신뢰도 통계 모델을 이용하여 적어도 한 종류의 클립 신뢰도 맵을 취득하고; 적어도 한 종류의 클립 신뢰도 맵에 기반하여 분석 대기 비디오 중의 복수의 비디오 제안 클립을 취득함으로써, 당해 방안은 제안 클립의 리콜에 더욱 집중하기에, 더욱 다양화된 비디오 제안 클립을 취득할 수 있으며, 비디오 제안 클립의 완전성 및 다양성을 보증하고, 후속의 더욱 전면적이고 정확한 비디오 클립의 설명의 취득에 도움이 된다.

또한, 상술한 실시예에 있어서, 적어도 두 종류의 서브 모델을 이용하여 대응하는 비디오 프레임 특징 시퀀스를 취득하고, 대응하는 클립 신뢰도 맵을 취득하며, 적어도 두 종류의 클립 신뢰도 맵 중의 동일한 클립의 신뢰도에 대해 가중 융합을 실행하여 융합 후의 각 클립의 신뢰도를 얻을 수 있음으로써, 융합 후의 각 클립의 신뢰도에 기반하여 비디오 제안 클립을 추출할 경우의 비디오 제안 클립의 질량을 보증할 수 있고, 또한 설명에 적합한 비디오 클립의 질량을 보증할 수 있으며, 최종의 비디오 설명의 정확성을 효과적으로 향상시킬 수 있다.

뿐만 아니라, 상술한 실시예에 있어서, 사전 훈련된 분류 모델, 분석 대기 비디오의 특징 및 각 비디오 제안 클립의 특징을 이용하여 복수의 비디오 제안 클립 중에서 설명에 적합한 복수의 비디오 클립을 선별할 수 있음으로써, 비디오와 관련성 제일 강한 비디오 제안 클립을 선별하여 설명에 적합한 비디오 클립으로 간주할 수 있고, 비디오 설명의 정확성을 효과적으로 향상시킬 수 있으며, 비디오 설명의 질량을 보증할 수 있다.

도 3은 본 발명의 제3 실시예에 나타낸 비디오 설명 모델의 훈련 방법의 플로우 차트이다. 도 3에 나타낸 바와 같이, 본 실시예의 비디오 설명 모델의 훈련 방법은 구체적으로 아래와 같은 단계를 포함할 수 있다.

S301에 있어서, 비디오 설명 모델 중의 비디오 클립 선별 모듈 및 비디오 클립 설명 모듈에 대해 각각 독립적으로 사전 훈련을 실행한다.

S302에 있어서, 사전 훈련을 거친 후의 비디오 클립 선별 모듈 및 비디오 클립 설명 모듈에 대해 연합 학습을 실행한다.

이에 대응되게, 비디오 설명 모델 중에 비디오 클립 제안 모듈이 더 포함될 경우, 대응되게 비디오 설명 모델의 훈련 방법은 구체적으로 도 4에 나타낸 제4 실시예의 비디오 설명 모델의 훈련 방법의 플로우 차트와 같이, 구체적으로 아래와 같은 단계를 포함할 수 있다.

S401에 있어서, 비디오 설명 모델 중의 비디오 클립 제안 모듈, 비디오 클립 선별 모듈 및 비디오 클립 설명 모듈에 대해 각각 독립적으로 사전 훈련을 실행한다.

S402에 있어서, 사전 훈련을 거친 후의 비디오 클립 제안 모듈, 비디오 클립 선별 모듈 및 비디오 클립 설명 모듈에 대해 연합 학습을 실행한다.

예를 들면, 비디오 클립에 대해 제안 모듈, 비디오 클립 선별 모듈 및 비디오 클립 설명 모듈에 대해 연합 학습을 실행하는 과정에서, 세개의 모듈이 각각 훈련될 때까지 비디오 클립 제안 모듈, 비디오 클립 선별 모듈 및 비디오 클립 설명 모듈 중의 임의의 두개를 차례로 그대로 유지하며, 강화학습 방법을 통해 그 중의 나머지 세번째 모듈을 훈련할 수 있다.

예를 들면, 본 실시예의 단계 S401의 비디오 설명 모델 중의 비디오 클립 제안 모듈, 비디오 클립 선별 모듈 및 비디오 클립 설명 모듈에 대해 각각 독립적으로 사전 훈련을 실행하는 것은 구체적으로 아래와 같은 단계를 포함할 수 있다.

（a3）에 있어서, 인위적으로 라벨링한 훈련 비디오 중의 클립의 시작점과 종료점을 이용하여, 비디오 클립 제안 모듈을 독립적으로 훈련한다.

구체적으로, 훈련하기 전에, 사전에 복수의 훈련 비디오를 수집할 수 있다. 인위적으로 각 훈련 비디오에 대해 복수의 비디오 제안 클립의 시작점과 종료점을 라벨링할 경우, 대응하는 인위적으로 라벨링한 비디오 제안 클립의 신뢰도는 모두 1이다. 훈련할 때, 상술한 단계 （a1）~（d1）에 따라 수행하여, 비디오 클립 제안 모듈이 예측한 최종의 클립 신뢰도 맵을 취득한 후; 예측한 클립 신뢰도 맵 중의 인위적으로 라벨링한 복수의 비디오 제안 클립의 신뢰도가 모두 1인지 여부를 판단하며, 모두 1이 아닐 경우, 신뢰도 통계 모델 즉 BMN모델의 매개 변수를 조정하여, 예측한 클립 신뢰도 맵 중의 인위적으로 라벨링한 복수의 비디오 제안 클립의 신뢰도의 값이 1에 접근해지도록 한다. 상술한 방식에 따라, 복수의 훈련 비디오를 이용하여, 끊임없이 비디오 클립에 대해 제안 모델 훈련하되, 구체적으로, 연속적인 미리 설정된 라운드 수의 훈련 중에서 예측한 클립 신뢰도 맵 중의 인위적으로 라벨링한 복수의 비디오 제안 클립의 신뢰도가 항상 1이 될 때까지, 비디오 클립 제안 모듈 중의 BMN모델에 대해 훈련을 실행한다. 이 경우, BMN모델의 매개 변수를 확정하고, BMN모델을 확정하며, 또한 비디오 클립 제안 모듈을 확정한다. 여기서 연속적인 미리 설정된 라운드 수는 연속적인 100, 200, 300 또는 기타 정수의 라운드 수일 수 있다.

상술한 단계 （a1）~（d1）를 통해, 비디오 클립 제안 모듈 중에 당해 BMN모델이 포함될 뿐만 아니라, I3D-rgb 모델, I3D-flow 모델 및 TSN 모델 중의 적어도 하나가 더 포함될 수 있음을 알 수 있다는 것을 설명할 필요가 있다. 그러나, 본 실시예에 있어서, I3D-rgb 모델, I3D-flow 모델 및 TSN 모델은 모두 사전에 Kinetics 데이터 세트를 통해 사전 훈련하여 얻은 것이며, 비디오 클립 제안 모듈을 훈련할 때, 당해 BMN모델만을 훈련할 필요가 있으며, I3D-rgb 모델, I3D-flow 모델 및 TSN 모델을 더 훈련할 필요가 없다.

비디오 클립 제안 모듈에 대한 훈련을 통해, 고정된 수의 N개의 제안 클립에서의 리콜을 최대화할 수 있다.

（b3）에 있어서, 복수의 훈련 비디오 중의 각 훈련 비디오의 N개의 비디오 제안 클립 중의 K개의 설명에 적합한 비디오 클립을 수동(인공적)으로 라벨링함으로써, 비디오 클립 선별 모듈을 독립적으로 훈련한다.

구체적으로, 훈련하기 전에, 사전에 복수의 훈련 비디오를 수집할 수 있다. 상술한 실시예의 방식에 따라, 각 훈련 비디오 중에서 N개의 비디오 제안 클립을 추출하여, 그 중의 신뢰도가 제일 높은 K개의 클립을 설명에 적합한 클립으로 간주하여 라벨링할 수 있다. 훈련할 때, 상술한 실시예의 단계 （a2）~（c2）의 방식에 따라, N개의 비디오 제안 클립 중에서 설명에 적합한 K개의 비디오 클립을 선별한다. 그 다음 선별해 낸 K개의 비디오 클립과 사전 라벨링한 것이 일치한지 여부를 비교하며, 일치하지 않을 경우, 분류 모델 즉 양방향 LSTM 및 다중 층 감지기에 기반한 분류 모델의 매개 변수를 조정함으로서, 예측한 것과 라벨링한 것이 일치해지도록 한다. 복수의 훈련 비디오의 정보를 이용하여, 상술한 방식에 따라, 연속적인 미리 설정된 라운드 수의 훈련 중에서 예측한 것과 라벨링한 것이 항상 일치할 때까지, 끊임없이 양방향 LSTM 및 다중 층 감지기에 기반한 분류 모델에 대해 훈련을 실행한다. 양방향 LSTM 및 다중 층 감지기에 기반한 분류 모델의 매개 변수를 확정하고, 양방향 LSTM 및 다중 층 감지기에 기반한 분류 모델을 확정하며, 비디오 클립 선별 모듈을 확정한다.

（c3）에 있어서, 수동으로 라벨링한 복수의 훈련 비디오 중의 각 훈련 비디오 중의 K개의 클립의 설명을 이용하여 비디오 클립 설명 모듈을 독립적으로 훈련한다.

구체적으로 최대 우도 추정 (Maximum Likelihood Estimate; MLE) 방법에 따라 비디오 클립 설명 모듈을 훈련한다. 구체적으로, 훈련할 때 상술한 단계 S203의 방식에 따라, 생성한 설명 중의 각 단어와 인위적으로 라벨링한 대응하는 단어의 확률을 비교하며, 차이가 비교적 클 경우, 비디오 클립 설명 모듈의 매개 변수를 조정함으로써, 생성한 설명이 인위적인 설명에 접근해지도록 한다.

상술한 실시예로부터 알 수 있듯이, 본 실시예의 비디오 클립 설명 모듈은 senet152-TSN 모델 및 양방향 LSTM 인코더와 LSTM 언어 디코더를 포함하나, senet152-TSN 모델은 사전에 Kinetics데이터 세트를 이용하여 훈련된 것이다. 반면에, 비디오 클립 설명 모듈은 훈련할 때 양방향 LSTM 인코더와 LSTM 언어 디코더의 매개 변수만을 조정할 필요가 있다.

상술한 단계 （a3）~（c3）는 세개의 모듈의 독립적인 훈련이다. 그러나, 실제 응용에 있어서, 훈련과 응용의 일치를 위하여, 본 실시예에서는 세개의 모듈에 대해 독립적인 훈련을 실행한 후, 다시 연합 학습을 실행함으로써, 훈련 후의 비디오 설명 모델이 응용 장면에 더욱 적합하도록 하여 응용할 때의 효과를 보증한다.

예를 들면, 단계 S402에서 사전 훈련을 거친 후의 비디오 클립 제안 모듈, 비디오 클립 선별 모듈 및 비디오 클립 설명 모듈에 대해 연합 학습을 실행하는 것은, 구체적으로 아래와 같은 단계를 포함할 수 있다.

（a4）에 있어서, 비디오 설명 모델 중의 비디오 클립 제안 모듈 및 비디오 클립 선별 모듈을 고정하고, 비디오 METEOR 점수를 reward로 하여, 강화학습 방법을 통해 비디오 설명 생성 모듈을 훈련한다.

（b4）에 있어서, 비디오 설명 모델 중의 비디오 클립 선별 모듈 및 비디오 설명 생성 모듈을 고정하고, 비디오 METEOR 점수를 reward로 하여, 강화학습 방법을 통해 비디오 클립 제안 모듈을 훈련한다.

（c4）에 있어서, 비디오 설명 모델 중의 비디오 클립 제안 모듈 및 비디오 설명 생성 모듈을 고정하고, 비디오 METEOR 점수를 reward로 하여, 강화학습 방법을 통해 비디오 클립 선별 모듈을 훈련한다.

비디오 METEOR 점수가 제일 커질때까지, 상술한 단계 （a4）~（c4）를 중복하여, 훈련을 종료한다.

본 실시예의 단계 （a4）~（c4）는 상술한 단계 （a3）~（c3） 뒤에 있으며, 이 경우 비디오 클립 제안 모듈, 비디오 클립 선별 모듈 및 비디오 설명 생성 모듈은 모두 독립적인 사전 훈련을 거친다.

본 실시예의 Meteor점수는, 비디오 설명 생성 모듈이 설명에 적합한 복수의 비디오 클립에 대해 생성한 설명에 기반하여 얻은 하나의 비디오의 전반적 점수이다. 예를 들면, Meteor 0.5 IOU에 기반하여 계산하여 얻은 각 비디오의 Meteor점수이며, 본 실시예의 단계 （a4）~（c4）의 훈련 과정은 Meteor 점수가 수렴되는 것을 훈련의 종료 조건으로 한다.

구체적으로, 훈련할 때, 각 훈련 비디오를 비디오 설명 모델에 입력하며, 이 경우 비디오 클립 제안 모듈, 비디오 클립 선별 모듈 처리 및 비디오 설명 생성 모듈의 처리를 거친 후, 당해 훈련 비디오의 복수의 설명에 적합한 비디오 클립의 설명을 출력할 수 있다. 이 경우 Meteor 0.5 IOU에 따라, 취득한 복수의 비디오 클립의 설명에 기반하여 당해 비디오의 Meteor점수를 계산할 수 있다. 동시에, 현재의 Meteor점수가 이전의 훈련 비디오를 계산 얻은 Meteor점수와 비교하여 커지는 방향으로 수렴해졌는지 여부를 판단한다. 예를 들면, 단계 （a4）의 훈련에서, 수렴되지 않았을 경우, 비디오 클립 제안 모듈 및 비디오 클립 선별 모듈의 매개 변수를 그대로 고정하고, 비디오 설명 생성 모듈의 매개 변수를 조정함으로써, 계산하여 얻은 Meteor점수가 계속 커지는 방향에 수렴해지도록 한다. 단계 （b4）의 훈련에서, 수렴되지 않았을 경우, 비디오 클립 선별 모듈 및 비디오 설명 생성 모듈의 매개 변수를 그대로 고정하고, 비디오 클립 제안 모듈의 매개 변수를 조정함으로써, 계산하여 얻은 Meteor점수가 계속 커지는 방향에 수렴해지도록 한다. 단계 （c4）의 훈련에서, 수렴되지 않았을 경우, 비디오 클립 제안 모듈 및 비디오 설명 생성 모듈의 매개 변수를 그대로 고정하고, 비디오 클립 선별 모듈의 매개 변수를 조정함으로써, 계산하여 얻은 Meteor점수가 계속 커지는 방향에 수렴해지도록 한다.

실제 응용에 있어서, 상술한 단계 （a4）에서 비디오 설명 생성 모듈을 훈련한 후, 비디오 METEOR 점수가 수렴된 후, 단계 （b4）를 수행 하며, 단계 （b4）에서 비디오 클립 제안 모듈을 훈련한 후, 비디오 METEOR 점수가 수렴된 후, 단계 （c4）를 수행하며, 단계 （c4）에서 비디오 클립 선별 모듈을 훈련한 후, 비디오 METEOR 점수가 수렴된 후, 이 경우에는 훈련 후의 각 단계의 비디오의 METEOR 점수가 여전히 수렴되어 세개의 모듈의 매개 변수를 모두 다시 조정할 필요가 없을 때까지 단계 （a4）, （b4） 및 （c4）로 되돌아가서 계속 훈련할 필요가 있다. 세개의 모듈의 매개 변수를 모두 다시 조정할 필요가 없을 경우, 연합 학습이 종료되며, 비로소 비디오 클립 제안 모듈, 비디오 클립 선별 모듈 처리 및 비디오 설명 생성 모듈의 매개 변수가 확정된다.

실제 응용에 있어서, 상술한 단계 （a4）~（c4）의 실시 선후 순서는 기타일 수도 있는 바, 이에 대해 한정하지 않는다.

상술한 실시예에 있어서, 모두 비디오 설명 모델 중에 비디오 클립 제안 모듈, 비디오 클립 선별 모듈 및 비디오 클립 설명 모듈과 같은 세개의 모듈이 포함되는 예를 들어 비디오 설명 모델의 훈련을 설명하였다. 그러나, 실제 응용에서 인공 방식을 통해 비디오 중의 제안 클립을 추출할 경우, 비디오 클립 제안 모듈이 없되, 비디오 설명 모델 중에는 비디오 클립 선별 모듈 및 비디오 클립 설명 모듈만 포함된다. 그 실현 원리는 동일한 바, 여기서 반복적으로 설명하지 않는다.

상술한 실시예의 비디오 설명 모델의 훈련 방법에 따르면, 비디오 설명 모델 중의 각 모듈에 대해 독립적으로 사전 훈련을 실행할 뿐만 아니라, 또한 각 모듈에 대해 연합 학습을 실행함으로써, 독립적으로만 훈련한 후 응용과 훈련의 불일치를 초래하여 비디오 클립 설명이 부정확한 문제가 발생하는 것을 피면하며, 비디오 클립 설명의 정확성과 설명의 질량을 효과적으로 향상시킬 수 있다.

도 5는 본 발명의 제5 실시예에 나타낸 비디오 클립 설명의 생성 장치의 구조도이다. 도 5에 나타낸 바와 같이, 본 실시예의 비디오 클립 설명의 생성 장치(500)는,

분석 대기 비디오 중에서 취득한 복수의 비디오 제안 클립에 대해 선별을 실행하여 설명에 적합한 복수의 비디오 클립을 취득하기 위한 비디오 클립 선별 모듈(501); 및

각 비디오 클립에 대해 설명을 실행하기 위한 비디오 클립 설명 모듈(502)을 구비한다.

본 실시예의 비디오 클립 설명의 생성 장치가 바로 상술한 실시예의 비디오 설명 모델이다.

또한 선택적으로, 본 실시예의 비디오 클립 설명의 생성 장치(500)에서, 비디오 설명 모델 중의 비디오 클립 선별 모듈(501)과 비디오 클립 설명 모듈(502)은 연합 학습을 통해 얻는다.

또한 선택적으로, 본 실시예의 비디오 클립 설명의 생성 장치(500)는,

분석 대기 비디오 중에서 복수의 비디오 제안 클립을 추출하기 위한 비디오 클립 제안 모듈(503); 또는

인공 방식을 통해 분석 대기 비디오 중에서 추출한 복수의 비디오 제안 클립을 취득하기 위한 취득 모듈(504)을 더 구비하고,

또한, 비디오 클립 제안 모듈(503)을 더 포함할 경우, 비디오 클립 제안 모듈(503), 비디오 클립 선별 모듈(501) 및 비디오 클립 설명 모듈(502)은 연합 학습을 통해 얻는다.

또한 선택적으로, 본 실시예의 비디오 클립 설명의 생성 장치(500)에서, 비디오 클립 제안 모듈(503)은 구체적으로,

분석 대기 비디오 중의 각 비디오 프레임을 추출하고;

사전 훈련된 제1 서브 모델, 제2 서브 모델 및 제3 서브 모델 중의 적어도 하나를 이용하여, 각 비디오 프레임 중의 비디오 프레임 특징을 각각 추출하여 대응하는 비디오 프레임 특징 시퀀스를 얻되, 합계 적어도 하나의 비디오 프레임 특징 시퀀스를 얻으며;

각 비디오 프레임 특징 시퀀스에 대해 사전 훈련된 신뢰도 통계 모델을 이용하여 대응하는 클립 신뢰도 맵을 취득하되, 합계 적어도 한 종류의 클립 신뢰도 맵을 얻고; 및

적어도 한 종류의 클립 신뢰도 맵에 기반하여 분석 대기 비디오 중의 복수의 비디오 제안 클립을 취득한다.

한 종류의 클립 신뢰도 맵만을 포함할 경우, 클립 신뢰도 맵 중의 각 비디오 클립의 신뢰도에 기반하여 신뢰도 상위 N개 비디오 클립을 취득하여 대응하는 비디오 제안 클립으로 간주하고;

적어도 두 종류의 클립 신뢰도 맵을 포함할 경우, 적어도 두 종류의 클립 신뢰도 맵 중의 동일한 클립의 신뢰도에 대해 가중 융합을 실행하여, 융합 후의 각 클립의 신뢰도를 얻고; 융합 후의 각 클립의 신뢰도에 기반하여 신뢰도 상위 N개 비디오 클립을 취득하여 대응하는 비디오 제안 클립으로 간주한다.

또한 선택적으로, 본 실시예의 비디오 클립 설명의 생성 장치(500)에서, 비디오 클립 선별 모듈(502)은 구체적으로,

분석 대기 비디오의 특징을 취득하고;

각 비디오 제안 클립의 특징을 취득하며;

사전 훈련된 분류 모델, 분석 대기 비디오의 특징 및 각 비디오 제안 클립의 특징을 이용하여 복수의 비디오 제안 클립 중에서 설명에 적합한 복수의 비디오 클립을 선별한다.

복수의 비디오 제안 클립 중의 각 비디오 제안 클립에 대해, 비디오 제안 클립의 특징 및 분석 대기 비디오의 특징을 분류 모델에 입력하고, 분류 모델에 의해 출력된 확률 값을 취득하며;

출력된 확률 값이 미리 설정된 확률 임계 값보다 큰지 여부를 판단하고;

출력된 상기 확률 값이 미리 설정된 확률 임계 값보다 클 경우, 비디오 제안 클립이 설명에 적합한 비디오 클립인 것으로 확정하여, 합계 설명에 적합한 복수의 비디오 클립을 얻는다.

본 실시예의 비디오 클립 설명의 생성 장치는, 상술한 모듈을 이용하여 비디오 클립 설명의 실현 원리 및 설명 효과를 실현하며, 이는 상술한 관련 방법 실시예의 실현과 동일하므로, 세부 사항은 상술한 관련 방법 실시예의 기재를 참고할 수 있기에, 여기서 반복적으로 설명하지 않는다.

도 6은 본 발명의 제6 실시예에 나타낸 비디오 설명 모델의 훈련 장치의 구조도이다. 도 6에 나타낸 바와 같이, 본 실시예의 비디오 설명 모델의 훈련 장치(600)는,

비디오 설명 모델 중의 비디오 클립 선별 모듈 및 비디오 클립 설명 모듈에 대해 각각 독립적으로 사전 훈련을 실행하기 위한 독립 훈련 모듈(601); 및

사전 훈련을 거친 후 얻은 비디오 클립 선별 모듈 및 비디오 클립 설명 모듈에 대해 연합 학습을 실행하기 위한 연합 학습 모듈(602)을 구비한다.

또한 선택적으로, 비디오 설명 모델 중에 비디오 클립 제안 모듈이 더 포함될 경우,

독립 훈련 모듈(601)은 비디오 설명 모델 중의 비디오 클립 제안 모듈에 대해 독립적으로 사전 훈련을 실행하고;

연합 학습 모듈(602)은 사전 훈련을 거친 후의 비디오 클립 제안 모듈, 비디오 클립 선별 모듈 및 비디오 클립 설명 모듈에 대해 연합 학습을 실행한다.

또한 선택적으로, 연합 학습 모듈(602)은,

세개의 모듈이 모두 훈련될 때까지, 비디오 클립 제안 모듈, 비디오 클립 선별 모듈 및 비디오 클립 설명 모듈 중의 임의의 두개를 차례로 그대로 유지하며, 강화학습 방법을 통해 그 중의 세번째 모듈을 훈련한다.

본 실시예의 비디오 설명 모델의 훈련 장치(600)는, 상술한 모듈을 이용하여 비디오 설명 모델의 훈련의 실현 원리 및 설명 효과를 실현하며, 이는 상술한 관련 방법 실시예의 실현과 동일하므로, 세부 사항은 상술한 관련 방법 실시예의 기재를 참고할 수 있기에, 여기서 반복적으로 설명하지 않는다.

본 발명에 따른 실시예에 따르면, 본 발명은 전자 기기 및 판독 가능 기록 매체를 더 제공한다.

도 7은 본 발명에 따른 실시예의 실현 상술한 방법의 전자 기기의 블럭도이다. 전자 기기는 예를 들면 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인 디지털 보조기, 서버, 블레이드 서버, 대형 컴퓨터 및 기타 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타낸다. 전자 기기 또한 예를 들면 개인 디지털 처리기, 셀폰, 스마트 전화, 웨어러블 기기 및 기타 유사한 계산 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수 있다. 본 명세서에 나타낸 구성 요소, 이들의 연결과 관계 및 이들의 기능은 단지 예일 뿐이며, 본 명세서에서 기술하거나 및/또는 요구하는 본 발명의 실현을 한정하려는 것이 아니다. 예를 들면, 본 실시예의 전자 기기는 상술한 비디오 클립 설명의 생성 방법을 실현하거나, 또는 상술한 비디오 설명 모델의 훈련 방법을 실현하는데 사용된다.

도 7에 나타낸 바와 같이, 당해 전자 기기는 하나 또는 복수의 프로세서(701), 메모리(702) 및 각 구성 요소를 연결하기 위한 인터페이스를 구비하며, 당해 인터페이스는 고속 인터페이스 및 저속 인터페이스를 포함한다. 각 구성 요소는 서로 다른 버스를 통해 상호 연결되며, 공통 마더 보드에 설치되거나 또는 수요에 따라 기타 방식으로 설치된다. 프로세서 전자 기기 내에서 수행되는 명령에 대해 처리를 실행할 수 있으며, 메모리 내에 기록되어 외부 입력/출력 장치 （예를 들면 인터페이스에 연결된 디스플레이 기기） 상에 GUI의 그래픽 정보를 표시하기 위한 명령을 포함한다. 기타 실시 방식에 있어서, 필요할 경우, 복수의 프로세서 및/또는 복수의 버스와 복수의 메모리를 함께 사용할 수 있다. 마찬가지로, 복수의 전자 기기를 연결할 수 있으며, 각 기기는 부분적인 필요한 조작 （예를 들면, 서버 어레이, 일 그룹의 블레이드 서버, 또는 다중 프로세서 시스템）을 제공한다. 도 7에서는 하나의 프로세서(701)의 예를 들었다.

메모리(702)는 본 발명에 의해 제공되는 비 일시적 컴퓨터 판독 가능 기록 매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기록되어 있으며, 상기 적어도 하나의 프로세서로 하여금 본 발명에 의해 제공되는 비디오 클립 설명의 생성 방법 또는 비디오 설명 모델의 훈련 방법을 수행하도록 한다. 본 발명의 비 일시적 컴퓨터 판독 가능 기록 매체는 컴퓨터 명령을 기록하며, 당해 컴퓨터 명령은 컴퓨터로 하여금 수행 본 발명에 의해 제공되는 비디오 클립 설명의 생성 방법 또는 비디오 설명 모델의 훈련 방법을 수행하도록 한다.

메모리(702)는 일종의 비 일시적 컴퓨터 판독 가능 기록 매체로서, 비 일시적 소프트웨어 프로그램을 기록하는데 사용될 수 있으되, 예를 들면 비 일시적 컴퓨터 수행 가능 프로그램 및 모듈, 본 발명 실시예의 비디오 클립 설명의 생성 방법 또는 비디오 설명 모델의 훈련 방법 대응하는 프로그램 명령/모듈 （예를 들면, 도 5에 나타낸 관련 모듈 또는 도면 6에 나타낸 관련 모듈）을 기록하는데 사용될 수 있다. 프로세서(701)는 메모리(702) 내에 기록된 비 일시적 소프트웨어 프로그램, 명령 및 모듈을 운행함으로써, 서버의 다양한 기능 응용 및 데이터 처리를 수행하되, 상술한 방법 실시예의 비디오 클립 설명의 생성 방법 또는 비디오 설명 모델의 훈련 방법을 실현한다.

메모리(702)는 프로그램 기록 영역 및 데이터 기록 영역을 포함할 수 있으며, 여기서, 프로그램 기록 영역은 운영 체제 및 적어도 하나의 기능에 필요한 응용 프로그램을 기록할 수 있고, 데이터 기록 영역은 비디오 클립 설명의 생성 방법 또는 비디오 설명 모델의 훈련 방법을 실현하는 전자 기기의 사용을 통해 생성된 데이터 등을 기록할 수 있다. 또한, 메모리(702)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 비 일시적 메모리를 더 포함할 수 있으되, 예를 들면 적어도 하나의 자기 디스크 저장 장치, 플래시 장치, 또는 기타 비 일시적 고체 저장 장치를 포함할 수 있다. 일부 실시예에 있어서, 메모리(702)는 선택적으로 프로세서(701)에 대해 원격 설치한 메모리를 포함할 수 있으며, 이러한 원격 메모리는 네트워크를 통해 비디오 클립 설명의 생성 방법 또는 비디오 설명 모델의 훈련 방법을 실현하는 전자 기기에 연결된다. 상술한 네트워크의 실시예는 인터넷, 기업 인트라 넷, 근거리 통신망, 이동 통신 네트워크 및 이들의 조합을 포함하나 이에 한정되지 않는다.

실현 비디오 클립 설명의 생성 방법 또는 비디오 설명 모델의 훈련 방법의 전자 기기는 입력 장치(703) 및 출력 장치(704)를 더 포함할 수 있다. 프로세서(701), 메모리(702), 입력 장치(703) 및 출력 장치(704)는 버스 또는 기타 방식을 통해 연결될 수 있으며, 도 7에서는 버스를 통해 연결하는 예를 들었다.

입력 장치(703)는 입력된 디지털 또는 문자 정보를 수신하고, 또한 비디오 클립 설명의 생성 방법 또는 비디오 설명 모델의 훈련 방법을 실현하는 전자 기기의 사용자 설정 및 기능 제어에 관한 키 신호 입력을 생성할 수 있다. 예를 들면 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 또는 복수의 마우스 버튼, 트랙볼, 조이스틱 등 입력 장치를 포함할 수 있다. 출력 장치(704)는 디스플레이 기기, 보조 조명 장치 （예를 들면 LED） 및 촉각 피드백 장치 （예를 들면 진동 모터） 등을 포함할 수 있다. 당해 디스플레이 기기는 액정 디스플레이 （LCD）, 발광 다이오드 （LED） 디스플레이 및 등 플라즈마 디스플레이를 포함할 수 있으나 이에 한정되지 않는다. 일부 실시 방식에 있어서, 디스플레이 기기는 터치 스크린일 수 있다.

여기서 설명하는 시스템 및 기술의 다양한 실시 방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC（전용 집적 회로）, 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 실현될 수 있다. 이러한 다양한 실시 은 하나 또는 복수의 컴퓨터 프로그램에서 실시되고, 당해 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템 상에서 수행 및/또는 해석될 수 있으며, 당해 프로그램 가능 프로세서는 전용 또는 일반 프로그램 가능 프로세서일 수 있고, 기록 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 또한 데이터 및 명령을 당해 기록 시스템, 당해 적어도 하나의 입력 장치 및 당해 적어도 하나의 출력 장치에 전송할 수 있다.

이러한 계산 프로그램 （프로그램, 소프트웨어, 소프트웨어 응용 또는 코드로도 불림）은 프로그램 가능 프로세서의 기계 명령을 포함하며, 또한 고급 과정 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어를 이용하여 이러한 계산 프로그램을 실시할 수 있다. 본 명세서에서 사용되는 “기계 판독 가능 매체” 및 “컴퓨터 판독 가능 매체”와 같은 용어는, 기계 명령 및/또는 데이터를 프로그램 가능 프로세서의 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치 （예를 들면, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치（PLD））에 제공하기 위한 것을 의미하며, 기계 판독 가능 신호로서의 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. “기계 판독 가능 신호”와 같은 용어는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.

유저와의 대화를 제공하기 위하여, 컴퓨터 상에서 여기서 설명하는 시스템 및 기술을 실시할 수 있으며, 당해 컴퓨터는 유저에게 정보를 표시하기 위한 디스플레이 장치 （예를 들면 CRT（음극선관） 또는 LCD（액정 디스플레이） 모니터） 및 키보드와 포인팅 장치（예를 들면, 마우스 또는 트랙볼）를 구비할 수 있으며, 유저는 당해 키보드 및 당해 포인팅 장치를 통해 입력을 컴퓨터에 제공할 수 있다. 기타 유형의 장치는 또한 유저와의 대화를 제공하는데 사용될 수 있다. 예를 들면, 유저에 제공하는 피드백은 임의의 형태의 감각 피드백 （예를 들면, 시각적 피드백, 청각적 피드백, 또는 촉각 피드백）일 수 있으며, 또한 임의의 형태（음향 입력, 음성 입력 또는 촉각 입력을 포함함）를 통해 유저로부터의 입력을 수신할 수 있다.

여기서 설명하는 시스템 및 기술을 백엔드 구성 요소를 포함하는 계산 시스템 （예를 들면 데이터 서버）, 또는 미들웨어 구성 요소를 포함하는 계산 시스템 （예를 들면 응용 서버）, 또는 프런트 엔드 구성 요소를 포함하는 계산 시스템 （예를 들면 그래픽 유저 인터페이스 또는 웹 브라우저를 구비하는 유저 컴퓨터인 바, 유저는 당해 그래픽 유저 인터페이스 또는 당해 웹 브라우저를 통해 여기서 설명하는 시스템 및 기술의 실시 방식과 대화함）, 또는 이러한 백엔드 구성 요소, 미들웨어 구성 요소, 또는 프런트 엔드 구성 요소의 임의의 조합을 포함하는 계산 시스템에서 실시할 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신 （예를 들면, 통신 네트워크）을 통해 시스템의 구성 요소를 상호 연결할 수 있다. 통신 네트워크의 예는 근거리 통신망 （LAN）, 광역 통신망 （WAN） 및 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있고, 또한 일반적으로 통신 네트워크를 통해 대화를 실행한다. 해당되는 컴퓨터 상에서 운행되고, 또한 클라이언트 - 서버 관계를 갖는 컴퓨터 프로그램을 통해 클라이언트와 서버의 관계를 발생시킬 수 있다.

본 발명에 따른 실시예의 기술 방안에 따르면, 비디오 클립 선별 모듈을 이용하여 분석 대기 비디오 중에서 취득한 복수의 비디오 제안 클립에 대해 선별을 실행하여 설명에 적합한 복수의 비디오 클립을 취득하고, 이어서 다시 비디오 클립 설명 모듈을 이용하여 각 비디오 클립에 대해 설명을 실행함으로써, 모든 비디오 제안 클립에 대해 설명을 실행하는 것을 피면할 수 있고, 선별 후의 비디오와의 관련성이 비교적 강하며 또한 설명에 적합한 비디오 클립에만 대해 설명을 실행할 수 있으며, 설명에 적합하지 않는 비디오 클립의 설명의 비디오 설명에 대한 간섭을 제거하여 최종의 비디오 클립 설명의 정확성을 보증하였고, 비디오 클립 설명의 질량을 향상시켰다. 뿐만 아니라, 비디오 클립 선별 모듈을 도입하여 비디오 클립에 대해 선별을 실행하기에, 비디오 제안 클립으로 하여금 비디오의 리콜에 더욱 집중하도록 할 수 있으며, 더욱 다양화된 비디오 클립을 취득하는데 도움이 되며, 후속의 비디오 클립 설명의 다양화를 향상시킬 수 있다.

또한, 본 발명에 따른 실시예의 기술 방안에 따르면, 비디오 설명 모델 중의 각 모듈에 대해 사전 연합 학습을 실행함으로써, 종래 기술에서 각 모델을 독립적으로 훈련하여 모델 사이에 부적용성이 존재함으로 인하여 비디오 클립 설명이 부정확한 설명 문제를 피면할 수 있다. 비디오 설명 모델 중의 각 모듈에 대해 사전 연합 학습을 실행하기에, 비디오 설명 모델 중의 각 모듈 사이의 호환성을 효과적으로 보증할 수 있고, 훈련 및 응용의 일치성을 보증할 수 있으며, 훈련할 때 효과가 좋으나 응용할 때 효과가 이상적이지 못한 정황이 발생하지 않기에, 응용할 때의 전반적 효과의 향상을 보증할 수 있으며, 비디오 클립 설명의 질량 및 비디오 클립 설명의 정확성을 효과적으로 향상시킬 수 있다.

또한, 본 발명에 따른 실시예의 기술 방안에 따르면, 사전 훈련된 제1 서브 모델, 제2 서브 모델 및 제3 서브 모델 중의 적어도 하나를 이용하여, 적어도 하나의 비디오 프레임 특징 시퀀스를 취득하고; 사전 훈련된 신뢰도 통계 모델을 이용하여 적어도 한 종류의 클립 신뢰도 맵을 취득하고; 적어도 한 종류의 클립 신뢰도 맵에 기반하여 분석 대기 비디오 중의 복수의 비디오 제안 클립을 취득함으로써, 당해 방안은 제안 클립의 리콜에 더욱 집중하기에, 더욱 다양화된 비디오 제안 클립을 취득할 수 있으며, 비디오 제안 클립의 완전성 및 다양성을 보증하고, 후속의 더욱 전면적이고 정확한 비디오 클립의 설명의 취득에 도움이 된다.

또한, 본 발명에 따른 실시예의 기술 방안에 따르면, 적어도 두 종류의 서브 모델을 이용하여 대응하는 비디오 프레임 특징 시퀀스를 취득하고, 대응하는 클립 신뢰도 맵을 취득하며, 적어도 두 종류의 클립 신뢰도 맵 중의 동일한 클립의 신뢰도에 대해 가중 융합을 실행하여 융합 후의 각 클립의 신뢰도를 얻을 수 있음으로써, 융합 후의 각 클립의 신뢰도에 기반하여 비디오 제안 클립을 추출할 경우의 비디오 제안 클립의 질량을 보증할 수 있고, 또한 설명에 적합한 비디오 클립의 질량을 보증할 수 있으며, 최종의 비디오 설명의 정확성을 효과적으로 향상시킬 수 있다.

뿐만 아니라, 본 발명에 따른 실시예의 기술 방안에 따르면, 사전 훈련된 분류 모델, 분석 대기 비디오의 특징 및 각 비디오 제안 클립의 특징을 이용하여 복수의 비디오 제안 클립 중에서 설명에 적합한 복수의 비디오 클립을 선별할 수 있음으로써, 비디오와 관련성 제일 강한 비디오 제안 클립을 선별하여 설명에 적합한 비디오 클립으로 간주할 수 있고, 비디오 설명의 정확성을 효과적으로 향상시킬 수 있으며, 비디오 설명의 질량을 보증할 수 있다.

본 발명에 따른 실시예의 기술 방안에 따르면, 훈련 시 비디오 설명 모델 중의 각 모듈에 대해 독립적으로 사전 훈련을 실행할 뿐만 아니라, 또한 각 모듈에 대해 연합 학습을 실행함으로써, 독립적으로만 훈련한 후 응용과 훈련의 불일치를 초래하여 비디오 클립 설명이 부정확한 문제가 발생하는 것을 피면하며, 비디오 클립 설명의 정확성과 설명의 질량을 효과적으로 향상시킬 수 있다.

상기에 나타낸 다양한 형태의 흐름을 이용하여 단계를 재정렬, 증가 또는 삭제할 수 있음을 이해해야 한다. 예를 들면, 본 발명에 기재된 각 단계는 병열로 수행되거나 또는 차례로 수행되거나 또는 다른 순서로 수행될 수 있으며, 본 발명이 개시하는 기술 방안이 원하는 결과를 실현할 수 있는 한, 본 명세서는 이에 대해 한정하지 않는다.

상술한 구체적인 실시 방식은 본 발명의 보호 범위를 한정하지 않는다. 당업자는 설계 요건 및 기타 요인에 따라 다양한 수정, 조합, 서브 조합 및 대체를 실행할 수 있음을 이해해야 한다. 본 발명의 정신 및 원칙 내에서 이루어진 임의의 수정 동등한 대체 및 개선 등은 모두 본 발명의 보호 범위 내에 포함되어야 한다.

Claims

비디오 클립 설명(description, 記述)의 생성 방법에 있어서,
비디오 설명 모델 중의 비디오 클립 선별 모듈을 이용하여 분석 대기(to be analysed) 비디오 중에서 취득한 복수의 비디오 제안 클립에 대해 선별을 실행하여 설명에 적합한 복수의 비디오 클립을 취득하는 단계;
상기 비디오 설명 모델 중의 비디오 클립 설명 모듈을 이용하여 각 비디오 클립에 대해 설명을 실행하는 단계를 포함하는
것을 특징으로 하는 방법.
제1항에 있어서,
상기 비디오 설명 모델 중의 상기 비디오 클립 선별 모듈과 상기 비디오 클립 설명 모듈은 연합 학습을 통해 얻은
것임을 특징으로 하는 방법.
제2항에 있어서,
상기 비디오 설명 모델 중의 비디오 클립 선별 모듈을 이용하여 사전 취득한 복수의 비디오 제안 클립에 대해 선별을 실행하여 설명에 적합한 복수의 비디오 클립을 취득하는 단계 전에,
사전 훈련된 상기 비디오 설명 모델 중의 비디오 클립 제안 모듈을 이용하여 상기 분석 대기 비디오 중에서 상기 복수의 비디오 제안 클립을 추출하는 단계; 또는
인공 방식을 통해 상기 분석 대기 비디오 중에서 추출한 상기 복수의 비디오 제안 클립을 취득하는 단계;
를 더 포함하며,
상기 비디오 설명 모델 중에 상기 비디오 클립 제안 모듈이 더 포함되면, 상기 비디오 설명 모델 중의 상기 비디오 클립 제안 모듈, 상기 비디오 클립 선별 모듈 및 상기 비디오 클립 설명 모듈은 연합 학습을 통해 얻은
것임을 특징으로 하는 방법.
제3항에 있어서,
상기 사전 훈련된 상기 비디오 설명 모델 중의 비디오 클립 제안 모듈을 이용하여 상기 분석 대기 비디오 중에서 상기 복수의 비디오 제안 클립을 추출하는 단계는,
상기 분석 대기 비디오 중의 각 비디오 프레임을 추출하는 단계;
사전 훈련된 제1 서브 모델, 제2 서브 모델 및 제3 서브 모델 중의 적어도 하나를 이용하여, 각 상기 비디오 프레임 중의 비디오 프레임 특징을 각각 추출하여, 대응하는 비디오 프레임 특징 시퀀스를 얻되, 합계 적어도 하나의 비디오 프레임 특징 시퀀스를 얻는 단계;
각 상기 비디오 프레임 특징 시퀀스에 대해, 사전 훈련된 신뢰도 통계 모델을 이용하여 대응하는 클립 신뢰도 맵을 취득하되, 합계 적어도 한 종류의 클립 신뢰도 맵을 얻는 단계;
상기 적어도 한 종류의 클립 신뢰도 맵에 기반하여 상기 분석 대기 비디오 중의 복수의 비디오 제안 클립을 취득하는 단계;
를 포함하는
것을 특징으로 하는 방법.
제4항에 있어서,
상기 적어도 한 종류의 클립 신뢰도 맵에 기반하여 상기 분석 대기 비디오 중의 복수의 비디오 제안 클립을 취득하는 단계는,
한 종류의 상기 클립 신뢰도 맵만을 포함하는 경우, 상기 클립 신뢰도 맵 중의 각 상기 비디오 클립의 신뢰도에 기반하여, 신뢰도 상위 N개 비디오 클립을 취득하여 대응하는 상기 비디오 제안 클립으로 간주하는 단계;
적어도 두 종류의 상기 클립 신뢰도 맵을 포함하는 경우, 상기 적어도 두 종류의 클립 신뢰도 맵 중의 동일한 클립의 신뢰도에 대해 가중 융합을 실행하여, 융합 후의 각 클립의 신뢰도를 얻고; 융합 후의 각 상기 클립의 신뢰도에 기반하여 신뢰도 상위 N개 비디오 클립을 취득하여 대응하는 상기 비디오 제안 클립으로 간주하는 단계;
를 포함하는
것을 특징으로 하는 방법.
제4항에 있어서,
상기 비디오 설명 모델 중의 비디오 클립 선별 모듈을 이용하여 상기 복수의 비디오 제안 클립에 대해 선별을 실행하여 설명에 적합한 복수의 비디오 클립을 취득하는 단계는,
상기 분석 대기 비디오의 특징을 취득하는 단계;
각 상기 비디오 제안 클립의 특징을 취득하는 단계;
사전 훈련된 분류 모델, 상기 분석 대기 비디오의 특징 및 각 상기 비디오 제안 클립의 특징을 이용하여 상기 복수의 비디오 제안 클립 중에서 설명에 적합한 상기 복수의 비디오 클립을 선별하는 단계;
를 포함하는
것을 특징으로 하는 방법.
제6항에 있어서,
상기 사전 훈련된 분류 모델, 상기 분석 대기 비디오의 특징 및 각 상기 비디오 제안 클립의 특징을 이용하여 상기 복수의 비디오 제안 클립 중에서 설명에 적합한 상기 복수의 비디오 클립을 선별하는 단계는,
상기 복수의 비디오 제안 클립 중의 각 상기 비디오 제안 클립에 대해, 상기 비디오 제안 클립의 특징 및 상기 분석 대기 비디오의 특징을 상기 분류 모델에 입력하여 상기 분류 모델에 의해 출력되는 확률 값을 취득하는 단계;
출력된 상기 확률 값이 미리 설정된 확률 임계 값보다 큰지 여부를 판단하는 단계;
출력된 상기 확률 값이 미리 설정된 확률 임계 값보다 클 경우, 상기 비디오 제안 클립이 설명에 적합한 비디오 클립인 것으로 확정함으로써, 설명에 적합한 상기 복수의 비디오 클립을 얻는 단계;
를 포함하는
것을 특징으로 하는 방법.
비디오 설명 모델의 훈련 방법에 있어서,
비디오 설명 모델 중의 비디오 클립 선별 모듈 및 비디오 클립 설명 모듈에 대해 각각 독립적으로 사전 훈련을 실행하는 단계;
사전 훈련을 거친 후의 상기 비디오 클립 선별 모듈 및 상기 비디오 클립 설명 모듈에 대해 연합 학습을 실행하는 단계;
를 포함하는
것을 특징으로 하는 방법.
제8항에 있어서,
상기 비디오 설명 모델 중에 비디오 클립 제안 모듈이 더 포함되어 있을 경우, 상기 비디오 설명 모델의 훈련 방법은,
상기 비디오 설명 모델 중의 비디오 클립 제안 모듈에 대해 독립적으로 사전 훈련을 실행하는 단계;
사전 훈련을 거친 후의 상기 비디오 클립 제안 모듈, 상기 비디오 클립 선별 모듈 및 상기 비디오 클립 설명 모듈에 대해 연합 학습을 실행하는 단계;
를 더 포함하는
것을 특징으로 하는 방법.
제9항에 있어서,
상기 사전 훈련을 거친 후의 상기 비디오 클립 제안 모듈, 상기 비디오 클립 선별 모듈 및 상기 비디오 클립 설명 모듈에 대해 연합 학습을 실행하는 단계는,
세개의 모듈이 모두 훈련될 때까지, 차례로 상기 비디오 클립 제안 모듈, 상기 비디오 클립 선별 모듈 및 상기 비디오 클립 설명 모듈 중의 임의의 두개를 그대로 유지하면서, 강화학습 방법을 통해 나머지 세번째 모듈을 훈련하는 단계;
를 포함하는
것을 특징으로 하는 방법.
비디오 클립 설명의 생성 장치에 있어서,
분석 대기 비디오 중에서 취득한 복수의 비디오 제안 클립에 대해 선별을 실행하여 설명에 적합한 복수의 비디오 클립을 취득하기 위한 비디오 클립 선별 모듈; 및
각 상기 비디오 클립에 대해 설명을 실행하기 위한 비디오 클립 설명 모듈;
을 구비하는
것을 특징으로 하는 장치.
제11항에 있어서,
상기 비디오 설명 모델 중의 상기 비디오 클립 선별 모듈과 상기 비디오 클립 설명 모듈은 연합 학습을 통해 얻은
것임을 특징으로 하는 장치.
제12항에 있어서,
상기 분석 대기 비디오 중에서 상기 복수의 비디오 제안 클립을 추출하기 위한 비디오 클립 제안 모듈; 또는
인공 방식을 통해 상기 분석 대기 비디오 중에서 추출한 상기 복수의 비디오 제안 클립을 취득하기 위한 취득 모듈;
를 더 구비하며,
상기 비디오 클립 제안 모듈을 더 포함할 경우, 상기 비디오 클립 제안 모듈, 상기 비디오 클립 선별 모듈 및 상기 비디오 클립 설명 모듈은 연합 학습을 통해 얻은
것임을 특징으로 하는 장치.
제13항에 있어서,
상기 비디오 클립 제안 모듈은 구체적으로,
상기 분석 대기 비디오 중의 각 비디오 프레임을 추출하고;
사전 훈련된 제1 서브 모델, 제2 서브 모델 및 제3 서브 모델 중의 적어도 하나를 이용하여, 각 상기 비디오 프레임 중의 비디오 프레임 특징을 각각 추출하여, 대응하는 비디오 프레임 특징 시퀀스를 얻되, 합계 적어도 하나의 비디오 프레임 특징 시퀀스를 얻으며;
각 상기 비디오 프레임 특징 시퀀스에 대해, 사전 훈련된 신뢰도 통계 모델을 이용하여 대응하는 클립 신뢰도 맵을 취득하되, 합계 적어도 한 종류의 클립 신뢰도 맵을 얻고;
상기 적어도 한 종류의 클립 신뢰도 맵에 기반하여 상기 분석 대기 비디오 중의 복수의 비디오 제안 클립을 취득하는
것을 특징으로 하는 장치.
제14항에 있어서,
상기 비디오 클립 제안 모듈은 구체적으로,
한 종류의 상기 클립 신뢰도 맵만을 포함하는 경우, 상기 클립 신뢰도 맵 중의 각 상기 비디오 클립의 신뢰도에 기반하여, 신뢰도 상위 N개 비디오 클립을 취득하여 대응하는 상기 비디오 제안 클립으로 간주하고;
적어도 두 종류의 상기 클립 신뢰도 맵을 포함하는 경우, 상기 적어도 두 종류의 클립 신뢰도 맵 중의 동일한 클립의 신뢰도에 대해 가중 융합을 실행하여, 융합 후의 각 클립의 신뢰도를 얻고; 융합 후의 각 상기 클립의 신뢰도에 기반하여 신뢰도 상위 N개 비디오 클립을 취득하여 대응하는 상기 비디오 제안 클립으로 간주하는
것을 특징으로 하는 장치.
제14항에 있어서,
상기 비디오 클립 선별 모듈은 구체적으로,
상기 분석 대기 비디오의 특징을 취득하고;
각 상기 비디오 제안 클립의 특징을 취득하며;
사전 훈련된 분류 모델, 상기 분석 대기 비디오의 특징 및 각 상기 비디오 제안 클립의 특징을 이용하여 상기 복수의 비디오 제안 클립 중에서 설명에 적합한 상기 복수의 비디오 클립을 선별하는
것을 특징으로 하는 장치.
제16항에 있어서,
상기 비디오 클립 선별 모듈은 구체적으로,
상기 복수의 비디오 제안 클립 중의 각 상기 비디오 제안 클립에 대해, 상기 비디오 제안 클립의 특징 및 상기 분석 대기 비디오의 특징을 상기 분류 모델에 입력하여 상기 분류 모델에 의해 출력되는 확률 값을 취득하고;
출력된 상기 확률 값이 미리 설정된 확률 임계 값보다 큰지 여부를 판단하며;
출력된 상기 확률 값이 미리 설정된 확률 임계 값보다 클 경우, 상기 비디오 제안 클립이 설명에 적합한 비디오 클립인 것으로 확정함으로써, 합계 설명에 적합한 상기 복수의 비디오 클립을 얻는
것을 특징으로 하는 장치.
비디오 설명 모델의 훈련 장치에 있어서,
비디오 설명 모델 중의 비디오 클립 선별 모듈 및 비디오 클립 설명 모듈에 대해 각각 독립적으로 사전 훈련을 실행하기 위한 독립 훈련 모듈; 및
사전 훈련을 거친 후 얻은 상기 비디오 클립 선별 모듈 및 상기 비디오 클립 설명 모듈에 대해 연합 학습을 실행하기 위한 연합 학습 모듈;
을 구비하는
것을 특징으로 하는 장치.
제18항에 있어서,
상기 비디오 설명 모델 중에 비디오 클립 제안 모듈이 더 포함되어 있을 경우:
상기 독립 훈련 모듈은, 상기 비디오 설명 모델 중의 비디오 클립 제안 모듈에 대해 독립적으로 사전 훈련을 실행하고;
상기 연합 학습 모듈은, 사전 훈련을 거친 후의 상기 비디오 클립 제안 모듈, 상기 비디오 클립 선별 모듈 및 상기 비디오 클립 설명 모듈에 대해 연합 학습을 실행하는
것을 특징으로 하는 장치.
제19항에 있어서,
상기 연합 학습 모듈은,
세개의 모듈이 모두 훈련될 때까지, 차례로 상기 비디오 클립 제안 모듈, 상기 비디오 클립 선별 모듈 및 상기 비디오 클립 설명 모듈 중의 임의의 두개를 그대로 유지하면서, 강화학습 방법을 통해 나머지 세번째 모듈을 훈련하는
것을 특징으로 하는 장치.
전자 기기에 있어서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결된 메모리를 구비하며,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기록되어 있으며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서로 하여금 제1항 내지 제7항 또는 제8항 내지 제10항 중 어느 한 항에 기재된 방법을 수행하도록 하는
것을 특징으로 하는 전자 기기.
컴퓨터 명령이 기록되어 있는 비 일시적 컴퓨터 판독 가능 기록 매체에 있어서,
상기 컴퓨터 명령은 상기 컴퓨터로 하여금 제1항 내지 제7항 또는 제8항 내지 제10항 중 어느 한 항에 기재된 방법을 수행하도록 하는
것을 특징으로 하는 기록 매체.