KR20200099568A

KR20200099568A - 비디오에서 목표 비디오 클립의 위치를 결정하는 방법 및 장치

Info

Publication number: KR20200099568A
Application number: KR1020207020617A
Authority: KR
Inventors: 동량 허; 샹 자오; 지조우 황; 푸 리; 샤오 리우; 쉬레이 웬
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2018-12-05
Filing date: 2018-12-05
Publication date: 2020-08-24
Also published as: JP2021524072A; US11410422B2; WO2020113468A1; CN111480166B; CN111480166A; KR102360584B1; US20200320303A1; JP7126549B2

Abstract

본 출원은 비디오에서 목표 비디오 클립의 위치를 결정하는 방법 및 장치를 제공한다. 상기 방법의 일 실시예는, 비디오에서 현재 위치를 기반으로 현재 비디오 클립을 확정하고; 사전 생성된 목표 비디오 클립의 기술 특징을 표시하는 기술 정보를 획득하고, 목표 비디오 클립 확정 단계를 실행하는 것을 포함한다. 상기 확정 단계는 현재 비디오 클립의 특징을 표시하는 정보를 포함하는 현재 비디오 클립의 현재 상태 정보를 확정하는 것과, 상기 기술 정보와 상기 현재 상태 정보를 기반으로 현재 액션 정책을 생성하는 것을 포함하며, 상기 현재 액션 정책은 비디오에서 현재 비디오 클립의 위치 변화를 표시하고; 상기 방법은 미리 설정된 조건에 도달하는 것에 응답하여, 현재 비디오 클립에 대해 현재 액션 정책을 수행하여 획득한 비디오 클립을 목표 비디오 클립으로 사용하는 것을 더 포함한다. 상기 실시예에 의해 비디오에서 미리 설정된 기술 정보에 매칭되는 목표 비디오 클립의 위치를 결정할 수 있다.

Description

비디오에서 목표 비디오 클립의 위치를 결정하는 방법 및 장치

본 출원은 비디오 처리에 관한 것이고, 구체적으로 비디오 이해(video understanding), 특히 비디오에서 목표 비디오 클립의 위치를 결정하는 방법 및 장치에 관한 것이다.

비디오 클립 위치 결정(Video Grounding)은 미리 지정된 자연 언어 기술(natural language description)에 기반하여, 비디오에서 상기 지정된 자연 언어 기술에 매칭되는 비디오 클립을 확정하는 것을 가리킨다. 예를 들어, 비디오에서의 확정된 비디오 클립의 상대적 위치는 비디오에서 비디오 클립의 시작 시점과 종료 시점으로 표시할 수 있다.

비디오 이해에 있어서 비디오 클립 위치 결정은 매우 중요한 역할을 한다. 일부 기존의 비디오 클립 위치 결정 기술에 있어서, 비디오에서 소정의 사전 설정된 전략에 따라 사전 설정 슬라이드 윈도우(slide window)를 슬라이딩함으로써 자연 언어 기술에 매칭되는 비디오 클립을 획득한다.

또한, 다른 기존의 비디오 클립 위치 결정 기술에서는, 사전 분할된(pre-segmented) 비디오 내의 모든 후보 비디오 클립 - 자연 언어 기술 데이터 쌍들을 철저하게 열거한 다음, 특정 평가 지표에 따라 이러한 데이터 쌍들을 평가 및 정렬하여, 상기 데이터 쌍 중에서 목표 비디오 클립을 선택한다.

본 출원의 실시예는 비디오에서 목표 비디오 클립의 위치를 결정하는 방법 및 장치를 제공한다.

제1 양태에 있어서, 본 출원의 실시예는 비디오에서 목표 비디오 클립의 위치를 결정하는 방법을 제공한다. 상기 방법은 비디오에서 현재 위치를 기반으로 현재 비디오 클립을 확정하는 것; 및 사전 생성된 목표 비디오 클립의 기술 특징을 표시하는 기술 정보를 획득하고, 목표 비디오 클립 확정 단계를 실행하는 것 - 상기 확정 단계는, 현재 비디오 클립의 특징을 표시하는 정보를 포함하는 현재 비디오 클립의 현재 상태 정보를 확정하는 것과, 상기 기술 정보와 상기 현재 상태 정보를 기반으로 현재 액션 정책을 생성하는 것을 포함하며, 상기 현재 액션 정책은 비디오에서 현재 비디오 클립의 위치 변화를 표시함 -을 포함하고; 상기 방법은 미리 설정된 조건에 도달하는 것에 응답하여, 상기 현재 비디오 클립에 대해 상기 현재 액션 정책을 수행하여 획득한 비디오 클립을 목표 비디오 클립으로 사용하는 것을 더 포함한다.

일부 실시예에서, 상기 방법은 미리 설정된 조건에 도달하지 못한 것에 응답하여 현재 비디오 클립에 대해 현재 액션 정책을 수행하여 획득한 비디오 클립을 업데이트된 현재 비디오 클립으로 사용하고, 목표 비디오 클립 확정 단계를 다시 수행하는 것을 더 포함한다.

일부 실시예에서, 기술 정보 및 현재 상태 정보를 기반으로 현재 액션 정책을 생성하는 것은 기술 정보 및 현재 상태 정보를 사전 훈련된 정책 생성 모델에 입력하여 현재 비디오 클립에 대해 사전 생성된 액션 정책 집합 중의 각각의 액션 정책을 수행하는 확률 분포를 획득하고; 획득한 확률 분포를 기반으로 상기 액션 정책 집합에서 현재 액션 정책을 확정하는 것을 포함한다.

일부 실시예에서, 정책 생성 모델은 기술 네트워크 및 정책 생성 네트워크를 포함하고; 기술 네트워크는 복수의 완전 연결된 층들을 갖는 완전 연결된 유닛을 포함하고, 상기 완전 연결된 유닛은 사전 획득한 목표 비디오 클립의 기술 특징 및 현재 상태 정보를 기반으로 현재 상태를 생성하며; 정책 생성 네트워크는 게이트 순환 네트워크 및 제1 완전 연결된 층을 포함하고, 게이트 순환 네트워크는 현재 상태를 기반으로 은닉 상태를 생성하도록 구성되고, 제1 완전 연결된 층은 은닉 상태에 따라 확률 분포를 생성하도록 구성된다.

일부 실시예에서, 목표 비디오 클립 확정 단계를 실행하기 이전에, 상기 방법은 비디오의 비디오 특징을 표시하는 비디오 특징 정보를 획득하는 것을 더 포함하고; 기술 네트워크는 비디오 특징 정보를 기반으로 현재 상태를 생성한다.

일부 실시예에서, 현재 상태 정보는 비디오에서 현재 비디오 클립의 상대적 위치 특징을 표시하는 정보를 더 포함한다.

일부 실시예에서, 상기 방법은 미리 설정된 손실 함수를 기반으로 도출된 누적 손실값을 이용하여 초기 정책 생성 모델을 훈련시켜, 훈련된 정책 생성 모델을 획득하는 것을 더 포함하고; 누적 손실값은 훈련 샘플 비디오와 훈련 샘플 비디오의 목표 비디오 클립의 현재 위치 정보를 기반으로 확정된 훈련 샘플 비디오의 현재 비디오 클립을 현재 정책 생성 모델에 입력하는 것; 및 반복(iteration) 단계를 실행하는 것을 포함하는 확정 단계를 통해 결정되며, 상기 반복 단계는, 현재 정책 생성 모델의 기술 네트워크를 기반으로 훈련 샘플 비디오의 현재 상태를 확정하는 것; 확정된 훈련 샘플 비디오의 현재 상태를 현재 정책 생성 모델의 정책 생성 네트워크에 입력하여, 현재 정책 생성 모델 및 훈련 샘플 비디오의 현재 상태에서의 현재 확률 분포를 획득하는 것; 확정된 현재 확률 분포를 기반으로 미리 설정된 손실 함수를 이용하여 현재 반복 단계의 손실값을 확정하는 것; 및 현재 반복 단계의 손실값과 이전 반복 단계의 손실값의 합을 현재 반복 단계의 업데이트된 손실값으로 사용하는 것을 포함하며, 상기 확정 단계는 반복 종료 조건에 도달하지 못한 것에 응답하여, 현재 확률 분포를 기반으로 현재 위치를 업데이트하고, 반복 단계를 다시 수행하는 것; 및 반복 종료 조건에 도달하는 것에 응답하여, 마지막 반복 단계를 실행하여 획득한 현재 반복 단계의 업데이트된 손실값을 누적 손실값으로 사용하는 것을 더 포함한다.

일부 실시예에서, 손실 함수는 미리 설정된 누적 보상함수에 기초하여 결정된 제1 구성 요소를 포함하고; 미리 설정된 손실 함수를 기반으로 도출된 누적 손실값을 이용하여 초기 정책 생성 모델을 훈련시켜, 훈련된 정책 생성 모델을 획득하는 것은, 상기 제1 구성 요소로부터 결정된 누적 손실값의 역전파를 기반으로 게이트 순환 네트워크, 제1 완전 연결된 층 및 완전 연결된 유닛 각각의 파라미터를 조정하는 것을 포함한다.

일부 실시예에서, 정책 생성 네트워크는 제2 완전 연결된 층을 더 포함하고; 제2 완전 연결된 층은 은닉 상태에 따라 현재 상태 정보에 대응하는 보상 예측값을 생성하며; 손실 함수는 보상 예측값과 상기 보상함수에 기초하여 결정된 실제 보상값 사이의 편차를 나타내는 제2 구성 요소를 더 포함하고; 미리 설정된 손실 함수를 기반으로 도출된 누적 손실값을 이용하여 초기 정책 생성 모델을 훈련시켜, 훈련된 정책 생성 모델을 획득하는 것은, 상기 제1 구성 요소로부터 결정된 누적 손실값의 역전파를 기반으로 제2 완전 연결된 층의 파라미터를 조정하는 것과, 제2 구성 요소로부터 결정된 누적 손실값의 역전파를 기반으로 게이트 순환 네트워크, 제2 완전 연결된 층 및 완전 연결된 유닛 각각의 파라미터를 조정하는 것을 더 포함한다.

일부 실시예에서, 손실 함수는 제1 완전 연결된 층에 의해 출력된 확률 분포의 엔트로피를 표시하는 제3 구성 요소를 더 포함하고; 미리 설정된 손실 함수를 기반으로 도출된 누적 손실값을 이용하여 초기 정책 생성 모델을 훈련시켜, 훈련된 정책 생성 모델을 획득하는 것은, 제3 구성 요소로부터 결정된 누적 손실값의 역전파를 기반으로 게이트 순환 네트워크, 제1 완전 연결된 층 및 완전 연결된 유닛 각각의 파라미터를 조정하는 것을 더 포함한다.

일부 실시예에서, 정책 생성 모델은 위치 회귀 네트워크를 더 포함하고; 위치 회귀 네트워크는 기술 네트워크에 연결된 제3 완전 연결된 층 및 제4 완전 연결된 층을 포함하며; 현재 정책 생성 모델의 기술 네트워크를 기반으로 훈련 샘플 비디오의 현재 상태를 확정한 이후, 상기 반복 단계는, 훈련 샘플 비디오의 현재 상태를 제3 완전 연결된 층에 입력하여 훈련 샘플 비디오의 예측 IoU(intersection-over-union)를 도출하는 것과, 훈련 샘플 비디오의 현재 상태를 제4 완전 연결된 층에 입력하여 훈련 샘플 비디오의 목표 비디오 클립의 예측 위치를 획득하는 것을 더 포함하며; 손실 함수는 제4 구성 요소 및 제5 구성 요소를 더 포함하고; 미리 설정된 손실 함수를 기반으로 도출된 누적 손실값을 이용하여 초기 정책 생성 모델을 훈련시켜, 훈련된 정책 생성 모델을 획득하는 것은, 손실 함수의 제4 구성 요소 및 제5 구성 요소로부터 결정 누적 손실값의 역전파를 기반으로 완전 연결된 유닛, 제3 완전 연결된 층 및 제4 완전 연결된 층 각각의 파라미터를 조정하는 것을 더 포함하되, 제4 구성 요소는 현재 반복 단계에서 제3 완전 연결된 층에 의해 출력된 훈련 샘플 비디오의 예측 IoU와 이전 반복 단계에서 출력된 훈련 샘플 비디오의 예측 IoU 사이의 편차를 나타내도록 구성되고, 제5 구성 요소는 제4 완전 연결된 층에 의해 출력된 훈련 샘플 비디오 중 목표 비디오 클립의 훈련 샘플 비디오에서의 예측 위치와 훈련 샘플 비디오에 라벨링된 목표 비디오 클립의 실제 위치 사이의 편차를 나타내도록 구성된다.

제2 양태에 있어서, 본 출원의 실시예에서는 비디오에서 목표 비디오 클립의 위치를 결정하는 장치를 제공한다. 상기 장치는 비디오에서 현재 위치를 기반으로 현재 비디오 클립을 확정하는 확정 유닛; 사전 생성된 목표 비디오 클립의 기술 특징을 표시하는 기술 정보를 획득하고, 목표 비디오 클립 확정 단계를 실행하는 실행 유닛을 포함한다. 상기 확정 단계는, 현재 비디오 클립의 특징을 표시하는 정보를 포함하는 현재 비디오 클립의 현재 상태 정보를 확정하는 것과, 상기 기술 정보와 상기 현재 상태 정보를 기반으로 현재 액션 정책을 생성하는 것을 포함하며, 상기 현재 액션 정책은 비디오에서 현재 비디오 클립의 위치 변화를 표시하고; 상기 장치는 미리 설정된 조건에 도달하는 것에 응답하여 현재 비디오 클립에 대해 현재 액션 정책을 수행하여 획득한 비디오 클립을 목표 비디오 클립으로 사용하는 생성 유닛을 더 포함한다.

일부 실시예에서, 생성 유닛은 미리 설정된 조건에 도달하지 못한 것에 응답하여 현재 비디오 클립에 대해 현재 액션 정책을 수행하여 획득한 비디오 클립을 업데이트된 현재 비디오 클립으로 사용하고, 목표 비디오 클립 확정 단계를 다시 수행하도록 더 구성된다.

일부 실시예에서, 실행 유닛은 기술 정보 및 현재 상태 정보를 사전 훈련된 정책 생성 모델에 입력하여 현재 비디오 클립에 대해 사전 생성된 액션 정책 집합 중의 각각의 액션 정책을 수행하는 확률 분포를 획득하고; 획득한 확률 분포를 기반으로 상기 액션 정책 집합에서 현재 액션 정책을 확정하도록 더 구성된다.

일부 실시예에서, 정책 생성 모델은 기술 네트워크 및 정책 생성 네트워크를 포함하고; 기술 네트워크는 복수의 완전 연결된 층들을 갖는 완전 연결된 유닛을 포함하고, 상기 완전 연결된 유닛은 사전 획득한 목표 비디오 클립의 기술 특징 및 상기 현재 상태 정보를 기반으로 현재 상태를 생성하며; 정책 생성 네트워크는 게이트 순환 네트워크 및 제1 완전 연결된 층을 포함하고, 게이트 순환 네트워크는 현재 상태를 기반으로 은닉 상태를 생성하도록 구성되고, 제1 완전 연결된 층은 은닉 상태에 따라 확률 분포를 생성하도록 구성된다.

일부 실시예에서, 상기 장치는 획득 유닛을 더 포함하고; 획득 유닛은 실행 유닛에 의해 목표 비디오 클립 확정 단계를 실행하기 이전에 비디오의 비디오 특징을 표시하는 비디오 특징 정보를 획득하도록 구성되고; 기술 네트워크는 비디오 특징 정보를 기반으로 현재 상태를 생성하도록 더 구성된다.

일부 실시예에서, 상기 장치는 훈련 유닛을 더 포함하고; 훈련 유닛은 미리 설정된 손실 함수를 기반으로 도출된 누적 손실값을 이용하여 초기 정책 생성 모델을 훈련시켜, 훈련된 정책 생성 모델을 획득하도록 구성되고; 누적 손실값은, 훈련 샘플 비디오와 훈련 샘플 비디오의 목표 비디오 클립의 현재 위치 정보를 기반으로 확정된 훈련 샘플 비디오의 현재 비디오 클립을 현재 정책 생성 모델에 입력하는 것; 및 반복 단계를 실행하는 것을 포함하는 확정 단계를 통해 결정되며, 상기 반복 단계는, 현재 정책 생성 모델의 기술 네트워크를 기반으로 훈련 샘플 비디오의 현재 상태를 확정하는 것; 확정된 훈련 샘플 비디오의 현재 상태를 현재 정책 생성 모델의 정책 생성 네트워크에 입력하여 현재 정책 생성 모델 및 훈련 샘플 비디오의 현재 상태에서의 현재 확률 분포를 획득하는 것; 확정된 현재 확률 분포를 기반으로 미리 설정된 손실 함수를 이용하여 현재 반복 단계의 손실값을 확정하는 것; 및 현재 반복 단계의 손실값과 이전 반복 단계의 손실값의 합을 현재 반복 단계의 업데이트된 손실값으로 사용하는 것을 포함하며, 상기 확정 단계는 반복 종료 조건에 도달하지 못한 것에 응답하여, 현재 확률 분포를 기반으로 현재 위치를 업데이트하고, 반복 단계를 다시 수행하는 것을 포함하고, 상기 확정 단계는, 반복 종료 조건에 도달하는 것에 응답하여, 마지막 반복 단계를 실행하여 획득한 현재 반복 단계의 업데이트된 손실값을 누적 손실값으로 사용하는 것을 더 포함한다.

일부 실시예에서, 손실 함수는 미리 설정된 누적 보상함수에 기초하여 결정된 제1 구성 요소를 포함하고; 훈련 유닛은 상기 제1 구성 요소로부터 결정된 누적 손실값의 역전파를 기반으로 게이트 순환 네트워크, 제1 완전 연결된 층 및 완전 연결된 유닛 각각의 파라미터를 조정하도록 더 구성된다.

일부 실시예에서, 정책 생성 네트워크는 제2 완전 연결된 층을 더 포함하고; 제2 완전 연결된 층은 은닉 상태에 따라 현재 상태 정보에 대응하는 보상 예측값을 생성하며; 손실 함수는 보상 예측값과 상기 보상함수에 기초하여 결정된 실제 보상값 사이의 편차를 나타내는 제2 구성 요소를 더 포함하고; 훈련 유닛은 상기 제1 구성 요소로부터 결정된 누적 손실값의 역전파를 기반으로 제2 완전 연결된 층의 파라미터를 조정하고, 제2 구성 요소로부터 결정된 누적 손실값의 역전파를 기반으로 게이트 순환 네트워크, 제2 완전 연결된 층 및 완전 연결된 유닛 각각의 파라미터를 조정하도록 더 구성된다.

일부 실시예에서, 손실 함수는 제1 완전 연결된 층에 의해 출력된 확률 분포의 엔트로피를 표시하는 제3 구성 요소를 더 포함하고; 훈련 유닛은 제3 구성 요소로부터 결정된 누적 손실값의 역전파를 기반으로 게이트 순환 네트워크, 제1 완전 연결된 층 및 완전 연결된 유닛 각각의 파라미터를 조정하도록 더 구성된다.

일부 실시예에서, 정책 생성 모델은 위치 회귀 네트워크를 더 포함하고; 위치 회귀 네트워크는 기술 네트워크에 연결된 제3 완전 연결된 층 및 제4 완전 연결된 층을 포함하며; 훈련 유닛은 현재 정책 생성 모델의 기술 네트워크를 기반으로 훈련 샘플 비디오의 현재 상태를 확정한 이후, 훈련 샘플 비디오의 현재 상태를 제3 완전 연결된 층에 입력하여 훈련 샘플 비디오의 예측 IoU를 도출하고; 훈련 샘플 비디오의 현재 상태를 제4 완전 연결된 층에 입력하여 훈련 샘플 비디오의 목표 비디오 클립의 예측 위치를 획득하도록 더 구성될 수 있으며; 손실 함수는 제4 구성 요소 및 제5 구성 요소를 더 포함하고; 훈련 유닛은 손실 함수의 제4 구성 요소 및 제5 구성 요소로부터 결정 누적 손실값의 역전파를 기반으로 완전 연결된 유닛, 제3 완전 연결된 층 및 제4 완전 연결된 층 각각의 파라미터를 조정하도록 더 구성되며, 제4 구성 요소는 현재 반복 단계에서 제3 완전 연결된 층에 의해 출력된 훈련 샘플 비디오의 예측 IoU와 이전 반복 단계에서 출력된 훈련 샘플 비디오의 예측 IoU 사이의 편차를 나타내도록 구성되고, 제5 구성 요소는 제4 완전 연결된 층에 의해 출력된 훈련 샘플 비디오 중 목표 비디오 클립의 훈련 샘플 비디오에서의 예측 위치와 훈련 샘플 비디오에 라벨링된 목표 비디오 클립의 실제 위치 사이의 편차를 나타내도록 구성된다.

제3 양태에 있어서, 본 출원의 실시예에서는 전자기기를 제공한다. 전자기기는 하나 또는 복수의 프로세서; 및 하나 또는 복수의 프로그램을 저장하는 저장 장치를 포함하고, 하나 또는 복수의 프로세서에 의해 상기 하나 또는 복수의 프로그램이 실행될 경우, 상기 하나 또는 복수의 프로세서는 제1 양태에 따른 방법을 구현한다.

제4 양태에 있어서, 본 출원의 실시예에서는 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 매체를 제공한다. 상기 프로그램이 프로세서에 의해 실행될 경우 제1 양태에 따른 방법을 구현한다.

본 출원의 실시예에서 제공하는 비디오에서 목표 비디오 클립의 위치를 결정하는 기술적 방법에 따르면, 먼저, 현재 위치를 기반으로 비디오에서의 현재 비디오 클립을 확정한 다음, 현재 상태 정보를 확정하고, 현재 상태 정보를 기반으로 현재 액션 정책을 생성하며, 현재 액션 정책을 이용하여 현재 위치를 변경함으로써 비디오에서 획득한 비디오 클립을 변경한다. 또한 미리 설정된 조건을 설정하여 미리 설정된 조건에 도달할 경우, 현재 비디오 클립에 대해 현재 액션 정책을 수행하여 획득한 비디오 클립을 목표 비디오 클립으로 사용함으로써 비디오에서 미리 설정된 기술 정보에 매칭되는 목표 비디오 클립의 위치를 결정할 수 있다.

아래의 도면으로 나타낸 비제한적인 실시예에 대한 상세 설명을 참고하면 본 출원의 기타 특징, 목적 및 장점이 더 명확해질 것이다.
도 1은 본 출원 일 실시예에 따른 비디오에서 목표 비디오 클립의 위치를 결정하는 방법이 적용될 수 있는 예시적 시스템 아키텍처를 나타낸다.
도 2는 본 출원에 따른 비디오에서 목표 비디오 클립의 위치를 결정하는 방법의 일 실시예의 흐름도를 나타낸다.
도 3은 본 출원에 따른 비디오에서 목표 비디오 클립의 위치를 결정하는 방법의 일 응용상황의 개략도를 나타낸다.
도 4는 본 출원에 따른 비디오에서 목표 비디오 클립의 위치를 결정하는 방법의 다른 일 실시예의 흐름도를 나타낸다.
도 5는 도 4에 나타낸 실시예에 적용 가능한 정책 생성 모델의 예시적 구성도를 나타낸다.
도 6은 누적 손실값을 확정하는 일 예의 흐름도를 나타낸다.
도 7은 도 5에 나타낸 정책 생성 모델의 아키텍처를 사용하여 누적 손실값을 도출하는 과정의 개략도를 나타낸다.
도 8은 도 4에 나타낸 실시예에 적용 가능한 정책 생성 모델의 다른 일 예의 구성도를 나타낸다.
도 9는 도 4에 나타낸 실시예에 적용 가능한 정책 생성 모델의 또 다른 일 예의 구성도를 나타낸다.
도 10은 본 출원에 따른 비디오에서 목표 비디오 클립의 위치를 결정하는 장치의 일 실시예의 구성도를 나타낸다.
도 11은 본 출원의 실시예의 비디오에서 목표 비디오 클립의 위치를 결정하는 방법을 구현하기에 적합한 전자기기의 컴퓨터 시스템의 개략적 구성도를 나타낸다.

아래의 도면과 실시예를 참고하여 본 출원을 좀 더 상세하게 설명하고자 한다. 여기서 설명하는 구체적인 실시예는 관련 발명에 대한 설명에 불과한 것으로, 본 출원을 제한하는 것이 아님을 이해할 것이다. 또한 용이한 설명을 위해 도면에서는 발명과 관련된 부분만 표시하였다.

상충되지 않는 상황에서 본 출원의 실시예와 실시예의 특징들은 서로 결합이 가능하다는 점을 이해할 것이다. 아래에 도면과 실시예를 통해 본 출원을 상세하게 설명하고자 한다.

도 1은 본 출원의 비디오에서 목표 비디오 클립의 위치를 결정하는 방법의 실시예 또는 비디오에서 목표 비디오 클립의 위치를 결정하는 장치의 실시예를 적용할 수 있는 시스템 아키텍처(100)를 나타낸다.

도 1에서 시스템 아키텍처(100)는 단말기(101, 102, 103), 네트워크(104) 및 서버(105)를 포함할 수 있다. 네트워크(104)는 단말기(101, 102, 103)와 서버(105) 사이에 통신 링크를 제공하는 매개체이다. 네트워크(104)는 유선 및 무선 통신링크 또는 광섬유 케이블 등 다양한 연결 유형을 포함할 수 있다.

사용자(110)는 정보를 전송 또는 수신하기 위해 단말기(101, 102, 103)를 이용하여 네트워크(104)를 통해 서버(105)와 인터렉션을 할 수 있다. 단말기(101, 102, 103)에는 비디오 처리, 이미지 처리, 검색, 생활 서비스, 쇼핑 관련 등 다양한 클라이언트 애플리케이션이 장착될 수 있다.

단말기(101, 102, 103)는 스마트폰, 태블릿 PC, 스마트 워치, 랩탑 컴퓨터 및 데스크탑 컴퓨터 등 스크린을 구비한 각종 전자기기를 포함하되 여기에 국한되지 않는다.

서버(105)는 다양한 서비스를 제공하는 서버일 수 있다. 예를 들어 단말기(101, 102, 103)가 발송하는 비디오 위치 결정 요청을 처리하는 백엔드 서버일 수 있다. 백엔드 서버는 수신한 비디오 위치 결정 요청을 기반으로 비디오에 대해 해석, 목표 비디오 클립 위치 라벨링 등을 처리를 진행하고, 처리결과(예컨대, 위치 결정을 통해 획득한 목표 비디오 클립의 비디오 내 위치를 나타내는 정보)를 단말기(101, 102, 103)에 피드백한다.

본 출원의 실시예에서 제공한 비디오에서 목표 비디오 클립의 위치를 결정하는 방법은 서버(105)에 의해 수행될 수도 있고, 단말기(101, 102, 103)에 의해 수행될 수도 있으며, 또는 일부분은 서버(105)에서 또 다른 일 부분은 단말기(101, 102, 103)에서 수행될 수도 있다. 이에 따라 비디오에서 목표 비디오 클립의 위치를 결정하는 장치는 서버(105)에 장착될 수도 있고, 단말기(101, 102, 103)에 장착될 수도 있으며, 일부분은 서버(105)에 또 다른 일 부분은 단말기(101, 102, 103)에 장착될 수도 있다.

본 출원의 실시예에서 제공한 비디오에서 목표 비디오 클립의 위치를 결정하는 방법이 서버(105) 또는 단말기(101, 102, 103)에서만 수행될 경우, 도 1에서 나타낸 아키텍처는 서버 또는 단말기만 포함할 수 있다. 그 밖에 도 1의 단말기, 네트워크 및 서버의 개수는 예시에 불과하며 필요에 따라 임의 개수의 단말기, 네트워크 및 서버를 구비할 수 있다. 예를 들어 서버는 다양한 프로세스가 배포된 복수의 서버를 포함하는 클러스터를 이루는 서버들일 수 있다.

계속해서 도 2를 참고하면, 본 출원에 따른 비디오에서 목표 비디오 클립의 위치를 결정하는 방법의 일 실시예의 흐름도(200)를 나타낸다.

본 실시예의 방법에서, 목표 비디오 클립은 주어진 비디오에서 미리 설정된 요구 사항 또는 조건을 만족시키는 비디오 클립으로 이해될 수 있다. 마찬가지로 본 실시예의 비디오에서 목표 비디오 클립의 위치를 결정하는 방법은 상기 주어진 비디오에서 상기 미리 설정된 요구 사항 또는 조건을 만족시키는 비디오 클립의 위치를 결정하는 것이다.

상기 비디오에서 목표 비디오 클립의 위치를 결정하는 방법은 아래의 단계들을 포함한다.

단계(201): 비디오에서 현재 위치를 기반으로 현재 비디오 클립을 확정한다.

이때, 비디오는 사전 획득한 임의의 비디오 파일일 수 있고, 상기 비디오 파일은 소정의 미리 결정된 순서(예컨대, 비디오를 촬영한 순서)로 배열되어 구성된 복수의 비디오 프레임을 포함한다.

실행 주체는 임의의 실행 가능한 방식을 이용하여 상기 비디오 파일을 획득할 수 있다.

예를 들어, 일부 응용예에서 비디오 파일은 실행 주체가 실행 주체 자체에 장착된 비디오 수집 장치 또는 실행 주체와 통신 연결된 비디오 수집 장치로 촬영하여 획득한 것일 수 있다. 예를 들면, 실행 주체가 도 1의 단말기일 경우, 단말기 상에 장착된 웹캠 또는 단말기와 유선 또는 무선으로 통신 연결된 카메라로 촬영하여 비디오 파일을 획득할 수 있다.

또는 다른 일부 응용예에서 비디오 파일은 실행 주체의 저장 장치에 저장될 수도 있고, 또는 실행 주체와 통신 연결된 다른 전자기기의 저장 장치에 저장되어, 특정 트리거 조건에 응답하여 실행 주체에 상기 비디오 파일을 발송할 수도 있다.

비디오 클립은 비디오에서 연속 비디오 프레임의 적어도 일부분에 의해 구성된 클립을 지칭할 수도 있다. 예를 들어, 비디오가 제1 내지 제1000 번째 비디오 프레임을 포함할 경우, 비디오 클립은 비디오에 포함된 비디오 프레임 중 제1 내지 제10 번째 비디오 프레임으로 구성된 클립을 지칭할 수 있다.

일부 응용예에서, 비디오에서의 비디오 클립 위치는 예를 들어, 전체 비디오에 포함된 비디오 프레임들로 구성된 비디오 프레임 시퀀스에서 비디오 클립에 포함된 비디오 프레임의 위치로 표시될 수 있다. 예를 들면, 비디오에 포함된 비디오 프레임들로 구성된 비디오 프레임 시퀀스가 F=[f₁, f₂, … f₁₀₀₀]일 경우, 비디오 클립은 F₁=[f₁₀, f₁₁, …, f₂₀]으로 표시할 수 있고, 이는 비디오 클립 F₁이 비디오 프레임 시퀀스 F 중 제10 내지 제20 번째 비디오 프레임으로 구성됨을 의미한다.

또는 다른 일부 응용예에서, 비디오에서의 비디오 클립 위치는 비디오에서 상기 비디오 클립의 시작 시점 및 종료 시점을 이용하여 표시될 수도 있다. 예를 들면, 비디오의 총 길이가 T일 경우, 비디오 클립을 [t1, t2]로 표시할 수 있다. 이때 t1은 비디오에서 비디오 클립의 시작 시점을 나타내고, t2는 비디오에서 비디오 클립의 종료 시점을 나타낼 수 있으며, t1, t2 및 T는 0≤t1＜t2≤T를 만족시킨다.

그 밖에 비디오에서의 비디오 클립 위치는 임의의 다른 가능한 방법으로 표시할 수도 있다. 예를 들어, 비디오에서의 비디오 클립의 시작 시점과 비디오 클립의 길이로 표시할 수 있는데, 여기서 중복 설명은 생략하기로 한다.

이러한 단계에서, 현재 위치는 인위적으로 지정될 수 있고, 또는 특정 방법을 통한 계산에 의해 도출될 수도 있다. 또한 이러한 단계에서 먼저 현재 위치를 확정하고 현재 위치를 기반으로 비디오에서 대응하는 비디오 클립을 확정할 수 있다. 예를 들어, 일부 응용예에서, 비디오에서의 상기 비디오 클립의 시작 시점과 종료 시점으로 비디오 클립을 표시한다. 이러한 응용예에서, 먼저 시작 시점 t1과 종료 시점 t2를 확정하고, 그 다음, 비디오에서 t1 시점부터 t2 시점까지의 비디오 클립을 확정할 수 있다.

단계(202): 사전 생성된 목표 비디오 클립의 기술 특징(descriptive feature)을 표시하는 기술 정보를 획득하고, 목표 비디오 클립 확정 단계를 실행한다.

목표 비디오 클립의 기술 특징은 위치를 결정하고자 하는 목표 비디오 클립의 특징을 설명하는 것으로 이해할 수 있다. 예를 들어, 비디오에서 "주행하는 빨간색 소형차 한 대"가 나타나는 비디오 클립의 위치를 결정해 줄 것이 요구될 경우, 기술 특징은 "주행하는 빨간색 소형차 한 대"의 의미를 나타낼 수 있는 특징일 수 있다.

일부 응용예에서, 목표 비디오 클립의 기술 특징은 사전 훈련된 Sentence2vec와 같은 모델로 획득할 수 있다. 실제 구현에서, 목표 비디오 클립의 기술 문장이 먼저 단어들로 분할되고, 사전 훈련된 Word2vec 모델을 통해 각각의 분할된 단어에 대응하는 단어 벡터를 획득한 후, Sentence2vec 모델을 통해 각 단어 벡터의 가중치를 결정하며, 마지막으로 각 단어 벡터와 그에 대응하는 가중치를 기반으로 기술 문장에 대응하는 특징 벡터를 획득하며, 상기 특징 벡터를 목표 비디오 클립의 기술 특징으로 사용한다.

목표 비디오 클립 확정 단계는 아래와 같은 서브 단계(202a 내지 202b)들을 더 포함할 수 있다.

서브 단계(202a): 현재 비디오 클립의 현재 상태 정보를 확정하되, 현재 상태 정보에는 현재 비디오 클립의 특징을 표시하는 정보가 포함된다.

현재 비디오 클립의 특징은 현재 비디오 클립에 포함된 대상(예컨대, 현재 비디오 클립에 나타나는 사람, 경치) 및 대상의 상태(예컨대, 현재 비디오 클 속의 사람의 행동, 경치의 형태) 등과 같은 특징일 수 있다. 실제 구현에서, 사전 훈련된 특징 추출 네트워크를 통해 현재 비디오 클립의 특징을 추출할 수 있다. 예를 들어, 사전 훈련된 3차원 컨볼루션 신경망을 통해 현재 비디오 클립의 특징을 추출할 수 있고, 추출된 특징은 현재 비디오 클립의 공간적 특징(즉, 현재 비디오 클립 중 각 비디오 프레임에서의 특징)뿐만 아니라, 현재 비디오 클립의 시간적 특징도 포함한다.

서브 단계(202b): 기술 정보 및 현재 상태 정보를 기반으로 현재 액션 정책(action policy)을 생성하되, 현재 액션 정책은 비디오에서 현재 비디오 클립의 위치 변화를 표시한다.

위의 설명과 같이, 비디오에서 현재 비디오 클립의 위치는 전체 비디오에 포함된 비디오 프레임들로 구성된 비디오 프레임 시퀀스에서 비디오 클립에 포함된 비디오 프레임의 위치로 표시될 수 있고, 또는 비디오에서 상기 비디오 클립의 시작 시점과 종료 시점으로 표시될 수도 있다. 따라서 비디오에서 현재 비디오 클립의 위치 변화도 또한 비디오 프레임 시퀀스에서 현재 비디오 클립의 위치 변화로 표시되거나, 비디오에서 현재 비디오 클립의 시작 시점 및/또는 종료 시점의 변화로 표시될 수도 있다.

이때, 현재 액션 정책은 예를 들어 비디오 속의 "타임 슬라이드 윈도우"에 설정된 변경 정책으로 이해할 수 있다. 이러한 단계에서, 단계(202a)로 획득한 현재 상태 정보에 따른 타임 슬라이드 윈도우의 변경은, 타임 슬라이드 윈도우의 시작 위치 변경, 타임 슬라이드 윈도우의 종료 위치 변경, 타임 슬라이드 윈도우의 길이 변경 등 중 적어도 하나의 액션을 포함할 수 있으나 이에 한정되지 않는다.

그 밖에, 일부 응용예에서 기술 정보와 현재 상태 정보 사이의 편차에 따라 현재 액션 정책을 확정함으로써 비디오에서 위치 결정된 비디오 클립을 변경시킬 수 있다. 이러한 응용예에서, 예를 들면 사전 생성된 목표 비디오 클립의 기술 특징을 나타내는 정보와 현재 비디오 클립의 특징을 나타내는 정보는 모두 특징 벡터로 표시되고, 두 특징 벡터 각각의 수치 특징과 상기 두 특징 벡터 사이의 거리 등에 따라, 타임 슬라이드 윈도우의 위치 변화 및/또는 길이 변화를 확정함으로써 비디오에서 위치 결정된 비디오 클립을 변경시킬 수 있다.

타임 슬라이드 윈도우의 변화로 인해 비디오에서 위치 결정된 비디오 클립이 변경됨에 따라, 위치 결정된 비디오 클립의 특징 또한 그에 대응하여 변화된다.

본 실시예의 비디오에서 목표 비디오 클립의 위치 결정 방법은 아래 단계(203)을 더 포함한다,

단계(203): 미리 설정된 조건에 도달하는 것에 응답하여, 현재 비디오 클립에 대해 현재 액션 정책을 수행하여 획득한 비디오 클립을 목표 비디오 클립으로 사용한다.

여기서, 미리 설정된 조건은 가능한 임의의 조건이다.

예를 들어, 일부 응용예에서 목표 클립 확정 단계를 실행하는 횟수를 미리 설정된 조건으로 할 수 있다. 이러한 응용예에서, 목표 클립 확정 단계를 실행하는 횟수가 미리 설정된 횟수 임계치에 도달할 경우, 마지막 목표 클립 확정 단계를 실행하여 확정된 현재 액션 정책으로 타임 슬라이드 윈도우를 변경할 수 있고, 변경된 타임 슬라이드 윈도우에 의해 확정된 비디오 클립을 목표 비디오 클립으로 사용한다.

또 다른 일부 응용예에서, 미리 설정된 특정 목표 액션 정책을 미리 설정된 조건으로 할 수 있다. 이러한 응용예에서는 목표 비디오 클립 확정 단계를 통해 확정된 현재 액션 정책이 상기 목표 액션 정책과 같거나 또는 높은 유사도를 가질 경우, 마지막 목표 클립 확정 단계를 실행하여 획득한 비디오 클립을 목표 비디오 클립으로 간수할 수 있다. 이러한 응용예에서, 예를 들어 목표 액션 정책이 "타임 슬라이드 윈도우를 변경하지 않음"이라고 하면, 목표 비디오 클립 확정 단계를 실행하여 획득한 현재 액션 정책도 마찬가지로 "타임 슬라이드 윈도우를 변경하지 않음" 이거나 또는 현재의 타임 슬라이드 윈도우가 경미하게 변경되는 경우, 마지막 목표 클립 확정 단계를 실행하여 확정된 현재 액션 정책으로 타임 슬라이드 윈도우를 변경할 수 있고, 변경된 타임 슬라이드 윈도우에 의해 확정된 비디오 클립을 목표 비디오 클립으로 사용한다.

본 출원의 실시예에서 제공하는 비디오에서 목표 비디오 클립의 위치를 결정하는 방법은, 먼저, 현재 위치를 기반으로 비디오에서의 현재 비디오 클립을 확정한 다음, 현재 상태 정보를 확정하고, 현재 상태 정보를 기반으로 현재 액션 정책을 생성하며, 현재 액션 정책을 이용하여 현재 위치를 변경함으로써 비디오에서 획득한 비디오 클립을 변경한다. 또한 미리 설정된 조건을 설정하여 미리 설정된 조건에 도달할 경우, 현재 비디오 클립에 대해 현재 액션 정책을 수행하여 획득한 비디오 클립을 목표 비디오 클립으로 사용함으로써 비디오에서 미리 설정된 기술 정보에 매칭되는 목표 비디오 클립의 위치를 결정할 수 있다.

본 실시예의 비디오에서 목표 비디오 클립의 위치를 결정하는 방법에 있어서, 목표 비디오 클립 확정 단계를 실행한 다음 미리 설정된 조건에 여전히 도달하지 못하는 경우, 현재 비디오 클립에 대해 현재 액션 정책을 수행하여 획득한 비디오 클립을 업데이트된 현재 비디오 클립으로 사용할 수 있고, 목표 비디오 클립 확정 단계를 다시 수행한다. 이로써, 미리 설정된 조건을 만족시키기 전에, 목표 비디오 클립 확정 단계를 순환 반복적으로 수행함으로써 현재 비디오 클립이 목표 비디오 클립에 점차 근접하도록 할 수 있다.

이어서 도 3을 참고하면, 도 3은 본 실시예에 따른 비디오에서 목표 비디오 클립의 위치를 결정하는 방법의 일 응용상황(300)의 개략도를 나타낸다. 상기 응용예에서, 예를 들어, 비디오에서 기타를 연주하는 소년을 설명하는 비디오 클립의 위치를 결정할 것을 요구한다.

도 3과 같이, 우선 t₀ 시점에서 비디오 프레임 시퀀스[f₁, f₂, …, f₁₅]로 구성된 비디오에서 초기 타임 슬라이드 윈도우를 결정하고, 상기 초기 타임 슬라이드 윈도우를 기반으로 현재 비디오 클립 F₀=[f₁, f₂, …, f₈]을 확정한다.

이어서 "기타를 연주하는 소년"이라는 기술 문장의 특징을 표시하는 기술 정보를 확정한다. 예를 들어, 사전 훈련된 Sentence2vec 모델(예컨대, Skip-thought 모델)을 통해 상기 기술 문장의 기술 특징을 추출하고, 상기 기술 특징을 기반으로 기술 정보를 획득한다.

이어서, 현재 비디오 클립 F₀의 현재 상태 정보를 확정할 수 있다. 예를 들어, F₀을 사전 훈련된 3차원 컨볼루션 신경망 모델에 입력하여 현재 비디오 클립 F₀의 특징 벡터를 추출하고, 상기 특징 벡터를 기반으로 현재 상태 정보를 획득한다.

이어서, 기술 정보와 현재 상태 정보에 대한 연산(예컨대, 기술 정보와 현재 상태 정보에 대한 비교)을 통해, 현재 액션 정책을 생성할 수 있고, 상기 현재 액션 정책으로 현재 타임 슬라이드 윈도우에 의해 확정된 현재 비디오 클립 F₀을 조정할 수 있다.

이어서, 현재 상태가 미리 설정된 조건을 만족시키지 못할 경우(예컨대, 현재 이미 수행한 목표 비디오 클립 확정 단계 횟수가 사전 설정 횟수 임계치에 도달하지 못하고, 및/또는 현재 액션 정책과 미리 설정된 액션 정책이 서로 매칭되지 않을 경우), 현재 비디오 클립 F₀에 대해 상기 현재 액션 정책을 수행함으로써 새로운 현재 비디오 클립 F₁=[f₂, f₃, …, f₉]을 획득한다.

이와 같은 순환 및 반복 (recurrent and iterative)을 거쳐, 마지막으로, n번째 목표 비디오 클립 확정 단계를 실행한 후 미리 설정된 조건에 도달하는 경우, 상기 현재 액션 정책을 수행한 후의 현재 비디오 클립 F_n=[f₄, f₅, …, f₁₀]을 위치 결정의 결과인 목표 비디오 클립으로 사용할 수 있다.

도 4는 본 출원의 비디오에서 목표 비디오 클립의 위치를 결정하는 방법의 또 다른 일 실시예의 흐름도(400)이다.

본 실시예의 방법은 아래와 같은 단계들을 포함한다.

단계(401): 비디오에서 현재 위치를 기반으로 현재 비디오 클립을 확정한다.

본 실시예의 단계(401)는 도 2에 나타낸 실시예의 단계(201)와 유사한 방식으로 수행되므로 여기서 중복 설명은 생략하기로 한다.

단계(402): 사전 생성된 목표 비디오 클립의 기술 특징을 표시하는 기술 정보를 획득하고, 목표 비디오 클립 확정 단계를 실행한다.

본 실시예의 목표 비디오 클립 확정 단계는 이하 서브 단계(402a 내지 402c)들을 더 포함한다.

구체적으로, 서브 단계(402a)에서, 현재 비디오 클립의 현재 상태 정보를 확정하고, 여기서 현재 상태 정보는 현재 비디오 클립의 특징을 표시하는 정보를 포함하는다.

본 실시예의 서브 단계(402a)는 도 2에서 나타낸 실시예의 서브 단계(202a)와 유사한 방식으로 수행되므로 여기서 중복 설명은 생략하기로 한다.

서브 단계(402b): 기술 정보 및 현재 상태 정보를 사전 훈련된 정책 생성 모델에 입력하여, 현재 비디오 클립에 대해 사전 생성된 액션 정책 집합 중의 각각의 액션 정책을 수행하는 확률 분포를 획득한다.

여기서, 정책 생성 모델은 예를 들어 강화 학습(reinforcement learning)을 통해 획득한 것일 수 있다. 강화 학습은 에이전트(Agent)에 의한 "시행착오" 방식의 학습을 가리키는 것으로, 이는 환경과의 상호작용으로부터 얻은 보상에 기초하여 행동을 안내하며, 그 목표는 에이전트에게 가장 큰 보상을 부여하는 것이다.

본 실시예에서, 학습의 목표는 특정 액션 정책을 획득하여, 최종적으로 비디오에서 기술 특징에 대응하는 비디오 클립의 위치를 정확하게 결정하는 것이므로, 보상을 적절하게 설정함으로써 에이전트가 점진적으로 비디오 중 기술 특징에 매칭하는 목표 비디오 클립의 위치를 결정하도록 할 수 있음을 이해할 수 있을 것이다.

예를 들어, 에이전트가 더 많은 횟수의 목표 비디오 클립 확정 단계를 실행하도록 하는 것은, 최종적으로 확정되는 목표 비디오 클립의 정확도를 향상시킬 수 있는 반면, 연산 코스트(연산량; computational cost)를 현저하게 증가시킬 수도 있음을 이해할 것이다. 따라서 강화 학습 과정에서 보상이 특정 평가 지표에 기초하여 결정된 정확도와 양의 상관관계를 갖도록 하고(positively correlated), 연산 코스트와 음의 상관관계를 갖도록 함(negatively correlated)으로써, 보다 낮은 연산 코스트로, 더 정확한 최종 훈련된 정책을 얻을 수 있다.

또한 사전 생성된 액션 정책 집합은 미리 설정된 복수의 액션 정책들을 포함할 수 있다. 예를 들어, 일부 선택적 실시예에서 액션 정책 집합은 다음과 같은 미리 설정된 액션 정책들을 포함할 수 있다: 즉, 현재 비디오 클립의 시작 시점과 종료 시점을 동시에 δ만큼 앞으로 이동하는 것, 현재 비디오 클립의 시작 시점과 종료 시점을 동시에 δ만큼 뒤로 이동하는 것, 현재 비디오 클립의 시작 시점을 δ만큼 앞으로 이동하는 것, 현재 비디오 클립의 시작 시점을 δ만큼 뒤로 이동하는 것, 현재 비디오 클립의 종료 시점을 δ만큼 앞으로 이동하는 것, 현재 비디오 클립의 종료 시점을 δ만큼 뒤로 이동하는 것, 및 정지(즉, 현재 비디오 클립의 시작 시점과 종료 시점에 그 어떠한 조정도 진행하지 않음) 등이 포함된다. 이때, δ는 소정의 미리 설정된 백분율 및 비디오의 총 길이에 기초하여 계산된 수치일 수 있다. 예를 들어, 사전 설정된 백분율이 10%이고, 비디오 총 길이가 1분인 경우, δ는 60초×10%=6초일 수 있다.

서브 단계(402c): 획득한 확률 분포를 기반으로 액션 정책 집합으로부터 현재 액션 정책을 확정한다.

강화 학습을 통해, 현재 비디오 클립에 대해 액션 정책 집합 중 각각의 액션 정책을 수행하는 확률 분포를 획득할 수 있다. 상기 확률 분포는 액션 정책 집합 중 각각의 액션 정책이 현재 가장 적합한 액션 정책인 확률로 이해될 수 있다. 다시 말하면, 확률 분포에서 비교적 큰 확률을 갖는 액션 정책은 가장 적합한 행동일 확률이 비교적 높다. 따라서 일부 선택적 실시예에서, 확률 분포에서 가장 높은 확률에 대응하는 액션 정책을 현재 액션 정책으로 확정할 수 있다.

본 실시예의 비디오에서 목표 비디오 클립의 위치를 결정하는 방법은 다음과 같은 단계를 더 포함한다.

단계(403): 미리 설정된 조건에 도달하는 것에 응답하여, 현재 비디오 클립에 대해 현재 액션 정책을 수행하여 획득한 비디오 클립을 목표 비디오 클립으로 사용한다.

단계(403)는 도 2에서 나타낸 실시예의 단계(203)와 유사한 방식으로 수행되므로 여기서 중복 설명은 생략하기로 한다.

또한 일부 선택적 실시예에서, 도 2에서 나타낸 실시예와 유사하게 미리 설정된 조건에 도달하지 않은 경우, 본 실시예의 방법도 마찬가지로 현재 비디오 클립에 대해 현재 액션 정책을 수행하여 획득한 비디오 클립을 업데이트된 현재 비디오 클립으로 사용하고, 다시 목표 비디오 클립 확정 단계를 수행한다.

일부 선택적 실시예에서, 본 실시예의 비디오에서 목표 비디오 클립의 위치를 결정하는 방법은 도 5에서 나타낸 정책 생성 모델(500)을 사용할 수 있다.

구체적으로 도 5와 같이, 정책 생성 모델은 기술 네트워크(501) 및 정책 생성 네트워크(502)를 포함할 수 있다.

기술 네트워크(501)는 복수의 완전 연결된 층들을 구비한 완전 연결된 유닛을 포함하고, 상기 완전 연결된 유닛은 사전 획득한 목표 비디오 클립의 기술 특징 및 상기 현재 상태 정보를 기반으로 현재 상태

를 생성한다.

예를 들어, 일부 선택적 실시예에서, 도 5와 같이 완전 연결된 유닛은 완전 연결된 층(F01, F02 및 F05)을 포함할 수 있다. 이때, 완전 연결된 층(F01)은 목표 비디오 클립의 기술 특징을 수신하고, 수신한 목표 비디오 클립의 기술 특징을 융합(fuse)하며, 융합된 특징을 출력할 수 있다. 이와 유사하게, 완전 연결된 층(F02)은 현재 비디오 클립의 특징을 나타내는 정보와 같은 현재 상태 정보를 수신하고, 수신한 현재 비디오 클립의 특징을 나타내는 정보를 융합하여 얻은 융합된 특징을 출력할 수 있다. 완전 연결된 층(F05)은 나아가 수신한 완전 연결된 층(F01) 및 완전 연결된 층(F02)의 출력을 융합하여, 융합된 특징, 즉 현재 상태

를 출력할 수 있다.

일부 선택적 실시예에서, 비디오의 특징 및 현재 비디오 클립의 특징을 설명하기 위해 더 많은 정보를 사용하고자 하는 경우, 기술 네트워크는 이러한 특징을 더 수신하고, 이러한 특징들을 융합하기 위해 추가로 완전 연결된 층을 제공할 수 있음을 이해할 것이다. 이에 따라 완전 연결된 유닛의 완전 연결된 층(F05) 또한 이러한 융합된 특징들을 수신하고, 이러한 융합된 특징들을 기반으로 현재 상태

를 획득할 수 있다.

예를 들어, 이러한 선택적 실시예의 일부 응용예에서, 현재 상태 정보는 현재 비디오 클립의 특징을 표시하는 정보 외에도, 비디오에서 현재 비디오 클립의 상대적 위치 특징을 표시하는 정보를 더 포함한다. 이러한 응용예에서 기술 네트워크(예컨대, 기술 네트워크의 완전 연결된 유닛)는 완전 연결된 층(F03)(도면에 도시되지 않음)을 더 포함할 수 있다. 상기 완전 연결된 층(F03)은 그가 수신한 비디오에서 현재 비디오 클립의 상대적 위치 특징을 표시하는 정보를 융합하고, 도 5에 나타낸 완전 연결된 층(F05)으로 출력할 수 있다. 완전 연결된 층(F05)은 완전 연결된 층(F01, F02 및 F03)으로부터 수신한 출력들을 더 융합함으로써, 융합된 특징, 즉 현재 상태

를 출력할 수 있다.

뿐만 아니라 이러한 응용예에서, 목표 비디오 클립 확정 단계를 실행하기 전에 실행 주체는 상기 비디오의 비디오 특징을 표시하는 비디오 특징 정보를 더 획득할 수 있다. 예를 들면, 실행 주체는 사전 훈련된 3차원 컨볼루션 신경망을 통해 비디오의 비디오 특징을 추출하여 비디오 특징 정보를 획득할 수 있다. 이때, 현재 비디오 클립의 비디오 특징을 추출하는 3차원 컨볼루션 신경망을 이용하여 전체 비디오의 비디오 특징을 추출할 수 있다. 이에 따라, 이러한 응용예에서 기술 네트워크(예컨대, 기술 네트워크의 완전 연결된 유닛)는 완전 연결된 층(F04)(도면에 도시되지 않음)을 추가적으로 더 포함할 수 있다. 상기 완전 연결된 층(F04)은 수신한 비디오의 비디오 특징을 표시하는 비디오 특징 정보를 융합하고, 이를 도 5에 나타낸 완전 연결된 층(F05)으로 출력할 수 있다. 완전 연결된 층(F05)은 완전 연결된 층(F01, F02, F03 및 F04)으로부터 수신한 출력들을 추가적으로 융합함으로써, 융합된 특징, 즉 현재 상태

를 출력할 수 있다.

정책 생성 네트워크(502)는 게이트 순환 네트워크(Gated Recurrent Unit，GRU)(502a) 및 제1 완전 연결된 층(502b)을 포함할 수 있다. 게이트 순환 네트워크(502a)는 현재 상태 정보

를 기반으로 은닉 상태를 생성하고, 제1 완전 연결된 층(502b)은 은닉 상태에 따라 확률 분포

를 생성한다. 여기서,

는 현재 상태

의 조건하에서, 각각의 액션 정책

의 확률 분포로 이해될 수 있다. 이때 액션 정책

는 미리 설정된 액션 정책 집합 A 내의 어느 한 액션 정책이다. 일부 응용예에서, 정책 생성 네트워크(502)는 분류기(도면에 도시되지 않음)를 더 포함할 수 있다. 분류기는 예를 들어 Softmax 분류기일 수 있다. 분류기는 제1 완전 연결된 층(502b)에서 출력한 확률 분포를 정규화하여, 정규화된 확률 분포 중에서 액션 정책 집합 중 각각의 액션 정책에 대응하는 확률의 합이 1이 되도록 할 수 있다.

정책 생성 모델을 사용하여 현재 액션 정책을 확정하기 전에 정책 생성 모델을 훈련시켜야 함은 물론이다.

이때, 미리 설정된 손실 함수를 기반으로 도출된 누적 손실값을 이용하여 초기 정책 생성 모델을 훈련시켜, 훈련된 정책 생성 모델을 획득할 수 있다.

일부 선택적 실시예에서, 누적 손실값은 도 6에 나타낸 과정을 통해 도출될 수 있다.

구체적으로, 먼저 훈련 샘플 비디오와 훈련 샘플 비디오의 현재 비디오 클립을 현재 정책 생성 모델에 입력하되, 상기 훈련 샘플 비디오의 현재 비디오 클립은 훈련 샘플 비디오의 목표 비디오 클립의 현재 위치 정보를 기반으로 확정된 것이다. 그리고 반복 단계(601)를 수행한다.

구체적으로 반복 단계(601)는 다음 단계들을 더 포함한다.

서브 단계(601a): 현재 정책 생성 모델의 기술 네트워크를 기반으로 훈련 샘플 비디오의 현재 상태를 확정한다. 여기서, 훈련 샘플 비디오의 현재 상태는 예를 들어, 훈련 샘플 비디오에서 사전 라벨링된 목표 비디오 클립의 기술 특징, 훈련 샘플 비디오의 현재 비디오 클립의 현재 상태 정보(예컨대, 현재 비디오 클립의 특징을 표시하는 정보, 비디오에서 현재 비디오 클립의 상대적 위치 특징을 표시하는 정보) 및 훈련 샘플 비디오의 비디오 특징 정보에 기초하여 획득할 수 있다. 그 밖에 정책 생성 모델의 훈련 과정에서, 정책 생성 모델의 파라미터가 변경되는 것임을 이해할 것이다. 따라서 이러한 현재 정책 생성 모델은 초기 정책 생성 모델이거나 한번 또는 여러 차례의 누적 손실값의 역전파를 거쳐, 초기 정책 생성 모델의 파라미터를 조정한 후 획득한 정책 생성 모델일 수 있다.

서브 단계(601b): 확정된 훈련 샘플 비디오의 현재 상태를 현재 정책 생성 모델의 정책 생성 네트워크에 입력하여 현재 정책 생성 모델 및 훈련 샘플 비디오의 현재 상태 하에서의 현재 확률 분포를 획득한다.

서브 단계(601c): 확정된 현재 확률 분포를 기반으로 미리 설정된 손실 함수를 이용하여 현재 반복 단계의 손실값을 확정한다.

서브 단계(601d): 현재 반복 단계의 손실값과 이전 반복 단계의 손실값의 합을 현재 반복 단계의 업데이트된 손실값으로 사용한다.

이어서, 단계(602)에서 반복 종료 조건에 도달하지 못한 것에 응답하여, 현재 확률 분포를 기반으로 현재 위치를 업데이트하고 반복 단계(601)를 다시 수행한다.

단계(603): 반복 종료 조건에 도달하는 것에 응답하여, 마지막 반복 단계를 실행하여 획득한 현재 반복 단계의 업데이트된 손실값을 누적 손실값으로 사용한다.

이러한 방식으로, 반복 단계(601)를 실행하고 현재 반복 단계의 손실값 및 현재 위치를 점진적으로 업데이트함으로써, 매번 계산된 손실값을 반복 종료 조건에 도달할 때까지 누적할 수 있다.

이하 도 7을 참조하여 누적 손실값을 확정하는 방식에 대해 설명하고자 한다.

도 7에서는 도 5와 같은 구조의 정책 생성 모델을 사용하여 예시적으로 설명한다. 해당 분야의 기술자들은 현재 상태 정보가 표시하는 특징이 상이할 경우, 정책 생성 모델의 기술 네트워크도 또한 상이한 구조(예컨대, 상이한 수량의 완전 연결된 층을 가짐)를 갖는다는 것을 이해할 수 있다. 유사하게, 훈련 샘플 비디오의 비디오 특징을 표시하는 비디오 특징 정보가 또한 기술 네트워크에 입력되면, 정책 생성 모델의 기술 네트워크는 특징 정보를 융합하기 위해 추가로 완전 연결된 층(예컨대, 앞에서 설명한 것과 같은 완전 연결된 층(F04))을 제공할 것이며, 이는 최종적으로 생성된 현재 상태(즉, 기술 네트워크(701)의 출력)에 반영된다.

도 7과 같이, 우선 훈련 샘플 비디오에서 목표 비디오 클립의 초기 위치

을 확정하고, 상기 초기 위치를 기반으로 확정된 훈련 샘플 비디오의 현재 비디오 클립의 특징 정보, 미리 확정된 훈련 샘플 비디오의 기술 정보를 기술 네트워크(701)에 입력하여 현재 상태

을 획득한다.

이어서, 현재 상태

을 정책 생성 네트워크(702)에 입력하여 현재 정책 생성 모델 및 훈련 샘플 비디오의 현재 상태

하에서의 현재 확률 분포

를 획득한다. 이때

는 현재 정책 생성 모델의 모델 파라미터이다.

이어서, 확정된 현재 확률 분포

를 기반으로, 미리 설정된 손실 함수를 이용하여 현재 반복 단계의 손실값

을 결정한다. 여기서, 반복 단계를 실행하기 전에 현재 반복 단계의 손실값은 초기값

을 가질 수 있음을 이해할 수 있다.

이어서, 현재 반복 단계의 손실값과 이전 반복 단계의 손실값의 합을 현재 반복 단계의 업데이트된 손실값으로 사용한다. 즉 업데이트된

은 업데이트된

과

의 합이다. 이로써 현재 반복 단계의 손실값의 업데이트가 완성된다.

이어서, 반복 종료 조건이 현재 도달하였는지 여부를 판단한다. 예를 들어,

회 반복 단계를 실행하는 것을 반복 종료 조건으로 설정하면, 현재 수행 횟수가

에 도달하지 않을 경우 현재 확률 분포

를 기반으로 현재 위치를

로 업데이트하고, 반복 단계를 다시 수행한다.

이로써, 현재 위치가

로 업데이트 되었으므로 현재 상태도 대응하여

로 업데이트되며, 최종적으로 획득한 확률 분포

도 또한 새로운 현재 상태

를 기반으로 획득된다. 뿐만 아니라 반복 단계를 다시 수행함으로써 현재 반복 단계의 손실값

를 업데이트 이전의

와

의 합으로 업데이트할 수 있다.

현재 반복 단계의 손실값과 현재 위치를 끊임없이 업데이트하고, 손실값을 점진적으로 누적하여, 반복 종료 조건에 도달할 경우 최종적인 누적 손실값을 획득할 수 있다.

위에서 설명한 것과 같이, 본 실시예의 정책 생성 모델은 강화 학습 방식의 훈련을 통해 획득할 수 있다. 최종적으로 위치 결정된 목표 비디오의 정확도 및 연산 코스트 부담을 종합적으로 고려하기 위해, 일부 선택적 실시예에서, 특정 회 반복 단계를 실행하는 보상

는 아래의 수학식(1)을 사용하여 설정될 수 있다.

상기 수학식(1)에서,

은

을 만족하는 미리 설정된 패널티 계수(penalty factor)이다. 따라서,

는 음수이고, 반복 단계가 실행되는 횟수 t가 증가할수록,

도 따라서 증가한다.

또한 상기 수학식(1)에서

를 제t 단계의 IoU로 이해할 수 있고,

는 아래의 수학식(2)을 통해 결정될 수 있다.

여기에서

는 훈련 샘플 비디오가 제t 번째 반복 단계(즉, 제t 단계)를 수행한 후에 위치 결정된 현재 비디오 클립이 훈련 샘플 비디오에서 위치하는 시간구간이며, 마찬가지로

는 제t 단계 이후 훈련 샘플 비디오 중에서 현재 비디오 클립의 시작 시점,

는 제t 단계 이후 현재 비디오 클립의 종료 시점이다.

는 훈련 샘플 비디오에서 사전 라벨링된 목표 비디오 클립이 상기 훈련 샘플 비디오에서 위치하는 시간구간이다. 마찬가지로,

는 상기 훈련 샘플 비디오에서 사전 라벨링된 목표 비디오 클립이 위치하는 시작 시점이고,

는 상기 훈련 샘플 비디오에서 사전 라벨링된 목표 비디오 클립이 위치하는 종료 시점이다.

상기 위치 결정 과정은 하나의 순차적 의사결정 문제(sequential decision making problem)로서 모델링되는 것으로 이해될 수 있으며, 이의 궁극적인 목표는

로 되도록 하는 것이다. 따라서 후속 단계에서의 보상은 현재 단계로 추적되어야 한다. 이때 누적 보상 R _t는 아래의 수학식(3)을 통해 결정될 수 있다.

여기에서

은

을 만족하는 미리 설정된 감쇠 계수이를 나타내고,

는 훈련 샘플 비디오에 대해 도 6에서 나타낸 반복 단계를 실행하는 미리 설정된 최대 횟수를 나타낸다.

전술한 바와 같이, 누적 보상 R _t를 최대화하기 위해, 누적 손실 함수는 미리 설정된 누적 보상함수 R _t에 기초하여 결정된 제1 구성 요소를 포함할 수 있다. 구체적으로 제1 구성 요소는 아래와 같은 수학식(4)을 이용하여 설정될 수 있다.

수학식(4)에서,

는 도 6에서 나타낸 반복 단계(601)를 수행할 때마다, 현재 정책 생성 모델 및 훈련 샘플 비디오의 현재 상태하에서 확정된 현재 확률 분포를 나타내다. 또한, 상기 현재 확률 분포는 액션 정책 집합 A 중 각각의 액션 정책

가 사용될 확률의 확률 분포이다.

이와 같이, 미리 설정된 손실 함수를 기반으로 도출된 누적 손실값을 사용하여 초기 정책 생성 모델을 훈련시킴에 있어서, 상기 제1 구성 요소로부터 결정된 누적 손실값의 역전파를 기반으로, 도 5에 나타낸 정책 생성 네트워크 중 게이트 순환 네트워크, 제1 완전 연결된 층 및 완전 연결된 유닛 각각의 파라미터(

)를 조정할 수 있다. 구체적으로, 예를 들어, 확률적 경사 하강법(Stochastic gradient descent algorithm)을 통해

를 최소화하여, 최소화된

에 대응하는

를 획득할 수 있다.

일부 선택적 실시예에서, 본 실시예의 비디오에서 목표 비디오 클립의 위치를 결정하는 방법은 도 8에 나타낸 정책 생성 모델(800)을 더 사용할 수 있다.

도 5에 나타낸 정책 생성 모델과 유사하게, 도 8의 정책 생성 모델도 기술 네트워크(801) 및 정책 생성 네트워크(802)를 포함할 수 있다. 또한 기술 네트워크(801)는 도 5의 기술 네트워크(501)와 유사한 구조로 구성될 수 있다.

뿐만 아니라, 도 8의 정책 생성 모델에서, 정책 생성 네트워크(802)도 게이트 순환 네트워크(802a) 및 제1 완전 연결된 층(802b)을 포함할 수 있다. 선택적으로, 도 8의 정책 생성 모델도 역시 제1 완전 연결된 층(802b)의 출력단에 연결된 분류기(도면에 도시되지 않음)를 포함할 수 있다.

도 5의 정책 생성 모델과 비교 시, 도 8의 정책 생성 모델의 정책 생성 네트워크(802)는 제2 완전 연결된 층(802c)을 추가적으로 더 포함한다는 것에 차이가 있다.

제2 완전 연결된 층(802c)은 은닉 상태에 따라 현재 상태 정보에 대응하는 보상 예측값

를 생성하며, 여기서

는 제2 완전 연결된 층(802c)의 모델 파라미터이다.

도 8의 정책 생성 네트워크의 구조를 바탕으로, 누적 보상 R _t를 최대화하고 보상 예측값을 최대한 실제 누적 보상 R _t에 근접하도록 하기 위해, 손실 함수는 아래의 수학식(5)을 이용하여 설정된 손실 함수의 제1 구성 요소를 포함할 뿐만 아니라, 보상 예측값과 보상함수에 의해 결정되는 실제 보상값 사이의 편차를 표시하는 제2 구성 요소(이하 수학식(6)으로 표시됨)을 더 포함할 수 있다.

따라서, 미리 설정된 손실 함수를 기반으로 도출된 누적 손실값을 이용하여 초기 정책 생성 모델을 훈련시켜, 훈련된 정책 생성 모델을 획득함에 있어서, 상기 제1 구성 요소로부터 결정된 누적 손실값의 역전파를 기반으로 게이트 순환 네트워크, 제1 완전 연결된 층 및 완전 연결된 유닛 각각의 파라미터(

)와 제2 완전 연결된 층의 파라미터(

)를 조정할 수 있고, 제2 구성 요소로부터 결정된 누적 손실값의 역전파를 기반으로 게이트 순환 네트워크, 제2 완전 연결된 층 및 완전 연결된 유닛 각각의 파라미터(

)를 더 조정할 수 있다.

그 밖에, 도 8의 정책 생성 모델을 사용하는 일부 응용예에서, 확률 분포

를 기반으로 액션 정책 집합으로부터 확정되는 액션 정책의 다양성을 증가시키기 위해, 손실 함수는 아래의 수학식(7)으로부터 결정되는 제3 구성 요소를 더 포함할 수 있으며, 이러한 제3 구성 요소는 제1 완전 연결된 층에 의해 출력되는 확률 분포의 엔트로피를 나타낸다.

이러한 응용예에서, 미리 설정된 손실 함수를 기반으로 도출된 누적 손실값을 이용하여 초기 정책 생성 모델을 훈련시켜, 훈련된 정책 생성 모델을 획득함에 있어서, 제3 구성 요소로부터 결정된 누적 손실값의 역전파를 기반으로 게이트 순환 네트워크, 제1 완전 연결된 층 및 완전 연결된 유닛 각각의 파라미터를 조정할 수도 있다.

실제 응용에서, 수학식(5) 내지 수학식(7)으로부터 결정된 손실 함수의 가중치 합에 기초하여 수학식(8)의 손실 함수를 획득하며, 수학식(8)의 손실 함수에 의해 결정된 누적 손실값을 이용하여 정책 생성 모델을 훈련시킬 수도 있다.

여기서

과

은 모두 미리 설정된 계수이다.

일부 선택적 실시예에서, 본 실시예의 비디오에서 목표 비디오 클립의 위치를 결정하는 방법은 도 9의 정책 생성 모델(900)을 사용할 수도 있다.

도 9의 정책 생성 모델도 역시 기술 네트워크(901) 및 정책 생성 네트워크(902)를 포함한다. 또한 기술 네트워크(901)는 도 5의 기술 네트워크(501), 도 8의 기술 네트워크(801)와 유사한 구조로 구성될 수 있다. 이와 같이, 정책 생성 네트워크(902)도 도 5의 정책 생성 네트워크(502)와 유사한 구조인, 즉 정책 생성 네트워크(902)가 게이트 순환 네트워크(902a) 및 제1 완전 연결된 층(902b)만 포함하는 구조를 가질 수 있다. 또는 정책 생성 네트워크(902)는 도 8의 정책 생성 네트워크(802)와 유사한 구조인, 즉 정책 생성 네트워크(902)가 게이트 순환 네트워크(902a), 제1 완전 연결된 층(902b) 및 제2 완전 연결된 층(902c)을 포함하는 구조를 가질 수도 있다. 선택적으로, 도 9의 정책 생성 모델도 역시 제1 완전 연결된 층(902b)의 출력단에 연결된 분류기(도면에 도시되지 않음)를 포함할 수 있다.

도 5 및 도 8의 정책 생성 모델과 달리, 도 9의 정책 생성 모델은 위치 회귀 네트워크(903)를 더 포함한다. 또한 도 9에 도시된 바와 같이, 위치 회귀 네트워크(903)는 기술 네트워크(901)에 연결된 제3 완전 연결된 층(903a) 및 제4 완전 연결된 층(903b)을 포함할 수 있다.

도 9의 정책 생성 모델의 구조를 바탕으로, 도 6의 과정을 이용하여 누적 손실값을 도출함에 있어서, 반복 단계는 추가적으로 다음과 같은 단계를 더 포함한다.

훈련 샘플 비디오의 현재 상태

를 제3 완전 연결된 층(903a)에 입력하여 훈련 샘플 비디오의 예측 IoU를 도출하고, 훈련 샘플 비디오의 현재 상태

를 제4 완전 연결된 층에 입력하여 훈련 샘플 비디오의 목표 비디오 클립의 예측 위치를 획득한다.

손실 함수는 제4 구성 요소 및 제5 구성 요소를 더 포함하고, 여기서 제4 구성 요소는 현재 반복 단계에서 제3 완전 연결된 층에 의해 출력된 훈련 샘플 비디오의 예측 IoU와 이전 반복 단계에서 출력된 훈련 샘플 비디오의 예측 IoU 사이의 편차를 나타내도록 구성되고, 제5 구성 요소는 제4 완전 연결된 층에 의해 출력된 훈련 샘플 비디오 중 목표 비디오 클립의 훈련 샘플 비디오에서의 예측 위치와 훈련 샘플 비디오에 라벨링된 목표 비디오 클립의 실제 위치 사이의 편차를 나타내도록 구성된다.

예를 들어, 손실 함수의 제4 구성 요소는 아래의 수학식(9)으로부터 결정된다.

손실 함수의 제5 구성 요소는 아래의 수학식(10)으로부터 결정된다.

상기 수학식(9)에서,

는 해당 차례의 반복 단계에서 제3 완전 연결된 층(903a)에 의해 출력된 예측 IoU이고,

는 이전 차례의 반복 단계에서 출력된 훈련 샘플 비디오의 IoU이다. 이때

는 전술한 수학식(2)으로부터 결정될 수 있다.

마찬가지로, 미리 설정된 손실 함수를 기반으로 도출된 누적 손실값을 이용하여 초기 정책 생성 모델을 훈련시켜, 훈련된 정책 생성 모델을 획득하는 것은 다음과 같은 단계를 더 포함한다.

손실 함수의 제4 구성 요소 및 제5 구성 요소로부터 도출된 누적 손실값의 역전파를 기반으로, 완전 연결된 유닛, 제3 완전 연결된 층 및 제4 완전 연결된 층 각각의 파라미터를 조정한다.

실제 응용에서, 수학식(9) 내지 수학식(10)으로부터 결정된 손실 함수의 가중치 합을 기반으로 수학식(11)에 나타낸 손실 함수를 획득할 수 있고, 수학식(8)의 손실 함수에 의해 도출된 누적 손실값을 이용하여 완전 연결된 유닛, 제3 완전 연결된 층 및 제4 완전 연결된 층 각각의 파라미터를 조정한다.

여기서,

는 미리 설정된 계수이다.

또한, 도 9에 도시된 정책 생성 모델을 훈련함에 있어서, 손실 함수는수학식 에 도시된 완전 연결된 유닛, 제3 및 제4 완전 연결된 층의 파라미터를 조정하기 위한 구성 요소 뿐만 아니라, 수학식 (4) 또는 (5)에 도시된 게이트 반복 유닛, 제1 완전 연결된 층 및 완전 연결된 유닛의 파라미터를 조정하기 위한 구성 요소들을 더 포함 할 수 있음을 이해할 수 있다. 또한, 손실 함수는 수학식 (6)에 도시된 바와 같이 게이트 반복 유닛, 제2 완전 연결된 층 및 완전 연결된 유닛의 파라미터를 조정하기 위한 구성 요소를 포함할 수 있다. 또한, 손실 함수는 수학식 (7)에 도시된 바와 같이 게이트 반복 유닛, 제1 완전 연결된 층 및 완전 연결된 유닛의 파라미터를 조정하기 위한 구성 요소를 포함할 수도 있다.

즉, 일부 선택적 실시예에서, 도 9에 도시된 정책 생성 모델을 훈련함에 있어서, 손실 함수는 수학식(8)에 표시된 L1 및 수학식(11)에 표시된 L2의 가중 합에 기초하여 결정될 수 있다.

도 10을 참고하면, 상기 각 도면의 방법의 구현으로서, 본 출원은 비디오에서 목표 비디오 클립의 위치를 결정하는 장치의 일 실시예를 제공하며, 상기 장치의 실시예는 도 2의 방법 실시예와 서로 대응되고, 상기 장치는 다양한 전자기기에 적용될 수 있다.

도 10과 같이, 본 실시예의 비디오에서 목표 비디오 클립의 위치를 결정하는 장치는 확정 유닛(1001), 실행 유닛(1002) 및 생성 유닛(1003)을 포함한다.

확정 유닛(1001)은 비디오에서 현재 위치를 기반으로 현재 비디오 클립을 확정한다.

실행 유닛(1002)은 사전 생성된 목표 비디오 클립의 기술 특징을 표시하는 기술 정보를 획득하고, 다음과 같은 목표 비디오 클립 확정 단계를 실행한다. 상기 확정 단계는, 현재 비디오 클립의 특징을 표시하는 정보를 포함하는 현재 비디오 클립의 현재 상태 정보를 확정하는 것과, 상기 기술 정보와 상기 현재 상태 정보를 기반으로 현재 액션 정책을 생성하는 것을 포함하며, 상기 현재 액션 정책은 비디오에서 현재 비디오 클립의 위치 변화를 표시한다.

생성 유닛(1003)은 미리 설정된 조건에 도달하는 것에 응답하여, 현재 비디오 클립에 대해 현재 액션 정책을 수행하여 획득한 비디오 클립을 목표 비디오 클립으로 사용한다.

일부 선택적 실시예에서, 생성 유닛(1003)은 미리 설정된 조건에 도달하지 못한 것에 응답하여, 현재 비디오 클립에 대해 현재 액션 정책을 수행하여 획득한 비디오 클립을 업데이트된 현재 비디오 클립으로 사용하고, 목표 비디오 클립 확정 단계를 다시 수행하도록 더 구성될 수 있다.

일부 선택적 실시예에서, 실행 유닛(1002)은 기술 정보 및 현재 상태 정보를 사전 훈련된 정책 생성 모델에 입력하여, 현재 비디오 클립에 대해 사전 생성된 액션 정책 집합 중의 각각의 액션 정책을 수행하는 확률 분포를 획득하고; 획득한 확률 분포를 기반으로 상기 액션 정책 집합에서 현재 액션 정책을 확정하도록 더 구성될 수 있다.

일부 선택적 실시예에서, 정책 생성 모델은 기술 네트워크 및 정책 생성 네트워크를 포함하고; 기술 네트워크는 복수의 완전 연결된 층들을 갖는 완전 연결된 유닛을 포함하고, 상기 완전 연결된 유닛은 사전 획득한 목표 비디오 클립의 기술 특징 및 상기 현재 상태 정보를 기반으로 현재 상태를 생성하며; 정책 생성 네트워크는 게이트 순환 네트워크 및 제1 완전 연결된 층을 포함하고, 게이트 순환 네트워크는 현재 상태를 기반으로 은닉 상태를 생성하도록 구성되고, 제1 완전 연결된 층은 은닉 상태에 따라 확률 분포를 생성한다.

일부 선택적 실시예에서, 본 실시예의 비디오에서 목표 비디오 클립의 위치를 결정하는 장치는 획득 유닛(도면에 도시되지 않음)을 더 포함할 수 있다. 획득 유닛은, 실행 유닛에 의해 목표 비디오 클립 확정 단계를 실행하기 이전에 비디오의 비디오 특징을 표시하는 비디오 특징 정보를 획득하도록 구성되고; 기술 네트워크는 비디오 특징 정보를 기반으로 현재 상태를 생성하도록 더 구성된다.

일부 선택적 실시예에서, 현재 상태 정보는 비디오에서 현재 비디오 클립의 상대적 위치 특징을 표시하는 정보를 더 포함한다.

일부 선택적 실시예에서, 본 실시예의 비디오에서 목표 비디오 클립의 위치를 결정하는 장치는 훈련 유닛(도면에 도시되지 않음)을 더 포함할 수 있다. 훈련 유닛은 미리 설정된 손실 함수를 기반으로 도출된 누적 손실값을 이용하여 초기 정책 생성 모델을 훈련시켜, 훈련된 정책 생성 모델을 획득하도록 구성되고; 누적 손실값은, 훈련 샘플 비디오와 훈련 샘플 비디오의 목표 비디오 클립의 현재 위치 정보를 기반으로 확정된 훈련 샘플 비디오의 현재 비디오 클립을 현재 정책 생성 모델에 입력하는 것; 및 반복 단계를 실행하는 것을 포함하는 확정 단계를 통해 확정된다. 상기 반복 단계는, 현재 정책 생성 모델의 기술 네트워크를 기반으로 훈련 샘플 비디오의 현재 상태를 확정하는 것; 확정된 훈련 샘플 비디오의 현재 상태를 현재 정책 생성 모델의 정책 생성 네트워크에 입력하여, 현재 정책 생성 모델 및 훈련 샘플 비디오의 현재 상태에서의 현재 확률 분포를 획득하는 것; 확정된 현재 확률 분포를 기반으로 미리 설정된 손실 함수를 이용하여 현재 반복 단계의 손실값을 확정하는 것; 및 현재 반복 단계의 손실값과 이전 반복 단계의 손실값의 합을 현재 반복 단계의 업데이트된 손실값으로 사용하는 것을 포함한다. 상기 확정 단계는 반복 종료 조건에 도달하지 못한 것에 응답하여, 현재 확률 분포를 기반으로 현재 위치를 업데이트하고, 반복 단계를 다시 수행하는 것; 및 반복 종료 조건에 도달하는 것에 응답하여, 마지막 반복 단계를 실행하여 획득한 현재 반복 단계의 업데이트된 손실값을 누적 손실값으로 사용하는 것을 더 포함한다.

일부 바랍직한 실시예에서, 손실 함수는 미리 설정된 누적 보상함수에 기초하여 결정된 제1 구성 요소를 포함할 수 있고; 훈련 유닛은 상기 제1 구성 요소로부터 결정된 누적 손실값의 역전파를 기반으로 게이트 순환 네트워크, 제1 완전 연결된 층 및 완전 연결된 유닛 각각의 파라미터를 조정하도록 더 구성된다.

일부 선택적 실시예에서, 정책 생성 네트워크는 제2 완전 연결된 층을 더 포함할 수 있고; 제2 완전 연결된 층은 은닉 상태에 따라 현재 상태 정보에 대응하는 보상 예측값을 생성하며; 손실 함수는 보상 예측값과 상기 보상함수에 기초하여 결정된 실제 보상값 사이의 편차를 나타내는 제2 구성 요소를 더 포함한다.

일부 선택적 실시예에서, 훈련 유닛은 제1 구성 요소로부터 결정된 누적 손실값의 역전파를 기반으로 제2 완전 연결된 층의 파라미터를 조정하고; 제2 구성 요소로부터 결정된 누적 손실값의 역전파를 기반으로 게이트 순환 네트워크, 제2 완전 연결된 층 및 완전 연결된 유닛 각각의 파라미터를 조정하도록 더 구성될 수 있다.

일부 선택적 실시예에서, 손실 함수는 제1 완전 연결된 층에 의해 출력된 확률 분포의 엔트로피를 표시하는 제3 구성 요소를 더 포함할 수 있고; 훈련 유닛은 제3 구성 요소로부터 결정된 누적 손실값의 역전파를 기반으로 게이트 순환 네트워크, 제1 완전 연결된 층 및 완전 연결된 유닛 각각의 파라미터를 조정하도록 더 구성된다.

일부 선택적 실시예에서, 정책 생성 모델은 위치 회귀 네트워크를 더 포함하고; 위치 회귀 네트워크는 기술 네트워크에 연결된 제3 완전 연결된 층 및 제4 완전 연결된 층을 포함한다.

일부 선택적 실시예에서, 훈련 유닛은 현재 정책 생성 모델의 기술 네트워크를 기반으로 훈련 샘플 비디오의 현재 상태를 확정한 이후, 훈련 샘플 비디오의 현재 상태를 제3 완전 연결된 층에 입력하여 훈련 샘플 비디오의 예측 IoU를 도출하고; 훈련 샘플 비디오의 현재 상태를 제4 완전 연결된 층에 입력하여 훈련 샘플 비디오의 목표 비디오 클립의 예측 위치를 획득하도록 더 구성될 수 있으며; 손실 함수는 제4 구성 요소 및 제5 구성 요소를 더 포함하고; 훈련 유닛은 손실 함수의 제4 구성 요소 및 제5 구성 요소로부터 결정 누적 손실값의 역전파를 기반으로 완전 연결된 유닛, 제3 완전 연결된 층 및 제4 완전 연결된 층 각각의 파라미터를 조정하도록 더 구성되되, 상기 제4 구성 요소는 현재 반복 단계에서 제3 완전 연결된 층에 의해 출력된 훈련 샘플 비디오의 예측 IoU와 이전 반복 단계에서 출력된 훈련 샘플 비디오의 예측 IoU 사이의 편차를 나타내도록 구성되고, 상기 제5 구성 요소는 제4 완전 연결된 층에 의해 출력된 훈련 샘플 비디오 중 목표 비디오 클립의 훈련 샘플 비디오에서의 예측 위치와 훈련 샘플 비디오에 라벨링된 목표 비디오 클립의 실제 위치 사이의 편차를 나타내도록 구성된다.

이하 도 11에서는, 본 출원의 실시예의 비디오에서 목표 비디오 클립의 위치를 결정하는 방법을 구현하는 전자기기의 컴퓨터 시스템(1100) 구조의 개략도를 나타낸다. 도 11의 전자기기는 예시에 불과한 것으로, 본 출원의 실시예의 기능 및 사용범위는 그 어떠한 방식으로도 이에 제한되지 않는다.

도 11과 같이 컴퓨터 시스템(1100)은 프로세서(1101; 예컨대, 중앙 처리 장치; CPU)를 포함하고, 상기 프로세서(1101)는 읽기 전용 메모리(ROM; 1102)에 저장된 컴퓨터 프로그램 명령어 또는 저장 장치(1106)로부터 랜덤 액세스 메모리(RAM; 1103)에 로딩된 프로그램에 따라 다양한 적절한 동작 및 처리를 수행할 수 있다. RAM(1103)에는 시스템(1100) 작업에 필요한 다양한 프로그램 및 데이터가 저장될 수도 있다. CPU(1101), ROM(1102), RAM(1103)은 버스(1104)를 통해 서로 연결된다. 입출력(I/O) 인터페이스(1105)도 버스(1104)에 연결된다.

하드디스크 등을 포함하는 저장 장치(1106); 및 LAN카드, 모뎀 등을 포함하는 네트워크 인터페이스 카드의 통신 장치(1107)는 I/O 인터페이스(1105)에 연결된다. 통신 장치(1107)는 인터넷과 같은 네트워크를 통해 통신 처리를 수행한다. 구동 장치(1108)도 필요에 따라 I/O 인터페이스(605)에 연결된다. 자기 디스크, 광 디스크, 광 자기 디스크 및 반도체 메모리 등 착탈 가능한 매체(1109)는 필요에 따라 구동 장치(1108)에 장착되어, 그로부터 판독되는 컴퓨터 프로그램의 저장 장치(1106)로의 설치를 용이하게 한다.

특히 본 출원의 실시예에 따라, 위에서 흐름도를 참고하여 설명한 과정은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 예를 들어, 본 출원의 실시예는 컴퓨터 판독 가능한 매체에 탑재된 컴퓨터 프로그램을 가진 컴퓨터 프로그램 제품을 포함하고, 상기 컴퓨터 프로그램에는 흐름도에 나타낸 방법을 수행하는 프로그램 코드가 포함된다. 이러한 실시예에서 상기 컴퓨터 프로그램은 통신 장치(1107)를 통해 네트워크로부터 다운로드, 설치 및/또는 착탈 가능한 매체(1109)에 설치될 수 있다. 중앙 처리 장치(CPU; 1101)에 의해 실행될 경우, 컴퓨터 프로그램은 본 출원의 실시예의 방법에 한정된 상기 기능을 수행한다. 본 출원에서 설명한 컴퓨터 판독 가능한 매체는 컴퓨터 판독 가능한 신호 매체 이거나 컴퓨터 판독 가능한 저장 매체 또는 상기 두 가지 매체의 임의 조합일 수 있다. 컴퓨터 판독 가능한 저장 매체는 전기, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 이들의 임의 조합일 수 있으나 이에 제한되지 않는다. 컴퓨터 판독 가능한 저장 매체의 더 구체적인 예에는 하나 또는 복수의 배선을 구비한 전기적 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 비휘발성 반도체 기억 장치(EPROM 또는 플래시 메모리), 광섬유, 읽기용 콤팩트 디스크 기억 장치(CD-ROM), 광 메모리, 자기 메모리 또는 이들의 적절한 조합을 포함할 수 있으나 이에 제한되지 않는다. 본 출원에서, 컴퓨터 판독 가능한 저장 매체는 프로그램을 포함하거나 저장한 유형의 매체일 수 있고, 상기 프로그램은 명령 실행 시스템, 장치 또는 부품에 의해 사용되거나 이들과 결합되어 사용될 수 있다. 또한 본 출원에서 컴퓨터 판독 가능한 신호 매체는 기저대역에서 전파되는 또는 컴퓨터 판독 가능한 프로그램 코드를 탑재한 반송파의 일 부분으로서 전파되는 데이터 신호를 포함할 수 있다. 이렇게 전파되는 데이터 신호는 전자기 신호, 광신호 또는 양자의 임의 적절한 조합을 포함하는 다양한 형식을 사용할 수 있으나 이에 제한되지 않는다. 컴퓨터 판독 가능한 신호 매체는 컴퓨터 판독 가능한 저장 매체 외 임의의 컴퓨터 판독 가능한 매체일수도 있으며, 상기 컴퓨터 판독 가능한 매체는 명령 실행 시스템, 장치에 의해 사용되거나 이들과 결합하여 사용되는 프로그램을 송신, 전파 또는 전송할 수 있다. 컴퓨터 판독 가능한 매체에 포함된 프로그램 코드는 무선, 전선, 광케이블, RF(주파수) 등 또는 이들의 임의의 적절한 조합을 포함한 메체로 전파될 수 있으나, 이에 제한되지 않는다.

하나 또는 복수 유형의 프로그래밍 언어 또는 이들의 조합으로 본 출원의 작업을 수행하는 컴퓨터 프로그램 코드를 프로그래밍할 수 있고, 상기 프로그래밍 언어는 Java, Smalltalk, C++와 같은 객체를 위한 프로그래밍 언어를 포함하고, C 언어 또는 이와 유사한 절차식 프로그래밍 언어도 포함한다. 프로그램 코드는 전적으로 사용자 컴퓨터에서 실행되거나, 부분적으로 사용자 컴퓨터에서 실행되거나, 독립형 소프트웨어 패키지로 실행되거나, 일부분은 사용자의 컴퓨터에서 그리고 다른 일부분은 원격 컴퓨터에서 실행되거나, 또는 전적으로 원격 컴퓨터 또는 서버에서 실행될 수 있다. 원격 컴퓨터와 연관된 환경에서, 원격 컴퓨터는 근거리 통신망(LAN) 또는 광역 통신망(WAN)을 포함하는 임의의 네트워크를 통해 사용자 컴퓨터에 연결되거나, 외부 컴퓨터(예컨대, 인터넷 제공업체를 통해 인터넷에 연결됨)에 연결될 수 있다.

도면의 흐름도와 블록도는 본 출원의 다양한 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 구현 가능한 아키텍처, 기능 및 작업을 나타낸다. 여기에서 흐름도 또는 블록도의 각 블록들은 하나의 모듈, 프로그램 세그먼트 또는 코드의 일부를 나타낼 수 있고, 상기 모듈, 프로그램 세그먼트 또는 코드의 일부에는 규정된 논리적 기능을 구현하는 실행 가능한 명령이 하나 이상 포함되어 있다. 또한 일부 대체적인 실시예에서, 블록에 표시된 기능은 도면에 표시된 순서와 다른 순서로도 작동될 수 있음을 주의하여야 한다. 예를 들어 연속적으로 표시된 두 개의 틀은 실제 구현에서 기본상 병행으로 수행될 수 있고, 때로는 역순서로 수행될 수도 있으며, 이는 관련되는 기능에 따라 정해진다. 블록도 및/또는 흐름도의 각 블록 또는 블록도 및/또는 흐름도의 블록의 조합은 규정된 기능 또는 작업을 수행하는 하드웨어 기반의 전용 시스템으로 구현되거나, 전용 하드웨어와 컴퓨터 명령 조합으로 구현될 수 있다.

본 출원의 실시예 설명에서 언급한 장치는 소프트웨어 방식으로 구현될 수 있고, 하드웨어 방식으로도 구현될 수 있다. 설명한 장치는 처리 장치에 설치될 수도 있다. 예를 들어, 확정 유닛, 실행 유닛 및 생성 유닛을 포함하는 처리 장치로 표현할 수 있다. 이때, 이러한 장치의 명칭들은 특정 경우에 해당 장치 자체에 대한 제한을 의미하는 것이 아니며, 예를 들어 확정 유닛을 "비디오에서 현재 위치를 기반으로 현재 비디오 클립을 확정하는 장치"로 표현할 수도 있다.

다른 측면에 있어서, 본 출원은 컴퓨터 판독 가능한 매체를 제공하며, 상기 컴퓨터 판독 가능한 매체는 상술한 실시예에서 설명한 장치에 포함될 수 있고; 상기 장치에 설치되지 않고 별도로 구성될 수도 있다. 상기 컴퓨터 판독 가능한 매체는 하나 또는 복수의 프로그램을 탑재하고 있으며, 상기 장치에서 상기 하나 또는 복수의 프로그램이 실행될 경우 상기 장치가 아래와 같은 방법을 수행하도록 한다. 즉, 비디오에서 현재 위치를 기반으로 현재 비디오 클립을 확정하고; 사전 생성된 목표 비디오 클립의 기술 특징을 표시하는 기술 정보를 획득하고, 목표 비디오 클립 확정 단계를 실행하며, 상기 확정 단계는, 현재 비디오 클립의 특징을 표시하는 정보를 포함하는 현재 비디오 클립의 현재 상태 정보를 확정하는 것과, 상기 기술 정보와 상기 현재 상태 정보를 기반으로 현재 액션 정책을 생성하는 것을 포함하며, 상기 현재 액션 정책은 비디오에서 현재 비디오 클립의 위치 변화를 표시하며. 상기 방법은 미리 설정된 조건에 도달하는 것에 응답하여, 현재 비디오 클립에 대해 현재 액션 정책을 수행하여 획득한 비디오 클립을 목표 비디오 클립으로 사용하는 것을 더 포함한다.

위 설명은 단지 본 출원의 바람직한 실시예 및 인용한 기술 원리를 설명하기 위한 것이다. 해당 분야의 기술자들은 본 출원과 관련된 발명 범위가 상술한 기술 특징의 특정 조합으로 구성된 기술 방안에 국한되지 않으며, 상기 발명의 사상을 벗어나지 않는 한 상술한 기술 특징 또는 그와 동등한 특징으로 임의 조합하여 기타 기술 방안을 형성할 수 있음을 이해하여야 할 것이다. 예를 들어, 상술한 특징과 본 출원에 개시된(단 국한되지 않음) 유사한 기능을 구비한 기술특징을 상호 대체하여 기술 방안을 구성할 수 있다.

Claims

비디오에서 목표 비디오 클립의 위치를 결정하는 방법으로서,
비디오에서 현재 위치를 기반으로 현재 비디오 클립을 확정하는 것; 및
사전 생성된 목표 비디오 클립의 기술 특징을 표시하는 기술 정보를 획득하고, 목표 비디오 클립 확정 단계를 실행하는 것을 포함하되, 상기 확정 단계는, 현재 비디오 클립의 특징을 표시하는 정보를 포함하는 현재 비디오 클립의 현재 상태 정보를 확정하는 것과, 상기 기술 정보와 상기 현재 상태 정보를 기반으로 현재 액션 정책을 생성하는 것을 포함하며, 상기 현재 액션 정책은 비디오에서 현재 비디오 클립의 위치 변화를 표시하고,
상기 방법은,
미리 설정된 조건에 도달하는 것에 응답하여, 상기 현재 비디오 클립에 대해 상기 현재 액션 정책을 수행하여 획득한 비디오 클립을 목표 비디오 클립으로 사용하는 것을 더 포함하는, 비디오에서 목표 비디오 클립의 위치를 결정하는 방법.
제1항에 있어서,
미리 설정된 조건에 도달하지 못한 것에 응답하여, 상기 현재 비디오 클립에 대해 상기 현재 액션 정책을 수행하여 획득한 비디오 클립을 업데이트된 현재 비디오 클립으로 사용하고, 상기 목표 비디오 클립 확정 단계를 다시 수행하는 것을 더 포함하는, 비디오에서 목표 비디오 클립의 위치를 결정하는 방법.
제1항 또는 제2항에 있어서,
상기 기술 정보와 상기 현재 상태 정보를 기반으로 현재 액션 정책을 생성하는 것은,
상기 기술 정보와 상기 현재 상태 정보를 사전 훈련된 정책 생성 모델에 입력하여 현재 비디오 클립에 대해 사전 생성된 액션 정책 집합 중의 각각의 액션 정책을 수행하는 확률 분포를 획득하고;
획득한 확률 분포를 기반으로 상기 액션 정책 집합에서 현재 액션 정책을 확정하는 것을 포함하는, 비디오에서 목표 비디오 클립의 위치를 결정하는 방법.
제3항에 있어서,
상기 정책 생성 모델은 기술 네트워크 및 정책 생성 네트워크를 포함하고;
상기 기술 네트워크는 복수의 완전 연결된 층들을 갖는 완전 연결된 유닛을 포함하고, 상기 완전 연결된 유닛은 사전 획득한 목표 비디오 클립의 기술 특징 및 상기 현재 상태 정보를 기반으로 현재 상태를 생성하며;
상기 정책 생성 네트워크는 게이트 순환 네트워크 및 제1 완전 연결된 층을 포함하고, 상기 게이트 순환 네트워크는 상기 현재 상태를 기반으로 은닉 상태를 생성하도록 구성되고, 상기 제1 완전 연결된 층은 상기 은닉 상태에 따라 상기 확률 분포를 생성하도록 구성되는, 비디오에서 목표 비디오 클립의 위치를 결정하는 방법.
제4항에 있어서,
목표 비디오 클립 확정 단계를 실행하기 이전에, 상기 방법은, 상기 비디오의 비디오 특징을 표시하는 비디오 특징 정보를 획득하는 것을 더 포함하고;
상기 기술 네트워크는 비디오 특징 정보를 기반으로 상기 현재 상태를 생성하는, 비디오에서 목표 비디오 클립의 위치를 결정하는 방법.
제4항에 있어서,
상기 현재 상태 정보는 상기 비디오에서 상기 현재 비디오 클립의 상대적 위치 특징을 표시하는 정보를 더 포함하는, 비디오에서 목표 비디오 클립의 위치를 결정하는 방법.
제4항 내지 제6항 중 어느 한 항에 있어서,
상기 방법은,
미리 설정된 손실 함수를 기반으로 도출된 누적 손실값을 이용하여 초기 정책 생성 모델을 훈련시켜, 훈련된 정책 생성 모델을 획득하는 것을 더 포함하고,
상기 누적 손실값은,
훈련 샘플 비디오와 상기 훈련 샘플 비디오의 목표 비디오 클립의 현재 위치 정보를 기반으로 확정된 훈련 샘플 비디오의 현재 비디오 클립을 현재 정책 생성 모델에 입력하는 것; 및 반복 단계를 실행하는 것을 포함하는 확정 단계를 통해 결정되며, 상기 반복 단계는, 상기 현재 정책 생성 모델의 기술 네트워크를 기반으로 상기 훈련 샘플 비디오의 현재 상태를 확정하는 것; 상기 확정된 훈련 샘플 비디오의 현재 상태를 상기 현재 정책 생성 모델의 정책 생성 네트워크에 입력하여, 현재 정책 생성 모델 및 훈련 샘플 비디오의 현재 상태에서의 현재 확률 분포를 획득하는 것; 상기 확정된 현재 확률 분포를 기반으로 미리 설정된 손실 함수를 이용하여 현재 반복 단계의 손실값을 확정하는 것; 및 현재 반복 단계의 손실값과 이전 반복 단계의 손실값의 합을 현재 반복 단계의 업데이트된 손실값으로 사용하는 것을 포함하고,
상기 확정 단계는,
반복 종료 조건에 도달하지 못한 것에 응답하여, 현재 확률 분포를 기반으로 현재 위치를 업데이트하고, 반복 단계를 다시 수행하는 것; 및
반복 종료 조건에 도달하는 것에 응답하여, 마지막 반복 단계를 실행하여 획득한 현재 반복 단계의 업데이트된 손실값을 누적 손실값으로 사용하는 것을 더 포함하는, 비디오에서 목표 비디오 클립의 위치를 결정하는 방법.
제7항에 있어서,
상기 손실 함수는 미리 설정된 누적 보상함수에 기초하여 결정된 제1 구성 요소를 포함하고;
상기 미리 설정된 손실 함수를 기반으로 도출된 누적 손실값을 이용하여 초기 정책 생성 모델을 훈련시켜, 훈련된 정책 생성 모델을 획득하는 것은,
상기 제1 구성 요소로부터 결정된 누적 손실값의 역전파를 기반으로 상기 게이트 순환 네트워크, 상기 제1 완전 연결된 층 및 상기 완전 연결된 유닛 각각의 파라미터를 조정하는 것을 포함하는, 비디오에서 목표 비디오 클립의 위치를 결정하는 방법.
제8항에 있어서,
상기 정책 생성 네트워크는 제2 완전 연결된 층을 더 포함하고;
상기 제2 완전 연결된 층은 상기 은닉 상태에 따라 상기 현재 상태 정보에 대응하는 보상 예측값을 생성하며;
상기 손실 함수는 보상 예측값과 상기 보상함수에 기초하여 결정된 실제 보상값 사이의 편차를 나타내는 제2 구성 요소를 더 포함하고;
상기 미리 설정된 손실 함수를 기반으로 도출된 누적 손실값을 이용하여 초기 정책 생성 모델을 훈련시켜, 훈련된 정책 생성 모델을 획득하는 것은,
상기 제1 구성 요소로부터 결정된 누적 손실값의 역전파를 기반으로 상기 제2 완전 연결된 층의 파라미터를 조정하는 것과,
상기 제2 구성 요소로부터 결정된 누적 손실값의 역전파를 기반으로 상기 게이트 순환 네트워크, 상기 제2 완전 연결된 층 및 상기 완전 연결된 유닛 각각의 파라미터를 조정하는 것을 더 포함하는, 비디오에서 목표 비디오 클립의 위치를 결정하는 방법.
제8항 또는 제9항에 있어서,
상기 손실 함수는 상기 제1 완전 연결된 층에 의해 출력된 확률 분포의 엔트로피를 표시하는 제3 구성 요소를 더 포함하고;
상기 미리 설정된 손실 함수를 기반으로 도출된 누적 손실값을 이용하여 초기 정책 생성 모델을 훈련시켜, 훈련된 정책 생성 모델을 획득하는 것은,
상기 제3 구성 요소로부터 결정된 누적 손실값의 역전파를 기반으로 상기 게이트 순환 네트워크, 상기 제1 완전 연결된 층 및 상기 완전 연결된 유닛 각각의 파라미터를 조정하는 것을 더 포함하는, 비디오에서 목표 비디오 클립의 위치를 결정하는 방법.
제8항에 있어서,
상기 정책 생성 모델은 위치 회귀 네트워크를 더 포함하고;
상기 위치 회귀 네트워크는 상기 기술 네트워크에 연결된 제3 완전 연결된 층 및 제4 완전 연결된 층을 포함하며;
상기 현재 정책 생성 모델의 기술 네트워크를 기반으로 상기 훈련 샘플 비디오의 현재 상태를 확정한 이후, 상기 반복 단계는,
상기 훈련 샘플 비디오의 현재 상태를 상기 제3 완전 연결된 층에 입력하여 훈련 샘플 비디오의 예측 IoU(intersection-over-union)를 도출하는 것과,
상기 훈련 샘플 비디오의 현재 상태를 상기 제4 완전 연결된 층에 입력하여 훈련 샘플 비디오의 목표 비디오 클립의 예측 위치를 획득하는 것을 더 포함하고,
상기 손실 함수는 제4 구성 요소 및 제5 구성 요소를 더 포함하고,
상기 미리 설정된 손실 함수를 기반으로 도출된 누적 손실값을 이용하여 초기 정책 생성 모델을 훈련시켜, 훈련된 정책 생성 모델을 획득하는 것은,
상기 손실 함수의 제4 구성 요소 및 제5 구성 요소로부터 결정된 누적 손실값의 역전파를 기반으로 상기 완전 연결된 유닛, 상기 제3 완전 연결된 층 및 상기 제4 완전 연결된 층 각각의 파라미터를 조정하는 것을 더 포함하되,
상기 제4 구성 요소는 현재 반복 단계에서 상기 제3 완전 연결된 층에 의해 출력된 훈련 샘플 비디오의 예측 IoU와 이전 반복 단계에서 출력된 훈련 샘플 비디오의 예측 IoU 사이의 편차를 나타내고, 상기 제5 구성 요소는 상기 제4 완전 연결된 층에 의해 출력된 훈련 샘플 비디오 중 목표 비디오 클립의 훈련 샘플 비디오에서의 예측 위치와 훈련 샘플 비디오에 라벨링된 목표 비디오 클립의 실제 위치 사이의 편차를 나타내는, 비디오에서 목표 비디오 클립의 위치를 결정하는 방법.
비디오에서 목표 비디오 클립의 위치를 결정하는 장치로서,
비디오에서 현재 위치를 기반으로 현재 비디오 클립을 확정하는 확정 유닛;
사전 생성된 목표 비디오 클립의 기술 특징을 표시하는 기술 정보를 획득하고, 목표 비디오 클립 확정 단계를 실행하는 실행 유닛을 포함하되, 상기 확정 단계는, 현재 비디오 클립의 특징을 표시하는 정보를 포함하는 현재 비디오 클립의 현재 상태 정보를 확정하는 것과, 상기 기술 정보와 상기 현재 상태 정보를 기반으로 현재 액션 정책을 생성하는 것을 포함하며, 상기 현재 액션 정책은 비디오에서 현재 비디오 클립의 위치 변화를 표시하고;
상기 장치는,
미리 설정된 조건에 도달하는 것에 응답하여, 상기 현재 비디오 클립에 대해 상기 현재 액션 정책을 수행하여 획득한 비디오 클립을 목표 비디오 클립으로 사용하는 생성 유닛을 더 포함하는, 비디오에서 목표 비디오 클립의 위치를 결정하는 장치.
제12항에 있어서,
상기 생성 유닛은,
미리 설정된 조건에 도달하지 못한 것에 응답하여, 상기 현재 비디오 클립에 대해 상기 현재 액션 정책을 수행하여 획득한 비디오 클립을 업데이트된 현재 비디오 클립으로 사용하고, 상기 목표 비디오 클립 확정 단계를 다시 수행하도록 더 구성되는, 비디오에서 목표 비디오 클립의 위치를 결정하는 장치.
제12항 또는 제13항에 있어서,
상기 실행 유닛은
상기 기술 정보와 상기 현재 상태 정보를 사전 훈련된 정책 생성 모델에 입력하여 현재 비디오 클립에 대해 사전 생성된 액션 정책 집합 중의 각각의 액션 정책을 수행하는 확률 분포를 획득하고;
획득한 확률 분포를 기반으로 상기 액션 정책 집합에서 현재 액션 정책을 확정하도록 더 구성되는, 비디오에서 목표 비디오 클립의 위치를 결정하는 장치.
제14항에 있어서,
상기 정책 생성 모델은 기술 네트워크 및 정책 생성 네트워크를 포함하고;
상기 기술 네트워크는 복수의 완전 연결된 층들을 갖는 완전 연결된 유닛을 포함하고, 상기 완전 연결된 유닛은 사전 획득한 목표 비디오 클립의 기술 특징 및 상기 현재 상태 정보를 기반으로 현재 상태를 생성하며;
상기 정책 생성 네트워크는 게이트 순환 네트워크 및 제1 완전 연결된 층을 포함하고, 상기 게이트 순환 네트워크는 상기 현재 상태를 기반으로 은닉 상태를 생성하도록 구성되고, 상기 제1 완전 연결된 층은 상기 은닉 상태에 따라 상기 확률 분포를 생성하도록 구성되는, 비디오에서 목표 비디오 클립의 위치를 결정하는 장치.
제15항에 있어서,
상기 장치는 획득 유닛을 더 포함하고;
상기 획득 유닛은, 상기 실행 유닛에 의해 목표 비디오 클립 확정 단계를 실행하기 이전에 상기 비디오의 비디오 특징을 표시하는 비디오 특징 정보를 획득하도록 구성되고,
상기 기술 네트워크는 비디오 특징 정보를 기반으로 상기 현재 상태를 생성하도록 더 구성되는, 비디오에서 목표 비디오 클립의 위치를 결정하는 장치.
제15항에 있어서,
상기 현재 상태 정보는 상기 비디오에서 상기 현재 비디오 클립의 상대적 위치 특징을 표시하는 정보를 더 포함하는, 비디오에서 목표 비디오 클립의 위치를 결정하는 장치.
제15항 내지 제17항 중 어느 한 항에 있어서,
상기 장치는 훈련 유닛을 더 포함하고;
상기 훈련 유닛은 미리 설정된 손실 함수를 기반으로 도출된 누적 손실값을 이용하여 초기 정책 생성 모델을 훈련시켜, 훈련된 정책 생성 모델을 획득하도록 구성되며;
상기 누적 손실값은,
훈련 샘플 비디오와 상기 훈련 샘플 비디오의 목표 비디오 클립의 현재 위치 정보를 기반으로 확정된 훈련 샘플 비디오의 현재 비디오 클립을 현재 정책 생성 모델에 입력하는 것; 및 반복 단계를 실행하는 것을 포함하는 확정 단계를 통해 결정되며, 상기 반복 단계는, 상기 현재 정책 생성 모델의 기술 네트워크를 기반으로 상기 훈련 샘플 비디오의 현재 상태를 확정하는 것; 및 상기 확정된 훈련 샘플 비디오의 현재 상태를 상기 현재 정책 생성 모델의 정책 생성 네트워크에 입력하여, 현재 정책 생성 모델 및 훈련 샘플 비디오의 현재 상태에서의 현재 확률 분포를 획득하는 것; 상기 확정된 현재 확률 분포를 기반으로 미리 설정된 손실 함수를 이용하여 현재 반복 단계의 손실값을 확정하는 것; 및 현재 반복 단계의 손실값과 이전 반복 단계의 손실값의 합을 현재 반복 단계의 업데이트된 손실값으로 사용하는 것을 포함하고,
상기 확정 단계는,
반복 종료 조건에 도달하지 못한 것에 응답하여, 현재 확률 분포를 기반으로 현재 위치를 업데이트하고, 상기 반복 단계를 다시 수행하는 것; 및
반복 종료 조건에 도달하는 것에 응답하여, 마지막 반복 단계를 실행하여 획득한 현재 반복 단계의 업데이트된 손실값을 누적 손실값으로 사용하는 것을 더 포함하는, 비디오에서 목표 비디오 클립의 위치를 결정하는 장치.
제18항에 있어서,
상기 손실 함수는 미리 설정된 누적 보상함수에 기초하여 결정된 제1 구성 요소를 포함하고;
상기 훈련 유닛은,
상기 제1 구성 요소로부터 결정된 누적 손실값의 역전파를 기반으로 상기 게이트 순환 네트워크, 상기 제1 완전 연결된 층 및 상기 완전 연결된 유닛 각각의 파라미터를 조정하도록 더 구성되는, 비디오에서 목표 비디오 클립의 위치를 결정하는 장치.
제19항에 있어서,
상기 정책 생성 네트워크는 제2 완전 연결된 층을 더 포함하고;
상기 제2 완전 연결된 층은 상기 은닉 상태에 따라 상기 현재 상태 정보에 대응하는 보상 예측값을 생성하며;
상기 손실 함수는 보상 예측값과 상기 보상함수에 기초하여 결정된 실제 보상값 사이의 편차를 나타내는 제2 구성 요소를 더 포함하고;
상기 훈련 유닛은,
상기 제1 구성 요소로부터 결정된 누적 손실값의 역전파를 기반으로 상기 제2 완전 연결된 층의 파라미터를 조정하고,
상기 제2 구성 요소로부터 결정된 누적 손실값의 역전파를 기반으로 상기 게이트 순환 네트워크, 상기 제2 완전 연결된 층 및 상기 완전 연결된 유닛 각각의 파라미터를 조정하도록 더 구성되는, 비디오에서 목표 비디오 클립의 위치를 결정하는 장치.
제19항 또는 제20항에 있어서,
상기 손실 함수는 상기 제1 완전 연결된 층에 의해 출력된 확률 분포의 엔트로피를 표시하는 제3 구성 요소를 더 포함하고;
상기 훈련 유닛은,
상기 제3 구성 요소로부터 결정된 누적 손실값의 역전파를 기반으로 상기 게이트 순환 네트워크, 상기 제1 완전 연결된 층 및 상기 완전 연결된 유닛 각각의 파라미터를 조정하도록 더 구성되는, 비디오에서 목표 비디오 클립의 위치를 결정하는 장치.
제19항에 있어서,
상기 정책 생성 모델은 위치 회귀 네트워크를 더 포함하고;
상기 위치 회귀 네트워크는 상기 기술 네트워크에 연결된 제3 완전 연결된 층 및 제4 완전 연결된 층을 포함하며;
상기 훈련 유닛은, 상기 현재 정책 생성 모델의 기술 네트워크를 기반으로 상기 훈련 샘플 비디오의 현재 상태를 확정한 이후, 상기 훈련 샘플 비디오의 현재 상태를 상기 제3 완전 연결된 층에 입력하여 훈련 샘플 비디오의 예측 IoU(intersection-over-union)를 도출하고, 상기 훈련 샘플 비디오의 현재 상태를 상기 제4 완전 연결된 층에 입력하여 훈련 샘플 비디오의 목표 비디오 클립의 예측 위치를 획득하도록 더 구성되며,
상기 손실 함수는 제4 구성 요소 및 제5 구성 요소를 더 포함하고;
상기 훈련 유닛은,
상기 손실 함수의 제4 구성 요소 및 제5 구성 요소로부터 결정된 누적 손실값의 역전파를 기반으로 상기 완전 연결된 유닛, 상기 제3 완전 연결된 층 및 상기 제4 완전 연결된 층 각각의 파라미터를 조정하도록 더 구성되며,
상기 제4 구성 요소는 현재 반복 단계에서 상기 제3 완전 연결된 층에 의해 출력된 훈련 샘플 비디오의 예측 IoU와 이전 반복 단계에서 출력된 훈련 샘플 비디오의 예측 IoU 사이의 편차를 나타내고, 상기 제5 구성 요소는 상기 제4 완전 연결된 층에 의해 출력된 훈련 샘플 비디오 중 목표 비디오 클립의 훈련 샘플 비디오에서의 예측 위치와 훈련 샘플 비디오에 라벨링된 목표 비디오 클립의 실제 위치 사이의 편차를 나타내는, 비디오에서 목표 비디오 클립의 위치를 결정하는 장치.
전자기기로서,
하나 또는 복수의 프로세서; 및
하나 또는 복수의 프로그램을 저장하는 저장 장치를 포함하되, 상기 하나 또는 복수의 프로세서에 의해 상기 하나 또는 복수의 프로그램이 실행될 경우, 상기 하나 또는 복수의 프로세서는 제1항 내지 제11항 중 어느 한 항에 따른 방법을 구현하도록 하는, 전자기기.
컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 저장 매체로서,
상기 프로그램이 프로세서에 의해 실행될 경우 제1항 내지 제11항 중 어느 한 항에 따른 방법을 구현하는, 컴퓨터 판독 가능한 저장 매체.