KR102394756B1

KR102394756B1 - 비디오를 처리하기 위한 방법 및 장치

Info

Publication number: KR102394756B1
Application number: KR1020210053261A
Authority: KR
Inventors: 예한 정; 위 루오
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2018-06-08
Filing date: 2021-04-23
Publication date: 2022-05-04
Also published as: JP2019212290A; EP3579140A1; US10824874B2; JP6986527B2; KR20190139751A; US20190377956A1; KR20210053825A; CN110582025A; CN110582025B

Abstract

본 출원의 실시예는 비디오를 처리하기 위한 방법 및 장치를 개시한다. 해당 방법의 일 구체적인 실시예는, 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 획득하는 단계; 목표 비디오 요소 정보를 기반으로 목표 비디오에서 목표 비디오 클립을 추출하는 단계; 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 목표 비디오 클립의 유형을 표현하는 키워드를 획득하는 단계; 및 키워드와 기설정된 태그 정보 집합을 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장하는 단계를 포함한다. 해당 실시예는 비디오 클립에 태그 정보를 첨가하는 정확성을 향상시키고 비디오 클립에 태그 정보를 첨가하는 수단을 풍부하게 한다.

Description

비디오를 처리하기 위한 방법 및 장치{METHOD AND APPARATUS FOR PROCESSING VIDEO}

본 출원의 실시예는 컴퓨터 기술 분야에 관한 것으로, 특히 비디오를 처리하기 위한 방법 및 장치에 관한 것이다.

종래의 기술에 있어서, 비디오 콘텐츠에 대한 분류를 실현하기 위해, 비디오 콘텐츠의 분류는 더욱 세분화되도록 비디오에 대해 태그 첨가 처리(예를 들어, 태그는 비디오 콘텐츠에 대한 소개, 비디오 콘텐츠의 키워드, 및 모 시간 구간에 비디오의 검색량의 순위일 수 있음)를 진행할 필요는 있다. 비디오 추천 기술을 예로 들면, 비디오의 태그와 사용자가 주목하는 정보를 결부함으로써 사용자에게 비디오를 더 정확하게 추천하는 목적은 달성될 수 있다.

한국공개특허 제10-2012-0114505호

본 출원의 실시예는 비디오를 처리하기 위한 방법 및 장치, 및 추천 정보를 생성하기 위한 방법 및 장치를 제출한다.

제1 방면에 있어서, 본 출원의 실시예는 비디오를 처리하기 위한 방법을 제공한다. 해당 방법은, 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 획득하는 단계; 목표 비디오 요소 정보를 기반으로 목표 비디오에서 목표 비디오 클립을 추출하는 단계; 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 목표 비디오 클립의 유형을 표현하는 키워드를 획득하는 단계; 및 키워드와 기설정된 태그 정보 집합을 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장하는 단계를 포함한다.

일부 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임이다. 목표 비디오 요소 정보를 기반으로 목표 비디오에서 목표 비디오 클립을 추출하는 단계는, 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대한 이미지 인식을 진행하여 해당 이미지 프레임의 이미지 인식 결과를 획득하는 단계; 및 이미지 인식 결과가 관련되고 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하는 단계를 포함한다.

일부 실시예에 있어서, 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 목표 비디오 클립의 유형을 표현하는 키워드를 획득하는 단계는, 이미지 인식 결과와 키워드의 기설정된 대응 관계를 기반으로, 목표 비디오 클립에 포함된 이미지 프레임의 이미지 인식 결과에 대응되는 키워드를 목표 비디오 클립의 키워드로 확정하는 단계를 포함한다.

일부 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보의 집합이다. 목표 비디오 요소 정보를 기반으로 목표 비디오에서 목표 비디오 클립을 추출하는 단계는, 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보에 포함된 목표 어휘를 추출하는 단계; 및 관련된 목표 어휘에 대응되는 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하는 단계를 포함한다.

일부 실시예에 있어서, 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 목표 비디오 클립의 유형을 표현하는 키워드를 획득하는 단계는, 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 목표 어휘에서 목표 어휘를 선택하여 목표 비디오 클립의 키워드로 사용하는 단계를 포함한다.

일부 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보의 집합 및 목표 비디오의 텍스트 소개 정보를 포함한다. 목표 비디오 요소 정보를 기반으로 목표 비디오에서 목표 비디오 클립을 추출하는 단계는, 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보와 텍스트 소개 정보의 유사도를 확정하는 단계; 및 기설정된 유사도 역치보다 큰 유사도에 대응되는 이미지 프레임과 관련된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하는 단계를 포함한다.

일부 실시예에 있어서, 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 목표 비디오 클립의 유형을 표현하는 키워드를 획득하는 단계는, 목표 비디오 클립에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보에 포함된 목표 어휘를 추출하는 단계; 및 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 목표 어휘에서 목표 어휘를 선택하여 목표 비디오 클립의 키워드로 사용하는 단계를 포함한다.

일부 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임에 대응되는 탄막 정보의 집합이다. 목표 비디오 요소 정보를 기반으로 목표 비디오에서 목표 비디오 클립을 추출하는 단계는, 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 탄막 정보의 수량을 확정하는 단계; 및 수량이 기설정된 수량 역치보다 큰 탄막 정보에 대응되고 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하는 단계를 포함한다.

일부 실시예에 있어서, 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 목표 비디오 클립의 유형을 표현하는 키워드를 획득하는 단계는, 목표 비디오 클립에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 탄막 정보에 대해 인식을 진행하여, 해당 이미지 프레임에 대응되는 탄막 정보가 속하는 유형을 표현하는 탄막 유형 정보를 획득하여 목표 비디오 클립의 키워드로 사용하는 단계를 포함한다.

일부 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오의 더빙 정보이다. 목표 비디오 요소 정보를 기반으로 목표 비디오에서 목표 비디오 클립을 추출하는 단계는, 더빙 정보에 대해 음성 인식을 진행하여, 적어도 하나의 더빙 유형 정보 및 더빙 유형 정보에 대응되고 더빙 정보에 포함되는 더빙 클립을 획득하되, 더빙 유형 정보는 대응되는 더빙 클립이 속하는 유형을 표현하는데 사용되는 단계; 및 적어도 하나의 더빙 유형 정보에서 목표 더빙 유형 정보를 선택하고, 목표 더빙 유형 정보에 대응되는 더빙 클립에 대응되는 비디오 클립을 목표 비디오 클립으로 확정하는 단계를 포함한다.

일부 실시예에 있어서, 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 목표 비디오 클립의 유형을 표현하는 키워드를 획득하는 단계는, 더빙 유형 정보와 음성 인식 방식의 기설정된 대응 관계를 기반으로, 목표 비디오 클립에 대응되는 더빙 클립에 대해 인식을 진행하여 목표 비디오 클립에 대응되는 더빙 클립이 속하는 유형을 표현하는 키워드를 획득하여 목표 비디오 클립의 키워드로 사용하는 단계를 포함한다.

제2 방면에 있어서, 본 출원의 실시예는 추천 정보를 생성하기 위한 방법을 제공한다. 해당 방법은, 목표 사용자가 주목하는 콘텐츠를 표현하는 주목 정보를 획득하고, 주목 정보와 기설정된 태그 정보를 매칭하되, 태그 정보는 제1 방면 중의 임의의 한 구현 방식에 설명된 방법에 따라 획득되고, 태그 정보는 대응되는 비디오 클립을 구비하는 단계; 및 매칭 성공을 확정하는 것에 응답하여, 비디오 클립을 추천하기 위한 추천 정보를 생성하는 단계를 포함한다.

제3 방면에 있어서, 본 출원의 실시예는 비디오를 처리하기 위한 장치를 제공한다. 해당 장치는, 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 획득하도록 구성된 획득 유닛; 목표 비디오 요소 정보를 기반으로 목표 비디오에서 목표 비디오 클립을 추출하도록 구성된 추출 유닛; 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 목표 비디오 클립의 유형을 표현하는 키워드를 획득하도록 구성된 확정 유닛; 및 키워드와 기설정된 태그 정보 집합을 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장하도록 구성된 저장 유닛을 포함한다.

일부 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임이다. 추출 유닛은, 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대한 이미지 인식을 진행하여 해당 이미지 프레임의 이미지 인식 결과를 획득하도록 구성된 제1 인식 모듈; 및 이미지 인식 결과가 관련되고 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하도록 구성된 제1 확정 모듈을 포함한다.

일부 실시예에 있어서, 확정 유닛은, 이미지 인식 결과와 키워드의 기설정된 대응 관계를 기반으로, 목표 비디오 클립에 포함된 이미지 프레임의 이미지 인식 결과에 대응되는 키워드를 목표 비디오 클립의 키워드로 확정하도록 더 구성된다.

일부 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보의 집합이다. 추출 유닛은, 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보에 포함된 목표 어휘를 추출하도록 구성된 제1 추출 모듈; 및 관련된 목표 어휘에 대응되는 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하도록 구성된 제2 확정 모듈을 포함한다.

일부 실시예에 있어서, 확정 유닛은 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 목표 어휘에서 목표 어휘를 선택하여 목표 비디오 클립의 키워드로 사용하도록 더 구성된다.

일부 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보의 집합 및 목표 비디오의 텍스트 소개 정보를 포함한다. 추출 유닛은, 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보와 텍스트 소개 정보의 유사도를 확정하도록 구성된 제3 확정 모듈; 및 기설정된 유사도 역치보다 큰 유사도에 대응되는 이미지 프레임과 관련된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하도록 구성된 제4 확정 모듈을 포함한다.

일부 실시예에 있어서, 확정 유닛은, 목표 비디오 클립에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보에 포함된 목표 어휘를 추출하도록 구성된 제2 추출 모듈; 및 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 목표 어휘에서 목표 어휘를 선택하여 목표 비디오 클립의 키워드로 사용하도록 구성된 제1 선택 모듈을 포함한다.

일부 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임에 대응되는 탄막 정보의 집합이다. 추출 유닛은, 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 탄막 정보의 수량을 확정하도록 구성된 제5 확정 모듈; 및 수량이 기설정된 수량 역치보다 큰 탄막 정보에 대응되고 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하도록 구성된 제6 확정 모듈을 포함한다.

일부 실시예에 있어서, 확정 유닛은, 목표 비디오 클립에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 탄막 정보에 대해 인식을 진행하여, 해당 이미지 프레임에 대응되는 탄막 정보가 속하는 유형을 표현하는 탄막 유형 정보를 획득하여 목표 비디오 클립의 키워드로 사용하도록 더 구성된다.

일부 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오의 더빙 정보이다. 추출 유닛은, 더빙 정보에 대해 음성 인식을 진행하여, 적어도 하나의 더빙 유형 정보 및 더빙 유형 정보에 대응되고 더빙 정보에 포함되는 더빙 클립을 획득하도록 구성되되, 더빙 유형 정보는 대응되는 더빙 클립이 속하는 유형을 표현하는데 사용되는 제2 인식 모듈; 및 적어도 하나의 더빙 유형 정보에서 목표 더빙 유형 정보를 선택하고, 목표 더빙 유형 정보에 대응되는 더빙 클립에 대응되는 비디오 클립을 목표 비디오 클립으로 확정하도록 구성된 제2 선택 모듈을 포함한다.

일부 실시예에 있어서, 확정 유닛은, 더빙 유형 정보와 음성 인식 방식의 기설정된 대응 관계를 기반으로, 목표 비디오 클립에 대응되는 더빙 클립에 대해 인식을 진행하여 목표 비디오 클립에 대응되는 더빙 클립이 속하는 유형을 표현하는 키워드를 획득하여 목표 비디오 클립의 키워드로 사용하도록 더 구성된다.

제4 방면에 있어서, 본 출원의 실시예는 추천 정보를 생성하기 위한 장치를 제공한다. 해당 장치는, 목표 사용자가 주목하는 콘텐츠를 표현하는 주목 정보를 획득하고, 주목 정보와 기설정된 태그 정보를 매칭하도록 구성되되, 태그 정보는 제1 방면 중의 임의의 한 구현 방식에 설명된 방법에 따라 획득되고, 태그 정보는 대응되는 비디오 클립을 구비하는 획득 유닛; 및 매칭 성공을 확정하는 것에 응답하여, 비디오 클립을 추천하기 위한 추천 정보를 생성하도록 구성된 생성 유닛을 포함한다.

제5 방면에 있어서, 본 출원의 실시예는 서버를 제공한다. 해당 서버는 하나 또는 다수의 프로세서와, 하나 또는 다수의 프로그램을 저장하기 위한 저장 장치를 포함한다. 하나 또는 다수의 프로그램이 하나 또는 다수의 프로세서에 의해 실행될 경우, 하나 또는 다수의 프로세서가 제1 방면 또는 제2 방면 중의 임의의 한 구현 방식에 설명된 방법을 구현한다.

제6 방면에 있어서, 본 출원의 실시예는 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 매체를 제공한다. 해당 컴퓨터 프로그램은 프로세서에 의해 실행될 경우 제1 방면 또는 제2 방면 중의 임의의 한 구현 방식에 설명된 방법을 구현한다.

본 출원의 실시예에서 제공하는 비디오를 처리하기 위한 방법 및 장치는, 목표 비디오의 목표 비디오 요소 정보를 이용함으로써 목표 비디오에서 목표 비디오 클립을 추출하며, 다음, 기설정된 키워드 확정 방식을 기반으로 목표 비디오 클립의 키워드를 획득하며, 마지막으로, 키워드와 기설정된 태그 정보를 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장한다. 따라서, 비디오 클립에 태그 정보를 첨가하는 정확성을 향상시키고 비디오 클립에 태그 정보를 첨가하는 수단을 풍부하게 한다.

이하 첨부된 도면들을 참조하여 진행한 비 한정적인 실시예에 대한 상세한 설명으로부터, 본 출원의 기타 특징, 목적 및 장점들은 더욱 명확해 질 것이다.
도1은 본 출원의 일 실시예가 적용 가능한 예시적 시스템의 구조도이다.
도2는 본 출원에 따른 비디오를 처리하기 위한 방법의 일 실시예의 흐름도이다.
도3은 본 출원에 따른 비디오를 처리하기 위한 방법의 일 적용 시나리오의 개략도이다.
도4는 본 출원에 따른 비디오를 처리하기 위한 방법의 다른 일 실시예의 흐름도이다.
도5는 본 출원에 따른 비디오를 처리하기 위한 방법의 다른 일 실시예의 흐름도이다.
도6은 본 출원에 따른 비디오를 처리하기 위한 방법의 다른 일 실시예의 흐름도이다.
도7은 본 출원에 따른 비디오를 처리하기 위한 방법의 다른 일 실시예의 흐름도이다.
도8은 본 출원에 따른 비디오를 처리하기 위한 방법의 다른 일 실시예의 흐름도이다.
도9는 본 출원에 따른 추천 정보를 생성하기 위한 방법의 일 실시예의 흐름도이다.
도10은 본 출원에 따른 비디오를 처리하기 위한 장치의 일 실시예의 구조적 개략도이다.
도11은 본 출원에 따른 추천 정보를 생성하기 위한 장치의 일 실시예의 구조적 개략도이다.
도12는 본 출원의 실시예에 따른 서버를 구현하기에 적합한 컴퓨터 시스템의 구조적 개략도이다.

이하, 첨부된 도면 및 실시예들을 결부하여 본 출원을 상세히 설명하기로 한다. 본 명세서에서 설명된 구체적인 실시예들은 오직 해당 발명을 설명하기 위한 것일 뿐, 해당 발명을 한정하기 위한 것이 아님을 이해할 것이다. 또한, 설명의 편의를 위하여, 도면에는 오직 본 발명에 관련된 부분만이 도시되어 있다.

본 출원의 실시예 및 실시예의 특징들은 서로 모순되지 않는 한 상호 조합할 수 있다. 이하, 첨부된 도면을 참조하고 실시예들을 결부하여 본 출원을 상세히 설명하기로 한다.

도1은 본 출원의 실시예에 따른 비디오를 처리하기 위한 방법 또는 비디오를 처리하기 위한 장치를 적용할 수 있는 예시적 시스템 아키텍처(100)를 나타낸다.

도1에 도시된 바와 같이, 시스템 아키텍처(100)는 단말기 장치(101, 102 및 103), 네트워크(104), 및 서버(105)를 포함할 수 있다. 네트워크(104)는 단말기 장치(101, 102 및 103)와 서버(105) 사이에서 통신 링크를 제공하기 위한 매체이다. 네트워크(104)는 유선 통신 링크, 무선 통신 링크 또는 광섬유 케이블 등 다양한 연결 유형을 포함할 수 있다.

사용자는 단말기 장치(101, 102 및 103)를 이용하여 네트워크(104)를 통해 서버(105)와 인터랙션을 진행하여 메시지를 수신 또는 발신할 수 있다. 단말기 장치(101, 102 및 103)에는 다양한 통신 클라이언트 애플리케이션들(예를 들어, 비디오 재생 애플리케이션 및 웹 페이지 브라우징 애플리케이션)이 설치될 수 있다.

단말기 장치(101, 102 및 103)는 하드웨어 또는 소프트웨어일 수 있다. 단말기 장치(101, 102 및 103)는 하드웨어일 경우, 디스플레이 스크린을 구비하고 비디오 재생을 지원하는 다양한 전자 기기일 수 있으며, 스마트폰, 태블릿 PC, 랩톱형 컴퓨터 및 데스크톱 컴퓨터 등을 포함하나, 이에 한정되지 않는다. 단말기 장치(101, 102 및 103)는 소프트웨어일 경우, 상기한 전자 기기들에 설치될 수 있다. 단말기 장치(101, 102 및 103)는 다수의 소프트웨어 또는 소프트웨어 모듈(예를 들어, 분산 서비스를 제공하기 위한 소프트웨어 또는 소프트웨어 모듈), 또는 단일한 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있다. 여기서 이에 대한 구체적인 한정을 진행하지 않는다.

서버(105)는 다양한 서비스를 제공하는 서버일 수 있으며, 예를 들어, 단말기 장치(101, 102, 및 103)에 재생되는 비디오에 대해 지원을 제공하는 백엔드 비디오 리소스 서버일 수 있다. 백엔드 비디오 리소스 서버는 획득된 비디오(예를 들어, 단말기 장치 또는 기타 서버에서 획득된 비디오)에 대해 처리를 진행하고, 처리 결과(예를 들어, 비디오 클립 및 비디오 클립의 태그 정보)를 저장하거나 비디오 클립을 단말기 장치에 푸시할 수 있다.

본 출원의 실시예에서 제공하는 비디오를 처리하기 위한 방법 또는 추천 정보를 생성하기 위한 방법은 일반적으로 서버(105)에 의해 수행되고, 따라서, 비디오를 처리하기 위한 장치 또는 추천 정보를 생성하기 위한 장치는 일반적으로 단말기 서버(105)에 설치된다.

서버는 하드웨어 또는 소프트웨어일 수 있다. 서버는 하드웨어일 경우, 다수의 서버로 구성된 분산 서버 클러스터 또는 단일한 서버로 구현될 수 있다. 서버는 소프트웨어일 경우, 다수의 소프트웨어 또는 소프트웨어 모듈(예를 들어, 분산 서비스를 제공하기 위한 소프트웨어 또는 소프트웨어 모듈), 또는 단일한 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있다. 여기서 이에 대한 구체적인 한정을 진행하지 않는다

도1 중의 단말기 장치, 네트워크 및 서버의 수량은 단지 예시적인 것으로 이해할 것이다. 실제 수요에 따라, 임의 수량의 단말기 장치, 네트워크 및 서버를 구비할 수 있다

도2를 참조하면, 본 출원에 따른 비디오를 처리하기 위한 방법의 일 실시예의 프로세스(200)를 나타낸다. 해당 비디오를 처리하기 위한 방법은 아래와 같은 단계들을 포함한다.

단계(201), 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 획득한다.

본 실시예에 있어서, 비디오를 처리하기 위한 방법의 실행 주체(예를 들어, 도1에 도시된 서버)는 유선 연결 방식 또는 무선 연결 방식을 통해 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 원격으로 또는 로컬로 획득할 수 있다. 여기서, 목표 비디오는 미리 설정된 모 비디오 집합(예를 들어, 모 비디오 웹 사이트에서 제공하는 비디오) 중의 비디오일 수 있다. 비디오 요소 정보는 목표 비디오에 대응되는 여러 가지의 정보(예를 들어, 자막, 더빙, 이미지 프레임, 명칭, 및 재생 시간)일 수 있으며, 목표 비디오 요소 정보는 상기 여러 가지의 정보 중 적어도 한 가지를 포함할 수 있다.

단계(202), 목표 비디오 요소 정보를 기반으로 목표 비디오에서 목표 비디오 클립을 추출한다.

본 실시예에 있어서, 단계(201)에서 획득된 목표 비디오 요소 정보를 기반으로, 상기 실행 주체는 목표 비디오에서 목표 비디오 클립을 추출할 수 있다. 구체적으로, 상기 실행 주체는 다양한 방식으로 목표 비디오에서 목표 비디오 클립을 추출할 수 있다. 예를 들어, 목표 비디오 요소 정보가 목표 비디오에 포함된 이미지 프레임일 경우, 상기 실행 주체는 각 이미지 프레임에 대해 인식을 진행하여 각 이미지 프레임에 포함된 물체 이미지의 유형을 획득하고, 동일한 유형의 이미지 프레임(예를 들어, 무기 이미지를 포함하는 이미지 프레임)에 대응되는 비디오 클립을 목표 비디오 클립으로 확정할 수 있다.

단계(203), 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 목표 비디오 클립의 유형을 표현하는 키워드를 획득한다.

본 실시예에 있어서, 상기 실행 주체는 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 목표 비디오 클립의 유형을 표현하는 키워드를 획득할 수 있다. 여기서, 상기 비디오 요소 정보와 키워드 확정 방식의 대응 관계는 기설정된 프로그램 리스트로 표현될 수 있으며, 해당 프로그램 리스트 중의 프로그램은 적어도 하나의 비디오 요소 정보에 대응될 수 있다. 예를 들어, 목표 비디오 요소 정보가 목표 비디오에 포함된 이미지 프레임일 경우, 상기 실행 주체는 자동적으로 또는 기술자의 조작에 따라 대응된 프로그램을 실행할 수 있다. 해당 프로그램은 단계(202)에서 획득된 각 이미지 프레임의 인식 결과를 이용하여, 목표 비디오 클립에 포함된 이미지 프레임의 인식 결과를 목표 비디오 클립의 키워드로 확정한다. 혹은, 해당 프로그램은 목표 비디오 클립에 포함된 이미지 프레임에 대해 인식을 다시 진행하여 더욱 많은 정보(예를 들어, 각 이미지 프레임에 포함된 물품의 수량, 인물의 동작 등 정보)를 더 인식하여 목표 비디오 클립의 키워드로 사용할 수 있다.

단계(204), 키워드와 기설정된 태그 정보 집합을 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장한다.

본 실시예에 있어서, 단계(203)에서 획득된 키워드를 기반으로, 상기 실행 주체는 키워드와 기설정된 태그 정보 집합을 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장할 수 있다. 여기서, 태그 정보 집합은 적어도 하나의 서브 집합을 포함할 수 있으며, 각 서브 집합은 일련의 관련된 태그 정보의 집합일 수 있다. 예를 들어, 모 서브 집합은 "전쟁," "전투," "무기" 등과 같은 태그 정보를 포함한다. 목표 비디오 클립의 키워드가 해당 서브 집합에 포함된 태그 정보에 포함될 경우, 해당 서브 집합 중 적어도 하나의 태그 정보(예를 들어, "전쟁")는 목표 비디오 클립의 태그 정보로 확정될 수 있다.

실천에 있어서, 상기 태그 정보 집합은 기설정된 지식 베이스일 수 있다. 해당 지식 베이스는 다수의 지식 정보를 저장하고, 각 지식 정보는 일련의 키 정보에 대응된다. 예를 들어, "전쟁"으로 표시된 지식 정보에 대해, 해당 지식 정보는 "인원수는 2보다 크거나 가틈," "무기는 사용됨," "유혈" 등과 같은 키 정보를 포함할 수 있다. 목표 비디오 클립의 키워드가 상기 키 정보 중의 적어도 하나에 부합될 경우, 목표 비디오 클립의 태그 정보는 "전쟁"으로 설정될 수 있다. 예를 들어, 모 지식 정보가 한 노래의 명칭으로 표시될 경우, 해당 지식 정보는 노래의 가수, 노래의 저자, 노래의 풍격(예를 들어, "완약" 및 "호방") 등과 같은 키 정보를 포함할 수 있다. 목표 비디오 클립의 키워드가 해당 노래의 명칭일 경우, 해당 노래의 명칭에 대응되는 적어도 하나의 키 정보는 목표 비디오 클립의 태그 정보로 사용될 수 있다.

도3을 더 참조하면, 도3은 본 실시예에 따른 비디오를 처리하기 위한 방법의 적용 시나리오의 개략도이다. 도3의 적용 시나리오에 있어서, 서버(301)는 먼저 목표 비디오(302; 예를 들어, 모 영화) 및 목표 비디오(302)의 목표 비디오 요소 정보(303)를 로컬로 획득한다. 여기서, 목표 비디오 요소 정보(303)는 목표 비디오에 포함된 이미지 프레임이다. 다음, 서버(301)는 각 이미지 프레임에 대해 인식을 진행하여, 무기 이미지를 포함하고 적어도 2 개의 인물 이미지를 포함하는 이미지 프레임에 대응되는 비디오 클립을 목표 비디오 클립(304)으로 확정한다. 다음, 서버(301)는 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 목표 비디오 클립의 유형을 표현하는 키워드를 획득한다. 여기서, 상기 키워드 확정 방식은 목표 비디오 클립에 포함된 이미지 프레임의 인식 결과(즉, "무기" 및 "다수의 인물")를 목표 비디오 클립의 키워드(305)로 확정되는 것이다. 마지막으로, 서버(301)는 키워드(305)와 기설정된 태그 정보 집합을 매칭한다. 해당 태그 정보 집합에 있어서, "전쟁"으로 표시된 태그 정보 서브 집합에 상기 키워드가 포함될 경우, 목표 비디오 클립(304)의 태그 정보는 "전쟁"(즉, 도면 중의 307)으로 확정된다. 마지막으로, 서버(301)는 목표 비디오 클립(304)과 태그 정보(307)를 서버(301)의 저장 장치에 관련시키고 저장한다.

본 출원의 상기 실시예에서 제공하는 방법은, 목표 비디오의 목표 비디오 요소 정보를 이용함으로써 목표 비디오에서 목표 비디오 클립을 추출하며, 다음, 기설정된 키워드 확정 방식을 기반으로 목표 비디오 클립의 키워드를 획득하며, 마지막으로, 키워드와 기설정된 태그 정보를 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장한다. 따라서, 비디오 클립에 태그 정보를 첨가하는 정확성을 향상시키고 비디오 클립에 태그 정보를 첨가하는 수단을 풍부하게 한다.

도4를 더 참조하면, 비디오를 처리하기 위한 방법의 다른 일 실시예의 프로세스(400)를 나타낸다. 해당 비디오를 처리하기 위한 방법의 프로세스(400)는 아래와 같은 단계들을 포함한다.

단계(401), 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 획득한다.

본 실시예에 있어서, 비디오를 처리하기 위한 방법의 실행 주체(예를 들어, 도1에 도시된 서버)는 유선 연결 방식 또는 무선 연결 방식을 통해 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 원격으로 또는 로컬로 획득할 수 있다. 여기서, 목표 비디오는 미리 설정된 모 비디오 집합 중의 비디오일 수 있다. 비디오 요소 정보는 목표 비디오에 대응되는 여러 가지의 정보(예를 들어, 자막, 더빙, 이미지 프레임, 명칭, 및 재생 시간)일 수 있으며, 목표 비디오 요소 정보는 상기 여러 가지의 정보 중 적어도 한 가지를 포함할 수 있다.

본 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임이다.

단계(402), 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대한 이미지 인식을 진행하여 해당 이미지 프레임의 이미지 인식 결과를 획득한다.

본 실시예에 있어서, 목표 비디오에 포함된 이미지 프레임에 대해, 상기 실행 주체는 해당 이미지 프레임에 대한 이미지 인식을 진행하여 해당 이미지 프레임의 이미지 인식 결과를 획득할 수 있다. 여기서, 이미지 인식 결과는 이미지 프레임에 포함된 물체, 장면 등 이미지의 관련 정보(예를 들어, 물체의 수량, 장면의 유형 등 정보)일 수 있다. 상기 이미지 인식 결과는 기존의 이미지 인식 방법(예를 들어, 신경망 기반의 방법 및 프랙털 특징 기반의 방법)을 기반으로 획득될 수 있으며, 이미지 인식 방법은 현재 널리 연구되고 적용되는 공지된 기술이므로 여기서는 이에 대해 반복적으로 설명하지 않기로 한다.

단계(403), 이미지 인식 결과가 관련되고 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정한다.

본 실시예에 있어서, 단계(402)에서 획득된 이미지 인식 결과를 기반으로, 상기 실행 주체는 이미지 인식 결과가 관련되고 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정할 수 있다. 여기서, 이미지 인식 결과 사이의 관련 여부를 확정하는 방법은 기술자가 미리 설정한 조건을 기반으로 판단되는 것일 수 있다.

예를 들어, 이미지 인식 결과는 이미지 프레임에 포함된 물체의 유형 및 이미지 프레임에 포함된 인물의 수량일 수 있다. 만일, 기술자가 미리 설정한 조건은 이미지 프레임에 무기 이미지 및 적어도 2 개의 인물 이미지를 포함하는 것이다. 상기 실행 주체는 무기 이미지 및 적어도 2 개의 인물 이미지를 포함하는 것을 표현하는 이미지 인식 결과를 관련된 이미지 인식 결과로 확정할 수 있다. 다음, 상기 실행 주체는 관련된 이미지 인식 결과에 대응되고 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정할 수 있다.

예를 들어, 이미지 인식 결과는 이미지 프레임에 포함된 목표 물체의 위치 정보일 수 있다. 목표 물체가 축구공일 경우, 상기 실행 주체는 프레임 이미지로부터 축구공을 인식하고, 축구장 중 축구공의 위치를 인식할 수 있고, 예를 들어, 이미지 프레임 중 축구장 사이드 라인의 이미지를 기반으로 축구공의 위치를 확정할 수 있다. 만일, 기술자가 미리 설정한 조건은, 이미지 프레임에 대응되는 이미지 인식 결과는 이미지 프레임에 축구공 이미지가 포함되고 축구공의 위치가 골문 내에 처하는 것을 표현하는 것이다. 상기 실행 주체는 해당 조건에 부합된 이미지 인식 결과를 목표 이미지 인식 결과로 확정할 수 있다. 다음, 상기 실행 주체는 목표 비디오 중 목표 이미지 인식 결과에 대응되는 이미지 프레임이 처하는 시간 구간을 확정하고, 다음, 해당 시간 구간 전후의 기설정된 시간 구간 내의 이미지 프레임의 이미지 인식 결과를 확정한다. 마지막으로, 관련된 이미지 인식 결과에 대응되는 이미지 프레임이 존재하는 비디오 클립은 목표 비디오 클립으로 확정된다.

목표 비디오에 포함된 이미지 프레임을 인식하여 목표 비디오 클립을 추출함으로써, 목표 비디오 클립을 추출하는 과정은 보다 빠르고 정확하도록 할 수 있고, 목표 비디오 클립의 관련성을 향상시키는 데 도움이 된다.

단계(404), 이미지 인식 결과와 키워드의 기설정된 대응 관계를 기반으로, 목표 비디오 클립에 포함된 이미지 프레임의 이미지 인식 결과에 대응되는 키워드를 목표 비디오 클립의 키워드로 확정한다.

본 실시예에 있어서, 상기 실행 주체는 이미지 인식 결과와 키워드의 기설정된 대응 관계를 기반으로, 목표 비디오 클립에 포함된 이미지 프레임의 이미지 인식 결과에 대응되는 키워드를 목표 비디오 클립의 키워드로 확정할 수 있다. 예를 들어, 이미지 인식 결과와 키워드의 대응 관계는 기설정된 대응 관계 테이블 또는 기설정된 데이터 구조(예를 들어, 연결 리스트)를 통해 표현될 수 있다. 이미지 인식 결과는 이미지 프레임에 포함된 물품 이미지의 명칭일 수 있으며, 이미지 인식 결과에 대응되는 키워드는 상기 물품 이미지의 명칭이 속하는 유형을 표현하는 유형 키워드일 수 있다. 예를 들어, 목표 비디오 클립에 있어서, 일부 이미지 프레임에는 총기 이미지가 포함되고, 일부 이미지 프레임에는 대포 이미지가 포함된다. 따라서, 상기 대응 관계 테이블을 기반으로, 총기 이미지가 포함된 이미지 프레임과 대포 이미지가 포함된 이미지 프레임의 키워드는 "무기"를 포함하는 것으로 확정될 수 있다. 또한, 목표 비디오 클립 중의 각 목표 이미지 프레임이 전부 적어도 2 개의 인물 이미지를 포함할 경우, 각 이미지 프레임의 키워드는 "다수의 인물"을 포함하는 것으로 확정될 수 있다. 최종 확정된 목표 비디오 클립의 키워드는 "무기" 및 "다수의 인물"을 포함할 수 있다.

단계(405), 키워드와 기설정된 태그 정보 집합을 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장한다.

본 실시예에 있어서, 단계(405)는 도2에 대응되는 실시예 중의 단계(204)와 대체로 동일하므로, 여기서는 이에 대해 반복적으로 설명하지 않기로 한다.

도4에서 보이는 바와 같이, 도2에 대응되는 실시예와 비교시, 본 실시예 중의 비디오를 처리하기 위한 방법의 프로세스(400)는 목표 비디오에 포함된 이미지 프레임에 대해 인식을 진행하여 목표 비디오 클립의 키워드를 획득하는 단계를 강조한다. 따라서, 목표 비디오 클립의 태그 정보를 확정하는 효율 및 정확성을 향상시키게 된다.

도5를 더 참조하면, 비디오를 처리하기 위한 방법의 다른 일 실시예의 프로세스(500)를 나타낸다. 해당 비디오를 처리하기 위한 방법의 프로세스(500)는 아래와 같은 단계들을 포함한다.

단계(501), 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 획득한다.

본 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보의 집합이다. 구체적으로, 텍스트 정보의 집합 중 각 텍스트 정보는 목표 비디오에 포함된 적어도 하나의 이미지 프레임에 대응될 수 있다. 예를 들어, 텍스트 정보는 자막 정보(자막 정보는 기설정된 자막 파일에서 추출된 정보 또는 이미지 프레임에 대해 텍스트 인식을 진행하여 획득된 텍스트 정보일 수 있음), 이미지 프레임에 포함된 텍스트 이미지에 대해 인식을 진행하여 획득된 텍스트 정보 등일 수 있다.

단계(502), 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보에 포함된 목표 어휘를 추출한다.

본 실시예에 있어서, 목표 비디오에 포함된 이미지 프레임에 대해, 상기 실행 주체는 해당 이미지 프레임에 대응되는 텍스트 정보에 포함된 목표 어휘를 추출할 수 있다. 예를 들어, 텍스트 정보가 비디오 프레임에 포함된 자막일 경우, 목표 어휘는 자막에서 추출된 적어도 하나의 어휘 중 기설정된 유형에 속하는 어휘일 수 있다. 예를 들어, 기설정된 유형은 감정 클래스일 수 있고, 목표 어휘는 감정을 표현하는 "미움," "좋음," "즐거움" 등과 같은 어휘일 수 있다.

상기 목표 어휘는 기존의 텍스트 인식 방법(예를 들어, 신경망 기반의 텍스트 추출 모델 및 어휘 유형과 어휘 기반의 대응 관계 테이블)을 기반으로 획득될 수 있다. 텍스트 인식 방법은 널리 연구되고 적용되는 공지된 기술이므로 여기서는 이에 대해 반복적으로 설명하지 않기로 한다.

단계(503), 관련된 목표 어휘에 대응되는 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정한다.

본 실시예에 있어서, 단계(502)에서 획득된 목표 어휘를 기반으로, 상기 실행 주체는 관련된 목표 어휘에 대응되는 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정할 수 있다. 여기서, 목표 어휘 사이의 관련 여부를 확정하는 방법은 기술자가 미리 설정한 조건을 기반으로 판단되는 것이다.

예를 들어, 만일, 기술자가 미리 설정한 조건은 이미지 프레임에 대응되는 목표 어휘가 전쟁 유형의 어휘에 속하는 것이다. 상기 실행 주체는 해당 조건에 부합된 어휘에 대응되는 여러 이미지 프레임을 관련된 이미지 프레임으로 확정할 수 있다. 혹은, 상기 실행 주체는 해당 조건에 부합된 어휘에 대응되는 여러 이미지 프레임 및 목표 비디오 중 시간이 상기 여러 이미지 프레임 사이에 처하는 이미지 프레임을 관련된 이미지 프레임으로 확정할 수 있다. 다음, 관련된 이미지 프레임이 존재하는 비디오 클립은 목표 비디오 클립으로 확정된다.

텍스트 정보에 포함된 목표 어휘를 추출하여 목표 비디오 클립을 추출함으로써, 목표 비디오 클립을 추출하는 유연성을 더욱 증가시킬 수 있고, 목표 비디오 클립의 관련성을 향상시키는 데 도움이 된다.

단계(504), 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 목표 어휘에서 목표 어휘를 선택하여 목표 비디오 클립의 키워드로 사용한다.

본 실시예에 있어서, 상기 실행 주체는 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 목표 어휘에서 목표 어휘를 선택하여 목표 비디오 클립의 키워드로 사용할 수 있다. 예를 들어, 목표 비디오 클립 중의 여러 이미지 프레임에 대응되는 목표 어휘가 전쟁 유형에 속하는 어휘일 경우, 상기 실행 주체는 여러 목표 어휘에서 여러 방식(예를 들어, 임의로 선택하는 방식, 및 동일한 목표 어휘의 출현 횟수의 순서에 따라 선택하는 방식)으로 기설정된 수량의 목표 어휘를 추출하여 목표 비디오 클립의 키워드로 사용할 수 있다. 예를 들어, 추출된 키워드는 "공격," "돌진," "발포" 등을 포함할 수 있다.

단계(505), 키워드와 기설정된 태그 정보 집합을 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장한다.

본 실시예에 있어서, 단계(505)는 도2에 대응되는 실시예 중의 단계(204)와 대체로 동일하므로, 여기서는 이에 대해 반복적으로 설명하지 않기로 한다.

도5에서 보이는 바와 같이, 도2에 대응되는 실시예와 비교시, 본 실시예 중의 비디오를 처리하기 위한 방법의 프로세스(500)는 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보에 대해 인식을 진행하여 목표 비디오 클립의 키워드를 획득하는 단계를 강조한다. 따라서, 목표 비디오 클립의 태그 정보를 확정하는 정확성 및 유연성을 향상시키는 데 도움이 된다.

도6을 더 참조하면, 비디오를 처리하기 위한 방법의 다른 일 실시예의 프로세스(600)를 나타낸다. 해당 비디오를 처리하기 위한 방법의 프로세스(600)는 아래와 같은 단계들을 포함한다.

단계(601), 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 획득한다.

본 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보의 집합 및 목표 비디오의 텍스트 소개 정보를 포함한다. 구체적으로, 텍스트 정보의 집합 중의 각 텍스트 정보는 목표 비디오에 포함된 적어도 하나의 이미지 프레임에 대응될 수 있다. 예를 들어, 텍스트 정보는 자막 정보(자막 정보는 기설정된 자막 파일에서 추출된 정보 또는 이미지 프레임에 대해 텍스트 인식을 진행하여 획득된 텍스트 정보일 수 있음), 이미지 프레임에 포함된 텍스트 이미지에 대해 인식을 진행하여 획득된 텍스트 정보 등일 수 있다.

단계(602), 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보와 텍스트 소개 정보의 유사도를 확정한다.

본 실시예에 있어서, 목표 비디오에 포함된 이미지 프레임에 대해, 상기 실행 주체는 해당 이미지 프레임에 대응되는 텍스트 정보와 텍스트 소개 정보의 유사도를 확정할 수 있다. 텍스트 정보의 유사도를 계산하는 방법은 Jaccard 유사 계수를 계산하는 방법, 코사인 유사도 기반의 방법 등 중 적어도 하나를 포함할 수 있으나, 이에 한정되지 않는다. 상기 유사도를 계산하는 방법은 현재 널리 연구되고 적용되는 공지된 기술이므로 여기서는 이에 대해 반복적으로 설명하지 않기로 한다.

단계(603), 기설정된 유사도 역치보다 큰 유사도에 대응되는 이미지 프레임과 관련된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정한다.

본 실시예에 있어서, 단계(602)에서 획득된 유사도를 기반으로, 상기 실행 주체는 기설정된 유사도 역치보다 큰 유사도에 대응되는 이미지 프레임과 관련된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정할 수 있다. 상기 기설정된 유사도 역치보다 큰 유사도에 대응되는 이미지 프레임과 관련된 이미지 프레임은, 기설정된 유사도 역치보다 큰 여러 유사도에 대응되는 여러 이미지 프레임 및 재생 시간이 상기 여러 이미지 프레임 사이에 처하는 이미지 프레임을 포함할 수 있다. 혹은, 상기 기설정된 유사도 역치보다 큰 유사도에 대응되는 이미지 프레임과 관련된 이미지 프레임은, 기설정된 유사도 역치보다 큰 여러 유사도에 대응되는 여러 이미지 프레임, 재생 시간이 상기 여러 이미지 프레임 사이에 처하는 이미지 프레임, 및 상기 여러 이미지 프레임 전후의 기설정된 수량의 이미지 프레임을 포함할 수 있다. 예를 들어, 목표 비디오에 있어서, 30 초, 35 초 및 50 초에 처하는 이미지 프레임에 대응되는 유사도가 유사도 역치보다 클 경우, 30 초로부터 50 초까지의 시간 구간 간의 비디오 클립은 목표 비디오 클립이다. 혹은, 기설정된 수량이 500일 경우, 목표 이미지 프레임은 30 초로부터 50 초까지의 시간 구간 간의 이미지 프레임 및 30 초로부터 50 초까지의 시간 구간 간의 이미지 프레임 전후 500 개의 이미지 프레임을 포함한다.

단계(604), 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보에 포함된 목표 어휘를 추출한다.

본 실시예에 있어서, 이미지 프레임에 대응되는 텍스트 정보에 포함된 목표 어휘를 추출하는 방법은 상기 단계(502)와 동일할 수 있으므로, 여기서는 이에 대해 반복적으로 설명하지 않기로 한다.

단계(605), 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 목표 어휘에서 목표 어휘를 선택하여 목표 비디오 클립의 키워드로 사용한다.

본 실시예에 있어서, 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 목표 어휘에서 목표 어휘를 선택하여 목표 비디오 클립의 키워드로 사용하는 방법은 상기 단계(504)와 동일할 수 있으므로, 여기서는 이에 대해 반복적으로 설명하지 않기로 한다.

단계(606), 키워드와 기설정된 태그 정보 집합을 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장한다.

본 실시예에 있어서, 단계(606)는 도2에 대응되는 실시예 중의 단계(204)와 대체로 동일하므로, 여기서는 이에 대해 반복적으로 설명하지 않기로 한다.

도6에서 보이는 바와 같이, 도2에 대응되는 실시예와 비교시, 본 실시예 중의 비디오를 처리하기 위한 방법의 프로세스(600)는 텍스트 정보와 텍스트 소개 정보의 유사도를 계산하는 단계를 강조한다. 따라서, 목표 비디오 클립을 추출하는 관련성을 향상시키는 데 도움이 된다.

도7을 더 참조하면, 비디오를 처리하기 위한 방법의 다른 일 실시예의 프로세스(700)를 나타낸다. 해당 비디오를 처리하기 위한 방법의 프로세스(700)는 아래와 같은 단계들을 포함한다.

단계(701), 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 획득한다.

본 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임에 대응되는 탄막 정보의 집합이다. 구체적으로, 상기 탄막 정보는 이미지 프레임의 탄막 텍스트에 대해 인식을 진행하여 획득된 텍스트 정보일 수 있다. 예를 들어, 상기 실행 주체는 기존의 OCR(Optical Character Recognition, 광학 문자 인식) 기술을 이용하여 이미지 프레임 중의 탄막을 인식하여 탄막 정보를 획득할 수 있다.

탄막(彈幕, bullet screen)은 동영상에서 일정한 방향(예컨대, 가로 방향)으로 지나가는 정보(예컨대, 텍스트 정보)를 의미한다. 예컨대, 탄막은 동영상 시청자가 입력한 코멘트가 해당 동영상에서 총알과 같이 지나가는 형태를 띈다.

단계(702), 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 탄막 정보의 수량을 확정한다.

본 실시예에 있어서, 목표 비디오에 포함된 이미지 프레임에 대해, 상기 실행 주체는 이미지 프레임에 대응되는 탄막 정보의 수량을 확정할 수 있다.

단계(703), 수량이 기설정된 수량 역치보다 큰 탄막 정보에 대응되고 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정한다.

본 실시예에 있어서, 상기 실행 주체는 수량이 기설정된 수량 역치보다 큰 탄막 정보에 대응되고 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정할 수 있다. 여기서, 상기 수량 역치는 여러 방식으로 설정된 수량일 수 있다. 예를 들어, 상기 수량 역치는 기술자가 경험를 기반으로 설정한 수량, 또는 상기 실행 주체가 계산된 목표 비디오의 탄막 정보의 총수량을 목표 비디오에 포함된 이미지 프레임의 수량으로 나눠 획득된 결과일 수 있다. 실천에 있어서, 수량이 기설정된 수량 역치보다 큰 탄막 정보에 대응되는 이미지 프레임은 대부분의 사용자가 비교적으로 주목하는 이미지 프레임으로 간주될 수 있다. 따라서, 목표 비디오 클립은 비교적으로 많은 주목을 받은 비디오 클립으로 간주될 수 있다.

단계(704), 목표 비디오 클립에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 탄막 정보에 대해 인식을 진행하여, 해당 이미지 프레임에 대응되는 탄막 정보가 속하는 유형을 표현하는 탄막 유형 정보를 획득하여 목표 비디오 클립의 키워드로 사용한다.

본 실시예에 있어서, 목표 비디오 클립에 포함된 이미지 프레임에 대해, 상기 실행 주체는 해당 이미지 프레임에 대응되는 탄막 정보에 대해 인식을 진행하여, 해당 이미지 프레임에 대응되는 탄막 정보가 속하는 유형을 표현하는 탄막 유형 정보를 획득하여 목표 비디오 클립의 키워드로 사용할 수 있다. 구체적으로, 상기 실행 주체는 다양한 방식으로 탄막 유형 정보를 획득할 수 있다. 예를 들어, 상기 실행 주체는 기설정된 탄막 분류 모델을 이용하여 탄막 유형 정보를 획득할 수 있다. 해당 탄막 분류 모델은 기술자가 대량의 텍스트 정보와 텍스트 정보의 유형 정보에 대한 통계를 기반으로 미리 제작하고 다수의 텍스트 정보와 유형 정보의 대응 관계를 저장하는 대응 관계 테이블일 수 있다. 혹은, 해당 탄막 분류 모델은 기존의 인공 신경망(예를 들어, 콘볼루션 신경망)을 기반으로 감독 훈련을 진행하여 획득되고 텍스트에 대해 분류를 진행하기 위한 모델일 수도 있다.

단계(705), 키워드와 기설정된 태그 정보 집합을 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장한다.

본 실시예에 있어서, 상기 실행 주체는 먼저 키워드와 기설정된 태그 정보 집합을 매칭하여 목표 비디오 클립의 태그 정보를 획득할 수 있다. 다음, 상기 실행 주체는 목표 비디오 클립과 태그 정보를 관련시키고 저장한다. 예를 들어, 태그 정보 집합은 적어도 하나의 서브 집합을 포함할 수 있으며, 각 서브 집합은 일련의 관련된 태그 정보의 집합일 수 있다. 예를 들어, 모 서브 집합은 "전쟁," "전투," "무기" 등과 같은 태그 정보를 포함한다. 목표 비디오 클립의 키워드가 해당 서브 집합에 포함된 태그 정보에 포함될 경우, 해당 서브 집합 중 적어도 하나의 태그 정보(예를 들어, "전쟁")는 목표 비디오 클립의 태그 정보로 확정될 수 있다.

예를 들어, 태그 정보 집합은 제1 서브 집합 및 제2 서브 집합을 포함할 수 있다. 여기서, 제1 서브 집합은 긍정적 평가의 태그 정보를 포함하고, 제2 서브 집합은 부정적 평가의 태그 정보를 포함한다. 상기 실행 주체는 탄막 유형 정보가 제1 서브 집합 또는 제2 서브 집합에 속하는지 여부를 확정할 수 있다. 탄막 정보가 제1 서브 집합에 속할 경우, 목표 비디오 클립의 태그 정보는 제1 정보(예를 들어, "긍정적 평가")로 설정된다. 탄막 정보가 제2 서브 집합에 속할 경우, 목표 비디오 클립의 태그 정보는 제2 정보(예를 들어, "부정적 평가")로 설정된다.

도7에서 보이는 바와 같이, 도2에 대응되는 실시예와 비교시, 본 실시예 중의 비디오를 처리하기 위한 방법의 프로세스(700)는 탄막 정보의 수량을 인식하여 목표 비디오 클립을 추출하는 단계 및 탄막 유형 정보를 기반으로 목표 비디오 클립의 태그 정보를 확정하는 단계를 강조한다. 따라서, 목표 비디오 클립을 추출하는 관련성을 향상시키고, 비디오 클립의 태그 정보를 확정하는 정확정을 향상시키는 데에 도움이 된다.

도8을 더 참조하면, 비디오를 처리하기 위한 방법의 다른 일 실시예의 프로세스(800)를 나타낸다. 해당 비디오를 처리하기 위한 방법의 프로세스(800)는 아래와 같은 단계들을 포함한다.

단계(801), 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 획득한다.

본 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오의 더빙 정보이다.

단계(802), 더빙 정보에 대해 음성 인식을 진행하여, 적어도 하나의 더빙 유형 정보 및 더빙 유형 정보에 대응되고 더빙 정보에 포함되는 더빙 클립을 획득한다.

본 실시예에 있어서, 상기 실행 주체는 더빙 정보에 대해 음성 인식을 진행하여, 적어도 하나의 더빙 유형 정보 및 더빙 유형 정보에 대응되고 더빙 정보에 포함되는 더빙 클립을 획득할 수 있다. 여기서, 더빙 유형 정보는 대응되는 더빙 클립이 속하는 유형을 표현하는데 사용된다. 상기 실행 주체는 기존의 음성 인식 기술을 이용하여 더빙 정보에서 적어도 하나의 더빙 클립을 추출할 수 있다. 예를 들어, 상기 실행 주체는 더빙 정보에서 유형이 음악인 더빙 클립을 추출할 수 있고, 해당 더빙 클립의 유형 정보는 "음악"일 수 있다. 혹은, 상기 실행 주체는 더빙 정보에서 유형이 음성인 더빙 클립을 추출할 수 있고, 해당 더빙 클립의 유형 정보는 "음성"일 수 있다.

단계(803), 적어도 하나의 더빙 유형 정보에서 목표 더빙 유형 정보를 선택하고, 목표 더빙 유형 정보에 대응되는 더빙 클립에 대응되는 비디오 클립을 목표 비디오 클립으로 확정한다.

본 실시예에 있어서, 먼저, 상기 실행 주체는 다양한 방식으로 적어도 하나의 더빙 유형 정보에서 목표 더빙 유형 정보를 선택(예를 들어, 임의적인 선택 또는 추출된 더빙 클립의 순서에 따른 선택)할 수 있다. 다음, 상기 실행 주체는 목표 더빙 유형 정보에 대응되는 더빙 클립에 대응되는 비디오 클립을 목표 비디오 클립으로 확정한다.

예를 들어, 목표 더빙 유형 정보가 "음악"이고, 유형 정보가 "음악"인 더빙 클립이 더빙 클립 A와 더빙 클립 B를 포함할 경우, 더빙 클립 A 및 더빙 클립 B는 각각 목표 비디오 클립으로 확정될 수 있다.

단계(804), 더빙 유형 정보와 음성 인식 방식의 기설정된 대응 관계를 기반으로, 목표 비디오 클립에 대응되는 더빙 클립에 대해 인식을 진행하여 목표 비디오 클립에 대응되는 더빙 클립이 속하는 유형을 표현하는 키워드를 획득하여 목표 비디오 클립의 키워드로 사용한다.

본 실시예에 있어서, 상기 실행 주체는 더빙 유형 정보와 음성 인식 방식의 기설정된 대응 관계를 기반으로, 목표 비디오 클립에 대응되는 더빙 클립에 대해 인식을 진행하여 목표 비디오 클립에 대응되는 더빙 클립이 속하는 유형을 표현하는 키워드를 획득하여 목표 비디오 클립의 키워드로 사용할 수 있다. 여기서, 상기 더빙 유형 정보와 음성 인식 방식의 대응 관계는 기설정된 프로그램 리스트로 표현될 수 있으며, 해당 프로그램 리스트 중의 프로그램은 더빙 유형 정보에 대응될 수 있다. 상기 실행 주체는 자동적으로 또는 기술자의 조작에 따라 대응된 프로그램을 실행할 수 있다. 상기 키워드는 음악의 명칭, 음성에 대해 인식을 진행하여 획득된 텍스트에서 추출된 목표 어휘 등일 수 있다. 상기 음성 인식 방법은 현재 널리 연구되고 적용되는 공지된 기술이므로 여기서는 이에 대해 반복적으로 설명하지 않기로 한다.

예를 들어, 목표 비디오 클립에 대응되는 더빙 클립이 한 절의 음악일 경우, 해당 더빙 클립이 속하는 유형을 표현하는 키워드는 해당 음악의 명칭일 수 있다. 예를 들어, 목표 비디오 클립에 대응되는 더빙 클립이 음성일 경우, 상기 실행 주체는 먼저 해당 더빙 클립에 대해 음성 인식을 진행하여 텍스트 정보를 획득하고, 다음, 텍스트 정보에서 목표 어휘를 추출하여 해당 더빙 클립이 속하는 유형을 표현하는 키워드로 사용할 수 있다. 여기서, 텍스트 정보에서 목표 어휘를 추출하는 방법은 단계(502)에 설명된 방법과 동일할 수 있으므로, 여기서는 이에 대해 반복적으로 설명하지 않기로 한다.

단계(805), 키워드와 기설정된 태그 정보 집합을 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장한다.

본 실시예에 있어서, 단계(805)는 도2에 대응되는 실시예 중의 단계(204)와 대체로 동일하므로, 여기서는 이에 대해 반복적으로 설명하지 않기로 한다.

도8에서 보이는 바와 같이, 도2에 대응되는 실시예와 비교시, 본 실시예 중의 비디오를 처리하기 위한 방법의 프로세스(800)는 더빙 정보에 대해 인식을 진행하여 목표 비디오 클립을 획득하는 단계, 및 목표 비디오 클립에 대응되는 더빙 클립에 대해 인식을 진행하여 목표 비디오 클립의 키워드를 획득하는 단계를 강조한다. 따라서, 목표 비디오 클립을 추출하는 관련성을 향상시키고, 비디오 클립의 태그 정보를 확정하는 정확정을 향상시키는 데에 도움이 된다.

도9를 더 참조하면, 본 출원에 따른 추천 정보를 생성하기 위한 방법의 일 실시예의 프로세스(900)를 나타낸다. 해당 추천 정보를 생성하기 위한 방법은 아래와 같은 단계들을 포함한다.

단계(901), 목표 사용자가 주목하는 콘텐츠를 표현하는 주목 정보를 획득하고, 주목 정보와 기설정된 태그 정보를 매칭한다.

본 실시예에 있어서, 추천 정보를 생성하기 위한 방법의 실행 주체(예를 들어, 도1에 도시된 서버)는 먼저 유선 연결 방식 또는 무선 연결 방식을 통해 목표 사용자가 주목하는 콘텐츠를 표현하는 주목 정보를 원격으로 또는 로컬로 획득할 수 있다. 여기서, 목표 사용자는 미리 설정된 모 사용자 리스트 또는 모 사용자 집합 중의 사용자(예를 들어, 모 웹 사이트의 등록된 사용자)일 수 있다. 혹은, 목표 사용자는 일부 조건에 부합되는(예를 들어, 일부 비디오를 브라우징하는) 사용자일 수도 있다. 본 실시예에 있어서, 태그 정보는 도2 내지 도8의 임의의 한 실시예에 설명된 방법에 따라 획득될 수 있고, 태그 정보는 대응되는 비디오 클립을 구비한다. 상기 주목 정보는 목표 사용자와 관련된 정보일 수 있다. 예를 들어, 목표 사용자의 주목 정보는 목표 사용자의 사용자 프로필 정보에 포함될 수 있다. 혹은, 목표 사용자의 주목 정보는 목표 사용자의 역사적 브라우징 기록에 포함될 수 있다.

다음, 실행 주체는 주목 정보와 기설정된 태그 정보를 매칭한다. 구체적으로, 상기 기설정된 태그 정보가 목표 사용자의 주목 정보와 전부 또는 부분 동일할 경우, 주목 정보와 태그 정보는 성공적으로 매칭되는 것으로 확정될 수 있다. 예를 들어, 기설정된 태그 정보가 "전쟁" 및 "학살"을 포함하고, 목표 사용자의 주목 정보가 "전쟁" 및 "무기"를 포함할 경우, 주목 정보와 태그 정보는 성공적으로 매칭되는 것으로 확정된다.

단계(902), 매칭 성공을 확정하는 것에 응답하여, 비디오 클립을 추천하기 위한 추천 정보를 생성한다.

본 실시예에 있어서, 상기 실행 주체는 매칭 성공을 확정하는 것에 응답하여, 상기 태그 정보에 대응되는 비디오 클립을 추천하기 위한 추천 정보를 생성할 수 있다. 예를 들어, 추천 정보는 태그 정보와 태그 정보에 대응되는 비디오 클립의 링크를 포함할 수 있고, 상기 비디오 클립의 비디오의 링크 등 정보를 더 포함할 수 있다.

선택적으로, 상기 실행 주체는 생성된 추천 정보를 상기 목표 사용자가 사용하는 단말기 장치로 발송할 수 있다.

본 출원의 상기 실시예서 제공하는 방법은, 목표 사용자의 주목 정보와 기설정된 태그 정보를 매칭함으로써 비디오 클립을 추천하기 위한 추천 정보를 생성한다. 상기 도2 내지 도8의 임의의 한 실시예에 설명된 방법에 따라 획득된 태그 정보를 사용함으로써 추천 정보를 생성하는 관련성을 향상시키게 된다.

도10을 더 참조하면, 상기 각 도면에 도시된 방법의 구현으로서 본 출원은 비디오를 처리하기 위한 장치의 일 실시예를 제공하며, 해당 장치의 실시예는 도 2에 도시된 방법의 실시예에 대응되고, 해당 장치는 구체적으로 다양한 전자 기기에 적용될 수 있다.

도10에 도시된 바와 같이, 본 실시예의 비디오를 처리하기 위한 장치(1000)는, 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 획득하도록 구성된 획득 유닛(1001); 목표 비디오 요소 정보를 기반으로 목표 비디오에서 목표 비디오 클립을 추출하도록 구성된 추출 유닛(1002); 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 목표 비디오 클립의 유형을 표현하는 키워드를 획득하도록 구성된 확정 유닛(1003); 및 키워드와 기설정된 태그 정보 집합을 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장하도록 구성된 저장 유닛(1004)을 포함한다.

본 실시예에 있어서, 상기 획득 유닛(1001)은 유선 연결 방식 또는 무선 연결 방식을 통해 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 원격으로 또는 로컬로 획득할 수 있다. 여기서, 목표 비디오는 미리 설정된 모 비디오 집합(예를 들어, 모 비디오 웹 사이트에서 제공하는 비디오) 중의 비디오일 수 있다. 비디오 요소 정보는 목표 비디오에 대응되는 여러 가지의 정보(예를 들어, 자막, 더빙, 이미지 프레임, 명칭, 및 재생 시간)일 수 있으며, 목표 비디오 요소 정보는 상기 여러 가지의 정보 중 적어도 한 가지를 포함할 수 있다.

본 실시예에 있어서, 획득 유닛(1001)에 의해 회득된 목표 비디오 요소 정보를 기반으로, 상기 추출 유닛(1002)은 목표 비디오에서 목표 비디오 클립을 추출할 수 있다. 구체적으로, 상기 추출 유닛(1002)은 다양한 방식으로 목표 비디오에서 목표 비디오 클립을 추출할 수 있다. 예를 들어, 목표 비디오 요소 정보가 목표 비디오에 포함된 이미지 프레임일 경우, 상기 추출 유닛(1002)은 각 이미지 프레임에 대해 인식을 진행하여 각 이미지 프레임에 포함된 물체 이미지의 유형을 획득하고, 동일한 유형의 이미지 프레임(예를 들어, 무기 이미지를 포함하는 이미지 프레임)에 대응되는 비디오 클립을 목표 비디오 클립으로 확정할 수 있다.

본 실시예에 있어서, 확정 유닛(1003)은 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 목표 비디오 클립의 유형을 표현하는 키워드를 획득할 수 있다. 여기서, 상기 비디오 요소 정보와 키워드 확정 방식의 대응 관계는 기설정된 프로그램 리스트로 표현될 수 있으며, 해당 프로그램 리스트 중의 프로그램은 적어도 하나의 비디오 요소 정보에 대응될 수 있다.

본 실시예에 있어서, 저장 유닛(1004)은 키워드와 기설정된 태그 정보 집합을 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장할 수 있다. 여기서, 태그 정보 집합은 적어도 하나의 서브 집합을 포함할 수 있으며, 각 서브 집합은 일련의 관련된 태그 정보의 집합일 수 있다. 예를 들어, 모 서브 집합은 "전쟁," "전투," "무기" 등과 같은 태그 정보를 포함한다. 목표 비디오 클립의 키워드가 해당 서브 집합에 포함된 태그 정보에 포함될 경우, 해당 서브 집합 중 적어도 하나의 태그 정보(예를 들어, "전쟁")는 목표 비디오 클립의 태그 정보로 확정될 수 있다

본 실시예의 일부 선택 가능한 구현 방식에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임이다. 추출 유닛은, 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대한 이미지 인식을 진행하여 해당 이미지 프레임의 이미지 인식 결과를 획득하도록 구성된 제1 인식 모듈(미도시); 및 이미지 인식 결과가 관련되고 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하도록 구성된 제1 확정 모듈(미도시)을 포함한다.

본 실시예의 일부 선택 가능한 구현 방식에 있어서, 확정 유닛은, 이미지 인식 결과와 키워드의 기설정된 대응 관계를 기반으로, 목표 비디오 클립에 포함된 이미지 프레임의 이미지 인식 결과에 대응되는 키워드를 목표 비디오 클립의 키워드로 확정하도록 더 구성된다.

본 실시예의 일부 선택 가능한 구현 방식에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보의 집합이다. 추출 유닛은, 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보에 포함된 목표 어휘를 추출하도록 구성된 제1 추출 모듈(미도시); 및 관련된 목표 어휘에 대응되는 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하도록 구성된 제2 확정 모듈(미도시)을 포함한다.

본 실시예의 일부 선택 가능한 구현 방식에 있어서, 확정 유닛은 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 목표 어휘에서 목표 어휘를 선택하여 목표 비디오 클립의 키워드로 사용하도록 더 구성된다.

본 실시예의 일부 선택 가능한 구현 방식에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보의 집합 및 목표 비디오의 텍스트 소개 정보를 포함한다. 추출 유닛은, 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보와 텍스트 소개 정보의 유사도를 확정하도록 구성된 제3 확정 모듈(미도시); 및 기설정된 유사도 역치보다 큰 유사도에 대응되는 이미지 프레임과 관련된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하도록 구성된 제4 확정 모듈(미도시)을 포함한다.

본 실시예의 일부 선택 가능한 구현 방식에 있어서, 확정 유닛은, 목표 비디오 클립에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보에 포함된 목표 어휘를 추출하도록 구성된 제2 추출 모듈(미도시); 및 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 목표 어휘에서 목표 어휘를 선택하여 목표 비디오 클립의 키워드로 사용하도록 구성된 제1 선택 모듈(미도시)을 포함한다.

본 실시예의 일부 선택 가능한 구현 방식에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임에 대응되는 탄막 정보의 집합이다. 추출 유닛은, 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 탄막 정보의 수량을 확정하도록 구성된 제5 확정 모듈(미도시); 및 수량이 기설정된 수량 역치보다 큰 탄막 정보에 대응되고 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하도록 구성된 제6 확정 모듈(미도시)을 포함한다.

본 실시예의 일부 선택 가능한 구현 방식에 있어서, 확정 유닛은, 목표 비디오 클립에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 탄막 정보에 대해 인식을 진행하여, 해당 이미지 프레임에 대응되는 탄막 정보가 속하는 유형을 표현하는 탄막 유형 정보를 획득하여 목표 비디오 클립의 키워드로 사용하도록 더 구성된다.

본 실시예의 일부 선택 가능한 구현 방식에 있어서, 목표 비디오 요소 정보는 목표 비디오의 더빙 정보이다. 추출 유닛은, 더빙 정보에 대해 음성 인식을 진행하여, 적어도 하나의 더빙 유형 정보 및 더빙 유형 정보에 대응되고 더빙 정보에 포함되는 더빙 클립을 획득하도록 구성되되, 더빙 유형 정보는 대응되는 더빙 클립이 속하는 유형을 표현하는데 사용되는 제2 인식 모듈(미도시); 및 적어도 하나의 더빙 유형 정보에서 목표 더빙 유형 정보를 선택하고, 목표 더빙 유형 정보에 대응되는 더빙 클립에 대응되는 비디오 클립을 목표 비디오 클립으로 확정하도록 구성된 제2 선택 모듈(미도시)을 포함한다.

본 실시예의 일부 선택 가능한 구현 방식에 있어서, 확정 유닛은, 더빙 유형 정보와 음성 인식 방식의 기설정된 대응 관계를 기반으로, 목표 비디오 클립에 대응되는 더빙 클립에 대해 인식을 진행하여 목표 비디오 클립에 대응되는 더빙 클립이 속하는 유형을 표현하는 키워드를 획득하여 목표 비디오 클립의 키워드로 사용하도록 더 구성된다.

본 출원의 상기 실시예에서 제공하는 비디오를 처리하기 위한 장치는, 목표 비디오의 목표 비디오 요소 정보를 이용함으로써 목표 비디오에서 목표 비디오 클립을 추출하며, 다음, 기설정된 키워드 확정 방식을 기반으로 목표 비디오 클립의 키워드를 획득하며, 마지막으로, 키워드와 기설정된 태그 정보를 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장한다. 따라서, 비디오 클립에 태그 정보를 첨가하는 정확성을 향상시키고 비디오 클립에 태그 정보를 첨가하는 수단을 풍부하게 한다.

도11을 더 참조하면, 상기 각 도면에 도시된 방법의 구현으로서 본 출원은 추천 정보를 생성하기 위한 장치의 일 실시예를 제공하며, 해당 장치의 실시예는 도 9에 도시된 방법의 실시예에 대응되고, 해당 장치는 구체적으로 다양한 전자 기기에 적용될 수 있다.

도11에 도시된 바와 같이, 본 실시예의 추천 정보를 생성하기 위한 장치(1100)는, 목표 사용자가 주목하는 콘텐츠를 표현하는 주목 정보를 획득하고, 주목 정보와 기설정된 태그 정보를 매칭하도록 구성되되, 태그 정보는 상기 도2 내지 도8의 임의의 한 실시예에 설명된 방법에 따라 획득되고, 태그 정보는 대응되는 비디오 클립을 구비하는 획득 유닛(1101); 및 매칭 성공을 확정하는 것에 응답하여, 비디오 클립을 추천하기 위한 추천 정보를 생성하도록 구성된 생성 유닛(1102)을 포함한다.

본 출원의 상기 실시예서 제공하는 장치는, 목표 사용자의 주목 정보와 기설정된 태그 정보를 매칭함으로써 비디오 클립을 추천하기 위한 추천 정보를 생성한다. 상기 도2 내지 도8의 임의의 한 실시예에 설명된 방법에 따라 획득된 태그 정보를 사용함으로써 추천 정보를 생성하는 관련성을 향상시키게 된다.

이하 도12를 참조하면, 도12는 본 출원의 실시예에 따른 서버를 구현하기에 적합한 컴퓨터 시스템(1200)의 구조적 개략도를 나타낸다. 도12에 도시된 서버는 단지 예시일 뿐, 본 출원의 실시예의 기능 및 사용 범위에 대해 그 어떠한 한정을 진행하여서는 안된다.

도12에 도시된 바와 같이, 컴퓨터 시스템(1200)은 중앙 처리 유닛(1201; CPU, Central Processing Unit)을 포함하되, CPU(1201)는 읽기 전용 메모리 장치(1202; ROM, Read Only Memory)에 저장된 프로그램 또는 저장부(1208)로부터 랜덤 액세스 메모리 장치(1203; RAM, Random Access Memory)에 로딩된 프로그램에 의해 다양한 동작과 처리를 실행할 수 있다. RAM(1203)에는 시스템(1200)을 작동하기에 필요한 각종 프로그램 및 데이터가 더 저장되어 있다. CPU(1201), ROM(1202) 및 RAM(1203)은 버스(1204)를 통해 서로 연결된다. 입력/출력(I/O; Input/Output) 인터페이스(1205)도 버스(1204)에 연결된다.

I/O 인터페이스(1205)에 연결되는 부재로서, 키보드, 마우스 등을 포함하는 입력부(1206)와, 예커내 음극선관(CRT; Cathode Ray Tube), 액정 표시 장치(LCD; Liquid Crystal Display) 등 및 스피커 등을 포함하는 출력부(1207)와, 하드 드라이버 등을 포함하는 저장부(1208)와, 예컨대 LAN(Local Area Network) 카드, 모뎀 등의 네트워크 인터페이스 카드를 포함하는 통신부(1209)가 포함된다. 통신부(1209)는 인터넷과 같은 네트워크를 통해 통신 처리를 실행한다. 구동부(1210)도 수요에 따라 I/O 인터페이스(1205)에 연결된다. 자기 디스크, 광 디스크, 광자기 디스크, 반도체 메모리 장치 등과 같은 착탈 가능한 매체(1211)는 이러한 매체로부터 판독된 컴퓨터 프로그램을 수요에 따라 저장부(1208)에 설치하도록 수요에 따라 구동부(1210)에 설치된다.

특히, 본 개시의 실시예에 의하면, 흐름도를 참조하여 설명한 상기 과정들은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 예를 들어, 본 개시의 실시예는 컴퓨터 프로그램 제품을 포함하고, 상기 컴퓨터 프로그램 제품은 컴퓨터 판독 가능한 매체에 탑재된 컴퓨터 프로그램을 포함하며, 해당 컴퓨터 프로그램은 흐름도에 도시된 방법을 실행하기 위한 컴퓨터 코드를 포함한다. 이러한 실시예에 있어서, 해당 컴퓨터 프로그램은 통신부(1209)를 경유하여 네트워크로부터 다운로드되어 설치될 수 있고 및/또는 착탈 가능한 매체(1211)로부터 설치될 수 있다. 해당 컴퓨터 프로그램이 중앙 처리 유닛(1201; CPU)에 의해 실행될 경우, 본 출원의 방법에 한정된 상기 기능들을 실행한다. 본 출원의 컴퓨터 판독 가능한 매체는 컴퓨터 판독 가능한 저장 매체일 수 있음을 유의하여야 한다. 컴퓨터 판독 가능한 저장 매체는 전기, 자기, 광학, 전자기, 적외선 또는 반도체의 시스템, 장치, 소자 또는 상기의 임의의 조합일 수 있으나, 이에 한정되지 않는다. 컴퓨터 판독 가능한 저장 매체의 더욱 구체적인 예시는 하나 또는 다수의 와이어를 구비하는 전기적 연결, 휴대용 컴퓨터 자기 디스크, 하드 디스크, 랜덤 액세스 메모리 장치(RAM), 읽기 전용 메모리 장치(ROM), 소거 및 프로그램 가능한 읽기 전용 메모리 장치(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 읽기 전용 메모리 장치(CD-ROM), 광 메모리 장치, 자기 메모리 장치 또는 상기의 임의의 적합한 조합을 포함할 수 있으나, 이에 한정되지 않는다. 본 출원에 있어서, 컴퓨터 판독 가능한 저장 매체는 프로그램을 포함하거나 저장하는 임의의 유형 매체일 수 있으며, 해당 프로그램은 명령어 실행 시스템, 장치 또는 소자에 의해 사용되거나 이와 결합하여 사용될 수 있다. 컴퓨터 판독 가능한 매체에 포함된 프로그램 코드는 임의의 적당한 매체를 이용하여 전송될 수 있으며, 무선, 전선, 케이블, RF 등 또는 상기의 임의의 적합한 조합을 포함하나, 이에 한정되지 않는다.

본 출원의 동작을 수행하기 위한 컴퓨터 프로그램 코드는 하나 또는 다수의 프로그래밍 언어 또는 그들의 조합으로 작성될 수 있으며, 상기 프로그래밍 언어는 개체 지향적 프로그래밍 언어(예컨대, Java, Smalltalk, 및 C++)를 포함하고, 통상적인 프로세스형 프로그래밍 언어(예컨대, C 언어 또는 유사한 프로그래밍 언어)를 더 포함한다. 프로그램 코드는 전부 사용자 컴퓨터에서 실행되거나 부분적으로 실행되며, 또는 하나의 독립형 소프트웨어 패키지로서 실행되거나 일부분이 사용자 컴퓨터에서 실행되고 다른 일부분이 원격 컴퓨터에서 실행되거나, 전부 원격 컴퓨터 또는 서버에서 실행될 수 있다. 원격 컴퓨터의 경우, 근거리 통신망(LAN) 또는 광역 통신망(WAN)을 포함하는 임의 종류의 네트워크를 통해 사용자 컴퓨터에 연결되거나 외부 컴퓨터에 연결될 수도 있다(예컨대, 인터넷 서비스 공급자를 이용하여 인터넷을 통해 연결이 진행된다).

첨부된 도면 중의 흐름도 및 블록도는 본 출원의 각 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 구현 가능한 체계구조, 기능 및 동작을 도시하였다. 이러한 방면에 있어서, 흐름도 또는 블록도 중의 각 블록은 하나의 모듈, 프로그램 세그먼트 또는 코드의 일부분을 대표할 수 있고, 해당 모듈, 프로그램 세그먼트 또는 코드의 일부분은 규정된 로직 기능을 구현하기 위한 하나 또는 다수의 실행 가능한 명령어를 포함한다. 일부 대체 구현에 있어서, 블록에 표기된 기능들은 첨부된 도면에 표기된 순서와 다른 순서로 수행될 수도 있음을 유의하여야 한다. 예를 들어, 순차적으로 표시된 두개의 블록은 실제적으로 거의 동시에 실행될 수 있고, 경우에 따라 반대된 순서에 따라 실행될 수도 있으며, 이는 관련된 기능에 따라 결정된다. 블록도 및/또는 흐름도 중의 각 블록 및 블록도 및/또는 흐름도 중의 블록들의 조합은 규정된 기능 또는 동작을 실행하는 하드웨어 기반의 전용 시스템으로 구현되거나, 전용 하드웨어와 컴퓨터 명령어의 조합으로 구현될 수 있음을 유의하여야 한다.

본 출원의 실시예에 설명된 관련 유닛들은 소프트웨어의 방식으로 구현될 수 있거나, 또는 하드웨어의 방식으로 구현될 수도 있다. 설명된 유닛들은 프로세서에 설치될 수도 있으며, 예를 들어, 프로세서가 획득 유닛, 추출 유닛, 확정 유닛 및 저장 유닛을 포함한다고 설명될 수 있다. 여기서, 이러한 유닛들의 명칭은 일부의 경우에 있어서 해당 유닛 자체에 대한 한정을 구성하지 않으며, 예를 들어, 획득 유닛은 "목표 비디오 및 상기 목표 비디오의 목표 비디오 요소 정보를 획득하는 유닛"으로 설명될 수도 있다.

다른 일 방면에 있어서, 본 출원은 컴퓨터 판독 가능한 매체를 더 제공하며, 해당 컴퓨터 판독 가능한 매체는 상기 실시예에 설명된 서버에 포함되는 것일 수 있으며, 또는 해당 서버에 설치되는 것이 아니라 별도로 제공된 것일 수도 있다. 상기 컴퓨터 판독 가능한 매체에는 하나 또는 다수의 프로그램이 탑재되고, 상기 하나 또는 다수의 프로그램이 해당 서버에 의해 실행될 경우, 해당 서버로 하여금, 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 획득하며; 목표 비디오 요소 정보를 기반으로 목표 비디오에서 목표 비디오 클립을 추출하며; 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 목표 비디오 클립의 유형을 표현하는 키워드를 획득하며; 키워드와 기설정된 태그 정보 집합을 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장하도록 한다.

또한, 상기 하나 또는 다수의 프로그램이 해당 서버에 의해 실행될 경우, 해당 서버로 하여금, 목표 사용자가 주목하는 콘텐츠를 표현하는 주목 정보를 획득하고, 주목 정보와 기설정된 태그 정보를 매칭하되, 태그 정보는 상기 도2 내지 도8의 임의의 한 실시예에 설명된 방법에 따라 획득되고, 태그 정보는 대응되는 비디오 클립을 구비하며, 매칭 성공을 확정하는 것에 응답하여, 비디오 클립을 추천하기 위한 추천 정보를 생성하도록 할 수 있다.

이상의 설명은 단지 본 출원의 비교적 바람직한 실시예 및 운용한 기술적 원리에 대한 설명이다. 본 출원에 관련된 발명의 범위가 상기 기술적 특징들의 특정 조합으로 이루어진 기술적 방안들에 한정되는 것이 아니라, 본 발명의 주지를 벗어나지 않는 한 상기 기술적 특징들 또는 그들의 균등한 특징들의 임의의 조합으로 이루어진 기타 기술적 방안들도 포함되어야 함을 해당 기술분야의 당업자는 이해할 것이다. 예를 들어, 상기 특징들과 본 출원에 개시되어 있으나 이에 한정되지 않는 유사한 기능을 구비한 기술적 특징을 서로 대체하여 이루어진 기술적 방안도 포함된다.

Claims

비디오를 처리하기 위한 장치가 목표 비디오 및 상기 목표 비디오의 목표 비디오 요소 정보를 획득하는 단계;
상기 비디오를 처리하기 위한 장치가 상기 목표 비디오 요소 정보를 기반으로 상기 목표 비디오에서 목표 비디오 클립을 추출하는 단계;
상기 비디오를 처리하기 위한 장치가 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 상기 목표 비디오 클립의 유형을 표현하는 키워드를 획득하는 단계; 및
상기 비디오를 처리하기 위한 장치가 획득한 상기 키워드와 기설정된 태그 정보 집합을 매칭하여 상기 목표 비디오 클립의 태그 정보를 획득하고, 상기 목표 비디오 클립과 상기 태그 정보를 관련시키고 저장하는 단계를 포함하되,
상기 목표 비디오 요소 정보는 상기 목표 비디오에 포함된 이미지 프레임, 상기 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보의 집합, 상기 목표 비디오에 포함된 이미지 프레임에 대응되는 탄막 정보의 집합, 상기 목표 비디오의 더빙 정보, 상기 목표 비디오의 명칭 및 상기 목표 비디오의 재생 시간 중 적어도 하나를 포함하며,
상기 목표 비디오 요소 정보가 상기 탄막 정보의 집합인 경우, 상기 비디오를 처리하기 위한 장치는 상기 목표 비디오에 포함된 이미지 프레임의 탄막 정보의 수량이 기설정된 수량 역치보다 크고, 상기 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 상기 목표 비디오 클립으로 확정하고,
상기 기설정된 태그 정보 집합은 기설정된 지식 베이스이며,
상기 태그 정보 집합은 적어도 하나의 서브 집합을 포함하고, 상기 목표 비디오 클립의 키워드가 어느 한 서브 집합 내의 태그 정보와 매칭하는 것에 응답하여, 해당 서브 집합 중의 적어도 하나의 태그 정보를 상기 목표 비디오 클립의 태그 정보로 결정하는 것을 특징으로 하는 비디오를 처리하기 위한 방법.
제1항에 있어서,
상기 목표 비디오 요소 정보는 상기 목표 비디오에 포함된 이미지 프레임이며,
상기 목표 비디오 요소 정보를 기반으로 상기 목표 비디오에서 목표 비디오 클립을 추출하는 단계는,
상기 목표 비디오에 포함된 이미지 프레임에 대한 이미지 인식을 진행하여 해당 이미지 프레임의 이미지 인식 결과를 획득하는 단계; 및
상기 이미지 인식 결과와 관련되고 상기 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 상기 목표 비디오 클립으로 확정하는 단계를 포함하는 것을 특징으로 하는 비디오를 처리하기 위한 방법.
제2항에 있어서,
상기 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 상기 목표 비디오 클립의 유형을 표현하는 키워드를 획득하는 단계는,
이미지 인식 결과와 키워드의 기설정된 대응 관계를 기반으로, 상기 목표 비디오 클립에 포함된 이미지 프레임의 이미지 인식 결과에 대응되는 키워드를 상기 목표 비디오 클립의 키워드로 확정하는 단계를 포함하는 것을 특징으로 하는 비디오를 처리하기 위한 방법.
제1항에 있어서,
상기 목표 비디오 요소 정보는 상기 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보의 집합이며,
상기 목표 비디오 요소 정보를 기반으로 상기 목표 비디오에서 목표 비디오 클립을 추출하는 단계는,
상기 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보에 포함된 목표 어휘를 추출하는 단계; 및
상기 목표 어휘에 대응되는 이미지 프레임이 존재하는 비디오 클립을 상기 목표 비디오 클립으로 확정하는 단계를 포함하는 것을 특징으로 하는 비디오를 처리하기 위한 방법.
제4항에 있어서,
상기 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 상기 목표 비디오 클립의 유형을 표현하는 키워드를 획득하는 단계는,
상기 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 목표 어휘 중에서 임의로 또는 출현 횟수의 순서에 따라 목표 어휘를 선택하여 상기 목표 비디오 클립의 키워드로 사용하는 단계를 포함하는 것을 특징으로 하는 비디오를 처리하기 위한 방법.
제1항에 있어서,
상기 목표 비디오 요소 정보는 상기 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보의 집합 및 상기 목표 비디오의 텍스트 소개 정보를 포함하며,
상기 목표 비디오 요소 정보를 기반으로 상기 목표 비디오에서 목표 비디오 클립을 추출하는 단계는,
상기 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보와 상기 텍스트 소개 정보의 유사도를 확정하는 단계; 및
기설정된 유사도 역치보다 큰 유사도를 갖는 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하는 단계를 포함하는 것을 특징으로 하는 비디오를 처리하기 위한 방법.
제6항에 있어서,
상기 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 상기 목표 비디오 클립의 유형을 표현하는 키워드를 획득하는 단계는,
상기 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 텍스트 정보에 포함된 목표 어휘를 추출하는 단계; 및
상기 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 목표 어휘 중에서 임의로 또는 출현 횟수의 순서에 따라 목표 어휘를 선택하여 상기 목표 비디오 클립의 키워드로 사용하는 단계를 포함하는 것을 특징으로 하는 비디오를 처리하기 위한 방법.
삭제
제1항에 있어서,
상기 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 상기 목표 비디오 클립의 유형을 표현하는 키워드를 획득하는 단계는,
상기 목표 비디오 클립에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 탄막 정보에 대해 인식을 진행하여, 해당 이미지 프레임에 대응되는 탄막 정보가 속하는 유형을 표현하는 탄막 유형 정보를 획득하여 상기 목표 비디오 클립의 키워드로 사용하는 단계를 포함하는 것을 특징으로 하는 비디오를 처리하기 위한 방법.
제1항에 있어서,
상기 목표 비디오 요소 정보는 상기 목표 비디오의 더빙 정보이며,
상기 목표 비디오 요소 정보를 기반으로 상기 목표 비디오에서 목표 비디오 클립을 추출하는 단계는,
상기 더빙 정보에 대해 음성 인식을 진행하여, 적어도 하나의 더빙 유형 정보 및 더빙 유형 정보에 대응되고 상기 더빙 정보에 포함되는 더빙 클립을 획득하되, 더빙 유형 정보는 대응되는 더빙 클립이 속하는 유형을 표현하는데 사용되는 단계; 및
상기 적어도 하나의 더빙 유형 정보에서 임의로 또는 더빙 클립의 추출 순서에 따라 목표 더빙 유형 정보를 선택하고, 상기 목표 더빙 유형 정보에 대응되는 더빙 클립에 대응되는 비디오 클립을 목표 비디오 클립으로 확정하는 단계를 포함하는 것을 특징으로 하는 비디오를 처리하기 위한 방법.
제10항에 있어서,
상기 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 상기 목표 비디오 클립의 유형을 표현하는 키워드를 획득하는 단계는,
더빙 유형 정보와 음성 인식 방식의 기설정된 대응 관계를 기반으로, 상기 목표 비디오 클립에 대응되는 더빙 클립에 대해 인식을 진행하여 상기 목표 비디오 클립에 대응되는 더빙 클립이 속하는 유형을 표현하는 키워드를 획득하여 상기 목표 비디오 클립의 키워드로 사용하는 단계를 포함하는 것을 특징으로 하는 비디오를 처리하기 위한 방법.
비디오를 처리하기 위한 장치가 목표 사용자가 주목하는 콘텐츠를 표현하는 주목 정보를 획득하고, 상기 주목 정보와 기설정된 태그 정보를 매칭하되, 상기 태그 정보는 제1항 내지 제7항 및 제9항 내지 제11항 중 어느 하나의 항의 방법에 따라 획득되고, 상기 태그 정보에 대응되는 비디오 클립을 구비하는 단계; 및
상기 비디오를 처리하기 위한 장치가 상기 주목 정보와 상기 기설정된 태그 정보가 성공적으로 매칭됨을 확정하는 것에 응답하여, 상기 비디오 클립을 추천하기 위한 추천 정보를 생성하는 단계를 포함하는 것을 특징으로 하는 추천 정보를 생성하기 위한 방법.
목표 비디오 및 상기 목표 비디오의 목표 비디오 요소 정보를 획득하도록 구성된 획득 유닛;
상기 목표 비디오 요소 정보를 기반으로 상기 목표 비디오에서 목표 비디오 클립을 추출하도록 구성된 추출 유닛;
비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 상기 목표 비디오 클립의 유형을 표현하는 키워드를 획득하도록 구성된 확정 유닛; 및
상기 키워드와 기설정된 태그 정보 집합을 매칭하여 상기 목표 비디오 클립의 태그 정보를 획득하고, 상기 목표 비디오 클립과 상기 태그 정보를 관련시키고 저장하도록 구성된 저장 유닛을 포함하되,
상기 목표 비디오 요소 정보는 상기 목표 비디오에 포함된 이미지 프레임, 상기 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보의 집합, 상기 목표 비디오에 포함된 이미지 프레임에 대응되는 탄막 정보의 집합, 상기 목표 비디오의 더빙 정보, 상기 목표 비디오의 명칭 및 상기 목표 비디오의 재생 시간 중 적어도 하나를 포함하며,
상기 추출 유닛은 상기 목표 비디오 요소 정보가 상기 탄막 정보의 집합인 경우, 상기 목표 비디오에 포함된 이미지 프레임의 탄막 정보의 수량이 기설정된 수량 역치보다 크고, 상기 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 상기 목표 비디오 클립으로 확정하고,
상기 기설정된 태그 정보 집합은 기설정된 지식 베이스이며,
상기 태그 정보 집합은 적어도 하나의 서브 집합을 포함하고, 상기 목표 비디오 클립의 키워드가 어느 한 서브 집합 내의 태그 정보와 매칭하는 것에 응답하여, 해당 서브 집합 중의 적어도 하나의 태그 정보를 상기 목표 비디오 클립의 태그 정보로 결정하는 것을 특징으로 하는 비디오를 처리하기 위한 장치.
제13항에 있어서,
상기 목표 비디오 요소 정보는 상기 목표 비디오에 포함된 이미지 프레임이며,
상기 추출 유닛은,
상기 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대한 이미지 인식을 진행하여 해당 이미지 프레임의 이미지 인식 결과를 획득하도록 구성된 제1 인식 모듈; 및
이미지 인식 결과와 관련되고 상기 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하도록 구성된 제1 확정 모듈을 포함하는 것을 특징으로 하는 비디오를 처리하기 위한 장치.
제14항에 있어서,
상기 확정 유닛은,
이미지 인식 결과와 키워드의 기설정된 대응 관계를 기반으로, 상기 목표 비디오 클립에 포함된 이미지 프레임의 이미지 인식 결과에 대응되는 키워드를 상기 목표 비디오 클립의 키워드로 확정하도록 더 구성되는 것을 특징으로 하는 비디오를 처리하기 위한 장치.
제13항에 있어서,
상기 목표 비디오 요소 정보는 상기 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보의 집합이며,
상기 추출 유닛은,
상기 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보에 포함된 목표 어휘를 추출하도록 구성된 제1 추출 모듈; 및
상기 목표 어휘에 관련되는 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하도록 구성된 제2 확정 모듈을 포함하는 것을 특징으로 하는 비디오를 처리하기 위한 장치.
제16항에 있어서,
상기 확정 유닛은,
상기 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 목표 어휘 중에서 임의로 또는 출현 횟수의 순서에 따라 목표 어휘를 선택하여 상기 목표 비디오 클립의 키워드로 사용하도록 더 구성되는 것을 특징으로 하는 비디오를 처리하기 위한 장치.
제13항에 있어서,
상기 목표 비디오 요소 정보는 상기 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보의 집합 및 상기 목표 비디오의 텍스트 소개 정보를 포함하며,
상기 추출 유닛은,
상기 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보와 상기 텍스트 소개 정보의 유사도를 확정하도록 구성된 제3 확정 모듈; 및
기설정된 유사도 역치보다 큰 유사도를 갖는 이미지 프레임과 관련된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하도록 구성된 제4 확정 모듈을 포함하는 것을 특징으로 하는 비디오를 처리하기 위한 장치.
제18항에 있어서,
상기 확정 유닛은,
상기 목표 비디오 클립에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보에 포함된 목표 어휘를 추출하도록 구성된 제2 추출 모듈; 및
상기 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 목표 어휘에서 임의로 또는 출현 횟수의 순서에 따라 목표 어휘를 선택하여 상기 목표 비디오 클립의 키워드로 사용하도록 구성된 제1 선택 모듈을 포함하는 것을 특징으로 하는 비디오를 처리하기 위한 장치.
삭제
제13항에 있어서,
상기 확정 유닛은,
상기 목표 비디오 클립에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 탄막 정보에 대해 인식을 진행하여, 해당 이미지 프레임에 대응되는 탄막 정보가 속하는 유형을 표현하는 탄막 유형 정보를 획득하여 상기 목표 비디오 클립의 키워드로 사용하도록 더 구성되는 것을 특징으로 하는 비디오를 처리하기 위한 장치.
제13항에 있어서,
상기 목표 비디오 요소 정보는 상기 목표 비디오의 더빙 정보이며,
상기 추출 유닛은,
상기 더빙 정보에 대해 음성 인식을 진행하여, 적어도 하나의 더빙 유형 정보 및 더빙 유형 정보에 대응되고 상기 더빙 정보에 포함되는 더빙 클립을 획득하도록 구성되되, 더빙 유형 정보는 대응되는 더빙 클립이 속하는 유형을 표현하는데 사용되는 제2 인식 모듈; 및
상기 적어도 하나의 더빙 유형 정보에서 임의로 또는 더빙 클립의 추출 순서에 따라 목표 더빙 유형 정보를 선택하고, 상기 목표 더빙 유형 정보에 대응되는 더빙 클립에 대응되는 비디오 클립을 목표 비디오 클립으로 확정하도록 구성된 제2 선택 모듈을 포함하는 것을 특징으로 하는 비디오를 처리하기 위한 장치.
제22항에 있어서,
상기 확정 유닛은,
더빙 유형 정보와 음성 인식 방식의 기설정된 대응 관계를 기반으로, 상기 목표 비디오 클립에 대응되는 더빙 클립에 대해 인식을 진행하여 상기 목표 비디오 클립에 대응되는 더빙 클립이 속하는 유형을 표현하는 키워드를 획득하여 상기 목표 비디오 클립의 키워드로 사용하도록 더 구성되는 것을 특징으로 하는 비디오를 처리하기 위한 장치.
목표 사용자가 주목하는 콘텐츠를 표현하는 주목 정보를 획득하고, 상기 주목 정보와 기설정된 태그 정보를 매칭하도록 구성되되, 상기 태그 정보는 제1항 내지 제7항 및 제9항 내지 제11항 중 임의의 한 항의 방법에 따라 획득되고, 상기 태그 정보는 대응되는 비디오 클립을 구비하는 획득 유닛; 및
상기 주목 정보와 상기 기설정된 태그 정보가 성공적으로 매칭됨을 확정하는 것에 응답하여, 상기 비디오 클립을 추천하기 위한 추천 정보를 생성하도록 구성된 생성 유닛을 포함하는 것을 특징으로 하는 추천 정보를 생성하기 위한 장치.
하나 또는 다수의 프로세서; 및
하나 또는 다수의 프로그램을 저장하기 위한 저장 장치를 포함하되,
상기 하나 또는 다수의 프로그램이 상기 하나 또는 다수의 프로세서에 의해 실행될 경우, 상기 하나 또는 다수의 프로세서가 제1항 내지 제7항 및 제9항 내지 제11항 중 어느 하나의 항에 따른 방법을 구현하도록 구성된 서버.
비일시적인 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 저장 매체에 있어서,
상기 프로그램은 프로세서에 의해 실행될 경우 제1항 내지 제7항 및 제9항 내지 제11항 중 어느 하나의 항에 따른 방법을 구현하도록 구성된 컴퓨터 판독 가능한 저장 매체.