KR102394756B1 - 비디오를 처리하기 위한 방법 및 장치 - Google Patents

비디오를 처리하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR102394756B1
KR102394756B1 KR1020210053261A KR20210053261A KR102394756B1 KR 102394756 B1 KR102394756 B1 KR 102394756B1 KR 1020210053261 A KR1020210053261 A KR 1020210053261A KR 20210053261 A KR20210053261 A KR 20210053261A KR 102394756 B1 KR102394756 B1 KR 102394756B1
Authority
KR
South Korea
Prior art keywords
target video
information
target
clip
video clip
Prior art date
Application number
KR1020210053261A
Other languages
English (en)
Other versions
KR20210053825A (ko
Inventor
예한 정
위 루오
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210053825A publication Critical patent/KR20210053825A/ko
Application granted granted Critical
Publication of KR102394756B1 publication Critical patent/KR102394756B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • H04N21/2353Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4668Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Software Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

본 출원의 실시예는 비디오를 처리하기 위한 방법 및 장치를 개시한다. 해당 방법의 일 구체적인 실시예는, 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 획득하는 단계; 목표 비디오 요소 정보를 기반으로 목표 비디오에서 목표 비디오 클립을 추출하는 단계; 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 목표 비디오 클립의 유형을 표현하는 키워드를 획득하는 단계; 및 키워드와 기설정된 태그 정보 집합을 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장하는 단계를 포함한다. 해당 실시예는 비디오 클립에 태그 정보를 첨가하는 정확성을 향상시키고 비디오 클립에 태그 정보를 첨가하는 수단을 풍부하게 한다.

Description

비디오를 처리하기 위한 방법 및 장치{METHOD AND APPARATUS FOR PROCESSING VIDEO}
본 출원의 실시예는 컴퓨터 기술 분야에 관한 것으로, 특히 비디오를 처리하기 위한 방법 및 장치에 관한 것이다.
종래의 기술에 있어서, 비디오 콘텐츠에 대한 분류를 실현하기 위해, 비디오 콘텐츠의 분류는 더욱 세분화되도록 비디오에 대해 태그 첨가 처리(예를 들어, 태그는 비디오 콘텐츠에 대한 소개, 비디오 콘텐츠의 키워드, 및 모 시간 구간에 비디오의 검색량의 순위일 수 있음)를 진행할 필요는 있다. 비디오 추천 기술을 예로 들면, 비디오의 태그와 사용자가 주목하는 정보를 결부함으로써 사용자에게 비디오를 더 정확하게 추천하는 목적은 달성될 수 있다.
한국공개특허 제10-2012-0114505호
본 출원의 실시예는 비디오를 처리하기 위한 방법 및 장치, 및 추천 정보를 생성하기 위한 방법 및 장치를 제출한다.
제1 방면에 있어서, 본 출원의 실시예는 비디오를 처리하기 위한 방법을 제공한다. 해당 방법은, 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 획득하는 단계; 목표 비디오 요소 정보를 기반으로 목표 비디오에서 목표 비디오 클립을 추출하는 단계; 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 목표 비디오 클립의 유형을 표현하는 키워드를 획득하는 단계; 및 키워드와 기설정된 태그 정보 집합을 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장하는 단계를 포함한다.
일부 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임이다. 목표 비디오 요소 정보를 기반으로 목표 비디오에서 목표 비디오 클립을 추출하는 단계는, 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대한 이미지 인식을 진행하여 해당 이미지 프레임의 이미지 인식 결과를 획득하는 단계; 및 이미지 인식 결과가 관련되고 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하는 단계를 포함한다.
일부 실시예에 있어서, 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 목표 비디오 클립의 유형을 표현하는 키워드를 획득하는 단계는, 이미지 인식 결과와 키워드의 기설정된 대응 관계를 기반으로, 목표 비디오 클립에 포함된 이미지 프레임의 이미지 인식 결과에 대응되는 키워드를 목표 비디오 클립의 키워드로 확정하는 단계를 포함한다.
일부 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보의 집합이다. 목표 비디오 요소 정보를 기반으로 목표 비디오에서 목표 비디오 클립을 추출하는 단계는, 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보에 포함된 목표 어휘를 추출하는 단계; 및 관련된 목표 어휘에 대응되는 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하는 단계를 포함한다.
일부 실시예에 있어서, 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 목표 비디오 클립의 유형을 표현하는 키워드를 획득하는 단계는, 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 목표 어휘에서 목표 어휘를 선택하여 목표 비디오 클립의 키워드로 사용하는 단계를 포함한다.
일부 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보의 집합 및 목표 비디오의 텍스트 소개 정보를 포함한다. 목표 비디오 요소 정보를 기반으로 목표 비디오에서 목표 비디오 클립을 추출하는 단계는, 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보와 텍스트 소개 정보의 유사도를 확정하는 단계; 및 기설정된 유사도 역치보다 큰 유사도에 대응되는 이미지 프레임과 관련된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하는 단계를 포함한다.
일부 실시예에 있어서, 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 목표 비디오 클립의 유형을 표현하는 키워드를 획득하는 단계는, 목표 비디오 클립에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보에 포함된 목표 어휘를 추출하는 단계; 및 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 목표 어휘에서 목표 어휘를 선택하여 목표 비디오 클립의 키워드로 사용하는 단계를 포함한다.
일부 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임에 대응되는 탄막 정보의 집합이다. 목표 비디오 요소 정보를 기반으로 목표 비디오에서 목표 비디오 클립을 추출하는 단계는, 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 탄막 정보의 수량을 확정하는 단계; 및 수량이 기설정된 수량 역치보다 큰 탄막 정보에 대응되고 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하는 단계를 포함한다.
일부 실시예에 있어서, 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 목표 비디오 클립의 유형을 표현하는 키워드를 획득하는 단계는, 목표 비디오 클립에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 탄막 정보에 대해 인식을 진행하여, 해당 이미지 프레임에 대응되는 탄막 정보가 속하는 유형을 표현하는 탄막 유형 정보를 획득하여 목표 비디오 클립의 키워드로 사용하는 단계를 포함한다.
일부 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오의 더빙 정보이다. 목표 비디오 요소 정보를 기반으로 목표 비디오에서 목표 비디오 클립을 추출하는 단계는, 더빙 정보에 대해 음성 인식을 진행하여, 적어도 하나의 더빙 유형 정보 및 더빙 유형 정보에 대응되고 더빙 정보에 포함되는 더빙 클립을 획득하되, 더빙 유형 정보는 대응되는 더빙 클립이 속하는 유형을 표현하는데 사용되는 단계; 및 적어도 하나의 더빙 유형 정보에서 목표 더빙 유형 정보를 선택하고, 목표 더빙 유형 정보에 대응되는 더빙 클립에 대응되는 비디오 클립을 목표 비디오 클립으로 확정하는 단계를 포함한다.
일부 실시예에 있어서, 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 목표 비디오 클립의 유형을 표현하는 키워드를 획득하는 단계는, 더빙 유형 정보와 음성 인식 방식의 기설정된 대응 관계를 기반으로, 목표 비디오 클립에 대응되는 더빙 클립에 대해 인식을 진행하여 목표 비디오 클립에 대응되는 더빙 클립이 속하는 유형을 표현하는 키워드를 획득하여 목표 비디오 클립의 키워드로 사용하는 단계를 포함한다.
제2 방면에 있어서, 본 출원의 실시예는 추천 정보를 생성하기 위한 방법을 제공한다. 해당 방법은, 목표 사용자가 주목하는 콘텐츠를 표현하는 주목 정보를 획득하고, 주목 정보와 기설정된 태그 정보를 매칭하되, 태그 정보는 제1 방면 중의 임의의 한 구현 방식에 설명된 방법에 따라 획득되고, 태그 정보는 대응되는 비디오 클립을 구비하는 단계; 및 매칭 성공을 확정하는 것에 응답하여, 비디오 클립을 추천하기 위한 추천 정보를 생성하는 단계를 포함한다.
제3 방면에 있어서, 본 출원의 실시예는 비디오를 처리하기 위한 장치를 제공한다. 해당 장치는, 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 획득하도록 구성된 획득 유닛; 목표 비디오 요소 정보를 기반으로 목표 비디오에서 목표 비디오 클립을 추출하도록 구성된 추출 유닛; 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 목표 비디오 클립의 유형을 표현하는 키워드를 획득하도록 구성된 확정 유닛; 및 키워드와 기설정된 태그 정보 집합을 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장하도록 구성된 저장 유닛을 포함한다.
일부 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임이다. 추출 유닛은, 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대한 이미지 인식을 진행하여 해당 이미지 프레임의 이미지 인식 결과를 획득하도록 구성된 제1 인식 모듈; 및 이미지 인식 결과가 관련되고 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하도록 구성된 제1 확정 모듈을 포함한다.
일부 실시예에 있어서, 확정 유닛은, 이미지 인식 결과와 키워드의 기설정된 대응 관계를 기반으로, 목표 비디오 클립에 포함된 이미지 프레임의 이미지 인식 결과에 대응되는 키워드를 목표 비디오 클립의 키워드로 확정하도록 더 구성된다.
일부 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보의 집합이다. 추출 유닛은, 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보에 포함된 목표 어휘를 추출하도록 구성된 제1 추출 모듈; 및 관련된 목표 어휘에 대응되는 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하도록 구성된 제2 확정 모듈을 포함한다.
일부 실시예에 있어서, 확정 유닛은 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 목표 어휘에서 목표 어휘를 선택하여 목표 비디오 클립의 키워드로 사용하도록 더 구성된다.
일부 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보의 집합 및 목표 비디오의 텍스트 소개 정보를 포함한다. 추출 유닛은, 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보와 텍스트 소개 정보의 유사도를 확정하도록 구성된 제3 확정 모듈; 및 기설정된 유사도 역치보다 큰 유사도에 대응되는 이미지 프레임과 관련된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하도록 구성된 제4 확정 모듈을 포함한다.
일부 실시예에 있어서, 확정 유닛은, 목표 비디오 클립에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보에 포함된 목표 어휘를 추출하도록 구성된 제2 추출 모듈; 및 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 목표 어휘에서 목표 어휘를 선택하여 목표 비디오 클립의 키워드로 사용하도록 구성된 제1 선택 모듈을 포함한다.
일부 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임에 대응되는 탄막 정보의 집합이다. 추출 유닛은, 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 탄막 정보의 수량을 확정하도록 구성된 제5 확정 모듈; 및 수량이 기설정된 수량 역치보다 큰 탄막 정보에 대응되고 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하도록 구성된 제6 확정 모듈을 포함한다.
일부 실시예에 있어서, 확정 유닛은, 목표 비디오 클립에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 탄막 정보에 대해 인식을 진행하여, 해당 이미지 프레임에 대응되는 탄막 정보가 속하는 유형을 표현하는 탄막 유형 정보를 획득하여 목표 비디오 클립의 키워드로 사용하도록 더 구성된다.
일부 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오의 더빙 정보이다. 추출 유닛은, 더빙 정보에 대해 음성 인식을 진행하여, 적어도 하나의 더빙 유형 정보 및 더빙 유형 정보에 대응되고 더빙 정보에 포함되는 더빙 클립을 획득하도록 구성되되, 더빙 유형 정보는 대응되는 더빙 클립이 속하는 유형을 표현하는데 사용되는 제2 인식 모듈; 및 적어도 하나의 더빙 유형 정보에서 목표 더빙 유형 정보를 선택하고, 목표 더빙 유형 정보에 대응되는 더빙 클립에 대응되는 비디오 클립을 목표 비디오 클립으로 확정하도록 구성된 제2 선택 모듈을 포함한다.
일부 실시예에 있어서, 확정 유닛은, 더빙 유형 정보와 음성 인식 방식의 기설정된 대응 관계를 기반으로, 목표 비디오 클립에 대응되는 더빙 클립에 대해 인식을 진행하여 목표 비디오 클립에 대응되는 더빙 클립이 속하는 유형을 표현하는 키워드를 획득하여 목표 비디오 클립의 키워드로 사용하도록 더 구성된다.
제4 방면에 있어서, 본 출원의 실시예는 추천 정보를 생성하기 위한 장치를 제공한다. 해당 장치는, 목표 사용자가 주목하는 콘텐츠를 표현하는 주목 정보를 획득하고, 주목 정보와 기설정된 태그 정보를 매칭하도록 구성되되, 태그 정보는 제1 방면 중의 임의의 한 구현 방식에 설명된 방법에 따라 획득되고, 태그 정보는 대응되는 비디오 클립을 구비하는 획득 유닛; 및 매칭 성공을 확정하는 것에 응답하여, 비디오 클립을 추천하기 위한 추천 정보를 생성하도록 구성된 생성 유닛을 포함한다.
제5 방면에 있어서, 본 출원의 실시예는 서버를 제공한다. 해당 서버는 하나 또는 다수의 프로세서와, 하나 또는 다수의 프로그램을 저장하기 위한 저장 장치를 포함한다. 하나 또는 다수의 프로그램이 하나 또는 다수의 프로세서에 의해 실행될 경우, 하나 또는 다수의 프로세서가 제1 방면 또는 제2 방면 중의 임의의 한 구현 방식에 설명된 방법을 구현한다.
제6 방면에 있어서, 본 출원의 실시예는 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 매체를 제공한다. 해당 컴퓨터 프로그램은 프로세서에 의해 실행될 경우 제1 방면 또는 제2 방면 중의 임의의 한 구현 방식에 설명된 방법을 구현한다.
본 출원의 실시예에서 제공하는 비디오를 처리하기 위한 방법 및 장치는, 목표 비디오의 목표 비디오 요소 정보를 이용함으로써 목표 비디오에서 목표 비디오 클립을 추출하며, 다음, 기설정된 키워드 확정 방식을 기반으로 목표 비디오 클립의 키워드를 획득하며, 마지막으로, 키워드와 기설정된 태그 정보를 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장한다. 따라서, 비디오 클립에 태그 정보를 첨가하는 정확성을 향상시키고 비디오 클립에 태그 정보를 첨가하는 수단을 풍부하게 한다.
이하 첨부된 도면들을 참조하여 진행한 비 한정적인 실시예에 대한 상세한 설명으로부터, 본 출원의 기타 특징, 목적 및 장점들은 더욱 명확해 질 것이다.
도1은 본 출원의 일 실시예가 적용 가능한 예시적 시스템의 구조도이다.
도2는 본 출원에 따른 비디오를 처리하기 위한 방법의 일 실시예의 흐름도이다.
도3은 본 출원에 따른 비디오를 처리하기 위한 방법의 일 적용 시나리오의 개략도이다.
도4는 본 출원에 따른 비디오를 처리하기 위한 방법의 다른 일 실시예의 흐름도이다.
도5는 본 출원에 따른 비디오를 처리하기 위한 방법의 다른 일 실시예의 흐름도이다.
도6은 본 출원에 따른 비디오를 처리하기 위한 방법의 다른 일 실시예의 흐름도이다.
도7은 본 출원에 따른 비디오를 처리하기 위한 방법의 다른 일 실시예의 흐름도이다.
도8은 본 출원에 따른 비디오를 처리하기 위한 방법의 다른 일 실시예의 흐름도이다.
도9는 본 출원에 따른 추천 정보를 생성하기 위한 방법의 일 실시예의 흐름도이다.
도10은 본 출원에 따른 비디오를 처리하기 위한 장치의 일 실시예의 구조적 개략도이다.
도11은 본 출원에 따른 추천 정보를 생성하기 위한 장치의 일 실시예의 구조적 개략도이다.
도12는 본 출원의 실시예에 따른 서버를 구현하기에 적합한 컴퓨터 시스템의 구조적 개략도이다.
이하, 첨부된 도면 및 실시예들을 결부하여 본 출원을 상세히 설명하기로 한다. 본 명세서에서 설명된 구체적인 실시예들은 오직 해당 발명을 설명하기 위한 것일 뿐, 해당 발명을 한정하기 위한 것이 아님을 이해할 것이다. 또한, 설명의 편의를 위하여, 도면에는 오직 본 발명에 관련된 부분만이 도시되어 있다.
본 출원의 실시예 및 실시예의 특징들은 서로 모순되지 않는 한 상호 조합할 수 있다. 이하, 첨부된 도면을 참조하고 실시예들을 결부하여 본 출원을 상세히 설명하기로 한다.
도1은 본 출원의 실시예에 따른 비디오를 처리하기 위한 방법 또는 비디오를 처리하기 위한 장치를 적용할 수 있는 예시적 시스템 아키텍처(100)를 나타낸다.
도1에 도시된 바와 같이, 시스템 아키텍처(100)는 단말기 장치(101, 102 및 103), 네트워크(104), 및 서버(105)를 포함할 수 있다. 네트워크(104)는 단말기 장치(101, 102 및 103)와 서버(105) 사이에서 통신 링크를 제공하기 위한 매체이다. 네트워크(104)는 유선 통신 링크, 무선 통신 링크 또는 광섬유 케이블 등 다양한 연결 유형을 포함할 수 있다.
사용자는 단말기 장치(101, 102 및 103)를 이용하여 네트워크(104)를 통해 서버(105)와 인터랙션을 진행하여 메시지를 수신 또는 발신할 수 있다. 단말기 장치(101, 102 및 103)에는 다양한 통신 클라이언트 애플리케이션들(예를 들어, 비디오 재생 애플리케이션 및 웹 페이지 브라우징 애플리케이션)이 설치될 수 있다.
단말기 장치(101, 102 및 103)는 하드웨어 또는 소프트웨어일 수 있다. 단말기 장치(101, 102 및 103)는 하드웨어일 경우, 디스플레이 스크린을 구비하고 비디오 재생을 지원하는 다양한 전자 기기일 수 있으며, 스마트폰, 태블릿 PC, 랩톱형 컴퓨터 및 데스크톱 컴퓨터 등을 포함하나, 이에 한정되지 않는다. 단말기 장치(101, 102 및 103)는 소프트웨어일 경우, 상기한 전자 기기들에 설치될 수 있다. 단말기 장치(101, 102 및 103)는 다수의 소프트웨어 또는 소프트웨어 모듈(예를 들어, 분산 서비스를 제공하기 위한 소프트웨어 또는 소프트웨어 모듈), 또는 단일한 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있다. 여기서 이에 대한 구체적인 한정을 진행하지 않는다.
서버(105)는 다양한 서비스를 제공하는 서버일 수 있으며, 예를 들어, 단말기 장치(101, 102, 및 103)에 재생되는 비디오에 대해 지원을 제공하는 백엔드 비디오 리소스 서버일 수 있다. 백엔드 비디오 리소스 서버는 획득된 비디오(예를 들어, 단말기 장치 또는 기타 서버에서 획득된 비디오)에 대해 처리를 진행하고, 처리 결과(예를 들어, 비디오 클립 및 비디오 클립의 태그 정보)를 저장하거나 비디오 클립을 단말기 장치에 푸시할 수 있다.
본 출원의 실시예에서 제공하는 비디오를 처리하기 위한 방법 또는 추천 정보를 생성하기 위한 방법은 일반적으로 서버(105)에 의해 수행되고, 따라서, 비디오를 처리하기 위한 장치 또는 추천 정보를 생성하기 위한 장치는 일반적으로 단말기 서버(105)에 설치된다.
서버는 하드웨어 또는 소프트웨어일 수 있다. 서버는 하드웨어일 경우, 다수의 서버로 구성된 분산 서버 클러스터 또는 단일한 서버로 구현될 수 있다. 서버는 소프트웨어일 경우, 다수의 소프트웨어 또는 소프트웨어 모듈(예를 들어, 분산 서비스를 제공하기 위한 소프트웨어 또는 소프트웨어 모듈), 또는 단일한 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있다. 여기서 이에 대한 구체적인 한정을 진행하지 않는다
도1 중의 단말기 장치, 네트워크 및 서버의 수량은 단지 예시적인 것으로 이해할 것이다. 실제 수요에 따라, 임의 수량의 단말기 장치, 네트워크 및 서버를 구비할 수 있다
도2를 참조하면, 본 출원에 따른 비디오를 처리하기 위한 방법의 일 실시예의 프로세스(200)를 나타낸다. 해당 비디오를 처리하기 위한 방법은 아래와 같은 단계들을 포함한다.
단계(201), 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 획득한다.
본 실시예에 있어서, 비디오를 처리하기 위한 방법의 실행 주체(예를 들어, 도1에 도시된 서버)는 유선 연결 방식 또는 무선 연결 방식을 통해 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 원격으로 또는 로컬로 획득할 수 있다. 여기서, 목표 비디오는 미리 설정된 모 비디오 집합(예를 들어, 모 비디오 웹 사이트에서 제공하는 비디오) 중의 비디오일 수 있다. 비디오 요소 정보는 목표 비디오에 대응되는 여러 가지의 정보(예를 들어, 자막, 더빙, 이미지 프레임, 명칭, 및 재생 시간)일 수 있으며, 목표 비디오 요소 정보는 상기 여러 가지의 정보 중 적어도 한 가지를 포함할 수 있다.
단계(202), 목표 비디오 요소 정보를 기반으로 목표 비디오에서 목표 비디오 클립을 추출한다.
본 실시예에 있어서, 단계(201)에서 획득된 목표 비디오 요소 정보를 기반으로, 상기 실행 주체는 목표 비디오에서 목표 비디오 클립을 추출할 수 있다. 구체적으로, 상기 실행 주체는 다양한 방식으로 목표 비디오에서 목표 비디오 클립을 추출할 수 있다. 예를 들어, 목표 비디오 요소 정보가 목표 비디오에 포함된 이미지 프레임일 경우, 상기 실행 주체는 각 이미지 프레임에 대해 인식을 진행하여 각 이미지 프레임에 포함된 물체 이미지의 유형을 획득하고, 동일한 유형의 이미지 프레임(예를 들어, 무기 이미지를 포함하는 이미지 프레임)에 대응되는 비디오 클립을 목표 비디오 클립으로 확정할 수 있다.
단계(203), 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 목표 비디오 클립의 유형을 표현하는 키워드를 획득한다.
본 실시예에 있어서, 상기 실행 주체는 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 목표 비디오 클립의 유형을 표현하는 키워드를 획득할 수 있다. 여기서, 상기 비디오 요소 정보와 키워드 확정 방식의 대응 관계는 기설정된 프로그램 리스트로 표현될 수 있으며, 해당 프로그램 리스트 중의 프로그램은 적어도 하나의 비디오 요소 정보에 대응될 수 있다. 예를 들어, 목표 비디오 요소 정보가 목표 비디오에 포함된 이미지 프레임일 경우, 상기 실행 주체는 자동적으로 또는 기술자의 조작에 따라 대응된 프로그램을 실행할 수 있다. 해당 프로그램은 단계(202)에서 획득된 각 이미지 프레임의 인식 결과를 이용하여, 목표 비디오 클립에 포함된 이미지 프레임의 인식 결과를 목표 비디오 클립의 키워드로 확정한다. 혹은, 해당 프로그램은 목표 비디오 클립에 포함된 이미지 프레임에 대해 인식을 다시 진행하여 더욱 많은 정보(예를 들어, 각 이미지 프레임에 포함된 물품의 수량, 인물의 동작 등 정보)를 더 인식하여 목표 비디오 클립의 키워드로 사용할 수 있다.
단계(204), 키워드와 기설정된 태그 정보 집합을 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장한다.
본 실시예에 있어서, 단계(203)에서 획득된 키워드를 기반으로, 상기 실행 주체는 키워드와 기설정된 태그 정보 집합을 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장할 수 있다. 여기서, 태그 정보 집합은 적어도 하나의 서브 집합을 포함할 수 있으며, 각 서브 집합은 일련의 관련된 태그 정보의 집합일 수 있다. 예를 들어, 모 서브 집합은 "전쟁," "전투," "무기" 등과 같은 태그 정보를 포함한다. 목표 비디오 클립의 키워드가 해당 서브 집합에 포함된 태그 정보에 포함될 경우, 해당 서브 집합 중 적어도 하나의 태그 정보(예를 들어, "전쟁")는 목표 비디오 클립의 태그 정보로 확정될 수 있다.
실천에 있어서, 상기 태그 정보 집합은 기설정된 지식 베이스일 수 있다. 해당 지식 베이스는 다수의 지식 정보를 저장하고, 각 지식 정보는 일련의 키 정보에 대응된다. 예를 들어, "전쟁"으로 표시된 지식 정보에 대해, 해당 지식 정보는 "인원수는 2보다 크거나 가틈," "무기는 사용됨," "유혈" 등과 같은 키 정보를 포함할 수 있다. 목표 비디오 클립의 키워드가 상기 키 정보 중의 적어도 하나에 부합될 경우, 목표 비디오 클립의 태그 정보는 "전쟁"으로 설정될 수 있다. 예를 들어, 모 지식 정보가 한 노래의 명칭으로 표시될 경우, 해당 지식 정보는 노래의 가수, 노래의 저자, 노래의 풍격(예를 들어, "완약" 및 "호방") 등과 같은 키 정보를 포함할 수 있다. 목표 비디오 클립의 키워드가 해당 노래의 명칭일 경우, 해당 노래의 명칭에 대응되는 적어도 하나의 키 정보는 목표 비디오 클립의 태그 정보로 사용될 수 있다.
도3을 더 참조하면, 도3은 본 실시예에 따른 비디오를 처리하기 위한 방법의 적용 시나리오의 개략도이다. 도3의 적용 시나리오에 있어서, 서버(301)는 먼저 목표 비디오(302; 예를 들어, 모 영화) 및 목표 비디오(302)의 목표 비디오 요소 정보(303)를 로컬로 획득한다. 여기서, 목표 비디오 요소 정보(303)는 목표 비디오에 포함된 이미지 프레임이다. 다음, 서버(301)는 각 이미지 프레임에 대해 인식을 진행하여, 무기 이미지를 포함하고 적어도 2 개의 인물 이미지를 포함하는 이미지 프레임에 대응되는 비디오 클립을 목표 비디오 클립(304)으로 확정한다. 다음, 서버(301)는 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 목표 비디오 클립의 유형을 표현하는 키워드를 획득한다. 여기서, 상기 키워드 확정 방식은 목표 비디오 클립에 포함된 이미지 프레임의 인식 결과(즉, "무기" 및 "다수의 인물")를 목표 비디오 클립의 키워드(305)로 확정되는 것이다. 마지막으로, 서버(301)는 키워드(305)와 기설정된 태그 정보 집합을 매칭한다. 해당 태그 정보 집합에 있어서, "전쟁"으로 표시된 태그 정보 서브 집합에 상기 키워드가 포함될 경우, 목표 비디오 클립(304)의 태그 정보는 "전쟁"(즉, 도면 중의 307)으로 확정된다. 마지막으로, 서버(301)는 목표 비디오 클립(304)과 태그 정보(307)를 서버(301)의 저장 장치에 관련시키고 저장한다.
본 출원의 상기 실시예에서 제공하는 방법은, 목표 비디오의 목표 비디오 요소 정보를 이용함으로써 목표 비디오에서 목표 비디오 클립을 추출하며, 다음, 기설정된 키워드 확정 방식을 기반으로 목표 비디오 클립의 키워드를 획득하며, 마지막으로, 키워드와 기설정된 태그 정보를 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장한다. 따라서, 비디오 클립에 태그 정보를 첨가하는 정확성을 향상시키고 비디오 클립에 태그 정보를 첨가하는 수단을 풍부하게 한다.
도4를 더 참조하면, 비디오를 처리하기 위한 방법의 다른 일 실시예의 프로세스(400)를 나타낸다. 해당 비디오를 처리하기 위한 방법의 프로세스(400)는 아래와 같은 단계들을 포함한다.
단계(401), 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 획득한다.
본 실시예에 있어서, 비디오를 처리하기 위한 방법의 실행 주체(예를 들어, 도1에 도시된 서버)는 유선 연결 방식 또는 무선 연결 방식을 통해 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 원격으로 또는 로컬로 획득할 수 있다. 여기서, 목표 비디오는 미리 설정된 모 비디오 집합 중의 비디오일 수 있다. 비디오 요소 정보는 목표 비디오에 대응되는 여러 가지의 정보(예를 들어, 자막, 더빙, 이미지 프레임, 명칭, 및 재생 시간)일 수 있으며, 목표 비디오 요소 정보는 상기 여러 가지의 정보 중 적어도 한 가지를 포함할 수 있다.
본 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임이다.
단계(402), 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대한 이미지 인식을 진행하여 해당 이미지 프레임의 이미지 인식 결과를 획득한다.
본 실시예에 있어서, 목표 비디오에 포함된 이미지 프레임에 대해, 상기 실행 주체는 해당 이미지 프레임에 대한 이미지 인식을 진행하여 해당 이미지 프레임의 이미지 인식 결과를 획득할 수 있다. 여기서, 이미지 인식 결과는 이미지 프레임에 포함된 물체, 장면 등 이미지의 관련 정보(예를 들어, 물체의 수량, 장면의 유형 등 정보)일 수 있다. 상기 이미지 인식 결과는 기존의 이미지 인식 방법(예를 들어, 신경망 기반의 방법 및 프랙털 특징 기반의 방법)을 기반으로 획득될 수 있으며, 이미지 인식 방법은 현재 널리 연구되고 적용되는 공지된 기술이므로 여기서는 이에 대해 반복적으로 설명하지 않기로 한다.
단계(403), 이미지 인식 결과가 관련되고 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정한다.
본 실시예에 있어서, 단계(402)에서 획득된 이미지 인식 결과를 기반으로, 상기 실행 주체는 이미지 인식 결과가 관련되고 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정할 수 있다. 여기서, 이미지 인식 결과 사이의 관련 여부를 확정하는 방법은 기술자가 미리 설정한 조건을 기반으로 판단되는 것일 수 있다.
예를 들어, 이미지 인식 결과는 이미지 프레임에 포함된 물체의 유형 및 이미지 프레임에 포함된 인물의 수량일 수 있다. 만일, 기술자가 미리 설정한 조건은 이미지 프레임에 무기 이미지 및 적어도 2 개의 인물 이미지를 포함하는 것이다. 상기 실행 주체는 무기 이미지 및 적어도 2 개의 인물 이미지를 포함하는 것을 표현하는 이미지 인식 결과를 관련된 이미지 인식 결과로 확정할 수 있다. 다음, 상기 실행 주체는 관련된 이미지 인식 결과에 대응되고 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정할 수 있다.
예를 들어, 이미지 인식 결과는 이미지 프레임에 포함된 목표 물체의 위치 정보일 수 있다. 목표 물체가 축구공일 경우, 상기 실행 주체는 프레임 이미지로부터 축구공을 인식하고, 축구장 중 축구공의 위치를 인식할 수 있고, 예를 들어, 이미지 프레임 중 축구장 사이드 라인의 이미지를 기반으로 축구공의 위치를 확정할 수 있다. 만일, 기술자가 미리 설정한 조건은, 이미지 프레임에 대응되는 이미지 인식 결과는 이미지 프레임에 축구공 이미지가 포함되고 축구공의 위치가 골문 내에 처하는 것을 표현하는 것이다. 상기 실행 주체는 해당 조건에 부합된 이미지 인식 결과를 목표 이미지 인식 결과로 확정할 수 있다. 다음, 상기 실행 주체는 목표 비디오 중 목표 이미지 인식 결과에 대응되는 이미지 프레임이 처하는 시간 구간을 확정하고, 다음, 해당 시간 구간 전후의 기설정된 시간 구간 내의 이미지 프레임의 이미지 인식 결과를 확정한다. 마지막으로, 관련된 이미지 인식 결과에 대응되는 이미지 프레임이 존재하는 비디오 클립은 목표 비디오 클립으로 확정된다.
목표 비디오에 포함된 이미지 프레임을 인식하여 목표 비디오 클립을 추출함으로써, 목표 비디오 클립을 추출하는 과정은 보다 빠르고 정확하도록 할 수 있고, 목표 비디오 클립의 관련성을 향상시키는 데 도움이 된다.
단계(404), 이미지 인식 결과와 키워드의 기설정된 대응 관계를 기반으로, 목표 비디오 클립에 포함된 이미지 프레임의 이미지 인식 결과에 대응되는 키워드를 목표 비디오 클립의 키워드로 확정한다.
본 실시예에 있어서, 상기 실행 주체는 이미지 인식 결과와 키워드의 기설정된 대응 관계를 기반으로, 목표 비디오 클립에 포함된 이미지 프레임의 이미지 인식 결과에 대응되는 키워드를 목표 비디오 클립의 키워드로 확정할 수 있다. 예를 들어, 이미지 인식 결과와 키워드의 대응 관계는 기설정된 대응 관계 테이블 또는 기설정된 데이터 구조(예를 들어, 연결 리스트)를 통해 표현될 수 있다. 이미지 인식 결과는 이미지 프레임에 포함된 물품 이미지의 명칭일 수 있으며, 이미지 인식 결과에 대응되는 키워드는 상기 물품 이미지의 명칭이 속하는 유형을 표현하는 유형 키워드일 수 있다. 예를 들어, 목표 비디오 클립에 있어서, 일부 이미지 프레임에는 총기 이미지가 포함되고, 일부 이미지 프레임에는 대포 이미지가 포함된다. 따라서, 상기 대응 관계 테이블을 기반으로, 총기 이미지가 포함된 이미지 프레임과 대포 이미지가 포함된 이미지 프레임의 키워드는 "무기"를 포함하는 것으로 확정될 수 있다. 또한, 목표 비디오 클립 중의 각 목표 이미지 프레임이 전부 적어도 2 개의 인물 이미지를 포함할 경우, 각 이미지 프레임의 키워드는 "다수의 인물"을 포함하는 것으로 확정될 수 있다. 최종 확정된 목표 비디오 클립의 키워드는 "무기" 및 "다수의 인물"을 포함할 수 있다.
단계(405), 키워드와 기설정된 태그 정보 집합을 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장한다.
본 실시예에 있어서, 단계(405)는 도2에 대응되는 실시예 중의 단계(204)와 대체로 동일하므로, 여기서는 이에 대해 반복적으로 설명하지 않기로 한다.
도4에서 보이는 바와 같이, 도2에 대응되는 실시예와 비교시, 본 실시예 중의 비디오를 처리하기 위한 방법의 프로세스(400)는 목표 비디오에 포함된 이미지 프레임에 대해 인식을 진행하여 목표 비디오 클립의 키워드를 획득하는 단계를 강조한다. 따라서, 목표 비디오 클립의 태그 정보를 확정하는 효율 및 정확성을 향상시키게 된다.
도5를 더 참조하면, 비디오를 처리하기 위한 방법의 다른 일 실시예의 프로세스(500)를 나타낸다. 해당 비디오를 처리하기 위한 방법의 프로세스(500)는 아래와 같은 단계들을 포함한다.
단계(501), 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 획득한다.
본 실시예에 있어서, 비디오를 처리하기 위한 방법의 실행 주체(예를 들어, 도1에 도시된 서버)는 유선 연결 방식 또는 무선 연결 방식을 통해 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 원격으로 또는 로컬로 획득할 수 있다. 여기서, 목표 비디오는 미리 설정된 모 비디오 집합 중의 비디오일 수 있다. 비디오 요소 정보는 목표 비디오에 대응되는 여러 가지의 정보(예를 들어, 자막, 더빙, 이미지 프레임, 명칭, 및 재생 시간)일 수 있으며, 목표 비디오 요소 정보는 상기 여러 가지의 정보 중 적어도 한 가지를 포함할 수 있다.
본 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보의 집합이다. 구체적으로, 텍스트 정보의 집합 중 각 텍스트 정보는 목표 비디오에 포함된 적어도 하나의 이미지 프레임에 대응될 수 있다. 예를 들어, 텍스트 정보는 자막 정보(자막 정보는 기설정된 자막 파일에서 추출된 정보 또는 이미지 프레임에 대해 텍스트 인식을 진행하여 획득된 텍스트 정보일 수 있음), 이미지 프레임에 포함된 텍스트 이미지에 대해 인식을 진행하여 획득된 텍스트 정보 등일 수 있다.
단계(502), 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보에 포함된 목표 어휘를 추출한다.
본 실시예에 있어서, 목표 비디오에 포함된 이미지 프레임에 대해, 상기 실행 주체는 해당 이미지 프레임에 대응되는 텍스트 정보에 포함된 목표 어휘를 추출할 수 있다. 예를 들어, 텍스트 정보가 비디오 프레임에 포함된 자막일 경우, 목표 어휘는 자막에서 추출된 적어도 하나의 어휘 중 기설정된 유형에 속하는 어휘일 수 있다. 예를 들어, 기설정된 유형은 감정 클래스일 수 있고, 목표 어휘는 감정을 표현하는 "미움," "좋음," "즐거움" 등과 같은 어휘일 수 있다.
상기 목표 어휘는 기존의 텍스트 인식 방법(예를 들어, 신경망 기반의 텍스트 추출 모델 및 어휘 유형과 어휘 기반의 대응 관계 테이블)을 기반으로 획득될 수 있다. 텍스트 인식 방법은 널리 연구되고 적용되는 공지된 기술이므로 여기서는 이에 대해 반복적으로 설명하지 않기로 한다.
단계(503), 관련된 목표 어휘에 대응되는 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정한다.
본 실시예에 있어서, 단계(502)에서 획득된 목표 어휘를 기반으로, 상기 실행 주체는 관련된 목표 어휘에 대응되는 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정할 수 있다. 여기서, 목표 어휘 사이의 관련 여부를 확정하는 방법은 기술자가 미리 설정한 조건을 기반으로 판단되는 것이다.
예를 들어, 만일, 기술자가 미리 설정한 조건은 이미지 프레임에 대응되는 목표 어휘가 전쟁 유형의 어휘에 속하는 것이다. 상기 실행 주체는 해당 조건에 부합된 어휘에 대응되는 여러 이미지 프레임을 관련된 이미지 프레임으로 확정할 수 있다. 혹은, 상기 실행 주체는 해당 조건에 부합된 어휘에 대응되는 여러 이미지 프레임 및 목표 비디오 중 시간이 상기 여러 이미지 프레임 사이에 처하는 이미지 프레임을 관련된 이미지 프레임으로 확정할 수 있다. 다음, 관련된 이미지 프레임이 존재하는 비디오 클립은 목표 비디오 클립으로 확정된다.
텍스트 정보에 포함된 목표 어휘를 추출하여 목표 비디오 클립을 추출함으로써, 목표 비디오 클립을 추출하는 유연성을 더욱 증가시킬 수 있고, 목표 비디오 클립의 관련성을 향상시키는 데 도움이 된다.
단계(504), 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 목표 어휘에서 목표 어휘를 선택하여 목표 비디오 클립의 키워드로 사용한다.
본 실시예에 있어서, 상기 실행 주체는 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 목표 어휘에서 목표 어휘를 선택하여 목표 비디오 클립의 키워드로 사용할 수 있다. 예를 들어, 목표 비디오 클립 중의 여러 이미지 프레임에 대응되는 목표 어휘가 전쟁 유형에 속하는 어휘일 경우, 상기 실행 주체는 여러 목표 어휘에서 여러 방식(예를 들어, 임의로 선택하는 방식, 및 동일한 목표 어휘의 출현 횟수의 순서에 따라 선택하는 방식)으로 기설정된 수량의 목표 어휘를 추출하여 목표 비디오 클립의 키워드로 사용할 수 있다. 예를 들어, 추출된 키워드는 "공격," "돌진," "발포" 등을 포함할 수 있다.
단계(505), 키워드와 기설정된 태그 정보 집합을 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장한다.
본 실시예에 있어서, 단계(505)는 도2에 대응되는 실시예 중의 단계(204)와 대체로 동일하므로, 여기서는 이에 대해 반복적으로 설명하지 않기로 한다.
도5에서 보이는 바와 같이, 도2에 대응되는 실시예와 비교시, 본 실시예 중의 비디오를 처리하기 위한 방법의 프로세스(500)는 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보에 대해 인식을 진행하여 목표 비디오 클립의 키워드를 획득하는 단계를 강조한다. 따라서, 목표 비디오 클립의 태그 정보를 확정하는 정확성 및 유연성을 향상시키는 데 도움이 된다.
도6을 더 참조하면, 비디오를 처리하기 위한 방법의 다른 일 실시예의 프로세스(600)를 나타낸다. 해당 비디오를 처리하기 위한 방법의 프로세스(600)는 아래와 같은 단계들을 포함한다.
단계(601), 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 획득한다.
본 실시예에 있어서, 비디오를 처리하기 위한 방법의 실행 주체(예를 들어, 도1에 도시된 서버)는 유선 연결 방식 또는 무선 연결 방식을 통해 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 원격으로 또는 로컬로 획득할 수 있다. 여기서, 목표 비디오는 미리 설정된 모 비디오 집합 중의 비디오일 수 있다. 비디오 요소 정보는 목표 비디오에 대응되는 여러 가지의 정보(예를 들어, 자막, 더빙, 이미지 프레임, 명칭, 및 재생 시간)일 수 있으며, 목표 비디오 요소 정보는 상기 여러 가지의 정보 중 적어도 한 가지를 포함할 수 있다.
본 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보의 집합 및 목표 비디오의 텍스트 소개 정보를 포함한다. 구체적으로, 텍스트 정보의 집합 중의 각 텍스트 정보는 목표 비디오에 포함된 적어도 하나의 이미지 프레임에 대응될 수 있다. 예를 들어, 텍스트 정보는 자막 정보(자막 정보는 기설정된 자막 파일에서 추출된 정보 또는 이미지 프레임에 대해 텍스트 인식을 진행하여 획득된 텍스트 정보일 수 있음), 이미지 프레임에 포함된 텍스트 이미지에 대해 인식을 진행하여 획득된 텍스트 정보 등일 수 있다.
단계(602), 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보와 텍스트 소개 정보의 유사도를 확정한다.
본 실시예에 있어서, 목표 비디오에 포함된 이미지 프레임에 대해, 상기 실행 주체는 해당 이미지 프레임에 대응되는 텍스트 정보와 텍스트 소개 정보의 유사도를 확정할 수 있다. 텍스트 정보의 유사도를 계산하는 방법은 Jaccard 유사 계수를 계산하는 방법, 코사인 유사도 기반의 방법 등 중 적어도 하나를 포함할 수 있으나, 이에 한정되지 않는다. 상기 유사도를 계산하는 방법은 현재 널리 연구되고 적용되는 공지된 기술이므로 여기서는 이에 대해 반복적으로 설명하지 않기로 한다.
단계(603), 기설정된 유사도 역치보다 큰 유사도에 대응되는 이미지 프레임과 관련된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정한다.
본 실시예에 있어서, 단계(602)에서 획득된 유사도를 기반으로, 상기 실행 주체는 기설정된 유사도 역치보다 큰 유사도에 대응되는 이미지 프레임과 관련된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정할 수 있다. 상기 기설정된 유사도 역치보다 큰 유사도에 대응되는 이미지 프레임과 관련된 이미지 프레임은, 기설정된 유사도 역치보다 큰 여러 유사도에 대응되는 여러 이미지 프레임 및 재생 시간이 상기 여러 이미지 프레임 사이에 처하는 이미지 프레임을 포함할 수 있다. 혹은, 상기 기설정된 유사도 역치보다 큰 유사도에 대응되는 이미지 프레임과 관련된 이미지 프레임은, 기설정된 유사도 역치보다 큰 여러 유사도에 대응되는 여러 이미지 프레임, 재생 시간이 상기 여러 이미지 프레임 사이에 처하는 이미지 프레임, 및 상기 여러 이미지 프레임 전후의 기설정된 수량의 이미지 프레임을 포함할 수 있다. 예를 들어, 목표 비디오에 있어서, 30 초, 35 초 및 50 초에 처하는 이미지 프레임에 대응되는 유사도가 유사도 역치보다 클 경우, 30 초로부터 50 초까지의 시간 구간 간의 비디오 클립은 목표 비디오 클립이다. 혹은, 기설정된 수량이 500일 경우, 목표 이미지 프레임은 30 초로부터 50 초까지의 시간 구간 간의 이미지 프레임 및 30 초로부터 50 초까지의 시간 구간 간의 이미지 프레임 전후 500 개의 이미지 프레임을 포함한다.
단계(604), 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보에 포함된 목표 어휘를 추출한다.
본 실시예에 있어서, 이미지 프레임에 대응되는 텍스트 정보에 포함된 목표 어휘를 추출하는 방법은 상기 단계(502)와 동일할 수 있으므로, 여기서는 이에 대해 반복적으로 설명하지 않기로 한다.
단계(605), 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 목표 어휘에서 목표 어휘를 선택하여 목표 비디오 클립의 키워드로 사용한다.
본 실시예에 있어서, 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 목표 어휘에서 목표 어휘를 선택하여 목표 비디오 클립의 키워드로 사용하는 방법은 상기 단계(504)와 동일할 수 있으므로, 여기서는 이에 대해 반복적으로 설명하지 않기로 한다.
단계(606), 키워드와 기설정된 태그 정보 집합을 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장한다.
본 실시예에 있어서, 단계(606)는 도2에 대응되는 실시예 중의 단계(204)와 대체로 동일하므로, 여기서는 이에 대해 반복적으로 설명하지 않기로 한다.
도6에서 보이는 바와 같이, 도2에 대응되는 실시예와 비교시, 본 실시예 중의 비디오를 처리하기 위한 방법의 프로세스(600)는 텍스트 정보와 텍스트 소개 정보의 유사도를 계산하는 단계를 강조한다. 따라서, 목표 비디오 클립을 추출하는 관련성을 향상시키는 데 도움이 된다.
도7을 더 참조하면, 비디오를 처리하기 위한 방법의 다른 일 실시예의 프로세스(700)를 나타낸다. 해당 비디오를 처리하기 위한 방법의 프로세스(700)는 아래와 같은 단계들을 포함한다.
단계(701), 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 획득한다.
본 실시예에 있어서, 비디오를 처리하기 위한 방법의 실행 주체(예를 들어, 도1에 도시된 서버)는 유선 연결 방식 또는 무선 연결 방식을 통해 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 원격으로 또는 로컬로 획득할 수 있다. 여기서, 목표 비디오는 미리 설정된 모 비디오 집합 중의 비디오일 수 있다. 비디오 요소 정보는 목표 비디오에 대응되는 여러 가지의 정보(예를 들어, 자막, 더빙, 이미지 프레임, 명칭, 및 재생 시간)일 수 있으며, 목표 비디오 요소 정보는 상기 여러 가지의 정보 중 적어도 한 가지를 포함할 수 있다.
본 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임에 대응되는 탄막 정보의 집합이다. 구체적으로, 상기 탄막 정보는 이미지 프레임의 탄막 텍스트에 대해 인식을 진행하여 획득된 텍스트 정보일 수 있다. 예를 들어, 상기 실행 주체는 기존의 OCR(Optical Character Recognition, 광학 문자 인식) 기술을 이용하여 이미지 프레임 중의 탄막을 인식하여 탄막 정보를 획득할 수 있다.
탄막(彈幕, bullet screen)은 동영상에서 일정한 방향(예컨대, 가로 방향)으로 지나가는 정보(예컨대, 텍스트 정보)를 의미한다. 예컨대, 탄막은 동영상 시청자가 입력한 코멘트가 해당 동영상에서 총알과 같이 지나가는 형태를 띈다.
단계(702), 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 탄막 정보의 수량을 확정한다.
본 실시예에 있어서, 목표 비디오에 포함된 이미지 프레임에 대해, 상기 실행 주체는 이미지 프레임에 대응되는 탄막 정보의 수량을 확정할 수 있다.
단계(703), 수량이 기설정된 수량 역치보다 큰 탄막 정보에 대응되고 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정한다.
본 실시예에 있어서, 상기 실행 주체는 수량이 기설정된 수량 역치보다 큰 탄막 정보에 대응되고 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정할 수 있다. 여기서, 상기 수량 역치는 여러 방식으로 설정된 수량일 수 있다. 예를 들어, 상기 수량 역치는 기술자가 경험를 기반으로 설정한 수량, 또는 상기 실행 주체가 계산된 목표 비디오의 탄막 정보의 총수량을 목표 비디오에 포함된 이미지 프레임의 수량으로 나눠 획득된 결과일 수 있다. 실천에 있어서, 수량이 기설정된 수량 역치보다 큰 탄막 정보에 대응되는 이미지 프레임은 대부분의 사용자가 비교적으로 주목하는 이미지 프레임으로 간주될 수 있다. 따라서, 목표 비디오 클립은 비교적으로 많은 주목을 받은 비디오 클립으로 간주될 수 있다.
단계(704), 목표 비디오 클립에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 탄막 정보에 대해 인식을 진행하여, 해당 이미지 프레임에 대응되는 탄막 정보가 속하는 유형을 표현하는 탄막 유형 정보를 획득하여 목표 비디오 클립의 키워드로 사용한다.
본 실시예에 있어서, 목표 비디오 클립에 포함된 이미지 프레임에 대해, 상기 실행 주체는 해당 이미지 프레임에 대응되는 탄막 정보에 대해 인식을 진행하여, 해당 이미지 프레임에 대응되는 탄막 정보가 속하는 유형을 표현하는 탄막 유형 정보를 획득하여 목표 비디오 클립의 키워드로 사용할 수 있다. 구체적으로, 상기 실행 주체는 다양한 방식으로 탄막 유형 정보를 획득할 수 있다. 예를 들어, 상기 실행 주체는 기설정된 탄막 분류 모델을 이용하여 탄막 유형 정보를 획득할 수 있다. 해당 탄막 분류 모델은 기술자가 대량의 텍스트 정보와 텍스트 정보의 유형 정보에 대한 통계를 기반으로 미리 제작하고 다수의 텍스트 정보와 유형 정보의 대응 관계를 저장하는 대응 관계 테이블일 수 있다. 혹은, 해당 탄막 분류 모델은 기존의 인공 신경망(예를 들어, 콘볼루션 신경망)을 기반으로 감독 훈련을 진행하여 획득되고 텍스트에 대해 분류를 진행하기 위한 모델일 수도 있다.
단계(705), 키워드와 기설정된 태그 정보 집합을 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장한다.
본 실시예에 있어서, 상기 실행 주체는 먼저 키워드와 기설정된 태그 정보 집합을 매칭하여 목표 비디오 클립의 태그 정보를 획득할 수 있다. 다음, 상기 실행 주체는 목표 비디오 클립과 태그 정보를 관련시키고 저장한다. 예를 들어, 태그 정보 집합은 적어도 하나의 서브 집합을 포함할 수 있으며, 각 서브 집합은 일련의 관련된 태그 정보의 집합일 수 있다. 예를 들어, 모 서브 집합은 "전쟁," "전투," "무기" 등과 같은 태그 정보를 포함한다. 목표 비디오 클립의 키워드가 해당 서브 집합에 포함된 태그 정보에 포함될 경우, 해당 서브 집합 중 적어도 하나의 태그 정보(예를 들어, "전쟁")는 목표 비디오 클립의 태그 정보로 확정될 수 있다.
예를 들어, 태그 정보 집합은 제1 서브 집합 및 제2 서브 집합을 포함할 수 있다. 여기서, 제1 서브 집합은 긍정적 평가의 태그 정보를 포함하고, 제2 서브 집합은 부정적 평가의 태그 정보를 포함한다. 상기 실행 주체는 탄막 유형 정보가 제1 서브 집합 또는 제2 서브 집합에 속하는지 여부를 확정할 수 있다. 탄막 정보가 제1 서브 집합에 속할 경우, 목표 비디오 클립의 태그 정보는 제1 정보(예를 들어, "긍정적 평가")로 설정된다. 탄막 정보가 제2 서브 집합에 속할 경우, 목표 비디오 클립의 태그 정보는 제2 정보(예를 들어, "부정적 평가")로 설정된다.
도7에서 보이는 바와 같이, 도2에 대응되는 실시예와 비교시, 본 실시예 중의 비디오를 처리하기 위한 방법의 프로세스(700)는 탄막 정보의 수량을 인식하여 목표 비디오 클립을 추출하는 단계 및 탄막 유형 정보를 기반으로 목표 비디오 클립의 태그 정보를 확정하는 단계를 강조한다. 따라서, 목표 비디오 클립을 추출하는 관련성을 향상시키고, 비디오 클립의 태그 정보를 확정하는 정확정을 향상시키는 데에 도움이 된다.
도8을 더 참조하면, 비디오를 처리하기 위한 방법의 다른 일 실시예의 프로세스(800)를 나타낸다. 해당 비디오를 처리하기 위한 방법의 프로세스(800)는 아래와 같은 단계들을 포함한다.
단계(801), 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 획득한다.
본 실시예에 있어서, 비디오를 처리하기 위한 방법의 실행 주체(예를 들어, 도1에 도시된 서버)는 유선 연결 방식 또는 무선 연결 방식을 통해 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 원격으로 또는 로컬로 획득할 수 있다. 여기서, 목표 비디오는 미리 설정된 모 비디오 집합 중의 비디오일 수 있다. 비디오 요소 정보는 목표 비디오에 대응되는 여러 가지의 정보(예를 들어, 자막, 더빙, 이미지 프레임, 명칭, 및 재생 시간)일 수 있으며, 목표 비디오 요소 정보는 상기 여러 가지의 정보 중 적어도 한 가지를 포함할 수 있다.
본 실시예에 있어서, 목표 비디오 요소 정보는 목표 비디오의 더빙 정보이다.
단계(802), 더빙 정보에 대해 음성 인식을 진행하여, 적어도 하나의 더빙 유형 정보 및 더빙 유형 정보에 대응되고 더빙 정보에 포함되는 더빙 클립을 획득한다.
본 실시예에 있어서, 상기 실행 주체는 더빙 정보에 대해 음성 인식을 진행하여, 적어도 하나의 더빙 유형 정보 및 더빙 유형 정보에 대응되고 더빙 정보에 포함되는 더빙 클립을 획득할 수 있다. 여기서, 더빙 유형 정보는 대응되는 더빙 클립이 속하는 유형을 표현하는데 사용된다. 상기 실행 주체는 기존의 음성 인식 기술을 이용하여 더빙 정보에서 적어도 하나의 더빙 클립을 추출할 수 있다. 예를 들어, 상기 실행 주체는 더빙 정보에서 유형이 음악인 더빙 클립을 추출할 수 있고, 해당 더빙 클립의 유형 정보는 "음악"일 수 있다. 혹은, 상기 실행 주체는 더빙 정보에서 유형이 음성인 더빙 클립을 추출할 수 있고, 해당 더빙 클립의 유형 정보는 "음성"일 수 있다.
단계(803), 적어도 하나의 더빙 유형 정보에서 목표 더빙 유형 정보를 선택하고, 목표 더빙 유형 정보에 대응되는 더빙 클립에 대응되는 비디오 클립을 목표 비디오 클립으로 확정한다.
본 실시예에 있어서, 먼저, 상기 실행 주체는 다양한 방식으로 적어도 하나의 더빙 유형 정보에서 목표 더빙 유형 정보를 선택(예를 들어, 임의적인 선택 또는 추출된 더빙 클립의 순서에 따른 선택)할 수 있다. 다음, 상기 실행 주체는 목표 더빙 유형 정보에 대응되는 더빙 클립에 대응되는 비디오 클립을 목표 비디오 클립으로 확정한다.
예를 들어, 목표 더빙 유형 정보가 "음악"이고, 유형 정보가 "음악"인 더빙 클립이 더빙 클립 A와 더빙 클립 B를 포함할 경우, 더빙 클립 A 및 더빙 클립 B는 각각 목표 비디오 클립으로 확정될 수 있다.
단계(804), 더빙 유형 정보와 음성 인식 방식의 기설정된 대응 관계를 기반으로, 목표 비디오 클립에 대응되는 더빙 클립에 대해 인식을 진행하여 목표 비디오 클립에 대응되는 더빙 클립이 속하는 유형을 표현하는 키워드를 획득하여 목표 비디오 클립의 키워드로 사용한다.
본 실시예에 있어서, 상기 실행 주체는 더빙 유형 정보와 음성 인식 방식의 기설정된 대응 관계를 기반으로, 목표 비디오 클립에 대응되는 더빙 클립에 대해 인식을 진행하여 목표 비디오 클립에 대응되는 더빙 클립이 속하는 유형을 표현하는 키워드를 획득하여 목표 비디오 클립의 키워드로 사용할 수 있다. 여기서, 상기 더빙 유형 정보와 음성 인식 방식의 대응 관계는 기설정된 프로그램 리스트로 표현될 수 있으며, 해당 프로그램 리스트 중의 프로그램은 더빙 유형 정보에 대응될 수 있다. 상기 실행 주체는 자동적으로 또는 기술자의 조작에 따라 대응된 프로그램을 실행할 수 있다. 상기 키워드는 음악의 명칭, 음성에 대해 인식을 진행하여 획득된 텍스트에서 추출된 목표 어휘 등일 수 있다. 상기 음성 인식 방법은 현재 널리 연구되고 적용되는 공지된 기술이므로 여기서는 이에 대해 반복적으로 설명하지 않기로 한다.
예를 들어, 목표 비디오 클립에 대응되는 더빙 클립이 한 절의 음악일 경우, 해당 더빙 클립이 속하는 유형을 표현하는 키워드는 해당 음악의 명칭일 수 있다. 예를 들어, 목표 비디오 클립에 대응되는 더빙 클립이 음성일 경우, 상기 실행 주체는 먼저 해당 더빙 클립에 대해 음성 인식을 진행하여 텍스트 정보를 획득하고, 다음, 텍스트 정보에서 목표 어휘를 추출하여 해당 더빙 클립이 속하는 유형을 표현하는 키워드로 사용할 수 있다. 여기서, 텍스트 정보에서 목표 어휘를 추출하는 방법은 단계(502)에 설명된 방법과 동일할 수 있으므로, 여기서는 이에 대해 반복적으로 설명하지 않기로 한다.
단계(805), 키워드와 기설정된 태그 정보 집합을 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장한다.
본 실시예에 있어서, 단계(805)는 도2에 대응되는 실시예 중의 단계(204)와 대체로 동일하므로, 여기서는 이에 대해 반복적으로 설명하지 않기로 한다.
도8에서 보이는 바와 같이, 도2에 대응되는 실시예와 비교시, 본 실시예 중의 비디오를 처리하기 위한 방법의 프로세스(800)는 더빙 정보에 대해 인식을 진행하여 목표 비디오 클립을 획득하는 단계, 및 목표 비디오 클립에 대응되는 더빙 클립에 대해 인식을 진행하여 목표 비디오 클립의 키워드를 획득하는 단계를 강조한다. 따라서, 목표 비디오 클립을 추출하는 관련성을 향상시키고, 비디오 클립의 태그 정보를 확정하는 정확정을 향상시키는 데에 도움이 된다.
도9를 더 참조하면, 본 출원에 따른 추천 정보를 생성하기 위한 방법의 일 실시예의 프로세스(900)를 나타낸다. 해당 추천 정보를 생성하기 위한 방법은 아래와 같은 단계들을 포함한다.
단계(901), 목표 사용자가 주목하는 콘텐츠를 표현하는 주목 정보를 획득하고, 주목 정보와 기설정된 태그 정보를 매칭한다.
본 실시예에 있어서, 추천 정보를 생성하기 위한 방법의 실행 주체(예를 들어, 도1에 도시된 서버)는 먼저 유선 연결 방식 또는 무선 연결 방식을 통해 목표 사용자가 주목하는 콘텐츠를 표현하는 주목 정보를 원격으로 또는 로컬로 획득할 수 있다. 여기서, 목표 사용자는 미리 설정된 모 사용자 리스트 또는 모 사용자 집합 중의 사용자(예를 들어, 모 웹 사이트의 등록된 사용자)일 수 있다. 혹은, 목표 사용자는 일부 조건에 부합되는(예를 들어, 일부 비디오를 브라우징하는) 사용자일 수도 있다. 본 실시예에 있어서, 태그 정보는 도2 내지 도8의 임의의 한 실시예에 설명된 방법에 따라 획득될 수 있고, 태그 정보는 대응되는 비디오 클립을 구비한다. 상기 주목 정보는 목표 사용자와 관련된 정보일 수 있다. 예를 들어, 목표 사용자의 주목 정보는 목표 사용자의 사용자 프로필 정보에 포함될 수 있다. 혹은, 목표 사용자의 주목 정보는 목표 사용자의 역사적 브라우징 기록에 포함될 수 있다.
다음, 실행 주체는 주목 정보와 기설정된 태그 정보를 매칭한다. 구체적으로, 상기 기설정된 태그 정보가 목표 사용자의 주목 정보와 전부 또는 부분 동일할 경우, 주목 정보와 태그 정보는 성공적으로 매칭되는 것으로 확정될 수 있다. 예를 들어, 기설정된 태그 정보가 "전쟁" 및 "학살"을 포함하고, 목표 사용자의 주목 정보가 "전쟁" 및 "무기"를 포함할 경우, 주목 정보와 태그 정보는 성공적으로 매칭되는 것으로 확정된다.
단계(902), 매칭 성공을 확정하는 것에 응답하여, 비디오 클립을 추천하기 위한 추천 정보를 생성한다.
본 실시예에 있어서, 상기 실행 주체는 매칭 성공을 확정하는 것에 응답하여, 상기 태그 정보에 대응되는 비디오 클립을 추천하기 위한 추천 정보를 생성할 수 있다. 예를 들어, 추천 정보는 태그 정보와 태그 정보에 대응되는 비디오 클립의 링크를 포함할 수 있고, 상기 비디오 클립의 비디오의 링크 등 정보를 더 포함할 수 있다.
선택적으로, 상기 실행 주체는 생성된 추천 정보를 상기 목표 사용자가 사용하는 단말기 장치로 발송할 수 있다.
본 출원의 상기 실시예서 제공하는 방법은, 목표 사용자의 주목 정보와 기설정된 태그 정보를 매칭함으로써 비디오 클립을 추천하기 위한 추천 정보를 생성한다. 상기 도2 내지 도8의 임의의 한 실시예에 설명된 방법에 따라 획득된 태그 정보를 사용함으로써 추천 정보를 생성하는 관련성을 향상시키게 된다.
도10을 더 참조하면, 상기 각 도면에 도시된 방법의 구현으로서 본 출원은 비디오를 처리하기 위한 장치의 일 실시예를 제공하며, 해당 장치의 실시예는 도 2에 도시된 방법의 실시예에 대응되고, 해당 장치는 구체적으로 다양한 전자 기기에 적용될 수 있다.
도10에 도시된 바와 같이, 본 실시예의 비디오를 처리하기 위한 장치(1000)는, 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 획득하도록 구성된 획득 유닛(1001); 목표 비디오 요소 정보를 기반으로 목표 비디오에서 목표 비디오 클립을 추출하도록 구성된 추출 유닛(1002); 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 목표 비디오 클립의 유형을 표현하는 키워드를 획득하도록 구성된 확정 유닛(1003); 및 키워드와 기설정된 태그 정보 집합을 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장하도록 구성된 저장 유닛(1004)을 포함한다.
본 실시예에 있어서, 상기 획득 유닛(1001)은 유선 연결 방식 또는 무선 연결 방식을 통해 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 원격으로 또는 로컬로 획득할 수 있다. 여기서, 목표 비디오는 미리 설정된 모 비디오 집합(예를 들어, 모 비디오 웹 사이트에서 제공하는 비디오) 중의 비디오일 수 있다. 비디오 요소 정보는 목표 비디오에 대응되는 여러 가지의 정보(예를 들어, 자막, 더빙, 이미지 프레임, 명칭, 및 재생 시간)일 수 있으며, 목표 비디오 요소 정보는 상기 여러 가지의 정보 중 적어도 한 가지를 포함할 수 있다.
본 실시예에 있어서, 획득 유닛(1001)에 의해 회득된 목표 비디오 요소 정보를 기반으로, 상기 추출 유닛(1002)은 목표 비디오에서 목표 비디오 클립을 추출할 수 있다. 구체적으로, 상기 추출 유닛(1002)은 다양한 방식으로 목표 비디오에서 목표 비디오 클립을 추출할 수 있다. 예를 들어, 목표 비디오 요소 정보가 목표 비디오에 포함된 이미지 프레임일 경우, 상기 추출 유닛(1002)은 각 이미지 프레임에 대해 인식을 진행하여 각 이미지 프레임에 포함된 물체 이미지의 유형을 획득하고, 동일한 유형의 이미지 프레임(예를 들어, 무기 이미지를 포함하는 이미지 프레임)에 대응되는 비디오 클립을 목표 비디오 클립으로 확정할 수 있다.
본 실시예에 있어서, 확정 유닛(1003)은 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 목표 비디오 클립의 유형을 표현하는 키워드를 획득할 수 있다. 여기서, 상기 비디오 요소 정보와 키워드 확정 방식의 대응 관계는 기설정된 프로그램 리스트로 표현될 수 있으며, 해당 프로그램 리스트 중의 프로그램은 적어도 하나의 비디오 요소 정보에 대응될 수 있다.
본 실시예에 있어서, 저장 유닛(1004)은 키워드와 기설정된 태그 정보 집합을 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장할 수 있다. 여기서, 태그 정보 집합은 적어도 하나의 서브 집합을 포함할 수 있으며, 각 서브 집합은 일련의 관련된 태그 정보의 집합일 수 있다. 예를 들어, 모 서브 집합은 "전쟁," "전투," "무기" 등과 같은 태그 정보를 포함한다. 목표 비디오 클립의 키워드가 해당 서브 집합에 포함된 태그 정보에 포함될 경우, 해당 서브 집합 중 적어도 하나의 태그 정보(예를 들어, "전쟁")는 목표 비디오 클립의 태그 정보로 확정될 수 있다
본 실시예의 일부 선택 가능한 구현 방식에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임이다. 추출 유닛은, 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대한 이미지 인식을 진행하여 해당 이미지 프레임의 이미지 인식 결과를 획득하도록 구성된 제1 인식 모듈(미도시); 및 이미지 인식 결과가 관련되고 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하도록 구성된 제1 확정 모듈(미도시)을 포함한다.
본 실시예의 일부 선택 가능한 구현 방식에 있어서, 확정 유닛은, 이미지 인식 결과와 키워드의 기설정된 대응 관계를 기반으로, 목표 비디오 클립에 포함된 이미지 프레임의 이미지 인식 결과에 대응되는 키워드를 목표 비디오 클립의 키워드로 확정하도록 더 구성된다.
본 실시예의 일부 선택 가능한 구현 방식에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보의 집합이다. 추출 유닛은, 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보에 포함된 목표 어휘를 추출하도록 구성된 제1 추출 모듈(미도시); 및 관련된 목표 어휘에 대응되는 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하도록 구성된 제2 확정 모듈(미도시)을 포함한다.
본 실시예의 일부 선택 가능한 구현 방식에 있어서, 확정 유닛은 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 목표 어휘에서 목표 어휘를 선택하여 목표 비디오 클립의 키워드로 사용하도록 더 구성된다.
본 실시예의 일부 선택 가능한 구현 방식에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보의 집합 및 목표 비디오의 텍스트 소개 정보를 포함한다. 추출 유닛은, 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보와 텍스트 소개 정보의 유사도를 확정하도록 구성된 제3 확정 모듈(미도시); 및 기설정된 유사도 역치보다 큰 유사도에 대응되는 이미지 프레임과 관련된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하도록 구성된 제4 확정 모듈(미도시)을 포함한다.
본 실시예의 일부 선택 가능한 구현 방식에 있어서, 확정 유닛은, 목표 비디오 클립에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보에 포함된 목표 어휘를 추출하도록 구성된 제2 추출 모듈(미도시); 및 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 목표 어휘에서 목표 어휘를 선택하여 목표 비디오 클립의 키워드로 사용하도록 구성된 제1 선택 모듈(미도시)을 포함한다.
본 실시예의 일부 선택 가능한 구현 방식에 있어서, 목표 비디오 요소 정보는 목표 비디오에 포함된 이미지 프레임에 대응되는 탄막 정보의 집합이다. 추출 유닛은, 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 탄막 정보의 수량을 확정하도록 구성된 제5 확정 모듈(미도시); 및 수량이 기설정된 수량 역치보다 큰 탄막 정보에 대응되고 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하도록 구성된 제6 확정 모듈(미도시)을 포함한다.
본 실시예의 일부 선택 가능한 구현 방식에 있어서, 확정 유닛은, 목표 비디오 클립에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 탄막 정보에 대해 인식을 진행하여, 해당 이미지 프레임에 대응되는 탄막 정보가 속하는 유형을 표현하는 탄막 유형 정보를 획득하여 목표 비디오 클립의 키워드로 사용하도록 더 구성된다.
본 실시예의 일부 선택 가능한 구현 방식에 있어서, 목표 비디오 요소 정보는 목표 비디오의 더빙 정보이다. 추출 유닛은, 더빙 정보에 대해 음성 인식을 진행하여, 적어도 하나의 더빙 유형 정보 및 더빙 유형 정보에 대응되고 더빙 정보에 포함되는 더빙 클립을 획득하도록 구성되되, 더빙 유형 정보는 대응되는 더빙 클립이 속하는 유형을 표현하는데 사용되는 제2 인식 모듈(미도시); 및 적어도 하나의 더빙 유형 정보에서 목표 더빙 유형 정보를 선택하고, 목표 더빙 유형 정보에 대응되는 더빙 클립에 대응되는 비디오 클립을 목표 비디오 클립으로 확정하도록 구성된 제2 선택 모듈(미도시)을 포함한다.
본 실시예의 일부 선택 가능한 구현 방식에 있어서, 확정 유닛은, 더빙 유형 정보와 음성 인식 방식의 기설정된 대응 관계를 기반으로, 목표 비디오 클립에 대응되는 더빙 클립에 대해 인식을 진행하여 목표 비디오 클립에 대응되는 더빙 클립이 속하는 유형을 표현하는 키워드를 획득하여 목표 비디오 클립의 키워드로 사용하도록 더 구성된다.
본 출원의 상기 실시예에서 제공하는 비디오를 처리하기 위한 장치는, 목표 비디오의 목표 비디오 요소 정보를 이용함으로써 목표 비디오에서 목표 비디오 클립을 추출하며, 다음, 기설정된 키워드 확정 방식을 기반으로 목표 비디오 클립의 키워드를 획득하며, 마지막으로, 키워드와 기설정된 태그 정보를 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장한다. 따라서, 비디오 클립에 태그 정보를 첨가하는 정확성을 향상시키고 비디오 클립에 태그 정보를 첨가하는 수단을 풍부하게 한다.
도11을 더 참조하면, 상기 각 도면에 도시된 방법의 구현으로서 본 출원은 추천 정보를 생성하기 위한 장치의 일 실시예를 제공하며, 해당 장치의 실시예는 도 9에 도시된 방법의 실시예에 대응되고, 해당 장치는 구체적으로 다양한 전자 기기에 적용될 수 있다.
도11에 도시된 바와 같이, 본 실시예의 추천 정보를 생성하기 위한 장치(1100)는, 목표 사용자가 주목하는 콘텐츠를 표현하는 주목 정보를 획득하고, 주목 정보와 기설정된 태그 정보를 매칭하도록 구성되되, 태그 정보는 상기 도2 내지 도8의 임의의 한 실시예에 설명된 방법에 따라 획득되고, 태그 정보는 대응되는 비디오 클립을 구비하는 획득 유닛(1101); 및 매칭 성공을 확정하는 것에 응답하여, 비디오 클립을 추천하기 위한 추천 정보를 생성하도록 구성된 생성 유닛(1102)을 포함한다.
본 출원의 상기 실시예서 제공하는 장치는, 목표 사용자의 주목 정보와 기설정된 태그 정보를 매칭함으로써 비디오 클립을 추천하기 위한 추천 정보를 생성한다. 상기 도2 내지 도8의 임의의 한 실시예에 설명된 방법에 따라 획득된 태그 정보를 사용함으로써 추천 정보를 생성하는 관련성을 향상시키게 된다.
이하 도12를 참조하면, 도12는 본 출원의 실시예에 따른 서버를 구현하기에 적합한 컴퓨터 시스템(1200)의 구조적 개략도를 나타낸다. 도12에 도시된 서버는 단지 예시일 뿐, 본 출원의 실시예의 기능 및 사용 범위에 대해 그 어떠한 한정을 진행하여서는 안된다.
도12에 도시된 바와 같이, 컴퓨터 시스템(1200)은 중앙 처리 유닛(1201; CPU, Central Processing Unit)을 포함하되, CPU(1201)는 읽기 전용 메모리 장치(1202; ROM, Read Only Memory)에 저장된 프로그램 또는 저장부(1208)로부터 랜덤 액세스 메모리 장치(1203; RAM, Random Access Memory)에 로딩된 프로그램에 의해 다양한 동작과 처리를 실행할 수 있다. RAM(1203)에는 시스템(1200)을 작동하기에 필요한 각종 프로그램 및 데이터가 더 저장되어 있다. CPU(1201), ROM(1202) 및 RAM(1203)은 버스(1204)를 통해 서로 연결된다. 입력/출력(I/O; Input/Output) 인터페이스(1205)도 버스(1204)에 연결된다.
I/O 인터페이스(1205)에 연결되는 부재로서, 키보드, 마우스 등을 포함하는 입력부(1206)와, 예커내 음극선관(CRT; Cathode Ray Tube), 액정 표시 장치(LCD; Liquid Crystal Display) 등 및 스피커 등을 포함하는 출력부(1207)와, 하드 드라이버 등을 포함하는 저장부(1208)와, 예컨대 LAN(Local Area Network) 카드, 모뎀 등의 네트워크 인터페이스 카드를 포함하는 통신부(1209)가 포함된다. 통신부(1209)는 인터넷과 같은 네트워크를 통해 통신 처리를 실행한다. 구동부(1210)도 수요에 따라 I/O 인터페이스(1205)에 연결된다. 자기 디스크, 광 디스크, 광자기 디스크, 반도체 메모리 장치 등과 같은 착탈 가능한 매체(1211)는 이러한 매체로부터 판독된 컴퓨터 프로그램을 수요에 따라 저장부(1208)에 설치하도록 수요에 따라 구동부(1210)에 설치된다.
특히, 본 개시의 실시예에 의하면, 흐름도를 참조하여 설명한 상기 과정들은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 예를 들어, 본 개시의 실시예는 컴퓨터 프로그램 제품을 포함하고, 상기 컴퓨터 프로그램 제품은 컴퓨터 판독 가능한 매체에 탑재된 컴퓨터 프로그램을 포함하며, 해당 컴퓨터 프로그램은 흐름도에 도시된 방법을 실행하기 위한 컴퓨터 코드를 포함한다. 이러한 실시예에 있어서, 해당 컴퓨터 프로그램은 통신부(1209)를 경유하여 네트워크로부터 다운로드되어 설치될 수 있고 및/또는 착탈 가능한 매체(1211)로부터 설치될 수 있다. 해당 컴퓨터 프로그램이 중앙 처리 유닛(1201; CPU)에 의해 실행될 경우, 본 출원의 방법에 한정된 상기 기능들을 실행한다. 본 출원의 컴퓨터 판독 가능한 매체는 컴퓨터 판독 가능한 저장 매체일 수 있음을 유의하여야 한다. 컴퓨터 판독 가능한 저장 매체는 전기, 자기, 광학, 전자기, 적외선 또는 반도체의 시스템, 장치, 소자 또는 상기의 임의의 조합일 수 있으나, 이에 한정되지 않는다. 컴퓨터 판독 가능한 저장 매체의 더욱 구체적인 예시는 하나 또는 다수의 와이어를 구비하는 전기적 연결, 휴대용 컴퓨터 자기 디스크, 하드 디스크, 랜덤 액세스 메모리 장치(RAM), 읽기 전용 메모리 장치(ROM), 소거 및 프로그램 가능한 읽기 전용 메모리 장치(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 읽기 전용 메모리 장치(CD-ROM), 광 메모리 장치, 자기 메모리 장치 또는 상기의 임의의 적합한 조합을 포함할 수 있으나, 이에 한정되지 않는다. 본 출원에 있어서, 컴퓨터 판독 가능한 저장 매체는 프로그램을 포함하거나 저장하는 임의의 유형 매체일 수 있으며, 해당 프로그램은 명령어 실행 시스템, 장치 또는 소자에 의해 사용되거나 이와 결합하여 사용될 수 있다. 컴퓨터 판독 가능한 매체에 포함된 프로그램 코드는 임의의 적당한 매체를 이용하여 전송될 수 있으며, 무선, 전선, 케이블, RF 등 또는 상기의 임의의 적합한 조합을 포함하나, 이에 한정되지 않는다.
본 출원의 동작을 수행하기 위한 컴퓨터 프로그램 코드는 하나 또는 다수의 프로그래밍 언어 또는 그들의 조합으로 작성될 수 있으며, 상기 프로그래밍 언어는 개체 지향적 프로그래밍 언어(예컨대, Java, Smalltalk, 및 C++)를 포함하고, 통상적인 프로세스형 프로그래밍 언어(예컨대, C 언어 또는 유사한 프로그래밍 언어)를 더 포함한다. 프로그램 코드는 전부 사용자 컴퓨터에서 실행되거나 부분적으로 실행되며, 또는 하나의 독립형 소프트웨어 패키지로서 실행되거나 일부분이 사용자 컴퓨터에서 실행되고 다른 일부분이 원격 컴퓨터에서 실행되거나, 전부 원격 컴퓨터 또는 서버에서 실행될 수 있다. 원격 컴퓨터의 경우, 근거리 통신망(LAN) 또는 광역 통신망(WAN)을 포함하는 임의 종류의 네트워크를 통해 사용자 컴퓨터에 연결되거나 외부 컴퓨터에 연결될 수도 있다(예컨대, 인터넷 서비스 공급자를 이용하여 인터넷을 통해 연결이 진행된다).
첨부된 도면 중의 흐름도 및 블록도는 본 출원의 각 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 구현 가능한 체계구조, 기능 및 동작을 도시하였다. 이러한 방면에 있어서, 흐름도 또는 블록도 중의 각 블록은 하나의 모듈, 프로그램 세그먼트 또는 코드의 일부분을 대표할 수 있고, 해당 모듈, 프로그램 세그먼트 또는 코드의 일부분은 규정된 로직 기능을 구현하기 위한 하나 또는 다수의 실행 가능한 명령어를 포함한다. 일부 대체 구현에 있어서, 블록에 표기된 기능들은 첨부된 도면에 표기된 순서와 다른 순서로 수행될 수도 있음을 유의하여야 한다. 예를 들어, 순차적으로 표시된 두개의 블록은 실제적으로 거의 동시에 실행될 수 있고, 경우에 따라 반대된 순서에 따라 실행될 수도 있으며, 이는 관련된 기능에 따라 결정된다. 블록도 및/또는 흐름도 중의 각 블록 및 블록도 및/또는 흐름도 중의 블록들의 조합은 규정된 기능 또는 동작을 실행하는 하드웨어 기반의 전용 시스템으로 구현되거나, 전용 하드웨어와 컴퓨터 명령어의 조합으로 구현될 수 있음을 유의하여야 한다.
본 출원의 실시예에 설명된 관련 유닛들은 소프트웨어의 방식으로 구현될 수 있거나, 또는 하드웨어의 방식으로 구현될 수도 있다. 설명된 유닛들은 프로세서에 설치될 수도 있으며, 예를 들어, 프로세서가 획득 유닛, 추출 유닛, 확정 유닛 및 저장 유닛을 포함한다고 설명될 수 있다. 여기서, 이러한 유닛들의 명칭은 일부의 경우에 있어서 해당 유닛 자체에 대한 한정을 구성하지 않으며, 예를 들어, 획득 유닛은 "목표 비디오 및 상기 목표 비디오의 목표 비디오 요소 정보를 획득하는 유닛"으로 설명될 수도 있다.
다른 일 방면에 있어서, 본 출원은 컴퓨터 판독 가능한 매체를 더 제공하며, 해당 컴퓨터 판독 가능한 매체는 상기 실시예에 설명된 서버에 포함되는 것일 수 있으며, 또는 해당 서버에 설치되는 것이 아니라 별도로 제공된 것일 수도 있다. 상기 컴퓨터 판독 가능한 매체에는 하나 또는 다수의 프로그램이 탑재되고, 상기 하나 또는 다수의 프로그램이 해당 서버에 의해 실행될 경우, 해당 서버로 하여금, 목표 비디오 및 목표 비디오의 목표 비디오 요소 정보를 획득하며; 목표 비디오 요소 정보를 기반으로 목표 비디오에서 목표 비디오 클립을 추출하며; 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 목표 비디오 클립의 유형을 표현하는 키워드를 획득하며; 키워드와 기설정된 태그 정보 집합을 매칭하여 목표 비디오 클립의 태그 정보를 획득하고, 목표 비디오 클립과 태그 정보를 관련시키고 저장하도록 한다.
또한, 상기 하나 또는 다수의 프로그램이 해당 서버에 의해 실행될 경우, 해당 서버로 하여금, 목표 사용자가 주목하는 콘텐츠를 표현하는 주목 정보를 획득하고, 주목 정보와 기설정된 태그 정보를 매칭하되, 태그 정보는 상기 도2 내지 도8의 임의의 한 실시예에 설명된 방법에 따라 획득되고, 태그 정보는 대응되는 비디오 클립을 구비하며, 매칭 성공을 확정하는 것에 응답하여, 비디오 클립을 추천하기 위한 추천 정보를 생성하도록 할 수 있다.
이상의 설명은 단지 본 출원의 비교적 바람직한 실시예 및 운용한 기술적 원리에 대한 설명이다. 본 출원에 관련된 발명의 범위가 상기 기술적 특징들의 특정 조합으로 이루어진 기술적 방안들에 한정되는 것이 아니라, 본 발명의 주지를 벗어나지 않는 한 상기 기술적 특징들 또는 그들의 균등한 특징들의 임의의 조합으로 이루어진 기타 기술적 방안들도 포함되어야 함을 해당 기술분야의 당업자는 이해할 것이다. 예를 들어, 상기 특징들과 본 출원에 개시되어 있으나 이에 한정되지 않는 유사한 기능을 구비한 기술적 특징을 서로 대체하여 이루어진 기술적 방안도 포함된다.

Claims (26)

  1. 비디오를 처리하기 위한 장치가 목표 비디오 및 상기 목표 비디오의 목표 비디오 요소 정보를 획득하는 단계;
    상기 비디오를 처리하기 위한 장치가 상기 목표 비디오 요소 정보를 기반으로 상기 목표 비디오에서 목표 비디오 클립을 추출하는 단계;
    상기 비디오를 처리하기 위한 장치가 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 상기 목표 비디오 클립의 유형을 표현하는 키워드를 획득하는 단계; 및
    상기 비디오를 처리하기 위한 장치가 획득한 상기 키워드와 기설정된 태그 정보 집합을 매칭하여 상기 목표 비디오 클립의 태그 정보를 획득하고, 상기 목표 비디오 클립과 상기 태그 정보를 관련시키고 저장하는 단계를 포함하되,
    상기 목표 비디오 요소 정보는 상기 목표 비디오에 포함된 이미지 프레임, 상기 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보의 집합, 상기 목표 비디오에 포함된 이미지 프레임에 대응되는 탄막 정보의 집합, 상기 목표 비디오의 더빙 정보, 상기 목표 비디오의 명칭 및 상기 목표 비디오의 재생 시간 중 적어도 하나를 포함하며,
    상기 목표 비디오 요소 정보가 상기 탄막 정보의 집합인 경우, 상기 비디오를 처리하기 위한 장치는 상기 목표 비디오에 포함된 이미지 프레임의 탄막 정보의 수량이 기설정된 수량 역치보다 크고, 상기 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 상기 목표 비디오 클립으로 확정하고,
    상기 기설정된 태그 정보 집합은 기설정된 지식 베이스이며,
    상기 태그 정보 집합은 적어도 하나의 서브 집합을 포함하고, 상기 목표 비디오 클립의 키워드가 어느 한 서브 집합 내의 태그 정보와 매칭하는 것에 응답하여, 해당 서브 집합 중의 적어도 하나의 태그 정보를 상기 목표 비디오 클립의 태그 정보로 결정하는 것을 특징으로 하는 비디오를 처리하기 위한 방법.
  2. 제1항에 있어서,
    상기 목표 비디오 요소 정보는 상기 목표 비디오에 포함된 이미지 프레임이며,
    상기 목표 비디오 요소 정보를 기반으로 상기 목표 비디오에서 목표 비디오 클립을 추출하는 단계는,
    상기 목표 비디오에 포함된 이미지 프레임에 대한 이미지 인식을 진행하여 해당 이미지 프레임의 이미지 인식 결과를 획득하는 단계; 및
    상기 이미지 인식 결과와 관련되고 상기 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 상기 목표 비디오 클립으로 확정하는 단계를 포함하는 것을 특징으로 하는 비디오를 처리하기 위한 방법.
  3. 제2항에 있어서,
    상기 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 상기 목표 비디오 클립의 유형을 표현하는 키워드를 획득하는 단계는,
    이미지 인식 결과와 키워드의 기설정된 대응 관계를 기반으로, 상기 목표 비디오 클립에 포함된 이미지 프레임의 이미지 인식 결과에 대응되는 키워드를 상기 목표 비디오 클립의 키워드로 확정하는 단계를 포함하는 것을 특징으로 하는 비디오를 처리하기 위한 방법.
  4. 제1항에 있어서,
    상기 목표 비디오 요소 정보는 상기 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보의 집합이며,
    상기 목표 비디오 요소 정보를 기반으로 상기 목표 비디오에서 목표 비디오 클립을 추출하는 단계는,
    상기 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보에 포함된 목표 어휘를 추출하는 단계; 및
    상기 목표 어휘에 대응되는 이미지 프레임이 존재하는 비디오 클립을 상기 목표 비디오 클립으로 확정하는 단계를 포함하는 것을 특징으로 하는 비디오를 처리하기 위한 방법.
  5. 제4항에 있어서,
    상기 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 상기 목표 비디오 클립의 유형을 표현하는 키워드를 획득하는 단계는,
    상기 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 목표 어휘 중에서 임의로 또는 출현 횟수의 순서에 따라 목표 어휘를 선택하여 상기 목표 비디오 클립의 키워드로 사용하는 단계를 포함하는 것을 특징으로 하는 비디오를 처리하기 위한 방법.
  6. 제1항에 있어서,
    상기 목표 비디오 요소 정보는 상기 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보의 집합 및 상기 목표 비디오의 텍스트 소개 정보를 포함하며,
    상기 목표 비디오 요소 정보를 기반으로 상기 목표 비디오에서 목표 비디오 클립을 추출하는 단계는,
    상기 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보와 상기 텍스트 소개 정보의 유사도를 확정하는 단계; 및
    기설정된 유사도 역치보다 큰 유사도를 갖는 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하는 단계를 포함하는 것을 특징으로 하는 비디오를 처리하기 위한 방법.
  7. 제6항에 있어서,
    상기 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 상기 목표 비디오 클립의 유형을 표현하는 키워드를 획득하는 단계는,
    상기 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 텍스트 정보에 포함된 목표 어휘를 추출하는 단계; 및
    상기 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 목표 어휘 중에서 임의로 또는 출현 횟수의 순서에 따라 목표 어휘를 선택하여 상기 목표 비디오 클립의 키워드로 사용하는 단계를 포함하는 것을 특징으로 하는 비디오를 처리하기 위한 방법.
  8. 삭제
  9. 제1항에 있어서,
    상기 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 상기 목표 비디오 클립의 유형을 표현하는 키워드를 획득하는 단계는,
    상기 목표 비디오 클립에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 탄막 정보에 대해 인식을 진행하여, 해당 이미지 프레임에 대응되는 탄막 정보가 속하는 유형을 표현하는 탄막 유형 정보를 획득하여 상기 목표 비디오 클립의 키워드로 사용하는 단계를 포함하는 것을 특징으로 하는 비디오를 처리하기 위한 방법.
  10. 제1항에 있어서,
    상기 목표 비디오 요소 정보는 상기 목표 비디오의 더빙 정보이며,
    상기 목표 비디오 요소 정보를 기반으로 상기 목표 비디오에서 목표 비디오 클립을 추출하는 단계는,
    상기 더빙 정보에 대해 음성 인식을 진행하여, 적어도 하나의 더빙 유형 정보 및 더빙 유형 정보에 대응되고 상기 더빙 정보에 포함되는 더빙 클립을 획득하되, 더빙 유형 정보는 대응되는 더빙 클립이 속하는 유형을 표현하는데 사용되는 단계; 및
    상기 적어도 하나의 더빙 유형 정보에서 임의로 또는 더빙 클립의 추출 순서에 따라 목표 더빙 유형 정보를 선택하고, 상기 목표 더빙 유형 정보에 대응되는 더빙 클립에 대응되는 비디오 클립을 목표 비디오 클립으로 확정하는 단계를 포함하는 것을 특징으로 하는 비디오를 처리하기 위한 방법.
  11. 제10항에 있어서,
    상기 비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 상기 목표 비디오 클립의 유형을 표현하는 키워드를 획득하는 단계는,
    더빙 유형 정보와 음성 인식 방식의 기설정된 대응 관계를 기반으로, 상기 목표 비디오 클립에 대응되는 더빙 클립에 대해 인식을 진행하여 상기 목표 비디오 클립에 대응되는 더빙 클립이 속하는 유형을 표현하는 키워드를 획득하여 상기 목표 비디오 클립의 키워드로 사용하는 단계를 포함하는 것을 특징으로 하는 비디오를 처리하기 위한 방법.
  12. 비디오를 처리하기 위한 장치가 목표 사용자가 주목하는 콘텐츠를 표현하는 주목 정보를 획득하고, 상기 주목 정보와 기설정된 태그 정보를 매칭하되, 상기 태그 정보는 제1항 내지 제7항 및 제9항 내지 제11항 중 어느 하나의 항의 방법에 따라 획득되고, 상기 태그 정보에 대응되는 비디오 클립을 구비하는 단계; 및
    상기 비디오를 처리하기 위한 장치가 상기 주목 정보와 상기 기설정된 태그 정보가 성공적으로 매칭됨을 확정하는 것에 응답하여, 상기 비디오 클립을 추천하기 위한 추천 정보를 생성하는 단계를 포함하는 것을 특징으로 하는 추천 정보를 생성하기 위한 방법.
  13. 목표 비디오 및 상기 목표 비디오의 목표 비디오 요소 정보를 획득하도록 구성된 획득 유닛;
    상기 목표 비디오 요소 정보를 기반으로 상기 목표 비디오에서 목표 비디오 클립을 추출하도록 구성된 추출 유닛;
    비디오 요소 정보와 비디오 클립의 키워드 확정 방식의 기설정된 대응 관계를 기반으로 상기 목표 비디오 클립의 유형을 표현하는 키워드를 획득하도록 구성된 확정 유닛; 및
    상기 키워드와 기설정된 태그 정보 집합을 매칭하여 상기 목표 비디오 클립의 태그 정보를 획득하고, 상기 목표 비디오 클립과 상기 태그 정보를 관련시키고 저장하도록 구성된 저장 유닛을 포함하되,
    상기 목표 비디오 요소 정보는 상기 목표 비디오에 포함된 이미지 프레임, 상기 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보의 집합, 상기 목표 비디오에 포함된 이미지 프레임에 대응되는 탄막 정보의 집합, 상기 목표 비디오의 더빙 정보, 상기 목표 비디오의 명칭 및 상기 목표 비디오의 재생 시간 중 적어도 하나를 포함하며,
    상기 추출 유닛은 상기 목표 비디오 요소 정보가 상기 탄막 정보의 집합인 경우, 상기 목표 비디오에 포함된 이미지 프레임의 탄막 정보의 수량이 기설정된 수량 역치보다 크고, 상기 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 상기 목표 비디오 클립으로 확정하고,
    상기 기설정된 태그 정보 집합은 기설정된 지식 베이스이며,
    상기 태그 정보 집합은 적어도 하나의 서브 집합을 포함하고, 상기 목표 비디오 클립의 키워드가 어느 한 서브 집합 내의 태그 정보와 매칭하는 것에 응답하여, 해당 서브 집합 중의 적어도 하나의 태그 정보를 상기 목표 비디오 클립의 태그 정보로 결정하는 것을 특징으로 하는 비디오를 처리하기 위한 장치.
  14. 제13항에 있어서,
    상기 목표 비디오 요소 정보는 상기 목표 비디오에 포함된 이미지 프레임이며,
    상기 추출 유닛은,
    상기 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대한 이미지 인식을 진행하여 해당 이미지 프레임의 이미지 인식 결과를 획득하도록 구성된 제1 인식 모듈; 및
    이미지 인식 결과와 관련되고 상기 목표 비디오에서 연속적으로 배열된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하도록 구성된 제1 확정 모듈을 포함하는 것을 특징으로 하는 비디오를 처리하기 위한 장치.
  15. 제14항에 있어서,
    상기 확정 유닛은,
    이미지 인식 결과와 키워드의 기설정된 대응 관계를 기반으로, 상기 목표 비디오 클립에 포함된 이미지 프레임의 이미지 인식 결과에 대응되는 키워드를 상기 목표 비디오 클립의 키워드로 확정하도록 더 구성되는 것을 특징으로 하는 비디오를 처리하기 위한 장치.
  16. 제13항에 있어서,
    상기 목표 비디오 요소 정보는 상기 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보의 집합이며,
    상기 추출 유닛은,
    상기 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보에 포함된 목표 어휘를 추출하도록 구성된 제1 추출 모듈; 및
    상기 목표 어휘에 관련되는 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하도록 구성된 제2 확정 모듈을 포함하는 것을 특징으로 하는 비디오를 처리하기 위한 장치.
  17. 제16항에 있어서,
    상기 확정 유닛은,
    상기 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 목표 어휘 중에서 임의로 또는 출현 횟수의 순서에 따라 목표 어휘를 선택하여 상기 목표 비디오 클립의 키워드로 사용하도록 더 구성되는 것을 특징으로 하는 비디오를 처리하기 위한 장치.
  18. 제13항에 있어서,
    상기 목표 비디오 요소 정보는 상기 목표 비디오에 포함된 이미지 프레임에 대응되는 텍스트 정보의 집합 및 상기 목표 비디오의 텍스트 소개 정보를 포함하며,
    상기 추출 유닛은,
    상기 목표 비디오에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보와 상기 텍스트 소개 정보의 유사도를 확정하도록 구성된 제3 확정 모듈; 및
    기설정된 유사도 역치보다 큰 유사도를 갖는 이미지 프레임과 관련된 이미지 프레임이 존재하는 비디오 클립을 목표 비디오 클립으로 확정하도록 구성된 제4 확정 모듈을 포함하는 것을 특징으로 하는 비디오를 처리하기 위한 장치.
  19. 제18항에 있어서,
    상기 확정 유닛은,
    상기 목표 비디오 클립에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 텍스트 정보에 포함된 목표 어휘를 추출하도록 구성된 제2 추출 모듈; 및
    상기 목표 비디오 클립에 포함된 이미지 프레임에 대응되는 목표 어휘에서 임의로 또는 출현 횟수의 순서에 따라 목표 어휘를 선택하여 상기 목표 비디오 클립의 키워드로 사용하도록 구성된 제1 선택 모듈을 포함하는 것을 특징으로 하는 비디오를 처리하기 위한 장치.
  20. 삭제
  21. 제13항에 있어서,
    상기 확정 유닛은,
    상기 목표 비디오 클립에 포함된 이미지 프레임에 대해, 해당 이미지 프레임에 대응되는 탄막 정보에 대해 인식을 진행하여, 해당 이미지 프레임에 대응되는 탄막 정보가 속하는 유형을 표현하는 탄막 유형 정보를 획득하여 상기 목표 비디오 클립의 키워드로 사용하도록 더 구성되는 것을 특징으로 하는 비디오를 처리하기 위한 장치.
  22. 제13항에 있어서,
    상기 목표 비디오 요소 정보는 상기 목표 비디오의 더빙 정보이며,
    상기 추출 유닛은,
    상기 더빙 정보에 대해 음성 인식을 진행하여, 적어도 하나의 더빙 유형 정보 및 더빙 유형 정보에 대응되고 상기 더빙 정보에 포함되는 더빙 클립을 획득하도록 구성되되, 더빙 유형 정보는 대응되는 더빙 클립이 속하는 유형을 표현하는데 사용되는 제2 인식 모듈; 및
    상기 적어도 하나의 더빙 유형 정보에서 임의로 또는 더빙 클립의 추출 순서에 따라 목표 더빙 유형 정보를 선택하고, 상기 목표 더빙 유형 정보에 대응되는 더빙 클립에 대응되는 비디오 클립을 목표 비디오 클립으로 확정하도록 구성된 제2 선택 모듈을 포함하는 것을 특징으로 하는 비디오를 처리하기 위한 장치.
  23. 제22항에 있어서,
    상기 확정 유닛은,
    더빙 유형 정보와 음성 인식 방식의 기설정된 대응 관계를 기반으로, 상기 목표 비디오 클립에 대응되는 더빙 클립에 대해 인식을 진행하여 상기 목표 비디오 클립에 대응되는 더빙 클립이 속하는 유형을 표현하는 키워드를 획득하여 상기 목표 비디오 클립의 키워드로 사용하도록 더 구성되는 것을 특징으로 하는 비디오를 처리하기 위한 장치.
  24. 목표 사용자가 주목하는 콘텐츠를 표현하는 주목 정보를 획득하고, 상기 주목 정보와 기설정된 태그 정보를 매칭하도록 구성되되, 상기 태그 정보는 제1항 내지 제7항 및 제9항 내지 제11항 중 임의의 한 항의 방법에 따라 획득되고, 상기 태그 정보는 대응되는 비디오 클립을 구비하는 획득 유닛; 및
    상기 주목 정보와 상기 기설정된 태그 정보가 성공적으로 매칭됨을 확정하는 것에 응답하여, 상기 비디오 클립을 추천하기 위한 추천 정보를 생성하도록 구성된 생성 유닛을 포함하는 것을 특징으로 하는 추천 정보를 생성하기 위한 장치.
  25. 하나 또는 다수의 프로세서; 및
    하나 또는 다수의 프로그램을 저장하기 위한 저장 장치를 포함하되,
    상기 하나 또는 다수의 프로그램이 상기 하나 또는 다수의 프로세서에 의해 실행될 경우, 상기 하나 또는 다수의 프로세서가 제1항 내지 제7항 및 제9항 내지 제11항 중 어느 하나의 항에 따른 방법을 구현하도록 구성된 서버.
  26. 비일시적인 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능한 저장 매체에 있어서,
    상기 프로그램은 프로세서에 의해 실행될 경우 제1항 내지 제7항 및 제9항 내지 제11항 중 어느 하나의 항에 따른 방법을 구현하도록 구성된 컴퓨터 판독 가능한 저장 매체.
KR1020210053261A 2018-06-08 2021-04-23 비디오를 처리하기 위한 방법 및 장치 KR102394756B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810585416.2 2018-06-08
CN201810585416.2A CN110582025B (zh) 2018-06-08 2018-06-08 用于处理视频的方法和装置
KR1020190029042A KR20190139751A (ko) 2018-06-08 2019-03-14 비디오를 처리하기 위한 방법 및 장치

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020190029042A Division KR20190139751A (ko) 2018-06-08 2019-03-14 비디오를 처리하기 위한 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20210053825A KR20210053825A (ko) 2021-05-12
KR102394756B1 true KR102394756B1 (ko) 2022-05-04

Family

ID=65812227

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020190029042A KR20190139751A (ko) 2018-06-08 2019-03-14 비디오를 처리하기 위한 방법 및 장치
KR1020210053261A KR102394756B1 (ko) 2018-06-08 2021-04-23 비디오를 처리하기 위한 방법 및 장치

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020190029042A KR20190139751A (ko) 2018-06-08 2019-03-14 비디오를 처리하기 위한 방법 및 장치

Country Status (5)

Country Link
US (1) US10824874B2 (ko)
EP (1) EP3579140A1 (ko)
JP (1) JP6986527B2 (ko)
KR (2) KR20190139751A (ko)
CN (1) CN110582025B (ko)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110149530B (zh) * 2018-06-15 2021-08-24 腾讯科技(深圳)有限公司 一种视频处理方法和装置
CN111126388B (zh) * 2019-12-20 2024-03-29 维沃移动通信有限公司 图像识别的方法及电子设备
CN111177470B (zh) * 2019-12-30 2024-04-30 深圳Tcl新技术有限公司 视频的处理方法、视频的搜索方法及终端设备
CN111416997B (zh) * 2020-03-31 2022-11-08 百度在线网络技术(北京)有限公司 视频播放方法、装置、电子设备和存储介质
CN111522970A (zh) * 2020-04-10 2020-08-11 广东小天才科技有限公司 习题推荐方法、装置、设备及存储介质
CN111626202B (zh) 2020-05-27 2023-08-29 北京百度网讯科技有限公司 用于识别视频的方法及装置
CN111767796B (zh) * 2020-05-29 2023-12-15 北京奇艺世纪科技有限公司 一种视频关联方法、装置、服务器和可读存储介质
CN111711869B (zh) * 2020-06-24 2022-05-17 腾讯科技(深圳)有限公司 一种标签数据处理方法、装置以及计算机可读存储介质
KR20210118203A (ko) * 2020-06-28 2021-09-29 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 이모티콘 패키지 생성 방법 및 기기, 전자 기기 및 매체
CN114095738A (zh) * 2020-07-30 2022-02-25 京东方科技集团股份有限公司 视频及直播处理方法、直播系统、电子设备、终端、介质
CN111970532B (zh) * 2020-08-27 2022-07-15 网易(杭州)网络有限公司 视频播放方法、装置及设备
CN111914102A (zh) * 2020-08-27 2020-11-10 上海掌门科技有限公司 编辑多媒体数据的方法、电子设备和计算机存储介质
CN113841417B (zh) * 2020-09-27 2023-07-28 深圳市大疆创新科技有限公司 影片生成方法、终端设备、拍摄设备及影片生成系统
CN112541094A (zh) * 2020-12-21 2021-03-23 深圳市前海手绘科技文化有限公司 一种动画视频平台视频素材记录方法与装置
CN112738556B (zh) * 2020-12-22 2023-03-31 上海幻电信息科技有限公司 视频处理方法及装置
CN113347491A (zh) * 2021-05-24 2021-09-03 北京格灵深瞳信息技术股份有限公司 一种视频剪辑方法、装置、电子设备和计算机存储介质
CN113343827A (zh) * 2021-05-31 2021-09-03 北京达佳互联信息技术有限公司 视频处理方法、装置、电子设备及计算机可读存储介质
CN113329261B (zh) * 2021-08-02 2021-12-07 北京达佳互联信息技术有限公司 视频处理方法及装置
CN114205653A (zh) * 2021-12-06 2022-03-18 广东飞翔云计算有限公司 一种基于大数据的预览视频推送方法、装置、设备及存储介质
CN114697702B (zh) * 2022-03-23 2024-01-30 咪咕文化科技有限公司 音视频标记方法、装置、设备及存储介质
CN115460459B (zh) * 2022-09-02 2024-02-27 百度时代网络技术(北京)有限公司 基于ai的视频生成方法、装置和电子设备
CN115205766A (zh) * 2022-09-16 2022-10-18 北京吉道尔科技有限公司 基于区块链的网络安全异常视频大数据检测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120158686A1 (en) * 2010-12-17 2012-06-21 Microsoft Corporation Image Tag Refinement
US20160014482A1 (en) * 2014-07-14 2016-01-14 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Generating Video Summary Sequences From One or More Video Segments

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4812546B2 (ja) * 2005-06-30 2011-11-09 株式会社日立製作所 送信装置,受信装置及び通信システム
WO2007043679A1 (ja) 2005-10-14 2007-04-19 Sharp Kabushiki Kaisha 情報処理装置およびプログラム
JP2009260762A (ja) 2008-04-18 2009-11-05 Panasonic Corp ダイジェスト作成装置
US8351768B2 (en) * 2009-07-23 2013-01-08 Microsoft Corporation Media processing comparison system and techniques
JP2011130064A (ja) 2009-12-16 2011-06-30 Sony Corp 情報処理装置および方法、並びにプログラム
KR101236262B1 (ko) 2011-04-07 2013-02-26 (주) 프람트 모바일 콘텐츠 태그 생성 시스템 및 그 방법
CN104469508B (zh) * 2013-09-13 2018-07-20 中国电信股份有限公司 基于弹幕信息内容进行视频定位的方法、服务器和系统
US10521671B2 (en) * 2014-02-28 2019-12-31 Second Spectrum, Inc. Methods and systems of spatiotemporal pattern recognition for video content development
US9643722B1 (en) * 2014-02-28 2017-05-09 Lucas J. Myslinski Drone device security system
TW201624320A (zh) 2014-12-30 2016-07-01 富智康(香港)有限公司 影像片段搜尋方法及系統
CN105100892B (zh) * 2015-07-28 2018-05-15 努比亚技术有限公司 视频播放装置及方法
US20170139933A1 (en) * 2015-11-18 2017-05-18 Le Holdings (Beijing) Co., Ltd. Electronic Device, And Computer-Readable Storage Medium For Quickly Searching Video Segments
US10390082B2 (en) * 2016-04-01 2019-08-20 Oath Inc. Computerized system and method for automatically detecting and rendering highlights from streaming videos
CN107027060A (zh) * 2017-04-18 2017-08-08 腾讯科技(深圳)有限公司 视频片段的确定方法和装置
CN108024143A (zh) * 2017-11-03 2018-05-11 国政通科技股份有限公司 一种智能的视频数据处理方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120158686A1 (en) * 2010-12-17 2012-06-21 Microsoft Corporation Image Tag Refinement
US20160014482A1 (en) * 2014-07-14 2016-01-14 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Generating Video Summary Sequences From One or More Video Segments

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Weiming Hu외 3명. A Survey on Visual Content-Based Video Indexing and Retrieval. 2011.11. 1부.*

Also Published As

Publication number Publication date
JP2019212290A (ja) 2019-12-12
EP3579140A1 (en) 2019-12-11
US10824874B2 (en) 2020-11-03
JP6986527B2 (ja) 2021-12-22
KR20190139751A (ko) 2019-12-18
US20190377956A1 (en) 2019-12-12
KR20210053825A (ko) 2021-05-12
CN110582025A (zh) 2019-12-17
CN110582025B (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
KR102394756B1 (ko) 비디오를 처리하기 위한 방법 및 장치
JP7123122B2 (ja) 認知的洞察を使用したビデオ・シーンの移動
CN108012162B (zh) 内容推荐方法及装置
CN107193792B (zh) 基于人工智能的生成文章的方法和装置
CN113709561B (zh) 视频剪辑方法、装置、设备及存储介质
CN112533051B (zh) 弹幕信息显示方法、装置、计算机设备和存储介质
CN108776676B (zh) 信息推荐方法、装置、计算机可读介质及电子设备
CN110740389B (zh) 视频定位方法、装置、计算机可读介质及电子设备
CN107704525A (zh) 视频搜索方法和装置
CN109543058B (zh) 用于检测图像的方法、电子设备和计算机可读介质
CN109034069B (zh) 用于生成信息的方法和装置
CN109697239B (zh) 用于生成图文信息的方法
WO2020000876A1 (zh) 用于生成模型的方法和装置
CN109271556B (zh) 用于输出信息的方法和装置
US10789474B2 (en) System, method and apparatus for displaying information
CN109582825B (zh) 用于生成信息的方法和装置
CN112507090B (zh) 用于输出信息的方法、装置、设备和存储介质
CN109255035B (zh) 用于构建知识图谱的方法和装置
CN112818224B (zh) 信息推荐方法、装置、电子设备及可读存储介质
CN105302906A (zh) 信息标注方法及装置
CN115269913A (zh) 一种基于注意力片段提示的视频检索方法
CN108038172B (zh) 基于人工智能的搜索方法和装置
CN111708909A (zh) 视频标签的添加方法及装置、电子设备、计算机可读存储介质
CN111050191A (zh) 一种视频生成方法、装置、计算机设备和存储介质
CN114845149B (zh) 视频片段的剪辑方法、视频推荐方法、装置、设备及介质

Legal Events

Date Code Title Description
A107 Divisional application of patent
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant