KR20210089114A - 라이브 방송의 특수 효과 처리 방법, 장치 및 서버 - Google Patents

라이브 방송의 특수 효과 처리 방법, 장치 및 서버 Download PDF

Info

Publication number
KR20210089114A
KR20210089114A KR1020210082234A KR20210082234A KR20210089114A KR 20210089114 A KR20210089114 A KR 20210089114A KR 1020210082234 A KR1020210082234 A KR 1020210082234A KR 20210082234 A KR20210082234 A KR 20210082234A KR 20210089114 A KR20210089114 A KR 20210089114A
Authority
KR
South Korea
Prior art keywords
frame image
target
live broadcast
virtual object
live
Prior art date
Application number
KR1020210082234A
Other languages
English (en)
Other versions
KR102504459B1 (ko
Inventor
빙위엔 리
Original Assignee
바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 filed Critical 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Publication of KR20210089114A publication Critical patent/KR20210089114A/ko
Application granted granted Critical
Publication of KR102504459B1 publication Critical patent/KR102504459B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234345Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/27Server based end-user applications
    • H04N21/274Storing end-user multimedia data in response to end-user request, e.g. network recorder
    • H04N21/2743Video hosting of uploaded data from client
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440245Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Processing Or Creating Images (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)

Abstract

본 출원은 라이브 방송의 특수 효과 처리 방법 및 장치를 개시하였고, 정보 스트림, 클라우드 컴퓨팅, 영상 인식 기술 분야에 관한 것이다. 구체적인 기술적 수단은 하기의 내용을 포함한다. 서버를 통해 획득한 라이브 방송 클라이언트가 라이브 방송을 할 때 수집한 비디오 스트림의 각 프레임 영상에 대해 인체 인식을 수행하여, 각 프레임 영상 중의 인체 키포인트 위치를 획득한 후, 각 프레임 영상 중의 인체 키포인트 위치에 따라, 가상 물체 템플릿의 타겟 키포인트에 대해 위치 조정을 수행하여, 각 프레임 영상에 대응하는 타겟 가상 물체를 획득하고, 각 프레임 영상에 대응하는 상기 타겟 가상 물체를, 상기 비디오 스트림에 대응하는 각 프레임 영상에 융합하여, 특수 효과 처리를 거친 타겟 비디오 스트림을 획득하고, 타겟 비디오 스트림을 라이브 방송 클라이언트 및 라이브 방송을 시청하는 사용자 클라이언트에 송신하여 전시한다. 기존의 라이브 방송 전시 효과가 비교적 단일한 문제에 비해, 특수 효과 처리를 거친 타겟 비디오 스트림을 라이브 방송 클라이언트 및 사용자 클라이언트에서 전시하고, 라이브 방송의 형식을 풍부히 하여, 라이브 방송자와 시청자 사이의 인터렉션을 증가하는데 유리하다.

Description

라이브 방송의 특수 효과 처리 방법, 장치 및 서버{SPECIAL EFFECT PROCESSING METHOD AND APPARATUS FOR LIVE BROADCASTING, AND SERVER}
본 출원은 영상 처리 기술 분야에 관한 것으로, 구체적으로 정보 스트림, 클라우드 컴퓨팅, 영상 인식 기술 분야에 관한 것이고, 특히 라이브 방송의 특수 효과 처리 방법, 장치, 서버 및 저장 매체에 관한 것이다.
최근 몇 년간, 스트리밍 미디어 기술의 진보 및 네트워크 대역폭의 급증에 따라, 라이브 방송 업무는 날로 치열해지고 있고, 다양한 라이브 방송 프로그램, 비디오 유형의 오락 프로젝트는 녹화 방송에서 라이브 방송으로 변화되고 있다. 라이브 방송은 춤 노래, 게임, 교육, 커머스 등 다양한 카테고리를 포함한다.
그러나, 라이브 방송 유형의 다양성에 비해, 전통적인 라이브 방송 모드는 모두 라이브 방송자가 기기에 대고 라이브 방송을 하는 것이고, 라이브 방송 형식이 단일하고, 라이브 방송자와 시청자 사이의 인터렉션이 비교적 차하는 결점이 있다.
본 출원은 라이브 방송의 특수 효과 처리 방법, 장치, 서버 및 저장 매체를 제공한다.
본 출원의 제1 측면의 실시예는 라이브 방송의 특수 효과 처리 방법을 제공하고, 당해 단계는,
라이브 방송 클라이언트가 라이브 방송을 할 때 수집한 비디오 스트림을 획득하는 단계;
상기 라이브 방송 클라이언트가 상기 비디오 스트림의 각 프레임 영상에 대해 인체 인식을 수행하여, 각 프레임 영상 중의 인체 키포인트 위치를 획득하는 단계;
각 프레임 영상 중의 상기 인체 키포인트 위치에 따라, 가상 물체 템플릿의 타겟 키포인트에 대해 위치 조정을 수행하여, 각 프레임 영상에 대응하는 타겟 가상 물체를 획득하는 단계;
각 프레임 영상에 대응하는 상기 타겟 가상 물체를, 상기 비디오 스트림에 대응하는 각 프레임 영상에 융합하여, 특수 효과 처리를 거친 타겟 비디오 스트림을 획득하는 단계; 및
상기 라이브 방송 클라이언트 및 라이브 방송을 시청하는 사용자 클라이언트에 상기 타겟 비디오 스트림을 송신하여 전시하는 단계;를 포함한다.
본 출원의 제2 측면의 실시예는 라이브 방송의 특수 효과 처리 장치를 제공하고, 당해 장치는,
라이브 방송 클라이언트가 라이브 방송을 할 때 수집한 비디오 스트림을 획득하는데 사용되는 제1 획득 모듈;
상기 라이브 방송 클라이언트가 상기 비디오 스트림의 각 프레임 영상에 대해 인체 인식을 수행하여, 각 프레임 영상 중의 인체 키포인트 위치를 획득하는데 사용되는 제2 획득 모듈;
각 프레임 영상 중의 상기 인체 키포인트 위치에 따라, 가상 물체 템플릿의 타겟 키포인트에 대해 위치 조정을 수행하여, 각 프레임 영상에 대응하는 타겟 가상 물체를 획득하는데 사용되는 조정 모듈;
각 프레임 영상에 대응하는 상기 타겟 가상 물체를, 상기 비디오 스트림에 대응하는 각 프레임 영상에 융합하여, 특수 효과 처리를 거친 타겟 비디오 스트림을 획득하는데 사용되는 융합 모듈; 및
상기 라이브 방송 클라이언트 및 라이브 방송을 시청하는 사용자 클라이언트에 상기 타겟 비디오 스트림을 송신하여 전시하는데 사용되는 송신 모듈;을 포함한다.
본 출원의 제3 측면의 실시예는 서버를 제공하고, 당해 서버는
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 가능하게 연결되는 메모리;를 포함하고,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1 측면의 실시예의 상기 라이브 방송의 특수 효과 처리 방법을 수행한다.
본 출원의 제4 측면의 실시예는 컴퓨터 명령이 저장되어 있는 비 일시적 컴퓨터 판독 가능 저장 매체를 제공하고, 상기 컴퓨터 명령은 상기 컴퓨터가 제1 측면의 실시예의 상기 라이브 방송의 특수 효과 처리 방법이 수행된다.
본 출원의 제5 측면의 실시예는 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 제공하고, 상기 컴퓨터 프로그램 중의 명령이 실행될 경우, 제1 측면의 실시예의 상기 라이브 방송의 특수 효과 처리 방법이 수행된다.
상기 출원의 일 실시예는 하기의 우점 또는 유익한 효과를 구비한다. 라이브 방송 클라이언트가 라이브 방송을 할 때 수집한 비디오 스트림의 각 프레임 영상에 대응하는 타겟 가상 물체를 대응되는 각 프레임 영상에 융합하여, 특수 효과 처리를 거친 타겟 비디오 스트림을 획득하고, 타겟 비디오 스트림을 라이브 방송 클라이언트 및 사용자 클라이언트에 송신하여 전시한다. 기존의 라이브 방송 전시 효과가 비교적 단일한 문제에 비해, 본 출원은 특수 효과 처리를 거친 타겟 비디오 스트림을 라이브 방송 클라이언트 및 사용자 클라이언트에서 전시하고, 라이브 방송의 형식을 풍부히 하여, 라이브 방송자와 시청자 사이의 인터렉션을 증가하는데 유리하다.
이해해야할 것은, 본 발명의 내용 부분에서 설명하는 내용은 본 출원의 실시예의 관건 또는 중요한 특징을 식별하기 위한 것이 아니고, 본 출원의 범위를 한정하기 위한 것도 아니다. 본 출원의 기타 특징은 이하의 명세서를 통해 용이하게 이해된다.
도면은 본 기술적 수단을 더 잘 이해하는데 사용되고, 본 출원을 한정하려는 것은 아니다
도1은 본 출원의 실시예에서 제공하는 라이브 방송의 특수 효과 처리 방법의 흐름도이다.
도2는 본 출원의 실시예2에서 제공하는 라이브 방송의 특수 효과 처리 방법의 흐름도이다.
도3은 본 출원의 실시예3에서 제공하는 가상 물체 템플릿을 생성하는데 사용되는 흐름도이다.
도4는 본 출원의 실시예4에서 제공하는 라이브 방송의 특수 효과 처리 방법의 흐름도이다.
도5는 본 출원의 실시예5에서 제공하는 라이브 방송의 특수 효과 처리 방법의 흐름도이다.
도6은 본 출원의 실시예6에서 제공하는 라이브 방송의 특수 효과 처리 장치의 구조 개략도이다.
도7은 본 출원의 실시예의 라이브 방송의 특수 효과 처리 방법을 구현하기 위한 서버의 블록도이다.
하기의 도면과 결합하여 본 출원의 예시적인 실시예를 설명한다. 여기에는 이해를 돕기 위해 본 출원의 실시예의 복수의 세부 사항을 포함하고, 실시예들은 단지 예시적인 것으로 간주되어야 한다. 때문에 이 발명에 속하는 기술 분야의 통상의 기술자는 본 출원의 범위 및 사상을 벗어나지 않고 실시예에 여러가지 변경과 수정을 할 수 있다는 것을 인식해야 한다. 동시에 정확성과 간결성을 위해 하기의의 설명에서는 공지 기능과 구조에 대한 설명은 생략한다.
아래는 도면을 참조하여 본 출원의 실시예의 라이브 방송의 특수 효과 처리 방법, 장치, 서버 및 저장 매체를 설명한다.
도1은 본 출원의 실시예에서 제공하는 라이브 방송의 특수 효과 처리 방법의 흐름도이다.
본 출원의 실시예에서 당해 라이브 방송의 특수 효과 처리 방법은 서버 사이드에서 수행할 수 있어, 서버 사이드가 라이브 방송의 특수 효과 처리를 완성한 후, 라이브 방송 클라이언트 및 라이브 방송을 시청하는 사용자 클라이언트를 통해 라이브 방송의 특수 효과를 전시하도록 한다.
서버는 클라우드 서버일 수 있다. 클라우드 컴퓨팅 서버 또는 클라우드 호스트라고도 하고, 클라우드 컴퓨팅 서비스 시스템의 일 호스트 제품이고, 전통적인 물리 호스트와 VPS 서비스의 관리가 어렵고, 업무 확정성이 약한 결함을 해결한다.
도1에 도시한 바와 같이, 당해 라이브 방송의 특수 효과 처리 방법은, 서버 사이드에 의해 수행되고, 단계101 내지 단계105를 포함한다.
단계101에서, 라이브 방송 클라이언트가 라이브 방송을 할 때 수집한 비디오 스트림을 획득한다.
라이브 방송 클라이언트는 라이브 방송에서 라이브 방송자가 사용하는 라이브 방송 기기를 가리키고, 개인용 컴퓨터(Personal Computer, PC), 모바일 기기일 수 있고, 모바일 기기는 예를 들면, 휴대폰, 태블릿 PC 및 웨어러블 기기 등일 수 있다.
설명해야 할 것은, 라이브 방송 클라이언트는 촬영, 녹음, 디스플레이 등 복수의 기능을 동시에 구비한 기기일 수 있다. 예를 들면, PC, 휴대폰 등일 수 있고; 카메라, 녹음기, 스크린 등 복수의 기기를 모아 구성된 라이브 방송 기기일 수도 있고, 여기서 한정하지 않는다.
선택적으로, 본 출원의 라이브 방송 클라이언트는 동작 수집 기기를 구비할 수 있고, 라이브 방송 과정에서 라이브 방송자의 라이브 방송 동작을 수집하는데 사용된다.
본 출원의 실시예에서, 라이브 방송자는 라이브 방송 클라이언트로 라이브 방송을 하는 과정에서, 라이브 방송 클라이언트는 라이브 방송할 때 생성된 비디오 스트림을 실시간으로 수집할 수 있고, 비디오 트랜스포트 프로토콜로 수집한 비디오 스트림을 서버에 업로드하여, 서버로 하여 라이브 방송 클라이언트가 라이브 방송할 때 수집한 비디오 스트림을 획득하도록 한다. 비디오 스트림은 비디오 데이터의 전송을 가리킨다.
일 예시로서, 라이브 방송 클라이언트에 설치되고 녹음 녹화에 사용되는 모듈(예를 들면, MediaRecorder)을 통해 라이브 방송 과정에서 비디오 스트림을 수집할 수 있고, 비디오 스트림은 H264의 포맷으로 코딩하고, 릴라이어블 트랜스포트 프로토콜(Reliable Transport Protocol, RTP)을 통해 서버에 송신하여, 서버로 하여 라이브 방송 클라이언트가 라이브 방송할 때 수집한 비디오 스트림을 획득하도록 한다.
단계102에서, 라이브 방송 클라이언트가 비디오 스트림의 각 프레임 영상에 대해 인체 인식을 수행하여, 각 프레임 영상 중의 인체 키포인트 위치를 획득한다.
인체 키포인트는 인체의 오관, 관절 등에 대응하는 키포인트일 수 있다. 예를 들면, 손목, 목, 팔, 어깨, 무릎, 발목 등에 대응하는 키포인트일 수 있다.
선택적으로, 인체 키포인트 위치는 라이브 방송 과정에서 라이브 방송자 및 당해 보조의 인체 키포인트 위치일 수 있다.
본 출원의 실시예에서, 라이브 방송 클라이언트는 라이브 방송자가 라이브 방송하는 과정에서 비디오 스트림을 수집한 후, 비디오 스트림의 각 프레임 영상에 대해 인체 인식을 수행하여, 각 프레임 영상 중의 인체 키포인트 위치를 획득한 후, 라이브 방송 클라이언트는 각 프레임 영상의 인체 키포인트 위치를 서버에 송신하여, 서버가 각 프레임 영상 중의 인체 키포인트 위치를 획득하게 한다.
설명해야 할 것은, 라이브 방송 클라이언트가 비디오 스트림의 각 프레임 영상에 대해 인체 인식을 수행하는 것은, 각 프레임 영상에 대해 인체 자세 인식하여, 각 프레임 영상 중의 인체 키포인트 위치를 획득하는 것을 가리킨다.
하나의 구현 가능한 방식으로서, 비디오 스트림의 각 프레임 영상에 대해 특징 추출을 하여, 각 프레임 영상에 대응하는 특징 영상을 획득함으로, 각 프레임 영상에 대응하는 특징 영상를 훈련한 후의 인체 키포인트 검측 모델에 입력하고, 인체 키포인트 검측 모델의 출력에 따라 각 프레임 영상 중의 인체 키포인트 위치를 결정할 수 있다.
다른 하나의 구현 가능한 방식으로서, 위로부터 아래까지의 인체 키포인트 검측 알고리즘으로 비디오 스트림의 각 프레임 영상의 인체 키포인트를 검측할 수 있다. 선택적으로, 컴볼루션 기계 학습 알고리즘(Convolutional Pose Machines, CPM)으로 인식하여 비디오 스트림의 각 프레임 영상의 인체 영역을 획득할 수 있어, 비디오 스트림의 각 프레임 영상에 대해 특징 추출하고, 추출한 각 프레임 영상의 특징 영상 및 각 프레임 영상에 대응하는 인체 영역을 CPM의 입력으로 하여, 각 프레임 영상의 인체 키포인트를 획득함으로, 각 프레임 영상 중의 인체 키포인트 위치를 결정할 수 있다.
또 다른 하나의 구현 가능한 방식으로서, 아래로부터 위까지의 인체 키포인트 검측 알고리즘으로 비디오 스트림의 각 프레임 영상의 인체 키포인트를 검측할 수 있다. 선택적으로, 아래로부터 위까지의 인체 키포인트 검측 알고리즘으로 인체 키포인트를 검측하는 데는 인체 키포인트 검측 및 인체 키포인트 클러스터를 포함한다. 즉, 키포인트 검측은 영상의 모든 카테고리의 모든 키포인트를 검측해야 하고, 당해 키포인트에 대해 클러스터 처리하고, 부동한 사람의 부동한 키포인트를 연결하여, 클러스터가 부동한 개체에 대응하는 인체 키포인트를 생성함으로, 각 프레임 영상에서 인체 키포인트 위치를 결정한다.
설명해야 할 것은, 상기 각 프레임 영상의 인체 키포인트 위치를 결정하는 방법은 예시적인 소개일 뿐, 기타 방식으로 각 프레임 영상의 인체 키포인트 위치를 결정할 수 있고, 더는 일일이 소개하지 않는다.
단계103에서, 각 프레임 영상 중의 상기 인체 키포인트 위치에 따라, 가상 물체 템플릿의 타겟 키포인트에 대해 위치 조정을 수행하여, 각 프레임 영상에 대응하는 타겟 가상 물체를 획득한다.
가상 물체 템플릿은 미리 설치된 가상 물체를 가리킨다. 가상 물체는 가상 인물 및 가상 물품일 수 있다. 예를 들면, 가상 카툰 이미지, 가상 카툰 인물 등일 수 있고, 여기서 한정하지 않는다.
본 출원의 실시예에서, 서버가 각 프레임 영상의 인체 키포인트 위치를 획득한 후, 각 프레임 영상의 인체 키포인트 위치에 따라, 가상 물체 템플릿의 타겟 키포인트에 대해 위치 조정을 수행하여, 조정 후의 각 프레임 영상의 가상 물체 템플릿을 각 프레임 영상에 대응하는 타겟 가상 물체로 한다.
이해해야 할 것은, 가상 물체 템플릿을 선정한 후, 실제 라이브 방송 장면, 각 프레임 영상의 인체 키포인트 위치에 따라, 가상 물체 템플릿의 타겟 키포인트에 대해 위치 조정을 수행하여, 각 프레임 영상에 대응하는 타겟 가상 물체를 획득한다.
하나의 가능한 상황에서, 비디오 스트림의 각 프레임 영상 중의 라이브 방송자의 인체 키포인트 위치에 따라, 각 프레임 영상에 대응하는 타겟 가상 물체의 위치, 크기 또는 가상 물체 동작의 폭을 결정하고, 가상 템플릿의 타겟 키포인트에 대해 위치 조정을 수행하여, 각 프레임 영상에 대응하는 타겟 가상 물체를 획득한다.
다른 하나의 가능한 상황에서, 비디오 스트림의 각 프레임 영상 중의 라이브 방송자의 인체 키포인트 위치에 대응하는 가시 영역의 크기에 따라, 각 프레임 영상에 대응하는 타겟 가상 물체의 위치, 크기 또는 가상 물체 동작의 폭을 결정하고, 가상 템플릿의 타겟 키포인트에 대해 위치 조정을 수행하여, 각 프레임 영상에 대응하는 타겟 가상 물체를 획득한다.
하나의 가능한 장면에서, 라이브 방송자가 라이브 방송에서 춤을 출 경우, 타겟 가상 물체는 가상 댄서일 수 있고, 라이브 방송 클라이언트는 라이브 방송자가 라이브 방송할 때 생성된 비디오 스트림을 실시간으로 수집할 수 있고, 인식 하여 비디오 스트림의 각 프레임 영상 중의 인체 키포인트 위치를 획득하고, 라이브 방송 과정에서, 각 영상의 인체 키포인트 위치는 라이브 방송자가 춤을 추는 것에 따라 변하고, 이때, 가상 물체 템플릿의 타겟 키포인트에 대해 위치 조정을 수행하여, 각 프레임 영상에 대응하는 가상 댄서를 획득할 수 있다.
다른 하나의 가능한 장면에서, 라이브 방송자가 라이브 방송에서 커머스할 경우, 라이브 방송자는 오븐을 전시할 것을 선택하고, 특정 위치에서 가상 오븐이 생성되고, 특정 제스처에 대응하는 키포인트 위치를 결정하여, 가상 오븐의 타겟 키포인트에 대해 위치 조정을 수행하여, 각 프레임 영상에 대응하는 가상 오븐을 획득함으로, 가상 오븐이 특정 제스처에 따라 회전하고, 확대 축소하고, 열고 닫는다.
단계104에서, 각 프레임 영상에 대응하는 타겟 가상 물체를, 비디오 스트림에 대응하는 각 프레임 영상에 융합하여, 특수 효과 처리를 거친 타겟 비디오 스트림을 획득한다.
타겟 비디오 스트림은 라이브 방송 클라이언트가 라이브 방송할 때 수집한 비디오 스트림에 가상 물체를 증가한 후 획득한 비디오 스트림을 가리킨다.
본 출원의 실시예에서, 각 프레임 영상에 대응하는 타겟 가상 물체를 결정한 후, 각 프레임 영상에 대응하는 타겟 가상 물체를, 비디오 스트림에 대응하는 각 프레임영상에 융합하여, 특수 효과 처리한 후의 타겟 비디오 스트림을 획득한다.
하나의 구현 가능한 방식으로서, 각 프레임 영상을 배경으로 하고, 각 프레임 영상에 대응하는 타겟 가상 물체를 전경으로 할 수 있고, 타겟 가상 물체에 따라 각 프레임 영상의 위치에서 융합하여, 융합한 후의 특수 효과 처리를 거친 타겟 비디오 스트림에 대응하는각 프레임 영상을 획득한다.
다른 하나의 구현 가능한 방식으로서, 각 프레임 영상에 대응하는 타겟 가상 물체을 획득한 후, 각 프레임 영상에 대응하는 타겟 가상 물체에 대해 특징 추출하여, 각 프레임 영상에 대응하는 가상 물체에 대응하는 각 프레임 영상에 대해 특징급 융합을 한다.
설명해야 할 것은, 기타 융합 방식으로, 각 프레임 영상에 대응하는 타겟 가상 물체를 비디오 스트림에 대응하는 각 프레임 영상에 융합하고, 여기서 더는 일일이 소개하지 않는다.
단계105에서, 라이브 방송 클라이언트 및 라이브 방송을 시청하는 사용자 클라이언트에 타겟 비디오 스트림을 송신하여 전시한다.
본 출원의 실시예에서, 서버는 각 프레임 영상에 대응하는 타겟 가상 물체를 비디오 스트림에 대응하는 각 프레임 영상에 융합하여, 특수 효과 처리를 거친 타겟 비디오 스트림을 획득한 후, 타겟 비디오 스트림을 라이브 방송 클라이언트 및 라이브 방송을 시청하는 사용자 클라이언트에 송신하여, 라이브 방송 클라이언트 및 사용자 클라이언트에서 전시한다.
본 출원의 실시예의 라이브 방송의 특수 효과 처리 방법은, 서버를 통해 획득한 라이브 방송 클라이언트가 라이브 방송을 할 때 수집한 비디오 스트림의 각 프레임 영상에 대해 인체 인식을 수행하여, 각 프레임 영상 중의 인체 키포인트 위치를 획득한 후, 각 프레임 영상 중의 인체 키포인트 위치에 따라, 가상 물체 템플릿의 타겟 키포인트에 대해 위치 조정을 수행하여, 각 프레임 영상에 대응하는 타겟 가상 물체를 획득하고, 각 프레임 영상에 대응하는 상기 타겟 가상 물체를, 상기 비디오 스트림에 대응하는 각 프레임 영상에 융합하여, 특수 효과 처리를 거친 타겟 비디오 스트림을 획득하고, 타겟 비디오 스트림을 라이브 방송 클라이언트 및 라이브 방송를 시청하는 사용자 클라이언트에 송신하여 전시한다. 이로하여, 라이브 방송 과정에서 각 프레임 영상에 대응하는 타겟 가상 물체를 대응하는 각 프레임 영상에 융합하여, 특수 효과 처리를 거친 타겟 비디오 스트림을 획득한다. 기존의 라이브 방송 전시 효과가 비교적 단일한 문제에 비해, 본 출원은 특수 효과 처리를 거친 타겟 비디오 스트림을 라이브 방송 클라이언트 및 사용자 클라이언트에서 전시하고, 라이브 방송의 형식을 풍부히 하여, 라이브 방송자와 시청자 사이의 인터렉션을 증가하는데 유리하다.
하나의 가능한 장면에서, 라이브 방송자는 라이브 방송 클라이언트로 춤 추는 것을 라이브 방송할 수 있다. 그러나, 라이브 방송자가 1명 밖에 없을 경우, 듀엣 댄스의 라이브 방송을 완성할 수 없다. 이때, 가상 인물을 생성하여, 라이브 방송자와 생성한 가상 인물이 공동으로 듀엣 댄스의 라이브 방송을 완성하도록 해야 한다. 아래는 도2와 결합하여 상세하게 소개하고, 도2는 본 출원의 실시예2에서 제공하는 라이브 방송의 특수 효과 처리 방법의 흐름도이다.
도2에 도시한 바와 같이, 당해 라이브 방송의 특수 효과 처리 방법은 단계201 내지 단계206를 포함한다.
단계201에서, 라이브 방송 클라이언트가 라이브 방송을 할 때 수집한 비디오 스트림을 획득한다.
단계202에서, 라이브 방송 클라이언트가 비디오 스트림의 각 프레임 영상에 대해 인체 인식을 수행하여, 각 프레임 영상 중의 인체 키포인트 위치를 획득한다.
본 출원의 실시예에서, 단계201와 단계202의 구현 과정은, 상기 실시예의 단계101와 단계102의 구현 과정을 참조할 수 있어, 여기서 설명하지 않는다.
단계203에서, 각 프레임 영상에 대해, 인체 키포인트 위치에 따라, 키포인트 위치의 객체 관계 매핑를 조회하여, 타겟 위치를 획득한다.
타겟 위치는 가상 물체 템플릿에서 타겟 키포인트에 대응하는 위치를 가리킨다.
본 출원의 실시예에서, 라이브 방송 클라이언트가 라이브 방송을 할 때 수집한 비디오 스트림의 각 프레임 영상에 대해 인체 인식을 수행하여, 각 프레임 영상 중의 인체 키포인트 위치를 획득한 후, 각 프레임 영상에 대해, 인체 키포인트 위치에 따라, 키포인트 위치의 객체 관계 매핑를 조회하여, 가상 물체 템플릿의 타겟 키포인트에 대응하는 타겟 위치를 획득할 수 있다.
일 예시로서, 라이브 방송자와 가상 댄서가 듀엣 댄스를 할 경우, 춤은 미리 짠 것이고, 라이브 방송자와 가상 댄서의 스텝은 모두 대응되는 것이다. 따라서, 라이브 방송자의 인체 키포인트 위치와 가상 댄서의 키포인트 위치 사이에는 객체 관계 매핑이 존재한다. 이로하여, 본 출원에서, 각 프레임 영상의 라이브 방송자의 인체 키포인트 위치를 결정한 후, 인체 키포인트 위치와 가상 댄서의 키포인트 위치 사이의 객체 관계 매핑을 조회하여, 가상 댄서의 타겟 키포인트에 대응하는 타겟 위치를 결정할 수 있다.
단계204에서, 가상 물체 템플릿의 타겟 키포인트를 타겟 위치로 조정하여, 타겟 가상 물체을 획득한다.
본 출원의 실시예에서, 비디오 스트림의 각 프레임 영상에 있어서, 인체 키포인트 위치에 따라, 가상 물체 템플릿의 타겟 키포인트가 조정해야 하는 타겟 위치를 결정한 후, 가상 물체 템플릿의 타겟 키포인트를 타겟 위치로 조정하여, 타겟 가상 물체를 획득한다.
선택적으로, 각 프레임 영상의, 라이브 방송자의 인체 키포인트 위치에 따라 가상 물체에 대응해야 하는 타겟 위치를 판단한다. 즉, 라이브 방송자의 춤 동작에 따라 가상 물체가 어느 한 박자까지 췄는지 결정하고, 당해 박자의 춤 동작을 전시한다.
일 예시로서, 어느 한 프레임 영상에서, 라이브 방송자의 인체 키포인트 위치가 가상 물체 템플릿의 방향으로 이동할 경우, 가상 물체 템플릿의 타겟 키포인트는 뒤로 이동할 수 있으므로, 가상 물체 템플릿의 타겟 키포인트의 타겟 위치를 결정하여, 가상 물체 템플릿의 타겟 키포인트를 타겟 위치로 조정하고, 타겟 가상 물체를 획득한다.
단계205에서, 각 프레임 영상에 대응하는 타겟 가상 물체를, 비디오 스트림에 대응하는 각 프레임 영상에 융합하여, 특수 효과 처리를 거친 타겟 비디오 스트림을 획득한다.
단계206에서, 라이브 방송 클라이언트 및 라이브 방송을 시청하는 사용자 클라이언트에 타겟 비디오 스트림을 송신하여 전시한다.
본 출원의 실시예에서, 단계205와 단계206의 구현 과정은, 상기 실시예의 단계104와 단계105의 구현 과정을 참조할 수 있어, 여기서 설명하지 않는다.
본 출원의 실시예의 라이브 방송의 특수 효과 처리 방법은, 라이브 방송 클라이언트가 라이브 방송을 할 때 수집한 비디오 스트림의 각 프레임 영상에 대해, 인체 키포인트 위치에 따라, 키포인트 위치의 객체 관계 매핑를 조회하여, 타겟 위치를 획득하고, 가상 물체 템플릿의 타겟 키포인트를 타겟 위치로 조정하여, 타겟 가상 물체을 획득하고, 각 프레임 영상에 대응하는 타겟 가상 물체를 비디오 스트림에 대응하는 각 프레임 영상에 융합하여, 특수 효과 처리를 거친 타겟 비디오 스트림을 획득한 후, 타겟 비디오 스트림을 라이브 방송 클라이언트 및 라이브 방송을 시청하는 사용자 클라이언트에 송신하여 전시한다. 이로하여, 비디오 스트림의 각 프레임 영상에서 타겟 가상 물체를 융합하여, 라이브 방송의 시청자와 라이브 방송자의 인터렉션을 증가한다.
하나의 가능한 상황에서, 가상 물체가 가상 인물일 경우, 가상 인물의 프로필 사진은 라이브 방송을 시청하는 사용자의 프로필 사진일 수도 있어, 시청자와 라이브 방송자의 인터렉션을 증가한다. 아래는 도3과 결합하여 상세하게 소개하고, 도3은 본 출원의 실시예3에서 제공하는 가상 물체 템플릿을 생성하는데 사용되는 흐름도이다.
도3에 도시한 바와 같이, 당해 가상 물체 템플릿의 생성 방법은 단계301 내지 단계304를 포함한다.
단계301에서, 라이브 방송 클라이언트에서 제어 명령을 획득한다.
제어 명령은 라이브 방송 클라이언트에서 수행하는 사용자 동작에 응답하여 생성된 것이다.
이해해야 할 것은, 라이브 방송자는 라이브 방송 클라이언트로 라이브 방송 하는 과정에서, 가상 물체을 가입해야 할 경우, 라이브 방송자는 라이브 방송 클라이언트에서 가상 물체를 첨가하는 사용자 동작을 수행할 수 있어, 라이브 방송 클라이언트가 라이브 방송 클라이언트에서 수행한 사용자 동작에 응답하여 제어 명령을 생성한다.
나아가, 라이브 방송 클라이언트는 생성한 제어 명령을 서버에 송신하여, 서버가 라이브 방송 클라이언트에서 제어 명령을 획득하도록 한다.
단계302에서, 제어 명령에 따라, 표준 템플릿을 결정한다.
본 출원의 실시예에서, 서버는 제어 명령을 획득한 후, 제어 명령에 따라 사용자가 선정한 표준 모듈을 결정할 수 있다.
이해해야 할 것은, 표준 템플릿이 가상 인물 템플릿일 경우, 부동한 사용자가 라이브 방송 과정에서 선정한 가상 인물 템플릿은 부동할 수 있다. 예를 들면, 라이브 방송자가 라이브 방송에서 상품을 판매할 경우, 부동한 신장, 체격의 가상 인물에 대해 피팅해야 할 경우, 부동한 표준 템플릿을 선정할 수 있다. 이로하여, 사용자 동작에 따라, 사용자 수요에 만족하는 표준 템플릿을 결정하도록 구현한다.
단계303에서, 사용자 영상을 획득한다.
사용자 영상은 라이브 방송을 시청하는 시청자에 대응하는 안면 영상일 수 있고, 라이브 방송자의 안면 영상일 수도 있다.
선택적으로, 시청자의 라이선스를 획득한 상황에서, 사용자 클라이언트는 사용자 영상을 수집할 수 있고, 사용자 영상을 서버에 업로드하고, 서버는 사용자 영상과 타겟 키포인트 위치를 표기한 표준 템플릿을 융합하여, 가상 물체 템플릿을 획득한다.
하나의 가능한 상황에서, 사용자 클라이언트는 라이브 방송을 시청하는 시청자의 사용자 영상을 수집한 후, 사용자 영상을 서버에 업로드하여, 서버가 사용자 클라이언트에서 사용자 영상을 획득하도록 한다.
다른 하나의 가능한 상황에서, 라이브 방송 클라이언트는 라이브 방송자의 사용자 영상을 수집한 후, 라이브 방송 가능한 클라이언트는 사용자 영상을 서버에 업로드하여, 서버가 라이브 방송 클라이언트에서 라이브 방송자의 사용자 영상을 획득하도록 한다.
또 다른 하나의 가능한 상황에서, 사용자 클라이언트가 라이브 방송을 시청하는 시청자의 사용자 영상을 수집하고, 라이브 방송 클라이언트가 라이브 방송자의 사용자 영상을 수집한 후, 서버는 동시에 사용자 클라이언트와 라이브 방송 클라이언트에서 시청자의 사용자 영상과 라이브 방송자의 사용자 영상을 획득할 수 있다.
이로하여, 서버 사이드는 라이브 방송자와 시청자의 사용자 영상을 획득할 수 있어, 라이브 방송의 전시 효과를 풍부히하고, 라이브 방송자와 시청자의 인터렉션을 증가한다.
단계304에서, 사용자 영상과 타겟 키포인트 위치를 표기한 표준 템플릿을 융합하여, 가상 물체 템플릿을 획득한다.
본 출원의 실시예에서, 서버는 사용자 영상을 획득한 후, 사용자 영상과 타겟 키포인트 위치를 표기한 표준 템플릿을 융합하여, 가상 물체 템플릿을 획득할 수 있다.
구현 가능한 방식으로서, 사용자 영상을 전경으로 하고, 타겟 키포인트 위치를 표기하는 표준 템플릿을 배경으로 하여, 사용자 영상을 표준 템플릿과 융합하여, 가상 물체 템플릿을 획득할 수 있다.
본 출원의 실시예에서, 가상 물체 템플릿은 라이브 방송을 시청하는 사용자의 프로필 사진을 포함할 수 있고, 사용자 프로필 사진을 포함한 가상 물체로 라이브 방송자와 같이 게임하고, 춤 추는 등을 할 수 있어, 라이브 방송자와 시청자의 인터렉션을 증가할 수 있다.
이로하여, 사용자 영상과 표준 템플릿을 융합하여 획득한 가상 물체 템플릿에 사용자 영상이 포함되어 있어, 라이브 방송 과정에서 라이브 방송자와 시청자의 인터렉션을 증가한다.
하나의 가능한 상황에서, 각 프레임 영상에 대응하는 타겟 가상 물체를 획득한 후, 타겟 가상 물체가 각 프레임 영상 중의 융합 위치를 더 결정해야 함으로, 타겟 가상 물체가 각 프레임 영상 중의 융합 위치에 따라, 각 프레임 영상에 대응하는 타겟 가상 물체를 비디오 스트림에 대응하는 각 프레임 영상에 융합한다. 하나의 가능한 장면에서, 라이브 방송자가 라이브 방송 클라이언트에서 춤 추는 것을 라이브 방송할 경우, 타겟 가상 물체의 각 프레임 영상 중의 위치는, 라이브 방송자가 각 프레임 영상 중의 위치와 관련된다. 아래는 도4와 결합하여 상세하게 소개하고, 도4는 본 출원의 실시예4에서 제공하는 라이브 방송의 특수 효과 처리 방법의 흐름도이다.
도4에 도시한 바와 같이, 상기 단계104 또는 단계205 전에, 당해 라이브 방송의 특수 효과 처리 방법은 단계401 내지 단계402을 더 포함한다.
단계401에서, 라이브 방송 클라이언트가 각 프레임 영상을 인식하여 획득한 인체 중심 위치를 획득한다.
인체 중심 위치는 라이브 방송 클라이언트가 라이브 방송하는 과정에서 각 프레임 영상의 라이브 방송자에 대응하는 중심 위치를 가리킨다.
본 출원의 실시예에서, 라이브 방송 클라이언트는 라이브 방송할 때 수집한 비디오 스트림의 각 프레임 영상을 인식하여, 각 프레임 영상 중의 인체 중심 위치를 결정함으로, 라이브 방송 클라이언트는 각 프레임 영상을 인식하여 획득한 인체 중심 위치를 서버에 송신하여, 서버로 하여 라이브 방송 클라이언트가 각 프레임 영상을 인식하여 획득한 인체 중심 위치를 획득하도록 한다.
구현 가능한 방식으로서, 각 프레임 영상에 대해 영상 인식하여, 각 프레임 영상의 인체 영역을 획득할 수 있어, 인체 영역에 대해 인체 키포인트를 추출하여, 각 프레임 영상의 인체 키포인트를 추출하고, 인체 키포인트 위치를 결정한다. 나아가, 인체 키포인트 위치에 따라 인체 중심 위치를 결정한다.
일 예시로서, 각 프레임 영상의 인체 키포인트 위치의 중심 키포인트에 대응하는 위치를, 각 프레임 영상의 인체 중심 위치로 결정할 수 있다.
단계402에서, 각 프레임 영상의 인체 중심 위치에 따라, 타겟 가상 물체가 각 프레임 영상 중의 융합 위치를 결정한다.
하나의 가능한 장면에서, 라이브 방송 클라이언트가 라이브 방송에서 춤을 출 경우, 하나 또는 복수의 가상 댄서를 생성할 수 있고, 당해 장면에서, 각 프레임 영상의 라이브 방송자의 인체 중심 위치에 따라, 가상 댄서가 각 프레임 영상 중의 융합 위치를 결정하고, 가상 댄서가 각 프레임 영상 중의 융합 위치에 따라, 각 프레임 영상에 대응하는 타겟 가상 댄서를 비디오 스트림의 해당 각 프레임 영상에 융합한다.
이해해야 할 것은, 라이브 방송 클라이언트가 라이브 방송에서 춤을 출 경우, 라이브 방송자는 춤에서 어느 한 개릭터를 대체하여, 기타 가상 댄서와 춤을 출 수 있고, 가상 댄서가 각 프레임 영상 중의 위치는, 라이브 방송자의 위치에 따라 결정할 수 있다.
본 출원의 실시예에서, 라이브 방송 클라이언트가 각 프레임 영상을 인식하여 획득한 인체 중심 위치를 획득하여, 각 프레임 영상의 인체 중심 위치에 따라, 타겟 가상 물체가 각 프레임 영상 중의 융합 위치를 결정함으로, 융합 위치에 따라 각 프레임 영상에 대응하는 타겟 가상 물체를 비디오 스트림에 대응하는 각 프레임 영상에 융합한다. 이로하여, 비디오 스트림의 각 프레임 영상의 인체 중심 위치를 통해, 타겟 가상 물체가 각 프레임 영상 중의 융합 위치를 결정하여, 라이브 방송에서 타겟 가상 물체를 융합한 후 흥미성을 증가하고, 라이브 방송의 형식을 풍부히 한다.
하나의 가능한 장면에서, 라이브 방송자가 라이브 방송 클라이언트에서 춤을 추거나 옷을 피팅할 경우, 신장, 체격에 대한 전시 효과를 구현하기 위해, 타겟 가상 물체의 사이즈를 조정하여, 사이즈 조정 후의 각 프레임 영상에 대응하는 타겟 가상 물체를 대응하는 각 프레임 영상에 융합한다. 아래는 도5와 결합하여 상세하게 소개하고, 도5는 본 출원의 실시예5에서 제공하는 라이브 방송의 특수 효과 처리 방법의 흐름도이다.
도5에 도시한 바와 같이, 상기 단계104 또는 단계205 전에, 당해 라이브 방송의 특수 효과 처리 방법은 단계501 내지 단계502를 더 포함한다.
단계501에서, 라이브 방송 클라이언트가 각 프레임 영상을 인식하여 획득한 인체 사이즈를 획득한다.
이해해야 할 것은, 각 프레임 영상의 인체 사이즈는 라이브 방송자의 신장, 체격 등을 가리킨다.
본 출원의 실시예에서, 라이브 방송 클라이언트는 라이브 방송할 때 수집한 비디오 스트림의 각 프레임 영상을 인식하여, 각 프레임 영상 중의 인체 사이즈를 결정함으로, 라이브 방송 클라이언트는 각 프레임 영상을 인식하여 획득한 인체 사이즈를 서버에 송신하여, 서버로 하여 라이브 방송 클라이언트가 각 프레임 영상을 인식하여 획득한 인체 사이즈를 획득하도록 한다.
단계502에서, 인체 사이즈에 따라 타겟 가상 물체 사이즈를 조정한다.
하나의 가능한 장면에서, 라이브 방송자가 라이브 방송 클라이언트에서 패밀리룩을 판매할 경우, 라이브 방송 효과를 향상시키기 위해 많은 사람의 협동과 다양한 체형의 사람에 의해 옷을 전시해야 한다. 당해 상황에서, 라이브 방송 클라이언트가 각 프레임 영상을 인식하여 획득한 인체 사이즈에 따라 타겟 가상 물체 사이즈를 조정하여, 타겟 가상 물체 사이즈를 인체 사이즈와 부동하게 하여, 옷에 대해 다중 효과의 전시를 한다.
다른 하나의 가능한 장면에서, 라이브 방송자는 라이브 방송 클라이언트에서 춤을 추고, 남성 댄서가 부족할 경우, 각 프레임 영상을 인식하여 획득한 인체 사이즈에 따라, 타겟 가상 물체 사이를 조정하여, 인체 사이즈와 매칭되는 남성 댄서에 대응하는 타겟 가상 물체의 사이즈를 획득한다.
이로하여, 서버는 라이브 방송 클라이언트가 각 프레임 영상을 인식하여 획득한 인체 사이즈를 획득한 후, 인체 사이즈에 따라 타겟 가상 물체 사이즈를 조정하여, 다양한 유형의 타겟 가상 물체를 획득함으로, 라이브 방송의 형식을 풍부히 하고, 기존 기술의 라이브 방송이 비교적 단일한 문제를 해결한다.
상기 실시예를 구현하기 위해, 본 출원은 라이브 방송의 특수 효과 처리 장치를 제공한다.
도6은 본 출원의 실시예6에서 제공하는 라이브 방송의 특수 효과 처리 장치의 구조 개략도이다.
도6에 도시한 바와 같이, 당해 라이브 방송의 특수 효과 처리 장치(600)는, 제1 획득 모듈(610), 제2 획득 모듈(620), 조정 모듈(630), 융합 모듈(640) 및 송신 모듈(650)을 포함한다.
제1 획득 모듈(610)은, 라이브 방송 클라이언트가 라이브 방송을 할 때 수집한 비디오 스트림을 획득하는데 사용된다.
제2 획득 모듈(620)은, 라이브 방송 클라이언트가 비디오 스트림의 각 프레임 영상에 대해 인체 인식을 수행하여, 각 프레임 영상 중의 인체 키포인트 위치를 획득하는데 사용된다.
조정 모듈(630)은, 각 프레임 영상 중의 인체 키포인트 위치에 따라, 가상 물체 템플릿의 타겟 키포인트에 대해 위치 조정을 수행하여, 각 프레임 영상에 대응하는 타겟 가상 물체를 획득하는데 사용된다.
융합 모듈(640)은, 각 프레임 영상에 대응하는 타겟 가상 물체를, 비디오 스트림에 대응하는 각 프레임 영상에 융합하여, 특수 효과 처리를 거친 타겟 비디오 스트림을 획득하는데 사용된다.
송신 모듈(650)은, 라이브 방송 클라이언트 및 라이브 방송을 시청하는 사용자 클라이언트에 상기 타겟 비디오 스트림을 송신하여 전시하는데 사용된다.
하나의 가능한 상황에서, 조정 모듈(630)은,
각 프레임 영상에 대해, 인체 키포인트 위치에 따라, 키포인트 위치의 객체 관계 매핑를 조회하여, 타겟 위치를 획득하는데 사용되는 조회 유닛; 및
가상 물체 템플릿의 타겟 키포인트를 타겟 위치로 조정하여, 타겟 가상 물체를 획득하는데 사용되는 조정 유닛;을 포함한다.
다른 하나의 가능한 상황에서, 조정 모듈(630)은,
사용자 영상을 획득하는데 사용되는 획득 유닛; 및
사용자 영상과 타겟 키포인트 위치를 표기한 표준 템플릿을 융합하여, 가상 물체 템플릿을 획득하는데 사용되는 융합 유닛;을 더 포함한다.
다른 하나의 가능한 상황에서, 당해 라이브 방송의 특수 효과 처리 장치(600),
라이브 방송 클라이언트에서 제어 명령을 획득하는데 사용되는 제3 획득 모듈 - 제어 명령은 라이브 방송 클라이언트에서 수행하는 사용자 동작에 응답하여 생성된 것임 - ; 및
제어 명령에 따라, 표준 템플릿을 결정하는데 사용되는 제1 결정 모듈;을 더 포함한다.
다른 하나의 가능한 상황에서, 획득 유닛은,
사용자 클라이언트 및 라이브 방송 클라이언트 중의 적어도 하나에서 사용자 영상을 획득하는데 더 사용된다.
다른 하나의 가능한 상황에서, 당해 라이브 방송의 특수 효과 처리 장치(600)는,
라이브 방송 클라이언트가 각 프레임 영상을 인식하여 획득한 인체 중심 위치를 획득하는데 사용되는 제4 획득 모듈; 및
각 프레임 영상의 인체 중심 위치에 따라, 타겟 가상 물체가 각 프레임 영상 중의 융합 위치를 결정하는데 사용되는 제2 결정 모듈;을 더 포함한다.
다른 하나의 가능한 상황에서, 당해 라이브 방송의 특수 효과 처리 장치(600)는,
라이브 방송 클라이언트가 각 프레임 영상을 인식하여 획득한 인체 사이즈를 획득하는데 사용되는 제4 획득 모듈; 및
인체 사이즈에 따라 타겟 가상 물체 사이즈를 조정하는데 사용되는 사이즈 조정 모듈;을 더 포함한다.
설명해야 할 것은, 상기 라이브 방송의 특수 효과 처리 방법 실시예의 해석 설명은 당해 실시예의 라이브 방송의 특수 효과 처리 장치에도 적용되어, 여기서 설명하지 않는다.
본 출원의 실시예의 라이브 방송의 특수 효과 처리 장치는, 서버를 통해 획득한 라이브 방송 클라이언트가 라이브 방송을 할 때 수집한 비디오 스트림의 각 프레임 영상에 대해 인체 인식을 수행하여, 각 프레임 영상 중의 인체 키포인트 위치를 획득한 후, 각 프레임 영상 중의 인체 키포인트 위치에 따라, 가상 물체 템플릿의 타겟 키포인트에 대해 위치 조정을 수행하여, 각 프레임 영상에 대응하는 타겟 가상 물체를 획득하고, 각 프레임 영상에 대응하는 상기 타겟 가상 물체를, 상기 비디오 스트림에 대응하는 각 프레임 영상에 융합하여, 특수 효과 처리를 거친 타겟 비디오 스트림을 획득하고, 타겟 비디오 스트림을 라이브 방송 클라이언트 및 라이브 방송를 시청하는 사용자 클라이언트에 송신하여 전시한다. 이로하여, 라이브 방송 과정에서 각 프레임 영상에 대응하는 타겟 가상 물체를 대응하는 각 프레임 영상에 융합하여, 특수 효과 처리를 거친 타겟 비디오 스트림을 획득한다. 기존의 라이브 방송 전시 효과가 비교적 단일한 문제에 비해, 본 출원은 특수 효과 처리를 거친 타겟 비디오 스트림을 라이브 방송 클라이언트 및 사용자 클라이언트에서 전시하고, 라이브 방송의 형식을 풍부히 하여, 라이브 방송자와 시청자 사이의 인터렉션을 증가하는데 유리하다.
상기 실시예를 구현하기 위해, 본 출원은 서버를 제공하고 당해 서버는,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 가능하게 연결되는 메모리;를 포함하고,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 상기 실시예의 라이브 방송의 특수 효과 처리 방법을 수행한다.
상기 실시예를 구현하기 위해, 본 출원은 컴퓨터 명령이 저장되어 있는 비 일시적 컴퓨터 판독 가능 저장 매체를 제공하고, 상기 컴퓨터 명령은 상기 컴퓨터에 의해 상기 실시예의 라이브 방송의 특수 효과 처리 방법이 수행되도록 한다.
본 출원의 실시예에 따르면, 본 출원은 서버와 판독 가능 저장 매체를 더 제공한다. 본 출원은 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공한다. 당해 컴퓨터 프로그램중의 명령이 실행될 경우, 상기 라이브 방송의 특수 효과 처리 방법이 실행된다.
도 7은 본 출원의 실시예의 라이브 방송의 특수 효과 처리 방법을 구현하는데 사용되는 서버의 블록도이다. 서버는 복수 형식의 디지털 컴퓨터를 나타낸다. 예를 들면, 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크스테이션, 개인 정보 단말(PAD), 서버, 블레이드 서버, 메인 프레임 및 기타 적합한 컴퓨터일 수 있다. 서버는 복수 형식의 모바일 장치를 나타낸다. 예를 들면 개인 정보 단말(PAD), 셀룰러 폰, 스마트 폰, 웨어러블 기기 및 기타 유사한 컴퓨팅 장치일 수 있다. 본 출원에 나타난 컴포넌트, 이들의 연결와 관계, 및 기능은 단지 예시적인 것 뿐이며, 본 출원에서 설명 및/또는 요구한 본 출원의 구현을 한정하려는 것은 아니다.
도7에 도시된 바와 같이, 당해 서버는, 하나 또는 복수의 프로세서(701), 메모리(702) 및 각 컴포넌트를 연결하기 위한 고속 인터페이스와 저속 인터페이스를 포함하는 인터페이스를 포함한다. 각 컴포넌트는 서로 다른 버스를 이용하여 서로 연결되고, 공동 메인보드에 장착될 수 있고 수요에 의해 기타 방식으로 장착될 수도 있다. 프로세서는 메모리 또는 메모리 상에 저장되어 외부의 입력 / 출력 장치 (예를 들면, 인터페이스에 결합된 디스플레이 기기)에 GUI의 그래픽 정보를 전시하기 위한 명령을 포함한, 서버 내에서 실행 가능한 명령을 처리할 수 있다. 기타 실시 방식에서, 필요에 따라, 복수의 프로세서 및/또는 복수의 버스를 복수의 메모리와 같이 사용할 수 있다. 마찬가지로, 복수의 서버를 연결할 수 있고, 각 전자 기기는 일부 필요한 동작 (예를 들면, 서버 어레이, 한 그룹의 블레이드 서버 또는 멀티 프로세서 시스템) 을 제공한다. 도7에서는 하나의 프로세서(701)를 예로 든다.
메모리(702)는 본 출원에서 제공하는 비 일시적 컴퓨터 판독 가능 저장 매체이다. 상기 메모리에는 적어도 하나의 프로세서에 의해 수행 가능한 명령이 저장되어 있고, 상기 적어도 하나의 프로세서가 본 출원에서 제공하는 라이브 방송의 특수 효과 처리 방법을 실행할 수 있게 한다. 본 출원의 비 일시적 컴퓨터 판독 가능 저장 매체에는 컴퓨터 명령이 저장되어 있고, 당해 컴퓨터 명령은 컴퓨터가 본 출원에서 제공하는 라이브 방송의 특수 효과 처리 방법을 실행하게 한다.
메모리(702)는 비 일시적 컴퓨터 판독 가능 저장 매체로서, 비 일시적 소프트웨어 프로그램, 비 일시적 컴퓨터 실행 가능한 프로그램 및 모듈을 저장하는데 사용된다. 예를 들면, 본 출원의 실시예 중의 라이브 방송의 특수 효과 처리 방법에 대응하는 프로그램 명령/모듈(예를 들면, 도6에 도시된 바와 같은, 제1 획득 모듈(610), 제2 획득 모듈(620), 조정 모듈(630), 융합 모듈(640) 및 송신 모듈(650))을 저장할 수 있다. 프로세서(701)는 메모리(702)에 저장된 비 일시적 소프트웨어 프로그램, 명령 및 모듈을 작동시켜, 서버의 복수의 기능 응용 및 데이터 처리를 실행한다. 즉 상기 방법 실시예의 라이브 방송의 특수 효과 처리 방법을 구현한다.
메모리(702)는 프로그램 저장영역과 데이터 저장영역을 포함할 수 있고, 프로그램 저장영역은 운영체제, 적어도 하나의 기능에 필요한 애플리케이션 프로그램을 저장할 수 있고, 데이터 저장 영역은 서버에 따른 서버의 사용에 의해 생성된 데이터 등을 저장할 수 있다. 이 외에, 메모리(702)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 비 일시적 메모리, 예를 들면 적어도 하나의 자기 디스크 메모리, 플래시 메모리 또는 기타 비 일시적 솔리드 스테이트 메모리를 더 포함할 수 있다. 일부 실시예에서, 메모리(702)는 선택적으로 프로세서(701)에 대해 원격으로 설치되는 메모리를 포함하고, 이러한 원격 메모리는 네트워크를 통해 본 출원의 실시예의 서버에 연결될 수 있다. 상기 네트워크의 구현예는 인터넷, 인트라넷, 근거리 통신망, 이동 통신망 및 이들의 조합을 포함하나 이에 한정되지 않는다.
서버는 입력 장치(703) 및 출력 장치(704)를 더 포함할 수 있다. 프로세서(701), 메모리(702), 입력 장치(703) 및 출력 장치(704)는 버스 또는 기타 방식을 통해 연결될 수 있고, 도 7에서는 버스를 통해 연결되는 것을 예로 한다.
입력 장치(703)는 입력된 숫자 또는 문자 정보를 수신할 수 있고, 본 출원의 실시예의 서버의 사용자 설정 및 기능 제어와 관련되는 키 신호 입력을 생성할 수 있고, 예를 들어, 터치 스크린, 키패드, 마우스, 트랙패드, 터치패드, 포인팅 스틱, 하나 또는 복수의 마우스 버튼, 트랙볼, 조이스틱 등 입력 장치이다. 출력 장치(704)는 디스플레이 기기, 보조 조명 장치(예를 들면, LED) 및 촉각 피드백 장치(예를 들면, 진동 모터)이다. 당해 디스플레이 기기는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 플라즈마 디스플레이를 포함할 수 있으나 이에 한정되지 않는다. 일부 실시예에서, 디스플레이 기기는 터치 스크린일 수 있다.
여기서 설명하는 시스템과 기술의 여러 가지 실시형태는 디지털 전자회로 시스템, 집적회로 시스템, 전용ASIC (전용 직접 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 실현될 수 있다. 이러한 여러 가지 실시형태는 하나 또는 복수의 컴퓨터 프로그램에서 실시되는 것을 포함할 수 있고, 당해 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그래밍 가능 프로세서를 포함하는 프로그래밍 가능 시스템에서 실행 및/또는 해석되며, 당해 프로그래밍 가능 프로세서는 전용 또는 일반 프로그래밍 가능 프로세서일 수 있으며, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치에서 데이터와 명령을 수신할 수 있고, 데이터와 명령을 당해 저장 시스템, 당해 적어도 하나의 입력 장치 및 당해 적어도 하나의 출력 장치에 전송할 수 있다.
이러한 컴퓨팅 프로그램(즉, 프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드)은, 프로그래밍 가능 프로세서의 기계 명령을 포함하고, 고급 절차 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어를 이용하여 이러한 컴퓨팅 프로그램을 실시할 수 있다. 본 명세서에서 사용한 용어 "기계 판독 가능 매체”와 "컴퓨터 판독 가능 매체”는 기계 명령 및/또는 데이터를 프로그래밍 가능 프로세서에 제공하는 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치(예를 들면, 자기 디스크, 광 디스크, 메모리, 프로그래밍 가능 로직 장치(PLD))를 가리키고, 기계 판독 가능 신호인 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. 용어 "기계 판독 가능 신호”는 기계 명령 및/또는 데이터를 프로그래밍 가능 프로세서에 제공하는 임의의 신호를 가리킨다.
사용자와의 대화를 제공하기 위해, 여기서 설명된 시스템 및 기술은 컴퓨터 상에서 구현할 수 있으며, 당해 컴퓨터는 사용자에게 정보를 디스플레이하는 디스플레이 장치(예를 들면, CRT (음극선관) 또는 LCD (액정 모니터)); 및 키보드와 지향 장치(예를 들면, 마우스 또는 트랙볼)를 구비하고, 사용자는 당해 키보드와 당해 지향 장치를 통해 컴퓨터에 입력을 제공할 수 있다. 기타 유형의 장치도 사용자와의 대화에 사용될 수 있는 바, 예를 들면 사용자에게 제공된 피드백은 임의의 형식의 감각 피드백(예를 들면, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백)일 수 있고, 임의의 형식(음향 입력, 음성 입력 또는 촉각 입력)에 의해 사용자로부터의 입력을 수신할 수 있다.
여기서 설명한 시스템과 기술을, 백그라운드 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들면 데이터 서버), 또는 미들웨어 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들면, 애플리케이션 서버), 또는 프론트 엔드 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들면, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비한 사용자 컴퓨터에서 실시될 수 있고, 사용자는 당해 그래픽 사용자 인터페이스 또는 당해 네트워크 브라우저를 통해 여기서 설명한 시스템과 기술의 실시형태와 대화할 수 있음), 또는 이러한 백그라운드 컴포넌트, 미들웨어 컴포넌트 또는 프론트 엔드 컴포넌트의 임의의 조합을 포함하는 컴퓨팅 시스템에서 실시될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들면, 통신 네트워크)를 통해 시스템의 컴포넌트를 서로 연결할 수 있다. 통신 네트워크의 예시는 근거리 통신망 (LAN), 광역 통신망 (WAN) 및 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 떨어져 있으며, 통신 네트워크를 통해 서로 대화한다. 대응하는 컴퓨터에서 운행되고 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램에 의해 클라이언트와 서버의 관계를 생성한다. 서버는 클라우드 서버일 수 있다. 클라우드 컴퓨팅 서버 또는 클라우드 호스트라고도 하고, 클라우드 컴퓨팅 서비스 시스템의 일 호스트 제품이고, 전통적인 물리 호스트와 VPS 서비스의 관리가 어렵고, 업무 확정성이 약한 결함을 해결한다.
본 출원의 실시예에 따른 기술적 수단은, 서버를 통해 획득한 라이브 방송 클라이언트가 라이브 방송을 할 때 수집한 비디오 스트림의 각 프레임 영상에 대해 인체 인식을 수행하여, 각 프레임 영상 중의 인체 키포인트 위치를 획득한 후, 각 프레임 영상 중의 인체 키포인트 위치에 따라, 가상 물체 템플릿의 타겟 키포인트에 대해 위치 조정을 수행하여, 각 프레임 영상에 대응하는 타겟 가상 물체를 획득하고, 각 프레임 영상에 대응하는 상기 타겟 가상 물체를, 상기 비디오 스트림에 대응하는 각 프레임 영상에 융합하여, 특수 효과 처리를 거친 타겟 비디오 스트림을 획득하고, 타겟 비디오 스트림을 라이브 방송 클라이언트 및 라이브 방송를 시청하는 사용자 클라이언트에 송신하여 전시한다. 이로하여, 라이브 방송 과정에서 각 프레임 영상에 대응하는 타겟 가상 물체를 대응하는 각 프레임 영상에 융합하여, 특수 효과 처리를 거친 타겟 비디오 스트림을 획득한다. 기존의 라이브 방송 전시 효과가 비교적 단일한 문제에 비해, 본 출원은 특수 효과 처리를 거친 타겟 비디오 스트림을 라이브 방송 클라이언트 및 사용자 클라이언트에서 전시하고, 라이브 방송의 형식을 풍부히 하여, 라이브 방송자와 시청자 사이의 인터렉션을 증가하는데 유리하다.
이해해야 할 것은, 상기 복수 형식의 스트림에 의해, 단계를 재정열, 추가 또는 삭제할 수 있다. 예를 들면, 본 출원에 기재한 각 단계는 병행하여 또는 순차적으로 실행할 수도 있고, 서로 다른 순서로 실행할 수도 있다. 본 출원에서 개시한 기술적 수단이 원하는 결과만 구현할 수 있으면 본 출원에서는 이에 대해 한정하지 않는다.
상기 구체적인 실시 방식은 본 출원의 보호 범위를 한정하지 않는다. 본 발명이 속하는 기술 분야의 통상의 기술자는 설계 요구 및 기타 요소에 의해 여러가지 수정, 조합, 서브 조합 및 대체가 이루어질 수 있음을 이해해야 한다. 본 출원의 정신과 원칙 내에서 이루어진 모든 수정, 동등한 대체 및 개선은 본 출원 보호 범위에 포함된다.

Claims (17)

  1. 라이브 방송의 특수 효과 처리에 있어서
    라이브 방송 클라이언트가 라이브 방송을 할 때 수집한 비디오 스트림을 획득하는 단계;
    상기 라이브 방송 클라이언트가 상기 비디오 스트림의 각 프레임 영상에 대해 인체 인식을 수행하여, 각 프레임 영상 중의 인체 키포인트 위치를 획득하는 단계;
    각 프레임 영상 중의 상기 인체 키포인트 위치에 따라, 가상 물체 템플릿의 타겟 키포인트에 대해 위치 조정을 수행하여, 각 프레임 영상에 대응하는 타겟 가상 물체를 획득하는 단계;
    각 프레임 영상에 대응하는 상기 타겟 가상 물체를, 상기 비디오 스트림에 대응하는 각 프레임 영상에 융합하여, 특수 효과 처리를 거친 타겟 비디오 스트림을 획득하는 단계; 및
    상기 라이브 방송 클라이언트 및 라이브 방송을 시청하는 사용자 클라이언트에 상기 타겟 비디오 스트림을 송신하여 전시하는 단계;를 포함하는,
    것을 특징으로 하는 라이브 방송의 특수 효과 처리 방법.
  2. 제1항에 있어서,
    상기 각 프레임 영상 중의 상기 인체 키포인트 위치에 따라, 가상 물체 템플릿의 타겟 키포인트에 대해 위치 조정을 수행하여, 각 프레임 영상에 대응하는 타겟 가상 물체를 획득하는 단계는,
    각 프레임 영상에 대해, 상기 인체 키포인트 위치에 따라, 키포인트 위치의 객체 관계 매핑를 조회하여, 타겟 위치를 획득하는 단계; 및
    상기 가상 물체 템플릿의 타겟 키포인트를 상기 타겟 위치로 조정하여, 상기 타겟 가상 물체를 획득하는 단계;를 포함하는,
    것을 특징으로 하는 라이브 방송의 특수 효과 처리 방법.
  3. 제2항에 있어서,
    상기 가상 물체 템플릿의 타겟 키포인트를 상기 타겟 위치로 조정하기 전에,
    사용자 영상을 획득하는 단계; 및
    상기 사용자 영상과 상기 타겟 키포인트 위치를 표기한 표준 템플릿을 융합하여, 상기 가상 물체 템플릿을 획득하는 단계;를 더 포함하는,
    것을 특징으로 하는 라이브 방송의 특수 효과 처리 방법.
  4. 제3항에 있어서,
    각 프레임 영상 중의 상기 인체 키포인트 위치에 따라, 가상 물체 템플릿의 타겟 키포인트에 대해 위치 조정을 수행하여, 각 프레임 영상에 대응하는 타겟 가상 물체를 획득하기 전에,
    상기 라이브 방송 클라이언트에서 제어 명령을 획득하는 단계 - 상기 제어 명령은 상기 라이브 방송 클라이언트에서 수행하는 사용자 동작에 응답하여 생성된 것임 - ; 및
    상기 제어 명령에 따라, 상기 표준 템플릿을 결정하는 단계;를 더 포함하는,
    것을 특징으로 하는 라이브 방송의 특수 효과 처리 방법.
  5. 제3항에 있어서,
    상기 사용자 영상을 획득하는 단계는,
    상기 사용자 클라이언트 및 상기 라이브 방송 클라이언트 중의 적어도 하나에서 상기 사용자 영상을 획득하는 단계를 포함하는,
    것을 특징으로 하는 라이브 방송의 특수 효과 처리 방법.
  6. 제1항에 있어서,
    상기 각 프레임 영상에 대응하는 상기 타겟 가상 물체를, 상기 비디오 스트림에 대응하는 각 프레임 영상에 융합하기 전에,
    상기 라이브 방송 클라이언트가 각 프레임 영상을 인식하여 획득한 인체 중심 위치를 획득하는 단계; 및
    상기 각 프레임 영상의 인체 중심 위치에 따라, 상기 타겟 가상 물체가 각 프레임 영상 중의 융합 위치를 결정하는 단계;를 더 포함하는,
    것을 특징으로 하는 라이브 방송의 특수 효과 처리 방법.
  7. 제1항에 있어서,
    상기 각 프레임 영상에 대응하는 상기 타겟 가상 물체를, 상기 비디오 스트림에 대응하는 각 프레임 영상에 융합하기 전에,
    상기 라이브 방송 클라이언트가 각 프레임 영상을 인식하여 획득한 인체 사이즈를 획득하는 단계;
    상기 인체 사이즈에 따라 상기 타겟 가상 물체 사이즈를 조정하는 단계;를 더 포함하는,
    것을 특징으로 하는 라이브 방송의 특수 효과 처리 방법.
  8. 라이브 방송의 특수 효과 처리 장치에 있어서,
    라이브 방송 클라이언트가 라이브 방송을 할 때 수집한 비디오 스트림을 획득하는데 사용되는 제1 획득 모듈;
    상기 라이브 방송 클라이언트가 상기 비디오 스트림의 각 프레임 영상에 대해 인체 인식을 수행하여, 각 프레임 영상 중의 인체 키포인트 위치를 획득하는데 사용되는 제2 획득 모듈;
    각 프레임 영상 중의 상기 인체 키포인트 위치에 따라, 가상 물체 템플릿의 타겟 키포인트에 대해 위치 조정을 수행하여, 각 프레임 영상에 대응하는 타겟 가상 물체를 획득하는데 사용되는 조정 모듈;
    각 프레임 영상에 대응하는 상기 타겟 가상 물체를, 상기 비디오 스트림에 대응하는 각 프레임 영상에 융합하여, 특수 효과 처리를 거친 타겟 비디오 스트림을 획득하는데 사용되는 융합 모듈; 및
    상기 라이브 방송 클라이언트 및 라이브 방송을 시청하는 사용자 클라이언트에 상기 타겟 비디오 스트림을 송신하여 전시하는데 사용되는 송신 모듈;을 포함하는,
    것을 특징으로 하는 라이브 방송의 특수 효과 처리 장치.
  9. 제8항에 있어서,
    상기 조정 모듈은,
    각 프레임 영상에 대해, 상기 인체 키포인트 위치에 따라, 키포인트 위치의 객체 관계 매핑를 조회하여, 타겟 위치를 획득하는데 사용되는 조회 유닛; 및
    상기 가상 물체 템플릿의 타겟 키포인트를 상기 타겟 위치로 조정하여, 상기 타겟 가상 물체을 획득하는데 사용되는 조정 유닛;을 포함하는,
    것을 특징으로 하는 라이브 방송의 특수 효과 처리 장치.
  10. 제9항에 있어서,
    상기 조정 모듈은,
    사용자 영상을 획득하는데 사용되는 획득 유닛; 및
    상기 사용자 영상과 상기 타겟 키포인트 위치를 표기한 표준 템플릿을 융합하여, 상기 가상 물체 템플릿을 획득하는데 사용되는 융합 유닛;을 더 포함하는,
    것을 특징으로 하는 라이브 방송의 특수 효과 처리 장치.
  11. 제9항에 있어서,
    상기 장치는,
    상기 라이브 방송 클라이언트에서 제어 명령을 획득하는데 사용되는 제3 획득 모듈 - 상기 제어 명령은 상기 라이브 방송 클라이언트에서 수행하는 사용자 동작에 응답하여 생성된 것임 -; 및
    상기 제어 명령에 따라, 상기 표준 템플릿을 결정하는데 사용되는 제1 결정 모듈;을 더 포함하는,
    것을 특징으로 하는 라이브 방송의 특수 효과 처리 장치.
  12. 제9항에 있어서,
    상기 획득 유닛은,
    상기 사용자 클라이언트 및 상기 라이브 방송 클라이언트 중의 적어도 하나에서 상기 사용자 영상을 획득하는데 더 사용되는,
    것을 특징으로 하는 라이브 방송의 특수 효과 처리 장치.
  13. 제8항에 있어서,
    상기 장치는,
    상기 라이브 방송 클라이언트가 각 프레임 영상을 인식하여 획득한 인체 중심 위치를 획득하는데 사용되는 제4 획득 모듈; 및
    상기 각 프레임 영상의 인체 중심 위치에 따라, 상기 타겟 가상 물체가 각 프레임 영상 중의 융합 위치를 결정하는데 사용되는 제2 결정 모듈;을 더 포함하는,
    것을 특징으로 하는 라이브 방송의 특수 효과 처리 장치.
  14. 제8항에 있어서,
    상기 장치는,
    상기 라이브 방송 클라이언트가 각 프레임 영상을 인식하여 획득한 인체 사이즈를 획득하는데 사용되는 제4 획득 모듈;
    상기 인체 사이즈에 따라 상기 타겟 가상 물체 사이즈를 조정하는데 사용되는 사이즈 조정 모듈;을 더 포함하는,
    것을 특징으로 하는 라이브 방송의 특수 효과 처리 장치.
  15. 서버에 있어서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 가능하게 연결되는 메모리;를 포함하고,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1항 내지 제7항 중 어느 한 항의 라이브 방송의 특수 효과 처리 방법을 수행하는,
    것을 특징으로 하는 서버.
  16. 컴퓨터 명령이 저장되어 있는 비 일시적 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제7항 중 어느 한 항의 라이브 방송의 특수 효과 처리 방법을 수행하도록 하는,
    것을 특징으로 하는 컴퓨터 명령이 저장되어 있는 비 일시적 컴퓨터 판독 가능 저장 매체.
  17. 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램 중의 명령이 실행될 경우, 제1항 내지 제7항 중 어느 한 항의 라이브 방송의 특수 효과 처리 방법이 수행되는,
    것을 특징으로 하는 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램.
KR1020210082234A 2020-06-28 2021-06-24 라이브 방송의 특수 효과 처리 방법, 장치 및 서버 KR102504459B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010594821.8 2020-06-28
CN202010594821.8A CN111935491B (zh) 2020-06-28 2020-06-28 直播的特效处理方法、装置以及服务器

Publications (2)

Publication Number Publication Date
KR20210089114A true KR20210089114A (ko) 2021-07-15
KR102504459B1 KR102504459B1 (ko) 2023-02-27

Family

ID=73317452

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210082234A KR102504459B1 (ko) 2020-06-28 2021-06-24 라이브 방송의 특수 효과 처리 방법, 장치 및 서버

Country Status (5)

Country Link
US (1) US11722727B2 (ko)
EP (1) EP3896980A1 (ko)
JP (1) JP7341189B2 (ko)
KR (1) KR102504459B1 (ko)
CN (1) CN111935491B (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744414A (zh) * 2021-09-06 2021-12-03 北京百度网讯科技有限公司 图像处理方法、装置、设备和存储介质
CN114007091A (zh) * 2021-10-27 2022-02-01 北京市商汤科技开发有限公司 一种视频处理方法、装置、电子设备及存储介质
WO2024001661A1 (zh) * 2022-06-28 2024-01-04 北京新唐思创教育科技有限公司 视频合成方法、装置、设备和存储介质

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112511849A (zh) * 2020-11-17 2021-03-16 北京达佳互联信息技术有限公司 一种游戏显示方法、装置、设备、系统及存储介质
CN112381928A (zh) * 2020-11-19 2021-02-19 北京百度网讯科技有限公司 图像显示的方法、装置、设备以及存储介质
CN112423022A (zh) * 2020-11-20 2021-02-26 北京字节跳动网络技术有限公司 视频生成及显示方法、装置、设备、介质
CN114640882B (zh) * 2020-12-15 2024-06-28 腾讯科技(深圳)有限公司 视频处理方法、装置、电子设备及计算机可读存储介质
CN112714337A (zh) * 2020-12-22 2021-04-27 北京百度网讯科技有限公司 视频处理方法、装置、电子设备和存储介质
CN113362472B (zh) * 2021-05-27 2022-11-01 百度在线网络技术(北京)有限公司 物品展示方法、装置、设备、存储介质及程序产品
CN113313839B (zh) * 2021-05-27 2022-11-15 百度在线网络技术(北京)有限公司 信息显示方法、装置、设备、存储介质及程序产品
CN113382275B (zh) * 2021-06-07 2023-03-07 广州博冠信息科技有限公司 直播数据的生成方法、装置、存储介质及电子设备
CN113490009B (zh) * 2021-07-06 2023-04-21 广州虎牙科技有限公司 内容信息植入方法、装置、服务器和存储介质
CN113658213B (zh) * 2021-08-16 2023-08-18 百度在线网络技术(北京)有限公司 形象呈现方法、相关装置及计算机程序产品
CN113949834B (zh) * 2021-09-01 2024-06-04 北京新氧万维科技咨询有限公司 一种视频展示方法、装置、电子设备及存储介质
CN113822175B (zh) * 2021-09-03 2023-09-01 西安工程大学 一种基于关键点聚类驱动匹配的虚拟试衣图像生成方法
CN113850746A (zh) * 2021-09-29 2021-12-28 北京字跳网络技术有限公司 图像处理方法、装置、电子设备及存储介质
CN114173142A (zh) * 2021-11-19 2022-03-11 广州繁星互娱信息科技有限公司 对象直播展示方法和装置、存储介质及电子设备
CN114327182B (zh) * 2021-12-21 2024-04-09 广州博冠信息科技有限公司 特效显示方法及装置、计算机存储介质、电子设备
WO2023139757A1 (en) * 2022-01-21 2023-07-27 Nec Corporation Pose estimation apparatus, pose estimation method, and non-transitory computer-readable storage medium
CN114844873B (zh) * 2022-04-11 2024-09-13 神马人工智能科技(深圳)有限公司 基于人工智能的物联网设备视听流实时处理系统
CN114866857A (zh) * 2022-04-18 2022-08-05 佛山虎牙虎信科技有限公司 一种显示方法、装置、直播系统、设备及存储介质
CN115811581A (zh) * 2022-11-14 2023-03-17 百果园技术(新加坡)有限公司 一种特效处理方法、装置、服务器、存储介质及程序产品
CN116030191B (zh) * 2022-12-21 2023-11-10 北京百度网讯科技有限公司 用于展示虚拟对象的方法、装置、设备及介质
CN115942030A (zh) * 2022-12-22 2023-04-07 网易(杭州)网络有限公司 直播的方法、直播的装置、介质及电子设备
CN116456131B (zh) * 2023-03-13 2023-12-19 北京达佳互联信息技术有限公司 特效渲染方法、装置、电子设备及存储介质
CN117593449B (zh) * 2023-11-07 2024-08-23 书行科技(北京)有限公司 人-物交互运动视频的构建方法、装置、设备及存储介质
CN117880590A (zh) * 2024-01-22 2024-04-12 镇江安健影像有限公司 图像数据播放策略智能调节系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101856629B1 (ko) * 2010-06-03 2018-05-10 메베 뷰컴 에이비 실물 크기 비디오 회의용 스튜디오 및 시스템
US20180225517A1 (en) * 2017-02-07 2018-08-09 Fyusion, Inc. Skeleton detection and tracking via client-server communication
KR101894956B1 (ko) * 2017-06-21 2018-10-24 주식회사 미디어프론트 실시간 증강 합성 기술을 이용한 영상 생성 서버 및 방법
CN108712661A (zh) * 2018-05-28 2018-10-26 广州虎牙信息科技有限公司 一种直播视频处理方法、装置、设备及存储介质
KR20190094254A (ko) * 2017-10-13 2019-08-12 파이유션, 인크. 골격-기반 효과들 및 배경 대체
US20200134305A1 (en) * 2018-10-24 2020-04-30 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus, and device for identifying human body and computer readable storage medium

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105959718A (zh) * 2016-06-24 2016-09-21 乐视控股(北京)有限公司 一种视频直播中实时互动的方法及装置
US10089793B2 (en) 2016-09-02 2018-10-02 Russell Holmes Systems and methods for providing real-time composite video from multiple source devices featuring augmented reality elements
CN106803966B (zh) 2016-12-31 2020-06-23 北京星辰美豆文化传播有限公司 一种多人网络直播方法、装置及其电子设备
JP2018116537A (ja) 2017-01-19 2018-07-26 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP6517255B2 (ja) 2017-02-27 2019-05-22 Kddi株式会社 キャラクタ画像生成装置、キャラクタ画像生成方法、プログラム、記録媒体及びキャラクタ画像生成システム
CN106993195A (zh) * 2017-03-24 2017-07-28 广州创幻数码科技有限公司 虚拟人物角色直播方法及系统
JP6946724B2 (ja) 2017-05-09 2021-10-06 ソニーグループ株式会社 クライアント装置、クライアント装置の処理方法、サーバおよびサーバの処理方法
WO2019087014A1 (ru) * 2017-10-30 2019-05-09 ГИОРГАДЗЕ, Анико Тенгизовна Взаимодействие пользователей посредством потокового вещания данных дополненной реальности
CN108769535B (zh) * 2018-07-04 2021-08-10 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质和计算机设备
CN108898118B (zh) * 2018-07-04 2023-04-18 腾讯科技(深圳)有限公司 一种视频数据处理方法、装置和存储介质
CN109191548A (zh) * 2018-08-28 2019-01-11 百度在线网络技术(北京)有限公司 动画制作方法、装置、设备及存储介质
JP6718933B2 (ja) 2018-09-11 2020-07-08 株式会社コロプラ プログラム、情報処理装置、および方法
CN111200747A (zh) 2018-10-31 2020-05-26 百度在线网络技术(北京)有限公司 基于虚拟形象的直播方法和装置
CN109660818A (zh) * 2018-12-30 2019-04-19 广东彼雍德云教育科技有限公司 一种虚拟互动直播系统
JP6609078B1 (ja) 2019-03-28 2019-11-20 株式会社ドワンゴ コンテンツ配信システム、コンテンツ配信方法、およびコンテンツ配信プログラム
JP6683864B1 (ja) 2019-06-28 2020-04-22 株式会社ドワンゴ コンテンツ制御システム、コンテンツ制御方法、およびコンテンツ制御プログラム
CN110766777B (zh) * 2019-10-31 2023-09-29 北京字节跳动网络技术有限公司 虚拟形象的生成方法、装置、电子设备及存储介质
CN110796721A (zh) * 2019-10-31 2020-02-14 北京字节跳动网络技术有限公司 虚拟形象的颜色渲染方法、装置、终端及存储介质
CN111010589B (zh) 2019-12-19 2022-02-25 腾讯科技(深圳)有限公司 基于人工智能的直播方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101856629B1 (ko) * 2010-06-03 2018-05-10 메베 뷰컴 에이비 실물 크기 비디오 회의용 스튜디오 및 시스템
US20180225517A1 (en) * 2017-02-07 2018-08-09 Fyusion, Inc. Skeleton detection and tracking via client-server communication
KR101894956B1 (ko) * 2017-06-21 2018-10-24 주식회사 미디어프론트 실시간 증강 합성 기술을 이용한 영상 생성 서버 및 방법
KR20190094254A (ko) * 2017-10-13 2019-08-12 파이유션, 인크. 골격-기반 효과들 및 배경 대체
CN108712661A (zh) * 2018-05-28 2018-10-26 广州虎牙信息科技有限公司 一种直播视频处理方法、装置、设备及存储介质
US20200134305A1 (en) * 2018-10-24 2020-04-30 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus, and device for identifying human body and computer readable storage medium

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744414A (zh) * 2021-09-06 2021-12-03 北京百度网讯科技有限公司 图像处理方法、装置、设备和存储介质
CN114007091A (zh) * 2021-10-27 2022-02-01 北京市商汤科技开发有限公司 一种视频处理方法、装置、电子设备及存储介质
WO2024001661A1 (zh) * 2022-06-28 2024-01-04 北京新唐思创教育科技有限公司 视频合成方法、装置、设备和存储介质

Also Published As

Publication number Publication date
EP3896980A1 (en) 2021-10-20
CN111935491A (zh) 2020-11-13
KR102504459B1 (ko) 2023-02-27
JP2021157835A (ja) 2021-10-07
JP7341189B2 (ja) 2023-09-08
CN111935491B (zh) 2023-04-07
US20210321157A1 (en) 2021-10-14
US11722727B2 (en) 2023-08-08

Similar Documents

Publication Publication Date Title
KR102504459B1 (ko) 라이브 방송의 특수 효과 처리 방법, 장치 및 서버
CN110636353B (zh) 一种显示设备
US8745258B2 (en) Method, apparatus and system for presenting content on a viewing device
US10311917B2 (en) Systems and methods for featuring a person in a video using performance data associated with the person
US20200388068A1 (en) System and apparatus for user controlled virtual camera for volumetric video
JP7270661B2 (ja) ビデオの処理方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
JP2018036955A (ja) 画像処理装置、画像処理方法及びプログラム
TW202304212A (zh) 直播方法、系統、電腦設備及電腦可讀儲存媒體
CN111935528A (zh) 视频生成方法和装置
CN112073770B (zh) 显示设备及视频通讯数据处理方法
CN113655887A (zh) 一种虚拟现实设备及静态录屏方法
WO2022074294A1 (en) Network-based spatial computing for extended reality (xr) applications
US20240137588A1 (en) Methods and systems for utilizing live embedded tracking data within a live sports video stream
CN114339405A (zh) Ar视频数据流远程制作方法及装置、设备、存储介质
CN114302221B (zh) 一种虚拟现实设备及投屏媒资播放方法
CN114363705A (zh) 一种增强现实设备及交互增强方法
CN108320331B (zh) 一种生成用户场景的增强现实视频信息的方法与设备
WO2024027611A1 (zh) 视频直播方法、装置、电子设备以及存储介质
CN110300118B (zh) 流媒体处理方法、装置及存储介质
Méndez et al. New distributed virtual TV set architecture for a synergistic operation of sensors and improved interaction between real and virtual worlds
US20210392394A1 (en) Method and apparatus for processing video, electronic device and storage medium
KR101865161B1 (ko) 방송 촬영 방법 및 장치
CN116962746A (zh) 基于连麦直播的线上合唱方法、装置及线上合唱系统
CN115129280A (zh) 一种虚拟现实设备及投屏媒资播放方法
CN114286077A (zh) 一种虚拟现实设备及vr场景图像显示方法

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant