KR102135215B1 - 정보 처리 방법 및 단말 - Google Patents

정보 처리 방법 및 단말 Download PDF

Info

Publication number
KR102135215B1
KR102135215B1 KR1020187026680A KR20187026680A KR102135215B1 KR 102135215 B1 KR102135215 B1 KR 102135215B1 KR 1020187026680 A KR1020187026680 A KR 1020187026680A KR 20187026680 A KR20187026680 A KR 20187026680A KR 102135215 B1 KR102135215 B1 KR 102135215B1
Authority
KR
South Korea
Prior art keywords
information
media information
sticker
media
video
Prior art date
Application number
KR1020187026680A
Other languages
English (en)
Other versions
KR20180112848A (ko
Inventor
첸이 왕
양강 다이
레이 잉
파챵 우
링루이 추이
젠하이 우
유 가오
Original Assignee
텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 filed Critical 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Publication of KR20180112848A publication Critical patent/KR20180112848A/ko
Application granted granted Critical
Publication of KR102135215B1 publication Critical patent/KR102135215B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/4104Peripherals receiving signals from specially adapted client devices
    • H04N21/4126The peripheral being portable, e.g. PDAs or mobile phones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/4104Peripherals receiving signals from specially adapted client devices
    • H04N21/4122Peripherals receiving signals from specially adapted client devices additional display device, e.g. video projector
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/414Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
    • H04N21/41407Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance embedded in a portable device, e.g. video client on a mobile phone, PDA, laptop
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4334Recording operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/62Control of parameters via user interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • H04N5/23216
    • H04N5/23219
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program

Abstract

정보 처리 방법 및 단말이 개시된다. 상기 방법은, 단말이, 제1 동작을 획득하여 제1 미디어 정보의 수집을 트리거하는 단계; 상기 제1 미디어 정보를 수집하는 동안에, 단말이 사람 얼굴 영역에서 미리 설정된 조건을 만족하는 표정 변화 또는 획득 프레임에서 사용자 행동 변화를 검출하는 경우, 획득된 변화량을 키 정보로서 서버에 보고하는 단계; 상기 단말이, 상기 서버에 의해 푸시되고 상기 키 정보에 대응하는 제2 미디어 정보를 수신하는 단계; 및 상기 제1 미디어 정보 및 상기 제2 미디어 정보에 대한 비디오 합성을 수행하는 단계를 포함한다.

Description

정보 처리 방법 및 단말
본 출원은 2016년 3월 14일자로 중국 특허청에 제출되고 발명의 명칭이 "정보 처리 방법 및 단말"인 중국 특허 출원 제201610143985.2호에 대한 우선권을 주장하는 바이며, 상기 문헌의 내용은 그 전체로서 원용에 의해 본 명세서에 포함된다.
본 출원은 통신 기술에 관한 것으로, 더욱 상세하게 말하자면, 정보 처리 방법 및 단말에 관한 것이다.
일반적으로 보이는 정보(seen information) 처리 솔루션은 모바일 폰과 같은 단말에서 애플리케이션을 사용하여 사용자가 비디오를 레코딩(record)하고, 레코딩된 비디오를 공유하는 것이다. 비디오 콘텐츠에 상관되거나(correlated) 상관되지 않은 다른 정보가 레코딩된 비디오에 추가됨으로써, 합성 비디오(synthetic video)가 획득될 수 있다.
합성 비디오를 획득하기 위해서, 다른 정보를 추가하는 동작(operation)이 수행되어야 하며, 이는 매우 복잡하고, 사용자가 재료 라이브러리(material library)로부터 이들 정보를 선택해야 한다. 예를 들어, 사용자는 재료 라이브러리로부터 비디오 컨텐츠의 비디오 정보와 상관된 정보를 선택해야 한다. 선택된 정보가 상관 요구 사항을 만족하여도, 정보가 비디오 콘텐츠에 추가될 위치 및 시점(time point)과 같은 요소(factor)가 추가로 고려되어야 한다. 이러한 상호 작용(interaction) 모드는 매우 복잡하며 여러 번의 상호 작용이 필요하며, 이는 확실히 낮은 처리 효율로 이어진다. 게다가, 반복되는 상호 작용으로 인해, 처리의 시간 비용(cost)이 매우 높아지고, 합성 비디오의 최종적으로 획득된 효과가 거의 만족스럽지 않으며, 실제 사용자 요구 사항을 충족시키지 못하고, 사용자가 다시 합성을 수행할 수 있다. 이와 같이 단말을 사용하여 비디오 합성을 수행하는 정보 처리 비용이 계속 증가하게 된다. 그러나 관련 기술에서 이 문제에 대한 효과적인 해결방안이 없다.
이러한 관점에서, 본 출원의 실시 예는 기존 기술에 존재하는 문제점을 적어도 해결하기 위한 정보 처리 방법 및 단말을 제공한다.
본 출원의 측면에 따르면, 정보 처리 방법이 제공되고, 상기 방법은
단말이, 제1 동작(operation)을 획득하여 제1 미디어 정보의 수집을 트리거하는 단계;
상기 제1 미디어 정보를 수집하는 동안에, 얼굴 영역에서 미리 설정된 조건을 만족하는 표정(expression) 변화 또는 수집 박스(box)에서 미리 설정된 조건을 만족하는 사용자 행동(action) 변화를 검출하는 경우, 상기 단말이, 상기 검출된 표정 변화 또는 사용자 행동 변화의 변화량을 키(key) 정보로서 서버에 보고하는 단계;
상기 단말이, 상기 키 정보에 대응하고 상기 서버에 의해 푸시된(pushed) 제2 미디어 정보를 수신하는 단계; 및
상기 제1 미디어 정보 및 상기 제2 미디어 정보에 대한 비디오 합성(video synthesis)을 수행하는 단계를 포함한다.
본 출원의 다른 측면에 따르면, 단말이 제공되고, 상기 단말은,
제1 동작을 획득하여 제1 미디어 정보의 수집을 트리거하도록 구성된 트리거 유닛;
상기 제1 미디어 정보를 수집하는 동안에, 얼굴 영역에서 미리 설정된 조건을 만족하는 표정 변화 또는 수집 박스에서 미리 설정된 조건을 만족하는 사용자 행동 변화를 검출하는 경우, 상기 검출된 표정 변화 또는 사용자 행동 변화의 변화량을 키 정보로서 서버에 보고하도록 구성된 검출 유닛;
상기 키 정보에 대응하고 상기 서버에 의해 푸시된 제2 미디어 정보를 수신하도록 구성된 수신 유닛; 및
상기 제1 미디어 정보 및 상기 제2 미디어 정보에 대한 비디오 합성을 수행하도록 구성된 합성 유닛을 포함한다.
본 출원의 다른 측면에 따르면 비휘발성 저장 매체가 제공되며, 상기 비휘발성 저장 매체는 프로그램을 저장하며, 상기 비휘발성 저장 매체에 저장된 상기 프로그램이 적어도 하나의 프로세서를 포함하는 컴퓨터 디바이스에 의해 실행되는 경우, 상기 프로그램이 상기 컴퓨터 디바이스가 전술한 상기 정보 처리 방법을 수행하도록 할 수 있다.
본 출원의 실시 예에서 상기 정보 처리 방법은, 단말이, 제1 동작을 획득하여 제1 미디어 정보의 수집을 트리거하는 단계; 상기 제1 미디어 정보를 수집하는 동안에, 얼굴 영역에서 미리 설정된 조건을 만족하는 표정 변화 또는 수집 박스에서 미리 설정된 조건을 만족하는 사용자 행동 변화를 검출하는 경우, 상기 단말이, 획득된 변화량을 키 정보로서 서버에 보고하는 단계; 상기 단말이, 상기 키 정보에 대응하고 상기 서버에 의해 푸시된 제2 미디어 정보를 수신하는 단계; 및 상기 제1 미디어 정보 및 상기 제2 미디어 정보에 대한 비디오 합성을 수행하는 단계를 포함한다.
본 출원의 실시 예에 의해, 제1 미디어 정보를 실시간으로 수집하는 동안에 표정 변화 또는 사용자 행동 변화가 검출되는 경우, 대응하는 제2 미디어 정보가 변화량에 기초하여 서버로부터 획득되며, 미리 설정된 구성에 따라 제1 미디어 정보 및 제2 미디어 정보에 대한 비디오 합성이 수행됨으로써, 제1 미디어 정보의 수집이 종료된 후에 합성 비디오가 재생된다. 합성 비디오에서, 대응하는 제2 미디어 정보가 제1 미디어 정보의 지정된 위치 및 지정된 시간에 디스플레이된다. 사용자는 제2 미디어 정보를 수동으로 선택하여 추가할 필요가 없으므로, 동작 절차가 간단해지고 처리 효율이 향상되며; 제1 미디어 정보를 수집하는 동안 획득된 검출 결과(예를 들어, 표정 변화 또는 사용자 행동 변화)에 따라 요청을 수행하는 것에 의해 획득된 대응하는 제2 미디어 정보가 또한 실제 사용자 요구 사항을 보다 잘 충족시킨다. 전술한 방법에 의해, 첫째, 제2 미디어 정보의 컨텐츠가 상대적으로 정확하며, 둘째로, 제2 미디어 정보가 발생하는 위치 및 시간은 또한 표정 변화 또는 사용자 행동 변화와 같은 검출 결과와 매치(match)될 수 있다. 따라서 위치와 시점도 정확하다. 여러 번에 걸친 상호 작용이 줄어들 뿐만 아니라 재조정 및 재합성이 후속적으로 수행될 필요가 없으며, 이에 따라 정보 처리 비용과 비디오 합성의 시간 비용을 감소시킬 수 있다.
도 1은 본 출원의 실시 예에 따른 정보 상호 작용을 수행하는 모든 당사자의 하드웨어 엔티티의 개략도이다.
도 2는 본 출원의 실시 예 1에 따른 구현 절차의 개략도이다.
도 3은 본 출원의 실시 예가 적용되는 애플리케이션 시나리오의 개략도이다.
도 4는 본 출원의 실시 예가 적용되는 비디오 레코딩(recording)을 트리거링하는 개략도이다.
도 5 내지도 6은 기존 기술이 이용되는 복수의 시나리오의 개략도이다.
도 7 내지 도 12는 본 출원의 실시 예가 적용되는 복수의 시나리오의 개략도이다.
도 13은 본 출원의 실시 예 2에 따른 구현 절차의 개략도이다.
도 14는 본 출원의 실시 예 3에 따른 구성 구조(compositional structures)의 개략도이다.
도 15는 본 출원의 실시 예 4에 따른 하드웨어의 구성 구조의 개략도이다.
도 16은 RGB와 투명도(transparency)가 별도로 저장되고 본 출원의 실시 예가 적용되는 시나리오의 개략도이다.
도 17은 본 출원의 실시 예가 적용되는 예의 체계적인 구조도이다.
기술적 해결 방안의 구현은 첨부된 도면을 참조하여 이하에서 더 상세히 설명된다.
도 1은 본 출원의 실시 예에 따른 정보 상호 작용을 수행하는 모든 당사자(party)의 하드웨어 엔티티의 개략도이다. 도 1에서, 서버(11)와 단말 디바이스(21, 22, 23, 24)가 포함된다. 단말 디바이스(21, 22, 23, 24)는 유선 네트워크 또는 무선 네트워크를 사용하여 서버와 정보를 교환한다. 단말 디바이스는 모바일 폰, 데스크톱 컴퓨터, 퍼스널 컴퓨터(personal computer, PC), 복합기(all-in-one machine) 등을 포함할 수 있다. 사용자의 일일 요구 사항 및 작업(working) 요구 사항을 만족하는 다수의 애플리케이션이 단말 디바이스에 설치된다. 사용자가 사진 촬영 및 비디오 레코딩(recording)을 좋아한다면, 사용자는 사진 처리 애플리케이션 및 비디오 처리 애플리케이션과 같은 애플리케이션을 단말 디바이스에 설치할 수 있으며; 소셜 네트워킹 및 공유에 대한 요구 사항을 벗어나는 소셜 애플리케이션을 설치할 수도 있다. 또한, 사진 처리 애플리케이션과 비디오 처리 애플리케이션을 사용하여 획득된 처리 결과의 정보는 소셜 애플리케이션을 사용하여 공유될 수 있다. 본 출원의 실시 예를 사용하는 것에 의해, 도 1에 도시된 시스템에 기반하여, 단말 디바이스는 주기적으로 각각의 애플리케이션의 업데이트 데이터 패킷을 서버로부터 획득하고, 업데이트 데이터 패킷을 국부적으로 저장한다. 단말 디바이스가 애플리케이션을 사용할 필요가 있는 경우, 단말 디바이스는 애플리케이션(예를 들어, 비디오 처리 애플리케이션)을 인에이블시키고, 비디오를 레코딩하는 것을 인에이블시키는 동작과 같은 제1 동작(operation)을 획득하며, 이에 따라, 예를 들어, 비디오의 제1 미디어 정보의 수집을 트리거링(triggering)한다. 제1 미디어 정보를 수집하는 동안, 얼굴 영역에서 미리 설정된 조건을 만족하는 표정 변화 또는 수집 박스(box)에서 미리 설정된 조건을 만족하는 사용자 행동 변화를 검출하는 경우, 단말 디바이스는 획득된 변화량을 키 정보로서 서버에 보고한다. 예를 들어, 얼굴 영역에서의 표정 변화는 미소(smile)일 수 있으며, 사용자 행동 변화는 눈을 깜박이거나 V 기호를 몸짓으로 나타내는 것(gesturing a V sign)일 수 있다. 단말은, 키 정보에 대응하며 서버에 의해 푸시된 스티커(sticker)와 같은 제2 미디어 정보를 수신하고; 제1 미디어 정보 및 제2 미디어 정보에 대한 비디오 합성을 수행한다. 본 출원의 실시 예에 의해, 제1 미디어 정보를 실시간으로 수집하는 동안에 표정 변화 또는 사용자 행동 변화가 검출되는 경우, 대응하는 제2 미디어 정보가 변화량에 기초하여 서버로부터 획득되고, 비디오 합성이 제1 미디어 정보 및 제2 미디어 정보에 대해 수행됨으로써, 제1 미디어 정보의 수집이 종료된 후에, 합성 비디오가 재생된다. 합성 비디오에서, 대응하는 제2 미디어 정보가 제1 미디어 정보의 지정된 위치 및 지정된 시간에 디스플레이된다. 사용자는 제2 미디어 정보를 수동으로 선택하여 추가할 필요가 없으므로, 동작 절차가 간단해지고 처리 효율이 향상되며; 제1 미디어 정보를 수집하는 동안 획득된 검출 결과(예를 들어, 표정 변화 또는 사용자 행동 변화)에 따라 요청을 수행하는 것에 의해 획득된, 대응하는 제2 미디어 정보는 또한 실제 사용자 요구 사항을 보다 잘 충족시킨다. 전술한 방법에 의해, 첫째, 제2 미디어 정보의 컨텐츠는 상대적으로 정확하며; 둘째로, 제2 미디어 정보가 발생하는 위치 및 시간은 또한 표정 변화 또는 사용자 행동 변화와 같은 검출 결과와 매치될 수 있다. 따라서 위치와 시점도 정확하다. 여러 번에 걸친 상호 작용이 감소될뿐만 아니라 재조정 및 재합성이 후속적으로 수행될 필요가 없으므로, 정보 처리 비용과 비디오 합성의 시간 비용을 줄일 수 있다.
도 1의 전술한 예는 단지 본 출원의 실시 예를 구현하기 위한 체계적인 아키텍처의 일 예에 불과하지만, 본 출원의 실시 예는 도 1에 도시된 체계적인 구조에 한정되지 않는다. 본 출원의 모든 실시 예는 체계적인 아키텍처에 기초하여 제공된다.
실시 예 1
본 출원의 본 실시 예에 따른 정보 처리 방법이 도 1에 도시된다. 상기 방법은 다음의 단계들을 포함한다.
단계 101 : 단말은 제1 동작을 획득하여 제1 미디어 정보의 수집을 트리거한다.
애플리케이션 시나리오에서, 도 3에 도시된 바와 같이, 소파에 누워 있는 사용자가 모바일 폰(11)과 같은 단말 디바이스를 사용하고 있다. 모바일 폰(11)의 사용자 인터페이스는 도 4에 도시되어 있으며, 예를 들어, 음악 재생 아이콘, 기능 설정 아이콘 그리고 이메일 수신 및 송신 아이콘과 같은 다양한 타입의 애플리케이션 아이콘을 포함한다. 사용자는 제1 동작, 예를 들어 손가락으로 A1으로 표시된(marked) 비디오 처리 애플리케이션 아이콘을 탭(tap)하는 것을 수행하고, 비디오 레코딩의 처리 과정에 진입하여, 예를 들어 제1 미디어 정보의 수집을 트리거한다. 예를 들어, 사용자는 실내 시나리오(indoor scenario)를 레코딩하거나 셀카(selfie) 등을 수행할 수 있다.
단계(102): 제1 미디어 정보를 수집하는 동안 얼굴 영역에서 미리 설정된 조건을 만족하는 표정 변화 또는 수집 박스에서 미리 설정된 조건을 만족하는 사용자 행동 변화를 검출하는 경우, 단말은 획득된 변화량을 키 정보로서 서버에 보고한다.
여기서, 단계(101)의 애플리케이션 시나리오를 참조하여, 비디오 레코딩의 처리 과정에서, 단말은 얼굴 인식 및 위치결정(positioning) 메커니즘과 표정(expression) 인식 메커니즘을 사용하여 얼굴 영역에서 미소, 울음, 찌푸리기(frown)와 같은 표정 변화를 캡쳐(capture)할 수 있다. 또한, 단말 디바이스는 다르게는 수집 박스(또는 프레이밍(framing) 박스로 지칭됨)에서 V 기호를 몸짓으로 나타내는 것과 같은 사용자 행동 변화를 검출할 수도 있다. 이러한 검출은 얼굴 영역에서 수행되는 것으로 한정되지 않는다. 결합된 인식이 얼굴 영역에서의 표정 변화 및 사용자 행동 변화에 대해 추가로 수행될 수 있다. 예를 들어, V 기호와 얼굴 표정의 미소의 조합에 대해 결합된 인식이 수행된다.
얼굴 인식 기술은 비디오 레코딩 동안 사람의 얼굴 특징에 기초하여 얼굴 이미지 또는 비디오 스트림을 수집하는 것이다. 얼굴 인식 동안에, 먼저, 비디오 스트림에 얼굴이 있는지가 결정된다. 얼굴이 있으면, 얼굴의 위치 및 크기가 추가로 제공되고, 주요 안면 기관의 위치 정보가 위치결정됨으로써, 얼굴 상의 오감 기관(five sense organs)의 각각의 위치 및 초기 형태(form)가 획득된다. 형태가 변화하는 경우, 예를 들어, 사람이 웃는 경우, 윗 입술과 아래 입술의 위치가 초기 형태에 비해 변위(displacement) 및 형태 변화를 일으킬 것이며, 이는 얼굴의 오감 기관의 얼굴 표정이 변화함을 나타낸다. 표정에서의 변화는 또한 표정 인식 메커니즘을 사용하여 인식될 수 있다. 본 출원의 실시 예에서의 얼굴 인식은 종래의 얼굴 인식과 상이하다. 종래의 얼굴 인식은 얼굴 인식 시스템을 구성하여 사용자 신원(identity)을 인식하고, 인식된 얼굴을 알려진 얼굴과 비교하여 신원 확인 및 신원 검색을 용이하게 하는 것이다.
표정 인식 프로세스는 4개의 위상(phase), 즉 얼굴 이미지 획득 및 전처리; 얼굴 검출; 표정 특징 추출; 및 표정 분류를 포함할 수 있다. 얼굴 인식 및 위치결정 메커니즘만 사용되면, 부정확성 문제가 있을 수 있다. 그러나 표정 인식 메커니즘은 보다 정확한 처리 정책이다. 표정 인식은 얼굴 인식과 밀접한 상관 관계가 있다. 예를 들어, 얼굴 검출 동안의 위치결정은 얼굴 추적(tracking)과 같은 링크에서의 위치결정과 유사하지만, 특징 추출에서 차이가 있다. 예를 들어, 얼굴 인식 특징 추출 동안에, 주로 관심은 상이한 얼굴의 개인차(individual differences) 및 특징에 대해 집중되며, 얼굴 표정은 간섭 신호로서 존재한다. 따라서, 얼굴 인식 동안에 얼굴 표정에 너무 많은 주의를 기울이지 않는다. 그러나 본 출원의 본 실시 예에서, 대응하는 제2 미디어 정보를 트리거하기 위해, 표정의 변화에 주의를 기울여야 하므로, 개인차가 무시될 수 있지만, 상이한 표정 모드에서의 얼굴의 차동 특징(differential features)의 특징 추출에 주의를 기울인다. 표정 인식은 개인차와 결합될 수 있거나, 개인차가 간섭 신호로서 처리되어 표정 인식 정밀도를 향상시킬 수 있으며, 즉, 개인차에 너무 많은 주의를 기울이지 않는다. 특징 추출은 얼굴 표정 인식 동안의 핵심 단계이며, 최종 인식 결과를 결정하고 인식률 값에 영향을 준다. 특징 추출은 정적 이미지(static image) 특징 추출 및 움직이는 이미지(moving image) 특징 추출을 포함할 수 있다. 정적 이미지 특징 추출의 관점에서, 표정의 형태 변화 특징(또는 표정의 일시적 특징(transient features)이라고 지칭됨)가 추출된다. 움직이는 이미지 특징 추출의 관점에서, 각 프레임에서의 표정의 형태 변화 특징이 움직이는 이미지에 대해 추출될 필요가 있을 뿐만 아니라, 연속적인 시퀀스의 움직임(motion) 특징이 추출될 필요가 있다. 형태 변화 특징의 추출은 중립적인 표정 또는 모델에 의존할 수 있으므로, 생성된 표정이 중립적 표정과 비교되어 형태 변화 특징을 추출하다. 그러나 움직이는 특징의 추출은 표정에 의해 생성된 얼굴 변화에 직접 의존한다. 표정은 다양한 분류 방식을 가진다. 예를 들어, 표정은, 1)이후의 매칭 및 인식을 위한 상이한 얼굴 표정 이미지 라이브러리를 설정하기 위해 기본 표정에 따른 행복, 슬픔, 놀람, 두려움, 분노, 혐오감 등 그리고 2) 감정에 따른 기쁨, 슬픔, 흥분, 평온(calmness), 불안(anxiety), 안심(relief) 등으로 분류된다.
단계(103): 단말은, 키 정보에 대응하고 서버에 의해 푸시된 제2 미디어 정보를 수신한다.
본 단계의 구체적 구현은: 키 정보를 서버로 송신하는 단계(102) 후에, 서버가 키 정보에 따른 매칭에 의해 재료 라이브러리로부터 스티커 정보와 같은 대응하는 제2 미디어 정보를 발견하고, 제2 미디어 정보를 단말로 푸시함으로써, 단계(S104)에서 제1 미디어 정보 및 제2 미디어 정보에 대한 비디오 합성이 연속적으로 수행되는 것일 수 있다. 사용자는 스티커 정보를 수동으로 선택할 필요가 없으나, 키 정보에 따라 매칭이 수행된 후에 스티커 정보는 자동적으로 단말로 푸시된다. 제1 미디어 정보(예를 들어, 비디오)를 수집하는 동안, 단말은 비디오 처리 결과를 자동으로 합성(예를 들어, 비디오 및 스티커 정보를 중첩함(superposes))하고, 제1 미디어 정보(예를 들어, 비디오)의 지정된 위치 및 지정된 시간에 스티커 정보를 디스플레이한다.
단계(104): 제1 미디어 정보 및 제2 미디어 정보에 대한 비디오 합성을 수행한다.
본 출원의 본 실시 예의 구현 예에서, 키 정보는 제1 미디어 정보에서의 텍스트 정보를 더 포함한다.
상기 정보 처리 방법은 제1 미디어 정보를 수집하는 동안 텍스트 정보를 검출하고, 검출된 텍스트 정보를 키 정보로서 서버에 보고하는 단계를 더 포함한다.
기존 기술에서, 도 5에 도시된 텍스트 정보가, 구체적으로 비디오 정보에 포함된 A2로 표시된 텍스트 정보 "부밍(Booming)"을 포함한다. 비디오 정보의 레코딩이 종료된 후에, A2'로 표시된 스티커 정보 "부밍(Booming)"이 추가된다. 스티커 정보는 단말과 서버간의 여러 번 상호 작용에 의해 수동으로 서버의 재료 라이브러리로부터 선택된다. 이어서, 스티커 정보가 레코딩된 비디오 정보에 추가된다.
도 6은 기존 기술의 다른 애플리케이션 시나리오를 도시한다. 구체적으로, 비디오 정보는 A3로 표시된 텍스트 정보 "남자 친구(Boyfriend)"를 포함한다. 비디오 정보의 레코딩이 종료된 후에, A3'로 표시된 스티커 정보 "남자 친구"가 추가된다. 스티커 정보는 단말과 서버 간의 여러번 상호 작용에 의해 수동으로 서버의 재료 라이브러리로부터 선택된다. 이어서, 스티커 정보가 레코딩된 비디오 정보에 추가된다. 이러한 처리는 매우 복잡하며 여러 번의 사용자 상호 작용이 필요하며, 사용자는 이후에 발견되는 스티커가 실제로 필요하지 않을 수 있다. 사용자가 실제로 스티커가 필요하더라도, 사용자는 예를 들어, 비디오 정보의 적절한 위치로 스티커를 이동하는 등 스티커를 레코딩된 비디오 정보에 수동적으로 추가하여야 한다.
본 출원의 실시 예에 의해, 도 7에 도시된 비디오는 A4로 표시된 "많이 먹어도 날씬해지기(Eat a lot but get thin)"의 텍스트 정보를 포함하며, 텍스트 정보는 키 정보로서 서버에 송신된다. 키 정보를 토대로 획득된 매칭 스티커 정보는 A4'로 표시된다. 도 8에 도시된 비디오는 A5로 표시된 텍스트 정보 "남자 친구"를 포함하고, 텍스트 정보는 키 정보로서 서버에 송신된다. 키 정보를 토대로 획득된 매칭 스티커 정보는 A5'로 표시된다. 도 7 및 도 8에서, B1은 비디오 레코딩 동안 제어 버튼을 표시하는데 사용되고, B2는 비디오 레코딩이 종료된 후 재생 버튼을 표시하는데 사용된다. 도 9에 도시된 바와 같이, 도 9는 비디오 레코딩 동안에 적절한 위치 및 시점에서 비디오 합성이 스티커 정보와 비디오에 대해 수행된 후에 비디오를 재생하는 개략도이다.
도 9에서, "봄 축제 기간 동안 여자들이 많이 먹어도 날씬해지기를 바랍니다(May you girls eat a lot but get thin during the Spring Festival)"의 오디오가 레코딩된 비디오 정보에서 대응하여 재생되는 경우, 비디오 인터페이스는 오디오에 대응하는 텍스트 정보를 디스플레이할 수 있다. 이때, 비디오 인터페이스는 합성 스티커 정보를 추가로 디스플레이할 수 있으며, 이는 스크롤(scroll) 형태로 열리고 디스플레이된 "많이 먹어도 날씬해지기"이라는 동적 스티커 효과이다. 도 10은 본 출원의 실시 예에 따른 비디오 레코딩 동안 적절한 위치 및 시점에서 비디오 합성이 스티커 정보 및 비디오에 대해 수행된 후에 비디오를 재생하는 다른 개략도이다. "많은 연간 보너스(Much annual bonus)"의 오디오가 레코딩된 비디오 정보에 대응하여 재생되는 경우, 비디오 인터페이스는 오디오에 대응하는 텍스트 정보를 디스플레이할 수 있다. 이때, 비디오 인터페이스는 합성 스티커 정보를 추가로 디스플레이하여, 엔(
Figure 112018091597284-pct00001
)과 같은 통화 단위의 지시자(indicator)와 결합하여 동적 스티커 효과에 "많은 연간 보너스"를 디스플레이함으로써, 지시자가 텍스트 "많은 연간 보너스"와 결합된다.
레코딩된 비디오가 텍스트 정보 "많은 연간 보너스"를 가지는 경우, 대응하는 콘텐츠의 스티커 정보가 도 10에서와 같이 디스플레이되는 것 이외에, 얼굴 표정 또는 사용자 행동을 인식하는 것에 의해 다른 스티커 형태가 추가로 획득될 수 있다. 도 11에 도시된 바와 같이, A6으로 표시된 "많은 연간 보너스"의 오디오가 레코딩된 비디오 정보에서 재생되는 경우, 사용자 행동은 오디오와 결합될 수 있다. 예를 들어, 사용자 행동은 사용자가 기쁨으로 눈을 깜박이는 것일 수 있다. 이 경우, 도 10에 도시된 스티커 정보를 디스플레이하는 것 이외에, 비디오 인터페이스가 "기쁨으로 눈을 깜박임"의 시간 세그먼트 내에 다른 스티커 정보를 더 디스플레이할 수 있다. 다른 스티커 정보는, 예를 들면, A6으로 표시된 "눈을 2개의 엔(
Figure 112018091597284-pct00002
))으로 변경"일 수 있다. 눈을 깜박이는 것 이외에, 사용자 행동은 다르게는 손가락 꺽기(snapping fingers)일 수 있다. 도 11에 도시된 A6으로 표시된 "눈을 2개의 엔(
Figure 112018091597284-pct00003
)으로 변경" 또는 도 10에 도시된 스티커 정보 "많은 연간 보너스"가 디스플레이를 위해 사용자 행동에 의해 트리거된다.
도 12는 본 출원의 실시 예가 사용된 다른 애플리케이션 예를 도시한다. 도 12에서, 다른 스티커 형태가 얼굴 표정을 인식하는 것에 의해 획득될 수 있다. 도 12에 도시된 바와 같이, A7으로 표시된 "나는 정말 아름답다"라는 오디오가 레코딩된 비디오 정보에서 대응하여 재생되는 경우, 뺨의 위치가 인식되고, A7'로 표시된 스티커 정보가 뺨의 위치에 중첩된다. 구체적으로, 스티커 정보는 오감 기관 타입 스티커(five-sense-organ-type sticker)에서의 빨간 얼굴(red face), 블러셔(blusher), 또는 홍조(blush)이다. 이 경우, 비디오 인터페이스 상에서 "나는 정말 아름답다"를 디스플레이하는 시간 세그먼트내에서, 비디오 인터페이스는 얼굴에 홍조를 입히는 합성 스티커 정보도 디스플레이한다.
실시 예 2
본 출원의 본 실시 예에 따른 정보 처리 방법은 도 13에 도시된다. 상기 방법은 다음의 단계들을 포함한다.
단계(201): 단말은 애플리케이션을 인에이블하고, 제1 동작을 획득하여 제1 미디어 정보의 수집을 트리거한다.
애플리케이션 시나리오에서, 도 3에 도시된 바와 같이, 소파에 누워 있는 사용자가 모바일 폰(11)과 같은 단말 디바이스를 사용하고 있다. 모바일 폰(11)의 사용자 인터페이스는 도 4에 도시되어 있으며, 예를 들어, 음악 재생 아이콘, 기능 설정 아이콘 그리고 이메일 수신 및 송신 아이콘과 같은 다양한 타입의 애플리케이션 아이콘을 포함한다. 사용자는 제1 동작, 예를 들어 손가락으로 A1으로 표시된 비디오 처리 애플리케이션 아이콘을 탭하는 것을 수행하고, 비디오 레코딩의 처리 과정에 진입하여, 예를 들어 제1 미디어 정보의 수집을 트리거한다. 예를 들어, 사용자는 실내 시나리오를 레코딩하거나 셀카 등을 수행할 수 있다.
단계(202): 제1 미디어 정보를 수집하는 동안 얼굴 영역에서 미리 설정된 조건을 만족하는 표정 변화 또는 수집 박스에서 미리 설정된 조건을 만족하는 사용자 행동 변화를 검출하는 경우, 단말은 획득된 변화량을 키 정보로서 서버에 보고한다.
여기서, 단계(201)의 애플리케이션 시나리오를 참조하여, 비디오 레코딩의 처리 과정에서, 단말은 얼굴 인식 및 위치결정 메커니즘과 표정 인식 메커니즘을 사용하여 얼굴 영역에서 미소, 울음, 찌푸리기와 같은 표정 변화를 캡쳐할 수 있다. 또한, 단말 디바이스는 다르게는 수집 박스(또는 프레이밍 박스로 지칭됨)에서 V 기호를 몸짓으로 나타내는 것과 같은 사용자 행동 변화를 검출할 수도 있다. 이러한 검출은 얼굴 영역에서 수행되는 것으로 한정되지 않는다. 결합된 인식이 얼굴 영역에서의 표정 변화 및 사용자 행동 변화에 대해 추가로 수행될 수 있다. 예를 들어, V 기호와 얼굴 표정의 미소의 조합에 대해 결합된 인식이 수행된다.
얼굴 인식 기술은 사람의 얼굴 특징에 기초하여 비디오 레코딩 동안 얼굴 이미지 또는 비디오 스트림을 수집하는 것이다. 얼굴 인식 동안에, 먼저, 비디오 스트림에 얼굴이 있는지가 결정된다. 얼굴이 있으면, 얼굴의 위치 및 크기가 추가로 제공되고, 주요 안면 기관의 위치 정보가 위치결정됨으로써, 얼굴 상의 오감 기관의 각각의 위치 및 초기 형태가 획득된다. 형태가 변화하는 경우, 예를 들어, 사람이 미소를 짓는 경우, 윗 입술과 아래 입술의 위치가 초기 형태에 비해 변위 및 형태 변화를 일으킬 것이며, 이는 얼굴의 오감 기관의 얼굴 표정이 변화함을 나타낸다. 표정에서의 변화는 또한 표정 인식 메커니즘을 사용하여 인식될 수 있다. 본 실시 예의 얼굴 인식은 종래의 얼굴 인식과 상이하다. 종래의 얼굴 인식은 얼굴 인식 시스템을 구성하여 사용자 신원을 인식하고, 인식된 얼굴을 알려진 얼굴과 비교하여 신원 확인 및 신원 검색을 용이하게 하는 것이다.
표정 인식 프로세스는 4개의 위상, 즉 얼굴 이미지 획득 및 전처리; 얼굴 검출; 표정 특징 추출; 및 표정 분류를 포함할 수 있다. 얼굴 인식 및 위치결정 메커니즘만 사용되면, 부정확성 문제가 있을 수 있다. 그러나 표정 인식 메커니즘은 보다 정확한 처리 정책이다. 표정 인식은 얼굴 인식과 밀접한 상관 관계가 있다. 예를 들어, 얼굴 검출 동안의 위치결정은 얼굴 추적과 같은 링크에서의 위치결정과 유사하지만, 특징 추출에서 차이가 있다. 예를 들어, 얼굴 인식 특징 추출 동안에, 주로 관심은 상이한 얼굴의 개인차 및 특징에 대해 집중되며, 얼굴 표정은 간섭 신호로서 존재한다. 즉, 얼굴 인식 동안에 얼굴 표정에 너무 많은 주의를 기울이지 않는다. 그러나 본 출원의 본 실시 예에서, 대응하는 제2 미디어 정보를 트리거하기 위해, 표정의 변화에 주의를 기울여야 하므로, 개인차가 무시될 수 있지만, 상이한 표정 모드에서의 얼굴의 차동 특징의 특징 추출에 주의를 기울인다. 표정 인식은 개인차와 결합될 수 있거나, 개인차가 간섭 신호로서 처리되어 표정 인식 정밀도를 향상시킬 수 있으며, 즉, 개인차에 너무 많은 주의를 기울이지 않는다. 특징 추출은 얼굴 표정 인식 동안의 핵심 단계이며, 최종 인식 결과를 결정하고 인식률 값에 영향을 준다. 특징 추출은 정적 이미지 특징 추출 및 움직이는 이미지 특징 추출을 포함할 수 있다. 정적 이미지 특징 추출의 관점에서, 표정의 형태 변화 특징(또는 표정의 일시적 특징이라고 지칭됨)가 추출된다. 움직이는 이미지 특징 추출의 관점에서, 각 프레임에서의 표정의 형태 변화 특징이 움직이는 이미지에 대해 추출될 필요가 있을 뿐만 아니라, 연속적인 시퀀스의 움직임 특징이 추출될 필요가 있다. 형태 변화 특징의 추출은 중립적인 표정 또는 모델에 의존할 수 있으므로, 생성된 표정이 중립적 표정과 비교되어 형태 변화 특징을 추출하다. 그러나 움직이는 특징의 추출은 표정에 의해 생성된 얼굴 변화에 직접 의존한다. 표정은 다양한 분류 방식을 가진다. 예를 들어, 표정은, 1) 이후의 매칭 및 인식을 위한 상이한 얼굴 표정 이미지 라이브러리를 설정하기 위해 기본 표정에 따른 행복, 슬픔, 놀람, 두려움, 분노, 혐오감 등 그리고 2) 감정에 따른 기쁨, 슬픔, 흥분, 평온, 불안, 안심 등으로 분류된다.
단계(203): 서버가 재료 라이브러리로부터 키 정보에 대응하는 제2 미디어 정보 및 제2 미디어 정보의 디스크립션 파일(description file)을 선택한다.
단계(204): 단말은, 키 정보에 대응하고 서버에 의해 푸시된 제2 미디어 정보 및 제2 미디어 정보의 디스크립션 파일을 수신한다.
본 단계의 구체적 구현은: 키 정보를 서버로 송신하는 단계(202) 후에, 서버가 키 정보에 따른 매칭에 의해 재료 라이브러리로부터 스티커 정보와 같은 대응하는 제2 미디어 정보를 발견하고, 제2 미디어 정보를 단말로 푸시함으로써, 단계(S205)에서 제1 미디어 정보 및 제2 미디어 정보에 대해 비디오 합성이 이어서 수행되는 것일 수 있다. 사용자는 스티커 정보를 수동으로 선택할 필요가 없으나, 스티커 정보는 키 정보에 따라 매칭이 수행된 후에 자동적으로 단말로 푸시된다. 제1 미디어 정보(예를 들어, 비디오)를 수집하는 동안, 단말은 비디오 처리 결과를 자동으로 합성(예를 들어, 비디오 및 스티커 정보를 중첩함)하고, 제1 미디어 정보(예를 들어, 비디오)의 지정된 위치 및 지정된 시간에 스티커 정보를 디스플레이한다.
여기서, 단계(204)에서, 키 정보에 대응하는 제2 미디어 정보의 디스크립션 파일과 제2 미디어 정보가 동시에 송신하거나 별도로 송신될 수 있다. 이는 해당 시점의 네트워크 상태에 따라 달라진다. 네트워크 상태가 바람직하면, 디스크립션 파일 및 제2 미디어 정보가 동시에 송신될 수 있다. 네트워크 상태가 바람직하지 않으면, 열악한 네트워크로 인한 데이터 손실을 피하기 위해 디스크립션 파일과 제2 미디어 정보가 별도로 송신될 수 있다.
단계(205): 제1 미디어 정보 및 제2 미디어 정보에 대한 비디오 합성을 수행한다.
본 출원의 본 실시 예의 구현 예에서, 키 정보는 제1 미디어 정보에서의 텍스트 정보를 더 포함한다.
따라서, 상기 방법은 제1 미디어 정보를 수집하는 동안 텍스트 정보를 검출하고, 검출된 텍스트 정보를 키 정보로서 서버에 보고하는 단계를 더 포함한다.
기존의 기술에서, 도 5에 도시된 텍스트 정보가, 구체적으로 비디오 정보에 포함된 A2로 표시된 텍스트 정보 "부밍(Booming)"을 포함한다. 비디오 정보의 레코딩이 종료된 후에, A2'로 표시된 스티커 정보 "부밍(Booming)"이 추가된다. 스티커 정보는 여러 번 단말과 서버간의 상호 작용에 의해 수동으로 서버의 재료 라이브러리로부터 선택된다. 이어서, 스티커 정보가 레코딩된 비디오 정보에 추가된다.
도 6은 기존 기술의 다른 애플리케이션 시나리오를 도시한다. 구체적으로, 비디오 정보는 A3로 표시된 텍스트 정보 "남자 친구"를 포함한다. 비디오 정보의 레코딩이 종료된 후에, A3'로 표시된 스티커 정보 "남자 친구"가 추가된다. 스티커 정보는 단말과 서버 간의 여러번 상호 작용에 의해 종료된 후 수동으로 서버의 재료 라이브러리로부터 선택된다. 이어서, 스티커 정보가 레코딩된 비디오 정보에 추가된다. 이러한 처리는 매우 복잡하며 여러 번의 사용자 상호 작용이 필요하며, 사용자는 이후에 발견되는 스티커가 실제로 필요하지 않을 수 있다. 사용자가 실제로 스티커가 필요하더라도, 사용자는 예를 들어, 비디오 정보의 적절한 위치로 스티커를 이동하는 등 스티커를 레코딩된 비디오 정보에 수동적으로 추가하여야 한다.
본 출원의 본 실시 예에 의해, 도 7에 도시된 비디오는 A4로 표시된 "많이 먹어도 날씬해지기"의 텍스트 정보를 포함하며, 텍스트 정보는 키 정보로서 서버에 송신된다. 키 정보를 토대로 획득된 매칭 스티커 정보는 A4'로 표시된다. 도 8에 도시된 비디오는 A5로 표시된 텍스트 정보 "남자 친구"를 포함하고, 텍스트 정보는 키 정보로서 서버에 송신된다. 키 정보를 토대로 획득된 매칭 스티커 정보는 A5'로 표시된다. 도 7 및 도 8에서, B1은 비디오 레코딩 동안 제어 버튼을 표시하는데 사용되고, B2는 비디오 레코딩이 종료된 후 재생 버튼을 표시하는데 사용된다. 도 9에 도시된 바와 같이, 도 9는 비디오 레코딩 동안에 적절한 위치 및 시점에서 비디오 합성이 스티커 정보와 비디오에 대해 수행된 후에 비디오를 재생하는 개략도이다.
도 9에서, "봄 축제 기간 동안 여자들이 많이 먹어도 날씬해지기를 바랍니다"의 오디오가 레코딩된 비디오 정보에서 대응하여 재생되는 경우, 비디오 인터페이스는 오디오에 대응하는 텍스트 정보를 디스플레이할 수 있다. 이때, 비디오 인터페이스는 합성 스티커 정보를 추가로 디스플레이할 수 있으며, 이는 스크롤 형태로 열리고 디스플레이된 "많이 먹어도 날씬해지기"라는 동적 스티커 효과이다. 도 10은 본 출원의 실시 예에 따른 비디오 레코딩 동안 적절한 위치 및 시점에서 비디오 합성이 스티커 정보 및 비디오에 대해 수행된 후에 비디오를 재생하는 다른 개략도이다. "많은 연간 보너스"의 오디오가 레코딩된 비디오 정보에 대응하여 재생되는 경우, 비디오 인터페이스는 오디오에 대응하는 텍스트 정보를 디스플레이할 수 있다. 이때, 비디오 인터페이스는 합성 스티커 정보를 추가로 디스플레이하여, 엔(
Figure 112018091597284-pct00004
)과 같은 통화 단위의 지시자와 결합하여 동적 스티커 효과에 "많은 연간 보너스"를 디스플레이함으로써, 지시자가 텍스트 "많은 연간 보너스"와 결합된다.
레코딩된 비디오가 텍스트 정보 "많은 연간 보너스"를 가지는 경우, 대응하는 콘텐츠의 스티커 정보가 도 10에서와 같이 디스플레이되는 것 이외에, 얼굴 표정 또는 사용자 행동을 인식하는 것에 의해 다른 스티커 형태가 추가로 획득될 수 있다. 도 11에 도시된 바와 같이, A6으로 표시된 "많은 연간 보너스"의 오디오가 레코딩된 비디오 정보에서 재생되는 경우, 사용자 행동은 오디오와 결합될 수 있다. 예를 들어, 사용자 행동은 사용자가 기쁨으로 눈을 깜박이는 것일 수 있다. 이 경우, 도 10에 도시된 스티커 정보를 디스플레이하는 것 이외에, 비디오 인터페이스가 "기쁨으로 눈을 깜박임"의 시간 세그먼트 내에 다른 스티커 정보를 더 디스플레이할 수 있다. 다른 스티커 정보는, 예를 들면, A6으로 표시된 "눈을 2개의 엔(
Figure 112018091597284-pct00005
))으로 변경"일 수 있다. 눈을 깜박이는 것 이외에, 사용자 행동은 다르게는 손가락 꺽기일 수 있다. 도 11에 도시된 A6으로 표시된 "눈을 2개의 엔(
Figure 112018091597284-pct00006
)으로 변경" 또는 도 10에 도시된 스티커 정보 "많은 연간 보너스"가 디스플레이를 위해 사용자 행동에 의해 트리거된다.
도 12는 본 출원의 실시 예가 사용된 다른 애플리케이션 예를 도시한다. 도 12에서, 다른 스티커 형태가 얼굴 표정을 인식하는 것에 의해 획득될 수 있다. 도 12에 도시된 바와 같이, A7으로 표시된 "나는 정말 아름답다"라는 오디오가 레코딩된 비디오 정보에서 대응하여 재생되는 경우, 뺨의 위치가 인식되고, A7'로 표시된 스티커 정보가 뺨의 위치에 중첩된다. 구체적으로, 스티커 정보는 오감 기관 타입 스티커에서의 빨간 얼굴, 블러셔, 또는 홍조이다. 이 경우, 비디오 인터페이스 상에서 "나는 정말 아름답다"를 디스플레이하는 시간 세그먼트내에서, 비디오 인터페이스는 얼굴에 홍조를 입히는 합성 스티커 정보도 디스플레이한다.
본 출원의 본 실시 예의 구현 예에서, 제1 미디어 정보 및 제2 미디어 정보에 대한 비디오 합성을 수행하는 단계는,
제1 구현 해결 방안에서, 대응하는 특징 검출 결과를 획득하고, 표정 변화 또는 사용자 행동 변화에 응답하여 특징 검출 결과 및 제2 미디어 정보의 디스크립션 파일의 구성에 따라, 제2 미디어 정보 및 상기 제1 미디어 정보에 대한 비디오 합성을 수행하여, 지정된 시점에서 또는 지정된 시간 세그먼트 내에, 제1 미디어 정보에 의해 지정된 위치에서 제2 미디어 정보를 디스플레이하거나;
제2 구현 해결 방안에서, 텍스트 정보에 응답하여 제2 미디어 정보의 디스크립션 파일의 구성에 따라 제2 미디어 정보 및 제1 미디어 정보에 대한 비디오 합성을 수행하여, 지정된 시점에서 또는 지정된 시간 세그먼트 내에, 제1 미디어 정보에 의해 지정된 위치에서 제2 미디어 정보를 디스플레이하는 단계를 포함한다.
두 개의 해결 방안 사이에는 다음과 같은 차이점이 있다. 제1 해결 방안에서, 특징 좌표(특징 검출 결과의 정보의 일부 또는 전부)를 획득될 필요가 있으므로, 특징 좌표와 결합하여, 스티커 정보가 비디오 정보에서 배치될(placed) 적절한 지정된 위치가 결정된다. 제2 미디어 정보는 시점을 결정할 수 있다. 스티커 정보는 위치 및 시간에 대한 고정된 요구 사항에 따라 배치되며, 도 12에 도시된 "얼굴에 홍조를 입히기"의 시나리오에서 행해지는 바와 같이, 지정된 위치 및 시점에 따라, 스티커 정보가 적절한 위치 및 적절한 시점에 비디오 정보에 중첩될 수 있다. 제2 해결 방안에서, 특징 좌표가 고려될 필요가 없다. 제2 미디어 정보는 스티커의 시점 및 크기와 같은 속성을 결정할 수 있으며, 스티커 정보의 중심점(central point)의 위치를 더 포함할 수 있다. 스티커가 위치 및 시간에 대한 고정된 요구 사항에 따라 배치됨에도 불구하고, 스티커는 제1 해결 방안에서 수행되는 방식과 비교하여 임의로 배치된다. 도 7에 도시된 바와 같이, "많이 먹어도 날씬해지기"가 발생하는 것을 제공하는 하는 것이 바람직하지만, "많이 먹어도 날씬해지기"가 얼굴 영역에 대응하는 특정한 위치에 필수적으로 디스플레이되어야 한다는 것에 한정되지 않는다. 제1 해결 방안에서, 표정 변화나 사용자 행동 변화로 인해 스티커 요청이 트리거되며, 따라서, 스티커는 표정 변화 및 사용자 행동 변화와 함께 디스플레이되어야 한다.
본 출원의 본 실시 예의 구현 예에서, 제2 멀티미디어 정보는 1) 디스플레이를 위해 표정 변화 또는 사용자 행동 변화에 의해 트리거되는, 오감 기관 타입 스티커 또는 트리거 타입 스티커와 같은 제1 타입 스티커 정보 및 2) 디스플레이를 위해 표정 변화 또는 사용자 행동 변화보다는 다른 변화에 의해 트리거되는, 일반(common) 스티커 및 배경 스티커와 같은, 제2 타입 스티커 정보 중 적어도 하나를 포함한다.
본 출원의 본 실시 예의 구현 예에서, 상기 대응하는 특징 검출 결과를 획득하고, 표정 변화 또는 사용자 행동 변화에 응답하여 특징 검출 결과 및 제2 미디어 정보의 디스크립션 파일의 구성에 따라, 제2 미디어 정보 및 상기 제1 미디어 정보에 대한 비디오 합성을 수행하는 것은,
a1. 표정 변화 또는 사용자 행동 변화에 응답하여 검출된 특징 변화량을 서버로 보고하여, 제1 타입 스티커 정보 및 제1 타입 스티커 정보의 디스크립션 파일을 요청하는 단계;
a2. 표정 변화 또는 사용자 행동 변화에 의해 야기되는 특징 좌표 변화를 검출하고, 초기 좌표로부터 타겟 좌표까지의 위치 결정을 수행하여, 타겟 좌표를 사용하여 또는 초기 좌표로부터 타겟 좌표까지 정의된 위치 영역을 사용하여 위치 결정된 위치점(location point)에 따라, 제1 타입 스티커 정보가 중첩될 위치를 결정하는 단계;
a3. 수신된 제1 타입 스티커 정보의 디스크립션 파일을 파싱하여 제1 타입 스티커 정보의 디스플레이 시간을 획득하는 단계; 및
a4. 결정된 위치 및 파싱에 의해 획득된 제1 타입 스티커 정보의 디스플레이 시간에 따라 제2 미디어 정보 및 제1 미디어 정보에 대한 비디오 합성을 수행하는 단계를 포함한다.
본 출원의 본 실시 예의 구현에서, 상기 텍스트 정보에 응답하여 제2 미디어 정보의 디스크립션 파일의 구성에 따라 제2 미디어 정보 및 제1 미디어 정보에 대한 비디오 합성을 수행하는 단계는,
b1. 텍스트 정보에 응답하여 검출된 텍스트 정보를 서버로 보고하여, 제2 타입 스티커 정보 및 제2 타입 스티커 정보의 디스크립션 파일을 요청하는 단계;
b2. 수신된 제2 타입 스티커 정보의 디스크립션 파일을 파싱하여, 제1 미디어 정보에 대한 제2 타입 스티커 정보의 위치를 획득하고, 제2 타입 스티커 정보의 디스플레이 시간을 결정하는 단계 - 위치는 제2 타입 스티커 정보에 디스플레이되는 중심점의 위치를 포함함 -; 및
b3. 획득된 위치 및 디스플레이 시간에 따라 제2 미디어 정보 및 제1 미디어 정보에 대한 비디오 합성을 수행하는 단계를 포함한다.
실시 예 3
본 출원의 본 실시 예에 따라 단말이 제공된다. 도 14에 도시된 바와 같이, 단말은, 제1 동작을 획득하여 제1 미디어 정보의 수집을 트리거하도록 구성된 트리거 유닛(21); 제1 미디어 정보의 수집 동안에 얼굴 영역에서 미리 설정된 조건을 만족하는 표정 변화 또는 수집 박스에서 미리 설정된 조건을 만족하는 사용자 행동 변화를 검출한 경우, 획득된 변화량을 키 정보로서 서버에 보고하도록 구성된 검출 유닛(22); 키 정보에 대응하고 서버에 의해 푸시된 제2 미디어 정보를 수신하도록 구성된 수신 유닛(23); 및 제1 미디어 정보 및 제2 미디어 정보에 대한 비디오 합성을 수행하도록 구성된 합성 유닛(24)을 포함한다.
애플리케이션 시나리오에서, 도 3에 도시된 바와 같이, 소파에 누워 있는 사용자가 모바일 폰(11)과 같은 단말 디바이스를 사용하고 있다. 모바일 폰(11)의 사용자 인터페이스는 도 4에 도시되어 있으며, 예를 들어, 음악 재생 아이콘, 기능 설정 아이콘 그리고 이메일 수신 및 송신 아이콘과 같은 다양한 타입의 애플리케이션 아이콘을 포함한다. 사용자는 제1 동작, 예를 들어 손가락으로 A1으로 표시된 비디오 처리 애플리케이션 아이콘을 탭하는 것을 수행하고, 비디오 레코딩의 처리 과정에 진입하여, 예를 들어 제1 미디어 정보의 수집을 트리거한다. 예를 들어, 사용자는 실내 시나리오를 레코딩하거나 셀카 등을 수행할 수 있다. 비디오 레코딩의 처리 과정에서, 단말은 얼굴 인식 및 위치결정 메커니즘과 표정인식 메커니즘을 사용하여 얼굴 영역에서 미소, 울음, 찌푸리기와 같은 표정 변화를 캡쳐할 수 있다. 또한, 단말 디바이스는 다르게는 수집 박스(또는 프레이밍 박스로 지칭됨)에서 V 기호를 몸짓으로 나타내는 것과 같은 사용자 행동 변화를 검출할 수도 있다. 결합된 인식이 얼굴 영역에서의 표정 변화 및 사용자 행동 변화에 대해 추가로 수행될 수 있다. 예를 들어, V 기호와 얼굴 표정의 미소의 조합에 대해 결합된 인식이 수행된다.
얼굴 인식 기술은 사람의 얼굴 특징에 기초하여 비디오 레코딩 동안 얼굴 이미지 또는 비디오 스트림을 수집하는 것이다. 얼굴 인식 동안에, 먼저, 비디오 스트림에 얼굴이 있는지가 결정된다. 얼굴이 있으면, 얼굴의 위치 및 크기가 추가로 제공되고, 주요 안면 기관의 위치 정보가 위치결정됨으로써, 얼굴 상의 오감 기관의 각각의 위치 및 초기 형태가 획득된다. 형태가 변화하는 경우, 예를 들어, 사람이 미소를 짓는 경우, 윗 입술과 아래 입술의 위치가 초기 형태에 비해 변위 및 형태 변화를 일으킬 것이며, 이는 얼굴의 오감 기관의 얼굴 표정이 변화함을 나타낸다. 표정에서의 변화는 또한 표정 인식 메커니즘을 사용하여 인식될 수 있다. 본 실시 예의 얼굴 인식은 종래의 얼굴 인식과 상이하다. 종래의 얼굴 인식은 얼굴 인식 시스템을 구성하여 사용자 신원을 인식하고, 인식된 얼굴을 알려진 얼굴과 비교하여 신원 확인 및 신원 검색을 용이하게 하는 것이다.
표정 인식 프로세스는 4개의 위상, 즉 얼굴 이미지 획득 및 전처리; 얼굴 검출; 표정 특징 추출; 및 표정 분류를 포함할 수 있다. 얼굴 인식 및 위치결정 메커니즘만 사용되면, 부정확성 문제가 있을 수 있다. 그러나 표정 인식 메커니즘은 보다 정확한 처리 정책이다. 표정 인식은 얼굴 인식과 밀접한 상관 관계가 있다. 예를 들어, 얼굴 검출 동안의 위치결정은 얼굴 추적과 같은 링크에서의 위치결정과 유사하지만, 특징 추출에서 차이가 있다. 예를 들어, 얼굴 인식 특징 추출 동안에, 주로 관심은 상이한 얼굴의 개인차 및 특징에 대해 집중되며, 얼굴 표정은 간섭 신호로서 존재한다. 따라서, 얼굴 인식 동안에 얼굴 표정에 너무 많은 주의를 기울이지 않는다. 그러나 본 출원의 본 실시 예에서, 대응하는 제2 미디어 정보를 트리거하기 위해, 표정의 변화에 주의를 기울여야 하므로, 개인차가 무시될 수 있지만, 상이한 표정 모드에서의 얼굴의 차동 특징의 특징 추출에 주의를 기울인다. 표정 인식은 개인차와 결합될 수 있거나 개인차가 간섭 신호로서 처리되어 표정 인식 정밀도를 향상시킬 수 있다. 즉, 개개인의 차이에 너무 많은 주의를 기울이지 않는다. 특징 추출은 얼굴 표정 인식 동안의 핵심 단계이며, 최종 인식 결과를 결정하고 인식률 값에 영향을 준다. 특징 추출은 정적 이미지 특징 추출 및 움직이는 이미지 특징 추출을 포함할 수 있다. 정적 이미지 특징 추출의 관점에서, 표정의 형태 변화 특징(또는 표정의 일시적 특징이라고 지칭됨)가 추출된다. 움직이는 이미지 특징 추출의 관점에서, 각 프레임에서의 표정의 형태 변화 특징이 움직이는 이미지에 대해 추출될 필요가 있을 뿐만 아니라, 연속적인 시퀀스의 움직임 특징이 추출될 필요가 있다. 형태 변화 특징의 추출은 중립적인 표정 또는 모델에 의존할 수 있으므로, 생성된 표정이 중립적 표정과 비교되어 형태 변화 특징을 추출하다. 그러나 움직이는 특징의 추출은 표정에 의해 생성된 얼굴 변화에 직접 의존한다. 표정은 다양한 분류 방식을 가진다. 예를 들어, 표정은, 1) 이후의 매칭 및 인식을 위한 상이한 얼굴 표정 이미지 라이브러리를 설정하기 위해 기본 표정에 따른 행복, 슬픔, 놀람, 두려움, 분노, 혐오감 등 그리고 2) 감정에 따른 기쁨, 슬픔, 흥분, 평온, 불안, 안심 등으로 분류된다.
본 출원의 본 실시 예의 구현 예에서, 키 정보는 제1 미디어 정보에서의 텍스트 정보를 더 포함한다.
검출 유닛(22)은 추가로, 제1 미디어 정보의 수집 동안 텍스트 정보를 검출하고, 검출된 텍스트 정보를 키 정보로서 서버에 보고하도록 구성된다.
기존의 기술에서, 도 5에 도시된 텍스트 정보가, 구체적으로 비디오 정보에 포함된 A2로 표시된 텍스트 정보 "부밍(Booming)"을 포함한다. 비디오 정보의 레코딩이 종료된 후에, A2'로 표시된 스티커 정보 "부밍(Booming)"이 추가된다. 스티커 정보는 여러 번 단말과 서버간의 상호 작용에 의해 수동으로 서버의 재료 라이브러리로부터 선택된다. 이어서, 스티커 정보가 레코딩된 비디오 정보에 추가된다.
도 6은 기존 기술의 다른 애플리케이션 시나리오를 도시한다. 구체적으로, 비디오 정보는 A3로 표시된 텍스트 정보 "남자 친구"를 포함한다. 비디오 정보의 레코딩이 종료된 후에, A3'로 표시된 스티커 정보 "남자 친구"가 추가된다. 스티커 정보는 단말과 서버 간의 여러번 상호 작용에 의해 종료된 후 수동으로 서버의 재료 라이브러리로부터 선택된다. 이어서, 스티커 정보가 레코딩된 비디오 정보에 추가된다. 이러한 처리는 매우 복잡하며 여러 번의 사용자 상호 작용이 필요하며, 사용자는 이후에 발견되는 스티커가 실제로 필요하지 않을 수 있다. 사용자가 실제로 스티커가 필요하더라도, 사용자는 예를 들어, 비디오 정보의 적절한 위치로 스티커를 이동하는 등 스티커를 레코딩된 비디오 정보에 수동적으로 추가하여야 한다.
본 출원의 본 실시 예에 의해, 도 7에 도시된 비디오는 A4로 표시된 "많이 먹어도 날씬해지기"의 텍스트 정보를 포함하며, 텍스트 정보는 키 정보로서 서버에 송신된다. 키 정보를 토대로 획득된 매칭 스티커 정보는 A4'로 표시된다. 도 8에 도시된 비디오는 A5로 표시된 텍스트 정보 "남자 친구"를 포함하고, 텍스트 정보는 키 정보로서 서버에 송신된다. 키 정보를 토대로 획득된 매칭 스티커 정보는 A5'로 표시된다. 도 7 및 도 8에서, B1은 비디오 레코딩 동안 제어 버튼을 표시하는데 사용되고, B2는 비디오 레코딩이 종료된 후 재생 버튼을 표시하는데 사용된다. 도 9에 도시된 바와 같이, 도 9는 비디오 레코딩 동안에 적절한 위치 및 시점에서 비디오 합성이 스티커 정보와 비디오에 대해 수행된 후에 비디오를 재생하는 개략도이다.
도 9에서, "봄 축제 기간 동안 여자들이 많이 먹어도 날씬해지기를 바랍니다"의 오디오가 레코딩된 비디오 정보에서 대응하여 재생되는 경우, 비디오 인터페이스는 오디오에 대응하는 텍스트 정보를 디스플레이할 수 있다. 이때, 비디오 인터페이스는 합성 스티커 정보를 추가로 디스플레이할 수 있으며, 이는 스크롤 형태로 열리고 디스플레이된 "많이 먹어도 날씬해지기"라는 동적 스티커 효과이다. 도 10은 본 출원의 실시 예에 따른 비디오 레코딩 동안 적절한 위치 및 시점에서 비디오 합성이 스티커 정보 및 비디오에 대해 수행된 후에 비디오를 재생하는 다른 개략도이다. "많은 연간 보너스"의 오디오가 레코딩된 비디오 정보에 대응하여 재생되는 경우, 비디오 인터페이스는 오디오에 대응하는 텍스트 정보를 디스플레이할 수 있다. 이때, 비디오 인터페이스는 합성 스티커 정보를 추가로 디스플레이하여, 엔(
Figure 112018091597284-pct00007
)과 같은 통화 단위의 지시자와 결합하여 동적 스티커 효과에 "많은 연간 보너스"를 디스플레이함으로써, 지시자가 텍스트 "많은 연간 보너스"와 결합된다.
레코딩된 비디오가 텍스트 정보 "많은 연간 보너스"를 가지는 경우, 대응하는 콘텐츠의 스티커 정보가 도 10에서와 같이 디스플레이되는 것 이외에, 얼굴 표정 또는 사용자 행동을 인식하는 것에 의해 다른 스티커 형태가 추가로 획득될 수 있다. 도 11에 도시된 바와 같이, A6으로 표시된 "많은 연간 보너스"의 오디오가 레코딩된 비디오 정보에서 재생되는 경우, 사용자 행동은 오디오와 결합될 수 있다. 예를 들어, 사용자 행동은 사용자가 기쁨으로 눈을 깜박이는 것일 수 있다. 이 경우, 도 10에 도시된 스티커 정보를 디스플레이하는 것 이외에, 비디오 인터페이스가 "기쁨으로 눈을 깜박임"의 시간 세그먼트 내에 다른 스티커 정보를 더 디스플레이할 수 있다. 다른 스티커 정보는, 예를 들면, A6으로 표시된 "눈을 2개의 엔(
Figure 112018091597284-pct00008
))으로 변경"일 수 있다. 눈을 깜박이는 것 이외에, 사용자 행동은 다르게는 손가락 꺽기일 수 있다. 도 11에 도시된 A6으로 표시된 "눈을 2개의 엔(
Figure 112018091597284-pct00009
)으로 변경" 또는 도 10에 도시된 스티커 정보 "많은 연간 보너스"가 디스플레이를 위해 사용자 행동에 의해 트리거된다.
도 12는 본 출원의 실시 예가 사용된 다른 애플리케이션 예를 도시한다. 도 12에서, 다른 스티커 형태가 얼굴 표정을 인식하는 것에 의해 획득될 수 있다. 도 12에 도시된 바와 같이, A7으로 표시된 "나는 정말 아름답다"라는 오디오가 레코딩된 비디오 정보에서 대응하여 재생되는 경우, 뺨의 위치가 인식되고, A7'로 표시된 스티커 정보가 뺨의 위치에 중첩된다. 구체적으로, 스티커 정보는 오감 기관 타입 스티커에서의 빨간 얼굴, 블러셔, 또는 홍조이다. 이 경우, 비디오 인터페이스 상에서 "나는 정말 아름답다"를 디스플레이하는 시간 세그먼트내에서, 비디오 인터페이스는 얼굴에 홍조를 입히는 합성 스티커 정보도 디스플레이한다.
본 출원의 본 실시 예의 구현 예에서, 수신 유닛(24)은 추가로, 키 정보에 대응하고 서버에 의해 푸시된 제2 미디어 정보의 디스크립션 파일을 수신하도록 구성된다.
디스크립션 파일은 제1 미디어 정보에 관한 제2 미디어 정보의 위치 및 제2 미디어 정보의 디스플레이 시간을 포함한다.
본 출원의 본 실시 예의 구현 예에서, 합성 유닛(24)은 추가로, 디스크립션 파일에 따라 제1 미디어 정보 및 제2 미디어 정보에 대한 비디오 합성을 수행하여, 디스크립션 파일에 의해 지정된 디스플레이 시간 내에, 디스크립션 파일에 의해 지정된 제1 미디어 정보의 위치에서 제2 미디어 정보를 디스플레이하도록 구성된다. 특히, 합성 유닛(24)은 2개의 특정 구현을 포함한다. 제1 특정 구현에서, 대응하는 특징 검출 결과를 획득하고, 표정 변화 또는 사용자 행동 변화에 응답하여 특징 검출 결과 및 제2 미디어 정보의 디스크립션 파일의 구성에 따라, 제2 미디어 정보 및 제1 미디어 정보에 대한 비디오 합성을 수행하여, 지정된 시점에서 또는 지정된 시간 세그먼트 내에, 제1 미디어 정보에 의해 지정된 위치에서 제2 미디어 정보를 디스플레이하거나;
제2 특정 구현에서, 텍스트 정보에 응답하여 제2 미디어 정보의 디스크립션 파일의 구성에 따라 제2 미디어 정보 및 제1 미디어 정보에 대한 비디오 합성을 수행하여, 특정 시점에서 또는 지정된 시간 세그먼트 내에 제1 미디어 정보에 의해 지정된 위치에서 제2 미디어 정보를 디스플레이하는 것을 포함한다.
본 출원의 본 실시 예의 구현에서, 제2 멀티미디어 정보는 디스플레이를 위해 표정 변화 또는 사용자 행동 변화에 의해 트리거되는 제1 타입 스티커 정보 및 디스플레이를 위해 표정 변화 또는 사용자 행동 변화보다는 다른 변화에 의해 트리거되는 제2 타입 스티커 정보 중 적어도 하나를 포함한다.
본 출원의 본 실시 예의 구현에서, 합성 유닛(24)은 추가로, 표정 변화 또는 사용자 행동 변화에 응답하여 검출된 특징 변화량을 서버로 보고하여, 제1 타입 스티커 정보 및 제1 타입 스티커 정보의 디스크립션 파일을 요청하고;
표정 변화 또는 사용자 행동 변화에 의해 야기되는 특징 좌표 변화를 검출하고, 초기 좌표로부터 타겟 좌표까지의 위치 결정을 수행하여, 타겟 좌표를 사용하여 또는 초기 좌표로부터 타겟 좌표까지 정의된 위치 영역을 사용하여 위치 결정된 위치점에 따라, 제1 타입 스티커 정보가 중첩될 위치를 결정하며;
수신된 제1 타입 스티커 정보의 디스크립션 파일을 파싱하여 제1 타입 스티커 정보의 디스플레이 시간을 획득하고; 그리고
결정된 위치 및 파싱에 의해 획득된 제1 타입 스티커 정보의 디스플레이 시간에 따라 제2 미디어 정보 및 제1 미디어 정보에 대한 비디오 합성을 수행하도록 구성된다.
본 출원의 본 실시 예의 구현에서, 합성 유닛은 추가로, 텍스트 정보에 응답하여 검출된 텍스트 정보를 서버로 보고하여, 제2 타입 스티커 정보 및 제2 타입 스티커 정보의 디스크립션 파일을 요청하고; 수신된 제2 타입 스티커 정보의 디스크립션 파일을 파싱하여, 제1 미디어 정보에 대한 제2 타입 스티커 정보의 위치를 획득하고, 제2 타입 스티커 정보의 디스플레이 시간을 결정하며 - 위치는 제2 타입 스티커 정보에 디스플레이되는 중심점의 위치를 포함함 -; 그리고, 획득된 위치 및 디스플레이 시간에 따라 제2 미디어 정보 및 제1 미디어 정보에 대한 비디오 합성을 수행하도록 구성된다.
실시 예 4
여기서, 전술한 단말은 PC와 같은 전자 디바이스일 수도 있고, PAD, 태블릿 컴퓨터, 랩탑 컴퓨터와 같은 휴대용 전자 디바이스일 수도 있고, 모바일 폰과 같은 지능형 이동 단말일 수 있다. 단말은 여기에 기술된 것에 한정되지 않는다. 전술한 서버는 클러스터 시스템을 사용하여 구성되고 모든 유닛의 기능을 구현하기 위해 통합된 전자 디바이스일 수도 있고, 또는 클러스터 시스템을 사용하여 구성되고 모든 유닛의 기능이 분리되어 제공되는 전자 디바이스 일 수도 있다. 단말 및 서버는 모두 적어도 데이터 저장을 위한 데이터베이스 및 데이터 처리를 위한 프로세서를 포함하거나, 또는 서버에 배치된 저장 매체 또는 독립적으로 배치된 저장 매체를 포함한다.
데이터 처리를 위한 프로세서의 경우, 처리 실행 동안에, 프로세서는 마이크로컴퓨터, 중앙 처리 장치(central processing unit, CPU), 디지털 신호 프로세서(digital signal processor, DSP) 또는 필드 프로그래머블 게이트 어레이(field programmable gate array, FPGA)를 사용하여 구현될 수 있다. 저장 매체의 경우, 동작 명령이 포함된다. 동작 명령은 동작 명령을 사용하여 본 출원의 실시 예에 따른 정보 처리 방법의 절차에서 각 단계를 수행하는 컴퓨터 실행 가능 코드일 수 있다.
단말 및 서버는 하드웨어 엔티티(S11)의 예로서 도 15에 도시된다. 상기 장치는 프로세서(41), 저장 매체(42) 및 적어도 하나의 외부 통신 인터페이스(43)를 포함한다. 프로세서(41), 저장 매체(42) 및 외부 통신 인터페이스(43)는 버스(44)를 사용하여 서로 연결된다.
여기서, 전술한 단말 및 서버에 대한 설명은 상기 방법과 유사하다는 점에 유의해야 한다. 단말 및 서버의 유익한 효과에 대한 설명은 상기 방법과 유사하므로 다시 설명하지 않는다. 본 출원의 단말 및 서버 실시 예에 개시되지 않은 기술적 세부 사항에 대해서는 본 출원의 방법 실시 예의 설명을 참조한다.
본 출원의 실시 예는 실제 애플리케이션 시나리오를 예로서 사용하여 이하에 설명된다.
먼저, 애플리케이션 시나리오가 기술된다: 첫째, 재료에 의해 재생된 콘텐츠에 따라 비디오 재료에 일부 상관 동적 스티커가 추가됨으로써, 비디오가 보다 풍부한 콘텐츠를 디스플레이한다. A) 예를 들어, 새해 전화(New Year call)를 재생하는 비디오에서 행운을 기원하는 소망이 표현되는 경우, 일부 금화의 하락이 예상될 수 있다; B) 또 다른 예를 들어, 캐릭터의 수줍은 상태가 비디오 콘텐츠에 나타나야 하는 경우, 사용자의 얼굴에 홍조를 추가하는 특별한 효과가 예상될 수 있다. 둘째, 비디오에 별(star)이 있는 사진을 찍는 것과 같은 요구 사항이 있을 수 있다. 이 경우, 별의 사진을 전경(foreground) 스티커로 사용하여, 사용자가 별이 있는 사진을 찍을 수 있다. 기존 기술에서, 비디오 처리 기술을 사용하여 획득된 개략도가 도 5 및 도 6에 도시되어 있다.
도 5에 도시된 텍스트 정보가, 특히 비디오 정보에 포함된 A2로 표시된 텍스트 정보 "부밍(Booming)"을 포함한다. 비디오 정보의 레코딩이 종료된 후에, A2'로 표시된 스티커 정보 "부밍(Booming)"이 추가된다. 스티커 정보는 여러 번 단말과 서버간의 상호 작용에 의해 수동으로 서버의 재료 라이브러리로부터 선택된다. 이어서, 스티커 정보가 레코딩된 비디오 정보에 추가된다.
도 6은 기존 기술의 다른 애플리케이션 시나리오를 도시한다. 구체적으로, 비디오 정보는 A3로 표시된 텍스트 정보 "남자 친구"를 포함한다. 비디오 정보의 레코딩이 종료된 후에, A3'로 표시된 스티커 정보 "남자 친구"가 추가된다. 스티커 정보는 단말과 서버 간의 여러번 상호 작용에 의해 종료된 후 수동으로 서버의 재료 라이브러리로부터 선택된다. 이어서, 스티커 정보가 레코딩된 비디오 정보에 추가된다. 이러한 처리는 매우 복잡하며 여러 번의 사용자 상호 작용이 필요하며, 사용자는 이후에 발견되는 스티커가 실제로 필요하지 않을 수 있다. 사용자가 실제로 스티커가 필요하더라도, 사용자는 예를 들어, 비디오 정보의 적절한 위치로 스티커를 이동하는 등 스티커를 레코딩된 비디오 정보에 수동적으로 추가하여야 한다.
도 5 및 도 6에 도시된 시나리오에서, 기존의 처리 기술이 사용된다: 애플리케이션(APP)은 일부 고정된 스티커를 제공하고, 사용자는 먼저 비디오를 레코딩한다. 비디오가 레코딩된 후 사용자는 스티커 재료 라이브러리로부터 비디오와 상관이 있다고 고려되는 재료를 선택하고, 복잡한 상호 작용을 통해 각 스티커를 추가할 시점과 각 스티커가 추가될 시간 세그먼트를 결정한다. 더욱이, 일부 APP는 스티커가 이동하는 것을 허용하고, 사용자는 그 스티커를 잡고 드래그하여 스티커가 이동되는 지정된 위치를 결정할 필요가 있다. 결과적으로, 복잡한 상호 작용이 단말과 서버간에 여러 번 수행되어야 하며, 처리 효율이 낮고, 비디오가 레코딩된 후 최종 합성을 위해 스티커가 수동으로 선택되고, 비디오 처리 비용이 높고, 시간이 낭비되며, 사용자 요구 사항이 반드시 충족되지 않는다.
전술한 애플리케이션 시나리오에서, 본 출원의 본 실시 예는 비디오에 상관된 실시간 동적 효과 스티커 솔루션이다. 본 출원에서 얼굴 인식 및 위치 인식 메커니즘, 표정 인식 메커니즘, 및 비디오 합성 및 처리 메커니즘을 사용하는 것에 의해, 사용자는 복잡한 동작을 수행할 필요가 없으며, 재료 더미(a pile of materials)로부터 비디오 재료와 상관된 스티커 정보를 선택할 필요가 없지만, 대신에 재료 비디오를 선택한다. 레코딩 동안에, 사용자는 대응하는 스티커 정보가 대응하는 위치 및 대응하는 시간에 발생함을 알게 되며, 즉, 도 7 내지 도 12에 도시된 바와 같이, 대응하는 스티커 정보가 비디오 코딩 동안에 대응하는 지정된 시점에서 대응하는 지정된 위치에 실시간으로 중첩된다.
본 출원의 본 실시 예에 의해, 도 7에 도시된 비디오는 A4로 표시된 "많이 먹어도 날씬해지기"의 텍스트 정보를 포함하며, 텍스트 정보는 키 정보로서 서버에 송신된다. 키 정보를 토대로 획득된 매칭 스티커 정보는 A4'로 표시된다. 도 8에 도시된 비디오는 A5로 표시된 텍스트 정보 "남자 친구"를 포함하고, 텍스트 정보는 키 정보로서 서버에 송신된다. 키 정보를 토대로 획득된 매칭 스티커 정보는 A5'로 표시된다. 도 7 및 도 8에서, B1은 비디오 레코딩 동안 제어 버튼을 표시하는데 사용되고, B2는 비디오 레코딩이 종료된 후 재생 버튼을 표시하는데 사용된다. 도 9에 도시된 바와 같이, 도 9는 비디오 레코딩 동안에 적절한 위치 및 시점에서 비디오 합성이 스티커 정보와 비디오에 대해 수행된 후에 비디오를 재생하는 개략도이다. 도 9에서, "봄 축제 기간 동안 여자들이 많이 먹어도 날씬해지기를 바랍니다"의 오디오가 레코딩된 비디오 정보에서 대응하여 재생되는 경우, 비디오 인터페이스는 오디오에 대응하는 텍스트 정보를 디스플레이할 수 있다. 이때, 비디오 인터페이스는 합성 스티커 정보를 추가로 디스플레이할 수 있으며, 이는 스크롤 형태로 열리고 디스플레이된 "많이 먹어도 날씬해지기"라는 동적 스티커 효과이다. 도 10은 본 출원의 실시 예에 따른 비디오 레코딩 동안 적절한 위치 및 시점에서 비디오 합성이 스티커 정보 및 비디오에 대해 수행된 후에 비디오를 재생하는 다른 개략도이다. "많은 연간 보너스"의 오디오가 레코딩된 비디오 정보에 대응하여 재생되는 경우, 비디오 인터페이스는 오디오에 대응하는 텍스트 정보를 디스플레이할 수 있다. 이때, 비디오 인터페이스는 합성 스티커 정보를 추가로 디스플레이하여, 엔(
Figure 112018091597284-pct00010
)과 같은 통화 단위의 지시자와 결합하여 동적 스티커 효과에 "많은 연간 보너스"를 디스플레이함으로써, 지시자가 텍스트 "많은 연간 보너스"와 결합된다.
레코딩된 비디오가 텍스트 정보 "많은 연간 보너스"를 가지는 경우, 대응하는 콘텐츠의 스티커 정보가 도 10에서와 같이 디스플레이되는 것 이외에, 얼굴 표정 또는 사용자 행동을 인식하는 것에 의해 다른 스티커 형태가 추가로 획득될 수 있다. 도 11에 도시된 바와 같이, A6으로 표시된 "많은 연간 보너스"의 오디오가 레코딩된 비디오 정보에서 재생되는 경우, 사용자 행동은 오디오와 결합될 수 있다. 예를 들어, 사용자 행동은 사용자가 기쁨으로 눈을 깜박이는 것일 수 있다. 이 경우, 도 10에 도시된 스티커 정보를 디스플레이하는 것 이외에, 비디오 인터페이스가 "기쁨으로 눈을 깜박임"의 시간 세그먼트 내에 다른 스티커 정보를 더 디스플레이할 수 있다. 다른 스티커 정보는, 예를 들면, A6으로 표시된 "눈을 2개의 엔(
Figure 112018091597284-pct00011
))으로 변경"일 수 있다. 눈을 깜박이는 것 이외에, 사용자 행동은 다르게는 손가락 꺽기일 수 있다. 도 11에 도시된 A6으로 표시된 "눈을 2개의 엔(
Figure 112018091597284-pct00012
)으로 변경" 또는 도 10에 도시된 스티커 정보 "많은 연간 보너스"가 디스플레이를 위해 사용자 행동에 의해 트리거된다.
도 12는 본 출원의 실시 예가 사용된 다른 애플리케이션 예를 도시한다. 도 12에서, 다른 스티커 형태가 얼굴 표정을 인식하는 것에 의해 획득될 수 있다. 도 12에 도시된 바와 같이, A7으로 표시된 "나는 정말 아름답다"라는 오디오가 레코딩된 비디오 정보에서 대응하여 재생되는 경우, 뺨의 위치가 인식되고, A7'로 표시된 스티커 정보가 뺨의 위치에 중첩된다. 구체적으로, 스티커 정보는 오감 기관 타입 스티커에서의 빨간 얼굴, 블러셔, 또는 홍조이다. 이 경우, 비디오 인터페이스 상에서 "나는 정말 아름답다"를 디스플레이하는 시간 세그먼트내에서, 비디오 인터페이스는 얼굴에 홍조를 입히는 합성 스티커 정보도 디스플레이한다.
레코딩이 종료되는 경우, 대응하는 스티커 정보가 또한 비디오에서 발생한다.
여기서, 스티커 정보는 다음과 같은 타입을 포함한다.
A) 떨어지는 금화, 흔들리는 빨간 패킷, 꽃이 피는 것을 포함하는 일반 스티커;
B) 얼굴의 블러셔 및 안경과 같이, 오감 기관의 지정된 위치에서 발생하도록 지정될 수 있고 오감 기관이 이동함에 따라 이동할 수 있는, 오감 기관 스티커;
C) 특정 행동이 검출되는 경우 발생하는 변화하는 스티커의 그룹인 트리거 타입 스티커, 여기서 발생하는 스티커 그룹은 일반 스티커이거나 오감 기관 스티커 일 수 있음; 및
D) 도 8에 도시된 "많이 먹어도 날씬해지기"의 프레임 타입 스티커와 같이, 비디오의 최상부를 커버(cover)하고 덮고 반복적으로 재생되는 비디오의 여러 프레임인, 배경 스티커.
전술한 4가지 타입 스티커 정보 중, 도 17에 도시된 트리거 타입 스티커 및 오감 기관 타입 스티커가 스티커 정보와 레코딩된 비디오에 중첩되는 특징 좌표의 조합을 필요로 한다. 표정, 행동 및 오감 기관의 변화에 따라 좌표가 변화하기 때문에, 트리거 타입 스티커 및 오감 기관 타입 스티커는 도 17의 특징 검출기 및 재료 분석기와 상호 작용할 필요가 있으며, 그리고 나서 비디오 합성기(video synthesizer)와 상호 작용한다. 그러나 트리거 타입 스티커 및 오감 기관 타입 스티커보다 다른 타입의 스티커(일반 스티커와 배경 스티커)의 경우, 스티커 정보가 레코딩된 비디오와 직접 합성된다. 즉, 좌표가 일반적으로 변화하지 않기 때문에, 다른 타입의 스티커는 단지 도 17의 비디오 합성기와 상호 작용한다.
도 7 내지 도 12에 도시된 최종 효과를 달성하기 위해, 기술 구현에는 다음 내용이 포함된다.
첫째, 각 비디오의 스티커 정보는 재료 패킷의 재료의 일부로서 사용되며, 재료와 함께 전달된다. 스티커 정보 이외에, 재료는 스티커 정보의 디스크립션 파일 등을 더 포함한다.
둘째, 동적 재료는 다음의 두 부분을 포함한다.
A) 주로 i) 정적 차트렛(chartle), ii) 동적 그래픽 상호교환 포맷(graphics interchange format, Gif) 이미지 및 iii) 비디오의 3가지 포맷을 갖는 스티커 정보의 초기 형태. 이미지 타입 스티커 정보 파일(예를 들어, 정적 차트렛 및 동적 Gif 이미지)의 경우, 비디오 합성은 PNG(Portable Network Graphic Format) 이미지와 같은 투명도를 가지는 이미지를 중첩시키는 것에 의해 구현될 수 있다. 그러나 대부분의 비디오 타입 스티커 정보 파일(예를 들어, 비디오)의 경우, 비디오 타입 스티커 정보 파일은 투명도를 가지지 않으며, 따라서, 비디오가 재료로 사용되는 경우, 재료 비디오의 해상도는 촬영된(shot) 비디오의 2배이다. 픽셀의 절반은 스티커의 RGB 값을 나타내는 데 사용되며, 나머지 절반은 스티커의 투명도를 나타내는 데 사용된다. 구체적으로, 비디오 타입 스티커 정보의 저장 방식은, RGB와 투명도가 분리된 채널에 있고, 도 16에 도시된 바와 같이, 촬영된 비디오는 재료 RGB(material RGB)인 절반과 재료 투명도(material transparency)인 나머지 절반과 저장된다. RGB와 같은 컬러 모드는 컬러 표준이다. 적색(R), 녹색(G), 청색(B)의 3색의 채널에서의 변화 그리고 3색의 중첩에 의해 다양한 색이 획득될 수 있다. RGB는 R, G, B의 채널의 색을 나타낸다. 본 표준은 인간의 시력에 의해 인지 가능한 모든 색을 거의 포함한다.
합성 비디오를 획득하기 위해 스티커 정보 및 촬영된 비디오에 대해 비디오 중첩이 수행되는 경우, 스티커 정보 상의 픽셀의 투명도가 a 일 때, 합성 비디오의 RGB 값 = a * 비디오 타입 스티커 정보의 RGB 값 +(1-a) * 촬영된 비디오의 RGB 값이다.
B) 스티커의 디스크립션 파일은 i) 차트렛에서 발생하는 중심점의 위치 및 ii) 차트렛이 발생하는 시간을 포함한다. 따라서, 단말은 스티커 정보 및 스티커의 디스크립션 파일에 따라 스티커를 적극적으로 푸시할 수 있으므로, 레코딩되는 비디오의 적절한 시점에서 적절한 위치에 적절한 동적 스티커가 중첩될 수 있고, 사용자는 스티커를 수동으로 선택할 필요가 없다. 차트렛이 발생하는 시간은 a) 한 번 재생되는 동적 차트렛의 경우, 시작 시간이 설정되어야 하는 것, b) 반복적으로 재생되는 동적 차트렛의 경우, 시작 시간과 종료 시간이 설정되어야 하는 것을 포함한다.
C): i) 머리 꼭대기(top of head), ii) 눈, iii) 뺨, iv) 입 및 v) 코에 관한 정보를 포함하는 오감 기관 정보는 오감 기관 타입 스티커에 대해 설정되어야 한다.
D) 구체적으로 i) 입을 열기; ii) 눈을 깜박이기. iii) 미소짓기; iv) 눈썹 올리기(raising the eyebrows)를 포함하는 트리거 조건은 트리거 타입 스티커에 대해 설정되어야 한다.
E) 상이한 재료들 사이의 계층적 관계.
셋째, 재료가 미리 보기되는(previewed) 경우, 동적 스티커의 파일이 파싱된다.
네 번째, 비디오 레코딩 동안에 동적 스티커는 스티커 정보의 디스크립션 파일에 따라 드로잉되므로, 동적 스티커를 실시간으로 볼 수 있다. 동적 스티커가 오감 기관 타입 스티커 또는 트리거 타입 스티커이면, 동적 스티커는 시스템 구성 요소로서 얼굴 검출 알고리즘을 더 포함한다. 얼굴 검출 알고리즘은 기존의 얼굴 검출 알고리즘을 사용하고, 얼굴 검출 알고리즘은 특허 범위 내에 속하지 않는다는 점에 유의할 필요가 있다. 스티커를 드로잉하는 동안, 전체 시스템의 개략적인 구조도인 도 17에 도시된 바와 같이, 얼굴 검출 결과에 따라 스티커가 적절한 위치에 드로잉된다. 일 실시 예에서, 도 7에 도시된 모듈들이 단말측에 위치된다. 트리거 타임 스티커와 오감 기관 타입 스티커의 경우, 스티커 정보가 특징 좌표와 결합한 다음에 레코딩된 비디오와 합성되어야 한다. 즉, 좌표가 표정, 행동 및 오감 기관 변화에 따라 변화되기 때문에, 트리거 타입 스티커와 오감 기관 타입 스티커는 특징 검출기 및 재료 분석기와 상호 작용해야 하며,비디오 합성기와 상호 작용해야 한다. 구체적으로, 단말은 애플리케이션(예를 들어, 카메라 애플리케이션)을 사용하여 원본 비디오를 촬영한다. 촬영 동안에, 단말은 특징 검출기를 사용하여 원본 비디오의 각각의 이미지 내 얼굴 영역 또는 프레이밍 박스에서의 사용자 행동의 특징을 검출하여, 분석에 의해 특정한 특징 파라미터 및 대응하는 특징 좌표를 획득한다. 특징 좌표는 원래 좌표와 형태가 변한 후의 타겟 좌표를 포함한다. 단말은 매칭에 의해 서버에 의해 획득된 특징 파라미터를 기반으로 서버에 의해 송신된 스티커 정보 및 스티커 정보의 디스크립션 파일을 수신한 후, 재료 분석기를 사용하여 스티커 정보 및 스티커 정보의 디스크립션 파일을 파싱하여, 스티커 정보 및 그 속성, 중첩 위치 및 중첩 시점과 같은 정보를 획득한다. 특징 좌표, 스티커 정보의 디스크립션 파일에 의해 지시되는 중접 위치 및 중첩 시점과 같은 정보에 따라 비디오 합성기를 사용하여, 스티커 정보 및 현재 촬영되는 원본 비디오에 대해 비디오 합성이 수행됨으로써, 스티커 정보를 포함하는 비디오 처리 결과가 생성된다. 트리거 타입 스티커 및 오감 기관 타입 스티커보다 다른 타입의 스티커(일반 스티커 및 배경 스티커)의 경우, 스티커 정보는 레코딩된 비디오와 직접 합성되며, 즉, 좌표가 일반적으로 변화하지 않기 때문에 스티커 정보는 단지 비디오 합성기와 상호 작용한다. 구체적으로, 단말은 애플리케이션(예를 들어, 카메라 애플리케이션)을 사용하여 원본 비디오를 촬영한다. 촬영 동안에, 매칭에 의해 서버에 의해 획득된 텍스트 정보에 기반하여 서버에 의해 송신된 스티커 정보 및 스티커 정보의 디스크립션 파일을 수신한 후, 단말은 재료 분석기를 사용하여 스티커 정보 및 스티커 정보의 디스크립션 파일을 파싱하여, 스티커 정보 및 그 속성, 중첩 위치 및 중첩 시점과 같은 정보를 획득한다. 특징 좌표, 스티커 정보의 디스크립션 파일에 의해 지시되는 중접 위치 및 중첩 시점과 같은 정보에 따라 비디오 합성기를 사용하여, 스티커 정보 및 현재 촬영되는 원본 비디오에 대해 비디오 합성이 수행됨으로써, 스티커 정보를 포함하는 비디오 처리 결과가 생성된다.
다섯째, 비디오 레코딩 동안에 동적 스티커가 최종적으로 비디오에 레코딩되고, 비디오 레코딩이 종료된다.
본 출원에서 제공된 몇몇 실시 예에서, 개시된 장치 및 방법은 다른 방식으로 구현될 수 있다는 것을 이해해야 한다. 기술된 장치 실시 예는 단지 예시적인 것이다. 예를 들어, 유닛 구분은 논리적인 기능적 구분일 뿐이며 실제 구현에서는 다른 구분일 수 있다. 예를 들어, 다수의 유닛 또는 구성 요소가 결합되거나 다른 시스템에 통합되거나 일부 기능이 무시되거나 수행되지 않을 수 있다. 또한, 디스플레이되거나 논의된 상호 커플링 또는 직접적인 커플링 또는 구성 요소 사이의 통신 연결은 일부 인터페이스, 디바이스 또는 유닛간 간접 커플링 또는 통신 연결 또는 전기적 연결, 기계 연결 또는 다른 형태의 연결을 통해 구현될 수 있다.
분리된 부분으로 기술된 유닛은 물리적으로 분리될 수도 있고 분리되지 않을 수도 있다. 디스플레이 유닛으로 사용된 부분은 물리적 장치일 수도 있고 아닐 수도 있다. 즉, 유닛은 동일한 장소에 위치하거나 많은 네트워크 유닛에 분산될 수 있다. 유닛들의 일부 또는 전부는 실시 예의 해결 방안의 목적을 구현하기 위해 실제 요구 사항에 따라 선택될 필요가 있다.
또한, 본 출원의 실시 예의 기능 유닛은 모두 제2 처리 유닛에 통합되거나, 각 유닛이 하나의 유닛으로서 개별적으로 사용되거나, 둘 이상의 유닛이 하나의 유닛으로 통합될 수 있다. 통합 유닛은 하드웨어의 형태로 구현될 수 있거나, 하드웨어 및 소프트웨어 기능 유닛의 형태로 구현될 수 있다.
당업자는 방법 실시 예를 구현하기 위한 일부 또는 모든 단계가 프로그램 명령과 관련된 하드웨어를 사용하여 구현될 수 있다는 것을 이해할 수 있다. 프로그램은 컴퓨터 판독 가능 저장 매체에 저장될 수 있다. 프로그램이 실행되는 경우, 방법 실시 예들을 포함하는 단계들이 수행된다. 그러나 저장 매체는 예를 들어 모바일 저장 장치, ROM, RAM, 자기 디스크 또는 광 디스크와 같은 프로그램 코드를 저장할 수 있는 다양한 타입의 매체를 포함한다.
다르게는, 본 출원에서, 소프트웨어 기능 모듈의 형태로 구현되고 독립적인 제품으로서 판매되거나 사용되면, 통합 모듈은 컴퓨터 판독 가능 저장 매체에 저장될 수 있다. 이러한 이해에 기초하여, 본 출원의 실시 예의 기술적 해결방안 또는 종래 기술에 기여하는 부분은 소프트웨어 제품의 형태로 구현될 수 있다. 컴퓨터 소프트웨어 제품은 저장 매체에 저장되며, 컴퓨터 디바이스(PC, 서버, 네트워크 디바이스 등일 수 있음)가 본 출원의 실시 예에 기술된 방법의 전부 또는 일부를 수행하도록 지시하기 위한 몇 가지 명령을 포함한다. 전술한 저장 매체는 착탈식 저장 디바이스, ROM, RAM, 자기 디스크 또는 광학 디스크와 같은 프로그램 코드를 저장할 수 있는 임의의 매체를 포함한다.
전술한 설명은 본 출원의 특정 구현 예일 뿐이며, 본 출원의 보호 범위를 제한하려는 것은 아니다. 본 출원에 개시된 기술적 범위 내에서 당업자에 의해 용이하게 이해되는 임의의 변형 또는 대체는 본 출원의 보호 범위 내에 있다. 그러므로 본 출원의 보호 범위는 청구 범위의 보호 범위를 따라야 한다.

Claims (17)

  1. 정보 처리 방법으로서,
    단말이, 제1 동작(operation)을 획득하여 제1 미디어 정보의 수집을 트리거하는 단계;
    상기 제1 미디어 정보를 수집하는 동안에, 얼굴 영역에서 미리 설정된 조건을 만족하는 표정(expression) 변화 또는 수집 박스(box)에서 미리 설정된 조건을 만족하는 사용자 행동(action) 변화를 검출하는 경우, 상기 단말이, 검출된 표정 변화 또는 사용자 행동 변화의 변화량을 키(key) 정보로서 서버에 보고하는 단계;
    상기 단말이, 상기 키 정보에 대응하고 상기 서버에 의해 푸시된(pushed) 제2 미디어 정보를 수신하는 단계;
    상기 단말이, 상기 표정 변화 또는 상기 사용자 행동 변화의 특징의 특징 좌표를 결정하는 단계; 및
    상기 제1 미디어 정보 및 상기 제2 미디어 정보에 대한 비디오 합성(video synthesis)을 수행하여, 상기 특징 좌표에 따라서 결정된 위치에 상기 제2 미디어 정보를 디스플레이하는 단계
    를 포함하고,
    상기 제2 미디어 정보는, 디스플레이를 위해 상기 표정 변화 또는 상기 사용자 행동 변화에 의해 트리거되는 제1 타입 스티커 정보를 포함하고,
    상기 제2 미디어 정보가 상기 제1 타입 스티커 정보인 경우, 상기 특징 좌표는 상기 표정 변화 또는 상기 사용자 행동 변화의 특징의 초기 좌표 및 상기 특징의 타겟 좌표를 포함하고,
    상기 제1 미디어 정보 및 상기 제2 미디어 정보에 대한 비디오 합성을 수행하는 것은,
    상기 특징의 타겟 좌표를 사용하여 또는 상기 특징의 초기 좌표로부터 상기 특징의 타겟 좌표까지 결정된 위치 영역을 사용하여 위치 결정된(positioned) 위치점(location point)에 따라, 상기 제1 타입 스티커 정보가 중첩될(superposed) 위치를 결정하는 것;
    상기 수신된 제1 타입 스티커 정보의 디스크립션 파일을 파싱(parsing)하여 상기 제1 타입 스티커 정보의 디스플레이 시간을 획득하는 것; 및
    상기 결정된 위치 및 상기 파싱에 의해 획득된 상기 제1 타입 스티커 정보의 상기 디스플레이 시간에 따라, 상기 제1 타입 스티커 정보 및 상기 제1 미디어 정보에 대한 비디오 합성을 수행하는 것
    을 포함하는,
    정보 처리 방법.
  2. 제1항에 있어서,
    상기 키 정보는 상기 제1 미디어 정보에서의 텍스트 정보를 더 포함하고,
    상기 제1 미디어 정보를 수집하는 동안에 상기 텍스트 정보를 검출하고, 상기 검출된 텍스트 정보를 상기 키 정보로서 상기 서버에 보고하는 단계
    를 더 포함하는 정보 처리 방법.
  3. 제2항에 있어서,
    상기 제1 미디어 정보 및 상기 제2 미디어 정보에 대한 비디오 합성을 수행하여, 상기 특징 좌표에 따라서 결정된 위치에 상기 제2 미디어 정보를 디스플레이하는 단계 이전에,
    상기 단말이, 상기 키 정보에 대응하고 상기 서버에 의해 푸시된 상기 제2 미디어 정보의 디스크립션(description) 파일을 수신하는 단계
    를 더 포함하는 정보 처리 방법.
  4. 제3항에 있어서,
    상기 디스크립션 파일은 상기 제1 미디어 정보에 관련된 상기 제2 미디어 정보의 위치(location) 및 상기 제2 미디어 정보의 디스플레이 시간을 포함하는, 정보 처리 방법.
  5. 제4항에 있어서,
    상기 제1 미디어 정보 및 상기 제2 미디어 정보에 대한 비디오 합성을 수행하여, 상기 특징 좌표에 따라서 결정된 위치에 상기 제2 미디어 정보를 디스플레이하는 단계는,
    상기 디스크립션 파일에 따라 상기 제1 미디어 정보와 상기 제2 미디어 정보에 대한 비디오 합성을 수행하여, 상기 디스크립션 파일에 의해 지정된 상기 디스플레이 시간 내에, 상기 디스크립션 파일에 의해 지정된 상기 제1 미디어 정보의 위치에서 상기 제2 미디어 정보를 디스플레이하는 단계를 포함하는, 정보 처리 방법.
  6. 제2항에 있어서,
    상기 제2 미디어 정보는, 디스플레이를 위해 상기 텍스트 정보에 의해 트리거되는 제2 타입 스티커 정보를 더 포함하는, 정보 처리 방법.
  7. 제6항에 있어서,
    상기 제2 미디어 정보가 상기 제2 타입 스티커 정보인 경우,
    상기 제1 미디어 정보 및 상기 제2 미디어 정보에 대한 비디오 합성을 수행하는 단계는,
    상기 수신된 제2 타입 스티커 정보의 디스크립션 파일을 파싱하여 상기 제1 미디어 정보에 관련된 상기 제2 타입 스티커 정보의 위치 및 상기 제2 타입 스티커 정보의 디스플레이 시간을 획득하는 단계; 및
    상기 획득된 위치 및 상기 디스플레이 시간에 따라, 상기 제2 타입 스티커 정보 및 상기 제1 미디어 정보에 대한 비디오 합성을 수행하는 단계
    를 포함하는, 정보 처리 방법.
  8. 단말로서,
    제1 동작을 획득하여 제1 미디어 정보의 수집을 트리거하도록 구성된 트리거 유닛;
    상기 제1 미디어 정보를 수집하는 동안에, 얼굴 영역에서 미리 설정된 조건을 만족하는 표정 변화 또는 수집 박스에서 미리 설정된 조건을 만족하는 사용자 행동 변화를 검출하는 경우, 검출된 표정 변화 또는 사용자 행동 변화의 변화량을 키 정보로서 서버에 보고하도록 구성된 검출 유닛;
    상기 키 정보에 대응하고 상기 서버에 의해 푸시된 제2 미디어 정보를 수신하도록 구성된 수신 유닛; 및
    상기 표정 변화 또는 상기 사용자 행동 변화의 특징의 특징 좌표를 결정하고, 상기 제1 미디어 정보 및 상기 제2 미디어 정보에 대한 비디오 합성(video synthesis)을 수행하여 상기 특징 좌표에 따라서 결정된 위치에 상기 제2 미디어 정보를 디스플레이하도록 구성된 합성 유닛
    을 포함하고,
    상기 제2 미디어 정보는, 디스플레이를 위해 상기 표정 변화 또는 상기 사용자 행동 변화에 의해 트리거되는 제1 타입 스티커 정보를 포함하고,
    상기 제2 미디어 정보가 상기 제1 타입 스티커 정보인 경우, 상기 특징 좌표는 상기 표정 변화 또는 상기 사용자 행동 변화의 특징의 초기 좌표 및 상기 특징의 타겟 좌표를 포함하고,
    상기 합성 유닛은 추가로,
    상기 특징의 타겟 좌표를 사용하여 또는 상기 특징의 초기 좌표로부터 상기 특징의 타겟 좌표까지 결정된 위치 영역을 사용하여 위치 결정된 위치점에 따라, 상기 제1 타입 스티커 정보가 중첩될 위치를 결정하고;
    상기 수신된 제1 타입 스티커 정보의 디스크립션 파일을 파싱하여 상기 제1 타입 스티커 정보의 디스플레이 시간을 획득하며; 그리고
    상기 결정된 위치 및 상기 파싱에 의해 획득된 상기 제1 타입 스티커 정보의 상기 디스플레이 시간에 따라, 상기 제1 타입 스티커 정보 및 상기 제1 미디어 정보에 대한 비디오 합성을 수행하도록 추가로 구성되는,
    단말.
  9. 제8항에 있어서,
    상기 키 정보는 상기 제1 미디어 정보에서의 텍스트 정보를 더 포함하고,
    상기 검출 유닛은 추가로,
    상기 제1 미디어 정보를 수집하는 동안에 상기 텍스트 정보를 검출하고, 상기 검출된 텍스트 정보를 상기 키 정보로서 상기 서버에 보고하도록 구성되는, 단말.
  10. 제9항에 있어서,
    상기 수신 유닛은 추가로,
    상기 키 정보에 대응하고 상기 서버에 의해 푸시된 상기 제2 미디어 정보의 디스크립션 파일을 수신하도록 구성되는, 단말.
  11. 제10항에 있어서,
    상기 디스크립션 파일은 상기 제1 미디어 정보에 관련된 상기 제2 미디어 정보의 위치 및 상기 제2 미디어 정보의 디스플레이 시간을 포함하는, 단말.
  12. 제11항에 있어서,
    상기 합성 유닛은 추가로,
    상기 디스크립션 파일에 따라 상기 제1 미디어 정보와 상기 제2 미디어 정보에 대한 비디오 합성을 수행하여, 상기 디스크립션 파일에 의해 지정된 상기 디스플레이 시간 내에, 상기 디스크립션 파일에 의해 지정된 상기 제1 미디어 정보의 위치에서 상기 제2 미디어 정보를 디스플레이하도록 구성되는, 단말.
  13. 제9항에 있어서,
    상기 제2 미디어 정보는, 디스플레이를 위해 상기 텍스트 정보에 의해 트리거되는 제2 타입 스티커 정보를 더 포함하는, 단말.
  14. 제13항에 있어서,
    상기 제2 미디어 정보가 상기 제2 타입 스티커 정보인 경우,
    상기 합성 유닛은 추가로,
    상기 수신된 제2 타입 스티커 정보의 디스크립션 파일을 파싱하여 상기 제1 미디어 정보에 관련된 상기 제2 타입 스티커 정보의 위치 및 상기 제2 타입 스티커 정보의 디스플레이 시간을 획득하고; 그리고
    상기 획득된 위치 및 상기 디스플레이 시간에 따라, 상기 제2 타입 스티커 정보 및 상기 제1 미디어 정보에 대한 비디오 합성을 수행하도록 구성되는, 단말.
  15. 프로그램을 저장하는 비휘발성 저장 매체로서,
    상기 비휘발성 저장 매체에 저장된 상기 프로그램이 적어도 하나의 프로세서를 포함하는 컴퓨터 디바이스에 의해 실행되는 경우, 상기 프로그램이 상기 컴퓨터 디바이스가 청구항 제1항 내지 제7항 중 어느 한 항에 따른 상기 정보 처리 방법을 수행하도록 할 수 있는, 비휘발성 저장 매체.
  16. 삭제
  17. 삭제
KR1020187026680A 2016-03-14 2017-03-14 정보 처리 방법 및 단말 KR102135215B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610143985.2 2016-03-14
CN201610143985.2A CN105791692B (zh) 2016-03-14 2016-03-14 一种信息处理方法、终端及存储介质
PCT/CN2017/076576 WO2017157272A1 (zh) 2016-03-14 2017-03-14 一种信息处理方法及终端

Publications (2)

Publication Number Publication Date
KR20180112848A KR20180112848A (ko) 2018-10-12
KR102135215B1 true KR102135215B1 (ko) 2020-07-17

Family

ID=56392673

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187026680A KR102135215B1 (ko) 2016-03-14 2017-03-14 정보 처리 방법 및 단말

Country Status (5)

Country Link
US (1) US11140436B2 (ko)
JP (1) JP2019504532A (ko)
KR (1) KR102135215B1 (ko)
CN (1) CN105791692B (ko)
WO (1) WO2017157272A1 (ko)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105791692B (zh) * 2016-03-14 2020-04-07 腾讯科技(深圳)有限公司 一种信息处理方法、终端及存储介质
CN106303293B (zh) * 2016-08-15 2019-07-30 Oppo广东移动通信有限公司 视频处理方法、装置及移动终端
CN107343220B (zh) * 2016-08-19 2019-12-31 北京市商汤科技开发有限公司 数据处理方法、装置和终端设备
CN106210545A (zh) * 2016-08-22 2016-12-07 北京金山安全软件有限公司 一种视频拍摄方法、装置及电子设备
CN106373170A (zh) * 2016-08-31 2017-02-01 北京云图微动科技有限公司 一种视频制作方法及装置
US11049147B2 (en) * 2016-09-09 2021-06-29 Sony Corporation System and method for providing recommendation on an electronic device based on emotional state detection
CN106339201A (zh) * 2016-09-14 2017-01-18 北京金山安全软件有限公司 贴图处理方法、装置和电子设备
CN106341608A (zh) * 2016-10-28 2017-01-18 维沃移动通信有限公司 一种基于情绪的拍摄方法及移动终端
CN106683120B (zh) * 2016-12-28 2019-12-13 杭州趣维科技有限公司 追踪并覆盖动态贴纸的图像处理方法
JP6520975B2 (ja) * 2017-03-16 2019-05-29 カシオ計算機株式会社 動画像処理装置、動画像処理方法及びプログラム
US10515199B2 (en) * 2017-04-19 2019-12-24 Qualcomm Incorporated Systems and methods for facial authentication
CN107529029A (zh) * 2017-07-31 2017-12-29 深圳回收宝科技有限公司 一种在检测文件中添加标签的方法、设备以及存储介质
KR101968723B1 (ko) * 2017-10-18 2019-04-12 네이버 주식회사 카메라 이펙트를 제공하는 방법 및 시스템
CN108024071B (zh) * 2017-11-24 2022-03-08 腾讯数码(天津)有限公司 视频内容生成方法、视频内容生成装置及存储介质
CN107995499B (zh) * 2017-12-04 2021-07-23 腾讯科技(深圳)有限公司 媒体数据的处理方法、装置及相关设备
US10410060B2 (en) * 2017-12-14 2019-09-10 Google Llc Generating synthesis videos
CN108388557A (zh) * 2018-02-06 2018-08-10 腾讯科技(深圳)有限公司 消息处理方法、装置、计算机设备和存储介质
CN108737715A (zh) * 2018-03-21 2018-11-02 北京猎户星空科技有限公司 一种拍照方法及装置
CN113658298A (zh) * 2018-05-02 2021-11-16 北京市商汤科技开发有限公司 特效程序文件包的生成及特效生成方法与装置
CN110163861A (zh) 2018-07-11 2019-08-23 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质和计算机设备
CN108958610A (zh) * 2018-07-27 2018-12-07 北京微播视界科技有限公司 基于人脸的特效生成方法、装置和电子设备
CN109213932B (zh) * 2018-08-09 2021-07-09 咪咕数字传媒有限公司 一种信息推送方法及装置
CN109388501B (zh) * 2018-08-31 2024-03-05 平安科技(深圳)有限公司 基于人脸识别请求的通信匹配方法、装置、设备及介质
CN109379623A (zh) * 2018-11-08 2019-02-22 北京微播视界科技有限公司 视频内容生成方法、装置、计算机设备和存储介质
CN109587397A (zh) * 2018-12-03 2019-04-05 深圳市优炫智科科技有限公司 基于人脸检测动态贴图的儿童相机及其动态贴图方法
CN109660855B (zh) * 2018-12-19 2021-11-02 北京达佳互联信息技术有限公司 贴纸显示方法、装置、终端及存储介质
CN111695376A (zh) * 2019-03-13 2020-09-22 阿里巴巴集团控股有限公司 视频处理方法、视频处理装置及电子设备
CN110139170B (zh) * 2019-04-08 2022-03-29 顺丰科技有限公司 视频贺卡生成方法、装置、系统、设备及存储介质
CN112019919B (zh) * 2019-05-31 2022-03-15 北京字节跳动网络技术有限公司 视频贴纸的添加方法、装置及电子设备
CN110784762B (zh) * 2019-08-21 2022-06-21 腾讯科技(深圳)有限公司 一种视频数据处理方法、装置、设备及存储介质
CN110782510A (zh) * 2019-10-25 2020-02-11 北京达佳互联信息技术有限公司 一种贴纸生成方法及装置
CN111177542B (zh) * 2019-12-20 2021-07-20 贝壳找房(北京)科技有限公司 介绍信息的生成方法和装置、电子设备和存储介质
US11675494B2 (en) * 2020-03-26 2023-06-13 Snap Inc. Combining first user interface content into second user interface
CN111556335A (zh) * 2020-04-15 2020-08-18 早安科技(广州)有限公司 一种视频贴纸处理方法及装置
KR20210135683A (ko) 2020-05-06 2021-11-16 라인플러스 주식회사 인터넷 전화 기반 통화 중 리액션을 표시하는 방법, 시스템, 및 컴퓨터 프로그램
CN111597984B (zh) * 2020-05-15 2023-09-26 北京百度网讯科技有限公司 贴纸测试方法、装置、电子设备及计算机可读存储介质
CN113709573B (zh) 2020-05-21 2023-10-24 抖音视界有限公司 配置视频特效方法、装置、设备及存储介质
CN111627115A (zh) * 2020-05-26 2020-09-04 浙江商汤科技开发有限公司 互动合影方法及装置、互动装置以及计算机存储介质
CN111757175A (zh) * 2020-06-08 2020-10-09 维沃移动通信有限公司 视频处理方法及装置
CN111726701B (zh) * 2020-06-30 2022-03-04 腾讯科技(深圳)有限公司 信息植入方法、视频播放方法、装置和计算机设备
EP4315267A1 (en) * 2021-03-31 2024-02-07 Snap Inc. Customizable avatar generation system
US11941227B2 (en) 2021-06-30 2024-03-26 Snap Inc. Hybrid search system for customizable media
US11689765B1 (en) * 2021-12-31 2023-06-27 The Nielsen Company (Us), Llc Methods and apparatus for obfuscated audience identification
CN114513705A (zh) * 2022-02-21 2022-05-17 北京字节跳动网络技术有限公司 视频显示方法、装置和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006311328A (ja) * 2005-04-28 2006-11-09 Sony Corp 字幕生成装置及び方法
JP2009077380A (ja) 2007-09-24 2009-04-09 Fuji Xerox Co Ltd 画像修正方法、画像修正システム、及び画像修正プログラム
JP2010066844A (ja) * 2008-09-09 2010-03-25 Fujifilm Corp 動画コンテンツの加工方法及び装置、並びに動画コンテンツの加工プログラム
JP2010246085A (ja) * 2009-04-01 2010-10-28 Avaya Inc 視覚的情報の記憶行列を提供するための身振りの解釈
JP2013046358A (ja) * 2011-08-26 2013-03-04 Nippon Hoso Kyokai <Nhk> コンテンツ再生装置及びコンテンツ再生プログラム
US20160196584A1 (en) 2015-01-06 2016-07-07 Facebook, Inc. Techniques for context sensitive overlays

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006211120A (ja) * 2005-01-26 2006-08-10 Sharp Corp 文字情報表示機能を備えた映像表示システム
JP2006330958A (ja) * 2005-05-25 2006-12-07 Oki Electric Ind Co Ltd 画像合成装置、ならびにその装置を用いた通信端末および画像コミュニケーションシステム、ならびにそのシステムにおけるチャットサーバ
US8766983B2 (en) * 2006-05-07 2014-07-01 Sony Computer Entertainment Inc. Methods and systems for processing an interchange of real time effects during video communication
JP2009141516A (ja) * 2007-12-04 2009-06-25 Olympus Imaging Corp 画像表示装置,カメラ,画像表示方法,プログラム,画像表示システム
TW201021550A (en) * 2008-11-19 2010-06-01 Altek Corp Emotion-based image processing apparatus and image processing method
CN102427553A (zh) * 2011-09-23 2012-04-25 Tcl集团股份有限公司 一种电视节目播放方法、系统及电视机和服务器
US20140111542A1 (en) * 2012-10-20 2014-04-24 James Yoong-Siang Wan Platform for recognising text using mobile devices with a built-in device video camera and automatically retrieving associated content based on the recognised text
US9251405B2 (en) * 2013-06-20 2016-02-02 Elwha Llc Systems and methods for enhancement of facial expressions
US9697648B1 (en) * 2015-12-23 2017-07-04 Intel Corporation Text functions in augmented reality
CN105791692B (zh) * 2016-03-14 2020-04-07 腾讯科技(深圳)有限公司 一种信息处理方法、终端及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006311328A (ja) * 2005-04-28 2006-11-09 Sony Corp 字幕生成装置及び方法
JP2009077380A (ja) 2007-09-24 2009-04-09 Fuji Xerox Co Ltd 画像修正方法、画像修正システム、及び画像修正プログラム
JP2010066844A (ja) * 2008-09-09 2010-03-25 Fujifilm Corp 動画コンテンツの加工方法及び装置、並びに動画コンテンツの加工プログラム
JP2010246085A (ja) * 2009-04-01 2010-10-28 Avaya Inc 視覚的情報の記憶行列を提供するための身振りの解釈
JP2013046358A (ja) * 2011-08-26 2013-03-04 Nippon Hoso Kyokai <Nhk> コンテンツ再生装置及びコンテンツ再生プログラム
US20160196584A1 (en) 2015-01-06 2016-07-07 Facebook, Inc. Techniques for context sensitive overlays

Also Published As

Publication number Publication date
US20180249200A1 (en) 2018-08-30
JP2019504532A (ja) 2019-02-14
KR20180112848A (ko) 2018-10-12
US11140436B2 (en) 2021-10-05
CN105791692A (zh) 2016-07-20
WO2017157272A1 (zh) 2017-09-21
CN105791692B (zh) 2020-04-07

Similar Documents

Publication Publication Date Title
KR102135215B1 (ko) 정보 처리 방법 및 단말
US11928303B2 (en) Shared-content session user interfaces
WO2020063319A1 (zh) 动态表情生成方法、计算机可读存储介质和计算机设备
CN104094593B (zh) 终端、视频通话控制服务器及利用它们的视频通话系统及方法
EP2996016B1 (en) Information processing device and application execution method
EP2891119B1 (en) Mobile video conferencing with digital annotation
US8044989B2 (en) Mute function for video applications
EP3195601B1 (en) Method of providing visual sound image and electronic device implementing the same
US11100354B2 (en) Mark information recording apparatus, mark information presenting apparatus, mark information recording method, and mark information presenting method
US20130120602A1 (en) Taking Photos With Multiple Cameras
US20190222806A1 (en) Communication system and method
CN105874780A (zh) 对一组图像生成文本色彩的方法和装置
CN105120169B (zh) 一种信息处理方法及电子设备
CN108173742A (zh) 一种图像数据处理方法、装置
CN110035329A (zh) 图像处理方法、装置及存储介质
CN112995418B (zh) 视频彩铃播放方法、发送方法及相关设备
US11394888B2 (en) Personalized videos
US20200126564A1 (en) Review system for online communication, method, and computer program
EP4057633A1 (en) Video processing method and apparatus, and terminal device
US20180268049A1 (en) Providing a heat map overlay representative of user preferences relating to rendered content
CN109271929A (zh) 检测方法和装置
CN110046020B (zh) 电子设备、计算机可读存储介质及电子设备处执行的方法
CN105323624B (zh) 一种录制视频的方法、装置和系统
US20110304644A1 (en) Electronic apparatus and image display method
JP5614154B2 (ja) 撮影情報処理プログラムおよび撮影情報処理装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant