KR20210152396A - 비디오 처리 방법, 장치, 전자 기기 및 기록 매체 - Google Patents

비디오 처리 방법, 장치, 전자 기기 및 기록 매체 Download PDF

Info

Publication number
KR20210152396A
KR20210152396A KR1020210072374A KR20210072374A KR20210152396A KR 20210152396 A KR20210152396 A KR 20210152396A KR 1020210072374 A KR1020210072374 A KR 1020210072374A KR 20210072374 A KR20210072374 A KR 20210072374A KR 20210152396 A KR20210152396 A KR 20210152396A
Authority
KR
South Korea
Prior art keywords
audio data
label
animation
video
special effect
Prior art date
Application number
KR1020210072374A
Other languages
English (en)
Other versions
KR102541051B1 (ko
Inventor
드어씨 자오
Original Assignee
바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 filed Critical 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Publication of KR20210152396A publication Critical patent/KR20210152396A/ko
Application granted granted Critical
Publication of KR102541051B1 publication Critical patent/KR102541051B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2621Cameras specially adapted for the electronic generation of special effects during image pickup, e.g. digital cameras, camcorders, video cameras having integrated special effects capability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/11Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information not detectable on the record carrier
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4888Data services, e.g. news ticker for displaying teletext characters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

본 출원은 비디오 식별과 이해, 및 딥 러닝의 분야에 관한 비디오 처리 방법, 장치, 전자 기기 및 기록 매체를 개시한다. 그 중의 방법은 비디오 재생 과정에서, 예정된 정책에 따라 결정된 처리될 오디오 데이터에 대해, 상기 오디오 데이터는 재생하지 않은 오디오 데이터이며, 각각 하기와 같은 처리를 하고, 상기 오디오 데이터에 대응하는 텍스트 콘텐츠로부터 예정된 요구에 부합되는 단어를 추출하여, 상기 오디오 데이터의 라벨로 하는 단계; 상기 라벨에 따라 상기 오디오 데이터에 대응하는 특효 애니메이션을 결정하는 단계; 및 상기 오디오 데이터의 재생을 시작할 경우, 특효 애니메이션을 대응하는 비디오 화면에 중첩하여 전시하는 단계;를 포함할 수 있다. 상기 방안은 비디오 화면의 프레젠테이션 효과 등을 향상시킬 수 있다.

Description

비디오 처리 방법, 장치, 전자 기기 및 기록 매체{VIDEO PROCESSING METHOD, DEVICE, ELECTRONIC EQUIPMENT AND STORAGE MEDIUM}
본 출원은 컴퓨터 애플리케이션 기술에 관한 것으로, 특히, 비디오 식별과 이해, 및 딥 러닝 분야의 비디오 처리 방법, 장치, 전자 기기 및 기록 매체에 관한 것이다.
현재, 많은 비디오 애플리케이션 또는 웹 사이트는 모두 동영상 댓글 자막과 같은 비디오 재생 시의 인터랙션 방식을 제공하고, 동영상 댓글 자막은 문자와 표정도 등을 포함할 수 있고, 사용자 사이의 인터랙션을 향상시킬 수 있지만, 이러한 방식은 비디오 화면 자체의 프레젠테이션 효과를 향상시킬 수 없다.
본 출원은 비디오 처리 방법, 장치, 전자 기기 및 기록 매체를 제공한다.
비디오 처리 방법은
비디오 재생 과정에서, 예정된 정책에 따라 결정된 처리될 오디오 데이터에 대해, 상기 오디오 데이터는 재생하지 않은 오디오 데이터이며, 각각 하기와 같은 처리, 즉,
상기 오디오 데이터에 대응하는 텍스트 콘텐츠로부터 예정된 요구에 부합되는 단어를 추출하여, 상기 오디오 데이터의 라벨로 하는 단계;
상기 라벨에 따라 상기 오디오 데이터에 대응하는 특효 애니메이션을 결정하는 단계; 및
상기 오디오 데이터의 재생을 시작할 경우, 상기 특효 애니메이션을 대응하는 비디오 화면에 중첩하여 전시하는 단계;를 수행하는 처리를 포함한다.
비디오 처리 장치는 라벨 생성 모듈, 애니메이션 획득 모듈 및 애니메이션 전시 모듈을 포함하고,
상기 라벨 생성 모듈은 비디오 재생 과정에서, 예정된 정책에 따라 결정된 처리될 오디오 데이터에 대해, 상기 오디오 데이터는 재생하지 않은 오디오 데이터이며, 각각 상기 오디오 데이터에 대응하는 텍스트 콘텐츠로부터 예정된 요구에 부합되는 단어를 추출하여, 상기 오디오 데이터의 라벨로 하기 위한 것이고,
상기 애니메이션 획득 모듈은 상기 라벨에 따라 상기 오디오 데이터에 대응하는 특효 애니메이션을 결정하기 위한 것이고,
상기 애니메이션 전시 모듈은 상기 오디오 데이터의 재생을 시작할 경우, 상기 특효 애니메이션을 대응하는 비디오 화면에 중첩하여 전시하기 위한 것이다.
전자 기기이며,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서에 통신 연결되는 메모리를 포함하고,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서에 의해 상기 방법에 기재된 방법을 실행할 수 있다.
컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 기록 매체이며, 상기 컴퓨터 명령은 상기 컴퓨터에 상기 방법에 기재된 방법이 수행되도록 한다.
상술한 출원의 일 실시예는 하기의 이점 또는 유익한 효과를 가진다. 비디오 재생 과정에서, 오디오 데이터에 따라 대응하는 특효 애니메이션을 결정할 수 있고, 특효 애니메이션을 비디오 화면에 중첩하여 전시할 수 있어, 비디오 화면의 프레젠테이션 효과를 향상시키고, 비디오 화면의 콘텐츠가 풍부해지고, 비디오 화면의 재미 등을 향상시킨다. 본 명세서에 설명된 내용은 본 개시의 실시예의 핵심 또는 중요한 특징을 식별하기 위한 것이 아니고, 본 개시의 범위를 한정하려는 것도 아닌 것을 이해해야 한다. 본 개시의 다른 특징은 하기의 설명을 통해 용이하게 이해된다.
첨부 도면은 본 해결수단을 더 잘 이해하기 위한 것으로, 본 출원에 대해 한정하는 것으로 구성되지 않는다.
도 1은 본 출원의 상기 비디오 처리 방법의 제1 실시예의 순서도이다.
도 2는 본 출원의 상기 비디오 처리 방법의 제2의 실시예의 순서도이다.
도 3은 본 출원의 상기 비디오 처리 장치(30)의 실시예의 구성의 구조 개략도이다.
도 4는 본 출원의 실시예의 상기 방법에 관한 전자 기기의 블록도이다.
이하, 첨부된 도면을 결부하여 본 출원의 예시적 실시예를 설명하되, 여기에는 이해를 돕기 위한 본 출원의 실시예의 다양한 세부 사항이 포함되며, 이는 단지 예시적인 것으로 간주되어야 한다. 따라서, 본 기술분야의 통상의 기술자는 본 출원의 범위와 사상을 벗어나지 않으면서, 여기서 설명되는 실시예에 대한 다양한 변경과 수정이 이루어질 수 있음을 이해해야 한다. 마찬가지로, 명확성 및 간결성을 위해, 아래의 설명에서 공지된 기능과 구조에 대한 설명을 생략한다.
또한, 본 명세서의 용어“및/또는”은 관련 대상의 관련 관계를 설명하며 3가지 관계가 존재함을 나타낸다. 예를 들어 A 및/또는 B는, A가 단독으로 존재; A와 B가 동시에 존재; B가 단독으로 존재하는 3가지 경우를 나타낼 수 있다. 캐릭터 "/"는 일반적으로 전후 관련 대상이 "또는”의 관계를 가짐을 나타낸다.
도 1은 본 출원의 상기 비디오 처리 방법의 제1 실시예의 순서도이다. 도 1에 도시된 바와 같이, 하기의 구체적인 실현 방식을 포함한다.
101에서, 비디오 재생 과정에서, 예정된 정책에 따라 결정된 처리될 오디오 데이터에 대해, 상기 오디오 데이터는 재생하지 않은 오디오 데이터이며, 각각 102 내지 104에 표시된 방식에 따라 처리한다.
102에서, 상기 오디오 데이터에 대응하는 텍스트 콘텐츠로부터 예정된 요구에 부합되는 단어를 추출하여, 상기 오디오 데이터의 라벨로 한다.
103에서, 상기 라벨에 따라 상기 오디오 데이터에 대응하는 특효 애니메이션을 결정한다.
104에서, 상기 오디오 데이터의 재생을 시작할 경우, 특효 애니메이션을 대응하는 비디오 화면에 중첩하여 전시한다.
바람직하게, 비디오를 예정된 기간에 따라 M개의 연속 비디오 클립으로 분할할 수 있고, M은 1보다 큰 양의 정수이며, 구체적인 값은 실제의 수요에 따라 결정할 수 있고, 임의의 비디오 클립에 대응하는 오디오 데이터에 대해, 각각 예정된 정책에 따라 오디오 데이터의 일부를 선택하여, 처리될 오디오 데이터로 할 수 있다.
예를 들면, 특정한 비디오 클립을 재생하는 동시에, 다음 비디오 클립에 대응하는 오디오 데이터에서 오디오 데이터의 일부를 선택하여, 처리될 오디오 데이터로 할 수 있고, 102 내지 104에 표시된 방식에 따라 처리할 수 있다.
바람직하게, 비디오 클립에 대응하는 오디오 데이터에서 어의가 가장 완전한 하나의 어구에 대응하는 오디오 데이터를 선택하여, 처리될 오디오 데이터로 할 수 있다.
상술한 방식을 통해, 처리될 오디오 데이터의 수가 너무 많고, 특효 애니메이션을 너무 많이 중첩하고, 자원의 소비를 증가하는 것 등을 피할 수 있다.
처리될 오디오 데이터에 대해, 대응하는 텍스트 콘텐츠로부터 예정된 요구에 부합되는 단어를 추출하여, 상기 오디오 데이터의 라벨로 할 수 있고, 기존의 오디오 식별 기술에 의해, 상기 오디오 데이터에 대응하는 텍스트 콘텐츠를 획득할 수 있다.
바람직하게, 텍스트 콘텐츠에 대해 단어 분할 처리를 할 수 있고, 임의의 단어 분할 결과에 대해, 상기 단어 분할 결과가 미리 생성된 핫 워드 단어 리스트에 존재함을 확인하였을 경우, 상기 단어 분할 결과가 핫 워드(hot word)인 것을 결정할 수 있고, 상기 단어 분할 결과를 오디오 데이터의 라벨로 할 수 있다. 핫 워드 단어 리스트는 수동 또는 자동으로 귀납적인 방식에 의해 생성할 수 있고, 주기적으로 업데이트할 수 있다. 임의의 단어 분할 결과에 대해, 핫 워드 단어 리스트에 존재하는지 여부를 각각 결정할 수 있고, 존재할 경우, 상기 단어 분할 결과를 오디오 데이터의 라벨로 할 수 있다.
핫 워드는 일반적으로, 사용자가 관심 및 흥미를 가지고 있는 콘텐츠이기 때문에, 핫 워드를 추출하는 것을 통해, 후속으로 사용자에게 전시하는 특효 애니메이션이 사용자의 실제 수요 등에 더 적합할 수 있다.
처리될 오디오 데이터에 대해, 또한, 상기 오디오 데이터를 미리 트레이닝된 장면 식별 모델에 입력하고, 식별된 상기 오디오 데이터에 대응하는 장면을 획득하여, 상기 장면을 상기 오디오 데이터의 라벨로 할 수도 있다. 장면 식별 모델은 기계학습 또는 딥 러닝 등의 방식을 사용하여 미리 트레이닝할 수 있다. 장면 식별 모델은 주로 오디오 환경의 소리를 식별하고, 식별 결과는 일반적으로 하나이며, 예를 들면 바다의 물결, 유수, 바람, 또는 폭죽 등일 수 있다. 다른 가능한 실현 방식으로서, 상기 오디오 데이터에 대응하는 비디오 화면 콘텐츠에 따라 상기 오디오 데이터에 대응하는 장면을 식별할 수도 있고, 구체적인 실현 방식은 한정하지 않는다.
장면 식별을 통해, 오디오 데이터의 라벨 콘텐츠와 타입 등을 더 풍부하게 할 수 있다.
또한, 라벨에 따라 오디오 데이터에 대응하는 특효 애니메이션을 결정할 수 있다. 바람직하게, 라벨의 개수가 1일 경우, 상기 라벨에 대응하는 특효 애니메이션을 직접 획득하여, 오디오 데이터에 대응하는 특효 애니메이션으로 할 수 있고, 라벨의 개수가 1보다 클 경우, 먼저, 하나의 라벨을 선택하고, 그 다음에, 선택한 라벨에 대응하는 특효 애니메이션을 획득하여, 오디오 데이터에 대응하는 특효 애니메이션으로 할 수 있다.
라벨의 개수가 1일 경우, 상기 라벨은 핫 워드일 수 있고, 장면일 수도 있고, 핫 워드이든 장면이든 관계없이, 모두 상기 라벨에 대응하는 특효 애니메이션을 직접 획득할 수 있다. 라벨의 개수가 1보다 클 경우, 먼저, 하나의 라벨을 선택할 수 있고, 어떻게 선택하는 것을 한정하지 않고, 예를 들면, 핫 워드의 우선 순위를 장면의 우선 순위보다 높게 설치할 수 있고, 텍스트 콘텐츠 내의 출현 위치가 앞의 핫 워드의 우선 순위가 텍스트 콘텐츠 내의 출현 위치가 뒤의 핫 워드의 우선 순위보다 높게 설치할 수 있고, 우선 순위의 설치에 따라, 하나의 우선 순위가 가장 높은 라벨을 선택하고, 그 다음에, 예를 들면, 장면의 우선 순위를 핫 워드의 우선 순위보다 높게 설치할 수 있고, 텍스트 콘텐츠 내의 출현 위치가 앞의 핫 워드의 우선 순위를 텍스트 콘텐츠 내의 출현 위치가 뒤의 핫 워드의 우선 순위보다 높게 설치할 수 있고, 우선 순위의 설치에 따라, 하나의 우선 순위가 가장 높은 라벨을 선택하고, 구체적인 실현 방식은 한정하지 않고, 그 후, 선택한 라벨에 대응하는 특효 애니메이션을 획득할 수 있다.
임의의 라벨에 대응하는 특효 애니메이션을 획득할 경우, 상기 라벨에 대응하는 특효 애니메이션이 로컬에 저장되어 있는 것이 결정되었을 경우, 로컬에서 상기 라벨에 대응하는 특효 애니메이션을 획득할 수 있고, 상기 라벨에 대응하는 특효 애니메이션이 로컬에 저장되어 있지 않음이 확인되었을 경우, 서버에서 상기 라벨에 대응하는 특효 애니메이션을 획득하여, 로컬에 저장할 수 있다.
즉 우선으로 로컬에서 특효 애니메이션을 획득하여, 획득 속도와 효율을 향상시킨다. 서버에서 획득된 특효 애니메이션은 로컬에 저장할 수 있고, 다음번에 같은 특효 애니메이션을 사용할 필요가 있을 경우, 로컬에서 직접 획득할 수 있다.
로컬 및 서버에서 모두 특정한 라벨에 대응하는 특효 애니메이션을 획득할 수 없을 경우, 라벨을 다시 선택하거나, 또는 오디오 데이터에 대응하는 특효 애니메이션이 비어 있는 것 (특효 애니메이션을 중첩하지 않는 것에 상당한다) 등이라고 생각할 수 있다.
로컬에서도 서버에서도 관계없이, 임의의 특효 애니메이션에 대해, 모두 대응하는 라벨을 동시에 저장함으로써, 획득을 요구한 라벨에 대응하는 특효 애니메이션을 편리하고 신속하게 결정할 수 있다.
로컬의 저장 공간이 한정되어 있기 때문에, 임의의 특효 애니메이션의 로컬에서의 저장 기간이 제1 예정 기간을 초과할 경우, 상기 특효 애니메이션을 로컬에서 삭제하는 것, 및, 로컬에 저장된 임의의 특효 애니메이션이 사용되지 않은 시간이 제2 예정 기간을 초과할 경우, 상기 특효 애니메이션을 로컬에서 삭제하는 것 중의 적어도 하나일 수 있고, 제1 예정 기간과 제2 예정 기간이 구체적인 값은 모두 실제의 수요에 따라 결정할 수 있다.
상술한 방식을 통해, 로컬에 저장되어 있는 특효 애니메이션의 유효적인 관리 및 보수를 실현하고, 로컬에 저장되어 있는 특효 애니메이션을 즉시적으로 업데이트할 수 있고, 로컬에 저장되어 있는 특효 애니메이션의 적중률 등을 향상시킬 수 있다.
처리될 오디오 데이터에 대해, 상기 오디오 데이터의 재생을 시작할 경우, 상기 오디오 데이터에 대응하는 특효 애니메이션을 대응하는 비디오 화면에 중첩하여 전시할 수 있다. 즉 상기 오디오 데이터의 재생을 시작할 때에 특효 애니메이션의 전시를 시작하고, 특효 애니메이션의 전시 기간은 특효 애니메이션 자체의 기간에 의존하고, 특효 애니메이션의 기간은 일반적으로, 모두 짧고, 예를 들면, 상기 오디오 데이터의 기간은 5초이며, 특효 애니메이션의 기간은 3초이며, 상기 오디오 데이터의 시작 재생 시간은 전 비디오 재생 시간 중의 3분18초이며, 3분18초부터 특효 애니메이션의 전시를 시작하고, 3분21초에 전시를 종료할 수 있다. 특효 애니메이션은 Lottie 애니메이션, Webp 애니메이션 등이 임의의 형식의 애니메이션일 수 있다.
특효 애니메이션을 전시할 때, 기존의 비디오 화면층에 1층의 효과층을 재중첩하는 방식을 사용하고, 효과층에 특효 애니메이션을 전시하고, 2층을 중첩하여 전시하여, 비디오 화면재생을 실현하는 동시에, 특효 애니메이션을 전시할 수도 있다.
특효 애니메이션의 전시 영역은 제한하지 않고, 전체의 비디오 화면 영역 또는 일부의 비디오 화면 영역을 커버하는 것 등일 수 있고, 실제의 수요에 근거할 수 있다.
상기의 설명에 근거하고, 도 2는 본 출원의 상기 비디오 처리 방법의 제2의 실시예의 순서도이다. 도 2에 도시된 바와 같이, 하기의 구체적인 실현 방식을 포함한다.
201에서, 비디오 재생 과정에서, 예정된 정책에 따라 결정된 처리될 오디오 데이터에 대해, 상기 오디오 데이터는 재생하지 않은 오디오 데이터이며, 각각 202 내지 208에 표시된 방식으로 처리한다.
비디오를 예정된 기간에 따라 M개의 연속 비디오 클립으로 분할할 수 있고, M은 1보다 큰 양의 정수이며, 임의의 비디오 클립에 대응하는 오디오 데이터에 대해, 각각 예정된 정책에 따라 오디오 데이터의 일부를 선택하여, 처리될 오디오 데이터로 할 수 있고 예를 들면, 어의가 가장 완전한 하나의 어구에 대응하는 오디오 데이터를 선택한다.
202에서, 상기 오디오 데이터에 대응하는 텍스트 콘텐츠로부터 예정된 요구에 부합되는 단어를 추출하여, 상기 오디오 데이터의 라벨로 한다.
텍스트 콘텐츠에 대해 단어 분할 처리를 할 수 있고, 임의의 단어 분할 결과에 대해, 상기 단어 분할 결과가 미리 생성된 핫 워드 단어 리스트에 존재함을 확인하였을 경우, 상기 단어 분할 결과가 핫 워드인 것을 결정할 수 있고, 나아가, 상기 단어 분할 결과를 상기 오디오 데이터의 라벨로 할 수 있다.
203에서, 상기 오디오 데이터를 미리 트레이닝된 장면 식별 모델에 입력하고, 식별된 상기 오디오 데이터에 대응하는 장면을 획득하여, 상기 장면을 상기 오디오 데이터의 라벨로 한다.
204에서, 상기 오디오 데이터의 라벨로부터 하나의 라벨을 선택한다.
본 실시예에서, 상기 오디오 데이터의 라벨 수가 1보다 크다고 가정한다.
205에서, 선택한 라벨에 대응하는 특효 애니메이션이 로컬에 있는지 여부를 결정하고, 그럴 경우, 206을 실행하고, 그렇지 않을 경우, 207을 실행한다.
206에서, 로컬에서 선택한 라벨에 대응하는 특효 애니메이션을 획득하고, 다음에 208을 실행한다.
207에서, 서버에서 선택한 라벨에 대응하는 특효 애니메이션을 획득하여, 로컬에 저장하고, 다음에 208을 실행한다.
208에서, 상기 오디오 데이터의 재생을 시작할 경우, 특효 애니메이션을 대응하는 비디오 화면에 중첩하여 전시하여, 프로세스를 종료한다.
설명해야 하는 바로는, 전술한 각 방법의 실시예에 대해, 간단히 설명하기 위해서, 일련의 동작 조합으로 표현하지만, 당업자는 본 출원에서 설명된 동작 순서에 의해 한정되지 않는 것을 이해할 필요가 있고, 본 출원에 따르면, 일부 단계는, 다른 순서를 사용하거나, 또는 동시에 수행할 수도 있다. 그 다음에, 당업자는 명세서에 설명된 실시예가 모두 바람직한 실시예에 포함되고, 관련되는 동작과 모듈이 본 출원에 반드시 필요한 것이 아닌 것도 이해해야 한다. 또한, 일부 실시예에 있어서 상세하게 설명되어 있지 않은 부분은 다른 실시예에서의 관련되는 설명을 참조할 수 있다.
상기의 방법의 실시예에 기재된 방안을 사용하고, 비디오 재생 과정에서, 오디오 데이터에 따라 대응하는 특효 애니메이션을 결정할 수 있고, 특효 애니메이션을 비디오 화면에 중첩하여 전시할 수 있어, 비디오 화면의 프레젠테이션 효과를 향상시키고, 비디오 화면의 콘텐츠가 풍부해지고, 비디오 화면의 재미 등을 향상시킨다.
상기는 방법의 실시예의 설명이며, 하기의 장치 실시예를 통해, 본 출원의 상기 방안을 설명한다.
도 3은 본 출원 상기 비디오 처리 장치(30)의 실시예의 구성의 구조 개략도이다. 도 3에 도시된 바와 같이, 라벨 생성 모듈(301), 애니메이션 획득 모듈(302) 및 애니메이션 전시 모듈(303)을 포함한다.
라벨 생성 모듈(301)은 비디오 재생 과정에서, 예정된 정책에 따라 결정된 처리될 오디오 데이터에 대해, 상기 오디오 데이터는 재생하지 않은 오디오 데이터이며, 각각 상기 오디오 데이터에 대응하는 텍스트 콘텐츠로부터 예정된 요구에 부합되는 단어를 추출하여, 상기 오디오 데이터의 라벨로 하기 위한 것이다.
애니메이션 획득 모듈(302)은 라벨에 따라 상기 오디오 데이터에 대응하는 특효 애니메이션을 결정하기 위한 것이다.
애니메이션 전시 모듈(303)은 상기 오디오 데이터의 재생을 시작할 경우, 특효 애니메이션을 대응하는 비디오 화면에 중첩하여 전시하기 위한 것이다.
도 3에 도시되는 장치는, 오디오 획득 모듈(300)을 더 포함할 수 있고, 오디오 획득 모듈(300)은 비디오를 예정된 기간에 따라 M개의 연속 비디오 클립으로 분할하기 위한 것이고, M은 1보다 큰 양의 정수이며, 임의의 비디오 클립에 대응하는 오디오 데이터에 대해, 어의가 가장 완전한 하나의 어구에 대응하는 오디오 데이터를 선택하는 것과 같이, 각각 예정된 정책에 따라 오디오 데이터의 일부를 선택하여, 처리될 오디오 데이터로 하기 위한 것이다.
오디오 데이터에 대응하는 텍스트 콘텐츠에 대해, 라벨 생성 모듈(301)은 텍스트 콘텐츠에 대해 단어 분할 처리를 할 수 있고, 임의의 단어 분할 결과에 대해, 상기 단어 분할 결과가 미리 생성된 핫 워드 단어 리스트에 존재함을 확인하였을 경우, 상기 단어 분할 결과가 핫 워드인 것으로 결정하고, 상기 단어 분할 결과를 오디오 데이터의 라벨로 할 수 있다.
라벨 생성 모듈(301)은 또한, 오디오 데이터를 미리 트레이닝된 장면 식별 모델에 입력하고, 식별된 오디오 데이터에 대응하는 장면을 획득하여, 상기 장면을 오디오 데이터의 라벨로 할 수 있다.
상응하게, 오디오 데이터의 라벨 수가 하나일 수도 있고, 복수일 수도 있고, 애니메이션 획득 모듈(302)은 라벨의 개수가 1일 경우, 상기 라벨에 대응하는 특효 애니메이션을 직접 획득하여, 오디오 데이터에 대응하는 특효 애니메이션으로 할 수 있고, 라벨의 개수가 1보다 클 경우, 하나의 라벨을 선택하고, 선택한 라벨에 대응하는 특효 애니메이션을 획득하여, 오디오 데이터에 대응하는 특효 애니메이션으로 할 수 있다.
또한, 애니메이션 획득 모듈(302)은 임의의 라벨에 대응하는 특효 애니메이션을 획득할 필요가 있을 때, 상기 라벨에 대응하는 특효 애니메이션이 로컬에 저장되어 있는 것이 결정되었을 경우, 로컬에서 상기 라벨에 대응하는 특효 애니메이션을 획득할 수 있고, 상기 라벨에 대응하는 특효 애니메이션이 로컬에 저장되어 있지 않음이 확인되었을 경우, 서버에서 상기 라벨에 대응하는 특효 애니메이션을 획득하여, 로컬에 저장할 수 있다.
애니메이션 획득 모듈(302)은 또한, 임의의 특효 애니메이션의 로컬에서의 저장 기간이 제1 예정 기간을 초과한 것이 확인되었을 경우, 상기 특효 애니메이션을 로컬에서 삭제하는 것, 및, 로컬에 저장된 임의의 특효 애니메이션이 사용되지 않은 시간이 제2 예정 기간을 초과함이 확인되었을 경우, 상기 특효 애니메이션을 로컬에서 삭제하는 것 중의 적어도 하나를 수행할 수 있다.
도 3에 표시된 장치의 실시예가 구체적인 동작 프로세스는, 전술한 방법의 실시예에서의 관련되는 설명을 참조하고, 여기서 반복하여 설명하지 않는다.
즉, 본 출원 장치의 실시예에 기재된 방안을 사용하여, 비디오 재생 과정에서, 오디오 데이터에 따라 대응하는 특효 애니메이션을 결정할 수 있고, 특효 애니메이션을 비디오 화면에 중첩하여 전시할 수 있어, 비디오 화면의 프레젠테이션 효과를 향상시키고, 비디오 화면의 콘텐츠가 풍부해지고, 비디오 화면의 재미 등을 향상시키고, 비디오 클립을 분할하는 것 등에 따라, 처리될 오디오 데이터의 수가 너무 많고, 특효 애니메이션을 너무 많이 중첩하고, 자원의 소비를 증가하는 것 등을 피할 수 있고, 핫 워드는 일반적으로, 사용자가 관심 및 흥미를 가지고 있는 콘텐츠이기 때문에, 핫 워드를 추출하는 것을 통해 오디오 데이터의 라벨로 하고, 후속으로 사용자에게 전시하는 특효 애니메이션이 사용자의 실제 수요 등에 적합한 것으로 할 수 있고, 장면 식별을 통해, 오디오 데이터의 라벨 콘텐츠와 타입 등을 더 풍부하게 할 수 있고, 라벨에 대응하는 특효 애니메이션을 획득할 경우, 우선으로 로컬에서 획득하여, 획득 속도와 효율을 향상시킬 수 있고, 서버에서 획득된 특효 애니메이션은 또한 로컬에 저장할 수 있고, 다음번에 같은 특효 애니메이션을 사용할 필요가 있을 경우, 로컬에서 직접 획득할 수 있고, 또한 로컬에 저장되어 있는 특효 애니메이션에 대해 유효적인 관리 및 보수를 할 수 있고, 로컬에 저장되어 있는 특효 애니메이션을 즉시적으로 업데이트할 수 있고, 로컬에 저장되어 있는 특효 애니메이션의 적중율 등을 향상시킬 수 있다.
본 출원의 실시예에 따르면, 본 출원은 전자 기기 및 판독 가능 기록 매체를 더 제공한다.
도 4에 도시된 바와 같이, 본 출원의 실시예에 따른 상기 방법의 전자 기기의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 운영 플랫폼, 개인 정보 단말기, 서버, 블레이드 서버, 대형 컴퓨터, 및 다른 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 의미한다. 전자 기기는 개인 디지털 처리, 셀룰러폰, 스마트폰, 웨어러블 기기 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 이동 장치를 의미할 수도 있다. 본문에서 나타낸 부재, 이들의 연결과 관계, 및 이들의 기능은 단지 예시적인 것으로, 본문에서 설명 및/또는 요구된 본 발명의 구현을 한정하지 않는다.
도 4에 도시된 바와 같이, 상기 전자 기기는, 하나 또는 복수의 프로세서(Y01), 메모리(Y02), 및 고속 인터페이스 및 저속 인터페이스를 포함하는 각 부재를 연결하기 위한 인터페이스를 포함한다. 각 부재는 상이한 버스를 이용하여 서로 연결되고, 공통 메인보드에 장착될 수 있거나 필요에 따라 다른 방식으로 장착될 수 있다. 프로세서는, 메모리에 저장되거나 메모리에서 외부 입력/출력 장치(예를 들어, 인터페이스에 커플링된 표시 기기)에 GUI의 그래픽 정보를 표시하는 명령을 포함하는 전자 기기 내에서 실행되는 명령을 처리할 수 있다. 다른 실시형태에서, 필요에 따라 다수의 프로세서 및/또는 다수의 버스를 다수의 메모리와 함께 사용할 수 있다. 마찬가지로, 다수의 전자 기기를 연결할 수 있고, 각 기기는 일부 필요한 동작(예를 들어, 서버 어레이, 한 그룹의 블레이드 서버, 또는 다중 프로세서 시스템)을 제공한다. 도 4에서는 하나의 프로세서(Y01)를 예로 한다.
메모리(Y02)는 본 출원에서 제공된 비일시적 컴퓨터 판독 가능 기록 매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어, 상기 적어도 하나의 프로세서가 본 출원에서 제공된 상기 방법을 수행하도록 한다. 본 출원의 비일시적 컴퓨터 판독 가능 기록 매체는 컴퓨터 명령을 저장하며, 상기 컴퓨터 명령은 컴퓨터가 본 출원에서 제공된 상기 방법을 수행하도록 한다.
메모리(Y02)는 비일시적 컴퓨터 판독 가능 기록 매체로서, 본 출원의 실시예에서의 상기 방법에 대응되는 프로그램 명령/모듈과 같은 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능 프로그램 및 모듈을 저장하는데 사용될 수 있다. 프로세서(Y01)는 메모리(Y02)에 저장되어 있는 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써, 서버의 다양한 기능 애플리케이션 및 데이터 처리를 수행하며, 즉 상기 방법의 실시예에서의 상기 방법을 구현한다.
메모리(Y02)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있는 바, 여기서 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 필요한 애플리케이션 프로그램을 저장할 수 있고; 데이터 저장 영역은 상기 방법에 따른 전자 기기의 사용에 따라 구축된 데이터 등을 저장할 수 있다. 이밖에, 메모리(Y02)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 적어도 하나의 자기 디스크 저장 소자, 플래시 소자, 또는 다른 비일시적 솔리드 스테이트 저장 소자와 같은 비일시적 메모리를 더 포함할 수 있다. 일부 실시예에서, 메모리(Y02)는 프로세서(Y01)에 대해 원격으로 설치되는 메모리를 선택적으로 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 상기 방법을 구현하는 전자 기기에 연결될 수 있다. 상기 네트워크의 구현예는 인터넷, 기업 인트라넷, 근거리 통신망, 이동 통신망, 및 이들의 조합을 포함하지만 이에 한정되지 않는다.
전자 기기는, 입력 장치(Y03) 및 출력 장치(Y04)를 더 포함할 수 있다. 프로세서(Y01), 메모리(Y02), 입력 장치(Y03) 및 출력 장치(Y04)는 버스 또는 다른 방식을 통해 연결될 수 있고, 도 4에서는 버스를 통한 연결을 예로 한다.
입력 장치(Y03)는 입력된 숫자 또는 캐릭터 정보를 수신할 수 있고, 상기 방법을 구현하는 전자 기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 생성할 수 있으며, 예를 들어 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 또는 다수의 마우스 버튼, 트랙볼, 조이스틱 등 입력 장치일 수 있다. 출력 장치(Y04)는 디스플레이 기기, 보조 조명 장치 및 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 상기 디스플레이 기기는 액정 디스플레이 장치, 발광 다이오드 디스플레이 장치 및 플라즈마 디스플레이 장치를 포함할 수 있으나 이에 한정되지 않는다. 일부 실시형태에서, 디스플레이 기기는 터치 스크린일 수 있다.
여기서 설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 집적 회로, 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 다수의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치, 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.
이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 또는 코드라고도 함)은 프로그램 가능 프로세서의 기계 명령을 포함하고, 하이레벨 프로세스 및/또는 객체에 대한 프로그래밍 언어, 및/또는 어셈블리/기계 언어를 이용하여 이러한 컴퓨팅 프로그램을 실행할 수 있다. 본문에서 사용된 바와 같이, 용어 "기계 판독 가능한 매체” 및 "컴퓨터 판독 가능한 매체”는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기, 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 로직 장치)를 의미하고, 기계 판독 가능한 신호인 기계 명령을 수신하는 기계 판독 가능한 매체를 포함한다. 용어 "기계 판독 가능한 신호”는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.
사용자와의 인터랙션을 제공하기 위하여, 컴퓨터에서 여기서 설명된 시스템 및 기술을 실시할 수 있고, 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 표시 장치(예를 들어, 음극선관 또는 액정 표시 장치 모니터); 및 키보드 및 지향 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하며, 사용자는 상기 키보드 및 상기 지향 장치를 통해 컴퓨터에 입력을 제공한다. 다른 타입의 장치는 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 감지 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고; 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.
여기서 설명된 시스템 및 기술은 백엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버로 사용됨), 또는 미들웨어 부재를 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버), 또는 프론트엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터인 바, 사용자는 상기 그래픽 사용자 인터페이스 또는 상기 네트워크 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백엔드 부재, 미들웨어 부재, 또는 프론트엔드 부재의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예는, 근거리 통신망(LAN), 광역망(WAN), 블록체인 네트워크, 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 대응되는 컴퓨터에서 실행되고 또한 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다.
위에서 설명된 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 출원에 기재된 각 단계는 동시에, 순차적으로, 또는 상이한 순서로 수행될 수 있으며, 본 출원에 개시된 기술적 해결수단이 이루고자 하는 결과를 구현할 수 있는 한, 본문은 여기서 한정되지 않는다.
상기 구체적인 실시형태는 본 출원의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는, 설계 요구 및 다른 요소에 따라 다양한 수정, 조합, 서브 조합 및 대체를 진행할 수 있음을 이해해야 한다. 본 출원의 정신 및 원칙 내에서 이루어진 임의의 수정, 등가 교체 및 개선 등은 모두 본 출원의 보호 범위 내에 포함되어야 한다.

Claims (21)

  1. 비디오 처리 방법(video processing method)에 있어서,
    비디오 재생 과정에서, 예정된 정책에 따라 결정된, 재생하지 않은 처리될 오디오 데이터(to be processed audio data)에 대하여:
    상기 오디오 데이터에 대응하는 텍스트 콘텐츠로부터 예정된 요구에 부합되는 단어를 추출하여, 상기 오디오 데이터의 라벨로 하는 단계;
    상기 라벨에 따라 상기 오디오 데이터에 대응하는 특효 애니메이션을 결정하는 단계; 및
    상기 오디오 데이터의 재생을 시작할 경우, 상기 특효 애니메이션을 대응하는 비디오 화면에 중첩하여 전시하는 단계;
    를 포함하는,
    비디오 처리 방법.
  2. 제1항에 있어서,
    상기 오디오 데이터에 대응하는 텍스트 콘텐츠로부터 예정된 요구에 부합되는 단어를 추출하여, 상기 오디오 데이터의 라벨로 하는 단계는:
    상기 텍스트 콘텐츠에 대해 단어 분할 처리를 진행하는 단계; 및
    임의의 단어 분할 결과에 대해, 상기 단어 분할 결과가 미리 생성된 핫 워드 단어 리스트에 존재함을 확인하였을 경우, 상기 단어 분할 결과가 핫 워드(hot word)인 것으로 결정하고, 상기 단어 분할 결과를 상기 오디오 데이터의 라벨로 하는 단계;를 포함하는,
    비디오 처리 방법.
  3. 제1항에 있어서,
    상기 오디오 데이터를 미리 트레이닝된 장면 식별 모델에 입력하고, 식별된 상기 오디오 데이터에 대응하는 장면을 획득하여, 상기 장면을 상기 오디오 데이터의 라벨로 하는 단계
    를 더 포함하는,
    비디오 처리 방법.
  4. 제3항에 있어서,
    상기 장면 식별 모델은 딥 러닝 방법을 사용하여 트레이닝된 장면 식별 모델을 포함하는,
    비디오 처리 방법.
  5. 제3항에 있어서,
    상기 라벨에 따라 상기 오디오 데이터에 대응하는 특효 애니메이션을 결정하는 단계는:
    상기 라벨의 개수가 1일 경우, 상기 라벨에 대응하는 특효 애니메이션을 획득하여, 상기 오디오 데이터에 대응하는 특효 애니메이션으로 하는 단계; 및
    상기 라벨의 개수가 1보다 클 경우, 하나의 라벨을 선택하고, 선택한 라벨에 대응하는 특효 애니메이션을 획득하여, 상기 오디오 데이터에 대응하는 특효 애니메이션으로 하는 단계;
    를 포함하는,
    비디오 처리 방법.
  6. 제5항에 있어서,
    임의의 라벨에 대응하는 특효 애니메이션을 획득하는 단계는:
    상기 라벨에 대응하는 특효 애니메이션이 로컬에 저장되어 있을 경우, 상기 로컬에서 상기 라벨에 대응하는 특효 애니메이션을 획득하는 단계;
    상기 라벨에 대응하는 특효 애니메이션이 로컬에 저장되어 있지 않을 경우, 서버에서 상기 라벨에 대응하는 특효 애니메이션을 획득하여, 로컬에 저장하는 단계;
    를 포함하는,
    비디오 처리 방법.
  7. 제6항에 있어서,
    임의의 특효 애니메이션의 로컬에서의 저장 기간이 제1 예정 기간을 초과할 경우, 상기 특효 애니메이션을 로컬에서 삭제하는 단계; 및
    로컬에 저장된 임의의 특효 애니메이션이 사용되지 않은 시간이 제2 예정 기간을 초과할 경우, 상기 특효 애니메이션을 로컬에서 삭제하는 단계;
    중의 적어도 하나를 더 포함하는,
    비디오 처리 방법.
  8. 제1항에 있어서,
    상기 처리될 오디오 데이터의 결정 방식은:
    상기 비디오를 예정된 기간에 따라 M개의 연속 비디오 클립으로 분할하는 단계 - 상기 M은 1보다 큰 양의 정수임 -; 및
    임의의 비디오 클립에 대응하는 오디오 데이터에 대해, 각각 예정된 정책에 따라 오디오 데이터의 일부를 선택하여, 상기 처리될 오디오 데이터로 하는 단계;
    를 포함하는,
    비디오 처리 방법.
  9. 제8항에 있어서,
    상기 예정된 정책에 따라 오디오 데이터의 일부를 선택하는 단계는:
    어의가 가장 완전한 하나의 어구에 대응하는 오디오 데이터를 선택하는 단계
    를 포함하는
    비디오 처리 방법.
  10. 비디오 처리 장치(video processing device)에 있어서,
    라벨 생성 모듈, 애니메이션 획득 모듈 및 애니메이션 전시 모듈을 포함하고,
    상기 라벨 생성 모듈은 비디오 재생 과정에서, 예정된 정책에 따라 결정된 재생하지 않은 처리될 오디오 데이터에 대해, 각각 상기 오디오 데이터에 대응하는 텍스트 콘텐츠로부터 예정된 요구에 부합되는 단어를 추출하여, 상기 오디오 데이터의 라벨로 하기 위한 것이고,
    상기 애니메이션 획득 모듈은 상기 라벨에 따라 상기 오디오 데이터에 대응하는 특효 애니메이션을 결정하기 위한 것이고,
    상기 애니메이션 전시 모듈은 상기 오디오 데이터의 재생을 시작할 경우, 상기 특효 애니메이션을 대응하는 비디오 화면에 중첩하여 전시하기 위한 것인,
    비디오 처리 장치.
  11. 제10항에 있어서,
    상기 라벨 생성 모듈은 상기 텍스트 콘텐츠에 대해 단어 분할 처리를 진행하고, 임의의 단어 분할 결과에 대해, 상기 단어 분할 결과가 미리 생성된 핫 워드 단어 리스트에 존재함을 확인하였을 경우, 상기 단어 분할 결과가 핫 워드인 것으로 결정하고, 상기 단어 분할 결과를 상기 오디오 데이터의 라벨로 하는,
    비디오 처리 장치.
  12. 제10항에 있어서,
    상기 라벨 생성 모듈은 또한, 상기 오디오 데이터를 미리 트레이닝된 장면 식별 모델에 입력하고, 식별된 상기 오디오 데이터에 대응하는 장면을 획득하여, 상기 장면을 상기 오디오 데이터의 라벨로 하기 위한,
    비디오 처리 장치.
  13. 제12항에 있어서,
    상기 장면 식별 모델은 딥 러닝 방법을 사용하여 트레이닝된 장면 식별 모델을 포함하는,
    비디오 처리 장치.
  14. 제12항에 있어서,
    상기 애니메이션 획득 모듈은
    상기 라벨의 개수가 1일 경우, 상기 라벨에 대응하는 특효 애니메이션을 획득하여, 상기 오디오 데이터에 대응하는 특효 애니메이션으로 하고,
    상기 라벨의 개수가 1보다 클 경우, 하나의 라벨을 선택하고, 선택한 라벨에 대응하는 특효 애니메이션을 획득하여, 상기 오디오 데이터에 대응하는 특효 애니메이션으로 하는,
    비디오 처리 장치.
  15. 제14항에 있어서,
    상기 애니메이션 획득 모듈은 임의의 라벨에 대응하는 특효 애니메이션을 획득할 필요가 있을 때,
    상기 라벨에 대응하는 특효 애니메이션이 로컬에 저장되어 있음이 확인되었을 경우, 상기 로컬에서 상기 라벨에 대응하는 특효 애니메이션을 획득하고,
    상기 라벨에 대응하는 특효 애니메이션이 로컬에 저장되어 있지 않음이 확인되었을 경우, 서버에서 상기 라벨에 대응하는 특효 애니메이션을 획득하여, 로컬에 저장하는,
    비디오 처리 장치.
  16. 제15항에 있어서,
    상기 애니메이션 획득 모듈은:
    임의의 특효 애니메이션의 로컬에서의 저장 기간이 제1 예정 기간을 초과한 것이 확인되었을 경우, 상기 특효 애니메이션을 로컬에서 삭제하는 것 및,
    로컬에 저장된 임의의 특효 애니메이션이 사용되지 않은 시간이 제2 예정 기간을 초과함이 확인되었을 경우, 상기 특효 애니메이션을 로컬에서 삭제하는 것
    중의 적어도 하나를 수행하기 위한,
    비디오 처리 장치.
  17. 제10항에 있어서,
    상기 장치는 오디오 획득 모듈을 더 포함하고,
    상기 오디오 획득 모듈은 상기 비디오를 예정된 기간에 따라 M개의 연속 비디오 클립으로 분할하기 위한 것이고, M은 1보다 큰 양의 정수이며, 임의의 비디오 클립에 대응하는 오디오 데이터에 대해, 각각 예정된 정책에 따라 오디오 데이터의 일부를 선택하여, 상기 처리될 오디오 데이터로 하기 위한,
    비디오 처리 장치.
  18. 제17항에 있어서,
    상기 오디오 획득 모듈은 어의가 가장 완전한 하나의 어구에 대응하는 오디오 데이터를 선택하는,
    비디오 처리 장치.
  19. 전자 기기에 있어서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서에 통신 연결되는 메모리;를 포함하고,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서에 의해 제1항 내지 제9항 중 어느 한 항의 방법이 수행되도록 하는,
    전자 기기.
  20. 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 기록 매체에 있어서,
    상기 컴퓨터 명령은 상기 컴퓨터가 제1항 내지 제9항 중 어느 한 항의 방법을 수행하도록 하는,
    비일시적 컴퓨터 판독 가능 기록 매체.
  21. 비일시적 컴퓨터 판독 가능 기록 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램은 상기 컴퓨터로 하여금 제1항 내지 제9항 중 어느 한 항의 방법을 수행하도록 하는,
    컴퓨터 프로그램.
KR1020210072374A 2020-06-05 2021-06-03 비디오 처리 방법, 장치, 전자 기기 및 기록 매체 KR102541051B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010504444.4A CN111770375B (zh) 2020-06-05 2020-06-05 视频处理方法、装置、电子设备及存储介质
CN202010504444.4 2020-06-05

Publications (2)

Publication Number Publication Date
KR20210152396A true KR20210152396A (ko) 2021-12-15
KR102541051B1 KR102541051B1 (ko) 2023-06-05

Family

ID=72720366

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210072374A KR102541051B1 (ko) 2020-06-05 2021-06-03 비디오 처리 방법, 장치, 전자 기기 및 기록 매체

Country Status (5)

Country Link
US (1) US11800042B2 (ko)
EP (1) EP3923283A1 (ko)
JP (1) JP7263660B2 (ko)
KR (1) KR102541051B1 (ko)
CN (1) CN111770375B (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112995694B (zh) * 2021-04-09 2022-11-22 北京字节跳动网络技术有限公司 视频显示方法、装置、电子设备及存储介质
CN113824899B (zh) * 2021-09-18 2022-11-04 北京百度网讯科技有限公司 视频处理方法、装置、电子设备及介质
CN114173067A (zh) * 2021-12-21 2022-03-11 科大讯飞股份有限公司 一种视频生成方法、装置、设备及存储介质
CN114630057B (zh) * 2022-03-11 2024-01-30 北京字跳网络技术有限公司 确定特效视频的方法、装置、电子设备及存储介质
CN116017093B (zh) * 2022-12-15 2023-08-11 广州迅控电子科技有限公司 一种视频环境模拟方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010109989A (ja) * 2001-06-15 2010-05-13 Sony Pictures Entertainment Inc メディアコンテンツ生成及び公開システム及びその方法
KR101070026B1 (ko) * 2009-09-03 2011-10-05 삼성전기주식회사 동영상 촬영 장치 및 동영상 촬영 방법
US20170316807A1 (en) * 2015-12-11 2017-11-02 Squigl LLC Systems and methods for creating whiteboard animation videos
US10467792B1 (en) * 2017-08-24 2019-11-05 Amazon Technologies, Inc. Simulating communication expressions using virtual objects
KR20190129266A (ko) * 2018-05-10 2019-11-20 네이버 주식회사 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7224851B2 (en) 2001-12-04 2007-05-29 Fujifilm Corporation Method and apparatus for registering modification pattern of transmission image and method and apparatus for reproducing the same
JP2003244425A (ja) 2001-12-04 2003-08-29 Fuji Photo Film Co Ltd 伝送画像の修飾パターンの登録方法および装置ならびに再生方法および装置
US7743329B2 (en) * 2003-06-27 2010-06-22 Microsoft Corporation Incorporating interactive media into a playlist
WO2007034829A1 (ja) * 2005-09-21 2007-03-29 Matsushita Electric Industrial Co., Ltd. 映像作成装置および映像作成方法
CN101546587A (zh) * 2008-03-25 2009-09-30 国际商业机器公司 在播放歌曲时自动显示视觉元素的方法和装置
CN101853668B (zh) * 2010-03-29 2014-10-29 北京中星微电子有限公司 一种将midi音乐生成动画的方法和系统
JP2011250100A (ja) 2010-05-26 2011-12-08 Sony Corp 画像処理装置および方法、並びにプログラム
JP2013042356A (ja) * 2011-08-16 2013-02-28 Sony Corp 画像処理装置および方法、並びにプログラム
JP2016035607A (ja) 2012-12-27 2016-03-17 パナソニック株式会社 ダイジェストを生成するための装置、方法、及びプログラム
CN104394324B (zh) * 2014-12-09 2018-01-09 成都理想境界科技有限公司 特效视频生成方法及装置
CN104754394A (zh) * 2015-02-01 2015-07-01 苏州乐聚一堂电子科技有限公司 同步视觉特效系统及同步视觉特效处理方法
CN104703043A (zh) * 2015-03-26 2015-06-10 努比亚技术有限公司 一种添加视频特效的方法和装置
CN104780459A (zh) * 2015-04-16 2015-07-15 美国掌赢信息科技有限公司 一种即时视频中的特效加载方法和电子设备
TWI597980B (zh) * 2015-08-10 2017-09-01 宏達國際電子股份有限公司 影音管理方法及其系統
CN106127829B (zh) * 2016-06-28 2020-06-30 Oppo广东移动通信有限公司 一种增强现实的处理方法、装置及终端
CN106096062A (zh) * 2016-07-15 2016-11-09 乐视控股(北京)有限公司 视频交互方法及装置
CN106446135B (zh) * 2016-09-19 2019-12-10 北京搜狐新动力信息技术有限公司 一种多媒体数据标签生成方法和装置
CN107493442A (zh) * 2017-07-21 2017-12-19 北京奇虎科技有限公司 一种编辑视频的方法和装置
CN107967706B (zh) * 2017-11-27 2021-06-11 腾讯音乐娱乐科技(深圳)有限公司 多媒体数据的处理方法、装置及计算机可读存储介质
CN108307229B (zh) * 2018-02-02 2023-12-22 新华智云科技有限公司 一种影音数据的处理方法及设备
CN108764304B (zh) * 2018-05-11 2020-03-06 Oppo广东移动通信有限公司 场景识别方法、装置、存储介质及电子设备
CN108877838B (zh) * 2018-07-17 2021-04-02 黑盒子科技(北京)有限公司 音乐特效匹配方法及装置
CN110830852B (zh) * 2018-08-07 2022-08-12 阿里巴巴(中国)有限公司 一种视频内容的处理方法及装置
CN109147825A (zh) * 2018-08-09 2019-01-04 湖南永爱生物科技有限公司 基于语音识别的人脸表情装饰方法、装置、存储介质及电子设备
US11375293B2 (en) 2018-10-31 2022-06-28 Sony Interactive Entertainment Inc. Textual annotation of acoustic effects
CN109729297A (zh) * 2019-01-11 2019-05-07 广州酷狗计算机科技有限公司 在视频中添加特效的方法和装置
CN110008922B (zh) * 2019-04-12 2023-04-18 腾讯科技(深圳)有限公司 用于终端设备的图像处理方法、设备、装置、介质
CN109996026B (zh) * 2019-04-23 2021-01-19 广东小天才科技有限公司 基于穿戴式设备的视频特效互动方法、装置、设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010109989A (ja) * 2001-06-15 2010-05-13 Sony Pictures Entertainment Inc メディアコンテンツ生成及び公開システム及びその方法
KR101070026B1 (ko) * 2009-09-03 2011-10-05 삼성전기주식회사 동영상 촬영 장치 및 동영상 촬영 방법
US20170316807A1 (en) * 2015-12-11 2017-11-02 Squigl LLC Systems and methods for creating whiteboard animation videos
US10467792B1 (en) * 2017-08-24 2019-11-05 Amazon Technologies, Inc. Simulating communication expressions using virtual objects
KR20190129266A (ko) * 2018-05-10 2019-11-20 네이버 주식회사 컨텐츠 제공 서버, 컨텐츠 제공 단말 및 컨텐츠 제공 방법

Also Published As

Publication number Publication date
KR102541051B1 (ko) 2023-06-05
CN111770375B (zh) 2022-08-23
JP2021193559A (ja) 2021-12-23
US20210385392A1 (en) 2021-12-09
JP7263660B2 (ja) 2023-04-25
CN111770375A (zh) 2020-10-13
US11800042B2 (en) 2023-10-24
EP3923283A1 (en) 2021-12-15

Similar Documents

Publication Publication Date Title
KR102541051B1 (ko) 비디오 처리 방법, 장치, 전자 기기 및 기록 매체
EP3902280A1 (en) Short video generation method and platform, electronic device, and storage medium
WO2021042933A1 (zh) 处理方法、处理装置、电子装置和存储介质
US10545954B2 (en) Determining search queries for obtaining information during a user experience of an event
KR102510317B1 (ko) 비디오 태그의 생성 방법, 장치, 전자 기기 및 저장 매체
US10789990B2 (en) Video data learning and prediction
CN111225236B (zh) 生成视频封面的方法、装置、电子设备以及计算机可读存储介质
CN111263186A (zh) 视频生成、播放、搜索以及处理方法、装置和存储介质
KR20210068333A (ko) 응용 프로그램의 조작 안내 방법, 장치, 기기 및 판독 가능 저장 매체
CN110784753B (zh) 互动视频播放方法及装置、存储介质、电子设备
CN111309200B (zh) 一种扩展阅读内容的确定方法、装置、设备及存储介质
WO2021243985A1 (zh) 天气预报视频的生成方法、装置、电子设备及存储介质
CN111770388B (zh) 内容处理方法、装置、设备及存储介质
CN111354334B (zh) 语音输出方法、装置、设备和介质
JP6986590B2 (ja) 音声スキル作成方法、音声スキル作成装置、電子機器及び記憶媒体
US20170155943A1 (en) Method and electronic device for customizing and playing personalized programme
US10328336B1 (en) Concurrent game functionality and video content
CN113905270B (zh) 节目播出控制方法和装置、可读存储介质、电子设备
KR102545040B1 (ko) 비디오 재생 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 제품
CN111652344A (zh) 用于呈现信息的方法和装置
CN112631814B (zh) 游戏剧情对白播放方法和装置、存储介质、电子设备
US20230283855A1 (en) On-screen comment display method and apparatus, device, and storage medium
KR102550378B1 (ko) 짧은 비디오의 생성 방법, 플랫폼, 전자 기기, 저장 매체 및 컴퓨터 프로그램 제품
US11785314B2 (en) Systems and methods to enhance segment during trick play
US20210337278A1 (en) Playback control method and apparatus, and storage medium

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant