WO2022045968A1 - 多媒体作品的制作方法、装置及计算机可读存储介质 - Google Patents

多媒体作品的制作方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
WO2022045968A1
WO2022045968A1 PCT/SG2021/050470 SG2021050470W WO2022045968A1 WO 2022045968 A1 WO2022045968 A1 WO 2022045968A1 SG 2021050470 W SG2021050470 W SG 2021050470W WO 2022045968 A1 WO2022045968 A1 WO 2022045968A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio
multimedia information
target
model
multimedia
Prior art date
Application number
PCT/SG2021/050470
Other languages
English (en)
French (fr)
Inventor
蔡小娟
宋旭晨
李�根
钟浩源
莫唯书
李辉
Original Assignee
脸萌有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 脸萌有限公司 filed Critical 脸萌有限公司
Priority to EP21862207.4A priority Critical patent/EP4171045A4/en
Priority to JP2023504467A priority patent/JP2023535047A/ja
Publication of WO2022045968A1 publication Critical patent/WO2022045968A1/zh
Priority to US18/069,031 priority patent/US20230131850A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/433Query formulation using audio data
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • G10H1/0025Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/368Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems displaying animated or moving pictures synchronized with the music or audio part
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/11Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information not detectable on the record carrier
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4666Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/021Background music, e.g. for video sequences, elevator music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/155User input interfaces for electrophonic musical instruments
    • G10H2220/441Image sensing, i.e. capturing images or optical patterns for musical purposes or musical control purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4668Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies

Definitions

  • Embodiments of the present disclosure relate to a method, an apparatus, and a computer-readable storage medium for producing a multimedia work.
  • PGC Professional Generated Content
  • SUMMARY Embodiments of the present disclosure provide a method, an apparatus, and a computer-readable storage medium for producing a multimedia work that overcome the above-mentioned problems or at least partially solve the above-mentioned problems.
  • a method for producing a multimedia work is provided.
  • the method includes: acquiring target audio and at least one piece of multimedia information, where the at least one piece of multimedia information includes at least one of a picture and a video; and calculating a relationship between the target audio and the at least one piece of multimedia information
  • the matching degree of at least one multimedia information is sorted according to the order of matching degree from high to low, and the first preset number of multimedia information in the ranking is used as the target multimedia information; Calculate the picture of each picture in the target multimedia information quality, according to the order of image quality from high to low
  • Each picture of the target multimedia information is sorted, and the second preset number of pictures at the top of the sorting is used as the target picture; and the multimedia work is synthesized according to the target picture and the target audio.
  • a device for producing a multimedia work comprising: a material acquisition module for acquiring target audio and at least one piece of multimedia information, where the at least one piece of multimedia information includes at least one of a picture and a video; a matching module, for determining the matching degree between the target audio and the at least one multimedia information, sorting the at least one multimedia information according to the order of the matching degree from high to low, and using the first preset number of multimedia information in the ranking as the target multimedia information;
  • the target picture acquisition module is used to calculate the quality of each picture in the target multimedia information, and sort each picture of the target multimedia information according to the order of picture quality from high to low.
  • an embodiment of the present disclosure provides an electronic device, including a memory, a processor, and a computer program stored in the memory and executable on the processor, and the processor implements the method provided in the first aspect when the processor executes the program step.
  • an embodiment of the present disclosure provides a computer-readable storage medium on which a computer program is stored, and when the computer program is executed by a processor, implements the steps of the method provided in the first aspect.
  • the method, apparatus, and computer-readable storage medium for producing a multimedia work provided by the embodiments of the present disclosure, by acquiring target audio and at least one piece of multimedia information, and by calculating the degree of matching between the target audio and the multimedia information, to obtain a target multimedia that matches the target audio. information, so as to ensure that the subsequent further screened pictures are all materials that match the target audio, and then calculate the quality of each picture in the target multimedia information, select high-quality pictures from the target multimedia information, and use the high-quality pictures and
  • the target audio is synthesized into a multimedia work, and a high-quality multimedia work that matches the video content and the background music can be obtained, reducing the time cost and learning cost of the user in editing and editing the video.
  • FIG. 1 is a schematic structural diagram of a system for producing a multimedia work according to an embodiment of the present disclosure
  • FIG. 2 is a schematic flowchart of a method for producing a multimedia work according to an embodiment of the present disclosure
  • Figure 4A and Figure 4B are schematic flowcharts of a method for producing a multimedia work according to another embodiment of the present disclosure
  • Embodiments of the present disclosure provide a method, apparatus, electronic device, and storage medium for producing a multimedia work.
  • the embodiments of the present disclosure provide a method for producing a multimedia work suitable for an electronic device, where the electronic device may be a terminal or a server. It can be understood that, the method for producing a multimedia work in this embodiment may be executed on a terminal, may also be executed on a server, or may be jointly executed by the terminal and the server.
  • a method for producing a multimedia work jointly executed by a terminal and a server is taken as an example.
  • the multimedia work production system provided by the embodiment of the present disclosure includes a terminal 10, a server 11, etc.; the terminal 10 and the server 11 are connected through a network, for example, through a wired or wireless network connection, etc., wherein the background music construction device can be integrated in the server middle.
  • the terminal 10 can obtain the target audio and at least one multimedia information that needs to set the background music through the input module, and send the background music and the multimedia information to the server 11, so that the server 11 can calculate the matching degree between the target audio and the at least one multimedia information,
  • the target multimedia information is selected according to the matching degree, and a multi-frame picture with higher quality is determined from the target multimedia information as the target picture, and the multimedia work is synthesized according to the target picture and the target audio, and then returned to the terminal for viewing by the terminal user.
  • the terminal 10 may include a mobile phone, a smart TV, a tablet computer, a notebook computer, or a personal computer (PC, Personal Computer).
  • a client may also be set on the terminal 10, and the client may be an application client or a browser client, etc., for the user to select background music matching the target video.
  • the server 11 may be configured to: acquire target audio and at least one piece of multimedia information; determine a degree of matching between the target audio and at least one piece of multimedia information, sort the at least one piece of multimedia information in descending order of the degree of matching, and place the order first
  • the first preset number of multimedia information in the target multimedia information is used as the target multimedia information; the quality of each picture in the target multimedia information is determined, and each picture of the target multimedia information is sorted according to the order of quality from high to low, and the sorting is performed.
  • the first second preset number of pictures is used as the target picture; the target picture is synthesized into a video file, and the music is synthesized into the video file as background music to obtain a multimedia work, and then the multimedia work is sent to the terminal 10 .
  • the server 11 may be a single server or a server cluster composed of multiple servers. The above process of setting the background music by the server 11 may also be performed by the terminal 10 .
  • the method for producing a multimedia work provided by the embodiments of the present disclosure involves video content understanding (Video Content) in the field of artificial intelligence (AI, Artificial Intelligence). Understanding).
  • This embodiment of the present disclosure can select target multimedia information with a higher matching degree according to the matching degree between the target audio and the multimedia information, and then select a picture with higher picture quality from the target multimedia information as the target picture, and use the target picture and music to synthesize the target picture.
  • a video file with background music therefore, is conducive to improving the efficiency of acquiring multimedia information matching the background music, and at the same time, it can improve the correlation between the background music and the target multimedia information, and can obtain high-quality multimedia works, and the display effect is better. Okay.
  • artificial intelligence is a theory, method, technology and application system that uses a digital computer or a machine controlled by a digital computer to simulate, extend and expand human intelligence, perceive the environment, acquire knowledge and use knowledge to obtain the best results.
  • artificial intelligence is a comprehensive technique of computer science that attempts to understand the essence of intelligence and produce a new kind of intelligent machine that can respond in a similar way to human intelligence.
  • Artificial intelligence is to study the design principles and implementation methods of various intelligent machines, so that the machines have the functions of perception, reasoning and decision-making.
  • Artificial intelligence technology is a comprehensive discipline that covers a wide range of fields, including both hardware-level technologies and software-level technologies.
  • artificial intelligence software technology mainly includes computer vision technology, speech processing technology, natural language processing technology, and machine learning/deep learning.
  • Video Content Understanding is to parse video into structured, machine-readable intent and word slot information through a series of AI algorithms. Its research affects face recognition, action recognition, and object detection. , media production, video recommendation, etc.
  • the embodiments of the present disclosure will be described from the perspective of an apparatus for producing a multimedia work.
  • the apparatus for producing a multimedia work may specifically be integrated into an electronic device, and the electronic device may be a server or a terminal or other device.
  • the method for producing a multimedia work in this embodiment of the present disclosure can be applied to various scenarios in which a multimedia work needs to be created.
  • the method provided in this embodiment can be used to obtain a desired piece of music.
  • the method includes:
  • the target audio obtained in the present disclosure is the music desired by the user, which may be music with human voices, or It may be pure music, music downloaded by the user through music playing software, or music created by the user himself.
  • the present disclosure does not specifically limit the type and source of the music.
  • the multimedia information may be a picture or a video.
  • the multimedia information can be obtained from the photo album of the user terminal, thereby creating a video using the multimedia information shot by the user. Of course, the multimedia information may not be shot by the user himself.
  • the present disclosure determines the degree of matching between the target audio and the at least one piece of multimedia information, sort the at least one piece of multimedia information according to the order of the matching degree from high to low, and use the first preset number of multimedia information at the top of the sorting as the target multimedia information.
  • the present disclosure selects several pieces of multimedia information with a higher matching degree as the target multimedia information by calculating the matching degree between the target audio and each multimedia information.
  • the present disclosure can determine the subject of the target audio and multimedia information, and then use the multimedia information that matches the subject as the target multimedia information.
  • the target audio When determining the subject of the target audio, if the target audio is public music, it can be retrieved by searching The music’s introduction, evaluation and other information on the Internet can be determined, and the determined theme can be love, country music, rock, negative, positive, etc., and for multimedia information, the algorithm of video content understanding can be used to determine the theme, and then The same multimedia information as the subject of the target audio is used as the target multimedia information.
  • the present disclosure further determines the picture quality of each picture in the target multimedia information. It should be understood that if a certain target multimedia information is a picture, the picture quality of the picture is determined, and if a certain target multimedia information is a picture, the picture quality of the picture is determined. If the multimedia information is a video, then each picture of the video is each frame of the video.
  • the second preset number of the present disclosure is not greater than the first preset number.
  • the image quality of the present disclosure can be characterized by the scoring results from dimensions such as the clarity of the image, whether there are people, and whether the picture is distorted. The higher the score, the higher the image quality.
  • S104 synthesizing a multimedia work according to the target picture and the target audio. By splicing the target pictures, that is, the highlight segments in each target multimedia information according to the display sequence number and the display time, a video file composed of the highlight segments can be obtained.
  • the display sequence number and the display time are set for each target image
  • the target pictures are displayed in sequence according to the display serial number and the display time, which are video files. For example, if there are two target pictures, the display time of the first target picture is set to 30 seconds, and the display time of the second target picture is set to 30 seconds.
  • a 1-minute video file can be obtained by synthesizing the target pictures.
  • the highlight segment is the segment of the highlight moment, and the highlight moment is the meaning of the wonderful moment, which is derived from the English word highlight o .
  • the target audio is further synthesized into the video file as the background music, and the high-quality multimedia that matches the image content and the background music can be obtained. work.
  • the present disclosure obtains the target multimedia information matching the target audio by acquiring the target audio and at least one piece of multimedia information, and by calculating the matching degree between the target audio and the multimedia information, thereby ensuring that the subsequent further screened pictures are all materials that match the target audio, Then calculate the quality of each picture in the target multimedia information, select a high-quality picture from the target multimedia information, use the high-quality picture to synthesize to obtain a video file, and finally synthesize the target audio as background music into the video file, High-quality multimedia works that match the video content and background music can be obtained, reducing the time cost and learning cost of users in editing and editing videos.
  • synthesizing a multimedia work according to the target picture and target audio includes: extracting a third preset number of pictures from the target picture and synthesizing the target audio to obtain Multimedia works.
  • the present disclosure may randomly select a third preset number of pictures from the target pictures for synthesis, or may use the target pictures to be arranged in random order and then randomly extracted.
  • the present disclosure does not limit the method of extracting pictures.
  • the embodiment of the present disclosure obtains a multimedia work by extracting a third preset number of pictures from a target image and synthesizing them, which can avoid generating a multimedia work with duplicate pictures when the same target audio and the same batch of multimedia information are used to generate a multimedia work multiple times.
  • determining the degree of matching between the target audio and at least one piece of multimedia information includes: 5201. Acquire audio features of the target audio, input the audio features into a pre-trained audio understanding model, and obtain the audio understanding features of the target audio output by the audio understanding model.
  • the audio features of the present disclosure are obtained by signal processing methods, such as zero-crossing rate, short-term energy, fundamental frequency, amplitude, sound width, sound intensity, etc.
  • the audio features do not have understanding information, and are pre-trained by inputting audio features into
  • the audio understanding model of the target audio can be obtained by obtaining the audio understanding features of the target audio.
  • an audio understanding model can also be pre-trained, and specifically an audio understanding model can be obtained by training as follows: first collect a certain number of sample music, obtain the audio features of each sample music, and determine each The music type of the sample music, then, the initial model is trained based on the audio characteristics of the sample music and the music type of the sample music, so as to obtain an audio understanding model, wherein the initial model may be a single neural network model or multiple neural network models. The combination.
  • the audio understanding model can obtain audio understanding features according to the input audio features, and further predict the music type according to the audio understanding features, so as to obtain the audio understanding features of the target audio output by the audio understanding model after inputting the audio features of the target audio.
  • the frame extraction result is the picture itself
  • the frame extraction result is a multi-frame picture of the video.
  • the video understanding model can also be pre-trained, and specifically, the video understanding model can be obtained by training as follows: first collect a certain number of sample multimedia information, obtain the frame sampling result of each sample multimedia information, and determine each sample multimedia information The subject of the information, then, the initial model is trained based on the frame extraction result of the sample multimedia information and the subject of the sample multimedia information, so as to obtain a video understanding model, wherein the initial model may be a single neural network model or multiple neural network models. The combination.
  • the video understanding model can obtain the video understanding feature according to the input frame extraction result, and further predict the topic according to the video understanding feature, so as to obtain the video understanding feature of the multimedia information output by the video understanding model after inputting the frame extraction result of the multimedia information.
  • the matching model can also be pre-trained, and specifically, the matching model can be obtained by training the following methods: First, collect a certain number of sample music and many samples.
  • the audio understanding model is a first feature extraction layer and a first classification layer; further, the training method of the audio understanding model includes:
  • BP Back Propagation
  • the learning rule of the BP neural network is to use the steepest descent method to continuously adjust the weights and thresholds of the network through backpropagation to minimize the sum of squared errors of the network.
  • the topology structure of the BP neural network model includes an input layer (input), a hidden layer (hide layer) and an output layer (output layer), the present disclosure uses the input layer and the hidden layer as the first feature extraction layer, and the output layer as the first feature extraction layer classification layer.
  • BP neural network training uses the steepest descent method to minimize the sum of squares of errors between the actual output value and the expected output value of the neural network.
  • the learning process is divided into forward propagation and backward propagation.
  • Forward propagation means that the input data will go through the input layer, hidden layer layer by layer and finally in the output layer.
  • the layer gets an output value, but if the output value of the network is not expected, then back propagation is enabled, the resulting error is propagated back along each layer, and the weights of the connected layers are corrected while propagating, prompting the next round to move forward.
  • the propagated error is smaller, and finally the minimum error is reached.
  • obtaining the audio understanding feature of the music output by the audio understanding model includes: inputting the music into the audio understanding model, and obtaining the audio understanding feature of the music output by the first feature extraction layer of the audio understanding model.
  • the present disclosure obtains a video understanding model by means of transfer learning in the process of training the video understanding model. Transfer learning is a machine learning method that takes the model developed for task A as an initial point and reuses it in the process of developing a model for task B.
  • the training method of the disclosed video understanding model includes:
  • Kinetics-600 is a large-scale, high-quality YouTube video URL dataset, in which Containing various human-centered actions, the dataset consists of approximately 500,000 video clips covering 600 human action classes with at least 600 video clips per action class. Each clip lasts about 10 seconds and is marked with a class. All clips go through multiple rounds of human annotation, each from a unique YouTube video. These movements cover a wide range of lessons, including human-object interactions, such as playing a musical instrument, and human-to-human interactions, such as shaking hands and hugging.
  • I3D, two-stream inflated 3D convolutional network pre-trained on the Kinetics-600 dataset as the initial model.
  • Kinetics-600 is a large-scale, high-quality YouTube video URL dataset, in which Containing various human-centered actions, the dataset consists of approximately 500,000 video clips covering 600 human action classes with at least 600 video clips per action class. Each clip lasts about 10 seconds and is marked with a class. All clips go through multiple rounds of human annotation, each from a unique YouTube
  • the I3D network extends the convolution and pooling kernels in a very deep image classification network from 2D to 3D to seamlessly learn spatiotemporal features, and after the I3D network is pre-trained in Kinetics, I3D is in the benchmark dataset HMDB-51. and UCF-101 achieve 80.9% and 98.0% accuracy. Therefore, the present disclosure is based on an initial model (eg, I3D network) that has been trained and applied to video content understanding. By combining the sample multimedia information, the relevant parameters and structure of the initial model are fine-tuned, so as to achieve a more accurate understanding of video content.
  • an initial model eg, I3D network
  • the transfer learning model is trained with the frame extraction result of the sample multimedia information and the subject of the sample multimedia information.
  • BP algorithm namely Backpropagation algorithm
  • the structure of a single neural network can be shown in Figure 3, where each circle represents a neuron, wl and w2 represent the weights between neurons, b represents the bias, and g(z) is the activation function, so that the output changes.
  • a the output
  • x1 and x2 represent the input
  • the output can be expressed as formula (1). It can be obtained from formula (1) that the value a of the output of the neural network is related to the weight and bias when the input data and the activation function are unchanged. By adjusting different weights and biases, the output of the neural network will also have different results.
  • a g(xl*wl+x2*w2+l*b) (1) It is known that the value (predicted value) output by the neural network is a, assuming its corresponding true value is a'o For Figure 3, its reverse
  • the propagation algorithm is performed as follows: i.
  • the back-propagation algorithm it will first randomly initialize the weights (wl and w2) and bias b of each connection line; ii.
  • the BP algorithm will first perform the forward The predicted value a is obtained by transmission; iii, then according to the error E between the actual value a' and the predicted value a, the weight of each connection line and the bias of each layer in the neural network are updated by reverse feedback; iii. Repeat step ii- iii, until the network converges, that is, the value of the error E is the smallest or remains basically unchanged. At this point, indicates that the network has been trained.
  • the present disclosure uses the trained initial model to establish a video understanding model by means of transfer learning, so that the video understanding model is adaptively used for the prediction of video types, reduces the workload of obtaining the subject labels of the sample multimedia information, and improves the performance of the video understanding model.
  • the execution efficiency of the algorithm is a second feature extraction layer and a second classification layer; according to the back propagation method, the frame extraction result of the sample multimedia information and the sample multimedia information are used.
  • calculating the quality of each picture in the target multimedia information includes: inputting the target picture into a pre-trained quality prediction model, and obtaining the quality of the target picture output by the quality return prediction model.
  • the training method of the image quality prediction model includes: initializing the parameters of the image quality prediction model; using a certain number of sample pictures as training samples, and using the image quality scores of the sample pictures as sample labels; inputting the training samples To the image quality prediction model, obtain the prediction result of the image quality score of the training sample output by the image quality prediction model; Calculate the difference between the prediction results of the image quality score of any two training samples and the sample labels corresponding to any two training samples The deviation between the differences is reversely fed back to adjust the parameters of the image quality prediction model until the convergence degree of the deviation is less than the preset threshold, and the trained image quality prediction model is obtained.
  • the image quality prediction model of the present disclosure may use a CNN (Convolutional Neural Networks, convolutional neural network), and further, may use a mobilenet neural network.
  • the mobilenet neural network is a kind of CNN, which is a lightweight neural network and has a wide range of applications in many fields such as target detection, classification, and tracking.
  • the present disclosure can make the image quality prediction converge faster than the prediction result of the image quality score of a single training sample by considering the difference between the prediction results of the image quality scores of the two training samples.
  • FIG. 4A and FIG. 4B are flowcharts of a method for producing a multimedia work according to another embodiment of the present disclosure 4A and 4B constitute a complete flow chart, FIG. 4A shows part A of the flow chart, FIG.
  • the method includes: First, by obtaining the local album access authority of the user terminal, searching for original videos in the album, and obtaining frames corresponding to each remote video by extracting frames for each original video Sequence (also called video frame sequence), set a corresponding unique identifier for each frame sequence, namely video ID; input the frame sequence into the pre-trained video understanding model for video understanding analysis, and obtain the video output by the video understanding model Understand the feature, that is, the video feature result vector; at the same time, download the target audio according to the audio URL (Uniform Resource Locator, Uniform Resource Locator), that is, the audio download address on the Internet; Obtain the audio features of the target audio, and input the audio features into the The trained audio comprehension model performs audio comprehension analysis, and obtains the audio comprehension feature output by the audio comprehension model, that is, the audio feature result vector; then, the audio comprehension
  • Scoring system to predict the matching degree, and obtain the matching degree between each video feature result vector and the audio understanding feature vector; sort the video frame sequence according to the matching degree from high to low, and the first preset The number of video frame sequences is used as the target video frame sequence; the image quality of each image in the target video frame sequence is calculated, and the image quality is sorted from high to low, and the second preset number of images at the top of the ranking are used as the target image.
  • these target pictures constitute the sequence of highlight segments in each video frame sequence.
  • An embodiment of the present disclosure provides an apparatus for producing a multimedia work. As shown in FIG.
  • the apparatus for producing a multimedia work may include: a material acquisition module 101, a matching module 102, a target image acquisition module 103, and a music synthesis module 104, wherein , the material acquisition module 101 is used to acquire target audio and at least one multimedia information, and the at least one multimedia information includes at least one of pictures and videos; the matching module 102 is used to determine the matching degree between the target audio and at least one multimedia information, Sort at least one piece of multimedia information according to the order of matching degree from high to low, and use the first preset number of multimedia information in the ranking as the target multimedia information; the target picture acquisition module 103 is used to determine each piece of the target multimedia information.
  • the quality of each picture is sorted, and each picture of the target multimedia information is sorted according to the order of picture quality from high to low, and the second preset number of pictures at the top of the ranking are used as the target picture; the music synthesis module 104 is used for Synthesize multimedia works according to the target picture and target audio.
  • the apparatus for producing a multimedia work specifically executes the process of the above-mentioned method for producing a multimedia work.
  • the device for producing a multimedia work provided by the embodiment of the present application obtains the target multimedia information matching the target audio by acquiring the target audio and at least one piece of multimedia information, and by calculating the matching degree between the target audio and the multimedia information, thereby ensuring subsequent further screening.
  • the pictures are all materials that match the target audio, and then calculate the quality of each picture in the target multimedia information, select a high-quality picture from the target multimedia information, and synthesize the high-quality picture and the target audio to obtain a multimedia work. , reducing the time cost and learning cost consumed by users in editing and editing videos.
  • the music synthesis module is configured to extract a third preset number of pictures from the target picture and synthesize them with the target audio to obtain a multimedia work.
  • the matching module includes a matching degree calculation sub-module for determining the matching degree between the target audio and at least one multimedia information
  • the matching degree calculation sub-module includes: audio understanding The unit is used to obtain the audio features of the target audio, input the audio features to the pre-trained audio understanding model, and obtain the audio understanding features of the target audio output by the audio understanding model; the video understanding unit is used to extract frames from the multimedia information, and The frame extraction result is input to the pre-trained video understanding model, and the video understanding feature of the multimedia information output by the video understanding model is obtained; the matching degree determination unit is used for inputting the audio understanding feature and the video understanding feature of at least one multimedia information to the pre-trained video understanding feature.
  • the audio understanding The model is the first feature extraction layer and the first classification layer; the matching degree calculation sub-module also includes an audio understanding training list for training the audio understanding model element, the audio understanding training unit further includes: a first parameter initialization subunit for initializing the parameters of the first feature extraction layer and the first classification layer; a first feature acquisition subunit for converting the audio features of a certain number of sample music As the training sample, the music type of the sample music is used as the sample label, the training sample and the sample label are input to the first feature extraction layer, and the audio understanding feature of the training sample output by the first feature extraction layer is obtained; the first prediction result obtaining subunit , used to input the audio understanding feature of the training sample to the first classification layer, and obtain the prediction result of the music type of the training sample output by the first classification layer; the first feedback subunit
  • the audio understanding unit obtains the audio understanding features of the music output by the audio understanding model, which specifically includes: inputting the music into the audio understanding model, and obtaining the first audio understanding model of the audio understanding model.
  • the audio understanding features of the music output by the feature extraction layer are included in the audio understanding model.
  • the matching degree calculation sub-module further includes a video understanding training unit for training a video understanding model
  • the video understanding training unit further includes: a migration model acquisition sub-unit, which uses For migrating the initial model that has been trained, adjust the parameters and structure of the initial model in combination with the frame extraction results of the sample multimedia information, and obtain the migration model; the model training subunit is used to use the frame extraction of the sample multimedia information according to the back propagation method.
  • the results and the subject of the sample multimedia information train a transfer learning model, and the trained transfer learning model is used as a video understanding model.
  • the video understanding model is a second feature extraction layer and a second classification layer;
  • the model training subunit further includes: a second parameter initialization subunit for initializing the first The parameters of the second feature extraction layer and the second classification layer;
  • the second feature acquisition subunit is used to take the frame sampling result of the sample multimedia information as the training sample, and use the subject of the sample multimedia information as the sample label, and input the training sample and the sample label.
  • the second prediction result obtaining subunit is used to input the video understanding feature of the training sample to the second classification layer, and obtain the prediction result of the subject of the training sample output by the second classification layer;
  • the second feedback subunit is used to calculate the prediction result For the deviation between the sample labels corresponding to the training samples, the parameters of the second feature extraction layer and the second classification layer are adjusted in reverse feedback until the convergence degree of the deviation is less than the preset threshold, and the trained transfer learning model is obtained.
  • the video understanding unit obtains the video understanding feature of the multimedia information output by the video understanding model, including: inputting the frame extraction result into the video understanding model, and obtaining the video understanding model The video understanding features of the multimedia information output by the second feature extraction layer.
  • the target picture acquisition module calculates the picture quality of each picture in the target multimedia information, including: inputting the target picture into a pre-trained picture quality prediction model, and obtaining The image quality of the target image output by the image quality prediction model.
  • the target picture acquisition module includes an image quality model prediction module for training an image quality prediction model, and the image quality model prediction module further includes: a parameter initialization unit for initializing parameters of the image quality prediction model; a prediction result acquisition unit for A number of sample images are used as training samples, and the image quality scores of the sample images are used as sample labels, the training samples are input into the image quality prediction model, and the prediction results of the image quality scores of the training samples output by the image quality prediction model are obtained; the feedback adjustment unit, It is used to calculate the deviation between the difference between the prediction results of the image quality scores of any two training samples and the difference between the sample labels corresponding to any two training samples, and adjust the parameters of the image quality prediction model in reverse feedback until the deviation converges.
  • a parameter initialization unit for initializing parameters of the image quality prediction model
  • a prediction result acquisition unit for A number of sample images are used as training samples, and the image quality scores of the sample images are used as sample labels, the training samples are input into the image quality prediction model, and the prediction results of the image quality scores of
  • An embodiment of the present disclosure provides an electronic device, the electronic device includes: a memory and a processor; at least one program, stored in the memory, for being executed by the processor, compared with the prior art, can realize: by obtaining The target audio and at least one piece of multimedia information are obtained by calculating the matching degree between the target audio and the multimedia information to obtain the target multimedia information that matches the target audio, so as to ensure that the subsequent further screened pictures are all materials that match the target audio, and then calculate the target multimedia information.
  • an electronic device is provided. As shown in FIG. 6 , the electronic device 4000 shown in FIG. 6 includes: a processor 4001 and a memory 4003 o wherein the processor 4001 and the memory 4003 are connected, such as through a bus 4002 is connected. Optionally, the electronic device 4000 may also include a transceiver 4004 .
  • the transceiver 4004 is not limited to one, and the structure of the electronic device 4000 does not constitute a limitation to the embodiments of the present disclosure.
  • the processor 4001 may be a CPU (Central Processing Unit, central processing unit), a general-purpose processor, a DSP (Digital Signal Processor, data signal processor), an ASIC (Application Specific Integrated Circuit, application specific integrated circuit), an FPGA (Field Programmable Gate Array) , field programmable gate array) or other programmable logic devices, transistor logic devices, hardware components or any combination thereof. It may implement or execute the various exemplary logical blocks, modules and circuits described in connection with this disclosure.
  • the processor 4001 may also be a combination that realizes computing functions, such as a combination of one or more microprocessors, a combination of a DSP and a microprocessor, and the like.
  • the bus 4002 may include a path to transfer information between the components described above.
  • the bus 4002 may be a PCI (Peripheral Component Interconnect, Peripheral Component Interconnect) bus or an EISA (Extended Industry Standard Architecture, Extended Industry Standard Architecture) bus or the like.
  • the bus 4002 can be divided into an address bus, a data bus, a control bus, and the like. For ease of representation, only one thick line is used in FIG. 6, but it does not mean that there is only one bus or one type of bus.
  • the memory 4003 may be a ROM (Read Only Memory) or other types of static storage devices that can store static information and instructions, a RAM (Random Access Memory, random access memory) or other types of storage devices that can store information and instructions.
  • the dynamic storage device can also be an EEPROM (Electrically Erasable Programmable Read Only Memory), a CD-ROM (Compact Disc Read Only Memory, a CD-ROM), or other optical disk storage, optical disk storage (including compressed compact disc, laser disc, compact disc, digital versatile disc, blu-ray disc, etc.), magnetic disk storage media or other magnetic storage devices, or capable of carrying or storing desired program code in the form of instructions or data structures and capable of being accessed by a computer any other medium, but not limited to.
  • the memory 4003 is used to store the application code for executing the solution of the present application, and the execution is controlled by the processor 4001 .
  • the processor 4001 is configured to execute the application program code stored in the memory 4003 to implement the content shown in the foregoing method embodiments.
  • An embodiment of the present disclosure provides a computer-readable storage medium, where a computer program is stored on the computer-readable storage medium, and when the computer program runs on the computer, the computer can execute the corresponding content in the foregoing method embodiments.
  • the target multimedia information matching the target audio is obtained, thereby ensuring that the pictures that are further screened in the future are all the same as the target audio.
  • Audio matching material and then calculate the quality of each picture in the target multimedia information, select a high-quality picture from the target multimedia information, and synthesize the high-quality picture and the target audio to obtain a multimedia work.
  • the high-quality multimedia works that match the background music can reduce the time cost and learning cost of users in editing and editing videos.
  • the present disclosure provides a method for producing a multimedia work, including: acquiring target audio and at least one piece of multimedia information, where the at least one piece of multimedia information includes at least one of a picture and a video; determining the degree of matching between the target audio and at least one piece of multimedia information, according to Sort at least one piece of multimedia information in the order of matching degree from high to low, and use the first preset number of multimedia information in the ranking as the target multimedia information; determine the quality of each picture in the target multimedia information, according to the quality Sort each picture of the target multimedia information in descending order, and use the second preset number of pictures at the top of the order as the target picture; and synthesize the multimedia work according to the target picture and the target audio.
  • synthesizing a multimedia work according to the target picture and the target audio including: Extracting a third preset number of pictures from the target picture and synthesizing the target audio to obtain a multimedia work.
  • determining the matching degree between the target audio and at least one piece of multimedia information includes: acquiring audio features of the target audio, inputting the audio features into a pre-trained audio understanding model, and obtaining the audio understanding features of the target audio output by the audio understanding model; Perform frame extraction on multimedia information, input the frame extraction result into a pre-trained video understanding model, and obtain a video understanding feature of multimedia information output by the video understanding model; Input the audio understanding feature and at least one video understanding feature of multimedia information into the pre-training
  • the matching model is obtained, and the matching degree between the audio comprehension feature output by the matching model and the video comprehension feature is obtained as the matching degree between the target audio and at least one piece of multimedia information.
  • the audio understanding model includes a first feature extraction layer and a first classification layer;
  • the training method of the audio understanding model includes: initializing the parameters of the first feature extraction layer and the first classification layer; using the audio features of a certain number of sample music as training samples, taking the music type of the sample music as the sample label, inputting the training sample and the sample label to the first feature extraction layer, and obtaining the audio understanding features of the training samples output by the first feature extraction layer; inputting the audio understanding features of the training samples To the first classification layer, obtain the prediction result of the music type of the training sample output by the first classification layer; parameters until the degree of convergence of the deviation is less than the preset threshold, and the trained audio understanding model is obtained.
  • obtaining the audio understanding feature of the music output by the audio understanding model includes: inputting the music into the audio understanding model, and obtaining the audio understanding feature of the music output by the first feature extraction layer of the audio understanding model.
  • the training method of the video understanding model includes: migrating the trained initial model, adjusting the parameters and structure of the initial model in combination with the frame extraction result of the sample multimedia information, and obtaining the migration model; according to the back propagation method, using the sample multimedia information The frame extraction results and the subject of the sample multimedia information are used to train the transfer learning model, and the trained transfer learning model is used as the video understanding model.
  • the video understanding model includes a second feature extraction layer and a second classification layer;
  • using the frame extraction result of the sample multimedia information and the subject of the sample multimedia information to train the transfer learning model including: initializing the parameters of the second feature extraction layer and the second classification layer; using the frame extraction result of the sample multimedia information as The training sample, using the subject of the sample multimedia information as the sample label, input the training sample and the sample label to the second feature extraction layer, and obtain the video understanding feature of the training sample output by the second feature extraction layer; input the video understanding feature of the training sample To the second classification layer, obtain the prediction result of the subject of the training sample output by the second classification layer; calculate the deviation between the prediction result and the sample label corresponding to the training sample, and adjust the parameters of the second feature extraction layer and the second classification layer by reverse feedback , until the degree of convergence of the deviation is less than the preset threshold, and the trained transfer learning model is obtained.
  • inputting the frame extraction result into the pre-trained video understanding model, and obtaining the video understanding feature of the multimedia information output by the video understanding model includes: inputting the frame extraction result into the video understanding model, and obtaining the second feature extraction of the video understanding model Video understanding features of the multimedia information output by the layer.
  • determining the picture quality of each picture in the target multimedia information includes: inputting the target picture into a pre-trained quality restoration prediction model, and obtaining the restoration quality of the target picture output by the restoration quality prediction model.
  • the training method of the image quality prediction model includes: initializing the parameters of the image quality prediction model; using a certain number of sample pictures as training samples, using the image quality scores of the sample pictures as sample labels, and inputting the training samples into the image quality prediction model , obtain the prediction result of the image quality score of the training sample output by the image quality prediction model; calculate the difference between the difference between the prediction result of the image quality score of any two training samples and the difference between the sample labels corresponding to any two training samples.
  • the parameters of the image quality prediction model are adjusted by reverse feedback until the convergence degree of the deviation is less than the preset threshold, and the trained image quality prediction model is obtained.
  • the present disclosure also provides an apparatus for producing a multimedia work, including: a material acquisition module for acquiring target audio and at least one piece of multimedia information, where the at least one piece of multimedia information includes at least one of a picture and a video; a matching module for determining a target the degree of match between the audio and at least one multimedia message, root Sort at least one piece of multimedia information according to the order of matching degree from high to low, and use the first preset number of multimedia information in the ranking as the target multimedia information; the target picture acquisition module is used to determine each picture in the target multimedia information To restore the picture quality, sort each picture of the target multimedia information according to the order of picture quality from high to low, and use the second preset number of pictures at the top of the order as the target picture; the music synthesis module is used for Describe the target picture and target audio to synthesize multimedia works.
  • the music synthesis module is specifically used for: extracting a third preset number of pictures from the target picture and synthesizing the target audio to obtain a multimedia work.
  • the matching module includes a matching degree calculation sub-module for determining the matching degree between the target audio and at least one multimedia information, and the matching degree calculation sub-module includes: an audio understanding unit for acquiring audio features of the target audio, Input to a pre-trained audio understanding model to obtain audio understanding features of the target audio output by the audio understanding model; a video understanding unit, used to extract frames from multimedia information, and input the frame extraction results to the pre-trained video understanding model to obtain video The video understanding feature of the multimedia information output by the understanding model; a matching degree determination unit, used for inputting the audio understanding feature and the video understanding feature of at least one multimedia information into the pre-trained matching model, and obtaining the audio understanding feature output by the matching model and the video understanding feature
  • the matching degree between the features is used as a matching process between the target audio and at least one multimedia information.
  • the audio understanding model is a first feature extraction layer and a first classification layer; the matching degree calculation sub-module also includes audio for training the audio understanding model.
  • the audio understanding training unit further includes: a first parameter initialization subunit, used to initialize the parameters of the first feature extraction layer and the first classification layer; a first feature acquisition subunit, used for a certain number of sample music
  • the audio feature is used as the training sample, the music type of the sample music is used as the sample label, the training sample and the sample label are input to the first feature extraction layer, and the audio understanding feature of the training sample output by the first feature extraction layer is obtained; the first prediction result is obtained
  • the subunit is used to input the audio understanding feature of the training sample to the first classification layer, and obtain the prediction result of the music type of the training sample output by the first classification layer; the first feedback subunit is used to calculate the prediction result corresponding to the training sample
  • the deviation between the sample labels, the parameters of the first feature extraction layer and the first classification layer are adjusted in reverse feedback until the convergence process of the deviation If the
  • the audio understanding unit obtains the audio understanding features of the music output by the audio understanding model, which specifically includes: inputting the music into the audio understanding model, and obtaining the audio understanding features of the music output by the first feature extraction layer of the audio understanding model.
  • the matching degree calculation sub-module further includes a video understanding training unit for training a video understanding model, and the video understanding training unit further includes: a transfer model acquisition sub-unit for transferring the trained initial model, combining the sample multimedia information
  • the frame extraction result adjusts the parameters and structure of the initial model to obtain a migration model;
  • the model training subunit is used to train the migration learning model by using the frame extraction result of the sample multimedia information and the subject of the sample multimedia information according to the back propagation method, and the training Good transfer learning models as video understanding models.
  • the video understanding model is a second feature extraction layer and a second classification layer;
  • the model training subunit further includes: a second parameter initialization subunit for initializing the parameters of the second feature extraction layer and the second classification layer;
  • the second The feature acquisition sub-unit is used to take the frame extraction result of the sample multimedia information as the training sample, and use the subject of the sample multimedia information as the sample label, input the training sample and the sample label to the second feature extraction layer, and obtain the output of the second feature extraction layer
  • the second prediction result obtaining subunit is used to input the video understanding feature of the training sample to the second classification layer, and obtain the prediction result of the subject of the training sample output by the second classification layer;
  • the second feedback The subunit is used to calculate the deviation between the prediction result and the sample label corresponding to the training sample, and adjust the parameters of the second feature extraction layer and the second classification layer in reverse feedback until the convergence degree of the deviation is less than the preset threshold, and obtain the migration completed by training Learning models.
  • the video understanding unit obtains the video understanding feature of the multimedia information output by the video understanding model, including: inputting the frame extraction result into the video understanding model, and obtaining the video understanding feature of the multimedia information output by the second feature extraction layer of the video understanding model.
  • the target picture acquisition module calculates the picture quality of each picture in the target multimedia information, including: inputting the target picture into the pre-trained quality restoration prediction model, and obtaining the restoration quality of the target picture output by the restoration quality prediction model.
  • the target image acquisition module includes an image quality model prediction module for training an image quality prediction model
  • the quality model prediction module further includes: a parameter initialization unit, used to initialize the parameters of the image quality prediction model; a prediction result acquisition unit, used to take a certain number of sample pictures as training samples, and use the image quality scores of the sample pictures as sample labels,
  • the training samples are input to the image quality prediction model, and the prediction results of the image quality scores of the training samples output by the image quality prediction model are obtained;
  • the feedback adjustment unit is used to calculate the difference between the prediction results of the image quality scores of any two training samples and any For the deviation between the differences between the sample labels corresponding to the two training samples, the parameters of the image quality prediction model are adjusted by reverse feedback until the convergence degree of the deviation is less than the preset threshold, and the trained image quality prediction model is obtained.

Abstract

一种多媒体作品的制作方法、装置及计算机可读存储介质,该方法包括:获取目标音频以及至少一个多媒体信息,计算目标音频与多媒体信息间的匹配程度,根据匹配程度从高到低的顺序对多媒体信息进行排序,将排序靠前的多媒体信息作为目标多媒体信息;计算目标多媒体信息中每一幅图片的画质,根据画质从高到低的顺序对目标多媒体信息的每一幅图片进行排序,将排序靠前的图片作为目标图片;根据目标图片以及目标音频合成多媒体作品。该方法可获得影像内容与背景音乐相匹配的高画质多媒体作品,减少用户在剪辑编辑视频所消耗的时间成本和学习代价。

Description

多媒体作 品的制作 方法、 装置及计算 机可读存 储介质 本申请 要求于 2020年 8月 31日提交的 中国专利 申请第 202010901767.7 的优 先权, 该中国专利 申请的全文 通过引用 的方式结合 于此以作 为本申请 的 一部 分。 技术领 域 本公 开实施例涉 及一种多媒 体作品 的制作方 法、 装置及计算机可 读存储 介质 。 背景技 术 已知短 视频类的 应用程序在 进行音频 视频智能推 荐时 , 仅局限于对单一 视频推 荐 PGC ( Professional Generated Content, 专业生产内容)音乐, 并且 由于 这些音 乐选择范围太 广, 根据视频标签 匹配曲库的 音乐种类并 不能满足 用户 的视频场景 画面契合 度, 以至于用户从 视频智能推 荐的音 乐集合中无 法 选择 出合心意 的音乐; 并且, 由于用户相册的视频中 经常会有一 些噪音 片段, 这就 需要用户精 心制作 裁剪编辑获 得可以发表 的多媒体 作品, 例如音乐短 片 ( MV, music video ) , 增加了创作的时间成本和技术门槛。 发明 内容 本公 开实施例提 供一种克 服上述问题 或者至 少部分地解 决上述 问题的多 媒体 作品的制 作方法 、 装置及计算机可读存 储介质 。 第一 方面, 提供了一种 多媒体作品 的制作方 法, 该方法包括: 获取 目标音频以 及至少一 个多媒体信 息, 至少一个多媒 体信息 包括图片 和视 频中的至 少一种; 计算 目标音频与 至少一个 多媒体信 息间的匹 配程度, 根据匹配程 度从高 到低 的顺序对 至少一个 多媒体信 息进行排序 , 将排序靠前的第 一预设数 量的 多媒 体信息作 为目标多媒 体信息 ; 计算 目标多媒体 信息中每 一幅图片 的画质, 根据画质从 高到低 的顺序对 目标 多媒体信 息的每一 幅图片进行 排序, 将排序靠前 的第二预设 数量的 图片 作为 目标图片 ; 根据 目标图片以 及目标音 频合成多媒 体作品 。 第二 方面, 提供了一种多 媒体作品 的制作装 置, 该装置包括: 素材获 取模块 , 用于获取目标音频 以及至少一 个多媒体 信息, 至少一个 多媒 体信息 包括图片和视 频中的至 少一种; 匹配模 块, 用于确定目标 音频与至 少一个多媒 体信息 间的匹配程 度, 根 据 匹配程度从 高到低的 顺序对至 少一个多媒 体信息进 行排序 , 将排序靠前的 第一 预设数量 的多媒体信 息作为 目标多媒体 信息; 目标 图片获取模 块, 用于计算目标多媒 体信息 中每一幅 图片的回质 , 根 据画 质从高到低 的顺序对 目标多媒 体信息的 每一幅 图片进行排序 , 将排序靠 前的 第二预设数 量的图 片作为目标 图片; 音乐合 成模块 , 用于根据所述目标 图片以及 目标音频合 成多媒体 作品。 第三 方面, 本公开实施例 提供一种 电子设备 , 包括存储器、 处理器及存 储在存 储器上 并可在处理 器上运行 的计算机 程序, 处理器执行程 序时实现 如 第一 方面所提 供的方法 的步骤。 第四 方面, 本公开实施例 提供一种计 算机可读 存储介质 , 其上存储有计 算机 程序, 该计算机程序 被处理器 执行时实现 如第一方 面所提供 的方法 的步 骤。 本公开 实施例提 供的多媒 体作品的 制作方法 、 装置及计算机可读 存储介 质, 通过获取目标音频以 及至少一 个多媒体信 息, 通过计算目标 音频和多媒 体信 息间的 匹配程度, 获得与目标音频匹配 的目标多媒 体信息 , 从而保证后 续进一 步筛选的 图片均是 与目标音频 匹配的素 材, 再计算目标多媒 体信息 中 每一 幅图片的 回质, 从目标多媒体 信息中选 择高回质 的图片, 利用高回质 图 片与 目标音频合 成为多媒 体作品 , 可获得影像内容与背景 音乐相 匹配的高 画 质多媒 体作品 , 减少用户在剪辑编 辑视频所 消耗的时 间成本和学 习代价。 附图说 明 为了更 清楚地说 明本公开 实施例中 的技术方案 , 下面将对本公开 实施例 描述 中所需要 使用的附 图作简单地 介绍。 图 1为本公开实施例 提供的一 种多媒体 作品的制 作系统的 结构示意 图; 图 2为本公开实施例 提供的一 种多媒体 作品的制 作方法的 流程示意 图; 图 3为本公开实施例 提供的一 种单个神 经网络的结 构示意 图; 图 4A和 图 4B为本公开的 另一个实施 例的多媒 体作品 的制作方 法的流程 示意 图; 图 5为本公开实施例 提供的 多媒体作品 的制作装 置; 图 6为本公开实施例 提供的一 种电子设备 的结构示 意图。 具体 实施方式 下面详 细描述本 申请的 实施例, 实施例的示例 在附图 中示出, 其中自始 至终 相同或 类似的标 号表示 相同或 类似的元 件或具 有相 同或类似 功能的元 件 。 下面通过参考附图描 述的实施 例是示例 性的, 仅用于解释 本申请, 而不 能解 释为对本发 明的限制 。 本技 术领域技 术人员 可以理解 , 除非特意声 明, 这里使用 的单数形 式 "__,, 、 “一个,, 和 “该” 也可包括复数形式。 应该进一步理解的是, 本申 请的 说明书中使 用的措辞 “包括” 是指存在特征 、 整数、 步骤、 操作、 元件 和/或组件 , 但是并不排除存在 或添加一 个或多个 其他特征 、 整数、 步骤、 操 作 、 元件、 组件和/或它们的组。 应该理解, 当我们称元件被 “连接” 或 “耦 接” 到另一元件 时, 它可以直接连接 或耦接到 其他元件 , 或者也可以存在 中 间元 件。 此外, 这里使用的 “连接” 或 “耦接” 可以包括无线连接 或无线耦 接 。 这里使用的措辞 “和 /或” 包括一个或更多个相关联的 列出项的全 部或任 一单 元和全部 组合。 为使本 申请的 目的、 技术方案和优 点更加清 楚, 下面将结合附 图对本申 请实施 方式作 进一步地详 细描述。 本申请 提供的 多媒体作 品的制作方 法、 装置、 电子设备和计算机 可读存 储介 质, 旨在解决现有技 术的如上 技术问题 。 下面 以具体地 实施例对本 申请的技 术方案以及 本申请 的技术方案 如何解 决上 述技术问题 进行详细说 明。 下面这几个具 体的实施 例可以相 互结合, 对 于相 同或相似 的概念或 过程可能 在某些实施 例中不再 赘述。下面将结合 附图, 对本 申请的实施 例进行描 述。 本公开 实施例提 供一种多媒 体作品 的制作方 法、 装置、 电子设备和存储 介质 。 具体地, 本公开实施例提供 适用于 电子设备的 多媒体作 品制作方 法, 该电子 设备可以 为终端或服 务器等设 备。 可以理 解的是 , 本实施例的多媒体 作品的制 作方法可 以是在终 端上执行 的 , 也可以是在服务器 上执行的 , 还可以是由终端和 服务器共 同执行的 。 参考 图 1 , 以终端和服务器共同执行多媒 体作品的 制作方法 为例。 本公 开实施 例提供 的多媒体作 品的制作 系统包括 终端 10和服务器 11等;终端 10 与服 务器 11之间通过网络连接 , 比如, 通过有线或无线网 络连接等 , 其中, 背景 音乐构建 装置可以 集成在服 务器中。 其中 ,终端 10可以通过输入模 块获取 目标音频和 需要设置 背景音乐的 至 少一 个多媒体 信息, 将背景音乐和 多媒体信 息发送给服 务器 11 , 以便于服务 器 11计算目标音频 与至少一 个多媒体信 息间的 匹配程度 ,根据匹配程度选择 目标 多媒体信 息, 并从目标多媒体 信息中确 定回质较 高的多帧 图片作为 目标 图片 , 根据目标图片和 目标音频合 成多媒体作 品, 再返回至终端 , 供终端用 户观 赏。 其中, 终端 10可以包括手机 、 智能电视、 平板电脑、 笔记本电脑、 或个 人计算机 (PC, Personal Computer)等。 终端 10上还可以设置客户端, 该 客户 端可以是应 用程序客 户端或者 浏览器客 户端等等 , 用于供用户选取和 目 标视频 匹配的 背景音乐 。 服务器 11 , 可以用于: 获取目标音频以及至少一个 多媒体信 息; 确定目 标音 频与至少一 个多媒体 信息间 的匹配程度 , 根据匹配程度从 高到低的 顺序 对至 少一个多媒 体信息 进行排序 , 将排序靠前的第一 预设数量 的多媒体信 息 作为 目标多媒体 信息; 确定目标多 媒体信息 中每一幅 图片的回质 , 根据回质 从 高到低的顺序 对目标多 媒体信 息的每一幅 图片进行排 序, 将排序靠前 的第 二预设 数量的 图片作为 目标图片; 将目标图 片合成为视频 文件, 将音乐作为 背景 音乐合 成至视频 文件 中获得多媒 体作 品, 再将多媒体 作品发送 给终端 10。 其中,服务器 11可以是单台服务 器, 也可以是由多个服 务器组成 的服务 器集 群。 上述服 务器 11设置背景音乐 的过程, 也可以由终 端 10执行。 本 公开 实 施 例提 供 的多 媒 体 作品 的 制作 方 法 涉及 人 工 智能 (AI,ArtificialIntellegence) 领 域 中 的 视 频 内 容 理 解 (VideoContent Understanding)。 本公开实施例可以根据 目标音频 与多媒体 信息 间的匹配程 度 , 选择匹配程度较高 的目标多媒 体信息 , 然后从目标多媒体信 息中选择 画 质较 高的图片作 为目标 图片, 利用目标图片和 音乐合成 出具有背 景音乐的视 频文 件, 因此, 有利于提升获取 与背景音 乐相匹配 的多媒体信 息的效率 , 同 时可 以提高背 景音乐与 目标多媒体 信息的相 关度, 并且可以获得 高画质 的多 媒体 作品, 展示效果更 好。 其中 , 人工智能 (Al, Artificial Intelligence)是利用数字计算机或者数字计 算机 控制的机 器模拟、 延伸和扩展人的智 能, 感知环境、 获取知识并使 用知 识获得 最佳结果 的理论 、 方法、 技术及应用系统。 换句话说, 人工智能是计 算机 科学的一 个综合技 术, 它企图了解智 能的实质, 并生产出一种新的 能以 人类 智能相似 的方式做 出反应的 智能机器 。 人工智能也就是研 究各种智 能机 器的 设计原理 与实现方法 , 使机器具有感知 、 推理与决策的功 能。 人工智能 技术 是一门综合 学科, 涉及领域广泛, 既有硬件层面 的技术也有 软件层面 的 技术 。 其中, 人工智能软件技术主 要包括计 算机视觉技 术、 语音处理技术 、 自然语言处理技 术以及机 器学习 /深度学习等方向 。 其中 ,视频内容理解 (Video Content Understanding)是通过一系列的 AI算 法 , 将视频解析为结构化 的、 机器可读的意 图与词槽信 息, 它的研究影响 着 人脸 识别、 动作识别、 物体检测、 媒体制作 、 视频推荐等方面。 本公 开实施例将 从多媒体 作品制作 装置的角 度进行描 述, 该多媒体作品 制作 装置具体 可以集成 在电子设备 中, 该电子设备可 以是服务器 , 也可以是 终端 等设备。 本公 开实施例的 多媒体作 品制作方 法可以应 用于各种 需要创建多 媒体作 品的 场景中, 例如, 当用户在短视频平台发 布视频时 , 可以通过本实施例提 供的 方法, 在获取到一 首心仪的音 乐时, 快速地找到 与该音 乐匹配的多媒 体 内容 , 构建出具有高画 质的多媒体 作品。 本公 开实施例 中提供了一 种多媒体作 品的制作 方法, 如图 2所示, 该方 法 包括:
S101、 获取目标音频 以及至少一 个多媒体 信息, 至少一个多 媒体信息 包 括 图片和视频 中的至少一 种; 本公 开获取的 目标音频是 用户心仪的 音乐, 可以是具有人 声的音 乐, 也 可以 纯音乐, 可以是用户通过音 乐播放软件 下载的音 乐, 也可以是用户 自己 创作 的音乐, 本公开对音乐的类型 和来源不作 具体的 限定。 本公开为了创 建 适合 以目标音 频作为背景 音乐的视 频, 首先需要获取至 少一个多 媒体信 息, 多媒 体信息可 以是图片 , 也可以是视频。 多媒体信 息可以从用 户终端的相 册 中获 取, 从而利用用户 自己拍摄 的多媒体信 息创建视 频, 当然, 多媒体信息 也可 以不是 由用户自 己拍摄的,本公开对多 媒体信 息的来源不 作具体的 限定。
5102、 确定目标音频 与至少一 个多媒体信 息间的 匹配程度 , 根据匹配程 度从 高到低的 顺序对至 少一个多媒 体信息进 行排序 , 将排序靠前的第一 预设 数量 的多媒体 信息作为 目标多媒体 信息。 本公 开通过计算 目标音频 与每个多媒 体信息 间的匹配程 度, 从而选择匹 配程 度较高的 若干个多媒 体信息作 为目标多 媒体信 息。 在计算匹配程度 时, 本公 开可以确 定目标音 频和多媒体 信息的主 题, 然后将主题相符 的多媒体 信 息作 为目标多媒 体信息 , 在确定目标音频的 主题时, 若该目标音频是公开 的 音 乐, 可以通过检索该音 乐在互联 网上的简介 、 评价等信息来确 定, 确定的 主题 可以是爱 情、 乡村音乐、 摇滚、 消极、 积极等等主题, 而对多媒体信息, 可以 采用视频 内容理解 的算法确 定主题, 之后将与 目标音频的 主题相同 的多 媒体 信息作为 目标多媒体 信息。
5103、 确定目标多媒 体信息 中每一幅图 片的回质 , 根据回质从高到低 的 顺序 对目标多媒 体信息 的每一幅 图片进行排 序, 将排序靠前的 第二预设数 量 的 图片作为 目标图片。 本公 开在确定 目标多媒体 信息后 , 进一步确定目标多媒 体信息 中每一幅 图片 的画质, 应当理解 的是, 如果某一 目标多媒体信 息是图片 , 那么就确定 该图 片的画质 , 如果某一目标多媒 体信息是 视频, 那么该视频的每 一幅图 片 即该 视频的每一 帧图片。 本公开的第二预设数 量不大于 第一预设数 量。 本公 开的画质可 以以从 图像的清晰度 、 是否有人物、 画面是否畸变等维 度的 评分结果 进行表征 , 分值越高则画质越 高, 本公开通过获取 高画质的 图 片 , 即可获得每个目标 多媒体信 息中的高 光片段。 进一步地 , 通过预先获取 具有 画质打分 结果的样本 图片, 利用样本图 片训练神经 网络模型 , 利用训练 完成 的神经 网络模型对 目标多媒体 信息中的 每一幅 图片的画质进 行预测 , 可 以 大幅提高计 算画质的 效率。 S104、 根据目标图片 和目标音 频合成多媒 体作品 。 通过将 目标图片 , 也即每一个目标 多媒体信 息中的高 光片段按照 展示序 号以 及展示时 间进行拼接 , 即可获得由高光 片段组成 的视频文件 , 例如, 对 每幅 目标图片设 置展示序 号以及展 示时间, 根据展示序号以及展 示时间依 次 展示 目标图片 , 即为视频文件, 比如有两幅 目标图片 , 设置第一幅目标 图片 的展 示时间为 30秒, 第二幅目标图片 的展示时 间为 30秒, 那么两幅目标 图 片 即可合成得 到一个 1分钟时长的视 频文件。 高光片段即高光时刻 的片段 , 高光 时刻即精 彩时刻的 意思, 来源于英文单 词 highlighto 进一步将目标音频 作为 背景音 乐合成到视频 文件中 , 即可获得影像内容 与背景音 乐相匹配 的高 画质 多媒体作 品。 本公 开通过获取 目标音频 以及至少一 个多媒体 信息, 通过计算 目标音频 和多 媒体信息 间的匹配 程度, 获得与目标音 频匹配的 目标多媒体 信息, 从而 保证 后续进一 步筛选的 图片均是与 目标音频 匹配的素材 , 再计算目标多媒体 信息 中每一幅 图片的回 质, 从目标多媒体信 息中选择 高回质的 图片, 利用高 画质 图片进行合 成获得视 频文件, 最后将目标音频作为 背景音 乐合成到视频 文件 中, 可获得影像 内容与背景 音乐相匹 配的高画质 多媒体作 品, 减少用户 在剪 辑编辑视频 所消耗的 时间成本和 学习代价 。 在上 述各实施例 的基础上 , 作为一种可选实施 例, 根据所述目标 图片以 及 目标音频合 成多媒体作 品, 包括: 从 目标图片中抽 取第三预设 数量的 图片与 目标音频进行合 成, 获得多媒 体作 品。 具体地 , 本公开可以从 目标图片中 随机抽取 第三预设数 量的图片 进行合 成 , 也可以采用目标图 片进行乱序 排列, 再随机抽取 的方式 , 本公开对抽取 图片 的方式不作 限定。 本公 开实施例通 过从目标 图像中抽取 第三预设 数量的图 片进行合成 获得 多媒 体作品 , 能够在利用同一个 目标音频 以及同一批 多媒体信 息多次生 成多 媒体 作品时, 避免生成 具有重复 图片的多媒 体作品 , 增强了个性化和多 样化 的特 性。 在上 述各实施例 的基础上 , 作为一种可选实施 例, 确定目标音频 与至少 一个 多媒体信 息间的 匹配程度, 包括: 5201、 获取目标音频 的音频特征 , 将音频特征输入 至预先训练 的音频理 解模 型, 获得音频理解模 型输出 的目标音频 的音频理解 特征。 本公 开的音频特 征是通过 信号处理 方法获得 的,例如过零率 、短时能量 、 基频 、 幅度、 音宽、 音强等等, 音频特征不具有理解 信息, 通过将音频 特征 输入 至预先训练 的音频理 解模型 , 即可获得目标音频 的音频理解 特征。 应当理 解的是 , 在执行 S201 之前, 还可以预先训练音 频理解模 型, 具 体可 以通过如 下方法训 练得到音频 理解模型 :首先收集一定数 量的样本 音乐, 获取 每个样本 音乐的音频 特征, 并确定每个 样本音 乐的音乐类型 , 随即, 基 于样 本音乐的 音频特征 以及样本音 乐的音 乐类型对初始 模型进行 训练, 从而 得到 音频理解模 型, 其中初始模 型可以是单 一神经 网络模型 , 也可以是多个 神经 网络模型 的组合。 音频理解模 型能够根 据输入的 音频特征获 得音频理 解 特征 , 并根据音频理解 特征进一 步预测音 乐类型, 从而在输入 目标音频的 音 频特 征后 , 获得音频理解模 型输出的 目标音频 的音频理解 特征。
5202、 对多媒体信息 进行抽帧 , 将抽帧结果输入至预 先训练的 视频理解 模型 , 获得视频理解模型输 出的多媒体 信息的视 频理解特 征。 应当理 解的是 , 对于图片类的多媒体 信息, 抽帧结果就 是图片本 身, 对 于视 频类的多媒 体信息 , 抽帧结果是该视频 的多帧图片 。 在执行 S202之 前, 还可以预先训 练视频理解 模型, 具体可以通 过如下 方法 训练得到视 频理解模 型: 首先收集一定 数量的样 本多媒体信 息, 获取每 个样 本多媒体信 息的抽 帧结果, 并确定每个 样本多媒 体信息的 主题, 随即, 基于 样本多媒体 信息的 抽帧结果 以及样本多 媒体信息 的主题对初 始模型进 行 训练 , 从而得到视频理解 模型, 其中初始模 型可以是 单一神经 网络模型 , 也 可以 是多个神 经网络模 型的组合 。 视频理解模型能够根 据输入 的抽帧结果 获 得视 频理解特征 , 并根据视频理解 特征进一 步预测主题 , 从而在输入多媒 体 信息 的抽帧结 果后, 获得视频理解模 型输出 的多媒体信 息的视频 理解特征 。
5203、 将音频理解特征 与至少 一个多媒体 信息的视 频理解特 征输入至 预 先训 练的匹配模 型, 获得匹配模型 输出的音 频理解特征 与视频理 解特征 间的 匹配 程度, 作为目标音 频与至少一 个多媒体 信息的 匹配程度 。 应当理 解的是 , 在执行 S203之前 , 还可以预先训练 匹配模型 , 具体可 以通 过如下方 法训练得到 匹配模型 : 首先收集一定数 量的样本 音乐和样本 多 媒体 信息, 获取每个样 本音乐的音 频理解特 征和样本 多媒体信 息的视频理 解 特征 , 并确定每个样本 音乐和样本 多媒体信 息的匹配 程度, 随即, 基于样本 音 乐的音频理解 特征、 样本多媒体 信息的视 频理解特征 以及样本 音乐和样 本 多媒 体信息的 匹配程度 对初始模 型进行训练 , 从而得到匹配模 型, 其中初始 模型 可以是单 一神经网 络模型, 也可以是多 个神经 网络模型的 组合。 本公 开实施例通 过音频理解 模型获得 目标音频 的音频理解 特征, 通过视 频理 解模型获得 多媒体信 息的视频 理解特征 , 最后通过匹配模 型获得 目标音 频和 多媒体信 息间的匹 配程度, 由于整个过程是基于 神经网络模 型实现 的, 因此 在实现效 率和准确 率上相比人 工进行 匹配具有 大幅提高 。 在上 述各实施例 的基础上 , 作为一种可选实施 例, 音频理解模型 为第一 特征 提取层和 第一分类层 ; 进一 步地, 音频理解模型 的训练方 法包括:
5301、 初始化第一特 征提取层 和第一分 类层的参数 ;
5302、 将一定数量的 样本音 乐的音频特征 作为训练样 本, 将样本音乐的 音 乐类型作为样 本标签, 将训练样本和样本标签 输入至第 一特征提 取层, 获 得第 一特征提 取层输出 的训练样本 的音频理解 特征;
5303、 将训练样本的 音频理解特 征输入至 第一分类 层, 获得第一分类层 输 出的训练样本 的音乐类 型的预测结 果;
5304、 计算预测结果与 训练样本对 应的样本 标签间的偏 差, 逆向反馈调 整第 一特征提 取层和第 一分类层 的参数,直至偏差 的收敛程度 小于预设 阈值, 获得 训练完成 的音频理解 模型。 本公 开的音频理 解模型可 以根据 实际需要进行 设置, 本实施例中 采用的 是 BP神经网络 。 BP(Back Propagation)网络是一种按误差逆传播算法训练的 多层 前馈网络 。 BP神经网络的学 习规则是使 用最速下 降法,通过反 向传播来 不断 调整网络 的权值和 阈值,使网络的误 差平方和 最小。 BP神经网 络模型拓 扑结 构包括输入 层 (input)、 隐含层 (hide layer)和输出层 (output layer) , 本公开 将输 入层和隐含 层作为第 一特征提 取层 , 将输出层作为第 一分类层 。
BP 神经网 络的训练基 本思想是 采用最速 下降法 ,使神经网络的实际输 出 值与 期望输 出值之间的误 差的平方 和达到最 小。 学习过程中分前 向传播和 后 向传 播,前向传播 指的 是输入的数据将 逐层经输入 层、隐含层并 最终在输 出 层得 到一个输 出值,但是如果网络 的 输出值不是所期 望的,则启用后向传 播 , 将所 得误差沿各 层反向传 播,在传播的 同时修正 连 接层的权 值,促使下一轮 前向 传播的误差 更小, 最后达到最小误差 。 在上述 各实施例 的基础上 , 获得音频理解模型 输出的音 乐的音频 理解特 征 , 包括: 将音乐输入至音频理解 模型, 获得音频理解 模型的 第一特征提 取 层输 出的音乐 的音频理解 特征。 在上述 各实施例 的基础上 , 作为一种可选实施 例, 本公开在训练视 频理 解模 型的过程 中是以迁 移学习的方 式获得视 频理解模 型。 迁移学习( Transfer Learning)是一种机器 学习方法 , 就是把为任务 A开 发的模型作 为初始 点, 重新 使用在为任 务 B 开发模型的过程 中。 具体地 , 本公开视频理解模 型的训练 方法包括 :
5401、 迁移已经训练好 的初始模 型, 结合样本多媒体 信息的抽 帧结果对 初始 模型进行 参数和结构 调整, 得到迁移模 型。 本 公开 可 以采 用在 Kinetics-600 数据集上 预训 练的 Inflated 3D Convnet(I3D, 双流膨胀 3D卷积 网络)网络作为初始模 型, Kinetics-600是一 个大 规模, 高质量的 YouTube视频 网址数据 集, 其中包含各种以人 为本的行 动, 该数据集由大约 500,000个视频剪辑组成, 涵盖 600个人 类动作类 , 每 个动作 类至少有 600个视频剪辑 。每个剪辑持续大 约 10秒钟,并标有一个 类。 所有 剪辑都经过 多轮人工 注释, 每个剪辑均 来自一个独 特的 YouTube视频。 这些 动作涵盖 了广泛的课 程, 包括人 -物体交互, 如演奏乐器, 以及人与人之 间的 互动, 如握手和拥抱 。
I3D 网络是对一个非常 深的图像 分类网络 中的卷积和 池化 kernel从 2D 扩展 到了 3D, 来无缝的学习时空 特征, 并且 I3D网络在 Kinetics预训之后, I3D 在基准数 据集 HMDB-51 和 UCF-101达到了 80.9%和 98.0%的准确率。 因此 本公开基 于已经训练 好的初始模 型 (例如 I3D网络) , 将其应用到视频 内容 理解中。 通过结合样本多媒体 信息, 微调初始模 型的相关 参数和结构 , 从而 达到更加 准确的视 频内容理解 中。
5402、 根据反向传播 法, 利用样本多媒体 信息的抽 帧结果以 及样本多媒 体信 息的主题训 练迁移 学习模型 , 将训练好的迁移学 习模型作为 视频理解模 型。 训练步 骤: 根据反 向传播 法 (BP算法, 即 Backpropagation algorithm算法), 用样本 多媒 体信息的 抽帧结果 以及样本 多媒体信 息的主题训 练迁移学 习模型。 单个神 经网络的 结构可如 图 3所示,其 中每一个 圆圈代表着 一个神经元, wl 和 w2代表 神经元之 间的权重 , b表示偏置 , g(z)为激活函数, 从而使得 输 出变得非线性 , a表示输出, xl和 x2表示输入 , 则针对当前结构, 输出的 可表 示为公式 (1)。 由公式 ⑴可得, 在输入数据和激活函数不变的情况下 , 神 经 网络的输出 的值 a是与权 重和偏置有 关的。 通过调节不 同的权重和 偏置, 神经 网络的输 出也会有 不同的结果 。 a = g(xl*wl+x2*w2+l*b) (1) 已知神 经网络输 出的值 (预测值)为 a, 假设其对应的真实值 为 a'o 对于 图 3, 其反向传播算 法执行如下 : i、 在反向传播算法 中, 其会先随机初始 化每条连 接线权重 (wl和 w2)和 偏置 b; ii、 对于输入数据 xl , x2, BP算法都会先执行前 向传输得 到预测值 a; iii、然后根据真实值 a'与预测值 a之间的误差 E,逆向反馈 更新神经 网络 中每 条连接线 的权重和每 层的偏置 ; iiii、 不断重复步骤 ii-iii, 直到网络收敛, 即误差 E的值最小或者基本保 持不 变。 此刻, 表示网络已经训练 完毕。 本公 开利用已经 训练好的初 始模型 , 通过迁移学习的方 式建立视 频理解 模型 , 使得视频理解模 型适应性地 用于对视 频类型的预 测, 减少了获取样本 多媒 体信息的 主题标签 的工作量 , 提高了算法的执行 效率。 在上 述各实施例 的基础上 , 作为一种可选实施 例, 视频理解模型 为第二 特征 提取层和 第二分类层 ; 根据反 向传播 法, 利用样本多媒体 信息的抽 帧结果以及 样本多媒 体信息 的主 题训练迁移 学习模型 , 包括:
5501、 初始化第二特 征提取层 和第二分 类层的参数 ;
5502、 将样本多媒体 信息的抽 帧结果作 为训练样本 , 以样本多媒体信息 的主 题作为样本 标签, 将训练样本和 样本标签输 入至第二 特征提取 层, 获得 第二 特征提取 层输出的训 练样本的 视频理解特 征; 5503、 将训练样本的视 频理解特征 输入至 第二分类层 , 获得第二分类层 输出 的训练样本 的主题的预 测结果;
5504、 计算预测结果与 训练样本对 应的样本 标签间的偏 差, 逆向反馈调 整第 二特征提取 层和第二 分类层的 参数,直至偏差的 收敛程度 小于预设 阈值, 获得训 练完成的 迁移学 习模型。 在此基 础上, 将抽帧结果输 入至预先 训练的视频 理解模型 , 获得视频理 解模 型输出的 多媒体信 息的视频理 解特征 , 包括: 将抽帧结果输入至视频 理 解模 型, 获得视频理解模 型的第二 特征提取 层输出的 多媒体信 息的视频理 解 特征 。 在上述 各实施例 的基础上 , 计算目标多媒体信 息中每一 幅图片的 回质, 包括 : 将 目标图片输入 至预先训练 的回质预测 模型, 获得回质预 测模型输 出的 目标 图片的回质 。 作为一 种可选实施 例, 画质预测模型 的训练方法 包括: 初始化 画质预测模 型的参数 ; 将一定 数量的样 本图片作 为训练样本 , 以样本图片的画质 评分作为样 本 标签 ; 将训练 样本输入 至画质预测模 型, 获得画质预测模 型输出 的训练样本 的 画质评 分的预测 结果; 计算任 意两个训 练样本的 画质评分的预 测结果 的差值与任 意两个训 练样 本对应 的样本标 签间的差值 间的偏差 , 逆向反馈调整画质 预测模型 的参数, 直至 偏差的收 敛程度小 于预设阈值 , 获得训练完成的画 质预测模型 。 本公开 的画质预 测模型可 以采用 CNN ( Convolutional Neural Networks , 卷积神 经网络 ) , 进一步地, 可以采用 mobilenet神经网络。 mobilenet神经 网络是 CNN 的一种, 属于轻量级 的神经 网络, 在目标检测, 分类, 跟踪等 诸多领 域具有广 泛的应用 。 本公开 在计算偏 差时, 通过考量两个 训练样本 的画质评分 的预测结 果的 差值 , 相比单 — 个训 练样本的 画质评分 的预测结果 , 能够使画质预测更 快 的收 敛。 图 4A和图 4B为本公开的 另一个实施 例的多媒 体作品 的制作方法 的流程 示意 图, 其中, 图 4A和图 4B构成一 个完整的 流程图, 图 4A示出了该流程 图的 A部分 , 图 4B示出了该流程 图的 B部分, 图 4B示出的 B部分为接 在 图 4A所示的 A部分后 的部分流程 图。 如图 4A和图 4B所示, 该方法包括 : 首先 ,通过获得用户 终端本地 的相册访 问权限,搜索相 册中的原 创视频, 通过 对每一个原 创视频进 行抽帧, 获得对应每 个远程视频 的帧序列 (也称之 为视 频帧序列 ) , 对每个帧序列设置一个对应 的唯一标识 , 即视频 ID; 将帧序 列输入至 预先训练 的视频理解模 型进行视 频理解分 析 , 获得视频 理解 模型输 出的视频理解 特征, 也即视频特 征结果向 量; 同时 , 根据音频 URL ( Uniform Resource Locator, 统一资源定位器) , 即音 频在互联 网的下载地 址下载 目标音频; 获取 目标音频的 音频特征 , 将音频特征输入至 预先训练 的音频理解 模型 进行 音频理解 分析, 获得音频理解 模型输 出的音频理解 特征, 也即音频特 征 结果 向量; 接着 , 将音频理解特征相 邻与视频特 征结果 向量输入至 预先训练 的匹配 模型 (也即打分系统 )进行匹配程 度的预测 , 获得每个视频特征 结果向量 与 音频 理解特征 向量的 匹配程度; 根据 匹配程度从 高到低 的顺序对视 频帧序列进 行排序 , 将排序靠前的第 一预设 数量的视 频帧序列 作为目标视 频帧序列 ; 计算 目标视频帧序 列中每一 幅图片的 画质,根据画质从 高到低进行 排序 , 将排 序靠前的 第二预设数 量的图 片作为目标 图片, 这些目标图片 即组成 了每 个视 频帧序列 中的高光 片段序列 。 在获得 每个视频 帧序列的 高光片段序 列进行乱 序排列 , 随机选取 Y个图 片 , 即可作为结果高光 片段序列 , 将结果高光片段序 列合成为 视频, 并与目 标音 频进行合成 , 获得多媒体作品 。 本公 开实施例提 供了一种 多媒体作 品的制作 装置, 如图 5所示, 该多媒 体作 品的制作 装置可以 包括: 素材获取模块 101、 匹配模块 102、 目标图片获 取模 块 103和音乐合 成模块 104, 其中, 素材 获取模块 101 , 用于获取目标音频以及 至少一个 多媒体信 息, 至少 一个 多媒体信 息包括 图片和视频 中的至少一 种; 匹配模 块 102,用于确定目标音频 与至少一 个多媒体 信息间的 匹配程度, 根据 匹配程度 从高到低 的顺序对至 少一个 多媒体信 息进行排序 , 将排序靠前 的第 一预设数量 的多媒体 信息作 为目标多媒 体信息; 目标 图片获取模 块 103 ,用于确定目标多媒体 信息中每 一幅图 片的回质, 根据 画质从高 到低的顺序 对目标多媒 体信息 的每一幅 图片进行排 序, 将排序 靠前 的第二预设 数量的 图片作为 目标图片; 音乐合 成模块 104, 用于根据目标图片 以及目标音 频合成多 媒体作品 。 本申请 实施例提 供的多媒 体作品的 制作装置 , 具体执行上述多媒 体作品 的制 作方法流 程, 具体请详见上述 多媒体作 品的制作 方法实施 例的内容 , 在 此不 再赘述。 本申请实施例提供 的多媒体作 品的制作 装置, 通过获取 目标音 频以 及至少一 个多媒体信 息,通过计算 目标音频和多媒 体信息 间的匹配程 度 , 获得 与目标音频 匹配的 目标多媒体 信息, 从而保证后 续进一步 筛选的图片 均 是与 目标音频 匹配的素材 , 再计算目标多媒 体信息 中每一幅图 片的回质 , 从 目标 多媒体信 息中选择 高画质的 图片,利用高画质图 片与目标音 频进行合 成, 获得 多媒体作 品, 减少用户在剪辑 编辑视频所 消耗的 时间成本和 学习代价 。 在上述 各实施例 的基础上 , 作为一种可选实施 例, 音乐合成模块用 于从 目标 图片中抽取 第三预设 数量的 图片与目标音 频进行合 成,获得多媒体作 品。 在上述 各实施例 的基础上 , 作为一种可选实施 例, 匹配模块包括 用于确 定 目标音频与 至少一个 多媒体信 息间的匹配 程度的 匹配程度计 算子模块 , 匹 配程 度计算子模 块包括 : 音频理 解单元 , 用于获取目标音频 的音频特征 , 将音频特征输入 至预先 训练 的音频理解 模型, 获得音频理 解模型输 出的目标音 频的音频 理解特征 ; 视频理 解单元, 用于对多媒体信息进 行抽帧 , 将抽帧结果输入至预 先训 练的视 频理解模 型, 获得视频理解模 型输出 的多媒体信 息的视频 理解特征 ; 匹配程 度确定单 元, 用于将音频理 解特征与 至少一个 多媒体信 息的视频 理解 特征输入 至预先训练 的匹配模 型, 获得匹配模型输 出的音频 理解特征 与 视频理 解特征 间的匹配程 度, 作为目标音频 与至少一个 多媒体信 息的匹 配程 在上述 各实施例 的基础上 , 作为一种可选实施 例, 音频理解模型 为第一 特征 提取层和 第一分类层 ; 匹配 程度计 算子模块 还包括 用于训练 音频理 解模型 的音频理 解训练 单 元 , 音频理解训练单元进 一步包括 : 第一 参数初始化 子单元 , 用于初始化第一特 征提取层 和第一分 类层的参 数; 第一特 征获取子 单元, 用于将一定 数量的样 本音乐的音 频特征作 为训练 样本 , 将样本音乐的音 乐类型作为样 本标签 , 将训练样本和样本标 签输入至 第一 特征提取 层, 获得第一特征提 取层输 出的训练样本 的音频理 解特征; 第一预 测结果获取 子单元 , 用于将训练样本的 音频理解特 征输入至 第一 分类 层, 获得第一分类层 输出的训 练样本的音 乐类型的预 测结果; 第一反 馈子单元 , 用于计算预测结果与 训练样本对 应的样本标 签间的偏 差 , 逆向反馈调整第一特 征提取层 和第一分 类层的参数 , 直至偏差的收 敛程 度小 于预设阈值 , 获得训练完成的音 频理解模 型。 在上 述各实施例 的基础上 , 作为一种可选实施 例, 音频理解单元 获得音 频理 解模型输 出的音乐 的音频理解 特征, 具体包括: 将音乐输入至音频理 解 模型 , 获得音频理解模 型的第一特 征提取层 输出的音 乐的音频理 解特征 。 在上 述各实施例 的基础上 , 作为一种可选实施 例, 匹配程度计算 子模块 还 包括用于训 练视频理解模 型的视 频理解训练 单元, 视频理解训练 单元进一 步 包括: 迁移模 型获取子 单元, 用于迁移 已经训练好 的初始模型 , 结合样本多媒 体信 息的抽帧 结果对初始 模型进行 参数和结 构调整, 得到迁移模 型; 模型训 练子单元 , 用于根据反向传播 法, 利用样本多媒 体信息 的抽帧结 果以 及样本多媒 体信息 的主题训练 迁移学 习模型, 将训练好的 迁移学习模 型 作为 视频理解模 型。 在上 述各实施例 的基础上 , 作为一种可选实施 例, 视频理解模型 为第二 特征 提取层和 第二分类层 ; 模型训 练子单元 进一步包括 : 第二 参数初始化 子单元 , 用于初始化第二特 征提取层 和第二分 类层的参 数; 第二特 征获取子 单元 ,用于将样本多媒 体信息 的抽帧结果 作为训练样 本, 以样 本多媒体信 息的主 题作为样本 标签 , 将训练样本和样本 标签输入 至第二 特征 提取层, 获得第二特征提取层 输出的训 练样本的视 频理解特 征; 第二预 测结果获取 子单元 , 用于将训练样本的视 频理解特 征输入至 第二 分类 层, 获得第二分类层 输出的训练 样本的主 题的预测结 果; 第二反 馈子单元 , 用于计算预测结果与训 练样本对 应的样本标 签间的偏 差 , 逆向反馈调整第二特 征提取层 和第二分 类层的参数 , 直至偏差的收敛 程 度小 于预设阈值 , 获得训练完成的 迁移学习模 型。 在上述 各实施例 的基础上 , 作为一种可选实施 例, 视频理解单元获 得视 频理 解模型输 出的多媒体 信息的视 频理解特 征, 包括: 将抽帧结果输入至 视 频理 解模型, 获得视频理解模型的 第二特征 提取层输 出的多媒体 信息的视 频 理解 特征。 在上述 各实施例 的基础上 , 作为一种可选实施 例, 目标图片获取模 块计 算 目标多媒体信 息中每 一幅图片 的画质, 包括: 将目标图片输入至预先训 练 的画 质预测模型 , 获得画质预测模型 输出的 目标图片的 画质。 目标 图片获取模 块包括用 于训练画质预 测模型 的画质模型 预测模块 , 画 质模 型预测模块 进一步 包括: 参数初 始化单元 , 用于初始化画质 预测模型 的参数; 预测结 果获取单元 , 用于将一定数量 的样本 图片作为训练 样本, 以样本 图片 的画质评分 作为样本 标签, 将训练样本输入 至画质预 测模型, 获得画质 预测模 型输出 的训练样本 的画质评分 的预测结 果; 反馈调 节单元, 用于计算任意两个训 练样本的 画质评分的 预测结果 的差 值与任 意两个训 练样本对应 的样本标 签间的差值 间的偏差 , 逆向反馈调整画 质预 测模型的参 数, 直至偏差的收 敛程度小 于预设阈值 , 获得训练完成的 画 质预 测模型。 本公开 实施例 中提供了一 种电子设备 , 该电子设备包括: 存储器和处理 器; 至少一个程序, 存储于存储 器中, 用于被处理器 执行时, 与现有技术相 比可 实现: 通过获取目标 音频以及 至少一个 多媒体信 息, 通过计算目标音 频 和多 媒体信息 间的匹配程 度, 获得与目标音 频匹配的 目标多媒体 信息, 从而 保证后 续进一步 筛选的图 片均是与 目标音频 匹配的素材 , 再计算目标多媒体 信息 中每一幅 图片的回质 , 从目标多媒体信 息中选择 高回质的 图片, 利用高 画质 图片与 目标音频合成 得到多媒 体作品 , 可获得影像内容与 背景音乐相 匹 配的 高画质多媒 体作品 , 减少用户在剪辑编 辑视频所 消耗的时 间成本和学 习 代价 。 在一 个可选实施 例中提供 了一种电子 设备, 如图 6所示, 图 6所示的电 子设 备 4000包括: 处理器 4001和存储器 4003 o 其中, 处理器 4001和存储 器 4003相连, 如通过总线 4002相连。 可选地, 电子设备 4000还可以包括收 发器 4004。 需要说明的是, 实际应用中收发 器 4004不限 于一个, 该电子设 备 4000的结构并不构 成对本公 开实施例的 限定。 处理 器 4001可以是 CPU( Central Processing Unit, 中央处理器), 通用 处理 器, DSP( Digital Signal Processor,数据信号处理器), ASIC( Application Specific Integrated Circuit, 专用集成电路), FPGA( Field Programmable Gate Array, 现场可编程 门阵列 )或者其他可编 程逻辑器件 、 晶体管逻辑器件 、 硬 件部 件或者其 任意组合 。 其可以实现或执行 结合本 申请公开内容 所描述 的各 种示 例性的逻 辑方框,模块和 电路。处理器 4001也可以是 实现计算功 能的组 合 , 例如包 —个或 多个微处 理器组合 , DSP和微处 理器的组合 等。 总线 4002可包括一通路 , 在上述组件之 间传送信息 。 总线 4002可以是 PCI ( Peripheral Component Interconnect, 外设部件互连标准) 总线或 EISA ( Extended Industry Standard Architecture, 扩展工业标准结构)总线等。 总线 4002可 以分为地 址总线、 数据总线、 控制总线等 。 为便于表示, 图 6中仅用 一条 粗线表示 , 但并不表示仅有一 根总线或 一种类型 的总线。 存储 器 4003可以是 ROM ( Read Only Memory, 只读存储器)或可存储 静态 信息和指令 的其他 类型的静 态存储设备, RAM( Random Access Memory, 随机 存取存储 器)或者 可存储信 息和指令 的其他类型 的动态存储 设备, 也可 以是 EEPROM ( Electrically Erasable Programmable Read Only Memory, 电可 擦可 编程只读存 储器 ) 、 CD-ROM( Compact Disc Read Only Memory, 只读 光盘 )或其他 光盘存储 、 光碟存储 (包括压缩光碟、 激光碟、 光碟、 数字通 用光 碟、 蓝光光碟等 ) 、 磁盘存储介质或者其他磁存 储设备、 或者能够用 于 携带 或存储具有 指令或数 据结构形 式的期望 的程序代 码并能够 由计算机存 取 的任 何其他介 质, 但不限于此。 存储 器 4003用于存储执行 本申请方案 的应用程 序代码 ,并由处理器 4001 来控 制执行。 处理器 4001用于执行存储 器 4003中存储的应 用程序代 码, 以 实现 前述方法 实施例所示 的内容 。 本公 开实施例提 供了一种 计算机可读 存储介质 , 该计算机可读存储 介质 上存 储有计算机 程序, 当其在计算机上运行 时, 使得计算机可 以执行前述 方 法 实施例中相应 内容。 与现有技术相比, 通过获取 目标音频以及 至少一个 多 媒体 信息, 通过计算 目标音频和多 媒体信息 间的匹配程 度, 获得与目标音 频 匹配 的目标多媒 体信息 , 从而保证后续进一 步筛选的 图片均是与 目标音频 匹 配的 素材, 再计算目标 多媒体信 息中每一 幅图片的回 质, 从目标多媒体信 息 中选择 高画质 的图片,利用高画质 图片与 目标音频进行 合成获得 多媒体作 品 , 可获 得影像 内容与背景 音乐相匹 配的高画质 多媒体作 品, 减少用户在剪 辑编 辑视 频所消耗 的时间成本 和学习代价 。 应该理 解的是 , 虽然附图的流程图 中的各个 步骤按照箭 头的指示依 次显 示 , 但是这些步骤并不是 必然按 照箭头指示 的顺序依 次执行。 除非本文中有 明确 的说明, 这些步骤的执行并没 有严格的 顺序限制 , 其可以以其他的顺 序 执行 。 而且, 附图的流程图中的至 少一部分 步骤可以 包括多个 子步骤或 者多 个阶 段, 这些子步骤或者 阶段并不 必然是在 同一时刻执 行完成 , 而是可以在 不 同的时刻执行 , 其执行顺序也不 必然是依 次进行, 而是可以与其他步骤 或 者其 他步骤的 子步骤或者 阶段的至 少一部分 轮流或者 交替地执 行。 以上仅 是本公开 的部分 实施方式, 应当指出 , 对于本技术领域的 普通技 术人 员来说, 在不脱离本 发明原理 的前提下 , 还可以做出若干 改进和润饰 , 这些 改进和润饰 也应视为本 发明的保 护范围。 本公 开提供一种 多媒体作 品的制作 方法, 包括: 获取 目标音频以 及至少一 个多媒体信 息, 至少一个多媒 体信息 包括图片 和视 频中的至 少一种; 确定 目标音频与 至少一个 多媒体信 息间的 匹配程度, 根据匹配程 度从高 到低 的顺序对 至少一个 多媒体信 息进行排序 , 将排序靠前的第 一预设数 量的 多媒 体信息作 为目标多媒 体信息 ; 确定 目标多媒体 信息中每 一幅图 片的回质, 根据回质从 高到低 的顺序对 目标 多媒体信 息的每一 幅图片进行 排序 , 将排序靠前的 第二预设数 量的图 片 作为 目标图片 ; 根据 目标图片和 目标音频合 成多媒体 作品。 进一 步地, 根据目标图片 以及目标音 频合成 多媒体作 品, 包括: 从 目标图片中抽 取第三预设 数量的 图片与目标 音频进行合 成, 获得多媒 体作 品。 进一步 地, 确定目标音频 与至少一 个多媒体信 息间的 匹配程度 , 包括: 获取 目标音频的 音频特征 ,将音频特征输入至 预先训练 的音频理解 模型 , 获得 音频理解模 型输出 的目标音频 的音频理解 特征; 对多媒 体信息进 行抽帧 , 将抽帧结果输入 至预先训 练的视频 理解模型 , 获得视 频理解模 型输出的 多媒体信 息的视频理 解特征 ; 将音频 理解特征 与至少一 个多媒体 信息的视 频理解特征 输入至预 先训练 的 匹配模型 , 获得匹配模型输出 的音频理解 特征与视 频理解特征 间的匹 配程 度 , 作为目标音频与至少 一个多媒 体信息的 匹配程度 。 进一步 地, 音频理解模型 包括第一 特征提取 层和第一 分类层; 音频理 解模型 的训练方法 包括: 初始化 第一特征 提取层和 第一分类 层的参数 ; 将一 定数量的样 本音乐的 音频特征作 为训练样 本, 将样本音乐的音 乐类 型作 为样本标签 , 将训练样本和样本 标签输入 至第一特征 提取层 , 获得第一 特征 提取层输 出的训练样 本的音频理 解特征 ; 将训练 样本的音 频理解特征 输入至第 一分类层 , 获得第一分类层输 出的 训练样 本的音 乐类型的预 测结果; 计算预 测结果与训 练样本对应 的样本标 签间的偏差 , 逆向反馈调整第 一 特征 提取层和 第一分类层 的参数 , 直至偏差的收敛程 度小于预设 阈值, 获得 训练 完成的音频 理解模型 。 进一步 地, 获得音频理解模 型输出 的音乐的音 频理解特 征, 包括: 将音 乐输入至音 频理解模 型, 获得音频理解模 型的第一 特征提取 层输出 的音 乐的音频理 解特征 。 进一步 地, 视频理解模型 的训练方法 包括: 迁移 已经训练好 的初始模 型, 结合样本多媒体 信息的抽 帧结果对初 始模 型进 行参数和 结构调整 , 得到迁移模型; 根据反 向传播法 , 利用样本多媒体 信息的抽 帧结果以及 样本多媒 体信息 的主 题训练迁移 学习模型 , 将训练好的迁移 学习模型作 为视频理解 模型。 进一步 地, 视频理解模型 包括第二特 征提取层 和第二分 类层; 根据反 向传播 法, 利用样本多媒体 信息的抽 帧结果以及 样本多媒 体信息 的主 题训练迁移 学习模型 , 包括: 初始化 第二特征 提取层和 第二分类 层的参数 ; 将样本 多媒体信 息的抽 帧结果作为训 练样本 , 以样本多媒体信息 的主题 作为 样本标签 , 将训练样本和样本标 签输入至 第二特征提 取层, 获得第二特 征提 取层输 出的训练样本 的视频理解 特征; 将训练 样本的视 频理解特征 输入至第 二分类层 , 获得第二分类层输 出的 训练样 本的主题 的预测结 果; 计算预 测结果与训 练样本对应 的样本标 签间的偏 差, 逆向反馈调整第 二 特征 提取层和 第二分类层 的参数 , 直至偏差的收敛程 度小于预设 阈值, 获得 训练 完成的迁移 学习模型 。 进一 步地, 将抽帧结果输入 至预先训 练的视频理 解模型 , 获得视频理解 模型 输出的多媒 体信息 的视频理解 特征, 包括: 将抽 帧结果输入 至视频理解 模型 , 获得视频理解模 型的第二 特征提取 层 输 出的多媒体信 息的视 频理解特征 。 进一 步地, 确定目标多媒 体信息 中每一幅 图片的画质 , 包括: 将 目标图片输入 至预先训 练的回质预 测模型, 获得回质预 测模型输 出的 目标 图片的回质 。 进一 步地, 画质预测模型 的训练方法 包括: 初始化 画质预测模 型的参 数 ; 将一 定数量的样 本图片作 为训练样本 , 以样本图片的画质 评分作为 样本 标签 , 将训练样本输入至 画质预测模 型, 获得画质预测模 型输出的 训练样本 的画 质评分的预 测结果; 计算任 意两个训 练样本的 画质评分的 预测结果 的差值与任 意两个训 练样 本对 应的样本标 签间的差值 间的偏差 , 逆向反馈调整画质 预测模型 的参数 , 直至 偏差的收 敛程度小 于预设阈值 , 获得训练完成的画 质预测模型 。 本公 开还提供一 种多媒体 作品的制作 装置, 包括: 素材 获取模块 , 用于获取目标音频 以及至少一 个多媒体 信息, 至少一个 多媒 体信息 包括图片和 视频中的至 少一种; 匹配模 块, 用于确定 目标音频与至 少一个多媒 体信息 间的匹配程 度, 根 据 匹配程度从 高到低的 顺序对至 少一个多媒 体信息进 行排序 , 将排序靠前的 第一 预设数量 的多媒体信 息作为 目标多媒体 信息; 目标 图片获取模 块, 用于确定目标多 媒体信 息中每一幅 图片的回 质, 根 据画 质从高到低 的顺序对 目标多媒 体信息的 每一幅 图片进行排序 , 将排序靠 前的 第二预设数 量的图 片作为目标 图片; 音乐合 成模块 , 用于根据所述目标 图片以及 目标音频合 成多媒体 作品。 进一步 地, 音乐合成模块 具体用于 : 从目标图片中抽取 第三预设数 量的 图片 与目标音频 进行合成 , 获得多媒体作品 。 进一步 地, 匹配模块包括 用于确定 目标音频 与至少一个 多媒体信 息间的 匹配 程度的 匹配程度计 算子模块 , 匹配程度计算子模 块包括: 音频理 解单元 , 用于获取目标音频 的音频特征 , 将音频特征输入 至预先 训练 的音频理解 模型, 获得音频理 解模型输 出的目标音 频的音频 理解特征 ; 视频理 解单元, 用于对多媒体信息进 行抽帧 , 将抽帧结果输入至预 先训 练的视 频理解模 型, 获得视频理解模 型输出 的多媒体信 息的视频 理解特征 ; 匹配程 度确定单 元, 用于将音频理 解特征与 至少一个 多媒体信 息的视频 理解 特征输入 至预先训练 的匹配模 型, 获得匹配模型输 出的音频 理解特征 与 视频理 解特征 间的匹配程 度, 作为目标音频 与至少一个 多媒体信 息的匹 配程 进一步 地, 音频理解模型 为第一特征 提取层和 第一分类 层; 匹配 程度计 算子模块 还包括 用于训练 音频理 解模型 的音频理 解训练 单 元 , 音频理解训练单元进 一步包括 : 第一参 数初始化 子单元 , 用于初始化第一特 征提取层 和第一分 类层的参 数; 第一特 征获取子 单元, 用于将一定 数量的样 本音乐的音 频特征作 为训练 样本 , 将样本音乐的音 乐类型作为样 本标签 , 将训练样本和样本标签 输入至 第一 特征提取 层, 获得第一特征提 取层输 出的训练样本 的音频理 解特征; 第一预 测结果获取 子单元 , 用于将训练样本的 音频理解特 征输入至 第一 分类 层, 获得第一分类层 输出的训练 样本的音 乐类型的预 测结果; 第一反 馈子单元 , 用于计算预测结果与训 练样本对 应的样本标 签间的偏 差 , 逆向反馈调整第一特 征提取层 和第一分 类层的参数 , 直至偏差的收敛 程 度小 于预设阈值 , 获得训练完成的音 频理解模 型。 进一步 地,音频理 解单元获得 音频理解 模型输 出的音乐的音 频理解特 征, 具体 包括: 将音乐输入 至音频理解 模型, 获得音频理解 模型的 第一特征提 取 层输 出的音乐 的音频理解 特征。 进一步 地, 匹配程度计算 子模块还 包括用于训 练视频理解 模型的视 频理 解训 练单元, 视频理解训 练单元进一 步包括: 迁移模 型获取子 单元, 用于迁移 已经训练好 的初始模型 , 结合样本多媒 体信 息的抽帧 结果对初始 模型进行 参数和结 构调整, 得到迁移模 型; 模型训 练子单元 , 用于根据反向传播 法, 利用样本多媒 体信息的 抽帧结 果以 及样本多媒 体信息 的主题训练 迁移学 习模型, 将训练好的迁 移学习模 型 作为视 频理解模 型。 进一步 地, 视频理解模型 为第二特征 提取层和 第二分类 层; 模型训 练子单元 进一步包括 : 第二参 数初始化 子单元 , 用于初始化第二特 征提取层 和第二分 类层的参 数; 第二特 征获取子 单元 ,用于将样本多媒 体信息 的抽帧结果 作为训练样 本, 以样 本多媒体信 息的主题 作为样本 标签 , 将训练样本和样本 标签输入 至第二 特征 提取层, 获得第二特征提取层 输出的训 练样本的视 频理解特征 ; 第二预 测结果获取 子单元 , 用于将训练样本的视 频理解特 征输入至 第二 分类 层, 获得第二分类层 输出的训 练样本的主 题的预测结 果; 第二反 馈子单元 , 用于计算预测结果与训 练样本对 应的样本标 签间的偏 差 , 逆向反馈调整第二特 征提取层 和第二分 类层的参数 , 直至偏差的收敛 程 度小 于预设阈值 , 获得训练完成的 迁移学习模 型。 进一步 地, 视频理解单元获 得视频理 解模型输 出的多媒体 信息的视 频理 解特 征, 包括: 将抽帧结果输入至 视频理解模 型, 获得视频理解 模型的第 二 特征 提取层输 出的多媒体 信息的视 频理解特 征。 进一步 地,目标图片获取模 块计算 目标多媒体 信息中每 一幅图片 的画质, 包括 : 将目标图片输入至 预先训练 的回质预测模 型, 获得回质预测模 型输 出 的 目标图片的 回质。 目标 图片获取模 块包括用 于训练画质预 测模型 的画质模型 预测模块 , 画 质模 型预测模块 进一步 包括: 参数初 始化单元 , 用于初始化画质 预测模型 的参数; 预测结 果获取单元 , 用于将一定数量 的样本 图片作为训练 样本, 以样本 图片 的画质评分 作为样本 标签, 将训练样本输入 至画质预 测模型, 获得画质 预测模 型输出 的训练样本 的画质评分 的预测结 果; 反馈调 节单元, 用于计算任意两个训 练样本的 画质评分的 预测结果 的差 值与任 意两个训 练样本对应 的样本标 签间的差值 间的偏差 , 逆向反馈调整画 质预 测模型的参 数, 直至偏差的收 敛程度小 于预设阈值 , 获得训练完成的 画 质预 测模型。

Claims

权 利要 求 书
1、 一种多媒体作 品的制作 方法, 包括: 获取 目标音频以 及至少一 个多媒体信 息, 其中, 所述至少一个 多媒体信 息 包括图片和视 频中的至 少一种 ; 确定 所述目标音 频与所述 至少一个 多媒体信 息间的 匹配程度, 根据匹配 程度 从高到低 的顺序对 所述至少一 个多媒体 信息进行 排序, 将排序靠前 的第 一预设 数量的 多媒体信 息作为 目标多媒体信 息; 确定 所述目标 多媒体信 息中每一幅 图片的回 质, 根据回质从高到 低的顺 序对 所述目标 多媒体信 息的每一 幅图片进行 排序 , 将排序靠前的 第二预设数 量的 图片作为 目标图片 ; 根据 所述目标 图片以及 目标音频合成 多媒体作 品。
2、根据权 利要求 1所述的多媒体 作品的制 作方法 , 其中, 所述根据所述 目标 图片以及 目标音频合 成多媒体 作品, 包括: 从所 述目标图 片中抽取第 三预设数量 的图片与 所述 目标音频进行合 成 , 获得 所述多媒体 作品。
3、根据权 利要求 1或 2所述的多媒 体作品 的制作方法 , 其中, 所述确定 所述 目标音频 与所述至 少一个多媒 体信息 间的匹配程 度, 包括: 获取所 述目标音 频的音频特 征, 将所述音频特 征输入至 预先训练 的音频 理解 模型 , 获得所述音频理 解模型输 出的所述 目标音频 的音频理解 特征; 对所述 多媒体信 息进行抽 帧 , 将抽帧结果输入至预 先训练 的视频理解模 型 , 获得所述视频理解模 型输出的 所述多媒 体信息的 视频理解特 征; 将所 述音频理解 特征与所 述至少一 个多媒体 信息的视 频理解特征 输入至 预先 训练的匹 配模型, 获得所述 匹配模型输 出的所述 音频理解特 征与视频 理 解特 征间的 匹配程度, 作为所述目标音频与 所述至少 一个多媒 体信息的 匹配 程度 。
4、根据权 利要求 3所述的多媒体 作品的制 作方法 , 其中, 所述音频理解 模型 包括第一 特征提取 层和第一 分类层; 所述 音频理解模 型的训练 方法包括 : 初始化 所述第一 特征提取 层和第一 分类层的 参数;
24 将一 定数量的样 本音乐的 音频特征作 为训练样 本, 将所述样本音 乐的音 乐类 型作为样本 标签, 将所述训练样 本和样本 标签输入至 所述第一 特征提取 层, 获得所述第一特征提 取层输 出的所述训 练样本的音 频理解特 征; 将所 述训练样本 的音频理解 特征输入 至所述第 一分类层 , 获得所述第一 分类 层输出的所 述训练样 本的音乐类 型的预测 结果; 计算所 述预测结 果与所述训 练样本对应 的样本标 签间的偏差 , 逆向反馈 调整 所述第一 特征提取 层和第一分 类层的参 数, 直至所述偏差 的收敛程度 小 于预设 阈值, 获得训练完成 的所述音 频理解模 型。
5、根据权 利要求 4所述的多媒体 作品的制 作方法 , 其中, 所述获得所述 音频 理解模型 输出的所 述音乐的音 频理解特 征, 包括: 将所 述音乐输入 至所述音 频理解模 型, 获得所述音频理 解模型 的第一特 征提 取层输 出的所述音 乐的音频理 解特征 。
6、 根据权利要求 3-5任一所述的多媒 体作品 的制作方 法, 其中, 所述视 频理 解模型的训 练方法 包括: 迁移 已经训练好 的初始模 型, 结合样本多媒体 信息的抽 帧结果对 所述初 始模 型进行参数 和结构调 整, 得到迁移模型 ; 根据反 向传播 法, 利用所述样本多 媒体信息 的抽帧结 果以及所述 样本多 媒体 信息的主 题训练所述 迁移学 习模型, 将训练好的 所述迁移 学习模型作 为 所述 视频理解模 型。
7、根据权 利要求 6所述的多媒体 作品的制 作方法 , 其中, 所述视频理解 模型 包括第二 特征提取 层和第二 分类层; 所述根 据反向传 播法, 利用所述样 本多媒体 信息的抽 帧结果以及 所述样 本多 媒体信息 的主题训 练所述迁移 学习模型 , 包括: 初始化 所述第二 特征提取 层和第二 分类层的 参数; 将所 述样本多媒 体信息 的抽帧结果作 为训练样 本, 以所述样本多媒 体信 息的 主题作为样 本标签 , 将所述训练样本和样本 标签输入至 所述第二 特征提 取层 , 获得所述第二特征 提取层输 出的所述 训练样本 的视频理解 特征; 将所 述训练样本 的视频理解 特征输入 至所述第 二分类层 , 获得所述第二 分类 层输出的所 述训练样 本的主题 的预测结果 ; 计算所 述预测结 果与所述训 练样本对应 的样本标 签间的偏差 , 逆向反馈 调整 所述第二特 征提取 层和第二分 类层的参 数, 直至所述偏差 的收敛程度 小 于预设 阈值, 获得训练完成 的所述 迁移学习模 型。
8、根据权 利要求 7所述的多媒体 作品的制 作方法 , 其中, 所述将抽帧结 果输入 至预先训 练的视频 理解模型 , 获得所述视频理解模 型输出 的所述多媒 体信 息的视频理 解特征 , 包括: 将所述 抽帧结果 输入至所 述视频理解 模型, 获得所述视 频理解模型 的第 二特 征提取层输 出的所述 多女某体信息的视频理解特 征。
9、 根据权利要求 1-8任一所述的多媒 体作品 的制作方法 , 其中, 确定所 述 目标多媒体信 息中每 一幅图片 的画质, 包括: 将所述 目标图片 输入至预先 训练的回 质预测模型 , 获得所述回质预 测模 型输 出的所述 目标图片 的画质。
10、 根据权利要求 9所述的多媒 体作品 的制作方 法, 其中, 所述画质预 测模 型的训练方 法包括 : 初始化 所述画质 预测模型 的参数; 将一 定数量的样 本图片作 为训练样本 , 以样本图片的画质 评分作为样 本 标签 , 将所述训练样本输入 至所述 画质预测模 型, 获得所述画质预 测模型输 出的 所述训练样 本的画质 评分的预 测结果; 计算任 意两个训 练样本的 画质评分的 预测结果 的差值与所 述任意 两个训 练样本 对应的样 本标签间 的差值间的 偏差, 逆向反馈调整 所述画质 预测模型 的参 数, 直至所述偏差 的收敛程度 小于预设 阈值, 获得训练完成 的所述画 质 预测模 型。
11、 一种多媒体作 品的制作 装置, 包括: 素材获 取模块 , 用于获取目标音频 以及至少一 个多媒体 信息, 其中, 所 述至 少一个多媒 体信息 包括图片 和视频中的 至少一种 ; 匹配模 块, 用于确定所述 目标音频 与所述至 少一个多媒 体信息 间的匹配 程度 , 根据匹配程度从 高到低的 顺序对所述 至少一个 多媒体信 息进行排 序, 将排 序靠前的 第一预设数 量的多媒 体信息作 为目标多媒 体信息 ; 目标 图片获取模 块,用于确定 所述 目标多媒体信 息中每一 幅图片的 回质, 根据 画质从高 到低的顺序 对所述 目标多媒体 信息的每 一幅图片 进行排序 , 将 排序 靠前的第 二预设数量 的图片作 为目标图 片; 音乐合 成模块, 用于根据所述目标 图片以及 目标音频合成 多媒体作 品。
12、 一种电子设备, 包括存储器、 处理器及存储在 存储器上 并可在处理 器上运 行的计算 机程序 , 其中, 所述处理器执行所述程 序时实现 如权利要 求 1至 10任一项所 述多媒体作 品的制作 方法的 步骤。
13、 一种计算机可读 存储介质 , 其中, 所述计算机可读存储 介质存储计 算机指 令,所述计算机指 令使所述 计算机执 行如权利要 求 1至 10中任意一项 所述 多媒体作 品的制作 方法的步骤 。
27
PCT/SG2021/050470 2020-08-31 2021-08-11 多媒体作品的制作方法、装置及计算机可读存储介质 WO2022045968A1 (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP21862207.4A EP4171045A4 (en) 2020-08-31 2021-08-11 PRODUCTION METHOD AND DEVICE FOR MULTIMEDIA WORK, AND COMPUTER-READABLE STORAGE MEDIUM
JP2023504467A JP2023535047A (ja) 2020-08-31 2021-08-11 マルチメディア作品の作成方法、装置及びコンピュータ可読記憶媒体
US18/069,031 US20230131850A1 (en) 2020-08-31 2022-12-20 Production method of multimedia work, apparatus, and computer-readable storage medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010901767.7 2020-08-31
CN202010901767.7A CN114117086A (zh) 2020-08-31 2020-08-31 多媒体作品的制作方法、装置及计算机可读存储介质

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/069,031 Continuation US20230131850A1 (en) 2020-08-31 2022-12-20 Production method of multimedia work, apparatus, and computer-readable storage medium

Publications (1)

Publication Number Publication Date
WO2022045968A1 true WO2022045968A1 (zh) 2022-03-03

Family

ID=80353748

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/SG2021/050470 WO2022045968A1 (zh) 2020-08-31 2021-08-11 多媒体作品的制作方法、装置及计算机可读存储介质

Country Status (5)

Country Link
US (1) US20230131850A1 (zh)
EP (1) EP4171045A4 (zh)
JP (1) JP2023535047A (zh)
CN (1) CN114117086A (zh)
WO (1) WO2022045968A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114610429A (zh) * 2022-03-14 2022-06-10 北京达佳互联信息技术有限公司 多媒体界面显示方法、装置、电子设备及存储介质
CN116229332B (zh) * 2023-05-06 2023-08-04 浪潮电子信息产业股份有限公司 一种视频预训练模型的训练方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793446A (zh) * 2012-10-29 2014-05-14 汤晓鸥 音乐视频的生成方法和系统
CN109964238A (zh) * 2016-09-30 2019-07-02 渊慧科技有限公司 使用神经网络生成视频帧
CN111415677A (zh) * 2020-03-16 2020-07-14 北京字节跳动网络技术有限公司 用于生成视频的方法、装置、设备和介质
US20200226179A1 (en) * 2016-09-05 2020-07-16 Google Llc Generating theme-based videos
CN111494941A (zh) * 2019-01-31 2020-08-07 索尼互动娱乐欧洲有限公司 从视频游戏片段生成视听内容的方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793446A (zh) * 2012-10-29 2014-05-14 汤晓鸥 音乐视频的生成方法和系统
US20200226179A1 (en) * 2016-09-05 2020-07-16 Google Llc Generating theme-based videos
CN109964238A (zh) * 2016-09-30 2019-07-02 渊慧科技有限公司 使用神经网络生成视频帧
CN111494941A (zh) * 2019-01-31 2020-08-07 索尼互动娱乐欧洲有限公司 从视频游戏片段生成视听内容的方法和系统
CN111415677A (zh) * 2020-03-16 2020-07-14 北京字节跳动网络技术有限公司 用于生成视频的方法、装置、设备和介质

Also Published As

Publication number Publication date
EP4171045A4 (en) 2023-10-11
CN114117086A (zh) 2022-03-01
JP2023535047A (ja) 2023-08-15
US20230131850A1 (en) 2023-04-27
EP4171045A1 (en) 2023-04-26

Similar Documents

Publication Publication Date Title
US11769528B2 (en) Systems and methods for automating video editing
WO2020088216A1 (zh) 一种音视频处理方法、装置、设备及介质
TWI754033B (zh) 關注點文案的生成
US11670015B2 (en) Method and apparatus for generating video
US20230131850A1 (en) Production method of multimedia work, apparatus, and computer-readable storage medium
CN110580500A (zh) 一种面向人物交互的网络权重生成少样本图像分类方法
US11514925B2 (en) Using a predictive model to automatically enhance audio having various audio quality issues
CN109919221B (zh) 基于双向双注意力机制图像描述方法
KR20210001859A (ko) 3차원 가상 인물 입모양 변화 제어 방법 및 장치
JP2021501416A (ja) ビデオコンテンツを特徴付けるための深層強化学習フレームワーク
KR102354592B1 (ko) 스트리밍 데이터 기반 영상 편집점 추천 방법, 서버 및 컴퓨터프로그램
CN112100504B (zh) 内容推荐方法、装置、电子设备及存储介质
CN112738557A (zh) 视频处理方法及装置
CN112100440A (zh) 视频推送方法、设备及介质
CN116246214B (zh) 视听事件定位方法、模型训练方法、装置及设备和介质
CN111512299A (zh) 用于内容搜索的方法及其电子设备
CN111444379B (zh) 音频的特征向量生成方法及音频片段表示模型的训练方法
CN111147871B (zh) 直播间歌唱识别方法、装置及服务器、存储介质
Narasimhan et al. Strumming to the beat: Audio-conditioned contrastive video textures
KR102354593B1 (ko) 사용자 데이터베이스 구축과 머신러닝을 통한 영상 편집 타입 구분 및 편집점 추천 알고리즘 고도화 방법, 서버 및 컴퓨터프로그램
Vougioukas et al. Dino: A conditional energy-based gan for domain translation
JP2020173776A (ja) 映像を生成するための方法および装置
CN114780867B (zh) 推荐方法、介质、装置和计算设备
KR102303626B1 (ko) 단일 이미지에 기반하여 비디오 데이터를 생성하기 위한 방법 및 컴퓨팅 장치
KR102425239B1 (ko) 사용자 데이터 기반 딥러닝을 통한 추천 편집점 정교화 방법, 서버 및 컴퓨터프로그램

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21862207

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023504467

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2021862207

Country of ref document: EP

Effective date: 20230118

NENP Non-entry into the national phase

Ref country code: DE