WO2023277790A1 - 图像处理方法、装置及可读存储介质 - Google Patents

图像处理方法、装置及可读存储介质 Download PDF

Info

Publication number
WO2023277790A1
WO2023277790A1 PCT/SG2022/050286 SG2022050286W WO2023277790A1 WO 2023277790 A1 WO2023277790 A1 WO 2023277790A1 SG 2022050286 W SG2022050286 W SG 2022050286W WO 2023277790 A1 WO2023277790 A1 WO 2023277790A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
image material
content
target
dimension
Prior art date
Application number
PCT/SG2022/050286
Other languages
English (en)
French (fr)
Inventor
靳潇杰
王妍
Original Assignee
脸萌有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 脸萌有限公司 filed Critical 脸萌有限公司
Priority to US18/570,533 priority Critical patent/US20240290016A1/en
Publication of WO2023277790A1 publication Critical patent/WO2023277790A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments

Definitions

  • Image processing method, assembly and readable storage medium This disclosure requires submission to the State Intellectual Property Office of China on June 30, 2021, with the application number 202110738116.5, and the invention titled "Image processing method, device and readable storage medium" The priority of the Chinese patent application, its entire content is incorporated in this disclosure by reference.
  • Technical field The present disclosure relates to the technical field of image processing, relate in particular to a kind of image processing method, device and readable storage medium.Background technology At present, people can use Electronic devices with shooting functions shoot various image materials, and sometimes people use processing tools to perform some post-processing on these image materials to obtain more interesting videos, such as adding special effects, merging, adding background music, etc.
  • inventions of the present disclosure provide an image processing method, device, and readable storage medium.
  • embodiments of the present disclosure provide an image processing method, Including: obtaining at least one image material; performing feature analysis on the at least one image material to obtain a content feature set; wherein, the content feature set includes at least one content feature of a specific dimension, and the content feature is used to represent the The content to be expressed by the image material in a specific dimension; According to the set of content features, obtain the editing strategy of at least one image material; The editing strategy includes one or more editing operation types corresponding to the target editing operation mode; According to the target editing operation mode , editing the at least one image material into a multimedia resource.
  • the acquiring the clipping strategy of the at least one image material according to the content feature set includes: for the first clipping operation type, according to the content feature of the first target dimension and the first preset mapping relationship, obtaining the target editing operation mode corresponding to the first editing operation type; wherein, the content feature of the first target dimension belongs to the content feature set; wherein, the first preset mapping relationship includes the first target dimension The mapping relationship between the corresponding different content features and the different operation modes included in the first editing operation type.
  • the acquiring the clipping strategy of the at least one image material according to the set of content features includes: acquiring the music content features corresponding to the first target background music; wherein, the first target background music It has an association relationship with the second target background music, and the second target background music is used to edit multimedia resources together with the at least one image material; for the second editing operation type, according to the second target dimension included in the content feature set
  • the content feature, the music content feature corresponding to the first target background music, and the second preset mapping relationship obtain the target editing operation mode corresponding to the second editing operation type; wherein the second preset mapping relationship includes the The mapping relationship between different content features corresponding to the second target dimension, different music content features, and different operation modes included in the second editing operation type.
  • the first target background music belongs to at least one candidate background music, and the at least one candidate background music is determined according to the content features of the third target dimension included in the content feature set; or, the The first target background music is determined according to the music selection operation input by the user.
  • editing the at least one image material into a multimedia resource according to the target editing operation method includes: editing the at least one image material into a multimedia resource according to the target editing operation method included in the second editing operation type. An image material and the second target background music are edited together to form a multimedia resource; wherein, the music content characteristics of the second target background music and the music content characteristics of the first target background music satisfy a preset similarity.
  • performing feature analysis on the at least one image material to obtain a content feature set includes: performing feature analysis on a first image material included in the at least one image material to obtain the first image The first content feature set corresponding to the material; the acquiring the clipping strategy of the at least one image material according to the content feature set includes: for the first image material included in the at least one image material, according to the first The first content feature set corresponding to the image material obtains the clipping policy of the first image material; wherein, the clipping strategy of the first image material is used to indicate the target clipping operation mode performed on the first image material.
  • the performing feature analysis on the at least one image material to obtain a content feature set includes: grouping the at least two image materials to obtain at least one image material group, wherein the at least The _th image material grouping includes the _th image material grouping, and the _th image material grouping includes two or more image materials; respectively performing feature analysis on the first image material grouping to obtain the first image material The second content feature set corresponding to the grouping; the obtaining the clipping strategy of the at least one image material according to the content feature set includes: for the first image material group included in the at least one image material group, according to the first image material group A second content feature set corresponding to an image material group, to obtain the clipping strategy of the first image material group; the clipping strategy of the first image material group is used to indicate that each image included in the first image material group The target clipping operation mode to perform for the material.
  • the feature analysis includes: one or more of salient feature analysis, image scene feature analysis, face feature analysis, image subject feature analysis, and image emotion feature analysis.
  • the at least one specific dimension includes: one or more of: an image scene dimension, an image theme dimension, an image emotion dimension, an image character relationship dimension, an image salient feature dimension, and an image attribute dimension.
  • an embodiment of the present disclosure provides an image processing device, including: an acquisition module, configured to acquire at least one image material; a feature analysis module, configured to perform feature analysis on the at least one image material, and acquire a content feature set ;
  • the set of content features includes content features of at least one dimension, and the content features are used to represent the content to be expressed by the image material in the corresponding dimension;
  • the clipping strategy determination module is configured to, according to the set of content features, Acquire the clipping strategy of the at least one image material;
  • the clipping strategy includes target clipping operation modes respectively corresponding to one or more clipping operation types;
  • a synthesis module configured to combine the at least one image according to the target clipping operation mode The material is clipped into a multimedia resource.
  • an embodiment of the present disclosure provides an electronic device, including: a memory, a processor, and a computer program; the memory is configured to store the computer program; the processor is configured to execute the computer program, To realize the image processing method as described in any one of the first aspect.
  • an embodiment of the present disclosure provides a readable storage medium, including: a computer program; when the computer program is executed by at least one processor of an electronic device, it can perform the image processing described in any one of the first aspect method.
  • an embodiment of the present disclosure provides a program product, the program product includes a computer program, the computer program is stored in a readable storage medium, and at least one processor of an electronic device can read from the readable storage medium The computer program is read, and the at least one processor executes the computer program so that the electronic device implements the image processing method according to any one of the first aspect.
  • Embodiments of the present disclosure provide an image processing method, device, and readable storage medium. Wherein, the method obtains a content feature set by performing feature analysis on at least one image material. Wherein, each content feature included in the content feature set is used to represent the content to be expressed by the image material in a corresponding specific dimension.
  • a clipping strategy for at least one image material is synthesized according to each target editing operation mode included in the editing strategy, so as to obtain a multimedia resource with content continuity.
  • the method provided by the embodiment of the present disclosure according to the characteristics of the image material itself, specifically determines the target editing operation mode that is more suitable for the content to be expressed by the image material, thereby further making the obtained multimedia resources more story-like. .
  • using the method provided by the embodiments of the present disclosure can solve the problem of serious homogeneity caused by synthesizing multimedia resources using editing templates.
  • FIG. 1 is a flowchart of an image processing method provided by an embodiment of the present disclosure
  • Fig. 2 is a flowchart of an image processing method provided by an embodiment of the present disclosure
  • Fig. 1 is a flowchart of an image processing method provided by an embodiment of the present disclosure
  • Fig. 2 is a flowchart of an image processing method provided by an embodiment of the present disclosure
  • Fig. 1 is a flowchart of an image processing method provided by an embodiment of the present disclosure
  • Fig. 2 is a flowchart of an image processing method provided by an embodiment of the present disclosure
  • Fig. 1 is a flowchart of an image processing method provided by an embodiment of the present disclosure
  • Fig. 2 is a flowchart of an image processing method provided by an embodiment of the present disclosure
  • Fig. 1 is a flowchart of an image processing method provided by an embodiment of the present disclosure
  • Fig. 2 is a flowchart of an image processing method provided by an embodiment of the present disclosure
  • FIG. 3 is a structural diagram of an image processing device provided by an embodiment of the present disclosure ;
  • FIG. 4 is a flowchart of an image processing method provided by another embodiment of the present disclosure;
  • FIG. 5 is a structural diagram of an image processing device provided by another embodiment of the present disclosure;
  • FIG. 6 is an image processing device provided by an embodiment of the present disclosure Schematic diagram of the structure;
  • FIG. 7 is a schematic diagram of the structure of the electronic device provided by the embodiment of the disclosure.
  • the editing operation method used by the editing template is usually fixed, no matter what kind of image material the user uploads, the image material is edited using the fixed editing operation method used by the editing template, and there may be fixed editing methods used by the editing template.
  • the phenomenon that the editing operation method does not match the content of the image material.
  • the effect of the synthesized multimedia resource is poor, and the content to be expressed by the image material cannot be well expressed.
  • the editing template uses a fixed editing operation method, and the multimedia resources are synthesized by using the editing template, the homogeneity is serious, which may reduce the user's enthusiasm for video creation.
  • the core idea of this method is to analyze the content to be expressed by the image material in a specific dimension by specific means, and obtain the content characteristics of the image in each specific dimension. Then according to the content characteristics of the image material in each specific dimension, according to the mapping relationship between the different content characteristics of the specific dimension and the editing operation methods included in different editing operation types, determine the editing strategy of the image material: so as to ensure that the editing strategy includes
  • the multimedia resources synthesized by the above-mentioned image materials have strong content continuity (that is, storytelling).
  • the image processing method provided in the embodiment of the present disclosure may be executed by the image processing device provided in the embodiment of the present disclosure, and the image processing device may be implemented by any software and/or hardware.
  • the image processing device is a tablet computer, a mobile phone (such as a folding screen mobile phone, a large screen mobile phone, etc.), a wearable device, a vehicle-mounted device, an augmented reality (augmented reality, AR)/virtual reality (virtual reality, VR) device, Laptops, ultra-mobile personal computers (ultra-mobile personal computers, UMPC X netbooks, personal digital assistants, PDA X smart TVs, smart screens, high-definition TVs, 4K TVs, smart speakers, smart projectors, etc.
  • the embodiment of the present disclosure does not impose any limitation on the specific type of the image processing device.
  • the embodiment of the present disclosure does not limit the type of the operating system of the image processing apparatus.
  • the image processing device can also be realized by software, for example, the image processing device can be a program product.
  • the image processing method provided by the embodiments of the present disclosure will be described in detail below through several embodiments.
  • the execution subject is an image processing device as an example for illustration.
  • Fig. 1 is the framework of the image processing method provided by the embodiment of the present disclosure. Specifically, referring to FIG.
  • the image processing method performs feature analysis on the image material. For example, one or more of image scene feature analysis, face feature analysis, image saliency feature analysis, image theme feature analysis, image emotion feature analysis, etc. feature analysis to obtain a set of content features of the image material. If the image material does not need a soundtrack, the scheduling and combination algorithm can be used to determine the editing strategy of the image material according to the content characteristics in the content feature set; and the image material is synthesized according to the editing strategy.
  • the image material needs to be accompanied by music (that is, background music), combine the music content characteristics of each music in different music dimensions in the music library and the content feature set of the image material, and use the scheduling and combination algorithm to determine the background music to be used and the editing of the image material strategy; and then according to the editing strategy of the image material, the image material and the background music are synthesized.
  • the scheduling and combining algorithms may be different when the image material needs soundtrack and does not need soundtrack.
  • FIG. 1 two scenarios where the image material requires soundtrack and does not need soundtrack are respectively introduced below through the embodiments shown in FIG. 2 and FIG. 4 .
  • the embodiment shown in FIG. 2 is a case where the image material does not need soundtrack.
  • Fig. 2 is a flowchart of an image processing method provided by an embodiment of the present disclosure.
  • the method of this embodiment includes: S201.
  • the image material may be a photo, a picture, a video clip or the like.
  • the embodiments of the present disclosure do not limit parameters such as the storage format and duration (X quantity when the image material is a video segment) of the image material.
  • the multiple image materials may be of the same type, for example, the multiple image materials may all be photos, or all be pictures, or all be video clips. In another case, multiple image materials may also belong to different types.
  • multiple image materials may include photos and video clips at the same time, or may include photos, pictures, and video clips at the same time.
  • the image processing device can provide a material display interface, and the material display page can briefly display each material and some related information of the material (for example, the duration of the video, etc. > The image processing device can obtain the information displayed by the user on the material display interface. The selection command input on the screen to obtain at least one of the above-mentioned image materials.
  • the material display page can display materials in a chronological order without distinguishing between types. Or, the material display page can also be displayed by photos, pictures and videos, etc. Divided into multiple types, each type corresponds to a display entry label.
  • the image processing device Based on the user's operation on the display entry label, the image processing device displays a thumbnail display of the corresponding type of material according to the user's operation on the display entry label. Then, according to the user's selection Instructions to obtain at least one of the above-mentioned image materials.
  • the image processing device can take a picture or a video clip according to the shooting instruction input by the user, and the image or video clip taken is the image material.
  • the image processing device can also pass The at least one image material is acquired in other ways, and the embodiment of the present disclosure does not limit the specific implementation manner in which the image processing apparatus acquires the at least one image material.
  • the content feature set includes at least one content feature of a specific dimension, and the content feature is used to represent the content to be expressed by the image material in a corresponding specific dimension .
  • the content feature set is firstly introduced here:
  • the content feature set may include the content features of the above-mentioned at least one image material in at least one specific dimension. Each content feature is used to represent the content to be expressed by the image material in a corresponding specific dimension.
  • the image material can be several types of photos, pictures, and video clips. If the image material is a photo or a picture, the content feature set may include content features of the photo or picture in these specific dimensions.
  • the video frame sequence can be Each video frame in is analyzed as an object to obtain the content characteristics of each video frame in these specific dimensions.
  • some video frames may be extracted from the sequence of video frames, and the extracted video frames may be used as an object for feature analysis to obtain the content features of the extracted video frame objects in these specific dimensions.
  • the above-mentioned at least one specific dimension may include but not limited to: one or more of image scene dimension, image theme dimension, image emotion dimension, image character relationship dimension, image salient feature dimension, and image attribute dimension.
  • image scenes may include but not limited to: indoor scenes, outdoor scenes, natural scenery/landform and other scene categories.
  • the indoor scene can be further divided into sub-scene categories such as cafes, gyms, classrooms, and shopping malls.
  • the outdoor scene can also be further divided into playground, road and other sub-scene categories similarly.
  • Natural scenery/landform can be further divided into sub-scene categories such as terrestrial landscape, water, sky, and plants.
  • Each of the above-mentioned seed scene categories can be further refined, for example, land landscapes can be further divided into subcategories such as deserts, snow mountains, caves, and grasslands.
  • the content characteristics of the scene dimension of the image may include but not limited to: scene category information such as indoor scene and outdoor scene.
  • the image themes may include but not limited to: travel, shopping, parties, festivals, food and so on.
  • the content features of the image theme dimension may include but not limited to: theme category information such as travel, shopping, parties, festivals, food, and so on.
  • image emotions may be classified in advance, for example, image emotions may include but not limited to: sad, sad, neutral, positive, happy and so on.
  • the content characteristics of the emotional dimension of the image may include but not limited to: category information such as sad, sad, neutral, positive, and happy.
  • image character relationships may include but not limited to: parents, friends, sisters, brothers, and so on.
  • the content characteristics of the image character relationship dimension may include but not limited to: parent, friend, sister, brother and other character relationship information.
  • the salient features of an image are the salient regions of the image
  • the content features of the image display feature dimension may include information about the salient regions of the image, for example, the position, salient area size, etc.
  • the content feature of the image attribute dimension may include attribute information of the image material, for example, the resolution of the image material, the brightness of the image, and the like.
  • the above different content features related to each specific dimension are just examples, and in practical applications, the content features included in each specific dimension may be set according to requirements.
  • the content characteristics of the image material in the specific dimension can be obtained according to the feature information of the image material in the specific dimension.
  • feature analysis can be performed on each image material, and the content characteristics of the image material in the dimension of image emotion can be output.
  • image theme dimension feature analysis may be performed on each image material, and the content characteristics of the image material in the image theme dimension are output.
  • all or part of the image materials can be grouped to obtain at least one image material group, wherein at least one image material group includes two or two more than one image material. That is to say, if there are multiple image material groups, some image material groups may only include one image material.
  • an image material group that includes two or more image materials according to the feature information of the two or more image materials included in the image material group in the specific dimension, obtain the image material group in the specific dimension. content characteristics. In such a case, it can also be understood that each image material included in the image material group has the same content feature corresponding to the specific dimension. For the grouping of image materials including one image material, it is essentially to output corresponding content features for the image material.
  • the image person relationship dimension multiple image materials can be grouped according to the person recognition results in the image material, and a content feature of the image person relationship dimension is output for each image material group.
  • the image theme dimension multiple image materials can be grouped according to the similarity of the objects contained in the image materials, and a content feature of the image theme dimension is output for each image material group.
  • feature analysis may be performed on the first image material included in the at least one image material to obtain a first content feature set corresponding to the first image material.
  • the first set of content features includes the content features of the first image material in the above-mentioned at least one specific dimension.
  • the _th image material can be an image that can be analyzed separately among the above at least _ image materials material.
  • the above at least one image material includes: 3 photos of the sky and 1 group photo of people, then, the first content feature set can be output separately for the 1 group photo of tasks.
  • the embodiment of the present disclosure does not limit the quantity of the first image material.
  • all or part of the image materials in the plurality of image materials may be grouped according to the similarity of the image materials to obtain at least one image material group.
  • at least _ image material groups include the _th image material group, and the _th image material group includes two or more image materials.
  • feature analysis is performed on the first image material group to obtain a second content feature set corresponding to the first image material group.
  • the above-mentioned at least _ image materials include multiple photos continuously taken by the user on the sky, and the contents of these multiple photos are relatively similar to each other. Therefore, the multiple photos can be divided into an image material group, and when performing feature analysis, it is sufficient to output a whole second content feature set for the image material group.
  • grouping the image materials it may also be based on other information of the image materials, such as geographical location, objects in the image materials, and other information.
  • the embodiment of the present disclosure does not limit the number of first image material groups. In practical applications, it can be flexibly set whether to output a content feature or a set of content features for a single image material, or to output a content feature or a set of content features for a group of image materials as a whole.
  • the content feature set is obtained by performing feature analysis on the image material.
  • the specific methods of feature analysis include but are not limited to: salient feature analysis, image scene feature analysis, face feature analysis, image theme feature analysis, image scene One or more of feature analysis and image emotion feature analysis.
  • the above-mentioned feature analysis can be realized by using machine learning technology, and the feature analysis result can be obtained by using the corresponding machine learning model.
  • image scene feature analysis can be implemented by using a scene classification model, and the scene classification model can output image scene classification features of image materials, and then content features of image scene dimensions can be obtained based on image scene classification features.
  • FIG. 3 exemplarily shows an architecture diagram of implementing the image processing method provided by the present disclosure by using a machine learning model. Please refer to FIG.
  • a machine learning model 301 for obtaining a content feature set can be pre-deployed in an image processing device, and at least one image material is input into the machine learning model 301 to obtain a content feature set output by the machine learning model 301 .
  • the machine learning model 301 may include: content identification sub-models 302 corresponding to different specific dimensions. The above-mentioned at least one image material is respectively input to the content recognition sub-model 302 corresponding to different specific dimensions, and the content characteristics of the image material output by the content recognition sub-model 302 in the corresponding specific dimension are obtained.
  • some content identification sub-models 302 can output content features corresponding to each image material.
  • Some content identification sub-models 302 can output a content feature for each image material group. In practical applications, there may be intersections between the feature information used by content recognition sub-models 302 of different dimensions. For example, the content recognition sub-model 302 corresponding to the image character relationship dimension may need to use the results of facial feature analysis; if If the image material includes a person, the content recognition sub-model 302 corresponding to the emotional dimension of the image needs to perform emotion analysis on the image material, and combine the results of the face feature analysis to accurately determine the image emotion of the image material. In such a case, the module performing face feature analysis may be connected to the content recognition sub-model 302 that needs to use the result of face feature analysis, and provide data to the corresponding content recognition sub-model 302 . For a similar situation, in the machine learning model 301, some modules that perform feature analysis can be connected to the content recognition sub-model that needs to use the feature analysis results output by the feature analysis module, and provide feature analysis to the connected content recognition sub-model 302 result.
  • the clipping strategy may include: one or more target clips corresponding to the clipping operation types respectively Operation method.
  • the editing operation type may include but not limited to: one or more of transitions, special effects, filters, animations, stickers, copy content, frame size, copy position, lyric style, lyric position, and the like.
  • Each clipping type can include multiple clipping methods.
  • transitions can include: mirror transitions, basic transitions, special effects transitions, and other transition subtypes (transition subtypes can be understood as editing operation subtypes under the editing operation type)
  • each transition subtype can include one or more transition modes (transition mode is the editing operation mode).
  • Mirror type each filter type can include one or more filter methods.
  • Some editing operation types and editing methods can be similar to transitions and filters, and examples are not given here.
  • some clip operation types and may not be divided into clip operation subtypes. The purpose of this step is to determine the editing operation type used by at least one image material and the target editing operation mode corresponding to each editing operation type.
  • the image processing device can pre-deploy the mapping relationship between different content features of each specific dimension and each editing operation mode included in the editing operation type: obtain the content feature set of the image material in these specific dimensions Finally, for each image material, the corresponding mapping relationship is queried, so as to determine the target editing operation mode to be used under each editing operation type.
  • the first content feature set may be output for a single first image material. Therefore, optionally, the image processing device may determine a clipping strategy for the first image material according to the first content feature set corresponding to the first image material. The clipping policy of the first image material is used to indicate the target clipping operation mode adopted for the first image material.
  • the second content feature set may be output for the _th image material group.
  • the image processing device may determine the clip of the first image material group according to the second content feature set corresponding to the _th image material group.
  • the editing strategy of the first image material group is used to indicate the target editing operation mode adopted for each image material included in the first image material group.
  • the target clipping operation mode adopted by each image material included in the _th image material group is the same.
  • the content feature set obtained includes the content features of the 3 image materials in the image subject dimension, image emotion dimension and image saliency dimension respectively, and the three image materials in the image character dimension.
  • a content feature corresponding to the relationship dimension Assume that it is necessary to determine the editing strategy of the three image materials according to the above-mentioned content characteristics.
  • the editing strategy includes: the target editing operation mode corresponding to the two editing operation types of transition and filter.
  • mapping relationship between the image scene dimension, the image emotion dimension and the transition can be pre-deployed in the image processing device.
  • the mapping relationship can be shown in the following table 1: Table 1 Assume that the content feature of the image theme dimension of image material 1 is driving, the content features of the image theme dimension of image material 2 and image material 3 are both cafes, and the content features of the image emotion dimension of image material 1 to image material 3 are all happy . By querying the above Table 1, it can be seen that the target transition mode adopted by image material 1 is split transition, and the target transition mode adopted by image material 2 and image material 3 is shutter transition.
  • Table 1 is only an example to illustrate the mapping relationship between the content characteristics of the image scene dimension, the content characteristics of the image emotion dimension and the transition methods included in the editing operation type of transition.
  • the method of determining the target transition may use more dimensional content features, and the mapping relationship may also be more complex.
  • Filter The image processing device may have pre-deployed the mapping relationship between the image theme dimension, the image emotion dimension and the filter mode.
  • mapping relationship can be shown in the following table 2: Table 2 Assuming that the content feature of the image theme dimension of image material 1 is landscape, the content features of the image theme dimension of image material 2 and image material 3 are both food, and the content features of the image emotion dimension of image material 1 and image material 3 are both happy, The content characteristic of the emotional dimension of image material 2 is neutral.
  • Table 2 Assuming that the content feature of the image theme dimension of image material 1 is landscape, the content features of the image theme dimension of image material 2 and image material 3 are both food, and the content features of the image emotion dimension of image material 1 and image material 3 are both happy, The content characteristic of the emotional dimension of image material 2 is neutral.
  • Table 2 is only an example to illustrate the mapping relationship between the content characteristics of the image subject dimension, the content characteristics of the image emotion dimension and the filter methods included in the editing operation type of filter.
  • the method of determining the target filter may use more dimensional content features, and the mapping relationship may also be more complex.
  • the machine learning model 303 for determining the clipping strategy may include clipping operation manner determination sub-models 304 respectively corresponding to different clipping operation types.
  • each clipping operation mode determination sub-model 304 extracts the content feature of a specific dimension required from the content feature set, each clipping operation mode determination sub-model 304 and according to Each extracts the content features of the required specific dimensions and outputs the corresponding clips
  • the target clip manipulation method to use for the manipulation type In practical applications, there may be some situations, for example, determining the target editing operation mode to be used by the editing operation type A needs to refer to the target editing operation mode to be used by the editing operation type B.
  • the above-mentioned sub-models 304 for determining the editing mode can be connected according to actual needs, so that some sub-models 304 for determining the mode of editing can obtain the results output by the sub-models 304 for determining the mode of editing.
  • the implementation manner of obtaining the editing strategy of the first image material group is similar to the implementation manner of obtaining the image material editing strategy for a single image material, and for the sake of brevity, details are not repeated here.
  • S204. Edit the at least one image material into a multimedia resource according to the target editing operation mode.
  • the editing order of at least one image material may be determined based on preset rules;
  • the above at least one image material is synthesized to obtain a multimedia resource.
  • the above preset rules can be but not limited to:
  • the clipping order of the image materials is determined. For example, according to the order of shooting time of photos and video clips; or, according to the geographical location information in photos or video clips, classify photos or video clips, and combine the number of photos and video clips in the same geographic location to determine the clip order.
  • the method provided in this embodiment obtains a content feature set by performing feature analysis on at least one image material. Wherein, each content feature included in the content feature set is used to indicate that the image material is Corresponds to the content to be expressed by a specific dimension.
  • the clipping strategy of the above-mentioned at least one image material is determined.
  • the at least one image material is synthesized according to each target editing operation mode included in the editing strategy, so as to obtain a multimedia resource with content continuity.
  • the method provided by the embodiments of the present disclosure according to the characteristics of the image material itself, specifically determines the target editing operation mode that is more suitable for the content to be expressed by the image material, so as to further make the obtained multimedia resources more story-like.
  • using the method provided by the embodiments of the present disclosure can solve the problem of serious homogeneity caused by synthesizing multimedia resources using editing templates.
  • Fig. 4 is a flowchart of an image processing method provided by another embodiment of the present disclosure. Referring to Figure 4, the method of this embodiment includes:
  • S401 and S402 in this embodiment are similar to S201 and S202 in the embodiment shown in FIG. 2 respectively, and reference may be made to the detailed description of the embodiment shown in FIG. 2 .
  • the _th target background music has an association relationship with the second target background music, and the second target background music is used to synthesize multimedia resources with at least one image material.
  • the _th target background music belongs to at least _ candidate background music, wherein the at least one candidate background music is determined according to the content feature of the third target dimension in the content feature set.
  • the third target dimension can be all or part of the above at least one specific dimension specific dimensions. Exemplarily, assume that determining at least one candidate background music needs to use content features in three dimensions: image subject dimension, image scene dimension, and image character relationship dimension.
  • the image processing device After the image processing device obtains the content feature set in step S402, it can automatically perform matching in the music library according to the content features of the image theme dimension, the content feature of the image scene dimension, and the content features of the image character relationship dimension corresponding to all the image materials. , determine at least _ candidate background music suitable for the above image material.
  • the music library may include at least one piece of music, and the music in the music library corresponds to music content characteristics of different music dimensions.
  • the "music dimension” here may include but not limited to: one or more dimensions.
  • the music content features corresponding to the above music dimensions can be obtained, but not limited to, by analyzing one or more music features such as beat, lyrics, and sound effects of the music.
  • the content characteristics of the image material in the image theme dimension, the content characteristics of the image scene dimension, and the image character relationship dimension can be matched with the music content characteristics of each music dimension corresponding to the music,
  • one or more background musics that have a high degree of fit with the image material in dimensions such as theme, scene, and character relationship are determined.
  • the background music with the highest degree of fit may be directly determined as the first target background music, or multiple background musics with the highest degree of fit may be determined as candidate background music, and one of the background music candidates may be randomly selected As the first target background music.
  • the _th target background music may be specified by the user.
  • the image processing device can display the audio material display interface according to the operation of adding audio input by the user; then, the image processing device can receive the music selection operation input by the user in the audio material display interface (such as clicking a certain music label area ), and determine the music indicated by the music selection operation as the first target background music.
  • the image processing device further acquires the music content feature corresponding to the first target background music from the music library. For the features of the music content corresponding to each music in the music library, please refer to the previous description, which will not be repeated here.
  • the mapping relationship is set to obtain the target editing operation mode corresponding to the first editing operation type.
  • the content features of the first target dimension belong to the content feature set. That is, the first target dimension belongs to the above-mentioned at least _ specific dimensions.
  • the music content features corresponding to the first target background music, and the second preset mapping relationship acquire the target editing operation mode corresponding to the second editing operation type.
  • the content features of the second target dimension belong to the set of content features: the first target background music has an association relationship with the second target background music, and the second target background music is used to synthesize multimedia resources with at least one image material.
  • clipping operation types can be divided into two categories, one is not related to the second target background music, and the other is related to the second target background music.
  • the second target background music is music used to synthesize multimedia resources with at least one image material.
  • the influence of the second target background music needs to be considered.
  • the influence of the second target background music does not need to be considered when determining the target editing operation mode to be used for the editing operation type irrelevant to the second target background music.
  • it can be realized according to the second target background music.
  • the first target background music and the second target background music are the same music.
  • it may also be realized by utilizing the first target background music whose music content features and music content features of the second target background music satisfy a preset similarity.
  • the first target background music and the second target background music are different music.
  • the candidate background music with the highest degree of fit with the image material can be determined as the first target background music and the second target background music. Background music.
  • the first target background music and the second target background music may be different music randomly determined from the plurality of candidate background music. Assuming that the image processing device determines the first target background music according to the music selection operation input by the user, the first target music may be determined as the second target background music.
  • the "_th clipping operation type" in the aforementioned S404 indicates a clipping operation type that has nothing to do with the second target background music.
  • the image processing device pre-stores the corresponding first preset mapping relationship, wherein, the first A preset mapping relationship includes the mapping relationship between different content features corresponding to the first target dimension and each editing operation mode included in the first editing operation type.
  • the first target dimension includes part or all of the above-mentioned at least one specific dimension
  • the first preset mapping relationship corresponding to the first editing operation type is exemplarily shown in Table 1 and Table 2. According to the first preset mapping relationship, determine the target editing operation mode to be used by the first editing operation type
  • the specific implementation may refer to the embodiment shown in Fig.
  • the "second clipping operation type" in the aforementioned S405 indicates the clipping operation type related to the second target background music.
  • the image processing device pre-stores the corresponding second preset mapping relationship, the second preset mapping relationship includes different content features corresponding to the second target dimension, different music content features and the second editing operation The mapping relationship between the operation modes of clips included in the type.
  • the second target dimension includes part or all of the above at least one specific dimension.
  • the animation is "animation"
  • animation is the change mode of the image material within a corresponding duration
  • the animation may include: slightly zooming in, slightly zooming out, fading out, Swipe left, swipe right, etc.
  • the target editing operation method to be used for the editing operation type of "animation” needs to consider the two dimensions of music mood and music style of the second target background music.
  • Table 3 below exemplarily shows the corresponding The second preset mapping relationship. Table 3 Among them, through the second preset mapping relationship, determine the second clipping operation type (animation) to be used
  • the target clipping operation mode (that is, the target animation mode) is similar to the implementation of determining the target clipping operation mode to be used by the first clipping operation type through the first preset mapping relationship. It should be noted that Table 3 is only an example to illustrate the second preset mapping relationship corresponding to the second clipping operation type. In practical applications, the second preset mapping relationship may use more dimensional content features, and the mapping relationship It can also be more complex.
  • the target editing operation mode in S406 includes: a target editing operation mode corresponding to the first editing operation type and a target editing operation mode corresponding to the second editing operation type.
  • the music point of the second target background music is determined according to the number of image materials, and the second target background music is divided into multiple audio segments according to the music points. For example, if there are 5 image materials, it is necessary to determine 4 music points in the second target background music, divide the second target background music into 5 music segments, and the editing order of the image materials corresponds to the order of the audio segments.
  • the image material and the second target background music are synthesized to obtain the multimedia resource. That is to say, when synthesizing multimedia resources, the time position of each target editing operation mode in the multimedia resource can be determined according to the music point.
  • the method provided in this embodiment obtains a content feature set by performing feature analysis on at least one image material, wherein each content feature included in the content feature set is used to represent the content to be expressed by the image material in a specific dimension.
  • the editing strategy of the at least one image material is determined. Synthesizing the at least one image material and the second target background music according to each target editing operation mode included in the editing strategy, so as to obtain the multimedia resource.
  • the method provided in this embodiment according to the characteristics of the image material itself, specifically determines the target editing operation mode that is more suitable for the content to be expressed by the image material, so as to further make the obtained multimedia The story of the resource is stronger.
  • the factor of the second target background music used for synthesizing multimedia resources is considered, so that the determined target editing operation mode not only matches the above-mentioned at least one image material, but also matches the second target background music , which can make the effect of the obtained multimedia resources better.
  • using the method provided by the embodiments of the present disclosure can solve the problem of serious homogeneity caused by synthesizing multimedia resources using editing templates.
  • the method in the embodiment shown in FIG. 4 may be implemented using machine learning technology. Referring to FIG. 5, the following models may be pre-deployed in the image processing device: Machine learning model 501: used to obtain the content feature set of the image material.
  • Machine learning model 502 used to execute acquiring the first target background music, the second target background music, the music content features of the first target background music, the music content features of the second target background music, and determining the clip of the second target background music Operation mode (music point, volume level, sound effect, etc.)
  • Editing strategy determination model 503 used to determine the target editing operation mode to be used for each editing operation type.
  • the machine learning model 501 is similar to the machine learning model 301 in the embodiment shown in FIG. 3 , and reference may be made to the detailed description of the embodiment shown in FIG. 3 .
  • the machine learning model 502 may include a background music acquisition sub-model 502a, and a music clip operation mode determination sub-model 502b.
  • the background music acquisition sub-model 502a can extract content features of specific dimensions required from the content feature set output by the machine learning model 501, and determine at least one candidate background from the music library according to the extracted content features of these dimensions music, and obtain the music content characteristics of the target background music in the music dimension.
  • the background music acquisition sub-model 502a may also determine the second target background music from the music library according to the music selection operation input by the user, and acquire the music content characteristics of the second target background music.
  • the second target background music is the same music as the first target background music.
  • the music clip operation mode determination sub-model 502b can determine the music clip operation mode, such as music point, volume level, sound effect, etc., according to information such as music tempo and the number of image materials.
  • the clipping strategy determination model 503 is used to obtain the music content features of the _th target background music in the music dimension from the machine learning model 502, and obtain the content feature set of the image material from the machine learning model 501.
  • the clipping policy determination model 503 includes clipping operation mode determination sub-models 503a corresponding to each clipping operation type. Among them, some clipping operation types are related to the second target background music, as shown in FIG. 5 — one clipping operation mode determination sub-model 503a.
  • the clipping operation mode determination sub-model 503a corresponding to this type of clipping operation is used to extract the required content features of a specific dimension from the set of music content features corresponding to the first target background music and the content features of the image material, and according to the extracted content features Outputs the target clipping method to be used for this clipping type.
  • Other clipping operation types have nothing to do with the second target background music, such as another clipping operation mode determination sub-model 503a in FIG. 5 .
  • the clipping operation method corresponding to this clipping operation type determines the sub-model 503a, which is used to extract the label of the required specific dimension from the content feature set of the image material, and output the target clipping operation method to be used for this clipping operation type according to the extracted content feature .
  • the clipping policy determination model 503 inputs the target clipping operation modes of each clipping operation type to the synthesis module 504, and the machine learning model 502 inputs the determined second target background music and the music clipping operation modes of the second target background music into the synthesis module 504 , so that the synthesizing module 504 synthesizes the at least one image material and the second target background music into a multimedia resource according to each target editing operation mode included in the editing strategy and the music editing mode of the second target background music.
  • the architecture of the image processing device shown in FIG. 5 is only an example. In practical applications, due to the different types of clipping operations, the Due to various factors, the architecture of the image processing device may be different. Exemplarily, an embodiment of the present disclosure further provides an image processing device.
  • FIG. 5 the architecture of the image processing device shown in FIG. 5 is only an example. In practical applications, due to the different types of clipping operations, the Due to various factors, the architecture of the image processing device may be different. Exemplarily, an embodiment of the present disclosure further provides an image processing
  • the image processing apparatus 600 provided in this embodiment includes: an acquisition module 601, configured to acquire at least one image material.
  • the feature analysis module 602 is configured to perform feature analysis on the at least one image material to obtain a content feature set; wherein, the content feature set includes content features of at least one dimension, the The content feature is used to represent the content to be expressed by the image material in the corresponding dimension.
  • the clipping strategy determination module 603 is configured to acquire the clipping strategy of the at least one image material according to the content feature set: the clipping strategy includes target clipping operation modes corresponding to one or more clipping operation types respectively.
  • the synthesis module 604 is configured to edit the at least one image material into a multimedia resource according to the target editing operation mode.
  • the clipping policy determination module 603 is specifically configured to, for the first clipping operation type, obtain the target corresponding to the first clipping operation type according to the content characteristics of the first target dimension and the first preset mapping relationship. Editing operation mode; wherein, the content features of the first target dimension belong to the content feature set: wherein, the first preset mapping relationship includes different content features corresponding to the first target dimension and different operations included in the first clipping operation type The mapping relationship between methods.
  • the editing strategy determination module 603 is specifically configured to obtain the music content characteristics corresponding to the _th target background music; wherein, the first target background music has an association relationship with the second target background music, and the The second target background music is used to edit multimedia resources together with the at least one image material: for the second editing operation type, according to the content features of the second target dimension included in the content feature set, the first target background music Corresponding music content features and a second preset mapping relationship, to obtain the target editing operation mode corresponding to the second editing operation type; wherein, the second preset mapping relationship includes different content features corresponding to the second target dimension, different music A mapping relationship between content features and different operation modes included in the second editing operation type.
  • the _th target background music belongs to at least _ candidate background music, and the at least one candidate background music is determined according to the content features of the third target dimension included in the content feature set: or, all The first target background music is determined according to the music selection operation input by the user.
  • the synthesis module 604 is specifically configured to edit the at least one image material and the second target background music together into a multimedia resource according to the target editing operation mode; wherein, the second target background music The music content features of the first target background music and the music content features of the first target background music satisfy a preset similarity.
  • the feature analysis module 602 is specifically configured to perform feature analysis on the first image material included in the at least one image material to obtain a first content feature set corresponding to the first image material.
  • the clipping policy determination module 603 is specifically configured to, for the first image material included in at least one image material, obtain the clipping strategy of the first image material according to the first content feature set corresponding to the first image material; wherein, The clipping policy of the first image material is used to indicate a target clipping operation mode performed on the first image material.
  • the feature analysis module 602 is specifically configured to group the at least two image materials to obtain at least _ image material groups, wherein the at least _ image material groups include the first image material group , the first image material group includes two or more image materials; performing feature analysis on the first image material group to obtain a second content feature set corresponding to the first image material group.
  • the clipping policy determination module 603 is specifically configured to, for the first image material group included in the at least one image material group, acquire the first image according to the second content feature set corresponding to the first image material group
  • the clipping strategy of the material group the clipping strategy of the first image material group is used to indicate the target clipping operation mode to be executed for each image material included in the first image material group.
  • the feature analysis includes: one or more of salient feature analysis, image scene feature analysis, face feature analysis, image theme feature analysis, and image emotion feature analysis.
  • the at least one specific dimension includes: one or more of image scene dimension, image theme dimension, image emotion dimension, image character relationship dimension, image salient feature dimension, and image attribute dimension.
  • an electronic device 700 provided in this embodiment includes: a memory 701 and a processor 702 .
  • the memory 701 may be an independent physical unit, and may be connected to the processor 702 through a bus 703 .
  • the memory 701 and the processor 702 may also be integrated together, implemented by hardware, and the like.
  • the memory 701 is used to store program instructions, and the processor 702 calls the program instructions to perform any of the above tasks.
  • the foregoing electronic device 700 may also include only the processor 702 .
  • the memory 701 for storing programs is located outside the electronic device 700 , and the processor 702 is connected to the memory through circuits/wires for reading and executing the programs stored in the memory.
  • the processor 702 may be a central processing unit (central processing unit, CPU), a network processor (network processor, NP) or a combination of CPU and NP.
  • the processor 702 may further include a hardware chip.
  • the aforementioned hardware chip may be an application-specific integrated circuit (application-specific integrated circuit ASIC), a programmable logic device (programmable logic device, PLD) or a combination thereof.
  • the aforementioned PLD may be a complex programmable logic device (complex programmable logic device, CPLD), a field-programmable gate array (field-programmable gate array, FPGA), a general array logic (generic array logic, GAL) or any combination thereof.
  • the memory 701 may include a volatile memory (volatile memory), such as a random-access memory (random-access memory, RAM): the memory may also include a non-volatile memory (non-volatile memory), such as a flash memory (flash memory ), hard disk ( hard disk drive ,
  • An embodiment of the present disclosure further provides a readable storage medium, which includes a computer program, and when the computer program is executed by at least one processor of an electronic device, the technical solution of any one of the above method embodiments is implemented.
  • An embodiment of the present disclosure further provides a program product, where the program product includes a computer program, the computer program is stored in a readable storage medium, and at least one processor of the electronic device can read from the The computer program is read from the readable storage medium, and the at least one processor executes the computer program so that the electronic device implements the technical solution of any one of the above method embodiments.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本公开涉及一种图像处理方法、装置及可读存储介质,其中,该方法通过对至少一个图像素材进行特征分析,获取内容特征集合,其中,内容特征集合包括的每个内容特征用于表示图像素材在对应特定维度所要表达的内容;接着,根据内容特征集合,并依据特定维度的不同内容特征与不5 同剪辑操作类型包括的不同操作方式之间的映射关系,从而确定上述至少一个图像素材的剪辑策略;按照剪辑策略包括的各目标剪辑操作方式对上述至少一个图像素材进行合成,从而获得具有内容连续性的多媒体资源。本公开提供的方法,依据图像素材本身的特征,有针对性地确定出与图像素材所要表达的内容更加匹配的目标剪辑操作方式,从而进一步使获得的10 多媒体资源的故事性更强。

Description

图像处 理方法 、 装匯及可 读存储 介质 本 公开要 求于 2021年 06月 30日提交 中国国家 知识产 权局 、 申请号为 202110738116.5、发明名 称为“ 图像处理 方法 、装置及 可读存 储介质 ’’的中国 专利 申请 的优先权 ,其全部内 容通过 引用结 合在本 公开 中。 技术 领域 本公 开涉及图 像处理技 术领域 ,尤其涉及 一种图像处 理方法 、装置及可读 存储 介质。 背景 技术 目 前 ,人们可以使用 具有拍 摄功能 的电 子设备 拍摄各 种各样 的图像 素 材 ,有时 人们还 会利用 处理 工具对这 些图 像素材 进行 一些后 期处理 ,以获 得更 具趣 味性的 视频 ,例如 添加特 效、 合并、 添加背景音乐 等。 为了方便 人们 进行视 频创作 , 一些处理工具会 提供 剪辑模 板 ,用户可 以通过 选择剪 辑模 板 ,选择自 己喜欢 的图像 素材 ,从而获 得合成 的视频 。 然 而 ,通过剪辑模板合 成的视 频可能 效果 较差。 发明 内容 为 了解决 上述技 术问题 或者 至少部 分地解 决上 述技术 问题 ,本公开 实 施例 提供 了一种 图像处 理方法 、 装置及可读 存储介 质。 第 一方面 ,本公 开实施 例提供 了一 种图像处 理方 法 ,包括 : 获取 至少 一个图 像素材 ; 对所 述至 少一个 图像 素材进 行特征 分析 ,获取 内容特 征集合 ;其中 , 所述 内容 特征集 合中包 含至 少一个 特定 维度的 内容特 征 ,所述内 容特征 用 于表 示所 述图像 素材在 对应特 定维度 所要表 达的 内容 ; 根 据内容 特征集 合 ,获取至 少一个 图像 素材的 剪辑策 略 ; 剪辑策略包 括 一个或 多个剪 辑操作 类型分 别对应 的目标 剪辑操 作方式 ; 按 照所述 目标剪 辑操作 方式 ,将所述至 少一个 图像素 材剪 辑成多 媒体 资源 。 在 一些可 能的设 计中 ,所述根据所 述内 容特征 集合 ,获取所 述至 少一 个 图像素材 的剪 辑策略 ,包括 : 针对 第一 剪辑操 作类型 ,根据第一 目标维 度的 内容特 征以及 第一 预设 映射 关系 ,获取所述第 一剪 辑操作 类型对 应的 目标剪辑 操作 方式 ;其中 , 所述 第一 目标维 度的内 容特征 属于所 述内 容特征 集合 ; 其 中 ,第一预设映射关 系包 括所述 第一 目标维 度对应 的不同 内容特 征 与所 述第 一剪辑 操作类 型包括 的不 同操作 方式之 间的映 射关系 。 在 一些可 能的设 计中 ,所述根据所 述内 容特征 集合 ,获取 所述至 少一 个 图像素材 的剪 辑策略 ,包括 : 获 取第一 目标背 景音乐 对应 的音乐 内容特 征 ;其中 ,所述第一目标 背 景 音乐与 第二 目标背景 音乐 具备关 联关系 ,所述第二 目标背 景音乐 用于与 所述 至少 一个图 像素材 一起剪 辑成多 媒体 资源 ; 针对 第二 剪辑操 作类型 ,根据内容 特征集 合包 括的第 二目标 维度 的内 容特 征、 所述第一目标 背景 音乐对 应的音 乐内容 特征 以及第 二预设 映射关 系 ,获取所 述第 二剪辑 操作类 型对应 的目标 剪辑操 作方式 ; 其 中 ,所述第二预设 映射关 系包括 所述 第二 目标维度 对应的 不同 内容 特征 、 不同的音 乐内容 特征 与所述 第二 剪辑操 作类型 包括 的不同 操作方 式 之 间的映射 关系 。 在 一些可 能的设 计中 ,所述第一 目标背景 音乐 属于至 少一个 候选 背景 音乐 ,所述至少 一个候 选背 景音乐 是根据 所述 内容特 征集合 包括 的第三 目 标维 度的 内容特 征确定 的 ;或者 ,所述第一 目标背景 音乐是 根据用 户输 入 的音 乐选择 操作确 定的 。 在 一些可 能的设 计中 ,所述按照所 述目标 剪辑 操作方 式 ,将所述 至少 一个 图像 素材剪 辑成多 媒体资 源 ,包括 : 按 照所述 第二剪 辑操 作类型 包括的 目标 剪辑操 作方式 ,将所 述至 少一 个 图像素材 和第 二目标 背景音 乐一起 剪辑成 多媒体 资源 ; 其 中 ,所述第二目标 背景音 乐的音 乐内容 特征 与所述 第一 目标背 景音 乐的 音乐 内容特征 满足 预设相 似度。 在 一些可 能的设 计中 ,所述对所述 至少 一个图 像素材 进行特 征分析 , 获取 内容特 征集 合 ,包括 : 对所 述至 少一个 图像 素材包 括的第 一图像 素材 进行特 征分析 ,得到所 述第 一图像 素材 对应的 第一内 容特征 集合 ; 所 述根据 所述 内容 特征 集合 , 获取所述至少 一个 图像 素材的 剪辑 策 略 ,包括 : 针对 所述 至少一 个图像 素材 包括的 第一 图像素 材 ,根据所述 第一 图像 素材 对应 的第一 内容特 征集合 ,获取所 述第一 图像素 材的剪 辑策 略;其中 , 所述 第一 图像素 材的剪 辑策 略用于 指示针 对所述 第一 图像素 材执行 的目标 剪辑 操作方 式。 在 一些可 能的设 计中 ,所述对所述 至少 一个图 像素材 进行特 征分析 , 获取 内容特 征集 合 ,包括 : 对所 述至 少两个 图像 素材进 行分组 ,获得至少 一个图 像素材 分组 , 其 中 ,所述至少_ 个 图像 素材分 组包括 第_ 图像 素材 分组 ,所述第 _图像 素 材分 组包括 两个 或两个 以上的 图像素 材 ; 对所 述第 一图像 素材 分组分 别进行 特征分 析 ,得到所 述第 一图像 素材 分组 分对应 的第 二内容 特征集 合 ; 所 述根据 所述 内容 特征 集合 , 获取所述至少 一个 图像 素材的 剪辑 策 略 ,包括 : 针对 所述 至少一 个图像 素材 分组包 括的第 一图像 素材 分组 ,根据第一 图像 素材 分组对 应的第 二内容 特征 集合 ,获取所 述第 一图像 素材分 组的剪 辑策 略 ;所述第 一图像 素材 分组的 剪辑策 略用于 指示 针对所 述第一 图像素 材分 组包括 的每 个图像 素材执 行的 目标剪辑 操作方 式。 在 一些可 能的设 计中 ,所述特征分析 包括 : 显著 性特 征分析 、 图像场景 特征分 析、 人脸特 征分析 、 图像主题特 征 分析 、 图像情绪特 征分 析中的 一种或 多种。 在 一些可 能的设 计中 ,所述至少一个 特定 维度包 括 : 图像 场景 维度、 图像主题维度 、 图像情绪 维度、 图像人物关系 维度 、 图像 显著性 特征 维度、 图像属性维度 中的一 个或多 个。 第 二方面 ,本公 开实施 例提供 了一种 图像处 理装 置 ,包括 : 获取 模块 ,用于 获取至 少一个 图像素 材 ; 特 征分析 模块 ,用于对 所述 至少一 个图像 素材 进行特 征分析 ,获取内 容特 征集 合 ;其中 ,所述内容特征 集合 中包含 至少 一个维度 的内 容特征 , 所述 内容 特征用 于表示 所述 图像素材 在对应 维度所 要表 达的内 容 ; 剪 辑策略 确定模 块 ,用于根 据所述 内容 特征集 合 ,获取所述 至少 一个 图像 素材 的剪辑 策略 ;所述 剪辑策 略包括 一个 或多个 剪辑操 作类型 分别对 应的 目标剪 辑操作 方式 ; 合 成模块 ,用于 按照所 述 目标剪辑 操作方 式 ,将所述 至少 一个图 像素 材剪 辑成 多媒体 资源。 第 三方面 ,本公 开实施 例提 供了一 种电子 设备 ,包括 :存储 器、 处理 器以 及计算 机程 序 ; 所述 存储 器被配 置为存 储所述 计算机 程序 ; 所 述处理 器被配 置为执 行所 述计算 机程序 ,以实现如 第一方 面任 一项 所述 的图像 处理方 法。 第 四方面 ,本公 开实施 例提 供了一 种可读 存储介 质 ,包括 : 计算机程 序 ; 所 述计算 机程序 被电 子设备 的至少 一个处 理器执 行时 ,以执行第一 方 面任 一项所 述的 图像处理 方法 。 第 五方面 ,本公 开实施 例提 供一种 程序产 品 ,所述程序产 品包括 计算 机程 序 ,所述计算机程 序存 储在可 读存储 介质 中 , 电子设备的至少一个处 理器 可以 从所述 可读存 储介质 中读 取所述 计算机 程序 ,所述至少 一个处理 器执 行所述 计算 机程序 使得所 述电 子设备 实现如 第一方 面任 一项所 述的图 像处 理方法 。 本 公开实施 例提 供了 _种 图像处 理方法 、 装置及可读存 储介质。 其中 , 该方 法通过 对至少 一个 图像素 材进行 特征分 析 ,获取内容特 征集合 。 其中 , 内容 特征 集合包 括的每 个内 容特征 用于表 示所 述图像 素材在 对应 特定维 度 所要 表达 的内容 。 接着 ,根据内容 特征集 合 ,并依据 特定 维度的 不同 内容 特征 与不 同剪辑 操作类 型包括 的不 同操作 方式 之间的 映射关 系 ,从而确 定 上述 至少 一个图 像素材 的剪 辑策略 。 按照剪辑策 略包 括的各 目标剪 辑操 作 方式 对上述 至少 一个 图像素材 进行 合成 ,从而获 得具 有内容 连续性 的多 媒 体资 源。 本 公开实 施例提 供的方 法 ,依据图 像素材 本身 的特征 ,有针对性 地确 定 出与图像 素材 所要表 达的 内容更 加匹配 的 目标剪辑 操作方 式 ,从而进 _ 步使 获得 的多媒 体资源 的故 事性更 强。 另外 ,采用本 公开实 施例提 供的 方 法能 够解决 利用 剪辑模 板合成 多媒体 资源导 致的 同质化严 重的 问题。 附图 说明 此处 的附 图被并 入说明 书中并 构成本 说明书 的一部 分 , 示出了符合本 公开 的实施 例 ,并与说明书一 起用于 解释本 公开实 施例的 原理 。 为 了更清 楚地说 明本公 开实施 例或现 有技术 中的技 术方 案 , 下面将对 实施 例或现 有技术 描述 中所需 要使用 的附 图作简单 地介绍 ,显而易见地 , 对于 本领域 普通技 术人 员而言 ,在不付出创 造性劳 动性的 前提 下 ,还可以 根据 这些 附图获得 其他 的附图 。 图 1为本公开一实施 例提 供的图 像处理 方法 的流程 图 ; 图 2为本公开 一实施 例提 供的图 像处理 方法 的流程 图 ; 图 3为本公开 一实施 例提 供的图 像处理 装置 的架构 图 ; 图 4为本公开 另一 实施例 提供的 图像处 理方法 的流程 图 ; 图 5为本公开 另一 实施例 提供的 图像处 理装 置的架构 图 ; 图 6为本公开 一实施 例提 供的图 像处理 装置 的结构示 意图 ; 图 7为本公开_ 实施 例提供 的电子 设备的 结构示 意图。 具体 实施方 式 为了 能够更清 楚地理解 本公开实 施例的 上述目的 、特征和优 点 ,下面将对 本公 开实施例 的方案进 行进一步 描述。 需要说明的 是 ,在不冲突的情 况下 ,本 公开 的实施例 及实施例 中的特征 可以相 互组合。 在下 面的描述 中阐述 了很多具 体细节以 便于充分 理解本 公开实施例 ,但本 公开 实施例还 可以采用 其他不 同于在此 描述的方 式来实 施 ;显然,说明书中的 实施 例只是本 公开的 一部分实 施例 ,而不是全 部的实施 例。 为 了方便人们 进行视频 创作 ,一些处理工具 会提供剪 辑模板 ,用户可以通 过选 择剪辑模 板 ,选择自己喜欢 的图像素材 ,从而获得合成的 视频。 由于剪辑 模板 采用的 剪辑操 作方式 通常是 固定不变 的 ,无论用户上传什么 样的图 像素 材 ,均是利用剪 辑模板所 使用固 定的剪辑 操作方 式对图像 素材进行 编辑 ,可能 存在 剪辑模 板使用 的固定 的剪辑操 作方式 与图像 素材所 要表达 的内容 不匹配 的现 象。进一步 会导致合 成的多 媒体资源 效果较差 ,无法很好 地表达 出图像素 材所 要表达 的内容。 另外 ,由于剪辑 模板使用 固定的 剪辑操作 方式 ,利用剪辑模板 合成多 媒体 资源 ,同质化 严重 ,可能降低 用户进行 视频创作 的积极性 。 基于 上述问题 ,本公开 实施例提 供一种 图像处理 方法、 装置、 电子设备、 可读 存储介质 以及计算 机程序 。其中 ,该方法的核心思想是 :通过特定 的手段 分析 图像素材 在特定 维度所要 表达的 内容 ,获得图像在各个特 定维度 的内容特 征。再 根据图像 素材在各 个特定 维度的 内容特征 ,依据特定 维度的不 同内容特 征与 不同剪 辑操作类 型分别包 括的各剪 辑操作方 式之间 的映射关 系 ,确定图像 素材 的剪辑策 略 :从而保证按照剪辑 策略包括 的各 目标剪辑操 作方式对 上述图 像素 材进行合 成的多 媒体资源 具有较强 的内容连 续性 (即故事性 )b 本公 开实施例 提供的方 法是从 图像素材 的角度 出发 ,依据图像素材本身 的 特征 ,有针对性地确 定出与 图像素材 所要表达 的内容 更加匹 配的目标 剪辑操作 方式 ,从而 使合成的 多媒体资 源的故 事性更强 。 本公 开实施 例提供 的图像处 理方法 可以由 本公开 实施例提 供的图 像处理 装 置执行 ,该图像处 理装置 可以通过 任意的 软件和 /或硬件的方 式实现。 示例 性地 ,图像处 理装置 是平板 电脑、 手机(如折 叠屏手 机、 大屏手机等 ) ^ 可穿 戴设 备、车载设备、增强现 实( augmented reality ,AR)/虚拟现实( virtual reality , VR )设备、笔记本 电脑、超级 移动个人 计算机 ( ultra-mobile personal computer , UMPC X 上网本、 个人数字助 理( personal digital assistant , PDA X 智能电视、 智慧 屏、 高清电视、 4K电视 、 智能音箱、 智能投影仪等物 联网 (the internet of things , IOT)设备,本公开实施例 对图像处 理装置 的具体类 型不作任 何限制 。 其 中 ,本公开实施例对 图像处理 装置的 操作系统 的类型不 做限定 。 例如, Android系统 、 Linux系统、 Windows系统、 iOS系统等。 图像处 理装置 也可以通 过软件实 现 ,例如,图像处理装置可以 为程序产 品。 下面 通过几个 实施例对 本公开实 施例提供 的图像 处理方法 进行详细 介绍。 在下 述实施例 中 ,均以执行主体为图像 处理装 置为例进行 说明。 图 1 为本公开_ 实施 例提供 的图像处 理方法 的框架。 具体地,参照 图 1 所示 ,本公开实施例 提供的 图像处理 方法通过 对图像素 材进行特 征分析 。例如, 图像 场景特征 分析、人脸特 征分析 、图像显著性 特征分析 、图像主题特 征分析 、 图像 情绪特征 分析等 等特征分 析中的 一种或多 种 ,获取图像素材的内容 特征集 合。 若图 像素材不 需要配乐 ,可根据内容特征 集合中 的内容特 征 ,利用调度与 组合 算法 ,确定图像 素材的剪 辑策略 ;并根据 剪辑策略 对图像素 材进行合 成。 若图 像素材 需要配乐 (即背景 音乐 ),结合曲库中各音 乐在不 同音乐维 度 的音 乐内容特 征以及 图像素材 的内容特 征集合 ,利用调度 与组合算 法 ,确定要 使用 的背景 音乐以及 图像素材 的剪辑策 略 ;再根据图像素材 的剪辑 策略 ,将图 像素 材和背 景音乐进 行合成。 其 中 ,图像素材需要配乐和 不需要配 乐两种情 况下分 别使用的 调度与组 合 算法 可以不 同。 在图 1所示实施 例的基础 上 ,下面通过图 2和图 4所示实施例对 图像素材 需要 配乐和不 需要配 乐两种场 景下分别 进行介绍 。其中 ,图 2所示实施例为图 像素 材不需 要配乐的 情况。 图 4所示实施例为图像 素材需 要配乐的 情况。 图 2为本公开一 实施例提 供的图像 处理方法 的流程 图。参照图 2所示 ,本 实施 例的方法 包括 : S201、 获取至少_ 个 图像素材 。 其 中 ,图像素材可以是 照片、 图片、 视频片段等等。本 公开实施 例对于 图 像素 材的存储 格式、 时长(图像素材为 视频片段 时 X 数量等参数不作 限制。 若图像 素材的 数量为多 个时 ,一种情况,多个图像素材 可以是 同一类型 的 , 例如 ,多个图像 素材可 以全部 是照片、 或者 ,全部是图片 ,或者 ,全部是视频 片段 。 另一种情况 ,多个图像素材 也可以 分别属于 不同类型 ,例如 ,多个图像 素材 可以同 时包括照 片以及视 频片段 ,或者 ,可以同时包括 照片、 图片以及视 频片 段。 一种 可能的实 现方式 ,图像处理装 置可以提 供素材 展示界面 ,素材展示 页 面可 以缩略展 示各个 素材以及 素材的_ 些相关信 息 (例如 ,视频时长等等 > 图像处 理装置 可以获取 用户在素 材展示 界面上输 入的选择 指令 ,获取上述至少 一个 图像素材 。 在实 际应用中 ,素材展示页面可以 不区分类 型 ,并按照时间先后 顺序缩 略 展示 素材。或者 ,素材展示页 面也可以 按照片、图片 以及视频 等划分 多种类型 , 每个 类型对应 一个展示 入口标签 。基于用户 针对展示 入口标签 的操作 ,图像处 理装 置根据用 户针对展 示入 口标签的操作 ,展示缩略展示相 应类型的 素材。接 着 ,根据用户 的选择指 令 ,获取上述至 少一个 图像素材 。 另_ 种 可能的实现 方式 ,图像处理装置 可以根据 用户输入 的拍摄指 令拍摄 图片 或者视频 片段 ,拍摄的图像 或者视频 片段即 为图像素 材。 图像处 理装置 还可以通 过其他方 式获取 上述至少 一个图像 素材 ,本公开实 施例 对图像处 理装置获 取上述至 少一个 图像素材 的具体 实现方式 不作限制 。
S202、对所述至 少一个 图像素材 进行特征 分析 ,获取内容特征 集合 :其中 , 内容 特征集合 中包含 至少一个 特定维度 的内容 特征 ,所述内容特征用 于表示 图 像素 材在对应 特定维度 所要表达 的内容 。 这里 先介绍内 容特征集 合 : 内容 特征集 合可以 包括上述 至少 一个图像 素材在 至少一 个特定 维度的 内 容特 征。 每个内容特 征用于表 示图像素 材在对 应特定维 度所要表 达的内 容。 图像 素材可以 为照片、 图片以及视频片段 这几种类 型。 若图像 素材为 照片或者 图片 ,则内容特征集合 中可以包 括照片 或者图片 在 这些 特定维度 上的内容 特征。若 图像素材 为视频片 段时 ,则可以将视频帧 序列 中的 每个视频 帧作为 一个对象进 行特征 分析 ,获取每个视频帧在 这些特定 维度 上的 内容特征 。或者 ,也可从视频 帧序列 中抽取部 分视频帧 ,并将抽取 的视频 帧分 别作为一 个对象进 行特征分 析 ,获取抽取的这些视 频帧对象 在这些特 定维 度上 的内容特 征。 其中 ,上述至少_ 个特定 维度可以 包括但不 限于 :图像场景维 度、 图像主 题维 度、 图像情绪维度、 图像人物关系维度 、 图像显著性特征 维度、 图像属性 维度 中的一个 或多个 。 示例 性地 ,预先可以划分 多种不 同的图像场 景 ,例如图像场景 可以包括 但 不 限于 :室内场景 、 室外场景、 自然风景 /地貌等等场景 类别。 其中 ,室内场 景进 _步可划分 为咖啡馆 、 健身房、 教室、 商场等等子场景类别 。 室外场景也 可以 类似地进 一步划 分为操场 、 马路等等子场 景类别 。 自然风景 /地貌可进一 步划 分为 :陆地地貌风景、 水域、 天空、 植物等等子场景类 别。 上述每 _种子 场景 类别可进 _步细化 ,例如 ,陆地地貌风景 可进一步 划分为沙 漠、 雪山、 山 洞、 草地等等子类别 。 相应地,图像场 景维度的 内容特征 可以包 括但不 限于 : 室 内场景、 室外场景 等等场景 类别信息 。 示例 性地 ,预先可以划分 多种不 同的图像 主题 ,例如图像主题 可以包括 但 不 限于 :旅游、 逛街、 聚会、 节日、 美食等等。 相应地,图像主题维度 的内容 特征 可以包括 但不限 于 :旅游、 逛街、 聚会、 节日、 美食等等主题类别 信息。 示例 性地 ,预先可以划分 多种不 同的图像情 绪 ,例如图像情绪 可以包括 但 不 限于 :伤心、 难过、 中性、 积极、 开心等等。 相应地,图像情绪维度 的内容 特征 可以包括 但不限 于 :伤心、 难过、 中性、 积极、 开心等等类别信息。 示例 性地 ,预先可以划分 多种不 同的图像 人物关系 ,例如图像 人物关系 可 以包 括但不 限于 :父母、 朋友、 姐妹、 兄弟等等。 相应地,图像人物 关系维度 的 内容特征 可以包括 但不限于 :父母 、 朋友、 姐妹、 兄弟等等人物关系 信息。 示例 性地 ,图像显著性特 征即为图 像的显著 性区域 ,图像显示性 特征维度 的 内容特征 可以包括 图像的显 著性区域 的相关信 息 ,例如,图像的显著 性区域 在图 像中的位 置、 显著性区域 的尺寸等 等信息 。 示例 性地 ,图像属性维度的 内容特征 可以包括 图像素材 的属性信 息 ,例如, 图像 素材的分 辨率、 图像的亮度等等。 应理解 ,上述关于各特 定维度 的不同内 容特征仅 是示例 ,在实际 应用中 , 可根 据需求设 置各特定 维度包 括的内容 特征。 可选地 ,在_些特 定维度上 ,可以针对 单个图像 素材 ,根据该图像 素材在 特定 维度上的 特征信息 ,获得该图像素 材在该特 定维度 的内容特 征。 例如 ,在图像情 绪维度 ,可针对每个 图像素材 进行特征 分析 ,输出图像素 材在 图像情绪 维度上的 内容特 征。 又如,在图像主题 维度 ,可针对每个 图像素 材进 行特征分 析 ,输出图像素材 在图像 主题维度 上的内容 特征。 可选地 ,在_些特 定维度上 ,若图像 素材的数 量为多个 ,可以对全 部或者 部分 图像素材 进行分组 ,获得至少 一个图 像素材分 组 ,其中 ,至少有一个图像 素材 分组包括 两个或 者两个以 上的图像 素材。也就 是说 ,若有多个图像 素材分 组的情 况 ,一些图像素材 分组可以 只包括 一个图像 素材。针对 包括两个 或者两 个以 上的图像 素材的 图像素材 分组 ,根据该图像素材分 组包括 的两个或 两个以 上图 像素材分 别在该特 定维度 的特征信 息 ,获取该图像素材分组 在该特定 维度 的 内容特征 。这样的情况 下 ,也可以理解为 图像素材 分组包括 的每个 图像素材 在该 特定维度 上对应的 内容特征 是相同 的。针对包括 一个图像素 材的图像 素材 分组 ,实质上 就是针对 图像素材 输出相应 的内容特 征。 例如 ,在图像人 物关系维 度 ,可按照图像素材 中的人物 识别结果 对多个 图 像素 材进行分 组 ,针对每个图像素材 分组输出 一个图像 人物关系 维度的 内容特 征。 又如 ,在图像主题维度 ,可按照图像素材 中包括 的对象的 相似程度 对多个 图像 素材进 行分组 ,针对每 个图像 素材分组 输出一 个图像 主题维度 的内容 特 征。 可选 地 ,可针对上述 至少一 个图像 素材包括 的第 一图像素 材进行 特征分 析 ,获得第一 图像素材对 应的第 一内容特 征集合 。其中 ,第一内容特征集合包 括第 一图像素 材在上述 至少一 个特定维 度的内 容特征。 第_ 图像 素材可 以是上述 至少 _个 图像素材 中 ,可以单独进行分析的图像 素材 。 例如,上述至 少一个 图像素材包 括 : 3张天空的照片 、 1张人物合 照 , 那么 ,可针对 这 1张任务合 照单独 输出第 一内容特征 集合。 本公 开实施例 对于第 一图像素材 的数量 不做限制 。 可选 地 ,也可以从图像素 材的角 度出发 ,根据图像素 材的相 似程度 ,对多 个 图像素材 中的全 部或者 部分图像 素材进 行分组 ,获得至 少一个 图像素 材分 组。其 中 ,至少 _个图像素材分组包 括第_ 图像 素材分组 ,第 _图像素 材分组 包括 两个或 者两个以 上的图像 素材。接着 ,针对第一 图像素材 分组进行 特征分 析 ,获得第 一图像素材 分组对应 的第二 内容特征 集合。 例如 ,上述至 少_ 个图像 素材包 括了用户 针对天空 连续拍摄 了多张照 片 , 这多 张照片 内容所要表 达的内 容较为接 近。因此 ,可将这多张 照片划分 至一个 图像 素材分组 ,进行特征 分析时 ,针对该图像 素材分组 输出一个 整体的第 二内 容特 征集合 即可。 在进 行图像素 材分组时 ,还可以基 于图像 素材的其 他信息 ,例如 :地理位 置、 图像素材中的物 体等等信 息。 本公 开实施例 对于第 一图像素材 分组的数 量不做 限制。 在实 际应用中 ,针对单个图像素 材分别输 出内容特 征或者 内容特征 集合 , 还是 针对图像 素材分组 整体输 出一个内 容特征或 者一个 内容特征 集合 ,可以灵 活设 置。 本步 骤中 ,内容特征集合是通过对 图像素材 进行特 征分析获 得的 ,特征分 析的 具体方 式包括但 不限于 :显著性特征 分析、 图像场景特征分析 、 人脸特征 分析 、 图像主题特征分析 、 图像场景特征分 析、 图像情绪特征 分析中的 一种或 多种 。 其中 ,上述特征分析均 可以采用 机器学 习技术实现 ,利用相应 的机器学 习 模型 获得特征 分析结果 。例如 ,图像场景特征分析可 以利用场 景分类模 型实现 , 场景 分类模型 可以输 出图像素材 的图像场 景分类 特征 ,则可以基于图像场 景分 类特 征获取图 像场景维 度的内容 特征。 继续介 绍图像处 理装置 如何获取 内容特征 集合 : 示例 性地 ,首先,提取上述 至少一个 图像素材 分别在 至少一个 特定维度 上 的特 征信息 :接着 ,根据至少一个 图像素材 分别在这 些特定维 度上的特 征信息 进行 上述特征 分析 ,并根据特 征分析结 果 ,获取内容特 征集合。 一种 可能的实 现方式 ,通过机器学习技 术 ,获取图像素材的内容 特征集合 。 其中 ,图 3示例性地示出了利用 机器学 习模型实 现本公开 提供的 图像处理 方法 的架构 图。请参照图 3所示 ,可预先在图像 处理装置 中部署用 于获取 内容 特征 集合的 机器学 习模型 301 ,将上述至 少一个 图像素 材输入 机器学 习模型 301 中 ,获取机器学习模型 301输出的内容特 征集合 。 由于 在实际应用 中 ,需要获取至少一个图像素 材在不 同的特定 维度的内 容 特征 ,因此 ,机器学习模 型 301可以包 括 :不同的特定维 度分别对 应的内容 识 别子 模型 302。将上述至少 _个图像 素材分 别输入至 不同特定 维度对应 的内容 识别 子模型 302 ,获取内容识别子模 型 302输出的 图像素材 在相应特 定维度 的 内容 特征。 其中 ,一些内容识别子 模型 302可以输出每个 图像素 材对应的 内容特征 。 _ 些内 容识别子 模型 302可以针对每个 图像素材 分组输 出 _个内容 特征。 在实 际应用中 ,多个不同维度的内容识 别子模 型 302用到的 特征信息 之间 可能 存在交集 ,例如 ,图像人物关系 维度对应 的内容识 别子模型 302可能需 要 利用 人脸特征 分析的 结果 ;若图像素材中 包括人物 ,则图像情 绪维度对 应内容 识别 子模型 302需要对图像 素材进行 情绪分析 ,并结合人 脸特征分 析结果 ,从 而准 确地确定 图像素材 的图像情 绪。这样 的情况下 ,执行人脸特 征分析 的模块 可以 与需要使 用人脸 特征分析 结果的 内容识别 子模型 302连接,向相应的内 容 识别 子模型 302提供数据。 针对类 似的情况 ,在机器学习模型 301中 ,一些执行特征分析的模块 可以 与需 要使用该 特征分析 模块输 出的特征 分析结果 的内容 识别子模 型连接 ,向相 连接 的内容识 别子模型 302提供特征 分析结 果。
S203、 根据内容特 征集合 ,获取所 述至少 一个图像 素材的剪 辑策略。 其中 ,剪辑策略可以包括 :一个或多 个剪辑操 作类型 分别对应 的目标剪 辑 操作 方式。剪 辑操作类型 可以包 括但不 限于 :转场、 特效、滤镜、 动画、贴纸、 文案 内容、 画幅尺寸、 文案位置、 歌词样式、 歌词位置等等中 的一种或 多种。 每种 剪辑操作 类型可以 包括多种 剪辑操作 方式。例 如 ,转场(转场即剪辑 操作 类型 )可以包括 :运镜转场 、 基础转场、 特效转场等多种转 场子类型 (转 场子 类型可以 理解为 剪辑操作 类型下 的剪辑操作 子类型 ),每个转场子 类型中 可以 包括一 种或多种 转场方式 (转场方 式即剪 辑操作方 式 )6 又如,滤镜可以 包括 :风景、 复古、 美食、 清新、 电影、 油画等多种滤镜子类 型 ,每种滤镜子 类型 可以包括 一种或 多种滤镜方 式。一些 剪辑操作 类型、剪辑操 作方式 可以与 转场 、 滤镜类似,此处不 __举 例说明。 _些剪辑操 作类型 ,也可以不 划分剪 辑操 作子类型 。 本步 骤的目的 在于 :确定至少一个图 像素材使 用的剪 辑操作类 型以及每 种 剪辑 操作类型 对应的 目标剪辑操 作方式 。 一种 可能的实 现方式 ,图像处理装置 中可以预 先部署每 个特定 维度的不 同 内容 特征与 剪辑操作 类型包括 的各剪辑 操作方 式之间的 映射关系 :获取图像素 材在 这些特定 维度上 的内容特 征集合后 ,针对每个 图像素材 ,查询相应 的映射 关系 ,从而确 定各剪 辑操作类 型下 ,所要使用 的目标剪 辑操作方 式。 在步 骤 S202中可以 针对单个 第一图像 素材输 出第一内 容特征集 合 ,因此, 可选 地 ,图像处理装置可 以根据 第一图像 素材对应 的第一 内容特征集 合 ,确定 第 一图像素材 的剪辑策 略。该第一图 像素材 的剪辑策 略用于指 示针对该 第一图 像素 材所采用 的目标 剪辑操作 方式。 在步 骤 S202中可以 针对第 _图像素材分 组输出第 二内容 特征集合 ,因此, 可选 地 ,图像处理装 置可以根 据第 _图像 素材分组 对应的第 二内容特 征集合 , 确定 第一图像 素材分 组的剪辑 策略。该第一 图像素材 分组的剪 辑策略用 于指示 针对 第一图像 素材分组 包括的 每个图像 素材所采 用的 目标剪辑操 作方式。这种 情况 ,可以理解 为 ,第 _图像素材分组包括的每 个图像 素材所采 用的目标 剪辑 操作 方式相 同。 下面 以一个具 体的示例 来说明 : 假设 有 3个图像 素材 ,通过特征分析 ,获得的内 容特征集 合包括 3个图像 素材 分别在 图像主题维 度、图像情绪 维以及图像 显著性 特征维度 分别对应 的内 容特 征、以及 3个图像素材 在图像 人物关系 维度对应 的一个 内容特征 。假设需 要根 据上述 内容特征 确定 3个图像素材 的剪辑策 略 ,剪辑策略包括 :转场和滤 镜两 种剪辑操 作类型对 应的目标 剪辑操作 方式。
_ 、 转场 图像处 理装置 中可以预 先部署有 图像场景 维度、图像情 绪维度与 转场之间 的映 射关系。 示例 性地 ,该映射关系 可以如 下表 1所示: 表 1
Figure imgf000016_0001
假设 图像素材 1的图像主 题维度的 内容特征 为开车 ,图像素材 2和图像 素 材 3的图像主题 维度的 内容特征均 为咖啡 馆 ,图像素材 1至图像素材 3的图像 情绪 维度的 内容特征均 为开心 。通过查询上述 表 1可知图 像素材 1采用的 目标 转场 方式为分 割转场 ,图像素材 2和图像 素材 3采用的目标 转场方式 为快门转 场。 需要 说明的是 ,表 1仅是示 例性地说 明图像场 景维度 的内容特 征、 图像情 绪维 度的内 容特征 与转场这 一剪辑 操作类型 所包括 的各转 场方式 之间的映 射 关系 ,在实际应用 中确定 目标转场 方式可能 使用更 多的维度 的内容特 征 ,且映 射关 系也可以 更复杂。 二、 滤镜 图像处 理装置 中可以预 先部署有 图像主 题维度、图像情 绪维度与 滤镜方式 之间 的映射关 系。 示例 性地 ,该映射关系 可以如 下表 2所示 : 表 2
Figure imgf000017_0001
假设 图像素材 1的图像主 题维度的 内容特征 为风景 ,图像素材 2和图像 素 材 3的图像主题 维度的 内容特征均 为美食 ,图像素材 1和图像素材 3的图像情 绪维度 的内容 特征均 为开心 ,图像素材 2的图像情 绪维度的 内容特征 为中性 。 通过 查询上述 表 2可知图 像素材 1要使用的 目标滤镜方 式为晴 空滤镜 ,图像素 材 2要使用的 目标滤镜方 式为可 口滤镜 ,图像素材 3要使用 的目标滤 镜方式为 暖食 滤镜。 需要 说明的是 ,表 2仅是示 例性地说 明图像主 题维度 的内容特征 、 图像情 绪维 度的内 容特征 与滤镜这 一剪辑操 作类型 所包括 的各滤 镜方式之 间的映 射 关系 ,在实际应用 中确定 目标滤镜方 式可能 使用更 多的维度 的内容特 征 ,且映 射关 系也可以 更复杂。 在实 际应用中 ,还可以预先在图像处理 装置中部 署用于 确定剪辑 策略的机 器学 习模型 ,将内容特征 集合输入 至机器 学习模型 中 ,获取机器学习模型输出 的剪 辑策略 ,能够提 高处理效 率。 示例 性地 ,请继续参照 图 3所示 ,用于确定 剪辑策略 的机器学 习模型 303 中可 以包括不 同剪辑 操作类型 分别对应 的剪辑操 作方式确 定子模 型 304。在应 用的 过程中 ,将上述内容特征集 合输入 至机器学 习模型 303 ,各剪辑操作方式 确定 子模型 304从内容特征 集合 中提取所 需特定维 度的内容 特征 ,各剪辑操作 方式 确定子模 型 304并根据 各自提 取所需特 定维度 的内容特 征 ,输出相应剪辑 操作 类型所要 使用的 目标剪辑 操作方式 。 实际应 用中 ,可能存在一些情况 ,例如 ,确定剪 辑操作类 型 A所要 使用 的 目标剪辑操 作方式 需要参考 剪辑操作 类型 B所 要使用 的目标剪 辑操作方 式。 那么 ,上述各剪 辑操作方 式确定 子模型 304之间可根据 实际需求 进行连接 ,以 便一 些剪辑操 作方式 确定子模 型 304 能够获得其他 剪辑操作 方式确定 子模型 304 输出的结 果。 其中 ,针对第一图像素材 分组 ,获取第一图像 素材分组 的剪辑策 略的实现 方式 与针对单 个的图像 素材 ,获取图像素材 的剪辑策 略的实现 方式类似 ,简明 起见 ,此处不 再赘述。 S204、按照所 述目标 剪辑操作 方式 ,将所述至少一 个图像素 材剪辑成 多媒 体资 源。 一种 可能的实 现方式 ,可基于预先设定 的规则确 定至少 一个图像 素材的剪 辑顺 序 ;并按照确定 的剪辑顺 序 (如用户添加图像 素材的 顺序 ),以及剪辑策 略包 括的目标 剪辑操作 方式 ,对上述至少 一个图像 素材进行 合成 ,获得多媒体 资源 。 上述 预先设定 的规则可 以但不 限于为 :
( 1 )用户选择图像素 材的顺序 。
( 2 )按照图像素材 的类型的 顺序。 例如 ,照片在 图片之前 ,且图片在 视频片段 之前的顺 序 ;或者,视频片 段 在照 片之前 ,且照片 在图片之 前的顺序 。
( 3 )按照图像素材携 带的时 间信息 (如拍摄时间信 息) 和 /或地理位置信 息等 等 ,确定图像素材 的剪辑顺 序。 例如 ,按照照片 、 视频片段的拍摄 时间先后 顺序 ;或者 ,按照照片或者 视 频片 段中的地 理位置信 息对照 片或者视 频片段进 行分类 ,并结合同一地 理位置 的照 片和视频 片段的数 量 ,确定各图像 素材的剪 辑顺序 。 本实施 例提供 的方法 ,通过对至少 一个图像 素材进行 特征分 析 ,获取内容 特征 集合。其 中 ,内容特征集合包括 的每个 内容特征 用于表 示所述 图像素材在 对应特 定维度 所要表达 的内容 。接着 ,根据内容特征 集合 ,并依据特定 维度的 不同 内容特征 与不同 剪辑操作 类型包括 的不同 操作方式 之间的映 射关系 ,从而 确定 上述至少 一个图像 素材的 剪辑策 略。按照剪辑策 略包括 的各目标剪 辑操作 方式 对上述至 少一个 图像素材 进行合成 ,从而获得具 有内容连 续性的多 媒体资 源。 本公 开实施例 提供的方 法 ,依据图像素材本 身的特 征 ,有针对性地确定 出 与图 像素材所 要表达 的内容更 加匹配 的目标剪 辑操作方 式 ,从而进一步使获得 的多 媒体资源 的故事 性更强。另外 ,采用本公开实施 例提供 的方法能够 解决利 用剪 辑模板合 成多媒体 资源导 致的同质 化严重的 问题。 至少 一个图像 素材进行 剪辑时 ,可以添 加背景 音乐 (即配乐 ),使获得的 多媒 体资源更 具趣味 性 ,感染能力更强 ,也能够更好 地表达 图像素材 想要表达 的 内容。下面通过 图 4所示的 实施例详 细介绍如何 为图像 素材添加 匹配的 背景 音乐 以及其他 剪辑方式 。 图 4为本公开另 一实施例提 供的图 像处理方 法的流程 图。 参照图 4所示 , 本实 施例的方 法包括 :
5401、 获取至少_ 个 图像素材 。
5402、对所述至 少一个 图像素材 进行特征 分析 ,获取内容特征 集合 :其中 , 内容 特征集合 中包含 至少一个 特定维度 的内容 特征 ,所述内容特征用 于表示 图 像素 材在对应 特定维度 所要表达 的内容 。 本实施 例中 S401和 S402分别与图 2所示实施 例中的 S201和 S202类似 , 可参 照图 2所示实施例 的详细描述 ,简明起 见 ,此处不再赘 述。
5403、获取 第 _目标背 景音乐的 音乐内容 特征 :其中 ,第 _目标背景音乐 与第 二目标背 景音乐具 备关联关 系 ,第二目标背景音乐 用于与至 少一个 图像素 材合 成多媒体 资源。 _ 种可能 的实现方 式 ,第 _目标背景音乐 属于至 少_ 个候选 背景音乐 ,其 中 ,上述至少一个候选背景 音乐是根 据内容特 征集合 中第三 目标维度 的内容特 征确 定的。其 中 ,第三目标维度可以 为上述至 少一个 特定维度 的全部或 者部分 特定 维度。 示例 性地 ,假设确定至少 一个候选 背景音 乐时需要 使用图像 主题维度 、 图 像场 景维度以 及图像人 物关系 维度这三个 维度的 内容特征 。图像处理装 置通过 步骤 S402获取内 容特征集 合后 ,可以根据 所有图像 素材分 别对应的 图像主题 维度 的内容特 征、 图像场景维度 的内容特 征、以及图像 人物关 系维度的 内容特 征 ,自动在曲库中进 行匹配 ,确定适合上述 图像素材 的至少 _个候选背景 音乐。 其 中 ,曲库可以包括至少 一个音 乐 ,曲库中的音乐对应 不同音 乐维度的 音乐内 容特 征 ,这里的 “音乐维度”可以包括 但不限 于 :音乐风格、 音乐情绪、 音乐主 题以 及音乐人 物关系 中的一个 或多个维 度。上述这些 音乐维度 分别对应 的音乐 内容 特征可 以但不限 于通过分 析音乐 的节拍、歌词 、音效等 一个或多个 音乐特 征获 得。 图像处 理装置 在曲库 中进行匹配 时 ,可将图像素材在图 像主题维 度的内容 特征 、 图像场景维度的 内容特征 、 以及图像人物关系 维度 ,与音乐对应 的各音 乐维 度的音乐 内容特征 进行匹 配 ,从而确定出与 图像素材 在主题、场 景、 人物 关系 等维度契 合度较 高的一个 或多个背 景音乐 。 可选 地 ,可以直接将契合 度最高 的背景音 乐确定为 第一目标 背景音乐 ,或 者 ,也可以将契 合度靠 前的多个 背景音乐 确定为候 选背景 音乐 ,并从候选背景 音乐 中随机选 择一个作 为第一 目标背景 音乐。 另_ 种 可能的实 现方式 ,第_ 目标背 景音乐 可以是用 户指定的 。 具体地, 图像 处理装置 可以根据 用户输 入的添加 音频的操 作 ,显示音频素 材展示界 面 ; 接着 ,图像处理装 置可以接 收用户在 音频素材 展示界 面中输入 的音乐选 择操作 (如点击某个 音乐的标 签区域 ),并将音乐选择 操作指 示的音乐 确定为 第一目 标背 景音乐。图像 处理装 置进一步 从曲库 中 ,获取该第一目标背 景音乐对 应的 音乐 内容特征 。 其中 ,关于曲库中各音乐 对应的音 乐内容特 征可参见 前文描 述 ,此处不再 赘述 。
S404、针对第 一剪辑操 作类型 ,根据第一 目标维度 的内容特 征以及第 一预 设映 射关系 ,获取第 一剪辑操作 类型对应 的目标 剪辑操作 方式。 其中 ,第一目标维度的内 容特征属 于所述 内容特征 集合。即第 一目标维 度 属于 上述至少 _个特定 维度。
S405、针对 第二剪辑 操作类型 ,根据第 二目标维度 的内容 特征、 第一目标 背景 音乐对应 的音乐 内容特征以 及第二 预设映射 关系 ,获取第二剪辑操作 类型 对应 的目标剪 辑操作方 式。 其中 ,第二目标维度的内 容特征属 于所述 内容特征 集合 :第一目标背景 音 乐与 第二目标 背景音乐 具备关联 关系 ,第二目标背景音 乐用于与 至少一个 图像 素材 合成多媒 体资源 。 本实施 例中 ,可将剪辑操作类型划 分为两大 类 ,一种是与第二 目标背景 音 乐无 关的 ,另一种是与第二目标背 景音乐 有关的。其 中 ,第二目标背景音乐是 用于 与至少 一个图像 素材合成 多媒体资 源的音乐 。 其中 ,确定与第二目标背景 音乐有关 的剪辑操 作类型所 要使用 的目标剪 辑 操作 方式时 ,需要考虑第 二目标背 景音乐 的影响。确定 与第二 目标背景 音乐无 关的 剪辑操作 类型所要 使用的 目标剪辑 操作方式 时 ,无需考虑第二目标 背景音 乐的 影响。 需要 说明的是 ,确定与第二 目标背景 音乐有关 的剪辑操 作类型所 要使用 的 目标 剪辑操作 方式时 ,可以根据 第二目标 背景音乐 实现。这样 的情况 下 ,第一 目标 背景音乐 与第二 目标背景 音乐为同 一音乐。或 者 ,也可以利用音乐 内容特 征与 第二 目标背景 音乐的音 乐内容 特征满 足预设相 似度的 第一 目标背景 音乐 实现 。 这样的情况下 ,第一目标 背景音乐 与第二 目标背景 音乐是不 同的音 乐。 例如 ,假设图像处理 装置根据 第三 目标维度的 内容特征 从曲库 中确定 了至少一 个候 选背景音 乐 ,则可以将与图像素 材契合度 最高的候 选背景 音乐确定 为第一 目标 背景音乐 和第二 目标背景 音乐。或者 ,候选背景 音乐数量 为多个 时 ,第一 目标 背景音 乐和第 二目标背 景音乐 可以是从 多个候 选背景 音乐随 机确定 的不 同音 乐。假设图像处 理装置是 根据用 户输入的 音乐选择 操作确定 的第一 目标背 景音 乐 ,则可将第一 目标音乐确 定为第 二目标背 景音乐。 前述 S404中的“第_ 剪辑操作 类型 ’’,表示与第二目标背景 音乐无关 的剪 辑操 作类型。针对 这类剪辑 操作类型 ,图像处理 装置预先 存储相应 的第一 预设 映射 关系 ,其中 ,第一预设映射关系 包括第 一目标维度 对应的不 同内容 特征与 第一 剪辑操作 类型包括 的各剪 辑操作方 式之间 的映射关系 。 第一 目标维度 包括上述 至少一个 特定维 度中的部 分或者全 部特定 维度。 第一 剪辑操作 类型对应 的第一预 设映射关 系 ,示例性地如表 1和表 2所示 的情 况。根据第一 预设映射 关系确定 第一剪辑 操作类型 所要使 用的目标 剪辑操 作方 式的具体 实现方式 可参照 图 2所示实 施例 ,此处不再赘 述。 前述 S405中的 “第二剪辑操 作类型 ’’,表示与第二目标 背景音乐 有关的剪 辑操 作类型。针对 这类剪辑 操作类型 ,图像处理 装置预先 存储相应 的第二 预设 映射 关系 ,第二预设映射 关系包括 所述第 二目标维 度对应的 不同内容 特征、不 同的 音乐内 容特征 与第二 剪辑操作 类型包 括的各 剪辑操作 方式之 间的映 射关 系。 第二 目标维度 包括上述 至少一个 特定维 度中的部 分或者全 部特定 维度。 示例 性地 ,假设第二剪 辑操作类 型为 “动画 ’’,其中 , “动画 ’’是图像素材在 相应 的时长内 的变化方 式 ,例如,动画可以包 括 :轻微放大、轻微缩 小、渐隐、 向左 滑动、 向右滑动等等 。 “动画 ’’这一剪辑操作类型所要使用的 目标剪辑 操作 方式 需要考 虑第二 目标背景 音乐的 音乐情 绪、 音乐风格这 两个维度 。 下表 3 示例 性示出 了动画这 一剪辑操作 类型对 应的第二 预设映射 关系。 表 3
Figure imgf000022_0001
其中 ,通过第二预设映射 关系 ,确定第二剪 辑操作类 型(动画 )所要使 用 的 目标剪辑操 作方式 (即目标 动画方 式),与通过第 一预设映射 关系 ,确定第 一剪 辑操作类 型所要使 用的 目标剪辑操 作方式 的实现方式 类似。 需要 说明的是 ,表 3仅是示例性 地说明 第二剪辑 操作类型 对应的第 二预设 映射 关系 ,在实际应用 中第二预 设映射关 系可能 使用更多 的维度 的内容特 征 , 且映 射关系也 可以更 复杂。
S406、按照所 述目标 剪辑操作 方式 ,将所述至少 一个图像素 材和第 二目标 背景 音乐剪辑 成多媒体 资源。
S406 中的目标剪辑 操作方 式包括 :第一剪辑 操作类 型对应的 目标剪辑 操 作方 式和第 二剪辑操 作类型对 应的目标 剪辑操作 方式。 一种 可能的实 现方式 ,首先 ,根据图像素材的 数量确定 第二 目标背景音 乐 的音 乐点 ,根据音乐点 将第二 目标背景 音乐划分 为多个音 频片段 。 例如,有 5 个图 像素材 ,则需要在第 二目标背 景音乐 中确定 4个音乐点 ,将第二目标 背景 音乐 划分 5个音乐片段 ,图像素材 的剪辑顺序 与音频片 段的顺 序相对应 。按照 图像 素材的剪 辑顺序与 音频片段 的顺序 之间的对 应关系 ,并利用确定的 各种目 标剪 辑操作方 式 ,将图像素材与第二 目标背景 音乐进行 合成 ,获得多媒体资源。 也就 是说 ,在进行多媒体 资源合成 时 ,各目标剪辑操作 方式在 多媒体资 源 中的 时间位置 可以根据 音乐点 确定。 本实施 例提供 的方法 ,通过对至少 一个图像 素材进 行特征分 析 ,获取内容 特征 集合 ,其中 ,内容特征集合包括 的每个 内容特征 用于表 示所述 图像素材在 一个 特定维度 所要表 达的内容 。接着 ,根据内容特 征集合 ,确定合成 多媒体 资 源要 使用的 第二 目标背景 音乐以及 与第二 目标背 景音乐相 似度较 高的第 一目 标背 景音乐的 音乐内容 特征。再依 据特定 维度的不 同内容特 征、不同 音乐内容 特征 、以及不 同剪辑操作 类型的 剪辑操作 方式之间 的映射关 系 ,从而确定上述 至少 一个图像 素材的 剪辑策略 。按照剪辑策 略包括的 各目标剪 辑操作方 式对上 述至 少 _个图像 素材以及 第二 目标背景音 乐进行合 成 ,从而获得多 媒体资源 。 本实 施例提供 的方法 ,依据图像 素材本身 的特征 ,有针对性地 确定出 与图像素 材所 要表达 的内容更 加匹配 的目标剪 辑操作方 式 ,从而进一步使获得 的多媒体 资源 的故事性 更强。且在 确定 目标剪辑操 作方式 时,考虑了合 成多媒体 资源所 使用 的第二 目标背景 音乐这一 因素 ,使确定的目标剪 辑操作方 式不仅与 上述至 少 一个图像素 材匹配 ,且与第二 目标背景 音乐匹配 ,能够使获 得的多媒 体资源 效果 更佳。 另外 ,采用本公开实 施例提供 的方法 能够解决 利用剪 辑模板合 成多媒体 资 源所 导致的 同质化严重 的问题 。 可选 地 ,图 4所示实施例的方法 可利用机 器学习技 术实现 。参照图 5所示 , 可预 先在图像 处理装 置中部署 以下模型 : 机器 学习模型 501 :用于获取图像 素材的 内容特征 集合的。 机器 学习模型 502 :用于执行获取第一 目标背景 音乐、第二 目标背景音 乐、 第 一目标背景 音乐的 音乐内容 特征、第二 目标背景 音乐的音 乐内容特 征、以及 确定 第二 目标背景音 乐的剪辑 操作方式 (音乐点 、 音量大小、 音效等 )b 剪辑 策略确定 模型 503 :用于确定各剪辑操作 类型所 要使用 的目标剪辑 操 作方 式的。 其中 ,机器学习模型 501与图 3所示实 施例中 的机器学 习模型 301类似 , 可参 照图 3所示实施例 的详细描述 。 机器 学习模型 502可以 包括背 景音乐获 取子模型 502a、 音乐剪辑操作方 式确 定子模型 502b。 可选 地 ,背景音乐获取 子模型 502a能够从机 器学习模 型 501输出 的内容 特征 集合 中提取所 需特定 维度的 内容特征 ,并根据提取 的这些 维度的 内容特 征 ,从曲库中确 定至少 一个候选背 景音乐 ,并获取 目标背景音 乐在音乐 维度的 音乐 内容特征 。 可选 地 ,背景音乐获取 子模型 502a还可以根 据用户 输入的音 乐选择操作 从 曲库中确定 第二 目标背景音 乐 ,并获取第二 目标背景 音乐的音 乐内容特 征。 这样情 况 ,第二目标背 景音乐与 第一 目标背景音 乐为同一 音乐。 音乐 剪辑操作 方式确定 子模型 502b能够根据 音乐节 拍、 图像素材的数 量 等信 息 ,确定音乐剪 辑操作方 式 ,例如 ,音乐点、 音量大小、 音效等等 。 剪辑策 略确定 模型 503,用于从机器学习模 型 502获取第 _目标背 景音乐 在音 乐维度的 音乐内容 特征、以及从 机器学 习模型 501获取图像素材 的内容 特 征集 合。剪辑策略确 定模型 503中包括各 个剪辑操 作类型 分别对应 的剪辑操作 方式 确定子模 型 503a。 其中 ,_些剪辑操作 类型与 第二目标 背景音乐 相关 ,如图 5中_ 种剪辑 操 作方 式确定 子模型 503a。 这类剪辑操作类型 对应的剪 辑操作方 式确定 子模型 503a 用于从 第一 目标背景音 乐对应 的音乐内 容特征和 图像素材 的内容 特征集 合 中提取所 需特定维 度的内容 特征 ,并根据提取的 内容特征 输出该剪 辑操作类 型所 要使用 的目标剪 辑操作方 式。 另_ 些 剪辑操作 类型与第 二目标背 景音乐 无关 ,如图 5中另 _种剪辑操作 方式 确定 子模型 503a。 这类剪辑操作 类型对 应的剪 辑操作 方式确 定子 模型 503a 用于从 图像素 材的内容 特征集 合中提取 所需特 定维度 的标签 ,并根据提 取的 内容特征 输出该剪 辑操作类 型所要 使用的 目标剪辑操 作方式 。 剪辑策 略确定 模型 503 将确定各剪 辑操作类 型的 目标剪辑操作 方式输 入 至合 成模块 504,机器学习模型 502将确定的 第二目标 背景音乐 以及第 二目标 背景 音乐的音 乐剪辑操 作方式 输入至合 成模块 504 ,以使合成模块 504根据剪 辑策 略包括的 各目标剪 辑操作 方式和第 二目标背 景音乐 的音乐剪 辑操作方 式 , 将上 述至少 一个图像 素材和第 二目标背 景音乐合 成为多 媒体资源 。 需要 说明的是 ,图 5所示的 图像处理 装置的架 构仅是 一种示例 ,在实际应 用 中 ,由于剪辑操作类型 的种类不 同、各剪辑 操作类型 包括的 剪辑操作 方式的 不同 、 图像素材的不 同等等各 种因素 ,图像处理 装置的 架构可能 不同。 示例 性地 ,本公开实施 例还提供 一种图像 处理装 置。 图 6为本公 开一实施 例提供 的图像处理 装置的 结构示意 图。参照图 6所示 , 本实 施例提供 的图像处 理装置 600 ,包括: 获取模 块 601 ,用于获取至 少一个 图像素材 。 特征 分析模块 602 ,用于对所述至少 一个图 像素材进 行特征 分析 ,获取内 容特 征集合 ;其中 ,所述内容特征集合中 包含至少 一个维度 的内容 特征 ,所述 内容 特征用 于表示所 述图像素 材在对应 维度所要 表达的 内容。 剪辑策 略确定 模块 603 ,用于根据所述内容 特征集合 ,获取所 述至少 一个 图像 素材的剪 辑策略 :所述剪辑策略 包括一个 或多个 剪辑操作 类型分别 对应的 目标 剪辑操作 方式。 合成 模块 604 ,用于按照所述目标 剪辑操作 方式 ,将所述至少 _个图像素 材剪 辑成多媒 体资源 。 在一 些可能的 设计中 ,剪辑策略确定模块 603 ,具体用于针对 第一剪辑 操 作类 型 ,根据第一目标维 度的内容 特征以 及第一预 设映射关 系 ,获取所述第一 剪辑 操作类型 对应的 目标剪辑操 作方式 ;其中 ,所述第一目标维度的内 容特征 属于 所述内容 特征集 合 :其中 ,第一预设映射关系包 括第一 目标维度对 应的不 同 内容特征与 第一剪 辑操作类 型包括 的不同操作 方式之 间的映射 关系。 在_ 些 可能的设 计中 ,剪辑策略确定模块 603 ,具体用于获取第_ 目标背 景音 乐对应的 音乐内容 特征 ;其中 ,所述第一目标背景 音乐与 第二目标 背景音 乐具 备关联关系 ,所述第二 目标背景音 乐用于 与所述至 少一个 图像素材 一起剪 辑成 多媒体资 源 :针对第二剪辑操 作类型 ,根据所述 内容特征 集合包括 的第二 目标 维度的 内容特征 、所述第一目标 背景音乐 对应的音 乐内容特 征以及 第二预 设映 射关系 ,获取所述第 二剪辑操 作类型 对应的 目标剪辑操 作方式 ;其中 ,第 二预 设映射关 系包括第 二目标维 度对应 的不同内 容特征、不同 的音乐内 容特征 与第 二剪辑操 作类型包 括的不 同操作方 式之间 的映射关 系。 在_ 些 可能的设 计中 ,第 _目标背景音乐属于至 少_ 个候选 背景音乐 ,所 述至 少一个 候选背 景音乐是 根据所 述内容 特征集 合包括 的第三 目标维度 的内 容特 征确定 的:或者 ,所述第一目标 背景音 乐是根据 用户输入 的音乐选 择操作 确定 的。 在一 些可能的 设计中 ,合成模块 604 ,具体用于按照所 述目标 剪辑操作 方 式 ,将所述至 少一个 图像素材 和第二 目标背景 音乐一起 剪辑成多 媒体资源 ; 其中 ,所述第二目标背景音乐 的音乐 内容特征 与所述 第一目标 背景音乐 的 音乐 内容特征 满足预设 相似度 。 在_ 些 可能的设 计中 ,特征分析模块 602 ,具体用于对所 述至少 _个图像 素材 包括的 第一图像 素材进行 特征分析 ,得到第一图 像素材对 应的第 一内容特 征集 合。 相应 地 ,剪辑策略确定 模块 603 ,具体用于针对至少 一个图像 素材包括 的 第 一图像素材 ,根据第 一图像素材 对应的 第一内容 特征集合 ,获取所述第一图 像素 材的剪 辑策略 ;其中 ,所述第一图像素材的剪辑 策略用 于指示针对 所述第 一图 像素材执 行的 目标剪辑操作 方式。 在一 些可能 的设计中 ,特征分析模块 602 ,具体用于对所述至 少两个 图像 素材 进行分组 ,获得至少 _个图像 素材分组 ,其中 ,所述至少 _个图像素材 分 组包 括第一 图像素材 分组 ,所述第一图像素材 分组包括 两个或 两个以 上的图像 素材 ; 对所述 第一图 像素材分 组进行特 征分析 ,得到所述第 一图像素 材分组对 应 的第 二内容特 征集合 。 相应 地 ,剪辑策略确定 模块 603 ,具体用于针对所述至 少一个 图像素材 分 组包 括的第 一图像素材 分组 ,根据所述第一 图像素材 分组对应 的第二 内容特征 集合 ,获取所述 第一图像 素材分组 的剪辑 策略 :所述第一图像 素材分组 的剪辑 策 略用于指 示针对所 述第 一图像素 材分组 包括的 每个图像 素材执 行的 目标剪 辑操 作方式。 在一 些可能 的设计中 ,所述特征分析包括 :显著性 特征分析 、 图像场景特 征分 析、 人脸特征分析 、 图像主题特征分析 、 图像情绪特征分 析中的 一种或多 种。 在_ 些 可能的设 计中 ,所述至少 _个特定维度 包括 :图像场景维度 、 图像 主题 维度、 图像情绪维度 、 图像人物关系维 度、 图像显著性特 征维度、 图像属 性维 度中的 一个或多 个。 本实 施例提 供的图像 处理装 置可以 用于执 行前述任 一方 法实施例 的技术 方案 ,其实现原 理以及技 术效果 类似 ,可参照前述 方法实施 例的描述 ,简明起 见 ,此处不再 赘述。 图 7为本公开一 实施例提 供的电子 设备的结 构示意 图。参照图 7所示 ,本 实施 例提供 的电子设备 700包括 :存储器 701和处理器 702。 其 中 ,存储器 701 可以是独立 的物理单 元 ,与处理器 702可以通 过总线 703 连接。 存储器 701、 处理器 702也可以集成在 _起 ,通过硬 件实现等 。 存储 器 701用于存 储程序指 令 ,处理器 702调用该程 序指令 ,执行以上任
_ 方法 实施例 的技术方 案。 可选 地 ,当上述实施例的 方法中 的部分或 全部通过 软件实现 时 ,上述电子 设备 700也可以只 包括处理 器 702。用于存储程 序的存 储器 701位于电子设备 700 之外 ,处理器 702通过电路 /电线与存储器连接 ,用于读取并执 行存储 器中 存储 的程序 。 处理 器 702可以是 中央处理 器 ( central processing unit , CPU ) , 网络处理 器 ( network processor , NP )或者 CPU和 NP的组合。 处理 器 702还可以 进一步包 括硬件芯 片。上述硬件 芯片可 以是专用 集成电 路{ application-specific integrated circuit ASIC ),可编程逻辑器件 ( programmable logic device ,PLD )或其组合。上述 PLD可以是复 杂可编程 逻辑器件 ( complex programmable logic device ,CPLD ),现场可编程逻辑门阵列 ( field-programmable gate array , FPGA ) ,通用阵列逻辑 ( generic array logic , GAL )或其任意组合。 存储 器 701可以包 括易失性 存储器( volatile memory ),例如随机存取存储 器 ( random-access memory , RAM ) : 存储器也可以包 括非 易失性 存储 器 ( non-volatile memory ),例如快闪存储器 ( flash memory ),硬盘 ( hard disk drive ,
HDD )或 固态硬盘 ( solid-state drive , SSD ) ;存储器还可以包括上述种类的存 储器 的组合。 本公 开实施 例还提供 一种可 读存储 介质 ,可读存储介质中包 括计算 机程 序 ,所述计算机 程序在被 电子设备 的至少 一个处理 器执行 时,以实现以 上任一 方法 实施例 的技术方 案。 本公 开实施例 还提供 一种程序产 品 ,所述程序产品包括计算 机程序 ,所述 计算 机程序存 储在可 读存储介质 中 ,所述电子设备的至少一个处 理器可 以从所 述可 读存储介 质中读取 所述计算 机程序 ,所述至少一个 处理器执 行所述 计算机 程序 使得所述 电子设备 实现如上 任一方 法实施例 的技术方 案。 需要 说明的是 ,在本文 中 ,诸如“第一”和“第二”等之类的关 系术语仅 仅用 来将 一个实体 或者操作 与另一 个实体或 操作区 分开来 ,而不一定要求 或者暗示 这些 实体或操 作之间存 在任何这 种实际 的关系或 者顺序。 而且,术语“包括”、 “包含 ”或者其任何 其他变体 意在涵 盖非排他 性的包 含 ,从而使得包括一 系列要 素的 过程、 方法、 物品或者设备不 仅包括那 些要素 ,而且还包 括没有 明确列出 的其 他要素 ,或者是 还包括为 这种过程 、 方法、 物品或者设备所 固有的要 素。 在没 有更多 限制的情 况下 ,由语句 “包括 _个 ...... ’’限定的要素,并不排除在包 括所 述要素 的过程、 方法、 物品或者设备中还存 在另外 的相同要 素。 以上 所述仅是 本公开的 具体实施 方式 ,使本领域技术人 员能够理 解或实现 本公 开。 对这些实施例 的多种修 改对本领 域的技 术人员来 说将是显 而易见的 , 本文 中所定义 的一般 原理可以 在不脱离 本公开 的精神或 范围的情 况下 ,在其它 实施 例中实现 。 因此,本公开将不 会被限制 于本文所 述的这 些实施例 ,而是要 符合 与本文所 公开的 原理和新 颖特点相 一致的 最宽的范 围。

Claims

权 利 要 求
1、 _种图像 处理方 法 ,其特征在 于 ,包括 : 获取 至少 一个图 像素材 ; 对所 述至 少一个 图像 素材进 行特征 分析 ,获取 内容特 征集合 ;其中 , 所述 内容 特征集 合中包 含至 少一个 特定 维度的 内容特 征 ,所述内 容特征 用 于表 示所述 图像 素材在 对应特 定维度 所要表 达的 内容 ; 根 据所述 内容特 征集 合 ,获取所述 至少 一个图 像素材 的剪 辑策略 ;所 述剪 辑策 略包括 一个或 多个剪 辑操作 类型分 别对应 的目标 剪辑操 作方 式 ; 按 照所述 目标剪 辑操作 方式 ,将所述至 少一个 图像素 材剪 辑成多 媒体 资源 。
2、 根据权利 要求 1所述的 方法 ,其特征 在于 ,所述根据所述 内容特 征 集合 ,获取所述 至少一 个图像 素材的 剪辑策 略 ,包括 : 针对 第一 剪辑操 作类型 ,根据第一 目标维 度的 内容特 征以及 第一预 设 映射 关系 ,获取所述第 一剪 辑操作 类型对 应的 目标剪辑 操作 方式 ;其中 , 所述 第一 目标维度 的内 容特征 属于所 述内容 特征 集合 ; 其 中 ,所述第一预设 映射关 系包括 所述第 一 目标维度 对应的 不同 内容 特征 与所述 第一 剪辑操 作类型 包括的 不同操 作方 式之间 的映射 关系。
3、 根据权利 要求 1所述的 方法 ,其特征 在于 ,所述根据所述 内容特 征 集合 ,获取所述 至少一 个图像 素材的 剪辑策 略 ,包括 : 获取 第一 目标背 景音乐 对应 的音乐 内容特 征 ;其中 ,所述第一目标 背 景音 乐与 第二 目标背景 音乐具 备关联 关系 ,所述第二 目标背 景音乐 用于与 所述 至少 一个图 像素材 一起剪 辑成多 媒体 资源 ; 针对 第二 剪辑操 作类型 ,根据所述 内容特 征集 合包括 的第 二目标 维度 的 内容特 征、 所述第 一目标 背景音 乐对应 的音乐 内容 特征以 及第 二预设 映 射关 系 ,获取所述 第二 剪辑操 作类型 对应的 目标剪 辑操作 方式 ; 其 中 ,所述第二预设 映射关 系包括 所述第 二 目标维度 对应的 不同 内容 特征 、 不同的音 乐内容 特征 与所述 第二剪 辑操 作类型 包括的 不同 操作方 式 之 间的映射 关系 。
4、 根据权利 要求 3所述的 方法 ,其特征 在于 ,所述第一目标 背景音 乐 属 于至少 一个候 选背景 音乐 ,所述 至少 一个候 选背景 音乐是 根据所 述内 容 特征 集合 包括的 第三 目标维 度的内 容特征 确定 的 ;或者,所述第 一目标 背 景音 乐是根 据用 户输入 的音乐 选择操 作确定 的。
5、 根据权利 要求 3所述的 方法 ,其特征 在于 ,所述按照所述 目标剪 辑 操作 方式 ,将所 述至少 一个 图像素材 剪辑成 多媒 体资源 ,包括 : 按 照所述 目标剪 辑操作 方式 ,将所述至 少一个 图像素 材和 第二 目标背 景音 乐一起 剪辑成 多媒 体资源 ; 其 中 ,所述第二目标 背景音 乐的音 乐内容 特征 与所述 第一 目标背 景音 乐的 音乐 内容特征 满足 预设相似 度。
6、 根据权利 要求 1所述的 方法 ,其特征 在于 ,所述对所述至 少一个 图 像素 材进行 特征 分析 ,获取内 容特征 集合 ,包括 : 对所 述至 少一个 图像 素材包 括的第 一图像 素材 进行特 征分析 ,得到所 述第 一图像 素材 对应的 第一内 容特征 集合 ; 所述 根据 所述内 容特征 集合 ,获取所述 至少 一个图像 素材 的剪辑 策略 , 包括 : 针对 所述 至少一 个图像 素材 包括的 第一 图像素 材 ,根据所述 第一 图像 素材 对应 的第一 内容特 征集合 ,获取所 述第 一图像 素材的 剪辑策 略 :其中 , 所述 第一 图像素 材的剪 辑策 略用于 指示针 对所述 第一 图像素 材执行 的目标 剪辑 操作方 式。
7、 根据权利 要求 1所述的 方法 ,其特征 在于 ,所述对所述至 少一个 图 像素 材进行 特征 分析 ,获取内 容特征 集合 ,包括 : 对所 述至 少两个 图像 素材进 行分组 ,获得至少 一个图 像素材 分组 , 其 中 ,所述至少_ 个 图像 素材分 组包括 第_ 图像 素材 分组 ,所述第 _图像 素 材分 组包括 两个 或两个 以上的 图像素 材 ; 对所 述第 一图像 素材 分组分 别进行 特征分 析 ,得到所 述第 一图像 素材 分组 分对应 的第 二内容 特征集 合 ; 所述 根据 所述内 容特征 集合 ,获取所述 至少 一个图像 素材 的剪辑 策略 , 包括 : 针对 所述 至少一 个图像 素材 分组包 括的第 一图像 素材 分组 ,根据所述 第 一图像 素材分 组对应 的第 二内容 特征集 合 ,获取所述 第一 图像素 材分 组 的剪 辑策 略 ;所述第 一图像 素材分 组的剪 辑策 略用于 指示针 对所述 第一 图 像素 材分 组包括 的每个 图像素 材执行 的目标 剪辑操 作方 式。
8、 根据权利 要求 1至 7任一 项所述 的方法 ,其特征在于 ,所述特征分 析包 括 : 显著 性特 征分析 、 图像场景 特征分 析、 人脸特 征分析 、 图像主题特 征 分析 、 图像情绪特 征分 析中的 一种或 多种。
9、 根据权利 要求 1至 7任_ 项 所述的 方法 ,其特征 在于 ,所述至少_ 个特 定维度 包括 : 图像 场景 维度、 图像主题维度 、 图像情绪 维度、 图像人物关系 维度 、 图像 显著性 特征 维度、 图像属性维度 中的一 个或多 个。
10、 _种图像 处理装 置 ,其特征在 于 ,包括: 获取 模块 ,用于 获取至 少一个 图像素 材 ; 特 征分析 模块 ,用于对 所述 至少一 个图像 素材 进行特 征分析 ,获取内 容特 征集 合 ;其中 ,所述内容特征 集合 中包含 至少 一个维度 的内 容特征 , 所述 内容 特征用 于表示 所述 图像素材 在对应 维度所 要表 达的内 容 ; 剪 辑策略 确定模 块 ,用于根 据所述 内容 特征集 合 ,获取所述 至少 一个 图像 素材 的剪辑 策略 ;所述 剪辑策 略包括 一个 或多个 剪辑操 作类型 分别对 应的 目标剪 辑操作 方式 ; 合 成模块 ,用于 按照所 述 目标剪辑 操作方 式 ,将所述 至少 一个图 像素 材剪 辑成 多媒体 资源。
11、 一种电子设备 ,其特 征在 于 ,包括:存储器 、 处理器以及 计算机 程序 ; 所述 存储 器被配 置为存 储所述 计算机 程序 ; 所述 处理 器被配 置为执 行所述 计算机 程序 ,以实现 如权利 要求 1 至 9 任 一项所述 的图像 处理 方法。
12、 一种可读存储 介质 ,其特征在于 ,包括: 计算机程序 ; 所 述计算 机程序 被电 子设备 的至少 一个处 理器执 行时 ,以实现如权 利 要求 1至 9任_ 项所述 的图像 处理方 法。
13、 一种程序产品 ,其特征在于 ,所述程序产品包 括计算 机程序 ,所述 计算 机程序存 储在可读 存储介质 中 ,电子设备的至少一个处理器 从所述 可读存 储介质 中读取 所述计算 机程序 ,所述至少一个 处理器执 行所述 计算机程 序使得 所述 电子设备 实现如权 利要求 1至 9任一项所 述的图 像处理 方法。
PCT/SG2022/050286 2021-06-30 2022-05-09 图像处理方法、装置及可读存储介质 WO2023277790A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/570,533 US20240290016A1 (en) 2021-06-30 2022-05-09 Image processing method, apparatus, and readable storage medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110738116.5A CN115546855A (zh) 2021-06-30 2021-06-30 图像处理方法、装置及可读存储介质
CN202110738116.5 2021-06-30

Publications (1)

Publication Number Publication Date
WO2023277790A1 true WO2023277790A1 (zh) 2023-01-05

Family

ID=84689980

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/SG2022/050286 WO2023277790A1 (zh) 2021-06-30 2022-05-09 图像处理方法、装置及可读存储介质

Country Status (3)

Country Link
US (1) US20240290016A1 (zh)
CN (1) CN115546855A (zh)
WO (1) WO2023277790A1 (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109819179A (zh) * 2019-03-21 2019-05-28 腾讯科技(深圳)有限公司 一种视频剪辑方法和装置
CN111866404A (zh) * 2019-04-25 2020-10-30 华为技术有限公司 一种视频编辑方法及电子设备
CN112689200A (zh) * 2020-12-15 2021-04-20 万兴科技集团股份有限公司 视频编辑方法、电子设备及存储介质
CN112988671A (zh) * 2019-12-13 2021-06-18 北京字节跳动网络技术有限公司 媒体文件处理方法、装置、可读介质及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109819179A (zh) * 2019-03-21 2019-05-28 腾讯科技(深圳)有限公司 一种视频剪辑方法和装置
CN111866404A (zh) * 2019-04-25 2020-10-30 华为技术有限公司 一种视频编辑方法及电子设备
CN112988671A (zh) * 2019-12-13 2021-06-18 北京字节跳动网络技术有限公司 媒体文件处理方法、装置、可读介质及电子设备
CN112689200A (zh) * 2020-12-15 2021-04-20 万兴科技集团股份有限公司 视频编辑方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN115546855A (zh) 2022-12-30
US20240290016A1 (en) 2024-08-29

Similar Documents

Publication Publication Date Title
US11488355B2 (en) Virtual world generation engine
US9570107B2 (en) System and method for semi-automatic video editing
US9554111B2 (en) System and method for semi-automatic video editing
CN102930522B (zh) 一种实现图片拼接的装置和方法
AU2011265341B2 (en) Method, for an image slideshow
CN102930523B (zh) 图片处理系统和图片拼接实现方法
US8711228B2 (en) Collaborative image capture
JP4988011B2 (ja) 電子機器及び画像処理方法
CN109618222A (zh) 一种拼接视频生成方法、装置、终端设备及存储介质
US8943020B2 (en) Techniques for intelligent media show across multiple devices
WO2022037634A1 (zh) 一种图片处理方法、装置、设备及存储介质
CN104916298B (zh) 编解码方法、编解码装置、电子设备及有声图片生成方法
KR20140043359A (ko) 정보 처리 장치, 정보 처리 방법 및 컴퓨터 프로그램 제품
WO2022253349A1 (zh) 一种视频编辑方法、装置、设备及存储介质
US11581018B2 (en) Systems and methods for mixing different videos
CN105141974B (zh) 一种视频剪辑方法和装置
JP4940333B2 (ja) 電子機器及び動画像再生方法
US7610554B2 (en) Template-based multimedia capturing
JP2012004747A (ja) 電子機器および画像表示方法
JP5225330B2 (ja) 電子機器及び画像処理方法
WO2023277790A1 (zh) 图像处理方法、装置及可读存储介质
JP2008067334A (ja) 画像処理装置および方法、並びにプログラム
WO2023217122A1 (zh) 视频剪辑模板搜索方法、装置、电子设备及存储介质
TW202339511A (zh) 多資源編輯系統以及多資源編輯方法
Tretter et al. Multimedia Experience on Web-Connected CE Devices

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22833765

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18570533

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22833765

Country of ref document: EP

Kind code of ref document: A1