WO2023009057A1 - 音乐筛选方法、装置、设备、存储介质及程序产品 - Google Patents

音乐筛选方法、装置、设备、存储介质及程序产品 Download PDF

Info

Publication number
WO2023009057A1
WO2023009057A1 PCT/SG2022/050298 SG2022050298W WO2023009057A1 WO 2023009057 A1 WO2023009057 A1 WO 2023009057A1 SG 2022050298 W SG2022050298 W SG 2022050298W WO 2023009057 A1 WO2023009057 A1 WO 2023009057A1
Authority
WO
WIPO (PCT)
Prior art keywords
music
image
emotion
style
score
Prior art date
Application number
PCT/SG2022/050298
Other languages
English (en)
French (fr)
Inventor
刘鼎
靳潇杰
王妍
宫伟博
Original Assignee
脸萌有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 脸萌有限公司 filed Critical 脸萌有限公司
Publication of WO2023009057A1 publication Critical patent/WO2023009057A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams

Definitions

  • the present application relates to the field of terminal technologies, and in particular to a music screening method, device, equipment, storage medium and program product.
  • BACKGROUND OF THE INVENTION At present, when playing at least one image, at least one image can be configured with music matched with the image, so that the music can be played during the sequential display of at least one image.
  • the user usually selects the target music that the user thinks matches with the image from at least one music to be selected according to preferences, and sets the target music as the music that matches the image.
  • the user usually selects the target music that he thinks is matched with the image from at least one candidate music according to his preference, which usually makes the matching degree of the target music and at least one image low.
  • Embodiments of the present application provide a music screening method, device, device, storage medium, and program product, which are used to improve the matching degree between target music and at least one image.
  • the embodiment of the present application provides a music screening method, including: acquiring at least one image and at least one candidate music; Analysis results, N is an integer greater than or equal to 1; According to at least one image and at least one music to be selected, determine the attribute information of each music to be selected; According to the analysis results and the attribute information of each music to be selected, in at least one Target music matching at least one image is determined among the music to be selected.
  • determining the target music matching at least one image in at least one candidate music includes: according to the analysis result and each candidate music determining the target score of at least one music to be selected; sorting the at least one music to be selected according to the order of the target scores of the at least one music to be selected to obtain a music sequence; The number of candidate music is determined as target music matching at least one image.
  • determining the target score of at least one candidate music includes: for each candidate music, according to the analysis result and the attribute information of the candidate music , determine the first score of each image classification label corresponding to the music to be selected; obtain the weights corresponding to each of the N image classification labels; The weight and the initial score of the music to be selected determine the target score of the music to be selected, and the initial score of the music to be selected is included in the attribute information of the music to be selected.
  • the N image classification tags include at least one of the following: image emotion, image style, or image theme; the attribute information also includes M music classification tags of the music to be selected, where M is greater than or equal to 1 Integer; M music classification labels include at least one of the following: music style, music emotion, or music scene.
  • the analysis result is an emotion analysis result of at least one image corresponding to image emotion
  • the emotion analysis result includes at least one first image emotion and a confidence degree of at least one first image emotion
  • the attribute information includes candidate music
  • the music emotion includes at least one first music emotion
  • determining the first score of the image emotion corresponding to the music to be selected includes: according to at least one first image emotion, at least one first image emotion Confidence and at least one first music emotion, determining the score of at least one first music emotion corresponding to the image emotion; combining the sum of the scores of the at least one first music emotion corresponding to the image emotion, and the total number of emotions of the at least one first music emotion The ratio between is determined as the first score of the image emotion corresponding to the music to be selected.
  • determining the score corresponding to the image emotion of at least one first music emotion includes: Step 1 : Obtain the first first music emotion in at least one first music emotion; Step 2: Obtain the jth first image emotion in at least one first image emotion; Step 3: In the pre-stored related list, find The j-th correlation value corresponding to the 1st first music emotion and the j-th first image emotion; The related list includes a plurality of correlation values corresponding to the first music emotion and the first image emotion; Step 4: the j-th The product of the correlation value and the confidence degree of the jth first image emotion, and the sum of the j-1th score of the j-1th first image emotion corresponding to the 1st first music emotion, is determined as the 1st A music emotion corresponds to the j-th rating of the j-th first image emotion; add 1 to J, and repeat steps 2, 3, and 4 until
  • the analysis result is a style analysis result of at least one image corresponding to the image style, and the style analysis result includes at least one first image style;
  • the attribute information includes the music emotion and music style of the music to be selected, and the music
  • the music style includes at least one first music style, and the music emotion includes at least one first music emotion; according to the style analysis result, music emotion and music style, determine the first score of the image style corresponding to the music to be selected, including: At least one first image genre, at least one first music genre, and a pre-stored first preset list, determining a third score of the music genre corresponding to the image style;
  • the first preset list includes a plurality of first image styles and The first music genre corresponding to each first image style; according to at least one first image style, at least one first music emotion,
  • determining a third score of the music style corresponding to the image style includes: For each first image style, search for the first music genre corresponding to the first image style in the first preset list; if there is a first music corresponding to the found first image style in at least one first music style Genre, then obtain the score of the first music genre corresponding to the found first image style; determine the sum of the scores of the first music genre corresponding to the found first image style as the music genre corresponding to the first Scoring of the image style; determining the maximum score among the scores of the music genre corresponding to each first image style as the third score of the music genre corresponding to the image style.
  • the analysis result is a theme analysis result of at least one image corresponding to an image theme
  • the theme analysis result includes at least one first image theme
  • the attribute information includes the music scene, music emotion and music composition of the music to be selected Wind
  • the music scene includes at least one first music scene
  • the music emotion includes at least one first music emotion
  • the music style includes at least one first music style
  • determining the first score of the image subject corresponding to the music to be selected including: determining the fifth score of the image theme corresponding to the music scene according to at least one first image theme, at least one first music scene and a pre-stored third preset list
  • the third preset list includes a plurality of first image themes and a first music scene corresponding to each first image style; according to at least one first image theme, at least one first music emotion and a pre-stored fourth preset list, determining the sixth score of the music emotion corresponding to the image theme; the fourth preset list includes
  • the target score of the music to be selected is determined, including: For each image classification labels, determine the product of the first score corresponding to the image classification labels of the music to be selected and the weight corresponding to the image classification labels, and obtain the first product corresponding to the image classification labels; the first product corresponding to the N image classification labels and the product to be The sum of the initial scores of the selected music is determined as the target score of the music to be selected.
  • determining the analysis result of at least one image corresponding to the image classification labels includes: according to the preset N image classification labels, passing through the N images respectively An image analysis model corresponding to each of the classification labels, analyzing and processing at least one image, and obtaining an analysis result of at least one image corresponding to the image classification label; the image analysis model corresponding to each of the N image classification labels is The corresponding multiple sample images are trained.
  • determining attribute information of each candidate music includes: using a pre-trained music matching model, separately performing at least one image and each candidate music The music is selected for processing to obtain the attribute information of each music to be selected.
  • the music matching model is obtained by using multiple sample images and multiple sample music for training.
  • acquiring at least one image includes: acquiring at least one frame of image from at least one video to be processed, and determining at least one frame of image as at least one image; or, obtaining at least one frame of image from at least one video to be processed At least one frame of image is acquired from the video, and the at least one frame of image and the pre-stored image are determined as at least one image.
  • an embodiment of the present application provides a music screening device, including: including: an acquisition module, a first determination module, a second determination module, and a third determination module; wherein, the acquisition module is configured to acquire at least one image and At least one music to be selected; the first determination module is used to determine the analysis result of at least one image corresponding to the image classification label according to the preset N image classification labels, and N is an integer greater than or equal to 1; the second determination module , for at least one image based on and at least one music candidate, determining attribute information of each music candidate; a third determining module, configured to determine at least one image in at least one music candidate according to the analysis result and the attribute information of each music candidate Matching target music.
  • the third determination module is specifically configured to: determine the target score of at least one candidate music according to the analysis result and the attribute information of each candidate music; according to the size of the target score of at least one candidate music Sequencing, sorting at least one candidate music to obtain a music sequence; determining a preset number of candidate music arranged in front of the music sequence as target music matching at least one image.
  • the third determination module is specifically configured to: for each candidate music, according to the analysis result and the attribute information of the candidate music, determine the first score of the candidate music corresponding to each image classification label; obtain The respective weights of N image classification labels; According to the first score corresponding to each image classification label of the music to be selected, the weights corresponding to each of the N image classification labels and the initial score of the music to be selected, determine the target score of the music to be selected, The initial score of the music to be selected is included in the attribute information of the music to be selected.
  • the N image classification tags include at least one of the following: image emotion, image style, or image theme; the attribute information also includes M music classification tags of the music to be selected, where M is greater than or equal to 1 Integer; M music classification labels include at least one of the following: music style, music emotion, or music scene.
  • the analysis result is an emotion analysis result of at least one image corresponding to image emotion, and the emotion analysis result includes at least one first image emotion and a confidence degree of at least one first image emotion;
  • the attribute information includes candidate music music emotion, the music emotion includes at least one first music emotion;
  • the third determination module is specifically configured to: determine at least one The score of the image emotion corresponding to the first music emotion; the ratio between the sum of the score of at least one first music emotion corresponding to the image emotion and the total number of emotions of at least one first music emotion is determined as the value of the image emotion corresponding to the music to be selected First rating.
  • the third determination module is specifically configured to: Step 1: Obtain the first first music emotion in at least one first music emotion; Step 2: Obtain the jth in at least one first image emotion a first image emotion; Step 3: In the pre-stored related list, find the jth correlation value corresponding to the first first music emotion and the jth first image emotion; the related list includes multiple first music Correlation value corresponding to emotion and the first image emotion; Step 4: The product of the jth correlation value and the confidence degree of the jth first image emotion corresponds to the j-1th first music emotion of the 1st The sum of the j-1th score of image emotion is determined as the jth score of the first music emotion corresponding to the jth first image emotion; add 1 to J, and repeat step 2, step 3, and step 4 , until ' is equal to Y, get the Yth score of the first music emotion corresponding to the Yth first image emotion; the ratio of the Yth score to the sum of the confidence of at least one first
  • the analysis result is a style analysis result of at least one image corresponding to the image style, and the style analysis result includes at least one first image style;
  • the attribute information includes the music emotion and music style of the music to be selected, and the music
  • the genre includes at least one first music genre, and the music emotion includes at least one first music emotion;
  • the third determination module is specifically configured to: determine a third score of the image style corresponding to the music genre according to at least one first image style, at least one first music genre, and a pre-stored first preset list; the first preset list including a plurality of first image styles and a first music genre corresponding to each first image style; determining the music emotion according to at least one first image style, at least one first music emotion, and a pre-stored second preset list
  • the third determination module is specifically configured to: for each first image style, search the first preset list for the first music genre corresponding to the first image style; if at least one first music style If there is a first music genre corresponding to the found first image style in the genre, then obtain the score of the first music genre corresponding to the found first image style; The sum of the scores of the music style is determined as the score of the music style corresponding to the first image style; the maximum score among the scores of the music style corresponding to each first image style is determined as the third score of the music style corresponding to the image style score.
  • the analysis result is a theme analysis result of at least one image corresponding to an image theme, and the theme analysis result includes at least one first image theme;
  • the attribute information includes the music scene, music emotion and music composition of the music to be selected wind, the music scene includes at least one first music scene, the music emotion includes at least one first music emotion, and the music style includes at least one first music style;
  • the third determining module is specifically used for: according to at least one first The image theme, at least one first music scene and a pre-stored third preset list, determine the fifth score of the music scene corresponding to the image theme;
  • the third preset list includes multiple first image themes and each first image style the corresponding first music scene; according to at least one first image theme, at least one first music emotion and a pre-stored fourth preset list, determine the sixth score of the music emotion corresponding to the image theme;
  • the fourth preset list includes multiple a first image theme and a first music emotion corresponding to each first image style; according to at least one first image theme, at least one first music
  • the third determination module is specifically configured to: for each image classification label, determine the product of the first score of the image classification label corresponding to the music to be selected and the weight corresponding to the image classification label, and obtain the corresponding image classification label The first product of the first product; The sum of the first product corresponding to the N image classification labels and the initial score of the music to be selected is determined as the target score of the music to be selected.
  • the first determining module is specifically configured to: analyze and process at least one image according to the preset N image classification labels, respectively through image analysis models corresponding to the N image classification labels, An analysis result of at least one image corresponding to the image classification label is obtained; the image analysis model corresponding to each of the N image classification labels is obtained by training a plurality of sample images corresponding to each of the N image classification labels.
  • the second determining module is specifically configured to: respectively process at least one image and each candidate music through a pre-trained music matching model to obtain attribute information of each candidate music, music The matching model is obtained by training with multiple sample images and multiple sample music.
  • the obtaining module is specifically configured to include: obtaining at least one frame of image from at least one video to be processed, and determining at least one frame of image as at least one image; or, obtaining at least one frame of image from at least one video to be processed At least one frame of image is acquired from the video, and the at least one frame of image and the pre-stored image are determined as at least one image.
  • a terminal device including: a processor and a memory; The memory stores computer-executable instructions; the processor executes the computer-executable instructions stored in the memory, so that the processor executes the music screening method in any one of the above-mentioned first aspects.
  • the embodiment of the present application provides a computer-readable storage medium, in which computer-executable instructions are stored, and when the computer-executable instructions are executed by a processor, the music screening in any one of the above-mentioned first aspects is realized method.
  • an embodiment of the present application provides a computer program product, including a computer program, and when the computer program is executed by a processor, the music screening method in any one of the above-mentioned first aspects is implemented.
  • an embodiment of the present application provides a computer program, which implements the music screening method in any one of the above-mentioned first aspects when the computer program is executed by a processor.
  • An embodiment of the present application provides a music screening method, device, device, storage medium, and program product, the method including: acquiring at least one image and at least one candidate music; determining at least An image corresponds to the analysis result of the image classification label, N is an integer greater than or equal to 1; according to at least one image and at least one candidate music, determine the attribute information of each candidate music; according to the analysis result and each candidate music The attribute information of the music is to determine the target music matching the at least one image in the at least one candidate music.
  • the matching degree between the target music and at least one image can be improved, and the user can choose between multiple When the target music is selected in the music, the matching degree between the selected target music and the group of images is low.
  • FIG. 1 is the application scenario diagram of the music screening method provided by the embodiment of the application
  • Fig. 2 is the flow chart of the music screening method provided by the embodiment of the application
  • Fig. 3 is the flow chart of determining the target score provided by the embodiment of the application
  • Fig. 4 is a flow chart of determining the first score of the image emotion corresponding to the music to be selected provided by the embodiment of the application
  • FIG. 5 is a flow chart of determining the first score of the image style corresponding to the music to be selected provided by the embodiment of the application
  • FIG. 6 is The flow chart of determining the first score of the image subject corresponding to the music to be selected provided by the embodiment of the present application
  • FIG. 7 is the flow chart of determining the relevant list provided by the embodiment of the present application
  • FIG. 8 is the flow chart of the music screening method provided by the embodiment of the present application Flow chart;
  • FIG. 9 is a schematic structural diagram of a music screening device provided in an embodiment of the present application;
  • FIG. 10 is a schematic diagram of hardware of a terminal device provided in an embodiment of the present application.
  • FIG. 1 is an application scene diagram of the music screening method provided by the embodiment of the present application. As shown in FIG. 1, it includes: at least one image and at least one music to be selected. Exemplarily, at least one image includes 5 images, and at least one candidate music includes W pieces of music, where W is an integer greater than or equal to 1.
  • the user selects the target music that he thinks matches with a group of images from at least one candidate music according to his preference, which usually makes the matching degree of the target music and the group of images low.
  • Fig. 2 is a flow chart of the music screening method provided by the embodiment of the present application. As shown in Figure 2, the method includes:
  • the executor of this embodiment of the present application may be a terminal device, or may be a music screening apparatus set in the terminal device.
  • the terminal device may be, for example, a smart phone, a tablet computer, a desktop computer, and the like.
  • the music screening device can be realized by a combination of software and/or hardware.
  • Software includes but is not limited to short video playback applications installed in terminal devices. In a possible design, at least one frame of image is acquired from at least one video to be processed; and the at least one frame of image is determined as at least one image. At least one video to be processed is a video pre-stored in the terminal device.
  • the above at least one image frame may include all image frames in at least one video to be processed, or may include a part of image frames in at least one video to be processed.
  • at least one frame of image may be obtained by performing frame skipping and filtering on at least one video to be processed according to a preset number of frames.
  • at least one video to be processed includes image frame 1, image frame 2, image frame 3, image frame 4, and image frame 5, if the preset number of frames is 1, then at least one frame of image includes image frame 1. Image frame 3, Image frame 5.
  • the video to be processed before acquiring at least one frame of image from at least one video to be processed, it may also include: judging whether the size of at least one video to be processed is greater than a preset threshold; if so, according to the preset number of frames, at least one The video to be processed is subjected to frame skipping and screening processing to obtain at least one frame of image.
  • at least one frame of image is acquired from at least one video to be processed; and the at least one frame of image and the image pre-stored in the terminal device are determined as at least one image.
  • the image to be processed that is pre-stored in the terminal device is determined as at least one image.
  • At least one piece of music to be selected may be pre-cached in the terminal device, or may be pre-stored in a server corresponding to the short video playing application in the terminal device. If at least one music to be selected is stored in the server, when the terminal When the device needs to acquire at least one piece of music to be selected, it may send a request message to the server, so that the server sends at least one piece of music to be selected to the terminal device. In practice, the server or the terminal device may also update at least one piece of music to be selected.
  • the terminal device caches at least one candidate music and updates the at least one candidate music, record the most recently played music of the terminal device, and add the most recently played music to the at least one candidate music; or , receiving update information sent by the server, the update information includes at least one piece of music, and after receiving the at least one piece of music, the terminal device adds the at least one piece of music to the at least one piece of music to be selected.
  • N is an integer greater than or equal to 1.
  • the N image classification labels include any at least one of image emotion, image style, or image theme. When N is equal to 3, the 3 image classification labels are image emotion, image style, and image theme.
  • Each image classification label corresponds to an analysis result.
  • the analysis result corresponding to image emotion is an emotion analysis result
  • the analysis result corresponding to image style is a style analysis result
  • the analysis result corresponding to an image theme is a topic analysis result.
  • the image analysis models corresponding to the N image classification labels are respectively used to analyze and process at least one image to obtain at least one image corresponding to the image classification The analysis result of the label.
  • the image analysis model corresponding to each of the N image classification labels is obtained by training a plurality of sample images corresponding to each of the N image classification labels.
  • the multiple sample images corresponding to each of the N image classification labels may be the same or different.
  • the image analysis model corresponding to image emotion is an emotion analysis model
  • the image analysis model corresponding to image style is a style analysis model
  • the image analysis model corresponding to image theme The analysis model is a topic analysis model.
  • at least one image is analyzed and processed by the sentiment analysis model to obtain a sentiment analysis result
  • the at least one image is analyzed and processed by the style analysis model to obtain the style analysis result
  • the at least one image is analyzed by the topic analysis model Processing to get the topic analysis results.
  • the above image analysis models corresponding to the N image classification labels may be obtained by training the same first initial model or different first initial models using a plurality of sample images corresponding to the N image classification labels.
  • the first initial model may be a neural network, or other machine learning models, which will not be detailed here.
  • the same first initial model means that the structures of the first initial models are the same, and the different first initial models mean that the structures of the first initial models are different.
  • at least one image is analyzed and processed through a pre-trained image analysis model according to the preset N image classification labels, and an analysis of at least one image corresponding to the image classification label is obtained result.
  • the pre-trained image analysis model is obtained by using multiple sample images to train the second initial model.
  • the second initial model may also be a neural network, or other machine learning models, which will not be detailed here.
  • the second initial model is different from the first initial model.
  • the sentiment analysis result may include at least one first image sentiment.
  • the sentiment analysis result may also include at least one confidence level of the sentiment of the first image.
  • the at least one first image emotion includes: image emotion 1, image emotion 2, image emotion 3, and so on.
  • the style analysis result may include at least one first image style.
  • at least one first image style includes: image style 1, image style 2, image style 3, image style 4, and so on.
  • the theme analysis result may include at least one first image theme.
  • at least one first image theme includes: image theme 1, image theme 2, and so on.
  • the music matching model is obtained by training the third initial model by using multiple sample images and multiple sample music.
  • the third initial model may be a neural network, or other machine learning models, which will not be detailed here.
  • the attribute information includes the initial score of each candidate music.
  • the attribute information may also include M music classification tags of the music to be selected. M is an integer greater than or equal to 1.
  • the M music classification labels include any at least one of music genre, music emotion, or music scene.
  • the music genre may include at least one first music genre.
  • at least one first music style includes: music style 1, music style 2, etc.
  • At least one first musical emotion may be included in the musical emotion.
  • at least one first music emotion includes: music emotion 1, music emotion 2, music emotion 3, etc.
  • at least one first music scene includes: music scene 1, music scene 2, etc.
  • at least one image and at least one candidate music may be processed through a preset online soundtrack algorithm to obtain attribute information of each candidate music.
  • the online soundtrack algorithm refer to related technologies and will not repeat them here.
  • M music classification labels of the music to be selected are obtained; through the preset trained model, the M music classification labels of the music to be selected Process with at least one image to obtain attribute information of the music to be selected.
  • the M music classification labels of the music to be selected are classification labels pre-stored in the terminal device.
  • each candidate music determines the target music matching the at least one image in the at least one candidate music.
  • determine the target score of at least one candidate music Sorting is performed to obtain a music sequence; and a preset number of music candidates arranged in front of the music sequence are determined as target music matching at least one image.
  • the preset number can be 1, 2, 3, etc., and the preset number is not limited here.
  • At least one candidate music includes music 1, music 2, and music 3, if the target score of music 1 is 20, the target score of music 2 is 10, and the target score of music 3 is 50, then the music sequence is [ Music 3, Music 1, Music 2]. Further, when the preset number is 1, music 3 is determined as the target music.
  • the attribute information includes the initial score of the music to be selected.
  • At least one candidate music is sorted to obtain an initial sequence.
  • at least one candidate music includes music 1, music 2, and music 3. If the initial score of music 1 is 15, the initial score of music 2 is 20, and the initial score of music 3 is 25, the initial sequence is determined as [Music 3, Music 2, Music 1]. If the target score of music 1 is 20, the target score of music 2 is 10, and the target score of music 3 is 50, then the initial sequence [music 3, music 2, music 1] is adjusted, and the obtained music sequence is [music 3 , Music 1, Music 2]. Further, if the music sequence is [music 3, music 2, music 1], then when the preset number is 1, music 3 is determined as the target music. In the music screening method provided in the embodiment of FIG.
  • the analysis result of at least one image corresponding to the image classification label is determined, and according to at least one image and at least one candidate music, each The attribute information of each candidate music, referring to the analysis results and the attribute information of each candidate music, determines the target music matching at least one image, which can improve the matching degree of the target music and at least one image, and solve the problem of user preference
  • the target music is selected from the at least one candidate music, the matching degree between the target music and the at least one image is low.
  • the user when the user selects target music from at least one candidate music according to preferences, the user needs to listen to multiple candidate music, which makes the user's operation of selecting the target music complicated, making the efficiency of determining the target music low.
  • the terminal device can execute the music screening method by itself to determine the target music, without the need for the user to listen to multiple candidate music, which simplifies the user operation and improves the efficiency of determining the target music. Further, in this application, since the efficiency of determining the target music and the matching degree between the target music and at least one image are improved, user experience can be improved.
  • the method for determining the target score of at least one music to be selected according to the analysis result and the initial score of at least one music to be selected will be described below. Specifically, please refer to FIG. 3 .
  • FIG. 3 is a flow chart of determining a target score provided by an embodiment of the present application. As shown in Figure 3, the method includes:
  • the attribute information may include music scene, music emotion and/or music style.
  • the attribute information includes music emotion
  • the attribute information includes music emotion
  • the first score Scorel
  • the method for determining the first score of the emotion of the image corresponding to the music to be selected please refer to the embodiment in FIG. 4 , which will not be repeated here.
  • the attribute information may include music scene, music emotion and/or music style.
  • the attribute information includes music emotion and music style
  • for each candidate music, according to the style analysis result, music emotion and music style determine the first score (Score2) corresponding to the image style of the candidate music.
  • Score2 the first score
  • the attribute information may include music scene, music emotion and/or music style.
  • the attribute information includes music scene, music emotion and music style
  • the theme analysis result music scene, music emotion and music style
  • One rating S CO re3
  • the method for determining the first score of the image subject corresponding to the music to be selected please refer to the embodiment in FIG. 6 , which will not be repeated here.
  • the N weights are pre-stored in the terminal device or in the aforementioned server.
  • the N image classification labels include image emotion, image style and image theme
  • the weight corresponding to image emotion is W1
  • the weight corresponding to image style is W2
  • the weight corresponding to image theme is W3.
  • the first score (example, Scorel, Score2, Score3) corresponding to the image classification label of the music to be selected and the weight corresponding to the image classification label (example, Correspondingly, the product of W1, W2, W3) to obtain the first product corresponding to the image classification label; the sum of the first product corresponding to the N image classification labels and the initial score of the music to be selected is determined as the target score of the music to be selected .
  • Scorel, Score2 and/or Score3 in the formula can be equal to 0.
  • the target score of the music to be selected is determined according to the first score corresponding to each image classification label of the music to be selected, the weights corresponding to each of the N image classification labels, and the initial score of the music to be selected, that is, after determining In the process of scoring the target, a plurality of first scores corresponding to image classification labels are referred to, thereby improving the accuracy of determining the target score.
  • Fig. 4 is a flow chart of determining the first score of the image emotion corresponding to the music to be selected provided by the embodiment of the present application. As shown in Figure 4, the method includes:
  • the sentiment analysis result includes at least one first image emotion and the confidence level of at least one first image emotion
  • the music emotion includes at least one first music emotion
  • j is equal to 1.
  • S404 In the pre-stored correlation list, search for a jth correlation value corresponding to the first first music emotion and the jth first image emotion.
  • the correlation list includes a plurality of correlation values corresponding to the first music emotion and the first image emotion.
  • the related list has the format of the following table 1. Table 1 Exemplarily, the 1st first music emotion is music emotion 1, and the j-th first image emotion is image emotion 2, then the j-th correlation between the i-th first music emotion and the j-th first image emotion The value is 0.2.
  • the sum of correlation values corresponding to the first music emotion and at least one first image emotion is equal to 1.
  • the first music emotion has a corresponding music emotion identifier
  • the first image emotion has a corresponding image emotion identifier
  • the music emotion of the first first music emotion in at least one first music emotion can be acquired identification; acquiring the image emotion ID of the jth first image emotion in the at least one first image emotion; in the pre-stored correlation list, searching for the th correlation value corresponding to the music emotion ID and the image emotion ID.
  • the correlation list includes correlation values corresponding to a plurality of music emotion identifiers and image emotion identifiers.
  • the relevant list is similar to the above Table 1, and will not be repeated here.
  • the technical solution provided by the present application may further include: determining a related list. For a detailed description of determining the related list, please refer to the embodiment in FIG. 7 .
  • Y is the total number of emotions of at least one first image emotion.
  • X is the total number of emotions for at least one first musical emotion.
  • Fig. 5 is a flow chart of determining the first score of the image style corresponding to the music to be selected according to the embodiment of the present application. As shown in Figure 5, the method includes:
  • the preset list determines the third score of the image style corresponding to the music style.
  • the first preset list includes a plurality of first image styles and a first music genre corresponding to each first image style.
  • the first preset list has the format shown in Table 2 below. Table 2 In the first preset list, the number of the first music style corresponding to the first image style may be multiple, may be 1, or may be 0. "NULL" indicates that there is no first music genre at this position.
  • Each first music genre in the first preset list has a corresponding score
  • the scores corresponding to the first music genres in multiple columns decrease in turn (Indicating that the degree of matching between the first image style and the first music genre decreases in turn).
  • the first image style is image style 3
  • the music genre 1 in the first column corresponds to a higher score
  • the music genre 5 in the second column corresponds to a lower score.
  • NULL corresponds to a score of 0.
  • the first music genre corresponding to the first image style is searched in the first preset list; A first music style corresponding to an image style, then obtain the score of the first music style corresponding to the found first image style; sum the scores of the first music style corresponding to the found first image style, Determining as the score of the music genre corresponding to the first image style; determining the maximum score among the scores of the music genre corresponding to each first image style as the third score of the music genre corresponding to the image style.
  • the sum of the scores of the music genre corresponding to each first image style may also be determined as the third score of the music genre corresponding to the image style.
  • the first music genre corresponding to image style 2 includes music genre 4
  • music style 1 if at least one first music style includes music style 4, music style 1, music style 5, music style 2, then determine that at least one first music style includes image style 2 corresponding music style 4 and music style 1, so the score corresponding to music style 4 and the score corresponding to music style 1 can be obtained, and the sum of the score corresponding to music style 4 and the score corresponding to music style 1 , determined as the score of the music style corresponding to the image style 2; for the image style 3, it is found in the first preset list that the first music style corresponding to the image style 3 includes the music style 5, if at least one first music style If the genre includes music style 4, music style 1, music style 5, and music style 2, it is determined that at least one first music style includes music style 5 corresponding to image style 3, so the music style corresponding to music style 5 can be obtained.
  • the score corresponding to the music style 5 as the score corresponding to the music style image style 3;
  • the maximum score is determined as the third score of the music style corresponding to the image style.
  • the sum of the score corresponding to the image style 2 of the music genre and the score of the image style 3 corresponding to the music genre may also be determined as the third score of the image style corresponding to the music genre.
  • the second preset list includes a plurality of first image styles and a first music emotion corresponding to each first image style.
  • the second preset list has the format shown in Table 3 below. Table 3 In the second preset list, the number of the first music emotion corresponding to the first image style may be multiple, may be 1, or may be 0. "NULL" indicates that there is no first musical emotion at this position.
  • Each first music emotion in the second preset list has a corresponding score
  • the scores corresponding to the first music emotions in multiple columns decrease in turn (indicating the first The degree of matching between the first image style and the first music emotion decreases in turn).
  • the first image style is image style 4
  • the score corresponding to music genre 5 in the first column is higher
  • the score corresponding to NULL in the second column is 0.
  • Fig. 6 is a flow chart of determining the first score of the image subject corresponding to the music to be selected provided by the embodiment of the present application. As shown in Figure 6, the method includes:
  • the third preset list includes a plurality of first image themes and a first music scene corresponding to each first image theme.
  • the third preset list has the format shown in Table 4 below. Table 4 In the third preset list, the number of first music scenes corresponding to the first image theme may be multiple, may be 1, or may be 0. "NULL" indicates that there is no first music scene at this position.
  • Each first music scene in the third preset list has a corresponding score, and when there are multiple first music scenes corresponding to the first image theme, the scores corresponding to the first music scenes in multiple columns decrease in turn (indicating The degree of matching between the first image theme and the first music scene decreases in turn).
  • the first image theme is image theme 2
  • the music scene 3 in the first column has a higher score
  • the music scene 2 in the second column has a lower score.
  • the execution method of S601 is similar to the execution method of S501, and the execution process of S601 will not be repeated here.
  • the fourth preset list includes a plurality of first image themes and a first music emotion corresponding to each first image theme.
  • the fourth preset list has the format shown in Table 5 below. Table 5
  • the number of first music emotions corresponding to the first image theme may be multiple, may be 1, or may be 0. "NULL" indicates that there is no first musical emotion at this position.
  • Each first music emotion in the fourth preset list has a corresponding score, and when there are multiple first music emotions corresponding to the first image theme, the scores corresponding to the first music emotions in multiple columns decrease in turn (indicating The degree of matching between the first image theme and the first music emotion decreases in turn).
  • the first image theme is image theme 2
  • the score corresponding to music style 3 in the first column is higher
  • the score corresponding to music emotion 2 in the second column is smaller.
  • the execution method of S602 is similar to the execution method of S501, and the execution process of S602 will not be repeated here. S603.
  • At least one first image theme included in the theme analysis result at least one first music style included in the music style, and a pre-stored fifth preset list, determine the seventh image theme corresponding to the music style. score.
  • the fifth preset list includes a plurality of first image themes and a first music genre corresponding to each first image theme.
  • the fifth preset list has the format shown in Table 6 below. Table 6 In the fifth preset list, the number of first music genres corresponding to the first image theme may be multiple, may be 1, or may be 0. "NULL" indicates that there is no first music genre at this position. Each first music genre in the fifth preset list has a corresponding score.
  • the scores corresponding to the first music genres in multiple columns are sequentially Decrease (indicates that the degree of matching between the first image theme and the first music genre decreases in turn).
  • the first image theme is image theme 1
  • the score corresponding to music genre 1 in the first column is higher
  • the score corresponding to NULL in the second column is 0.
  • S604. Determine the sum of the fifth score, the sixth score and the seventh score as the first score of the image theme corresponding to the music to be selected.
  • the method for determining the related list will be described below with reference to FIG. Fig. 7 is a flow chart of determining a related list provided by the embodiment of the present application. As shown in Figure 7, the method includes:
  • Acquire pre-stored video history data where the video history data includes multiple history records, and each history record includes the first image emotion and the first music emotion.
  • the first image emotion is the emotion of at least one historical image.
  • the first music emotion is the emotion of the soundtrack of at least one historical image.
  • n-th first music emotion among the V first music emotions and the m-th first image emotion among the U first image emotions set the n-th first music emotion and the m-th first image The number of the first record corresponding to emotion is equal to 0. Initially, both n and m are equal to 1.
  • Fig. 8 is a flow chart of the music screening method provided by the embodiment of the present application. As shown in Figure 8, it includes: an image analysis model and a music matching model corresponding to each of the N image classification labels.
  • the image analysis models corresponding to the N image classification labels include: the image analysis model corresponding to the image classification label 1, the image analysis model corresponding to the image classification label 2, and the image analysis model corresponding to the image classification label N.
  • the image analysis model corresponding to each of the N image classification labels respectively analyzes and processes at least one image, and obtains an analysis result corresponding to the image classification label of at least one image. For example, analyze and process at least one image through the image analysis model corresponding to image classification label 1, and obtain the analysis result 1 corresponding to the image classification label of at least one image; Perform analysis and processing to obtain an analysis result 2 of at least one image corresponding to an image classification label.
  • the music matching model processes at least one image and at least one candidate music to obtain attribute information of each candidate music. Further, referring to the N analysis results and the attribute information of each candidate music, determine the target music matching at least one image.
  • FIG. 9 is a schematic structural diagram of a music screening device provided by an embodiment of the present application. As shown in FIG.
  • the music screening device 10 includes: an acquisition module 11, a first determination module 12, a second determination module 13 and a third determination module 14; wherein, the acquisition module 11 is used to acquire at least one image and at least one Music to be selected; the first determination module 12 is used to determine the analysis result of at least one image corresponding to the image classification label according to the preset N image classification labels, and N is an integer greater than or equal to 1; the second determination module 13 , for determining the attribute information of each candidate music according to at least one image and at least one candidate music; the third determining module 14 is used for determining the attribute information of each candidate music according to the analysis result and the attribute information of each candidate music in at least one candidate music A target music that matches at least one image is determined among the selected music.
  • the music screening device 10 provided in the embodiment of the present application can perform the music screening described above, and its implementation principles and beneficial effects are similar, and will not be repeated here.
  • the third determination module 14 is specifically configured to: determine the target score of at least one music to be selected according to the analysis result and the attribute information of each music to be selected; order of size, Sorting at least one candidate music to obtain a music sequence; determining a preset number of candidate music arranged in front of the music sequence as target music matching at least one image.
  • the third determining module 14 is specifically configured to: for each candidate music, according to the analysis result and the attribute information of the candidate music, determine the first score of the candidate music corresponding to each image classification label; Obtain the weights corresponding to each of the N image classification labels; determine the target score of the music to be selected according to the first score corresponding to each image classification label of the music to be selected, the weights corresponding to each of the N image classification labels, and the initial score of the music to be selected , the initial score of the music to be selected is included in the attribute information of the music to be selected.
  • the N image classification tags include at least one of the following: image emotion, image style, or image theme; the attribute information also includes M music classification tags of the music to be selected, where M is greater than or equal to 1 Integer; M music classification labels include at least one of the following: music style, music emotion, or music scene.
  • the analysis result is an emotion analysis result of at least one image corresponding to image emotion
  • the emotion analysis result includes at least one first image emotion and a confidence degree of at least one first image emotion
  • the attribute information includes candidate music
  • the music emotion includes at least one first music emotion
  • the third determination module 14 is specifically configured to: determine at least A first music emotion corresponds to the score of the image emotion; the ratio between the sum of the scores of at least one first music emotion corresponding to the image emotion and the total number of emotions of at least one first music emotion is determined as the image emotion corresponding to the music to be selected first rating of .
  • the third determination module 14 is specifically configured to: Step 1: Acquire the first first music emotion in at least one first music emotion; Step 2: Acquire the first music emotion in at least one first image emotion j first image emotions; Step 3: In the pre-stored related list, find the jth correlation value corresponding to the first first music emotion and the jth first image emotion; the related list includes multiple first The correlation value corresponding to the music emotion and the first image emotion; Step 4: The product of the jth correlation value and the confidence degree of the jth first image emotion corresponds to the first j-1th music emotion with the 1st first music emotion The sum of the j-1th score of an image emotion is determined as the jth score of the first music emotion corresponding to the jth first image emotion; add 1 to J, and repeat steps 2, 3, and 4, until ' is equal to Y, get the Yth score of the first first music emotion corresponding to the Yth first image emotion; the ratio of the Yth score to the sum of the confidence of
  • the analysis result is a style analysis result of at least one image corresponding to the image style, and the style analysis result includes at least one first image style;
  • the attribute information includes the music emotion and music style of the music to be selected, and the music
  • the genre includes at least one first music genre, and the music emotion includes at least one first music emotion;
  • the third determination module 14 is specifically configured to: the first preset list, and determine the third score of the music style corresponding to the image style;
  • the first preset list includes a plurality of first image styles and the first music style corresponding to each first image style; according to at least one The first image style, at least one first music emotion and a pre-stored second preset list, determine the fourth score of the music emotion corresponding to the image style;
  • second The preset list includes a plurality of first image styles and a
  • the third determination module 14 is specifically configured to: for each first image style, search the first preset list for the first music genre corresponding to the first image style; if at least one first image style If there is a first music genre corresponding to the found first image style in the music genre, then obtain the score of the first music genre corresponding to the found first image style; The sum of scores of a music genre is determined as the score of the music genre corresponding to the first image style; the maximum score among the scores of the music genre corresponding to each first image style is determined as the first Three ratings.
  • the analysis result is a theme analysis result of at least one image corresponding to an image theme, and the theme analysis result includes at least one first image theme;
  • the attribute information includes the music scene, music emotion and music composition of the music to be selected Wind
  • the music scene includes at least one first music scene
  • the music emotion includes at least one first music emotion
  • the music style includes at least one first music style;
  • the third determining module 14 is specifically used to: according to at least one first an image theme, at least one first music scene and a pre-stored third preset list, determining a fifth score of the music scene corresponding to the image theme;
  • the third preset list includes multiple first image themes and each first image The first music scene corresponding to the style; according to at least one first image theme, at least one first music emotion and a pre-stored fourth preset list, determine the sixth score of the music emotion corresponding to the image theme;
  • the fourth preset list includes a plurality of first image themes and first music emotions corresponding to each first image style; according to at least one first image
  • the third determination module 14 is specifically configured to: for each image classification label, determine the product of the first score of the image classification label corresponding to the music to be selected and the weight corresponding to the image classification label to obtain the image classification label Corresponding first product; determining the sum of the first product corresponding to the N image classification labels and the initial score of the music to be selected as the target score of the music to be selected.
  • the first determining module 11 is specifically configured to: analyze and process at least one image according to the preset N image classification labels, respectively through the image analysis models corresponding to the N image classification labels , to obtain an analysis result of at least one image corresponding to the image classification label; the image analysis model corresponding to each of the N image classification labels is obtained by training a plurality of sample images corresponding to each of the N image classification labels.
  • the second determination module 12 is specifically configured to: respectively process at least one image and each candidate music through a pre-trained music matching model to obtain attribute information of each candidate music, The music matching model is obtained by training with multiple sample images and multiple sample music.
  • FIG. 10 is a schematic hardware diagram of a terminal device provided by an embodiment of the present application.
  • the terminal device 20 may include: a transceiver 21, a memory 22, and a processor 23.
  • the transceiver 21 may include: a transmitter and/or a receiver.
  • a transmitter may also be referred to as a sender, a transmitter, a sending port, or a sending interface, and similar descriptions.
  • a receiver may also be referred to as a receiver, a receiver, a receiving port, or a receiving interface, and similar descriptions.
  • parts of the transceiver 21, memory 22, and processor 23 are connected to each other through a bus 24.
  • the memory 22 is used to store computer-executable instructions;
  • the processor 23 is used to execute the computer-executable instructions stored in the memory 22, so that the processor 23 executes the above music screening method.
  • An embodiment of the present application provides a computer-readable storage medium, in which computer-executable instructions are stored, and when the computer-executable instructions are executed by a processor, the music screening method in any one of the foregoing method embodiments is implemented.
  • An embodiment of the present application provides a computer program product, including a computer program. When the computer program is executed by a processor, the music screening method in any one of the above method embodiments is implemented.
  • An embodiment of the present application provides a computer program, and when the computer program is executed by a processor, the music screening method in any one of the foregoing method embodiments is implemented. All or part of the steps for implementing the above method embodiments can be completed by program instructions and related hardware.
  • the aforementioned program can be stored in a readable memory. When the program is executed, the steps including the above-mentioned method embodiments are executed; and the aforementioned memory (storage medium) includes: read-only memory (read-only memory, ROM), random access memory (random access memory, RAM), Flash memory, hard disk, solid state disk, magnetic tape, floppy disk, optical disc and any combination thereof.
  • Embodiments of the present application are described with reference to flowcharts and/or block diagrams of methods, devices (systems), and computer program products according to the embodiments of the present application. It should be understood that each procedure and/or block in the flowchart and/or block diagram, and a combination of procedures and/or blocks in the flowchart and/or block diagram can be realized by computer program instructions. These computer program instructions may be provided to a general purpose computer, special purpose computer, embedded processor, or processing unit of other programmable data processing equipment to produce a machine such that the instructions executed by the processing unit of the computer or other programmable data processing equipment produce a An apparatus for realizing the functions specified in one or more procedures of the flowchart and/or one or more blocks of the block diagram.
  • These computer program instructions may also be stored in a computer-readable memory capable of directing a computer or other programmable data processing apparatus to operate in a specific manner, such that the instructions stored in the computer-readable memory produce an article of manufacture comprising instruction means, the instructions The device realizes the function specified in one or more procedures of the flowchart and/or one or more blocks of the block diagram.
  • These computer program instructions can also be loaded onto a computer or other programmable data processing device, causing a series of operational steps to be performed on the computer or other programmable device to produce a computer-implemented process, whereby the The instructions provide steps for implementing the functions specified in the flow chart or blocks of the flowchart and/or the block or blocks of the block diagrams.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种音乐筛选方法、装置、设备、存储介质及程序产品,该方法包括:获取至少一张图像和至少一个待选音乐;根据预先设定的 N 个图像分类标签,确定至少一张图像对应图像分类标签的分析结果,N 为大于或等于 1 的整数;根据至少一张图像和至少一个待选音乐,确定每个待选音乐的属性信息;根据分析结果和每个待选音乐的属性信息,在至少一个待选音乐中确定与至少一张图像匹配的目标音乐。本申请实施例提供的音乐筛选方法、装置、设备、存储介质及程序产品能够用于提高目标音乐与至少一张图像的匹配度。

Description

音 乐筛 选方 法 、 装置、 设备、 存储介 质 及程 序产 品 本申请的交叉引用 本申请要求于 2021年 7月 26日提交的、 申请号为 202110843309.7、 名称为 “音乐筛选 方法、 装置、 设备、 存储介质及程序产品” 的中国专利申请的优先权, 其全部内容通过引用 并入本文。 技术领域 本申请涉及终端技术领域, 尤其涉及一种音乐筛选方法、 装置、 设备、 存储介质及程序 产品。 背景技术 目前, 在播放至少一张图像时, 可以为至少一张图像配置与图像搭配的音乐, 使得在依 次显示至少一张图像的过程中, 能够播放上述音乐。 在相关技术中, 用户通常根据喜好在至少一个待选音乐中, 选择用户自己认为与图像搭 配的目标音乐, 并将目标音乐设置为与图像搭配的音乐。 在上述相关技术中, 用户通常根据喜好在至少一个待选音乐中, 选择其认为与图像搭配 的目标音乐, 通常使得目标音乐与至少一张图像的匹配度较低。 发明内容 本申请实施例提供一种音乐筛选方法、 装置、 设备、 存储介质及程序产品, 用于提高目 标音乐与至少一张图像的匹配度。 第一方面, 本申请实施例提供一种音乐筛选方法, 包括: 获取至少一张图像和至少一个 待选音乐; 根据预先设定的 N个图像分类标签, 确定至少一张图像对应图像分类标签的分析 结果, N为大于或等于 1 的整数; 根据至少一张图像和至少一个待选音乐, 确定每个待选音 乐的属性信息; 根据分析结果和每个待选音乐的属性信息, 在至少一个待选音乐中确定与至 少一张图像匹配的目标音乐。 在一种可能的设计中, 根据分析结果和每个待选音乐的属性信息, 在至少一个待选音乐 中确定与至少一张图像匹配的目标音乐, 包括: 根据分析结果和每个待选音乐的属性信息, 确定至少一个待选音乐的目标评分; 按照至少一个待选音乐的目标评分的大小顺序, 对至少 一个待选音乐进行排序, 得到音乐序列; 将音乐序列中排列在前的预设数量个待选音乐, 确 定为与至少一张图像匹配的目标音乐。 在一种可能的设计中, 根据分析结果和每个待选音乐的属性信息, 确定至少一个待选音 乐的目标评分, 包括: 针对每个待选音乐, 根据分析结果和待选音乐的属性信息, 确定待选 音乐对应每个图像分类标签的第一评分; 获取 N个图像分类标签各自对应的权重; 根据待选 音乐对应每个图像分类标签的第一评分、 N个图像分类标签各自对应的权重和待选音乐的初 始评分, 确定待选音乐的目标评分, 待选音乐的初始评分包括在待选音乐的属性信息中。 在一种可能的设计中, N个图像分类标签包括如下至少一种: 图像情感、 图像风格、 或 者图像主题; 属性信息还包括待选音乐的 M个音乐分类标签, M为大于或等于 1的整数; M 个音乐分类标签包括如下至少一种: 音乐曲风、 音乐情感、 或者音乐场景。 在一种可能的设计中, 分析结果为至少一张图像对应图像情感的情感分析结果, 情感分 析结果包括至少一个第一图像情感和至少一个第一图像情感的置信度; 属性信息包括待选音 乐的音乐情感, 音乐情感包括至少一个第一音乐情感; 根据情感分析结果和音乐情感, 确定待选音乐对应图像情感的第一评分, 包括: 根据至 少一个第一图像情感、 至少一个第一图像情感的置信度和至少一个第一音乐情感, 确定至少 一个第一音乐情感对应图像情感的评分; 将至少一个第一音乐情感对应图像情感的评分的和, 与至少一个第一音乐情感的情感总数量之间的比值, 确定为待选音乐对应图像情感的第一评 分。 在一种可能的设计中, 根据至少一个第一图像情感、 至少一个第一图像情感的置信度和 至少一个第一音乐情感, 确定至少一个第一音乐情感对应图像情感的评分, 包括: 步骤 1 : 获取至少一个第一音乐情感中的第 1个第一音乐情感; 步骤 2: 获取至少一个第一图像情感中的第 j个第一图像情感; 步骤 3: 在预先存储的相关列表中, 查找第 1个第一音乐情感和第 j个第一图像情感对应 的第 j个相关值; 相关列表中包括多个第一音乐情感和第一图像情感对应的相关值; 步骤 4: 将第 j个相关值和第 j个第一图像情感的置信度的乘积, 与第 1个第一音乐情感 对应第 j-1个第一图像情感的第 j-1个评分的和,确定为第 1个第一音乐情感对应第 j个第一图 像情感的第 j个评分; 将 J加 1, 重复执行步骤 2、 步骤 3、 步骤 4, 直至』等于 Y时, 得到第 1个第一音乐情感 对应第 Y个第一图像情感的第 Y个评分; 将第 Y个评分与至少一个第一图像情感的置信度之和的比值, 确定为第 i个第一音乐情 感对应图像情感的评分;
1取值为 1至 X之间的整数, 』取值为 1至 Y之间的整数, X为至少一个第一音乐情感的 情感总数量, Y为至少一个第一图像情感的情感总数量。 在一种可能的设计中, 分析结果为至少一张图像对应图像风格的风格分析结果, 风格分 析结果包括至少一个第一图像风格; 属性信息中包括待选音乐的音乐情感和音乐曲风, 音乐 曲风中包括至少一个第一音乐曲风, 音乐情感中包括至少一个第一音乐情感; 根据风格分析结果、 音乐情感和音乐曲风, 确定待选音乐对应图像风格的第一评分, 包 括: 根据至少一个第一图像风格、 至少一个第一音乐曲风和预先存储的第一预设列表, 确定 音乐曲风对应图像风格的第三评分; 第一预设列表中包括多个第一图像风格和每个第一图像 风格对应的第一音乐曲风; 根据至少一个第一图像风格、 至少一个第一音乐情感和预先存储 的第二预设列表, 确定音乐情感对应图像风格的第四评分; 第二预设列表中包括多个第一图 像风格和每个第一图像风格对应的第一音乐情感; 将第三评分和第四评分的和, 确定为待选 音乐对应图像风格的第一评分。 在一种可能的设计中, 根据至少一个第一图像风格、 至少一个第一音乐曲风和预先存储 的第一预设列表, 确定音乐曲风对应图像风格的第三评分, 包括: 针对每个第一图像风格, 在第一预设列表中查找第一图像风格对应的第一音乐曲风; 若 至少一个第一音乐曲风中存在查找到的第一图像风格对应的第一音乐曲风, 则获取查找到的 第一图像风格对应的第一音乐曲风的评分; 将查找到的第一图像风格对应的第一音乐曲风的 评分的和, 确定为音乐曲风对应第一图像风格的评分; 将音乐曲风对应每个第一图像风格的 评分中的最大评分, 确定为音乐曲风对应图像风格的第三评分。 在一种可能的设计中, 分析结果为至少一张图像对应图像主题的主题分析结果, 主题分 析结果包括至少一个第一图像主题; 属性信息中包括待选音乐的音乐场景、 音乐情感和音乐 曲风, 音乐场景中包括至少一个第一音乐场景, 音乐情感中包括至少一个第一音乐情感, 音 乐曲风中包括至少一个第一音乐曲风; 根据主题分析结果、 音乐场景、 音乐情感和音乐曲风, 确定待选音乐对应图像主题的第 一评分, 包括: 根据至少一个第一图像主题、 至少一个第一音乐场景和预先存储的第三预设 列表, 确定音乐场景对应图像主题的第五评分; 第三预设列表中包括多个第一图像主题和每 个第一图像风格对应的第一音乐场景; 根据至少一个第一图像主题、 至少一个第一音乐情感 和预先存储的第四预设列表, 确定音乐情感对应图像主题的第六评分; 第四预设列表中包括 多个第一图像主题和每个第一图像风格对应的第一音乐情感; 根据至少一个第一图像主题、 至少一个第一音乐曲风和预先存储的第五预设列表, 确定音乐曲风对应图像主题的第七评分; 第五预设列表中包括多个第一图像主题和每个第一图像风格对应的第一音乐曲风; 将第五评 分、 第六评分和第七评分的和, 确定为待选音乐对应图像主题的第一评分。 在一种可能的设计中, 根据待选音乐对应图像分类标签的第一评分、 N个图像分类标签 各自对应的权重和待选音乐的初始评分, 确定待选音乐的目标评分, 包括: 针对每个图像分 类标签, 确定待选音乐对应图像分类标签的第一评分与图像分类标签对应的权重的乘积, 得 到图像分类标签对应的第一乘积; 将 N个图像分类标签对应的第一乘积与待选音乐的初始评 分的和, 确定为待选音乐的目标评分。 在一种可能的设计中, 根据预先设定的 N个图像分类标签, 确定至少一张图像对应图像 分类标签的分析结果, 包括: 根据预先设定的 N个图像分类标签, 分别通过 N个图像分类标 签各自对应的图像分析模型, 对至少一张图像进行分析处理, 得到至少一张图像对应图像分 类标签的分析结果; N个图像分类标签各自对应的图像分析模型为通过 N个图像分类标签各 自对应的多个样本图像进行训练得到的。 在一种可能的设计中, 根据至少一张图像和至少一个待选音乐, 确定每个待选音乐的属 性信息, 包括: 通过预先训练的音乐匹配模型, 分别对至少一张图像和每个待选音乐进行处 理, 得到每个待选音乐的属性信息, 音乐匹配模型为采用多个样本图像和多个样本音乐进行 训练得到的。 在一种可能的设计中, 获取至少一张图像, 包括: 从至少一个待处理的视频中获取至少 一帧图像, 并将至少一帧图像确定为至少一张图像; 或者, 从至少一个待处理的视频中获取 至少一帧图像, 将至少一帧图像和预先存储的图像, 确定为至少一张图像。 第二方面, 本申请实施例提供一种音乐筛选装置, 包括: 包括: 获取模块、 第一确定模 块、 第二确定模块和第三确定模块; 其中, 获取模块, 用于获取至少一张图像和至少一个待 选音乐; 第一确定模块, 用于根据预先设定的 N个图像分类标签, 确定至少一张图像对应图 像分类标签的分析结果, N为大于或等于 1 的整数; 第二确定模块, 用于根据至少一张图像 和至少一个待选音乐, 确定每个待选音乐的属性信息; 第三确定模块, 用于根据分析结果和 每个待选音乐的属性信息, 在至少一个待选音乐中确定与至少一张图像匹配的目标音乐。 在一种可能的设计中, 第三确定模块具体用于: 根据分析结果和每个待选音乐的属性信 息, 确定至少一个待选音乐的目标评分; 按照至少一个待选音乐的目标评分的大小顺序, 对 至少一个待选音乐进行排序, 得到音乐序列; 将音乐序列中排列在前的预设数量个待选音乐, 确定为与至少一张图像匹配的目标音乐。 在一种可能的设计中, 第三确定模块具体用于: 针对每个待选音乐, 根据分析结果和待 选音乐的属性信息, 确定待选音乐对应每个图像分类标签的第一评分; 获取 N个图像分类标签各自对应的权重; 根据待选音乐对应每个图像分类标签的第一评 分、 N个图像分类标签各自对应的权重和待选音乐的初始评分, 确定待选音乐的目标评分, 待选音乐的初始评分包括在待选音乐的属性信息中。 在一种可能的设计中, N个图像分类标签包括如下至少一种: 图像情感、 图像风格、 或 者图像主题; 属性信息还包括待选音乐的 M个音乐分类标签, M为大于或等于 1的整数; M 个音乐分类标签包括如下至少一种: 音乐曲风、 音乐情感、 或者音乐场景。 在一种可能的设计中, 分析结果为至少一张图像对应图像情感的情感分析结果, 情感分 析结果包括至少一个第一图像情感和至少一个第一图像情感的置信度; 属性信息包括待选音 乐的音乐情感, 音乐情感包括至少一个第一音乐情感; 第三确定模块具体用于: 根据至少一个第一图像情感、 至少一个第一图像情感的置信度 和至少一个第一音乐情感, 确定至少一个第一音乐情感对应图像情感的评分; 将至少一个第 一音乐情感对应图像情感的评分的和, 与至少一个第一音乐情感的情感总数量之间的比值, 确定为待选音乐对应图像情感的第一评分。 在一种可能的设计中, 第三确定模块具体用于: 步骤 1 : 获取至少一个第一音乐情感中的第 1个第一音乐情感; 步骤 2: 获取至少一个第 一图像情感中的第 j个第一图像情感; 步骤 3: 在预先存储的相关列表中, 查找第 1个第一音乐情感和第 j个第一图像情感对应 的第 j个相关值; 相关列表中包括多个第一音乐情感和第一图像情感对应的相关值; 步骤 4: 将第 j个相关值和第 j个第一图像情感的置信度的乘积, 与第 1个第一音乐情感 对应第 j-1个第一图像情感的第 j-1个评分的和,确定为第 1个第一音乐情感对应第 j个第一图 像情感的第 j个评分; 将 J加 1, 重复执行步骤 2、 步骤 3、 步骤 4, 直至』等于 Y时, 得到第 1个第一音乐情感 对应第 Y个第一图像情感的第 Y个评分; 将第 Y个评分与至少一个第一图像情感的置信度之和的比值, 确定为第 i个第一音乐情 感对应图像情感的评分;
1取值为 1至 X之间的整数, 』取值为 1至 Y之间的整数, X为至少一个第一音乐情感的 情感总数量, Y为至少一个第一图像情感的情感总数量。 在一种可能的设计中, 分析结果为至少一张图像对应图像风格的风格分析结果, 风格分 析结果包括至少一个第一图像风格; 属性信息中包括待选音乐的音乐情感和音乐曲风, 音乐 曲风中包括至少一个第一音乐曲风, 音乐情感中包括至少一个第一音乐情感; 第三确定模块具体用于: 根据至少一个第一图像风格、 至少一个第一音乐曲风和预先存 储的第一预设列表, 确定音乐曲风对应图像风格的第三评分; 第一预设列表中包括多个第一 图像风格和每个第一图像风格对应的第一音乐曲风; 根据至少一个第一图像风格、 至少一个 第一音乐情感和预先存储的第二预设列表, 确定音乐情感对应图像风格的第四评分; 第二预 设列表中包括多个第一图像风格和每个第一图像风格对应的第一音乐情感; 将第三评分和第 四评分的和, 确定为待选音乐对应图像风格的第一评分。 在一种可能的设计中, 第三确定模块具体用于: 针对每个第一图像风格, 在第一预设列 表中查找第一图像风格对应的第一音乐曲风; 若至少一个第一音乐曲风中存在查找到的第一 图像风格对应的第一音乐曲风, 则获取查找到的第一图像风格对应的第一音乐曲风的评分; 将查找到的第一图像风格对应的第一音乐曲风的评分的和, 确定为音乐曲风对应第一图像风 格的评分; 将音乐曲风对应每个第一图像风格的评分中的最大评分, 确定为音乐曲风对应图 像风格的第三评分。 在一种可能的设计中, 分析结果为至少一张图像对应图像主题的主题分析结果, 主题分 析结果包括至少一个第一图像主题; 属性信息中包括待选音乐的音乐场景、 音乐情感和音乐 曲风, 音乐场景中包括至少一个第一音乐场景, 音乐情感中包括至少一个第一音乐情感, 音 乐曲风中包括至少一个第一音乐曲风; 第三确定模块具体用于: 根据至少一个第一图像主题、 至少一个第一音乐场景和预先存 储的第三预设列表, 确定音乐场景对应图像主题的第五评分; 第三预设列表中包括多个第一 图像主题和每个第一图像风格对应的第一音乐场景; 根据至少一个第一图像主题、 至少一个 第一音乐情感和预先存储的第四预设列表, 确定音乐情感对应图像主题的第六评分; 第四预 设列表中包括多个第一图像主题和每个第一图像风格对应的第一音乐情感; 根据至少一个第 一图像主题、 至少一个第一音乐曲风和预先存储的第五预设列表, 确定音乐曲风对应图像主 题的第七评分; 第五预设列表中包括多个第一图像主题和每个第一图像风格对应的第一音乐 曲风; 将第五评分、 第六评分和第七评分的和, 确定为待选音乐对应图像主题的第一评分。 在一种可能的设计中, 第三确定模块具体用于: 针对每个图像分类标签, 确定待选音乐 对应图像分类标签的第一评分与图像分类标签对应的权重的乘积, 得到图像分类标签对应的 第一乘积; 将 N个图像分类标签对应的第一乘积与待选音乐的初始评分的和, 确定为待选音 乐的目标评分。 在一种可能的设计中, 第一确定模块具体用于: 根据预先设定的 N个图像分类标签, 分 别通过 N个图像分类标签各自对应的图像分析模型, 对至少一张图像进行分析处理, 得到至 少一张图像对应图像分类标签的分析结果; N个图像分类标签各自对应的图像分析模型为通 过 N个图像分类标签各自对应的多个样本图像进行训练得到的。 在一种可能的设计中, 第二确定模块具体用于: 通过预先训练的音乐匹配模型, 分别对 至少一张图像和每个待选音乐进行处理, 得到每个待选音乐的属性信息, 音乐匹配模型为采 用多个样本图像和多个样本音乐进行训练得到的。 在一种可能的设计中, 获取模块具体用于, 包括: 从至少一个待处理的视频中获取至少 一帧图像, 并将至少一帧图像确定为至少一张图像; 或者, 从至少一个待处理的视频中获取 至少一帧图像, 将至少一帧图像和预先存储的图像, 确定为至少一张图像。 第三方面, 本申请实施例提供一种终端设备, 包括: 处理器和存储器; 存储器存储计算机执行指令; 处理器执行存储器存储的计算机执行指令, 使得处理器执行上述第一方面中任一项的音 乐筛选方法。 第四方面, 本申请实施例提供一种计算机可读存储介质, 计算机可读存储介质中存储有 计算机执行指令, 当计算机执行指令被处理器执行时实现上述第一方面中任一项的音乐筛选 方法。 第五方面, 本申请实施例提供一种计算机程序产品, 包括计算机程序, 计算机程序被处 理器执行时实现上述第一方面中任一项的音乐筛选方法。 第六方面, 本申请实施例提供一种计算机程序, 计算机程序被处理器执行时实现上述第 一方面中任一项的音乐筛选方法。 本申请实施例提供一种音乐筛选方法、 装置、 设备、 存储介质及程序产品, 该方法包括: 获取至少一张图像和至少一个待选音乐; 根据预先设定的 N个图像分类标签, 确定至少一张 图像对应图像分类标签的分析结果, N为大于或等于 1 的整数; 根据至少一张图像和至少一 个待选音乐, 确定每个待选音乐的属性信息; 根据分析结果和每个待选音乐的属性信息, 在 至少一个待选音乐中确定与至少一张图像匹配的目标音乐。 在上述方法汇总, 参考根据分析 结果和每个待选音乐的属性信息, 确定与至少一张图像匹配的目标音乐, 可以提高目标音乐 与至少一张图像的匹配度, 解决用户根据喜好在多个音乐中选择目标音乐时, 使得选择出的 目标音乐与该组图像的匹配度较低问题。 附图说明 为了更清楚地说明本申请或现有技术中的技术方案, 下面将对实施例或现有技术描述中 所需要使用的附图作一简单地介绍, 显而易见地, 下面描述中的附图是本申请的一些实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以根据这些附图获得其 它的附图。 图 1为本申请实施例提供的音乐筛选方法的应用场景图; 图 2为本申请实施例提供的音乐筛选方法的流程图; 图 3为本申请实施例提供的确定目标评分的流程图; 图 4为本申请实施例提供的确定待选音乐对应图像情感的第一评分的流程图; 图 5为本申请实施例提供的确定待选音乐对应图像风格的第一评分的流程图; 图 6为本申请实施例提供的确定待选音乐对应图像主题的第一评分的流程图; 图 7为本申请实施例提供的确定相关列表的流程图; 图 8为本申请实施例提供的音乐筛选方法的流程框图; 图 9为本申请实施例提供的音乐筛选装置的结构示意图; 图 10本申请实施例提供的终端设备的硬件示意图。 具体实施方式 为使本 申请的目的、 技术方案和优点更加清楚, 下面将结合本申请中的附图, 对本 申请中的技术方案进行清楚 、 完整地描述, 显然, 所描述的实施例是本申请一部分实施 例, 而不是全部的实施例。 基于本申请中的实施例, 本领域普通技术人员在没有做出创 造性劳动前提下所获得的所有其它实施例, 都属于本申请保护的范围。 下面结合 图 1, 对本申请实施例提供的音乐筛选方法的应用场景进行说明。 图 1为本申请实施例提供的音乐筛选方法的应用场景图。 如图 1所示, 包括: 至少 一张图像和至少一个待选音乐。 示例性的, 至少一张图像中包括 5 张图像, 至少一个待 选音乐中包括 W 个音乐, W为大于或等于 1的整数。 在相 关技术中, 用户根据喜好在至少一个待选音乐中, 选择其认为与一组图像搭配 的目标音乐, 通常使得目标音乐与该组图像的匹配度较低。 在本 申请中, 为了提高目标音乐与一组图像的匹配度, 发明人想到根据至少一张图 像和多个待选音乐确定每个待选音 乐的属性信息, 并通过对至少一张图像进行处理之后 得到的分析结果和每个待选音 乐的属性信息, 在至少一个待选音乐中确定与至少一张图 像匹配的目标音乐, 从而提高目标音乐与该组图像的匹配度, 解决用户根据喜好在至少 一个待选音乐中选择目标音乐时, 使得目标音乐与至少一张图像的匹配度较低问题。 接着 以具体地实施例对本申请的技术方案进行详细说明。 下面这几个具体的实施例 可以相互结合, 对于相同或相似的概念或过程可能在某些实施例不再赘述。 图 2为本申请实施例提供的音乐筛选方法的流程图。 如图 2所示, 该方法包括:
S201、 获取至少一张图像和至少一个待选音乐。 本 申请实施例的执行主体可以为终端设备, 也可以为设置在终端设备中的音乐筛选 装置。 终端设备例如可以为智能手机、 平板电脑、 台式电脑等。 音乐筛选装置可以通过 软件和 /或硬件的结合来实现。 软件包括但不限于安装在终端设备中的短视频播放应用程 序。 在一种 可能的设计中, 从至少一个待处理的视频中获取至少一帧图像; 将至少一帧 图像确定为至少一张图像。 至少一个待处理的视频为预先存储在终端设备中的视频。 上述 至少一帧图像可以包括至少一个待处理的视频中的全部图像帧 , 也可以包括至 少一个待处理的视频中的部分图像帧。 可选地 , 当至少一帧图像包括至少一个待处理的视频中的部分图像帧时, 可以按照 预设帧数量, 对至少一个待处理的视频进行跳帧筛选处理, 得到至少一帧图像。 示例性 的, 当至少一个待处理的视频包括图像帧 1、 图像帧 2、 图像帧 3、 图像帧 4、 图像帧 5 时, 若预设帧数量为 1, 则得到至少一帧图像包括图像帧 1、 图像帧 3、 图像帧 5。 可选地 , 从至少一个待处理的视频中获取至少一帧图像之前, 还可以包括: 判断至 少一个待处理的视频的大小是 否大于预设阈值; 若是, 则按照预设帧数量, 对至少一个 待处理的视频进行跳帧筛选处理, 得到至少一帧图像。 在另一种 可能的设计, 从至少一个待处理的视频中获取至少一帧图像; 将至少一帧 图像和终端设备中预先存储的图像, 确定为至少一张图像。 在又 一种可能的设计中, 将预先存储在终端设备中的待处理图像, 确定为至少一张 图像。 至少 一个待选音乐可以预先缓存在终端设备中, 也可以预先存储在与终端设备中的 短视频播放应用程序对应 的服务器中。 若至少一个待选音乐存储在服务器中, 则当终端 设备需要获取至少一个待选音 乐时, 可以向服务器发送请求消息, 以使服务器向终端设 备发送至少一个待选音乐。 在实 际中, 服务器或者终端设备还可以对至少一个待选音乐进行更新。 示例性的, 当终端设备缓存至少一个待选 音乐、 并对至少一个待选音乐进行更新时, 记录终端设备 的最近播放的音乐, 并将最近播放的音乐添加至至少一个待选音乐中; 或者, 接收服务 器发送的更新信息, 更新信息中包括至少一个音乐, 终端设备接收到至少一个音乐之后, 将至少一个音乐添加至至少一个待选音乐中。
S202、 根据预先设定的 N个图像分类标签, 确定至少一张图像对应图像分类标签的 分析结果。
N 为大于或等于 1的整数。 N个图像分类标签包括图像情感、 图像风格、或者图像主 题等中的任意至少一种。 当 N等于 3时, 3个图像分类标签分别为图像情感、 图像风格、 图像主题。 每个 图像分类标签对应一个分析结果。 示例性的, 图像情感对应的分析结果为情感 分析结果, 图像风格对应的分析结果为风格分析结果, 图像主题对应的分析结果为主题 分析结果。 在一种可 能的设计中, 根据预先设定的 N个图像分类标签, 分别通过 N个图像分类 标签各自对应的图像分析模 型, 对至少一张图像进行分析处理, 得到至少一张图像对应 图像分类标签的分析结果。 N个图像分类标签各自对应的图像分析模型为通过 N个图像 分类标签各自对应的多个样本图像进行训练得到的。
N 个图像分类标签各自对应的多个样本图像可以相同, 也可以不相同。 示例性 的, 当 N个图像分类标签包括图像情感、 图像风格和图像主题时, 图像情感 对应的图像分析模型为情感分 析模型, 图像风格对应的图像分析模型为风格分析模型, 图像主题对应的图像分析模型为主题分析模型。 进一 步地, 通过情感分析模型对至少一张图像进行分析处理, 得到情感分析结果, 通过风格分析模型对至少一张 图像进行分析处理, 得到风格分析结果, 通过主题分析模 型对至少一张图像进行分析处理, 得到主题分析结果。 上述 N个图像分类标签各自对应的图像分析模型可以为采用 N个图像分类标签各自 对应的多个样本图像对相同的第一初始模型、 或者不同的第一初始模型进行训练得到。 第一初 始模型可以为神经网络, 还可以为其他机器学习模型, 在此不再一一详述。 相同的第一初始模型表示第一初 始模型的结构相同, 不同的第一初始模型表示第一初始 模型的结构不同。 在另一种可能 的设计中, 还根据预先设定的 N个图像分类标签, 通过预先训练好的 图像分析模型, 对至少一张图像进行分析处理, 得到至少一张图像对应图像分类标签的 分析结果。 预先训练好的图像分析模型为采用多个样本图像对第二初始模型进行训练得 到的。 第二初始模 型也可以为神经网络, 还可以为其他机器学习模型, 在此不再一一详述。 第二初始模型与第一初始模型不同。 情感 分析结果中可以包括至少一个第一图像情感。 情感分析结果中还可以包括至少 一个第一图像情感的置信度。 例如, 至少一个第一图像情感包括: 图像情感 1、 图像情感 2、 图像情感 3等。 风格 分析结果中可以包括至少一个第一图像风格。 例如, 至少一个第一图像风格包 括: 图像风格 1、 图像风格 2、 图像风格 3、 图像风格 4等。 主题 分析结果中可以包括至少一个第一图像主题。 例如, 至少一个第一图像主题包 括: 图像主题 1、 图像主题 2等。
5203、 根据至少一张图像和至少一个待选音乐, 确定每个待选音乐的属性信息。 在 一种可能的设计中, 通过预先训练的音乐匹配模型, 分别对至少一张图像和每个 待选音乐进行处理, 得到每个待选音乐的属性信息。 音乐匹配模型为采用多个样本图像 和多个样本音乐对第三初始模型进行训练得到的 。 第三初始模 型可以为神经网络, 还可以为其他机器学习模型, 在此不再一一详述。 属性信 息中包括每个待选音乐的初始评分。 属性信息中还可以包括待选音乐的 M个 音乐分类标签。 M为大于或等于 1的整数。
M 个音乐分类标签包括 音乐曲风、 音乐情感、 或者音乐场景中的任意至少一种。 音 乐曲风中可以包括至少一个第一音乐曲风。 例如, 至少一个第一音乐曲风包括: 音乐曲风 1、 音乐曲风 2等。 音 乐情感中可以包括至少一个第一音乐情感。 例如, 至少一个第一音乐情感包括: 音乐情感 1、 音乐情感 2、 音乐情感 3等。 音 乐场景中可以包括至少一个第一音乐场景。 例如, 至少一个第一音乐场景包括: 音乐场景 1、 音乐场景 2等。 在 另一种可能的设计中, 可以通过预先设定的线上配乐算法, 对至少一张图像和至 少一个待选音乐进行处理, 得到每个待选音乐的属性信息。 对线上配乐算法的详细说明, 可以参见相关技术此处不再赘述。 在又 一种可能的设计中, 针对至少一个待选音乐中的每个待选音乐, 获取待选音乐 的 M个音乐分类标签 ; 通过预设训练的模型, 对待选音乐的 M个音乐分类标签和至少一 张图像进行处理, 得到待选音乐的属性信息。 在此设计中, 待选音乐的 M个音乐分类标 签为预先存储在终端设备中的分类标签。
5204、 根据分析结果和每个待选音乐的属性信息, 在至少一个待选音乐中确定与至 少一张图像匹配的目标音乐。 在 一种可能的设计中, 根据分析结果和每个待选音乐的属性信息, 确定至少一个待 选音乐的 目标评分; 按照至少一个待选音乐的目标评分的大小顺序, 对至少一个待选音 乐进行排序, 得到音乐序列; 将音乐序列中排列在前的预设数量个待选音乐, 确定为与 至少一张图像匹配的目标音乐。 具体 的, 对根据分析结果和每个待选音乐的属性信息, 确定至少一个待选音乐的目 标评分的详细说明, 请参见图 3实施例, 此处不再赘述。 预设数量 可以为 1、 2、 3等, 此处不对预设数量进行限定。 示例性 的, 至少一个待选音乐中包括音乐 1、 音乐 2、 音乐 3 , 若音乐 1的目标评分 为 20、音乐 2的目标评分为 10、音乐 3的目标评分为 50, 则音乐序列为[音乐 3、音乐 1、 音乐 2]。 进一步地, 当预设数量为 1时, 将音乐 3确定为目标音乐。 在另一种 可能的设计中, 根据每个待选音乐的属性信息, 对至少一个待选音乐进行 排序, 得到初始序列; 根据分析结果和每个待选音乐的属性信息, 确定至少一个待选音 乐的目标评分; 根据至少一个待选音乐的目标评分, 调整初始序列, 得到音乐序列; 将 音乐序列中排列在前的预设数量个待选音乐, 确定为与至少一张图像匹配的目标音乐。 属性信 息中包括待选音乐的初始评分。 具体 的, 根据每个待选音乐的初始评分, 对至少一个待选音乐进行排序, 得到初始 序列。 示例性的, 至少一个待选音乐中包括音乐 1、 音乐 2、 音乐 3 , 若音乐 1的初始评 分为 15、 音乐 2的初始评分为 20、 音乐 3的初始评分为 25, 则确定初始序列为[音乐 3, 音乐 2,音乐 1]。 若音 乐 1的目标评分为 20、 音乐 2的目标评分为 10、 音乐 3的目标评分为 50, 则对 初始序列[音乐 3,音乐 2,音乐 1]进行调整, 得到的音乐序列为[音乐 3,音乐 1,音乐 2]。 进一步地 , 若音乐序列为[音乐 3,音乐 2,音乐 1], 则当预设数量为 1时, 将音乐 3确 定为目标音乐。 在 图 2实施例提供的音乐筛选方法中, 根据预先设定的 N个图像分类标签, 确定至 少一张图像对应图像分类标签 的分析结果, 根据至少一张图像和至少一个待选音乐, 确 定每个待选音乐的属性信息 , 参考分析结果和每个待选音乐的属性信息, 确定与至少一 张图像匹配的 目标音乐, 可以提高目标音乐与至少一张图像的匹配度, 解决用户根据喜 好在至少一个待选音乐 中选择目标音乐时, 使得目标音乐与至少一张图像的匹配度较低 问题。 此外 , 在相关技术中, 在用户根据喜好在至少一个待选音乐中选择目标音乐时, 需 要用户试听多个待选音乐 , 从而导致选择目标音乐的用户操作复杂, 使得确定目标音乐 的效率较低。 而在本申请中, 终端设备可以自行执行音乐筛选方法, 确定目标音乐, 无 需用户试听多个待选音乐, 简化用户操作, 提高了确定目标音乐的的效率。 进一 步地, 在本申请中, 由于提高了确定目标音乐的的效率、 以及目标音乐与至少 一张图像的匹配度, 因此可以提升用户体验。 在上述 图 2实施例的基础上, 下面结合图 3 , 对根据分析结果和至少一个待选音乐的 初始评分, 确定至少一个待选音乐的目标评分的方法进行说明。 具体的, 请参见图 3。 图 3为本申请实施例提供的确定目标评分的流程图。 如图 3所示, 该方法包括:
S301、 针对每个待选音乐, 根据分析结果和待选音乐的属性信息, 确定待选音乐对 应每个图像分类标签的第一评分。 当分析结果为情感分析结果时, 属性信息可以包括音乐场景、 音乐情感和 /或音乐曲 风。 示例性 的, 当属性信息包括音乐情感时, 针对每个待选音乐, 根据情感分析结果和 音乐情感, 确定待选音乐对应图像情感的第一评分 (Scorel)。 具体的, 对确定待选音乐 对应图像情感的第一评分的方法说明, 请参见图 4实施例, 此处不再赘述。 当分析结果为风格分析结果时, 属性信息可以包括音乐场景、 音乐情感和 /或音乐曲 风。 示例性 的, 当属性信息包括音乐情感和音乐曲风时, 针对每个待选音乐, 根据风格 分析结果、 音乐情感和音乐曲风, 确定待选音乐对应图像风格的第一评分 (Score2)。 具 体的, 对确定待选音乐对应图像风格的第一评分的方法说明, 请参见图 5 实施例, 此处 不再赘述。 当分析结果为主题分析结果时, 属性信息可以包括音乐场景、 音乐情感和 /或音乐曲 风。 示例性 的, 当属性信息包括音乐场景、 音乐情感和音乐曲风时, 针对每个待选音乐, 根据主题分析结果、 音乐场景、 音乐情感和音乐曲风, 确定待选音乐对应图像主题的第 一评分 (SCOre3)。 具体的, 对确定待选音乐对应图像主题的第一评分的方法说明, 请参 见图 6实施例, 此处不再赘述。
5302、 获取 N个图像分类标签各自对应的权重。
N 个权重预先存储在终端设备中、 或者上述服务器中。 当 N个图像分类标签包括图像情感、 图像风格和图像主题时, 图像情感对应的权重 为 W1, 图像风格对应的权重为 W2, 图像主题对应的权重为 W3。
5303、 根据待选音乐对应每个图像分类标签的第一评分、 N个图像分类标签各自对 应的权重和待选音乐的初始评分 , 确定待选音乐的目标评分。 待选音乐的初始评分包括 在待选音乐的属性信息中。 在一种 可能的设计中, 针对每个图像分类标签, 确定待选音乐对应图像分类标签的 第一评分 (示例性的, Scorel、 Score2、 Score3) 与图像分类标签对应的权重 (示例性的, 相应的, Wl、 W2、 W3) 的乘积, 得到图像分类标签对应第一乘积; 将 N个图像分类标签对应的第一乘积与待选音乐的初始评分的和, 确定为待选音乐 的目标评分。 目标评分可以通过如下公式确定: S=ScoreO+Wl*Scorel+W2*Score2+W3*Score3 ; 其 中, S为待选音乐的目标评分, ScoreO为待选音乐的初始评分。 公式中的 Scorel、 Score2 和 /或 Score3可以等于 0。 在 图 3 实施例中, 根据待选音乐对应每个图像分类标签的第一评分、 N个图像分类 标签各自对应的权重和待选音 乐的初始评分, 确定待选音乐的目标评分, 即在确定目标 评分的过程中, 参考了多个对应图像分类标签的第一评分, 提高了确定目标评分的准确 性。 图 4为本申请实施例提供的确定待选音乐对应图像情感的第一评分的流程图。如图 4 所示, 该方法包括:
5401、 获取情感分析结果包括至少一个第一图像情感和至少一个第一图像情感的置 信度, 以及音乐情感包括至少一个第一音乐情感。
5402、 获取至少一个第一音乐情感中的第 1个第一音乐情感。 初始 时, i等于 1。
5403、 获取至少一个第一图像情感中的第 j个第一图像情感。 初始 时, j等于 1。 S404、 在预先存储的相关列表中, 查找第 1个第一音乐情感和第 j个第一图像情感对 应的第 j个相关值。 相关列表中包括多个第一音乐情感和第一图像情感对应的相关值。 不例性 的, 相关列表具有如下表 1的格式。 表 1
Figure imgf000014_0001
示例性的, 第 1个第一音乐情感为音乐情感 1, 第 j个第一图像情感为图像情感 2, 则第 i 个第一音乐情感和第 j个第一图像情感对应的第 j个相关值为 0.2。 需要说明的是, 针对每个第一音乐情感, 该第一音乐情感分别和至少一个第一图像情感 对应的相关值之和等于 1。 示例性的, 针对音乐情感 1, 音乐情感 1分别和图像情感 1、 图像 情感 2、 图像情感 3、 等对应的相关值之和等于 1, 即 0.15+0.2+0.1+ =1。 在一种可能的设计中, 第一音乐情感具有对应的音乐情感标识, 第一图像情感具有对应 的图像情感标识; 可以获取至少一个第一音乐情感中的第 1个第一音乐情感的音乐情感标识; 获取至少一个第一图像情感中的第 j个第一图像情感的图像情感标识;在预先存储的相关列表 中, 查找音乐情感标识和图像情感标识对应的第 个相关值。相关列表中包括多个音乐情感标 识和图像情感标识对应的相关值。 此处, 相关列表与上述表 1相似, 此处不再赘述。 可选地, 在 S404之前, 本申请提供的技术方案还可以包括: 确定相关列表。 对确定相关 列表的详细说明, 请参见图 7实施例。
5405、 将第 j个相关值和第 j个第一图像情感的置信度的乘积, 与第 i个第一音乐情感对 应第』-1个第一图像情感的第』-1个评分的和,确定为第 1个第一音乐情感对应第 j个第一图像 情感的第 个评分。 初始时, 第 j-1个评分等于 0。
5406、 判断』是否大于 Y。 若否, 则执行 S407, 否则执行 S408。
Y 为至少一个第一图像情感的情感总数量。
5407、 将 j加 1, 重复执行 S403~S406。
5408、 得到第 i个第一音乐情感对应第 Y个第一图像情感的第 Y个评分。
5409、 将第 Y个评分与至少一个第一图像情感的置信度之和的比值, 确定为第:个第一 音乐情感对应图像情感的评分。 在一种可能的设计中, 在 S401之前、 或者在 S401和 S402之间, 还可以包括: 构建评分 列表。相应的, 在 S410和 S411之间, 还可以包括: 在评分列表中存储第 1个第一音乐情感对 应图像情感的评分。
5410、 判断 1是否大于 X。 若否, 则执行 S411, 否则执行 S412。
X 为至少一个第一音乐情感的情感总数量。
5411、 将 1加 1, 将 j设置为 1, 重复执行 S402~S410。
5412、 得到至少一个第一音乐情感对应图像情感的评分。 示例性的, X等于 2时, 即至少一个第一音乐情感包括音乐情感 1和音乐情感 2时, 可 以得到音乐情感 1对应图像情感的评分为 10、 音乐情感 2对应图像情感的评分为 5。 需要说明的是, 上述 S402-S412为对根据至少一个第一图像情感、 至少一个第一图像情 感的置信度和至少一个第一音乐情感, 确定至少一个第一音乐情感对应图像情感的评分的解 释说明。
S413、 将至少一个第一音乐情感对应图像情感的评分的和, 与至少一个第一音乐情感的 情感总数量之间的比值, 确定为待选音乐对应图像情感的第一评分。 进一步地, 在 S412的基础上, 至少一个第一音乐情感的情感总数量等于 2, 因此待选音 乐对应图像情感的第一评分等于 (10+5) 12=1.5 当构建评分列表, 并在评分列表中存储至少一个第一音乐情感对应图像情感的评分时, S413还可以为: 将评分列表中包括的所有评分的和与所有评分的总数量的比值, 确定为待选 音乐对应图像情感的第一评分。 图 5为本申请实施例提供的确定待选音乐对应图像风格的第一评分的流程图。 如图 5所 示, 该方法包括:
S501、根据至少一张图像对应图像风格的风格分析结果中包括的至少一个第一图像风格、 待选音乐的属性信息中音乐曲风包括的至少一个第一音乐曲风、 以及预先存储的第一预设列 表, 确定音乐曲风对应图像风格的第三评分。 第一预设列表中包括多个第一图像风格和每个第一图像风格对应的第一音乐曲风。 示例 性的, 第一预设列表具有如下表 2所示的格式。 表 2
Figure imgf000015_0001
在第一预设列表中, 第一图像风格对应的第一音乐曲风的数量可以为多个, 也可以为 1 个, 还可以为 0个。 “NULL”表示在该位置处没有第一音乐曲风。 第一预设列表中的每个第 一音乐曲风具有对应的评分, 当第一图像风格对应多个第一音乐曲风时, 位于多个列中的第 一音乐曲风对应的评分依次降低 (指示第一图像风格与第一音乐曲风的匹配度依次降低) 。 示例性的, 第一图像风格为图像风格 3时, 位于第一列中的音乐曲风 1对应的评分较大, 位 于第二列中的音乐曲风 5对应的评分较小。 NULL对应的评分为 0。 在一种可能的设计中, 针对每个第一图像风格, 在第一预设列表中查找第一图像风格对 应的第一音乐曲风; 若至少一个第一音乐曲风中存在查找到的第一图像风格对应的第一音乐 曲风, 则获取查找到的第一图像风格对应的第一音乐曲风的评分; 将查找到的第一图像风格 对应的第一音乐曲风的评分的和, 确定为音乐曲风对应第一图像风格的评分; 将音乐曲风对 应每个第一图像风格的评分中的最大评分, 确定为音乐曲风对应图像风格的第三评分。 可选地, 还可以将音乐曲风对应每个第一图像风格的评分的和, 确定为音乐曲风对应图 像风格的第三评分。 示例性的, 当至少一个第一图像风格包括图像风格 2和图像风格 3时, 针对图像风格 2, 在第一预设列表中查找到图像风格 2对应的第一音乐曲风包括音乐曲风 4和音乐曲风 1,若至 少一个第一音乐曲风包括音乐曲风 4、 音乐曲风 1、 音乐曲风 5、 音乐曲风 2, 则确定至少一 个第一音乐曲风包括图像风格 2对应的音乐曲风 4和音乐曲风 1,因此可以获取音乐曲风 4对 应的评分、 以及音乐曲风 1对应的评分, 并将音乐曲风 4对应的评分、 以及音乐曲风 1对应 的评分的和, 确定为音乐曲风对应图像风格 2的评分; 针对图像风格 3, 在第一预设列表中查 找到图像风格 3对应的第一音乐曲风包括音乐曲风 5,若至少一个第一音乐曲风包括音乐曲风 4、 音乐曲风 1、 音乐曲风 5、 音乐曲风 2, 则确定至少一个第一音乐曲风包括图像风格 3对应 的音乐曲风 5, 因此可以获取音乐曲风 5对应的评分, 并将音乐曲风 5对应的评分, 确定为音 乐曲风对应图像风格 3的评分; 进一步地, 将音乐曲风对应图像风格 2的评分与音乐曲风对 应图像风格 3的评分中的最大评分, 确定为音乐曲风对应图像风格的第三评分。 可选地, 还可以将音乐曲风对应图像风格 2的评分与音乐曲风对应图像风格 3的评分的 和, 确定为音乐曲风对应图像风格的第三评分。
S502、 根据至少一个第一图像风格、 至少一个第一音乐情感和预先存储的第二预设列表, 确定音乐情感对应图像风格的第四评分。 第二预设列表中包括多个第一图像风格和每个第一图像风格对应的第一音乐情感。 示例 性的, 第二预设列表具有如下表 3所示的格式。 表 3
Figure imgf000016_0001
在第二预设列表中, 第一图像风格对应的第一音乐情感的数量可以为多个, 也可以为 1 个, 还可以为 0个。 “NULL”表示在该位置处没有第一音乐情感。 第二预设列表中的每个第 一音乐情感具有对应的评分, 当第一图像风格对应多个第一音乐情感时, 位于多个列中的第 一音乐情感对应的评分依次降低 (指示第一图像风格与第一音乐情感的匹配度依次降低) 。 示例性的, 第一图像风格为图像风格 4时, 位于第一列中的音乐曲风 5对应的评分较大, 位 于第二列中的 NULL对应的评分为 0。 需要说明的是, S502的执行方法与 S501的执行方法相似, 此处不再赘述 S502的执行过 程。
S503、 将第三评分和第四评分的和, 确定为待选音乐对应图像风格的第一评分。 图 6为本申请实施例提供的确定待选音乐对应图像主题的第一评分的流程图。 如图 6所 示, 该方法包括:
S601、根据至少一张图像对应图像风格的主题分析结果中包括的至少一个第一图像主题、 音乐场景中包括的至少一个第一音乐场景、 以及预先存储的第三预设列表, 确定音乐场景对 应图像主题的第五评分。 第三预设列表中包括多个第一图像主题和每个第一图像主题对应的第一音乐场景。 示例 性的, 第三预设列表具有如下表 4所示的格式。 表 4
Figure imgf000017_0001
在第三预设列表中, 第一图像主题对应的第一音乐场景的数量可以为多个, 也可以为 1 个, 还可以为 0个。 “NULL”表示在该位置处没有第一音乐场景。 第三预设列表中的每个第 一音乐场景具有对应的评分, 当第一图像主题对应的多个第一音乐场景时, 位于多个列中的 第一音乐场景对应的评分依次降低(指示第一图像主题与第一音乐场景的匹配度依次降低) 。 示例性的, 第一图像主题为图像主题 2时, 位于第一列中的音乐场景 3对应的评分较大, 位 于第二列中的音乐场景 2对应的评分较小。 需要说明的是, S601的执行方法与 S501的执行方法相似, 此处不再赘述 S601的执行过 程。
S602、 根据主题分析结果中包括的至少一个第一图像主题、 音乐情感中包括的至少一个 第一音乐情感、 以及预先存储的第四预设列表, 确定音乐情感对应图像主题的第六评分。 第四预设列表中包括多个第一图像主题和每个第一图像主题对应的第一音乐情感。 示例 性的, 第四预设列表具有如下表 5所示的格式。 表 5
Figure imgf000017_0002
在第四预设列表中, 第一图像主题对应的第一音乐情感的数量可以为多个, 也可以为 1 个, 还可以为 0个。 “NULL”表示在该位置处没有第一音乐情感。 第四预设列表中的每个第 一音乐情感具有对应的评分, 当第一图像主题对应的多个第一音乐情感时, 位于多个列中的 第一音乐情感对应的评分依次降低(指示第一图像主题与第一音乐情感的匹配度依次降低) 。 示例性的, 第一图像主题为图像主题 2时, 位于第一列中的音乐曲风 3对应的评分较大, 位 于第二列中的音乐情感 2对应的评分较小。 需要说明的是, S602的执行方法与 S501的执行方法相似, 此处不再赘述 S602的执行过 程。 S603、 根据主题分析结果中包括的至少一个第一图像主题、 音乐曲风中包括的至少一个 第一音乐曲风、 以及预先存储的第五预设列表, 确定音乐曲风对应图像主题的第七评分。 第五预设列表中包括多个第一图像主题和每个第一图像主题对应的第一音乐曲风。 示例 性的, 第五预设列表具有如下表 6所示的格式。 表 6
Figure imgf000017_0003
Figure imgf000018_0001
在第五预设列表中, 第一图像主题对应的第一音乐曲风的数量可以为多个, 也可以为 1 个, 还可以为 0个。 “NULL”表示在该位置处没有第一音乐曲风。 第五预设列表中的每个第 一音乐曲风具有对应的评分, 当第一图像主题对应的多个第一音乐曲风时, 位于多个列中的 第一音乐曲风对应的评分依次降低(指示第一图像主题与第一音乐曲风的匹配度依次降低) 。 示例性的, 第一图像主题为图像主题 1时, 位于第一列中的音乐曲风 1对应的评分较大, 位 于第二列中的 NULL对应的评分为 0。 需要说明的是, S603的执行方法与 S501的执行方法相似, 此处不再赘述 S603的执行过 程。
S604、 将第五评分、 第六评分和第七评分的和, 确定为待选音乐对应图像主题的第一评 分。 在上述图 4实施例的基础上, 下面以相关列表中包括多个第一音乐情感和第一图像情感 对应的相关值为例, 结合图 7, 对确定相关列表的方法进行说明。 图 7为本申请实施例提供的确定相关列表的流程图。 如图 7所示, 该方法包括:
5701、 获取预先存储的视频历史数据, 视频历史数据中包括多条历史记录, 每条历史记 录中包括第一图像情感和第一音乐情感。 第一图像情感为至少一张历史图像的情感。 第一音乐情感为至少一张历史图像的配乐的情感。
5702、 统计多条历史记录中包括的不同的第一音乐情感的数量, 得到第一总数量 V。
5703、 统计多条历史记录中包括的不同的第一图像情感的数量, 得到第二总数量 U。
5704、针对 V个第一音乐情感中的第 n个第一音乐情感和 U个第一图像情感中的第 m个 第一图像情感, 设置第 n个第一音乐情感和第 m个第一图像情感对应的第一记录条数等于 0。 初始时, n、 m均等于 1。
5705、 获取多条历史记录中的第 p个历史记录。
5706、 判断第 p个历史记录是否包括第 n个第一音乐情感和第 m个第一图像情感。 若是, 则执行 S707〜 S709, 否则执行 S710。
5707、 更新第一记录条数, 将第一记录条数加 1。
5708、 判断 p是否大于多条历史记录的总条数。 若是, 则执行 S709, 否则执行 S710。
5709、 得到第 n个第一音乐情感和第 m个第一图像情感对应的第一记录条数。
5710、 将 p加 1, 重复执行 S705~S709。
5711、 判断 m是否大于 U。 若否, 在执行 S712, 若是, 则执行 S713〜 S716。 需要说明的是, 在 S709之后执行 S711-S716
5712、 将 m加 1, 重复执行 S704~S711。
5713、 得到第 n个第一音乐情感分别和 U个第一图像情感对应的第一记录条数; 对第 n 个第一音乐情感分别和 U个第一图像情感对应的第一记录条数进行归一化处理, 得到第 n个 第一音乐情感分别和 U个第一图像情感对应的相关值, 并在相关列表中相应位置写入第 n个 第一音乐情感分别和 U个第一图像情感对应的相关值。 具体的,确定第 n个第一音乐情感分别和 U个第一图像情感对应的第一记录条数的和值; 将目标音乐情感分别和 U个第一图像情感对应的第一记录条数与上述和值的比值, 确定为第 n个第一音乐情感分别和 U个第一图像情感对应的相关值。
5714、 判断 n是否大于 V。 若否, 则执行 S715, 否则执行 S716。
5715、 将 n加 1 , 将 m设置为 1, 重复执行 S704~S714。
5716、 得到相关列表。 需要说明的是, 在根据图 7实施例所示的方法, 得到相关列表之后, 可以直接将得到的 相关列表确定为图 4实施例中的相关列表, 开发人员还手动调整得到相关列表中的相关值, 并将手动调整之后的相关列表确定为图 4实施例中的相关列表。 图 8为本申请实施例提供的音乐筛选方法的流程框图。 如图 8所示, 包括: N个图像分 类标签各自对应的图像分析模型、 音乐匹配模型。 其中, N个图像分类标签各自对应的图像 分析模型包括: 图像分类标签 1 对应的图像分析模型、 图像分类标签 2对应的图像分析模 型、 、 图像分类标签 N对应的图像分析模型。
N 个图像分类标签各自对应的图像分析模型分别对至少一张图像进行分析处理, 得到得 到至少一张图像对应图像分类标签的分析结果。 例如, 通过图像分类标签 1 对应的图像分析 模型对至少一张图像进行分析处理,得到至少一张图像对应图像分类标签的分析结果 1 ; 通过 图像分类标签 2对应的图像分析模型对至少一张图像进行分析处理, 得到至少一张图像对应 图像分类标签的分析结果 2。 音乐匹配模型对至少一张图像和至少一个待选音乐进行处理, 得到每个待选音乐的属性 信息。 进一步地, 参考 N个分析结果和每个待选音乐的属性信息, 确定与至少一张图像匹配的 目标音乐。 图 9为本申请实施例提供的音乐筛选装置的结构示意图。 如图 9所示, 音乐筛选装置 10 包括: 获取模块 11、 第一确定模块 12、 第二确定模块 13和第三确定模块 14; 其中, 获取模块 11, 用于获取至少一张图像和至少一个待选音乐; 第一确定模块 12, 用于根据预先设定的 N个图像分类标签, 确定至少一张图像对应图像 分类标签的分析结果, N为大于或等于 1的整数; 第二确定模块 13, 用于根据至少一张图像和至少一个待选音乐, 确定每个待选音乐的属 性信息; 第三确定模块 14, 用于根据分析结果和每个待选音乐的属性信息, 在至少一个待选音乐 中确定与至少一张图像匹配的目标音乐。 本申请实施例提供的音乐筛选装置 10可以执行上述音乐筛选, 其实现原理以及有益效果 类似, 此处不再进行赘述。 在一种可能的设计中, 第三确定模块 14具体用于: 根据分析结果和每个待选音乐的属性 信息, 确定至少一个待选音乐的目标评分; 按照至少一个待选音乐的目标评分的大小顺序, 对至少一个待选音乐进行排序, 得到音乐序列; 将音乐序列中排列在前的预设数量个待选音 乐, 确定为与至少一张图像匹配的目标音乐。 在一种可能的设计中, 第三确定模块 14具体用于: 针对每个待选音乐, 根据分析结果和 待选音乐的属性信息, 确定待选音乐对应每个图像分类标签的第一评分; 获取 N个图像分类 标签各自对应的权重; 根据待选音乐对应每个图像分类标签的第一评分、 N个图像分类标签 各自对应的权重和待选音乐的初始评分, 确定待选音乐的目标评分, 待选音乐的初始评分包 括在待选音乐的属性信息中。 在一种可能的设计中, N个图像分类标签包括如下至少一种: 图像情感、 图像风格、 或 者图像主题; 属性信息还包括待选音乐的 M个音乐分类标签, M为大于或等于 1的整数; M 个音乐分类标签包括如下至少一种: 音乐曲风、 音乐情感、 或者音乐场景。 在一种可能的设计中, 分析结果为至少一张图像对应图像情感的情感分析结果, 情感分 析结果包括至少一个第一图像情感和至少一个第一图像情感的置信度; 属性信息包括待选音 乐的音乐情感, 音乐情感包括至少一个第一音乐情感; 第三确定模块 14具体用于: 根据至少一个第一图像情感、 至少一个第一图像情感的置信 度和至少一个第一音乐情感, 确定至少一个第一音乐情感对应图像情感的评分; 将至少一个 第一音乐情感对应图像情感的评分的和, 与至少一个第一音乐情感的情感总数量之间的比值, 确定为待选音乐对应图像情感的第一评分。 在一种可能的设计中, 第三确定模块 14具体用于: 步骤 1 : 获取至少一个第一音乐情感中的第 1个第一音乐情感; 步骤 2: 获取至少一个第 一图像情感中的第 j个第一图像情感; 步骤 3: 在预先存储的相关列表中, 查找第 1个第一音乐情感和第 j个第一图像情感对应 的第 j个相关值; 相关列表中包括多个第一音乐情感和第一图像情感对应的相关值; 步骤 4: 将第 j个相关值和第 j个第一图像情感的置信度的乘积, 与第 1个第一音乐情感 对应第 j-1个第一图像情感的第 j-1个评分的和,确定为第 1个第一音乐情感对应第 j个第一图 像情感的第 j个评分; 将 J加 1, 重复执行步骤 2、 步骤 3、 步骤 4, 直至』等于 Y时, 得到第 1个第一音乐情感 对应第 Y个第一图像情感的第 Y个评分; 将第 Y个评分与至少一个第一图像情感的置信度之和的比值, 确定为第 i个第一音乐情 感对应图像情感的评分;
1取值为 1至 X之间的整数, 』取值为 1至 Y之间的整数, X为至少一个第一音乐情感的 情感总数量, Y为至少一个第一图像情感的情感总数量。 在一种可能的设计中, 分析结果为至少一张图像对应图像风格的风格分析结果, 风格分 析结果包括至少一个第一图像风格; 属性信息中包括待选音乐的音乐情感和音乐曲风, 音乐 曲风中包括至少一个第一音乐曲风, 音乐情感中包括至少一个第一音乐情感; 第三确定模块 14具体用于: 根据至少一个第一图像风格、 至少一个第一音乐曲风和预先 存储的第一预设列表, 确定音乐曲风对应图像风格的第三评分; 第一预设列表中包括多个第 一图像风格和每个第一图像风格对应的第一音乐曲风; 根据至少一个第一图像风格、 至少一 个第一音乐情感和预先存储的第二预设列表, 确定音乐情感对应图像风格的第四评分; 第二 预设列表中包括多个第一图像风格和每个第一图像风格对应的第一音乐情感; 将第三评分和 第四评分的和, 确定为待选音乐对应图像风格的第一评分。 在一种可能的设计中, 第三确定模块 14具体用于: 针对每个第一图像风格, 在第一预设 列表中查找第一图像风格对应的第一音乐曲风; 若至少一个第一音乐曲风中存在查找到的第 一图像风格对应的第一音乐曲风, 则获取查找到的第一图像风格对应的第一音乐曲风的评分; 将查找到的第一图像风格对应的第一音乐曲风的评分的和, 确定为音乐曲风对应第一图像风 格的评分; 将音乐曲风对应每个第一图像风格的评分中的最大评分, 确定为音乐曲风对应图 像风格的第三评分。 在一种可能的设计中, 分析结果为至少一张图像对应图像主题的主题分析结果, 主题分 析结果包括至少一个第一图像主题; 属性信息中包括待选音乐的音乐场景、 音乐情感和音乐 曲风, 音乐场景中包括至少一个第一音乐场景, 音乐情感中包括至少一个第一音乐情感, 音 乐曲风中包括至少一个第一音乐曲风; 第三确定模块 14具体用于: 根据至少一个第一图像主题、 至少一个第一音乐场景和预先 存储的第三预设列表, 确定音乐场景对应图像主题的第五评分; 第三预设列表中包括多个第 一图像主题和每个第一图像风格对应的第一音乐场景; 根据至少一个第一图像主题、 至少一 个第一音乐情感和预先存储的第四预设列表, 确定音乐情感对应图像主题的第六评分; 第四 预设列表中包括多个第一图像主题和每个第一图像风格对应的第一音乐情感; 根据至少一个 第一图像主题、 至少一个第一音乐曲风和预先存储的第五预设列表, 确定音乐曲风对应图像 主题的第七评分; 第五预设列表中包括多个第一图像主题和每个第一图像风格对应的第一音 乐曲风; 将第五评分、 第六评分和第七评分的和, 确定为待选音乐对应图像主题的第一评分。 在一种可能的设计中, 第三确定模块 14具体用于: 针对每个图像分类标签, 确定待选音 乐对应图像分类标签的第一评分与图像分类标签对应的权重的乘积, 得到图像分类标签对应 的第一乘积; 将 N个图像分类标签对应的第一乘积与待选音乐的初始评分的和, 确定为待选 音乐的目标评分。 在一种可能的设计中, 第一确定模块 11具体用于: 根据预先设定的 N个图像分类标签, 分别通过 N个图像分类标签各自对应的图像分析模型, 对至少一张图像进行分析处理, 得到 至少一张图像对应图像分类标签的分析结果; N个图像分类标签各自对应的图像分析模型为 通过 N个图像分类标签各自对应的多个样本图像进行训练得到的。 在一种可能的设计中, 第二确定模块 12具体用于: 通过预先训练的音乐匹配模型, 分别 对至少一张图像和每个待选音乐进行处理, 得到每个待选音乐的属性信息, 音乐匹配模型为 采用多个样本图像和多个样本音乐进行训练得到的。 本申请实施例提供的音乐筛选装置 10可以执行上述道路状态检测, 其实现原理以及有益 效果类似, 此处不再进行赘述。 图 10本申请实施例提供的终端设备的硬件示意图。如图 10所示,终端设备 20可以包括: 收发器 21、 存储器 22、 处理器 23。 收发器 21可以包括: 发射器和 /或接收器。 发射器还可称为发送器、 发射机、 发送端口或发送接口等类似描述。 接收器还可称为接收器、 接收机、 接收端口或接收接口等类似描述。 示例性地, 收发器 21、 存储器 22、 处理器 23各部分之间通过总线 24相互连接。 存储器 22用于存储计算机执行指令; 处理器 23用于执行存储器 22存储的计算机执行指令, 使得处理器 23执行上述音乐筛选 方法。 本申请实施例提供一种计算机可读存储介质, 计算机可读存储介质中存储有计算机执行 指令, 当计算机执行指令被处理器执行时实现上述任一方法实施例的音乐筛选方法。 本申请实施例提供一种计算机程序产品, 包括计算机程序, 计算机程序被处理器执行时 实现上述任一方法实施例的音乐筛选方法。 本申请实施例提供一种计算机程序, 计算机程序被处理器执行时实现上述任一方法实施 例的音乐筛选方法。 实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。 前述的 程序可以存储于一可读取存储器中。 该程序在执行时, 执行包括上述各方法实施例的步骤; 而前述的存储器 (存储介质)包括: 只读存储器 (read-only memory, ROM) 、 随机存取存储 器 (random access memory, RAM) 、 快闪存储器、 硬盘、 固态硬盘、 磁带 ( magnetic tape ) 、 软盘 (floppy disk) 、 光盘 (optical disc) 及其任意组合。 本申请实施例是参照根据本申请实施例的方法、 设备 (系统) 、 和计算机程序产品的流 程图和 /或方框图来描述的。 应理解可由计算机程序指令实现流程图和 /或方框图中的每一 流程和 /或方框、 以及流程图和 /或方框图中的流程和 /或方框的结合。 可提供这些计算机 程序指令到通用计算机、 专用计算机、 嵌入式处理机或其他可编程数据处理设备的处理单元 以产生一个机器, 使得通过计算机或其他可编程数据处理设备的处理单元执行的指令产生用 于实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能的装 置。 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工 作的计算机可读存储器中, 使得存储在该计算机可读存储器中的指令产生包括指令装置的制 造品, 该指令装置实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指 定的功能。 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上, 使得在计算机或 其他可编程设备上执行一系列操作步骤以产生计算机实现的处理, 从而在计算机或其他可编 程设备上执行的指令提供用于实现在流程图一个流程或多个流程和 /或方框图一个方框或多 个方框中指定的功能的步骤。 显然, 本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请的精 神和范围。 这样, 倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的 范围之内, 则本申请也意图包含这些改动和变型在内。 在本申请中, 术语 “包括”及其变形可以指非限制性的包括; 术语 “或”及其变形可以 指 “和 /或” 。 本本申请中术语 “第一”、 “第二”等是用于区别类似的对象, 而不必用于描 述特定的顺序或先后次序。 本申请中, “多个”是指两个或两个以上。 “和 /或” , 描述关联 对象的关联关系, 表不可以存在三种关系, 例如, A和 /或 B, 可以表不: 单独存在 A, 同时 存在 A和 B, 单独存在 B这三种情况。字符 “/”一般表示前后关联对象是一种 “或”的关系。 例如, “A、 B或 C”或者 “A、 B和 /或 C”意味着 “以下任一个: A; B; C; A和 B; A和 C; B和 C; A、 B和 C” 。

Claims

权 利 要 求 书
1、 一种音乐筛选方法, 其特征在于, 包括: 获取至少一张 图像和至少一个待选音乐; 根据预先设定 的 N个图像分类标签, 确定所述至少一张图像对应图像分类标签的分 析结果, N为大于或等于 1的整数; 根据所述至少 一张图像和至少一个待选音乐, 确定每个待选音乐的属性信息; 根据所 述分析结果和所述每个待选音乐的属性信息, 在所述至少一个待选音乐中确 定与所述至少一张图像匹配的 目标音乐。
2、 根据权利要求 1所述的方法, 其特征在于, 所述根据所述分析结果和所述每个待 选音乐的属性信息, 在所述至少一个待选音乐中确定与所述至少一张图像匹配的目标音 乐, 包括: 根据所 述分析结果和所述每个待选音乐的属性信息, 确定所述至少一个待选音乐的 目标评分; 按照所 述至少一个待选音乐的目标评分的大小顺序, 对所述至少一个待选音乐进行 排序, 得到音乐序列; 将所述 音乐序列中排列在前的预设数量个待选音乐, 确定为与所述至少一张图像匹 配的目标音乐。
3、 根据权利要求 2所述的方法, 其特征在于, 所述根据所述分析结果和所述每个待 选音乐的属性信息, 确定所述至少一个待选音乐的目标评分, 包括: 针对每 个待选音乐, 根据所述分析结果和所述待选音乐的属性信息, 确定待选音乐 对应每个图像分类标签的第一评分; 获取所述 N个图像分类标签各自对应的权重; 根据所述待选 音乐对应每个图像分类标签的第一评分、 所述 N个图像分类标签各自 对应的权重和所述待选音乐 的初始评分, 确定所述待选音乐的目标评分, 所述待选音乐 的初始评分包括在所述待选音乐的属性信息中。
4、 根据权利要求 3所述的方法, 其特征在于, 所述 N个图像分类标签包括如下至少 一种: 图像情感、 图像风格、 或者图像主题; 所述属性信 息还包括待选音乐的 M个音乐分类标签, M为大于或等于 1的整数; 所 述 M个音乐分类标签包括 如下至少一种: 音乐曲风、 音乐情感、 或者音乐场景。
5、 根据权利要求 4所述的方法, 其特征在于, 所述分析结果为所述至少一张图像对 应所述图像情感的情感分析结 果, 所述情感分析结果包括至少一个第一图像情感和所述 至少一个第一图像情感 的置信度; 所述属性信息包括待选音乐的音乐情感, 所述音乐情 感包括至少一个第一音乐情感; 根据所 述情感分析结果和所述音乐情感, 确定所述待选音乐对应所述图像情感的第 一评分, 包括: 根据所 述至少一个第一图像情感、 所述至少一个第一图像情感的置信度和所述至少 一个第一音乐情感, 确定所述至少一个第一音乐情感对应所述图像情感的评分; 将所述 至少一个第一音乐情感对应所述图像情感的评分的和, 与所述至少一个第一 音乐情感的情感总数量之间的比值, 确定为所述待选音乐对应所述图像情感的第一评分。
6、根据权利要求 5所述的方法, 其特征在于, 所述根据所述至少一个第一图像情感、 所述至少一个第一 图像情感的置信度和所述至少一个第一音乐情感, 确定所述至少一个 第一音乐情感对应所述图像情感的评分, 包括: 步骤 1 : 获取所述至少一个第一音乐情感中的第 1个第一音乐情感; 步骤 2: 获取所述至少一个第一图像情感中的第 j个第一图像情感; 步骤 3 : 在预先存储的相关列表中, 查找所述第 1个第一音乐情感和所述第』个第一 图像情感对应的第 j个相关值;所述相关列表中包括多个第一音乐情感和第一图像情感对 应的相关值; 步骤 4: 将所述第 j个相关值和所述第 j个第一图像情感的置信度的乘积, 与第:个 第一音乐情感对应第 j-1个第一图像情感的第 j-1个评分的和, 确定为第 1个第一音乐情 感对应所述第 j个第一图像情感的第 j个评分; 将 』加 1, 重复执行所述步骤 2、 所述步骤 3、 所述步骤 4, 直至 j等于 Y时, 得到第 1个第一音乐情感对应第 Y个第一图像情感的第 Y个评分; 将所述第 Y个评分与所述至少一个第一图像情感的置信度之和的比值, 确定为所述 第 1个第一音乐情感对应所述图像情感的评分;
1取值为 1至 X之间的整数, 』取值为 1至 Y之间的整数, X为所述至少一个第一音 乐情感的情感总数量, Y为所述至少一个第一图像情感的情感总数量。
7、 根据权利要求 4所述的方法, 其特征在于, 所述分析结果为所述至少一张图像对 应所述图像风格的风格分析结果, 所述风格分析结果包括至少一个第一图像风格; 所述 属性信息中包括待选音乐的音乐情感和音乐曲风, 所述音乐曲风中包括至少一 个第一音乐曲风, 所述音乐情感中包括至少一个第一音乐情感; 根据 所述风格分析结果、 所述音乐情感和所述音乐曲风, 确定所述待选音乐对应所 述图像风格的第一评分, 包括: 根据 所述至少一个第一图像风格、 所述至少一个第一音乐曲风和预先存储的第一预 设列表, 确定所述音乐曲风对应所述图像风格的第三评分; 所述第一预设列表中包括多 个第一图像风格和每个第一图像风格对应的第一音乐 曲风; 根据 所述至少一个第一图像风格、 所述至少一个第一音乐情感和预先存储的第二预 设列表, 确定所述音乐情感对应所述图像风格的第四评分; 所述第二预设列表中包括多 个第一图像风格和每个第一图像风格对应的第一音乐情感 ; 将所 述第三评分和所述第四评分的和, 确定为所述待选音乐对应所述图像风格的第 — 评分。
8、根据权利要求 7所述的方法, 其特征在于, 所述根据所述至少一个第一图像风格、 所述至少一个第一音乐 曲风和预先存储的第一预设列表, 确定所述音乐曲风对应所述图 像风格的第三评分, 包括: 针对 每个第一图像风格, 在所述第一预设列表中查找所述第一图像风格对应的第一 音乐曲风; 若所 述至少一个第一音乐曲风中存在查找到的所述第一图像风格对应 的第一音乐曲 风, 则获取查找到的所述第一图像风格对应的第一音乐曲风的评分; 将 查找到的所述第一图像风格对应的第一音乐曲风的评分的和 , 确定为所述音乐曲 风对应所述第一图像风格的评分; 将所述 音乐曲风对应所述每个第一图像风格的评分中的最大评分 , 确定为所述音乐 曲风对应所述图像风格的第三评分。
9、 根据权利要求 4所述的方法, 其特征在于, 所述分析结果为所述至少一张图像对 应所述图像主题的主题分析结果, 所述主题分析结果包括至少一个第一图像主题; 所述属 性信息中包括待选音乐的音乐场景、 音乐情感和音乐曲风, 所述音乐场景中 包括至少一个第一音乐场景 , 所述音乐情感中包括至少一个第一音乐情感, 所述音乐曲 风中包括至少一个第一音乐曲风; 根据所 述主题分析结果、 所述音乐场景、 所述音乐情感和所述音乐曲风, 确定所述 待选音乐对应所述图像主题的第一评分, 包括: 根据所 述至少一个第一图像主题、 所述至少一个第一音乐场景和预先存储的第三预 设列表, 确定所述音乐场景对应所述图像主题的第五评分; 所述第三预设列表中包括多 个第一图像主题和每个第一图像风格对应的第一音乐场景; 根据所 述至少一个第一图像主题、 所述至少一个第一音乐情感和预先存储的第四预 设列表, 确定所述音乐情感对应所述图像主题的第六评分; 所述第四预设列表中包括多 个第一图像主题和每个第一图像风格对应的第一音乐情感; 根据所 述至少一个第一图像主题、 所述至少一个第一音乐曲风和预先存储的第五预 设列表, 确定所述音乐曲风对应所述图像主题的第七评分; 所述第五预设列表中包括多 个第一图像主题和每个第一图像风格对应的第一音乐 曲风; 将所述 第五评分、 所述第六评分和所述第七评分的和, 确定为所述待选音乐对应所 述图像主题的第一评分。
10、 根据权利要求 3-9中任一项所述的方法, 其特征在于, 所述根据所述待选音乐对 应每个图像分类标签的第一评分、 所述 N个图像分类标签各自对应的权重和所述待选音 乐的初始评分, 确定所述待选音乐的目标评分, 包括: 针对每 个图像分类标签, 确定所述待选音乐对应每个图像分类标签的第一评分与图 像分类标签对应的权重的乘积, 得到图像分类标签对应的第一乘积; 将 N个图像分类标签对应的第一乘积与所述待选音乐的初始评分的和, 确定为所述 待选音乐的目标评分。
11、 根据权利要求 1-10中任一项所述的方法, 其特征在于, 所述根据预先设定的 N 个图像分类标签, 确定所述至少一张图像对应图像分类标签的分析结果, 包括: 根据预先设定 的所述 N个图像分类标签, 分别通过所述 N个图像分类标签各自对应 的图像分析模型, 对所述至少一张图像进行分析处理, 得到所述至少一张图像对应图像 分类标签的分析结果; 所述 N个图像分类标签各自对应的图像分析模型为通过所述 N个图像分类标签各自 对应的多个样本图像进行训练得到的。
12、 根据权利要求 1-11 中任一项所述的方法, 其特征在于, 所述根据所述至少一张 图像和至少一个待选音乐, 确定每个待选音乐的属性信息, 包括: 通过预先训练 的音乐匹配模型, 分别对所述至少一张图像和每个待选音乐进行处理, 得到所述每个待选音乐 的属性信息, 所述音乐匹配模型为采用多个样本图像和多个样本 音乐进行训练得到的。
13、 根据权利要求 1-12中任一项所述的方法, 其特征在于, 所述获取至少一张图像, 包括: 从至少 一个待处理的视频中获取至少一帧图像, 并将所述至少一帧图像确定为所述 至少一张图像; 或者, 从至少 一个待处理的视频中获取至少一帧图像, 将所述至少一帧图像和预先存储的 图像, 确定为所述至少一张图像。
14、 一种音乐筛选装置, 其特征在于, 包括: 获取模块、 第一确定模块、 第二确定 模块和第三确定模块; 其中, 所述获取模块 , 用于获取至少一张图像和至少一个待选音乐; 所述第一确定模块 , 用于根据预先设定的 N个图像分类标签, 确定所述至少一张图 像对应图像分类标签的分析结果, N为大于或等于 1的整数; 所述第 二确定模块, 用于根据所述至少一张图像和至少一个待选音乐, 确定每个待 选音乐的属性信息; 所述第 三确定模块, 用于根据所述分析结果和所述每个待选音乐的属性信息, 在所 述至少一个待选音乐中确定与所述至少一张图像匹配的 目标音乐。
15、 一种终端设备, 其特征在于, 包括: 处理器和存储器; 所述存储器存储计 算机执行指令; 所述 处理器执行所述存储器存储的所述计算机执行指令, 使得所述处理器执行上述 权利要求 1-13中任一项所述的音乐筛选方法。
16、 一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质中存储有计 算机执行指令, 当所述计算机执行指令被处理器执行时实现上述权利要求 1-13中任一项 所述的音乐筛选方法。
17、 一种计算机程序产品, 包括计算机程序, 其特征在于, 所述计算机程序被处理 器执行时实现上述权利要求 1-13中任一项所述的音乐筛选方法。
18、 一种计算机程序, 其特征在于, 所述计算机程序被处理器执行时实现上述权利 要求 1-13中任一项所述的音乐筛选方法。
PCT/SG2022/050298 2021-07-26 2022-05-10 音乐筛选方法、装置、设备、存储介质及程序产品 WO2023009057A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110843309.7A CN115687680A (zh) 2021-07-26 2021-07-26 音乐筛选方法、装置、设备、存储介质及程序产品
CN202110843309.7 2021-07-26

Publications (1)

Publication Number Publication Date
WO2023009057A1 true WO2023009057A1 (zh) 2023-02-02

Family

ID=85044167

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/SG2022/050298 WO2023009057A1 (zh) 2021-07-26 2022-05-10 音乐筛选方法、装置、设备、存储介质及程序产品

Country Status (2)

Country Link
CN (1) CN115687680A (zh)
WO (1) WO2023009057A1 (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111198958A (zh) * 2018-11-19 2020-05-26 Tcl集团股份有限公司 匹配背景音乐的方法、装置及终端
CN111259192A (zh) * 2020-01-15 2020-06-09 腾讯科技(深圳)有限公司 音频推荐方法和装置
CN111753126A (zh) * 2020-06-24 2020-10-09 北京字节跳动网络技术有限公司 用于视频配乐的方法和装置
CN111767431A (zh) * 2020-06-29 2020-10-13 北京字节跳动网络技术有限公司 用于视频配乐的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111198958A (zh) * 2018-11-19 2020-05-26 Tcl集团股份有限公司 匹配背景音乐的方法、装置及终端
CN111259192A (zh) * 2020-01-15 2020-06-09 腾讯科技(深圳)有限公司 音频推荐方法和装置
CN111753126A (zh) * 2020-06-24 2020-10-09 北京字节跳动网络技术有限公司 用于视频配乐的方法和装置
CN111767431A (zh) * 2020-06-29 2020-10-13 北京字节跳动网络技术有限公司 用于视频配乐的方法和装置

Also Published As

Publication number Publication date
CN115687680A (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
CN109547814B (zh) 视频推荐方法、装置、服务器及存储介质
US11461388B2 (en) Generating a playlist
US10566009B1 (en) Audio classifier
CN109862393B (zh) 视频文件的配乐方法、系统、设备及存储介质
CN111259192B (zh) 音频推荐方法和装置
CN107481327A (zh) 关于增强现实场景的处理方法、装置、终端设备及系统
CN106021496A (zh) 视频搜索方法及视频搜索装置
CN111901626A (zh) 背景音频确定方法、视频剪辑方法、装置和计算机设备
WO2021135701A1 (zh) 一种信息推荐的方法及装置、电子设备、存储介质
CN111695422B (zh) 视频标签获取方法、装置、存储介质及服务器
CN109271533A (zh) 一种多媒体文件检索方法
CN115428469A (zh) 用于无声视频的ai辅助音效生成
CN110753256B (zh) 录像回放的方法、装置、存储介质及计算机设备
US20160308795A1 (en) Method, system and apparatus for configuing a chatbot
CN111989665A (zh) 设备上图像识别
US20220408131A1 (en) Image analysis system
CN106649696A (zh) 信息分类方法及装置
CN110347866A (zh) 信息处理方法、装置、存储介质及电子设备
CN106611045A (zh) 一种智能交互方法、装置及智能终端
CN111783873A (zh) 基于增量朴素贝叶斯模型的用户画像方法及装置
WO2021066530A1 (en) Co-informatic generative adversarial networks for efficient data co-clustering
CN110493612A (zh) 弹幕信息的处理方法、服务器及计算机可读存储介质
CN109992679A (zh) 一种多媒体数据的分类方法及装置
JP2012194691A (ja) 識別器の再学習方法、再学習のためのプログラム、及び画像認識装置
JP6645779B2 (ja) 対話装置および対話プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22849987

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18570310

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE