WO2022093111A1 - 基于用户交互的音乐播放方法、装置、设备及存储介质 - Google Patents

基于用户交互的音乐播放方法、装置、设备及存储介质 Download PDF

Info

Publication number
WO2022093111A1
WO2022093111A1 PCT/SG2021/050513 SG2021050513W WO2022093111A1 WO 2022093111 A1 WO2022093111 A1 WO 2022093111A1 SG 2021050513 W SG2021050513 W SG 2021050513W WO 2022093111 A1 WO2022093111 A1 WO 2022093111A1
Authority
WO
WIPO (PCT)
Prior art keywords
target
music
action
video
user
Prior art date
Application number
PCT/SG2021/050513
Other languages
English (en)
French (fr)
Inventor
熊涛
朱世光
黄昊
栗韶远
孙晨雨
Original Assignee
脸萌有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 脸萌有限公司 filed Critical 脸萌有限公司
Priority to JP2023503418A priority Critical patent/JP2023534975A/ja
Priority to EP21887046.7A priority patent/EP4170589A4/en
Publication of WO2022093111A1 publication Critical patent/WO2022093111A1/zh
Priority to US18/087,576 priority patent/US11886484B2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • G06F16/436Filtering based on additional data, e.g. user or group profiles using biological or physiological data of a human being, e.g. blood pressure, facial expression, gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/44Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • G10H2220/096Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith using a touch screen
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • G10H2220/101Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters
    • G10H2220/106Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters using icons, e.g. selecting, moving or linking icons, on-screen symbols, screen regions or segments representing musical elements or parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/155User input interfaces for electrophonic musical instruments
    • G10H2220/441Image sensing, i.e. capturing images or optical patterns for musical purposes or musical control purposes
    • G10H2220/455Camera input, e.g. analyzing pictures from a video camera and using the analysis results as control data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/325Synchronizing two or more audio tracks or files according to musical features or musical timings

Definitions

  • Video creation with music based on music cannot meet the needs of music lovers who want to edit music according to their own preferences and create their own personalized music. It can be seen that when the user selects music for creation through the multimedia interactive platform, the selected music can only be known, resulting in insufficient personalization of the music created by the user and poor user experience.
  • the purpose of the present disclosure is to solve at least one of the above-mentioned technical defects, especially when a user selects music to create through a multimedia interactive platform, the selected music can only be known, resulting in personalized music created by the user. Not enough, technical flaws of poor user experience.
  • a method for playing music based on user interaction is provided.
  • the method includes: collecting a target video through a video capture device; when a target object is identified in the target video and showing a target action, determining the audio corresponding to the target action processing method; Music is played according to the audio processing described.
  • a music playback device based on user operation is provided, and the device includes: a target video capture module for capturing target video through a video capture device; a target action recognition module for identifying when the target video is detected The target object presents a target action, and determines an audio processing mode corresponding to the target action; a music playing module is configured to play music according to the audio processing mode.
  • an electronic device comprising: one or more processors; a memory; one or more application programs, wherein the one or more application programs are stored in the memory and accessed by Configured to be executed by the one or more processors, the one or more programs are configured to: execute the above-mentioned method for playing music based on user interaction.
  • a storage medium stores at least one instruction, at least one piece of program, code set or instruction set, the at least one instruction, the at least one piece of program, the code set or the instruction set Loaded and executed by the processor to implement the above-mentioned music playing method based on user interaction.
  • a target video is collected by a video capture device, and when a target object in the target video is identified to generate a target action, a corresponding audio processing method is determined based on the target action, and music is played according to the audio processing method.
  • FIG. 2 is a schematic diagram of a music material identification display provided by an embodiment of the present disclosure
  • a schematic flowchart of a music material identification selection method FIG. 4 is a schematic diagram of a music material selection option provided by an embodiment of the present disclosure
  • FIG. 5 is a schematic diagram of acquiring an interactive operation provided by an embodiment of the present disclosure
  • FIG. 6 is a schematic structural diagram of a music playback device based on user interaction provided by an embodiment of the present disclosure
  • FIG. 7 is a device provided by an embodiment of the present disclosure Schematic diagram of the structure.
  • the user interaction-based music playing method, device, electrical device and storage medium provided by the present disclosure are intended to solve the above technical problems of the known technology.
  • the technical solutions of the present disclosure and how the technical solutions of the present disclosure solve the above-mentioned technical problems will be described in detail below with specific examples.
  • the following specific embodiments may be combined with each other, and the same or similar concepts or processes may not be repeated in some embodiments.
  • the embodiments of the present disclosure will be described below with reference to the accompanying drawings.
  • An embodiment of the present disclosure provides a method for playing music based on user interaction. As shown in FIG.
  • the method includes: Step S101 , collecting a target video through a video capture device; Step S102 , when a target is identified in the target video The object presents the target action, and the audio processing mode corresponding to the target action is determined; Step S103, music is played according to the audio processing mode.
  • the user interaction-based music playback method provided by the embodiment of the present disclosure is applied to a terminal device, which may be an APP (Application) in the terminal device, or a function in a certain APP; the user terminal can be configured with There is a video capture device, which can optionally be a front camera. The user can trigger the music playback trigger operation of the music playback method through the terminal device.
  • APP Application
  • the terminal device captures the target video through the video capture device based on the music playback trigger operation.
  • the corresponding audio processing method is determined according to the target action, and music is played according to the audio processing method.
  • the user can create personalized music according to his own operation, and music creation is not subject to At the same time, it enhances the fun of music creation and enhances the user experience.
  • the music playback trigger operation refers to the operation of the user opening an APP based on the user interaction-based music playback method provided by the present disclosure, or the operation of starting a certain function implemented based on the method in the APP, Wherein, this function can realize the music playing method based on user operation provided by the present disclosure.
  • the target object may be a certain part of the human body in the target video, such as a hand, a foot, a mouth, etc.
  • the target action may be a movement of a hand, a foot, or opening and closing of a mouth.
  • a corresponding audio processing mode may be determined according to the target action presented by the target object, and music is played according to the audio processing mode.
  • the present disclosure can be
  • the music playback method based on user interaction provided by the embodiment is implemented as a music editing function in an APP, and the user's music generation triggering operation may be an operation of opening the function in the APP, such as clicking on this function in the APP interface.
  • the virtual button corresponding to the function, or the function is activated through operations such as voice or gesture, the terminal device responds to the music generation trigger operation, and collects the target video through the video capture device.
  • the target video can be displayed through the display interface of the terminal device, And identify the content in the target video.
  • the audio processing method corresponding to the target action is determined.
  • the target object may be a certain part of the body of the character in the target video.
  • the target action can be the movement of the hand or foot or the opening and closing of the mouth.
  • the target action presented by the target object may be that the hand of the character in the target video touches a certain part of the playback interface in the video.
  • the audio processing mode associated with the part is determined.
  • the audio processing modes corresponding to different parts are different. After the corresponding audio processing mode is determined, music is played according to the audio processing mode.
  • a target video is captured by a video capture device, and when a target object is identified in the target video showing a target action, a corresponding audio processing method is determined according to the target action, and music is played according to the audio processing method.
  • the embodiment of the present disclosure provides a possible implementation manner, and in this implementation manner, the audio processing manner is specifically: adding a target audio track corresponding to the target action in the music for playback.
  • a target track corresponding to the target action when playing music according to the track processing method, a target track corresponding to the target action may be added to the music for playback.
  • different target actions may correspond to different audio processing modes, and different audio processing modes may correspond to playing different audio tracks.
  • the audio when playing music according to the audio processing mode, the audio may be added to the music.
  • the audio track corresponding to the processing method is played.
  • the audio track may be a preset piece of music, or a preset piece of music played by a musical instrument.
  • the corresponding audio track may be determined based on the target action, and the audio track is added to the music for playback.
  • the track determined based on the target action is a piece of music played by the piano, and when the music is played according to the audio processing method, it may be added to the music The music played by the piano is played.
  • the embodiment of the present disclosure determines the corresponding audio processing mode based on the target action, and determines the corresponding audio track. When playing music according to the audio processing mode, the corresponding audio track is added to the music for playback. The user can add different audio tracks to the music through actions. Tracks, music can be creative.
  • the embodiment of the present disclosure provides a possible implementation manner. In this implementation manner, the target action is specifically: on the playback interface of the target video, the target object touches a target position on the playback interface.
  • the target position corresponds to the target audio track.
  • the target video will be displayed through the playback interface, and the target object is the hand of the character in the target video.
  • the target action is that the hand touches a certain position in the playback interface.
  • the target action touches a certain position in the playback interface. Touch different positions, the corresponding target tracks are different.
  • the target audio track corresponds to the target position of the playback interface.
  • the target action touches a certain position on the playback interface, it is determined that the audio processing method corresponding to the target action is playback corresponding to the position. 's audio track.
  • the track corresponding to the upper left corner of the playback interface is a piece of music played by a guitar, then when the target action is identified as touching the upper left corner of the playback interface, the piece of music played by the guitar is added to the music to play.
  • the embodiment of the present disclosure triggers the playback of the audio track by corresponding the position of the audio track with the position of the playback interface, and triggers the playback of the audio track through the touch of the target object in the video on the playback interface, and performs music creation.
  • the embodiment of the present disclosure provides a possible implementation manner, in which the target audio track is used to carry the audio of the target music material; and the target position on the playback interface is marked with the audio of the target music material. logo.
  • the playback interface displays at least one music material identifier 202 in the playback interface 201, wherein one music material identifier represents a musical instrument, such as a piano, a drum set, a Harmonica, etc., based on the target action of the target object in the target video to determine its corresponding music identifier
  • the music material identifier displayed in the playback interface may be preconfigured, and the preconfigured music material identifier may be It is the identification of one or more kinds of music materials that are fixed, or it can be the identification of one or more kinds of music materials that are automatically configured according to different music or different music types.
  • the user can select the music or music he wants to edit. type, the terminal device displays at least one corresponding music material identifier according to the music or music type selected by the terminal device after the user's selection operation is introduced.
  • the music to be played may be a song selected by the user in advance, or a preconfigured song provided by the APP, and the icon of the piano in the playback interface corresponding to the target action.
  • the music track of the piano is added to the music and played.
  • the user can select music, and based on the user's music selection operation, a music selection interface is displayed, and the music to be selected is displayed in the music selection interface.
  • the music material identifier may include an identifier of a music material corresponding to a track included in the music selected by the user, and the music material identifier may further include identifiers of other music materials.
  • the user may click on multiple music material identifiers at the same time, and at this time, the audio tracks corresponding to the multiple music materials will be output.
  • the user by displaying the identification of the music material at the target position of the playback interface, the user can select the tracks corresponding to different music materials to process the music according to the music requirements.
  • the embodiment of the present disclosure provides a possible implementation manner.
  • the audio processing manner is specifically: the music is processed and played according to the target sound effect corresponding to the target action, and the target action is specifically is: an action matching a preset gesture; the preset gesture is corresponding to the target sound effect.
  • specific special effects can be added to music by identifying the target action in the user's video.
  • the target object may be a user's hand, mouth, head, eyes, etc., and music special effects are added to the music based on the target action of the target object.
  • specific processing may be performed for the music corresponding to the music material identification corresponding to the target object, such as the finger extension action when the user's hand stays in the display area of the piano identification, The loudness, pitch, etc. of the piano track is adjusted based on this stretching action.
  • the target object is the user's mouth, and based on the opening and closing of the user's mouth, a vibrato effect is added to the music, for example, when the user's mouth is opened, a vibrato effect is added to the music.
  • the manner of adding music special effects is not limited to the embodiments provided in the present disclosure. In the embodiments of the present disclosure, music special effects are added to music through target actions, and music creation is more diverse.
  • a music material selection option is displayed in the playback interface, and the method further includes: Step S301 , after receiving the user's request for music When the material selection option is triggered, a list of candidate music material identifiers is displayed; Step S302, the user's music material selection operation is received through each candidate music material identifier list, and at least one music material identifier corresponding to the music material selection operation is determined. music material logo.
  • the identification of the music material displayed in the playing interface may be selected by the user.
  • a specific embodiment is taken as an example. As shown in FIG.
  • the playback interface 401 displays a music material selection option 402.
  • a trigger operation for the music material selection option is performed, a list of candidate music material identifiers is displayed, and the user's music material selection operation is received through the candidate music material identifier list, and the music material identifier corresponding to the music material selection operation is determined.
  • At least one music material identification is Specifically, according to the user's selection operation, all the music materials selected by the user can be identified as the music materials displayed on the music generation interaction and interface.
  • Music material when the music material selected by the user does not all contain the music material contained in the music, the logo of the music material selected by the user can be displayed on the playback interface, and the music material not selected by the user but included in the music can be displayed. Also displayed in the playback interface.
  • the terminal device when the terminal device responds to the user's music generation trigger operation, it opens the video capture device, obtains the user's video through the video capture device, and records the user's video. The video is displayed on the playback interface. As shown in FIG.
  • the user video 502 and at least one music material identifier 503 are displayed in the playback interface 501, the target object 504 in the user video is identified, and the target object 504 and the music material identifier 503 are obtained.
  • the interactive operation between the target object and the music material identification may be the target object staying in the display area of the music material identification, or the action of the target object in the display area of the music material identification,
  • the music is generated according to the audio track corresponding to the music material identification involved in the interactive operation.
  • the music material selection option is displayed on the playback interface, and the user's selection operation on the music material is received. Based on the selection operation, the identification of the music material to be displayed on the playback interface is determined.
  • a possible implementation manner is provided in the embodiment of the present disclosure.
  • the touch action is determined as a target action.
  • whether the touch action is the target action is determined by the duration of the touch action of the target object.
  • the target object is the user's hands in the user video
  • the stay time of the user's hands in the music material identification display area it is determined whether the music material identification corresponds to The audio track is output as music, specifically, when the user's hand
  • the staying time in the area displayed by the music material identifier is greater than 0.3 seconds
  • music is generated according to the audio track of the music material identifier.
  • the time threshold can be set by those skilled in the art according to actual conditions, which is not limited in the present disclosure. A possible implementation manner is provided in the embodiment of the present disclosure.
  • generating music according to the audio track identified by the target music material targeted by the interactive operation includes: if the target sound effect corresponding to the target action is at the same time At least two, the at least two target sound effects are beat-aligned, and the at least two target sound effects after the beat-alignment are played simultaneously.
  • there may be multiple objects that the target object interacts with at the same time and when there are multiple music material identifiers that interact with the target object, the beat alignment is performed on the tracks corresponding to the multiple music material identifiers. , and synthesizes the aligned tracks into music.
  • the user video is displayed on the playback interface, wherein the target object in the user video screen is the user's video.
  • the user's hands may interact with two music material identifiers at the same time, then the beats of the audio tracks corresponding to the two music material identifiers are aligned, and the aligned two audio tracks are synthesized into music.
  • the user's hands interact with the logos of the piano and the drum set at the same time, then according to the start time of the interactive operation between the user and the two logos, the tracks of the piano and the drum set are rhythmically aligned.
  • the user If there is an interactive operation with the logo of the piano first, the audio track corresponding to the piano starts to be played. When the audio track corresponding to the piano is played, the user's hand interacts with the logo of the drum kit. The next beat that interacts with the drum kit starts to play the audio track corresponding to the drum kit, completes the beat alignment of the two audio tracks, and synthesizes the aligned two audio tracks into music.
  • the music corresponding to the multiple music material identifiers is rhythmically aligned, and the aligned audio tracks are synthesized into music, and the user can simultaneously identify the multiple music material identifiers Interact to form a more diverse music.
  • An embodiment of the present disclosure provides a music playback device based on user interaction. As shown in FIG.
  • the music playback device 60 based on user interaction may include: an interface display module 601, an operation acquisition module 602, and a music generation module 603, wherein an interface display module, configured to display a playback interface in response to a user's music generation trigger operation, wherein the playback interface displays at least one music material identifier;
  • the target video acquisition module 601 is used to collect the target video through a video capture device;
  • the target action recognition module 602 is used to determine the audio processing method corresponding to the target action when the target object is identified in the target video and presents the target action; music Playing module 603, configured to play music according to the audio processing mode.
  • the audio processing mode is specifically: adding a target audio track corresponding to the target action to the music for playback.
  • the target action recognition module 602 recognizes that the target object presents the target action in the target video, and determines the audio processing mode corresponding to the target action
  • the target action is specifically: during the playback of the target video
  • the target audio track is used to carry the audio of the target music material; and the target position on the playing interface is marked with an identifier of the target music material.
  • the audio processing method is specifically: processing the music according to the target sound effect corresponding to the target action and then playing the music.
  • the target action recognition module 602 recognizes that the target object presents the target action in the target video and determines the audio processing mode corresponding to the target action
  • the target action is specifically: Action; the preset gesture corresponds to the target sound effect.
  • the target action recognition module 602 is further configured to: display a list of candidate music material identifiers when receiving a triggering operation from a user for a music material selection option; and receive a user's selection of music material through the candidate music material identifier lists The operation is to determine the target music material identifier according to the candidate music material identifier corresponding to the music material selection operation.
  • the music playing module 603 plays the music according to the target sound effect corresponding to the target action.
  • the user-interaction-based music playback device in the embodiment of the present disclosure can execute the user-interaction-based music playback method shown in the foregoing embodiments of the present disclosure, and the implementation principles thereof are similar, and are not repeated here.
  • a playback interface is displayed based on a user's music generation trigger operation
  • a music material identifier is displayed on the playback interface
  • an interactive operation of the user on the displayed music material identifier is acquired based on the playback interface, and a target music corresponding to the interactive operation is obtained.
  • the audio track identified by the material generates music, and the user can create personalized music according to his own operation.
  • the music creation is not constrained, and at the same time, the fun of music creation is improved, and the user experience is improved.
  • FIG. 7 it shows a schematic structural diagram of an electronic device 700 suitable for implementing an embodiment of the present disclosure.
  • Terminal devices in the embodiments of the present disclosure may include, but are not limited to, mobile phones, notebook computers, digital broadcast receivers, PDAs (personal digital assistants), PADs (tablets), PMPs (portable multimedia players), vehicle-mounted terminals (eg, mobile terminals such as in-vehicle navigation terminals), etc., and stationary terminals such as digital TVs, desktop computers, and the like.
  • PDAs personal digital assistants
  • PADs tablets
  • PMPs portable multimedia players
  • vehicle-mounted terminals eg, mobile terminals such as in-vehicle navigation terminals
  • stationary terminals such as digital TVs, desktop computers, and the like.
  • the electronic device shown in FIG. 7 is only an example, and should not impose any limitation on the function and scope of use of the embodiments of the present disclosure.
  • the electronic device includes: a memory and a processor, wherein the processor here may be referred to as a processing device 701 below, and the memory may include a read-only memory (ROM) 702, a random access memory (RAM) 703, and a storage device 708 in the following At least one of the items is as follows: As shown in FIG. 7 , the electronic device 700 may include a processing device (eg, a central processing unit, a graphics processing unit, etc.) 701 , which may A program or a program loaded from a storage device 708 into a random access memory (RAM) 703 executes various appropriate actions and processes. In the RAM 703, various programs and data necessary for the operation of the electronic device 700 are also stored.
  • a processing device eg, a central processing unit, a graphics processing unit, etc.
  • RAM random access memory
  • the processing device 701 , the ROM 702 and the RAM 703 are connected to each other through a bus 704 .
  • An input/output (I/ O ) interface 705 is also connected to the bus 704.
  • the following devices can be connected to the I/O interface 705: including, for example, a touch screen, touch pad, keyboard, mouse, camera, microphone, accelerometer, gyroscope, etc.
  • the input device 706 the output device 707 including eg a liquid crystal display (LCD), a speaker, a vibrator, etc.
  • the storage device 708 including, eg, a magnetic tape, a hard disk, etc.
  • Communication device 709 may allow electronic Device 700 communicates wirelessly or wiredly with other devices to exchange data.
  • FIG. 7 shows an electronic device 700 having various means, it should be understood that not all of the illustrated means are required to be implemented or available. More or fewer devices may alternatively be implemented or provided.
  • the processes described above with reference to the flowcharts may be implemented as computer software programs.
  • embodiments of the present disclosure include a computer program product comprising a computer program carried on a non-transitory computer readable medium, the computer program containing program code for performing the method illustrated in the flowchart.
  • the computer program may be downloaded and installed from the network via the communication device 709 , or from the storage device 708 , or from the ROM 702 .
  • the computer-readable medium mentioned above in the present disclosure may be a computer-readable signal medium or a computer-readable storage medium, or any combination of the above two.
  • the computer readable storage medium can be, for example, but not limited to, an electrical, magnetic, optical, electromagnetic, infrared, or semiconductor system, apparatus or device, or any combination of the above.
  • Computer readable storage media may include, but are not limited to: electrical connections with one or more wires, portable computer disks, hard disks, random access memory (RAM), read only memory (ROM), erasable Programmable read only memory (EPROM or flash memory), optical fiber, portable compact disk read only memory (CD-ROM), optical storage devices, magnetic storage devices, or any suitable combination of the above.
  • a computer-readable storage medium may be any tangible medium that contains or stores a program that can be used by or in conjunction with an instruction execution system, apparatus, or device.
  • a computer-readable signal medium may include a data signal propagated in baseband or as part of a carrier wave, carrying computer-readable program code therein.
  • a computer-readable signal medium can also be any computer-readable medium other than a computer-readable storage medium that can transmit, propagate, or transmit a program for use by or in conjunction with an instruction execution system, apparatus, or device .
  • the program code embodied on the computer-readable medium may be transmitted by any suitable medium, including but not limited to: wire, optical fiber cable, RF (radio frequency), etc., or any suitable combination of the above.
  • the client and the server can utilize any currently known or future developed network such as HTTP (HyperText Transfer Protocol). protocol and can be interconnected with any form or medium of digital data communication (eg, a communication network).
  • Examples of communication networks include local area networks (“LAN”), wide area networks (“WAN”), the Internet (eg, the Internet), and peer-to-peer networks (eg, ad hoc peer-to-peer networks), as well as any currently known or future development network of.
  • LAN local area networks
  • WAN wide area networks
  • Internet eg, the Internet
  • peer-to-peer networks eg, ad hoc peer-to-peer networks
  • the above-mentioned computer-readable medium may be included in the above-mentioned electronic device; or may exist alone without being assembled into the electronic device.
  • the above-mentioned computer-readable medium carries one or more programs, and when the above-mentioned one or more programs are executed by the electronic device, the electronic device: In response to a user's music generation trigger operation, a playback interface is displayed, wherein in the playback interface At least one music material identification is displayed; based on the playback interface, the user's interactive operation on the displayed music material identification is acquired; music is generated according to the track identified by the target music material identified by the interactive operation.
  • Computer program code for carrying out operations of the present disclosure may be written in one or more programming languages, including but not limited to object-oriented programming languages such as Java, Smalltalk. C++, and This includes conventional procedural programming languages such as "C" or similar programming languages.
  • the program code may execute entirely on the user's computer, partly on the user's computer, as a stand-alone software package, partly on the user's computer and partly on a remote computer, or entirely on the remote computer or server.
  • the remote computer may be connected to the user's computer through any kind of network, including a local area network (LAN) or a wide area network (WAN), or may be connected to an external computer (eg, using an Internet service provider to connect) .
  • LAN local area network
  • WAN wide area network
  • each block in the flowchart or block diagram may represent a module, program segment, or part of code that contains one or more logic functions for implementing the specified executable instructions.
  • the functions noted in the block may occur out of the order noted in the figures. For example, two blocks shown in succession may, in fact, be executed substantially concurrently, or the blocks may sometimes be executed in the reverse order, depending upon the functionality involved.
  • each block in the block diagrams and/or flowcharts, and combinations of blocks in the block diagrams and/or flowcharts can be implemented by dedicated hardware-based systems that perform the specified functions or operations , or can be implemented using a combination of dedicated hardware and computer instructions.
  • the modules or units involved in the embodiments of the present disclosure may be implemented in a software manner, and may also be implemented in a hardware manner. Wherein, the name of the module or unit does not constitute a limitation of the unit itself under certain circumstances.
  • the functions described herein above may be performed, at least in part, by one or more hardware logic components.
  • exemplary types of hardware logic components include: Field Programmable Gate Arrays (FPGAs), Application Specific Integrated Circuits (ASICs), Application Specific Standard Products (ASSPs), Systems on Chips (SOCs), Complex Programmable Logical Devices (CPLDs) and more.
  • a machine-readable medium may be a tangible medium that may contain or store a program for use by or in connection with an instruction execution system, apparatus, or device.
  • the machine-readable medium may be a machine-readable signal medium or a machine-readable storage medium.
  • Machine-readable media may include, but are not limited to, electronic, magnetic, optical, electromagnetic, infrared, or semiconductor systems, devices, or devices, or any suitable combination of the foregoing.
  • machine-readable storage media would include one or more wire-based electrical connections, portable computer disks, hard disks, random access memory (RAM), read only memory (ROM), erasable programmable read only memory (EPROM or flash memory), fiber optics, compact disk read only memory (CD-ROM), optical storage devices, magnetic storage devices, or any suitable combination of the foregoing.
  • RAM random access memory
  • ROM read only memory
  • EPROM or flash memory erasable programmable read only memory
  • CD-ROM compact disk read only memory
  • a possible implementation includes: capturing a target video through a video capture device; when the target video is It is recognized that the target object presents the target action, and the audio processing mode corresponding to the target action is determined; and the music is played according to the audio processing mode.
  • the audio processing method specifically includes: adding a target audio track corresponding to the target action in the music for playback.
  • the target action is specifically: on the playback interface of the target video, the target object touches the target position on the playback interface; the target position corresponds to the target audio track of.
  • the target audio track is used to carry the audio of the target music material; and the target position on the playback interface is marked with an identifier of the target music material.
  • the audio processing method is specifically: according to the target sound corresponding to the target action The music is processed and played.
  • the target action is specifically: an action that matches a preset posture; the preset posture corresponds to the target sound effect.
  • the method further includes: when receiving a triggering operation of the user for the music material selection option, displaying each candidate music material identification list; receiving the user's music material selection operation through the each candidate music material identification list, according to the The identification of the candidate music material corresponding to the music material selection operation is determined, and the identification of the target music material is determined. Further, when the duration of the touch action reaches a preset threshold, the touch action is determined as a target action. Further, the playing the music after processing the music according to the target sound effects corresponding to the target actions includes: if there are at least two target sound effects corresponding to the target actions at the same time, playing the at least two target sound effects Perform beat alignment, and simultaneously play the at least two target sound effects after beat alignment.
  • a user interaction-based music playback device including: a target video capture module, configured to capture a target through a video capture device video; a target action recognition module, for determining an audio processing mode corresponding to the target action when a target object is identified in the target video to present a target action; a music playing module for playing music according to the audio processing mode.
  • the audio processing mode is specifically: adding a target audio track corresponding to the target action to the music for playback.
  • the target action recognition module 602 recognizes that the target object presents the target action in the target video, and determines the audio processing mode corresponding to the target action
  • the target action is specifically: during the playback of the target video
  • the target audio track is used to carry the audio of the target music material; and the target position on the playing interface is marked with an identifier of the target music material.
  • the audio processing method is specifically: processing the music according to the target sound effect corresponding to the target action and then playing the music.
  • the target action recognition module 602 when the target action recognition module 602 recognizes that the target object presents the target action in the target video and determines the audio processing mode corresponding to the target action, the target action is specifically: Action; the preset gesture corresponds to the target sound effect.
  • the target action recognition module 602 is further configured to: display a list of candidate music material identifiers when receiving a triggering operation from a user for a music material selection option; and receive a user's selection of music material through the candidate music material identifier lists The operation is to determine the target music material identifier according to the candidate music material identifier corresponding to the music material selection operation.
  • the duration of the touch action reaches a preset threshold, the touch action is determined as a target action.
  • the music playing module 603 plays the music after processing the music according to the target sound effect corresponding to the target action, it is used to: if there are at least two target sound effects corresponding to the target action at the same time, the At least two target sound effects are beat-aligned, and the at least two target sound effects after beat-aligned are played simultaneously.
  • a device comprising: one or more processors; a memory; one or more application programs, wherein the one or more application programs are stored in the memory and accessed by Configured to be executed by one or more processors, the one or more programs are configured to: execute the above-mentioned method for playing music based on user interaction.
  • a storage medium stores at least one instruction, at least one piece of program, code set or instruction set, at least one instruction, to A few programs, code sets or instruction sets are loaded by the processor and execute the above-mentioned music playing method based on user interaction.
  • the above description is merely a preferred embodiment of the present disclosure and an illustration of the technical principles employed.
  • Those skilled in the art should understand that the scope of disclosure involved in the present disclosure is not limited to the technical solutions formed by the specific combination of the above-mentioned technical features, and should also cover the technical solutions made of the above-mentioned technical features or Other technical solutions formed by any combination of its equivalent features.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Physiology (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

一种基于用户交互的音乐播放方法、装置、设备及存储介质,涉及音乐视频技术领域。该方法包括:通过视频捕捉装置采集目标视频;当所述目标视频中识别到目标对象呈现目标动作,确定所述目标动作对应的音频处理方式;按照所述音频处理方式播放音乐。通过视频捕捉装置采集目标视频,当识别到目标视频中的目标对象产生目标动作时,基于该目标动作确定对应的音频处理方式,并根据该音频处理方式播放音乐,用户可以通过视频根据自己的操作随心所欲的创造个性化音乐,音乐创作不受拘束,同时提升音乐创作的趣味,提升用户体验。

Description

基于用 户交互的 音乐播放方 法、 装置、 设备及存储介质 本申请 要求于 2020年 10月 27日提交的中国专利 申请第 202011163846.9 的优 先权, 该中国专利 申请的全文 通过引用 的方式结合 于此以作 为本申请 的 一部 分。 技术领 域 本公 开涉及一种 基于用户 交互的音 乐播放方 法、装置、设备及存 储介质。 背景技 术 目前 , 多媒体交互平台 已经成为人 们生成中 的一个重要 的组成部 分, 用 户可 以在这些 平台上进行 视频录制 , 可以根据不同的 音乐创作不 同的视频 内 容 。 但是 , 已知的这些平台上 , 用户在进行视频 录制时, 只能够根据 用户选 择的 音乐进行视 频内容的 创作, 对于所有用户 而言, 大家只能依据系统提 供 的 、 自己从本地选择或者 网上下载 的音乐进 行视频的创 作, 不能够满足音 乐 爱好 者想要根据 自己的 喜好随意 编辑音乐 , 创造出属于自己的 个性化音 乐的 需求 。 由此 可见, 用户在通过多媒 体交互 平台选择音 乐进行创作 时, 选择的音 乐都 只能是 已知的, 导致用户创作 音乐的个 性化不够 , 用户体验不佳。 发明 内容 本公 开的目的 旨在至少 能解决上述 的技术缺 陷之一 , 特别是用户在通过 多媒 体交互平 台选择音 乐进行创作 时, 选择的音乐都只 能是已知 的, 导致用 户创作 音乐的个 性化不够 , 用户体验不佳的技 术缺陷 。 第一 方面, 提供了一种基 于用户交 互的音 乐播放方法 , 该方法包括: 通过视 频捕捉装 置采集 目标视频; 当所 述目标视频 中识别到 目标对象呈 现目标动作 , 确定所述目标动作 对 应的 音频处理方 式; 按照 所述音频处 理方式播放 音乐。 第二 方面, 提供了一种基 于用户操 作的音 乐播放装置 , 该装置包括: 目标视 频采集模 块, 用于通过视频捕捉 装置采 集目标视频 ; 目标动 作识别模 块, 用于当所述 目标视频中识别 到目标对 象呈现 目标动 作 , 确定所述目标动作对 应的音频 处理方式 ; 音乐播 放模块 , 用于按照所述音频 处理方式播 放音乐 。 第三 方面, 提供了一种 电子设备, 该电子设备 包括: 一个或 多个处理 器; 存储器 ; 一个或 多个应用 程序, 其中所述一 个或多个 应用程序被 存储在 所述存储 器 中并被配置 为由所述 一个或多 个处理器执 行, 所述一个或多 个程序配 置用 于: 执行上述的基于用 户交互的音 乐播放方 法。 第四 方面, 提供了一种存 储介质, 所述存储介质存储有 至少一条 指令、 至少 一段程序 、 代码集或指令集 , 所述至少一条指令 、 所述至少一段程 序、 所述 代码集或指 令集由 所述处理 器加载并执 行以实现上 述的基 于用户交互 的 音 乐播放方法 。 本公开 实施例通 过视频捕捉 装置采集 目标视频 , 当识别到目标视频 中的 目标 对象产生 目标动作时 , 基于该目标动作确 定对应的音 频处理方 式, 并根 据该 音频处理方 式播放音 乐, 用户可以通过视 频根据 自己的操作 随心所欲 的 创造 个性化音 乐, 音乐创作不受拘 束, 同时提升音乐创 作的趣味 , 提升用户 体验 。 附图说 明 为了更 清楚地说 明本公开 实施例中 的技术方案 , 下面将对本公开 实施例 描述 中所需要 使用的附 图作简单地 介绍。 图 1为本公开实施例 提供的一 种基于用 户交互的 音乐播放方 法的流程 示 意 图; 图 2为本公开实施例 提供的一 种音乐素 材标识显示 示意图; 图 3为本公开实施例 提供的一 种音乐素 材标识选择 方法的流程 示意图 ; 图 4为本公开实施例 提供的一 种音乐素 材选择选项 示意图; 图 5为本公开实施例 提供的一 种交互操 作获取示 意图; 图 6为本公开实施例 提供的一 种基于用 户交互的 音乐播放装 置的结构 示 意 图; 图 7为本公开实施例 提供的一 种设备的 结构示意 图。 结合 附图并参考 以下具体 实施方式 ,本公开各实施例 的上述和其 他特征 、 优点 及方面将 变得更加 明显。 贯穿附图中, 相同或相似的附图标 记表示相 同 或相 似的元素 。应当理解附 图是示意性 的,原件和元 素不一 定按照比例 绘制。 具体 实施方式 下面将 参照附 图更详细地 描述本公 开的实施例 。 虽然附图中显示 了本公 开的 某些实施 例, 然而应当理解 的是, 本公开可以通 过各种形 式来实现 , 而 且不 应该被解释 为限于这 里阐述的 实施例, 相反提供这 些实施例 是为了更加 透彻 和完整地 理解本公 开。 应当理解的是 , 本公开的附图及实施 例仅用 于示 例性 作用 , 并非用于限制 本公开的保 护范围 。 应当理 解, 本公开的方法 实施方式 中记载的各 个步骤可 以按照不 同的顺 序执 行, 和/或并行执行。 此外, 方法实施方式可以 包括附加 的步骤和 /或省 略执 行示出的 步骤。 本公开的范 围在此方面 不受限制 。 本文使 用的术语 “包括” 及其变形 是开放性 包括, 即 “包括但不限于” 。 术语 “基于” 是 “至少部分地基 于” 。 术语 “一个实施例” 表示 “至少一个 实施 例” ; 术语 “另一实施例” 表示 “至少一个另外的 实施例” ; 术语 “一 些 实施例” 表示 “至少一些实施例” 。 其他术语的相关定义将 在下文描 述中 给 出。 需要 注意, 本公开中提及 的 “第一” 、 “第二” 等概念仅用于对 装置、 模块 或单元进行 区分, 并非用于 限定这些装 置、 模块或单元一 定为不同 的装 置 、 模块或单元, 也并非用于限 定这些装置 、 模块或单元所执行 的功能 的顺 序或 者相互依 存关系。 需要 注意, 本公开中提及 的 “一个” 、 “多个” 的修饰是示意性 而非限 制性 的, 本领域技术人 员应当理解 , 除非在上下文另 有明确指 出, 否则应该 理解 为 “一个或多个” 。 本公 开实施方式 中的多个 装置之 间所交互的 消息或者信 息的名 称仅用于 说明 性的目的 , 而并不是用于对这 些消息或 信息的 范围进行限 制。 本公 开提供的基 于用户交 互的音 乐播放方法 、装置、电设备和存 储介质, 旨在 解决已知 技术的如 上技术问题 。 下面 以具体地 实施例对本 公开的技 术方案以及 本公开 的技术方案 如何解 决上 述技术问题 进行详细说 明。 下面这几个具 体的实施 例可以相 互结合, 对 于相 同或相似 的概念或 过程可能 在某些实施 例中不再 赘述。下面将结合 附图, 对本 公开的实施 例进行描 述。 本公 开实施例 中提供了一 种基于用 户交互的 音乐播放方 法,如图 1所示, 该方 法包括: 步骤 S101 , 通过视频捕捉装置采集目标 视频; 步骤 S102, 当所述目标视频中识 别到目标对 象呈现 目标动作, 确定所述 目标 动作对应 的音频处理 方式; 步骤 S103, 按照所述音频处理 方式播放 音乐。 本公 开实施例提 供的基于 用户交互 的音乐播放 方法应用 于终端设 备, 可 以是 该终端设备 中的一个 APP( Application,应用程序),也可以是某个 APP 中的 一个功能 ; 该用户终端可以 配置有视频 捕捉装置 , 可选的, 可以是前置 摄像 头,用户可以通过该 终端设备触 发该音 乐播放方法 的音乐播放 触发操作 , 该终 端设备基于 该音乐播放 触发操作 通过视频 捕捉装置捕 捉目标视 频, 当该 目标 视频中识别 到目标对 象呈现 目标动作时, 根据该 目标动作确定 对应的音 频处 理方式, 并按照该音频处理方 式播放音 乐, 用户可以根据 自己的操作 随 心所 欲的创造 个性化音 乐, 音乐创作不受拘 束, 同时提升音 乐创作的趣味 , 提升 用户体验 。 在本公 开实施例 中, 音乐播放触发操 作是指 用户打开基 于本公开 提供的 实现基 于用户 交互的音 乐播放方法 的 APP 的操作 , 或者开启该 APP 中的基 于该 方法实现 的某项功 能的操作 , 其中, 该功能能够实现本公开 提供的基 于 用户 操作的音 乐播放方 法。 在本公开实施例 中, 目标对象可以是 目标视频 中 人物 身体的某 个部位 , 如手、 脚、 嘴巴等, 目标动作可以是手、 脚的运动或 者嘴 巴的张开 闭合等。 在本公开 实施例中, 可以根据目标对象呈 现的目标 动 作确 定对应的 音频处理方 式, 并按照该音频 处理方式播 放音乐 。 对于本 公开实施 例, 为方便说明, 以一个具体实施例为 例, 可以将本公 开实施 例所提供 的该基 于用户交 互的音乐播 放方法 实现为某 APP 中的一项 音 乐编辑功能 , 用户的音乐生成触 发操作可 以为打开 该 APP 中该功能的 操 作 , 如点击该 APP界面的该 功能对应 的虚拟按钮 , 或者通过语音或者手 势等 操作 开启该功 能, 终端设备响应于 该音乐生成 触发操作 , 通过视频捕捉装置 采集 目标视频 , 可选的可以通过终端 设备的显 示界面显 示该目标视 频, 并对 目标视 频中的 内容进行识 别。 作为本公开一个 实施例, 当识别到目标视频中 存在 目标对象 , 且目标对象呈现 目标动作时 , 确定该目标动作对应 的音频处 理方 式, 可选的, 目标对象可以是 目标视频 中人物身体 的某个部 位, 如手、 脚 、 嘴巴等, 目标动作可以是手 、 脚的运动或者嘴 巴的张开闭合 等。 作为本 公开 一个实施例 , 目标对象呈现 目标动作可 以是目标视 频中人物 的手在视频 中触 碰播放界 面的某个 部位, 可选的, 在确定该 目标动作对应 的音频处理 方 式时 , 可以基于该目标对 应的部位 , 确定与该部位关联 的音频处 理方式, 可 选的 , 不同的部位对应 的音频处理 方式不同 , 在确定完对应的音 频处理方 式 之后 , 按照该音频处理方 式播放音 乐。 本公开 实施例通 过视频捕捉 装置捕捉 目标视频 , 当该目标视频中识别 到 目标 对象呈现 目标动作时 , 根据该目标动作确 定对应的音 频处理方 式, 并按 照该 音频处理方 式播放音 乐, 用户可以根据 自己的操作 随心所欲 的创造个 性 化音 乐, 音乐创作不受拘 束, 同时提升音 乐创作的趣味 , 提升用户体验。 本公开 实施例提 供了一种 可能的实现 方式, 在该实现方 式中, 所述音频 处理 方式具体 为:在所述音乐中添 加所述 目标动作对应 的目标音 轨进行播放 。 在本公 开实施例 中, 按照音轨处理方 式播放音 乐时, 可以是在音 乐中添 加该 目标动作对 应的目标 音轨进行播 放。 对于本 公开实施 例, 不同的目标动作 可以对应 不同的音 频处理方 式, 不 同的 音频处理 方式对应播 放不同的 音轨, 可选的, 按照音频处理 方式播放 音 乐时 , 可以是在音乐中添 加该音频 处理方式对 应的音轨 进行播放 。 作为本公 开一 个实施例 , 音轨可以是预设的 一段音乐 , 也可以是预设的一 种乐器演奏 的音 乐, 可选的, 为预设音乐中某个 乐器演奏 的段落 , 在基于目标动作确 定 对应 的音频处理 方式时, 可以是基于目标动作 确定对应 的音轨, 并在音乐中 添加 该音轨进行 播放。 作为本公开 一个实施例 , 基于目标动作确 定的音轨 为 钢琴 演奏的一段 音乐, 则按照音频处理方式播 放音乐 时, 可以在音乐中添 加 该段 钢琴演奏 的音乐进行 播放。 本公开 实施例基 于目标动作 确定对应 的音频处 理方式, 并确定对应的音 轨, 在按照音频处理方式 播放音 乐时, 将对应的音轨加 入音乐进行 播放, 用 户可 以通过动作 在音乐 中加入不 同的音轨, 音乐可创作性强。 本公开 实施例提 供了一种 可能的实现 方式, 在该实现方 式中, 所述目标 动作 具体为: 在所述 目标视频的播放 界面上 所述目标对 象对所述 播放界面 上 的 目标位置的触 碰动作 ; 所述目标位置与所 述目标音 轨是相对应 的。 在本公 开实施例 中, 目标视频会通过 播放界面 进行展示 , 目标对象为目 标视频 中人物 的手, 对应的, 目标动作为手触 碰播放界 面中的某 个位置 , 可 选的 , 目标动作触碰不 同的位置 , 对应的目标音轨不 同。 对于本 公开实施 例, 目标音轨与播放 界面的 目标位置对应 , 可选的, 当 目标 动作为触碰 到播放界 面的某个 位置时 , 确定该目标动作对应 的音频处理 方式 为播放该位 置对应的 音轨。 作为本公开一 个实施例 , 播放界面的左上 角 对应 的音轨为 吉他演奏的 一段音 乐, 则当识别到目标动作 为触碰到 播放界 面 的左 上角时, 在音乐中加 入该段 吉他演奏的 音乐进行播 放。 本公开 实施例通 过将音轨 与播放界 面的位置对 应, 通过视频中 目标对象 对播放 界面的触 碰, 触发音轨播放 , 进行音乐创作。 本公开 实施例提 供了一种 可能的实现 方式, 在该实现方 式中, 所述目标 音轨 用于承载 目标音乐素 材的音频 ; 在所述播放界面 上的目标位 置标注有 所 述 目标音乐素材 的标识 。 在本公 开实施例 中, 播放界面, 如图 2所示, 在播放界 面 201中显示有 至少 一种音乐素 材标识 202, 其中, 一种音乐素材标识 代表着一 种乐器, 如 钢琴 、 架子鼓、 口琴等, 基于目标视频中 目标对象的 目标动作确 定其对应 的 音 乐标识, 在本公开实施 例中, 播放界面中 显示的音 乐素材标识 可以是预先 配置 好的, 该预配置好 的音乐素材 标识可以 是固定的 一种或多种 音乐素材 的 标识 , 也可以是才艮据不同音乐或者不同音 乐类型 自动配置的 一种或多种 音乐 素材 的标识, 如用户可 以选择其想要 编辑的音 乐或者音 乐类型, 终端设备在 介绍 的用户的选 择操作后 , 根据其选择的音 乐或者音 乐类型, 显示对应的至 少一 种音乐素材 标识。 可选的, 播放的音乐可 以是用户 提前选择 一首歌曲 , 或者 APP提供 的预配置 的歌曲,当目标 动作对应 的事播放界 面中钢琴 的标识 时, 则将该音乐 中钢琴的音轨 加入音 乐并播放 , 可选的, 用户可以选择音乐, 基于 用户的音 乐选择操作 , 显示音乐选择界 面, 该音乐选择界面 中显示有待 选音 乐, 用户可以选择该待 选音乐 中的至少一 首, 则音乐素材标识 可以包括 用户 选择的音 乐包含的音 轨对应的音 乐素材 的标识, 并且, 该音乐素材标识 中还 可以包含 其它的音 乐素材的标 识。 可选的, 用户可以同时点 击多个音 乐 素材 标识, 这时会输出多 个音乐素材 对应的音 轨。 本公 开实施例通 过在播放 界面的 目标位置显示 音乐素材 的标识, 用户可 以根 据音乐需 求, 选择不同音乐素 材对应的 音轨对音 乐进行处理 。 本公 开实施例提 供了一种 可能的实现 方式, 在该实现方 式中, 所述音频 处理 方式具体 为: 按照所述目标动 作对应的 目标音效对 所述音 乐处理后进行 播放 , 所述目标动作具体 为: 与预设姿势相 匹配的动作 ; 所述预设姿势与 所 述 目标音效是相 对应的 。 在本公 开实施例 中, 可以通过识别用 户视频中 的目标动作 , 对音乐添加 特定 特效。 对于本 公开实施 例, 为方便说明, 以一个具体实施例为 例, 目标对象可 以是 用户的手 、 嘴、 头、 眼睛等, 基于目标对象的目标动作为音 乐添加音 乐 特效 。 可选的, 可以才艮据该目标对象的动作, 为该目标对象对 应的音乐素 材 标识对 应的音 乐进行特定 处理, 如对于用户的 手在钢琴 的标识的显 示区域停 留时 , 手指的伸张动作 , 基于该伸张动作调整 钢琴音轨 的响度 、 音调等。 又 或者 , 目标对象为用户的嘴 ,基于用户嘴 的打开 闭合, 为音乐增加颤音效 果, 如在 用户的嘴 张开时, 为音乐增加 颤音效果 。 当然, 增加音乐特效的方式 并 不局 限于本公 开提供的 实施例。 本公 开实施例通 过目标动作 为音乐增 加音乐特 效,音乐创作更加 多样化。 本公 开实施例 中提供了一 种可能的 实现方式 , 如图 3所示, 在该实现方 式种 , 播放界面中显示有 音乐素材 选择选项 , 该方法还包括: 步骤 S301 , 在接收到用户针对音乐素材选择 选项的触 发操作时 , 显示各 候选 音乐素材 标识列表 ; 步骤 S302, 通过各候选 音乐素材 标识列表 接收用 户的音 乐素材选择 操 作 , 根据音乐素材选择操 作所对应 的候选音 乐素材标识 , 确定至少一种音 乐 素材 标识。 在本公 开实施例 中,播放界面中显 示的音 乐素材标识可 以是用户 选择的。 对于本 公开实施 例, 为方便说明, 以一个具体实施 例为例, 如图 4所示, 终端设 备在显示 播放界 面 401时, 该播放界面 401中显示有音乐素 材选择选 项 402, 在接收到用户 针对该音 乐素材选择选 项的触发操 作时, 显示各候选 音 乐素材标识 列表, 并通过该候选 音乐素材标 识列表接 收用户的 音乐素材选 择操 作, 并根据该音乐素 材选择操 作所对应 的音乐素材 标识, 确定至少一种 音 乐素材标识 。 具体的, 可以根据用户的选择 操作, 将用户选择 的所有的 音 乐素 材标识作 为显示在音 乐生成交 互及界面 的音乐素材 , 在用户选择了音 乐 的前 提下, 也可以根据 用户选择 的音乐中 包含的音 乐素材, 当用户选择的音 乐素 材中没有 全部包含 该音乐所 包含的音 乐素材时, 可以将用户选择的音 乐 素材 的标识显示 在播放界 面的同 时, 将用户没有选择但 是该音 乐包含了的 音 乐素 材也显示在 播放界 面。 对于本公开实施 例, 为方便说明, 以一个具体实 施例 为例, 终端设备在响 应与用户 的音乐生成 触发操作 时, 打开视频捕捉装 置 ,并通过该视频捕 捉装置获 取用户视频 ,并将该用户 视频显示在 播放界面 , 如 图 5所示, 在播放界面 501中显示有用 户视频 502以及至少一个音 乐素材 标识 503,识别该用户视 频中目标对 象 504,并获取该 目标对象 504与音乐素 材标 识 503的交互操 作 o 可选的, 该目标对象与音 乐素材标识之 间的交互 操 作可 以是目标 对象停留在 该音乐素 材标识的显 示区域 , 也可以是该目标对 象 在音 乐素材标识 的显示 区域的动作 , 根据该交互操作 涉及的音 乐素材标识 对 应的 音轨生成 音乐。 本公 开实施例通 过在播放 界面显示音 乐素材选 择选项 , 并接收用户对 音 乐素 材的选择操 作, 基于该选择操作 确定需要 在播放界 面显示 的音乐素材 标 识, 用户可以根据自身喜 好选择不 同的音 乐素材去生 成音乐, 个性化更强。 本公 开实施例 中提供了一 种可能的 实现方式 , 在该实施方式中, 当所述 触碰 动作的持 续时长达到 预设的阈值 时, 确定所述触碰 动作为 目标动作。 在本公 开实施例 中, 通过目标对象 的触碰动作 的持续时 间判定该触 碰动 作是 否为目标 动作。 对于本 公开实施 例, 为方便说明, 以一个具体实施例为 例, 目标对象为 用户 视频中用户 的双手 ,根据用户的手在音 乐素材标识 显示区域 的停留时 间, 判定 是否将该 音乐素材 标识对应的 音轨作为音 乐输出, 具体的, 当用户的手 在该 音乐素材 标识显示的 区域停 留时间大于 0.3秒时, 才艮据该音乐素材标识 的音 轨生成音 乐。 当然, 该时间阈值可以由本 领域技术 人员根据 实际情况设 定 , 对此, 本公开不作限定。 本公 开实施例 中提供了一 种可能的 实现方式 , 在该实施方式中, 根据交 互操 作所针对 的目标音 乐素材标识 的音轨生成 音乐, 包括: 若在 同一时间所 述目标动作 对应的 目标音效至 少为两个 , 将所述至少两 个 目标音效进行 节拍对 齐, 并同时播放进行 节拍对齐后 的所述至 少两个 目标 音效 。 在本公 开实施例 中, 目标对象交互操 作的对 象可能同 时存在多个 , 当同 时存 在多个与 目标对象存 在交互操 作的音 乐素材标识 时, 将该多个音乐素 材 标识对 应的音轨 进行节拍对 齐, 并将对齐后的 音轨合成音 乐。 对于本 公开实施 例, 为方便说明, 以一个具体实施例为 例, 终端设备在 通过 视频捕捉装 置捕捉到 用户视频之 后,在播放界 面显示该 用户视频 ,其中, 用户 视屏中的 目标对象为 用户的双 手, 用户的双手可 能同时与 两个音乐素 材 标识有 交互操作 , 则将该两个音 乐素材标识对 应的音轨 进行节拍对 齐, 并将 对齐后 的两个 音轨合成音 乐。 具体的, 如用户的双手 同时与钢琴 和架子鼓 的 标识有 交互操作 , 则根据用户与该 两个标识 的交互操作 开始时刻 , 将钢琴和 架子 鼓的音轨 进行节拍对 齐, 具体的, 如用户先与钢琴 的标识有 交互操作 , 则开 始播放钢琴 对应的音 轨, 在播放钢琴对应 音轨的时候 , 用户的手又与架 子鼓 的标识产生 交互操作 , 则在钢琴的音轨 中用户的手 与架子鼓 产生交互 操 作的 下一个节 拍开始播放 架子鼓对 应的音轨 , 完成两个音轨的 节拍对齐 , 并 将对 齐后的两 个音轨合成 音乐。 本公 开实施例针 对交互操作 对应的音 乐素材标 识同时有多 个时, 将多个 音 乐素材标识对 应的音 乐进行节拍对 齐, 并将对齐后的音 轨合成音 乐, 用户 可以 同时与多 个音乐素材 标识交互 , 形成更加多元化 的音乐。 本公 开实施例提 供了一种基 于用户 交互的音 乐播放装置 , 如图 6所示, 该基 于用户交 互的音乐播 放装置 60可以包括: 界面显示模 块 601、 操作获取 模块 602以及音乐生 成模块 603, 其中, 界面显 示模块 , 用于响应于用户的音 乐生成触 发操作 , 显示播放界面, 其 中, 播放界面中显示 有至少一种 音乐素材 标识; 目标视 频采集模 块 601, 用于通过视频捕 捉装置采 集目标视 频; 目标动 作识别模 块 602, 用于当所述目标视频 中识别到 目标对象呈 现目 标动作 , 确定所述目标动 作对应的音 频处理方 式; 音乐播 放模块 603, 用于按照所述音频 处理方式播 放音乐 。 可选 的, 音乐播放模块 603在按照所述音 频处理方 式播放音 乐时, 所述 音频 处理方式具 体为: 在所述音 乐中添加所 述目标动作 对应的 目标音轨进行 播放 。 可选 的, 目标动作识别模块 602在当所述 目标视频中 识别到 目标对象呈 现 目标动作, 确定所述 目标动作对应 的音频处 理方式时 , 所述目标动作具体 为: 在所述目标视频的播 放界面上 所述目标 对象对所述 播放界面 上的目标 位 置的 触碰动作 ; 所述 目标位置与 所述目标 音轨是相对 应的。 可选 的, 所述目标音轨用 于承载 目标音乐素材 的音频; 在所述 播放界 面上的 目标位置标注 有所述 目标音乐素材 的标识。 可选 的, 音乐播放模块 603在按照所述音 频处理方 式播放音 乐时, 所述 音频 处理方式具 体为: 按照所述 目标动作对应 的目标音 效对所述 音乐处理后 进行播 放。 可选 的, 目标动作识别模块 602在当所述 目标视频中 识别到 目标对象呈 现 目标动作, 确定所述 目标动作对应 的音频处 理方式时 , 所述目标动作具体 为: 与预设姿势相匹配的 动作; 所述预 设姿势与 所述目标音 效是相对 应的。 可选 的, 目标动作识别模块 602还用于: 在接 收到用户针 对音乐素材 选择选项 的触发操作 时, 显示各候选音 乐素 材标 识列表; 通过所 述各候选 音乐素材 标识列表接 收用户的 音乐素材选 择操作 , 根据 所述 音乐素材选 择操作所 对应的候 选音乐素材 标识, 确定所述 目标音乐素材 标识 。 可选 的, 当所述触碰动作 的持续时长 达到预设 的阈值时 , 确定所述触碰 动作 为目标动作 。 可选 的, 音乐播放模块 603按照所述目标 动作对应 的目标音效 对所述音 乐处 理后进行播 放时, 用于: 若在 同一时间所 述目标动作 对应的 目标音效至 少为两个 , 将所述至少两 个 目标音效进行 节拍对 齐, 并同时播放进行 节拍对齐后 的所述至 少两个 目标 音效 。 本公 开实施例的 基于用户 交互的音 乐播放装 置可执行本 公开前述 实施例 所示 的基于用 户交互的 音乐播放 方法, 其实现原理相 类似, 此处不再赘述 。 本公 开实施例通 过基于用 户的音乐生 成触发操 作显示播放 界面, 在该播 放界 面显示音 乐素材标识 , 并基于该播放界 面获取用 户对显示的 音乐素材 标 识的 交互操作 , 根据该交互操作对 应的目标 音乐素材 标识的音轨 生成音 乐, 用户 可以根据 自己的操 作随心所欲 的创造个 性化音 乐, 音乐创作不受拘 束, 同时 提升音 乐创作的趣味 , 提升用户体验。 下面 参考图 7, 其示出了适于用 来实现本公 开实施例 的电子设备 700的 结构 示意图。 本公开实施例中的终 端设备可 以包括但 不限于诸如 移动电话 、 笔记 本电脑、 数字广播接 收器、 PDA (个人数字助理 )、 PAD(平板电脑 )、 PMP (便携式多媒体 播放器 ) 、 车载终端 (例如车载导航终端)等等 的移动 终端 以及诸如数 字 TV、 台式计算机等等的 固定终端 。 图 7示出的电子设 备 仅仅是 一个示 例, 不应对本公开 实施例的功 能和使用 范围带来任 何限制 。 电子设 备包括: 存储器以及处理器 , 其中, 这里的处理器可以称 为下文 的处 理装置 701 , 存储器可以包括下文 中的只读存 储器 (ROM ) 702、 随机 访问存 储器 (RAM ) 703以及存储装 置 708中的至 少一项, 具体如下 所示: 如图 7所示, 电子设备 700可以 包括处理装 置 (例如中央处理 器、 图形 处理 器等 ) 701 , 其可以根据存储在只读存储器 (ROM ) 702 中的程序或者 从存 储装置 708加载到随机访 问存储器 ( RAM) 703中的程序 而执行各 种适 当的 动作和处 理。 在 RAM 703中, 还存储有电子设 备 700操作 所需的各种 程序 和数据 。 处理装置 701、 ROM 702以及 RAM 703通过总线 704彼此相 连。 输入 /输出 ( I/O)接口 705也连接至总线 704o 通常 , 以下装置可以连接 至 I/O接口 705: 包括例如触摸 屏、 触摸板、 键盘 、 鼠标、 摄像头、 麦克风、 加速度计、 陀螺仪等的输入装置 706; 包括 例如 液晶显示 器 (LCD) 、 扬声器、 振动器等的输出装置 707; 包括例如磁 带、硬盘 等的存储 装置 708; 以及通信装置 709。通信装置 709可以允许 电子 设备 700与其他设备 进行无线或 有线通信 以交换数据 。 虽然图 7示出了具 有 各种 装置的电 子设备 700, 但是应理解的是 , 并不要求实施或 具备所有 示出 的装 置。 可以替代地 实施或具备 更多或更 少的装置 。 特别地 , 根据本公开的 实施例, 上文参考流程 图描述 的过程可 以被实现 为计 算机软件程 序。 例如, 本公开的实施例 包括一种计 算机程序 产品, 其包 括承 载在非暂 态计算机可 读介质上 的计算机程 序, 该计算机程序 包含用于 执 行流 程图所示 的方法的 程序代码 。 在这样的实施例中 , 该计算机程序可 以通 过通 信装置 709从网络上被下 载和安装 , 或者从存储装置 708被安装, 或者 从 ROM 702被安装 。 在该计算机程序被 处理装置 701执行时 , 执行本公开 实施 例的方法 中限定的 上述功能 。 需要说 明的是 ,本公开上述的计算 机可读介质 可以是计 算机可读 信号介 质或 者计算机 可读存储介 质或者是 上述两者 的任意组合 。 计算机可读存储 介 质例 如可以是 - 但 不限于 - 电 、 磁、 光、 电磁、 红外线、 或半导体的系 统、 装置或器件, 或者任意以上 的组合。 计算机可读 存储介质 的更具体 的例 子可 以包括但 不限于: 具有一个或多个导 线的电连接 、 便携式计算机磁盘 、 硬盘 、 随机访问存储器 (RAM ) 、 只读存储器(ROM ) 、 可擦式可编程只 读存 储器( EPROM 或闪存 )、光纤、便携式紧凑磁盘只读存 储器( CD-ROM )、 光存 储器件、 磁存储器件 、 或者上述的任 意合适的组 合。 在本公开中, 计算 机可 读存储介质 可以是任 何包含或 存储程序 的有形介 质, 该程序可以被指 令 执行 系统、 装置或者器件 使用或者 与其结合 使用。 而在本公开中, 计算机可 读信 号介质可 以包括在基 带中或者 作为载波 一部分传播 的数据信 号, 其中承 载 了计算机可读 的程序代 码。 这种传播的数据 信号可 以采用多种 形式, 包括 但不 限于电磁信 号、 光信号或上 述的任意合 适的组合 。 计算机可读信号 介质 还可 以是计算机 可读存储 介质以外 的任何计 算机可读介 质, 该计算机可读信 号介 质可以发 送、 传播或者传输用 于由指令 执行系统 、 装置或者器件使用 或 者与 其结合使 用的程序 。 计算机可读介质上 包含的程 序代码可 以用任何 适当 的介 质传输, 包括但不限于: 电线、 光缆、 RF(射频)等等, 或者上述的任 意合 适的组合 。 在一 些实施 方式中 , 客户端、 服务器可以利 用诸如 HTTP ( HyperText Transfer Protocol, 超文本传输协议)之类的任何当前已知 或未来研发 的网络 协议进 行通信 , 并且可以与任意形 式或介质 的数字数 据通信 (例如, 通信网 络 )互连。 通信网络的示例 包括局域 网 ( “LAN” ) , 广域网( “WAN” ) , 网际 网 (例如, 互联网) 以及端对端网络(例如, ad hoc端对端网络 ) , 以 及任 何当前 已知或未来 研发的网 络。 上述计 算机可读 介质可以 是上述电子 设备中所 包含的; 也可以是单独存 在 , 而未装配入该电子设 备中。 上述计 算机可读 介质承载有 一个或者 多个程序 , 当上述一个或者 多个程 序被 该电子设备 执行时,使得 该电子设备 : 响应于用户的音乐生成 触发操作 , 显示播 放界面 , 其中, 播放界面中显示有至 少一种音 乐素材标识 ; 基于播放 界面 , 获取用户对于所显 示的音 乐素材标识 的交互操作 ; 根据交互操作所 针 对的 目标音乐素 材标识的 音轨生成音 乐。 可以 以一种或多 种程序设 计语言或其 组合来编 写用于执行 本公开 的操作 的计 算机程序代 码, 上述程序设计 语言包括但 不限于 面向对象 的程序设计 语 言一 诸如 Java、 Smalltalk. C++, 还包括常规的过程式程序设计语言一诸如 “C” 语言或类似 的程序设 计语言。 程序代码 可以完全 地在用户 计算机上 执 行 、 部分地在用户计算机 上执行 、 作为一个独立的软件 包执行 、 部分在用户 计算机 上部分在 远程计算 机上执行 、或者完全在远程 计算机或服 务器上执 行。 在涉 及远程计 算机的情形 中, 远程计算机可 以通过任 意种类的 网络 — 包括 局域 网(LAN)或广域网(WAN)一连接到用 户计算机 , 或者, 可以连接到外部 计算机 (例如利用因特 网服务提供 商来通过 因特网连接 ) 。 附图 中的流程 图和框图, 图示了按照本公开各 种实施例 的系统、 方法和 计算机 程序产 品的可能 实现的体 系架构、 功能和操作 。 在这点上, 流程图或 框 图中的每个 方框可以 代表一个模 块、 程序段、 或代码的一部 分, 该模块、 程序 段、 或代码的一部 分包含一 个或多个用 于实现规 定的逻辑功 能的可执 行 指令 。 也应当注意, 在有些作为替 换的实现 中, 方框中所标注 的功能也可 以 以不 同于附 图中所标注 的顺序发生 。 例如, 两个接连地表示的 方框实际上 可 以基 本并行地 执行, 它们有时也可 以按相反 的顺序执行 , 这依所涉及的功 能 而定 。 也要注意的是 , 框图和 /或流程图中的每个方 框、 以及框图和 /或流程 图中 的方框的组 合, 可以用执行规 定的功能 或操作的 专用的基 于硬件的 系统 来 实现, 或者可以用专用 硬件与计 算机指令 的组合来 实现。 描述 于本公 开实施例 中所涉 及到的模 块或单 元可以 通过软件 的方式 实 现, 也可以通过硬件的 方式来实现 。 其中, 模块或单元的名称在 某种情况 下 并不 构成对该单 元本身 的限定。 本文 中以上描述 的功能可 以至少部 分地由一 个或多个 硬件逻辑 部件来执 行。 例如, 非限制性地, 可以使用的示范 类型的硬件 逻辑部件 包括: 现场可 编程 门阵列 (FPGA) 、 专用集成电路( ASIC) 、 专用标准产品( ASSP) 、 片上 系统 (SOC) 、 复杂可编程逻辑设备 ( CPLD)等等。 在本公 开的上下 文中, 机器可读介 质可以是有 形的介质 , 其可以包含或 存储 以供指令执 行系统 、 装置或设备使用或 与指令执行 系统、 装置或设备 结 合地 使用的程 序。 机器可读介质可 以是机 器可读信号 介质或机 器可读储存 介 质。 机器可读介 质可以 包括但不 限于电子的 、 磁性的、 光学的、 电磁的、 红 夕卜的、 或半导体系统、 装置或设备, 或者上述内容 的任何合 适组合。 机器可 读存储 介质的更 具体示例 会包括基 于一个或 多个线的 电气连接 、 便携式计算 机盘 、 硬盘、 随机存取存储器 (RAM ) 、 只读存储器(ROM ) 、 可擦除可 编程 只读存储 器 (EPROM 或快闪存储 器) 、 光纤、 便捷式紧凑盘只读存储 器 (CD-ROM )、 光学储存设备、 磁储存设备、 或上述内容的任何 合适组合 。 根据本 公开提供 的一个或 多个实施 例, 提供了一种可 能的实现方 式, 提 供 了一种基于 用户交互 的音乐播放 方法, 该方法包括 : 通过视 频捕捉装 置采集 目标视频; 当所述 目标视频 中识别到 目标对象呈 现目标动作 , 确定所述目标动作 对 应的 音频处理方 式; 按照 所述音频处 理方式播放 音乐。 进一步 的, 所述音频处理 方式具体 为: 在所述音乐中添 加所述 目标动作 对应 的目标音轨 进行播放 。 进一步 的, 所述目标动作 具体为: 在所述 目标视频的播放 界面上 所述目 标对 象对所述播 放界面上 的目标位 置的触碰 动作; 所述 目标位置与 所述目标 音轨是相对 应的。 进一步 的, 所述目标音轨 用于承载 目标音乐素 材的音频 ; 在所述 播放界 面上的 目标位置标注 有所述 目标音乐素材 的标识。 进一步 的, 所述音频处理 方式具体 为: 按照所述目标动 作对应的 目标音 效对 所述音 乐处理后进行 播放。 进一 步的, 所述目标动作 具体为: 与预设姿势相匹配的 动作; 所述预 设姿势与 所述目标 音效是相对 应的。 进一 步的, 所述方法还 包括: 在接 收到用户针 对音乐素材 选择选项 的触发操作 时, 显示各候选音 乐素 材标 识列表; 通过所 述各候选 音乐素材 标识列表接 收用户 的音乐素材 选择操作 , 根据 所述 音乐素材 选择操作所 对应的候 选音乐素材 标识, 确定所述 目标音乐素材 标识 。 进一 步的, 当所述触碰动 作的持续 时长达到预 设的阈值 时, 确定所述触 碰动 作为目标动 作。 进一 步的, 所述按照所述 目标动作 对应的 目标音效对所 述音乐处理 后进 行播 放, 包括: 若在 同一时间所 述目标动作 对应的 目标音效至 少为两个 , 将所述至少两 个 目标音效进行 节拍对 齐, 并同时播放进行 节拍对齐后 的所述至 少两个 目标 音效 。 根据 本公开实施 例提供的 一个或多 个实施例 , 提供了一种可能 的实现方 式 , 提供了一种基于用 户交互的音 乐播放装 置, 包括: 目标视 频采集模 块, 用于通过视频捕 捉装置采 集目标视频 ; 目标动 作识别模 块, 用于当所述 目标视频中识 别到目标对 象呈现 目标动 作 , 确定所述目标动作对 应的音频 处理方式 ; 音乐播 放模块 , 用于按照所述音频 处理方式播 放音乐 。 可选 的, 音乐播放模块 603在按照所述音 频处理方 式播放音 乐时, 所述 音频 处理方式 具体为: 在所述音 乐中添加所 述目标动作 对应的 目标音轨进行 播放 。 可选 的, 目标动作识别模块 602在当所述 目标视频 中识别到 目标对象呈 现 目标动作, 确定所述 目标动作对应 的音频处 理方式时 , 所述目标动作具体 为: 在所述目标视频的播 放界面上 所述目标 对象对所述 播放界 面上的 目标位 置的 触碰动作 ; 所述 目标位置与 所述 目标音轨是相 对应的。 可选 的, 所述目标音轨用 于承载 目标音乐素材 的音频; 在所述 播放界 面上的 目标位置标注 有所述 目标音乐素材 的标识。 可选 的, 音乐播放模块 603在按照所述音 频处理方 式播放音 乐时, 所述 音频 处理方式具 体为: 按照所述 目标动作对应 的目标音 效对所述 音乐处理后 进行播 放。 可选 的, 目标动作识别模块 602在当所述 目标视频中 识别到 目标对象呈 现 目标动作, 确定所述 目标动作对应 的音频处 理方式时 , 所述目标动作具体 为: 与预设姿势相匹配的 动作; 所述预 设姿势与 所述目标音 效是相对 应的。 可选 的, 目标动作识别模块 602还用于: 在接 收到用户针 对音乐素材 选择选项 的触发操作 时, 显示各候选音 乐素 材标 识列表; 通过所 述各候选 音乐素材 标识列表接 收用户的 音乐素材选 择操作 , 根据 所述 音乐素材选 择操作所 对应的候 选音乐素材 标识, 确定所述 目标音乐素材 标识 。 可选 的, 当所述触碰动作 的持续时长 达到预设 的阈值时 , 确定所述触碰 动作 为目标动作 。 可选 的, 音乐播放模块 603按照所述目标 动作对应 的目标音效 对所述音 乐处理 后进行播 放时, 用于: 若在 同一时间所 述目标动作 对应的 目标音效至 少为两个 , 将所述至少两 个 目标音效进行 节拍对齐 , 并同时播放进行节 拍对齐后 的所述至 少两个 目标 音效 。 根据本 公开提供 的一个或 多个实施 例, 提供了一种设备 , 包括: 一个或 多个处理 器; 存储器 ; 一个或 多个应用 程序, 其中一个或 多个应用 程序被存储 在存储器 中并被 配置 为由一个 或多个处理 器执行 , 一个或多个程序配 置用于: 执行上述的基 于用 户交互的 音乐播放 方法。 根据本 公开提供 的一个或 多个实施 例, 提供了一种存储 介质, 存储介质 存储有 至少一条 指令、 至少一段程序、 代码集或指令 集, 至少一条指令 、 至 少一 段程序 、 代码集或指令集由 处理器加载 并执行上 述的基于 用户交互 的音 乐播放 方法。 以上描 述仅为本 公开的较佳 实施例 以及对所运 用技术原 理的说明 。 本领 域技 术人员应 当理解, 本公开中所 涉及的公 开范围, 并不限于上述技术特 征 的特 定组合而 成的技术 方案,同时也应涵盖 在不脱 离上述公开 构思的情 况下, 由上 述技术特征 或其等 同特征进行 任意组合 而形成的 其它技术 方案。 例如上 述特 征与本公 开中公开 的 (但不限于)具有类似功能 的技术特 征进行互相 替 换而 形成的技 术方案。 此外 , 虽然采用特定次序 描绘了各 操作, 但是这不应 当理解为要 求这些 操作 以所示 出的特定次 序或以顺序 次序执行 来执行 。 在一定环境下, 多任务 和并 行处理可 能是有利 的。 同样地, 虽然在上面论述 中包含 了若干具体 实现 细节 , 但是这些不应当被 解释为对本 公开的范 围的限制 。 在单独的实施例 的 上下 文中描述 的某些特 征还可以组 合地实现 在单个实施 例中。 相反地, 在单 个 实施例的上 下文中描 述的各种特 征也可 以单独地或 以任何合 适的子组合 的 方式 实现在多个 实施例 中。 尽管 已经采用特 定于结构 特征和 /或方法逻辑动作 的语言描述 了本主题 , 但是 应当理解 所附权利要 求书中所 限定的主 题未必局 限于上面描 述的特 定特 征或 动作。 相反, 上面所描述的特 定特征和 动作仅仅 是实现权利 要求书的 示 例形 式。

Claims

权 利要 求 书
1、 一种基于用户 交互的音 乐播放方 法, 包括: 通过视 频捕捉装 置采集 目标视频; 当所述 目标视频 中识别到 目标对象呈 现目标动作 , 确定所述目标动作 对 应的 音频处理方 式; 按照 所述音频处 理方式播放 音乐。
2、 根据权利要求 1所述的方法 , 其中, 所述音频处理方式包括 : 在所述 音 乐中添加所 述目标动作 对应的 目标音轨进行 播放。
3、 根据权利要求 2所述的方法 , 其中, 所述目标动作包括: 在所述目标 视频 的播放界 面上所述 目标对象对 所述播放 界面上的 目标位置 的触碰动作 ; 所述 目标位置与 所述目标 音轨是相对 应的。
4、根据权 利要求 3所述的方法 , 其中, 所述目标音轨用于承载目标 音乐 素材 的音频; 在所述 播放界 面上的 目标位置标注 有所述 目标音乐素材 的标识。
5、 根据权利要求 1所述的方法 , 其中, 所述音频处理方式包括 : 按照所 述 目标动作对应 的目标音 效对所述音 乐处理后 进行播放 。
6、 根据权利要求 5所述的方法 , 其中, 所述目标动作包括: 与预设姿势 相 匹配的动作 ; 所述预 设姿势与 所述目标音 效是相对 应的。
7、 根据权利要求 4所述的方 法, 还包括: 在接 收到用户针 对音乐素材 选择选项 的触发操作 时, 显示各候选音 乐素 材标 识列表; 通过所 述各候选 音乐素材 标识列表接 收用户的 音乐素材选 择操作 , 根据 所述 音乐素材选 择操作所 对应的候 选音乐素材 标识, 确定所述 目标音乐素材 标识 。
8、根据权 利要求 3所述的方法 , 其中, 当所述触碰动作的持续时长 达到 预设 的阈值时, 确定所述触碰动作 为目标动作 。
9、根据权 利要求 5所述的方法 , 其中, 所述按照所述目标动作对应 的目 标音 效对所述音 乐处理后 进行播放 , 包括: 若在 同一时间所 述目标动作 对应的 目标音效至 少为两个 , 将所述至少两 个 目标音效进行 节拍对齐 , 并同时播放进行节 拍对齐后 的所述至 少两个 目标 音效 。
10、 一种基于用户 交互的音 乐播放装置 , 包括: 目标视 频采集模 块, 用于通过视频捕捉 装置采 集目标视频 ; 目标动 作识别模 块, 用于当所述 目标视频中识别 到目标对 象呈现 目标动 作 , 确定所述目标动作对 应的音频 处理方式 ; 音乐播 放模块 , 用于按照所述音频 处理方式播 放音乐 。
11、 一种设备, 包括: 一个或 多个处理 器; 存储器 ; 一个或 多个应用 程序, 其中所述一 个或多个 应用程序被 存储在 所述存储 器 中并被配置 为由所述 一个或多 个处理器执 行, 所述一个或多 个程序配 置用 于: 执行根据权利要求 1〜 9任一项所述的基于用户交互 的音乐播放 方法。
12、 一种存储介质 , 其中, 所述存储介质存储有 至少一条 指令、 至少一 段程 序、 代码集或指令 集, 所述至少一条指 令、 所述至少一段 程序、 所述代 码集 或指令集 由所述处理 器加载并 执行以 实现如权利要 求 1~9任一所 述的基 于用 户交互的 音乐播放 方法。
PCT/SG2021/050513 2020-10-27 2021-08-27 基于用户交互的音乐播放方法、装置、设备及存储介质 WO2022093111A1 (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2023503418A JP2023534975A (ja) 2020-10-27 2021-08-27 ユーザーインタラクションに基づく音楽再生方法、装置、機器及び記憶媒体
EP21887046.7A EP4170589A4 (en) 2020-10-27 2021-08-27 USER INTERACTION-BASED MUSIC PLAYBACK METHOD AND APPARATUS, AND DEVICE AND STORAGE MEDIUM
US18/087,576 US11886484B2 (en) 2020-10-27 2022-12-22 Music playing method and apparatus based on user interaction, and device and storage medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011163846.9A CN112380362A (zh) 2020-10-27 2020-10-27 基于用户交互的音乐播放方法、装置、设备及存储介质
CN202011163846.9 2020-10-27

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/087,576 Continuation US11886484B2 (en) 2020-10-27 2022-12-22 Music playing method and apparatus based on user interaction, and device and storage medium

Publications (1)

Publication Number Publication Date
WO2022093111A1 true WO2022093111A1 (zh) 2022-05-05

Family

ID=74576669

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/SG2021/050513 WO2022093111A1 (zh) 2020-10-27 2021-08-27 基于用户交互的音乐播放方法、装置、设备及存储介质

Country Status (5)

Country Link
US (1) US11886484B2 (zh)
EP (1) EP4170589A4 (zh)
JP (1) JP2023534975A (zh)
CN (1) CN112380362A (zh)
WO (1) WO2022093111A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641329A (zh) * 2021-08-10 2021-11-12 广州艾美网络科技有限公司 音效配置方法和装置、智能音箱、计算机设备及存储介质
CN113986191B (zh) * 2021-12-27 2022-06-07 广州酷狗计算机科技有限公司 音频播放方法、装置、终端设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120092167A1 (en) * 2010-10-14 2012-04-19 Sony Corporation Apparatus and method for playing and/or generating audio content for an audience
CN108829253A (zh) * 2018-06-19 2018-11-16 北京科技大学 一种模拟音乐指挥播放方法及装置
CN110827789A (zh) * 2019-10-12 2020-02-21 平安科技(深圳)有限公司 音乐生成方法、电子装置及计算机可读存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101679239B1 (ko) * 2010-07-06 2016-11-24 삼성전자주식회사 휴대용 단말기에서 증강 현실 기법을 이용한 악기 연주를 제공하기 위한 장치 및 방법
US20130050069A1 (en) * 2011-08-23 2013-02-28 Sony Corporation, A Japanese Corporation Method and system for use in providing three dimensional user interface
JP5598490B2 (ja) * 2012-03-19 2014-10-01 カシオ計算機株式会社 演奏装置、方法及びプログラム
US11003708B2 (en) * 2013-04-25 2021-05-11 Trent R. McKenzie Interactive music feedback system
US10299016B2 (en) * 2015-06-17 2019-05-21 Lomotif Private Limited Method for generating a composition of audible and visual media
US9679547B1 (en) * 2016-04-04 2017-06-13 Disney Enterprises, Inc. Augmented reality music composition
CN107562952A (zh) * 2017-09-28 2018-01-09 上海传英信息技术有限公司 音乐匹配播放的方法、装置和终端
US10991349B2 (en) * 2018-07-16 2021-04-27 Samsung Electronics Co., Ltd. Method and system for musical synthesis using hand-drawn patterns/text on digital and non-digital surfaces
US11030813B2 (en) * 2018-08-30 2021-06-08 Snap Inc. Video clip object tracking
US10748515B2 (en) * 2018-12-21 2020-08-18 Electronic Arts Inc. Enhanced real-time audio generation via cloud-based virtualized orchestra
KR20190118994A (ko) * 2019-10-01 2019-10-21 엘지전자 주식회사 음원 포커스 방법 및 장치
CN111399745B (zh) * 2020-03-26 2021-06-25 腾讯音乐娱乐科技(深圳)有限公司 音乐播放方法、音乐播放界面生成方法及相关产品
CN111615002B (zh) * 2020-04-30 2021-07-27 腾讯科技(深圳)有限公司 视频后台播放控制方法、装置、系统及电子设备
CN111757163B (zh) * 2020-06-30 2022-07-01 北京字节跳动网络技术有限公司 视频播放的控制方法、装置、电子设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120092167A1 (en) * 2010-10-14 2012-04-19 Sony Corporation Apparatus and method for playing and/or generating audio content for an audience
CN108829253A (zh) * 2018-06-19 2018-11-16 北京科技大学 一种模拟音乐指挥播放方法及装置
CN110827789A (zh) * 2019-10-12 2020-02-21 平安科技(深圳)有限公司 音乐生成方法、电子装置及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4170589A4

Also Published As

Publication number Publication date
EP4170589A1 (en) 2023-04-26
US20230131975A1 (en) 2023-04-27
JP2023534975A (ja) 2023-08-15
US11886484B2 (en) 2024-01-30
CN112380362A (zh) 2021-02-19
EP4170589A4 (en) 2023-10-11

Similar Documents

Publication Publication Date Title
US20210034176A1 (en) Devices and Methods for Sharing User Interaction
CN104967900B (zh) 一种生成视频的方法和装置
WO2019101015A1 (zh) 音频信号处理方法、装置和存储介质
CN102150128B (zh) 音频用户接口
WO2022083148A1 (zh) 特效展示方法、装置、电子设备及计算机可读介质
US11886484B2 (en) Music playing method and apparatus based on user interaction, and device and storage medium
WO2021218518A1 (zh) 视频的处理方法、装置、设备及介质
WO2022089192A1 (zh) 一种互动处理方法、装置、电子设备和存储介质
WO2022007724A1 (zh) 视频处理方法、装置、设备及存储介质
WO2021012764A1 (zh) 音视频播放方法、装置、电子设备及可读介质
WO2023000918A1 (zh) 视频互动方法、装置、电子设备和存储介质
KR20150079371A (ko) 단말기에서 근전도 검사 장치로 데이터를 전송하기 위한 장치, 시스템 및 방법
WO2021218981A1 (zh) 互动记录的生成方法、装置、设备及介质
WO2022037283A1 (zh) 多媒体播放方法及设备
WO2023088006A1 (zh) 云游戏交互方法、装置、可读介质和电子设备
CN111061405A (zh) 录制歌曲音频的方法、装置、设备及存储介质
WO2022100582A1 (zh) 搜索内容的匹配方法, 装置, 电子设备及存储介质
WO2022017181A1 (zh) 一种互动方法、装置、设备和可读介质
WO2022037552A1 (zh) 内容展示方法及装置
WO2022160603A1 (zh) 歌曲的推荐方法、装置、电子设备及存储介质
WO2024094130A1 (zh) 内容分享方法、装置、设备、计算机可读存储介质及产品
WO2024032635A1 (zh) 媒体内容获取方法、装置、设备、可读存储介质及产品
WO2023134558A1 (zh) 交互方法、装置、电子设备、存储介质和程序产品
WO2024007834A1 (zh) 视频播放方法、装置、设备和存储介质
WO2022257777A1 (zh) 多媒体处理方法、装置、设备及介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21887046

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023503418

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2021887046

Country of ref document: EP

Effective date: 20230120

NENP Non-entry into the national phase

Ref country code: DE