WO2016202176A1 - 一种媒体文件合成方法、装置和设备 - Google Patents

一种媒体文件合成方法、装置和设备 Download PDF

Info

Publication number
WO2016202176A1
WO2016202176A1 PCT/CN2016/084518 CN2016084518W WO2016202176A1 WO 2016202176 A1 WO2016202176 A1 WO 2016202176A1 CN 2016084518 W CN2016084518 W CN 2016084518W WO 2016202176 A1 WO2016202176 A1 WO 2016202176A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
special effect
media file
background sound
duration
Prior art date
Application number
PCT/CN2016/084518
Other languages
English (en)
French (fr)
Inventor
陈齐福
刘夺
薛土林
Original Assignee
深圳新创客电子科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳新创客电子科技有限公司 filed Critical 深圳新创客电子科技有限公司
Publication of WO2016202176A1 publication Critical patent/WO2016202176A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals

Definitions

  • the present invention relates to the field of multimedia synthesis technologies, and in particular, to a media file synthesis method, apparatus and device.
  • a progressive recording method is generally used, that is, pre-recorded text information is played, and the producer reads aloud according to the playing speed of the subtitles at a specific speed according to the requirements of the subtitles in a fixed time. Complete the recording of the story.
  • the technical problem to be solved by the present invention is to provide a method, device and device for synthesizing media files, thereby overcoming the problem that recording multimedia files in the prior art is difficult.
  • a method for synthesizing a media file comprising: receiving a media file template selection instruction input by a creator, and determining a media file template to be synthesized according to the template selection instruction, where the media file template includes prompt information, background sound information, and And/or special effect information and/or picture set information, the prompt information is used to prompt the producer to view the content of the voice information; the voice information of the producer is recorded, and the voice information is sent by the producer according to the prompt information. And acquiring the background sound information and/or the special effect sound information and/or the picture set information in the media file template, and synthesizing the voice information, the background sound information, and/or the special effect sound information and/or the picture set information into the media file.
  • An apparatus comprising: a memory storing a set of computer executable program code; and a processor for executing the computer executable program code for: receiving a media file template selection instruction entered by a producer, according to the template
  • the selection instruction determines a media file template to be synthesized, the media file template including prompt information, background sound information, and/or special effect sound information and/or picture set information, wherein the prompt information is used to prompt the producer to record the voice information. Recording the voice information of the producer, the voice information is sent by the producer according to the prompt information; acquiring background sound information and/or special sound information and/or picture set information in the media file template, The voice information, the background sound information, and/or the special sound information and/or the picture set information are synthesized media files.
  • the beneficial effects of the embodiments of the present invention are as follows:
  • the embodiment of the present invention provides a method, a device, and a device for generating a media file in reverse according to recorded voice information, thereby reducing the efficiency of producing a personalized multimedia file.
  • the complexity used by the author overcomes the problem of difficulty in making multimedia files in the prior art.
  • FIG. 1 is a flowchart of a method for synthesizing a media file according to Embodiment 1 of the present invention
  • FIG. 2 is a schematic structural diagram of a media file recorded and recorded in FIG. 1;
  • FIG. 3 is a flowchart of a method for synthesizing a media file according to Embodiment 2 of the present invention.
  • FIG. 4 is a schematic structural diagram of a media file recorded and recorded in FIG. 3;
  • FIG. 5 is a flowchart of a method for synthesizing a media file according to Embodiment 3 of the present invention.
  • FIG. 6 is a schematic structural diagram of a media file recorded and recorded in FIG. 5;
  • FIG. 7 is a flowchart of a method for synthesizing a media file according to Embodiment 4 of the present invention.
  • FIG. 8 is a schematic structural diagram of a media file recorded and recorded in FIG. 7;
  • FIG. 9 is a flowchart of a method for synthesizing a media file according to Embodiment 5 of the present invention.
  • FIG. 10 is a schematic structural diagram of a media file recorded and recorded in FIG. 9;
  • FIG. 11 is a flowchart of a method for synthesizing a media file according to Embodiment 6 of the present invention.
  • FIG. 12 is a schematic structural diagram of a media file recorded and recorded in FIG. 11;
  • FIG. 13 is a flowchart of a method for synthesizing a media file according to Embodiment 7 of the present invention.
  • FIG. 14 is a schematic structural diagram of a media file generated by recording in FIG. 13;
  • Figure 16 is a block diagram showing the structure of a media file synthesizing apparatus according to a ninth embodiment of the present invention.
  • this embodiment provides a media file synthesizing method, where the method includes the following steps:
  • S101 Receive a media file template selection instruction input by the creator, and determine a media file template to be synthesized according to the template selection instruction, where the media file template includes: prompt information, background sound information, special effect sound information, and picture set information,
  • the prompt information is used to prompt the content of the voice information that the producer needs to record;
  • the prompt information plays the role of prompting the content of the voice information that the producer needs to record, and the voice information of the producer is issued by the producer according to the prompt information.
  • the prompt information may be text information or recorded information.
  • the background sound information, the special effect sound information and the picture set information are constituent contents in the subsequently synthesized media file.
  • the text information can also be used as a constituent content in the subsequently synthesized media file.
  • the synthesized media file is a story recorded by the producer, and the story includes the voice information of the producer (for example, the sound of the producer reading the story), the background sound information (such as background music), and the special sound information (such as thunder). , rain sounds, horseshoe sounds, etc.), photo collection information (such as story illustrations).
  • the author first needs to select the media file template to be recorded in the multimedia template library, that is, the story template, which is the template data preset and stored by the system. For example, if the producer needs to record the story of Little Red Riding Hood, he needs to choose the Little Red Riding Hood template.
  • the method can be applied on an electronic device, and the issuance of the producer's instructions can be achieved by clicking on the screen of the electronic device.
  • the method may further comprise: obtaining a list of media file templates, and outputting the media text The steps of the template list, so that the producer can select the corresponding template according to the output media file template list.
  • the list of media file templates is output to the screen of the electronic device for the creator to select.
  • S102 Recording voice information of the producer, where the voice information is sent by the producer according to the prompt information;
  • the method further comprises: outputting the prompt information.
  • the prompt information is text information
  • the text information in the form of subtitles
  • the electronic device records the story read by the producer
  • the prompt information is the recorded information (That is, when the recorded story is saved, the recording information can be output to the producer through the earphone, and the producer directly reads the story according to the recorded information, and the electronic device records the story read by the producer.
  • the media file template may include one or more pieces of prompt information; before the recording of the producer's voice information, the method further includes: sequentially outputting the prompt information; therefore, the voice information also includes one or more segments.
  • Each piece of voice information is sent by the producer according to each piece of prompt information. That is, the story is recorded in segments, and each piece of prompt information is equivalent to a subtitle or a story recording. After each piece of prompt information is output, the producer voice corresponding to the piece of prompt information is recorded, and then the next piece of prompt information is output... until the producer voice of all the paragraphs is recorded.
  • the manner in which the text information is displayed may be presented in a rolling subtitle manner or in a full screen segmentation manner.
  • the specific manner of presentation is not specifically limited in the present invention.
  • text information is selectively added to the media file, that is, the last generated media file may display the text information, or may not display the text information.
  • S103 Acquire background sound information, special effect sound information and picture set information in the media file template, and synthesize the voice information, background sound information, special effect sound information and picture set information into a media file.
  • the picture set information may include multiple pictures.
  • the special effect sound information needs to be inserted into the voice information or superimposed on the voice information to form special effect sound-speech information;
  • the duration of the voice-to-speech information and the duration of the background sound information determine whether it is necessary to process the duration of the special effect-speech information and/or the duration of the background sound information; if necessary, the duration of the background sound information is performed according to the length of the special-effect sound-speech information Processing, setting a total playing duration of all the pictures in the picture set information to be consistent with the processed background sound information duration, and then superimposing the special effect sound-speech information, the processed background sound information, and the picture set information on the composite medium And processing the duration of the special effect sound-speech information according to the duration of the background sound information, setting the total playing duration of all the pictures in the picture set information to be consistent with the duration of the background sound information, and then performing the processing Special effects sound - voice information, background sound information and
  • the output of the special effect sound-speech information duration and the background sound information duration, or the comparison result of the special effect sound-speech information duration and the background sound information duration (the producer can select the special effect sound-speech according to the output related information)
  • Information and/or background sound information is subjected to related cropping, compression or stretching operations, so that the duration of the special sound-speech information is roughly matched with the duration of the background sound information.
  • the duration of the background sound information may also be slightly longer than the duration of the special sound-speech information.
  • the special effect sound-speech information input by the producer is compressed or stretched, and/or the background sound information is cropped, compressed, or An instruction to stretch processing, compressing or stretching the special effect-speech information according to the instruction, and/or cutting, compressing, or stretching the background sound information.
  • the total playing duration of all the pictures in the picture set information is set to be consistent with the processed background sound information duration, and the special effect sound-speech information (or the processed special effect sound-speech information)
  • the processed background sound information and the image set information are superimposed on the synthesized media file; when the special effect sound-voice information is processed and the background sound information is not processed, the total playing time of all the pictures in the picture set information is set to the background
  • the duration of the audio information is consistent, and the processed special effect sound-speech information, background sound information, and picture set information are superimposed on the synthesized media file. For example, when the duration of the voice information substantially matches the duration of the background sound information, the voice information or the background sound information may not be processed.
  • the producer may select to compress the voice information, and/or stretch the background sound information, and then synthesize the media file; when the voice information duration is less than When the background sound information is long and needs to be processed, the producer may select to stretch the voice information, and/or crop or compress the background sound information, and then synthesize the media file.
  • the prompt information may include one or more segments
  • the background sound information may also include one or more segments
  • the special effect information may also include one or more
  • the image set information may also include one or more groups. Recording the voice information one by one according to the prompt information, inserting each special effect sound information into the front or the back of a certain piece of voice information in a preset order, or each special effect sound information is superimposed on a certain piece of voice information in a preset order to form a special effect sound-
  • the voice information is superimposed with the background sound information and the image set information in a preset order to synthesize the media file. For example, when the recorded voice information includes 5 segments, the background sound information includes 2 segments, the special effect sound information includes 3, and the image set information includes 2 groups, the structure of the recorded media file is as shown in FIG. 2 .
  • the producer can directly play the media file, or share the media file through the network, for example, send the media file to the WeChat/QQ friend through WeChat/QQ, or share the media file to the WeChat circle. /QQ space.
  • the friend receives the media file, he can choose to play.
  • each set of pictures, voices, background sounds, and special effects sounds are played in the order and set time in the media file.
  • a button with a "Heavy Listen" or "Record Story” function can be selected to replay the media file, or the steps of the embodiment can be performed to record the story.
  • the efficiency of the personalized multimedia file is improved, and the producer does not need to control the speaking speed, but the template is used in the post-synthesis.
  • the processing of the files in the file reduces the complexity of the use of the producer, and overcomes the problem that the multimedia files in the prior art are difficult to be produced; in addition, the generated media files include background sound information, special sound information and image set information. Rich in content, making it easier for listeners to integrate into the mood of the story.
  • this embodiment provides a media file synthesizing method.
  • the method is different from Embodiment 1 in that the synthesized media file includes background sound information in addition to the producer's voice information.
  • the method includes the following steps:
  • S201 Receive a media file template selection instruction input by the creator, and determine, according to the template selection instruction, a media file template to be synthesized, where the media file template includes prompt information and background sound information, where the prompt information is used to prompt the producer to record The content of the voice message;
  • S202 Recording a voice information of the producer, where the voice information is sent by the producer according to the prompt information;
  • S203 Acquire background sound information in the media file template, and combine the voice information and background sound information into a media file.
  • the voice information duration and/or the background sound information duration needs to be processed according to the voice information duration and the background sound information duration; if necessary, processing the background sound information duration according to the voice information duration And superimposing the voice information and the processed background sound information on the synthesized media file; or processing the duration of the voice information according to the duration of the background sound information, and superimposing the processed voice information and the background sound information on the synthesized medium And processing the duration of the voice information and the duration of the background sound information, and superimposing the processed voice information and the processed background sound information on the combined media file.
  • the voice information duration and the background sound information duration may be output, or the comparison between the voice information duration and the background sound information duration may be output (the producer may select to correlate the voice information and/or the background sound information according to the output related information.
  • the operation of cropping, compressing or stretching makes the duration of the voice information roughly match the duration of the background sound information.
  • the duration of the background sound information may also be slightly longer than the duration of the voice information, that is, a predetermined length is reserved before and after the start of the voice information.
  • Background sound information receiving an instruction input by the producer to compress or stretch the voice information, and/or cutting, compressing or stretching the background sound information, compressing or pulling the voice information according to the instruction Stretching, and/or cropping, compressing, or stretching the background sound information, superimposing the processed voice information and background sound information
  • the media file is synthesized, or the voice information and the processed background sound information are superimposed on the synthesized media file, or the processed voice information and the processed background sound information are superimposed on the synthesized media file. For example, when the duration of the voice information substantially matches the duration of the background sound information, the voice information or the background sound information may be processed without directly processing the media file; when the voice information duration is longer than the background sound information duration, the producer may select the voice information.
  • the producer may select to stretch the voice information, and / Or crop or compress the background sound information, and then synthesize the media file.
  • the prompt information may include one or more segments
  • the background sound information may also include one or more segments
  • the voice information and the background sound information are superimposed in a preset order to synthesize the media file.
  • the synthesized media file structure is as shown in FIG. 4 .
  • the embodiment provides a media file synthesizing method.
  • the method differs from Embodiment 1 in that the synthesized media file includes special effect sound information in addition to the producer's voice information.
  • the method includes the following steps:
  • S301 Receive a media file template selection instruction input by the creator, and determine, according to the template selection instruction, a media file template to be synthesized, where the media file template includes prompt information and special effect sound information, where the prompt information is used to prompt the producer to record.
  • the content of the voice message
  • S302 Recording a voice information of the producer, where the voice information is sent by the producer according to the prompt information;
  • S303 Acquire special effect sound information in the media file template, and synthesize the voice information and the special effect sound information into a media file.
  • the special effect sound information is inserted into the voice information or superimposed on the voice information to synthesize the media file.
  • the prompt information may be one or more segments.
  • the recorded voice information is one or more segments
  • the special effect sound information may be one or more, and each special effect sound information is inserted into a certain segment of voice information in a preset order. The front or back, or each special effect sound information is superimposed on a certain piece of voice information in a preset order to synthesize the media file.
  • the synthesized media file structure is as shown in FIG. 6.
  • the embodiment provides a media file synthesizing method.
  • the method is different from the embodiment 1 in that the synthesized media file includes photo set information in addition to the producer's voice information.
  • the method includes the following steps:
  • S401 Receive a media file template selection instruction input by the creator, and determine, according to the template selection instruction, a media file template to be synthesized, where the media file template includes prompt information and image set information, where the prompt information is used to prompt the producer to record The content of the voice message;
  • S402 Recording voice information of the producer, where the voice information is sent by the producer according to the prompt information;
  • S403 Acquire the picture set information in the media file template, and synthesize the voice information and the picture set information into a media file.
  • the total playing duration of all the pictures in the picture set information is set to be consistent with the duration of the voice information or the total playing time of all pictures in the picture set information is set to be slightly longer than the voice information duration (ie, before the voice information starts)
  • the picture is reserved for a certain period of time, and then the voice information and the picture set information are superimposed into a media file.
  • the prompt information may include one or more segments
  • the image set information may include one or more groups
  • the voice information and the image set information are superimposed in a preset order to synthesize the media file.
  • the synthesized media file structure is as shown in FIG. 8.
  • the embodiment provides a media file synthesizing method.
  • the method differs from Embodiment 1 in that the synthesized media file includes background sound information and special effect sound information in addition to the producer's voice information. .
  • the method includes the following steps:
  • S501 Receive a media file template selection instruction input by the creator, and determine, according to the template selection instruction, a media file template to be synthesized, where the media file template includes prompt information, background sound information, and special effect sound information, where the prompt information is used for prompting production.
  • S502 Recording a voice information of a producer, where the voice information is sent by the producer according to the prompt information;
  • S503 Acquire background sound information and special effect sound information in the media file template, and synthesize the voice information, the background sound information, and the special effect sound information into a media file.
  • the special effect sound information is inserted into the voice information or superimposed on the voice information to form special effect sound-speech information; whether the special effect sound-speech is needed according to the special effect sound-voice information duration and the background sound information duration Processing the information duration and/or the background sound information duration; if necessary, processing the background sound information duration according to the special effect sound-speech information duration, and superimposing the special effect sound-speech information and the processed background sound information Synthesizing the media file; or processing the duration of the special effect sound-speech information according to the duration of the background sound information, superimposing the processed special effect sound-speech information and background sound information on the synthesized media file, or the special effect sound - processing the voice information duration and the background sound information duration, and superimposing the processed special effect sound-voice information and the processed background sound information on the composite media file.
  • the output of the special effect sound-speech information duration and the background sound information duration, or the comparison result of the special effect sound-speech information duration and the background sound information duration (the producer can select the special effect sound-speech according to the output related information)
  • Information and/or background sound information is subjected to related cropping, compression or stretching operations, so that the duration of the special sound-speech information is roughly matched with the duration of the background sound information.
  • the duration of the background sound information may also be slightly longer than the duration of the special sound-speech information.
  • the special effect sound-speech information input by the producer is compressed or stretched, and/or the background sound information is cropped, compressed, or An instruction of the stretching process, compressing or stretching the special effect sound-speech information according to the instruction, and/or cutting, compressing or stretching the background sound information, and processing the processed special effect sound-speech information,
  • the background sound information is superimposed on the synthesized media file, or the special effect sound-speech information and the processed background sound information are superimposed on the composite media file.
  • sound effects after treatment - voice information the background sound information after a process of superimposing the composite media file.
  • the special effect sound-speech information or the background sound information may be processed without directly synthesizing the media file; when the special effect sound-voice information duration is greater than the background sound information duration
  • the producer may select to compress the special effect sound-speech information, and/or stretch the background sound information, and then synthesize the media file; when the special effect sound-voice information duration is less than the background sound information duration and needs to be processed
  • the producer may choose to stretch the special effect-speech information and/or crop or compress the background sound information, and then synthesize the media file.
  • the prompt information may include one or more segments
  • the background sound information may include one or more segments
  • the special effect information may also include one or more.
  • Each special sound information is inserted in front of a certain piece of voice information in a preset order or The back or each special effect sound information is superimposed on a certain piece of voice information in a preset order to form special effect sound-speech information, and the special effect sound-voice information and the background sound information are superimposed in a preset order to synthesize the media file.
  • the recorded voice information includes 10 segments
  • the background sound information includes 3 segments
  • the special effect sound information includes 5
  • the synthesized media file structure is as shown in FIG.
  • this embodiment provides a media file synthesizing method, which is different from Embodiment 1 in that the synthesized media file includes background sound information and image set information in addition to the producer's voice information. .
  • the method includes the following steps:
  • S601 Receive a media file template selection instruction input by the creator, and determine, according to the template selection instruction, a media file template to be synthesized, where the media file template includes prompt information, background sound information, and image set information, and the prompt information The content of the voice message used to prompt the producer to record;
  • S602 Recording a voice information of the producer, where the voice information is sent by the producer according to the prompt information;
  • S603 Acquire background sound information and picture set information in the media file template, and synthesize the voice information, the background sound information, and the picture set information into a media file.
  • the voice information duration and the background sound information duration may be output, or the comparison between the voice information duration and the background sound information duration may be output (the producer may select to correlate the voice information and/or the background sound information according to the output related information.
  • the operation of cropping, compressing or stretching makes the duration of the voice information roughly match the duration of the background sound information.
  • the duration of the background sound information may also be slightly longer than the duration of the voice information, that is, a predetermined length is reserved before and after the start of the voice information. Background sound information); receiving an instruction input by the producer to compress or stretch the voice information, and/or cutting, compressing or stretching the background sound information, compressing or pulling the voice information according to the instruction Stretching, and/or processing of cropping, compressing, or stretching background sound information.
  • the total playing duration of all the pictures in the picture set information is set to be consistent with the processed background sound information duration, and the voice information/processed voice information and the processed background sound information are And superimposing the synthesized media file with the image set information, or when the voice information is processed, and the background sound information is not processed, the total playing time of all the pictures in the picture set information is set to be consistent with the duration of the background sound information, and the processed The voice information, the processed background sound information, and the picture set information are superimposed on the synthesized media file.
  • the voice information or the background sound information may be processed without directly processing the media file; when the voice information duration is longer than the background sound information duration, the producer may select the voice information. Compressing, and/or stretching the background sound information, and then synthesizing the media file; when the voice information duration is less than the background sound information and needs to be processed, the producer may select to stretch the voice information, and / Or crop or compress the background sound information, and then synthesize the media file.
  • the prompt information may include one or more segments
  • the background sound information may include one or more segments
  • the image set information may also include one or more groups
  • the voice information, the background sound information, and the image set information are superimposed in a preset order.
  • Synthetic media files For example, when the recorded voice information includes 11 segments, the background sound information includes 2 segments, and the image set information includes 3 groups, the synthesized media file structure is as shown in FIG.
  • the synthesized media file structure is as shown in FIG.
  • the embodiment provides a media file synthesizing method.
  • the method differs from Embodiment 1 in that the synthesized media file includes special effect sound information and image set information in addition to the producer's voice information. .
  • the method includes the following steps:
  • S701 Receive a media file template selection instruction input by the creator, and determine, according to the template selection instruction, a media file template to be synthesized, where the media file template includes prompt information, special effect sound information, and image set information, and the prompt information is used for prompting production.
  • S702 Recording a voice information of the producer, where the voice information is sent by the producer according to the prompt information;
  • S703 Acquire special effect sound information and picture set information in the media file template, and synthesize the special effect sound information and the picture set information into a media file.
  • the special effect sound information is inserted into the voice information or superimposed on the voice information to form special effect sound-speech information, and the total playing time of all pictures in the picture set information is set to be longer than the special effect sound-speech information duration. Consistently or set the total playing duration of all the pictures in the picture set information to be slightly longer than the duration of the special effect sound-speech information (ie, the special effect sound - the picture is reserved for a certain period of time before and after the start of the voice information), the special effect will be The tone-to-speech information is superimposed with the picture set information to synthesize the media file.
  • the prompt information may include one or more segments
  • the special sound information may include one or more
  • the image set information may also include one or more groups
  • each special sound information is inserted into a certain piece of voice information in a preset order.
  • the front or back or each special effect sound information is superimposed on a certain piece of voice information in a preset order to form special effect sound-speech information
  • the special effect sound-speech information and the picture set information are superimposed in a preset order to synthesize the media file.
  • the synthesized media file structure is as shown in FIG. 14.
  • the synthesized media file structure is as shown in FIG. 14.
  • the embodiment provides a media file synthesizing method.
  • the method is similar to that in Embodiment 1.
  • the synthesized media file includes background sound information, special effect sound information, and pictures in addition to the producer's voice information. Set information.
  • the method includes the following steps:
  • S801 Obtain a media file template list, and output the media file template list.
  • S802 Receive a media file template selection instruction input by the creator, and determine, according to the template selection instruction, a media file template to be synthesized, where the media file template includes prompt information, background sound information, special effect sound information, and image set information, and the prompt information The content of the voice message used to prompt the producer to record;
  • S804 Recording, in sequence, voice information of the producer, where the voice information is sent by the producer according to the prompt information;
  • S805 Acquire background sound information, special effect sound information, and picture set information in the media file template.
  • S806 insert the special effect sound information into the voice information or superimpose the voice information to form special effect sound-speech information
  • S807 outputting the special effect sound-speech information duration and the background sound information duration, or outputting the comparison result of the special effect sound-voice information duration and the background sound information duration;
  • S808 Receive an instruction of compressing or stretching the special effect sound-speech information input by the producer, and/or cutting, compressing or stretching the background sound information, and compress the special effect sound-voice information according to the instruction. Or stretching, and/or processing of cropping, compressing, or stretching the background sound information; when processing the background sound information, setting the total playing duration of all the pictures in the image set information to the processed background The duration of the sound information is consistent, and the special effect sound information/processed special effect sound-voice information, the processed background sound information and the picture set information are superimposed into a composite media file; when the special effect sound-voice information is processed, the background sound information is not processed. The processed special effect sound-speech information, background sound information, and picture set information are superimposed on the synthesized media file.
  • For a specific implementation process refer to the description of Embodiment 1, and details are not described herein.
  • this embodiment provides a media file synthesizing apparatus, and a broken line frame in the figure indicates contents included in the preferred embodiment.
  • the device includes an instruction receiving module 100, a recording module 200, and a file synthesizing module 300, wherein:
  • the instruction receiving module 100 is configured to receive a media file template selection instruction input by the creator, and determine a media file template to be synthesized according to the template selection instruction, where the media file template includes: prompt information, background sound information, special effect sound information, and a photo set. Information, the prompt information is used to prompt the content of the voice information that the producer needs to record;
  • the device may further include a template list obtaining module 400, configured to obtain a media file template list, thereby facilitating the producer to select a corresponding template according to the output media file template list.
  • a template list obtaining module 400 configured to obtain a media file template list, thereby facilitating the producer to select a corresponding template according to the output media file template list.
  • the list of media file templates is output to the screen of the electronic device for the creator to select.
  • the recording module 200 is configured to record voice information of the producer, and the voice information is determined by the producer according to the prompt information. Issued;
  • the device further includes a prompt information output module 500 for outputting prompt information.
  • the prompt information is text information
  • the prompt information output module 500 may be a screen of the electronic device, and the text information may be output on the screen of the electronic device, the producer reads the story according to the text information, and the electronic device records the story read by the producer.
  • the prompt information is the recorded information (ie, the saved story recording)
  • the prompt information output module 500 may be an audio output port of the electronic device, for example, the recording information may be output to the producer through the earphone, and the producer directly reads the sound information according to the recorded information. Story, a story that the producer reads aloud by an electronic device.
  • the file synthesizing module 300 is configured to acquire background sound information, special effect sound information, and photo collection information in the media file template, and synthesize the voice information, the background sound information, the special effect sound information, and the photo collection information into a media file.
  • the specific process of synthesizing the media file is the same as that described in the foregoing method embodiment, and details are not described herein again.
  • the efficiency of the personalized multimedia file is improved, and the producer does not need to control the speaking speed, but the template is used in the post-synthesis.
  • the processing of the files in the file reduces the complexity of the use of the producer, and overcomes the problem that the multimedia files in the prior art are difficult to be produced; in addition, the generated media files include background sound information, special sound information and image set information. Rich in content, making it easier for listeners to integrate into the mood of the story.
  • the synthesized media file includes background sound information in addition to the producer's voice information.
  • the structure of the device is similar to that of the embodiment, except that the specific functions of the modules in the device are not completely identical. Reference can be made to the description of Embodiment 2.
  • the synthesized media file includes special effect sound information in addition to the producer's voice information.
  • the structure of the device is similar to that of the embodiment, except that the specific functions of the modules in the device are not completely identical. Reference can be made to the description of Embodiment 3.
  • the synthesized media file includes image set information in addition to the producer's voice information.
  • the structure of the device is similar to that of the embodiment, except that the specific functions of the modules in the device are not completely identical. Reference can be made to the description of Embodiment 4.
  • the synthesized media file includes background sound information and special effect sound information in addition to the producer's voice information.
  • the structure of the device is similar to that of the embodiment, but the specific functions of the modules in the device are not implemented. The same is true. For details, refer to the description of Embodiment 5.
  • the synthesized media file includes background sound information and image set information in addition to the producer's voice information.
  • the structure of the device is similar to that of the embodiment, except that the specific functions of the modules in the device are not implemented. The same is true, and the description of Embodiment 6 can be specifically referred to.
  • the synthesized media file includes special effect sound information and picture set information in addition to the producer's voice information.
  • the structure of the device is similar to that of the embodiment, except that the specific functions of the modules in the device are not implemented. The same is true. For details, refer to the description of Embodiment 7.
  • the embodiment provides an apparatus, and the apparatus includes the media file synthesizing apparatus described in Embodiment 9.
  • the device can be an electronic device such as a smart phone, a tablet computer, a notebook computer, or a desktop computer.
  • the apparatus can include a processor and a memory, the computer stores computer executable program code corresponding to the media file composition device, and the processor executes the computer executable program code to implement the corresponding functions.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • disk optical disk

Abstract

本发明涉及多媒体合成技术领域,提供了一种媒体文件合成方法、装置和设备。所述方法包括:接收制作者输入的媒体文件模板选择指令,根据所述模板选择指令确定待合成的媒体文件模板,所述媒体文件模板包括提示信息、背景音信息和/或特效音信息和/或图片集信息,所述提示信息用于提示制作者需要录制的语音信息的内容;录制制作者的语音信息,所述语音信息由制作者根据所述提示信息而发出;获取所述媒体文件模板中的背景音信息和/或特效音信息和/或图片集信息,将所述语音信息、背景音信息和/或特效音信息和/或图片集信息合成媒体文件。本发明克服了现有技术中录制多媒体文件难的问题。

Description

一种媒体文件合成方法、装置和设备
本发明要求2015年6月16日递交的发明名称为“一种媒体文件合成方法、装置和设备”的申请号201510334317.3的在先申请优先权,上述在先申请的内容以引入的方式并入本文本中。
技术领域
本发明涉及多媒体合成技术领域,特别是涉及一种媒体文件合成方法、装置和设备。
背景技术
目前,互联网技术拉近人与人之间距离同时,也增加了人与人交流的手段。拿父母与孩子来说,当父母出差或外出工作时,为留守在家里的小孩录制儿童故事,从而增进父母与孩子的感情已经不是什么难事。
现有技术中,通常采用逐行录制的方法,即播放预先录制好的文字信息,制作者根据所述字幕的播放速度,在固定的时间内,以特定的速度,按照字幕的要求进行朗读,完成故事的录制。而在实际录制过程中,由于制作者对故事内容不熟悉,难以把握语速,难以把握录音进度,导致录制的语音信息和故事模板中的音乐、图片、视频等信息难以协调,比如:由于语速过快,字幕朗读完成后,音乐、图片、视频还未播放完毕,造成录音缺失;或由于语速过慢,在制作者朗读未完成时,音乐、图片、视频等已经播放完毕,造成录音剩余等,以上问题都造成录制的效果差,降低了录制节目的使用效果。
发明内容
本发明要解决的技术问题是提供一种媒体文件合成方法、装置和设备,从而克服现有技术中录制多媒体文件难的问题。
本发明采用如下技术方案:
一种媒体文件合成方法,所述方法包括:接收制作者输入的媒体文件模板选择指令,根据所述模板选择指令确定待合成的媒体文件模板,所述媒体文件模板包括提示信息、背景音信息和/或特效音信息和/或图片集信息,所述提示信息用于提示制作者需要录制的语音信息的内容;录制制作者的语音信息,所述语音信息由制作者根据所述提示信息而发出;取所述媒体文件模板中的背景音信息和/或特效音信息和/或图片集信息,将所述语音信息、背景音信息和/或特效音信息和/或图片集信息合成媒体文件。
一种设备,包括:存储器,存储一组计算机可执行程序代码;以及处理器,用于执行所述计算机可执行程序代码以用于:接收制作者输入的媒体文件模板选择指令,根据所述模板选择指令确定待合成的媒体文件模板,所述媒体文件模板包括提示信息、背景音信息和/或特效音信息和/或图片集信息,所述提示信息用于提示制作者需要录制的语音信息的内容;录制制作者的语音信息,所述语音信息由制作者根据所述提示信息而发出;获取所述媒体文件模板中的背景音信息和/或特效音信息和/或图片集信息,将所述语音信息、背景音信息和/或特效音信息和/或图片集信息合成媒体文件。
本发明实施例的有益效果为:本发明实施例通过提供一种根据录制的语音信息反向生成媒体文件的方法、装置和设备,在提高制作个性化多媒体文件的效率的同时,减少了制 作者使用的复杂度,克服了现有技术中多媒体文件难以制作的问题。
附图说明
图1是本发明实施例1提供的媒体文件合成方法的流程图;
图2是图1中录制生成的媒体文件的结构示意图;
图3是本发明实施例2提供的媒体文件合成方法的流程图;
图4是图3中录制生成的媒体文件的结构示意图;
图5是本发明实施例3提供的媒体文件合成方法的流程图;
图6是图5中录制生成的媒体文件的结构示意图;
图7是本发明实施例4提供的媒体文件合成方法的流程图;
图8是图7中录制生成的媒体文件的结构示意图;
图9是本发明实施例5提供的媒体文件合成方法的流程图;
图10是图9中录制生成的媒体文件的结构示意图;
图11是本发明实施例6提供的媒体文件合成方法的流程图;
图12是图11中录制生成的媒体文件的结构示意图;
图13是本发明实施例7提供的媒体文件合成方法的流程图;
图14是图13中录制生成的媒体文件的结构示意图;
图15是本发明实施例8提供的媒体文件合成方法的流程图;
图16是本发明实施例9提供的媒体文件合成装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
实施例1
如图1所示,本实施例提供了一种媒体文件合成方法,所述方法包括如下步骤:
S101:接收制作者输入的媒体文件模板选择指令,根据所述模板选择指令确定待合成的媒体文件模板,该媒体文件模板包括:提示信息、背景音信息、特效音信息和图片集信息,所述提示信息用于提示制作者需要录制的语音信息的内容;
提示信息起到提示制作者需要录制的语音信息内容的作用,制作者的语音信息由制作者根据该提示信息而发出。所述提示信息可以是文字信息或录音信息。背景音信息、特效音信息和图片集信息是后续合成的媒体文件中的组成内容,当然,文字信息也同样可以作为后续合成的媒体文件中的组成内容。
本实施例中,合成的媒体文件为制作者录制的故事,该故事包括制作者的语音信息(例如制作者朗读故事的声音)、背景音信息(例如背景音乐)、特效音信息(例如雷声、雨声、马蹄声等等)、图片集信息(例如故事插图)等。制作者首先需在多媒体模板库中挑选待录制的媒体文件模板,也即故事模板,该媒体文件模板为系统预先设置和存储的模板数据。例如制作者需录制《小红帽》的故事,则需选择《小红帽》模板。具体地,本方法可以在电子设备上应用,制作者指令的发出可通过在电子设备的屏幕上点击选择实现。
优选地,在本步骤之前,本方法还可以包括获取媒体文件模板列表,输出所述媒体文 件模板列表的步骤,从而方便制作者根据输出的媒体文件模板列表选择相应的模板。例如将媒体文件模板列表输出至电子设备的屏幕上供制作者选择。
S102:录制制作者的语音信息,所述语音信息由制作者根据所述提示信息而发出;
优选地,在本步骤之前,本方法还包括:输出所述提示信息。当提示信息是文字信息时,可在电子设备的屏幕上输出文字信息(类似字幕的形式),制作者根据文字信息朗读故事,由电子设备录制制作者朗读的故事;当提示信息是录音信息(即保存好的故事录音)时,可通过耳机输出录音信息给制作者,制作者直接根据该录音信息朗读故事,由电子设备录制制作者朗读的故事。
优选地,所述媒体文件模板可包括一段或多段提示信息;所述录制制作者的语音信息之前,所述方法还包括:依次输出所述提示信息;因此,所述语音信息也包括一段或多段,每段语音信息由制作者根据每段提示信息而发出。也即该故事是分段录制的,每段提示信息就相当于是一段字幕,或者一段故事录音。每输出一段提示信息、录制好该段提示信息对应的制作者语音之后,再输出下一段提示信息……直至录制完所有段落的制作者语音。
其中,所述文字信息的展示方式,具体可以是以滚动字幕方式进行呈现;也可以是全屏分段的方式进行呈现。其具体呈现方式,本发明不作特殊限定。在最终生成的媒体文件中,文字信息是可选择性地添加到所述媒体文件中的,即最后生成的媒体文件可以显示所述文字信息,也可以不显示所述文字信息。
S103:获取所述媒体文件模板中的背景音信息、特效音信息和图片集信息,将所述语音信息、背景音信息、特效音信息和图片集信息合成媒体文件。
优选地,图片集信息中可包括多幅图片,在合成媒体文件之前,需要将所述特效音信息插入所述语音信息中或者叠加于语音信息上形成特效音-语音信息;然后根据所述特效音-语音信息时长和背景音信息时长判断是否需要对特效音-语音信息时长和/或背景音信息时长进行处理;若需要,根据所述特效音-语音信息时长对所述背景音信息时长进行处理,将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致,然后将所述特效音-语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件;或者根据所述背景音信息时长对所述特效音-语音信息时长进行处理,将所述图片集信息中所有图片的播放总时长设置为与背景音信息时长一致,然后将所述处理后的特效音-语音信息、背景音信息和图片集信息叠加合成媒体文件;或者对所述特效音-语音信息时长、所述背景音信息时长进行处理,将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致,将所述处理后的特效音-语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件。
进一步地,可通过输出特效音-语音信息时长和背景音信息时长,或者输出特效音-语音信息时长和背景音信息时长的对比结果(制作者可根据输出的相关信息,选择对特效音-语音信息和/或背景音信息进行相关裁剪、压缩或拉伸的操作,使特效音-语音信息时长大致和背景音信息时长相匹配,当然,背景音信息时长也可以稍大于特效音-语音信息时长,即语音信息开始之前和结束之后均预留有预定长度的背景音信息);接收制作者输入的对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理的指令,根据所述指令对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理。当对背景音信息进行处理时,将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致,将特效音-语音信息(或者处理后的特效音-语音信息)、处理后的背景音信息和图片集信息叠加合成媒体文件;当对特效音-语音信息进行处理,背景音信息不进行处理时,将图片集信息中所有图片的播放总时长设置为与背景音信息时长一致,将处理后的特效音-语音信息、背景音信息和图片集信息叠加合成媒体文件。例如,当语音信息时长与背景音信息时长大致匹配时,可不用对语音信息或背景音信息进行处理, 直接合成媒体文件;当语音信息时长大于背景音信息时长时,制作者可选择对语音信息进行压缩,和/或对背景音信息进行拉伸的操作,然后再合成媒体文件;当语音信息时长小于背景音信息时长且需要进行处理时,制作者可选择对语音信息进行拉伸,和/或对背景音信息进行裁剪或压缩的操作,然后再合成媒体文件。
此外,提示信息可以包括一段或多段,背景音信息也可以包括一段或多段,特效音信息也可以包括一个或多个,图片集信息也可以包括一组或多组。根据提示信息逐一录制语音信息,将每个特效音信息分别按预设顺序插入某一段语音信息的前面或后面或者每个特效音信息按预设顺序分别叠加于某一段语音信息上形成特效音-语音信息,将特效音-语音信息与背景音信息、图片集信息按预设顺序叠加,合成媒体文件。例如,当录制的语音信息包括5段,背景音信息包括2段,特效音信息包括3个,图片集信息包括2组时,录制生成的媒体文件结构如图2所示。
媒体文件制作完成后,制作者可直接播放该媒体文件,也可以通过网络分享该媒体文件,例如通过微信/QQ将该媒体文件发送给微信/QQ好友,或者将该媒体文件分享到微信朋友圈/QQ空间。好友接收到该媒体文件后,可选择播放。播放该媒体文件时,按媒体文件中的顺序和设定时间播放每一组图片集、语音、背景音和特效音。播放完成后,可选择带有“重听”或者“录制故事”功能的按键,从而重新播放该媒体文件,或者执行本实施例的步骤进行故事的录制。
本实施例通过提供一种根据录制的语音信息反向生成媒体文件的方法,在提高制作个性化多媒体文件的效率的同时,不需要由制作者控制朗读语速,而是在后期合成时对模板中的文件进行处理,减少了制作者使用的复杂度,克服了现有技术中多媒体文件难以制作的问题;此外,生成的媒体文件中既包括背景音信息,也包括特效音信息和图片集信息,内容丰富,使听众更容易融入故事的意境。
实施例2
如图3所示,本实施例提供了一种媒体文件合成方法,该方法与实施例1的区别在于,合成的媒体文件中除制作者的语音信息外,还包括背景音信息。所述方法包括如下步骤:
S201:接收制作者输入的媒体文件模板选择指令,根据所述模板选择指令确定待合成的媒体文件模板,该媒体文件模板包括提示信息、背景音信息,该提示信息用于提示制作者需要录制的语音信息的内容;
S202:录制制作者的语音信息,所述语音信息由制作者根据所述提示信息而发出;
S203:获取所述媒体文件模板中的背景音信息,将所述语音信息和背景音信息合成媒体文件。
具体地,可根据所述语音信息时长和背景音信息时长判断是否需要对语音信息时长和/或背景音信息时长进行处理;若需要,根据所述语音信息时长对所述背景音信息时长进行处理,将所述语音信息和处理后的背景音信息叠加合成媒体文件;或者根据所述背景音信息时长对所述语音信息时长进行处理,将所述处理后的语音信息和背景音信息叠加合成媒体文件;或者对所述语音信息时长和背景音信息时长进行处理,将处理后的语音信息和处理后的背景音信息叠加合成媒体文件。
进一步地,可通过输出语音信息时长和背景音信息时长,或者输出语音信息时长和背景音信息时长的对比结果(制作者可根据输出的相关信息,选择对语音信息和/或背景音信息进行相关裁剪、压缩或拉伸的操作,使语音信息时长大致和背景音信息时长相匹配,当然,背景音信息时长也可以稍大于语音信息时长,即语音信息开始之前和结束之后均预留有预定长度的背景音信息);接收制作者输入的对语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理的指令,根据所述指令对语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理,将处理后的语音信息、背景音信息叠加 合成媒体文件,或者将语音信息、处理后的背景音信息叠加合成媒体文件,或者将处理后的语音信息、处理后的背景音信息叠加合成媒体文件。例如,当语音信息时长与背景音信息时长大致匹配时,可不用对语音信息或背景音信息进行处理,直接合成媒体文件;当语音信息时长大于背景音信息时长时,制作者可选择对语音信息进行压缩,和/或对背景音信息进行拉伸的操作,然后再合成媒体文件;当语音信息时长小于背景音信息时长且需要进行处理时,制作者可选择对语音信息进行拉伸,和/或对背景音信息进行裁剪或压缩的操作,然后再合成媒体文件。
此外,提示信息可以包括一段或多段,背景音信息也可以包括一段或多段,将语音信息与背景音信息按预设顺序叠加,合成媒体文件。具体地,当录制的语音信息包括9段,背景音信息包括3段时,合成的媒体文件结构如图4所示。具体的执行过程可参考实施例1的描述,此处不赘述。
实施例3
如图5所示,本实施例提供了一种媒体文件合成方法,该方法与实施例1的区别在于,合成的媒体文件中除制作者的语音信息外,还包括特效音信息。所述方法包括如下步骤:
S301:接收制作者输入的媒体文件模板选择指令,根据所述模板选择指令确定待合成的媒体文件模板,该媒体文件模板包括提示信息、特效音信息,该提示信息用于提示制作者需要录制的语音信息的内容;
S302:录制制作者的语音信息,所述语音信息由制作者根据所述提示信息而发出;
S303:获取所述媒体文件模板中的特效音信息,将所述语音信息和特效音信息合成媒体文件。
具体地,将所述特效音信息插入所述语音信息中或者叠加于语音信息上,合成媒体文件。
此外,提示信息可以为一段或多段,相应地,录制成的语音信息为一段或多段,所述特效音信息可以为一个或多个,每个特效音信息分别按预设顺序插入某一段语音信息的前面或后面,或者每个特效音信息按预设顺序分别叠加于某一段语音信息上,合成媒体文件。例如,当录制的语音信息包括4段,特效音信息包括2个时,合成的媒体文件结构如图6所示。具体的执行过程可参考实施例1的描述,此处不赘述。
实施例4
如图7所示,本实施例提供了一种媒体文件合成方法,该方法与实施例1的区别在于,合成的媒体文件中除制作者的语音信息外,还包括图片集信息。所述方法包括如下步骤:
S401:接收制作者输入的媒体文件模板选择指令,根据所述模板选择指令确定待合成的媒体文件模板,该媒体文件模板包括提示信息、图片集信息,该提示信息用于提示制作者需要录制的语音信息的内容;
S402:录制制作者的语音信息,所述语音信息由制作者根据所述提示信息而发出;
S403:获取所述媒体文件模板中的图片集信息,将所述语音信息和图片集信息合成媒体文件。
具体地,将所述图片集信息中所有图片的播放总时长设置为与语音信息时长一致或者将所述图片集信息中所有图片的播放总时长设置为稍大于语音信息时长(即语音信息开始之前和结束之后均预留有一定时间的图片播放),然后将所述语音信息和图片集信息叠加合成为媒体文件。
此外,提示信息可以包括一段或多段,所述图片集信息可以包括一组或多组,将语音信息与图片集信息按预设顺序叠加,合成媒体文件。例如,当录制的语音信息包括6段,图片集信息包括2组时,合成的媒体文件结构如图8所示。具体的执行过程可参考实施例1的描述,此处不赘述。
实施例5
如图9所示,本实施例提供了一种媒体文件合成方法,该方法与实施例1的区别在于,合成的媒体文件中除制作者的语音信息外,还包括背景音信息和特效音信息。所述方法包括如下步骤:
S501:接收制作者输入的媒体文件模板选择指令,根据所述模板选择指令确定待合成的媒体文件模板,该媒体文件模板包括提示信息、背景音信息和特效音信息,该提示信息用于提示制作者需要录制的语音信息的内容;
S502:录制制作者的语音信息,所述语音信息由制作者根据所述提示信息而发出;
S503:获取所述媒体文件模板中的背景音信息和特效音信息,将所述语音信息、背景音信息和特效音信息合成媒体文件。
具体地,将所述特效音信息插入所述语音信息中或者叠加于语音信息上形成特效音-语音信息;根据所述特效音-语音信息时长和背景音信息时长判断是否需要对特效音-语音信息时长和/或背景音信息时长进行处理;若需要,根据所述特效音-语音信息时长对所述背景音信息时长进行处理,将所述特效音-语音信息和处理后的背景音信息叠加合成媒体文件;或者根据所述背景音信息时长对所述特效音-语音信息时长进行处理,将所述处理后的特效音-语音信息和背景音信息叠加合成媒体文件,或者对所述特效音-语音信息时长和背景音信息时长进行处理,将处理后的特效音-语音信息和处理后的背景音信息叠加合成媒体文件。
进一步地,可通过输出特效音-语音信息时长和背景音信息时长,或者输出特效音-语音信息时长和背景音信息时长的对比结果(制作者可根据输出的相关信息,选择对特效音-语音信息和/或背景音信息进行相关裁剪、压缩或拉伸的操作,使特效音-语音信息时长大致和背景音信息时长相匹配,当然,背景音信息时长也可以稍大于特效音-语音信息时长,即语音信息开始之前和结束之后均预留有预定长度的背景音信息);接收制作者输入的对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理的指令,根据所述指令对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理,将处理后的特效音-语音信息、背景音信息叠加合成媒体文件,或者将特效音-语音信息、处理后的背景音信息叠加合成媒体文件,或者将处理后的特效音-语音信息、处理后的背景音信息叠加合成媒体文件。例如,当特效音-语音信息时长与背景音信息时长大致匹配时,可不用对特效音-语音信息或背景音信息进行处理,直接合成媒体文件;当特效音-语音信息时长大于背景音信息时长时,制作者可选择对特效音-语音信息进行压缩,和/或对背景音信息进行拉伸的操作,然后再合成媒体文件;当特效音-语音信息时长小于背景音信息时长且需要进行处理时,制作者可选择对特效音-语音信息进行拉伸,和/或对背景音信息进行裁剪或压缩的操作,然后再合成媒体文件。
此外,提示信息可以包括一段或多段,所述背景音信息可以包括一段或多段,特效音信息也可以包括一个或多个,每个特效音信息分别按预设顺序插入某一段语音信息的前面或后面或者每个特效音信息按预设顺序分别叠加于某一段语音信息上形成特效音-语音信息,将特效音-语音信息与背景音信息按预设顺序叠加,合成媒体文件。例如,当录制的语音信息包括10段,背景音信息包括3段,特效音信息包括5个时,合成的媒体文件结构如图10所示。具体的执行过程可参考实施例1的描述,此处不赘述。
实施例6
如图11所示,本实施例提供了一种媒体文件合成方法,该方法与实施例1的区别在于,合成的媒体文件中除制作者的语音信息外,还包括背景音信息和图片集信息。所述方法包括如下步骤:
S601:接收制作者输入的媒体文件模板选择指令,根据所述模板选择指令确定待合成的媒体文件模板,该媒体文件模板包括提示信息、背景音信息和图片集信息,该提示信息 用于提示制作者需要录制的语音信息的内容;
S602:录制制作者的语音信息,所述语音信息由制作者根据所述提示信息而发出;
S603:获取所述媒体文件模板中的背景音信息和图片集信息,将所述语音信息、背景音信息和图片集信息合成媒体文件。
具体地,根据所述语音信息时长和背景音信息时长判断是否需要对语音信息时长和/或背景音信息时长进行处理;若需要,根据所述语音信息时长对所述背景音信息时长进行处理,将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致,将所述语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件;或者根据所述背景音信息时长对所述语音信息时长进行处理,将所述图片集信息中所有图片的播放总时长设置为与背景音信息时长一致,将所述处理后的语音信息、背景音信息和图片集信息叠加合成媒体文件;或者对所述背景音信息时长和所述语音信息时长进行处理,将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致,将所述处理后的语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件。
进一步地,可通过输出语音信息时长和背景音信息时长,或者输出语音信息时长和背景音信息时长的对比结果(制作者可根据输出的相关信息,选择对语音信息和/或背景音信息进行相关裁剪、压缩或拉伸的操作,使语音信息时长大致和背景音信息时长相匹配,当然,背景音信息时长也可以稍大于语音信息时长,即语音信息开始之前和结束之后均预留有预定长度的背景音信息);接收制作者输入的对语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理的指令,根据所述指令对语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理。当对背景音信息进行处理时,将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致,将语音信息/处理后的语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件,或者当对语音信息进行处理,背景音信息不处理时,将所述图片集信息中所有图片的播放总时长设置为与背景音信息时长一致,将处理后的语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件。例如,当语音信息时长与背景音信息时长大致匹配时,可不用对语音信息或背景音信息进行处理,直接合成媒体文件;当语音信息时长大于背景音信息时长时,制作者可选择对语音信息进行压缩,和/或对背景音信息进行拉伸的操作,然后再合成媒体文件;当语音信息时长小于背景音信息时长且需要进行处理时,制作者可选择对语音信息进行拉伸,和/或对背景音信息进行裁剪或压缩的操作,然后再合成媒体文件。
此外,提示信息可以包括一段或多段,所述背景音信息可以包括一段或多段,图片集信息也可以包括一组或多组,将语音信息、背景音信息和图片集信息按预设顺序叠加,合成媒体文件。例如,当录制的语音信息包括11段,背景音信息包括2段,图片集信息包括3组时,合成的媒体文件结构如图12所示。具体的执行过程可参考实施例1的描述,此处不赘述。
实施例7
如图13所示,本实施例提供了一种媒体文件合成方法,该方法与实施例1的区别在于,合成的媒体文件中除制作者的语音信息外,还包括特效音信息和图片集信息。所述方法包括如下步骤:
S701:接收制作者输入的媒体文件模板选择指令,根据所述模板选择指令确定待合成的媒体文件模板,该媒体文件模板包括提示信息、特效音信息和图片集信息,该提示信息用于提示制作者需要录制的语音信息的内容;
S702:录制制作者的语音信息,所述语音信息由制作者根据所述提示信息而发出;
S703:获取所述媒体文件模板中的特效音信息和图片集信息,将所述特效音信息和图片集信息合成媒体文件。
具体地,将所述特效音信息插入所述语音信息中或者叠加于语音信息上形成特效音-语音信息,将所述图片集信息中所有图片的播放总时长设置为与特效音-语音信息时长一致或者将所述图片集信息中所有图片的播放总时长设置为稍大于特效音-语音信息时长(即特效音-语音信息开始之前和结束之后均预留有一定时间的图片播放),将特效音-语音信息与图片集信息叠加合成媒体文件。
此外,提示信息可以包括一段或多段,所述特效音信息可以包括一个或多个,图片集信息也可以包括一组或多组,每个特效音信息分别按预设顺序插入某一段语音信息的前面或后面或者每个特效音信息按预设顺序分别叠加于某一段语音信息上形成特效音-语音信息,将特效音-语音信息和图片集信息按预设顺序叠加,合成媒体文件。
例如,当录制的语音信息包括6段,特效音信息包括3个,图片集信息包括2组时,合成的媒体文件结构如图14所示。具体的执行过程可参考实施例1的描述,此处不赘述。
实施例8
如图15所示,本实施例提供了一种媒体文件合成方法,该方法与实施例1相似,合成的媒体文件中除制作者的语音信息外,还包括背景音信息、特效音信息和图片集信息。所述方法包括如下步骤:
S801:获取媒体文件模板列表,并输出所述媒体文件模板列表;
S802:接收制作者输入的媒体文件模板选择指令,根据所述模板选择指令确定待合成的媒体文件模板,该媒体文件模板包括提示信息、背景音信息、特效音信息和图片集信息,该提示信息用于提示制作者需要录制的语音信息的内容;
S803:依次输出媒体文件模板中的提示信息;
S804:依次录制制作者的语音信息,所述语音信息由制作者根据所述提示信息而发出;
S805:获取所述媒体文件模板中的背景音信息、特效音信息和图片集信息;
S806:将所述特效音信息插入语音信息中或者叠加于语音信息上形成特效音-语音信息;
S807:输出特效音-语音信息时长和背景音信息时长,或者输出特效音-语音信息时长和背景音信息时长的对比结果;
S808:接收制作者输入的对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理的指令,根据所述指令对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理;当对背景音信息进行处理时,将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致,将特效音信息/处理后的特效音-语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件;当对特效音-语音信息进行处理,背景音信息不进行处理时,将处理后的特效音-语音信息、背景音信息和图片集信息叠加合成媒体文件。具体的执行过程可参考实施例1的描述,此处不赘述。
实施例9
如图16所示,本实施例提供了一种媒体文件合成装置,图中虚线框表示优选实施方式所包含的内容。所述装置包括指令接收模块100、录音模块200和文件合成模块300,其中:
指令接收模块100用于接收制作者输入的媒体文件模板选择指令,根据所述模板选择指令确定待合成的媒体文件模板,该媒体文件模板包括:提示信息、背景音信息、特效音信息和图片集信息,所述提示信息用于提示制作者需要录制的语音信息的内容;
优选地,本装置还可以包括模板列表获取模块400,用于获取媒体文件模板列表,从而方便制作者根据输出的媒体文件模板列表选择相应的模板。例如将媒体文件模板列表输出至电子设备的屏幕上供制作者选择。
录音模块200用于录制制作者的语音信息,所述语音信息由制作者根据所述提示信息 而发出;
优选地,本装置中,还可以包括提示信息输出模块500,用于输出提示信息。当提示信息是文字信息时,提示信息输出模块500可以是电子设备的屏幕,也即可在电子设备的屏幕上输出文字信息,制作者根据文字信息朗读故事,由电子设备录制制作者朗读的故事;当提示信息是录音信息(即保存好的故事录音)时,提示信息输出模块500可以是电子设备的音频输出口,例如可通过耳机输出录音信息给制作者,制作者直接根据该录音信息朗读故事,由电子设备录制制作者朗读的故事。
文件合成模块300用于获取所述媒体文件模板中的背景音信息、特效音信息和图片集信息,将所述语音信息、背景音信息、特效音信息和图片集信息合成媒体文件。合成媒体文件的具体过程与上述方法实施例中的描述相同,在此不再赘述。
本实施例通过提供一种根据录制的语音信息反向生成媒体文件的方法,在提高制作个性化多媒体文件的效率的同时,不需要由制作者控制朗读语速,而是在后期合成时对模板中的文件进行处理,减少了制作者使用的复杂度,克服了现有技术中多媒体文件难以制作的问题;此外,生成的媒体文件中既包括背景音信息,也包括特效音信息和图片集信息,内容丰富,使听众更容易融入故事的意境。
在另一实施例中,合成的媒体文件中除制作者的语音信息外,还包括背景音信息,该装置的结构和本实施例相似,只是装置内各模块的具体功能实现不完全相同,具体可参考实施例2的描述。
在另一实施例中,合成的媒体文件中除制作者的语音信息外,还包括特效音信息,该装置的结构和本实施例相似,只是装置内各模块的具体功能实现不完全相同,具体可参考实施例3的描述。
在另一实施例中,合成的媒体文件中除制作者的语音信息外,还包括图片集信息,该装置的结构和本实施例相似,只是装置内各模块的具体功能实现不完全相同,具体可参考实施例4的描述。
在另一实施例中,合成的媒体文件中除制作者的语音信息外,还包括背景音信息和特效音信息,该装置的结构和本实施例相似,只是装置内各模块的具体功能实现不完全相同,具体可参考实施例5的描述。
在另一实施例中,合成的媒体文件中除制作者的语音信息外,还包括背景音信息和图片集信息,该装置的结构和本实施例相似,只是装置内各模块的具体功能实现不完全相同,具体可参考实施例6的描述。
在另一实施例中,合成的媒体文件中除制作者的语音信息外,还包括特效音信息和图片集信息,该装置的结构和本实施例相似,只是装置内各模块的具体功能实现不完全相同,具体可参考实施例7的描述。
实施例10
本实施例提供了一种设备,所述设备包括实施例9所述的媒体文件合成装置。该设备可以是智能手机、平板电脑、笔记本电脑、台式电脑等电子设备。该设备可包括处理器及存储器,存储器存储媒体文件合成装置对应的计算机可执行程序代码,处理器执行计算机可执行程序代码以实现相应的功能。
本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (20)

  1. 一种媒体文件合成方法,其特征在于,所述方法包括:
    接收制作者输入的媒体文件模板选择指令,根据所述模板选择指令确定待合成的媒体文件模板,所述媒体文件模板包括提示信息、背景音信息和/或特效音信息和/或图片集信息,所述提示信息用于提示制作者需要录制的语音信息的内容;
    录制制作者的语音信息,所述语音信息由制作者根据所述提示信息而发出;以及
    获取所述媒体文件模板中的背景音信息和/或特效音信息和/或图片集信息,将所述语音信息、背景音信息和/或特效音信息和/或图片集信息合成媒体文件。
  2. 如权利要求1所示的方法,其特征在于,
    当所述媒体文件模板包括提示信息、背景音信息时,所述获取所述媒体文件模板中的背景音信息,将所述语音信息和背景音信息合成媒体文件具体包括:
    获取所述媒体文件模板中的背景音信息;
    根据所述语音信息时长和背景音信息时长判断是否需要对语音信息时长和/或背景音信息时长进行处理;
    若需要,根据所述语音信息时长对所述背景音信息时长进行处理,将所述语音信息和处理后的背景音信息叠加合成媒体文件;或者根据所述背景音信息时长对所述语音信息时长进行处理,将所述处理后的语音信息和背景音信息叠加合成媒体文件;或者对所述语音信息时长和背景音信息时长进行处理,将处理后的语音信息和处理后的背景音信息叠加合成媒体文件;
    当所述媒体文件模板包括提示信息、特效音信息时,所述获取所述媒体文件模板中的特效音信息,将所述语音信息和特效音信息合成媒体文件具体包括:
    获取所述媒体文件模板中的特效音信息,将所述特效音信息插入所述语音信息中或者叠加于语音信息上,合成媒体文件;
    当所述媒体文件模板包括提示信息、背景音信息和特效音信息时,所述获取所述媒体文件模板中的背景音信息和特效音信息,将所述语音信息、背景音信息和特效音信息合成媒体文件具体包括:
    获取所述媒体文件模板中的背景音信息和特效音信息;
    将所述特效音信息插入所述语音信息中或者叠加于语音信息上形成特效音-语音信息;
    根据所述特效音-语音信息时长和背景音信息时长判断是否需要对特效音-语音信息时长和/或背景音信息时长进行处理;
    若需要,根据所述特效音-语音信息时长对所述背景音信息时长进行处理,将所述特效音-语音信息和处理后的背景音信息叠加合成媒体文件;或者根据所述背景音信息时长对所述特效音-语音信息时长进行处理,将所述处理后的特效音-语音信息和背景音信息叠加合成媒体文件;或者对所述特效音-语音信息时长和背景音信息时长进行处理,将处理后的特效音-语音信息和处理后的背景音信息叠加合成媒体文件;
    当所述媒体文件模板包括提示信息、图片集信息时,所述获取所述媒体文件模板中的图片集信息,将所述语音信息和图片集信息合成媒体文件具体包括:
    获取所述媒体文件模板中的图片集信息;
    将所述图片集信息中所有图片的播放总时长设置为与语音信息时长一致,或者将所述图片集信息中所有图片的播放总时长设置为大于语音信息时长,将所述语音信息和图片集信息叠加合成媒体文件;
    当所述媒体文件模板包括提示信息、背景音信息和图片集信息时,所述获取所述媒体文件模板中的背景音信息和图片集信息,将所述语音信息、背景音信息和图片集信息合成 媒体文件具体包括:
    获取所述媒体文件模板中的背景音信息和图片集信息;
    根据所述语音信息时长和背景音信息时长判断是否需要对语音信息时长和/或背景音信息时长进行处理;
    若需要,根据所述语音信息时长对所述背景音信息时长进行处理,将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致,将所述语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件;或者根据所述背景音信息时长对所述语音信息时长进行处理,将所述图片集信息中所有图片的播放总时长设置为与背景音信息时长一致,将所述处理后的语音信息、背景音信息和图片集信息叠加合成媒体文件;或者对所述背景音信息时长和所述语音信息时长进行处理,将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致,将所述处理后的语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件;
    当所述媒体文件模板包括提示信息、特效音信息和图片集信息时,所述获取所述媒体文件模板中的特效音信息和图片集信息,将所述语音信息、特效音信息和图片集信息合成媒体文件具体包括:
    获取所述媒体文件模板中的特效音信息和图片集信息;
    将所述特效音信息插入所述语音信息中或者叠加于语音信息上形成特效音-语音信息,将所述图片集信息中所有图片的播放总时长设置为与特效音-语音信息时长一致,或者将所述图片集信息中所有图片的播放总时长设置为大于特效音-语音信息时长,将特效音-语音信息与图片集信息叠加合成媒体文件;
    当所述媒体文件模板包括提示信息、背景音信息、特效音信息和图片集信息时,所述获取所述媒体文件模板中的背景音信息、特效音信息和图片集信息,将所述语音信息、背景音信息、特效音信息和图片集信息合成媒体文件具体包括:
    获取所述媒体文件模板中的背景音信息、特效音信息和图片集信息;
    将所述特效音信息插入所述语音信息中或者叠加于语音信息上形成特效音-语音信息;
    根据所述特效音-语音信息时长和背景音信息时长判断是否需要对特效音-语音信息时长和/或背景音信息时长进行处理;
    若需要,根据所述特效音-语音信息时长对所述背景音信息时长进行处理,将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致,将所述特效音-语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件;或者根据所述背景音信息时长对所述特效音-语音信息时长进行处理,将所述图片集信息中所有图片的播放总时长设置为与背景音信息时长一致,将所述处理后的特效音-语音信息、背景音信息和图片集信息叠加合成媒体文件;或者对所述特效音-语音信息时长、所述背景音信息时长进行处理,将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致,将所述处理后的特效音-语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件。
  3. 如权利要求1所述的方法,其特征在于,
    当所述媒体文件模板包括提示信息、背景音信息时,所述获取所述媒体文件模板中的背景音信息,将所述语音信息和背景音信息合成媒体文件具体包括:
    获取所述媒体文件模板中的背景音信息;
    输出语音信息时长和背景音信息时长,或者输出语音信息时长和背景音信息时长的对比结果;
    接收制作者输入的对语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理的指令,根据所述指令对语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理,将处理后的语音信息和背景音信息叠加合成媒体文件,或者将语 音信息和处理后的背景音信息叠加合成媒体文件,或者将处理后的语音信息、处理后的背景音信息叠加合成媒体文件;
    当所述媒体文件模板包括提示信息、背景音信息和特效音信息时,所述获取所述媒体文件模板中的背景音信息和特效音信息,将所述语音信息、背景音信息和特效音信息合成媒体文件具体包括:
    获取所述媒体文件模板中的背景音信息和特效音信息;
    将所述特效音信息插入所述语音信息中或者叠加于语音信息上形成特效音-语音信息;
    输出特效音-语音信息时长和背景音信息时长,或者输出特效音-语音信息时长和背景音信息时长的对比结果;
    接收制作者输入的对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理的指令,根据所述指令对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理,将处理后的特效音-语音信息和背景音信息叠加合成媒体文件,或者将特效音-语音信息和处理后的背景音信息叠加合成媒体文件,或者将处理后的特效音-语音信息、处理后的背景音信息叠加合成媒体文件;
    当所述媒体文件模板包括提示信息、背景音信息和图片集信息时,所述获取所述媒体文件模板中的背景音信息和图片集信息,将所述语音信息、背景音信息和图片集信息合成媒体文件具体包括:
    获取所述媒体文件模板中的背景音信息和图片集信息;
    输出语音信息时长和背景音信息时长,或者输出语音信息时长和背景音信息时长的对比结果;
    接收制作者输入的对语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理的指令,根据所述指令对语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理;当对背景音信息进行处理时,将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致,将语音信息/处理后的语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件,当对语音信息进行处理,背景音信息不进行处理时,将所述图片集信息中所有图片的播放总时长设置为与背景音信息时长一致,将处理后的语音信息、背景音信息和图片集信息叠加合成媒体文件;
    当所述媒体文件模板包括提示信息、背景音信息、特效音信息和图片集信息时,所述获取所述媒体文件模板中的背景音信息、特效音信息和图片集信息,将所述语音信息、背景音信息、特效音信息和图片集信息合成媒体文件具体包括:
    获取所述媒体文件模板中的背景音信息、特效音信息和图片集信息;
    将所述特效音信息插入所述语音信息中或者叠加于语音信息上形成特效音-语音信息;
    输出特效音-语音信息时长和背景音信息时长,或者输出特效音-语音信息时长和背景音信息时长的对比结果;
    接收制作者输入的对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理的指令,根据所述指令对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理;当对背景音信息进行处理时,将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致,将特效音-语音信息/处理后的特效音-语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件;当对特效音-语音信息进行处理,背景音信息不进行处理时,将图片集信息中所有图片的播放总时长设置为与背景音信息时长一致,将处理后的特效音-语音信息、背景音信息和图片集信息叠加合成媒体文件。
  4. 如权利要求1所述的方法,其特征在于,所述录制制作者的语音信息之前,所述方法还包括:输出所述提示信息。
  5. 如权利要求1所述的方法,其特征在于,所述录制制作者的语音信息之前,所述方法还包括:依次输出所述提示信息;
    每段语音信息由制作者根据每段提示信息而发出;
    在获取所述媒体文件模板中的背景音信息的方法中:
    将语音信息与背景音信息按预设顺序叠加,合成媒体文件;
    在获取所述媒体文件模板中的特效音信息的方法中:
    每个特效音信息分别按预设顺序插入某一段语音信息的前面或后面,或者每个特效音信息按预设顺序分别叠加于某一段语音信息上,合成媒体文件;
    在获取所述媒体文件模板中的背景音信息和特效音信息的方法中:
    每个特效音信息分别按预设顺序插入某一段语音信息的前面或后面或者每个特效音信息按预设顺序分别叠加于某一段语音信息上形成特效音-语音信息,将特效音-语音信息与背景音信息按预设顺序叠加,合成媒体文件;
    在获取所述媒体文件模板中的图片集信息的方法中:
    将语音信息与图片集信息按预设顺序叠加,合成媒体文件;
    在获取所述媒体文件模板中的背景音信息和图片集信息的方法中:
    将语音信息、背景音信息和图片集信息按预设顺序叠加,合成媒体文件;
    在获取所述媒体文件模板中的特效音信息和图片集信息的方法中:
    每个特效音信息分别按预设顺序插入某一段语音信息的前面或后面或者每个特效音信息按预设顺序分别叠加于某一段语音信息上形成特效音-语音信息,将特效音-语音信息与图片集信息按预设顺序叠加,合成媒体文件;
    在获取所述媒体文件模板中的背景音信息、特效音信息和图片集信息的方法中:
    每个特效音信息分别按预设顺序插入某一段语音信息的前面或后面或者每个特效音信息按预设顺序分别叠加于某一段语音信息上形成特效音-语音信息,将语音信息、背景音信息和图片集信息按预设顺序叠加,合成媒体文件。
  6. 如权利要求1所述的方法,其特征在于,所述提示信息为文字信息或录音信息。
  7. 如权利要求1所述的方法,其特征在于,所述接收制作者输入的媒体文件模板选择指令之前,所述方法还包括:获取媒体文件模板列表,输出所述媒体文件模板列表。
  8. 一种设备,包括:
    存储器,存储一组计算机可执行程序代码;以及
    处理器,用于执行所述计算机可知执行程序代码以用于:
    接收制作者输入的媒体文件模板选择指令,根据所述模板选择指令确定待合成的媒体文件模板,所述媒体文件模板包括提示信息、背景音信息和/或特效音信息和/或图片集信息,所述提示信息用于提示制作者需要录制的语音信息的内容;
    录制制作者的语音信息,所述语音信息由制作者根据所述提示信息而发出;以及
    获取所述媒体文件模板中的背景音信息和/或特效音信息和/或图片集信息,将所述语音信息、背景音信息和/或特效音信息和/或图片集信息合成媒体文件。
  9. 如权利要求8所述的设备,其特征在于,
    当所述媒体文件模板包括提示信息、背景音信息时,所述获取所述媒体文件模板中的背景音信息,将所述语音信息和背景音信息合成媒体文件具体包括:
    获取所述媒体文件模板中的背景音信息;
    根据所述语音信息时长和背景音信息时长判断是否需要对语音信息时长和/或背景音信息时长进行处理;
    若需要,根据所述语音信息时长对所述背景音信息时长进行处理,将所述语音信息和处理后的背景音信息叠加合成媒体文件;或者根据所述背景音信息时长对所述语音信息时长进行处理,将所述处理后的语音信息和背景音信息叠加合成媒体文件;或者对所述语音信息时长和背景音信息时长进行处理,将处理后的语音信息和处理后的背景音信息叠加合成媒体文件;
    当所述媒体文件模板包括提示信息、特效音信息时,所述获取所述媒体文件模板中的特效音信息,将所述语音信息和特效音信息合成媒体文件具体包括:
    获取所述媒体文件模板中的特效音信息,将所述特效音信息插入所述语音信息中或者叠加于语音信息上,合成媒体文件;
    当所述媒体文件模板包括提示信息、背景音信息和特效音信息时,所述获取所述媒体文件模板中的背景音信息和特效音信息,将所述语音信息、背景音信息和特效音信息合成媒体文件具体包括:
    获取所述媒体文件模板中的背景音信息和特效音信息;
    将所述特效音信息插入所述语音信息中或者叠加于语音信息上形成特效音-语音信息;
    根据所述特效音-语音信息时长和背景音信息时长判断是否需要对特效音-语音信息时长和/或背景音信息时长进行处理;
    若需要,根据所述特效音-语音信息时长对所述背景音信息时长进行处理,将所述特效音-语音信息和处理后的背景音信息叠加合成媒体文件;或者根据所述背景音信息时长对所述特效音-语音信息时长进行处理,将所述处理后的特效音-语音信息和背景音信息叠加合成媒体文件;或者对所述特效音-语音信息时长和背景音信息时长进行处理,将处理后的特效音-语音信息和处理后的背景音信息叠加合成媒体文件;
    当所述媒体文件模板包括提示信息、图片集信息时,所述获取所述媒体文件模板中的图片集信息,将所述语音信息和图片集信息合成媒体文件具体包括:
    获取所述媒体文件模板中的图片集信息;
    将所述图片集信息中所有图片的播放总时长设置为与语音信息时长一致,或者将所述图片集信息中所有图片的播放总时长设置为大于语音信息时长,将所述语音信息和图片集信息叠加合成媒体文件;
    当所述媒体文件模板包括提示信息、背景音信息和图片集信息时,所述获取所述媒体文件模板中的背景音信息和图片集信息,将所述语音信息、背景音信息和图片集信息合成媒体文件具体包括:
    获取所述媒体文件模板中的背景音信息和图片集信息;
    根据所述语音信息时长和背景音信息时长判断是否需要对语音信息时长和/或背景音信息时长进行处理;
    若需要,根据所述语音信息时长对所述背景音信息时长进行处理,将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致,将所述语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件;或者根据所述背景音信息时长对所述语音信息时长进行处理,将所述图片集信息中所有图片的播放总时长设置为与背景音信息时长一致,将所述处理后的语音信息、背景音信息和图片集信息叠加合成媒体文件;或者对所述背景音信息时长和所述语音信息时长进行处理,将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致,将所述处理后的语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件;
    当所述媒体文件模板包括提示信息、特效音信息和图片集信息时,所述获取所述媒体文件模板中的特效音信息和图片集信息,将所述语音信息、特效音信息和图片集信息合成媒体文件具体包括:
    获取所述媒体文件模板中的特效音信息和图片集信息;
    将所述特效音信息插入所述语音信息中或者叠加于语音信息上形成特效音-语音信息,将所述图片集信息中所有图片的播放总时长设置为与特效音-语音信息时长一致,或者将所述图片集信息中所有图片的播放总时长设置为大于特效音-语音信息时长,将特效音-语音信息与图片集信息叠加合成媒体文件;
    当所述媒体文件模板包括提示信息、背景音信息、特效音信息和图片集信息时,所述获取所述媒体文件模板中的背景音信息、特效音信息和图片集信息,将所述语音信息、背景音信息、特效音信息和图片集信息合成媒体文件具体包括:
    获取所述媒体文件模板中的背景音信息、特效音信息和图片集信息;
    将所述特效音信息插入所述语音信息中或者叠加于语音信息上形成特效音-语音信息;
    根据所述特效音-语音信息时长和背景音信息时长判断是否需要对特效音-语音信息时长和/或背景音信息时长进行处理;
    若需要,根据所述特效音-语音信息时长对所述背景音信息时长进行处理,将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致,将所述特效音-语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件;或者根据所述背景音信息时长对所述特效音-语音信息时长进行处理,将所述图片集信息中所有图片的播放总时长设置为与背景音信息时长一致,将所述处理后的特效音-语音信息、背景音信息和图片集信息叠加合成媒体文件;或者对所述特效音-语音信息时长、所述背景音信息时长进行处理,将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致,将所述处理后的特效音-语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件。
  10. 如权利要求8所述的设备,其特征在于,
    当所述媒体文件模板包括提示信息、背景音信息时,所述获取所述媒体文件模板中的背景音信息,将所述语音信息和背景音信息合成媒体文件具体包括:
    获取所述媒体文件模板中的背景音信息;
    输出语音信息时长和背景音信息时长,或者输出语音信息时长和背景音信息时长的对比结果;
    接收制作者输入的对语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理的指令,根据所述指令对语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理,将处理后的语音信息和背景音信息叠加合成媒体文件,或者将语音信息和处理后的背景音信息叠加合成媒体文件,或者将处理后的语音信息、处理后的背景音信息叠加合成媒体文件;
    当所述媒体文件模板包括提示信息、背景音信息和特效音信息时,所述获取所述媒体文件模板中的背景音信息和特效音信息,将所述语音信息、背景音信息和特效音信息合成媒体文件具体包括:
    获取所述媒体文件模板中的背景音信息和特效音信息;
    将所述特效音信息插入所述语音信息中或者叠加于语音信息上形成特效音-语音信息;
    输出特效音-语音信息时长和背景音信息时长,或者输出特效音-语音信息时长和背景音信息时长的对比结果;
    接收制作者输入的对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理的指令,根据所述指令对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理,将处理后的特效音-语音信息和背景音信息叠加合成媒体文件,或者将特效音-语音信息和处理后的背景音信息叠加合成媒体文件,或者将处理后的特效音-语音信息、处理后的背景音信息叠加合成媒体文件;
    当所述媒体文件模板包括提示信息、背景音信息和图片集信息时,所述获取所述媒体 文件模板中的背景音信息和图片集信息,将所述语音信息、背景音信息和图片集信息合成媒体文件具体包括:
    获取所述媒体文件模板中的背景音信息和图片集信息;
    输出语音信息时长和背景音信息时长,或者输出语音信息时长和背景音信息时长的对比结果;
    接收制作者输入的对语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理的指令,根据所述指令对语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理;当对背景音信息进行处理时,将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致,将语音信息/处理后的语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件,当对语音信息进行处理,背景音信息不进行处理时,将所述图片集信息中所有图片的播放总时长设置为与背景音信息时长一致,将处理后的语音信息、背景音信息和图片集信息叠加合成媒体文件;
    当所述媒体文件模板包括提示信息、背景音信息、特效音信息和图片集信息时,所述获取所述媒体文件模板中的背景音信息、特效音信息和图片集信息,将所述语音信息、背景音信息、特效音信息和图片集信息合成媒体文件具体包括:
    获取所述媒体文件模板中的背景音信息、特效音信息和图片集信息;
    将所述特效音信息插入所述语音信息中或者叠加于语音信息上形成特效音-语音信息;
    输出特效音-语音信息时长和背景音信息时长,或者输出特效音-语音信息时长和背景音信息时长的对比结果;
    接收制作者输入的对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理的指令,根据所述指令对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理;当对背景音信息进行处理时,将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致,将特效音-语音信息/处理后的特效音-语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件;当对特效音-语音信息进行处理,背景音信息不进行处理时,将图片集信息中所有图片的播放总时长设置为与背景音信息时长一致,将处理后的特效音-语音信息、背景音信息和图片集信息叠加合成媒体文件。
  11. 如权利要求8所述的设备,其特征在于,所述录制制作者的语音信息之前,所述计算机可执行代码还被执行以用于:输出所述提示信息。
  12. 如权利要求8所述的设备,其特征在于,所述录制制作者的语音信息之前,所述方计算机可执行代码还被执行以用于:依次输出所述提示信息;
    每段语音信息由制作者根据每段提示信息而发出;
    在获取所述媒体文件模板中的背景音信息的方法中:
    将语音信息与背景音信息按预设顺序叠加,合成媒体文件;
    在获取所述媒体文件模板中的特效音信息的方法中:
    每个特效音信息分别按预设顺序插入某一段语音信息的前面或后面,或者每个特效音信息按预设顺序分别叠加于某一段语音信息上,合成媒体文件;
    在获取所述媒体文件模板中的背景音信息和特效音信息的方法中:
    每个特效音信息分别按预设顺序插入某一段语音信息的前面或后面或者每个特效音信息按预设顺序分别叠加于某一段语音信息上形成特效音-语音信息,将特效音-语音信息与背景音信息按预设顺序叠加,合成媒体文件;
    在获取所述媒体文件模板中的图片集信息的方法中:
    将语音信息与图片集信息按预设顺序叠加,合成媒体文件;
    在获取所述媒体文件模板中的背景音信息和图片集信息的方法中:
    将语音信息、背景音信息和图片集信息按预设顺序叠加,合成媒体文件;
    在获取所述媒体文件模板中的特效音信息和图片集信息的方法中:
    每个特效音信息分别按预设顺序插入某一段语音信息的前面或后面或者每个特效音信息按预设顺序分别叠加于某一段语音信息上形成特效音-语音信息,将特效音-语音信息与图片集信息按预设顺序叠加,合成媒体文件;
    在获取所述媒体文件模板中的背景音信息、特效音信息和图片集信息的方法中:
    每个特效音信息分别按预设顺序插入某一段语音信息的前面或后面或者每个特效音信息按预设顺序分别叠加于某一段语音信息上形成特效音-语音信息,将语音信息、背景音信息和图片集信息按预设顺序叠加,合成媒体文件。
  13. 如权利要求8所述的设备,其特征在于,所述提示信息为文字信息或录音信息。
  14. 如权利要求8所述的设备,其特征在于,所述接收制作者输入的媒体文件模板选择指令之前,所述计算机可执行代码还被执行以用于:获取媒体文件模板列表,输出所述媒体文件模板列表。
  15. 一种计算机可读存储媒介,存储计算机可执行指令,所述计算机可执行指令被一设备调用时使所述设备执行以下操作:
    接收制作者输入的媒体文件模板选择指令,根据所述模板选择指令确定待合成的媒体文件模板,所述媒体文件模板包括提示信息、背景音信息和/或特效音信息和/或图片集信息,所述提示信息用于提示制作者需要录制的语音信息的内容;
    录制制作者的语音信息,所述语音信息由制作者根据所述提示信息而发出;以及
    获取所述媒体文件模板中的背景音信息和/或特效音信息和/或图片集信息,将所述语音信息、背景音信息和/或特效音信息和/或图片集信息合成媒体文件。
  16. 如权利要求15所述的计算机可读存储媒介,其特征在于,
    当所述媒体文件模板包括提示信息、背景音信息时,所述获取所述媒体文件模板中的背景音信息,将所述语音信息和背景音信息合成媒体文件具体包括:
    获取所述媒体文件模板中的背景音信息;
    根据所述语音信息时长和背景音信息时长判断是否需要对语音信息时长和/或背景音信息时长进行处理;
    若需要,根据所述语音信息时长对所述背景音信息时长进行处理,将所述语音信息和处理后的背景音信息叠加合成媒体文件;或者根据所述背景音信息时长对所述语音信息时长进行处理,将所述处理后的语音信息和背景音信息叠加合成媒体文件;或者对所述语音信息时长和背景音信息时长进行处理,将处理后的语音信息和处理后的背景音信息叠加合成媒体文件;
    当所述媒体文件模板包括提示信息、特效音信息时,所述获取所述媒体文件模板中的特效音信息,将所述语音信息和特效音信息合成媒体文件具体包括:
    获取所述媒体文件模板中的特效音信息,将所述特效音信息插入所述语音信息中或者叠加于语音信息上,合成媒体文件;
    当所述媒体文件模板包括提示信息、背景音信息和特效音信息时,所述获取所述媒体文件模板中的背景音信息和特效音信息,将所述语音信息、背景音信息和特效音信息合成媒体文件具体包括:
    获取所述媒体文件模板中的背景音信息和特效音信息;
    将所述特效音信息插入所述语音信息中或者叠加于语音信息上形成特效音-语音信息;
    根据所述特效音-语音信息时长和背景音信息时长判断是否需要对特效音-语音信息时长和/或背景音信息时长进行处理;
    若需要,根据所述特效音-语音信息时长对所述背景音信息时长进行处理,将所述特效 音-语音信息和处理后的背景音信息叠加合成媒体文件;或者根据所述背景音信息时长对所述特效音-语音信息时长进行处理,将所述处理后的特效音-语音信息和背景音信息叠加合成媒体文件;或者对所述特效音-语音信息时长和背景音信息时长进行处理,将处理后的特效音-语音信息和处理后的背景音信息叠加合成媒体文件;
    当所述媒体文件模板包括提示信息、图片集信息时,所述获取所述媒体文件模板中的图片集信息,将所述语音信息和图片集信息合成媒体文件具体包括:
    获取所述媒体文件模板中的图片集信息;
    将所述图片集信息中所有图片的播放总时长设置为与语音信息时长一致,或者将所述图片集信息中所有图片的播放总时长设置为大于语音信息时长,将所述语音信息和图片集信息叠加合成媒体文件;
    当所述媒体文件模板包括提示信息、背景音信息和图片集信息时,所述获取所述媒体文件模板中的背景音信息和图片集信息,将所述语音信息、背景音信息和图片集信息合成媒体文件具体包括:
    获取所述媒体文件模板中的背景音信息和图片集信息;
    根据所述语音信息时长和背景音信息时长判断是否需要对语音信息时长和/或背景音信息时长进行处理;
    若需要,根据所述语音信息时长对所述背景音信息时长进行处理,将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致,将所述语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件;或者根据所述背景音信息时长对所述语音信息时长进行处理,将所述图片集信息中所有图片的播放总时长设置为与背景音信息时长一致,将所述处理后的语音信息、背景音信息和图片集信息叠加合成媒体文件;或者对所述背景音信息时长和所述语音信息时长进行处理,将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致,将所述处理后的语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件;
    当所述媒体文件模板包括提示信息、特效音信息和图片集信息时,所述获取所述媒体文件模板中的特效音信息和图片集信息,将所述语音信息、特效音信息和图片集信息合成媒体文件具体包括:
    获取所述媒体文件模板中的特效音信息和图片集信息;
    将所述特效音信息插入所述语音信息中或者叠加于语音信息上形成特效音-语音信息,将所述图片集信息中所有图片的播放总时长设置为与特效音-语音信息时长一致,或者将所述图片集信息中所有图片的播放总时长设置为大于特效音-语音信息时长,将特效音-语音信息与图片集信息叠加合成媒体文件;
    当所述媒体文件模板包括提示信息、背景音信息、特效音信息和图片集信息时,所述获取所述媒体文件模板中的背景音信息、特效音信息和图片集信息,将所述语音信息、背景音信息、特效音信息和图片集信息合成媒体文件具体包括:
    获取所述媒体文件模板中的背景音信息、特效音信息和图片集信息;
    将所述特效音信息插入所述语音信息中或者叠加于语音信息上形成特效音-语音信息;
    根据所述特效音-语音信息时长和背景音信息时长判断是否需要对特效音-语音信息时长和/或背景音信息时长进行处理;
    若需要,根据所述特效音-语音信息时长对所述背景音信息时长进行处理,将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致,将所述特效音-语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件;或者根据所述背景音信息时长对所述特效音-语音信息时长进行处理,将所述图片集信息中所有图片的播放总时长设置为与背景音信息时长一致,将所述处理后的特效音-语音信息、背景音信息和图片集信息 叠加合成媒体文件;或者对所述特效音-语音信息时长、所述背景音信息时长进行处理,将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致,将所述处理后的特效音-语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件。
  17. 如权利要求15所述的计算机可读存储媒介,其特征在于,
    当所述媒体文件模板包括提示信息、背景音信息时,所述获取所述媒体文件模板中的背景音信息,将所述语音信息和背景音信息合成媒体文件具体包括:
    获取所述媒体文件模板中的背景音信息;
    输出语音信息时长和背景音信息时长,或者输出语音信息时长和背景音信息时长的对比结果;
    接收制作者输入的对语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理的指令,根据所述指令对语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理,将处理后的语音信息和背景音信息叠加合成媒体文件,或者将语音信息和处理后的背景音信息叠加合成媒体文件,或者将处理后的语音信息、处理后的背景音信息叠加合成媒体文件;
    当所述媒体文件模板包括提示信息、背景音信息和特效音信息时,所述获取所述媒体文件模板中的背景音信息和特效音信息,将所述语音信息、背景音信息和特效音信息合成媒体文件具体包括:
    获取所述媒体文件模板中的背景音信息和特效音信息;
    将所述特效音信息插入所述语音信息中或者叠加于语音信息上形成特效音-语音信息;
    输出特效音-语音信息时长和背景音信息时长,或者输出特效音-语音信息时长和背景音信息时长的对比结果;
    接收制作者输入的对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理的指令,根据所述指令对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理,将处理后的特效音-语音信息和背景音信息叠加合成媒体文件,或者将特效音-语音信息和处理后的背景音信息叠加合成媒体文件,或者将处理后的特效音-语音信息、处理后的背景音信息叠加合成媒体文件;
    当所述媒体文件模板包括提示信息、背景音信息和图片集信息时,所述获取所述媒体文件模板中的背景音信息和图片集信息,将所述语音信息、背景音信息和图片集信息合成媒体文件具体包括:
    获取所述媒体文件模板中的背景音信息和图片集信息;
    输出语音信息时长和背景音信息时长,或者输出语音信息时长和背景音信息时长的对比结果;
    接收制作者输入的对语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理的指令,根据所述指令对语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理;当对背景音信息进行处理时,将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致,将语音信息/处理后的语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件,当对语音信息进行处理,背景音信息不进行处理时,将所述图片集信息中所有图片的播放总时长设置为与背景音信息时长一致,将处理后的语音信息、背景音信息和图片集信息叠加合成媒体文件;
    当所述媒体文件模板包括提示信息、背景音信息、特效音信息和图片集信息时,所述获取所述媒体文件模板中的背景音信息、特效音信息和图片集信息,将所述语音信息、背景音信息、特效音信息和图片集信息合成媒体文件具体包括:
    获取所述媒体文件模板中的背景音信息、特效音信息和图片集信息;
    将所述特效音信息插入所述语音信息中或者叠加于语音信息上形成特效音-语音信息;
    输出特效音-语音信息时长和背景音信息时长,或者输出特效音-语音信息时长和背景音信息时长的对比结果;
    接收制作者输入的对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理的指令,根据所述指令对特效音-语音信息进行压缩或拉伸、和/或对背景音信息进行裁剪、压缩或拉伸的处理;当对背景音信息进行处理时,将所述图片集信息中所有图片的播放总时长设置为与处理后的背景音信息时长一致,将特效音-语音信息/处理后的特效音-语音信息、处理后的背景音信息和图片集信息叠加合成媒体文件;当对特效音-语音信息进行处理,背景音信息不进行处理时,将图片集信息中所有图片的播放总时长设置为与背景音信息时长一致,将处理后的特效音-语音信息、背景音信息和图片集信息叠加合成媒体文件。
  18. 如权利要求15所述的计算机可读存储媒介,其特征在于,所述录制制作者的语音信息之前,所述计算机可执行代码还被执行以用于:输出所述提示信息。
  19. 如权利要求15所述的计算机可读存储媒介,其特征在于,所述录制制作者的语音信息之前,所述方计算机可执行代码还被执行以用于:依次输出所述提示信息;
    每段语音信息由制作者根据每段提示信息而发出;
    在获取所述媒体文件模板中的背景音信息的方法中:
    将语音信息与背景音信息按预设顺序叠加,合成媒体文件;
    在获取所述媒体文件模板中的特效音信息的方法中:
    每个特效音信息分别按预设顺序插入某一段语音信息的前面或后面,或者每个特效音信息按预设顺序分别叠加于某一段语音信息上,合成媒体文件;
    在获取所述媒体文件模板中的背景音信息和特效音信息的方法中:
    每个特效音信息分别按预设顺序插入某一段语音信息的前面或后面或者每个特效音信息按预设顺序分别叠加于某一段语音信息上形成特效音-语音信息,将特效音-语音信息与背景音信息按预设顺序叠加,合成媒体文件;
    在获取所述媒体文件模板中的图片集信息的方法中:
    将语音信息与图片集信息按预设顺序叠加,合成媒体文件;
    在获取所述媒体文件模板中的背景音信息和图片集信息的方法中:
    将语音信息、背景音信息和图片集信息按预设顺序叠加,合成媒体文件;
    在获取所述媒体文件模板中的特效音信息和图片集信息的方法中:
    每个特效音信息分别按预设顺序插入某一段语音信息的前面或后面或者每个特效音信息按预设顺序分别叠加于某一段语音信息上形成特效音-语音信息,将特效音-语音信息与图片集信息按预设顺序叠加,合成媒体文件;
    在获取所述媒体文件模板中的背景音信息、特效音信息和图片集信息的方法中:
    每个特效音信息分别按预设顺序插入某一段语音信息的前面或后面或者每个特效音信息按预设顺序分别叠加于某一段语音信息上形成特效音-语音信息,将语音信息、背景音信息和图片集信息按预设顺序叠加,合成媒体文件。
  20. 如权利要求15所述的计算机可读存储媒介,其特征在于,所述接收制作者输入的媒体文件模板选择指令之前,所述计算机可执行代码还被执行以用于:获取媒体文件模板列表,输出所述媒体文件模板列表。
PCT/CN2016/084518 2015-06-16 2016-06-02 一种媒体文件合成方法、装置和设备 WO2016202176A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510334317.3 2015-06-16
CN201510334317.3A CN104952471B (zh) 2015-06-16 2015-06-16 一种媒体文件合成方法、装置和设备

Publications (1)

Publication Number Publication Date
WO2016202176A1 true WO2016202176A1 (zh) 2016-12-22

Family

ID=54167080

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2016/084518 WO2016202176A1 (zh) 2015-06-16 2016-06-02 一种媒体文件合成方法、装置和设备

Country Status (2)

Country Link
CN (1) CN104952471B (zh)
WO (1) WO2016202176A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112040310A (zh) * 2020-09-03 2020-12-04 广州优谷信息技术有限公司 一种音视频合成方法、装置、移动终端及存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104952471B (zh) * 2015-06-16 2019-03-26 深圳新创客电子科技有限公司 一种媒体文件合成方法、装置和设备
CN105869447A (zh) * 2016-03-30 2016-08-17 乐视控股(北京)有限公司 有声读物的生成方法及装置
CN105872253B (zh) * 2016-05-31 2020-07-07 腾讯科技(深圳)有限公司 一种直播声音处理方法及移动终端
CN110177155A (zh) * 2019-06-24 2019-08-27 广州酷狗计算机科技有限公司 音频文件的播放方法、装置及系统
CN113132780A (zh) * 2021-04-21 2021-07-16 北京乐学帮网络技术有限公司 一种视频合成的方法、装置、电子设备及可读存储介质
CN112969043B (zh) * 2021-04-28 2021-08-24 北京优幕科技有限责任公司 媒体文件生成、播放方法及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1407445A (zh) * 2001-08-24 2003-04-02 华为技术有限公司 纯软件的交互式语音应答/语音信箱设备的实现方法
US20030104785A1 (en) * 2001-12-03 2003-06-05 Tomohiro Iwanaga Mobile telephone unit using singing voice synthesis and mobile telephone system
CN101083798A (zh) * 2007-07-09 2007-12-05 中兴通讯股份有限公司 一种多媒体语音短信业务的实现方法
CN102752724A (zh) * 2011-04-19 2012-10-24 北京有度致远科技有限公司 多媒体合成视频彩信处理的方法
CN104952471A (zh) * 2015-06-16 2015-09-30 深圳新创客电子科技有限公司 一种媒体文件合成方法、装置和设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1129890C (zh) * 1996-09-10 2003-12-03 联华电子股份有限公司 一种应用于卡片上的具有背景音效的录放音装置及方法
CN1246826C (zh) * 2004-06-01 2006-03-22 安徽中科大讯飞信息科技有限公司 在语音合成系统中将背景音与文本语音混合输出的方法
CN1945691A (zh) * 2006-10-16 2007-04-11 安徽中科大讯飞信息科技有限公司 一种在语音合成系统中提升模板句合成效果的方法
CN101499310A (zh) * 2008-12-25 2009-08-05 爱唱数码科技(上海)有限公司 多媒体档案制作系统及方法
CN101521742A (zh) * 2009-01-23 2009-09-02 史强 一种电影卡拉ok制作方法及其vod点播系统制作
CN103474055A (zh) * 2012-08-06 2013-12-25 苏州沃通信息科技有限公司 一种手机ktv解决方案
CN104333802A (zh) * 2013-12-13 2015-02-04 乐视网信息技术(北京)股份有限公司 一种视频播放方法及视频播放器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1407445A (zh) * 2001-08-24 2003-04-02 华为技术有限公司 纯软件的交互式语音应答/语音信箱设备的实现方法
US20030104785A1 (en) * 2001-12-03 2003-06-05 Tomohiro Iwanaga Mobile telephone unit using singing voice synthesis and mobile telephone system
CN101083798A (zh) * 2007-07-09 2007-12-05 中兴通讯股份有限公司 一种多媒体语音短信业务的实现方法
CN102752724A (zh) * 2011-04-19 2012-10-24 北京有度致远科技有限公司 多媒体合成视频彩信处理的方法
CN104952471A (zh) * 2015-06-16 2015-09-30 深圳新创客电子科技有限公司 一种媒体文件合成方法、装置和设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112040310A (zh) * 2020-09-03 2020-12-04 广州优谷信息技术有限公司 一种音视频合成方法、装置、移动终端及存储介质

Also Published As

Publication number Publication date
CN104952471A (zh) 2015-09-30
CN104952471B (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
WO2016202176A1 (zh) 一种媒体文件合成方法、装置和设备
WO2018149175A1 (zh) 视频录制方法、装置和电子设备
WO2014161282A1 (zh) 视频文件播放进度的调整方法及装置
US8396351B2 (en) Information processing apparatus, information processing method, information processing program and imaging apparatus
CN104869467A (zh) 媒体播放中的信息输出方法、装置和系统
CN106412645B (zh) 向多媒体服务器上传视频文件的方法和装置
JP2017505012A (ja) ビデオ処理方法、装置及び再生装置
JP2008172582A (ja) 議事録作成再生装置
US9928876B2 (en) Recording medium recorded with multi-track media file, method for editing multi-track media file, and apparatus for editing multi-track media file
JP2005341015A (ja) 議事録作成支援機能を有するテレビ会議システム
JP2018078402A (ja) コンテンツ制作装置、及び音声付コンテンツ制作システム
JP2011040921A (ja) コンテンツ生成装置,コンテンツ生成方法およびコンテンツ生成プログラム
US20190019533A1 (en) Methods for efficient annotation of audiovisual media
US8553855B2 (en) Conference support apparatus and conference support method
JP6641045B1 (ja) コンテンツ生成システム、及びコンテンツ生成方法
US7933671B2 (en) Data outputting device, data outputting method, data outputting program, and recording medium
US20080222505A1 (en) Method of capturing a presentation and creating a multimedia file
JP2010066675A (ja) 音声情報処理システム及び音声情報処理プログラム
JP7179387B1 (ja) ハイライト動画生成システム、ハイライト動画生成方法、およびプログラム
KR102025903B1 (ko) 언어 학습을 위한 장치 및 그 제어방법
CN113948054A (zh) 音轨处理方法、装置、电子设备和存储介质
CN203225101U (zh) 卡拉ok录唱录像系统
TW201516717A (zh) 影像播放之系統及其方法
CN115695680A (zh) 视频编辑方法、装置、电子设备及计算机可读存储介质
CN116723361A (zh) 一种视频创作方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16810917

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205 DATED 11/05/2018)

122 Ep: pct application non-entry in european phase

Ref document number: 16810917

Country of ref document: EP

Kind code of ref document: A1